WO2023191570A1 - 어셔 증후군 치료를 위한 유전자 편집 시스템 - Google Patents

어셔 증후군 치료를 위한 유전자 편집 시스템 Download PDF

Info

Publication number
WO2023191570A1
WO2023191570A1 PCT/KR2023/004330 KR2023004330W WO2023191570A1 WO 2023191570 A1 WO2023191570 A1 WO 2023191570A1 KR 2023004330 W KR2023004330 W KR 2023004330W WO 2023191570 A1 WO2023191570 A1 WO 2023191570A1
Authority
WO
WIPO (PCT)
Prior art keywords
sequence
seq
nucleic acid
region
guide
Prior art date
Application number
PCT/KR2023/004330
Other languages
English (en)
French (fr)
Inventor
김용삼
김도연
Original Assignee
주식회사 진코어
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 진코어 filed Critical 주식회사 진코어
Publication of WO2023191570A1 publication Critical patent/WO2023191570A1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K31/00Medicinal preparations containing organic active ingredients
    • A61K31/70Carbohydrates; Sugars; Derivatives thereof
    • A61K31/7088Compounds having three or more nucleosides or nucleotides
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K48/00Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P43/00Drugs for specific purposes, not provided for in groups A61P1/00-A61P41/00
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/85Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
    • C12N15/86Viral vectors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/10Transferases (2.)
    • C12N9/12Transferases (2.) transferring phosphorus containing groups, e.g. kinases (2.7)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2750/00MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA ssDNA viruses
    • C12N2750/00011Details
    • C12N2750/14011Parvoviridae
    • C12N2750/14111Dependovirus, e.g. adenoassociated viruses
    • C12N2750/14141Use of virus, viral particle or viral elements as a vector
    • C12N2750/14143Use of virus, viral particle or viral elements as a vector viral genome or elements thereof as genetic vector

Definitions

  • the present invention relates to the treatment of Usher syndrome using the CRISPR/Cas12f1 system. Specifically, the present invention relates to a gene editing system, composition, and treatment method based on the CRISPR/Cas12f1 system for treating Usher syndrome.
  • Usher syndrome is a rare genetic disorder that causes hearing impairment and vision impairment.
  • the main symptoms of Usher syndrome are hearing loss and an eye disorder called retinitis pigmentosa, which causes night blindness and loss of peripheral vision through progressive degeneration of the retina. Additionally, many people with Usher syndrome have severe balance problems.
  • Usher syndrome is an autosomal recessive disease characterized by congenital bilateral sensorineural hearing loss and retinitis pigmentosa. Three types have been clinically reported so far. Type 1 is the most severe form and shows bilateral severe to profound hearing loss and loss of vestibular function, and night blindness, severe visual field narrowing, and decreased vision usually appear before the teenage years.
  • Type 2 has moderate to severe hearing loss and normal vestibular function, and night blindness, narrowing of the field of vision, and decreased vision begin in the late teens or early 20s.
  • Type 3 is rare and shows progressive hearing loss and various vestibular function abnormalities.
  • type 2 Usher syndrome is known to be caused by a mutation in the USH2A (Usherin) gene, which expresses Usherin protein, a basement membrane protein expressed in the retina and inner ear. Symptoms of type 2 (more specifically, type 2A) Usher syndrome appear due to c.2276G>T, c.2299delG gene mutations occurring in exon 13, which are the most common mutations in the USH2A gene. It is known.
  • Non-patent Document 1 Pendse, Nachiket D et al. “In Vivo Assessment of Potential Therapeutic Approaches for USH2A-Associated Diseases.” Advances in experimental medicine and biology vol. 1185 (2019): 91-96.
  • Non-patent Document 2 Pendse, Nachiket D et al. “Exon 13-skipped USH2A protein retains functional integrity in mice, suggesting an exo-skipping therapeutic approach to treat USH2A-associated disease.” bioRxiv 2020.02.04.934240.
  • the purpose of the present invention is to solve all the problems of the prior art described above.
  • Another purpose of the present invention is to provide a gene editing technology for treating Usher syndrome that exhibits improved gene editing efficiency and can be implemented as an ultra-small structure that can be accommodated in various delivery vehicles, including adeno-associated virus (AAV).
  • AAV adeno-associated virus
  • Another object of the present invention is to provide a CRISPR/Cas system-based gene editing technology for deleting a nucleic acid segment including exon 13 in the USH2A (Usherin) gene.
  • Another object of the present invention is to provide a method of treating Usher syndrome or delaying the onset or progression of Usher syndrome using CRISPR/Cas system-based gene editing technology.
  • a representative configuration of the present invention to achieve the above object is as follows.
  • an endonuclease comprising a Cas12f1 molecule or a nucleic acid encoding the endonuclease; Containing a first guide sequence hybridizable to a contiguous 15 to 30 bp long target sequence that exists in a region 5000 bp upstream of USH2A exon 13 and is located adjacent to the PAM (protospacer-adjacent motif) sequence recognized by the Cas12f1 molecule.
  • PAM protospacer-adjacent motif
  • a USH2A gene editing system or a composition for USH2A gene editing comprising a nucleic acid encoding the second guide RNA is provided.
  • system or composition is capable of inducing deletion of exon 13 in the USH2A gene in a cell.
  • system or composition may be for the treatment of Usher syndrome type 2A.
  • a first nucleic acid construct to which a nucleotide sequence encoding an endonuclease comprising a Cas12f1 molecule is operably linked;
  • a nucleotide sequence encoding a first guide RNA comprising a first guide sequence hybridizable to a contiguous 15 to 30 bp long target sequence located in a region 5000 bp upstream of USH2A exon 13 and adjacent to the PAM sequence recognized by the Cas12f1 molecule.
  • a vector system comprising one or more vectors comprising a third nucleic acid construct operably linked to a nucleotide sequence encoding.
  • the vector system is capable of inducing deletion of exon 13 in the USH2A gene in cells.
  • nucleic acid constructs may be contained in the same or different vectors.
  • the nucleic acid construct may be contained in one vector.
  • the vector may further include a promoter or enhancer.
  • the promoter may be the U6 promoter, EFS promoter, EF1- ⁇ promoter, H1 promoter, 7SK promoter, CMV promoter, LTR promoter, Ad MLP promoter, HSV promoter, SV40 promoter, CBA promoter or RSV promoter. , but is not limited to this.
  • the vector is a retrovirus vector, a lentivirus vector, an adenovirus vector, an adeno-associated virus vector, or a vaccinia virus vector. It may be a vector selected from the group consisting of a vaccinia virus vector, a poxvirus vector, a herpes simplex virus vector, and a phagemid vector, but is not limited thereto.
  • the vector may be selected from the group consisting of plasmid, naked DNA, DNA complex, mRNA (transcript), and amplicon, but is not limited thereto.
  • a recombinant virus produced by the vector system according to the present disclosure is provided.
  • composition comprising a system, vector system or recombinant virus according to the present disclosure is provided.
  • the composition is a pharmaceutical composition.
  • a method of inducing deletion of the segment comprising exon 13 in the USH2A gene in a cell comprising contacting the cell with a system, vector system or recombinant virus according to the present disclosure.
  • a method of treating an individual with a disease associated with a mutation in exon 13 of the USH2A gene comprising contacting the individual with a system, vector system, or recombinant virus according to the present disclosure.
  • a method of altering the genes of a cell comprising contacting the cell with a system, vector system, or recombinant virus according to the present disclosure.
  • the recombinant virus may be an adeno-associated virus (AAV).
  • AAV adeno-associated virus
  • the cells may be stem cells, cells of the mammalian eye or inner ear, but are not limited thereto.
  • the cells may be derived from an individual with Usher syndrome.
  • the contacting may occur in vitro or in vivo.
  • stem cells that have been genetically modified by a method according to the present disclosure are provided.
  • the stem cells may be used to treat Usher syndrome type 2A.
  • a guide RNA comprising a spacer region and a scaffold region comprising a guide sequence capable of hybridizing with a target sequence within the USH2A (Usherin) gene, wherein the guide sequence is (i) SEQ ID NO: 397 A nucleic acid sequence selected from the group consisting of SEQ ID NO: 445, comprising a sequence of 15 to 22 contiguous nucleotides or a sequence that differs by up to 5 nucleotides from the contiguous sequence, and in the contiguous nucleotide sequence, thymine (T) a nucleic acid sequence substituted with uracil (U), and/or (ii) a sequence of 15 to 20 contiguous nucleotides in a nucleic acid sequence selected from the group consisting of SEQ ID NO: 446 to SEQ ID NO: 475, or up to 5 nucleotides in the contiguous sequence.
  • a guide RNA is provided, which is a nucleic acid sequence comprising a sequence comprising
  • the guide sequence comprises a nucleic acid sequence selected from the group consisting of SEQ ID NO: 80 to SEQ ID NO: 128 and SEQ ID NO: 159 to SEQ ID NO: 164, and/or the guide sequence is SEQ ID NO: 129 to SEQ ID NO: 158 and sequence It may include a nucleic acid sequence selected from the group consisting of SEQ ID NO: 165 to SEQ ID NO: 174.
  • nucleic acid molecule encoding a guide RNA according to the present disclosure is provided.
  • composition comprising one or more guide RNAs according to the present disclosure is provided.
  • composition comprising one or more guide RNAs according to the present disclosure and an endonuclease comprising a Cas12f1 molecule is provided.
  • the composition comprises two or more guide RNAs, and at least one guide RNA is (i) a contiguous 15 to 22 nucleotide sequence in a nucleic acid sequence selected from the group consisting of SEQ ID NO: 397 to SEQ ID NO: 445, or comprises a sequence that differs by up to 5 nucleotides from the contiguous sequence, and (ii) at least one other guide RNA is 15 to 20 contiguous nucleotides in a nucleic acid sequence selected from the group consisting of SEQ ID NO: 446 to SEQ ID NO: 475.
  • a sequence or sequence may comprise a sequence that differs by up to 5 nucleotides in the sequence.
  • the USH2A exon 13 may contain one or more mutations causing Usher syndrome.
  • the target sequence present in the 5000bp upstream region of USH2A exon 13 comprises a nucleic acid sequence selected from the group consisting of SEQ ID NO: 1 to SEQ ID NO: 49 and/or is present within the 14500bp downstream region of USH2A exon 13
  • the target sequence may include a nucleic acid sequence selected from the group consisting of SEQ ID NO: 50 to SEQ ID NO: 79.
  • the first guide sequence is a contiguous 15 to 22 nucleotide sequence in a nucleic acid sequence selected from the group consisting of SEQ ID NO: 397 to SEQ ID NO: 445, or a sequence that differs from the contiguous sequence by no more than 5 nucleotides. It includes a nucleic acid sequence in which thymine (T) is replaced with uracil (U) in the contiguous nucleotide sequence, and/or the second guide sequence is a nucleic acid sequence selected from the group consisting of SEQ ID NO: 446 to SEQ ID NO: 475.
  • T thymine
  • U uracil
  • It may be a nucleic acid sequence comprising a contiguous sequence of 15 to 20 nucleotides or a sequence that differs by up to 5 nucleotides in the contiguous sequence, and in which thymine (T) is replaced with uracil (U). there is.
  • the first guide sequence comprises a nucleic acid sequence selected from the group consisting of SEQ ID NO: 80 to SEQ ID NO: 128 and SEQ ID NO: 159 to SEQ ID NO: 164
  • the second guide sequence includes SEQ ID NO: 129 to It may include a nucleic acid sequence selected from the group consisting of SEQ ID NO: 158 and SEQ ID NO: 165 to SEQ ID NO: 174.
  • the guide RNA, first guide RNA or second guide RNA comprises a U-rich tail sequence linked to the 3'-end of the guide sequence, and the U-rich tail is 5'-(U m V) n U o -3', where V is each independently A, C or G, m and o are integers between 1 and 20, and n may be an integer between 0 and 5.
  • the guide RNA, first guide RNA or second guide RNA comprises an engineered scaffold region, wherein the engineered scaffold region sequentially includes, starting from the 5'-end, a first stem-loop region, Comprising a nucleotide sequence having at least 50% sequence identity with the scaffold region of the wild-type Cas12f1 guide RNA sequence comprising the second stem-loop region, the third stem-loop region, the fourth stem-loop region and the tracrRNA-crRNA complementarity region.
  • the wild-type Cas12f1 guide RNA sequence may include one or more modifications selected from the group consisting of (1) to (4) below:
  • the wild-type Cas12f1 guide RNA may include a tracrRNA comprising the nucleic acid sequence of SEQ ID NO: 175 and a crRNA comprising the nucleic acid sequence of SEQ ID NO: 176.
  • the scaffold region or engineered scaffold region may comprise a sequence having at least 80% sequence identity to a sequence represented by formula (I):
  • sequence 5'-X c1 -Lk-X c2 -3' in formula (I) may be selected from the group consisting of SEQ ID NO: 244 to SEQ ID NO: 250 and 5'-Lk-3' .
  • the Lk is 5'-GAAA-3', 5'-UUAG-3', 5'-UGAAAA-3', 5'-UUGAAAAA-3', 5'-UUCGAAAGAA-3' (sequence Nucleic acid sequence selected from the group consisting of 5'-UUCAGAAAUGAA-3' (SEQ ID NO: 241), 5'-UUCAUGAAAAUGAA-3' (SEQ ID NO: 242), and 5'-UUCAUUGAAAAAAUGAA-3' (SEQ ID NO: 243) may include.
  • the scaffold region comprises an engineered tracrRNA consisting of a nucleic acid sequence selected from the group consisting of SEQ ID NO: 251 to SEQ ID NO: 296, and/or a nucleic acid sequence selected from the group consisting of SEQ ID NO: 297 to SEQ ID NO: 304 It may include an engineered crRNA consisting of.
  • the guide RNA, first guide RNA, or second guide RNA may be a dual guide RNA or a single guide RNA.
  • the guide RNA, first guide RNA, or second guide RNA may include a scaffold region sequence of a nucleic acid sequence selected from the group consisting of SEQ ID NO: 313 to SEQ ID NO: 350.
  • the guide RNA, first guide RNA, or second guide RNA may include a scaffold region sequence of a nucleic acid sequence selected from the group consisting of SEQ ID NOs: 315 to 317.
  • the Cas12f1 molecule may include an amino acid sequence having at least 70% sequence identity with an amino acid sequence selected from the group consisting of SEQ ID NO: 360 to SEQ ID NO: 364 and SEQ ID NO: 370 to SEQ ID NO: 377.
  • the endonuclease may form a ribonucleoprotein (RNP) with the guide RNA, first guide RNA, or second guide RNA.
  • RNP ribonucleoprotein
  • Usher syndrome caused by a mutation in the USH2A gene can be treated through a strategy that induces the production of normally functioning Usherin protein by removing the mutated exon 13 of the USH2A gene.
  • the present invention is more efficient, including Cas12f1 protein, a new ultra-small nucleic acid cutting protein, and an engineered guide RNA that can be used in combination with the Cas12f1 protein to modify a specific site to exhibit excellent gene editing efficiency and to target a specific site of the USH2A gene with high specificity. It is a gene editing system with an increased application range and can effectively delete exon 13 of the USH2A gene.
  • the gene editing system of the present invention uses an endonuclease that is significantly smaller in size compared to the existing Cas9 protein and an engineered guide RNA that is shorter in length but shows excellent editing efficiency, so it has a small packaging size like AAV. Even when using a very limited carrier, a single vector can be equipped with various tools necessary for editing the desired gene, so there is an advantage in that it can include an additional configuration to increase the efficiency of exon 13 deletion of the USH2A gene.
  • Figure 1 shows each modification site MS1 to MS5 (MS, modification site) in an engineered guide RNA (engineered gRNA) according to an embodiment of the present invention.
  • Figures 2A and 2B depict exemplary structures of engineered single guide RNAs (sgRNAs) according to one embodiment of the invention:
  • Figure 2A depicts exemplary modification sites of a canonical sgRNA for Cas12f1.
  • Figure 2B depicts exemplary modification sites of the mature form sgRNA for Cas12f1 engineered according to one embodiment of the invention.
  • sgRNAs engineered single guide RNAs
  • Figures 3A and 3B show the results of measuring the indel efficiency (%) of the gene editing system comprising CWCas12f1 and an engineered gRNA with one or more modifications from MS1 to MS5 in each region of the wild-type guide RNA:
  • Figure 5a is a graph showing indel efficiency (%) for target sequence 1 (Target-1; SEQ ID NO: 358).
  • Figure 5b is a graph showing indel efficiency (%) for target sequence 2 (Target-2; SEQ ID NO: 359).
  • FIGS. 7A and 7B are graphs showing indel efficiency (%) for target sequence 1 (Target-1; SEQ ID NO: 358), respectively.
  • Figures 7c and 7d are graphs showing indel efficiency (%) for target sequence 2 (Target-2; SEQ ID NO: 359), respectively.
  • Figures 5a and 5b show the results of measuring the indel efficiency (%) of the USH2A gene editing system using three versions of guide RNA:
  • Figure 5a shows the guide sequence targeting the F region of the target region of the USH2A gene.
  • This is a graph showing the indel efficiency using the containing gRNA.
  • Figure 5b is a graph showing indel efficiency using gRNA containing a guide sequence targeting the R region of the target region of the USH2A gene.
  • Figure 6 shows the results of confirming the indel efficiency (%) of the USH2A gene editing system, which includes a guide RNA targeting the F region and a guide RNA targeting the R region, respectively, for which indel efficiency was first confirmed.
  • Figure 7 shows the results of confirming the deletion of the region containing exon 13 of the USH2A gene using the USH2A gene editing system containing a specific combination of guide RNA targeting the F region and guide RNA targeting the R region. .
  • Figure 8 shows the location of the amplified sequence and primer sequence information used in qPCR analysis to confirm deletion of exon 13 of the USH2A gene.
  • Figure 9 shows the results of confirming the deletion efficiency (%) of the region including exon 13 of the USH2A gene using the USH2A gene editing system containing a guide RNA targeting the F region and a guide RNA targeting the R region in HEK293T cells. is shown (WT, wild-type guide RNA; EDIT102, positive control).
  • Figures 10A to 10D respectively show the results of comparison of indel efficiency (%) according to the length of the guide sequence:
  • Figure 10A is a graph showing indel efficiency according to the length of the F16 guide sequence.
  • Figure 10b is a graph showing indel efficiency according to the length of the FA12 guide sequence.
  • Figure 10c is a graph showing indel efficiency according to the length of the R19 guide sequence.
  • Figure 10d is a graph showing indel efficiency according to the length of the R40 guide sequence.
  • Figure 11 shows the results of confirming the indel efficiency (%) according to the type of U-rich tail added to the 3'-end of the guide RNA.
  • Figures 12A and 12B show the results confirming the removal efficiency of USH2A gene exon 13 of the USH2A gene editing system (WT, wild type guide RNA; EDIT102, positive control):
  • Figure 12A is 661W-USH2A cell line
  • Figure 12B is ARPE19/HPV16 -This is a graph showing the USH2A gene exon 13 deletion efficiency (%) in the USH2A cell line.
  • Figure 13 shows the results of confirming the indel efficiency of the target region of the USH2A gene by injecting adeno-associated virus (AAV) expressing the USH2A gene editing system into the mouse tail vein and extracting liver tissue.
  • AAV adeno-associated virus
  • Figures 14a and 14b show the Cas12f1 ver4.0-GFP vector map and the Cas12f1 ver4.1-GFP vector map used in one embodiment of the present invention, respectively.
  • Figure 15 shows a production schematic diagram of the 661W-USH2A cell line.
  • nucleic acid refers to a biomolecule composed of nucleotides and can be used interchangeably with polynucleotide. Nucleic acids include both single-stranded and double-stranded DNA and RNA.
  • a “nucleotide” is a unit consisting of a phosphate, a pentose sugar, and a base (or nucleobase).
  • RNA ribonucleic acid
  • DNA deoxyribonucleic acid
  • a nucleotide has a nucleobase selected from adenine (A), guanine (G), cytosine (C), thymine (T), and uracil (U).
  • Adenine, guanine, and cytosine are common to RNA and DNA, thymine is only present in DNA, and uracil is only present in RNA.
  • nucleosides are classified according to the type of nucleobase into adenosine (A), thymidine (T), cytidine (C), guanosine (G), and uridine (U).
  • A adenosine
  • T thymidine
  • C cytidine
  • G guanosine
  • U uridine
  • base, nucleoside and nucleotide may be the same and may be interpreted appropriately depending on the context.
  • the 5'-UUUU-3' sequence is a sequence of five consecutive bases (uracil), a sequence of five consecutive nucleosides (uridine), and/or a sequence of five consecutive nucleotides (uridine monophosphate).
  • RNA, and DNA when describing nucleic acids, RNA, and DNA, the nucleotides that make up them can be abbreviated as uridine, adenosine, thymidine, cytidine, and guanosine, depending on the type of nucleoside. The above abbreviations may be appropriately interpreted depending on the context. For example, RNA containing four consecutive uridine sequences can be interpreted as RNA containing four consecutive uridine monophosphate nucleotides.
  • nucleic acids, nucleotides, nucleosides and bases used herein include modified nucleic acids, nucleotides, nucleosides and bases known in the art to improve, for example, their safety or immunogenicity. can do.
  • A, T, C, G and U may be appropriately interpreted as a base, nucleoside or nucleotide on DNA or RNA depending on the context and technology.
  • bases they can be interpreted as one selected from adenine, guanine, cytosine, thymine, and uracil, respectively.
  • A, T, C, G and U refer to nucleosides, they can be interpreted as adenosine, thymidine, cytidine, guanosine or uridine, respectively, and when they refer to nucleotides in the sequence, they can be interpreted as each of the above nucleosines. It should be interpreted to mean a nucleotide containing a cleoside.
  • target nucleic acid or “target gene” refers to gene editing (e.g., double-strand breaks or specific segments of a gene) by a gene editing system (e.g., the CRISPR/Cas12f1 system). refers to a nucleic acid or gene that is the target or target of (deletion of). These terms may be used interchangeably and may refer to the same object.
  • the target gene is a gene or nucleic acid unique to the target cell (e.g., a prokaryotic cell, eukaryotic cell, animal cell, mammalian cell, or plant cell), a gene or nucleic acid derived from an external source, or an artificially synthesized nucleic acid or It can be a gene, and can mean single-stranded or double-stranded DNA or RNA.
  • the target gene or target nucleic acid may be a mutant gene involved in a genetic disease.
  • the target gene or target nucleic acid may be the human USH2A (Usherin) gene.
  • the target gene or target nucleic acid may be a mutated human USH2A (Usherin) gene.
  • target region refers to the region of the target gene to which the guide RNA is designed to bind and cleave.
  • the target region may include a target sequence.
  • a target region in a double-stranded nucleic acid may refer to a region comprising a target sequence (included in the target strand) and a sequence complementary thereto (included in a non-target strand).
  • the target region may be a region 5000bp upstream or 14500bp downstream of exon 13 in the human USH2A (Usherin) gene.
  • target sequence refers to a sequence present in a target nucleic acid or target gene, which may be recognized by a guide RNA or a CRISPR/Cas12f1 system or a gene editing system of the present invention or may be subject to modification. It means a sequence. Specifically, the target sequence refers to a sequence complementary to the guide sequence included in the guide RNA or a sequence that binds complementary to the guide sequence. As used herein, the strand containing the target sequence is referred to as the “target strand.” If the target nucleic acid or target gene is single stranded, that strand may be the target strand.
  • Non-target strand includes Protospacer Adjacent Motif (PAM) sequences and protospacer sequences.
  • PAM sequence is a sequence recognized by Cas12f1 or its variant protein of the CRISPR/Cas12f1 system or USH2A gene editing system.
  • the protospacer sequence is a sequence located at the 5'-end or 3'-end of the PAM sequence.
  • the protospacer sequence is a sequence that is complementary to the target sequence or a sequence that binds complementary to the target sequence.
  • the relationship between the protospacer sequence and the target sequence is similar to the relationship between the target sequence and the guide sequence. Due to these characteristics, the guide sequence can usually be designed using the protospacer sequence. That is, the guide sequence that binds complementary to the target sequence can be designed as a nucleotide sequence having the same base sequence as the protospacer sequence, and the guide sequence is designed by replacing T in the protospacer sequence with U.
  • nucleic acid editing system refers to a gene editing protein or a nucleic acid degrading enzyme such as endonuclease and the nucleic acid decomposition. It refers to a complex or system containing a nucleic acid targeting molecule corresponding to an enzyme, which can bind to or interact with a target gene or target nucleic acid to cleave, edit, repair and/or restore the target site of the target gene or target nucleic acid. It means system.
  • the nucleic acid targeting molecule may be represented by guide RNA (gRNA), but is not limited thereto.
  • the gene editing system may exist in any form capable of editing a target gene, for example, it may be in the form of a composition containing a complex containing a nucleic acid degrading enzyme and a nucleic acid targeting molecule.
  • the gene editing system may be in the form of a kit in which a nucleic acid degrading enzyme and a nucleic acid targeting molecule are contained in separate compositions.
  • the gene editing system may be a vector system or composition comprising one or more vectors containing a nucleic acid encoding a nucleic acid degrading enzyme and a nucleic acid encoding a nucleic acid targeting molecule.
  • a molecule referred to as a molecule, can catalyze (e.g., cleave) a region within a chain of a nucleic acid or polynucleotide (e.g., double-stranded DNA, single-stranded DNA, RNA, hybrid double-stranded DNA and RNA, or synthetic DNA).
  • a nucleic acid or polynucleotide e.g., double-stranded DNA, single-stranded DNA, RNA, hybrid double-stranded DNA and RNA, or synthetic DNA.
  • the molecule recognizes the target nucleic acid, DNA or RNA, or a protospacer adjacent motif (PAM) present in the target gene, and then recognizes the DNA or RNA in the internal or external base sequence of the target nucleic acid sequence. It may refer to an (endo)nuclease that can induce double-strand breaks (DSBs).
  • Endo)nucleases can cleave polynucleotides symmetrically, leaving blunt ends, or they can cleave at positions other than directly opposite each other, creating protrusions called sticky ends.
  • the effector protein may be a nucleic acid degrading protein capable of binding to a guide RNA (gRNA) or engineered gRNA, or may be a peptide fragment capable of binding to a target nucleic acid or target gene.
  • gRNA guide RNA
  • engineered gRNA a guide RNA
  • peptide fragment capable of binding to a target nucleic acid or target gene.
  • protein polypeptide
  • polypeptide may be used interchangeably and refer to genetically encoded and non-genetically encoded amino acids, chemically or biochemically modified or derivatized amino acids, and modified peptide backbones. refers to a polymer form of amino acids of any length that may include polypeptides with The term includes fusion proteins with heterologous amino acid sequences, fusions with heterologous and homologous leader sequences, with or without an N-terminal methionine residue; It encompasses all fusion proteins, including but not limited to immunologically tagged proteins.
  • amino acid refers collectively to 20 types of amino acids synthesized through gene transcription and translation processes in the body of an organism.
  • the amino acids include alanine (Ala, A), arginine (Arg, R), asparagine (Asn, N), aspartic acid (Asp, D), cysteine (Cys, C), Glutamic acid (Glu, E), Glutamine (Gln, Q), Glycine (Gly, G), Histidine (His, H), Isoleucine (Ile, I), Leucine (Leucine; Leu, L), Lysine (Lys K), Methionine (Met, M), Phenylalanine (Phe, F), Proline (Pro, P), Serine (Ser, S) ), threonine (Thr, T), tryptophan (Trp, W), tyrosine (Tyr, Y), and valine (Val, V).
  • amino acid generally refers to standard naturally occurring amino acids, but what the term refers to should be interpreted appropriately according to the context, and may include non-naturally occurring amino acids, artificial amino acids, modified amino acids, etc. , and all other meanings that a person skilled in the art can recognize.
  • guide RNA refers to a molecule that may form a complex with a molecule, referred to as an endonuclease, gene editing protein, or nucleic acid degrading protein, and may interact with a target nucleic acid sequence (e.g., hybridization, complementary linkage, or hydrogen cleavage). refers to RNA that contains a guide sequence that is complementary to the target nucleic acid sequence to a sufficient degree to cause sequence-specific binding of the complex to the target nucleic acid sequence. . Guide RNA or guide molecule may be used interchangeably herein.
  • tracrRNA trans-activating crRNA
  • CRISPR RNA CRISPR RNA
  • gRNA guide RNA
  • endonuclease molecules called endonuclease, homology repair protein, gene editing protein, or nucleic acid decomposition protein, It can be used to refer to the rest of the guide RNA found in nature, excluding the spacer.
  • stem refers to a region of a nucleic acid having a secondary structure that includes a nucleotide region capable of forming a double strand.
  • a form in which double strands are connected primarily by single-stranded nucleotides (loops) may be referred to as a “stem-loop”.
  • the terms “stem” or “stem-loop” may be used interchangeably and should be interpreted appropriately depending on the context.
  • guide sequence may be used interchangeably and refer to a CRISPR/Cas system that interacts with a portion of a target sequence (e.g. refers to a polynucleotide capable of hybridization, complementary bonding, or hydrogen bonding, etc.).
  • a target sequence e.g. refers to a polynucleotide capable of hybridization, complementary bonding, or hydrogen bonding, etc.
  • the guide sequence or spacer sequence refers to 10 to 50 consecutive nucleotides linked directly or indirectly through a linker, etc. to the 3'-end or near the 3'-end of the crRNA constituting the guide RNA in the gene editing system. .
  • engineered may be used interchangeably with “non-naturally occurring,” “artificial,” or “modified,” as it is found in nature. It means that it is not the form, state, etc.
  • endonuclease gene editing protein, nucleic acid degrading protein, Cas12f1 (CWCas12f1, Un1Cas12f1, etc.) protein
  • the endonuclease or protein contains at least one component found or naturally occurring in nature. means substantially free or substantially free of at least one non-naturally occurring ingredient.
  • engineered endonuclease means that artificial modifications have been made to the composition (e.g., amino acid sequence) of a nuclease that exists in nature, and is referred to herein as “variant” or It may also be referred to as a “(mutant).”
  • variant should be understood to mean the expression of a characteristic having a pattern that deviates from that which occurs in nature.
  • the variant protein may refer to a variant of (wild type) Cas12f1.
  • the guide RNA, guide polynucleotide or nucleic acid molecule is substantially free of, or contains at least one component that is naturally occurring or found in nature. means substantially containing at least one ingredient that is not natural or non-naturally occurring.
  • engineered guide RNA refers to a gRNA in which artificial modifications have been made to the composition (e.g., sequence) of a guide RNA (gRNA) that exists in nature, and as used herein, it is referred to as “augmented.” It may also be referred to as “RNA”.
  • wild-type is an art term as understood by those skilled in the art and refers to the typical form of an organism, strain, gene or characteristic as it occurs in nature to the extent that it is distinct from mutant or variant forms. it means.
  • variant or “(mutant)” should be understood to mean the expression of a characteristic having a pattern that deviates from that which occurs in nature.
  • the variant protein may refer to a variant relative to wild-type Cas12f1.
  • a vector refers collectively to all substances capable of transporting genetic material into a cell.
  • a vector is DNA containing a nucleic acid encoding an endonuclease or effector protein of a gene editing system, which is the genetic material to be delivered, and/or a nucleic acid encoding a guide RNA (gRNA). It may be a molecule, but is not limited thereto.
  • the “vector” may be an “expression vector” containing essential regulatory elements operably linked so that the inserted gene is expressed normally.
  • operably linked means, in gene expression technology, that a specific component is linked to another component so that the specific component can function in the intended manner.
  • a promoter sequence is operably linked to a sequence encoding an A protein
  • the above term includes all other meanings generally recognized by those skilled in the art and may be appropriately interpreted depending on the context.
  • nucleotide and nucleic acid may be used interchangeably and refer to a polymeric form of nucleotides of any length, either ribonucleotides or deoxynucleotides. Accordingly, the term refers to single-, double-, or multi-stranded DNA or RNA, genomic DNA, cDNA, DNA-RNA hybrids, or purine and pyrimidine bases or other natural, chemically or biochemically modified, non-natural or Includes, but is not limited to, polymers comprising derivatized nucleotide bases.
  • polynucleotide and “nucleic acid” should be understood to include single-stranded (e.g. sense or antisense) and double-stranded polynucleotides, as applicable to the embodiments described herein.
  • nucleic acid construct refers to a structure that contains as components a nucleotide sequence encoding an endonuclease, a nucleic acid editing protein, or a nucleic acid decomposition protein, and/or a nucleotide sequence encoding a guide RNA, as required. Accordingly, it may additionally include nucleotide sequences encoding various types of (poly)peptides or linkers.
  • the nucleic acid construct can be used as a component of the CRISPR/Cas system, vector system, or hypercompact gene editing system (Hypercompact TaRGET system) for homology-directed repair of the present invention.
  • nuclear localization signal refers to a signal peptide or amino acid sequence that promotes the introduction of substances from outside the cell nucleus into the nucleus, for example by nuclear transport.
  • nuclear export signal refers to a signal peptide or amino acid sequence that promotes the transport of substances inside the cell nucleus out of the nucleus, for example by nuclear transport.
  • NLS or NES are well known in the art and can be clearly understood by a person skilled in the art.
  • subject may be used interchangeably with “individual” or “patient” and may refer to any mammal in need of prevention or treatment of Usher syndrome, e.g., a primate (e.g., human), companion animal, e.g. dogs, cats, etc.), domestic animals (e.g., cows, pigs, horses, sheep, goats, etc.), and laboratory animals (e.g., rats, mice, guinea pigs, etc.).
  • a primate e.g., human
  • companion animal e.g. dogs, cats, etc.
  • domestic animals e.g., cows, pigs, horses, sheep, goats, etc.
  • laboratory animals e.g., rats, mice, guinea pigs, etc.
  • the subject is a human.
  • treatment generally refers to obtaining a desired pharmacological and/or physiological effect. This effect has a therapeutic effect in that it partially or completely cures the disease and/or side effects caused by the disease. Desirable therapeutic effects include prevention of occurrence or recurrence of the disease, improvement of symptoms, reduction of any direct or indirect pathological consequences of the disease, prevention of metastasis, reduction of the rate of disease progression, improvement or alleviation of the disease state, and remission or Including, but not limited to, improved prognosis.
  • “treatment” may mean medical intervention for an already present disease or disorder. More preferably, the “treatment” may be deletion of the segment containing exon 13 in the USH2A gene or thereby restoration of the reading frame of the USH2A gene.
  • the term "about” refers to a quantity, level, value, number, frequency, percent, dimension, size, amount, weight or length of 30, 25, 20, 15, 10, 9, 8, 7, 6, 5, 4. means a quantity, level, value, number, frequency, percentage, dimension, size, quantity, weight or length that varies by , 3, 2 or 1%.
  • the term “about” when used in relation to a value x expressed as a number or figure may mean x ⁇ 10%.
  • the most common mutations in the USH2A gene that cause type 2 (more specifically, type 2A) Usher syndrome are the c.2276G>T, c.2299delG mutations that occur in exon 13 of the USH2A gene.
  • the c.2276G>T mutation is a point mutation of guanine, the 2276th base located in exon 13 of the USH2A gene, to thymine, and the c.2299delG mutation is a deletion of guanine, the 2299th base located in exon 13 of the USH2A gene. This means that modified mRNA is expressed, causing the symptoms of Usher syndrome.
  • the CRISPR/Cas12f1 system is a new CRISPR/Cas system first reported in previous research [see Harrington et al., Science, 362, 839-842, 2018]. Despite the advantage of having a significantly small size of effector protein, it It has been reported that there is no or extremely low double-strand DNA cleavage activity, which limits its application in gene editing technology.
  • the present inventors researched and developed an engineered guide RNA that increases cleavage activity for double strand DNA (dsDNA) and completed it so that it can be used for gene editing (Korean Patent Application No. 10- 2021-0051552, 10-2021-0050093 and 10-2021-0044152, and International Application Nos. PCT/KR2021/013898, PCT/KR2021/013923 and PCT/KR2021/013933) .
  • the TaRGET system has a significantly smaller Cas protein compared to the CRISPR/Cas9 system, solving the difficulty of loading it on adeno-associated virus (AAV) due to the size of most previously studied Cas proteins and the difficulty of applying it as a gene therapy. Make it possible.
  • AAV adeno-associated virus
  • the TaRGET system has the characteristic of inducing dsDNA cleavage outside or outside the protospacer sequence. This feature means that even after the first attempt of non-homologous end joining (NHEJ)-mediated indel mutation, the dsDNA excision-NHEJ cycle can be repeatedly executed through additional attempts until the protospacer sequence is significantly modified.
  • NHEJ non-homologous end joining
  • These multiple cleavage and repair processes may provide more opportunities for reliable target sequence (and protospacer sequence) cleavage, and the TaRGET system with these features can be said to have excellent clinical utility in the area of gene therapy.
  • the present inventors introduced a new TaRGET system for treating Usher syndrome.
  • the introduction of the TaRGET system has advantages over the existing CRISPR/Cas9 system, such as ease of loading into AAV and reliable gene editing through multiple cutting and repair processes. Accordingly, the present inventors developed a treatment and treatment method for Usher syndrome using the TaRGET system, which has the above advantages.
  • One aspect of the invention disclosed herein relates to the CRISPR/Cas12f1 system for editing the USH2A gene (e.g., human USH2A gene) or treating Usher syndrome.
  • Usher syndrome is a disease caused by c.2276G>T, c.2299delG mutations occurring in exon 13 of the USH2A gene.
  • an effective strategy is to induce deletion of exon 13 containing the above mutation, which is the cause of the disease, so that a normally functioning USH2A protein is expressed.
  • the CRISPR/Cas12f1 system is used to remove exon 13 of the USH2A gene, and is also referred to as the USH2A gene editing system.
  • the CRISPR/Cas12f1 system or the USH2A gene editing system can more effectively remove exon 13 of the causative USH2A gene through reliable gene editing through multiple cutting and repair processes, thereby increasing the therapeutic effect.
  • the CRISPR/Cas12f1 system or the USH2A gene editing system is significantly smaller than the existing CRISPR/Cas9 system, so it is possible to secure additional space (capacity) even when using a delivery vehicle with packaging size limitations such as AAV, and thus can be used as a therapeutic agent. More advantageous for application.
  • the CRISPR/Cas12f1 system or USH2A gene editing system includes (i) an endonuclease comprising one or more Cas12f1 molecules (e.g., Cas12f1 or variant proteins thereof) or a nucleic acid encoding the endonuclease; and (ii) one or more (e.g., two) guide RNAs or guide molecules, or nucleic acids encoding them.
  • an endonuclease comprising a Cas12f1 molecule (e.g., Cas12f1 or a variant protein thereof) or a nucleic acid encoding the endonuclease;
  • a first guide RNA comprising a first guide sequence capable of hybridizing to a contiguous target sequence of 15 to 30 bp in length located adjacent to, or a nucleic acid encoding the first guide RNA; and (ii) a second guide capable of hybridizing to a contiguous 15 to 30 bp long target sequence present in the region downstream of USH2A exon 13 and located adjacent to the protospacer-adjacent motif (PAM) sequence recognized by the Ca
  • PAM
  • the CRISPR/Cas12f1 system or USH2A gene editing system involves one or more cuts (e.g., single-strand break or double-strand break) near the target site of the USH2A gene (e.g., in the upstream region, downstream region, or both regions of exon 13). can be created.
  • the one or more cuts may be outside of the target sequence or inside the 3'-end (e.g., 1 to 5 bp inside).
  • the two or more guide RNAs may target the upstream and downstream regions of exon 13 in the USH2A gene, respectively.
  • the two or more guide RNAs may target intron 12 and intron 13 regions within the USH2A gene, respectively.
  • exon 13 located between the intron 12 and intron 13 regions includes c.2276G>T and c.2299delG mutations.
  • the USH2A gene editing system may include two or more guide RNAs that recognize and/or target different target sequences in the USH2A gene.
  • some of the sequences of the different target sequences may overlap with each other.
  • the guide RNA may target the region adjacent to exon 13 in the USH2A gene to create a break (e.g., a single-strand break or a double-strand break).
  • two guide RNAs target each of the upstream and downstream regions of exon 13 in the USH2A gene to produce one or more breaks (e.g., two single-stranded breaks or two double-stranded breaks). You can.
  • two or more types of guide RNAs are used to generate two or more sets of cuts (e.g., two double-stranded breaks, one double-stranded break, and one single-stranded break; or two pairs of single-stranded cuts). can do.
  • the system disclosed herein involves two guide RNA molecules targeting the upstream and downstream regions of USH2A gene exon 13, respectively, together with an endonuclease comprising a Cas12f1 molecule (e.g., Cas12f1 or a variant protein thereof). By creating a cut within this region, deletion of the segment containing exon 13 can be induced.
  • an endonuclease comprising a Cas12f1 molecule (e.g., Cas12f1 or a variant protein thereof).
  • the USH2A gene editing system or the endonuclease included therein can induce double-strand breaks in or outside the target sequence.
  • the USH2A gene editing system can exhibit high efficiency deletion through reliable target sequence (and protospacer sequence) cleavage through multiple cleavage and repair processes.
  • the endonuclease and guide RNA comprising a Cas12f1 molecule are in the form of a complex, e.g., a ribonucleoprotein. It may be included in the form of particles (ribonucleoprotein particle, RNP).
  • the complex may include a guide RNA and two Cas12f1 or variant proteins thereof (see Satoru N. Takeda et al., Molecular Cell, 81, 1-13, (2021)).
  • the complex may be formed by the interaction between guide RNA and Cas12f1 molecule.
  • the USH2A gene editing system based on CRISPR/Cas12f1 of the present invention includes an endonuclease using a Cas12f1 molecule (eg, Cas12f1 or a variant protein thereof) as an effector.
  • the Cas12f1 molecule is a (small) endonuclease that exhibits excellent activity in cutting the target site of the target nucleic acid and is characterized by a significantly smaller effector protein size of about 1/3 compared to the existing CRISPR/Cas9 system.
  • Cas12f1 protein is one of the effector proteins named Cas14 in previous research (see Harrington et al., Science, 362, 839-842, 2018), and is also called Cas14a1 protein.
  • the protein referred to as Cas12f1 molecule may refer to the wild-type Cas12f1 protein that exists in nature.
  • the Cas12f1 molecule may be a variant of the wild-type Cas12f1 protein.
  • the variant may also be referred to as “Cas12f1 variant”.
  • the Cas12f1 variant may be a variant having the same function as the wild-type Cas12f1 protein, a variant with some or all of the functions modified, and/or a variant with additional functions added.
  • the meaning of the Cas12f1 molecule can be interpreted appropriately depending on the context, and is interpreted in the broadest sense unless there are special cases.
  • TnpB Transposon-associated transposase B protein derived from the Candidatus Woesearchaeota archaeon has an amino acid sequence similar to the Un1Cas12f1 protein, and has a molecular weight of 1/3 that of existing nucleic acid decomposition proteins, including the Cas9 protein, which has been the most studied to date. It was confirmed that the nucleic acid cleavage efficiency for the target nucleic acid or target gene was very small and was significantly high.
  • TnpB which has an amino acid sequence similar to the Un1Cas12f1 protein, is referred to as CWCas12f1.
  • CWCas12f1 can be collectively referred to as Cas12f1 protein along with Un1Cas12f1, and in its relationship with Un1Cas12f1, it can be included as a variant of Cas12f1.
  • a guide RNA engineered to have a small size by modifying the wild-type Cas12f1 guide RNA can induce excellent nucleic acid cleavage efficiency (e.g., double-strand cleavage) with Cas12f1 proteins such as CwCas12f1 or Un1Cas12f1.
  • Cas12f1 proteins such as CwCas12f1 or Un1Cas12f1.
  • International Application No. PCT/KR2020/014961 filed on October 29, 2020
  • International Application No. PCT/KR2021/013933 filed on October 8, 2021
  • PCT/ The entire contents of KR2021/013898 and PCT/KR2021/013923 are expressly incorporated herein by reference.
  • the ultra-small gene editing system comprising the engineered guide RNA and Cas12f1 molecules (e.g., Cas12f1 or variant proteins thereof, such as CwCas12f1 or Un1Cas12f1) disclosed herein may be referred to by the terms “CRISPR/Cas12f1 system” or “TaRGET system”. and these terms can be used interchangeably.
  • Cas12f1 molecules e.g., Cas12f1 or variant proteins thereof, such as CwCas12f1 or Un1Cas12f1
  • CRISPR/Cas12f1 system e.g., Cas12f1 or variant proteins thereof, such as CwCas12f1 or Un1Cas12f1
  • the Cas12f1 molecule can form a complex by combining two Cas12f1 protein molecules with a guide RNA in the form of a dimer, and all or part of the domain of the Cas12f1 protein recognizes a specific part of the scaffold region of the Cas12f1 guide RNA to perform CRISPR/ It has been reported to form a Cas12f1 complex (Takeda et al., Structure of the miniature type V-F CRISPR-Cas effector enzyme, Molecular Cell 81, 1-13, 2021] and Xiao et al., Structural basis for the [see dimerization-dependent CRISPR-Cas12f nuclease, bioRxiv, 2020]).
  • Cas12f1 molecules e.g., Cas12f1 protein or variants thereof
  • Cas12f1 protein or variants thereof can produce double-stranded or single-stranded breaks in a target nucleic acid or target gene. Deletion of the desired gene segment can be induced by such double-strand or single-strand cleavage.
  • the Cas12f1 molecule may be derived from the Cas14 family (see Harrington et al., Science 362, 839-842, 2018 and US Patent Publication US 2020/0172886 A1).
  • the Cas12f1 molecule may be a Cas14a1 or Un1Cas12f1 protein from an uncultured archaeon (see Harrington et al., Science 362, 839-842, 2018 and US Patent Publication US 2020/0172886 A1).
  • the Cas12f1 molecule e.g., Cas14a1 or Un1Cas12f1 protein
  • the Cas12f1 molecule is Candidatus Woesearchaeota archaeon It may be a derived TnpB (Transposon-associated transposase B) protein.
  • the TnpB protein is a protein conventionally known as a transposase. Until now, the TnpB protein was known only as a transposon-encoded nuclease, and nothing was known about whether the TnpB protein had Cas endonuclease activity.
  • the TnpB protein may be referred to as a variant of CWCas12f1 or Un1Cas12f1, and unless otherwise specified, the protein referred to as Cas12f1 includes CWCas12f1.
  • TnpB variant or engineered TnpB based on the TnpB protein sequence is similar in size to the Cas12f1 protein, which belongs to the group with the lowest molecular weight among nucleic acid decomposition proteins, and recognizes the target nucleic acid or target gene to produce double-stranded DNA at the target site. It was confirmed for the first time that it has an excellent cutting endonuclease activity, and an engineered guide RNA was produced that shows excellent gene editing activity when used with TnpB or its variant protein.
  • engineered guide RNA refer to the entire content disclosed in “3. Engineered guide RNA” below.
  • the Cas12f1 molecule can be the CWCas12f1 protein.
  • the CWCas12f1 protein may include or consist of the amino acid sequence of SEQ ID NO: 360 (see Table 9).
  • a nucleic acid encoding the Cas12f1 molecule or an endonuclease comprising the same is provided.
  • the nucleic acid encoding a Cas12f1 molecule or an endonuclease containing it may be codon optimized so that it can be expressed in a target (e.g., a human) into which the Cas12f1 molecule or an endonuclease containing it is intended to be introduced.
  • a target e.g., a human
  • the human codon-optimized nucleic acid sequence encoding the Cas12f1 molecule (CWCas12f1 or Un1Cas12f1) is provided as SEQ ID NO: 365 or SEQ ID NO: 369 (see Example 1).
  • the Cas12f1 molecule e.g., Cas12f1 or a variant thereof
  • an endonuclease containing it is 70% the amino acid sequence of Un1Cas12f1 consisting of the amino acid sequence of SEQ ID NO: 364 or the CWCas12f1 protein consisting of the amino acid sequence of SEQ ID NO: 360. It may consist of or include an amino acid sequence having more than one sequence identity.
  • the Cas12f1 molecule or an endonuclease containing it has at least 70%, at least 72%, at least 74%, at least 76%, at least 78%, and at least 80% of the amino acid sequence of SEQ ID NO: 360 or SEQ ID NO: 364.
  • modified proteins may be referred to herein as “Cas12f1 variants.” Hereinafter, each variant will be described in detail.
  • the Cas12f1 molecule may be a Cas12f1 variant protein.
  • a Cas12f1 variant may include a modification of one or more amino acids, such as deletion, substitution, insertion, or addition, compared to the amino acid sequence of the wild-type Cas12f1 protein.
  • the Cas12f1 variant may have a sequence in which at least one amino acid residue is deleted, substituted, inserted, and/or added at the C-terminus, N-terminus, or inside the sequence in the amino acid sequence of the wild-type Cas12f1 protein, and such Cas12f1 variant is " It may also be referred to as “Cas12f1 mutant”.
  • the Cas12f1 variant may be one in which at least one or more arbitrary amino acids are added to the amino acid sequence of the wild-type Cas12f1 protein.
  • the Cas12f1 variant may be a variant in which one or more arbitrary amino acid residues are added to the N-terminus and/or C-terminus in the amino acid sequence of wild-type Cas12f1 (e.g., Un1Cas12f1 or CWCas12f1) or a variant protein thereof.
  • Un1Cas12f1 or CWCas12f1 e.g., Un1Cas12f1 or CWCas12f1
  • the present inventors confirmed that among variants with amino acids added to the N-terminus and/or C-terminus of the wild-type Cas12f1 protein, there is a variant having the same function as wild-type Cas12f1.
  • the Cas12f1 variant has 1, 2, 3, 4, 5, 6, 7, 8, or 9 at the N-terminus and/or C-terminus of the wild-type Cas12f1 or variant protein thereof. , 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26 27, 28, 29, or 30 amino acids may be added.
  • the Cas12f1 variant protein may include an amino acid sequence in which 1 to 28 amino acids are added to the N-terminus of the amino acid sequence of wild-type Un1Cas12f1 (for example, the amino acid sequence of SEQ ID NO: 364).
  • CWCas12f1-v1 protein (SEQ ID NO: 361), which further contains 26 amino acids derived from the N-terminus of CasX at the N-terminus of Un1Cas12f1 protein, and 28 random amino acid sequences.
  • a CWCas12f1-v2 protein comprising (SEQ ID NO: 362) and a CWCas12f1-v3 protein (SEQ ID NO: 363) further comprising 26 random amino acid sequences are provided.
  • the Cas12f1 variant comprising an amino acid sequence in which 1 to 28 amino acids are added to the N-terminus of the amino acid sequence of wild-type Un1Cas12f1 (SEQ ID NO: 364), in another aspect, is the N-terminal of the amino acid sequence of wild-type CWCas12f1 (SEQ ID NO: 360). It can be defined as a Cas12f1 variant containing an amino acid sequence in which 1 to 28 amino acids from the terminal are removed or substituted.
  • the specific amino acid sequences of the CWCas12f1-v1 protein (SEQ ID NO: 361), CWCas12f1-v2 protein (SEQ ID NO: 362), and CWCas12f1-v3 protein (SEQ ID NO: 363) are as follows:
  • nucleic acids encoding the Cas12f1 variant proteins are provided.
  • the nucleic acid encoding the Cas12f1 variant protein may be codon optimized so that it can be expressed in a target (eg, a human) into which the Cas12f1 variant protein is to be introduced.
  • a target eg, a human
  • human codon optimized nucleic acid sequences encoding the CWCas12f1-v1 protein, CWCas12f1-v2 protein and CWCas12f1-v3 protein are provided below (see SEQ ID NO: 366 to SEQ ID NO: 368):
  • the Cas12f1 variant protein may include an amino acid sequence in which 1 to 600 random amino acids are added to the N-terminus or C-terminus of the Cas12f1 protein.
  • the Cas12f1 variant protein may further include an amino acid sequence of 1 to 600 amino acids at the N-terminus or C-terminus of the amino acid sequence of the wild-type CWCas12f1 protein (e.g., the amino acid sequence of SEQ ID NO: 360).
  • the added 1 to 600 amino acids may be the amino acid sequence of SEQ ID NO: 378 or SEQ ID NO: 379.
  • an NLS or NES sequence may be further included between the added sequence and the Cas12f1 variant protein. For matters related to the NLS or NES, refer to the entire contents described below.
  • the Cas12f1 molecule (e.g., Cas12f1 or a variant thereof) has at least 70%, at least 75%, at least 80%, at least 85%, at least 90% of an amino acid sequence selected from the group consisting of SEQ ID NO: 360 to SEQ ID NO: 364. It may include an amino acid sequence having a sequence identity of 95% or more.
  • the Cas12f1 variant may be one in which at least one amino acid in the amino acid sequence of the wild-type Cas12f1 protein is replaced with a different type of amino acid.
  • the substitution may be one amino acid being replaced with another amino acid.
  • the substitution may be one amino acid replaced with a plurality of other amino acids, a plurality of amino acids replaced with one other amino acid, or a plurality of amino acids replaced with a plurality of different amino acids. That is, the number of substituted amino acids and the number of substituted amino acids may be the same or different.
  • the Cas12f1 variant may be one in which at least one amino acid residue in the RuvC domain included in the wild-type Cas12f1 protein is removed or substituted.
  • the RuvC (or RuvC-like) domain is also referred to as an endonuclease domain and is directly related to nucleic acid cleavage efficiency because it contains an active site that catalyzes nucleic acid cleavage. Therefore, by mutation of the RuvC domain, the Cas12f1 protein can be manipulated to maintain the same function (e.g., nucleic acid cleavage function) as the wild-type Cas12f1 protein while exhibiting an equal or greater effect (e.g., improved nucleic acid cleavage efficiency).
  • the Cas12f1 variant may be engineered to recognize a PAM sequence other than 5'-TTTA-3' or 5'-TTTG-3'.
  • the Cas12f1 variant is amino acid 170 (serine), amino acid 174 (tyrosine), amino acid 184 (alanine), and amino acid 188 based on the wild-type sequence of CWCas12f1 (e.g., amino acid sequence of SEQ ID NO: 360) (serine), amino acid 191 (arginine), amino acid 225 (glutamine), amino acid 230 (tyrosine), amino acid 271 (valine), and amino acid 272 (glutamine). can do.
  • the Cas12f1 variant has a substitution of one or more amino acids selected from the group consisting of amino acid 170 (serine), amino acid 188 (serine), amino acid 191 (arginine), amino acid 225 (glutamine), and amino acid 272 (glutamine). may include.
  • the Cas12f1 variant may comprise one or more substitutions selected from the following amino acid substitutions based on the wild-type sequence (e.g., the amino acid sequence of SEQ ID NO: 360): S170T, S188Q, S188H, S188K, R191K, Q225T, Q225F and Q272K, where T is threonine, Q is glutamine, H is histidine, K is lysine, and F is phenylalanine.
  • SEQ ID NO: 360 the amino acid sequence of SEQ ID NO: 360
  • S170T e.g., the amino acid sequence of SEQ ID NO: 360
  • S188Q amino acid sequence of SEQ ID NO: 360
  • S188Q amino acid sequence of SEQ ID NO: 360
  • S188Q amino acid sequence of SEQ ID NO: 360
  • S188Q amino acid sequence of SEQ ID NO: 360
  • S188Q amino acid sequence of SEQ ID NO: 360
  • S188Q amino acid sequence of SEQ ID NO: 360
  • the Cas12f1 variant has a PAM sequence of 5'-TNTN-3', 5'-TTTN-3', 5'-TGTA-3', 5'-TCTG-3', 5'-TGTG-3' or 5'- TTTC-3', where N is A, T, C, or G.
  • the Cas12f1 variant may be one in which some or all of the functions of the wild-type Cas12f1 protein are modified.
  • the Cas12f1 variant may be a protein modified to cleave only one strand of the double strands of the target nucleic acid.
  • the Cas12f1 variant may be a variant in which a domain, peptide, or protein having an additional function is added to the Cas12f1 protein or a variant thereof.
  • the Cas12f1 variant to which the domain, peptide, or protein with the additional function is added may be referred to as “Cas12f1 fusion protein.”
  • the domain, peptide or protein having the additional function may be added to the N-terminus, C-terminus and/or amino acid sequence of wild-type Cas12f1 or a variant protein thereof.
  • the domain, peptide, or protein having the additional function may be a domain, peptide, or protein having the same or different function as the wild-type Cas12f1 protein.
  • a Cas12f1 fusion protein may include two or more heterologous polypeptide domains, where one polypeptide domain may include Cas12f1 or a variant protein thereof, and the other domain may include (poly)peptides with different functions or activities.
  • (poly)peptides with different functions or activities include methylase activity, demethylase activity, transcription activation activity, transcription repression activity, and transcription release factor. It may have release factor activity, histone modification activity, RNA cleavage activity, or nucleic acid binding activity.
  • a (poly)peptide having a different function or activity from Cas12f1 may be a tag or reporter protein for isolation and/or purification.
  • the tag or reporter protein may include tag proteins such as histidine (His) tag, V5 tag, FLAG tag, influenza hemagglutinin (HA) tag, Myc tag, VSV-G tag, and thioredoxin (Trx) tag; Fluorescent proteins such as green fluorescent protein (GFP), yellow fluorescent protein (YFP), cyan fluorescent protein (CFP), blue fluorescent protein (BFP), HcRED, and DsRed; and glutathione-S-transferase (GST), horseradish peroxidase (HRP), chloramphenicol acetyltransferase (CAT), ⁇ -galactosidase, and ⁇ -glucuronidase.
  • His histidine
  • V5 tag FLAG tag
  • influenza hemagglutinin (HA) tag influenza hemagglutinin
  • Reporter proteins such as glucuronidase and luciferase are included, but are not limited thereto. Additionally, the (poly)peptide with other functions or activities may be, but is not limited to, reverse transcriptase, deaminase, or other proteolytic enzymes.
  • the Cas12f1 molecule may be a fusion of various enzymes that may be involved in the gene expression process in cells.
  • the Cas12f1 molecule fused with the above enzyme can cause various quantitative and/or qualitative changes in gene expression in cells.
  • the various additionally coupled enzymes may be DNMT, TET, KRAB, DHAC, LSD, p300, M-MLV (moloney murine leukemia virus) reverse transcriptase, or variants thereof.
  • Cas12f1 or its variant protein fused with reverse transcriptase can also function as a prime editor.
  • the CRISPR/Cas12f1 system or the USH2A gene editing system cleaves nucleic acid at a target site of a target nucleic acid or target gene, so the target site may be located in the nucleus of a cell.
  • the Cas12f1 molecule e.g., Cas12f1 or variant protein thereof
  • the CRISPR/Cas12f1 system or the USH2A gene editing system may include one or more nuclear localization signal (NLS) sequences that localize it into the nucleus.
  • NLS nuclear localization signal
  • one or more nuclear localization signal sequences can be of sufficient quantity or activity to cause the Cas12f1 molecule to be targeted or transported into the nucleus in detectable amounts in the nucleus of a eukaryotic cell (e.g., a mammalian cell).
  • a eukaryotic cell e.g., a mammalian cell.
  • differences in the strength of the activity may result from the number of NLS contained within the Cas12f1 molecule, the type of specific NLS(s) used, or a combination of these factors.
  • the NLS included in the Cas12f1 molecule (e.g., Cas12f1 or variant protein thereof) of the invention is about 1, 2, 3, 4, 5, 6, 7, 8, 9 at or near the N-terminus.
  • 10 or more NLSs, about 1, 2, 3, 4, 5, 6, 7, 8, 9, or 10 or more NLSs at or near the C-terminus, or combinations thereof may be variously selected.
  • it may include 0 or at least one NLS sequence at the N-terminus and/or 0 or at least one NLS sequence at the C-terminus.
  • each NLS sequence may be selected independently of the others such that a single NLS can be present in more than one replicate and in combination with more than one other NLS present in more than one replicate. You can.
  • the NLS sequence is heterologous to the Cas12f1 molecule, exemplified by, but not limited to, the following NLS sequences:
  • NLS of SV40 virus large T-antigen with amino acid sequence PKKKRKV (SEQ ID NO: 380); NLS from nucleoplasmin (e.g., nucleoplasmin bipartite NLS with sequence KRPAATKKAGQAKKKK (SEQ ID NO: 381)); c-myc NLS with amino acid sequence PAAKRVKLD (SEQ ID NO: 382) or RQRRNELKRSP (SEQ ID NO: 383); hRNPA1 M9 NLS with sequence NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY (SEQ ID NO: 384); The sequence of the IBB domain from importin-alpha RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV (SEQ ID NO: 385); the sequences VSRKRPRP (SEQ ID NO: 386) and PPKKARED (SEQ ID NO: 387) of the myoma T protein; Sequence PQPKKKPL
  • the Cas12f1 variant in which an NLS is added to the wild-type Cas12f1 protein may include or consist of the amino acid sequence of SEQ ID NO: 396:
  • Cas12f1 or a variant protein thereof may include a nuclear export signal (NES).
  • NES sequence refers to a peptide of a certain length or its sequence that is attached to the transport target protein and acts as a kind of "tag" when materials inside the cell nucleus are transported outside the nucleus through nuclear transport.
  • the following two conditions are required for the CRISPR/Cas12f1 system or USH2A gene editing system of the present invention to be located at the target site of the target gene or target nucleic acid and to accurately cleave the target site nucleic acid.
  • a base sequence of a certain length within the target gene or target nucleic acid that can be recognized by a Cas12f1 molecule (eg, Cas12f1 or a variant thereof).
  • a sequence around the base sequence of a certain length that can bind complementary to the guide sequence (e.g., first guide sequence or second guide sequence) included in the guide RNA (gRNA) according to the present invention.
  • the Cas12f1 molecule recognizes the base sequence of a certain length and the guide sequence (spacer) contained in the guide RNA (gRNA) binds complementary to the sequence surrounding the base sequence of the certain length, the target nucleic acid Alternatively, the nucleic acid of the target region of the target gene can be accurately cut (or edited).
  • the nucleotide sequence of a certain length recognized by the Cas12f1 molecule is called the Protospacer Adjacent Motif (PAM) sequence.
  • the PAM sequence is a unique sequence determined by the Cas12f1 molecule. This means that when determining the target sequence of the complex consisting of the Cas12f1 molecule and gRNA in the gene editing system, the target sequence must be determined within the sequence adjacent to the PAM sequence.
  • the PAM sequence of a Cas12f1 molecule may be a T-rich sequence. More specifically, the PAM sequence may be 5'-TTTN-3'.
  • N is one of deoxythymidine (T), deoxyadenosine (A), deoxycytidine (C), or deoxyguanosine (G).
  • the PAM sequence of the Cas12f1 molecule may be 5'-TTTA-3', 5'-TTTT-3', 5'-TTTC-3', or 5'-TTTG-3'.
  • the PAM sequence of the Cas12f1 molecule may be 5'-TTTA-3' or 5'-TTTG-3'.
  • the PAM sequence of the Cas12f1 molecule may be different from the PAM sequence of the wild-type Cas12f1 protein.
  • the Cas12f1 variant may be engineered to recognize a PAM sequence other than 5'-TTTA-3' or 5'-TTTG-3'.
  • the CRISPR/Cas12f1 system or USH2A gene editing system includes one or more engineered guide RNAs or nucleic acids encoding the engineered guide RNAs.
  • an engineered guide RNA comprising a guide sequence capable of hybridizing to a target sequence within the USH2A gene is provided.
  • the guide RNA includes a scaffold region and a spacer region (or guide region), and the guide sequence is included in the spacer region.
  • the engineered guide RNA provides targeting of the USH2A gene editing system to a specific region of the USH2A gene.
  • the guide RNA of the CRISPR/Cas12f1 system or USH2A gene editing system according to the present invention may be based on Cas12f1 guide RNA found in nature or engineered Cas12f1 guide RNA.
  • Cas12f1 guide RNA found in nature or engineered Cas12f1 guide RNA includes trans-activating CRISPR RNA (tracrRNA) and CRISPR RNA (crRNA).
  • the crRNA includes a portion of the scaffold region and a spacer region, and the spacer region includes a guide sequence capable of complementary binding to the target sequence.
  • the tracrRNA comprises a portion of the scaffold region and may hybridize or be directly linked to the crRNA.
  • the scaffold region of Cas12f1 guide RNA contains the function of interacting with the Cas12f1 molecule.
  • a guide RNA comprising a spacer region and a scaffold region comprising a guide sequence capable of hybridizing with a target sequence within the USH2A (Usherin) gene, (i) 5000 bp upstream of USH2A exon 13 ) region and located adjacent to the PAM (protospacer-adjacent motif) sequence recognized by the Cas12f1 molecule, a first guide RNA comprising a first guide sequence capable of hybridizing to a target sequence of 15 to 30 bp in length; or (ii) a second hybridizable target sequence of 15 to 30 bp in length, located in a region 14500 bp downstream of USH2A exon 13 and adjacent to the protospacer-adjacent motif (PAM) sequence recognized by the Cas12f1 molecule.
  • a second guide RNA comprising a guide sequence is provided.
  • the meaning of “located adjacent to the PAM sequence” includes both the 5'-end direction or the 3'-end direction
  • a guide RNA comprising a spacer region and a scaffold region comprising a guide sequence capable of hybridizing with a target sequence within the USH2A (Usherin) gene, wherein the guide sequence is (i) SEQ ID NO: 397 A nucleic acid sequence selected from the group consisting of SEQ ID NO: 445, comprising a sequence of 15 to 22 contiguous nucleotides or a sequence that differs by up to 5 nucleotides from the contiguous sequence, and in the contiguous nucleotide sequence, thymine (T) a nucleic acid sequence substituted with uracil (U), and/or (ii) a sequence of 15 to 20 contiguous nucleotides in a nucleic acid sequence selected from the group consisting of SEQ ID NO: 446 to SEQ ID NO: 475, or up to 5 nucleotides in the contiguous sequence.
  • a guide RNA is provided, which is a nucleic acid sequence comprising a sequence comprising
  • the target gene of the guide RNA used in the USH2A gene editing system the spacer region of the guide RNA, the scaffold region, and its engineering will be described in detail.
  • Type 2 (more specifically, type 2A) Usher syndrome is known to be caused by the c.2276G>T mutation and/or c.2299delG mutation occurring in the exon 13 region of the USH2A gene. These mutations result in the expression of modified mRNA, resulting in the expression of abnormal Usherin protein or the expression of normally functioning Usherin protein is inhibited. Therefore, the USH2A gene was selected as the target, that is, the target gene, of the gene editing system of the present invention for the treatment of type 2 (more specifically, type 2A) Usher syndrome.
  • the USH2A gene may contain the c.2276G>T mutation and/or the c.2299delG mutation.
  • the “USH2A gene” targeted by the gene editing system of the present invention may be the USH2A gene containing the c.2276G>T mutation and/or the c.2299delG mutation.
  • the USH2A gene containing the c.2276G>T mutation and/or c.2299delG mutation is “abnormal USH2A gene”, “USH2A gene mutant”, or “USH2A gene (c.2276G>T and/or c.2299delG )", and the terms may be used interchangeably.
  • a USH2A gene that does not contain the c.2276G>T mutation and/or the c.2299delG mutation, a USH2A gene that normally expresses Usherin protein, or a USH2A gene that expresses a normally functioning Usherin protein is a “normal USH2A gene” , “normally functional USH2A gene” or “functional USH2A gene”, etc., and the terms may be used interchangeably.
  • the target gene may be the human USH2A gene.
  • the human USH2A gene exists at positions 215,622,891 to 216,423,448 on the reverse strand of chromosome 1. Reference sequences for the human USH2A gene are known in the art (see Ensembl: ENSG00000042781).
  • target sequence a sequence present in a target gene (e.g., USH2A gene) that can be targeted (or recognized) by the gene editing system of the present invention or hybridized with the guide RNA of the present invention. It is referred to.
  • target region A specific region of the target gene containing one or more of the target sequences is referred to as a “target region.”
  • the gene editing system of the present invention can target the USH2A gene. More specifically, the USH2A gene editing system can target a region of the USH2A gene.
  • a target region is referred to as a target region in relation to the gene editing system of the present invention, and the target region is a target sequence that hybridizes or binds complementary to the guide RNA constituting the gene editing system. sequence).
  • a region of the USH2A gene i.e., a target region, may be an upstream region and/or a downstream region of exon 13 including the c.2276G>T mutation and/or the c.2299delG mutation.
  • the “upstream region of exon 13” refers to the coding strand in the double-stranded DNA of the USH2A gene (the base sequence of the coding strand is based on the reference sequence of the human USH2A gene [Ensembl: ENSG00000042781]) It refers to the region located in the 5'-end direction of exon 13.
  • the “downstream region of exon 13” refers to a region located in the 3'-end direction of exon 13 based on the coding strand in the double-stranded DNA of the USH2A gene.
  • the region located in the 3'-end direction of exon 13 can be referred to as the upstream region of exon 13, and the region located in the 5'-end direction of exon 13
  • the region located in can be referred to as the region downstream of exon 13. That is, in this specification, “upstream region” and “downstream region” are used to include both the coding strand of double-stranded DNA and its complementary sequence (or antiparallel sequence), the template strand.
  • the upstream region of exon 13 may be the 5'-terminal region of the USH2A gene linked to the 5'-end of exon 13 of the USH2A gene.
  • the upstream region of exon 13 may be the region between the 3'-end of exon 12 and the 5'-end of exon 13 of the USH2A gene.
  • the downstream region may be the 3'-terminal region of the USH2A gene linked to the 3'-end of exon 13 of the USH2A gene.
  • the downstream region may be the region between the 3'-end of exon 13 and the 5'-end of exon 14 of the USH2A gene.
  • the target region may be intron 12 or a region containing it and/or intron 13 or a region containing it of the USH2A gene.
  • the target region is 5000bp, 4000bp, 3700bp, 3600bp, 3500bp, 3400bp, 3300bp, 3200bp, 3100bp, 3000bp, 2900bp, 2800bp, 2700bp, 2600bp, of exon 13 of the USH2A gene.
  • 2500bp, 2400bp, 2300bp It can be 2200bp, 2100bp, 2000bp, 1900bp, 1800bp, 1700bp, 1600bp, 1500bp, 1400bp, 1300bp, 1200bp, 1100bp or 1000bp upstream region.
  • the target region includes 15000bp, 14500bp, 14000bp, 13500bp, 13000bp, 12500bp, 12000bp, 11500bp, 11000bp, 10500bp, 10000bp, 9500bp, 9000bp, and exon 13 of the USH2A gene.
  • target region is double-stranded DNA, and the above two strands may be referred to as “target strand” and “non-target strand”, respectively.
  • target strand is a strand that includes a target sequence and interacts (e.g., hybridizes) with the guide RNA included in the gene editing system of the present invention.
  • target strand refers to a strand containing a target sequence. If the target gene is single stranded, that strand may be the target strand. Alternatively, when the target gene is double stranded, one of the double strands may be the target strand, and there may be a strand complementary to the target strand. At this time, the strand complementary to the target strand is referred to as the “non-target strand”.
  • the “non-target strand” is a strand complementary to the target strand and includes a “PAM (Protospacer Adjacent Motif) sequence” and a “protospacer sequence”.
  • the PAM sequence is a sequence recognized by Cas12f1 or its variant protein of the gene editing system of the present invention.
  • the protospacer sequence is a sequence located adjacent to the PAM sequence, for example, at the 5'-end or 3'-end, and is a sequence that is complementary to the target sequence or a sequence that binds complementary to the target sequence.
  • the correlation between the protospacer sequence and the target sequence is similar to the correlation between the target sequence and the guide sequence. Due to these characteristics, the guide sequence can generally be designed using a protospacer sequence.
  • the guide sequence when designing a guide sequence that binds complementary to the target sequence, can be designed as a nucleotide sequence having the same base sequence as the protospacer sequence. At this time, T in the nucleotide sequence of the protospacer sequence is replaced with U to design the guide sequence.
  • the specific strand referred to as the non-target strand in double-stranded DNA is not always the non-target strand, and should be understood as relative in its relationship to the target strand.
  • the other DNA strand may be referred to as the non-target strand, where the other guide sequence is referred to as the target strand.
  • a DNA strand that has been referred to as the non-target strand is referred to as the target strand in relation to the other guide sequence if the sequence can hybridize with the strand that has been referred to as the non-target strand and is therefore referred to as the target strand.
  • the DNA strand that was targeted is referred to as the non-target strand.
  • “Protospacer sequence” is a sequence that is complementary to the target sequence or a sequence that binds complementary to the target sequence.
  • the target region comprising the target sequence may include a protospacer sequence selected from the group consisting of SEQ ID NO: 397 to SEQ ID NO: 475. Additionally, the target sequence may be a sequence complementary to a protospacer sequence selected from the group consisting of SEQ ID NO: 397 to SEQ ID NO: 475 in the target region.
  • Target sequence refers to a sequence present in a target gene or target region, a sequence recognized by the guide RNA of the gene editing system of the present invention, or a sequence subject to modification by the gene editing system.
  • the target sequence is a sequence present in the above-mentioned target region, and refers to a sequence complementary to or complementary to the guide RNA included in the USH2A gene editing system or the guide sequence included in the guide RNA. do.
  • the target sequence may be a 15 to 40 nucleotide sequence.
  • the target sequence may be a 15 to 20, 15 to 25, 15 to 30, 15 to 35, or 15 to 40 nucleotide sequence.
  • the target sequence may be a 20 to 25, 20 to 30, 20 to 35, or 20 to 40 nucleotide sequence.
  • the target sequence may be a 25 to 30, 25 to 35, or 25 to 40 nucleotide sequence.
  • the target sequence may be a 30 to 35 or 30 to 40 nucleotide sequence.
  • the target sequence may be a 35 to 40 nucleotide sequence.
  • the target sequence is 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, It may be a 36, 37, 38, 39 or 40 nucleotide sequence.
  • the target sequence may be a 15 to 40 nucleotide sequence present in the region upstream of exon 13, including the c.2276G>T mutation and/or the c.2299delG mutation. Additionally, the target sequence may be a 15 to 40 nucleotide sequence present in the region between the 3'-end of exon 12 and the 5'-end of exon 13 of the USH2A gene. Additionally, the target sequence may be a 15 to 40 nucleotide sequence present in the intron 12 region of the USH2A gene.
  • the target sequence is 5000bp, 4000bp, 3700bp, 3600bp, 3500bp, 3400bp, 3300bp, 3200bp, 3100bp, 3000bp, 2900bp, 2800bp, 2700bp, 2600 linked to the 5'-end of exon 13 of the USH2A gene.
  • bp, 2500bp, 2400bp, 2300bp , 2200bp, 2100bp, 2000bp, 1900bp, 1800bp, 1700bp, 1600bp, 1500bp, 1400bp, 1300bp, 1200bp, 1100bp or 1000bp may be a 15 to 40 nucleotide sequence present in the region.
  • the target sequence may include a nucleic acid sequence selected from the group consisting of SEQ ID NO: 1 to SEQ ID NO: 49. Specific examples of target sequences according to this embodiment are provided in Table 2 below.
  • the upstream area is referred to as the F area, which is an abbreviation for the front area.
  • the target sequence may be a 15 to 40 nucleotide sequence present in the region downstream of exon 13, including the c.2276G>T mutation and/or the c.2299delG mutation. Additionally, the target sequence may be a 15 to 40 nucleotide sequence present in the region between the 3'-end of exon 13 and the 5'-end of exon 14 of the USH2A gene. Additionally, the target sequence may be a 15 to 40 nucleotide sequence present in the intron 13 region of the USH2A gene.
  • the target sequence is 15000bp, 14500bp, 14000bp, 13500bp, 13000bp, 12500bp, 12000bp, 11500bp, 11000bp, 10500bp, 10000bp, 9500bp, linked to the 3'-end of exon 13 of the USH2A gene.
  • the target sequence may include a nucleic acid sequence selected from the group consisting of SEQ ID NO: 50 to SEQ ID NO: 79. Specific examples of target sequences according to this embodiment are provided in Table 3 below.
  • the downstream region is referred to as the R region, which is an abbreviation for the rear region.
  • the engineered guide RNA is a sequence part that allows the target nucleic acid to be found, that is, recognizing the target sequence in the above-described USH2A gene, binding to the target sequence, or It includes one or more guide sequences targeting a target sequence. More specifically, the guide sequence may be a sequence that can hybridize or bind complementary to the target sequence.
  • target sequence refers to the entire content described in “(2) target sequence” above.
  • guide sequence is a sequence complementary to the target sequence in the target gene and is linked to the 3'-end of the crRNA repeat sequence.
  • the guide sequence portion of crRNA may bind complementary to the target gene (eg, USH2A gene).
  • the guide sequence portion of the crRNA may bind complementary to the target sequence portion of the target gene.
  • the guide sequence may be a sequence complementary to the target sequence included in the target strand of the double-stranded DNA.
  • the guide sequence may include a sequence homologous to the protospacer sequence contained in the non-target strand of the double-stranded DNA.
  • the guide sequence may have the same base sequence as the protospacer sequence, but may have a sequence in which each thymine (T) included in the base sequence is replaced with uracil (U).
  • the guide sequence may include an RNA sequence corresponding to the DNA sequence of the protospacer.
  • the guide sequence is an RNA sequence corresponding to the DNA sequence of one protospacer selected within the upstream region of USH2A exon 13 and/or one selected within the downstream region of USH2A exon 13 It may contain an RNA sequence corresponding to the DNA sequence of the protospacer.
  • the guide sequence may be a 15 to 40 nucleotide sequence.
  • the guide sequence may be 15 to 20, 15 to 25, 15 to 30, 15 to 35, or 15 to 40 nucleotides. Additionally, the guide sequence may be a 20 to 25, 20 to 30, 20 to 35, or 20 to 40 nucleotide sequence. Additionally, the guide sequence may be a 25 to 30, 25 to 35, or 25 to 40 nucleotide sequence. Additionally, the guide sequence may be a 30 to 35 or 30 to 40 nucleotide sequence. Additionally, the guide sequence may be a 35 to 40 nucleotide sequence. In another embodiment, the guide sequence is 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35 , may be a sequence of 36, 37, 38, 39 or 40 nucleotides.
  • the guide sequence may be a sequence that binds complementary to the target sequence.
  • the complementary bond may optionally include at least one mismatch bond.
  • the guide sequence is a sequence that binds complementary to the target sequence, and in this case, the complementary binding may include 0 to 5 mismatches.
  • the guide sequence can be a sequence complementary to the target sequence.
  • the complementary sequence may include 0 to 5 mismatched nucleotide sequences with respect to the target sequence.
  • the guide sequence may be a sequence having more than 70% sequence complementarity to the target sequence.
  • “complementary” can mean containing 0 to 5 mismatches or having more than 70% complementarity, and should be interpreted appropriately according to the context.
  • the guide sequence may include uridine (U), which can form a complementary bond to A.
  • the guide sequence is at least 70% to 75%, at least 70% to 80%, at least 70% to 85%, at least 70% to 90%, at least 70% to 95%, at least 70% of the target sequence.
  • the sequence may be from 100% to 100%, at least 75% to 80%, at least 75% to 85%, at least 75% to 90%, at least 75% to 95% or at least 75% to 100% complementary.
  • the guide sequence is at least 80% to 85%, at least 80% to 90%, at least 80% to 95%, at least 80% to 100%, at least 85% to 90%, at least 85% to the target sequence.
  • the sequences may be 95% or at least 85% to 100% complementary.
  • the guide sequence may be a sequence that is at least 90% to 95%, at least 90% to 100%, or at least 95% to 100% complementary to the target sequence. More specifically, the guide sequence is at least 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88 relative to the target sequence. , 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 or may be a 100% complementary sequence.
  • the guide sequence may be the same as or similar to the protospacer sequence.
  • the guide sequence may be a sequence having sequence identity or sequence similarity to the protospacer sequence. At this time, the sequence identity or sequence similarity may be at least 70% or more.
  • the guide sequence may include uridine (U) instead of thymidine (T).
  • the guide sequence may be a sequence identical to or similar to the protospacer sequence.
  • the guide sequence may have greater than 70% sequence identity to the protospacer sequence.
  • the guide sequence may include uracil (U) in place of thymine (T).
  • the guide sequence is at least 70% to 75%, at least 70% to 80%, at least 70% to 85%, at least 70% to 90%, at least 70% to 95%, at least 70% of the protospacer sequence. to 100%, at least 75% to 80%, at least 75% to 85%, at least 75% to 90%, at least 75% to 95%, or at least 75% to 100% sequence identity or similarity.
  • the guide sequence is at least 80% to 85%, at least 80% to 90%, at least 80% to 95%, at least 80% to 100%, at least 85% to 90%, at least 85% of the protospacer sequence. may have 95% or at least 85% to 100% sequence identity or similarity.
  • the guide sequence may have at least 90% to 95%, at least 90% to 100%, or at least 95% to 100% identity or similarity to the protospacer sequence.
  • the guide sequence is a protospacer sequence and at least 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88 , 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, or may have 100% identity or similarity.
  • the USH2A gene editing system includes a first guide RNA comprising a first guide sequence, a second guide RNA comprising a second guide sequence, or the first guide RNA and the second guide. May contain RNA.
  • the first guide sequence is 15 to 40 nucleotides that bind complementary to a target sequence present in the upstream region of exon 13 of the USH2A gene comprising the c.2276G>T mutation and/or the c.2299delG mutation. It may be a ranking.
  • the upstream region is 5000bp, 4000bp, 3700bp, 3600bp, 3500bp, 3400bp, 3300bp, 3200bp, 3100bp, 3000bp, 2900bp, 2800bp, 2700bp, 2600bp, 2500bp of USH2A exon 13.
  • the target sequence may include a nucleic acid sequence selected from the group consisting of SEQ ID NO: 1 to SEQ ID NO: 49.
  • the first guide sequence is a 15 to 40 nucleotide sequence that binds complementary to a target sequence present in the region between the 3'-end of exon 12 and the 5'-end of exon 13 of the USH2A gene. You can. Additionally, the first guide sequence may be a 15 to 40 nucleotide sequence that binds complementary to the target sequence present in the intron 12 region of the USH2A gene.
  • the first guide sequence is 5000bp, 4000bp, 3700bp, 3600bp, 3500bp, 3400bp, 3300bp, 3200bp, 3100bp, 3000bp, 2900bp, 2800bp, 2700bp, 26 linked to the 5'-end of exon 13 of the USH2A gene.
  • 00bp, 2500bp, 2400bp 15 to 40 nucleosi that bind complementary to the target sequence present in the 2300bp, 2200bp, 2100bp, 2000bp, 1900bp, 1800bp, 1700bp, 1600bp, 1500bp, 1400bp, 1300bp, 1200bp, 1100bp or 1000bp region. It may be a tid sequence.
  • the first guide sequence may be a 15 to 40 nucleotide sequence that binds complementary to one or more target sequences selected from the group consisting of SEQ ID NO: 1 to SEQ ID NO: 49.
  • the first guide sequence is hybridizable or comprises a sequence complementary to a target sequence complementary to a nucleic acid sequence selected from the group consisting of SEQ ID NO: 397 to SEQ ID NO: 445 within the 5000 bp upstream region of USH2A exon 13. This can be done.
  • the first guide sequence comprises a contiguous 15 to 22 nucleotide sequence in a nucleic acid sequence selected from the group consisting of SEQ ID NO: 397 to SEQ ID NO: 445, wherein the contiguous nucleotide sequence contains thymine (T). It may contain or consist of a nucleic acid sequence substituted with thread (U).
  • the first guide sequence may comprise or consist of a nucleic acid sequence selected from the group consisting of SEQ ID NO: 80 to SEQ ID NO: 128 and SEQ ID NO: 159 to SEQ ID NO: 164.
  • the first guide sequence having the nucleic acid sequence of any one of SEQ ID NO: 80 to SEQ ID NO: 128 is provided in Table 4, and the first guide sequence having the nucleic acid sequence of any one of SEQ ID NO: 159 to SEQ ID NO: 164 is provided in Table 15. It is presented in For convenience, the upstream area is referred to as the F area, which is an abbreviation for the front area.
  • the second guide sequence is 15 to 40 sequences that bind complementary to a target sequence present in the region downstream of exon 13 of the USH2A gene comprising the c.2276G>T mutation and/or the c.2299delG mutation. It may be a nucleotide sequence.
  • the downstream region is 15000bp, 14500bp, 14000bp, 13500bp, 13000bp, 12500bp, 12000bp, 11500bp, 11000bp, 10500bp, 10000bp, 9500bp, 9000bp, 8 of USH2A exon 13.
  • the target sequence may include a nucleic acid sequence selected from the group consisting of SEQ ID NO: 50 to SEQ ID NO: 79.
  • the second guide sequence is a 15 to 40 nucleotide sequence that binds complementary to a target sequence present in the region between the 3'-end of exon 12 and the 5'-end of exon 13 of the USH2A gene. You can. Additionally, the second guide sequence may be a 15 to 40 nucleotide sequence that binds complementary to the target sequence present in the intron 13 region of the USH2A gene.
  • the second guide sequence is 15000bp, 14500bp, 14000bp, 13500bp, 13000bp, 12500bp, 12000bp, 11500bp, 11000bp, 10500bp, 10000bp, 9500bp linked to the 3'-end of exon 13 of the USH2A gene.
  • the second guide sequence may be a 15 to 40 nucleotide sequence that binds complementary to one or more target sequences selected from the group consisting of SEQ ID NO: 50 to SEQ ID NO: 79.
  • the second guide sequence is hybridizable or comprises a sequence complementary to a target sequence complementary to a nucleic acid sequence selected from the group consisting of SEQ ID NO: 446 to SEQ ID NO: 475 within the 5000 bp upstream region of USH2A exon 13. This can be done.
  • the second guide sequence comprises a sequence of 15 to 20 contiguous nucleotides in a nucleic acid sequence selected from the group consisting of SEQ ID NOs: 446 to 475, wherein thymine (T) is uracil ( It may comprise or consist of a nucleic acid sequence substituted with U).
  • the second guide sequence may comprise or consist of a nucleic acid sequence selected from the group consisting of SEQ ID NO: 129 to SEQ ID NO: 158 and SEQ ID NO: 165 to SEQ ID NO: 174.
  • the first guide sequence having the nucleic acid sequence of any one of SEQ ID NOs: 129 to 158 is provided in Table 5, and the first guide sequence having the nucleic acid sequence of any of SEQ ID NOs: 165 to 174 is shown in Table 15. It is presented in For convenience, the downstream region is referred to as the R region, which is an abbreviation for the rear region.
  • the guide sequence (first guide sequence and/or second guide sequence) may be present at the 5'-end of the crRNA.
  • a U-rich tail can be added to the 5'-end of the guide sequence.
  • MS2 Modification at modification site 2
  • the guide RNA includes a scaffold region and a spacer region described above, where the scaffold region interacts with a Cas12f1 molecule (e.g., Cas12f1 or variant protein thereof) and contributes to the formation of the CRISPR/Cas12f1 complex.
  • the scaffold region may include a crRNA scaffold sequence and a tracrRNA scaffold sequence and may be located in or linked to the 5'-end direction of the guide region.
  • the scaffold region may consist of a dual scaffold sequence or a single scaffold sequence.
  • the scaffold sequence is composed of two different molecules, where the two molecules may each include a crRNA scaffold sequence and a tracrRNA scaffold sequence.
  • the guide RNA may also be composed of two molecules as a dual guide RNA.
  • crRNA and tracrRNA can exist independently.
  • the scaffold sequence may be composed of one molecule, for example, may include a tracrRNA scaffold sequence, a linker, and a crRNA scaffold sequence.
  • the guide RNA may also be composed of a single molecule as a single guide RNA.
  • the single guide RNA may be a crRNA linked directly to tracrRNA or linked through a linker.
  • the single guide RNA may have a structure of 5'-(tracrRNA)-(linker)-(crRNA)-3'.
  • the gRNA that exists in nature for the CWCas12f1 protein may be the wild-type gRNA found in nature for the wild-type Un1Cas12f1, which is similar in size to the CWCas12f1 protein. That is, in the present invention, “wild type” gRNA for Cas12f1 protein is used in the sense of “canonical” or “canonical” gRNA.
  • the wild-type gRNA contains two structures in which a part of the tracrRNA (tracrRNA anti-repeat) and a part of the crRNA repeat are complementary to form a duplex. For convenience, this is called R:AR1 (crRNA These are referred to as repeat-tracrRNA anti-repeat duplex 1) and R:AR2 (crRNA repeat-tracrRNA anti-repeat duplex 2) parts.
  • the wild-type guide RNA consists of (i) one or more stem-loop regions, (ii) a tracrRNA-crRNA complementarity region, and optionally (iii) three, four, or five consecutive uracil (U ) may include an area containing.
  • the scaffold region of the wild-type guide RNA is sequentially from the 5'-end: the first stem-loop region, the second stem-loop region, the third stem-loop region, the fourth stem-loop region, and the fifth stem-loop region. It may comprise a loop region (or a fifth stem region or a tracrRNA-crRNA complementarity region).
  • the scaffold region of the wild-type dual guide RNA has five stem regions, that is, from the 5'-end, a first stem-loop region (stem 1), a second stem-loop region (stem 2) ), the third stem-loop region (stem 3), the fourth stem-loop region (stem 4), and the fifth stem region (stem 5 (including R:AR2)).
  • the region containing stem 5 (R:AR2) is also referred to as the tracrRNA-crRNA complementation region.
  • the region subdivided into the stem or stem-loop region, tracrRNA-crRNA complementarity region, etc. does not encompass all regions of the scaffold sequence, and the scaffold sequence includes other regions that do not correspond to the subdivided region. Or, it may further include a sequence.
  • the wild-type gRNA may include wild-type tracrRNA having the base sequence of SEQ ID NO: 175, or may include wild-type crRNA having the base sequence of SEQ ID NO: 176.
  • the wild-type gRNA may be a single guide RNA (sgRNA) fused in the form of a single guide RNA and having the nucleotide sequence of SEQ ID NO. 177. Representative sequences of the wild type tracrRNA, crRNA and sgRNA are shown in Table 6.
  • sequence indicated as 'NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN' in Table 6 refers to a guide sequence (spacer sequence) having an arbitrary length (e.g., 15 to 40 nucleotides in length) that can hybridize with the target sequence in the target gene (e.g., USH2A gene). .
  • the guide RNA (e.g., first guide RNA and/or second guide RNA) for Cas12f1 or a variant protein thereof of the present invention adds a new structure to the wild-type guide RNA found in nature or has a circular structure. It is characterized as an engineered guide RNA that has been modified (e.g., removed and/or replaced).
  • the engineered gRNA (e.g., the first gRNA and/or the second gRNA) comprises a sequence in which one or more nucleotides are substituted, deleted, inserted, or added to the wild-type gRNA sequence, excluding the guide sequence.
  • a portion is at least 50%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, It is an engineered gRNA with 95%, 96%, 97%, 98%, 99% or 95% sequence identity.
  • sequence identity means a value determined by comparing two sequences that are optimally aligned in the comparison range, wherein the portion of the sequence, such as RNA, nucleic acid, etc., within the comparison range is adjusted for optimal alignment. May contain insertions or deletions (i.e. gaps) compared to the reference sequence.
  • modification site is abbreviated as “MS (modification site)” throughout this specification, and the numbers after “modification site” or “MS” are sequentially assigned according to the experimental engineering flow of each modification site according to one embodiment. This does not mean that engineering (transformation) at the modification site with the latter number necessarily includes engineering (transformation) at the modification site with the previous number.
  • Figure 1 shows MS1 to MS5, which are modification sites included in the engineered guide RNA (engineered gRNA) according to an embodiment of the present invention, on the wild-type guide RNA sequence.
  • a first stem-loop region including modification site 3 (MS3), a second stem-loop region including modification site 5 (MS5), and modification site 1 (MS1) ) and the tracrRNA-crRNA complementarity region (5th stem region or 5th stem-loop region) containing modification site 4 (MS4) corresponds to the region indicated by the one-dash box with different colored shading in Figure 1. It can be defined as an area or an area that includes it.
  • the third stem-loop region is a region corresponding to or containing the G(-90)-C(-74) sequence in FIG. 1
  • the fourth stem-loop region is a region corresponding to the U(-68)-C(-74) sequence in FIG. 1. It can be defined as a region corresponding to or containing the A(-35) sequence.
  • the modification applied to the engineered guide RNA (gRNA) of the present invention is ultimately aimed at achieving high gene editing efficiency and at the same time deriving a gRNA with a shorter length. That is, the modifications disclosed in the present invention are designed to protect against adeno-associated virus (AAV) and Within the packaging limits of the same carrier (approximately 4.7 kb), more space is allocated to other components for different purposes or uses (e.g., additional guide RNAs, shRNAs to suppress specific gene expression, etc.) The goal is to provide highly efficient gene editing effects that could not be achieved with the existing CRISPR/Cas system.
  • AAV adeno-associated virus
  • the engineered gRNA provided by the present invention basically includes a sequence in which one or more nucleotides are substituted, deleted, inserted, or added to the wild-type Cas12f1 gRNA sequence.
  • the engineered gRNA may have at least 50%, at least 60%, at least 70%, at least 80%, at least 85%, at least 90%, or at least 95% sequence identity with the wild-type Cas12f1 gRNA except for the guide sequence. there is.
  • the engineered guide RNA comprises (i) one or more stem-loop regions, (ii) a tracrRNA-crRNA complementarity region, and optionally (iii) three or more, four or more, or Compared to the wild-type Cas12f1 gRNA comprising a region containing five or more uracil (U), the engineered gRNA of the present invention has (a) deletion of part or all of one or more stem-loop regions; (b) deletion of part or all of the tracrRNA-crRNA complementary region; (c) substitution of at least one U of 3, 4, or 5 consecutive uracils (U); and (d) addition of one or more uridines to the 3'-end of the crRNA sequence.
  • the engineered guide RNA comprises (a1) deletion of part or all of the first stem-loop region; (a2) deletion of part or all of the second stem-loop region; (b) deletion of part or all of the tracrRNA-crRNA complementary region; (c) if three or more, four or five consecutive uracils (U) are present within the region of tracrRNA-crRNA complementarity, then one or more U's are replaced by A, G or C; and (d) addition of a U-rich tail to the 3'-end of the crRNA sequence (the sequence of the U-rich tail is expressed as 5'-(U m V) n U o -3', where V is each independent is A, C or G, m and o are integers between 1 and 20, and n is an integer between 0 and 5).
  • the engineered guide RNA may comprise a scaffold region comprising a (scaffold) sequence represented by formula (I):
  • the black solid line refers to a chemical bond between nucleotides (e.g., a phosphodiester bond), and the gray thick line refers to a complementary bond between nucleotides.
  • X a When two or more nucleotides are connected, they are interpreted as being directly connected in some way.
  • X b1 when X b1 consists of 0 nucleotides or is absent, the nucleotide directly connected to the 5'-end of It may be directly linked through a phosphodiester bond.
  • X a may be a (poly)nucleotide that may not exist or may have a stem-loop form. In another embodiment, X a may consist of 0 to 20 (poly)nucleotides.
  • X b1 and X b2 may be (poly)nucleotides capable of complementary binding.
  • X b1 can consist of 0 to 13 (poly)nucleotides, or X b2 can consist of 0 to 14 (poly)nucleotides.
  • X c1 and X c2 may be (poly)nucleotides capable of complementary binding.
  • X c1 can consist of 0 to 28 (poly)nucleotides
  • X c2 can consist of 0 to 27 (poly)nucleotides.
  • Lk is a polynucleotide linker of length 2 to 20, length 2 to 15, length 2 to 10, or length 2 to 8, or is absent.
  • the scaffold region of the engineered gRNA consists of a scaffold sequence represented by formula (I) above or is a gRNA having at least 80%, at least 85%, at least 90%, or at least 95% sequence identity with said sequence. It can be.
  • sequence identity for formula (I) is based on the sequence excluding the region indicated by the symbol.
  • the first stem-loop region of the scaffold sequence may be the region that corresponds to or includes X a in formula (I).
  • the second stem-loop region of the scaffold sequence may be a region corresponding to or comprising X b1 and X b2 in formula (I).
  • it may be a region corresponding to the second stem-loop 5'-CCGCUUCAC-X b1 -uuag-X b2 -AGUGAAGGUG-3' sequence including X b1 and X b2 .
  • the third stem region of the scaffold sequence may be a region corresponding to or comprising the 5'-GGCUGCUUGCAUCAGCC-3' sequence in Formula (I).
  • the fourth stem-loop region of the scaffold sequence may be a region corresponding to or comprising the 5'-UCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGA-3' sequence in Formula (I). Additionally, the tracrRNA-crRNA complementary region (fifth stem (-loop) region) of the scaffold sequence may be the region corresponding to X c1 and X c2 in formula (I).
  • wild-type tracrRNA e.g., SEQ ID NO: 175
  • gRNA naturally occurring guide RNA
  • U uracils
  • the engineered gRNA contains at least one of three or more, four or more, five or more U's in a row, preferably four or five U's of wild-type tracrRNA (e.g., SEQ ID NO: 175).
  • the U may have been artificially modified with another nucleotide, A, C, T, or G.
  • At least one of consecutive 3, 4, or 5 U in a region containing 3, 4, or 5 consecutive Uracil (U), referred to as MS1 Engineered gRNAs containing modifications in which U is replaced with a different type of nucleotide are provided.
  • the consecutive 3 or more, 4 or more, or 5 or more U may be present in the tracrRNA-crRNA complementary region of tracrRNA, where the consecutive 3 or more, preferably 4 or more, or 5 or more U By substituting one or more of them with A, G or C, it can be modified so that a sequence with three or more, preferably four or more, or five or more consecutive U's does not appear.
  • the sequence within the tracrRNA-crRNA complementary region of the crRNA corresponding to the sequence to be modified is also modified together.
  • the sequence 5'-ACGAA-3' exists within the tracrRNA-crRNA complementary region of crRNA, which forms a partial complementary bond with the sequence 5'-UUUU-3' within the tracrRNA-crRNA complementary region of tracrRNA,
  • the sequence may be replaced with 5'-NGNNN-3'.
  • N is each independently A, C, G or U.
  • the engineered gRNA of formula (I) above when there are at least 3, 4, or 5 consecutive uracils (U) within the X c1 sequence, at least one of these U is A, G Or it may include a modification where C is substituted.
  • the sequence 5'-UUUUU-3' exists in the X c1 sequence, the sequence may be replaced with 5'-NNNCN-3'.
  • N is each independently A, C, G or U.
  • sequence 5'-UUUUU-3' in the It is not limited to the following sequences, as long as sequences containing more than one U are not shown: 5'-UUUCU-3', 5'-GUUCU-3', 5'-UCUCU-3', 5'-UUGCU-3' , 5'-UUUCC-3', 5'-GCUCU-3', 5'-GUUCC-3', 5'-UCGCU-3', 5'-UCUCC-3', 5'-UUGCC-3', 5 '-GCGCU-3', 5'-GCUCC-3', 5'-GUGCC-3', 5'-UCGCC-3', 5'-GCGCC-3' and 5'-GUGCU-3'.
  • the engineered gRNA of formula (I) in the engineered gRNA of formula (I), the The corresponding sequence in the For example, if the sequence 5'-ACGAA-3' exists in the X c2 sequence of formula (I), the sequence may be replaced with 5'-NGNNN-3'.
  • N is each independently A, C, G or U.
  • an engineered guide RNA is an engineered guide RNA (gRNA) that adds a new configuration to the gRNA found in nature and includes one or more guide RNAs at the 3'-end of the crRNA sequence, more specifically at the 3'-end of the spacer sequence included in the crRNA. It may be that uridine has been added.
  • the 3'-end of the crRNA sequence may be the 3'-end of the guide sequence (spacer).
  • one or more uridines added to the 3'-end are also referred to as "U-rich tail".
  • the engineered gRNA containing one or more uridine or U-rich tails added to the 3'-end serves to increase nucleic acid cleavage or indel efficiency for the target gene or target nucleic acid of the ultra-small CRISPR/Cas12f1 system. .
  • U-rich tail used herein may refer not only to the RNA sequence itself rich in uridine (U), but also to the DNA sequence encoding it, and is interpreted appropriately depending on the context. The present inventors have experimentally revealed in detail the structure and effect of the U-rich tail sequence, which will be described in more detail with specific embodiments below.
  • the U-rich tail sequence can be expressed as Ux.
  • the x may be 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20.
  • x may be an integer within a range of two values selected from the values listed above.
  • x may be an integer between 1 and 6.
  • x may be an integer between 1 and 20.
  • x may be an integer greater than or equal to 20.
  • the sequence of the U-rich tail is represented as 5'-(U m V) n U o -3', wherein each V is independently A, C or G, and m and o are 1 to 20. is an integer between, and n may be an integer between 0 and 5. As an example, n may be 0, 1, or 2. For example, m and o may each independently be 1, 2, 3, 4, 5, 6, 7, 8, 9, or 10.
  • the sequence of the U-rich tail is the sequence represented by 5'-(U m V) n U o -3', where (i) n is 0 and o is an integer between 1 and 6, or (ii) V is each independently A or G, m and o are each independently an integer between 3 and 6, and n may be a U-rich tail which is an integer between 1 and 3.
  • the U-rich tail is 5'-U-3', 5'-UU-3', 5'-UUU-3', 5'-UUUU-3', 5'-UUUUU-3', 5'-UUUUUU-3', 5'-UUUUUU-3', 5'-UUURUUU-3',5'-UUUURUU-3',5'-UUUURUU-3',5'-UUUURUU-3',5'-UUUURUU-3',5'-UUUURUU-3',5'-UUUURUUU-3',5'-UUUURUUU-3',5'-UUUURUUUUUUUUUUU It consists of any one sequence selected from the group consisting of -3' and 5'-UUUURUUUUUU-3', and R may be a U-rich tail of A or G.
  • the U-rich tail is 5'-UUUUUUUUU-3' (SEQ ID NO: 351), 5'-UUAUUUAUUU-3' (SEQ ID NO: 352), 5'-UUUCUAUUUU-3' (SEQ ID NO: 353), or 5'-UUAUGUUUUU It may consist of or include the sequence -3' (SEQ ID NO: 354).
  • the U-rich tail sequence is a modified uridine repeat sequence containing one ribonucleoside (A, C, or G) other than uridine for every one to five repeats of uridine. may include.
  • the modified uridine contiguous sequence is particularly useful when designing vectors expressing engineered crRNA.
  • the U-rich tail sequence may include one or more repeated sequences of UV, UUV, UUUV, UUUUV, and/or UUUUUV. At this time, V is one of A, C, and G.
  • the U-rich tail sequence may be a combination of a sequence expressed as Ux and a sequence expressed as 5'-(U m V) n -3'.
  • the U-rich tail sequence can be expressed as (U)n1-V1-(U)n2-V2-Ux.
  • V1 and V2 are each one of adenine (A), cytidine (C), and guanine (G).
  • n1 and n2 may each be an integer between 1 and 4.
  • x may be an integer between 1 and 20.
  • the length of the U-rich tail sequence is 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, or It may be 20nt. In one embodiment, the length of the U-rich tail sequence may be 20 nt or more.
  • the U-rich tail when the engineered gRNA is expressed in a cell, the U-rich tail may be expressed as one or more sequences due to premature termination of transcription.
  • a gRNA intended to contain a U-rich tail of the 5'-UUUUAUUUUU-3' sequence when transcribed in a cell, 4 or more or 5 or more Ts may act as a termination sequence.
  • gRNA containing a U-rich tail such as 5'-UUUUAUUUU-3', 5'-UUUUAUUUUU-3' or 5'-UUUUAUUUUU-3' can be produced simultaneously. Therefore, in the present invention, a U-rich tail containing four or more U can be understood to also include a U-rich tail sequence with a shorter length than the intended length.
  • the U-rich tail sequence may further include additional bases in addition to uridine depending on the actual use environment and expression environment of the gene editing system of the present invention, for example, the internal environment of eukaryotic cells or prokaryotic cells.
  • MS3 is a region containing some or all of the nucleotides that form a stem-loop structure within the gRNA and effector protein complex (may be referred to as the first stem-loop region), and the MS3 is a region containing the gRNA and the effector protein complex. When a protein complex is formed, it may contain a region that does not interact with the effector protein. Modifications in MS3 include removal of part or all of the first stem-loop region near the 5'-end of the tracrRNA.
  • the engineered gRNA comprises a modification in which part or all of the first stem-loop region (e.g., sequence of SEQ ID NO: 178) is deleted.
  • the engineered gRNA comprises a variant in which part or all of the first stem-loop region on the tracrRNA is deleted, wherein the part or all of the first stem-loop region that is deleted is 1 to 20 nucleotides long. It can be. Specifically, part or all of the first stem-loop region is 2 to 20, 3 to 20, 4 to 20, 5 to 20, 6 to 20, or 7 to 20. , 8 to 20, 9 to 20, 10 to 20, 11 to 20, 12 to 20, 13 to 20, 14 to 20, 15 to 20, 16 It may be from 20 to 20, 17 to 20, 18 to 20, 19 or 20 nucleotides.
  • MS3 or the first stem-loop region is a region corresponding to the polynucleotide represented by a
  • a may consist of 0 to 35 (poly) nucleotides, preferably 0 to 20, 0 to 19, 0 to 18, 0 to 17, 0 to 16, 0 to 15, 0 to 14, 0 to 13, 0 to 12, 0 to 11, 0 to 10, 0 to 9, 0 to 8, 0 to 7, 0 to 6, 0 to 5, 0 to It may consist of 4, 0 to 3, 0 to 2, 1 or 0 (poly)nucleotides.
  • the deletion of the nucleotide is at least 1, 2, 3, 5, 6, 7, 8, 9, 10, 11, 12 nucleotides in the sequence of SEQ ID NO: 178. , 13, 14, 15, 16, 17, 18, 19, or 20 may be deleted. In a preferred example, the deletion of the nucleotide is at least 1, 2, 3, 5, 6, 7, 8, 9, 10, 11 from the 5'-end in the sequence of SEQ ID NO: 178, 12, 13, 14, 15, 16, 17, 18, 19 or 20 nucleotides may have been deleted sequentially starting from the 5'-end.
  • 5'-CACUGAUAAAGUGGAGA-3' (SEQ ID NO: 181), 5'-ACUGAUAAAGUGGAGA-3' (SEQ ID NO: 182), 5'-CUGAUAAAGUGGAGA-3' (SEQ ID NO: 183), 5'-UGAUAAAGUGGAGA-3' (SEQ ID NO: Number 184), 5'-GAUAAAGUGGAGA-3' (SEQ ID NO: 185), 5'-AUAAAGUGGAGA-3' (SEQ ID NO: 186), 5'-UAAAGUGGAGA-3' (SEQ ID NO: 187), 5'-AAAAGUGGAGA-3' (SEQ ID NO: 188), 5'-AAAGUGGAGA-3', 5'-AGUGGAGA-3', 5'-GUGGAGA-3', 5'-UGGAGA-3', 5'-GGAGA-3', 5'-GAGA -3', 5'-AGA-3', 5'-GA-3' or 5'-A-3'
  • MS4 is a region located across the 3'-end of tracrRNA and the 5'-end of crRNA, or, in the case of a single guide RNA form, a region where the sequence corresponding to the tracrRNA and the sequence corresponding to the crRNA form at least some complementary bonds, forming tracrRNA- It may comprise part or all of a sequence referred to as the crRNA complementation region (which may also be referred to as the fifth stem region).
  • the tracrRNA-crRNA complementary region may include modification site 1 (MS1) and modification site 4 (MS4). Modifications in MS4 include deletion of part or all of the tracrRNA-crRNA complementary region.
  • the tracrRNA-crRNA complementary region includes a part of tracrRNA and a part of crRNA, so that some nucleotides contained in tracrRNA can form complementary bonds with some nucleotides contained in crRNA within a complex of gRNA and nucleic acid decomposition protein. It includes and may include nucleotides adjacent thereto.
  • the tracrRNA-crRNA complementary region of tracrRNA may include a region that does not interact with nucleolytic proteins within the gRNA and nucleolytic protein complex.
  • the engineered gRNA has a deletion of part or all of the tracrRNA-crRNA complementary region in the tracrRNA, deletion of part or all of the tracrRNA-crRNA complementary region in the crRNA, or tracrRNA-crRNA in both the tracrRNA and the crRNA. Includes deletion of part or all of the region of complementarity.
  • the tracrRNA-crRNA complementary region may comprise the nucleotide sequence of SEQ ID NO: 203 and/or the nucleotide sequence of SEQ ID NO: 222.
  • the tracrRNA-crRNA complementary region may further include a linker (e.g., a polynucleotide) connecting the 3'-end of the tracrRNA and the 5'-end of the crRNA.
  • a linker e.g., a polynucleotide
  • the engineered gRNA comprises a modification in which a portion of the tracrRNA-crRNA complementary region is deleted, where the portion of the complementary region deleted may be 1 to 54 nucleotides.
  • the engineered gRNA comprises a modification in which the entire tracrRNA-crRNA complementary region is deleted, where the entire complementary region deleted may be 55 nucleotides.
  • part or all of the tracrRNA-crRNA complementary region is 3 to 55, 5 to 55, 7 to 55, 9 to 55, 11 to 55, 13 to 55, 15 to 55, 17 to 55, 19 to 55, 21 to 55, 23 to 55, 25 to 55, 27 to 55, 29 to 55, 31 It may be 55 to 55, 33 to 55, 35 to 55, 37 to 55, 39 to 55, or 41 to 55 nucleotides, preferably 42 to 55, or 43 to 55 nucleotides. 55, 44 to 55, 45 to 55, 46 to 55, 47 to 55, 48 to 55, 49 to 55, 50 to 55, 51 to 55 , 52 to 55, 53 to 55, 54 or 55 nucleotides.
  • the MS4 or tracrRNA-crRNA complementary region is a region corresponding to or comprising the polynucleotides represented by
  • the X c1 and X c2 may each independently consist of 0 to 35 (poly) nucleotides.
  • 0 to 19, 0 to 18, 0 to 17, 0 to 16, 0 to 15, 0 to 14, 0 to 13, 0 to 12, 0 to 11, 0 to 10 , 0 to 9, 0 to 8, 0 to 7, 0 to 6, 0 to 5, 0 to 4, 0 to 3, 0 to 2, 1 or 0 (poly)nucleotides It can be done with Also, preferably, the 19 to 19, 0 to 18, 0 to 17, 0 to 16, 0 to 15, 0 to 14, 0 to 13, 0 to 12, 0 to 11, 0 to 10, 0 Consists of 9 to 9, 0 to 8, 0 to 7, 0 to 6, 0 to 5, 0 to 4, 0 to 3, 0 to 2, 1 or 0 (poly)nucleotides You can.
  • the deletion of the nucleotide is at least 1, 2, 3, 5, 6, 7, 8, 9, 10, 11 from the 5'-end in the sequence of SEQ ID NO: 203, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27 or 28
  • the nucleotides may have been removed sequentially.
  • the UUCAUUUUUCCUCUCCAAUUCUGCA-3' (SEQ ID NO: 206), 5'-UUCAUUUUUCCUCUCCAAUUCUGC-3' (SEQ ID NO: 207), 5'-UUCAUUUUUCCUCUCCAAUUCUG-3' (SEQ ID NO: 208), 5'-UUCAUUUUUCCUCUCCAAUUCU-3' (SEQ ID NO: 209), 5 '-UUCAUUUUUCCUCUCCAAUUC-3' (SEQ ID NO: 210), 5'-UUCAUUUUUCCUCUCCAAUU-3' (SEQ ID NO: 211), 5'-UUCAUUUUUCCUCUCCAAU-3' (SEQ ID NO: 212), 5'-UUCAUUUUUCCUCUCCAA-3' (SEQ ID NO: 213) , 5'-UUCAUUUUUCCUCUCCA-3' (SEQ ID NO: 214), 5'-UUCAUUUUU
  • MS1 Modification at modification site 1
  • the deletion of the nucleotide is at least 1, 2, 3, 5, 6, 7, 8, 9, 10, 11 from the 5'-end in the sequence of SEQ ID NO: 222, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, or 27 nucleotides in sequence It may have been removed.
  • the GCAGAACCCGAAUAGACGAAUGAA-3' (SEQ ID NO: 225), 5'-CAGAACCCGAAUAGACGAAUGAA-3' (SEQ ID NO: 226), 5'-AGAACCCGAAUAGACGAAUGAA-3' (SEQ ID NO: 227), 5'-GAACCCGAAUAGACGAAUGAA-3' (SEQ ID NO: 228), 5 '-AACCCGAAUAGACGAAUGAA-3' (SEQ ID NO: 229), 5'-ACCCGAAUAGACGAAUGAA-3' (SEQ ID NO: 230), 5'-CCCGAAUAGACGAAUGAA-3' (SEQ ID NO: 231), 5'-CCGAAUAGACGAAUGAA-3' (SEQ ID NO: 232) , 5'-CGAAUAGACGAAUGAA-3' (SEQ ID NO: 233), 5'-GAAUAGACGAAUGAA-3' (SEQ ID NO: 234), 5'-AAUAGACGAAUGAA-3' (SEQ ID
  • the regions corresponding to X c1 and X c2 be the same or similar. In other words , in order to preserve the complementarity of the X c1 and It is desirable to do so.
  • the deletion of the X c1 and X c2 nucleic acid sequences may be a deletion of one or more complementary nucleotide pairs.
  • the Lk is a sequence that physically or chemically connects tracrRNA and crRNA, and may be a polynucleotide sequence of 1 to 30 lengths.
  • the Lk may be a nucleotide sequence of 1 to 5, 5 to 10, 10 to 15, 2 to 20, 15 to 20, 20 to 25, or 25 to 30 nucleotides.
  • the Lk may be a 5'-GAAA-3' sequence, but is not limited thereto.
  • the Lk is 5'-UUAG-3', 5'-UGAAAA-3', 5'-UUGAAAAA-3', 5'-UUCGAAAGAA-3' (SEQ ID NO: 240), 5'-UUCAGAAAUGAA-3' (SEQ ID NO: 241), 5'-UUCAUGAAAAUGAA-3' (SEQ ID NO: 242), or 5'-UUCAUUGAAAAAAUGAA-3' (SEQ ID NO: 243).
  • Lk linker
  • sgRNA single guide RNA
  • crRNA crRNA with some sequences from the 3'-end and 5'-end of tracrRNA with some sequences from the 3'-end removed. It is also possible to connect the 3'-terminus directly.
  • the 5'-X c1 -Lk- X c2 -3' is a group consisting of SEQ ID NO: 244 to SEQ ID NO: 250 and 5' -Lk-3' (a form in which both It may be any one nucleic acid sequence selected from, but is not limited thereto.
  • MS5 corresponds to a region located in the 3'-end direction in tracrRNA, referred to as the second stem-loop region.
  • the second stem-loop region includes nucleotides that form a stem structure within a guide RNA (gRNA) and nucleic acid editing protein complex, and may include adjacent nucleotides.
  • gRNA guide RNA
  • the stem or stem-loop structure is distinguished from the stem included in the above-described first stem-loop region.
  • the second stem-loop region may comprise the nucleotide sequence of SEQ ID NO: 189 and/or the nucleotide sequence of SEQ ID NO: 193.
  • MS5 or the second stem- loop region comprises (poly)nucleotides (including a loop of the 5'-UUAG-3' sequence) adjacent to the polynucleotides indicated by As a region, by a modification in which part or all of the second stem-loop region is deleted, X b1 and
  • the engineered gRNA comprises a modification in which part or all of the second stem-loop region is deleted.
  • the engineered gRNA comprises a deletion of part or all of a second stem-loop region, wherein the part or all of the second stem-loop region deleted may be 1 to 27 nucleotides.
  • part or all of the second stem region is 2 to 27, 3 to 27, 4 to 27, 5 to 27, 6 to 27, 7 to 27, 8 0 to 27, 9 to 27, 10 to 27, 11 to 27, 12 to 27, 13 to 27, 14 to 27, 15 to 27, 16 to 27, 17 to 27, 18 to 27, 19 to 27, 20 to 27, 21 to 27, 22 to 27, 23 to 27, 24 to 27 , may be 25 to 27, 26 or 27 nucleotides.
  • the X b2 is 0 to 14, 0 to 13, 0 to 12, 0 to 11, 0 to 10, 0 to 9, 0 to 8, 0 to 7, 0 It may consist of 6 to 6, 0 to 5, 0 to 4, 0 to 3, 0 to 2, 1 or 0 (poly)nucleotides.
  • the deletion of the nucleotide is at least 1, 2, 3, 5, 6, 7, 8, 9, 10, 11 from the 5'-end in the sequence of SEQ ID NO: 189, 12 or 13 nucleotides may have been removed sequentially.
  • the CAAAAGCUGU-3' (SEQ ID NO: 192), 5'-CAAAAGCUG-3', 5'-CAAAAGCU-3', 5'-CAAAAGC-3', 5'-CAAAAG-3', 5'-CAAAA-3', It may comprise or consist of the sequence 5'-CAAA-3', 5'-CAA-3', 5'-CA-3' or 5'-C-3', or X b1 may be absent.
  • the deletion of the nucleotide is at least 1, 2, 3, 5, 6, 7, 8, 9, 10, 11 from the 5'-end in the sequence of SEQ ID NO: 193, 12, 13, or 14 nucleotides may have been removed sequentially.
  • the AUUAGAACUUG-3' (SEQ ID NO: 196), 5'-UUAGAACUUG-3' (SEQ ID NO: 197), 5'-UAGAACUUG-3', 5'-AGAACUUG-3', 5'-GAACUUG-3', 5'- Contains or consists of the sequence AACUUG-3', 5'-ACUUG-3', 5'-CUUG-3', 5'-UUG-3', 5'-UG-3' or 5'-G-3' may be made, or X b1 may be absent.
  • the deletion of the X b1 and X b2 nucleic acid sequences may be a deletion of one or more complementary nucleotide pairs.
  • sequence of the loop portion connecting X b1 and It may be substituted with other sequences such as 'NNNN-3', '5-NNN-3', etc.
  • N is each independently A, C, G or U.
  • the 5'-NNNN-3' may be 5'-GAAA-3'
  • the '5-NNN-3' may be 5'-CGA-3'.
  • sequence of the loop portion connecting X b1 and X b2 in the scaffold sequence of formula (I) is 5'-UUAG-3'
  • sequence 5'-X in formula (I) b1 UUAGX b2 -3' includes or consists of any one nucleic acid sequence selected from the group consisting of SEQ ID NO: 198 to SEQ ID NO: 202 and 5'-UUAG-3' (a form in which both X b1 and X b2 are deleted) You can.
  • the engineered guide RNA (e.g., the first engineered guide RNA and/or the second engineered guide RNA) included in the USH2A gene editing system of the present invention is one of the above-described modification sites 1 (MS1) to 5 (MS5). It may include modifications at two or more modification sites.
  • the engineered guide RNA comprises (a1) deletion of part or all of the first stem-loop region; (a2) deletion of part or all of the second stem-loop region; (b) deletion of part or all of the tracrRNA-crRNA complementary region; (c) if three or more, four or five consecutive uracils (U) are present within the region of tracrRNA-crRNA complementarity, then one or more U's are replaced by A, G or C; and (d) addition of a U-rich tail to the 3'-end of the crRNA sequence.
  • the sequence of the U-rich tail can be expressed as 5'-(U m V) n U o -3', where the V is each independently A, C or G, and m and o are between 1 and 20. is an integer, and n is an integer between 0 and 5.
  • the engineered guide RNA may include (d) the addition of a U-rich tail to the 3'-end of the crRNA sequence and (c) the addition of three, four, or five consecutive uracils within the tracrRNA-crRNA complementary region. If U) is present, it may include substitution of one or more U with A, G or C.
  • the engineered guide RNA may include (d) the addition of a U-rich tail to the 3'-end of the crRNA sequence, (c) three or more, four or more, or five or more consecutive uracils within the tracrRNA-crRNA complementary region.
  • (U) may include substitution of one or more U with A, G or C and (a1) deletion of part or all of the first stem-loop region.
  • the engineered guide RNA may include (d) the addition of a U-rich tail to the 3'-end of the crRNA sequence, (c) three or more, four or more, or five or more contiguous elements within the tracrRNA-crRNA complementary region. If a thread (U) is present, it may include substitution of one or more U with A, G or C and (a1) deletion of part or all of the first stem-loop region.
  • the engineered guide RNA may include (d) addition of a U-rich tail to the 3'-end of the crRNA sequence, (a1) deletion of part or all of the first stem-loop region, and (b) tracrRNA-crRNA complementarity. It may contain a deletion of part or all of the region, and if three or more, four or more, or five or more consecutive uracils (U) are present within the tracrRNA-crRNA complementary region containing the partial deletion, one or more Substitution of U with A, G or C may additionally be included.
  • the engineered guide RNA may include (d) addition of a U-rich tail to the 3'-end of the crRNA sequence, (a1) deletion of part or all of the first stem-loop region, and (b) tracrRNA-crRNA complementarity. It may include deletion of part or all of the region and (a2) deletion of part or all of the second stem-loop region, and 3 or more, 4 consecutive tracrRNA-crRNA complementary regions containing the partial deletion When more than 5 or more uracils (U) are present, substitution of one or more U with A, G or C may be additionally included.
  • engineered tracrRNA comprising the nucleotide sequences of SEQ ID NO: 251 to SEQ ID NO: 296 is provided.
  • the engineered tracrRNA is SEQ ID NO: 251 (MS1), SEQ ID NO: 252 (MS1/MS3-1), SEQ ID NO: 253 (MS1/MS3-2), SEQ ID NO: 254 (MS1/MS3-3), SEQ ID NO: 255 (MS1/MS4 * -1), SEQ ID NO: 256 (MS1/MS4 * -2), SEQ ID NO: 257 (MS1/MS4 * -3), SEQ ID NO: 258 (MS1/MS5-1), SEQ ID NO: 259 (MS1) /MS5-2), SEQ ID NO: 260 (MS1/MS5-3), SEQ ID NO: 261 (MS1/MS3-3/MS4 * -1), SEQ ID NO: 262 (MS1/MS3-3/MS4 * -2), sequence Number 263 (MS1/MS3-3/MS4 * -3), SEQ ID NO: 264 (MS1/MS4 * -2/MS5-1), SEQ ID NO: 265 (MS1/MS4 * -2/MS5-2), SEQ ID NO: 251
  • exemplary sequences of engineered tracrRNAs having one or more modifications at any one or more modification sites selected from MS1, MS3, MS4, and MS5 are provided in Table 7 below.
  • This engineered tracrRNA constitutes part of the scaffold sequence of the scaffold region.
  • an engineered crRNA comprising the nucleotide sequence of SEQ ID NO: 297 to SEQ ID NO: 312 is provided.
  • the engineered crRNA of the present invention has SEQ ID NO: 297 (MS1), SEQ ID NO: 298 (MS1/MS4 * -1), SEQ ID NO: 299 (MS1/MS4 * -2), SEQ ID NO: 300 (MS1/MS4 * - 3), SEQ ID NO: 301 (mature form; MF), SEQ ID NO: 302 (MF/MS4-1), SEQ ID NO: 303 (MF/MS4-2), SEQ ID NO: 304 (MF/MS4-3), SEQ ID NO: 305 ( MS1/MS2), SEQ ID NO: 306 (MS1/MS2/MS4 * -1), SEQ ID NO: 307 (MS1/MS2/MS4 * -2), SEQ ID NO: 308 (MS1/MS2/MS4 * -3), SEQ ID NO: 309 (MF/MS2), SEQ ID NO: 310 (MF/MS2/MS4-1), SEQ ID NO: 311 (MF/MS2/MS4-2), or SEQ ID NO: 312 (MF/MS2/MS9 (
  • exemplary sequences of engineered crRNAs with one or more modifications at any one or more modification sites selected from MS1, MS2, and MS4 are provided in Table 8 below.
  • guide sequences are omitted for all crRNA sequences except where necessary, and the sequence indicated with 'NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN' is any guide that can hybridize with the target sequence in the target gene (e.g., USH2A gene). It means sequence (spacer).
  • the guide sequence can be appropriately designed by a person skilled in the art according to the desired target gene and/or the target sequence within the target gene, and therefore is not limited to a specific sequence of a specific length.
  • the scaffold region of the engineered gRNA is a tracrRNA comprising or consisting of any one nucleic acid sequence selected from the group consisting of SEQ ID NO: 251 to SEQ ID NO: 296; and may contain a crRNA consisting of or comprising any one nucleic acid sequence selected from the group consisting of SEQ ID NO: 297 to SEQ ID NO: 304.
  • the first guide RNA or second guide RNA of the present invention may include a sequence of a scaffold region of a nucleic acid sequence selected from the group consisting of SEQ ID NO: 313 to SEQ ID NO: 350.
  • the scaffold region of the nucleic acid sequence excludes the spacer region present in the 3'-terminal portion of the crRNA (e.g., the region indicated by 5'-NNNNNNNNNNNNNNNNNNNNNN-3' in the nucleic acid sequences of SEQ ID NO: 313 to SEQ ID NO: 350). refers to the remaining area.
  • the scaffold region of the engineered sgRNA includes any one nucleic acid sequence selected from the group consisting of SEQ ID NO: 313 to SEQ ID NO: 350. It may include or consist of it.
  • the 5'-NNNNNNNNNNNNNNNNNNNN-3', 5'-NNNNNNNNNNNNNNNNNNNNNUUUUAUUUU-3' or 5'-NNNNNNNNNNNNNNNNNNNNNNNUUUAUUUUU-3' sequences present at the 3'-end of SEQ ID NO: 313 to SEQ ID NO: 350 are excluded.
  • the engineered sgRNA is the sgRNA of SEQ ID NO:313 containing a modification in MS1, the sgRNA of SEQ ID NO:314 containing a modification in MS1/MS2, the sgRNA of SEQ ID NO:315 containing a modification in MS1/MS2/MS3 , it may be the sgRNA of SEQ ID NO: 316 containing a modification in MS2/MS3/MS4 or the sgRNA of SEQ ID NO: 317 including a modification in MS2/MS3/MS4/MS5.
  • the sequence indicated by 5'-NNNNNNNNNNNNNNNNNNNNNNNN-3' in the nucleic acid sequences of SEQ ID NOs. 313 to 317 refers to the guide sequence, and detailed information about the guide sequence is in item "2.2. Spacer region containing guide sequence.” Please refer to the entire information provided.
  • the engineered sgRNA is SEQ ID NO: 318 (MS1/MS3-1), SEQ ID NO: 319 (MS1/MS3-2), SEQ ID NO: 320 (MS1/MS3-3), SEQ ID NO: 321 (MS1/ MS4 * -1), SEQ ID NO: 322 (MS1/MS4 * -2), SEQ ID NO: 323 (MS1/MS4 * -3), SEQ ID NO: 324 (MS1/MS5-1), SEQ ID NO: 325 (MS1/MS5-2) ), SEQ ID NO: 326 (MS1/MS5-3), SEQ ID NO: 327 (MS1/MS2/MS4 * -2), SEQ ID NO: 328 (MS1/MS3-3/MS4 * -2), SEQ ID NO: 329 (MS1/MS2) /MS5-3), SEQ ID NO: 330 (MS1/MS3-3/MS5-3), SEQ ID NO: 331 (MS1/MS4 * -2/MS5-3), SEQ ID NO: 332 (MS1/MS2/MS3-3/MS5-3),
  • sequence indicated by 5'-NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN-3' in the nucleic acid sequences of SEQ ID NOs. 318 to 336 refers to the guide sequence, and detailed information about the guide sequence is in item "2.2. Spacer region containing guide sequence.” Please refer to the entire information provided.
  • the sgRNA may be a sgRNA containing or consisting of the nucleotide sequence of SEQ ID NO: 337, which is a mature form (abbreviated as MF) sgRNA.
  • exemplary sgRNAs are provided that include some modification of the nucleic acid sequence in the MF sgRNA.
  • the MF sgRNA is SEQ ID NO: 338 (MS3-1), SEQ ID NO: 339 (MS3-2), SEQ ID NO: 340 (MS3-3), SEQ ID NO: 341 (MS4-1), SEQ ID NO: 342 (MS4-2) ), SEQ ID NO: 343 (MS4-3), SEQ ID NO: 344 (MS5-1), SEQ ID NO: 345 (MS5-2), SEQ ID NO: 346 (MS5-3), SEQ ID NO: 347 (MS3-3/MS4-3) , SEQ ID NO: 348 (MS3-3/MS5-3), SEQ ID NO: 349 (MS4-3/MS5-3), or SEQ ID NO: 350 (MS3-3/MS4-3/MS5-3) or consists of the nucleotide sequence.
  • sequence indicated by 5'-NNNNNNNNNNNNNNNNNNNNNNNNNNNN-3' in the nucleic acid sequences of SEQ ID NOs. 337 to 350 refers to the guide sequence, and detailed information about the guide sequence is in item "2.2. Spacer region containing guide sequence.” Please refer to the entire information provided.
  • the engineered sgRNA may consist of the nucleotide sequence of SEQ ID NO: 315 (Cas12f1 ver3.0), SEQ ID NO: 316 (Cas12f1 ver4.0), or SEQ ID NO: 317 (Cas12f1 ver4.1).
  • the sequence indicated by 5'-NNNNNNNNNNNNNNNNNNNNNNNNNNNNNN-3' in the nucleic acid sequences of SEQ ID NO: 315, SEQ ID NO: 316, and SEQ ID NO: 317 refers to the guide sequence, and detailed information about the guide sequence is in item "2.2. Guide sequence. Please refer to the entire description under “Containing spacer area.”
  • the engineered tracrRNA of the present invention may optionally further include additional sequences.
  • the additional sequence may be located at the 3'-end of the engineered tracrRNA. Additionally, the additional sequence may be located at the 5'-end of the engineered tracrRNA. For example, the additional sequence may be located at the 5'-end of the first stem-loop region.
  • the additional sequence may be 1 to 40 nucleotides.
  • the additional sequence can be a random nucleotide sequence or a randomly arranged nucleotide sequence.
  • the additional sequence may be the 5'-AUAAAGGUGA-3' (SEQ ID NO: 355) sequence.
  • the additional sequence may be a known nucleotide sequence.
  • the additional sequence may be a hammerhead ribozyme nucleotide sequence.
  • the nucleotide sequence of the hammerhead ribozyme may be a 5'-CUGAUGAGUCCGUGAGGACGAAACGAGUAAGCUCGUC-3' (SEQ ID NO: 356) sequence or a 5'-CUGCUCGAAUGAGCAAAGCAGGAGUGCCUGAGUAGUC-3' (SEQ ID NO: 357) sequence.
  • the sequences listed above are merely examples, and additional sequences are not limited thereto.
  • the engineered tracrRNA or engineered crRNA included in the engineered gRNA may have at least one nucleotide chemically modified, if necessary.
  • the chemical modification may be modification of various covalent bonds that may occur in the base and/or sugar of the nucleotide.
  • the chemical modification includes methylation, halogenation, acetylation, phosphorylation, phosphorothioate (PS) linkage, locked nucleic acid (LNA), 2'-O- It may be methyl 3'phosphorothioate (MS) or 2'-O-methyl 3'thioPACE (MSP).
  • MS methyl 3'phosphorothioate
  • MSP 2'-O-methyl 3'thioPACE
  • the target gene or target nucleic acid within the cell is compared to the case of using guide RNA found in nature. Indel efficiency is significantly improved, which can lead to large-scale deletion effects.
  • the engineered gRNA is optimized for length showing high efficiency, thereby reducing the cost of gRNA synthesis, securing additional space or capacity when inserted into a viral vector, normal expression of gRNA, increased expression of operable gRNA, and stability of gRNA ( stability), increasing the stability of the gRNA and gene editing protein complex, inducing the formation of a highly efficient gRNA and gene editing protein complex, increasing the cleavage efficiency of the target nucleic acid by the ultra-small USH2A gene editing system containing the gRNA and gene editing protein complex, and the system This may be accompanied by an increase in deletion efficiency of a specific region of the target gene.
  • the use of the above-described engineered gRNA for Cas12f1 or its variant protein overcomes the limitations of the above-described prior art to cleave genes with high efficiency within cells and edit specific regions of genes with high efficiency (e.g., deletion). )can do.
  • engineered gRNA has a shorter length compared to gRNA found in nature, so it has high applicability in the field of gene editing technology.
  • the ultra-small gene editing system including gRNA and gene editing protein complex is very small in size and has excellent editing efficiency, so it can be used in various gene editing technologies.
  • Engineered guide RNA according to embodiments of the present invention may be single guide RNA or dual guide RNA.
  • Dual guide RNA means that the guide RNA is composed of two molecules of RNA: tracrRNA and crRNA.
  • Single guide RNA (sgRNA) means that the 3'-end of tracrRNA and the 5'-end of crRNA are connected through a linker.
  • the engineered single guide RNA may additionally include a linker sequence, and the tracrRNA sequence and the crRNA sequence may be connected through the linker sequence.
  • the 3'-end of the tracrRNA-crRNA complementary sequence of the tracrRNA included in the engineered scaffold sequence and the 5'-end of the tracrRNA-crRNA complementary sequence of the crRNA may be connected through a linker.
  • the tracrRNA-crRNA complementary regions of the tracrRNA and crRNA may be linked at the 3'-end and 5'-end, respectively, with a linker 5'-GAAA-3'.
  • linker refer to the information about Lk in formula (I) described above.
  • the sequence of the single guide RNA is sequentially linked from the 5'-end to the 3'-end, including a tracrRNA sequence, a linker sequence, a crRNA sequence, and a U-rich tail sequence.
  • a tracrRNA sequence a linker sequence, a crRNA sequence, and a U-rich tail sequence.
  • Part of the tracrRNA sequence and all and part of the CRISPR RNA repeat sequence included in the crRNA sequence have sequences complementary to each other.
  • the engineered guide RNA may be a dual guide RNA in which tracrRNA and crRNA form separate RNA molecules.
  • part of the tracrRNA and part of the crRNA may have complementary sequences to form double-stranded RNA.
  • the part containing the 3'-end of the tracrRNA and the part containing the CRISPR RNA repeat sequence of the crRNA may form a double strand.
  • the engineered guide RNA can combine with Cas12f1 or its variant protein to form a complex of guide RNA and the above protein, and can recognize a target sequence complementary to the guide sequence contained in the crRNA sequence to target a target gene or target containing the target sequence. Allows nucleic acids to be edited.
  • the tracrRNA sequence may comprise a complementary sequence with 0 to 20 mismatches with the CRISPR RNA repeat sequence.
  • the tracrRNA sequence may comprise a complementary sequence with 0 to 8 or 8 to 12 mismatches with the CRISPR RNA repeat sequence.
  • the USH2A gene editing system further includes additional configurations to achieve the goal (e.g., deletion of exon 13 of the USHA2A gene) in addition to the engineered guide RNA and Cas12f1 molecule (e.g., Cas12f1 or variant protein thereof) described above. can do.
  • the USH2A gene editing system may further include factors that can inhibit or reduce non-homologous end joining (NHEJ) activity.
  • the factor may be, for example, a molecule that inhibits the expression of a gene involved in NHEJ, or a nucleic acid encoding the molecule.
  • NHEJ non-homologous end joining
  • the factors can be used to inhibit/reduce NHEJ activity or promote/increase or decrease HDR activity.
  • non-homologous end joining refers to repair of double-stranded breaks in a nucleic acid sequence without the need for a homologous template (in contrast to homologous repair, which requires homologous sequences to induce repair of double-stranded breaks in the nucleic acid sequence). It refers to a mechanism for repairing double-strand breaks in a nucleic acid sequence by direct ligation of the broken ends. NHEJ often induces the loss (deletion) of nucleotide sequences near the double-strand break site.
  • the CRISPR/Cas12f1 system of the present invention for deleting the segment containing exon 13 in the USH2A gene may include a molecule that inhibits the expression of a gene involved in non-homologous end joining. This can achieve improved deletion efficiency of the segment containing exon 13.
  • the molecule that inhibits expression may be a small molecule or an inhibitory nucleic acid.
  • the expression inhibitory molecules include, for example, interfering nucleic acids (e.g., short interfering RNA (siRNA), double-stranded RNA (dsRNA), micro-RNA (miRNA), short hairpin RNA (shRNA) specific for gene transcripts) Or it may be an antisense oligonucleotide, but is not limited thereto.
  • the expression suppressor molecule may target enzymes involved in NHEJ, HDR or upstream regulation thereof by post-translational modifications, for example through phosphorylation, ubiquitination, and/or sumoylation. .
  • C-NHEJ the “canonical” or “classical” NHEJ pathway
  • DNA-PK DNA-PK
  • Ku70-80 Artemis
  • Ligase IV Lig4
  • XRCC4 Ligase IV
  • CLF CLF to repair double-strand breaks.
  • Pol ⁇ see Kasparek & Humphrey Seminars in Cell & Dev. Biol. 22:886-897, 2011).
  • the USH2A gene editing system of the present invention can be modified to reduce or eliminate the expression or activity of factors involved in the NHEJ pathway in order to inhibit the C-NHEJ pathway in cells.
  • the USH2A gene editing system includes MRE11, RAD50, NBS1, DNA-PK, CtIP, Ku70, Ku80, Artemis (DCLRE1C), ligase IV (Lig4), PNKP, XRCC4, XRCC4-like factor (XLF), and ATM.
  • It may further include a factor capable of reducing or eliminating the expression or activity of one or more selected from the group consisting of (ATM Serine/Threonine Kinase), CHK1/CHK2, CLF (CURLY LEAF), and Pol Mu (POLM).
  • ATM Serine/Threonine Kinase CHK1/CHK2, CLF (CURLY LEAF), and Pol Mu (POLM).
  • A-NHEJ alternative NHEJ pathway
  • the USH2A gene editing system of the present invention can be modified to reduce or eliminate the expression or activity of factors involved in the NHEJ pathway, to inhibit the A-NHEJ pathway in cells.
  • the USH2A gene editing system may further include a factor capable of reducing or eliminating the expression or activity of one or more selected from the group consisting of XRCC1, PARP (eg, PARP1), Lig1, and Lig3.
  • the gene involved in non-homologous end joining may be one or more selected from the group consisting of ATM1, XRCC4, XLF, XRCC6, LIG4, and DCLRE1C.
  • the gene involved in non-homologous end joining may be one or more selected from the group consisting of XRCC6 and DCLRE1C.
  • the inhibitory molecule may be shRNA, siRNA, miRNA, or antisense oligonucleotide. In another embodiment, the inhibitory molecule can be shRNA.
  • the shRNA molecule may be a molecule that inhibits the expression of one or more genes selected from the group consisting of XRCC6 and DCLRE1C.
  • the shRNA molecule may be one or more selected from the group consisting of shXRCC6 and shDCLRE1C.
  • nucleic acid or polynucleotide encoding each component of the gene editing system is provided.
  • the nucleic acid or polynucleotide may be a synthetic nucleic acid sequence.
  • the nucleic acid or polynucleotide is a nucleic acid editing protein (or endonuclease) included in the gene editing system to be expressed, a guide RNA (e.g., a spacer containing a guide sequence capable of hybridizing with a target sequence within the USH2A gene) Engineered guide RNAs comprising regions and scaffold regions), and/or nucleic acid sequences encoding molecules that inhibit the expression of genes involved in non-homologous end joining are provided.
  • the nucleic acid sequence can be DNA or RNA (eg, mRNA). Representative examples of nucleic acids or polynucleotides encoding each component of the gene editing system are disclosed herein, or the nucleic acid sequence can be easily determined by those skilled in the art by referring to the specific sequence of each component.
  • the nucleic acid or polynucleotide may comprise a human codon optimized nucleic acid sequence encoding a Cas12f1 molecule (e.g., Cas12f1 or variant protein thereof).
  • the term “codon optimization” refers to the use of a nucleic acid to enhance expression in a cell of interest by replacing at least one codon of the native sequence with a more frequently or most frequently used codon in the gene of the cell of interest, while maintaining the native amino acid sequence. It refers to the process of modifying the sequence.
  • codon bias differences in codon usage between organisms
  • codon bias differences in codon usage between organisms
  • codon bias is often correlated with the efficiency of translation of mRNA, which depends on the nature of the codon being translated and the availability of specific tRNA molecules. It is believed to be influenced by .
  • the predominance of selected tRNAs in a cell generally reflects the codons most frequently used in peptide synthesis. Accordingly, genes can be tailored for optimal gene expression in a given organism based on codon optimization.
  • nucleic acid encoding the human codon optimized CWCas12f1 protein or variant thereof may comprise or consist of a sequence selected from SEQ ID NOs: 365-368.
  • nucleic acid encoding the human codon optimized Un1Cas12f1 protein may comprise or consist of the sequence of SEQ ID NO: 364.
  • the nucleic acid or polynucleotide may be DNA or RNA that exists in nature, or may be a modified nucleic acid in which some or all of the nucleic acid or polynucleotide has been chemically modified.
  • a nucleic acid or polynucleotide may be one or more nucleotides that have been chemically modified.
  • the chemical modification may include all modifications of nucleic acids known to those skilled in the art.
  • vector systems are provided for editing or altering the USH2A gene (e.g., the human USH2A gene). Since the disclosed vector system allows each component of the above-described USH2A gene editing system (or CRISPR/Cas12f1 system) to be expressed within cells, the nucleic acid structure (e.g., nucleic acid sequence) included in the vector system is that of the USH2A gene editing system. Contains one or more nucleic acid sequences encoding each component. In addition, since the disclosed vector system allows each component of the USH2A gene editing system to be expressed within cells, all effects and advantages that are achieved or can be achieved by the USH2A gene editing system are applied as is.
  • each nucleic acid construct is capable of expressing each component of the USH2A gene editing system within a cell.
  • the vector system allows editing of the USH2A gene (e.g., deletion of the segment containing exon 13) within the cell.
  • nucleotide sequences encoding each component of the USH2A gene editing system described above are used.
  • a method may be used to introduce the vector into the target cell directly or through an appropriate delivery means, or to deliver the vector through a medium such as a virus and allow each component of the gene editing system to be expressed within the target cell.
  • the nucleotide sequences encoding each component of the above-described gene editing system can be operably linked and included in one vector. .
  • nucleic acid sequences encoding one or more components in the USH2A gene editing system described above may be present in more than one vector.
  • the two or more vectors may be the same or different vectors.
  • nucleic acid sequences encoding one or more components in the USH2A gene editing system described above may be present in one vector.
  • the vector system of the present invention in addition to the components of the USH2A gene editing system described above, may include a nucleic acid sequence encoding additional expression elements that a person skilled in the art would like to express as needed.
  • the additional expression element may be a tag.
  • additional expression elements include herbicide resistance genes such as glyphosate, glufosinate ammonium or phosphinothricin, ampicillin, kanamycin, G418, bleo It may be an antibiotic resistance gene such as bleomycin, hygromycin, or chloramphenicol.
  • the vector system must contain one or more regulatory and/or control components for direct intracellular expression.
  • regulatory and/or control components include promoters, enhancers, introns, polyadenylation signals, Kozak consensus sequences, internal ribosome entry site (IRES), splice acceptors, and 2A sequences. and/or a replication origin, but is not limited thereto.
  • the origin of replication may be an f1 origin of replication, an SV40 origin of replication, a pMB1 origin of replication, an adeno origin of replication, an AAV origin of replication, and/or a BBV origin of replication, but is not limited thereto.
  • a promoter sequence in order to express within a cell the nucleic acid sequence encoding the gene editing system of the present invention contained in the vector system, a promoter sequence is operably linked to the sequence encoding each component to allow expression within the cell.
  • RNA transcription factors may need to be activated.
  • the promoter sequence can be designed differently depending on the corresponding RNA transcription factor or expression environment, and is not limited as long as it can properly express the components of the gene editing system of the present invention within the cell.
  • the promoter sequence may be a promoter that promotes transcription of RNA polymerase RNA Pol I, Pol II, or Pol III.
  • the promoter may be one of the U6 promoter, EFS promoter, EF1- ⁇ promoter, H1 promoter, 7SK promoter, CMV promoter, LTR promoter, Ad MLP promoter, HSV promoter, SV40 promoter, CBA promoter, or RSV promoter.
  • RNA transcription factor when the vector sequence comprises a promoter sequence, transcription of a sequence operably linked to the promoter is induced by an RNA transcription factor, which may include a termination signal that induces transcription termination of the RNA transcription factor.
  • the termination signal may vary depending on the type of promoter sequence. Specifically, when the promoter is a U6 or H1 promoter, the promoter recognizes the TTTTT (T5) or TTTTTT (T6) sequence, which is a thymidine (T) sequence, as a termination signal.
  • the sequence of the engineered guide RNA provided by the present invention may include a U-rich tail sequence at its 3'-end. Accordingly, the sequence encoding the engineered guide RNA includes a T-rich sequence corresponding to the U-rich tail sequence at its 3'-end. As described above, some promoter sequences recognize a thymidine (T) contiguous sequence, for example, a sequence of five or more thymidines (T) linked in a row, as a termination signal, so in some cases, the T-rich sequence is terminated. It can be recognized as a signal. In other words, when the vector sequence provided herein includes a sequence encoding an engineered guide RNA, the sequence encoding the U-rich tail sequence included in the engineered gRNA sequence can be used as a termination signal.
  • T thymidine
  • T thymidines
  • the vector sequence when the vector sequence includes a U6 or H1 promoter sequence and includes a sequence encoding an engineered guide RNA operably linked thereto, encoding a U-rich tail sequence included in the guide RNA sequence.
  • the U-rich tail sequence may include a sequence in which five or more uridine (U) elements are linked in a row.
  • the vector may be a viral vector.
  • the viral vector may be one or more selected from the group consisting of retroviral vectors, lentiviral vectors, adenovirus vectors, adeno-associated virus vectors, vaccinia virus vectors, poxvirus vectors, herpes simplex virus vectors, and phagemid vectors.
  • the viral vector may be an adeno-associated viral vector.
  • Viral vectors may also include SIN lentiviral vectors, retroviral vectors, foamy viral vectors, adenoviral vectors, adeno-associated virus (AAV) vectors, hybrid vectors, and/or plasmid transposons (e.g., Sleeping Beauty transposon system). ) or integrase-based vector systems.
  • the vector may be a non-viral vector.
  • the non-viral vector may be one or more selected from the group consisting of plasmid, naked DNA, DNA complex, mRNA (transcript), and amplicon, but is not limited thereto.
  • the plasmid is selected from the group consisting of pcDNA series, pSC101, pGV1106, pACYC177, ColE1, pKT230, pME290, pBR322, pUC8/9, pUC6, pBD9, pHC79, pIJ61, pLAFR1, pHV14, pGEX series, pET series, and pUC19. It may be.
  • naked DNA refers to DNA (e.g., histone-free DNA) encoding a protein, e.g., Cas12f1 of the invention or a variant thereof, cloned into a suitable expression vector (e.g., a plasmid) in an appropriate orientation for expression. ) refers to
  • amplicon when used in reference to a nucleic acid, refers to a nucleic acid replication product, wherein the product has a nucleotide sequence identical to or complementary to at least some of the nucleotide sequences of the nucleic acid.
  • an amplicon can be prepared using a nucleic acid as a template, including polymerase expansion, polymerase chain reaction (PCR), rolling circle amplification (RCA), multiple displacement amplification (MDA), ligation expansion, or ligation chain reaction. Amplicons can be generated by any of a variety of amplification methods.
  • An amplicon may be a nucleic acid molecule having a single copy of a particular nucleotide sequence (e.g., a PCR product) or multiple copies of a nucleotide sequence (e.g., a concatamer product of RCA).
  • a particular nucleotide sequence e.g., a PCR product
  • multiple copies of a nucleotide sequence e.g., a concatamer product of RCA
  • Vectors disclosed in this specification may be designed in linear or circular vector form. If the vector is a linear vector, RNA transcription is terminated at its 3'-end, even if the linear vector sequence does not separately contain a termination signal. However, when the vector is a circular vector, RNA transcription is not terminated unless the circular vector sequence separately contains a termination signal. Therefore, when using a circular vector, a termination signal corresponding to the transcription factor associated with each promoter sequence must be included in order to express the intended target.
  • the viral vector or non-viral vector may be delivered by a delivery system such as liposomes, polymeric nanoparticles (e.g., lipid nanoparticles), oil-in-water nanoemulsions, or combinations thereof, or may be delivered in viral form. You can.
  • a delivery system such as liposomes, polymeric nanoparticles (e.g., lipid nanoparticles), oil-in-water nanoemulsions, or combinations thereof, or may be delivered in viral form. You can.
  • Recombinant viruses or recombinant viral particles produced by the vector systems disclosed herein are provided.
  • the viral vector is a group consisting of, for example, retroviral vectors, lentiviral vectors, adenovirus vectors, adeno-associated virus vectors, vaccinia virus vectors, poxvirus vectors, herpes simplex virus vectors, and phagemid vectors. It may be one or more viral vectors selected from. Preferably, the viral vector may be an adeno-associated viral vector.
  • the virus may be selected from the group consisting of retrovirus, lentivirus, adenovirus, adeno-associated virus, vaccinia virus, poxvirus, herpes simplex virus, and phage.
  • the phage may be selected from the group consisting of ⁇ gt4 ⁇ B, ⁇ -charon, ⁇ z1, and M13.
  • the size of the nucleotide sequence encoding all components of the editing system must be 4.7, which is the packaging limit of AAV. It is important to design within kb.
  • the CRISPR/Cas12f1 system of the present invention the ultra-small nucleic acid editing protein and the two engineered gRNAs included in the system are very small in size, so additional regulatory molecules (e.g., those involved in the non-homologous end joining mechanism) are used. Even if additional molecules (molecules that suppress genes) are included, there is an advantage that it can be sufficiently packaged within the AAV delivery vehicle.
  • compositions comprising each component of the above-described gene editing system, one or more vectors of the above-described vector system, or the above-described virus is provided.
  • the disclosed compositions may be pharmaceutical compositions. Additionally, the pharmaceutical composition may be used to prevent or treat Usher syndrome.
  • the pharmaceutical composition may be for editing the USH2A gene (eg, deletion of the segment containing exon 13 in the USH2A gene). Additionally, the pharmaceutical composition may be for treating Usher syndrome or delaying its onset or progression.
  • the pharmaceutical composition can be formulated depending on the mode of administration used.
  • Additives for isotonicity may generally include sodium chloride, dextrose, mannitol, sorbitol and lactose.
  • an isotonic solution such as phosphate buffered saline is preferred.
  • Stabilizers include gelatin and albumin.
  • a vasoconstrictor is added to the formulation.
  • composition may further include pharmaceutically acceptable excipients.
  • Pharmaceutically acceptable excipients can be functional molecules that act as vehicles, adjuvants, carriers, or diluents.
  • Pharmaceutically acceptable excipients may include gene transfer facilitators (surfactants) such as immunostimulatory complexes (ISCOMS), Freund's incomplete adjuvant, LPS analogs (including monophosphoryl lipid A), muramyl peptides. , quinone analogs, vesicles such as squalene and squalene, hyaluronic acid, lipids, liposomes, calcium ions, viral proteins, phorianions, polycations, or nanoparticles, or other known gene transfer facilitators.
  • gene transfer facilitators surfactants
  • ISCOMS immunostimulatory complexes
  • LPS analogs including monophosphoryl lipid A
  • muramyl peptides muramyl peptides.
  • quinone analogs vesicles such as squalen
  • the composition may include a gene introduction facilitator.
  • the transgenic promoter may be a phorianion, a poly cation (including poly-L-glutamic acid (LGS)), or a lipid.
  • the gene introduction promoter is poly-L-glutamic acid, and more preferably, poly-L-glutamic acid may be present in a concentration of less than 6 mg/ml in the composition for genome editing of skeletal muscle or myocardium.
  • Gene transfer facilitators may also include surfactants such as immunostimulatory complexes (ISCOMS), Freund's incomplete adjuvant, LPS analogs (including monophosphoryl lipid A), muramyl peptides, quinone analogs and vesicles such as squalene. and squalene, and hyaluronic acid can also be used.
  • ISCOMS immunostimulatory complexes
  • LPS analogs including monophosphoryl lipid A
  • muramyl peptides quinone analogs and ves
  • a composition comprising one or more vectors included in the above-described vector system includes a gene transfer promoter, such as lipids, liposomes (including lecithin liposomes, or other liposomes known in the art), DNA- It may include liposome mixtures, calcium ions, viral proteins, phorianions, polycations, or nanoparticles, or other known gene transfer facilitators.
  • the gene introduction promoter is a phorianion, a poly cation (e.g. poly-L-glutamic acid (LGS)) or a lipid.
  • the actual dosage of the (pharmaceutical) composition will depend on various factors, such as vector selection, target cells, organisms, or tissues, the condition of the subject to be treated, the degree of transformation/transformation sought, the route of administration, the method of administration, and the degree of transformation/transformation sought. It can vary greatly depending on the shape, etc.
  • the above administration includes subretinal administration, subcutaneous administration, intradermal administration, intraocular administration, intravitreal administration, intratumoral administration, intranodal administration, and bone marrow. It can be performed by a route of administration selected from intraedullary administration, intramuscular administration, intravenous administration, intralymphatic administration, and intraperitoneal administration.
  • the pharmaceutical composition includes a carrier (water, saline, ethanol, glycerol, lactose, sucrose, calcium phosphate, gelatin, dextran, agar, pectin, peanut oil, sesame oil, etc.), a diluent, and a pharmaceutically acceptable carrier (e.g. , phosphate buffered saline), pharmaceutically acceptable excipients, and/or other compounds known in the art.
  • a carrier water, saline, ethanol, glycerol, lactose, sucrose, calcium phosphate, gelatin, dextran, agar, pectin, peanut oil, sesame oil, etc.
  • a pharmaceutically acceptable carrier e.g. , phosphate buffered saline
  • pharmaceutically acceptable excipients e.g. , phosphate buffered saline
  • a therapeutically effective dosage for in vivo delivery of AAV to a human may be a saline solution ranging from about 20 ml to about 50 ml containing about 1 ⁇ 10 10 to about 1 ⁇ 10 100 AAV per ml of solution. Dosages can be adjusted to balance therapeutic benefits against any side effects.
  • methods of editing the USH2A gene using the USH2A gene editing system, vector system, composition, or virus of the present invention are provided.
  • editing of the USH2A gene may induce deletion of the segment containing exon 13 in the USH2A gene.
  • the length of the segment containing exon 13 may be 640 bp to 19 kb.
  • the length of the segment is 640bp to 18kb, 640bp to 17kb, 640bp to 16kb, 640bp to 15kb, 640bp to 14kb, 640bp to 13kb, 640bp to 12kb, 640bp to 11kb, 640bp to 10kb, 640bp to 9kb, 640bp to 8kb , 640bp to 7kb, 640bp to 6kb, 640bp to 5.5kb, 640bp to 5kb, 640bp to 4.5kb, 640bp to 4kb, 640bp to 3.5kb, 640bp to 3kb, 640bp to 2.5kb, 640bp to 2kb, 6 40bp to 1.5kb, 640bp to 1kb; 700bp to 18kb,
  • the disclosed method comprises contacting a cell with the USH2A gene editing system, vector system, composition or (recombinant) virus of the invention.
  • the cells may be cells derived from an individual with Usher syndrome. Additionally, the cells may be stem cells or mammalian eye or inner ear cells. However, the method of the present invention is not limited to these cells.
  • the stem cells may be induced pluripotent stem cells (iPSCs) or dedifferentiated stem cells.
  • Induced pluripotent stem cells refer to genetically initialized adult cells that exhibit a state similar to pluripotent stem cells (e.g., similar differentiation capacity) similar to embryonic stem cells (ESCs).
  • induced pluripotent stem cells may be stem cells produced by artificially dedifferentiating cells derived from an individual with Usher syndrome. The production of such pluripotent stem cells is widely known in the art of the present invention (Ying Wang et al., Scalable Production of Human Erythrocytes from Induced Pluripotent Stem Cells, 2016, https://doi.org/10.1101/050021 ], etc.).
  • stem cells that have been genetically modified by the methods disclosed herein are provided.
  • the genetic modification may be a deletion of exon 13 in the USH2A gene in stem cells.
  • the genetically modified stem cells may be for the treatment of Usher syndrome type 2 (eg, type 2A).
  • the disclosed method also includes contacting the subject with a USH2A gene editing system, vector system, composition or (recombinant) virus.
  • the individual may be an individual with a disease related to a mutation in exon 13 of the USH2A gene.
  • contacting the cell may include delivery or introduction of the USH2A gene editing system, vector system, composition, or virus of the invention into the cell.
  • Nucleic acids or nucleic acid constructs (e.g., vectors) of the invention may be delivered or introduced, e.g., by DNA injection or DNA vaccination, with or without in vivo electroporation, liposomes, nanoparticles, or recombinant vectors. It can be.
  • the vector system of the present invention can be transmitted or introduced by a virus, such as a retrovirus, lentivirus, adenovirus, adeno-associated virus, vaccinia virus, poxvirus, herpes simplex virus or phage. Specifically, it may be included in a packaging virus and delivered into cells in the form of a virus produced by the packaging virus.
  • a virus such as a retrovirus, lentivirus, adenovirus, adeno-associated virus, vaccinia virus, poxvirus, herpes simplex virus or phage.
  • the contact, delivery, or introduction may be performed using electroporation, gene gun, ultrasonic poration, magnetofection, nanoparticle method, and/or temporary cell compression or squeezing method.
  • the cells are eukaryotic cells, cationic liposome method, lithium acetate-DMSO, lipid-mediated transfection, calcium phosphate precipitation, lipofection, PEI (polyethyleneimine)-mediated transfection, DEAE-dextran mediated transfection, and/or nanoparticle-mediated nucleic acid delivery [see Panyam et al., Adv Drug Deliv Rev. 2012 Sep 13. pii: S0169-409X(12)00283-9.] It can be.
  • the contacting, delivery or introduction can be performed in vitro , in vivo or ex vivo .
  • the cells can be plant cells, non-human animal cells, or human cells. Additionally, the cells may be eukaryotic or prokaryotic. Additionally, the cells may be cells from a patient with Usher syndrome. Additionally, the cells may be cells from a patient with Usher syndrome type 2 (more specifically, type 2A).
  • Usher syndrome e.g., Usher syndrome type 2
  • administering comprising administering to a subject a USH2A gene editing system, vector system, composition, or virus of the invention.
  • the subject may be a subject with Usher syndrome (e.g., Usher syndrome type 2), such as a mammal, including a human.
  • Usher syndrome e.g., Usher syndrome type 2
  • a mammal including a human.
  • the USH2A gene editing system, vector system, composition or virus of the present invention can be administered directly to the eye or inner ear of the subject.
  • An endonuclease comprising a Cas12f1 molecule or a nucleic acid encoding the endonuclease
  • a first guide RNA or a nucleic acid encoding the first guide RNA
  • a second guide RNA comprising a second guide sequence hybridizable to a contiguous 15 to 30 bp long target sequence present in a region 14500 bp downstream of USH2A exon 13 and located adjacent to the PAM sequence recognized by the Cas12f1 molecule, Or comprising a nucleic acid encoding the second guide RNA
  • the system induces deletion of exon 13 in the USH2A gene in cells.
  • the system is for the treatment of Usher syndrome type 2A.
  • the USH2A exon 13 contains one or more mutations causing Usher syndrome.
  • the target sequence present in the 5000bp upstream region of USH2A exon 13 includes a nucleic acid sequence selected from the group consisting of SEQ ID NO: 1 to SEQ ID NO: 49, and/or
  • the target sequence present within the 14500bp downstream region of USH2A exon 13 includes a nucleic acid sequence selected from the group consisting of SEQ ID NO: 50 to SEQ ID NO: 79.
  • the first guide sequence comprises a contiguous 15 to 22 nucleotide sequence in a nucleic acid sequence selected from the group consisting of SEQ ID NO: 397 to SEQ ID NO: 445, or a sequence that differs from the contiguous sequence by 5 nucleotides or less, and the contiguous A nucleic acid sequence in which thymine (T) is replaced with uracil (U) in the nucleotide sequence, and/or
  • the second guide sequence comprises a sequence of 15 to 20 contiguous nucleotides in a nucleic acid sequence selected from the group consisting of SEQ ID NO: 446 to SEQ ID NO: 475, or a sequence that differs from the contiguous sequence by 5 nucleotides or less, and the contiguous A nucleic acid sequence in which thymine (T) is replaced with uracil (U) in the nucleotide sequence.
  • the first guide sequence comprises a nucleic acid sequence selected from the group consisting of SEQ ID NO: 80 to SEQ ID NO: 128 and SEQ ID NO: 159 to SEQ ID NO: 164
  • the second guide sequence comprises a nucleic acid sequence selected from the group consisting of SEQ ID NO: 129 to SEQ ID NO: 158 and SEQ ID NO: 165 to SEQ ID NO: 174.
  • the first or second guide RNA includes a U-rich tail sequence linked to the 3'-end of the guide sequence, and the U-rich tail is expressed as 5'-(U m V) n U o -3' , where V is each independently A, C or G, m and o are integers between 1 and 20, and n is an integer between 0 and 5.
  • the first or second guide RNA includes an engineered scaffold region, and the engineered scaffold region sequentially includes a first stem-loop region, a second stem-loop region, and a third stem-loop region starting from the 5'-end.
  • the wild-type Cas12f1 guide RNA includes a tracrRNA containing the nucleic acid sequence of SEQ ID NO: 175 and a crRNA containing the nucleic acid sequence of SEQ ID NO: 176.
  • the engineered scaffold region includes a sequence having at least 80% sequence identity with the sequence represented by formula (I) below.
  • X a includes the nucleic acid sequence of SEQ ID NO: 178 or a nucleic acid sequence in which 1 to 20 nucleotides are deleted from the sequence of SEQ ID NO:
  • Lk is a polynucleotide linker of length 2 to 20 or absent.
  • sequence 5'-X b1 UUAGX b2 -3' is selected from the group consisting of SEQ ID NO: 198 to SEQ ID NO: 202 and 5'-UUAG-3'
  • Sequence 5'-X c1 -Lk-X c2 -3' in formula (I) is selected from the group consisting of SEQ ID NO: 244 to SEQ ID NO: 250 and 5'-Lk-3'
  • the scaffold region comprises an engineered tracrRNA consisting of a nucleic acid sequence selected from the group consisting of SEQ ID NO: 251 to SEQ ID NO: 296.
  • an engineered crRNA consisting of a nucleic acid sequence selected from the group consisting of SEQ ID NO: 297 to SEQ ID NO: 304
  • the first or second guide RNA is dual guide RNA or single guide RNA.
  • the first or second guide RNA comprises a scaffold region sequence of a nucleic acid sequence selected from the group consisting of SEQ ID NO: 313 to SEQ ID NO: 350.
  • the Cas12f1 molecule comprises an amino acid sequence having at least 70% sequence identity with an amino acid sequence selected from the group consisting of SEQ ID NO: 360 to SEQ ID NO: 364 and SEQ ID NO: 370 to SEQ ID NO: 377.
  • the endonuclease forms a first guide RNA or second guide RNA and ribonucleoprotein (RNP).
  • a nucleotide sequence encoding a first guide RNA comprising a first guide sequence hybridizable to a contiguous 15 to 30 bp long target sequence located in a region 5000 bp upstream of USH2A exon 13 and adjacent to the PAM sequence recognized by the Cas12f1 molecule.
  • a second nucleic acid construct operably linked to the second nucleic acid construct;
  • a second guide RNA comprising a second guide sequence hybridizable to a contiguous 15 to 30 bp long target sequence that exists in a region 14500 bp downstream of USH2A exon 13 and is located adjacent to the PAM sequence recognized by the Cas12f1 molecule.
  • the vector system induces deletion of exon 13 in the USH2A gene in cells.
  • the USH2A exon 13 contains one or more mutations causing Usher syndrome.
  • the nucleic acid construct is contained in the same or different vector.
  • the nucleic acid structure is contained in one vector
  • the target sequence present in the 5000bp upstream region of USH2A exon 13 includes a nucleic acid sequence selected from the group consisting of SEQ ID NO: 1 to SEQ ID NO: 49, and/or
  • the target sequence present within the 14500bp downstream region of USH2A exon 13 includes a nucleic acid sequence selected from the group consisting of SEQ ID NO: 50 to SEQ ID NO: 79.
  • the first guide sequence comprises a contiguous 15 to 22 nucleotide sequence in a nucleic acid sequence selected from the group consisting of SEQ ID NO: 397 to SEQ ID NO: 445, or a sequence that differs from the contiguous sequence by 5 nucleotides or less, and the contiguous A nucleic acid sequence in which thymine (T) is replaced with uracil (U) in the nucleotide sequence,
  • the second guide sequence comprises a sequence of 15 to 20 contiguous nucleotides in a nucleic acid sequence selected from the group consisting of SEQ ID NO: 446 to SEQ ID NO: 475, or a sequence that differs from the contiguous sequence by 5 nucleotides or less, and the contiguous A nucleic acid sequence in which thymine (T) is replaced with uracil (U) in the nucleotide sequence.
  • the first guide sequence comprises a nucleic acid sequence selected from the group consisting of SEQ ID NO: 80 to SEQ ID NO: 128 and SEQ ID NO: 159 to SEQ ID NO: 164
  • the second guide sequence comprises a nucleic acid sequence selected from the group consisting of SEQ ID NO: 129 to SEQ ID NO: 158 and SEQ ID NO: 165 to SEQ ID NO: 174.
  • the first or second guide RNA includes a U-rich tail sequence linked to the 3'-end of the guide sequence, and the U-rich tail is expressed as 5'-(U m V) n U o -3' , where V is each independently A, C or G, m and o are integers between 1 and 20, and n is an integer between 0 and 5.
  • the first or second guide RNA includes an engineered scaffold region, and the engineered scaffold region sequentially includes a first stem-loop region, a second stem-loop region, and a third stem-loop region starting from the 5'-end.
  • the wild-type Cas12f1 guide RNA includes a tracrRNA containing the nucleic acid sequence of SEQ ID NO: 175 and a crRNA containing the nucleic acid sequence of SEQ ID NO: 176.
  • the engineered scaffold region includes a sequence having at least 80% sequence identity with the sequence represented by formula (I) below.
  • X a includes the nucleic acid sequence of SEQ ID NO: 178 or a nucleic acid sequence in which 1 to 20 nucleotides are deleted from the sequence of SEQ ID NO:
  • Lk is a polynucleotide linker of length 2 to 20 or absent.
  • sequence 5'-X b1 UUAGX b2 -3' is selected from the group consisting of SEQ ID NO: 198 to SEQ ID NO: 202 and 5'-UUAG-3'
  • Sequence 5'-X c1 -Lk-X c2 -3' in formula (I) is selected from the group consisting of SEQ ID NO: 244 to SEQ ID NO: 250 and 5'-Lk-3'
  • the Lk is 5'-GAAA-3', 5'-UUAG-3', 5'-UGAAAA-3', 5'-UUGAAAA-3', 5'-UUCGAAAGAA-3' (SEQ ID NO: 240), 5' -UUCAGAAAUGAA-3' (SEQ ID NO: 241), 5'-UUCAUGAAAAUGAA-3' (SEQ ID NO: 242), and 5'-UUCAUUGAAAAAAUGAA-3' (SEQ ID NO: 243).
  • the scaffold region comprises an engineered tracrRNA consisting of a nucleic acid sequence selected from the group consisting of SEQ ID NO: 251 to SEQ ID NO: 296.
  • an engineered crRNA consisting of a nucleic acid sequence selected from the group consisting of SEQ ID NO: 297 to SEQ ID NO: 304
  • the first or second guide RNA comprises a scaffold region sequence of a nucleic acid sequence selected from the group consisting of SEQ ID NO: 313 to SEQ ID NO: 350.
  • the Cas12f1 molecule comprises an amino acid sequence having at least 70% sequence identity with an amino acid sequence selected from the group consisting of SEQ ID NO: 360 to SEQ ID NO: 364 and SEQ ID NO: 370 to SEQ ID NO: 377.
  • the vector further comprises a promoter or enhancer.
  • the promoter is U6 promoter, EFS promoter, EF1- ⁇ promoter, H1 promoter, 7SK promoter, CMV promoter, LTR promoter, Ad MLP promoter, HSV promoter, SV40 promoter, CBA promoter or RSV promoter.
  • the vector includes a retrovirus vector, a lentivirus vector, an adenovirus vector, an adeno-associated virus vector, a vaccinia virus vector, selected from the group consisting of poxvirus vectors, herpes simplex virus vectors, and phagemid vectors.
  • the vector is selected from the group consisting of plasmid, naked DNA, DNA complex, mRNA (transcript), and amplicon.
  • composition comprising a system according to any one of the preceding embodiments, a vector system according to any of the preceding embodiments or a recombinant virus according to any of the preceding embodiments.
  • composition is a pharmaceutical composition
  • a method of treating an individual with a disease related to a mutation in exon 13 of the USH2A gene is provided.
  • the recombinant virus is an adeno-associated virus (AAV).
  • AAV adeno-associated virus
  • the cells are stem cells, cells of the mammalian eye or inner ear.
  • the cells are derived from an individual with Usher syndrome.
  • the contact occurs in vitro or in vivo.
  • the stem cells are used to treat Usher syndrome type 2A.
  • a guide RNA comprising a spacer region and a scaffold region comprising a guide sequence capable of hybridizing with a target sequence within the USH2A (Usherin) gene,
  • the guide sequence comprises (i) a sequence of 15 to 22 contiguous nucleotides in a nucleic acid sequence selected from the group consisting of SEQ ID NO: 397 to SEQ ID NO: 445, or a sequence that differs from the contiguous sequence by no more than 5 nucleotides, and a nucleic acid sequence in which thymine (T) is replaced with uracil (U) in a contiguous nucleotide sequence, and/or (ii) 15 to 20 contiguous nucleotides in a nucleic acid sequence selected from the group consisting of SEQ ID NO: 446 to SEQ ID NO: 475.
  • a nucleic acid sequence comprising a sequence that differs by up to 5 nucleotides from the sequence or the contiguous sequence, and wherein thymine (T) is replaced with uracil (U) in the contiguous nucleotide sequence.
  • the guide sequence comprises a nucleic acid sequence selected from the group consisting of SEQ ID NO: 80 to SEQ ID NO: 128 and SEQ ID NO: 159 to SEQ ID NO: 164.
  • the guide sequence comprises a nucleic acid sequence selected from the group consisting of SEQ ID NO: 129 to SEQ ID NO: 158 and SEQ ID NO: 165 to SEQ ID NO: 174.
  • the guide RNA includes a U-rich tail sequence linked to the 3'-end of the guide sequence, and the U-rich tail is expressed as 5'-(U m V) n U o -3', where V is each are independently A, C or G, m and o are integers between 1 and 20, and n is an integer between 0 and 5.
  • the scaffold region is a wild-type Cas12f1 comprising a first stem-loop region, a second stem-loop region, a third stem-loop region, a fourth stem-loop region, and a tracrRNA-crRNA complementarity region sequentially from the 5'-end. It contains a nucleotide sequence having at least 50% sequence identity with the scaffold region of the guide RNA sequence, and contains one or more modifications selected from the group consisting of (1) to (4) below with respect to the wild-type Cas12f1 guide RNA sequence.
  • the wild-type Cas12f1 guide RNA includes a tracrRNA containing the nucleic acid sequence of SEQ ID NO: 175 and a crRNA containing the nucleic acid sequence of SEQ ID NO: 176.
  • the scaffold region includes a sequence having at least 80% sequence identity with the sequence represented by formula (I) below.
  • X a includes the nucleic acid sequence of SEQ ID NO: 178 or a nucleic acid sequence in which 1 to 20 nucleotides are deleted from the sequence of SEQ ID NO:
  • Lk is a polynucleotide linker of length 2 to 20 or absent.
  • sequence 5'-X b1 UUAGX b2 -3' is selected from the group consisting of SEQ ID NO: 198 to SEQ ID NO: 202 and 5'-UUAG-3'
  • Sequence 5'-X c1 -Lk-X c2 -3' in formula (I) is selected from the group consisting of SEQ ID NO: 244 to SEQ ID NO: 250 and 5'-Lk-3'
  • the scaffold region comprises an engineered tracrRNA consisting of a nucleic acid sequence selected from the group consisting of SEQ ID NO: 251 to SEQ ID NO: 296.
  • an engineered crRNA consisting of a nucleic acid sequence selected from the group consisting of SEQ ID NO: 297 to SEQ ID NO: 304
  • the guide RNA is a single guide RNA.
  • the guide RNA comprises a scaffold region sequence of a nucleic acid sequence selected from the group consisting of SEQ ID NO: 313 to SEQ ID NO: 350.
  • the guide RNA comprises a scaffold region sequence of a nucleic acid sequence selected from the group consisting of SEQ ID NOs: 315 to 317.
  • a nucleic acid molecule encoding a guide RNA according to any one of the preceding embodiments.
  • composition comprising one or more guide RNAs according to any one of the preceding embodiments.
  • composition comprising at least one guide RNA according to any one of the preceding embodiments and an endonuclease comprising a Cas12f1 molecule.
  • the composition includes two or more guide RNAs, and at least one guide RNA is (i) a contiguous 15 to 22 nucleotide sequence in a nucleic acid sequence selected from the group consisting of SEQ ID NO: 397 to SEQ ID NO: 445, or in the contiguous sequence comprises a sequence that differs by up to 5 nucleotides, and (ii) at least one other guide RNA is a sequence of 15 to 20 nucleotides contiguous in a nucleic acid sequence selected from the group consisting of SEQ ID NO: 446 to SEQ ID NO: 475, or a sequence of said contiguous sequence. Contains a sequence that differs by no more than 5 nucleotides from the sequence
  • Example 1.1 Wild-type Cas12f1 protein and human codon-optimized nucleic acid encoding it
  • the gene editing system of the present invention includes, as one component, an endonuclease containing a wild-type Cas12f1 (CWCas12f1 or Un1Cas12f1) protein or a variant protein thereof, and in some other aspects, the gene editing system combines with the endonuclease. It contains an engineered guide RNA (gRNA) that exhibits high gene editing efficiency.
  • gRNA engineered guide RNA
  • the engineered gRNA is artificially modified to exhibit improved gene editing efficiency while being shorter in length compared to the wild-type gRNA.
  • gRNAs are based on a gene editing system containing the wild-type Cas12f1 protein.
  • the Cas12f1 protein may be a protein containing or consisting of the amino acid sequence of SEQ ID NO: 360 or SEQ ID NO: 364 shown in Table 9 below.
  • human-codon optimized genes for CWCas12f1 and Un1Cas12f1 proteins were obtained using a codon optimization program.
  • the base sequences of human-codon optimized nucleic acids for CWCas12f1 and Un1Cas12f1 proteins produced as above are as follows:
  • the above exemplified sequence was used as a nucleic acid encoding an endonuclease (gene editing protein) in a gene editing system to test indel efficiency according to modification of gRNA.
  • nucleic acid constructs expressing each component of the gene editing system were prepared by the following method:
  • the nucleic acid construct used in this example contains the gene sequence of human codon-optimized Cas12f1.
  • PCR amplification is performed using the gene sequence as a template, and the desired cloning sequence is inserted into a vector having a promoter capable of expression in a eukaryotic cell system and a poly(A) signal sequence by the Gibson assembly method. Cloning was performed accordingly. After cloning, the sequence of the obtained recombinant plasmid vector was finally confirmed through Sanger sequencing.
  • Example 1.2 Engineering of guide RNA and selection of optimal guide RNA
  • the engineered guide RNA (engineered gRNA) for Cas12f1 or its variant protein used in the USH2A gene editing system of the present invention is one that adds a new structure to the gRNA found in nature or modifies some of its structure or sequence, wild type Cas12f1
  • the guide RNA sequence may include a sequence in which one or more nucleotides are substituted, deleted, inserted, or added.
  • Figure 1 shows a site where various modifications can be applied based on the wild-type gRNA sequence that exists in nature to produce gRNA for high-efficiency gene editing activity in the wild-type guide RNA for wild-type Cas12f1 and the USH2A gene editing system of the present invention.
  • MS1 to MS5 modification site (MS), hereinafter abbreviated as MS) are shown.
  • 2A and 2B show exemplary modification sites for producing engineered single guide RNA (engineered sgRNA) combining various modifications in MS1 to MS5 (e.g., exemplary modification sites corresponding to MS3 are MS3, respectively).
  • Figure 2a illustrates the modification site of the canonical sgRNA for Cas12f1
  • Figure 2b illustrates the modification site of the mature form sgRNA for Cas12f1.
  • gRNAs disclosed herein are representative examples of engineered gRNAs used in the USH2A gene editing system of the present invention, and gRNAs that can be used in the gene editing system of the present invention are not limited to the exemplified sequences.
  • a mature form gRNA was produced in which part of the sequence corresponding to MS4, one of the modification sites, was removed from the canonical sgRNA. Exemplary sequences of mature gRNAs are shown in Table 11 below.
  • gRNA Sequence (5' ⁇ 3') order number Mature form gRNA CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA UUU gaaa GAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN 337 MS3-1 GAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA UUU gaaa GAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNNNNNN 338 MS3-2 UGGA
  • the sequence indicated as 'NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN' in Tables 10 and 11 refers to a guide sequence (spacer sequence) having an arbitrary length that can hybridize with a target sequence in a target gene (eg, USH2A gene).
  • the guide sequence can be appropriately designed by a person skilled in the art depending on the desired target gene and/or the target sequence within the target gene, and therefore is not limited to a specific sequence of a specific length.
  • Example 1.2.2 Comparison of indel activities of engineered guide RNAs
  • Insertion or deletion may occur within the target gene or target nucleic acid due to nucleic acid cleavage.
  • the indel is used in non-homologous end joining (NHEJ), which repairs or repairs double-strand breaks in DNA by repeating frequent contact between two sticky ends formed by double-strand breaks. It is caused by insertion and/or deletion (indel) of part of the nucleic acid sequence at the NHEJ repair site.
  • NHEJ non-homologous end joining
  • indel insertion and/or deletion
  • each of modification sites (MS) 3 to MS5 in the circular sgRNA was further divided into three compartments (see Figure 2a).
  • Engineered gRNAs were created by combining one or more of these modifications, and the indel activity for each of them was tested.
  • target sequences for comparing indel efficiency two types of human endogenous DNA target sites containing a PAM sequence recognized as a cleavage site by the CWCas12f1 protein were identified and used, and the specific nucleic acid sequences are provided in Table 12 below.
  • Target sequence 5' ⁇ 3' sequence number Target-1 [TTTG]CACACACACAGTGGGCTACC 358 Target-2 [TTTG]CATCCCCAGGACACACACACACACAC 359
  • the gene editing system containing the circular sgRNA (full length) and the wild-type CWCas12f1 protein did not cause cleavage of the target strand, but the engineered gRNA used in the test had its base sequence and target. Depending on the target sequence, the indel efficiency of the CWCas12f1 protein for the target nucleic acid was affected.
  • MS1/MS2/MS3, MS1/MS2/MS4 * -2, MS1/MS3-3/MS4 * - 2 and MS1/MS2/MS3-3/MS4 * -2 modified gRNAs showed high indel efficiency of approximately 50% to 65%, and MS1/MS3-3, MS1/MS2/MS5-3, and MS1/MS2 gRNAs with /MS3-3/MS5-3, MS1/MS2/MS4 * -2/MS5-3 and MS1/MS2/MS3-3/MS4 * -2/MS5-3 modifications have approximately 30% to 40% showed indel efficiency ['slash (/)' means 'and'; see Figure 3a].
  • MS1/MS2/MS3, MS1/MS2/MS3-3/MS4 * -2, MS1/MS2/MS3 -3/MS5-3 and MS1/MS2/MS3-3/MS4 * -2/MS5-3 modified gRNAs showed an indel efficiency of about 35% to 45%, MS1/MS2/MS4 * -2, MS1/MS3-3/MS4 * -2, MS1/MS2/MS5-3, MS1/MS3-3/MS5-3, MS1/MS4 * -2/MS5-3, MS1/MS2/MS4 * -2/MS5
  • the gRNA to which -3 and MS1/MS3-3/MS4 * -2/MS5-3 modifications were applied showed an indel efficiency of approximately 15% to 20% (see Figure 3b).
  • Example 1.2.3 Comparison of indel activity of RNA engineered based on mature form sgRNA
  • gRNA SEQ ID NO: 347) with MS3-3/MS4-3 modification had target sequence 1 (Target-1). ; SEQ ID NO: 358) and target sequence 2 (Target-2; SEQ ID NO: 359) showed indel efficiencies of about 40% and about 20%, respectively (see FIGS. 4A and 4C).
  • the engineered gRNA (SEQ ID NO: 338 to 350, Table 11) with some modification of the nucleic acid sequence in the MF sgRNA is a gRNA with a U-rich tail (U 4 AU 4 ) added to the 3'-end portion (MS2).
  • U 4 AU 4 U-rich tail
  • MS2 3'-end portion
  • target sequence 1 (Target-1) and target sequence 2 (Target-2) showed indel efficiencies of about 60% and about 50%, respectively, and it was confirmed that the indel efficiency was greatly increased when additional modifications in MS2 were combined (FIGS. 4b and 4d).
  • gRNA to which MS1/MS2/MS3 modification was applied (Cas12f1 ver3.0; SEQ ID NO. 315)
  • gRNA to which MS2/MS3/MS4 modification was applied (Cas12f1 ver4.0; SEQ ID NO. 316)
  • MS2/MS3/MS4/MS5 modified gRNA (Cas12f1 ver4.1; SEQ ID NO. 317) was used to analyze the USH2A gene editing efficiency according to each guide sequence.
  • the target region that may contain the target sequence was selected as a 3600bp upstream region and 14440bp downstream of exon 13. ) regions, respectively, and protospacer sequences were selected for the entire double strand of USH2A DNA in that region.
  • the upstream area is referred to as the F area, an abbreviation for the front area
  • the downstream area is referred to as the R area, an abbreviation for the rear area.
  • the selected protospacer sequences are presented along with the PAM sequences in Table 13 below.
  • the protospacer sequence present in the F region was numbered with F
  • the protospacer sequence present in the R region was numbered with R.
  • the guide sequence (or spacer sequence) of the guide RNA was designed based on the selected protospacer sequence.
  • the guide sequence is a sequence that binds complementary to the target sequence, and this guide sequence can be designed using a protospacer sequence. Since the protospacer sequence is a sequence complementary to the target sequence, the correlation between the target sequence and the protospacer sequence is similar to the correlation between the target sequence and the guide sequence. Due to these characteristics, guide sequences can generally be designed using protospacer sequences. In other words, the guide sequence that binds complementary to the target sequence can be designed as a nucleotide sequence that has basically the same base sequence as the protospacer sequence. At this time, T in the nucleotide sequence of the protospacer sequence is replaced with U to design the guide sequence.
  • a guide sequence was designed using the selected protospacer sequence. Specific sequence information of the guide sequence is presented in Tables 4 and 5 under “2.2. Spacer region containing guide sequence”.
  • Example 2.2 Optimization of guide sequence and scaffold sequence combination of guide RNA
  • the nucleic acid sequence encoding the guide RNA designed based on the protospace sequence selected in Example 2.1 was prepared as an expression cassette, and this was immediately transfected and subjected to next-generation sequencing (NGS) without T7E1 assay. Indel efficiency was confirmed.
  • the guide RNA was designed to include a U-rich tail sequence at the 3'-end (eg, 5'-U 4 AU 6 -3').
  • Cas12f1 ver4.1 gRNA (SEQ ID NO: 317), which was an improved version of Cas12f1 ver4.0 gRNA, was produced and its indel efficiency was confirmed.
  • target sequences located in the F region had higher indel efficiency in ver4.1 than in ver4.0.
  • ver4.0 showed higher indel efficiency than ver4.1 (see Figures 5a, 5b and Table 14).
  • Cas12f1 ver.4.1 was selected as the scaffold sequence for the guide sequences GUIDE-USH2A-F03, -F16 and -FA12, and the guide sequence For GUIDE-USH2A-R19 and -R40, Cas12f1 ver4.0 was selected as the scaffold sequence ( Figure 5A, Figure 5B and Table 14).
  • GUIDE-USH2A-F16 and -FA12 were finally selected as guide sequences in Cas12f1 ver4.1, and GUIDE-USH2A-R19 and GUIDE-USH2A-R19 in Cas12f1 ver4.0.
  • -R40 was selected as the guide sequence (see Figure 6).
  • a deletion band was confirmed in the combination of all guide sequences. Specifically, a deletion band appeared at 2004bp in the combination of F16 and R19, 1167bp in the combination of F16 and R40, 1302bp in the combination of FA12 and R19, and 465bp in the combination of FA12 and R40. Combining the results of the amplification of the main band and the deletion band, it was confirmed that the combination of F16 and R19 and the combination of FA12 and R19 showed high deletion efficiency (FIG. 7).
  • optimization of the guide sequence was performed to further improve the deletion efficiency achieved to date.
  • Each guide sequence (F16, FA12, R19, R40) selected through Examples 2 and 3 was modified to have a guide sequence of 19 to 25 mer length based on the PAM adjacent to the protospacer sequence, and a vector expressing it was used, respectively. The indel efficiency was compared according to the length of the guide sequence.
  • guide sequence F16 showed the highest indel efficiency of 73% in 22mer (see Figure 10a), and guide sequence FA12 showed the highest indel efficiency of 72.19% in 20mer (see Figure 10b).
  • guide sequence R19 showed the highest indel efficiency of 83% in 24mer (see Figure 10c), and guide sequence R40 showed the highest indel efficiency of 73.99% in 20mer (see Figure 10d).
  • the overall indel efficiency of about 70% or more was shown in the 19 to 25 mer length range, but since the combination with the smallest fragment length to be deleted and cut is more efficient, the 22 mer length F16 (SEQ ID NO: 160) and the 24 mer length R19 ( SEQ ID NO: 169) was selected as the guide sequence.
  • the U-rich tail containing multiple uridines at the 3'-end of the guide RNA can contribute to stabilizing the guide RNA and improving indel efficiency.
  • U 4 AU 6 or U 6 was added as a U-rich tail to the 3'-end of each guide RNA, and their indel efficiency was evaluated. The results are disclosed in Table 16 below.
  • the effect of the USH2A gene editing system of the present invention was confirmed in the 661W-USH2A cell line.
  • the cell line was converted to have intron 12, exon 13 and intron 13 (part) of the wt661W USH2A locus to have intron 12, exon 13 (including c.2276G>T and c.2299delG mutations) and intron 13 (part) of the human USH2A gene.
  • USH2A humanized 661W cell line Its manufacturing method is schematically shown in Figure 15. To delete the mutant region from the cells, a combination of two guide RNAs targeting target sequences within the F and R regions was used.
  • EDIT102 a type 2 Usher syndrome treatment drug from Editas, was used as a positive control.
  • the base sequence of the guide sequence included in EDIT102 is as follows:
  • 321 guide sequence 5'-GAAATTAAATGATATGCCTTAG-3'; 322 Guide sequence, 5'- GTGTGATTTGCTTGCCAGAGA-3'.
  • the effect of the USH2A gene editing system of the present invention was confirmed in the ARPE19/HPV16-USH2A cell line.
  • the cell line is a cell line transformed to have c.2276G>T and c.2299delG mutations in exon 13 of the wtARPE19/HPV19 USH2A locus.
  • a combination of two guide RNAs targeting target sequences within the F and R regions was used.
  • the guide sequence used was a combination of F16 and R19, a combination of F16 and R40, a combination of FA12 and R19, and a combination of FA12 and R40, and EDIT102 was used as a positive control.
  • a total of three vectors including each guide RNA and nucleic acid sequence encoding the Cas12f1 protein, and the pHelper vector and REP/CAP vector required for AAV virus production, were transfected into HEK293T cells to produce AAV. It was created, and AAV particles were obtained through iodixanol gradient purification. The produced AAV was injected into the tail vein of mice at a dose of 5
  • the USH2A gene editing system of the present invention which consists of a guide RNA containing a selected guide sequence and a Cas12f1 protein, exhibits significant indel activity in vivo . .
  • the USH2A gene editing system of the present invention which includes two guide RNAs with optimized guide sequences and Cas12f1 or a variant protein thereof that recognizes the target sequence, is located upstream and downstream of exon 13 in the USH2A gene.
  • the target sequence present in the stream region By recognizing the target sequence present in the stream region and cutting it to delete exon 13 (i.e., exon skipping), the production of usherin protein that can function normally can be induced.
  • This highly efficient exon 13 deletion effect was achieved by engineering and optimizing the guide sequence of the scaffold region of the guide RNA that increases gene editing efficiency, and furthermore, the composition of shRNA, etc., whose size can be miniaturized to improve deletion efficiency. Even if additionally included, efficient delivery and expression in the body is possible using a delivery vehicle such as AAV.
  • Example 1.1 The gene prepared in Example 1.1 was expressed in the following manner, and the protein was purified.
  • the nucleic acid construct was cloned into the pMAL-c2 plasmid vector and transformed into BL21(DE3) E. coli cells.
  • the transformed E. coli colonies were grown in LB broth at 37°C until the optical density reached 0.7.
  • the transformed E. coli cells were cultured overnight at 18°C in the presence of 0.1 mM isopropylthio- ⁇ -D-galactoside.
  • the cultured cells were collected by centrifugation at 3,500g for 30 minutes, and the collected cells were mixed with 20mM Tris-HCl (pH 7.6), 500mM NaCl, 5mM ⁇ -mercaptoethanol and It was resuspended in buffer containing 5% glycerol.
  • the cells were lysed in lysis buffer and then disrupted by sonication.
  • the sample containing the disrupted cells was centrifuged at 15,000g for 30 minutes, and the obtained supernatant was filtered through a 0.45 ⁇ m syringe filter (Millipore), and the filtered supernatant was purified using an FPLC purification system (KTA Purifier, GE Healthcare). was used and loaded onto a Ni 2+ -affinity column. Bound fractions were eluted on a gradient of 80-400 mM imidazole, 20 mM Tris-HCl (pH 7.5).
  • the eluted protein was cleaved by treatment with TEV protease for 16 hours.
  • the cleaved protein was purified on a heparin column with a linear concentration gradient of 0.15-1.6 M NaCl.
  • Recombinant Cas12f1 protein purified on a heparin column was dialyzed in a solution of 20mM Tris pH 7.6, 150mM NaCl, 5mM ⁇ -mercaptoethanol, and 5% glycerol.
  • the dialyzed protein was purified by passing through an MBP column and then repurified on a monoS column (GE Healthcare) or EnrichS with a linear gradient of 0.5-1.2 M NaCl.
  • the repurified proteins were collected and dialyzed with a solution of 20mM Tris pH 7.6, 150mM NaCl, 5mM ⁇ -mercaptoethanol, and 5% glycerol to purify the gene editing protein (endonuclease) used in the present invention.
  • concentration of the produced gene-edited protein was quantified by the Bradford quantitative method using bovine serum albumin (BSA) as a standard and measured electrophoretically on a coomassie blue-stained SDS-PAGE gel.
  • BSA bovine serum albumin
  • gRNA Guide RNA
  • engineered gRNA used in Example 1.2 were prepared as follows. First, to prepare gRNA or engineered gRNA, a pre-designed gRNA was chemically synthesized, and then a PCR amplicon containing the synthesized gRNA sequence and T7 promoter sequence was prepared. U-rich tail ligation to the 3'-end of the engineered gRNA was performed using Pfu PCR Master Mix (Biofact) in the presence of sequence-modified primers and gRNA plasmid vector. The PCR amplicon was purified using HiGene TM Gel & PCR Purification System (Biofact).
  • Modification of the second stem region and the tracrRNA-crRNA complementarity region of the scaffold sequence of the engineered gRNA was performed by cloning a synthetic oligonucleotide (Macrogen) that transferred the modified sequence into a linearized gRNA encoding vector using ApoI and BamHI restriction enzymes. carried out.
  • Macrogen synthetic oligonucleotide
  • modification of the first stem region of the scaffold sequence of the engineered gRNA uses a forward primer targeting the 5'-end portion of tracrRNA and a reverse primer targeting the U6 promoter region. This was performed by PCR amplification of canonical or engineered template plasmid vectors. The PCR amplification was performed using Q5 Hot Start high-fidelity DNA polymerase (NEB), and the PCR product was ligated using KLD Enzyme Mix (NEB). The ligated PCR product was transformed into DH5 ⁇ E. coli . Confirmation of mutation (mutagenesis) was performed by Sanger sequencing analysis.
  • the modified plasmid vector was purified using the NucleoBond® Xtra Midi EF kit (MN). 1 ⁇ g of purified plasmid was used as a template for mRNA synthesis using T7 RNA polymerase (NEB) and NTPs (Jena Bioscience).
  • the engineered gRNA for the Cas12f1 protein prepared above was purified using the Monarch® RNA cleanup kit (NEB), aliquoted into cryogenic vials, and stored in liquid nitrogen.
  • amplicons of canonical gRNA and engineered gRNA were prepared.
  • KAPA HiFi HotStart DNA polymerase Roche
  • Pfu DNA polymerase Biofact
  • the circular gRNA template DNA plasmid and the engineered gRNA template DNA plasmid were combined with a U6-complementary forward primer and a protospacer sequence complementary reverse primer.
  • PCR amplification was performed using .
  • the PCR amplification product was purified using Higene TM Gel & PCR purification system (Biofact), and circular gRNA and engineered gRNA amplicons were obtained.
  • PCR amplicon Using the PCR amplicon as a template, in vitro transcription was performed using NEB T7 polymerase. The in vitro transcription product was treated with DNase I (NEB), purified using the Monarch RNA Cleanup Kit (NEB), and then gRNA was obtained. Afterwards, a plasmid vector containing a pre-designed gRNA sequence and a T7 promoter sequence was prepared according to the T-blunt plasmid (Biofact) cloning method.
  • NEB DNase I
  • NEB Monarch RNA Cleanup Kit
  • the gene editing system of the present invention is a ribonucleoprotein (RNP) formed by the interaction between one gene editing protein (endonuclease) and a guide RNA (gRNA) or between two gene editing proteins and gRNA. It may be an RNP formed by interaction.
  • RNP ribonucleoprotein
  • the gene editing protein purified by the method of Experimental Example 1 and the gRNA or engineered gRNA prepared by the method of Experimental Example 2 were cultured together at a concentration of 300 nM and 900 nM for 10 minutes at room temperature, respectively, to produce ribonucleic acid.
  • Cleoprotein particles (RNP) were obtained.
  • the gene editing proteins CWCas12f1, Un1Cas12f1, and their variant proteins were human codon-optimized for expression in human cells, and oligonucleotides of the codon-optimized Cas12f1 gene were produced.
  • an oligonucleotide containing the base sequence of the Cas12f1 gene produced above and a nuclear localization signal (NLS) sequence and a linker sequence at each of the 5'-end and 3'-end was synthesized (Bionics).
  • polynucleotides of human codon-optimized Cas12f1 or Cas12f1 variant (or engineered Cas12f1) nucleic acid constructs were synthesized for cleavage of the target gene or target nucleic acid.
  • the polynucleotide of the codon-optimized Cas12f1 nucleic acid construct was operably linked and cloned into a plasmid containing a sequence encoding eGFP linked to a chicken ⁇ -actin (CBA) promoter and a self-cleaving T2A peptide (2A). .
  • CBA chicken ⁇ -actin
  • template DNA for the canonical guide RNA used in this experiment was synthesized (Twist Bioscience), and cloned into the pTwist Amp plasmid vector.
  • Template DNA for the engineered guide RNA was produced using an enzyme cloning technique and cloned into the pTwist Amp plasmid.
  • an amplicon of the circular guide RNA or engineered guide RNA was prepared using a forward primer complementary to U6 and a reverse primer complementary to the protospacer sequence. If necessary, the prepared amplicon was cloned into a T-blunt plasmid (Biofact).
  • the engineered tracrRNA and the oligonucleotide encoding the engineered crRNA were digested with restriction enzymes BamHI and HindIII (NEB) and cloned into pSilencer 2.0 vector (ThermoFisher Scientific). and copied it.
  • Engineered gRNAs showing relatively high efficiency for Cas12f1 were selected and named "Cas12f1 ver3.0”, “Cas12f1 ver4.0”, and “Cas12f1 ver4.1”, respectively, and template DNA encoding them was synthesized into pTwist Amp. It was cloned into a plasmid vector (Twist Bioscience). If necessary, the vector was used as a template for amplification of the gRNA coding sequence using a U6-complementary forward primer and a protospacer-complementary reverse primer.
  • the vector expressing the components of the gene editing system of the present invention is a wild-type Cas12f1 gRNA or engineered gRNA in a vector containing the human codon-optimized Cas12f1 gene or a nucleic acid construct containing the same using the Gibson assembly method. It was prepared by cloning a polynucleotide encoding .
  • a vector expressing the gene editing system 1) a sequence encoding eGFP linked to the chicken ⁇ -actin (CBA) promoter and a self-cleaving T2A peptide (2A), 2) a Cas12f1 protein or an engineered Cas12f1 protein.
  • CBA chicken ⁇ -actin
  • 2A self-cleaving T2A peptide
  • AAV vector adeno-associated virus inverted terminal repeat plasmid vector
  • AAV vector may be appropriately modified in terms of eGFP, the number of engineered gRNAs, and/or the addition of effector proteins, etc., depending on the purpose of gene editing or modification.
  • the AAV vector and helper plasmid were transduced into HEK 293T cells.
  • the transduced HEK293 T cells were cultured in DMEM medium containing 2% FBS.
  • Recombinant pseudotyped AAV vector stocks were generated using PEI coprecipitation using polyplus-transfection (PEIpro) and triple-transfection of the plasmids at equal molar ratios. After 72 hours of incubation, the cells were lysed, and the AAV vector was purified from the lysate by iodixanol step gradient ultra-centrifugation.
  • HEK 293T (ATCC CRL-11268), HeLa (ATCC CLL-2), U-2 OS (ATCC HTB-96), and K-562 (ATCC CCL-243) cells were incubated with 10% heat-inactivated FBS, 1% penicillin/ Cultured in DMEM medium supplemented with streptomycin and 0.1 mM non-essential amino acids, at 37°C and 5% CO 2 conditions.
  • a vector containing the same, or an engineered guide RNA For cell transfection of DNA encoding a nucleic acid construct for cutting a target gene or target nucleic acid, a vector containing the same, or an engineered guide RNA, 1.0 ⁇ 10 5 HEK 293T cells were seeded 1 day before transfection. . Cell transfection was performed by electroporation or lipofection. In the case of electroporation, 2-5 ⁇ g each of DNA encoding the nucleic acid construct, plasmid vector containing it, or engineered guide RNA was transfected into 4 ⁇ 10 5 HEK-293 T cells using the Neon transfection system (Invitrogen). Injection (transfection) was performed.
  • human HEK293T cells For cell transfection of AAV vectors containing nucleic acid sequences encoding gene editing proteins, human HEK293T cells at different multiplicities of infection (MOI) of 1, 5, 10, 50, and 100 as determined by quantitative PCR. were infected with the AAV vector. The transfected HEK293T cells were cultured in DMEM medium containing 2% FBS. Cells were collected for isolation of genomic DNA at different time points, e.g., days 1, 3, 5, and 7.
  • MOI multiplicities of infection
  • ribonucleoprotein (RNP) particles prepared according to Experimental Example 3 were transfected into cells using electroporation or lipofection, and 1 day later, the engineered guide RNA was injected into cells. Cells were transfected using electroporation.
  • RNP ribonucleoprotein
  • HEK293T cells grown to 80-90% confluency (based on 100 ⁇ dishes) in a 24-well plate were diluted to 1/100 and passaged to prepare 500 ⁇ l.
  • a total of 2 ⁇ g of DNA (vector + DY10 target sgRNA transcription cassette) was used per transfection well. The experiment was repeated twice for each group.
  • the transfection mixture was prepared containing 1.5 ⁇ g of plasmid encoding wild-type Cas12f1 or engineered Cas12f1, 0.5 ⁇ g of sgRNA transcription cassette, 200 ⁇ l of DMEM (excluding FBS and antibiotics), and 6 ⁇ l of FuGENE (Promega) reagent. .
  • DMEM containing DNA and FuGENE reagent were mixed, vortexed, and incubated for 15 minutes.
  • the cells prepared in the 24-well plate were treated with 200 ⁇ l of the prepared transfection mixture and cultured at 37°C. After 72 hours, the supernatant was removed and cell lysis was performed.
  • the region containing the protospacer among genomic DNA isolated from HEK293T cells was digested with KAPA HiFi HotStart DNA polymerase (Roche) using target-specific primers. PCR was performed in the presence of The amplification method followed the manufacturer's instructions. The amplified PCR amplicon containing Illumina TruSeq HT dual indexes was subjected to 150-bp paired-end sequencing using Illumina iSeq 100.
  • the indel frequency was calculated using MAUND provided at ⁇ https://github.com/ibs-cge/maund ⁇ .
  • PCR products were obtained using BioFACT TM Lamp Pfu DNA polymerase.
  • the PCR product (100-300 ⁇ g) was reacted with 10 units of T7E1 enzyme (NEB) in 25 ⁇ g reaction mixture at 37°C for 30 minutes.
  • 20 ⁇ l of the reaction mixture was loaded directly onto a 10% acrylamide gel, and the cleaved PCR products were run in a TBE buffer system.
  • the gel image was stained with ethidium bromide solution and then digitized using a Printgraph 2 M gel imaging system (Atto). The digitized results were analyzed to evaluate gene editing efficiency.
  • the adeno-associated virus (AAV) vector produced by the method according to Experimental Example 4 was transduced into HEK293T cells. After 3, 5, and 7 days, genomic DNA was obtained from the transfected HEK293T cells, and purified using a Genomic DNA prep kit (Cat No.: 69504, QIAGEN). After amplifying the target region of the target gene or target nucleic acid in the purified product by PCR, the final PCR product was analyzed using targeted deep sequencing. For library generation, the target region was amplified using the KAPA HiFi HotStart PCR kit (Cat No.: KK2501, KAPA Biosystem). This library was sequenced using MiniSeq on the TruSeq HT Dual Index system (Illumina).
  • gDNA was extracted using the Genomic DNA Prep Kit (GCBL200, Nanohelix).
  • the medium from the transfected cells was removed from the 24-well, 200 ⁇ l of trypsin was added to the well, removed from the bottom, and then transferred to a 1.5 ml tube.
  • the tube was centrifuged at 300 Add 300 ⁇ l of NGD1 buffer and 2 ⁇ l of RNase A (50 mg/ml) to the tube, vortex for 1 minute, add 8 ⁇ l of Proteinase K (10 mg/ml), and react at 60°C for 10 minutes. . Then it was cooled in ice for 5 minutes.
  • the column was replaced with a new 1.5 ml tube, 30 ⁇ l of EB solution was dropped into the center, reacted for 1 minute, and then centrifuged at 12,000 rpm for 2 minutes. The eluted gDNA was quantified and stored at 4°C.
  • the experiment was performed using the GEL & PCR Purification System (GP104-200, Biofact).
  • UB buffer corresponding to 3 times the volume of the PCR product was added to the PCR product and mixed well. Isopropanol corresponding to 2 times the volume of the PCR product was added and mixed well.
  • a gel cut and weigh the gel of the corresponding band, add UB buffer equivalent to 3 times the weight of the gel, react at 65°C for 10 minutes to dissolve the gel, and then add isopropanol in an amount equivalent to 1 times the gel volume. Add it and mix it well.
  • Prepare the column add 200 ⁇ l of HelpB buffer to the column, centrifuge at 13,000 rpm for 30 seconds, and discard the filtered solution.
  • the reaction solution was placed in a column, centrifuged at 7,000 rpm for 1 minute, and the filtered solution was discarded. 750 ⁇ l of 80% EtOH was added, centrifugation was performed at 13,000 rpm for 30 seconds, and the filtered solution was discarded. After repeating twice, centrifugation was performed at 13,000 rpm for 3 minutes.
  • the centrifuged column was placed in a 1.5 ml tube, 30 ⁇ l of EB buffer was added to the center, and reacted at room temperature for 1 minute. Centrifugation was performed at 13,000 rpm for 1 minute.
  • the DNA collected in a 1.5 ml tube was quantified and stored at 4°C.
  • the spacer was selected from the 20mer sequence following TTTA or TTTG, which is the PAM of Cas12f1, and spacers whose sequence ends in T were excluded. And to reduce off-targets, mismatches were classified as less than 2 and spacers were designed in CRISPR RGEN TOOL. In addition, the reverse complement sequence containing DR (direct repeat) and U-rich sequence was used as the R primer.
  • Reagent composition PCR conditions 2x pfu PCR Master mix 200 ⁇ l 95°C 5 minutes - hU6 F primer 20 ⁇ l 95°C 20 seconds 35 cycles Targeting Oligo(R) 20 ⁇ l 58°C 40 seconds template 1 ⁇ l (400 ng) 72°C 45 seconds Distilled water 159 ⁇ l 72°C 5 minutes - Sum 400 ⁇ l -
  • a 1% agarose gel was prepared, a size marker and PCR product were added, and the amplification size was confirmed by electrophoresis.
  • the gel was purified according to Experimental Example 9 and the PCR product was quantified.
  • the Cas12f1 ver4.0-GFP vector (FIG. 14a) or Cas12f1 ver4.1-GFP (FIG. 14b) was used as a backbone vector and proceeded as follows.
  • the restriction enzyme end of the vector to be cloned was confirmed, and a dual gRNA oligo suitable for cloning into the Bbs I restriction enzyme site of the vector was designed and ordered.
  • the custom-produced oligos were each diluted to a concentration of 100 pmol. 4.5 ⁇ l each of the diluted forward and reverse primers were placed in a PCR tube, and then 1 ⁇ l of 10X annealing buffer was added to adjust the volume to a total of 10 ⁇ l. Afterwards, annealing was performed at 95°C for 5 minutes and at -1°C/min from 95°C to 4°C.
  • Cas12f1 ver4.0 or ver4.1 dual gRNA vector was prepared and cultured for 2 hours at 500 rpm and 37°C under the digestion conditions shown in Table 18 below.
  • the degraded vector was obtained through electrophoresis and gel elution. Ligation was performed using the degraded vector and annealed oligo (see Table 19 below for ligation conditions).
  • DH5 ⁇ was transformed, and after culture on LB plates, positive colonies were confirmed through colony PCR and cultured in 3 ml LB medium. After miniprep, sequencing was performed to confirm that the sequences finally matched.
  • the vector produced in Experimental Example 11 was transformed into E. coli to produce the vector.
  • DH5 ⁇ competent cells were taken out and thawed on ice. Up to 1/10 of the amount of DH5 ⁇ ligated vector was added and then reacted on ice for 30 minutes. Thermal shock was applied at 42°C for 30 seconds and then cooled on ice for 2 minutes. 100 ⁇ l of LB medium or SOC medium was used and cultured at 37°C for 1 hour. It was plated on an LB plate warmed to room temperature (containing ampicillin or kanamycin depending on the vector) and cultured at 37°C for 14 to 16 hours.
  • Plasmid Mini prep kit (PM105-200, Biofact) was used and carried out according to the manufacturer's instructions.
  • the culture medium of DH5 ⁇ transformed with the vector was placed in a 1.5 ml tube and then centrifuged at 13,000 rpm for 5 minutes. After centrifugation, the supernatant was discarded, and the pellet was sufficiently loosened by vortexing. After adding 350 ⁇ l of B1 buffer, the tube was shaken to sufficiently react. Next, 350 ⁇ l of A1 buffer containing RNase A was added, and the tube was inverted until the blue color disappeared. Then, centrifugation was performed at 13,000 rpm for 5 minutes.
  • a column was prepared, 200 ⁇ l of HelpB buffer was added, centrifugation was performed at 13,000 rpm for 30 seconds, and the filtered solution was removed. 750 ⁇ l of the centrifuged supernatant was added to the prepared column, centrifuged at 7,000 rpm for 1 minute, and the filtered solution was discarded. 750 ⁇ l of 80% EtOH was added, centrifugation was performed at 13,000 rpm for 30 seconds, and the process of discarding the filtered solution was repeated twice. After repeating twice, centrifugation was performed at 13,000 rpm for 3 minutes. The centrifuged column was placed in a 1.5 ml tube, 30 ⁇ l of EB buffer was added to the center, and reacted at room temperature for 1 minute. Centrifugation was performed at 13,000 rpm for 1 minute, and the plasmid vectors collected in a 1.5 ml tube were quantified and stored at -20°C.
  • the 661W-USH2A cell line or the ARPE19/HPV16-USH2A cell line having a mutation in the USH2A gene was produced.
  • the 661W-USH2A cell line is a human USH2A gene intron 12, exon 13 (c.2276G>T) by inducing homology directed repair (HDR) of intron 12, exon 13, and part of intron 13 of the wt661W USH2A locus. and the c.2299delG mutation) and (partially) converted USH2A humanized 661W cell line (see Figure 15).
  • HDR homology directed repair
  • the ARPE19/HPV16-USH2A cell line is a cell line created to contain the c.2276G>T and c.2299delG mutations in exon 13 of the wtARPE19/HPV19 USH2A locus using the HDR method.
  • HEK293T cells used in the experiment were cultured in DMEM medium containing 10% FBS and 1% penicillin-streptomycin, and AREP-19/HPV-16 cells were cultured in DEME/DMEM medium containing 10% FBS and 1% penicillin-streptomycin. Cultured in F12 medium. When the cell confluency was more than 80%, HEK293T cells were subcultured at a ratio of 1/15, and AREP-19/HPV-16 cells were subcultured at a ratio of 1/4.
  • HEK293T and ARPE19-HPV cells (80% confluency) cultured in 100 mm dishes were treated with trypsin and detached from the bottom of the dish.
  • the separated cells were placed in 50 ml of pre-warmed medium (see Experimental Example 15 above for composition) and slowly released with a pipette.
  • a 24-well plate was prepared according to the number of samples and repetitions, and 500 ⁇ l of cell suspension medium was added to each well (1/100 dilution). Afterwards, the cells were cultured overnight in a CO 2 incubator at 37°C until transfection.
  • the nucleic acid mixture and FuGENE HD were added at a ratio of 1:3, and reacted at room temperature for 20 minutes (i.e., when the nucleic acid mixture was 2 ⁇ g, 6 ⁇ l of FuGENE HD was administered).
  • the 24-well plate was taken out of the incubator, and 200 ⁇ l of a solution containing the nucleic acid mixture and FuGENE HD was flowed through the well wall. After shaking the plate sufficiently in an S shape, it was cultured in a CO 2 incubator at 37°C for 72 hours. After 72 hours, the cells were collected and gDNA was extracted according to Experimental Example 8.
  • Fb region (F11 to F20) of USH2A PCR conditions PCR mixture composition volume density 2X KAPA HiFi PCR mix 5 ⁇ l 1X 95°C 5 minutes - USH2A-F-F#1 (10 pmol) 0.5 ⁇ l 0.5 ⁇ M 98°C 20 seconds 32 cycles USH2A-F-R#3 (10 pmol) 0.5 ⁇ l 0.5 ⁇ M 61°C 15 seconds Template (gDNA) 1 ⁇ l - 72°C 45 seconds (each sample) (100 ng) - 72°C 5 minutes - Distilled water up to 10 ⁇ l - - Sum 10 ⁇ l -
  • Ra region (R01 to R06) of USH2A PCR conditions PCR mixture composition volume density 2X KAPA HiFi PCR mix 5 ⁇ l 1X 95°C 5 minutes - USH2A-R-F#1 (10 pmol) 0.5 ⁇ l 0.5 ⁇ M 98°C 20 seconds 32 cycles USH2A-R-R#2 (10 pmol) 0.5 ⁇ l 0.5 ⁇ M 61°C 15 seconds Template (gDNA) 1 ⁇ l - 72°C 45 seconds (each sample) (100 ng) - 72°C 5 minutes - Distilled water up to 10 ⁇ l - - Sum 10 ⁇ l -
  • Rc region (R15 to R20) of USH2A PCR conditions PCR mixture composition volume density 2X KAPA HiFi PCR mix 5 ⁇ l 1X 95°C 5 minutes - USH2A-R-F#3 (10 pmol) 0.5 ⁇ l 0.5 ⁇ M 98°C 20 seconds 32 cycles USH2A-R-R#1 (10 pmol) 0.5 ⁇ l 0.5 ⁇ M 61°C 15 seconds Template (gDNA) 1 ⁇ l - 72°C 45 seconds (each sample) (100 ng) - 72°C 5 minutes - Distilled water up to 10 ⁇ l - - Sum 10 ⁇ l -
  • Rd region (R21 to R30) of USH2A PCR conditions PCR mixture composition volume density 2X KAPA HiFi PCR mix 5 ⁇ l 1X 95°C 5 minutes - USH2A-R-F#8 (10 pmol) 0.5 ⁇ l 0.5 ⁇ M 98°C 20 seconds 32 cycles USH2A-R-R#8 (10 pmol) 0.5 ⁇ l 0.5 ⁇ M 61°C 15 seconds Template (gDNA) 1 ⁇ l - 72°C 45 seconds (each sample) (100 ng) - 72°C 5 minutes - Distilled water up to 10 ⁇ l - - Sum 10 ⁇ l -

Abstract

본 발명은 어셔 증후군(Usher syndrome)의 치료를 위한 유전자 편집 시스템 및 이를 이용한 질병 치료 방법 등에 관한 것으로서, 본 발명의 유전자 편집 시스템을 사용하여 USH2A(Usherin) 유전자에서 돌연변이가 일어난 엑손 13 부위를 고효율로 제거함으로써 제2형 어셔 증후군을 효과적으로 치료할 수 있다. 뿐만 아니라, 본 발명의 유전자 편집 시스템은 초소형의 Cas12f1 단백질 기반 엔도뉴클레아제 및 길이는 더 짧으면서도 인델(indel) 효율은 더 향상된 엔지니어링된 가이드 RNA를 포함하여 아데노-연관 바이러스(AAV)와 같이 패키징 사이즈에 제한이 있는 전달체도 이용될 수 있으므로 체내 또는 세포내 전달 효율 또한 극대화할 수 있다.

Description

어셔 증후군 치료를 위한 유전자 편집 시스템
본 발명은 CRISPR/Cas12f1 시스템을 이용한 어셔 증후군의 치료에 관한 것이다. 구체적으로, 본 발명은 어셔 증후군 치료를 위한 CRISPR/Cas12f1 시스템 기반의 유전자 편집 시스템, 조성물 및 치료 방법에 관한 것이다.
본 출원은 2022년 3월 30일에 출원된 대한민국 특허출원 제10-2022-0039723호 및 2022년 5월 27일에 출원된 대한민국 특허출원 제10-2022-0065600호에 기초한 우선권을 주장하며, 해당 출원의 명세서 및 도면에 개시된 모든 내용은 본 출원에 원용된다.
어셔 증후군(Usher syndrome)은 청력 손상과 시력 손상을 동반하는 희귀 유전 질환이다. 어셔 증후군의 주요 증상은 청력 상실과 색소성 망막염(retinitis pigmentosa)이라는 눈 장애로, 망막의 진행성 퇴행을 통해 야맹증과 주변 시력 상실을 유발한다. 또한, 다수의 어셔 증후군 환자들은 심각한 균형 문제를 가지고 있다. 어셔 증후군은 선천성 양측 감각신경성 난청과 색소성 망막염을 특징으로 하는 상염색체열성질환으로 지금까지 임상적으로 3가지 유형이 보고되어 있다. 제1형은 가장 심한 형태로 양측의 고도 내지 심도난청과 전정기능 소실을 보이고 대개 10대 이전에 야맹증, 심한 시야협착 및 시력저하가 나타난다. 제2형은 중등고도의 난청과 정상 전정기능을 가지며 10대 후반 또는 20대 초반에 야맹증, 시야협착 및 시력저하가 시작된다. 제3형은 빈도가 드물고 진행형의 난청과 다양한 전정기능 이상을 보인다.
각각의 임상적 유형에 따라 유전적 이질성이 존재한다. 그 중 제2형 어셔 증후군의 경우, 망막과 내이에서 발현되는 기저막 단백질인 어셔린(Usherin) 단백질을 발현하는 USH2A(Usherin) 유전자의 변이에 의한다고 알려져 있다. USH2A 유전자의 변이 중 가장 흔히 나타나는 변이인 엑손(exon) 13에 발생하는 c.2276G>T, c.2299delG 유전자 돌연변이에 의해 제2형(보다 구체적으로, 제2A형) 어셔 증후군의 증상이 나타난다고 알려져 있다. 이러한 증상을 완화시키기 위해 USH2A 유전자의 엑손 13이 제거(예컨대, 엑손 13 스키핑)된 USH2A 유전자를 발현시키는 전략은 하버드 의과대학 연구진 등이 수행한 동물 실험을 통해 그 유효성이 입증된 바 있다(비특허문헌 1 및 2 참조).
이러한 검증된 치료 전략을 보다 지속적이고 효율적으로 구현하기 위해 CRISPR/Cas 시스템을 이용한 치료가 연구되고 있다. 그러나 CRISPR/Cas 시스템은 세포 내 유전자 편집 활성이 현저히 낮아서 치료 효과가 거의 없거나, 비교적 큰 분자량으로 인한 체내 전달이 어려운 문제가 있다. 따라서, 세포 내 유전자 편집 활성이 증가되어 충분한 치료 효과가 나타나면서도 크기가 소형화되어 아데노-연관 바이러스(AAV)와 같이 효율성 및 안정성이 입증된 전달체를 이용할 수 있는 유전자 편집 시스템의 개발이 요구되고 있다.
[선행기술문헌]
[비특허문헌]
(비특허문헌 1) Pendse, Nachiket D et al. "In Vivo Assessment of Potential Therapeutic Approaches for USH2A-Associated Diseases." Advances in experimental medicine and biology vol. 1185 (2019): 91-96.
(비특허문헌 2) Pendse, Nachiket D et al. "Exon 13-skipped USH2A protein retains functional integrity in mice, suggesting an exo-skipping therapeutic approach to treat USH2A-associated disease." bioRxiv 2020.02.04.934240.
본 발명은 전술한 종래 기술의 문제점을 모두 해결하는 것을 그 목적으로 한다.
또한, 본 발명은 개선된 유전자 편집 효율을 나타내고 아데노-연관 바이러스(AAV)를 비롯한 다양한 전달체에 수용 가능한 초소형의 구조물로 구현될 수 있는 어셔 증후군 치료용 유전자 편집 기술을 제공하는 것을 일 목적으로 한다.
본 발명은 USH2A(Usherin) 유전자에서 엑손 13을 포함하는 핵산 세그먼트(segment)를 결실시키기 위한 CRISPR/Cas 시스템 기반 유전자 편집 기술을 제공하는 것을 다른 목적으로 한다.
본 발명은 CRISPR/Cas 시스템 기반 유전자 편집 기술을 이용하여 어셔 증후군을 치료하거나 어셔 증후군의 발병 또는 진행을 지연시키는 방법을 제공하는 것을 또 다른 목적으로 한다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않는다. 본 발명의 목적은 이하의 설명으로 보다 분명해질 것이며, 청구범위에 기재된 수단 및 그 조합으로 실현될 것이다.
상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.
본 발명의 일 태양에 따르면, Cas12f1 분자를 포함하는 엔도뉴클레아제 또는 상기 엔도뉴클라아제를 암호화하는 핵산; USH2A 엑손 13의 5000bp 업스트림(upstream) 영역에 존재하고 Cas12f1 분자가 인식하는 PAM(protospacer-adjacent motif) 서열과 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화 가능한 제1 가이드 서열을 포함하는 제1 가이드 RNA, 또는 상기 제1 가이드 RNA를 암호화하는 핵산; 및 USH2A 엑손 13의 14500bp 다운스트림(downstream) 영역에 존재하고 Cas12f1 분자가 인식하는 PAM 서열과 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화 가능한 제2 가이드 서열을 포함하는 제2 가이드 RNA, 또는 상기 제2 가이드 RNA를 암호화하는 핵산을 포함하는 USH2A 유전자의 편집 시스템 또는 USH2A 유전자 편집용 조성물이 제공된다.
일 구현예에서, 상기 시스템 또는 조성물은 세포 내 USH2A 유전자에서 엑손 13의 결실을 유도할 수 있다.
다른 구현예에서, 상기 시스템 또는 조성물은 제2A형 어셔 증후군의 치료를 위한 것일 수 있다.
본 발명의 다른 태양에 따르면, Cas12f1 분자를 포함하는 엔도뉴클레아제를 암호화하는 뉴클레오티드 서열이 작동가능하게 연결된 제1 핵산 구조물; USH2A 엑손 13의 5000bp 업스트림 영역에 존재하고 Cas12f1 분자가 인식하는 PAM 서열과 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화 가능한 제1 가이드 서열을 포함하는 제1 가이드 RNA를 암호화하는 뉴클레오티드 서열이 작동가능하게 연결된 제2 핵산 구조물; 및 USH2A 엑손 13의 14500bp 다운스트림(downstream) 영역에 존재하고 Cas12f1 분자가 인식하는 PAM 서열과 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화 가능한 제2 가이드 서열을 포함하는 제2 가이드 RNA를 암호화하는 뉴클레오티드 서열이 작동가능하게 연결된 제3 핵산 구조물을 포함하는 하나 이상의 벡터를 포함하는 벡터 시스템이 제공된다.
일 구현예에서, 상기 벡터 시스템은 세포 내 USH2A 유전자에서 엑손 13의 결실을 유도할 수 있다.
다른 구현예에서, 상기 핵산 구조물은 동일하거나 상이한 벡터에 함유될 수 있다.
또 다른 구현예에서, 상기 핵산 구조물은 하나의 벡터에 함유될 수 있다.
또 다른 구현예에서, 상기 벡터는 프로모터 또는 인핸서를 더 포함할 수 있다.
또 다른 구현예에서, 상기 프로모터는 U6 프로모터, EFS 프로모터, EF1-α 프로모터, H1 프로모터, 7SK 프로모터, CMV 프로모터, LTR 프로모터, Ad MLP 프로모터, HSV 프로모터, SV40 프로모터, CBA 프로모터 또는 RSV 프로모터일 수 있으나, 이에 제한되지 않는다.
또 다른 구현예에서, 상기 벡터는 레트로바이러스 벡터(retrovirus vector), 렌티바이러스 벡터(lentivirus vector), 아데노바이러스 벡터(adenovirus vector), 아데노-연관 바이러스 벡터(adeno-associated virus vector), 백시니아바이러스 벡터(vaccinia virus vector), 폭스바이러스 벡터(poxvirus vector), 단순포진 바이러스 벡터(herpes simplex virus vector) 및 파지미드 벡터(phagemid vector)로 구성된 군에서 선택되는 벡터일 수 있으나, 이에 제한되지 않는다.
또 다른 구현예에서, 상기 벡터는 플라스미드, 네이키드 DNA, DNA 복합체, mRNA(전사물) 및 앰플리콘(amplicon)으로 이루어진 군에서 선택될 수 있으나, 이에 제한되지 않는다.
본 발명의 또 다른 태양에 따르면, 본 개시에 따른 벡터 시스템에 의해 제조된 재조합 바이러스가 제공된다.
본 발명의 다른 태양에 따르면, 본 개시에 따른 시스템, 벡터 시스템 또는 재조합 바이러스를 포함하는 조성물이 제공된다.
일 구현예에서, 상기 조성물은 약학 조성물이다.
본 발명의 또 다른 태양에 따르면, 본 개시에 따른 시스템, 벡터 시스템 또는 재조합 바이러스를 세포와 접촉시키는 단계를 포함하는, 세포 내 USH2A 유전자에서 엑손 13을 포함하는 세그먼트의 결실을 유도하는 방법이 제공된다.
본 발명의 또 다른 태양에 따르면, 본 개시에 따른 시스템, 벡터 시스템 또는 재조합 바이러스를 개체와 접촉시키는 단계를 포함하는, USH2A 유전자 엑손 13에 돌연변이와 관련된 질환을 가진 개체를 치료하는 방법이 제공된다.
본 발명의 또 다른 태양에 따르면, 본 개시에 따른 시스템, 벡터 시스템 또는 재조합 바이러스를 세포와 접촉시키는 단계를 포함하는, 세포의 유전자를 변경하는 방법이 제공된다.
일 구현예에서, 상기 재조합 바이러스는 아데노-연관 바이러스(AAV)일 수 있다.
다른 구현예에서, 상기 세포는 줄기세포, 포유동물의 눈 또는 내이(inner ear)의 세포일 수 있으나, 이에 제한되지 않는다.
또 다른 구현예에서, 상기 세포는 어셔 증후군을 가진 개체로부터 유래된 것일 수 있다.
또 다른 구현예에서, 상기 접촉은 생체 외 또는 생체 내에서 일어나는 것일 수 있다.
본 발명의 또 다른 태양에 따르면, 본 개시에 따른 방법에 의해 유전적으로 변형된 줄기세포가 제공된다.
일 구현예에서, 상기 줄기세포는 제2A형 어셔 증후군을 치료하기 위한 것일 수 있다.
본 발명의 또 다른 태양에 따르면, USH2A(Usherin) 유전자 내의 표적 서열과 혼성화할 수 있는 가이드 서열을 포함하는 스페이서 영역 및 스캐폴드 영역을 포함하는 가이드 RNA로서, 상기 가이드 서열은 (i) 서열번호 397 내지 서열번호 445로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 22개 뉴클레오티드 서열 또는 상기 연속된 서열에서 5개 이하의 뉴클레오티드가 상이한 서열을 포함하고, 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열이고/거나, (ii) 서열번호 446 내지 서열번호 475로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 20개 뉴클레오티드 서열 또는 상기 연속된 서열에서 5개 이하의 뉴클레오티드가 상이한 서열을 포함하고, 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열인 가이드 RNA가 제공된다.
일 구현예에서, 상기 가이드 서열은 서열번호 80 내지 서열번호 128 및 서열번호 159 내지 서열번호 164로 이루어진 군에서 선택된 핵산 서열을 포함하고/거나, 상기 가이드 서열은 서열번호 129 내지 서열번호 158 및 서열번호 165 내지 서열번호 174로 이루어진 군에서 선택된 핵산 서열을 포함할 수 있다.
본 발명의 또 다른 태양에 따르면, 본 개시에 따른 가이드 RNA를 암호화하는 핵산 분자가 제공된다.
본 발명의 또 다른 태양에 따르면, 본 개시에 따른 하나 이상의 가이드 RNA를 포함하는 조성물이 제공된다.
본 발명의 또 다른 태양에 따르면, 본 개시에 따른 하나 이상의 가이드 RNA 및 Cas12f1 분자를 포함하는 엔도뉴클레아제를 포함하는 조성물이 제공된다.
일 구현예에서, 상기 조성물은 둘 이상의 가이드 RNA를 포함하고, 적어도 하나의 가이드 RNA는 (i) 서열번호 397 내지 서열번호 445로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 22개 뉴클레오티드 서열 또는 상기 연속된 서열에서 5개 이하의 뉴클레오티드가 상이한 서열을 포함하고, (ii) 적어도 다른 하나의 가이드 RNA는 서열번호 446 내지 서열번호 475로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 20개 뉴클레오티드 서열 또는 상기 연속된 서열에서 5개 이하의 뉴클레오티드가 상이한 서열을 포함할 수 있다.
이하, 상술한 본 발명의 복수 양태에 따른 각각의 시스템, 조성물, 벡터 시스템 및 방법에 포함되는 구성인 엔도뉴클레아제, 가이드 RNA 및 USH2A 엑손 13 등에 대해 공통적으로 적용되는 구현예는 다음과 같다.
일 구현예에서, 상기 USH2A 엑손 13은 어셔 증후군을 유발하는 하나 이상의 돌연변이를 포함할 수 있다.
다른 구현예에서, 상기 USH2A 엑손 13의 5000bp 업스트림 영역에 존재하는 표적 서열은 서열번호 1 내지 서열번호 49로 이루어진 군에서 선택된 핵산 서열을 포함하고/거나 상기 USH2A 엑손 13의 14500bp 다운스트림 영역 내에 존재하는 표적 서열은 서열번호 50 내지 서열번호 79로 이루어진 군에서 선택된 핵산 서열을 포함할 수 있다.
또 다른 구현예에서, 상기 제1 가이드 서열은 서열번호 397 내지 서열번호 445로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 22개 뉴클레오티드 서열 또는 상기 연속된 서열에서 5개 이하의 뉴클레오티드가 상이한 서열을 포함하고, 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열이고/거나, 상기 제2 가이드 서열은 서열번호 446 내지 서열번호 475로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 20개 뉴클레오티드 서열 또는 상기 연속된 서열에서 5개 이하의 뉴클레오티드가 상이한 서열을 포함하고, 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열일 수 있다.
또 다른 구현예에서, 상기 제1 가이드 서열은 서열번호 80 내지 서열번호 128 및 서열번호 159 내지 서열번호 164로 이루어진 군에서 선택된 핵산 서열을 포함하고/거나, 상기 제2 가이드 서열은 서열번호 129 내지 서열번호 158 및 서열번호 165 내지 서열번호 174로 이루어진 군에서 선택된 핵산 서열을 포함할 수 있다.
또 다른 구현예에서, 상기 가이드 RNA, 제1 가이드 RNA 또는 제2 가이드 RNA는 가이드 서열의 3'-말단에 연결된 U-rich tail 서열을 포함하고, 상기 U-rich tail은 5'-(UmV)nUo-3'로 표시되고, 여기서 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수일 수 있다.
또 다른 구현예에서, 상기 가이드 RNA, 제1 가이드 RNA 또는 제2 가이드 RNA는 엔지니어링된 스캐폴드 영역을 포함하고, 상기 엔지니어링된 스캐폴드 영역은 5'-말단부터 순차적으로 제1 스템-루프 영역, 제2 스템-루프 영역, 제3 스템-루프 영역, 제4 스템-루프 영역 및 tracrRNA-crRNA 상보성 영역을 포함하는 야생형 Cas12f1 가이드 RNA 서열의 스캐폴드 영역과 50% 이상 서열 동일성을 갖는 뉴클레오티드 서열을 포함하고, 상기 야생형 Cas12f1 가이드 RNA 서열에 대해 하기 (1) 내지 (4)로 이루어진 군에서 선택되는 하나 이상의 변형을 포함할 수 있다:
(1) 제1 스템-루프 영역의 일부 또는 전부의 결실; (2) 제2 스템-루프 영역의 일부 또는 전부의 결실; (3) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실; 및 (4) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환.
또 다른 구현예에서, 상기 야생형 Cas12f1 가이드 RNA는 서열번호 175의 핵산 서열을 포함하는 tracrRNA 및 서열번호 176의 핵산 서열을 포함하는 crRNA를 포함할 수 있다.
또 다른 구현예에서, 상기 스캐폴드 영역 또는 엔지니어링된 스캐폴드 영역은 하기 식 (I)로 표시되는 서열과 80% 이상 서열 동일성을 갖는 서열을 포함할 수 있다:
Figure PCTKR2023004330-appb-img-000001
상기 식 (I)에서, Xa는 서열번호 178의 핵산 서열 또는 서열번호 178의 서열에서 1 내지 20개의 뉴클레오티드가 결실된 핵산 서열을 포함하고, Xb1은 서열번호 189의 핵산 서열 또는 서열번호 189의 서열에서 1 내지 13개의 뉴클레오티드가 결실된 핵산 서열을 포함하고, Xb2는 서열번호 193의 핵산 서열 또는 서열번호 193의 서열에서 1 내지 14개의 뉴클레오티드가 결실된 핵산 서열을 포함하고, Xc1은 서열번호 203의 핵산 서열 또는 서열번호 203의 서열에서 1 내지 28개의 뉴클레오티드가 결실된 핵산 서열을 포함하고, Xc2는 서열번호 222의 핵산 서열 또는 서열번호 222의 서열에서 1 내지 27개의 뉴클레오티드가 결실된 핵산 서열을 포함하고, Lk는 길이 2 내지 20의 폴리뉴클레오티드 링커이거나 부존재한다.
또 다른 구현예에서, 상기 Xc1 서열 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 이들 중 하나 이상의 U가 A, G 또는 C로 치환되는 변형을 포함할 수 있다.
또 다른 구현예에서, Xa 핵산 서열의 결실, Xb1 및 Xb2 핵산 서열의 결실 및/또는 Xc1 및 Xc2 핵산 서열의 결실은 하나 이상의 상보적인 뉴클레오티드 쌍의 결실을 포함할 수 있다.
또 다른 구현예에서, 상기 식 (I)에서 서열 5'Xb1UUAGXb2-3'은 서열번호 198 내지 서열번호 202 및 5'-UUAG-3'로 이루어진 군에서 선택될 수 있다.
또 다른 구현예에서, 상기 식 (I) 내의 서열 5'-Xc1-Lk-Xc2-3'은 서열번호 244 내지 서열번호 250 및 5'-Lk-3'으로 이루어진 군에서 선택될 수 있다.
또 다른 구현예에서, 상기 Lk는 5'-GAAA-3', 5'-UUAG-3', 5'-UGAAAA-3', 5'-UUGAAAAA-3', 5'-UUCGAAAGAA-3'(서열번호 240), 5'-UUCAGAAAUGAA-3'(서열번호 241), 5'-UUCAUGAAAAUGAA-3'(서열번호 242) 및 5'-UUCAUUGAAAAAUGAA-3'(서열번호 243)로 이루어진 군에서 선택되는 핵산 서열을 포함할 수 있다.
또 다른 구현예에서, 상기 스캐폴드 영역은 서열번호 251 내지 서열번호 296으로 이루어진 군에서 선택된 핵산 서열로 이루어진 엔지니어링된 tracrRNA를 포함하고/거나, 서열번호 297 내지 서열번호 304로 이루어진 군에서 선택된 핵산 서열로 이루어진 엔지니어링된 crRNA을 포함할 수 있다.
또 다른 구현예에서, 상기 가이드 RNA, 제1 가이드 RNA 또는 제2 가이드 RNA는 듀얼 가이드 RNA 또는 싱글 가이드 RNA일 수 있다.
또 다른 구현예에서, 상기 가이드 RNA, 제1 가이드 RNA 또는 제2 가이드 RNA는 서열번호 313 내지 서열번호 350으로 이루어진 군에서 선택된 핵산 서열의 스캐폴드 영역 서열을 포함할 수 있다.
또 다른 구현예에서, 상기 가이드 RNA, 제1 가이드 RNA 또는 제2 가이드 RNA는 서열번호 315 내지 317로 이루어진 군에서 선택된 핵산 서열의 스캐폴드 영역 서열을 포함할 수 있다.
또 다른 구현예에서, 상기 Cas12f1 분자는 서열번호 360 내지 서열번호 364 및 서열번호 370 내지 서열번호 377로 이루어진 군에서 선택된 아미노산 서열과 70% 이상의 서열 동일성을 갖는 아미노산 서열을 포함할 수 있다.
또 다른 구현예에서, 상기 엔도뉴클라아제는 상기 가이드 RNA, 제1 가이드 RNA 또는 제2 가이드 RNA와 리보뉴클레오단백질(ribonucleoprotein, RNP)를 형성할 수 있다.
USH2A 유전자의 돌연변이로 인한 어셔 증후군은 USH2A 유전자에서 돌연변이가 일어난 엑손 13을 제거하여 정상적으로 기능하는 어셔린(Usherin) 단백질이 생성되도록 유도하는 전략을 통해 치료될 수 있다. 본 발명은 새로운 초소형 핵산 절단 단백질인 Cas12f1 단백질 및 이와 함께 사용되어 우수한 유전자 편집 효율을 나타내도록 특정 부위가 변형되고 높은 특이성으로 USH2A 유전자의 특정 부위를 표적화할 수 있는 엔지니어링된 가이드 RNA를 포함하는 보다 효율적이고 응용 범위가 증대된 유전자 편집 시스템으로서 USH2A 유전자의 엑손 13을 효과적으로 결실시킬 수 있다. 또한, 본 발명의 유전자 편집 시스템은 기존의 Cas9 단백질 등과 비교하여 크기가 현저하게 작은 엔도뉴클레아제 및 길이는 더 짧으면서도 우수한 편집 효율을 나타내는 엔지니어링된 가이드 RNA를 이용하므로, AAV와 같이 패키징 사이즈가 매우 제한적인 전달체를 사용하는 경우에도 하나의 벡터에 목적하는 유전자 편집에 필요한 다양한 도구들을 탑재할 수 있으므로 USH2A 유전자의 엑손 13 결실 효율을 높이는 추가적인 구성을 포함할 수 있다는 이점이 있다.
도 1은 본 발명의 일 구현예에 따른 엔지니어링된 가이드 RNA(engineered gRNA)에서 각각의 변형부위 MS1 내지 MS5를 도시한다(MS, modification site).
도 2a 및 도 2b는 본 발명의 일 구현예에 따른 엔지니어링된 싱글 가이드 RNA(sgRNA)의 예시적 구조를 도시한다: 도 2a는 Cas12f1에 대한 원형(canonical) sgRNA의 예시적 변형부위를 도시한다. 도 2b는 본 발명의 일 구현예에 따라 엔지니어링된 Cas12f1에 대한 성숙형(mature form) sgRNA의 예시적 변형부위를 도시한다.
도 3a 및 도 3b는 야생형 가이드 RNA의 각 영역에서 MS1 내지 MS5 중 하나 이상의 변형을 갖는 엔지니어링된 gRNA 및 CWCas12f1를 포함하는 유전자 편집 시스템의 인델(indel) 효율(%)을 측정한 결과를 도시한다: 도 5a는 표적 서열 1(Target-1; 서열번호 358)에 대한 인델(indel) 효율(%)을 나타낸 그래프이다. 도 5b는 표적 서열 2(Target-2; 서열번호 359)에 대한 인델(indel) 효율(%)을 나타낸 그래프이다.
도 4a 내지 도 4d는 성숙형(mature form) sgRNA의 각 영역에서 MS3 내지 MS5 중 하나 이상의 변형을 더 가지는 엔지니어링된 gRNA 및 CWCas12f1를 포함하는 유전자 편집 시스템의 인델(indel) 효율(%)을 측정한 결과를 도시한다: 도 7a 및 도 7b는 각각 표적 서열 1(Target-1; 서열번호 358)에 대한 인델(indel) 효율(%)을 나타낸 그래프이다. 도 7c 및 도 7d는 각각 표적 서열 2(Target-2; 서열번호 359)에 대한 인델(indel) 효율(%)을 나타낸 그래프이다.
도 5a 및 도 5b는 3가지 버전의 가이드 RNA를 사용한 USH2A 유전자 편집 시스템의 인델 효율(%)을 측정한 결과를 도시한다: 도 5a는 USH2A 유전자의 표적 영역 중 F 영역을 표적으로 하는 가이드 서열을 포함하는 gRNA를 이용한 인델 효율을 나타낸 그래프이다. 도 5b는 USH2A 유전자의 표적 영역 중 R 영역을 표적으로 하는 가이드 서열을 포함하는 gRNA를 이용한 인델 효율을 나타낸 그래프이다.
도 6은 1차로 인델 효율이 확인된 F 영역을 표적으로 하는 가이드 RNA 및 R 영역을 표적으로 하는 가이드 RNA를 각각 포함하는 USH2A 유전자 편집 시스템의 인델 효율(%)을 확인한 결과를 도시한다.
도 7은 F 영역을 표적으로 하는 가이드 RNA 및 R 영역을 표적으로 하는 가이드 RNA의 특정 조합을 포함하는 USH2A 유전자 편집 시스템을 사용하여 USH2A 유전자의 엑손 13을 포함하는 영역의 결실을 확인한 결과를 도시한다.
도 8은 USH2A 유전자의 엑손 13 결실을 확인하기 위한 qPCR 분석에서 증폭된 서열의 위치 및 사용된 프라이머 서열 정보를 도시한다.
도 9는 HEK293T 세포에서 F 영역을 표적으로 하는 가이드 RNA 및 R 영역을 표적으로 하는 가이드 RNA를 포함하는 USH2A 유전자 편집 시스템을 사용하여 USH2A 유전자의 엑손 13을 포함한 영역의 결실 효율(%)을 확인한 결과를 도시한다(WT, 야생형 가이드 RNA; EDIT102, 양성 대조군).
도 10a 내지 도 10d는 가이드 서열의 길이에 따른 인델 효율(%)의 비교 결과를 각각 도시한다: 도 10a는 F16 가이드 서열의 길이에 따른 인델 효율을 나타낸 그래프이다. 도 10b는 FA12 가이드 서열의 길이에 따른 인델 효율을 나타낸 그래프이다. 도 10c는 R19 가이드 서열의 길이에 따른 인델 효율을 나타낸 그래프이다. 도 10d는 R40 가이드 서열의 길이에 따른 인델 효율을 나타낸 그래프이다.
도 11은 가이드 RNA의 3'-말단에 부가되는 U-rich tail의 형태에 따른 인델 효율(%)을 확인한 결과를 도시한다.
도 12a 및 도 12b는 USH2A 유전자 편집 시스템의 USH2A 유전자 엑손 13 제거 효율을 확인한 결과를 도시한다(WT, 야생형 가이드 RNA; EDIT102, 양성 대조군): 도 12a는 661W-USH2A 세포주, 도 12b는 ARPE19/HPV16-USH2A 세포주에서 USH2A 유전자 엑손 13 결실 효율(%)을 각각 도시한 그래프이다.
도 13은 USH2A 유전자 편집 시스템을 발현하는 아데노-연관 바이러스(AAV)를 마우스 꼬리 정맥에 주사한 후 간 조직을 적출하여 USH2A 유전자의 표적 부위의 인델 효율을 확인한 결과를 도시한다.
도 14a는 및 도 14b는 본 발명의 일 실시예에서 사용된 Cas12f1 ver4.0-GFP 벡터맵 및 Cas12f1 ver4.1-GFP 벡터맵을 각각 도시한다.
도 15는 661W-USH2A 세포주의 생산 모식도를 도시한다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 구현예에 관하여 특정 도면을 참조하여 기술될 것이지만, 본 발명은 이에 한정되지 않고, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 본 발명의 다양한 구현예/실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 기술적 사상과 범위를 벗어나지 않으면서 일 구현예/실시예에서 다른 구현예/실시예로 변경되거나 구현예/실시예들이 조합되어 구현될 수 있다. 본 명세서에 사용된 기술 및 학술 용어들은, 달리 정의되지 않는 한, 본 발명이 속하는 분야에서 일반적으로 사용되는 것과 같은 의미를 갖는다. 본 명세서를 해석할 목적으로 하기 정의들이 적용될 것이고, 단수로 사용된 용어는 적절한 경우에는 복수형을 포함할 것이며 그 반대도 마찬가지이다.
Ⅰ. 정의
본 명세서에서 사용된 용어 "핵산(nucleic acid)", "뉴클레오티드(nucleotide)", "뉴클레오시드(nucleoside)" 및 "염기(base)"는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미를 가진다. 구체적으로, "핵산"은 뉴클레오티드로 구성된 생체 분자를 의미하며, 폴리뉴클레오티드(polynucleotide)와 상호 교환적으로 사용될 수 있다. 핵산은 단일 가닥 또는 이중가닥의 DNA와 RNA를 모두 포함한다. "뉴클레오티드"는 인산, 오탄당 및 염기(또는 핵염기)로 이루어진 단위체이다. RNA(리보핵산)은 오탄당이 리보오스이며, DNA(디옥시리보핵산)은 오탄당이 디옥시리보오스이다. 뉴클레오티드는 핵염기로 아데닌(adenine; A), 구아닌(guanine; G), 사이토신(cytosine; C), 티민(thymine; T) 및 유라실(uracil; U) 중 선택된 하나를 가진다. 아데닌, 구아닌 및 사이토신은 RNA와 DNA에 공통적으로 존재하고, 티민은 DNA에만 존재하며, 유라실은 RNA에만 존재한다. 또한, 뉴클레오티드를 구성하는 오탄당과 핵 염기는 "뉴클레오시드(nucleoside)"로 지칭될 수 있다. 뉴클레오시드는 핵 염기의 종류에 따라 아데노신(adenosine; A), 티미딘(thymidine; T), 사이티딘(cytidine; C), 구아노신(guanosine; G) 및 유리딘(uridine; U)으로 분류된다. 염기, 뉴클레오시드 및 뉴클레오티드의 약어는 동일할 수 있으며, 문맥에 따라 적절히 해석될 수 있다. 예를 들어, 5'-UUUUU-3' 서열은 연속된 5개의 염기(유라실) 서열, 연속된 5개의 뉴클레오시드(유리딘) 서열 및/또는 연속된 5개의 뉴클레오티드(유리딘 일인산) 서열일 수 있다. 또한, 핵산, RNA 및 DNA를 기술함에 있어, 이들을 구성하는 뉴클레오티드는 뉴클레오시드의 종류에 따라 유리딘, 아데노신, 티미딘, 사이티딘 및 구아노신으로 약칭하여 기재할 수 있다. 상기 약칭은 문맥에 따라 적절히 해석될 수 있다. 예를 들어, 연속된 4개의 유리딘 서열을 포함하는 RNA는 연속된 4개의 유리딘 일인산 뉴클레오티드를 포함하는 RNA로 해석될 수 있다. 이외에도, 본 명세서에서 사용되는 용어 핵산, 뉴클레오티드, 뉴클레오시드 및 염기는, 예컨대 이들의 안전성 또는 면역원성 등의 개선을 위해 관련 기술 분야에 공지된 변형된 핵산, 뉴클레오티드, 뉴클레오시드 및 염기를 포함할 수 있다.
용어 "A, T, C, G 및 U"는 문맥 및 기술에 따라 DNA 또는 RNA 상에서 염기(base), 뉴클레오시드(nucleoside) 또는 뉴클레오티드(nucleotide)로 적절히 해석될 수 있다. 예를 들어, A, T, C, G 및 U가 염기를 의미하는 경우는 각각 아데닌, 구아닌, 시토신, 티민 및 유라실 중 선택된 하나로 해석될 수 있다. A, T, C, G 및 U가 뉴클레오시드를 의미하는 경우는 각각 아데노신, 티미딘, 사이티딘, 구아노신 또는 유리딘으로 해석될 수 있으며, 서열에서 뉴클레오티드를 의미하는 경우는 상기 각각의 뉴클레오시드를 포함하는 뉴클레오티드를 의미하는 것으로 해석되어야 한다.
용어 "표적 핵산(target nucleic acid)" 또는 "표적 유전자(target gene)"는 유전자 편집 시스템(예를 들어, CRISPR/Cas12f1 시스템)에 의한 유전자 편집(예를 들어, 이중가닥 절단 또는 유전자의 특정 세그먼트의 결실)의 대상 또는 표적화 대상이 되는 핵산 또는 유전자를 의미한다. 이들 용어는 상호 교환적으로 사용될 수 있고, 서로 동일한 대상을 지칭할 수 있다. 표적 유전자는 달리 정의되지 않는 한 대상 세포(예컨대, 원핵세포, 진핵세포, 동물세포, 포유류 세포 또는 식물 세포)가 가진 고유한 유전자 또는 핵산 혹은 외부 유래의 유전자 또는 핵산, 또는 인위적으로 합성된 핵산 또는 유전자일 수 있고, 단일가닥 또는 이중가닥의 DNA 또는 RNA를 의미할 수 있다. 표적 유전자 또는 표적 핵산은 유전 질환에 관여하는 변이 유전자일 수 있다. 일 예로, 표적 유전자 또는 표적 핵산은 인간 USH2A(Usherin) 유전자일 수 있다. 다른 예로, 표적 유전자 또는 표적 핵산은 변이된 인간 USH2A(Usherin) 유전자일 수 있다.
용어 "표적 영역(target region)"은 가이드 RNA가 결합하고 절단하도록 설계된 표적 유전자의 영역을 의미한다. 표적 영역은 표적 서열을 포함할 수 있다. 또한, 이중가닥 핵산에서 표적 영역은 표적 서열(표적 가닥에 포함됨) 및 그에 상보적인 서열(비-표적 가닥에 포함됨)을 포함하는 영역을 지칭할 수 있다. 일 예로, 표적 영역은 인간 USH2A(Usherin) 유전자에서 엑손 13의 5000bp 업스트림 영역 또는 14500bp 다운스트림 영역일 수 있다.
용어 "표적 서열(target sequence)"은 표적 핵산 또는 표적 유전자에 존재하는 서열로서, 가이드 RNA에 의해 인식되는 서열 또는 CRISPR/Cas12f1 시스템 또는 본 발명의 유전자 편집 시스템에 의해 인식되거나 변형의 대상이 될 수 있는 서열을 의미한다. 구체적으로, 표적 서열은 가이드 RNA에 포함된 가이드 서열에 상보적인 서열 또는 가이드 서열에 상보적으로 결합하는 서열을 의미한다. 본 명세서에서, 표적 서열을 포함하는 가닥은 "표적 가닥(target strand)"으로 지칭된다. 표적 핵산 또는 표적 유전자가 단일 가닥인 경우, 해당 가닥은 표적 가닥일 수 있다. 표적 핵산 또는 표적 유전자가 이중가닥일 경우, 그 이중가닥 중 하나는 표적 가닥일 수 있으며, 표적 가닥에 상보적인 가닥이 존재할 수 있다. 표적 가닥에 상보적인 가닥은 "비-표적 가닥(non-target strand)"으로 지칭된다. "비-표적 가닥"은 PAM(Protospacer Adjacent Motif) 서열 및 프로토스페이서(protospacer) 서열을 포함한다. PAM 서열은 CRISPR/Cas12f1 시스템 또는 USH2A 유전자 편집 시스템의 Cas12f1 또는 이의 변이체 단백질이 인식하는 서열이다. 프로토스페이서 서열은 PAM 서열의 5'-말단 또는 3'-말단에 위치하는 서열로, 상기 프로토스페이서 서열은 표적 서열에 상보성을 가지는 서열 또는 표적 서열과 상보적인 결합을 하는 서열이다. 프로토스페이서 서열과 표적 서열 간의 관계는 표적 서열과 가이드 서열 간의 관계와 유사하다. 이러한 특징에 의해, 가이드 서열은 통상 프로토스페이서 서열을 이용하여 설계할 수 있다. 즉, 표적 서열에 상보적으로 결합하는 가이드 서열은 프로토스페이서 서열과 동일한 염기서열을 가지는 뉴클레오티드 서열로 설계할 수 있으며, 프로토스페이서 서열 중 T는 U로 대체하여 가이드 서열을 설계한다.
용어 "유전자(의) 편집 시스템", "핵산 편집 시스템", 또는 "크리스퍼/카스(CRISPR/Cas) 시스템"은 유전자 편집 단백질 또는 엔도뉴클레아제(endonuclease) 등의 핵산 분해효소 및 상기 핵산 분해효소에 대응하는 핵산 표적화 분자가 포함된 복합체 또는 시스템을 의미하는 것으로서, 표적 유전자 또는 표적 핵산에 결합 또는 상호작용하여 표적 유전자 또는 표적 핵산의 표적 부위를 절단, 편집, 수선 및/또는 복구할 수 있는 시스템을 의미한다. 여기서 핵산 표적화 분자는 가이드 RNA(gRNA)로 대표될 수 있으나 이에 제한되는 것은 아니다. 한편, 유전자 편집 시스템은 표적 유전자의 편집이 가능한 모든 형태로 존재할 수 있으며, 예를 들어, 핵산 분해효소와 핵산 표적화 분자를 포함하는 복합체를 포함하는 조성물 형태일 수 있다. 또는, 상기 유전자 편집 시스템은 핵산 분해효소와 핵산 표적화 분자가 각각 별개의 조성물에 포함된 키트 형태일 수 있다. 또는, 상기 유전자 편집 시스템은 핵산 분해효소를 암호화하는 핵산 및 핵산 표적화 분자를 암호화하는 핵산을 포함하는 하나 이상의 벡터를 포함하는 벡터 시스템 또는 조성물일 수 있다.
용어 "엔도뉴클레아제(endonuclease)"는 "유전자 편집 단백질", "핵산 편집 단백질", "핵산 분해 단백질" 또는 "핵산 절단 단백질"과 상호 교환적으로 사용될 수 있으며, 이들 엔도뉴클레아제 또는 단백질로 지칭되는 분자는 핵산 또는 폴리뉴클레오티드(예를 들어, 이중가닥 DNA, 단일가닥 DNA, RNA, DNA와 RNA의 혼성 이중가닥 또는 합성 DNA 등) 사슬 내 영역을 촉매화(예를 들어, 절단)할 수 있는 단백질 또는 폴리펩티드를 의미한다. 일부 구현예에서, 상기 분자는 표적으로 하는 핵산인 DNA 또는 RNA, 또는 표적 유전자 내에 존재하는 프로토스페이서 인접 모티프(protospacer adjacent motif, PAM)를 인식한 후, 표적 핵산 서열의 내부 또는 외부 염기서열에서 DNA 이중가닥 절단(double-strand breaks, DSBs)을 유도할 수 있는 (엔도)뉴클레아제[(endo)nuclease]를 의미할 수 있다. (엔도)뉴클레아제는 폴리뉴클레오티드를 대칭적으로 절단하여 평활 말단(blunt end)를 남기거나 직접 마주보는 위치가 아닌 위치에서 절단하여 접착 말단(sticky end)이라고 지칭되는 돌출부를 생성할 수 있다. 또한, 상기 엔도뉴클레아제, 유전자 편집 단백질 등은 유전자 편집 시스템 또는 유전자 편집을 위한 핵산 구조물(construct)을 구성하는 효과기(effector) 단백질로도 지칭된다. 여기서 효과기 단백질은 가이드 RNA(gRNA) 또는 엔지니어링된 gRNA에 결합할 수 있는 핵산 분해 단백질이거나 표적 핵산 또는 표적 유전자에 결합할 수 있는 펩티드 단편일 수 있다.
용어 "단백질", "폴리펩티드" 및 "펩티드"는 상호 교환적으로 사용될 수 있으며, 유전적으로 암호화된 그리고 비유전적으로 암호화된 아미노산, 화학적 또는 생화학적으로 변형되거나 또는 유도체화된 아미노산, 및 변형된 펩티드 골격을 갖는 폴리펩티드를 포함할 수 있는 임의의 길이를 갖는 아미노산 중합체 형태를 지칭한다. 상기 용어는 N-말단의 메티오닌 잔기가 있거나 없는, 이종성 아미노산 서열과의 융합 단백질, 이종성 및 상동성 리더 서열과의 융합; 면역학적으로 태그된 단백질 등을 포함하지만, 이들로 제한되지 않는 융합 단백질을 모두 포괄한다.
용어 "아미노산"은 유기체의 체내에서 유전자의 전사 및 번역 과정을 통해 합성되는 20 종의 아미노산을 통틀어 의미한다. 구체적으로, 상기 아미노산은 알라닌(Alanine; Ala, A), 아르기닌(Arginine; Arg, R), 아스파라긴(Asparagine; Asn, N), 아스파르트산(Aspartic acid; Asp, D), 시스테인(Cysteine; Cys, C), 글루탐산(Glutamic acid; Glu, E), 글루타민(Glutamine; Gln, Q), 글리신(Glycine; Gly, G), 히스티딘(Histidine; His, H), 이소류신(Isoleucine; Ile, I), 류신(Leucine; Leu, L), 리신(Lysine; Lys K), 메티오닌(Methionine; Met, M), 페닐알라닌(Phenylalanine; Phe, F), 프롤린(Proline; Pro, P), 세린(Serine; Ser, S), 트레오닌(Threonine; Thr, T), 트립토판(Tryptophan; Trp, W), 티로신(Tyrosine; Tyr, Y), 및 발린(Valine; Val, V)을 포함한다. 상기 아미노산 각각은 모두 대응하는 DNA 코돈이 존재하며, 일반적인 아미노산 일문자 또는 세문자 표기법으로 나타낼 수 있다. 상기 아미노산이라는 용어는 일반적으로 자연적으로 발생하는 표준 아미노산을 지칭하나, 상기 용어가 지칭하는 대상은 문맥에 따라 적절하게 해석되어야 하며, 비-자연 발생적 아미노산, 인공 아미노산, 변형된 아미노산 등이 포함될 수 있으며, 그 외 통상의 기술자가 인식할 수 있는 의미를 모두 포함한다.
용어 "가이드 RNA(gRNA)"는 엔도뉴클레아제, 유전자 편집 단백질 또는 핵산 분해 단백질 등으로 지칭되는 분자와 복합체를 형성할 수 있고, 표적 핵산 서열과 상호작용(예컨대, 혼성화, 상보적 결합 또는 수소 결합 등)할 수 있으며, 표적 핵산 서열에 대한 복합체의 서열-특이적 결합(sequence-specific binding)을 야기하기에 충분한 정도로 표적 핵산 서열과 상보성을 갖는 가이드(guide) 서열을 포함하는 RNA를 의미한다. 본 명세서에서 가이드 RNA 또는 가이드 분자는 상호 교환적으로 사용될 수 있다.
용어 "tracrRNA(trans-activating crRNA)" 및 "crRNA(CRISPR RNA)"는 유전자 편집 기술 분야에서 통상의 기술자가 인식할 수 있는 의미를 모두 포함한다. 이는 자연계에서 발견되는 듀얼 가이드 RNA(dual guide RNA)의 각 분자를 지칭하는 용어로 사용될 수 있고, 상기 tracrRNA 및 crRNA를 링커로 연결한 싱글 가이드 RNA(single guide RNA, sgRNA)의 각 해당 부분을 지칭하는데도 사용될 수 있다. 달리 서술하지 않는 한, tracrRNA 및 crRNA라고만 기재하는 경우 유전자 편집 시스템 등에서 가이드 RNA를 구성하는 tracrRNA 및 crRNA를 의미한다.
용어 "스캐폴드(Scaffold) 영역"은 가이드 RNA(gRNA) 중 엔도뉴클레아제, 상동지정복구용 단백질, 유전자 편집 단백질 또는 핵산 분해 단백질 등으로 지칭되는 분자와 상호작용할 수 있는 부분을 통틀어 지칭하며, 자연계에서 발견되는 가이드 RNA의 부분 중 스페이서(spacer)를 제외한 나머지 부분을 지칭하는데 사용될 수 있다.
용어 "스템(stem)"은 이중가닥을 형성할 수 있는 뉴클레오티드 영역을 포함하는 2차 구조를 갖는 핵산 영역을 의미한다. 이중가닥이 주로 단일가닥 뉴클레오티드(루프)에 의해 연결된 형태는 "스템-루프"로 지칭될 수 있다. 상기 용어 "스템" 또는 "스템-루프"는 상호 교환적으로 사용될 수 있으며, 문맥에 따라 적절히 해석되어야 한다.
용어 "가이드 서열(guide sequence)", "스페이서(space)" 또는 "스페이서 서열(spacer sequence)"은 상호 교환적으로 사용될 수 있으며, CRISPR/Cas 시스템에서 표적 서열 부분과 상호작용(예를 들어, 혼성화, 상보적 결합 또는 수소 결합 등)할 수 있는 폴리뉴클레오티드를 의미한다. 예컨대, 가이드 서열 또는 스페이서 서열은 유전자 편집 시스템에서 가이드 RNA를 구성하는 crRNA의 3'-말단부 또는 3'-말단 부근에 직접 또는 링커 등을 통해 간접적으로 연결된 10개 내지 50개의 연속된 뉴클레오티드를 지칭한다.
용어 "엔지니어링된(engineered)"은 "비-자연 발생적(non-naturally occurring)", "인공적(artificial)" 또는 "조작된(modified)"과 상호 교환적으로 사용될 수 있으며, 자연에서 발견되는 그대로의 형태, 상태 등이 아님을 의미한다. 본 용어가 엔도뉴클레아제, 유전자 편집 단백질, 핵산 분해 단백질, Cas12f1(CWCas12f1, Un1Cas12f1 등) 단백질 등에 대해 사용된 경우, 상기 엔도뉴클레아제 또는 단백질은 자연에서 발견되거나 자연 발생적인 적어도 하나의 성분을 실질적으로 함유하지 않거나 비-자연 발생적인 적어도 하나의 성분을 실질적으로 함유함을 의미한다. 예를 들어, "엔지니어링된 엔도뉴클레아제"는 자연계에 존재하는 뉴클레아제의 구성(예를 들어, 아미노산 서열)에 인위적인 변형이 가해진 것을 의미하며, 본 명세서 내에서 "변이체(variant)" 또는 "(돌연)변이체(mutant)"로도 지칭될 수 있다. 용어 "변이체"는 천연에서 발생하는 것에서 벗어난 패턴을 갖는 특성의 표현을 의미하는 것으로 이해해야 한다. 예컨대, Cas12f1 또는 이의 변이체 단백질이라고 기재할 때, 상기 변이체 단백질은 (야생형) Cas12f1의 변이체를 의미할 수 있다. 본 용어가 가이드 RNA, 가이드 폴리뉴클레오티드 또는 핵산 분자에 대해 사용된 경우, 가이드 RNA, 가이드 폴리뉴클레오티드 또는 핵산 분자는 자연에서 발견되거나 자연 발생적인 적어도 하나의 성분을 실질적으로 함유하지 않거나, 또는 자연에서 발견되지 않거나 비-자연 발생적인 적어도 하나의 성분을 실질적으로 함유함을 의미한다. 예를 들어, "엔지니어링된 가이드 RNA(engineered guide RNA)"는 자연계에 존재하는 가이드 RNA(gRNA)의 구성(예를 들어, 서열)에 인위적인 변형이 가해진 gRNA를 의미하며, 본 명세서 내에서 "augmented RNA"로도 지칭될 수 있다.
용어 "야생형(wild-type)"은 통상의 기술자에 의해 이해되는 해당 분야의 용어이며, 그것이 돌연변이체 또는 변이체 형태로부터 구별되는 정도로 천연에서 발생하는 것과 같은 전형적인 형태의 유기체, 균주, 유전자 또는 특징을 의미한다. 용어 "변이체(variant)" 또는 "(돌연)변이체(mutant)"는 천연에서 발생하는 것에서 벗어난 패턴을 갖는 특성의 표현을 의미하는 것으로 이해해야 한다. 예컨대, Cas12f1 변이체 (단백질)로 지칭될 때, 상기 변이체 단백질은 야생형 Cas12f1에 대한 변이체를 의미할 수 있다.
용어 "벡터(vector)"는 달리 특정되지 않는 한, 유전 물질을 세포 내로 운반할 수 있는 모든 물질을 통틀어 일컫는다. 예를 들어, 벡터는 전달 대상이 되는 유전 물질인 유전자 편집 시스템의 엔도뉴클레아제(endonuclease) 또는 효과기(effector) 단백질을 암호화하는 핵산 및/또는 가이드 RNA(gRNA)를 암호화하는 핵산을 포함하는 DNA 분자일 수 있으나, 이에 제한되는 것은 아니다. 또한, 본 발명에서 "벡터"는 삽입된 유전자가 정상적으로 발현되도록 작동가능하게 연결된 필수적인 조절 요소를 포함하는 "발현 벡터" 일 수 있다.
용어 "작동가능하게 연결된(operably linked)"은 유전자 발현 기술에 있어서, 특정 구성이 다른 구성과 연결되어, 상기 특정 구성이 의도된 방식대로 기능할 수 있도록 연결되어 있는 것을 의미한다. 예를 들어, 프로모터 서열이 A 단백질을 암호화하는 서열과 작동가능하게 연결되어 있을 때, 이는 상기 프로모터가 세포 내에서 A 단백질을 암호화하는 서열을 전사 및/또는 발현하도록 A 단백질을 암호화하는 서열에 연결된 것을 의미한다. 또한, 상기 용어는 관련 기술 분야에서 통상의 기술자에 의해 일반적으로 인식되는 다른 의미를 모두 포함하며, 문맥에 따라 적절히 해석될 수 있다.
용어 "뉴클레오티드" 및 "핵산"은 상호 교환적으로 사용될 수 있고, 리보뉴클레오티드 또는 디옥시뉴클레오티드 중 하나의 임의의 길이 뉴클레오티드의 중합체 형태를 지칭한다. 따라서 이 용어는 단일-, 이중-, 또는 다중-가닥 DNA 또는 RNA, 게놈 DNA, cDNA, DNA-RNA 혼성체, 또는 퓨린 및 피리미딘 염기 또는 다른 천연, 화학적 또는 생화학적으로 변형된, 비천연 또는 유도체화된 뉴클레오티드 염기를 포함하는 중합체를 포함하지만, 이들로 제한되지 않는다. 용어 "폴리뉴클레오티드" 및 "핵산"은 본 명세서에 기재되는 구현예에 적용 가능한, 단일-가닥(예컨대 센스 또는 안티센스) 및 이중-가닥 폴리뉴클레오티드를 포함하는 것으로 이해되어야 한다.
용어 "핵산 구조물(nucleic acid construct)"은 엔도뉴클레아제, 핵산 편집 단백질 또는 핵산 분해 단백질 등을 암호화하는 뉴클레오티드 서열 및/또는 가이드 RNA를 암호화하는 뉴클레오티드 서열을 구성요소로 포함하는 구조물로서, 필요에 따라 다양한 종류의 (폴리)펩티드 또는 링커를 암호화하는 뉴클레오티드 서열을 추가로 포함할 수 있다. 상기 핵산 구조물은 본 발명의 상동지정복구를 위한 CRISPR/Cas 시스템, 벡터 시스템, 또는 초소형 유전자편집 시스템(Hypercompact TaRGET system)을 이루는 구성요소로 사용될 수 있다.
용어 "NLS(nuclear localization signal)"는 예를 들어 핵 수송(nuclear transport) 작용에 의해 세포 핵 외부의 물질을 핵 내부로 도입하는 것을 촉진하는 신호 펩타이드 또는 아미노산 서열을 의미한다. 용어 "NES(nuclear export signal)"은 예를 들어 핵 수송 작용에 의해 세포 핵 내부의 물질을 핵 외부로 수송하는 것을 촉진하는 신호 펩타이드 또는 아미노산 서열을 의미한다. 용어 NLS 또는 NES는 관련 기술분야에 공지되어 있으며 통상의 기술자에 의해 명확하게 이해될 수 있다.
용어 "대상"은 "개체" 또는 "환자"와 상호 교환적으로 사용될 수 있고, 어셔 증후군의 예방 또는 치료를 필요로 하는 포유동물, 예를 들어, 영장류(예: 인간), 반려 동물(예: 개, 고양이 등), 가축 동물(예: 소, 돼지, 말, 양, 염소 등) 및 실험실 동물(예: 랫트, 마우스, 기니피그 등)일 수 있다. 본 발명의 일 구현예에서, 상기 대상은 인간이다.
용어 "치료"는 일반적으로 목적하는 약리학적 효과 및/또는 생리학적 효과를 수득하는 것을 의미한다. 이러한 효과는 질병 및/또는 이러한 질병으로 인한 부작용을 부분적으로 또는 완전히 치유하는 점에서 치료적 효과를 가진다. 바람직한 치료적 효과는 질환의 발생 또는 재발 방지, 증상의 호전, 질환의 임의의 직접 또는 간접적인 병리학적 결과의 축소, 전이의 방지, 질환 진행 속도의 감소, 질환 상태의 호전 또는 완화, 및 차도 또는 개선된 예후를 포함하지만 이에 제한되지 않는다. 바람직하게는 "치료"는 이미 나타난 질환 또는 장애의 의료적 개입을 의미할 수 있다. 보다 바람직하게, "치료"는 USH2A 유전자에서 엑손 13을 포함하는 세그먼트의 결실 또는 이에 의한 USH2A 유전자의 리딩 프레임의 복구일 수 있다.
용어 "약"은 참조 양, 수준, 값, 수, 빈도, 퍼센트, 치수, 크기, 양, 중량 또는 길이에 대해 30, 25, 20, 15, 10, 9, 8, 7, 6, 5, 4, 3, 2 또는 1% 정도로 변하는 양, 수준, 값, 수, 빈도, 퍼센트, 치수, 크기, 양, 중량 또는 길이를 의미한다. 예를 들어, 용어 "약"은 숫자 또는 수치로 표현된 값 x와 관련하여 사용될 때 x ± 10%를 의미할 수 있다.
본 발명에서 사용되는 모든 기술용어는, 달리 정의되지 않는 이상 이 기술 분야의 통상의 기술자가 인식할 수 있는 의미를 모두 포함하고, 일반적으로 이해하는 바와 같은 의미로 사용되며, 문맥에 따라 적절히 해석될 수 있다. 또한, 본 명세서에는 바람직한 방법이나 시료가 기재되나, 이와 유사하거나 동등한 것들도 본 발명의 범주에 포함된다.
Ⅱ. 어셔 증후군(Usher syndrome) 및 이의 치료 전략
제2형(보다 구체적으로, 제2A형) 어셔 증후군을 야기하는 가장 흔한 USH2A 유전자의 돌연변이는 USH2A 유전자의 엑손 13에 발생하는 c.2276G>T, c.2299delG 돌연변이이다. 상기 c.2276G>T 돌연변이는 USH2A 유전자의 엑손 13에 위치한 2276번째 염기인 구아닌이 티민으로 점 돌연변이 된 것이며, 상기 c.2299delG 돌연변이는 USH2A 유전자의 엑손 13에 위치한 2299번째 염기인 구아닌이 결실된 것을 의미하며, 이로 인해 변형된 mRNA가 발현되어 어셔 증후군의 증상을 야기한다. 이러한 증상을 완화시키기 위한 치료 전략으로 상기 돌연변이를 포함하는 USH2A 유전자의 엑손 13을 인위적으로 결실시키는 방법은 동물실험을 통해 그 유효성이 입증되었다. 이와 같이 검증된 치료 전략을 보다 지속적이고 효율적으로 구현하기 위해 다양한 기술이 접목된 치료제가 개발되고 있으며, 유전자 가위로 일컬어지는 CRISPR/Cas 시스템을 이용한 치료제가 특히 주목받고 있다. 본 발명자들은 특히 USH2A 유전자좌(locus)에 높은 특이성을 나타내는 2개의 가이드 RNA를 이용하여 c.2276G>T 및/또는 c.2299delG 돌연변이를 포함하는 엑손 13을 고효율로 결실시키는 유전자 편집 기술을 개발하였다.
한편, 본 발명자들은 앞선 연구를 통해 새로운 CRISPR/Cas 시스템인 CRISPR/Cas12f1 시스템의 효율을 증가시켜 이를 TaRGET(Tiny nuclease augmented RNA-based Genome Editing Technology) 시스템으로 명명하였다. CRISPR/Cas12f1 시스템은 선행연구[문헌 (Harrington et al., Science, 362, 839-842, 2018) 참조]에서 최초로 보고된 새로운 CRISPR/Cas 시스템으로, 현저히 작은 크기의 이펙터 단백질을 가진다는 장점에도 불구하고 이중가닥 DNA 절단 활성이 없거나 극히 낮아 유전자 편집 기술에 응용하는 데 한계가 있다고 보고되었다. 이러한 한계를 극복하기 위해 본 발명자들은 이중가닥 DNA(double strand DNA; dsDNA)에 대한 절단 활성을 높이는 엔지니어링된 가이드 RNA를 연구 개발하고 완성하여 유전자 편집에 활용할 수 있도록 하였다(한국특허 출원번호 제10-2021-0051552호, 제10-2021-0050093호 및 제10-2021-0044152호, 및 국제출원번호 제PCT/KR2021/013898호, 제PCT/KR2021/013923호 및 제PCT/KR2021/013933호 참조). 상기 TaRGET 시스템은 CRISPR/Cas9 시스템에 비하여 Cas 단백질의 크기가 현저히 작아 기존에 연구된 대부분의 Cas 단백질의 크기로 인한 아데노-연관 바이러스(AAV)에 탑재의 어려움 및 이로 인한 유전자 치료제로서 적용 어려움을 해결 가능하게 한다. 또한, 상기 TaRGET 시스템은 프로토스페이서 서열의 바깥 또는 외부에서 dsDNA 절단을 유도하는 특징을 가진다. 이러한 특징은 비상동말단연결(NHEJ) 매개 인델 돌연변이의 첫 번째 시도 이후에도 프로토스페이서 서열이 크게 변형될 때까지 추가적인 시도를 통해 dsDNA 절단-NHEJ 사이클이 반복적으로 실행될 수 있음을 의미한다. 이러한 여러 번의 절단 및 수복 프로세스는 확실한 표적 서열(및 프로토스페이서 서열) 절단을 위한 더 많은 기회를 제공할 수 있으며, 이러한 특징을 가진 TaRGET 시스템은 유전자 치료 영역에서 우수한 임상적 유용성을 가진다고 할 수 있다.
앞선 어셔 증후군을 치료하기 위한 전략을 기초로 하여, 본 발명자들은 어셔 증후군 치료에 새로운 TaRGET 시스템을 도입하였다. TaRGET 시스템의 도입은 기존 CRISPR/Cas9 시스템보다 AAV 내 탑재의 용이성 및 여러 번의 절단과 수복 프로세스에 따른 확실한 유전자 편집 등의 장점을 가진다. 이에, 본 발명자들은 상기와 같은 장점을 가진 TaRGET 시스템을 이용한 어셔 증후군 치료제 및 치료 방법을 개발하였다.
이하에서, TaRGET 시스템(편의를 위해, 이하에서는 CRISPR/Cas12f1 시스템 또는 USH2A 유전자 편집 시스템이라 칭함)을 적용하여 구현된 여서 증후군의 치료를 위한 USH2A 유전자 편집 시스템 및 조성물, 벡터 시스템, 가이드 RNA, 및 이를 이용한 어셔 증후군 치료 방법에 대해 상세히 설명한다.
Ⅲ. USH2A 유전자 편집을 위한 CRISPR/Cas 시스템
본 명세서에 의해 개시되는 본 발명 일 태양은 USH2A 유전자(예컨대, 인간 USH2A 유전자)의 편집 또는 어셔 증후군의 치료를 위한 CRISPR/Cas12f1 시스템에 관한 것이다. 어셔 증후군은 상술한 바와 같이 USH2A 유전자의 엑손 13에 발생하는 c.2276G>T, c.2299delG 돌연변이로 인해 야기되는 질환이다. 이의 치료를 위해서는 질환의 원인인 상기 돌연변이를 포함하는 엑손 13의 결실(deletion)을 유도함으로써 정상 기능을 하는 USH2A 단백질이 발현되도록 하는 전략이 유효하다.
상기 CRISPR/Cas12f1 시스템은 USH2A 유전자의 엑손 13을 제거하기 위해 이용되며, USH2A 유전자 편집 시스템으로도 지칭된다. 상기 CRISPR/Cas12f1 시스템 또는 USH2A 유전자 편집 시스템은 여러 번의 절단과 수복 프로세스에 따른 확실한 유전자 편집을 통해 원인이 되는 USH2A 유전자의 엑손 13을 더욱 효과적으로 제거할 수 있으므로 치료 효과를 증가시킬 수 있다. 또한, 상기 CRISPR/Cas12f1 시스템 또는 USH2A 유전자 편집 시스템은 기존 CRISPR/Cas9 시스템에 비해 크기가 현저히 작으므로 AAV 등과 같이 패키징 사이즈에 제한이 있는 전달체를 이용하는 경우에도 추가적인 공간(용량) 확보가 가능하여 치료제로서의 적용에 더욱 유리하다.
본 발명에 따른 CRISPR/Cas12f1 시스템 또는 USH2A 유전자 편집 시스템은 (i) 1종 이상의 Cas12f1 분자(예컨대, Cas12f1 또는 이의 변이체 단백질)를 포함하는 엔도뉴클레아제 또는 상기 엔도뉴클라아제를 암호화하는 핵산; 및 (ii) 1종 이상(예컨대, 2종)의 가이드 RNA 또는 가이드 분자, 또는 이들을 암호화하는 핵산을 포함한다.
보다 구체적으로, 본 개시에서 Cas12f1 분자(예컨대, Cas12f1 또는 이의 변이체 단백질)를 포함하는 엔도뉴클레아제 또는 상기 엔도뉴클레아제를 암호화하는 핵산; USH2A 유전자 내의 표적 서열과 혼성화할 수 있는 2종 이상의 가이드 서열을 포함하는 가이드 RNA로서, (i) USH2A 엑손 13의 업스트림(upstream) 영역에 존재하고 Cas12f1분자가 인식하는 PAM(protospacer-adjacent motif) 서열과 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화 가능한 제1 가이드 서열을 포함하는 제1 가이드 RNA, 또는 상기 제1 가이드 RNA를 암호화하는 핵산; 및 (ii) USH2A 엑손 13의 다운스트림(downstream) 영역에 존재하고 Cas12f1 분자가 인식하는 PAM(protospacer-adjacent motif) 서열과 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화 가능한 제2 가이드 서열을 포함하는 제2 가이드 RNA, 또는 상기 제2 가이드 RNA를 암호화하는 핵산을 포함하는 USH2A 유전자의 편집 시스템이 제공된다.
상기 CRISPR/Cas12f1 시스템 또는 USH2A 유전자 편집 시스템은 USH2A 유전자의 표적 위치 근처(예컨대, 엑손 13의 업스트림 영역, 다운스트림 영역 또는 상기 두 영역 모두)에서 하나 이상의 절단(예컨대, 단일가닥 절단 또는 이중가닥 절단)을 생성할 수 있다. 하나 이상의 절단은 표적 서열의 바깥 부분 또는 3'-말단 안쪽(예컨대 1 내지 5bp 안쪽)을 절단하는 것일 수 있다.
상기 2종 이상의 가이드 RNA는 USH2A 유전자 내의 엑손 13의 업스트림 영역 및 다운스트림 영역을 각각 표적으로 할 수 있다. 또는, 상기 2종 이상의 가이드 RNA는 USH2A 유전자 내의 인트론 12 및 인트론 13 영역을 각각 표적으로 할 수 있다. 여기서, 상기 인트론 12과 인트론 13 영역 사이에 위치하는 엑손 13은 c.2276G>T, c.2299delG 돌연변이를 포함한다.
일 구현예에 따르면, USH2A 유전자 편집 시스템은 USH2A 유전자에서 각기 다른 표적 서열을 인식 및/또는 표적화하는 2종 이상의 가이드 RNA를 포함할 있다. 여기서, 상기 각기 다른 표적 서열은 서열의 일부가 서로 중첩될 수 있다.
다른 구현예에 따르면, 가이드 RNA는 USH2A 유전자에서 엑손 13의 인접 영역을 표적으로 하여 절단(예컨대, 단일가닥 절단 또는 이중가닥 절단)을 생성할 수 있다.
또 다른 구현예에 따르면, 2종의 가이드 RNA가 USH2A 유전자에서 엑손 13의 업스트림 영역 및 다운스트림 영역 각각을 표적화하여 하나 이상의 절단(예컨대, 2개 단일가닥 절단 또는 2개 이중가닥 절단)을 생성할 수 있다.
또 다른 구현예에 따르면, 2종 이상의 가이드 RNA가 사용되어 두 세트 이상의 절단(예컨대, 2개 이중가닥 절단, 1개 이중가닥 절단 및 1개 단일가단 절단; 또는 두 쌍의 단일가닥 절단)을 생성할 수 있다.
예컨대, 본 명세서에 개시된 시스템은 USH2A 유전자 엑손 13의 업스트림 영역 및 다운스트림 영역을 각각 표적화하는 2종의 가이드 RNA 분자가 Cas12f1 분자(예컨대, Cas12f1 또는 이의 변이체 단백질)를 포함하는 엔도뉴클레아제와 함께 상기 영역 내에 절단을 생성함으로써, 엑손 13을 포함하는 세그먼트(segment)의 결실을 유도할 수 있다.
또 다른 구현예에 따르면, USH2A 유전자 편집 시스템 또는 이에 포함되는 엔도뉴클레아제는 표적 서열에서 또는 표적 서열의 바깥에서 이중가닥 절단을 유도할 수 있다. 이론에 얽매임 없이, 표적 서열의 바깥에서 이중가닥 절단이 유도되는 경우 상기 절단이 수복된 후에도 표적 서열이 및 PAM 서열의 변형이 거의 일어나지 않으므로, 다시 USH2A 유전자 편집 시스템에 의해 인식 및 절단될 수 있다. 따라서, USH2A 유전자 편집 시스템은 여러 번의 절단 및 수복 프로세스를 통해 확실한 표적 서열(및 프로토스페이서 서열) 절단을 통한 고효율의 결실을 나타낼 수 있다.
또 다른 구현예에 따르면, 본 명세서에 개시된 시스템에서, Cas12f1 분자(예컨대, Cas12f1 또는 이의 변이체 단백질)를 포함하는 엔도뉴클레아제 및 가이드 RNA는 복합체(complex) 형태, 예를 들어, 리보뉴클레오단백질 입자(ribonucleoprotein particle, RNP) 형태로 포함될 수 있다. 상기 복합체는 가이드 RNA 및 두 개의 Cas12f1 또는 이의 변이체 단백질을 포함할 수 있다(문헌 [Satoru N. Takeda et al., Molecular Cell, 81, 1-13, (2021)] 참조). 상기 복합체는 가이드 RNA와 Cas12f1 분자 사이의 상호작용에 의해 형성될 수 있다.
이하, 본 개시에서 제공되는 유전자 편집 시스템(CRISPR/Cas12f1 시스템), 조성물 및 벡터 시스템의 각 구성요소 및 이의 제조 방법에 대해 상세히 설명한다.
1. Cas12f1 분자를 포함하는 엔도뉴클레아제
본 발명의 CRISPR/Cas12f1에 기반한 USH2A 유전자 편집 시스템은 Cas12f1 분자(예컨대, Cas12f1 또는 이의 변이체 단백질)를 이펙터로 하는 엔도뉴클레아제를 포함한다. Cas12f1 분자는 표적 핵산의 표적 부위를 절단함에 있어 우수한 활성을 나타내고, 기존의 CRISPR/Cas9 시스템에 비하여 이펙터 단백질의 크기가 1/3 정도로 현저히 작은 것을 특징으로 하는 (소형) 엔도뉴클레아제이다.
Cas12f1 단백질은 선행연구(문헌 [Harrington et al., Science, 362, 839-842, 2018] 참조)에서 Cas14로 명명된 이펙터 단백질 중 하나로, Cas14a1 단백질로도 불린다. 본 명세서에서, Cas12f1 분자로 지칭되는 단백질은 자연계에 존재하는 야생형(wild-type)의 Cas12f1 단백질을 의미할 수 있다. 또한, Cas12f1 분자는 야생형 Cas12f1 단백질의 변이체(variants)일 수 있다. 상기 변이체는 "Cas12f1 변이체(Cas12f1 variant)"로도 지칭될 수 있다. 상기 Cas12f1 변이체는 야생형 Cas12f1 단백질과 동일한 기능을 가지는 변이체, 기능의 일부 또는 전부가 변형된 변이체 및/또는 추가적인 기능이 부가된 변이체일 수 있다. Cas12f1 분자의 의미는 문맥에 따라 적절히 해석될 수 있고, 특별한 경우가 아닌 한 가장 넓은 의미로 해석된다.
이하, USH2A 유전자 편집 시스템에 포함되는 Cas12f1 분자(Cas12f1 및 이의 변이체 단백질 포함)에 대해 자세히 설명한다.
1.1. 야생형 Cas12f1 단백질
본 발명자들은 Candidatus Woesearchaeota archaeon 유래의 TnpB(Transposon-associated transposase B) 단백질이 Un1Cas12f1 단백질과 유사한 아미노산 서열을 가지며, 현재까지 가장 많은 연구가 진행된 Cas9 단백질을 포함하는 기존 핵산 분해 단백질들보다 분자량은 1/3 정도로 작고 표적 핵산 또는 표적 유전자에 대한 핵산 절단 효율이 월등히 높은 것을 확인하였다. 본 명세서에서, Un1Cas12f1 단백질과 유사한 아미노산 서열을 갖는 TnpB는 CWCas12f1로 지칭된다. CWCas12f1은 Un1Cas12f1과 함께 Cas12f1 단백질로 통칭될 수 있으며, Un1Cas12f1과의 관계에서는 Cas12f1의 변이체에 포함될 수 있다.
또한, 본 발명자들은 야생형 Cas12f1 가이드 RNA에 변형을 가하여 작은 크기를 갖도록 엔지니어링된 가이드 RNA가 CwCas12f1 또는 Un1Cas12f1과 같은 Cas12f1 단백질과 함께 우수한 핵산 절단 효율(예컨대, 이중가닥 절단)을 유도할 수 있음을 확인하였다. 상기 엔지니어링된 가이드 RNA와 관련하여, 2020년 10월 29일자로 출원된 국제출원 제PCT/KR2020/014961호, 2021년 10월 8일자로 출원된 국제출원 제PCT/KR2021/013933호, 제PCT/KR2021/013898호 및 제PCT/KR2021/013923호에 기재된 전체 내용이 본 명세서에 참조로서 명시적으로 통합된다.
본 명세서에 개시된 엔지니어링된 가이드 RNA 및 Cas12f1 분자(예컨대, CwCas12f1 또는 Un1Cas12f1과 같은 Cas12f1 또는 이의 변이체 단백질)을 포함하는 초소형의 유전자 편집 시스템은 용어 "CRISPR/Cas12f1 시스템" 또는 "TaRGET 시스템"으로 지칭될 수 있으며, 이들 용어는 상호 교환적으로 사용될 수 있다.
Cas12f1 분자는 두 개의 Cas12f1 단백질 분자가 이량체(dimer) 형태로 가이드 RNA와 결합하여 복합체를 이룰 수 있으며, Cas12f1 단백질의 도메인 전부 또는 일부가 Cas12f1 가이드 RNA의 스캐폴드 영역의 특정 부분을 인식하여 CRISPR/Cas12f1 복합체를 형성하는 것으로 보고되었다(문헌 [Takeda et al., Structure of the miniature type V-F CRISPR-Cas effector enzyme, Molecular Cell 81, 1-13, 2021] 및 문헌[Xiao et al., Structural basis for the dimerization-dependent CRISPR-Cas12f nuclease, bioRxiv, 2020] 참조). Cas12f1 분자(예컨대, Cas12f1 단백질 또는 이의 변이체)는 표적 핵산 또는 표적 유전자에서 이중가닥 또는 단일가닥 절단을 생성할 수 있다. 이러한 이중가닥 또는 단일가닥 절단에 의해 목적하는 유전자 세그먼트의 결실을 유도할 수 있다.
일 구현예에 따르면, Cas12f1 분자는 Cas14 패밀리(문헌 [Harrington et al., Science 362, 839-842, 2018] 및 문헌[미국 특허 공보 US 2020/0172886 A1] 참조)에서 유래한 것일 수 있다.
다른 구현예에서, Cas12f1 분자는 uncultured archaeon 유래의 Cas14a1 또는 Un1Cas12f1 단백질(문헌 [Harrington et al., Science 362, 839-842, 2018] 및 문헌[미국 특허 공보 US 2020/0172886 A1] 참조)일 수 있다. 일 예로서, 상기 Cas12f1 분자(예컨대, Cas14a1 또는 Un1Cas12f1 단백질)는 서열번호 364의 아미노산 서열을 포함하거나 이로 이루어진 것일 수 있다(표 9 참조).
또 다른 구현예에서, Cas12f1 분자는 Candidatus Woesearchaeota archaeon 유래의 TnpB(Transposon-associated transposase B) 단백질일 수 있다. TnpB 단백질은 종래에 전이효소(transposase)로 알려진 단백질이다. 현재까지 TnpB 단백질은 전이인자(transposon)를 암호화하는 핵산 분해 단백질(transposon-encoded nuclease)로만 알려져 있었고, TnpB 단백질이 Cas 엔도뉴클레아제(endonuclease) 활성을 가지는지에 대해서는 알려진 바가 없었다. 본 명세서에서, 상기 TnpB 단백질은 CWCas12f1 또는 Un1Cas12f1에 대한 변이체 등으로 지칭될 수 있으며, 다른 기재가 없는 한 Cas12f1로 지칭되는 단백질은 CWCas12f1을 포함한다.
또한, TnpB 단백질에 대한 가이드 RNA도 알려진 바 없다. 본 발명자들은 TnpB 단백질 서열 기반의 TnpB 변이체 또는 엔지니어링된 TnpB가 핵산 분해 단백질 중 분자량이 가장 작은 그룹에 속하는 Cas12f1 단백질과 그 크기가 유사하면서, 표적 핵산 또는 표적 유전자를 인식하여 표적 부위의 이중가닥 DNA를 절단하는 탁월한 엔도뉴클레아제 활성을 가지고 있음을 처음으로 확인하고, TnpB 또는 이의 변이체 단백질과 함께 사용되어 우수한 유전자 편집 활성을 나타내는 엔지니어링된 가이드 RNA를 제작하였다. 상기 "엔지니어링된 가이드 RNA"에 대한 사항은 하기 항목 "3. 엔지니어링된 가이드 RNA"에 개시된 내용 전체를 참조한다.
일 구현예에서, Cas12f1 분자는 CWCas12f1 단백질일 수 있다. 여기서, CWCas12f1 단백질은 서열번호 360의 아미노산 서열을 포함하거나 이로 이루어진 것일 수 있다(표 9 참조).
본 개시에서, 상기 Cas12f1 분자 또는 이를 포함하는 엔도뉴클레아제를 암호화하는 핵산이 제공된다. Cas12f1 분자 또는 이를 포함하는 엔도뉴클레아제를 암호화하는 핵산은 Cas12f1 분자 또는 이를 포함하는 엔도뉴클레아제를 도입하고자 하는 대상(예컨대, 인간)에서 발현될 수 있도록 코돈 최적화(codon optimization)된 것일 수 있다. 구체화된 예로서, Cas12f1 분자(CWCas12f1 또는 Un1Cas12f1)를 암호화하는 인간 코돈 최적화된 핵산 서열은 서열번호 365 또는 서열번호 369의 염기서열이 제공된다(실시예 1 참조).
1.2. Cas12f1 변이체 단백질
다른 측면에서, Cas12f1 분자(예컨대, Cas12f1 또는 이의 변이체) 또는 이를 포함하는 엔도뉴클레아제는 상기 서열번호 364의 아미노산 서열로 이루어진 Un1Cas12f1 또는 서열번호 360의 아미노산 서열로 이루어진 CWCas12f1 단백질의 아미노산 서열과 70% 이상의 서열 동일성을 갖는 아미노산 서열로 이루어지거나 상기 서열을 포함할 수 있다. 일 예시로서, 상기 Cas12f1 분자 또는 이를 포함하는 엔도뉴클레아제는 서열번호 360 또는 서열번호 364의 아미노산 서열과 적어도 70%, 적어도 72%, 적어도 74%, 적어도 76%, 적어도 78%, 적어도 80%, 적어도 82%, 적어도 84%, 적어도 86%, 적어도 88%, 적어도 88%, 적어도 90%, 적어도 91%, 적어도 92%, 적어도 93%, 적어도 94%, 적어도 95%, 적어도 96%, 적어도 97%, 적어도 98%, 또는 적어도 99%의 서열 동일성을 가지는 변형된 아미노산 서열을 포함하는 단백질이거나 이를 포함할 수 있다. 이와 같이 변형된 단백질은 본 명세서에서 "Cas12f1 변이체"로 지칭될 수 있다. 이하, 각 변이체에 대해 상세히 설명한다.
(1) Cas12f1 변이체(mutant)
본 발명의 일 측면에 따르면, Cas12f1 분자(예컨대, Cas12f1 또는 이의 변이체)는 Cas12f1 변이체 단백질일 수 있다. Cas12f1 변이체는 야생형 Cas12f1 단백질의 아미노산 서열에 비하여 하나 이상의 아미노산의 변형, 예컨대 결실(deletion), 치환(substitution), 삽입(insertion) 또는 부가(addition)를 포함하는 것일 수 있다. 예컨대, Cas12f1 변이체는 야생형 Cas12f1 단백질의 아미노산 서열에서 C-말단, N-말단 또는 서열 내부에 적어도 하나 이상의 아미노산 잔기가 결실, 치환, 삽입 및/또는 부가된 서열을 가질 수 있으며, 이러한 Cas12f1 변이체는 "Cas12f1 변이체(mutant)"로도 지칭될 수 있다.
일 구현예에서, Cas12f1 변이체는 야생형 Cas12f1 단백질의 아미노산 서열에 적어도 하나 이상의 임의의 아미노산이 부가된 것일 수 있다. 보다 구체화된 예에서, Cas12f1 변이체는 야생형 Cas12f1(예컨대, Un1Cas12f1 또는 CWCas12f1) 또는 이의 변이체 단백질의 아미노산 서열에서 N-말단 및/또는 C-말단에 하나 이상의 임의의 아미노산 잔기가 부가된 변이체일 수 있다. 본 발명자들은 야생형 Cas12f1 단백질의 N-말단 및/또는 C-말단에 아미노산이 부가된 변이체 중에 야생형 Cas12f1과 동등한 기능을 갖는 변이체가 있음을 확인하였다. 이를 위해 한국 특허출원 제10-2021-0181875호를 참조할 수 있고, 해당 명세서는 그 전체로서 여기에 편입된 것으로 간주되어야 한다. 바람직하게, Cas12f1 변이체는 야생형의 Cas12f1 또는 이의 변이체 단백질의 N-말단 및/또는 C-말단에 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개, 또는 30개의 아미노산이 부가된 것일 수 있다. 일 예로, Cas12f1 변이체 단백질은 야생형 Un1Cas12f1의 아미노산 서열(예컨대, 서열번호 364의 아미노산 서열)의 N-말단에 1개 내지 28개의 아미노산이 부가된 아미노산 서열을 포함하는 것일 수 있다. 이러한 Un1Cas12f1 변이체의 구체화된 예로, 본 발명에서는 Un1Cas12f1 단백질의 N-말단에 CasX의 N-말단에서 유래한 26개 아미노산을 더 포함하는 CWCas12f1-v1 단백질(서열번호 361), 28개의 무작위 아미노산 서열을 더 포함하는 CWCas12f1-v2 단백질(서열번호 362) 및 26개의 무작위 아미노산 서열을 더 포함하는 CWCas12f1-v3 단백질(서열번호 363)이 제공된다. 상기 야생형 Un1Cas12f1의 아미노산 서열(서열번호 364)의 N-말단에 1개 내지 28개의 아미노산이 부가된 아미노산 서열을 포함하는 Cas12f1 변이체는, 다른 측면에서 야생형 CWCas12f1의 아미노산 서열(서열번호 360)의 N-말단에서 1개 내지 28개의 아미노산이 제거 또는 치환된 아미노산 서열을 포함하는 Cas12f1 변이체로 정의될 수 있다. 상기 CWCas12f1-v1 단백질(서열번호 361), CWCas12f1-v2 단백질(서열번호 362) 및 CWCas12f1-v3 단백질(서열번호 363)의 구체적인 아미노산 서열은 다음과 같다:
Figure PCTKR2023004330-appb-img-000002
Figure PCTKR2023004330-appb-img-000003
Figure PCTKR2023004330-appb-img-000004
본 개시에서, 상기 Cas12f1 변이체 단백질을 암호화하는 핵산이 제공된다. Cas12f1 변이체 단백질을 암호화하는 핵산은 Cas12f1 변이체 단백질을 도입하고자 하는 대상(예컨대, 인간)에서 발현될 수 있도록 코돈 최적화(codon optimization)된 것일 수 있다. 구체화된 예에서, 상기 CWCas12f1-v1 단백질, CWCas12f1-v2 단백질 및 CWCas12f1-v3 단백질을 암호화하는 인간 코돈 최적화된 핵산 서열이 하기에 제공된다(서열번호 366 내지 서열번호 368 참조):
Figure PCTKR2023004330-appb-img-000005
Figure PCTKR2023004330-appb-img-000006
Figure PCTKR2023004330-appb-img-000007
다른 구현예에서, Cas12f1 변이체 단백질은 Cas12f1 단백질의 N-말단 또는 C-말단에 1개 내지 600개의 임의의 아미노산이 부가된 아미노산 서열을 포함하는 것일 수 있다. 일 예로, Cas12f1 변이체 단백질은 야생형 CWCas12f1 단백질의 아미노산 서열(예컨대, 서열번호 360의 아미노산 서열)의 N-말단 또는 C-말단에 1개 내지 600개의 아미노산으로 이루어진 아미노산 서열을 더 포함할 수 있다. 여기서, 추가된 1개 내지 600개의 아미노산 서열에는 제한이 없다. 예컨대, 상기 추가된 1개 내지 600개의 아미노산은 서열번호 378 또는 서열번호 379의 아미노산 서열일 수 있다. 한편, 상기 추가된 서열과 Cas12f1 변이체 단백질 사이에는 NLS 또는 NES 서열이 더 포함될 수 있다. 상기 NLS 또는 NES에 관한 사항은 후술되는 내용 전체를 참조한다.
또 다른 구현예에서, Cas12f1 분자(예컨대, Cas12f1 또는 이의 변이체)는 서열번호 360 내지 서열번호 364로 이루어진 군에서 선택된 아미노산 서열과 70% 이상, 75% 이상, 80% 이상, 85% 이상, 90% 이상 또는 95% 이상의 서열 동일성을 갖는 아미노산 서열을 포함할 수 있다.
다른 측면에서, Cas12f1 변이체는 야생형 Cas12f1 단백질의 아미노산 서열 중 적어도 하나 이상의 아미노산이 다른 종류의 아미노산으로 치환된 것일 수 있다. 여기서, 상기 치환은 하나의 아미노산이 하나의 다른 아미노산으로 치환된 것일 수 있다. 또는, 상기 치환은 하나의 아미노산이 다수개의 다른 아미노산으로 치환된 것이거나, 다수개의 아미노산이 하나의 다른 아미노산으로 치환된 것이거나 또는 다수개의 아미노산이 다수개의 다른 아미노산으로 치환된 것일 수 있다. 즉, 치환되는 아미노산의 수와 치환하는 아미노산의 수는 서로 동일하거나 다를 수 있다.
또 다른 구현예에서, Cas12f1 변이체는 야생형 Cas12f1 단백질에 포함된 RuvC 도메인 내의 적어도 하나 이상의 아미노산 잔기가 제거 또는 치환된 것일 수 있다. 상기 RuvC(또는 RuvC-유사) 도메인은 엔도뉴클레아제 도메인으로도 지칭되며, 핵산 절단을 촉매하는 활성 부위(catalytic site)를 포함하므로 핵산 절단 효율과 직접적으로 연관되어 있다. 따라서 RuvC 도메인의 변이에 의해 Cas12f1 단백질은 야생형 Cas12f1 단백질과 동일한 기능(예컨대, 핵산 절단 기능)을 유지하면서도 동등하거나 동등 이상의 효과(예컨대, 향상된 핵산 절단 효율)가 나타나도록 조작될 수 있다.
또 다른 구현예에서, Cas12f1 변이체는 5'-TTTA-3' 또는 5'-TTTG-3'이외의 PAM 서열을 인식하도록 엔지니어링된 것일 수 있다. 보다 구체화된 예에서, Cas12f1 변이체는 CWCas12f1의 야생형 서열(예컨대, 서열번호 360의 아미노산 서열)을 기준으로 170번 아미노산(세린), 174번 아미노산(타이로신), 184번 아미노산(알라닌), 188번 아미노산(세린), 191번 아미노산(아르기닌), 225번 아미노산(글루타민), 230번 아미노산(타이로신), 271번 아미노산(발린) 및 272번 아미노산(글루타민)으로 이루어진 군에서 선택된 하나 이상의 아미노산의 치환을 포함할 수 있다. 바람직하게, Cas12f1 변이체는 170번 아미노산(세린), 188 번 아미노산(세린), 191번 아미노산(아르기닌), 225번 아미노산(글루타민) 및 272번 아미노산(글루타민)으로 이루어진 군에서 선택된 하나 이상의 아미노산의 치환을 포함할 수 있다. 보다 바람직하게, Cas12f1 변이체는 야생형 서열(예컨대, 서열번호 360의 아미노산 서열)을 기준으로 하기 아미노산 치환에서 선택되는 하나 이상의 치환을 포함할 수 있다: S170T, S188Q, S188H, S188K, R191K, Q225T, Q225F 및 Q272K(여기서, T는 트레오닌, Q는 글루타민, H는 히스티딘, K는 리신, F는 페닐알라닌이다). 이와 같이, Cas12f1이 인식할 수 있는 PAM 서열이 확장된 Cas12f1 변이체의 구체적인 아미노산 서열 정보는 하기 표 1에서 제공된다.
명칭 아미노산 서열 서열
번호
Engineered CWCas12f1 (S170T) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLTDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 370
Engineered CWCas12f1 (S188Q) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIAQGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 371
Engineered CWCas12f1 (S188H) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIAHGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 372
Engineered CWCas12f1 (S188K) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIAKGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 373
Engineered CWCas12f1 (R191K) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLKSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 374
Engineered CWCas12f1 (Q225T) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKTKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 375
Engineered CWCas12f1 (Q225F) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKFKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 376
Engineered CWCas12f1 (Q272K) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVKKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 377
상기 Cas12f1 변이체는 PAM 서열로서 5'-TNTN-3', 5'-TTTN-3', 5'-TGTA-3', 5'-TCTG-3', 5'-TGTG-3' 또는 5'-TTTC-3'을 추가로 인식할 수 있다(여기서, N은 A, T, C, 또는 G임).
또 다른 구현예에서, Cas12f1 변이체는 야생형 Cas12f1 단백질의 기능 일부 또는 전부가 변형된 것일 수 있다. 예를 들어, 상기 Cas12f1 변이체는 표적 핵산의 이중가닥 중 하나의 가닥만 절단하도록 변형된 단백질일 수 있다.
(2) 융합 단백질(fusion protein)
본 발명의 다른 측면에 따르면, Cas12f1 변이체는 Cas12f1 단백질 또는 이의 변이체에 추가적인 기능을 가지는 도메인, 펩타이드 또는 단백질이 부가된 변이체일 수 있다. 여기서, 상기 추가적인 기능을 가지는 도메인, 펩타이드 또는 단백질이 부가된 Cas12f1 변이체는 "Cas12f1 융합 단백질"로 지칭될 수 있다.
일 구현예에서, 상기 추가적인 기능을 가지는 도메인, 펩타이드 또는 단백질은 야생형 Cas12f1 또는 이의 변이체 단백질의 N-말단, C-말단 및/또는 아미노산 서열 내에 부가될 수 있다.
다른 구현예에서, 상기 추가적인 기능을 가지는 도메인, 펩타이드 또는 단백질은 야생형 Cas12f1 단백질과 동일하거나 다른 기능을 가지는 도메인, 펩타이드 또는 단백질일 수 있다.
일 예로, Cas12f1 융합 단백질은 둘 이상의 이종성 폴리펩티드 도메인을 포함할 수 있는데, 하나의 폴리펩티드 도메인은 Cas12f1 또는 이의 변이체 단백질을 포함하고, 다른 도메인은 다른 기능 또는 활성을 갖는 (폴리)펩티드를 포함할 수 있다. 예컨대, 다른 기능 또는 활성을 갖는 (폴리)펩티드는 메틸라아제(methylase) 활성, 디메틸라아제(demethylase) 활성, 전사촉진(transcription activation) 활성, 전사 저해(transcription repression) 활성, 전사 방출 인자(transcription release factor) 활성, 히스톤 변형(histone modification) 활성, RNA 절단(cleavage) 활성 또는 핵산 결합(nucleic acid binding) 활성을 갖는 것일 수 있다.
다른 예로, Cas12f1 융합 단백질에서 Cas12f1과 다른 기능 또는 활성을 갖는 (폴리)펩티드는 분리 및/또는 정제를 위한 태그(tag) 또는 리포터 단백질일 수 있다. 예컨대, 태그 또는 리포터 단백질은 히스티딘(His) 태그, V5 태그, FLAG 태그, 인플루엔자 헤마글루티닌(HA) 태그, Myc 태그, VSV-G 태그 및 티오레독신(Trx) 태그 등의 태그 단백질; 녹색 형광 단백질(GFP), 황색 형광 단백질(YFP), 청록색 형광 단백질(CFP), 청색 형광 단백질(BFP), HcRED, DsRed 등의 형광 단백질; 및 글루타티온-S-트랜스 퍼라제(GST), 호스래디시 과산화효소(horseradish peroxidase, HRP), 클로람페니콜 아세틸트랜스퍼라제(chloramphenicol acetyltransferase, CAT), β-갈락토시다제(galactosidase), β-글루쿠로니다제(glucuronidase), 루시퍼라제(luciferase) 등의 리포터 단백질(효소)를 포함하지만, 이에 제한되는 것은 아니다. 또한, 다른 기능 또는 활성을 갖는 (폴리)펩티드는 역전사 효소(reverse transcriptase), 디아미네이즈(deaminase) 또는 다른 단백질 분해 효소일 수 있으나, 이에 제한되지 않는다.
또 다른 예로, Cas12f1 분자(예컨대, Cas12f1 또는 이의 변이체)는 세포 내의 유전자 발현 과정에 관여할 수 있는 다양한 효소(enzyme)가 융합된 것일 수 있다. 상기 효소가 융합된 Cas12f1 분자는 세포 내 유전자 발현에 다양한 양적 및/또는 질적 변화를 초래할 수 있다. 예컨대, 상기 추가적으로 결합되는 다양한 효소는 DNMT, TET, KRAB, DHAC, LSD, p300, M-MLV(moloney murine leukemia virus) 역전사 효소 또는 그 변이체일 수 있다. 역전사 효소가 융합된 Cas12f1 또는 이의 변이체 단백질은 프라임 에디터(prime editor)로도 기능할 수 있다.
(3) 기타 부가 요소
본 발명의 또 다른 측면에 따르면, CRISPR/Cas12f1 시스템 또는 USH2A 유전자 편집 시스템은 표적 핵산 또는 표적 유전자의 표적 부위에서 핵산을 절단하는 것이므로, 표적 부위가 세포의 핵 내에 위치할 수 있다. 따라서, CRISPR/Cas12f1 시스템 또는 USH2A 유전자 편집 시스템에 포함되는 Cas12f1 분자(예컨대, Cas12f1 또는 이의 변이체 단백질)는 이를 핵 내로 위치시키는 핵 위치 신호(nuclear localization signal, NLS) 서열을 하나 이상 포함할 수 있다. 예컨대, 하나 이상의 핵 위치 신호 서열은 상기 Cas12f1 분자가 진핵세포(예컨대, 포유동물 세포)의 핵에서 검출 가능한 양으로 핵 내로 표적화되거나 수송되도록 유도하는 데 충분한 양 또는 활성을 가질 수 있다. 예컨대, 그 활성의 강도 차이는 Cas12f1 분자 내에 포함되는 NLS의 수, 사용되는 특정 NLS(들)의 종류 또는 이들 인자의 조합으로부터 야기될 수 있다.
일 구현예에서, 본 발명의 Cas12f1 분자(예컨대, Cas12f1 또는 이의 변이체 단백질)에 포함되는 NLS는 N-말단에서 또는 그 근처에서 약 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 이상의 NLS, C-말단에서 또는 그 근처에서 약 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 이상의 NLS, 또는 이들의 조합이 다양하게 선택될 수 있다. 예컨대, N-말단에서 0 또는 적어도 하나 이상의 NLS 서열 및/또는 C-말단에서 0 또는 하나 이상의 NLS 서열을 포함할 수 있다. 하나 초과의 NLS 서열이 존재할 때, 단일 NLS가 하나 초과의 복제물에 존재할 수 있고, 하나 초과의 복제물에 존재하는 하나 초과의 다른 NLS와 조합하여 존재할 수 있도록 각각의 NLS 서열은 다른 것과 독립적으로 선택될 수 있다.
일부 구체화된 예에서, NLS 서열은 Cas12f1 분자에 대해 이종성으로 하기의 NLS 서열이 예시되나 이에 제한되는 것은 아니다:
아미노산 서열 PKKKRKV(서열번호 380)를 갖는 SV40 바이러스 대형 T-항원의 NLS; 뉴클레오플라스민(nucleoplasmin)으로부터의 NLS(예를 들어, 서열 KRPAATKKAGQAKKKK(서열번호 381)를 갖는 뉴클레오플라스민 이분(bipartite) NLS); 아미노산 서열 PAAKRVKLD(서열번호 382) 또는 RQRRNELKRSP(서열번호 383)를 갖는 c-myc NLS; 서열 NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(서열번호 384)를 갖는 hRNPA1 M9 NLS; 임포틴-알파로부터의 IBB 도메인의 서열 RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(서열번호 385); 마이오마(myoma) T 단백질의 서열 VSRKRPRP(서열번호 386) 및 PPKKARED(서열번호 387); 인간 p53의 서열 PQPKKKPL(서열번호 388); 마우스 c-abl IV의 서열 SALIKKKKKMAP(서열번호 389); 인플루엔자 바이러스 NS1의 서열 DRLRR(서열번호 390) 및 PKQKKRK(서열번호 391); 간염 바이러스 델타 항원의 서열 RKLKKKIKKL(서열번호 392); 마우스 Mx1 단백질의 서열 REKKKFLKRR(서열번호 393); 인간 폴리(ADP-리보스) 중합효소의 서열 KRKGDEVDGVDEVAKKKSKK(서열번호 394); 또는 스테로이드 호르몬 수용체(인간) 글루코코르티코이드의 서열 RKCLQAGMNLEARKTKK(서열번호 395)로부터 유래된 NLS 서열.
다른 구현예에서, 야생형 Cas12f1 단백질에 NLS가 부가된 Cas12f1 변이체는 하기 서열번호 396의 아미노산 서열을 포함하거나 이로 이루어진 것일 수 있다:
"NLS가 부가된 Un1Cas12f1 단백질", PKKKRKVGIHGVPAAMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEPKRPAATKKAGQAKKKK (서열번호 396).
다른 구현예에서, Cas12f1 또는 이의 변이체 단백질은 NES(nuclear export signal)을 포함할 수 있다. NES 서열은 핵 수송(nuclear transport) 작용으로 세포 핵 내부의 물질을 핵 외부로 수송할 때, 수송 대상인 단백질에 붙어 일종의 "태그" 역할을 하는 일정 길이의 펩티드 또는 그 서열을 의미한다.
1.3. Cas12f1 분자의 PAM 서열
일부 구현예에서, 본 발명의 CRISPR/Cas12f1 시스템 또는 USH2A유전자 편집 시스템이 표적 유전자 또는 표적 핵산의 표적 부위에 위치하고 정확하게 표적 부위 핵산을 절단하기 위해서는 하기의 두 가지 조건이 필요하다.
먼저, 표적 유전자 또는 표적 핵산 내에 Cas12f1 분자(예컨대, Cas12f1 또는 이의 변이체)가 인식할 수 있는 일정 길이의 염기서열이 있어야 한다. 또한, 상기 일정 길이의 염기서열 주변에 본 발명에 따른 가이드 RNA(gRNA)에 포함된 가이드 서열(예컨대, 제1 가이드 서열 또는 제2 가이드 서열)과 상보적으로 결합할 수 있는 서열이 있어야 한다. 다시 말해, Cas12f1 분자가 상기 일정 길이의 염기서열을 인식하고, 가이드 RNA(gRNA)에 포함된 가이드 서열(스페이서) 부분이 상기 일정 길이의 염기서열 주변 서열 부분과 상보적으로 결합할 때, 표적 핵산 또는 표적 유전자의 표적 부위 핵산을 정확하게 절단(또는 편집)할 수 있다. 이때, Cas12f1 분자에 의해 인식되는 일정 길이의 염기 서열을 프로토스페이스 인접 모티프(Protospacer Adjacent Motif, PAM)서열이라 한다. PAM 서열은 Cas12f1 분자에 따라 정해지는 고유한 서열이다. 이는 유전자 편집 시스템 내의 Cas12f1 분자와 gRNA로 이루어진 복합체의 표적 서열을 결정할 때, 상기 PAM 서열과 인접한 서열 내에서 표적 서열을 결정해야 하는 것을 의미한다.
Cas12f1 분자(예컨대, Cas12f1 또는 이의 변이체 단백질)의 PAM 서열은 T-rich 서열일 수 있다. 보다 구체적으로, 상기 PAM 서열은 5'-TTTN-3'일 수 있다. 이때, N은 디옥시티미딘(T), 디옥시아데노신(A), 디옥시사이티딘(C) 또는 디옥시구아노신(G) 중 하나이다.
일 구현예에서, Cas12f1 분자의 PAM 서열은 5'-TTTA-3', 5'-TTTT-3', 5'-TTTC-3' 또는 5'-TTTG-3'일 수 있다. 바람직하게, Cas12f1 분자의 PAM 서열은 5'-TTTA-3' 또는 5'-TTTG-3'일 수 있다.
다른 구현예에서, Cas12f1 분자의 PAM 서열은 야생형 Cas12f1 단백질의 PAM 서열과는 다른 것일 수 있다. 일 예로, Cas12f1 변이체는 5'-TTTA-3' 또는 5'-TTTG-3'이외의 PAM 서열을 인식하도록 엔지니어링된 것일 수 있다.
2. 엔지니어링된 가이드 RNA
본 명세서에 개시된 바와 같이, CRISPR/Cas12f1 시스템 또는 USH2A 유전자 편집 시스템은 하나 이상의 엔지니어링된 가이드 RNA 또는 상기 엔지니어링된 가이드 RNA를 암호화하는 핵산을 포함한다. 따라서 본 발명의 다른 태양에 따르면, USH2A 유전자 내의 표적 서열과 혼성화할 수 있는 가이드 서열을 포함하는 엔지니어링된 가이드 RNA가 제공된다. 여기서, 상기 가이드 RNA는 스캐폴드 영역과 스페이서 영역(또는 가이드 영역)을 포함하며, 가이드 서열은 스페이서 영역에 포함된다.
상기 엔지니어링된 가이드 RNA는 USH2A 유전자 편집 시스템이 USH2A 유전자의 특정 영역에 대한 표적화를 제공한다. 본 발명에 따른 CRISPR/Cas12f1 시스템 또는 USH2A 유전자 편집 시스템의 가이드 RNA는 자연계에서 발견되는 Cas12f1 가이드 RNA 또는 엔지니어링된 Cas12f1 가이드 RNA를 기반으로 할 수 있다. 자연계에서 발견되는 Cas12f1 가이드 RNA 또는 엔지니어링된 Cas12f1 가이드 RNA는 tracrRNA(trans-activating CRISPR RNA) 및 crRNA(CRISPR RNA)를 포함한다. 여기서, crRNA는 스캐폴드 영역의 일부 및 스페이서 영역을 포함하며, 상기 스페이서 영역은 표적 서열과 상보적으로 결합할 수 있는 가이드 서열(guide sequence)를 포함한다. tracrRNA는 스캐폴드 영역의 일부를 포함하며, 상기 crRNA와 혼성화되거나 직접 연결될 수 있다. Cas12f1 가이드 RNA의 스캐폴드 영역은, Cas12f1 분자와 상호작용하는 기능을 포함한다.
본 발명의 다른 태양에 따르면, USH2A(Usherin) 유전자 내의 표적 서열과 혼성화할 수 있는 가이드 서열을 포함하는 스페이서 영역 및 스캐폴드 영역을 포함하는 가이드 RNA로서, (i) USH2A 엑손 13의 5000bp 업스트림(upstream) 영역에 존재하고 Cas12f1 분자가 인식하는 PAM(protospacer-adjacent motif) 서열과 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화 가능한 제1 가이드 서열을 포함하는 제1 가이드 RNA; 또는 (ii) USH2A 엑손 13의 14500bp 다운스트림(downstream) 영역에 존재하고 Cas12f1 분자가 인식하는 PAM(protospacer-adjacent motif) 서열과 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화 가능한 제2 가이드 서열을 포함하는 제2 가이드 RNA가 제공된다. 여기서, 상기 "PAM 서열과 인접하여 위치하는"의 의미는 PAM 서열의 5'-말단 방향 또는 3'-말단 방향을 모두 포함한다.
본 발명의 또 다른 태양에 따르면, USH2A(Usherin) 유전자 내의 표적 서열과 혼성화할 수 있는 가이드 서열을 포함하는 스페이서 영역 및 스캐폴드 영역을 포함하는 가이드 RNA로서, 상기 가이드 서열은 (i) 서열번호 397 내지 서열번호 445로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 22개 뉴클레오티드 서열 또는 상기 연속된 서열에서 5개 이하의 뉴클레오티드가 상이한 서열을 포함하고, 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열이고/거나, (ii) 서열번호 446 내지 서열번호 475로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 20개 뉴클레오티드 서열 또는 상기 연속된 서열에서 5개 이하의 뉴클레오티드가 상이한 서열을 포함하고, 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열인 가이드 RNA가 제공된다.
이하, USH2A 유전자 편집 시스템에서 사용되는 가이드 RNA의 표적 유전자, 상기 가이드 RNA의 스페이서 영역, 스캐폴드 영역 및 이의 엔지니어링에 대해 상세히 설명한다.
2.1. 가이드 RNA의 표적 유전자(target gene)
제2형(보다 구체적으로, 제2A형) 어셔 증후군은 USH2A 유전자의 엑손 13 영역에 발생된 c.2276G>T 돌연변이 및/또는 c.2299delG 돌연변이에 기인하는 것으로 알려져 있다. 이러한 돌연변이에 의해 변형된 mRNA의 발현을 초래하여 비정상적인 어셔린(Usherin) 단백질이 발현되거나 정상적으로 기능하는 어셔린 단백질의 발현이 저해된다. 따라서, 제2형(보다 구체적으로, 제2A형) 어셔 증후군의 치료를 위해 본 발명의 유전자 편집 시스템의 표적 대상 즉, 표적 유전자로서 USH2A 유전자가 선택되었다.
USH2A 유전자는 c.2276G>T 돌연변이 및/또는 c.2299delG 돌연변이를 포함할 수 있다. 본 발명의 유전자 편집 시스템이 표적으로 하는 "USH2A 유전자"는 c.2276G>T 돌연변이 및/또는 c.2299delG 돌연변이를 포함하는 USH2A 유전자일 수 있다. 여기서, 상기 c.2276G>T 돌연변이 및/또는 c.2299delG 돌연변이를 포함하는 USH2A 유전자는 "비정상 USH2A 유전자", "USH2A 유전자 돌연변이체" 또는 "USH2A 유전자(c.2276G>T 및/또는 c.2299delG)"로도 지칭되며, 상기 용어들은 상호 교환적으로 사용될 수 있다. 또한, c.2276G>T 돌연변이 및/또는 c.2299delG 돌연변이를 포함하지 않는 USH2A 유전자, 정상적으로 어셔린 단백질을 발현하는 USH2A 유전자 또는 정상 기능을 하는 어셔린 단백질을 발현하는 USH2A 유전자는 "정상 USH2A 유전자", "정상 기능 USH2A 유전자" 또는 "기능적 USH2A 유전자" 등으로 지칭될 수 있으며, 상기 용어들은 상호 교환적으로 사용될 수 있다.
일 구현예에서, 상기 표적 유전자는 인간 USH2A 유전자일 수 있다. 인간 USH2A 유전자는 1번 염색체(chromosome 1)의 역방향 가닥(reverse strand) 215,622,891 내지 216,423,448 위치에 존재한다. 인간 USH2A 유전자에 대한 참조 서열은 당 분야에 공지되어 있다(Ensembl: ENSG00000042781 참조).
본 명세서에서, 본 발명의 유전자 편집 시스템에 의해 표적화(또는 인식)되거나 본 발명의 가이드 RNA와 혼성화될 수 있는 표적 유전자(예컨대, USH2A 유전자) 내에 존재하는 서열은 "표적 서열(target sequence)"로 지칭된다. 상기 표적 서열을 하나 이상 포함하는 표적 유전자의 특정 영역은 "표적 영역(target region)"으로 지칭된다.
(1) 표적 영역(target region)
어셔 증후군 치료를 위해, 본 발명의 유전자 편집 시스템은 USH2A 유전자를 표적으로 할 수 있다. 보다 구체적으로 USH2A 유전자 편집 시스템은 USH2A 유전자의 일 영역을 표적화할 수 있다. USH2A 유전자의 일 영역은 본 발명의 유전자 편집 시스템과의 관계에서 표적 영역(target region)으로 지칭되며, 상기 표적 영역은 유전자 편집 시스템을 구성하는 가이드 RNA와 혼성화 또는 상보적으로 결합하는 표적 서열(target sequence)를 포함한다.
상기 USH2A 유전자의 일 영역, 즉, 표적 영역은 c.2276G>T 돌연변이 및/또는 c.2299delG 돌연변이를 포함하는 엑손 13의 업스트림(upstream) 영역 및/또는 다운스트림(downstream) 영역일 수 있다.
본 명세서 전체에 걸쳐서, 상기 "엑손 13의 업스트림 영역"은 USH2A 유전자의 이중가닥 DNA에서 코딩 가닥(coding strand; 코딩 가닥의 염기서열은 인간 USH2A 유전자의 참조 서열[Ensembl: ENSG00000042781]을 기준으로 함)을 기준으로 엑손 13의 5'-말단 방향에 위치한 영역을 의미한다. 또한, 상기 "엑손 13의 다운스트림 영역"은 USH2A 유전자의 이중가닥 DNA에서 코딩 가닥을 기준으로 엑손 13의 3'-말단 방향에 위치한 영역을 의미한다. 따라서, USH2A 유전자의 이중가닥 DNA에서 주형 가닥(template strand)을 기준으로 하면 엑손 13의 3'-말단 방향에 위치한 영역은 엑손 13의 업스트림 영역으로 지칭될 수 있고, 엑손 13의 5'-말단 방향에 위치한 영역은 엑손 13의 다운스트림 영역으로 지칭될 수 있다. 즉, 본 명세서에서 "업스트림 영역" 및 "다운스트림 영역"은 이중가닥 DNA의 코딩 가닥과 이의 상보적 서열(또는 역평행 서열)인 주형 가닥을 모두 포함하는 개념으로 사용되었다.
일 구현예에서, 상기 엑손 13의 업스트림 영역은 USH2A 유전자의 엑손 13의 5'-말단에 연결된 USH2A 유전자의 5'-말단 영역일 수 있다. 또는, 상기 엑손 13의 업스트림 영역은 USH2A 유전자의 엑손 12의 3'-말단과 엑손 13의 5'-말단 사이의 영역일 수 있다. 일 구현예에서, 상기 다운스트림 영역은 USH2A 유전자의 엑손 13의 3'-말단에 연결된 USH2A 유전자의 3'-말단 영역일 수 있다. 또는, 상기 다운스트림 영역은 USH2A 유전자의 엑손 13의 3'-말단과 엑손 14의 5'-말단 사이의 영역일 수 있다.
다른 구현예에서, 상기 표적 영역은 USH2A 유전자의 인트론 12 또는 이를 포함하는 영역 및/또는 인트론 13 또는 이를 포함하는 영역일 수 있다.
또 다른 구현예에서, 상기 표적 영역은 USH2A 유전자의 엑손 13의 5000bp, 4000bp, 3700bp, 3600bp, 3500bp, 3400bp, 3300bp, 3200bp, 3100bp, 3000bp, 2900bp, 2800bp, 2700bp, 2600bp, 2500bp, 2400bp, 2300bp, 2200bp, 2100bp, 2000bp, 1900bp, 1800bp, 1700bp, 1600bp, 1500bp, 1400bp, 1300bp, 1200bp, 1100bp 또는 1000bp 업스트림 영역일 수 있다. 또한, 상기 표적 영역은 USH2A 유전자의 엑손 13의 15000bp, 14500bp, 14000bp, 13500bp, 13000bp, 12500bp, 12000bp, 11500bp, 11000bp, 10500bp, 10000bp, 9500bp, 9000bp, 8500bp, 8000bp, 7500bp, 7000bp, 6500bp, 6000bp, 5500bp, 5000bp, 4500bp, 4000bp, 3500bp, 3000bp, 2900bp, 2800bp, 2700bp, 2600bp, 2500bp, 2400bp, 2300bp, 2200bp, 2100bp, 2000bp, 1900bp, 1800bp, 1700bp, 1600bp, 1500bp, 1400bp, 1300bp, 1200bp, 1100bp 또는 1000bp 다운스트림 영역일 수 있다.
표적 영역은 이중가닥 DNA로, 위 두 가닥은 각각 "표적 가닥(target strand)" 및 "비-표적 가닥(non-target strand)"으로 지칭될 수 있다. 여기서, "표적 가닥"은 표적 서열을 포함하며, 본 발명의 유전자 편집 시스템에 포함된 가이드 RNA와 상호작용(예컨대, 혼성화)하는 가닥(strand)이다.
상기 "표적 가닥"은 표적 서열을 포함하는 가닥을 의미한다. 표적 유전자가 단일가닥인 경우, 해당 가닥은 표적 가닥일 수 있다. 또는, 표적 유전자가 이중가닥인 경우, 상기 이중가닥 중 하나는 표적 가닥일 수 있으며, 상기 표적 가닥에 상보적인 가닥이 존재할 수 있다. 이때, 상기 표적 가닥에 상보적인 가닥은 "비표적 가닥"으로 지칭된다.
상기 "비-표적 가닥"은 상기 표적 가닥에 상보적인 가닥으로, "PAM(Protospacer Adjacent Motif) 서열" 및 "프로토스페이서(protospacer) 서열"을 포함한다. 상기 PAM 서열은 본 발명의 유전자 편집 시스템의 Cas12f1 또는 이의 변이체 단백질이 인식하는 서열이다. 상기 프로토스페이서 서열은 PAM 서열의 인접하여, 예컨대 5'-말단 또는 3'-말단에 위치하는 서열로, 표적 서열에 상보성을 가지는 서열 또는 표적 서열과 상보적인 결합을 하는 서열이다. 프로토스페이서 서열과 표적 서열 간의 상관관계는 표적 서열과 가이드 서열 간의 상관관계와 유사하다. 이러한 특징에 의해, 일반적으로 가이드 서열 설계시 프로토스페이서 서열을 이용하여 설계할 수 있다. 즉, 표적 서열에 상보적으로 결합하는 가이드 서열을 설계시, 가이드 서열은 프로토스페이서 서열과 동일한 염기서열을 가지는 뉴클레오티드 서열로 설계할 수 있다. 이때, 프로토스페이서 서열의 염기서열 중 T는 U로 대체하여 가이드 서열을 설계한다.
여기서, 이중가닥 DNA에서 비-표적 가닥이라고 지칭되는 특정 가닥은 항상 비-표적 가닥인 것이 아니며, 표적 가닥과의 관계에서 상대적인 것으로 이해되어야 한다. 예를 들어, 이중가닥 DNA에서 어느 하나의 가이드 서열과 혼성화될 수 있는 표적 서열을 포함하는 일 가닥이 표적 가닥으로 지칭되는 경우 다른 DNA 가닥은 비-표적 가닥으로 지칭될 수 있는데, 다른 하나의 가이드 서열이 상기 비-표적 가닥으로 지칭되었던 가닥과 혼성화될 수 있는 경우 상기 비-표적 가닥으로 지칭되었던 DNA 가닥은 상기 다른 하나의 가이드 서열과의 관계에서 표적 가닥으로 지칭되며, 따라서 상기 표적 가닥으로 지칭되었던 DNA 가닥은 비-표적 가닥으로 지칭된다. "프로토스페이서 서열"은 표적 서열에 상보성을 가지는 서열 또는 표적 서열과 상보적인 결합을 하는 서열이다.
일 구현예에서, 표적 서열을 포함하는 표적 영역은 서열번호 397 내지 서열번호 475로 이루어진 군에서 선택된 프로토스페이서 서열을 포함할 수 있다. 또한, 상기 표적 서열은 표적 영역 내 서열번호 397 내지 서열번호 475로 이루어진 군에서 선택된 프로토스페이서 서열에 상보적인 서열일 수 있다.
(2) 표적 서열(target sequence)
"표적 서열(target sequence)"은 표적 유전자 또는 표적 영역 내에 존재하는 서열로, 본 발명의 유전자 편집 시스템의 가이드 RNA에 의해 인식되는 서열 또는 유전자 편집 시스템에 의해 변형의 대상이 되는 서열을 의미한다. 구체적으로, 상기 표적 서열은 상술한 표적 영역에 존재하는 서열로, USH2A 유전자 편집 시스템에 포함된 가이드 RNA 또는 상기 가이드 RNA에 포함된 가이드 서열에 상보성을 가지는 서열 또는 이와 상보적으로 결합하는 서열을 의미한다.
일 구현예에 따르면, 표적 서열은 15 내지 40개의 뉴클레오티드 서열일 수 있다. 일 예로, 표적 서열은 15 내지 20개, 15 내지 25개, 15 내지 30개, 15 내지 35개 또는 15 내지 40개의 뉴클레오티드 서열일 수 있다. 또한, 표적 서열은 20 내지 25개, 20 내지 30개, 20 내지 35개 또는 20 내지 40개의 뉴클레오티드 서열일 수 있다. 또한, 상기 표적 서열은 25 내지 30개, 25 내지 35개 또는 25 내지 40개의 뉴클레오티드 서열일 수 있다. 또한, 상기 표적 서열은 30 내지 35개 또는 30 내지 40개의 뉴클레오티드 서열일 수 있다. 또한, 상기 표적 서열은 35 내지 40개의 뉴클레오티드 서열일 수 있다. 다른 일 예로, 상기 표적 서열은 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39 또는 40개의 뉴클레오티드 서열일 수 있다.
다른 구현예에서, 표적 서열은 c.2276G>T 돌연변이 및/또는 c.2299delG 돌연변이를 포함하는 엑손 13의 업스트림 영역에 존재하는 15 내지 40개의 뉴클레오티드 서열일 수 있다. 또한, 표적 서열은 USH2A 유전자의 엑손 12의 3'-말단과 엑손 13의 5'-말단 사이의 영역에 존재하는 15 내지 40개의 뉴클레오티드 서열일 수 있다. 또한, 표적 서열은 USH2A 유전자의 인트론 12 영역에 존재하는 15 내지 40개의 뉴클레오티드 서열일 수 있다. 또한, 표적 서열은 USH2A 유전자의 엑손 13의 5'-말단에 연결된 5000bp, 4000bp, 3700bp, 3600bp, 3500bp, 3400bp, 3300bp, 3200bp, 3100bp, 3000bp, 2900bp, 2800bp, 2700bp, 2600bp, 2500bp, 2400bp, 2300bp, 2200bp, 2100bp, 2000bp, 1900bp, 1800bp, 1700bp, 1600bp, 1500bp, 1400bp, 1300bp, 1200bp, 1100bp 또는 1000bp 영역에 존재하는 15 내지 40개의 뉴클레오티드 서열일 수 있다. 또한, 표적 서열은 서열번호 1 내지 서열번호 49로 이루어진 군에서 선택된 핵산 서열을 포함하는 것일 수 있다. 본 구현예에 따른 표적 서열의 구체적인 예는 하기 표 2에서 제공된다. 편의를 위해 상기 업스트림 영역은 프론트(front) 영역의 약칭인 F 영역으로 지칭하였다.
연번 명칭
(Oligo)
표적 서열
(5'→3')
서열
번호
1 GK-USH2A-F02 CATTCAAGATAGACGAGACA 1
2 GK-USH2A-F03 TACTGCAGATGATACGAACA 2
3 GK-USH2A-F05 TAGGGGGCCAATCTTACTCT 3
4 GK-USH2A-F06 GTTGTATATTAAAGCTAAAT 4
5 GK-USH2A-F07 CATCGCAAACAGTTGTATAT 5
6 GK-USH2A-F09 GGAGCTCTTTTTCTCTTTAA 6
7 GK-USH2A-F10 TTTTAACAAATGTGCTCATT 7
8 GK-USH2A-F12 TACTCAGCTTAACCTTTTAT 8
9 GK-USH2A-F13 TAATAAAAGGTTAAGCTGAGTA 9
10 GK-USH2A-F15 GATCTTAAATGTTCTCACCC 10
11 GK-USH2A-F16 TTTGATATATGTACACATTA 11
12 GK-USH2A-F17 CAGCTTCACGAAGGTATAAT 12
13 GK-USH2A-F22 TCCTTTAAATAGAAGTAATA 13
14 GK-USH2A-F23 TCTGACAAGTAAGGTTATTC 14
15 GK-USH2A-F24 GGTATTACAAGGCAAAGAAA 15
16 GK-USH2A-F25 GAATAGTAAATGTTTAGATG 16
17 GK-USH2A-F26 TAAAGGAAGTATTTTGCATC 17
18 GK-USH2A-F27 TACTTCCTTTAGATAGTTTC 18
19 GK-USH2A-F30 TTCAAGCTATAATTGCAATT 19
20 GK-USH2A-FA01 CATTTTCCCATCCTCACCTTT 20
21 GK-USH2A-FA02 CAACTGTTTGCGATGAACTTCA 21
22 GK-USH2A-FA03 TCTTTGCATTAAGTAATAAT 22
23 GK-USH2A-FA04 TTTTTAATTATTACTTAATG 23
24 GK-USH2A-FA05 TATGTAATTCTACTATAATTT 24
25 GK-USH2A-FA06 TTGCTAAGAGATTAGATCT 25
26 GK-USH2A-FA07 TTTATAATGTGTACATATAT 26
27 GK-USH2A-FA08 CAAAACATCATGTTGTCTGCCA 27
28 GK-USH2A-FA09 CTTCACGAAGGTATAATTAAA 28
29 GK-USH2A-FA10 GGTGAGTCATTCATCACTGT 29
30 GK-USH2A-FA11 TTTATTTTCCTTATTGAAAT 30
31 GK-USH2A-FA12 TATATATGTATATATATGGA 31
32 GK-USH2A-FA13 CATATGTAGAAAAGCATTTCC 32
33 GK-USH2A-FA14 TTTAATTTCAATAAGGAAAA 33
34 GK-USH2A-FA15 GTTAACAATACAGTTATTTT 34
35 GK-USH2A-FA16 GTAGACCAATTTTAATAGTT 35
36 GK-USH2A-FA17 GATTCATATCATATCAGTTT 36
37 GK-USH2A-FA18 TATGACTCATTTTGAACTAT 37
38 GK-USH2A-FA19 CCACTATTGCTGCAAATTT 38
39 GK-USH2A-FA20 GGAATATGTATGGCATATT 39
40 GK-USH2A-FA21 TAAGCACTGTGCATATTTT 40
41 GK-USH2A-FA22 CTTATTTTAAGATTAATTTT 41
42 GK-USH2A-FA23 TTTCCAAATATCCATGAATT 42
43 GK-USH2A-FA24 CAGAGATTTAAGTTTAGGTGA 43
44 GK-USH2A-FA25 TGACTCAGAACATACCTCTT 44
45 GK-USH2A-FA26 TTTATCATTTTCAATTAATA 45
46 GK-USH2A-FA27 TGATAAAATAGAGGAGCATA 46
47 GK-USH2A-FA28 TTTTATTTATATTAATTACT 47
48 GK-USH2A-FA29 TAAGTGTATATGCTGTTTTCA 48
49 GK-USH2A-FA30 CATGGATATTTGGAAACTATC 49
또 다른 구현예에서, 표적 서열은 c.2276G>T 돌연변이 및/또는 c.2299delG 돌연변이를 포함하는 엑손 13의 다운스트림 영역에 존재하는 15 내지 40개의 뉴클레오타이드 서열일 수 있다. 또한, 표적 서열은 USH2A 유전자의 엑손 13의 3'-말단과 엑손 14의 5'-말단 사이의 영역에 존재하는 15 내지 40개의 뉴클레오티드 서열일 수 있다. 또한, 표적 서열은 USH2A 유전자의 인트론 13 영역에 존재하는 15 내지 40개의 뉴클레오티드 서열일 수 있다. 또한, 표적 서열은 USH2A 유전자의 엑손 13의 3'-말단에 연결된 15000bp, 14500bp, 14000bp, 13500bp, 13000bp, 12500bp, 12000bp, 11500bp, 11000bp, 10500bp, 10000bp, 9500bp, 9000bp, 8500bp, 8000bp, 7500bp, 7000bp, 6500bp, 6000bp, 5500bp, 5000bp, 4500bp, 4000bp, 3500bp, 3000bp, 2900bp, 2800bp, 2700bp, 2600bp, 2500bp, 2400bp, 2300bp, 2200bp, 2100bp, 2000bp, 1900bp, 1800bp, 1700bp, 1600bp, 1500bp, 1400bp, 1300bp, 1200bp, 1100bp 또는 1000bp 영역에 존재하는 15 내지 40개의 뉴클레오티드 서열일 수 있다. 또한, 표적 서열은 서열번호 50 내지 서열번호 79로 이루어진 군에서 선택된 핵산 서열을 포함하는 것일 수 있다. 본 구현예에 따른 표적 서열의 구체적인 예는 하기 표 3에서 제공된다. 편의를 위해 상기 다운스트림 영역은 리어(rear) 영역의 약칭인 R 영역으로 지칭하였다.
연번 명칭
(Oligo)
표적 서열
(5'→3')
서열번호
1 GK-USH2A-R01 GGAGAAGTTACCTAAGTTAA 50
2 GK-USH2A-R02 GCTTCTACAAATTTTATTTC 51
3 GK-USH2A-R04 CCGATCGGCTGAGTTTTATC 52
4 GK-USH2A-R05 CTCAATTTCTACACTTGAAG 53
5 GK-USH2A-R07 CATTGTATGGATATTCAACT 54
6 GK-USH2A-R08 GTTGAATATCCATACAATGC 55
7 GK-USH2A-R09 TGATGAACTAAATCTCTGAA 56
8 GK-USH2A-R10 CAATTCTAGGTATTTCTATA 57
9 GK-USH2A-R11 GAATTGTTTCCACATGCCAT 58
10 GK-USH2A-R13 TCCACATGCCATCAAATTAA 59
11 GK-USH2A-R14 CTGTTTAATCTCATTATATA 60
12 GK-USH2A-R17 CTTACATTTAAGATTTTAAC 61
13 GK-USH2A-R18 CTCTGAGTTATATGGGTCTA 62
14 GK-USH2A-R19 TCTACTCCTTCTCTGGCAAG 63
15 GK-USH2A-R20 TTGCCAGAGAAGGAGTAGAA 64
16 GK-USH2A-R22 TCTTACACACTGACCAATGC 65
17 GK-USH2A-R23 TCTTTTTGTGATGTAAGTAT 66
18 GK-USH2A-R24 TATTATAACTAGATACTCCA 67
19 GK-USH2A-R26 TGTGGCTGGTGGTAGAATTA 68
20 GK-USH2A-R27 TATAACTAAGAGGTAGCTAA 69
21 GK-USH2A-R29 CTCAGAGGTAACCAACCAAA 70
22 GK-USH2A-R30 TTGGCTCAGAGGTAACCAAC 71
23 GK-USH2A-R31 CCAGGGGTGTCACGTACTTA 72
24 GK-USH2A-R32 CTACCTGATGAAATGGTCCC 73
25 GK-USH2A-R34 TGAAAGGATTAACCTGAAGG 74
26 GK-USH2A-R35 GAGACAAAGGACTTTGTTGC 75
27 GK-USH2A-R36 TCCTTTGTCTCCTACACAGT 76
28 GK-USH2A-R38 TTAGATATCTGGTAGGTGTA 77
29 GK-USH2A-R39 GTCTTATGCATGGTGTAGAT 78
30 GK-USH2A-R40 TATACATCCTTCTTTCTAAG 79
2.2. 가이드 서열을 포함하는 스페이서 영역(spacer region)
본 발명의 구현예에 따른 엔지니어링된 가이드 RNA(gRNA)는 표적 핵산을 찾아갈 수 있도록 하는 서열 부분, 즉 상술한 USH2A 유전자 내의 표적 서열을 인식(recognizing)하거나, 표적 서열에 결합(binding)하거나 또는 표적 서열을 표적(targeting)하는 하나 이상의 가이드 서열을 포함한다. 보다 구체적으로, 가이드 서열은 표적 서열과 혼성화하거나 상보적으로 결합할 수 있는 서열일 수 있다. 본 항목에서 "표적 서열"은 상기 항목 "(2) 표적 서열(target sequence)"에 기재된 전체 내용이 참조된다.
본원에서 "가이드 서열" 또는 "스페이서(spacer) 서열"로 지칭되는 서열은 표적 유전자 내의 표적 서열과 상보적인 서열로서, crRNA 반복 서열의 3'-말단 쪽에 연결된다. 일 구현예로, crRNA의 가이드 서열 부분은 상기 표적 유전자(예컨대, USH2A 유전자)와 상보적으로 결합할 수 있다. 다른 구현예로, crRNA의 가이드 서열 부분은 표적 유전자의 표적 서열 부분과 상보적으로 결합할 수 있다. 일 예로, 표적 핵산이 이중가닥 DNA인 경우, 가이드 서열은 이중가닥 DNA의 표적 가닥(target strand)에 포함된 표적 서열과 상보적인 서열일 수 있다. 여기서, 표적 핵산이 이중가닥 DNA인 경우, 가이드 서열은 상기 이중가닥 DNA의 비-표적 가닥(non-target strand)에 포함된 프로토스페이서 서열과 상동성인 서열을 포함할 수 있다. 구체적으로, 가이드 서열은 프로토스페이서 서열과 동일한 염기 서열을 가지되, 상기 염기 서열에 포함된 티민(T) 각각이 모두 유라실(U)으로 치환된 서열을 가질 수 있다. 일 예로, 가이드 서열은 프로토스페이서의 DNA 서열에 상응하는 RNA 서열을 포함할 수 있다. 보다 구체화된 예로, 상기 가이드 서열은 USH2A 엑손 13의 업스트림(upstream) 영역 내에서 선택된 하나의 프로토스페이서의 DNA 서열에 상응하는 RNA 서열 및/또는 USH2A 엑손 13의 다운스트림(downstream) 영역 내에서 선택된 하나의 프로토스페이서의 DNA 서열에 상응하는 RNA 서열을 포함할 수 있다.
상기 가이드 서열은 15 내지 40개의 뉴클레오타이드 서열일 수 있다. 일 구현예로서, 상기 가이드 서열은 15 내지 20개, 15 내지 25개, 15 내지 30개, 15 내지 35개 또는 15 내지 40개의 뉴클레오타이드 서열일 수 있다. 또한, 상기 가이드 서열은 20 내지 25개, 20 내지 30개, 20 내지 35개 또는 20 내지 40개의 뉴클레오타이드 서열일 수 있다. 또한, 상기 가이드 서열은 25 내지 30개, 25 내지 35개 또는 25 내지 40개의 뉴클레오타이드 서열일 수 있다. 또한, 상기 가이드 서열은 30 내지 35개 또는 30 내지 40개의 뉴클레오타이드 서열일 수 있다. 또한, 상기 가이드 서열은 35 내지 40개의 뉴클레오타이드 서열일 수 있다. 다른 구현예로, 상기 가이드 서열은 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39 또는 40개의 뉴클레오타이드 서열일 수 있다.
또 다른 구현예에서, 가이드 서열은 표적 서열과 상보적인 결합을 하는 서열일 수 있다. 여기서, 상기 상보적인 결합은 선택적으로 적어도 하나 이상의 미스매치(mismatch) 결합을 포함할 수 있다. 예를 들어, 상기 가이드 서열은 표적 서열과 상보적인 결합을 하는 서열로, 이때, 상기 상보적인 결합은 0 내지 5개의 미스매치를 포함할 수 있다.
또 다른 구현예에서, 가이드 서열은 표적 서열에 대해 상보적인 서열일 수 있다. 여기서, 상기 상보적인 서열은 표적 서열에 대해 0 내지 5개의 미스매치된 뉴클레오타이드 서열을 포함할 수 있다. 가이드 서열은 표적 서열에 대해 70% 이상 서열 상보성을 갖는 서열일 수 있다. 특히 언급되지 않는 한, "상보적"은 0 내지 5개의 미스매치를 포함하거나 70% 이상 상보성을 갖는 것을 의미할 수 있으며, 문맥에 따라 적절히 해석되어야 한다. 표적 서열이 DNA인 경우에, 표적 서열에 존재하는 아데노신(A)에 대해, 가이드 서열은 A에 상보적인 결합을 형성할 수 있는 유리딘(U)를 포함할 수 있다.
일 구현예로, 가이드 서열은 표적 서열에 대해 적어도 70% 내지 75%, 적어도 70% 내지 80%, 적어도 70% 내지 85%, 적어도 70% 내지 90%, 적어도 70% 내지 95%, 적어도 70% 내지 100%, 적어도 75% 내지 80%, 적어도 75% 내지 85%, 적어도 75% 내지 90%, 적어도 75% 내지 95% 또는 적어도 75% 내지 100% 상보적인 서열일 수 있다. 구체적으로, 상기 가이드 서열은 표적 서열에 대해 적어도 80% 내지 85%, 적어도 80% 내지 90%, 적어도 80% 내지 95%, 적어도 80% 내지 100%, 적어도 85% 내지 90%, 적어도 85% 내지 95% 또는 적어도 85% 내지 100% 상보적인 서열일 수 있다. 보다 구체적으로, 상기 가이드 서열은 표적 서열에 대해 적어도 90% 내지 95%, 적어도 90% 내지 100% 또는 적어도 95% 내지 100% 상보적인 서열일 수 있다. 더욱 구체적으로, 상기 가이드 서열은 표적 서열에 대해 적어도 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 또는 100% 상보적인 서열일 수 있다.
또 다른 구현예에서, 상기 가이드 서열은 프로토스페이서 서열과 동일하거나 유사한 서열일 수 있다. 또는 상기 가이드 서열은 프로토스페이서 서열에 대해 서열 동일성 또는 서열 유사성을 가지는 서열일 수 있다. 이때, 상기 서열 동일성 또는 서열 유사성은 적어도 70% 이상인 것일 수 있다. 이때, 프로토스페이서 서열 내에 존재하는 티미딘(T)에 대해, 상기 가이드 서열은 티미딘(T) 대신에 유리딘(U)을 포함할 수 있다.
다른 구현예에서, 가이드 서열은 프로토스페이서 서열과 동일하거나 유사한 서열일 수 있다. 가이드 서열은 프로토스페이서 서열에 대해 70% 이상의 서열 동일성을 가질 수 있다. 프로토스페이서 서열 내에 존재하는 티민(T)에 대해, 가이드 서열은 티민(T) 대신에 유라실(U)을 포함할 수 있다.
일 구현예에서, 가이드 서열은 프로토스페이서 서열과 적어도 70% 내지 75%, 적어도 70% 내지 80%, 적어도 70% 내지 85%, 적어도 70% 내지 90%, 적어도 70% 내지 95%, 적어도 70% 내지 100%, 적어도 75% 내지 80%, 적어도 75% 내지 85%, 적어도 75% 내지 90%, 적어도 75% 내지 95% 또는 적어도 75% 내지 100% 서열 동일성 또는 유사성을 가질 수 있다. 구체적으로, 상기 가이드 서열은 프로토스페이서 서열과 적어도 80% 내지 85%, 적어도 80% 내지 90%, 적어도 80% 내지 95%, 적어도 80% 내지 100%, 적어도 85% 내지 90%, 적어도 85% 내지 95% 또는 적어도 85% 내지 100% 서열 동일성 또는 유사성을 가질 수 있다. 보다 구체적으로, 가이드 서열은 프로토스페이서 서열과 적어도 90% 내지 95%, 적어도 90% 내지 100% 또는 적어도 95% 내지 100% 동일성 또는 유사성을 가질 수 있다. 보다 더 구체적으로, 가이드 서열은 프로토스페이서 서열과 적어도 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 또는 100% 동일성 또는 유사성을 가질 수 있다.
보다 구체화된 구현예에서, 본 발명에 따른 USH2A 유전자 편집 시스템은 제1 가이드 서열을 포함하는 제1 가이드 RNA, 제2 가이드 서열을 포함하는 제2 가이드 RNA, 또는 상기 제1 가이드 RNA와 제2 가이드 RNA를 포함할 수 있다.
다른 구체예에서, 제1 가이드 서열은 c.2276G>T 돌연변이 및/또는 c.2299delG 돌연변이를 포함하는 USH2A 유전자의 엑손 13의 업스트림 영역에 존재하는 표적 서열과 상보적으로 결합하는 15 내지 40개의 뉴클레오티드 서열일 수 있다. 여기서, 상기 업스트림 영역은 USH2A 엑손 13의 5000bp, 4000bp, 3700bp, 3600bp, 3500bp, 3400bp, 3300bp, 3200bp, 3100bp, 3000bp, 2900bp, 2800bp, 2700bp, 2600bp, 2500bp, 2400bp, 2300bp, 2200bp, 2100bp, 2000bp, 1900bp, 1800bp, 1700bp, 1600bp, 1500bp, 1400bp, 1300bp, 1200bp, 1100bp 또는 1000bp 업스트림 영역일 수 있다. 또한, 상기 표적 서열은 서열번호 1 내지 서열번호 49로 이루어진 군에서 선택된 핵산 서열을 포함할 수 있다.
또 다른 구체예에서, 제1 가이드 서열은 USH2A 유전자의 엑손 12의 3'-말단과 엑손 13의 5'-말단 사이의 영역에 존재하는 표적 서열과 상보적으로 결합하는 15 내지 40개의 뉴클레오타이드 서열일 수 있다. 또한, 제1 가이드 서열은 USH2A 유전자의 인트론 12 영역에 존재하는 표적 서열과 상보적으로 결합하는 15 내지 40개의 뉴클레오타이드 서열일 수 있다. 또한, 제1 가이드 서열은 USH2A 유전자의 엑손 13의 5'-말단에 연결된 5000bp, 4000bp, 3700bp, 3600bp, 3500bp, 3400bp, 3300bp, 3200bp, 3100bp, 3000bp, 2900bp, 2800bp, 2700bp, 2600bp, 2500bp, 2400bp, 2300bp, 2200bp, 2100bp, 2000bp, 1900bp, 1800bp, 1700bp, 1600bp, 1500bp, 1400bp, 1300bp, 1200bp, 1100bp 또는 1000bp 영역에 존재하는 표적 서열과 상보적으로 결합하는 15 내지 40개의 뉴클레오티드 서열일 수 있다.
또 다른 구체예에서, 제1 가이드 서열은 서열번호 1 내지 서열번호 49로 이루어진 군에서 선택된 하나 이상의 표적 서열과 상보적으로 결합하는 15 내지 40개의 뉴클레오티드 서열일 수 있다.
또 다른 구체예에서, 제1 가이드 서열은 USH2A 엑손 13의 5000bp 업스트림 영역 내에 존재하는 서열번호 397 내지 서열번호 445로 이루어진 군에서 선택된 핵산 서열에 상보적인 표적 서열에 혼성화 가능하거나 상보적인 서열을 포함하거나 이로 이루어질 수 있다.
또 다른 구체예에서, 제1 가이드 서열은 서열번호 397 내지 서열번호 445로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 22개 뉴클레오티드 서열을 포함하고 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열을 포함하거나 이로 이루어질 수 있다.
또 다른 구체예에서, 제1 가이드 서열은 서열번호 80 내지 서열번호 128 및 서열번호 159 내지 서열번호 164로 이루어진 군에서 선택된 핵산 서열을 포함하거나 이로 이루어질 수 있다. 상기 서열번호 80 내지 서열번호 128 중 어느 하나의 핵산 서열을 갖는 제1 가이드 서열은 하기 표 4에서 제공되며, 서열번호 159 내지 서열번호 164 중 어느 하나의 핵산 서열을 갖는 제1 가이드 서열은 표 15에 제시되어 있다. 편의를 위해 상기 업스트림 영역은 프론트(front) 영역의 약칭인 F 영역으로 지칭하였다.
연번 명칭 가이드 서열 (5'→3') 서열번호
1 GUIDE-USH2A-F02 UGUCUCGUCUAUCUUGAAUG 80
2 GUIDE-USH2A-F03 UGUUCGUAUCAUCUGCAGUA 81
3 GUIDE-USH2A-F05 AGAGUAAGAUUGGCCCCCUA 82
4 GUIDE-USH2A-F06 AUUUAGCUUUAAUAUACAAC 83
5 GUIDE-USH2A-F07 AUAUACAACUGUUUGCGAUG 84
6 GUIDE-USH2A-F09 UUAAAGAGAAAAAGAGCUCC 85
7 GUIDE-USH2A-F10 AAUGAGCACAUUUGUUAAAA 86
8 GUIDE-USH2A-F12 AUAAAAGGUUAAGCUGAGUA 87
9 GUIDE-USH2A-F13 UACUCAGCUUAACCUUUUAUUA 88
10 GUIDE-USH2A-F15 GGGUGAGAACAUUUAAGAUC 89
11 GUIDE-USH2A-F16 UAAUGUGUACAUAUAUCAAA 90
12 GUIDE-USH2A-F17 AUUAUACCUUCGUGAAGCUG 91
13 GUIDE-USH2A-F22 UAUUACUUCUAUUUAAAGGA 92
14 GUIDE-USH2A-F23 GAAUAACCUUACUUGUCAGA 93
15 GUIDE-USH2A-F24 UUUCUUUGCCUUGUAAUACC 94
16 GUIDE-USH2A-F25 CAUCUAAACAUUUACUAUUC 95
17 GUIDE-USH2A-F26 GAUGCAAAAUACUUCCUUUA 96
18 GUIDE-USH2A-F27 GAAACUAUCUAAAGGAAGUA 97
19 GUIDE-USH2A-F30 AAUUGCAAUUAUAGCUUGAA 98
20 GUIDE-USH2A-FA01 AAAGGUGAGGAUGGGAAAAUG 99
21 GUIDE-USH2A-FA02 UGAAGUUCAUCGCAAACAGUUG 100
22 GUIDE-USH2A-FA03 AUUAUUACUUAAUGCAAAGA 101
23 GUIDE-USH2A-FA04 CAUUAAGUAAUAAUUAAAAA 102
24 GUIDE-USH2A-FA05 AAAUUAUAGUAGAAUUACAUA 103
25 GUIDE-USH2A-FA06 AGAUCUAAUCUCUUAGCAA 104
26 GUIDE-USH2A-FA07 AUAUAUGUACACAUUAUAAA 105
27 GUIDE-USH2A-FA08 UGGCAGACAACAUGAUGUUUUG 106
28 GUIDE-USH2A-FA09 UUUAAUUAUACCUUCGUGAAG 107
29 GUIDE-USH2A-FA10 ACAGUGAUGAAUGACUCACC 108
30 GUIDE-USH2A-FA11 AUUUCAAUAAGGAAAAUAAA 109
31 GUIDE-USH2A-FA12 UCCAUAUAUAUACAUAUAUA 110
32 GUIDE-USH2A-FA13 GGAAAUGCUUUUCUACAUAUG 111
33 GUIDE-USH2A-FA14 UUUUCCUUAUUGAAAUUAAA 112
34 GUIDE-USH2A-FA15 AAAAUAACUGUAUUGUUAAC 113
35 GUIDE-USH2A-FA16 AACUAUUAAAAUUGGUCUAC 114
36 GUIDE-USH2A-FA17 AAACUGAUAUGAUAUGAAUC 115
37 GUIDE-USH2A-FA18 AUAGUUCAAAAUGAGUCAUA 116
38 GUIDE-USH2A-FA19 AAAUUUGCAGCAAUAGUGG 117
39 GUIDE-USH2A-FA20 AAUAUGCCAUACAUAUUCC 118
40 GUIDE-USH2A-FA21 AAAAUAUGCACAGUGCUUA 119
41 GUIDE-USH2A-FA22 AAAAUUAAUCUUAAAAUAAG 120
42 GUIDE-USH2A-FA23 AAUUCAUGGAUAUUUGGAAA 121
43 GUIDE-USH2A-FA24 UCACCUAAACUUAAAUCUCUG 122
44 GUIDE-USH2A-FA25 AAGAGGUAUGUUCUGAGUCA 123
45 GUIDE-USH2A-FA26 UAUUAAUUGAAAAUGAUAAA 124
46 GUIDE-USH2A-FA27 UAUGCUCCUCUAUUUUAUCA 125
47 GUIDE-USH2A-FA28 AGUAAUUAAUAUAAAUAAAA 126
48 GUIDE-USH2A-FA29 UGAAAACAGCAUAUACACUUA 127
49 GUIDE-USH2A-FA30 GAUAGUUUCCAAAUAUCCAUG 128
다른 구체예에서, 제2 가이드 서열은 c.2276G>T 돌연변이 및/또는 c.2299delG 돌연변이를 포함하는 USH2A 유전자의 엑손 13의 다운스트림 영역에 존재하는 표적 서열과 상보적으로 결합하는 15 내지 40개의 뉴클레오티드 서열일 수 있다. 여기서, 상기 다운스트림 영역은 USH2A 엑손 13의 15000bp, 14500bp, 14000bp, 13500bp, 13000bp, 12500bp, 12000bp, 11500bp, 11000bp, 10500bp, 10000bp, 9500bp, 9000bp, 8500bp, 8000bp, 7500bp, 7000bp, 6500bp, 6000bp, 5500bp, 5000bp, 4500bp, 4000bp, 3500bp, 3000bp, 2900bp, 2800bp, 2700bp, 2600bp, 2500bp, 2400bp, 2300bp, 2200bp, 2100bp, 2000bp, 1900bp, 1800bp, 1700bp, 1600bp, 1500bp, 1400bp, 1300bp, 1200bp, 1100bp 또는 1000bp 다운스트림 영역일 수 있다. 또한, 상기 표적 서열은 서열번호 50 내지 서열번호 79로 이루어진 군에서 선택된 핵산 서열을 포함할 수 있다.
또 다른 구체예에서, 제2 가이드 서열은 USH2A 유전자의 엑손 12의 3'-말단과 엑손 13의 5'-말단 사이의 영역에 존재하는 표적 서열과 상보적으로 결합하는 15 내지 40개의 뉴클레오타이드 서열일 수 있다. 또한, 제2 가이드 서열은 USH2A 유전자의 인트론 13 영역에 존재하는 표적 서열과 상보적으로 결합하는 15 내지 40개의 뉴클레오타이드 서열일 수 있다. 또한, 제2 가이드 서열은 USH2A 유전자의 엑손 13의 3'-말단에 연결된 15000bp, 14500bp, 14000bp, 13500bp, 13000bp, 12500bp, 12000bp, 11500bp, 11000bp, 10500bp, 10000bp, 9500bp, 9000bp, 8500bp, 8000bp, 7500bp, 7000bp, 6500bp, 6000bp, 5500bp, 5000bp, 4500bp, 4000bp, 3500bp, 3000bp, 2900bp, 2800bp, 2700bp, 2600bp, 2500bp, 2400bp, 2300bp, 2200bp, 2100bp, 2000bp, 1900bp, 1800bp, 1700bp, 1600bp, 1500bp, 1400bp, 1300bp, 1200bp, 1100bp 또는 1000bp 영역에 존재하는 표적 서열과 상보적으로 결합하는 15 내지 40개의 뉴클레오티드 서열일 수 있다.
또 다른 구체예에서, 제2 가이드 서열은 서열번호 50 내지 서열번호 79로 이루어진 군에서 선택된 하나 이상의 표적 서열과 상보적으로 결합하는 15 내지 40개의 뉴클레오티드 서열일 수 있다.
또 다른 구체예에서, 제2 가이드 서열은 USH2A 엑손 13의 5000bp 업스트림 영역 내에 존재하는 서열번호 446 내지 서열번호 475로 이루어진 군에서 선택된 핵산 서열에 상보적인 표적 서열에 혼성화 가능하거나 상보적인 서열을 포함하거나 이로 이루어질 수 있다.
또 다른 구체예에서, 제2 가이드 서열은 446 내지 서열번호 475로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 20개 뉴클레오티드 서열을 포함하고 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열을 포함하거나 이로 이루어질 수 있다.
또 다른 구체예에서, 제2 가이드 서열은 서열번호 129 내지 서열번호 158 및 서열번호 165 내지 서열번호 174로 이루어진 군에서 선택된 핵산 서열을 포함하거나 이로 이루어질 수 있다. 상기 서열번호 129 내지 서열번호 158 중 어느 하나의 핵산 서열을 갖는 제1 가이드 서열은 하기 표 5에서 제공되며, 서열번호 165 내지 서열번호 174 중 어느 하나의 핵산 서열을 갖는 제1 가이드 서열은 표 15에 제시되어 있다. 편의를 위해 상기 다운스트림 영역은 리어(rear) 영역의 약칭인 R 영역으로 지칭하였다.
연번 명칭 가이드 서열 (5'→3') 서열번호
1 GUIDE-USH2A-R01 UUAACUUAGGUAACUUCUCC 129
2 GUIDE-USH2A-R02 GAAAUAAAAUUUGUAGAAGC 130
3 GUIDE-USH2A-R04 GAUAAAACUCAGCCGAUCGG 131
4 GUIDE-USH2A-R05 CUUCAAGUGUAGAAAUUGAG 132
5 GUIDE-USH2A-R07 AGUUGAAUAUCCAUACAAUG 133
6 GUIDE-USH2A-R08 GCAUUGUAUGGAUAUUCAAC 134
7 GUIDE-USH2A-R09 UUCAGAGAUUUAGUUCAUCA 135
8 GUIDE-USH2A-R10 UAUAGAAAUACCUAGAAUUG 136
9 GUIDE-USH2A-R11 AUGGCAUGUGGAAACAAUUC 137
10 GUIDE-USH2A-R13 UUAAUUUGAUGGCAUGUGGA 138
11 GUIDE-USH2A-R14 UAUAUAAUGAGAUUAAACAG 139
12 GUIDE-USH2A-R17 GUUAAAAUCUUAAAUGUAAG 140
13 GUIDE-USH2A-R18 UAGACCCAUAUAACUCAGAG 141
14 GUIDE-USH2A-R19 CUUGCCAGAGAAGGAGUAGA 142
15 GUIDE-USH2A-R20 UUCUACUCCUUCUCUGGCAA 143
16 GUIDE-USH2A-R22 GCAUUGGUCAGUGUGUAAGA 144
17 GUIDE-USH2A-R23 AUACUUACAUCACAAAAAGA 145
18 GUIDE-USH2A-R24 UGGAGUAUCUAGUUAUAAUA 146
19 GUIDE-USH2A-R26 UAAUUCUACCACCAGCCACA 147
20 GUIDE-USH2A-R27 UUAGCUACCUCUUAGUUAUA 148
21 GUIDE-USH2A-R29 UUUGGUUGGUUACCUCUGAG 149
22 GUIDE-USH2A-R30 GUUGGUUACCUCUGAGCCAA 150
23 GUIDE-USH2A-R31 UAAGUACGUGACACCCCUGG 151
24 GUIDE-USH2A-R32 GGGACCAUUUCAUCAGGUAG 152
25 GUIDE-USH2A-R34 CCUUCAGGUUAAUCCUUUCA 153
26 GUIDE-USH2A-R35 GCAACAAAGUCCUUUGUCUC 154
27 GUIDE-USH2A-R36 ACUGUGUAGGAGACAAAGGA 155
28 GUIDE-USH2A-R38 UACACCUACCAGAUAUCUAA 156
29 GUIDE-USH2A-R39 AUCUACACCAUGCAUAAGAC 157
30 GUIDE-USH2A-R40 CUUAGAAAGAAGGAUGUAUA 158
한편, 가이드 서열(제1 가이드 서열 및/또는 제2 가이드 서열)은 crRNA의 5'-말단부에 존재할 수 있다. 여기서, 가이드 서열의 5'-말단에 U-rich tail이 부가될 수 있다. 상기 U-rich tail에 대한 사항은 후술된 항목 "(2) 변형부위 2(modification site 2, MS2)에서의 변형"에 기재된 내용 전체를 참조한다.
2.3. 스캐폴드 영역(scaffold region) 및 이의 엔지니어링
가이드 RNA(gRNA)는 스캐폴드 영역 및 상술한 스페이서 영역을 포함하며, 여기서 스캐폴드 영역은 Cas12f1 분자(예컨대, Cas12f1 또는 이의 변이체 단백질)와 상호작용하여 CRISPR/Cas12f1 복합체 형성에 기여한다. 스캐폴드 영역은 crRNA 스캐폴드 서열 및 tracrRNA 스캐폴드 서열을 포함할 수 있으며, 가이드 영역의 5'-말단 방향에 위치하거나 결합할 수 있다.
스캐폴드 영역은 듀얼(dual) 스캐폴드 서열 또는 싱글(single) 스캐폴드 서열로 구성될 수 있다. 듀얼 스캐폴드 서열로 구성되는 경우 스캐폴드 서열은 두 개의 각기 다른 분자로 구성되며, 여기서 상기 두 개의 분자는 crRNA 스캐폴드 서열 및 tracrRNA 스캐폴드 서열을 각각 포함할 수 있다. 스캐폴드 영역이 듀얼 스캐폴드 서열로 구성되는 경우, 가이드 RNA 또한 듀얼 가이드 RNA로서 두 개의 분자로 구성될 수 있다. 즉, 듀얼 가이드 RNA는 crRNA 및 tracrRNA가 각각 독립적으로 존재할 수 있다. 또한, 스캐폴드 영역이 싱글 스캐폴드 서열로 구성되는 경우 스캐폴드 서열은 하나의 분자로 구성될 수 있는데, 예컨대 tracrRNA 스캐폴드 서열, 링커(linker) 및 crRNA 스캐폴드 서열을 포함할 수 있다. 스캐폴드 영역이 싱글 스캐폴드 서열로 구성되는 경우, 가이드 RNA 또한 싱글 가이드 RNA로서 단일 분자로 구성될 수 있다. 여기서, 싱글 가이드 RNA는 tracrRNA에 crRNA가 직접 연결되거나 링커를 통해 연결된 것일 수 있다. 예컨대, 싱글 가이드 RNA는 5'-(tracrRNA)-(링커)-(crRNA)-3'의 구조를 가질 수 있다.
한편, 본 발명의 일 구현예에 따른 CWCas12f1에 대하여는 자연에 존재하는 gRNA가 발견되지 않았으므로, Un1Cas12f1 및 Cas12f1 변이체 단백질뿐만 아니라 CWCas12f1 단백질에 대해서도 고효율의 표적 및 편집 활성을 나타내는 최적의 gRNA를 제작하고자 하였다. 이러한 관점에서, CWCas12f1 단백질에 대한 자연에 존재하는 gRNA는 CWCas12f1 단백질과 크기가 유사한 야생형 Un1Cas12f1에 대해 자연계에서 발견되는 야생형 gRNA일 수 있다. 즉, 본 발명에서 Cas12f1 단백질에 대한 "야생형" gRNA는 "기본형" 또는 "원형(canonical)" gRNA의 의미로 사용되었다.
상기 야생형 gRNA는 tracrRNA의 일부(tracrRNA anti-repeat) 및 crRNA 반복 부분(crRNA repeat)의 일부가 상보적으로 결합하여 듀플렉스(duplex)를 이루고 있는 구조를 2개 포함하며, 이를 편의상 R:AR1(crRNA repeat-tracrRNA anti-repeat duplex 1) 및 R:AR2(crRNA repeat-tracrRNA anti-repeat duplex 2) 부분으로 지칭한다. 야생형 가이드 RNA은 (i) 하나 이상의 스템-루프(stem-loop) 영역, (ii) tracrRNA-crRNA 상보성 영역 및 임의적으로 (iii) 연속되는 3개 이상, 4개 이상 또는 5개 이상의 유라실(U)을 포함하는 영역을 포함할 수 있다.
구체적으로, 야생형 가이드 RNA의 스캐폴드 영역은 5'-말단부터 순차적으로 제1 스템-루프 영역, 제2 스템-루프 영역, 제3 스템-루프 영역, 제4 스템-루프 영역 및 제5 스템-루프 영역(또는 제5 스템 영역 또는 tracrRNA-crRNA 상보성 영역)을 포함할 수 있다. 예컨대, 도 2를 참조하면, 야생형의 듀얼 가이드 RNA의 스캐폴드 영역은 5개의 스템 영역, 즉, 5'-말단으로부터 제1 스템-루프 영역(스템 1), 제2 스템-루프 영역(스템 2), 제3 스템-루프 영역(스템 3), 제4 스템-루프 영역(스템 4) 및 제5 스템 영역(스템 5(R:AR2 포함))를 포함한다. 본 명세서에서, 스템 5(R:AR2)를 포함하는 영역은 tracrRNA-crRNA 상보성 영역으로도 지칭된다. 한편, 본 발명에서 상기 스템 또는 스템-루프 영역, tracrRNA-crRNA 상보성 영역 등으로 세분화된 영역은 스캐폴드 서열의 모든 영역을 포괄하는 것이 아니며, 스캐폴드 서열은 상기 세분화된 영역에 해당하지 않는 다른 영역 또는 서열을 더 포함할 수 있다.
보다 구체적으로, 야생형 gRNA는 서열번호 175의 염기서열을 갖는 야생형 tracrRNA를 포함하거나, 서열번호 176의 염기서열을 갖는 야생형 crRNA를 포함할 수 있다. 또한, 야생형 gRNA는 싱글 가이드 RNA 형태로 융합되어 서열번호 177의 염기서열을 갖는 싱글 가이드 RNA(sgRNA)일 수 있다. 상기 야생형의 tracrRNA, crRNA 및 sgRNA의 대표적인 서열은 표 6에 제시되어 있다.
명칭 염기서열 (5'→3') 서열
번호
Wild-type tracrRNA CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUUUCCUCUCCAAUUCUGCACAA 175
Wild-type crRNA GUUGCAGAACCCGAAUAGACGAAUGAAGGAAUGCAAC 176
Canonical sgRNA CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUUUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGacgaaUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 177
상기 표 6에서 'NNNNNNNNNNNNNNNNNNNN'으로 표시된 서열은 표적 유전자(예컨대, USH2A 유전자) 내의 표적 서열과 혼성화할 수 있는 임의의 길이(예컨대, 15 내지 40 뉴클레오티드 길이)를 갖는 가이드 서열(스페이서 서열)을 의미한다.
일 구현예에서, 본 발명의 Cas12f1 또는 이의 변이체 단백질에 대한 가이드 RNA(예컨대, 제1 가이드 RNA 및/또는 제2 가이드 RNA)는 자연계에서 발견되는 야생형 가이드 RNA에 새로운 구성을 추가하거나, 원형의 구조를 변형(예컨대, 제거 및/또는 치환)한 엔지니어링된 가이드 RNA인 것을 특징으로 한다.
보다 구체화된 구현예에서, 엔지니어링된 gRNA(예컨대, 제1 gRNA 및/또는 제2 gRNA)는 야생형 gRNA 서열에서 1개 이상의 뉴클레오티드가 치환, 결실, 삽입 또는 부가된 서열을 포함하고, 가이드 서열을 제외한 부분이 상기 야생형 Cas12f1 gRNA와 적어도 50%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 95% 서열 동일성을 갖는 엔지니어링된 gRNA이다. RNA, 핵산 또는 폴리펩티드의 문맥에서 용어 "서열 동일성"은 비교 범위에서 최적으로 정렬된 2개의 서열을 비교하여 결정된 값을 의미하며, 이때 비교 범위 내의 RNA, 핵산 등의 서열 부분은 최적의 정렬을 위해 기준 서열과 비교하여 삽입 또는 결실(즉, 갭)을 포함할 수 있다.
이하, 야생형과 엔지니어링된 gRNA의 구조 및 그의 변형에 대해 5개의 변형부위 별로 상세히 설명한다. 변형부위는 본 명세서 전체에 걸쳐 "MS(modification site)"로 약칭되었으며, "변형부위" 또는 "MS" 뒤의 숫자는 일 실시예에 따른 각 변형부위의 실험적 엔지니어링 흐름에 따라 순차적으로 부여한 것이나, 뒤의 숫자를 가지는 변형부위에서의 엔지니어링(변형)이 앞선 숫자의 변형부위에서의 엔지니어링(변형)을 반드시 포함한다는 의미는 아니다. 도 1은 본 발명의 구현예에 따른 엔지니어링된 가이드 RNA(engineered gRNA)가 포함하는 변형부위인 MS1 내지 MS5를 야생형 가이드 RNA 서열 상에 도시한 것이다.
일 구현예에서, 상술한 gRNA의 세분화된 영역 중 변형부위 3(MS3)을 포함하는 제1 스템-루프 영역, 변형부위 5(MS5)를 포함하는 제2 스템-루프 영역 및 변형부위 1(MS1)과 변형부위 4(MS4)를 포함하는 tracrRNA-crRNA 상보성 영역(제5 스템 영역 또는 제5 스템-루프 영역)은 도 1에서 각기 다른 색의 음영으로 구분된 1점쇄선 박스로 표시된 영역에 대응되거나 이를 포함하는 영역으로 정의될 수 있다. 그 외, 제3 스템-루프 영역은 도 1에서 G(-90)-C(-74) 서열에 대응되거나 이를 포함하는 영역이고, 제4 스템-루프 영역은 도 1에서 U(-68)-A(-35) 서열에 대응되거나 이를 포함하는 영역으로 정의될 수 있다.
본 발명의 엔지니어링된 가이드 RNA(gRNA)에 적용된 변형은 궁극적으로 높은 유전자 편집 효율을 달성함과 동시에 길이는 더 짧은 gRNA를 도출하기 위한 목적을 가진다. 즉, 본 발명에서 개시하는 변형들은 길이가 더 긴 야생형의 gRNA와 비교하여 표적 핵산에 대한 인식/절단 효율이 유지 또는 향상된 더 짧은 길이의 엔지니어링된 gRNA를 제조함으로써, 아데노-연관 바이러스(AAV)와 같은 전달체의 패키징 한계치(약 4.7 kb) 내에서 더 많은 공간을 다양한 목적 또는 용도로 사용하기 위한 다른 구성요소들(예를 들어, 추가의 가이드 RNA, 특정 유전자 발현을 억제하기 위한 shRNA 등)에 할당할 수 있도록 하여 기존의 CRISPR/Cas 시스템으로는 달성할 수 없었던 고효율의 유전자 편집 효과를 부여하고자 함에 있다.
따라서 본 발명에서 제공하는 엔지니어링된 gRNA는 기본적으로 야생형 Cas12f1 gRNA 서열에서 하나 이상의 뉴클레오티드가 치환, 결실, 삽입 또는 부가된 서열을 포함한다. 이때, 엔지니어링된 gRNA는 가이드 서열을 제외한 부분이 상기 야생형 Cas12f1 gRNA와 50% 이상, 60% 이상, 70% 이상, 80% 이상, 85% 이상, 90% 이상 또는 95% 이상의 서열 동일성을 가지는 것일 수 있다.
일 구현예에서, 엔지니어링된 가이드 RNA는, (i) 하나 이상의 스템-루프(stem-loop) 영역, (ii) tracrRNA-crRNA 상보성 영역 및 임의적으로 (iii) 연속되는 3개 이상, 4개 이상 또는 5개 이상의 유라실(U)을 포함하는 영역을 포함하는 야생형 Cas12f1 gRNA와 비교하여, 본 발명의 엔지니어링된 gRNA는 (a) 하나 이상의 스템-루프 영역의 일부 또는 전부의 결실; (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실; (c) 연속되는 3개 이상, 4개 이상 또는 5개 이상의 유라실(U)이 존재하는 경우 그 중 하나 이상의 U의 치환; 및 (d) crRNA 서열의 3'-말단에 하나 이상의 유리딘(uridine)의 부가로 이루어진 군에서 선택되는 하나 이상의 변형을 포함할 수 있다.
다른 구현예에서, 엔지니어링된 가이드 RNA는 (a1) 제1 스템-루프 영역의 일부 또는 전부의 결실; (a2) 제2 스템-루프 영역의 일부 또는 전부의 결실; (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실; (c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상, 4개 이상 또는 5개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환; 및 (d) crRNA 서열의 3'-말단에 U-rich tail의 부가(상기 U-rich tail의 서열은 5'-(UmV)nUo-3'로 표시되고, 여기서 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수임)로 이루어진 군에서 선택되는 하나 이상의 변형을 포함할 수 있다.
또 다른 구현예에서, 엔지니어링된 가이드 RNA는 하기 식 (I)로 표시되는 (스캐폴드) 서열을 포함하는 스캐폴드 영역을 포함할 수 있다.
Figure PCTKR2023004330-appb-img-000008
식 (I)에서, Xa, Xb1, Xb2, Xc1 및 Xc2는 각각 독립적으로 0 내지 35개의 (폴리)뉴클레오티드로 이루어지고, Lk는 길이 2 내지 20의 폴리뉴클레오티드 링커이거나 부존재한다.
[식 (I)에서, 검정색 실선은 뉴클레오티드 사이의 화학적 결합(예를 들어, 포스포다이에스터 결합)을 의미하고, 회색 굵은선은 뉴클레오티드 사이의 상보적 결합을 의미한다.]
상기 식 (I)에서, Xa, Xb1, Xb2, Xc1 또는 Xc2가 0개의 뉴클레오티드로 이루어지는 경우는 Xa, Xb1, Xb2, Xc1 또는 Xc2가 부존재한다는 의미로 해석된다.
또한, 상기 식 (I)에서 상기 Xa, Xb1, Xb2, Xc1 또는 Xc2가 0개의 뉴클레오티드로 이루어지거나 부존재하는 경우에는 Xa, Xb1, Xb2, Xc1 또는 Xc2를 통해 연결된 2 이상의 뉴클레오티드가 존재하였을 경우 이들이 어떠한 방식으로든 직접 연결된 상태인 것으로 해석된다. 예를 들어, 상기 식 (I)에서 Xb1이 0개의 뉴클레오티드로 이루어지거나 부존재하는 경우 Xb1의 5'-말단에 직접 연결된 뉴클레오티드와 Xb1의 3'-말단에 직접 연결된 뉴클레오티드가 예를 들어, 포스포다이에스터 결합으로 직접 연결된 상태일 수 있다.
일 구현예에서, 상기 Xa는 존재하지 않거나 스템-루프 형태를 가질 수 있는 (폴리)뉴클레오티드일 수 있다. 다른 구현예에서, 상기 Xa는 0 내지 20개의 (폴리)뉴클레오티드로 이루어질 수 있다.
일 구현예에서, 상기 Xb1 및 Xb2는 상보적 결합을 할 수 있는 (폴리)뉴클레오티드일 수 있다. 다른 구현예에서, Xb1은 0 내지 13개의 (폴리)뉴클레오티드로 이루어질 수 있고, 또는 Xb2는 0 내지 14개의 (폴리)뉴클레오티드로 이루어질 수 있다.
일 구현예에서, Xc1 및 Xc2는 상보적 결합을 할 수 있는 (폴리)뉴클레오티드일 수 있다. 다른 구현예에서, Xc1은 0 내지 28개의 (폴리)뉴클레오티드로 이루어질 수 있고, 또는 Xc2는 0 내지 27개의 (폴리)뉴클레오티드로 이루어질 수 있다.
일 구현예에서, Lk는 길이 2 내지 20, 길이 2 내지 15, 길이 2 내지 10, 또는 길이 2 내지 8의 폴리뉴클레오티드 링커이거나 부존재한다.
다른 구현예에서, 엔지니어링된 gRNA의 스캐폴드 영역은 상기 식 (I)로 표시되는 스캐폴드 서열로 이루어지거나 상기 서열과 80% 이상, 85% 이상, 90% 이상 또는 95% 이상의 서열 동일성을 갖는 gRNA일 수 있다. 이때, 식 (I)에 대한 서열 동일성은 부호로 표시된 영역을 제외한 서열을 기준으로 한다.
야생형 가이드 RNA의 스캐폴드 영역을 참조할 때, 스캐폴드 서열의 제1 스템-루프 영역은 식 (I)에서 Xa에 대응되거나 Xa를 포함하는 영역일 수 있다. 스캐폴드 서열의 제2 스템-루프 영역은 식 (I)에서 Xb1 및 Xb2에 대응되거나 이들을 포함하는 영역일 수 있다. 예컨대, Xb1 및 Xb2을 포함하는 제2 스템-루프 5'-CCGCUUCAC-Xb1-uuag-Xb2-AGUGAAGGUG-3' 서열에 해당하는 영역일 수 있다. 스캐폴드 서열의 제3 스템 영역은 식 (I)에서 5'-GGCUGCUUGCAUCAGCC-3' 서열에 대응되거나 이를 포함하는 영역일 수 있다. 스캐폴드 서열의 제4 스템-루프 영역은 식 (I)에서 5'-UCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGA-3' 서열에 대응되거나 이를 포함하는 영역일 수 있다. 또한, 스캐폴드 서열의 tracrRNA-crRNA 상보성 영역(제5 스템(-루프) 영역)은 식 (I)에서 Xc1 및 Xc2에 대응되는 영역일 수 있다.
이하, 엔지니어링된 gRNA에서의 각 변형부위별 변형에 대해 자세히 설명한다.
(1) 변형부위 1(modification site 1, MS1)에서의 변형
본 항목에서는 MS1에서의 변형을 기술한다(도 1). 일 구현예에서, 자연에 존재하는 가이드 RNA(gRNA)가 포함할 수 있는 야생형 tracrRNA(예컨대, 서열번호 175)는 서열 내에 연속된 다섯 개의 유라실(U)을 포함하는 서열을 가질 수 있다. 이는 상기 야생형 tracrRNA를 세포 내에서 벡터 등을 이용하여 발현시키고자 할 때, 특정 조건에서는 상기 서열이 전사종결신호로써 작용하여 의도하지 않은 전사의 조기 종결을 야기하는 문제를 안고 있다. 즉, 상기 연속된 다섯 개의 U를 포함하는 서열이 전사종결신호로써 작동하게 되는 경우에는 상기 tracrRNA의 정상적인 또는 완전한 발현이 억제되고, 정상적인 또는 완전한 gRNA의 형성 또한 저해되어 결과적으로 본 발명의 USH2A 유전자 편집 시스템의 유전자 편집(예컨대, 엑손 13의 결실) 효율을 감소시킨다.
따라서 상술한 문제점을 해결하기 위해, 엔지니어링된 gRNA는 야생형 tracrRNA(예컨대, 서열번호 175)의 연속된 세 개 이상, 네 개 이상, 다섯 개 이상의 U, 바람직하게는 네 개 또는 다섯 개의 U 중 적어도 하나의 U를 다른 뉴클레오티드인 A, C, T 또는 G로 인위적으로 변형시킨 것일 수 있다.
일 구현예로, MS1으로 지칭되는 연속되는 3개 이상, 4개 이상 또는 5개 이상의 유라실(U)을 포함하는 영역에서 연속되는 3개 이상, 4개 이상 또는 5개 이상의 U 중 적어도 하나의 U를 다른 종류의 뉴클레오티드로 치환된 변형을 포함하는 엔지니어링된 gRNA가 제공된다. 일 예로, 상기 연속되는 3개 이상, 4개 이상 또는 5개 이상의 U는 tracrRNA의 tracrRNA-crRNA 상보성 영역 내에 존재할 수 있으며, 여기서 상기 연속되는 3개 이상, 바람직하게는 4개 이상 또는 5개 이상의 U 중 하나 이상을 A, G 또는 C로 치환함으로써 3개 이상, 바람직하게는 4개 이상 또는 5개 이상의 U가 연속되는 서열이 나타나지 않도록 변형될 수 있다.
이때, 상기 변형되는 서열에 대응되는 crRNA의 tracrRNA-crRNA 상보성 영역 내 서열 또한 함께 변형되는 것이 바람직하다. 일 구현예로, tracrRNA의 tracrRNA-crRNA 상보성 영역 내에서 서열 5'-UUUUU-3'과 일부 상보적 결합을 이루는 crRNA의 tracrRNA-crRNA 상보성 영역 내에 서열 5'-ACGAA-3'가 존재하는 경우 해당 서열은 5'-NGNNN-3'로 치환될 수 있다. 여기서, N은 각각 독립적으로 A, C, G 또는 U이다.
일 구현예에서, 상기 식 (I)의 엔지니어링된 gRNA에서 Xc1 서열 내에 연속되는 3개 이상, 4개 이상 또는 5개 이상의 유라실(U)이 존재하는 경우 이들 중 하나 이상의 U가 A, G 또는 C로 치환되는 변형을 포함할 수 있다. 예컨대, Xc1 서열 내에 서열 5'-UUUUU-3'이 존재하는 경우 해당 서열은 5'-NNNCN-3'으로 치환될 수 있다. 여기서, N은 각각 독립적으로 A, C, G 또는 U이다. 보다 구체화된 예로, Xc1 서열 내의 서열 5'-UUUUU-3'은 하기 서열로 이루어진 군에서 선택된 어느 하나의 핵산 서열로 치환될 수 있으나, 연속되는 3개 이상, 바람직하게는 4개 이상 또는 5개 이상의 U를 포함하는 서열을 나타나지 않게 하는 것이라면 하기 서열로 제한되지 않는다: 5'-UUUCU-3', 5'-GUUCU-3', 5'-UCUCU-3', 5'-UUGCU-3', 5'-UUUCC-3', 5'-GCUCU-3', 5'-GUUCC-3', 5'-UCGCU-3', 5'-UCUCC-3', 5'-UUGCC-3', 5'-GCGCU-3', 5'-GCUCC-3', 5'-GUGCC-3', 5'-UCGCC-3', 5'-GCGCC-3' 및 5'-GUGCU-3'.
다른 구현예에서, 상기 식 (I)의 엔지니어링된 gRNA에서 Xc2 서열은 Xc1 서열과 적어도 일부 서열이 상보적 결합을 이루는 영역을 포함하며(tracrRNA-crRNA 상보성 영역으로도 지칭됨), 이때 Xc1 서열 내에 존재하는 연속되는 3개 이상, 4개 이상 또는 5개 이상의 U와 적어도 하나의 상보성 결합을 형성하는 Xc2 서열 내의 대응 서열도 함께 변형될 수 있다. 예컨대, 상기 식 (I)의 Xc2 서열 내에 서열 5'-ACGAA-3'가 존재하는 경우 해당 서열은 5'-NGNNN-3'로 치환될 수 있다. 여기서, N은 각각 독립적으로 A, C, G 또는 U이다. 보다 구체화된 예로, 식 (I)의 Xc1 서열 내의 서열 5'-ACGAA-3'은 하기 서열로 이루어진 군에서 선택된 어느 하나의 핵산 서열로 치환될 수 있으나 하기 서열에 제한되는 것은 아니다: 5'-AGGAA-3', 5'-AGCAA-3', 5'-AGAAA-3', 5'-AGCAU-3', 5'-AGCAG-3', 5'-AGCAC-3', 5'-AGCUA-3', 5'-AGCGA-3', 5'-AGCCA-3', 5'-UGCAA-3', 5'-UGCUA-3', 5'-UGCGA-3', 5'-UGCCA-3', 5'-GGCAA-3', 5'-GGCUA-3', 5'-GGCGA-3', 5'-GGCCA-3', 5'-CGCAA-3', 5'-CGCUA-3', 5'-CGCGA-3' 및 5'-CGCCA-3'.
다른 구현예에서, 상기 식 (I)의 Xc1 서열 내의 연속되는 3개 이상, 4개 이상 또는 5개 이상의 U를 포함하는 서열이 다른 서열로 변형되는 경우, 이에 대응되는(즉, 적어도 일부가 상보적 결합을 형성하는) Xc2 서열 내의 대응되는 뉴클레오티드는 변형된 뉴클레오티드와 상보적 결합을 이룰 수 있도록 변형되는 것이 바람직하다. 예를 들어, Xc1 서열 내의 서열 5'-UUUUU-3'이 5'-GUGCU-3'으로 변형되는 경우 Xc2 서열 내의 서열 5'-ACGAA-3'은 5'-AGCAA-3'로 변형되는 것이 바람직하나, 상보적 결합이 필수로 요구되는 것은 아니다.
(2) 변형부위 2(modification site 2, MS2)에서의 변형
본 항목에서는 MS2에서의 변형을 기술한다(도 1). 일 구현예에서, 엔지니어링된 가이드 RNA(gRNA)는 자연계에서 발견되는 gRNA에 새로운 구성을 추가한 것으로서 crRNA 서열의 3'-말단, 보다 구체적으로 crRNA에 포함된 스페이서 서열의 3'-말단에 하나 이상의 유리딘(uridine)이 부가된 것일 수 있다. 여기서, 상기 crRNA 서열의 3'-말단은 가이드 서열(스페이서)의 3'-말단일 수 있다. 본 명세서에서 상기 3'-말단에 부가된 하나 이상의 유리딘은 "U-rich tail"로도 지칭된다. 상기 3'-말단에 부가된 하나 이상의 유리딘 또는 U-rich tail을 포함하는 엔지니어링된 gRNA는 초소형 CRISPR/Cas12f1 시스템의 표적 유전자 또는 표적 핵산에 대한 핵산 절단 또는 인델(indel) 효율을 높이는 역할을 한다.
본 명세서에서 사용되는 용어 "U-rich tail"은 유리딘(U)이 풍부하게 포함된 RNA 서열 그 자체뿐 아니라, 이를 암호화하는 DNA 서열을 의미할 수도 있으며, 이는 문맥에 따라서 적절하게 해석된다. 본 발명자들은 U-rich tail 서열의 구조 및 그 효과에 대해 실험적으로 자세히 밝혔으며, 이하 구체적인 구현예로 더 자세히 설명한다.
일 구현예에서, U-rich tail 서열은 Ux로 표현될 수 있다. 상기 x는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20일 수 있다. 일 예로, x는 상기 나열된 수치 중에서 선택된 두 수치 범위 내의 정수일 수 있다. 예를 들어, x는 1 내지 6 사이의 정수일 수 있다. 또 다른 예를 들어, x는 1 내지 20 사이의 정수일 수 있다. 일 구현예로, x는 20 이상의 정수일 수 있다.
다른 구현예에서, U-rich tail의 서열은 5'-(UmV)nUo-3'로 표시되고 여기서 상기 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수일 수 있다. 일 예로, 상기 n은 0, 1 또는 2일 수 있다. 일 예로, 상기 m 및 o는 각각 독립적으로 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10일 수 있다.
또 다른 구현예에서, U-rich tail의 서열은 5'-(UmV)nUo-3'로 표시되는 서열에서 (i) n은 0이고, o는 1 내지 6 사이의 정수이거나, (ii) V는 각각 독립적으로 A 또는 G이고, m 및 o는 각각 독립적으로 3 내지 6 사이의 정수이고, n은 1 내지 3 사이의 정수인 U-rich tail일 수 있다. 구체화된 예에서, U-rich tail은 5'-U-3', 5'-UU-3', 5'-UUU-3', 5'-UUUU-3', 5'-UUUUU-3', 5'-UUUUUU-3', 5'-UUURUUU-3', 5'-UUURUUURUUU-3', 5'-UUUURU-3', 5'-UUUURUU-3', 5'-UUUURUUU-3', 5'-UUUURUUUU-3', 5'-UUUURUUUUU-3' 및 5'-UUUURUUUUUU-3'로 이루어진 군에서 선택된 어느 하나의 서열로 이루어지고, 상기 R은 A 또는 G인 U-rich tail일 수 있다. 예컨대, U-rich tail은 5'-UUUUUUUUUU-3'(서열번호 351), 5'-UUAUUUAUUU-3'(서열번호 352), 5'-UUUCUAUUUU-3'(서열번호 353) 또는 5'-UUAUGUUUUU-3'(서열번호 354)의 서열로 이루어지거나 이를 포함하는 서열일 수 있다.
또 다른 구현예에서, U-rich tail 서열은 유리딘이 1개 내지 5개 반복될 때마다 유리딘이 아닌 다른 리보뉴클레오시드(A, C 또는 G)가 하나씩 포함된 변형된 유리딘 반복 서열을 포함할 수 있다. 상기 변형된 유리딘 연속 서열은 특히 엔지니어링된 crRNA를 발현하는 벡터를 설계할 때 유용하다. 일 구현예로, U-rich tail 서열은 UV, UUV, UUUV, UUUUV 및/또는 UUUUUV가 하나 이상 반복된 서열을 포함할 수 있다. 이때, 상기 V는 A, C, G 중 하나이다.
또한, 상기 U-rich tail 서열은 Ux로 표현되는 서열 및 5'-(UmV)n-3'으로 표현되는 서열이 조합된 형태일 수 있다. 일 구현예로, 상기 U-rich tail 서열은 (U)n1-V1-(U)n2-V2-Ux로 표현될 수 있다. 이때, V1 및 V2는 각각 아데닌(A), 사이티딘(C), 구아닌(G) 중 하나이다. 이때, 상기 n1 및 n2는 각각 1 내지 4 사이의 정수일 수 있다. 이때, 상기 x는 1 내지 20 사이의 정수일 수 있다. 또한, 상기 U-rich tail 서열의 길이는 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 또는 20nt일 수 있다. 일 구현예로, 상기 U-rich tail 서열의 길이는 20nt 이상일 수 있다.
다른 구현예에서, 엔지니어링된 gRNA가 세포 내에서 발현될 경우 U-rich tail은 전사 조기 종결에 의해 한 가지 이상의 서열로 발현될 수 있다. 예를 들어, 일 구현예에 따라 5'-UUUUAUUUUUU-3' 서열의 U-rich tail이 포함되도록 의도한 gRNA가 세포 내에서 전사될 때 4개 이상 또는 5개 이상의 T는 종결 시퀀스로 작용할 수 있으므로, 5'-UUUUAUUUU-3', 5'-UUUUAUUUUU-3' 또는 5'-UUUUAUUUUUU-3' 등의 U-rich tail을 포함하는 gRNA가 동시에 생성될 수 있다. 따라서, 본 발명에서 4개 이상의 U가 포함된 U-rich tail은 의도한 길이보다 더 짧은 길이의 U-rich tail 서열을 함께 포함하는 것으로 이해될 수 있다.
또 다른 구현예에서, U-rich tail 서열은 본 발명의 유전자 편집 시스템의 실사용 환경 및 발현 환경, 예를 들어 진핵 세포 또는 원핵 세포 내부 환경에 따라 유리딘 외에 추가적인 염기를 더 포함할 수 있다.
(3) 변형부위 3(modification site 3, MS3)에서의 변형
본 항목에서는 MS3에서의 변형을 기술한다(도 1). 상술한 바와 같이 MS3은 gRNA 및 이펙터 단백질 복합체 내에서 스템-루프 구조를 형성하는 뉴클레오티드의 일부 또는 전부를 포함하는 부위(제1 스템-루프 영역으로 지칭될 수 있음)로서, 상기 MS3는 gRNA 및 이펙터 단백질이 복합체를 이룰 때 이펙터 단백질과 상호작용하지 않는 영역을 포함할 수 있다. MS3에서의 변형은 tracrRNA의 5'-말단 부근의 제1 스템-루프 영역의 일부 또는 전부의 제거를 포함한다.
일 구현예에서, 엔지니어링된 gRNA는 제1 스템-루프 영역(예컨대, 서열번호 178의 서열)의 일부 또는 전부가 결실된 변형을 포함한다.
다른 구현예에서, 엔지니어링된 gRNA는 tracrRNA 상의 제1 스템-루프 영역의 일부 또는 전부가 결실된 변형을 포함하며, 이때 상기 결실되는 제1 스템-루프 영역의 일부 또는 전부는 1개 내지 20개 뉴클레오티드일 수 있다. 구체적으로, 상기 제1 스템-루프 영역의 일부 또는 전부는 2개 내지 20개, 3개 내지 20개, 4개 내지 20개, 5개 내지 20개, 6개 내지 20개, 7개 내지 20개, 8개 내지 20개, 9개 내지 20개, 10개 내지 20개, 11개 내지 20개, 12개 내지 20개, 13개 내지 20개, 14개 내지 20개, 15개 내지 20개, 16개 내지 20개, 17개 내지 20개, 18개 내지 20개, 19개 또는 20개 뉴클레오티드일 수 있다.
또 다른 구현예에서, MS3 또는 제1 스템-루프 영역은 식 (I)의 Xa로 표시된 폴리뉴클레오티드에 대응되는 부위로서, 제1 스템-루프 영역의 일부 또는 전부가 결실된 변형에 의해 상기 Xa는 0 내지 35개의 (폴리)뉴클레오티드로 이루어질 수 있고, 바람직하게는 0 내지 20개, 0 내지 19개, 0 내지 18개, 0 내지 17개, 0 내지 16개, 0 내지 15개, 0 내지 14개, 0 내지 13개, 0 내지 12개, 0 내지 11개, 0 내지 10개, 0 내지 9개, 0 내지 8개, 0 내지 7개, 0 내지 6개, 0 내지 5개, 0 내지 4개, 0 내지 3개, 0 내지 2개, 1개 또는 0개의 (폴리)뉴클레오티드로 이루어질 수 있다.
일 구현예로, 상기 식 (I)의 스캐폴드 서열에서 Xa는 서열번호 178의 핵산 서열을 포함하거나 상기 서열의 전부 또는 일부, 바람직하게는 상기 서열번호 178의 서열에서 1 내지 20개의 뉴클레오티드가 결실된 핵산 서열을 포함할 수 있다. 예컨대, 상기 뉴클레오티드의 결실은 서열번호 178의 서열에서 뉴클레오티드가 무작위로 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개 15개, 16개, 17개, 18개, 19개 또는 20개가 결실된 것일 수 있다. 바람직한 예로, 상기 뉴클레오티드의 결실은 서열번호 178의 서열에서 5'-말단으로부터 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개 15개, 16개, 17개, 18개, 19개 또는 20개의 뉴클레오티드가 5'-말단부터 순차적으로 결실된 것일 수 있다. 보다 구체적으로, 상기 식 (I)의 Xa는 5'-CUUCACUGAUAAAGUGGAGA-3'(서열번호 178), 5'-UUCACUGAUAAAGUGGAGA-3'(서열번호 179), 5'-UCACUGAUAAAGUGGAGA-3'(서열번호 180), 5'-CACUGAUAAAGUGGAGA-3'(서열번호 181), 5'-ACUGAUAAAGUGGAGA-3'(서열번호 182), 5'-CUGAUAAAGUGGAGA-3'(서열번호 183), 5'-UGAUAAAGUGGAGA-3'(서열번호 184), 5'-GAUAAAGUGGAGA-3'(서열번호 185), 5'-AUAAAGUGGAGA-3'(서열번호 186), 5'-UAAAGUGGAGA-3'(서열번호 187), 5'-AAAGUGGAGA-3'(서열번호 188), 5'-AAGUGGAGA-3', 5'-AGUGGAGA-3', 5'-GUGGAGA-3', 5'-UGGAGA-3', 5'-GGAGA-3', 5'-GAGA-3', 5'-AGA-3', 5'-GA-3' 또는 5'-A-3'의 서열을 포함하거나 이로 이루어질 수 있고, 또는 Xa는 부존재할 수 있다.
(4) 변형부위 4(modification site 4, MS4)에서의 변형
본 항목에서는 MS4에서의 변형을 기술한다(도 1). MS4는 tracrRNA의 3'-말단부 및 crRNA의 5'-말단부에 걸쳐 위치한 부위, 또는 싱글 가이드 RNA 형태인 경우 tracrRNA에 해당하는 서열과 crRNA에 해당하는 서열이 적어도 일부 상보적 결합을 이루는 부위로서 tracrRNA-crRNA 상보성 영역(제5 스템 영역으로도 지칭될 수 있음)으로 지칭되는 서열의 일부 또는 전부를 포함할 수 있다. 본 발명에서 tracrRNA-crRNA 상보성 영역은 변형부위 1(MS1)과 변형부위 4(MS4)를 함께 포함할 수 있다. MS4에서의 변형은 tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실을 포함한다. 상기 tracrRNA-crRNA 상보성 영역은 tracrRNA의 일부 및 crRNA의 일부를 포함하여, gRNA 및 핵산 분해 단백질의 복합체 내에서 tracrRNA에 포함된 일부 뉴클레오티드가 crRNA에 포함된 일부 뉴클레오티드와 상보적인 결합을 형성할 수 있는 뉴클레오티드를 포함하고, 이와 인접한 뉴클레오티드를 포함할 수 있다. tracrRNA의 tracrRNA-crRNA 상보성 영역은 gRNA와 핵산 분해 단백질 복합체 내에서 핵산 분해 단백질과 상호작용하지 않는 영역을 포함할 수 있다.
일부 구현예에서, 엔지니어링된 gRNA는 tracrRNA에서의 tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실, crRNA에서의 tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실, 또는 상기 tracrRNA 및 crRNA 모두에서의 tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실을 포함한다.
일 구현예에서, tracrRNA-crRNA 상보성 영역은 서열번호 203의 뉴클레오티드 서열 및/또는 서열번호 222의 뉴클레오티드 서열을 포함할 수 있다.
다른 구현예에서, tracrRNA-crRNA 상보성 영역은 tracrRNA의 3'-말단과 crRNA의 5'-말단을 연결하는 링커(예컨대, 폴리뉴클레오티드)를 추가로 포함할 수 있다.
일 구현예에서, 엔지니어링된 gRNA는 tracrRNA-crRNA 상보성 영역의 일부가 결실된 변형을 포함하며, 이때 결실되는 상기 상보성 영역의 일부는 1개 내지 54개 뉴클레오티드일 수 있다.
다른 구현예에서, 엔지니어링된 gRNA는 tracrRNA-crRNA 상보성 영역의 전부가 결실된 변형을 포함하며, 이때 결실되는 상기 상보성 영역의 전부는 55개 뉴클레오티드일 수 있다.
구체적으로, 상기 tracrRNA-crRNA 상보성 영역의 일부 또는 전부는 3개 내지 55개, 5개 내지 55개, 7개 내지 55개, 9개 내지 55개, 11개 내지 55개, 13개 내지 55개, 15개 내지 55개, 17개 내지 55개, 19개 내지 55개, 21개 내지 55개, 23개 내지 55개, 25개 내지 55개, 27개 내지 55개, 29개 내지 55개, 31개 내지 55개, 33개 내지 55개, 35개 내지 55개, 37개 내지 55개, 39개 내지 55개 또는 41개 내지 55개 뉴클레오티드일 수 있으며, 바람직하게는 42개 내지 55개, 43개 내지 55개, 44개 내지 55개, 45개 내지 55개, 46개 내지 55개, 47개 내지 55개, 48개 내지 55개, 49개 내지 55개, 50개 내지 55개, 51개 내지 55개, 52개 내지 55개, 53개 내지 55개, 54개 또는 55개 뉴클레오티드일 수 있다.
또 다른 구현예에서, MS4 또는 tracrRNA-crRNA 상보성 영역은 식 (I)의 Xc1 및 Xc2로 표시된 폴리뉴클레오티드에 대응되거나 이를 포함하는 영역으로서, tracrRNA-crRNA 상보성 영역의 일부 또는 전부가 결실된 변형에 의해 상기 Xc1 및 Xc2는 각각 독립적으로 0 내지 35개의 (폴리)뉴클레오티드로 이루어질 수 있다.
바람직하게, Xc1은 0 내지 28개, 0 내지 27개, 0 내지 26개, 0 내지 25개, 0 내지 24개, 0 내지 23개, 0 내지 22개, 0 내지 21개, 0 내지 20개, 0 내지 19개, 0 내지 18개, 0 내지 17개, 0 내지 16개, 0 내지 15개, 0 내지 14개, 0 내지 13개, 0 내지 12개, 0 내지 11개, 0 내지 10개, 0 내지 9개, 0 내지 8개, 0 내지 7개, 0 내지 6개, 0 내지 5개, 0 내지 4개, 0 내지 3개, 0 내지 2개, 1개 또는 0개의 (폴리)뉴클레오티드로 이루어질 수 있다. 또한, 바람직하게, 상기 Xc2는 0 내지 27개, 0 내지 26개, 0 내지 25개, 0 내지 24개, 0 내지 23개, 0 내지 22개, 0 내지 21개, 0 내지 20개, 0 내지 19개, 0 내지 18개, 0 내지 17개, 0 내지 16개, 0 내지 15개, 0 내지 14개, 0 내지 13개, 0 내지 12개, 0 내지 11개, 0 내지 10개, 0 내지 9개, 0 내지 8개, 0 내지 7개, 0 내지 6개, 0 내지 5개, 0 내지 4개, 0 내지 3개, 0 내지 2개, 1개 또는 0개의 (폴리)뉴클레오티드로 이루어질 수 있다.
일 구현예에서, 상기 식 (I)의 스캐폴드 서열에서 Xc1은 서열번호 203의 핵산 서열을 포함하거나 상기 서열번호 203의 서열에서 1 내지 28개의 뉴클레오티드가 결실된 핵산 서열을 포함할 수 있다. 바람직하게, 상기 뉴클레오티드의 결실은 서열번호 203의 서열에서 5'-말단으로부터 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개 또는 28개의 뉴클레오티드가 순차적으로 제거된 것일 수 있다. 보다 구체적으로, 상기 Xc1은 5'-UUCAUUUUUCCUCUCCAAUUCUGCACAA-3'(서열번호 203), 5'-UUCAUUUUUCCUCUCCAAUUCUGCACA-3'(서열번호 204), 5'-UUCAUUUUUCCUCUCCAAUUCUGCAC-3'(서열번호 205), 5'-UUCAUUUUUCCUCUCCAAUUCUGCA-3'(서열번호 206), 5'-UUCAUUUUUCCUCUCCAAUUCUGC-3'(서열번호 207), 5'-UUCAUUUUUCCUCUCCAAUUCUG-3'(서열번호 208), 5'-UUCAUUUUUCCUCUCCAAUUCU-3'(서열번호 209), 5'-UUCAUUUUUCCUCUCCAAUUC-3'(서열번호 210), 5'-UUCAUUUUUCCUCUCCAAUU-3'(서열번호 211), 5'-UUCAUUUUUCCUCUCCAAU-3'(서열번호 212), 5'-UUCAUUUUUCCUCUCCAA-3'(서열번호 213), 5'-UUCAUUUUUCCUCUCCA-3'(서열번호 214), 5'-UUCAUUUUUCCUCUCC-3'(서열번호 215), 5'-UUCAUUUUUCCUCUC-3'(서열번호 216), 5'-UUCAUUUUUCCUCU-3'(서열번호 217), 5'-UUCAUUUUUCCUC-3'(서열번호 218), 5'-UUCAUUUUUCCU-3'(서열번호 219), 5'-UUCAUUUUUCC-3'(서열번호 220), 5'-UUCAUUUUUC-3'(서열번호 221), 5'-UUCAUUUUU-3', 5'-UUCAUUUU-3', 5'-UUCAUUU-3', 5'-UUCAUU-3', 5'-UUCAU-3', 5'-UUCA-3', 5'-UUC-3', 5'-UU-3' 또는 5'-U-3'의 서열을 포함하거나 이로 이루어질 수 있고, 또는 Xc1은 부존재할 수 있다.
이때, 일부 뉴클레오티드가 제거된 Xc1 서열 내에 3개, 4개 또는 5개 이상의 유라실(U)을 포함하는 영역이 존재하는 경우에는 상술한 MS1에서의 변형이 또한 적용될 수 있다. MS1에 대한 구체적인 내용은 상기 "(1) 변형부위 1(modification site 1, MS1)에서의 변형" 항목을 참조한다.
또 다른 구현예로, 상기 식 (I)의 스캐폴드 서열에서 Xc2는 서열번호 222의 핵산 서열을 포함하거나 상기 서열번호 222의 서열에서 1 내지 27개의 뉴클레오티드가 결실된 핵산 서열을 포함할 수 있다. 바람직하게, 상기 뉴클레오티드의 결실은 서열번호 222의 서열에서 5'-말단으로부터 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개 또는 27개의 뉴클레오티드가 순차적으로 제거된 것일 수 있다. 보다 구체적으로, 상기 Xc2는 5'-GUUGCAGAACCCGAAUAGACGAAUGAA-3'(서열번호 222), 5'-UUGCAGAACCCGAAUAGACGAAUGAA-3'(서열번호 223), 5'-UGCAGAACCCGAAUAGACGAAUGAA-3'(서열번호 224), 5'-GCAGAACCCGAAUAGACGAAUGAA-3'(서열번호 225), 5'-CAGAACCCGAAUAGACGAAUGAA-3'(서열번호 226), 5'-AGAACCCGAAUAGACGAAUGAA-3'(서열번호 227), 5'-GAACCCGAAUAGACGAAUGAA-3'(서열번호 228), 5'-AACCCGAAUAGACGAAUGAA-3'(서열번호 229), 5'-ACCCGAAUAGACGAAUGAA-3'(서열번호 230), 5'-CCCGAAUAGACGAAUGAA-3'(서열번호 231), 5'-CCGAAUAGACGAAUGAA-3'(서열번호 232), 5'-CGAAUAGACGAAUGAA-3'(서열번호 233), 5'-GAAUAGACGAAUGAA-3'(서열번호 234), 5'-AAUAGACGAAUGAA-3'(서열번호 235), 5'-AUAGACGAAUGAA-3'(서열번호 236), 5'-UAGACGAAUGAA-3'(서열번호 237), 5'-AGACGAAUGAA-3'(서열번호 238), 5'-GACGAAUGAA-3'(서열번호 239), 5'-ACGAAUGAA-3', 5'-CGAAUGAA-3', 5'-GAAUGAA-3', 5'-AAUGAA-3', 5'-AUGAA-3', 5'-UGAA-3', 5'-GAA-3', 5'-AA-3' 또는 5'-A-3'의 서열을 포함하거나 이로 이루어질 수 있고, 또는 Xc2는 부존재할 수 있다.
이때, 일부 뉴클레오티드가 제거된 Xc2 서열 내에 Xc1 서열 내 3개 이상, 또는 3개, 4개 또는 5개 이상의 U를 포함하는 서열에 대응되는 서열이 존재하는 경우에는 상술한 MS1에서의 변형이 또한 적용될 수 있다. MS1에 대한 구체적인 내용은 상기 "(1) 변형부위 1(modification site 1, MS1)에서의 변형" 항목을 참조한다.
식 (I)의 스캐폴드 서열에서 Xc1과 Xc2에 해당하는 영역은 각각 독립적으로 상술한 변형이 적용될 수 있으나, MS4 또는 tracrRNA-crRNA 상보성 영역은 tracrRNA와 crRNA가 상보적 결합을 이루는 영역으로서 듀얼 가이드 RNA로 작동하기 위해서는 Xc1 및 Xc2 각각에서 결실되는 뉴클레오티드의 위치와 개수를 동일하거나 유사하게 하는 것이 바람직하다. 즉, Xc1과 Xc2 서열의 상보성을 보존하기 위해, MS4(tracrRNA-crRNA 상보성 영역)에서 tracrRNA의 3'-말단에 위치한 서열부터 순차적으로 결실시키는 경우 crRNA는 5'-말단 서열부터 순차적으로 결실시키는 것이 바람직하다. 이러한 관점에 따른 일 구현예에서, Xc1 및 Xc2 핵산 서열의 결실은 하나 이상의 상보적인 뉴클레오티드 쌍의 결실일 수 있다.
일 구현예에서, 상기 식 (I)의 스캐폴드 서열에서 Xc1의 3'-말단과 Xc2의 5'-말단은 링커(Lk)로 연결되어 싱글 가이드 RNA(sgRNA) 형태로 변형될 수 있다. 상기 Lk는 tracrRNA 및 crRNA을 물리적 또는 화학적으로 연결하는 서열로서, 길이 1 내지 30개의 폴리뉴클레오티드 서열일 수 있다. 일 구현예로서, 상기 Lk는 1 내지 5개, 5 내지 10개, 10 내지 15개, 2 내지 20개, 15 내지 20개, 20개 내지 25개 또는 25 내지 30개의 뉴클레오티드 서열일 수 있다. 예를 들어, 상기 Lk는 5'-GAAA-3' 서열일 수 있으나, 이에 제한되는 것은 아니다. 다른 예로, 상기 Lk는 5'-UUAG-3', 5'-UGAAAA-3', 5'-UUGAAAAA-3', 5'-UUCGAAAGAA-3'(서열번호 240), 5'-UUCAGAAAUGAA-3'(서열번호 241), 5'-UUCAUGAAAAUGAA-3'(서열번호 242) 또는 5'-UUCAUUGAAAAAUGAA-3'(서열번호 243)의 서열을 포함하거나 이로 이루어진 링커일 수 있다.
한편, 싱글 가이드 RNA(sgRNA)로 만들기 위해 링커(Lk)를 사용하는 것도 가능하지만, 3'-말단부의 일부 서열이 제거된 tracrRNA의 3'-말단부와 5'-말단부의 일부 서열이 제거된 crRNA의 3'-말단부를 직접 연결하는 것도 가능하다.
또 다른 구현예로, 상기 식 (I)의 스캐폴드 서열에서 Xc1과 Xc2가 링커로 연결되는 경우에는 식 (I)에 표시된 바와 같이 5'-Xc1-Lk-Xc2-3'로 표현될 수 있으며, 상기 5'-Xc1-Lk-Xc2-3'는 서열번호 244 내지 서열번호 250 및 5'-Lk-3'(Xc1 및 Xc2이 모두 결실된 형태)으로 이루어진 군에서 선택된 어느 하나의 핵산 서열일 수 있으나, 이에 제한되는 것은 아니다.
(5) 변형부위 5(modification site 5, MS5)에서의 변형
본 항목에서는 MS5에서의 변형을 기술한다(도 1). 상술한 바와 같이, MS5는 제2 스템-루프 영역으로 지칭되는 tracrRNA 내 3'-말단 방향에 위치한 영역에 대응된다. 상기 제2 스템-루프 영역은 가이드 RNA(gRNA) 및 핵산 편집 단백질 복합체 내에서 스템 구조를 형성하는 뉴클레오티드를 포함하고, 이와 인접한 뉴클레오티드를 포함할 수 있다. 이때, 상기 스템 또는 스템-루프 구조는 상술한 제1 스템-루프 영역에 포함된 스템과는 구분되는 것이다.
일 구현예에서, 제2 스템-루프 영역은 서열번호 189의 뉴클레오티드 서열 및/또는 서열번호 193의 뉴클레오티드 서열을 포함할 수 있다.
다른 구현예에서, MS5 또는 제2 스템-루프 영역은 식 (I)의 Xb1 및 Xb2로 표시된 폴리뉴클레오티드와 인접한 (폴리)뉴클레오티드(5'-UUAG-3' 서열의 루프 포함)를 포함하는 부위로서, 제2 스템-루프 영역의 일부 또는 전부가 결실된 변형에 의해 상기 Xb1 및 Xb2는 각각 독립적으로 0 내지 35개의 (폴리)뉴클레오티드로 이루어질 수 있다.
일 구현예에서, 엔지니어링된 gRNA는 제2 스템-루프 영역의 일부 또는 전부가 결실된 변형을 포함한다.
다른 구현예에서, 엔지니어링된 gRNA는 제2 스템-루프 영역의 일부 또는 전부의 결실을 포함하고, 이때 상기 결실되는 제2 스템-루프 영역의 일부 또는 전부는 1개 내지 27개 뉴클레오티드일 수 있다. 구체적으로, 상기 제2 스템 영역의 일부 또는 전부는 2개 내지 27개, 3개 내지 27개, 4개 내지 27개, 5개 내지 27개, 6개 내지 27개, 7개 내지 27개, 8개 내지 27개, 9개 내지 27개, 10개 내지 27개, 11개 내지 27개, 12개 내지 27개, 13개 내지 27개, 14개 내지 27개, 15개 내지 27개, 16개 내지 27개, 17개 내지 27개, 18개 내지 27개, 19개 내지 27개, 20개 내지 27개, 21개 내지 27개, 22개 내지 27개, 23개 내지 27개, 24개 내지 27개, 25개 내지 27개, 26개 또는 27개의 뉴클레오티드일 수 있다.
바람직하게, 상기 식 (I)의 Xb1은 0 내지 13개, 0 내지 12개, 0 내지 11개, 0 내지 10개, 0 내지 9개, 0 내지 8개, 0 내지 7개, 0 내지 6개, 0 내지 5개, 0 내지 4개, 0 내지 3개, 0 내지 2개, 1개 또는 0개의 (폴리)뉴클레오티드로 이루어질 수 있다. 또한, 바람직하게, 상기 Xb2는 0 내지 14개, 0 내지 13개, 0 내지 12개, 0 내지 11개, 0 내지 10개, 0 내지 9개, 0 내지 8개, 0 내지 7개, 0 내지 6개, 0 내지 5개, 0 내지 4개, 0 내지 3개, 0 내지 2개, 1개 또는 0개의 (폴리)뉴클레오티드로 이루어질 수 있다.
일 구현예에서, 상기 식 (I)의 스캐폴드 서열에서 Xb1은 서열번호 189의 핵산 서열을 포함하거나 상기 서열번호 189의 서열에서 1 내지 13개의 뉴클레오티드가 결실된 핵산 서열을 포함할 수 있다. 바람직하게, 상기 뉴클레오티드의 결실은 서열번호 189의 서열에서 5'-말단으로부터 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개 또는 13개의 뉴클레오티드가 순차적으로 제거된 것일 수 있다. 보다 구체적으로, 상기 Xb1은 5'-CAAAAGCUGUCCC-3'(서열번호 189), 5'-CAAAAGCUGUCC-3'(서열번호 190), 5'-CAAAAGCUGUC-3'(서열번호 191), 5'-CAAAAGCUGU-3'(서열번호 192), 5'-CAAAAGCUG-3', 5'-CAAAAGCU-3', 5'-CAAAAGC-3', 5'-CAAAAG-3', 5'-CAAAA-3', 5'-CAAA-3', 5'-CAA-3', 5'-CA-3' 또는 5'-C-3'의 서열을 포함하거나 이로 이루어질 수 있고, 또는 Xb1은 부존재할 수 있다.
다른 구현예에서, 상기 식 (I)의 스캐폴드 서열에서 Xb2는 서열번호 193의 핵산 서열을 포함하거나 상기 서열번호 193의 서열에서 1 내지 14개의 뉴클레오티드가 결실된 핵산 서열을 포함할 수 있다. 바람직하게, 상기 뉴클레오티드의 결실은 서열번호 193의 서열에서 5'-말단으로부터 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개 또는 14개의 뉴클레오티드가 순차적으로 제거된 것일 수 있다. 보다 구체적으로, 상기 Xb2는 5'-GGGAUUAGAACUUG-3' (서열번호 193), 5'-GGAUUAGAACUUG-3'(서열번호 194), 5'-GAUUAGAACUUG-3'(서열번호 195), 5'-AUUAGAACUUG-3'(서열번호 196), 5'-UUAGAACUUG-3'(서열번호 197), 5'-UAGAACUUG-3', 5'-AGAACUUG-3', 5'-GAACUUG-3', 5'-AACUUG-3', 5'-ACUUG-3', 5'-CUUG-3', 5'-UUG-3', 5'-UG-3' 또는 5'-G-3'의 서열을 포함하거나 이로 이루어질 수 있고, 또는 Xb1은 부존재할 수 있다.
식 (I)의 스캐폴드 서열에서 Xb1과 Xb2에 해당하는 영역은 각각 독립적으로 변형될 수 있으나, 정상적인 스템-루프 구조의 보존을 위해 Xb1 및 Xb2 각각에서 결실되는 뉴클레오티드의 위치와 개수를 동일하거나 유사하게 하는 것이 바람직하다. 예를 들어, Xb1에서 5'-말단 방향의 서열부터 순차적으로 결실시키는 경우 Xb2에서는 3'-말단 방향의 서열부터 순차적으로 결실시키는 것이 바람직하다. 이러한 관점에 따른 일 구현예에서, Xb1 및 Xb2 핵산 서열의 결실은 하나 이상의 상보적인 뉴클레오티드 쌍의 결실일 수 있다.
다른 구현예에서, 상기 식 (I)의 스캐폴드 서열의 Xb1과 Xb2를 연결하는 루프(Loop) 부분의 서열은 5'-UUAG-3'로 표시되어 있으나, 이는 필요에 따라 5'-NNNN-3', '5-NNN-3' 등의 다른 서열로 치환될 수 있다. 여기서, N은 각각 독립적으로 A, C, G 또는 U이다. 예를 들면, 상기 5'-NNNN-3'는 5'-GAAA-3'일 수 있고, 상기 '5-NNN-3'은 5'-CGA-3'일 수 있다.
예를 들어, 상기 식 (I)의 스캐폴드 서열에서 Xb1과 Xb2를 연결하는 루프(Loop) 부분의 서열은 5'-UUAG-3'이고, 상기 식 (I) 내의 서열 5'-Xb1UUAGXb2-3'은 서열번호 198 내지 서열번호 202 및 5'-UUAG-3'(Xb1 및 Xb2가 모두 결실된 형태)로 이루어진 군에서 선택된 어느 하나의 핵산 서열을 포함하거나 이로 이루어진 것일 수 있다.
(6) 변형부위 1 내지 변형부위 5에서의 변형이 적용된 gRNA의 예시
본 발명의 USH2A 유전자 편집 시스템에 포함되는 엔지니어링된 가이드 RNA(예컨대, 엔지니어링된 제1 가이드 RNA 및/또는 엔지니어링된 제2 가이드 RNA)는 상술한 변형부위 1(MS1) 내지 변형부위 5(MS5) 중 둘 이상의 변형부위에서의 변형을 포함하는 것일 수 있다.
일 구현예에서, 엔지니어링된 가이드 RNA는 (a1) 제1 스템-루프 영역의 일부 또는 전부의 결실; (a2) 제2 스템-루프 영역의 일부 또는 전부의 결실; (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실; (c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상, 4개 이상 또는 5개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환; 및 (d) crRNA 서열의 3'-말단에 U-rich tail의 부가로 이루어진 군에서 선택되는 하나 이상의 변형을 포함하는 것일 수 있다. 상기 U-rich tail의 서열은 5'-(UmV)nUo-3'로 표시될 수 있고, 여기서 상기 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수이다.
예컨대, 엔지니어링된 가이드 RNA는 (d) crRNA 서열의 3'-말단에 U-rich tail의 부가 및 (c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상, 4개 이상 또는 5개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환을 포함하는 것일 수 있다.
다른 예로, 엔지니어링된 가이드 RNA는 (d) crRNA 서열의 3'-말단에 U-rich tail의 부가, (c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상, 4개 이상 또는 5개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환 및 (a1) 제1 스템-루프 영역의 일부 또는 전부의 결실을 포함하는 것일 수 있다.
또 다른 예로, 엔지니어링된 가이드 RNA는 (d) crRNA 서열의 3'-말단에 U-rich tail의 부가, (c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상, 4개 이상 또는 5개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환 및 (a1) 제1 스템-루프 영역의 일부 또는 전부의 결실을 포함하는 것일 수 있다.
또 다른 예로, 엔지니어링된 가이드 RNA는 (d) crRNA 서열의 3'-말단에 U-rich tail의 부가, (a1) 제1 스템-루프 영역의 일부 또는 전부의 결실 및 (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실을 포함하는 것일 수 있으며, 상기 일부 결실을 포함하는 tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상, 4개 이상 또는 5개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로의 치환이 추가로 포함될 수 있다.
또 다른 예로, 엔지니어링된 가이드 RNA는 (d) crRNA 서열의 3'-말단에 U-rich tail의 부가, (a1) 제1 스템-루프 영역의 일부 또는 전부의 결실, (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실 및 (a2) 제2 스템-루프 영역의 일부 또는 전부의 결실을 포함하는 것일 수 있으며, 상기 일부 결실을 포함하는 tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상, 4개 이상 또는 5개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로의 치환이 추가로 포함될 수 있다.
상술한 복수의 변형부위(MS)에서의 변형이 적용된 tracrRNA의 예시로서 서열번호 251 내지 서열번호 296의 뉴클레오티드 서열 포함하는 엔지니어링된 tracrRNA가 제공된다.
구체적으로, 상기 엔지니어링된 tracrRNA는 서열번호 251(MS1), 서열번호 252(MS1/MS3-1), 서열번호 253(MS1/MS3-2), 서열번호 254(MS1/MS3-3), 서열번호 255(MS1/MS4*-1), 서열번호 256(MS1/MS4*-2), 서열번호 257(MS1/MS4*-3), 서열번호 258(MS1/MS5-1), 서열번호 259(MS1/MS5-2), 서열번호 260(MS1/MS5-3), 서열번호 261(MS1/MS3-3/MS4*-1), 서열번호 262(MS1/MS3-3/MS4*-2), 서열번호 263(MS1/MS3-3/MS4*-3), 서열번호 264(MS1/MS4*-2/MS5-1), 서열번호 265(MS1/MS4*-2/MS5-2), 서열번호 266(MS1/MS4*-2/MS5-3), 서열번호 267(MS1/MS3-3/MS5-1), 서열번호 268(MS1/MS3-3/MS5-2), 서열번호 269(MS1/MS3-3/MS5-3), 서열번호 270(MS1/MS3-3/MS4*-2/MS5-3), 서열번호 271(mature form, MF), 서열번호 272(MF/MS3-1), 서열번호 273(MF/MS3-2), 서열번호 274(MF/MS3-3), 서열번호 275(MF/MS4-1), 서열번호 276(MF/MS4-2), 서열번호 277(MF/MS4-3), 서열번호 278(MF/MS5-1), 서열번호 279(MF/MS5-2), 서열번호 280(MF/MS5-3), 서열번호 281(MF/MS5), 서열번호 282(MF/MS3-3/MS4-1), 서열번호 283(MF/MS3-3/MS4-2), 서열번호 284(MF/MS3-3/MS4-3), 서열번호 285(MF/MS4-3/MS5-1), 서열번호 286(MF/MS4-3/MS5-2), 서열번호 287(MF/MS4-3/MS5-3), 서열번호 288(MF/MS4-3/MS5-F), 서열번호 289(MF/MS3-3/MS5-1), 서열번호 290(MF/MS3-3/MS5-2), 서열번호 291(MF/MS3-3/MS5-3), 서열번호 292(MF/MS3-3/MS5), 서열번호 293(MF/MS3-3/MS4-3/MS5-3), 서열번호 294(MF/MS3-3/MS4-1/MS5), 서열번호 295(MF/MS3-3/MS4-2/MS5) 또는 서열번호 296(MF/MS3-3/MS4-3/MS5)의 뉴클레오티드 서열을 포함하거나 이로 이루어진 것일 수 있다.
보다 구체화된 예로서, MS1, MS3, MS4 및 MS5에서 선택된 어느 하나 이상의 변형부위에서 하나 이상의 변형을 갖는 엔지니어링된 tracrRNA의 예시적인 서열이 하기 표 7에서 제공된다. 이와 같은 엔지니어링된 tracrRNA는 스캐폴드 영역의 스캐폴드 서열 일부를 구성한다.
tracrRNA 염기서열 서열
번호
MS1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 251
MS1/MS3-1 GAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 252
MS1/MS3-2 UGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 253
MS1/MS3-3 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 254
MS1/MS4*-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUC 255
MS1/MS4*-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUC 256
MS1/MS4*-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCU 257
MS1/MS5-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 258
MS1/MS5-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUUAGGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 259
MS1/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 260
MS1/MS3-3/MS4*-1 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUC 261
MS1/MS3-3/MS4*-2 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUC 262
MS1/MS3-3/MS4*-3 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCU 263
MS1/MS4*-2/MS5-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUC 264
MS1/MS4*-2/MS5-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUUAGGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUC 265
MS1/MS4*-2/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUC 266
MS1/MS3-3/MS5-1 ACCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 267
MS1/MS3-3/MS5-2 ACCGCUUCACCAAAAGCUUAGGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 268
MS1/MS3-3/MS5-3 ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 269
MS1/MS3-3/MS4*-2/MS5-3 ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUC 270
Mature Form(MF) CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 271
MF/MS3-1 GAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 272
MF/MS3-2 UGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 273
MF/MS3-3 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 274
MF/MS4-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAU 275
MF/MS4-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUC 276
MF/MS4-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA 277
MF/MS5-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 278
MF/MS5-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUUUAGAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 279
MF/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 280
MF/MS5 CUUCACUGAUAAAGUGGAGAACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 281
MF/MS3-3/MS4-1 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAU 282
MF/MS3-3/MS4-2 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUC 283
MF/MS3-3/MS4-3 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA 284
MF/MS4-3/MS5-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA 285
MF/MS4-3/MS5-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUUUAGAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA 286
MF/MS4-3/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA 287
MF/MS4-3/MS5 CUUCACUGAUAAAGUGGAGAACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA 288
MF/MS3-3/MS5-1 ACCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 289
MF/MS3-3/MS5-2 ACCGCUUCACCAAAAGCUUUAGAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 290
MF/MS3-3/MS5-3 ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 291
MF/MS3-3/MS5 ACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 292
MF/MS3-3/MS4-3/MS5-3 ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA 293
MF/MS3-3/MS4-1/MS5 ACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAU 294
MF/MS3-3/MS4-2/MS5 ACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUC 295
MF/MS3-3/MS4-3/MS5 ACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA 296
또한, 상기 복수의 변형부위(MS)에서의 변형이 적용된 crRNA의 예시로서 서열번호 297 내지 서열번호 312의 뉴클레오티드 서열 포함하는 엔지니어링된 crRNA가 제공된다.
구체적으로, 본 발명의 엔지니어링된 crRNA는 서열번호 297(MS1), 서열번호 298(MS1/MS4*-1), 서열번호 299(MS1/MS4*-2), 서열번호 300(MS1/MS4*-3), 서열번호 301(mature form; MF), 서열번호 302(MF/MS4-1), 서열번호 303(MF/MS4-2), 서열번호 304(MF/MS4-3), 서열번호 305(MS1/MS2), 서열번호 306(MS1/MS2/MS4*-1), 서열번호 307(MS1/MS2/MS4*-2), 서열번호 308(MS1/MS2/MS4*-3), 서열번호 309(MF/MS2), 서열번호 310(MF/MS2/MS4-1), 서열번호 311(MF/MS2/MS4-2) 또는 서열번호 312(MF/MS2/MS4-3)의 뉴클레오티드 서열을 포함하거나 이로 이루어진 것일 수 있다.
일부 구현예로서, MS1, MS2 및 MS4에서 선택된 어느 하나 이상의 변형부위에서 하나 이상의 변형을 갖는 엔지니어링된 crRNA의 예시적인 서열이 하기 표 8에서 제공된다.
crRNA 염기서열 서열
번호
MS1 GUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAAC 297
MS1/MS4*-1 GAACCCGAAUAGAGCAAUGAAGGAAUGCAAC 298
MS1/MS4*-2 GAAUAGAGCAAUGAAGGAAUGCAAC 299
MS1/MS4*-3 AGCAAUGAAGGAAUGCAAC 300
MF GAAUGAAGGAAUGCAAC 301
MF/MS4-1 AUGAAGGAAUGCAAC 302
MF/MS4-2 GAAGGAAUGCAAC 303
MF/MS4-3 GGAAUGCAAC 304
MS1/MS2 GUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 305
MS1/MS2/MS4*-1 GAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 306
MS1/MS2/MS4*-2 GAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 307
MS1/MS2/MS4*-3 AGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 308
MF/MS2 GAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 309
MF/MS2/MS4-1 AUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 310
MF/MS2/MS4-2 GAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 311
MF/MS2/MS4-3 GGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 312
표 8에서, 필요한 경우를 제외하고 모든 crRNA 서열은 가이드 서열(스페이서)은 표시를 생략하였으며, 'NNNNNNNNNNNNNNNNNNNN'으로 표시된 서열은 표적 유전자(예컨대, USH2A 유전자) 내의 표적 서열과 혼성화할 수 있는 임의의 가이드 서열(스페이서)을 의미한다. 상기 가이드 서열은, 상술한 바와 같이 목적하는 표적 유전자 및/또는 상기 표적 유전자 내 표적 서열에 따라 통상의 기술자에 의해 적절하게 설계될 수 있으며, 따라서 특정 길이의 특정 서열로 한정되는 것은 아니다.
다른 구현예에서, 엔지니어링된 gRNA의 스캐폴드 영역은 서열번호 251 내지 서열번호 296으로 이루어진 군에서 선택된 어느 하나의 핵산 서열을 포함하거나 이로 이루어진 tracrRNA; 및 서열번호 297 내지 서열번호 304로 이루어진 군에서 선택된 어느 하나의 핵산 서열을 포함하거나 이로 이루어진 crRNA를 포함하는 것일 수 있다.
또 다른 구현예에서, 본 발명의 제1 가이드 RNA 또는 제2 가이드 RNA는 서열번호 313 내지 서열번호 350으로 이루어진 군에서 선택된 핵산 서열의 스캐폴드 영역의 서열을 포함할 수 있다. 여기서, 상기 핵산 서열의 스캐폴드 영역은 crRNA의 3'-말단 부분에 존재하는 스페이서 영역(예컨대, 서열번호 313 내지 서열번호 350의 핵산 서열에서 5'-NNNNNNNNNNNNNNNNNNNN-3'로 표시된 영역)이 제외된 나머지 영역을 의미한다.
또 다른 구현예에서, 본 발명의 엔지니어링된 gRNA가 싱글 가이드 RNA(sgRNA) 형태인 경우, 상기 엔지니어링된 sgRNA의 스캐폴드 영역은 서열번호 313 내지 서열번호 350으로 이루어진 군에서 선택된 어느 하나의 핵산 서열을 포함하거나 이로 이루어진 것일 수 있다. 여기서, 상기 서열번호 313 내지 서열번호 350의 3'-말단에 존재하는 5'-NNNNNNNNNNNNNNNNNNNN-3', 5'-NNNNNNNNNNNNNNNNNNNNUUUUAUUUU-3' 또는 5'-NNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU-3' 서열은 제외된다.
예컨대, 엔지니어링된 sgRNA는 MS1에서의 변형을 포함하는 서열번호 313의 sgRNA, MS1/MS2에서의 변형을 포함하는 서열번호 314의 sgRNA, MS1/MS2/MS3에서의 변형을 포함하는 서열번호 315의 sgRNA, MS2/MS3/MS4에서의 변형을 포함하는 서열번호 316의 sgRNA 또는 MS2/MS3/MS4/MS5에서 변형을 포함하는 서열번호 317의 sgRNA일 수 있다. 여기서, 상기 서열번호 313 내지 317의 핵산 서열에서 5'-NNNNNNNNNNNNNNNNNNNN-3'로 표시된 서열은 가이드 서열을 의미하며, 상기 가이드 서열에 관한 구체적인 내용은 항목 "2.2. 가이드 서열을 포함하는 스페이서 영역"에 기재된 사항 전체를 참조한다.
또 다른 구체예로, 상기 엔지니어링된 sgRNA는 서열번호 318(MS1/MS3-1), 서열번호 319(MS1/MS3-2), 서열번호 320(MS1/MS3-3), 서열번호 321(MS1/MS4*-1), 서열번호 322(MS1/MS4*-2), 서열번호 323(MS1/MS4*-3), 서열번호 324(MS1/MS5-1), 서열번호 325(MS1/MS5-2), 서열번호 326(MS1/MS5-3), 서열번호 327(MS1/MS2/MS4*-2), 서열번호 328(MS1/MS3-3/MS4*-2), 서열번호 329(MS1/MS2/MS5-3), 서열번호 330(MS1/MS3-3/MS5-3), 서열번호 331(MS1/MS4*-2/MS5-3), 서열번호 332(MS1/MS2/MS3-3/MS4*-2), 서열번호 333(MS1/MS2/MS3-3/MS5-3), 서열번호 334(MS1/MS2/MS4*-2/MS5-3), 서열번호 335(MS1/MS3-3/MS4*-2/MS5-3) 또는 서열번호 336(MS1/MS2/MS3-3/MS4*-2/MS5-3)의 뉴클레오티드 서열을 포함하거나 이로 이루어진 sgRNA일 수 있다. 여기서, 상기 서열번호 318 내지 336의 핵산 서열에서 5'-NNNNNNNNNNNNNNNNNNNN-3'로 표시된 서열은 가이드 서열을 의미하며, 상기 가이드 서열에 관한 구체적인 내용은 항목 "2.2. 가이드 서열을 포함하는 스페이서 영역"에 기재된 사항 전체를 참조한다.
또한, 상기 sgRNA는 성숙형(mature form, MF로 약칭됨)의 sgRNA인 서열번호 337의 뉴클레오티드 서열을 포함하거나 이로 이루어진 sgRNA일 수 있다.
다른 구체예로, 상기 MF sgRNA에서 핵산 서열의 일부 변형을 포함하는 예시적인 sgRNA가 제공된다. 구체적으로, 상기 MF sgRNA는 서열번호 338(MS3-1), 서열번호 339(MS3-2), 서열번호 340(MS3-3), 서열번호 341(MS4-1), 서열번호 342(MS4-2), 서열번호 343(MS4-3), 서열번호 344(MS5-1), 서열번호 345(MS5-2), 서열번호 346(MS5-3), 서열번호 347(MS3-3/MS4-3), 서열번호 348(MS3-3/MS5-3), 서열번호 349(MS4-3/MS5-3) 또는 서열번호 350(MS3-3/MS4-3/MS5-3) 뉴클레오티드 서열을 포함하거나 이로 이루어진 sgRNA일 수 있다. 여기서, 상기 서열번호 337 내지 350의 핵산 서열에서 5'-NNNNNNNNNNNNNNNNNNNN-3'로 표시된 서열은 가이드 서열을 의미하며, 상기 가이드 서열에 관한 구체적인 내용은 항목 "2.2. 가이드 서열을 포함하는 스페이서 영역"에 기재된 사항 전체를 참조한다.
바람직한 구현예로, 엔지니어링된 sgRNA는 서열번호 315(Cas12f1 ver3.0), 서열번호 316(Cas12f1 ver4.0) 또는 서열번호 317(Cas12f1 ver4.1)의 뉴클레오티드 서열로 이루어진 것일 수 있다. 여기서, 상기 서열번호 315, 서열번호 316 및 서열번호 317의 핵산 서열에서 5'-NNNNNNNNNNNNNNNNNNNN-3'로 표시된 서열은 가이드 서열을 의미하며, 상기 가이드 서열에 관한 구체적인 내용은 항목 "2.2. 가이드 서열을 포함하는 스페이서 영역"에 기재된 사항 전체를 참조한다.
(7) 추가 서열(additional sequence)
본 발명의 상기 엔지니어링된 tracrRNA는 추가 서열(additional sequence)을 선택적으로 더 포함할 수 있다. 상기 추가 서열은 엔지니어링된 tracrRNA의 3'-말단에 위치할 수 있다. 또한, 상기 추가 서열은 엔지니어링된 tracrRNA의 5'-말단에 위치할 수도 있다. 예를 들어, 상기 추가 서열은 제1 스템-루프 영역의 5'-말단에 위치할 수 있다.
상기 추가 서열은 1개 내지 40개의 뉴클레오티드일 수 있다. 일 구현예로서, 상기 추가 서열은 임의의 뉴클레오티드 서열 또는 임의로 배열된 뉴클레오티드 서열일 수 있다. 예를 들어, 상기 추가 서열은 5'-AUAAAGGUGA-3'(서열번호 355) 서열일 수 있다.
또한, 상기 추가 서열은 공지된 뉴클레오티드 서열일 수 있다. 일 예로, 상기 추가 서열은 망치머리형 리보자임(hammerhead ribozyme) 뉴클레오티드 서열일 수 있다. 여기서, 상기 망치머리형 리보자임의 뉴클레오티드 서열은 5'-CUGAUGAGUCCGUGAGGACGAAACGAGUAAGCUCGUC-3'(서열번호 356) 서열 또는 5'-CUGCUCGAAUGAGCAAAGCAGGAGUGCCUGAGUAGUC-3'(서열번호 357) 서열일 수 있다. 상기 열거한 서열들은 단순 예시로서, 추가 서열이 이에 제한되는 것은 아니다.
(8) 화학적 변형(Chemical modification)
일부 구현예에서, 상기 엔지니어링된 gRNA에 포함되는 엔지니어링된 tracrRNA 또는 엔지니어링된 crRNA는 필요에 따라 적어도 하나 이상의 뉴클레오티드가 화학적 변형을 가질 수 있다. 이때, 상기 화학적 변형은 뉴클레오티드의 염기 및/또는 당에서 발생할 수 있는 다양한 공유 결합의 변형일 수 있다.
일 구현예에서, 상기 화학적 변형은 메틸화(methylation), 할로젠화(halogenation), 아세틸화(acetylation), 인산화(phosphorylation), PS(phosphorothioate) 연결, LNA(locked nucleic acid), 2'-O-methyl 3'phosphorothioate(MS) 또는 2'-O-methyl 3'thioPACE(MSP)일 수 있다. 상기 예시는 단순 예시로, 이에 제한되지 않는다.
본 발명의 엔지니어링된 gRNA와 Cas12f1(CWCas12f1 또는 Un1Cas12f1) 또는 이의 변이체 복합체를 포함하는 초소형 유전자 편집 시스템을 사용하는 경우, 자연계에서 발견되는 가이드 RNA를 사용하는 경우에 비해 세포 내에서 표적 유전자 또는 표적 핵산의 인델(indel) 효율이 현저하게 향상되어 대규모 결실 효과가 나타날 수 있다.
무엇보다 상기 엔지니어링된 gRNA는 고효율을 나타내는 길이의 최적화와 이에 따른 gRNA 합성 비용 절감, 바이러스 벡터에 삽입하는 경우에 추가 공간 또는 용량 확보, gRNA의 정상적인 발현, 작동 가능한 gRNA 발현의 증가, gRNA의 안정성(stability) 증가, gRNA와 유전자 편집 단백질 복합체의 안정성 증가, 고효율의 gRNA 및 유전자 편집 단백질 복합체 형성 유도, gRNA 및 유전자 편집 단백질 복합체를 포함하는 초소형 USH2A 유전자 편집 시스템에 의한 표적 핵산의 절단 효율 증가 및 상기 시스템에 의한 목적하는 유전자의 특정 영역의 결실 효율 증가를 수반할 수 있다. 이에 따라, Cas12f1 또는 이의 변이체 단백질에 대해 상술한 엔지니어링된 gRNA를 사용하면 전술한 종래 기술의 한계점을 극복하여 세포 내에서 높은 효율로 유전자를 절단하고, 유전자의 특정 영역을 고효율로 편집(예컨대, 결실)할 수 있다.
또한, 엔지니어링된 gRNA는 자연계에서 발견되는 gRNA와 비교하여 짧은 길이를 가지므로 유전자 편집 기술 분야에서 그 응용 가능성이 높다. 상기 엔지니어링된 gRNA를 사용하면 gRNA 및 유전자 편집 단백질 복합체를 포함하는 초소형 유전자 편집 시스템의 크기가 매우 작고, 편집 효율이 우수하다는 장점은 다양한 유전자 편집 기술에 활용할 수 있게 된다.
2.4. 싱글 가이드 RNA 또는 듀얼 가이드 RNA
본 발명의 구현예에 따른 엔지니어링된 가이드 RNA는 싱글 가이드 RNA 또는 듀얼 가이드 RNA일 수 있다. 듀얼 가이드 RNA는 가이드 RNA가 tracrRNA 및 crRNA의 두 분자 RNA로 구성된 것을 의미한다. 싱글 가이드 RNA(sgRNA)는 tracrRNA의 3'-말단 및 crRNA의 5'-말단이 링커를 통해 연결된 것을 의미한다.
일 구현예에서, 엔지니어링된 싱글 가이드 RNA(sgRNA)는 링커 서열을 추가적으로 더 포함할 수 있고, tracrRNA 서열 및 crRNA 서열이 링커 서열을 통해 연결될 수 있다. 바람직하게, 엔지니어링된 스캐폴드 서열에 포함된 tracrRNA의 tracrRNA-crRNA 상보성 서열의 3'-말단 및 crRNA의 tracrRNA-crRNA 상보성 서열의 5'-말단이 링커를 통해 연결된 것을 포함할 수 있다. 보다 바람직하게, tracrRNA와 crRNA의 tracrRNA-crRNA 상보성 영역은 각각의 3'-말단 및 5'-말단이 링커 5'-GAAA-3'로 연결될 수 있다. 상기 링커에 대한 구체적인 내용은 상술한 식 (I)의 Lk에 대한 내용을 참조한다.
일 구현예에서, 싱글 가이드 RNA의 서열은 5'-말단에서 3'-말단 방향으로, tracrRNA 서열, 링커 서열, crRNA 서열 및 U-rich tail 서열이 순차적으로 연결되어 있다. tracrRNA 서열의 일부 및 crRNA 서열에 포함된 CRISPR RNA 반복 서열의 전부 및 일부는 서로 상보적인 서열을 가진다.
또한, 본 발명의 구현예에 따른 엔지니어링된 가이드 RNA는 tracrRNA 및 crRNA가 별개의 RNA 분자를 이루고 있는 듀얼 가이드 RNA일 수 있다. 이때, tracrRNA의 일부 및 crRNA의 일부는 서로 상보적인 서열을 가져 이중가닥 RNA를 형성할 수 있다. 보다 구체적으로, 듀얼 가이드 RNA에서 tracrRNA의 3'-말단을 포함하는 일부 및 crRNA의 CRISPR RNA 반복 서열을 포함하는 일부가 이중가닥을 형성할 수 있다. 엔지니어링된 가이드 RNA는 Cas12f1 또는 이의 변이체 단백질과 결합하여 가이드 RNA 및 상기 단백질의 복합체를 형성할 수 있으며, crRNA 서열에 포함된 가이드 서열과 상보적인 표적 서열을 인식하여 표적 서열을 포함하는 표적 유전자 또는 표적 핵산을 편집할 수 있도록 한다.
일 구현예에서, tracrRNA 서열은 상기 CRISPR RNA 반복 서열과 0개 내지 20개의 미스매치가 있는 상보적인 서열을 포함할 수 있다. 바람직하게, tracrRNA 서열은 CRISPR RNA 반복 서열과 0개 내지 8개 또는 8개 내지 12개의 미스매치가 있는 상보적인 서열을 포함할 수 있다.
3. 비상동말단연결(non-homologous end joining) 활성을 억제하는 인자
본 명세서에 개시된 바와 같이, USH2A 유전자 편집 시스템은 상술한 엔지니어링된 가이드 RNA 및 Cas12f1 분자(예컨대, Cas12f1 또는 이의 변이체 단백질) 외에 목적(예컨대, USHA2A 유전자의 엑손 13 결실) 달성을 위한 추가적인 구성을 더 포함할 수 있다. 예컨대, USH2A 유전자 편집 시스템은 비상동말단연결(non-homologous end joining, NHEJ) 활성을 억제하거나 감소시킬 수 있는 인자를 더 포함할 수 있다. 상기 인자는 예컨대, NHEJ에 관여하는 유전자의 발현을 억제하는 분자, 또는 상기 분자를 암호화하는 핵산일 수 있다. 임의의 특정 이론에 구속됨 없이, 예를 들면, NHEJ 활성 억제 또는 감소는 상동지정복구(homology-directed repair, HDR) 매개 경로의 촉진을 일으킬 수 있다. 상기 인자는 NHEJ 활성의 억제/감소 또는 HDR 활성의 촉진/증가 또는 감소를 위해 사용될 수 있다.
용어 "비상동말단연결(non-homologous end joining, NHEJ)"은 (핵산 서열의 이중가닥 절단의 치유를 유도하기 위해 상동 서열을 필요로 하는 상동지정복구와 대조적으로) 상동성 주형에 대한 요구 없이 파괴 말단의 직접 결찰에 의해 핵산 서열의 이중가닥 절단을 수선하는 기작을 의미한다. NHEJ는 흔히 이중가닥 절단 부위 근처의 뉴클레오티드 서열의 손실(결실)을 유도한다.
일 구현예에서, USH2A 유전자에서 엑손 13을 포함하는 세그먼트를 결실시키기 위한 본 발명의 CRISPR/Cas12f1 시스템에 비상동말단연결에 관여하는 유전자의 발현을 억제하는 분자가 포함될 수 있다. 이로써 엑손 13을 포함하는 세그먼트의 결실 효율 향상을 달성할 수 있다.
다른 구현예에서, 상기 발현을 억제하는 분자는 소분자 또는 억제성 핵산일 수 있다. 상기 발현 억제 분자는, 예를 들어, 간섭 핵산(예컨대, 짧은 간섭 RNA(siRNA), 이중-가닥 RNA(dsRNA), 마이크로-RNA(miRNA), 유전자 전사체에 특이적인 짧은 헤어핀 RNA(shRNA)) 또는 안티센스 올리고뉴클레오티드일 수 있으나, 이에 제한되지 않는다.
또 다른 구현예에서, 상기 발현 억제 분자는, 예를 들어 인산화, 유비퀴틸화, 및/또는 수모화를 통해 번역 후 변형에 의한 NHEJ, HDR 또는 이의 업스트림 조절에 관여하는 효소를 표적으로 할 수 있다.
포유류 세포에서, "표준적" 또는 "고전적" NHEJ 경로(C-NHEJ)는 이중가닥 절단을 수복(수선)하기 위해 DNA-PK, Ku70-80, 아르테미스, 리가제 IV(Lig4), XRCC4, CLF 및 Pol μ를 포함하는 몇 개의 인자를 요구한다(문헌 [Kasparek & Humphrey Seminars in Cell & Dev. Biol. 22:886-897, 2011] 참조).
일 구현예에서, 본 발명의 USH2A 유전자 편집 시스템은 세포에서 C-NHEJ 경로를 억제하기 위해, NHEJ 경로에 관여하는 인자의 발현 또는 활성을 감소 또는 제거하도록 변형될 수 있다. 예를 들어, USH2A 유전자 편집 시스템은 MRE11, RAD50, NBS1, DNA-PK, CtIP, Ku70, Ku80, 아르테미스(DCLRE1C), 리가제 IV (Lig4), PNKP, XRCC4, XLF(XRCC4-like factor), ATM(ATM Serine/Threonine Kinase), CHK1/CHK2, CLF(CURLY LEAF) 및 Pol Mu(POLM)로 이루어진 군에서 선택된 하나 이상의 발현 또는 활성을 감소 또는 제거할 수 있는 인자를 더 포함할 수 있다.
포유류에서, C-NHEJ에 더해, 대체 NHEJ(alternative NHEJ, A-NHEJ) 경로가 존재하고, 이는 상이한 인자들을 요구하는 것으로 알려져 있다.
다른 구현예에서, 본 발명의 USH2A 유전자 편집 시스템은 세포에서 A-NHEJ 경로를 억제하기 위해, NHEJ 경로에 관여하는 인자의 발현 또는 활성을 감소 또는 제거하도록 변형될 수 있다. 예를 들어, USH2A 유전자 편집 시스템은 XRCC1, PARP(예를 들면, PARP1), Lig1 및 Lig3으로 이루어진 군에서 선택된 하나 이상의 발현 또는 활성을 감소 또는 제거할 수 있는 인자를 더 포함할 수 있다.
일 구현예에서, 비상동말단연결에 관여하는 유전자는 ATM1, XRCC4, XLF, XRCC6, LIG4 및 DCLRE1C로 이루어진 군에서 선택된 하나 이상일 수 있다.
다른 구현예에서, 비상동말단연결에 관여하는 유전자는 XRCC6 및 DCLRE1C로 이루어진 군에서 선택된 하나 이상일 수 있다.
일 구현예에서, 상기 억제 분자는 shRNA, siRNA, miRNA, 또는 안티센스 올리고뉴클레오티드일 수 있다. 다른 구현예에서, 억제 분자는 shRNA일 수 있다.
또 다른 구현예에서, shRNA 분자는 XRCC6 및 DCLRE1C로 이루어진 군에서 선택된 하나 이상의 유전자 발현을 억제하는 분자일 수 있다. 구체적으로, shRNA 분자는 shXRCC6 및 shDCLRE1C로 이루어진 군으로부터 선택된 하나 이상일 수 있다.
4. USH2A 유전자 편집 시스템의 구성요소를 암호화하는 핵산
본 발명에서 제공되는 CRISPR/Cas12f1 시스템 또는 USH2A 유전자 편집 시스템의 각 구성요소는 세포 내에서 발현되도록 하는 것이므로, 본 발명의 다른 태양에 따르면, 유전자 편집 시스템의 각 구성요소를 암호화하는 핵산 또는 폴리뉴클레오티드가 제공된다. 여기서, 상기 핵산 또는 폴리뉴클레오티드는 합성 핵산 서열일 수 있다.
구체적으로, 상기 핵산 또는 폴리뉴클레오티드는 발현하고자 하는 유전자 편집 시스템에 포함된 핵산 편집 단백질(또는 엔도뉴클레아제), 가이드 RNA(예컨대, USH2A 유전자 내의 표적 서열과 혼성화할 수 있는 가이드 서열을 포함하는 스페이서 영역 및 스캐폴드 영역을 포함하는 엔지니어링된 가이드 RNA), 및/또는 비상동말단연결에 관여하는 유전자의 발현을 억제하는 분자를 암호화하는 핵산 서열이 제공된다. 일 구현예에서, 상기 핵산 서열은 DNA 또는 RNA(예컨대, mRNA)일 수 있다. 유전자 편집 시스템의 각 구성요소를 암호화하는 핵산 또는 폴리뉴클레오티드는 본 명세서에 그 대표적인 예가 개시되어 있거나, 그 핵산 서열은 각 구성요소의 구체적인 서열을 참고하여 통상의 기술자가 쉽게 결정할 수 있다.
일 구현예에서, 상기 핵산 또는 폴리뉴클레오티드는 Cas12f1 분자(예컨대, Cas12f1 또는 이의 변이체 단백질)를 암호화하는 인간 코돈 최적화된 핵산 서열을 포함할 수 있다. 용어 "코돈 최적화"는 고유 서열의 적어도 하나의 코돈을 대상 세포의 유전자에 더욱 빈번하게 또는 가장 빈번하게 사용되는 코돈으로 대체하면서, 고유 아미노산 서열을 유지함으로써 관심 대상 세포에서의 발현의 증진을 위해 핵산서열을 변형시키는 과정을 의미한다. 다양한 종은 특정 아미노산의 특정 코돈에 대한 특정 편향을 가지며, 코돈 편향(유기체 간의 코돈 사용의 차이)은 종종 mRNA의 번역의 효율과 상호관련 되며, 이는 번역되는 코돈의 특성 및 특정 tRNA 분자의 이용가능성에 의해 좌우되는 것으로 여겨진다. 세포에서 선택된 tRNA의 우세는 일반적으로 펩티드 합성에 가장 빈번하게 사용되는 코돈을 반영한 것이다. 따라서, 유전자는 코돈 최적화에 기초하여 주어진 유기체에서 최적의 유전자 발현을 위해 맞춤화될 수 있다.
예를 들어, 인간 코돈 최적화된 CWCas12f1 단백질 또는 그의 변이체를 암호화하는 핵산은 서열번호 365 내지 368로부터 선택된 서열을 포함하거나 이로 이루어질 수 있다. 또한, 인간 코돈 최적화된 Un1Cas12f1 단백질을 암호화하는 핵산은 서열번호 364의 서열을 포함하거나 이로 이루어질 수 있다.
다른 구현예에서, 핵산 또는 폴리뉴클레오티드는 자연계에 존재하는 DNA 또는 RNA일 수 있고, 핵산 또는 폴리뉴클레오티드의 일부 또는 전부에 화학적 변형이 일어난 변형된 핵산일 수 있다. 예를 들어, 핵산 또는 폴리뉴클레오티드는 하나 이상의 뉴클레오티드가 화학적으로 변형된 것일 수 있다. 이때, 상기 화학적 변형은 이 기술 분야의 통상의 기술자에게 알려진 핵산의 변형을 모두 포함할 수 있다.
Ⅳ. USA2A 유전자 편집 시스템의 발현을 위한 벡터 시스템
본 명세서에 개시된 바와 같이, USH2A 유전자(예컨대, 인간 USH2A 유전자)의 편집 또는 변경을 위한 벡터 시스템이 제공된다. 개시된 벡터 시스템은 전술한 USH2A 유전자 편집 시스템(또는 CRISPR/Cas12f1 시스템)의 각 구성요소가 세포 내에서 발현되도록 하는 것이므로, 벡터 시스템에 포함되는 핵산 구조물(예컨대, 핵산 서열)은 상기 USH2A 유전자 편집 시스템의 각 구성요소를 암호화하는 핵산 서열을 하나 이상 포함한다. 또한, 개시된 벡터 시스템은 전술한 USH2A 유전자 편집 시스템의 각 구성요소가 세포 내에서 발현되도록 하는 것이므로, USH2A 유전자 편집 시스템에 의해 달성되거나 달성될 수 있는 효과 및 이점이 모두 그대로 적용된다.
개시된 벡터 시스템에서, 각 핵산 구조물은 세포 내에서 USH2A 유전자 편집 시스템의 각 구성요소를 발현할 수 있다. 벡터 시스템은 세포 내에서 USH2A 유전자의 편집(예컨대, 엑손 13을 포함한 세그먼트의 결실)을 가능하게 한다.
본 명세서에 개시된 벡터 시스템에서, 각 핵산 구조물의 뉴클레오티드 서열 및 이에 의해 발현되는 구성요소에 관한 사항은 "Ⅲ. USH2A 유전자 편집을 위한 CRISPR/Cas 시스템" 항목에 기재된 내용 전체를 참조한다.
본 명세서에 개시된 USH2A 유전자 편집 시스템을 USH2A 유전자의 편집(예컨대, 엑손 13을 포함하는 세그먼트의 결실)에 사용하기 위해, 상술한 USH2A 유전자 편집 시스템의 각 구성요소를 암호화하는 뉴클레오티드 서열을 포함하는 하나 이상의 벡터를 표적 세포 내로 직접 또는 적절한 전달 수단을 통해 도입하거나 바이러스 등의 매개체로 전달하고 표적 세포 내에서 상기 유전자 편집 시스템의 각 구성이 발현되도록 하는 방법이 이용될 수 있다. 바람직하게는, USH2A 유전자의 편집(예컨대, 엑손 13을 포함하는 세그먼트의 결실)을 위해, 상술한 유전자 편집 시스템의 각 구성요소를 암호화하는 뉴클레오티드 서열이 작동가능하게 연결되어 하나의 벡터에 포함될 수 있다.
일 구현예에서, 전술한 USH2A 유전자 편집 시스템에서 하나 이상의 구성요소를 암호화하는 핵산 서열은 둘 이상의 벡터에 존재할 수 있다. 여기서, 상기 둘 이상의 벡터는 동일하거나 상이한 벡터일 수 있다.
다른 구현예에서, 전술한 USH2A 유전자 편집 시스템에서 하나 이상의 구성요소를 암호화하는 핵산 서열은 하나의 벡터에 존재할 수 있다.
또한, 본 발명의 벡터 시스템은, 전술한 USH2A 유전자 편집 시스템의 구성요소 외에, 관련 기술 분야의 통상의 기술자가 필요에 의해 발현시키고자 하는 부가 발현 요소를 암호화하는 핵산 서열을 포함할 수 있다. 예컨대, 부가 발현 요소는 태그(tag)일 수 있다. 구체적으로, 부가 발현 요소는, 글리포세이트(glyphosate), 글루포시네이트암모늄(glufosinate ammonium) 또는 포스피노트리신(phosphinothricin)과 같은 제초제 저항성 유전자, 암피실린(ampicillin), 카나마이신(kanamycin), G418, 블레오마이신(bleomycin), 하이그로마이신(hygromycin), 클로람페니콜(chloramphenicol)과 같은 항생제 내성 유전자일 수 있다.
다른 구현예에서, 상기 벡터 시스템을 직접 세포 내에서 발현시키기 위해서는 하나 이상의 조절 및/또는 제어 구성요소를 포함해야 한다. 구체적으로, 조절 및/또는 제어 구성요소는 프로모터, 인핸서, 인트론, 폴리아데닐화 신호, 코작 컨센서스(Kozak consensus) 서열, 내부 리보솜 유입 부위(internal ribosome entry site, IRES), 스플라이스 억셉터, 2A 서열 및/또는 복제원점(replication origin)을 포함할 수 있으나, 이에 제한되는 것은 아니다. 상기 복제원점은 f1 복제원점, SV40 복제원점, pMB1 복제원점, 아데노 복제원점, AAV 복제원점 및/또는 BBV 복제원점일 수 있으나, 이에 제한되는 것은 아니다.
다른 구현예에서, 상기 벡터 시스템에 포함되어 있는 본 발명의 유전자 편집 시스템을 암호화하는 핵산 서열을 세포 내에서 발현시키기 위해서, 각 구성요소를 암호화하는 서열에 프로모터 서열을 작동가능하게 연결시켜 세포 내에서 RNA 전사인자가 활성화될 수 있도록 해야 할 수 있다. 상기 프로모터 서열은 대응하는 RNA 전사인자 또는 발현 환경에 따라 달리 설계할 수 있으며, 본 발명의 유전자 편집 시스템의 구성요소를 세포 내에서 적절히 발현시킬 수 있는 것이라면 제한되지 않는다.
예컨대, 프로모터 서열은 RNA 중합효소 RNA Pol I, Pol II 또는 Pol III의 전사를 촉진시키는 프로모터일 수 있다. 구체적으로, 상기 프로모터는 U6 프로모터, EFS 프로모터, EF1-α 프로모터, H1 프로모터, 7SK 프로모터, CMV 프로모터, LTR 프로모터, Ad MLP 프로모터, HSV 프로모터, SV40 프로모터, CBA 프로모터 또는 RSV 프로모터 중 하나일 수 있다.
또 다른 구현예에서, 상기 벡터 서열이 프로모터 서열을 포함하는 경우에 RNA 전사인자에 의해 상기 프로모터와 작동가능하게 연결된 서열의 전사가 유도되는데, 이러한 RNA 전사 인자의 전사 종결을 유도하는 종결 신호가 포함될 수 있다. 상기 종결 신호는 프로모터 서열의 종류에 따라 달라질 수 있다. 구체적으로, 상기 프로모터가 U6, 또는 H1 프로모터일 경우, 상기 프로모터는 티미딘(T) 연속 서열인 TTTTT(T5) 또는 TTTTTT(T6) 서열을 종결 신호로 인식한다.
본 발명에서 제공하는 엔지니어링된 가이드 RNA의 서열은 그 3'-말단에 U-rich tail 서열을 포함할 수 있다. 이에 따라, 상기 엔지니어링된 가이드 RNA를 암호화하는 서열은 그 3'-말단에 U-rich tail 서열에 대응하는 T-rich 서열을 포함하게 된다. 전술한 바와 같이, 일부 프로모터 서열은 티미딘(T) 연속 서열, 예를 들어 티미딘(T)이 5개 이상 연속으로 연결된 서열을 종결 신호로 인식하므로, 경우에 따라 상기 T-rich 서열을 종결 신호로 인식하게 될 수 있다. 다시 말해, 본 명세서에서 제공하는 벡터 서열이 엔지니어링된 가이드 RNA를 암호화하는 서열을 포함하는 경우, 상기 엔지니어링된 gRNA 서열에 포함된 U-rich tail 서열을 암호화하는 서열이 종결 신호로 사용될 수 있다.
일 구현예로, 상기 벡터 서열이 U6 또는 H1 프로모터 서열을 포함하고, 이와 작동가능하게 연결된 엔지니어링된 가이드 RNA를 암호화하는 서열을 포함할 때, 상기 가이드 RNA 서열에 포함된 U-rich tail 서열을 암호화하는 서열 부분이 종결 신호로 인식될 수 있다. 구체적으로, U-rich tail 서열은 유리딘(U)이 5개 이상 연속으로 연결된 서열을 포함할 수 있다.
일 구현예에서, 벡터는 바이러스 벡터일 수 있다. 구체적으로, 바이러스 벡터는 레트로바이러스 벡터, 렌티바이러스 벡터, 아데노바이러스 벡터, 아데노-연관 바이러스 벡터, 백시니아바이러스 벡터, 폭스바이러스 벡터, 단순포진 바이러스 벡터 및 파지미드 벡터로 구성된 군에서 선택되는 하나 이상일 수 있다. 바람직하게는, 바이러스 벡터는 아데노-연관 바이러스 벡터일 수 있다. 또한, 바이러스 벡터는 SIN 렌티바이러스 벡터, 레트로바이러스 벡터, 폼(foamy) 바이러스 벡터, 아데노바이러스 벡터, 아데노-연관 바이러스(AAV) 벡터, 하이브리드 벡터 및/또는 플라스미드 트랜스포존(예를 들어, 슬리핑 뷰티 트랜스포존 시스템) 또는 인테그라제 기반 벡터 시스템을 포함하지만 이들로 제한되지 않는다.
다른 구현예에서는, 벡터는 비-바이러스 벡터일 수 있다. 구체적으로, 비-바이러스 벡터는 플라스미드, 네이키드 DNA, DNA 복합체, mRNA(전사물) 및 앰플리콘(amplicon)으로 구성된 군에서 선택되는 하나 이상일 수 있으나, 이에 제한되지 않는다. 예컨대, 플라스미드는 pcDNA 시리즈, pSC101, pGV1106, pACYC177, ColE1, pKT230, pME290, pBR322, pUC8/9, pUC6, pBD9, pHC79, pIJ61, pLAFR1, pHV14, pGEX 시리즈, pET 시리즈, 및 pUC19으로 이루어진 군에서 선택된 것일 수 있다.
용어 "네이키드 DNA"는 발현을 위해서 적절한 배향으로 적합한 발현 벡터(예를 들어, 플라스미드) 내에 클로닝된 단백질, 예컨대, 본 발명의 Cas12f1 또는 이의 변이체를 암호화하는 DNA(예를 들어, 히스톤이 없는 DNA)를 지칭한다.
용어 "앰플리콘"은 핵산에 대해 이용되는 경우, 핵산 복제 산물을 의미하며, 여기서 산물은 핵산의 적어도 일부 뉴클레오티드 서열과 동일하거나 상보적인 뉴클레오티드 서열을 갖는다. 예를 들어, 앰플리콘은 폴리머라제 확장, 폴리머라제 연쇄 반응(PCR), 롤링 서클 증폭(RCA), 다중 변위 증폭(MDA), 결찰 확장, 또는 결찰 연쇄 반응을 포함하는, 주형으로서 핵산 또는 이들의 앰플리콘을 이용하는 다양한 임의의 증폭 방법에 의해 생성될 수 있다. 앰플리콘은 특정 뉴클레오티드 서열의 단일 복사체(예를 들어, PCR 산물) 또는 뉴클레오티드 서열의 다중 사본(예로서 RCA의 콘카타머 산물)을 갖는 핵산 분자일 수 있다.
본 명세서에 개시된 벡터는 선형(linear) 또는 원형(circular) 벡터 형태로 설계될 수 있다. 벡터가 선형 벡터인 경우, 선형 벡터 서열이 종결 신호를 따로 포함하지 않더라도, 그 3'-말단에서 RNA 전사가 종결된다. 그러나 벡터가 원형 벡터인 경우, 상기 원형 벡터 서열이 종결 신호를 따로 포함하지 않는다면, RNA 전사가 종결되지 않게 된다. 그러므로 원형 벡터를 사용하는 경우에는 의도한 대상을 발현하기 위해서는 각 프로모터 서열과 관련된 전사 인자에 대응하는 종결 신호가 포함되어야 한다.
일 구현예에서, 바이러스 벡터 또는 비-바이러스 벡터는 리포좀, 폴리머 나노파티클(예컨대, 지질 나노파티클), 수중유 나노에멀젼 또는 이들의 조합과 같은 전달 시스템에 의해 전달될 수 있거나, 바이러스 형태로 전달될 수 있다.
Ⅴ. USA2A 유전자 편집 시스템을 발현하는 바이러스
본 명세서에 개시된 벡터 시스템에 의해 제조된 재조합 바이러스 또는 재조합 바이러스 입자가 제공된다.
일 구현예에서, 상기 바이러스 벡터는 예를 들어, 레트로바이러스 벡터, 렌티바이러스 벡터, 아데노바이러스 벡터, 아데노 연관 바이러스 벡터, 백시니아바이러스 벡터, 폭스바이러스 벡터, 단순포진 바이러스 벡터 및 파지미드 벡터로 구성된 군에서 선택되는 하나 이상의 바이러스 벡터일 수 있다. 바람직하게, 상기 바이러스 벡터는 아데노 연관 바이러스 벡터일 수 있다.
다른 구현예에서, 상기 바이러스는 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스, 백시니아바이러스, 폭스바이러스, 단순포진 바이러스 및 파지로 구성된 군에서 선택될 수 있다.
또 다른 구현예에서, 상기 파지는 λgt4λB, λ-charon, λΔz1, 및 M13으로 이루어진 군에서 선택된 것일 수 있다.
본 발명의 USH2A 유전자 편집 시스템을 바이러스, 특히 아데노 연관 바이러스(AAV)를 통해 표적 세포 또는 표적 부위로 효율적으로 전달하기 위해서는 편집 시스템의 구성요소를 모두 암호화하는 뉴클레오티드 서열의 크기를 AAV의 패키징 한계인 4.7 kb 내로 설계하는 것이 중요하다. 본 발명의 CRISPR/Cas12f1 시스템을 사용하는 경우에, 상기 시스템에 포함되는 초소형 핵산 편집 단백질 및 2종의 엔지니어링된 gRNA는 그 크기가 매우 작기 때문에 추가적인 조절 분자(예컨대, 비상동성말단연결 기작에 관여하는 유전자를 억제하는 분자)를 더 포함하더라도 AAV 전달체 내에 충분히 패키징될 수 있다는 이점이 있다.
Ⅵ. USH2A 유전자 편집을 위한 조성물
본 명세서에 개시된 바와 같이, 상술한 유전자 편집 시스템의 각 구성요소, 상술한 벡터 시스템의 하나 또는 둘 이상의 벡터 또는 상술한 바이러스를 포함하는 조성물이 제공된다. 개시된 조성물은 약학 조성물일 수 있다. 또한, 약학 조성물은 어셔 증후군의 예방 또는 치료용일 수 있다.
일 구현예에서, 약학 조성물은 USH2A 유전자의 편집(예컨대, USH2A 유전자에서 엑손 13을 포함하는 세그먼트의 결실)을 위한 것일 수 있다. 또한, 약학 조성물은 어셔 증후군의 치료 또는 이의 발병 또는 진행 지연을 위한 것일 수 있다.
일 구현예에서, 약학 조성물은 사용되는 투여 방식에 따라 제형화될 수 있다. 예컨대, 약학 조성물이 주사용 약학 조성물인 경우, 등장성 제제가 사용되는 것이 바람직할 수 있다. 등장성을 위한 첨가제는 일반적으로 염화나트륨, 덱스트로스, 만니톨, 소르비톨 및 락토스를 포함할 수 있다. 일 구현예에서, 인산 완충 생리 식염수 등의 등장성 용액이 바람직하다. 안정제로는 젤라틴 및 알부민을 들 수 있다. 일 구현예에서, 혈관 수축제가 제제에 첨가된다.
다른 구현예에서, 조성물은 약학적으로 허용할 수 있는 부형제를 추가로 포함할 수 있다. 약학적으로 허용할 수 있는 부형제는 비히클, 보조제, 담체, 또는 희석제로서의 기능성 분자일 수 있다. 약학적으로 허용할 수 있는 부형제는 유전자 도입 촉진제(계면활성제가 포함될 수 있다) 예컨대, 면역 자극 복합체(ISCOMS), 프로인트 불완전 보조제, LPS 유사체(모노포스포릴 지질 A를 포함하고), 뮤라밀 펩타이드, 퀴논 유사체, 베시클, 예를 들면 스쿠알렌 및 스쿠알렌, 히알루론산, 지질, 리포좀, 칼슘 이온, 바이러스 단백질, 포리아니온, 폴리 양이온, 또는 나노 입자, 또는 다른 공지된 유전자 도입 촉진제일 수 있다.
다른 구현예에서, 조성물은 유전자 도입 촉진제를 포함할 수 있다. 유전자 도입 촉진제는 포리아니온, 폴리 양이온(폴리-L-글루탐산(LGS)을 포함하고), 또는 지질일 수 있다. 유전자 도입 촉진제는 폴리-L-글루탐산이며, 보다 바람직하게는, 폴리-L-글루탐산은 골격근 또는 심근의 게놈 편집을 위한 조성물 중에 6 mg/ml미만의 농도로 존재할 수 있다. 유전자 도입 촉진제는 또한 계면활성제, 예를 들면 면역 자극 복합체(ISCOMS), 프로인트 불완전 보조제, LPS 유사체(모노포스포릴 지질 A를 포함하고), 뮤라밀 펩타이드, 퀴논 유사체 및 베시클, 예를 들면 스쿠알렌 및 스쿠알렌을 포함할 수 있고, 또한 히알루론산도 사용할 수 있다.
일 구현예에서, 상술한 벡터 시스템에 포함되는 하나 이상의 벡터를 포함하는 조성물은 유전자 도입 촉진제, 예를 들면 지질, 리포좀(레시틴 리포좀, 또는 해당 기술 분야에서 공지된 다른 리포좀을 포함하고), DNA-리포좀 혼합물, 칼슘 이온, 바이러스 단백질, 포리아니온, 폴리 양이온, 또는 나노 입자, 또는 다른 공지된 유전자 도입 촉진제를 포함할 수 있다. 바람직하게는, 유전자 도입 촉진제는 포리아니온, 폴리 양이온(예컨대, 폴리-L-글루탐산(LGS)) 또는 지질이다.
(약학) 조성물의 실제 투여량은 다양한 인자, 예컨대 벡터 선택, 표적 세포, 유기체, 또는 조직, 치료될 대상체의 상태, 구하는 형질전환/변형의 정도, 투여 경로, 투여 방법, 구하는 형질전환/변형의 형태 등에 따라 크게 달라질 수 있다. 상기 투여는 망막하(subretinal) 투여, 피하(subcutaneous) 투여, 피내(intradermal) 투여, 안구내(intraocular) 투여, 유리체내(intravitreal) 투여, 종양내(intratumoral) 투여, 절내(intranodal) 투여, 골수내(intramedullary) 투여, 근육내(intramuscular) 투여, 정맥내(intravenous) 투여, 림프액내(intralymphatic) 투여 및 복막내(intraperitoneal) 투여에서 선택된 투여 경로로 수행될 수 있다. 상기 약학적 조성물은 담체(물, 식염수, 에탄올, 글리세롤, 락토오스, 수크로오스, 인산칼슘, 젤라틴, 덱스트란, 한천, 펙틴, 땅콩유, 참기름 등), 희석제, 약학적으로 허용가능한 담체(예를 들어, 인산염 완충 식염수), 약학적으로 허용가능한 부형제, 및/또는 당업계에 알려진 기타 다른 화합물을 추가로 함유할 수 있다.
예를 들면, 질병 치료를 위한 전달은 AAV를 통해 이루어질 수 있다. 인간에 대한 AAV의 생체 내 전달을 위한 치료적으로 유효한 투여량은, 용액 ml 당 약 1Х1010 내지 약 1Х10100의 AAV를 함유하는 약 20 ml 내지 약 50 ml 범위의 식염수 용액일 수 있다. 투여량은 임의의 부작용에 대하여 치료 이익의 균형을 맞추도록 조정될 수 있다.
Ⅶ. USH2A 유전자 편집 방법
본 명세서에 개시된 바와 같이, 본 발명의 USH2A 유전자 편집 시스템, 벡터 시스템, 조성물 또는 바이러스를 이용하여 USH2A 유전자를 편집하는 방법이 제공된다. 구체적으로, USH2A 유전자의 편집은 USH2A 유전자에서 엑손 13을 포함하는 세그먼트의 결실을 유도하는 것일 수 있다.
일 구현예에서, 엑손 13을 포함하는 세그먼트의 길이는 640bp 내지 19kb일 수 있다. 예컨대, 상기 세그먼트의 길이는 640bp 내지 18kb, 640bp 내지 17kb, 640bp 내지 16kb, 640bp 내지 15kb, 640bp 내지 14kb, 640bp 내지 13kb, 640bp 내지 12kb, 640bp 내지 11kb, 640bp 내지 10kb, 640bp 내지 9kb, 640bp 내지 8kb, 640bp 내지 7kb, 640bp 내지 6kb, 640bp 내지 5.5kb, 640bp 내지 5kb, 640bp 내지 4.5kb, 640bp 내지 4kb, 640bp 내지 3.5kb, 640bp 내지 3kb, 640bp 내지 2.5kb, 640bp 내지 2kb, 640bp 내지 1.5kb, 640bp 내지 1kb; 700bp 내지 18kb, 1kb 내지 17kb, 1.3kb 내지 16kb, 1.7kb 내지 15kb, 2kb 내지 14kb, 2.3kb 내지 13kb, 2.7kb 내지 12kb, 3kb 내지 11kb, 3.3kb 내지 10kb, 3.7kb 내지 9kb, 4kb 내지 8kb, 4.3kb 내지 7kb, 4.7kb 내지 6kb, 5kb 내지 5.5kb; 640bp 내지 5kb, 700bp 내지 5kb, 1kb 내지 5kb, 1.5kb 내지 5kb, 2kb 내지 5kb, 3kb 내지 5kb 또는 4kb 내지 5kb일 수 있으나, 이에 제한되지 않는다. 엑손 13을 포함하는 세그먼트의 길이는 관련 기술분야의 통상의 기술자에 의해 적절히 결정되거나 이해될 수 있음은 분명하다.
개시된 방법은 본 발명의 USH2A 유전자 편집 시스템, 벡터 시스템, 조성물 또는 (재조합) 바이러스를 세포와 접촉시키는 단계를 포함한다. 여기서, 상기 세포는 어셔 증후군을 가진 개체로부터 유래된 세포일 수 있다. 또한, 상기 세포는 줄기세포 또는 포유동물의 눈 또는 내이(inner ear) 세포일 수 있다. 그러나, 본 발명의 방법이 상기 세포들로 제한되는 것은 아니다.
일 구현예에서, 상기 줄기세포는 유도만능 줄기세포(induced pluripotent stem cells, iPSCs) 또는 역분화된 줄기세포일 수 있다. 유도만능 줄기세포는 배아 줄기세포(embryonic stem cells, ESCs)와 유사한 다능성 줄기세포와 유사한 상태(예컨대, 유사한 분화능)를 나타내는 유전자적으로 초기화된 성체 세포를 의미한다. 유도만능 줄기세포는 예컨대, 어셔 증후군을 가진 개체로부터 유래된 세포를 인공적으로 역분화시켜 제조된 줄기세포일 수 있다. 이러한 역분화 줄기세포의 제조는 본 발명의 기술분야에 널리 알려져 있다(문헌[Ying Wang et al., Scalable Production of Human Erythrocytes from Induced Pluripotent Stem Cells, 2016, https://doi.org/10.1101/050021] 등 참조).
따라서 본 발명의 또 다른 태양에 따르면, 본 명세서에 개시된 방법에 의해 유전적으로 변형된 줄기세포가 제공된다. 구체적으로, 상기 유전적 변형은 줄기세포 내 USH2A 유전자에서 엑손 13이 결실된 것일 수 있다.
일 구현예에서, 상기 유전적으로 변형된 줄기세포는 제2형(예컨대, 제2A형) 어셔 증후군 치료를 위한 것일 수 있다.
또한, 개시된 방법은 USH2A 유전자 편집 시스템, 벡터 시스템, 조성물 또는 (재조합) 바이러스를 개체와 접촉시키는 단계를 포함한다. 여기서, 상기 개체는 USH2A 유전자의 엑손 13 돌연변이와 관련된 질환을 가진 개체일 수 있다.
상기와 같은 방법들에 의해 세포 내 USH2A 유전자에서 엑손 13을 포함하는 세그먼트의 결실을 유도하고/하거나, USH2A 유전자 엑손 13에 돌연변이와 관련된 질환을 가진 개체를 치료하고/하거나, 세포의 USH2A 유전자를 변경할 수 있다.
일 구현예에서, 세포와 접촉시키는 단계는 본 발명의 USH2A 유전자 편집 시스템, 벡터 시스템, 조성물 또는 바이러스의 세포 내로의 전달 또는 도입을 포함할 수 있다.
본 발명의 핵산 또는 핵산 구축물(예컨대, 벡터)은, 예컨대 생체내 전기천공, 리포좀, 나노파티클, 또는 재조합 벡터와 함께 또는 이들 없이, DNA 주사(injection) 또는 DNA 백신(vaccination)에 의해 전달 또는 도입될 수 있다.
본 발명의 벡터 시스템은 바이러스, 예컨대 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스, 백시니아바이러스, 폭스바이러스, 단순포진 바이러스 또는 파지(phage)에 의해 전달 또는 도입될 수 있다. 구체적으로, 패키징 바이러스에 포함되어 패키징 바이러스에 의해 생성된 바이러스 형태로 세포 내로 전달되는 것일 수 있다.
구체적으로, 상기 접촉, 전달 또는 도입은 전기천공법, 유전자총, 초음파천공법, 자기주입법(magnetofection), 나노파티클 방법 및/또는 일시적인 세포 압축 또는 스퀴징 방법을 이용한 것일 수 있다. 세포가 진핵 세포인 경우, 양이온성 리포좀법, 초산 리튬-DMSO, 지질-매개 형질감염(transfection), 인산칼슘 침전법(precipitation), 리포펙타민(lipofection), PEI(polyethyleneimine)-매개 형질감염, DEAE-dextran 매개 형질감염, 및/또는 나노파티클-매개 핵산 전달[문헌(Panyam et al., Adv Drug Deliv Rev. 2012 Sep 13. pii: S0169-409X(12)00283-9.) 참조]이 이용될 수 있다.
다른 구현예에서, 상기 접촉, 전달 또는 도입은 시험관 내(in vitro), 생체 내(in vivo) 또는 생체 외(ex vivo)에서 수행될 수 있다.
일 구현예에서, 세포는 식물세포, 비인간 동물 세포 또는 인간 세포일 수 있다. 또한, 세포는 진핵 세포 또는 원핵 세포일 수 있다. 또한, 세포는 어셔 증후군 환자의 세포일 수 있다. 또한, 세포는 제2형(보다 구체적으로, 제2A형) 어셔 증후군 환자의 세포일 수 있다.
또한, 본 명세서에 개시된 바와 같이, 본 발명의 USH2A 유전자 편집 시스템, 벡터 시스템, 조성물 또는 바이러스를 대상에 투여하는 것을 포함하는 어셔 증후군(예컨대, 제2형 어셔 증후군)을 치료하는 방법이 제공된다.
일 구현예에서, 대상은 어셔 증후군(예컨대, 제2형 어셔 증후군)을 갖는 대상, 예컨대 인간을 포함한 포유동물일 수 있다.
다른 구현예에서, 본 발명의 USH2A 유전자 편집 시스템, 벡터 시스템, 조성물 또는 바이러스는 대상의 눈 또는 내이(inner ear)에 직접 투여될 수 있다.
[구현예]
[구현예 1]
Cas12f1 분자를 포함하는 엔도뉴클레아제 또는 상기 엔도뉴클라아제를 암호화하는 핵산;
USH2A 엑손 13의 5000bp 업스트림(upstream) 영역에 존재하고 Cas12f1 분자가 인식하는 PAM(protospacer-adjacent motif) 서열과 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화 가능한 제1 가이드 서열을 포함하는 제1 가이드 RNA, 또는 상기 제1 가이드 RNA를 암호화하는 핵산; 및
USH2A 엑손 13의 14500bp 다운스트림(downstream) 영역에 존재하고 Cas12f1 분자가 인식하는 PAM 서열과 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화 가능한 제2 가이드 서열을 포함하는 제2 가이드 RNA, 또는 상기 제2 가이드 RNA를 암호화하는 핵산을 포함하는
USH2A 유전자의 편집 시스템.
[구현예 2]
선행하는 구현예에 있어서,
상기 시스템은 세포 내 USH2A 유전자에서 엑손 13의 결실을 유도하는
시스템.
[구현예 3]
선행하는 구현예 중 어느 하나에 있어서,
상기 시스템은 제2A형 어셔 증후군의 치료를 위한 것인
시스템.
[구현예 4]
선행하는 구현예 중 어느 하나에 있어서,
상기 USH2A 엑손 13은 어셔 증후군을 유발하는 하나 이상의 돌연변이를 포함하는
시스템.
[구현예 5]
선행하는 구현예 중 어느 하나에 있어서,
상기 USH2A 엑손 13의 5000bp 업스트림 영역에 존재하는 표적 서열은 서열번호 1 내지 서열번호 49로 이루어진 군에서 선택된 핵산 서열을 포함하고/거나
상기 USH2A 엑손 13의 14500bp 다운스트림 영역 내에 존재하는 표적 서열은 서열번호 50 내지 서열번호 79로 이루어진 군에서 선택된 핵산 서열을 포함하는
시스템.
[구현예 6]
선행하는 구현예 중 어느 하나에 있어서,
상기 제1 가이드 서열은 서열번호 397 내지 서열번호 445로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 22개 뉴클레오티드 서열 또는 상기 연속된 서열에서 5개 이하의 뉴클레오티드가 상이한 서열을 포함하고, 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열이고/거나,
상기 제2 가이드 서열은 서열번호 446 내지 서열번호 475로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 20개 뉴클레오티드 서열 또는 상기 연속된 서열에서 5개 이하의 뉴클레오티드가 상이한 서열을 포함하고, 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열인
시스템.
[구현예 7]
선행하는 구현예 중 어느 하나에 있어서,
상기 제1 가이드 서열은 서열번호 80 내지 서열번호 128 및 서열번호 159 내지 서열번호 164로 이루어진 군에서 선택된 핵산 서열을 포함하고/거나
상기 제2 가이드 서열은 서열번호 129 내지 서열번호 158 및 서열번호 165 내지 서열번호 174로 이루어진 군에서 선택된 핵산 서열을 포함하는
시스템.
[구현예 8]
선행하는 구현예 중 어느 하나에 있어서,
상기 제1 또는 제2 가이드 RNA는 가이드 서열의 3'-말단에 연결된 U-rich tail 서열을 포함하고, 상기 U-rich tail은 5'-(UmV)nUo-3'로 표시되고, 여기서 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수인
시스템.
[구현예 9]
선행하는 구현예 중 어느 하나에 있어서,
상기 제1 또는 제2 가이드 RNA는 엔지니어링된 스캐폴드 영역을 포함하고, 상기 엔지니어링된 스캐폴드 영역은 5'-말단부터 순차적으로 제1 스템-루프 영역, 제2 스템-루프 영역, 제3 스템-루프 영역, 제4 스템-루프 영역 및 tracrRNA-crRNA 상보성 영역을 포함하는 야생형 Cas12f1 가이드 RNA 서열의 스캐폴드 영역과 50% 이상 서열 동일성을 갖는 뉴클레오티드 서열을 포함하고, 상기 야생형 Cas12f1 가이드 RNA 서열에 대해 하기 (1) 내지 (4)로 이루어진 군에서 선택되는 하나 이상의 변형을 포함하는
시스템:
(1) 제1 스템-루프 영역의 일부 또는 전부의 결실;
(2) 제2 스템-루프 영역의 일부 또는 전부의 결실;
(3) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실; 및
(4) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환.
[구현예 10]
선행하는 구현예 중 어느 하나에 있어서,
상기 야생형 Cas12f1 가이드 RNA는 서열번호 175의 핵산 서열을 포함하는 tracrRNA 및 서열번호 176의 핵산 서열을 포함하는 crRNA를 포함하는
시스템.
[구현예 11]
선행하는 구현예 중 어느 하나에 있어서,
상기 엔지니어링된 스캐폴드 영역은 하기 식 (I)로 표시되는 서열과 80% 이상 서열 동일성을 갖는 서열을 포함하는
시스템:
Figure PCTKR2023004330-appb-img-000009
식 (I)에서,
Xa는 서열번호 178의 핵산 서열 또는 서열번호 178의 서열에서 1 내지 20개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
Xb1은 서열번호 189의 핵산 서열 또는 서열번호 189의 서열에서 1 내지 13개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
Xb2는 서열번호 193의 핵산 서열 또는 서열번호 193의 서열에서 1 내지 14개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
Xc1은 서열번호 203의 핵산 서열 또는 서열번호 203의 서열에서 1 내지 28개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
Xc2는 서열번호 222의 핵산 서열 또는 서열번호 222의 서열에서 1 내지 27개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
Lk는 길이 2 내지 20의 폴리뉴클레오티드 링커이거나 부존재한다.
[구현예 12]
선행하는 구현예 중 어느 하나에 있어서,
상기 Xc1 서열 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 이들 중 하나 이상의 U가 A, G 또는 C로 치환되는 변형을 포함하는
시스템.
[구현예 13]
선행하는 구현예 중 어느 하나에 있어서,
Xa 핵산 서열의 결실, Xb1 및 Xb2 핵산 서열의 결실 및/또는 Xc1 및 Xc2 핵산 서열의 결실은 하나 이상의 상보적인 뉴클레오티드 쌍의 결실을 포함하는
시스템.
[구현예 14]
선행하는 구현예 중 어느 하나에 있어서,
상기 식 (I)에서 서열 5'-Xb1UUAGXb2-3'은 서열번호 198 내지 서열번호 202 및 5'-UUAG-3'로 이루어진 군에서 선택되는
시스템.
[구현예 15]
선행하는 구현예 중 어느 하나에 있어서,
상기 식 (I) 내의 서열 5'-Xc1-Lk-Xc2-3'은 서열번호 244 내지 서열번호 250 및 5'-Lk-3'으로 이루어진 군에서 선택되는
시스템.
[구현예 16]
선행하는 구현예 중 어느 하나에 있어서,
상기 스캐폴드 영역은 서열번호 251 내지 서열번호 296으로 이루어진 군에서 선택된 핵산 서열로 이루어진 엔지니어링된 tracrRNA를 포함하고/거나
서열번호 297 내지 서열번호 304로 이루어진 군에서 선택된 핵산 서열로 이루어진 엔지니어링된 crRNA을 포함하는
시스템.
[구현예 17]
선행하는 구현예 중 어느 하나에 있어서,
상기 제1 또는 제2 가이드 RNA는 듀얼 가이드 RNA 또는 싱글 가이드 RNA인
시스템.
[구현예 18]
선행하는 구현예 중 어느 하나에 있어서,
상기 제1 또는 제2 가이드 RNA는 서열번호 313 내지 서열번호 350으로 이루어진 군에서 선택된 핵산 서열의 스캐폴드 영역 서열을 포함하는
시스템.
[구현예 19]
선행하는 구현예 중 어느 하나에 있어서,
상기 Cas12f1 분자는 서열번호 360 내지 서열번호 364 및 서열번호 370 내지 서열번호 377로 이루어진 군에서 선택된 아미노산 서열과 70% 이상의 서열 동일성을 갖는 아미노산 서열을 포함하는
시스템.
[구현예 20]
선행하는 구현예 중 어느 하나에 있어서,
상기 엔도뉴클라아제는 제1 가이드 RNA 또는 제2 가이드 RNA와 리보뉴클레오단백질(ribonucleoprotein, RNP)를 형성하는
시스템.
[구현예 21]
Cas12f1 분자를 포함하는 엔도뉴클레아제를 암호화하는 뉴클레오티드 서열이 작동가능하게 연결된 제1 핵산 구조물;
USH2A 엑손 13의 5000bp 업스트림 영역에 존재하고 Cas12f1 분자가 인식하는 PAM 서열과 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화 가능한 제1 가이드 서열을 포함하는 제1 가이드 RNA를 암호화하는 뉴클레오티드 서열이 작동가능하게 연결된 제2 핵산 구조물; 및
USH2A 엑손 13의 14500bp 다운스트림(downstream) 영역에 존재하고 Cas12f1 분자가 인식하는 PAM 서열과 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화 가능한 제2 가이드 서열을 포함하는 제2 가이드 RNA를 암호화하는 뉴클레오티드 서열이 작동가능하게 연결된 제3 핵산 구조물을 포함하는 하나 이상의 벡터를 포함하는
벡터 시스템.
[구현예 22]
선행하는 구현예 중 어느 하나에 있어서,
상기 벡터 시스템은 세포 내 USH2A 유전자에서 엑손 13의 결실을 유도하는
벡터 시스템.
[구현예 23]
선행하는 구현예 중 어느 하나에 있어서,
상기 USH2A 엑손 13은 어셔 증후군을 유발하는 하나 이상의 돌연변이를 포함하는
벡터 시스템.
[구현예 24]
선행하는 구현예 중 어느 하나에 있어서,
상기 핵산 구조물은 동일하거나 상이한 벡터에 함유되는
벡터 시스템.
[구현예 25]
선행하는 구현예 중 어느 하나에 있어서,
상기 핵산 구조물은 하나의 벡터에 함유되는
벡터 시스템.
[구현예 26]
선행하는 구현예 중 어느 하나에 있어서,
상기 USH2A 엑손 13의 5000bp 업스트림 영역에 존재하는 표적 서열은 서열번호 1 내지 서열번호 49로 이루어진 군에서 선택된 핵산 서열을 포함하고/거나
상기 USH2A 엑손 13의 14500bp 다운스트림 영역 내에 존재하는 표적 서열은 서열번호 50 내지 서열번호 79로 이루어진 군에서 선택된 핵산 서열을 포함하는
벡터 시스템.
[구현예 27]
선행하는 구현예 중 어느 하나에 있어서,
상기 제1 가이드 서열은 서열번호 397 내지 서열번호 445로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 22개 뉴클레오티드 서열 또는 상기 연속된 서열에서 5개 이하의 뉴클레오티드가 상이한 서열을 포함하고, 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열이고/거나,
상기 제2 가이드 서열은 서열번호 446 내지 서열번호 475로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 20개 뉴클레오티드 서열 또는 상기 연속된 서열에서 5개 이하의 뉴클레오티드가 상이한 서열을 포함하고, 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열인
벡터 시스템.
[구현예 28]
선행하는 구현예 중 어느 하나에 있어서,
상기 제1 가이드 서열은 서열번호 80 내지 서열번호 128 및 서열번호 159 내지 서열번호 164로 이루어진 군에서 선택된 핵산 서열을 포함하고/거나
상기 제2 가이드 서열은 서열번호 129 내지 서열번호 158 및 서열번호 165 내지 서열번호 174로 이루어진 군에서 선택된 핵산 서열을 포함하는
벡터 시스템.
[구현예 29]
선행하는 구현예 중 어느 하나에 있어서,
상기 제1 또는 제2 가이드 RNA는 가이드 서열의 3'-말단에 연결된 U-rich tail 서열을 포함하고, 상기 U-rich tail은 5'-(UmV)nUo-3'로 표시되고, 여기서 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수인
벡터 시스템.
[구현예 30]
선행하는 구현예 중 어느 하나에 있어서,
상기 제1 또는 제2 가이드 RNA는 엔지니어링된 스캐폴드 영역을 포함하고, 상기 엔지니어링된 스캐폴드 영역은 5'-말단부터 순차적으로 제1 스템-루프 영역, 제2 스템-루프 영역, 제3 스템-루프 영역, 제4 스템-루프 영역 및 tracrRNA-crRNA 상보성 영역을 포함하는 야생형 Cas12f1 가이드 RNA 서열의 스캐폴드 영역과 50% 이상 서열 동일성을 갖는 뉴클레오티드 서열을 포함하고, 상기 야생형 Cas12f1 가이드 RNA 서열에 대해 하기 (1) 내지 (4)로 이루어진 군에서 선택되는 하나 이상의 변형을 포함하는
벡터 시스템:
(1) 제1 스템-루프 영역의 일부 또는 전부의 결실;
(2) 제2 스템-루프 영역의 일부 또는 전부의 결실;
(3) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실; 및
(4) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환.
[구현예 31]
선행하는 구현예 중 어느 하나에 있어서,
상기 야생형 Cas12f1 가이드 RNA는 서열번호 175의 핵산 서열을 포함하는 tracrRNA 및 서열번호 176의 핵산 서열을 포함하는 crRNA를 포함하는
벡터 시스템.
[구현예 32]
선행하는 구현예 중 어느 하나에 있어서,
상기 엔지니어링된 스캐폴드 영역은 하기 식 (I)로 표시되는 서열과 80% 이상 서열 동일성을 갖는 서열을 포함하는
벡터 시스템:
Figure PCTKR2023004330-appb-img-000010
식 (I)에서,
Xa는 서열번호 178의 핵산 서열 또는 서열번호 178의 서열에서 1 내지 20개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
Xb1은 서열번호 189의 핵산 서열 또는 서열번호 189의 서열에서 1 내지 13개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
Xb2는 서열번호 193의 핵산 서열 또는 서열번호 193의 서열에서 1 내지 14개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
Xc1은 서열번호 203의 핵산 서열 또는 서열번호 203의 서열에서 1 내지 28개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
Xc2는 서열번호 222의 핵산 서열 또는 서열번호 222의 서열에서 1 내지 27개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
Lk는 길이 2 내지 20의 폴리뉴클레오티드 링커이거나 부존재한다.
[구현예 33]
선행하는 구현예 중 어느 하나에 있어서,
상기 Xc1 서열 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 이들 중 하나 이상의 U가 A, G 또는 C로 치환되는 변형을 포함하는
벡터 시스템.
[구현예 34]
선행하는 구현예 중 어느 하나에 있어서,
Xa 핵산 서열의 결실, Xb1 및 Xb2 핵산 서열의 결실, 및/또는 Xc1 및 Xc2 핵산 서열의 결실은 하나 이상의 상보적인 뉴클레오티드 쌍의 결실을 포함하는
벡터 시스템.
[구현예 35]
선행하는 구현예 중 어느 하나에 있어서,
상기 식 (I)에서 서열 5'-Xb1UUAGXb2-3'은 서열번호 198 내지 서열번호 202 및 5'-UUAG-3'로 이루어진 군에서 선택되는
벡터 시스템.
[구현예 36]
선행하는 구현예 중 어느 하나에 있어서,
상기 식 (I) 내의 서열 5'-Xc1-Lk-Xc2-3'은 서열번호 244 내지 서열번호 250 및 5'-Lk-3'으로 이루어진 군에서 선택되는
벡터 시스템.
[구현예 37]
선행하는 구현예 중 어느 하나에 있어서,
상기 Lk는 5'-GAAA-3', 5'-UUAG-3', 5'-UGAAAA-3', 5'-UUGAAAAA-3', 5'-UUCGAAAGAA-3'(서열번호 240), 5'-UUCAGAAAUGAA-3'(서열번호 241), 5'-UUCAUGAAAAUGAA-3'(서열번호 242) 및 5'-UUCAUUGAAAAAUGAA-3'(서열번호 243)로 이루어진 군에서 선택되는 핵산 서열을 포함하는
벡터 시스템.
[구현예 38]
선행하는 구현예 중 어느 하나에 있어서,
상기 스캐폴드 영역은 서열번호 251 내지 서열번호 296으로 이루어진 군에서 선택된 핵산 서열로 이루어진 엔지니어링된 tracrRNA를 포함하고/거나
서열번호 297 내지 서열번호 304로 이루어진 군에서 선택된 핵산 서열로 이루어진 엔지니어링된 crRNA을 포함하는
벡터 시스템.
[구현예 39]
선행하는 구현예 중 어느 하나에 있어서,
상기 제1 또는 제2 가이드 RNA는 서열번호 313 내지 서열번호 350으로 이루어진 군에서 선택된 핵산 서열의 스캐폴드 영역 서열을 포함하는
시스템.
[구현예 40]
선행하는 구현예 중 어느 하나에 있어서,
상기 Cas12f1 분자는 서열번호 360 내지 서열번호 364 및 서열번호 370 내지 서열번호 377로 이루어진 군에서 선택된 아미노산 서열과 70% 이상의 서열 동일성을 갖는 아미노산 서열을 포함하는
시스템.
[구현예 41]
선행하는 구현예 중 어느 하나에 있어서,
상기 벡터는 프로모터 또는 인핸서를 더 포함하는
벡터 시스템.
[구현예 42]
선행하는 구현예 중 어느 하나에 있어서,
상기 프로모터는 U6 프로모터, EFS 프로모터, EF1-α 프로모터, H1 프로모터, 7SK 프로모터, CMV 프로모터, LTR 프로모터, Ad MLP 프로모터, HSV 프로모터, SV40 프로모터, CBA 프로모터 또는 RSV 프로모터인
벡터 시스템.
[구현예 43]
선행하는 구현예 중 어느 하나에 있어서,
상기 벡터는 레트로바이러스 벡터(retrovirus vector), 렌티바이러스 벡터(lentivirus vector), 아데노바이러스 벡터(adenovirus vector), 아데노-연관 바이러스 벡터(adeno-associated virus vector), 백시니아바이러스 벡터(vaccinia virus vector), 폭스바이러스 벡터(poxvirus vector), 단순포진 바이러스 벡터(herpes simplex virus vector) 및 파지미드 벡터(phagemid vector)로 구성된 군에서 선택되는
벡터 시스템.
[구현예 44]
선행하는 구현예 중 어느 하나에 있어서,
상기 벡터는 플라스미드, 네이키드 DNA, DNA 복합체, mRNA(전사물) 및 앰플리콘(amplicon)으로 이루어진 군에서 선택되는
벡터 시스템.
[구현예 45]
선행하는 구현예 중 어느 하나에 따른 벡터 시스템에 의해 제조된 재조합 바이러스.
[구현예 46]
선행하는 구현예 중 어느 하나에 따른 시스템, 선행하는 구현예 중 어느 하나에 따른 벡터 시스템 또는 선행하는 구현예 중 어느 하나에 따른 재조합 바이러스를 포함하는 조성물.
[구현예 47]
선행하는 구현예 중 어느 하나에 있어서,
상기 조성물은 약학 조성물인
조성물.
[구현예 48]
선행하는 구현예 중 어느 하나에 따른 시스템, 선행하는 구현예 중 어느 하나에 따른 벡터 시스템, 또는 선행하는 구현예 중 어느 하나에 따른 재조합 바이러스를 세포와 접촉시키는 단계를 포함하는
세포 내 USH2A 유전자에서 엑손 13을 포함하는 세그먼트의 결실을 유도하는 방법.
[구현예 49]
선행하는 구현예 중 어느 하나에 따른 시스템, 선행하는 구현예 중 어느 하나에 따른 벡터 시스템, 또는 선행하는 구현예 중 어느 하나에 따른 재조합 바이러스를 개체와 접촉시키는 단계를 포함하는
USH2A 유전자 엑손 13에 돌연변이와 관련된 질환을 가진 개체를 치료하는 방법.
[구현예 50]
선행하는 구현예 중 어느 하나에 따른 시스템, 선행하는 구현예 중 어느 하나에 따른 벡터 시스템, 또는 선행하는 구현예 중 어느 하나에 따른 재조합 바이러스를 세포와 접촉시키는 단계를 포함하는
세포의 유전자를 변경하는 방법.
[구현예 51]
선행하는 구현예 중 어느 하나에 있어서,
상기 재조합 바이러스는 아데노-연관 바이러스(AAV)인
방법.
[구현예 52]
선행하는 구현예 중 어느 하나에 있어서,
상기 세포는 줄기세포, 포유동물의 눈 또는 내이(inner ear)의 세포인
방법.
[구현예 53]
선행하는 구현예 중 어느 하나에 있어서,
상기 세포는 어셔 증후군을 가진 개체로부터 유래된 것인
방법.
[구현예 54]
선행하는 구현예 중 어느 하나에 있어서,
상기 접촉은 생체 외 또는 생체 내에서 일어나는
방법.
[구현예 55]
선행하는 구현예 중 어느 하나의 방법에 의해 유전적으로 변형된 줄기세포.
[구현예 56]
선행하는 구현예 중 어느 하나에 있어서, 상기 줄기세포는 제2A형 어셔 증후군을 치료하기 위한
줄기세포.
[구현예 57]
USH2A(Usherin) 유전자 내의 표적 서열과 혼성화할 수 있는 가이드 서열을 포함하는 스페이서 영역 및 스캐폴드 영역을 포함하는 가이드 RNA로서,
상기 가이드 서열은 (i) 서열번호 397 내지 서열번호 445로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 22개 뉴클레오티드 서열 또는 상기 연속된 서열에서 5개 이하의 뉴클레오티드가 상이한 서열을 포함하고, 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열이고/거나, (ii) 서열번호 446 내지 서열번호 475로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 20개 뉴클레오티드 서열 또는 상기 연속된 서열에서 5개 이하의 뉴클레오티드가 상이한 서열을 포함하고, 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열인
가이드 RNA.
[구현예 58]
선행하는 구현예 중 어느 하나에 있어서,
상기 가이드 서열은 서열번호 80 내지 서열번호 128 및 서열번호 159 내지 서열번호 164로 이루어진 군에서 선택된 핵산 서열을 포함하고/거나
상기 가이드 서열은 서열번호 129 내지 서열번호 158 및 서열번호 165 내지 서열번호 174로 이루어진 군에서 선택된 핵산 서열을 포함하는
가이드 RNA.
[구현예 59]
선행하는 구현예 중 어느 하나에 있어서,
상기 가이드 RNA는 가이드 서열의 3'-말단에 연결된 U-rich tail 서열을 포함하고, 상기 U-rich tail은 5'-(UmV)nUo-3'로 표시되고, 여기서 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수인
가이드 RNA.
[구현예 60]
선행하는 구현예 중 어느 하나에 있어서,
상기 스캐폴드 영역은 5'-말단부터 순차적으로 제1 스템-루프 영역, 제2 스템-루프 영역, 제3 스템-루프 영역, 제4 스템-루프 영역 및 tracrRNA-crRNA 상보성 영역을 포함하는 야생형 Cas12f1 가이드 RNA 서열의 스캐폴드 영역과 50% 이상 서열 동일성을 갖는 뉴클레오티드 서열을 포함하고, 상기 야생형 Cas12f1 가이드 RNA 서열에 대해 하기 (1) 내지 (4)로 이루어진 군에서 선택되는 하나 이상의 변형을 포함하는
가이드 RNA:
(1) 제1 스템-루프 영역의 일부 또는 전부의 결실;
(2) 제2 스템-루프 영역의 일부 또는 전부의 결실;
(3) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실; 및
(4) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환.
[구현예 61]
선행하는 구현예 중 어느 하나에 있어서,
상기 야생형 Cas12f1 가이드 RNA는 서열번호 175의 핵산 서열을 포함하는 tracrRNA 및 서열번호 176의 핵산 서열을 포함하는 crRNA를 포함하는
가이드 RNA.
[구현예 62]
선행하는 구현예 중 어느 하나에 있어서,
상기 스캐폴드 영역은 하기 식 (I)로 표시되는 서열과 80% 이상 서열 동일성을 갖는 서열을 포함하는
가이드 RNA:
Figure PCTKR2023004330-appb-img-000011
식 (I)에서,
Xa는 서열번호 178의 핵산 서열 또는 서열번호 178의 서열에서 1 내지 20개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
Xb1은 서열번호 189의 핵산 서열 또는 서열번호 189의 서열에서 1 내지 13개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
Xb2는 서열번호 193의 핵산 서열 또는 서열번호 193의 서열에서 1 내지 14개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
Xc1은 서열번호 203의 핵산 서열 또는 서열번호 203의 서열에서 1 내지 28개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
Xc2는 서열번호 222의 핵산 서열 또는 서열번호 222의 서열에서 1 내지 27개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
Lk는 길이 2 내지 20의 폴리뉴클레오티드 링커이거나 부존재한다.
[구현예 63]
선행하는 구현예 중 어느 하나에 있어서,
상기 Xc1 서열 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 이들 중 하나 이상의 U가 A, G 또는 C로 치환되는 변형을 포함하는
가이드 RNA.
[구현예 64]
선행하는 구현예 중 어느 하나에 있어서,
Xa 핵산 서열의 결실, Xb1 및 Xb2 핵산 서열의 결실 및/또는 Xc1 및 Xc2 핵산 서열의 결실은 하나 이상의 상보적인 뉴클레오티드 쌍의 결실을 포함하는
가이드 RNA.
[구현예 65]
선행하는 구현예 중 어느 하나에 있어서,
상기 식 (I)에서 서열 5'-Xb1UUAGXb2-3'은 서열번호 198 내지 서열번호 202 및 5'-UUAG-3'로 이루어진 군에서 선택되는
가이드 RNA.
[구현예 66]
선행하는 구현예 중 어느 하나에 있어서,
상기 식 (I) 내의 서열 5'-Xc1-Lk-Xc2-3'은 서열번호 244 내지 서열번호 250 및 5'-Lk-3'으로 이루어진 군에서 선택되는
가이드 RNA.
[구현예 67]
선행하는 구현예 중 어느 하나에 있어서,
상기 스캐폴드 영역은 서열번호 251 내지 서열번호 296으로 이루어진 군에서 선택된 핵산 서열로 이루어진 엔지니어링된 tracrRNA를 포함하고/거나
서열번호 297 내지 서열번호 304로 이루어진 군에서 선택된 핵산 서열로 이루어진 엔지니어링된 crRNA을 포함하는
시스템.
[구현예 68]
선행하는 구현예 중 어느 하나에 있어서,
상기 가이드 RNA는 싱글 가이드 RNA인
가이드 RNA.
[구현예 69]
선행하는 구현예 중 어느 하나에 있어서,
상기 가이드 RNA는 서열번호 313 내지 서열번호 350으로 이루어진 군에서 선택된 핵산 서열의 스캐폴드 영역 서열을 포함하는
가이드 RNA.
[구현예 70]
선행하는 구현예 중 어느 하나에 있어서,
상기 가이드 RNA는 서열번호 315 내지 317로 이루어진 군에서 선택된 핵산 서열의 스캐폴드 영역 서열을 포함하는
가이드 RNA.
[구현예 71]
선행하는 구현예 중 어느 하나에 따른 가이드 RNA를 암호화하는 핵산 분자.
[구현예 72]
선행하는 구현예 중 어느 하나에 따른 하나 이상의 가이드 RNA를 포함하는 조성물.
[구현예 73]
선행하는 구현예 중 어느 하나에 따른 하나 이상의 가이드 RNA 및 Cas12f1 분자를 포함하는 엔도뉴클레아제를 포함하는 조성물.
[구현예 74]
선행하는 구현예 중 어느 하나에 있어서,
상기 조성물은 둘 이상의 가이드 RNA를 포함하고, 적어도 하나의 가이드 RNA는 (i) 서열번호 397 내지 서열번호 445로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 22개 뉴클레오티드 서열 또는 상기 연속된 서열에서 5개 이하의 뉴클레오티드가 상이한 서열을 포함하고, (ii) 적어도 다른 하나의 가이드 RNA는 서열번호 446 내지 서열번호 475로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 20개 뉴클레오티드 서열 또는 상기 연속된 서열에서 5개 이하의 뉴클레오티드가 상이한 서열을 포함하는
조성물.
이하, 실시예를 통해 본 명세서가 제공하는 발명에 대해 더욱 상세히 설명한다. 이들 실시예는 오로지 본 명세서에 의해 개시되는 내용을 예시하기 위한 것으로, 본 명세서에 의해 개시되는 내용의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지 않는 것은 이 기술 분야에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.
실시예
실시예 1. Cas12f1에 대한 가이드 RNA의 엔지니어링
실시예 1.1. 야생형 Cas12f1 단백질 및 이를 암호화하는 인간 코돈-최적화된 핵산
본 발명의 유전자 편집 시스템은 일 구성요소로서 야생형의 Cas12f1(CWCas12f1 또는 Un1Cas12f1) 단백질 또는 이의 변이체 단백질을 포함하는 엔도뉴클레아제를 포함하며, 다른 일부 측면에서 유전자 편집 시스템은 상기 엔도뉴클레아제와 결합되어 고효율의 유전자 편집 효율을 나타내는 엔지니어링된 가이드 RNA(gRNA)를 포함한다. 상기 엔지니어링된 gRNA는 야생형의 gRNA와 비교하여 길이는 더 짧으면서도 향상된 유전자 편집 효율이 나타나도록 인위적으로 변형된 것으로서, 이와 같은 gRNA의 개발을 위해 야생형의 Cas12f1 단백질을 포함하는 유전자 편집 시스템을 기초로 다양한 변형 및 이들의 조합을 포함하는 복수의 엔지니어링된 gRNA를 제작하여 각각의 유전자 편집 효율을 시험하였다. 여기서, Cas12f1 단백질은 하기 표 9에 제시된 서열번호 360 또는 서열번호 364의 아미노산 서열을 포함하거나 이로 이루어진 단백질일 수 있다.
명칭 아미노산 서열 서열
번호
CWCas12f1
단백질
MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 360
Un1Cas12f1
단백질
MAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 364
인간 세포에서 발현하는 유전자 편집 시스템 및 상기 시스템의 각 구성요소를 암호화하는 핵산 구조물을 구축하기 위해, 코돈 최적화 프로그램을 이용하여 CWCas12f1 및 Un1Cas12f1 단백질에 대한 인간-코돈 최적화된 유전자를 얻었다. 일 예시로서, 상기와 같이 제작한 CWCas12f1 및 Un1Cas12f1 단백질에 대한 인간-코돈 최적화된 핵산의 염기서열은 다음과 같다:
Figure PCTKR2023004330-appb-img-000012
Figure PCTKR2023004330-appb-img-000013
상기 예시된 서열은 gRNA의 변형에 따른 인델 효율을 시험하기 위한 유전자 편집 시스템에서 엔도뉴클레아제(유전자 편집 단백질)을 암호화하는 핵산으로 사용되었다.
한편, 상기 유전자 편집 시스템의 각 구성요소를 발현하는 핵산 구조물은 다음의 방법으로 제조하였다: 본 실시예에서 사용된 상기 핵산 구조물은 인간 코돈-최적화된 Cas12f1의 유전자 서열을 포함한다. 상기 유전자 서열을 주형으로 PCR 증폭을 진행하고, 깁슨 조립(Gibson assembly) 방법에 의해 진핵 세포 시스템에서 발현이 가능한 프로모터와 poly(A) 신호 서열(signal sequence)을 가지는 벡터에 원하는 클로닝(cloning) 서열에 맞게 클로닝을 진행하였다. 클로닝 후, 얻어진 재조합 플라스미드 벡터의 서열은 생어 시퀀싱(Sanger sequencing) 방법을 통하여 최종 확인하였다.
실시예 1.2. 가이드 RNA의 엔지니어링 및 최적의 가이드 RNA 선별
실시예 1.2.1. 엔지니어링된 가이드 RNA의 설계
가이드 RNA(gRNA)의 길이를 더 짧게 하면서 인델 활성을 동등하게 유지할 수 있다면, 아데노 연관 바이러스(AAV)의 패키징 한계 극복 등에 이점을 가질 수 있으며, 나아가 인델 활성을 더욱 향상시킬 수 있다면 치료제를 비롯한 다양한 유전자 편집 분야에서의 응용 가능성이 높아질 수 있다. 본 발명의 USH2A 유전자 편집 시스템에서 사용되는 Cas12f1 또는 이의 변이체 단백질에 대한 엔지니어링된 가이드 RNA(engineered gRNA)는 자연계에서 발견되는 gRNA에 새로운 구성을 추가하거나 그 구조나 서열 중 일부를 변형한 것으로, 야생형 Cas12f1 가이드 RNA 서열에서 1개 이상의 뉴클레오티드가 치환, 결실, 삽입 또는 부가된 서열을 포함할 수 있다.
도 1은 야생형 Cas12f1에 대한 야생형 가이드 RNA 및 본 발명의 USH2A 유전자 편집 시스템에서 고효율의 유전자 편집 활성을 갖도록 하기 위한 gRNA를 제작하기 위해 자연에 존재하는 야생형 gRNA 서열을 기반으로 다양한 변형이 적용될 수 있는 부위(변형부위(modification site, MS), 이하 MS로 약칭함)인 MS1 내지 MS5를 도시한다. 도 2a 및 도 2b는 상기 MS1 내지 MS5에서의 다양한 변형이 조합된 엔지니어링된 싱글 가이드 RNA(engineered sgRNA) 제작을 위한 예시적 변형부위를 도시한다(예컨대, MS3에 해당하는 예시적 변형 부위는 각각 MS3-1, MS3-2 및 MS3-3으로 표시함). 도 2a는 Cas12f1에 대한 원형(canonical) sgRNA의 변형부위를 예시하며, 도 2b는 Cas12f1에 대한 성숙형(mature form) sgRNA의 변형부위를 예시한다.
본 실시예에서는 상기 "2.3. 스캐폴드 영역(scaffold region) 및 이의 엔지니어링" 항목에서 상세하게 기술한 바와 같이, Cas12f1 또는 이의 변이체 단백질을 포함하는 엔도뉴클레아제에 대해 고효율의 유전자 편집 능력을 나타내는 엔지니어링된 gRNA를 제작하였고, 이들의 예시적인 서열은 하기 표 10에서 제공된다. 본 명세서에 개시된 gRNA들은 본 발명의 USH2A 유전자 편집 시스템에서 사용되는 엔지니어링된 gRNA의 대표적인 예시로서 본 발명의 유전자 편집 시스템에서 사용될 수 있는 gRNA가 예시된 서열로 제한되는 것은 아니다.
gRNA 서열 (5'→3') 서열
번호
Canonical sgRNA CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUUUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGacgaaUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 177
MS1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 313
MS1/MS2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 314
MS1/MS2/MS3
(ver3.0)
ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 315
MS2/MS3/MS4(ver4.0) ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 316
MS2/MS3/MS4/MS5 (ver4.1) ACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 317
MS1/MS3-1 GAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 318
MS1/MS3-2 UGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 319
MS1/MS3-3 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 320
MS1/MS4*-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCgaaaGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 321
MS1/MS4*-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 322
MS1/MS4*-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUgaaaAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 323
MS1/MS5-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUuuagAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 324
MS1/MS5-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCuuagGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 325
MS1/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 326
MS1/MS2/MS4*-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 327
MS1/MS3-3/MS4*-2 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 328
MS1/MS2/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 329
MS1/MS3-3/MS5-3 ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 330
MS1/MS4*-2/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 331
MS1/MS2/MS3-3/MS4*-2 ACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 332
MS1/MS2/MS3-3/MS5-3 ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 333
MS1/MS2/MS4*-2/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 334
MS1/MS3-3/MS4*-2/MS5-3 ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 335
MS1/MS2/MS3-3/MS4*-2/MS5-3 ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 336
또한, 상기 원형(canonical) sgRNA에서 변형부위 중 하나인 MS4에 해당하는 서열의 일부가 제거된 성숙형(mature form) gRNA를 제작하였다. 성숙형 gRNA의 예시적인 서열은 하기 표 11에 나타내었다.
gRNA 서열 (5'→3') 서열
번호
Mature form gRNA CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 337
MS3-1 GAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 338
MS3-2 UGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 339
MS3-3 ACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 340
MS4-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUgaaaAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 341
MS4-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCgaaaGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 342
MS4-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 343
MS5-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUuuagAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 344
MS5-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUuuagAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 345
MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 346
MS3-3/MS4-3 ACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 347
MS3-3/MS5-3 ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 348
MS4-3/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 349
MS3-3/MS4-3/MS5-3 ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 350
상기 표 10 및 표 11에서 'NNNNNNNNNNNNNNNNNNNN'으로 표시된 서열은 표적 유전자(예컨대, USH2A 유전자) 내의 표적 서열과 혼성화할 수 있는 임의의 길이를 갖는 가이드 서열(스페이서 서열)을 의미한다. 상기 가이드 서열은 목적하는 표적 유전자 및/또는 상기 표적 유전자 내 표적 서열에 따라 통상의 기술자에 의해 적절하게 설계될 수 있으며, 따라서 특정 길이의 특정 서열로 한정되는 것은 아니다.
실시예 1.2.2. 엔지니어링된 가이드 RNA의 인델(indel) 활성 비교
표적 유전자 또는 표적 핵산 내에서 핵산 절단에 의한 인델(insertion or deletion; indel)이 발생할 수 있다. 상기 인델은 이중가닥의 절단에 의해 형성된 2개의 접착성 말단(sticky end) 등이 빈번한 접촉을 반복하여 DNA 내 이중가닥 파손을 수복 또는 수선하는 비상동말단연결(non-homologous end joining, NHEJ)에 의해 발생하는데, NHEJ 수선 부위에 핵산 서열의 일부 삽입 및/또는 결실(삽입결실)을 초래한다. 결과적으로, 유전자 편집 시스템의 표적 핵산 절단에 의해서 표적 유전자 또는 표적 핵산 내에서 하나 이상의 염기가 결실 및/또는 추가되는 핵산 편집이 일어날 수 있다.
본 실시예에서는 엔지니어링된 가이드 RNA가 원형(canonical) sgRNA와 비교하여 CWCas12f1 단백질 기반의 유전자 편집 시스템에서 우수한 표적 핵산 절단 활성을 야기하는 것을 확인하고자 하였다. 이를 위해, 원형 sgRNA에서 변형부위(MS) 3 내지 MS5 각각을 세 구획으로 더 세분화하였다(도 2a 참조). 이들 중 하나 이상의 변형을 조합하여 엔지니어링된 gRNA(실시예 1.2.1의 표 10 참조)를 제작하였고, 이들 각각에 대한 인델 활성을 테스트하였다. 인델 효율 비교를 위한 표적 서열로서 CWCas12f1 단백질이 절단하는 부위로 인식하는 PAM 서열을 포함하는 2종의 인간 내인성 DNA 표적 부위를 동정하여 사용하였으며, 구체적인 핵산 서열은 하기 표 12에서 제공된다.
명칭 표적 서열 (5'→3') 서열번호
Target-1 [TTTG]CACACACACAGTGGGCTACC 358
Target-2 [TTTG]CATCCCCAGGACACACACAC 359
그 결과, 도 3a 및 도 3b에 나타난 바와 같이, 원형 sgRNA(full length) 및 야생형 CWCas12f1 단백질을 포함하는 유전자 편집 시스템은 표적 가닥의 절단이 일어나지 않았지만, 테스트에 사용한 엔지니어링된 gRNA는 그 염기서열 및 표적 서열(target sequence)에 따라 CWCas12f1 단백질의 표적 핵산에 대한 인델 효율에 영향을 미쳤다.
구체적으로, 표적 서열 1(Target-1; 서열번호 358)에 대해 CWCas12f1 단백질을 포함하는 유전자 편집 시스템에서는 MS1/MS2/MS3, MS1/MS2/MS4*-2, MS1/MS3-3/MS4*-2 및 MS1/MS2/MS3-3/MS4*-2 변형이 적용된 gRNA가 약 50% ~ 65%의 높은 인델 효율을 나타내었고, MS1/MS3-3, MS1/MS2/MS5-3, MS1/MS2/MS3-3/MS5-3, MS1/MS2/MS4*-2/MS5-3 및 MS1/MS2/MS3-3/MS4*-2/MS5-3 변형이 적용된 gRNA는 약 30% ~ 40%의 인델 효율을 보였다['슬래쉬(/)'는 '및'을 의미함; 도 3a 참조].
다음으로, 표적 서열 2(Target-2; 서열번호 359)에 대해 CWCas12f1 단백질을 포함하는 유전자 편집 시스템에서는 MS1/MS2/MS3, MS1/MS2/MS3-3/MS4*-2, MS1/MS2/MS3-3/MS5-3 및 MS1/MS2/MS3-3/MS4*-2/MS5-3 변형이 적용된 gRNA가 약 35% ~ 45%의 인델 효율을 나타내었고, MS1/MS2/MS4*-2, MS1/MS3-3/MS4*-2, MS1/MS2/MS5-3, MS1/MS3-3/MS5-3, MS1/MS4*-2/MS5-3, MS1/MS2/MS4*-2/MS5-3 및 MS1/MS3-3/MS4*-2/MS5-3 변형이 적용된 gRNA는 약 15% ~ 20%의 인델 효율을 나타내었다(도 3b 참조).
실시예 1.2.3. 성숙형(Mature form) sgRNA를 기반으로 엔지니어링된 RNA의 인델(Indel) 활성 비교
다음으로, CWCas12f1 단백질에 대한 고효율의 엔지니어링된 싱글 가이드 RNA를 얻기 위해, 성숙형(mature form, 이하 'MF'로 약칭함)의 sgRNA인 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN-3'(서열번호 337) 및 상기 MF sgRNA에서 핵산 서열의 일부 변형을 가지는 엔지니어링된 gRNA를 제작하고(표 11 참조), 이들에 의한 CWCas12f1 유전자 편집 시스템의 인델 효율을 측정하였다.
그 결과, 제작된 대부분의 엔지니어링된 gRNA는 원형(canonical) sgRNA 보다 향상된 인델 효율을 나타냈고, 특히, MS3-3/MS4-3 변형을 갖는 gRNA(서열번호 347)는 표적 서열 1(Target-1; 서열번호 358) 및 표적 서열 2(Target-2; 서열번호 359)에서 각각 약 40% 및 약 20%의 인델 효율을 나타내었다(도 4a 및 도 4c 참조).
또한, 상기 MF sgRNA에서 핵산 서열의 일부 변형을 가지는 엔지니어링된 gRNA(서열번호 338 내지 350, 표 11) 각각의 3'-말단부(MS2)에 U-rich tail(U4AU4)이 추가된 gRNA의 경우 MF sgRNA 보다도 인델 효율이 상승하였다(도 4b 및 도 4d 참조). MS3-3/MS4-3 변형이 적용된 gRNA(서열번호 347)의 3'-말단에 U-rich tail(U4AU4)이 추가된 경우에도, 표적 서열 1(Target-1) 및 표적 서열 2(Target-2)에서 각각 약 60% 및 약 50%의 인델 효율을 나타내어, MS2에서의 변형을 추가로 조합하는 경우 인델 효율이 크게 상승되는 것을 확인하였다(도 4b 및 도 4d).
상기 실시예 1.2.2 및 1.2.3의 결과를 종합하면, 본 발명의 Cas12f1 또는 이의 변이체 기반의 유전자 편집 시스템에서 원형(canonical) 가이드 RNA를 포함하는 경우에는 핵산 절단 활성이 거의 없는 것과 비교하여, 최소한 하나 이상의 염기서열이 삭제되거나 치환된 변형을 가지는 엔지니어링된 gRNA 또는 원형 sgRNA의 3'-말단부(MS2)에 U-rich tail이 추가되는 변형에 의해 표적 유전자 또는 표적 핵산의 절단 활성이 현저하게 증가된다는 결론에 도달한다.
상기 실험 결과를 바탕으로, 이하의 실시예에서는 MS1/MS2/MS3 변형이 적용된 gRNA(Cas12f1 ver3.0; 서열번호 315), MS2/MS3/MS4 변형이 적용된 gRNA(Cas12f1 ver4.0; 서열번호 316) 또는 MS2/MS3/MS4/MS5 변형이 적용된 gRNA(Cas12f1 ver4.1; 서열번호 317)를 사용하여 각각의 가이드 서열에 따른 USH2A 유전자 편집 효율을 분석하였다.
실시예 2. USH2A 유전자 편집을 위한 가이드 서열의 선정
실시예 2.1. 가이드 서열의 설계를 위한 프로토스페이서 서열의 선정
상술한 바와 같이, 제2형(보다 구체적으로, 제2A형) 어셔 증후군은 USH2A 유전자의 엑손 13을 제거(예컨대, 엑손 13 스키핑)함으로써 유효한 치료 효과를 얻을 수 있다. 이에, c.2276G>T 돌연변이 및/또는 c.2299delG 돌연변이을 포함하는 USH2A 유전자의 엑손 13을 스키핑하기 위하여 표적 서열이 포함될 수 있는 표적 영역을 엑손 13의 3600bp 업스트림(upstream) 영역 및 14440bp 다운스트림(downstream) 영역으로 각각 설정하고, 해당 영역에서 USH2A DNA의 이중가닥 전체에 대해 프로토스페이서 서열들을 선정하였다. 편의를 위해 상기 업스트림 영역은 프론트(front) 영역의 약칭인 F 영역으로, 다운스트림 영역은 리어(rear) 영역의 약칭인 R 영역으로 지칭하였다.
선정된 프로토스페이서 서열은 하기 표 13에 PAM 서열과 함께 제시되어 있다. 각 프로토스페이서 서열을 용이하게 구분하기 위해, F 영역에 존재하는 프로토스페이서 서열은 F를 붙여 넘버링하였고, R 영역에 존재하는 프로토스페이서 서열은 R을 붙여 넘버링하였다.
영역 연번 명칭
(Oligo)
PAM
(TTTR)
프로토스페이서 서열
(5'→3')
서열
번호
F 1 PS-USH2A-F02 TTTG TGTCTCGTCTATCTTGAATG 397
F 2 PS-USH2A-F03 TTTG TGTTCGTATCATCTGCAGTA 398
F 3 PS-USH2A-F05 TTTG AGAGTAAGATTGGCCCCCTA 399
F 4 PS-USH2A-F06 TTTA ATTTAGCTTTAATATACAAC 400
F 5 PS-USH2A-F07 TTTA ATATACAACTGTTTGCGATG 401
F 6 PS-USH2A-F09 TTTG TTAAAGAGAAAAAGAGCTCC 402
F 7 PS-USH2A-F10 TTTA AATGAGCACATTTGTTAAAA 403
F 8 PS-USH2A-F12 TTTA ATAAAAGGTTAAGCTGAGTA 404
F 9 PS-USH2A-F13 TTTA TACTCAGCTTAACCTTTTATTA 405
F 10 PS-USH2A-F15 TTTG GGGTGAGAACATTTAAGATC 406
F 11 PS-USH2A-F16 TTTA TAATGTGTACATATATCAAA 407
F 12 PS-USH2A-F17 TTTA ATTATACCTTCGTGAAGCTG 408
F 13 PS-USH2A-F22 TTTA TATTACTTCTATTTAAAGGA 409
F 14 PS-USH2A-F23 TTTA GAATAACCTTACTTGTCAGA 410
F 15 PS-USH2A-F24 TTTA TTTCTTTGCCTTGTAATACC 411
F 16 PS-USH2A-F25 TTTG CATCTAAACATTTACTATTC 412
F 17 PS-USH2A-F26 TTTA GATGCAAAATACTTCCTTTA 413
F 18 PS-USH2A-F27 TTTG GAAACTATCTAAAGGAAGTA 414
F 19 PS-USH2A-F30 TTTA AATTGCAATTATAGCTTGAA 415
F 20 PS-USH2A-FA01 TTTA AAAGGTGAGGATGGGAAAATG 416
F 21 PS-USH2A-FA02 TTTA TGAAGTTCATCGCAAACAGTTG 417
F 22 PS-USH2A-FA03 TTTA ATTATTACTTAATGCAAAGA 418
F 23 PS-USH2A-FA04 TTTG CATTAAGTAATAATTAAAAA 419
F 24 PS-USH2A-FA05 TTTA AAATTATAGTAGAATTACATA 420
F 25 PS-USH2A-FA06 TTTA AGATCTAATCTCTTAGCAA 421
F 26 PS-USH2A-FA07 TTTG ATATATGTACACATTATAAA 422
F 27 PS-USH2A-FA08 TTTA TGGCAGACAACATGATGTTTTG 423
F 28 PS-USH2A-FA09 TTTA TTTAATTATACCTTCGTGAAG 424
F 29 PS-USH2A-FA10 TTTA ACAGTGATGAATGACTCACC 425
F 30 PS-USH2A-FA11 TTTA ATTTCAATAAGGAAAATAAA 426
F 31 PS-USH2A-FA12 TTTA TCCATATATATACATATATA 427
F 32 PS-USH2A-FA13 TTTA GGAAATGCTTTTCTACATATG 428
F 33 PS-USH2A-FA14 TTTA TTTTCCTTATTGAAATTAAA 429
F 34 PS-USH2A-FA15 TTTA AAAATAACTGTATTGTTAAC 430
F 35 PS-USH2A-FA16 TTTG AACTATTAAAATTGGTCTAC 431
F 36 PS-USH2A-FA17 TTTA AAACTGATATGATATGAATC 432
F 37 PS-USH2A-FA18 TTTA ATAGTTCAAAATGAGTCATA 433
F 38 PS-USH2A-FA19 TTTA AAATTTGCAGCAATAGTGG 434
F 39 PS-USH2A-FA20 TTTG AATATGCCATACATATTCC 435
F 40 PS-USH2A-FA21 TTTA AAAATATGCACAGTGCTTA 436
F 41 PS-USH2A-FA22 TTTA AAAATTAATCTTAAAATAAG 437
F 42 PS-USH2A-FA23 TTTA AATTCATGGATATTTGGAAA 438
F 43 PS-USH2A-FA24 TTTA TCACCTAAACTTAAATCTCTG 439
F 44 PS-USH2A-FA25 TTTA AAGAGGTATGTTCTGAGTCA 440
F 45 PS-USH2A-FA26 TTTA TATTAATTGAAAATGATAAA 441
F 46 PS-USH2A-FA27 TTTG TATGCTCCTCTATTTTATCA 442
F 47 PS-USH2A-FA28 TTTA AGTAATTAATATAAATAAAA 443
F 48 PS-USH2A-FA29 TTTG TGAAAACAGCATATACACTTA 444
F 49 PS-USH2A-FA30 TTTA GATAGTTTCCAAATATCCATG 445
R 1 PS-USH2A-R01 TTTG TTAACTTAGGTAACTTCTCC 446
R 2 PS-USH2A-R02 TTTG GAAATAAAATTTGTAGAAGC 447
R 3 PS-USH2A-R04 TTTA GATAAAACTCAGCCGATCGG 448
R 4 PS-USH2A-R05 TTTA CTTCAAGTGTAGAAATTGAG 449
R 5 PS-USH2A-R07 TTTG AGTTGAATATCCATACAATG 450
R 6 PS-USH2A-R08 TTTG GCATTGTATGGATATTCAAC 451
R 7 PS-USH2A-R09 TTTA TTCAGAGATTTAGTTCATCA 452
R 8 PS-USH2A-R10 TTTA TATAGAAATACCTAGAATTG 453
R 9 PS-USH2A-R11 TTTG ATGGCATGTGGAAACAATTC 454
R 10 PS-USH2A-R13 TTTA TTAATTTGATGGCATGTGGA 455
R 11 PS-USH2A-R14 TTTG TATATAATGAGATTAAACAG 456
R 12 PS-USH2A-R17 TTTA GTTAAAATCTTAAATGTAAG 457
R 13 PS-USH2A-R18 TTTA TAGACCCATATAACTCAGAG 458
R 14 PS-USH2A-R19 TTTG CTTGCCAGAGAAGGAGTAGA 459
R 15 PS-USH2A-R20 TTTG TTCTACTCCTTCTCTGGCAA 460
R 16 PS-USH2A-R22 TTTG GCATTGGTCAGTGTGTAAGA 461
R 17 PS-USH2A-R23 TTTA ATACTTACATCACAAAAAGA 462
R 18 PS-USH2A-R24 TTTA TGGAGTATCTAGTTATAATA 463
R 19 PS-USH2A-R26 TTTA TAATTCTACCACCAGCCACA 464
R 20 PS-USH2A-R27 TTTA TTAGCTACCTCTTAGTTATA 465
R 21 PS-USH2A-R29 TTTG TTTGGTTGGTTACCTCTGAG 466
R 22 PS-USH2A-R30 TTTG GTTGGTTACCTCTGAGCCAA 467
R 23 PS-USH2A-R31 TTTA TAAGTACGTGACACCCCTGG 468
R 24 PS-USH2A-R32 TTTA GGGACCATTTCATCAGGTAG 469
R 25 PS-USH2A-R34 TTTA CCTTCAGGTTAATCCTTTCA 470
R 26 PS-USH2A-R35 TTTG GCAACAAAGTCCTTTGTCTC 471
R 27 PS-USH2A-R36 TTTG ACTGTGTAGGAGACAAAGGA 472
R 28 PS-USH2A-R38 TTTG TACACCTACCAGATATCTAA 473
R 29 PS-USH2A-R39 TTTA ATCTACACCATGCATAAGAC 474
R 30 PS-USH2A-R40 TTTA CTTAGAAAGAAGGATGTATA 475
선정된 프로토스페이서 서열을 기초로 가이드 RNA의 가이드 서열(또는 스페이서 서열)을 설계하였다. 가이드 서열은 표적 서열에 상보적으로 결합하는 서열로서, 이러한 가이드 서열은 프로토스페이서 서열을 이용해 설계할 수 있다. 상기 프로토스페이서 서열은 표적 서열과 상보적인 서열이므로, 표적 서열과 프로토스페이서 서열 간의 상관관계는 표적 서열과 가이드 서열 간의 상관관계와 유사하다. 이러한 특징에 의해, 일반적으로 가이드 서열은 프로토스페이서 서열을 이용하여 설계할 수 있다. 즉, 표적 서열에 상보적으로 결합하는 가이드 서열은 기본적으로 프로토스페이서 서열과 동일한 염기서열을 갖는 뉴클레오티드 서열로 설계할 수 있다. 이때, 프로토스페이서 서열의 염기서열 중 T는 U로 대체하여 가이드 서열을 설계한다. 상기 선정된 프로토스페이서 서열을 이용해 가이드 서열을 설계하였다. 가이드 서열의 구체적인 서열 정보 등은 상기 "2.2. 가이드 서열을 포함하는 스페이서 영역(spacer region)" 항목의 표 4 및 표 5에 제시되어 있다.
실시예 2.2. 가이드 RNA의 가이드 서열 및 스캐폴드 서열 조합의 최적화
실시예 2.1에서 선정된 프로토스페이스 서열을 기초로 설계된 가이드 RNA를 암호화하는 핵산 서열을 발현 카세트(expression cassette)로 제작하고, 이를 바로 형질주입(transfection)하여 T7E1 검정 없이 차세대 염기서열 분석(NGS)으로 인델(indel) 효율을 확인하였다. 여기서, 상기 가이드 RNA는 3'-말단에 U-rich tail 서열(예컨대, 5'-U4AU6-3')을 포함하도록 설계하였다.
그 결과, 인델 효율은 R 영역에 비해 F 영역에서 상대적으로 낮게 나타났으며, Cas12f1 ver3.0(서열번호 315) 카세트의 개선 버전인 Cas12f1 ver4.0(서열번호 316) 카세트의 인델 효율이 대부분의 샘플에서 개선되는 것을 확인하였다(도 5a, 도 5b 및 표 14 참조).
또한, Cas12f1 ver4.0 gRNA를 개량한 Cas12f1 ver4.1 gRNA(서열번호 317)를 제작하고 이의 인델 효율을 확인한 결과, F 영역에 위치하는 표적 서열들은 ver4.0보다 ver4.1에서 더 높은 인델 효율을 보여주었으나, R 영역에서는 반대로 ver4.0이 ver4.1보다 높은 인델 효율을 보여주었다(도 5a, 도 5b 및 표 14 참조).
명칭 가이드 서열 서열
번호
인델 효율(%)
Cas12f1 ver3.0 Cas12f1 ver4.0 Cas12f1 ver4.1
GUIDE-USH2A-F02 UGUCUCGUCUAUCUUGAAUG 80 - 0.23 0.03
GUIDE-USH2A-F03 UGUUCGUAUCAUCUGCAGUA 81 4.88 5.89 9.89
GUIDE-USH2A-F05 AGAGUAAGAUUGGCCCCCUA 82 0.64 1.48 4.83
GUIDE-USH2A-F15 GGGUGAGAACAUUUAAGAUC 89 0.55 - -
GUIDE-USH2A-F16 UAAUGUGUACAUAUAUCAAA 90 4.19 5.87 10.78
GUIDE-USH2A-F17 AUUAUACCUUCGUGAAGCUG 91 0.02 0.02 0.18
GUIDE-USH2A-F24 UUUCUUUGCCUUGUAAUACC 94 0.04 0.19 -
GUIDE-USH2A-FA10 ACAGUGAUGAAUGACUCACC 108 4.41 1.52 1.89
GUIDE-USH2A-FA12 UCCAUAUAUAUACAUAUAUA 110 4.61 - 1.29
GUIDE-USH2A-FA20 AAUAUGCCAUACAUAUUCC 118 2.78 0.58 1.03
GUIDE-USH2A-R10 UAUAGAAAUACCUAGAAUUG 136 1.65 1.20 -
GUIDE-USH2A-R18 UAGACCCAUAUAACUCAGAG 141 0.46 - -
GUIDE-USH2A-R19 CUUGCCAGAGAAGGAGUAGA 142 26.08 27.24 9.48
GUIDE-USH2A-R22 GCAUUGGUCAGUGUGUAAGA 144 6.32 16.03 15.79
GUIDE-USH2A-R26 UAAUUCUACCACCAGCCACA 147 - 6.41 -
GUIDE-USH2A-R36 ACUGUGUAGGAGACAAAGGA 155 - 3.06 -
GUIDE-USH2A-R40 CUUAGAAAGAAGGAUGUAUA 158 - 21.35 8.07
상기 Cas12f1 ver4.0 카세트 및 Cas12f1 ver4.1 카세트의 인델 효율 실험 결과를 바탕으로, 가이드 서열 GUIDE-USH2A-F03, -F16 및 -FA12에 대해서는 Cas12f1 ver.4.1을 스캐폴드 서열로 선정하였고, 가이드 서열 GUIDE-USH2A-R19 및 -R40에 대해서는 Cas12f1 ver4.0을 스캐폴드 서열로 선정하였다(도 5a, 도 5b 및 표 14). 이와 같이 선정된 가이드 서열을 사용하여 다시 인델 효율을 측정한 결과, 최종적으로 Cas12f1 ver4.1에서는 GUIDE-USH2A-F16 및 -FA12가 가이드 서열로 선정되었고, Cas12f1 ver4.0에서는 GUIDE-USH2A-R19 및 -R40이 가이드 서열로 선정되었다(도 6 참조).
실시예 3. USH2A 유전자 내 엑손 13 영역의 결실(deletion) 확인
실시예 2에서 높은 인델 효율을 나타낸 가이드 RNA 세트인 F16, FA12와 R19, R40의 조합으로 USH2A 유전자 내 엑손 13 영역의 결실을 확인하였다.
그 결과, 도 7에 나타난 바와 같이 모든 가이드 서열의 조합에서 결실 밴드(deletion band)가 확인되었다. 구체적으로, F16 및 R19의 조합에서는 2004bp, F16 및 R40의 조합에서는 1167bp, FA12 및 R19의 조합에서는 1302bp, FA12 및 R40의 조합에서는 465bp 위치에서 결실 밴드가 나타났다. 주 밴드(main band)의 증폭과 결실 밴드의 결과를 종합하면, F16 및 R19의 조합과 FA12 및 R19의 조합이 높은 결실 효율을 나타내는 것으로 확인되었다(도 7).
또한, 결실 정도를 확인하기 위하여 qPCR을 통한 분석을 진행하였다. qPCR 분석에서 사용된 프라이머 서열 및 증폭 위치는 도 8에 나타내었다. 분석 결과, F16 및 R19의 조합, F16 및 R40의 조합, FA12 및 R19의 조합, 그리고 FA12 및 R40의 조합에서 모두 60% 이상의 높은 결실 효율이 나타남을 확인하였다(도 9 참조).
이하 실시예에서는 현재까지 확보된 결실 효율을 더욱 향상시키기 위한 가이드 서열의 최적화를 진행하였다.
실시예 4. 결실 효율 향상을 위한 가이드 서열의 길이 최적화
실시예 2 및 3을 통해 선정된 각 가이드 서열(F16, FA12, R19, R40)은 프로토스페이서 서열에 인접한 PAM을 기준으로 19 내지 25mer 길이의 가이드 서열을 가지도록 변형하고, 이를 발현하는 벡터를 각각 제작하여 가이드 서열의 길이에 따른 인델 효율을 비교하였다. 스캐폴드 서열은 실시예 2.2에서 선정된 바와 같이, F16 및 FA12에 대해서는 Cas12f1 ver4.1을, R19 및 R40에 대해서는 Cas12f1 ver4.0의 gRNA를 사용하였다. 본 실험에 사용된 각각의 가이드 서열 정보는 하기 표 15에 제시되어 있다.
명칭 가이드 서열 (5'→3') 길이 서열번호
GUIDE-USH2A-F16 UAAUGUGUACAUAUAUCAAA 20 90
GUIDE-USH2A-F16-21mer UAAUGUGUACAUAUAUCAAAA 21 159
GUIDE-USH2A-F16-22mer UAAUGUGUACAUAUAUCAAAAC 22 160
GUIDE-USH2A-F16-23mer UAAUGUGUACAUAUAUCAAAACA 23 161
GUIDE-USH2A-F16-25mer UAAUGUGUACAUAUAUCAAAACAUC 25 162
GUIDE-USH2A-FA12 UCCAUAUAUAUACAUAUAUA 20 110
GUIDE-USH2A-FA12-23mer UCCAUAUAUAUACAUAUAUAUUA 23 163
GUIDE-USH2A-FA12-25mer UCCAUAUAUAUACAUAUAUAUUAUG 25 164
GUIDE-USH2A-R19-19mer CUUGCCAGAGAAGGAGUAG 19 165
GUIDE-USH2A-R19 CUUGCCAGAGAAGGAGUAGA 20 142
GUIDE-USH2A-R19-21mer CUUGCCAGAGAAGGAGUAGAA 21 166
GUIDE-USH2A-R19-22mer CUUGCCAGAGAAGGAGUAGAAC 22 167
GUIDE-USH2A-R19-23mer CUUGCCAGAGAAGGAGUAGAACA 23 168
GUIDE-USH2A-R19-24mer CUUGCCAGAGAAGGAGUAGAACAA 24 169
GUIDE-USH2A-R19-25mer CUUGCCAGAGAAGGAGUAGAACAAA 25 170
GUIDE-USH2A-R40 CUUAGAAAGAAGGAUGUAUA 20 158
GUIDE-USH2A-R40-21mer CUUAGAAAGAAGGAUGUAUAA 21 171
GUIDE-USH2A-R40-22mer CUUAGAAAGAAGGAUGUAUAAA 22 172
GUIDE-USH2A-R40-24mer CUUAGAAAGAAGGAUGUAUAAAUC 24 173
GUIDE-USH2A-R40-25mer CUUAGAAAGAAGGAUGUAUAAAUCA 25 174
그 결과, 가이드 서열 F16은 22mer에서 가장 높은 73%의 인델 효율을 보여주었으며(도 10a 참조), 가이드 서열 FA12는 20mer에서 가장 높은 72.19%의 인델 효율을 보여주었다(도 10b 참조). 또한, 가이드 서열 R19는 24mer에서 가장 높은 83%의 인델 효율을 보여주었으며(도 10c 참조), 가이드 서열 R40은 20mer에서 가장 높은 73.99%의 인델 효율을 보여주었다(도 10d 참조). 19 내지 25mer 길이 범위 전체적으로 약 70% 이상의 인델 효율이 나타났으나, 결실이 일어나 절단되는 단편 길이가 가장 작은 조합이 더 효율적이기 때문에 최종적으로 22mer 길이의 F16(서열번호 160) 및 24mer 길이의 R19(서열번호 169)를 가이드 서열로 선정하였다.
실시예 5. 인델 효율 향상을 위한 U-rich tail 서열의 최적화
가이드 RNA의 3'-말단(예컨대, 가이드 서열의 3'-말단)에 다수의 유리딘을 포함하는 U-rich tail은 가이드 RNA의 안정화 및 인델 효율 향상에 기여할 수 있다. U-rich tail의 서열에 따른 인델 효율을 비교하기 위해, 각각 가이드 RNA의 3'-말단에 U-rich tail로서 U4AU6 또는 U6를 부가하여 이들의 인델 효율을 평가하였다. 그 결과는 하기 표 16에서 개시된다.
샘플 명칭 인델(%) 평균 인델
(%)
#1 #2 #3
Cas12f1 ver4.1 USH2A F16 U4AU6 20.73 23.72 11.94 18.80
Cas12f1 ver4.1 USH2A F16 U6 18.07 16.16 6.24 13.49
Cas12f1 ver4.1 USH2A F12 U4AU6 9.03 14.74 11.41 11.73
Cas12f1 ver4.1 USH2A F12 U6 10.71 10.55 4.6 8.62
Cas12f1 ver4.0 USH2A F19 U4AU6 43.55 32.82 25.76 34.04
Cas12f1 ver4.0 USH2A F19 U6 40.57 28.10 18.71 29.13
Cas12f1 ver4.0 USH2A F40 U4AU6 23.43 22.67 13.79 19.97
Cas12f1 ver4.0 USH2A F40 U6 24.78 20.42 12.14 19.11
U-rich tail의 서열에 따른 인델 효율 확인 결과, F16, FA12, R19 및 R40 모두에서 U4AU6의 인델 효율 향상 효과가 유의하게 더 높은 것으로 나타났다(도 11 및 도 15 참조). 상기 실험 결과에 따라, U-rich tail의 서열은 U4AU6로 선정되었다.
실시예 6. USH2A 유전자 돌연변이 세포주에서 엑손 13의 결실 효과 확인
실시예 6.1. 661W-USH2A 세포주에서의 결실 효과 확인
661W-USH2A 세포주에서 본 발명의 USH2A 유전자 편집 시스템의 효과를 확인하였다. 상기 세포주는 wt661W USH2A 유전자좌의 인트론 12, 엑손 13 및 인트론 13(일부)를 인간 USH2A 유전자의 인트론 12, 엑손 13(c.2276G>T 및 c.2299delG 돌연변이 포함) 및 인트론 13(일부)를 갖도록 전환된 USH2A 인간화 661W 세포주이다. 이의 제조 방법은 도 15에 개략적으로 도시되어 있다. 상기 세포에서 돌연변이 영역을 삭제하기 위해 F 영역과 R 영역 내 표적 서열을 표적으로 하는 두 개의 가이드 RNA를 각각 조합하여 사용하였다. 구체적으로, 가이드 서열은 F16 및 R19의 조합과 F16 및 R40의 조합을 사용하였고, 양성 대조군으로서 에디타스(Editas)사의 제2형 어셔 증후군 치료제인 EDIT102를 사용하였다. 상기 EDIT102에 포함된 가이드 서열의 염기서열은 다음과 같다:
321 가이드 서열, 5'-GAAATTAAATGATATGCCTTAG-3'; 322 가이드 서열, 5'- GTGTGATTTGCTTGCCAGAGA-3'.
그 결과, F16 및 R19의 조합과 F16 및 R40의 조합 모두에서 30% 이상의 대규모 결실(large deletion) 효과가 확인되었고, 특히 양성 대조군인 EDIT102와 비교하여 현저히 높은 결실 효과를 나타내었다(도 12a 참조).
실시예 6.2. ARPE19/HPV16-USH2A 세포주에서의 결실 효과 확인
ARPE19/HPV16-USH2A 세포주에서 본 발명의 USH2A 유전자 편집 시스템의 효과를 확인하였다. 상기 세포주는 wtARPE19/HPV19 USH2A 유전자좌의 엑손 13에 c.2276G>T 및 c.2299delG 돌연변이를 갖도록 전환된 세포주이다. 상기 세포에서 돌연변이 영역을 삭제하기 위해 F 영역과 R 영역 내 표적 서열을 표적으로 하는 두 개의 가이드 RNA를 각각 조합하여 사용하였다. 구체적으로, 가이드 서열은 F16 및 R19의 조합, F16 및 R40의 조합, FA12 및 R19의 조합, 그리고 FA12 및 R40의 조합을 사용하였으며, 양성 대조군으로서 EDIT102를 사용하였다.
그 결과, 상기 4종의 가이드 서열 조합 모두에서 50% 이상의 대규모 결실(large deletion) 효과가 확인되었고, 특히 양성 대조군인 EDIT102와 비교하여 현저히 높은 결실 효과를 나타내었다(도 12b 참조).
실시예 7. 생체 내( in vivo )에서의 표적 부위 인델 효과 확인
상기 실시예에서 인델 및/또는 결실 효과가 확인된 가이드 서열에 대해, 실제 동물에 전신 주입한 경우에도 유의한 수준의 인델 효율이 나타나는지 확인하였다. 가이드 서열로서 F16(서열번호 90), FA12(서열번호 110), R10(서열번호 136) 및 R22(서열번호 144)를 각각 포함하는 가이드 RNA 및 Cas12f1 분자를 코딩하는 DNA를 아데노-연관 바이러스(AAV; Serotype 5)에 패키징하여 USH2A 유전자 편집 시스템을 발현하는 AAV를 제조하였다.
구체적으로, 각각의 가이드 RNA와 Cas12f1 단백질을 코딩하는 핵산 서열을 포함하는 벡터 및 AAV 바이러스 생산에 필요한 pHelper 벡터 및 REP/CAP 벡터의 총 3종의 벡터를 HEK293T 세포에 형질주입(transfection)하여 AAV가 생성되도록 하고, 이를 이오딕사놀 구배(iodixanol gradient) 정제법을 통해 AAV 파티클을 확보하였다. 생산된 AAV는 5 X 1010 VG/g의 투여량으로 마우스의 꼬리 정맥에 주사한 후, 4주, 6주 및 12주 간격으로 간 조직을 적출하여 표적 유전자의 편집 효율을 분석하였다.
그 결과, 도 13에서 확인할 수 있는 바와 같이, 선별된 가이드 서열을 포함하는 가이드 RNA 및 Cas12f1 단백질로 구성된 본 발명의 USH2A 유전자 편집 시스템이 생체 내(in vivo)에서 유의한 인델 활성을 나타내는 것이 확인되었다.
결론
상기 실시예들로부터 증명된 바와 같이, 가이드 서열이 최적화된 두 개의 가이드 RNA 및 표적 서열을 인식하는 Cas12f1 또는 이의 변이체 단백질을 포함하는 본 발명의 USH2A 유전자 편집 시스템은 USH2A 유전자 내 엑손 13의 업스트림 및 다운스트림 영역 내 존재하는 표적 서열을 인식하고 이를 절단하여 상기 엑손 13을 결실(즉, 엑손 스키핑)시킴으로써 정상 기능을 할 수 있는 어셔린(usherin) 단백질의 생성을 유도할 수 있다. 이와 같은 고효율의 엑손 13 결실 효과는 유전자 편집 효율을 높이는 가이드 RNA의 스캐폴드 영역에 대한 엔지니어링 및 최적화된 가이드 서열에 의해 달성되었으며, 나아가 그 크기 또한 소형화되어 결실 효율을 향상시킬 수 있는 shRNA 등의 구성을 더 포함하더라도 AAV와 같은 전달체로 효율적인 체내 전달 및 발현이 가능하다.
실험 방법 및 재료
실험예 1. Cas12f1 단백질의 발현 및 정제
실시예 1.1에서 제조한 유전자는 다음과 같은 방법으로 발현시키고, 단백질을 정제하였다. 먼저 상기 핵산 구조물을 pMAL-c2 플라스미드 벡터에 클로닝하여 BL21(DE3) E. coli 세포에 형질전환하였다. 상기 형질전환된 E. coli 콜로니를 광학 밀도가 0.7에 도달할 때까지 37℃의 LB broth에서 성장시켰다. 상기 형질전환된 E. coli 세포들은 0.1 mM 이소프로필티오-β-D-갈락토시드(isopropylthio-β-D-galactoside)의 존재 하 18℃에서 하룻밤 배양되었다. 그 후, 상기 배양된 세포들을 3,500g에서 30분간 원심분리하여 수집하고, 수집된 세포들을 20 mM Tris-HCl(pH 7.6), 500 mM NaCl, 5 mM β-머캅토에탄올(β-mercaptoethanol) 및 5% 글리세롤이 포함된 버퍼에 재현탁하였다. 상기 세포를 용해 버퍼에서 용해한 후, 음파처리(sonication)에 의해 파쇄하였다. 파쇄된 세포가 포함된 샘플을 15,000g로 30분 간 원심분리하여 수득한 상측액을 0.45 ㎛ 주사기 필터(Millipore)를 통해 여과하고, 여과된 상층액을 FPLC 정제 시스템(KTA Purifier, GE Healthcare)을 사용하여, Ni2+-친화성 컬럼에 로드하였다. 결합 분획(bound fractions)은 80-400 mM imidazole, 20 mM Tris-HCl(pH 7.5) 구배에서 용출되었다.
상기 용출된 단백질을 TEV 프로테아제로 16시간 동안 처리하여 절단하였다. 절단된 단백질을 0.15-1.6 M NaCl 선형 농도구배의 헤파린 컬럼(heparin column)에서 정제하였다. 헤파린 컬럼에서 정제된 재조합 Cas12f1 단백질은 20 mM Tris pH 7.6, 150 mM NaCl, 5 mM β-mercaptoethanol 및 5% glycerol의 용액에서 투석되었다. 상기 투석된 단백질을 MBP 컬럼을 통과시켜 정제한 후, 0.5-1.2 M NaCl의 선형 구배로 monoS 컬럼(GE Healthcare) 또는 EnrichS에서 재정제하였다.
상기 재정제된 단백질들을 모아, 20 mM Tris pH 7.6, 150 mM NaCl, 5 mM β-mercaptoethanol, 5% glycerol의 용액으로 투석하여 본 발명에서 사용되는 유전자 편집 단백질(엔도뉴클레아제)을 정제하였다. 상기 생산된 유전자 편집 단백질의 농도는 소 혈청 알부민(BSA)을 표준으로 사용하는 브래드포드(Bradford) 정량법으로 정량하여 coomassie blue-stained SDS-PAGE 겔에서 전기영동적(electrophoretically)으로 측정되었다.
실험예 2. 가이드 RNA의 제조
실시예 1.2에서 사용된 가이드 RNA(gRNA) 및 엔지니어링된 gRNA는 다음과 같은 방법으로 제조하였다. 먼저, gRNA 또는 엔지니어링된 gRNA는 이를 제조하기 위해 미리 설계한 gRNA를 화학적으로 합성한 후, 합성한 gRNA 서열 및 T7 프로모터 서열을 포함하는 PCR 앰플리콘을 제조하였다. 엔지니어링된 gRNA의 3'-말단에 대한 U-rich tail 연결은 서열-변형된 프라이머(primer) 및 gRNA 플라스미드 벡터의 존재 하에서 Pfu PCR Master Mix(Biofact)를 사용하여 수행하였다. 상기 PCR 앰플리콘은 HiGeneTM Gel & PCR Purification System(Biofact)을 사용하여 정제하였다.
엔지니어링된 gRNA의 스캐폴드 서열 중 제2 스템 영역 및 tracrRNA-crRNA 상보성 영역의 변형은 ApoI 및 BamHI 제한효소를 사용하여 선형화된 gRNA 암호화 벡터에 변형된 서열을 전달하는 합성 올리고뉴클레오티드(Macrogen)를 클로닝하여 수행되었다.
또한, 엔지니어링된 gRNA의 스캐폴드 서열 중 제1 스템 영역의 변형은 tracrRNA의 5'-말단 부분을 표적으로 하는 정방향 프라이머(forward primer) 및 U6 프로모터 영역을 표적으로 하는 역방향 프라이머(reverse primer)를 사용하여 원형(canonical) 또는 엔지니어링된 주형 플라스미드 벡터의 PCR 증폭에 의해 수행되었다. 상기 PCR 증폭은 Q5 Hot Start high-fidelity DNA polymerase(NEB)에 의해 수행되었으며, PCR 산물은 KLD Enzyme Mix(NEB)를 사용하여 결찰시켰다. 상기 결찰된(ligated) PCR 산물을 DH5α E. coli에 형질전환(transformation)시켰다. 변이(mutagenesis)의 확인은 생어 시퀀싱 분석에 의하였다.
변형된 플라스미드 벡터는 NucleoBond® Xtra Midi EF kit(MN)를 사용하여 정제되었다. 1 ㎍의 정제된 플라스미드를 T7 RNA 폴리머라제(NEB) 및 NTPs(Jena Bioscience)를 사용한 mRNA 합성의 주형으로 사용하였다. 상기 제조된 Cas12f1 단백질에 대해 엔지니어링된 gRNA를 Monarch® RNA cleanup kit(NEB)를 사용하여 정제하고, 극저온 바이알(cryogenic vials)에 분취하여 액체 질소에 보관하였다.
다음으로, 원형(canonical) gRNA 및 엔지니어링된 gRNA의 앰플리콘을 제조하였다. 이를 위해, KAPA HiFi HotStart DNA polymerase(Roche) 또는 Pfu DNA polymerase(Biofact)를 이용하여, 원형 gRNA의 주형 DNA 플라스미드 및 엔지니어링된 gRNA 주형 DNA 플라스미드를 U6-상보적인 정방향 프라이머 및 프로토스페이서 서열 상보적인 역방향 프라이머를 사용하여 PCR 증폭을 수행하였다. 상기 PCR 증폭 결과물을 HigeneTM Gel & PCR purification system (Biofact)를 사용하여 정제하고, 원형 gRNA 및 엔지니어링된 gRNA 앰플리콘을 수득하였다.
상기 PCR 앰플리콘을 주형으로, NEB T7 폴리머라제를 사용하여 시험관 내 전사(in vitro transcription)를 수행하였다. 상기 시험관 내 전사 결과물에 DNase I(NEB)을 처리한 후, Monarch RNA Cleanup Kit(NEB)를 이용하여 정제한 후, gRNA를 수득하였다. 이 후, 미리 설계한 gRNA 서열 및 T7 프로모터 서열을 포함하는 플라스미드 벡터를 T-blunt 플라스미드(Biofact) 클로닝 방법에 따라 제조하였다.
상기 벡터에서 T7 프로모터 서열을 포함하는 가이드 RNA 서열 양 끝을 절단(double cut)하여 정제한 후, 그 결과물에 T7 폴리머라제(NEB)를 사용하여 시험관 내 전사를 수행했다. 상기 시험관 내 전사 결과물에 DNase I(NEB)를 처리한 후, Monarch RNA Cleanup Kit (NEB)를 이용하여 정제한 후, gRNA를 수득하였다.
실험예 3. 리보뉴클레오단백질 입자(RNP)의 제조
본 발명의 유전자 편집 시스템은 하나의 유전자 편집 단백질(엔도뉴클레아제)과 가이드 RNA(gRNA) 사이의 상호작용에 의해 형성된 리보뉴클레오단백질(ribonucleoprotein, RNP) 또는 두 개의 유전자 편집 단백질과 gRNA 사이의 상호작용에 의해 형성된 RNP일 수 있다.
RNP의 제조를 위해, 실험예 1의 방법으로 정제한 유전자 편집 단백질 및 실험예 2의 방법으로 제조한 gRNA 또는 엔지니어링된 gRNA를 각각 300 nM 및 900 nM 농도로 10분 동안 실온에서 함께 배양하여 리보뉴클레오단백질 입자(RNP)를 수득하였다.
실험예 4. gRNA 엔지니어링을 위한 벡터의 설계 및 제조
유전자 편집 단백질인 CWCas12f1, Un1Cas12f1 및 이들의 변이체 단백질은 인간 세포에서 발현시키기 위해 인간 코돈-최적화하였으며, 상기 코돈-최적화된 Cas12f1 유전자의 올리고뉴클레오티드를 제작하였다.
또한, 상기 제작된 Cas12f1 유전자의 염기서열을 포함하면서, 5'-말단 및 3'-말단 각각에 핵 위치 신호(nuclear localization signal, NLS) 서열과 링커 서열을 포함하는 올리고뉴클레오티드를 합성하여(Bionics), 표적 유전자 또는 표적 핵산의 절단을 위한 인간 코돈-최적화된 Cas12f1 또는 Cas12f1 변이체(또는 엔지니어링된 Cas12f1) 핵산 구조물의 폴리뉴클레오티드를 합성하였다. 상기 코돈-최적화된 Cas12f1 핵산 구조물의 폴리뉴클레오티드는 chicken β-actin(CBA) 프로모터 및 자가 절단 T2A 펩타이드(2A)가 연결된 eGFP를 인코딩하는 서열을 포함하는 플라스미드에 작동가능하게 연결되어 클로닝(cloning)되었다.
또한, 본 실험에 사용된 원형(canonical) 가이드 RNA를 위한 주형 DNA를 합성하였고(Twist Bioscience), 이를 pTwist Amp 플라스미드 벡터에 클로닝하여 복제하였다. 엔지니어링된 가이드 RNA에 대한 주형 DNA는 엔자임클로닝 기법을 이용하여 제작되었으며, pTwist Amp 플라스미드에 클로닝되어 복제되었다.
상기 플라스미드를 주형으로 하여 U6-상보적인 정방향 프라이머 및 프로토스페이서 서열 상보적인 역방향 프라이머를 사용하여, 상기 원형 가이드 RNA 또는 엔지니어링된 가이드 RNA의 앰플리콘을 제조하였다. 필요에 따라, 제조한 앰플리콘을 T-blunt 플라스미드(Biofact)에 클로닝하여 복제하였다.
또한, 엔지니어링된 듀얼 가이드 RNA(engineered dual guide RNA)를 제조하기 위해 엔지니어링된 tracrRNA 및 엔지니어링된 crRNA를 암호화하는 올리고뉴클레오티드를 제한 효소 BamHI 및 HindIII(NEB)로 절단하여 pSilencer 2.0 벡터(ThermoFisher Scientific) 내로 클로닝하여 복제하였다.
Cas12f1에 대해 상대적으로 높은 효율을 나타내는 엔지니어링된 gRNA를 선별하여 각각 "Cas12f1 ver3.0", "Cas12f1 ver4.0" 및 "Cas12f1 ver4.1"으로 명명하고, 이들을 암호화하는 주형 DNA를 합성하여 pTwist Amp 플라스미드 벡터(Twist Bioscience)에 클로닝하였다. 필요에 따라, 상기 벡터는 U6-상보적 정방향 프라이머 및 프로토스페이서-상보적 역방향 프라이머를 사용하여, 상기 gRNA 암호화 서열의 증폭을 위한 주형으로 사용되었다.
본 발명의 유전자 편집 시스템의 구성요소를 발현하는 벡터는 깁슨 조립(Gibson assembly) 방법을 사용하여 상기 인간 코돈-최적화된 Cas12f1 유전자 또는 이를 포함하는 핵산 구조물을 포함하는 벡터에 야생형 Cas12f1 gRNA 또는 엔지니어링된 gRNA를 암호화하는 폴리뉴클레오티드를 클로닝함으로써 제조되었다.
구체적으로, 유전자 편집 시스템을 발현하는 벡터로서, 1) chicken β-actin(CBA) 프로모터 및 자가 절단 T2A 펩타이드(2A)로 연결된 eGFP를 인코딩하는 서열, 2) Cas12f1 단백질 또는 엔지니어링된 Cas12f1 단백질을 암호화하는 인간 코돈-최적화된 핵산 구조물의 폴리뉴클레오티드 및 3) 야생형 Cas12f1에 대한 gRNA 또는 본 발명의 엔지니어링된 gRNA가 작동가능하게 연결된, 아데노 연관 바이러스 역 말단 반복(AAV inverted terminal repeat) 플라스미드 벡터(AAV vector)를 제조하였다.
여기서, 상기 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 암호화하는 핵산 구조물 및 가이드 RNA의 전사는 각각 CBA 및 U6 프로모터에 의해 촉진되었다. 또한, 상기 AAV 플라스미드 벡터(AAV vector)는 유전자 편집 또는 변형의 목적에 따라 eGFP, 엔지니어링된 gRNA의 수 및/또는 효과기 단백질의 추가 등이 적절히 변경될 수 있다.
AAV 벡터의 대량 생산을 위해, 상기 AAV 벡터 및 헬퍼(helper) 플라스미드를 HEK 293T 세포에 형질도입하였다. 상기 형질도입된 HEK293 T세포는 2% FBS를 포함하는 DMEM 배지에서 배양하였다. PEIpro(Polyplus-transfection) 및 동일 몰 비율에서 플라스미드에 대한 삼중-형질주입(triple-transfection)를 사용한 PEI 공침(coprecipitation)을 사용하여 재조합 pseudotyped AAV 벡터 스톡을 생성하였다. 72시간의 배양 후, 상기 세포들을 용해시키고, 이오딕사놀 단계 구배 초원심분리(iodixanol step gradient ultra-centrifugation)에 의해 용해물로부터 상기 AAV 벡터를 정제하였다.
실험예 5. 세포 형질주입(Transfection)
실시예 1에서 엔지니어링된 가이드 RNA의 인델(indel) 활성 비교를 위한 세포 형질주입은 다음과 같은 방법으로 수행되었다.
HEK 293T(ATCC CRL-11268), HeLa(ATCC CLL-2), U-2 OS(ATCC HTB-96) 및 K-562(ATCC CCL-243) 세포를 10% 열-비활성화 FBS, 1% 페니실린/스트렙토마이신 및 0.1 mM 비필수 아미노산들이 보충된 DMEM 배지에서, 37℃, 5% CO2 조건 하에서 배양하였다.
표적 유전자 또는 표적 핵산의 절단을 위한 핵산 구조물, 이를 포함하는 벡터 또는 엔지니어링된 가이드 RNA를 암호화하는 DNA의 세포 형질 주입(transfection)을 위해, 1.0 × 105 HEK 293T 세포를 형질주입 1일 전에 분주하였다. 세포 형질주입은 전기천공법(electroporation) 또는 리포펙션(lipofection)으로 수행되었다. 전기천공법의 경우, 상기 핵산 구조물, 이를 포함하는 플라스미드 벡터 또는 엔지니어링된 가이드 RNA를 암호화하는 DNA 각 2-5 ㎍을 Neon transfection system(Invitrogen)을 사용하여 4 × 105 HEK-293 T세포에 형질주입(transfection) 하였다. 전기천공법의 경우 1300V, 10 mA, 3 pulse 조건으로 수행하였다. 리포펙션(lipofection)의 경우에는, 6-15 ㎕ FuGene 시약(Promega)을 2-5 ㎍의 Cas12f1 또는 이의 변이체 단백질을 암호화하는 플라스미드 벡터 및 1.5-5 ㎍의 PCR 앰플리콘과 15 분 동안 혼합하였다. 상기 혼합물(300 ㎕)은 형질주입 1일 전에 1 × 106 개의 세포가 플레이팅된 1.5 ml DMEM 배지에 첨가되었다. 상기 세포들을 상기 혼합물의 존재 하에서 1 내지 10일 간 배양한 후, 수집하였다. 상기 세포의 게놈 DNA는 PureHelixTM genomic DNA preparation kit(NanoHelix)를 사용하거나, Maxwell RSC Cultured cells DNA Kit(Promega)를 사용하여 수작업으로 분리하였다.
유전자 편집 단백질을 암호화하는 핵산 서열을 포함하는 AAV 벡터의 세포 형질 감염을 위해, 정량적 PCR에 의해 결정한 1, 5, 10, 50 및 100의 상이한 감염 다중도(MOI, multiplicity of Infection)에서 인간 HEK293T 세포를 상기 AAV 벡터로 감염시켰다. 상기 형질감염된 HEK293T 세포는 2% FBS를 포함하는 DMEM 배지에서 배양되었다. 서로 다른 시점에서, 예를 들어, 1일, 3일, 5일, 7일에 게놈 DNA의 분리를 위해 세포를 수집하였다.
또한, 실험예 3에 따라 제조된 리보뉴클레오단백질(RNP) 입자를 전기천공법을 이용하여 세포에 형질주입하거나, 리포펙션(lipofection) 방법을 통하여 형질주입하고, 1일 후 엔지니어링된 가이드 RNA를 전기천공법을 사용하여 세포에 형질주입하였다.
한편, 실시예 1.2.2 및 실시예 1.2.3에서의 엔지니어링된 Cas12f1 단백질의 인델 효율 비교 실험은 다음과 같은 방법으로 수행되었다.
형질주입 하루 전에 24-웰(well) 플레이트에서 80-90% 컨플루언시(confluency; 100φ 디쉬 기준)로 자란 HEK293T 세포를 1/100로 희석 후 계대하여 500 ㎕로 준비하였다. DNA는 형질주입 웰 당 총 2 ㎍(벡터 + DY10 표적 sgRNA 전사 카세트)을 사용하였다. 실험은 각 그룹당 2회 반복 진행하였다. 형질주입 혼합물(transfection mixture)은 야생형의 Cas12f1 또는 엔지니어링된 Cas12f1을 암호화하는 플라스미드 1.5 ㎍, sgRNA 전사 카세트 0.5 ㎍, DMEM(FBS 및 항생제 제외) 200 ㎕ 및 FuGENE(Promega) 시약 6 ㎕를 포함하여 제조하였다.
DNA와 FuGENE 시약이 함유된 DMEM을 혼합하고 볼텍싱(vortexing) 후 15분 동안 배양하였다. 상기 24-웰 플레이트에 준비된 세포에 상기 제조된 형질주입 혼합물 200 ㎕를 처리하고, 37℃에서 배양하였다. 72시간 경과 후 상층액을 제거하고 세포 용해(lysis)를 진행하였다.
실험예 6. 핵산 절단 효율 분석
유전자 편집 시스템의 표적 유전자 또는 표적 핵산에 대한 절단 효율 분석을 위해, HEK293T 세포로부터 분리된 게놈 DNA 중 프로토스페이서를 포함하는 영역을 표적-특이적 프라이머를 사용하여 KAPA HiFi HotStart DNA 폴리머라제(Roche)의 존재 하에서 PCR을 수행하였다. 증폭 방법은 제조사의 지침에 따랐다. Illumina TruSeq HT dual indexes를 포함하는 상기 증폭 결과물인 PCR 앰플리콘을 Illumina iSeq 100를 사용하여 150-bp 페어 엔드 시퀀싱을 수행하였다.
인델(indel) 빈도는 「https://github.com/ibs-cge/maund」에서 제공되는 MAUND를 사용하여 계산되었다.
BioFACTTM Lamp Pfu DNA 폴리머라제를 사용하여 PCR 산물을 얻었다. 상기 PCR 산물(100-300 ㎍)을 25 ㎍ 반응 혼합물에서 10 유닛(units)의 T7E1 효소(NEB)와 함께 37℃에서 30분 동안 반응시켰다. 반응 혼합물 20 ㎕을 10% 아크릴아마이드(acrylamide) 겔에 직접 로딩시키고, 절단된 PCR 산물을 TBE 버퍼 시스템에서 작동시켰다. 겔 이미지를 브롬화 에티듐(ethidium bromide) 용액으로 염색한 후, Printgraph 2 M 겔 이미징 시스템(Atto)을 이용하여 디지털화하였다. 상기 디지털화한 결과물을 분석하여 유전자 편집 효율을 평가하였다.
실험예 7. 세포 내 핵산 절단 활성 분석
세포 내 표적 유전자 또는 표적 핵산의 표적 부위에 대한 유전자 편집 시스템의 절단 활성 분석은 하기와 같이 수행되었다.
실험예 4에 따른 방법으로 제작한 아데노 연관 바이러스(AAV) 벡터를 HEK293T 세포에 형질도입시켰다. 3일, 5일 및 7일 후, 상기 형질감염된 HEK293T 세포에서 게놈 DNA(genome DNA)를 수득하고, 이를 Genomic DNA prep kit(Cat No.: 69504, QIAGEN)를 사용하여 정제하였다. 상기 정제물에서 표적 유전자 또는 표적 핵산의 표적 부위를 PCR로 증폭시킨 후, 최종 PCR 생성물을 타겟 딥 시퀀싱(targeted deep sequencing)을 사용하여 분석하였다. 라이브러리 생성을 위해, KAPA HiFi HotStart PCR 키트(Cat No.: KK2501, KAPA Biosystem)를 사용하여 타겟 부위를 증폭시켰다. 이 라이브러리는 TruSeq HT Dual Index 시스템(Illumina)의 MiniSeq를 사용하여 시퀀싱하였다.
실험예 8. 유전체(genomic) DNA 추출
Genomic DNA Prep Kit(GCBL200, Nanohelix)를 사용하여 gDNA 추출을 실시하였다. 24-웰에서 형질주입(transfection)된 세포의 배지를 제거하고, 웰에 트립신을 200 ㎕ 넣어 바닥에서 뗀 뒤, 1.5 ml 튜브로 옮겼다. 튜브는 300 X g로 5분간 원심분리를 실시하고, 상층액을 제거하였다. 튜브에 NGD1 완충액 300 ㎕와 RNase A(50 mg/ml) 2 ㎕를 넣고, 1분간 볼텍싱(vortexing)하고, 8 ㎕의 Proteinase K(10 mg/ml)을 넣은 뒤 60 ℃에서 10분간 반응시켰다. 그리고 얼음에서 5분간 식혔다. NPS 완충액 300 ㎕를 넣어 잘 혼합한 뒤, 혼합물을 얼음에서 5분간 반응시키고, 12,000 rpm에서 5분간 원심분리를 실시하였다. 다음, 컬럼을 샘플 수에 맞게 준비하고, MaxBinder 용액 100 ㎕를 넣은 뒤, 12,000 rpm에서 30초간 원심분리를 실시하였다. 원심분리된 상층액을 전부 따서 새로운 컬럼에 넣고, 12,000 rpm에서 1분간 원심분리 후, 걸러진 용액을 버렸다. 80% 에탄올 500 ㎕를 컬럼에 넣고, 10,000 rpm에서 30초간 원심분리를 하고, 걸러진 용액을 버렸다. 80% 에탄올로 세척을 2회 반복 후, 13,000 rpm에서 3분간 원심분리를 하였다. 컬럼을 새 1.5 ml 튜브에 바꿔 끼우고, 30 ㎕의 EB 용액을 중앙에 떨어뜨리고, 1분 동안 반응시킨 뒤, 12,000 rpm에서 2분 동안 원심분리를 하였다. 용출(elution)된 gDNA를 정량하고, 4℃에서 보관하였다.
실험예 9. PCR 및 겔 정제
해당 실험은 GEL & PCR Purification System(GP104-200, Biofact)을 이용하여 수행하였다. PCR 산물 부피의 3배에 해당하는 UB 완충액을 PCR 산물에 넣어준 뒤 잘 섞어주고, PCR 산물 부피의 2배에 해당하는 이소프로판올을 넣고 잘 섞어주었다. 겔의 경우, 해당 밴드의 겔을 잘라서 무게를 잰 후, 겔 무게의 3배에 해당하는 UB 완충액을 넣고 65℃에서 10분간 반응시켜 겔을 녹인 뒤, 이소프로판올을 겔 부피의 1배에 해당하는 양으로 넣어 잘 섞어주었다. 컬럼을 준비하고 HelpB 완충액 200 ㎕를 컬럼에 넣고, 13,000 rpm, 30초간 원심분리를 한 뒤 걸러진 용액을 버렸다. 반응액을 컬럼에 넣고, 7,000 rpm, 1분간 원심분리를 한 뒤 걸러진 용액을 버렸다. 80% EtOH 750 ㎕를 넣고, 13,000 rpm, 30초간 원심분리를 실시한 뒤 걸러진 용액을 버렸다. 2회 반복 후, 13,000 rpm, 3분간 원심분리를 실시하였다. 원심분리가 끝난 컬럼을 1.5 ml 튜브에 넣고, 30 ㎕의 EB 완충액을 중앙에 떨어뜨린 뒤 1분간 상온에서 반응시켰다. 13,000 rpm, 1분간 원심분리를 실시하였다. 1.5 ml 튜브에 모인 DNA를 정량한 후, 4℃에서 보관하였다.
실험예 10. DNA 카세트 제작
Cas12f1의 가이드 서열들의 인델 효율을 확인하기 위하여, U6 프로모터, 스캐폴드 서열, 가이드 서열 및 U-rich tail 서열(T4AT6)이 포함된 카세트(Cassette)를 PCR로 증폭하여 사용하였다. 위 과정은 다음과 같은 방법으로 진행하였다.
1) 스페이서(spacer)의 선정
스페이서는 Cas12f1의 PAM인 TTTA 또는 TTTG 뒤쪽의 20mer 서열을 선택하였고, 서열이 T로 끝나는 스페이서들은 제외하였다. 그리고 오프-타겟(Off-target)을 줄이기 위하여 미스매치 2개 미만으로 분류하여 스페이서를 CRISPR RGEN TOOL에서 디자인하였다. 또한, DR(direct repeat)과 U-rich 서열이 포함된 역상보체(Reverse complement) 서열을 R 프라이머로 사용하였다.
2) PCR
PCR은 하기의 표 17의 조성 및 조건으로 실시하였다.
시약(Reagent) 조성 PCR 조건
2x pfu PCR Master mix 200 ㎕ 95℃ 5분 -
hU6 F 프라이머 20 ㎕ 95℃ 20초 35 사이클
표적 올리고(R) 20 ㎕ 58℃ 40초
주형 1 ㎕(400 ng) 72℃ 45초
증류수 159 ㎕ 72℃ 5분 -
합계 400 ㎕ -
3) 겔 분석
1% 아가로스 겔을 제작하여 사이즈 마커(size marker) 및 PCR 산물을 넣고 전기영동하여 증폭 사이즈를 확인하였다.
4) 정제 및 정량
증폭 사이즈를 확인한 후, 실험예 9에 따라 겔을 정제하여 PCR 산물을 정량하였다.
실험예 11. 듀얼 가이드 RNA를 위한 벡터 제작
Cas12f1 듀얼 gRNA 벡터의 제작을 위해 백본(backbone) 벡터로서 Cas12f1 ver4.0-GFP 벡터(도 14a) 또는 Cas12f1 ver4.1-GFP(도 14b)를 이용하여 다음과 같이 진행하였다. 클로닝할 벡터의 제한효소 말단을 확인하고, 벡터의 Bbs I 제한효소 부위에 클로닝하기 적합한 듀얼 gRNA 올리고(oligo)를 디자인하여 주문하였다. 주문 생산된 올리고는 각각 100 pmol 농도로 희석하였다. 희석된 정방향 및 역방향 프라이머를 각 4.5 ㎕씩 따서 PCR 튜브에 넣은 뒤, 10X 어닐링 완충액을 1 ㎕ 추가하여 총 10 ㎕가 되도록 부피를 맞추었다. 이후, 95℃에서 5분의 조건 및 95℃에서부터 4℃까지 -1℃/분의 조건으로 어닐링을 실시하였다.
Cas12f1 ver4.0 또는 ver4.1 듀얼 gRNA 벡터를 준비하고, 하기 표 18의 분해(digestion) 조건으로 500 rpm, 37℃에서 2시간 동안 배양하였다.
시약 부피
NEB 10X 3.1 완충액 5 ㎕
Cas12f1 ver4.0 또는 ver4.1 벡터 5 ㎍
BbsI 5 ㎕
증류수 총 부피가 50 ㎕로 되는 양
합계 50 ㎕
분해가 끝난 뒤, 전기영동 및 겔 용리(Gel elution)를 통해 분해된 벡터를 획득하였다. 분해된 벡터 및 어닐링된 올리고를 사용하여 라이게이션을 진행하였다(라이게이션 조건은 하기 표 19 참조).
시약 부피
2X 급속 라이게이션 완충액 10 ㎕
어닐링된 올리고 6 ㎍
BbsI로 절단된 벡터 2 ㎕
T4 리가아제 2 ㎕
합계 20 ㎕
라이게이션이 끝난 뒤, DH5α에 형질전환을 실시하고, LB 플레이트에서의 배양이 끝난 뒤 콜로니 PCR을 통하여 양성 콜로니를 확인한 다음 3 ml LB 배지에 배양하였다. Miniprep 후 시퀀싱을 통하여 최종적으로 서열이 일치하는 지 확인하였다.
실험예 12. DH5α 형질전환(transformation)
실험예 11에서 생산한 벡터는 E.coli에 형질전환하여 벡터를 생산하였다. DH5α 컴피턴트(competent) 세포를 꺼내 얼음에서 녹였다. 라이게이션된 벡터를 DH5α 양의 최대 1/10 만큼 넣어준 다음, 얼음에서 30분간 반응시켰다. 42℃에서 30초 동안 열 충격을 가해준 뒤, 얼음에서 2분간 식혀주었다. LB 배지 또는 S.O.C 배지 100 ㎕를 사용하여 37℃에서 1시간 동안 배양하였다. 상온의 온도로 가온된 LB 플레이트(벡터에 따라 암피실린 또는 카나마이신이 포함됨)에 도말하고, 37℃에서 14 내지 16시간 동안 배양하였다.
실험예 13. 플라스미드 벡터 수집
형질주입(transfection) 또는 생어 시퀀싱을 위하여, DH5α에 형질전환된 벡터들을 사용하였다. Plasmid Mini prep kit(PM105-200, Biofact)를 사용하여 제조사의 지침에 따라 진행하였다. 벡터로 형질전환된 DH5α의 배양액을 1.5 ml 튜브에 넣은 다음, 13,000 rpm에서 5분간 원심분리를 실시하였다. 원심분리 후 상층액을 버리고, 펠릿(pellet)을 볼텍싱하여 충분히 풀어주었다. B1 완충액 350 ㎕를 넣은 다음, 튜브를 흔들어 충분히 반응시켰다. 다음, RNase A가 포함된 A1 완충액 350 ㎕을 넣고, 파란색이 사라질 때까지 튜브를 인버팅(inverting)하였다. 그리고 13,000 rpm에서 5분간 원심분리를 실시하였다. 컬럼을 준비하고 HelpB 완충액 200 ㎕를 넣은 다음, 13,000 rpm에서 30초간 원심분리 후 걸러진 용액을 제거하였다. 원심분리한 상층액 750 ㎕를 준비한 컬럼에 넣고, 7,000 rpm에서 1분간 원심분리하고, 걸러진 용액을 버렸다. 80% EtOH 750 ㎕를 넣고 13,000 rpm에서 30초간 원심분리를 실시한 뒤 걸러진 용액을 버리는 과정을 2회 반복하였다. 2회 반복 후, 13,000 rpm에서 3분간 원심분리를 실시하였다. 원심분리가 끝난 컬럼을 1.5 ml 튜브에 넣고, 30 ㎕의 EB 완충액을 중앙에 떨어뜨린 뒤 1분간 상온에서 반응시켰다. 13,000 rpm에서 1분간 원심분리를 실시하고, 1.5 ml 튜브에 모인 플라스미드 벡터들을 정량한 후 -20℃에서 보관하였다.
실험예 14. USH2A 엑손 13 돌연변이를 갖는 인간화 세포주 제작
본 발명의 일 실시예에 따른 USH2A 유전자 편집 시스템의 유전자 결실 효과를 확인하기 위해, USH2A 유전자에 돌연변이를 갖는 661W-USH2A 세포주 또는 ARPE19/HPV16-USH2A 세포주를 제작하였다.
661W-USH2A 세포주는 wt661W USH2A 유전자좌의 인트론 12, 엑손 13 및 인트론 13 일부를 상동지정복구(homology directed repair, HDR)를 유도하는 방법에 의해 인간 USH2A 유전자의 인트론 12, 엑손 13(c.2276G>T 및 c.2299delG 돌연변이를 포함함) 및 인트론 13(일부)으로 전환된 USH2A 인간화 661W 세포주이다(도 15 참조).
ARPE19/HPV16-USH2A 세포주는 wtARPE19/HPV19 USH2A 유전자좌의 엑손 13에서 HDR 방법으로 c.2276G>T 및 c.2299delG 돌연변이를 포함하도록 제작한 세포주이다.
실험예 15. 세포 배양
실험에 사용된 HEK293T 세포는 10% FBS 및 1% 페니실린-스트렙토마이신이 함유된 DMEM 배지에서 배양하였으며, AREP-19/HPV-16 세포는 10% FBS 및 1% 페니실린-스트렙토마이신이 함유된 DEME/F12 배지에서 배양하였다. 세포의 컨플루언시(confluency)가 80% 이상이 되면 HEK293T 세포는 1/15의 비율로, AREP-19/HPV-16 세포는 1/4의 비율로 계대배양을 실시하였다.
실험예 16. 형질주입(transfection; HEK293T 및 ARPE19-HPV 세포)
형질주입 하루 전날, 100 mm 디쉬에서 배양된 HEK293T 및 ARPE19-HPV 세포(80% 컨플루언시)에 트립신을 처리하여 디쉬 바닥에서 분리시켰다. 분리된 세포는 미리 가온된 50 ml의 배지(조성은 상기 실험예 15 참조)에 넣고 파이펫으로 천천히 풀어주었다. 샘플과 반복 수에 맞춰서 24-웰 플레이트를 준비하고, 웰 1개당 세포 현탁 배지를 500 ㎕씩 넣어주었다(1/100 희석). 이후 형질주입 실시 전까지 37℃의 CO2 배양기에서 밤새도록 배양시켰다.
다음날 세포의 컨플루언시가 약 70% 내지 80%가 되면 웰당 500 ㎕의 배지 중에서 200 ㎕를 제거하고, 배양기에 넣어두었다. 1.5 ml 튜브를 샘플 수에 맞게 준비하고, 각각의 튜브에 Opti-MEM을 200 ㎕씩 넣었다. Opti-MEM이 포함된 튜브에 Cas12f1 DNA 1.5 ㎍ 및 gRNA 0.5 ㎍ (또는 Cas12f1 DNA와 2개의 gRNA를 암호화하는 핵산을 포함하는 벡터)을 넣고, 5초간 볼텍싱 하였다(핵산 혼합물). 이후 핵산 혼합물과 FuGENE HD를 1:3의 비율로 넣고, 상온에서 20분간 반응시켰다(즉, 핵산 혼합물 2 ㎍일 때 FuGENE HD는 6 ㎕을 투여). 배양기에서 24 웰 플레이트를 꺼내고, 핵산 혼합물과 FuGENE HD가 포함된 용액 200 ㎕를 웰 벽면을 통해 흘려 넣었다. S모양으로 플레이트를 충분히 흔들어준 뒤, 37 ℃의 CO2 배양기에서 72시간 동안 배양하였다. 72시간이 지나면 세포를 수거하여 실험예 8에 따라 gDNA를 추출하였다.
실험예 17. 차세대 서열분석법(NGS)
표적의 인델 효율을 확인하기 위한 NGS 분석은 총 3회의 PCR에 걸쳐 진행되었다.
각 영역별 1차 PCR의 진행 조건은 하기 표 20 내지 표 29에 개시되어 있다.
USH2A의 Fa 영역 (F01 ~ F10) PCR 조건
PCR 혼합물 조성 부피 농도
2X KAPA HiFi PCR mix 5 ㎕ 1X 95℃ 5 분 -
USH2A-F-F#2(10 pmol) 0.5 ㎕ 0.5 μM 98℃ 20 초 32 사이클
USH2A-F-R#1(10 pmol) 0.5 ㎕ 0.5 μM 61℃ 15 초
주형(gDNA) 1 ㎕ - 72℃ 45 초
(각 샘플) (100 ng) - 72℃ 5 분 -
증류수 up to
10 ㎕
- -
합계 10 ㎕ -
USH2A의 Fb 영역 (F11 ~ F20) PCR 조건
PCR 혼합물 조성 부피 농도
2X KAPA HiFi PCR mix 5 ㎕ 1X 95℃ 5 분 -
USH2A-F-F#1(10 pmol) 0.5 ㎕ 0.5 μM 98℃ 20 초 32 사이클
USH2A-F-R#3(10 pmol) 0.5 ㎕ 0.5 μM 61℃ 15 초
주형(gDNA) 1 ㎕ - 72℃ 45 초
(각 샘플) (100 ng) - 72℃ 5 분 -
증류수 up to
10 ㎕
- -
합계 10 ㎕ -
USH2A의 Fc 영역 (F21 ~ F30) PCR 조건
PCR 혼합물 조성 부피 농도
2X KAPA HiFi PCR mix 5 ㎕ 1X 95℃ 5 분 -
USH2A-F-F#7(10 pmol) 0.5 ㎕ 0.5 μM 98℃ 20 초 32 사이클
USH2A-F-R#8(10 pmol) 0.5 ㎕ 0.5 μM 61℃ 15 초
주형(gDNA) 1 ㎕ - 72℃ 45 초
(각 샘플) (100 ng) - 72℃ 5 분 -
증류수 up to
10 ㎕
- -
합계 10 ㎕ -
USH2A의 Ra 영역 (R01 ~ R06) PCR 조건
PCR 혼합물 조성 부피 농도
2X KAPA HiFi PCR mix 5 ㎕ 1X 95℃ 5 분 -
USH2A-R-F#1(10 pmol) 0.5 ㎕ 0.5 μM 98℃ 20 초 32 사이클
USH2A-R-R#2(10 pmol) 0.5 ㎕ 0.5 μM 61℃ 15 초
주형(gDNA) 1 ㎕ - 72℃ 45 초
(각 샘플) (100 ng) - 72℃ 5 분 -
증류수 up to
10 ㎕
- -
합계 10 ㎕ -
USH2A의 Rb 영역 (R07 ~ R14) PCR 조건
PCR 혼합물 조성 부피 농도
2X KAPA HiFi PCR mix 5 ㎕ 1X 95℃ 5 분 -
USH2A-R-F#4(10 pmol) 0.5 ㎕ 0.5 μM 98℃ 20 초 32 사이클
USH2A-R-R#3(10 pmol) 0.5 ㎕ 0.5 μM 61℃ 15 초
주형(gDNA) 1 ㎕ - 72℃ 45 초
(각 샘플) (100 ng) - 72℃ 5 분 -
증류수 up to
10 ㎕
- -
합계 10 ㎕ -
USH2A의 Rc 영역 (R15 ~ R20) PCR 조건
PCR 혼합물 조성 부피 농도
2X KAPA HiFi PCR mix 5 ㎕ 1X 95℃ 5 분 -
USH2A-R-F#3(10 pmol) 0.5 ㎕ 0.5 μM 98℃ 20 초 32 사이클
USH2A-R-R#1(10 pmol) 0.5 ㎕ 0.5 μM 61℃ 15 초
주형(gDNA) 1 ㎕ - 72℃ 45 초
(각 샘플) (100 ng) - 72℃ 5 분 -
증류수 up to
10 ㎕
- -
합계 10 ㎕ -
USH2A의 Rd 영역 (R21 ~ R30) PCR 조건
PCR 혼합물 조성 부피 농도
2X KAPA HiFi PCR mix 5 ㎕ 1X 95℃ 5 분 -
USH2A-R-F#8(10 pmol) 0.5 ㎕ 0.5 μM 98℃ 20 초 32 사이클
USH2A-R-R#8(10 pmol) 0.5 ㎕ 0.5 μM 61℃ 15 초
주형(gDNA) 1 ㎕ - 72℃ 45 초
(각 샘플) (100 ng) - 72℃ 5 분 -
증류수 up to
10 ㎕
- -
합계 10 ㎕ -
USH2A의 Re 영역 (R31 ~ R36, R40) PCR 조건
PCR 혼합물 조성 부피 농도
2X KAPA HiFi PCR mix 5 ㎕ 1X 95℃ 5 분 -
USH2A-R-F#9(10 pmol) 0.5 ㎕ 0.5 μM 98℃ 20 초 32 사이클
USH2A-R-R#9(10 pmol) 0.5 ㎕ 0.5 μM 61℃ 15 초
주형(gDNA) 1 ㎕ - 72℃ 45 초
(각 샘플) (100 ng) - 72℃ 5 분 -
증류수 up to
10 ㎕
- -
합계 10 ㎕ -
USH2A의 Rf 영역 (R37 ~ R39) PCR 조건
PCR 혼합물 조성 부피 농도
2X KAPA HiFi PCR mix 5 ㎕ 1X 95℃ 5 분 -
USH2A-R-F#10(10 pmol) 0.5 ㎕ 0.5 μM 98℃ 20 초 32 사이클
USH2A-R-R#10(10 pmol) 0.5 ㎕ 0.5 μM 61℃ 15 초
주형(gDNA) 1 ㎕ - 72℃ 45 초
(각 샘플) (100 ng) - 72℃ 5 분 -
증류수 up to
10 ㎕
- -
합계 10 ㎕ -
1차 PCR은 450 내지 500 bp 정도의 밴드가 나타나게 되며, 이 PCR 산물을 주형으로 사용하여 2차 PCR을 진행하였다. 2차 PCR의 진행 조건은 하기 표 29에 개시되어 있다.
USH2A 2차 PCR PCR 조건
PCR 혼합물 조성 부피 농도
2X KAPA HiFi PCR mix 5 ㎕ 1X 95℃ 5 분 -
정방향 프라이머(10 pmol) 0.5 ㎕ 0.5 μM 98℃ 20 초 33 사이클
역방향 프라이머(10 pmol) 0.5 ㎕ 0.5 μM 60℃ 15 초
주형(1차 PCR 산물) 1 ㎕ - 72℃ 30 초
증류수 3 ㎕ - 72℃ 3 분 -
합계 10 ㎕ - -
2차 PCR 후 2% 아가로스 겔에 로딩하여 밴드가 250bp 이내에 제대로 나타났는지 확인하였다. 이때, 밴드가 제대로 나타나지 않았으면 원인을 파악한 후 1차 PCR부터 재진행하고, 제대로 된 밴드를 확인했으면, 2차 PCR 산물을 주형으로 사용하여 3차 PCR을 진행하였다. 이때 2차 PCR 산물의 농도가 높으면 증류수를 추가하여 농도를 조절해주었다. 3차 PCR의 진행 조건은 하기 표 30에 개시되어 있다.
USH2A 3차 PCR PCR 조건
PCR 혼합물 조성 부피 농도
2X pfu PCR Master mix 5 ㎕ 1X 95℃ 5 분 -
정방향 프라이머(10 pmol) 0.5 ㎕ 0.5 μM 95℃ 20 초 33 사이클
역방향 프라이머(10 pmol) 0.5 ㎕ 0.5 μM 60℃ 40 초
주형(2차 PCR 산물) 1 ㎕ - 72℃ 45 초
증류수 3 ㎕ - 72℃ 3 분 -
합계 10 ㎕ - -
각 PCR에서 사용된 프라이머는 하기 표 31에 개시되어 있다.
용도 표적 연번 명칭 방향 서열(5'→3') 서열
번호
1차 PCR USH2A F 1 USH2A-F-F#1 F AGGATTAAACCAAAAATTGCCCTGGA 476
1차 PCR USH2A F 2 USH2A-F-F#2 F CACCATGCTGTACAATAGAGCTCCAG 477
1차 PCR USH2A F 3 USH2A-F-F#3 F GGCATTGCTTGTGAGAAAACACTCAA 478
1차 PCR USH2A F 4 USH2A-F-F#4 F AGAGCTCCAGCATATGTAACAGAAACA 479
1차 PCR USH2A F 5 USH2A-F-F#7 F TGCCTTAGGTGAGTCATTCATCACTG 480
1차 PCR USH2A F 6 USH2A-F-F#8 F AGAACTTGCCTTCATTGGAGTTCTTGAA 481
1차 PCR USH2A F 7 USH2A-F-F#10 F TGAGTTCCTGAGTATGTTTTTGACTC 482
1차 PCR USH2A F 8 USH2A-F-R#1 R TTTGTTCACTGAGCCATGGAGGTTAC 483
1차 PCR USH2A F 9 USH2A-F-R#3 R TGTTTCTGTTACATATGCTGGAGCTC 484
1차 PCR USH2A F 10 USH2A-F-R#4 R AATTTGTTCACTGAGCCATGGAGGTT 485
1차 PCR USH2A F 11 USH2A-F-R#8 R TCCAGGGCAATTTTTGGTTTAATCCT 486
1차 PCR USH2A R 12 USH2A-R-F#1 F GAGTGTGATTCCTTGGGGACATTACC 487
1차 PCR USH2A R 13 USH2A-R-F#3 F TGGCTAAATGTTTTTGCTGAAGAGGC 488
1차 PCR USH2A R 14 USH2A-R-F#4 F AAACTCAGCCGATCGGATTTATTTCA 489
1차 PCR USH2A R 15 USH2A-R-F#8 F AGCAAAGAATCCAGCCTAGGATAATTGG 490
1차 PCR USH2A R 16 USH2A-R-F#9 F CCAGGGGTGTCACGTACTTATAAAATGA 491
1차 PCR USH2A R 17 USH2A-R-F#10 F CAAAGTCCTTTGTCTCCTACACAGTCAA 492
1차 PCR USH2A R 18 USH2A-R-R#1 R TACACACTGACCAATGCCAAAGGAAA 493
1차 PCR USH2A R 19 USH2A-R-R#2 R GCCTCTTCAGCAAAAACATTTAGCCA 494
1차 PCR USH2A R 20 USH2A-R-R#3 R ATTGGCTGACAGGACAACAATTAGCA 495
1차 PCR USH2A R 21 USH2A-R-R#8 R TCTTCCTGTCTTCTGGGATACTTACCAC 496
1차 PCR USH2A R 22 USH2A-R-R#9 R GGACCAAAGGGAACAAATGTTTGTAACT 497
1차 PCR USH2A R 23 USH2A-R-R#10 R GAGAGCCACAAAGATAAAGGAAAGAGCA 498
1차 PCR USH2A R 24 USH2A-R-R#11 R TTCTAATTCCTGAGTCCTGACTGCAG 499
2차 PCR USH2A F 1 USH2A-F-F#1 miseq F F CACTCTTTCCCTACACGACGCTCTTCCGATCTAGGATTAAACCAAAAATTGCCCTGGA 500
2차 PCR USH2A F 2 USH2A-F-F#2 miseq F F CACTCTTTCCCTACACGACGCTCTTCCGATCTCACCATGCTGTACAATAGAGCTCCAG 501
2차 PCR USH2A F 3 USH2A-F-F#3 miseq F F CACTCTTTCCCTACACGACGCTCTTCCGATCTGGCATTGCTTGTGAGAAAACACTCAA 502
2차 PCR USH2A F 4 USH2A-F-F#4 miseq F F CACTCTTTCCCTACACGACGCTCTTCCGATCTAGAGCTCCAGCATATGTAACAGAAACA 503
2차 PCR USH2A F 5 USH2A-F-F#5 miseq F F CACTCTTTCCCTACACGACGCTCTTCCGATCTCTGAAACTTTGTACTCAGCTTAACCT 504
2차 PCR USH2A F 6 USH2A-F-F#6 miseq F F CACTCTTTCCCTACACGACGCTCTTCCGATCTTTTTTCCCAGCTTCACGAAGGTATAATT 505
2차 PCR USH2A F 7 USH2A-F-F#9 miseq F F CACTCTTTCCCTACACGACGCTCTTCCGATCTCTTTGCCTTGTAATACCCTTTTATC 506
2차 PCR USH2A F 8 USH2A-F-F#10 miseq F F CACTCTTTCCCTACACGACGCTCTTCCGATCTTGAGTTCCTGAGTATGTTTTTGACTC 507
2차 PCR USH2A F 9 USH2A-F-R#3 miseq R R GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTGTTTCTGTTACATATGCTGGAGCTC 508
2차 PCR USH2A F 10 USH2A-F-R#4 miseq R R GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAATTTGTTCACTGAGCCATGGAGGTT 509
2차 PCR USH2A F 11 USH2A-F-R#5 miseq R R GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGACGAGACACAAACAATGCTACTGC 510
2차 PCR USH2A F 12 USH2A-F-R#6 miseq R R GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCAACTGTTTGCGATGAACTTCATAA 511
2차 PCR USH2A F 13 USH2A-F-R#7 miseq R R GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCTGGAGCTCTATTGTACAGCATGGTG 512
2차 PCR USH2A F 14 USH2A-F-R#9 miseq R R GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCATTGCTTGTCATCTTGTGTGACTCA 513
2차 PCR USH2A F 15 USH2A-F-R#10 miseq R R GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCACCTAAACTTAAATCTCTGACAAGTAAGGT 514
2차 PCR USH2A F 16 USH2A-F-R#11 miseq R R GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGTACATATATCAAAACATCATGTTGTCTGCC 515
2차 PCR USH2A R 17 USH2A-R-F#2 miseq F F CACTCTTTCCCTACACGACGCTCTTCCGATCTACATTTTCAGTGCACAATGACATTCC 516
2차 PCR USH2A R 18 USH2A-R-F#3 miseq F F CACTCTTTCCCTACACGACGCTCTTCCGATCTTGGCTAAATGTTTTTGCTGAAGAGGC 517
2차 PCR USH2A R 19 USH2A-R-F#4 miseq F F CACTCTTTCCCTACACGACGCTCTTCCGATCTAAACTCAGCCGATCGGATTTATTTCA 518
2차 PCR USH2A R 20 USH2A-R-F#5 miseq F F CACTCTTTCCCTACACGACGCTCTTCCGATCTAACTTCTCCCTGTTTCTGGTTTGTGG 519
2차 PCR USH2A R 21 USH2A-R-F#6 miseq F F CACTCTTTCCCTACACGACGCTCTTCCGATCTACCTAGAATTGTTTCCACATGCCATCA 520
2차 PCR USH2A R 22 USH2A-R-F#7 miseq F F CACTCTTTCCCTACACGACGCTCTTCCGATCTGACCCCATCTATGGCTCTCCTTACAT 521
2차 PCR USH2A R 23 USH2A-R-F#8 miseq F F CACTCTTTCCCTACACGACGCTCTTCCGATCTAGCAAAGAATCCAGCCTAGGATAATTGG 522
2차 PCR USH2A R 24 USH2A-R-F#9 miseq F F CACTCTTTCCCTACACGACGCTCTTCCGATCTCCAGGGGTGTCACGTACTTATAAAATGA 523
2차 PCR USH2A R 25 USH2A-R-F#11 miseq F F CACTCTTTCCCTACACGACGCTCTTCCGATCTCTAGGATAATTGGGCCATGCTTTTCC 524
2차 PCR USH2A R 26 USH2A-R-F#12 miseq F F CACTCTTTCCCTACACGACGCTCTTCCGATCTATAATTCTACCACCAGCCACAACAGA 525
2차 PCR USH2A R 27 USH2A-R-F#13 miseq F F CACTCTTTCCCTACACGACGCTCTTCCGATCTTTTGGCAACAAAGTCCTTTGTCTC 526
2차 PCR USH2A R 28 USH2A-R-F#14 miseq F F CACTCTTTCCCTACACGACGCTCTTCCGATCTCTTATCCGTTGTTTAACAGCTGTGCT 527
2차 PCR USH2A R 29 USH2A-R-F#15 miseq F F CACTCTTTCCCTACACGACGCTCTTCCGATCTTTTCTCTACATGGGTATATGGCCACC 528
2차 PCR USH2A R 30 USH2A-R-F#16 miseq F F CACTCTTTCCCTACACGACGCTCTTCCGATCTTCATCAGGTAGAAGCAAGGTGGTAAG 529
2차 PCR USH2A R 31 USH2A-R-F#17 miseq F F CACTCTTTCCCTACACGACGCTCTTCCGATCTACAGCCTAAATGACAGATACAGCACA 530
2차 PCR USH2A R 32 USH2A-R-F#18 miseq F F CACTCTTTCCCTACACGACGCTCTTCCGATCTTCCTTCCAATGAAAGACCCAATCCAT 531
2차 PCR USH2A R 33 USH2A-R-R#1 miseq R R GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTACACACTGACCAATGCCAAAGGAAA 532
2차 PCR USH2A R 34 USH2A-R-R#2 miseq R R GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGCCTCTTCAGCAAAAACATTTAGCCA 533
2차 PCR USH2A R 35 USH2A-R-R#4 miseq R R GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTGAAATAAATCCGATCGGCTGAGTTT 534
2차 PCR USH2A R 36 USH2A-R-R#5 miseq R R GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAAATGTAAGGAGAGCCATAGATGGGG 535
2차 PCR USH2A R 37 USH2A-R-R#6 miseq R R GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTACAGGACAACAATTAGCACAGCTGTT 536
2차 PCR USH2A R 38 USH2A-R-R#7 miseq R R GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTACTCCTTCTCTGGCAAGCAAATCAC 537
2차 PCR USH2A R 39 USH2A-R-R#10 miseq R R GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGAGAGCCACAAAGATAAAGGAAAGAGCA 538
2차 PCR USH2A R 40 USH2A-R-R#11 miseq R R GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTTCTAATTCCTGAGTCCTGACTGCAG 539
2차 PCR USH2A R 41 USH2A-R-R#12 miseq R R GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCTTACCACCTTGCTTCTACCTGATGA 540
2차 PCR USH2A R 42 USH2A-R-R#13 miseq R R GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGGAAGGACCAAAGGGAACAAATGTTT 541
2차 PCR USH2A R 43 USH2A-R-R#14 miseq R R GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGGAGATTTACTTCAAGTGTAGAAATTGAGTC 542
2차 PCR USH2A R 44 USH2A-R-R#15 miseq R R GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTGTGCTGTATCTGTCATTTAGGCTGT 543
2차 PCR USH2A R 45 USH2A-R-R#16 miseq R R GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTTGACTGTGTAGGAGACAAAGGACTT 544
2차 PCR USH2A R 46 USH2A-R-R#17 miseq R R GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGCTTGTTTTGGTTTACTTAGAAAGAAGGATG 545
3차 PCR을 마치고 나면 2% 아가로스 겔에 로딩하여 밴드를 확인하였다. 완성된 PCR 산물을 각 동일한 양(각 5 ㎕씩)으로 모아준 후 PCR 정제를 진행하였다.
PCR 정제는 GEL & PCR Purification System(GP104-200, Biofact)을 이용하여 수행하였다. PCR 산물 부피의 5배에 해당하는 UB 완충액을 PCR 산물에 넣어준 뒤 잘 섞어주었다. 컬럼을 준비하고 HelpB 완충액 200 ㎕를 컬럼에 넣은 뒤 13,000 rpm, 30초 간 원심분리를 한 뒤 걸러진 용액을 버렸다. 반응액을 컬럼에 넣고 7,000 rpm, 1분간 원심분리를 한 뒤 걸러진 용액을 버렸다. 80% 에탄올 750 ㎕를 넣고 13,000 rpm, 30초간 원심분리를 실시한 뒤 걸러진 용액을 버렸다. 2회 반복 후 13,000 rpm, 3분 간 원심분리를 실시하였다. 원심분리가 끝난 컬럼을 1.5 ml 튜브에 넣은 후 100 ㎕의 EB 완충액를 가운데 떨어뜨린 뒤 1분간 상온에서 반응시켰다. 13,000 rpm 1분간 원심분리를 실시하였다. 1.5 ml 튜브에 모인 DNA의 정량을 통해 15 ng/㎕의 농도를 맞추고 NGS 분석 전까지 4℃에서 보관하였다.
실험예 18. T-평활말단 클로닝(T-blunt end cloning)
카세트의 벡터화 또는 PCR 산물의 서열 확인을 위해, All in one PCR cloning kit(VT202-020, Biofact)를 사용하여 제조사의 지침에 따라 표적 카세트 또는 PCR 산물을 T-벡터에 클로닝하였다. 클로닝은 DNA의 길이가 2 kb가 넘지 않도록 디자인된 산물 또는 카세트 DNA를 이용하였으며, 하기 표 32에 개시된 조성으로 혼합물을 만들고 라이게이션 반응을 진행하였다.
시약 부피
6X All in one 완충액 1 ㎕
All in one 벡터 1 ㎍
PCR 산물 또는 카세트 4 ㎕
합계 6 ㎕
상기 혼합물을 30분 동안 반응시킨 후 컴피턴트 세포(E.coli)에 형질전환을 실시하였다. 상기 진술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

Claims (74)

  1. Cas12f1 분자를 포함하는 엔도뉴클레아제 또는 상기 엔도뉴클라아제를 암호화하는 핵산;
    USH2A 엑손 13의 5000bp 업스트림(upstream) 영역에 존재하고 Cas12f1 분자가 인식하는 PAM(protospacer-adjacent motif) 서열과 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화 가능한 제1 가이드 서열을 포함하는 제1 가이드 RNA, 또는 상기 제1 가이드 RNA를 암호화하는 핵산; 및
    USH2A 엑손 13의 14500bp 다운스트림(downstream) 영역에 존재하고 Cas12f1 분자가 인식하는 PAM 서열과 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화 가능한 제2 가이드 서열을 포함하는 제2 가이드 RNA, 또는 상기 제2 가이드 RNA를 암호화하는 핵산을 포함하는
    USH2A 유전자의 편집 시스템.
  2. 제1항에 있어서,
    상기 시스템은 세포 내 USH2A 유전자에서 엑손 13의 결실을 유도하는
    시스템.
  3. 제1항에 있어서,
    상기 시스템은 제2A형 어셔 증후군의 치료를 위한 것인
    시스템.
  4. 제1항에 있어서,
    상기 USH2A 엑손 13은 어셔 증후군을 유발하는 하나 이상의 돌연변이를 포함하는
    시스템.
  5. 제1항에 있어서,
    상기 USH2A 엑손 13의 5000bp 업스트림 영역에 존재하는 표적 서열은 서열번호 1 내지 서열번호 49로 이루어진 군에서 선택된 핵산 서열을 포함하고/거나
    상기 USH2A 엑손 13의 14500bp 다운스트림 영역 내에 존재하는 표적 서열은 서열번호 50 내지 서열번호 79로 이루어진 군에서 선택된 핵산 서열을 포함하는
    시스템.
  6. 제1항에 있어서,
    상기 제1 가이드 서열은 서열번호 397 내지 서열번호 445로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 22개 뉴클레오티드 서열 또는 상기 연속된 서열에서 5개 이하의 뉴클레오티드가 상이한 서열을 포함하고, 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열이고/거나,
    상기 제2 가이드 서열은 서열번호 446 내지 서열번호 475로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 20개 뉴클레오티드 서열 또는 상기 연속된 서열에서 5개 이하의 뉴클레오티드가 상이한 서열을 포함하고, 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열인
    시스템.
  7. 제1항에 있어서,
    상기 제1 가이드 서열은 서열번호 80 내지 서열번호 128 및 서열번호 159 내지 서열번호 164로 이루어진 군에서 선택된 핵산 서열을 포함하고/거나
    상기 제2 가이드 서열은 서열번호 129 내지 서열번호 158 및 서열번호 165 내지 서열번호 174로 이루어진 군에서 선택된 핵산 서열을 포함하는
    시스템.
  8. 제1항에 있어서,
    상기 제1 또는 제2 가이드 RNA는 가이드 서열의 3'-말단에 연결된 U-rich tail 서열을 포함하고, 상기 U-rich tail은 5'-(UmV)nUo-3'로 표시되고, 여기서 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수인
    시스템.
  9. 제1항에 있어서,
    상기 제1 또는 제2 가이드 RNA는 엔지니어링된 스캐폴드 영역을 포함하고, 상기 엔지니어링된 스캐폴드 영역은 5'-말단부터 순차적으로 제1 스템-루프 영역, 제2 스템-루프 영역, 제3 스템-루프 영역, 제4 스템-루프 영역 및 tracrRNA-crRNA 상보성 영역을 포함하는 야생형 Cas12f1 가이드 RNA 서열의 스캐폴드 영역과 50% 이상 서열 동일성을 갖는 뉴클레오티드 서열을 포함하고, 상기 야생형 Cas12f1 가이드 RNA 서열에 대해 하기 (1) 내지 (4)로 이루어진 군에서 선택되는 하나 이상의 변형을 포함하는
    시스템:
    (1) 제1 스템-루프 영역의 일부 또는 전부의 결실;
    (2) 제2 스템-루프 영역의 일부 또는 전부의 결실;
    (3) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실; 및
    (4) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환.
  10. 제9항에 있어서,
    상기 야생형 Cas12f1 가이드 RNA는 서열번호 175의 핵산 서열을 포함하는 tracrRNA 및 서열번호 176의 핵산 서열을 포함하는 crRNA를 포함하는
    시스템.
  11. 제9항에 있어서,
    상기 엔지니어링된 스캐폴드 영역은 하기 식 (I)로 표시되는 서열과 80% 이상 서열 동일성을 갖는 서열을 포함하는
    시스템:
    Figure PCTKR2023004330-appb-img-000014
    식 (I)에서,
    Xa는 서열번호 178의 핵산 서열 또는 서열번호 178의 서열에서 1 내지 20개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
    Xb1은 서열번호 189의 핵산 서열 또는 서열번호 189의 서열에서 1 내지 13개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
    Xb2는 서열번호 193의 핵산 서열 또는 서열번호 193의 서열에서 1 내지 14개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
    Xc1은 서열번호 203의 핵산 서열 또는 서열번호 203의 서열에서 1 내지 28개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
    Xc2는 서열번호 222의 핵산 서열 또는 서열번호 222의 서열에서 1 내지 27개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
    Lk는 길이 2 내지 20의 폴리뉴클레오티드 링커이거나 부존재한다.
  12. 제11항에 있어서,
    상기 Xc1 서열 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 이들 중 하나 이상의 U가 A, G 또는 C로 치환되는 변형을 포함하는
    시스템.
  13. 제11항에 있어서,
    Xa 핵산 서열의 결실, Xb1 및 Xb2 핵산 서열의 결실 및/또는 Xc1 및 Xc2 핵산 서열의 결실은 하나 이상의 상보적인 뉴클레오티드 쌍의 결실을 포함하는
    시스템.
  14. 제11항에 있어서,
    상기 식 (I)에서 서열 5'-Xb1UUAGXb2-3'은 서열번호 198 내지 서열번호 202 및 5'-UUAG-3'로 이루어진 군에서 선택되는
    시스템.
  15. 제11항에 있어서,
    상기 식 (I) 내의 서열 5'-Xc1-Lk-Xc2-3'은 서열번호 244 내지 서열번호 250 및 5'-Lk-3'으로 이루어진 군에서 선택되는
    시스템.
  16. 제9항에 있어서,
    상기 스캐폴드 영역은 서열번호 251 내지 서열번호 296으로 이루어진 군에서 선택된 핵산 서열로 이루어진 엔지니어링된 tracrRNA를 포함하고/거나
    서열번호 297 내지 서열번호 304로 이루어진 군에서 선택된 핵산 서열로 이루어진 엔지니어링된 crRNA을 포함하는
    시스템.
  17. 제1항에 있어서,
    상기 제1 또는 제2 가이드 RNA는 듀얼 가이드 RNA 또는 싱글 가이드 RNA인
    시스템.
  18. 제1항에 있어서,
    상기 제1 또는 제2 가이드 RNA는 서열번호 313 내지 서열번호 350으로 이루어진 군에서 선택된 핵산 서열의 스캐폴드 영역 서열을 포함하는
    시스템.
  19. 제1항에 있어서,
    상기 Cas12f1 분자는 서열번호 360 내지 서열번호 364 및 서열번호 370 내지 서열번호 377로 이루어진 군에서 선택된 아미노산 서열과 70% 이상의 서열 동일성을 갖는 아미노산 서열을 포함하는
    시스템.
  20. 제1항에 있어서,
    상기 엔도뉴클라아제는 제1 가이드 RNA 또는 제2 가이드 RNA와 리보뉴클레오단백질(ribonucleoprotein, RNP)를 형성하는
    시스템.
  21. Cas12f1 분자를 포함하는 엔도뉴클레아제를 암호화하는 뉴클레오티드 서열이 작동가능하게 연결된 제1 핵산 구조물;
    USH2A 엑손 13의 5000bp 업스트림 영역에 존재하고 Cas12f1 분자가 인식하는 PAM 서열과 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화 가능한 제1 가이드 서열을 포함하는 제1 가이드 RNA를 암호화하는 뉴클레오티드 서열이 작동가능하게 연결된 제2 핵산 구조물; 및
    USH2A 엑손 13의 14500bp 다운스트림(downstream) 영역에 존재하고 Cas12f1 분자가 인식하는 PAM 서열과 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화 가능한 제2 가이드 서열을 포함하는 제2 가이드 RNA를 암호화하는 뉴클레오티드 서열이 작동가능하게 연결된 제3 핵산 구조물을 포함하는 하나 이상의 벡터를 포함하는
    벡터 시스템.
  22. 제21항에 있어서,
    상기 벡터 시스템은 세포 내 USH2A 유전자에서 엑손 13의 결실을 유도하는
    벡터 시스템.
  23. 제21항에 있어서,
    상기 USH2A 엑손 13은 어셔 증후군을 유발하는 하나 이상의 돌연변이를 포함하는
    벡터 시스템.
  24. 제21항에 있어서,
    상기 핵산 구조물은 동일하거나 상이한 벡터에 함유되는
    벡터 시스템.
  25. 제21항에 있어서,
    상기 핵산 구조물은 하나의 벡터에 함유되는
    벡터 시스템.
  26. 제21항에 있어서,
    상기 USH2A 엑손 13의 5000bp 업스트림 영역에 존재하는 표적 서열은 서열번호 1 내지 서열번호 49로 이루어진 군에서 선택된 핵산 서열을 포함하고/거나
    상기 USH2A 엑손 13의 14500bp 다운스트림 영역 내에 존재하는 표적 서열은 서열번호 50 내지 서열번호 79로 이루어진 군에서 선택된 핵산 서열을 포함하는
    벡터 시스템.
  27. 제21항에 있어서,
    상기 제1 가이드 서열은 서열번호 397 내지 서열번호 445로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 22개 뉴클레오티드 서열 또는 상기 연속된 서열에서 5개 이하의 뉴클레오티드가 상이한 서열을 포함하고, 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열이고/거나,
    상기 제2 가이드 서열은 서열번호 446 내지 서열번호 475로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 20개 뉴클레오티드 서열 또는 상기 연속된 서열에서 5개 이하의 뉴클레오티드가 상이한 서열을 포함하고, 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열인
    벡터 시스템.
  28. 제21항에 있어서,
    상기 제1 가이드 서열은 서열번호 80 내지 서열번호 128 및 서열번호 159 내지 서열번호 164로 이루어진 군에서 선택된 핵산 서열을 포함하고/거나
    상기 제2 가이드 서열은 서열번호 129 내지 서열번호 158 및 서열번호 165 내지 서열번호 174로 이루어진 군에서 선택된 핵산 서열을 포함하는
    벡터 시스템.
  29. 제21항에 있어서,
    상기 제1 또는 제2 가이드 RNA는 가이드 서열의 3'-말단에 연결된 U-rich tail 서열을 포함하고, 상기 U-rich tail은 5'-(UmV)nUo-3'로 표시되고, 여기서 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수인
    벡터 시스템.
  30. 제21항에 있어서,
    상기 제1 또는 제2 가이드 RNA는 엔지니어링된 스캐폴드 영역을 포함하고, 상기 엔지니어링된 스캐폴드 영역은 5'-말단부터 순차적으로 제1 스템-루프 영역, 제2 스템-루프 영역, 제3 스템-루프 영역, 제4 스템-루프 영역 및 tracrRNA-crRNA 상보성 영역을 포함하는 야생형 Cas12f1 가이드 RNA 서열의 스캐폴드 영역과 50% 이상 서열 동일성을 갖는 뉴클레오티드 서열을 포함하고, 상기 야생형 Cas12f1 가이드 RNA 서열에 대해 하기 (1) 내지 (4)로 이루어진 군에서 선택되는 하나 이상의 변형을 포함하는
    벡터 시스템:
    (1) 제1 스템-루프 영역의 일부 또는 전부의 결실;
    (2) 제2 스템-루프 영역의 일부 또는 전부의 결실;
    (3) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실; 및
    (4) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환.
  31. 제30항에 있어서,
    상기 야생형 Cas12f1 가이드 RNA는 서열번호 175의 핵산 서열을 포함하는 tracrRNA 및 서열번호 176의 핵산 서열을 포함하는 crRNA를 포함하는
    벡터 시스템.
  32. 제30항에 있어서,
    상기 엔지니어링된 스캐폴드 영역은 하기 식 (I)로 표시되는 서열과 80% 이상 서열 동일성을 갖는 서열을 포함하는
    벡터 시스템:
    Figure PCTKR2023004330-appb-img-000015
    식 (I)에서,
    Xa는 서열번호 178의 핵산 서열 또는 서열번호 178의 서열에서 1 내지 20개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
    Xb1은 서열번호 189의 핵산 서열 또는 서열번호 189의 서열에서 1 내지 13개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
    Xb2는 서열번호 193의 핵산 서열 또는 서열번호 193의 서열에서 1 내지 14개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
    Xc1은 서열번호 203의 핵산 서열 또는 서열번호 203의 서열에서 1 내지 28개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
    Xc2는 서열번호 222의 핵산 서열 또는 서열번호 222의 서열에서 1 내지 27개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
    Lk는 길이 2 내지 20의 폴리뉴클레오티드 링커이거나 부존재한다.
  33. 제32항에 있어서,
    상기 Xc1 서열 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 이들 중 하나 이상의 U가 A, G 또는 C로 치환되는 변형을 포함하는
    벡터 시스템.
  34. 제32항에 있어서,
    Xa 핵산 서열의 결실, Xb1 및 Xb2 핵산 서열의 결실, 및/또는 Xc1 및 Xc2 핵산 서열의 결실은 하나 이상의 상보적인 뉴클레오티드 쌍의 결실을 포함하는
    벡터 시스템.
  35. 제32항에 있어서,
    상기 식 (I)에서 서열 5'-Xb1UUAGXb2-3'은 서열번호 198 내지 서열번호 202 및 5'-UUAG-3'로 이루어진 군에서 선택되는
    벡터 시스템.
  36. 제32항에 있어서,
    상기 식 (I) 내의 서열 5'-Xc1-Lk-Xc2-3'은 서열번호 244 내지 서열번호 250 및 5'-Lk-3'으로 이루어진 군에서 선택되는
    벡터 시스템.
  37. 제32항에 있어서,
    상기 Lk는 5'-GAAA-3', 5'-UUAG-3', 5'-UGAAAA-3', 5'-UUGAAAAA-3', 5'-UUCGAAAGAA-3'(서열번호 240), 5'-UUCAGAAAUGAA-3'(서열번호 241), 5'-UUCAUGAAAAUGAA-3'(서열번호 242) 및 5'-UUCAUUGAAAAAUGAA-3'(서열번호 243)로 이루어진 군에서 선택되는 핵산 서열을 포함하는
    벡터 시스템.
  38. 제30항에 있어서,
    상기 스캐폴드 영역은 서열번호 251 내지 서열번호 296으로 이루어진 군에서 선택된 핵산 서열로 이루어진 엔지니어링된 tracrRNA를 포함하고/거나
    서열번호 297 내지 서열번호 304로 이루어진 군에서 선택된 핵산 서열로 이루어진 엔지니어링된 crRNA을 포함하는
    벡터 시스템.
  39. 제21항에 있어서,
    상기 제1 또는 제2 가이드 RNA는 서열번호 313 내지 서열번호 350으로 이루어진 군에서 선택된 핵산 서열의 스캐폴드 영역 서열을 포함하는
    시스템.
  40. 제21항에 있어서,
    상기 Cas12f1 분자는 서열번호 360 내지 서열번호 364 및 서열번호 370 내지 서열번호 377로 이루어진 군에서 선택된 아미노산 서열과 70% 이상의 서열 동일성을 갖는 아미노산 서열을 포함하는
    시스템.
  41. 제21항에 있어서,
    상기 벡터는 프로모터 또는 인핸서를 더 포함하는
    벡터 시스템.
  42. 제41항에 있어서,
    상기 프로모터는 U6 프로모터, EFS 프로모터, EF1-α 프로모터, H1 프로모터, 7SK 프로모터, CMV 프로모터, LTR 프로모터, Ad MLP 프로모터, HSV 프로모터, SV40 프로모터, CBA 프로모터 또는 RSV 프로모터인
    벡터 시스템.
  43. 제21항에 있어서,
    상기 벡터는 레트로바이러스 벡터(retrovirus vector), 렌티바이러스 벡터(lentivirus vector), 아데노바이러스 벡터(adenovirus vector), 아데노-연관 바이러스 벡터(adeno-associated virus vector), 백시니아바이러스 벡터(vaccinia virus vector), 폭스바이러스 벡터(poxvirus vector), 단순포진 바이러스 벡터(herpes simplex virus vector) 및 파지미드 벡터(phagemid vector)로 구성된 군에서 선택되는
    벡터 시스템.
  44. 제21항에 있어서,
    상기 벡터는 플라스미드, 네이키드 DNA, DNA 복합체, mRNA(전사물) 및 앰플리콘(amplicon)으로 이루어진 군에서 선택되는
    벡터 시스템.
  45. 제21항 내지 제44항 중 어느 한 항에 따른 벡터 시스템에 의해 제조된 재조합 바이러스.
  46. 제1항 내지 제20항 중 어느 한 항에 따른 시스템, 제21항 내지 제44항 중 어느 한 항에 따른 벡터 시스템 또는 제45항에 따른 재조합 바이러스를 포함하는 조성물.
  47. 제46항에 있어서,
    상기 조성물은 약학 조성물인
    조성물.
  48. 제1항 내지 제20항 중 어느 한 항에 따른 시스템, 제21항 내지 제44항 중 어느 한 항에 따른 벡터 시스템, 또는 제45항에 따른 재조합 바이러스를 세포와 접촉시키는 단계를 포함하는
    세포 내 USH2A 유전자에서 엑손 13을 포함하는 세그먼트의 결실을 유도하는 방법.
  49. 제1항 내지 제20항 중 어느 한 항에 따른 시스템, 제21항 내지 제44항 중 어느 한 항에 따른 벡터 시스템, 또는 제45항에 따른 재조합 바이러스를 개체와 접촉시키는 단계를 포함하는
    USH2A 유전자 엑손 13에 돌연변이와 관련된 질환을 가진 개체를 치료하는 방법.
  50. 제1항 내지 제20항 중 어느 한 항에 따른 시스템, 제21항 내지 제44항 중 어느 한 항에 따른 벡터 시스템, 또는 제45항에 따른 재조합 바이러스를 세포와 접촉시키는 단계를 포함하는
    세포의 유전자를 변경하는 방법.
  51. 제48항 내지 제50항 중 어느 한 항에 있어서,
    상기 재조합 바이러스는 아데노-연관 바이러스(AAV)인
    방법.
  52. 제48항 또는 제50항에 있어서,
    상기 세포는 줄기세포, 포유동물의 눈 또는 내이(inner ear)의 세포인
    방법.
  53. 제48항 또는 제50항에 있어서,
    상기 세포는 어셔 증후군을 가진 개체로부터 유래된 것인
    방법.
  54. 제48항 또는 제50항에 있어서,
    상기 접촉은 생체 외 또는 생체 내에서 일어나는
    방법.
  55. 제48항 또는 제50항의 방법에 의해 유전적으로 변형된 줄기세포.
  56. 제55항에 있어서,상기 줄기세포는 제2A형 어셔 증후군을 치료하기 위한
    줄기세포.
  57. USH2A(Usherin) 유전자 내의 표적 서열과 혼성화할 수 있는 가이드 서열을 포함하는 스페이서 영역 및 스캐폴드 영역을 포함하는 가이드 RNA로서,
    상기 가이드 서열은 (i) 서열번호 397 내지 서열번호 445로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 22개 뉴클레오티드 서열 또는 상기 연속된 서열에서 5개 이하의 뉴클레오티드가 상이한 서열을 포함하고, 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열이고/거나, (ii) 서열번호 446 내지 서열번호 475로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 20개 뉴클레오티드 서열 또는 상기 연속된 서열에서 5개 이하의 뉴클레오티드가 상이한 서열을 포함하고, 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열인
    가이드 RNA.
  58. 제57항에 있어서,
    상기 가이드 서열은 서열번호 80 내지 서열번호 128 및 서열번호 159 내지 서열번호 164로 이루어진 군에서 선택된 핵산 서열을 포함하고/거나
    상기 가이드 서열은 서열번호 129 내지 서열번호 158 및 서열번호 165 내지 서열번호 174로 이루어진 군에서 선택된 핵산 서열을 포함하는
    가이드 RNA.
  59. 제57항에 있어서,
    상기 가이드 RNA는 가이드 서열의 3'-말단에 연결된 U-rich tail 서열을 포함하고, 상기 U-rich tail은 5'-(UmV)nUo-3'로 표시되고, 여기서 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수인
    가이드 RNA.
  60. 제57항에 있어서,
    상기 스캐폴드 영역은 5'-말단부터 순차적으로 제1 스템-루프 영역, 제2 스템-루프 영역, 제3 스템-루프 영역, 제4 스템-루프 영역 및 tracrRNA-crRNA 상보성 영역을 포함하는 야생형 Cas12f1 가이드 RNA 서열의 스캐폴드 영역과 50% 이상 서열 동일성을 갖는 뉴클레오티드 서열을 포함하고, 상기 야생형 Cas12f1 가이드 RNA 서열에 대해 하기 (1) 내지 (4)로 이루어진 군에서 선택되는 하나 이상의 변형을 포함하는
    가이드 RNA:
    (1) 제1 스템-루프 영역의 일부 또는 전부의 결실;
    (2) 제2 스템-루프 영역의 일부 또는 전부의 결실;
    (3) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실; 및
    (4) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환.
  61. 제60항에 있어서,
    상기 야생형 Cas12f1 가이드 RNA는 서열번호 175의 핵산 서열을 포함하는 tracrRNA 및 서열번호 176의 핵산 서열을 포함하는 crRNA를 포함하는
    가이드 RNA.
  62. 제60항에 있어서,
    상기 스캐폴드 영역은 하기 식 (I)로 표시되는 서열과 80% 이상 서열 동일성을 갖는 서열을 포함하는
    가이드 RNA:
    Figure PCTKR2023004330-appb-img-000016
    식 (I)에서,
    Xa는 서열번호 178의 핵산 서열 또는 서열번호 178의 서열에서 1 내지 20개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
    Xb1은 서열번호 189의 핵산 서열 또는 서열번호 189의 서열에서 1 내지 13개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
    Xb2는 서열번호 193의 핵산 서열 또는 서열번호 193의 서열에서 1 내지 14개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
    Xc1은 서열번호 203의 핵산 서열 또는 서열번호 203의 서열에서 1 내지 28개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
    Xc2는 서열번호 222의 핵산 서열 또는 서열번호 222의 서열에서 1 내지 27개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
    Lk는 길이 2 내지 20의 폴리뉴클레오티드 링커이거나 부존재한다.
  63. 제62항에 있어서,
    상기 Xc1 서열 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 이들 중 하나 이상의 U가 A, G 또는 C로 치환되는 변형을 포함하는
    가이드 RNA.
  64. 제62항에 있어서,
    Xa 핵산 서열의 결실, Xb1 및 Xb2 핵산 서열의 결실 및/또는 Xc1 및 Xc2 핵산 서열의 결실은 하나 이상의 상보적인 뉴클레오티드 쌍의 결실을 포함하는
    가이드 RNA.
  65. 제62항에 있어서,
    상기 식 (I)에서 서열 5'-Xb1UUAGXb2-3'은 서열번호 198 내지 서열번호 202 및 5'-UUAG-3'로 이루어진 군에서 선택되는
    가이드 RNA.
  66. 제62항에 있어서,
    상기 식 (I) 내의 서열 5'-Xc1-Lk-Xc2-3'은 서열번호 244 내지 서열번호 250 및 5'-Lk-3'으로 이루어진 군에서 선택되는
    가이드 RNA.
  67. 제62항에 있어서,
    상기 스캐폴드 영역은 서열번호 251 내지 서열번호 296으로 이루어진 군에서 선택된 핵산 서열로 이루어진 엔지니어링된 tracrRNA를 포함하고/거나
    서열번호 297 내지 서열번호 304로 이루어진 군에서 선택된 핵산 서열로 이루어진 엔지니어링된 crRNA을 포함하는
    시스템.
  68. 제57항에 있어서,
    상기 가이드 RNA는 싱글 가이드 RNA인
    가이드 RNA.
  69. 제57항에 있어서,
    상기 가이드 RNA는 서열번호 313 내지 서열번호 350으로 이루어진 군에서 선택된 핵산 서열의 스캐폴드 영역 서열을 포함하는
    가이드 RNA.
  70. 제57항에 있어서,
    상기 가이드 RNA는 서열번호 315 내지 317로 이루어진 군에서 선택된 핵산 서열의 스캐폴드 영역 서열을 포함하는
    가이드 RNA.
  71. 제57항 내지 제70항 중 어느 한 항에 따른 가이드 RNA를 암호화하는 핵산 분자.
  72. 제57항 내지 제70항 중 어느 한 항에 따른 하나 이상의 가이드 RNA를 포함하는 조성물.
  73. 제57항 내지 제70항 중 어느 한 항에 따른 하나 이상의 가이드 RNA 및 Cas12f1 분자를 포함하는 엔도뉴클레아제를 포함하는 조성물.
  74. 제72항 또는 제73항에 있어서,
    상기 조성물은 둘 이상의 가이드 RNA를 포함하고, 적어도 하나의 가이드 RNA는 (i) 서열번호 397 내지 서열번호 445로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 22개 뉴클레오티드 서열 또는 상기 연속된 서열에서 5개 이하의 뉴클레오티드가 상이한 서열을 포함하고, (ii) 적어도 다른 하나의 가이드 RNA는 서열번호 446 내지 서열번호 475로 이루어진 군에서 선택된 핵산 서열에서 연속된 15개 내지 20개 뉴클레오티드 서열 또는 상기 연속된 서열에서 5개 이하의 뉴클레오티드가 상이한 서열을 포함하는
    조성물.
PCT/KR2023/004330 2022-03-30 2023-03-30 어셔 증후군 치료를 위한 유전자 편집 시스템 WO2023191570A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20220039723 2022-03-30
KR10-2022-0039723 2022-03-30
KR20220065600 2022-05-27
KR10-2022-0065600 2022-05-27

Publications (1)

Publication Number Publication Date
WO2023191570A1 true WO2023191570A1 (ko) 2023-10-05

Family

ID=88203200

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/004330 WO2023191570A1 (ko) 2022-03-30 2023-03-30 어셔 증후군 치료를 위한 유전자 편집 시스템

Country Status (2)

Country Link
KR (1) KR20230142365A (ko)
WO (1) WO2023191570A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190058358A (ko) * 2017-11-21 2019-05-29 한국생명공학연구원 CRISPR/Cpf1 시스템을 이용한 유전체 편집용 조성물 및 이의 용도
US20210115419A1 (en) * 2018-03-23 2021-04-22 Massachusetts Eye And Ear Infirmary CRISPR/Cas9-Mediated Exon-Skipping Approach for USH2A-Associated Usher Syndrome
KR20210053228A (ko) * 2019-10-29 2021-05-11 주식회사 진코어 CRISPR/Cas12f1 시스템 효율화를 위한 엔지니어링 된 가이드 RNA 및 그 용도
US20210403905A1 (en) * 2017-12-21 2021-12-30 Crispr Therapeutics Ag Materials and methods for treatment of usher syndrome type 2a

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190058358A (ko) * 2017-11-21 2019-05-29 한국생명공학연구원 CRISPR/Cpf1 시스템을 이용한 유전체 편집용 조성물 및 이의 용도
US20210403905A1 (en) * 2017-12-21 2021-12-30 Crispr Therapeutics Ag Materials and methods for treatment of usher syndrome type 2a
US20210115419A1 (en) * 2018-03-23 2021-04-22 Massachusetts Eye And Ear Infirmary CRISPR/Cas9-Mediated Exon-Skipping Approach for USH2A-Associated Usher Syndrome
KR20210053228A (ko) * 2019-10-29 2021-05-11 주식회사 진코어 CRISPR/Cas12f1 시스템 효율화를 위한 엔지니어링 된 가이드 RNA 및 그 용도

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PENDSE NACHIKET, LAMAS VERONICA, MAEDER MORGAN, PAWLYK BASIL, GLOSKOWSKI SEBASTIAN, PIERCE ERIC A., CHEN ZHENG-YI, LIU QIN: "Exon 13-skipped USH2A protein retains functional integrity in mice, suggesting an exo-skipping therapeutic approach to treat USH2A-associated disease", BIORXIV, 4 February 2020 (2020-02-04), pages 1 - 34, XP093095559, DOI: 10.1101/2020.02.04.934240 *

Also Published As

Publication number Publication date
KR20230142365A (ko) 2023-10-11

Similar Documents

Publication Publication Date Title
WO2021086083A2 (ko) CRISPR/Cas12f1 시스템 효율화를 위한 엔지니어링 된 가이드 RNA 및 그 용도
WO2016021973A1 (ko) 캄필로박터 제주니 crispr/cas 시스템 유래 rgen을 이용한 유전체 교정
WO2019103442A2 (ko) CRISPR/Cpf1 시스템을 이용한 유전체 편집용 조성물 및 이의 용도
WO2019009682A2 (ko) 표적 특이적 crispr 변이체
WO2014065596A1 (en) Composition for cleaving a target dna comprising a guide rna specific for the target dna and cas protein-encoding nucleic acid or cas protein, and use thereof
WO2018034554A1 (ko) 인위적으로 조작된 신생혈관형성 조절 시스템
WO2017188797A1 (ko) In vivo에서 rna-가이드 뉴클레아제의 활성을 고처리량 방식으로 평가하는 방법
WO2018231018A2 (ko) 간에서 목적하는 단백질 발현하기 위한 플랫폼
WO2018088694A2 (ko) 인위적으로 조작된 sc 기능 조절 시스템
WO2022220503A1 (ko) Crispr 시스템을 이용한 유전자 발현 조절 시스템
WO2019066549A2 (ko) 망막 기능장애 질환 치료를 위한 유전자 조작
WO2022075813A1 (ko) Crispr/cas12f1 시스템 효율화를 위한 엔지니어링 된 가이드 rna 및 그 용도
WO2023153845A2 (ko) 상동지정복구를 위한 target 시스템 및 이를 이용한 유전자 편집 방법
WO2023059115A1 (ko) 유전자 편집을 위한 target 시스템 및 이의 용도
WO2020235974A2 (ko) 단일염기 치환 단백질 및 이를 포함하는 조성물
WO2023191570A1 (ko) 어셔 증후군 치료를 위한 유전자 편집 시스템
WO2022075816A1 (ko) Crispr/cas12f1(cas14a1) 시스템 효율화를 위한 엔지니어링 된 가이드 rna 및 이의 용도
WO2022075808A1 (ko) Crispr/cas12f1 시스템 효율화를 위한 u-rich tail을 포함하는 엔지니어링 된 가이드 rna 및 그 용도
WO2020022802A1 (ko) 인위적인 유전자 조작을 통한 자가면역질환 치료
WO2023172115A1 (ko) Nhej 복구 경로 조절을 통해 핵산 세그먼트의 결실 효율을 증가시키기 위한 조성물 및 방법
WO2018230976A1 (ko) 반복 확장 돌연변이에 대한 게놈 편집 시스템
WO2020022803A1 (ko) 항응고 인자들의 유전자 에디팅
WO2022240262A1 (ko) Rna-guided nuclease를 이용한 lca10 치료용 조성물 및 치료방법
WO2023229222A1 (ko) 확장된 표적 범위를 갖는 엔지니어링된 cas12f 단백질 및 이의 용도
WO2023282597A1 (ko) 절단비활성 cas12f1, 절단비활성 cas12f1 기반 융합 단백질, 이를 포함하는 crispr 유전자 조절 시스템, 그 제조방법 및 용도

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23781421

Country of ref document: EP

Kind code of ref document: A1