WO2024084124A1 - PROTEÍNA ENDONUCLEASA Cas9 Y SISTEMA CRISPR-Cas ASOCIADO - Google Patents

PROTEÍNA ENDONUCLEASA Cas9 Y SISTEMA CRISPR-Cas ASOCIADO Download PDF

Info

Publication number
WO2024084124A1
WO2024084124A1 PCT/ES2023/070618 ES2023070618W WO2024084124A1 WO 2024084124 A1 WO2024084124 A1 WO 2024084124A1 ES 2023070618 W ES2023070618 W ES 2023070618W WO 2024084124 A1 WO2024084124 A1 WO 2024084124A1
Authority
WO
WIPO (PCT)
Prior art keywords
protein
seq
nucleotide sequence
ehcas9
sequence
Prior art date
Application number
PCT/ES2023/070618
Other languages
English (en)
French (fr)
Inventor
Belén ESQUERRA RUVIRA
Ignacio BAQUEDANO MOZOS
Raúl Ruiz González
Francisco Juan MARTÍNEZ MOJICA
Almudena FERNÁNDEZ LÓPEZ
Lluís MONTOLIU JOSÉ
Original Assignee
Universitat D´Alacant / Universidad De Alicante
Consejo Superior De Investigaciones Científicas (Csic)
Consorcio Centro De Investigación Biomédica En Red
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universitat D´Alacant / Universidad De Alicante, Consejo Superior De Investigaciones Científicas (Csic), Consorcio Centro De Investigación Biomédica En Red filed Critical Universitat D´Alacant / Universidad De Alicante
Publication of WO2024084124A1 publication Critical patent/WO2024084124A1/es

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/195Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • C12N15/907Stable introduction of foreign DNA into chromosome using homologous recombination in mammalian cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]

Definitions

  • the present invention falls within the field of genetic engineering. More specifically, the object of the invention refers to a new Cas9 endonuclease protein and a CRISPR-Cas system that comprises said protein for genetic editing in cells and production of antibacterials.
  • CRISPR-Cas systems have been identified in most archaea and approximately half of bacterial genomes as defense mechanisms against infection by exogenous DNA; that is, plasmids or viruses (bacteriophages). Each system is made up of one or several groups of repeats of DNA sequences called CRISPR (Clustered Regularly Interspaced Short Palindromic Repeats) and a set of genes that encode the Cas proteins (CRISPR associated), whose presence will give rise to the endonucleases responsible for cutting and degrading exogenous DNA.
  • CRISPR Clustered Regularly Interspaced Short Palindromic Repeats
  • 'spacers' non-repeated sequences
  • 'spacers' Adjacent to each group of repeats-spacers there is a sequence called 'leader' where the promoter responsible for the transcription of said group is located in a precursor RNA (pre-crRNA) that covers its entirety.
  • pre-crRNA precursor RNA
  • RNAse ribonuclease
  • CRISPR-Cas systems have become some of the most powerful gene editing tools in the fields of biology, biomedicine and biotechnology. Specifically, they allow the silencing or elimination of genes, mutagenesis, and corrections of specific sequences of the genome of any cell in an easy, fast, and highly precise way [Jian, W. et al. Nat. Biotechnol., 2013, 31 (3), 233-239; Mali, P. et al. Science, 2013, 339 (6121), 823-826], Among its numerous applications, the diagnosis and treatment of diseases stands out [Srivastava, S., Upadhyay, DJ, & Srivastava, A. Front. Mol.
  • Class 2 - Type II CRISPR-Cas systems are the most widely used as a gene editing tool due to the high efficiency rate of the Cas9 endonuclease.
  • the guide RNA consists of two RNA molecules partially paired with each other, forming a tracrRNA:crRNA hybrid, which comprises the activating sequence tracrRNA, a small non-coding RNA with two functions. critical: trigger the processing of the pre-crRNA by the enzyme RNase Ill and, subsequently, serve as a link between the crRNA and Cas9 to direct it towards the target sequence of the double-stranded DNA that it must degrade.
  • the Cas9:crRNA:tracrRNA complex scans said DNA in search of a short sequence (1-10 nucleotides) called PAM (Protospacer Adjacent Motif), which is located 3-4 nucleotides downstream of the cutting site. of Cas9.
  • PAM Protospacer Adjacent Motif
  • tracrRNA:crRNA:DNA and Cas9 the HNH domain of the NUC lobe will approach the complementary strand of the target sequence, causing its cleavage, and the same will occur with the RuvC domain with the non-complementary strand. As a consequence, a double strand break (DSB) will take place between both domains.
  • sgRNA RNA molecule
  • Cas9 proteins can be used to guide Cas9 proteins [Jinek, M. et al. (2012). Science, 337(6096), 816-821], which combines part of the crRNA and tracrRNA sequences.
  • the present invention is aimed at solving the limitation stated above by means of a new Cas9 endonuclease protein of small size ( ⁇ 120 kDa), suitable for use in various molecular biology tools for genetic engineering equivalent to those implemented with other Cas9 endonucleases, as well as for the production of sequence-specific antimicrobials.
  • the present invention solves the problem of the state of the art exposed in the previous section by providing a Cas9 endonuclease protein with a size that facilitates its administration to both pro- and euca-notic cells using vectors commonly used in biotechnology and biomedicine; that is, plasmids or bacteriophages, in the case of bacteria, and adeno-associated viruses (AAV), for mammalian cells.
  • vectors commonly used in biotechnology and biomedicine that is, plasmids or bacteriophages, in the case of bacteria, and adeno-associated viruses (AAV), for mammalian cells.
  • AAV adeno-associated viruses
  • the present invention relates to a Cas9 endonuclease protein comprising an amino acid sequence according to SEQ ID NO: 1 (hereinafter, “protein of the present invention”).
  • the protein of the invention comprises an amino acid sequence with at least 70% sequence identity with SEQ ID NO: 1.
  • sequence identity will be understood as the degree of similarity between two nucleotide or amino acid sequences, expressed as a percentage, which is obtained by aligning said sequences. This will depend on the number of nucleotides or common residues between the aligned sequences. It is determined by well-established bioinformatics programs in the state of the art, such as BLAST (Basic Local Alignment Search Tool) or FASTA.
  • sequences analogous, derived or equivalent to SEQ ID NO: 1 that comprise at least one amino acid residue altered by an insertion, substitution, deletion, or chemical modification of an amino acid with respect to the amino acid sequence of the protein of the present invention.
  • the protein of the present invention comprises an amino acid sequence according to SEQ ID NO: 5.
  • the amino acid sequence comprises an insertion of at least one amino acid.
  • “insertion” will be understood as any type of mutation in the amino acid sequence of the protein of the present invention that involves the addition of one or more amino acids.
  • the amino acid sequence identified as SEQ ID NO: 5 comprises an insertion of 19 amino acids after the first amino acid of the sequence identified as SEQ ID NO: 1.
  • the protein of the present invention comprises an amino acid sequence according to SEQ ID NO: 7.
  • the amino acid sequence comprises a substitution of at least one amino acid and an insertion of at least one amino acid.
  • substitution will be understood as any type of mutation in the amino acid sequence of the protein of the present invention that involves the replacement of one or more amino acids.
  • the amino acid sequence identified as SEQ ID NO: 7 comprises the T2A mutation and an insertion of 11 amino acids at the end of the sequence identified as SEQ ID NO: 1.
  • the present invention relates to a nucleotide sequence encoding the protein of the present invention (hereinafter, “nucleotide sequence of the present invention”).
  • nucleotide sequence of the present invention encoding the protein of the present invention
  • nucleotide sequence that encodes the protein of the present invention will be understood as any nucleotide sequence that, under adequate expression control, is capable of transcribing and translating the amino acid sequence of the protein. of the present invention.
  • the nucleotide sequence of the present invention comprises the nucleotide sequence identified as SEQ ID NO: 2.
  • nucleotide sequence of the present invention comprises the nucleotide sequence identified as SEQ ID NO: 4.
  • nucleotide sequence of the present invention comprises the nucleotide sequence identified as SEQ ID NO: 6.
  • nucleotide sequence of the present invention comprises the nucleotide sequence identified as SEQ ID NO: 8.
  • the present invention relates to an expression vector comprising the nucleotide sequence of the present invention (hereinafter, “expression vector of the present invention”).
  • expression vector will be understood as any DNA molecule that can be used as a vehicle to transport the nucleotide sequence of the present invention into a host cell.
  • the expression vector of the present invention may comprise a single-stranded, double-stranded or partially double-stranded nucleic acid molecule; a DNA, RNA, or DNA:RNA hybrid molecule.
  • Examples of expression vectors are plasmids and bacteriophages or phages.
  • the expression vector of the present invention comprises a nucleotide sequence according to SEQ ID NO: 2.
  • the expression vector of the present invention comprises a nucleotide sequence according to SEQ ID NO: 4.
  • the expression vector of the present invention comprises a nucleotide sequence according to SEQ ID NO: 6.
  • the expression vector of the present invention comprises a nucleotide sequence according to SEQ ID NO: 8.
  • the present invention relates to a cell comprising the protein of the present invention, and/or the nucleotide sequence of the present invention, and/or the expression vector of the present invention (hereinafter, “cell of the present invention”).
  • “cell” will be understood as any basic, structural and functional unit of a living being susceptible to one or more of the following genetic alterations: transformation (direct absorption, incorporation and expression of the nucleotide sequence of the present invention), transfection or transduction (introduction of external genetic material using the expression vector of the invention), and translocation (introduction of the protein of the present invention into the ribosome).
  • the cell of the present invention comprises a protein with an amino acid sequence with at least 70% sequence identity with SEQ ID NO: 1.
  • the cell of the present invention comprises a protein with an amino acid sequence according to SEQ ID NO: 5.
  • the cell of the present invention comprises a protein with an amino acid sequence according to SEQ ID NO: 7.
  • the cell of the present invention comprises a nucleotide sequence according to SEQ ID NO: 2.
  • the cell of the present invention comprises a nucleotide sequence according to SEQ ID NO: 4.
  • the cell of the present invention comprises a nucleotide sequence according to SEQ ID NO: 6.
  • the cell of the present invention comprises a nucleotide sequence according to SEQ ID NO: 8.
  • the cell of the present invention comprises an expression vector that in turn comprises a nucleotide sequence according to SEQ ID NO: 2.
  • the cell of the present invention comprises an expression vector that in turn comprises a nucleotide sequence according to SEQ ID NO: 4. In another preferred embodiment, the cell of the present invention comprises an expression vector that in turn comprises a nucleotide sequence according to SEQ ID NO: 6.
  • the cell of the present invention comprises an expression vector that in turn comprises a nucleotide sequence according to SEQ ID NO: 8.
  • the present invention relates to a CRISPR-Cas system comprising a guide RNA and the protein of the present invention (hereinafter, “CRISPR-Cas system of the present invention”).
  • CRISPR-Cas system will be understood as any system that includes the elements involved in the expression and/or activity of the genes associated with said system, including both the nucleotide sequence/s /s that is transcribed to generate the guide RNA as the nucleotide sequence that encodes the protein of the present invention.
  • guide RNA means any single-stranded, double-stranded or partially double-stranded RNA construct that associates with the protein of the present invention and that comprises a ribonucleotide sequence complementary to a cell-specific DNA sequence (“target sequence”). ”); that is, it forms hydrogen bonds with the nitrogenous bases of the nucleotides of the target sequence.
  • said guide RNA comprises two RNA molecules, tracrRNA and crRNA, partially complementary to each other forming the tracrRNA:crRNA hybrid, or a partially double-stranded RNA molecule (sgRNA).
  • sgRNA partially double-stranded RNA molecule
  • the CRISPR-Cas system of the present invention comprises a protein with an amino acid sequence with at least 70% sequence identity with SEQ ID NO: 1.
  • the CRISPR-Cas system of the present invention comprises a protein with an amino acid sequence according to SEQ ID NO: 5.
  • the CRISPR-Cas system of the present invention comprises a protein with an amino acid sequence according to SEQ ID NO: 7.
  • the CRISPR-Cas system of the present invention comprises a guide RNA from the transcription of a nucleotide sequence according to SEQ ID NO: 3.
  • the present invention relates to the use of the protein of the present invention, and/or the nucleotide sequence of the present invention, and/or the expression vector of the present invention, and/or the cell of the present invention, and/or the CRISPR-Cas system of the present invention for: genetic modification, regulation of gene expression and/or in vivo visualization of specific nucleotide sequences; and/or the molecular diagnosis of diseases; and/or the production of sequence-specific antimicrobials.
  • FIG. 1 shows a schematic representation of the CRISPR-EHCas9 locus and the domains of the EHCas9 protein (hereinafter, protein of the present invention).
  • the CRISPR-EHCas9 locus comprises three cas genes in the order cas9 (termed ehcasd) - almost - cas2 (represented by rectangles pointing in the direction of transcription) and two CRISPR units of 36 base pairs (bp; white rectangles) separated by a 29 bp spacer (rhombus).
  • the location of a possible tracrRNA gene is represented as an arrow pointing in the direction of transcription.
  • the ehcas9 gene encodes the protein of the present invention, whose structure comprises the following domains: RuvC (motifs I, II and III), Bridge Helix (BH), recognition (REC), HNH nuclease, Phosphate Lock Loop (PLL), WED and interaction with PAM (Pl).
  • Figure 2A shows the sequence alignment of the protein of the present invention, SEQ ID NO: 1, with that of the closest structurally characterized ortholog, corresponding to Corynebacterium diphtheriae (CdCas9; protein database ID 6JOO).
  • the boundaries of the RuvC domains (RuvCI-l II motifs), Bridge Helix (BH), Recognition (REC), HNH, Phosphate Lock Loop (PLL), WED and interaction with PAM (PI) of CdCas9 are indicated by bars below the sequence.
  • Figure 2B shows the multiple alignment of SEQ ID NO: 1 with the sequence of the structurally characterized orthologs: CjCas9, Campylobacter jejuni', NmCas9, Neisseria meningitidis 8013; StCas9, Streptococcus thermophilus LMD9; SaCas9, Staphylococcus aureus, SpCas9, Streptococcus pyogenes. Some of the amino acid positions of SEQ ID NO: 1 are listed. The RuvC catalytic site is shaded and the HNH catalytic site is shown in bold and underlined. In both figures, conserved positions are marked with an asterisk.
  • Figure 3 shows the evolutionary relationship of the protein of the present invention through the phylogenetic tree of said protein and 798 orthologous proteins. Cyates II, III, IV and V belong to subtype ll-A, cyates I to subtype ll-B and cyates VI, Vil, VIII, IX and X to subtype ll-C.
  • Sulfitobacter donghicola Cas9 Sulfitobacter donghicola Cas9 (SdoCas9) and orthologs commonly used for genome editing (SaCas9: Staphylococcus aureus Cas9; SpCas9: Streptococcus pyogenes Cas9; NmCas9: Neisseria meningitidis Cas9; CjCas9: Campylobacter jejuni Cas9; CdCas9: Corynebacterium diphteriae Cas9; StCas9: ccus thermophilus Cas9) are labeled in their approximate position in the tree.
  • Figure 4 shows the maps of the main plasmids constructed in this invention.
  • Figure 4A shows the map of plasmid pMML02, which includes a gene that confers chloramphenicol resistance (CmR), a gene that encodes the protein of the present invention under the control of the pBAD promoter, and a CRISPR cluster consisting of two repeats of 36 bp and a 29 bp spacer targeting the pSEVA plasmid. Transcription from the CRISPR cluster is controlled by a constitutive promoter (Part:BBa_J23101) and terminates in an artificial terminator (Part: BBa_B1006).
  • a constitutive promoter Part:BBa_J23101
  • Part: BBa_B1006 an artificial terminator
  • Figure 4B shows the map of plasmid pMML03, which includes a gene that confers ampicillin resistance (AmpR) and the intergenic region of the CRISPR-Cas9 system of the present invention where the coding sequence of EH tracrRNA is located under the control of the promoter. lactose Part:BBa_R0010 (lac promoter).
  • Figure 4C shows the map of plasmid pMML09, which includes a gene that confers chloramphenicol resistance (CmR), the gene that encodes the protein of the present invention under the PBAD promoter (Part:BBa_IO5OO), and the coding region of EH sgRNA .
  • the sword region of the EH sgRNA matches a sequence of the E.
  • FIG. 4D shows the map of the plasmid pMML12, which includes genes that confer resistance to kanamycin (KanR) and ampicillin (AmpR) and the gene that encodes the protein of the present invention with codon usage optimized for human cells (humanized EHCas9), fused to a coding sequence of a nuclear localization signal (SV40 NLS), under the control of the human cytomegalovirus promoter (CMV promoter, Part:BBa_K2605001).
  • KanR kanamycin
  • AmpR ampicillin
  • CMV promoter human cytomegalovirus promoter
  • Figure 4E shows the map of plasmid pMML13, which includes a gene conferring ampicillin resistance (AmpR) and a gene under the control of a U6 promoter (R1 LP2N), which encodes the EH sgRNA constant region and an exchangeable sword zone. , flanked by Esp3l restriction sites.
  • Figure 4F shows the map of plasmid pMML22, which includes a gene that confers kanamycin resistance (KanR) and a gene with codon usage optimized for E. coli that encodes the protein of the present invention fused at the N-terminus with a tail of 6 histidines (6xHis). Transcription of the ehcas9-6xhis gene is under the control of a T7 promoter (Part: BBaJ 719005).
  • Figure 5 shows the screening and validation of PAM.
  • A Sequence logo of the PAM region preferred by the protein of the present invention for target cleavage, as determined by in vivo screening of a PAM library. The positions of the nucleotides from the 3' end of the target sequence (strand matching the spacer) are indicated. Nucleotides from positions 2 to 4 were tested (the first position remained unchanged, corresponding to thymine).
  • B Logo of the consensus PAM sequence preferred by the protein of the present invention for target cleavage as determined by in vitro screening. The positions of the nucleotides from the 3' end of the target sequence are indicated. In this case, the nucleotides from positions 1 to 7 were tested.
  • C Validation of PAM in vivo.
  • the transformation efficiency (number of colony forming units - CFU - per pg of plasmid DNA) of E. coli cells expressing (+ EHCas9) or not (- EHCas9) the protein of the present invention in addition to an EH crRNA guide and the predicted EH tracrRNA, with plasmids carrying a target adjacent to sequences varying at positions 2, 3, and 4 (ACC, GGA, GGC, GGG, GGT) of the PAM region. Data are the mean of three replicates (error bars correspond to the standard deviation).
  • FIG. 6 shows the schematic of the EH sgRNA that includes a generic 23-nucleotide (nt) spacer paired with the target strand on a DNA substrate containing a sequence matching the spacer and a compatible PAM (in italics).
  • the sequence of EH tracrRNA, which comprises the linker (tetraloop 5'-GAAA-3', underlined), the anti- repeat and the two stem-loop-forming segments is highlighted in bold, and the sequence of the repeat region is boxed.
  • Figure 7 shows the result of the SDS polyacrylamide gel electrophoresis of the steps of the purification of the protein of the present invention, which comprises an insertion of 19 amino acids after the first amino acid of the sequence identified as SEQ ID NO:1 , which includes a 6-histidine tail to facilitate its purification (EHCas9- 6xHis; SEQ ID NO: 5). Included are a lysate of bacteria expressing EHCas9-6xHis (Used) and samples of protein extracts purified through the His-binding column (His Column) as well as after gel filtration (Gel Filtration). The size of the bands corresponding to a protein molecular weight marker (M) is indicated. The main band of the protein extracts corresponds to a protein of around 120 kDa.
  • Figure 8 shows the results of agarose gel electrophoresis of reaction products of the protein of the invention obtained by in vitro digestion assays with double-stranded DNA substrates.
  • reactions were carried out under the following standard conditions: for 30 min at +37°C in the presence of 20 mM MgCh and 25 nM of target DNA with PAM 5'-NGG-3', after adding a solution with EHCas9 (0.5 pM) and EH sgRNA (0.5 pM) previously incubated (Preincubated) for 15 min at +37°C.
  • Figure 9 refers to the gene editing of E. coli assisted by the protein of the present invention.
  • Figure 9A shows the schematic of the procedure for the positive selection of E. coli mutants obtained after genetic recombination.
  • Figure 9B shows the result of agarose gel electrophoresis of PCR products obtained from of transformant colonies obtained in pyrF gene editing experiments (GDI). The colonies arise from the co-transformation of a recombination template (recombination would result in a 0.6 kbp deletion in pyrF), and a plasmid encoding EHCas9 and an EH sgRNA directed to a target sequence in the pyrF gene.
  • GDI pyrF gene editing experiments
  • EHCas9 or with an equivalent plasmid but that only encodes the EH sgRNA (-EHCas9).
  • Each lane corresponds to a randomly chosen colony.
  • the size of relevant bands of a DNA molecular weight marker (M, in kbp) and the expected positions for the bands corresponding to the amplicon of the original pyrF gene (ca. 1 kbp; Wild) and that of the gene with the deletion are indicated. (ca. 0.5 kpb; Mu ⁇ ante).
  • Figure 10 refers to gene editing in mouse N2a cell cultures assisted by the protein of the present invention.
  • Figure 10A shows the schematic of the gene editing procedure.
  • FIG. 10C shows the alignment of the 10 most frequent alleles revealed for the Oca2.3 target in the experiments with the CRISPR-EHCas9 system of the invention. Deletion codes are listed in the left column (e.g., -2:1 D, deletion of a nucleotide at position -2 relative to the cleavage site). The position of the preferential cleavage site of EHCas9 is shown with a dashed line. The sequence of the original target region (Oca2.3) is included in the first line. The target and PAM regions are marked with underlined letters and in a box, respectively. The frequency of each allele (%) is represented in the right column as an average percentage of 3 replicates.
  • Figure 11 shows the growth of mouse N2a cells expressing components of the protein of the present invention, EHCas9, and the Cas9 protein of the Streptococcus pyogenes bacteria, SpCas9.
  • A Count of nucleated cells without transfected (No plasmid) and transfected with 200 ng, 150 ng or 100 ng of plasmids encoding SpCas9 or EHCas9.
  • C DAPI staining of untransfected cells (N2a) and cells transfected with plasmids encoding SpCas9 or EHCas9. DETAILED DESCRIPTION OF THE INVENTION
  • the present invention provides a Cas9 endonuclease protein with a size that facilitates its administration to both bacteria and mammalian cells using vectors commonly used in biotechnology and biomedicine for their gene editing.
  • the protein of the present invention comprises an amino acid sequence according to SEQ ID NO:1 (hereinafter, “EHCas9”).
  • EHCas9 amino acid sequence according to SEQ ID NO:1
  • the bacterial strains, plasmids, and oligonucleotides used in the examples of the present invention are those listed in Tables 1, 2 and 3, respectively.
  • E. coli cultures were grown at +37°C in Luria-Bertani (LB) liquid medium with orbital shaking at 180 rpm, or on LB agar.
  • LB Luria-Bertani
  • media were supplemented with chloramphenicol (25 pg/ml), ampicillin (100 pg/ml), spectinomycin (50 pg/ml), or kanamycin (50 pg/ml), as appropriate.
  • E. coli NZYStar NZYTech
  • E. coli TOP10 Invitrogen
  • Plasmids were isolated from E. coli using the PureLinkTM HiPure Plasmid Midiprep Kit or the PureLinkTM HiPure Plasmid Miniprep Kit (Invitrogen). PCR products and DNA fragments were purified using the GFXTM PCR DNA and Gel Band Purification Kit (Cytiva).
  • the concentration and purity of nucleic acid solutions were estimated with a NanoDrop ND-1000 spectrophotometer (Thermo Scientific), and their integrity was assessed by agarose gel electrophoresis.
  • a NanoDrop ND-1000 spectrophotometer Thermo Scientific
  • agarose gel electrophoresis To visualize DNA molecules electrophoresed in agarose gel, gels containing GreenSafe premium (NZYTech) were imaged using ChemiDoc XRS+ Gel Imaging System (BIORAD).
  • the 1 Kb Plus DNA Ladder molecular weight marker (Invitrogen) was included in the agarose gels to estimate the size of the DNA fragments.
  • Example 1 Identification and characterization of the protein of the invention with amino acid sequence according to SEQ ID NO:1
  • 'EHCas9' For the identification and characterization of the protein of the present invention with amino acid sequence according to SEQ ID NO: 1 (hereinafter, 'EHCas9'), the inventors collected water samples in a lagoon of the 'El Hondo' Natural Park (EH ) in Spain. These samples were prefiltered through filter paper and a 5 pm pore size Durapore® membrane filter (Merk). Subsequently, sequential filtration was performed through a 0.22 pm pore size Durapore® membrane filter (Merk) and a 30,000 MWCO VIVAFLOW 200 cross-flow ultrafiltration device (Sartorius). The filtered sample was concentrated using a 3K Ultra Amicon® filter (Millipore). DNA was purified from the concentrate using the PureLink® Viral RNA/DNA Mini kit (Invitrogen).
  • DNA sequencing was performed using Illumina HiSeq. Low quality reads were eliminated with the PRINSEQ-lite program [Schmieder, R., & Edwards, R. (2011). Bioinformatics, 27(6), 863-864], using the settings: minjength: 50, trim_qual_right: 30, trim_qual_type: mean and trim_qual_window: 20. Eukaryotic sequences were then identified by BLASTn searches (options: -taxidlist: taxid: 2759, -evaluate: 0.005) against the National Center for Biotechnology Information (NCBI; https://blast.ncbi.nlm.nih.gov/Blast.cgi) database.
  • NCBI National Center for Biotechnology Information
  • HMM Hidden Markov Models
  • FIG. 1 shows a schematic representation of the CRISPR-EHCas9 locus and the associated EHCas9 protein domains.
  • the CRISPR-EHCas9 locus comprises three cas genes, in the order cas9 (termed ehcas9) - almost - cas2 (represented by rectangles pointing in the direction of transcription), and an EHCRISPR cluster consisting of two 36 bp repeats with sequence SEQ ID NO: 71 (white rectangles) separated by a 29 bp spacer (diamond).
  • ehcas9 Upstream of ehcas9, a putative tracrRNA gene (represented with an arrow pointing in the direction of transcription in Figure 1) was identified as a -100 bp region, flanked by a Rho-independent promoter and terminator, containing an anti-repeat sequence (partially complementary to the associated CRISPR units).
  • the ehcas9 gene encodes the EHCas9 protein, whose structure comprises the following domains: RuvC (motifs I, II and III), Bridge Helix (BH), recognition (REC), HNH nuclease, Phosphate Lock Loop (PLL), WED and interaction with PAM (Pl).
  • EHCas9 is in the range of the smallest orthologs, presenting a total length of 1,070 aa and a mass of approximately 120 kDa. This allows the administration of the coding sequences of the EHCas9 tool to eukaryotic cells using a size-restricted vector, such as adeno-associated viruses (AAV), commonly used in biomedicine. Furthermore, their small size may also facilitate the administration of inactive nuclease derivatives fused to peptides with different DNA-related activities, as has been done with dead-Cas9 (dCas9) proteins.
  • AAV adeno-associated viruses
  • the evolutionary relationship of EHCas9 was analyzed by reconstructing a phylogenetic tree including 798 orthologous Cas9 protein sequences ( Figure 3). Specifically, a multiple alignment was carried out between SEQ ID NO: 1 and the sequences of a database of Cas9 orthologs compiled by Gasiunas et al. [Nat. Commun. 2020, 11 (1), 1-10] through the MUSCLE program. The phylogenetic tree was generated from the alignments with the Fast Tree program using a JTT evolutionary model and a discrete gamma model, obtaining the conclusion that the EHCas9 protein belongs to cyado IX of subtype ll-C and is distantly related to the Cas9 proteins. commonly used in genome editing, with Cas9 from S. donghicola (SdoCas9) being the most closely related of the biochemically characterized orthologs. Table 4. Relevant characteristics of the native Cas9 proteins used in editing mammalian cells.
  • Example 2 In vivo detection and validation of PAM and determination of guide RNA requirements for EHCas9-mediated DNA cleavage.
  • plasmid pMMLOI negative control for EHCas9 activity
  • pBAD33 an EH CRISPR cluster formed by two separate 36-bp-long repeats. for a 29 bp spacer.
  • Another plasmid derived from pBAD33 was designed that also carries the ehcas9 gene (pMML02, Figure 4A), and a plasmid based on pUC57 that contains a 300 bp long insert spanning the coding sequence of EH tracrRNA (pMML03, Figure 4B).
  • pMML02 To construct pMML02, an ehcas9 gene whose codons were optimized for expression in E. coli (SEQ ID NO:4) under inducible promoters was cloned into the vector, together with a CRISPR cluster formed by a spacer flanked by two repeats, transcribed to from a constitutive promoter (Part:BBa_J23101, BioB ⁇ cks collection) and the BBa_B1006 terminator sequence, acquired as G blocks from NZYTech, such that ehcas9 is under the control of the PBAD arabinose promoter.
  • the insert synthesized by NZYtech as a G block was cloned under the T7 (lac/IPTG-inducible) promoter of the vector.
  • Transformants carrying plasmids pSEVA431 derivatives were selected on LB agar supplemented with spectinomycin and plasmids were isolated from ca. 10 5 colonies.
  • the region of the plasmid flanking the PAM was amplified by PCR using SEQ ID NO: 24 and SEQ ID NO: 25 as primers (see Table 3), and sequenced by massive sequencing (HTS) with the Illumina NovaSeq PE250 sequencing system ( Novagene).
  • the proportion of reads with each specific PAM sequence obtained from cells carrying pMML02 was compared with the values corresponding to cells carrying the negative control pMMLOI to estimate their Iog2 fold change.
  • PAM sequences with an Iog2 value greater than 7 were used to generate sequence logos with the WebLogo application (https://weblogo.berkeley.edu/logo.cgi).
  • EH sgRNA an sgRNA
  • a 118-nt long EH sgRNA was conceived, composed of a 23-nt variable sword region and a 95-nt constant sequence (SEQ ID N0:3) consisting of a truncated repeat of 18 nt, a linker of 4 nt (tetraloop 5'-GAAA-3') and a fragment of the EH tracrRNA of 73 nt containing the anti-repeat followed by a sequence that presumably adopts two stem-loop structures ( Figure 6).
  • transformation assays were carried out with plasmids equivalent to those used for the detection of PAM in vivo, but instead of a PAM library, plasmids were used.
  • individual pMML04-07; see Table 2) containing in this case the target sequence adjacent to 5'-TGGCG-3', 5'-TGGTG-3', 5'-TGGAG-3' or 5'-TGGGG-3 ' (Table 5).
  • the 5'-TACCG-3' motif was analyzed as a control in the absence of PAM.
  • Example 3 Purification of the protein of the present invention with amino acid sequence according to SEQ ID NO: 5.
  • the ehcas9 gene with codon usage optimized for E. coli was fused to an N-terminal tail of six histidines ( SEQ ID NO: 6) under a lac/IPTG-inducible promoter in a pHTP1 vector, generating plasmid pMML22 ( Figure 4F).
  • E. coli BL21 (DE3) previously transformed with pMML22 was grown at +37°C in LB supplemented with kanamycin.
  • the eluted fraction was concentrated to a volume of 1 ml in digestion buffer (50 mM phosphate buffer pH 7.6, 150 mM NaCl, 5% glycerol, 10 mM B-mercaptoethanol) using Amicon Ultra filters (Millipore) and loaded onto a HiLoadTM 16/600 SuperdexTM 200 pg filtration gel (Cytiva).
  • the eluted fractions were analyzed by SDS-PAGE and the fraction containing a protein of the expected size for EHCas9 was concentrated as indicated above ( Figure 7).
  • NZYBIue Protein Marker (NZYtech) was used to estimate protein size and protein concentration was measured with QUBIT® 2.0 (Invitrogen).
  • Example 4 In vitro optimization of the reaction conditions required for target cleavage mediated by the protein of the present invention.
  • dsDNA double-stranded DNA
  • EH sgRNA sgRNA coding constant region
  • the amplicon was transcribed with HiSc ⁇ be T7 Quick (NEB) following the manufacturer's instructions, including optional DNase treatment, and the RNA was purified with the Monarch® RNA cleanup kit (NEB). Aliquots of sgRNA were stored at ⁇ 80°C.
  • An 840 bp fragment amplified by PCR from pMML05 (derived from pSEVA431 containing a target with PAM 5'-TGGCG-3') was used as cleavage substrate.
  • pMML05 derived from pSEVA431 containing a target with PAM 5'-TGGCG-3'
  • a fragment of pMML05 containing a target with the sequence 5'-TACCG-3' in the PAM region was amplified (Table 6).
  • Target-specific cleavage guided by EH sgRNA will produce two dsDNA fragments (520 bp and 320 bp in length, respectively).
  • RNA-guided dsDNA cleavage activity was characterized in the presence of MgCl 2 , under different digestion times and temperatures.
  • EHCas9 constant concentrations of EH sgRNA were pre-incubated for 15 min at +37°C with 10 nM to 0.5 pM of EHCas9 and subsequently mixed with a fixed concentration of substrate, so that the protein:sgRNA:substrate molar ratio in the digestion reaction varied from 1:50:2.5 to 20:20:1. Protein concentrations above 0.1 pM produced noticeable digestion products after 30 min, with an EHCas9 concentration of 0.5 pM being chosen for subsequent incubation time and temperature assays (Figure 8B).
  • Example 5 Use of the EHCas9 tool for the positive selection of E. coli cells with edited genome.
  • plasmid pMML09 ( Figure 4C) was constructed, which encodes EHCas9 and an EH sgRNA targeting the chromosomal gene pyrF, from pMML02 by replacing the region between the promoter and the CRISPR cluster terminator with an sgRNA coding sequence containing a spacer that matches a pyrF sequence, located next to the 5'-TGGAT-3' sequence in the PAM region (SEQ ID NO: 76).
  • pMMLIO plasmid lacking ehcas9
  • a 308-bp linear DNA recombination template consisting of pyrF flanking sequences was generated by Gibson assembly, specifically, a 145-bp sequence matching the intergenic region upstream of pyrF and a 163-bp sequence matching the downstream region of the gene.
  • the pyrF region was amplified by PCR from 90 randomly selected colonies (20 from each experiment with the EHCas9-expressing plasmid and 10 from each of the negative control replicates). 1% agarose gel electrophoresis of the PCR products invariably revealed a single band, the size of which corresponded to that of the deleted fragment in the case of clones expressing EHCas9 or to that of the native sequence for the negative control. ( Figure 9B). These results demonstrate the efficacy of EHCas9 as a sequence-specific antibacterial agent and its suitability as a complement for applications that benefit from positive selection of E. coli mutants, including genome editing.
  • Example 6 Genetic editing of mammalian cells mediated by the protein of the present invention.
  • the hCas9 plasmid (Addgene #41815; Mali, P. et al. Science, 2013, 339 (6121), 823-826) carrying the spcas9 gene fused to a localization sequence nuclear (SV40 NLS) controlled by a constitutive cytomegalovirus (CMV) promoter, and the plasmid MLM3636 (Addgene #43860) encoding a compatible sgRNA (Sp sgRNA) under the constitutive U6 promoter, were used as a base to construct equivalent plasmids where the Coding sequences of SpCas9 and Sp sgRNA were replaced by the ehcas9 gene with codon usage optimized for humans (pMML12, Figure 4D) and a constant region of EH sgRNA (pMML13, Figure 4E), respectively (Fig. 10A).
  • plasmid pMML12 carries the ehcas9 gene fused to an plasmids where the Coding sequences of Sp
  • Neuro-2a (N2a) cells from Mus musculus (mouse neuroblasts; ATCC, CLC-131TM) were maintained in Dulbecco's Modified Eagle's Medium (DMEM) supplemented with glucose (Sigma) and 10% fetal bovine serum, 10 mM HEPES pH 7.4, 2 mM L-glutamine, 100 Ul/ml penicillin and 100 pg/ml streptomycin, at +37°C with 5% CO 2 and 95% humidity.
  • DMEM Dulbecco's Modified Eagle's Medium
  • EHCas9 as a gene editing tool was evaluated by analyzing insertions and deletions (INDELs), detected after HTS sequencing of the target region amplified by PCR after co-transfecting plasmids encoding EHCas9 and EH sgRNA into cells. N2a ( Figure 10B).
  • N2a cells were seeded in 24-well plates at a density of A- 10 5 cells/mL per well in a total volume of 500 ⁇ l of DMEM without antibiotics and co-transfected with 1 pg of pMML12 or hCas9 and 500 ng of the plasmid encoding the corresponding sgRNA (pMML18-pMML21 or pMML14-pMML17 respectively). Transfections were performed with Lipofectamine 2000 (Invitrogen), following the manufacturer's instructions. Genomic DNA was extracted from cells collected 72 hours after transfection using the High Pure PCR Template Preparation kit (Roche). Negative controls lacking EH sgRNA were included and equivalent experiments were performed with the components of the SpCas9 tool.
  • amplicons of 300-400 bp were generated by PCR amplification of the regions that miss the target, using 100 ng of N2a genomic DNA as a template.
  • PCR products were sequenced at Novogene using Illumina NovaSeq 6000.
  • Low quality reads and adapters were removed with Trimmomatic v0.39 (parameters: java -jar trimmomatic- 0.39.jar PE ILLUMINACLIP:2:30:10 SLIDINGWINDOW:4 :15 MINLEN:50).
  • Sequencing reads were contrasted with the target sequence using the Bowtie2 v2.4.2 program (87) and converted to BAM file format with the Samtools package [Li,H. et al.
  • the editing efficiency of Oca2.3 was quantified as the proportion of reads with INDELs found in that sample, excluding other sequence variations that could be present in the population due to spontaneous mutations (Figure 10C).
  • the EHCas9 tool gave rise to 0.84% of reads with the modified Oca2.3 sequence, while the editing efficiency found with SpCas9 was 3.92%. It should be noted that the identity and relative frequency of the mutated alleles were similar for both proteins.

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Microbiology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Plant Pathology (AREA)
  • Medicinal Chemistry (AREA)
  • Mycology (AREA)
  • Cell Biology (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

La presente invención se refiere a una proteína endonucleasa Cas9 que comprende una secuencia aminoacídica según SEQ ID NO:1, a la secuencia nucleotídica que codifica dicha proteína, al vector de expresión que comprende dicha secuencia, a la célula que comprende dicha proteína, secuencia, y/o vector, al sistema CRISPR-Cas9 que comprende dicha proteína, al método para editar un genoma usando dicha proteína, y a los usos asociados de la misma para ingeniería genética y producción de antibacterianos.

Description

DESCRIPCIÓN
PROTEÍNA ENDONUCLEASA Cas9 Y SISTEMA CRISPR-Cas ASOCIADO
CAMPO DE LA INVENCIÓN
La presente invención se enmarca en el campo de la ingeniería genética. Más concretamente, el objeto de la invención se refiere a nueva proteína endonucleasa Cas9 y a un sistema CRISPR-Cas que comprende dicha proteína para la edición genética en células y producción de antibacterianos.
ANTECEDENTES DE LA INVENCIÓN
Los sistemas CRISPR-Cas se han identificado en la mayoría de las arqueas y aproximadamente la mitad de los genomas de bacterias como mecanismos de defensa contra la infección por ADN exógeno; esto es, plásmidos o virus (bacteriófagos). Cada sistema está constituido por una o varias agrupaciones de repeticiones de secuencias de ADN denominadas CRISPR (del inglés Clustered Regularly Interspaced Short Palindromic Repeats) y un conjunto de genes que codifican las proteínas Cas (del inglés CRISPR associated), cuya presencia dará lugar a las endonucleasas encargadas de cortar y degradar el ADN exógeno. Dichas repeticiones se encuentran regularmente espaciadas dentro de cada agrupación por secuencias no reiteradas denominadas ‘espaciadores’, al menos algunas de las cuales derivan de fragmentos genéticos de origen extracromosómico que el microorganismo adquiere tras entrar por primera vez en contacto con un patógeno. Adyacente a cada agrupación de repeticiones-espaciadores hay una secuencia denominada ‘líder’ donde se localiza el promotor responsable de la transcripción de dicha agrupación en un ARN precursor (pre-crRNA) que abarca la totalidad de la misma. Este pre-crRNA es procesado mediante una ribonucleasa (RNAsa) dando lugar a crRNA maduros, cada uno de los cuales contiene un único espaciador. Cada uno de estos crRNA, comúnmente denominado ‘ARN guía’, aparea con su secuencia complementaria en la molécula de ADN exógeno, activando con ello a una proteína Cas específica que produce la degradación de dicho ADN, protegiendo así a la célula huésped de la infección.
Más allá de su función como sistema natural de inmunidad adaptativa en organismos procariotas, los sistemas CRISPR-Cas se han convertido en unas de las herramientas de edición genética más poderosas en los campos de la biología, la biomedicina y la biotecnología. En concreto, permiten el silenciamiento o la eliminación de genes, mutagénesis, y correcciones de secuencias específicas del genoma de cualquier célula de una manera fácil, rápida, y altamente precisa [Jian, W. et al. Nat. Biotechnol., 2013, 31 (3), 233-239; Mali, P. et al. Science, 2013, 339 (6121), 823-826], Entre sus numerosas aplicaciones destacan el diagnóstico y tratamiento de enfermedades [Srivastava, S., Upadhyay, D. J., & Srivastava, A. Front. Mol. Biosci., 2020, 7, 378; Jolany vangah, S. et al. Biol Proced Online, 2020, 22 (1), 1-14] y la producción de antimicrobianos específicos de secuencia [Bikard, D. et al. Nat. Biotechnol., 2014, 32 (11), 1146-1150],
Los sistemas CRISPR-Cas de Clase 2 - Tipo II (también denominados sistemas CRISPR- Cas9) son los más utilizados como herramienta de edición genética debido a la alta tasa de eficiencia de la endonucleasa Cas9. Además, a diferencia de los sistemas de Clase 1 , el ARN guía (gRNA) consiste en dos moléculas de ARN parcialmente apareadas entre sí, formando un híbrido tracrRNA:crRNA, que comprende la secuencia activadora tracrRNA, un pequeño ARN no codificante con dos funciones críticas: disparar el procesamiento del pre-crRNA por la enzima RNasa Ill y, subsecuentemente, servir como nexo de unión entre el crRNA y Cas9 para dirigirla hacia la secuencia diana del ADN bicatenario que debe degradar. Bajo esta configuración, el complejo Cas9:crRNA:tracrRNA escanea dicho ADN en busca de una secuencia corta (1-10 nucleótidos) llamada PAM (del inglés, Protospacer Adjacent Motif), que se encuentra 3-4 nucleótidos aguas abajo del sitio de corte de Cas9. Cuando el dominio Pl de Cas9 reconoce dicha secuencia PAM, el ADN bicatenario se desestabiliza y ocurre el apareamiento de bases entre el ADN y el crRNA, dando lugar al heterodúplex tracrRNA:crRNA:ADN, de aproximadamente 20 pares de bases, que se posicionará dentro de Cas9 en el surco central entre los lóbulos REC y NUC. Una vez formado este complejo cuaternario (tracrRNA:crRNA:ADN y Cas9) el dominio HNH del lóbulo NUC se aproximará a la cadena complementaria de la secuencia diana provocando su escisión y lo mismo ocurrirá con el dominio RuvC con la cadena no complementaria. Como consecuencia, entre ambos dominios tendrá lugar un corte de doble cadena (DSB, por sus siglas en inglés). Como alternativa a la guía dual nativa tracrRNA:crRNA, para guiar a las proteínas Cas9 se puede utilizar una molécula de ARN (sgRNA) [Jinek, M. et al. (2012). Science, 337(6096), 816-821], que combina parte de las secuencias del crRNA y el tracrRNA.
De entre todos los sistemas CRISPR-Cas9 destacan los basados en la proteína Cas9 de la bacteria Streptococcus pyogenes (SpCas9), que requiere la presencia de una secuencia PAM excepcionalmente corta (5'-NGG-3') para el reconocimiento de la secuencia diana, lo cual supone una gran ventaja respecto a otras proteínas Cas9. Sin embargo, su gran tamaño supone una limitación para su administración, especialmente en ensayos in vivo con células eucañotas. Se requiere, por tanto, la identificación y caracterización bioquímica y funcional de proteínas Cas9 alternativas de menor tamaño.
La presente invención está orientada a resolver la limitación expuesta anteriormente mediante una nueva proteína endonucleasa Cas9 de pequeño tamaño (~120 kDa), apta para su uso en diversas herramientas de biología molecular para ingeniería genética equivalentes a las implementadas con otras endonucleasas Cas9, así como para la producción de antimicrobianos específicos de secuencia.
DESCRIPCIÓN BREVE DE LA INVENCIÓN
La presente invención soluciona el problema del estado de la técnica expuesto en la sección anterior al proporcionar una proteína endonucleasa Cas9 con un tamaño tal que facilita su administración tanto a células procañotas como eucañotas mediante vectores comúnmente empleados en biotecnología y biomedicina; esto es, plásmidos o bacteriófagos, en el caso de las bacterias, y virus adenoasociados (AAV, por sus siglas en inglés), para células de mamíferos. Además, a diferencia de las proteínas Cas9 del estado de la técnica, permite que se puedan incorporar, en tan solo una molécula vector (especialmente en el caso de los AAV), secuencias de elementos genéticos accesorios, como secuencias reguladoras o moldes para la edición genética.
Así pues, en un primer aspecto, la presente invención se refiere a una proteína endonucleasa Cas9 que comprende una secuencia aminoacídica según SEQ ID NO: 1 (de aquí en adelante, “proteína de la presente invención”).
En una realización preferente, la proteína de la invención comprende una secuencia aminoacídica con al menos un 70% de identidad de secuencia con SEQ ID NO: 1. Concretamente, proteínas con una secuencia aminoacídica con al menos un 70, 75, 80, 85, 90, 95 y 100% de identidad de secuencia con SEQ ID NO: 1.
En el ámbito de interpretación de la presente invención, el término “identidad de secuencia” se entenderá como el grado de similitud entre dos secuencias nucleotídicas o aminoacídicas, expresado a modo de porcentaje, que se obtiene al alinear dichas secuencias. Este dependerá del número de nucleótidos o residuos comunes entre las secuencias alineadas. Se determina mediante programas bioinformáticos bien establecidos en el estado de la técnica, tales como BLAST (del inglés, Basic Local Alignment Search Tool) o FASTA.
Se considerarán también dentro de la presente invención aquellas secuencias análogas, derivadas o equivalentes a SEQ ID NO: 1 que comprenden al menos un residuo de aminoácido alterado por una inserción, sustitución, deleción, o modificación química de un aminoácido respecto a la secuencia aminoacídica de la proteína de la presente invención.
En una realización preferente, la proteína de la presente invención comprende una secuencia aminoacídica según SEQ ID NO: 5. En una realización aún más preferente, la secuencia aminoacídica comprende una inserción de al menos un aminoácido. En el ámbito de interpretación de la presente invención, se entenderá por “inserción” cualquier tipo de mutación en la secuencia aminoacídica de la proteína de la presente invención que implique la adición de uno o más aminoácidos. La secuencia aminoacídica identificada como SEQ ID NO: 5 comprende una inserción de 19 aminoácidos tras el primer aminoácido de la secuencia identificada como SEQ ID NO: 1.
En otra realización preferente, la proteína de la presente invención comprende una secuencia aminoacídica según SEQ ID NO: 7. En una realización aún más preferente, la secuencia aminoacídica comprende una sustitución de al menos un aminoácido y una inserción de al menos un aminoácido. En el ámbito de interpretación de la presente invención, se entenderá por “sustitución” cualquier tipo de mutación en la secuencia aminoacídica de la proteína de la presente invención que implique el reemplazo de uno o más aminoácidos. La secuencia aminoacídica identificada como SEQ ID NO: 7 comprende la mutación T2A y una inserción de 11 aminoácidos al final de la secuencia identificada como SEQ ID NO: 1.
En un segundo aspecto, la presente invención se refiere a una secuencia nucleotídica que codifica la proteína de la presente invención (de aquí en adelante, “secuencia nucleotídica de la presente invención”). En el ámbito de interpretación de la presente invención, se entenderá por “secuencia nucleotídica que codifica la proteína de la presente invención” cualquier secuencia de nucleótidos que, bajo un control de expresión adecuado, sea capaz de transcribir y traducir la secuencia aminoacídica de la proteína de la presente invención. En una realización preferente, la secuencia nucleotídica de la presente invención comprende la secuencia nucleotídica identificada como SEQ ID NO: 2.
En otra realización preferente, la secuencia nucleotídica de la presente invención comprende la secuencia nucleotídica identificada como SEQ ID NO: 4.
En otra realización preferente, la secuencia nucleotídica de la presente invención comprende la secuencia nucleotídica identificada como SEQ ID NO: 6.
En otra realización preferente, la secuencia nucleotídica de la presente invención comprende la secuencia nucleotídica identificada como SEQ ID NO: 8.
En un tercer aspecto, la presente invención se refiere a un vector de expresión que comprende la secuencia nucleotídica de la presente invención (de aquí en adelante, “vector de expresión de la presente invención”). En el ámbito de interpretación de la presente invención, se entenderá por “vector de expresión” cualquier molécula de ADN que pueda utilizarse como vehículo para transportar la secuencia nucleotídica de la presente invención al interior de una célula huésped. El vector de expresión de la presente invención puede comprender una molécula de ácido nucleico monocatenaria, bicatenaria o parcialmente bicatenaria; una molécula de ADN, ARN, o híbrida ADN:ARN. Ejemplos de vectores de expresión son los plásmidos y los bacteriófagos o fagos.
En una realización preferente, el vector de expresión de la presente invención comprende una secuencia nucleotídica según SEQ ID NO: 2.
En otra realización preferente, el vector de expresión de la presente invención comprende una secuencia nucleotídica según SEQ ID NO: 4.
En otra realización preferente, el vector de expresión de la presente invención comprende una secuencia nucleotídica según SEQ ID NO: 6.
En otra realización preferente, el vector de expresión de la presente invención comprende una secuencia nucleotídica según SEQ ID NO: 8.
En un cuarto aspecto, la presente invención se refiere a una célula que comprende la proteína de la presente invención, y/o la secuencia nucleotídica de la presente invención, y/o el vector de expresión de la presente invención (de aquí en adelante, “célula de la presente invención”). En el ámbito de interpretación de la presente invención, se entenderá por “célula” cualquier unidad básica, estructural y funcional de un ser vivo susceptible a una o más de las siguientes alteraciones genéticas: transformación (absorción directa, incorporación y expresión de la secuencia nucleotídica de la presente invención), transfección o transducción (introducción de material genético externo mediante el vector de expresión de la invención), y translocación (introducción de la proteína de la presente invención en el interior del ribosoma).
En una realización preferente, la célula de la presente invención comprende una proteína con una secuencia aminoacídica con al menos un 70% de identidad de secuencia con SEQ ID NO: 1.
En otra realización preferente, la célula de la presente invención comprende una proteína con una secuencia aminoacídica según SEQ ID NO: 5.
En otra realización preferente, la célula de la presente invención comprende una proteína con una secuencia aminoacídica según SEQ ID NO: 7.
En otra realización preferente, la célula de la presente invención comprende una secuencia nucleotídica según SEQ ID NO: 2.
En otra realización preferente, la célula de la presente invención comprende una secuencia nucleotídica según SEQ ID NO: 4.
En otra realización preferente, la célula de la presente invención comprende una secuencia nucleotídica según SEQ ID NO: 6.
En otra realización preferente, la célula de la presente invención comprende una secuencia nucleotídica según SEQ ID NO: 8.
En otra realización preferente, la célula de la presente invención comprende un vector de expresión que comprende a su vez una secuencia nucleotídica según SEQ ID NO: 2.
En otra realización preferente, la célula de la presente invención comprende un vector de expresión que comprende a su vez una secuencia nucleotídica según SEQ ID NO: 4. En otra realización preferente, la célula de la presente invención comprende un vector de expresión que comprende a su vez una secuencia nucleotídica según SEQ ID NO: 6.
En otra realización preferente, la célula de la presente invención comprende un vector de expresión que comprende a su vez una secuencia nucleotídica según SEQ ID NO: 8.
En un quinto aspecto, la presente invención se refiere a un sistema CRISPR-Cas que comprende un ARN guía y la proteína de la presente invención (de aquí en adelante, “sistema CRISPR-Cas de la presente invención”).
En el ámbito de interpretación de la presente invención, se entenderá por “sistema CRISPR-Cas” cualquier sistema que comprenda los elementos implicados en la expresión y/o actividad de los genes asociados a dicho sistema, incluyendo tanto la/s secuencia/s nucleotídica/s que se transcribe/n para generar el ARN guía como la secuencia nucleotídica que codifica la proteína de la presente invención.
Asimismo, se entenderá por “ARN guía”, cualquier construcción de ARN monocatenaria, bicatenaria o parcialmente bicatenaria que se asocie con la proteína de la presente invención y que comprenda una secuencia ribonucleotídica complementaria a una secuencia de ADN específica de una célula (“secuencia diana”); esto es, que forma enlaces de hidrógeno con las bases nitrogenadas de los nucleótidos de la secuencia diana.
Preferentemente, dicho ARN guía comprende dos moléculas de ARN, tracrRNA y crRNA, parcialmente complementarias entre sí formando el híbrido tracrRNA:crRNA, o una molécula de ARN parcialmente bicatenaria (sgRNA).
En una realización preferente, el sistema CRISPR-Cas de la presente invención comprende una proteína con una secuencia aminoacídica con al menos un 70% de identidad de secuencia con SEQ ID NO: 1.
En otra realización preferente, el sistema CRISPR-Cas de la presente invención comprende una proteína con una secuencia aminoacídica según SEQ ID NO: 5.
En otra realización preferente, el sistema CRISPR-Cas de la presente invención comprende una proteína con una secuencia aminoacídica según SEQ ID NO: 7. En otra realización preferente, el sistema CRISPR-Cas de la presente invención comprende un ARN guía procedente de la transcripción de una secuencia nucleotídica según SEQ ID NO: 3.
En un sexto aspecto, la presente invención se refiere al uso de la proteína de la presente invención, y/o de la secuencia nucleotídica de la presente invención, y/o del vector de expresión de la presente invención, y/o de la célula de la presente invención, y/o del sistema CRISPR-Cas de la presente invención para: la modificación genética, regulación de expresión génica y/o visualization in vivo de secuencias nucleotídicas concretas; y/o el diagnóstico molecular de enfermedades; y/o la producción de antimicrobianos específicos de secuencia.
Preferentemente, para la modificación genética, regulación de expresión génica y/o visualization in vivo de secuencias nucleotídicas concretas de células eucariotas.
Alternativamente, para la producción de antibacterianos. Preferentemente, para la producción de antibacterianos frente a Escherichia coli.
DESCRIPCIÓN DE LAS FIGURAS
La Figura 1 muestra una representación esquemática del locus CRISPR-EHCas9 y los dominios de la proteína EHCas9 (de aquí en adelante, proteína de la presente invención). El locus CRISPR-EHCas9 comprende tres genes cas en el orden cas9 (denominado ehcasd) - casi - cas2 (representados mediante rectángulos apuntando en el sentido de la transcripción) y dos unidades CRISPR de 36 pares de bases (pb; rectángulos blancos) separados por un espaciador de 29 pb (rombo). La ubicación de un posible gen del tracrRNA se representa como una flecha que apunta en el sentido de la transcripción. El gen ehcas9 codifica la proteína de la presente invención, cuya estructura comprende los siguientes dominios: RuvC (motivos I, II y III), Bridge Helix (BH), de reconocimiento (REC), nucleasa HNH, Phosphate Lock Loop (PLL), WED y de interacción con PAM (Pl).
La Figura 2A muestra el alineamiento de la secuencia de la proteína de la presente invención, SEQ ID NO: 1 , con la del ortólogo estructuralmente caracterizado más cercano, correspondiente a Corynebacterium diphtheriae (CdCas9; ID de la base de datos de proteínas 6JOO). Los límites de los dominios RuvC (motivos RuvCI-l II), Bridge Helix (BH), reconocimiento (REC), HNH, Phosphate Lock Loop (PLL), WED y de interacción con PAM (PI) de CdCas9 se indican mediante barras debajo de la secuencia. La Figura 2B muestra el alineamiento múltiple de SEQ ID NO: 1 con la secuencia de los ortólogos estructuralmente caracterizados: CjCas9, Campylobacter jejuni', NmCas9, Neisseria meningitidis 8013; StCas9, Streptococcus thermophilus LMD9; SaCas9, Staphylococcus aureus, SpCas9, Streptococcus pyogenes. Se enumeran algunas de las posiciones de aminoácidos de SEQ ID NO: 1. El sitio catalítico RuvC está sombreado y el sitio catalítico HNH se muestra en negrita y subrayado. En ambas figuras, las posiciones conservadas están marcadas con un asterisco.
La Figura 3 muestra la relación evolutiva de la proteína de la presente invención mediante el árbol filogenético de dicha proteína y 798 proteínas ortólogas. Los ciados II, III, IV y V pertenecen al subtipo ll-A, el ciado I al subtipo ll-B y los ciados VI, Vil, VIII, IX y X al subtipo ll-C. Cas9 de Sulfitobacter donghicola (SdoCas9) y ortólogos comúnmente utilizados para la edición del genoma (SaCas9: Staphylococcus aureus Cas9; SpCas9: Streptococcus pyogenes Cas9; NmCas9: Neisseria meningitidis Cas9; CjCas9: Campylobacter jejuni Cas9; CdCas9: Corynebacterium diphteriae Cas9; StCas9: Streptococcus thermophilus Cas9) están etiquetados en su posición aproximada en el árbol.
La Figura 4 muestra los mapas de los principales plásmidos construidos en esta invención. La Figura 4A muestra el mapa del plásmido pMML02, que incluye un gen que confiere resistencia a cloranfenicol (CmR), un gen que codifica la proteína de la presente invención bajo el control del promotor pBAD, y una agrupación CRISPR constituida por dos repeticiones de 36 pb y un espaciador de 29 pb con diana en el plásmido pSEVA. La transcripción de la agrupación CRISPR está controlada por un promotor constitutivo (Part:BBa_J23101) y finaliza en un terminador artificial (Part: BBa_B1006). La Figura 4B muestra el mapa del plásmido pMML03, que incluye un gen que confiere resistencia a ampicilina (AmpR) y la región intergénica del sistema CRISPR-Cas9 de la presente invención donde se localiza la secuencia codificante de EH tracrRNA bajo el control del promotor de lactosa Part:BBa_R0010 (promotor lac). La Figura 4C muestra el mapa del plásmido pMML09, que incluye un gen que confiere resistencia a cloranfenicol (CmR), el gen que codifica la proteína de la presente invención bajo el promotor PBAD (Part:BBa_IO5OO), y la región codificante de EH sgRNA. La región espadadora del EH sgRNA coincide con una secuencia del gen cromosómico pyrF de E. coli. La transcripción del gen de EH sgRNA está controlada por un promotor constitutivo (Part:BBa_J23101) y finaliza en un terminador artificial (Part: BBa_B1006). La Figura 4D muestra el mapa del plásmido pMML12, que incluye genes que confieren resistencia a kanamicina (KanR) y a ampicilina (AmpR) y el gen que codifica la proteína de la presente invención con uso de codones optimizado para células humanas (EHCas9 humanizada), fusionado a una secuencia codificante de una señal de localización nuclear (SV40 NLS), bajo el control del promotor del citomegalovirus humano (promotor CMV, Part:BBa_K2605001). La Figura 4E muestra el mapa del plásmido pMML13, que incluye un gen que confiere resistencia a ampicilina (AmpR) y un gen bajo el control de un promotor U6 (R1 LP2N), que codifica la región constante de EH sgRNA y una zona espadadora intercambiable, flanqueada por sitios de restricción Esp3l. La Figura 4F muestra el mapa del plásmido pMML22, que incluye un gen que confiere resistencia a kanamicina (KanR) y un gen con uso de codones optimizado para E. coli que codifica la proteína de la presente invención fusionada en el extremo N-terminal con una cola de 6 histidinas (6xHis). La transcripción del gen ehcas9- 6xhis está bajo el control de un promotor T7 (Part: BBaJ 719005).
La Figura 5 muestra el cribado y validación de PAM. (A) Logotipo de secuencia de la región PAM preferida por la proteína de presente invención para la escisión de la diana, según lo determinado por el cribado in vivo de una genoteca PAM. Se indican las posiciones de los nucleótidos desde el extremo 3’ de la secuencia diana (cadena coincidente con el espaciador). Se ensayaron los nucleótidos de las posiciones 2 a 4 (la primera posición se mantuvo invariable, correspondiendo a timina). (B) Logotipo de la secuencia PAM consenso preferido por la proteína de la presente invención para la escisión de la diana según lo determinado mediante cribado in vitro. Se indican las posiciones de los nucleótidos desde el extremo 3’ de la secuencia diana. En este caso se ensayaron los nucleótidos desde la posición 1 a la 7. (C) Validación de PAM in vivo. La eficiencia de transformación (número de unidades formadoras de colonias - CFU - por pg de ADN plasmídico) de células de E. coli que expresan (+ EHCas9) o no (- EHCas9) la proteína de la presente invención además de un EH crRNA guía y el EH tracrRNA predicho, con plásmidos que portan una diana adyacente a secuencias que varían en las posiciones 2, 3 y 4 (ACC, GGA, GGC, GGG, GGT) de la región PAM. Los datos son la media de tres réplicas (las barras de error corresponden a la desviación estándar).
La Figura 6 muestra el esquema del EH sgRNA que incluye un espaciador genérico de 23 nucleótidos (nt) apareado con la hebra diana en un sustrato de ADN que contiene una secuencia coincidente con el espaciador y un PAM compatible (en cursiva). La secuencia de EH tracrRNA, que comprende el conector (tetraloop 5’-GAAA-3’, subrayado), la anti- repetición y los dos segmentos formadores de tallo-bucle está resaltada en negrita, y la secuencia de la región de la repetición se encuentra recuadrada.
La Figura 7 muestra el resultado de la electroforesis en gel de poliacrilamida SDS de los pasos de la purificación de la proteína de la presente invención, la cual comprende una inserción de 19 aminoácidos tras el primer aminoácido de la secuencia identificada como SEQ ID NO:1 , que incluye una cola de 6 histidinas para facilitar su purificación (EHCas9- 6xHis; SEQ ID NO: 5). Se incluye un lisado de bacterias que expresan EHCas9-6xHis (Usado) y muestras de extractos de proteínas purificadas a través de la columna de unión a His (Columna His) , así como después de la filtración en gel (Filtración en gel). Se indica el tamaño de las bandas correspondientes a un marcador de peso molecular de proteínas (M). La banda principal de los extractos de proteínas corresponde a una proteína de alrededor de 120 kDa.
La Figura 8 muestra los resultados de la electroforesis en gel de agarosa de productos de reacción de la proteína de la invención obtenidos mediante ensayos de digestión in vitro con sustratos de ADN bicatenaños. Por defecto, las reacciones se llevaron a cabo bajo las siguientes condiciones estándar: durante 30 min a +37°C en presencia de 20 mM MgCh y 25 nM de ADN diana con PAM 5’-NGG-3’, tras añadir una solución con EHCas9 (0,5 pM) y EH sgRNA (0,5 pM) previamente incubada (Preincubado) durante 15 min a +37°C. Se indica el tamaño de bandas relevantes de un marcador de peso molecular de ADN (M, en kpb) y la posición correspondiente al sustrato de ADN sin cortar, así como las de los dos fragmentos que se generarían tras su digestión (cortado). (A) Muestras de reacciones de digestión en condiciones estándar utilizando todos los componentes de la reacción con el complejo EHCas9:EH sgRNA preincubado (carril 2) o sin preincubar (carril 7), y en ausencia de algún componente (MgCh, carril 3; diana con PAM, carril 4; EH sgRNA, carril 5; EHCas9, carril 6), tras preincubar (Preincubado; carriles 3 y 4) o sin preincubación (carriles 5 y 6). (B) Muestras de reacciones de digestión en condiciones estándar con diferentes concentraciones de proteína. (C) Muestras de las reacciones de digestión en condiciones estándar salvo por el tiempo de incubación. (D) Muestras de las reacciones de digestión en condiciones estándar excepto para la temperatura de incubación.
La Figura 9 se refiere a la edición genética de E. coli asistida por la proteína de la presente invención. La Figura 9A muestra el esquema del procedimiento para la selección positiva de mutantes de E. coli obtenidos tras recombinación genética. La Figura 9B muestra el resultado de la electroforesis en gel de agarosa de productos de PCR obtenidos a partir de colonias de transformantes obtenidas en experimentos de edición del gen pyrF (GDI). Las colonias provienen de la co-transformación de un molde de recombinación (la recombinación daría lugar a una deleción de 0,6 kpb en pyrF), y un plásmido que codifica para EHCas9 y un EH sgRNA dirigido a una secuencia diana en el gen pyrF (+EHCas9) o con un plásmido equivalente pero que solo codifica el EH sgRNA (-EHCas9). Cada carril se corresponde con una colonia elegida al azar. Se señala el tamaño de bandas relevantes de un marcador de peso molecular de ADN (M, en kpb) y las posiciones esperadas para las bandas correspondientes al amplicon del gen pyrF original (ca. 1 kpb; Silvestre) y el del gen con la deleción (ca. 0,5 kpb; Muíante).
La Figura 10 se refiere a la edición genética en cultivos de células N2a de ratón asistida por la proteína de la presente invención. La Figura 10A muestra el esquema del procedimiento de edición genética. La Figura 10B muestra el porcentaje del número de lecturas de secuenciación con inserciones o deleciones (% INDELs; n=3, media ± s.d.) obtenidos para 4 secuencias diana en los genes Lrmda (Lrmda.V) y Oca2 (Oca2.2, Oca2.3, Oca2.4) del genoma de ratón tras la transfección con plásmidos que codifican para SpCas9 y Sp sgRNA (SpCas9. sgRNA; a), EHCas9 y EH sgRNA (EHCas9. sgRNA; b) o EHCas9 (EHCas9; c). Como control negativo se incluyen los resultados obtenidos con células no transfectadas (N2a; d). La Figura 10C muestra el alineamiento de los 10 alelos más frecuentes revelados para la diana Oca2.3 en los experimentos con sistema CRISPR- EHCas9 de la invención. Los códigos de las deleciones figuran en la columna de la izquierda (p. ej., -2:1 D, deleción de un nucleótido en la posición -2 respecto al sitio de corte). La posición del sitio de corte preferente de EHCas9 se muestra con una línea discontinua. La secuencia de la región diana original (Oca2.3) se incluye en la primera línea. Las regiones diana y PAM se marcan con letras subrayadas y en un recuadro, respectivamente. En la columna de la derecha se representa la frecuencia de cada alelo (%) como porcentaje promedio de 3 réplicas.
La Figura 11 muestra el crecimiento de células N2a de ratón expresando componentes de la proteína de la presente invención, EHCas9, y de la proteína Cas9 de la bacteria Streptococcus pyogenes, SpCas9. (A) Recuento de células nucleadas sin transfectar (Sin plásmido) y transfectadas con 200 ng, 150 ng o 100 ng de plásmidos codificando SpCas9 o EHCas9. (B) Recuento de núcleos en células transfectadas y sin transfectar (Sin plásmido) con 100 ng de plásmidos codificando sgRNA de SpCas9 (Sp sgRNA) o EHCas9 (EH sgRNA) (n=3, media ± DS). (C) Tinción DAPI de células no transfectadas (N2a) y de células transfectadas con plásmidos codificando SpCas9 o EHCas9. DESCRIPCIÓN DETALLADA DE LA INVENCIÓN
La presente invención proporciona una proteína endonucleasa Cas9 con un tamaño tal que facilita su administración tanto a bacterias como células de mamíferos mediante vectores comúnmente empleados en biotecnología y biomedicina para la edición génica de las mismas. Ventajosamente, la proteína de la presente invención comprende una secuencia aminoacídica según SEQ ID NO:1 (de aquí en adelante, “EHCas9”). Preferentemente, una secuencia aminoacídica con al menos un 70% de identidad de secuencia con SEQ ID NO: 1. Aún más preferentemente, una secuencia aminoacídica según SEQ ID NO: 5 o SEQ ID NO: 7.
Las cepas bacterianas, los plásmidos, y los oligonucleótidos utilizados en los ejemplos de la presente invención son los que se relacionan en las Tablas 1 , 2 y 3, respectivamente. Tabla 1. Cepas de E. coli utilizadas en la presente invención.
Figure imgf000015_0001
Tabla 2. Plásmidos utilizados en la presente invención.
Figure imgf000016_0001
Figure imgf000017_0001
Tabla 3. Oligonucleótidos empleados en la presente invención.
Figure imgf000018_0001
Figure imgf000019_0001
Figure imgf000020_0001
Figure imgf000021_0001
Figure imgf000022_0001
Figure imgf000023_0001
Figure imgf000024_0001
A menos que se especifique lo contrario, los cultivos de E. coli se crecieron a +37°C en medio líquido Luria-Bertani (LB) con agitación orbital a 180 rpm, o en LB agar. Para la selección de células portadoras de plásmidos, los medios se suplementaron con cloranfenicol (25 pg/ml), ampicilina (100 pg/ml), espectinomicina (50 pg/ml) o kanamicina (50 pg/ml), según correspondiera.
Las secuencias espadadoras guía se clonaron en el plásmido pMML13 (Figura 4E) usando el método Golden Gate [Engler, C. et al. (2009). PLOS ONE, 4, e5553]. Los otros ensayos de clonación molecular y sustitución de genes de plásmidos fueron realizados mediante ensamblaje Gibson con el kit de clonación Gibson Assembly® (NEB).
Para la preparación de células electrocompetentes de E. coli BL21(DE3) y E. coli BW27783, cultivos líquidos en fase estacionaria se llevaron a una dilución 1/100 en caldo LB y se crecieron hasta una DOeoo = 0,5. Las células fueron recogidas por centrifugación y lavadas tres veces con agua desionizada y una vez con glicerol al 10%. Las transformaciones se realizaron con 50 pl de suspensiones de células electrocompetentes recién preparadas, incubadas en hielo durante 25 min después de agregar el ADN. La mezcla de células y ADN se transfirió a una cubeta de electroporación de tamaño de ranura de 2 mm (Molecular Bioproducts) enfriada sobre hielo y se sometió a electroporación a 2,5 kV con un MicroPulser (BIORAD). Inmediatamente a continuación se añadió a la suspensión celular 1 mi de caldo SOC y se incubó durante 1 hora en condiciones estándar en un tubo de 12 mi. Finalmente, las células se sembraron en placas con medios suplementados con el antibiótico correspondiente para la selección del plásmido y se incubaron durante toda la noche a +30°C en el caso del plásmido termosensible pKD46 o a +37°C en el resto de los casos.
Las células de E. coli NZYStar (NZYTech) y E. coli TOP10 (Invitrogen) químicamente competentes se transformaron siguiendo las instrucciones del fabricante.
Los plásmidos se aislaron de E. coli con el kit PureLink™ HiPure Plasmid Midiprep o el kit PureLink™ HiPure Plasmid Miniprep (Invitrogen). Los productos de PCR y los fragmentos de ADN se purificaron con el GFX™ PCR DNA and Gel Band Purification Kit (Cytiva).
La concentración y la pureza de las soluciones de ácidos nucleicos se estimaron con un espectrofotómetro NanoDrop ND-1000 (Thermo Scientific), y su integridad se evaluó mediante electroforesis en gel de agarosa. Para visualizar las moléculas de ADN sometidas a electroforesis en gel de agarosa, se tomaron imágenes de geles que contenían GreenSafe premium (NZYTech), empleando ChemiDoc XRS+ Gel Imaging System (BIORAD). El marcador de peso molecular 1 Kb Plus DNA Ladder (Invitrogen) se incluyó en los geles de agarosa para estimar el tamaño de los fragmentos de ADN.
Ejemplo 1 : Identificación y caracterización de la proteína de la invención con secuencia aminoacídica según SEQ ID NO:1
Para la identificación y caracterización de la proteína de la presente invención con secuencia aminoacídica según SEQ ID NO: 1 (de aquí en adelante, ‘EHCas9’), los inventores recolectaron muestras de agua en una laguna del Parque Natural ‘El Hondo’ (EH) en España. Estas muestras se prefiltraron a través de papel de filtro y un filtro de membrana Durapore® de 5 pm de tamaño de poro (Merk). Posteriormente, se realizó una filtración secuencial a través de un filtro de membrana Durapore® (Merk) de 0,22 pm de tamaño de poro y un dispositivo de ultrafiltración de flujo cruzado VIVAFLOW 200 de 30.000 MWCO (Sartorius). La muestra filtrada se concentró utilizando un filtro 3K Ultra Amicon® (Millipore). El ADN se purificó a partir del concentrado con el kit PureLink® Viral RNA/DNA Mini (Invitrogen).
La secuenciación del ADN fue realizada utilizando Illumina HiSeq. Las lecturas de baja calidad fueron eliminadas con el programa PRINSEQ-lite [Schmieder, R., & Edwards, R. (2011). Bioinformatics, 27(6), 863-864], utilizando la configuración: minjength: 50, trim_qual_right: 30, trim_qual_type: mean y trim_qual_window: 20. Seguidamente, las secuencias eucariotas se identificaron mediante búsquedas BLASTn (opciones: -taxidlist: taxid:2759, -evalúe: 0.005) frente a la base de datos del Centro Nacional para la Información Biotecnológica (NCBI, por sus siglas en inglés; https://blast.ncbi.nlm.nih.gov/Blast.cgi). Las secuencias con una identidad superior a 0,9 se filtraron usando el script FastQ.filter.pl de Enveomics Collection [Rodhguez-R,L.M. & Konstantinidis.K.T. (2016). PeerJ Preprints, 4, e1900v1]. El ensamblaje de novo de las lecturas restantes se realizó con el programa SPAdes v3.13.0 [Nurk, S., et al. (2017). Genome Res., 27(5), 824-834] usando la opción metaspades con parámetros: -k 21 , 33, 55, 77, 99, 127.
Para la identificación de los sistemas CRISPR-Cas en el metagenoma generado a partir de la fracción subcelular de estas muestras de agua, primero se analizaron secuencias de longitud > 2 kb mediante el programa CRISPRCasFinder (CCFinder) con el fin de detectar genes eas y agrupaciones CRISPR [Couvin, D. et al. (2018). Nucleic Acids Res., 46(W1), W246-W251], A continuación, se predijeron los marcos de lectura abierta (ORF) de los 745 cóntigos con componentes CRISPR-Cas así identificados, para lo que se utilizó Prodigal v2.6.3 [Hyatt, D. et al. (2010). BMC bioinformatics, 11(1), 1-11]. El catálogo resultante de secuencias de proteínas se analizó con perfiles Hidden Markov Models (HMM) de dominios de proteínas Cas9 utilizando el programa hmmersearch del paquete HMMER v3.2 [Finn, R. D. et al. (2011). Nucleic Acids Res., 39, W29-W37],
Como primer paso para la identificación de posibles regiones codificantes de tracrRNA, se buscaron secuencias semejantes a repeticiones (repeticiones degeneradas) en las proximidades de los loci CRISPR-cas con la plataforma en línea Benchling (https://benchling.com/editor). Seguidamente, se predijeron secuencias promotoras y terminadoras a ambos lados de las repeticiones degeneradas encontradas con BPROM y FindTerm [Salamov, V. S. A., & Solovyevand, A. (2011). Metagenomics and its applications in agriculture, biomedicine and environmental studies, Nova Science Publishers, 61-78], respectivamente. Finalmente seleccionamos para su posterior análisis funcional y bioquímico un sistema (sistema CRISPR-EHCas9) asociado a un gen cas9 (ehcasd) y un posible tracrRNA.
La Figura 1 muestra una representación esquemática del locus CRISPR-EHCas9 y los dominios de la proteína EHCas9 asociada. El locus CRISPR-EHCas9 comprende tres genes cas, en el orden cas9 (denominado ehcas9) - casi - cas2 (representados mediante rectángulos apuntando en el sentido de la transcripción), y una agrupación EHCRISPR que consta de dos repeticiones de 36 pb con secuencia SEQ ID NO: 71 (rectángulos blancos) separadas por un espaciador de 29 pb (rombo). Corriente arriba de ehcas9 se identificó un posible gen de tracrRNA (representado con una flecha que apunta en el sentido de la transcripción en la Figura 1) como una región de -100 pb, flaqueada por un promotor y un terminador independiente de Rho, que contiene una secuencia antirepetición (parcialmente complementaria a las unidades CRISPR asociadas). El gen ehcas9 codifica la proteína EHCas9, cuya estructura comprende los siguientes dominios: RuvC (motivos I, II y III), Bridge Helix (BH), de reconocimiento (REC), nucleasa HNH, Phosphate Lock Loop (PLL), WED y de interacción con PAM (Pl).
La comparación mediante la herramienta BLASTp de la secuencia aminoacídica de EHCas9 con las de las proteínas Cas9 disponibles en la base de datos de secuencias del NCBI (https://blast.ncbi.nlm.nih.gov/Blast.cgi), muestra una identidad de secuencia inferior al 68%. La comparación con ortólogos nativos Cas9 empleados para la edición de genomas en células de mamíferos muestra una identidad de secuencia inferior al 29% (ver Tabla 4). En concreto, estos alineamientos revelaron la arquitectura de dominios típica de esta familia de proteínas [Jinek, M. et al. (2014). Science, 343(6176), 1247997; Yamada, M. et al. (2017). Mol. Cell, 65(6), 1109-1121 ; Hirano, S. et al. (2019). Nat. Commun., 10(1), 1-11 ; Nishimasu, H. et al. (2015). Cell, 162(5), 1113-1126; Fuchsbauer, O. et al. (2019). Mol. Cell, 76(6), 922-937; Sun, W. et al. (2019). Mol. Cell, 76(6), 938-952] con residuos catalíticos conservados en los dominios nucleasa RuvC (D11 , E521 , H747 y D750) y HNH (D605, H606 y N629) (ver Figuras 2A y 2B). Sin embargo, la secuencia del dominio que interactúa con PAM difiere considerablemente. En conjunto, estas observaciones sugieren que EHCas9 podría actuar como una nucleasa guiada por crRNA:tracrRNA de manera similar a los ortólogos caracterizados bioquímicamente, pero reconociendo PAM distintos.
Con respecto a su tamaño, EHCas9 está en el rango de los ortólogos más pequeños, presentando una longitud total de 1 .070 aa y una masa de aproximadamente 120 kDa. Ello permite la administración de las secuencias codificantes de la herramienta EHCas9 a células eucariotas empleando un vector de tamaño restringido, como los virus adenoasociados (AAV), comúnmente utilizados en biomedicina. Además, su pequeño tamaño también puede facilitar la administración de derivados inactivos de la nucleasa fusionados con péptidos con distintas actividades relacionadas con el ADN, como se ha hecho con las proteínas dead-Cas9 (dCas9).
La relación evolutiva de EHCas9 se analizó mediante la reconstrucción de un árbol filogenético que incluye 798 secuencias de proteínas Cas9 ortólogas (Figura 3). En concreto, se llevó a cabo un alineamiento múltiple entre SEQ ID NO: 1 y las secuencias de una base de datos de ortólogos de Cas9 recopiladas por Gasiunas et al. [Nat. Commun. 2020, 11 (1), 1-10] mediante el programa MUSCLE. El árbol filogenético se generó a partir de los alineamientos con el programa Fast Tree utilizando un modelo evolutivo JTT y un modelo gamma discreto, obteniéndose como conclusión que la proteína EHCas9 pertenece al ciado IX del subtipo ll-C y está lejanamente emparentada con las proteínas Cas9 comúnmente utilizadas en la edición de genomas, siendo Cas9 de S. donghicola (SdoCas9) la más estrechamente relacionada de entre los ortólogos caracterizados bioquímicamente. Tabla 4. Características relevantes de las proteínas Cas9 nativas empleadas en edición de células de mamíferos.
Figure imgf000029_0001
[8] Kim, E. et al. (2017). Nat. Commun., 8(1), 1-12; [9] Hirano, H. et al. (2016). Cell, 164(5), 950-961 ; [10] Harrington, L. B. et al. (2017). Nat. Commun., 8(1), 1-8; [1 1] Edraki, A. et al. (2019). Mol. Cell, 73(4), 714-726; [12] Esvelt, K. M. et al. (2013). Nat. Methods, 10(11), 1116-1121 ; [13] Fedorova, I. et al.
(2020). Nucleic Acids Res., 48(21), 12297-12309; [14] Ran, F. et al. (2015). Nature, 520(7546), 186-191 ; [15] Hu,Z. et al. (2020). PLoS Biol., 18, 1-18; [16] Chatterjee, P. et al. (2018). Sci. Adv., 4(10), eaau0766; [17] Cong, L. et al. (2013). Science, 339(6121), 819-823; [18] Mali, P. et al. (2013). Science, 339(6121), 823-826; [19] Esvelt, K. M. et al. (2013). Nat. Methods, 10(11), 1 116-1121 . [20] Müller, M. et al. (2016). Mol., 24(3), 636-644.
Ejemplo 2: Detección y validación in vivo de PAM y determinación de los requisitos del ARN guía para la escisión de ADN mediada por EHCas9.
Para el cribado in vivo de los motivos PAM reconocidos por EHCas9, se generó en primer lugar el plásmido pMMLOI (control negativo de la actividad de EHCas9) mediante la clonación en pBAD33 de una agrupación EH CRISPR formada por dos repeticiones de 36 pb de longitud separadas por un espaciador de 29 pb. Se diseñó otro plásmido derivado de pBAD33 que lleva además el gen ehcas9 (pMML02, Figura 4A), y un plásmido basado en pUC57 que contiene un inserto de 300 pb de longitud que abarca la secuencia codificante de EH tracrRNA (pMML03, Figura 4B). Para construir pMML02, se clonaron en el vector un gen ehcas9 cuyos codones fueron optimizados para su expresión en E. coli (SEQ ID NO:4) bajo promotores inducibles, junto con una agrupación CRISPR formada por un espaciador flaqueado por dos repeticiones, transcrita a partir de un promotor constitutivo (Part:BBa_J23101 , colección BioBñcks) y la secuencia terminadora BBa_B1006, adquirida como bloques G de NZYTech, de tal forma que ehcas9 queda bajo el control del promotor de arabinosa PBAD. Para la construcción de pMML03, el inserto sintetizado por NZYtech como un bloque G se clonó bajo el promotor T7 (inducible por lac/IPTG) del vector.
Por otro lado, se generó una genoteca de plásmidos derivados de pSEVA431 (resistencia a la espectinomicina) con motivos PAM aleatorios de 3 nt, mediante mutagénesis por PCR con cebadores (SEQ ID NO: 17 y SEQ ID NO: 18; ver Tabla 3) que contenían nucleótidos aleatorios en las posiciones 2, 3 y 4 respecto al extremo 3' de la secuencia diana en la hebra que coincide con el espaciador, SEQ ID NO: 72; es decir, la región PAM. En concreto, dada la tolerancia de cualquier nucleótido en la primera posición de la región PAM exhibida por la mayoría de las proteínas Cas9 [Gasiunas, G. et al. (2020). Nat. Commun., 11 (1), 1-10], se mantuvo invariable una timina en esta ubicación y nucleótidos aleatorios en las posiciones 2, 3 y 4 (consenso 5'-TNNN-3').
Células electrocompetentes de E. coli BW 27783 fueron co-transformadas con pMML03 y con pMMLOI o pMML02 y se seleccionaron en placas de LB agar conteniendo ampicilina y cloranfenicol. Las colonias transformantes se crecieron en medio líquido suplementado con ampicilina, cloranfenicol, L-arabinosa (0,2 %) e IPTG (1 mM). A continuación, se prepararon células electrocompetentes a partir de cultivos a ODeoo = 0,5 y se realizaron tres experimentos de transformación independientes con 300 ng de la genoteca PAM para los portadores de pMMLOI y pMML02. Los transformantes que portaban plásmidos derivados de pSEVA431 se seleccionaron en LB agar suplementado con espectinomicina y los plásmidos fueron aislados a partir de ca. 105 colonias. La región del plásmido que flanquea al PAM se amplificó por PCR utilizando como cebadores SEQ ID NO: 24 y SEQ ID NO: 25 (ver Tabla 3), y se secuenció mediante secuenciación masiva (HTS) con el sistema de secuenciación Illumina NovaSeq PE250 (Novagene). La proporción de lecturas con cada secuencia PAM específica obtenida de las células portadoras de pMML02 se comparó con los valores correspondientes a las células que portaban el control negativo pMMLOI para estimar su cambio Iog2 (Iog2 fold change). Se utilizaron secuencias PAM con un valor de Iog2 superior a 7 para generar logotipos de secuencias con la aplicación WebLogo (https://weblogo.berkeley.edu/logo.cgi).
La comparación de la incidencia de cada secuencia en la región PAM en presencia o ausencia de EHCas9 reveló que el nucleótido guanina estaba infrarrepresentado en las posiciones 2 y 3 cuando se producía la proteína (Figura 5A), pero no se observaron diferencias en la frecuencia de cualquier nucleótido específico en la posición 4. Estos resultados demuestran que EHCas9 puede interferir de manera específica con plásmidos diana si hay una guanina en la segunda y la tercera posición del PAM. También apoyan la identidad del EH tracrRNA, así como la dirección de transcripción de la agrupación CRISPR inferida. Además, prueban que, bajo las condiciones ensayadas en E. coli, se genera un crRNA funcional a partir del EH pre-crRNA diseñado.
Para la implementación de una herramienta EHCas9 simplificada, se dedujo la secuencia de un sgRNA (EH sgRNA) a partir de la secuencia validada bioquímicamente del sistema tipo ll-C de S. donghicola. Después de comparar el crRNA y el tracrRNA de los dos sistemas, se concibió un EH sgRNA de 118 nt de longitud, compuesto por una región espadadora variable de 23 nt y una secuencia constante (SEQ ID N0:3) de 95 nt que consta de una repetición truncada de 18 nt, un conector de 4 nt (tetraloop 5'-GAAA-3') y un fragmento del EH tracrRNA de 73 nt que contiene la anti-repetición seguida de una secuencia que presumiblemente adopta dos estructuras de tallo-bucle (Figura 6).
Para probar la funcionalidad del EH sgRNA y expandir el PAM inferido a partir del cribado in vivo, se testaron las primeras siete posiciones de la región PAM utilizando un procedimiento de traducción in vitro (IVT) siguiendo el mismo procedimiento empleado previamente por otros autores [Gasiunas, G. et al. (2020). Nat. Commun., 11(1), 1-10], Esta detección de PAM se llevó a cabo en colaboración con la empresa CasZyme, utilizando EHCas9 y un EH sgRNA con diana en una genoteca de plásmidos con secuencias aleatorias en cada una de las 7 posiciones PAM a testar (Tabla 5). Se incluyó MgCh en la reacción, ya que se ha demostrado que las proteínas Cas9 requieren cationes divalentes para adoptar el estado competente para la escisión [Jinek, M. et al. (2012). Science, 337(6096), 816-821 ; Mougiakos, I. et al. (2017). Nat. Commun., 8(1), 1-11 ; Chen, H. et al. (2014). J. Biol. Chem., 289(19), 13284-13294; Dagdas, Y. S. et al. (2017). Sci. Adv., 3(8), eaao0027]. El análisis de secuencias reveló la escisión de la diana, lo que corrobora la funcionalidad del EH sgRNA diseñado. Al igual que algunas nucleasas Cas9 previamente caracterizadas [Jinek, M. et al. (2012). Science, 337(6096), 816-821 ; Gasiunas, G. et al. (2020). Nat. Commun., 11(1), 1-10], la escisión se observó preferentemente entre los nucleótidos en las posiciones 3 y 4 respecto del PAM, en ambas cadenas de la diana, lo que sugiere la formación de extremos romos. El análisis de la región PAM (Figura 5B) confirmó que, de acuerdo con los resultados de la detección de PAM in vivo, guanina en las posiciones 2 y 3 es indispensable para la escisión. Sin embargo, en contraste con la tolerancia de cualquier nucleótido en la posición 4 observada in vivo, se evidenció una cierta discriminación contra citosina. Además, aunque para la actividad de EHCas9 no se requerían nucleótidos específicos en las posiciones restantes, se reveló una preferencia por timina en la 5a posición, lo que sugiere que la ausencia de este nucleótido en el cribado in vivo podría haber comprometido el reconocimiento de la diana cuando citosina está presente en la 4a posición. En resumen, mientras que los PAM compatibles con la escisión de la diana de EHCas9 en las condiciones in vitro utilizadas se corresponden con la secuencia consenso 5'-NGGNNNN-3', el PAM responde al consenso 5'-NGGDTNN-3' (D = A o T o G).
Tabla 5. Secuencias diana de Cas9 utilizadas en la validación in vivo de PAM.
Figure imgf000032_0001
A continuación, se verificó la tolerancia por citosina en la cuarta posición del PAM junto con el requerimiento de timina en la quinta posición. Con este fin, se llevaron a cabo ensayos de transformación con plásmidos equivalentes a los utilizados para la detección de PAM in vivo, pero en lugar de una genoteca de PAM se emplearon plásmidos individuales (pMML04-07; ver Tabla 2) que contienen en este caso la secuencia diana adyacente a 5'-TGGCG-3', 5'- TGGTG-3', 5'-TGGAG-3' o 5'-TGGGG-3' (Tabla 5). De la misma manera, se analizó el motivo 5'-TACCG-3' como control en ausencia de PAM. Como era de esperar, cuando el plásmido diana con la secuencia flanqueante 5'-TACCG- 3' se transformó en células que expresaban los tres componentes del locus CRISPR- EHCas9, la eficiencia de la transformación no difirió significativamente de la eficiencia observada en ausencia de EHCas9. Sin embargo, se encontró una marcada disminución en la eficiencia de la transformación cuando los plásmidos 5'-TGGNG-3' se transformaron en células que expresan EHCas9 en comparación con hospedadores sin la nucleasa, mostrando una diferencia de aproximadamente cuatro órdenes de magnitud en el caso del plásmido con citosina en la 4a posición del PAM, y aproximadamente cinco órdenes de magnitud para el resto (Figura 5C). Estos resultados confirman que, incluso en ausencia de timina en la 5a posición, EHCas9 cataliza de forma eficaz la escisión de la diana en E. coli independientemente de la identidad del nucleótido en la 4a posición, siendo citosina la que muestra una menor actividad.
Ejemplo 3: Purificación de la proteína de la presente invención con secuencia aminoacídica según SEQ ID NO: 5.
Para la expresión heteróloga de la proteína de la presente invención con secuencia aminoacídica según SEQ ID NO: 5, el gen ehcas9 con uso de codones optimizado para E. coli (suministrado por NZYtech) se fusionó con una cola N-terminal de seis histidinas (SEQ ID NO: 6) bajo un promotor inducible por lac/IPTG en un vector pHTP1 , generando el plásmido pMML22 (Figura 4F). E. coli BL21 (DE3) previamente transformada con pMML22 se creció a +37°C en LB suplementado con kanamicina. Cuando el cultivo alcanzó una DO600 = 0,5, se indujo la expresión de la proteína añadiendo IPTG 1 mM y tras 16 h de incubación a +16°C se recolectaron las células por centrifugación (5.000 x g durante 15 min a +4°C) y se resuspendieron en tampón de unión compuesto por tampón fosfato pH 7,6 (50 mM), NaCI (500 mM), imidazol (10 mM), glicerol (5%), β-mercaptoetanol (10 mM) y fluoruro de fenilmetilsulfonilo (PMSF; 1 mM). Las células se rompieron mediante sonicación con un Branson Digital Sonifier®. Después de centrifugar (23.700 x g durante 25 min a +4°C), el sobrenadante se cargó en una columna HisTrap HP de 1 mi (GE Healthcare), se lavó la columna con 20 volúmenes de tampón de unión y se la proteína se eluyó con tampón de elución (tampón fosfato 50 mM pH 7,6, 500 NaCI mM, 150 mM imidazol, glicerol al 5%, 10 mM β-mercaptoetanol, 1 mM PMFS). La fracción eluida se concentró hasta un volumen de 1 mi en tampón de digestión (tampón fosfato 50 mM pH 7,6, 150 mM NaCI, glicerol al 5%, 10 mM B-mercaptoetanol) utilizando filtros Amicon Ultra (Millipore) y se cargó en un gel de filtración HiLoad™ 16 /600 Superdex™ 200 pg (Cytiva). Las fracciones eluidas se analizaron mediante SDS-PAGE y la fracción conteniendo una proteína del tamaño esperado para EHCas9 se concentró como se indica anteriormente (Figura 7).
Para la estimación del tamaño de las proteínas se utilizó NZYBIue Protein Marker (NZYtech) y la concentración de proteínas se midió con QUBIT® 2.0 (Invitrogen).
Ejemplo 4: Optimización in vitro de las condiciones de reacción requeridas para la escisión de diana mediada por la proteína de la presente invención.
Para la optimización de las condiciones de reacción requeridas por la proteína de la presente invención para la escisión de ADN bicatenaño (ADNbc), se diseñó y generó in vitro un EH sgRNA. Para obtener un molde de ADNbc mediante amplificación por PCR de la región constante codificante de sgRNA (SEQ ID NO:3) a partir del plásmido pMML08, se utilizaron oligonucleótidos que portan un promotor T7 y una secuencia coincidente con el espaciador de 23 nt de longitud en pSEVA431 (SEQ ID NO: 26 y SEQ ID NO: 27; ver Tabla 3). El amplicón se transcribió con HiScñbe T7 Quick (NEB) siguiendo las instrucciones del fabricante, incluido el tratamiento opcional con ADNasa, y el ARN se purificó con el kit de limpieza de ARN Monarch® (NEB). Las alícuotas de sgRNA se almacenaron a -80°C.
Como sustrato de escisión se utilizó un fragmento de 840 pb amplificado por PCR a partir de pMML05 (derivado de pSEVA431 que contiene una diana con PAM 5'-TGGCG-3'). Como control sin PAM, se amplificó un fragmento de pMML05 que contenía una diana con la secuencia 5'-TACCG-3' en la región de la PAM (Tabla 6). La escisión específica de la diana guiada por EH sgRNA producirá dos fragmentos de ADNbc (520 pb y 320 pb de longitud, respectivamente).
Tabla 6. Secuencias diana de Cas9 utilizadas en la optimización in vitro de las condiciones de reacción requeridas para la escisión de diana mediada por EHCas9.
Figure imgf000034_0001
Figure imgf000035_0001
En primer lugar, evaluamos la especificidad de escisión de la diana de ADNbc a +37°C y el requerimiento de Mg2+ (Figura 8A). Para facilitar la formación del complejo ribonucleoproteico, pre-incubamos (15 min a +37°C) la nucleasa con EH sgRNA (relación molar 1 :1) antes de mezclarla con la diana (la relación molar final Cas9:sgRNA:diana en la solución de reacción fue 20:20:1) en presencia de MgCI2. Como era de esperar, la preincubación aumentó la tasa de escisión de la diana en comparación con reacciones en las que todos los componentes se mezclaron simultáneamente (30 minutos después de añadir al sustrato la proteína pre-incubada con la guía o ambas soluciones sin pre-incubar, se había escindido el 21 ,6% y el 15,6% de sustrato, respectivamente). En base a estos resultados, los experimentos in vitro posteriores con EHCas9 y EH sgRNA se llevaron a cabo después de pre-incubar en las mismas condiciones ensayadas. No se observaron productos de escisión en la diana sin PAM, ni cuando no se agregó EH sgRNA o Mg2+ a la reacción. En presencia de todos los reactivos, el sustrato con el PAM compatible se cortó una vez, generando dos fragmentos de ADN cuyos tamaños coincidían con los esperados por la escisión dentro de la secuencia diana. Estos resultados corroboran que EHCas9 es una endonucleasa de ADNbc dependiente de metales, específica de secuencia y guiada por ARN.
Seguidamente, se caracterizó la actividad de corte de ADNbc guiada por ARN en presencia de MgCI2, bajo distintos tiempos de digestión y temperatura. Para decidir la cantidad de EHCas9 a utilizar en estos experimentos, se pre-incubaron concentraciones constantes de EH sgRNA durante 15 min a +37°C con 10 nM a 0,5 pM de EHCas9 y posteriormente se mezclaron con una concentración fija de sustrato, de modo que la relación molar proteína:sgRNA:sustrato en la reacción de digestión varió de 1 :50:2,5 a 20:20:1. Concentraciones de proteína por encima de 0,1 pM produjeron productos de digestión perceptibles después de 30 min, eligiéndose una concentración de EHCas9 de 0,5 pM para los posteriores ensayos de temperatura y tiempo de incubación (Figura 8B). Cuando se evaluaron diferentes tiempos de reacción (hasta 40 min) a +37°C, aunque se cortó una proporción sustancial (21 ,6%) del sustrato dentro de los primeros 5 minutos, lo que subraya la robustez de la nucleasa, el máximo porcentaje de digestión (alrededor del 27% de sustrato escindido) se alcanzó después de 30 min (Figura 8C). Curiosamente, la incubación durante 10 minutos más no aumentó la cantidad de sustrato cortado, lo que sugiere que EHCas9 permanece unido al ADN después de catalizar su escisión, evitando así que actúe sobre otras moléculas diana. En cuanto a la temperatura de incubación, en los ensayos de digestión realizados a intervalos de +5°C dentro del rango +20 a +45°C, únicamente se detectaron productos de digestión a +30°C y +35°C, estableciéndose un rango de temperatura de trabajo entre por encima de +25°C y menos de +40°C, con temperatura óptima alrededor de +35°C (Figura 8D).
Ejemplo 5: Uso de la herramienta EHCas9 para la selección positiva de células de E. coli con genoma editado.
Para la selección de células de E. coli con genoma editado (Figura 9A), se construyó el plásmido pMML09 (Figura 4C) que codifica EHCas9 y un EH sgRNA dirigido al gen cromosómico pyrF, a partir de pMML02 reemplazando la región entre el promotor y el terminador de la agrupación CRISPR con una secuencia codificante de sgRNA que contiene un espaciador que coincide con una secuencia de pyrF, ubicado junto a la secuencia 5'-TGGAT-3' en la región PAM (SEQ ID NO: 76). Como control negativo de la actividad de EHCas9, se generó un plásmido sin ehcas9 (pMMLIO) mediante amplificación por PCR de pMML09.
Mediante ensamblaje por Gibson se generó un molde de recombinación de ADN lineal de 308 pb consistente en secuencias flanqueantes de pyrF, en concreto, una secuencia de 145 pb que coincide con la región intergénica corriente arriba de pyrF y una secuencia de 163 pb que coincide con la región aguas abajo del gen.
Se transformaron células electrocompetentes de E. coli BW 27783 con el plásmido pKD46 (resistencia a la ampicilina) que codifica el sistema de recombinación Lambda Red (Exo, Beta, Gam) [Datsenko, K. A., & Wanner, B. L. (2000). Proc. Natl. Acad. Sci. U.S.A, 97(12), 6640-6645], Dado que la replicación de este plásmido es sensible a la temperatura, inhibiéndose a +37°C, los transformantes se crecieron a +30°C en placas de LB agar conteniendo ampicilina. Las colonias portadoras de pKD46 se transfirieron a un medio líquido suplementado con ampicilina y se crecieron a +30°C hasta una DOeoo = 0,2. A continuación, se añadió L-arabinosa al 0,2 % para inducir la expresión de las proteínas Lamba Red y cuando se alcanzó una DOeoo = 0,5 se prepararon células electrocompetentes a partir del cultivo. A continuación, 3 alícuotas fueron cotransformadas con 150 ng de ADN molde y con 50 ng de pMML09 o de pMMLIO. Las colonias transformantes de tres experimentos independientes se crecieron en LB agar suplementado con cloranfenicol (selección de plásmidos pMML09 y pMMLIO) y L- arabinosa al 0,2 % (inducción de la transcripción de ehcas9) a +37°C, impidiendo de esta manera la replicación de pKD46. La región pyrF se amplificó por PCR a partir de 90 colonias seleccionadas aleatoriamente (20 de cada experimento con el plásmido que expresa EHCas9 y 10 de cada una de las réplicas de control negativo). La electroforesis en gel de agarosa al 1 % de los productos de la PCR invariablemente reveló una sola banda, cuyo tamaño se correspondía con el del fragmento delecionado en el caso de los clones que expresan EHCas9 o con el de la secuencia nativa para el control negativo (Figura 9B). Estos resultados demuestran la eficacia de EHCas9 como agente antibacteriano específico de secuencia y su idoneidad como complemento para aplicaciones que se beneficien de la selección positiva de mutantes de E. coli, incluida la edición del genoma.
Ejemplo 6: Edición genética de células de mamífero mediada por la proteína de la presente invención.
Para los ensayos de edición genética en células de mamíferos, el plásmido hCas9 (Addgene #41815; Mali, P. et al. Science, 2013, 339 (6121), 823-826) que lleva el gen spcas9 fusionado a una secuencia de localización nuclear (SV40 NLS) controlada por un promotor constitutivo de citomegalovirus (CMV), y el plásmido MLM3636 (Addgene #43860) que codifica un sgRNA compatible (Sp sgRNA) bajo el promotor constitutivo U6, se utilizaron como base para construir plásmidos equivalentes donde las secuencias codificantes de SpCas9 y Sp sgRNA fueron reemplazadas por el gen ehcas9 con uso de codones optimizado para humanos (pMML12, Figura 4D) y una región constante de EH sgRNA (pMML13, Figura 4E), respectivamente (Fig. 10A). De este modo, el plásmido pMML12 lleva el gen ehcas9 fusionado a una secuencia SV40 NLS (SEQ ID NO:8). Los dos insertos se adquirieron de NZYTech como bloques G.
Células Neuro-2a (N2a) de Mus musculus (neuroblastos de ratón; ATCC, CLC-131 ™) se mantuvieron en Dulbecco’s Modified Eagle’s Medium (DMEM) suplementado con glucosa (Sigma) y suero bovino fetal al 10%, 10 mM HEPES pH 7,4, L-glutamina 2 mM, penicilina 100 Ul/ml y estreptomicina 100 pg/ml, a +37°C con 5% de CO2 y 95% de humedad.
Se testaron cuatro regiones diana del genoma de ratón, ubicadas en los genes Oca2 (Oca2.2, Oca2.3, Oca2.4) y Lrmda (Lrmda.V), adyacentes a 5'-TGGGA-3', 5'-TGGAT- 3', 5'-TGGCA-3' y 5'-TGGTG-3' en la región PAM, respectivamente (Figura 10B y Tabla 7). La longitud de la región espadadora del sgRNA es un determinante importante de la precisión del reconocimiento de dianas [Hirano, S. et al. (2019). Nat. Commun., 10(1), 1- 11 ; Fedorova, I. et al. (2020). Nucleic Acids Res., 48(21), 12297-12309; Kim, E. et al. (2017). Nat. Commun., 8(1), 1-12; Harrington, L. B. et al. (2017). Nat. Commun., 8(1), 1-8; Edraki, A. et al. (2019). Mol. Cell, 73(4), 714-726], Se decidió usar un espaciador con 23 nt, ya que esta longitud es efectiva en la mayoría de las proteínas Cas9 probadas previamente para la edición del genoma de mamíferos, incluida SpCas9.
Tabla 7. Secuencias diana de Cas9 utilizadas para la edición génica de células de mamífero.
Figure imgf000038_0001
En primer lugar, se evaluó la toxicidad celular de las herramientas EHCas9 y SpCas9. Soluciones de células N2a se depositaron en placas de 96 pocilios a una densidad de 1 ,5-104 células/mL por pocilio en un volumen total de 100 pl de DMEM sin antibióticos y se co-transfectaron con 200, 150 y 100 ng de pMML12 o hCas9 y 100 ng de pMML13 o MLM3636, respectivamente. Las transfecciones se realizaron con Lipofectamine 2000 (Invitrogen), siguiendo las instrucciones del fabricante. Tres días después de la transfección, las células se fijaron con paraformaldehído al 4% durante 30 min a temperatura ambiente y, tras teñir los núcleos celulares con DAPI, se contaron con un lector de fluorescencia Spark® (TECAN) (Figura 11). Aunque se observó una ligera disminución en el número de núcleos en relación con células no transfectadas, no se encontraron diferencias significativas entre las dos herramientas Cas9. Por lo tanto, este efecto adverso sobre el crecimiento celular se consideró aceptable para proseguir con los experimentos de edición genética.
A continuación, se evaluó la aplicabilidad de EHCas9 como herramienta de edición genética mediante el análisis de inserciones y deleciones (INDELs), detectadas tras secuenciación HTS de la región diana amplificada por PCR después de co-transfectar plásmidos codificantes de EHCas9 y EH sgRNA en células N2a (Figura 10B). En concreto, las células N2a se sembraron en placas de 24 pocilios a una densidad de A- 105 células/mL por pocilio en un volumen total de 500 pl de DMEM sin antibióticos y se co-transfectaron con 1 pg de pMML12 o hCas9 y 500 ng del plásmido codificante del sgRNA correspondiente (pMML18-pMML21 o pMML14-pMML17 respectivamente). Las transfecciones se realizaron con Lipofectamine 2000 (Invitrogen), siguiendo las instrucciones del fabricante. El ADN genómico se extrajo de las células recogidas 72 horas después de la transfección mediante el kit High Pure PCR Template Preparation (Roche). Se incluyeron controles negativos que carecían de EH sgRNA y se realizaron experimentos equivalentes con los componentes de la herramienta SpCas9.
Para el análisis de frecuencia de INDELs, se generaron amplicones de 300-400 pb mediante amplificación por PCR de las regiones que flaquean la diana, utilizando como molde 100 ng de ADN genómico de N2a. Los productos de PCR se secuenciaron en Novogene utilizando Illumina NovaSeq 6000. Las lecturas de baja calidad y los adaptadores se eliminaron con Trimmomatic v0.39 (parámetros: java -jar trimmomatic- 0.39.jar PE ILLUMINACLIP:2:30:10 SLIDINGWINDOW:4:15 MINLEN:50). Las lecturas de secuenciación se contrastaron con la secuencia diana mediante el programa Bowtie2 v2.4.2 (87) y se convirtieron al formato de archivos BAM con el paquete Samtools [Li,H. et al. (2009). Bioinformatics, 25, 2078-2079], El análisis de INDELs se realizó con R Core Team (2021) utilizando el paquete CrispRVariants 1.20.0 [Lindsay, H. et al. (2016) Nat Biotechnol, 34, 701-702], Dicho análisis reveló INDELs para las cuatro dianas cuando se empleó la herramienta SpCas9. Con EHCas9, se detectaron INDELs alrededor del sitio diana tan solo en el caso de Oca2.3. Es de destacar que Oca2.3 es la única diana ensayada con timina en la quinta posición del PAM (5'-TGGAT-3').
La eficiencia de la edición de Oca2.3 se cuantificó como la proporción de lecturas con INDELs encontradas en esa muestra, excluyendo otras variaciones de secuencia que podrían estar presentes en la población debido a mutaciones espontáneas (Figura 10C). La herramienta EHCas9 dio lugar a un 0,84% de lecturas con la secuencia Oca2.3 modificada, mientras que la eficiencia de edición encontrada con SpCas9 fue de 3,92%. Cabe resaltar que la identidad y la frecuencia relativa de los alelos mutados fueron similares para ambas proteínas.

Claims

REIVINDICACIONES
1 . Proteína endonucleasa Cas9 que comprende una secuencia aminoacídica según SEQ ID NO: 1.
2. Proteína según la reivindicación 1 , que comprende una secuencia aminoacídica con al menos un 70% de identidad de secuencia con SEQ ID NO: 1.
3. Proteína según la reivindicación 2, que comprende una secuencia aminoacídica según SEQ ID NO: 5.
4. Proteína según la reivindicación 2, que comprende una secuencia aminoacídica según SEQ ID NO: 7.
5. Secuencia nucleotídica que codifica la proteína según cualquiera de las reivindicaciones 1-4.
6. Secuencia nucleotídica según la reivindicación 5, que comprende una secuencia nucleotídica según SEQ ID NO: 2.
7. Secuencia nucleotídica según la reivindicación 5, que comprende una secuencia nucleotídica según SEQ ID NO: 4.
8. Secuencia nucleotídica según la reivindicación 5, que comprende una secuencia nucleotídica según SEQ ID NO: 6.
9. Secuencia nucleotídica según la reivindicación 5, que comprende una secuencia nucleotídica según SEQ ID NO: 8.
10. Vector de expresión que comprende una secuencia nucleotídica según cualquiera de las reivindicaciones 5-9.
11. Célula que comprende una proteína según cualquiera de las reivindicaciones 1-4 y/o una secuencia nucleotídica según cualquiera de las reivindicaciones 5-9, y/o un vector según la reivindicación 10.
12. Sistema CRISPR-Cas que comprende un ARN guía y una proteína según cualquiera de las reivindicaciones 1-4.
13. Sistema CRISPR-Cas según la reivindicación 12, que comprende un ARN guía procedente de la transcripción de una secuencia nucleotídica según SEQ ID NO: 3.
14. Método para editar un genoma que incluye una secuencia nucleotídica diana, donde dicho método comprende una etapa de poner en contacto una secuencia nucleotídica diana con un sistema CRISPR-Cas según cualquiera de las reivindicaciones 12-13.
15. Uso de una proteína según cualquiera de las reivindicaciones 1-4, y/o una secuencia nucleotídica según cualquiera de las reivindicaciones 5-9, y/o un vector de expresión según la reivindicación 10, y/o una célula según la reivindicación 11 , y/o un sistema CRISPR-Cas según cualquiera de las reivindicaciones 12-13 para: la modificación genética, regulación de expresión génica y/o visualization in vivo de secuencias nucleotídicas concretas; y/o el diagnóstico molecular de enfermedades; y/o la producción de antimicrobianos específicos de secuencia.
16. Uso según la reivindicación 15 para la modificación genética, regulación de expresión génica y/o visualization in vivo de secuencias nucleotídicas concretas de células eucariotas.
17. Uso según la reivindicación 15 para la producción de antibacterianos.
18. Uso según la reivindicación 17 para la producción de antibacterianos frente a Escherichia coli.
PCT/ES2023/070618 2022-10-21 2023-10-20 PROTEÍNA ENDONUCLEASA Cas9 Y SISTEMA CRISPR-Cas ASOCIADO WO2024084124A1 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
ES202230911A ES2970263B2 (es) 2022-10-21 2022-10-21 PROTEINA ENDONUCLEASA Cas9 Y SISTEMA CRISPR-Cas ASOCIADO
ESP202230911 2022-10-21

Publications (1)

Publication Number Publication Date
WO2024084124A1 true WO2024084124A1 (es) 2024-04-25

Family

ID=88920863

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/ES2023/070618 WO2024084124A1 (es) 2022-10-21 2023-10-20 PROTEÍNA ENDONUCLEASA Cas9 Y SISTEMA CRISPR-Cas ASOCIADO

Country Status (2)

Country Link
ES (1) ES2970263B2 (es)
WO (1) WO2024084124A1 (es)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018213351A1 (en) * 2017-05-16 2018-11-22 The Regents Of The University Of California Thermostable rna-guided endonucleases and methods of use thereof
WO2021202568A1 (en) * 2020-03-31 2021-10-07 Metagenomi Ip Technologies, Llc Class ii, type ii crispr systems
WO2023102329A2 (en) * 2021-11-30 2023-06-08 Mammoth Biosciences, Inc. Effector proteins and uses thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018213351A1 (en) * 2017-05-16 2018-11-22 The Regents Of The University Of California Thermostable rna-guided endonucleases and methods of use thereof
WO2021202568A1 (en) * 2020-03-31 2021-10-07 Metagenomi Ip Technologies, Llc Class ii, type ii crispr systems
WO2023102329A2 (en) * 2021-11-30 2023-06-08 Mammoth Biosciences, Inc. Effector proteins and uses thereof

Non-Patent Citations (28)

* Cited by examiner, † Cited by third party
Title
BIKARD, D. ET AL., NAT. BIOTECHNOL., vol. 32, no. 11, 2014, pages 1146 - 1150
CHEN, H. ET AL., J. BIOL. CHEM., vol. 289, no. 19, 2014, pages 13284 - 13294
COUVIN, D. ET AL., NUCLEIC ACIDS RES., vol. 46, no. W1, 2018, pages W246 - W251
DAGDAS, Y. S. ET AL., SCI. ADV., vol. 3, no. 8, 2017, pages 0027
DATSENKO, K. A.WANNER, B. L., PROC. NATL. ACAD. SCI. U.S.A, vol. 97, no. 12, 2000, pages 6640 - 6645
ENGLER,C. ET AL., PLOS ONE, vol. 4, 2009, pages e5553
ESQUERRA-RUVIRA BELEN ET AL: "Identification of the EH CRISPR-Cas9 system on a metagenome and its application to genome engineering", MICROBIAL BIOTECHNOLOGY, vol. 16, no. 7, 25 April 2023 (2023-04-25), GB, pages 1505 - 1523, XP093133528, ISSN: 1751-7915, DOI: 10.1111/1751-7915.14266 *
FEDOROVA, I. ET AL., NUCLEIC ACIDS RES., vol. 48, no. 21, 2020, pages 12297 - 12309
FINN, R. D. ET AL., NUCLEIC ACIDS RES., vol. 39, 2011, pages W29 - W37
FUCHSBAUER, O. ET AL., MOL. CELL, vol. 73, no. 4, 2019, pages 714 - 726
GASIUNAS, G. ET AL., NAT. COMMUN., vol. 11, no. 1, 2020, pages 1 - 10
HARRINGTON, L. B. ET AL., NAT. COMMUN., vol. 8, no. 1, 2017, pages 1 - 12
HIRANO, S. ET AL., NAT. COMMUN., vol. 10, no. 1, 2019, pages 1 - 11
HYATT, D. ET AL., BMC BIOINFORMATICS, vol. 11, no. 1, 2010, pages 1 - 11
JIAN, W. ET AL., NAT. BIOTECHNOL., vol. 31, no. 3, 2013, pages 233 - 239
JINEK, M. ET AL., SCIENCE, vol. 337, no. 6096, 2012, pages 816 - 821
JINEK, M. ET AL., SCIENCE, vol. 343, no. 6176, 2014, pages 1247997
JOLANY VANGAH, S. ET AL., BIOL PROCED ONLINE, vol. 22, no. 1, 2020, pages 1 - 14
LI,H. ET AL., BIOINFORMATICS, vol. 25, 2009, pages 2078 - 2079
LINDSAY,H. ET AL., NAT BIOTECHNOL, vol. 34, 2016, pages 701 - 702
MALI, P. ET AL., SCIENCE, vol. 339, no. 6121, 2013, pages 823 - 826
NISHIMASU, H. ET AL., CELL, vol. 162, no. 5, 2015, pages 1113 - 1126
NURK, S. ET AL., GENOME RES., vol. 27, no. 5, 2017, pages 824 - 834
RODRIGUEZ-R,L.M.KONSTANTINIDIS,K.T., PEERJ PREPRINTS, vol. 4, 2016, pages e1900v1
SALAMOV, V. S. A.SOLOVYEVAND, A.: "Metagenomics and its applications in agriculture, biomedicine and environmental studies", NOVA SCIENCE PUBLISHERS, 2011, pages 61 - 78
SCHMIEDER, R., EDWARDS, R., BIOINFORMATICS, vol. 27, no. 6, 2011, pages 863 - 864
SRIVASTAVA, S.UPADHYAY, D. J.SRIVASTAVA, A., FRONT. MOL. BIOSCI., vol. 7, 2020, pages 378
YAMADA, M. ET AL., MOL. CELL, vol. 65, no. 6, 2017, pages 1109 - 1121

Also Published As

Publication number Publication date
ES2970263A1 (es) 2024-05-27
ES2970263B2 (es) 2024-10-11

Similar Documents

Publication Publication Date Title
US20210261938A1 (en) Evolution of cytidine deaminases
EP3178935B1 (en) Genome editing using campylobacter jejuni crispr/cas system-derived rgen
AU2021231074B2 (en) Class II, type V CRISPR systems
CN113286880A (zh) 调控基因组的方法和组合物
US20240309404A1 (en) Base editing enzymes
WO2023039436A1 (en) Systems and methods for transposing cargo nucleotide sequences
CA3190758A1 (en) Systems and methods for transposing cargo nucleotide sequences
WO2024084124A1 (es) PROTEÍNA ENDONUCLEASA Cas9 Y SISTEMA CRISPR-Cas ASOCIADO
EP4209589A1 (en) Miniaturized cytidine deaminase-containing complex for modifying double-stranded dna
US20220228134A1 (en) Dna-cutting agent based on cas9 protein from the bacterium pasteurella pneumotropica
RU2788197C1 (ru) Средство разрезания ДНК на основе Cas9 белка из бактерии Streptococcus uberis NCTC3858
Esquerra‐Ruvira et al. Identification of the EH CRISPR‐Cas9 system on a metagenome and its application to genome engineering
RU2778156C1 (ru) Средство разрезания ДНК на основе Cas9 белка из бактерии Capnocytophaga ochracea
Lee Anti-CRISPR proteins: Applications in genome engineering
US20220017896A1 (en) Dna cutting means based on cas9 protein from defluviimonas sp.
Esquerra et al. Identification of the EH CRISPR-Cas9 system on a metagenome and its application to genome engineering
WO2024086669A2 (en) Gene editing systems comprising reverse transcriptases
AU2023248451A1 (en) Cas9 variants having non-canonical pam specificities and uses thereof
WO2024187140A2 (en) Class 2, type v crispr systems
WO2024187119A2 (en) Systems and methods for transposing cargo nucleotide sequences
WO2023039434A1 (en) Systems and methods for transposing cargo nucleotide sequences
KR20220145324A (ko) 세균 파스퇴렐라 뉴모트로피카 유래 cas9 단백질의 용도
OA20443A (en) DNA-cutting agent based on CAS9 protein from the bacterium pasteurella pneumotropica
AU2019388420A1 (en) DNA-cutting agent
CN118202044A (zh) 碱基编辑酶

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23810117

Country of ref document: EP

Kind code of ref document: A1