WO1999029844A2 - Nouveaux retroelements zam et idemfix, et leur integrase - Google Patents

Nouveaux retroelements zam et idemfix, et leur integrase Download PDF

Info

Publication number
WO1999029844A2
WO1999029844A2 PCT/FR1998/002533 FR9802533W WO9929844A2 WO 1999029844 A2 WO1999029844 A2 WO 1999029844A2 FR 9802533 W FR9802533 W FR 9802533W WO 9929844 A2 WO9929844 A2 WO 9929844A2
Authority
WO
WIPO (PCT)
Prior art keywords
sequence
integrase
zam
vector
gene
Prior art date
Application number
PCT/FR1998/002533
Other languages
English (en)
Other versions
WO1999029844A3 (fr
Inventor
Pascal Leblanc
Chantal Vaury
Original Assignee
Universite D'auvergne
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universite D'auvergne filed Critical Universite D'auvergne
Publication of WO1999029844A2 publication Critical patent/WO1999029844A2/fr
Publication of WO1999029844A3 publication Critical patent/WO1999029844A3/fr

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/43504Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from invertebrates
    • C07K14/43563Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from invertebrates from insects
    • C07K14/43577Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from invertebrates from insects from flies
    • C07K14/43581Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from invertebrates from insects from flies from Drosophila
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K38/00Medicinal preparations containing peptides
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K48/00Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2799/00Uses of viruses
    • C12N2799/02Uses of viruses as vector
    • C12N2799/021Uses of viruses as vector for the expression of a heterologous nucleic acid

Definitions

  • the present invention relates to the ZAM and Idemfix retroelements identified in Drosophila melanogaster as well as the integrase of these retroelements capable of carrying out the insertion of a nucleotide sequence at a specific site of a genome comprising at least one sequence having at least 80% of homology with the sequence 5XCGCGC-3 'and a poly (TA) sequence respectively.
  • the ZAM and Idemfix feedbacks have been sequenced in their entirety.
  • the invention also relates to a method for inserting a heterologous sequence at a specific site in a DNA molecule and integration vectors. The invention relates more particularly to the fields of transgenesis and gene therapy.
  • vectors derived from retroviruses One of the most widely used techniques today is that involving the use of vectors derived from retroviruses.
  • the advantages provided by this type of vector are indeed numerous: efficiency of penetration of genetic material into the host cell, active and efficient system of entry into the nucleus of the target cell, relatively large gene expression, potentiality to be able to target a particular type of cells thanks to the control of the binding of the vector to the target cell and thus allow gene expression under control of a tissue specificity, and finally these vectors are so widely implemented that they give rise to to a large amount of available data, both experimental and clinical.
  • retroviral integration system does indeed show very low target site specificity and the integrations are carried out at random on the chromosomes leading to various mutations. Integration near a proto-oncogene, for example, can lead to ectopic gene activation that causes cancer. Conversely, retroviral integration can also lead to inactivation of the gene affected by the insertion.
  • Retroviruses are viruses whose genetic information is carried by two RNAs with positive strands.
  • the viral genome contains the three genes gag, pol and env which code respectively for the capsid proteins, for enzymatic proteins essential to its life cycle (protease (PR), reverse transcriptase (RT), Rnase H (R) and integrase (IN)) and for the envelope protein.
  • the retrovirus life cycle consists of an extracellular stage (infection of the target cell) and an intracellular stage (replication of its genetic material).
  • the first phase consists of the attachment of the virus, via its envelope protein, to a specific receptor present on the surface of the target cell.
  • the second takes place in several stages.
  • the polyprotein GAG-POL is cleaved by the viral protease (PR) into individual components. This process is essential for replication of the retrovirus.
  • PR viral protease
  • the integrase remains associated with a nucleoprotein complex (pre-integration complex) which contains the new synthesized proviral DNA but also the GAG and POL proteins (Bowerman et al., 1989). This pre-integration complex migrates to the nucleus where the integration of the proviral form takes place.
  • the integration process takes place in two stages. The first is located in the cytoplasm inside the capsid, where the integrase allows an endonucleolytic reaction which generally removes two nucleotides at the 3 'end of the newly synthesized viral linear DNA. The second consists, after transport in the nucleus, of the junction of the viral DNA cleaved in 3 'and the DNA of the host chromosome by means of a concerted reaction of strand transfer. The two ends of the viral DNA will join the target DNA resulting in duplication of the target sequence across the bound proviral DNA. The nature and size of this duplicate region is specific to the virus.
  • a purified protein integrase is capable of carrying out this strand transfer reaction, when it is coupled to a DNA substrate (Chow et al., 1992). Regarding their structure, retroviral integrases have very conserved domains essential to their proper functioning.
  • the N-terminal region (located between residues 1 and 50 in the case of HTV-1) contains a very "HHCC" type motif (H for Histidine and C for Cysteine), which resembles a zinc finger domain found in transcription factors (Burke et al., 1992; McEuen et al., 1992; Bushman et al., 1993); The exact contribution of this zinc finger domain in the catalytic activity of integrase is still unclear.
  • HHCC HHCC
  • the central region (located between residues 50 and 212) contains three invariant acid residues commonly called the domain "D, D-35-E” (D for aspartic acid and E for glutamic acid). This domain is very conserved from retroviral integrases to eukaryotic and prokaryotic transposases (Kulkosky et al., 1992; Doak et al., 1994; Rice and Mizuuchi, 1995).
  • the present invention relates to the identification and complete sequencing of a new retroelement called ZAM and identified in Drosophila melanogaster.
  • ZAM a a size of 8.4 kilobases and its sequence is reported in SEQ ID No. 1.
  • ZAM consists of three gg, pol and env genes coding for proteins analogous to those found in retroviruses, namely respectively the capsid protein, proteins with enzymatic activity (protease, reverse transcriptase, Rnase H and integrase) and the envelope protein.
  • the three reading frames (ORFs) are framed by long repeated regions (LTRs).
  • ZAM has the serine specific transfer RNA binding site (PB S site) in its 5 'region and a region rich in polypurines at the 3' end. These two regions are used for the reverse transcription process.
  • the subject of the present invention is therefore in particular a nucleotide sequence corresponding to: a) the sequence according to SEQ ID No. 1 in whole or in part, or b) a sequence hybridizing with the sequence according to a), or c) a sequence having at least 80%, preferably 90% homology with a sequence according to a) or b). More particularly, this sequence corresponds to all or part of the ZAM retroelement of Drosophila melanogaster.
  • the ZAM feedback element includes the gene for an integrase.
  • This retroviral integrase is capable of directing the integration of a nucleic acid sequence into a specific region of a genome which comprises a sequence having at least 80% identity with the sequence 5'-CGCGC-3 ', in particular with the sequence 5'-CGCGCg-3 ⁇ "g" means that the probability is strong to find a G at this 3 'end in position +6.
  • the integration of a nucleic acid sequence can be carried out with the aim of inactivating or inhibiting all or part of the expression of a gene in a target cell; it can also include a gene of interest intended to compensate for a total or partial deficiency of the corresponding native gene.
  • the ZAM retroelement integrase sequence is reported in SEQ ID No. 2.
  • the present invention therefore also relates to a nucleotide sequence corresponding to a gene comprising: a) the sequence according to SEQ ID No. 2 in whole or in part, or b) a sequence hybridizing with the sequence according to a), or c) a sequence having at least 80%, preferably 90% of homology with a sequence according to a) or b), or d) a sequence coding for a protein encoded by a gene according to a), b) or c) or an equivalent protein.
  • the invention therefore also relates to sequences coding for the integrase of ZAM taking into account the degeneracy of the genetic code and for any equivalent protein.
  • protein equivalent to ZAM integrase or “equivalent integrase” is meant a protein which, without having a sequence and / or a structure strictly identical to ZAM integrase, has an activity identical or similar to the latter or produces the same effects; this is particularly the case for proteins deleted and / or having undergone point mutations.
  • the study of the integrase according to the invention has shown that it exhibits all the characteristics of the retroviral integrases mentioned above, namely an HHCC domain on the N-terminal side, a D domain, D-35-E.
  • the present invention relates to an integrase, which may be an equivalent integrase, coded by a sequence as defined above, characterized in that it directs the integration of a heterologous nucleic acid in a DNA molecule into a specific site comprising at least one sequence having at least 80% homology with the 5'-CGCGC-3 'sequence, in particular at a specific site comprising at least one sequence having at least 80% homology with the 5'- sequence CGCGCg-3 '.
  • the invention also relates to a method of inserting a heterologous sequence at a specific site in a DNA molecule, in particular in a genome, characterized in that it implements the integrase according to the invention.
  • the present invention also relates to a vector for integrating a nucleic acid sequence, or even a gene of interest, which comprises, in addition to the nucleic acid sequence to be integrated, a nucleic acid sequence necessary for proceed with said integration.
  • This sequence is one of the nucleotide sequences in accordance with the invention and preferably a sequence corresponding to all or part of or having a high homology with the integrase in accordance with the invention.
  • nucleotide acid sequence corresponding to the integrase may only code for a part of it or a mutated form of it if the resulting polypeptide has an activity identical or similar to that of the wild-type integrase .
  • the vectors capable of being used in the context of the invention are vectors of the adenoviral, retroviral, plasmid type or any transposon or retrotransposon capable of fulfilling the same function.
  • the vector according to the invention in addition to, for example, the integrase and the nucleic acid sequence to be integrated, must include all the elements necessary for the expression of the integrase in the host cell, whether the latter is eukaryotic or prokaryotic.
  • the vector can also include all or part of the ZAM retroelement which already includes the elements in question.
  • the present invention also relates to a pharmaceutical composition comprising a vector according to the invention as well as a pharmaceutically acceptable carrier.
  • the invention also relates to the use of a vector in accordance with the invention for carrying out transgenesis or for the preparation of a medicament intended for gene therapy.
  • Figure 1 Complete sequence of the ZAM retroelement of Drosophila melanogaster
  • Figure 2 Structure of the IR6Rcv allele
  • the structure of the w IR6Rev allele is presented as follows: the black square regions indicate the exons while the thin lines joining them indicate the introns. Exons 1 and 2 of the white gene are the only white exons represented. The DNA upstream of the gene is represented by dashes. The factor I and 9kb sequence insertion sites are indicated by triangles. The orientation of factor I is indicated by an arrow.
  • Figure 4 Multiple alignment of the amino acid sequence deduced from the regions /; -? /
  • accession numbers are as follows: TED, B36329 and C36329; gypsy, GNFFG1 and ENV1-DROME; 297, B24872 and ENV2-DROME; 17.6, GNFF17 and Y172-DROME; to, S34639 and S34640; MoMuLV, POL-MLVMO and HIV2, 1072794.
  • the schematic drawings show the non-spliced genomic RNA and the spliced ORF3 transcript. The numbers correspond to the nucleotides of the splicing donor site (531) and the acceptor site (6387), the position where polyadenylation took place (8306) and the site where transcription initiation began (329).
  • 5U, E1, E2, E3, E4 and E5 are the nucleotides used for PCR amplifications and for sequence analysis.
  • (C) Nucleotide sequence of ZAM splicing sites.
  • the two genomic sequences are those of the leader region and of the start of ORF3.
  • the sequence of the subgenomic RNA is that originating from the PCR amplification of the cDNA.
  • Figure 6 Predicted amino acid sequence of the splicing product of ORF3
  • the thick underline indicates the location of the signal peptide (SP) of the precursor protein and the transmembrane domain (TM).
  • the asparagine (N) residues in the N-glycosylation sites according to the NXS / T consensus sequence are in squares.
  • a putative proteolytic cleavage site and cysteine residues are underlined with a thick line.
  • the black arrow indicates the possible site of cleavage which eliminates the signal peptide.
  • Figure 7 Formation of Retrogen Envelope
  • (A) represents a simplified structure of ZAM as well as its mRNA-e / .v.
  • Long-matrix PCR was carried out on the genomic DNA of strains with low copy (Canton S and w IR6 ) and high copy of ZAM (w IR6R v and Charolles) using the oligonucleotides 5U and El.
  • the two formation cascades of the genomic envelope DNA which is spliced and deleted (Charolles) are presented in (B) (formation of retrogen) and in (C) (formation of pseudogen).
  • (Bl) presents the structure of the ZAM retrogen identified in Charolles strains. The empty and crossed out squares represent the complete and incomplete LTRs respectively.
  • ASO Antisense Splice Oligonucleotide
  • SDO Sudden Deletion Oligonucleotide
  • ASO and SDO are located respectively at the splice junction (SJ) and at the deletion site (triangle).
  • SD and SA are respectively the donor and acceptor splicing sites.
  • H symbolizes the site of action of the Hhal restriction endonuclease used for reverse PCR.
  • the stocks of flies are maintained on a corn-glucose-yeast nutrient medium at 20 ° C.
  • the strains of Charolles, SV-XX (wvl 4 , C (1) DX, yf), w ! R6 , Canton S, and RevI come from the collection of INSERM U384.
  • genomic DNA was carried out from Drosophila strains according to the protocol of Udomkit et al., 1995.
  • the DNA was then transferred onto the Hybond N + membrane by capillary action in a solution containing 3.6 M NaCl, 0.2 M Na phosphate, 0.02 M EDTA pH 7.7.
  • the filters were washed in 2X SSC, 0.1% SDS at 42 ° C and in 0.1X SSC, 0.1% SDS at 42 ° C.
  • the fragments used as probe were purified by gel and labeled with ⁇ [ 32 P] -dCTP by "random priming" (Stratagene).
  • the PCR amplification was performed with the Boehringer system (Expand 'Long Template PCR System). The conditions and procedures are described in the manufacturer's protocol.
  • the primers ol and o2 (SEQ ID No. 3 and SEQ ID No. 4 respectively) were used to amplify the complete element ZAM present at the locus w IR6Rev ; 5U and p2 (SEQ ID No. 5 and SEQ ID No. 6 respectively) to amplify the P3 fragment corresponding to the 5 'region of ZAM ( Figure 3).
  • Primer ol (PstI site): 5 'GTT GTC CCC TGC AGT AAA TGC 3'(6510; 6530)
  • Primer o2 (Hpal site): 5 'GAG CCA GTT AAC TGG CAT TCC 3'(7311; 7291)
  • Primer 5U 5 'CAG CCG GAA AAC TGG AAT GGA 3'(478; 498)
  • Primer p2 5 'GGG TTG TAG AAT ATG TCG CGA 3'(3658; 3678)
  • the sequence of the ZAM element was determined by subcloning the product obtained by PCR of Pstl-Hpal in the vector SK pBluescript (Stratagene).
  • the double stranded arrays were prepared using QUIAGEN TM columns and were sequenced on both strands by chain termination by dideoxynucleotide using the DNA Dye Terminator Cycle Sequencing Kit (Perkin Elmer), and the samples were loaded onto an analyzer. of sequence ABI377. Two or more sequences of the same cloned fragment from independent amplifications were determined to eliminate potential errors from PCR amplification. 5) Extraction and isolation of RNA by poly (A) +
  • RNA from 0-24 hour old flies were extracted using the guanidine-HCl method (Cox, 1968). After treatment for 10 minutes at 65 ° C, the total RNA was loaded onto a cellulose-oligo (dT) column and the poly (A) + RNAs were isolated (Aviv and Leder, 1972).
  • the BH antisense RNA probe was synthesized from the HindIII-BglII fragment of ZAM 1ORF3 (FIG. 3) cloned into the vector pBluescriptlI using the procedures established by Maniatis et al., 1989. A DNA probe originating from the Actin gene -SC was used to control the loading of RNA. Northern blots were produced according to the protocol described by Lajoinie et al., (1995) .7)
  • the reverse and complementary primer 5U rc was radioactively labeled at its 5 ′ end by the polynucleotide kinase T4 and by [ ⁇ 32 P] ATP.
  • the radioactively labeled primer was hybridized to the total RNAs of w IR6Rev and extended using reverse transcriptase from Avian Myeloblastosis virus (VAM). The analysis of the products was carried out according to Triezenberg, 1992.
  • the first strand of the cDNA was produced using the BRL kit for the synthesis of the first strand of cDNA on the total RNA w IR6Rev .
  • a modified oligo dT primer which n follow repeat oi J PCT / FR98 / 0 99/29844
  • oligo dT primer SEQ ID N ° 8
  • Primer adapter (SEQ ID N ° 9): 5 'GAC TCG AGT CGA CAT CG 3' Specific primer of ZAM env (SEQ ID N ° 10): 5 'TCA ACA GAA GAG CAC CC 3' (7642; 7658)
  • RNA from adult flies 500 ng of poly (A) + RNA from adult flies were transcribed in the opposite direction to give single-stranded cDNAs using the single-stranded cDNA synthesis kit from BRL following the protocol provided by the manufacturer. 2 ⁇ l of the cDNA reservoir were used for the PCR amplification with the specific 5U oligonucleotides and those described below.
  • Primer El (SEQ LD N ° 1 1): 5 'TGG TGT ATG GTA CCG ATG GGT 3' (7971;
  • Primer E2 (SEQ ID N ° 12): 5 'TGT GAG TGT ATC CAG GTG 3' (7732; 7749)
  • Primer E3 (SEQ ID N ° 13): 5 'ATG TCG CAG TAG CTG GTC 3'(7437; 7454)
  • Primer E4 (SEQ LD N ° 14): 5 * TGT CTT GTC TAA GAT GAG 3 '(6706; 6723)
  • Primer E5 (SEQ ID N ° 15): 5 * CAT GTT GCC GGT GAC GAC 3 '(6706; 6723)
  • ASO and SDO Antisense Splice Oligonucleotide and Sensé Deletion Oligonucleotide were used as a primer in the PCR experiment.
  • ASO primer SEQ ID N ° 16: 5 'CCC CAT GGC AAG ATA ATA ATA GAA C 3' SDO primer (SEQ ID N ° 17): 5 'GTA CTT AAT ATA TAA AGG AAA CGG G 3'
  • the 9 kb insert is similar to a retroviral element
  • PCR experiments have been undertaken (see above, materials and methods).
  • the restriction map was established and verified by southern blotting of genomic DNA ( Figure 3 A).
  • the products obtained by PCR were cloned into sub-fragments comprising the complete insertion (FIG. 3B).
  • the insertion has the typical structure of the gypsy retrovirus (FIG. 3A), but it is part of a family clearly distinct from the transposable elements described to date in D. melanogaster.
  • ZAM has long terminal repeats (LTR) of 473 bp at these two ends. Both LTRs have 7 bp long reverse repeats at their 5 'and 3' ends.
  • the 5 'and 3' LTRs of ZAM are effectively bordered by a primer binding site (primer binding site PBS) complementary to a cellular tRNA and by a poly-purine sequence (polypurine tract PPT ).
  • PBS primer binding site complementary to a cellular tRNA
  • poly-purine tract PPT poly-purine tract
  • ZAM PBS has 12 bp complementary to the 3 'end of the D. melanogaster ser tRNA.
  • the first motif is located at position 208 (TATAAA) and the second, which corresponds to a retroviral TATA box, is located at position 312.
  • the latter has a signal sequence which corresponds to a potential polyadenylation signal.
  • the ZAM insertion site in the w IR6Rev allele shows a target duplication of CGCGCG at the boundaries of the element. 3 Analysis of the ZAM sequence
  • LORF2 from ZAM ( Figure 1) codes for a protein of 1217 amino acids which includes sequences similar to other Pol poly-proteins (Xiong and Eickbush, 1990). Analysis by BLAST-X software (Altschul et al, 1990) revealed four areas:
  • the protease domain includes the short sequence Aspartic acid-Threonine-Glycine (DTG), described as the active site of Aspartyl (acid) proteases by Rawlings and Barret, 1995.
  • the reverse transcriptase (rt) characterized by the motif preserved, called YxDD box, which corresponds to its catalytic center (Yuki et al., 1986).
  • the integrase domain (int), which includes a potential Zinc ion binding site domain (called "Zinc finger”) and a DD35E motif characteristic of the active sites of Integrases (Polard and Chandler, 1995).
  • Figures 4A, B, C, D show the partial alignments of these domains with those of vertebrate retroviruses and the like.
  • ZAM RNAs vary quantitatively and qualitatively according to the strains
  • RNAs were extracted from adult flies W IR6 and ⁇ y IR6R v , from the LCN and HCN strains respectively.
  • the nylon filter was first probed with the BH riboprobe (FIG. 5B) corresponding to the env gene of ZAX1 and was then probed with a clone of the actin gene in order to control the charge of the samples deposited on the gel.
  • the results are compiled in FIG. 5.
  • Two main transcripts were identified in the strain w IR6Rev : a transcript of 8.6 kb and one of 1.7 kb. The 8.6 kb RNA is not detected in the W IR6 strain. Although more RNA was loaded in the case of W IR6 , only 1.7 kb RNA was observed in this strain.
  • RNAs of the strain w IR6Rev were determined by the armor extension method (see above, materials and methods). Transcription begins at position 329 of the 5 'LTR. This suggests that the TATA box at position 312, as predicted by computer analysis, is used as the transcription initiation site ( Figure 5B). The 3 'ends of the RNAs were determined by RT-PCR. The polyadenylation of ZAM RNA takes place at 26 bp downstream of the AATAAA site of the 3 'LTR, at the sequence CAAGCAGC- (A) n (position 8306, FIG. 5B).
  • the 8.6 kb and 1.7 kb transcripts have the same 5 'ends and 3 '.
  • the 8.6 kb RNA corresponds to the total length of ZAM beginning in the 5 'LTR region and ending in the 3' LTR region, it could be a intermediary of transposition.
  • 1.7 kb RNA is present in all strains tested. Since the mRNAs of the envelope of retroviruses such as HIV1 or gypsy are produced by splicing of the complete trancripts which eliminates the open gag and pol reading phases, the structure of the 1.7 kb transcript of ZAM was analyzed.
  • the ZAM element encodes a genomically spliced transcript of ORF3 having the characteristics of a functional retroviral mRNA
  • the identified splice junctions present the consensus 5 'and 3' splice sites characterized by the presence of GT dinucleotides at the donor site and AG at the acceptor site.
  • the splice donor site is located at position 531, 59 bp downstream of the start of the PBS of the tRNA; the acceptor site is located at position 6387 ( Figure 5C).
  • Figure 20 shows the amino acid sequence predicted by translation of the subgenomic RNA and highlights the typical structural motifs of the polypeptide encoded by the ZAM envelope.
  • the N-terminal sequence of 22 amino acids (position 3-24) has the characteristics of a signal peptide (Hunter and Swanstrom, 1990). A potential cleavage site for this peptide was identified using signalp software (Von Heijne, 1983).
  • a second hydrophobic region of 19 amino acids comprising residues 485 to 503 is located at the expected site for a transmembrane domain TM (Coffin et al., 1990). The cytoplasmic part would correspond to residues 506-551.
  • This genomic sequence of the ZAM envelope would most probably result from the reverse transcription of an ORF3 RNA from ZAM and the subsequent integration into the host genome.
  • the internal deletion is presumed to represent an independent secondary mutation. There are two possibilities:
  • pseudogenes generated by this latter mechanism are characterized by three diagnostic elements: They do not have the promoter sequence upstream, they have no introns and have a poly-A tail at their 3 ′ end.
  • a sequence, belonging to a retro-transposon with LTRs, and integrated by a transposition process, would also have no intron, but would instead be framed by complete LTRs and would not have a poly-A tail.
  • the genomic localization of the copies of ZAM has been studied in different strains by in situ hybridization on the polytene chromosomes of third instar larvae.
  • the images presented ( Figure 3) show typical results when the chromosomes were hybridized with the Hpal-PstI probe containing the complete ZAM element framed by the sequences upstream of white.
  • the high copy number Charolles strain (A) has 15 hybridization signals scattered across the arms of the chromosomes and surrounding the centers of the chromosomes. A weak hybridization signal can be seen in the heterochromatic region of the genome.
  • the ⁇ ⁇ IR6R v (B) strain has about 15 hybridization signals, but they are located mainly on the X chromosome.
  • the Canton S strain with low copy number exhibits only a few weak signals in the heterochromatic region and no signals on the arms of the chromosomes.
  • the strain W IR6 has the same hybridization signal fingerprint as Canton S except for two signals located respectively on chromosomes X and three.
  • the first insertion site (duplicated sequence) of ZAM was first highlighted during the cloning of the element by the PCR technique as described in Example I.
  • the cloning of an independent ZAM element has shown that the same sequence is duplicated across the element. Analysis of these duplicated sequences showed the existence of a cleavage site by the Hhal restriction endonuclease.
  • the ZAM element presents three internal Hhal sites in addition to the sites located in its flanking sequences.
  • the genomic DNA of different strains has been treated with the restriction enzyme Hhal.
  • the fragments obtained were separated on an agarose gel, transferred to a nylon membrane and hybridized with a ZAM probe labeled with ⁇ [P 32 ] dCTP.
  • the PCR program used consists of: 1 cycle 2 min at 95 ° C, 35 cycles 45 sec at 94 ° C, 45 sec at 60 ° C, 45 sec at 72 ° C, and 1 cycle 10 min at 72 ° C. Fragments of variable size (between 200 to 500 bp) were amplified and cloned in the vector pGEMT (Promega) and sequenced with the sequencer ABI 377 (Perkin Elmer). The sequences of 60 clones were thus determined. The sequences of 16 independent clones were aligned, see table 1 below. 99/29844
  • Table 1 Consensus specific integration site recognized by the ZAM integrase.
  • N represents the possibility of observing C, T, A- or G
  • the present invention also relates to the identification and complete sequencing of a new retroelement called Idemfix and identified in Drosophila melanogaster.
  • Another integrase originating from a retroelement called “ZAM” has been demonstrated by the applicant in Drosophila melanogaster (Leblanc et al., 1997).
  • ZAM integrase originating from a retroelement
  • This integrase is particularly interesting for these applications in the field of transgenesis because it allows the integration of heterologous sequences at CGCGCGg sites in the genome of an organism.
  • the Applicant has surprisingly found a new element of the retrovirus type, distinct from ZAM, which has an integrase of poly specificity (TA).
  • the present invention also relates to the identification and complete sequencing of a new retroelement called Idemfix and identified in Drosophila melanogaster.
  • This transposable element has a site-specific integrase which can be used for any useful purpose, in particular for the integration of heterologous DNA into the genome of an organism at a specific site.
  • the present invention therefore relates to a nucleotide sequence corresponding to:
  • sequence according to SEQ ID No. 20 in whole or in part, or b) a sequence hybridizing with the sequence according to a), or c) a sequence having at least 80%, preferably 90% homology with a sequence according to a) or b).
  • Said sequence corresponds to all or part of the Idemfix retroelement of Drosophila melanogaster.
  • Another aspect of the invention relates to a nucleotide sequence corresponding to a gene comprising: a) the sequence according to SEQ ED No. 21 in whole or in part, or b) a sequence hybridizing with the sequence according to a), or c) a sequence having at least 80%, preferably 90% of homology with a sequence according to a) or b), or d) a sequence coding for a protein coded by a gene according to a), b) or c) or a protein equivalent.
  • Said nucleotide sequence corresponds to the integrem of the Idemfix retroelement of Drosophila melanogaster or to an equivalent integrase.
  • This integrase which can be an equivalent integrase, is characterized in that it directs the integration of a heterologous nucleic acid in a DNA molecule at a specific site comprising a poly (TA) (or poly (AT) sequence ) or at least one sequence having at least 80% homology with the sequence 5'- TATATATAT-3 '.
  • TA poly (TA)
  • AT poly (AT) sequence
  • a nucleic acid sequence can be carried out with the aim of inactivating or inhibiting all or part of the expression of a gene in a target cell; it can also include a gene of interest intended to compensate for a total or partial deficiency of the corresponding native gene.
  • the invention therefore also relates to sequences coding for the integrase dfdemfix taking into account the degeneracy of the genetic code and for any equivalent protein.
  • protein equivalent to the integrase of Ademfix or equivalent integrase, is meant a protein which, without having a sequence and / or a structure strictly identical to the integrase of Idemfix, exhibits an activity identical or similar to the latter or produces the same effects; this is particularly the case for proteins deleted and / or having undergone point mutations.
  • the invention also relates to a method for inserting a heterologous sequence at a specific site in a DNA molecule, in particular in a genome, characterized in that it implements the integrase according to the invention. This method is particularly intended to allow the expression of a heterologous gene in an organism or to inactivate an endogenous gene in an organism.
  • the present invention also relates to a vector for integrating a nucleic acid sequence, or even a gene of interest, which comprises, in addition to the nucleic acid sequence to be integrated, a nucleic acid sequence necessary for proceed with said integration.
  • This sequence is one of the nucleotide sequences according to the invention and preferably a sequence corresponding to all or part of or having a high homology with the integrase according to the invention.
  • the nucleotide acid sequence corresponding to the integrase may only code for a part of it or a mutated form of it if the resulting polypeptide has an activity identical or similar to that of the wild-type integrase .
  • the vectors capable of being used in the context of the invention are vectors of the adenoviral, retroviral, plasmid type or any transposon or retrotransposon capable of fulfilling the same function.
  • the vector according to the invention in addition to, for example, the integrase and the nucleic acid sequence to be integrated, must include all the elements necessary for the expression of the integrase in the host cell, whether the latter is eukaryotic or prokaryotic.
  • the vector can also include all or part of the Idemfix retroelement which already includes the elements in question.
  • the subject of the present invention is a pharmaceutical composition
  • a pharmaceutical composition comprising a vector in accordance with the invention and a pharmaceutically acceptable carrier.
  • the subject of the invention is also the use of a vector in accordance with the invention for carrying out transgenesis or for the preparation of a medicament intended for gene therapy.
  • the oligonucleotides used for the PCR amplification of the Idemfix complete insertion are o Pstl and olPvuII, Wl and W2 for the sequencing of the junction site.
  • the transcription initiation site is noted TSS.
  • Idemfix was located inside a repeat (16 times) of the AT motif upstream of white. The letters in bold represent the 9 bp of genomic DNA duplicated during the insertion of Idemfix.
  • Figure 11 Organization and molecular structure of Idemfix.
  • the hatched rectangles represent the LTRs.
  • the open reading phases are symbolized by rectangles below the restriction map.
  • Example 4 Characteristics of the Idemfix retroelement and the insertion site ⁇ 'Idemfix
  • the sequence of the Idemfix element was determined by subcloning the product obtained by PCR of Pstl-PvuII in the vector SK pBluescript (Stratagene).
  • the double stranded arrays were prepared using QUIAGEN TM columns and were sequenced on both strands by chain termination by dideoxynucleotide using the DNA Dye Terminator Cycle Sequencing Kit (Perkin Elmer), and the samples were loaded onto an analyzer. of sequence ABI377.
  • Inserts of identical sizes, and which have the same restriction card, are in the same position in each of the 11 lines.
  • One of the insertions has been cloned and sequenced.
  • This insertion has a structure similar to that of the gypsy-type retrotransposons ( Figure 11). However, it represents a distinct family of transposable elements described so far in Drosophila.
  • This insertion called Idemfix, is framed by two LTRs 594 bp long identical in sequence. Idemfix has a putative tRNA primer binding site (tR-NA PBS).
  • the Idemfix retroelement has a non-coding sequence of 393 bp located upstream of the first open reading phase (ORF), followed by 3 ORF capable of coding for polypeptides similar to the Gag, Pol and Env proteins found in vertebrate retroviruses such as the human immunodeficiency virus, the murine Moloney leukemia virus (Shinnick, Lerner, and Sutcliffe, 1981; Morrow, Park and Wakefield, 1994) or retroelements such as 297, 17.6, gypsy, Zam, tom and Ted (Leblanc et al. 1997).
  • ORF first open reading phase
  • the ORF 1 of Idemfix is 348 amino acids long, and contains a particular distribution of asparagine residues (11% of amino acids).
  • LORF2 from Idemfix codes for a protein of 1151 amino acids and notably includes sequences similar to other Pol proteins (Xiong and Eickbush 1990). Analysis with the Blast-X program (Altschul et al, 1990) revealed four identifiable areas:
  • protease domain with a short Asp-Thr-Gly sequence (DTG) which corresponds to the active site of acidic proteases, - reverse transcriptase (rt) characterized by the conserved motif called "YxDD box",
  • NXS / T consensus sequence Asp-X-Ser or Thr (NXS / T), as well as cysteine residues similar to those known in retroviruses for directing the attachment between surface proteins and transmembrane proteins, are located upstream of the transmembrane domain.
  • the Idemfixlwhite junctions were sequenced on both sides of the element.
  • the PCR products were obtained from the following primers: olPstl (5'- GCA TTT ACT GCA GGG GAC AAC-3 ') and olPvull (5'- CTG CCG CCA TCA GCT GTC CGG G-3')
  • the respective positions of these primers are indicated in FIG. 10.
  • the amplified fragments were treated with the restriction enzymes PstI and Bell and the fragments resulting from this digestion were cloned into the vector pBluescript (Stratagene).
  • the 11 Idemfix insertions are located precisely at the same site in the independent RevII lines (position 5460 of the sequence according to O'Hare et al, 1984). It has thus been demonstrated that the target site is a segment comprising 16 repeats of the AT dinucleotide. Eleven copies of AT are present at the 3 'end, and nine copies of AT + a T are present at the 5' end of Idemfix ( Figure 10). These results demonstrate that there has been a duplication of the 5'-ATATATATA-3 'sequence framing the Idemfix insertions.
  • the site recognized by the Idemfix integrase is a poly (TA) or poly (AT) site, preferably a site comprising at least one sequence having at least 80% homology with the sequence 5'-TATATATAT-3 '.
  • BISANCE a French service for access to biomolecular sequences data bases. Cabios, 6, 355-356.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Zoology (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Insects & Arthropods (AREA)
  • Molecular Biology (AREA)
  • Wood Science & Technology (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Tropical Medicine & Parasitology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Toxicology (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

La présente invention concerne les rétroéléments ZAM et Idemfix identifiés chez Drosophila melanogaster ainsi que l'intégrase de ces rétroéléments capable de réaliser l'insertion d'une séquence nucléotidique en un site spécifique d'un génome comprenant au moins une séquence ayant au moins 80 % d'homologie avec la séquence 5'-CGCGC-3' et avec une séquence poly(TA) respectivement. Les rétroéléments ZAM et Idemfix ont été séquencés dans leur totalité. L'invention concerne également un procédé d'insertion d'une séquence hétérologue en un site spécifique dans une molécule d'ADN et des vecteurs d'intégrations. L'invention s'inscrit plus particulièrement dans les domaines de la transgénèse et de la thérapie génique.

Description

99/ ,-2-„98--4..4-- PCT/FR98/0
NOUVEAUX RETROELEMENTS ZAM ET IDEMFIX- ET LEUR INTEGRASE
La présente invention concerne les retroelements ZAM et Idemfix identifiés chez Drosophila melanogaster ainsi que l'intégrase de ces retroelements capable de réaliser l'insertion d'une séquence nucléotidique en un site spécifique d'un génome comprenant au moins une séquence ayant au moins 80% d'homologie avec la séquence 5XCGCGC-3 ' et une séquence poly(TA) respectivement. Les retroelements ZAM et Idemfix ont été séquences dans leur totalité. L'invention concerne également un procédé d'insertion d'une séquence hétérologue en un site spécifique dans une molécule d'ADN et des vecteurs d'intégrations. L'invention s'inscrit plus particulièrement dans les domaines de la transgénèse et de la thérapie génique.
Les techniques de génie génétique mettant en oeuvre des vecteurs viraux ont largement été développées ces dernières années, les vecteurs en question dérivant des rétrovirus, des adénovirus, des virus associés aux adénovirus, des virus herpétiques... La thérapie génique résulte de la mise en œuvre de ces techniques réalisant la pénétration de l'ADN au sein d'une cellule hôte dans le but d'apporter un nouveau gène pour pallier l'insuffisance qualitative ou quantitative du gène d'origine, de moduler une expression génétique endogène ou de corriger précisément une anomalie d'un gène résultant d'une mutation.
L'une des techniques les plus utilisées à l'heure actuelle est celle faisant intervenir l'utilisation des vecteurs dérivés des rétrovirus. Les avantages apportés par ce type de vecteur sont en effet nombreux : efficacité de pénétration du matériel génétique dans la cellule hôte, système actif et efficace d'entrée dans le noyau de la cellule cible, expression génique relativement importante, potentialité à pouvoir cibler un type de cellules particulières grâce au contrôle de la liaison du vecteur à la cellule cible et ainsi permettre l'expression génique sous contrôle d'une spécificité tissulaire, et enfin ces vecteurs sont si largement mis en œuvre qu'ils donnent lieu à une quantité importante de données disponibles tant expérimentales que cliniques.
Par ailleurs, les vecteurs dérivés des rétrovirus sont les plus utilisés pour le transfert de gène dans le cadre d'une thérapie génique car ils permettent d'intégrer au chromosome hôte des séquences thérapeutiques par des liaisons covalentes précises. Cependant, l'intégration de séquences dans un génome présente de nombreux risques pour l'hôte. Le système d'intégration rétroviral montre effectivement une très faible spécificité de site cible et les intégrations se font au hasard sur les chromosomes entraînant des mutations variées. L'intégration à proximité d'un proto-oncogène, par exemple, peut entraîner l'activation ectopique de gène à l'origine de cancers. A l'inverse, l'intégration rétrovirale peut aussi conduire à une inactivation du gène touché par l'insertion.
De récentes études concernant les sites d'intégration spécifique de séquences d'ADN par des éléments de type rétrovirus (rétrotransposons) suggèrent que cette nouvelle stratégie de thérapie génique empêcherait tout problème d'insertion mutagène par le ciblage de la séquence d'ADN du chromosome hôte où se produit l'insertion et le contrôle de l'intégration de la séquence.
Les rétrovirus sont des virus dont l'information génétique est portée par deux ARN à brins positifs. Le génome viral comporte les trois gènes gag, pol et env qui codent respectivement pour les protéines de la capside, pour des protéines enzymatiques indispensables à son cycle de vie (protéase (PR), réverse transcriptase (RT), Rnase H (R ) et intégrase (IN)) et pour la protéine d'enveloppe. Le cycle de vie du rétrovirus se compose d'une étape extracellulaire (infection de la cellule cible) et d'une étape intracellulaire (réplication de son matériel génétique). La première phase consiste en l'attachement du virus, via sa protéine d'enveloppe, à un récepteur spécifique présent à la surface de la cellule cible. La seconde se déroule en plusieurs étapes. Elle débute dans la capside par transcription réverse des deux ARN en ADN doubles brins linéaires grâce à une protéine codée par le virus lui-même: la réverse transcriptase. Cet intermédiaire ADN pénètre dans le noyau grâce à un complexe nucléoprotéique et s'intègre dans le génome de la cellule hôte grâce à une protéine du virus appelée intégrase. L'ADN du virus intégré dans le génome de l'hôte est alors nommé provirus. Cette forme provirale est ensuite retrouvée dans toutes les cellules filles somatiques résultant des divisions cellulaires successives de la cellule mère infectée.
Après l'entrée de la particule virale dans la cellule infectée, la polyprotéine GAG-POL est clivée par la protéase virale (PR) en composants individuels. Ce processus est essentiel à la réplication du rétrovirus. Dès l'infection d'une nouvelle cellule cible, l'intégrase reste associée à un complexe nucléoprotéique (complexe de préintégration) qui contient le nouvel ADN proviral synthétisé mais aussi les protéines GAG et POL (Bowerman et al., 1989). Ce complexe de préintégration migre vers le noyau où l'intégration de la forme provirale s'effectue.
Le processus d'intégration s'effectue en deux étapes. La première est localisée dans le cytoplasme à l'intérieur de la capside, où l'intégrase permet une réaction endonucléolytique qui généralement enlève deux nucléotides à l'extrémité 3' de l'ADN linéaire viral nouvellement synthétisé. La seconde consiste après transport dans le noyau en la jonction de l'ADN viral clivé en 3' et de l'ADN du chromosome hôte grâce à une réaction concertée de transfert de brins. Les deux extrémités de l'ADN viral vont se joindre à l'ADN cible entraînant une duplication de la séquence cible aux bornes de l'ADN proviral intégré. La nature et la taille de cette région dupliquée est spécifique du virus.
Une protéine intégrase purifiée est capable d'effectuer cette réaction de transfert de brins, quand elle est couplée à un substrat ADN (Chow et al., 1992). Concernant leur structure, les intégrases rétrovirales présentent des domaines très conservés indispensables à leur bon fonctionnement. La région N-terminale (localisée entre les résidus 1 et 50 dans le cas du HTV-1) contient un motif de type "HHCC" (H pour Histidine et C pour Cystéine) très conservé, qui ressemble à un domaine en doigt de zinc trouvé chez les facteurs de transcription (Burke et al., 1992 ; McEuen et al., 1992 ; Bushman et al., 1993); La contribution exacte de ce domaine en doigt de zinc dans l'activité catalytique de l'intégrase est encore non élucidée. Néanmoins, le motif "HHCC" jouerait un rôle dans la formation stable des complexes entre l'intégrase et l'ADN viral (Hazuda et al., 1994, Ellison et Brown, 1994 ; Ellison et al., 1995). La région centrale (localisée entre les résidus 50 et 212) contient trois résidus acides invariants appelés communément le domaine "D, D-35-E" (D pour acide aspartique et E pour acide glutamique). Ce domaine est très conservé des intégrases rétrovirales aux transposases eucaryotes et procaryotes (Kulkosky et al., 1992 ; Doak et al., 1994 ; Rice et Mizuuchi, 1995). Le remplacement de l'un quelconque des résidus acides de ce domaine entraîne la perte complète de l'activité enzymatique de l'intégrase, indiquant que ce domaine constitue le centre catalytique de cette enzyme (Engelman et Craigie, 1992 ; Van Gent et al., 1992 ; Leavitt et al., 1993). Enfin, le domaine C-terminal (moins conservé) est aussi nécessaire pour toutes les étapes d'intégration décrites précédemment. Ce domaine est chargé positivement et semble être impliqué dans des liaisons non spécifiques à l'ADN (Vink et al., 1993 ; Woerner et Marcus- sekura, 1993 ; Engelman et al., 1994). La fonction précise de ce domaine C- terminal n'est cependant pas encore élucidée. RETROELEMENTZAM ET SON INTEGRASE
La présente invention concerne l'identification et le séquençage complet d'un nouveau rétroélément appelé ZAM et identifié chez Drosophila melanogaster.
ZAM a. une taille de 8,4 kilobases et sa séquence est reportée dans SEQ ÏÏD N° 1. Comme les rétrovirus, ZAM est constitué de trois gènes g g, pol et env codant pour des protéines analogues à celles retrouvées chez les rétrovirus, à savoir respectivement la protéine de capside, les protéines à activité enzymatique (protéase, réverse transcriptase, Rnase H et intégrase) et la protéine d'enveloppe. Les trois cadres de lecture (ORFs) sont encadrés par des régions répétées longues (LTRs). ZAM possède le site de liaison à l'ARN de transfert spécifique de la serine (site PB S) dans sa région 5' et une région riche en polypurines à l'extrémité 3'. Ces deux régions sont utilisées pour le processus de transcription reverse.
La présente invention a donc notamment pour objet une séquence nucléotidique correspondant à : a) la séquence selon SEQ ID N° 1 en tout ou partie, ou b) une séquence s'hybridant avec la séquence selon a), ou c) une séquence présentant au moins 80 %, de préférence 90 % d'homologie avec une séquence selon a) ou b). Plus particulièrement, cette séquence correspond à tout ou partie du rétroélément ZAM de Drosophila melanogaster.
Comme indiqué précédemment, le rétroélément ZAM comprend le gène d'une intégrase.
Cette intégrase rétrovirale est capable de diriger l'intégration d'une séquence d'acide nucléique dans une région spécifique d'un génome qui comprend une séquence ayant au moins 80 % d'identité avec la séquence 5'-CGCGC-3', notamment avec la séquence 5'-CGCGCg-3\ « g » signifie que la probabilité est forte de trouver un G à cette extrémité 3' en position +6. Comme précédemment indiqué, l'intégration d'une séquence d'acide nucléique peut être réalisée dans le but d'inactiver ou d'inhiber tout ou partie de l'expression d'un gène dans une cellule cible ; elle peut également comprendre un gène d'intérêt destiné à pallier une déficience totale ou partielle du gène correspondant natif.
La séquence de l'intégrase du rétroélément ZAM est reportée dans SEQ ID N° 2. La présente invention a donc également pour objet une séquence nucléotidique correspondant à un gène comprenant : a) la séquence selon SEQ ID N° 2 en tout ou partie, ou b) une séquence s'hybridant avec la séquence selon a), ou c) une séquence présentant au moins 80 %, de préférence 90 % d'homologie avec une séquence selon a) ou b), ou d) une séquence codant pour une protéine codée par un gène selon a), b) ou c) ou une protéine équivalente.
L'invention concerne donc également des séquences codant pour l'intégrase de ZAM compte tenu de la dégénérescence du code génétique et pour toute protéine équivalente. Par "protéine équivalente" à l'intégrase de ZAM ou « intégrase équivalente » on entend une protéine qui, sans avoir une séquence et/ou une structure rigoureusement identique à l'intégrase de ZAM, présente une activité identique ou similaire à cette dernière ou produit les mêmes effets ; c'est notamment le cas de protéines délétées et/ou ayant subi des mutations ponctuelles. De plus, l'étude de l'intégrase conforme à l'invention a montré qu'elle présentait toutes les caractéristiques des intégrases rétrovirales citées précédemment, à savoir un domaine HHCC du côté N-terminale, un domaine D, D-35-E dans sa partie médiane et une région riche en acides aminés basiques du côté C-terminal. La séquence spécifique d'insertion a d'abord été mis en évidence par le fait que les éléments ZAM peuvent toujours être excisés du génome par l'action des enzymes de restriction Hhal et Thaï qui agissent respectivement sur les séquences GCGC et CGCG. Le système de fonctionnement de l'intégrase occasionne une duplication de la séquence cible qui se retrouve donc de part et d'autre de la séquence intégrée dans le génome de la cellule hôte. Dès lors, on retrouve à chaque extrémité de ZAM des séquences comprenant les sites de restriction de Hhal et Thaï. L'analyse plus exhaustive a permis d'identifier précisément la séquence spécifique minimale pour l'insertion : Séquence ayant au moins 80% d'identité avec la séquence 5'- CGCGC-3', notamment avec la séquence 5'-CGCGCg-3'.
Ainsi, la présente invention vise une intégrase, qui peut être une intégrase équivalente, codée par une séquence telle que définie ci-dessus caractérisée en ce qu'elle dirige l'intégration d'un acide nucléique hétérologue dans une molécule d'ADN en un site spécifique comprenant au moins une séquence ayant au moins 80 % d'homologie avec la séquence 5'-CGCGC-3', notamment en un site spécifique comprenant au moins une séquence ayant au moins 80 % d'homologie avec la séquence 5'-CGCGCg-3'. L'invention concerne également un procédé d'insertion d'une séquence hétérologue en un site spécifique dans une molécule d'ADN, notamment dans un génome, caractérisé en ce qu'il met en œuvre l'intégrase selon l'invention. Ce procédé est particulièrement destiné à permettre l'expression d'un gène hétérologue dans un organisme ou à inactiver un gène endogène dans un organisme. La présente invention a également pour objet un vecteur d'intégration d'une séquence d'acide nucléique, voire d'un gène d'intérêt, qui comprend outre la séquence d'acide nucléique à intégrer, une séquence d'acide nucléique nécessaire pour procéder à ladite intégration. Cette séquence est l'une des séquences nucléotidiques conforme à l'invention et de préférence une séquence correspondant à tout ou partie de ou présentant une forte homologie avec l'intégrase conforme à l'invention. En effet, la séquence d'acide nucléotidique correspondant à l'intégrase peut ne coder que pour une partie de celle-ci ou une forme mutée de celle-ci si le polypeptide résultant présente une activité identique ou similaire à celle de l'intégrase sauvage.
Les vecteurs susceptibles d'être mis en œuvre dans le cadre de l'invention sont des vecteurs de type adénoviral, rétroviral, plasmidique ou tout transposon ou rétrotransposon susceptible de remplir la même fonction. Dans ce cas, il est clair que le vecteur conforme à l'invention, en plus, par exemple, de l'intégrase et de la séquence d'acide nucléique à intégrer, doit comprendre tous les éléments nécessaires à l'expression de l'intégrase dans la cellule hôte, que celle-ci soit eucaryote ou procaryote.
Dans le cadre de la présente invention, le vecteur peut également comprendre tout ou partie du rétroélément ZAM qui comprend déjà les éléments en question. La présente invention a également pour objet une composition pharmaceutique comprenant un vecteur conforme à l'invention ainsi qu'un support pharmaceutiquement acceptable.
L'invention a également pour objet l'utilisation d'un vecteur conforme à l'invention pour réaliser une transgénèse ou pour la préparation d'un médicament destiné à la thérapie génique.
Figure 1 : Séquence complète du rétroélément ZAM de Drosophila melanogaster
Sur cette séquence (correspondant à SEQ ID N° 1) sont notamment indiqués les sites de restriction, les trois cadres de lectures ORFl, ORF2 et ORF3 correspondant aux gènes gag, pol et env respectivement, ainsi que les séquences répétées (LTR et LR)
Figure 2 : Structure de l'allèle IR6Rcv La structure de l'allèle wIR6Rev est présentée comme suit : les régions carrées noires indiquent les exons alors que les lignes fines les joignant indiquent les introns. Les exons 1 et 2 du gène white sont les seuls exons de white représentés. L'ADN en amont du gène est représenté par des tirets. Les sites d'insertion du facteur I et de la séquence 9kb sont indiqués par des triangles. L'orientation du facteur I est indiquée par une flèche.
Figure 3 : Structure moléculaire et organisation de ZAM
(A) Carte de restriction de l'insert 9kb. Les rectangles représentent les séquences répétées longues (Long Terminal Repeats LTRs), les lignes en pointillés représentent les régions non transcrites en amont de white. Organisation des gènes : les phases ouvertes de lecture de gag, pol et env sont symbolisées par des rectangles.
(B) Stratégie du sous-clonage de l'insertion. Les lignes noires représentent des fragments de l'insertion clonée dans le vecteur pBluescript ou amplifiée par PCR à longue matrice (Long Template PCR) P3. Les oligonucléotides utilisés pour l'amplification PCR de l'insertion complète (ol et o2) ou du fragment P3 (5U et p2) sont symbolisés par des flèches.
Figure 4 : Alignement multiple de la séquence d'acides aminés déduite des régions/;-?/
Comparaison de la séquence partielle d'acides aminés des régions conservées de la protéase (A), de la réverse transcriptase (B), de la RNase H (C), de l'intégrase (D) de l'ORF de pol et d'une région conservée (E) de l'ORF de env. Les acides aminés qui sont strictement conservés entre ZAM et les autres membres analysés sont indiqués par un signe +, alors que les acides aminés conservés dans certains éléments et similaires dans d'autres sont indiqués par une étoile. Les tirets indiquent des trous qui sont introduits pour préserver l'alignement. Abréviations : MoMuLV pour Moloney Murine Leukemia Virus ; HIV2 pour Human Immunodeficiency Virus type 2.
Les numéros d'accession (pour pol et env respectivement) sont les suivants : TED, B36329 et C36329 ; gypsy, GNFFG1 et ENV1-DROME ; 297, B24872 et ENV2- DROME ; 17,6, GNFF17 et Y172-DROME ; to , S34639 et S34640 ; MoMuLV, POL-MLVMO et HIV2, 1072794.
Figure 5 : Expression et structure des transcrits de ZAM
(A) Organisation de l'élément Z avec les localisations des différents ORFs. (B) Structure des transcrits genomiques et sous-génomiques de l'élément ZAM. Les dessins schématiques montrent l'ARN génomique non-épissé et le transcrit ORF3 épissé. Les numéros correspondent aux nucleotides du site donneur de l'épissage (531) et du site accepteur (6387), la position où la polyadénylation a eu lieu (8306) et le site où l'initiation de transcription a commencé (329). 5U, El, E2, E3, E4 et E5 sont les nucleotides utilisés pour les amplifications PCR et pour l'analyse de la séquence.
(C) Séquence nucléotidique des sites d'épissage de ZAM. Les deux séquences genomiques sont celles de la région leader et du début de ORF3. La séquence de l'ARN sous-génomique est celle provenant de l'amplification PCR de l'ADNc.
Figure 6 : Séquence d'acides aminés prédite du produit de l'épissage de ORF3 Le soulignement épais indique la localisation du peptide signal (SP) de la protéine précurseur et du domaine transmembranaire (TM). Les résidus asparagine (N) dans les sites de N-glycosylation conformément à la séquence consensus N-X-S/T sont dans des carrés. Un site putatif de clivage protéolytique et des résidus cystéine sont soulignés d'un trait épais. La flèche noire indique le site possible de clivage qui élimine le peptide signal. Figure 7 : Formation du rétrogène Enveloppe
(A) représente une structure simplifiée de ZAM ainsi que son ARNm-e/.v. La PCR à longue matrice a été réalisée sur l'ADN génomique des souches à basse copie (Canton S et wIR6) et haute copie de ZAM (wIR6R v et Charolles) en utilisant les oligonucléotides 5U et El. Les deux cascades de formation de l'ADN enveloppe génomique qui est épissé et délété (Charolles) sont présentées dans (B) (formation du rétrogène) et dans (C) (formation du pseudogène). (Bl) présente la structure du rétrogène ZAM identifié dans des souches Charolles. Les carrés vides et rayés représentent les LTRs complets et incomplets respectivement. ASO (Antisense Splice Oligonucleotide) et SDO (Sensé Deletion Oligonucleotide) sont les amorces spécifiques utilisées pour les expériences de PCR inverse. ASO et SDO sont localisés respectivement à la jonction d'épissage (SJ) et au site de délétion (triangle). SD et SA sont respectivement les sites donneur et accepteur d'épissage. H symbolises le site d'action de l'endonucléase de restriction Hhal utilisée pour la PCR inverse.
EXEMPLE 1 : IDENTIFICATION ET ANALYSE DE L'ELEMENT ZAM
I- Matériels et méthodes
1) Les stocks de mouches
Les stocks de mouches sont maintenus sur un milieu nutritif maïs-glucose-levure à 20°C. Les souches des Charolles, SV-XX (wvl4 , C(1)DX, yf), w!R6, Canton S, et RevI proviennent de la collection de l'INSERM U384.
2) La préparation de l'ADN de Drosophile et le southern blotting
L'extraction de l'ADN génomique a été réalisée à partir des souches de Drosophile selon le protocole de Udomkit et al., 1995. L'ADN a ensuite été transféré sur membrane Hybond N+ par capillarité dans une solution contenant 3,6 M NaCl, 0,2 M Na phosphate, 0,02 M EDTA pH 7,7. Après hybridation à 42°C, les filtres ont été lavés dans 2X SSC, 0,1% SDS à 42°C et dans 0, 1X SSC, 0, 1% SDS à 42°C. Les fragments utilisés comme sonde ont été purifiés par gel et marqués avec α[32P]-dCTP par "random priming" (Stratagène).
3) Les amplifications PCR
L'amplification PCR a été effectuée avec le système de Boehringer (Expand ' Long Template PCR System). Les conditions et les procédures sont décrites dans le protocole du fabricant. Les amorces ol et o2 (SEQ ID N° 3 et SEQ ID N° 4 respectivement) ont été utilisées pour amplifier l'élément complet ZAM présent au locus wIR6Rev ; 5U et p2 (SEQ ID N° 5 et SEQ ID N° 6 respectivement) pour amplifier le fragment P3 correspondant à la région 5' de ZAM (figure 3). Amorce ol (site PstI) : 5' GTT GTC CCC TGC AGT AAA TGC 3' (6510 ; 6530) Amorce o2 (site Hpal): 5' GAG CCA GTT AAC TGG CAT TCC 3' (7311 ; 7291) Amorce 5U : 5' CAG CCG GAA AAC TGG AAT GGA 3' (478 ; 498) Amorce p2 : 5' GGG TTG TAG AAT ATG TCG CGA 3' (3658 ; 3678)
4) Séquençage de l'ADN
La séquence de l'élément ZAM a été déterminée en sous-clonant le produit obtenu par PCR de Pstl-Hpal dans le vecteur SK pBluescript (Stratagène). Les matrices double brin ont été préparées en utilisant des colonnes QUIAGEN™ et ont été séquencées sur leurs deux brins par terminaison de chaîne par didésoxynucléotide en utilisant le DNA Dye Terminator Cycle Sequencing Kit (Perkin Elmer), et les échantillons ont été chargés sur un analyseur de séquence ABI377. Deux séquences ou plus d'un même fragment clone provenant d'amplifications indépendantes ont été déterminées pour éliminer les erreurs potentielles provenant de l'amplification par PCR. 5) Extraction et isolation de l'ARN par poly (A)+
Les ARN provenant de mouches âgées de 0 à 24 heures ont été extraits en utilisant la méthode de la guanidine-HCl (Cox, 1968). Après traitement pendant 10 minutes à 65°C, l'ARN total a été chargé sur une colonne de cellulose-oligo(dT) et les ARN poly(A)+ furent isolés (Aviv et Leder, 1972).
6) Northern blot
La sonde ARN antisens BH fut synthétisée à partir du fragment HindIII-BglII de 1ORF3 de ZAM (figure 3) clone dans le vecteur pBluescriptlI en utilisant les procédures établies par Maniatis et al., 1989. Une sonde d'ADN provenant du gène de VActin-SC fut utilisée comme contrôle du chargement de l'ARN. Les Northern blots furent réalisés selon le protocole décrit par Lajoinie et al., (1995).7)
7) Détermination des terminaisons 5' et 3' du transcript ZAM : Extension de l'amorce
Pour l'obtention de la carte de l'extrémité 5' des ARN initiés à partir du LTR 5' de ZAM, l'amorce réverse et complémentaire 5Urc a été marquée radioactivement à son extrémité 5' par la polynucléotide-kinase T4 et par [γ32P]ATP. L'amorce à extrémité radioactivement marquée a été hybridée aux ARN totaux de wIR6Rev et étendue en utilisant la réverse transcriptase du virus de Avian Myeloblastosis (VAM). L'analyse des produits a été réalisée selon Triezenberg, 1992. Seulement une bande correspondant au produit d'extension a été observée après autoradiographie, ce qui indique que la transcription commence à la même position pour les deux unités de transcription Amorce 5Urc (SEQ ID N° 7) : 5' TCC ATT CCA GTT TTC CGG CTG 3' (478 ; 198)
RT-PCR
Le premier brin de l'ADNc a été réalisé en utilisant le kit BRL de synthèse de premier brin d'ADNc sur l'ARN total wIR6Rev. Une amorce oligo dT modifiée qui n„„o i J PCT/FR98/0 99/29844
14 contient un adaptateur d'amorce 5' a été utilisée pour l'étape de la réverse transcription. L'amplification PCR fut conduite en utilisant l'adaptateur d'amorce et l'oligonucléotide spécifique à l'enveloppe de ZAM. Amorce oligo dT modifiée (SEQ ID N° 8) : 5' GAC TCG AGT CGA CAT CGA (dT)17 3'
Adaptateur d'amorce (SEQ ID N° 9) : 5' GAC TCG AGT CGA CAT CG 3' Amorce spécifique de ZAM env (SEQ ID N° 10) : 5' TCA ACA GAA GAG CAC CC 3' (7642 ; 7658)
8) Analyse par RT- PCR
500 ng d'ARN poly(A)+ provenant de mouches adultes ont été transcrits en sens inverse pour donner les ADNc simple brin en utilisant le kit de synthèse d'ADNc simple brin provenant de BRL en suivant le protocole fourni par le fabricant. 2 μl du réservoir d'ADNc ont été utilisés pour l'amplification PCR avec les oligonucléotides spécifiques 5U et ceux décrits ci-dessous.
Amorce El (SEQ LD N° 1 1) : 5' TGG TGT ATG GTA CCG ATG GGT 3' (7971 ;
7991)
Amorce E2 (SEQ ID N° 12) : 5' TGT GAG TGT ATC CAG GTG 3' (7732 ; 7749)
Amorce E3 (SEQ ID N° 13) : 5' ATG TCG CAG TAG CTG GTC 3' (7437 ; 7454) Amorce E4 (SEQ LD N° 14) : 5* TGT CTT GTC TAA GAT GAG 3' (6706 ; 6723) Amorce E5 (SEQ ID N° 15) : 5* CAT GTT GCC GGT GAC GAC 3' (6706 ; 6723)
9) Expérience de PCR inversée (inverse PCR)
L'extraction de l'ADN des Charolles a été réalisée en utilisant une mouche selon la méthode de Gloor et Engels (1991). L'ADN a été traité par l'endonucléase de restriction Hhal. L'extrémité 3' du rétrogène ZAM a été identifiée par la méthode de PCR inversée (Gloor et al., 1983). ASO et SDO (Antisense Splice Oligonucleotide et Sensé Deletion Oligonucleotide) a été utilisés comme amorce dans l'expérience de PCR. Amorce ASO (SEQ ID N° 16) : 5' CCC CAT GGC AAG ATA ATA GAA C 3' Amorce SDO (SEQ ID N° 17) : 5' GTA CTT AAT ATA TAA AGG AAA CGG G 3'
10) Hybridation in situ sur les chromosomes polytènes
L'hybridation in situ sur les chromosomes polytènes des souches de D. melanogaster a été réalisée d'après la méthode décrite par Biémont (1994).
II- Résultats et discussion
1) Mise en évidence par réversion phénotvpique de l'existence de l'élément ZAM
On a recherché un gène modifiant en trans l'expression de l'allèle wIR6 en réalisant une mutagenèse PM (Robertson et al., 1988) sur une lignée portant l'allèle wIR6 . Cet allèle est dû à l'insertion du facteur I (rétrotransposon de type LINE) dans le premier intron du gène white et donne un phénotype d'œil marron-orangé aux mouches (Lajoinie et al., 1995). Des lignées homozygotes ont été établies à partir de mouches issues de la mutagenèse et exhibant un changement de couleurs des yeux. Une de ces lignées portait une mutation sur le troisième chromosome qui supprimait partiellement le phénotype d'œil marron-orangé wIR6 en brun foncé (Su78). Après plus de vingt générations, un mâle présentant un phénotype sauvage pour la couleur de l'œil a été isolé. La cause de cette réversion a été génétiquement localisée sur le chromosome X à proximité du gène white. Par la technique de Southern blot, en utilisant de nombreux enzymes de restriction, on a trouvé que l'unité de transcription de l'allèle wIR6 était inchangée . chaque exon et intron était toujours présent. Il en était de même pour la carte de restriction du facteur I. Cependant, le locus white fut l'objet d'une insertion de 9 kb à environ 3 kb en amont du site d'initiation de la transcription du gène white entre les sites de restriction PstI et Hpal aux positions 6523 et 7305 respectivement selon O'Hare et al, 1984 (figure 2). Cette insertion de 9 kb est absente de ce site dans la souche wIR6 et dans les lignées utilisées pour la mutagenèse PM ou issues de la mutagenèse PM. Ce nouvel allèle de white fut nommé wIRoRcv
2) L' insert de 9 kb est semblable à un élément rétroviral Dans le but d'isoler et de cloner l'élément inséré, des expériences de PCR ont été entreprises (V. supra, matériels et méthodes). Les oligonucléotides ol et o2, compris entre les sites de restriction PstI et Hpal, ont été utilisés comme amorce pour l'amplification (figure 3). La carte de restriction a été établie et vérifiée par southern blotting d'ADN génomique (figure 3 A). Les produits obtenus par PCR ont été clones en sous-fragments comprenant l'insertion complète (figure 3B). L'insertion présente la structure typique du rétrovirus gypsy (figure 3A), mais elle fait partie d'une famille clairement distincte des éléments transposables décrits jusqu'à ce jour chez D. melanogaster. On a appelé ce nouvel élément rétroviral ZAM. ZAM possède à ces deux extrémités des longues répétitions terminales ( long terminal repeats, LTR) de 473 pb. Les deux LTR ont des répétitions inversées longues de 7 pb à leurs extrémités 5' et 3'. Les LTR 5' et 3' de ZAM, comme tout LTR de rétrovirus, sont bordés effectivement par un site de liaison d'amorce (primer binding site PBS) complémentaire d'un ARNt cellulaire et par une séquence poly-purine (polypurine tract PPT). Le PBS de ZAM a 12 pb complémentaires à l'extrémité 3' de l'ARNtser de D. melanogaster. L'analyse par ordinateur des LTR de Z4 en utilisant le logiciel BISANCE (Dessen et al., 1990) a montré deux motifs consensus forts du type TATA-box. Le premier motif se situe à la position 208 (TATAAA) et le second, qui correspond à une boîte TATA rétrovirale est localisé à la positon 312. Ce dernier possède une séquence signal qui correspond à un signal de polyadénylation potentiel. Le site d'insertion de ZAM dans l'allèle wIR6Rev montre une duplication cible de CGCGCG aux bornes de l'élément. 3 Analyse de la séquence de ZAM
L'analyse de la séquence de ZAM, en utilisant le logiciel DNA strider (Marck, 1988), a démontré l'existence de trois phases ouvertes de lecture (open reading frame, ORF) qui codent pour des polypeptides similaires aux protéines GAG, POL, et ENV trouvées chez les rétrovirus de vertébrés tels que HIVl ou MoMuLV (Morrow et al., 1994 ; Shinnick et al., 1981) ou chez les éléments rétroviraux tels que 297, 17.6, gypsy, tom et TED. Dans tous les cas, les similarités s'étendent aux domaines d'acides aminés très conservés décrits chez les rétrovirus. L'ORFl de ZAM (figure 1) a une longueur de 343 acides aminés. Elle contient un domaine riche en Asparagine localisé dans la partie N-terminale et une région acide dans la partie C-terminale de la protéine comme décrit précédemment pour la plupart des éléments rétroviraux.
LORF2 de ZAM (figure 1) code pour une protéine de 1217 acides aminés qui comprend des séquences similaires à d'autres poly-protéines Pol (Xiong et Eickbush, 1990). L'analyse par le logiciel BLAST-X (Altschul et al, 1990) a révélé quatre domaines :
- Le domaine protéase (prt) comporte la courte séquence acide Aspartique- Thréonine-Glycine (DTG), décrite comme le site actif des Aspartyl (acide) protéases par Rawlings et Barret, 1995. - La réverse transcriptase (rt) caractérisée par le motif conservé, appelé YxDD box, qui correspond à son centre catalytique (Yuki et al. , 1986).
- La RNAse H (rnh).
Le domaine intégrase (int), qui comporte un domaine potentiel de site de liaison aux ions Zinc (appelé "Zinc finger") et un motif DD35E caractéristique des sites actifs des Intégrases (Polard et Chandler, 1995).
Les figures 4A, B, C, D, présente les alignements partiels de ces domaines avec ceux des rétrovirus de vertébrés et éléments similaires.
LORF3 (546 aa) ( figure 1) a révélé des similitudes avec les protéines ENV de
297, 17.6, gypsy, tom et TED. Un domaine conservé parmi ces rétrovirus et éléments similaires est présenté dans la figure 4E. Il montre un domaine Arginine- x-Lysine-Arginine (RxKR) considéré comme site consensus de clivage protéolytique (Klenk et Garten, 1994).
4) Les ARN de ZAM varient de manière quantitative et qualitative selon les souches
Dans le but de déterminer les caractéristiques de la transcription de ZAM, les ARN totaux ont été extraits de mouches adultes WIR6 et \yIR6R v , des souches LCN et HCN respectivement. Le filtre de nylon a d'abord été sondé avec la ribosonde BH (figure 5B) correspondant au gène env de ZAXl et a ensuite été sondé avec un clone du gène actine afin de contrôler la charge des échantillons déposés sur le gel. Les résultats sont compilés à la figure 5. Deux principaux transcripts ont été identifiés dans la souche wIR6Rev : un transcript de 8,6 kb et un de 1,7 kb. L'ARN de 8,6 kb n'est pas détecté dans la souche WIR6 . Bien qu'une plus grande quantité d'ARN ait été chargée dans le cas de WIR6, seul l'ARN de 1,7 kb a été observé dans cette souche.
Les extrémités 5' des ARN de la souche wIR6Rev ont été déterminées par la méthode d'extension d'armorce (V. supra, matériels et méthodes). La transcription commence à la position 329 du 5' LTR. Cela suggère que la boîte TATA à la position 312, telle que prédite par analyse informatique, est utilisée comme site d'initiation de la transcription (figure 5B). Les extrémités 3' des ARN ont été déterminées par RT-PCR. La polyadénylation des ARN de ZAM se passe à 26 pb en aval du site AATAAA du 3' LTR, à la séquence CAAGCAGC-(A)n (position 8306, figure 5B). Seul un site correspondant au site d'initiation de la transcription et un site de polyadénylation ont été identifiés lors de notre préparation d'ARN, ce qui suggère que les transcripts 8,6 kb et 1,7 kb possèdent les mêmes extrémités 5' et 3'. De plus, puisque l'ARN 8,6 kb correspond à la longueur totale de ZAM commençant dans la région 5' LTR et finissant dans la région 3' LTR, il pourrait être un intermédiaire de la transposition. L'ARN 1,7 kb est présent dans toutes les souches testées. Puisque les ARNm de l'enveloppe de rétrovirus tels que HIVl ou gypsy sont produits par épissage du trancripts complet qui élimine les phases ouvertes de lecture gag et pol , on a analysé la structure du transcript 1,7 kb de ZAM.
5) L'élément ZAM code un transcript sous génomique épissé de ORF3 présentant les caractéristiques d'un ARNm fonctionnel rétroviral
Les Northern blots ont montré que l'ARN 1,7 kb ne s'hybride pas avec la ribosonde BB spécifique de pol. Cela suggère que cette bande de 1,7 kb pourrait correspondre au transcript spécifique de l'enveloppe. En utilisant la méthode RT- PCR, on a isolé les fragments d'ADNc, amplifiés à partir d'amorces cibles de la région 5' non-traduite de ZAM (5U) en combinaison avec les amorces correspondantes aux divers sites du gène env (El, E2, E3, E4 et E5) (figure 5B). Des fragments de taille attendue pour une amplification d'un ARN épissé pour les gènes gag et pol, ont été observés après électrophorèse des produits PCR. Un des fragments générés à partir des amorces 5U et E5 a été séquence. Il correspond au produit de fusion entre la région leader prédite et ORF3 (figure 5C).
Les jonctions identifiées de l'épissage présentent les sites consensus d'épissage 5' et 3' caractérisés par la présence de dinucléotides GT au site donneur et AG au site accepteur. Le site donneur d'épissage est localisé à la position 531, 59 bp en aval du début du PBS de l'ARNt ; le site accepteur est localisé à la position 6387 (figure 5C).
La région leader et 1ORF3 sont en phase dans l'ARN messager épissé, ce qui suggère que le premier codon méthionine dans la région leader (position 494) est utilisé comme site d'initiation de la traduction (figure 5C). La traduction de cet ADNc correspond à un polypeptide potentiel de 551 acides aminés. Le figure 6 „ Λ„„„0 J PCT/FR98/0 O 99/29844
20 présente la séquence d'acides aminés prédite par la traduction de l'ARN sous- génomique et souligne les motifs structurels typiques de polypeptide codé par l'enveloppe de ZAM. La séquence N-terminale de 22 acides aminés (position 3-24) présente les caractéristiques d'un peptide signal (Hunter et Swanstrom, 1990). Un site potentiel de clivage de ce peptide a été identifié grâce au logiciel signalp (Von Heijne, 1983). Une deuxième région hydrophobe de 19 acides aminés comprenant les résidus 485 à 503 est localisée au site attendu pour un domaine transmembranaire TM (Coffin et al., 1990). La partie cytoplasmique correspondrait aux résidus 506-551. 11 sites putatifs de N-glycosylation conformes aux séquences consensus Asparagine-x-Sérine ou Thréonine (N-x-S/T), et 6 résidus Cystéine sont similaires à des structures trouvées dans les protéines d'enveloppe des rétrovirus.
6) Existence d'un rétrogène épissé env de ZAM Afin de caractériser rARNm-eΛ.v épissé, une analyse des ARN présents dans la souche Charolles a été entreprise. Les transcripts observés par Northern blot sont identiques à ceux observés pour la souche wIR6Rev. Cependant, dans les expériences RT-PCR en utilisant les oligonuléotides 5U et El, un fragment de 1,5 kb, qui s' hybride avec le fragment BH, a été amplifié. Sa séquence révèle que ce fragment fut amplifié à partir d'un ARN identique à l'ARNm de la souche \yIR6Rev dans sa conformation épissée. Une différence notable a été découverte : une délétion de 148 pb est localisée entre les positions 7308 et 7456 de la séquence de l'enveloppe de ZAM. Dans le but de tester si le fragment ORF3 -délété aurait pu provenir de l'amplification d'un élément ZAM délété et endogène du génome de Charolles, une expérience de PCR utilisant les oligonucléotides 5U et El a été réalisée sur l'ADN génomique de Charolles. Ces mêmes expériences ont été réalisées en utilisant l'ADN génomique de \yIR6Rev et de deux autres souches indépendantes (figure 7A). Le blot a été hybride avec une sonde ZAM total. Dans toutes les souches, la PCR a amplifié un fragment de 7,5 kb qui correspond à la taille complète de ZAM. Quelques autres bandes ont été observées dont un fragment de 1,5 kb présent uniquement chez Charolles. Le séquençage de ce fragment de 1,5 kb montre qu'il possède les mêmes caractéristiques structurelles que le fragment 1,5 kb produit lors du RT-PCR (V. supra, la structure sous- génomique de env plus la délétion de 148 pb).
Cette séquence génomique de l'enveloppe de ZAM proviendrait très probablement de la réverse transcription d'un ARN ORF3 de ZAM et de la subséquente intégration dans le génome hôte. La délétion interne est présumée représenter une mutation secondaire indépendante. Deux possibilités sont à considérer :
1 - Elle pourrait être formée par un processus rétroviral d'intégration (processus rétrogène) ayant eu lieu lors de la mobilisation de ZAM (figure 7B et 7B 1, Goodchild et al., 1995 ; Yoshioka et al., 1991).
2- Par un mécanisme moins spécifique impliquant sa réverse transcription aléatoire par une réverse transcription cellulaire ayant conduit à la formation d'un pseudogène (figure 7C, Tchénio et al., 1993). Les pseudogènes générés par ce dernier mécanisme sont caractérisés par trois éléments diagnostiques : Ils n'ont pas la séquence promoteur en amont, ils n'ont pas d'introns et comportent une queue poly-A à leur extrémité 3'. Une séquence, appartenant à un rétro-transposon avec des LTRs, et intégrée par un processus de transposition, n'aurait également pas d'intron, mais serait en revanche encadrée par des LTRs complets et n'aurait pas de queue poly-A.
Afin de distinguer entre ces deux modèles, l'expérience suivante a été réalisée : L'extrémité 3' de l'élément trouvé dans Charolles a été analysée par une approche d'inverse-PCR en utilisant des amorces spécifiques. L'amorce ASO a été choisie pour sa complémentarité avec la jonction de l'épissage et SDO pour la séquence de jonction créée par la délétion de 148 pb (figure 7B1). Un fragment de 1,2 kb a été amplifié, clone et séquence. On a démontré ainsi que l'élément ZAM identifié dans Charolles comporte un LTR 3' reconstitué mais pas de queue poly-A. Donc, cet élément fut crée par rétrotransposition. En outre, cet élément délété est encadré par une séquence CGCG qui est identique aux 4 pb de la duplication de la cible d'insertion de ZAM en aval de white.
EXEMPLE 2 : ETUDE DE LA DISTRIBUTION GENOMIQUE DE ZAM
1) Nombre de copies de ZAM et variabilité selon les souches
La distribution génomique de ZAM a été étudiée par des expériences de Southern blot sur diverses souches de D. melanogaster. Des résultats typiques sont obtenus en sondant d'égales quantités d'ADN traité par les enzymes Pstl-BglII avec la sonde BH (figure 3B). De nombreuses bandes hybridées ont été visualisées. Ce résultat démontre qu'il existe plusieurs copies de ZAM dans le génome de Drosophila melanogaster. Cependant, le nombre de copies de ZAM varie selon les souches. La majorité d'entre elles (on a testé plus de 15 souches indépendantes y compris toutes les souches utilisées pour ou isolées suite à la mutagenèse PM) comporte un faible nombre de copies (souches LCN, low copy number). Deux exceptions furent notées : la ligné portant l'allèle IR6Rev et la lignée Charolles possédant de nombreuses copies de ZAM dans leur génome (souches HCN, high copy number). La souche Su78, à partir de laquelle fut obtenu un mâle portant l'allèle \yIR6Rev , a un nombre intermédiaire de copies de ZAM (inférieur à WIR6Rev mais supérieur à WIR6). Une faible empreinte de bandes communes est observée pour toutes les souches examinées, alors que des bandes additionnelles qui diffèrent d'une souche à l'autre sont présentes. L'empreinte des bandes, observées pour W ev et son parent WIR6 , indique clairement que ZAM a été mobilisé et que son nombre de copies a augmenté récemment. 2) Etude de la distribution génomique de ZAM par hybridation in situ.
La localisation génomique des copies de ZAM a été étudiée dans différentes souches par hybridation in situ sur les chromosomes polytènes des larves de troisième stade. Les images présentées (Figure 3) montrent des résultats typiques lorsque les chromosomes ont été hybrides avec la sonde Hpal-PstI contenant l'élément ZAM complet encadré par les séquences en amont de white. La souche Charolles à haut nombre de copies (A) comporte 15 signaux d'hybridation dispersés sur les bras des chromosomes et entourant les centres des chromosomes. Un faible signal d'hybridation peut être vu dans la région hétérochromatique du génome. Tout comme Charolles, la souche \γIR6R v (B) possède environ 15 signaux d'hybridation, mais ils sont localisés principalement sur le chromosome X. En revanche, la souche Canton S à faible nombre de copies (C) exhibe seulement quelques faibles signaux dans la région hétérochromatique et aucun signal sur les bras des chromosomes. La souche WIR6 (D) a la même empreinte de signal d'hybridation que Canton S sauf pour deux signaux localisés respectivement sur les chromosomes X et trois.
EXEMPLE 3 : MISE EN EVIDENCE DE LA SPECIFICITE D'INSERTION DE ZAM
Le premier site d'insertion (séquence dupliquée) de ZAM a d'abord été mis en évidence lors du clonage de l'élément par la technique de PCR telle que décrite dans l'exemple I. Le clonage d'un élément ZAM indépendant (souche différente) a montré que la même séquence est dupliquée aux bornes de l'élément. L'analyse de ces séquences dupliquées a montré l'existence d'un site de coupure par l'endonucléase de restriction Hhal. L'élément ZAM présente trois sites internes Hhal en plus des sites localisés dans ses séquences flanquantes. Ainsi, dans le but d'identifier s'il existe une spécificité d'insertion de l'élément ZAM, l'ADN génomique de différentes souches a été traité par l'enzyme de restriction Hhal. Les fragments obtenus ont été séparés sur gel d'agarose, transférés sur membrane de nylon et hybrides avec une sonde de ZAM marquée au α[P 32]dCTP.
Quatre fragments marqués de taille 0,5 ; 3,4 ; 1,4 et 3,2 kilobases ont été observés. Ces quatre éléments correspondent à des fragments internes de ZAM. Ces résultats démontrent qu'un site Hhal se trouve aux bornes de chaque élément ZAM, quel que soit le lieu d'insertion ou quelle que soit la souche testée.
Une conclusion peut donc être tirée de cette expérience, à savoir : l'intégrase de ZAM génère des insertions préférentielles en des sites coupés par l'enzyme Hhal.
Afin de confirmer ces résultats, le séquençage exhaustif et systématique de la jonction génome hôte WIR6Re -ZAM a été entrepris et a permis de mettre en évidence la séquence spécifique minimale de l'insertion. Dans ce but, on a utilisé la technique de PCR inverse pour isoler le nombre le plus important possible de sites d'intégration indépendants. L'ADN génomique WIR6Rev a été extrait selon le protocole décrit dans Gloor and Engels, 1983 et 1991. Les expériences ont été conduites sur l'ADN coupé par Taq I en utilisant une paire d'amorces complémentaires du 3 'LTR de ZAM :
- ZAMLTR 5'-AAT TCT CCC AAG ACG ACC GTG -3' (position 8340-8361)
- ZAMLTRic 5'-ACG TCT ACA AGT GTT TGC TGC-3' (position 8302-8323)
Le programme PCR utilisé consiste à : 1 cycle 2 min à 95°C, 35 cycles 45 sec à 94°C, 45 sec à 60°C, 45 sec à 72°C, et 1 cycle 10 min à 72°C. Des fragments de taille variable (entre 200 à 500 bp) ont été amplifiés et clones dans le vecteur pGEMT (Promega) et séquences avec le séquenceur ABI 377 (Perkin Elmer). Les séquences de 60 clones ont ainsi été déterminées. Les séquences de 16 clones indépendants ont été alignées, voir table 1 ci-dessous. 99/29844
25
Table 1 : Site d'intégration spécifique consensus reconnu par l'intégrase de ZAM.
Figure imgf000027_0001
La lettre N représente la possibilité d'observer C, T, A- ou G
Il ressort clairement de cette analyse que la séquence consensus contient les sites de restriction Hhal et Thaï. La séquence consensus CGCGC en tant que telle est observée dans 6 clones parmi les 16 choisis pour l'expérience. On considère qu'un seul misappariement parmi la séquence CGCGC (soit une identité de 80 %) est conforme à la séquence cible reconnue par l'intégrase de ZAM (séquences retrouvées dans 15/16 des clones). Ces résultats permettent d'envisager une stratégie de transfert de gènes en évitant les mutations causées par des insertions aléatoires. RETROELEMENT IDEMFIX ET SON INTEGRASE
La présente invention concerne également l'identification et le sequençage complet d'un nouveau rétroélément appelé Idemfix et identifié chez Drosophila melanogaster. Une autre intégrase provenant d'un rétroélément appelé « ZAM» a été mis en évidence par la demanderesse chez Drosophila melanogaster (Leblanc et al., 1997). Cette intégrase est particulièrement intéressante pour ces applications dans le domaine de la transgénèse car elle permet l'intégration de séquences hétérologues aux sites CGCGCGg dans le génome d'un organisme. Or, en poussant d'avantage l'étude de cet élément transposable, la demanderesse a trouvé de manière surprenante un nouvel élément du type rétrovirus, distinct de ZAM, qui possède une intégrase de spécificité poly(TA).
Ainsi, la présente invention concerne également l'identification et le sequençage complet d'un nouveau rétroélément appelé Idemfix et identifié chez Drosophila melanogaster. Cet élément transposable possède une intégrase spécifique de site qui peut être utilisée à toute fin utile, notamment pour l'intégration d'un ADN hétérologue dans le génome d'un organisme dans un site spécifique.
La présente invention concerne donc une séquence nucléotidique correspondant à :
a) la séquence selon SEQ ID N° 20 en tout ou partie, ou b) une séquence s'hybridant avec la séquence selon a), ou c) une séquence présentant au moins 80 %, de préférence 90 % d'homologie avec une séquence selon a) ou b).
Ladite séquence correspond à tout ou partie du rétroélément Idemfix de Drosophila melanogaster. Un autre aspect de l'invention concerne une séquence nucléotidique correspondant à un gène comprenant : a) la séquence selon SEQ ED N° 21 en tout ou partie, ou b) une séquence s'hybridant avec la séquence selon a), ou c) une séquence présentant au moins 80 %, de préférence 90 % d'homologie avec une séquence selon a) ou b), ou d) une séquence codant pour une protéine codée par un gène selon a), b) ou c) ou une protéine équivalente. Ladite séquence nucléotidique correspond à l'intégrase du rétroélément Idemfix de Drosophila melanogaster ou à une intégrase équivalente.
Cette intégrase, qui peut être une intégrase équivalente, se caractérise en ce qu'elle dirige l'intégration d'un acide nucléique hétérologue dans une molécule d'ADN en un site spécifique comprenant une séquence poly(TA) (ou poly(AT)) ou au moins une séquence ayant au moins 80 % d'homologie avec la séquence 5'- TATATATAT-3'.
Comme précédemment indiqué, l'intégration d'une séquence d'acide nucléique peut être réalisée dans le but d'inactiver ou d'inhiber tout ou partie de l'expression d'un gène dans une cellule cible ; elle peut également comprendre un gène d'intérêt destiné à pallier une déficience totale ou partielle du gène correspondant natif.
L'invention concerne donc également des séquences codant pour l'intégrase dfdemfix compte tenu de la dégénérescence du code génétique et pour toute protéine équivalente. Par "protéine équivalente" à l'intégrase dAdemfix ou intégrase équivalente, on entend une protéine qui, sans avoir une séquence et/ou une structure rigoureusement identique à l'intégrase de Idemfix, présente une activité identique ou similaire à cette dernière ou produit les mêmes effets ; c'est notamment le cas de protéines délétées et/ou ayant subi des mutations ponctuelles. L'invention porte aussi un procédé d'insertion d'une séquence hétérologue en un site spécifique dans une molécule d'ADN, notamment dans un génome, caractérisé en ce qu'il met en œuvre l'intégrase selon l'invention. Ce procédé est particulièrement destiné à permettre l'expression d'un gène hétérologue dans un organisme ou à inactiver un gène endogène dans un organisme.
La présente invention a également pour objet un vecteur d'intégration d'une séquence d'acide nucléique, voire d'un gène d'intérêt, qui comprend outre la séquence d'acide nucléique à intégrer, une séquence d'acide nucléique nécessaire pour procéder à ladite intégration. Cette séquence est l'une des séquences nucléotidiques conforme à l'invention et de préférence une séquence correspondant à tout ou partie de ou présentant une forte homologie avec l'intégrase conforme à l'invention. En effet, la séquence d'acide nucléotidique correspondant à l'intégrase peut ne coder que pour une partie de celle-ci ou une forme mutée de celle-ci si le polypeptide résultant présente une activité identique ou similaire à celle de l'intégrase sauvage. Les vecteurs susceptibles d'être mis en œuvre dans le cadre de l'invention sont des vecteurs de type adénoviral, rétroviral, plasmidique ou tout transposon ou rétrotransposon susceptible de remplir la même fonction. Dans ce cas, il est clair que le vecteur conforme à l'invention, en plus, par exemple, de l'intégrase et de la séquence d'acide nucléique à intégrer, doit comprendre tous les éléments nécessaires à l'expression de l'intégrase dans la cellule hôte, que celle-ci soit eucaryote ou procaryote.
Dans le cadre de la présente invention, le vecteur peut également comprendre tout ou partie du rétroélément Idemfix qui comprend déjà les éléments en question.
La présente invention a pour objet une composition pharmaceutique comprenant un vecteur conforme à l'invention ainsi qu'un support pharmaceutiquement acceptable. L'invention a également pour objet l'utilisation d'un vecteur conforme à l'invention pour réaliser une transgénèse ou pour la préparation d'un médicament destiné à la thérapie génique. Légendes
Figure 8 : Séquence complète du rétroélément Idemfix
(correspond à la SEQ ID n°20)
Figure 9 : Région de l'intégrase d' Idemfix
(correspond à la SEQ ID n°21)
Figure 10 : A- Localisation tfidemfix dans le locus white
Les symboles pour les enzymes de restriction sont comme suit : Bc = Bell, B =
BglII, E ≈ EcoR , H ≈ HindIII, P = PstI, S = Sali, X = Xhol. Les oligonucléotides utilisés pour l'amplification PCR de l'insertion complète Idemfix sont o Pstl et olPvuII, Wl et W2 pour le sequençage du site de jonction. B- Séquence nucléique de la jonction Idemfix I locus white.
Le site d'initiation de la transcription est noté TSS. Idemfix a été localisé à l'intérieur d'une répétition (16 fois) du motif AT en amont de white. Les lettres en caractère gras représentent les 9 bp d'ADN génomique dupliqué lors de l'insertion d' Idemfix.
Figure 11 : Organisation et structure moléculaire d' Idemfix.
Les rectangles hachurés représentent les LTRs. Les phases ouvertes de lecture sont symbolisées par des rectangles en-dessous de la carte de restriction.
Exemple 4 : Caractéristiques du rétroélément Idemfix et du site d'insertion ά' Idemfix
I- Matériels et méthodes
1) Les stocks de mouches, la préparation de l'ADN de Drosophile, et le southern blotting sont décrits à l'exemple 1 ci-dessus. 2) L'amplification PCR a été effectuée avec le système de Boehringer (Expand M Long Template PCR System). Les conditions et les procédures sont décrites dans le protocole du fabricant. Les amorces olPstl et olPvull (SEQ ID N° 22 et SEQ ID N° 23 respectivement) ont été utilisées pour amplifier l'élément complet Idemfix présent au locus white : olPstl (5'- GCA TTT ACT GCA GGG GAC AAC-3') et olPvull (5'- CTG CCG CCA TCA GCT GTC CGG G-3')
3) Les extrémités 5' et 3' d' Idemfix ont été identifiées par PCR inverse selon le protocole décrit dans Gloor et al, 1983. l'ADN a été traité avec l'endonucléase de restriction Sau3A et les deux amorces suivantes dérivées de white ont été utilisées:
- W2 (5'-CAG CTC TTT CGC TGC TGC GAC A-3') SEQ ID N° 24
- W3 (5'-GAC CGC ACT TCC TGT GAC AAT G-3') SEQ ID N° 25.
4) La séquence de l'élément Idemfix a été déterminée en sous-clonant le produit obtenu par PCR de Pstl-PvuII dans le vecteur SK pBluescript (Stratagène). Les matrices double brin ont été préparées en utilisant des colonnes QUIAGEN™ et ont été séquencées sur leurs deux brins par terminaison de chaîne par didésoxynucléotide en utilisant le DNA Dye Terminator Cycle Sequencing Kit (Perkin Elmer), et les échantillons ont été chargés sur un analyseur de séquence ABI377.
II. Résultats
2.1 Caractéristiques du rétroélément Idemfix.
Outre l'insertion du rétroélément ZAM dans le locus white, on a mis en évidence une deuxième insertion dans les lignées mutantes RevII, indépendante de la première, en amont de ce même locus (figure 10). Afin de caractériser cette insertion, deux oligonucléotides (olPstl et olPvull) qui comprennent respectivement les sites de restriction PstI et PvuII aux positions 4672 et 6816 du locus white (O'Hare et al, 1984) ont été utilisés comme amorce pour l'amplification PCR. La carte de restriction des fragments amplifiés provenant de 1 1 lignées mutantes RevII a été réalisée. Ces expériences ont permis de révéler l'organisation moléculaire de l'insertion du fragment d'ADN de 7,4 Kb (figure 11). Des insertions de tailles identiques, et qui possèdent la même carte de restriction, se trouvent à la même position dans chacune des 11 lignées. Une des insertions a été clonée et séquencée. Cette insertion possède une structure similaire à celle des rétrotransposons de type gypsy (figure 1 1). Cependant, elle représente une famille distincte des éléments transposables décrits jusqu'ici chez la Drosophile. Cette insertion, appelée Idemfix, est encadrée par deux LTR de 594 bp de long identiques en séquence. Idemfix possède un site de liaison à une amorce ARNt putative (tR-NA PBS). L'analyse de la séquence Idemfix avec le programme informatique DNA strider (Marck, 1988) a montré que le rétroélément Idemfix possède une séquence non codante de 393 bp localisée en amont de la première phase ouverte de lecture (ORF), suivie par 3 ORF capables de coder pour des polypeptidiques similaires aux protéines Gag, Pol et Env trouvées dans les rétrovirus des vertébrés tels que le virus de l'immunodéficience humaine, le virus murin Moloney de la leucémie (Shinnick, Lerner, et Sutcliffe, 1981 ; Morrow, Park et Wakefield, 1994) ou des retroelements tels que 297, 17.6, gypsy, Zam, tom et Ted (Leblanc et al. 1997). L'ORF 1 d'Idemfix a une longueur de 348 acides aminés, et contient une distribution particulière de résidus asparagines (11% des acides aminés). LORF2 d'Idemfix code pour une protéine de 1151 acides aminés et comprend notamment des séquences similaires à d'autres protéines Pol (Xiong et Eickbush 1990). L'analyse avec le programme Blast-X (Altschul et al, 1990) a révélé quatre domaines identifiables :
- Le domaine protéase (prt) avec une courte séquence Asp-Thr-Gly (DTG) qui correspond au site actif des protéases acidiques, - la reverse transcriptase (rt) caractérisée par le motif conservé appelé « YxDD box »,
- la Rnase H (rnh),
- le domaine intégrase (int) qui possède des sites potentiels de liaison pour les ions zinc (zinc fingers) et un motif DD35E caractéristique du site actif des intégrases
(Polard et Chandler, 1995).
L'analyse de la séquence de ORF3 (484 acides aminés) a montré des similarités avec les protéines Env des retroelements 297, 17,6, gypsy, Zam, tom et Ted. Cette séquence montre un domaine conservé du type arginine-X-lysine-arginine (RXKR) qui est considéré comme étant le site de clivage protéolitique consensus parmi les retroelements (Klenk et Garten, 1994). Une région hydrophobe de 23 acides aminés (des résidus 447 à 467) est localisée à la position attendue pour les domaines transmembranaires (Coffin, 1990). Des sites de N-glycosylation putatifs conformes à la séquence consensus Asp-X-Ser ou Thr (N-X-S/T), ainsi que des résidus cystéines similaires à ceux connus chez les rétrovirus pour diriger l'attachement entre protéines de surface et protéines transmembranaires, se trouvent en amont du domaine transmembranaire.
2.2 Site spécifique d'insertion ά Idemfix.
Afin de déterminer la position exacte d'Idemfix en aval de l'unité transcriptionnelle white dans les 1 1 lignées mutantes RevII, les jonctions Idemfixlwhite ont été séquencées des deux côtés de l'élément. Les produits PCR ont été obtenus à partir des amorces suivantes : olPstl (5'- GCA TTT ACT GCA GGG GAC AAC-3') et olPvull (5'- CTG CCG CCA TCA GCT GTC CGG G-3') Les positions respectives de ces amorces sont indiquées à la figure 10. Les fragments amplifiés ont été traités avec les enzymes de restriction PstI et Bell et les fragments résultant de cette digestion ont été clones dans le vecteur pBluescript (Stratagène). Deux clones de 1,7 et 4,8 Kb, qui s'hybrident avec la sonde BB du locus white sauvage ont été isolés. La séquence de chaque jonction Idemfixlwhite a été déterminée en utilisant deux amorces dérivés de white : W2 (5'-CAG CTC TTT CGC TGC TGC GAC A-3') et W3 (5'-GAC CGC ACT TCC TGT GAC AAT G-3').
De manière surprenante, les 11 insertions Idemfix sont localisées précisément au même site dans les lignée RevII indépendantes (position 5460 de la séquence d'après O'Hare et al, 1984). On a ainsi démontré que le site cible est un segment comprenant 16 répétitions du dinucléotide AT. Onze copies de AT sont présentes à l'extrémité 3', et neuf copies de AT + un T sont présentes à l'extrémité 5' d'Idemfix (figure 10). Ces résultats démontrent qu'il y a eu une duplication de la séquence 5'- ATATATATA-3' encadrant les insertions Idemfix. Ainsi le site reconnu par l'intégrase d'Idemfix est un site poly(TA) ou poly(AT), de préférence un site comprenant au moins une séquence ayant au moins 80% d'homologie avec la séquence 5'-TATATATAT-3'.
REFERENCES
- Altschul, S F., Gish, W , Miller, W , Myers, E W. and Lipman, D J (1990) Basic local alignment search tool J. Mol. Bio , 215, 403
- Aviv, H and Leder, P (1972) Purification of biologically active globin messenger RNA by chromatography on oligothymidine acid-cellulose Proc. Natl. Acad. Sa. USA , 69, 1408-1412
- Biemont, C (1994) Dynamic equilibrium between insertion and excision of P éléments in highly inbred Unes from an M' strain of Drosophila melanogaster. J. Mol. Evol, 39, 466-472.
- Bowerman, B , Brown-P.O , Bishop .M and Varmus,H E (1989) A nucleoprotein complex médiates the intégration of rétroviral DNA Gènes Dev , 3, 469-478
- Burke,C I, Sanyal, G , Bruner,M W., Ryan,J A , LaFemina,R L , Robbins,H L , Zeft, A S , Middaugh,C.R and Cordingley,M.G (1992) Structural implications of spectroscopic characterization of a putative zinc-finger peptide from HTV-1 intégrase J. Biol. Chem , 267, 6039-9644
- Bushman,F D , Engelman,A , Palmerj , Wingfield,P and Craigie,R (1993) Domains of the intégrase proteins of human immunodeficiency virus type 1 responsible for polynucleotidyl transfer and zinc binding Proc Natl Acad. Sa USA, 90, 3428-3432 - Chow,S.A., Vincent,K.A„ Ellison, V. and Brown,P.O. (1992) Reversai of intégration and DNA splicing mediated by intégrase of human immunodeficiency virus. Science, 225, 723-726.
- Coffin, J. M. (1990) Retroviridae and their réplication. In B. N. Fields, Knipe, D. M., Chanock, R. M., Hirsh, M. S., Melnick, J. L., Monath, T. P. and Roizman, B. (ed), Fields virology, 2nd éd. Raven Press, Ltd., New York.
- Cox, R. A. (1968) The use of guanidium chloride in the isolation of nucleic acids. Methods Emymol., 12, 120-129.
- Dessen, P., Fondrat, C, Valencien, C. and Mugnier, C. (1990) BISANCE: a French service for access to biomolecular séquences data bases. Cabios, 6, 355- 356.
- Doak,T.G., Doerder, F. P., Jahn,C.L. and Herrick,G. (1994) A proposed super- family of transposase gènes : transposon-like éléments in ciliated protozoa and a common 'D35E' motif. Proc. Natl Acad. Sci. USA, 91, 942-946.
- Ellison, V. and Brown,P.O. (1994) A stable complex between intégrase and viral DNA ends médiates human immunodeficiency virus intégration in vitro. Proc. Natl Acad. Sci. USA, 91, 7316-7320.
- Ellison, V. Gerton ., Vincent,K.A. and Brown,P.O. (1995) An essential interaction between distinct domains of HIV-1 intégrase médiates assembly of the active multimer. J. Biol. Che ., 270, 3320-3326. - Engelman, A. and Craigie.R. (1992) Identification of conserved amino acid residues critical for human immunodeficiency virus type 1 intégrase function in vitro. J. Virol, 66, 6361-6369.
- Engelman A., Hickman,A.B. and Craigie, R. (1993) The core and carboxyl- terminal domains of the intégrase protein of human immunodeficiency virus type 1 each contribute to nonspecific DNA binding. J. Virol, 68, 5911-5917.
- Gloor, G.B. and Engels, W.R. (1991) Single fly DNA preps for PCR Drosophila Information Newsletter.
- Gloor, G. B., Preston, C. R., Johnson-Schlitz, D. M., Nassif, J. A., Phillis, R. W., Benz, W. K., Robertson, H. M. and Engels, W. R. (1983) Type I repressors of P élément mobility. Genetics, 135, 81-95.
- Goodchil, N. L., Freeman, j. D. and Mager, D. L. (1995) Spiced HERV-H endogenous rétroviral séquences in human genomic DNA: évidence for amplification via retrotransposition. Virology, 206, 164-173.
- Hazuda,D.I, Wolfe,A.L., Hasting .C, Robbins,H.L., Graham,P.L. Lafemina,R.L., and Emini,E.A. (1994) Viral long terminal repeat substrate binding characteristics of the human immunodeficiency virus type 1 intégrase. J. Biol. Chem., 269, 3999-4004.
- Hunter, E. and Swanstrom, R. (1990) Rétrovirus envelop glycoproteins. Curr. Top. Microbiol. Immunol., 157, 187-253.
- Klenk, H. D. and Garten, W. (1994) Host cell proteases controlling virus pathogenicity. Trends. Microbio., 2, 39-43. - Kulkosky.J , Jones,K S , Katz,R A , Mack P G and Salka,A M (1992) Residues critical for rétroviral integrative recombination in a région that is highly conserved among retroviral/retrotransposon intégrases and bacterial insertion séquence transposases Mol. Cell. Biol , 12, 2331-2338
- Lajoinie, O , Drake, M E , Dastugue, B and Vaury, C (1995) Aberrant pre- mRNA maturation is caused by LINE insertions into introns of the white gène of Drosophila melanogaster. N cl. Ac d. Res., 23, 4015-4022
- Leavιtt,A D , Shiue,L and Varmus,H E (1993) Site-directed mutagenesis of HIV-1 intégrase demonstrates differential effects on integrase/.v/ct-w. in vitro J. Biol. Chem., 268, 2113-21 19
- Leblanc P , Desset S , Dastugue B and Vaury C (1997) Invertebretate rétrovirus ZAM a new candidate in D melanogaster EMBO J 16 7521-7531
- Maniatis, T , Frisch, E F , Sambrook, J (1989) Molecular cloning a laboratory manual Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY
- Marck, C (1988) DNA Strider a "C" program for the fast analysis of DNA and protein séquences on the Apple macintosh family computers Nucl. Acid. Res , 16, 1829-1836
- McEuen,A R , Edwards,B , Koepke,K A , Ball,A E , Jennιngs,B A , Wolstenholme,A J , Danson,M J and Hough,D W (1992) Zinc binding by rétroviral intégrase Biochem. Biophys. Res Commun , 189, 813-818 - Morrow, C. D., Park, J. and Wakefield, J. K. (1994) Viral gène products and réplication of the hyman immunodeficiency type 1 virus. Am. J. Physiol., 266, 1135-1 156.
- O'hare, K., Murphy, C, Levis, R. and Rubin, G. M. (1984) DNA séquence of the white locus of Drosophila melanogaster. J. Mol. Biol., 180, 437-455.
- Polard, P. and Chandler, M. (1995) Bacterial transposases and rétroviral intégrases. Mol. Microbiol, 15, 13-23.
- Rawlings, N. D. and Barrett, A. J. (1995) Rétroviral proteases: families of aspartic peptidases, and those of unknown catalytic mechanism. Methods. Enzymol., 248, 105-119.
- Rice,P. and Mizuuchi,K. (1995) Structure of the bacteriophage Mu transposase core: a common structural motif for DNA transposition and rétroviral intégration. Cell, 82, 209-220.
- Robertson, H. M., Preston, C. R., Phillis, R. W., Johnson-Schlitz, D. M., Benz W. K. and Engels, W. R. (1988) A stable genomic source of P-element transposase in Drosophila melanogaster. Genetics, 118, 461-470.
- Shinnick, T. M., Lerner, R. A. and Sutcliffe, J. G. (1981) Nucleotide séquence of moloney murine leukaemia virus. Nature, 293, 543-548.
- Tchénio T., Segal-Bendirdjian, E. and Heidmann, T. (1993) Génération of processed pseudogenes in murine cells. EMBO J, 12, 1487-1497. - Triezenberg, S. J. (1992) Primer Extension protocol. Current protocols in molecular biology, 1, 4.8.1-4.8.5.
- Udomkit, A., Forbes, S., Dalgleish, G. and Finnegan, D. J. (1995) BS a novel LINE-like élément m Drosophila melanogaster. Nucl. Acid. Res., 23, 1354-1358.
- Van Gent,D.C, Vink,C, Oude Groeneger,A.A.M. and Plasterk,RH.A. (1993) Complémentation between HIV intégrase proteins mutated in différent domains. EMBO J., 12, 3261-3267.
- Vink,C, Oude Groeneger.A.A.M. and Plasterk,R.H.A. (1993) Identification of the catalytic and DNA-binding région of the human immunodeficiency virus type 1 intégrase protein. Nucleic Acids Res., 21, 1419-1425.
- Von Heijne, G. (1983) patterns of amino acids near signal-sequence cleavage sites. Eur. J. Biochem., 133, 17-21.
- Woerner,A.M. and Marcus-Sekura,C.J. (1993) Characterization of DNA binding domain in the C-terminus of HIV-1 intégrase by deletion mutagenesis. Nucleic Acids Res., 21, 3507-3511.
- Yoshioka, K., Kanda, H., Akiba, H., Enoki, M. and Shiba, T. (1991) Identification of an unusual structure in the Drosophila melanogaster transposable élément copia: évidence for copia transposition through an RNA intermediate. Gènes, 103, 179-184
- Yuki, S., Ishimaru, S., Inouye, S. and Kaoru, S. (1986) Identifiction of gènes for reverse transcriptase-like enzymes in two Drosophila retrotransposons, 412 and gypsy; a rapid détection method of reverse transcriptase gènes using YXDD box probes. Nucl. Acid. Res., 14, 3017-3030.
- Xiong, Y. and Eickbush, T. H. (1990) Origin and évolution of retroelements based upon their reverse transcriptase séquences. EMBO J., 9, 3353-3362.

Claims

REVENDICATIONS
1. Séquence nucléotidique correspondant à : a) la séquence selon SEQ ID N° 1 en tout ou partie, ou b) une séquence s'hybridant avec la séquence selon a), ou c) une séquence présentant au moins 80 %, de préférence 90 % d'homologie avec une séquence selon a) ou b).
2. Séquence nucléotidique selon la revendication 1 correspondant à tout ou partie du rétroélément ZAM de Drosophila melanogaster.
3. Séquence nucléotidique correspondant à un gène comprenant : a) la séquence selon SEQ ID N° 2 en tout ou partie, ou b) une séquence s'hybridant avec la séquence selon a), ou c) une séquence présentant au moins 80 %, de préférence 90 % d'homologie avec une séquence selon a) ou b), ou d) une séquence codant pour une protéine codée par un gène selon a), b) ou c) ou une protéine équivalente.
4. Séquence nucléotidique selon la revendication 3, caractérisée en ce qu'il s'agit de l'intégrase du rétroélément ZAM de Drosophila melanogaster ou d'une intégrase équivalente.
5. Intégrase codée par une séquence selon l'une des revendications 3 à 4 caractérisée en ce qu'elle dirige l'intégration d'un acide nucléique hétérologue dans une molécule d'ADN en un site spécifique comprenant au moins une séquence ayant au moins 80 %> d'homologie avec la séquence 5'-CGCGC-3'.
6. Intégrase selon la revendication 5 caractérisée en ce qu'elle dirige l'intégration d'un acide nucléique hétérologue dans une molécule d'ADN en un site spécifique comprenant au moins une séquence ayant au moins 80 % d'homologie avec la séquence 5'-CGCGCg-3' .
7. Vecteur d'intégration d'une séquence d'acide nucléique comprenant, outre ladite séquence nucléique à intégrer, une séquence d'acide nucléotidique selon la revendication 1 ou 2.
8. Vecteur d'intégration d'une séquence d'acide nucléique comprenant, outre ladite séquence nucléique à intégrer, une séquence nucléotidique selon la revendication 3 ou 4.
9. Vecteur selon la revendication 7 ou 8, caractérisé en ce qu'il s'agit d'un vecteur de type adénoviral, rétroviral, plasmidique ou d'un transposon ou rétrotransposon.
10. Composition pharmaceutique comprenant un vecteur selon l'une des revendications 7 à 9 et un support pharmaceutiquement acceptable.
11. Utilisation d'un vecteur selon l'une des revendications 7 à 9 pour la préparation d'une composition destinée à la transgénèse.
12. Utilisation d'un vecteur selon l'une des revendications 7 à 9 pour la préparation d'un médicament destiné à la thérapie génique.
13. Procédé d'insertion d'une séquence hétérologue en un site spécifique dans une molécule d'ADN, notamment dans un génome, caractérisé en ce qu'il met en œuvre l'intégrase selon l'une des revendications 5 à 6.
14. Procédé selon la revendication 13 destiné à permettre l'expression d'un gène hétérologue dans un organisme ou à inactiver un gène endogène dans un
15. Séquence nucléotidique correspondant à : a) la séquence selon SEQ ID N° 20 en tout ou partie, ou b) une séquence s'hybridant avec la séquence selon a), ou c) une séquence présentant au moins 80 %, de préférence 90 % d'homologie avec une séquence selon a) ou b).
16. Séquence nucléotidique selon la revendication 15 correspondant à tout ou partie du rétroélément Idemfix de Drosophila melanogaster. 99/29844
43
17. Séquence nucléotidique correspondant à un gène comprenant : a) la séquence selon SEQ ID N° 21 en tout ou partie, ou b) une séquence s'hybridant avec la séquence selon a), ou c) une séquence présentant au moins 80 %, de préférence 90 % d'homologie avec une séquence selon a) ou b), ou d) une séquence codant pour une protéine codée par un gène selon a), b) ou c) ou une protéine équivalente.
18. Séquence nucléotidique selon la revendication 17, caractérisée en ce qu'il s'agit de l'intégrase du rétroélément Idemphix de Drosophila melanogaster ou d'une intégrase équivalente.
19. Intégrase codée par une séquence selon l'une des revendications 17 à 18 caractérisée en ce qu'elle dirige l'intégration d'un acide nucléique hétérologue dans une molécule d'ADN en un site spécifique comprenant une séquence Poly(TA), de préférence une séquence ayant au moins 80 % d'homologie avec la séquence 5'-TATATATAT-3'.
20. Vecteur d'intégration d'une séquence d'acide nucléique comprenant, outre ladite séquence nucléique à intégrer, une séquence d'acide nucléotidique selon la revendication 15 ou 16.
21. Vecteur d'intégration d'une séquence d'acide nucléique comprenant, outre ladite séquence nucléique à intégrer, une séquence nucléotidique selon la revendication 17 ou 18.
22. Vecteur selon la revendication 20 ou 21, caractérisé en ce qu'il s'agit d'un vecteur de type adénoviral, rétroviral, plasmidique ou d'un transposon ou rétrotransposon.
23. Composition pharmaceutique comprenant un vecteur selon l'une des revendications 20 à 22 et un support pharmaceutiquement acceptable.
24. Utilisation d'un vecteur selon l'une des revendications 20 à 22 pour la préparation d'une composition destinée à la transgénèse.
25. Utilisation d'un vecteur selon l'une des revendications 20 à 22 pour la préparation d'un médicament destiné à la thérapie génique.
26. Procédé d'insertion d'une séquence hétérologue en un site spécifique dans une molécule d'ADN, notamment dans un génome, caractérisé en ce qu'il met en œuvre l'intégrase selon la revendication 19.
27. Procédé selon la revendication 26 destiné à permettre l'expression d'un gène hétérologue dans un organisme ou à inactiver un gène endogène dans un
PCT/FR1998/002533 1997-12-10 1998-11-26 Nouveaux retroelements zam et idemfix, et leur integrase WO1999029844A2 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR97/15655 1997-12-10
FR9715655A FR2772045B1 (fr) 1997-12-10 1997-12-10 Retroelement zam et son integrase

Publications (2)

Publication Number Publication Date
WO1999029844A2 true WO1999029844A2 (fr) 1999-06-17
WO1999029844A3 WO1999029844A3 (fr) 1999-08-26

Family

ID=9514439

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR1998/002533 WO1999029844A2 (fr) 1997-12-10 1998-11-26 Nouveaux retroelements zam et idemfix, et leur integrase

Country Status (2)

Country Link
FR (1) FR2772045B1 (fr)
WO (1) WO1999029844A2 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002022839A2 (fr) * 2000-09-15 2002-03-21 Institut National De La Sante Et De La Recherche Medicale (Inserm) Sites d'entree ribosome interne (ires) d'errantivirus et leurs utilisations

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
E. BALDRICH ET AL: "Genomic distribution of the retrovirus-like element ZAM in drosophila" GENETICA, vol. 100, no. 1-3, 11 décembre 1997 (1997-12-11), pages 131-140, XP002076118 *
K. SAIGO ET AL: "Identification of the coding sequence for a reverse transcriptase-like enzyme in a transposable genetic element in Drosophila melanogaster" NATURE., vol. 312, décembre 1984 (1984-12), pages 659-661, XP002100060 LONDON GB *
O. LAJOINIE ET AL: "Aberrant pre-mRNA maturation is caused by LINE insertions into introns of the white gene of Drosophila melanogaster" NUCLEIC ACIDS RESEARCH., vol. 23, no. 20, 1995, pages 4015-4022, XP002076116 OXFORD GB cité dans la demande *
P. D. FRISEN ET AL: "Gene organization and transcription of TED, a Lepidopteran retrotransposon integrated within the Baculovirus genome" MOLECULAR AND CELLULAR BIOLOGY., vol. 10, no. 6, juin 1990 (1990-06), pages 3067-3077, XP002076114 WASHINGTON US *
P. LEBLANC ET AL: "Invertebrate retroviruses: ZAM a new candidate in D. melanogaster" EMBO JOURNAL., vol. 16, no. 24, 15 décembre 1997 (1997-12-15), pages 7521-7531, XP002076117 EYNSHAM, OXFORD GB cité dans la demande *
R. L. MARLOR ET AL: "The drosophila melanogaster Gypsy transposble element encodes putative gene products homologous to retroviral proteins" MOLECULAR AND CELLULAR BIOLOGY., vol. 6, no. 4, avril 1986 (1986-04), pages 1129-1134, XP002076115 WASHINGTON US *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002022839A2 (fr) * 2000-09-15 2002-03-21 Institut National De La Sante Et De La Recherche Medicale (Inserm) Sites d'entree ribosome interne (ires) d'errantivirus et leurs utilisations
WO2002022839A3 (fr) * 2000-09-15 2002-05-16 Inst Nat Sante Rech Med Sites d'entree ribosome interne (ires) d'errantivirus et leurs utilisations

Also Published As

Publication number Publication date
FR2772045A1 (fr) 1999-06-11
FR2772045B1 (fr) 2000-03-10
WO1999029844A3 (fr) 1999-08-26

Similar Documents

Publication Publication Date Title
EP0569272B1 (fr) Procédé d'amplification d'ARN nécessitant une seule étape de manipulation
Seifarth et al. Retrovirus-like particles released from the human breast cancer cell line T47-D display type B-and C-related endogenous retroviral sequences
EP1071804B1 (fr) Utilisation de sequences d'adn de structure triplex pour le transfert de sequences nucleotidiques
EP1761635B1 (fr) Lentivirus non integratif et non replicatif, preparation et utilisations
Leblanc et al. Invertebrate retroviruses: ZAM a new candidate in D. melanogaster
EP0789077B1 (fr) Matériel viral et fragments nucléotidiques associés à la sclérose en plaques, à des fins de diagnostic, prophylactiques et thérapeutiques
EP1497467A2 (fr) Oligonucleotide issus des sequences codant pour la composante de surface des proteines d enveloppe des ptlv et leurs utilisat ions
EP1000158B1 (fr) Sequences retroviraux endogenes, associees a des maladies auto-immunes et/ou a des perturbations de la grossesse
WO1999029844A2 (fr) Nouveaux retroelements zam et idemfix, et leur integrase
EP1212359B1 (fr) Procede de detection de l'expression d'une proteine d'enveloppe d'un retrovirus endogene humain et utilisations d'un gene codant pour cette proteine
EP1446490A1 (fr) Plasmide chimere comprenant un genome retroviral replicatif et utilisations
FR2713657A1 (fr) Nouveaux vecteurs pour le traitement du sida.
WO1996017071A1 (fr) Lignees cellulaires d'encapsidation pour la transcomplementation de vecteurs retroviraux defectifs
Toccafondi Identification of specific phylogenetic properties of HIV-1 M and O integrases
EP1006123A2 (fr) Protéines d'enveloppe, methodes et utilisations
WO1996038556A2 (fr) Deltap62, ses variants, sequences d'acides nucleiques les codant, et leurs utilisations en therapie genique anti-cancereuse
FR2765588A1 (fr) Materiel nucleique retroviral et fragments nucleotidiques notamment associes a la sclerose en plaques et/ou la polyarthrite rhumatoide, a des fins de diagnostic, prophylactiques et therapeutiques
Wendell Identification and characterization of an E13-like solo LTR in the aspartyl hydroxylase gene of line-0 chicken
FR2723749A1 (fr) Nouveau transporteur vesiculaire de l'acetylcholine
FR2715938A1 (fr) Constituants nucléiques du virus MSRV1, associé à la sclérose en plaques.
CA2358926A1 (fr) Fragment nucleique endogene associe a une maladie auto-immune, procede de marquage et reactif
FR2727428A1 (fr) Virus msrv1 associe a la sclerose en plaques et ses constituants nucleiques
WO2013186718A1 (fr) Methode de quantification des differentes formes virales de l'adn du vih

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): CA JP US

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

121 Ep: the epo has been informed by wipo that ep was designated in this application
AK Designated states

Kind code of ref document: A3

Designated state(s): CA JP US

AL Designated countries for regional patents

Kind code of ref document: A3

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
122 Ep: pct application non-entry in european phase
NENP Non-entry into the national phase

Ref country code: CA