WO2000071710A2 - Produits d'expression de genes impliques dans des affections du metabolisme du cholesterol - Google Patents

Produits d'expression de genes impliques dans des affections du metabolisme du cholesterol Download PDF

Info

Publication number
WO2000071710A2
WO2000071710A2 PCT/FR2000/001426 FR0001426W WO0071710A2 WO 2000071710 A2 WO2000071710 A2 WO 2000071710A2 FR 0001426 W FR0001426 W FR 0001426W WO 0071710 A2 WO0071710 A2 WO 0071710A2
Authority
WO
WIPO (PCT)
Prior art keywords
sequence
nucleic acid
seq
sequence seq
polypeptide
Prior art date
Application number
PCT/FR2000/001426
Other languages
English (en)
Other versions
WO2000071710A3 (fr
Inventor
Patrice Denefle
Marie-Françoise Rosier-Montus
Isabelle Arnould-Reguigne
Catherine Prades
Christian Clepet
Original Assignee
Aventis Pharma S.A.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from FR9906587A external-priority patent/FR2794131B1/fr
Priority to AU49318/00A priority Critical patent/AU4931800A/en
Priority to MXPA01011882A priority patent/MXPA01011882A/es
Priority to IL14583500A priority patent/IL145835A0/xx
Priority to CA002371500A priority patent/CA2371500A1/fr
Priority to KR1020017015017A priority patent/KR20020033627A/ko
Application filed by Aventis Pharma S.A. filed Critical Aventis Pharma S.A.
Priority to HU0203164A priority patent/HUP0203164A2/hu
Priority to EP00931354A priority patent/EP1183350A2/fr
Priority to BR0010916-9A priority patent/BR0010916A/pt
Priority to JP2000620087A priority patent/JP2003518918A/ja
Publication of WO2000071710A2 publication Critical patent/WO2000071710A2/fr
Publication of WO2000071710A3 publication Critical patent/WO2000071710A3/fr
Priority to NO20015729A priority patent/NO20015729L/no

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/46Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates
    • C07K14/47Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals

Definitions

  • the present invention relates to nucleic acids expressed from genes located in the human genome in region 9q31-34 of chromosome 9, which may be involved in diseases genetically linked to this chromosomal locus, in particular affections of the metabolism of plasma lipoproteins. , especially the reverse transport of cholesterol.
  • the invention also relates to polypeptides encoded by some of these nucleic acids as well as antibodies directed specifically against such polypeptides, useful as diagnostic reagents.
  • the invention relates to vectors and recombinant host cells comprising these nucleic acids or fragments thereof.
  • Lipoproteins, protein complexes incorporating lipids allowing the transport of these in the blood circulation, normally present in the blood plasma vary in size and composition but all appear in the form of microemulsion.
  • the lipoprotein particles are spherical and contain a central core of non-polar lipids (mainly triglycerides and cholesterol esters) and a surface monolayer of polar lipids (cholesterol and mainly phospholipids) and proteins called apolipoproteins (apo) .
  • apolipoproteins have amphipathic properties.
  • the association of polar lipids and proteins with lipoproteins is thus carried out via hydrophobic forces thanks to which the fatty acid chains and the side chains of non-polar amino acids are excluded from the aqueous environment.
  • Most apolipoproteins have helical amphipatic regions (apolipoprotein A1, A-II, A-IV, Cl, C-ll, 0-111 and E).
  • the density of the lipoprotein particles is inversely proportional to their size, their density reflecting the relative amounts of low density non-polar lipids contained in the nucleus and high density surface proteins present.
  • chylomicrons secreted by enterocytes, in which apo B-48 is predominant
  • VLDL secreted by hepatocytes, which contain the protein apo B-100.
  • LDL and HDL The smallest classes of lipoproteins, LDL and HDL, mainly contain cholesterol esters in their nucleus.
  • the mature forms of these particles are not secreted directly from the cells but are more particularly produced by metabolic pathways within the blood plasma.
  • LDL particles represent the end products of VLDL particle metabolism.
  • HDL particles Some components of HDL particles are derived from chylomicrons.
  • High density lipoproteins are one of the four major classes of lipoproteins that circulate in the blood plasma.
  • lipoproteins are involved in different metabolic pathways such as lipid transport, bile acid formation, steroidogenesis, cell proliferation and in addition interfere with plasma proteinase systems.
  • HDL are perfect acceptors of free cholesterol and, in combination with cholesterol ester transfer proteins (CETP), lipoprotein lipase (LPL), hepatic lipase (HL) and lecithin: cholesterol acyltransferase (LCAT), play a major role in the reverse transport of cholesterol, i.e. the transport of excess cholesterol in peripheral cells to the liver for its elimination from the body in the form of bile acid.
  • HDL not only transports cholesterol from peripheral cells to the liver, but also distributes it to steroid-producing cells or to cholesterol-depleted peripheral cells.
  • HDL precursors are secreted in discoid form from the intestine and liver, from which spherical particles are formed through the formation of cholesterol esters which migrate to the heart of the lipoprotein particle.
  • the nascent HDL particles contain apo A-l and apo A-IV, while the nascent hepatic HDL particles are rich in apo A-l, apo E and apo A-Il.
  • the lipid part of these particles consists of phospholipids and small amounts of free cholesterol and triglyceride. HDL has been shown to play a central role in the transport of cholesterol from peripheral tissues to the liver.
  • HDL high-density lipoprotein
  • HDL high-density lipoprotein
  • the protective role of HDL in reverse cholesterol transport is confirmed by epidemiological studies demonstrating an inverse relationship between cholesterol concentrations in these HDL and the risk of developing coronary heart disease, or by observations that HDL accept effectively excess intracellular cholesterol from various cell types.
  • Atherogenic lipoproteins are ingested by macrophages or peripheral cells and degraded in lysosomes. Cholesterol is released from lysosomes and is re-esterified in the cytoplasmic compartment.
  • HDLs rich in apo Al stimulate cholesterol flows from macrophages or peripheral cells to the extracellular compartment, following a interaction with HDL binding proteins present on the surface of these cells.
  • HDL deficiency Various diseases related to HDL deficiency have been described, including Tangier's disease, HDL deficiency and LCAT deficiency.
  • LPL lipoprotein lipase
  • apoC-11 activator apoC-11
  • RNA molecules were expressed from sequences localized in the genome in a region of approximately 15 cM centered on the microsatellite marker D9S1784, identified as the microsatellite marker giving the binding strongest genetics with family HDL deficiency and Tangier disease.
  • region 9q31-34 considered potentially contains genes capable of playing a role in the initiation or the development of various diseases, such as: - bone diseases such as myxoid chondrosarcomas, mental retardations linked to abnormalities of chromosome 9 (MRD);
  • NPH2 childhood nephrophtisia
  • LGMD2H muscular dystrophy of belts
  • schizophrenia - psychiatric illnesses
  • the messenger RNAs and the corresponding polypeptides are potentially implicated in some of the human pathologies described above, namely in other pathologies also genetically linked to this region of chromosome 9.
  • the present invention thus describes polynucleotides and polypeptides whose alteration of the sequence or expression is potentially associated with a deficit in the metabolism of plasma lipoproteins, more particularly with a deficit in the reverse transport of HDL.
  • the present invention also describes polynucleotides and polypeptides whose alteration in the sequence or expression is potentially associated with diseases genetically linked to locus 9q31-34 of chromosome 9.
  • isolated in the sense of the present invention designates a biological material (nucleic acid or protein) which has been removed from its original environment (the environment in which it is naturally located). For example, a polynucleotide naturally occurring in a plant or animal is not isolated. The same polynucleotide separated from adjacent nucleic acids within which it is naturally inserted into the genome of the plant or animal is considered to be “isolated”.
  • Such a polynucleotide may be included in a vector and / or such a polynucleotide may be included in a composition and nevertheless remain in an isolated state since the vector or the composition does not constitute its natural environment.
  • purified does not require that the material be present in a form of absolute purity, exclusive of the presence of other compounds. Rather, it is a relative definition.
  • a polynucleotide is in the "purified” state after purification of the starting material or of the natural material of at least one order of magnitude, preferably 2 or 3 and preferably 4 or 5 orders of magnitude.
  • the expression “nucleotide sequence” can be used to denote either polynucleotide or a nucleic acid.
  • the term “nucleotide sequence” encompasses the genetic material itself and is therefore not limited to information regarding its sequence.
  • nucleic acid include RNA, DNA, cDNA sequences or even RNA / DNA hybrid sequences of more than one nucleotide, in single chain form or in duplex form.
  • nucleotide denotes both natural nucleotides (A, T, G, C) as well as modified nucleotides which comprise at least one modification such as (1) an analog of a purine, (2) an analog of d pyrimidine, or (3) a similar sugar, examples of such modified nucleotides being described for example in PCT application No. WO 95/04 064.
  • a first polynucleotide is considered to be "complementary "of a second polynucleotide when each base of the first nucleotide is paired with the complementary base of the second polynucleotide whose orientation is reversed.
  • the complementary bases are A and T (or a and U), or C and G.
  • variant of a nucleic acid is meant a nucleic acid which differs from one or more bases with respect to the polynucleotide reference.
  • a variant nucleic acid may be of natural origin, such as an allelic variant found naturally, or may also be an unnatural variant obtained for example by mutagenesis techniques.
  • the differences between the reference nucleic acid and the variant nucleic acid are reduced so that the nucleotide sequences of the reference nucleic acid and the variant nucleic acid are very close and, in many regions , identical.
  • the nucleotide modifications present in a variant nucleic acid can be silent, which means that they do not alter the amino acid sequences encoded by said variant nucleic acid.
  • changes in nucleotides in a variant nucleic acid can also result in substitutions, additions, deletions in the polypeptide encoded by the nucleic acid. varying with respect to the peptides encoded by the reference nucleic acid.
  • changes to nucleotides in the coding regions can produce substitutions, conservative or non-conservative in the amino acid sequence.
  • the variant nucleic acids according to the invention encode polypeptides which retain substantially the same biological function or activity as the polypeptide of the reference nucleic acid or else the ability to be recognized by antibodies directed against the polypeptides encoded by l initial nucleic acid.
  • nucleic acids will thus code for mutated forms of polypeptides whose systematic study will make it possible to deduce structure activity relationships from the proteins in question. Knowledge of these mutations in relation to the disease studied is fundamental since it allows us to understand the molecular cause of the pathology.
  • fragment will be understood to mean a reference nucleic acid according to the invention, a nucleotide sequence of reduced length compared to the reference nucleic acid and comprising, on the common part, a nucleotide sequence identical to the nucleic acid of reference.
  • Such a “fragment” of nucleic acid according to the invention may, where appropriate, be included in a larger polynucleotide of which it is constitutive.
  • Such fragments include, or alternatively consist of oligonucleotides of length ranging from 8, 10, 12, 15, 18, 20 to 25, 30, 40, 50, 70, 80, 100, 200, 500, 1000 or 1500 nucleotides of a nucleic acid according to the invention.
  • variant of a polypeptide according to the invention is mainly meant a polypeptide whose amino acid sequence contains one or more substitutions, additions or deletions of at least one amino acid residue, relative to the sequence amino acids of the reference polypeptide, it being understood that the amino acid substitutions can be indifferently conservative. or not conservative.
  • fragment of a polypeptide according to the invention, is meant a polypeptide whose amino acid sequence is shorter than that of the reference polypeptide and which comprises over the entire part common with these reference polypeptides, a sequence in identical amino acids.
  • Such fragments may, if appropriate, be included within a larger polypeptide of which they are part.
  • Such fragments of a polypeptide according to the invention can have a length of 10, 15, 20, 30 to 40, 50, 100, 200 or 300 amino acids.
  • the "percentage of identity" between two nucleotide or amino acid sequences, within the meaning of the present invention, can be determined by comparing two optimally aligned sequences, through a comparison window.
  • the part of the nucleotide or polypeptide sequence in the comparison window can thus include additions or deletions (for example "gaps") with respect to the reference sequence (which does not include these additions or these deletions) so as to obtain an optimal alignment of the two sequences.
  • the percentage is calculated by determining the number of positions at which an identical nucleic base or amino acid residue is observed for the two sequences (nucleic or peptide) compared, then by dividing the number of positions at which there is identity between the two bases or amino acid residues by the total number of positions in the comparison window, then multiplying the result by 100 to obtain the percentage of sequence identity.
  • the optimal alignment of the sequences for the comparison can be achieved by computer using known algorithms contained in the package of the company WISCONSIN GENETICS SOFTWARE PACKAGE, GENETICS COMPUTER GROUP (GCG), 575 Science Doctor, Madison, WISCONSIN.
  • the percentage of sequence identity may be carried out using the BLAST software (BLAST versions 1.4.9 of March 1996, BLAST 2.0.4 of February 1998 and BLAST 2.0.6 of September 1998), using only the default parameters (S. F AltschuI et al, J. Mol. Biol. 1990 215: 403-410, S. F AltschuI et al, Nucleic Acids Res. 1997 25: 3389-3402).
  • the query sequence and the databases used can be peptide or nucleic, any combination being possible.
  • hybridization conditions described above are suitable for hybridization under conditions of high stringency, of a nucleic acid molecule of variable length from 20 nucleotides to several hundred nucleotides.
  • hybridization conditions described above can be adapted as a function of the length of the nucleic acid for which hybridization is sought or of the type of labeling chosen, according to techniques known to those skilled in the art.
  • the suitable hybridization conditions can for example be adapted according to the teaching contained in the work of HAMES and HIGGINS (1985) or also in the work of F. AUSUBEL et al (1999).
  • Nucleic acid (s) II was isolated according to the invention a messenger RNA corresponding to a transcript of the gene designated here under the number GS9002S31.
  • the nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 1.
  • sequence SEQ ID No. 1 is 552 nucleotides in length. No sequence identity was found during a search in the GenBank database (Version 110).
  • the analyzes of expression of the transcript of sequence SEQ ID No. 1 were carried out by RT PCR, as described in Example 1. These analyzes carried out using polyA + RNA from different tissues made it possible to show that the GS9002S31 gene was expressed in the fetal brain, liver and placenta. Gene GS910331.
  • Two messenger RNA sequences corresponding to a transcript of the gene designated here under the number GS910331 have been isolated according to the invention.
  • the first nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 2.
  • sequence SEQ ID No. 2 is 1246 nucleotides in length.
  • sequence SEQ ID No. 3 is 3035 nucleotides in length.
  • the analyzes of expression of the transcript of sequence SEQ ID No. 2 were carried out by RT PCR, as described in Example 1. These analyzes carried out using polyA + RNA from different tissues made it possible to show that the GS310331 gene was expressed in the fetal brain.
  • 83 is 1.65 kb and 2.4 kb in the heart and 1.65 kb in the liver, respectively.
  • This gene is a causal positional candidate for disease caused by dysfunction of the reverse cholesterol flow, and more particularly Tangier's disease or family deficiencies in HDL, or a disease genetically linked to locus 9q31 -34 on chromosome 9.
  • a messenger RNA corresponding to a transcript of the gene designated here under the number GS94554 has been isolated according to the invention.
  • the nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 4.
  • sequence SEQ ID No. 4 is 1479 nucleotides in length. No sequence identity was found during a search in the GenBank database (Version 1 10).
  • the expression analyzes of the transcript of sequence SEQ ID No. 4 were carried out by RT PCR, as described in Example 1. These analyzes carried out using polyA + RNA from different tissues made it possible to show that the GS94554 gene was expressed in the fetal brain, the placenta and the liver.
  • an analysis of the expression of the transcript by Northern blot, according to the protocol described in Example 1, using respectively the probe of sequence SEQ ID N c 58, revealed the presence of transcripts in the blot. marketed by the Clontech Company (Ref. N ° 7759-1).
  • the size of the transcripts detected with the sequence probe SEQ ID No. 84 is respectively:
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL, or a disease genetically linked to locus 9q31-34 of the chromosome 9.
  • the first nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID N 5.
  • sequence SEQ ID No. 5 is 5169 nucleotides in length. No sequence homology with the sequence SEQ ID N ° 5 was found during a search in the GenBank database (Version 110).
  • the second nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID N 6.
  • the sequence SEQ ID No. 6 has a length of 7723 nucleotides. This sequence includes an open reading frame (ORF) going from the nucleotide at position 121 to the nucleotide at position 1517 of the sequence SEQ ID No. 6.
  • the codon for initiating translation begins at the nucleotide at position 132 of the sequence SEQ ID N ° 6.
  • the coding sequence begins at the nucleotide at position 132 and ends at the nucleotide at position 1517 of the sequence SEQ ID N ° 6.
  • SEQ ID No. 6 includes a polyadenylation sequence signal
  • the analyzes of expression of the transcript of sequence SEQ ID No. 5 were carried out by RT PCR, as described in Example 1. These analyzes carried out using polyA + RNA from different tissues made it possible to show that the gene GS914739 was expressed in the fetal brain.
  • the size of the transcripts detected with the sequence probe SEQ ID No. 85 is 1 kb in the heart, the liver, the skeletal muscle and the kidney.
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL, or a disease genetically linked to locus 9q31-34 of the chromosome 9.
  • the open reading frame of the nucleotide sequence SEQ ID No. 6 potentially codes for a polypeptide of 461 amino acids in length constituting the sequence SEQ ID No. 129.
  • a sequence identity of approximately 30% was found with in the bases Genpept115, Swissprot38, trEMBL and PIR the following access numbers : AF035360 (homo), AF186461
  • polypeptide of sequence SEQ ID No. 129 is capable of intervening in the regulation of the flow of cholesterol, and more particularly of Tangier disease, in family deficiencies in HDL, or in a disease genetically linked to the locus 9q31-34 of chromosome 9.
  • a messenger RNA corresponding to a transcript of the gene designated here under the number GS915574 has been isolated according to the invention.
  • the nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 7.
  • SEQ ID NO: 7 is 1046 nucleotides in length.
  • the analyzes of expression of the transcript of sequence SEQ ID No. 7 were carried out by RT PCR, as described in Example 1. These analyzes carried out using polyA + RNA from different tissues made it possible to show that the GS915574 gene was expressed in the fetal brain, uterus, brain, heart, prostate, fetal liver, liver, placenta, testis and kidney.
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL, or a disease genetically linked to locus 9q31-34 of the chromosome 9.
  • a messenger RNA corresponding to a transcript of the gene designated here under the number GS930321 has been isolated according to the invention.
  • the nucleic acid sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 8.
  • sequence SEQ ID No. 8 is 280 nucleotides in length. No sequence identity was found during a search in the GenBank database (Version 1 10).
  • the analyzes of expression of the transcript of sequence SEQ ID No. 8 were carried out by RT PCR, as described in Example 1. These analyzes carried out using polyA + RNA from different tissues made it possible to show that the GS930321 gene was expressed in the fetal brain, liver and heart.
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL, or a disease genetically linked to locus 9q31-34 of the chromosome 9.
  • Nucleic acid (s) II was isolated according to the invention a messenger RNA corresponding to a transcript of the gene designated here under the number GS931311.
  • the nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 9.
  • sequence SEQ ID No. 9 is 479 nucleotides in length. This sequence includes a partial open reading frame (ORF) going from the nucleotide in position 3 to the nucleotide in position 98 of the sequence SEQ ID NO 9
  • ORF partial open reading frame
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL, or to a disease genetically linked to locus 9q31 -34 of the chromosome 9.
  • Polypeptide encoded by the nucleic acid of sequence SEQ ID NO 9 The open partial reading frame of the nucleic acid sequence SEQ ID No. 9 potentially codes for a polypeptide of 32 amino acids in length constituting the sequence SEQ ID No. 130.
  • polypeptide of sequence SEQ ID No. 130 is capable of intervening in the regulation of the flow of cholesterol, and more particularly of Tangier's disease, in family deficiencies in HDL, or in a disease genetically linked to the locus 9q31-34 of chromosome 9.
  • a messenger RNA corresponding to a transcript of the gene designated here under the number GS934660 has been isolated according to the invention.
  • the nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 10.
  • SEQ ID NO: 10 is 2599 nucleotides in length.
  • the analyzes of expression of the transcript of sequence SEQ ID No. 10 were carried out by RT PCR, as described in Example 1. These analyzes carried out using polyA + RNA from different tissues made it possible to show that the GS934660 gene was expressed in the fetal brain.
  • the size of the transcripts detected with the sequence probe SEQ ID No. 86 is respectively: - 1 kb, 2 kb, 3 kb and 7.5 kb in the placenta;
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL, or to a disease genetically linked to locus 9q31 -34 of the chromosome 9.
  • a messenger RNA corresponding to a transcript of the gene designated here under the number GS938315 has been isolated according to the invention.
  • the nucleic acid sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 1 1.
  • sequence SEQ ID No. 11 11 is 222 nucleotides in length.
  • Nucleic acid (s) II was isolated according to the invention two messenger RNAs corresponding to a transcript of the gene designated here under the number GS93953.
  • the first nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 12.
  • SEQ ID NO: 12 is 3422 nucleotides in length.
  • the second nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No 13.
  • the sequence SEQ ID No 13 has a length of 5791 nucleotides.
  • ORF open reading frame
  • the expression analyzes of the transcript of sequence SEQ ID No. 12 were carried out by RT PCR, as described in Example 1. These analyzes carried out using polyA + RNA from different tissues have shown that the GS93953 gene is expressed in the fetal brain.
  • the size of the transcripts detected with the sequence probe SEQ ID N c 87 is 8 kb in the heart, brain, placenta, lung, liver, skeletal muscle, kidney and pancreas.
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL, or a disease genetically linked to locus 9q31-34 of the chromosome 9.
  • the partial open reading frame of the nucleic acid sequence SEQ ID No. 13 potentially codes for a polypeptide of 183 amino acids in length constituting the sequence SEQ ID No. 131.
  • polypeptide of sequence SEQ ID No. 131 is capable of intervening in the regulation of the flow of cholesterol, and more particularly of Tangier's disease, in deficiencies in HDL, or in a disease genetically linked to locus 9q31-34 of chromosome 9.
  • RNAs corresponding to a transcript of the gene designated here under the number GS939874 have been isolated according to the invention.
  • the first nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 14.
  • SEQ ID NO: 14 is 2615 nucleotides in length.
  • the second nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 15.
  • the sequence SEQ ID No. 15 has a length of 2551 nucleotides.
  • It comprises an open reading frame going from the nucleotide at position 50 to the nucleotide at position 958 and a coding sequence going from the nucleotide at position 67 to the nucleotide at position 958.
  • the analyzes of expression of the transcript of sequence SEQ ID No. 14 were carried out by RT PCR, as described in Example 1. These analyzes carried out using polyA + RNA from different tissues made it possible to show that the GS939874 gene was expressed in the fetal brain, uterus, brain, heart, prostate, fetal liver, liver, placenta, testis and kidney.
  • This gene is a causal positional candidate for disease caused by dysfunction of the reverse cholesterol flow, and more particularly Tangier's disease or family deficiencies in HDL, or a disease genetically linked to locus 9q31-34 on chromosome 9.
  • the open reading frame of the nucleic acid of sequence SEQ ID No 15 potentially codes for a polypeptide of 291 amino acids in length constituting the sequence SEQ ID No 132.
  • polypeptide of sequence SEQ ID No. 132 is capable of intervening in the regulation of the flow of cholesterol, and more particularly of Tangier's disease, in family deficiencies in HDL, or in a disease genetically linked to the locus 9q31-34 of chromosome 9.
  • a messenger RNA corresponding to a transcript of the gene designated here under the number GS91 1370 has been isolated according to the invention.
  • the nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 16.
  • the sequence SEQ ID No. 16 is 775 nucleotides in length. This sequence includes an open partial reading frame (ORF) going from the nucleotide in position 1 to the nucleotide in position 144 of the sequence SEQ ID No. 16.
  • ORF open partial reading frame
  • the analyzes of expression of the transcript of sequence SEQ ID No. 16 were carried out by RT PCR, as described in Example 1. These analyzes carried out using polyA + RNA from different tissues made it possible to show that the GS911370 gene was expressed in the fetal brain.
  • the size of the transcripts detected with the sequence probe SEQ ID No. 88 as well as with the sequence probe SEQ ID No. 89 is 7.4 kb in the pancreas.
  • This gene is a causal positional candidate for disease caused by dysfunction of the reverse cholesterol flow, and more particularly Tangier's disease or family deficiencies in HDL, or a disease genetically linked to locus 9q31-34 on chromosome 9.
  • the open partial reading frame of the nucleic acid sequence SEQ ID No. 16 potentially codes for a polypeptide of 48 amino acids in length constituting the sequence SEQ ID No. 133. Homologies observed at the level of the protein sequence:
  • This potential ORF (48 aa) has an identity on 33 aa (position 16-48 aa) with the transport protein under beta unit of the human Sec61 complex whose sequences are sp
  • the protein complex sec61 is a central component of the cellular machinery for translocation of nascent proteins in the endoplasmic reticulum.
  • the GS911370 gene could therefore be, due to its homology with the beta subunit of the sec61 complex, a gene coding for a new component of this machinery. Consequently its possible role in the translocation of proteins and consequently in the trafficking of proteins involved in the efflux mechanism of cholesterol makes it a gene of interest in the study of the deficit observed in Tangier / FHD patients.
  • polypeptide of sequence SEQ ID No. 133 is thus capable of intervening in the regulation of the flow of cholesterol, and more particularly of Tangier's disease or of family deficiencies in HDL.
  • polypeptide of sequence SEQ ID N133 is therefore capable of intervening in an important step involved in the reverse transport of cholesterol by HDL.
  • the polypeptide of sequence SEQ ID No. 133 is also capable of intervening in a disease genetically linked to the locus
  • a messenger RNA corresponding to a transcript of the gene designated here under the number GS913920 has been isolated according to the invention.
  • a first sequence was isolated and characterized; it is the nucleic sequence of the cDNA constituting the sequence SEQ ID No. 17.
  • the sequence SEQ ID No. 17 is 491 nucleotides in length.
  • the expression analyzes of the transcript of sequence SEQ ID No. 17 were carried out by RT PCR, as described in Example 1. These analyzes carried out using polyA + RNA from different tissues made it possible to show that the GS913920 gene was expressed in the liver and the heart. From the sequence SEQ ID No. 17, two nucleotide primers of sequences SEQ ID No. 102 and SEQ ID No. 103 respectively have been synthesized. These nucleotide primers made it possible to amplify a cDNA of the GS913920 gene constituting the sequence SEQ ID No. 18.
  • the amplification reactions are carried out under the following conditions, applicable to all the candidate genes according to the invention for which specific primers are described and used to isolate sequences of the transcript of interest:
  • Each PCR reaction is carried out with 400 ⁇ M of each dNTP, 0.5 ⁇ M of each primer, 2.5 mM of MgCI2, 50 ng of DNA or approximately 25 ng of cDNA and 2 units of Thermus aquatic ⁇ s (Taq) DNA polymerase (Ampli Taq Gold; Perkin Elmer) in the presence of its buffer.
  • the reactions are carried out in 96-well microplates, in 9700 thermocyclers (Perkin Elmer). After a first denaturation at 94 ° C for 10 min, a program of 30 cycles is applied: denaturation of 30 s. at 94 ° C, 30 s hybridization.
  • the nucleic sequence SEQ ID No. 18 is 293 nucleotides in length. It includes a partial open reading frame (ORF) going from the nucleotide in position 227 to the nucleotide in position 293. This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly of the disease de Tangier or deficiencies in HDL, or to a disease genetically linked to locus 9q31-34 on chromosome 9.
  • ORF partial open reading frame
  • the open reading frame of the nucleic acid sequence SEQ ID No. 18 potentially codes for a polypeptide of 22 amino acids in length constituting the sequence SEQ ID No. 134.
  • TrEMBL (translation of Genbank v115), TrEMBL (SP-TrEMBL, August version
  • polypeptide of sequence SEQ ID No. 134 is capable of intervening in the regulation of the flow of cholesterol, and more particularly of Tangier's disease or of family deficiencies in HDL.
  • polypeptide of sequence SEQ ID No. 134 is therefore capable of intervening in an important step involved in the reverse transport of cholesterol by HDL.
  • polypeptide of sequence SEQ ID No. 134 is also capable of intervening in a disease genetically linked to locus 9q31-34 of chromosome 9.
  • RNAs corresponding to a transcript of the gene designated here under the number GS91437 have been isolated according to the invention.
  • the first nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 19.
  • the sequence SEQ ID No. 19 is 2442 nucleotides in length.
  • This sequence includes a partial open reading frame (ORF) going from the nucleotide in position 2 to the nucleotide in position 286 of the sequence SEQ ID No. 19. No sequence identity was found during a search in the GenBank database (Version 1 10).
  • the second nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 20.
  • SEQ ID NO: 20 is 4608 nucleotides in length. It includes a partial open reading frame (ORF) going from the nucleotide in position 1 to the nucleotide in position 327.
  • ORF partial open reading frame
  • the analyzes of expression of the transcript of sequence SEQ ID No. 19 were carried out by RT PCR, as described in Example 1. These analyzes carried out using polyA + RNA from different tissues made it possible to show that the GS91437 gene was expressed in the fetal brain, liver, heart, prostate, placenta, uterus, testis, kidney, skeletal muscle.
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or deficiencies. in HDL, or to a disease genetically linked to locus 9q31-34 on chromosome 9.
  • the open partial reading frame of the nucleic acid sequence SEQ ID No 19 potentially codes for a polypeptide of 95 amino acids in length constituting the sequence SEQ ID No 135.
  • polypeptide of sequence SEQ ID No. 135 is capable of intervening in the regulation of the flow of cholesterol, and more particularly of Tangier's disease, in family deficiencies in HDL, or in a disease genetically linked to the locus 9q31-34 of chromosome 9.
  • the open reading frame (ORF) contained in the nucleic acid of sequence SEQ ID No. 20 potentially codes for a polypeptide of 108 amino acids constituting the sequence SEQ ID No. 136.
  • sequence homology was found with the databases Swissprot (Version 38), Genpept (Version 1 15), PIR (Version 62, September 1999) and trEMBL (Version of August 1999).
  • the polypeptide of sequence SEQ ID No. 136 is capable of intervening in the regulation of the flow of cholesterol, and more particularly of Tangier's disease, in family deficiencies in HDL, or in a disease genetically linked to the locus 9q31-34 of chromosome 9.
  • RNAs corresponding to a transcript of the gene designated here under the no. GS91507 have been isolated according to the invention.
  • the first nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 21.
  • SEQ ID NO: 21 is 1627 nucleotides in length. This sequence includes a partial open reading frame (ORF) going from the nucleotide in position 1 to the nucleotide in position 640 of the sequence SEQ ID No. 21.
  • ORF partial open reading frame
  • SEQ ID NO: 22 is 2333 nucleotides in length. It includes a complete open reading frame (ORF) ranging from the nucleotide at position 368 to the nucleotide at position 1348. The start of the translation initiation codon is located on the nucleotide at position 371 of the sequence SEQ ID No. 22. The coding sequence begins at the nucleotide at position 371 and ends at the nucleotide at position 1348.
  • ORF complete open reading frame
  • sequence SEQ ID N ° 22 has a homology with the following sequence referenced in the following GenBank database (Version 1 16): 99% nucleic identity over 2316 bp (position 115 to 2420 bp) with Homo sapiens cDNA FLJ20300 fis, clone HEP06465 (2331 bp). Accession AK000307
  • the analyzes of expression of the transcript of sequence SEQ ID No. 21 were carried out by RT PCR, as described in Example 1. These analyzes carried out using polyA + RNA from different tissues made it possible to show that the GS91507 gene was expressed in the fetal brain.
  • the size of the transcripts detected with the sequence probe SEQ ID No. 90 is respectively:
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction in the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL.
  • Polypeptide encoded by the nucleic acid of sequence SEQ ID NO 21 The open reading frame of the nucleic acid sequence
  • SEQ ID No. 21 potentially codes for a polypeptide of 213 amino acids in length constituting the sequence SEQ ID No. 137. Homologies observed at the protein sequence level: This potential ORF of 213 aa has a domain having motif type homologies with different proteins such as: • 29% homology on 155 aa (position 4-158 aa) with Swissprot sequences (version 36, last update of May 3, 1999) sp
  • Genpept (translation of Genbank v1 10 and 1 1 1, last update May 7, 1999)) would show annotations with potential proteins of the type "phosphatidic acid phosphatase"
  • Genpept sequences (translation of Genbank v1 10 and 1 1 1, last update on May 7, 1999): gi
  • the open reading frame of the nucleic acid sequence SEQ ID No 22 potentially codes for a polypeptide of 325 amino acids in length constituting the sequence SEQ ID No 138. Homologies observed at the level of the protein sequence
  • the GS91507 gene is of interest for the functional study of Tangier's disease and FHD in the sense that it is both a positional candidate and a gene coding for a new protein whose functions putatives (phosphatidic acid phosphatase) could play a role in the intracellular signaling cascade linked to the efflux of intracellular cholesterol mediated by HDL particles, involved in Tangier disease and familial HDL deficiency (FHD).
  • the polypeptides of sequence SEQ ID No. 137 and 138 is capable of intervening in the regulation of the flow of cholesterol, and more particularly of Tangier's disease, in family deficiencies in HDL, or in a disease genetically linked to the locus 9q31. -34 of chromosome 9.
  • RNAs corresponding to a transcript of the gene designated here under the number GS915231 have been isolated according to the invention.
  • the first nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 23.
  • SEQ ID NO: 23 is 2764 nucleotides in length.
  • This sequence includes a partial open reading frame (ORF) going from the nucleotide in position 3 to the nucleotide in position 1220 of the sequence SEQ ID No. 23.
  • ORF partial open reading frame
  • the second nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 24.
  • the sequence SEQ ID No. 24 has a length of 3228 nucleotides. It comprises an open reading frame (ORF) going from the nucleotide at position 37 to the nucleotide at position 1304.
  • the coding sequence begins at the nucleotide at position 49 and ends at the nucleotide at position 1304 of the sequence SEQ ID No. 24.
  • the start of the translation initiation codon is located on the nucleotide at position 49.
  • the analyzes of expression of the transcript of sequence SEQ ID No. 23 were carried out by RT PCR, as described in Example 1. These analyzes carried out using polyA + RNA from different tissues made it possible to show that the GS915231 gene was expressed in the fetal brain.
  • the size of the transcripts detected with the sequence probe SEQ ID No. 91 is respectively:
  • skeletal muscle - 1, 3 kb, 2 kb, 4 kb and 4.4 kb in the liver and the kidney;
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL, or a disease genetically linked to locus 9q31-34 of the chromosome 9.
  • the open partial reading frame of the nucleic acid sequence SEQ ID No 23 potentially codes for a polypeptide of 406 amino acids in length constituting the sequence SEQ ID No 139. Homologies observed at the level of the protein sequence:
  • Genpept sequences (translation of Genbank v1 10 and 1 1 1, last update May 7, 1999): gi: 2731377 is the protein translation of the sequence gb
  • the open reading frame (ORF) of the nucleic acid sequence SEQ ID No. 24 potentially codes for a polypeptide of 422 amino acids in length constituting the sequence SEQ ID No. 140.
  • the following sequence homologies have been found: Homologies observed at the level of the protein sequence:
  • Genpept: gi: 2731377 is the protein translation of the gb sequence
  • Putative function The ORF of 422 amino acids has homologies with different putative enzymatic proteins involved in the dehydrogenation mechanisms of sterols in several organisms: man, mouse, E. coli, S. cerevisiae, C. elegans.
  • the GS15231 gene codes for a protein of interest by virtue of its possible function in the defect of intracellular cholesterol trafficking in Tangier / FHD patients, which reinforces the interest of studying the GS15231 gene.
  • the GS15231 gene is, by its location, a positional candidate gene for the study and characterization of the genetic defect observed in Tangier's disease or the familial defect in HDL.
  • polypeptides of sequences SEQ ID N ° 139 and 140 are capable of intervening in the regulation of the flow of cholesterol, and more particularly of Tangier's disease, in family deficiencies in HDL, or in a disease genetically linked to the locus 9q31. -34 of chromosome 9. Gene GS915528.
  • RNAs corresponding to a transcript of the gene designated here under the number GS915528 have been isolated according to the invention.
  • the first nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 25.
  • sequence SEQ ID No. 25 is 3106 nucleotides in length.
  • This sequence includes a partial open reading frame (ORF) going from the nucleotide in position 1 to the nucleotide in position 1272 of the sequence SEQ ID No. 25.
  • ORF partial open reading frame
  • the second nucleic sequence of the ADNC corresponding to this transcript constitutes the sequence SEQ ID No. 26.
  • the sequence SEQ ID No. 26 has a length of 3313 nucleotides.
  • liver the liver, prostate, heart, placenta, uterus, testis and brain.
  • the size of the transcripts detected with the sequence probe SEQ ID No. 92 is respectively: - 1.9 kb, 3.2 kb and 3.8 kb in the pancreas; - 1 kb, 1.9 kb and 3.8 kb in the heart;
  • This gene is a causal positional candidate for disease caused by dysfunction of the reverse cholesterol flow, and more
  • SEQ ID No. 25 potentially codes for a polypeptide of 424 amino acids in length constituting the sequence SEQ ID No. 141.
  • This ORF of 424 aa has motif type homologies with conserved domains of different tyrosine phosphatase proteins in different protein databases such as:
  • the open reading frame of the nucleic acid sequence SEQ ID No. 26 potentially codes for a polypeptide of 455 amino acids in length constituting the sequence SEQ ID No. 142.
  • This ORF of 455 aa has motif type homologies with conserved domains of different proteins tyrosine phosphatase in different protein databases such as. • 50% homology on 374 aa (position 24-397 aa) with SP-trEMBL: sp
  • mice and Swissprot sp
  • the GS915528 gene is of interest for the functional study of Tangier's disease and FHD in the sense that it is both a positional candidate and a gene coding for a new protein whose functions putatives (tyrosine phosphatase) could play a role in the intracellular signaling cascade linked to the efflux of intracellular cholesterol mediated by HDL particles, implicated in Tangier disease and familial HDL deficiency (FHD).
  • polypeptides of sequence SEQ ID No. 141 and 142 are capable of intervening in the regulation of the flow of cholesterol, and more particularly of Tangier's disease, in family deficiencies in HDL, or in a disease genetically linked to the locus 9q31. -34 of chromosome 9.
  • RNAs corresponding to a transcript of the gene designated here under the number GS99817 have been isolated according to the invention.
  • the first nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 27.
  • sequence SEQ ID No. 27 is 1539 nucleotides in length.
  • This sequence includes a partial open reading frame (ORF) going from the nucleotide in position 3 to the nucleotide in position 698 of the sequence SEQ ID No. 27. No sequence identity was found during a search in the GenBank database (Version 1 10).
  • the second nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 28.
  • SEQ ID NO: 28 is 3404 nucleotides in length. It includes a partial open reading frame (ORF) ranging from the nucleotide in position 1 to the nucleotide in position 792 of the sequence SEQ ID No. 28.
  • ORF partial open reading frame
  • the analyzes of expression of the transcript of sequence SEQ ID No. 27 were carried out by RT PCR, as described in Example 1. These analyzes carried out using polyA + RNA from different tissues made it possible to show that the gene GS99817 was expressed in the fetal brain.
  • the size of the transcripts detected with the sequence probe SEQ ID No. 93 is respectively: - 1.5 kb, 2 kb and 4.4 kb in the heart and the brain;
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL, or a disease genetically linked to locus 9q31-34 of the chromosome 9.
  • the open reading frame of the nucleic acid sequence SEQ ID No. 27 potentially codes for a polypeptide of 232 amino acids in length constituting the sequence SEQ ID No. 143. Homologies observed at the level of the protein sequence:
  • Genpept sequences (translation of Genbank v110 and 111, last update on May 7, 1999): gi
  • the open reading frame of the nucleic acid sequence SEQ ID No 28 potentially codes for a polypeptide of 263 amino acids in length constituting the sequence SEQ ID No 144. Homologies have been observed between the sequence SEQ ID No 144 and the following sequences:
  • This gene is a candidate for the study of Tangier disease / FHD due to the chromosomal location.
  • polypeptides of sequences SEQ ID No. 143 and 144 are capable of intervening in the regulation of the flow of cholesterol, and more particularly of Tangier's disease, in family deficiencies in HDL, or in a disease genetically linked to the locus 9q31. -34 of chromosome 9.
  • a messenger RNA corresponding to a transcript of the gene designated here under the number GS916229 has been isolated according to the invention.
  • the nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 29.
  • sequence SEQ ID No. 29 is 792 nucleotides in length. This sequence includes an open reading frame (ORF) going from the nucleotide in position 1 to the nucleotide in position 203 of the sequence SEQ ID No. 29.
  • ORF open reading frame
  • the expression analyzes of the transcript of sequence SEQ ID No. 29 were carried out by RT PCR, as described in Example 1. These analyzes carried out using polyA + RNA from different tissues made it possible to show that the GS916229 gene was expressed in the fetal brain, the liver, the brain, the heart, the prostate, the placenta, the fetal liver, the uterus, the testicle and the kidney.
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL, or a disease genetically linked to locus 9q31-34 of the chromosome 9.
  • the open reading frame of the nucleic acid sequence SEQ ID No. 29 potentially codes for a polypeptide of 68 amino acids in length constituting the sequence SEQ ID No. 145.
  • polypeptide of sequence SEQ ID No. 145 is capable of intervening in the regulation of the flow of cholesterol, and more particularly of Tangier disease, in family deficiencies in HDL, or in a disease genetically linked to the locus 9q31-34 of chromosome 9.
  • GS92544 Nucleic acid (s) Three messenger RNAs corresponding to a long transcript and two short transcripts of the gene designated here under the no. GS92544 have been isolated according to the invention.
  • the nucleic sequence of the cDNA corresponding to the long transcript constitutes the sequence SEQ ID No. 30.
  • SEQ ID NO: 30 is 2733 nucleotides in length.
  • This sequence includes a partial open reading frame (ORF) going from the nucleotide in position 1 to the nucleotide in position 2160 of the sequence SEQ ID No. 30.
  • ORF partial open reading frame
  • the first nucleic sequence of the cDNA corresponding to the short transcript constitutes the sequence SEQ ID No. 31.
  • SEQ ID NO: 31 is 2694 nucleotides in length.
  • This sequence includes a partial open reading frame (ORF) going from the nucleotide in position 1 to the nucleotide in position 2121 of the sequence SEQ ID No. 31.
  • ORF partial open reading frame
  • the second nucleic sequence of the cDNA corresponding to the second short transcript constitutes the sequence SEQ ID No. 32.
  • SEQ ID NO: 32 is 2765 nucleotides in length. It includes a complete open reading frame going from the nucleotide in position 56 to the nucleotide in position 2287 of the sequence SEQ ID No. 32.
  • the coding sequence begins at the nucleotide in position 410 and ends at the nucleotide in position 2160 of the sequence SEQ ID No. 32 ..
  • the translation initiation codon begins on the nucleotide at position 410 of the sequence SEQ ID No. 32.
  • the analyzes of expression of the long transcript and of the short transcript were carried out by RT PCR, as described in Example 1. These analyzes carried out from polyA + RNA from different tissues made it possible to show that the GS92544 gene was expressed in the fetal brain.
  • transcripts detected with the sequence probe SEQ ID No. 94 are 4 kb and 6 kb respectively in the placenta.
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL, or a disease genetically linked to locus 9q31-34 of the chromosome 9.
  • the open reading frame of the nucleic acid sequence SEQ ID No. 30 (long transcript) potentially codes for a polypeptide of 720 amino acids in length constituting the sequence SEQ ID No. 146.
  • SEQ ID No. 31 (short transcript) potentially codes for a polypeptide of 707 amino acids in length constituting the sequence SEQ ID No. 147.
  • Polypeptide encoded by the nucleic acid of sequence SEQ ID No. 32 The open reading frame of the nucleic acid sequence SEQ ID No. 32.
  • ID No. 32 potentially codes for a polypeptide of 713 amino acids in length constituting the sequence SEQ ID No. 148.
  • the sequence SEQ ID No. 148 has characteristic motifs such as 3 EGF domains including 2 calcium binding, a tyrosine phosphatase site, a N-terminal hydrophobic domain; Numerous glycosylation sites; 2 camp phosphorylation sites; 2 sites Asp hydroxylation.
  • GS92544 is putatively a membrane associated protein like uromodulin which is a protein anchored by means of a glycosylphosphatidylinositol (GPI).
  • GPI glycosylphosphatidylinositol
  • polypeptides of sequences SEQ ID No. 146, 147 and 148 are capable of intervening in the regulation of the flow of cholesterol, and more particularly Tangier's disease, in familial HDL deficiencies, or in a disease genetically linked to locus 9q31-34 on chromosome 9.
  • RNAs corresponding to a transcript of the gene designated here under the number GS930824 have been isolated according to the invention.
  • the first nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 33.
  • sequence SEQ ID No. 33 is 4745 nucleotides in length.
  • This sequence includes a partial open reading frame (ORF) going from the nucleotide in position 2 to the nucleotide in position 514 of the sequence SEQ ID No. 33. Homologies observed at the nucleotide sequence level:
  • Genbank AF1 15435, rat syntaxin 17 on 510 bp (position 22-531 bp).
  • SEQ ID No. 34 The second nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 34.
  • SEQ ID NO: 34 is 5241 nucleotides in length.
  • the coding sequence begins at the nucleotide at position 105 and ends at the nucleotide at position 1013 of the sequence SEQ ID No. 34.
  • the translation initiation codon begins on the nucleotide at position 105 of the sequence SEQ ID No. 34.
  • sequence SEQ ID No. 34 has homologies with sequences referenced in the GenBank database (Version 1 16). These are the following homologies:
  • the analyzes of expression of the transcript of sequence SEQ ID No. 33 were carried out by RT PCR, as described in Example 1. These analyzes carried out using polyA + RNA from different tissues made it possible to show that the GS930824 gene was expressed in the fetal brain, liver, brain, heart, prostate, placenta, fetal liver, uterus, testis, kidney and skeletal muscle.
  • the size of the transcripts detected with the sequence probe SEQ ID No. 95 is respectively:
  • the size of the transcripts detected with the sequence probe SEQ ID No. 96 is respectively: - 1.35 kb, 2.4 kb, 3.5 kb and 10 kb in the placenta; - 1.35 kb and 2.4 kb in the pancreas, the kidney and the liver; - 1.35 kb in the lung;
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction in the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL.
  • the open reading frame of the nucleic acid sequence SEQ ID No. 33 potentially codes for a polypeptide of 170 amino acids in length constituting the sequence SEQ ID No. 149.
  • No significant homology with BLAST was found with the sequences referenced in the Swissprot (version 36, last update May 3, 1999) and PRODOM: databases (homologous domains detected in Swissprot, version 34.2, November 1997).
  • gi4206161 is the protein translation of the gene coding for rat syntaxin 17 .
  • Genpept (translation of Genbank v110 and 111, last update May 7, 1999):
  • the open reading frame of the sequence SEQ ID No. 34 potentially codes for a polypeptide of 318 amino acids constituting the sequence SEQ ID No. 150.
  • Genpept: gi4206161 is the protein translation of the gene coding for rat syntaxin 17.
  • the polypeptide of sequence SEQ ID No. 150 has a motif characteristic of a syntaxin between the nucleotides at positions 1 and 243 of the open reading frame.
  • polypeptides of sequence SEQ ID Nos. 149 and 150 therefore resemble a protein of the syntaxin family involved in intracellular vesicular transport. This underlying mechanism by specific addressing mediated by these proteins is of interest with respect to Tangier / FHD disease which is described by a defect in the mechanism of transport and translocation of pools of intracellular cholesterol towards acceptor HDL particles.
  • the polypeptides of sequence SEQ ID Nos. 149 and 150 are therefore capable of intervening in an important step involved in the reverse transport of cholesterol by HDL.
  • polypeptides of sequences SEQ ID Nos. 149 and 150 are also capable of intervening in a disease genetically linked to locus 9q31-34 of chromosome 9.
  • a messenger RNA corresponding to a transcript of the gene designated here under the number GS93382 has been isolated according to the invention.
  • the nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 35.
  • sequence SEQ ID No. 35 is 3014 nucleotides in length.
  • This sequence includes a partial open reading frame (ORF) going from the nucleotide in position 3 to the nucleotide in position 371 of the sequence SEQ ID No. 35.
  • ORF partial open reading frame
  • the expression analyzes of the transcript of sequence SEQ ID No. 35 were carried out by RT PCR, as described in Example 1. These analyzes carried out using polyA + RNA from different tissues made it possible to show that the GS93382 gene was expressed in the fetal brain.
  • the size of the transcripts detected with the sequence probe SEQ ID No. 97 is respectively: - 2 kb and 7.5 kb in the brain;
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL, or a disease genetically linked to the locus.
  • the open reading frame of the nucleic acid sequence SEQ ID No 35 potentially codes for a polypeptide of 123 amino acids in length constituting the sequence SEQ ID No 151.
  • polypeptide of sequence SEQ ID No. 151 is capable of intervening in the regulation of the flow of cholesterol, and more particularly of Tangier's disease, in deficiencies in HDL, or in a disease genetically linked to locus 9q31-34 of chromosome 9.
  • a messenger RNA corresponding to a transcript of the gene designated here under the number GS946300 has been isolated according to the invention.
  • the nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 36.
  • SEQ ID NO: 36 is 1575 nucleotides in length.
  • This sequence includes a partial open reading frame (ORF) going from the nucleotide in position 3 to the nucleotide in position 176 of the sequence SEQ ID No. 36. No sequence identity was found during a search in the GenBank database (Version 110).
  • the analyzes of expression of the transcript of sequence SEQ ID No. 36 were carried out by RT PCR, as described in Example 1. These analyzes carried out from polyA + RNA from different tissues made it possible to show that the GS946300 gene was expressed in the fetal brain, liver, brain, heart, prostate, placenta, fetal liver, uterus, testicle and kidney.
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL, or a disease genetically linked to locus 9q31-34 of the chromosome 9.
  • the open reading frame of the nucleic acid sequence SEQ ID No. 36 potentially codes for a polypeptide of 58 amino acids in length constituting the sequence SEQ ID No. 152.
  • No significant homology with BLAST was found with the sequences referenced in the Swissprot (version 36, last update May 3, 1999) and PRODOM: databases (homologous domains detected in Swissprot, version 34.2, November 1997).
  • the polypeptide of sequence SEQ ID No. 152 is capable of intervening in the regulation of the flow of cholesterol, and more particularly of Tangier's disease or of family deficiencies in HDL.
  • polypeptide of sequence SEQ ID No. 152 is therefore capable of intervening in an important step involved in the reverse transport of cholesterol by HDL.
  • RNAs corresponding to a long transcript and a short transcript of the gene designated here under the no. GS937345 have been isolated according to the invention.
  • a first nucleic sequence of the cDNA corresponding to the long transcript was isolated and constitutes the sequence SEQ ID No. 37.
  • sequence SEQ ID No. 37 is 1607 nucleotides in length.
  • This sequence includes a partial open reading frame (ORF) going from the nucleotide in position 2 to the nucleotide in position 109 of the sequence SEQ ID No. 37.
  • ORF partial open reading frame
  • two primers of respective sequences SEQ ID No. 104 and 105 were synthesized and made it possible to amplify a cDNA from a bank of polyA + mRNA of different human tissues marketed by the Clontech company.
  • SEQ ID Nos. 104 and 105 constitutes the sequence SEQ ID No. 38.
  • the sequence SEQ ID No. 38 is 1161 nucleotides in length.
  • the nucleic sequence of the cDNA corresponding to the short transcript constitutes the sequence SEQ ID No. 39.
  • SEQ ID NO: 39 is 1332 nucleotides in length.
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL, or a disease genetically linked to locus 9q31-34 of the chromosome 9.
  • the open partial reading frame of the long transcript of nucleic acid sequence SEQ ID No. 37 potentially codes for a polypeptide of 36 amino acids in length constituting the sequence SEQ ID No. 153.
  • RNAs corresponding to a long transcript and a short transcript of the gene designated here under the no. GS99556 have been isolated according to the invention.
  • the nucleic sequence of the cDNA corresponding to the long transcript constitutes the sequence SEQ ID No. 40.
  • SEQ ID NO: 40 is 10419 nucleotides in length.
  • This sequence includes a partial open reading frame (ORF) ranging from the nucleotide in position 2 to the nucleotide in position 1954 of the sequence SEQ ID No. 40.
  • the initiation codon (ATG) begins at the nucleotide at position 29 of the long transcript of sequence SEQ ID No. 40.
  • the nucleic sequence of the cDNA corresponding to the short transcript constitutes the sequence SEQ ID No. 41.
  • the sequence SEQ ID No. 41 is 1813 nucleotides in length.
  • the analyzes of expression of the transcript of sequence SEQ ID No. 40 were carried out by RT PCR, as described in Example 1. These analyzes carried out using polyA + RNA from different tissues made it possible to show that the GS99556 gene was expressed in the fetal brain, liver, brain, heart, prostate, placenta and fetal liver.
  • the size of the transcripts detected with the sequence probe SEQ ID No. 98 is respectively:
  • the size of the transcripts detected with the sequence probe SEQ ID No. 99 is respectively:
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL, or a disease genetically linked to locus 9q31-34 of the chromosome 9.
  • the open partial reading frame of the nucleic acid sequence SEQ ID No. 40 potentially codes for a polypeptide of 651 amino acids in length constituting the sequence SEQ ID No. 154. Homologies observed at the protein sequence level: This ORF has homologies with Genpept sequences: (translation of Genbank v110 and 111, last updated on May 7, 1999) and TrEMBL (SP-TrEMBL, version 7, November 1998 ) (BlastX translation of the following sequences):
  • This gene is a candidate for the study of Tangier disease / FHD due to the chromosomal location.
  • polypeptide of sequence SEQ ID No. 154 is capable of intervening in the regulation of the flow of cholesterol, and more particularly of Tangier's disease, in family deficiencies in HDL, or in a disease genetically linked to the locus 9q31-34 of chromosome 9.
  • a messenger RNA corresponding to a transcript of the gene designated here under the number GS96663 has been isolated according to the invention.
  • Six nucleic acid sequences representative of this transcript have been determined: The first partial nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 42.
  • SEQ ID NO: 42 is 1377 nucleotides in length.
  • the second partial nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 43.
  • sequence SEQ ID No. 43 is 452 nucleotides in length.
  • the third partial nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 44.
  • the sequence SEQ ID No. 44 is 562 nucleotides in length.
  • the fourth partial nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 45.
  • SEQ ID NO: 45 is 1766 nucleotides in length. No sequence identity was found during a search in the GenBank database (Version 110).
  • nucleotide primer of sequence SEQ ID No. 108 was synthesized.
  • sequence SEQ ID No. 45 From the sequence SEQ ID No. 45, two nucleotide primers were synthesized, the primers of sequences SEQ ID No. 109 and 110 respectively.
  • the fifth nucleic sequence corresponding to the transcript of the GS96663 gene constitutes the sequence SEQ ID No. 46.
  • the nucleic sequence SEQ ID No. 46 is 601 nucleotides in length.
  • the sixth nucleic sequence corresponding to the transcript of the GS96663 gene constitutes the sequence SEQ ID No. 47.
  • the sequence SEQ ID No. 47 The sequence SEQ ID No. 47.
  • ID No. 47 is 3706 nucleotides in length. It includes an open partial reading frame going from the nucleotide in position 1 to the nucleotide in position 3202 of the sequence SEQ ID No. 47.
  • the analyzes of expression of the transcript of the sequences SEQ ID Nos. 42 to 47 were carried out by RT PCR, as described in Example 1. These analyzes carried out using polyA + RNA from different tissues made it possible to show that the GSS96663 gene was expressed in the fetal brain, liver, brain, heart, prostate, placenta, fetal liver, uterus, testis, kidney and skeletal muscle.
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction in the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL.
  • the open partial reading frame of the nucleic acid sequence SEQ ID No. 47 potentially codes for a polypeptide of 1066 amino acids in length which constitutes the sequence SEQ ID No. 155.
  • P-selectin and E-selectin sp sequences
  • lem2_human e-selectin precursor endothelial leukocyte adhesion molecule 1 (elam-1) (leukocyte- endothelial cell adhesion molecule 2) (Iecam2) (cd62e) and sp
  • lem3_human p-selectin precursor granule membrane protein 140) (gmp-140) (padgem) (cd62p) (leukocyte-endothelial cell adhesion molecule 3) (Iecam3) and with non-redundant pir: pir
  • a30359 p- selectin precursor - human .. 24% homology on 637 AA with the sequence g183391 (M25322) granule membrane protein-140 (GMP-140) precursor [Homo sapiens], Length 830
  • the GS96663 gene product by virtue of its amino acid homology with human P-selectin and E-selectin precursors, is related to this class of membrane proteins. Its role in the efflux of intracellular cholesterol, mediated by membrane proteins is not excluded, especially as the gene is located in the genetic interval defined by positional cloning.
  • polypeptide of sequence SEQ ID No. 155 is capable of intervening in the regulation of the flow of cholesterol, and more particularly of Tangier's disease, in family deficiencies in HDL, or in a disease genetically linked to the locus 9q31-34 of chromosome 9.
  • Nucleic acid (s) II was isolated according to the invention a messenger RNA corresponding to a transcript of the gene designated here under the number GS941675. Two nucleic acid sequences are representative of this transcript:
  • the first nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 48.
  • SEQ ID NO: 48 is 373 nucleotides in length.
  • the second nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 49.
  • sequence SEQ ID No. 49 is 459 nucleotides in length.
  • the third nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 50.
  • sequence SEQ ID No. 50 is 2575 nucleotides in length Homologies between the sequence SEQ ID No. 50 and sequences referenced in the GenBank database (Version 1 16) were observed. These homologies are as follows:
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL, or a disease genetically linked to the locus.
  • a messenger RNA corresponding to a transcript of the gene designated here under the number GS929341 has been isolated according to the invention. Two nucleic acid sequences representative of this transcript have been determined. The first nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 51.
  • sequence SEQ ID No. 51 is 231 nucleotides in length.
  • the second nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 52.
  • sequence SEQ ID No. 52 is 344 nucleotides in length. This sequence includes a partial open reading frame (ORF) going from the nucleotide in position 3 to the nucleotide in position 131 of the sequence SEQ ID No. 52. No identity with the sequences SEQ ID N ° 51 and 52 was found during a search in the GenBank database (Version 110).
  • the third nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 53.
  • sequence SEQ ID No. 53 is 402 nucleotides in length. This sequence includes a partial open reading frame (ORF) ranging from the nucleotide in position 1 to the nucleotide in position 188 of the sequence SEQ ID No. 53.
  • ORF partial open reading frame
  • Nos. 51 and 52 were carried out by RT PCR, as described in Example 1. These analyzes carried out using polyA + RNA from different tissues made it possible to show that the GS929341 gene was expressed in the fetal brain, the liver , brain, heart, prostate, placenta, fetal liver, uterus, testis, kidney, skeletal muscle and lung.
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL, or a disease genetically linked to the locus.
  • the open reading frame of the nucleic acid sequence SEQ ID No 52 potentially codes for a polypeptide of 43 amino acids in length constituting the sequence SEQ ID No 156. No significant homology with BLAST was found with the sequences referenced in the Swissprot databases
  • the open reading frame of the nucleic acid sequence SEQ ID No. 53 potentially codes for a polypeptide of 61 amino acids in length constituting the sequence SEQ ID No. 157.
  • polypeptides of sequences SEQ ID N ° 156 and 157 are capable of intervening in the regulation of the flow of cholesterol, and more particularly of Tangier's disease, in family deficiencies in HDL, or in a disease genetically linked to the locus 9q31 -34 of chromosome 9.
  • a messenger RNA corresponding to a transcript of the gene designated here under the number GS915742 has been isolated according to the invention. Three nucleic acid sequences representative of this transcript have been determined.
  • the first nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 54.
  • SEQ ID NO: 54 is 228 nucleotides in length.
  • the second nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 55.
  • sequence SEQ ID No. 55 is 270 nucleotides in length.
  • the third nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 56.
  • sequence SEQ ID No. 56 is 1130 nucleotides in length.
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL, or a disease genetically linked to locus 9q31-34 of the chromosome 9.
  • a messenger RNA corresponding to a transcript of the gene designated here under the number GS913018 has been isolated according to the invention. Two sequences representative of this transcript are shown below.
  • the first nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 57.
  • the sequence SEQ ID No. 57 is 463 nucleotides in length.
  • the second nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 58.
  • the sequence SEQ ID No. 58 is 289 nucleotides in length.
  • sequence SEQ ID No. 57 From the sequence SEQ ID No. 57, two nucleotide primers were synthesized, the primers of sequences SEQ ID No. 111 and 112 respectively.
  • sequence SEQ ID No. 58 From the sequence SEQ ID No. 58, two nucleotide primers were synthesized, the primers of sequences SEQ ID No. 113 and 114. respectively.
  • the primers of sequences SEQ ID No. 111 to 114 made it possible to amplify a cDNA , from a polyA + mRNA library of different human tissues sold by the Clontech Company, a third nucleic sequence of the cDNA corresponding to the transcript of the GS913018 gene.
  • the third nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 59.
  • sequence SEQ ID No. 59 is 1542 nucleotides in length.
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL, or a disease genetically linked to locus 9q31-34 of the chromosome 9.
  • a messenger RNA corresponding to a transcript of the gene designated here under the number GS911742 has been isolated according to the invention. Three representative sequences of this transcript have been determined. The first nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 60.
  • sequence SEQ ID No. 60 is 1417 nucleotides in length.
  • the second nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 61.
  • SEQ ID NO: 61 is 696 nucleotides in length.
  • the sequence SEQ ID No. 62 is 2702 nucleotides in length. This sequence includes a partial open reading frame (ORF) going from the nucleotide in position 1 to the nucleotide in position 792 of the sequence SEQ ID No. 62.
  • the potential coding sequence begins at the nucleotide at position 49 and ends at the nucleotide at position 792 of the sequence SEQ ID No. 62.
  • the translation initiation codon begins at the nucleotide at position 49 of the sequence SEQ ID No. 62.
  • This sequence comprises a Kozak motif of sequence "GC CGC GCC ATG C" which begins at the nucleotide in position 41 of the sequence SEQ ID No. 62.
  • transcripts detected with the sequence probe SEQ ID No. 101 are 1.9 kb in the pancreas, the kidney, the skeletal muscle, the lung and the placenta.
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction in the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL.
  • the open partial reading frame of the nucleic acid sequence SEQ ID No. 62 potentially codes for a polypeptide of 263 amino acids in length constituting the sequence SEQ ID No. 158.
  • GBAS guanine nucletide-binding protein, alpha- subunit (adenylate cyclase-stimulating G alpha protein). This protein is described with a phosphorylation site and a transmembrane region.
  • the "guanine nucletide-binding proteins” have a role of modulators or transducers in different transmembrane signaling systems.
  • the polypeptide of sequence SEQ ID No. 158 includes glycosylation sites, phosphorylation sites such as cAMP- and cGMP-dependent protein kinase and casein kinese type II phosphorylation sites.
  • polypeptide of sequence SEQ ID No. 158 is therefore related by its motif found in the domain PD013981 of PRODOM: (homologous domains detected in Swissprot, version 34.2, November 1997) to a protein putatively involved in vesicular intracellular transport. This mechanism, underpinned by a specific addressing mediated by these proteins, is of interest compared to Tangier disease / FHD which is described by a defect in the mechanism of transport and tra ⁇ slocation of pools of intracellular cholesterol towards the accepting HDL particles. The polypeptide of sequence SEQ ID No. 158 is therefore likely to intervene in an important stage involved in the reverse transport of cholesterol by HDL.
  • polypeptide of sequence SEQ ID No. 158 is capable of intervening in the regulation of the flow of cholesterol, and more particularly of Tangier disease, in family deficiencies in HDL, or in a disease genetically linked to the locus 9q31-34 of chromosome 9.
  • a messenger RNA corresponding to a transcript of the gene designated here under the number GS98601 has been isolated according to the invention. Three nucleic acid sequences representative of this transcript have been determined. The first nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 63.
  • sequence SEQ ID No. 63 is 335 nucleotides in length.
  • the second nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 64.
  • sequence SEQ ID No. 64 is 447 nucleotides in length. No sequence identity was found during a search in the GenBank database (Version 110).
  • the third nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 65.
  • sequence SEQ ID No. 65 is 2324 nucleotides in length. This sequence includes a partial open reading frame (ORF) going from the nucleotide in position 3 to the nucleotide in position 611 of the sequence SEQ ID No. 65.
  • ORF partial open reading frame
  • the analyzes of expression of the transcript of sequence SEQ ID No. 45 were carried out by RT PCR, as described in Example 1. These analyzes carried out using polyA + RNA from different tissues made it possible to show that the GS98601 gene was expressed in the brain, placenta and uterus.
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL, or a disease genetically linked to locus 9q31-34 of the chromosome 9.
  • the open reading frame of the third nucleic acid sequence SEQ ID No. 65 potentially codes for a polypeptide of 203 amino acids in length constituting the sequence SEQ ID No. 159. Homologies observed at the level of the protein sequence (307):
  • polypeptide of sequence SEQ ID No. 159 is capable of intervening in the regulation of the flow of cholesterol, and more particularly of Tangier's disease, in family deficiencies in HDL, or in a disease genetically linked to the locus 9q31-34 of chromosome 9.
  • This gene is a candidate by its chromosomal location for Tangier / FHD pathologies.
  • Nucleic acid A messenger RNA corresponding to a transcript of the gene designated here under the number GS94852 has been isolated according to the invention. Three nucleic acid sequences representative of this transcript have been determined.
  • the first nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 66.
  • sequence SEQ ID No. 66 is 447 nucleotides in length.
  • the second nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 67.
  • SEQ ID NO: 67 is 564 nucleotides in length.
  • sequence SEQ ID No. 66 two nucleotide primers were synthesized, the primers of sequences SEQ ID No. 115 and 116 respectively. From the sequence SEQ ID No. 67, two nucleotide primers were synthesized, the primers of sequences SEQ ID N ° 1 17 and 1 18 respectively.
  • the primers of sequences SEQ ID N ° 115 to 118 made it possible to amplify a cDNA, from a bank of polyA + mRNA of different human tissues marketed by the Company Clontech, a third nucleic sequence of the cDNA corresponding to the transcript of the gene
  • the third nucleic sequence corresponding to the transcript of the GS94852 gene constitutes the sequence SEQ ID No. 68.
  • the sequence SEQ ID No. 68 has a length of 604 nucleotides.
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL, or to a disease genetically linked to locus 9q31 -34 of the chromosome 9.
  • a messenger RNA corresponding to a transcript of the gene designated here under the number GS935135 has been isolated according to the invention. Three nucleic acid sequences representative of this transcript have been determined.
  • the first nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 69.
  • sequence SEQ ID No. 69 is 482 nucleotides in length.
  • the second nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 70.
  • sequence SEQ ID No. 70 is 402 nucleotides in length.
  • SEQ ID No 119 from the sequence SEQ ID No 69 and a second nucleotide primer of sequence SEQ ID N 120 from the sequence SEQ ID No. 70. These primers made it possible to amplify a third nucleic sequence representative of the transcript of the gene GS935135 constituting the sequence SEQ ID No. 71.
  • the nucleic sequence SEQ ID NO: 71 is 758 nucleotides in length.
  • the expression analyzes of the transcript of sequence SEQ ID No. 69 or 70 were carried out by RT PCR, as described in Example 1. These analyzes carried out using polyA + RNA from different tissues made it possible to show that the GS935135 gene was expressed in the fetal brain, the liver, the brain, the prostate, the placenta, the fetal liver, the uterus, the testicle. and the kidney. This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL, or to a disease genetically linked to locus 9q31 -34 of the chromosome 9.
  • Nucleic acid (s) II was isolated according to the invention a messenger RNA corresponding to a transcript of the gene designated here under the number GS914669. Three nucleic acid sequences representative of this transcript have been determined.
  • the first nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 72.
  • sequence SEQ ID No. 72 is 673 nucleotides in length.
  • the second nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 73.
  • the sequence SEQ ID No. 73 is 554 nucleotides in length.
  • sequence SEQ ID No. 73 From the sequence SEQ ID No. 73, two nucleotide primers were synthesized, the primers of sequences SEQ ID No. 123 and 124 respectively.
  • the primers of sequences SEQ ID N ° 121 to 124 made it possible to amplify a cDNA, from a polyA + mRNA library of different human tissues marketed by the Clontech Company, a third nucleic sequence of the cDNA corresponding to the transcript of the GS914669 gene. This sequence constitutes the sequence SEQ ID No. 74.
  • the sequence SEQ ID No. 74 has a length of 1794 nucleotides.
  • This sequence includes an open reading frame going from the nucleotide in position 1 to the nucleotide in position 258 of the sequence SEQ ID No. 74 as well as an identically localized coding sequence.
  • This sequence includes a polyadenylation site starting at the nucleotide at position 1751 of the
  • the expression analyzes of the transcript of sequence SEQ ID No. 72 or 73 were carried out by RT PCR, as described in Example 1.
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or deficiencies. in HDL, or to a disease genetically linked to locus 9q31-34 on chromosome 9.
  • Polypeptide encoded by the nucleic acid of sequence SEQ ID No. 74 The open reading frame of the nucleic acid sequence SEQ
  • Nucleic acid (s) II was isolated according to the invention a messenger RNA corresponding to a transcript of the gene designated here under the number GS913839. Three nucleic acid sequences representative of this transcript have been determined.
  • the first nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 75.
  • sequence SEQ ID No. 75 is 507 nucleotides in length.
  • the second nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 76.
  • the sequence SEQ ID No. 76 is 415 nucleotides in length.
  • sequence identity with the sequences SEQ ID N ° 75 and 76 was found during a search in the GenBank database (Version 1 10). From the sequence SEQ ID No. 75, a nucleotide primer of sequence SEQ ID No. 125 was synthesized.
  • sequence SEQ ID No. 76 a nucleotide primer of sequence SEQ ID No. 1 126 was synthesized.
  • the primers of sequences SEQ ID No. 125 and 126 made it possible to amplify a cDNA, from a polyA + mRNA bank of different human tissues marketed by the Clontech Company a third nucleic sequence of the cDNA corresponding to the transcript of the GS94852 gene. This sequence constitutes the sequence SEQ ID No. 77.
  • the sequence SEQ ID No. 77 is 1318 nucleotides in length.
  • the expression analyzes of the transcript of sequence SEQ ID No. 75 or 76 were carried out by RT PCR, as described in Example 1. These analyzes carried out using polyA + RNA from different tissues have demonstrated that the GS913839 gene was expressed in the fetal brain and liver.
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL, or a disease genetically linked to locus 9q31-34 of the chromosome 9.
  • a messenger RNA corresponding to a transcript of the gene designated here under the number GS912639 has been isolated according to the invention. Three nucleic acid sequences representative of this transcript have been determined.
  • the first nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 78.
  • sequence SEQ ID No. 78 is 530 nucleotides in length.
  • the second nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 79.
  • sequence SEQ ID No. 79 is 495 nucleotides in length.
  • nucleotide primer of sequence SEQ ID No. 127 was synthesized.
  • sequence SEQ ID No. 79 a nucleotide primer of sequence SEQ ID No. 128 was synthesized
  • the primers of sequences SEQ ID N ° 127 and 128 made it possible to amplify a cDNA, from a bank of polyA + mRNA of different human tissues marketed by the Clontech Company, a third nucleic sequence of the cDNA corresponding to the transcript of the GS912639 gene. This sequence constitutes the sequence SEQ ID N ° 80.
  • sequence SEQ ID No. 80 is 594 nucleotides in length.
  • the analyzes of expression of the transcript of sequence SEQ ID No. 78 or 79 were carried out by RT PCR, as described in Example 1. These analyzes carried out using polyA + RNA from different tissues made it possible to show that the GS912639 gene was expressed in the liver. This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL, or a disease genetically linked to locus 9q31-34 of the chromosome 9.
  • a messenger RNA corresponding to a transcript of the gene designated here under the number GS933630 has been isolated according to the invention.
  • a nucleic acid sequence representative of this transcript has been determined.
  • This nucleic sequence of the cDNA corresponding to this transcript constitutes the sequence SEQ ID No. 81.
  • sequence SEQ ID No. 81 has a length of 582 nucleotides. No homology was observed with the sequences referenced in the GenBank database (Version 116).
  • This gene constitutes a causal positional candidate for a disease due to a dysfunction of the reverse flow of cholesterol, and more particularly Tangier's disease or family deficiencies in HDL, or a disease genetically linked to locus 9q31-34 of the chromosome 9.
  • the invention thus relates to a nucleic acid coding for a protein having an amino acid sequence chosen from the group of amino acid sequences SEQ ID No. 129 to SEQ ID No. 160 or a peptide fragment or a variant thereof or a nucleic acid of complementary sequence.
  • the nucleic acids according to the invention are in an isolated or purified form.
  • the invention also relates to a nucleic acid comprising at least eight consecutive nucleotides of a polynucleotide chosen from the group consisting of the nucleotide sequences SEQ ID No. 1 to SEQ ID No. 81 and SEQ ID No. 82 to SEQ ID No. 101, or a nucleic acid of complementary sequence.
  • the invention also relates to a nucleic acid comprising at least 20, 30, 40, 50, 100 or 150 consecutive nucleotides of a polynucleotide chosen from the group consisting of the nucleotide sequences SEQ ID No. 1 to SEQ ID No. 81 and SEQ ID No. 82 to SEQ ID No. 101, or a nucleic acid of complementary sequence.
  • the invention also relates to a nucleic acid having at least 90% nucleotide identity with a nucleic acid chosen from the group consisting of the nucleotide sequences SEQ ID No. 1 to SEQ ID No. 81 and SEQ ID N ° 82 to SEQ ID No. 101, advantageously 80%, preferably 95, 99%, 99.5%, and very preferably 99.8% of nucleotide identity with a nucleic acid chosen from the group consisting of nucleotide sequences SEQ ID No. 1 to SEQ ID No. 81 and SEQ ID No. 82 to SEQ ID No. 101, or a nucleic acid of complementary sequence.
  • the invention relates to a nucleic acid hybridizing, under hybridization conditions of high stringency, with a nucleic acid as defined above, and more particularly a nucleic acid chosen from the group consisting of nucleotide sequences SEQ ID No. 1 to SEQ ID No. 81 and SEQ ID No. 82 to SEQ ID No. 101, or a nucleic acid of complementary sequence.
  • each of the nucleotide sequences SEQ ID No. 1 to SEQ ID No. 81 constitute cDNAs whose nucleotide sequence is found in the transcripts of genes potentially involved in disorders linked to a dysfunction of metabolism lipoproteins, in particular the reverse transport of cholesterol.
  • an open reading phase has been determined, which codes for a polypeptide whose alteration in the amino acid sequence or in the expression is potentially associated with one of these conditions, which indicates that the nucleotide sequences comprising the open reading phases constitute nucleic acids of potentially therapeutic interest.
  • the subject of the invention is also a nucleic acid having at least 80% nucleotide identity with a polynucleotide comprising, or alternatively consisting of, a complete or partial open reading frame, as defined above in this description.
  • nucleic acids which comprise, totally or partially, the coding region of the transcripts of sequences SEQ ID No. 1 to SEQ ID No. 81 can be expressed in a desired host cell, when these nucleic acids are placed under the control of suitable expression signals.
  • Such expression signals can be either the expression signals contained in the regulatory regions of each of the corresponding genes or, on the contrary, made up of exogenous regulatory nucleic sequences.
  • nucleic acid placed under the control of a functional regulatory sequence in the desired host cell can also be inserted into a vector for expression.
  • nucleic acid fragments derived from any of the nucleotide sequences SEQ ID No. 1 to SEQ ID No. 81 are useful for detecting the presence of at least one copy of a nucleotide sequence chosen from the sequences SEQ ID N ° 1 to SEQ ID N ° 81 or a fragment or a variant thereof in a sample.
  • the nucleotide probes or primers according to the invention comprise at least eight consecutive nucleotides of a nucleic acid chosen from the group consisting of sequences SEQ ID No. 1 to SEQ ID No. 81, or of a nucleic acid of complementary sequence.
  • nucleotide probes or primers according to the invention will have a length of 10, 12, 15, 18 or 20 to 25, 35, 40, 50, 70, 80, 100, 200, 500, 1000, 1500 consecutive nucleotides d a nucleic acid according to the invention, in particular a nucleic acid of nucleotide sequence chosen from the sequences SEQ ID No. 1 to SEQ ID No. 81 or of a nucleic acid of complementary sequence.
  • a probe or a nucleotide primer according to the invention will consist and / or include the fragments of a length of 12, 15, 18, 20, 25, 35, 40, 50, 100, 200, 500, 1000, 1500 nucleotides consecutive of a nucleic acid according to the invention, more particularly of a nucleic acid chosen from the sequences SEQ ID No. 1 to SEQ ID No. 81, or of a nucleic acid of complementary sequence.
  • the definition of a probe and of a nucleotide primer according to the invention therefore includes oligonucleotides which hybridize, under the conditions of high stringency hybridization defined above, with a nucleic acid chosen from the sequences SEQ ID No. 1 to SEQ ID No.
  • probes and primers according to the invention comprise all or part of a polynucleotide chosen from the nucleotide sequences SEQ ID No 82 to 101, or nucleic acids of complementary sequence, or also from the nucleotide sequences SEQ ID No 102 to 128, or nucleic acids of complementary sequence.
  • a primer or a nucleotide probe according to the invention can be prepared by any suitable method well known to those skilled in the art, including by cloning and action of restriction enzymes or also by direct chemical synthesis according to techniques such as the method to the phosphodiester of NARANG et al. (1979) or BROWN et al. (1979), the diethylphosphoramidite method of BEAUCAGE et al. (1980) or the solid support technique described in EU Patent No. EP 0 707 592.
  • Each of the nucleic acids according to the invention can be labeled, if desired, by incorporating a label detectable by spectroscopic, photochemical, biochemical, immunochemical or even chemical means.
  • markers can consist of radioactive isotopes ( 32 P, 33 P,, 3 H, 35 S,), fluorescent molecules (5-bromodeoxyuridine, fluorescein, acetylaminofluorene, digoxigenin) or also ligands such as biotin .
  • the labeling of the probes is preferably done by incorporating labeled molecules within the polynucleotides by extension of primers, or else by adding to the 5 ′ or 3 ′ ends.
  • the probes according to the invention can have structural characteristics such as to allow amplification of the signal, such as the probes described by URDEA et al. (1991) or in European patent n ° EP-0 225 807 (CHIRON).
  • oligonucleotide probes according to the invention can be used in particular in Southern type hybridizations with genomic DNA or also in hybridizations with the corresponding messenger RNA when the expression of the corresponding transcript is sought in a sample.
  • the probes according to the invention can also be used for the detection of PCR amplification products or even for the detection of mismatches.
  • Nucleotide probes or primers according to the invention can be immobilized on a solid support.
  • solid supports are well known to those skilled in the art and include surfaces of the wells of microtiter plates, polystyrene beds, magnetic beds, nitrocellulose strips, or even microparticles such as latex particles.
  • the present invention also relates to a method for detecting the presence of a nucleic acid as described above in a sample, said method comprising the steps of: 1) bringing one or more nucleotide probes according to the invention into contact with the sample to be tested;
  • the oligonucleotide probe (s) are immobilized on a support.
  • the oligonucleotide probes include a detectable marker.
  • the invention further relates to a kit or kit for detecting the presence of a nucleic acid according to the invention in a sample, said kit comprising: a) one or more nucleotide probes as described above; b) where appropriate, the reagents necessary for the hybridization reaction.
  • the detection kit or kit is characterized in that the probe or probes are immobilized on a support.
  • the detection kit or kit is characterized in that the oligonucleotide probes comprise a detectable marker.
  • such a kit will comprise a plurality of oligonucleotide probes in accordance with the invention which can be used to detect target sequences of interest or alternatively to detect mutations in the coding regions or the non-coding regions of the nucleic acids according to the invention, more particularly nucleic acids of sequences SEQ ID No. 1 to SEQ ID No. 81 or the nucleic acids of complementary sequence.
  • Preferred probes would include all or part of the polynucleotides of sequences SEQ ID No. 82 to SEQ ID No. 101.
  • the probes according to the invention immobilized on a support can be ordered in matrices such as "DNA chips".
  • matrices such as "DNA chips”.
  • the nucleotide primers according to the invention can be used to amplify any of the nucleic acids according to the invention, and more particularly all or part of a nucleic acid of sequences SEQ ID No. 1 to SEQ ID No. 81, or again a variant of it.
  • Another subject of the invention relates to a method for the amplification of a nucleic acid according to the invention, and more particularly a nucleic acid of sequences SEQ ID No. 1 to SEQ ID No. 81 or a fragment or a variant of this contained in a sample, said method comprising the steps of: a) bringing the sample in which the presence of the target nucleic acid is suspected with a pair of nucleotide primers whose hybridization position is localized respectively on the 5 ′ side and on the 3 ′ side of the region of the target nucleic acid whose amplification is sought, in the presence of the reagents necessary for the amplification reaction; and b) detection of the amplified nucleic acids.
  • the subject of the invention is also a kit or kit for the amplification of a nucleic acid according to the invention, and more particularly all or part of a nucleic acid of sequences SEQ ID No. 1 to SEQ ID No. 81 , said kit or kit comprising: a) a pair of nucleotide primers in accordance with the invention, the hybridization position of which is located respectively on the 5 ′ side and on the 3 ′ side of the target nucleic acid, the amplification of which is sought; b) where appropriate, the reagents necessary for the amplification reaction.
  • Such an amplification kit or kit will advantageously comprise at least one pair of nucleotide primers as described above.
  • the invention also relates to a recombinant vector comprising a nucleic acid according to the invention.
  • such a recombinant vector will comprise a nucleic acid chosen from the following nucleic acids: a) a nucleic acid coding for a protein having an amino acid sequence chosen from the group of sequences SEQ ID No. 129 to SEQ ID No. 160 or a peptide fragment or a variant thereof; b) a nucleic acid comprising a polynucleotide chosen from the group consisting of sequences SEQ ID No. 1 to SEQ ID No. 81, or a fragment or a variant thereof; c) a nucleic acid having at least 80% nucleotide identity with a nucleic acid chosen from the group consisting of sequences SEQ ID No. 1 to SEQ ID No.
  • nucleic acid hybridizing under high stringency hybridization conditions, with a nucleic acid of sequences SEQ ID No. 1 to SEQ ID No. 81, or a fragment or a variant thereof.
  • vector within the meaning of the present invention is meant a circular or linear DNA or RNA molecule which is either in the form of single strand or double strand.
  • a recombinant vector according to the invention is used in order to amplify the nucleic acid which is inserted therein after transformation or transfection of the desired cellular host.
  • they are expression vectors comprising, in addition to a nucleic acid conforming to the invention, regulatory sequences for directing transcription and / or translation.
  • a recombinant vector according to the invention will comprise in particular the following elements: (1) elements for regulating the expression of the nucleic acid to be inserted, such as promoters and enhancers;
  • the recombinant vectors according to the invention may include one or more origins of replication in cellular hosts in which their amplification or expression is sought, markers or selection markers.
  • the bacterial promoters could be the Lacl, LacZ promoters, the RNA polymerase promoters of bacteriophage T3 or T7, the PR or PL promoters of phage lambda.
  • Promoters for eukaryotic cells will include the HSV virus thymidine kinase promoter or the mouse metallothionein-L promoter.
  • the preferred bacterial vectors according to the invention are for example the vectors pBR322 (ATCC37017) or alternatively vectors such as pAA223-3 (Pharmacia, Uppsala, Sweden), and pGEMI (Promega Biotech, Madison, Wl, USA).
  • a recombinant vector according to the invention can also be a retroviral vector or also an adeno-associated vector (AAV).
  • AAV adeno-associated vector
  • Such adeno-associated vectors are for example described by FLOTTE et al. (1992), SAMULSKI et al. (1989), or even McLAUGHLIN BA et al.
  • the invention also relates to a recombinant host cell comprising a nucleic acid according to the invention, and more particularly a nucleic acid of sequences SEQ ID No. 1 to SEQ ID No. 81 or also a nucleic acid comprising all or part of the region coding of these.
  • the invention also relates to a recombinant host cell comprising a recombinant vector as described above.
  • the preferred host cells according to the invention are for example the following:
  • prokaryotic host cells Escherichia coli strains (strain DH5- ⁇ ), Bacillus subtilis, Salmonella typhimurium, or strains of species such as Pseudomonas, Streptomyces and Staphylococus;
  • the invention relates to a polypeptide comprising an amino acid sequence chosen from the group consisting of peptides of sequences SEQ ID No. 129 to SEQ ID No. 160, or a peptide fragment or a variant thereof.
  • the invention also relates to a polypeptide comprising at least
  • the invention also relates to a polypeptide comprising an amino acid sequence having at least 80% amino acid identity with an amino acid sequence chosen from the group consisting of peptides of sequences SEQ ID No. 129 to SEQ ID
  • No. 160 or a peptide fragment or a variant thereof.
  • part of the invention is a polypeptide having at least 85%, 90%, 95% or 99% identity in amino acids with an amino acid sequence chosen from the group consisting of peptides of sequences SEQ ID No. 129 to SEQ ID No. 160, or a peptide fragment or a variant thereof.
  • polypeptides according to the invention will have a length of 15, 18 or 20 to 25, 35, 40, 50, 70, 80, 100 or 200 consecutive amino acids of a nucleic acid according to the invention, in particular a amino acid sequence polypeptide chosen from the sequences SEQ ID No. 129 to SEQ ID No. 160.
  • a polypeptide according to the invention will consist and / or include fragments with a length of 15, 18, 20, 25, 35, 40, 50, 100 or 200 consecutive amino acids of a polypeptide according to the invention, more particularly a polypeptide chosen from the sequences SEQ ID No. 129 to SEQ ID No. 160.
  • polypeptides according to the present invention are in an isolated or purified form.
  • the invention also relates to a polypeptide comprising amino acid modifications of 1, 2, 3, 4, 5, 10 to 20 substitutions, additions or deletions of an amino acid with respect to the amino acid sequence of a polypeptide of sequences SEQ ID No. 129 to SEQ ID No. 160, or of a fragment or a variant thereof.
  • the invention also relates to a process for the production of one of the polypeptides of sequences SEQ ID No. 129 to SEQ ID No. 160 or of a peptide fragment or a variant thereof, said method comprising the following: steps of: a) inserting a nucleic acid encoding said polypeptide into an appropriate vector; b) cultivating, in an appropriate culture medium, a host cell previously transformed or transfected with the recombinant vector of step a); c) recovering the conditioned culture medium or lysing the host cell, for example by sonication or by osmotic shock; d) separating and purifying from said culture medium or also from the cell lysates obtained in step c), said polypeptide; e) where appropriate, characterize the recombinant polypeptide produced.
  • the peptides according to the invention can be characterized by attachment to an immunoaffinity chromatography column on which the antibodies directed against this polypeptide or against a fragment or a variant of the latter have been immobilized beforehand.
  • a recombinant polypeptide according to the invention can be purified by passage through an appropriate series of chromatography columns, according to the methods known to those skilled in the art and described for example in F. Ausubel et al (1999 ).
  • a polypeptide according to the invention can also be prepared by conventional techniques of chemical synthesis either in homogeneous solution or solid phase.
  • a polypeptide according to the invention may be prepared by the technique or in a homogeneous solution described by HOUBENWEYL (1974) or also the solid phase synthesis technique described by MERRIFIELD (1965a; 1965b). Also part of the invention are polypeptides called "homologous" to any of the polypeptides of amino acid sequences SEQ ID No. 129 to SEQ ID No. 160, or their fragments or variants. Such homologous polypeptides have amino acid sequences having one or more substitutions of an amino acid with an equivalent amino acid, relative to the reference polypeptides.
  • the equivalent amino acid according to the present invention will be understood, for example replacement of a residue in the L form with a residue in the D form or alternatively the replacement of a glutamic acid (E) by a pyro-glutamic acid according to techniques well known to those skilled in the art.
  • E glutamic acid
  • a pyro-glutamic acid a pyro-glutamic acid according to techniques well known to those skilled in the art.
  • the synthesis of peptide containing at least one residue in the D form is described by KOCH (1977).
  • two amino acids belonging to the same class are also considered to be equivalent amino acids, that is to say two amino acids, basic, non-polar or even uncharged polar.
  • polypeptides comprising at least one non-peptide bond such as a retro-inverso bond (NHCO), a carba bond (CH 2 CH 2 ) or even a ketomethylene bond (CO-CH 2 ).
  • NHCO retro-inverso bond
  • CH 2 CH 2 carba bond
  • CO-CH 2 ketomethylene bond
  • polypeptides according to the invention comprising one or more additions, deletions, substitutions of at least one amino acid will retain their capacity to be recognized by antibodies directed against the unmodified polypeptides.
  • polypeptides according to the invention in particular the polypeptides of amino acid sequences SEQ ID No 129 to SEQ ID No 160 or the fragments and variants thereof as well as the homologous peptides can be used for the preparation of antibodies .
  • antibody within the meaning of the present invention, is meant in particular polyclonal or monoclonal antibodies or fragments (for example fragments F (ab) ' 2 , Fab) or any polypeptide comprising a domain of the initial antibody recognizing the polypeptide or the target polypeptide fragment according to the invention.
  • Monoclonal antibodies can be prepared from hybridomas using the technique described by KOHLER and MILSTEIN (1975).
  • the present invention also relates to antibodies directed against a polypeptide as described above or a fragment or a variant thereof, as produced in the trioma technique or also the hybridoma technique described by KOZBOR et al. (1983).
  • the invention also relates to fragments of single chain Fv antibody (ScFv) as described in US Patent No. 4,946,778 or by MARTINEAU et al. (1998).
  • the antibodies according to the invention also include fragments of antibodies obtained using phage banks RIDDER et al., (1995) or even humanized antibodies REIMANN et al. (1997); LEGER et al., (1997).
  • the antibody preparations according to the invention are useful in immunological detection tests intended to identify the presence and / or the quantity of antigens present in a sample.
  • An antibody according to the invention may also comprise an detectable isotopic or non-isotopic marker, for example fluorescent or also be coupled to a molecule such as biotin, according to techniques well known to those skilled in the art.
  • the subject of the mention is furthermore a method for detecting the presence of a polypeptide in accordance with the invention in a sample, said method comprising the steps of: a) bringing the sample to be tested into contact with an antibody such as described above; b) detecting the antigen / antibody complex formed.
  • the invention also relates to a kit or kit for diagnosis or for the detection of the presence of a polypeptide according to the invention in a sample, said kit comprising: a) an antibody as defined above; b) a reagent allowing the detection of the antigen / antibody complexes formed.
  • a polypeptide according to the invention can be used to screen for molecules which bind to it.
  • the binding of the polypeptide with the molecule or substance can activate (agonist molecule) or inhibit (antagonist molecule) the activity of said polypeptide.
  • Such molecules capable of binding to any one of the polypeptides according to the invention include antibodies, oligonucleotides, other proteins and generally small molecules of all kinds.
  • a screening test for a candidate molecule capable of binding to a polypeptide according to the invention may advantageously comprise a first step during which the polypeptide of interest or the candidate molecule is immobilized on a support. , a second step during which the second partner (candidate molecule or polypeptide of interest) is placed in the presence of the first compound previously immobilized on the support, a third step during which one or more washes are carried out under appropriate conditions elimination of the compounds which are not specifically linked, and finally a fourth stage during which the any complex formed between the polypeptide of interest and the candidate molecule is detected.
  • the detection of the complex formed by the candidate molecule and the polypeptide of interest according to the invention can be advantageously carried out with using an antibody as described above.
  • the candidate molecule will advantageously be labeled with the aid of a detectable marker prior to its brought into contact with the immobilized polypeptide of interest.
  • Such a detectable marker can be radioactive or non-radioactive, for example fluorescent or correspond to a ligand for a third partner used for detection such as a biotin molecule.
  • the subject of the invention is also a process for screening a molecule or a candidate substance interacting with a polypeptide according to the invention, said method comprising the steps of: a) bringing into contact a polypeptide in accordance with invention with the candidate substance or molecule to be tested; b) detecting the complexes possibly formed between said polypeptide and said substance or candidate molecule.
  • the invention also relates to a kit or kit for screening a molecule or a candidate substance interacting with a polypeptide according to the invention, said kit comprising: a) a polypeptide according to the invention; b) if necessary, means necessary for the detection of the complex formed between said polypeptide and the candidate molecule or substance.
  • kit or kit for screening a molecule or a candidate substance interacting with a polypeptide according to the invention comprising: a) a polypeptide according to the invention; b) if necessary, means necessary for the detection of the complex formed between said polypeptide and the candidate molecule or substance.
  • the expression profile of the polynucleotides according to the present invention is determined according to the Northern blot analysis and reverse transcription coupled to PCR protocols described in particular by Sambrook et al (ref. CSH Sambrook, J., Fritsch, EF, and Maniatis, T. (1989) "Molecular Cloning: A Laboratory Manual”. 2nd ed, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY)...
  • a pair of primers synthesized from any of the nucleotide sequences of the transcripts SEQ ID No. 1 to SEQ ID No. 81 is used to detect the cDNA corresponding.
  • PCR polymerase chain reaction
  • cDNA templates corresponding to polyA + mRNAs (Clontech) retrotranscribed.
  • Reverse transcription into cDNA is carried out with the enzyme SUPERSCRIPT II (GibcoBRL, Life Technologies) according to the conditions described by the manufacturer.
  • the polymerase chain reaction is carried out according to standard conditions, in 20 ⁇ l of reaction mixture with 25 ng of the cDNA preparation.
  • the reaction mixture is composed of 400 ⁇ M of each of the dNTPs, of 2 units of Thermus aquaticus (Taq) DNA polymerase (Ampli Taq Gold; Perkin Elmer), of 0.5 ⁇ M of each primer, of 2.5 mM MgCI2, and of PCR buffer.
  • Taq Thermus aquaticus
  • PCR cycles (30 s denaturation at 94 ° C, 30 s hybridization decomposed as follows during the 34 cycles: 64 ° C 2 cycles, 61 ° C 2 cycles, 58 ° C 2 cycles and 55 ° C 28 cycles and an extension of one minute per kilobase at 72 ° C) are carried out after a first step denaturation at 94 ° C for 10 min in a Perkin Elmer 9700 thermocycler.
  • the PCR reactions are visualized on agarose gel by electrophoresis.
  • the cDNA fragments obtained can be used as probes for analysis by Northern blot and can also be used for the exact determination of the polynucleotide sequence.
  • a cDNA probe produced as described above is labeled with 32 P using the High Prime DNA labeling system (Boehringer) according to the instructions indicated by the manufacturer. After labeling, the probe is purified on a microcolumn of Sephadex G50 (Pharmacia) according to the instructions
  • the labeled and purified probe is then used for the detection of the expression of mRNAs in different tissues.
  • the Northern blot containing RNA samples from different human tissues ((Multiple Tissue Northern, MTN, Clontech) Blot 2, reference 77759-1) is hybridized with the labeled probe.
  • Example 2 Obtaining complete cDNA fragments corresponding to the transcripts according to the invention
  • a complete clone can be directly isolated by hybridization by screening a cDNA library by means of a polynucleotide probe specific for the sequence of the gene of interest.
  • a specific probe of 30-40 nucleotides is synthesized using a Applied Biosystem / Perkin Elmer brand synthesizer according to the chosen sequence.
  • the oligonucleotide obtained is radiolabelled, for example with 32 P- ⁇ -ATP using T4 polynucleotide kinase and is purified according to the usual methods (eg Maniatis et al. Molecular cloning: A Laboratory Manual, Cold Spring Harbor Press, Cold Spring, NY 1982 or F.Ausubel et al. (Current Protocols in Molecular Biology, J. Wiley and Sons Eds, 1999).
  • the bank of clones containing the cDNA that we want to screen is spread on culture medium in a Petri dish (1.5% agar) containing the appropriate antibiotics according to the usual methods mentioned above (F. Ausubel et al.).
  • the colonies thus produced after incubation are transferred to nitrocellulose filters and screened using the radiolabelled nucleotide probe, according to the usual methods and the colonies hybridizing with the probe are isolated and subcloned.
  • the DNA of the clones thus identified is prepared and analyzed by sequencing.
  • the clones containing the fragments corresponding to the complete cDNA are purified and recloned in the vector pcDNA3 according to the protocols known to those skilled in the art and presented for example in F. Ausubel et al (1999).
  • RNA oligonucleotide is ligated to the 5 'end of an mRNA population.
  • a set of primers specific respectively to the adapter ligated in 5 ′ and of a sequence located in 3 ′ of the gene of interest is used in PCR to amplify the 5 ′ portion of the sought cDNA.
  • the amplified fragment is then used to reconstruct the complete cDNA.
  • Verification of the loss of expression of the candidate gene causing the Tangier cell phenotype can be determined by hydridation of these sequences with probes corresponding to MRNA from fibroblasts from subjects with or without the disease, according to the methods described below:
  • Total RNAs are obtained from cell cultures of fibroblasts from normal subjects or those suffering from Tangier disease by the guanidine isothiocyanate method (Chomczynski & Sacchi, 1987).
  • the poly (A) + mRNAs are obtained by affinity chromatography on oligo (dT) -cellulose columns (Sambrook et al., 1989) and the cDNAs used as probes are obtained by RT-PCR (DeRisi et al., 1997) with oligonucleotides labeled with a fluorescent product (Amersham Pharmacia Biotech; CyDye TM).
  • the glass membranes containing the sequences presented in this patent application, corresponding to the Tangier gene, are hydrided with the cDNA probes, obtained from fibroblasts (lyer et al., 1999).
  • the use of the Amersham / molecular Dynamics system (Avalanche Microscanner TM) allows the quantification of the expressions of the sequence products on the healthy or affected cell type.
  • a typical eukaryotic expression vector contains a promoter which allows the initiation of transcription of mRNA, a protein coding sequence and signals required for transcription termination and polyadenylation of the transcript. It also contains additional signals such as enhancers, the (de) Kozak sequence and sequences necessary for splicing the mRNA.
  • An efficient transcription is obtained with the early and late elements of the promoters of the SV40 virus, the retroviral LTRs or the early promoter of the CMV virus.
  • cellular elements such as the actin promoter can also be used.
  • Many expression vectors can be used to implement the present invention such as the vector pcDNA3.
  • polypeptide corresponding to the partial transcript of the GS gene No. XX or to the full cDNA described in Example 2 can be easily produced in a bacterial expression system, of insect cells using the baculovirus vectors or in mammalian cells with or without the vaccinia virus vectors. All the methods are today widely described and known to those skilled in the art. A detailed description can be found, for example, in F. Ausubel et al. (1999).
  • Example 6 Production of an antibody derived from a polypeptide
  • the antibodies in the present invention can be prepared by various methods (Current Protocols In Molecular Biology Volume 1 edited by Frederick M. Ausubel, Roger Brent, Robert E. Scientific, David D. Moore, JG Seidman, John A. Smith, Kevin Struhl - Massachusetts General Hospital Harvard Medical School, chapter 11).
  • cells expressing a polypeptide of the present invention are injected into an animal to induce the production of serum containing the antibodies.
  • the proteins are prepared and purified in order to avoid contamination. Such a preparation is then introduced into the animal in order to produce polyclonal antisera of greater activity.
  • the antibodies of the present invention are monoclonal antibodies.
  • Such monoclonal antibodies can be prepared using the hybridoma technique. (K ⁇ hler et al, Nature 256: 495 (1975); Kôhler et al, Eur. J. Immunol. 6: 51 1 (1976); Kôhler et al, Eur. J. Immunol. 6: 292 (1976); Hammeling and al., in: Monoclonal Antibodies and T-Cell Hybridomas, Elsevier, NY, pp. 563- 681 51981).
  • such methods involve immunizing the animal (preferably a mouse) with a polypeptide or, better still, with a cell expressing the polypeptide.
  • These cells can be cultured in a suitable tissue culture medium. However, it is preferable to culture the cells in an Eagle medium (modified Earle) supplemented with 10% fetal bovine serum (inactivated at 56 ° C) and supplemented with approximately 10 g / l of non-essential amino acids, of 1000 U / ml of penicillin and approximately 100 ⁇ g / ml of streptomycin.
  • Eagle medium modified Earle
  • fetal bovine serum inactivated at 56 ° C
  • approximately 10 g / l of non-essential amino acids 1000 U / ml of penicillin and approximately 100 ⁇ g / ml of streptomycin.
  • the splenocytes of these mice are extracted and fused with an appropriate myeloma cell line.
  • an appropriate myeloma cell line SP2O
  • the parental myeloma cell line SP2O
  • the resulting hybridoma cells are selectively maintained in HAT medium and then cloned by limiting dilution as described by Wands et al. (Gastroenterology 80: 225-232 (1981)).
  • the hybridoma cells obtained after such a selection are tested in order to identify the clones secreting antibodies capable of binding to the polypeptide.
  • other antibodies capable of binding to the polypeptide can be produced according to a 2-step procedure.
  • the antibodies specific for the protein are used to immunize an animal, preferably a mouse.
  • the splenocytes of this animal are then used to produce hybridoma cells, and these cells are screened to identify clones that produce an antibody whose ability to bind to the specific protein-antibody complex may be blocked by the polypeptide.
  • These antibodies can be used to immunize an animal to induce the formation of more specific antibodies to the protein.
  • Fab and F (ab ') 2 and the other antibody fragments of the present invention could be used according to the methods described herein.
  • Such fragments are typically produced by proteolytic cleavage using enzymes such as Papain (to produce the Fab fragments) or Pepsin (to produce the F (ab ') 2 fragments).
  • secret fragments recognizing the protein can be produced by applying recombinant DNA technology or synthetic chemistry.
  • chimeric "humanized" monoclonal antibodies For the in vivo use of antibodies in humans it would be preferable to use chimeric "humanized" monoclonal antibodies. Such antibodies can be produced using genetic constructs derived from hybridoma cells producing the monoclonal antibodies described above. Methods for producing chimeric antibodies are known to those of skill in the art.
  • Tangier's disease is characterized by accelerated catabolism of high density lipoprotein particles (HDL) and an accumulation of cholesterol in the tissues.
  • HDL high density lipoprotein particles
  • the skin fibroblasts of patients with Tangier's disease have a reduced capacity to eliminate their cholesterol content by the cholesterol efflux process ensured by the apolipoprotein Al (apoA-1), major protein of HDL ( Francis et al., 1995).
  • apoA-1 apolipoprotein Al
  • This characteristic corresponding to a loss of function is also found in other fibroblastic cells of patients with familial HDL deficiency (Marcil and
  • fibroblast cultures of normal subjects and of subjects suffering from Tangier disease The primary fibroblasts of human skin are obtained by culturing a skin biopsy from the forearm. These biopsies are performed on patients with Tangier's disease having the clinical and biochemical characteristics of "homozygotes", ie orange tonsils, 0 plasma concentrations of apoA-1 and HDL-cholesterol lower than 5 th percentile. Normal fibroblast lines are obtained from the American Type Culture Collection (Rockville, MD).
  • the fibroblasts are cultured in an EMMEM medium (Eagle-modified minimium essential medium; GIBCO) supplemented with 10% fetal calf serum, 2 mM glutamine, 100 IU / ml of penicillin and 100 ⁇ g / ml of steptomycin ( medium designated by EMMEM10).
  • EMMEM medium Eagle-modified minimium essential medium; GIBCO
  • GIBCO EMMEM medium
  • these cells are preloaded with cholesterol by incubation for 24 hours with 50 ⁇ g / ml of cholesterol in the medium described above without calf serum but containing 2 mg / ml of bovine albumin (BSA, fraction V).
  • BSA bovine albumin
  • the fibroblasts preloaded with confluent cholesterol on 24-well plates are incubated in EMMEM10 medium and 1 ⁇ Ci / ml of 5 1, 2-3 H-cholesterol (50 Ci / mmol; Dupont; Wilmington, DE) for 48 hours. Approximately 100,000 counts per minute are obtained per well or 1,000 counts per minute per ⁇ g of cellular protein.
  • the cells are washed three times with EMMEM / BSA medium, and incubated with this medium for 24 hours before transfecting the gene of interest and starting the efflux by adding 10 ⁇ g / ml of proteoliposome containing apoA- l in EMMEM / BSA environment.
  • proteoliposomes are prepared by sonication of phosphatidylcholine and purified human apoA-1 (Jonas, 1986). Cell transfection is carried out by the calcium phosphate precipitation technique (Sambrook et al., 1989). After the efflux period, generally 20 hours, the medium is collected, centrifuged (1000 g, 5 min), and the radioactivity determined by counting in liquid scintillation. The residual radioactivity in the cells is also determined overnight after extraction of the lipids in isopropanol. The percentage of efflux is calculated by dividing the radioactivity measured in the supernatant by the sum of the radioactivities measured, in the supernatant and the cell extract.
  • the isolation of the genomic clones corresponding to a transcript is carried out by screening the BAC library of human genomic DNA (for example that provided by Mel Simon, CalTech., Ref: Kim et al. Genomics (1996), 34: 213 -218)) by PCR with primers specific for the cDNA sequence corresponding to the sequences of the transcripts SEQ ID No. 1 to SEQ ID No. 81 according to the invention, according to the method described in Example 1.
  • Example 9 Determination of polymorphism / mutation of one of the genes corresponding to the transcripts according to the invention
  • the detection of polymorphisms and or of mutations in the sequences of the transcripts can be carried out according to different protocols.
  • the method of choice is direct sequencing.
  • the mutation detection technique by direct sequencing consists in comparing the genomic sequences of the gene corresponding to the cDNA SEQ ID No. 1 to SEQ ID No. 81 obtained from at least 8 individuals (4 individuals affected by the pathology studied and 4 unaffected individuals). Sequence divergences constitute polymorphisms. All those modifying the amino acid sequence of the wild-type protein are mutations capable of affecting the function of said protein which it is interesting to consider more particularly in the case / control association studies described in Example 8.

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Zoology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Wood Science & Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Physics & Mathematics (AREA)
  • Toxicology (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Plant Pathology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Microbiology (AREA)
  • Medicinal Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Peptides Or Proteins (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

La présente invention concerne des acides nucléiques exprimés à partir de gènes localisés dans le génome humain dans la région 9q31-34 du chromosome 9, susceptibles d'être impliqués dans des maladies génétiquement liées à ce locus chromosomique, notamment les affections du métabolisme des lipoprotéines plasmatiques, plus particulièrement le transport inverse du cholestérol. L'invention concerne également des polypeptides codés par certains de ces acides nucléiques ainsi que des anticorps dirigés spécifiquement contre de tels polypeptides, utiles comme réactifs de diagnostic. L'invention est enfin relative à des vecteurs et des cellules hôtes recombinantes comprenant ces acides nucléiques ou des fragments de ceux-ci.

Description

PRODUITS D'EXPRESSION DE GENES IMPLIQUES DANS DES AFFECTIONS DU METABOLISME DU CHOLESTEROL
La présente invention concerne des acides nucléiques exprimés à partir de gènes localisés dans le génome humain dans la région 9q31- 34 du chromosome 9, susceptibles d'être impliqués dans des maladies génétiquement liées à ce locus chromosomique, notamment les affections du métabolisme des lipoprotéines plasmatiques, plus particulièrement le transport inverse du cholestérol. L'invention concerne également des polypeptides codés par certains de ces acides nucléiques ainsi que des anticorps dirigés spécifiquement contre de tels polypeptides, utiles comme réactifs de diagnostic.
L'invention est enfin relative à des vecteurs et des cellules hôtes recombinantes comprenant ces acides nucléiques ou des fragments de ceux-ci.
Les lipoprotéines, complexes protéiques incorporant des lipides permettant le transport de ces derniers dans la circulation sanguine, normalement présentes dans le plasma sanguin varient en taille et en composition mais apparaissent toutes sous forme de microémulsion.
Les particules des lipoprotéines sont sphériques et contiennent un noyau central de lipides non polaires (en majorité des triglycérides et des esters de cholestérol) et une monocouche de surface de lipides polaires (du cholestérol et majoritairement des phospholipides) et des protéines dénommées apolipoprotéines (apo).
La plupart des composants protéiques de la monocouche de surface, tous comme les phospholipides, ont des propriétés amphipathiques. L'association des lipides polaires et des protéines avec les lipoprotéines est ainsi réalisée via des forces hydrophobes grâce auxquelles les chaînes d'acides gras et les chaînes latérales d'aminoacides non polaires sont exclues de l'environnement aqueux. La plupart des apolipoprotéines possèdent des régions amphipatiques en hélice (apolipoprotéine A-l, A-Il, A-IV, C-l, C-ll, 0-111 et E).
La densité des particules de lipoprotéine est inversement proportionnelle à leur taille, leur densité reflétant les quantités relatives de lipides non polaires de faible densité contenues dans le noyau et de protéines de surface de haute densité présentes.
Parmi les lipoprotéines de grande taille on connaît les chylomicrons, sécrétés par les entérocytes, dans lesquels l'apo B-48 est majoritaire, et les VLDL, sécrétées par les hépatocytes, qui contiennent la protéine apo B-100.
Les classes de lipoprotéines les plus petites, LDL et HDL, contiennent majoritairement des esters de cholestérol dans leur noyau.
Les formes matures de ces particules ne sont pas sécrétées directement à partir des cellules mais sont plus particulièrement produites par des voies métaboliques au sein du plasma sanguin.
Les particules LDL représentent les produits finaux du métabolisme des particules VLDL.
Certains composants des particules HDL sont dérivés à partir des chylomicrons.
Ainsi, les lipoprotéines de haute densité (HDL) sont l'une des quatre classes majeures de lipoprotéines qui circulent dans le plasma sanguin .
Ces lipoprotéines sont impliquées dans différentes voies métaboliques telles que le transport lipidique, la formation des acides biliaires, la stéroïdogénèse, la prolifération cellulaire et en outre interfèrent avec les systèmes de protéinase plasmatique.
Les HDL sont de parfaits accepteurs de cholestérol libre et, en combinaison avec les protéines de transfert d'ester de cholestérol (CETP), la lipoprotéine lipase (LPL), la lipase hépatique (HL) et la lécithine : cholestérol acyltransférase (LCAT), jouent un rôle majeur dans le transport inverse du cholestérol, c'est à dire le transport du cholestérol en excès dans les cellules périphériques vers le foie pour son élimination de l'organisme sous forme d'acide biliaire. Les HDL ne transportent pas seulement le cholestérol des cellules périphériques vers le foie mais le distribuent également aux cellules productrices de stéroïdes ou aux cellules périphériques appauvries en cholestérol. Les précurseurs des HDL sont sécrétés sous forme discoidale à partir de l'intestin et du foie, à partir desquels les particules sphériques sont formées grâce à la formation d'esters de cholestérol qui migrent au cœur de la particule lipoprotéique.
Les particules naissantes de HDL contiennent des apo A-l et apo A-IV, alors que les particules de HDL hépatiques naissantes sont riches en apo A-l, apo E et apo A-Il.
La partie lipidique de ces particules consiste en des phospholipides et de petites quantités de cholestérol libre et de triglycéride. II a été démontré que les HDL jouent un rôle central dans le transport du cholestérol des tissus périphériques vers le foie.
L'excès de cholestérol non estérifié des cellules périphériques riches en cholestérol est capté par les HDL et subit une estérification par l'action de la LCAT. Ces HDL enrichies en esters de cholestérol sont captées par des protéines de liaison ou récepteurs des HDL à la surface des hépatocytes et y délivrent leurs esters de cholestérol.
Le rôle protecteur des HDL dans le transport inverse du cholestérol est confirmée par les études épidémiologiques démontrant une relation inverse entre les concentrations de cholestérol dans ces HDL et le risque d'apparition de maladies coronariennes, ou encore par des observations selon lesquelles les HDL acceptent efficacement les excès de cholestérol intracellulaire à partir de types cellulaires variés.
Les lipoprotéines athérogènes sont ingérées par les macrophages ou cellules périphériques et dégradées dans les lysosomes. Le cholestérol est relargué des lysosomes et est ré-estérifié dans le compartiment cytoplasmique.
Il a été en particulier montré que les HDL riches en apo A-l stimulent les flux de cholestérol à partir des macrophages ou des cellules périphériques vers le compartiment extracellulaire, suite à une interaction avec des protéines de liaison des HDL présentes à la surface de ces cellules.
Diverses maladies liées à une déficience en HDL ont été décrites, comprenant la maladie de Tangier, la déficience en HDL et la déficience en LCAT.
La déficience impliquée dans la maladie de Tangier est reliée à un déficit cellulaire dans la translocation du cholestérol cellulaire dans lequel les précurseurs de HDL sont dégradés dans les lysosomes. Néanmoins, pour la maladie de Tangier, la nature exacte du déficit n'a pas encore été précisément définie.
Dans la maladie de Tangier, ce déficit cellulaire conduit à une perturbation du métabolisme lipoprotéique. Les HDL n'incorporant pas de cholestérol à partir des cellules périphériques et ne pouvant pas être métabolisée correctement, sont éliminée rapidement de l'organisme. La concentration plasmatique en HDL de ces patients est donc extrêmement réduite et les HDL n'assurent plus le retour du cholestérol vers le foie. Ce cholestérol s'accumule dans ces cellules périphériques et provoquent des manifestations cliniques caractéristiques telles que la formation d'amygdales orangées. De plus, d'autres perturbations lipoprotéiques comme une surproduction de triglycérides ainsi qu'une synthèse et un catabolisme intracellulaire accrus des phospholipides sont observées.
La maladie de Tangier, dont les symptômes ont été décrits ci- dessus, est classée parmi les affections familiales liées au métabolisme des HDL qui sont les plus couramment détectées chez les patients affectés de maladies coronariennes.
De nombreuses études ont montré qu'un niveau réduit de cholestérol HDL est un excellent facteur de risque permettant de dépister une affection coronarienne.
Dans ce contexte, des syndromes liés aux déficiences en HDL ont présenté un intérêt accru durant la décennie passée du fait qu'elles permettent d'accroître la compréhension du rôle des HDL dans l'athérogénèse. Plusieurs mutations dans le gène apo A-l ont été caractérisées. Ces mutations sont rares et peuvent conduire à une absence de production de apo A-l.
Des mutations dans les gènes codant pour la lipoprotéine lipase (LPL) ou son activateur apoC-ll sont associées avec des hypertriglycéridémies sévères et des niveaux de HDL-c fortement réduits.
Des mutations dans le gène codant pour l'enzyme lécithine: cholestérol, acyltransférase (LCAT) sont également associées à une déficience sévère en HDL.
Il existe donc un besoin croissant dans l'état de la technique d'identifier des gènes impliqués dans le métabolisme du cholestérol et/ou des lipoprotéines, et en particulier de gènes associés à des dysfonctionnements du transport inverse du cholestérol des cellules périphériques vers le foie.
Récemment, une étude de la ségrégation de différentes formes alléliques de 343 marqueurs microsatellites répartis sur l'ensemble du génome et distants entre eux en moyenne de 10,3 cM a été réalisée. L'étude de liaison (linkage) a porté sur une famille bien caractérisée sur onze générations, dont de nombreux membres sont affectés par la maladie de Tangier, la famille comportant cinq lignées de consanguinité.
Cette étude a permis d'identifier une région localisée dans le locus
9q31 du chromosome 9 humain statistiquement associé à l'affection
(Rust S. et al., Nature Genetics, vol. 20, Septembre 1998, pages 96-98).
Toutefois, l'étude de RUST et al. définit seulement une large région du génome dont des altérations sont susceptibles d'être associées à la maladie de Tangier. Il est simplement précisé que la région du locus 9q31-34 concernée contient des ESTs mais aucun gène connu.
Il a désormais été montré qu'une région d'environ 15cM située dans le locus 9q31-34 chez l'homme était associée, de manière générale, à des déficiences familiales en HDL . Plus particulièrement, on a montré selon l'invention que des molécules d'ARN messager étaient exprimées à partir de séquences localisées dans le génome dans une région d'environ 15 cM centrée sur le marqueur microsatellite D9S1784, identifié comme le marqueur microsatellite donnant la liaison génétique la plus forte avec la déficience familiale en HDL et la maladie de Tangier.
De plus, la région 9q31-34 considérée contient potentiellement des gènes susceptibles de jouer un rôle dans l'initiation ou le développement de diverses maladies, telles que : - les maladies osseuses comme les chondrosarcomes myxoides, des retards mentaux liés aux anomalies du chromosome 9 (MRD) ;
- les maladies rénales comme les néphrophtisies infantiles (NPH2) ;
- les maladies musculaires, comme la dystrophie musculaire des ceintures (LGMD2H) ; - les maladies psychiatriques comme la schizophrénie ;
- les maladies digestives comme la maladie de Hirschprung liée à RET (SHSCR2).
Du fait de la localisation des gènes candidats positionnels dans cette intervalle chromosomique, les ARN messagers et les polypeptides correspondants, tels qu'isolés et caractérisés selon l'invention, sont potentiellement impliqués dans certaines des pathologies humaines décrites ci-dessus, soit encore dans d'autres pathologies également liées génétiquement à cette région du chromosome 9.
Pour certaines des séquences comprises dans ces ARN messagers isolées et caractérisées par le demandeur, une phase de lecture ouverte putative a été déterminée et la séquence de la protéine correspondante en a été déduite. Les polypeptides correspondants sont potentiellement impliqués dans une affection liée au métabolisme des lipoprotéines, plus particulièrement liée à un déficit du transport inverse du cholestérol. DESCRIPTION DETAILLEE DE L'INVENTION
La présente invention décrit ainsi des polynucléotides et des polypeptides dont une altération de la séquence ou de l'expression est potentiellement associée à un déficit dans le métabolisme des lipoprotéines plasmatiques, plus particulièrement à un déficit dans le transport inverse des HDL .
La présente invention décrit aussi des polynucléotides et des polypeptides dont une altération de la séquence ou de l'expression est potentiellement associée à des maladies génétiquement liées au locus 9q31-34 du chromosome 9.
DEFINITIONS GENERALES
Le terme " isolé " au sens de la présente invention désigne un matériel biologique (acide nucléique ou protéine) qui a été soustrait à son environnement originel (l'environnement dans lequel il est localisé naturellement). Par exemple un polynucléotide présent à l'état naturel dans une plante ou un animal n'est pas isolé. Le même polynucléotide séparé des acides nucléiques adjacents au sein desquels il est naturellement inséré dans le génome de la plante ou l'animal est considéré comme " isolé ".
Un tel polynucléotide peut être inclus dans un vecteur et/ou un tel polynucléotide peut être inclus dans une composition et demeurer néanmoins à l'état isolé du fait que le vecteur ou la composition ne constitue pas son environnement naturel.
Le terme " purifié " ne nécessite pas que le matériel soit présent sous une forme de pureté absolue, exclusive de la présence d'autres composés. Il s'agit plutôt d'une définition relative.
Un polynucléotide est à l'état " purifié " après purification du matériel de départ ou du matériel naturel d'au moins un ordre de grandeur, de préférence 2 ou 3 et préférentiellement 4 ou 5 ordres de grandeur. Aux fins de la présente description, l'expression " séquence nucléotidique " peut être employée pour désigner indifféremment un polynucléotide ou un acide nucléique. L'expression " séquence nucléotidique " englobe le matériel de génétique lui-même et n'est donc pas restreinte à l'information concernant sa séquence.
Les termes " acide nucléique ", " polynucléotide ", " oligonucléotide " ou encore " séquence nucléotidique " englobent des séquences d'ARN, d'ADN, d'ADNc ou encore des séquences hybrides ARN/ADN de plus d'un nucléotide, indifféremment sous la forme simple chaîne ou sous la forme de duplex.
Le terme " nucléotide " désigne à la fois les nucleotides naturels (A, T, G, C) ainsi que des nucleotides modifiés qui comprennent au moins une modification telle que (1) un analogue d'une purine, (2) un analogue d'une pyrimidine, ou (3) un sucre analogue, des exemples de tels nucleotides modifiés étant décrits par exemple dans la demande PCT N°WO 95/04 064. Aux fins de la présente invention, un premier polynucléotide est considéré comme étant " complémentaire " d'un second polynucléotide lorsque chaque base du premier nucléotide est appariée à la base complémentaire du second polynucléotide dont l'orientation est inversée. Les bases complémentaires sont A et T (ou a et U), ou C et G. Par " variant " d'un acide nucléique selon l'invention, on entendra un acide nucléique qui diffère d'une ou plusieurs bases par rapport au polynucléotide de référence. Un acide nucléique variant peut être d'origine naturel, tel qu'un variant allélique retrouvé naturellement, ou peut être aussi un variant non naturel obtenu par exemple par des techniques de mutagénèse.
En général, les différences entre l'acide nucléique de référence et l'acide nucléique variant sont réduites de telle sorte que les séquences nucléotidiques de l'acide nucléique de référence et de l'acide nucléique variant sont très proches et, dans de nombreuses régions, identiques. Les modifications de nucleotides présentent dans un acide nucléique variant peuvent être silencieuses, ce qui signifie qu'elles n'altèrent pas les séquences d'aminoacides codées par ledit acide nucléique variant.
Cependant, les changements de nucleotides dans un acide nucléique variant peuvent aussi résulter dans des substitutions, additions, délétions dans le polypeptide codé par l'acide nucléique variant par rapport aux peptides codés par l'acide nucléique de référence. En outre, des modifications de nucleotides dans les régions codantes peuvent produire des substitutions, conservatives ou non conservatives dans la séquence d'aminoacides. De préférence, les acides nucléiques variants selon l'invention codent pour des polypeptides qui conservent sensiblement la même fonction ou activité biologique que le polypeptide de l'acide nucléique de référence ou encore lacapacité à être reconnus par des anticorps dirigés contre les polypeptides codés par l'acide nucléique initial. Certains acides nucléiques variants coderont ainsi pour des formes mutées des polypeptides dont l'étude systématique permettra de déduire des relations structure activité des protéines en question. La connaissance de ces mutations par rapport à la maladie étudiée est fondamentale puisqu'elle permet de comprendre la cause moléculaire de la pathologie.
On entendra par " fragment " un acide nucléique de référence selon l'invention, une séquence nucléotidique de longueur réduite par rapport à l'acide nucléique de référence et comprenant, sur la partie commune, une séquence en nucleotides identique à l'acide nucléique de référence.
Un tel " fragment " d'acide nucléique selon l'invention peut être le cas échéant, compris dans un polynucléotide plus grand duquel il est constitutif.
De tels fragments comprennent, ou alternativement consistent en, des oligonucléotides de longueur allant de 8, 10, 12, 15, 18, 20 à 25, 30, 40, 50, 70, 80, 100, 200, 500, 1000 ou 1500 nucleotides consécutifs d'un acide nucléique selon l'invention.
Par " variant " d'un polypeptide selon l'invention, on entendra principalement un polypeptide dont la séquence d'acides aminés contient une ou plusieurs substitutions, additions ou délétions d'au moins un résidu d'acide aminé, par rapport à la séquence d'acides aminés du polypeptide de référence, étant entendu que les substitutions d'aminoacides peuvent être indifféremment conservatives . ou non conservatives. Par " fragment " d'un polypeptide selon l'invention, on entendra un polypeptide dont la séquence d'acides aminés est plus courte que celle du polypeptide de référence et qui comprend sur toute la partie commune avec ces polypeptides de référence, une séquence en acides aminés identique.
De tels fragments peuvent, le cas échéant, être compris au sein d'un polypeptide plus grand duquel ils font partie.
De tels fragments d'un polypeptide selon l'invention peuvent avoir une longueur de 10, 15, 20, 30 à 40, 50, 100, 200 ou 300 acides aminés. Le " pourcentage d'identité " entre deux séquences de nucleotides ou d'acides aminés, au sens de la présente invention, peut être déterminé en comparant deux séquences alignées de manière optimale, à travers une fenêtre de comparaison.
La partie de la séquence nucléotidique ou polypeptide dans la fenêtre de comparaison peut ainsi comprendre des additions ou des délétions (par exemple des " gaps ") par rapport à la séquence de référence (qui ne comprend pas ces additions ou ces délétions) de manière à obtenir un alignement optimal des deux séquences.
Le pourcentage est calculé en déterminant le nombre de positions auquel une base nucléique ou un résidu d'aminoacide identique est observé pour les deux séquences (nucléique ou peptidique) comparées, puis en divisant le nombre de positions auquel il y a identité entre les deux bases ou résidus d'aminoacides par le nombre total de positions dans la fenêtre de comparaison, puis en multipliant le résultat par 100 afin d'obtenir le pourcentage d'identité de séquence.
L'alignement optimal des séquences pour la comparaison peut être réalisé de manière informatique à l'aide d'algorithmes connus contenus dans le package de la Société WISCONSIN GENETICS SOFTWARE PACKAGE, GENETICS COMPUTER GROUP (GCG), 575 Science Doctor , Madison, WISCONSIN.
A titre d'illustration, le pourcentage d'identité de séquence pourra être effectué à l'aide du logiciel BLAST (versions BLAST 1.4.9 de mars 1996, BLAST 2.0.4 de février 1998 et BLAST 2.0.6 de septembre 1998), en utilisant exclusivement les paramètres par défaut (S. F AltschuI et al, J. Mol. Biol. 1990 215 : 403-410, S. F AltschuI et al, Nucleic Acids Res. 1997 25 : 3389-3402). Blast recherche des séquences similaires/homologues à une séquence " requête " de référence, à l'aide de l'algorithme d'AltschuI et al. La séquence requête et les bases de données utilisées peuvent être peptidiques ou nucléiques, toute combinaison étant possible.
Par " conditions d'hybridation de forte stringence " au sens de la présente invention, on entendra les conditions suivantes :
1- Compétition des membranes et PRE HYBRIDATION :
- Mélanger : 40μl ADN sperme de saumon (10mg/ml)
+ 40 μl ADN placentaire humain (10mg/ml)
- Dénaturer 5 mn à 96°C, puis plonger dans la glace le mélange.
- Oter le SSC 2X et verser 4 ml de mix formamide dans le tube d'hybridation contenant les membranes.
- Ajouter le mélange des deux ADNs dénaturés.
- Incubation à 42°C pendant 5 à 6 heures, avec rotation.
2- Compétition de la sonde marquée :
- Ajouter à la sonde marquée et purifiée 10 à 50 μl ADN Cot I, selon la quantité de repeats.
- Dénaturer 7 à 10 mn à 95°C.
- Incuber à 65°C pendant 2 à 5 heures. 3- HYBRIDATION
- Oter le mix de pré hybridation.
- Mélanger 40 μl ADN sperme de saumon + 40 μl ADN placentaire humain ; dénaturer 5 mn à 96°C, puis plonger dans la glace.
- Ajouter dans le tube d'hybridation 4 ml de mix formamide, le mélange des deux ADN et la sonde marquée/ADN Cot I dénaturée.
- Incuber 15 à 20 heures à 42°C, avec rotation.
4- Lavages :
- Un lavage à température ambiante dans du SSC 2X, pour rincer.
- 2 fois 5 minutes à température ambiante SSC 2X et SDS 0,1% à 65°C.
- 2 fois 15 minutes à 65°C SSC 1X et SDS 0,1% à 65°C.
Envelopper les membranes dans du Saran et exposer.
Les conditions d'hybridation décrites plus haut sont adaptées à l'hybridation dans des conditions de forte stringence, d'une molécule d'acide nucléique d'une longueur variable de 20 nucleotides à plusieurs centaines de nucleotides.
Il va sans dire que les conditions d'hybridation ci-dessus décrites peuvent être adaptées en fonction de la longueur de l'acide nucléique dont l'hybridation est recherchée ou du type de marquage choisi, selon des techniques connues de l'homme du métier. Les conditions convenables d'hybridation peuvent par exemple être adaptées selon l'enseignement contenu dans l'ouvrage de HAMES et HIGGINS (1985) ou encore dans l'ouvrage de F.AUSUBEL et al (1999).
DETAIL DES ACIDES NUCLEIQUES ET DES POLYPEPTIDES SELON L'INVENTION
Une brève description des séquences d'acides nucléiques et des séquences d'acides aminés selon l'invention est représentée dans le Tableau I, à la suite des exemples.
Gène GS9002S31. Acide(s) nucléique(s) II a été isolé selon l'invention un ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS9002S31 .
La séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°1.
La séquence SEQ ID N°1 a une longueur de 552 nucleotides. Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 110).
Les analyses d'expression du transcrit de séquence SEQ ID N°1 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+ de différents tissus ont permis de montrer que le gène GS9002S31 était exprimé dans le cerveau fœtal, le foie et le placenta. Gène GS910331.
Acide(s) nucléique(s)
Il a été isolé selon l'invention deux séquences d'ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS910331. La première séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°2.
La séquence SEQ ID N°2 a une longueur de 1246 nucleotides. La seconde séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°3. La séquence SEQ ID N° 3 a une longueur de 3035 nucleotides.
Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 110 et Version 115).
Les analyses d'expression du transcrit de séquence SEQ ID N°2 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS310331 était exprimé dans le cerveau foetal.
De plus, une analyse de l'expression du transcrit par Northern blot, à l'aide respectivement des sondes de séquences SEQ ID N°82 et 83, a révélé la présence de transcrits dans le blot commercialisé par la
Société Clontech (Réf. N° 7759-1).
La taille des transcrits détectés avec la sonde de séquence SEQ ID N°
82 est respectivement de 1 ,65 kb dans le foie et le cœur et de 1 ,4 kb dans le cerveau. La taille des transcrits détectés avec la sonde de séquence SEQ ID N°
83 est respectivement de 1,65 kb et 2,4 kb dans le cœur et de 1 ,65 kb dans le foie.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31 -34 du chromosome 9.
Gène GS914554
Acide(s) nucléique(s)
Il a été isolé selon l'invention un ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS94554. La séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°4.
La séquence SEQ ID N°4 a une longueur de 1479 nucleotides. Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 1 10). Les analyses d'expression du transcrit de séquence SEQ ID N°4 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1 . Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS94554 était exprimé dans le cerveau fœtal, le placenta et le foie. De plus, une analyse de l'expression du transcrit par Northern blot, selon le protocole décrit de l'Exemple 1 , à l'aide respectivement de la sonde de séquence SEQ ID Nc58, a révélé la présence de transcrits dans le blot commercialisé par la Société Clontech (Réf. N° 7759-1 ).
La taille des transcrits détectés avec la sonde de séquence SEQ ID N°84 est respectivement de :
- 1 ,0, 1 ,3, 1 ,7 et 2,8 kb dans le pancréas et le placenta ;
- 1 ,0, 1 ,3 et 1 ,7 kb dans le rein, le muscle squelettique, le coeur et le foie ;
- 1 ,7 kb dans le cerveau et le poumon. Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Gène GS914739.
Acide(s) nucléiqυe(s)
Il a été isolé selon l'invention deux séquences d'ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS14739.
La première séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N 5.
La séquence SEQ ID N°5 a une longueur de 5169 nucleotides. Aucune homologie de séquence avec la séquence SEQ ID N° 5 n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 110).
La seconde séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N 6.
La séquence SEQ ID N°6 a une longueur de 7723 nucleotides. Cette séquence comprend un cadre ouvert de lecture (ORF) allant du nucléotide en position 121 au nucléotide en position 1517 de la séquence SEQ ID N° 6. Le codon d'initiation de la traduction débute au nucléotide en position 132 de la séquence SEQ ID N° 6. La séquence codante débute au nucléotide en position 132 et se termine au nucléotide en position 1517 de la séquence SEQ ID N° 6. La séquence
SEQ ID N°6 comprend un signal de polyadénylation de séquence
" ATTAAA " débutant au nucléotide en position 7686 de la séquence
SEQ ID N°6. Le motif de Kozak de séquence " CCA CTC GCC ATG "
débute au nucléotide en position 123 de la séquence SEQ ID N°6. Deux homologies de séquence de 100% ont été retrouvées lors d'une recherche dans la base de données GenBank (Version 115, N° d'accès AF088031), respectivement :
- du nucléotide en position 1 au nucléotide en position 146 de la séquence SEQ ID N°6 ; et
- du nucléotide en posiiton 243 au nucléotide en position 573 de la séquence SEQ ID N° 6
Les analyses d'expression du transcrit de séquence SEQ ID N°5 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS914739 était exprimé dans le cerveau foetal.
De plus, une analyse de l'expression du transcrit par Northern blot, à l'aide de la sonde de séquence SEQ ID N°85, a révélé la présence de transcrits dans le blot commercialisé par la Société Clontech (Réf. N° 7759-1).
La taille des transcrits détectés avec la sonde de séquence SEQ ID N°85 est de 1 kb dans le cœur, le foie, le muscle squelettique et le rein.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Polypeptide codé par l'acide nucléique de séquence SEQ ID N° 6
Le cadre ouvert de lecture de la séquence nucléotidique SEQ ID N° 6 code potentiellement pour un polypeptide de 461 acides aminés de longueur constituant la séquence SEQ ID N° 129. Sur les régions nucléotidiques 240-1481 et 1511- 1675 de la séquence SEQ ID N° 129, une identité de séuqnce d'environ 30% a été retrouvée avec dans les bases Genpept115, Swissprot38, trEMBL et PIR vace les numéro d'accès suivants : AF035360 (homo), AF186461
(rattus), AF186460 (musspretus); AF196481 (homo sapiens ), AF196480(musmusc) et avec des T09482(homme) et T09013(mouse) ( ring finger Fxy ). Quelques homologies de séquence ont été retrouvées également avec les numéros d'accès suivants : DA191 P20.2, A49656 et I49642.
Le polypeptide de séquence SEQ ID N° 129 est susceptible d'intervenir dans la régulation du flux du cholestérol, et plus particulièrement de la maladie de Tangier, dans des déficiences familiales en HDL, ou encore dans une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Gène S915574.
Acide(s) nucléique(s)
Il a été isolé selon l'invention un ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS915574.
La séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°7.
La séquence SEQ ID N°7 a une longueur de 1046 nucleotides.
Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 110).
Les analyses d'expression du transcrit de séquence SEQ ID N°7 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS915574 était exprimé dans le cerveau fœtal, l'utérus, le cerveau, le cœur, la prostate, le foie fœtal, le foie, le placenta, le testicule et le rein.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Gène GS930321 Acide(s) nucléique(s)
Il a été isolé selon l'invention un ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS930321. La séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°8.
La séquence SEQ ID N°8 a une longueur de 280 nucleotides. Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 1 10). Les analyses d'expression du transcrit de séquence SEQ ID N°8 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS930321 était exprimé dans le cerveau fœtal, le foie et le coeur.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31-34 du chromosome 9. Gène S931311. Acide(s) nucléique(s) II a été isolé selon l'invention un ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS931311.
La séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°9.
La séquence SEQ ID N°9 a une longueur de 479 nucleotides. Cette séquence comprend un cadre ouvert de lecture (ORF) partiel allant du nucléotide en position 3 au nucléotide en position 98 de la séquence SEQ ID NO 9
Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 110). Les analyses d'expression du transcrit de séquence SEQ ID N°9 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS931311 était exprimé dans le cerveau fœtal, le foie, le cœur, le placenta, le testicule et le rein.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31 -34 du chromosome 9.
Polypeptide codé par l'acide nucléique de séquence SEQ ID NO 9 Le cadre ouvert de lecture partiel de la séquence d'acides nucléique SEQ ID N°9 code potentiellement pour un polypeptide de 32 aminoacides de longueur constituant la séquence SEQ ID N°130.
Aucune homologie significative avec BLAST n'a été retrouvée avec les séquences référencées dans les bases de données Swissprot
(version 36, dernière remise à jour du 3 mai 1999) et PRODOM:
(domaines homologues obtenus dans Swissprot, version 34.2, novembre
1997).
Le polypeptide de séquence SEQ ID N° 130 est susceptible d'intervenir dans la régulation du flux du cholestérol, et plus particulièrement de la maladie de Tangier, dans des déficiences familiales en HDL, ou encore dans une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Gène S934660.
Acide(s) nucléique(s)
Il a été isolé selon l'invention un ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS934660.
La séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°10.
La séquence SEQ ID N°10 a une longueur de 2599 nucleotides.
Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 110).
Les analyses d'expression du transcrit de séquence SEQ ID N°10 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS934660 était exprimé dans le cerveau foetal.
De plus, une analyse de l'expression du transcrit par Northern blot, à l'aide de la sonde de séquence SEQ ID N°86, selon le protocole décrit de l'Exemple 1 , a révélé la présence de transcrits dans le blot commercialisé par la Société Clontech (Réf. N° 7759-1).
La taille des transcrits détectés avec la sonde de séquence SEQ ID N°86 est respectivement de : - 1 kb, 2 kb, 3 kb et 7,5 kb dans le placenta ;
- 2, 3 et 7,5 kb dans le cœur ;
- 7,5 kb dans le rein, le pancréas, le muscle squelettique, le poumon et le cerveau.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31 -34 du chromosome 9.
Gène GS938315.
Acide(s) nucléique(s)
Il a été isolé selon l'invention un ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS938315. La séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°1 1 .
La séquence SEQ ID N°1 1 a une longueur de 222 nucleotides.
Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 1 10). Les analyses d'expression du transcrit de séquence SEQ ID N°1 1 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS938315 était exprimé dans le cerveau fœtal, le foie, le cœur et le rein. Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31 -34 du chromosome 9.
Gène GS93953 Acide(s) nucléique(s) II a été isolé selon l'invention deux ARNs messagerscorrespondant à un transcrit du gène désigné ici sous le n° GS93953.
La première séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°12. La séquence SEQ ID N°12 a une longueur de 3422 nucleotides.
Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 1 10).
La seconde séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N° 13. La séquence SEQ ID N° 13 a une longueur de 5791 nucleotides.
Elle comprend un cadre ouvert de lecture (ORF) partiel allant du nucléotide en position 3 au nucléotide en posiiton 554 de la séquence SEQ ID N0 13.
Quelques homologies de séquence ont été retrouvées entre la séquence SEQ ID N° 13 et les numéros d'accès suivants de la base de données GenBank (Version 1 16) : AC013740.2, AC013783.2 et AF086175.1.
Les analyses d'expression du transcrit de séquence SEQ ID N°12 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS93953 était exprimé dans le cerveau foetal.
De plus, une analyse de l'expression du transcrit par Northern blot, , selon le protocole décrit de l'Exemple 1 , à l'aide de la sonde de séquence SEQ ID N°87, a révélé la présence de transcrits dans le blot commercialisé par la Société Clontech (Réf. N° 7759-1).
La taille des transcrits détectés avec la sonde de séquence SEQ ID Nc87 est de 8 kb dans le cœur, le cerveau, le placenta, le poumon, le foie, le muscle squelettique, le rein et le pancréas.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Polypeptide codé par l'acide nucléique de séquence SEQ ID N° 13.
Le cadre de lecture ouvert partiel de la séquence d'acide nucléique SEQ ID N°13 code potentiellement pour un polypeptide de 183 acides aminés de longueur constituant la séquence SEQ ID N° 131.
Il a été observé une homologie de 45% entre la région 6-162 de la séquence SEQ ID N° 131 et la séquence n° g3878571 (Z46381) de la base de données Gen Bank (Version 115) et la séquence n<° EM :Q21453 MO1 F1.4 PROTEIN de la base de données trEMBL
(Version de Août 1999).
Le polypeptide de séquence SEQ ID N° 131 est susceptible d'intervenir dans la régulation du flux du cholestérol, et plus particulièrement de la maladie de Tangier, dans des déficiences familiales en HDL, ou encore dans une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Gène GS939874. Acide(s) nucléique(s)
Il a été isolé selon l'invention deux ARNs messagers correspondant à un transcrit du gène désigné ici sous le n° GS939874.
La première séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°14. La séquence SEQ ID N°14 a une longueur de 2615 nucleotides.
Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 110).
La deuxième séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N° 15. La séquence SEQ ID N° 15 a une longueur de 2551 nucleotides.
Elle comprend un cadre ouvert de lecture allant du nucléotide en position 50 au nucléotide en position 958 et une séquence codante allant du nucléotide en position 67 au nucléotide en position 958.
Une homologie de 99% d'identité sur 2044 nucleotides de la séquence SEQ ID N° 15 a été observée avec la séquence de la base de données GenBank (Version 116) ayant le numéro d'accès AK001355.
Les analyses d'expression du transcrit de séquence SEQ ID N°14 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS939874 était exprimé dans le cerveau fœtal, l'utérus, le cerveau, le cœur, la prostate, le foie fœtal, le foie, le placenta, le testicule et le rein.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Polypeptide codé par l'acide nucléique de séquence SEQ ID N° 15.
Le cadre ouvert de lecture de l'acide nucléique de séquence SEQ ID N° 15 code potentiellement pour un polypeptide de 291 acides aminés de longueur constituant la séquence SEQ ID N° 132. Une homologie de 35% sur 233 acides aminés (14-246 de SEQ
ID N° 132) a été retrouvée avec la séquence référencée dans la base de données GenPept (Version 1 15) sous le n° g5832945 (AL1 17195).
Une homologie de 32% sur 245 acides aminés (30-274 de SEQ ID N° 132) a été retrouvée avec la séquence référencée dans la base de données GenPept (Version 1 15) sous le n° g5832942 (AL1 17195).
Le polypeptide de séquence SEQ ID N° 132 est susceptible d'intervenir dans la régulation du flux du cholestérol, et plus particulièrement de la maladie de Tangier, dans des déficiences familiales en HDL, ou encore dans une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Gène GS911370
Acide(s) nucléique(s)
Il a été isolé selon l'invention un ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS91 1370.
La séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°16. La séquence SEQ ID N°16 a une longueur de 775 nucleotides. Cette séquence comprend un cadre ouvert de lecture partiel (ORF) allant du nucléotide en position 1 au nucléotide en position 144 de la séquence SEQ ID N°16.
Une homologie en nucleotides a été retrouvée avec les séquences suivantes :
• 96% d'homologie sur 229 pb (position 52-280 pb) avec la séquence GenBank: gi|1022224| - Fragment Mse1 d'ADN génomique d'Homo sapiens, contenant un ilôt
CpG ( clone 92e10, lecture inverse de cpg92e10.rt1a)
• 100% d'homologie sur 145 pb (position 1-144 pb) avec la séquence GenBank: gi|459833| de l'ARNm humain de la sous unité béta du complexe Sec61.
Les analyses d'expression du transcrit de séquence SEQ ID N°16 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS911370 était exprimé dans le cerveau foetal.
De plus, une analyse de l'expression du transcrit par Northern blot, selon le protocole décrit de l'Exemple 1 , à l'aide respectivement des sondes de séquence SEQ ID N° 88 et 89, a révélé la présence de transcrits dans le blot commercialisé par la Société Clontech (Réf. N° 7759-1 ).
La taille des transcrits détectés avec la sonde de séquence SEQ ID N° 88 ainsi qu'avec la sonde de séquence SEQ ID N°89 est de 7,4 kb dans le pancréas.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Polypeptide codé par l'acide nucléique de séquence SEQ ID N° 16
Le cadre ouvert de lecture partiel de la séquence d'acides nucléiques SEQ ID N°16 code potentiellement pour un polypeptide de 48 aminoacides de longueur constituant la séquence SEQ ID N°133. Homologies observées au niveau de la séquence protéique :
Cette ORF potentielle (48 aa) possède une identité sur 33 aa (position 16-48 aa) avec la protéine de transport sous unité béta du complexe Sec61 humaine dont les séquences sont sp|P38391 |, gb|AAA19639.1 |, PIR: (Séquences PIR non redondantes, version 57)|S|S42410 et 18652 p34.2 (1 ) respectivement dans les bases de données Swissprot (version 36, dernière remise à jour du 3 mai 1999))Genpept: (traduction de Genbank v110 et 111 , dernière remise à jour le 7 mai 1999), PIR: (SEQUENCES PIR NON REDONDANTES, VERSION 57) non- redondante et PRODOM: (domaines homologues détectés dans Swissprot, version 34.2, novembre 1997).
Cette identité est retrouvée dans les différentes bases de données protéiques ( PIR: (SEQUENCES PIR NON REDONDANTES, VERSION 57), PRODOM: (domaines homologues détectés dans Swissprot, version 34.2, novembre 1997)) et les traductions de Genbank et EMBL (TrEMBL (SP-TrEMBL, version 7, novembre 1998), Genpept: (traduction de Genbank v110 et 111 , dernière remise à jour le 7 mai 1999)).
Fonction putative :
Le complexe de protéines sec61 est un composant central de la machinerie cellulaire de translocation des protéines naissantes dans le réticulum endoplasmique. Le gène GS911370 pourrait donc être, de part son homologie avec la sous unité beta du complexe sec61 , un gène codant pour un nouveau composant de cette machinerie. Par conséquent son rôle possible dans la translocation des protéines et par conséquent du trafic des protéines impliquées dans le mécanisme d'efflux du cholestérol en fait un gène d'intérêt dans l'étude du déficit observée chez les patients Tangier/FHD.
Le polypeptide de séquence SEQ ID N°133 est ainsi susceptible d'intervenir dans la régulation du flux de cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL.
Le polypeptide de séquence SEQ ID N133 est donc susceptible d'intervenir dans une étape importante impliquée dans le transport inverse du cholestérol par les HDL. Le polypeptide de séquence SEQ ID N° 133 est également susceptible d'intervenir dans une maladie génétiquement liée au locus
9q31-34 du chromosome 9.
Gène GS913920. Acide(s) nucléique(s)
Il a été isolé selon l'invention un ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS913920.
Une première séquence a été isolée et caractérisée ; il s'agit de la séquence nucléique de l'ADNc constituant la séquence SEQ ID N°17. La séquence SEQ ID N°17 a une longueur de 491 nucleotides.
Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 1 10).
Les analyses d'expression du transcrit de séquence SEQ ID N°17 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS913920 était exprimé dans le foie et le coeur. A partir de la séquence SEQ ID N° 17, deux amorces nucléotidiques respectivement de séquences SEQ ID N° 102 et SEQ ID N° 103 ont été synthétisées. Ces amorces nucléotidiques ont permis d'amplifier un ADNc du gène GS913920 constituant la séquence SEQ ID N° 18.
Les réactions d'amplification sont réalisées dans les conditions suivantes, applicables à l'ensemble des gènes candidats selon l'invention pour lesqueles des amorces spécifiques sont décrites et mises en œuvre pour isoler des séquences du transcrit d'intérêt :
Chaque réaction de PCR est effectuée avec 400 μM de chaque dNTP, 0.5 μM de chaque amorce, 2.5 mM de MgCI2, 50 ng d'ADN ou environ 25 ng d'ADNc et 2 unités de Thermus aquaticυs (Taq) DNA polymérase (Ampli Taq Gold; Perkin Elmer) en présence de son tampon. Les réactions sont réalisées en micro-plaques 96 puits, dans des thermo-cycleurs 9700 (Perkin Elmer). Après une première dénaturation à 94°C pendant 10 min, un programme de 30 cycles est appliqué : dénaturation de 30 s. à 94°C, hybridation de 30 s. à 64°C (2 cycles), 61 °C (2 cycles), 58°C (2 cycles) et 55°C (28 cycles), elongation de 1 min/kb à 72°C. Le programme s'achève par une elongation de 7 min à 72°C.
La séquence nucléique SEQ ID N° 18 a une longueur de 293 nucleotides. Elle comprend un cadre de lecture ouvert (ORF) partiel allant du nucléotide en posiiton 227 au nucléotide en position 293. Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Polypeptide codé par l'acide nucléique de séquence SEQ ID NO 18
Le cadre ouvert de lecture de la séquence d'acides nucléiques SEQ ID N°18 code potentiellement pour un polypeptide de 22 aminoacides de longueur constituant la séquence SEQ ID N°134.
Aucune homologie significative avec BLAST n'a été retrouvée avec les séquences référencées dans les bases de données Genpept:
(traduction de Genbank v115), TrEMBL (SP-TrEMBL, Version Août
1999), Swissprot (Version 38) et PIR: (SEQUENCES PIR NON
REDONDANTES, Version 62-Septembre 1999).
Le polypeptide de séquence SEQ ID N°134 est susceptible d'intervenir dans la régulation du flux de cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL.
Le polypeptide de séquence SEQ ID N°134 est donc susceptible d'intervenir dans une étape importante impliquée dans le transport inverse du cholestérol par les HDL.
Le polypeptide de séquence SEQ ID N° 134 est également susceptible d'intervenir dans une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Gène GS91437.
Acide(s) nucléique(s)
Il a été isolé selon l'invention deux ARNs messagers correspondant à un transcrit du gène désigné ici sous le n° GS91437.
La première séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°19. La séquence SEQ ID N°19 a une longueur de 2442 nucleotides.
Cette séquence comprend un cadre ouvert de lecture (ORF) partiel allant du nucléotide en position 2 au nucléotide en position 286 de la séquence SEQ ID N°19. Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 1 10).
La seconde séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N° 20.
La séquence SEQ ID N°20 a une longueur de 4608 nucleotides. Elle comprend un cadre ouvert de lecture (ORF) partiel allant du nucléotide en position 1 au nucléotide en position 327.
Il a ete trouvé les homologies de séquence suivantes dans la base de données GenBank (Version 1 16) avec la séquence SEQ Id N°
20 : • 100% d'homologie sur 213 pdb (positions [85-297]) avec les positions [2807-2595] de la séquence g7020279 (AK000294) Homo sapiens cDNA FLJ20287 fis, clone HEP04390 Length = 3043; déposée le 22-02-2000 dans Genbank.
• 88% sur 219 pdb (positions [82-300]) avec la séquence g3850048 (AJ 004828) Mus musculus clone XX-BAC394, Length = 170351 ***
SEQUENCING IN PROGRESS ***, in unordered pièces;
Les analyses d'expression du transcrit de séquence SEQ ID N°19 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS91437 était exprimé dans le cerveau fœtal, le foie, le cœur, la prostate, le placenta, l'utérus, le testicule, le rein, le muscle squeletttique.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Polypeptide codé par l'acide nucléique de séquence SEQ ID N°19
Le cadre ouvert de lecture partiel de la séquence d'acides nucléiques SEQ ID N°19 code potentiellement pour un polypeptide de 95 aminoacides de longueur constituant la séquence SEQ ID N°135.
Aucune homologie significative avec BLAST n'a été retrouvée avec les séquences référencées dans les bases de données Swissprot (version 36, dernière remise à jour du 3 mai 1999), PRODOM: (domaines homologues détectés dans Swissprot, versions 34.2 et 38,)Genpept: (traduction de Genbank v1 10 et 1 1 1 ainsi que 115,), PIR: (SEQUENCES PIR NON REDONDANTES, VERSION 57), PDB: (PROTEIN DATA BANK, FEVRIER 1999) et TrEMBL (SP-TrEMBL, version 7, novembre 1998).
Le polypeptide de séquence SEQ ID N° 135 est susceptible d'intervenir dans la régulation du flux du cholestérol, et plus particulièrement de la maladie de Tangier, dans des déficiences familiales en HDL, ou encore dans une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Polypeptide codé par l'acide nucléique de séquence SEQ ID N° 20
Le cadre ouvert de lecture (ORF) contenu dans l'acide nucléique de séquence SEQ ID N° 20 code potentiellement pour un polypeptide de 108 acides aminés constituant la séquence SEQ ID N° 136.
Aucune homologie de séquence n'a été retrouvé avec les bases de deonnées Swissprot (Version 38), Genpept (Version 1 15), PIR (Version 62, Septembre 1999) et trEMBL (Version de Août 1999). Le polypeptide de séquence SEQ ID N° 136 est susceptible d'intervenir dans la régulation du flux du cholestérol, et plus particulièrement de la maladie de Tangier, dans des déficiences familiales en HDL, ou encore dans une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Gène GS91507.
Acide(s) nucléique(s)
II a été isolé selon l'invention deux ARNs messagers correspondant à un transcrit du gène désigné ici sous le n° GS91507.
La première séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°21.
La séquence SEQ ID N°21 a une longueur de 1627 nucleotides. Cette séquence comprend un cadre ouvert de lecture (ORF) partiel allant du nucléotide en position 1 au nucléotide en position 640 de la séquence SEQ ID N°21.
Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 1 10). La deuxième séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N° 22.
La séquence SEQ ID N° 22 a une longueur de 2333 nucleotides. Elle comprend un cadre ouvert de lecture (ORF) complet allant du nucléotide en position 368 au nucléotide en position 1348. Le début du codon d'initiation de la traduction est localisé sur le nucléotide en position 371 de la séquence SEQ ID N° 22. La séquence codante débute au nucléotide en position 371 et se termine au nucléotide en position 1348.
La séquence SEQ ID N° 22 possède une homologie avec la séquence suivante référencée dans la base de données GenBank (Version 1 16) suivante : Identité nucléique de 99% sur 2316 pb (position 115 à 2420 pb) avec Homo sapiens cDNA FLJ20300 fis, clone HEP06465 ( 2331 pb). Accession AK000307
Les analyses d'expression du transcrit de séquence SEQ ID N°21 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS91507 était exprimé dans le cerveau foetal. De plus, une analyse de l'expression du transcrit par Northern blot, selon le protocole décrit de l'Exemple 1 , à l'aide de la sonde de séquence SEQ ID N°90, a révélé la présence de transcrits dans le blot commercialisé par la Société Clontech (Réf. N° 7759-1).
La taille des transcrits détectés avec la sonde de séquence SEQ ID N°90 est respectivement de :
- 2 kb et 7,5 kb dans le pancréas, le rein, le muscle squelettique, le poumon, le placenta et le cerveau.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL.
Polypeptide codé par l'acide nucléique de séquence SEQ ID NO 21 Le cadre ouvert de lecture de la séquence d'acides nucléiques
SEQ ID N°21 code potentiellement pour un polypeptide de 213 aminoacides de longueur constituant la séquence SEQ ID N°137. Homologies observées au niveau de la séquence protéique: Cette ORF potentielle de 213 aa possède un domaine ayant des homologies de type motif avec différentes protéines telles que : • 29% d'homologie sur 155 aa (position 4-158 aa) avec des séquences de Swissprot (version 36, dernière remise à jour du 3 mai 1999) sp|Q10022| et avec des séquences de PRODOM: (domaines homologues détectés dans Swissprot, version 34.2, novembre 1997)
28705 p34.2 (1 ) YSX3_CAEEL - domaine de la protéine hypothétique (39KD) T28D9.3 localisé sur le chromosome II.
• 25% d'homologie sur 127 aa (position 6-132 aa) avec des séquences de PIR: (SEQUENCES PIR NON
REDONDANTES, VERSION 57) non-redondante: PIR: (Séquences PIR non redondantes, version 57)|S|S66668 - protéine induite par le peroxyde d'hydrogène - (fragment d'une séquence de souris).
De plus, des homologies avec des séquences codantes traduites de Genbank et EMBL (TrEMBL (SP-TrEMBL, version 7, novembre
1998), Genpept: (traduction de Genbank v1 10 et 1 1 1 , dernière remise à jour le 7 mai 1999)) montreraient des annotations avec des protéines potentielles de type " acide phosphatidique phosphatase "
• 34% d'homologie sur 200 aa (position 6-205 aa) avec des séquences de SP-TrEMBL (SP-TrEMBL, version 7, novembre 1998): sp|P97544|P97544 - protéine transmembranaire du réticulum endoplasmique.
• 33% d'homologie sur 204 aa (position 6-209 aa) avec des séquences de Genpept: (traduction de Genbank v1 10 et 1 1 1 , dernière remise à jour le 7 mai 1999): gi|4105139|- acide phosphatidique phosphatase-beta, type2 ; phosphatidate phosphohydrolase ; phospholipide phosphatase chez l'Homme. ; et avec des séquences de Genpept: (traduction de Genbank v1 10 et 1 1 1 , dernière remise à jour le 7 mai 1999): gi|3047173| homologue de l'acide phosphatidique phosphohydrolase de l'Homme, et avec gi|2467300| |- acide phosphatidique phosphatase 2b.
• 31 % d'homologie sur 203 aa (position 6-208 aa) avec des séquences de Genpept: (traduction de Genbank v1 10 et 1 1 1 , dernière remise à jour le 7 mai 1999): gi|1487873||- acide phosphatidique phosphatase de souris
• 31 % d'homologie sur 203 aa (position 6-208 aa) avec des séquences de SP-TrEMBL (SP-TrEMBL, version 7, novembre 1998): sp|Q61469|Q61469 |- acide phosphatidique phosphatase 2A
Polypeptide codé par l'acide nucléique de séquence SEQ ID N° 22.
Le cadre ouvert de lecture de la séquence d'acide nucléique SEQ ID N°22 code potentiellement pour un polypeptide de 325 aminoacides de longueur constituant la séquence SEQ ID N°138. Homologies observées au niveau de la séquence proteique
Homologies avec des séquences codantes traduites de Genbank (Version 1 16) et EMBL (TrEMBL (Version de Août 1999), Genpept [Version 1 15]) montreraient des annotations avec des protéines potentielles de type " acide phosphatidique phosphatase ". • 30% d'homologie sur 316 aa (position 2-317 aa) avec SP-trEMBL: sp|P97544|P97544 ER TRANSMEMBRANE PROTEIN
• 30% d'homologie sur 320 aa (position 2-321 aa) avec Genpept116 gi|4105139|AF043329 type-2 phosphatidic acid phosphatase-beta; phosphatidate phosphohydrolase; phospholipid phosphatase [Homo sapiens] et avec Genpept116: gi|3047173|AF01786 phosphatidic acid phosphohydrolase homolog [Homo sapiens] et avec gi|2467300|AB000889 phosphatidic acid phosphatase 2b
• 30% d'homologie sur 316 aa (2-317 aa) avecGenpept116 gi 1684745 Y07783 transmembrane protein [Rattus norvegicus] Length = 312 aa
30% d'homologie sur 320 aa (position 2-317 aa) avec SP-trEMBL EMO14495 PHOSPHATIDIC ACID
PHOSPHATASE 2B. Length = 311 aa
Fonction putative des polypeptides de séquence SEQ ID N° 137 et 138:
Le gène GS91507 présente un intérêt pour I' -étude fonctionelle de la maladie de Tangier et du FHD en ce sens qu'il s'agit à la fois d'un candidate positionnel et d'un gène codant pour une nouvelle protéine dont les fonctions putatives (phosphatidic acid phosphatase) pourraient jouer un rôle dans la cascade de signalisation intracellulaire liée à l'efflux du cholestérol intracellulaire médié par les particules HDL, impliqué dans la maladie de Tangier et la déficience familiale en HDL (FHD). Les polypeptides de séquence SEQ ID N° 137 et 138 est susceptible d'intervenir dans la régulation du flux du cholestérol, et plus particulièrement de la maladie de Tangier, dans des déficiences familiales en HDL, ou encore dans une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Gène GS915231.
Acide(s) nucléique(s)
Il a été isolé selon l'invention deux ARNs messagers correspondant à un transcrit du gène désigné ici sous le n° GS915231.
La première séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°23.
La séquence SEQ ID N°23 a une longueur de 2764 nucleotides.
Cette séquence comprend un cadre ouvert de lecture (ORF) partiel allant du nucléotide en position 3 au nucléotide en position 1220 de la séquence SEQ ID N°23.
Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 110).
La deuxième séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N° 24.
La séquence SEQ ID N° 24 a une longueur de 3228 nucleotides Elle comprend un cadre ouvert de lecture (ORF) allant du nucléotide en position 37 au nucléotide en position 1304. La séquence codante débute au nucléotide en position 49 et se termine au nucléotide en position 1304 de la séquence SEQ ID N° 24. Le début du codon d'initiation de la traduction est localisé sur le nucléotide en position 49. Il existe un signal de polyadénylation débutant sur le nucléotide en position 3142 de la séquence SEQ ID N° 24.
Des homologies de séquence ont été observées entre la séquence SEQ ID N° 24 et les séquences suivantes référencées dans la base de données GenBank (Version 116) : • 100% d'homologie sur 217 pdb (positions [2704-2920]) matchant avec les positions [1-217] de la séquence g4884337 (AL050130) Homo sapiens mRNA; cDNA DKFZp586H051 (from clone DKFZp586H051). Length = 1795; déposée le 18-FEB-2000 ; Direct Submission ; Submitted (15-MAY-1999) MIPS, Am Klopferspitz 18a,
D-82152, Martinsried, GERMANY,
• 4 fragments d'homologie : 100%sur 393 pdb [2773-3165]; 100% sur 153 pdb [913-1065]; 100% sur 111 pdb [1083-1193]; 84% sur 84 pdb [2341-2424] avec la séquence g6539402(AC016904) Homo sapiens clone RP11-307P9, *** SEQUENCING IN PROGRESS ***, 36 unordered pièces. Length = 203456;
• Différents fragments d'homologie : 83% sur 258 pdb [529-786]; 89% sur 66pdb [1195-1260]; 80% sur 185pdb [91-275] avec la séquence g5305227 (AF029260) Gallus gallus transcription factor RelB (relb) mRNA, complète cds. Length = 2851
Les analyses d'expression du transcrit de séquence SEQ ID N°23 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS915231 était exprimé dans le cerveau foetal.
De plus, une analyse de l'expression du transcrit par Northern blot, selon le protocole décrit de l'Exemple 1 , à l'aide de la sonde de séquence SEQ ID N°91 , a révélé la présence de transcrits dans le blot commercialisé par la Société Clontech (Réf. N° 7759-1).
La taille des transcrits détectés avec la sonde de séquence SEQ ID N°91 est respectivement de :
- 1 ,3 kb, 2 kb, 4 kb, 4,4 kb et 7,5 kb dans le cœur.et le muscle squelettique : - 1 ,3 kb, 2 kb, 4 kb et 4,4 kb dans le foie et le rein ;
- 1 ,3 kb, 2 kb, 4,4 kb et 7,5 kb dans le cerveau ; - 1 ,3 kb, 2 kb et 4,4 kb dans le pancréas.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Polypeptide codé par l'acide nucléique de séquence SEQ ID NO 23
Le cadre ouvert de lecture partiel de la séquence d'acides nucléiques SEQ ID N°23 code potentiellement pour un polypeptide de 406 aminoacides de longueur constituant la séquence SEQ ID N°139. Homologies observées au niveau de la séquence protéique :
• 51 % d'homologie avec des séquences de Genpept: (traduction de Genbank v1 10 et 1 1 1 , dernière remise à jour le 7 mai 1999): gi:2731377 est la traduction protéique de la séquence gb|AAB93456.1 | (U28739) similaire à l'alcool déshydrogénase/ribitol déshydrogénase de C. elegans et des séquences de SP-TrEMBL (SP-TrEMBL, version 7, novembre 1998):Q09979 sur 401 aa (position 1-401 aa).
• 30% d'homologie sur 164 aa (position 47-205 aa) avec les séquences de Protein Data Bank: : gi|1827713| correspondant à la protéine 1AHI|A Chain A, 7 Alpha- Hydroxysteroid Dehydrogenase Complexed With Nadh And 7-Oxo Glycochenodeoxycholic Acid et avec gi|1827714| correspondant à la protéine 1AHI|B Chain B, 7 Alpha-Hydroxysteroid Dehydrogenase Complexed With Nadh And 7-Oxo Glycochenodeoxycholic Acid et avec gi|1827715| correspondant à la protéine 1AHH|A
5 Chain A, 7 Alpha-Hydroxysteroid Dehydrogenase
Complexed With Nad+ et avec gi|1827716| correspondant à la protéine 1AHH|B Chain B, 7 Alpha- Hydroxysteroid Dehydrogenase Complexed With Nad+ et avec gi|1943533| correspondant à la protéine 1 FMC|A
10 Chain A, 7-Alpha-Hydroxysteroid Dehydrogenase
Complex With Nadh And 7-Oxo Glycochenodeoxycholic Acid et avec gi|1943534| correspondant à la protéine 1 FMC|B Chain B, 7-Alpha-Hydroxysteroid
Dehydrogenase Complex With Nadh And 7-Oxo
15 Glycochenodeoxycholic Acid
• 29% d'homologie sur 131 aa (position 53-183 aa) avec des séquences de Protein Data Bank: gi|2624497| correspondant à la protéine Cis-Biphenyl-2,3-
20 Dihydrodiol-2,3-Dehydrogenase de Pseudomonas Sp.
Lb400
• 27% d'homologie sur 194 aa (position 3-196 aa) avec des séquences de la base PIR: (SEQUENCES PIR NON
25 REDONDANTES, VERSION 57): PIR: (Séquences PIR non redondantes, version 57)|D69930| correspondant à la protéine 3-oxoacyl- acyl-carrier protein reductase homolog yoxD de - Bacillus subtilis et avec des séquences de Swissprot (version 36, dernière remise à
30 jour du 3 mai 1999): sp|P14802| correspondant à la protéine YOXD_BACSU - oxidoreductase hypothétique présente dans la région RTP-PELB (ORF238)
• 52% d'homologie sur 44 aa (position 353-396 aa) avec des séquences de PRODOM: (domaines homologues détectés dans Swissprot, version 34.2, novembre 1997) (homologous domains detected in Swissprot (version 36, dernière remise à jour du 3 mai 1999)): 2675 p34.2 (1 1) NLTP(5) DHB4(3) PX18(2) correspondant à la protéine
LIPID-TRANSFER STEROL CARRIER SCP-2 NONSPECIFIC PRECURSOR ESTRADIOL BETA- DEHYDROGENASE 17-BETA-HYDROXYSTEROID
• 27% d'homologie sur 167 aa (position 233-399 aa) avec des séquences de Swissprot (version 36, dernière remise à jour du 3 mai 1999) : sp|P51659| correspondant à la protéine DHB4_HUMAN ESTRADIOL 17 BETA- DEHYDROGENASE 4 (EC 1.1.1.62) (17-BETA-HSD 4) (17-BETA-HYDROXYSTEROID DEHYDROGENASE 4)
Polypeptide codé par l'acide nucléique de séquence SEQ ID N° 24
Le cadre ouvert de lecture (ORF) de la séquence d'acide nucléique SEQ ID N° 24 code potentiellement pour un polypeptide de 422 acides aminés de longueur constituant la séquence SEQ ID N° 140. Les homologies de séquences suivantes ont été retrouvées : Homologies observées au niveau de la séquence protéique :
• 51 % d'homologie avec Genpept: gi:2731377 et SP- trEMBL:Q09979 sur 416 aa (position 1 1-417 aa). Genpept: gi:2731377 est la traduction protéique de la séquence gb|AAB93456.1 | (U28739) similaire à l'alcool déshydrogénase/ribitol déshydrogénase de C. elegans
• 30% d'homologie sur 164 aa (position 47-205 aa) avec
5 Protein Data Bank: gi|1827713| correspondant à la protéine 1AHI|A Chain A, 7 Alpha-Hydroxysteroid Dehydrogenase Complexed With Nadh And 7-Oxo Glycochenodeoxycholic Acid et avec gi|1827714| correspondant à la protéine 1AHI|B Chain B, 7 Alpha- îo Hydroxysteroid Dehydrogenase Complexed With Nadh
And 7-Oxo Glycochenodeoxycholic Acid et avec gi| 1827715| correspondant à la protéine 1AHH|A Chain A, 7 Alpha-Hydroxysteroid Dehydrogenase Complexed With Nad+ et avec gi|1827716| correspondant à la
15 protéine 1AHH|B Chain B, 7 Alpha-Hydroxysteroid
Dehydrogenase Complexed With Nad+ et avec gi| 1943533| correspondant à la protéine 1 FMC|A Chain A, 7-Alpha-Hydroxysteroid Dehydrogenase Complex With Nadh And 7-Oxo Glycochenodeoxycholic Acid et
20 avec gi| 1943534| correspondant à la protéine 1 FMC|B
Chain B, 7-Alpha-Hydroxysteroid Dehydrogenase Complex With Nadh And 7-Oxo Glycochenodeoxycholic Acid
25 • 29% d'homologie sur 131 aa (position 53-183 aa) avec
Protein Data Bank: gi|2624497| correspondant à la protéine Cis-Biphenyl-2,3-Dihydrodiol-2,3-
Dehydrogenase From Pseudomonas Sp. Lb400 • 27% d'homologie sur 202 aa (position 6-212 aa) avec Non redundant PIR: pir|D69930| correspondant à la protéine 3-oxoacyl- acyl-carrier protein reductase homolog yoxD - Bacillus subtilis et avec Swissprot:
5 sp|P14802| correspondant à la protéine YOXD_BACSU
HYPOTHETICAL OXIDOREDUCTASE IN RTP-PELB INTERGENIC REGION (EC 1.-.-.-) (ORF238)
• 52% d'homologie sur 44 aa (position 353-396 aa) avec ιo Prodom (homologous domains detected in Swissprot):
2675 p34.2 (11) NLTP(5) DHB4(3) PX18(2) correspondant à la protéine LIPID-TRANSFER STEROL CARRIER SCP-2 NONSPECIFIC PRECURSOR ESTRADIOL BETA-DEHYDROGENASE 17-BETA- 15 HYDROXYSTEROID
• 27% d'homologie sur 183 aa (position 249-415 aa) avec Swissprot : sp|P51659| correspondant à la protéine DHB4_HUMAN ESTRADIOL 17 BETA-
20 DEHYDROGENASE 4 (EC 1.1.1.62) (17-BETA-HSD 4)
(17-BETA-HYDROXYSTEROID DEHYDROGENASE 4)
• 44% d'homologie sur 272 AA ( positions 12-280 AA ) avec la séquence g2072661 (Z95120) hypothetical
25 protein Rv3224 [Mycobacterium tuberculosis] Length =
282
• Homologie avec des NONSPECIFIC LIPID-TRANSFER PROTEIN PRECURSOR (NSL-TP): 35 % sur 106 AA ([318-417] ) avec la séquence SP:NLTP_BOVIN NONSPECIFIC LIPID-TRANSFER PROTEIN (STEROL CARRIER PROTEIN 2) (SCP-2). Length = 121 et 30% sur 133 AA [294-417] avec la séquence SP:NLTP_RAT NONSPECIFIC LIPID-TRANSFER
PROTEIN PRECURSOR (NSL-TP) (STEROL CARRIER PROTEIN 2) (SCP-2) (STEROL CARRIER PROTEIN X) (SCP-X) (SCPX).Length = 547
Fonction putative : L'ORF de 422 acides aminés possède des homologies avec différentes protéines enzymatiques putatives impliquées dans les mécanismes de deshydrogénation des sterols de plusieurs organismes: homme, souris, E. coli, S. cerevisiae, C. elegans. De plus nous avons pu mettre en évidence une homologie avec une séquence de la protéine SCP-2 impliquée dans le transport intracellulaire des lipides. De ce fait, le gène GS15231 code pour une protéine d'intérêt de par sa fonction possible dans le défaut de trafic intracellulaire du cholestérol chez les patients Tangier/FHD, ce qui renforce l'intérêt de l'étude du gène GS15231.
De plus le gène GS15231 est par sa localisation un gène candidat positionnel pour l'étude et la caractérisation du défaut génétique observé dans la maladie de Tangier ou le défaut familial en HDL.
Les polypeptides de séquences SEQ ID N° 139 et 140 sont susceptibles d'intervenir dans la régulation du flux du cholestérol, et plus particulièrement de la maladie de Tangier, dans des déficiences familiales en HDL, ou encore dans une maladie génétiquement liée au locus 9q31-34 du chromosome 9. Gène GS915528.
Acide(s) nucléique(s)
Il a été isolé selon l'invention deux ARNs messagers correspondant à un transcrit du gène désigné ici sous le n° GS915528. La première séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°25.
La séquence SEQ ID N°25 a une longueur de 3106 nucleotides.
Cette séquence comprend un cadre ouvert de lecture (ORF) partiel allant du nucléotide en position 1 au nucléotide en position 1272 de la séquence SEQ ID N°25.
Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 110).
La deuxième séquence nucléique de l'ADNC correspondant à ce transcrit constitue la séquence SEQ ID N° 26. La séquence SEQ ID N° 26 a une longueur de 3313 nucleotides.
Elle comprend un cadre ouvert de lecture (ORF) partiel allant du nucléotide en position 3 au nucléotide en position 1370, qui correspond aussi à la séquence codante. Un signal de polyadénylation débute au nucléotide en position 3280 de la séquence SEQ ID N° 26. Les homologies de séquence des la SEQ ID N° 26 ont été observées avec des séquences référencées dans la base de données GenBank (Version 116) :
- 99% d'identité nucléique sur 2755pb (position 119-2873) avec g7020444 AK000388 Homo sapiens cDNA FLJ20381 fis, clone
KAIA2329 Length = 2970 pb
- 99% d'identité nucléique avec un BAC en cours de séquençage g6514007 AC013568 Homo sapiens clone RP11-1 B9, WORKING DRAFT SEQUENCE 10 fragments non ordonnés Les analyses d'expression du transcrit de séquence SEQ ID N°25 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS915528 était exprimé dans le cerveau fœtal,
5 le foie, la prostate, le cœur, le placenta, l'utérus, le testicule et le cerveau.
De plus, une analyse de l'expression du transcrit par Northern blot, selon le protocole décrit de l'Exemple 1 , à l'aide de la sonde de séquence SEQ ID N°92, a révélé la présence de transcrits dans le blot
10 commercialisé par la Société Clontech (Réf. N° 7759-1 ).
La taille des transcrits détectés avec la sonde de séquence SEQ ID N°92 est respectivement de : - 1 ,9 kb, 3,2 kb et 3,8 kb dans le pancréas ; - 1 kb, 1 ,9 kb et 3,8 kb dans le cœur ;
15 - 1 kb, 1 ,9 kb et 3,2 kb dans le foie ; - 1 kb et 1 ,9 kb dans le rein ; - 1 ,9 kb dans le muscle squelettique et le cerveau. Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus
20 particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL.
Polypeptide codé par l'acide nucléique de séquence SEQ ID NO 25
25 Le cadre ouvert de lecture de la séquence d'acides nucléiques
SEQ ID N°25 code potentiellement pour un polypeptide de 424 aminoacides de longueur constituant la séquence SEQ ID N°141.
Homologies observées au niveau de la séquence protéique :
_> o Cette ORF de 424 aa possède des homologies de type motif avec des domaines conservés de différentes protéines tyrosine phosphatase dans différentes bases de données protéiques telles que :
• 49% d'homologie sur 364 aa (position 3-366 aa) avec des séquences de SP-TrEMBL (SP-TrEMBL, version 7, novembre 1998): sp|P91433|P91433 codé par l'ADNc YK65E9.3 de C. elegans et avec des séquences de Genpept: (traduction de Genbank v110 et 111 , dernière remise à jour le 7 mai 1999): gi|1708767| contenant un domaine trouvé dans la bande 4.1 , ezrin, moesin, radixin et talin chez C. elegans
• 44% d'homologie sur 322 aa (position 1-322 aa) sur des séquences de SP-TrEMBL (SP-TrEMBL, version 7, novembre 1998): sp|O43491 |O43491 PROTEIN 4.1-G
• 43% d'homologie sur 227 aa (position 7-233 aa) avec des séquences de PRODOM: (domaines homologues détectés dans Swissprot, version 34.2, novembre 1997): 894 p34.2 (29) MOES(4) RADI(3) EZRI(3) correspondant au domaine protéine tyrosine phosphatase des protéines MOESIN BAND P81 VILLIN-2 EZRIN RADIXIN impliquées dans l'organisation membranaire.
• 42% d'homologie sur 313 aa (position 9-321 aa) sur des séquences de Swissprot (version 36, dernière remise à jour du 3 mai 1999): sp|P29074|PTN4_HUMAN - protéine tyrosine phosphatase humaine MEG1 (EC 3.1 .3.48) . • 41 % d'homologie sur 320 aa (position 7-326 aa) avec des séquences de PIR: (SEQUENCES PIR NON REDONDANTES, VERSION 57) non-redondante: PIR: (Séquences PIR non redondantes, version 57)|S|JU0188 - protéine band 4.1 appartenant à la super-famille des protéines tyrosine phosphatase de souris, et des séquences de Swissprot (version 36, dernière remise à jour du 3 mai 1999): sp|P52963|NBL4_mouse - protéine NBL4 et des séquences de SP-TrEMBL (SP-TrEMBL, version 7, novembre 1998): sp|O57457| protéine similaire à la protéine band 4.1et des séquences de Genpept: (traduction de Genbank v110 et 111 , dernière remise à jour le 7 mai 1999): gi|466548| - protéine NBL4 de mus musculus
41 % d'homologie sur 314 aa (position 9-322 aa) sur des séquences de Swissprot (version 36, dernière remise à jour du 3 mai 1999) : sp|P11171 |41_HUMANPROTE/Λ/ 4.1 (BAND 4.1) (P4.1)
Polypeptide codé par l'acide nucléique de séquence SEQ ID N° 26
Le cadre ouvert de lecture de la séquence d'acide nucléique SEQ ID N° 26 code potentiellement pour un polypeptide de 455 acides aminés de longueur constituant la séquence SEQ ID N° 142.
Homologies observées au niveau de la séquence protéique : Cette ORF de 455 aa possède des homologies de type motif avec des domaines conservés de différentes protéines tyrosine phosphatase dans différentes bases de données protéiques telle que . • 50% d'homologie sur 374 aa (position 24-397 aa) avec SP-trEMBL: sp|P91433|P91433 CODED FOR BY C. ELEGANS CDNA YK65E9.3 et avec Genpept1 15: gi| 1708767| U80955 contenant un domaine trouvé dans la bande 4.1 , ezrin, moesin, radixin et talin chez c. elegans
• 45% d'homologie sur 333 aa (position 21-353 aa) sur SP-trEMBL: sp|O43491 |O43491 PROTEIN 4.1 -G.
10
• 43% d'homologie sur 227 aa (position 7-233 aa) avec Prodom: 894 p34.2 (29) MOES(4) RADI(3) EZRI(3) correspondant à la PROTEIN PHOSPHATASE PROTEIN-TYROSINE MOESIN BAND P81 VILLIN-2
15 EZRIN RADIXIN MEMBRANE-ORGANIZING
• 42% d'homologie sur 329 aa (position 24-352 aa) sur Swissprot38: sp|P29074|PTN4_HUMAN PROTEIN- TYROSINE PHOSPHATASE MEG1 (EC 3.1.3.48)
20 (PTPASE-MEG1 ) (MEG).
• 42% d'homologie sur 335 aa (position 23-357aa) avec PIR non-redondante: pir|S|JU0188 band 4.1 protein tyrosine-phosphatase superfamily member protein de
25 souris et Swissprot: sp|P52963|NBL4_mouse NBL4 protein et SP-trEMBL: sp|O57457| band 4.1-like protein 4 et Genpept: gi|466548| NBL4 mus musculus protein • 41 % d'homologie sur 332 aa (position 22-353 aa) sur Swissprot : sp|P11171 |41_HUMAN PROTEIN 4.1 (BAND 4.1) (P4.1).
Fonction putative :
Le gène GS915528 présente un intérêt pour I' -étude fonctionnelle de la maladie de Tangier et du FHD en ce sens qu'il s'agit à la fois d'un candidat positionnel et d'un gène codant pour une nouvelle protéine dont les fonctions putatives (tyrosine phosphatase) pourraient jouer un rôle dans la cascade de signalisation intracellulaire liée à l'efflux du cholestérol intracellulaire médié par les particules HDL, impliqué dans la maladie de Tangier et la déficience familiale en HDL (FHD).
Les polypeptides de séquences SEQ ID N° 141 et 142 sont susceptibles d'intervenir dans la régulation du flux du cholestérol, et plus particulièrement de la maladie de Tangier, dans des déficiences familiales en HDL, ou encore dans une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Gène GS99817
Acide(s) nucléique(s)
Il a été isolé selon l'invention deux ARNs messagers correspondant à un transcrit du gène désigné ici sous le n° GS99817.
La première séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°27.
La séquence SEQ ID N°27 a une longueur de 1539 nucleotides.
Cette séquence comprend un cadre ouvert de lecture (ORF) partiel allant du nucléotide en position 3 au nucléotide en position 698 de la séquence SEQ ID N°27. Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 1 10).
La seconde séquence nucléique de l'ADNc correspondant à ce transcrit constitute la séquence SEQ ID N° 28.
La séquence SEQ ID N° 28 a une longueur de 3404 nucleotides. Elle comprend un cadre ouvert de lecture (ORF) partiel allant du nucléotide en position 1 au nucléotide en position 792 de la séquence SEQ ID N° 28.
Des homologies de séquence de la SEQ ID N° 28 ont été retrouvées avec des séquences référencées dans la base de données GenBank (Version 1 16) :
- Identité de 97% sur 380 pb avec un BAC END CIT-HSP-2166G6.TR CIT-HSP Homo sapiens genomic clone 2166G6, genomic survey séquence Length = 380gi|2975337|gb|B93000.1 |B93000[2975337]
- Identité de 100% sur 315 pb avec un BAC END HS_2166_A2_D03_MR CIT Approved Human Genomic Sperm Library D Homo sapiens genomic clone Plate=2166 Col=6 Row=G, genomic survey séquence Length = 316 gi|3480271 |gb|AQ104915.1 |AQ104915[3480271]
Les analyses d'expression du transcrit de séquence SEQ ID N°27 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS99817 était exprimé dans le cerveau foetal. De plus, une analyse de l'expression du transcrit par Northern blot, selon le protocole décrit de l'Exemple 1 , à l'aide de la sonde de séquence SEQ ID N°93, a révélé la présence de transcrits dans le blot commercialisé par la Société Clontech (Réf. N° 7759-1 ).
La taille des transcrits détectés avec la sonde de séquence SEQ ID N°93 est respectivement de : - 1 ,5 kb, 2 kb et 4,4 kb dans le cœur et le cerveau ;
- .2 kb et 4,4 kb dans le pancréas ;
- 1 ,5 kb at 4,4 kb dans le rein et le muscle suqelettique.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Polypeptide codé par l'acide nucléique de séquence SEQ ID NO 27
Le cadre ouvert de lecture de la séquence d'acide nucléique SEQ ID N°27 code potentiellement pour un polypeptide de 232 aminoacides de longueur constituant la séquence SEQ ID N°143. Homologies observées au niveau de la séquence protéique :
27% d'homologie sur 211 aa (position 11-221 aa) avec des séquences deGenpept: (traduction de Genbank v110 et 111 , dernière remise à jour le 7 mai 1999): gi|3876730| et des séquences de TrEMBL (SP-TrEMBL, version 7, novembre 1998): sp|Q20021 | correspondant à la traduction de la séquence d'un cosmide de nématode F35C11.4 (Caenorhabditis elegans).
Polypeptide codé par l'acide nucléique de séquence SEQ ID N° 28
Le cadre ouvert de lecture de la séquence d'acide nucléique SEQ ID N° 28 code potentiellement pour un polypeptide de 263 acides aminés de longueur constituant la séquence SEQ ID N° 144. Il a été observé des homologies entre la séquence SEQ ID N° 144 et les séquences suivantes :
Homologies observées au niveau de la séquence protéique: 28% d'homologie sur 255 aa (position 1-255 aa) avec Genpept: gi|3876730| et trEMBL: sp|Q20021 | correspondant à la traduction de la séquence d'un cosmide de nématode F35C11.4 - (Caenorhabditis elegans).
Fonction putative : Ce gène est un candidat pour l'étude de la maladie de Tangier/FHD du fait de la localisation chromosomique.
Les polypeptides de séquences SEQ ID N° 143 et 144 sont susceptibles d'intervenir dans la régulation du flux du cholestérol, et plus particulièrement de la maladie de Tangier, dans des déficiences familiales en HDL, ou encore dans une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Gène GS916229.
Acide(s) nucléique(s)
Il a été isolé selon l'invention un ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS916229. La séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°29.
La séquence SEQ ID N°29 a une longueur de 792 nucleotides. Cette séquence comprend un cadre ouvert de lecture (ORF) allant du nucléotide en position 1 au nucléotide en position 203 de la séquence SEQ ID N°29.
Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 1 10).
Les analyses d'expression du transcrit de séquence SEQ ID N°29 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS916229 était exprimé dans le cerveau fœtal, le foie, le cerveau, le cœur, la prostate, le placenta, le foie fœtal, l'utérus, le testicule et le rein.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Polypeptide codé par l'acide nucléique de séquence SEQ ID NO 29
Le cadre ouvert de lecture de la séquence d'acides nucléiques SEQ ID N°29 code potentiellement pour un polypeptide de 68 aminoacides de longueur constituant la séquence SEQ ID N°145.
Aucune homologie significative avec BLAST n'a été retrouvée avec les séquences référencées dans les bases de données Swissprot
(version 36, dernière remise à jour du 3 mai 1999) et PRODOM:
(domaines homologues détectés dans Swissprot, version 34.2, novembre 1997).
Le polypeptide de séquence SEQ ID N° 145 est susceptible d'intervenir dans la régulation du flux du cholestérol, et plus particulièrement de la maladie de Tangier, dans des déficiences familiales en HDL, ou encore dans une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Gène GS92544 Acide(s) nucléique(s) Il a été isolé selon l'invention trois ARN messagers correspondant respectivement à un transcrit long et deux transcrits courts du gène désigné ici sous le n° GS92544.
La séquence nucléique de l'ADNc correspondant au transcrit long constitue la séquence SEQ ID N°30.
La séquence SEQ ID N°30 a une longueur de 2733 nucleotides.
Cette séquence comprend un cadre ouvert de lecture (ORF) partiel allant du nucléotide en position 1 au nucléotide en position 2160 de la séquence SEQ ID N°30.
La première séquence nucléique de l'ADNc correspondant au transcrit court constitue la séquence SEQ ID N°31.
La séquence SEQ ID N°31 a une longueur de 2694 nucleotides.
Cette séquence comprend un cadre ouvert de lecture (ORF) partiel allant du nucléotide en position 1 au nucléotide en position 2121 de la séquence SEQ ID N°31.
Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 110).
La seconde séquence nucléique de l'ADNc correspondant au second transcrit court constitue la séquence SEQ ID N° 32.
La séquence SEQ ID N° 32 a une longueur de 2765 nucleotides. Elle comprend un cadre ouvert de lecture complet allant du nucléotide en position 56 au nucléotide en position 2287 de la séquence SEQ ID N° 32. La séquence codante débute au nucléotide en position 410 et se termine au nucléotide en position 2160 de la séquence SEQ ID N° 32.. Le codon d'initiation de la traduction débute sur le nucléotide en position 410 de la séquence SEQ ID N° 32.
La séquence SEQ ID N° 32 possède des homologies avec les séquences référencées dans la base de données GenBank (Version 116) suivantes : • 100% d'homologie sur 2419 pdb (positions [485-2903] ) matchant avec les positions [ 1-2419] de la séquence g6807990 (AL137432 ) Homo sapiens mRNA; cDNA DKFZp761 E1824 (from clone DKFZp761E1824); partial cds , length=2438 pdb , déposée le 18- FEB-2000, sur Chromosome 9, et annotée " similaire au CR2 receptor "
• 97 % d'homologie sur 157 pdb (positions [1271-1427] )avec les positions [431-277] de g3590696 (AQ192074) HS_3228_B2_H11_T7 CIT Approved Human Genomic Sperm Library
D Homo sapiens genomic clone Plate=3228 Col=22 Row=P, genomic survey séquence. Length = 513
• Plusieurs fragments de 99% à 100% d'identité avec la séquence gi|6982613| |AL138756 : Homo sapiens chromosome 9 clone RP11-
4O1 map q31.3-33.1 , *** SEQUENCING IN PROGRESS ***, 41 unordered pièces
• Plusieurs fragments de 100% d'identité avec la séquence g7230026 (AC010824) Homo sapiens clone RP11-5A23, *** SEQUENCING IN
PROGRESS ***, 32 unordered pièces. Length = 162010
Les analyses d'expression du transcrit long et du transcrit court ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS92544 était exprimé dans le cerveau foetal.
De plus, une analyse de l'expression de ces transcrits par Northern blot, à l'aide respectivement des sondes de séquence SEQ ID N°94, a révélé la présence de transcrits dans le blot commercialisé par la Société Clontech (Réf. N° 7759-1). La taille des transcrits détectés avec la sonde de séquence SEQ ID N°94 est respectivement de 4 kb et de 6 kb dans le placenta.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Polypeptides codés par les acides nucléiques de séquences SEQ ID NO 30 et 31
Le cadre ouvert de lecture de la séquence d'acides nucléiques SEQ ID N°30 (transcrit long) code potentiellement pour un polypeptide de 720 aminoacides de longueur constituant la séquence SEQ ID N°146. Le cadre ouvert de lecture de la séquence d'acides nucléiques
SEQ ID N°31 (transcrit court) code potentiellement pour un polypeptide de 707 aminoacides de longueur constituant la séquence SEQ ID N°147.
Homologies observées au niveau de la séquence protéique: Cette séquence possède des homologies significatives des positions 139-194 aa / 199 - 254 aa avec des domaines conservés sushi.HMM de la base de données Pfam (HMMER 2.0 (June 1998).
Cette ORF possède une annotation dans Genpept: (traduction de Genbank v110 et 111 , dernière remise à jour le 7 mai 1999) et TrEMBL (SP-TrEMBL, version 7, novembre 1998) avec la traduction BlastX de nombreuses séquences telles que :
• 42% d'homologie sur 115 aa (position 2-116 aa) avec des séquences de gi|340164| précurseur humain de l'uromoduline et gi|340166| uromoduline [Homo sapiens] sur Genpept: (traduction de Genbank v110 et 111 , dernière remise à jour le 7 mai 1999)
• 37% d'homologie sur 141 a (position 2-142 aa) avec des séquences de SP-TrEMBL (SP-TrEMBL, version 7, novembre 1998): sp|P87363|P87363 un frament de la FIBRILLINE-1.
• 30% d'homologie sur 234 aa (position 7-240 aa) avec des séquences de Genpept: (traduction de Genbank v110 et 111 , dernière remise à jour le 7 mai 1999): gi|306746| et gi|1335064| fibrilline humaine.
• 30% d'homologie sur 194 aa (position 8-201 aa) avec des séquences de SP-TrEMBL (SP-TrEMBL, version 7, novembre 1998): sp|O35806|O35806 LATENT TGF- BETA BINDING PROTEIN-2 LIKE PROTEIN
Polypeptide codé par l'acide nucléique de séquence SEQ ID N° 32 Le cadre ouvert de lecture de la séquence d'acide nucléique SEQ
ID N° 32 code potentiellement pour un polypeptide de 713 acides aminés de longueur constituant la séquence SEQ ID N° 148.
Des homologies de la séquence SEQ ID N° 148 ont été observées avec des séquences référencées dans des bases de données. Les homologies sont les suivantes :
• homologie avec Genpept: gi|340164| uromodulin precursor [Homo sapiens] et Genpept: gi|340166| uromodulin [Homo sapiens]
• homologie avec SP-trEMBL: sp|P87363|P87363 FIBRILLIN-1 (FRAGMENT). • homologie avec Genpept: gi|306746| et gi|1335064| fibrillin [Homo sapiens]
• homologie avec SP-trEMBL: sp|O35806|O35806 LATENT TGF-BETA BINDING PROTEIN-2 LIKE PROTEIN
• homologie avec g784994 (X81479) EMR1 [Homo sapiens] Length = 886
• homologie avec g4379069 (X94630) seven-span transmembrane protein [Homo sapiens] • Autres homologies avec des protéines telles que :
EMR1 , CD97, fibulins, complément receptor...
La séquence SEQ ID N° 148 possède des motifs caractéristiques tels que 3 domaines EGF dont 2 calcium binding, un site de tyrosine phosphatase, un domaine hydrophobe en N-terminal ; Nombreux sites de glycosylation ; 2 camp sites de phosphorylation ; 2sites Asp hydroxylation.
Fonction putative : De par son homologie avec l'uromoduline, le produit du gène
GS92544 est putativement une protéine associée à la membrane comme l'uromoduline qui est une protéine ancrée au moyen d'un glycosylphosphatidylinositol (GPI). Ces résultats basés sur les études d'homologie de séquence partielles en acides aminés suggèrent que le produit du gène GS92544 pourrait être associé à la membrane par une liaison aux lipides membranaires et donc pourrait être associé au déficit d'efflux du cholestérol cellulaire observé chez les patients FHD ou Tangier.
Les polypeptides de séquences SEQ ID N° 146, 147 et 148 sont susceptibles d'intervenir dans la régulation du flux du cholestérol, et plus particulièrement de la maladie de Tangier, dans des déficiences familiales en HDL, ou encore dans une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Gène GS930824
Acide(s) nucléique(s)
Il a été isolé selon l'invention deux ARNs messagers correspondant à un transcrit du gène désigné ici sous le n° GS930824.
La première séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°33.
La séquence SEQ ID N°33 a une longueur de 4745 nucleotides.
Cette séquence comprend un cadre ouvert de lecture (ORF) partiel allant du nucléotide en position 2 au nucléotide en position 514 de la séquence SEQ ID N°33. Homologies observées au niveau de la séquence nucléotidique:
90% d'homologie avec Genbank :AF1 15435, syntaxine 17 de rat sur 510 pb (position 22-531 pb).
La seconde séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N° 34 . La séquence SEQ ID N° 34 a une longueur de 5241 nucleotides.
Elle comprend un cadre ouvert de lecture (ORF) complet allant du nucléotide en position 57 au nucléotide en position 1013 de la séquence SEQ ID N°34. La séquence codante débute au nucléotide en position 105 et se termine au nucléotide en position 1013 de la séquence SEQ ID N° 34. Le codon d'initiation de la traduction débute sur le nucléotide en position 105 de la séquence SEQ ID N°34.
La séquence SEQ ID N° 34 possède des homologies avec des séquences référencées dans la base de données GenBank (Version 1 16). Il s'agit des homologies suivantes :
• 90% d'homologie avec Genbank :AF115435, syntaxine 17 de rat sur 510 pb (position 22-531 pb). • 92 % d'homologie sur 475 pdb (positions [540-1036] ) et 84% sur 406 pdb (positions [102-507]) avec la séquence g4206160 . ( AF115435 ) Rattus norvegicus syntaxin 17 mRNA, complète cds. Length = 1678;
• 98% d'homologie sur 431 pdb (positions [1899-2329]) et 91% sur 62 pdb ( positions [1819-1880]) avec la séquence g4652677 (AQ474416) CITBI-E1-2588I9.TF CITBI-E1 Homo sapiens genomic clone 258819, genomic survey séquence. Length = 525;
• 99% d'homologie sur 331 pdb ( positions [6394-6724]) avec la séquence g2929043 ( B87911) RPCI11-30N20.TP RPCI-11 Homo sapiens genomic clone RPCI-11-30N20, genomic survey séquence. Length = 425;
• 99% d'homologie sur 2662 pdb ( positions [20-2681] ) avec la séquence g7020892 ( AK000658) Homo sapiens cDNA FLJ20651 fis, clone KAT01814.Length = 2678; Submitted (15-FEB-2000) to the DDBJ/EMBL/GenBank databases, projet NEDO.
Les analyses d'expression du transcrit de séquence SEQ ID N°33 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS930824 était exprimé dans le cerveau fœtal, le foie, le cerveau, le cœur, la prostate, le placenta, le foie fœtal, l'utérus, le testicule, le rein et le muscle squelettique.
De plus, une analyse de l'expression du transcrit par Northern blot, selon le protocole décrit de l'Exemple 1 , à l'aide respectivement des sondes de séquence SEQ ID N° 95 et 96, a révélé la présence de transcrits dans le blot commercialisé par la Société Clontech (Réf. N° 7759-1 ).
La taille des transcrits détectés avec la sonde de séquence SEQ ID N°95 est respectivement de :
- 1 ,1 kb, 1 ,6 kb, 2,6 kb, 4,9 kb.et 7 kb dans le pancréas, le rein, le muscle squelettique, le foie, le cerveau et le cœur ;
- 1 ,6 kb, 2,6 kb, 4,9 kb.et 7 kb dans le poumon et le placenta.
La taille des transcrits détectés avec la sonde de séquence SEQ ID N°96 est respectivement de : - 1 ,35 kb, 2,4 kb, 3,5 kb et 10 kb dans le placenta ; - 1 ,35 kb et 2,4 kb dans le pancréas, le rein et le foie ; - 1 ,35 kb dans le poumon ;
- 2,4 kb dans le muscle squelettique, le cerveau et le cœur.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL.
Polypeptide codé par l'acide nucléique de séquence SEQ ID NO 33
Le cadre ouvert de lecture de la séquence d'acides nucléiques SEQ ID N°33 code potentiellement pour un polypeptide de 170 aminoacides de longueur constituant la séquence SEQ ID N°149. Aucune homologie significative avec BLAST n'a été retrouvée avec les séquences référencées dans les bases de données Swissprot (version 36, dernière remise à jour du 3 mai 1999) et PRODOM: (domaines homologues détectés dans Swissprot, version 34.2, novembre 1997). Homologies observées au niveau de la séquence protéique: 72% d'homologie avec des séquences de Genpept: (traduction de Genbank v110 et 111 , dernière remise à jour le 7 mai 1999) :gi4206161 sur 170 acides aminés (position 1-170 aa) gi4206161 est la traduction protéique du gène codant pour la syntaxine 17 de rat.. Genpept: (traduction de Genbank v110 et 111 , dernière remise à jour le 7 mai 1999) :
Polypeptide codé par l'acide nucléique de séquence SEQ ID N° 34
Le cadre ouvert de lecture de la séquence SEQ ID N° 34 code potentiellement pour un polypeptide de 318 acides aminés constituant la séquence SEQ ID N° 150.
Les homogies suivantes ont été observées :
- 72% d'homologie avec Genpept :gi4206161 sur 170 acides aminés (position 1-170 aa). Genpept :gi4206161 est la traduction protéique du gène codant pour la syntaxine 17 de rat.
Homologie protéique sur Genpeptl 15, Trembl et PIR :
- 75% d'homologie sur 302 AA ( positions [105-1010] ) avec toute la longeur la séquence traduite g4206161 (AF115435) syntaxin 17
[Rattus norvegicus]Length = 301 ; de la g4206161
Le polypeptide de séquence SEQ ID N° 150 possède un motif caractéristique d'une syntaxine entre les nucleotides en positions 1 et 243 du cadre de lecture ouvert.
Fonction putative :
Les polypeptides de séquence SEQ ID N°149 et 150 s'apparentent donc à une protéine de la famille des syntaxines impliquée dans le transport vésiculaire intracellulaire. Ce mécanisme sous-tendu par un adressage spécifique médié par ces protéines est d'intérêt par rapport à la maladie de Tangier/FHD qui est décrite par un défaut du mécanisme de transport et de translocation des pools de cholestérol intracellulaire vers les particules HDL accepteurs. Les polypeptides de séquence SEQ ID N°149 et 150 sont donc susceptibles d'intervenir dans une étape importante impliquée dans le transport inverse du cholestérol par les HDL.
Les polypeptides de séquences SEQ ID N° 149 et 150 sont également susceptibles d'intervenir dans une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Gène GS93382.
Acide(s) nucléique(s)
Il a été isolé selon l'invention un ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS93382.
La séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°35.
La séquence SEQ ID N°35 a une longueur de 3014 nucleotides.
Cette séquence comprend un cadre ouvert de lecture (ORF) partiel allant du nucléotide en position 3 au nucléotide en position 371 de la séquence SEQ ID N°35.
Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 1 10).
Les analyses d'expression du transcrit de séquence SEQ ID N°35 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1 . Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS93382 était exprimé dans le cerveau foetal.
De plus, une analyse de l'expression du transcrit par Northern blot, selon le protocole décrit de l'Exemple 1 , à l'aide de la sonde de séquence SEQ ID N°97, a révélé la présence de transcrits dans le blot commercialisé par la Société Clontech (Réf. N° 7759-1).
La taille des transcrits détectés avec la sonde de séquence SEQ ID N°97 est respectivement de : - 2 kb et 7,5 kb dans le cerveau ;
- 2 kb dans le pancréas, le rein, le muscle squelettique, le foie et le cœur.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus
9q31-34 du chromosome 9.
Polypeptide codé par l'acide nucléique de séquence SEQ ID NO 35
Le cadre ouvert de lecture de la séquence d'acides nucléiques SEQ ID N°35 code potentiellement pour un polypeptide de 123 aminoacides de longueur constituant la séquence SEQ ID N°151.
Aucune homologie significative avec BLAST n'a été retrouvée avec les séquences référencées dans les bases de données Swissprot (version 36, dernière remise à jour du 3 mai 1999), PRODOM: (domaines homologues détectés dans Swissprot, version 34.2, novembre 1997), Genpept: (traduction de Genbank v110 et 111 , dernière remise à jour le 7 mai 1999), Swissprot (version 36, dernière remise à jour du 3 mai 1999), TrEMBL (SP-TrEMBL, version 7, novembre 1998), PIR: (SEQUENCES PIR NON REDONDANTES, VERSION 57) et PDB: (PROTEIN DATA BANK, FEVRIER 1999).
Le polypeptide de séquence SEQ ID N° 151 est susceptible d'intervenir dans la régulation du flux du cholestérol, et plus particulièrement de la maladie de Tangier, dans des déficiences familiales en HDL, ou encore dans une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Gène GS946300.
Acide(s) nucléique(s)
Il a été isolé selon l'invention un ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS946300.
La séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°36.
La séquence SEQ ID N°36 a une longueur de 1575 nucleotides.
Cette séquence comprend un cadre ouvert de lecture (ORF) partiel allant du nucléotide en position 3 au nucléotide en position 176 de la séquence SEQ ID N°36. Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 110).
Les analyses d'expression du transcrit de séquence SEQ ID N°36 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS946300 était exprimé dans le cerveau fœtal, le foie, le cerveau, le cœur, la prostate, le placenta, le foie fœtal, l'utérus, le testicule et le rein.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31-34 du chromosome 9. Polypeptide codé par l'acide nucléique de séquence SEQ ID NO 36
Le cadre ouvert de lecture de la séquence d'acides nucléiques SEQ ID N°36 code potentiellement pour un polypeptide de 58 aminoacides de longueur constituant la séquence SEQ ID N°152. Aucune homologie significative avec BLAST n'a été retrouvée avec les séquences référencées dans les bases de données Swissprot (version 36, dernière remise à jour du 3 mai 1999) et PRODOM: (domaines homologues détectés dans Swissprot, version 34.2, novembre 1997). Le polypeptide de séquence SEQ ID N°152 est susceptible d'intervenir dans la régulation du flux de cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL.
Le polypeptide de séquence SEQ ID N°152 est donc susceptible d'intervenir dans une étape importante impliquée dans le transport inverse du cholestérol par les HDL.
Gène GS937345. Acide(s) nucléique(s)
Il a été isolé selon l'invention deux ARN messagers correspondant respectivement à un transcrit long et un transcrit court du gène désigné ici sous le n° GS937345.
Une première séquence nucléique de l'ADNc correspondant au transcrit long a été isolée et constitue la séquence SEQ ID N°37.
La séquence SEQ ID N°37 a une longueur de 1607 nucleotides.
Cette séquence comprend un cadre ouvert de lecture (ORF) partiel allant du nucléotide en position 2 au nucléotide en position 109 de la séquence SEQ ID N°37. A partir de la séquence SEQ ID N° 37, deux amorces de séquences respectives SEQ ID N° 104 et 105 ont été synthétisées et ont permis d'amplifier un ADNc à partir d'une banque d'ARNm polyA+ de différents tissus humains commercialisée par la société Clontech. La séquence d'ADNc amplifiée à l'aide des amorces de séquence
SEQ ID N° 104 et 105 constitue la séquence SEQ ID N° 38. La séquence SEQ ID N° 38 a une longueur de 1161 nucleotides.
Des homologies ont été retrouvées entre la séquence SEQ ID N° 38 et des séquences référencées dans la base de données GenBank (Version 116). Les homologies sont les suivantes :
• 99% d'homologie sur 1096 pdb (positions [1-1093]) matchant avec les positions [8-1102] de la séquence gi|6841231 |gb|AF161409.1 |AF161409[6841231]Homo sapiens HSPC291 mRNA, partial cds. Length = 1102; unpublished ;
• 99% sur 1025 pdb (positions [1 19-1 148]) matchant avec les positions [8-1030] de la séquence gi|6841235|gb|AF16141 1.1 |AF16141 1 [6841235] Homo sapiens
HSPC293 mRNA, partial cds. Length = 1045; unpublished ;
• 99% sur 1 161 pdb (positions [1-1 161] ) matchant avec les positiosn [43-1202] de la séquence gi|7020861 |dbj|AK000637.1 |AK000637[7020861] Homo sapiens cDNA FLJ20630 fis, clone KAT03874. Length = 1538; déposée le 22-
FEB-2000, projet NEDO ; unpublished • 92 % sur 1003 pdb (positions [1-1043]) et 94% sur 38 pdb (positions [1048-1085]) avec la séquence gb|AC021286.2|AC021286[6899766] Homo sapiens clone RP11- 21 H22, WORKING DRAFT SEQUENCE, 19 unordered pièces. Length = 175143 ;
La séquence nucléique de l'ADNc correspondant au transcrit court constitue la séquence SEQ ID N°39.
La séquence SEQ ID N°39 a une longueur de 1332 nucleotides.
Aucune identité de séquence n'a été retrouvée pour les séquences respectives du transcrit long et du transcrit court lors d'une recherche dans la base de données GenBank (Version 110).
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Polypeptide codé par l'acide nucléique de séquence SEQ ID NO 37
Le cadre ouvert de lecture partiel du transcrit long de séquence d'acides nucléiques SEQ ID N°37 code potentiellement pour un polypeptide de 36 aminoacides de longueur constituant la séquence SEQ ID N°153.
Homologies observées au niveau de la séquence nucléotidique: 41 % d'identité sur 22 aa (position 6 à 29 aa) avec des séquences de Swissprot (version 36, dernière remise à jour du 3 mai 1999): sp|P23596| PRTD_ERWCH Proteases sécrétion ATP- Binding protein PRTD. Ce gène est un candidat pour l'étude de la maladie de Tangier/FHD du fait de la localisation chromosomique.
Gène GS99556 Acide(s) nucléique(s)
Il a été isolé selon l'invention deux ARN messagers correspondant respectivement à un transcrit long et à un transcrit court du gène désigné ici sous le n° GS99556.
La séquence nucléique de l'ADNc correspondant au transcrit long constitue la séquence SEQ ID N°40.
La séquence SEQ ID N°40 a une longueur de 10419 nucleotides.
Cette séquence comprend un cadre ouvert de lecture (ORF) partiel allant du nucléotide en position 2 au nucléotide en position 1954 de la séquence SEQ ID N°40. Le codon d'initiation (ATG) débute au nucléotide en position 29 du transcrit long de séquence SEQ ID N°40.
La séquence nucléique de l'ADNc correspondant au transcrit court constitue la séquence SEQ ID N°41. La séquence SEQ ID N°41 a une longueur de 1813 nucleotides.
Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 1 10).
Les analyses d'expression du transcrit de séquence SEQ ID N°40 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS99556 était exprimé dans le cerveau fœtal, le foie, le cerveau, le cœur, la prostate, le placenta et le foie fœtal. De plus, une analyse de l'expression du transcrit par Northern blot, selon le protocole décrit de l'Exemple 1 , à l'aide respectivement des sondes de séquence SEQ ID N°98 et SEQ ID N°99, a révélé la présence de transcrits dans le blot commercialisé par la Société Clontech (Réf. N° 7759-1 ).
La taille des transcrits détectés avec la sonde de séquence SEQ ID N°98 est respectivement de :
- 2,6 kb , 4,2 kb, 5 kb et 10 kb dans le cerveau ;
- 2,6 kb et 5 kb dans le foie, le poumon, le placenta et le cœur ; - 2,6 kb et 5 kb dans le rein ;
- 2,6 kb dans le muscle squelettique ;
- 5 kb dans le pancréas.
La taille des transcrits détectés avec la sonde de séquence SEQ ID N°99 est respectivement de :
- 2,2 kb dans le foie ;
- 2,4 kb et 4,4 kb dans le cœur ;
- 9 kb dans le cerveau, le placenta, le rein, le pancréas et le poumon.
La taille des transcrits détectés avec la sonde de séquence SEQ
ID N° 100 est respectivement de :
- 5 kb et 7 kb dans le placenta et le cœur ;
- 5 kb dans le cerveau, le rein et le pancréas.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31-34 du chromosome 9. Polypeptide codé par l'acide nucléique de séquence SEQ ID NO 40
Le cadre ouvert de lecture partiel de la séquence d'acides nucléiques SEQ ID N°40 code potentiellement pour un polypeptide de 651 aminoacides de longueur constituant la séquence SEQ ID N°154. Homologies observées au niveau de la séquence protéique : Cette ORF possède des homologies avec des séquences de Genpept: (traduction de Genbank v110 et 111 , dernière remise à jour le 7 mai 1999) et de TrEMBL (SP-TrEMBL, version 7, novembre 1998) (traduction BlastX des séquences suivantes) :
• 32% d'homologie sur 403 aa dansGenpept: (traduction de Genbank v110 et 111 , dernière remise à jour le 7 mai 1999) avec gi|4529890| NG22 [Homo sapiens]
• 25% d'homologie sur 693 aa dans Genpept: (traduction de Genbank v1 10 et 1 1 1 , dernière remise à jour le 7 mai 1999) avec gi|3986770| NG22 [Mus musculus]
24% d'homologie sur 683 aa dansGenpept: (traduction de Genbank v1 10 et 1 1 1 , dernière remise à jour le 7 mai 1999) avec gi|1072187| correspondant à l'ADNc CEESB82F de C elegans
24% d'homologie sur 683 aa avec TrEMBL (SP- TrEMBL, version 7, novembre 1998) sp|Q20026| codé par l'ADNc CEESB82F de C elegans
Fonction putative : Ce gène est un candidat pour l'étude de la maladie de Tangier/FHD du fait de la localisation chromosomique.
Le polypeptide de séquence SEQ ID N° 154 est susceptible d'intervenir dans la régulation du flux du cholestérol, et plus particulièrement de la maladie de Tangier, dans des déficiences familiales en HDL, ou encore dans une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Gène GS96663.
Acide(s) nucléique(s)
Il a été isolé selon l'invention un ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS96663. Six séquences nucléiques représentatives de ce transcrit ont été déterminées : La première séquence nucléique partielle de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°42.
La séquence SEQ ID N°42 a une longueur de 1377 nucleotides.
La seconde séquence nucléique partielle de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°43.
La séquence SEQ ID N°43 a une longueur de 452 nucleotides.
La troisième séquence nucléique partielle de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°44. La séquence SEQ ID N°44 a une longueur de 562 nucleotides.
La quatrième séquence nucléique partielle de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°45.
La séquence SEQ ID N°45 a une longueur de 1766 nucleotides. Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 110).
A partir de la séquence SEQ ID N° 42, on a synthétisé deux amorces nucléotidiques, respectivement les amorces de séquences SEQ ID N° 106 et 107.
A partir de la séquence SEQ ID N° 43, on a synthétisé une amorce nucléotidique de séquence SEQ ID N° 108.
A partir de la séquence SEQ ID N° 45, on a synthétisé deux amorces nucléotidiques, respectivement les amorces de séquences SEQ ID N° 109 et 110.
Ces amorces ont permis d'amplifier une cinquième et une sixième séquence nucléotidique représentatives du transcrit du gène GS96663.
La cinquième séquence nucléique correspondant au transcrit du gène GS96663 constitue la séquence SEQ ID N° 46. La séquence nucléique SEQ ID N° 46 a une longueur de 601 nucleotides.
La sixième séquence nucléique correspondant au transcrit du gène GS96663 constitue la séquence SEQ ID N° 47. La séquence SEQ
ID N° 47 a une longueur de 3706 nucleotides. Elle comprend un cadre ouvert de lecture partiel allant du nucléotide en position 1 au nucléotide en position 3202 de la séquence SEQ ID N° 47.
Des homologies ont été observées entre la séquence SEQ ID N° 47 et des séquences référencées dans la base de données GenBank (Version 116). Ces homologies sont les suivantes :
99 % d'homologie sur 2423 pdb (positions [1030-3451]) matchant avec les positions [1-2419 ] de la séquence gi|5102585|emb|AL079279.1 |HST000009[5102585] Homo sapiens mRNA full length insert cDNA clone EUROIMAGE 248114 . Length = 2450 ; /chromosome="9" /map="D9S176-D9S279" ; déposée le 14- JUN-1999 ; Unpublished. 98% sur 1623 pdb (positions [1946-3559] ) matchant avec les positions [16-1638] de la séquence g3012351 (176197 ) Séquence 1 from patent US 5691 147. Length • = 1638 pdb ; déposée le 03-APR-1998 ; AUTHORS : Draetta.G. and Gyuris.J. TITLE : CDK4 binding assay JOURNAL : Patent: US 5691 147-A 1 25-NOV-1997;
• Différents fragments d'homologie de 99% a 100% sur 2372 pdb (positions [1 -2372]) et de 97% a 100% sur 1 160 pdb (positions [2547-
3706]) avec la séquence gi|7228016|emb|AL158158.3|AL158158[7228016] ; Homo sapiens chromosome 9 clone RP11-427L11 map q31.2-32, *** SEQUENCING IN PROGRESS ***, 37 unordered pièces ; déposée le 08-MAR-2000 ;
Les analyses d'expression du transcrit des séquences SEQ ID N°42 à 47 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GSS96663 était exprimé dans le cerveau fœtal, le foie, le cerveau, le cœur, la prostate, le placenta, le foie fœtal, l'utérus, le testicule, le rein et le muscle squelettique.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL. Polypeptide codé par l'acide nucléique de séquence SEQ ID N" 47
Le cadre ouvert de lecture partiel de la séquence d'acide nucléique SEQ ID N° 47 code potentiellement pour un polypeptide de 1066 acides aminés de longueur qui constitue la séquence SEQ ID N° 155..
Des homologies entre la séquence SEQ ID N° 155 et des séquences répertoriées dans les bases de donneees. Ces homologies sont les suivantes :
• 27% d'homologie sur 1068 AA avec des séquences de type " complément receptor " CR1 (g30186 ; g809019 ; g451303 ;g306680 ) et CR2
(g18192 ;g181940 ;g599776)
• Homologie de 24% sur environ 1000 AA avec des séquences "complément facteur H " ; séquences gi|31965|emb|CAA68704.1 |[31965] (Y00716) factor H [Homo sapiens], PIR :NBHUH et PIR :NBMSH ; EM:Q14006 et EM :Q61408.
• Homologie de 25% sur 900 AA avec les séquences de
P-selectin et E-selectin : séquences sp|p16581 |lem2_human e-selectin precursor (endothelial leukocyte adhésion molécule 1 ) (elam-1 ) (leukocyte- endothelial cell adhésion molécule 2) (Iecam2) (cd62e) et sp|p16109|lem3_human p-selectin precursor (granule membrane protein 140) (gmp-140) (padgem) (cd62p) (leukocyte-endothelial cell adhésion molécule 3) (Iecam3) et avec pir non-redondante: pir|s|a30359 p- selectin precursor - human.. 24% d' homologie sur 637 AA avec la séquence g183391 (M25322) granule membrane protein-140 (GMP-140) precursor [Homo sapiens] , Length = 830
• Homologie avec la " cell adhésion molécule " trEMBL: sp|Q28290|Q28290 CELL ADHESION MOLECULE PRECURSOR (FRAGMENT).
• Différents fragments d'homologie de 25% a 29% sur la séquence " apolipoprotein H precursor - human PIR:NBHU Length = 345; apolipoprotein H precursor - human. avec une homologie de 29% sur 256 AA.
• Homologie avec des séquences " membrane cofacteur protein cofacteur " (PIR :S01896,
PIR :I54479, PIR :A57278 et EM :P79138,
EM :Q9Z0M4, EM .019121) et EM :O62837 : membrane cofacteur protéine CD46.
• Différents fragments (de 400 a 500 AA) d'homologie de
25% a 27% avec la séquence PIR:T16833 hypothetical protein T07H6.5 - Caenorhabditis elegans retrouvée dans genpept (g1255889(U53344).
Fonction putative : Le produit du gène GS96663, de par son homologie en acides aminés avec les précurseurs de la P-sélectine et de la E-sélectine humaines, s'apparente à cette classe de protéines membranaires. Son rôle dans l'efflux du cholestérol intracellulaire, médié par des protéines membranaires n'est pas exclu d'autant que le gène est localisé dans l'interval génétique défini par clonage positionnel.
Le polypeptide de séquence SEQ ID N° 155 est susceptible d'intervenir dans la régulation du flux du cholestérol, et plus particulièrement de la maladie de Tangier, dans des déficiences familiales en HDL, ou encore dans une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Gène GS941675.
Acide(s) nucléique(s) II a été isolé selon l'invention un ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS941675. Deux séquences nucléiques sont représentatives de ce transcrit :
La première séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°48. La séquence SEQ ID N°48 a une longueur de 373 nucleotides.
La seconde séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°49.
La séquence SEQ ID N°49 a une longueur de 459 nucleotides.
Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 110).
La troisième séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N° 50.
La séquence SEQ ID N° 50 a une longueur de 2575 nucleotides Des homologies entre la séquence SEQ ID N° 50 et des séquences référencées dans la base de données GenBank (Version 1 16) ont été observées. Ces homologies sont les suivantes :
- 98% d'identité sur 720 pb avec un BAC END g6348761 AQ892571 HS_3143_A1_G01_T7C CIT Approved Human Genomic Sperm Library lenght 848pb
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus
9q31 -34 du chromosome 9.
Gène GS929341.
Acide(s) nucléique(s)
Il a été isolé selon l'invention un ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS929341. Deux séquences nucléiques représentatives de ce transcrit ont été déterminées. La première séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°51.
La séquence SEQ ID N°51 a une longueur de 231 nucleotides.
La seconde séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°52.
La séquence SEQ ID N°52 a une longueur de 344 nucleotides. Cette séquence comprend un cadre ouvert de lecture (ORF) partiel allant du nucléotide en position 3 au nucléotide en position 131 de la séquence SEQ ID N°52. Aucune identité avec les séquences SEQ ID N° 51 et 52 n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 110).
La troisième séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N° 53.
La séquence SEQ ID N° 53 a une longueur de 402 nucleotides. Cette séquence comprend un cadre ouvert de lecture (ORF) partiel allant du nucléotide en position 1 au nucléotide en position 188 de la séquence SEQ ID N° 53.
Aucune identité avec les séquences SEQ ID N° 51 à 53 n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 116).
Les analyses d'expression du transcrit des séquences SEQ ID
N°51 et 52 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS929341 était exprimé dans le cerveau fœtal, le foie, le cerveau, le cœur, la prostate, le placenta, le foie fœtal, l'utérus, le testicule, le rein, le muscle squelettique et le poumon.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus
9q31-34 du chromosome 9.
Polypeptide codé par l'acide nucléique de séquence SEQ ID NO 52
Le cadre ouvert de lecture de la séquence d'acide nucléique SEQ ID N°52 code potentiellement pour un polypeptide de 43 aminoacides de longueur constituant la séquence SEQ ID N°156. Aucune homologie significative avec BLAST n'a été retrouvée avec les séquences référencées dans les bases de données Swissprot
(version 36, dernière remise à jour du 3 mai 1999) et PRODOM:
(domaines homologues détectés dans Swissprot, version 34.2, novembre 1997).
Polypeptide codé par l'acide nucléique de séquence SEQ ID N° 53
Le cadre ouvert de lecture de la séquence d'acide nucléique SEQ ID N° 53 code potentiellement pour un polypeptide de 61 acides aminés de longueur constituant la séquence SEQ ID N° 157.
Aucune homologie significative avec BLAST n'a été retrouvée avec les séquences référencées dans les bases de données Swissprot (version 38), PIR (Version 62, Septembre 1999), trEMBL (Version de Août 1999) et Gen Pept (Version 115). Les polypeptides de séquences SEQ ID N°156 et 157 sont susceptibles d'intervenir dans la régulation du flux du cholestérol, et plus particulièrement de la maladie de Tangier, dans des déficiences familiales en HDL, ou encore dans une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Gène GS915742. Acîde(s) nucléique(s)
Il a été isolé selon l'invention un ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS915742. Trois séquences nucléiques représentatives de ce transcrit ont été déterminées.
La première séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°54.
La séquence SEQ ID N°54 a une longueur de 228 nucleotides. La seconde séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°55.
La séquence SEQ ID N°55 a une longueur de 270 nucleotides.
La troisième séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N° 56.
La séquence SEQ ID N° 56 a une longueur de 1 130 nucleotides.
Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Versions 1 10 et 1 16).
Les analyses d'expression du transcrit des séquences SEQ ID
N°54 et 55 ont été réalisées par RT PCR, comme décrit dans l'Exemple
1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS915742 était exprimé dans le cerveau fœtal, le foie, le placenta et le rein.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Gène GS913018.
Acide(s) nucléique(s)
Il a été isolé selon l'invention un ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS913018. Deux séquences représentatives de ce transcrit sont représentées ci-après. La première séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°57. La séquence SEQ ID N°57 a une longueur de 463 nucleotides.
La seconde séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°58. La séquence SEQ ID N°58 a une longueur de 289 nucleotides.
Aucune identité de séquence avec les séquences SEQ ID N° 57 et 58 n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 110).
A partir de la séquence SEQ ID N° 57, on a synthétisé deux amorces nucléotidiques, respectivement les amorces de séquences SEQ ID N° 111 et 112.
A partir de la séquence SEQ ID N° 58, on a synthétisé deux amorces nucléotidiques, respectivement les amorces de séquences SEQ ID N° 113 et 114. .Les amorces de séquences SEQ ID N° 111 à 114 ont permis d'amplifier un ADNc, à partir d'une banque d'ARNm polyA+ de différentes tissus humains commercialisée par la Société Clontech une troisième séquence nucléique de l'ADNc correspondant au transcrit du gène GS913018.
La troisième séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N° 59.
La séquence SEQ ID N° 59 a une longueur de 1542 nucleotides.
Des homologies ont été retrouvées sur la séquence SEQ ID N° 59, en particulier différents fragments d'identité sur les positions [735- 1268] [1-357] [559-710] et [373-501] de la séquence SEQ ID N° 59 avec la séquence g6563616 (AC013740)Homo sapiens clone RP11-115J22, WORKING DRAFT SEQUENCE, 15 unordered pieces.Length = 180711 , reépertoriées dans GenBank (Version 116). Les analyses d'expression du transcrit des séquences SEQ ID N°57 et 58 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS913018 était exprimé dans le cerveau fœtal, le foie, le cerveau, le cœur, la prostate, le placenta, le foie fœtal, l'utérus, le testicule et le rein.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Gène GS911742.
Acide(s) nucléique(s)
Il a été isolé selon l'invention un ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS911742. Trois séquence représentatives de ce transcrit ont été déterminées. La première séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°60.
La séquence SEQ ID N°60 a une longueur de 1417 nucleotides.
La seconde séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°61.
La séquence SEQ ID N°61 a une longueur de 696 nucleotides.
Aucune identité de séquence avec les séquences SEQ ID N° 60 et 61 n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 1 10). La troisième séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N° 62.
La séquence SEQ ID N° 62 a une longueur de 2702 nucleotides. Cette séquence comprend un cadre ouvert de lecture (ORF) partiel allant du nucléotide en position 1 au nucléotide en position 792 de la séquence SEQ ID N° 62. La séquence codante potentielle débute au nucléotide en position 49 et se termine au nucléotide en position 792 de la séquence SEQ ID N° 62. Le codon d'initiation de la traduction débute au nucléotide en position 49 de la séquence SEQ ID N° 62. Cette séquence comprend un motif de Kozak de séuqence " GC CGC GCC ATG C " qui débute au nucléotide en position 41 de la séquence SEQ ID N° 62.
Des homologies avec la séquence SEQ ID N° 62 ont été observées avec des séquences répertoriées dans la base de données GenBank (Version 1 16). Ces homologies sont les suivantes :
• 98 % d'homologie sur 1410 pdb (positions [4-1413]) avec la séquence gi|5912095|emb|
AL1 17557.1 |HSM801083[5912095] Homo sapiens mRNA; cDNA DKFZp564D177 (from clone DKFZp564D177); partial cds. Length = 1431 ; déposée le 18-FEB-2000 ; Submitted (15-SEP-1999) MIPS,
Am Klopferspitz 18a, D-82152 Martinsried, GERMANY, Bloecker.H., Boecher,M., Brandt.P., Wiemann.S.
• 97 % d'homologie sur 10139 pdb [1-1039] et 97% sur 380 pdb [1082- 1458] et 90% sur 51 pdb [1506-1556] avec la séquence gi|6841247|gb|AF161417.1 |AF161417[6841247] Homo sapiens HSPC299 mRNA, partial cds. Length = 1659; déposée le 01-FEB- 2000 ; Direct Submission ; Submitted (14-MAY-1999) Shanghai Institute of Hematology, Shanghai Second Médical University, Rui-Jin
Hospital, 197 Rui-Jin Road II, • 98 % d'homologie sur 1410 pdb [4-1413] avec la séquence g5912095 (AL117557) Homo sapiens mRNA; cDNA DKFZp564D177 (from clone DKFZp564D177); partial cds. Length = 1431 ; déposée le 18- FEB-2000 ; Direct Submission ; Submitted (15-SEP-1999) MIPS, Am Klopferspitz 18a, D-82152 ; Martinshed, GERMANY, Bloecker.H.,
Boecher.M., Brandt.P., Mewes.H.W., Gassenhuber.J. and Wiemann.S.
• 93% sur 911 pdb (positions [1-911] ) et 93% sur 179 pdb( positions [1395-1573]) et 81 % sur 131 pdb (positions [992-1122] )avec la séquence gi|7023832|dbj|AK002137.1 |AK002137[7023832] Homo sapiens cDNA FLJ11275 fis, clone PLACE1009375. Length = 1564; déposée le 22-FEB-2000 ; NEDO human cDNA sequencing project ; Unpublished
Différents fragments d'homologie( de 90% a 100%) avec la séquence g5932616 (AC009594) Homo sapiens chromosome 4 clone 363_G_01 map 4, *** SEQUENCING IN PROGRESS ***, 9 unordered pièces. Length = 150108;
Les analyses d'expression du transcrit des séquences SEQ ID
N°60 et 61 ont été réalisées par RT PCR, comme décrit dans l'Exemple
1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS911742 était exprimé dans le cerveau fœtal, le foie, le cœur et le placenta.
De plus, une analyse de l'expression du transcrit par Northern blot, , selon le protocole décrit de l'Exemple 1 , à l'aide de la sonde de séquence SEQ ID NO 101 , a révélé la présence de transcrits dans le blot commercialisé par la Société Clontech (Réf. N° 7759-1). La taille des transcrits détectés avec la sonde de séquence SEQ ID N°101 est de 1 ,9 kb dans le pancréas, le rein, le muscle squelettique, le poumon et le placenta.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL.
Polypeptide codé par l'acide nucléique de séquence SEQ ID NO 62
Le cadre ouvert de lecture partiel de la séquence d'acide nucléique SEQ ID N°62 code potentiellement pour un polypeptide de 263 aminoacides de longueur constituant la séquence SEQ ID N°158.
Homologies observées au niveau de la séquence protéique traduite en six phases :
• 99% d'homologie sur 262 AA (position [4-789]) avec la séquence g5912096 (AL1 17557) hypothetical protein [Homo sapiens] Length = 263 ; note= "similarity to NIPSNAP1 " ; déposée le 18-FEB-2000 ; Direct Submission ; Submitted (15-SEP-1999) MIPS, Am Klopferspitz 18a, D-82152 , Martinsried, GERMANY, Bloecker.H., Boecher.M.,
Brandt.P., Mewes.H.W., Gassenhuber.J. and Wiemann,S,
• Homologies avec des séquences NISNAP2 et NISNAP2 :
27 % d'homologie sur 179 AA avec la séquence g2769254 (AJ001259) NIPSNAP2 protein [Homo sapiens] Length = 285 et 24% d'homologie sur 21 1 AA avec la séquence g2769649 (AJ001258) NIPSNAP1 protein [Homo sapiens] Length = 284
• 27 % d'homologie sur 179 AA avec la séquence g3403167 (AF029786) GBAS [Homo sapiens] Length = 286 . GBAS : guanine nucletide-binding protein, alpha- subunit (adenylate cyclase-stimulating G alpha protein). Cette protéine est décrite avec un site de phosphorylation et une région transmembranaire. Les " guanine nucletide-binding proteins " ont un rôle de modulateurs ou transducteurs dans différents sytemes de signalisation transmembranaires.
21 % d'identité avec la protéine YMQ1_CAEEL (Base de données Prodom, VERSION ?) qui a une simiralité avec la protéien SNAP25 et la 4-nitrophenylphosphatase.
Le polypeptide de séquence SEQ ID N° 158 comprend des sites de glycosylation, des sites de phosphorylation tels que des sites de phosphorylation cAMP- et cGMP-dépendants de protéine kinase et de caséine kinese de type II.
Fonction putative :
Le polypeptide de séquence SEQ ID N°158 s'apparente donc par son motif retrouvé dans le domaine PD013981 de PRODOM: (domaines homologues détectés dans Swissprot, version 34.2, novembre 1997) à une protéine putativement impliquée dans le transport vésiculaire intracellulaire. Ce mécanisme sous-tendu par un adressage spécifique médié par ces protéines est d'intérêt par rapport à la maladie de Tangier/FHD qui est décrite par un défaut du mécanisme de transport et de traπslocation des pools de cholestérol intracellulaire vers les particules HDL acceptrices. Le polypeptide de séquence SEQ ID N°158 est donc susceptible d'intervenir dans une étape importante impliquée dans le transport inverse du cholestérol par les HDL.
Le polypeptide de séquence SEQ ID N° 158 est susceptible d'intervenir dans la régulation du flux du cholestérol, et plus particulièrement de la maladie de Tangier, dans des déficiences familiales en HDL, ou encore dans une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Gène GS98601.
Acide(s) nucléique(s)
Il a été isolé selon l'invention un ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS98601. Trois séquences nucléiques représentatives de ce transcrit ont été déterminées. La première séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°63.
La séquence SEQ ID N°63 a une longueur de 335 nucleotides.
Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 110).
La seconde séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°64.
La séquence SEQ ID N°64 a une longueur de 447 nucleotides. Aucune identité de séquence n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 110).
La troisième séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°65.
La séquence SEQ ID N°65 a une longueur de 2324 nucleotides. Cette séquence comprend un cadre ouvert de lecture (ORF) partiel allant du nucléotide en position 3 au nucléotide en position 611 de la séquence SEQ ID N°65.
Homologies observées au niveau de la séquence nucléotidique : (307)
• 99% d'homologie sur 514 pb (position 1508-2021 pb) avec des séquences de GenBank: gi|3483520| correspondant au clone ZB95F02 d'ADNc (Homo sapiens) dont la séquence est complète.
• 98% d'homologie sur 170 pb (position 862-1031 pb) avec des séquences de GenBank: gi| 11846711 ( région 3'UTR partielle de l'ARN m, codant pour la protéine inductible du virus de la maladie de newcastle)
Les analyses d'expression du transcrit de séquence SEQ ID N°45 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS98601 était exprimé dans le cerveau, le placenta et l'utérus.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31-34 du chromosome 9. Polypeptide codé par l'acide nucléique de séquence SEQ ID NO 65
Le cadre ouvert de lecture de la troisième séquence d'acides nucléiques SEQ ID N°65 code potentiellement pour un polypeptide de 203 aminoacides de longueur constituant la séquence SEQ ID N°159. Homologies observées au niveau de la séquence protéique (307):
34% d'homologie sur 180 aa (position 3-182 aa) avec des séquences de Genpept: (traduction de Genbank v110 et 111 , dernière remise à jour le 7 mai 1999): gi|3878571 |gnl|PID|e1348103 (Z46381)- faible similarité avec la protéine de levure Ysy6 - (PIR: (SEQUENCES PIR NON REDONDANTES, VERSION 57) numéro d'accès JQ0912);EST d'ADNc EMBLD32318 provient de ce gène ; EST d'ADNc EMB D33688 provient de ce gène EST d'ADNc EMBL:D34664 provient de ce gène ; EST d'ADNc EMBL:D36574 provient de ce gène et des séquences de SP-TrEMBL (SP-TrEMBL, version 7, novembre 1998): sp|Q21453| correspondant à la protéine M01 F1.4 de C elegans
Le polypeptide de séquence SEQ ID N° 159 est susceptible d'intervenir dans la régulation du flux du cholestérol, et plus particulièrement de la maladie de Tangier, dans des déficiences familiales en HDL, ou encore dans une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Fonction putative : Ce gène est un candidat par sa localisation chromosomique pour les pathologies Tangier/FHD.
Gène GS94852. Acide(s) nucléique(s) Il a été isolé selon l'invention un ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS94852. Trois séquences nucléiques représentatives de ce transcrit ont été déterminées.
La première séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°66.
La séquence SEQ ID N°66 a une longueur de 447 nucleotides.
La seconde séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°67. La séquence SEQ ID N°67 a une longueur de 564 nucleotides.
A partir de la séquence SEQ ID N° 66, on a synthétisé deux amorces nucléotidiques, respectivement les amorces de séquences SEQ ID N° 115 et 1 16. A partir de la séquence SEQ ID N° 67, on a synthétisé deux amorces nucléotidiques, respectivement les amorces de séquences SEQ ID N° 1 17 et 1 18
.Les amorces de séquences SEQ ID N° 115 à 118 ont permis d'amplifier un ADNc, à partir d'une banque d'ARNm polyA+ de différents tissus humains commercialisée par la Société Clontech une troisième séquence nucléique de l'ADNc correspondant au transcrit du gène
GS94852.
La troisième séquence nucléique correspondant au transcrit du gène GS94852 constitue la séquence SEQ ID N° 68. La séquence SEQ ID N° 68 a une longueur de 604 nucleotides.
Aucune identité de séquence avec les séquences SEQ ID N° 66 à 68 n'a été retrouvée lors d'une recherche dans la base de données GenBank (Versions 1 10 et 1 16). Les analyses d'expression du transcrit de séquence SEQ ID N°67 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS94852 était exprimé dans le foie et le coeur.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31 -34 du chromosome 9.
Gène S935135.
Acide(s) nucléique(s)
Il a été isolé selon l'invention un ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS935135. Trois séquences nucléiques représentatives de ce transcrit ont été déterminées.
La première séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°69.
La séquence SEQ ID N°69 a une longueur de 482 nucleotides.
La seconde séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°70.
La séquence SEQ ID N°70 a une longueur de 402 nucleotides.
Aucune identité de séquence n'a été retrouvée avec les séquences SEQ ID N° 69 et 70 lors d'une recherche dans la base de données GenBank (Version 110).
On a synthétisé une première amorce nucléotidique de séquence
SEQ ID N° 119 à partir de la séquence SEQ ID N°69 et une seconde amorce nucléotidique de séquence SEQ ID N 120 à partir de la séquence SEQ ID N° 70. Ces amorces ont permis d'amplifier une troisième séquence nucléique représentatve du transcrit du gène GS935135 constituant la séquence SEQ ID N° 71.
La séquence nucléiqque SEQ ID N° 71 a une longueur de 758 nucleotides.
Des homologies ont été retrouvées avec des séquences répertoriées dans la base de données GenBank (Version 116). Ces homologies sont les suivantes :
• 80 a 85% d'homologie sur 3 fragments ( 156+197+93 pdb) avec la séquence g2168141
(gi|2168141 |emb|Z93019.1 |HS49C23[2168141) Human DNA séquence from PAC 49C23 on chromosome X contains malate dehydrogenase pseudogene and STS. Length = 153078
• 81 % a 90% d'homologie sur 4 fragments ( 144+86+197+137 pdb) avec la séquence g2828782
(gi|2828782|gb|AC002319.1 |AC002319[2828782]) Homo sapiens chromosome 9q34, clone 70C1 1 , complète séquence. Length =
46305
Les analyses d'expression du transcrit de séquence SEQ ID N°69 ou 70 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1 . Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS935135 était exprimé dans le cerveau fœtal, le foie, le cerveau, la prostate, le placenta, le foie fœtal, l'utérus, le testicule et le rein. Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31 -34 du chromosome 9.
Gène GS914669. Acide(s) nucléique(s) II a été isolé selon l'invention un ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS914669. Trois séquences nucléiques représentatives de ce transcrit ont été déterminées.
La première séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°72.
La séquence SEQ ID N°72 a une longueur de 673 nucleotides.
La seconde séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°73. La séquence SEQ ID N°73 a une longueur de 554 nucleotides.
Aucune identité de séquence avec les séquences SEQ ID N° 72 et 73 n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 1 10). A partir de la séquence SEQ ID N° 72, on a synthétisé deux amorces nucléotidiques, respectivement les amorces de séquences SEQ ID N° 121 et 122.
A partir de la séquence SEQ ID N° 73, on a synthétisé deux amorces nucléotidiques, respectivement les amorces de séquences SEQ ID N° 123 et 124. .Les amorces de séquences SEQ ID N° 121 à 124 ont permis d'amplifier un ADNc, à partir d'une banque d'ARNm polyA+ de différents tissus humains commercialisée par la Société Clontech une troisième séquence nucléique de l'ADNc correspondant au transcrit du gène GS914669. Cette séquence constitue la séquence SEQ ID N° 74. La séquence SEQ ID N° 74 a une longueur de 1794 nucleotides. Elle comprend un cadre ouvert de lecture allant du nucléotide en position 1 au nucléotide en position 258 de la séquence SEQ ID N° 74 ainsi qu'une séquence codante localisée identiquement. Cette séquence comprend un site de polyadenylation débutant au nucléotide en position 1751 de la
SEQ ID N° 74.
Des homologies avec la séquence SEQ ID N° 74 ont été retrouvées dans les séquences répertoriées dans la base de données
GenBank (Version 116). Ces homologies sont les suivantes : 99% d'identité sur 1000pb (792 a 1793pb) g6807977 AL137422 Homo sapiens mRNA; cDNA DKFZp761A1623 (from clone DKFZp761A1623); partial cds Length = 1000
Identité avec un BAC en cours de séquençage AL137023 g6982086 Homo sapiens chromosome 9 clone RP11-403A22 map q34.13-34.3, *** SEQUENCING IN PROGRESS ***, 19 unordered pièces. Length = 184814
Les analyses d'expression du transcrit de séquence SEQ ID N°72 ou 73 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1.
Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS914669 était exprimé dans le cerveau fœtal et le coeur.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Polypeptide codé par l'acide nucléique de séquence SEQ ID N° 74 Le cadre de lecture ouvert de la séquence d'acide nucléique SEQ
ID N° 74 code potentiellement pour le polypeptide de séquence SEQ ID
N° 160 d'une longueur de 85 acides aminés.
Aucune homologie de séquence n'a été observée avec les séquences répertoriées dans les bases de données Genpept (Version 115), Swissprot (Version 38), trEMBL (Version de Août 1999) et PIR
(Version 62 de Septembre 1999).
Gène GS913839. Acide(s) nucléique(s) II a été isolé selon l'invention un ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS913839. Trois séquences nucléiques représentatives de ce transcrit ont été déterminées.
La première séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°75.
La séquence SEQ ID N°75 a une longueur de 507 nucleotides.
La seconde séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°76. La séquence SEQ ID N°76 a une longueur de 415 nucleotides.
Aucune identité de séquence avec les séquences SEQ ID N° 75 et 76 n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 1 10). A partir de la séquence SEQ ID N° 75, on a synthétisé une amorce nucléotidique de séquence SEQ ID N° 125.
A partir de la séquence SEQ ID N° , 76, on a synthétisé une amorce nucléotidique de séquence SEQ ID N° 1 126 Les amorces de séquences SEQ ID N° 125 et 126 ont permis d'amplifier un ADNc, à partir d'une banque d'ARNm polyA+ de différents tissus humains commercialisée par la Société Clontech une troisième séquence nucléique de l'ADNc correspondant au transcrit du gène GS94852. Cette séquence constitue la séquence SEQ ID N° 77. La séquence SEQ ID N° 77 a une longueur de 1318 nucleotides.
Des homologies de la séquence SEQ ID N° 77 ont été observées avec des séquences répertoriées dans la base de données GenBank (Version 116). Ces homologies sont les suivantes :
99% d'homologie sur 1320 pdb (positions [1-1318]) avec la séquence g6006243 (AC01 1096) Homo sapiens clone 2_D_21 , ***
SEQUENCING IN PROGRESS ***, 15 unordered pieces.Length = 135130;
• 99% d'homologie sur 1320 pdb (positions [1-1318]) avec la séquence g7263520 (AL161631) Homo sapiens chromosome 9 clone RP11 - 70K10, *** SEQUENCING IN PROGRESS ***, 45 unordered pièces. Length = 100562;
Les analyses d'expression du transcrit de séquence SEQ ID N°75 ou 76 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1 . Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS913839 était exprimé dans le cerveau fœtal et le foie.
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Gène GS912639.
Acide(s) nucléique(s)
Il a été isolé selon l'invention un ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS912639. Trois séquences nucléiques représentatives de ce transcrit ont été déterminées.
La première séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°78.
La séquence SEQ ID N°78 a une longueur de 530 nucleotides.
La seconde séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°79.
La séquence SEQ ID N°79 a une longueur de 495 nucleotides.
Aucune identité de séquence avec les séquences SEQ ID N° 78 et 79 n'a été retrouvée lors d'une recherche dans la base de données GenBank (Version 1 10).
A partir de la séquence SEQ ID N° 78, on a synthétisé une amorce nucléotidique de séquence SEQ ID N° 127.
A partir de la séquence SEQ ID N° 79, on a synthétisé une amorce nucléotidique de séquence SEQ ID N° 128 .Les amorces de séquences SEQ ID N° 127 et 128 ont permis d'amplifier un ADNc, à partir d'une banque d'ARNm polyA+ de différents tissus humains commercialisée par la Société Clontech une troisième séquence nucléique de l'ADNc correspondant au transcrit du gène GS912639. Cette séquence constitue la séquence SEQ ID N° 80.
La séquence SEQ ID N° 80 a une longueur de 594 nucleotides.
Des homologies de séquence de la sEQ ID N° 80 ont été retrouvées avec des séquences référencées dans la base de données GenBank (Version 116). Ces homologies sont les suivantes ;
• 99% d'homologie sur 522 pdb (positions [204-725]) avec la séquence g2603415 (gi|2603415|gb|
B51178.1 |B51178[2603415]) CIT978SK-95K15.TV CIT978SK Homo sapiens genomic clone 95K15, genomic survey séquence. Length = 524;
• 99% d'homologie sur 501 pdb(positions [204-704] ) avec la séquence g2866378 (gi|2866378|gb|B79355.1 |B79355[2866378]) CIT978SK-95K15.TV.1 CIT978SK Homo sapiens genomic clone 95K15, genomic survey séquence. Length = 529;
• 94% d'homologie sur 309 pdb (positions [205-513] ) avec la séquence g2602442 (i|2602442|gb|B50205.1 | B50205[2602442] ) CIT978SK-96F5.TV CIT978SK Homo sapiens genomic clone 96F5, genomic survey séquence. Length = 309;
Les analyses d'expression du transcrit de séquence SEQ ID N°78 ou 79 ont été réalisées par RT PCR, comme décrit dans l'Exemple 1. Ces analyses effectuées à partir d'ARN polyA+de différents tissus ont permis de montrer que le gène GS912639 était exprimé dans le foie. Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Gène GS933630.
Acide(s) nucléique(s)
Il a été isolé selon l'invention un ARN messager correspondant à un transcrit du gène désigné ici sous le n° GS933630. Une séquence nucléique représentative de ce transcrit a été déterminée.
Cette séquence nucléique de l'ADNc correspondant à ce transcrit constitue la séquence SEQ ID N°81.
La séquence SEQ ID N° 81 a une longueur de 582 nucleotides. Aucune homologie n'a été observée avec les séquences référencées dans la base de données GenBank (Version 116).
Ce gène constitue un candidat positionnel causal d'une maladie due à un dysfonctionnement du flux inverse du cholestérol, et plus particulièrement de la maladie de Tangier ou encore des déficiences familiales en HDL, ou encore à une maladie génétiquement liée au locus 9q31-34 du chromosome 9.
Caractéristiques de l'invention
L'invention concerne ainsi un acide nucléique codant pour une protéine ayant une séquence en acides aminés choisie dans le groupe des séquences d'aminoacides SEQ ID N°129 à SEQ ID N°160 ou un fragment peptidique ou un variant de cette dernière ou un acide nucléique de séquence complémentaire. De manière générale, les acides nucléiques selon l'invention se présentent sous une forme isolée ou purifiée.
L'invention concerne également un acide nucléique comprenant au moins huit nucleotides consécutifs d'un polynucléotide choisi dans le groupe constitué des séquences nucléotidiques SEQ ID N°1 à SEQ ID N°81 et SEQ ID N°82 à SEQ ID N°101 , ou un acide nucléique de séquence complémentaire.
L'invention est aussi relative à un acide nucléique comprenant au moins 20, 30, 40, 50, 100 ou 150 nucleotides consécutifs d'un polynucléotide choisi dans le groupe constitué des séquences nucléotidiques SEQ ID N°1 à SEQ ID N°81 et SEQ ID N°82 à SEQ ID N°101 , ou un acide nucléique de séquence complémentaire.
Selon un autre aspect, l'invention concerne aussi un acide nucléique ayant au moins 90% d'identité en nucleotides avec un acide nucléique choisi dans le groupe constitué des séquences nucléotidiques SEQ ID N°1 à SEQ ID N°81 et SEQ ID N°82 à SEQ ID N°101 , avantageusement 80%, de préférence 95, 99%, 99,5%, et de manière tout à fait préférée 99,8% d'identité en nucleotides avec un acide nucléique choisi dans le groupe constitué des séquences nucléotidiques SEQ ID N°1 à SEQ ID N°81 et SEQ ID N°82 à SEQ ID N°101 , ou un acide nucléique de séquence complémentaire.
Selon encore un autre aspect, l'invention est relative à un acide nucléique hybridant, dans des conditions d'hybridation de forte stringence, avec un acide nucléique tel que défini ci-avant, et plus particulièrement un acide nucléique choisi dans le groupe constitué des séquences nucléotidiques SEQ ID N°1 à SEQ ID N°81 et SEQ ID N°82 à SEQ ID N°101 , ou un acide nucléique de séquence complémentaire.
Comme cela a été décrit en détails plus haut, chacune des séquences nucléotidiques SEQ ID N°1 à SEQ ID N°81 constitue des ADNc dont la séquence nucléotidique est retrouvée dans les transcrits de gènes potentiellement impliqués dans des affections liées à un dysfonctionnement du métabolisme des lipoprotéines, en particulier le transport inverse du cholestérol. Pour certains de ces acides nucléiques, une phase de lecture ouverte a été déterminée, qui code pour un polypeptide dont une altération dans la séquence d'acides aminés ou dans l'expression est potentiellement associée à l'une de ces affections, ce qui indique que les séquences nucléotidiques comprenant les phases de lecture ouvertes constituent des acides nucléiques d'intérêt potentiellement thérapeutique.
En conséquence, l'invention a en outre pour objet un acide nucléique ayant au moins 80% d'identité en nucleotides avec un polynucléotide comprenant, ou alternativement constitué de, un cadre de lecture ouvert complet ou partiel, tel que défini ci-avant dans la présente description.
Les acides nucléiques ci-dessus qui comprennent, totalement ou partiellement, la région codante des produits de transcription de séquences SEQ ID N°1 à SEQ ID N°81 peuvent être exprimés dans une cellule hôte désirée, lorsque ces acides nucléiques sont placés sous le contrôle de signaux d'expression convenables.
De tels signaux d'expression peuvent être indifféremment les signaux d'expression contenus dans les régions régulatrices de chacun des gènes correspondants ou au contraire constitués des séquences nucléiques régulatrices exogènes.
Un tel acide nucléique placé sous le contrôle d'une séquence régulatrice fonctionnelle dans la cellule hôte désirée peut être aussi inséré dans un vecteur en vue de son expression.
SONDES ET AMORCES NUCLEOTIDIQUES
Les fragments d'acides nucléiques dérivés de l'une quelconque des séquences nucléotidiques SEQ ID N°1 à SEQ ID N°81 sont utiles pour la détection de la présence d'au moins une copie d'une séquence nucléotidique choisie parmi les séquences SEQ ID N°1 à SEQ ID N°81 ou encore d'un fragment ou d'un variant de cette dernière dans un échantillon.
Les sondes ou les amorces nucléotidiques selon l'invention comprennent au moins huit nucleotides consécutifs d'un acide nucléique choisi dans le groupe constitué des séquences SEQ ID N°1 à SEQ ID N°81 , ou d'un acide nucléique de séquence complémentaire.
De préférence, des sondes ou amorces nucléotidiques selon l'invention auront une longueur de 10, 12, 15, 18 ou 20 à 25, 35, 40, 50, 70, 80, 100, 200, 500, 1000, 1500 nucleotides consécutifs d'un acide nucléique selon l'invention, en particulier un acide nucléique de séquence nucléotidique choisie parmi les séquences SEQ ID N°1 à SEQ ID N°81 ou d'un acide nucléique de séquence complémentaire.
Alternativement, une sonde ou une amorce nucléotidique selon l'invention consistera et/ou comprendra les fragments d'une longueur de 12, 15, 18, 20, 25, 35, 40, 50, 100, 200, 500, 1000, 1500 nucleotides consécutifs d'un acide nucléique selon l'invention, plus particulièrement d'un acide nucléique choisi parmi les séquences SEQ ID N°1 à SEQ ID N°81 , ou d'un acide nucléique de séquence complémentaire. La définition d'une sonde et d'une amorce nucléotidique selon l'invention englobe donc des oligonucléotides qui hybrident, dans les conditions d'hybridation de forte stringence définies ci-avant, avec un acide nucléique choisi parmi les séquences SEQ ID N°1 à SEQ ID N°81 ou avec une séquence complémentaire de ces derniers. Des sondes et amorces préférées selon l'invention comprennent tout ou partie d'un polynucléotide choisi parmi les séquences nucléotidiques SEQ ID N°82 à 101 , ou des acides nucléiques de séquence complémentaire, ou encore parmi les séquences nucléotidiques SEQ ID N° 102 à 128, ou des acides nucléiques de séquence complémentaire.
Une amorce ou une sonde nucléotidique selon l'invention peut être préparée par toute méthode adaptée bien connue de l'homme du métier, y compris par clonage et action d'enzymes de restriction ou encore par synthèse chimique directe selon des techniques telles que la méthode au phosphodiester de NARANG et al. (1979) ou de BROWN et al. (1979), la méthode aux diéthylphosphoramidites de BEAUCAGE et al. (1980) ou encore la technique sur support solide décrite dans le brevet EU N°EP 0 707 592.
Chacun des acides nucléiques selon l'invention, y compris les sondes et amorces oligonucléotidiques décrites ci-dessus, peuvent être marqués, si désiré, en incorporant un marqueur détectable par des moyens spectroscopiques, photochimiques, biochimiques, immunochimiques ou encore chimiques.
Par exemple, de tels marqueurs peuvent consister en des isotopes radioactifs (32P, 33P, , 3H, 35S, ), des molécules fluorescentes (5- bromodeoxyuridine, fluorescéine , acétylaminofluorène, digoxigénine) ou encore des ligands tels que la biotine.
Le marquage des sondes est fait de préférence par incorporation de molécules marquées au sein des polynucléotides par extension d'amorces, ou bien par rajout sur les extrémités 5' ou 3'
Des exemples de marquage non radioactifs de fragments d'acides nucléiques sont décrits notamment dans le brevet français n° FR 78 109 75 ou encore dans les articles de URDEA et al. (1988) ou SANCHEZ- PESCADOR et al. (1988). De manière avantageuse, les sondes selon l'invention peuvent avoir des caractéristiques structurelles de nature à permettre une amplification du signal, telles que les sondes décrites par URDEA et al. (1991) ou encore dans le brevet européen n° EP-0 225 807 (CHIRON).
Les sondes oligonucléotides selon l'invention peuvent être utilisées notamment dans des hybridations de type Southern à l'ADN génomique ou encore dans des hybridations à l'ARN messager correspondant lorsque l'expression du transcrit correspondant est recherchée dans un échantillon.
Les sondes selon l'invention peuvent aussi être utilisées pour la détection de produits d'amplification PCR ou encore pour la détection de mésappariements.
Des sondes ou amorces nucléotidiques selon l'invention peuvent être immobilisées sur un support solide. De tels supports solides sont bien connus de l'homme du métier et comprennent des surfaces des puits de plaques de miçrotitration, des lits de polystyrène, des lits magnétiques, des bandes de nitrocellulose, ou encore des microparticules telles que des particules de latex.
En conséquence, la présente invention concerne également un procédé de détection de la présence d'un acide nucléique tel que décrit ci-avant dans un échantillon, ladite méthode comprenant les étapes de : 1) mettre en contact une ou plusieurs sondes nucléotidiques selon l'invention avec l'échantillon à tester ;
2) détecter le complexe éventuellement formé entre la ou les sondes et l'acide nucléique présent dans l'échantillon.
Selon un mode de réalisation particulier du procédé de détection selon l'invention, la ou les sondes oligonucléotidiques sont immobilisées sur un support.
Selon un autre aspect, les sondes oligonucléotidiques comprennent un marqueur détectable.
L'invention concerne en outre un nécessaire ou kit pour la détection de la présence d'un acide nucléique selon l'invention dans un échantillon, ledit nécessaire comprenant : a) une ou plusieurs sondes nucléotidiques telles que décrites cidessus ; b) le cas échéant, les réactifs nécessaires à la réaction d'hybridation.
Selon un premier aspect, le nécessaire ou kit de détection est caractérisé en ce que la ou les sondes sont immobilisées sur un support.
Selon un second aspect, le nécessaire ou kit de détection est caractérisé en ce que les sondes oligonucléotidiques comprennent un marqueur détectable.
Selon un mode de réalisation particulier du kit de détection décrit ci-dessus, un tel kit comprendra une pluralité de sondes oligonucléotidiques conformes à l'invention qui pourront être utilisées pour détecter des séquences cibles d'intérêt ou alternativement détecter des mutations dans les régions codantes ou les régions non codantes des acides nucléiques selon l'invention, plus particulièrement des acides nucléiques de séquences SEQ ID N°1 à SEQ ID N°81 ou les acides nucléiques de séquence complémentaire.
Des sondes préférées comprendraient tout ou partie des polynucléotides de séquences SEQ ID N°82 à SEQ ID N°101.
Ainsi, les sondes selon l'invention immobilisées sur un support peuvent être ordonnées en matrices telles que les " puces à ADN ". De telles matrices ordonnées ont été en particulier décrites dans le brevet US N° 5,143,854, dans les demandes PCT N° WO 90/150 70 et 92/10092.
Des matrices supports sur lesquelles des sondes oligonucléotidiques ont été immobilisées à une haute densité sont par exemple décrites dans les brevets US N°5,412,087 et dans la demande PCT N°WO 95/11995.
Les amorces nucléotidiques selon l'invention peuvent être utilisées pour amplifier l'un quelconque des acides nucléiques selon l'invention, et plus particulièrement tout ou partie d'un acide nucléique de séquences SEQ ID N°1 à SEQ ID N°81 , ou encore un variant de celui-ci.
Un autre objet de l'invention concerne un procédé pour l'amplification d'un acide nucléique selon l'invention, et plus particulièrement un acide nucléique de séquences SEQ ID N°1 à SEQ ID N°81 ou un fragment ou un variant de celui-ci contenu dans un chantillon, ledit procédé comprenant les étapes de : a) mettre en contact l'échantillon dans lequel la présence de l'acide nucléique cible est suspectée avec une paire d'amorces nucléotidiques dont la position d'hybridation est localisée respectivement du côté 5' et du côté 3' de la région de l'acide nucléique cible dont l'amplification est recherchée, en présence des réactifs nécessaires à la réaction d'amplification ; et b) détection des acides nucléiques amplifiés.
Pour mettre en oeuvre le procédé d'amplification tel que défini ci- dessus, on aura avantageusement recours à l'une quelconque des amorces nucléotidiques décrites ci-avant.
L'invention a en outre pour objet un nécessaire ou kit pour l'amplification d'un acide nucléique selon l'invention, et plus particulièrement tout ou partie d'un acide nucléique de séquences SEQ ID N°1 à SEQ ID N°81 , ledit nécessaire ou kit comprenant : a) un couple d'amorces nucléotidiques conformes à l'invention, dont la position d'hybridation est localisée respectivement du côté 5' et du côté 3' de l'acide nucléique cible dont l'amplification est recherchée ; b) le cas échéant, les réactifs nécessaires à la réaction d'amplification.
Un tel nécessaire ou kit d'amplification comprendra avantageusement au moins une paire d'amorces nucléotidiques telles que décrites ci-dessus
Vecteurs recombinants
L'invention est également relative à un vecteur recombinant comprenant un acide nucléique selon l'invention.
Avantageusement, un tel vecteur recombinant comprendra un acide nucléique choisi parmi les acides nucléiques suivants : a) un acide nucléique codant pour une protéine ayant une séquence en acides aminés choisie dans le groupe des séquences SEQ ID N°129 à SEQ ID N°160 ou un fragment peptidique ou un variant de cette dernière ; b) un acide nucléique comprenant un polynucléotide choisi dans le groupe constitué des séquences SEQ ID N°1 à SEQ ID N°81 , ou un fragment ou un variant de ce dernier ; c) un acide nucléique ayant au moins 80% d'identité en nucleotides avec un acide nucléique choisi dans le groupe constitué des séquences SEQ ID N°1 à SEQ ID N°81 ou un fragment ou un variant de ce dernier ; d) un acide nucléique hybridant, dans des conditions d'hybridation de forte stringence, avec un acide nucléique de séquences SEQ ID N°1 à SEQ ID N°81 , ou un fragment ou un variant de ce dernier.
Par " vecteur " au sens de la présente invention on entendra une molécule d'ADN ou d'ARN circulaire ou linéaire qui est indifféremment sous forme de simple brin ou double brin.
Selon un premier mode de réalisation, un vecteur recombinant selon l'invention est utilisé afin d'amplifier l'acide nucléique qui y est inséré après transformation ou transfection de l'hôte cellulaire désiré.
Selon un second mode de réalisation, il s'agit de vecteurs d'expression comprenant, outre un acide nucléique conforme à l'invention, des séquences régulatrices permettant d'en diriger la transcription et/ou la traduction.
Selon un mode de réalisation avantageux, un vecteur recombinant selon l'invention comprendra notamment les éléments suivants : (1) des éléments de régulation de l'expression de l'acide nucléique à insérer, tels que des promoteurs et des enhanceurs ;
(2) la séquence codante comprise dans l'acide nucléique conforme à l'invention à insérer dans un tel vecteur, ladite séquence codante étant placée en phase avec les signaux de régulation décrits aux (1 ) ; et
(3) des séquences d'initiation et d'arrêt de la transcription appropriées.
En outre, les vecteurs recombinants selon l'invention pourront inclure une ou plusieurs origines de réplication chez les hôtes cellulaires dans lesquels leur amplification ou leur expression est recherchée, des marqueurs ou des marqueurs de sélection.
A titre d'exemples, les promoteurs bactériens pourront être les promoteurs Lacl, LacZ, les promoteurs de l'ARN polymérase du bactériophage T3 ou T7, les promoteurs PR, ou PL du phage lambda.
Les promoteurs pour cellules eucaryotes comprendront le promoteur de la thymidine kinase du virus HSV ou encore le promoteur de la métallothionéine-L de souris.
De manière générale, pour le choix d'un promoteur adapté, l'homme du métier pourra avantageusement se référer à l'ouvrage de SAMBROOK et al. (1989) précité ou encore aux techniques décrites par FULLER ét al. (1996).
Les vecteurs bactériens préférés selon l'invention sont par exemple les vecteurs pBR322(ATCC37017) ou encore des vecteurs tels que pAA223-3 (Pharmacia, Uppsala, Suède), et pGEMI (Promega Biotech, Madison, Wl, ETATS-UNIS).
On peut encore citer d'autres vecteurs commercialisés tels que les vecteurs pQE70, pQE60, pQE9 (Qiagen), psiX174, pBluescript SA, pNH8A, pNH16A, pNH18A, pNH46A, pWLNEO, pSV2CAT, pOG44, pXTI, pSG(Stratagene). Il peut s'agir également de vecteurs de type baculovirus tel que le vecteur pVL1392/1393 (Pharmingen) utilisé pour transfecter les cellules de la lignée Sf9 (ATCC N°CRL 1711) dérivées de Spodoptera frugiperda. II peut encore s'agir de vecteurs adénoviraux tels que l'adénovirus humain de type 2 ou 5.
Un vecteur recombinant selon l'invention peut aussi être un vecteur rétroviral ou encore un vecteur adéno-associé (AAV). De tels vecteurs adéno-associés sont par exemple décrits par FLOTTE et al. (1992), SAMULSKI et al. (1989), ou encore McLAUGHLIN BA et al.
(1996).
Cellules hôtes recombinantes
L'invention concerne aussi une cellule hôte recombinante comprenant un acide nucléique conforme à l'invention, et plus particulièrement un acide nucléique de séquences SEQ ID N°1 à SEQ ID N°81 ou encore un acide nucléique comprenant tout ou partie de la région codante de ces derniers. Selon un autre aspect, l'invention est également relative à une cellule hôte recombinante comprenant un vecteur recombinant tel que ci- dessus décrit.
Les cellules hôtes préférées selon l'invention sont par exemple les suivantes :
a) cellules hôtes procaryotes: souches d'Escherichia coli (souche DH5-α), de Bacillus subtilis, de Salmonella typhimurium, ou encore des souches d'espèces telles que Pseudomonas, Streptomyces et Staphylococus ;
b) cellules hôtes eucaryotes: cellules HeLa (ATCC N°CCL2), cellules Cv 1 (ATCC N°CCL70), cellules COS (ATCC N°CRL 1650), cellules Sf-9 (ATCC N°CRL 1711), cellules CHO (ATCC N°CCL-61) ou encore cellules 3T3 (ATCC N°CRL-6361). Selon un autre aspect, l'invention concerne un polypeptide comprenant une séquence en acides aminés choisie dans le groupe constitué des peptides de séquences SEQ ID N°129 à SEQ ID N°160, ou un fragment peptidique ou un variant de ce dernier. L'invention concerne aussi un polypeptide comprenant au moins
15 acides aminés consécutifs d'une séquence en acides aminés choisie dans le groupe constitué des peptides de séquences SEQ ID N°129 à SEQ ID N°160, ou un fragment peptidique ou un variant de ce dernier
L'invention est également relative à un polypeptide comprenant une séquence en acides aminés ayant au moins 80% d'identité en acides aminés avec une séquence en acides aminés choisie dans le groupe constitué des peptides de séquences SEQ ID N°129 à SEQ ID
N°160, ou un fragment peptidique ou un variant de ce dernier.
Avantageusement, fait partie de l'invention un polypeptide ayant au moins 85%, 90%, 95% ou 99% d'identité en acides aminés avec une séquence en acides aminés choisie dans le groupe constitué des peptides de séquences SEQ ID N°129 à SEQ ID N°160, ou un fragment peptidique ou un variant de ce dernier.
De préférence, des polypeptides selon l'invention auront une longueur de 15, 18 ou 20 à 25, 35, 40, 50, 70, 80, 100 ou 200 acides aminés consécutifs d'un acide nucléique selon l'invention, en particulier un polypeptide de séquence en acides aminés choisie parmi les séquences SEQ ID N°129 à SEQ ID N°160 .
Alternativement, un polypeptide selon l'invention consistera et/ou comprendra les fragments d'une longueur de 15, 18, 20, 25, 35, 40, 50, 100 ou 200 acides aminés consécutifs d'un polypeptide selon l'invention, plus particulièrement d'un polypeptide choisi parmi les séquences SEQ ID N°129 à SEQ ID N°160.
De manière générale, les polypeptides selon la présente invention se présentent sous une forme isolée ou purifiée. L'invention concerne aussi un polypeptide comprenant des modifications d'acides aminés de 1 , 2, 3, 4, 5, 10 à 20 substitutions, additions ou délétions d'un acide aminé par rapport à la séquence en acides aminés d'un polypeptide de séquences SEQ ID N°129 à SEQ ID N°160, ou encore d'un fragment ou d'un variant de ce dernier.
L'invention est également relative à un procédé pour la production de l'un des polypeptides de séquences SEQ ID N°129 à SEQ ID N°160 ou d'un fragment peptidique ou d'un variant de ce dernier, ladite méthode comprenant les étapes de : a) insérer un acide nucléique codant pour ledit polypeptide dans un vecteur approprié ; b) cultiver, dans un milieu de culture approprié, une cellule hôte préalablement transformée ou transfecter avec le vecteur recombinant de l'étape a) ; c) récupérer le milieu de culture conditionné ou lyser la cellule hôte, par exemple par sonication ou par choc osmotique ; d) séparer et purifier à partir dudit milieu de culture ou encore à partir des lysats cellulaires obtenus à l'étape c), ledit polypeptide ; e) le cas échéant, caractériser le polypeptide recombinant produit.
Les peptides selon l'invention peuvent être caractérisés par fixation sur une colonne de chromatographie d'immunoaffinité sur laquelle les anticorps dirigés contre ce polypeptide ou contre un fragment ou un variant de ce dernier ont été préalablement immobilisés. Selon un autre aspect, un polypeptide recombinant selon l'invention peut être purifié par passage sur une série appropriée de colonnes de chromatographie, selon les méthodes connues de l'homme de l'art et décrites par exemple dans F.Ausubel et al (1999).
Un polypeptide selon l'invention peut être également préparé par les techniques classiques de synthèse chimique indifféremment en solution homogène ou phase solide.
A titre illustratif, un polypeptide selon l'invention pourra être préparé par la technique ou en solution homogène décrite par HOUBENWEYL (1974) ou encore la technique de synthèse en phase solide décrite par MERRIFIELD (1965a; 1965b). Font également partie de l'invention des polypeptides dits " homologues " à l'un quelconque des polypeptides de séquences d'acides aminés SEQ ID N°129 à SEQ ID N°160, ou de leurs fragments ou variants. De tels polypeptides homologues ont des séquences d'acides aminés possédant une ou plusieurs substitutions d'un acide aminé par un acide aminé équivalent, par rapport aux polypeptides de référence.
On entendra par acide aminé équivalent selon la présente invention, par exemple remplacement d'un résidu sous la forme L par un résidu sous la forme D ou encore le remplacement d'un acide glutamique (E) par un acide pyro-glutamique selon des techniques bien connues de l'homme du métier. A titre illustratif, la synthèse de peptide contenant au moins un résidu sous la forme D est décrite par KOCH (1977). Selon un autre aspect, sont également considérés comme des acides aminés équivalents deux acides aminés appartenant à la même classe, c'est-à-dire deux acides aminés acide, basique, non polaire ou encore polaire non chargé.
Font également partis de l'invention des polypeptides comprenant au moins une liaison non peptidique telle qu'une liaison rétro-inverso (NHCO), une liaison carba (CH2CH2) ou encore une liaison cétométhylène (CO-CH2).
De préférence, les polypeptides selon l'invention comprenant une ou plusieurs additions, délétions, substitutions d'au moins un acide aminé conserveront leur capacité à être reconnus par des anticorps dirigés contre les polypeptides non modifiés.
Anticorps
Les polypeptides selon l'invention, en particulier les polypeptides de séquences en acides aminés SEQ ID N°129 à SEQ ID N°160 ou les fragments et les variants de ces derniers ainsi que les peptides homologues peuvent être utilisés pour la préparation d'anticorps. Par " anticorps " au sens de la présente invention, on entendra notamment des anticorps polyclonaux ou monoclonaux ou des fragments (par exemple les fragments F (ab)'2, Fab) ou encore tout polypeptide comprenant un domaine de l'anticorps initial reconnaissant le polypeptide ou le fragment de polypeptide cible selon l'invention .
Des anticorps monoclonaux peuvent être préparés à partir d'hybridomes selon la technique décrite par KOHLER et MILSTEIN (1975). La présente invention concerne également des anticorps dirigés contre un polypeptide tel que décrit ci-dessus ou un fragment ou un variant de ce dernier, tels que produits dans la technique du trioma ou encore la technique d'hybridome décrite par KOZBOR et al. (1983).
L'invention a également trait à des fragments d'anticorps simple chaîne Fv (ScFv) tels que décrits dans le brevet US N° 4,946,778 ou encore par MARTINEAU et al. (1998).
Les anticorps selon l'invention comprennent également des fragments d'anticorps obtenus à l'aide de banques de phages RIDDER et al., (1995) ou encore des anticorps humanisés REIMANN et al. (1997); LEGER et al., (1997).
Les préparations d'anticorps selon l'invention sont utiles dans des tests de détection immunologiques destinés à l'identification de la présence et/ou de la quantité d'antigènes présents dans un échantillon. Un anticorps selon l'invention pourra comprendre en outre un marqueur détectable isotopique ou non-isotopique, par exemple fluorescent ou encore être couplé à une molécule telle que la biotine, selon des techniques bien connues de l'homme du métier.
Ainsi, la mention a en outre pour objet un procédé pour détecter la présence d'un polypeptide conforme à l'invention dans un échantillon, ledit procédé comprenant les étapes de : a) mettre en contact l'échantillon à tester avec un anticorps tel que décrit ci-dessus ; b) détecter le complexe antigène/anticorps formé. L'invention est également relative à un nécessaire ou kit de diagnostic ou pour la détection de la présence d'un polypeptide conforme à l'invention dans un échantillon, ledit nécessaire comprenant : a) un anticorps tel que défini ci-dessus ; b) un réactif permettant la détection des complexes antigène/anticorps formés.
Méthode de criblage d'une molécule ou d'une substance se fixant sur un polypeptide selon l'invention. Un polypeptide selon l'invention peut être utilisé pour cribler des molécules se fixant sur celui-ci.
La fixation du polypeptide avec la molécule ou substance peut activer (molécule agoniste) ou inhiber (molécule antagoniste) l'activité dudit polypeptide. De telles molécules capables de se fixer sur l'un quelconque des polypeptides selon l'invention comprennent des anticorps, des oligonucléotides, d'autres protéines et de manière générale des petites molécules de toutes natures.
Dans un tel test de criblage, on peut simplement mettre en évidence la fixation de la molécule candidate aux polypeptides, l'un des deux partenaires étant marqué par un composé détectable (polypeptide d'intérêt ou molécule candidate), la visualisation du complexe polypeptide/molécule candidate étant alors visualisée par détection du marqueur détectable, après élimination des molécules candidates non liées spécifiquement.
A titre d'exemple, un test de criblage d'une molécule candidate capable de se fixer sur un polypeptide selon l'invention pourra comprendre avantageusement une première étape au cours de laquelle le polypeptide d'intérêt ou la molécule candidate est immobilisé sur un support, une seconde étape au cours de laquelle le second partenaire (molécule candidate ou polypeptide d'intérêt) est mis en présence du premier composé préalablement immobilisé sur le support, une troisième étape au cours de laquelle un ou plusieurs lavages sont effectués dans des conditions appropriées à l'élimination des composés n'étant pas liés spécifiquement, et enfin une quatrième étape au cours de laquelle le complexe éventuellement formé entre le polypeptide d'intérêt et la molécule candidate est détecté.
Dans le mode de réalisation du test de criblage selon lequel. la molécule candidate est préalablement immobilisée sur un support, puis mise en présence du polypeptide d'intérêt selon l'invention, la détection du complexe formé par la molécule candidate et le polypeptide d'intérêt selon l'invention pourra être avantageusement réalisée à l'aide d'un anticorps tel que décrit ci-dessus.
Dans un autre mode de réalisation du test de criblage selon lequel c'est le polypeptide d'intérêt selon l'invention qui est préalablement immobilisé sur un support, la molécule candidate sera avantageusement marquée à l'aide d'un marqueur détectable préalablement à sa mise en contact avec le polypeptide d'intérêt immobilisé.
Un tel marqueur détectable peut être radioactif ou non radioactif, par exemple fluorescent ou correspondre à un ligand pour un troisième partenaire utilisé pour la détection comme une molécule de biotine.
En conséquence, l'invention a également pour objet un procédé de criblage d'une molécule ou d'une substance candidate interagissant avec un polypeptide selon l'invention, ladite méthode comprenant les étapes de : a) mettre en contact un polypeptide conforme à l'invention avec la substance ou molécule candidate à tester ; b) détecter les complexes éventuellement formés entre ledit polypeptide et ladite substance ou molécule candidate.
L'invention concerne également un nécessaire ou kit pour le criblage d'une molécule ou d'une substance candidate interagissant avec un polypeptide selon l'invention, ledit nécessaire comprenant : a) un polypeptide conforme à l'invention ; b) le cas échéant, des moyens nécessaires à la détection du complexe formé entre ledit polypeptide et la molécule ou substance candidate. La présente invention est en outre illustrée, sans pour autant être limitée, par les exemples suivants :
EXEMPLES
Exemple 1 : Distribution tissulaire des transcrits selon l'invention
Le profil d'expression des polynucléotides selon la présente invention est déterminé selon les protocoles d'analyse de Northern blot et de transcription inverse couplée à la PCR décrits notamment par Sambrook et al (réf. CSH Sambrook, J., Fritsch, E.F., and Maniatis, T. (1989). " Molecular Cloning : A Laboratory Manual, " 2nd éd., Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY.).
Par exemple, dans le cas d'une analyse par transcription inverse, un couple d'amorces synthétisées à partir de l'une quelconque des séquences nucléotidiques des transcrits SEQ ID N°1 à SEQ ID N°81 est utilisé pour détecter l'ADNc correspondant.
La réaction de polymérase en chaîne (PCR) est réalisée sur des matrices d'ADNc correspondant à des ARNm polyA+ (Clontech) rétrotranscrits. La transcription inverse en ADNc est réalisée avec l'enzyme SUPERSCRIPT II (GibcoBRL, Life Technologies) selon les conditions décrites par le fabricant.
La réaction de polymérase en chaîne est réalisée selon des conditions standard, dans 20 μl de mélange réactionnel avec 25 ng de la préparation d'ADNc. Le mélange réactionnel est composé de 400 μM de chacun des dNTP, de 2 unités de Thermus aquaticus (Taq) ADN polymérase (Ampli Taq Gold ; Perkin Elmer), de 0,5 μM de chaque amorce, de 2,5 mM MgCI2, et de tampon PCR. Trente quatre cycles de PCR ( dénaturation 30 s à 94 °C, hybridation de 30 s décomposé comme suit lors des 34 cycles : 64°C 2 cycles, 61 °C 2 cycles, 58°C 2 cycles et 55°C 28 cycles et une elongation d'une minute par kilobase à 72°C) sont réalisés après une première étape de dénaturation à 94°C durant 10 min dans un thermocycler Perkin Elmer 9700. Les réactions s de PCR sont visualisées sur gel d'agarose par électrophorèse. Les fragments d'ADNc obtenus peuvent être utilisés comme sondes pour une analyse par Northern blot et peuvent également être utilisés pour la détermination exacte de la séquence polynucléotidique.
io Dans le cas d'une analyse par Northern Blot, une sonde d'ADNc produite comme décrit ci-dessus est marquée au 32P grâce au système de marquage d'ADN High Prime (Boehringer) selon les instructions indiquées par le fabricant. Après marquage, la sonde est purifiée sur une microcolonne de Sephadex G50 (Pharmacia) selon les instructions
15 indiquées par le fabricant. La sonde marquée et purifiée est alors utilisée pour la détection de l'expression des ARNm dans différents tissus.
Le Northern blot contenant des échantillons d'ARN de différents tissus humains ((Multiple Tissue Northern , MTN, Clontech) Blot 2, référence 77759-1) est hybride avec la sonde marquée.
20 . Le protocole suivi pour les hybridations et lavages peut être soit directement celui décrit par le fabricant (Manuel d'utilisation PT1200-1) soit une adatation de ce protocole en utilisant les méthodes connues de l'homme de l'art et décrites par exemple dans F.AUSUBEL et al (1999).
On pourra ainsi faire varier par exemple les températures de
25 préhybridation et d'hybridation en présence de formamide.
Par exemple on pourra utiliser le protocole suivant :
1 - Compétition des membranes et pré-hybridation:
3 ->0
- Mélanger : 40μl ADN sperme de saumon (10mg/ml) + 40 μl ADN placentaire humain (10mg/ml) - Dénaturer 5 mn à 96°C, puis plonger dans la glace le mélange.
- Oter le SSC 2X et verser 4 ml de mix formamide dans le tube d'hybridation contenant les membranes.
- Ajouter le mélange des deux ADN dénaturés.
- Incubation à 42°C pendant 5 à 6 heures, avec rotation. 2- Compétition de la sonde marquée :
- Ajouter à la sonde marquée et purifiée 10 à 50 μl ADN Cot I, selon la quantité de repeats.
- Dénaturer 7 à 10 mn à 95°C.
- Incuber à 65°C pendant 2 à 5 heures. 3- HYBRIDATION :
- Oter le mix de pré hybridation.
- Mélanger 40 μl ADN sperme de saumon + 40 μl ADN placentaire humain ; dénaturer 5 mn à 96°C, puis plonger dans la glace.
- Ajouter dans le tube d'hybridation 4 ml de mix formamide, le mélange des deux ADN et la sonde marquée/ADN Cot I dénaturée. - Incuber 15 à 20 heures à 42°C, avec rotation.
4- Lavages :
- Un lavage à température ambiante dans du SSC 2X, pour rincer.
- 2 fois 5 minutes à température ambiante SSC 2X et SDS 0,1% à 65°C.
- 2 fois 15 minutes à 65°C SSC 1X et SDS 0,1% à 65°C.
Après hybridation et lavage, le blot est analysé après une nuit d'exposition au contact d'un écran au phosphore révélé à l'aide du Storm (Molecular Dynamics, Sunnyvale, CA). Exemple 2 : Obtention de fragments d'ADNc complets correspondant aux transcrits selon l'invention
Différentes approches peuvent être utilisées pour isoler l'ADNc correspondant à un des clones particulier parmi les séquences SEQ ID N° 1 à SEQ ID N° 81.
Par exemple un clone complet peut être directement isolé par hybridation en criblant une banque d'ADNc au moyen d'une sonde polynucléotidique spécifique de la séquence du gène d'intérêt, En particulier une sonde spécifique de 30-40 nucleotides est synthétisée en utilisant un synthétiseur de marque Applied Biosystem/Perkin Elmer selon la séquence choisie.
L'oligonucléotide obtenu est radiomarqué, par exemple au 32P-γ- ATP en utilisant la T4 polynucléotide kinase et est purifié selon les méthodes usuelles (e.g. Maniatis et al. Molecular cloning : A Laboratory Manual, Cold Spring Harbor Press, Cold Spring, NY 1982 ou encore F.Ausubel et al . (Current Protocols in Molecular Biology, J.Wiley and Sons Eds, 1999).
La banque de clones contenant l'ADNc que l'on veut cribler est étalée sur milieu de culture en boîte de Pétri (1.5% agar) contenant les antibiotiques appropriés selon les méthodes usuelles citées ci dessus (F.Ausubel et al.). Les colonies ainsi produites après incubation sont transférées sur filtres de nitrocellulose et criblées au moyen de la sonde nucléotidique radiomarquée, selon les méthodes usuelles et les colonies hybridant avec la sonde sont isolées et sous clonées.
L'ADN des clones ainsi repéré est préparé et analysé par séquençage. Les clones contenant les fragments correspondant à l'ADNc complet sont purifiés et reclonés dans le vecteur pcDNA3 selon les protocoles connus de l'homme de l'art et présentés par exemple dans F.Ausubel et al (1999) .
Différentes méthodes sont connues pour identifier les extrémités 5' et 3' du cDNA correspondant aux gènes décrits dans la présente demande. Ces méthodes incluent mais ne se limitent pas au clonage par hybridation, au clonage utilisant des protocoles similaires ou identiques à la 3' ou 5' RACE-PCR (Rapid Amplification of cDNA End-PCR) qui sont bien connues de l'homme de l'art.
Par exemple, on pourra utiliser le kit commercialisé par la société Clontech (Marathon Ready™ cDNA kit , protocole référencé PT1156-1) ou alternativement une méthode similaire à la 5'RACE est disponible pour caractériser l'extrémité 5' manquante d'un cDNA (Fromont-Racine et al. Nucleic Acid Res.21 (7) :1683-1684 (1993)). En bref, un oligonucléotide d'ARN est ligaturé à l'extrémité 5' d'une population d'ARNm. Après retrotranscription en cDNA, un jeu d'amorces spécifiques respectivement de l'adaptateur ligaturé en 5' et d'une séquence située en 3' du gène d'intérêt est utilisé en PCR pour amplifier la portion 5' du cDNA recherché. Le fragment amplifié est ensuite utilisé pour reconstruire l'ADNc complet.
Exemple 3 : Analyse du profil d'expression génigue pour la maladie de Tangier
La vérification de la perte d'expression du gène candidat entraînant le phénotype cellulaire de Tangier peut-être déterminé par hydridation de ces séquences avec des sondes correspondant aux ARNm provenant de fibroblastes de sujets atteints ou non de la maladie, selon les méthodes décrites ci-dessous :
1. Préparation des ARN totaux, des ARNm polyfA)* et de sondes de cDNA
Les ARN totaux sont obtenus à partir de cultures cellulaires des fibroblastes de sujets normaux ou bien atteints de la maladie de Tangier par la méthode à l'isothiocyanate de guanidine(Chomczynski & Sacchi, 1987). Les ARNm poly(A)+ sont obtenus par chromatographie d'affinité sur colonnes d'oligo(dT)-cellulose (Sambrook et al., 1989) et les cDNA utilisés comme sondes sont obtenus par RT-PCR (DeRisi et al., 1997) avec des oligonucléotides marqués avec un produit fluorescent (Amersham Pharmacia Biotech ; CyDye™).
2. Hydridation et détection des niveaux d'expressions
Les membranes de verre contenant les séquences présentées dans cette demande de brevet, correspondant au gène Tangier sont hydridées avec les sondes de cDNA, obtenues à partir des fibroblastes (lyer et al., 1999). L'utilisation du système Amersham/molecular Dynamics (Avalanche Microscanner™) permet la quantification des expressions des produits de séquences sur le type cellulaire sain ou affecté.
Exemple 4 : Construction du vecteur d'expression dans des cellules de mammifères
Le gène d'intérêt peut être exprimé dans des cellules de mammifères. Un vecteur d'expression eukaryote typique contient un promoteur qui permet l'initiation de la transcription de l'ARNm, une séquence codant pour la protéine, et les signaux requis pour la terminaison de la transcription et pour la polyadenylation du transcrit. Il contient aussi des signaux supplémentaires comme des enhancers, la séquence (de) Kozak et des séquences nécessaires pour l'épissage de l'ARNm. Une transcription efficace est obtenue avec les éléments early et late des promoteurs du virus SV40, les LTR rétroviraux ou le promoteur early du virus CMV. Cependant des éléments cellulaires comme le promoteur de l'actine peuvent aussi être employés. De nombreux vecteurs d'expression peuvent être employés pour mettre en œuvre la présente invention comme le vecteur pcDNA3.
Exemple 5 : Production des polypeptides
Le polypeptide correspondant au transcrit partiel du gène GS N°XX ou au cDNA complet décrit dans I' Exemple 2 (clonage du cDNA complet) peut être facilement produit dans un système d'expression bactérienne, de cellules d'insectes en utilisant les vecteurs baculovirus ou encore dans des cellules de mammifères avec ou sans les vecteurs du virus de la vaccine. Toutes les méthodes sont aujourd'hui largement décrites et connues de l'homme de l'art. On en trouvera par exemple une description détaillée dans F.Ausubel ét al. (1999).
Exemple 6 : Production d'un anticorps dérivé d'un polypeptide
Les anticorps dans la présente invention peuvent être préparés par différentes méthodes (Current Protocols In Molecular Biology Volume 1 edited by Frederick M. Ausubel, Roger Brent, Robert E. Kingston, David D. Moore, J.G. Seidman, John A. Smith, Kevin Struhl - Massachusetts General Hospital Harvard Médical School, chapitre 11). Par exemple, les cellules exprimant un polypeptide de la présente invention sont injectées dans un animal afin d'induire la production de sérum contenant les anticorps. Dans une des méthodes décrites, les protéines sont préparées et purifiées afin d'éviter des contaminations. Une telle préparation est alors introduite dans l'animal dans le but de produire des antisera polyclonaux de plus grande activité.
Dans la méthode préférée, les anticorps de la présente invention sont des anticorps monoclonaux. De tels anticorps monoclonaux peuvent être préparés en utilisant la technique d'hybridome. (Kόhler et al, Nature 256 :495 (1975) ; Kôhler et al, Eur. J. Immunol. 6 :51 1 (1976) ; Kôhler et al, Eur. J. Immunol. 6:292 (1976) ; Hammeling et al., in : Monoclonal Antibodies and T-Cell Hybridomas, Elsevier, N.Y., pp. 563- 681 51981 ). En général, de telles méthodes impliquent d'immuniser l'animal (préférentiellement une souris) avec un polypeptide ou, mieux encore, avec une cellule exprimant le polypeptide. Ces cellules peuvent être mises en culture dans un milieu de culture tissulaire adéquat. Cependant, il est préférable de cultiver les cellules dans un milieu Eagle (Earle modifié) supplementé avec 10% de sérum bovin foetal (inactivé à 56°C) et additionné d'environ 10 g /l d'acides aminés non essentiels, de 1000 U/ml de pénicilline et d'environ 100 μg/ml de streptomycine.
Les splenocytes de ces souris sont extraits et fusionnés avec une lignée cellulaire de myelome adéquate. Cependant, il est préférable d'utiliser la lignée cellulaire de myelome parentale (SP2O) disponible à l'ATCC. Après fusion, les cellules d'hybridomes résultantes sont sélectivement maintenues en milieu HAT puis clonées par dilution limite comme décrit par Wands et al. (Gastroentérology 80:225-232 (1981 )). Les cellules d'hybridomes obtenues après une telle sélection sont testées afin d'identifier les clones sécrétant des anticorps capables de se fixer au polypeptide. D'autre part, d'autres anticorps capables de se fixer au polypeptide peuvent être produits selon une procédure en 2 étapes utilisant des anticorps anti-idiotypique une telle méthode est fondée sur le fait que les anticorps sont eux-mêmes des antigènes et en conséquence il est possible d'obtenir un anticorps reconnaissant un autre anticorps. Selon cette méthode, les anticorps spécifiques de la protéine sont utilisés pour immuniser un animal, préférentiellement une souris. Les splénocytes de cet animal sont ensuite utilisés pour produire des cellules hybridomes, et ces dernières sont criblées pour identifier les clones qui produisent un anticorps dont la capacité à se fixer au complexe protéine-anticorps spécifique peut-être bloqué par le polypeptide. Ces anticorps peuvent être utilisés pour immuniser un animal afin d'induire la formation en plus grande quantité d'anticorps spécifiques de la protéine.
Il serait apprécié que Fab et F(ab')2 et les autres fragments des anticorps de la présente invention puissent être utilisés selon les méthodes décrites ici. De tels fragments sont typiquement produits par clivage protéolytique à l'aide d'enzymes telles que la Papaïne (pour produire les fragments Fab) ou la Pepsine (pour produire les fragments F(ab')2). Sinon, les fragments sécrètes reconnaissant la protéine peuvent être produits en appliquant la technologie de l'ADN recombinant ou de la chimie de synthèse.
Pour l'utilisation in vivo d'anticorps chez l'homme il serait préférable d'utiliser des anticorps monoclonaux chimériques " humanisés ". De tels anticorps peuvent être produits en utilisant des constructions génétiques dérivés de cellules d'hybridomes produisant les anticorps monoclonaux décrits ci-dessus. Les méthodes pour produire les anticorps chimériques sont connus par l'homme de l'art. (Pour revue, voir : Morrison, Science 229 :1202 (1985) ; Oi et al., Biotechnique 4 :214 (1986) ; Cabilly et al., US patent n°4,816,567 ; Taniguchi et al., EP 171496 ; Morrison et al., EP 173494 ; Neuberger et al„ WO 8601533 ; Robinson et al., WO 8702671 ; Boulianne et al ; Nature 312 :643 (1984) ; Neuberger et al., Nature 314 : 268 (1985)). Exemple 7 : Correction du phénotype cellulaire de la maladie de Tangier
5
La maladie de Tangier est caractérisée par un catabolisme accéléré des particules lipoprotéiques de haute densité (HDL) et une accumulation de cholestérol dans les tissus. Notamment, les fibroblastes de peau des patients atteints de la maladie de Tangier ont une capacité io réduite à éliminer leur contenu en cholestérol par le processus d'efflux de cholestérol assuré par l'apolipoprotéine A-l (apoA-l), protéine majeure des HDL (Francis et al., 1995). Cette caractéristique correspondant à une perte de fonction est aussi retrouvée dans d'autres cellules fibroblastiques de patients atteints de déficit familial en HDL (Marcil et
I 5 al., 1999).
La correction du phénotype des fibroblastes de Tangier peutêtre assurée par la transfection des ADNc complets correspondant aux séquences proposées, dans lesdites cellules. L'ADNc est inséré dans un 0 vecteur d'expression qui est ensuite transfecté selon les méthodes décrites ci-dessous :
1 . Préparation des cultures fibroblastiques de sujets normaux et de sujets atteints de la maladie de Tangier 5 Les fibroblastes primaires de peau humaine sont obtenus par la mise en culture de biopsie de peau provenant de l'avant bras. Ces biopsies sont effectuées sur des patients atteints de la maladie de Tangier ayant les particularités cliniques et biochimiques des " homozygotes ", c'est à dire des amygdales oranges, des 0 concentrations plasmatiques d'apoA-l et de cholestérol-HDL inférieur au 5eme percentile. Les lignées de fibroblastes normaux sont obtenus chez l'American Type Culture Collection (Rockville, MD). Les fibroblastes sont cultivés dans un milieu EMMEM (Eagle-modified minimium essential médium ; GIBCO) complété par 10% de sérum de veau foetal, de la s glutamine à 2 mM, 100 Ul/ml de pénicilline et 100 μg/ml de steptomycine (milieu désigné par EMMEM10). En vue de la réalisation de l'étude de l'efflux de cholestérol, ces cellules sont pré-chargées en cholestérol par incubation de 24 heures avec 50μg/ml de cholestérol dans le milieu décrit ci-dessus sans sérum de veau mais contenant 2 mg/ml d'albumine o bovine (BSA, fraction V).
2. Etude de l'efflux de cholestérol
Les fibroblastes pré-chargés en cholestérol à confluence sur des plaques à 24 puits sont incubés dans le milieu EMMEM10 et 1 μCi/ml de 5 1 ,2-3H-cholestérol (50 Ci/mmol ; Dupont ; Wilmington, DE) durant 48 heures. Environ 100 000 coups par minute sont obtenus par puits ou 1000 coups par minutepar μg de protéine cellulaire. Les cellules sont lavées trois fois avec du milieu EMMEM/BSA, et incubées avec ce milieu durant 24 heures avant de transfecter le gène d'intérêt et de démarrer 0 l'efflux par ajout de 10 μg/ml de protéoliposome contenant l'apoA-l en milieu EMMEM/BSA. Ces protéoliposomes sont préparés par sonication de phosphatidylcholine et d'apoA-l humaine purifiée (Jonas, 1986). La transfection cellulaire s'effectue par la technique de précipitation de phosphate de calcium (Sambrook et al., 1989). Après la période d'efflux, 5 en général 20 heures, le milieu est collecté, centrifugé (1000 g, 5 min), et la radioactivité déterminée par comptage en scintillation liquide. La radioactivité résiduelle dans les cellules est aussi déterminée sur la nuit après extraction des lipides dans l'isopropanol. Le pourcentage d'efflux est calculé en divisant la radioactivité mesurée dans le surnageant par la 0 somme des radioactivités mesurées, dans le surnageant et l'extrait cellulaire. Un contrôle interne est réalisé par transfection d'un gène marqueur et l'incubation sur 24 heures avec un milieu EMMEM/BSA sans protéoliposome contenant l'apoA-l. L'efflux de cholestérol cellulaire à partir de fibroblastes normaux et transfectes par une gène témoin correspondent à 6±2% alors que celui obtenu à partir de fibroblastes atteints de la maladie de Tangier et transfectes par ce gène témoin est inférieur à 1 %. En revanche la transfection des fibroblastes atteints de la maladie de Tangier par un plasmide correspondant aux gènes proposés dans ce dossier permettrait de restaurer la capacité de ces cellules à éliminer leur excès de cholestérol à un niveau correspondant à celui de fibroblastes normaux.
Exemple 8 : Isolement des clones génomigues correspondantà un polynucléotide
L'isolement des clones génomiques correspondant à un transcrit est réalisé par criblage de la banque de BAC d'ADN genomique humain (par exemple celle fournie par Mel Simon, CalTech., ref : Kim et al. Genomics (1996), 34 :213-218)) par PCR avec des amorces spécifiques de la séquence d'ADNc correspondant aux séquences des transcrits SEQ ID N°1 à SEQ ID N°81 selon l'invention, selon la méthode décrite dans l'Exemple 1.
Exemple 9 : Détermination de polymorphisme/mutation de l'un des gènes correspondant aux transcrits selon l'invention
La détection de polymorphismes et ou de mutations dans les séquences des transcrits peut être réalisée selon différents protocoles. La méthode de choix est le séquençage direct.
Dans le cas d'un transcrit où la structure du gène correspondant est inconnue ou partiellement connue il est nécessaire de déterminer précisément sa structure intron-exon ainsi que la séquence genomique du gène correspondant. Il s'agit donc dans un premier temps d'isoler le ou les clones de BAC d'ADN genomique correspondant au transcrit étudié selon la méthode décrite dans l'exemple 8, de séquencer l'insert du ou des clones correspondants et de déterminer la structure intron- exon en comparant la séquence de l'ADNc à celle de l'ADN genomique obtenu.
La technique de détection de mutation par séquençage direct consiste à comparer les séquences génomiques du gène correspondant à l'ADNc SEQ ID N° 1 à SEQ ID N°81 obtenues à partir d'au moins 8 individus ( 4 individus affectés par la pathologie étudiée et 4 individus non affectés). Les divergences de séquenceconstituent des polymorphismes. Tous ceux modifiant la séquence en acides aminés de la protéine sauvage sont des mutations susceptibles d'affecter la fonction de ladite protéine qu'il est intéressant de considérer plus particulièrement dans les études d'association cas/témoin décrite dans l'Exemple 8.
Exemple 10 : Identification du gène causal par la mutation causale ou une différence transcriptionnelle
Parmi les mutations identifiées selon la méthode décrite dans l'Exemple 9, toutes celles associées au phénotype malade sont susceptibles d'être causales. La validation de ces résultats est faite en séquençant le gène chez tous les individus atteints et leurs apparentés
(dont l'ADN est disponible).
D'autre part, la réalisation de Northern blot ou RT-PCR, selon la méthode décrite dans l'Exemple 1 , à partir d'ARN spécifique d'individus atteints et non-atteints permet de détecter des variations notables du niveau d'expression du gène étudié, en particulier une absence de transcription du gène. TABLEAU I BREVE DESCRIPTION DES SEQUENCES SELON L'INVENTION
Figure imgf000133_0001
TABLEAU I (suite 1) BREVE DESCRIPTION DES SEQUENCES SELON L'INVENTION
Figure imgf000134_0001
TABLEAU I (suite 2) BREVE DESCRIPTION DES SEQUENCES SELON L'INVENTION
Figure imgf000135_0001
135
TABLEAU I (suite 3 ) BREVE DESCRIPTION DES SEQUENCES SELON L'INVENTION
N° de Séquence Désignation
80 3è ADNc correspondant au gène GS912639
81 ADNc correspondant au gène GS933630
82 Sonde pour la séquence SEQ ID NO 2
83 Sonde pour la séquence SEQ ID NO 2
84 Sonde pour la séquence SEQ ID NO 4
85 Sonde pour la séquence SEQ ID NO 5
86 Sonde pour la séquence SEQ ID NO 10
87 Sonde pour la séquence SEQ ID NO 12
88 Sonde pour la séquence SEQ ID No 16
89 Sonde pour la séquence SEQ ID NO 16
90 Sonde pour la séquence SEQ ID NO 21
91 Sonde pour la séquence SEQ ID NO 23
92 Sonde pour la séquence SEQ ID NO 25
93 Sonde pour la séquence SEQ ID NO 27
94 Sonde pour la séquence SEQ ID NO 30
95 Sonde pour la séquence SEQ ID NO 33
96 Sonde pour la séquence SEQ ID NO 33
97 Sonde pour la séquence SEQ ID NO 35
98 Sonde pour la séquence SEQ ID NO 40
99 Sonde pour la séquence SEQ ID NO 40
100 Sonde pour la séquence SEQ ID NO 40
101 Sonde pour la séquence SEQ ID NO 60
102 Amorce dans SEQ ID NO 17
103 Amorce dans SEQ ID NO 17
104 Amorce dans SEQ ID NO 37
105 Amorce dans SEQ ID NO 37
106 Amorce dans SEQ ID NO 42 710
136
TABLEAU I (suite 4) BREVE DESCRIPTION DES SEQUENCES SELON L'INVENTION
Figure imgf000137_0001
TABLEAU I (suite BREVE DESCRIPTION DES SEQUENCES SELON L'INVENTION
N" de Séquence Désignation
132 Polypeptide codé par la séquence SEQ ID NO 15
133 Polypeptide codé par la séquence SEQ ID NO 16
134 Polypeptide codé par la séquence SEQ ID NO 18
135 Polypeptide codé par la séquence SEQ ID NO 19
136 Polypeptide codé par la séquence SEQ ID NO 20
137 Polypeptide codé par la séquence SEQ ID NO 21
138 Polypeptide codé par la séquence SEQ ID NO 22
139 Polypeptide codé par la séquence SEQ ID NO 23
140 Polypeptide codé par la séquence SEQ ID NO 24
141 Polypeptide codé par la séquence SEQ ID NO 25
142 Polypeptide codé par la séquence SEQ ID NO 26
143 Polypeptide codé par la séquence SEQ ID N027
144 Polypeptide codé par la séquence SEQ ID NO 28
145 Polypeptide codé par la séquence SEQ ID N029
146 Polypeptide codé par la séquence SEQ ID NO 30
147 Polypeptide codé par la séquence SEQ ID NO 31
148 Polypeptide codé par la séquence SEQ ID NO 32
149 Polypeptide codé par la séquence SEQ ID NO 33
150 Polypeptide codé par la séquence SEQ ID NO 34
151 Polypeptide codé par la séquence SEQ ID NO 35
152 Polypeptide codé par la séquence SEQ ID NO 36
153 Polypeptide codé par la séquence SEQ ID NO 37
154 Polypeptide codé par la séquence SEQ ID NO 40
155 Polypeptide codé par la séquence SEQ ID NO 47
156 Polypeptide codé par la séquence SEQ ID NO 52 138
TABLEAU I (suite 6) BREVE DESCRIPTION DES SEQUENCES SELON L'INVENTION
Figure imgf000139_0001
REFERENCES
BUSH et al., 1997, J. Chromatogr., 777: 311-328.
FLOTTE et al., 1992, Am. J. ResPIR: (Séquences PIR non redondantes, version 57). Cell Mol. Biol., 7: 349-356.
HIGGINS et al. 1996, Methods Enzymol. 266: 383-402.
KOCH Y., 1977, Biochem. Biophys. Res. Commun., 74:488-491.
KOHLER G. and MILSTEIN C, 1975, Nature, 256: 495.
KOZBOR et al., 1983, Hybridoma, 2(1):7-16.
McLAUGHLIN BA et al., 1996, Am. J. Hum. Genêt, 59 : 561-569.
MERRIFIELD RB, 1965a, Nature, 207(996):522-523.
REIMANN KA , et al. 1997, AIDS Res Hum Retroviruses. 13(11):933- 943.
Ausubel et al., 1989, Current Protocols in Molecular Biology, Green Publishing Associates and Wiley Interscience, N.Y
Beaucage et al., Tetrahedron Lett 1981 , 22: 1859-1862
Brown EL, Belagaje R, Ryan MJ, Khorana HG, Methods Enzymol 1979;68:109-151
Bush et al., 1997, J. Chromatogr., 777 : 311-328.
Flotte et al., 1992, Am. J. Respir. Cell Mol. Biol., 7 : 349-356.
Fuller S.A. et al., 1996, Immunology in Current Protocols in Molecular Biology, Ausubel et al.
Hames BD and Higgins SJ, 1985, "Nucleic acid hybridization : a practical approach", Hames and Higgins Ed., IRL Press, Oxford. Higgins ét al., 1996, Methods Enzymol. 266:383-402.
Houbenweyl, 1974, in Meuthode der Organischen Chemie, E. Wunsch Ed., Volume 15-1 et 15-11,
Koch Y., 1977, Biochem. Biophys. Res. Commun., 74:488-491
Kôhler G. and Milstein C, 1975, Nature, 256 : 495.
Kozbor et al., 1983, Hybridoma, 2(1):7-16.
Léger OJ, et al., 1997, Hum Antibodies, 8(1): 3-16
Martineau P, Jones P, Winter G, 1998, J Mol Biol, 280(1):117-127»
McLaughlin BA et al., 1996, Am. J. Hum. Genêt, 59 : 561-569.
Merrifield RB, 1965a, Nature, 207(996): 522-523.
Merrifield RB., 1965b, Science, 150(693): 178-185.
Narang SA, Hsiung HM, Brousseau R, Methods Enzymol 1979;68:90- 98»
Reimann KA, et al., 1997, AIDS Res Hum Retroviruses. 13(11): 933- 943
Ridder R, Schmitz R, Legay F, Gram H, 1995, Biotechnology (N Y), 13(3):255-260
Rust S. et al., Nature Genetics, vol. 20, Septembre 1998, pages 96-98
Samulski et al., 1989, J. Virol., 63 : 3822-3828.
Sanchez-Pescador R., 1988, J. Clin. Microbiol., 26(10):1934-1938«
Urdea M. S., 1988, Nucleic Acids Research, 11: 4937-4957
Urdea MS et al., 1991 , Nucleic Acids Symp Ser., 24: 197-200.
Chomczynski, P., & Sacchi, N. (1987) Anal Biochem 162, 156-9.
DeRisi, J., lyer, V., & Brown, P. (1997) Science 278, 680-6. • Francis, G. A., Knopp, R. H., & Oram, J. F. (1995) Journal of Clinical
Investigation 96, 78-87.
• lyer, V., Eisen, M., Ross, D., Schuler, G., Moore, T., Lee, J., Trent, J., • Staudt, L., Hudson, J. J., Boguski, M., Lashkari, D., Shalon, D.,
Botstein,
• , & Brown, P. (1999) Science 283, 83-7.
• Jonas, A. (1986) Reconstitution of High Density Lipoprotein, Vol. 128, Académie Press, London.
• Mardi, M., Yu, L., Krimbou, L., Boucher, B., Oram, J., Cohn, J., & Genest,
J. J. (1999) Artehoscler Thromb Vase Biol 19, 159-69.
• Remaley, A. T., Schumacher, U. K., Stonik, J. A., Farsi, B. D., Nazih, H., &
Brewer, H. B. (1997) Arteriosclerosis Thrombosis and Vascular Biology 17,
1813-1821.
• Sambrook, J., Fritsch, E. F., & Maniatis, T. (1989) Molecular Cloning, a Laboratory Manual, Cold Spring Harbor Laboratory Press, Cold
Spring Harbor, N.Y.
• F.Ausubel et al . Current Protocols in Molecular Biology, J.Wiley and Sons Eds, 1999
• Fromont-Racine et al. Nucleic Acid Res.21 (7) :1683-1684 (1993) Current Protocols In Molecular Biology Volume 1 edited by Frederick M. Ausubel, Roger Brent, Robert E. Kingston, David D. Moore, J.G. Seidman, John A. Smith, Kevin Struhl - Massachusetts General Hospital Harvard Médical School, chapitre 11 Kôhler et al, Nature 256 :495 (1975)
Kôhler et al, Eur. J. Immunol. 6 :511 (1976)
Kôhler et al, Eur. J. Immunol. 6:292 (1976)
Hammeling et al., in : Monoclonal Antibodies and T-Cell Hybridomas, Elsevier, N.Y., pp. 563-681 51981)
Wands et al. (Gastroentérology 80:225-232 (1981)
Morrison, Science 229 :1202 (1985)
Oi et al., Biotechnique 4 :214 (1986)
Cabilly et al., US patent n°4,816,567
Taniguchi et al., EP 171496
Morrison et al., EP 173494
Neuberger et al., WO 8601533
Robinson et al., WO 8702671 ;
Boulianne et al ; Nature 312 :643 (1984)
Neuberger et al., Nature 314 : 268 (1985)

Claims

REVENDICATIONS
1. Acide nucléique codant pour une protéine ayant une séquence en acides aminés choisie dans le groupe des séquences d'aminoacides s SEQ ID N°129 à SEQ ID N°160 ou un fragment peptidique ou un variant de cette dernière, ou un acide nucléique de séquence complémentaire.
2. Acide nucléique comprenant au moins huit nucleotides consécutifs d'un polynucléotide choisi dans le groupe constitué des o séquences nucléotidiques SEQ ID N°1 à SEQ ID N°81 , ou un acide nucléique de séquence complémentaire.
3. Acide nucléique selon la revendication 2 comprenant au moins vingt nucleotides consécutifs d'un polynucléotide choisi dans le groupe 5 constitué des séquences nucléotidiques SEQ ID N°1 à SEQ ID N°81 , ou un acide nucléique de séquence complémentaire.
4. Acide nucléique ayant au moins 80% d'identité en nucleotides avec un acide nucléique selon l'une quelconque des revendications 1 à 0 3, ou un acide nucléique de séquence complémentaire.
5. Acide nucléique hybridant, dans des conditions d'hybridation de forte stringence, avec un acide nucléique selon l'une quelconque des revendications 1 à 4, ou un acide nucléique de séquence 5 complémentaire.
6. Sonde ou amorce nucléotidique comprenant au moins huit nucleotides consécutifs d'un acide nucléique selon l'une quelconque des revendications 1 à 5.
7. Sonde ou amorce nucléotidique selon la revendication 6 ayant une longueur de 15 à 300 nucleotides.
8. Sonde ou amorce nucléotidique selon la revendication 6 ayant 5 une longueur de 20 à 200 nucleotides.
9. Sonde ou amorce nucléotidique comprenant au moins huit nucleotides consécutifs d'un polynucléotide choisi parmi les séquences SEQ ID N°82 à 101 et 102 à 128.
10
10. Procédé pour l'amplification d'un acide nucléique selon l'une quelconque des revendications 1 à 5 contenu dans un échantillon, ladite méthode comprenant les étapes de :
I5 a) mise en contact de l'échantillon dans lequel la présence de l'acide nucléique cible est suspectée avec une paire d'amorces nucléotidiques dont la position d'hybridation est localisée respectivement du côté 5' et du côté 3' de la région de l'acide nucléique cible dont l'amplification est recherchée, en présence des réactifs nécessaires à la 0 réaction d'amplification; et
b) détection des acides nucléiques amplifiés.
11. Procédé d'amplification selon la revendication 10, caractérisé 5 en ce que les amorces nucléotidiques sont choisies parmi les amorces selon l'une quelconque des revendications 6 à 9.
12. Nécessaire pour l'amplification d'un acide nucléique selon l'une quelconque des revendications 1 à 5 comprenant : a) un couple d'amorces nucléotidiques dont la position d'hybridation est localisée respectivement du côté 5' et du côté 3' de l'acide nucléique cible dont l'amplification est recherchée;
5 b) le cas échéant, les réactifs nécessaires à la réaction d'amplification.
13. Nécessaire pour l'amplification d'un acide nucléique selon la revendication 12, caractérisé en ce que les amorces nucléotidiques sont io choisies dans le groupe constitué des amorces selon l'une des revendications 6 à 9.
14. Sonde nucléotidique selon l'une quelconque des revendications 6 à 9, caractérisée en ce qu'elle comprend un composé
I5 marqueur dont la présence est détectable.
15. Procédé de détection de la présence d'un acide nucléique selon l'une quelconque des revendications 1 à 5 dans un échantillon, ladite méthode comprenant les étapes de : 0 a) mettre en contact une ou plusieurs sondes nucléiques selon l'une des revendications 6 à 9 et 14 avec l'échantillon à tester;
b) détecter le complexe éventuellement formé entre la ou les 5 sondes et l'acide nucléique présent dans l'échantillon.
16. Procédé de détection selon la revendication 15, caractérisé en ce que la ou les sondes sont immobilisées sur un support. 00/71710
146
17. Nécessaire pour la détection de la présence d'un acide nucléique selon l'une quelconque des revendications 1 à 5 dans un échantillon, ledit nécessaire comprenant :
s a) une ou plusieurs sondes nucléotidiques selon l'une quelconque des revendications 6 à 9 et 14;
b) le cas échéant, les réactifs nécessaires à la réaction d'hybridation. 0
18. Nécessaire de détection selon la revendication 17, caractérisé en ce que la ou les sondes sont immobilisées sur un support.
19. Vecteur recombinant comprenant un acide nucléique selon 5 l'une quelconque des revendications 1 à 5.
20. Cellule hôte recombinante comprenant un acide nucléique selon l'une quelconque des revendications 1 à 5.
0 21. Cellule hôte recombinante comprenant un vecteur recombinant selon la revendication 18.
22. Polypeptide choisi dans le groupe des polypeptides suivants : a) un polypeptide comprenant une séquence d'au moins 15 acides 5 aminés choisi dans le groupe constitué des peptides de séquences SEQ
ID N°129 à SEQ ID N°160, ou un fragment peptidique ou un variant de ce dernier ; b) un polypeptide ayant au moins 80% d'identité en acides aminés avec un polypeptide tel que défini en a). 0 23. Polypeptide comprenant des modifications d'acides aminés de 1 ,2, 3, 4, 5, 10 à 20 substitutions, additions ou délétions d'un acide aminé par rapport à la séquence en acides aminés d'un polypeptide selon la revendication 21.
24. Anticorps dirigé contre un polypeptide selon l'une des revendications 21 ou 22.
25. Anticorps selon la revendication 23, caractérisé en ce qu'il comprend un composé détectable.
26. Procédé pour détecter la présence d'un polypeptide selon l'une des revendications 21 ou 22 dans un échantillon, comprenant les étapes de:
a) mise en contact de l'échantillon avec un anticorps selon l'une des revendications 23 ou 24;
b) détection du complexe antigène/anticorps formé .
27. Nécessaire de diagnostic pour la détection de la présence d'un polypeptide selon l'une des revendications 21 ou 22 dans un échantillon, ledit nécessaire comprenant:
a) un anticorps selon l'une des revendications 23 ou 24;
b) un réactif permettant la détection des complexes antigènes/anticorps formés.
28. Procédé pour le criblage d'une molécule ou d'une substance candidate interagissant avec un polypeptide selon l'une des revendications 21 ou 22, ladite méthode comprenant les étapes de : a) mettre en contact un polypeptide selon l'une des revendications 21 ou 22 avec la substance ou molécule candidate;
b) détecter les complexes éventuellement formés entre ledit polypeptide et ladite substance candidate.
29. Nécessaire pour le criblage d'une molécule ou substance candidate interagissant avec un polypeptide selon l'une des revendications 21 ou 22, ledit nécessaire comprenant :
a) un polypeptide selon l'une des revendications 21 ou 22:
b) le cas échéant, des moyens nécessaires à la détection du complexe formé entre ledit polypeptide et la molécule ou substance candidate
PCT/FR2000/001426 1999-05-25 2000-05-25 Produits d'expression de genes impliques dans des affections du metabolisme du cholesterol WO2000071710A2 (fr)

Priority Applications (10)

Application Number Priority Date Filing Date Title
JP2000620087A JP2003518918A (ja) 1999-05-25 2000-05-25 コレステロール代謝疾患に関与する遺伝子の発現産物
MXPA01011882A MXPA01011882A (es) 1999-05-25 2000-05-25 Productos de expresion de genes implicados en enfermedades relacionadas con el metabolismo del colesterol.
IL14583500A IL145835A0 (en) 1999-05-25 2000-05-25 Expression products of genes involved in diseases related to cholesterol metabolism
CA002371500A CA2371500A1 (fr) 1999-05-25 2000-05-25 Produits d'expression de genes impliques dans des affections du metabolisme du cholesterol
KR1020017015017A KR20020033627A (ko) 1999-05-25 2000-05-25 콜레스테롤 대사 관련 질환에 관여된 유전자의 발현산물
AU49318/00A AU4931800A (en) 1999-05-25 2000-05-25 Expression products of genes involved in diseases related to cholesterol metabolism
HU0203164A HUP0203164A2 (hu) 1999-05-25 2000-05-25 Koleszterin-metabolizmussal kapcsolatos betegségekben érintett gének expressziós termékei
EP00931354A EP1183350A2 (fr) 1999-05-25 2000-05-25 Produits d'expression de genes impliques dans des affections du metabolisme du cholesterol
BR0010916-9A BR0010916A (pt) 1999-05-25 2000-05-25 ácido nucleico, sonda ou iniciador de nucleotìdeo, processos e kits para amplificação de um ácido nucleico, para detecção de presença de um ácido nucléico e de um polipeptìdeo, para seleção de uma molécula ou de uma substância candidata que interage com um polipeptìdeo, vetor recombinante, célula hospedeira recombinante, polipeptìdeo, e, anticorpo
NO20015729A NO20015729L (no) 1999-05-25 2001-11-23 Ekspresjonsprodukter av gener involvert i sykdommer relatert til kolesterolmetabolisme

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
FR99/06587 1999-05-25
FR9906587A FR2794131B1 (fr) 1999-05-25 1999-05-25 Produits d'expression de genes impliques dans des affections associees au metabolisme du cholesterol
US13945099P 1999-06-16 1999-06-16
US60/139,450 1999-06-16

Publications (2)

Publication Number Publication Date
WO2000071710A2 true WO2000071710A2 (fr) 2000-11-30
WO2000071710A3 WO2000071710A3 (fr) 2001-05-17

Family

ID=26234967

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2000/001426 WO2000071710A2 (fr) 1999-05-25 2000-05-25 Produits d'expression de genes impliques dans des affections du metabolisme du cholesterol

Country Status (11)

Country Link
EP (1) EP1183350A2 (fr)
JP (1) JP2003518918A (fr)
KR (1) KR20020033627A (fr)
AU (1) AU4931800A (fr)
BR (1) BR0010916A (fr)
CA (1) CA2371500A1 (fr)
HU (1) HUP0203164A2 (fr)
IL (1) IL145835A0 (fr)
MX (1) MXPA01011882A (fr)
NO (1) NO20015729L (fr)
WO (1) WO2000071710A2 (fr)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002010388A2 (fr) * 2000-08-01 2002-02-07 Amgen Inc. Molecules du type recepteur de complement c3b/c4b et utilisations de ces molecules
US6617122B1 (en) 1999-03-15 2003-09-09 Xenon Genetics, Inc. Process for identifying modulators of ABC1 activity
AT413701B (de) * 2001-11-06 2006-05-15 Bmt Medizinische Forschung Und Strukturelle und funktionelle charakterisierung von cdw92
WO2008081942A1 (fr) 2007-01-05 2008-07-10 The University Of Tokyo Diagnostic et traitement de cancers utilisant un anticorps anti-prg-3
WO2009063970A1 (fr) 2007-11-14 2009-05-22 Forerunner Pharma Research Co., Ltd. Diagnostic et traitement du cancer à l'aide d'un anticorps anti-gpr49

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998020165A2 (fr) * 1996-11-06 1998-05-14 Whitehead Institute For Biomedical Research Marqueurs bialleliques

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998020165A2 (fr) * 1996-11-06 1998-05-14 Whitehead Institute For Biomedical Research Marqueurs bialleliques

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
"The WashU-Merck EST Project", Nombre d'accès: R55836; 28-MAi-1995 (Rel. 43, Created) Caractérisation de la séquence: yg89c04.r1 "Homo sapiens cDNA clone 40828 5' similar to contains MER2 repetitive element ";. XP002150029 *
EMBASE numéro d'accès : AC AF088031; Créé le 09-SEPTEMBRE-1998 (Rel. 56) dernière mise à jour le 30-JUIN-1999 (Rel. 60,Version 2) Caractérisation de la séquence : Homo sapiens full length insert cDNA clone ZC22G07.Homo sapiens (human) XP002150028 *
EMBASE, numéro d'accès (AC) AL047300; Créé le 13-MARS-1999 (Rel. 59) Dernière version le 20-FEVRIER-2000 (Rel. 62, Version 4) Caractérisation de la séquence : Homo sapiens mRNA; EST DKFZp586K1619_r1 (from clone DKFZp586K1619) XP002150027 *
LISCUM L, MUNN NJ.: "Intracellular cholesterol transport." BIOCHIM BIOPHYS ACTA., vol. 1438, no. 1, 19 avril 1999 (1999-04-19), pages 19-37, XP000889761 *
RUST, S. ET AL.: "Assignment of Tangier disease to chromosome 9q31 by a graphical linkage exclusion strategy." NATURE GENETICS., vol. 20, no. 1, septembre 1998 (1998-09), pages 96-98, XP000884511 cité dans la demande *
SCHMITZ, G. ET AL.: "Tangier disease: defective recombination of a specific Tangier apolipoprotein A-I isoform (Proapo A-I) with high density lipoproteins" PROCEEDINGS OF THE NATIONAL ACADEMY OF SCIENCES OF USA., vol. 80, no. 19, octobre 1983 (1983-10), pages 6081-6085, XP000877243 NATIONAL ACADEMY OF SCIENCE. WASHINGTON., US ISSN: 0027-8424 *
ZANNIS V I ET AL.: " ISOLATION AND SEQUENCE OF TANGIER APOLIPOPROTEIN A-I GENE." ARTERIOSCLEROSIS, vol. 4, no. 5, 1984, page 562A XP000884780 & 38TH ANNUAL MEETING OF THE COUNCIL ON ARTERIOSCLEROSIS, MIAMI, FLA., USA, NOV. 1984. *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7785886B2 (en) 1999-03-15 2010-08-31 Xenon Pharmaceuticals, Inc. Methods and reagents for modulating cholesterol levels
US8715968B2 (en) 1999-03-15 2014-05-06 Xenon Pharmaceuticals Inc. Methods and reagents for modulating cholesterol levels
US6617122B1 (en) 1999-03-15 2003-09-09 Xenon Genetics, Inc. Process for identifying modulators of ABC1 activity
US8067219B2 (en) 1999-03-15 2011-11-29 Xenon Pharmaceuticals Inc. Polynucleotide encoding an ATP binding cassette transporter 1 (ABC1) polypeptide
US6656707B2 (en) 2000-08-01 2003-12-02 Amgen Inc. C3b/C4b complement receptor-like molecules and uses thereof
US7041796B2 (en) 2000-08-01 2006-05-09 Amgen Inc. C3b/C4b Complement Receptor-like molecules and uses thereof
WO2002010388A2 (fr) * 2000-08-01 2002-02-07 Amgen Inc. Molecules du type recepteur de complement c3b/c4b et utilisations de ces molecules
WO2002010388A3 (fr) * 2000-08-01 2002-08-29 Amgen Inc Molecules du type recepteur de complement c3b/c4b et utilisations de ces molecules
AT413701B (de) * 2001-11-06 2006-05-15 Bmt Medizinische Forschung Und Strukturelle und funktionelle charakterisierung von cdw92
WO2008081942A1 (fr) 2007-01-05 2008-07-10 The University Of Tokyo Diagnostic et traitement de cancers utilisant un anticorps anti-prg-3
EP2123676A1 (fr) * 2007-01-05 2009-11-25 The University of Tokyo Diagnostic et traitement de cancers utilisant un anticorps anti-prg-3
EP2123676A4 (fr) * 2007-01-05 2011-01-05 Univ Tokyo Diagnostic et traitement de cancers utilisant un anticorps anti-prg-3
WO2009063970A1 (fr) 2007-11-14 2009-05-22 Forerunner Pharma Research Co., Ltd. Diagnostic et traitement du cancer à l'aide d'un anticorps anti-gpr49
US8680243B2 (en) 2007-11-14 2014-03-25 Chugai Seiyaku Kabushiki Kaisha Diagnosis and treatment of cancer using anti-GPR49 antibody
US9296823B2 (en) 2007-11-14 2016-03-29 Chugai Seiyaku Kabushiki Kaisha Diagnosis and treatment of cancer using anti-GPR49 antibody

Also Published As

Publication number Publication date
BR0010916A (pt) 2002-02-19
JP2003518918A (ja) 2003-06-17
IL145835A0 (en) 2002-07-25
AU4931800A (en) 2000-12-12
NO20015729L (no) 2002-01-22
MXPA01011882A (es) 2002-05-06
CA2371500A1 (fr) 2000-11-30
WO2000071710A3 (fr) 2001-05-17
EP1183350A2 (fr) 2002-03-06
HUP0203164A2 (hu) 2002-12-28
NO20015729D0 (no) 2001-11-23
KR20020033627A (ko) 2002-05-07

Similar Documents

Publication Publication Date Title
US20020187472A1 (en) Steap-related protein
Torroja et al. scully, an essential gene of Drosophila, is homologous to mammalian mitochondrial type II L-3-hydroxyacyl-CoA dehydrogenase/amyloid-β peptide-binding protein
US6168933B1 (en) Phospholipid transfer protein
US6114123A (en) Lipocalin family protein
US20040058358A1 (en) Lipid metabolism transcription factor
WO2000071710A2 (fr) Produits d&#39;expression de genes impliques dans des affections du metabolisme du cholesterol
US20030186333A1 (en) Down syndrome critical region 1-like protein
JP2003523740A (ja) 脂質代謝酵素
CA2388950A1 (fr) Acides nucleiques du gene humain abc1 et leurs utilisations therapeutiques et diagnostiques
FR2794131A1 (fr) Produits d&#39;expression de genes impliques dans des affections associees au metabolisme du cholesterol
CA2375771A1 (fr) Acides nucleiques et proteines correspondant au gene abc1 humain
US6444430B1 (en) Ndr2-related proteins
US6783955B2 (en) Polynucleotides encoding human presenilin variant
JP2003525048A (ja) 脂質代謝酵素
US20030175787A1 (en) Vesicle membrane proteins
US7022507B1 (en) Isolated polynucleotide encoding a human PSST subunit of the NADH:ubiquinone oxidoreductase complex
FR2795091A1 (fr) Acides nucleiques et proteines du gene abc1 humain et leur application en therapie et diagnostic
US20020127636A1 (en) Ankyrin repeat domain 2 protein variant
CA2427436A1 (fr) Sequences polymorphes du gene humain abca1, leurs utilisations, les methodes et kits de detection.
WO2002024742A2 (fr) Proteine de cassette de liaison a l&#39;atp
CA2511436A1 (fr) Proteine associee aux centrosomes et ses applications
FR2815970A1 (fr) Sequences polymorphes du gene humain abca1, leurs utilisations, les methodes et kits de detection
CA2397324A1 (fr) Genes codant pour des paralogues d&#39;abc1 et polypeptides derives de ces genes
WO2002090545A2 (fr) Acide nucleique codant le polypeptide cgl1 et application de cet acide nucleique et du polypeptide cgl1 au diagnostic et en therapeutique
WO2002046420A2 (fr) Proteine liee a la nebuline

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY CA CH CN CR CU CZ DE DK DM DZ EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ PL PT RO RU SD SE SG SI SK SL TJ TM TR TT TZ UA UG US UZ VN YU ZA ZW

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE BF BJ CF CG CI CM GA GN GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
AK Designated states

Kind code of ref document: A3

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY CA CH CN CR CU CZ DE DK DM DZ EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ PL PT RO RU SD SE SG SI SK SL TJ TM TR TT TZ UA UG US UZ VN YU ZA ZW

AL Designated countries for regional patents

Kind code of ref document: A3

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE BF BJ CF CG CI CM GA GN GW ML MR NE SN TD TG

WWE Wipo information: entry into national phase

Ref document number: IN/PCT/2001/01040/DE

Country of ref document: IN

ENP Entry into the national phase

Ref document number: 2371500

Country of ref document: CA

Ref document number: 2371500

Country of ref document: CA

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2001/09129

Country of ref document: ZA

Ref document number: 200109129

Country of ref document: ZA

WWE Wipo information: entry into national phase

Ref document number: 515452

Country of ref document: NZ

WWE Wipo information: entry into national phase

Ref document number: 49318/00

Country of ref document: AU

ENP Entry into the national phase

Ref document number: 2000 620087

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: PA/a/2001/011882

Country of ref document: MX

WWE Wipo information: entry into national phase

Ref document number: 1020017015017

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 2000931354

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 09979715

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2000931354

Country of ref document: EP

REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

WWP Wipo information: published in national office

Ref document number: 1020017015017

Country of ref document: KR

WWW Wipo information: withdrawn in national office

Ref document number: 2000931354

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 1020017015017

Country of ref document: KR