PROCEDE PERMETTANT DE DETECTER ET D'IDENTIFIER SIMULTANEMENT DIFFERENTES ESPECES ANIMALES OU VEGETALES, DANS UN ECHANTILLON DE MATIERE ORGANIQUE
La présente invention concerne le domaine technique de la traçabilité d'espèces animales ou végétales. Plus précisément, l'invention a pour objet un procédé autorisant la détection simultanée d'espèces animales et végétales au sein d'un échantillon de matière organique, utilisant le principe d'hybridation spécifique, avantageusement mis en œuvre sur puce ADN, ainsi que des oligonucléotides, sondes et amorces pouvant être mis en œuvre dans un tel procédé. L'identification des espèces animales et végétales est une étape essentielle et cruciale dans de nombreux domaines actuels comme l'agro-alimentaire, la répression des fraudes, le commerce et la protection de la biodiversité (Bartlett et al, Biotechnics, 12: 408-411, 1992 ; Lockey et Bardsley, T Food Sci Tech 11: 67-77, 2000).
Cette identification fait appel à des méthodes qui reposent principalement sur trois types de données : la morpho-anatomie, la présence de protéines spécifiques et plus récemment l'ADN. La première méthode consiste à déterminer l'espèce, ou parfois le groupe d'espèces au moyen de caractères morpho-anatomiques diagnostiques. Cette méthode s'applique lorsque l'animal est entier (par exemple à la criée pour les poissons) ou qu'il y a suffisamment de caractères pour l'identifier (partie du corps reconnaissable, os...). Deux autres méthodes, qui reposent sur l'utilisation des protéines, ont été utilisées ces quinze dernières années : ce sont les méthodes immunologiques et physico¬ chimiques. Ces méthodes, uniquement applicables sur des produits frais, ont été principalement développées pour quelques groupes de poissons (Rehbien et al, Food Che. 67, 333-339, 1999; Mackie ét al, Food Che, 71: 1-7, 2000 ; Etienne et al, J Agric Food Chem. 48: 2653-8A.K, 2000 ; Asensio et al, J Agric Food Chem. 51: 1169-72S, 2003). Plus récemment, différentes méthodes utilisant l'ADN et mettant en oeuvre la PCR se sont développées. Les principales méthodes sont les suivantes : PCR-séquençage, PCR-RFLP, PCR-oligonucléotides spécifiques (Lockley et Bardsley, supra). Elles sont toutes basées sur l'amplification d'un fragment particulier d'ADN, généralement au sein du gène codant le cytochrome b (Lockey et Bardsley, 2000 supra). Ensuite, ce fragment est respectivement séquence dans le premier cas et comparé aux banques internationales de séquences (Quinteiro et al, J Agric Food Chem 46: 1662-1669, 1998 ; Quinteiro et al, J Agric Food Chem. 49: 5108-14, 2001 ; Sebastio et al, J Agric Food Chem. 49: 1194-9, 2001 ; Jérôme et al, J Agric Food Chem. 51: 7326-32, 2003 ; Verma et al, Forensic Sci
Int. 137: 16-20, 2003 ; Colombo et al., Méat science 66: 753-755, 2004) ou digéré par des enzymes de restriction dans le second cas, le profil obtenu étant alors spécifique de chaque espèce (Quinteiro et al., 1998, supra ; Mackie et al, T Food Sci Tech 10: 9-14, 1999 ; Bellagamba et ai, J Food Prot. 66: 682-5, 2003 ; Quinteiro et al., 2001, supra ; Sebastio et al, supra ; Jérôme et ai, supra ). La troisième approche consiste à amplifier un fragment donné avec des oligonucléotides spécifiques de l'espèce recherchée, et permet donc de vérifier la présence de l'espèce ciblée et uniquement celle-ci (Maudet et Taberlet, J Dairy Res. 68: 229-35, 2001; Rodriguez et al., J Agric Food Chem. 51: 1524- 9, 2003 ; Verma et al, Forensic Sci Int. 137: 16-20, 2003 ). Néanmoins, les méthodes décrites ci-dessus ne donnent pas entière satisfaction.
En effet, la méthode basée sur la morphologie n'est pas applicable dans le cas des produits transformés ou lorsqu'il n'y a pas suffisamment de caractères diagnostiques (taches de sang, morceaux de muscles sur un étal...). Les méthodes basées sur les protéines ne sont applicables que sur des substrats frais car les protéines se dénaturent à la chaleur, ou lors des procédés de conservation, tels que la salaison, le séchage ou l'appertisation. De plus il a été montré que ces méthodes sont très sensibles aux tissus considérés (Lockley et Bardsley, 2000, supra). La méthode basée sur le PCR- séquençage, est inopérante lorsque plusieurs espèces sont en mélange car seule l'espère majoritaire est détectée ou alors la séquence n'est pas lisible. Les deux dernières techniques, (PCR-RFLP et la PCR avec des oligonucléotides spécifiques) nécessitent de connaître précisément l'espèce ou le groupe d'espèces que l'on cherche à mettre en évidence.
Par conséquent, aucune des méthodes existantes ne permet de déterminer quelles sont les espèces présentes dans un mélange, à moins d'utiliser une étape supplémentaire qui est le clonage. Cependant, cette étape supplémentaire est longue et coûteuse.
Dans ce contexte, la présente invention se propose de fournir un procédé permettant de détecter simultanément la présence d'un très large éventail d'espèces, ces espèces pouvant être présentes seules ou en mélanges, et ce dans un produit frais ou dégradé. Par ailleurs, l'invention se propose de fournir un procédé de détection simultanée d'espèces animales ou végétales, qui soit à la fois spécifique, sensible, rapide et relativement peu onéreux, par rapport notamment à son unique concurrente qu'est la méthode de PCR, clonage et séquençage (WO 02/101090).
L'invention a donc, tout d'abord pour objet, un procédé permettant de détecter simultanément, dans un échantillon de matière organique, la présence éventuelle de
matières biologiques issues de différentes espèces animales ou végétales appartenant à un groupe taxonomique végétal ou animal donné, comportant au moins 40, de préférence, au moins 50 et avantageusement, au moins 70 espèces différentes, et de sélectionner les espèces susceptibles d'être présentes, comprenant les étapes successives suivantes : a) extraction de PADN de l'échantillon b) amplification de l'ADN extrait, par la méthode d'amplification en chaîne par polymerase (PCR), avec au moins un couple d'amorces, chaque couple d'amorces utilisé permettant l'amplification, pour toutes les espèces animales ou végétales qui appartiennent au groupe taxonomique donné, d'une région nucléotidique de l'ADN mitochondrial ou chloroplastique, la dite région nucléotidique étant spécifique à chaque espèce animale ou végétale qui appartient au groupe taxonomique donné, c) mise en contact du produit d'amplification avec un groupe de sondes comportant, pour chacune des différentes espèces du groupe taxonomique, au moins une sonde spécifique à chaque espèce animale ou végétale appartenant au groupe taxonomique végétal ou animal donné, dans des conditions permettant à chaque sonde de s'hybrider avec un fragment d'ADN amplifié spécifique à l'espèce dont elle est la sonde, si un tel fragment est présent dans le produit d'amplification, chaque sonde étant constituée d'un oligonucléotide comportant au plus 50 nucléotides, de préférence de 17 à 24 nucléotides, et correspondant à un fragment d'ADN mitochondrial ou chloroplastique spécifique à l'espèce animale ou végétale dont il est la sonde, ou à son ADN inverse complémentaire, qui est apte à s'hybrider avec l'ADN cible spécifique à ladite espèce animale ou végétale, d) détection de la formation ou de l'absence de formation de complexes d'hybridation, de façon à déduire si l'échantillon de matière organique contient de la matière biologique issue d'une ou plusieurs des espèces animales ou végétales appartenant au groupe taxonomique donné et sélectionner les espèces susceptibles d'être présentes.
En préalable à la description détaillée de l'invention, certaines définitions des termes employés vont être rappelées.
L'expression ADN ou région nucléotidique « spécifique à chaque espèce animale ou végétale qui appartient au groupe taxonomique donné» désigne une séquence nucléotidique du génome mitochondrial ou chloroplastique, spécifique de chacune des espèces animales ou végétales appartenant au groupe taxonomique donné. Par spécifique, on entend qu'elle est unique, en référence aux autres espèces du groupe taxonomique
donné. C'est-à-dire qu'elle ne se retrouve pas à l'identique chez les autres espèces animales ou végétales appartenant au groupe taxonomique donné, car elle appartient à un domaine du génome variable entre les espèces qui permet donc la discrimination d'espèces très proches phylogénétiquement. Les sondes espèce spécifiques sont issues de ces régions spécifiques du génome mitochondrial ou chloroplastique spécifique à l'espèce et conservent la spécificité telle que définie ci-dessus (c'est-à-dire unicité par rapport à toutes les autres espèces du groupe taxonomique donné).
Par « séquence inverse complémentaire » d'une séquence, on entend une séquence complémentaire à la séquence inverse de ladite séquence. Dans la séquence complémentaire d'une séquence donnée, chaque base est remplacée par sa base complémentaire, à savoir, G par C, C par G, A par T et T par A.
Le pourcentage d'identité de séquences, est, au sens de l'invention, déterminé par les techniques de comparaison de séquences nucléiques, réalisées après alignement. Les alignements de séquences sont réalisés, par exemple, avec le logiciel SeaView (Galtier et al. Comput. Applic. Biosci., 12, 543-548, 1996) qui utilise le programme d'alignement Clustal_w, développé par Thompson et al. Nucleic Acid Res. 22, 4673-4680, 1994). Après alignement, le pourcentage d'identité de séquence est alors calculé entre les deux fragments alignés de même longueur, en comptant manuellement ou à l'aide d'un logiciel commercial, le nombre de bases identiques et en le divisant par la longueur du fragment * 100 sur lequel la comparaison a été réalisée.
Une espèce de végétaux ou d'animaux, est définie comme un groupe d'organismes végétaux ou d'organismes animaux vivants, génétiquement séparés des autres organismes vivants, végétaux ou animaux respectivement, et capables de se reproduire uniquement entre eux. Une espèce est désignée par le nom binomial reconnu par les codes internationaux de nomenclature zoologique et botanique, comme par exemple, Bison bison, Bison bonasus, Bos taurus, Capra hircus, Capra ibex, Capra pyraneica, Ovis aries, Rupicapra pyraneica, Rupicapra rupicapra, Camelus bactrianns, Camelus dromaderius, Lama pacos, Âlces alces, Cervus elaphus, Rangifer tarandus, Elephas maximus, Loxodonta Africana, Equus asinus, Equus cάballus, Felis catus, Homo sapiens, Lepus europaeus, Oryctolagus cuniculus, Macropus giganteus, Macropus robustus, Macropus rufus, Mus musculus, Rattus rattus, Mustela erminea, Mustela vison, Ceratotherium simum, Dicerorhinus sumatrensis, Diceros bicornis, Rhinocéros sondaicus, Rhinocéros unicornis, Sus scrofa, Selenarctos thibetanns, Ursus americanus, Ursus arctos, Ursus maritiimus, Anas platyrhynchos, Cairina moschata, Dromaius novaehollandiae, Meleagris gallopavo, Numida meleagris, Coturnix coturnix, Gallus
gallus, Rhea americana, Struthio camelus, Anguilla anguilla, Tracluinis trachunis, Cypvimis carpio, Gobio gobio, Rutilus rutilas, Tinca tinca, Gadus morhua, Pollachius virβns, Dicentrarclnts labrax, Dicentrarchus punctatus, Perça fluviatilis, Oncorhynchus kisutch, Oncorhynchus masou, Oncorhynchus mykiss, Salmo salai; Salmo trutta, Salvelinus alpimis, Salvelinus fontinalis, Sarcla sarcla, Scomber japonicus, Scomber scombrus, Thunmis alalunga, Thunnus obesus, Thiumus thynnus, Scyliorhinus canicula, Diplodus sargus, Spams auratus, Spondyliosoma cantharus, Squalus acanthias, Zens faber.
Par "groupe taxonomique végétal ou animal", on entend un groupe d'espèces formant un groupe monophylétique, comme par exemple les mammifères, les gadidae. Par " groupe taxonomique végétal ou animal donné", on entend un ensemble d'espèces animales ou un ensemble d'espèces végétales, appartenant à un ensemble monophylétique, cet ensemble étant choisi en fonction de l'application spécifique visée par le procédé de l'invention. Par "échantillon de matière organique", on entend toute matière solide ou liquide que l'on suppose avoir au moins partiellement une origine organique, c'est-à-dire issue d'êtres vivants, animaux ou végétaux, même après un processus de transformation complexe.
Par "matière biologique issue d'une espèce animale ou végétale", on entend une matière extraite d'un individu d'une espèce animale ou végétale qui présente un ADN spécifique de l'espèce.
Par "permettant de détecter, simultanément, la présence de matières biologiques issues de différentes espèces animales ou végétales ", on désigne le fait de pouvoir repérer simultanément la présence éventuelle de différents fragments d'ADN, chacun de ces fragments étant spécifique d'une espèce animale ou végétale différente. Dans un second temps, par détection des réactions d'hybridation, il est possible de sélectionner les différentes espèces susceptibles d'être présentes (c'est-à-dire pour lesquelles une réaction d'hybridation est constatée), voire identifier précisément les espèces présentes (c'est-à- dire celles dont un ADN spécifique est présent). Par "ADN frais", on désigne un ADN extrait d'un individu vivant ou extrait rapidement après sa mort. L'ADN frais se caractérise par la présence de très grands fragments de plus de 20 000 paires de bases.
Par " ADN dégradé", on désigne un ADN ayant subi des détériorations qui sont liées à l'action de l'environnement ou à des procédés de transformation. L'ADN dégradé se trouve généralement sous forme de petits fragments (inférieur ou égal à environ 200
pb) et en petite quantité. Des exemples dans lesquels I1ADN se trouve sous forme dégradée sont : - aliments (cuit, lyophilisé, séché, fumé, saumuré, appertisé, pasteurisé, congelé...) - engrais, farines, graines (broyé, séché, fermenté, torréfié...) - coquilles d'oeuf, ossements, cornes, dents, poils, cheveux, plumes, excréments (séchage, action du temps, de la température...) - alcools (alcoolisé, distillé, fermenté,...) - cuirs, peaux, fourrures, tissus momifiés (tanné, taxidermisé, coloré,...) - parchemins, papiers, bois (action du temps, procédé de transformation utilisé en papeterie,...) - ivoire, ambre (action du temps,...) - colles, pigments naturels (peintures, teintures), terres, sédiments (procédé de transformation utilisé dans ces domaines) - cadavres et ossements humains ou animaux (action du temps ou de l'environnement) - restes de végétaux, herbiers...
On entend par "produit d'amplification", le ou les fragments d'ADN ou la ou, les séquences d'ADN amplifié(e)s obtenu(e)s à l'issue de la réaction de polymérisation en chaîne (PCR). Le produit d'amplification contient plusieurs copies de différents fragments ou de différentes séquences d'ADN amplifié(e)s, lorsque l'échantillon de matière organique à analyser comporte un mélange de différents fragments d'ADN, provenant chacun d'une espèce différente appartenant au groupe taxonomique donné.
La description de l'invention va maintenant être détaillée, en référence aux figures annexées.
La figure 1 présente schématiquement les principales étapes du procédé selon l'invention.
La figure 2 montre une carte sommaire du gène complet codant pour le cytochrome b chez l'espèce humaine (Genbank numéro d'accès : J01415), et les positions des zones variables, desquelles sont issues les sondes dans l'exemple illustratif, et les positions des zones conservées dont sont issues les amorces. Nomenclature utilisée : L : indique que les amorces sont situées sur le brin orienté 5 '-3' dans les banques de séquences internationales, H: indique que les amorces sont situées sur le brin complémentaire , P: phosphate et Cy3 : fluorophore, 14747 et 15887 : première et dernière bases du cytochrome b sur le génome mitochondrial complet de l'espèce humaine. La figure 3 présente un tableau récapitulatif des espèces choisies formant le groupe taxonomique donné, dans l'exemple illustratif, de leurs noms communs, du nombre de séquences utilisées pour déterminer leurs oligonucléotides espèce-spécifiques associés (N) et le ou les numéros d'accessions utilisés.
La figure 4 résume les 5 étapes (A-E) utilisées pour déterminer des oligonucléotides espèce-spécifiques dans le cas du bar Dicentrarchns labrax.
La figure 5 présente un tableau récapitulatif des espèces choisies formant le groupe taxonomique donné, dans l'exemple illυstratif, et de leur oligonucléotide espèce- spécifique respectif avec leur Tm, hairpin et homoduplex associés.
La figure 6 présente des exemples d'amplifications après migration sur des gels d'agarose 2% pour les 3 types de fragments, respectivement de haut en bas le long, le moyen et le court. Quelques bandes aspécifiques sont visibles pour certaines espèces.
La figure 7 illustre les différentes étapes du procédé selon l'invention, de l'extraction de l' ADN jusqu'à la détection des éventuelles réactions d'hybridation. La figure 8 montre les résultats des hybridations des mélanges A, B et C. La présente invention est basée sur le principe illustré figure 1 qui consiste à amplifier l'ADN de substrats frais ou transformés, par PCR avec un seul couple d'amorces permettant, pour toutes les espèces que l'on cherche à détecter, d'amplifier un court fragment d'ADN cible espèce spécifique, mettre en contact le produit d'amplification, avec des olignucléotides sondes espèce-spécifiques complémentaires, par exemple, déposés sur une puce à ADN, pour détecter s'il y a eu ou non réaction d'hybridation. Ceci permet ainsi de cribler simultanément la présence d'un grand nombre d'espèces, seules ou en mélange. Le principe de détection consiste donc à fixer sur un support une sélection donnée de gènes ou de fragments de gènes, espèces spécifiques, sous la forme d'un seul brin (sondes), à l'incuber en présence du produit d'amplification : si la séquence complémentaire de gènes (cible) est présente dans le produit d'amplification, cette séquence va reconnaître spécifiquement sur le support sa séquence complémentaire et former un double brin d'ADN. Ce processus est dénommé hybridation.
Avantageusement, la séquence d'ADN cible espèce spécifique est d'origine mitochondriale pour les animaux et les végétaux ou bien chloroplastique pour les végétaux. L'ADN mitochondrial (ADNmt) s'avère être la molécule la plus appropriée pour ce type d'analyse (Wilson et al, Biol. J. Linnean Soc, 26, 375-400, 1985 ; Herrison. Trends in Evolution and Ecology, 4, 6-11, 1989). D'un point de vue technique, il est plus facile à détecter que l'ADN génomique car il est présent de 100 à 1000 copies par cellule contre deux copies pour l'ADN nucléaire. Il peut donc être plus sûrement détecté dans des matières organiques dans lesquelles l'ADN est soumis à divers facteurs physiques (température, pression,...) chimiques ou biochimiques tendant à sa dégradation. De plus c'est un excellent marqueur d'espèce qui est souvent utilisé en phylogénie.
De façon avantageuse, le procédé selon l'invention doit pouvoir être mis en œuvre sur un échantillon contenant de l'ADN dégradé, où seul un fragment court de quelques centaines de paires de bases peut être amplifié. Par conséquent, de façon avantageuse, les
ADN cibles et les sondes spécifiques à chaque espèce animale ou végétale du groupe taxonomique choisi, appartiennent à une région nucléotidique (ou à sa séquence inverse complémentaire), de moins de 400 nucléotides, de l'ADN mitochondrial ou chloroplastique, la dite région nucléotidique étant spécifique à chaque espèce animale ou végétale qui appartient au groupe taxonomique donné.
Le procédé selon l'invention est particulièrement adapté à la détection et à l'identification d'un grand nombre d'espèces de vertébrés qui sont, soit utilisées dans l'alimentation humaine, soit qui ont un intérêt particulier au sein de la biodiversité (espèces en voie de disparition, commerce contrôlé). Aussi, le groupe taxonomique choisi correspond, avantageusement, à un groupe d'espèces de vertébrés qui comprend notamment une ou plusieurs espèces de poissons actinoptérygiens et/ou chondrichtyens, et de préférence plusieurs espèces de mammifères, oiseaux, poissons actinoptérygiens et chondrichtyens. Dans ce cas, les ADN cibles et les sondes espèces spécifiques sont avantageusement choisis au sein de l'ADN codant pour le cytochrome b, car, en plus des raisons mentionnées ci-dessus : (i) la séquence de ce gène est très variable entre les espèces et permet donc la discrimination d'espèces très proches phylogénétiquement, (ii) il existe un certain nombre de régions extrêmement conservées le long du gène qui permettent donc de dessiner des couples d'amorces communs à un très grand nombre d'espèces, (iii) la variabilité individuelle de ce gène au sein de la même espèce est relativement faible (quelques %), (iv) ce gène a été préférentiellement utilisé en phylogénie moléculaire ces 15 dernières années, il est par conséquent de très loin le gène mitochondrial le plus représenté dans les banques (plus de 20000 séquences pour les seuls vertébrés en 2001).
Avantageusement, les ADN cibles et sondes espèces spécifiques sont issues d'un fragment de 373 paires de bases (avec les amorces) situé approximativement au centre du gène (longueur totale du gène environ 1140 paires de bases, variables entre les espèces). Cette zone comprend 2 zones transmembranaires qui sont les plus variables dans le gène et est située entre deux régions conservées ce qui permet de dessiner des amorces permettant l'amplification d'un très grand nombre d'espèces de vertébrés. La figure 2 illustre précisément la position de ces zones conservées et variables sur l'ADN mitochondrial humain codant pour le cytochrome b (Numéro d'accession de la séquence de référence : J01415 de SEQ ID N0I. Anderson et al Nature, ; 290:457-465, 1981).
La nomenclature suivante a été adoptée sur la figure 2 : le nombre indique la position de l'extrémité 3' de l'amorce sur le gène complet du cytochrome b de l'humain avec : L : indique que les amorces sont situées sur le brin orienté 5 '-3' dans les banques
de séquences internationales: H: indique que les amorces sont situées sur le brin complémentaire, P: phosphate et Cy3 : fluorophore, 14747 et 15887 première et dernière bases du cytochrome b sur le génome mitochondrial complet de l'espèce humaine (Genbank Numéro d'accession de la séquence de référence : J01415 de SEQ ID N°l). L'étape a) du procédé selon l'invention consiste à extraire l'ADN frais ou dégradé de l'échantillon organique d'intérêt. L'isolement des acides nucléiques de l'échantillon de départ peut être réalisé de diverses façons. Ces procédés comprennent l'utilisation de détergents conduisant à des lysats, l'utilisation d'en:zymes (lysozyme, protéinase K, par exemple) le traitement aux ultrasons, l'agitation mécanique en présence de billes. Dans certains cas, il peut être nécessaire de purifier les acides nucléiques extraits afin de se débarrasser d'éventuels contaminants tels que des nucléases. Dans ce cas, la purification des acides nucléiques peut être réalisée par extraction au phénol-chloroforme, chromatographie, échange d'ions, électrophorèse, centrifugation à l'équilibre ou par capture par hybridation sur un support solide. Des trousses ou kits d'extraction disponibles dans le commerce pourront être utilisés. L'extraction d'ADN par la méthode au phénol/chloroforme s'adresse à tous les types d'échantillons susceptibles de contenir de la matière organique, tels que filet, soupe, terrine, pâté, graisse, farine, préparations à base de poissons .... Cette méthode fait appel à des techniques décrites dans HÀNNI et al, 1990, C. R. Acad. Sci. Paris., 310, 365-370 et HÀNNI et al, 1995, Nucl. Acids Res., 23 ,881-882 et est notamment décrite dans WO02/101090 auquel on pourra se référer pour plus de détails.
Selon l'invention, le procédé comprend une étape b) d'amplification de l'ADN extrait de l'échantillon biologique d'intérêt. L'amplification de l'ADN extrait consiste à multiplier les fragments d'acide nucléique espèce-spécifiques extraits de l'échantillon. Elle permet d'augmenter considérablement le nombre de copies d'une séquence nucléique cible à détecter. Pour cela, on utilise la "Polymerase Chain Reaction" (dite PCR), technique d'amplification de cible qui repose sur la répétition de cycles de synthèse d'ADN in vitro par élongation d'amorces nucléotidiques hybridées sur la séquence cible (Saiki et al. 1985. Science 230 : 1350-1354 ; EP 0 201 184). Pour plus de détails, la méthode d'amplification en chaîne par polymerase (PCR) comprend une répétition du cycle des étapes suivantes : - chauffage de l'ADN extrait du mélange d'origine organique, de façon à séparer l'ADN en deux brins monocaténaires, - hybridation des brins d'ADN monocaténaires à une température adéquate avec les amorces oligonucléotidiques selon l'invention pour amplifier l'ADN spécifiques des espèces que l'on cherche à détecter et/ou identifier, - élongation desdites amorces oligonucléotidiques appropriées par une
polymérase à une température adéquate, pour obtenir un produit d'amplification unique contenant chacune desdites séquences d'ADN ou chacun desdits fragments d'ADN caractéristique de Ia ou des espèces présentes.
Brièvement, deux amorces nucléotidiques complémentaires chacune d'une séquence d'un des deux brins de l'ADN cible sont synthétisées. Des désoxyribonucléosides triphosphates sont ajoutés en excès au milieu réactionnel en présence d'une ADN polymérase ADN-dépendante thermostable (Taq polymérase). Si un
ADN cible est présent dans l'échantillon, les amorces s'hybrident sur leurs sites spécifiques et la polymérase étend l'extrémité 3' de ces amorces par addition successive des nucléotides complémentaires de la cible. En réalisant des cycles successifs de montée et descente de température, les amorces étendues se dissocient de la cible et peuvent, comme la cible originale, fixer les amorces nucléotidiques en excès. Par répétition du processus (de 30 à 50 fois), on aboutit à une accumulation exponentielle de la séquence cible comprise entre les deux amorces. La PCR est donc réalisée en présence d'un système en∑ymatique adapté et d'un couple d'amorces de l'invention, préalablement à l'étape d'hybridation puis de détection. Avantageusement, l'une des amorces est marquée, afin de permettre ultérieurement la détection lors de l'étape d) du procédé selon l'invention. Tout kit disponible dans le commerce, et notamment le Kit Eppendorf peut être utilisé pour la réaction de PCR. Dans le cas de produits transformés, il est nécessaire d'utiliser des protocoles d'amplification (Hanni et al. 1990 et 1995 supra et
WO98/50401) pour notamment s'affranchir des éventuels inhibiteurs présents. Le produit d'amplification est avantageusement purifié, selon toute technique classique bien connue de l'homme de l'art.
L'amplification de l'ADN contenu dans l'échantillon de matière organique d'intérêt est réalisée à l'aide d'un couple d'amorces permettant d'amplifier, pour toutes les espèces du groupe taxonomique sélectionné, un fragment d'ADN spécifique de l'espèce. En particulier, les couples d'amorces suivants sont particulièrement adaptées pour un groupe de vertébrés : un oligonucléotide constitué d'environ 15 à 25 nucléotides, de préférence de 17 à 23 nucléotides, présentant au moins 80%, préférentiellement au moins 90% et avantageusement au moins 95% d'identité de séquence avec la séquence SEQ ID
N°2 : CTICCITGAGGICARATRTC OU la séquence SEQ ID N°3 :
CTNCCNTGAGGNCARATRTC et un oligonucléotide constitué d'environ 15 à
25 nucléotides, de préférence de 17 à 23 nucléotides, présentant au moins 80%, préférentiellement au moins 90% et avantageusement au moins 95% d'identité de
séquence avec la séquence SEQ ID N°4 : TRAARTTITCIGGRTCICC ou la séquence SEQ ID N0 5 : TRAARTTNTCNGGRTCNCC, un oligonucléotide constitué d'environ 15 à 25 nucléotides, de préférence de 17 à 23 nucléotides, présentant au moins 80%, préférentiellement au moins 90% et avantageusement au moins 95% d'identité de séquence avec la séquence SEQ ID
N° 2 ou la séquence SEQ ID N° 3 et un oligonucléotide constitué d'environ 15 à 25 nucléotides, de préférence de 17 à 23 nucléotides, présentant au moins 80%, préférentiellement au moins 90% et avantageusement au moins 95% d'identité de séquence avec la séquence SEQ ID N°6 : GGRTGRAAICRIAYTTTRTC ou la séquence SEQ ID N° 7 : GGRTGRAANCRNAYTTTRTC, un oligonucléotide constitué d'environ 15 à 25 nucléotides, de préférence de 17 à 23 nucléotides, présentant au moins 80%, préférentiellement au moins 90% et avantageusement au moins 95% d'identité de séquence avec la séquence SEQ ID N°4 ou la séquence SEQ ID N°5 et un oligonucléotide constitué d'environ 15 à 25 nucléotides, de préférence de 17 à 23 nucléotides, présentant au moins 80%, préférentiellement au moins 90% et avantageusement au moins 95% d'identité de séquence avec la séquence SEQ ID N°8 : GAYAAARTTYCITTYCA YCC ou la séquence SEQ ID N°9 : GAYAAARTNYCNTTYCAYCC, avec I : inosine ; R : A ou G ; et Y : C ou T et N : A, G, C ou T. Les couples d'amorces suivants sont particulièrement préférés :
- SEQ ID N° 2 ou SEQ H) N° 3 et SEQ ID N° 4 ou SEQ ID N° 5,
- SEQ ID N0 2 ou SEQ ID N0 3 et SEQ ID N° 6 ou SEQ ID N° 7, (
- SEQ ID N° 4 ou SEQ ID N° 5 et SEQ ID N° 8 ou SEQ ID N° 9. L'invention a également pour objet les oligonucléotides constitués d'environ 15 à 25 nucléotides, de préférence de 17 à 23 nucléotides, présentant au moins 80%, préférentiellement au moins 90% et avantageusement au moins 95% d'identité de séquence avec l'un des oligonucléotides présentant l'une des séquences suivantes ou leurs séquences inverses complémentaires respectives :
- la séquence SEQ ID N° 2 : CTICCITGAGGICARATRTC - la séquence SEQ ID N° 3 : CTNCCNTGAGGNCARATRTC
- la séquence SEQ ID N°4 : TRAARTTITCIGGRTCICC
- la séquence SEQ ID N°5 : TRAARTTNTCNGGRTCNCC
- la séquence SEQ ID N°6 : GGRTGRAAICRIAYTTTRTC
- la séquence SEQ ID N°7 : GGRTGRAANCRNAYTTTRTC - la séquence SEQ ID N°8 : GAYAAARTIYCITTYCAYCC
- la séquence SEQ ID N°9 : GAYAAARTNYCNTTYCAYCC avec I : inosine ; R : A ou G ; et Y : C ou T et N : A, G, C ou T.
Les couples d'amorces préférés SEQ ID N° 2 et SEQ ID N° 4, SEQ ID N0 2 et SEQ ID N° 6, SEQ ID N° 4 et SEQ ID N° 8 se retrouvent, chez tous les vertébrés sélectionnés, dans la séquence ADN codant pour le cytochrome b et encadrent, comme illustré figure 2 les fragments d'ADN espèces spécifiques que l'on souhaite amplifier. Ces amorces présentant des inosines qui présentent des affinités chimiques avec les quatre bases, permettent d'amplifier toutes les espèces du groupe taxonomique donné qui a été sélectionné. Par ailleurs, l'utilisation des couples d'amorces suivants : - SEQ ID N0 2 ou SEQ ID N° 3 et SEQ ID N° 4 ou SEQ ID N° 5,
- SEQIDN°2ouSEQIDN°3etSEQIDN°6ouSEQIDN°7,
- SEQIDN°4ouSEQIDN°5etSEQIDN°8ouSEQIDN°9. de séquences dégénérées au niveau des positions R, Y et N, c'est-à-dire d'un mélange d'oligonucléotides dans lesquels R = A et d'oligonucléotides dans lesquelles R = G, au niveau des positions R, d'oligonucléotides dans lesquels Y = C et d'oligonucléotides dans lesquelles Y = T, au niveau des positions Y, d'oligonucléotides dans lesquels N = A, d'oligonucléotides dans lesquels N = G, d'oligonucléotides dans lesquels N = C et d'oligonucléotides dans lesquelles N = T, au niveau des positions N, permet également d'amplifier un plus grand nombre d'espèces. Ledit produit d'amplification est donc susceptible de contenir différents fragments d'ADN caractéristiques de différentes espèces de vertébrés.
Dans le cas où l'échantillon est susceptible de contenir de l'ADN dégradé, on utilisera, avantageusement, en combinaison deux couples d'amorces l'un choisi parmi SEQ ID N° 2 ou SEQ ID N° 3 et SEQ ID N° 6 ou SEQ ID N° 7, l'autre parmi SEQ ID N° 4 ou SEQ ID N° 5 et SEQ ID N° 8 ou SEQ ID N° 9 qui permettent d'amplifier des fragments d'ADN espèce-spécifiques plus petits.
L'étape c) suivante du procédé met en oeuvre des sondes espèces-spécifiques choisies en vue d'être immobilisées sur une biopuce, de façon à évaluer la présence d'acides nucléiques espèces-spécifiques mis dans des conditions d'hybridation avec les sondes, en détectant les sondes sur lesquelles se fixent ces acides nucléiques par hybridation. Il est alors possible, de déduire les espèces dont des substances biologiques sont présentes au sein de l'échantillon et donc d'identifier de telles espèces car, dans la grande majorité des cas, seules des réactions d'hybridation spécifique sont observées. Par « hybridation spécifique », on entend une réaction d'hybridation entre une sonde spécifique d'une espèce et l'ADN cible de cette espèce. Dans certains cas très rares, il ne
sera cependant pas possible d'identifier précisément l'espèce présente, certains ADN cible amplifiés pouvant s'hybrider, en plus de s'hybrider avec leur oligonucléotide sonde espèce spécifique, avec un ou deux autres oligonucléotides sondes spécifiques d'une autre espèce, en raison de réaction parasite d'hybridation aspécifique. Mais, le procédé selon l'invention permettra toujours d'éliminer un grand nombre d'espèces qui ne sont pas présentes et de sélectionner les espèces susceptibles d'être présentes.
De façon à réaliser l'identification de la ou des espèces présentes, on choisira avantageusement des sondes espèces spécifiques présentant au plus 87 %, de préférence au plus 85 % d'identité de séquence, les bases différentes étant situées, préférentiellement, dans la partie centrale de la séquence.
Chaque ADN sonde espèce spécifique sélectionnée est susceptible d'entraîner une réaction d'hybridation spécifique avec un acide nucléique amplifié, spécifique à l'espèce sélectionnée dont il est la sonde, comprenant une séquence complémentaire à celle de l' oligonucléotide. La plupart des techniques d'hybridation connues peuvent être mises en oeuvre dans ce procédé et notamment les techniques dites "Dot Blot" ou "Southern".
Le procédé selon l'invention est adapté pour être mis en œuvre avec une biopuce et les ADN sondes sont sélectionnés dans ce but. Les différentes sondes sont donc, préférentiellement, aptes à s'hybrider dans des conditions de température d'hybridation comparables et ne se replient pas sur elle-même dans ces conditions d'hybridation. Les sondes (ici des oligonucléotides spécifiques d'espèces) sont donc déposées sur un support de puce ADN, chaque sonde étant fixée en nombre multiple sur un site élémentaire de la face active du support. L'utilisation des puces à ADN permet ainsi de rechercher simultanément la présence d'un très grand nombre d'espèces, sans avoir à séquencer ou bien à cloner puis séquencer dans le cas de mélanges, le produit de PCR. De façon avantageuse, le procédé selon l'invention permet de détecter au moins 40, de préférence au moins 50, avantageusement toutes les espèces de vertébrés suivantes :
Bison bison, Bison bonasus, Bos taurus, Capra hircus, Capra ibex, Capra pyraneica, Ovis aries, Rupicapra pyraneica, Rupicapra rupicapra, Camelus bactrianus, Camelus dromaderhis, Lama pacos, Alces alces, Cervus elaphus, Rangifer tarandus, Elephas maximus, Loxodonta Africana, Equus asinns, Equus caballus, F élis catus, Homo sapiens, Lepus europaeus, Oryctolagus cuniculus, Macropus giganteus, Macropus robustus, Macropus rufiis, Mus musculm, Rattus rattus, Mustela erminea, Mustela vison, Ceratotherium simum, Dicerorhinus sumatrensis, Diceros bicomis, Rhinocéros sondaicus, Rhinocéros unicornis, Sus scrofa, Selenarctos thibetanus, Ursus americanus, Ursus arctos, Ursus mariturnus, Anas platyrhynchos, Cairina moschata, Dromains
novaehollandiae, Meleagris gallopavo, Numida meleagris, Cotwnix cotuπiix, Galhis gallus, R/iea ameiïcana, Struîhio camelus, Anguilla anguilla, Traduiras traclnirus, Cyprinus carpio, Gobio gobio, Rutilas rutilas, Tinca tinca, Gadus morhua, Pollachius virens, Dicentrarchus labrax, Dicentrarchus punctatus, Perça fluviatilis, Oncorhynchus kisutch, Oncorhynchus masou, Oncorhynchus mykiss, Salmo salar, Salmo trutta, Salvelinus alpinus, Salvelinus fontinalis, Sarda sarda, Scomber japonicus, Scomber scombrus, Thunniis alalunga, Thunnus obesus, Thunnus thynnus, Scyliorhinus canicula, Diplodus sargus, Sparus auratus, Spondyliosoma cantharus, Squalus acanthias, Zeus faber. Dans ce cas, l'ADN sonde de chaque espèce est avantageusement constitué d'un oligonucléotide comportant au plus 50 nucléotides, de préférence de 17 à 24 nucléotides, et correspondant à une portion espèce spécifique, de l'ADN mitochondrial codant pour le cytochrome b de la dite espèce, comprise approximativement entre les nucléotides n° 15162 et n° 15497 de l'ADN mitochondrial codant pour le cytochrome b, les numéros des nucléotides correspondant à leur position par rapport à la séquence nucléotidique de l'ADN mitochondrial humain codant pour le cytochrome b prise comme référence (S. Anderson et al. Nature 290, 457-465, 1981 Genbank, J01415), après alignement du gène de ladite espèce codant pour le cytochrome b avec le gène humain de référence codant pour le cytochrome b. L'alignement est par exemple réalisé avec la méthode Clustal__w décrite précédemment. En particulier, l'ADN sonde de chaque espèce est constitué d'un oligonucléotide comportant au plus 50 nucléotides, de préférence de 17 à 24 nucléotides, et correspondant à une portion espèce spécifique, de l'ADN mitochondrial codant pour le cytochrome b de la dite espèce, comprise approximativement entre les nucléotides n° 15162 et n°15392 ou n°15411 et n°15497 de TADN mitochondrial codant pour le cytochrome b, les numéros des nucléotides correspondant à leur position par rapport à la séquence nucléotidique de l'ADN mitochondrial humain codant pour le cytochrome b prise comme référence (S. Anderson et al. supra, Genbank, JO 1415), après alignement du gène de ladite espèce codant pour le cytochrome b avec le gène humain de référence codant pour le cytochrome b. Dans le cas des espèces ci-dessus mentionnées, cette portion espèce spécifique comprise approximativement entre les nucléotides n°15162 et n° 15497 correspond à la séquence consensus suivante qui regroupe sous forme générique toutes les séquences trouvées chez les espèces sus-mentionnées :
CTNCCNTGRGGNCARATRTCNTTYTGRGGNGCNACNGTHATYACNAAY
YTNHTNTCNRCNNTYCCNTAYRTNGGNRNNNHNYTNGTNSARTGRRYY TGRGGNGGNTTYTCNRTNGAYAAHSCNACHYTNAMHCGNTTYTTYRCH
WTYCAYTTYHTHYTNCCNTTYNTHRTYINΓYMISNNYND YNNTNNTNCAY HTRHYNTTYYTNCAYGARWCNGGNKCHAAYAAYCCNNYNGGHHTHNH NTCNRA YNBNGA YAAARTHHCNTTYCA YCCNTA YTWYWCNHWYAARG AYNYNYTNGGNNYNNYMVFBNNTNNYNNYNNBNYTNNYNNBHYTNRYH YTVYTHDHNCCNVAYHTNYTNGGVGAYSCNGANAAYTWYY dans laquelle :
M : A ou C
R : A ou G
W : A ou T S : C ou G
Y : C ou T
K : G ou T
V : A, C ou G
H : A, C ou T D : A, G ou T
B : C, G ou T
N : A, C, G ou T
Préférentiellement, les sondes ADN correspondent à un fragment espèce spécifique de l'ADN codant pour le cytochrome b de l'espèce dont elle est la sonde qui a l'une des séquences suivantes, avec éventuellement un à 5 nucléotides de moins à l'une ou l'autre des extrémités 3' ou 5' et/ou un à 5 nucléotides de plus à l'une ou l'autre des extrémités
3' ou 5' :
SEQ ID N° 10 : TACTACTGGTACTATTCACACC SEQ ID N° 11 : ACTAGTACTATTCGCACCGG SEQ ID N° 12 : ATTAAGGACATCTTAGGGGC SEQ ID N° 13 : ATATCTTAGGCGCCATGCTA SEQ ID N° 14 : GTCATCACTAACCTTCTCTCAG SEQ ID N° 15 : CCTTCCATTTTATCCTCCCA SEQ ID N° 16 : ATCCTAGGTGCTATCCTACT SEQ ID N° 17 : GGCATAGACTTAGTCGAGTG SEQ ID N° 18 : CCATCAAAGACATTCTGGGC SEQ ID N0 19 : TTCTCGTACTGTTCTCACCA SEQ ID N° 20 : TGATGCTAGCCCTACTTATC SEQ ID N° 21 : TTTAGGAGCACTGCTACTTATT SEQ ID N° 22 : TCTTAGGTGCCCTACTCTTA
SEQ ID N0 23 : CAGCACTCGCTATAGTACAC SEQ ID N0 24 : CAAAGACATTCTAGGCATCC SEQ ID N0 25 : CACTAGGTCTCACTTCAGAC SEQ ID N0 26 : CACTAGCAGGAGTACACCTA SEQ ID N° 27 : TTCTCCTCCTAGTCCTACTC SEQ ID N0 28 : CCTGATCTTGCTCCTACTAA SEQ ID N0 29 : TCGGGACTGAACTAGTAGAA SEQ ID N0 30 : TCTTCCTTCTCTCCTTAATGAC SEQ ID N0 31 : TGCAGCTCTAGTGATAATTCAC SEQ ID N0 32 : GTAGCCATTCTTCTCCTCCT SEQ ID N° 33 : TCCTTGTCCTACTCACACTA SEQ ID N° 34 : TCGCCTTTCATTTT ATCCT ACC SEQ ID N0 35 : CTCCTCATCCT ACTCACATT SEQ ID N° 36 : TTGACCCGATTCTTCGCTT SEQ ID N° 37 : GACTT ACTTGGAGTGTTCAT AC SEQ ID N0 38 : CATCATTTCAGCACTAGCAG SEQ ID N° 39 : CCAATAACCCCTCTGGAATC SEQ ID N0 40 : CCTGGGAATTTT ACTCCT AATCC SEQ ID N0 41 : GGTTCTTTGCTTTCCACTTC SEQ ID N° 42 : CGTATATCGGCACAACTCTC
SEQ H) N0 43 : GCCCTGCTTCTAATTATAGTATT SEQ ID N° 44 : CTGATCCTAGTATTACTCATCCT SEQ ID N° 45 : CTGCCATTCATCATTACCG SEQ DD N0 46 : CTAGCCTTAGCAACTCTAGTC SEQ ID N° 47 : CATCTTGACACTAGCAGCAG SEQ ID N0 48 : TACTTCTCGCCCT AACCTTA SEQ ID N° 49 : ACTTCTCACCCTAGCCTTA SEQ ID N° 50 : CCTAGGTCTTGTATCAGACTGT SEQ ID N0 51 : TTTATTCTTATACTCACCCCCC SEQ ID N° 52 : CCTCTCCTAATCCTAGCCTTT SEQ ID N° 53 : CTAACCCCCTTACTCACATTA SEQ ID N0 54 : AACTCTAGT AGAGTGGGCGT SEQ ID N° 55 : TGATACTTACCCCATTCCTC SEQ ID N° 56 : CATTCTGGGCTTAACTCTCAT SEQ ID N° 57 : TAACCCTAGCCTTCTTCTCA
SEQ ID N° 58 : CCCTACTATCCCTAGCATTC
SEQ ID N° 59 : TTGCTGGGGCCACAATA
SEQ ID N° 60 : CTTTCTTCGTCCTCCATGTA
SEQ ID N° 61 : TAGCTCTTACACTACTAGCACT SEQ ID N0 62 : CTAACCTTTTATCAGCAGTCC
SEQ ID N° 63 : AGACCTCCTTGGCTTTGTAA
SEQ ID N° 64 : CCTCCTACACCTGCT ATTTTT
SEQ ID N° 65 : ATGCTACCCTAACTCGGTTT
SEQ ID N° 66 : CTAATGTCCACTGTCCCCTA SEQ ID N° 67 : GTTCTAATTGGATTAACTAGCCTC
SEQ ID N° 68 : ATCGTTTTAATTGGCCTAGCT
SEQ ID N0 69 : CTAATCGCTCTAACAGCTCTAGC
SEQ ID N° 70 : TAACCAGCGGGGATT AACTC
SEQ ID N° 71 : TGGAAACGCCCTTGTACAAT SEQ ID N° 72 : TTCACCTTCTGTTCCTTCATG
SEQ ID N° 73 : CATCCTTAGCTCTATTCGCA
SEQ ID N° 74 : CATCATTAGCTCTGTTCGCA
SEQ ID N° 75 : TCGTAGCTATATTGCTTGGC
SEQ ID N° 76 : CTGCTGTACCCT ATGTAGGA SEQ ID N° 77 : CAATTCTGCTTGTTGCACT
SEQ ID N° 78 : TGGCAGCAACAATTCTTCAC
SEQ ID N° 79 : TTCCCCTTTGTTATCTTAGCG
SEQ ID N° 80 : TATGTTGGAACTACCCTCGTT
SEQ ID N° 81 : ATATGTCGGAACTACCCTCG SEQ ID N° 82 : TGATCCTGCTAGTAGCACTC
SEQ ID N° 83 : ACCTTATTAGCAACCTTAGCA
SEQ ID N° 84 : TTCCTTCTCCCCTTCGTTGT
SEQ ID N° 85 : TAACTTGTCTTGCCCTATTCG
SEQ ID N° 86 : AAGATCTGCTAGGGTTTGCA SEQ ID N° 87 : ATTCCTAATCGTGGGCCTAA
SEQ ID N° 88 : TATCCACCTTGTCCTTGTTC
Dire que les sondes peuvent comprendre un à 5 nucléotides de plus à l'une et/ou l'autre des extrémités 3' ou 5', de ces séquences signifie qu'elle peut inclure à chaque extrémité de une à cinq bases adjacentes dans le gène codant pour le cytochtome b de l'espèce dont elle est la cible, ce qui revient à déplacer un peu la séquence sonde sur le
génome. Le tableau présenté figure 5 indique, pour chaque sonde de séquence SEQ ID N0 10 à SEQ ID N° 88, de quelle espèce elle est spécifique.
L'invention a donc également pour objet les ADN sondes ci-dessus mentionnées, et en particulier celles correspondant aux séquences SEQ ID N° 10 à SEQ ID N° 88. Par puce ADN, on entend tout support solide sur lequel sont immobilisés des fragments d'ADN. On pourra notamment se référer à « DNA chips : a new tool for genetic analysas and diagnostics". M. Cuzin. Transfusion clinique et Biologique 2001 ;8 : 291-6 ; et "How to make a DNA chip "Mickael C Pirrung. Angew. chem. Int. ed 2002,41, 1276, 1289. La biopuce va être destinée à recevoir, sous forme liquide, l'échantillon organique d'intérêt suspecté de contenir au moins une substance biologique issue d'une espèce cible appartenant au groupe de vertébrés représenté sur la puce à ADN par une sonde spécifique.
Classiquement, une biopuce comprend un support comportant une face utile avec une surface opératoire en contact avec l'échantillon organique d'intérêt. Le support est constitué en un matériau inerte, au sens où il n'interagit pratiquement pas avec l'échantillon, par exemple du silicium, un verre, ou une matière plastique, par exemple une résine de synthèse thermodurcie ou thermoplastique, tel que du polypropylène, un polystyrène ou une résine polyacrylamide. Un ensemble de sites élémentaires, également nommés cellules, sont distribués sur la surface opératoire, à la manière de pixels, par exemple selon au moins deux axes de référence, chaque site élémentaire étant adressé, c'est-à-dire identifié par des coordonnées qui lui sont uniques dans tout repère approprié, formé par exemple par des axes de références. Ces sites élémentaires peuvent être traités ou non, en vue de l'immobilisation ou de l'ancrage des ADN sondes. Sur chaque site élémentaire, un nombre important d'ADN sondes conformes à l'invention, identiques, sont immobilisés, par tous moyens appropriés, par exemple chimique, par liaison covalente, ou par l'intermédiaire d'un bras espaceur, par adsorption, absorption, ... grâce à des techniques de photolithographie ou par un système piézo-électrique, par dépôt capillaire de ligands préformés notamment. Une multiplicité de sondes ADN sont fixées chacune en nombre multiple sur des sites élémentaires respectivement différents. Avantageusement, au moins 400 séquences d'oligonucléotides identiques et préférentiellement au moins 1000 séquences sont fixées par site élémentaire.
La puce à ADN est généralement agencée pour coopérer avec au moins un appareil ou instrument qui va délivrer un signal de sortie en relation avec la présence et la nature, et éventuellement la quantité de substance biologique issue de ladite espèce cible. Des
moyens d'observation, transmission, ou émission du signal ou des signaux de sortie, correspondant à l'hybridation de l'ADN sonde avec l'ADN amplifié de l'espèce cible, respectivement en un ou plusieurs sites de liaison, permettent, en final, la détection de la formation ou de l'absence de formation de complexes d'hybridation, de façon à déduire si l'échantillon de matière organique peut contenir de la matière biologique issue d'une ou plusieurs des espèces animales appartenant au groupe donné de vertébrés représenté sur la puce ADN et identifier la ou les espèces animales en question. Pour permettre cette détection, l'ADN sonde ou l'ADN amplifié sera avantageusement marqué. Par marquage, on entend la fixation sur la sonde ou la cible, de manière covalente ou autre, d'un marqueur, permettant, notamment après illumination, l'émission d'un signal de sortie qui pourra être détecté. A titre d'exemple de marqueurs, on peut citer : les enzymes, par exemple d'oxydation d'un chromogène telles que la peroxydase de raifort ou la phosphatase alcaline, les fluorophores tels que la fluorescéine, la cyanine, Cy3 ou Cy5, la phycoérythrine, les luminophores tels que le luminol, l'isoluminol, l'ABEI (N-4-amino- butyl-N-éthyl-isoluminol) ou encore les haptènes tel que la biotine. Le ou les signaux de sortie varient donc, en fonction des marqueurs mis en oeuvre, et du type de détection requis. II peut s'agir de signaux lumineux, électriques, électro-optiques, électrochimiques, etc.... qui sont détectés séparément, compte tenu, de l'adressage des sites élémentaires de la puce ADN. La réaction ou l'émission constituant le signal de sortie est, de préférence, détectée, voire mesurée, de manière automatisée.
Toutes variantes structurelles connues dans le domaine des biopuces s'appliquent à la puce ADN selon l'invention. On pourra pour plus de détails sur ces possibilités se référer à la description générale des biopuces faite dans la demande de brevet WO03098217. Cette biopuce peut en outre comprendre, de manière intégrée ou non avec la surface opératoire et ses ligands ou sondes, différents moyens, ramenés à l'échelle de la biopuce, classiquement utilisés en laboratoire, pour : - obtenir ou préparer l'échantillon d'intérêt, à partir d'un autre échantillon dit de départ, par dénaturation, séparation, concentration, purification, etc. ; - traiter l'échantillon d'intérêt, par exemple par amplification, et/ou marquage avec un marqueur, avant sa mise en contact avec les ligands ou sondes ; - traiter le ou les complexes formés entre l'espèce cible et respectivement le ou les ligands, par exemple par marquage, afin d'obtenir, simultanément ou postérieurement à la formation des complexes, respectivement un ou des signaux de sortie.
D'après la description faite ci-dessus, la présente invention permet de résoudre un double problème technique rencontré dans de nombreux domaines actuels comme
l'agroalimentaire notamment, la traçabilité alimentaire, la lutte contre les fraudes, le commerce, et la protection de la biodiversité, c'est-à-dire : l'identification des différentes espèces d'un mélange rendue possible, même dans des produits où l'ADN est dégradé voir très dégradé (plats cuisinés, boîtes de conserves, restes d'animaux...) (Lefrançois et ai, L'ADN anti-fraudes. Biofutur, 165, 27-30, 1997). L'invention permet aussi bien l'identification d'une espèce seule dans un produit frais, que l'identification de plusieurs espèces dans un produit très dégradé. Aussi, la présente invention permet de lutter contre un très grand nombre de fraudes, et donc de protéger les consommateurs contre les éventuels remplacements répréhensibles et les espèces concernées contre la surexploitation ou l'exploitation prohibée.
L'invention est aussi applicable dans des domaines plus fondamentaux notamment en écologie et en systématique : suivi de populations à partir de traces (fécès, poils), caractérisation du régime alimentaire de certaines espèces carnivores (à partir de l'étude des contenus stomacaux), détermination de la biodiversité in situ détermination des espèces à divers stades lorsque les caractères morpho anatomiques sont inexistants ou difficile à mettre en évidence (oeufs, larves, juvéniles). Cette liste n'est pas exhaustive et illustre les potentialités très importantes de ce nouvel outil.
Un exemple précis de mise en oeuvre de l'invention est détaillé ci-après. La Figure 1 illustre schématiquement le principe du procédé selon l'invention. A - CHOIX DES ESPECES
L'illustration de l'invention porte sur l'identification d'espèces animales appartenant à quatre groupes taxonomiques de vertébrés, que sont les oiseaux, les mammifères, les poissons actinoptérygiens et les chondrichtyens, et plus précisément à 79 d'entre-elles, respectivement 9, 40, 28 et 2 espèces. Ces espèces ont été choisies parce qu'elles ont un intérêt économique et/ou de conservation important (en voie de disparition...) et que les séquences pour le fragment choisi sont disponibles dans les banques de séquences (Genbank, EMBL ...). Les espèces choisies, ainsi que leurs noms communs, le nombre de séquences utilisées comme références et leurs numéros d'accessions respectifs sont indiqués figure 3. Par exemple, pour le bison américain (Bison bison) une seule séquence dont le numéro d'accession est Y15005 était disponible et par conséquent utilisable pour déterminer l'oligonucléotide espèce-spécifique de cette espèce, alors que 11 séquences ont été utilisées pour la chèvre (Capra hircus).
B - CHOIX DES SONDES La détermination des oligonucléotides spécifiques, à l'ensemble sélectionné d'espèces appartenant au groupe taxonomique animal choisi, a été réalisée par
bioinformatique. Elle s'est effectuée de la façon suivante : la ou les séquences de l'espèce retenue pour le gène du cytochrome b ainsi que de la totalité des espèces proches disponibles, typiquement appartenant à la même famille, ont été téléchargées à partir de la banque internationale de séquences : Genbank, EMBL. Ces séquences ont ensuite été alignées avec un logiciel d'alignement (SeaView Galtier, et al. SeaView and Phylo_win, two graphie tools for séquence alignment and molecular phylogeny. Comput. Applic. Biosci., 12, 543-548, 1996), et à partir de cet alignement un arbre a été reconstruit utilisant pour cela un autre logiciel (Phylo_win Galtier et al, 1996 supra) et la méthode de reconstruction du Neighbor-Joining ou NJ (Saitou et al. The neighbor-joining method : a new method for reconstructing phylogenetic trees. Mol Biol Evol. 4(4), 406-425, 1987). La ou les séquences de l'espèce choisie, dont les numéros d'accession sont précisés figure 3, ont ensuite été comparées aux autres séquences des espèces proches disponibles. Deux ou trois oligonucléotides courts pour l'espèce considérée ont été choisis afin, d'une part de maximiser le nombre d'autapomorphies (sites uniques à l'espèce choisie) au sein de chacun d'entre eux, et d'autre part de placer les différences de bases observées avec les espèces les plus proches dans les positions les plus centrales possible. En effet, plus la position des mésappariements est centrale moins bien se fera l'hybridation par la suite entre l'oligonucléotide espèce-spécifique et d'autres espèces, par exemple entre l'oligonucléotide spécifique du boeuf et celui du bison. Ces oligonucléotides espèce- spécifiques ont ensuite été comparés à l'ensemble des séquences de banque internationale de séquences grâce au programme BLAST, (Altschul et al, Nucleic Acid Research, 25, 3389-3402, 1997) pour vérifier que leurs séquences étaient bien uniques et ne se retrouvaient pas chez un autre organisme par homoplasie (par hasard). Dans la plupart des cas, chaque sonde choisie pour une espèce, le plus souvent constituée de 20 bases, aura au moins trois bases différentes avec chacune des autres sondes choisies pour les autres espèces. Dans certains cas seulement, deux sondes choisies pour le groupe de vertébrés sélectionné ne différeront que de deux, voire d'une seule base. Les paramètres utilisés, notamment la longueur du mot et la pénalité des indels ont été diminués, respectivement L=7 et g=-2, afin de maximiser le nombre de chance de trouver des séquences très similaires. De plus, pour chacun des oligonucléotides espèce-spécifiques retenus, leur Tm (température de fusion) et leur éventuel repliement (Hairpin et Homoduplex) ont été calculés avec le logiciel ROSO (Raymond et al. Bioinformatics, 20(2) : 271-273, 2004). Ce logiciel utilise pour calculer la Tm (température de fusion (melting température), qui correspond à la température à laquelle la moitié des molécules ciblées est fixée à leurs sondes) le modèle thermodynamique du plus proche voisin tel que décrit par Santa Lucia.
Proceeclings of the National Academy of Sciences ofthe USA, 95: 1460-1465 (1998). Les homoduplex (appariement entre deux brins identiques) sont calculés par les méthodes décrites par (Breslauer et al. Proceedings of the National Academy of Sciences of the USA, 83 : 3746-3750, 1986, et Freier et al. Proceedings of the National Academy of Sciences of the USA, 83 : 9373-9377, 1986) Enfin, les hairpins (repliement d'une sonde sur elle-même pour former une hélice) sont calculés par la méthode de (Groebe et Uhlenbeck, 16 : 11725-11735, 1988)).
Les valeurs seuils d'énergie libre utilisées (calculées toutes les deux à 65°C) pour les structures secondaires sont pour les hairpins (DG hairpin) : -0,3 kcal/mol et les homoduplex (DG homoduplex) : -6, 1 kcal/mol (les valeurs calculées pour nos oligonucléotides sont précisées dans figure 5). C'est-à-dire qu'au sens de l'invention, on considère qu'un oligonucléotide sonde ne se replie pas sur lui-même, si son hairpin et son homoduplex sont supérieurs à ces valeurs seuils. Une fois l'ensemble des Tm calculées, celles ci ont été homogénéisées en augmentant ou diminuant la longueur de chacun des fragments afin que l'ensemble des oligonucléotides se situe dans une fenêtre de quelques degrés, soit 3 0C : entre 67 et 700C. Au sens de l'invention, on considère qu'un ensemble d'oligonucléotides sondes est apte à s'hybrider dans des conditions de température d'hybridation comparables, si il existe entre la Tm la plus élevée et la Tm la plus faible, des oligonucléotides du groupe, au plus 3°C d'écart. Ainsi, 79 oligonucléotides espèce- spécifique ont été déposés sur la puce. L'ensemble du protocole (Etape A-E) développé pour déterminer les oligonucléotides est explicité figure 4, en prenant l'exemple du bar Dicentrarchus labrax.
Les oligonucléotides sondes espèces spécifiques ont été préparés selon les méthodes classiques de synthèse nucléotidiques. Une AMINE C6 en position 5' a été ajoutée sur chaque oligonucléotide. Cette amino-modification a été ajoutée pour améliorer la qualité des oligonucléotides et permettre leur fixation sur les supports de puce ADN choisis, à savoir des lames Quantifoil®. L'ensemble des informations concernant ces oligonucléotides est précisé dans le tableau donné à la figure 5. C - SONDE DE PCR Les quatre amorces utilisées sont les oligonucléotides dégénérés qui correspondent aux séquences SEQ ID N°2, 4, 6 et 8 modifiées en 5' par ajout d'un phosphate ou de Cy3. Leur position sur le cytochrome b humain (Genbank J01415) est donnée figure 2. Elles sont nommées L15162P, L15411P, H15392CY3, H15497CY3. Le nombre indique la position de l'extrémité 3' de l'amorce sur le gène complet du cytochrome b de l'humain ; L indique que les amorces sont situées sur le brin orienté 5'-
3' dans les banques de séquences internationales ; H: indique que les amorces sont situées sur le brin complémentaire, P pour le phosphate et CY3 pour le fluorophore.
Le phosphate a été rajouté lors de la synthèse des oligonucléotides à l'extrémité 5' des deux amorces situées sur le brin léger soit L15162P et L 15411P et un fluorophore (Cy3) à l'extrémité 5' des deux autres amorces situées sur le brin lourd soit H15497CY3 et H15392CY3. Ces modifications permettent ainsi, d'une part d'éliminer le brin complémentaire lors de la digestion par une enzyme particulière la lamba exonucléase qui agit pendant 30 minutes à 37°C dans le tampon de l'enzyme lambda exonucléase fourni par le fabriquant (tampon concentré 10 fois contient 0,67M glycine-KOH (pH 9,3) et 2mM MgCl2), et d'autre part de disposer ainsi d'un monobrin marqué avec un fluorophore à l'issue de la PCR. Ce marquage direct (amorce de PCR marquée) permet d'éviter une étape supplémentaire de marquage. Il est donc possible à partir de ces trois couples d'amorces d'obtenir trois fragments de longueur différente : un long, un moyen et un court. Le long fragment, d'une longueur de 373 paires de bases est compris entre les amorces L15162P et H15497CY3. Le fragment moyen, d'une longueur de 269 paires de bases est compris entre les amorces L15162P et H15392CY3. Le fragment court, d'une longueur de 124 paires de bases, est compris entre les amorces L15411P et H15497CY3. La longueur totale des fragments inclut à chaque fois les amorces. D - PCR Après extraction, réalisée à partir du kit de Qiagen, le fragment ciblé est amplifié avec un des trois couples d'amorces. L'une est marquée avec un fluorophore en 5' le Cy3 et l'autre possède un phosphate en 5'.
Les trois couples d'amorces de séquences dégénérées :
- SEQ ID N° 2 et SEQ ID N° 4, - SEQ ID N° 2 et SEQ ID N° 6,
- SEQ ID N0 4 et SEQ ID N0 8. ont été validés pour la totalité des espèces testées, soit 70 espèces sur les 79. Tous les échantillons ont été extraits avec un kit d'extraction commercial. Aucune amplification aspécifique n'a été mise en évidence à l'exception de quelques espèces où généralement 1 ou 2 bandes aspécifîques sont visibles (figure 6), ce qui nuit nullement à la réaction ultérieure d'hybridation. Plusieurs conditions de PCR ont été testées pour l'ensemble des espèces et les meilleurs résultats ont été obtenus avec une hybridation à 45°C.
E-DEPOTDESSONDESSURLAPUCE
Les oligonucléotides sondes ont été déposées sur des lames Quantifoil® à une concentration de 25 μmolaires, pour constituer la puce ADN. De plus, un certain nombre
de contrôles et de gammes étalons a été déposé de part et d'autre des dépôts des oligonυcléotides sondes espèce-spécifiques pour vérifier que l'hybridation s'est bien déroulée et, par la suite, faciliter le placement de la grille pour la lecture du résultat avec le scanneur GeneTAC™ LS IV (utilisant le logiciel GeneTAC Integrator 3.3, Genomic solutions) et son exploitation avec les logiciels d'analyse comme GenePEX™ cPro 4.1 (Axon Instruments, Inc.).
F - REACTION D'HYBRIDATION
Après purification avec un kit de purification commercial, le brin phosphaté est digéré par la lambda exonucléase pendant 30 minutes à 37°C, puis de nouveau purifié. Le monobrin est finalement remis en suspension dans le tampon d'hybridation fourni par le fabriquant. L'hybridation se déroule à 500C dans un four à hybridation et ceci pendant toute la nuit. Les différentes étapes du procédé de l'invention sont résumées figure 8. Les conditions de traitement de la lame avant et après l'hybridation sont celles fournies par le fabriquant. F.1. - VALIDATION SUR DES ESPECES CONNUES
Le protocole utilisé pour valider les oligonucléotides espèce-spécifiques est celui développé lors de cette invention et décrit à la figure 8. Ainsi, chaque échantillon a été extrait avec un kit commercial, puis amplifié, puis digéré. Une fois ces trois étapes réalisées séparément pour chaque échantillon, plusieurs ont été mis en commun (généralement 4 ou 5) afin de valider au plus vite notre approche. Ces échantillons ont été choisis suffisamment éloignés phylogénétiquement pour pouvoir identifier facilement quelles espèces hybridées sur plusieurs oligonucléotides à la fois.
70 espèces ont été amplifiées, et testées sur la puce. Toutes se sont hybridées sur son oligonucléotide espèce-spécifique. F.2. VALIDATION DE LA METHODE AVEC DES MELANGES
Deux types de mélange ont été réalisés avec des ADN extraits : des mélanges équimolaires (à concentrations quasi identiques) et des mélanges avec des concentrations différentes. Les concentrations des divers échantillons ont été mesurées sur un spectrophotomètre (Tableau 2). Tableau 2. Récapitulatif des espèces contenues dans les deux mélanges équimolaires, à gauche la composition du mélange A et à droite celle du mélange B.
MELANGE A MELANGE B
Espèces Concentrations (ng/μl) Espèces Concentrations (ng/μl)
Al c es al ces 49,4 Rupicapra rupicapra 102,2
Lepus europaeus 43,8 Bison bison 56,6
Cairina moschata 29,6 Cotwm'x oturnix 97
Scomber scombrus 32,6 Anguilla an gui] la 86
Tinca tinca 63,2 Sahno salar 86
Après hybridation, les 5 espèces dans les deux mélanges ont été parfaitement détectées, ce qui veut dire que le procédé selon l'invention permet bien d'identifier les diverses espèces de vertébrés d'un mélange (Figure 9 (A) et (B)). Sur la Figure 9 (A), (B) et (C), les hybridations spécifiques correspondant aux espèces présentes sont indiquées. Les autres points entourés correspondent aux contrôles positifs et négatifs.
Un autre type de test a aussi été réalisé, afin d'évaluer la sensibilité du procédé de l'invention. Pour cela, deux mélanges ont été préparés avec les deux espèces suivantes : Sahno salar et Anguilla anguilla. Ces deux mélanges, mélange 1 et 2, contiennent respectivement 66% de Sahno salar et 33% d'Anguilla anguilla; et 90% de Sahno salar avec 10% d'Anguilla anguilla. Dans les deux cas, les deux espèces sont retrouvées après mise en œuvre de la puce ADN élaborée. L'intensité de fluorescence de l'espèce présente en plus grande quantité {Salmo salar) est beaucoup plus forte que celle d'Anguilla anguilla et ceci dans les deux cas (Figure 9 (C)). F.3. - VALIDATION SUR DES PRODUITS TRANSFORMES
Trois types de produits transformés ont été testés (Tableau 3). L'amplification du fragment long (373 paires de bases) a été possible pour 2 d'entre-eux, soit le saucisson d'âne et le pâté de porc. Pour la conserve de maquereau, seuls le fragment court et le fragment moyen ont pu être amplifiés. Les résultats des hybridations sont résumés ci- dessous (Tableau 3).
Tableau 3. Liste des échantillons testés (noms et composition indiquée sur l'étiquette) et comparaison avec les résultats obtenus par le procédé selon l'invention Echantillons testés Résultats de l'hybridation
Noms Composition
Saucisson d'âne Ane et porc Equus caballuset Sus scrofa
Pâté de porc Porc Sus scrofa
Conserve de maquereau Maquereau Scomber scombrus
Pour le pâté de porc et la conserve de maquereau, le résultat est en accord avec ce qui est indiqué sur l'étiquette. Par contre, pour le saucisson d'âne, il y a eu fraude. En effet, le produit intitulé "Saucisson d'âne" contenait, d'après l'étiquette, du porc et de l'âne.
Le test sur puce ADN selon l'invention met en évidence que ce produit contient effectivement du porc, mais aussi du cheval (Eqiuis caballus). De plus, la présence d'âne dans le produit n'a pas été mise en évidence. Ces résultats ont été confirmés par la technique de clonage et séquençage.
L'ensemble de l'invention a donc été validée et ceci sur des espèces seules, en mélange et aussi sur plusieurs produits dégradés.