METHODE DE MESURE QUANTITATIVE DE L'EXPRESSION DES GENES
La présente invention porte sur un procédé de réalisation de mesures quantitatives de niveaux d'expression ou de variabilité d'expression de grands ensembles de gènes, dans la technique des puces à ADN.
Dans l'ensemble du texte qui suit les termes employés ont la signification suivante : SONDE : signifie toute séquence d'acides nucléiques marqués représentative d'un mélange complexe que l'on souhaite étudier et dont une analyse des éléments est recherchée ; ces sondes sont obtenues par transcπption ou rétro-transcription du mélange complexe d'acide nucléique du départ le cas échéant suivie par une méthode d'amplification des séquences.
Ces sondes sont marquées directement ou indirectement afin d'émettre un signal détectable par les techniques classiques. Ce marquage peut être un marquage radio-actif, notamment avec du phosphore P32 ou du phosphore P33, ou non isotopique tel un marquage enzymatique ou fluorescent. Il peut s'agir d'ADN simple brin, d'ADN double brin ou d'ARN.
CIBLE : on entend par cible les séquences d'acides nucléiques fixées de manière ordonnée sur une puce. Ces séquences sont généralement connues ; elles peuvent être un acide nucléique simple brin ou un acide nucléique double brin. Elles sont susceptibles d'être hybridées avec les sondes représentatives de la population que l'on cherche à étudier.
CALIBRAGE : signifie un procédé d'obtention d'une population d'acides nucléiques représentative d'une population de départ et sensiblement homogène en taille. Par sensiblement homogène, on entend que pour une taille choisie, la différence de longueur n'excède pas 20 %, et
de préférence 10 % pour des longueurs supérieures à la taille choisie, et 50 % pour des longueurs inférieures à la taille choisie.
PUCE : dans les présentes, on entend par puce tout support porteur, et ce de façon ordonnée, de séquences cibles nucléotidiques ou oligonucléotidiques hybridables avec des sondes. Les supports peuvent être, soit en silice, soit en verre, soit en polymère organique de type nylon ou nitrocellulose. Les séquences nucléotidiques ou oligonucléotidiques peuvent y être fixées par tout moyen connu de l'homme du métier à partir du moment où l'hybridation avec les séquences cibles est possible. Dans les présentes, on parlera de puce, de micro-réseau ou micro-array, de macro-réseau ou macro-array. Sur les caractéristiques de ces différentes technologies de puce, on pourra avantageusement se rapporter à S. GRANJEAUD et al. (1).
TRANSCRIPTOME : par transcriptome, on entend la totalité des ARN extraits ou purifiés d'une cellule ou d'une population cellulaire. Un transcriptome est le reflet de l'expression du génome. Les quantités relatives de chaque ARN sont le reflet de l'expression du gène correspondant ; une modification de ce taux d'expression peut résulter soit d'une modification de l'expression du gène correspondant, soit d'une modification de la stabilité de l'ARN en cause. En tout état de cause, cette modification est susceptible d'avoir des conséquences sur la structure et/ou sur la quantité des protéines synthétisées, lorsqu'il s'agit d'ARN messager.
ACIDE NUCLEIQUE : par acide nucléique, on entend ici toute séquence simple brin/double brin, exprimée ou copie, à partir du moment où elle est hybridable avec un ARN messager du transcriptome ou de sa séquence complémentaire.
L'identification de l'expression génétique en réponse à différentes conditions physiologiques ou pathologiques apparaît comme une approche essentielle à l'élucidation des mécanismes moléculaires associés à certaines pathologies, à des traitements thérapeutiques ou à un état particulier de développement d'organes ou de tissus.
La technologie des puces sur lesquelles sont fixées de l'ADNc ou des EST à haute densité offre une approche directe pour ce type d'analyse.
Les mesures d'expression à grande échelle reposent toutes sur l'emploi d'une sonde complexe préparée à partir d'un transcriptome et hybridée avec un jeu ordonné (array) de plusieurs centaines ou milliers de cibles représentant chacune un gène différent. La grande force de cette approche est son parallélisme : chaque hybridation donne un renseignement sur chaque gène représenté dans le jeu et ses informations sont cumulatives. L'intérêt croissant porté à ces technologies s'explique par deux raisons évidentes : la première est que la connaissance du niveau d'expression d'un gène dans différents tissus ou différentes situations physiologiques ou pathologiques permet d'émettre des hypothèses sur son rôle ; la seconde est d'ordre technique : ces données sont à l'heure actuelle les seules susceptibles d'être obtenues pour de grands ensembles de gènes, et elles s'inscrivent dans la continuité du travail de séquençage de banques d'ADNc ou de génomes entiers.
L'étude conjointe d'un grand nombre de séquences et de tissus dans lesquels s'expriment les gènes correspondants ainsi que la comparaison des profils obtenus à partir de tissus sains et pathologiques, ou dans différentes situations d'un même tissu, permet d'identifier des gènes cibles susceptibles d'être impliqués dans un phénomène biologique. On parle alors de "gène discovery". Il est aussi possible de choisir de travailler avec un plus petit nombre de gènes connus et sélectionnés a priori pour leur implication certaine ou supposée dans un processus biologique. La mesure du profil d'expression relevée sur ce jeu de gènes est alors employée pour caractériser l'état du tissu étudié et en tirer des indications diagnostiques ou des éléments de pronostic.
Dans le cadre d'études d'expression à grande échelle (sur puces à ADN), des sondes complexes sont réalisées à partir d'un mélange d'ARN (ARN totaux ou messagers, extraits par exemple d'un tissu ou d'une
culture cellulaire). Ces sondes sont ensuite hybridees avec des séquences d'ADN cibles déposées sur un support (membrane de Nylon, verre...). La quantification des signaux obtenus pour chaque cible permet de déterminer la quantité de l'ARN correspondant dans le tissu (ou la culture cellulaire) étudié. La réalisation de la sonde complexe est une étape clé, puisque les produits présents dans la sonde (produits obtenus après transcription inverse des ARNm) doivent refléter rigoureusement la représentativité de chaque ARNm dans le mélange initial. Or, l'efficacité de la réaction de transcription inverse n'est pas la même pour toutes les séquences d'ARN : des structures secondaires très stables peuvent par exemple bloquer la réaction de synthèse d'ADNc. Or, la plupart du temps, des nucléotides marqués sont incorporés à cette étape afin de permettra la détection des signaux d'hybridation. La mesure obtenue pour deux ARN messagers présents à des concentrations égales peut être différente du fait de deux phénomènes distincts : i) si ces deux ARN sont de tailles différentes ou ii) pour des ARN de taille identique, si il y a arrêt prématuré de la rétrotranscription pour l'un des deux, produisant deux ADNc de tailles différentes. Ces deux phénomènes introduisent le même biais : lors du marquage, le fragment le plus long incorpore plus de nucléotides marqués et sa mesure est surévaluée. Dans des conditions de transcription inverse classiques, les ADNc obtenus ont des tailles comprises entre 7kb et 300 nucléotides, comme le montre la publication de Rajeevan MS et coll. (5). Les auteurs de la publication Chen JJW et coll. (1998) (4) soulignent le problème du biais des mesures dû aux différences en tailles des transcrits de la sonde.
Il existe donc un besoin réel d'une méthode fiable permettant de transcrire la population complexe d'ARNm en ADNc de tailles homogènes, afin que les ADNc aient tous la même activité spécifique, et que le mélange d'ADNc obtenu soit la représentation exacte (en terme de nombre de molécules) du mélange d'ARNm initial. L'hybridation de la sonde sur une puce à ADN reflétera alors exactement la représentativité
des ARN dans le mélange initial et générera des données reproductibles, parfaitement quantitatives, permettant non seulement de réaliser des différentiels d'expression (par exemple pour des conditions physiologiques différentes) mais aussi de réaliser des mesures exactes du nombre de transcrits pour une condition donnée.
De la même façon, les études d'expression à grande échelle nécessitent la plupart du temps des quantités importantes d'ARN (classiquement issues de plusieurs milligrammes de tissu ou de plusieurs millions de cellules), afin d'obtenir des sondes complexes permettant de détecter de façon fiable les ARN messagers peu abondants. Cette contrainte rend nécessaire une étape d'amplification des ARN ou des ADNc correspondants pour leur application à l'étude de tissus ou de cellules disponibles seulement en très faibles quantités, comme c'est le cas par exemple pour certaines biopsies. Il existe donc un besoin réel d'une méthode fiable permettant, à partir d'un petit nombre de cellules (et donc de faibles quantités d'ARN), d'amplifier de façon homogène la population complexe d'ARNm afin de produire une sonde en quantité suffisante pour l'hybridation des puces à ADN, sonde qui reflète la représentativité des ARN dans le mélange initial (aussi bien les ARN fortement exprimés que pour ceux faiblement exprimés) et qui génère des données d'hybridation reproductibles.
Différentes méthodes d'amplification ont déjà été appliquées à la réalisation de sondes complexes. La méthode la plus couramment utilisée est une amplification par PCR. Cette technique permet d'amplifier une séquence d'ADN, mais uniquement lorsque les séquences des extrémités 5' et 3' sont connues, afin de permettre le choix d'amorces de part et d'autre de la séquence à amplifier. Dans le cas d'un mélange complexe d'ARN messagers dont les séquences sont inconnues, ces amorces peuvent être introduites lors des étapes de synthèse des premiers brins (par transcription inverse) et seconds brins, et l'on parle alors de PCR ancrée. Différentes méthodes de PCR ancrées ont précédemment été
décrites, la plus courante étant d'initier l'étape de transcription inverse avec un oligonucièotide poly T flanqué d'une séquence connue (ancre 3'), puis d'ajouter une queue homopolymérique (par exemple des G) à l'extrémité 3' des ADNc sb (complémentaires simple brin) néo-synthétisés, grâce à l'activité enzymatique de l'enzyme déoxyribonucléotidyle transférase terminale (TdT). Le second brin est ensuite synthétisé à partir d'une amorce poly C (déoxycitidines) flanquée d'une séquence connue (ancre 5'). Les ADN double brin ainsi obtenus sont alors amplifiés par des PCR emboîtées à partir d'amorces choisies dans les ancres 5' et 3'. Le problème de l'amplification par PCR est que le rendement d'amplification d'un fragment nucléotidique est fonction de la taille du fragment concerné : un fragment court co-amplifié par PCR avec un fragment plus long sera toujours prépondérant dans le produit final de réaction, et ce même si il était moins abondant dans le mélange initial. Ce biais devient particulièrement gênant lorsqu'il s'agit d'étudier justement les niveaux d'expression de gènes : il est absolument essentiel que chaque ARNm soit présent dans les mêmes proportions dans la sonde complexe que dans le type cellulaire ou le tissu dont il provient.
En effet, pour chaque ARNm présent dans le mélange initial, la taille du produit amplifié dépendra, d'une part, de l'efficacité de l'étape de transcription inverse, d'autre part, de l'amorçage de la synthèse du second brin et des étapes d'amplification. Au cours des étapes d'amplification par PCR, il suffit d'un appariement non spécifique à l'intérieur d'un des deux brins pour que le produit non spécifique (plus court que les fragments spécifiques attendus) devienne majoritaire dans le produit final de réaction.
Pour les produits de petite taille, la quantité de radioactivité, de flourescence, ou encore de molécule rapporteur (par exemple biotine) incorporée par molécule sera moins importante que pour les produits de plus grande taille, introduisant là aussi une différence potentielle d'intensité des signaux obtenus après hybridation des puces.
Une autre technique d'amplification des ARN, cette fois-ci linéaire, a également été décrite (Van Gelder et coll., 1990, PNAS 87: 1663-1667). Cette méthode permet, par transcription inverse des ARN messagers amorcée à partir d'un oligonucièotide contenant plusieurs T (complémentaires de la queue poly A des ARN messagers) flanqués d'une séquence reconnue par l'ARN Polymérase du phage T7, d'obtenir des ADNc simple brin comprenant à leur extrémité 5' la séquence promotrice pour la T7 ARN Pol. La synthèse d'un double brin complémentaire de l'ADNc simple brin est ensuite initiée selon différents protocoles : - soit par la méthode dite de l'épingle à cheveux (Maniatis et coll., 1978, Cell, 15 : 687-701), qui implique une réaction à la Nucléase S1 difficile à contrôler et conduisant à des réarrangements dans la partie correspondant aux extrémités 5' des ARNm ;
- soit par la méthode dite de Gubler et Hoffman (Gubler et Hoffman, 1983, Genêt., 25 : 263-269), qui peut elle aussi générer des épingles à cheveux et nécessiter un traitement à la Nucléase S1 ;
- soit par la technique dite du "tailing", qui consiste à rajouter grâce à l'activité enzymatique de la TdT une queue homopolymérique à l'extrémité 3' des ADNc simple brin néo-synthétisés, puis à amorcer la synthèse du second brin à partir d'un oligonucièotide complémentaire de la queue homopolymérique.
Les produits double brin obtenus sont ensuite amplifiés par incubation avec l'enzyme T7 ARN polymérase. Cependant, pour chaque ARNm présent dans le mélange initial, la taille du produit amplifié dépendra, d'une part, de l'efficacité de l'étape de transcription inverse et, d'autre part, de l'amorçage de la synthèse du second brin. Si les produits obtenus sont de tailles variables, l'efficacité de l'amplification ne sera pas la même pour toutes les molécules du mélange, et les mesures réalisées lors de l'hybridation des puces risquent de ne pas être reproductibles. De plus, pour les produits de petite taille, la quantité de radioactivité incorporée par molécule sera moins importante que pour les produits de plus grande taille,
introduisant une différence potentielle lors de la quantification de l'hybridation.
La présente invention vise à remédier aux biais introduits par toutes ces techniques lors de l'amplification et du marquage d'acides nucléiques de tailles hétérogènes, biais qui limitent l'analyse quantitative des transcriptomes. Elle fournit un procédé de réalisation d'une sonde complexe à partir d'un transcriptome qui permet de conserver la représentativité de chaque ARN dans le produit final par l'obtention de fragments de taille et de marquage spécifique homogènes, et ce après une étape d'amplification des ADNc.
Elle s'applique à toutes les méthodes d'amplification utilisables pour l'analyse d'un mélange complexe d'acides nucléiques.
Les produits obtenus peuvent ainsi servir de sondes complexes pour l'étude de l'expression des gènes et plus particulièrement d'acquérir des données quantitatives sur cette expression.
La présente invention concerne un procédé de réalisation de sondes complexes à partir d'ARN totaux ou d'ARN messagers, pour l'étude de l'expression quantitative des gènes sur puces à ADN. Le principal avantage par rapport aux méthodes décrites précédemment réside, d'une part, dans le fait que les ARN sont transcrits en ADNc de taille homogène, et que la quantité de radioactivité (ou de tout autre type de marquage) incorporée est la même pour toutes les molécules présentes dans le mélange initial et, d'autre part, que la mesure est réalisée sur une puce à ADN comportant des brins d'ADN cibles caractérisés par une séquence représentant l'extrémité 3' des gènes dont on veut mesurer les transcrits.
La quantification réalisée après l'hybridation sur puces à ADN n'est donc pas biaisée par des différences d'activités spécifiques des ADNc synthétisés.
Plus précisément, cette méthode s'applique à des sondes réalisées à partir des extrémités poly A des ARNm (la transcription inverse des ARNm en ADNc est amorcée par un oligonucièotide poly T), et à des
puces où sont déposés des clones dits en 3', c'est-à-dire des ADNc (sous forme de produits de PCR ou de clones bactériens) ayant également été obtenus à partir des extrémités 3' des ARNm. En effet, ce procédé de réalisation ne peut pas s'appliquer à un amorçage au hasard de l'étape de transcription inverse des ARNm de la sonde, les ADNc de la sonde devant être dans la même région que les ADNc déposés sur le support afin de permettre l'hybridation.
Plus précisément, l'étape permettant l'homogénéisation en taille a lieu lors de la transcription inverse des ARNm en ADNc simple brin, étape qui est calibrée (c'est-à-dire contrôlée d'un point de vue cinétique) pour que les ADNc simple brin soient tous de tailles comparables.
Leur amplification ultérieure n'est en conséquence plus biaisée par les différences de taille entre les produits de la transcription reverse. Ainsi, la présente invention porte sur un procédé d'obtention de sondes représentatives d'une population d'acides nucléiques dont une analyse quantitative des éléments est recherchée, caractérisé en ce qu'il comprend : a) une étape de calibrage des conditions expérimentales de transcription ou de rétro-transcription permettant l'obtention de fragments d'acides nucléiques sensiblement de la même longueur, ladite longueur étant comprise entre 20 et 2000 nucléotides ; b) une étape d'obtention d'une population de séquences sondes issues de la transcπption ou rétrotranscription de la population d'acides nucléiques dont une analyse quantitative des éléments est recherchée dans les conditions préétablies lors de l'étape précédente, de sorte que les sondes sont de taille homogène et sont représentatives de la partie 3' de chaque élément de ladite population ; c) une étape d'amplification des séquences obtenues en b).
Les fragments recherchés auront de préférence une taille comprise entre 500 et 1500 nucléotides, et de manière préférée d'environ 1000 nucléotides.
Il est donc bien entendu, vu ce qui précède, que la population d'une séquence sonde de taille homogène peut être issue d'une étape de transcription et de rétrotranscription suivie d'une amplification. Par amplification, il est entendu ici toute technique qui, à partir de la séquence de départ, qu'elle soit un ARN ou un ADN, permet d'obtenir un grand nombre de copies identiques ou complémentaires desdites séquences. De telles techniques sont décrites dans la littérature et comprennent de nombreux dérivés. On peut citer à titre d'exemple la PCR, la RT-PCR, la TMA (transcription mediated amplification), la NASBA (Nucieic acid séquence based amplification) et la 3SR (Self sustained séquence replication). De préférence si on choisit d'amplifier par PCR, on privilégiera une méthode qui ne produise pas de fragments tronqués, et ce en utilisant de préférence la technique suivante :
Le mélange complexe d'ARN est rétro-transcrit selon le procédé décrit en a) et b) à partir d'une amorce contenant une séquence poly T flanquée d'une séquence connue, ou ancre 3', dans laquelle sont choisies des amorces permettant de réaliser des PCR emboîtées. Les ADNc simple-brin obtenus sont ligaturés en 5' grâce à l'ARN ligase du phage T4 (T4 ARN Lig.) avec un oligonucièotide modifié de séquence choisie (extrémité 5' phosphate pour la ligature avec l'extrémité 3' OH des ADNc, et extrémité 3' NH2 afin d'éviter la ligature de l'oligonucléotide sur lui-même). Cette ancre 5' contient des séquences pour plusieurs amorces de PCR emboîtées, compatibles en terme de PCR avec les amorces de l'ancre 3'.
La séquence des ancres choisies présentent les caractéristiques suivantes :
- la séquence des ancres ne doit pas présenter d'homologies avec les séquences de l'espèce dont on étudie le transcriptome ;
- leur composition en base sera de préférence de 60 % de GC afin d'améliorer la qualité de l'hybridation ; - la taille de ces ancres peut aller de 20 à 70 nucléotides, de préférence 50 nucléotides afin de choisir à l'intérieur, jusqu'à 3 amorces de PCR emboîtées ("nested" PCR).
Ces oiigos de PCR seront choisis par couples, pour rendre compte i) de la compatibilité des températures d'hybridation, ii) de l'absence d'épingles à cheveux, iii) de l'absence de formation de dimères intra- et inter-moléculaires stables.
Les produits double brin ainsi obtenus sont alors tous de même taille, et comportent à leurs extrémités 5' et 3' des ancres connues ; il est possible d'amplifier par PCR emboîtées toutes les séquences présentes dans le mélange grâce aux amorces choisies dans les ancres 5' et 3'. Ce procédé évite les amorçages non spécifiques observés par exemple dans le cas de l'usage d'une amorce homopolymérique pour la PCR ancrée utilisant le "tailing". Cette technique de ligature peut aussi s'appliquer à une amplification linéaire. Les sondes sont marquées à l'occasion de la transcription, la transcription réverse ou le cas échéant de l'amplification des transcrits ou de rétrotranscrits. Le marquage est réalisé par tout moyen connu pour marquer les oligonucléotides en cours de synthèse. A titre d'exemple, et parmi les plus classiques, on peut citer la radio-activité par incorporation de nucléotides triphosphate radioactifs, la fluorescence par incorporation de nucléotides fluorescents, ou à l'incorporation de nucléotides comprenant une modification chimique qui en permet le lien avec un composé qui directement ou indirectement est susceptible d'émettre un signal fluorescent, phosphorescent, luminescent ou colorimétrique. Un exemple aujourd'hui classique de ce type de marquage est le couplage du nucléotide à la biotine, où le signal est produit par couplage de la biotine à
l'avidine ou à la streptavidine porteur d'une enzyme, elle-même susceptible de transformer un substrat en molécule fluorescente ou luminescente ou colorée.
Dans le procédé de l'invention, l'étape a) de calibrage pour l'obtention de transcrits ou de rétrotranscrits de taille homogène préalablement choisie consiste à :
- préparer un mélange complexe d'acides nucléiques ;
- réaliser un mélange d'incubation comprenant ledit mélange, une transcriptase ou une transcriptase réverse, les quatre deoxynucléotides triphosphate dont au moins un est marqué et l'ensemble des réactifs permettant la réaction enzymatique ;
- incuber ce mélange à la température d'activité de l'enzyme ;
- prélever des aliquots au cours du temps d'incubation ;
- analyser la taille des produits de la réaction pour chaque aliquot ; - choisir le temps d'incubation qui produit des ADNc de taille homogène préalablement choisie.
Ces étapes ne seront pas effectuées pour chaque réalisation de sondes, mais permettent d'établir la condition de rétrotranscription optimale qui sera appliquée pour toutes les sondes réalisées dans des conditions similaires, notamment avec la même enzyme.
Lorsque l'on parle de préparation de mélange complexe d'acides nucléiques, il s'agit en fait de préparer des ARN totaux en quantité suffisante à la réalisation d'une cinétique permettant de choisir la durée d'incubation optimale pour une taille de rétrotranscπts donnée. L'analyse de la taille des produits de la réaction permettant d'établir le temps d'incubation optimal peut être réalisée par tout moyen connu de l'homme du métier. Parmi ceux-ci, on peut citer l'électrophorèse sur gel dénaturant (5).
Afin de vérifier que le calibrage est correct, on réalise une hybridation "contrôle" d'une puce où se trouvent des ADN complémentaires de 3 ARN de tailles différentes ajoutés au mélange d'ARN initial dans les
mêmes proportions : par exemple des ARN de 0,5, 1 et 2.5 kb sont introduits à 2 °/00 (par exemple : 0,2 ng de chaque pour 5 μg d'ARN totaux). La quantification de ces spots d'ARN contrôles devra donner les mêmes intensités pour les trois tailles différentes si la condition est correcte. Une fois la condition optimale déterminée, cette condition est appliquée à l'échantillon contenant le transcriptome que l'on veut étudier. Elle peut également être appliquée, dans un premier temps, à la transcription réverse du transcriptome puis à l'amplification du mélange complexe obtenu. Comme il a été dit plus haut, les produits d'amplification par PCR posent un réel problème dans la mesure où la taille du produit amplifié dépend, d'une part, de l'efficacité de l'étape de transcription inverse, d'autre part de l'amorçage de la synthèse du second brin et des étapes d'amplification. Donc, plus la matrice de départ est courte, plus le produit d'amplification a tendance à devenir majoritaire dans le produit final. Ceci est vrai pour toutes les techniques d'amplification décrites dans la littérature et particulièrement avec la technique d'amplification améliorée décrite ci-dessus consistant à flanquer une séquence connue à une amorce poly T afin d'obtenir des ancres connues en 5' et 3'. Le procédé de l'invention comprenant une étape de calibrage et de production de transcrits ou de rétrotranscrits de taille homogène et représentative de la partie 3' des ARN messagers permet d'envisager l'utilisation d'une technique d'amplification sur ces transcrits ou sur ces rétrotranscrits conduisant à une population de séquences amplifiées représentatives des séquences de départ. Ainsi, les produits d'amplification doivent également être considérés comme représentatifs du transcriptome du départ puisque l'étape d'amplification à partir d'une matrice composée de fragments de taille homogène ne comporte plus ce biais résultant de la différence de tailles des fragments.
L'analyse quantitative d'un transcriptome est avantageusement réalisée par l'analyse simultanée d'un grand nombre d'hybridations entre les sondes et des séquences cibles représentatives
des gènes du génome correspondant. Aussi, le procédé de l'invention est particulièrement intéressant lorsqu'il est appliqué à la mise en oeuvre des hybridations sur macro-ou micro-réseaux (macro- ou micro-arrays) ou sur des puces à ADN. La présente invention porte également sur un procédé d'analyse quantitative d'un transcriptome et est caractérisé en ce qu'il comprend : a) un calibrage pour la détermination des conditions optimales d'obtention de sondes de taille homogène ; b) la réalisation de sondes marquées constituées d'un mélange complexe d'acides nucléiques marqués représentatif du transcriptome par mise en oeuvre d'un procédé décrit ci-dessus ; c) l'amplification des sondes obtenues en b) par toute technique connue de l'homme du métier telle la PCR, la PCR ancrée, la PCR emboîtée, RT- PCR, TMA, NASBA ; d) la préparation d'un support sur lequel sont fixées de manière ordonnée des ADNc (cibles) correspondant aux extrémités 3' des ARNm d'intérêt représentant chacune un gène différent ; e) l'hybridation des sondes en b) ou c) avec les cibles en d) ; f) la mesure quantitative du marquage obtenu au niveau de chaque cible.
Dans l'étape c) ci-dessus, on peut utiliser de manière préférée la méthode améliorée de PCR ancrée décrite ci-dessus dans laquelle l'amorce poly T est flanquée d'une ancre connue et l'ADNc ligaturé avec une ancre 5' grâce à la T4 ARN ligase.
Dans l'étape f) ci-dessus, le marquage mesuré est un reflet fidèle des quantités relatives des différents éléments du transcriptome étudié.
Ainsi, le procédé de l'invention d'analyse quantitative d'un transcriptome permet de surmonter les différents biais des méthodes existantes citées dans l'introduction et qui conduisaient à surestimer ou
sous-estimer la quantité de certaines catégories d'ARN messagers dans un transcriptome donné. Ici, les proportions relatives des différents ARN messagers sont les mêmes après les étapes de rétrotranscription et d'amplification. Le procédé selon l'invention permet ainsi de faire une
"photographie" d'un transcriptome donné et donc, le cas échéant, de le comparer à un autre. Ceci est particulièrement intéressant dans différentes situations où l'on cherche à analyser un état physiologique ou pathologique d'une cellule, ou de l'effet d'un traitement. Dans ce procédé, les sondes marquées du mélange en b) ou en c) sont de taille homogène et comprises entre 20 et 2000 nucléotides et de préférence entre 500 et 1500 nucléotides. Une longueur optimale est d'environ 1000 nucléotides. Il va de soi que dans le procédé qui intégre une étape d'amplification, la première étape de transcription ou de rétrotranscription conduit à la constitution de fragments d'acides nucléiques de taille homogène mais non marqués. L'obtention des sondes marquées est alors réalisée par amplification de ce mélange intermédiaire.
Dans le procédé de l'invention, l'hybridation des sondes amplifiées avec les cibles fixées sur les puces, se fait de préférence en excès de cibles par rapport aux sondes de sorte que la quantité fixée sur la cible de l'espèce correspondante est proportionnelle à son abondance relative dans le mélange initial. Il est essentiel dans le procédé de l'invention que les mesures effectuées après hybridation sur la puce soient effectivement quantitatives et reflètent le taux d'expression du transcriptome et sa variabilité.
Aussi, et afin de garantir la fiabilité des résultats de quantification, il avantageux d'inclure des réactifs de contrôles.
Ainsi, dans le procédé de l'invention, il est avantageux d'incorporer au transcriptome au moins un ARNm exogène en quantité connue et dans l'étape d) une cible hybridable avec ce ou ces même ARN ou avec le produit de sa transcription réverse.
On peut utiliser, d'une part, des réactifs permettant d'étalonner quantitativement la mesure. Pour ce faire, on inclut des contrôles internes qui consistent à réaliser simultanément sur la même puce l'hybridation des sondes correspondant au transcriptome avec les cibles et l'hybridation d'une sonde exogène avec une cible complémentaire. L'utilisation d'un tel standard extérieur a été décrit dans (3). Dans cet article, une séquence de A. thaliana de cytochrome C554 (ou CG03) qui n'a aucune homologie avec l'ADN de mammifères a été intégrée et comme spot sur la puce et comme sonde dans l'échantillon de transcriptome. La quantification des signaux obtenus pour ces contrôles internes positifs permet de donner une estimation de l'abondance des autres ARN dans l'échantillon. Ces contrôles permettent de plus de comparer plusieurs expériences indépendantes entre elles de façon fiable, puisqu'ils corrigent les différences de marquage, lavage, temps d'exposition et perte éventuelle de matériel sur les membranes après plusieurs hybridations successives (3). Dans le procédé de l'invention, on peut étalonner quantitativement la mesure en mesurant dans la sonde des ARNm correspondant à des gènes ubiquitaires ou gènes de ménage dont on sait que le niveau d'expression est constant dans tous les échantillons étudiés. On peut utiliser, d'autre part, des réactifs permettant de contrôler l'efficacité du procédé de calibration. Pour ce faire, un contrôle interne de validation des mesures est réalisé par incorporation, dans l'échantillon d'ARN à analyser, de 0,05 % à 0,2 %, voire plus, d'au moins deux ARN exogènes synthétisés in vitro. Il peut s'agir par exemple d'un ARN de cytochrome C554 (ou CG03) de 1kb, et de deux autres ARN exogènes de taille différente, par exemple de 0,5 kb et 2,5 kb, qui permettent de vérifier avantageusement que la longueur n'influe pas sur l'intensité du signal quand la transcription inverse est réalisée pendant une durée déterminée par la méthode de calibrage selon la présente invention. Un contrôle négatif peut être également réalisé : des clones contenant des séquences polyA sont déposés régulièrement sur la
membrane, afin de vérifier que les séquences polyT introduites lors de la synthèse de la sonde complexe par transcription inverse n'induisent pas de bruit de fond.
Enfin, des dépôts de clones contenant le "vecteur" vide (ou l'absence de dépôt à certains emplacements) sur la membrane permettent de mesurer le bruit de fond et éventuellement de le déduire des signaux spécifiques.
Dans le procédé de l'invention, les puces peuvent être des micro-réseaux ou des macro-réseaux. Le support peut être en silice, en verre ou en nylon comme cela est largement décrit dans (1) où les performances respectives des supports en nylon ou en verre sont fournies. Les puces sont porteuses de 1 à 100.000 cibles. Cela dépend bien entendu de la surface de la puce elle-même et du transcriptome étudié. Dans certains cas, il est intéressant d'utiliser des membranes à basse densité, dont le format peut être adapté au nombre de gènes étudiés ou à la quantité de matériel de départ disponible.
Des membranes à haute densité sur support de nylon peuvent aussi être développées. Ces membranes peuvent avoir un format de type microarray (de la taille d'une lame de verre), ou avoir un format de type macroarray (10 à 100 cm2 environ). Ces puces à haute densité permettent l'analyse de plusieurs milliers de gènes simultanément.
Les cibles peuvent être des oligonucléotides ou des ADNc purifiés fixés par les méthodes bien connues de l'homme du métier, à partir du moment où la fraction correspondant à la partie 3' du ARNm du transcriptome est accessible à l'hybridation.
Les cibles peuvent être également des clones bactériens dont le génome est porteur de la séquence dont la quantification est recherchée ou d'une séquence complémentaire de celle-ci. Les techniques de dépôt de ces clones ou de ces séquences purifiées sur les puces peuvent être utilisées et sont connues de l'homme du métier. Il est évident que tout autre technique permettant de laisser accessible les séquences complémentaires
de la partie 3' des ARN messagers est utilisable dans le procédé de l'invention.
La présente invention porte également sur un kit pour l'étude quantitative de la variabilité d'un transcriptome caractérisé en ce qu'il comprend au moins :
- des dNTP libres dont l'un est marqué ;
- une réverse transcriptase ;
- au moins deux sondes de contrôle de validation quantitative constituées de deux séquences d'acides nucléique de taille prédéterminée et différente pour chacune, ne faisant pas partie du transcπptome ou n'étant pas hybridables avec des éléments de ce dernier ;
- un support sur lequel sont fixées de manière ordonnée des séquences cibles susceptibles d'être hybridees avec des copies en 3' des ARNm du transcriptome, et au moins deux cibles hybridables avec les sondes de contrôle.
Le kit selon l'invention peut contenir également l'ensemble des réactifs nécessaires à la mise en oeuvre d'une amplification.
Dans le kit selon l'invention, les cibles sur le support sont des ADNc purifiés. Néanmoins, les cibles peuvent être également des extraits bactériens dont le génome ou le(s) plasmide(s) contient les séquences susceptibles d'être hybridees avec les sondes.
Le support Nylon se prête aussi bien à des dépôts de colonies bactériennes à faible densité (par exemple 36 dépôts par cm2) qu'à des dépôts de produits de PCR à faible, moyenne ou haute densités (jusqu'à 2.000 dépôts par cm2). Il permet la détection des complexes d'hybridation par radioactivité (qui présente la meilleure sensibilité), et se prête également à des méthodes de détection non isotopiques comme la chemiluminescence (5) ou la colorimétrie (4). Enfin, comme nous l'avons vu précédemment, les performances des microarrays Nylon/sonde radioactive restent inégalées et s'adaptent à des thématiques où la taille de l'échantillon à traiter est réduite (biopsies, cultures primaires de cellules...).
La réalisation des expériences ci-après indique que la méthode de calibrage conduisant à l'obtention de rétrotranscrits de taille homogène conduit effectivement à l'obtention de résultats quantitatifs et reproductibles quant au taux de sondes hybridees sur les cibles. LEGENDE DES FIGURES :
La figure 1 représente une image obtenue après hybridation d'une membrane contenant 1056 spots (chaque spot correspondant à un clone d'ADNc souris) avec une sonde complexe réalisée en appliquant le procédé standard de l'invention à des ARN totaux de thymus de souris en deux heures de transcription inverse.
Les spots entourés correspondent à des clones dont le niveau d'expression mesuré est beaucoup plus élevé lorsque la transcription est longue, et dont les ARNm sont de longue taille.
Les spots encadrés correspondent aux clones dont le niveau d'expression est constant quel que soit le temps de transcription, et dont les ARNm sont de petite taille.
La figure 2 représente une image obtenue après hybridation d'une membrane contenant 1056 spots avec une sonde complexe réalisée en appliquant le procédé de l'invention à des ARN totaux de thymus de souris en 30 minutes de transcription inverse.
La figure 3 représente un Northern Blot réalisé à partir d'ARN totaux de cerveau et hybrides avec une sonde réalisée à partir d'un clone dont le niveau d'expression mesuré est constant quel que soit le temps de transcription. La bande observée correspond à un ARNm de 200 nucléotides, comme l'indique l'échelle de poids moléculaire.
La figure 4 représente des ADNc marqués radioactivement obtenus par transcription inverse (15 min, 30 min, 1 h et 2 h de RT) et migres sur un gel alcalin dénaturant permettant d'analyser la taille des ADNc (échelle de poids moléculaire à gauche). PROTOCOLES EXPERIMENTAUX :
1. Préparation des membranes :
Les membranes sont préparées selon les protocoles décrits dans (2) et (3). Après dépôt sur les membranes, des clones bactériens ou des ADN cibles produits par PCR, ceux-ci sont dénaturés in situ puis neutralisés. 2. Hybridation oligonucléotidique (vecteur) :
L'hybridation vecteur sert à mesurer le taux d'ADN de chaque spot afin d'effectuer une correction des valeurs obtenues avec les sondes complexes. Il est important d'exposer suffisamment longtemps et de quantifier correctement cette hybridation avant celle en sonde complexe. 2.1. Préparation de l'oligonucléotide radiomarqué :
Les oligonucléotides utilisés dépendent des séquences flanquant les ADNc cibles, soit par exemple pour les plasmides pcDNAI et pT7T3 :
- pCDNAI : 5'gcttatcgaaattaatacgactcactatag - pT7T3pac : 5'tgtggaattgtgagcggata ou
T7 : taatacgactcactataggga
2.2. Le marquage est ensuite réalisé par incubation des oligonucléotides en présence de 1 μl d'oligo (1 μg/μl), 2 μl de tampon 10 X T4 polynucléotide kinase (Biolabs), 3 μl de γAT33P (5000 Ci/mM), 1 μl de T4 polynucléotide kinase (10 U/ul, Biolabs), Eau stérile qsp 20 μl final.
2.3. Précipitation (pour éliminer la plupart des ATP non incorporés) :
L'ADN est ensuite précipité en présence de 1 μl d'ADN de sperme de hareng (Boehringer, 10 mg/ml), 2 μl d'acétate de sodium 3M, 60 μl d'éthanol absolu froid (-20° C).
Le mélange réactionnel est placé 15 min à -80° C, centrifugé 30 min à 4° C puis le surnageant (fortement radioactif) est éliminé. Le culot est resuspendu dans 100 μl d'eau stérile.
Le comptage est ensuite effectué en scintillation liquide. 2.4. Hybridation de la sonde oligonucléotidique :
Le tampon d'hybridation/préhybridation est constitué de 5X SSC, TX Dehnardt's, 0,5 % SDS. (tampon H).
2.4.1 Préhybridation :
A 50 ml de tampon H sont ajoutés 100 μg/ml (concentration finale) de DNA de sperme de hareng soniqué (Boehringer). La solution stock est à 10 mg/ml et l'aliquot nécessaire est dénaturé juste avant son utilisation par chauffage 10 min à 100° C puis refroidi rapidement à O°C en plaçant le tube 10 min dans la glace.
Les filtres sont préhybridés à 42° C pendant 4 heures minimum (12 h maximum) dans le tampon H (50 ml de tampon et 4 filtres maximum par boîte ou 10 ml dans des tubes).
2.4.2 Hybridation :
Les filtres sont hybrides dans 50 ml de tampon H puis retirés.
Un mélange sonde froide/chaude est ajouté au tampon. Les filtres sont ensuite remis dans la boîte un par un. L'hybridation se fait à 42° C pendant
12 heures au moins et sous agitation en ambiance humide afin d'éviter une éventuelle évaporation.
Le mélange sonde froide/chaude est constitué de 10 μg d'oligo vecteur froid, 100.000 à 200.000 cpm/ml d'oligo marqué (soit 5 à 10 millions pour 50 ml).
2.4.3 Lavages et déshybridation :
Les lavages se font avec 1 litre de tampon 2X SSC 0,1 % SDS, 10 min, à température ambiante puis 5 min à 42° C en changeant une fois le tampon. Les membranes sont exposées à un écran de phosphore qui est ensuite lu par un appareil de type Fuji Bas 1500.
2.4.4. Déshybridation :
Déshybrider en 0,1 X SSC/0,1 % SDS pendant 3 heures à 68° C en changeant une fois le tampon. 3. Marquage de sondes complexes à partir de 5μg d'ARN total :
3.1. Préparation de la sonde radiomarquée :
La sonde complexe est préparée à partir des ARN totaux extraits de l'échantillon d'intérêt (tissu, culture cellulaire...). La première étape est une étape d'appariement ou "annealing" (pour que les ARN perdent leur structure secondaire et pour saturer les queues polyA avec l'oligo dT). Un large excès d'oligo dT est utilisé pour que la RT transcription commence juste après le début de la queue polyA. Les conditions sont les suivantes : 5 μg d'ARN et 0,2 ng d'ARNm du contrôle CG03 (cytochrome) ainsi que 0,2 ng de chaque autre ARN exogène servant de contrôle de validation quantitative, et 8 μg de dT25 sont ajoutés à 13 μl d'eau stérile et incubés 8 min à 70° C, puis 30min de 70° C à 42° C.
3.2. Transcription Inverse (pour synthétiser et marquer simultanément l'ADN simple brin correspondant à environ 100 ng d'ARNm présent dans les 5 μg d'ARN total) :
Celle-ci est effectuée dans les conditions suivantes : à l'échantillon maintenu à 42° C sont ajoutés 1 μl de RNasin (Ribonuclease inhibitor, Promega, Ref N2511 , 40U/μl), 6 μl de tampon premier brin 5X (BRL), 2 μl de DTT 0,1 M, 0,6 μl de dATG 20 mM (20 mM chacun), 0,6 μl de dCTP 120 μM, 3 μl de (α33P) dCTP 10 μCi/μl (> 3000 Ci/mM), 1 μl de reverse transcriptase (SUPERSCRIPT RNase H free RT, BRL, 200U/μl), eau stérile qsp 30 μl. a) protocole classique :
- incuber 1 heure à 42° C (étuve)
- rajouter 1 μl de reverse transcriptase
- incuber de nouveau 1 heure à 42° C (étuve) b) protocole de calibrage :
La réaction de RT est stoppée au bout de 15 min, 30 min,
1 heure ou 2 heures (c'est-à-dire 4 réactions avec des ARN non précieux).
L'arrêt de la réaction se fait par passage dans la glace puis lyse alcaline des ARN, ou par tout autre méthode connue de l'homme du métier : par exemple RNase H ou ajout de ddNTP.
Ces quatre sondes "tests" sont hybridees sur des arrays contenant au moins les trois cibles complémentaires des 3 ARN exogènes de tailles différentes (500/1000/2500) introduits dans les mêmes proportions dans les ARN du mélange initial. Celle des quatre conditions permettant d'obtenir des signaux de même intensité pour les spots contrôles est définie comme condition optimale pour la suite des expériences mettant en jeu : la même RTase, les mêmes conditions expérimentales sur l'ensemble du protocole.
Le mélange réactionnel est ensuite neutralisé par ajout de 10 μl de TRIS IM, 3 μl d'HCI 2N et eau stérile qsp 150 μL
Les sondes complexes sont purifiées sur une colonne de 1 ml de Sephadex G50 (Pharmacia). c) protocole d'amplification par PCR :
Des ancres ont été ajoutées en 3' et en 5' des ADNc obtenus. En 3', il s'agit d'un oligo dT contenant dans sa partie 5' la séquence promotrice pour la T7 ARN polymérase et en 5' une séquence complémentaire du promoteur SP6.
La première ancre est ajoutée lors de la transcription inverse réalisée selon les conditions définies en b), et la deuxième ancre est ajoutée par ligature avec la T4 ARN ligase, à l'extrémité 3' des ADNc synthétisés.
L'amplification PCR est réalisée avec un couple d'amorces complémentaires des ancres en 3' et en 5', à savoir T7 et SP6. Le marquage se fait pendant ou après la PCR. 4. Hybridation de la sonde complexe :
Les conditions d'hybridation sont les mêmes que celles décrites en 2.4 ci-dessus, avec les modifications suivantes :
- l'étape de préhybridation est effectuée entre 65 et 68° C pendant 6 heures minimum dans le tampon H ; - l'étape d'hybridation est réalisée entre 65 et 68° C pendant
48 heures. Toute la sonde marquée doit être ajoutée afin de ne pas
modifier la concentration des espèces d'ARN et rendre difficile la comparaison avec d'autres expériences ;
- les lavages se font dans 1 litre (pour 4 filtres) de solution 0,1 X SSC, 0,1 % SDS à 68° C pendant 3 heures en changeant une fois la solution de lavage.
(La solution de lavage étant préchauffée à 68° C).
Les membranes sont exposées à un écran de phosphore qui est ensuite lu par un appareil de type Fuji Bas 1500.
La déshybridation est réalisée en 0,1 % SDS/ 1 mM EDTA à 80°C pendant 2 heures 30 (1 litre pour 4 filtres).
EXEMPLE 1 : Taille des ADNc obtenus après 4 temps différents de transcription inverse :
Les ARN de départ sont les ARN totaux de cerveau de souris.
La réaction de transcription inverse (RT) a été conduite selon le protocole décrit dans les publications ci-dessus et dans (2) et (3).
Quatre réactions ont été réalisées en parallèle :
. Réaction de 2 heures (protocole "classique", 1 heure de RT, ajout d'1 μl d'enzyme et de nouveau 1 heure de RT) ;
. 1 heure de RT, . 30 minutes de RT,
. 15 minutes de RT.
Les produits de RT (dans lesquels ont été incorporés des nucléotides radioactifs marqués au phosphore 32) ont ensuite été déposés sur gel alcalin dénaturant (5) avec un marqueur de poids moléculaire, puis visualisés par autoradiographie. Les résultats obtenus apparaissent sur la figure 4.
Les tailles approximatives observées sont respectivement :
. RT 2 heures : 100 < ADNc < 5.930 nucléotides,
. RT 1 heure : 100 < ADNc < 4.367 nucléotides, . RT 30 min : 100 < ADNc < 2.760 nucléotides,
. RT 15 min : 100 < ADNc < 1575 nucléotides.
EXEMPLE 2 : Analyse quantitative du transcriptome :
Des ADNc rétrotranscrits à partir d'ARN de thymus de souris ont été hybrides sur des puces porteuses de ADNc de gènes exprimés chez la souris et portés par des plasmides bactériens.
Après avoir mis en oeuvre la méthode de calibrage selon l'invention, la durée de la réaction de rétrotranscription a été fixée à 30 min.
La figure 1 représente les intensités des spots obtenus après la durée classique du rétrotranscription (2 heures, figure 1), et pendant la durée choisie de 30 min., déduite de l'opération préalable de calibrage (figure 2).
L'intensité des spots obtenus a été comparée dans ces deux conditions expérimentales et les résultats sont indiqués dans le tableau suivant :
Ces valeurs ont été obtenues après quantification par le logiciel Biolmage (Fuji) des images des figures n° 1 et 2. Les valeurs données sont des abondances relatives (AR : abondance de l'ARNm de chaque clone dans le transcriptome utilisé pour réaliser la sonde complexe). La première colonne renseigne sur le nom des clones, les deuxième et troisième colonnes donnent les abondances relatives de ces clones pour les filtres n° 7 (colonne 2) et n° 10 (colonne 3), et la dernière colonne donne pour chaque clone le rapport des mesures 2 heures/30 minutes. Les 7 premiers clones entourés dans les figures 1 et 2 ont des mesures d'expression nettement supérieures lorsque la sonde est réalisée en deux heures. Les autres clones encadrés dans les figures 1 et 2 et correspondant au groupe B des tableaux ont des mesures d'expression constantes quel que soit le temps de transcription. On remarque en observant les valeurs du Tableau une beaucoup plus grande stabilité du rapport dans la série des spots B que dans la série des spots A. En effet, dans les spots A, la radio-activité mesurée sur chaque spot est beaucoup plus importante après deux heures qu'après trente min. de rétrotranscription. Cela correspond à des ARN longs comme le montrent des expérences de Northern Blot réalisées par la suite.
En revanche, la stabilité du rapport deux heures/30 min. dans la série B est le signe d'une hybridation d'ARNm courts.
Ceci a été vérifié par une hybridation en Northern Blot qui montre effectivement que les ARN en cause ont une taille de
200 nucléotides comme l'illustre la figure 3.
On peut conclure de cette expérience que, lorsque les ARN sont courts, aucun biais n'est apporté dans la mesure quantitative de la quantité d'ARN présents. En revanche, lorsque les ARN sont de grande taille, la quantité de marquage mesuré est variable et ne peut donc être comparée d'un spot à un autre.
Cette expérience valide le fait que la comparaison des intensités de marquage obtenues d'un spot à un autre est fiable pour des rétrotranscrits de courte taille.
REFERENCES BIBLIOGRAPHIQUES
(1 ) Granjeaud S., Bertucci F. et Jordan B. R. Expression profiling: DNA arrays in many guises. BioEssays, (1999) 21 : 781-790
(2) Bertucci F., Van Huist S., Bernard K., Loriod B., Granjeaud S., Tagett R., Starkey M., Nguyen C, Jordan B. Birnbaum D. Expression scanning of an array of growth control gènes in human tumor cell lines. Oncogene, 1999 July, 18(26): 3905-3912
(3) Bernard K. et coll., Nucl. Acids Research (1996) 24(8): 1435-42
(4) Chen et coll., Genomics (1998) 51 : 313-324
(5) Rajeevan M. S., Dimulescu J.M., Unger F.R., Vernon S.D.
Chemiluminescent analysis of gène expression on high-density filter arrays. J. Histochem Cytochem, 1999 March, 47(3): 337-342