WO2002066676A2

WO2002066676A2 - Procede d'analyse qualitative et quantitative d'une population d'acides nucleiques contenus dans un echantillon

Info

Publication number: WO2002066676A2
Application number: PCT/FR2002/000600
Authority: WO
Inventors: Denis Pugnere; Jacques Marti; Laurent Manchon; David Piquemal
Original assignee: Centre National De La Recherche Scientifique - Cnrs
Priority date: 2001-02-16
Filing date: 2002-02-15
Publication date: 2002-08-29
Also published as: FR2821087A1; AU2002249303A1; WO2002066676A3; FR2821087B1

Abstract

L'invention se rapporte à l'analyse qualitative et quantitative d'acides nucléiques présents dans un échantillon, une telle analyse étant utile notamment lors d'une comparaison des profils d'expression de gènes par différentes populations cellulaires.

Description

Procédé d'analyse qualitative et quantitative d'une population d'acides nucléiques contenus dans un échantillon

Domaine de l'invention

Etat de la technique

La grande quantité d'informations accumulée durant les dernières années dans les bases de données répertoriant les séquences nucléotidiques est de plus en plus utilisée pour étudier les différentes fonctions cellulaires et leur régulation au niveau du génome.

Chez les organismes supérieurs, l'hétérogénéité fonctionnelle de la plupart des tissus rend nécessaire la disponibilité de méthodes rapides et susceptibles de traiter simultanément une grande masse d'informations caractéristiques des acides nucléiques exprimés par des populations cellulaires purifiées, notamment de populations cellulaires d'un type cellulaire donné. Parmi les techniques permettant l'obtention d'une population d'acides nucléiques standardisés à partir d'acides nucléiques extraits d'une cellule ou d'une population de cellules, on peut citer la technique SAGE telle que décrite dans les brevets américains N°US 5,866,330 délivré le 2 Février 1999 et n°US 5,695,937 délivré le 9 Décembre 1997, ou encore la technique SADE telle que décrite par VIRLON et al. (1999, Proc. Natl. Acad. Sci. USA, vol.96 (26): 15286-15291).

Les techniques SAGE et SADE permettent de générer, à partir d'une population d'acides nucléiques, telle qu'une population d'ADNc obtenue par transcription inverse des ARNs messagers cellulaires, des acides nucléiques concaténés comprenant une pluralité de copies d'un enchaînement de nucléotides invariables de formule [N]_n reconnus par une enzyme du type nucléase, le nombre de bases séparant deux copies successives de l'enchaînement nucléotidique [N]_n étant déterminé par le nombre de nucléotides situé entre la séquence [N]_n et le site de coupure de l'enzyme de type nucléase utilisée. La technique SADE représente un perfectionnement de la technique SAGE permettant la production d'une population d'acides nucléiques standardisés à partir d'une quantité faible d'ARNs messagers de départ, du fait d'un rendement plus grand. Le but ultime des techniques précitées est la détermination des profils d'expression génique des cellules à partir desquelles a été obtenue la population d'ARNs messagers de départ.

L'analyse des profils d'expression génique nécessite une étape de séquençage de la population d'acides nucléiques standardisés résultant de la mise en oeuvre des techniques précitées, telles que les techniques SAGE et SADE, puis l'analyse qualitative et quantitative de la grande masse des séquences obtenues.

Une méthode d'analyse de la population d'acides nucléiques standardisés précitée a été mentionnée par Vesculescu et al. (Vesculescu et al., 1995, Science, 270:484-487; Vesculescu et al., (1997) Cell, 88:243- 251). Ces auteurs mentionnent l'exécution sur un ordinateur d'un programme rédigé dans le langage Visual Basic™ et exécutable exclusivement par un ordinateur doté d'un environnement (système d'exploitation) Windows™ de Microsoft™. Ce programme ne peut traiter simultanément qu'un volume limité d'information, notamment une séquence d'une longueur maximale de 9999 bases consécutives, ce qui est insuffisant pour traiter, en une seule exécution du programme, la totalité des séquences obtenues à partir d'une technique SADE ou SAGE appliquée à une population déterminée de cellules, dont la longueur peut atteindre plusieurs milliers de bases.

De plus, la conception du programme utilisé par Vesculescu et al. (1997) ne permet , pas une comparaison des séquences obtenues respectivement à partir de deux populations de cellules distinctes, pour lesquelles des données comparatives concernant leurs profils d'expression génique respectifs est recherchée.

L'environnement logiciel (système d'exploitation) indispensable à l'exécution du programme mentionné par Vesculescu et al. (1997) impose aussi des limitations quant à sa vitesse d'exécution. En tout état de cause, les différentes étapes d'exécution du programme décrit par Vesculescu et al. n'ont pas été, à ce jour, rendues accessibles au public.

Il existe un besoin dans l'état de la technique d'une méthode d'analyse qualitative et quantitative d'une population d'acides nucléiques ne présentant pas les limitations techniques des méthodes connues.

SOMMAIRE DE L'INVENTION

Les limitations techniques des méthodes antérieures ont été surmontées par la présente invention.

Il est fourni selon l'invention un procédé d'analyse qualitative et quantitative d'une population d'acides nucléiques contenus dans un échantillon , chacun des acides nucléiques de la population comprenant une pluralité de copies d'un enchaînement invariable de nucléotides de formule [N]_n reconnu par une enzyme du type nucléase, dans laquelle chaque N représente indépendamment l'une quelconque des base A, T, G ou C et n est le nombre de nucléotides de l'enchaînement reconnu par l'enzyme, le nombre de bases séparant deux copies successives de l'enchaînement nucléotidique [N]_n étant globalement constant et déterminé par le nombre de nucléotides situés entre la séquence [N]_n et le site de coupure de l'enzyme de type nucléase, ledit procédé étant caractérisé en ce qu'il comprend les étapes suivantes : a) séquencer chaque acide nucléique de la population d'acides nucléiques ; b) générer, à partir de l'ensemble des séquences obtenues à l'étape a) ou à partir de séquences standardisées qui en sont dérivées, une liste de séquences DITAG de formule [N]_n [A_p], dans laquelle : - [N]_n est invariable et représente la séquence nucléotidique reconnue par l'enzyme de type nucléase ; et - Ai à A_p représentent chacun une séquence nucléotidique unique comprise entre deux séquences [N]_n, dans l'ensemble des acides nucléiques séquences de la population d'acides nucléiques de départ ; c) facultativement, concaténer l'ensemble des séquences uniques obtenues à l'étape b) ; afin d'obtenir une séquence de formule [[N]_n [A_p]]_q dans laquelle :

- [N]_n est invariable et représente la séquence nucléotidique reconnue par une enzyme de type nucléase ; - Ai à A_p représentent chacun une séquence nucléotidique comprise entre deux séquences [N]_n , dans l'acide nucléique séquence chacune des séquences Ai à A_p étant distinctes l'une de l'autre ; et

- q est un entier égal à la valeur supérieure de p. d) générer, à partir de la liste des séquences DITAG obtenue à l 'étape b), une liste de séquences TAG de formule [N]_n [X]₂, dans laquelle :

- [N]_n est invariable et représente la séquence nucléotidique reconnue par une enzyme de type nucléase ;

- X est une base choisie parmi A, T, G ou C et chaque [X]_z représente une séquence unique; et - z est un entier égal au nombre de nucléotides situés entre le dernier nucléotide du côté 3' de la séquence [N]_n et le nucléotide localisé immédiatement après le site de coupure de l'enzyme nucléase dans la séquence [N]_n [X]_z. e) générer une liste des séquences inverses complémentaires de chaque DITAG obtenu à l'étape b), chaque séquence inverse complémentaire ayant la formule Comp([N]_n [A_p]) ; f) générer, à partir de la liste des séquences inverses complémentaires de formule Comp([N]_n [A_p]) obtenue à l'étape e), une liste de séquences TAG, chaque séquence TAG étant constituée : - de la séquence [N]_π, concaténée à - la séquence constituée des z premiers nucléotides de chacune des séquences de la liste de séquences de formule Comp([N]_n [A_p]), dans laquelle z est un entier égal au nombre de nucléotides situés entre le dernier nucléotide du côté 3' de la séquence [N]_n et le nucléotide localisé immédiatement après le site de coupure de l'enzyme nucléase dans la séquence [NJ_n [X]_z définissant un TAG. g) Ajouter les séquences TAG obtenue à l'étape f) à la liste des séquences TAG obtenue à l'étape d).

Le procédé ci-dessus peut être appliqué à la détermination du profil d'expression génique d'une cellule ou d'une population de cellules purifiées, notamment de cellules d'origine eucaryote, ainsi qu'à la comparaison de plusieurs profils d'expression géniques.

L'invention a également trait à un produit « programme d'ordinateur » chargeable directement dans la mémoire interne d'un ordinateur numérique et comprenant des portions de code d'un logiciel pour l'exécution des étapes de traitement de séquences nucléotidiques du procédé tel que défini ci-dessus, le produit « programme d'ordinateur » pouvant être enregistré sur tout type de support utilisable dans un ordinateur. L'invention est également relative à un système informatique comprenant un environnement adapté pour le déroulement d'une application et des moyens pour la mise en oeuvre des étapes de traitement des séquences nucléiques du procédé défini ci-dessus.

DESCRIPTION DETAILLEE DE L'INVENTION

Il a été mis au point selon l'invention un procédé d'analyse qualitative et quantitative d'une population d'acides nucléiques contenus dans un échantillon, et plus spécifiquement une population d'acides nucléiques obtenus en tant que produits finals d'une technique de type

SAGE ou SADE.

Structure d'un acide nucléique obtenu selon la méthode SADE ou SAGE La nature des différentes étapes des méthodes SADE ou SAGE conduit à l'obtention d'une population d'acides nucléiques d'une structure générale définie. Chacun des acides nucléiques de la population d'acides nucléiques comprend une pluralité de copies d'un enchaînement invariable de nucléotides de formule [N]_n reconnu par une enzyme du type nucléase, dans laquelle chaque N représente indépendamment l'une quelconque des bases A, T, G ou C et n est le nombre de nucléotides de l'enchaînement nucléotidique reconnu par l'enzyme nucléase. Le nombre de bases séparant deux copies successives de l'enchaînement nucléotidique [N]_n est globalement constant et est déterminé par le nombre de nucléotides situé entre la séquence [N]_n et le site de coupure de l'enzyme du type nucléase.

Dans le cas où la méthode SAGE ou SADE est mise en oeuvre avec une enzyme telle que l'endonucléase de restriction Sau3A, chaque acide nucléique contenu dans la population d'acides nucléiques constituant le produit final de la méthode a la structure générale suivante:

xxxxxxxxxxxxxxx(GATCXXXXXXXXXXXXXXXXXXXX)p GATCxxxxxxxxxxxx

Dans la séquence ci-dessus, les symboles « x » localisés respectivement du côté 5' et du côté 3' de la séquence, représentent les séquences des adaptateurs nucléotidiques utilisés dans la technique SADE ou SAGE ou des séquences dérivées du vecteur de clonage ou d'expression dans lequel la séquence est préalablement insérée, avant son excision en vue de l'étape de séquençage.

L'enchaînement nucléotidique « GATC » correspond à l'enchaînement nucléotidique reconnu par l'enzyme Sau3A. Il s'agit d'un enchaînement nucléotidique invariable présent en de multiples copies dans la séquence qui répond à la formule générale [N]_n dans laquelle chaque N représente indépendamment l'une quelconque des bases A,T,G ou C et n est le nombre de nucléotides de l'enchaînement reconnu par l'enzyme de type nucléase. La valeur de n est égale à 4 pour le site de reconnaissance de Sau3A.

Les enchaînements nucléotidiques GATCXXXXXXXX XXXXXXXXXXXX représentent chacun un « DITAG », la partie 5' du DITAG suivant le site de reconnaissance [N]n (GATC) constituant un fragment dont la séquence nucléotidique peut être retrouvée dans un ARN messager utilisé comme produit de départ et dont la partie 3' est une séquence nucléotidique inverse complémentaire (ADNc) à une séquence qui peut être retrouvée dans un ARN messager de la population d'ARNs messagers de départ.

Ainsi, la première moitié du côté 5' d'un enchaînement nucléotidique compris entre deux séparateurs de formule [N]_n, ici GATC, est définie comme une séquence de type « TAG » et la seconde moitié du côté 3' de cet enchaînement nucléotidique constitue la séquence inverse complémentaire à une seconde séquence nucléotidique de type « TAG », chacune de ces deux séquences TAG étant retrouvée sur un ARN messager unique de la population d'ARNs messagers cellulaires de départ, chaque séquence TAG identifiant ainsi de manière univoque l'expression d'un gène unique par la cellule ou la population cellulaire de laquelle provient les ARNs messagers de départ. p est un entier dont la valeur est le nombre des séquences DITAG contenues dans un acide nucléique donné présent dans la population d'acides nucléiques analysée. Aux fins de la présente invention, une séquence nucléotidique telle que représentée ci-dessus peut être définie par la formule suivante:

« xxxxxxxxxxxxxxx » [[N]n [A]b]]_c « xxxxxxxxxxxxxxx », dans laquelle : « xxxxxxxxxxxxxxx » est une séquence nucléotidique provenant du vecteur de clonage;

[N]_n est invariable et tel que défini précédemment. Dans l'exemple considéré, la formule [N]_n a la valeur « GATC »;

Ai à Ab représentent chacun une séquence nucléotidique qui est comprise entre deux séquences [N]_π; et c est un entier égal à la valeur supérieure de b, c représentant le nombre de blocs GATC- « A » contenus dans la séquence nucléotidique considérée. Il est rappelé ici que les produits finals obtenus par la mise en oeuvre d'une technique du type SAGE ou SADE constituent une population de séquences nucléotidiques qui ont toutes la structure de la séquence nucléotidique représentée ci-dessus. Aux fins de la présente description, un DITAG selon l'invention est indifféremment:

- soit la séquence [N]_n[A]_p;

- soit la séquence [A]_p ne comportant pas le site [N]_n de reconnaissance de l'enzyme du type nucléase. De la même manière, une séquence TAG selon l'invention pourra indifféremment comprendre ou non, à son extrémité 5', la séquence [N]_n de reconnaissance de l'enzyme de type nucléase.

PROCEDE D'ANALYSE D'ACIDES NUCLEIQUES SELON L'INVENTION

SEQUENÇAGE DE LA POPULATION D'ACIDES NUCLEIQUES

A l'issue de la méthode de type SAGE ou SADE, chaque séquence nucléotidique concaténée comprenant des DITAGs et ayant la structure représentée précédemment est généralement insérée dans un vecteur de clonage et ou d'expression. L'insert d'ADN du vecteur est tout d'abord excisé de ce vecteur avant la mise en oeuvre de l'étape de sequençage proprement dite

L'étape de sequençage peut être réalisée par toute technique de sequençage d'ADN connue de l'homme du métier, comme la méthode de

SANGER ou encore la méthode aux didéoxynucléotides décrite par

SANGER et al. (Proc. Natl. Acad. Sci. USA, 1977, 74 (12): 5463-5467) et par Zimmerman et al. (1988, FEBS Letters, 233(2): 432-436).

Pratiquement, le sequençage peut être réalisé à l'aide d'un appareil sequenceur du type ABI-37 de la Société Applied Biosystems Inc.

CREATION D'UN ENSEMBLE DE SEQUENCES NUCLEOTIDIQUES « DITAGs ». Après sequençage de chacun des acides nucléiques de la population d'acides nucléiques, on va générer un ensemble de séquences DITAGs de formule [N]_n [A_p], dans laquelle :

- [N]π est invariable et représente la séquence nucléotidique reconnue par l'enzyme de type nucléase; et

- [A-i] à [A_p] représentent chacun une séquence nucléotidique comprise entre deux séquences [N]_n dans l'acide nucléique séquence.

Standardisation des acides nucléiques séquences contenus dans la population d'acides nucléiques analysés.

Dans un mode de réalisation particulier de l'étape b) du procédé selon l'invention, chaque acide nucléique séquence qui est initialement contenu dans la population d'acides nucléiques analysée est tout d'abord soumis à une étape de standardisation préalable à l'étape de création proprement dite de l'ensemble de séquences DITAGs.

L'étape facultative préalable de standardisation est décrite ci- dessous. Dans une étape b1) du procédé, on recherche, dans chacune des séquences d'acides nucléiques obtenues à l'étape a), la première occurrence de la séquence [N]_n, puis on supprime tous les nucléotides situés du côté 5' de cette première séquence [N]_n.

Dans une étape b2), on recherche, à l'extrémité 3' de chacune des séquences d'acides nucléiques obtenues à l'étape (a), la présence de la séquence [N]_n, puis on supprime cette séquence [N]_n si celle-ci est retrouvée à cette position.

Génération d'une liste de séquences DITAGs

Dans une étape b) ou b3) du procédé, on génère, à partir de l'ensemble des séquences obtenues, une liste de séquences DITAG de formule [N]_n [A_p] dans laquelle [N]_n, et Ai à A_p sont tels que définis ci- dessus. Pour construire une liste de séquences DITAGs, chaque acide nucléique de la population d'acides nucléiques de départ, qui a la formule [N]_n [Ab]c va être divisée, dans une étape b.3.1) du procédé, en sous- séquences de formule [N]_n [Ad] dans laquelle: - [N]_n est invariable et représente la séquence nucléotidique reconnue par l'enzyme de type nucléase; et

- [Ai] à [Ad] représente chacun une séquence nucléotidique comprise entre deux séquences [N]_n, dans l'ensemble des acides nucléiques séquences de la population d'acides nucléiques de départ. d est un entier dont la valeur maximale est le nombre total de séquences DITAGs retrouvées dans l'ensemble des acides nucléiques séquences de la population d'acides nucléiques de départ.

Il existe nécessairement une certaine redondance dans l'ensemble des séquences DITAGs ainsi obtenues, par exemple du fait du fort niveau d'expression de certains gènes par la population de cellules étudiées. En conséquence, il peut y avoir identité entre plusieurs des séquences Ai à A_d constitutives des séquences DITAGs obtenues selon le procédé. La probabilité de retrouver deux séquences DITAG identiques correspond à la probabilité, par exemple lors de la mise en oeuvre de la technique SAGE ou SADE, de fusionner un fragment d'un premier ADNc donné avec la séquence inverse complémentaire d'un fragment d'un second ADNc donné. Cette probabilité est faible, mais n'est pas nulle.

Dans une étape b.3.2) du procédé, on génère, à partir de la liste de séquences DITAGs obtenues à l'étape b.3.1) ci-dessus, une liste de séquences DITAGs unique de formule [N]_n [A_p] dans laquelle:

- [N]_n est invariable et représente la séquence nucléotidique reconnue par l'enzyme du type nucléase;

- [Ai] à [A_p] représentent chacun une séquence nucléotidique unique comprise entre deux séquences [N]_n dans l'ensemble des acides nucléiques séquences de la population d'acides nucléiques de départ; et

- p est un entier dont la valeur maximale et le nombre de total de DITAGs uniques. Comptage des DITAGs

Dans une étape (b.4) du procédé, on répertorie et on compte, dans la famille de séquences obtenues à l'étape b.3), les séquences DITAGs suivantes: b.4.1) Les séquences ayant une longueur égale à une longueur y spécifiée, la valeur de y étant égale à la somme du nombre de nucléotides de la séquence [N]_n et de la valeur égale au double de l'entier z, tel que défini ci-dessus; b.4.2) Les séquences invalides comprenant des nucléotides ayant une valeur différente de A, T, G ou C; b.4.3) Les séquences ayant une longueur inférieure à la longueur y spécifiée.

La valeur y utilisée pour le tri des séquences DITAGS est prédéterminée. Cette valeur est égale à la somme du nombre de nucléotides de la séquence [N]_n et de la valeur égale au double de l'entier z, tel que défini ci-dessus.

Dans le cas où l'enzyme Sau3A ou encore Bsmfl a été utilisée dans la technique du type SADE ou SAGE, qui sont deux endonuciéases de restriction dont le site de coupure est situé à z = 10 bases du côté 3' du dernier nucléotide du site de reconnaissance de ces enzymes, la valeur y prédéterminée est égale à 24 (24 = n + (2 x z), avec n = 4 et z = 10 pour Sau3A ou Bsmfl).

Dans un mode de réalisation préférentiel du procédé de l'invention, on crée, pour chacune des catégories de DITAGs b.4.1), b.4.2) et b.4.3) définies ci-dessus, un tableau de type associatif.

Ainsi, dans une étape b.5) du procédé, on crée un tableau de type associatif contenant les séquences DITAGs correctes répertoriées à l'étape b.4.1), dont la clef est la séquence de chaque DITAG unique et dont la valeur de la clef et le nombre d'occurrences de ce DITAG

A l'étape b.5) du procédé, on crée un tableau de type associatif contenant les séquences DITAGs incorrectes répertoriées aux étapes b.4.2) et b.4.3), dont la clef est la séquence de chaque DITAG unique et dont la valeur de la clef est le nombre d'occurrences du DITAG. De plus, à l'étape b.5) du procédé, on crée un tableau de type associatif statistique dont la clef est une longueur de DITAG et dont la valeur de clef est le nombre d'occurrences du DITAG possédant cette longueur. Pratiquement, chaque enregistrement d'un DITAG dans un tableau associatif, quel qu'il soit, comprend les étapes suivantes:

- création d'un nouvel élément si ce DITAG n'existe pas encore dans le tableau; dans ce cas, le nombre d'occurrences du DITAG sera fixé à 1 ; - incrémentation de 1 du nombre d'occurrences de ce DITAG, si ce DITAG existe déjà dans le tableau associatif.

La clef du tableau associatif est la séquence elle-même du DITAG. La valeur associée à cette clef est le nombre d'occurrences de ce DITAG.

CONCATENATION DE L'ENSEMBLE DES SEQUENCES DITAGs UNIQUES CORRECTES

L'étape c) du procédé selon l'invention est facultative et peut donc être omise sans modifier fondamentalement la nature du procédé. En effet, comme cela apparaîtra plus clairement au vu du détail des étapes d) à g) les caractéristiques techniques de la séquence concaténée obtenue à l'étape c) ne sont pas indispensables à l'analyse globale des séquences nucléotidiques qui ont été séquencées à l'étape a) du procédé. A l'étape c) du procédé, l'ensemble des séquences uniques

DITAGs répertorié à l'étape b) ou à) l'étape b.4.1) sont concaténées pour obtenir une séquence, dite séquence « résultat », qui possède la formule [[N]]_n [A_p]]_q , dans laquelle:

- [N]_n est invariable et représente la séquence nucléotidique reconnue par une enzyme de type nucléase;

- Ai à A_p représentent chacun une séquence nucléotidique comprise entre deux séquences [N]_n, dans l'acide nucléique séquence, chacune des séquences Ai à A_p étant distinctes l'une de l'autre; et

- q est un entier égal à la valeur supérieure p. La valeur de l'entier q est égale au nombre de total de DITAGs uniques qui sont référencés dans le tableau de type associatif contenant les séquences DITAGs correctes répertoriées à l'étape b.4.1) du procédé tel que défini ci-dessus.

Cette étape correspond à l'étape c) ou à l'étape c.1.) du procédé de l'invention.

Le cas échéant, on procède au référencement de la séquence obtenue après concaténation dans une étape c.2) du procédé, par exemple sous la forme d'une variable ou d'un tableau.

La séquence concaténée obtenue à l'étape c) du procédé de l'invention contient l'ensemble des DITAGs représentatifs de la population d'acides nucléiques obtenus selon la méthode de type SAGE ou SADE. La séquence nucléotidique concaténée obtenue à l'étape c) de l'invention peut avoir une longueur supérieure à 10.000, 100.000, 200.000, 300.000, 500.000, 600,000, 700.000, 800.000, 900.000 et même supérieure à 1000000 de bases.

GENERATION DES SEQUENCES TAGS

Comme cela a déjà été détaillé précédemment, chaque séquence DITAG de formule [N]_n [A_p] est constituée:

- du côté 5', d'une séquence nucléotidique qui peut être retrouvée dans la séquence nucléotidique d'un ARN messager de la population d'acides nucléiques de départ; et

- du côté 3', d'une séquence complémentaire à une séquence qui peut être retrouvée dans un ARN messager de la population d'acides nucléiques de départ.

Afin d'obtenir une information exhaustive, à la fois qualitative et quantitative, sur la composition des ARNs messagers de la population d'acides nucléiques initiale, on caractérise, à partir de chaque DITAG, les deux séquences TAGs qui sont comprises dans le DITAG. Chaque séquence TAG unique contenue initialement dans un DITAG constitue une séquence nucléotidique unique représentant l'étiquette d'un ARN messager exprimé par les cellules ou la population cellulaire à partir desquelles a été préparée la population d'acides nucléiques de départ.

Création du premier ensemble de séquences TAGs

A partir de l'ensemble des séquences DITAGs obtenues à l'étape b) ou à l'étape b.4.1) du procédé, qui possède la formule [N]_n [Ap], on construit un ensemble de séquences TAGs, chaque séquence TAG ayant la formule [N]_n [X]_z, dans laquelle:

-[N]_n est invariable et représente la séquence nucléotidique reconnue par l'enzyme de type nucléase ;

- X est une base choisie parmi A, T, G ou C; et

- z est un entier égal au nombre de nucléotides situés entre le dernier nucléotique du côté 3' de la séquence [N]_n et le nucléotide localisé immédiatement après le site de coupure de l'enzyme nucléase dans la séquence [N]_n [X]_z.

Lorsque le procédé de l'invention est mis en oeuvre avec [N]_n représentant le site de reconnaissance de l'enzyme Sau3A ou BsmF^'1, la valeur de z est égale à 10.

La construction des séquences TAGs ci-dessus constitue l'étape d) ou encore l'étape d.1) du procédé selon l'invention.

Compte-tenu du fort niveau d'expression de certains ARNs messagers dans la population cellulaire à partir de laquelle à été obtenue la population d'acides nucléiques de départ traitée selon le procédé de l'invention, un certain nombre de séquences TAGs caractérisées dans l'étape d.1) définie ci-dessus sont retrouvées plusieurs fois dans l'ensemble des séquences DITAGs créées à l'étape b) ou à l'étape b.4.1) du procédé.

En conséquence, dans une étape d.2) du procédé, on référence chaque séquence TAG unique caractérisée à l'étape d.1).

De préférence, les séquences TAGs uniques sont référencées dans un tableau du type associatif ou « Hash » dont la clef est la séquence du TAG et dont la valeur de la clef est le nombre d'occurrences de ce TAG dans la population d'acides nucléiques séquences. Création du second ensemble de séquences TAGs

Comme déjà détaillé précédemment, chacune des séquences

DITAGs obtenues à l'issue de l'étape b) ou b.4.1) du procédé comprend, dans sa partie 3', une séquence correspondant à la séquence inverse complémentaire d'un ARN messager exprimé par la population de cellules dont le profil d'expression génique est analysé selon l'invention.

Afin d'aboutir à une caractérisation la plus exhaustive possible de l'ensemble des produits de transcription synthétisés par la population cellulaire dont le profil d'expression génique est analysé selon l'invention, un second ensemble de séquences TAGs est produit selon le procédé, à partir de l'ensemble des séquences DITAGs préalablement générées.

C'est l'objet des étapes e) et f) du procédé selon l'invention.

A l'étape e) du procédé, on génère une liste des séquences inverses complémentaires de chaque DITAG obtenue à l'étape b) ou à l'étape b.4.1), chaque séquence inverse complémentaire ayant la formule Comp([N]_n [A_p]).

De préférence, l'étape e) comprend les étapes suivantes: ei) construire la séquence inverse de chaque DITAG; e₂) construire la séquence complémentaire de la séquence inverse obtenue à l'étape ei), afin de générer la séquence inverse complémentaire du DITAG, dont la formule est Comp([N3_n [A_p]).

Au sens de l'invention, une séquence nucléotidique constitue la séquence inverse d'une séquence de référence, lorsque l'ordre des bases de cette séquence nucléotidique est inversé par rapport à l'ordre des bases de la séquence de référence.

Selon l'invention, une séquence nucléotidique est dite

« complémentaire » d'une séquence de référence, lorsque chaque base de la seconde séquence nucléotidique est complémentaire de la base correspondante de la séquence de référence. Les bases complémentaires sont A et T, C et G.

Dans un mode de réalisation préféré du procédé, les DITAGs dont on construit la séquence inverse complémentaire consiste en les DITAGs répertoriés à l'étape b.4.1) de ce procédé. Dans une étape f) du procédé, on génère, à partir de la liste des séquences inverses complémentaires de formule Comp([N]_n [A_p]) obtenues à l'étape e), une liste de séquences TAGs, chaque séquence TAG étant constituée : - de la séquence [N]_n, qui est concaténée à

- la séquence constituée des z premiers nucléotides de chacune des séquences de la liste des séquences de formule Comp([N]_n [A_p]), dans laquelle z est un entier égal au nombre de nucléotides situé entre le dernier nucléotide du côté 3' de la séquence [N]_n et les nucléotides localisés immédiatement après le site de coupure de l'enzyme nucléase dans la séquence [N]_n [X]_z définissant un TAG.

Dans un mode de réalisation préféré du procédé selon l'invention, l'étape f) comprend les étapes suivantes:

f1) construire, à partir de chaque séquence inverse complémentaire de

DITAG de formule Comp([N]_n [A_p]), une séquence consistant en les z premiers nucléotides du DITAG, dans laquelle z est un entier égal au nombre de nucléotides situés entre le dernier nucléotide du côté 3' de la séquence [N]_n et le nucléotide localisé immédiatement après le site de coupure de l'enzyme nucléase dans la séquence de formule [N]_n [X]₂ définissant un TAG ; f2) ajouter, à l'extrémité 5' de la séquence obtenue à l'étape f1), la séquence [N]_n invariable représentant la séquence nucléotidique reconnue par l'enzyme de type nucléase, afin d'obtenir une séquence TAG de formule [N]_n [X]_z dans laquelle :

- X est une base choisie parmi A, T, G ou C ; et

- z est un entier égal au nombre de nucléotides situés entre le dernier nucléotide du côté 3' de la séquence [N]_n et le nucléotide localisé immédiatement après le site de coupure de l'enzyme nucléase dans la séquence [N]_n [X]_z définissant un TAG. Création de l'ensemble des séquences TAGs uniques

Dans une étape g) du procédé selon l'invention, on ajoute les séquences TAGs obtenues à l'étape f) ou encore à l'étape f2) à la liste des séquences TAGs obtenues à l'étape d) ou encore à l'étape d2) du procédé, telles qu'elles sont définies ci-dessus.

Dans un mode de réalisation particulier de l'étape g) du procédé, les séquences TAGs obtenues à l'issue de l'étape f) ou f2) sont ajoutées dans le tableau de type associatif dont la clef est la séquence du TAG et la valeur de la clef est le nombre d'occurrence de ce TAG, qui avait était préalablement créé.

Si la séquence TAG est nouvelle, elle est ajoutée comme un élément supplémentaire du tableau associatif, dont le nombre d'occurrences sera dans ce cas fixé à 1.

Si la séquence TAG existe déjà dans le tableau associatif, le nombre d'occurrences de ce TAG sera alors incrémenté de 1.

Comme cela a déjà été détaillé ci-dessus, chaque séquence TAG caractérisée au sein de l'ensemble des séquences TAGs représentatives des ARNs messagers synthétisés par la population cellulaire dont le profil d'expression génique est analysé selon le procédé de l'invention constitue une étiquette d'un gène cellulaire donné.

Toutefois, les procédés de type SADE ou SAGE comprennent une étape de clonage des acides nucléiques dans des vecteurs. Cette étape de clonage des acides nucléiques entraîne certains artefacts, comme le clonage d'ADN mitochondrial indésirable. De plus, l'étape d'excision des inserts d'ADN des vecteurs entraîne aussi parfois l'excision d'acides nucléiques provenant des vecteurs eux-mêmes. Dans une étape facultative du procédé, il peut être avantageux de supprimer de la liste des séquences TAGs obtenues à l'issue de l'étape f) ou de l'étape f2) du procédé, les séquences TAGs provenant d'ADN mitochondrial ainsi que celles provenant des vecteurs de clonage utilisés dans le procédé d'obtention de la population d'acides nucléiques de départ. Dans un mode de réalisation particulier du procédé selon l'invention, le procédé comprend une étape h) dans laquelle on supprime de la liste des TAGs, les séquences TAGs qui comprennent au moins une copie d'une séquence nucléotidique indésirable. De préférence, chaque séquence nucléotidique indésirable est prédéterminée et est comprise dans une liste de séquences indésirables.

De manière préférée, l'ensemble des séquences indésirables est comprise dans une ou plusieurs listes préétablies de séquences indésirables. Les séquences indésirables comprennent des séquences provenant du ou des vecteurs utilisés pour cloner les acides nucléiques de départ et/ou des séquences nucléotidiques d'origine mitochondriale.

Dans un mode de réalisation préféré, l'étape h comprend les étapes suivantes: h1) comparaison de la séquence nucléotidique de chaque TAG avec l'ensemble des séquences indésirables; h2) suppression du TAG de la liste des TAGs s'il contient au moins une des séquences indésirables.

Le procédé d'analyse qualitative et quantitative d'une population d'acides nucléiques contenue dans un échantillon selon l'invention peut être aussi caractérisé en ce qu'il met en oeuvre des moyens d'affichage et/ou d'enregistrement d'au moins un élément choisi parmi les éléments suivants:

1) la séquence concaténée obtenue à l'étape c) ;

2) la liste des DITAGs obtenue à l'étape b.4.1) et le nombre d'occurrences de chaque DITAG ;

3) la liste des DITAGs obtenue à l'issue des étapes b.4.2) et b.4.3) et le nombre d'occurrences de chaque DITAG. 4) les statistiques de longueur des DITAGs des listes définies en 2) et 3) et le nombre d'occurrence de chacune des longueurs de DITAG ;

5) la liste des TAGs obtenue à l'étape g) et le nombre d'occurrences de chaque TAG ;

6) la liste des séquences indésirables. MODES DE REALISATIONS PARTICULIERS DU PROCEDE DE L'INVENTION.

Selon un premier aspect, le procédé de l'invention tel que défini ci- dessus est caractérisé en ce que l'enchaînement de nucléotides de formule [N]_n est choisi parmi les séquences de reconnaissance des enzymes nucléases Sau3A, BsmF1 et Nla3.

Selon un autre aspect préféré du procédé, ledit procédé est caractérisé en ce que l'enchaînement de nucléotides de formule [N]_n est choisi parmi les séquences suivantes:

- GATC (Sau3A et BsmF1) ou CATG (Nla3). Dans le mode de réalisation du procédé de l'invention dans lequel la mise en oeuvre de la technique SADE ou SAGE a eu recours à l'eridonucléase de restriction Sau3A,. le nombre de bases y séparant deux copies successives de l'enchaînement nucléotidique [N]_n dans la population d'acides nucléiques de départ est égal à 24, la valeur de l'entier z est égale à 10.

Selon encore un autre aspect, le procédé de l'invention peut comporter une étape supplémentaire i) constituée d'une comparaison de chacune des séquences TAGs obtenue à l'une des étapes d), f) ou g) avec une liste préétablie de séquences connues.

Dans le cas où la technique du type SADE ou SAGE a été mise en oeuvre à partir d'ARNs messagers extraits de cellules humaines, la comparaison de chacune des séquences TAGs obtenue à l'une des étapes d), f) ou g) du procédé est réalisée avec une liste préétablie de séquences connues d'origine humaine.

La liste préétablie de séquences connues peut être une liste de séquences nucléotidiques répertoriées dans une base de données locale ou encore dans une base de données distante accessible en ligne. Le procédé selon l'invention est particulièrement adapté à déterminer qualitativement et quantitativement l'expression de gènes par des cellules procaryotes ou eucaryotes.

Le procédé de l'invention peut être notamment appliqué à la détermination du profil d'expression génique d'une cellule ou d'une population de cellules procaryotes ou eucaryotes .

Le procédé selon l'invention est tout à fait adapté à la comparaison des profils d'expression géniques de plusieurs populations cellulaires. Ainsi, l'invention a également pour objet un procédé de comparaison des profils d'expression génique d'au moins deux populations de cellules, caractérisé en ce que l'on applique le procédé selon l'une des revendications 1 à 28 respectivement à chaque population d'acides nucléiques obtenue à partir de chacune des populations cellulaires, et que l'on compare entre eux les contenus respectifs d'au moins un élément choisi parmi les éléments suivants caractérisant une population cellulaire donnée :

1) la séquences concaténée obtenue à l'étape c) ;

3) la liste des DITAGs obtenue à l'issue des étapes b.4.2) et b.4.3) et le nombre d'occurrences de chaque DITAG.

4) les statistiques de longueur des DITAGs des listes définies en 2) et 3) et le nombre d'occurrence de chacune des longueurs de DITAGs ; 5) la liste dés TAGs obtenue à l'étape g) et le nombre d'occurrences de chaque TAG .

Le procédé selon l'invention est notamment tout à fait adapté à la comparaison des profils d'expression génique d'une population cellulaire donnée dans des environnements différents, par exemple une comparaison des profils d'expression génique entre une population cellulaire témoin et une population cellulaire incubée en présence d'un composé susceptible de modifier la physiologie cellulaire. Dans ce cas particulier, la comparaison qualitative et quantitative entre les séquences TAGs obtenues respectivement avec chacune des populations cellulaires permet d'identifier lesquelles des séquences TAGs sont concernées par la modification physiologique cellulaire induite par ledit composé et, le cas échéant, déterminer lesquels des gènes cellulaires ont été affectés dans leur expression par ledit composé.

Selon un autre aspect, le procédé selon l'invention permet une comparaison qualitative et quantitative des TAGs produits à partir de cellules provenant de patients sains et de patients affectés d'une pathologie déterminée, de déterminer lesquels des gènes cellulaires sont affectés dans leur expression chez les patients atteints d'une affection donnée.

PRODUIT « PROGRAMME D'ORDINATEUR ».

Le procédé de l'invention comprend une étape a) au cours de laquelle est réalisé le sequençage de la population d'acides nucléiques constituant les produits finals d'une technique de type SAGE ou SADE. Cette étape a) a) du procédé est de préférence exécutée, au moins en ce qui concerne l'enregistrement des données résultants du sequençage, dans la mémoire d'un ordinateur numérique. Avantageusement, la partie de l'étape a) nécessitant des commandes données au dispositif de sequençage est aussi exécutée dans la mémoire d'un ordinateur numérique.

Les étapes b) à g), b) à h) ou b) à i) du procédé peuvent être exécutées dans la mémoire interne d'un ordinateur numérique, lorsque la mémoire interne de l'ordinateur numérique a été chargée avec des portions de code d'un logiciel permettant l'exécution des étapes du procédé. Avantageusement, une partie de l'étape a) de sequençage ainsi que les étapes b) à g), b) à h) ou b) à i) du procédé peuvent être exécutées dans la mémoire interne d'un ordinateur numérique.

Les différentes sections d'un logiciel permettant l'exécution des étapes du procédé selon l'invention sont détaillées ci-après.

Section 1 : Définition des formats de fichiers et chargement des fichiers préétablis.

La section 1 comprend l'en-tête du programme et le chargement des librairies de fichiers.

Elle comprend aussi une description du format FASTA qui est le format utilisé pour la création des fichiers de séquences. Les fichiers au format FASTA possèdent des caractéristiques reconnues par la majorité des répertoires de séquences nucléotidiques. Dans un fichier au format FASTA, l'en-tête est toujours constituée du caractère «>» suivie d'une suite de caractères alphanumériques de longueurs variables. La séquence nucléotidique est constituée d'une ou plusieurs lignes de longueurs variables, qui contiennent uniquement les caractères A, T, G ou C. En principe, dans un fichier au format FASTA, chaque ligne de la séquence a une longueur fixe d'au maximum soixante caractères, la séquence contient uniquement les caractères A, T, G ou C et le fichier peut comprendre plusieurs séquences nucléotidiques.

Section 2: Saisie des paramètres

La section 2 comprend les instructions de chargement des variables. Les variables peuvent être entrées au départ par l'utilisateur dans la ligne de commande permettant de lancer le programme d'ordinateur, soit que ces variables soient demandées à l'utilisateur. Si l'utilisateur ne fournit pas de paramètre, l'ordinateur numérique sur lequel est exécuté le programme requiert ces paramètres. Les paramètres requis de l'utilisateur sont respectivement: a) des paramètres obligatoires. - la séquence du séparateur [N]_n;

- la valeur z du nombre de bases à prendre en compte après le séparateur [N]_n . Dans le cas de l'utilisation de l'enzyme nucléase Sau3A, cette valeur est de 10;

- le nom du fichier qui contiendra la séquence de formule: ([N]_n[Ap]]_q

Le cas échéant, lorsque des profils géniques d'au moins deux populations cellulaires distinctes sont comparés, l'utilisateur fournira le nom de chaque fichier comprenant chacune des séquences [ [N]_n[Ap] ]_q correspondant à chacune des populations cellulaires.

b) des paramètres facultatifs:

- le fichier qui contiendra les statistiques de distribution des séquences DITAGs; - le fichier qui contiendra les séquences DITAGS;

- le fichier qui contiendra les séquences TAGS;

- le fichier qui contiendra le tableau, global des statistiques ;

. - le fichier qui contiendra les séquences qui contiennent des erreurs, par exemple les DITAGs de longueur inférieure à la valeur y spécifiée;

- le fichier contenant la liste préétablie de séquences indésirables, telles que les séquences d'origine mytochondriales;

- le fichier d'entrée contenant une liste préétablie de séquences indésirables, tels que les adaptateurs nucléotidiques. A partir de cette étape, chacun des fichiers de séquences spécifiés par l'utilisateur va être lu par l'ordinateur et traité.

Section 3: Standardisation des acides nucléiques séquences.

Il y a tout d'abord une instruction d'appel de la sous-procédure « LITFICHIERFASTA », qui est une procédure de lecture d'un fichier FASTA contenant une ou plusieurs séquences au format FASTA correspondant à la population d'acides nucléiques de départ.

Est ensuite exécutée une instruction d'appel de la sous-procédure « TRAITEFICHIERFASTA » de nettoyage de chacune des séquences nucléotidiques de la population d'acides nucléiques obtenus par la mise en oeuvre de la technique du type SAGE ou SADE. Selon cette sous- procédure, les séquences nucléotidiques correspondant aux plasmides vecteur potentiellement présents au début et à la fin de chaque séquence sont supprimées. Selon cette sous-procédure, chaque occurrence du séparateur [N]_n dans la séquence traitée est recherchée, puis la séquence est scindée en sous-séquences dont le délimiteur est le séparateur [N]_π. Les sous-séquences sont stockées dans un tableau. Le premier élément du tableau est effacé car soit il est vide, soit il contient une séquence indésirable.

De plus, si la séquence complète ne se termine pas par le séparateur [N]_n, le dernier élément du tableau est supprimé. Ensuite, la séquence est reconstruite par concaténation de toutes les séquences restantes du tableau et en rajoutant le séparateur [N]_n entre chacune des sous-séquences, s'il n'est pas déjà présent. Section 4 : Caractérisation des séquences DITAGs.

On exécute une instruction d'appel de la sous-procédure « CALCULDITAGS ». Selon la sous-procédure « CALCULDITAGS », on calcule les statistiques sur les DITAGS de la manière décrite ci-dessous.

On construit tout d'abord un tableau avec la séquence obtenue à l'issue de la sous-procédure TRAITEFICHIER FASTA, chaque élément du tableau étant une sous-séquence délimitée par le séparateur [N]_n. Une boucle d'opération est réalisée sur tous les éléments du tableau et un comptage des éléments suivants est réalisé:

- tous les DITAGs trop courts, dont la longueur nucléotidique est inférieure à la valeur y spécifiée. Un tableau de type associatif (« HASH ») dont la clef est la séquence du DITAG et la valeur le nombre de DITAGs est construit;

- tous les DITAGs de même longueur. Un tableau de type associatif dont la clef et la longueur et la valeur le nombre de DiTAGs est construit.

- tous les DITAGs invalides, dont la séquence contient des caractères autres que A, T, G ou C. On construit un tableau associatif dont la clef est la séquence du DITAG et la valeur le nombre de DITAGs concernés;

- tous les DITAGs corrects. Un tableau associatif est construit dont la clef est la séquence du DITAG et la valeur le nombre de DITAGs concernés;

- un tableau associatif est construit dont la clef est la longueur du DITAG et la valeur le nombre de DITAGs concernés, afin de créer un histogramme des fréquences. Section 5: Caractérisation des séquences TAGs

On exécute une instruction d'appel de la sous-procédure « CALCULTAGs ». Dans cette procédure, on répertorie et compte les TAGs contenus dans chaque DITAG. Selon une procédure détaillée dans la description générale du procédé.

Dans une première étape de la sous-procédure CALCULTAGS, on crée, à partir de chaque DITAG, une liste de séquences TAG qui sont constituées du séparateur [N]_n suivi des z nucléotides suivant le séparateur dans la séquence DITAG. Chaque séquence TAG unique est ajoutée dans un tableau associatif (« Hash ») dont la valeur est la séquence du TAG et la clé le nombre d'occurrences de cette séquence.

Dans une seconde étape de la sous-procédure CALCULTAGS, on crée la séquence inverse complémentaire de chaque DITAG par une instruction d'appel d'une sous-procédure « REVERSE COMPLEMENT », puis on crée une seconde liste de séquences TAG en concaténant la séquence [N]_n du séparateur aux z premiers nucléotides des séquences inverses complémentaires créées par la sous-procédure REVERSECOMPLEMENT. Puis, on ajoute les séquences TAGs ainsi caractérisées aux séquences TAGS obtenues dans la première étape de la sous-procédure CALCULTAGS, et référencées dans un tableau associatif.

Dans un mode de réalisation préféré du procédé, la première et la seconde étape de la sous-procédure CALCULTAGS sont réalisées de manière simultanée. Section 6: Suppression des séquences TAGS indésirables

On exécute une instruction d'appel à la sous-procédure « TRAlTEMENTTAGs », La procédure « TRAITEMENTTAGs » recherche, parmi les TAGs générés, les séquences non désirables originaires des adaptateurs nucléotidiques utilisés ou encore les séquences nucléotidiques d'origine mitochondriale. Selon cette sous- procédure, chacune des séquences contenues dans le fichier des séquences d'adaptateurs ou d'origine mitochondriale est lue et comparée aux séquences présentes dans le tableau associatif dans lequel sont stockées les séquences TAGs. Si une séquence contenue dans le fichier de séquences indésirables (adapteur ou séquence de mitochondrie) existe dans le tableau associatif contenant les séquences TAGs, les séquences TAGs correspondantes sont supprimées du tableau associatif et le compteur de séquences non désirables est incrémenté du nombre de séquences supprimées dans le tableau associatif de séquences TAGs.

Section 7 : Agrégation des résultats

Chaque ligne du tableau contient:

- le total de toutes les occurrences par tous les fichiers de séquences lus en entrée;

- pour chaque fichier de séquences lu en entrée, le total des occurrences dans ce fichier. On exécute les instructions de création d'un tableau de statistiques détaillé pour chaque fichier des séquences des acides nucléiques de départ lu. Les statistiques obtenues pour chaque fichier sont regroupées dans un nouveau tableau qui comprend:

- nombre total de bases avant traitement; - nombre total de bases après traitement; - nombre total de DITAGs avant délétion;

- nombre total de DITAGs après délétion;

- nombre total de DITAGs effacés;

- nombre total de séquences mitochondriales; - nombre total de séquences des vecteurs (séquences adaptateur);

- nombre total de TAGs sortants;

- liste des DITAGs corrects;

- liste des TAGs corrects. Un exemple illustratif d'un tel tableau est représenté dans le

Tableau 9.

Section 8: Création de la séquence concaténée.

On exécute l'instruction d'appel de la sous-procédure

« ENREGISTRESEQUENCERESULTAT », Dans cette sous-procédure, un fichier au format FASTA contenant la séquence résultat du traitement est créé. Cette séquence est le résultat de la concaténation de tous les DITAGs valides trouvés à partir des séquences qu'a fourni l'utilisateur dans le fichier de séquences.

Section 9 : Statistiques de longueurs des DITAGs

On exécute une instruction d'appel de la sous-procédure « ENREGISTRESTATLONGUEUR ».

Selon cette sous-procédure, le fichier contenant lès statistiques de distribution des DITAGs selon leur longueur est créé. Le tableau associatif contenant les statistiques de longueur des DITAGS est trié par ordre croissant, puis un fichier au format suivant est créé : - la première ligne du fichier contient les caractères suivants « longueur ; fréquence ».

Les autres lignes du fichier contiennent deux colonnes séparées par un « ; », la première colonne contenant la longueur du DITAG, la deuxième colonne contenant la fréquence d'apparition de ce DITAG.

Les instructions codent l'enregistrement de la liste des DITAGS dans un fichier dont le format est le suivant: chaque ligne possède deux colonnes, la première colonne étant la séquence du DITAG, la deuxième colonne étant la fréquence du DITAG, c'est-à-dire le nombre d'occurrences de ce DITAG dans la séquence totale.

Les instructions codent l'enregistrement de la liste des TAGs dans un fichier, dont le format est le suivant chaque ligne comprend deux colonnes, la première colonne étant la séquence du TAG, la deuxième colonne étant la fréquence du TAG , c'est-à-dire le nombre d'occurrences du TAG dans la séquence complète.

Un autre objet de l'invention est un produit « programme d'ordinateur » chargeable directement dans la mémoire interne d'un ordinateur numérique, comprenant des portions de code d'un logiciel pour l'exécution des étapes b) à g) b) à h) ou b) à i) du procédé d'analyse qualitative et quantitative d'une population d'acides nucléiques selon l'invention, lorsque ledit programme est exécuté sur un ordinateur.

L'invention est également relative à un produit « programme d'ordinateur » enregistré sur un support utilisable dans un ordinateur, comprenant: a) des moyens de programmation lisibles par ordinateur pour commander par un ordinateur l'exécution d'une application; b) des moyens de programmation lisibles par ordinateur pour faire mettre en oeuvre par l'ordinateur les étapes successives b) à g) b) à h) ou b) à i) du procédé d'analyse qualitative et quantitative d'une population d'acides nucléiques selon l'invention. Selon un mode particulier de réalisation d'un programme d'ordinateur selon l'invention, ce programme d'ordinateur est rédigé dans un langage compatible avec un système d'exploitation du type UNIX.

Dans un mode de réalisation préféré d'un programme d'ordinateur selon l'invention, ce programme d'ordinateur est réalisé dans le langage PERL et de manière tout à fait préférée dans le langage PERL (Practical Extraction and Report Language) dans sa version 5 ou toute autre version ultérieure, qui est accessible notamment par Internet à l'adresse suivante: « ftp://ftp.lip6.fr/pub/perl/CPAN/src/stable.tar.gz ». Une caractéristique avantageuse d'un programme d'ordinateur selon l'invention est que ce dernier est capable de traiter les séquences nucléotidiques sans limite de taille, ce qui permet notamment d'éviter un traitement des séquences par lots de séquences de taille limitée et donc d'éviter de mettre en oeuvre plusieurs fois les mêmes étapes du programme pour traiter un lot de séquences de grande taille, ce qui ralentirait considérablement la vitesse d'exécution du programme.

De plus, le programme selon l'invention permet une comparaison directe et simultanée des profils d'expression génique de plusieurs populations cellulaires. Dans la pratique, une comparaison de la vitesse d'exécution du programme utilisé par Vesculescu et al. (1995) et du programme d'ordinateur selon l'invention avec la même séquence nucléotidique de départ a permis de montrer que le programme d'ordinateur de l'invention est deux cents fois plus rapide que celui utilisé par Vesculescu et al. (1995), sur des ordinateurs de puissance équivalente.

L'invention est également relative à un système informatique comprenant un environnement adapté pour le déroulement d'une application et des moyens pour la mise en oeuvre des étapes successives b) à g), b) à h) ou b) à i) du procédé d'analyse qualitative et quantitative d'une population d'acides nucléiques selon l'invention. Un tel système informatique comprend un ordinateur numérique adapté à l'exécution de programmes d'ordinateurs compatibles avec un environnement d'exploitation de type UNIX et comprenant les moyens de stockage d'informations telle qu'une mémoire interne, ou encore des supports d'informations tels que des disquettes, des disques optiques numériques, des bandes magnétiques ou encore des CD ROM.

La présente invention est en outre illustrée, sans pour autant être limitée, par les exemples suivants:

EXEMPLES

EXEMPLE 1 - Obtention d'une population d'acides nucleigues à partir de cellules de la lignée humaine U937.

Une banque d'acides nucléiques a été réalisée selon la méthode SAGE à partir des ARNs messagers extraits des cellules de la lignée myélomonocytaire humaine U937 proliférative.

Un lot de cellules témoins a été cultivé pendant 48 heures dans le milieu de culture et un lot de cellules de test a été traité par la vitamine D3 à 100 nM pour différenciation, avant un traitement par une association des rétinoïdes TTNPB (1 OOnM) et LGD 1069 (1 μM) pendant 48 heures.

Après 48 heures de culture, les ARNs messagers obtenus dans chacune des populations cellulaires ont été extraits selon la méthode décrite par Vesculescu et al. (1995, Science, 270: 484-487).

Les ARNs messagers extraits de chacune des populations cellulaires traitées ou non traitées par les rétinoïdes ont été incubés en présence de transcriptase inverse afin de synthétiser les ADN complémentaires.

Les ADN complémentaires ainsi obtenus ont été séquences selon la technique de Sanger à l'aide d'un sequenceur Abi37 de la Société Applied Biosystems. EXEMPLE 2 : Analyse qualitative et guantitative des ADNc obtenus à l'exemple 1

Les différentes séquences nucléotidiques obtenues à l'issue du sequençage des ADNc correspondant aux ARNs messagers synthétisés respectivement par les cellules U937 non traitées et les cellules U937 traitées par les rétinoïdes ont été stockées dans un fichier de type FASTA, puis les séquences ont été traitées selon le procédé de l'invention afin de produire un état statistique des séquences DITAGs et des séquences TAGs initialement contenues dans la population d'ADNc .

Les rapports d'édition des TAGs extraits de cellules de la lignée U937 proliférative non traités et des TAGs extraits des cellules de la lignée U937 après traitement par les rétinoïdes sont représentés respectivement dans les tableaux 1 à 4 et 5 à 8. Les tableaux 1 à 4 représentent les statistiques obtenues à partir de la population d'acides nucléiques originaires des cellules de la lignée U937 proliférative non traitée.

Les tableaux 5 à 8 représentent les résultats statistiques obtenus à partir de la population d'acides nucléiques provenant de la population cellulaire de la lignée U937 traitée en présence des rétinoïdes.

Une comparaison des résultats présentés dans les tableaux 4 et 8 montre que l'incubation des cellules U937 avec les rétinoïdes induit une modification du profil d'expression génique des cellules de cette lignée cellulaire. Par exemple, la séquence TÀG « GATÇGCCGTTCTGG » retrouvée avec le plus grand nombre d'occurrences au sein des cellules U937 non traitées, qui représente 1 ,3% du nombre total des séquences TAGs ne représente plus que 0,9% du nombre total des TAGs retrouvés dans la population de cellules U937 traitées avec l'association des rétinoïdes, ce qui dénote une répression de l'expression du gène contenant cette séquence TAG dans les cellules traitées. A l'inverse, la séquence TAG « GATCAGCAAGCAGG » est retrouvée dans 0,41% des séquences TAGs caractérisées à partir des cellules U937 non traitées et dans 0,9% des séquences TAGs caractérisées à partir des cellules U937 traitées par l'association de rétinoïdes, ce qui dénote que le gène contenant cette séquence TAG est plus fortement exprimé dans les cellules traitées.

Le tableau 9 est une illustration de l'agrégation des caractéristiques techniques sur les séquences analysées selon le procédé de l'invention. Les caractéristiques techniques des séquences analysées à partir d'ARN messager provenant de deux populations cellulaires distinctes sont détaillées dans les deux dernières colonnes de droite du tableau 9 et peuvent être directement comparées après traitement.

Le tableau 10 est une agrégation des caractéristiques techniques de l'ensemble des séquences DITAGS analysées pour les deux populations cellulaires dont le profil d'expression génique est comparé.

TABLEAU 1

TABLEAU 3

TABLEAU 4

TABLEAU 5

TABLEAU 6

DITAGS REPETES TOTAL

GATCAAAAAGAAACTATCAGCGTCAC 2

GATCAATAACAAAAAATCAGGGTCGÏ 2

TABLEAU 7

STAT DITAGS longueur fréquence

24 2047

25 3118

26 1910

27 589

28 57

29 35 TABLEAU 8

TABLEAU 9

TABLEAU 10

10

Claims

Revendications

1. Procédé d'analyse qualitative et quantitative d'une population d'acides nucléiques contenus dans un échantillon , chacun des acides nucléiques de la population comprenant une pluralité de copies d'un enchaînement invariable de nucléotides de formule [N]_n reconnu par une enzyme du type nucléase, dans laquelle chaque N représente indépendamment l'une quelconque des base A, T, G ou C et n est le nombre de nucléotides de l'enchaînement reconnu par l'enzyme, le nombre de bases séparant deux copies successives de l'enchaînement nucléotidique [N]_n étant globalement constant et déterminé par le nombre de nucléotides situés entre la séquence [N]_n et le site de coupure de l'enzyme de type nucléase, ledit procédé étant caractérisé en ce qu'il comprend les étapes suivantes : a) séquencer chaque acide nucléique de la population d'acides nucléiques ; b) générer, à partir de l'ensemble des séquences obtenues à l'étape a) ou à partir de séquences standardisées qui en sont dérivées, une liste de séquences DITAG de formule [N]_n [A_p], dans laquelle :

- [N]_n est invariable et représente la séquence nucléotidique reconnue par l'enzyme de type nucléase ; et

- Ai à A_p représentent chacun une séquence nucléotidique unique comprise entre deux séquences [N]_n, dans l'ensemble des acides nucléiques séquences de la population d'acides nucléiques de départ ; c) facultativement, concaténer l'ensemble des séquences uniques obtenues à l'étape b) ; afin d'obtenir une séquence de formule [[N]_n [A_p]]_q dans laquelle :

- q est un entier égal à la valeur supérieure de p. d) générer, à partir de la liste des séquences DITAG obtenue à l 'étape b), une liste de séquences TAG de formule [N]_n [X]_z, dans laquelle :

- X est une base choisie parmi A, T, G ou C et chaque [X]_z représente une séquence unique; et

- z est un entier égal au nombre de nucléotides situés entre le dernier nucléotide du côté 3' de la séquence [N]_n et le nucléotide localisé immédiatement après le site de coupure de l'enzyme nucléase dans la séquence [N]_n [X]_z. e) générer une liste des séquences inverses complémentaires de chaque DITAG obtenu à l'étape b), chaque séquence inverse complémentaire ayant la formule Comp([N]_n [A_p]) ; f) générer, à partir de la liste des séquences inverses complémentaires de formule Comp([N]_n [A_p]) obtenue à l'étape e), une liste de séquences TAG, chaque séquence TAG étant constituée :

- de la séquence [N]_n, concaténée à

- la séquence constituée des z premiers nucléotides de chacune des séquences de la liste de séquences de formule Comp([N]_n [A_p]), dans laquelle z est un entier égal au nombre de nucléotides situés entre le dernier nucléotide du côté 3' de la séquence [N]_n et le nucléotide localisé immédiatement après le site de coupure de l'enzyme nucléase dans la séquence [N]_n [X]_z définissant un TAG. g) Ajouter les séquences TAG obtenue à l'étape f) à la liste des séquences TAG obtenue à l'étape d).

2. Procédé selon la revendication 1 , caractérisé en ce que l'étape a) de sequençage des acides nucléiques est réalisée selon une méthode choisie parmi la méthode de Sanger ou la méthode aux didéoxynucléotides.

3. Procédé selon la revendication 1 , caractérisé en ce que l'étape b) comprend les étapes suivantes : b1) recherche, dans chacune des séquences d'acide nucléique obtenues à l'étape a), de la première occurrence de la séquence [N]_n , puis suppression de tous les nucléotides situés du côté 5' de cette première séquence [N]_n ; b2) recherche, à l'extrémité 3' de chacune des séquences d'acide nucléique obtenues à l'étape a), de la présence de la séquence [N]_n, puis suppression de cette séquence [N]_n si celle-ci est retrouvée à cette position ; b3) générer, à partir de l'ensemble des séquences standardisées obtenues à l'issue des étapes b1) et b2), une liste de séquences DITAG de formule [N]_n [A_p], dans laquelle [N]_n et Ai à A_p sont tels que définis dans la revendication 1.

4. Procédé selon la revendication 3, caractérisé en ce que l'étape b3) comprend les étapes suivantes : b.3.1) générer, à partir des séquences standardisées obtenues à l'issue des étapes b1) et b2), une liste de séquences DITAG de formule [N]_n [A_d] dans laquelle ;

- [N]_n est invariable et représente la séquence nucléotidique reconnue par l'enzyme de type nucléase ;

- Ai à A représentent chacun une séquence nucléotidique comprise entre deux séquences [N]_n contenue dans un acide nucléique de l'ensemble des acides nucléiques séquences de la population de départ ; et - d est un entier dont la valeur maximale est égale au nombre de séquences DITAG retrouvées dans l'ensemble des acides nucléiques séquences de la population d'acides nucléiques de départ b.3.2) générer, à partir de la liste de séquences DITAG obtenue à l'étape b.3.1), une liste dé séquences DITAG uniques de formule [N]_n [A_p], dans laquelle :

. - [N]_n est invariable et représente la séquence nucléotidique reconnue par l'enzyme de type nucléase ;

- Ai à A_p représentent chacun une séquence nucléotidique unique comprise entre deux séquences [N]_n, dans l'ensemble des acides nucléiques séquences de la population d'acides nucléiques de départ ; et

- p est un entier dont la valeur maximale est le nombre total de DITAG uniques.

5. Procédé selon l'une des revendications 3 ou 4, caractérisé en ce qu'à la suite de l'étape b.3), on réalise l'étape b.4) suivante : b.4) répertorier et compter, dans la famille de séquences obtenue à l'étape b.3), les séquences DITAGs suivantes : b.4.1) les séquences ayant une longueur égale à une longueur y spécifiée, la valeur de y étant égale à la somme du nombre de nucléotides de la séquence [N]_n et de la valeur égale au double de l'entier z, tel que défini dans la revendication 1. b.4.2) les séquences invalides comprenant des nucléotides ayant une valeur différente de A, T, G ou C ; b.4.3) les séquences ayant une longueur inférieure à la longueur y spécifiée.

6. Procédé selon la revendication 5, caractérisé en ce qu'on crée, dans une étape b5), un tableau de type associatif contenant les séquences

DITAG correctes répertoriées à l'étape b.4.1), dont la clé est la séquence de chaque DITAG unique et dont la valeur de la clé est le nombre d'occurrences du DITAG ;

7. Procédé selon la revendication 6, caractérisé en ce qu'à l'étape b5), on crée un tableau de type associatif contenant les séquences DITAG incorrectes répertoriées aux étapes b.4.2) et b.4.3), dont la clé est la séquence de chaque DITAG unique et dont la valeur de la clé est le nombre d'occurrences du DITAG ;

8. Procédé selon la revendication 6, caractérisé en ce qu'à l'étape b5), on crée un tableau de type associatif statistique dont la clé est une longueur de DITAG et dont la valeur de la clé est le nombre d'occurrences du DITAG possédant cette longueur.

9. Procédé selon l'une des revendications 6 à 8, caractérisé en ce que l'étape c) comprend les étapes suivantes : d) concaténation de toutes les séquences DITAG uniques répertoriées lors de la mise en œuvre de l'étape b.4.1) selon la revendication 4 ou contenues dans le tableau associatif selon la revendication 5, afin d'obtenir une séquence de formule [[N]_n [A_p]]_q dans laquelle :

- Ai à A_p représentent chacun une séquence nucléotidique comprise entre deux séquences [N]_n ; et - q est un entier égal à la valeur supérieure de p ; c2) référencement de la séquence obtenue après concaténation.

10. Procédé selon l'une des revendications 1 à 9, caractérisé en ce que l'étape d) comprend les étapes suivantes : d1) construire, à partir de chaque DITAG de formule [N]_n [Ap], une séquence TAG de formule [N]_n [X]_z dans laquelle : - [N]_n est invariable et représente la séquence nucléotidique reconnue par une enzyme de type nucléase ;

- X est une base choisie parmi A, T, G ou C ;

- z est un entier égal au nombre de nucléotides situés entre le dernier nucléotide du côté 3' de la séquence [N]_n et le nucléotide localisé immédiatement après le site de coupure de l'enzyme nucléase dans la séquence [N]_n [X]_z ; d2) Référencer la séquence TAG unique construite à l'étape d1).

11. Procédé selon la revendication 10, caractérisé en ce que chaque DITAG à partir duquel est construite la séquence TAG est contenu dans la liste de DITAGs obtenue à l'étape b.4.1 ) du procédé.

12. Procédé selon l'une des revendications 1 , 10 et 11 , caractérisé en ce que les séquences TAG sont référencées dans un tableau du type associatif dont la clé est la séquence du TAG et la valeur de la clé est le nombre d'occurrences de ce TAG.

13. Procédé selon l'une des revendications 1 à 12, caractérisé en ce que l'étape e) comprend les étapes suivantes : e1) construire la séquence inverse de chaque DITAG ; e2) construire la séquence complémentaire de la séquence inverse obtenue à l'étape e1), afin de générer la séquence inverse complémentaire du DITAG, dont la formule est Comp([N]_n [A_p]).

14. Procédé selon la revendication 13, caractérisé en ce que les DITAGs dont on construit la séquence inverse complémentaire consistent en les DITAGs répertoriés à l'étape b.4.1) du procédé.

15. Procédé selon l'une des revendications 1 à 14, caractérisé en ce que l'étape f) comprend les étapes suivantes : fi) construire, à partir de chaque séquence inverse complémentaire de DITAG de formule Comp([N]_n [A_p]), une séquence consistant en les z premiers nucléotides du DITAG, dans laquelle z est un entier égal au nombre de nucléotides situés entre le dernier nucléotide du côté 3' de la séquence [N]_n et le nucléotide localisé immédiatement après le site de coupure de l'enzyme nucléase dans la séquence de formule [N]_n [X]_z définissant un TAG ; f2) ajouter, à l'extrémité 5' de la séquence obtenue à l'étape fi), la séquence [N]_n invariable représentant la séquence nucléotidique reconnue par l'enzyme de type nucléase, afin d'obtenir une séquence

TAG de formule [N]_n [X]_z dans laquelle :

- X est une base choisie parmi A, T, G ou C ; et - z est un entier égal au nombre de nucléotides situés entre le dernier nucléotide du côté 3' de la séquence [N]_n et le nucléotide localisé immédiatement après le site de coupure de l'enzyme nucléase dans la séquence [N]_n [X]_z définissant un TAG.

16. Procédé selon la revendication 15, caractérisé en ce qu'à l'étape g), la liste de TAGs obtenue à l'étape f2) est ajoutée à la liste de TAGs obtenue selon les revendications 10 à 12.

17. Procédé selon l'une des revendications 1 à 16, caractérisé en ce que, dans une étape h) du procédé, on supprime de la liste des TAGs, les TAGs qui comprennent au moins une copie d'une séquence nucléotidique indésirable.

18. Procédé selon la revendication 17, caractérisé en ce que chaque séquence indésirable est comprise dans une liste de séquences indésirables.

19. Procédé selon la revendication 18, caractérisé en que l'ensemble des séquences indésirables sont comprises dans une ou plusieurs listes préétablies de séquences indésirables.

20. Procédé selon l'une des revendications 17 à 19, caractérisé en ce que les séquences indésirables comprennent des séquences provenant du ou des vecteurs utilisés pour cloner les acides nucléiques de départ.

21. Procédé selon l'une des revendications 17 à 20, caractérisé en ce que les séquences indésirables comprennent des séquences nucléotidiques d'origine mitochondriale.

22. Procédé selon l'une des revendications 17 à 21 , caractérisé en ce que l'étape h) comprend les étapes suivantes : h1) comparaison de la séquence nucléotidique de chaque TAG avec l'ensemble des séquences indésirables ; h2) suppression du TAG de la liste des TAGs s'il contient au moins une des séquences indésirables.

23. Procédé selon l'une des revendications 1 à 22, caractérisé en ce qu'il met en œuvre des moyens d'affichage et/ou d'enregistrement d'au moins un élément choisi parmi les éléments suivants :

1) la séquence concaténée obtenue à l'étape c) ; 2) la liste des DITAGs obtenue à l'étape b.4.1) et le nombre d'occurrences de chaque DITAG ;

4) les statistiques de longueur des DITAGs des listes définies en 2) et 3) et le nombre d'occurrence de chacune des longueurs de DITAG ; 5) la liste des TAGs obtenue à l'étape g) et le nombre d'occurrences de chaque TAG ;

6) la liste des séquences indésirables.

24. Procédé selon l'une des revendications 1 à 23, caractérisé en ce que l'enchaînement de nucléotides de formule [N]_n est choisi parmi les séquences reconnues par les enzymes Sau3A, BsmF1 ou Nla3.

25. Procédé selon la revendication 24, caractérisé en ce que l'enchaînement de nucléotides de formule [N]_n est choisi parmi les séquences suivantes : GATC et CATG.

26. Procédé selon l'une des revendications 1 à 25, caractérisé en ce que l'enchaînement nucléotidique de formule [N]_π est reconnu par l'endonucléase de restriction Sau3A, en ce que la valeur de l'entier z est égale à 10. et en ce que la valeur de l'entier y est égale à 24.

27. Procédé selon l'une des revendications 1 à 26, caractérisé en ce qu'il comporte une étape supplémentaire i) de comparaison de chacune des séquences TAG obtenues à l'une des étapes d), f) ou g) avec une liste préétablie de séquences connues.

28. Application du procédé selon l'une des revendications 1 à 27 à la détermination du profil d'expression génique d'une cellule ou d'une population de cellules.

29. Application selon la revendication 28, caractérisée en ce que la cellule ou la population de cellules est d'origine eucaryote.

30. Procédé de comparaison des profils d'expression génique d'au moins deux populations de cellules, caractérisé en ce que l'on applique le procédé selon l'une des revendications 1 à 29 respectivement à chaque population d'acides nucléiques obtenue à partir de chacune des populations cellulaires, et que l'on compare entre eux les contenus respectifs d'au moins un élément choisi parmi les éléments suivants caractérisant une population cellulaire donnée :

1) la séquences concaténée obtenue à l'étape c) ;

2) la liste des DITAGs obtenue à l'étape b.4.1 ) et le nombre d'occurrences de chaque DITAG ;

4) les statistiques de longueur des DITAGs des listes définies en 2) et 3) et le nombre d'occurrence de chacune des longueurs de DITAGs ; 5) la liste des TAGs obtenue à l'étape g) et le nombre d'occurrences de chaque TÀG ;

31. Produit " programme d'ordinateur " chargeable directement dans la mémoire interne d'un ordinateur numérique, comprenant des portions de code d'un logiciel pour l'exécution des étapes b) à g), b) à h) ou b) à i) du procédé selon l'une des revendications 1 à 29 lorsque ledit programme est exécuté sur un ordinateur.

32. Produit " programme d'ordinateur " selon la revendication 30, caractérisé en ce qu'il comprend des portions de code d'un logiciel pour l'exécution du procédé selon la revendication 30.

33. Un produit " programme d'ordinateur " enregistré sur un support utilisable dans un ordinateur, comprenant : a) des moyens de programmation lisibles par ordinateur pour commander par un ordinateur l'exécution d'une application ; b) des moyens de programmation lisibles par ordinateur pour faire mettre en œuvre par l'ordinateur les étapes successives b) à g), b) à h) ou b) à i) du procédé selon l'une des revendications 1 à 29 ou pour faire mettre en œuvre par l'ordinateur les étapes successives du procédé selon la revendication 30.

34. Système informatique comprenant un environnement adapté pour le déroulement d'une application et des moyens pour la mise œuvre des étapes successives b) à g), b) à h) ou b) à i) du procédé selon l'une des revendications 1 à 29 ou pour la mise en œuvre des étapes successives du procédé selon la revendication 30 .