WO2015180972A1 - Procede d'identification d'une relation entre des elements biologiques - Google Patents

Procede d'identification d'une relation entre des elements biologiques Download PDF

Info

Publication number
WO2015180972A1
WO2015180972A1 PCT/EP2015/060779 EP2015060779W WO2015180972A1 WO 2015180972 A1 WO2015180972 A1 WO 2015180972A1 EP 2015060779 W EP2015060779 W EP 2015060779W WO 2015180972 A1 WO2015180972 A1 WO 2015180972A1
Authority
WO
WIPO (PCT)
Prior art keywords
value
distribution
class
individuals
representative
Prior art date
Application number
PCT/EP2015/060779
Other languages
English (en)
Inventor
Anne-Claire BRUNET
Jean-Michel LOUBES
Jean-Marc AZAIS
Michael Courtney
Original Assignee
Vaiomer
Universite Paul Sabatier Toulouse Iii
Centre National De La Recherche Scientifique (C.N.R.S)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vaiomer, Universite Paul Sabatier Toulouse Iii, Centre National De La Recherche Scientifique (C.N.R.S) filed Critical Vaiomer
Priority to EP15722538.4A priority Critical patent/EP3149638A1/fr
Priority to US15/314,326 priority patent/US20170154151A1/en
Publication of WO2015180972A1 publication Critical patent/WO2015180972A1/fr

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Definitions

  • the present invention relates to a method for identifying a relationship between physical elements.
  • the invention also relates to a method of identifying a therapeutic target for the prevention and / or treatment of a pathology.
  • the invention also relates to a method for identifying a diagnostic biomarker, susceptibility, prognosis of a pathology or predictive of a response to a treatment of a pathology.
  • the invention also provides a method for screening a compound useful as a medicament, having an effect on a known therapeutic target, for the prevention and / or treatment of a pathology.
  • the invention also relates to the associated computer program products.
  • Such approaches mainly include: genomics (gene study), transcriptomics (gene expression analysis and regulation), proteomics (protein study), metabolomics (metabolite analysis).
  • Genomics is divided into two branches: structural genomics, which deals with the sequencing of the entire genome, and functional genomics, which aims to determine the function and expression of sequenced genes.
  • functional genomics the techniques are applied to a large number of genes in parallel: for example the phenotype of mutants can be analyzed for a whole family of genes, or the expression of all the genes of an entire organism.
  • the transcriptomic is the study of all messenger RNAs produced during the transcription process of a genome. It is based on the quantification of all these messenger RNAs, which makes it possible to have a relative indication of the transcription rate of different genes under given conditions.
  • Proteomics is the analysis of all the proteins of an organelle, a cell, a tissue, an organ or an organism under given conditions. Proteomics focuses on globally identifying proteins extracted from a cell culture, a tissue or a biological fluid, their location in compartments their possible post-translational modifications, as well as their quantity. It makes it possible to quantify the variations of their expression rate for example as a function of time, their environment, their state of development, their physiological and pathological state, the species of origin, etc. It also studies the interactions that proteins have with other proteins, with DNA or RNA, or other substances.
  • Metabolomics studies all the metabolites (sugars, amino acids, fatty acids, etc.) present in a cell, an organ, an organism.
  • the above approaches make it possible to obtain a great deal of information on the cellular and / or tissue response to in vitro or in vivo exposure.
  • they can be useful for identifying and identifying new biomarkers (diagnostic, susceptibility, prognosis, exposure, effect), generating new knowledge mechanistically (modes of action), or further develop new efficacy tools or predictive toxicology to help identify new drug targets or drug candidates.
  • the data obtained by the "omics" approaches concern a very large number of variables that should be analyzed together.
  • transcriptomic analyzes make it possible to simultaneously study the expression of several thousand genes.
  • the number of individuals on which these analyzes are performed is limited because of the difficulty in forming cohorts of patients, so that the number of variables generally exceeds the sample size. Standard statistical methods can no longer be used.
  • the analysis of the data obtained then comes down to considering two distinct problems of statistical research, namely the calculation of the covariance matrix and the unsupervised classification of the vertices of a graph also called partitioning of the graph.
  • the first family groups together methods that take advantage of a natural order in the data by assuming that the more variables are moved in this order and the lower their dependency.
  • the second family of methods includes methods for estimating covariance insensitive to the order of presentation of the data. This is the case for the methods of adding a penalty 11 to the likelihood maximization problem in the Gaussian case or thresholding methods on the empirical covariance matrix.
  • the two families of methods are inefficient when the sample is too small. Indeed, the two families of methods imply to fix a regularization parameter in order to obtain an optimal estimator. However, there is no analytical way of setting the regulation parameter. In addition, the above methods are expensive in computing time when the number of variables is very large.
  • the second issue relating to partitioning arises after the first problematic of calculating the covariance matrix.
  • the calculated covariance can be represented by a graph and the construction of the graph presents no particular difficulty.
  • Two vertices (variables) are connected on the graph if their covariance is non-zero.
  • the second problem is that of the identification of vertex groups connected to the graph (graph partitioning).
  • the spectral methods are based on the definition of a similarity measure on the vertex space of the graph from the Laplacian eigenvectors of the graph which is used to partition the graph with a k-type algorithm.
  • medium (often referred to as "k-means") for example.
  • a method for identifying a relationship between physical elements comprising the step of providing data, the data comprising a magnitude representative of the physical elements or of their activity for a plurality of individuals, the step of estimating the covariance matrix between the different quantities representative of the physical elements or their activity from the data provided, the step of associating a graph with a thresholding value, the associated graph comprising vertices representative of the physical elements and links between the vertices when the value of the covariance between the considered vertices is greater than the threshold value considered.
  • the method also comprises the step of obtaining cores by analyzing the evolution of the graphs by using a plurality of thresholding values, a core being a set of vertices of a graph such that the number of vertices is greater than or equal to a fixed number, such that there exists a thresholding value for which the core is a connected component of the graph associated with the thresholding value and such that there are no other connected components of a graph whose number of vertices is greater than or equal to the fixed number and which is included in the core, the step of defining candidate graphs, each candidate graph being a graph associated with one of the thresholding values of the plurality of thresholding values.
  • the method also comprises, for each thresholding value of the plurality of thresholding values, a step of obtaining an associated distribution by optimization of the distribution in classes of the vertices of the graph associated with the thresholding value considered, the optimization starting from an initial distribution in which each heart is associated with a class to obtain a final distribution in which each vertex of a class shares more links with the other vertices of the same class than with the vertices of another class,
  • the method also includes a step of selecting an optimal graph from the plurality of candidate graphs according to at least one criterion.
  • the originality of the method of identifying a proposed relationship lies in the fact that the two computational problems of the covariance matrix and the partitioning of the graph are treated jointly.
  • the partition of the graph is based on the selection of cores which are a set of highly connected vertices on the graphs, that is to say by links of high weight (covariance).
  • the method of partitioning graphs takes into account the most reliable part of the information contained in the covariance matrix.
  • the identification method makes it possible to analyze the evolution of the graphs as a function of the choice of the thresholding value in two stages.
  • the class cores are searched by increasing the thresholding value step by step so as to gradually "strip" the graph and to identify small sets of stable vertices within the different connected components of the graphs.
  • the vertices of the graph are progressively reconnected so that they can be assigned a defined class around a core.
  • the method of identifying a relation may make it possible to identify gene sets having a relationship between them on the basis of their expression levels in the considered samples, or having similar expression profiles.
  • Genes whose expression profiles are similar may, for example, have identical regulatory mechanisms or be part of the same regulatory pathway, that is to say they may be co-regulated.
  • the regulation of the expression of a gene refers to the set of regulatory mechanisms implemented during the process of synthesizing a functional gene product (RNA or protein) from the genetic information contained in a sequence DNA. Regulation refers to a modulation, in particular an increase or decrease in the amount of the products of the expression of a gene (RNA or protein). All steps from the DNA sequence to the final product of gene expression can be regulated, be it transcription, messenger RNA processing, messenger RNA translation, or messenger RNA stability. proteins.
  • the method of identifying a relationship can identify a relationship between genes or proteins that are all highly expressed, or highly over-expressed relative to a control, or between genes or proteins that all are poorly expressed or strongly under-expressed in relation to a control.
  • the method of identifying a relationship advantageously makes it possible to organize the genes, RNA or proteins, whose expression profiles are identical, in groups or groups, according to a hierarchical grouping.
  • the method of identifying a relationship advantageously makes it possible to identify interactions between genes.
  • the method of identifying a relationship advantageously makes it possible to identify sets of genes that are coexpressed and / or co-regulated. This can make it possible to identify regulatory pathways that are not yet known.
  • a gene whose function is unknown and which is part of a set containing a large number of genes involved in a particular cell function or cellular process has a high probability of being also involved in this function or in this process.
  • the method can identify the putative function of certain genes.
  • the method of identifying a relationship between physical elements comprises one or more of the following features, taken in isolation or in any technically possible combination:
  • the values of the plurality of thresholding values are used increasingly.
  • the values of the plurality of thresholding values are used decreasingly.
  • the step of estimating the covariance matrix comprises a sub-step of calculating the empirical covariance matrix, a regulation sub-step and a normalization sub-step.
  • the step of obtaining cores implements an algorithm of in-depth travel.
  • the final distribution has fewer classes than the number of cores obtained.
  • the number of physical elements is greater than or equal to 1000, preferably greater than or equal to 3000, even more preferably greater than or equal to 5000.
  • the ratio between the number of physical elements and the number of individuals is greater than or equal to 10, preferably greater than or equal to 30, even more preferably greater than or equal to 50.
  • the physical elements are genes, RNAs, proteins or metabolites.
  • the individuals are biological individuals such as animals, preferably mammals, even more preferably humans.
  • a method of identifying a therapeutic target for the prevention and / or treatment of a pathology comprising the step of implementing the method of identifying a relationship as previously described.
  • the plurality of individuals being a plurality of biological individuals suffering from said pathology and the representative magnitude being the quantification of the expression of at least one gene of the plurality of individuals, to obtain a first distribution in which each first class is associated in a one-to-one manner with a first value of the representative quantity.
  • the method of identifying a therapeutic target also comprises the step of implementing the method of identifying a relationship as previously described, the plurality of individuals being a plurality of biological individuals not suffering from said pathology and the representative magnitude being quantifying the expression of at least one of the plurality of individuals to obtain a second distribution in which each second class is associated in a one-to-one manner with a second value of the representative magnitude.
  • the method also comprises the step of comparing the first distribution and the second distribution, and the step of selecting as a therapeutic target the gene, or a product of the expression of the gene, if the representative peaks of said gene belong to a first class. and a second class whose first value and the second value differ significantly.
  • the method of identifying a biomarker comprises the step of implementing the method of identifying a relationship as previously described, the plurality of individuals being a plurality of biological individuals suffering from said pathology and magnitude.
  • the identification method a biomarker also comprises the step of implementing the method of identifying a relationship as previously described, the plurality of individuals being a plurality of biological individuals not suffering from said pathology and the representative magnitude being quantifying the expression of at least one gene of the plurality of individuals, to obtain a second distribution wherein each second class is uniquely associated with a second value of the representative magnitude.
  • the method of identifying a biomarker also includes the step of comparing the first distribution and the second distribution, and selecting as a biomarker the gene, or an expression of the gene, if the vertices representative of said gene belong to a first class and a second class whose first value and the second value differ significantly.
  • a method of screening a compound useful as a medicament, having an effect on a known therapeutic target, for the prevention and / or treatment of a pathology comprising the step of carrying out the method identification of a relationship as previously described, the plurality of individuals being a plurality of biological individuals suffering from said pathology and having received said compound, the representative magnitude being the quantification of the expression of at least one gene of the plurality of individuals, and the data comprising the magnitude representative of the therapeutic target, to obtain a first distribution in which each first class is associated in a one-to-one manner with a first value of the representative magnitude
  • the method of screening a compound also comprises the step of implementing the method of identifying a relation as previously described, the plurality of individuals being a plurality of biological individuals suffering from said pathology and not having received said compound, the representative magnitude being the quantification of the expression of at least one gene of the plurality of individuals, and the data comprising the magnitude representative of the therapeutic target, to obtain a second distribution in which each second class is associated one-to
  • the method of screening a compound also comprises the step of comparing the first distribution and the second distribution, and the step of selecting the compound if the vertices representative of the known therapeutic target belong to a first class and a second class. whose first value and the second value differ significantly.
  • a computer program product comprising a readable information medium, on which is stored a computer program comprising program instructions, the computer program being loadable on a data processing unit and adapted for involve the implementation of a method as described above when the computer program is implemented on the data processing unit.
  • FIG. 1 a schematic view of an exemplary system for implementing a method for identifying a relationship between physical elements
  • FIG. 2 a flow chart of an exemplary implementation of a method for identifying a relationship between physical elements
  • FIGS. 3 to 6 schematic views of a plurality of graphs for different thresholding values
  • FIG. 7 a flowchart of an exemplary implementation of a method for identifying a therapeutic target for the prevention and / or treatment of a pathology
  • FIG. 8 is a flow chart of an exemplary implementation of a method for identifying a diagnostic biomarker, susceptibility, prognostic of a pathology or a prediction of a response to a treatment of a pathology, and
  • FIG. 9 a flow chart of an example of implementation of a method for screening a compound useful as a medicament, having an effect on a known therapeutic target, for the prevention and / or treatment of a pathology.
  • a system 10 and a computer program product 12 are shown in FIG.
  • the interaction of the computer program product 12 with the system 10 makes it possible to implement a method for identifying a relationship between physical elements.
  • the system 10 is a computer.
  • the system 10 is an electronic calculator adapted to manipulate and / or transform data represented as electronic or physical quantities in the registers of the system 10 and / or memories in other similar data corresponding to physical data in the data. memories, registers or other types of display, transmission or storage devices.
  • the system 10 comprises a processor 14 comprising a data processing unit 16, memories 18 and an information carrier reader 20.
  • the system 10 also comprises a keyboard 22 and a display unit 24.
  • the computer program product 12 comprises a readable information medium 20.
  • a readable information medium 20 is a support readable by the system 10, usually by the data processing unit 14.
  • the readable information medium 20 is a medium suitable for storing electronic instructions and capable of being coupled to a bus of a computer system.
  • the readable information medium 20 is a diskette or floppy disk (of the English name of "floppy disk"), an optical disk, a CD-ROM, a magneto-optical disk, a ROM memory, a RAM memory, an EPROM memory, an EEPROM memory, a magnetic card or an optical card.
  • On the readable information medium 20 is stored a computer program including program instructions.
  • the computer program is loadable on the data processing unit 14 and is adapted to cause the implementation of a method of identifying a relationship between physical elements when the computer program is implemented on the data processing unit 14.
  • FIG. 2 illustrates an exemplary implementation of a method of identifying a relationship between physical elements.
  • An element is a physical element when the element belongs to reality.
  • atoms are the physical elements.
  • the statistical study of the spin states of a set of atoms is of interest for both spintronics and condensation of matter.
  • the stars are the physical elements.
  • the quantity of the emission of a particular particle for different stars can in particular be compared.
  • the particles emitted by a star are the physical elements.
  • the study of the particles emitted by a star makes it possible to determine information on the state of the star considered in a statistical manner.
  • the physical elements are biological elements.
  • the physical elements can be genes, RNAs, in particular messenger RNAs, proteins or metabolites.
  • the method of identifying a relation is all the more advantageous in that the number of physical elements considered is important so that the physical elements preferably constitute large sets.
  • the number of physical elements is greater than or equal to 1000, preferably greater than or equal to 2000, preferably greater than or equal to 3000, preferably greater than or equal to 4000, preferably greater than or equal to 5000, preferably greater than or equal to 6000, preferably greater than or equal to 7000, preferably greater than or equal to 8000, preferably greater than or equal to 9000, preferably greater than or equal to 10000. It is understood by the term relationship a link or an existing relationship between two elements.
  • the method of identifying a relationship includes a step of providing data relating to a plurality of individuals.
  • the data for a particular individual includes a magnitude representative of each of the physical elements.
  • the representative magnitude of a physical element may be the quantity of the physical element.
  • the representative size of a protein in a given sample may be the amount of that protein in that sample.
  • a first protein would have a weight of 15 kilodaltons
  • a second protein would have a weight of 10 kilodaltons
  • a third protein would have a weight of 12 kilodaltons.
  • magnitude representative of a physical element is meant any type of measurable magnitude that characterizes the physical element.
  • a representative quantity of a physical element is thus expressible in the form of a quantity.
  • the quantity considered is representative of the activity of a physical element.
  • the spin is a representative quantity.
  • the quantity of particles emitted is a representative quantity.
  • the amount of the particular particle emitted by each of the stars is a representative magnitude.
  • the activity of a physical element represents the set of effects produced by the physical element under consideration.
  • the activity of the physical element may designate the expression of said gene.
  • the expression of a gene may in particular be quantified by measuring the amount of messenger RNA produced by the transcription process from said gene, or by measuring the amount of protein produced by the transcription and translation processes from said gene. uncomfortable.
  • the representative magnitude of the activity of a physical element may be the quantity of a product resulting from the activity of the physical element.
  • the magnitude representative of the activity of a gene may be the amount of messenger RNA produced by the transcription process from said gene.
  • the representative magnitude of the activity of a messenger RNA may be the amount of protein produced by the translation process from said messenger RNA. It is understood by the term individual a statistical element of a broader set called "population", and for which the value of the magnitude representative of each of the physical elements, or their activity, is provided at step 50 of supply .
  • the plurality of individuals is a plurality of atoms.
  • the plurality of individuals may be transmissions at different time instants.
  • the plurality of individuals is, preferably, the plurality of stars.
  • the individual may be a biological individual such as, for example, an animal.
  • the individual is a mammal. Even more preferentially, the individual is a human.
  • the method for identifying a relationship is all the more advantageous if the ratio between the number of physical elements and the number of individuals is greater than or equal to 10, preferably greater than or equal to 20, preferably greater than or equal to 20, equal to 30, preferably greater than or equal to 40, preferably greater than or equal to 50, preferably greater than or equal to 60, preferably greater than or equal to 70, preferably greater than or equal to 80, preferably greater than or equal to 90, preferably greater than or equal to 100, preferably greater than or equal to 200.
  • the number of individuals may be less than or equal to 200, preferably less than or equal to 100.
  • the data thus comprise, for a plurality of individuals, the different values of a representative quantity chosen for each physical element.
  • the number of representative quantities provided is greater than or equal to 1000 for each individual considered.
  • the data provided at the supply step 50 can be obtained by any means.
  • the data can be obtained by an "omic" type analysis, for example by genomic, transcriptomic, proteomic or metabolomic analysis.
  • the techniques making it possible to obtain "omic" type data are well known to those skilled in the art and include, for example, those of DNA chips, quantitative PCR or systematic sequencing of DNA, RNA or DNA. Complementary DNA.
  • the data provided at the step of providing 50 were obtained from a biological sample of the individual, such as one or more organ (s), tissue (s), cell ( s) or cell fragment (s) of the individual.
  • a biological sample of the individual such as one or more organ (s), tissue (s), cell ( s) or cell fragment (s) of the individual.
  • data including a magnitude representative of the physical elements for a plurality of individuals has been provided.
  • n and p are two integers.
  • the method comprises a step 52 of representing data provided in matrix form to obtain a data matrix denoted X whose element of line i and column j is the value of the i-th representative magnitude X, for the third achievement.
  • the method includes a step 54 of estimating the covariance matrix ⁇ between the different representative quantities from the data matrix.
  • the variance-covariance matrix or, more simply, the covariance matrix of a series of p random variables X 1; X p is the actual square matrix whose element in row i and column j is the covariance of variable X, and X j.
  • X p is the actual square matrix whose element in row i and column j is the covariance of variable X, and X j.
  • the estimation step 54 comprises a sub-calculation step.
  • the empirical covariance matrix S is calculated.
  • S is the product of the inverse of the integer n by the matrix product of the data matrix X by the transpose of the data matrix X. This is written mathematically:
  • X 1 denotes the transpose of the data matrix X.
  • the Spearman correlation matrix is calculated.
  • the estimation step 54 includes a substep of regularization.
  • the regulation sub-step makes it possible to force values of the covariance matrix to be zero to obtain a hollow matrix (that is to say a matrix comprising many zeros).
  • the sub-step regulation is applied to the empirical covariance matrix S calculated at the sub-step of calculating to obtain a corrected covariance matrix S r e gu iartiti-
  • the regulation sub-step is implemented using a thresholding value ⁇ , the thresholding value ⁇ being positive or zero. More specifically, to obtain the corrected empirical covariance matrix S regu iarown, all values of the empirical covariance matrix S whose absolute value value is strictly less than the value of threshold ⁇ are set to 0.
  • the corrected covariance matrix of empirical regu iarvi S is a function of the value of ⁇ thresholding.
  • the matrix corrected empirical covariance reg S uiarrise is the empirical covariance matrix S.
  • the corrected covariance matrix of empirical S regu iarrise tends towards zero matrix, ie a matrix whose terms are zero.
  • Such a substep of regularization is particularly advantageous when the integer p is large or the integer p is greater than the integer n. Indeed, in such cases, the corrected matrix S reg uiansée empirical covariance estimator is better than the empirical covariance matrix S, the function of the value of ⁇ thresholding to eliminate low values too insignificant. This stems in particular from the fact that there may be noise in the data provided and that there is a risk of one or more false positives.
  • the estimation step 54 also includes a normalization sub-step to obtain a normalized matrix.
  • the normalization sub-step is applied to the empirical covariance matrix S.
  • the normalization sub-step is implemented by calculating the following matrix product:
  • diagonal term is equal to the inverse of the standard deviation of the i-th variable X ,, i being an integer varying between 1 and the integer p.
  • the correlation of two variables A and B is equal to the ratio between, on the one hand, the covariance between said two variables A and B and, on the other hand, the product of the standard deviation of the first variable A by the standard deviation of the second variable B.
  • the normalized matrix R corresponds to the matrix of empirical correlations.
  • the estimation step 54 thus comprises a calculation sub-step, or the combination of a calculation sub-step and an adjustment sub-step or the combination of a sub-step of calculation and a sub-step of normalization, or a combination of the sub-steps of calculation, regularization and normalization.
  • a corrected matrix empirical correlations R e gularrise and thresholding value is between 0 and 1.
  • a value Y is between two values a and b when, on the one hand, the value Y is greater than or equal to the value a and on the other hand, the value Y is less than or equal to the value b.
  • the corrected matrix empirical correlations gularva R e is a function of the value of ⁇ thresholding.
  • the corrected matrix empirical correlations gularrise R e is equal to the matrix of empirical correlations A.
  • the corrected matrix empirical correlations R e gularized tends towards the null matrix, that is to say a matrix whose all terms are null.
  • an estimated covariance matrix is obtained that groups together the estimated values of covariance between the different quantities representative of the physical elements or their activity.
  • a Spearman correlation matrix is obtained when the dependency between the variables is nonlinear.
  • the covariance matrix is the corrected matrix estimée ⁇ empirical correlations gularouche R e, that is to say
  • the method for identifying a relation also comprises a step 56 of associating a graph G x with a thresholding value ⁇ .
  • a graph G x is associated with a threshold value ⁇ when the graph G x contains vertices representative of the physical elements, and links between the vertices when the value of the estimated covariance between the vertices considered is greater than or equal to the threshold value ⁇ considered.
  • a graph G3 ⁇ 4 is a graphical representation of the value of the estimated covariance with respect to a given threshold value ⁇ . This means that the only visible links on a graph G x are the links with a relatively large estimated covariance value.
  • the graph G3 ⁇ 4 has links between the vertices when the value of the regularized matrix of the empirical correlations R e gu l aris é e relative to the considered vertices is greater than or equal to the threshold value ⁇ considered. .
  • the graph G 0 is a graph whose all vertices are connected to all the other vertices.
  • the graph Gi is a graph whose vertices are all isolated, ie there is no connection between the vertices.
  • the function that associates with the threshold value ⁇ the number of links to be generated in the graph G3 ⁇ 4 associated with the threshold value ⁇ is a decreasing function since the value of the number of links in the graph G 0 until 'to 0.
  • FIGS. 3 to 6 each illustrate the graphs associated with different thresholding values for a particular example.
  • FIG. 3 illustrates a first graph G M associated with a first threshold value ⁇ .
  • the first graph G M has the same thirteen vertices, each vertex being represented by a point in the figure.
  • each vertex is referenced by a reference sign in the form Si where i is the vertex number.
  • the second vertex is referenced S2 and the seventh vertex is referenced S7.
  • the first vertex S1 is connected to the fifth vertex S5 via a first link. 5 .
  • the second vertex S2 is connected to the fifth vertex S5 via a second link l 2 -5.
  • the third vertex S3 is connected to the fourth vertex S4 via a third link l 3 . 4 and the seventh vertex S7 via a fourth link l 3 . 7 .
  • the fourth vertex S4 is connected to the third vertex S3 via the third link l 3 . 4 , at the fifth vertex S5 via a fifth link I4-5, at the seventh vertex S7 via a sixth link l 4 .
  • the fifth vertex S5 is connected to the fourth vertex S4 via the fifth link 14 . 5 , at the eighth vertex S8 via an eighth link l 5 . 8 and in the ninth summit S9 via a ninth link l 5-9 .
  • the sixth summit S6 is connected to the seventh summit
  • the seventh summit S7 is connected to the third summit S3 via the fourth link l 3-7 , to the fourth summit S4 via the third link l 3-4 , to the eighth summit
  • the eighth S8 is connected to the fourth top S4 via the seventh link l 4-8, the fifth top S5 via the eighth link 5-8, the seventh peak S7 via the eleventh link 7-8 in the ninth top S9 via a thirteenth link l 8 _g and the twelfth vertex S12 via a fourteenth link l 8 . 12 .
  • the ninth vertex S9 is connected to the fifth vertex S5 via the ninth link 1-5 , to the eighth vertex S8 via the thirteenth link 1-8-9 , to the tenth vertex S10 via a fifteenth link 19 . 10 and the thirteenth summit S13 via a sixteenth link l 9 . 16 .
  • the tenth vertex S10 is connected to the ninth vertex S9 via the fifteenth link l 9 . 10 .
  • the eleventh vertex S1 1 is connected to the seventh vertex S7 via the twelfth link l 7 . 12 .
  • the twelfth vertex S12 is connected to the eighth vertex S8 via the fourteenth link l 8 . 12 .
  • the thirteenth S13 top is connected to the ninth top S9 via the sixteenth link l 9. 16 .
  • first link l 1-5 , the second link l 2 . 5, the third link l 3-4, the fourth link l 3-7, the fifth link l 4-5 4-7 I sixth link l, the seventh link l 4-8, the eighth link l 5-8, the ninth link l 5-9 , the tenth link l 6-7 , the eleventh link l 7-8 , the twelfth link l 7-12 , the thirteenth link l 8-9 , the fourteenth link l 8-12 , the fifteenth link l 9-10 and the sixteenth link l 9-16 each correspond to estimated covariance values between the considered vertices which are strictly greater than the first threshold value ⁇ ⁇ .
  • FIG. 4 illustrates a second graph G X2 associated with a second thresholding value ⁇ 2 .
  • Figure 4 being similar to Figure 3, only the differences with Figure 3 are detailed in what follows.
  • the second threshold value ⁇ 2 is larger than the first threshold value ⁇ ⁇ .
  • the second graph G X2 no longer has eleven links since the third link l 3-4 , the fifth link l 4-5 , the sixth link l 4-7 , the ninth link l 5-9 and the sixteenth link l 9-16 are gone.
  • first link 1-5 , the second link 1- 2-5 , the fourth link I3.7, the seventh link 4-8 , the eighth link 5-8 , the tenth link 6-7 , the eleventh link l 7-8 , the twelfth link l 7-12 , the thirteenth link l 8-9 , the fourteenth link l 8-12 and the fifteenth link l 9-10 each correspond to estimated covariance values between the considered vertices which are strictly greater than the second thresholding value ⁇ 2 .
  • FIG. 5 illustrates a third graph ⁇ ⁇ 3 associated with a third thresholding value ⁇ 3 .
  • FIG. 5 is similar to FIG. 4, only the differences with FIG. 5 are detailed in the following.
  • the third threshold value ⁇ 3 is larger than the second threshold value ⁇ 2 .
  • the third graph ⁇ ⁇ 3 has only seven links since the first link l 1-5 , the fourth link l 3-7 , the tenth link l 6-7 and the fourteenth link l 8-12 have disappeared.
  • first link l 1-5 , the fourth link l 3-7 , the tenth link l 6-7 and the fourteenth link l 8 . 12 each correspond to estimated covariance values between the considered vertices which are strictly greater than the second threshold value ⁇ 2 but also strictly lower than the third threshold value ⁇ 3 .
  • the second link l 2 . 5, the seventh link l 4-8, the eighth link l 5-8, the eleventh link l 7-8, the twelfth link l 7-12, the thirteenth link l 8-9, and the fifteenth link 9-10 each correspond to estimated covariance values between the considered vertices which are strictly greater than the third thresholding value ⁇ 3 .
  • FIG. 6 illustrates a fourth graph ⁇ ⁇ 4 associated with a fourth threshold value ⁇ 4 .
  • Figure 6 being similar to Figure 5, only the differences with Figure 5 are detailed in what follows.
  • the fourth threshold value ⁇ 4 is larger than the third threshold value ⁇ 3 .
  • the fourth graph ⁇ ⁇ 4 has only three links since the second link l 2 . 5 , the seventh link 4-8 , the twelfth link l 7-12 and the fifteenth link l 9-10 have disappeared.
  • the second link l 2 _ 5 , the seventh link l 4-8 , the twelfth link l 7 . 12 and the fifteenth link l 9 . 10 each correspond to estimated covariance values between the considered vertices which are strictly greater than the third threshold value ⁇ 3 but also strictly lower than the fourth threshold value ⁇ 4 .
  • the eighth link 1-5-8 , the eleventh link 1-7-8 , and the thirteenth link 1-8-9 each correspond to estimated covariance values between the vertices considered which are strictly greater than the fourth threshold value ⁇ . 4 .
  • FIGS. 3 to 6 illustrate that the function which associates with the threshold value ⁇ the number of links to be generated in the graph G 3 ⁇ 4 associated with the thresholding value ⁇ is a decreasing function. Indeed, at the first threshold value ⁇ , is associated the value of sixteen; at the second threshold value ⁇ 2 , is associated with the value of eleven; to the third threshold value ⁇ 3 is associated with the value of seven and the fourth threshold value ⁇ 4 is associated with the value of four.
  • the links on the graph are weighted by the intensity of the correlations.
  • the weight matrix or link weight matrix is the matrix that groups the absolute values of the matrix obtained after the implementation of the estimation step 54.
  • the method of identifying a relationship includes a step 58 of obtaining cores.
  • a core is a set of vertices of a graph that satisfies three properties: the first property P1, the second property P2, and the third property P3.
  • the number of vertices of the heart is greater than or equal to a fixed number a.
  • the fixed number a is greater than or equal to 3, preferably greater than or equal to 5.
  • the fixed number a is greater than or equal to 15, preferably greater than or equal to 10.
  • an undirected graph is said to be connected if, whatever the vertices considered, there is a chain of links from the first vertex to the second vertex.
  • a maximal connected sub-graph of any undirected graph is a connected component of this graph.
  • a class core is a set of vertices, of minimum fixed size, all of which can be connected by reliable paths involving sufficiently important links of weight (covariance). These paths, which make the link between the tops of a heart, are stable on the graphs when one increases the threshold setting up to a fairly high level. Vertices that do not belong to a core are, on the contrary, more quickly isolated (no link with the other vertices) on the graph as the thresholding parameter is increased.
  • the step 58 for obtaining cores is implemented by analyzing the evolution of the graphs as a function of the variation of the thresholding value.
  • a plurality of threshold values is used.
  • four thresholding values ⁇ 1 are proposed ; ⁇ 2 , ⁇ 3 and ⁇ 4 .
  • the comparison of FIGS. 3 to 6 shows that the heart comprises in this case the following four vertices: the fifth vertex S5, the seventh vertex S7, the eighth vertex S8 and the ninth vertex S9.
  • the first plurality of threshold values is used increasingly, that is, by first considering the smallest value, then the smallest value of the remaining values until considering the largest value. .
  • the step 58 for obtaining cores is implemented with a deep path algorithm.
  • the minimum number of vertices a of a core, a minimum threshold value min and a parameter P for the incrementation of the threshold value are fixed.
  • N is an integer.
  • the extraction of related components is obtained by implementing a deep-path algorithm.
  • a heart being a connected component of the graph Gla ⁇ eul-pas (the graph associated with the threshold value of the previous iteration which is, by definition of the computation thresholding value calculation , the difference between the value of calculation thresholding and the parameter P) whose intersection with each of the connected components extracted in extraction step 2 is zero.
  • the set of thresholding values used form a plurality of thresholding values.
  • the method of identifying a relationship includes a step 60 of defining the candidate graphs.
  • Each candidate graph is a graph associated with one of the thresholding values of the plurality of thresholding values.
  • the candidate graphs are the first graph G M , the second graph ⁇ ⁇ 2 , the third graph ⁇ ⁇ 3 and the fourth graph ⁇ ⁇ 4 .
  • the method for identifying a relationship also comprises a step 62 for obtaining the distributions associated with each thresholding value of the plurality of thresholding values.
  • distribution associated with a threshold value ⁇ a partitioning into one or more classes of the vertices of the graph G x associated with the threshold value ⁇ considered.
  • a class is a set of vertices. For the rest, such a distribution is noted R 3 ⁇ 4 .
  • the plurality of thresholding values is used in a decreasing manner, that is to say, considering first the highest value, then the largest value of the values. remaining values until considering the smallest value.
  • Each of the distributions are obtained by a separate optimization operation.
  • the optimization starts from an initial distribution in which each core is associated with a class to obtain a final distribution in which each vertex of a class shares more links with the other vertices of the same class than with the vertices of the class. another class.
  • the graph G x is partitioned to obtain a distribution in which each class comprises a single core and minimizing the cost or weight of the cut, defined by the sum of the weights of the links between the classes.
  • the sum of the weights of the links between the classes is defined by the sum of the absolute value of the links existing between a vertex of a class and a vertex of the other.
  • the set of vertices and cores considered for the distribution is a function of the thresholding parameter. We are not interested in isolated tops and related components of too small sizes. We denote by ⁇ * ( ⁇ ), the set of vertices contained in connected components of the graph G x whose number of vertices is greater than or equal to the fixed number a. Such connected components comprise at least one core.
  • the first method of partitioning described above ensures that a vertex that is not in a heart is more strongly connected with the class that is assigned to it, than with any other class (assuming that it does not may not be equal).
  • optimization involves a step of determining hearts whose vertex shares more link (s) with the vertices of another class than with the vertices of its class.
  • determined hearts are no longer considered as hearts but as a set of isolated vertices each of which can belong to a different class. This avoids misclassification.
  • the heart of the class is the most stable and central part of the class (the farthest from the other classes)
  • one heart contains at least one vertex better connected to another class
  • we "downgrade" the heart by considering the vertices of this heart as simple peripheral vertices and perform a new partitioning of the graph. From a mathematical point of view, it is possible to implement the second method by referring to the formulation of the first method.
  • the steps 60 for defining the candidate graphs and 62 for obtaining the distributions are implemented simultaneously to accelerate the implementation of the method for identifying a relation. This is indicated in FIG. 2 by the fact that the two steps 60 of definition and 62 of obtaining are at the same level.
  • the method of identifying a relation also comprises a step 64 of selecting an optimal graph from among the plurality of candidate graphs according to at least one criterion.
  • the selected criterion or criteria make it possible to select a candidate graph corresponding to a good compromise in terms of density. Indeed, the more dense a candidate graph, the more the candidate graph considered takes into account information. On the other hand, the less dense the candidate graph, the more the candidate graph under consideration highlights sets of clearly identifiable vertices.
  • At the step 64 of selection at least two criteria are used, the first criterion relating to the graph and the second criterion being relative to the distribution associated with the graph.
  • the selected candidate graph is the graph whose deviation between the distribution of the degrees of connectivity and a distribution according to a power law is minimum.
  • the degree of connectivity of a vertex is, for example, calculated by summing the weights associated with the vertex links considered.
  • the distribution according to a law of power is, according to a particular example, a law of Pareto.
  • the distribution according to a power law is, according to another particular example, a scale invariant network law.
  • the difference is, by way of illustration, a Euclidean distance.
  • the second criterion is modularity.
  • Modularity is a criterion comparing the proportion of links of a class of a graph with the proportion obtained for links placed at random on the graph considered. Will be favored the distributions whose modularity is large.
  • the second criterion is the number of classes. The allocations with the maximum number of classes will be favored.
  • the second criterion is the stability of the number of classes with the variation of the value of the thresholding ⁇ . The distributions with the most stable number of classes will be favored.
  • the method of identifying a relation thus makes it possible to obtain an optimal graph and an optimal distribution of the physical elements. Membership in the same class indicates that there is a relationship between the physical elements studied.
  • the identification method allows a better determination of the graph and the distribution than the methods of the state of the art insofar as such methods do not perform optimization on the graph during the partitioning into classes of the graph.
  • the method of identifying a relationship therefore makes it possible to identify sets of physical elements having a relationship between them based on the representative magnitude under consideration.
  • the method of identifying a relation can make it possible to identify gene sets having a relationship between them on the basis of their expression levels in the considered samples, or having similar expression profiles.
  • Genes whose expression profiles are similar may, for example, have identical regulatory mechanisms or be part of the same regulatory pathway, that is to say they may be co-regulated.
  • the regulation of the expression of a gene refers to the set of regulatory mechanisms implemented during the process of synthesizing a functional gene product (RNA or protein) from the genetic information contained in a sequence DNA. Regulation refers to a modulation, in particular an increase or decrease in the amount of the products of the expression of a gene (RNA or protein). All steps from the DNA sequence to the final product of gene expression can be regulated, be it transcription, messenger RNA processing, messenger RNA translation, or messenger RNA stability. proteins.
  • the method of identifying a relationship can identify a relationship between genes or proteins that are all highly expressed, or highly over-expressed relative to a control, or between genes or proteins that all are poorly expressed or strongly under-expressed in relation to a control.
  • the method of identifying a relationship advantageously makes it possible to organize the genes, RNA or proteins, whose expression profiles are identical, in groups or groups, according to a hierarchical grouping.
  • the method of identifying a relationship advantageously makes it possible to identify interactions between genes.
  • the method of identifying a relationship advantageously makes it possible to identify sets of genes that are coexpressed and / or co-regulated. This can make it possible to identify regulatory pathways that are not yet known. Moreover, a gene whose function is unknown and which is part of a set containing a large number of genes involved in a particular cell function or cellular process, has a high probability of being also involved in this function or in this process. Thus, assuming that co-expressed and / or co-regulated genes can be functionally linked, the method can identify the putative function of certain genes.
  • the method of identifying a relation also comprises a step in which the classes obtained in the optimal distribution are ordered.
  • each class of the optimal distribution is associated in a one-to-one way with a value of the representative magnitude. Therefore, such a value is a synthetic value that summarizes the class considered.
  • the most significant variable in the class is chosen according to a criterion, such a criterion being the centrality or the degree of connectivity to the other vertices.
  • the synthetic value is a function of the representative quantities of each variable of the class.
  • each class of the optimal distribution is associated with the average value of all the quantities representative of the vertices that comprise the class considered.
  • the average value is, for example, an arithmetic mean value, a geometric mean value or a weighted average value. coefficients related to the intensity of the correlations between the vertices considered.
  • the function is a linear function.
  • Such methods can also be implemented by means of the system proposed in FIG. 1 provided to adapt the program instructions of the computer program product so that when the computer program is implemented on the computer, data processing unit, the computer program involves the implementation of the method considered.
  • a method of identifying a therapeutic target for the prevention and / or treatment of a pathology it is considered a method of identifying a therapeutic target for the prevention and / or treatment of a pathology.
  • Such a method for identifying a therapeutic target makes use of the fact that the method for identifying a relationship makes it possible, in particular, to identify, among several thousand genes, for example, RNA or proteins, those which are expressed differentially between healthy tissue and diseased tissue and thus involved in the development of a disease.
  • therapeutic target of a pathology any biological element on which it is possible to act to prevent and / or treat this pathology.
  • the therapeutic target may in particular be a gene or a product of the expression of a gene.
  • the product of the expression of a gene is an RNA, in particular a messenger RNA or a protein.
  • the method of identifying a therapeutic target comprises a first step 100 of implementing the method of identifying a relationship as previously described for the case where the physical elements are genes, the plurality of individuals is a plurality of biological individuals suffering from the pathology and the representative magnitude is the quantification of the expression of at least one gene of the plurality of individuals.
  • a first step 100 of implementing the method of identifying a relationship makes it possible in particular to obtain an optimal distribution, called first distribution R1, comprising first classes CI ,, i being an integer varying between 1 and the number of classes of the first distribution R1, in which the representative vertices of the genes are distributed.
  • the first step 100 of implementing the method of identifying a target comprises a substep in which the first classes CI, obtained in the first distribution R1 are ordered, in order to obtain a first distribution R1 in which each first class CI, is associated in a one-to-one manner with a first value Z1 of the representative magnitude.
  • the method of identifying a therapeutic target also comprises a second step 1 10 of implementing the method of identifying a relationship as previously described for the case where the physical elements are genes, the plurality of individuals is a plurality of biological individuals not suffering from the pathology and the representative magnitude is the quantification of the expression of at least one gene of the plurality of individuals.
  • a second step 1 10 implementation of the method of identification of a relationship allows in particular to obtain an optimal distribution, said second distribution R2, having second classes C2 j; j being an integer varying between 1 and the number of classes of the second distribution R2, in which the representative vertices of the genes are distributed.
  • the second step 1 of implementing the method of identifying a target comprises a substep in which the second classes C2 j obtained in the second distribution R2 are ordered, in order to obtain a second distribution R2 in which each second class C2 j is associated one-to-one with a second value Z2 j of the representative magnitude.
  • the first and second steps 100 and 110 of implementing the method of identifying a relationship are implemented simultaneously to reduce the implementation time of the method for identifying a therapeutic target. This is indicated in FIG. 7 by the fact that the two steps 100 and 110 of implementing the method of identifying a relationship are at the same level.
  • the method of identifying a therapeutic target also comprises a step 120 for comparing the first distribution R1 and the second distribution R2.
  • the method of identifying a therapeutic target also comprises a step
  • the gene or product of gene expression is selected when a condition is verified.
  • the representative peak of the gene in the first distribution R1 belongs to a first class C1 i0 where iO denotes the number of the class.
  • Said first class C1, 0 is associated with a first value Z1 i0 .
  • the representative peak of the gene in the second distribution R1 belongs to a second class C2 j0 where jO denotes the number of style.
  • Said second class C2 j0 is associated with a second value Z2 j0 .
  • the condition for selecting the gene or product for the expression of the gene is verified when the first value Z1 i0 differs significantly from the second value Z2 j0 .
  • the second value Z2 j0 differs from the first value Z1 i0 by more than 1% of the first value Z1 i0 , preferably by more than 5% of the first value Z1 i0 and preferably more than 10% of the first value Z1 i0 .
  • the method of identifying a therapeutic target makes it possible in particular to determine a target with efficiency.
  • the biomarker may in particular be a gene or a product of the expression of a gene.
  • the product of the expression of a gene is an RNA, in particular a messenger RNA or a protein.
  • the method of identifying a biomarker comprises a first step 200 of implementing the method of identifying a relationship as previously described for the case where the physical elements are genes, the plurality of individuals is a plurality of biological individuals suffering from pathology and the representative magnitude is the quantification of the expression of at least one gene of the plurality of individuals.
  • a first step 200 of implementing the method of identifying a relationship makes it possible in particular to obtain an optimal distribution, called first distribution R1, comprising first classes CI ,, i being an integer varying between 1 and the number of classes of the first distribution R1, in which the representative peaks of the genes are distributed.
  • the first step 200 of implementing the method for identifying a biomarker comprises a sub-step in which the first classes C1, obtained in the first distribution R1 are ordered, in order to obtain a first distribution R1 in which each first class C1, is associated in a one-to-one manner with a first value Z1 of the representative magnitude.
  • the method for identifying a biomarker also comprises a second step 210 of implementing the method of identifying a relationship as previously described for the case where the physical elements are genes, the plurality of individuals is a plurality of biological individuals not suffering from the pathology and the representative magnitude is the quantification of the expression of at least one gene of the plurality of individuals.
  • a second step 210 for implementing the method identification of a relationship makes it possible in particular to obtain an optimal distribution, called the second distribution R2, comprising second classes C2 j; j being an integer varying between 1 and the number of classes of the second distribution R2, in which the representative vertices of the genes are distributed.
  • the second step 210 of implementing the method of identifying a relation comprises a sub-step in which the second classes C2 j obtained in the second distribution R2 are ordered, in order to obtain a second distribution R2 in which each second class C2 is associated one-to-one with a second value Z2 of the representative magnitude.
  • the first and second steps 200 and 210 of implementing the method of identifying a relationship are implemented simultaneously to reduce the implementation time of the method for identifying a biomarker. This is indicated in FIG. 8 by the fact that the two steps 200 and 210 of implementing the method of identifying a relation are at the same level.
  • the method for identifying a biomarker also comprises a step 220 for comparing the first distribution R1 and the second distribution R2.
  • the method of identifying a biomarker also includes a step 230 of selecting as a biomarker of a gene or product of gene expression.
  • the gene or product of gene expression is selected when a condition is verified.
  • the representative peak of the gene in the first distribution R1 belongs to a first class C1 i0 where iO denotes the number of the class.
  • Said first class C1, 0 is associated with a first value Z1 i0 .
  • the representative peak of the gene in the second distribution R1 belongs to a second class C2 j0 where jO denotes the class number.
  • Said second class C2 j0 is associated with a second value Z2 j0 .
  • the condition for selecting the gene or product for the expression of the gene is verified when the first value Z1 i0 differs significantly from the second value Z2 j0 .
  • the second value Z2 j0 differs from the first value Z1 i0 by more than 1% of the first value Z1 i0 , preferably by more than 5% of the first value Z1 i0 and preferably more than 10% of the first value Z1 i0 .
  • the method of identifying a biomarker makes it possible in particular to determine a biomarker with efficiency.
  • a method for screening a compound useful as a medicament having an effect on a known therapeutic target, for the prevention and / or treatment of a pathology.
  • Such a method of screening a compound exploits the fact that the process identification of a relationship can identify, among several thousand genes, RNA, or proteins for example, those that are differentially expressed in the presence or absence of a compound intended to treat a sickness.
  • the screening identification method comprises a first step 300 of implementing the method of identifying a relationship as previously described for the case where the plurality of individuals is a plurality of biological individuals suffering from the pathology and having received the compound, the representative magnitude is the quantification of the expression of at least one of the plurality of individuals and the data comprises the magnitude representative of the known therapeutic target.
  • the therapeutic target may be a gene or a product of the expression of a gene.
  • the physical elements are genes.
  • the therapeutic target is the product of the expression of a gene
  • the physical elements are the same product of the expression of a gene.
  • the therapeutic target is an RNA
  • the physical elements are RNAs.
  • the therapeutic target is a protein
  • the physical elements are proteins.
  • Such a first step 300 of implementing the method of identifying a relationship makes it possible in particular to obtain an optimal distribution, called first distribution R1, comprising first classes CI ,, i being an integer varying between 1 and the number of classes of the first distribution R1, in which the representative peaks of the genes are distributed.
  • first distribution R1 comprising first classes CI ,, i being an integer varying between 1 and the number of classes of the first distribution R1, in which the representative peaks of the genes are distributed.
  • the first step 300 of implementing the method of identifying a relationship comprises a sub-step in which the first classes C1, obtained in the first distribution R1 are ordered, in order to obtain a first distribution R1 in which each first class C1, is associated in a one-to-one manner with a first value Z1 of the representative magnitude.
  • the screening method also comprises a second step 310 of implementing the method for identifying a relationship as previously described for the case where the plurality of individuals is a plurality of biological individuals suffering from said pathology and not having not received said compound, the representative magnitude is the quantification of the expression of at least one of the plurality of individuals and the data comprises the magnitude representative of the known therapeutic target.
  • the therapeutic target may be a gene or a product of the expression of a gene.
  • the physical elements are genes.
  • the therapeutic target is the product of the expression of a gene
  • the physical elements are the same product of the expression of a gene.
  • the therapeutic target is an RNA
  • the physical elements are proteins.
  • Such a second step 310 of implementing the method of identifying a relationship makes it possible in particular to obtain an optimal distribution, called second distribution R2, comprising second classes C2 j; j being an integer varying between 1 and the number of classes of the second distribution R2, in which the representative vertices of the genes are distributed.
  • second distribution R2 comprising second classes C2 j; j being an integer varying between 1 and the number of classes of the second distribution R2, in which the representative vertices of the genes are distributed.
  • the second step 310 of implementing the method for identifying a relation comprises a sub-step in which the second classes C2 obtained in the second distribution R2 are ordered, in order to obtain a second distribution R2 in which each second class C2 is associated one-to-one with a second value Z2 of the representative magnitude.
  • the first and second steps 300 and 310 of implementing the method of identifying a relationship are implemented simultaneously to reduce the implementation time of the screening method. This is indicated in FIG. 9 by the fact that the two steps 300 and 310 for implementing the method for identifying a relationship are at the same level.
  • the screening method also comprises a step 320 for comparing the first distribution R1 and the second distribution R2.
  • the screening method also comprises a step 230 for selecting a compound that can be used as a medicament.
  • the compound is selected when a condition is verified.
  • the representative peak of the therapeutic target known in the first distribution R1 belongs to a first class C1 i0 where iO denotes the number of the class.
  • Said first class C1 i0 is associated with a first value Z1 i0 .
  • the peak representative of the therapeutic target known in the second distribution R1 belongs to a second class C2 j0 where jO denotes the number of the class.
  • Said second class C2 j0 is associated with a second value Z2 j0 .
  • the condition for selecting the compound is verified when the first value Z1 i0 differs significantly from the second value Z2 j0 .
  • the second value Z2 j0 differs from the first value Z1 i0 by more than 1% of the first value Z1 i0 , preferably by more than 5% of the first value Z1 i0 and preferably more than 10% of the first value Z1 i0 .
  • the screening method makes it possible in particular to screen a compound that can be used as a medicament with efficiency.
  • Each of the proposed methods can be implemented using any computer or any other type of device. Multiple systems can be used with programs implementing the above methods but it is also conceivable to use dedicated devices for the implementation of the above methods, which can be inserted into the devices for measuring the data. provided.
  • the proposed embodiments are not related to a particular programming language. Incidentally, this implies that multiple programming languages can be used to implement one of the previously detailed methods.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Physiology (AREA)
  • Molecular Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

La présente invention concerne un procédé d'identification d'une relation entre des éléments biologiques, lesdits éléments présentant éventuellement une activité mesurable, le procédé comprenant les étapes suivantes : - définir des graphes candidats, chaque graphe candidat étant un graphe associé à une des valeurs de seuillage de la pluralité de valeurs de seuillage, - pour chaque valeur de seuillage, obtenir une répartition associée par optimisation de la répartition en classes des sommets du graphe associé à la valeur de seuillage considérée, l'optimisation partant d'une répartition initiale dans laquelle à chaque cœur est associé une classe pour obtenir une répartition finale dans laquelle chaque sommet d'une classe partage plus de liens avec les autres sommets de la même classe qu'avec les sommets d'une autre classe, - sélectionner un graphe optimal parmi la pluralité de graphes candidats selon au moins un critère.

Description

PROCEDE D'IDENTIFICATION D'UNE RELATION ENTRE DES ELEMENTS BIOLOGIQUES
La présente invention concerne un procédé d'identification d'une relation entre des éléments physiques. L'invention se rapporte également à un procédé d'identification d'une cible thérapeutique pour la prévention et/ou le traitement d'une pathologie. L'invention concerne aussi un procédé d'identification d'un biomarqueur diagnostique, de susceptibilité, pronostique d'une pathologie ou prédictif d'une réponse à un traitement d'une pathologie. L'invention propose également un procédé de criblage d'un composé utile comme médicament, ayant un effet sur une cible thérapeutique connue, pour la prévention et/ou le traitement d'une pathologie. L'invention concerne aussi les produits programme d'ordinateur associés.
L'apparition du séquençage des protéines dans les années 1950 puis de l'ADN dans les années 1970, et la mise au point de séquenceurs automatiques, a révolutionné la biologie. A l'approche classique descriptive et réductionniste (un gène, un ARN messager, une protéine) a succédé une compréhension plus globale des systèmes biologiques basée sur l'analyse d'ensembles d'éléments biologiques (« -ornes ») dont on étudie les structures (« -omiques »). L'idée de base associée aux approches « omiques » consiste à appréhender la complexité du vivant dans son ensemble, au moyen de méthodologies les moins restrictives possibles sur le plan descriptif.
De telles approches comprennent principalement : la génomique (étude des gènes), la transcriptomique (analyse de l'expression des gènes et sa régulation), la protéomique (étude des protéines), la métabolomique (analyse des métabolites).
La génomique se divise en deux branches : la génomique structurale, qui porte sur le séquençage du génome entier, et la génomique fonctionnelle, qui vise à déterminer la fonction et l'expression des gènes séquencés. Dans la génomique fonctionnelle, les techniques sont appliquées à un grand nombre de gènes en parallèle : par exemple le phénotype de mutants peut ainsi être analysé pour toute une famille de gènes, ou l'expression de tous les gènes d'un organisme entier.
La transcriptomique est l'étude de l'ensemble des ARN messagers produits lors du processus de transcription d'un génome. Elle repose sur la quantification de l'ensemble de ces ARN messagers, ce qui permet d'avoir une indication relative du taux de transcription de différents gènes dans des conditions données.
La protéomique est l'analyse de l'ensemble des protéines d'un organite, d'une cellule, d'un tissu, d'un organe ou d'un organisme dans des conditions données. La protéomique s'attache à identifier de manière globale les protéines extraites d'une culture cellulaire, d'un tissu ou d'un fluide biologique, leur localisation dans les compartiments cellulaires, leurs éventuelles modifications post-traductionnelles, ainsi que leur quantité. Elle permet de quantifier les variations de leur taux d'expression par exemple en fonction du temps, de leur environnement, de leur état de développement, de leur état physiologique et pathologique, de l'espèce d'origine... Elle étudie aussi les interactions que les protéines ont avec d'autres protéines, avec l'ADN ou l'ARN, ou d'autres substances.
La métabolomique étudie l'ensemble des métabolites (sucres, acides aminés, acides gras, etc.) présents dans une cellule, un organe, un organisme.
Les approches précédentes permettent d'obtenir de très nombreuses informations sur la réponse cellulaire et/ou tissulaire à une exposition in vitro ou in vivo. Elles peuvent en particulier être utiles pour mettre en évidence et identifier de nouveaux biomarqueurs (de diagnostic, de susceptibilité, de pronostic, d'exposition, d'effet), générer de nouvelles connaissances sur le plan mécanistique (modes d'action), ou encore élaborer de nouveaux outils d'efficacité ou de toxicologie prédictive pour aider à l'identification de nouvelles cibles thérapeutiques ou de nouveaux médicaments candidats.
L'automatisation des techniques de séquençage et le développement des techniques à haut débit, rendus possible notamment grâce à l'apparition de plateformes technologiques spécialisées, a permis l'industrialisation de la production des données et l'analyse simultanée d'un grand nombre de variables.
II en découle un très grand nombre de données à traiter, analyser, visualiser et interpréter de la manière la plus informative possible afin d'en extraire le maximum d'information sur le processus biologique ou sur le système biologique étudié.
Il est donc souhaitable de disposer de moyens biostatistiques et bioinformatiques puissants permettant de traiter, analyser et interpréter la masse de données générées par les approches « omiques ».
Du point de vue biostatistique, les données obtenues par les approches « omiques » portent sur de très nombreuses variables qu'il convient d'analyser conjointement. Par exemple, les analyses transcriptomiques permettent d'étudier simultanément l'expression de plusieurs milliers de gènes. En revanche, le nombre d'individus sur lesquelles ces analyses sont réalisées est limité du fait de la difficulté à constituer des cohortes de patients, de sorte que le nombre de variables excède généralement la taille de l'échantillon. Les méthodes classiques en statistique ne peuvent plus être utilisées. L'analyse des données obtenues revient alors à considérer deux problématiques distinctes de la recherche en statistique, à savoir le calcul de la matrice de covariance et la classification non supervisée des sommets d'un graphe aussi appelée partitionnement du graphe. Concernant la première problématique, dans le contexte de la grande dimension, quand le nombre de variables excède la taille de l'échantillon, il existe deux grandes familles de méthodes pour faire une estimation pénalisée de la matrice de covariance. La première famille regroupe des méthodes qui tirent parti d'un ordre naturel dans les données en faisant l'hypothèse que plus les variables sont éloignées suivant cet ordre et plus leur dépendance est faible. La deuxième famille de méthodes regroupe des méthodes d'estimation de la covariance insensible à l'ordre de présentation des données. C'est le cas des méthodes qui consistent à ajouter une pénalité 11 au problème de maximisation de la vraisemblance dans le cas gaussien ou des méthodes de seuillage sur la matrice de covariance empirique.
Toutefois, les deux familles de méthodes sont inefficaces lorsque l'échantillon est de trop petite taille. En effet, les deux familles de méthodes impliquent de fixer un paramètre de régularisation de façon à obtenir un estimateur optimal. Or, il n'existe pas de manière analytique de fixation du paramètre de régularisation. De plus, les méthodes précédentes s'avèrent coûteuse en temps de calcul quand le nombre de variables est très grand.
La deuxième problématique relative au partitionnement se pose après la première problématique du calcul de la matrice de covariance. De fait, la covariance calculée peut être représentée par un graphe et la construction du graphe ne présente pas de difficulté particulière. Deux sommets (variables) sont connectés sur le graphe si leur covariance est non nulle. La deuxième problématique est celle de l'identification des groupes de sommets connectés sur le graphe (partitionnement de graphe). Pour cela, de nombreuses approches sont envisageables. A titre d'exemple, les méthodes spectrales reposent sur la définition d'une mesure de similarité sur l'espace des sommets du graphe à partir des vecteurs propres du Laplacien du graphe qui est utilisée pour partitionner le graphe avec un algorithme de type k-moyenne (souvent désigné sous sa dénomination anglaise de « k-means ») par exemple.
Toutefois, toutes ces méthodes sont coûteuses en terme de temps et imposent le plus souvent de fixer a priori le nombre de classes, ce qui limite la qualité des partitionnements obtenus.
Il existe donc un besoin pour un procédé d'identification d'une relation entre des éléments physiques permettant de surmonter les inconvénients précédents.
A cet effet, il est proposé un procédé d'identification d'une relation entre des éléments physiques, lesdits éléments présentant éventuellement une activité mesurable, le procédé comprenant l'étape de fournir des données, les données comprenant une grandeur représentative des éléments physiques ou de leur activité pour une pluralité d'individus, l'étape d'estimer la matrice de covariance entre les différentes grandeurs représentatives des éléments physiques ou de leur activité à partir des données fournies, l'étape d'associer un graphe à une valeur de seuillage, le graphe associé comprenant des sommets représentatifs des éléments physiques et des liens entre les sommets lorsque la valeur de la covariance entre les sommets considérés est supérieure à la valeur de seuillage considérée. Le procédé comporte également l'étape d'obtenir des cœurs par analyse de l'évolution des graphes par utilisation d'une pluralité de valeurs de seuillage, un cœur étant un ensemble de sommets d'un graphe tel que le nombre de sommets est supérieur ou égal à un nombre fixé, tel qu'il existe une valeur de seuillage pour laquelle le cœur est une composante connexe du graphe associé à la valeur de seuillage et tel qu'il n'existe pas d'autres composantes connexes d'un graphe dont le nombre de sommets est supérieur ou égal au nombre fixé et qui soit incluse dans le cœur, l'étape de définir des graphes candidats, chaque graphe candidat étant un graphe associé à une des valeurs de seuillage de la pluralité de valeurs de seuillage. Le procédé comporte également, pour chaque valeur de seuillage de la pluralité de valeurs de seuillage, une étape d'obtenir une répartition associée par optimisation de la répartition en classes des sommets du graphe associé à la valeur de seuillage considérée, l'optimisation partant d'une répartition initiale dans laquelle à chaque cœur est associé une classe pour obtenir une répartition finale dans laquelle chaque sommet d'une classe partage plus de liens avec les autres sommets de la même classe qu'avec les sommets d'une autre classe, Le procédé comprend aussi une étape de sélectionner un graphe optimal parmi la pluralité de graphes candidats selon au moins un critère.
L'originalité du procédé d'identification d'une relation proposé réside notamment dans le fait que les deux problématiques de calcul de la matrice de covariance et de partitionnement du graphe sont traitées conjointement.
Ainsi, d'une part il est suggéré d'analyser l'évolution de la structure du graphe en fonction d'une valeur de seuillage et de choisir la matrice de covariance et le graphe associé en se basant sur des critères portant sur le graphe (densité, répartition des degrés...) et sur son partitionnement (modularité, nombre de classes, stabilité des classes...). D'autre part, la partition du graphe repose sur la sélection de cœurs qui sont un ensemble de sommets fortement connectés sur les graphes, c'est-à-dire par des liens de fort poids (covariance). De ce fait, la méthode de partitionnement des graphes prend en compte la partie la plus fiable de l'information contenue dans la matrice de covariance.
Le procédé d'identification d'une relation s'applique à des données de très grande dimension (plusieurs milliers de variables). En outre, le nombre de classes n'est pas fixé, de même que la valeur du paramètre de seuillage. Selon un mode de réalisation préféré, le procédé d'identification permet d'analyser l'évolution des graphes en fonction du choix de la valeur de seuillage en deux temps. Dans un premier temps, il est recherché les cœurs de classes en augmentant pas à pas la valeur de seuillage de façon à "effeuiller" progressivement le graphe et à identifier des petits ensembles de sommets stables au sein des différentes composantes connexes des graphes. Dans un deuxième temps, en baissant progressivement la valeur de seuillage, les sommets du graphe sont progressivement reconnectés pour pouvoir leur attribuer une classe définie autour d'un cœur.
Le procédé d'identification d'une relation permet finalement de choisir la matrice de covariance et le graphe associé qui présente la structure d'interaction la plus claire et la plus stable.
En particulier, la procédé d'identification d'une relation peut permettre d'identifier des ensembles de gènes présentant une relation entre eux sur la base de leurs niveaux d'expression dans les échantillons considérés, ou présentant des profils d'expression similaires. Des gènes dont les profils d'expression sont similaires (gènes co-exprimés) peuvent par exemple présenter des mécanismes de régulation identiques ou faire partie d'une même voie de régulation, c'est-à-dire être co-régulés.
La régulation de l'expression d'un gène désigne l'ensemble des mécanismes de régulation mis en œuvre au cours du processus de synthèse d'un produit de gène fonctionnel (ARN ou protéine) à partir de l'information génétique contenue dans une séquence d'ADN. La régulation désigne une modulation, en particulier une augmentation ou une diminution de la quantité des produits de l'expression d'un gène (ARN ou protéine). Toutes les étapes allant de la séquence d'ADN au produit final de l'expression d'un gène peuvent être régulées, que ce soit la transcription, la maturation des ARN messagers, la traduction des ARN messagers ou la stabilité des ARN messagers ou des protéines.
Par exemple, le procédé d'identification d'une relation peut permettre d'identifier une relation entre des gènes ou des protéines qui sont tous fortement exprimés, ou fortement sur-exprimés par rapport à un contrôle, ou entre des gènes ou des protéines qui sont tous peu exprimés, ou fortement sous-exprimés par rapport à un contrôle.
Dans un mode de réalisation préféré, le procédé d'identification d'une relation permet avantageusement d'organiser les gènes, ARN ou protéines, dont les profils d'expression sont identiques, en groupes ou ensembles, selon un regroupement hiérarchique.
Selon un mode de réalisation particulier, le procédé d'identification d'une relation permet avantageusement d'identifier des interactions entre des gènes. Selon un autre mode de réalisation, le procédé d'identification d'une relation permet avantageusement d'identifier des ensembles de gènes qui sont co-exprimés et/ou co-régulés. Cela peut permettre d'identifier des voies de régulation non encore connues. Par ailleurs, un gène dont la fonction est inconnue et qui fait partie d'un ensemble contenant un grand nombre de gènes impliqués dans une fonction cellulaire particulière ou un processus cellulaire particulier, a une forte probabilité d'être lui aussi impliqué dans cette fonction ou dans ce processus. Ainsi, en partant de l'hypothèse que des gènes co- exprimés et/ou co-régulés peuvent être reliés fonctionnellement, la méthode peut permettre d'identifier la fonction putative de certains gènes.
Suivant des modes de réalisation particuliers, le procédé d'identification d'une relation entre des éléments physiques comprend une ou plusieurs des caractéristiques suivantes, prise(s) isolément ou suivant toute combinaison techniquement possible :
- à l'étape d'obtenir des cœurs, les valeurs de la pluralité de valeurs de seuillage sont utilisées de manière croissante.
- l'étape d'obtenir une répartition associée, les valeurs de la pluralité de valeurs de seuillage sont utilisées de manière décroissante.
- l'étape d'estimer la matrice de covariance comporte une sous-étape de calcul de la matrice de covariance empirique, une sous-étape de régularisation et une sous-étape de normalisation.
- l'étape d'obtenir des cœurs met en œuvre un algorithme de parcours en profondeur.
- la répartition finale comporte moins de classes que le nombre de cœurs obtenus.
- le nombre d'éléments physiques est supérieur ou égal à 1000, de manière préférentielle supérieur ou égal à 3000, de manière encore plus préférentielle supérieur ou égal à 5000.
- le rapport entre le nombre d'éléments physiques et le nombre d'individus est supérieur ou égal à 10, de manière préférentielle supérieur ou égal à 30, de manière encore plus préférentielle supérieur ou égal à 50.
- le procédé d'identification d'une relation étant mis en œuvre par ordinateur.
- les éléments physiques sont des gènes, des ARN, des protéines ou des métabolites.
- les individus sont des individus biologiques tels que des animaux, de manière préférentielle des mammifères, de manière encore plus préférentielle des humains. Il est également proposé un procédé d'identification d'une cible thérapeutique pour la prévention et/ou le traitement d'une pathologie, le procédé comprenant l'étape de mettre en œuvre le procédé d'identification d'une relation tel que précédemment décrit, la pluralité d'individus étant une pluralité d'individus biologiques souffrant de ladite pathologie et la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, pour obtenir une première répartition dans laquelle chaque première classe est associée de manière biunivoque à une première valeur de la grandeur représentative, Le procédé d'identification d'une cible thérapeutique comprend également l'étape de mettre en œuvre le procédé d'identification d'une relation tel que précédemment décrit, la pluralité d'individus étant une pluralité d'individus biologiques ne souffrant pas de ladite pathologie et la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, pour obtenir une deuxième répartition dans laquelle chaque deuxième classe est associée de manière biunivoque à une deuxième valeur de la grandeur représentative. Le procédé comporte aussi l'étape de comparer la première répartition et la deuxième répartition, et l'étape de sélectionner comme cible thérapeutique le gène, ou un produit de l'expression du gène, si les sommets représentatifs dudit gène appartiennent à une première classe et à une deuxième classe dont la première valeur et la deuxième valeur diffèrent significativement.
Il est aussi proposé un procédé d'identification d'un biomarqueur diagnostique, de susceptibilité, pronostique d'une pathologie ou prédictif d'une réponse à un traitement d'une pathologie. Le procédé d'identification d'un biomarqueur comprend l'étape de mettre en œuvre le procédé d'identification d'une relation tel que précédemment décrit, la pluralité d'individus étant une pluralité d'individus biologiques souffrant de ladite pathologie et la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, pour obtenir une première répartition dans laquelle chaque première classe est associée de manière biunivoque à une première valeur de la grandeur représentative, Le procédé d'identification d'un biomarqueur comprend également l'étape de mettre en œuvre le procédé d'identification d'une relation tel que précédemment décrit, la pluralité d'individus étant une pluralité d'individus biologiques ne souffrant pas de ladite pathologie et la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, pour obtenir une deuxième répartition dans laquelle chaque deuxième classe est associée de manière biunivoque à une deuxième valeur de la grandeur représentative. Le procédé d'identification d'un biomarqueur comporte aussi l'étape de comparer la première répartition et la deuxième répartition, et de sélectionner comme biomarqueur le gène, ou une expression du gène, si les sommets représentatifs dudit gène appartiennent à une première classe et à une deuxième classe dont la première valeur et la deuxième valeur diffèrent significativement.
Il est également proposé un procédé de criblage d'un composé utile comme médicament, ayant un effet sur une cible thérapeutique connue, pour la prévention et/ou le traitement d'une pathologie, le procédé comprenant l'étape de mettre en œuvre le procédé d'identification d'une relation tel que précédemment décrit, la pluralité d'individus étant une pluralité d'individus biologiques souffrant de ladite pathologie et ayant reçu ledit composé, la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, et les données comprenant la grandeur représentative de la cible thérapeutique, pour obtenir une première répartition dans laquelle chaque première classe est associée de manière biunivoque à une première valeur de la grandeur représentative, Le procédé de criblage d'un composé comporte aussi l'étape de mettre en œuvre le procédé d'identification d'une relation tel que précédemment décrit, la pluralité d'individus étant une pluralité d'individus biologiques souffrant de ladite pathologie et n'ayant pas reçu ledit composé, la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, et les données comprenant la grandeur représentative de la cible thérapeutique, pour obtenir une deuxième répartition dans laquelle chaque deuxième classe est associée de manière biunivoque à une deuxième valeur de la grandeur représentative. Le procédé de criblage d'un composé comprend aussi l'étape de comparer la première répartition et la deuxième répartition, et l'étape de sélectionner le composé si les sommets représentatifs de la cible thérapeutique connue appartiennent à une première classe et à une deuxième classe dont la première valeur et la deuxième valeur diffèrent significativement.
Il est aussi proposé un produit programme d'ordinateur comportant un support lisible d'informations, sur lequel est mémorisé un programme d'ordinateur comprenant des instructions de programme, le programme d'ordinateur étant chargeable sur une unité de traitement de données et adapté pour entraîner la mise en œuvre d'un procédé tel que précédemment décrit lorsque le programme d'ordinateur est mis en œuvre sur l'unité de traitement des données.
D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture de la description qui suit de modes de réalisation de l'invention, donnée à titre d'exemple uniquement et en référence aux dessins qui sont :
- figure 1 , une vue schématique d'un exemple de système permettant la mise en œuvre d'un procédé d'identification d'une relation entre des éléments physiques, - figure 2, un ordinogramme d'un exemple de mise en œuvre d'un procédé d'identification d'une relation entre des éléments physiques,
- figures 3 à 6, des vues schématiques d'une pluralité de graphes pour différentes valeurs de seuillage,
- figure 7, un ordinogramme d'un exemple de mise en œuvre d'un procédé d'identification d'une cible thérapeutique pour la prévention et/ou le traitement d'une pathologie,
figure 8, un ordinogramme d'un exemple de mise en œuvre d'un procédé d'identification d'un biomarqueur diagnostique, de susceptibilité, pronostique d'une pathologie ou prédictif d'une réponse à un traitement d'une pathologie, et
- figure 9, un ordinogramme d'un exemple de mise en œuvre d'un procédé de criblage d'un composé utile comme médicament, ayant un effet sur une cible thérapeutique connue, pour la prévention et/ou le traitement d'une pathologie. Un système 10 et un produit programme d'ordinateur 12 sont représentés à la figure 1 . L'interaction du produit programme d'ordinateur 12 avec le système 10 permet de mettre en œuvre un procédé d'identification d'une relation entre des éléments physiques.
Le système 10 est un ordinateur.
Plus généralement, le système 10 est un calculateur électronique propre à manipuler et/ou transformer des données représentées comme des quantités électroniques ou physiques dans des registres du système 10 et/ou des mémoires en d'autres données similaires correspondant à des données physiques dans des mémoires, des registres ou d'autres types de dispositifs d'affichage, de transmission ou de mémorisation.
Le système 10 comporte un processeur 14 comprenant une unité de traitement de données 16, des mémoires 18 et un lecteur 20 de support d'informations. Le système 10 comprend également un clavier 22 et une unité d'affichage 24.
Le produit programme d'ordinateur 12 comporte un support lisible d'informations 20.
Un support lisible d'informations 20 est un support lisible par le système 10, usuellement par l'unité de traitement de données 14. Le support lisible d'informations 20 est un médium adapté à mémoriser des instructions électroniques et capables d'être couplé à un bus d'un système informatique.
A titre d'exemple, le support lisible d'informations 20 est une disquette ou disque souple (de la dénomination anglaise de « floppy disk »), un disque optique, un CD-ROM, un disque magnéto-optique, une mémoire ROM, une mémoire RAM, une mémoire EPROM, une mémoire EEPROM, une carte magnétique ou une carte optique.
Sur le support lisible d'informations 20 est mémorisé un programme d'ordinateur comprenant des instructions de programme.
Le programme d'ordinateur est chargeable sur l'unité de traitement de données 14 et est adapté pour entraîner la mise en œuvre d'un procédé d'identification d'une relation entre des éléments physiques lorsque le programme d'ordinateur est mis en œuvre sur l'unité de traitement des données 14.
Le fonctionnement du système 10 en interaction avec le produit programme d'ordinateur 12 est maintenant décrit en référence à la figure 2 qui illustre un exemple de mise en œuvre d'un procédé d'identification d'une relation entre des éléments physiques.
Un élément est un élément physique lorsque l'élément appartient à la réalité.
Par exemple, les atomes sont les éléments physiques. L'étude statistique des états de spin d'un ensemble d'atomes est d'intérêt aussi bien pour de la spintronique que pour des problématiques de condensation de la matière.
Selon un autre exemple, les étoiles sont les éléments physiques. La quantité de l'émission d'une particule particulière pour différentes étoiles peut notamment être comparée.
Selon un autre exemple, les particules émises par une étoile sont les éléments physiques. L'étude des particules émises par une étoile permet de déterminer une information sur l'état de l'étoile considérée de manière statistique.
Dans le reste de la description, il est plus spécifiquement considéré des exemples d'éléments physiques appartenant au domaine de la biologie, sans que ces exemples soient une limitation du présent procédé.
Notamment, selon un mode de réalisation préféré, les éléments physiques sont des éléments biologiques. Par exemple, les éléments physiques peuvent être des gènes, des ARN, en particulier des ARN messagers, des protéines ou des métabolites.
Le procédé d'identification d'une relation est d'autant plus avantageux que le nombre d'éléments physiques considérés est important de sorte que les éléments physiques constituent de préférence des ensembles de grandes dimensions.
Par exemple, le nombre d'éléments physiques est supérieur ou égal à 1000, de préférence supérieur ou égal à 2000, de préférence supérieur ou égal à 3000, de préférence supérieur ou égal à 4000, de préférence supérieur ou égal à 5000, de préférence supérieur ou égal à 6000, de préférence supérieur ou égal à 7000, de préférence supérieur ou égal à 8000, de préférence supérieur ou égal à 9000, de préférence supérieur ou égal à 10000. Il est entendu par le terme relation un lien ou un rapport existant entre deux éléments.
Le procédé d'identification d'une relation comporte une étape 50 de fourniture de données relatives à une pluralité d'individus. Les données pour un individu particulier comprennent une grandeur représentative de chacun des éléments physiques.
A titre d'exemple particulier, la grandeur représentative d'un élément physique peut être la quantité de l'élément physique. Par exemple, la grandeur représentative d'une protéine dans un échantillon donné peut être la quantité de cette protéine dans cet échantillon. Ainsi, dans un tel cas particulier, à titre d'illustration, une première protéine aurait un poids de 15 kilodaltons, une deuxième protéine aurait un poids de 10 kilodaltons, une troisième protéine aurait un poids de 12 kilodaltons.
A travers l'exemple particulier proposé, il apparaît que, par grandeur représentative d'un élément physique, il est entendu tout type de grandeur mesurable qui caractérise l'élément physique. Une grandeur représentative d'un élément physique est donc exprimable sous la forme d'une quantité.
Selon un mode de réalisation particulier, la grandeur considérée est représentative de l'activité d'un élément physique.
En particulier, pour l'exemple précédent de l'atome, le spin est une grandeur représentative.
Selon un autre exemple, pour le cas où les particules émises par une étoile sont les éléments physiques, la quantité de particules émises est une grandeur représentative. Similairement, pour l'exemple des étoiles, la quantité de la particule particulière émise par chacun des étoiles est une grandeur représentative.
L'activité d'un élément physique représente l'ensemble des effets produits par l'élément physique considéré. Notamment, lorsque l'élément physique est un gène, l'activité de l'élément physique peut désigner l'expression dudit gène. L'expression d'un gène peut en particulier être quantifiée en mesurant la quantité d'ARN messager produit par le processus de transcription à partir dudit gène, ou en mesurant la quantité de protéine produite par les processus de transcription et de traduction à partir dudit gène.
La grandeur représentative de l'activité d'un élément physique peut être la quantité d'un produit résultant de l'activité de l'élément physique. Par exemple, la grandeur représentative de l'activité d'un gène peut être la quantité d'ARN messagers produit par le processus de transcription à partir dudit gène. Selon un autre exemple, la grandeur représentative de l'activité d'un ARN messager peut être la quantité de protéines produites par le processus de traduction à partir dudit ARN messager. Il est entendu par le terme individu un élément statistique d'un ensemble plus large appelé « population », et pour lequel la valeur de la grandeur représentative de chacun des éléments physiques, ou de leur activité, est fournie à l'étape 50 de fourniture.
Dans le cas de l'exemple des atomes, la pluralité d'individus est une pluralité d'atomes.
Pour l'exemple de particules émises par une même étoile, la pluralité d'individus peuvent être des émissions à des instants temporels distincts.
Pour le cas où une pluralité d'étoiles est considérée, la pluralité d'individus est, de préférence, la pluralité d'étoiles.
Selon un mode de réalisation particulier, l'individu peut être un individu biologique tel que, par exemple, un animal. De préférence, l'individu est un mammifère. De manière encore plus préférentielle, l'individu est un humain.
Le procédé d'identification d'une relation est d'autant plus avantageux que le rapport entre le nombre d'éléments physiques et le nombre d'individus est supérieur ou égal à 10, de préférence supérieur ou égal à 20, de préférence supérieur ou égal à 30, de préférence supérieur ou égal à 40, de préférence supérieur ou égal à 50, de préférence supérieur ou égal à 60, de préférence supérieur ou égal à 70, de préférence supérieur ou égal à 80, de préférence supérieur ou égal à 90, de préférence supérieur ou égal à 100, de préférence supérieur ou égal à 200.
Alternativement ou de manière complémentaire, le nombre d'individus peut être inférieur ou égal à 200, de préférence inférieur ou égal à 100.
Les données comprennent ainsi, pour une pluralité d'individus, les différentes valeurs d'une grandeur représentative choisie pour chaque élément physique. Comme expliqué précédemment, selon un mode de réalisation particulier, le nombre de grandeurs représentatives fournies est supérieur ou égal à 1000 pour chaque individu considéré.
Les données fournies à l'étape 50 de fourniture peuvent être obtenues par n'importe quel moyen. En particulier, les données peuvent être obtenues par une analyse de type « omique », par exemple par une analyse génomique, transcriptomique, protéomique, ou métabolomique. Les techniques permettant d'obtenir des données de type « omique » sont bien connues de l'homme du métier et comprennent par exemple celles des puces à ADN, de la PCR quantitative ou du séquençage systématique d'ADN, d'ARN ou d'ADN complémentaires.
Dans un mode de réalisation particulier, les données fournies à l'étape 50 de fourniture ont été obtenues à partir d'un échantillon biologique de l'individu, tel qu'un ou plusieurs organe(s), tissu(s), cellule(s) ou fragment(s) de cellule(s) de l'individu. A l'issue de l'étape 50 de fourniture, des données comprenant une grandeur représentative des éléments physiques pour une pluralité d'individus ont été fournies.
D'un point de vue mathématique, les données fournies correspondent au cas de n réalisations (n individus) de p variables aléatoires Xi , Xp (p grandeurs représentatives). Dans ce contexte, n et p sont deux entiers.
Pour la suite, dans un souci de simplification du propos, à titre illustratif, il est supposé que les variables aléatoires Xi , Xp sont centrées.
Le procédé comporte une étape 52 de représentation des données fournies sous forme matricielle pour obtenir une matrice de données notée X dont l'élément de la ligne i et de la colonne j est la valeur de la i-ième grandeur représentative X, pour la j-ième réalisation.
Le procédé comporte une étape 54 d'estimation de la matrice de covariance∑ entre les différentes grandeurs représentatives à partir de la matrice de données.
En théorie des probabilités et en statistique, la matrice de variance-covariance ou plus simplement matrice de covariance d'une série de p variables aléatoires X1 ; Xp réelles est la matrice carrée dont l'élément de la ligne i et de la colonne j est la covariance des variables X, et Xj. Une telle matrice permet de quantifier la variation de chaque variable par rapport à chacune des autres.
Selon un mode de réalisation, l'étape 54 d'estimation comporte une sous-étape de calcul.
A titre d'exemple, à la sous-étape de calcul, il est calculé la matrice de covariance empirique S. Par définition, S est le produit de l'inverse de l'entier n par le produit matriciel de la matrice de données X par la transposée de la matrice de données X. Ceci s'écrit mathématiquement :
1
S = -.x * x*
n
où :
• « . » désigne l'opération mathématique de multiplication par un scalaire,
• « * » désigne l'opération mathématique de multiplication matricielle, et
• X1 désigne la transposée de la matrice de données X.
Selon un autre exemple, à la sous-étape de calcul, il est calculé la matrice de corrélation de Spearman.
Selon un autre mode de réalisation, l'étape 54 d'estimation comporte une sous- étape de régularisation. La sous-étape de régularisation permet de forcer des valeurs de la matrice de covariance à être nulles pour obtenir une matrice creuse (c'est-à-dire une matrice comprenant beaucoup de zéros).
Par exemple, la sous-étape de régularisation est appliquée à la matrice de covariance empirique S calculée à la sous-étape de calcul, pour obtenir une matrice de covariance régularisée Sréguiarisée-
Selon un cas particulier, la sous-étape de régularisation est mise en œuvre en utilisant une valeur de seuillage λ, la valeur de seuillage λ étant positive ou nulle. Plus précisément, pour obtenir la matrice régularisée de covariance empirique Sréguiarisée, toutes les valeurs de la matrice de covariance empirique S dont la valeur en valeur absolue est strictement inférieure à la valeur de seuillage λ sont mises à 0.
La valeur de seuillage λ étant une variable, la matrice régularisée de covariance empirique Sréguiarisée est une fonction de la valeur de seuillage λ. Notamment, lorsque la valeur de seuillage λ est nulle, la matrice régularisée de covariance empirique Sréguiarisée est la matrice de covariance empirique S. A contrario, lorsque la valeur de seuillage λ tend vers l'infini, la matrice régularisée de covariance empirique Sréguiarisée tend vers la matrice nulle, c'est-à-dire une matrice dont tous les termes sont nuls.
Une telle sous-étape de régularisation est particulièrement avantageuse lorsque l'entier p est grand ou que l'entier p est supérieur à l'entier n. En effet, dans de tels cas, la matrice régularisée de covariance empirique Sréguiansée est un estimateur de meilleure qualité que la matrice de covariance empirique S, la fonction de la valeur de seuillage λ permettant d'éliminer les valeurs trop faibles non significatives. Cela provient notamment du fait qu'il peut exister du bruit dans les données fournies et qu'il existe un risque d'existence d'un ou plusieurs faux positifs.
Optionnellement, l'étape 54 d'estimation comporte également une sous-étape de normalisation pour obtenir une matrice normalisée.
Par exemple, la sous-étape de normalisation est appliquée à la matrice de covariance empirique S.
Selon un mode de réalisation préféré, la sous-étape de normalisation est mise en œuvre en calculant le produit matriciel suivant :
R = D i * S * D i
σ σ
où :
• R désigne la matrice normalisée, et • Di désigne la matrice diagonale des écarts-types. Par définition, la matrice σ
diagonale des écarts-types Di est une matrice diagonale dont le i-ième σ
terme de la diagonale est égal à l'inverse de l'écart-type de la i-ième variable X,, i étant un entier variant entre 1 et l'entier p.
En statistique, la corrélation de deux variables A et B est égale au rapport entre, d'une part, la covariance entre lesdites deux variables A et B et, d'autre part, le produit de l'écart-type de la première variable A par l'écart-type de la deuxième variable B. Il en résulte que la matrice normalisée R correspond à la matrice des corrélations empiriques.
Selon les cas, l'étape 54 d'estimation comporte ainsi une sous-étape de calcul, ou la combinaison d'une sous-étape de calcul et d'une sous-étape de régularisation ou la combinaison d'une sous-étape de calcul et d'une sous-étape de normalisation, ou une combinaison des sous-étapes de calcul, de régularisation et de normalisation.
Dans le cas où les trois sous-étapes sont mises en œuvre, l'ordre de mise en œuvre des sous-étapes de régularisation et de normalisation est indifférent. En outre, il est obtenu une matrice régularisée des corrélations empiriques Régularisée et la valeur de seuillage est comprise entre 0 et 1 . Dans la suite de la description, une valeur Y est comprise entre deux valeurs a et b lorsque, d'une part, la valeur Y est supérieure ou égale à la valeur a et d'autre part, la valeur Y est inférieure ou égale à la valeur b.
Comme pour le cas de la matrice régularisée de covariance empirique SgUiarisée, la valeur de seuillage λ étant une variable, la matrice régularisée des corrélations empiriques Régularisée est une fonction de la valeur de seuillage λ. Notamment, lorsque la valeur de seuillage λ vaut 0, la matrice régularisée des corrélations empiriques Régularisée est égale à la matrice des corrélations empiriques R. A contrario, lorsque la valeur de seuillage λ vaut 1 , la matrice régularisée des corrélations empiriques Régularisée tend vers la matrice nulle, c'est-à-dire une matrice dont tous les termes sont nuls.
A l'issue de l'étape 54 d'estimation, il est obtenu une matrice de covariance estimée∑ regroupant les valeurs estimées de covariance entre les différentes grandeurs représentatives des éléments physiques ou de leur activité. En variante, il est obtenu une matrice de corrélation de Spearman lorsque la dépendance entre les variables est non linéaire.
A titre d'exemple, pour la suite, il est supposé que la matrice de covariance estimée∑ est la matrice régularisée des corrélations empiriques Régularisée, c'est-à-dire que
= Régularisée-
Le procédé d'identification d'une relation comporte également une étape 56 d'association d'un graphe Gx à une valeur de seuillage λ. Par définition, un graphe Gx est associé à une valeur de seuillage λ lorsque le graphe Gx comprend des sommets représentatifs des éléments physiques, et des liens entre les sommets lorsque la valeur de la covariance estimée entre les sommets considérés est supérieure ou égale à la valeur de seuillage λ considérée.
Un graphe G¾ est une représentation graphique de la valeur de la covariance estimée par rapport à une valeur de seuillage λ donnée. Cela signifie que les seuls liens visibles sur un graphe Gx sont les liens présentant une valeur de la covariance estimée relativement grande.
Dans le cas particulier de la figure 2, le graphe G¾ comporte des liens entre les sommets lorsque la valeur de la matrice régularisée des corrélations empiriques Régularisée relatives aux sommets considérés est supérieure ou égale à la valeur de seuillage λ considérée.
Ainsi, lorsque la valeur de seuillage λ vaut 0, le graphe G0 est un graphique dont tous les sommets sont reliés à tous les autres sommets. A contrario, lorsque la valeur de seuillage λ vaut 1 , le graphe Gi est un graphique dont tous les sommets sont isolés, c'est- à-dire qu'il n'existe aucun lien entre les sommets.
Plus précisément, il apparaît que la fonction qui associe à la valeur de seuillage λ le nombre de liens à générer dans le graphe G¾ associé à la valeur de seuillage λ est une fonction décroissante depuis la valeur du nombre de liens dans le graphe G0 jusqu'à 0.
A titre d'illustration, les figures 3 à 6 illustrent chacune les graphes associés à différentes valeurs de seuillage pour un exemple particulier.
La figure 3 illustre un premier graphe GM associé à une première valeur de seuillage λι . Le premier graphe GM comporte les mêmes treize sommets, chaque sommet étant représenté par un point sur la figure. De plus, chaque sommet est référencé par un signe de référence sous la forme Si où i est le numéro du sommet. Par exemple, le deuxième sommet est référencé S2 et le septième sommet est référencé S7.
Dans le premier graphe GM , il existe seize liens entre les treize sommets S1 à S13. Ainsi, le premier sommet S1 est relié au cinquième sommet S5 via un premier lien . 5. Le deuxième sommet S2 est relié au cinquième sommet S5 via un deuxième lien l2-5. Le troisième sommet S3 est relié au quatrième sommet S4 via un troisième lien l3.4 et au septième sommet S7 via un quatrième lien l3.7. Le quatrième sommet S4 est relié au troisième sommet S3 via le troisième lien l3.4, au cinquième sommet S5 via un cinquième lien I4-5, au septième sommet S7 via un sixième lien l4.7 et au huitième sommet S8 via un septième lien l4.8. Le cinquième sommet S5 est relié au quatrième sommet S4 via le cinquième lien l4.5, au huitième sommet S8 via un huitième lien l5.8 et au neuvième sommet S9 via un neuvième lien l5-9. Le sixième sommet S6 est relié au septième sommet
57 via un dixième lien l6-7. Le septième sommet S7 est relié au troisième sommet S3 via le quatrième lien l3-7, au quatrième sommet S4 via le troisième lien l3-4, au huitième sommet
58 via un onzième lien l7-8, au sixième sommet S6 via le dixième lien l6-7 et au onzième sommet S1 1 via un douzième lien l7-12. Le huitième sommet S8 est relié au quatrième sommet S4 via le septième lien l4-8, au cinquième sommet S5 via le huitième lien l5-8, au septième sommet S7 via le onzième lien l7-8, au neuvième sommet S9 via un treizième lien l8_g et au douzième sommet S12 via un quatorzième lien l8.12. Le neuvième sommet S9 est relié au cinquième sommet S5 via le neuvième lien l5-9, au huitième sommet S8 via le treizième lien l8-9, au dixième sommet S10 via un quinzième lien l9.10 et au treizième sommet S13 via un seizième lien l9.16. Le dixième sommet S10 est relié au neuvième sommet S9 via le quinzième lien l9.10. Le onzième sommet S1 1 est relié au septième sommet S7 via le douzième lien l7.12. Le douzième sommet S12 est relié au huitième sommet S8 via le quatorzième lien l8.12. Le treizième sommet S13 est relié au neuvième sommet S9 via le seizième lien l9.16.
Cela signifie que le premier lien l1-5, le deuxième lien l2.5, le troisième lien l3-4, le quatrième lien l3-7, le cinquième lien l4-5 Je sixième lien l4-7, le septième lien l4-8, le huitième lien l5-8, le neuvième lien l5-9, le dixième lien l6-7, le onzième lien l7-8, le douzième lien l7-12, le treizième lien l8-9, le quatorzième lien l8-12, le quinzième lien l9-10 et le seizième lien l9-16 correspondent chacun à des valeurs de covariance estimée entre les sommets considérés qui sont strictement supérieures à la première valeur de seuillage λ^ .
La figure 4 illustre un deuxième graphe GX2 associé à une deuxième valeur de seuillage λ2. La figure 4 étant similaire à la figure 3, seules les différences avec la figure 3 sont détaillées dans ce qui suit.
La deuxième valeur de seuillage λ2 est plus grande que la première valeur de seuillage λ^ . En outre, le deuxième graphe GX2 ne comporte plus qu'onze liens puisque le troisième lien l3-4, le cinquième lien l4-5, le sixième lien l4-7, le neuvième lien l5-9 et le seizième lien l9-16 ont disparu.
Cela montre que le troisième lien l3-4, le cinquième lien l4-5, le sixième lien l4-7, le neuvième lien l5-9 et le seizième lien l9.16 correspondent chacun à des valeurs de covariance estimée entre les sommets considérés qui sont strictement supérieures à la première valeur de seuillage λι mais également strictement inférieures à la deuxième valeur de seuillage λ2. A contrario, le premier lien l1-5, le deuxième lien l2-5, le quatrième lien I3.7, le septième lien l4-8, le huitième lien l5-8, le dixième lien l6-7, le onzième lien l7-8, le douzième lien l7-12, le treizième lien l8-9, le quatorzième lien l8-12 et le quinzième lien l9-10 correspondent chacun à des valeurs de covariance estimée entre les sommets considérés qui sont strictement supérieures à la deuxième valeur de seuillage λ2.
La figure 5 illustre un troisième graphe Θλ3 associé à une troisième valeur de seuillage λ3. La figure 5 étant similaire à la figure 4, seules les différences avec la figure 5 sont détaillées dans ce qui suit.
La troisième valeur de seuillage λ3 est plus grande que la deuxième valeur de seuillage λ2. En outre, le troisième graphe Θλ3 ne comporte plus que sept liens puisque le premier lien l1-5, le quatrième lien l3-7, le dixième lien l6-7 et le quatorzième lien l8-12 ont disparu.
Cela montre que le premier lien l1-5, le quatrième lien l3-7, le dixième lien l6-7 et le quatorzième lien l8.12 correspondent chacun à des valeurs de covariance estimée entre les sommets considérés qui sont strictement supérieures à la deuxième valeur de seuillage λ2 mais également strictement inférieures à la troisième valeur de seuillage λ3. A contrario, le deuxième lien l2.5, le septième lien l4-8, le huitième lien l5-8, le onzième lien l7-8, le douzième lien l7-12, le treizième lien l8-9, et le quinzième lien l9-10 correspondent chacun à des valeurs de covariance estimée entre les sommets considérés qui sont strictement supérieurs à la troisième valeur de seuillage λ3.
La figure 6 illustre un quatrième graphe Θλ4 associé à une quatrième valeur de seuillage λ4. La figure 6 étant similaire à la figure 5, seules les différences avec la figure 5 sont détaillées dans ce qui suit.
La quatrième valeur de seuillage λ4 est plus grande que la troisième valeur de seuillage λ3. En outre, le quatrième graphe Θλ4 ne comporte plus que trois liens puisque le deuxième lien l2.5, le septième lien l4-8, le douzième lien l7-12 et le quinzième lien l9-10 ont disparu.
Cela montre que le deuxième lien l2_5, le septième lien l4-8, le douzième lien l7.12 et le quinzième lien l9.10 correspondent chacun à des valeurs de covariance estimée entre les sommets considérés qui sont strictement supérieures à la troisième valeur de seuillage λ3 mais également strictement inférieures à la quatrième valeur de seuillage λ4. A contrario, le huitième lien l5-8, le onzième lien l7-8, et le treizième lien l8-9 correspondent chacun à des valeurs de covariance estimée entre les sommets considérées qui sont strictement supérieurs à la quatrième valeur de seuillage λ4.
Les figures 3 à 6 illustrent que la fonction qui associe à la valeur de seuillage λ le nombre de liens à générer dans le graphe G¾ associé à la valeur de seuillage λ est une fonction décroissante. En effet, à la première valeur de seuillage λι , est associée la valeur de seize ; à la deuxième valeur de seuillage λ2, est associée à la valeur de onze ; à la troisième valeur de seuillage λ3, est associée à la valeur de sept et à la quatrième valeur de seuillage λ4 est associée à la valeur de quatre.
Selon un autre mode de réalisation, les liens sur le graphe sont pondérés par l'intensité des corrélations. La matrice de pondération ou matrice des poids des liens est la matrice regroupant les valeurs absolues de la matrice obtenue à l'issue de la mise en œuvre de l'étape 54 d'estimation.
Le procédé d'identification d'une relation comprend une étape 58 d'obtention de cœurs.
Par définition, un cœur est un ensemble de sommets d'un graphe vérifiant trois propriétés : la première propriété P1 , la deuxième propriété P2 et la troisième propriété P3.
Selon la première propriété P1 , le nombre de sommets du cœur est supérieur ou égal à un nombre fixé a.
De préférence, le nombre fixé a est supérieur ou égal à 3, préférentiellement supérieur ou égal à 5.
De préférence le nombre fixé a est supérieur ou égal à 15, préférentiellement supérieur ou égal à 10.
Selon la deuxième propriété P2, il existe une valeur de seuillage λ pour laquelle le cœur est une composante connexe du graphe G¾ associé à la valeur de seuillage λ.
En théorie des graphes, un graphe non orienté est dit connexe si quels que soient les sommets considérés, il existe une chaîne de liens depuis le premier sommet vers le deuxième sommet. Un sous-graphe connexe maximal d'un graphe non orienté quelconque est une composante connexe de ce graphe.
Selon la troisième propriété P3, il n'existe pas d'autres composantes connexes d'un graphe dont la taille est supérieure ou égale au nombre fixé et qui soit incluse dans le cœur.
Autrement formulé, il est permis qu'il existe des composantes connexes présentant moins de sommets que le nombre fixé soit incluse dans le cœur. Il est également permis que des composantes connexes présentant plus ou autant de sommets que le nombre fixé existent mais chacune de ces composantes connexes doit soit être incluse dans le cœur soit ne partager aucun sommet avec le cœur. Une telle propriété P3 est à vérifier pour toutes les valeurs de seuillage λ.
Selon une autre manière de présenter une telle notion, un cœur de classe est un ensemble de sommets, de taille minimale fixée, pouvant tous être reliés par des chemins fiables impliquant des liens de poids (covariance) suffisamment importants. Ces chemins, qui font le lien entre les sommets d'un cœur, sont stables sur les graphes lorsque l'on augmente le paramètre de seuillage et ce, jusqu'à un niveau assez élevé. Les sommets n'appartenant pas à un cœur sont au contraire plus rapidement isolés (aucun lien avec les autres sommets) sur le graphe à mesure que le paramètre de seuillage est augmenté.
L'étape 58 d'obtention de cœurs est mise en œuvre par analyse de l'évolution des graphes en fonction de la variation de la valeur de seuillage.
Pour cela, il est utilisé une pluralité de valeurs de seuillage. Selon l'exemple proposé en référence aux figures 3 à 6, il est proposé quatre valeurs de seuillage λ1 ; λ2, λ3 et λ4. La comparaison des figures 3 à 6 permet de montrer que le cœur comprend dans ce cas les quatre sommets suivants : le cinquième sommet S5, le septième sommet S7, le huitième sommet S8 et le neuvième sommet S9.
De préférence, la première pluralité de valeurs de seuillage est utilisée de manière croissante, c'est-à-dire en considérant d'abord la plus petite valeur, puis la valeur la plus petite des valeurs restantes jusqu'à considérer la plus grande valeur.
Préférentiellement, l'étape 58 d'obtention de cœurs est mise en œuvre avec un algorithme de parcours en profondeur.
Par exemple, on fixe le nombre de sommets minimum a d'un cœur, une valeur de seuillage minimale min et un paramètre P pour l'incrémentation de la valeur de seuillage.
On commence par extraire les N composantes connexes du graphe G¾min dont le nombre de sommets est supérieur au nombre fixé α. N est un nombre entier. L'extraction des composantes connexes est obtenue par mise en œuvre d'un algorithme de parcours en profondeur.
Tant que l'entier N est différent de 0, les étapes suivantes sont réitérées :
1 ) incrémenter la valeur de seuillage de l'itération précédente en additionnant le paramètre P pour obtenir une valeur de seuillage de calcul
Figure imgf000022_0001
2) extraction des N composantes connexes du graphe G¾caicui dont le nombre de sommets est supérieur au nombre fixé a.
3) définition des cœurs, un cœur étant une composante connexe du graphe Glaïeul-pas (le graphe associé à la valeur de seuillage de l'itération précédente qui est, par définition de la valeur de seuillage de calcul calcul, la différence entre la valeur de seuillage de calcul
Figure imgf000022_0002
et le paramètre P) dont l'intersection avec chacune des composantes connexes extraites à l'étape 2 d'extraction est nulle.
L'ensemble des valeurs de seuillage utilisées forment une pluralité de valeurs de seuillage. Le procédé d'identification d'une relation comporte une étape 60 de définition des graphes candidats.
Chaque graphe candidat est un graphe associé à une des valeurs de seuillage de la pluralité de valeurs de seuillage.
Selon l'exemple proposé, les graphes candidats sont le premier graphe GM , le deuxième graphe Θλ2, le troisième graphe Θλ3 et le quatrième graphe Θλ4.
Le procédé d'identification d'une relation comporte également une étape 62 d'obtention des répartitions associées à chaque valeur de seuillage de la pluralité de valeurs de seuillage.
II est entendu par le terme répartition associée à une valeur de seuillage λ un partitionnement en une ou plusieurs classes des sommets du graphe Gx associé à la valeur de seuillage λ considérée. Une classe est un ensemble de sommets. Pour la suite, une telle répartition est notée R¾.
Selon l'exemple considéré, quatre répartitions RM , R¾2, Rx3 et R¾4 sont donc à obtenir.
De préférence, à l'étape 62 d'obtention des répartitions, la pluralité de valeurs de seuillage est utilisée de manière décroissante, c'est-à-dire en considérant d'abord la plus grande valeur, puis la valeur la plus grande des valeurs restantes jusqu'à considérer la plus petite valeur.
Chacune des répartitions sont obtenues par une opération d'optimisation distincte.
L'optimisation part d'une répartition initiale dans laquelle à chaque cœur est associée une classe pour obtenir une répartition finale dans laquelle chaque sommet d'une classe partage plus de liens avec les autres sommets de la même classe qu'avec les sommets d'une autre classe.
De nombreuses manières d'implémenter l'optimisation existent. Notamment, deux manières sont plus précisément décrites dans la suite de la description, sachant que d'autres manières sont accessibles pour l'homme du métier.
Selon une première méthode, pour un paramètre de seuillage λ donné, le graphe Gx est partitionné pour obtenir une répartition dans laquelle chaque classe comprend un unique cœur et minimisant le coût ou poids de la coupe, défini par la somme des poids des liens entre les classes. Par définition, la somme des poids des liens entre les classes est définie par la somme de la valeur absolue des liens existant entre un sommet d'une classe et un sommet de l'autre. L'ensemble des sommets et des cœurs considérés pour la répartition est fonction du paramètre de seuillage. Nous ne nous intéressons pas aux sommets isolés et aux composantes connexes de trop petites tailles. Nous notons ν*(λ), l'ensemble des sommets contenus dans des composantes connexes du graphe Gx dont le nombre de sommets est supérieur ou égale au nombre fixé a. De telles composantes connexes comprennent au moins un cœur.
Pour une valeur de seuillage λ fixé, si ν*(λ) contient K cœurs (K étant un entier positif), Qi , ... ,QK, alors il est cherché une partition de ν*(λ) en K classes, Ci , CK, telle que chaque classe Qk soit l'union d'un cœur Qk et d'un ensemble de sommets Sk à la périphérie de ce coeur (pouvant être vide) : Ck = Qk U Sk.
Si l'ensemble ν*(λ) est vide, soit ν*(λ) = 0, tous les sommets de V sont isolés ou contenus dans des composantes connexes de trop petite taille (strictement inférieure au nombre fixé a) et la question du partitionnement du graphe ne se pose pas.
Si l'ensemble ν*(λ) contient un unique coeur, le partitionnement du graphe est trivial, une seule classe regroupe tous les sommets de ν*(λ).
Quand l'ensemble ν*(λ) contient plusieurs cœurs, on choisit les sommets Sk autour de ces cœurs de façon à avoir une coupe de poids minimal. On note \Λ (λ) la matrice des poids des liens du graphe G¾ et S l'ensemble des parties de A =
Figure imgf000024_0001
■■■ , QK}. Les S1 ; ... , SK sont solution du problème d'optimisation suivant :
Figure imgf000024_0002
La première méthode de partitionnement décrite précédemment garantit le fait qu'un sommet qui n'est pas dans un cœur est plus fortement connecté avec la classe qui lui est attribuée, qu'avec toute autre classe (en faisant l'hypothèse qu'il ne peut pas y avoir égalité).
Selon une deuxième méthode plus élaborée, l'optimisation comporte une étape de détermination des cœurs dont un sommet partage plus de lien(s) avec les sommets d'une autre classe qu'avec les sommets de sa classe. Dans un tel cas, les cœurs déterminés ne sont plus considérés comme des cœurs mais comme un ensemble de sommets isolés pouvant chacun appartenir à une classe différente. Cela permet d'éviter les erreurs de classification.
Autrement formulé, comme l'on suppose que le cœur de la classe est la partie la plus stable et la plus centrale de la classe (la plus éloignée des autres classes), si un cœur contient au moins un sommet mieux connecté à une autre classe, nous "déclassons" le cœur en considérant les sommets de ce cœur comme étant de simples sommets périphériques et effectuons un nouveau partitionnement du graphe. D'un point de vue mathématique, il est possible d'implémenter la deuxième méthode en se ramenant à la formulation de la première méthode. En effet, si dans un coeur Qi, on peut trouver un sommet q, moins fortement connecté avec sa classe C,, qu'avec une autre classe Cp, alors on cherche une partition de ν*(λ) en K - 1 classes en ne considérant plus Q, comme un coeur (A = A U Q,) dans le problème d'optimisation posé dans le cadre de la première méthode. On réitère jusqu'à ce que l'ensemble des sommets soient plus fortement connectés à la classe qui leur est attribuée qu'à n'importe quelle autre classe.
Selon l'exemple de la figure 2, les étapes 60 de définition des graphes candidats et 62 d'obtention des répartitions sont mises en œuvre simultanément pour accélérer la mise en œuvre du procédé d'identification d'une relation. Cela est indiqué sur la figure 2 par le fait que les deux étapes 60 de définition et 62 d'obtention sont au même niveau.
Le procédé d'identification d'une relation comporte également une étape 64 de sélection d'un graphe optimal parmi la pluralité de graphes candidats selon au moins un critère.
Le ou les critères choisis permettent de sélectionner un graphe candidat correspondant à un bon compromis en terme de densité. En effet, plus un graphe candidat est dense et plus le graphe candidat considéré prend en compte d'information. A contrario, moins le graphe candidat est dense et plus le graphe candidat considéré met en évidence des ensembles de sommets clairement identifiables.
De préférence, à l'étape 64 de sélection, au moins deux critères sont utilisés, le premier critère portant sur le graphe et le deuxième critère étant relatif à la répartition associé au graphe.
Pour cela, selon un exemple de premier critère, le graphe candidat sélectionné est le graphe dont l'écart entre la distribution des degrés de connectivité et une distribution selon une loi de puissance est minimum.
Le degré de connectivité d'un sommet est, par exemple, calculé en sommant les poids associés aux liens du sommet considéré.
La distribution selon une loi de puissance est, selon un exemple particulier, une loi de Pareto.
La distribution selon une loi de puissance est, selon un autre exemple particulier, une loi de réseau invariant d'échelle.
L'écart est, à titre d'illustration, une distance euclidienne.
Selon un exemple, le deuxième critère est la modularité. La modularité est un critère comparant la proportion de liens d'une classe d'un graphe avec la proportion obtenue pour des liens placés au hasard sur le graphe considéré. Seront favorisées les répartitions dont la modularité est grande.
Selon un autre exemple, le deuxième critère est le nombre de classes. Seront favorisées les répartitions dont le nombre de classes est maximum.
Selon un autre exemple, le deuxième critère est la stabilité du nombre de classes avec la variation de la valeur du seuillage λ. Seront favorisées les répartitions dont le nombre de classes est le plus stable.
Le procédé d'identification d'une relation permet donc d'obtenir un graphe optimal et une répartition optimale des éléments physiques. L'appartenance à une même classe indique qu'il existe une relation entre les éléments physiques étudiés.
Pour obtenir une telle information, le procédé d'identification permet une meilleure détermination du graphe et de la répartition que les procédés de l'état de la technique dans la mesure où de tels procédés n'effectuent pas d'optimisation sur le graphe lors du partitionnement en classes du graphe.
Le procédé d'identification d'une relation permet par conséquent d'identifier des ensembles d'éléments physiques ayant une relation entre eux sur la base de la grandeur représentative considérée.
En particulier, le procédé d'identification d'une relation peut permettre d'identifier des ensembles de gènes présentant une relation entre eux sur la base de leurs niveaux d'expression dans les échantillons considérés, ou présentant des profils d'expression similaires. Des gènes dont les profils d'expression sont similaires (gènes co-exprimés) peuvent par exemple présenter des mécanismes de régulation identiques ou faire partie d'une même voie de régulation, c'est-à-dire être co-régulés.
La régulation de l'expression d'un gène désigne l'ensemble des mécanismes de régulations mis en œuvre au cours du processus de synthèse d'un produit de gène fonctionnel (ARN ou protéine) à partir de l'information génétique contenue dans une séquence d'ADN. La régulation désigne une modulation, en particulier une augmentation ou une diminution de la quantité des produits de l'expression d'un gène (ARN ou protéine). Toutes les étapes allant de la séquence d'ADN au produit final de l'expression d'un gène peuvent être régulées, que ce soit la transcription, la maturation des ARN messagers, la traduction des ARN messagers ou la stabilité des ARN messagers ou des protéines.
Par exemple, le procédé d'identification d'une relation peut permettre d'identifier une relation entre des gènes ou des protéines qui sont tous fortement exprimés, ou fortement sur-exprimés par rapport à un contrôle, ou entre des gènes ou des protéines qui sont tous peu exprimés, ou fortement sous-exprimés par rapport à un contrôle. Dans un mode de réalisation préféré, le procédé d'identification d'une relation permet avantageusement d'organiser les gènes, ARN ou protéines, dont les profils d'expression sont identiques, en groupes ou ensembles, selon un regroupement hiérarchique.
Selon un mode de réalisation particulier, le procédé d'identification d'une relation permet avantageusement d'identifier des interactions entre des gènes.
Selon un autre mode de réalisation, le procédé d'identification d'une relation permet avantageusement d'identifier des ensembles de gènes qui sont co-exprimés et/ou co-régulés. Cela peut permettre d'identifier des voies de régulation non encore connues. Par ailleurs, un gène dont la fonction est inconnue et qui fait partie d'un ensemble contenant un grand nombre de gènes impliqués dans une fonction cellulaire particulière ou un processus cellulaire particulier, a une forte probabilité d'être lui aussi impliqué dans cette fonction ou dans ce processus. Ainsi, en partant de l'hypothèse que des gènes co- exprimés et/ou co-régulés peuvent être reliés fonctionnellement, la méthode peut permettre d'identifier la fonction putative de certains gènes.
Selon un mode de réalisation préféré, le procédé d'identification d'une relation comporte également une étape dans laquelle les classes obtenues dans la répartition optimale sont ordonnées.
Pour cela, chaque classe de la répartition optimale est associée de manière biunivoque à une valeur de la grandeur représentative. De ce fait, une telle valeur est une valeur synthétique qui résume la classe considérée.
Une telle association est obtenue par différentes méthodes.
Par exemple, il est choisi la variable la plus significative dans la classe selon un critère, un tel critère pouvant être la centralité ou le degré de connectivité aux autres sommets.
Selon un autre exemple, il est proposé d'utiliser une méthode de réduction de la dimensionnalité de la classe pour en déduire une valeur synthétique. L'analyse en composantes principales est un exemple d'une telle méthode de réduction de dimensionnalité de la classe.
Selon encore un autre exemple, la valeur synthétique est une fonction des grandeurs représentatives de chaque variable de la classe.
Par exemple, chaque classe de la répartition optimale est associée à la valeur moyenne de l'ensemble des grandeurs représentatives des sommets que comporte la classe considérée. La valeur moyenne est, par exemple, une valeur moyenne arithmétique, une valeur moyenne géométrique ou une valeur moyenne pondérée par des coefficients liés à l'intensité des corrélations entre les sommets considérés.De préférence, la fonction est une fonction linéaire.
Selon un autre mode de réalisation, il est également possible de mettre en œuvre de la régression pour modéliser la grandeur représentative à partir des classes de variables elles-mêmes et de sélectionner les classes ou les variables les plus significatives dans le modèle.
Cela permet de faciliter l'exploitation de la répartition optimale et du graphe optimal obtenus à l'issue de la mise en œuvre du procédé d'identification d'une relation.
En outre, cela rend également le procédé d'identification d'une relation exploitable pour la mise en œuvre d'autres procédés illustrés en référence aux ordinogrammes des figures 7, 8 et 9.
De tels procédés peuvent également être mis en œuvre à l'aide du système 10 proposé à la figure 1 pourvu d'adapter les instructions de programme du produit programme d'ordinateur pour que, lorsque le programme d'ordinateur est mis en œuvre sur l'unité de traitement des données, le programme d'ordinateur entraîne la mise en œuvre du procédé considéré.
Parmi les procédés proposés, en référence à la figure 7, il est considéré un procédé d'identification d'une cible thérapeutique pour la prévention et/ou le traitement d'une pathologie. Un tel procédé d'identification d'une cible thérapeutique exploite le fait que le procédé d'identification d'une relation permet notamment d'identifier, parmi plusieurs milliers de gènes, d'ARN ou de protéines par exemple, ceux qui sont exprimés de façon différentielle entre un tissu sain et un tissu malade et donc impliqués dans le développement d'une maladie.
Par cible thérapeutique d'une pathologie, il est entendu tout élément biologique sur lequel il est possible d'agir pour prévenir et/ou traiter cette pathologie. La cible thérapeutique peut en particulier être un gène ou un produit de l'expression d'un gène. Par exemple, le produit de l'expression d'un gène est un ARN, en particulier un ARN messager ou une protéine.
Le procédé d'identification d'une cible thérapeutique comporte une première étape 100 de mise en œuvre du procédé d'identification d'une relation tel que précédemment décrit pour le cas où les éléments physiques sont des gènes, la pluralité d'individus est une pluralité d'individus biologiques souffrant de la pathologie et la grandeur représentative est la quantification de l'expression d'au moins un gène de la pluralité d'individus. Une telle première étape 100 de mise en œuvre du procédé d'identification d'une relation permet notamment d'obtenir une répartition optimale, dite première répartition R1 , comportant des premières classes CI ,, i étant un entier variant entre 1 et le nombre de classes de la première répartition R1 , dans lesquelles sont répartis les sommets représentatifs des gènes.
La première étape 100 de mise en œuvre du procédé d'identification d'une cible comporte une sous-étape dans laquelle les premières classes CI , obtenues dans la première répartition R1 sont ordonnées, afin d'obtenir une première répartition R1 dans laquelle chaque première classe CI , est associée de manière biunivoque à une première valeur Z1 , de la grandeur représentative.
Le procédé d'identification d'une cible thérapeutique comporte également une deuxième étape 1 10 de mise en œuvre du procédé d'identification d'une relation tel que précédemment décrit pour le cas où les éléments physiques sont des gènes, la pluralité d'individus est une pluralité d'individus biologiques ne souffrant pas de la pathologie et la grandeur représentative est la quantification de l'expression d'au moins un gène de la pluralité d'individus. Une telle deuxième étape 1 10 de mise en œuvre du procédé d'identification d'une relation permet notamment d'obtenir une répartition optimale, dite deuxième répartition R2, comportant des deuxièmes classes C2j; j étant un entier variant entre 1 et le nombre de classes de la deuxième répartition R2, dans lesquelles sont répartis les sommets représentatifs des gènes.
La deuxième étape 1 10 de mise en œuvre du procédé d'identification d'une cible comporte une sous-étape dans laquelle les deuxièmes classes C2j obtenues dans la deuxième répartition R2 sont ordonnées, afin d'obtenir une deuxième répartition R2 dans laquelle chaque deuxième classe C2j est associée de manière biunivoque à une deuxième valeur Z2j de la grandeur représentative.
De préférence, les première et deuxième étapes 100 et 1 10 de mise en œuvre du procédé d'identification d'une relation sont mises en œuvre simultanément pour diminuer le temps de mise en œuvre du procédé d'identification d'une cible thérapeutique. Cela est indiqué sur la figure 7 par le fait que les deux étapes 100 et 1 10 de mise en œuvre du procédé d'identification d'une relation se trouvent au même niveau.
Le procédé d'identification d'une cible thérapeutique comporte également une étape 120 de comparaison de la première répartition R1 et la deuxième répartition R2.
Le procédé d'identification d'une cible thérapeutique comporte aussi une étape
130 de sélection comme cible thérapeutique d'un gène ou d'un produit de l'expression du gène. Le gène ou le produit de l'expression du gène est sélectionné lorsqu'une condition est vérifiée. Le sommet représentatif du gène dans la première répartition R1 appartient à une première classe C1 i0 où iO désigne le numéro de la classe. Ladite première classe C1 ,0 est associée à une première valeur Z1 i0. Le sommet représentatif du gène dans la deuxième répartition R1 appartient à une deuxième classe C2j0 où jO désigne le numéro de la classe. Ladite deuxième classe C2j0 est associée à une deuxième valeur Z2j0. La condition de sélection du gène ou du produit de l'expression du gène est vérifiée lorsque la première valeur Z1 i0 diffère significativement de la deuxième valeur Z2j0.
Il est entendu par l'expression « diffèrent significativement » que la deuxième valeur Z2j0 diffère de la première valeur Z1 i0 de plus de 1 % de la première valeur Z1 i0, de préférence de plus de 5% de la première valeur Z1 i0 et préférentiellement de plus de 10% de la première valeur Z1 i0.
Le procédé d'identification d'une cible thérapeutique permet notamment de déterminer une cible avec efficacité.
Parmi les procédés proposés, en référence à la figure 8, il est également considéré un procédé d'identification d'un biomarqueur diagnostique, de susceptibilité, pronostique d'une pathologie ou prédictif d'une réponse à un traitement d'une pathologie. Le biomarqueur peut en particulier être un gène ou un produit de l'expression d'un gène. Par exemple, le produit de l'expression d'un gène est un ARN, en particulier un ARN messager ou une protéine.
Le procédé d'identification d'un biomarqueur comporte une première étape 200 de mise en œuvre du procédé d'identification d'une relation tel que précédemment décrit pour le cas où les éléments physiques sont des gènes, la pluralité d'individus est une pluralité d'individus biologiques souffrant de la pathologie et la grandeur représentative est la quantification de l'expression d'au moins un gène de la pluralité d'individus. Une telle première étape 200 de mise en œuvre du procédé d'identification d'une relation permet notamment d'obtenir une répartition optimale, dite première répartition R1 , comportant des premières classes CI ,, i étant un entier variant entre 1 et le nombre de classes de la première répartition R1 , dans lesquelles sont répartis les sommets représentatifs des gènes.
La première étape 200 de mise en œuvre du procédé d'identification d'un biomarqueur comporte une sous-étape dans laquelle les premières classes C1 , obtenues dans la première répartition R1 sont ordonnées, afin d'obtenir une première répartition R1 dans laquelle chaque première classe C1 , est associée de manière biunivoque à une première valeur Z1 , de la grandeur représentative.
Le procédé d'identification d'un biomarqueur comporte également une deuxième étape 210 de mise en œuvre du procédé d'identification d'une relation tel que précédemment décrit pour le cas où les éléments physiques sont des gènes, la pluralité d'individus est une pluralité d'individus biologiques ne souffrant pas de la pathologie et la grandeur représentative est la quantification de l'expression d'au moins un gène de la pluralité d'individus. Une telle deuxième étape 210 de mise en œuvre du procédé d'identification d'une relation permet notamment d'obtenir une répartition optimale, dite deuxième répartition R2, comportant des deuxièmes classes C2j; j étant un entier variant entre 1 et le nombre de classes de la deuxième répartition R2, dans lesquelles sont répartis les sommets représentatifs des gènes.
La deuxième étape 210 de mise en œuvre du procédé d'identification d'une relation comporte une sous-étape dans laquelle les deuxièmes classes C2j obtenues dans la deuxième répartition R2 sont ordonnées, afin d'obtenir une deuxième répartition R2 dans laquelle chaque deuxième classe C2 est associée de manière biunivoque à une deuxième valeur Z2 de la grandeur représentative.
De préférence, les première et deuxième étapes 200 et 210 de mise en œuvre du procédé d'identification d'une relation sont mises en œuvre simultanément pour diminuer le temps de mise en œuvre du procédé d'identification d'un biomarqueur. Cela est indiqué sur la figure 8 par le fait que les deux étapes 200 et 210 de mise en œuvre du procédé d'identification d'une relation se trouvent au même niveau.
Le procédé d'identification d'un biomarqueur comporte également une étape 220 de comparaison de la première répartition R1 et la deuxième répartition R2.
Le procédé d'identification d'un biomarqueur comporte aussi une étape 230 de sélection comme biomarqueur d'un gène ou d'un produit de l'expression du gène. Le gène ou le produit de l'expression du gène est sélectionné lorsqu'une condition est vérifiée. Le sommet représentatif du gène dans la première répartition R1 appartient à une première classe C1 i0 où iO désigne le numéro de la classe. Ladite première classe C1 ,0 est associée à une première valeur Z1 i0. Le sommet représentatif du gène dans la deuxième répartition R1 appartient à une deuxième classe C2j0 où jO désigne le numéro de la classe. Ladite deuxième classe C2j0 est associée à une deuxième valeur Z2j0. La condition de sélection du gène ou du produit de l'expression du gène est vérifiée lorsque la première valeur Z1 i0 diffère significativement de la deuxième valeur Z2j0.
Il est entendu par l'expression « diffèrent significativement » que la deuxième valeur Z2j0 diffère de la première valeur Z1 i0 de plus de 1 % de la première valeur Z1 i0, de préférence de plus de 5% de la première valeur Z1 i0 et préférentiellement de plus de 10% de la première valeur Z1 i0.
Le procédé d'identification d'un biomarqueur permet notamment de déterminer un biomarqueur avec efficacité.
Parmi les procédés proposés, en référence à la figure 9, il est également considéré un procédé de criblage d'un composé utile comme médicament, ayant un effet sur une cible thérapeutique connue, pour la prévention et/ou le traitement d'une pathologie. Un tel procédé de criblage d'un composé exploite le fait que le procédé d'identification d'une relation permet d'identifier, parmi plusieurs milliers de gènes, d'ARN, ou de protéines par exemple, ceux qui sont exprimés de façon différentielle en présence ou en l'absence d'un composé destiné à traiter une maladie.
Le procédé d'identification de criblage comporte une première étape 300 de mise en œuvre du procédé d'identification d'une relation tel que précédemment décrit pour le cas où la pluralité d'individus est une pluralité d'individus biologiques souffrant de la pathologie et ayant reçu le composé, la grandeur représentative est la quantification de l'expression d'au moins un gène de la pluralité d'individus et les données comprennent la grandeur représentative de la cible thérapeutique connue. Selon les cas, la cible thérapeutique peut être un gène ou un produit de l'expression d'un gène. Lorsque la cible thérapeutique est un gène, les éléments physiques sont des gènes. Lorsque la cible thérapeutique est le produit de l'expression d'un gène, les éléments physiques sont le même produit de l'expression d'un gène. A titre d'exemple, lorsque la cible thérapeutique est un ARN, les éléments physiques sont des ARN. Selon un autre exemple, lorsque la cible thérapeutique est une protéine, les éléments physiques sont des protéines.
Une telle première étape 300 de mise en œuvre du procédé d'identification d'une relation permet notamment d'obtenir une répartition optimale, dite première répartition R1 , comportant des premières classes CI ,, i étant un entier variant entre 1 et le nombre de classes de la première répartition R1 , dans lesquelles sont répartis les sommets représentatifs des gènes.
La première étape 300 de mise en œuvre du procédé d'identification d'une relation comporte une sous-étape dans laquelle les premières classes C1 , obtenues dans la première répartition R1 sont ordonnées, afin d'obtenir une première répartition R1 dans laquelle chaque première classe C1 , est associée de manière biunivoque à une première valeur Z1 , de la grandeur représentative.
Le procédé de criblage comporte également une deuxième étape 310 de mise en œuvre du procédé d'identification d'une relation tel que précédemment décrit pour le cas où la pluralité d'individus est une pluralité d'individus biologiques souffrant de ladite pathologie et n'ayant pas reçu ledit composé, la grandeur représentative est la quantification de l'expression d'au moins un gène de la pluralité d'individus et les données comprennent la grandeur représentative de la cible thérapeutique connue. Selon les cas, la cible thérapeutique peut être un gène ou un produit de l'expression d'un gène. Lorsque la cible thérapeutique est un gène, les éléments physiques sont des gènes. Lorsque la cible thérapeutique est le produit de l'expression d'un gène, les éléments physiques sont le même produit de l'expression d'un gène. A titre d'exemple, lorsque la cible thérapeutique est un ARN, les éléments physiques sont des ARN. Selon un autre exemple, lorsque la cible thérapeutique est une protéine, les éléments physiques sont des protéines.
Une telle deuxième étape 310 de mise en œuvre du procédé d'identification d'une relation permet notamment d'obtenir une répartition optimale, dite deuxième répartition R2, comportant des deuxièmes classes C2j; j étant un entier variant entre 1 et le nombre de classes de la deuxième répartition R2, dans lesquelles sont répartis les sommets représentatifs des gènes.
La deuxième étape 310 de mise en œuvre du procédé d'identification d'une relation comporte une sous-étape dans laquelle les deuxièmes classes C2 obtenues dans la deuxième répartition R2 sont ordonnées, afin d'obtenir une deuxième répartition R2 dans laquelle chaque deuxième classe C2 est associée de manière biunivoque à une deuxième valeur Z2 de la grandeur représentative.
De préférence, les première et deuxième étapes 300 et 310 de mise en œuvre du procédé d'identification d'une relation sont mises en œuvre simultanément pour diminuer le temps de mise en œuvre du procédé de criblage. Cela est indiqué sur la figure 9 par le fait que les deux étapes 300 et 310 de mise en œuvre du procédé d'identification d'une relation se trouvent au même niveau.
Le procédé de criblage comporte également une étape 320 de comparaison de la première répartition R1 et la deuxième répartition R2.
Le procédé de criblage comporte aussi une étape 230 de sélection d'un composé susceptible d'être utilisé comme médicament. Le composé est sélectionné lorsqu'une condition est vérifiée. Le sommet représentatif de la cible thérapeutique connue dans la première répartition R1 appartient à une première classe C1 i0 où iO désigne le numéro de la classe. Ladite première classe C1 i0 est associée à une première valeur Z1 i0. Le sommet représentatif de la cible thérapeutique connue dans la deuxième répartition R1 appartient à une deuxième classe C2j0 où jO désigne le numéro de la classe. Ladite deuxième classe C2j0 est associée à une deuxième valeur Z2j0. La condition de sélection du composé est vérifiée lorsque la première valeur Z1 i0 diffère significativement de la deuxième valeur Z2j0.
II est entendu par l'expression « diffèrent significativement » que la deuxième valeur Z2j0 diffère de la première valeur Z1 i0 de plus de 1 % de la première valeur Z1 i0, de préférence de plus de 5% de la première valeur Z1 i0 et préférentiellement de plus de 10% de la première valeur Z1 i0.
Le procédé de criblage permet notamment de cribler un composé susceptible d'être utilisé comme médicament avec efficacité. Chacun des procédés proposés peut être mis en l'œuvre à l'aide d'un ordinateur quelconque ou tout autre type de dispositif. De multiples systèmes peuvent être utilisés avec des programmes mettant en œuvre les procédés précédents mais il est également envisageable d'utiliser des appareils dédiés à la mise en œuvre des procédés précédents, ceux-ci pouvant s'insérer dans les dispositifs propres à mesurer les données fournies. De plus, les modes de réalisation proposés ne sont pas reliés à un langage de programmation particulier. Incidemment, cela implique que de multiples langage de programmation peuvent être utilisés pour mettre en œuvre un des procédés précédemment détaillés.
Les procédés et modes de réalisations décrits ci-dessus sont aptes à être combinés les uns aux autres, totalement ou partiellement, pour donner lieu à d'autres modes de réalisation de l'invention.

Claims

REVENDICATIONS
1 . - Procédé d'identification d'une relation entre des éléments biologiques, lesdits éléments biologiques présentant éventuellement une activité mesurable, le procédé étant mis en œuvre par ordinateur et comprenant les étapes suivantes :
- fournir des données à partir d'échantillons biologiques d'une pluralité d'individus biologiques, les données comprenant une grandeur représentative des éléments biologiques ou de leur activité pour la pluralité d'individus biologiques,
- estimer la matrice de covariance entre les différentes grandeurs représentatives des éléments biologiques ou de leur activité à partir des données fournies,
- associer un graphe à une valeur de seuillage, le graphe associé comprenant des sommets représentatifs des éléments biologiques et des liens entre les sommets lorsque la valeur de la covariance entre les sommets considérés est supérieure à la valeur de seuillage considérée,
- obtenir des cœurs par analyse de l'évolution des graphes par utilisation d'une pluralité de valeurs de seuillage, un cœur étant un ensemble de sommets d'un graphe tel que le nombre de sommets est supérieur ou égal à un nombre fixé, tel qu'il existe une valeur de seuillage pour laquelle le cœur est une composante connexe du graphe associé à la valeur de seuillage et tel qu'il n'existe pas d'autres composantes connexes d'un graphe dont le nombre de sommets est supérieur ou égal au nombre fixé et qui soit incluse dans le cœur,
- définir des graphes candidats, chaque graphe candidat étant un graphe associé à une des valeurs de seuillage de la pluralité de valeurs de seuillage,
- pour chaque valeur de seuillage de la pluralité de valeurs de seuillage, obtenir une répartition associée par optimisation de la répartition en classes des sommets du graphe associé à la valeur de seuillage considérée, l'optimisation partant d'une répartition initiale dans laquelle à chaque cœur est associé une classe pour obtenir une répartition finale dans laquelle chaque sommet d'une classe partage plus de liens avec les autres sommets de la même classe qu'avec les sommets d'une autre classe,
- sélectionner un graphe optimal parmi la pluralité de graphes candidats selon au moins un critère.
2. - Procédé selon la revendication 1 , dans lequel à l'étape d'obtenir des cœurs, les valeurs de la pluralité de valeurs de seuillage sont utilisées de manière croissante.
3.- Procédé selon la revendication 1 ou 2, dans lequel à l'étape d'obtenir une répartition associée, les valeurs de la pluralité de valeurs de seuillage sont utilisées de manière décroissante.
4.- Procédé selon l'une quelconque des revendications 1 à 3, dans lequel l'étape d'estimer la matrice de covariance comporte une sous-étape de calcul de la matrice de covariance empirique, une sous-étape de régularisation et une sous-étape de normalisation.
5.- Procédé selon l'une quelconque des revendications 1 à 4, dans lequel l'étape d'obtenir des cœurs met en œuvre un algorithme de parcours en profondeur.
6. - Procédé selon l'une quelconque des revendications 1 à 5, dans lequel la répartition finale comporte moins de classes que le nombre de cœurs obtenus.
7. - Procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 6, dans lequel le nombre d'éléments biologiques est supérieur ou égal à 1000, de manière préférentielle supérieur ou égal à 3000, de manière encore plus préférentielle supérieur ou égal à 5000.
8. - Procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 7, dans lequel le rapport entre le nombre d'éléments biologiques et le nombre d'individus biologiques est supérieur ou égal à 10, de manière préférentielle supérieur ou égal à 30, de manière encore plus préférentielle supérieur ou égal à 50.
9. - Procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 8, dans lequel les éléments biologiques sont des gènes, des ARN, des protéines ou des métabolites.
10. - Procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 9, dans lequel les individus biologiques sont des animaux, de manière préférentielle des mammifères, de manière encore plus préférentielle des humains.
1 1 .- Procédé d'identification d'une cible thérapeutique pour la prévention et/ou le traitement d'une pathologie, le procédé comprenant les étapes suivantes : - mettre en œuvre le procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 10, la pluralité d'individus étant une pluralité d'individus biologiques souffrant de ladite pathologie et la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, pour obtenir une première répartition dans laquelle chaque première classe est associée de manière biunivoque à une première valeur de la grandeur représentative,
- mettre en œuvre le procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 10, la pluralité d'individus étant une pluralité d'individus biologiques ne souffrant pas de ladite pathologie et la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, pour obtenir une deuxième répartition dans laquelle chaque deuxième classe est associée de manière biunivoque à une deuxième valeur de la grandeur représentative,
- comparer la première répartition et la deuxième répartition, et
- sélectionner comme cible thérapeutique le gène, ou un produit de l'expression du gène, si les sommets représentatifs dudit gène appartiennent à une première classe et à une deuxième classe dont la première valeur et la deuxième valeur diffèrent significativement.
12.- Procédé d'identification d'un biomarqueur diagnostique, de susceptibilité, pronostique d'une pathologie ou prédictif d'une réponse à un traitement d'une pathologie, le procédé comprenant les étapes suivantes :
- mettre en œuvre le procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 10, la pluralité d'individus étant une pluralité d'individus biologiques souffrant de ladite pathologie et la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, pour obtenir une première répartition dans laquelle chaque première classe est associée de manière biunivoque à une première valeur de la grandeur représentative,
- mettre en œuvre le procédé selon l'une quelconque des revendications 1 à 10, la pluralité d'individus étant une pluralité d'individus biologiques ne souffrant pas de ladite pathologie et la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, pour obtenir une deuxième répartition dans laquelle chaque deuxième classe est associée de manière biunivoque à une deuxième valeur de la grandeur représentative,
- comparer la première répartition et la deuxième répartition, et - sélectionner comme biomarqueur le gène, ou une expression du gène, si les sommets représentatifs dudit gène appartiennent à une première classe et à une deuxième classe dont la première valeur et la deuxième valeur diffèrent significativement.
13.- Procédé de criblage d'un composé utile comme médicament, ayant un effet sur une cible thérapeutique connue, pour la prévention et/ou le traitement d'une pathologie, le procédé comprenant les étapes suivantes :
- mettre en œuvre le procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 10, la pluralité d'individus étant une pluralité d'individus biologiques souffrant de ladite pathologie et ayant reçu ledit composé, la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, et les données comprenant la grandeur représentative de la cible thérapeutique, pour obtenir une première répartition dans laquelle chaque première classe est associée de manière biunivoque à une première valeur de la grandeur représentative,
- mettre en œuvre le procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 10, la pluralité d'individus étant une pluralité d'individus biologiques souffrant de ladite pathologie et n'ayant pas reçu ledit composé, la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, et les données comprenant la grandeur représentative de la cible thérapeutique, pour obtenir une deuxième répartition dans laquelle chaque deuxième classe est associée de manière biunivoque à une deuxième valeur de la grandeur représentative,
- comparer la première répartition et la deuxième répartition, et
- sélectionner le composé si les sommets représentatifs de la cible thérapeutique connue appartiennent à une première classe et à une deuxième classe dont la première valeur et la deuxième valeur diffèrent significativement.
14.- Produit programme d'ordinateur comportant un support lisible d'informations, sur lequel est mémorisé un programme d'ordinateur comprenant des instructions de programme, le programme d'ordinateur étant chargeable sur une unité de traitement de données et adapté pour entraîner la mise en œuvre d'un procédé selon l'une quelconque des revendications 1 à 13 lorsque le programme d'ordinateur est mis en œuvre sur l'unité de traitement des données.
PCT/EP2015/060779 2014-05-28 2015-05-15 Procede d'identification d'une relation entre des elements biologiques WO2015180972A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP15722538.4A EP3149638A1 (fr) 2014-05-28 2015-05-15 Procede d'identification d'une relation entre des elements biologiques
US15/314,326 US20170154151A1 (en) 2014-05-28 2015-05-15 Method of identification of a relationship between biological elements

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1454889A FR3021776A1 (fr) 2014-05-28 2014-05-28 Procede d'identification d'une relation entre des elements physiques
FR1454889 2014-05-28

Publications (1)

Publication Number Publication Date
WO2015180972A1 true WO2015180972A1 (fr) 2015-12-03

Family

ID=52473975

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2015/060779 WO2015180972A1 (fr) 2014-05-28 2015-05-15 Procede d'identification d'une relation entre des elements biologiques

Country Status (4)

Country Link
US (1) US20170154151A1 (fr)
EP (1) EP3149638A1 (fr)
FR (1) FR3021776A1 (fr)
WO (1) WO2015180972A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111028883A (zh) * 2019-11-20 2020-04-17 广州达美智能科技有限公司 基于布尔代数的基因处理方法、装置及可读存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10019342B2 (en) * 2015-12-24 2018-07-10 Intel Corporation Data flow programming of computing apparatus with vector estimation-based graph partitioning
US11367509B2 (en) 2017-06-13 2022-06-21 Bostongene Corporation Systems and methods for generating, visualizing and classifying molecular functional profiles
KR101963331B1 (ko) * 2017-06-22 2019-03-28 한국과학기술원 인체 대사 물질과의 유사도 기반 약물 재창출 후보 예측 방법 및 그 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030023388A1 (en) * 2001-05-07 2003-01-30 Andreas Wagner System and method for reconstructing pathways in large genetic networks from genetic perturbations
US20030219764A1 (en) * 2001-09-26 2003-11-27 Seiya Imoto Biological discovery using gene regulatory networks generated from multiple-disruption expression libraries
US20130151452A1 (en) * 2010-05-19 2013-06-13 The Regents Of The University Of California Systems and Methods for Identifying Drug Targets Using Biological Networks

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8271414B2 (en) * 2009-07-24 2012-09-18 International Business Machines Corporation Network characterization, feature extraction and application to classification

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030023388A1 (en) * 2001-05-07 2003-01-30 Andreas Wagner System and method for reconstructing pathways in large genetic networks from genetic perturbations
US20030219764A1 (en) * 2001-09-26 2003-11-27 Seiya Imoto Biological discovery using gene regulatory networks generated from multiple-disruption expression libraries
US20130151452A1 (en) * 2010-05-19 2013-06-13 The Regents Of The University Of California Systems and Methods for Identifying Drug Targets Using Biological Networks

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111028883A (zh) * 2019-11-20 2020-04-17 广州达美智能科技有限公司 基于布尔代数的基因处理方法、装置及可读存储介质

Also Published As

Publication number Publication date
EP3149638A1 (fr) 2017-04-05
FR3021776A1 (fr) 2015-12-04
US20170154151A1 (en) 2017-06-01

Similar Documents

Publication Publication Date Title
Song et al. A split-and-merge Bayesian variable selection approach for ultrahigh dimensional regression
Si et al. Model-based clustering for RNA-seq data
Ahdesmäki et al. Feature selection in omics prediction problems using cat scores and false nondiscovery rate control
Boulesteix et al. Microarray-based classification and clinical predictors: on combined classifiers and additional predictive value
Blanco-Bercial Metabarcoding analyses and seasonality of the zooplankton community at BATS
WO2015180972A1 (fr) Procede d'identification d'une relation entre des elements biologiques
Fu et al. Gaussian mixture model with feature selection: An embedded approach
Reeb et al. Assessing dissimilarity measures for sample-based hierarchical clustering of RNA sequencing data using plasmode datasets
US20210090686A1 (en) Single cell rna-seq data processing
US20200227134A1 (en) Drug Efficacy Prediction for Treatment of Genetic Disease
Feher et al. Cell population identification using fluorescence-minus-one controls with a one-class classifying algorithm
Fung et al. Automation of QIIME2 metagenomic analysis platform
US20130304783A1 (en) Computer-implemented method for analyzing multivariate data
Wang et al. Integrating full spectrum of sequence features into predicting functional microRNA–mRNA interactions
Morovvat et al. An ensemble of filters and wrappers for microarray data classification
FR2943156A1 (fr) Procede d'elaboration d'un dispositif de prediction, utilisation, support de stockage d'information et appareil correspondants.
WO2007036668A1 (fr) Procede pour determiner l'etat d'un ensemble de cellules et systeme pour la mise en oeuvre dudit procede
Landau et al. Fully Bayesian analysis of RNA-seq counts for the detection of gene expression heterosis
JP4069208B2 (ja) 遺伝子相互作用推定方法、遺伝子相互作用推定プログラム、及び遺伝子相互作用推定装置、並びに、結合サイト推定方法、結合サイト推定プログラム、及び結合サイト推定装置
FR3116633A1 (fr) Procédé de mesure de l’interaction entre au moins deux entités biomédicales et dispositifs associés
Papana et al. CART variance stabilization and regularization for high-throughput genomic data
CN111913999B (zh) 基于多组学与临床数据的统计分析方法、系统和存储介质
US20230077504A1 (en) Determining scores indicative of times to events from biomedical images
De Ridder et al. Maximum significance clustering of oligonucleotide microarrays
Gao et al. DreamDIA-XMBD: deep representation features improve the analysis of data-independent acquisition proteomics

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15722538

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 15314326

Country of ref document: US

REEP Request for entry into the european phase

Ref document number: 2015722538

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2015722538

Country of ref document: EP