WO2009089890A1 - Device and method for determining a pharmaceutical activity of a molecule - Google Patents

Device and method for determining a pharmaceutical activity of a molecule Download PDF

Info

Publication number
WO2009089890A1
WO2009089890A1 PCT/EP2008/010779 EP2008010779W WO2009089890A1 WO 2009089890 A1 WO2009089890 A1 WO 2009089890A1 EP 2008010779 W EP2008010779 W EP 2008010779W WO 2009089890 A1 WO2009089890 A1 WO 2009089890A1
Authority
WO
WIPO (PCT)
Prior art keywords
molecule
feature
domain
determining
molecules
Prior art date
Application number
PCT/EP2008/010779
Other languages
German (de)
French (fr)
Inventor
Tamas Horvath
Thomas Gärtner
Stefan Wrobel
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority to EP08870846A priority Critical patent/EP2232395A1/en
Publication of WO2009089890A1 publication Critical patent/WO2009089890A1/en

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • G16C20/64Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Definitions

  • the present invention relates to an apparatus and method for determining a pharmaceutical activity of a molecule, and more particularly to an atomic cycle tree molecular fingerprint (ACT).
  • ACT atomic cycle tree molecular fingerprint
  • each event is represented by a graph.
  • each vertex and each compound is assigned a label specifying, for example, the atom type or type of atom and the type of binding.
  • a disadvantage of the known art is that the methods shown there have only a very limited predictive power in terms of the activity of molecules, which, given the considerable number of available molecules, means an enormous overhead in biological tests. In order to provide the most efficient method, it is of enormous importance to find out a set of features for those molecules in the drugs to be designed for which pharmaceutical activity can be expected.
  • the present invention has the object to provide an apparatus and a method for determining a pharmaceutical activity of a molecule whose predictive ability is significantly increased, so that the cost of performing biological tests is significantly reduced.
  • the present invention is based on the finding that the pharmaceutical activity of a molecule can be determined by atomic structures which form the molecule and, in addition to the atoms themselves, in particular also their neighboring atoms, can be determined.
  • the atomic structures can thus individual Atoms as well as groups of atoms and the molecule can be represented by the totality of the occurring atomic structures.
  • To determine the pharmaceutical activity the atomic structures or their characteristics for a molecule are combined in a feature vector.
  • the feature vector can then be examined, for example, using a support vector machine with regard to the expected pharmaceutical activity.
  • the examination can preferably be done by means of graphs, the graph having vertices and edges (connecting lines between vertices).
  • a graph is assigned to each molecule, the vertices representing the atoms and edges of the (chemical) compounds.
  • the atoms or atomic species can be marked by labels on the vertices.
  • the graph of the molecule is optionally examined in terms of how many and what kind of closed cycles (closed loops in a graph) are formed in the graph and through which bridges the
  • Cycles are interconnected.
  • the cycles therefore describe closed paths along edges of a graphene that do not intersect themselves.
  • the occurring cycles and bridges can in turn be associated with corresponding labels which serve as further components in the
  • Feature vector recorded.
  • the type of binding between the atoms or between the cycles in the feature vector may be included as a feature.
  • a device for determining a pharmaceutical activity of a molecule initially has a device for determining atomic structures occurring in the molecule on. Furthermore, the apparatus comprises means for assigning a feature index, wherein the feature index is assigned to one of the occurring atomic structures in the molecule depending on the respective atomic structure and the vicinity of the respective atomic structure in the molecule. The apparatus also includes means for determining a feature vector for the molecule, wherein the feature vector depends on the assigned feature index and the feature vector points to a point in a feature space, the feature space corresponding to a first domain corresponding to pharmaceutically active molecules and a second Domain, which corresponds to pharmaceutically inactive molecules has. Finally, the device has a device for determining an affiliation of the point to the first domain or the second domain.
  • the feature vector as a binary vector having components that signal either the presence or absence of a feature.
  • a particular entry for a vector component of the feature vector may correspond to the presence of the particular feature (eg, a particular atomic type such as hydrogen) and a different entry to the lack of that feature type.
  • a multiplicity into the feature vector which, for example, denotes the number of a particular feature (eg the number of atomic structures such as, for example, of cycles) in the present graph.
  • the algorithm is based on the two-dimensional graphene structure given by the atoms and the bonds for the chemical compound that constitutes the molecule.
  • the pharmaceutical activity may relate to a change in a clinical picture with regard to a disease to be treated or to the cosmetic sector (influencing or altering of biological tissue).
  • the algorithm incorporates two separate sets of chemical compounds, of which:
  • the algorithm provides a real-valued function that predicts the activity of the molecule belonging to the set U.
  • the value of the function indicates the likelihood that an activity of the molecule will be expected - for example, the higher the function value, the higher the likelihood that the compound will be active in the disease.
  • a method comprises the following steps: (i) For each chemical compound M from the union of A and U (AUU), an undirected graph G M representing the atomic bond structure of M is calculated as follows. For each atom a of M, the corresponding vertex v a of G M is labeled with a pair consisting of a pair (Li, L 2 ), where Li is the atomic type of A and L 2 is a plurality of types of atoms adjacent to a Represents atoms. The union of all these datasets (all labels) calculated for each molecule in the union of A and U is denoted F ATOM . Further, each compound E in the graph G M may be provided with another label, the further label having the type of connection (the present atomic bond, for example) of E.
  • a set of two-connected components and a set of bridges can then be formed.
  • Two-connected components refer to subgraphs (subgraphs) formed by edges belonging to cycles.
  • bridges denote a subgraph formed by edges, the edges not belonging to a cycle.
  • the cycles are listed and each cycle is uniquely assigned a string except isomorphisms.
  • the string corresponds to a series of labels that identify the cycle (number and type of atoms, connection type, etc.).
  • the set of strings represents a set of cycles of the molecule or molecules in the union of A and U and is denoted by F CYCLE .
  • the set of bridges is also referred to as forest (ie the non-contiguous union of trees). Similar to the cycles, each tree in the forest is uniquely assigned a string except for isomorphisms, where the set of strings assigned to the trees is for the molecules in the union of A and U are called F TREE .
  • F CYCL E and F TREE A representation of how F CYCL E and F TREE can be calculated for general graphs is described, for example, in T. Horvath, T. Gärtner and S. Wrobel: "Cyclic pattern kernel for predictive graph mining" in Proc. Of the 10th ACM SIGKDD Int. Conf. On Knowledge Discovery and Data Mining, pages 158-167, 2004.
  • F M ⁇ fe F: f represents a subgraph of M ⁇ .
  • F M is a sentence, it can be understood as a Boolean vector in a high-dimensional space, where the high-dimensional space is also referred to as a feature space corresponding to F.
  • a hypersurface can then be calculated that separates the active and inactive links from A into the feature space described above.
  • the prediction function f can be used as follows: The function value of the function f gives a Prediction of activity for each molecule from set U. By comparing the function values belonging to different molecules, the N molecules corresponding to a highest predictive value are determined. Thus, f provides those molecules for which pharmaceutical activity is most likely to be expected. Accordingly, a ranking of molecules can be established wherein possible in vitro assays can be performed in the rank order so that initially only biological assays are performed on promising molecules and neglecting those molecules for which the simulation provides no evidence of a pharmaceutical activity.
  • embodiments of the present invention provide an apparatus and method for selecting or screening a large number of molecules for promising candidates and less promising candidates so that resources are not wasted on tests that are unlikely to succeed.
  • the number of potential molecules or constituents that can be taken up in medicines can clearly exceed the one million mark, it is particularly important to perform only in vitro tests on molecules or chemical compounds that expect a significant pharmaceutical activity and ignore all molecules that promise no indication of pharmaceutical activity.
  • Fig. 1 is a schematic representation of an embodiment of the present invention
  • Fig. 3 shows an example of a feature vector constructed from binary components
  • Fig. 4 is a part of a feature vector identifying an atom and its neighbors
  • Figures 5A, 5B are a representation of the feature space with different molecules separated by a domain boundary
  • Figs. 6A, 6B are graphs for undirected graphs.
  • FIG. 7 shows an example of a representation of a chemical compound in the form of a graph.
  • FIG. 1 shows an apparatus for determining a pharmaceutical activity of a molecule, the apparatus comprising means 110 for determining atomic structures of a molecule, means 120 for assigning a feature index MI, wherein the Feature index MI depending on the atomic structure and the neighborhood. Furthermore, the device has a device 130 for determining a point, the point being part of a feature clearance MR for the molecule and being dependent on the assigned feature index MI. Finally, the device has a device 140 for determining, wherein an affiliation of the point to a domain of pharmaceutically active molecules is determined.
  • the point in the feature space MR thus characterizes a set of features for the corresponding molecule, wherein a feature vector MV, whose components signal a presence / absence of a certain feature, points to the point in the feature space MR.
  • the feature space MR is often a high-dimensional space whose dimension depends on the number of features related to the characterization of the molecules (eg chemical elements of the individual atoms, chemical bond between the atoms, type and number of cycles and bridges, etc.) ,
  • means 130 for determining is first to use molecules whose pharmaceutical activity (eg, with respect to a disease) is known to determine a first domain in feature space MR, where the first domain is the feature vectors corresponds to molecules whose pharmaceutical activity has been demonstrated. Furthermore, molecules known to have no pharmaceutical activity can be used to identify a second domain in the feature space MR such that feature vectors MV pointing into the second domain correspond to molecules that have no pharmaceutical activity , Following this learning process, a feature vector (with the same number of molecules) can be formed for an unknown molecule and then it can be determined whether or not a pharmaceutical activity is to be expected for the unknown molecule (depending after the feature vector MV points to the first or second domain).
  • FIG. 2 shows an exemplary embodiment for determining a feature vector MV into a molecule.
  • atomic structures of the molecule are first detected.
  • the atomic structures are, on the one hand, the multitude of atoms (chemical elements) that make up the molecule.
  • Other atomic structures include a plurality of atoms, which are combined by chemical bonding into a structure. Examples of this are cycles, bridges (which can, for example, connect zykles), or other atoms that form a group and that occur more frequently in molecules.
  • the acquired atomic structures are processed successively in a subsequent step, i. H. It is first examined for one of the atomic structures, whether this atomic structure is already known, d. H. whether this atomic structure has already been assigned a feature index MI.
  • a feature index MI relates to a specific component of the feature vector MV, to which a specific feature (here: atomic structure) has been assigned. For example, the presence of a carbon atom may be characterized by a particular value in a particular component of the feature vector MV. If, therefore, the atomic structure is already known, the next step is to set the corresponding component in the feature vector MV, which can be done, for example, by setting a flag or assigning a predetermined component.
  • a feature index MI is added and the feature index MI is added to the feature vector MV. This ensures that the feature vector MV successively gets more components, with the additional Components correspond to additional structures in the molecule. So if z. B. a certain Zykel, which may for example comprise six carbon atoms occurs, and so far such Zykel has not yet been indexed, the feature vector MV is extended by a further component, wherein the further component signals the presence of such a cycle.
  • Atomic structures are still in place and if that is the case, in turn, it will first be determined if the more
  • Atomic structure is already known and if so, takes place
  • the procedure is carried out successively until all the atomic structures present in the molecule have been indexed, so that the feature vector MV is linked to the corresponding atomic structure
  • Components (which correspond to atomic structures) e.g. B. has a predetermined value. If no more
  • Atomic structures are present, the algorithm is terminated.
  • the scheme is analogous to the scheme of indexing the atomic structures, ie for each atomic structure the neighboring atomic structures are examined to see if they are already known and if so, a corresponding index is given in the feature vector MV and if not, a new index is added , This ensures that, in addition to the atomic structures themselves, the neighborhood of the atomic structures in the feature vector MV is also indicated.
  • the feature vectors should be the same length and the components should conform to the same characteristics. Therefore, it may be useful to first examine all molecules in terms of their characteristics and set up a feature vector with enough components whose components are then subsequently determined for each molecule.
  • FIG. 3 shows an example of a feature vector MV whose number of components is D, which at the same time also represents the dimension of the feature remainder MR.
  • the feature vector MV here describes, for example, an atomic structure A, an atomic structure B and an atomic structure C, wherein the atomic structure A and the atomic structure B do not occur in the molecule which the feature vector MV describes for FIG. 3, during which the atomic structure C is present. If, as shown in FIG. 2, the algorithm determines an atomic structure for which no component has yet been assigned in the feature vector MV, then, as described above, a new feature index MI is assigned and added to the feature vector MV.
  • an atomic structure Z which until then has not been indexed in the feature vector MV and which is consequently added to the feature vector MV.
  • the dimension of the feature vector MV increases by one dimension.
  • the feature vector MV is a binary vector consisting of 0 components and 1 components, for illustrative purposes only.
  • the presence of a particular feature may be signaled by having the corresponding component (e.g. 3) has a predetermined value during which the absence of the feature can be signaled by any other value of the feature vector MV or, as shown in FIG. 3, no value is assigned to those components Zero is awarded.
  • FIG. 4 shows a feature vector MV in which, in addition to the atomic structure itself (here an atom), the neighborhood of the atomic structure has also been indicated.
  • the atom corresponds to a vertex in the graph and the vertex is assigned two labels, a first label Li, which describes the atomic structure itself, and a second label L 2 , which describes the neighborhood of the atomic structure.
  • first label Li which describes the atomic structure itself
  • second label L 2 which describes the neighborhood of the atomic structure.
  • the pair (Li, L 2 ) can also be coded differently, eg with a single number (eg a positive integer).
  • a single number eg a positive integer.
  • C, O may be labeled with the pair: (C, ⁇ C, C, O ⁇ ) and encoded with a single number (e.g., 142).
  • MV [142] 1 (eg the 142th component is 1) if the molecule has an atom labeled (C, ⁇ C, C, O ⁇ ) (ie an atom C with three neighbors C, C and O).
  • the part of the feature vector MV describing the given atomic structure may look like this.
  • the index Li which describes the atomic structure itself and coded by the sequence (0, 1, 0) appears , e
  • a complex molecule can be described by a binary vector (a string having, for example, "0" and "1" components).
  • Fig. 5A shows an example of a feature space MR, wherein for simplicity, the feature space MR has been given only by two dimensions.
  • the dimension D of the feature space MR is generally very large (often greater than 1000 or greater than 100,000) and is essentially determined by the complexity of the molecules used.
  • the first domain A describes points in the feature space MR that correspond to pharmaceutically active molecules
  • the second domain B includes points in the feature space MR that describe pharmaceutically inactive molecules.
  • the first domain A has five points that correspond to five pharmaceutically active molecules (a1, a2, a3, a4, a5) and that the second domain B comprises four points that contain pharmaceutically inactive molecules (bl, b2, b3, b4).
  • the domain boundary H can be selected in such a way that initially a set of molecules is considered whose pharmaceutical activity is known, ie which are either pharmaceutically active or have been proven to be pharmaceutically inactive.
  • feature vectors MV are set up which correspond to points in the feature space MR and which in FIG. 5 are represented by circles for pharmaceutical active molecules or by crosses for pharmaceutically inactive molecules are shown.
  • the first domain A and the second domain B are separated by the domain boundary H, which is preferably selected such that the distance to the points in the feature space MR whose pharmaceutical activity is known is as large as possible (maximum distance), i. the distance to the domain boundary H indicates the degree of pharmaceutical activity.
  • the molecule al shows a lower pharmaceutical activity than the molecule a2, which is further away from the domain boundary H than the molecule al.
  • the degree of activity can be determined, for example, by the in vitro tests, i. by evaluating series of measurements how often there was a positive / negative result regarding the activity.
  • the distance to the domain boundary H corresponds to the minimum distance / distance and can be taken, for example, as the length of the vector which is parallel to a surface normal of the domain boundary H and at the same time intersects the point in the feature space MR (eg al).
  • the domain boundary H generally represents a hypersurface in a high-dimensional feature space MR and may also be thought of as a domain wall separating the pharmaceutically active domain from the pharmaceutically inactive domain.
  • the pharmaceutical activity is unclear or indeterminate.
  • the molecules can be recorded on a directional beam, in the embodiment shown here the positive part of the directional beam corresponds to a pharmaceutical activity and the negative beam corresponds to a pharmaceutical inactivity.
  • the zero point thus represents the domain boundary H.
  • This directed beam can also be described by the function f, which, as already described above, can be determined by a support vector machine.
  • the molecule corresponding to the point b2 is plotted on the negative side and the molecules al and a2 are plotted on the positive side, with the molecule a2 having a larger value than the molecule a1.
  • This representation thus provides a ranking with regard to the expected pharmaceutical activity of the molecules, so that a higher activity is to be expected for a2 than for the molecule al.
  • FIG. 6A illustrates a non-directional graph G formed of six vertices V1, V2,..., V6 which are connected to each other via edges E.
  • FIG. 6A illustrates a non-directional graph G formed of six vertices V1, V2,..., V6 which are connected to each other via edges E.
  • FIG. 6A illustrates a non-directional graph G formed of six vertices V1, V2,..., V6 which are connected to each other via edges E.
  • FIG. In a non-directional graph, connecting a first vertex to a second vertex is equivalent to connecting the second vertex to the first vertex, while in a directed graph, the connection direction is meaningful and represented by a corresponding arrow in the edge E (e.g. B. when the connection is formed by a directed field).
  • the vertices V2, V3, V4, V5 form a cycle C.
  • a cycle C is a doubly connected subgraph, ie for every vertex of a cycle S there exists a closed path along which a path back to leading the vertex without having to go the same path twice.
  • a two-connected graph is given by the fact that, when intersected by an edge E, the doubly connected graph decays into a simply connected graph, ie still forms a continuous graph.
  • a simply connected graph may be characterized by the fact that, when intersected by an edge E of the single-connected graph, the simply connected graph decays into two components which are not connected to each other.
  • n-connected graph for a n-connected graph, there is always a cut, so that the n-connected graph breaks up into a (nl) -fold connected graph, where a 0-connected graph represents a disjoint graph (separate components ). Simple connected graphs connecting two cycles are also called bridges.
  • Fig. 6B shows another example of a non-directional graph, which is also formed of six vertices, but in the example shown here, the graph has three cycles, wherein a first cycle Cl is formed by the vertices V2, V3, V4 and the second cycle C2 is formed by the vertices V3, V4 and V5 and finally the third cycle is formed by the vertices V2, V3, V5, V4.
  • the vertices V3 and V4 are threefold in this example.
  • Fig. 7 shows an example of a graph G M for a molecule M.
  • the graph G M has a first cycle Cl and a second cycle C2 connected to each other by a bridge Bl, and further, the cycle Cl is an atomic structure A connected.
  • the atomic structure A has, for example, an atom al which has three neighboring atoms n1, n2 and n3.
  • hydrogen H (I, 0, 0)
  • carbon C (O, 1, 0)
  • oxygen O (O, O, 1)
  • the first three entries in the label L 2 identify the neighboring atom nl, the following three entries identify the neighboring atom n2 and the last three entries in the label L 2 identify the third neighboring atom n3.
  • the atom al is a carbon atom
  • the neighbor nl and n2 are hydrogen atoms
  • the neighbor n3 is also a carbon atom.
  • the labels Li and L 2 determine, as already described above, the F ATOM component of the feature vector MV.
  • the feature vectors MV of the different molecules only point to points that differ from each other only in terms of a subset of the dimensions (i.e., only along certain directions) of the feature space MR, and coincide with each other in many of the components.
  • the dimensionality of the feature space MR or the calculation of the distance to the domain boundary H can be simplified by considering only the subspace in which the feature vectors MV differ significantly from one another.
  • the difference (altitude value, for example) could be less than 50 or less than 10 or less than 1 percent of the distance of the points to the domain boundary.
  • the height value for determining the distance to the domain boundary may be neglected, and thus the dimensionality of the feature space is effectively reduced, thereby significantly reducing the computational effort.
  • embodiments of the present invention can significantly increase the prediction of pharmaceutical activity. This has become possible in particular because not only the atomic structure itself but also including the neighbors of the atomic structure. It has been shown that an interaction between the atomic structure and the neighbors has a significant influence on the pharmaceutical activity of the respective molecule. Thus, not only the atomic structures, the cycles, the connecting bridges are detected, but also the neighbors belonging to these structures, cycles, bridges are added in the parameterization of the feature space MR.
  • the present invention is advantageous in that it provides a ranking for the molecules (eg, by the function value of function f) and provides not only a prediction for a pharmaceutical activity or inactivity. For example, since the number of molecules to be assayed may be more than one million, of which, for example, only 20 are known for their activity, such a ranking is of paramount importance. Only in this way is it possible to consider among the more than one million existing molecules those whose pharmaceutical activity is most likely to appear. In fact, the totality of all molecules classified as pharmaceutically active could still be far too extensive to perform on all in vitro assays. Only a ranking will solve the problem.
  • the present invention also offers a possibility of error estimation. Furthermore, it is possible to achieve a time saving in embodiments in that a redundancy is neglected.
  • An example of redundancy is the above-mentioned independence of pharmaceutical activity with respect to particular features or combinations of features (particular atomic structures, particular cycles, etc.) that, if taken into account in the memory space MR, provide only a lesser variation in the points.
  • the dimension of the feature vector MV can be up to 100,000, but only a smaller subset thereof are directions (features or feature combinations) in which the points in the feature space MR are significantly different from each other.
  • This subset may be, for example, only 20 to 50 numbers (directions) and a projection on this 20- to 50-dimensional subspace is often useful, so that these respective components can be neglected accordingly in the evaluation, resulting in a tremendous time savings.
  • the inventive scheme can also be implemented in software.
  • the implementation may be on a digital storage medium, in particular a floppy disk or a CD with electronically readable control signals, which may interact with a programmable computer system such that the corresponding method is performed.
  • the invention thus also consists in a computer program product with program code stored on a machine-readable carrier for carrying out the method according to the invention when the computer program product runs on a computer.
  • the invention can thus be realized as a computer program with a program code for carrying out the method when the computer program runs on a computer.

Landscapes

  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

A device for determining a pharmaceutical activity of a molecule (M) has a unit (110) for determining atomic structures occurring in the molecule, a unit (120) for assigning a feature index (MI), a unit (130) for ascertaining a feature vector (MV), and a unit (140) for determining an association. The unit (120) assigns the feature index (MI) to one of the occurring atomic structures in the molecule (M) as a function of the particular atomic structure and a vicinity of the particular atomic structure in the molecule (M). The unit (130) ascertains the feature vector (MV) for the molecule (M) as a function of the assigned feature index (MI), wherein said feature vector (MV) points to a point in a feature space (MR), and wherein said feature space (MR) has a first domain (A), which corresponds to pharmaceutically active molecules, and a second domain (B), which corresponds to pharmaceutically inactive molecules. The unit (140) determines the association of the point with the first domain (A) or the second domain (B).

Description

Vorrichtung und Verfahren zum Bestimmen einer pharmazeutischen Aktivität eines Moleküls Apparatus and method for determining a pharmaceutical activity of a molecule
Beschreibungdescription
Die vorliegende Erfindung bezieht sich auf eine Vorrichtung und ein Verfahren zum Bestimmen einer pharmazeutischen Aktivität eines Moleküls und insbesondere auf einen Atom- Zykel-Baum molekularen Fingerabdruck (ACT molecular fingerprint) .The present invention relates to an apparatus and method for determining a pharmaceutical activity of a molecule, and more particularly to an atomic cycle tree molecular fingerprint (ACT).
Untersuchungen von Graphen-strukturierten Objekten, die beispielsweise in der Biologie, dem World Wide Web (WWW, weltweitem Netz), und einer Reihe von anderen Gebieten angewendet werden, haben in der jüngsten Vergangenheit ein beachtliches Interesse hervorgerufen. Dies umfasst beispielsweise eine Datenermittlung in Graphen-basierten Datenbanken, bei denen bestimmte Ereignisse sich durch spezielle Graphen darstellen lassen und die es ferner erlauben, eine Vorhersage hinsichtlich des Auftretens der Ereignisse zu treffen. Ein Beispiel für ein Ereignis wäre eine gewünschte pharmazeutische Aktivität eines Moleküls. Einige Verfahren, die eine sehr gute Performance hinsichtlich der Zuverlässigkeit von Klassifizierungen von Ereignissen zeigen, basieren oder nutzen die so genannte Support-Vektor-Maschine (Stütz-Vektor-Maschine) . Um den Computeraufwand dieser Verfahren, die beispielsweise in V. Vapnik: „Statistical Learning Theory", John Wiley, 1998 beschrieben sind, zu begrenzen, können beispielsweise Kernelfunktionen verwendet werden, denen häufig auftretende Muster zugrunde liegen. Diese Kernelfunktionen, die auf Mustererkennung hinsichtlich ihrer Häufigkeit basieren, sind allerdings dahingehend nachteilig, dass deren Vorhersagekraft oft unzureichend ist.Studies of graphene-structured objects used in, for example, biology, the World Wide Web (WWW), and a number of other fields have attracted considerable interest in the recent past. This includes, for example, a data collection in graph-based databases, in which certain events can be represented by special graphs and which also make it possible to make a prediction regarding the occurrence of the events. An example of an event would be a desired pharmaceutical activity of a molecule. Some methods that show very good performance in terms of the reliability of classifications of events are based or use the so-called support vector machine. For example, to limit the computational complexity of these methods, which are described, for example, in V. Vapnik: "Statistical Learning Theory," John Wiley, 1998, kernel functions may be used that underlie frequently occurring patterns Frequency are, however, disadvantageous in that their predictive power is often insufficient.
Während in den meisten Anwendungen, die sich auf ein Auffinden von Daten in einem Datennetz konzentrieren, wo _ _While in most applications, focusing on finding data in a data network, where _ _
bestimmte Ereignisse durch Vertices von einem einfachen massiven Netzgraphen dargestellt sind, kann es bei anderen Anwendungen vorkommen, dass jedes Ereignis selbst durch einen Graphen dargestellt wird. Ein Beispiel dafür sind Anwendungen, die sich mit Molekülen umfassen, da jedes Molekül selbst aus einer Reihe von Atomen (=Vertices in einem Graphen) besteht, die ihrerseits über Bindungen mit anderen Atomen verbunden sind. Bei derartigen Anwendungen wird gewöhnlich jedem Vertex und jeder Verbindung ein Label zugeordnet, welches beispielsweise den Atomtyp oder Atomsorte und den Bindungstyp spezifiziert.While certain events are represented by vertices from a simple massive network graph, in other applications it may happen that each event itself is represented by a graph. An example of this are applications that involve molecules, since each molecule itself consists of a series of atoms (= vertices in a graph), which in turn are linked to other atoms. In such applications, usually each vertex and each compound is assigned a label specifying, for example, the atom type or type of atom and the type of binding.
Als ein Beispiel für derartige chemische Anwendungen kann beispielsweise das pharmazeutische Umfeld genannt werden. Bei der heute verfügbaren Vielfalt von chemischen Stoffen und Verbindungen ist es enorm wichtig, im Vorfeld von konkreten biologischen Untersuchungen, die Aktivität eines bestimmten Moleküls abschätzen zu können. So würde die Identifikation von neuen chemischen Bestandteilen, die zu neuen Medikamenten entwickelt werden könnten, eine extrem hohe Anzahl von experimentellen Untersuchungen für eine sehr große Anzahl von Verbindungen erfordern. Dies ist insbesondere deshalb zutreffend, da für die pharmazeutische Aktivität nicht nur das Vorhandensein bestimmter Moleküle, sondern auch die Kombination von bestimmten Molekülen entscheidend ist. Es ist nicht ungewöhnlich, dass gegenwärtig Datenbanken mit pharmazeutischen Verbindungen und Probenbibliotheken mehrere Millionen Moleküle enthalten.As an example of such chemical applications may be mentioned, for example, the pharmaceutical environment. Given the diversity of chemicals and compounds available today, it is extremely important to be able to estimate the activity of a particular molecule in advance of specific biological studies. Thus, the identification of new chemical constituents that could be developed into new drugs would require an extremely high number of experimental studies for a very large number of compounds. This is particularly true because for the pharmaceutical activity not only the presence of certain molecules, but also the combination of certain molecules is crucial. It is not uncommon that databases containing pharmaceutical compounds and sample libraries currently contain several million molecules.
Aus diesem Grund haben chemoinformatische Verfahren eine zunehmende Anwendung gefunden, um mit deren Hilfe die Identifikation eines viel versprechenden Kandidaten zu beschleunigen und gleichzeitig den Umfang von biologischen Probeuntersuchungen zu reduzieren. So kann beispielsweise computerbasiert eine große Anzahl von Proben vorselektiert werden, so dass viel versprechende Kandidaten für Verbindungen bereits ausgewählt werden können. Das Design eines effizienten Algorithmus zum Überprüfen virtuellerFor this reason, chemoinformatic methods have found increasing use in order to accelerate the identification of a promising candidate while at the same time reducing the scope of biological probing studies. Thus, for example, a large number of samples can be preselected computer-based, so that promising candidates for compounds can already be selected. The design an efficient algorithm for checking virtual
(chemischer) Verbindungen und für andere chemoinformatische(chemical) compounds and for other chemoinformatic
Anwendungen ist zu einem integralen Bestandteil einer computergestützten Medikamentenentwicklung geworden. Ein Überblick über den Stand der Technik auf diesem Gebiet kann beispielsweise dem folgenden Dokument entnommen werden: B.Applications has become an integral part of computer-aided drug development. An overview of the state of the art in this field can be found, for example, in the following document: B.
A. Bunin, B. Siesel, G. Morales, and J. Bajorath:A. Bunin, B. Siesel, G. Morales, and J. Bajorath:
„Chemoinformatics : Theory, Practice, & Products"; Springer,"Chemoinformatics: Theory, Practice, &Products"; Springer,
2007.Of 2007.
Ein Nachteil des bekannten Standes der Technik besteht darin, dass die dort gezeigten Verfahren nur eine sehr begrenzte Vorhersagekraft hinsichtlich der Aktivität von Molekülen aufweisen, was in Anbetracht der beträchtlichen Anzahl von verfügbaren Molekülen einen enormen Mehraufwand bei biologischen Tests bedeutet. Um ein möglichst effizientes Verfahren bereitstellen zu können, ist es dabei von enormer Wichtigkeit, einen Satz von Merkmalen für jene Moleküle in den zu entwerfenden Medikamenten herauszufinden, für die eine pharmazeutische Aktivität erwartet werden kann.A disadvantage of the known art is that the methods shown there have only a very limited predictive power in terms of the activity of molecules, which, given the considerable number of available molecules, means an enormous overhead in biological tests. In order to provide the most efficient method, it is of enormous importance to find out a set of features for those molecules in the drugs to be designed for which pharmaceutical activity can be expected.
Ausgehend von diesem Stand der Technik liegt der vorliegenden Erfindung die Aufgabe zugrunde, eine Vorrichtung und ein Verfahren zum Bestimmen einer pharmazeutischen Aktivität eines Moleküls zu schaffen, deren Voraussagefähigkeit deutlich erhöht ist, so dass der Aufwand für durchzuführende biologische Tests deutlich reduziert wird.Based on this prior art, the present invention has the object to provide an apparatus and a method for determining a pharmaceutical activity of a molecule whose predictive ability is significantly increased, so that the cost of performing biological tests is significantly reduced.
Diese Aufgabe wird von einer Vorrichtung gemäß Anspruch 1 und einem Verfahren nach Anspruch 15 gelöst.This object is achieved by a device according to claim 1 and a method according to claim 15.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass die pharmazeutische Aktivität eines Moleküls durch Atomstrukturen, die das Molekül bilden und neben den Atomen selber insbesondere auch deren Nachbaratome umfassen, bestimmbar ist. Die Atomstrukturen können somit einzelne Atome als auch Gruppen von Atomen umfassen und das Molekül kann durch die Gesamtheit der vorkommenden Atomstrukturen dargestellt werden. Zum Bestimmen der pharmazeutischen Aktivität werden die Atomstrukturen bzw. deren Merkmale für ein Molekül in einem Merkmalsvektor zusammengefasst . Der Merkmalsvektor kann anschließend beispielsweise unter Nutzung einer Stützvektormaschine hinsichtlich der zu erwartenden pharmazeutischen Aktivität untersucht werden.The present invention is based on the finding that the pharmaceutical activity of a molecule can be determined by atomic structures which form the molecule and, in addition to the atoms themselves, in particular also their neighboring atoms, can be determined. The atomic structures can thus individual Atoms as well as groups of atoms and the molecule can be represented by the totality of the occurring atomic structures. To determine the pharmaceutical activity, the atomic structures or their characteristics for a molecule are combined in a feature vector. The feature vector can then be examined, for example, using a support vector machine with regard to the expected pharmaceutical activity.
Die Untersuchung kann vorzugsweise mittels Graphen geschehen, wobei der Graph Vertices und Kanten (Verbindungslinien zwischen Vertices) aufweist. Für die vorliegende Anwendung wird jedem Molekül ein Graph zugeordnet, wobei die Vertices die Atome und Kanten die (chemischen) Verbindungen darstellen. Die Atome oder Atomsorten können durch Labels an den Vertices markiert werden.The examination can preferably be done by means of graphs, the graph having vertices and edges (connecting lines between vertices). For the present application, a graph is assigned to each molecule, the vertices representing the atoms and edges of the (chemical) compounds. The atoms or atomic species can be marked by labels on the vertices.
Zusätzlich zu den einzelnen Atomen und deren Nachbaratomen in dem Molekül wird optional der Graph des Moleküls dahingehend untersucht, wie viele und welche Art von geschlossenen Zykeln (geschlossene Loops in einem Graphen) in dem Graph ausgebildet sind und durch welche Brücken dieIn addition to the individual atoms and their neighboring atoms in the molecule, the graph of the molecule is optionally examined in terms of how many and what kind of closed cycles (closed loops in a graph) are formed in the graph and through which bridges the
Zykeln miteinander verbunden sind. Die Zykel beschreiben also geschlossene Wege entlang von Kanten eines Graphens, die sich selbst nicht schneiden. Die auftretenden Zykeln und Brücken können wiederum entsprechenden Labels zugeordnet werde, die als weitere Komponenten in demCycles are interconnected. The cycles therefore describe closed paths along edges of a graphene that do not intersect themselves. The occurring cycles and bridges can in turn be associated with corresponding labels which serve as further components in the
Merkmalsvektor aufgenommen werden. Bei weiteren Ausführungsbeispielen kann ebenso der Bindungstyp zwischen den Atomen oder zwischen den Zykeln in dem Merkmalsvektor als ein Merkmal aufgenommen werden.Feature vector recorded. In other embodiments as well, the type of binding between the atoms or between the cycles in the feature vector may be included as a feature.
Diese Erkenntnis kann bei Ausführungsbeispielen der vorliegenden Erfindung wie folgt umgesetzt werden. Eine Vorrichtung zum Bestimmen einer pharmazeutischen Aktivität eines Moleküls weist zunächst eine Einrichtung zum Bestimmen von in dem Molekül auftretenden Atomstrukturen auf. Ferner weist die Vorrichtung eine Einrichtung zum Zuweisen eines Merkmalsindexes auf, wobei der Merkmalsindex zu einer der auftretenden Atomstrukturen in dem Molekül in Abhängigkeit von der jeweiligen Atomstruktur und der Nachbarschaft der jeweiligen Atomstruktur in dem Molekül zugewiesen wird. Die Vorrichtung weist ebenfalls eine Einrichtung zum Ermitteln eines Merkmalsvektors für das Molekül auf, wobei der Merkmalsvektor von dem zugewiesenen Merkmalsindex abhängt und der Merkmalsvektor auf einen Punkt in einem Merkmalsraum zeigt, wobei der Merkmalsraum eine erste Domain, die pharmazeutisch aktiven Molekülen entspricht, und eine zweite Domain, die pharmazeutisch inaktiven Molekülen entspricht, aufweist. Schließlich weist die Vorrichtung eine Einrichtung zum Bestimmen einer Zugehörigkeit des Punktes zu der ersten Domain oder der zweiten Domain auf.This realization can be implemented as follows in embodiments of the present invention. A device for determining a pharmaceutical activity of a molecule initially has a device for determining atomic structures occurring in the molecule on. Furthermore, the apparatus comprises means for assigning a feature index, wherein the feature index is assigned to one of the occurring atomic structures in the molecule depending on the respective atomic structure and the vicinity of the respective atomic structure in the molecule. The apparatus also includes means for determining a feature vector for the molecule, wherein the feature vector depends on the assigned feature index and the feature vector points to a point in a feature space, the feature space corresponding to a first domain corresponding to pharmaceutically active molecules and a second Domain, which corresponds to pharmaceutically inactive molecules has. Finally, the device has a device for determining an affiliation of the point to the first domain or the second domain.
Weitere Ausführungsbeispiele beschreiben den Merkmalsvektor als einen binären Vektor, der Komponenten aufweist, die entweder das Vorliegen oder Fehlen eines Merkmals signalisiert. Zum Beispiel kann ein bestimmter Eintrag für eine Vektorkomponente des Merkmalsvektors das Vorliegen des bestimmten Merkmales (z. B. ein bestimmter Atomtyp wie beispielsweise Wasserstoff) und ein davon abweichender Eintrag das Fehlen dieses Merkmalstyps entsprechen. Ebenso ist es möglich, eine Multiplizität in den Merkmalsvektor einzuführen, die beispielsweise die Anzahl eines bestimmten Merkmals (z. B. die Anzahl von Atomstrukturen wie beispielsweise von Zykeln) in dem vorliegenden Graphen bezeichnet.Further embodiments describe the feature vector as a binary vector having components that signal either the presence or absence of a feature. For example, a particular entry for a vector component of the feature vector may correspond to the presence of the particular feature (eg, a particular atomic type such as hydrogen) and a different entry to the lack of that feature type. It is also possible to introduce a multiplicity into the feature vector which, for example, denotes the number of a particular feature (eg the number of atomic structures such as, for example, of cycles) in the present graph.
Um die Vorgehensweise besser zu verstehen, ist es wichtig, die zwei-dimensionale Graphenstruktur genau zu analysieren und zu beschreiben. Die Darlegungen hier basieren auf der Annahme, dass es sich um eine planaren Graphen handelt, d.h. dass die Moleküle durch Graphen in einer zweidimensionalen Ebene (ohne Überlappungen) darstellbar sind. - S -To better understand the approach, it is important to accurately analyze and describe the two-dimensional graph structure. The explanations here are based on the assumption that they are planar graphs, ie that the molecules can be represented by graphene in a two-dimensional plane (without overlaps). - S -
Dies dient hier der Einfachheit, braucht im Allgemeinen jedoch nicht der Fall zu sein.This is simplicity, but generally need not be the case.
Der Algorithmus basiert auf der durch die Atome und die Bindungen gegebene zwei-dimensionale Graphenstruktur für die chemische Verbindung, die das Molekül darstellt. Das im folgenden beschriebene Atom-Zykel-Baum (ACT = Atom-Cycle- Tree) molekulares Fingerabdruckverfahren liefert eine Rangfolge der chemischen Verbindungen (Moleküle) hinsichtlich der zu erwartenden pharmazeutischen Aktivität der chemischen Verbindung. Die pharmazeutische Aktivität kann sich dabei auf eine Veränderung eines Krankheitsbildes hinsichtlich einer Krankheit, die behandelt werden soll, oder auf den kosmetischen Bereich (Beeinflussung oder Veränderung von biologischem Gewebe) beziehen.The algorithm is based on the two-dimensional graphene structure given by the atoms and the bonds for the chemical compound that constitutes the molecule. The atomic cycle tree (ACT = Atom Cycle Tree) molecular fingerprinting method given below gives a ranking of the chemical compounds (molecules) in terms of the expected pharmaceutical activity of the chemical compound. The pharmaceutical activity may relate to a change in a clinical picture with regard to a disease to be treated or to the cosmetic sector (influencing or altering of biological tissue).
In dem Algorithmus gehen zwei voneinander getrennte Sätze von chemischen Verbindungen ein, von denen:The algorithm incorporates two separate sets of chemical compounds, of which:
1. ein Satz A, der eine kleine Anzahl von Molekülen aufweist, von denen bekannt ist, dass sie eine Aktivität hinsichtlich der Krankheit zeigen und1. a set A which has a small number of molecules known to show disease activity and
2. ein Satz U, der Moleküle aufweist, deren Aktivität unbekannt ist.2. a set U that has molecules whose activity is unknown.
Der Algorithmus liefert als Ergebnis eine reell-wertige Funktion, die die Aktivität des Moleküls, das zum Satz U gehört, vorhersagt. Der Wert der Funktion gibt der Wahrscheinlichkeit an, mit der eine Aktivität des Moleküls zu erwarten ist - zum Beispiel je höher der Funktionswert ist desto höher ist die Wahrscheinlichkeit, dass die Verbindung aktiv im Hinblick auf die Krankheit sein wird.As a result, the algorithm provides a real-valued function that predicts the activity of the molecule belonging to the set U. The value of the function indicates the likelihood that an activity of the molecule will be expected - for example, the higher the function value, the higher the likelihood that the compound will be active in the disease.
Ein erfindungsgemäßes Verfahren umfasst die folgenden Schritte: (i) Für jede chemische Verbindung M aus der Vereinigung von A und U (A U U) wird ein ungerichteter Graph GM, der die Atom-Bindungsstruktur von M darstellt, wie folgt berechnet. Für jedes Atom a von M wird der entsprechende Vertex va von GM mit einem Label versehen, das aus einem Paar (Li, L2) besteht, wobei Li den Atomtyp von A und L2 einen Vielzahl von Atomtypen von den zu a benachbarten Atomen darstellt. Die Vereinigung aller dieser Datensätze (alle Labels) , die für jedes Molekül in der Vereinigung von A und U berechnet werden, wird mit FATOM bezeichnet. Ferner kann jede Verbindung E in dem Graphen GM mit einem weiteren Label versehen werden, wobei das weitere Label den Verbindungstyp (die vorliegende Atombindung beispielsweise) von E aufweist.A method according to the invention comprises the following steps: (i) For each chemical compound M from the union of A and U (AUU), an undirected graph G M representing the atomic bond structure of M is calculated as follows. For each atom a of M, the corresponding vertex v a of G M is labeled with a pair consisting of a pair (Li, L 2 ), where Li is the atomic type of A and L 2 is a plurality of types of atoms adjacent to a Represents atoms. The union of all these datasets (all labels) calculated for each molecule in the union of A and U is denoted F ATOM . Further, each compound E in the graph G M may be provided with another label, the further label having the type of connection (the present atomic bond, for example) of E.
(ii) Für jeden Graphen, der unter (i) berechnet und mit Labels versehen wurde, kann anschließend ein Satz von zweifach zusammenhängenden Komponenten und ein Satz von Brücken gebildet werden. Zweifach zusammenhängende Komponenten bezeichnen dabei Untergraphen (Teilgraphen) , die durch Kanten (edges) gebildet werden, die zu Zykeln gehören. Brücken bezeichnen andererseits einen Untergraphen, der durch Kanten gebildet wird, wobei die Kanten nicht zu einem Zykel gehören. Von dem Satz der zweifach zusammenhängenden Komponenten werden die Zykel aufgelistet und jedem Zykel wird ein String eindeutig bis auf Isomorphismen zugeordnet. Der String entspricht beispielsweise einer Serie von Labels, die den Zykel identifizieren (Anzahl und Art der Atome, Verbindungstyp, etc.). Somit stellt der Satz der Strings einen Satz von Zykeln des Moleküls oder der Moleküle in der Vereinigung von A und U dar und wird mit FCYCLE bezeichnet.(ii) For each graph computed under (i) and labeled, a set of two-connected components and a set of bridges can then be formed. Two-connected components refer to subgraphs (subgraphs) formed by edges belonging to cycles. On the other hand, bridges denote a subgraph formed by edges, the edges not belonging to a cycle. From the set of two-connected components, the cycles are listed and each cycle is uniquely assigned a string except isomorphisms. For example, the string corresponds to a series of labels that identify the cycle (number and type of atoms, connection type, etc.). Thus, the set of strings represents a set of cycles of the molecule or molecules in the union of A and U and is denoted by F CYCLE .
Der Satz von Brücken wird auch als Wald (d.h. die nicht zusammenhängende Vereinigung von Bäumen) bezeichnet. Ähnlich zu den Zykeln wird jedem Baum in dem Wald ein String eindeutig bis auf Isomorphismen zugeordnet, wobei der Satz von Strings, die den Bäumen zugeordneten sind, für die Moleküle in der Vereinigung von A und U als FTREE bezeichnet wird. Eine Darstellung wie FCYCLE und FTREE für allgemeine Graphen berechnet werden kann, ist beispielsweise in T. Horvath, T. Gärtner und S. Wrobel: „Cyclic pattern kerneis for predictive graph mining" in Proc. of the 10th ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining, pages 158 - 167, 2004, gegeben.The set of bridges is also referred to as forest (ie the non-contiguous union of trees). Similar to the cycles, each tree in the forest is uniquely assigned a string except for isomorphisms, where the set of strings assigned to the trees is for the molecules in the union of A and U are called F TREE . A representation of how F CYCL E and F TREE can be calculated for general graphs is described, for example, in T. Horvath, T. Gärtner and S. Wrobel: "Cyclic pattern kernel for predictive graph mining" in Proc. Of the 10th ACM SIGKDD Int. Conf. On Knowledge Discovery and Data Mining, pages 158-167, 2004.
Unter Verwendung einer nicht-leeren Teilmenge aus der Vereinigung {FATOM/ FCYCLE/ FTREE} und durch Bilden der Vereinigung F der Sätze, die zur nicht-leeren Teilmenge gehören, kann für jedes Molekül M in der Vereinigung von A und U der folgende Satz berechnet werden:Using a non-empty subset of the union {F ATOM / F CYCLE / F TREE } and forming the union F of the sets belonging to the non-empty subset, for each molecule M in the union of A and U the the following rate can be calculated:
FM = {f e F : f stellt einen Untergraphen von M dar} .F M = {fe F: f represents a subgraph of M}.
Da es sich bei FM um einen Satz handelt, kann er als ein Bool' scher Vektor in einem hochdimensionalen Raum aufgefasst werden, wobei der hochdimensionale Raum auch als Merkmalsräum, der zu F korrespondiert, bezeichnet wird.Since F M is a sentence, it can be understood as a Boolean vector in a high-dimensional space, where the high-dimensional space is also referred to as a feature space corresponding to F.
(iii) Unter Verwendung von Standardtechniken wie einer Support-Vektor-Maschine, die ein Teilgebiet der Kernel- Methoden darstellen, kann anschließend eine Hyperfläche berechnet werden, die die aktiven und inaktiven Verbindungen von A in den oben beschriebenen Merkmalsraum trennt .(iii) Using standard techniques such as a support vector machine, which are a subset of the kernel methods, a hypersurface can then be calculated that separates the active and inactive links from A into the feature space described above.
(iv) Schließlich liefert das Verfahren eine Funktion f : U → SR (Menge aller reeller Zahlen), die den Abstand von FM (für jedes Molekül M e U) von der oben beschriebenen Hyperfläche angibt, wobei das Vorzeichen der Funktion f die Seite der Hyperfläche kennzeichnet. Das eine Vorzeichen entspricht einem Merkmalsvektor (für ein Molekül) , der zu jenem Halbraum des Merkmalsraums gerichtet ist, der aktive Trainingsbeispiele enthält, währenddessen das andere Vorzeichen einen Merkmalsvektor beschreibt, der den Bereich inaktive Trainingsbeispiele entspricht. Für das zu lösende Problem, d. h. für die Auswahl der viel versprechendsten N Kandidaten aus der Menge der Moleküle des Satzes U für mögliche In-vitro-Tests (biologische Tests) kann die Vorhersagefunktion f wie folgt genutzt werden: Der Funktionswert der Funktion f gibt eine Vorhersage für eine Aktivität für das jeweilige Molekül aus dem Satz U. Durch Vergleich der Funktionswerte, die zu verschiedenen Moleküle gehören, werden die N Moleküle, die einem höchsten Vorhersagewert entsprechen, bestimmt. Somit liefert f jene Moleküle, für die eine pharmazeutische Aktivität mit der größten Wahrscheinlichkeit zu erwarten ist. Dementsprechend kann ein Ranking von Molekülen aufgestellt werden, wobei in der erhaltenen Reihenfolge (Ranking) mögliche In-vitro-Tests durchgeführt werden können, so dass zunächst nur biologische Tests durchgeführt werden an Molekülen, die viel versprechend sind und jene Moleküle vernachlässigt werden, für die die Simulation keine Hinweise auf eine pharmazeutische Aktivität liefert.(iv) Finally, the method yields a function f: U → SR (set of all real numbers) which gives the distance of F M (for each molecule M e U) from the hypersurface described above, where the sign of the function f is the side of the hypersurface. The one sign corresponds to a feature vector (for a molecule) directed to that half space of the feature space containing active training examples, while the other sign describes a feature vector corresponding to the area of inactive training examples. For the problem to be solved, ie for the selection of the most promising N candidates from the set of molecules of the set U for possible in vitro tests (biological tests), the prediction function f can be used as follows: The function value of the function f gives a Prediction of activity for each molecule from set U. By comparing the function values belonging to different molecules, the N molecules corresponding to a highest predictive value are determined. Thus, f provides those molecules for which pharmaceutical activity is most likely to be expected. Accordingly, a ranking of molecules can be established wherein possible in vitro assays can be performed in the rank order so that initially only biological assays are performed on promising molecules and neglecting those molecules for which the simulation provides no evidence of a pharmaceutical activity.
Dementsprechend liefern Ausführungsbeispiele der vorliegenden Erfindung eine Vorrichtung und ein Verfahren zur Selektion oder eines Screenings einer großen Anzahl von Molekülen in viel versprechende Kandidaten und weniger versprechende Kandidaten, so dass keine Ressourcen an Tests verschwendet werden, die kaum Aussicht auf Erfolg haben. In Anbetracht der Situation, dass die Anzahl möglicher Moleküle oder Bestandteilen, die in Medikamenten aufgenommen werden können, die Millionengrenze deutlich überschreiten kann, ist es besonders wichtig, nur In-vitro- Tests an Molekülen oder chemischen Verbindungen durchzuführen, die eine signifikante pharmazeutische Aktivität erwarten lassen und alle Moleküle, die keinen Hinweis auf eine pharmazeutische Aktivität versprechen, zunächst zu vernachlässigen. Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend bezugnehmend auf die beiliegenden Zeichnungen näher erläutert. Es zeigen:Accordingly, embodiments of the present invention provide an apparatus and method for selecting or screening a large number of molecules for promising candidates and less promising candidates so that resources are not wasted on tests that are unlikely to succeed. In view of the fact that the number of potential molecules or constituents that can be taken up in medicines can clearly exceed the one million mark, it is particularly important to perform only in vitro tests on molecules or chemical compounds that expect a significant pharmaceutical activity and ignore all molecules that promise no indication of pharmaceutical activity. Embodiments of the present invention will be explained below with reference to the accompanying drawings. Show it:
Fig. 1 eine schematische Darstellung eines Ausführungsbeispiels der vorliegenden Erfindung;Fig. 1 is a schematic representation of an embodiment of the present invention;
Fig. 2 ein Flussdiagramm zur Bestimmung des2 is a flowchart for determining the
Merkmalsvektors;Feature vector;
Fig. 3 ein Beispiel für einen Merkmalsvektor, der aus binären Komponenten aufgebaut ist;Fig. 3 shows an example of a feature vector constructed from binary components;
Fig. 4 ein Teil eines Merkmalsvektors, der ein Atom und dessen Nachbarn identifiziert;Fig. 4 is a part of a feature vector identifying an atom and its neighbors;
Fig. 5A, 5B eine Darstellung des Merkmalsraumes mit verschiedenen Molekülen, die durch eine Domaingrenze voneinander getrennt sind;Figures 5A, 5B are a representation of the feature space with different molecules separated by a domain boundary;
Fig. 6A, 6B Darstellungen für ungerichtete Graphen; undFigs. 6A, 6B are graphs for undirected graphs; and
Figur 7 ein Beispiel für eine Darstellung einer chemischen Verbindung in Form eines Graphen.FIG. 7 shows an example of a representation of a chemical compound in the form of a graph.
Bezüglich der nachfolgenden Beschreibung sollte beachtet werden, dass bei den unterschiedlichen Ausführungsbeispielen gleiche oder gleich wirkende Funktionselemente gleiche Bezugszeichen aufweisen und somit die Beschreibungen dieser Funktionselemente in den verschiedenen Ausführungsbeispielen untereinander austauschbar sind.With regard to the following description, it should be noted that in the different embodiments, the same or functionally equivalent functional elements have the same reference numerals and thus the descriptions of these functional elements in the various embodiments are interchangeable.
Fig. 1 zeigt eine Vorrichtung zum Bestimmen einer pharmazeutischen Aktivität eines Moleküls, wobei die Vorrichtung eine Einrichtung 110 zum Bestimmen von Atomstrukturen eines Moleküls aufweist, eine Einrichtung 120 zum Zuweisen eines Merkmalsindex MI aufweist, wobei der Merkmalsindex MI in Abhängigkeit von der Atomstruktur und der Nachbarschaft zuwiesen wird. Ferner weist die Vorrichtung eine Einrichtung 130 zum Ermitteln eines Punktes auf, wobei der Punkt Teil eines Merkmalsräumes MR für das Molekül ist und von dem zugewiesenen Merkmalsindex MI abhängt. Schließlich weist die Vorrichtung eine Einrichtung 140 zum Bestimmen auf, wobei eine Zugehörigkeit des Punktes zu einer Domain pharmazeutisch aktiver Moleküle bestimmt wird.FIG. 1 shows an apparatus for determining a pharmaceutical activity of a molecule, the apparatus comprising means 110 for determining atomic structures of a molecule, means 120 for assigning a feature index MI, wherein the Feature index MI depending on the atomic structure and the neighborhood. Furthermore, the device has a device 130 for determining a point, the point being part of a feature clearance MR for the molecule and being dependent on the assigned feature index MI. Finally, the device has a device 140 for determining, wherein an affiliation of the point to a domain of pharmaceutically active molecules is determined.
Der Punkt in dem Merkmalsraum MR kennzeichnet somit einen Satz von Merkmalen für das entsprechende Molekül, wobei ein Merkmalsvektor MV, dessen Komponenten ein Vorliegen/Fehlen eines bestimmten Merkmales signalisieren, auf den Punkt in dem Merkmalsraum MR zeigt. Der Merkmalsraum MR ist oft ein hochdimensionaler Raum, dessen Dimension von der Anzahl der zur Charakterisierung der Moleküle verwandten Merkmale (z. B. chemische Elemente der einzelnen Atome, chemische Bindung zwischen den Atomen, Art und Anzahl von Zykeln und Brücken, etc.) abhängt.The point in the feature space MR thus characterizes a set of features for the corresponding molecule, wherein a feature vector MV, whose components signal a presence / absence of a certain feature, points to the point in the feature space MR. The feature space MR is often a high-dimensional space whose dimension depends on the number of features related to the characterization of the molecules (eg chemical elements of the individual atoms, chemical bond between the atoms, type and number of cycles and bridges, etc.) ,
Bei weiteren Ausführungsbeispielen ist die Einrichtung 130 zum Ermitteln ausgebildet, zunächst Moleküle, deren pharmazeutische Aktivität (z. B. im Hinblick auf eine Krankheit) bekannt ist zu nutzen, um in dem Merkmalsraum MR eine erste Domain zu bestimmen, wobei die erste Domain die Merkmalsvektoren von Molekülen entspricht, deren pharmazeutische Aktivität nachgewiesen ist. Ferner können Moleküle, die bekannt sind, dass sie keine pharmazeutische Aktivität aufweisen, dazu benutzt werden, um in dem Merkmalsraum MR eine zweite Domain zu identifizieren, so dass Merkmalsvektoren MV, die in die zweite Domain zeigen, Molekülen entsprechen, die keine pharmazeutische Aktivität aufweisen. Im Anschluss an diesen Lernprozess, kann für ein unbekanntes Molekül ein Merkmalsvektor (mit der gleichen Anzahl von Molekülen) gebildet werden und anschließend festgestellt werden, ob für das unbekannte Molekül eine pharmazeutische Aktivität zu erwarten ist oder nicht (je nachdem ob der Merkmalsvektor MV in die erste oder zweite Domain zeigt) .In further embodiments, means 130 for determining is first to use molecules whose pharmaceutical activity (eg, with respect to a disease) is known to determine a first domain in feature space MR, where the first domain is the feature vectors corresponds to molecules whose pharmaceutical activity has been demonstrated. Furthermore, molecules known to have no pharmaceutical activity can be used to identify a second domain in the feature space MR such that feature vectors MV pointing into the second domain correspond to molecules that have no pharmaceutical activity , Following this learning process, a feature vector (with the same number of molecules) can be formed for an unknown molecule and then it can be determined whether or not a pharmaceutical activity is to be expected for the unknown molecule (depending after the feature vector MV points to the first or second domain).
Fig. 2 zeigt ein Ausführungsbeispiel für das Bestimmen eines Merkmalsvektors MV zu einem Molekül. In dem dargestellten Flussdiagramm werden zunächst Atomstrukturen des Moleküls erfasst. Die Atomstrukturen sind zum einen die Vielzahl von Atomen (chemische Elemente) , die das Molekül bilden. Weitere Atomstrukturen umfassen eine Vielzahl von Atomen, die mittels chemischer Verbindung zu einer Struktur zusammengefasst sind. Beispiele hierfür sind Zykel, Brücken (die beispielsweise Zykel verbinden können) , oder auch andere zu einer Gruppe zusammengefasste Atome, die häufiger in Molekülen auftreten.FIG. 2 shows an exemplary embodiment for determining a feature vector MV into a molecule. In the illustrated flow chart, atomic structures of the molecule are first detected. The atomic structures are, on the one hand, the multitude of atoms (chemical elements) that make up the molecule. Other atomic structures include a plurality of atoms, which are combined by chemical bonding into a structure. Examples of this are cycles, bridges (which can, for example, connect zykles), or other atoms that form a group and that occur more frequently in molecules.
Die erfassten Atomstrukturen werden in einem nachfolgenden Schritt nacheinander verarbeitet, d. h. es wird zunächst für eine der Atomstrukturen untersucht, ob diese Atomstruktur bereits bekannt ist, d. h. ob dieser Atomstruktur bereits ein Merkmalsindex MI zugewiesen wurde. Ein Merkmalsindex MI bezieht sich dabei auf eine bestimmte Komponente des Merkmalsvektors MV, der ein bestimmtes Merkmal (hier: Atomstruktur) zugewiesen wurde. Zum Beispiel kann das Vorliegen eines Kohlenstoffatoms durch einen bestimmten Wert in einer bestimmten Komponente des Merkmalsvektors MV charakterisiert werden. Sofern also die Atomstruktur bereits bekannt ist, erfolgt als nächster Schritt das Setzen der entsprechenden Komponente in dem Merkmalsvektor MV, was beispielsweise durch ein Setzen eines Flags oder dem Zuweisen einer vorbestimmten Komponente geschehen kann.The acquired atomic structures are processed successively in a subsequent step, i. H. It is first examined for one of the atomic structures, whether this atomic structure is already known, d. H. whether this atomic structure has already been assigned a feature index MI. A feature index MI relates to a specific component of the feature vector MV, to which a specific feature (here: atomic structure) has been assigned. For example, the presence of a carbon atom may be characterized by a particular value in a particular component of the feature vector MV. If, therefore, the atomic structure is already known, the next step is to set the corresponding component in the feature vector MV, which can be done, for example, by setting a flag or assigning a predetermined component.
Sofern die Atomstruktur noch nicht bekannt ist (z. B. ein Zykel aufgetreten ist, der bis dahin noch nicht codiert wurde) , erfolgt eine Vergabe eines Merkmalsindexes MI und ein Hinzufügen des Merkmalsindexes MI zu dem Merkmalsvektor MV. Dadurch wird erreicht, dass der Merkmalsvektor MV sukzessive mehr Komponenten bekommt, wobei die zusätzlichen Komponenten zusätzlichen Strukturen in dem Molekül entsprechen. Wenn also z. B. ein bestimmter Zykel, der beispielsweise sechs Kohlenstoffatome umfassen kann, auftritt und bisher ein solcher Zykel noch nicht indiziert wurde, wird der Merkmalsvektor MV um eine weitere Komponente erweitert, wobei die weitere Komponente das Vorliegen eines solchen Zykels signalisiert.If the atomic structure is not yet known (for example, a cycle has occurred which has not yet been coded), a feature index MI is added and the feature index MI is added to the feature vector MV. This ensures that the feature vector MV successively gets more components, with the additional Components correspond to additional structures in the molecule. So if z. B. a certain Zykel, which may for example comprise six carbon atoms occurs, and so far such Zykel has not yet been indexed, the feature vector MV is extended by a further component, wherein the further component signals the presence of such a cycle.
Wenn dies geschehen ist, erfolgt die Verarbeitung der nächsten Atomstruktur, d. h. es wird gefragt, ob weitereWhen this is done, the next atomic structure is processed, i. H. it asks if there are more
Atomstrukturen noch vorhanden sind und sofern dies der Fall ist, wird wiederum zunächst festgestellt, ob die weitereAtomic structures are still in place and if that is the case, in turn, it will first be determined if the more
Atomstruktur bereits bekannt ist und falls ja, erfolgt einAtomic structure is already known and if so, takes place
Setzen des entsprechenden Merkmalsindexes MI und wenn nicht, wird ein neuer Merkmalsindex MI vergeben. DieseSetting the corresponding feature index MI and if not, a new feature index MI is awarded. These
Vorgehensweise erfolgt sukzessive so lange, bis sämtliche in dem Molekül vorhandene Atomstrukturen indiziert wurden, so dass der Merkmalsvektor MV an den entsprechendenThe procedure is carried out successively until all the atomic structures present in the molecule have been indexed, so that the feature vector MV is linked to the corresponding atomic structure
Komponenten (die den Atomstrukturen entsprechen) z. B. einen vorbestimmten Wert aufweist. Wenn keine weiterenComponents (which correspond to atomic structures) e.g. B. has a predetermined value. If no more
Atomstrukturen vorhanden sind, wird der Algorithmus beendet.Atomic structures are present, the algorithm is terminated.
Neben der Indizierung der entsprechenden Atomstrukturen, die in dem Molekül vorhanden sind und dem somit erfolgten Setzen von Komponenten des Merkmalsvektors MV, erfolgt ebenfalls eine Indizierung der der Atomstruktur benachbarten Atomstrukturen. Das Schema ist dabei analog dem Schema der Indizierung der Atomstrukturen, d. h. für jede Atomstruktur werden die benachbarten Atomstrukturen dahingehend untersucht, ob sie bereits bekannt sind und wenn ja, wird ein entsprechender Index in dem Merkmalsvektor MV vergeben und wenn nicht, wird ein neuer Index hinzugefügt. Damit wird erreicht, dass neben den Atomstrukturen selbst auch die Nachbarschaft der Atomstrukturen in dem Merkmalsvektor MV indiziert ist. Um einen sinnvollen Vergleich von unterschiedlichen Molekülen zu ermöglichen, sollten die Merkmalsvektoren gleich lang sein und die Komponenten sollten den gleichen Merkmalen entsprechen. Deswegen kann es sinnvoll sein, zunächst alle Moleküle hinsichtlich ihrer Merkmale zu untersuchen und einen Merkmalsvektor mit genügend Komponenten aufzustellen, deren Komponenten dann anschließend für jedes Molekül bestimmt werden.In addition to the indexing of the corresponding atomic structures that are present in the molecule and thus the setting of components of the feature vector MV, there is likewise an indexing of the atomic structures adjacent to the atomic structure. The scheme is analogous to the scheme of indexing the atomic structures, ie for each atomic structure the neighboring atomic structures are examined to see if they are already known and if so, a corresponding index is given in the feature vector MV and if not, a new index is added , This ensures that, in addition to the atomic structures themselves, the neighborhood of the atomic structures in the feature vector MV is also indicated. To allow a meaningful comparison of different molecules, the feature vectors should be the same length and the components should conform to the same characteristics. Therefore, it may be useful to first examine all molecules in terms of their characteristics and set up a feature vector with enough components whose components are then subsequently determined for each molecule.
Figur 3 zeigt ein Beispiel für einen Merkmalsvektor MV, deren Anzahl von Komponenten D beträgt, die gleichzeitig auch die Dimension des Merkmalsräumes MR darstellt. Der Merkmalsvektor MV beschreibt hier beispielsweise eine Atomstruktur A, eine Atomstruktur B und eine Atomstruktur C, wobei in dem Molekül, welches der Merkmalsvektor MV zu Figur 3 beschreibt, die Atomstruktur A und die Atomstruktur B nicht vorkommen, während dessen die Atomstruktur C vorhanden ist. Wenn der Algorithmus, wie in der Figur 2 gezeigt wurde, eine Atomstruktur feststellt, für die noch keine Komponente in dem Merkmalsvektor MV vergeben wurde, dann wird, wie zuvor beschrieben, ein neuer Merkmalsindex MI vergeben und zu dem Merkmalsvektor MV hinzugefügt. Als Beispiel ist hier eine Atomstruktur Z gezeigt, die bis dahin in dem Merkmalsvektor MV noch nicht indiziert wurde und die demzufolge zu dem Merkmalsvektor MV hinzugefügt wird. Als Folge erhöht sich die Dimension des Merkmalsvektors MV um eine Dimension. Es handelt sich somit um einen sukzessiven Prozess, in dem die Dimension D des Merkmalsvektors MV so lange erhöht, bis alle in den Molekülen • vorkommenden Atomstrukturen (einschließlich der Nachbarschaft) durch das Setzen verschiedener Komponenten in dem Merkmalsvektor MV indiziert werden können.FIG. 3 shows an example of a feature vector MV whose number of components is D, which at the same time also represents the dimension of the feature remainder MR. The feature vector MV here describes, for example, an atomic structure A, an atomic structure B and an atomic structure C, wherein the atomic structure A and the atomic structure B do not occur in the molecule which the feature vector MV describes for FIG. 3, during which the atomic structure C is present. If, as shown in FIG. 2, the algorithm determines an atomic structure for which no component has yet been assigned in the feature vector MV, then, as described above, a new feature index MI is assigned and added to the feature vector MV. As an example, here is shown an atomic structure Z, which until then has not been indexed in the feature vector MV and which is consequently added to the feature vector MV. As a result, the dimension of the feature vector MV increases by one dimension. Thus, it is a successive process in which the dimension D of the feature vector MV increases until all of the atomic structures (including the neighborhood) occurring in the molecules can be indexed by setting various components in the feature vector MV.
In dem Ausführungsbeispiel der Figur 3 ist gezeigt, dass der Merkmalsvektor MV ein binärer Vektor ist, der aus 0- Komponenten und 1-Komponenten besteht, wobei dies lediglich der Veranschaulichung dient. Bei anderen Ausführungsbeispielen kann das Vorliegen eines bestimmten Merkmals (=einer bestimmten Atomstruktur) dadurch signalisiert werden, dass die entsprechende Komponente (z. B. die Atomstruktur C in Fig. 3) einen vorbestimmten Wert aufweist, während dessen das Nichtvorliegen des Merkmals durch einen beliebigen anderen Wert des Merkmalsvektors MV signalisierte werden kann oder aber, wie in der Figur 3 gezeigt, diesen Komponenten kein Wert zugewiesen wird oder eine Null vergeben wird.In the embodiment of Figure 3, it is shown that the feature vector MV is a binary vector consisting of 0 components and 1 components, for illustrative purposes only. In other embodiments, the presence of a particular feature (= a particular atomic structure) may be signaled by having the corresponding component (e.g. 3) has a predetermined value during which the absence of the feature can be signaled by any other value of the feature vector MV or, as shown in FIG. 3, no value is assigned to those components Zero is awarded.
Fig. 4 zeigt einen Merkmalsvektor MV, in dem neben der Atomstruktur selbst (hier ein Atom) auch die Nachbarschaft der Atomstruktur indiziert wurde. Das Atom entspricht dabei einem Vertex in dem Graphen und dem Vertex werden zwei Labels zugeordnet, ein erstes Label Li, das die Atomstruktur selbst beschreibt, und ein zweites Label L2, das die Nachbarschaft der Atomstruktur beschreibt. In dem in Figur 4 gezeigten Beispiel werden für die Moleküle der Einfachheit halber nur drei chemische Elemente: z. B. Wasserstoff H, Kohlenstoff C und Sauerstoff O verwendet, so dass das Vorliegen eines bestimmten chemischen Elements (=einer bestimmten Atomstruktur) durch eine Sequenz von drei Komponenten indiziert werden kann. Zum Beispiel (1, 0, 0), wenn der Vertex durch ein Wasserstoffatom gebildet wird oder (0, 1, 0) für ein Kohlenstoffatom oder (0, 0, 1) für eine Sauerstoffatom.FIG. 4 shows a feature vector MV in which, in addition to the atomic structure itself (here an atom), the neighborhood of the atomic structure has also been indicated. The atom corresponds to a vertex in the graph and the vertex is assigned two labels, a first label Li, which describes the atomic structure itself, and a second label L 2 , which describes the neighborhood of the atomic structure. In the example shown in Figure 4, for the sake of simplicity, only three chemical elements are used for the molecules: e.g. As hydrogen H, carbon C and oxygen O used so that the presence of a particular chemical element (= a specific atomic structure) can be indexed by a sequence of three components. For example, (1, 0, 0) if the vertex is formed by a hydrogen atom or (0, 1, 0) for a carbon atom or (0, 0, 1) for an oxygen atom.
Das Paar (Li, L2) kann ebenfalls anders kodiert werden, z.B. mit einer einzigen Zahl (z.B. einer positiven ganzen Zahl) . Beispielsweise das Atom C mit den drei Nachbarn; C,The pair (Li, L 2 ) can also be coded differently, eg with a single number (eg a positive integer). For example, the atom C with the three neighbors; C.,
C, O kann mit dem Paar: (C, {C,C,O}) beschriftet sein und mit einer einzigen Zahl kodiert werden (z.B. 142). In einem Merkmalsvektor MV von einem Molekül kommt MV [142] = 1 (z.B. die 142te Komponente ist 1) vor, wenn das Molekül ein Atom mit der Beschriftung (C, {C,C,O}) aufweist (d.h. ein Atom C mit drei Nachbarn C, C und O aufweist) .C, O may be labeled with the pair: (C, {C, C, O}) and encoded with a single number (e.g., 142). In a feature vector MV of one molecule, MV [142] = 1 (eg the 142th component is 1) if the molecule has an atom labeled (C, {C, C, O}) (ie an atom C with three neighbors C, C and O).
Dementsprechend kann der Teil des Merkmalsvektors MV, der die gegebene Atomstruktur beschreibt wie folgt aussehen. Zunächst erscheint der Index Li, der die Atomstruktur selbst beschreibt und durch die Sequenz (0, 1, 0) codiert , e Accordingly, the part of the feature vector MV describing the given atomic structure may look like this. First, the index Li, which describes the atomic structure itself and coded by the sequence (0, 1, 0) appears , e
ist, d.h. es handelt sich um ein Kohlenstoffatom. Es folgt der Index L2, der in diesem Beispiel durch die Zahlenfolge 1, 0, 0, 1, 0, 0, ... aufweist. Es handelt sich demzufolge um eine Atomstruktur, die durch ein Kohlenstoffatom, das mit zwei benachbarten Wasserstoffatomen chemisch verbunden ist. Durch Fortsetzung des Merkmalsvektors MV und dem Hinzufügen weiterer Komponenten kann somit ein komplexes Molekül durch einen binären Vektor (einem String, der beispielsweise „0"- und „1"-Komponenten aufweist) beschrieben werden.is, i. it is a carbon atom. This is followed by the index L2, which in this example has the sequence of numbers 1, 0, 0, 1, 0, 0,. It is therefore an atomic structure formed by a carbon atom chemically linked to two adjacent hydrogen atoms. Thus, by continuing the feature vector MV and adding additional components, a complex molecule can be described by a binary vector (a string having, for example, "0" and "1" components).
Fig. 5A zeigt ein Beispiel für einen Merkmalsraum MR, wobei der Einfachheit halb der Merkmalsraum MR nur durch zwei Dimensionen angegeben wurde. Wie zuvor beschrieben, ist die Dimension D des Merkmalsraumes MR im allgemeinen sehr groß (kann oft mehr als 1.000 oder mehr als 100.000 betragen) und wird im wesentlichen durch die Komplexität der verwendeten Moleküle bestimmt. Der Merkmalsraum MR weist eine erste Domain A und eine zweite Domain B auf, die durch eine Domaingrenze H (=Hyperflache in dem Merkmalsraum MR) getrennt sind. Die erste Domain A beschreibt beispielsweise Punkte im Merkmalsraum MR, die pharmazeutisch aktive Molekülen entsprechen und die zweite Domain B umfasst Punkte im Merkmalsraum MR, die pharmazeutisch inaktive Moleküle beschreiben. Beispielsweise ist in Figur 5 gezeigt, dass die erste Domain A fünf Punkte aufweist, die fünf pharmazeutisch aktive Moleküle (al, a2, a3, a4, a5) entsprechen und dass die zweite Domain B vier Punkte umfasst, die pharmazeutisch inaktive Moleküle (bl, b2, b3, b4) entsprechen.Fig. 5A shows an example of a feature space MR, wherein for simplicity, the feature space MR has been given only by two dimensions. As previously described, the dimension D of the feature space MR is generally very large (often greater than 1000 or greater than 100,000) and is essentially determined by the complexity of the molecules used. The feature space MR has a first domain A and a second domain B, which are separated by a domain boundary H (= hypersurface in the feature space MR). For example, the first domain A describes points in the feature space MR that correspond to pharmaceutically active molecules, and the second domain B includes points in the feature space MR that describe pharmaceutically inactive molecules. For example, it is shown in FIG. 5 that the first domain A has five points that correspond to five pharmaceutically active molecules (a1, a2, a3, a4, a5) and that the second domain B comprises four points that contain pharmaceutically inactive molecules (bl, b2, b3, b4).
Die Domaingrenze H kann dabei derart gewählt werden, dass zunächst ein Satz von Molekülen betrachtet wird, deren pharmazeutische Aktivität bekannt ist, d. h. die entweder pharmazeutisch aktiv sind oder nachgewiesenerweise pharmazeutisch inaktiv sind. Für diese bekannten Moleküle werden wie zuvor beschrieben Merkmalsvektoren MV aufgestellt, die Punkte in dem Merkmalsraum MR entsprechen und die in der Figur 5 durch Kreise für pharmazeutisch aktive Moleküle beziehungsweise durch Kreuze für pharmazeutisch inaktive Moleküle dargestellt sind.The domain boundary H can be selected in such a way that initially a set of molecules is considered whose pharmaceutical activity is known, ie which are either pharmaceutically active or have been proven to be pharmaceutically inactive. For these known molecules, as described above, feature vectors MV are set up which correspond to points in the feature space MR and which in FIG. 5 are represented by circles for pharmaceutical active molecules or by crosses for pharmaceutically inactive molecules are shown.
Die erste Domain A und die zweite Domain B sind durch die Domaingrenze H getrennt, die vorzugsweise derart gewählt ist, der Abstand zu den Punkten im Merkmalsraum MR, deren pharmazeutische Aktivität bekannt ist, möglichst groß gewählt ist (maximaler Abstand), d.h. der Abstand zur Domaingrenze H signalisiert den Grad der pharmazeutischen Aktivität. Zum Beispiel zeigt das Molekül al eine geringere pharmazeutische Aktivität als das Molekül a2, welches sich weiter von der Domaingrenze H entfernt befindet als das Molekül al. Der Grad der Aktivität kann beispielsweise über die In-vitro-Tests bestimmt werden, d.h. durch Auswertung von Messserien wie oft ein positives/negatives Resultat hinsichtlich der Aktivität vorlag.The first domain A and the second domain B are separated by the domain boundary H, which is preferably selected such that the distance to the points in the feature space MR whose pharmaceutical activity is known is as large as possible (maximum distance), i. the distance to the domain boundary H indicates the degree of pharmaceutical activity. For example, the molecule al shows a lower pharmaceutical activity than the molecule a2, which is further away from the domain boundary H than the molecule al. The degree of activity can be determined, for example, by the in vitro tests, i. by evaluating series of measurements how often there was a positive / negative result regarding the activity.
Die Entfernung zur Domaingrenze H entspricht dabei der minimalen Entfernung/Abstand und kann beispielsweise als die Länge des Vektors genommen werden, der parallel zu einer Flächennormalen der Domaingrenze H ist und gleichzeitig den Punkt in dem Merkmalsraum MR (z. B. al) schneidet. Es ist ebenfalls zu berücksichtigen, dass die Domaingrenze H im Allgemeinen eine Hyperfläche in einem hochdimensionalen Merkmalsraum MR darstellt und auch als eine Domainwand, die die pharmazeutisch aktive Domain von der pharmazeutisch inaktiven Domain trennt, aufgefasst werden kann. Auf der Domaingrenze H ist folglich die pharmazeutische Aktivität unklar beziehungsweise unbestimmt. Nachdem die Domaingrenze H anhand von Lernbeispielen (Moleküle, deren pharmazeutische Aktivität bekannt ist) gebildet wurde, kann in einem anschließenden Prozess die pharmazeutische Aktivität von Kandidaten untersucht werden, für die das Wissen über deren voraussichtliche pharmazeutische Aktivität wünschenswert ist. Mittels der Entfernung zur Domaingrenze H (d.h. minimaler Abstand) ist es ferner möglich, ein Ranking oder eine Reihenfolge hinsichtlich der pharmazeutischen Aktivität vorzunehmen. Wie in der Fig. 5B gezeigt, können dazu auf einem gerichteten Strahl die Moleküle aufgezeichnet werden, wobei in dem hier gezeigten Ausführungsbeispiel der positive Teil des gerichteten Strahls einer pharmazeutischen Aktivität entspricht und der negative Strahl einer pharmazeutischen Inaktivität entspricht. Der Nullpunkt stellt somit der Domaingrenze H dar. Dieser gerichtete Strahl kann auch durch die Funktion f beschrieben werden, die, wie oben bereits beschrieben, durch eine Support-Vektor-Maschine bestimmbar ist. Im gezeigten Ausführungsbeispiel ist somit das Molekül, das dem Punkt b2 entspricht, auf der negativen Seite aufgetragen und die Moleküle al und a2 auf der positiven Seite aufgetragen, wobei das Molekül a2 einen größeren Wert als das Molekül al aufweist. Diese Darstellung liefert somit ein Ranking hinsichtlich der zu erwartenden pharmazeutischen Aktivität der Moleküle, so dass für a2 eine höhere Aktivität zu erwarten ist als für das Molekül al.The distance to the domain boundary H corresponds to the minimum distance / distance and can be taken, for example, as the length of the vector which is parallel to a surface normal of the domain boundary H and at the same time intersects the point in the feature space MR (eg al). It should also be noted that the domain boundary H generally represents a hypersurface in a high-dimensional feature space MR and may also be thought of as a domain wall separating the pharmaceutically active domain from the pharmaceutically inactive domain. At the domain boundary H, therefore, the pharmaceutical activity is unclear or indeterminate. After the domain boundary H has been formed on the basis of learning examples (molecules whose pharmaceutical activity is known), in a subsequent process it is possible to study the pharmaceutical activity of candidates for whom it is desirable to know about their anticipated pharmaceutical activity. By means of the distance to the domain boundary H (ie minimum distance) it is also possible to make a ranking or an order with regard to the pharmaceutical activity. As shown in Fig. 5B, the molecules can be recorded on a directional beam, in the embodiment shown here the positive part of the directional beam corresponds to a pharmaceutical activity and the negative beam corresponds to a pharmaceutical inactivity. The zero point thus represents the domain boundary H. This directed beam can also be described by the function f, which, as already described above, can be determined by a support vector machine. Thus, in the embodiment shown, the molecule corresponding to the point b2 is plotted on the negative side and the molecules al and a2 are plotted on the positive side, with the molecule a2 having a larger value than the molecule a1. This representation thus provides a ranking with regard to the expected pharmaceutical activity of the molecules, so that a higher activity is to be expected for a2 than for the molecule al.
Fig. 6A veranschaulicht einen ungerichteten Graphen G, der aus sechs Vertices Vl, V2, ... , V6 gebildet wird, die über Kanten E miteinander verbunden sind. Bei einem ungerichteten Graphen ist die Verbindung eines ersten Vertexes mit einem zweiten Vertex gleichbedeutend mit einer Verbindung des zweiten Vertexes mit dem ersten Vertex, während dessen bei einem gerichteten Graphen die Verbindungsrichtung von Bedeutung ist und mit einem entsprechenden Pfeil in der Kante E dargestellt wird (z. B. wenn die Verbindung durch ein gerichtetes Feld gebildet wird) . In dem hier gezeigten Beispiel bilden die Vertices V2, V3, V4, V5 einen Zykel C. Bei einem Zykel C handelt es sich wie gesagt um einen zweifach zusammenhängenden Untergraphen, d.h. zu jedem Vertex eines Zykels S existiert ein geschlossener Weg, entlang dessen ein Pfad zurück zu dem Vertex führt, ohne dass der gleiche Pfad zweimal gegangen zu werden braucht. Anders ausgedrückt, ist ein zweifach zusammenhängender Graph dadurch gegeben, dass bei einem Schnitt durch eine Kante E der zweifach zusammenhängende Graph in einen einfach zusammenhängenden Graphen zerfällt, d. h. immer noch einen zusammenhängenden Graphen bildet. Ein einfach zusammenhängender Graph kann seinerseits dadurch charakterisiert werden, dass bei einem Schnitt durch eine Kante E des einfach zusammenhängenden Graphen der einfach zusammenhängende Graph in zwei Komponenten, die nicht miteinander verbunden sind, zerfällt. Oder, allgemein ausgedrückt, für einen n-fach zusammenhängenden Graphen existiert immer ein Schnitt, so dass der n-fach zusammenhängende Graph in einen (n-l)-fach zusammenhängenden Graphen zerfällt, wobei ein 0-fach zusammenhängender Graph einen unzusammenhängenden Graphen darstellt (getrennte Komponenten) . Einfach zusammenhängende Graphen, die zwei Zykel miteinander verbinden werden auch als Brücken bezeichnet.FIG. 6A illustrates a non-directional graph G formed of six vertices V1, V2,..., V6 which are connected to each other via edges E. FIG. In a non-directional graph, connecting a first vertex to a second vertex is equivalent to connecting the second vertex to the first vertex, while in a directed graph, the connection direction is meaningful and represented by a corresponding arrow in the edge E (e.g. B. when the connection is formed by a directed field). In the example shown here the vertices V2, V3, V4, V5 form a cycle C. As already stated, a cycle C is a doubly connected subgraph, ie for every vertex of a cycle S there exists a closed path along which a path back to leading the vertex without having to go the same path twice. In other words, a two-connected graph is given by the fact that, when intersected by an edge E, the doubly connected graph decays into a simply connected graph, ie still forms a continuous graph. In turn, a simply connected graph may be characterized by the fact that, when intersected by an edge E of the single-connected graph, the simply connected graph decays into two components which are not connected to each other. Or, in general terms, for a n-connected graph, there is always a cut, so that the n-connected graph breaks up into a (nl) -fold connected graph, where a 0-connected graph represents a disjoint graph (separate components ). Simple connected graphs connecting two cycles are also called bridges.
Fig. 6B zeigt ein weiteres Beispiel für einen ungerichteten Graphen, der ebenfalls aus sechs Vertices gebildet wird, wobei jedoch in dem hier gezeigten Beispiel der Graph drei Zykel aufweist, wobei ein erster Zykel Cl durch die Vertices V2, V3, V4 gebildet wird und der zweite Zykel C2 durch die Vertices V3, V4 und V5 gebildet wird und schließlich der dritte Zykel durch die Vertices V2, V3, V5, V4 gebildet ist. Die Vertices V3 und V4 sind in diesem Beispiel dreifach zusammenhängend.Fig. 6B shows another example of a non-directional graph, which is also formed of six vertices, but in the example shown here, the graph has three cycles, wherein a first cycle Cl is formed by the vertices V2, V3, V4 and the second cycle C2 is formed by the vertices V3, V4 and V5 and finally the third cycle is formed by the vertices V2, V3, V5, V4. The vertices V3 and V4 are threefold in this example.
Fig. 7 zeigt ein Beispiel für einen Graphen GM für ein Molekül M. Der Graph GM weist einen ersten Zykel Cl und einen zweiten Zykel C2 auf, die durch eine Brücke Bl miteinander verbunden sind und ferner ist der Zykel Cl mit einer Atomstruktur A verbunden. Die Atomstruktur A weist beispielsweise ein Atom al auf, das drei Nachbaratome nl, n2 und n3 hat. In der oben beschriebenen Notation, in der wiederum angenommen wird, dass die Atome lediglich Wasserstoff H=(I, 0, 0), Kohlenstoff C=(O, 1, 0) und Sauerstoff O=(O, 0, 1) aufweisen, kann das Atom al beispielsweise folgende Labels aufweisen: Li = (0, 1, 0) und L2 = (1, 0, 0, 1, 0, 0, 0, 1, 0) . Die ersten drei Einträge in dem Label L2 identifizieren das Nachbaratom nl, die drei folgenden Einträge das Nachbaratom n2 und die letzten drei Einträge in dem Label L2 identifizieren das dritte Nachbaratom n3. Somit handelt es sich bei dem Atom al um ein Kohlenstoffatom, dem Nachbar nl und n2 um Wasserstoffatome und bei dem Nachbar n3 handelt es sich ebenfalls um ein Kohlenstoffatom. Die Labels Li und L2 bestimmen, wie oben bereits beschrieben, die FATOM- Komponente des Merkmalsvektors MV.Fig. 7 shows an example of a graph G M for a molecule M. The graph G M has a first cycle Cl and a second cycle C2 connected to each other by a bridge Bl, and further, the cycle Cl is an atomic structure A connected. The atomic structure A has, for example, an atom al which has three neighboring atoms n1, n2 and n3. In the notation described above, which again assumes that the atoms are merely If hydrogen H = (I, 0, 0), carbon C = (O, 1, 0) and oxygen O = (O, O, 1), the atom al may have, for example, the following labels: Li = (0, 1, 0) and L 2 = (1, 0, 0, 1, 0, 0, 0, 1, 0). The first three entries in the label L 2 identify the neighboring atom nl, the following three entries identify the neighboring atom n2 and the last three entries in the label L 2 identify the third neighboring atom n3. Thus, the atom al is a carbon atom, the neighbor nl and n2 are hydrogen atoms, and the neighbor n3 is also a carbon atom. The labels Li and L 2 determine, as already described above, the F ATOM component of the feature vector MV.
Ferner weist der Merkmalsvektor MV noch FCYCLE und FTREE auf, wobei im hier gezeigten Beispiel FCYCLE = (1, 1, 0, ...) , wobei der erste Eintrag das Vorhandensein des ersten Zykels Cl und der zweite Eintrag das Vorhandensein des zweiten Zykels C2 und der dritte Eintrag die Abwesenheit eines (nicht vorhandenen) dritten Zykel C3 signalisiert. Da der Zykel Cl und der zweite Zykel C2 voneinander unterschiedlich sind, bekommen sie unterschiedliche Einträge in dem Merkmalsvektor MV. In dem gezeigten Beispiel ist ferner FTREE = (1, 0, 0, ...) , wobei wiederum der erste Eintrag sich auf die Brücke B bezieht und diese identifiziert (das Vorhandensein anzeigt) und die folgenden Einträge in dem oben gezeigten Molekül nicht vorkommen. Jede Brücke und jeder Zykel, die sich durch ihre Atomstruktur voneinander unterscheiden, bekommen somit einen eigenen Eintrag in dem Merkmalsvektor MV. Bei der Aufstellung des Merkmalsvektors MV wird zunächst untersucht, ob diese Atomstruktur (Zykel, Brücke, ...) bereits in dem Merkmalsvektor MV vorhanden ist oder nicht, wenn dies der Fall ist, erfolgt ein Setzen der Komponente (z.B. durch Setzen einer „1"), anderenfalls wird der Merkmalsvektor MV um diese Komponente erweitert. Bei weiteren Äusführungsbeispielen ist es ebenfalls möglich, eine Multiplizität einzuführen, so dass nicht nur binäre Komponenten vergeben werden, sondern dass gleichzeitig auch die Anzahl der vorkommenden Strukturen entsprechend identifiziert wird. Dies kann beispielsweise dadurch erfolgen, dass bei einem Zykel die Zahl in dem Merkmalsvektor MV angibt, wie oft dieser Zykel in dem Molekül vorkommt. Das gleiche trifft natürlich ebenfalls für Brücken und andere in dem Molekül vorkommenden Strukturen zu.Furthermore, the feature vector MV still has F CYCLE and F TREE , where in the example shown here F CYCLE = (1, 1, 0, ...), wherein the first entry the presence of the first cycle Cl and the second entry the presence of second cycle C2 and the third entry signals the absence of a (non-existent) third cycle C3. Since the cycle C1 and the second cycle C2 are different from each other, they get different entries in the feature vector MV. Further, in the example shown, F TREE = (1, 0, 0, ...), again with the first entry referring to and identifying bridge (indicating presence) and the following entries in the molecule shown above occurrence. Each bridge and each cycle, which differ from one another by their atomic structure, thus obtain their own entry in the feature vector MV. In the preparation of the feature vector MV is first examined whether this atomic structure (Zykel, bridge, ...) already exists in the feature vector MV or not, if so, is a setting of the component (eg by setting a "1 Otherwise, the feature vector MV is extended by this component. In other embodiments, it is also possible to introduce a multiplicity so that not only binary components are assigned, but at the same time the number of occurring structures is identified accordingly. This can be done, for example, by the fact that in a cycle the number in the feature vector MV indicates how often this cycle occurs in the molecule. Of course, the same also applies to bridges and other structures occurring in the molecule.
Bei der Darstellung im Merkmalsraum MR kann es vorkommen, dass die Merkmalsvektoren MV der unterschiedlichen Moleküle nur auf Punkte zeigen, die sich nur hinsichtlich einer Untermenge der Dimensionen (d.h. nur entlang bestimmter Richtungen) des Merkmalsraums MR voneinander unterscheiden und in vielen der Komponenten miteinander übereinstimmen. In diesem Fall kann die Dimensionalität des Merkmalsraumes MR beziehungsweise die Berechnung des Abstandes zur Domaingrenze H dadurch vereinfacht werden, dass nur der Unterraum zu betrachten ist, in welchem sich die Merkmalsvektoren MV voneinander signifikant unterscheiden. In dem in Fig. 5 gezeigten Beispiel, könnte es z. B. so sein, dass sich die dargestellten Punkte bzgl. der dritten Dimension (Höhe) kaum oder nicht voneinander unterscheiden. Zum Beispiel könnte der Unterschied (der Höhenwert bspw.) weniger als 50 oder weniger als 10 oder weniger als 1 Prozent der Entfernung der Punkte zu der Domaingrenze ausmachen. In einem solchen Fall kann beispielsweise der Höhenwert zur Bestimmung des Abstandes zu der Domaingrenze vernachlässigt werden und somit verringert sich die Dimensionalität des MerkmaIsräumes effektiv, wodurch der Rechenaufwand deutlich reduziert wird.In the representation in the feature space MR, it may happen that the feature vectors MV of the different molecules only point to points that differ from each other only in terms of a subset of the dimensions (i.e., only along certain directions) of the feature space MR, and coincide with each other in many of the components. In this case, the dimensionality of the feature space MR or the calculation of the distance to the domain boundary H can be simplified by considering only the subspace in which the feature vectors MV differ significantly from one another. In the example shown in Fig. 5, it could e.g. B. be such that the points shown with respect to the third dimension (height) hardly or not differ from each other. For example, the difference (altitude value, for example) could be less than 50 or less than 10 or less than 1 percent of the distance of the points to the domain boundary. In such a case, for example, the height value for determining the distance to the domain boundary may be neglected, and thus the dimensionality of the feature space is effectively reduced, thereby significantly reducing the computational effort.
Ausführungsbeispiele der vorliegenden Erfindung können somit die Vorhersage der pharmazeutischen Aktivität signifikant erhöhen. Dies ist insbesondere dadurch möglich geworden, dass nicht nur die Atomstruktur selbst, sondern auch die Nachbarn der Atomstruktur mit einbezogen werden. Es hat sich gezeigt, dass eine Wechselwirkung zwischen der Atomstruktur und der Nachbarn einen deutlichen Einfluss auf die pharmazeutische Aktivität des jeweiligen Moleküls hat. Somit werden nicht nur die Atomstrukturen, die Zykel, die verbindenden Brücken erfasst, sondern jeweils auch die zu diesen Strukturen, Zykeln, Brücken gehörenden Nachbarn in der Parametrisierung des Merkmalsraums MR mit hinzugenommen .Thus, embodiments of the present invention can significantly increase the prediction of pharmaceutical activity. This has become possible in particular because not only the atomic structure itself but also including the neighbors of the atomic structure. It has been shown that an interaction between the atomic structure and the neighbors has a significant influence on the pharmaceutical activity of the respective molecule. Thus, not only the atomic structures, the cycles, the connecting bridges are detected, but also the neighbors belonging to these structures, cycles, bridges are added in the parameterization of the feature space MR.
Ferner ist die vorliegende Erfindung vorteilhaft, da sie ein Ranking für die Moleküle bietet (z. B. durch den Funktionswert der Funktion f) und nicht nur eine Vorhersage für eine pharmazeutische Aktivität oder Inaktivität liefert. Da die Anzahl der zu untersuchenden Moleküle beispielsweise mehr als eine Million betragen kann, von denen beispielsweise lediglich 20 hinsichtlich ihrer Aktivität bekannt sind, ist ein solches Ranking von herausragender Bedeutung. Nur dadurch ist es möglich, von den mehr als eine Million vorhandenen Molekülen jene zu betrachten, deren pharmazeutische Aktivität am wahrscheinlichsten erscheint. Die Gesamtheit aller als pharmazeutisch aktive eingestufter Moleküle könnten nämlich immer noch viel zu umfangreich sein, um an allen In-vitro- Tests durchzuführen. Nur durch ein Ranking wird das Problem gelöst.Further, the present invention is advantageous in that it provides a ranking for the molecules (eg, by the function value of function f) and provides not only a prediction for a pharmaceutical activity or inactivity. For example, since the number of molecules to be assayed may be more than one million, of which, for example, only 20 are known for their activity, such a ranking is of paramount importance. Only in this way is it possible to consider among the more than one million existing molecules those whose pharmaceutical activity is most likely to appear. In fact, the totality of all molecules classified as pharmaceutically active could still be far too extensive to perform on all in vitro assays. Only a ranking will solve the problem.
Sofern nicht alle bekannten -Moleküle zum Aufstellen der Domaingrenze H herangezogen werden, können die verbleibenden bekannten Moleküle dazu genutzt werden, um die Zuverlässigkeit des Verfahrens zu überprüfen und eventuell Nachjustierungen vorzunehmen (Verschiebungen der Domaingrenze H) , so dass die Qualität der Aussage sich weiter erhöhen lässt. Somit bietet die vorliegende Erfindung ebenfalls eine Möglichkeit einer Fehlerabschätzung. Ferner ist es möglich, bei Ausführungsbeispielen eine Zeitersparnis dadurch zu erreichen, dass eine Redundanz vernachlässigt wird. Ein Beispiel für eine Redundanz ist die oben erwähnte Unabhängigkeit der pharmazeutischen Aktivität hinsichtlich bestimmter Merkmale oder Merkmalskombinationen (bestimmte Atomstrukturen, bestimmte Zykel, usw.), die, sofern sie im Merkraalsraum MR berücksichtigt werden, nur eine geringere Variation der Punkte liefern. Die Dimension des Merkmalsvektors MV kann nämlich bis zu 100.000 betragen, wobei jedoch nur eine kleinere Untermenge davon Richtungen (Merkmale oder Merkmalskombinationen) sind, in denen sich die Punkte im Merkmalsraum MR signifikant voneinander unterscheiden. Diese Untermenge kann beispielsweise lediglich 20 bis 50 Zahlen (Richtungen) betragen und eine Projektion auf diesen 20- bis 50-dimensionalen Unterraum ist oft sinnvoll, so dass diese entsprechenden Komponenten bei der Auswertung entsprechend vernachlässigt werden können, wodurch sich eine enorme Zeitersparnis ergibt.Unless all known molecules are used to establish the domain boundary H, the remaining known molecules can be used to verify the reliability of the process and possibly make readjustments (shifts in the Domaingreze H), so that the quality of the statement continue to increase leaves. Thus, the present invention also offers a possibility of error estimation. Furthermore, it is possible to achieve a time saving in embodiments in that a redundancy is neglected. An example of redundancy is the above-mentioned independence of pharmaceutical activity with respect to particular features or combinations of features (particular atomic structures, particular cycles, etc.) that, if taken into account in the memory space MR, provide only a lesser variation in the points. Namely, the dimension of the feature vector MV can be up to 100,000, but only a smaller subset thereof are directions (features or feature combinations) in which the points in the feature space MR are significantly different from each other. This subset may be, for example, only 20 to 50 numbers (directions) and a projection on this 20- to 50-dimensional subspace is often useful, so that these respective components can be neglected accordingly in the evaluation, resulting in a tremendous time savings.
In ähnlicher Weise ist es bei weiterenSimilarly, it is with others
Ausführungsbeispielen möglich, alle jene KomponentenEmbodiments possible, all those components
(=Merkmalskombinationen) zu vernachlässigen, die einer parallelen Verschiebung des Punktes im Merkmalsraum MR zu der Hyperflache H entsprechen. Interessant ist bei der Auswertung jene Richtung im Merkmalsraum MR (jene Merkmalskombination) zu finden, die senkrecht zur Domaingrenze H verläuft (oder parallel zum Normalenvektor) , da gerade die Entfernung in dieser Richtung ein Ranking für die pharmazeutische Aktivität des Moleküls liefert.(= Feature combinations), which correspond to a parallel shift of the point in the feature space MR to the hypersurface H. It is interesting to find in the evaluation that direction in the feature space MR (that combination of features) which is perpendicular to the domain boundary H (or parallel to the normal vector), since the distance in this direction provides a ranking for the pharmaceutical activity of the molecule.
Insbesondere wird darauf hingewiesen, dass abhängig von den Gegebenheiten das erfindungsgemäße Schema auch in Software implementiert sein kann. Die Implementierung kann auf einem digitalen Speichermedium, insbesondere einer Diskette oder einer CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, dass das entsprechende Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computerprogrammprodukt mit auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn das Computerprogrammprodukt auf einem Rechner abläuft. In anderen Worten ausgedrückt kann die Erfindung somit als ein Computerprogramm mit einem Programmcode zur Durchführung des Verfahrens realisiert werden, wenn das Computerprogramm auf einem Computer abläuft. In particular, it should be noted that, depending on the circumstances, the inventive scheme can also be implemented in software. The implementation may be on a digital storage medium, in particular a floppy disk or a CD with electronically readable control signals, which may interact with a programmable computer system such that the corresponding method is performed. In general, the invention thus also consists in a computer program product with program code stored on a machine-readable carrier for carrying out the method according to the invention when the computer program product runs on a computer. In other words, the invention can thus be realized as a computer program with a program code for carrying out the method when the computer program runs on a computer.

Claims

Patentansprüche claims
1. Vorrichtung zum Bestimmen einer pharmazeutischen Aktivität eines Moleküls (M), mit folgenden Merkmalen:1. Device for determining a pharmaceutical activity of a molecule (M), having the following features:
einer Einrichtung (110) zum Bestimmen von in dem Molekül auftretenden Atomstrukturen;means (110) for determining atomic structures occurring in the molecule;
einer Einrichtung (120) zum Zuweisen eines Merkmalsindex (MI) zu einer der auftretenden Atomstrukturen in dem Molekül (M) abhängig von der jeweiligen Atomstruktur und einer Nachbarschaft der jeweiligen Atomstruktur in dem Molekül (M) ;means (120) for assigning a feature index (MI) to one of the occurring atomic structures in the molecule (M) depending on the respective atomic structure and a neighborhood of the respective atomic structure in the molecule (M);
einer Einrichtung (130) zum Ermitteln eines Merkmalsvektors (MV) für das Molekül (M) abhängig von dem zugewiesenen Merkmalsindex (MI), wobei der Merkmalsvektor (MV) auf einen Punkt in einem Merkmalsraum (MR) zeigt, wobei der Merkmalsraum (MR) eine erste Domain (A) , die pharmazeutisch aktiven Molekülen entspricht, und eine zweite Domain (B) , die pharmazeutisch inaktiven Molekülen entspricht, aufweist; undmeans (130) for determining a feature vector (MV) for the molecule (M) as a function of the assigned feature index (MI), wherein the feature vector (MV) points to a point in a feature space (MR), the feature space (MR) a first domain (A) corresponding to pharmaceutically active molecules and a second domain (B) corresponding to pharmaceutically inactive molecules; and
einer Einrichtung (140) zum Bestimmen einer Zugehörigkeit des Punktes zu der ersten Domain (A) oder der zweiten Domain (B) .a device (140) for determining an affiliation of the point to the first domain (A) or the second domain (B).
2. Vorrichtung nach Anspruch 1, bei der die Atomstruktur ein Atom, einen Zykel oder eine Brücke aufweist, wobei der Zykel oder die Brücke durch chemisch miteinander verbundene Atome gebildet sind und bei der die Einrichtung (120) zum Zuweisen ausgebildet ist als Merkmalsindex (MI) ein Label (Li) zuzuweisen, wobei das Label (Li) das Atom, den Zykel oder die Brücke identifiziert. _The apparatus of claim 1, wherein the atomic structure comprises an atom, a nucleus or a bridge, wherein the nucleus or the bridge is formed by chemically linked atoms and wherein the means (120) is arranged to assign as a feature index (MI ) assign a label (Li), where the label (Li) identifies the atom, the nucleus or the bridge. _
- 26 -- 26 -
3. Vorrichtung nach Anspruch 1 oder Anspruch 2, bei der die Einrichtung (120) zum Zuweisen ausgebildet ist als Merkmalsindex (MI) einen vorbestimmten Wert zuzuweisen, sofern eine vorbestimmte Atomstruktur in dem Molekül (M) vorhanden ist.An apparatus according to claim 1 or claim 2, wherein said means (120) for assigning is arranged to assign a predetermined value as a feature index (MI) if a predetermined atomic structure exists in the molecule (M).
4. Vorrichtung nach Anspruch 3, bei dem der Merkmalsindex (MI) binär ist, so dass der vorbestimmte Wert einer logischen „1" entspricht.A device according to claim 3, wherein the feature index (MI) is binary such that the predetermined value corresponds to a logical "1".
5. Vorrichtung nach einem der vorhergehenden Ansprüche, bei dem die Nachbarschaft eine Menge von Atomen aufweist, die in chemischer Verbindung zu der Atomstruktur steht und bei der die Einrichtung (110) zum Bestimmen ferner ausgebildet ist, die Menge von Atome zu analysieren und ein weiteres Label (L2) zuzuweisen, wobei das weitere Label (L2) die Menge der Atome identifiziert.The apparatus of any one of the preceding claims, wherein the neighborhood comprises a set of atoms in chemical communication with the atomic structure, and wherein the means (110) for determining is further configured to analyze the amount of atoms and another Label (L 2 ) assign, where the other label (L 2 ) identifies the amount of atoms.
6. Vorrichtung nach Anspruch 5, bei der die Nachbarschaft einen Zykel oder eine Brücke aufweist und das weitere Label (L2) den Zykel oder die Brücke identifiziert.6. Apparatus according to claim 5, wherein the neighborhood comprises a cycle or a bridge and the further label (L 2 ) identifies the cycle or the bridge.
7. Vorrichtung nach einem der Ansprüche 2 bis 6, bei dem der Zykel einen zweifach zusammenhängenden7. Device according to one of claims 2 to 6, wherein the Zykel a two-connected
Untergraphen darstellt und die Brücke einen einfach zusammenhängenden Untergraphen darstellt, wobei der Untergraph durch Vertices und Kanten gebildet ist, wobei die Vertices Atome und die Kanten chemische Bindungen darstellen.Represents the subgraph and the bridge represents a simply connected subgraph, where the subgraph is formed by vertices and edges, where the vertices represent atoms and the edges represent chemical bonds.
8. Vorrichtung nach einem der Ansprüche 2 bis 7, bei dem das Molekül (M) verschiedene Zykel aufweist und die Einrichtung (120) zum Zuweisen ausgebildet ist, verschiedenen Zykel verschieden Merkmalsindices (MI) zuzuweisen. 8. Device according to one of claims 2 to 7, wherein the molecule (M) has different Zykel and the means (120) is adapted for assigning different Zykel different feature indices (MI) assign.
9. Vorrichtung nach einem der vorhergehenden Ansprüche, bei dem die Einrichtung (130) zum Ermitteln ausgebildet ist, anhand von Testbeispielen die erste Domain (A) und die zweite Domain (B) zu bestimmen, wobei die Testbeispiele eine bekannte pharmazeutische Aktivität aufweisen.9. Device according to one of the preceding claims, wherein the means (130) is designed for determining, based on test examples, the first domain (A) and the second domain (B) to determine, the test examples having a known pharmaceutical activity.
10. Vorrichtung nach einem der vorhergehenden Ansprüche, bei dem die Einrichtung (130) zum Ermitteln ausgebildet ist, eine Domaingrenze (H) , die die erste Domain (A) von der zweiten Domain (B) voneinander trennt, anhand von Testbeispielen zu bestimmen, wobei die Testbeispiele eine bekannte pharmazeutische Aktivität aufweisen und Punkte im Merkmalsraum (MR) darstellen, und wobei die Domaingrenze (H) einen maximalen Abstand zu den Testbeispielen aufweist.10. Device according to one of the preceding claims, wherein the means (130) is designed for determining a Domaingreze (H), which separates the first domain (A) from the second domain (B) from each other to determine by means of test examples, wherein the test examples have a known pharmaceutical activity and represent points in feature space (MR), and wherein the domain boundary (H) has a maximum distance from the test examples.
11. Vorrichtung nach einem der vorhergehenden Ansprüche, bei dem die Einrichtung (140) zum Bestimmen ausgebildet ist, die Zugehörigkeit des Punktes für weitere Moleküle, deren pharmazeutischen Aktivität bekannt ist, zu bestimmen und die bestimmte Zugehörigkeit zu nutzen, um die Zuverlässigkeit bei der Bestimmung der pharmazeutischen Aktivität zu überprüfen.An apparatus according to any one of the preceding claims, wherein the means (140) for determining is arranged to determine the affiliation of the point to other molecules whose pharmaceutical activity is known and to use the particular affiliation to determine the reliability in the determination to check the pharmaceutical activity.
12. Vorrichtung nach einem der vorhergehenden Ansprüche, bei dem die Einrichtung (140) " zum Bestimmen ausgebildet ist, einen Abstand zu der Domaingrenze (H) zu bestimmen und Abstände zu der Domaingrenze (H) für verschiedene Moleküle zu vergleichen, um dadurch eine Reihenfolge hinsichtlich der zu erwartenden pharmazeutischen Aktivität für die verschiedenen Moleküle festzulegen.A device according to any one of the preceding claims, wherein the means (140) "is arranged to determine a distance to the domain boundary (H) and to compare distances to the domain boundary (H) for different molecules, thereby ordering regarding the expected pharmaceutical activity for the different molecules.
13. Vorrichtung nach einem der vorhergehenden Ansprüche, bei dem die Einrichtung (120) zum Zuweisen ausgebildet ist, einen neuen Merkmalsindex (MI) für eine weitere Atomstruktur zuzuweisen und bei dem die Einrichtung (130) zum Ermitteln ausgebildet ist den Merkmalsvektor (MV) um den neuen Merkmalsindex (MI) zu erweitern.13. Device according to one of the preceding claims, wherein the means (120) is adapted for assigning, a new feature index (MI) for another Atomic structure and in which the device (130) is designed to determine the feature vector (MV) to expand the new feature index (MI).
14. Vorrichtung nach einem der vorhergehenden Ansprüche, bei dem die Einrichtung (120) zum Zuweisen ausgebildet ist, einen vorbestimmten Merkmalsindex (MI) für eine vorbestimmte Ätomstruktur zuzuweisen und bei der die Einrichtung (130) zum Ermitteln ausgebildet ist eine Komponente des Merkmalsvektors (MV) auf einen vorbestimmten Wert zu setzen.14. An apparatus according to any one of the preceding claims, wherein the means (120) for assigning is adapted to assign a predetermined feature index (MI) for a predetermined aetomic structure and wherein the means (130) is arranged to determine a component of the feature vector (MV ) to a predetermined value.
15. Verfahren zum Bestimmen einer pharmazeutischen Aktivität eines Moleküls mit folgenden Schritten:15. A method for determining a pharmaceutical activity of a molecule comprising the steps of:
Bestimmen von in dem Molekül (M) auftretenden Atomstrukturen;Determining atomic structures occurring in the molecule (M);
Zuweisen eines Merkmalsindex zu einer der auftretenden Atomstrukturen in dem Molekül (M) abhängig von der jeweiligen Atomstruktur und der Nachbarschaft der jeweiligen Atomstruktur in dem Molekül;Assigning a feature index to one of the occurring atomic structures in the molecule (M) depending on the particular atomic structure and the neighborhood of the respective atomic structure in the molecule;
Ermitteln eines Merkmalsvektors (MV) für das Molekül (M) abhängig von dem zugewiesenen Merkmalsindex (MI), wobei der Merkmalsvektor (MV) auf einem Punkt in einem Merkmalsraum (MR) zeigt, wobei der Merkmalsraum (MR) eine erste Domain (A) , die pharmazeutisch aktiven Molekülen entspricht, und eine zweite Domain (B) , die pharmazeutisch inaktiven Molekülen entspricht, aufweist; undDetermining a feature vector (MV) for the molecule (M) as a function of the assigned feature index (MI), wherein the feature vector (MV) points to a point in a feature space (MR), the feature space (MR) defining a first domain (A) which corresponds to pharmaceutically active molecules and a second domain (B) corresponding to pharmaceutically inactive molecules; and
Bestimmen einer Zugehörigkeit des Punktes zu der ersten Domain (A) oder zu der zweiten Domain (B) .Determining an affiliation of the point to the first domain (A) or to the second domain (B).
16. Computerprogramm mit einem Programmcode zur Durchführung des Verfahrens nach Anspruch 16, wenn das Computerprogramm auf einem Computer abläuft. 16. Computer program with a program code for carrying out the method according to claim 16, when the computer program runs on a computer.
PCT/EP2008/010779 2008-01-18 2008-12-17 Device and method for determining a pharmaceutical activity of a molecule WO2009089890A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP08870846A EP2232395A1 (en) 2008-01-18 2008-12-17 Device and method for determining a pharmaceutical activity of a molecule

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102008005062.8 2008-01-18
DE102008005062A DE102008005062B4 (en) 2008-01-18 2008-01-18 Apparatus and method for determining a pharmaceutical activity of a molecule

Publications (1)

Publication Number Publication Date
WO2009089890A1 true WO2009089890A1 (en) 2009-07-23

Family

ID=40456306

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2008/010779 WO2009089890A1 (en) 2008-01-18 2008-12-17 Device and method for determining a pharmaceutical activity of a molecule

Country Status (3)

Country Link
EP (1) EP2232395A1 (en)
DE (1) DE102008005062B4 (en)
WO (1) WO2009089890A1 (en)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101129126B1 (en) * 2003-10-14 2012-06-01 베르선 Method and apparatus for analysis of molecular configurations and combinations

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BENDER ANDREAS ET AL: "Similarity searching of chemical databases using atom environment descriptors (MOLPRINT 2D): evaluation of performance.", JOURNAL OF CHEMICAL INFORMATION AND COMPUTER SCIENCES 2004 SEP-OCT, vol. 44, no. 5, September 2004 (2004-09-01), pages 1708 - 1718, XP002520926, ISSN: 0095-2338 *
JORISSEN ROBERT N ET AL: "Virtual screening of molecular databases using a support vector machine.", JOURNAL OF CHEMICAL INFORMATION AND MODELING 2005 MAY-JUN, vol. 45, no. 3, May 2005 (2005-05-01), pages 549 - 561, XP002520927, ISSN: 1549-9596 *
RAYMOND JOHN W ET AL: "Effectiveness of graph-based and fingerprint-based similarity measures for virtual screening of 2D chemical structure databases", JOURNAL OF COMPUTER-AIDED MOLECULAR DESIGN, ESCOM SCIENCE PUBLISHERS BV, XX, vol. 16, no. 1, 1 January 2002 (2002-01-01), pages 59 - 71, XP002466665, ISSN: 0920-654X *

Also Published As

Publication number Publication date
DE102008005062B4 (en) 2011-12-15
DE102008005062A1 (en) 2009-07-23
EP2232395A1 (en) 2010-09-29

Similar Documents

Publication Publication Date Title
DE69031758T2 (en) Process for organizing and accessing product descriptive data in connection with a technical process
DE69014613T2 (en) GENETIC SYNTHESIS OF NEURONAL NETWORKS.
DE19646624B4 (en) Method and computer system for identifying conformationally elastic molecules
DE10134229A1 (en) Computer supported method for automatic determination of differences in a data table comprising a large number of records and columns without having to have prior knowledge of the contents of the database table
DE10149693A1 (en) Objects in a computer system
DE112010000947T5 (en) Method for completely modifiable framework data distribution in the data warehouse, taking into account the preliminary etymological separation of said data
EP3736817A1 (en) Checking and / or improvement in the consistency of data codes in medical image processing
WO2012052106A1 (en) Method for classifying patterns in image data records
DE102008005062B4 (en) Apparatus and method for determining a pharmaceutical activity of a molecule
WO2023139081A1 (en) Method for producing a monitoring apparatus of an automation installation
DE19908204A1 (en) Fractal n-th order network for handling complex structures
DE102007044380A1 (en) Computer-aided studying of probabilistic network from data record of measured, experimentally determined and/or empirical values, comprises studying structure of non-directed graphs having nodes and non-directed edges from the data record
DE19906868C1 (en) Method of calculating discrete orthogonal transformation, such as FFT or IFFT e.g. for telecommunications engineering
EP2530604B1 (en) Computer-implemented method and device for producing a structure tree
DE102022207482B4 (en) Computer-implemented method for determining a data quality index, computer program and control unit
EP1451750B1 (en) Method for the identification of pharmacophores
DE60212830T2 (en) SURF2LEAD
DE19951078C2 (en) Pattern classification procedure
EP0843864A1 (en) Method of classification and recognition of patterns according to which a signature is produced by smoothing a polygon outline
EP0863485B1 (en) Method of reconstruction of patterns
DE102022128342A1 (en) Methods and systems for semantic segmentation of a source text image based on text area thresholding
DE19625906A1 (en) Method for calculating and / or analyzing and / or recognizing a complex system
EP4160446A1 (en) Capability analysis of a component within an industrial automation system
DE10358332A1 (en) A method, computer program with program code means and computer program product for analyzing a regulatory genetic network of a cell
DE102014210640A1 (en) Method and device for visualizing a system of equations

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08870846

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
NENP Non-entry into the national phase

Ref country code: DE

REEP Request for entry into the european phase

Ref document number: 2008870846

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2008870846

Country of ref document: EP