MXPA04004549A - Procedimiento para la identificaion de farmacoforos. - Google Patents

Procedimiento para la identificaion de farmacoforos.

Info

Publication number
MXPA04004549A
MXPA04004549A MXPA04004549A MXPA04004549A MXPA04004549A MX PA04004549 A MXPA04004549 A MX PA04004549A MX PA04004549 A MXPA04004549 A MX PA04004549A MX PA04004549 A MXPA04004549 A MX PA04004549A MX PA04004549 A MXPA04004549 A MX PA04004549A
Authority
MX
Mexico
Prior art keywords
variables
determination
active unit
variations
descriptors
Prior art date
Application number
MXPA04004549A
Other languages
English (en)
Inventor
Schuppert Andreas
Original Assignee
Bayer Technology Services Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bayer Technology Services Gmbh filed Critical Bayer Technology Services Gmbh
Publication of MXPA04004549A publication Critical patent/MXPA04004549A/es

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Hematology (AREA)
  • Chemical & Material Sciences (AREA)
  • Urology & Nephrology (AREA)
  • Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • Microbiology (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Cell Biology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)
  • Saccharide Compounds (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

La invencion se refiere a un sistema de ordenador y a un procedimiento para la identificacion de un farmacoforo molecular con las etapas siguientes:- introduccion de descriptores de substancias, presentando cada descriptos un numero de variables (V1, V2, ..., Vn), e introduccion de las actividades adscritas a los descriptores (Rp),- determinacion de variaciones binarias para dupletas de variables,- adscripcion de un par de variables (V1, Vj) a una unidad activa del farmacoforo, presentando la unidad activa exactamente dos variables, cuando la variacion binaria del par de variables sea dos,- determinacion de variaciones ternarias para tripletes de variables (vi, Vj, Vk),- determinacion de candidatos de pares de variables a partir de las variaciones ternarias para la adscripcion a un unidad activa comun, presentando la unidad activa comun dos o mas variables, y determinacion de un numero de variables para cada candidato de par de variables, que contenga aquellas variables, que tengan que ser adscritas, a una unidad de accion diferente de la unidad de accion conjunta, en el momento de la adscripcion del candidato de par de variables a la unidad activa comun,- determinacion de un agrupamiento exento de conflictos del numero de variables para la identificacion de la unidad activa comun.

Description

PROCEDIMIENTO PARA LA IDENTIFICACION DE FARMACOFOROS Campo de la invención. La presente invención se refiere a un procedimiento para la identificación de un farmacóforo molecular así como a un programa de ordenador correspondiente y al sistema de ordenador . Antecedentes de la invención La busca de farmacóforos moleculares a partir de datos experimentales es una etapa decisiva en la busca de nuevos productos activos. Por el estado de la técnica se conoce ya el hecho de investigar las reacciones de un gran número de substancias definidas, procedentes de una biblioteca substancias , con una molécula objetivo definida previamente la denominada diana- para la obtención de datos experimental L!es. Las substancias de la biblioteca de substancias se clasifican según la reacción con la diana. Una posibilidad para la clasificación consiste, en este caso, en una clasificación binaria, es decir, por ejemplo según "0" lógico, es decir ausencia de reacción y "1" lógico, es decir que se produce una reacción. Para e desarrollo de un producto activo es decisivo identificar a partir de la clasificación de las substancias individúale y de su estructura química conocida, subunidades farmacológicamente relevantes (farmacóforos) . Esto comprende Ref.: 155660 también la identificación de las denominadas estructuras directricesI, que están constituidas por subunidades de una molécula definidas perfectamente desde el punto de vista químico, relacionadas entre sí. Se denomina como farmacóforo y, especialmente, a modo de estructura directriz, una subunidad molecular, que sea relevante para la aptitud de la reacción con la diana. En este caso carece de importancia el que la contribución de una subunidad refuerce o inhiba la reacción. Los farmacóforos no tienen que constituir necesariamente 0 una subunidad molecular conpacta. Es perfectamente posible que subunidades moleculares, separadas en el espacio, contribuyan a la actividad de manera cooperativa. Los descriptores biológicos o químicos o bien las estructuras moleculares se codifican en un vector de entrada. 5 El perfil de actividad es una función desconocida a priori, i que depende de la estructura molecular. Por lo tanto, se denomina a esta función a continuación como relación estructura-alctividad (SWB) . A partir de su forma funcional puede derivarse el farmacóforo, si se relacionan las 0 contribuciones a la actividad de las variables de entrada con un reducido número de unidades con actividad, que generan, i . conjuntamente, la SWB (véase la publicación J. Bajorath. t "Selected Concepts and Investigations in Compound t Classification, Molecular Descriptor Analysis, and Virtual ) 5 Screening", J. Chem. In. Comput . Sci., 2001, 41, 233-2459).
Cuando se ha identificado un farmacóforo, podrá optimarse e1 producto activo mediante variación sistemática del mismo. Para el optimado sistemático de un farmacóforo, identificado, existen procedimientos establecidos. Para 1a identificación de farmacóforos se emplea una combinación de diversos métodos : 1. ) De1finición de subgrupos estructurales de las estructuras moleculares (huellas dactilares) , así como la determinación de los descriptores químicos y/o biológicos correspondientes a las estructuras moleculares individuales. Los descriptores son magnitudes químicas específicas de la molécula (por ejemplo acidez, número de grupos OH, etc) , o magnitudes biológicas (tal como la toxicidad) . Las huellas dactilares se codifican en forma de series binarias. En este es.so, cada punto de la serie designa un subgrupo molecular. Se asigna un 1 en un punto de la serie, cuando el subgrupo correspondiente esté presente en la estructura molecular, en otro caso se asigna un 0. De acuerdo con la experiencia es importante la elección de los subgrupos moleculares para el éxito de la identificación del farmacóforo y constituye el objeto de una investigación actual (véanse las publicaciones de la patente I US N° 6.240.374 y de la patente US N° 6.208.942). En el caso de las huellas dactilares pueden codificarse, no solo la presencia de los subgrupos, sino también su relación en la estructura química de · la molécula. El desarrollo de huellas dactilares óptimas, que pueden ser empleadas de manera genérica, equivale, sin embargo, a la identificación de los farmacóforos y no ha sido resuelto todavía. ) Se aplican a las huellas dactilares procedimientos para 1e. reducción de datos. Los que se emplean con mayor frecuencia, en este caso, son los análisis de los componentes principales (PCA: Principal Component Analysis) y los procedimientos de agrupamiento . De este modo se reducen, considerablemente, las series demasiado largas, reduciéndose la complejidad del problema para la identificación de los farmacóforos. Puesto que todos los procedimientos existentes este respecto son heurísticos contienen cualquier tipo información sobre la estructura activa, existe el peligro| de que, mediante la reducción se eliminen informaciones que fuesen relevantes para la actividad. No existen métodos que eviten esta sistemática. Se aplican a los conjuntos de datos (reducidos) procediriientos establecidos de explotación de datos, para encontrar las relaciones estructura-actividad entre las huellas dactilares/descriptores y la actividad f rmacológica .
Los procedimientos más empleados son árboles de decisión, reglas de asociación, redes neuronales . En el caso de los árboles de decisión y de las reglas de asociación se intenta conseguir, con distintos métodos combinatorios, una descripción de la relación estructura-actividad con empleo del menor número posible de variables.
Por lo tanto, un procedimiento de este tipo puede separar entre sí variables estructurales relevantes y no relevantes para la actividad. Constituye un inconveniente el que, en este caso, únicamente pueden identificarse como relevantes, en pnncipio, aquellas unidades activas que tengan una contribución positiva o negativa a la actividad, independientemente de la posición de las variables estructúrale 5s restantes. En el caso más frecuente, en el que se presenta una interacción entre varias unidades activas, esta puede identificarse entonces únicamente cuando se presente siempre un reforzado o un debilitado da la actividad total . En todos los casos, en los que se presente una interacción compleja entre las unidades activas por motivos estructurales químicos, esto no puede ser identificado por los procedimientos anteriormente citados . En estos casos tampoco se reconocen los agrupamientos de variables estructurales para dar unidades activas. Otro inconveniente del procedimiento consiste en que no pueden reconocerse básicamente las interacciones complejas, múltiples, entre las unidades actiivas. En contra de lo que ocurre del caso de los árboles de decisión y ae las reglas de asociación, las redes neuronales aprenden "de memoria" la SWB por medio de los datos existentes . Estas son capaces de formar correctamente incluso interaccione's complejas de muchas variables. Su inconveniente esencial consiste en que únicamente pueden suministrar una SWB formal . No pueden obtenerse informaciones explícitas sobre una estructuración funcional de la SWB. De este modo su contribución a la identificación de farmacóforos está limitada a que posibilitan una representación compacta de la SWB así como interpolaciones entre las posiciones medidas de las variables. Estas no pueden proporcionar una contribución directa, en función de su construcción, para el estructurado de la SWB. Por lo tanto es posible solo de manera muy condicionada una identificación química, relevante, de un farmacóforo . Un segundo inconveniente consiste en que la elevada flexibilidad de las redes neuronales conducen a que disminuya, en gran medida, debido a la sobrecarga, la fiabilidad de la predicción por medio de una red neuronal en el caso de los conjuntos de datos exponenciales presentes o se conocen procedimientos que permitan la integración explícita | de conocimientos previos y que generen, adicionalmente, a partir de los datos, informaciones sobre la estructura funcional de la SWB. Por otra parte, se ha podido demostrar recientemente la integración explícita de conocimientos previos en estructuras reticulares neuronales en forma de modelos híbridos estructurados y comprobarse el aumento de eficacia, conseguido de este modo, por el modelado de correlaciones complejas (véase la publicación Schuppert, Extrapolability of Structured Hybrid Models: a Key to Optimización of Complex Proceses, en: Proceedings of EquaDiff 99, Fiedler, Gróger, Sprekels Eds., World Scientific Publishing, 2000) .
Los modelos híbridos estructurados contienen redes neuronales, que están interconectadas entre sí de acuerdo con la estructura funcional de la SWB prefijada a priori . Las unidades activas, realizadas en forma de redes neuronales, se entrenan ent|bnces por medio de los datos presentes de manera similar a la que lo hacen las redes neuronales no estructuradas. Ha podido ser demostrado que, en este caso, puede ser reducido en gran medida el problema de la sobrecarga . Además, los modelos híbridos estructurados posibilitan jna extrapolación de los datos, que es imposible, en principio , con las redes neuronales puras, Para la aplicación en la identificación de farmacóforos no puede apiicarse el modelo híbrido estructurado en tanto en cuanto no sea conocida, a priori , la estructura funcional de la SWB buscada. Puesto que, en general, esto no ocurre, desaparece una condición previa fundamental para el empleo de los modelos híbridos estructurados. Por el contrario, la determinación de la estructura funcional de la SWB es incluso el componente decisivo en la busca de los farmacoforos. Sin embargo, no se ha conseguido hasta el presente la determinación, a la inversa, de la estructura funcional de la SWB a partir de los datos existentes. Así pues en el estado de la técnica faltan métodos seguros para la identificación de farmacoforos para una diana dada. Sumario de la invención. La invención tiene como tarea conseguir un procedimiento para la identificación de farmacoforos moleculares así como un programa correspondiente de ordenador y un sistema de ordenador. La ta ea, en la que está basada la invención, se resuelve respectivamente con las características de las reivindicaciones independientes. Formas preferentes de realización de la invención están dadas en las reivindicaciones dependientes. Descripción detallada de la invención. Un campo de aplicación ventajoso de la presente invención reside en la identificación de farmacoforos moleculares | para fines del análisis de la actividad farmacológico. Especialmente la invención permite acelerar sensiblemente el desarrollo de un producto activo farmacológico y, en este caso, reducir, al mismo tiempo, en gran medida los costes , Una ventaja especial de la invención reside en que permite la identificación directa de la estructura funcional de la SWB a partir de datos medidos de estructura-actividad, Según una forma preferente de realización de la invención se presupone que los datos pueden clasificarse tal manera, que es accesible la actividad de uno de tales conjuntos de datos a una representación binaria, es decir, para los estados "no activo" y "activo" . Según otra forma preferente de realización de la invención se presupone, además , que cada unidad activa del farmacóforo únicamente puede tomar,! también, dos estados, concretamente "activo" e "inactivo" . En este caso es considerada una unidad activa a modo de "caj|a negra" . Según otra forma preferente de realización de la invención se agrupan y codifican las actividades en más de dos clases. En comparación con la codificación binaria, esta forma de realización permite tener en consideración, además de la diferenciación "no activo" y "activo" , diferentes niveles de actividad en la evaluación. De forma correspondiente es posible, también, aceptar más de dos estados para cada unidad activa.
La invención se basa en el descubrimiento de que constituye una propiedad de los modelos híbridos estructurados el que, para cada estructura funcional de la SWB, pertenece un sistema exactamente definido de números invariantes en los datos. El procedimiento según la invención está basado en que los números invariantes (eventualmente existentes) son extraídas a partir de los datos para reconstruir la SWB a partir de los mismos. (Se conocen modelos híbjridos estructurados en sí por la publicación de A. Schuppert, Extrapolability of Structured Hybrid Models : a Key to Optimization of Complex, Processes, en: Proceedings of EquaDiff 99, Fiedler, Gróger, Sprekels Eds . , World Scientific Publishing, 2000) . Para el caso en que una unidad activa pueda tomar únicamente dos estados, concretamente "activo" e "inactivo", tiene que darse por lo tanto una agrupación de las posiciones de las variables de entrada de cada unidad activa de tal manera que, en cualquier caso, para todas las posiciones de una variable correspondiente la salida de la unidad activa sea "0" lógico y para todas las posiciones de las otras variables sea siempre Esta agrupación forzada de las posiciones de las variables de entrada conduce directamente a la existencia de número invariantes en la SWB. Una ventaja especial de la invención reside en que puede reconstruirse la estructura funcional de la SWB a partir de un sistema predeterminado de números invariantes de la SWB, especialmente cuando la SWB tenga una estructura en forma de árbol. El procedimiento según la invención no presupone, para el cálculo de la estructura funcional de la SWB, ni el cálculo explícito de la posición exacta de las relaciones de entrada y de salida de las unidades activas individuales, ni una variación combinatoria de todas las estructuras funcionales posibles. Por este motivo el procedimiento según la invención es especialmente eficaz y permite, incluso, la resolución de problemas complejos con un coste de cálculo relativament!e reducido. En ade .ante se explicarán con mayor detalle ejemplos preferentes de realización de la invención con reférencia a los dibujos. En éstos ! La figura 1 muestra una representación del principio para la identificación de una ; relación í estructura-actividad farmacológica, La figura 2 muestra un ejemplo de la construcción formal de un farmacóforo, La figura 3 muestra un ejemplo de un modelo híbrido estructurado, La figura 4 muestra un ejemplo de una relación estructura-actividad constituida pro unidades activas, respectivamente con comportamiento binario de entrada-salida, La figura 5 muestra un diagrama de flujos para el, cálculo de diversas variaciones de los descriptores, La figura 6 muestra un diagrama de flujos, para la i identificación de unidades activas, La figura 7 muestra un diagrama de flujos de un procedimiento para la determinación experimental de substancias de una biblioteca de substancias sobre una molécula diana, La figjura 8 muestra una tabla con descriptores de las substancias de la biblioteca de substancias y las reacciones determinadas experimenjtalmente , La figura 9 muestra un diagrama de flujos; para una forma de realización para la determinación de las variaciones binarias, La figjura 10 muestra una tabla para la determinación de las variaciones binarias según la figura 9, La figjura 11 muestra un diagrama de flujos para la determinación de variaciones ternarias, La figjura 12 muestra otro ejemplo de una relación de estructura actividad, La figjura 13 muestra una tabla con candidatos de pares de variables para la adcripción a una unidad activa conjunta y una tabla con números de variables para los candidatos de pares de variables con agrupaciones exentas de conflictos.
La figura 1 representa el problema de identificación en el que ebtá basada la invención, especialmente para aplicaciones farmacológicas. Un banco de datos 1 contiene los descriptores de las substancias de una biblioteca de substancias Los descriptores están codificados en este caso preferentemente de manera binaria y describen las estructuras de las substancias. Tales descriptores se denominan también como "huellas dactilares" . Tales comillas "huellas dactilares" son en sí conocidas por el estado de la técnica (véase la publicación de J. Bajorath, Selected Concepts and Investigatij |ons en: Compound Classification, Molecular Descriptor Analysis, and Virtual Screening, J.Chem. In. Comput . Scil , 2001, 41, 233-245) . Los descriptores del banco de datos 1 están disponibles a modo de vectores x en la salida del banco de datos 1 y se representan sobre en un perfil de actividad mediante el mecanismo de actividad a ser determinado de la relación estructura-Iactividad SWB (x) . El ' perfil de actividad está constituido1 por datos determinados experimentalmente , que están almacenados en un banco de datos 2. Para la determinación del perfil de actividad se determina, en tanto en cuanto sea posible, para cada descriptor individual, por medio de un experimento, si la substancia correspondiente reacciona o no reacciona con la molécula objetivo, la denominada diana.
Asi pues, se lista sobre un perfil de actividad una representación Y=SWB (x) de substancias por medio de la molécula diana, que están descritas por medio de los descriptores. El problema de la identificación reside ahora en deducir la estructura de la SWB a partir de las magnitudes de entrada y de salida de la SWB, es decir a partir de los descriptores y de perfil de actividad. Según la figura 2 puede representarse una SWB como lo que se denonina un farmacoforo . Un farmacoforo puede abarcar una o varias estructuras directrices. La figura 2 muestra un farmacoforo 3 con unidades activas 4, 5, 6 y 7. La unidad activa 4 tiene, a modo de entradas, las variables Vx, V3, V y V5. La unidad activa 5 tiene, a modo de entradas, las variables V6, V7 y V3. La unidad acti /a 6 tiene las entradas V9 y V10. Las unidades activas 4, 5 y 6 tienen, respectivamente, una salida, que está conectada con una entrada de la unidad activa 7. La salida de 1a unidad activa 7 indica entonces la actividad total es dec,ir "activo" o "inactivo" . La figura 3 muestra un ejemplo para el estructurado típico de ("modelos híbridos estructurados" . La relación funcional entre las variables de entrada y las variables de salida se ha representado en la figura 3 por medio de los gráficos de | relación. Mediante los rectángulos negros se representan, I en este caso, funciones cuantitativamente desconocidas, mientras que, por el contrario, los rectángulos blancos representan dependencias cuantitativamente conocidas . Para poder aprovechar las ventajas de un modelado híbrido estructurado, no es necesario que estén contenidas, en absoluto, en el modelo dependencias conocidas (rectángulos blancos) . Este descubrimiento es aprovechado por la invención para encontrar de manea automática una S B a partir de descriptores y un perfil de actividad determinado con relación a Una diana. La figura 4 muestra otro ejemplo preferente de realización de la invención, en el cual las unidades individúales de actividad únicamente pueden tomar dos estados, es decir el lógico "cero" y el lógico "uno", que corresponden a "activo" o "inactivo" . La figura 5 muestra el diagrama de flujos de una forma de realización del procedimiento según la invención. En la etapa 50 se disponen los descriptores de las substancias de una biblioteca de substancias, para las cuales se ha determinado un perfil de actividad. La puesta a disposición se lleva a cabo en forma de un fichero constituido por los descriptore|s binarios de las estructuras moleculares correspondílentes con una longitud homogénea n. Para cada una de las estructuras moleculares se ha determinado , previamente, la adcripción a los grupos de las moléculas activas o de las moléculas inactivas respecto a la completo de grupos invariantes en el número de datos . En este caso se forman todas las entidades constituidas por las variables V , V de las series binarias de descriptores. Para cada entidad Vi, V se calculan dos magnitudes: la variación binaria v2 (i, j) . Esta se calcula a) mediante la busca para las 4 posiciones de las variables (i,j) (0,0), (0,1), (1,0), (1,1)) de la actividad del sistema total respectivamente para toda las combinaciones de los parámetros restantes . b) a continuación se calcularán las correlaciones cor(k,l), k, 1 = 1...4 de la estructura activa entre las posiciones de (i,j) de tal manera que esté correlacionada una posición (por ejemplo (0,0)) con otra posición (por ejemplo (0,1)) cuando las actividades del sistema total sean siempre idénticas para ambas posiciones bajo todas las variaciones en las variables restantes . En el caso de conjuntos de datos erróneos no se requiere la identidad exacta sino una probabilidad preestablecida de que las actividades son idénticas en las variaciones de las variables restantes. Se establecerá que Cor(k,l) es exactamente igual a 1, cuando la posición k esté correlacionada en la manera descrita con la posición 1, en otro caso se establecerá que cor(k,l) es 0. c) En la etapa siguiente se agruparán las posiciones con ayuda de procedimientos conocidos de tal manera, que estén contenidas, en cada agrupamiento, únicamente posiciones correlacionadas entre sí. d) La variación binaria v2(i,j) es el número de los agrupamientos determinados, la variación ternaria v3(i,j;k), que se calcula según el algoritmo siguiente: a) para cada una de las 4 posiciones de las entidades de las variables (i,j) (i,j = 1, ... ,n) , y para cada una de las dos posiciones de las variables adicionales k, se buscarán las actividades, respectivamente, para todas las variaciones de las variables restantes . b) para cada entidad (i,j) y para todas las variaciones de las variables restantes se verificará el modo en que se modifica la actividad cuando se produce el salto de la posición de las variables k desde 0 hasta 1. En los casos en los que la actividad dependa de la posición de las variables (i,j), se verificará si, para k = 0 y para k = 1 está presente el mismo agrupamiento de la actividad con relación a las posiciones de (i, j) · c) La variación ternaria v3(i,j k) es el número de todas las variaciones de las variables restantes, en las que la actividad depende de la posición de las variables (i,j), tanto en el caso en que k = 0 como también en el caso en que k = 1 y, para k = 0 y k = l se presenten respectivamente agrupamientos diferentes en las posiciones (i,j) con respecto a la actividad, además se calcula la variación vi (k) , que indica el número de variaciones de las variables restantes, en las que se modifica la actividad cuando se haga pasar una variable k desde 0 hasta 1. La figura 6 muestra como se desarrolla ulteriormente el procedimielto a partir de las etapas 52, 53 o bien 54. Con ayuda de las variaciones binarias y ternarias v2(i,j) y v3(i,j;k) puede identificarse de forma inequívoca la estructura funcional de la SWB. Para ello se identifican, en primer ¡lugar, las variables irrelevantes (etapa 55) . Como variables irrelevantes se designarán aquellas variables que cuales cada elemento del agrupamiento correspondiente tenga la mismo número Mk(i,j) . c) Todas las variables, que estén presentes en las entidades, que pertenezcan al mismo agrupamiento, forman una unidad activa. Este ailgoritmo permite tanto identificar las variables irrelevantes como también determinar por vía directa la estructura funcional de la SWB a partir de los datos medidos.
En el iso de los datos, que contengan una oscilación, es decir en os cuales puede ser errónea la adscripción de la actividad una estructura molecular, la modificación siguiente del algoritmo conduce al objetivo; En la etapa 55 ya no se verifica si vi = 0, v2 = 2 y v3 = 0, sino que se admite una anchura de banda de error. Esto significa c[ue una variable es considerada como irrelevante, cuando vi sea menor que un límite predeterminado vl_crit. La compensación de errores en la identificación de los 2-WE se ha mostrado ya en la descripción del algoritmo para la identificación. En el caso de la identificación de unidades activas complejas se llevará a cabo la compensación de los errores de tal manera, que, en la etapa a) , son ajustadas todas las {variables k en Mk(i,j), en las que v3(i,j;k) sea menor que una magnitud preestablecida v3_crit. Este algoritmo es un procedimiento directo puesto que la estructura funcional de la SWB se construye directamente a partir de los datos. Tiene la ventaja, en contra de lo que ocurre con los procedimientos indirectos, en los cuales tienen que ensayarse las estructuras posibles con respecto a la compatibilidad con los datos, de que se favorece la elección óptima dé los parámetros críticos vl_crit, v2_crit y v3_crit debido a que el resultado tiene que ser consistente. Esto significa que: • todas las variables tienen que estar asignadas exactarhente a una unidad activa o tienen que caractérizarse como variables irrelevantes. No puede producirse ningún tipo de solapado en la adscripción . Hasta ahora, todos los ensayos han demostrado, que cuando se eifectúa una elección de las variables, que conduzca a una estructura consistente, se ha generado siempre la estructura correcta. De este modo el ensayo de consistencia es una prueba más clara para la validación de la estructura funcional encontrada de la SWB. En etapa 58 del diagrama de flujos de la figura 6 se la consistencia de las unidades activas identificadas. Cuando no se dé la consistencia, se adaptará la elección de los parámetros de corrección para la compensación de los errores de medida en la etapa 59. Las etapas 55 y/o 56 y/o 57 se realizan de nuevo y los resultados correspondientes se someten de nuevo a una verificación de consistencia en la etapa 58. Cuando se dé la consistencia, ha concluido la. identificación de las unidades activas. Por medio de las figuras 7 11 se explica a continuación! , con mayor detalle, un ejemplo preferente de realización del procedimiento según la invención, La fig jra 7 muestra, en primer lugar, la forma de proceder para la obtención de los datos experimentales, necesarios para la realización del procedimiento. El procedimiento de la figura 7 puede llevarse a cabo de una manera ampliamente automática por un dispositivo automático de laboratorio. En la etapa 70 se inicializa, en primer lugar, el índice p, es decir p=0. En la etapa 71 se accede al banco de datos de los descriptore† (por ejemplo banco de datos 1 de la figura 1) , para seleccionar los descriptores para la substancia Sp de la biblioteca de substancias. En total está presente un número de q descriptores en el banco de datos. En la etapa 72 se verifica entonces, experimentalmente , ' si la subs,tancia correspondiente Sp reacciona con una molécula objetivo, es decir si presenta una actividad determinada o no. Cuando se produzca la reacción, se hará igual a 1 el campo de datos Rp para el descriptor de la substancia Sp en la etapa 73, en el caso contrario se pondrá a 0 el campo de datos Rp en la etapa 74. A continuación se incrementa el valor del índice p en la etapa 75. A continuación se repetirán las etapas 71, 72 y 73 o bien 74 para el índice incrementado, es decir para la substancia siguiente. Los resultados experimentalmente determinados, es decir el perfil de actividad, se compendia en una tabla 80 de la figura 8. La tabla 80 contiene un descriptor con las variables Vi, V2, Va,..., Vj para cada una de las substancias Sx, S2, ¾. Además se ha adscribo a cada uno de estos descriptores un campo de datos Rp, que indica en forma codificada de manera binaria si ha tenido lugar o no una reacción en el experimento. Se ha adscrito al descriptor para la substancia Si en la primera línea de la tabla 80, de manera correspondiente, el campo de datos Rlt que presenta bien el valor cero o el valor uno, en función de que la substancia Si haya reaccionado o no en el experimento con la diana. La tabla 80 contiene, por lo tanto, los datos diversificados (véase la etapa 51 de la figura 5) . La figura 9 muestra el diagrama de flujos de una forma de realización de un procedimiento para el cálculo de las variaciones binarias (véase la etapa 52 de la figura 9) . En la etapa 90 se forman, en primer lugar, todos los posibles dápletes de las variables Vi y V , siendo i ?j .
Cuando se utilicen descriptores binarios, que presenten, respectivamente, un número de n variables V1( V2, V3, ... , Vn se determinarán por lo tanto todos los posibles apareamientos de las variables dferentes Vi y Vj .
En la etapa 91 se forma, entonces, una tabla para cada uno de los dupletes determinados en la etapa 90. La estructura de esta tabla está representada en la figura 10: La figura 10 muestra una tabla 100, en la que sirven a modo de indice de las columnas las posibles posiciones de las variables V¿ y Vj . Cuando se supone el empleo de descriptores binarios, existen por lo tanto para las dos variables Vi, Vj, cuatro parei|s diferentes de posición, concretamente (0,0), (0,1), (1,0! , (1,1). El ejemplo representado en la figura 10 de una tablá 100 de este tipo se refiere, en este caso, a un duplete de las variables i, Vj con i = 1 y j = 2. En la tabla 100 sirven como índice de las líneas las posibles posiciones de las variables restantes. Como variables restantes se califican en este caso todas las variables con un índice que sea diferente de i y que sea diferente de j . En el caso ejemplificativo considerado de la figura 10, las variables restantes son, por lo tanto, V3, V4 , Va . Por lo tanto se ha adscrito con cada línea de la tabla 100 una posición determinada de estas variables restantes. El contenido de una celda de una línea y de una columna determinadas de la tabla 100 se obtiene entonces de la manera siguiente : Para 1a posición de las variables restantes de la línea correspondíente y para la posición del duplete Vi, Vj de la columna correspondiente, se aplicará la tabla 80 (véase la figura 8) para determinar el valor del campo de datos Rp para esta posición de las variables Vlf V2 Vn . Este valor del campo de datos m Rp se recoge entonces en la celda correspondiente en la tabla 100. Una vez que se ha formado en la etapa 91 de la figura 9 una tabla, correspondiente a la tabla 100 de la figura 10, para cada duplete Vi, Vj , se determina en la etapa 92, para cada una estas tablas, el número de columnas diferentes, En letapa 93 sé verifica entonces para cada tabla si asciende 1 el número de las columnas diferentes de una tabla considerada, es decir se verifica si la tabla adscrita a un duplete determinado Vi, Vj de variables está constituida solo por columnas iguales. Cuando esto ocurra se obtendrá, en la etapa 94 , que las variables correspondientes V, Vj no son relevantes . En el caso contrario se verificará para la tabla consideradal si el número de las columnas diferentes asciende Cuando esto ocurra, se producirá en la etapa 96 que las variabl [es correspondientes Vi y Vj pertenecen a una unidad activa exactamente con dos entradas. En el caso contrario se formarán las variaciones ternarias en la etapa 97. Las etapas 93 y, en caso dado, 95 se llevarár. a cabo para todas las tablas formadas en la etapa 91 para eliminar, como irrelevante, el mayor número posible de variables en este punto o adscribir las variables a una unidad activa exactamente con dos entradas. Para las variables eliminadas ya como irrelevantes, de este modo y manera, o para las variables adscritas a una unidad activa exactamente con dos entradas, es innecesaria, entonces, la determinación de las variaciones ternarias de la etapa 97. Así pues, en la etapa 97 es necesario únicamente determinar las variacilones ternarias para aquellas variables que no pudieron ser eliminadas como irrelevantes en la etapa 94 ni pudieron ser adscritas, en la etapa 96, a una unidad activa con exactamente dos entradas. La figura 11 muestra una forma de realización para la determinación de las variaciones ternarias (véase la etapa 97 de la figura 9) . En la etapa 110 se forma, para cada duplete Vi, Vj una tabla en la forma de la tabla 100 (véase la figura 10) , y concretamente para una posición de las variables Vk con "cero". Por lo tanto se ::orma una tabla de este tipo para todos los tripleters Vi, j y Vk, estando ocupada Vk siempre con cero. En etapa 111 se forman tablas correspondientes para cada entidad Vi , y concretamente con una posición de V]< = uno. En etapa 112 se verifica si son idénticas Vi, Vj para una entidad determinada, es decir para una elección determinada, de i y de j de ambas tablas correspondientes, es decir, las tablas para Vk = 0 (etapa 110) y para Vk = 1 (etapa 111) . Cuando esto ocurra, sucede a continuación, en la etapa 113, que la variable Vk puede ser eliminada como irrelevante . Cuando ocurre el caso contrario, se determina para ambas tablas cons ideradas, en la etapa 114, respectivamente la relación entre las columnas. Para la determinación de una relación entre las columnas se procederá de tal manera que se fija en una tabla, con relación a una columna determinada, la relación en que se encuentran los elementos de esta columna con respecto a los elementos correspondientes de la misma línea en otra columna de la misma tabla, es decir si este par de elementos se encuentran en una relación de igualdad o en una relación de desigualdad. Estas relaciones de igualdad o bien de desigualdad se determinan para cada una de las tablas en la etapa 114 con relación a todas las columnas de la tabla correspondiente. En 1 etapa 115 se verifica entonces si son iguales estas reí iones entre las columnas en los pares de tablas para ?¾=0 Vk=l, que pertenecen al mismo duplete Vi, Vj de variables. Si esto no ocurre no es posible ninguna predicción en la etapa 116. Cuando esto ocurre, se deduce a continuación en la etapa. 117 que las variables Vi y Vj están constituidas por candidatos de pares de variables para la adscripción a la misma unidad activa, pudiendo estar constituida la unidad activa por una unidad activa con dos o mas variables. Además se deduce en la etapa 117 que -cuando las variables Vi, Vj esten const :ituidas por un candidato adecuado de par de variables- U.a variable Vk tiene que pertenecer a otra unidad activa diferente de la unidad activa de las variables Vi y Vj . Como resultado del procedimiento de la figura 11 se obtiene una lista de candidatos de pares de variables Vi y Vj así como, para cada candidato de par de variables, una número de variables Vk que -cuando sea adecuado el candidato correspondiente de par de variables- tiene que adscribirse a otra unidad activa. En el número combinado de los números de variables Vk, que están adscritas respectivamente con un candidato determinado de par de variables, se buscarán entonces agrupamientos exentos de contradicciones de números idénticos de variables. De aquí se deducé entonces, directamente, la estructura buscada del farmacóforo. La figura 12 muestra un resultado correspondiente, que se ha obtenido mediante la aplicación del procedimiento de la figura 11 para un caso concreto de aplicación. En el caso concreto de aplicación se extrajeron 360 variaciones ternarias relevantes a partir de 1.024 conjuntos de datos. Cada descriptor del conjunto de datos tiene un número de diez variables diferentes (V1( V2, i0) , la variable V2 se identificó como irrelevante. Las variables V9 y V10 se identificaron como pertenecientes a una unidad de acción con exactamente variables (véase la etapa 96 de la figura Como entidad de variables relevantes, remanentes, quedaron entonces como candidatos los pares de variables Vi y Vj tras eliminación de las variables irrelevantes y de las variables de la unidad activa de dos. Estas se han mostrado en la tabla superior de la figura 12. En la tabla inferior de la figura 12 se ha indicado en cada línea un número de variables Vk, que pertenece a la línea correspondiente de la tabla superior de la figura 2, es decir a un candidato determinado de pares de variables Vi( Vj . El cero, en la tabla inferior de la figura 12, indexa siempre un lugar vacío. A partir de la tabla inferior Mk (i, j) se identificó ;.a distribución de las variables restantes con Unidad activa 2: 1 3 4 5 Unidad I activa 3 : 8. El agrupamiento correspondiente está marcado por medio de una "x" en las tablas de la figura 12. El farmacóforo, correspondiente al agrupamiento, con las unidades activas 4, 5, 6 y 7 se ha representado en la figura 13. La posición de la unidad activa con las variables VX/ V3, V4 y V5 se deduce de la tabla superior de la figura 12 y la posición de la unidad activa 5 se deduce a partir del agrupamiento formado por el número Mk(i,j) . Las variables V9 y Vio están adscritas a la unidad activa con exactamente dos entradas y la variable V2 no está adscrita a ninguna unidad activa puesto que ésta no tiene ningún efecto sobre la actividad total, es decir sobre la salida de la unidad activa 7 Lista de referencias. Banco de datos 1 Banco de datos 2 Farmacóforo 3 Unidad activa 4 Unidad activa 5 Unidad activa 6 Unidad acti a 7 Tabla 80 Tabla 100 Se hace constar que, con relación a esta fecha, el mejor método conocido por la solicitante, para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención.

Claims (1)

  1. REIVI DICACIONES Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes reivindicaci.lones : 1.- Procedimiento para la identificación de un farmacóforo caracterizado porque contiene las etapas siguientes: introducción de descriptores de substancias, presentando cada descriptor un número de variables (Vi, V2, Vn) , e introducción de las actividades adscritas a los descriptores (Rp) , determinación de variaciones binarias para dupletes de variables, adscripción de un par de variables (Vi, Vj) a una unidad activa del farmacóforo, presentando la unidad activa exactamente dos variables, cuando la variación binaria del par de variables sea dos, determinación de variaciones ternarias para tripletes de variables (Vi( Vj , Vk) , determinación de candidatos de pares de variables a partir de las variaciones ternarias para la adscripción a una unidad activa común, presentando la unidad activa común dos o más variables, y determinación de un número de variables para cada candidato de par de variables, que contenga aquellas variables, que tengan que ser adscritas a una unidad de acción diferente de la unidad de acción conjunta, en el momento de la adscripción del candidato de par de variables a la unidad activa común, determinación de un agrupamiento exento de conflictos del número de variables para la identificación de la unidad activa común. 2. - Procedimiento de conformidad con la reivindicación 1, caracterizado porque los descriptores están constituidos por descriptores binarios de una biblioteca de substancias. Procedimiento de conformidad con las reivindicaciones 1 o 2, caracterizado porque tiene una etapa para la compresión de datos de los descriptores binarios. 4. - Procedimiento de conformidad con las reivindicaciones 1, 2 o 3, caracterizado porque las actividades están constituidos por las actividades de las substancias adscritas respectivamente con los descriptores, sobre una molécula objetivo, y las actividades están preferentemente codificadas de manera binaria. 5. - Procedimiento de conformidad con una de las reivindicaciones precedentes 1 a 4, caracterizado porque, para la determinación de las variaciones binarias y para la adscripción de un par de variables a una unidad activa, que presente exactamente dos variables, se llevan a cabo las etapas siguientes: formación del duplete de variables (Vi, V-¡) , formación de una tabla de las actividades para cada duplete, empleándose permutaciones de las variables restantes y las posibles posiciones del duplete de variables a modo de índice para la tabla, - determinación del número de columnas diferentes para cada tabla adscrita a un duplete, adscripción de un duplete de variables como par de variables a la unidad activa, que presenta exactamente dos variables, cuando sea dos el número de columnas diferentes de la tabla correspondiente. 6. - Procedimiento de conformidad con la reivindicación 5, carácterizado porque se eliminan como irrelevantes las variables de un duplete en las que sea uno el número de columnas diferentes de la tabla correspondiente. 7.- Procedimiento de conformidad con las reivindicaciones 5 o 6, caracterizado porque se determinan únicamente las variaciones ternarias cuando existan tablas en las que sea tres o mayor el número de las columnas diferentes. 8. - Procedimiento de conformidad con una de las reivindicaciones precedentes 1 a 7, caracterizado porque, para la determinación de las variaciones ternarias y para la determinación de los candidatos de pares de variables para la adscripción a una unidad activa común, se llevan a cabo las etapas siguientes : formación de primeras tablas para dupletes de variables (Vi, Vj) , y para un primera actividad de otra variable (Vk) , formación de segundas tablas para dupletes de variables (Vi, Vj) y para una segunda actividad de otra variable (Vk) , determinación de las relaciones entre las columnas entre las tablas primera y segunda correspondientes con actividades diferentes de las otras variables, - determinación de candidatos de pares de variables y del número de variables a partir de las primeras y segundas tablas correspondientes, que presentan relaciones iguales entre las columnas. 9.- Procedimiento de conformidad con la reivindicación 8, caracterizado porque se elimina como irrelevante otra variable cuando, en las primeras y segundas tablas, estas otras variables sean sensiblemente iguales. Procedimiento de conformidad con las reivindicac(iones 8 o 9, caracterizado porque son idénticas en un agrupamiento exento de conflictos los números de variables de los candidatos de pares de variables exentos de conflictos. Procedimiento de conformidad con una de las reivindicaciones precedentes 1 a 10, caracterizado porque se admiten tolerancias para la eliminación de variables irrelevantes para la formación de variaciones binarias para la formación de variaciones ternarias 12. - Eirocedimiento de conformidad con una de las reivindicacionés precedentes 1 a 11, caracterizado porque se eligen limitaciones automáticas de las tolerancias, que producen soluciones exentas de conflictos, basadas en una exploración del espacio tridimensional de los parámetros. 13.- Producto de programa de ordenador con medios de programa caracterizado porque es para la realización de un procedimiento de conformidad con una de las reivindicaciones precedentes 1 a 12. 14.- S Sistema de ordenador con medios para la realización de un procedimiento de conformidad con una de las reivindicaciones precedentes 1 a 12. RESUMEN DE LA INVENCION La invención se refiere a un sistema de ordenador y a un procedimiento para la identificación de un farmacóforo molecular con las etapas siguientes: - introducción de descriptores de substancias, presentando cada descriptor un número de variables ( x, V2, .... , Vn) , e introducción de las actividades adscritas a los descriptores (Rp) , determinación de variaciones binarias para dupletes de variables, adscripción de un par de variables (Vi, Vj) a una unidad activa del farmacóforo, presentando la unidad activa exactamente dos variables, cuando la variación binaria del par de variables sea dos, - determinación de variaciones. ternarias para tripletes de variables (Vi, Vj, Vk) , determinación de candidatos de pares de variables a partir de las variaciones ternarias para la adscripción a una unidad activa común, presentando la unidad activa común dos o más variables, y determinación de un número de variables para cada candidato de par de variables, que contenga aquellas variables, que tengan que ser adscritas a una unidad de acción diferente de la unidad de acción conjunta, en el momento de la adscripción del candidato de par de variables a la unidad ac:iva común, determinación de un agrupamiento exento de conflictos del número de variables para la identificación de la unidad activa común.
MXPA04004549A 2001-11-15 2002-11-11 Procedimiento para la identificaion de farmacoforos. MXPA04004549A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10156245A DE10156245A1 (de) 2001-11-15 2001-11-15 Verfahren zur Identifikation von Pharmakophoren
PCT/EP2002/012549 WO2003042702A2 (de) 2001-11-15 2002-11-11 Verfahren zur identifikation von pharmakophoren

Publications (1)

Publication Number Publication Date
MXPA04004549A true MXPA04004549A (es) 2005-03-07

Family

ID=7705933

Family Applications (1)

Application Number Title Priority Date Filing Date
MXPA04004549A MXPA04004549A (es) 2001-11-15 2002-11-11 Procedimiento para la identificaion de farmacoforos.

Country Status (14)

Country Link
US (1) US20050038607A1 (es)
EP (1) EP1451750B1 (es)
JP (1) JP2005509937A (es)
KR (1) KR20040079900A (es)
CN (1) CN1585955A (es)
AT (1) ATE345537T1 (es)
BR (1) BR0214107A (es)
CA (1) CA2473593A1 (es)
DE (2) DE10156245A1 (es)
DK (1) DK1451750T3 (es)
ES (1) ES2274103T3 (es)
MX (1) MXPA04004549A (es)
RU (1) RU2004117920A (es)
WO (1) WO2003042702A2 (es)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8236849B2 (en) * 2008-10-15 2012-08-07 Ohio Northern University Model for glutamate racemase inhibitors and glutamate racemase antibacterial agents

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5463564A (en) * 1994-09-16 1995-10-31 3-Dimensional Pharmaceuticals, Inc. System and method of automatically generating chemical compounds with desired properties
IL129728A0 (en) * 1996-11-04 2000-02-29 Dimensional Pharm Inc System method and computer program product for the visualization and interactive processing and analysis of chemical data
US6323852B1 (en) * 1999-01-04 2001-11-27 Leadscope, Inc. Method of analyzing organizing and visualizing chemical data with feature hierarchy
WO2000049539A1 (en) * 1999-02-19 2000-08-24 Bioreason, Inc. Method and system for artificial intelligence directed lead discovery through multi-domain clustering

Also Published As

Publication number Publication date
US20050038607A1 (en) 2005-02-17
EP1451750A2 (de) 2004-09-01
DE10156245A1 (de) 2003-06-05
KR20040079900A (ko) 2004-09-16
ATE345537T1 (de) 2006-12-15
DE50208732D1 (de) 2006-12-28
WO2003042702A2 (de) 2003-05-22
DK1451750T3 (da) 2007-03-19
EP1451750B1 (de) 2006-11-15
RU2004117920A (ru) 2006-01-10
BR0214107A (pt) 2004-12-21
ES2274103T3 (es) 2007-05-16
WO2003042702A3 (de) 2004-05-06
CN1585955A (zh) 2005-02-23
CA2473593A1 (en) 2003-05-22
JP2005509937A (ja) 2005-04-14

Similar Documents

Publication Publication Date Title
Pavoine adiv: An R package to analyse biodiversity in ecology
Chen et al. Single-cell trajectories reconstruction, exploration and mapping of omics data with STREAM
CN106815492B (zh) 一种用于16S rRNA基因的细菌群落组成和多样性分析的自动化方法
US8594941B2 (en) System, method and apparatus for causal implication analysis in biological networks
Selbig et al. Decision tree-based formation of consensus protein secondary structure prediction
CN103116713A (zh) 基于随机森林的化合物和蛋白质相互作用预测方法
Balzarini et al. Making genetic biodiversity measurable: a review of statistical multivariate methods to study variability at gene level
CN113744799A (zh) 一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法
US20240055071A1 (en) Artificial intelligence-based compound processing method and apparatus, device, storage medium, and computer program product
Hibbert et al. An introduction to Bayesian methods for analyzing chemistry data: Part II: A review of applications of Bayesian methods in chemistry
Schmidt et al. Tutorial on multinomial processing tree modeling: How to develop, test, and extend MPT models
CN109448842B (zh) 人体肠道微生态失衡的确定方法、装置及电子设备
Yuan et al. Protein-ligand binding affinity prediction model based on graph attention network
Weighill et al. Network metamodeling: effect of correlation metric choice on phylogenomic and transcriptomic network topology
Koutrouli et al. FAVA: high-quality functional association networks inferred from scRNA-seq and proteomics data
JP2003530651A (ja) 生物学的/製薬学的スクリーニング実験においてアウトライヤーを検出する方法および装置
CN112382342A (zh) 一种基于集成特征选择的癌症甲基化数据分类方法
MXPA04004549A (es) Procedimiento para la identificaion de farmacoforos.
CN113392086B (zh) 基于物联网的医疗数据库构建方法、装置及设备
CN114678083A (zh) 一种化学品遗传毒性预测模型的训练方法及预测方法
Weber et al. Distinguishing linear and branched evolution given single-cell DNA sequencing data of tumors
CN110176279B (zh) 基于小样本的先导化合物虚拟筛选方法和装置
Hassan et al. Dimensionality reduction methods for extracting functional networks from large‐scale CRISPR screens
Benfenati et al. Validation of the models
CN110689919A (zh) 一种基于结构和等级分类的药物蛋白结合率预测方法及系统