MXPA06014823A - Metodos y sistemas para predecir especificidades de acoplamiento proteina-ligando. - Google Patents

Metodos y sistemas para predecir especificidades de acoplamiento proteina-ligando.

Info

Publication number
MXPA06014823A
MXPA06014823A MXPA06014823A MXPA06014823A MXPA06014823A MX PA06014823 A MXPA06014823 A MX PA06014823A MX PA06014823 A MXPA06014823 A MX PA06014823A MX PA06014823 A MXPA06014823 A MX PA06014823A MX PA06014823 A MXPA06014823 A MX PA06014823A
Authority
MX
Mexico
Prior art keywords
gpcr
training
protein
sequence
interest
Prior art date
Application number
MXPA06014823A
Other languages
English (en)
Inventor
Kamalakar Gulukota
Kodangattil R Sreekumar
Youping Huang
Mark H Pausch
Original Assignee
Wyeth Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wyeth Corp filed Critical Wyeth Corp
Publication of MXPA06014823A publication Critical patent/MXPA06014823A/es

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/5005Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving human or animal cells
    • G01N33/5008Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving human or animal cells for testing or evaluating the effect of chemical or biological compounds, e.g. drugs, cosmetics
    • G01N33/502Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving human or animal cells for testing or evaluating the effect of chemical or biological compounds, e.g. drugs, cosmetics for testing non-proliferative effects
    • G01N33/5041Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving human or animal cells for testing or evaluating the effect of chemical or biological compounds, e.g. drugs, cosmetics for testing non-proliferative effects involving analysis of members of signalling pathways
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/566Immunoassay; Biospecific binding assay; Materials therefor using specific carrier or receptor proteins as ligand binding reagents where possible specific carrier or receptor proteins are classified with their target compounds
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2333/00Assays involving biological materials from specific organisms or of a specific nature
    • G01N2333/435Assays involving biological materials from specific organisms or of a specific nature from animals; from humans
    • G01N2333/705Assays involving receptors, cell surface antigens or cell surface determinants
    • G01N2333/72Assays involving receptors, cell surface antigens or cell surface determinants for hormones
    • G01N2333/726G protein coupled receptor, e.g. TSHR-thyrotropin-receptor, LH/hCG receptor, FSH
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2500/00Screening for compounds of potential therapeutic value
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Immunology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Urology & Nephrology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Hematology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Cell Biology (AREA)
  • Artificial Intelligence (AREA)
  • Microbiology (AREA)
  • Epidemiology (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Biochemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Genetics & Genomics (AREA)
  • Toxicology (AREA)
  • Tropical Medicine & Parasitology (AREA)

Abstract

La invencion proporciona los metodos y sistemas para predecir o evaluar especificidades de acoplamiento proteina-ligando. Un modelo de reconocimiento de patron puede ser entrenado por segmentos de secuencia seleccionados de las proteinas de entrenamiento que tienen una especificidad de acoplamiento al ligando, especifica. Cada segmento de secuencia seleccionado se cree que incluye uno o varios residuos de aminoacidos que pueden contribuir a la especificidad de acoplamiento al ligando de la proteina de entrenamiento correspondiente. Los segmentos de secuencia en una proteina de interes pueden ser similarmente seleccionados y utilizados para buscar el modelo entrenado, para determinar si la proteina de interes tiene la misma especificidad de acoplamiento al ligando que las proteinas de entrenamiento. En una modalidad, el modelo de reconocimiento de patron empleado es un modelo de Markoy escondido que es empleado por los dominios citosolicos concatenados de GPCRs que tienen preferencia de interaccion a una clase especifica de proteinas G. Este modelo entrenado puede ser utilizado para evaluar la especificidad de acoplamiento a la proteina G de GPCR5 huerfanos.

Description

MÉTODOS Y SISTEMAS PARA PREDECIR ESPECIFICIDADES DE ACOPLAMIENTO PROTEINA-LIGANDO CAMPO DE LA INVENCIÓN La invención se refiere a los métodos y sistemas para predecir GPCR-proteína G y otras especificidades de acoplamiento proteína-ligando.
ANTECEDENTES DE LA INVENCIÓN Los receptores acoplados a la proteína G (GPCRs) comprenden una súper familia de los receptores de la superficie celular que son mediadores de la mayor parte de las transducciones de señal membranales en células vivas. Una variedad de funciones fisiológicas son reguladas por los GPCRs, por ejemplo, la neurotransmisión, percepción visual, el olor, el sabor, el crecimiento, la secreción, el metabolismo y las respuestas inmunes. Los agonistas y antagonistas de GPCRs y los agentes que interfieren con las vías celulares reguladas por GPCR, son fármacos ampliamente utilizados. La distribución de fármacos de GPCRs está dirigida a tratar las condiciones que incluyen, pero no están limitadas a, osteoporosis, endometriosis, cáncer, retinitis pigmentosa, adenomas tiroides hiperfuncionales, pubertad precoz, diabetes nefrogénica ligada a X, hiperparatiroidismo, hipercalcemia hipocalciurica, enanismo de extremidades REF.: 178276 cortas, obesidad, deficiencia de glucocorticoides, diabetes e hipertensión. Una característica estructural común a los GPCRs es la presencia de siete segmentos a-helicoidales que se difunden transmembranalmente, conectados por alternancia de bucles intracelulares (il, i2 e i3) y extracelulares (o2, o3 y o4) , con el extremo amino (ol) localizado sobre el lado extracelular y el extremo carboxilo (i4) sobre el lado intracelular. Los GPCRs se enlazan a los ligandos a través de los dominios extracelulares o transmembranales. Se cree que el enlace del ligando da como resultado cambios conformacionales de los GPCRs, que conducen a una cascada de eventos intracelulares mediados por las proteínas efectoras. La vía de la cascada intracelular es determinada por la clase específica de proteínas G con las cuales interactúan los receptores. Las proteínas G heterotriméricas, compuestas de subunidades a, ß y ?, son clasificadas con base en la subunidad a. La subunidad a pertenece a una de las cuatro clases: (1) Gs, que estimula la adenilil-ciclasa (por ejemplo, Ga y Gsif) ; (2) Gi/s, que inhibe la adenilil-ciclasa y regula los canales ion (por ejemplo, Gu, G?2, G?3, Gs?, Go2, Go3, Gz/ Gt?, Gt2 y GgUSt) ; (3) Gq/lx, que activa la fosfolipasa C ß (por ejemplo, Gq, Gll r Gi4 y G?5/16) ; y (4) G12/?3, que activa la vía del intercambiador Na+/H+ (por ejemplo, G12 y Gi3) .
Al menos cinco diferentes subunidades ß de la proteína G y once subunidades ? han sido identificadas. Los complejos de proteína G ß? son relativamente estables y, por lo tanto, son usualmente considerados como una unidad funcional . Se cree que el papel principal de Gß? en el acoplamiento del receptor no es para proporcionar una superficie de enlace para el receptor, sino más bien para ayudar a mantener Ga en la conformación óptima para el enlace al receptor. La predicción de la interacción entre los GPCRs y las proteínas G es de gran interés para el descubrimiento de objetivos de fármacos, pero está plagado con muchos inconvenientes. Una dificultad para descubrir los objetivos de fármacos es que los modos de enlace para los agonistas que actúan sobre los GPCRs son casi tan diversos como la naturaleza química de los ligandos. Incluso los agonistas que actúan en el mismo receptor pueden no necesariamente compartir un sitio de enlace traslapado. Muchos GPCRs, aunque preferentemente ligados a una cierta subfamilia de proteínas G, pueden también acoplarse a otras clases de proteínas G. Esta promiscuidad hace más difícil entender el proceso de acoplamiento y disminuye la especificidad de los fármacos potenciales. Otro problema más involucra múltiples clases estructurales de los GPCRs, que comparten poca o ninguna homología de secuencia. Los intentos para predecir el perfil de acoplamiento de proteína G de un GPCR recién clonado, basado simplemente en su secuencia primaria tiene poco éxito, particularmente si la nueva secuencia tiene un bajo grado de homología secuencial con los receptores cuyas preferencias de acoplamiento son conocidas. Han sido desarrollados diversos procedimientos bioquímicos para determinar la especificidad de acoplamiento de GPCR y para elucidar el mecanismo de la especificidad molecular. A pesar de la búsqueda intensa por más de 15 años, la especificidad de acoplamiento de muchos GPCRs tiene que ser todavía experimentalmente definida. La determinación de la especificidad de acoplamiento es un paso esencial en el entendimiento de la biología de un GPCR, e importante para el desarrollo de los ensayos basados en células utilizados en el descubrimiento de agentes terapéuticos. El desarrollo de métodos para la determinación precisa del acoplamiento de la proteína G, podría ser de uso particular en el estudio de GPCRs huérfanos (oGPCRs) , aquellas secuencias similares a GPCR para las cuales no es todavía conocido algún ligando. Mientras que los métodos empíricos existen para predecir la selectividad de acoplamiento de la proteína G de los oGPCRs, los procedimientos frecuentemente tienen altas proporciones de error y no son predictivos en muchos casos. De este modo, los métodos mejorados para predecir la selectividad de acoplamiento de la proteína G de los GPCRs podría ser de utilidad significativa.
BREVE DESCRIPCIÓN DE LA INVENCIÓN La invención proporciona los métodos y sistemas para evaluar GPCR-proteína G y otras especificidades de acoplamiento proteína-ligando. La invención emplea los modelos de reconocimiento de patrón restringidos en conocimiento, que son entrenados por segmentos de secuencia seleccionados, de las proteínas de entrenamiento. Cada segmento de secuencia seleccionado se cree que incluye uno o varios residuos de aminoácidos que pueden residir en la interfaz de la interacción proteína-ligando, o contribuir a la especificidad de acoplamiento al ligando, de la proteína de entrenamiento correspondiente. Los segmentos de secuencias similarmente situados, en una proteína de interés, pueden ser seleccionados y utilizados para buscar un modelo entrenado. El ajuste completo de la secuencia de búsqueda al modelo entrenado es, por lo tanto, indicador de si la proteína de interés posee o no la misma especificidad de acoplamiento al ligando que las proteínas de entrenamiento. Los modelos de reconocimiento de patrón, adecuados para la presente invención incluyen, pero no están limitados a, modelos de Markov escondidos (HMMs) , análisis de componente principal, máquinas de vector de soporte, y análisis parcial de mínimos cuadrados . En un aspecto, la invención caracteriza los métodos para evaluar la especificidad de acoplamiento de la proteína G de una GPCR de interés. Estos métodos comprenden: el entrenamiento de un modelo de reconocimiento de patrón con una pluralidad de secuencias de entrenamiento, donde las secuencias de entrenamiento son derivadas de un grupo de GPCRs de entrenamiento que tienen una preferencia de interacción para, o son capaces de interactuar con, una clase específica de proteína G, donde cada secuencia de entrenamiento comprende una concatenación de dos o más segmentos de secuencia no contiguos de un GPCR de entrenamiento, y cada uno de los segmentos de secuencia no contiguos incluye una secuencia intracelular del GPCR de entrenamiento; y la búsqueda del modelo entrenado con una secuencia de búsqueda que comprende una concatenación de dos o más segmentos de secuencia no contiguos del GPCR de interés. Como las secuencias de entrenamiento, cada segmento de secuencia concatenado en la secuencia de búsqueda, también incluye una secuencia intracelular de GPCR. Por lo tanto, una concordancia o no concordancia de la secuencia de búsqueda al modelo entrenado, es indicador de si GPCR de interés tiene preferencia de interacción o es capaz de interactuar con la clase especificada de proteínas G.
Los segmentos de secuencia adecuados para la construcción de las secuencias de entrenamiento o búsqueda pueden ser seleccionados con base en un alineamiento de secuencias múltiples de los GPCRs de entrenamiento y el GPCR de interés. Las posiciones relativas de las secuencias extracelulares, transmembranales e intracelulares de estos GPCRs pueden ser determinadas. Segmentos de secuencia similarmente situados en la alineación de secuencias múltiples, tales como las secuencias intracelulares o los dominios citosólicos, pueden ser seleccionados para la construcción de las secuencias de entrenamiento o de búsqueda. Múltiples programas de alineamiento de secuencia, adecuados para este propósito incluyen, pero no están limitados a, el modelo T-Coffee. Hélices transmembranales en GPCRs pueden ser también predichas utilizando TMHMM, TopPred, u otros programas para facilitar el alineamiento de secuencias múltiples. En muchas modalidades, los segmentos de secuencias no contiguos utilizados para la construcción de secuencias de entrenamiento y de búsqueda son dominios citosólicos de los GPCRs. En un ejemplo, cada secuencia de entrenamiento y de búsqueda empleada incluye una concatenación de dos o más dominios citosólicos de un GPCR correspondiente. En otro ejemplo más, cada secuencia de entrenamiento y de búsqueda empleada incluye una concatenación de cuatro dominios citosólicos de un GPCR correspondiente. En otro ejemplo más, un modelo de reconocimiento de patrón, empleado en la invención, es un modelo de Markov escondido (HMM) . Una búsqueda contra un HMM entrenado, produce un valor E o una calificación de HMMER que indica una concordancia o no concordancia de la secuencia de búsqueda al modelo entrenado. En un ejemplo adicional, la clase especificada de la proteína G que está siendo investigada, se selecciona del grupo que consiste de la clase Gi/0, la clase Gqll, la clase Gs, y la clase G12/?3 , y el GPCR de interés es un GPCR huérfano . La invención también caracteriza los métodos para identificar los moduladores de las interacciones entre un GPCR de interés y las proteínas G. Estos métodos incluyen: la identificación de una clase de proteínas G capaces de interactuar con el GPCR de interés de acuerdo a un método descrito en la presente; y el monitoreo de una interacción entre GPCR de interés y una proteína G seleccionada de la clase en presencia o ausencia de un agente. Un cambio en la interacción en la presencia del agente, en comparación a en ausencia del agente, indica que el agente es capaz de modular la interacción entre los GPCR de interés y la proteína G seleccionada.
En un ejemplo no limitante, el agente identificado de este modo, es un agonista o antagonista del GPCR de interés. En otro ejemplo no limitante, el GPCR de interés que es investigado es un GPCR huérfano. La invención caracteriza además los métodos para modular las vías de transducción de señales mediadas por un GPCR de interés. Estos métodos incluyen: la identificación de una clase de proteínas G capaces de interactuar con el GPCR de interés de acuerdo a un método descrito en la presente; la provisión de un agente capaz de modular una vía de transducción de señal mediada por una proteína G seleccionada de la clase identificada de este modo; y la introducción del agente dentro de una célula que comprende GPCR de interés y la proteína G seleccionada. Al modular la vía de transducción de señales mediada por la proteína G seleccionada, el agente puede también alterar las actividades corriente abajo del GPCR de interés . La invención también caracteriza los métodos para la construcción de modelos de reconocimiento de patrón para evaluar la especificidad de acoplamiento de la proteína G de los GPCRs. Estos métodos incluyen: preparar secuencias de entrenamiento a partir de una pluralidad de GPCRs, que tienen una especificidad de acoplamiento a la proteína G, donde cada secuencia de entrenamiento comprende una concatenación de dos o más segmentos de secuencia no contiguos de un GPCR, y cada uno de los segmentos de secuencia no contiguos incluye una secuencia intracelular de GPCR; y el entrenamiento de un modelo de reconocimiento de patrón con las secuencias de entrenamiento. En un ejemplo, el modelo de reconocimiento de patrón que es construido es un HMM, y cada secuencia de entrenamiento empleada comprende una concatenación de cuatro dominios citosólicos de un GPCR de entrenamiento. La invención caracteriza además los sistemas adecuados para la evaluación de la especificidad de acoplamiento de proteína G de los GPCRs. Estos sistemas incluyen típicamente las computadoras o estaciones de trabajo que comprenden un modelo de reconocimiento de patrón entrenado por una pluralidad de secuencias de entrenamiento. Cada una de las secuencias de entrenamiento comprende una concatenación de dos o más segmentos de secuencia no contiguos de un GPCR que tiene una especificidad de acoplamiento de proteína G específico, y cada uno de los segmentos de secuencia no contiguos comprende una secuencia intracelular del GPCR. En un ejemplo no limitante, el modelo de reconocimiento de patrón empleado es un HMM, y cada secuencia de entrenamiento comprende una concatenación de cuatro dominios citosólicos de un GPCR de entrenamiento. Además, la invención caracteriza los métodos para evaluar la especificidad de acoplamiento al ligando de otras proteínas. Estos métodos comprenden: el entrenamiento de un modelo de reconocimiento de patrones (por ejemplo, un HMM) con una pluralidad de secuencias de entrenamiento, donde las secuencias de entrenamiento son derivadas de un grupo de proteínas de entrenamiento que tienen una especificidad de acoplamiento al ligando, específica, y cada una de las secuencias de entrenamiento comprende una concatenación de dos o más segmentos de secuencia no contiguos de una proteína de entrenamiento; y la búsqueda del modelo entrenado con una secuencia de búsqueda que comprende una concatenación de dos o más segmentos de secuencia no contiguos, de una proteína de interés . Los segmentos de secuencia concatenados en cada secuencia de entrenamiento de búsqueda están similarmente situados en las proteínas originales (por ejemplo, similarmente situados en una alineación de secuencias múltiples de las proteínas originales) . Por lo tanto, una concordancia o no concordancia de la secuencia de búsqueda al modelo entrenado es indicador de si la proteína de interés tiene o no la misma especificidad de acoplamiento al ligando que las proteínas de entrenamiento. Los sistemas que comprenden un modelo entrenado de este modo, son también contemplados por la invención. Otras características, objetivos y ventajas de la invención son aparentes en la descripción detallada siguiente. Se debe entender, no obstante, que la descripción detallada, mientras que indican las modalidades preferidas de la invención, es dada a manera de ilustración únicamente, y no de limitación. Diversos cambios y modificaciones dentro del alcance de la invención se volverán aparentes para aquellos expertos en la técnica a partir de la descripción detallada.
BREVE DESCRIPCIÓN DE LAS FIGURAS Los dibujos son proporcionados para ilustración, no para limitación. La Figura 1 muestra un grupo de datos de las calificaciones medias utilizadas en el análisis discriminante, donde las calificaciones I, Q y S representan las clases Gi0, Gq/n y Gs, respectivamente. La Figura 2A ilustra una gráfica en radar de los valores E obtenidos durante el proceso de construcción y prueba de modelos descrito en el Ejemplo 3, donde los radios de la gráfica corresponden a los valores E observados para el receptor de melanocortina 3 (MC3R) , con cada eje radial que representa una evaluación de los modelos. La proteína de prueba fue incluida en el grupo de prueba 33 veces y por lo tanto los ejes radiales están numerados 1-33. La Figura 2B describe otra gráfica en radar de los valores E obtenidos durante el proceso de construcción y prueba de modelo descrito en el Ejemplo 3, donde los radios" de la gráfica corresponden a los valores E observados para el receptor de la hormona estimulante del folículo (FSHR) , con cada eje radial que representa una evaluación de los modelos. La proteína de prueba fue incluida en el grupo de prueba 26 veces, y por lo tanto los ejes radiales están numerados 1-26.
DESCRIPCIÓN DETALLADA DE LA INVENCIÓN La presente invención caracteriza los métodos de uso de los modelos de reconocimiento de patrón para predecir GPCR-proteína G y otras especificidades de acoplamiento proteína-ligando. Un modelo de reconocimiento de ratón puede ser entrenado sobre las proteínas que tienen una especificidad de acoplamiento de ligando, especificada. En oposición al uso de las secuencias de longitud completa, el entrenamiento puede ser realizado sobre segmentos de secuencias seleccionados en cada proteína de entrenamiento. Cada segmento de secuencia seleccionado incluye uno o más residuos de aminoácidos que pueden residir en la interfaz de la interacción proteína-ligando, o contribuir a la especificidad de acoplamiento del ligando de la proteína de entrenamiento correspondiente. Un modelo de reconocimiento de patrón entrenado de este modo es por lo tanto un modelo restringido en conocimiento. En muchas modalidades, los segmentos de secuencia seleccionados en cada proteína de entrenamiento son concatenados para producir una secuencia de entrenamiento, la cual es utilizada para entrenar y construir un modelo de reconocimiento de patrón restringido en conocimiento. Los segmentos de secuencia similarmente situados, en una proteína de interés pueden ser seleccionados y concatenados para producir una secuencia de búsqueda. El ajuste completo de la secuencia de búsqueda al modelo entrenado es por lo tanto, indicador de si la proteína de interés tiene la misma preferencia de acoplamiento al ligando que las proteínas de entrenamiento. Los modelos de reconocimiento de patrón adecuados para la presente invención incluyen, pero no están limitados a, HMMs, análisis de componentes principales, máquinas de vectores de soporte, y análisis parcial de mínimos cuadrados. Los HMMs son a menudo utilizados para alineamientos de secuencias múltiples, pero pueden también ser utilizados para analizar los patrones periódicos en una secuencia simple. Ver Krogh et al., J. Mol., Biol., 235: 1501-1531 (1994); y Eddy, BIOINFORMATICS REVIEW, 14: 755-763 (1998). Hablando en general, un HMM es un modelo estadístico para una secuencia ordenada de símbolos y actos como una máquina de estado estocástico que genera un símbolo cada vez que es realizada una transición de un estado al siguiente. Las transiciones entre estados son especificadas por probabilidades de transición. Las probabilidades de estado y de transición son multiplicadas para obtener una probabilidad de la secuencia dada. El aspecto escondido de un HMM es que existe una correspondencia uno a uno entre los estados y los símbolos. Una ventaja de los HMMs es que los HMMs tienen una base probabilística formal. Todos los parámetros de calificación empleados en los HMMs pueden ser ajustados por la teoría de probabilidad. Esta base probabilística permite que los HMMs sean entrenados a partir • de las secuencias no alineadas, si una alineación confiable no ha sido identificada. Como se utiliza en la presente, "entrenamiento" se refiere al proceso mediante el cual los parámetros de un modelo .son seleccionados y ajustados tal que el modelo representa las variaciones observadas en las secuencias de entrenamiento. Para la alineación de secuencias múltiples, el entrenamiento puede incluir la optimización de las probabilidades de transición entre estados y las composiciones de aminoácidos de cada estado de concordancia o acoplamiento en el modelo hasta que el mejor HMM para todas las secuencias de entrenamiento es obtenido. Los programas adecuados para la construcción de HMMs incluyen, pero no están limitados a HMMER (Escuela de Medicina de la Universidad de Washington, Saint Louis, MO) , SAM (Escuela de Ingeniería Jack Baskin, Universidad de California, Santa Cruz, CA) , y PFTOOLS (The ISREC Bioinformatics Group) . El HMMER es una implementación de los HMMs de perfil. Ver HMMER User's Guide (por Eddy, HHMI/Washington University School of Medicine, Octubre del 2003) , el contenido completo de la cual se incorpora por referencia en la presente. Una aplicación del HMMER es para identificar los miembros desconocidos de una familia de proteínas, donde la familia de proteínas tiene un número de residuos conservados o topologías que están separadas por espaciamiento o secuencias características. En un formato, una alineación de secuencias múltiples es primeramente construida para delinear estos residuos o topologías conservadas. Un HMM de perfil es luego construido a partir del alineamiento de secuencias múltiples mediante el uso de un "hmmbuild" y opcionalmente calibrado por "hmmcalibrate" . La calibración incrementa la sensibilidad de la búsqueda de la base de datos. Una secuencia de interés puede ser buscada contra el HMM mediante el uso de "hmmpfam" . La búsqueda produce un valor E y una calificación para cada HMM. El valor E y la calificación representa la confianza que la secuencia de interés pertenece a la familia de proteínas, después de lo cual es construido el HMM. El valor E es calculado a partir de la calificación de bitios, y refleja cuántos falsos positivos habría esperado una búsqueda para producir el o por arriba de esta calificación de bitios. Por ejemplo, un valor E de 0.1 significa que existe una probabilidad de 10% de que la búsqueda pudiera haber dado como resultado un acierto igualmente bueno en una búsqueda de un HMM construido a partir de secuencias de entrenamiento no relacionadas o no homologas. De manera contraria a la calificación bruta, el valor E es dependiente del tamaño de la base de datos HMM que es buscada. Una calificación HMMER es un criterio que representa si la secuencia de búsqueda es una mejor concordancia para el modelo HMM (calificación positiva) o el modelo nulo de las secuencias no relacionadas o no homologas (calificación negativa) . Una calificación HMMER del log2 anterior del número de secuencias en la base de datos HMM a menudo sugiere que la secuencia de búsqueda es un miembro verdadero u homólogo de la familia de proteínas a partir de la cual es derivado el HMM. Otros modelos de reconocimiento de patrón pueden ser también utilizados para la presente invención. Estos modelos incluyen, pero no están limitados a, análisis de componente principal, análisis parcial de mínimos cuadrados, y máquinas de vector de soporte. El análisis de componente principal es una técnica para reducir la dimensionalidad del grupo de datos al transformar las variantes originales en un grupo de nuevas variables (los componentes principales, o PCs) . Ver PRINCIPAL COMPONENTE ANALYSIS (por Jolliffe, Springer, Nueva York, 1986) . Los PCs no están correlacionados y pueden ser ordenados tal que el k-ésimo PC tiene la k-ésima varianza más grande entre todos los PCs. La regresión parcial por mínimos cuadrados es una extensión del modelo de regresión lineal múltiple para construir los modelos predictivos que pueden manejar variables redundantes.
Ver Geladi y Kowalski, ANALYTICA CHIMICA ACTA, 185: 1-17 (1986) . Las máquinas de vector de soporte (SVMs) son una técnica de aprendizaje de máquina supervisada. Ver AN INTRODUCTION TO SUPPORT VECTOR MACHINES (por Cristianini y Shawe-Taylor, Cambridge University Press, 2000) . En SVM, el espacio de entrada original es mapeado en un espacio de producto punteado altamente dimensional, llamado espacio de rasgo o característica, y el hiperlugar óptimo en el espacio de rasgo o característica es determinado para elevar al máximo la habilidad de generalización del clasificador. La clasificación basada en SVM es a menudo construida para reducir al mínimo el riesgo de mala clasificación estructural, que conduce a las propiedades de generalización mejoradas.
Un modelo de reconocimiento de patrón de la presente invención puede ser entrenado y construido para cualquier familia de proteínas cuyos miembros pueden ser divididos en diferentes clases con base en sus especificidades de acoplamiento al ligando. Los ejemplos de estas proteínas incluyen, pero no están limitados a, GPCRs, factores de transcripción, canales de iones, cinasas, fosfatasas, y proteasas. Los ligandos adecuados para estas proteínas incluyen, pero no están limitados a, polipéptidos, lípidos, polisacáridos, ácido desoxirribonucleico (DNA por sus siglas en ingles) , ácido ribonucleico (RNA por sus siglas en ingles) , u otras moléculas que pueden ser clasificadas con base en sus actividades, secuencias, estructuras, u otras características físicas, químicas o biológicas. Para construir un modelo de reconocimiento de patrón, las proteínas con especificidades conocidas de acoplamiento al ligando pueden ser agrupadas con base en sus respectivas referencias de acoplamiento al ligando. Cada grupo de proteínas que tienen una especificidad de acoplamiento al ligando, especificada, puede ser utilizado como las proteínas de entrenamiento para entrenar un modelo de reconocimiento de patrón, tal que el modelo entrenado puede reconocer de manera discriminable las proteínas con la misma especificidad de acoplamiento del ligando. En un aspecto, los segmentos de secuencia pueden ser seleccionados a partir de cada proteína de entrenamiento. Estos segmentos son no contiguos, y pueden ser separados uno del otro por al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, o más residuos. Cada segmento de secuencia incluye uno o varios residuos de aminoácidos que pueden residir en la interfaz de la interacción de proteína-ligando, o contribuir a la especificidad de acoplamiento del ligando de la proteína de entrenamiento correspondiente. Una secuencia de entrenamiento compuesta principalmente de estos segmentos seleccionados puede ser preparada y utilizada para entrenar y construir un modelo de reconocimiento de patrón de la presente invención. Un modelo de reconocimiento de patrón construido de este modo es un modelo restringido en conocimiento debido al uso de un conocimiento a priori durante su construcción. Los segmentos de secuencia en una proteína de interés pueden ser similarmente seleccionados y utilizados para buscar el modelo entrenado para la predicción de la especificidad de acoplamiento del ligando, de la proteína de interés. En una modalidad, todos los residuos de aminoácidos en los segmentos de la secuencia seleccionada son removidos de cada proteína de entrenamiento y de búsqueda. Los segmentos remanentes son luego concatenados para generar las secuencias respectivas de entrenamiento o de búsqueda. En un ejemplo, tal secuencia de entrenamiento o de búsqueda es preparada mediante la concatenación de los segmentos seleccionados en el orden en que éstos aparecen en la proteína original. En otro ejemplo más, cada secuencia de entrenamiento y búsqueda es preparada mediante la concatenación de los segmentos seleccionados en un orden que es diferente de aquel en la proteína original. En otro ejemplo más, los residuos de aminoácidos en cada segmento seleccionado son reacomodados de una manera específica, con la condición de que se utilice el mismo arreglo para las secuencias de entrenamiento y búsqueda. En muchas modalidades, la localización de cada segmento de secuencia seleccionado en una proteína de entrenamiento o de búsqueda es determinada a través de un alineamiento de secuencias múltiples de las proteínas de entrenamiento y de búsqueda. El alineamiento de secuencias múltiples permite los segmentos de secuencia seleccionados sean estructural o funcionalmente relacionados entre diferentes proteínas. Programas de alineamiento de secuencia múltiples, adecuados para este propósito incluyen, pero no están limitados a, CLUSTLAW (Thompson et al., NUCLEIC ACIDS RES., 22: 4673-4680 (1994)), CLUSTALX, (Thompson et al., NUCLEIC ACIDS RES., 25: 4876-4882 (1997)), MSA (Gupta et al., J. Comput. Biol., 2: 459-472 (1995)), PRALINE (Heringa, Comput. Chem., 23: 341-364 (1999)), alineamiento de segmentos DIALIGN (Morgenstern et al., PROC. NATL. ACAD. SCI., 93: 12098-12103 (1996)), MultAlin (Corpet, NUCLEIC ACIDS RES., 16: 10881-10890 (1988)), alineamiento global progresivo PRRP (Gotoh, J. Mol. Biol., 264: 823-838 (1996)), algoritmo genético SAGA (Notredame and Higgins, NUCLEIC ACIDS RES., 24: 1515-1524 (1996)), Aligned Segment Statistical Evaluation Tool (Asset) (Neuwald and Green, J. Mol. Biol., 239: 698-712 (1994)), BLOCKS (Henikoff y Henikoff, NUCLEIC ACIDS RES., 19: 6565-6572 (1991)), eMOTIF (Nevill -Manning et al., PROC. NATL.
ACAD. SCI., 95: 5865-5871 (1998)), y el método estadístico muestreador de Gibbs (Lawrence et al., Science, 262: 208-214 (1993), y Liu et al., J. Am. Stat . Assoc., 90: 1156-1170 (1995) ) . Un alineamiento de secuencias múltiples empleado en la presente invención puede ser un alineamiento global, un alineamiento local o una combinación de los mismos. Otros tipos de algoritmos de alineamiento de secuencias pueden ser utilizados para la presente invención. En un ejemplo no limitante, se utiliza T-Coffee para proporcionar un alineamiento de secuencias múltiples de las proteínas de entrenamiento y de búsqueda. T-Coffee es un modelo de alineamiento de secuencia que proporciona una biblioteca de información de alineamiento independiente de la dispersión filogenética de las secuencias en las pruebas (Notredame et al., J. Mol. Biol., 302: 205-17 (2000)). La información en la biblioteca hace posible un análisis de todos los pares, mientras que cada paso de la alineación múltiple progresiva es llevado a cabo, proporcionando de este modo alineamientos por pares de bases globales y locales para precisión incrementada. La precisión modelo radica en su habilidad para utilizar toda la información en la biblioteca en vez de únicamente las dos secuencias que se comparan. Los programas o algoritmos para predecir las funciones, estructuras o topologías de las proteínas, pueden ser también utilizadas para seleccionar los segmentos adecuados en cada proteína de entrenamiento o de búsqueda. Los dominios de proteína con estructuras primarias, secundarias o terciarias distintas o conservadas, pueden ser identificados mediante el uso de numerosos programas de clasificación de proteínas o de predicción de estructuras. Los programas adecuados para este propósito incluyen, pero no están limitados a, eMOTIF (Nevill -Manning et al., supra), DIP (Xenarios et al., NUCLEIC ACIDS RES., 28: 289-291 (2000)), HOMSTRAD (Mizuguchi et al., PROTEIN SCI., 7: 2469 (1998)), HSSP (Dodge et al., NUCLEIC ACIDS RES., 26: 313-315 (1998); NetOGly (Hansen et al., NUCLEIC ACIDS RES., 25: 278-282 (1997)), Pfam (Sonnhammer et al., NUCLEIC ACIDS RES., 26: 320-322 (1998)), PIR (Barker et al., METHODS ENZYMOL., 266: 59-71 (1996)), PSORT (website "psort.nibb.ac.j "), SMART (Schultz et al., PROC. NATL. ACAD. SCI., 95: 5857-5864 (1998)), TargetDB (Wei y O'Connell, BIOINFORMATICS, 15: 765-766 (1999)), el método de plantilla ambiental (Bowie et al., METHODS ENZYMOL., 266: 598-616 (1996); y Johnson et al., METHODS ENZYMOL., 266: 575-598 (1996)), el método potencial de contacto (Sippl., J. Mol. Biol., 213: 859-883 (1990); y Alexandrov et al., PAC. SYMP. BIOCOMPUT. , 1996: 53-72 (1996)), el modelo de espacio discreto (Stultz et al., Adv. Mol. Cell Biol., 22B: 447-506 (1997); y White et al., MATH. BIOSCI . , 119: 35-75 (1994)), y el método de vecino más cercano (Salamov y Solovyev, J. Mol. Biol., 247: 11-15 (1997); y Frishman y Argos, PROTEINS, 27: 329-335 (1997)). La Base de Datos de Dominio Conservado y el Servicio de Búsqueda proporcionado por el Centro Nacional para la Información de Biotecnología (NCBI) (Bethesda, MD) puede ser también utilizado. La Base de Datos de Dominio Conservado incluye los dominios derivados de SMART y Pfam, así como las contribuciones de otras fuentes, tales como COG (Tatusov et al., SCIENCE, 278: 631-637 (1997)). La búsqueda de Dominio Conservado emplea el algoritmo BLAST de posición específica inversa, en el cual la secuencia de búsqueda es comparada a una matriz de calificación específica de la posición, preparada a partir del alineamiento de dominio conservado subyacente . En una modalidad, TMHMM (Krogh et al., J. MOL. Biol., 305: 567-580 (2001)) es empleado para predecir la topología de membrana de una proteína de entrenamiento o de búsqueda. TMHMM es un método de predicción de topología de proteína basado en HMM. El método incorpora la hidrofobicidad, la desviación de carga, longitudes de hélice, y constreñimientos gramaticales en un modelo HMM. En otra modalidad más, TopPred se utiliza para predecir las hélices transmembranales soslayadas por TMHMM. TopPred es un programa diseñado para predecir las topologías de proteínas eucarióticas y procarióticas (Claros y Heijne, COMPUT. APPL. BIOSCI., 10: 685-685 (1994)). Los perfiles de hidrofobicidad y los segmentos transmembranales pueden ser también calculados a partir del programa. Para proteínas eucarióticas, existen tres criterios para determinar la topología de una proteína transmembranal: (1) la diferencia en los residuos positivamente cargados entre los dos lados de la membrana; (2) la diferencia de carga neta entre los 15 residuos N-terminales y C-terminales que plantean el segmento transmembranal más N-terminal; y (3) la composición general de aminoácidos de los rizos más largos de 60 residuos analizados por el método de distancia composicional. En muchos ejemplos, la presente invención caracteriza los modelos de reconocimiento de patrón capaces de predecir la especificidad de acoplamiento de proteína G de los GPCRs . La evidencia experimental indica que los bucles intracelulares y el extremo carboxilo-terminal de los GPCRs están involucrados en el acoplamiento de las proteínas G, y los extremos citoplásmicos de las hélices transmembranales también contribuyen hacia el reconocimiento y activación de la proteína G. Un modelo de reconocimiento de patrón con una enumeración exhaustiva de todas las posibles combinaciones de los cuatro dominios citosólicos, probablemente dará origen a diferentes variables. Tal modelo puede también ser estrechamente entrenado y por lo tanto tener habilidad limitada para generalizar. Al concatenar los cuatro dominios citosólicos (incluyendo los bucles intracelulares y los extremos citoplásmicos de las hélices transmembranales) , un perfil de secuencia puede ser construido sobre los dominios concatenados resultantes y servir como un discriminador para predecir la especificidad del acoplamiento de la proteína G. Tal procedimiento captura las características de secuencia, si las hay, la dispersión a través de dos o más bucles intercelulares. Además, las concordancias a patrones o porciones de secuencia conservada corta (por ejemplo, un dominio citosólico simple) pueden ser informativos y apropiados en ciertos casos, pero las concordancias de secuencias más largas (por ejemplo, los cuatro dominios citosólicos concatenados) son en general más discriminatorios y confiables. Como se muestra en los ejemplos, tres HMMs basados en los dominios citosólicos concatenados de GPCRs, cada uno para la clase G?/0, Gq/n o Gs, fueron construidos. El uso de una secuencia concatenada para representar cada proteína de entrenamiento, en oposición a cuatro unidades disparadas, reduce significativamente el espacio de estado HMM. Los HMMs construidos de este modo fueron utilizados para predecir especificidad de acoplamiento de proteína G a una precisión de aproximadamente al menos 95%. La presente invención también caracteriza los métodos para seleccionar fármacos candidatos que modulan las actividades de GPCRs. Un método de selección típico de la presente invención incluye (1) predecir la especificidad de acoplamiento de la proteína G de un GPCR de interés utilizando un modelo de reconocimiento de patrón de la presente invención; y (2) poner en contacto un agente con el GPCR para determinar si el agente puede modular las interacciones entre GPCR y la proteína G predicha, o las vías de transducción de señales mediadas por el GPCR. Los ensayos adecuados para este propósito incluyen, pero no están limitados a, ensayos basados en células recombinantes, selecciones de inhibición competitiva, y ensayos bioquímicos. Los ensayos basados en células recombinantes emplean sistemas de expresión capaces de imitar la o las vías de señalización in vivo mediadas por GPCRs o sus proteínas G acopladas. Los sistemas de expresión adecuados para este propósito incluyen, pero no están limitados a, levaduras, células de mamífero, células de insecto o células de anfibio. Las selecciones de inhibición competitiva miden la habilidad de un agente para reemplazar un ligando enlazado a partir de un GPCR de interés. Las selecciones pueden también ser utilizadas para identificar los agentes capaces de prevenir el enlace del ligando al GPCR. Los ensayos bioquímicos son adecuados para seleccionar una biblioteca grande de agentes que pueden activar o inactivar una vía de transducción de señal mediada por un GPCR de interés. Un ensayo bioquímico ejemplar incluye las valoraciones del acoplamiento de GPCR a las proteínas G en presencia o ausencia de un agente de interés. La selección de los ensayos apropiados o sistemas de expresión es un asunto de diseño rutinario dentro del nivel de experiencia ordinaria en la técnica. Un agente identificado de este modo puede ser cualquier tipo de molécula, tal como una molécula pequeña, un péptido, un oligosacárido, un lípido o una combinación de los mismos. Un modulador de GPCR identificado por la presente invención puede ser formulado en una composición farmacéutica para tratar las enfermedades asociadas a GPCR, tales como el cáncer, alergias, diabetes, obesidad, disfunción cardiovascular, depresión y una variedad de trastornos del sistema nervioso central. Una composición farmacéutica de la presente invención incluye una cantidad terapéuticamente efectiva de un modulador de GPCR y un portador farmacéuticamente aceptable. Los portadores farmacéuticamente aceptables adecuados incluyen, pero no están limitados a, solventes, solubilizadores, rellenadores, estabilizadores, aglutinantes, absorbentes, bases, agentes amortiguadores, lubricantes, vehículos de liberación controlada, diluyentes, emulsificantes, humectantes, lubricantes, medios de dispersión, recubrimientos, agentes antibacterianos o antimicóticos, agentes retardadores de la absorción e isotónicos, y similares, que son compatibles con la administración farmacéutica. El uso de tales medios y agentes para sustancias farmacéuticamente activas es bien conocido en la técnica. Pueden ser también incorporados agentes suplementarios en la composición. Una composición farmacéutica de la presente invención puede ser formulada para ser compatible con su ruta pretendida de administración. Los ejemplos de rutas de administración incluyen la administración parenteral, intravenosa, intradérmica, subcutánea, oral inhalativa, transdérmica, rectal, transmucosal , tópica y sistémica. En un ejemplo, la administración es llevada a cabo mediante un implante . Una composición farmacéutica de la presente invención puede ser administrada a un paciente o animal en cualquier dosis deseada. Una dosis adecuada puede estar en el intervalo de, por ejemplo, de 5 mg a 100 mg, de 15 mg a 85 mg, de 30 mg a 70 mg, o de 40 mg a 60 mg. Dosis por debajo de 5 mg o por arriba de 100 mg pueden ser también utilizadas.
La composición farmacéutica puede ser administrada en una dosis o en dosis múltiples. Las dosis pueden ser administradas a intervalos tales como una vez al día, una vez a la semana, o una vez al mes. La toxicidad y la eficacia terapéutica de un modulador de GPCR puede ser determinada mediante procedimientos farmacéuticos estándares en cultivo celular o en modelos de animales experimentales. Por ejemplo, la LD50 (la dosis letal para el 50% de la población) y la ED50 (la dosis terapéuticamente efectiva en 50% de la población) pueden ser determinadas. La proporción de dosis entre los efectos tóxicos y terapéuticos es el índice terapéutico, y puede ser expresada como la proporción LD50/ED50. En muchos casos, los moduladores de GPCRs que muestran índices terapéuticos grandes son seleccionados. Los datos obtenidos a partir de los ensayos de cultivo celular y los estudios en animales pueden ser utilizados en la formulación de una gama de dosis para el uso en humanos. En una modalidad, la dosis cae dentro de un intervalo de concentraciones en circulación que muestran una ED50 con poca o ninguna toxicidad. La dosis puede variar dentro de este intervalo, dependiendo de la forma de dosis empleada y de la ruta de administración utilizada. El régimen de dosis para la administración de un modulador de GPCR identificado por la presente invención, puede ser determinado por el médico que atiende con base en diversos factores tales como la acción del modulador de GPCR, el sitio de la patología, la severidad de la enfermedad, la enfermedad del paciente, el sexo y la dieta, la severidad de cualquier inflamación, tiempo de administración, y otros factores clínicos. En un ejemplo, la administración sistémica o inyectable es iniciada a una dosis que es mínimamente efectiva, y la dosis es incrementada en un curso de tiempo preseleccionado hasta que se observa un efecto positivo. Subsecuentemente, incrementos en la dosis son realizados limitándose a los niveles que producen un incremento correspondiente en el efecto, mientras que se toman en cuenta cualesquiera efectos adversos que puedan aparecer. El progreso de un tratamiento puede ser monitorizado mediante la evaluación periódica de la progresión de la enfermedad. El progreso puede ser monitorizado, por ejemplo, mediante rayos X, MRI u otras modalidades de formación de imágenes, análisis de fluido sinovial, o examen clínico. Además, la presente invención caracteriza los sistemas capaces de predecir la interacción GPCR-proteína G u otras especificidades de interacción proteína-ligando. Los sistemas comprenden una computadora o estación de trabajo que incluye un modelo de reconocimiento de patrón de la presente invención. El modelo de reconocimiento de patrón es un modelo restringido en conocimiento y entrenado por segmentos de secuencias seleccionados de las proteínas de entrenamiento. En una modalidad, el modelo de reconocimiento de patrón es un HMM restringido en conocimiento, capaz de predecir la especificidad de acoplamiento de proteína G de un GPCR huérfano. Se debe entender que las modalidades anteriormente descritas y los siguientes ejemplos son dados a manera de ilustración y no de limitación. Diversos cambios y modificaciones dentro del alcance de la invención se volverán aparentes para aquellos expertos en la técnica a partir de la presente descripción.
EJEMPLOS Ejemplo 1 . Grupo de datos y HMMs Un grupo de 102 GPCRs con especificidades de acoplamiento de proteína G experimentalmente determinadas, fueron seleccionados. La clase G?2?3 de GPCRs no fue incluida en el estudio. Por simplicidad, los GPCRs que se sabe son promiscuos en acoplamiento no fueron incluidos en el grupo. Los alineamientos de secuencia múltiples para los 3 subgrupos, las clases Gi0, Gq/n o Gs que contienen 49, 34 y 19 secuencias, respectivamente, fueron generadas utilizando T-Coffee seguido por la curación manual de los alineamientos.
Las hélices transmembranales (TM) de estas proteínas fueron predichas utilizando TMHMM (Krogh et al., J. MOL. BIOL., 305: 567-580 (2001) ) y en el caso de aquellas proteínas con menos de 7 hélices TM predichas, se utilizó TopPred (Claros y Heijne, supra) para predecir las hélices TM omitidas por THMHMM. Los bloques de las secuencias que representan los bucles extracelulares y las hélices TM predichas excepto 2 residuos en el extremo citosólico de cada hélice TM, fueron removidos de los alineamientos de secuencias múltiples, dejando detrás los residuos de aminoácidos denominados como dominios citosólicos. La extirpación de la hélice TM 3 se le dio atención especial, de modo que la caja E/DRY/F (Wess, PHARMACOL. THER., 80: 231-264 (1998)), cuando estuvo presente, se incluye en i2 no obstante de la predicción de la hélice TM. Los alineamientos de secuencias múltiples fueron luego modificados mediante la eliminación de las columnas escasas y las columnas que contienen patrones de repetición simple. De este modo, la alineación de secuencias múltiples de la concatenación de los dominios citosólicos (il, i2 , i3 e i4, más los extremos citosólicos de las hélices TM correspondientes) fueron obtenidos, y utilizados con el paquete HMMER 2.2 para los HMMs de construcción y calibración. Para el grupo de prueba, los dominios citosólicos predichos fueron también extraídos y concatenados en el mismo orden que el grupo de entrenamiento. Esta secuencia concatenada fue utilizada como una secuencia de búsqueda para "hmmpfam" del paquete HMMER 2.2, con el fin de verificar la concordancia de una secuencia GPCR contra el grupo de HMMs. Dos tercios de las secuencias provenientes de cada subgrupo fueron aleatoriamente elegidos como un grupo de entrenamiento, y un tercio remanente se utilizó como el grupo de prueba. No se incluyó ninguna secuencia en el grupo de entrenamiento más de una vez. Los HMMs para las clases Gi0, Gq?? o Gs fueron construidos utilizando el grupo de entrenamiento, y el grupo de prueba compuesto se utilizó como las secuencias de búsqueda. Este proceso de selección aleatoria del grupo de entrenamiento y el grupo de prueba, la construcción de modelo y la concordancia de modelo, se repitió 100 veces dando como resultado 32 predicciones de acoplamiento para cada proteína, en promedio. Una secuencia GPCR de prueba (por ejemplo, la concatenación de los dominios citosólicos predichos) estuvo en concordancia utilizando "hmmpfam" contra los HMMs construidos para las clases G?/0, Gq/n o Gs . En el método basado en el valor E simplista, se predice que es específico para la clase con la mejor concordancia (valor E más bajo) con un corte de valor E de 1.0. Una clasificación más robusta basada en una función discriminante fue llevada a cabo como se describe más adelante.
Ejemplo 2. Análisis Discriminante El análisis discriminante fue utilizado para evaluar la proporción de malas clasificaciones con base en las calificaciones asignadas por HMM. Las medias de calificaciones Si, Sq y Ss fueron computadas para cada secuencia. Las calificaciones Si, Sq y Ss fueron calificaciones asignadas por HMMER contra los HMMs específicos de Gi/s, Gq/n o Gs, respectivamente. El grupo de datos de las calificaciones medias se utilizó en el análisis de función discriminante. Considerando un ejemplo simple de dos clases Ai y A2 definidas en un espacio O, cada clase A¿ tiene una función de densidad f± y una probabilidad previa pi. Para resolver la clasificación, el problema es encontrar un límite que divida O en regiones ij y R2, tal que si una observación cae en Ri r ésta será clasificada como proveniente de la clase A . El objetivo es reducir al mínimo la probabilidad total de mala clasificación.
Al rescribir la fórmula anterior como: la probabilidad de reducir al mínimo mediante la inclusión en Rx de los puntos tales que p2f2<p?f? y excluyendo de ?! los puntos tales que p2f2>p?f!. La continuidad de las densidades implica que el límite entre Ri y R2 es determinado por p?f1<p2f2- Cuando las dos densidades son normales multivariadas con una matriz de covarianza de clase interna común, el límite se reduce a una función discriminante lineal. Cuando las dos densidades son normales multivariadas con diferentes matrices de covarianza de clase interna, ésta se reduce a una función discriminante cuadrática. Las mismas conclusiones pueden ser generalizadas para casos con más de dos clases. Para el análisis discriminante, el grupo de datos de 99 secuencias con 49, 32 y 18 secuencias en la clase G?0, Gq/n y Gs, respectivamente, fue considerado. Las secuencias sin datos duplicados fueron excluidas. Los números de réplicas estuvieron en el intervalo de 15 a 48. En cada una de las 2,000 iteraciones, el grupo de datos fue dividido aleatoriamente en el grupo de entrenamiento y el grupo de prueba, con tamaños de 66 y 33, respectivamente. La función discriminante cuadrática fue desarrollada con base en el grupo de entrenamiento, y aplicada al grupo de prueba. Se asumió que, dentro de cada clase, el vector de calificaciones medias tiene una distribución normal multivariada, y cada clase tuvo su matriz de covarianza de clase interna,- y, además, las probabilidades previas de las clases fueron elegidas como iguales. SAS versión 8.2 (SAS Institute Inc., Cary, NC) para el análisis de datos, fue empleada, y la discriminación proc para el análisis discriminante en particular.
Ejemplo 3 . Predicción de la Especificidad de Acoplamiento por GPCRs Mediante construcción y validación del modelo para predecir el acoplamiento de GPCR-proteína G, se utilizaron 49 secuencias de la clase G/0, 34 secuencias de la clase Gqn y 19 secuencias de la clase Gs de GPCR, que tuvieron identidades secuenciales promedio de 26%, 22% y 24%, respectivamente, dentro del dominio citosólico. El par más relacionado de las secuencias dentro de estos grupos tuvo 95%, 82% y 72% de identidad, y el par más no relacionado tuvo 8%, 4% y 11% de identidad dentro del dominio citosólico de las clases Gi/0, Gqn y Gs. Para evitar desviación en la segregación de los grupos de entrenamiento y de prueba, las secuencias de entrenamiento y de prueba fueron elegidas aleatoriamente, y el proceso fue iterado 100 veces para cambiar dinámicamente los contenidos de los dos grupos entre las iteraciones. De este modo, en cada iteración se crearon tres HMMs, uno para cada clase, y un grupo de prueba que contenía las secuencias provenientes de las tres clases, pero ninguna incluida en el grupo de entrenamiento. Durante el curso de estas 100 iteraciones, las secuencias que pertenecen a las clases Gi/0, Gq/n y Gs fueron probadas contra los HMMs un total de 1,600, 1,100 y 600 veces, respectivamente. Una representación gráfica del grupo de datos entero generado en las 100 iteraciones, se muestra en la Figura 1. Es claro a partir de la Figura 1 que todos los GPCRs de acoplamiento a Gio tienen altas calificaciones contra los HMMs específicos de Gi/0 (la "calificación I"), pero bajas calificaciones contra los HMMs específicos de Gq/n (la "calificación Q") y específicos de Gs (la "calificación s"). Similarmente, los GPCRs de acoplamiento a Gqn y Gs tienen altas calificaciones contra sus respectivos HMMs específicos de clase, y bajas calificaciones contra los HMMs específicos para una clase diferente. Las predicciones brutas son también presentadas en las Tablas 1, 2 y 3. El HMM restringido en conocimiento tiene el mejor resultado en el caso de las secuencias GPCR acopladas a Gi/0. En esta clase, únicamente se reportó un caso simple de predicción errónea por EDG2. Para los GPCRs acoplados a Gq, existieron únicamente dos GPRs que fueron mal clasificados al menos una vez -a saber, MGR1 y MGR5. Finalmente, para la familia Gs, existieron tres posibles malas clasificaciones -a saber, FSHR, PI2R y V2R. De este modo, incluso al tomar simplemente una predicción única, las probabilidades de mala clasificación fueron relativamente pequeñas. Con el fin de estimar la robustez con la cual es realizada la clasificación entre diversas clases, el análisis discriminante descrito en el Ejemplo 2 fue conducido. Se identificaron 136 malas clasificaciones equivalentes a una proporción de error de 0.0021. Con el fin de evaluar los beneficios de los HMMs restringidos en conocimiento, fueron creados los HMMs utilizando los alineamientos de secuencias múltiples de las secuencias de longitud completa, y luego probados por secuencias de búsqueda de longitud completa. En contraste a la alta proporción de precisión de los HMMs restringidos en conocimiento, las predicciones realizadas por HMMs de longitud completa y las secuencias de búsqueda de longitud completa, fueron propensas a error. Las Figuras 2A y 2B son gráficas en radar que muestran los valores E obtenidos para el receptor de melanocortina 3 (MC3R) y el receptor de la hormona estimulante del folículo (FSHR) , respectivamente, contra los HMMs específicos de Gs, G?/0 y Gq/n. Se notó a partir de la Figura 2A que existió un veredicto unánime con respecto a la especificidad de acoplamiento de MC3R con valores E extremadamente bajos, contra los HMMs específicos de Gs . También, existe una diferencia significativa entre los valores E obtenidos contra los HMMs específicos de G3, y aquellos contra los HMMs específicos de Gi/0 y Gq/n . En el caso de FSHR, el veredicto no fue unánime aunque una gran mayoría de los modelos predijeron que FSHR es de acoplamiento a Gs (Figura 2B) . Como se describe en la Figura 2B, los valores E de FSHR contra diferentes HMMs específicos de Gs, Gq/n y Gi/o fueron ligeramente traslapados y no drásticamente diferentes entre clases. Estas dos gráficas representan el tipo de variación observada en el intento para predecir el acoplamiento de la proteína G. De las 1,600 predicciones basadas en el valor E, existió una predicción errónea en la clase GiC de las proteínas (Tabla 1) . El receptor del ácido lisofosfatídico (EDG2, SwissProt: Q92633) fue probado 24 veces contra diferentes HMMs y fue mal clasificado como de acoplamiento Gs una vez, y correctamente clasificado como de acoplamiento Gi/0 23 veces. La función discriminante también clasificó mal EG2 dos veces en 631 intentos.
Tabla 1. Lista de GPCRs de Acoplamiento a Gj0 y su Clasificación Basada en HMMs Restringidos en Conocimiento$ 10 15 10 15 10 15 valor E>1.00 para la mejor concordancia. números de acceso son de la base de datos SwissProt/TREMBL. En las columnas 3-7 los números dentro de los paréntesis fueron obtenidos a partir del análisis discrimínate. 10 15 Como se muestra en la Tabla 2, existieron 12 malas clasificaciones en un total de 1,100 predicciones basadas en el valor E para la clase Gq/n de receptores. Las 12 malas clasificaciones fueron ya sea para el precursor del receptor 1 de glutamato metabotrópico (MGR1, SwissProt: Q13255) o el precursor del receptor 5 de glutamato metabotrópico (MGR5, SwissProt: P41594) . El precursor de MGR 1 fue incluido 27 veces en el grupo de prueba; éste fue clasificado como el acoplamiento Gi/0 3 veces, 7 veces éste no tuvo concordancia contra cualquiera de los 3 modelos de valor E < 1.0 y las 17 veces restantes éste fue clasificado correctamente. De las 26 veces que fue probado MGR5, la clasificación correcta fue realizada 15 veces, pero 3 veces éste fue clasificado como acoplamiento Gi/0, una vez como acoplamiento Gs y 7 veces no hubo concordancia contra ninguno de los tres modelos al valor E<1.0. MGR1 y MGR5 no fueron incluidos en el análisis discriminante, debido a puntos de datos insuficientes. De las 600 predicciones basadas en el valor E para la clase Gs de proteínas, 13 fueron erróneas; todos los errores estuvieron limitados a 3 secuencias (Tabla 3) - a saber, FSHR, V2R y PI2R. El precursor del receptor de la hormona estimulante del folículo (FSHR, SwissProt: P23945) fue correctamente clasificado 20 veces, pero erróneamente clasificado como acoplamiento Gi/0 en 6 ocasiones (Tabla 3 y Figura IB) . Como se esperaba, la función discriminante también clasificó mal FSHR en 115 de 665 intentos. Similarmente, con base en el receptor V2 de vasopresina de valor (V2R, SwissProt: P30518) fue correctamente clasificado 28 veces, pero erróneamente clasificado como acoplamiento Gq/?? en 6 ocasiones. Para V2R, la proporción de error en el análisis discriminante fue 15 de 692 intentos. El receptor se prostaciclina (PI2R, SwissProt: P43119) fue correctamente clasificado en 27 de los 28 intentos y erróneamente colocado en la clase Gq/n en una ocasión. El receptor de la prostaglandina E2 (PE24, SwissProt: P35408) y PI2R fue mal clasificado por la función discriminante a una proporción de errores de 1 de 662 y 2 de 681, respectivamente. El receptor de prostaglandina D2 (PD2R, SwissProt: Q13258) no fue incluido en el análisis discriminante debido a puntos de datos insuficientes en las calificaciones Gi/Q y Gqn.
Tabla 2. Lista de GPCRs de Acoplamiento a Gq/n y su Clasificación Basada en HMMs Restringidos en Conocimiento$ 10 --J 15 00 10 15 * valor E>1.00 para la mejor concordancia. ** números de acceso son de la base de datos SwissProt/TREMBL. $ En las columnas 3-7 los números dentro de los paréntesis fueron obtenidos a 10 15 Tabla 3. Lista de GPCRs de Acoplamiento a Gs y su Clasificación Basada en HMMs Restringidos en Conocimiento$ 10 o 15 * valor E>1.00 para la mejor concordancia. Ol 10 ** números de acceso son de la base de datos SwissProt/TREMBL. $ En las columnas 3-7 los números dentro de los paréntesis fueron obtenidos a partir del análisis discrimínate. 15 Las asunciones de este Ejemplo para la predicción del acoplamiento GPCR-proteína G son las siguientes: (1) los bucles intracelulares y los extremos citosólicos de los segmentos transmembranales, conjuntamente denominados como el dominio citosólico, pueden contribuir a la especificidad del acoplamiento GPCR-proteína G; (2) aunque son interrumpidos por las secuencias TM y/o los bucles extracelulares en la estructura primaria de los GPCRs, los cuatro segmentos intracelulares (il, i2, i3 e i4) tratados como una secuencia contigua de aminoácidos pueden proporcionar una estructura razonable para la construcción de un modelo de Markov escondido, que captura las características del dominio de acoplamiento; (3) cuando se determina la concordancia entre un modelo y la secuencia de un GPCR, el dominio citosólico puede ser extraído y utilizado como búsqueda en vez de la secuencia completa. La premisa de que la similitud secuencial puede predecir la selectividad de acoplamiento de la proteína G parece ser inconsistente con ciertos argumentos articulados por Wong, NEUROSIGNALS, 12: 1-12 (2003). De acuerdo a la hipótesis de Wong, la selectividad de la proteína G es definida por la conformación de la región intracelular de los GPCRs y esta conformación es regulada por la interacción entre varias regiones intracelulares. Además, la selectividad de acoplamiento de la proteína G fue considerada un resultado de una combinación de un "dominio de activación" general y un "dominio de selectividad" específico. Ver Wong, supra. La incapacidad para encontrar una porción de acoplamiento a la proteína G de consenso entre los GPCRs puede ser debido a que la "porción de consenso" está comprendida de secuencias provenientes de dos o más regiones intracelulares, y muchos intentos previos en identificar tales porciones consideraron las cuatro regiones intracelulares en el aislamiento. Con el fin de clasificar las proteínas en las clases Gi/Q, Gq/n y Gs , fueron seguidos dos procedimientos: (1) un procedimiento basado en el mejor valor E, simplista; y (2) uno basado en una función discriminante que utiliza las calificaciones asignadas por HMM en vez de los valores E. Los dos métodos dieron resultados similares, como se esperaba, debido a que los valores E son derivados de las calificaciones. Es evidente a partir de los datos presentados en las Tablas 1, 2 y 3 que la secuencia de los dominios citosólicos concatenados puede proporcionar suficiente señal para clasificar correctamente los GPCRs de acuerdo a su preferencia de acoplamiento. La proporción de errores del esquema de predicción sobre 100 iteraciones como se describe en este Ejemplo, fue menor de 1.00%. Cuando se utilizaron secuencias de longitud completa como secuencias de entrenamiento y de prueba, en vez de los dominios citosólicos concatenados, las proporciones de error fueron de 6%, 27% y 41% para las clases Gi/0, Gqn y Gg, respectivamente, con una proporción de error total de 19%. Esta alta proporción de error observada cuando las secuencias de longitud completa fueron utilizadas, subestima la ventaja de aplicar la intuición biológica, en este caso utilizando únicamente los presuntos fragmentos relevantes, en el desarrollo de las herramientas computacionales mejoradas para la biología. Las herramientas computacionales tales como los HMMs y las redes neurales artificiales, pueden ser construidas para encontrar patrones en datos. Mientras que éstos en general funcionan creíblemente, los modelos a menudo ignoran deliberadamente los patrones bien conocidos en los datos, con la asunción de que la herramienta de detección de patrón la. encontrará de cualquier manera. En el caso de secuencias de proteínas, pueden existir diferentes patrones en diferentes posiciones por razones completamente diferentes. Para un GPCR, los segmentos transmembranales son hidrofóbicos, los dominios extracelulares y los segmentos transmembranales mantienen patrones para especificidad de ligando de no proteína G, y los dominios intracelulares para la especificidad de proteína G. Ya que la hidrofobicidad y la especificidad del ligando no-proteína G no están relacionados a la especificidad de proteína G, incluyendo aquellas secuencias en el HMM puede conducir a la dilución del patrón o a un HMM más débil. La alta proporción de error notada a partir del uso de las secuencias de longitud completa para la construcción de modelos y la prueba, apoya este análisis. La estrategia de predicción de acoplamiento de GPCR-proteína G presentada en este Ejemplo mostró ambigüedad en el caso de unos pocos receptores. De las secuencias que no fueron unánimemente segregadas por los modelos de Markov escondidos, EDG2 fue el único miembro de la clase Gi0 (Tabla 1) . Existen indicaciones de que EDG2 es capaz de acoplarse a Gi/o, Gq/?? y Gi2/?3. La Tabla 2 revela la predicción de acoplamiento de dos proteínas de la clase Gq/n, MGR1 y MGR5 , que fueron ambiguas. Existe evidencia experimental para el acoplamiento a Gs y el acoplamiento a Gi/D por MGR1. El acoplamiento MGR1 Gi/Q fue predicho por 3 de 27 modelos, pero 7 de los 27 modelos no produjeron una predicción para el mismo receptor, debido a valores E más altos que el umbral utilizado en este estudio. La predicción de acoplamiento para MGR5 tampoco fue unánime, aunque la mayor parte de los modelos predijeron que es de la clase Gq/n . El FSHR que se acopla a Gs se predijo que pertenece a la clase Gi/0 por 6 de los 26 modelos (Tabla 3, Figura 2b). El acoplamiento de FSHR a las cascadas de la adenilil-ciclasa y la fosfolipasa C en las células CHO, ha sido sugerido, pero en contraste a las predicciones por los HMMs restringidos en conocimiento, no existe todavía evidencia para una respuesta mediada por Gi/Q.
El receptor de prostaciclina PI2R que se acopla a Gs, se predijo que pertenece a la clase Gq/n por uno de los 28 modelos (Tabla 3) . Se sugirió que este receptor se acopla a Gq/n además de a Gs . El receptor V2R de vasopresina V2 es otra proteína que se acopla a Gs, que se predijo que se acopla a Gq/n por 6 de los 34 modelos. La sustitución de aminoácidos simple (M145L) en el segundo bucle intracelular de V2R, fue suficiente para mostrar acoplamiento sustancial a Gq5. Otros miembros de la familia de receptores de vasopresina/oxitocina se acoplan selectivamente a Gq/n y tienen una leucina en la posición correspondiente a esta metionina (M145) . Actualmente, la promiscuidad en el acoplamiento de GPCR-proteína G está bien establecido para 18 receptores. Es probable que más receptores se unirán a este grupo promiscuo ya que son estudiados más tipos celulares, condiciones fisiológicas y receptores. Un esquema de clasificación Bayesiano del acoplamiento a la proteína G predijo la promiscuidad para 35 de los 55 receptores incluidos en el grupo de validación. Como se mencionó previamente, ninguno de los 102 receptores seleccionados en el presente estudio son considerados como promiscuos en el acoplamiento a G. No obstante unos pocos modelos, aunque una pequeña fracción, indicaron promiscuidad para 6 de los 102 receptores y 4 de estos 6 receptores han sido sugeridos o han mostrado que son promiscuos. Un ejemplo es mostrado en la Figura 2b que sugiere que FSHR puede ser promiscuo en el acoplamiento a la proteína G. Predicciones ambiguas pueden ser los puntos iniciales para experimentos adicionales que exploran el acoplamiento alternativo a la proteína G y los eventos de procesamiento de señales corriente abajo en vez de ser no considerados como artefactos in silico . Entre los factores que pueden influenciar el acoplamiento GPCR-proteína G, pero no considerados por el esquema de predicción descrito en este documento, es la modificación post-traduccional del receptor. Un número relativamente pequeño de secuencias de las clases Gq/n y Gs de los receptores, están disponibles para la construcción del modelo; esto puede tener un impacto adverso sobre la habilidad de predicción para estas clases. El método descrito en este Ejemplo tiene la más alta proporción de error para la clase Gs para la cual el grupo de entrenamiento fue el más pequeño, y la más baja proporción de error para la clase Gi/s para la cual el grupo de entrenamiento fue el más grande. La menor proporción de error en la clase Gi/0, cuando se comparó a las proporciones de error en las clases Gq/n y Gs, puede representar un reflejo del tamaño del grupo de entrenamiento y no debido a un perfil más discriminante o restrictivo de la clase Gi/C que hace posible predicciones a menor proporción. La sensibilidad y la selectividad del método de predicción de este Ejemplo pueden ser mejorados con la disponibilidad de un grupo de entrenamiento más grande. De este modo, conforme se vuelvan disponibles más datos (la promiscuidad así como para todas las especificidades) , los HMMs restringidos en conocimiento, mejorados con mejor funcionamiento de predicción pueden ser construidos de acuerdo a la presente invención. En un número de situaciones en biología computacional, se espera que la restricción del conocimiento de los HMMs u otras herramientas de reconocimiento de patrones puedan dar recompensas ricas. La desorfanización de un receptor es una piedra angular significativa en el entendimiento de GPCR. Es posible que, cuando un número de GPCRs que se enlazan a ligandos extracelulares similares son conocidos, otros GPCRs de especificidades similares pueden ser identificados utilizando un HMM restringido en conocimiento, utilizando únicamente los dominios extracelulares. Otro ejemplo más es el enlace MHC-péptido, donde únicamente la secuencia de muesca de enlace se espera que tenga algún impacto significativo sobre la selectividad de péptidos de una MHC. Es posible construir un HMM solo de la muesca de enlace al péptido MHC, con el fin de obtener un modelo relativamente compacto de especificidad de enlace al péptido. El principio de restricción de conocimiento en la construcción de modelos biológicos, puede ser adaptado a los métodos diferentes de los HMMs. Por ejemplo, el análisis de componentes principales (PCA), análisis parcial de mínimos cuadrados (PLS) , y máquinas de vector de soporte (SVMs) pueden ser similarmente ampliados para la clasificación de los GPCRs. La descripción anterior de la invención proporciona ilustración y descripción, pero no se pretende que sea exhaustiva o que limite la invención a aquella precisamente descrita. Son posibles modificaciones y variaciones consistentes con las enseñanzas anteriores, o éstas pueden ser adquiridas de la práctica de la invención. De este modo, se nota que el alcance de la invención es definido por las reivindicaciones y sus equivalentes. Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención es el que resulta claro de la presente descripción de la invención.

Claims (20)

REIVINDICACIONES Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes reivindicaciones :
1. Un método para evaluar la especificidad de acoplamiento a la proteína G de un receptor de interés acoplado a la proteína G (GPCR) , caracterizado porque comprende: el entrenamiento de un modelo de reconocimiento de patrón con una pluralidad de secuencias de entrenamiento, las secuencias de entrenamiento son derivadas de un grupo de GPCRs de entrenamiento que son capaces de interactuar con una clase específica de proteínas G, cada secuencia de entrenamiento comprende una concatenación de dos o más segmentos de secuencia no contigua de un GPCR de entrenamiento seleccionado de dicho grupo, y cada segmento de secuencia no contiguo que comprende una secuencia intracelular del GPCR de entrenamiento; y la búsqueda del modelo entrenado con una secuencia de búsqueda que comprende una concatenación de dos o más segmentos de secuencia no contiguos del GPCR de interés, cada segmento de secuencia no contiguo de GPCR de interés, que comprende una secuencia intracelular del GPCR de interés; en donde una concordancia o no concordancia de la secuencia de búsqueda al modelo entrenado es indicadora de si el GPCR de interés es o no capaz de interactuar con la clase específica de proteínas G.
2. El método de conformidad con la reivindicación 1, caracterizado porque la secuencia de entrenamiento comprende una concatenación de dos o más dominios citosólicos de un GPCR de entrenamiento seleccionado de dicho grupo, y la secuencia de búsqueda comprende una concatenación de dos o más dominios citosólicos del GPCR de interés.
3. El método de conformidad con la reivindicación 1, caracterizado porque la secuencia de entrenamiento comprende una concatenación de cuatro dominios citosólicos de un GPCR de entrenamiento seleccionado de dicho grupo, y la secuencia de búsqueda comprende una concatenación de cuatro dominios citosólicos del GPCR de interés.
4. El método de conformidad con la reivindicación 3, caracterizado porque el modelo de reconocimiento de patrón es un modelo de Markov escondido.
5. El método de conformidad con la reivindicación 4, caracterizado porque la búsqueda genera un valor E o una calificación de HMMER que indica una concordancia o no concordancia de la secuencia de búsqueda al modelo entrenado.
6. El método de conformidad con la reivindicación 5, caracterizado porque la clase especificada de las proteínas G se selecciona del grupo que consiste de la clase Gi/o, la clase Gq/n, la clase Gs, y la clase G?2?3.
7. El método de conformidad con la reivindicación 5, caracterizado porque el GPCR de interés es un GPCR huérfano .
8. El método de conformidad con la reivindicación 5, caracterizado porque el grupo de GPCRs de entrenamiento y el GPCR de interés son alineables en un alineamiento de secuencias múltiples, y los segmentos de secuencias no contiguas del GPCR de entrenamiento son alineables a los segmentos de secuencia no contiguos del GPCR de interés en el alineamiento de secuencias múltiples.
9. El método de conformidad con la reivindicación 8, caracterizado porque el alineamiento de secuencias múltiples es producido por un programa T-Coffee.
10. Un método para identificar los moduladores de interacciones entre un GPCR de interés y las proteínas G, caracterizado porque comprende: la identificación de una clase de proteínas G capaces de interactuar con el GPCR de interés, de acuerdo al método de conformidad con la reivindicación 1; y el monitoreo de una interacción entre el GPCR de interés y una proteína G seleccionada de dicha clase en presencia o ausencia de un agente, en donde un cambio en la interacción en la presencia del agente, en comparación a la ausencia de dicho agente, indica que el agente modula la interacción entre el GPCR de interés y la proteína G.
11. El método de conformidad con la reivindicación 10, caracterizado porque el agente es un agonista o antagonista del GPCR de interés.
12. El método de conformidad con la reivindicación 10, caracterizado porque el GPCR de interés es un GPCR huérfano .
13. Un método para modular una vía de transducción de señal mediada por un GPCR de interés, caracterizado porque comprende : la identificación de una clase de proteínas G capaces de interactuar con el GPCR de interés de acuerdo al método de conformidad con la reivindicación 1; la provisión de un agente capaz de modular una vía de transducción de señal mediada por una proteína G seleccionada de dicha clase; y la introducción del agente dentro de una célula que comprende el GPCR de interés y la proteína G.
14. Un método para construir un modelo de reconocimiento de patrón para evaluar la especificidad de acoplamiento a la proteína G, de los GPCRs, caracterizado porque comprende : preparar secuencias de entrenamiento a partir de una pluralidad de GPCRs que tienen una especificidad de acoplamiento a la proteína G, específica, cada secuencia de entrenamiento comprende una concatenación de dos o más segmentos de secuencia no contiguos de un GPCR seleccionado de la pluralidad de GPCRs, y cada uno del segmento de secuencia no contiguo comprende una secuencia intracelular del GPCR; y el entrenamiento del modelo de reconocimiento de patrón con las secuencias de entrenamiento.
15. El método de conformidad con la reivindicación 14, caracterizado porque el modelo de reconocimiento de patrón es un modelo de Markov escondido.
16. El método de conformidad con la reivindicación 14, caracterizado porque cada secuencia de entrenamiento comprende una concatenación de cuatro dominios citosólicos de un GPCR seleccionado de la pluralidad de GPCRs.
17. Un sistema que comprende un modelo de reconocimiento de patrón entrenado por una pluralidad de secuencias de entrenamiento, caracterizado porque la secuencia de entrenamiento comprende una concatenación de dos o más segmentos de secuencia no contiguos de un GPCR que tiene una especificidad de acoplamiento a la proteína G, específica, y cada segmento de secuencia no contiguo comprende una secuencia intracelular del GPCR.
18. El sistema de conformidad con la reivindicación 17, caracterizado porque el modelo de reconocimiento de patrón es un modelo de Markov escondido, y cada secuencia de entrenamiento comprende una concatenación de cuatro dominios citosólicos de GPCR.
19. Un método para evaluar la especificidad de acoplamiento al ligando de una proteína de interés, caracterizado porque comprende: el entrenamiento de un modelo de reconocimiento de patrón con una pluralidad de secuencias de entrenamiento, las secuencias de entrenamiento son derivadas de un grupo de proteínas de entrenamiento que tienen una especificidad de acoplamiento al ligando, específica, cada secuencia de entrenamiento comprende una concatenación de dos o más segmentos de secuencia no contiguos de una proteína de entrenamiento seleccionada de dicho grupo; y la búsqueda del modelo entrenado con una secuencia de búsqueda que comprende una concatenación de dos o más segmentos de secuencia no contiguos de la proteína de interés, en donde una concordancia o no concordancia de la secuencia de búsqueda al modelo entrenado, es indicadora de si la proteína de interés tiene o no especificidad de acoplamiento al ligando, específica.
20. El método de conformidad con la reivindicación 19, caracterizado porque el modelo de reconocimiento de patrón es un modelo de Markov escondido.
MXPA06014823A 2004-07-09 2005-07-08 Metodos y sistemas para predecir especificidades de acoplamiento proteina-ligando. MXPA06014823A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US58640904P 2004-07-09 2004-07-09
PCT/US2005/024276 WO2006017181A2 (en) 2004-07-09 2005-07-08 Methods and systems for predicting protein-ligand coupling specificities

Publications (1)

Publication Number Publication Date
MXPA06014823A true MXPA06014823A (es) 2007-02-12

Family

ID=35839753

Family Applications (1)

Application Number Title Priority Date Filing Date
MXPA06014823A MXPA06014823A (es) 2004-07-09 2005-07-08 Metodos y sistemas para predecir especificidades de acoplamiento proteina-ligando.

Country Status (9)

Country Link
US (2) US20060008831A1 (es)
EP (1) EP1782318A2 (es)
JP (1) JP2008506120A (es)
CN (1) CN101002206A (es)
AU (1) AU2005271899A1 (es)
BR (1) BRPI0513188A (es)
CA (1) CA2571956A1 (es)
MX (1) MXPA06014823A (es)
WO (1) WO2006017181A2 (es)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2011320564A1 (en) 2010-10-28 2013-03-14 E. I. Du Pont De Nemours And Company Drought tolerant plants and related constructs and methods involving genes encoding DTP6 polypeptides
US20150006532A1 (en) * 2012-01-18 2015-01-01 Dow Agrosciences Llc Stable pair-wise e-value
CN102760209A (zh) * 2012-05-17 2012-10-31 南京理工大学常熟研究院有限公司 一种非参数膜蛋白跨膜螺旋预测方法
CN103049678B (zh) * 2012-11-23 2015-09-09 中国科学院自动化研究所 基于蛋白质交互作用网络的异病同治分子机理分析方法
CA2935703A1 (en) 2013-12-30 2015-07-09 E. I. Du Pont De Nemours And Company Drought tolerant plants and related constructs and methods involving genes encoding dtp4 polypeptides
CN104239751B (zh) * 2014-09-05 2017-11-14 南京理工大学 基于后处理学习的g蛋白偶联受体‑药物交互作用预测方法
EP3298524A4 (en) 2015-05-22 2019-03-20 CSTS Health Care Inc. THERMODYNAMIC MEASUREMENTS RELATING TO PROTEIN-PROTEIN INTERACTION NETWORKS FOR THE TREATMENT OF CANCER
UA124495C2 (uk) 2015-08-06 2021-09-29 Піонір Хай-Бред Інтернешнл, Інк. Інсектицидний білок рослинного походження та спосіб його застосування
GB201607521D0 (en) * 2016-04-29 2016-06-15 Oncolmmunity As Method
CN108959852B (zh) * 2017-05-24 2021-12-24 北京工业大学 基于氨基酸-核苷酸成对偏好性信息的蛋白质上与rna结合模块的预测方法
CN107609340B (zh) * 2017-07-24 2020-05-05 浙江工业大学 一种多域蛋白距离谱构建方法
JP7168979B2 (ja) * 2019-01-31 2022-11-10 国立大学法人東京工業大学 立体構造判定装置、立体構造判定方法、立体構造の判別器学習装置、立体構造の判別器学習方法及びプログラム
EP3745404B1 (en) * 2019-05-29 2024-04-03 Cell Networks GmbH Method and system for predicting coupling probabilities of g-protein coupled receptors with g-proteins
CN114446383B (zh) * 2022-01-24 2023-04-21 电子科技大学 一种基于量子计算的配体-蛋白相互作用的预测方法

Also Published As

Publication number Publication date
US20100293118A1 (en) 2010-11-18
CA2571956A1 (en) 2006-02-16
CN101002206A (zh) 2007-07-18
US20060008831A1 (en) 2006-01-12
JP2008506120A (ja) 2008-02-28
EP1782318A2 (en) 2007-05-09
WO2006017181A2 (en) 2006-02-16
WO2006017181A3 (en) 2006-09-21
BRPI0513188A (pt) 2008-04-29
AU2005271899A1 (en) 2006-02-16

Similar Documents

Publication Publication Date Title
MXPA06014823A (es) Metodos y sistemas para predecir especificidades de acoplamiento proteina-ligando.
Rost et al. Bridging the protein sequence-structure gap by structure predictions
US7751988B2 (en) Lead molecule cross-reaction prediction and optimization system
Bock et al. Virtual screen for ligands of orphan G protein-coupled receptors
Cavasotto et al. Structure‐based identification of binding sites, native ligands and potential inhibitors for G‐protein coupled receptors
Dumontier et al. Armadillo: domain boundary prediction by amino acid composition
WO2006057763A2 (en) Method for predicting g-protein coupled receptor-ligand interactions
US8036831B2 (en) Ligand searching device, ligand searching method, program, and recording medium
Brooijmans Docking methods, ligand design, and validating data sets in the structural genomic era
Trnka et al. Role of integrative structural biology in understanding transcriptional initiation
Sahoo et al. Transmembrane dimers of type 1 receptors sample alternate configurations: MD simulations using coarse grain Martini 3 versus AlphaFold2 Multimer
Lätzer et al. Induced fit, folding, and recognition of the NF-κB-nuclear localization signals by IκBα and IκBβ
Wang et al. Denatured-state energy landscapes of a protein structural database reveal the energetic determinants of a framework model for folding
Kochańczyk Prediction of functionally important residues in globular proteins from unusual central distances of amino acids
Ikeda et al. Visualization of conformational distribution of short to medium size segments in globular proteins and identification of local structural motifs
Mishra et al. In silico engineering of proteins that recognize small molecules
WO2003046153A2 (en) The use of quantitative evolutionary trace analysis to determine functional residues
Weisser et al. Identification of fundamental building blocks in protein sequences using statistical association measures
Song et al. Applying multi-state modeling using AlphaFold2 for kinases and its application for ensemble screening
Gupta et al. In Silico Methods to Assess CNS Penetration of Small Molecules
Fernandez-Fuentes et al. Modeling loops in protein structures
Keri et al. Computational rewiring of allosteric pathways reprograms GPCR selective responses to ligands
US20030158671A1 (en) Systems and methods for predicting active site residues in a protein
Tang Prioritizing Small Molecules for Drug Discovery or Chemical Safety Assessments using Ligand-and Structure-based Cheminformatics Approaches
Podlewska Development of machine learning-based tools for computer-aided drug design