1
PERFIL GENOMICO DE SITIOS DE ENLACE AL FACTOR REGULADOR
CAMPO DE LA INVENCIÓN La presente invención se refiere en general a los métodos, sistemas y estructuras de datos que proporcionan perfiles de los sitios de enlace al factor regulador de todos los genes conocidos, y más particularmente a los métodos, estructuras de datos y sistemas para identificar y caracterizar los sitios de enlace a los factores reguladores, con el fin de desarrollar análisis sistemáticos sobre los sitios de enlace identificados para el desarrollo de estrategias terapéuticas adicionales . ANTECEDENTES DE LA INVENCIÓN La alteración del nivel de expresión de genes se ha vuelto un procedimiento importante y eficiente para enfrentar trastornos humanos . El nivel de expresión de cada gen es controlado por la maquinaria de trascripción, en la cual algunas proteínas específicas llamadas factores de trascripción (TFs) se enlazan a la región reguladora del gen, y a su vez inicializan los procesos de trascripción. De este modo, los TFs correspondientes y sus sitios de enlace sobre la región reguladora del gen, pueden jugar el papel esencial en el control del nivel de trascripción del gen. Por lo tanto, los factores de trascripción y sus mecanismos de trascripción relacionados se han vuelto los puntos "calientes" en los
EEF: 167120 2
esfuerzos de investigación y desarrollo biomédicos modernos . Para cada gen, el sitio de inicio de la trascripción (TSS, por sus siglas en inglés) es la posición donde su AKm comienza a ser transcrito a partir del ADN por la ARN-polimerasa II. Durante este proceso, la región reguladora del gen es asociada y enlazada por ciertos factores reguladores . Estos factores enlazados conjuntamente con otras proteínas de trascripción forman un complejo de trascripción que puede inicializar el proceso de trascripción. Más específicamente, esto incluye típicamente los sitios de enlace al factor de trascripción que son las secuencias genómicas cortas de consenso. Una de las regiones reguladoras más importantes es el promotor de núcleo usualmente localizado inmediatamente antes o flanqueando TSS. De este modo, la identificación de TSS es importante para definir la región reguladora de la trascripción para cada gen. Actualmente, muchas investigaciones y desarrollos específicos enfocan sus esfuerzos a los TFs específicos y a los sitios de enlace correspondientes, los cuales han proporcionado muchos datos sólidos, pero todavía fallan en cumplir el gran requerimiento del desarrollo de las necesidades biomédicas relacionadas al genoma. Para cumplir con el compromiso y el reto de descubrir fármacos relacionados a los factores de trascripción, de desarrollo rápido, es muy importante identificar todos los factores reguladores putativos y caracterizar sus 3
correspondientes sitios de enlace en el genoma. Especialmente, con la finalización del proyecto del genoma humano y las apariciones de una gran cantidad de datos de expresión de genes relacionados a enfermedades (tales como los datos basados en microarreglos) , el perfilamiento de todo el genoma de los sitios de enlace a los factores reguladores, se vuelve urgente . La presente invención recuperó todos los genes de longitud completa de diversas bases de datos públicamente disponibles (tales como, NCBI, consorcio NIH MGC, base de datos DBTSS de Japón, y así sucesivamente) y luego trazó el mapa (mapeo) de estos TSSs de los genes sobre el Anteproyecto de Trabajo del Genoma Humano más actualizado (tal como la versión Assembly de Julio del 2003, o la construcción 34 de NCBI). Luego, definió el TSS más del extremo 5' (5') para cada gen, mediante la comparación de todos los posibles TSSs generados mediante el trazado del mapa de la posición de este gen. La región reguladora de la trascripción (TRR) , tales como las regiones promotoras del núcleo fueron definidas con base en la mayoría de las posiciones 5' de TSS, y sus secuencias genómicas correspondientes fueron recuperadas del genoma humano más actualizado para el análisis posterior. Las TRR perfiladas para todos los genes conocidos fueron almacenadas en una base de datos para el análisis estadístico posterior relacionado al objetivo farmacológico y para el desarrollo 4
posterior de estrategias terapéuticas . BREVE DESCRIPCIÓN DE LA INVENCIÓN En consecuencia, un objetivo de la presente invención es proporcionar los métodos mejorados para el perfilamiento genómico de los sitios de enlace a factores reguladores, así como las estructuras y sistemas de datos asociados con los métodos . En otro objetivo más de la presente invención, los métodos para el perfilamiento de los sitios de enlace a los factores reguladores, así como las estructuras y sistemas de datos asociados con los métodos, son proporcionados, empleando el trazado del mapa de la probabilidad genómica con relación a los sitios de enlace perfilados . Otro objetivo más de la presente invención es proporcionar los métodos mejorados para la investigación biomédica, así como las estructuras y sistemas de los datos asociados con los métodos . Un objetivo adicional de la presente invención es proporcionar los métodos mejorados para el desarrollo pre-clínico, así como las estructuras y sistemas de datos asociadas con los métodos . Otro objetivo más de la presente invención es proporcionar los métodos mejorados para aplicaciones de selección o clasificación de fármacos, así como las estructuras y sistemas de datos asociados con los métodos.
5
Otro objetivo más de la presente invención es proporcionar los métodos mejorados para el descubrimiento objetivo y la validación objetivo, así como las estructuras y sistemas de datos asociados con los métodos . Otro objetivo más de la presente invención es proporcionar los métodos mejorados para el perfilamiento de una región reguladora, asi como las estructuras, y sistemas de datos asociados, con los métodos. Un objetivo adicional de la presente invención es proporcionar los métodos mejorados para construir las conexiones de todo el genoma o de los tejidos entre el perfilamiento regulador de diferentes genes, así como las estructuras y sistemas de datos asociados con los métodos. Un objetivo adicional de la presente invención es proporcionar los métodos mejorados para comprender el antecedente genómico o tisular o celular de diversos perfilamientos de trascripción conocidos, comprendiendo el antecedente genómico o tisular o celular de diversos perfilamientos de trascripción conocidos, así como estructuras y sistemas de datos asociados con los métodos. Estos y otros objetivos de la presente invención son logrados en un método para perfilar los sitios de enlace a los factores reguladores . Un gen completo está localizado sobre el genoma para trazar el mapa de las regiones reguladoras del gen. Las secuencias genómicas de las regiones reguladoras de 6
genes son definidas y recuperadas. La información de la secuencia de ADN de cada región reguladora del gen, recuperada, es clasificada para identificar los sitios de enlace a factores reguladores, putativos. Los sitios de enlace a factores de enlace, putativos, son perfilados. En otra modalidad más de la presente invención, un método para perfilar los sitios de enlace identificados, proporciona una base de datos que incluye los sitios de enlace identificados, perfilados, para todos los genes conocidos. El análisis estadístico de probabilidades aplicado los sitios de enlace perfilados . En otra modalidad más de la presente invención, se proporciona una estructura de datos tangiblemente almacenada en un medio legible en computadora. La estructura de datos incluye una base de datos con los sitios de enlace identificados, perfilados. Los sitios de enlace identificados, perfilados son creados mediante la clasificación de la información de la secuencia de ADN de las regiones reguladoras del gen. La base de datos es buscable por identificadores de genes . En otra modalidad más de la presente invención, un sistema implementado para computadora para mostrar visualmente los sitios de enlace a factores reguladores, perfilados, incluye una base de datos que incluye los sitios de enlace identificados, perfilados. Los sitios de enlace identificados, 7
perfilados son creados mediante la selección de la información de la secuencia de ADN de las regiones reguladoras del gen. La base de datos es buscable por identificadores de genes. Es proporcionada una interfaz de usuario que incluye una o más entradas de usuarios seleccionables . Un dispositivo de entrada es operable por un usuario. Es incluida una pantalla que muestra visualmente al menos una salida en respuesta a los sitios de enlace identificados, perfilados. BREVE DESCRIPCIÓN DE LAS FIGURAS La figura 1 es un diagrama de flujo que ilustra una modalidad de la presente invención para perfilar los sitios de enlace a factores reguladores . La figura 2 es un diagrama de flujo que describe cómo definir la región reguladora de la trascripción de un gen (e emplo gen X) La figura 3 es un diagrama de flujo que ilustra el cálculo de la frecuencia de los sitios de enlace a TF. La figura 4 ilustra que la región promotora del núcleo puede incluir 200 a 300 bases del extremo 5' y aproximadamente 50 a 100 bases del extremo 3' del TSS . La figura 5 es una descripción de una modalidad de una estructura de una base de datos de la presente invención. La figura 6 es un diagrama de flujo que ilustra la base de datos de la figura 5. La figura 7 lista las secuencias completas para el 8
DLD del gen, recuperado de la base de datos refseq (SEQ ID No. : 59) . La figura 8 lista las secuencias completas para el DLD del gen, recuperado de la base de datos MGC (SEQ ID No. :
60) . La figura 9 lista las secuencias completas para el DLD del gen, recuperado de la base de datos DBTSS (SEQ ID No. :
61) . La figura 10 lista la secuencia almacenada para el gen DLD (SEQ ID No. : 62) . La figura 11 es una porción de pantalla de una forma de búsqueda que puede ser utilizada con la base de datos de la figura 7. La figura 12 es una porción de pantalla de una modalidad de un resultado de la búsqueda en la base de datos a partir de la base de datos de la figura 5. La figura 13 ilustra una modalidad de un sistema de la presente invención. DESCRIPCIÓN DETALLADA DE LAS MODALIDADES PREFERIDAS En diversas modalidades, la presente invención proporciona los métodos para el perfilamiento a través del genoma, de los sitios de enlace a factores reguladores, las estructuras de datos tangiblemente almacenadas en un medio legible en computadora, y los sistemas asociados. Los ejemplos de sitios enlazadores reguladores incluyen, pero no están 9
limitados a, la secuencia AGGGGACTTTCCCA (SEQ ID No. : 1} como los sitios de enlace como el factor de trascripción en NF-kappa B; la secuencia TTTGGCGG (SEQ ID No. : 2) como los sitios de enlace para el factor de trascripción E2F-1, y similares. Con referencia a los diagramas del flujo de las figuras 1 y 2, en una modalidad de la presente invención, las secuencias genómicas de las regiones reguladoras de los genes son recuperadas y son trazadas en mapa al genoma humano. Con base en los genes trazados en mapa, la posición posición más hacia el extremo 5' de TSS para cada gen es identificada, y la región reguladora correspondiente para el gen es identificada. La información de la secuencia de ADN para cada región reguladora del gen, recuperada es clasificada para identificar los sitios de enlace a factores reguladores, putativos. Los sitios de enlace a factores reguladores, putativos, son luego perfilados . La información recuperada de la base de datos, puede ser utilizada para una variedad de diferentes propósitos y aplicaciones, incluyendo pero no limitadas a, investigación biomédica, desarrollo pre-clínico, aplicaciones de clasificación de fármacos, descubrimiento de objetivos y validación de objetivos, perfilamiento de una región reguladora, construcción de conexiones genómicas o tisulares entre el perfilamiento. mej orador de diferentes genes, la compresión del antecedente genómico tisular de diversos 10
perfilamientos de trascripción conocidos, comprendiendo el antecedente genómico tisular de diversos perfilamientos de trascripción conocidos, y similares. Con referencia a la figura 3 , el trazado del mapa de probabilidades es aplicado a los sitios de enlace identificados . El trazado del mapa de probabilidad describe la identificación de las existencias de sitios de enlace a factores reguladores, de trascripción específica, tales como todos los sitios E2F-1 putativos, en la región reguladora de todos los genes o en los genes que son expresados en ciertos tej idos o células . El trazado del mapa de probabilidad nos dice cuántos genes son posiblemente regulados por la trascripción por un factor regulador específico. Este también indica cuánto efecto a través del sistema biológico, del genoma de las células o de los tejidos podría tener un factor regulador específico. Esta información es muy útil para el desarrollo y métodos terapéuticos basados en la investigación biomédica. En otra modalidad más de la presente invención, es trazado el mapa de un gen de longitud completa para fines de tratar el mapa de regiones reguladoras de genes. Será apreciado que para los fines de esta especificación, la longitud completa se extiende a la longitud del gen. Esto puede provocar un ligero desplazamiento de la posición genómica de los sitios de inicio de la trascripción de las 11
diferentes versiones del mismo gen. En una modalidad, todo el gen de longitud completa disponible es utilizado en una comparación con el fin de obtener el TSS posición más hacia el extremo 5' . Con base en el TSS posición más hacia el extremo 5 ' , las regiones reguladoras de los genes son definidas y las secuencias genómicas de las regiones reguladoras de los genes, son recuperadas . La información de la secuencia de ADN es clasificada para cada región reguladora del gen, recuperada, para identificar los sitios de enlace a los factores de trascripción, putativos. Los sitios de enlace a los factores reguladores, putativos, son trazados en mapa al genoma humano. Los genes de longitud completa son recuperados para proporcionar información de secuencia para los genes recuperados . Los genes recuperados pueden ser trazados en mapa a un genoma humano recientemente actualizado, utilizando una herramienta proporcionada por bases de datos públicamente disponibles buscadoras del genoma de UCSC, documentos auto-desarrollados y similares. En una modalidad, el sitio de inicio a la trascripción es trazado en mapa. En una modalidad, el TSS es trazado en mapa al tomar el TSS posición más hacia el extremo 5' de cada gen después de comparar todos los TSSs disponibles para el gen, ilustrado en la figura 2. Una secuencia genómica de una región reguladora puede ser recuperada para cada gen recuperado con el TSS posición más hacia el extremo 5' proveniente del genoma humano 12
más actualizado. La región reguladora 5' es las secuencias del extremo 5' 5' del TSS y del extremo 3' 3' del TSS. En diversas modalidades, las regiones reguladoras del gen incluyen, pero no están limitadas a, la región promotora del núcleo, la región aumentadora del extremo 5 ' 5 ' , una región reguladora del extremo 3' 3, y similares, como se ilustra en la figura 4. La región promotora del núcleo puede incluir 200 a 300 bases del extremo 5' y aproximadamente 50 a 100 bases del extremo 3' del TSS. Las secuencias correspondientes con relación a TSS pueden ser cortadas y almacenadas. Las secuencias correspondientes con relación a TSS pueden ser cortadas y almacenadas con el uso de documentos auto-desarrollados provenientes de secuencias genómicas basadas en una liberación especifica, en liberaciones más antiguas, actualizadas y futuras, incluyendo pero no limitadas al buscador de genomas UCSC, la base de datos de genomas NCBI, la base de datos Ensembl, otras bases de datos de la secuencia genómica y similares . En una modalidad, la información de la secuencia de
ADN es seleccionada utilizando un programa MATCH que es licenciado de la base de datos TRANSFAC. La clasificación de la información de la secuencia de ADN puede incluir la selección de la matriz TF, calificaciones de similitud de matriz, calificaciones de similitud de núcleo, y similares.
13
El recorte es aplicado para reducir las concordancias falsas positivas y falsas negativas durante la clasificación. Una frecuencia específica del genoma o del tejido de cada sitio de enlace, puede ser determinada. La frecuencia puede ser la existencia de los sitios de enlace a TF específicos, en las regiones reguladoras de al menos de uno de, (i) todos los genes a lo largo del genoma, (ii) todos los genes específicos de células, (iii) todos los genes específicos de tejidos, (iv) todos los genes definidos específicamente. La frecuencia puede ser la existencia de sitios de enlace a TF, específicos, en las regiones reguladoras de los genes específicos de tejidos. Adicionalmente, la frecuencia puede ser considerada con una calificación de conservación o una calificación del nivel de expresión. A manera de ilustración, y sin limitación, los sitios de enlace identificados pueden ser considerados de manera diferente con base en su calificación de conservación correspondiente o su nivel de expresión de genes, correspondiente. Por ejemplo, un sitio de enlace con más alta calificación de concentración o el gen correspondiente con más alto nivel de expresión, podrían jugar un papel más significativo que aquellos con menores calificaciones. La calificación de conservación para cada sitio de enlace puede ser creada. La calificación de conservación es seleccionada para cubrir regiones donde los sitios de enlace a 14
TF son identificados, así como cualesquiera otras mediciones que indican los niveles de conservación entre las dos especies, incluyendo pero no limitadas a ratón y humano. La posición de cada sitio de enlace puede ser determinada. La posición puede estar basada en un anteproyecto de trabajo del genoma humano . La posición es una posición convertida en un anteproyecto de trabajo del genoma humano. Conforme son agregadas más piezas de la secuencia, la longitud total para cada cromosoma crece. Esto desplaza la lectura de la posición para cada base sobre el cromosoma. No obstante, la posición puede ser fácilmente convertida y la posición relativa de una secuencia reguladora a la posición del gen, permanece sin cambio. La posición del genoma de un inicio y una finalización pueden ser determinadas. Una distancia de cada sitio de enlace al TSS puede ser determinada. La distancia es relativa a un número de bases entre un sitio de enlace y el TSS . ? manera de ilustración, y sin limitación, en una modalidad la distancia es aquella de la última base entre los sitios de enlace definidos a la base de la base 23 de TSS. En este ejemplo, existen 23 bases entre estas dos bases específicas. En una modalidad de la presente invención, con base en las posiciones de los TSSs posición más hacia el extremo 5', las secuencia reguladoras 5' provenientes del anteproyecto de trabajo del genoma humano más actualizado, son recuperadas para todos los genes disponibles utilizando los documentos y 15
programas de computadora auto-desarrollados . Estas secuencias recuperadas incluyen, pero no están limitadas a las 250 bases del extremo 5' 5' y 50 bases del extrema 3' 3' del TSS para cada gen. Todas las secuencias de la región reguladora pueden ser analizadas utilizando los patrones de la secuencia de consenso de enlace al factor de trascripción, bien caracterizados (o, la matriz ponderada por posición) creados por las bases de datos autorizadas TRANSFAC (versión TRANSFAC profesional 6.3. Wingender et al., Nucleic Acids Res., 29, 281) . Los sitios con concordancia de alta calificación con la matriz de enlace, serán seleccionados. Estos sitios incluyen sus posiciones en el genoma (con relación a la versión de ensamble del genoma específico) y sus longitudes y su información de sinergismo con los sitios flanqueantes. Todos los sitios de enlace resultantes de lo anterior son adicionalmente analizados mediante la comparación de sus calificaciones de conservación con el ratón. El genoma del ratón y la información de conservación relativa serán recuperados de las bases de datos del genoma NCBI y UCSC, disponibles al público, y la comparación de conservación con los sitios de enlace al factor de trascripción, humanos, será realizada utilizando los documentos y programas auto-generados . La información de la secuencia del sitio de enlace 16
al factor de trascripción, resultantes de lo anterior, incluyen sus posiciones genómicas (inicio, finalización) , longitud, distancia a TSS de cada gen, y las regiones flanqueantes (incluyen pero no se limitan a las 10 bases 5' y 3') serán depositadas en una base de datos. Los vínculos de referencia relacionados tales como el nombre del gen, la función, la anotación etc., son también agregados. Todos los señuelos de trascripción posibles pueden ser generados por computadora con base en la base de datos . Los señuelos pueden ser además experimentalmente clasificados mediante el uso de métodos de alto rendimiento, tales como el oligo-arreglo, electroforesis capilar, etc., para la optimización de la eficiencia de enlace. Toda la información de señuelo optimizada, será depositada en la base de datos. La información parcial en la base de datos puede ser utilizada en versiones f turas de la base de datos . Los perfiles de las regiones reguladoras incluyen, pero no están limitados a, (i) el trazado del mapa de probabilidad de cada sitio de enlace al factor regulador, (ii) la identificación de los genes objetivo para cada factor regulador conocido, (iii) el análisis estadístico de los perfiles de enlace al factor regulador de los genes identificados de diversos genes expresados diferencialmente y similares . En una modalidad, una longitud de cada sitio de 17
enlace es determinada. La información de la secuencia respecto a las regiones adyacentes al sitio de enlace, puede ser también determinada. Nuevamente por ilustración y sin limitación, un ejemplo es agcgtcagaAGGGGACTTTCCCaagagaggccgaga (SEQ ID No.: 3) con las letras de bases en letra minúscula que flanquean los sitios de enlace al núcleo, en letras mayúsculas. La información de consistencia de otros sitios de enlace pueden ser también evaluados . La maquinaria de trascripción requiere usualmente la información del complejo por diferentes y diversas proteínas relacionadas a la trascripción, e incluye los diversos factores del enlace al ADN, diferentes. Cuando se realizó la presente invención, los sitios de enlace son perfilados para una región reguladora del gen y frecuentemente más de un sitio de enlace es identificado a partir de una región simple. El número de sitios de enlace puede ser, a manera de ejemplo, quince a veinte a partir de una región simple . El grupo de sitios de enlace y sus posiciones puede ser determinado. Con referencia ahora a las figuras 5 y 6, otra modalidad de la presente invención es una estructura de datos tangiblemente almacenada en un medio legible en computadora que incluye una base de datos con la información del sitio de enlace, identificada, perfilada. La base de datos incluye una tabla de núcleo con identificadores, sitios de enlace y 18
similares. La información del sitio de enlace incluye, pero no está limitada a, secuencia, longitud, posición, dirección, frecuencia y similares. Una tabla de apoyo incluye la posición de TSS de todos los genes . Una tabla de secuencia proporciona las secuencias de las regiones reguladoras de los genes . Tablas de apoyo adicionales incluyen, pero no están limitadas a la frecuencia de TF, los genes objetivo o TF para cada TF y similares . Todas las tablas están vinculadas por uno o más identificadores . En una modalidad, se utilizan varios en vez de un documento perl CGI para encontrar y buscar la base de datos, y luego mostrar visualmente la información correspondiente. Se proporciona una interconexión de buscador en la red. La base de datos es buscable por una variedad de medios diferentes, incluyendo pero no limitados a los identificadores de genes, símbolos de genes, o identificadores auto-desarrollados, y similares. Los identificadores de genes pueden ser seleccionados de la base de datos de NCBI, la cual puede ser una ID de Unigene Cluster, ID de LoucsLink, símbolos de genes internacionalmente aprobados, y similares. En una modalidad, la base de datos incluye la información de las frecuencias genómicas para TF, y puede ser clasificada por al menos un nombre de TF o frecuencias de TF. Las frecuencias de TF pueden incluir frecuencias genómicas o 19
frecuencias específicas de tejido. En un ejemplo específico, la base de datos contiene los perfiles de los sitios de enlace al factor regulador, para todos los genes conocidos (aproximadamente 15,450 en total). A manera de ilustración, y sin limitación, un gen
(símbolo: DLD, dihidrolipoamida-deshidrogenasa) es utilizado para mostrar brevemente cómo es construida la base de datos . 1. Recuperación de los genes de longitud completa para un gen ejemplar DLD para proporcionar información de las secuencias Como se ilustra en la figura 2, pueden ser recuperadas tres versiones diferentes de las secuencias de ARNm de longitud completa a partir de la base de datos de NCBI (refseq) , la base de datos MGC (MGC) , la base de datos DBTSS de Japón (DBTSS), y similares. Las secuencias completas para el gen DLD recuperado de la base de datos refseq se lista en la figura 7 (SEQ ID No.: 59), y aquella recuperada de MGC es listada en la figura 8 (SEQ ID No.: 60) y aquella recuperada de DBTSS es listada en la figura 9 (SEQ ID No. : 61) . 2. Los genes recuperados son trazados en mapa a un genoma humano recientemente actualizado Es utilizado un documento auto-desarrollado para ir a la búsqueda de la secuencia recuperada anterior a la base de datos buscadora de genomas UCSC para trazar el mapa de su posición genómica. La versión diferente recuperada del gen DLD 20
es trazada en mapa al genoma humano recientemente actualizado, utilizando una herramienta proporcionada por al menos una de las bases de datos buscadas de genoma de UCSC disponibles al público . 3. La posición del TSS es mapeada Las posiciones mapeadas son recuperadas utilizando el documento auto-desarrollado de la base de datos buscadora de genomas UCSC referida anteriormente. El resultado resumido del mapeo es listado en la tabla 1. Por ejemplo, la secuencia de longitud completa del gen DLD proveniente de la base de datos refseq de NCBI, fue mapeada al anteproyecto de trabajo del genoma humano (entregado en Junio del 2002 por el buscador de genoma ÜCSC) en la hebra en sentido o hebra positiva del cromosoma 7, comenzando en la posición cromosómica de 106015510, comenzando en la posición cromosómica de 106044308. Tabla 1: nombre Cromosoma Hebra inicio Fin
DLC de refseq 7 + 106015510 106044308
DLD de MGC 7 + 106015541 106044089
DLD de DBTSS 7 + 106015488 106044308
El TSS es mapeado mediante la realización del TSS posición más hacia el extremo 5' de cada gen después de comparar todos los TSSs disponibles para el gen Con referencia nuevamente a la figura 2, este mapeo 21
es facilitado mediante el uso del documento auto-generado . Para el gen DLD, ya que éste está localizado sobre la hebra "+" del cromosoma 7. La posición inicial 106015488 es tomada en la posición posición más hacia el extremo 5' para TSS del gen DLD. 5. Una secuencia genómica de una región reguladora para cada gen recuperado con el TSS posición más hacia el extremo 5' es recuperada del genoma humano más actualizado La región reguladora 5' son las secuencias del extremo 5' del TSS y del extremo 3' del TSS. Más específicamente, para el gen DLD, la región reguladora o la región promotora del núcleo es la secuencia que incluye 200-300 bases del extremo 5' de la secuencia aproximadamente 50 -100 bases del extremo 3' del TSS. Por lo tanto, las secuencias correspondientes con relación a TSS del gen DLD son cortadas y almacenadas con el uso de los documentos auto-desarrollados provenientes de al menos una de las bases de datos buscadora del genoma UCSC y del genoma NCBI . La secuencia almacenada para el DLD es listada en la figura 10 (SEQ ID No.: 62) . 6. La secuencia almacenada para la región reguladora del gen DLD es seleccionada utilizando un programa de concordancia El programa de concordancia MATCH es la herramienta de análisis de secuencia incrustada dentro de la base de datos TRANSFAC licenciada. El análisis es realizado con el ajuste 22
adecuado para las calificaciones de la similitud de matriz y las calificaciones de la similitud de núcleo, con el fin de reducir la concordancia falsa positiva y falsa negativa durante la selección. El resultado de la selección para la región reguladora del gen DLD es mostrada en la tabla 2, donde las posiciones de sitios de enlace identificados son listadas. Tabla 2
23
24
posición hebra CalificaCalificasecuencias Nombre de TF ción de ción de núcleo matriz 72 (+) 0.824 0.873 ttctaAGTATaagaatacattgta STAT5A (SEQ ID NO 32) (homotetrámero)
123 (-) 1 0.962 agcaTTCCCacca lk-1 (SEQ ID NO 33)
123 (-) 1 0.927 agcaTTCCCacca lk-3 (SEQ ID NO 34)
1 7 (-) 0.813 0.869 gCGACAaa E2F (SEQ ID NO 35)
154 (-) 0.789 0.755 agccctgcgctCCTTAcgaca Pax-4 (SEQ ID NO 36)
202 (-) 0.96 0.925 GcctCGTGCg USF (SEQ ID NO 37)
222 (+) 1 0.934 gcgggCCAATcg (SEQ ID NO CCAATbox 38)
234 (-) 0.788 0.784 cgctgctcccgGGTGAtgacg Pax-4 (SEQ ID NO 39)
237 (-) 0.964 0.902 tgctcccgggTGATGacgtag Secuencia iniciadora de (SEQ ID NO 40) músculo -20
244 (+) 0.91 0.839 gggtGATGAcgtaggctgc v-Maf (SEQ ID NO 41 )
246 (+> 1 0.991 gtgaTGACGtag (SEQ ID NO CREE 42) 25
7. Una f ecuencia especi ica genómica o tisular de cada sitio de enlace es determinada La frecuencia es la existencia de los sitios de enlace a TF específicos en las regiones reguladoras de todos los genes o genes específicos de tejido. Después del análisis de la región reguladora de todos los genes, la frecuencia o la probabilidad de existencia de los sitios de enlace TF es fácilmente establecida. Algunas de estas informaciones de las frecuencias son listadas para el gen DLD en la tabla 3: 26
Tabla 3
Nombre TF Posición Posición Distancia Frecuencia izquierda derecha (base) a genómica TSS Pax-3 106015239 106015259 -249 0.426259226
Pax-4 106015241 106015261 -247 0.96109025
Pax-6 106015242 106015262 -246 0.112003108
Pax-4 106015242 106015262 -246 0.96109025
Complejo Lmo2 106015260 106015268 -228 0.120419526
Cart-1 106015261 106015278 -227 0.020134663
Cart-1 106015261 106015278 -227 0.020134663
Cdc5 106015270 106015281 -218 0.360481678
Cdx-2 106015284 106015297 -204 0.259031464
FOXJ2 106015286 106015303 -202 0.167875178
HNF-3beta 106015286 106015300 -202 0.23688981
Xvent-1 106015287 106015299 -201 0.678946005
HFH-3 106015288 106015300 -200 0.066942898
FOXD3 106015288 106015299 -200 0.653632008
FOXJ2 106015290 106015307 -198 0.167875178
HNF-3beta 106015290 106015304 -198 0.23688981
FOX04 106015291 106015301 -197 0.10785964
XFD-2 106015291 106015304 -197 0.033665674
Freac-7 106015291 106015306 -197 0.076718892
HNF-3alfa 106015291 106015301 -197 0.312184384
HFH-1 106015292 106015303 -196 0.01657387
HFH-3 106015292 106015304 -196 0.066942898
HFH-8 106015292 106015304 -196 0.020652596
FOXD3 106015292 106015303 -196 0.653632008 27
8. Es creada una calificación de conservación para cada sitio de enlace Las calificaciones de conservación para la comparación del genoma completo entre humano y ratón son recuperadas de la base de datos buscadora del genoma de UCSC. La calificación de conservación es seleccionada para cubrir 28
las regiones donde son identificados los sitios de enlace a TF. Las calificaciones de conservación para los sitios de enlace a TF identificadas en la región reguladora del gen DLD son listadas en la tabla 4. Tabla 4
Nombre Secuencias de núcleo Posición Posición Distancia Calificación TF inicial final hacia TSS de conservación
Pax-3 ígaacttgTCACGCtttactg 106015239 106015259 -249 0.426 (SEQ ID NO 4)
Pax-4 aacttgtcacgCTTTActgtc 106015241 106015261 -247 0.3552 (SEQ ID NO 5)
Pax-6 acttgTCACGCtttactgtcg 106015242 106015262 -246 0.3552 (SEQ ID NO 6)
Pax-4 acttgTCACGCtttactgtcg 106015242 106015262 -246 0.3552 (SEQ ID NO 7)
Lmo2com tCGATAatg 106015260 106015268 -228 0.06 plex (SEQ ID NO 8)
Cart-1 cgaTAATGtgcattaagc 106015261 106015278 -227 0.06 (SEQ ID NO 10)
Cart-1 cgataatgtgCATTAagc 106015261 106015278 -221 0.06 (SEQ ID NO 9) 29
Nombre Secuencias de núcleo Posición Posición Distancia Calificación
TF inicial final hacia TSS de
Cdc5 gcaTTAAGcaaa 106015270 106015281 -218 0.064 (SEQ ID NO 1 1 )
Cdx-2 ctagtTTTATttgt 106015284 106015297 -204 0.1 1 (SEQ ID NO 12)
FOXJ2 agtttTATTTgtttattt 106015286 106015303 -202 0.162 (SEQ ID NO 13)
HNF-3beta agtttTATTTgttta 106015286 106015300 -202 0.162 (SEQ ID NO 14)
Xvent-1 gttttATTTGttt 10601 287 106015299 -201 0.1226666 67 (SEQ ID NO 15)
HFH-3 tttTATTTgttta 106015288 106015300 -200 0.162 (SEQ ID NO 17)
FOXD3 ttTTATTtgttt 106015288 106015299 -200 0.1226666 67 (SEQ ID NO 16)
FOXJ2 ttattTGTTTatttcatc 106015290 106015307 -198 0.286 (SEQ ID NO 18)
HNF-Sbeta ttattTGTTTatttc 1060T5290 106015304 -198 0.1 2 (SEQ ID NO 19) 30
Nombre Secuencias de núcleo Posición Posición Distancia Calificación
TF inicial final hacia TSS de
FOX04 tattTGTTTat 106015291 106015301 -197 0.192 (SEQ ID NO 22)
XFD-2 tatttgTTTATttc 106015291 106015304 -197 0.192 (SEQ ID NO 20) Freac-7 tatttgTTTATttcat 106575291 106015306 -197 0.286 (SEQ ID NO 21) HNF-Salfa TATTTgtttat 106015291 106015301 -197 0.192 (SEQ ID NO 23) HFH-] atttGTTTAttí 106015292 106015303 -196 0.192 (SEQ ID NO 27)
HFH-3 attTGTTTatttc 106015292 106015304 -196 0.192 (SEQ ID NO 25)
HFH-8 attTGTTTatttc 106015292 106015304 -196 0.192 (SEQ ID NO 26)
FOXD3 atTTGTTtattt 106015292 106015303 -196 0.192 (SEQ ID NO 28)
Cdx-2 atttgTTTATttca 1060T5292 106015305 -196 0.286 (SEQ ID NO 24)
HNF-Salfa TGTTTatttca 106015295 106015305 -193 0.3573333 33 (SEQ ID NO 29) 31
32
9. Se realiza una determinación del agrupamiento de los sitios de enlace y sus posiciones Los sitios de enlace adyacentes traslapados son agrupados mediante el uso del documento auto-generado y la posición correspondiente y el TF son listados en la tabla 5 33
para el gen DLD. Tabla 5:
ID del Consecuencias del Posición Posición Factor(es) de trascripción grupo núcleo izquierda derecha
Cdc5;Cart-l;Cart- l;Lmo2compIex ;Pax- 1 tgaacttgtcacgctttactgtcg 106015239 106015281 4;Pax-6;Pax-4;Fax-3; ataatgtgcattaagcaaa (SEQ ID NO 51) STAT5 A(homotetramer) :N KX3A;IRF- 7;HNF-3alfa;Cdx-2;HFH- 3;HFH-8;HFH- 1 ;FOXD3 ;Freac-7 ;XFD- 2;HNF- 3alfa;FOX04;FOXJ2;HN F- 3beta;HFH- 3;FOXD3;Xvent- l;FOXJ2;HNF-3beta;Cdx- 2 ctagttttatttgtttatttcatcttc 106015284 106015331 2; taagtataagaatacattgta (SEQ ID NO 52) 34
10. Los perfiles de enlace son recolectados en la base de datos
Todos los perfiles de enlace listados anteriormente han sido recolectados en la base de datos. La lista ejemplar 35
de la entrada para el gen DLD se muestra en la tabla 6. Tabla 6:
Nombre de Cali- CaliSecuencias de núcleo Posición Posición Distanci Frecuencia CalificaTF fica-ción ficación izquierda derecha a (base) genómica ción de de núde ma-triz hacia conservacleo TSS ción
Pax-3 1 0.964 tgaacttaTCACGctttactg 106015239 106015259 -249 0.426259226 0.426 (SEQ ID NO 63)
Pax-4 0.796 0.779 aacttgtcacgCTTTActgtc 106015241 106015261 -247 0.96109025 0.3552 (SEQ ID NO 5)
Pax-6 1 0.886 acttgTCACGctttactgtcg 106015242 106015262 -246 0.112003108 0.3552 (SEQ ID NO 6)
Pax-4 0.977 0.761 acttgTCACGctttactgtcg 106015242 106015262 -246 0.96109025 0.3552 (SEQ ID NO 7)
Complejo 0.994 0.972 tCGATAatg 106015260 106015268 -228 0.120419526 0.06
Lmo2 (SEQ ID NO 8)
Cart-1 0.951 0.952 caaTAATGtgcattaagc 106015261 106015278 -227 0.020134663 0.06 (SEQ ID NO 64)
36
37
38
CCAATbox 0.934 gcgggCCAATcg 106015458 106015469 -30 0.2S8488929 1.136 (SEQ ID NO 3 8) Pax-4 0.788 0.784 cgctgctcccgGGTGAtgacg 106015470 106015490 -18 0.96109025 1.3408 (SEQ ID NO 39)
Secuencia 0.964 0.902 tgctcccgggTGATGacgtag 106015473 106015493 -15 0.29004273 1.3408 iniciadora (SEQ ID NO 40) de músculo -20
v-Maf 0.91 0.839 gggtGATGAcgtaggctgc 106015480 106015498 -8 0.233458501 1.356 (SEQ ID NO 41) CREE 1 0.991 gtgaTGACGtag 106015482 106015493 -6 0.308429367 1.37866 (SEQ ID NO 42) 6667
CREB 1 0.954 gaTGACGtaggc 106015484 106015495 -4 0.308429367 1.356 (SEQ ID NO 44) ATF4 1 0.881 gaTGACGtaggc 106015484 106015495 -4 0.142172731 1.356 (SEQ ID NO 43) TFII-1 0.973 0.951 tgacGTAGG 106015486 106015494 -2 0.949177781 1.544 (SEQ ID NO 45) CREB 1 0.971 TGACGtag 106015486 106015493 -2 0.308429367 1.544 (SEQ ID NO 46) MAZ 1 0.97 aGGGAGgg 106015513 106015520 25 1.118477276 0.71466 (SEQ ID NO 47) 6667
E2F 0.984 0.897 ctTGGCGg 106015526 106015533 38 0.566230739 0.532 (SEQ ID NO 50) E2F-1 0.964 0.916 ctTGGCGg 106015526 106015533 38 0.901268937 0.532 (SEQ ID NO 49) E2F-1 1 0.999 TTGGCgg 06015526 106015533 38 0.901268937 0.532 (SEQ ID NO 48) 39
11. La base de datos es buscable por identificadores de genes . La figura 11 ilustra un cuadro de pantalla de una forma de búsqueda que puede ser utilizada con la base de datos. La figura 12 ilustra un cuadro de pantalla de un resultado de la búsqueda de la base de datos . Como se ilustra en la figura 13, otra modalidad más de la presente invención es un sistema implementado por computadora para mostrar visualmente los sitios de enlace al factor regulador, perfilados. El sistema incluye la base de datos, una interconexión con el usuario que incluye una o más entradas de usuario seleccionables, un dispositivo de entrada operable por un usuario, y una pantalla para mostrar visualmente al menos una salida en respuesta a los sitios de enlaces identificados, perfilados. Los ejemplos de las salidas incluyen, pero no están limitados a, el nombre del gen, el identificador, el sitio de enlace a TF identificado, los nombres de TF, las posiciones genómicas, la longitud, la distancia, la calificación de conservación, las calificaciones de enlace, la información de frecuencias y las secuencias del sitio de enlace. Los ejemplos de entradas incluyen los identificadores de genes tales como los símbolos de genes, la ID de grupos de unigenes, o la ID del enlace del locus, y similares. El sistema también incluye una memoria, un 40
microprocesador, archivos de datos, documentos, el software disponible de apoyo, incluyendo pero no limitados a MS Windows, linux de sombrero rojo, Apache HTTP server, el programa recopilador Perl, y similares. La descripción anterior de una modalidad preferida de la invención ha sido presentada para fines de ilustración y de descripción. Esta no está destinada a ser exhaustiva o a limitar la invención a las formas precisas descritas . Obviamente, serán aparentes muchas modificaciones y variaciones para los practicantes expertos en esta técnica. Se pretende que el alcance de la invención sea definido por las siguientes reivindicaciones y sus equivalentes . Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el convencional para la manufactura de los objetos a que la misma se refiere.