MXPA05010276A - Perfil genomico de sitios de enlace al factor regulador. - Google Patents

Perfil genomico de sitios de enlace al factor regulador.

Info

Publication number
MXPA05010276A
MXPA05010276A MXPA05010276A MXPA05010276A MXPA05010276A MX PA05010276 A MXPA05010276 A MX PA05010276A MX PA05010276 A MXPA05010276 A MX PA05010276A MX PA05010276 A MXPA05010276 A MX PA05010276A MX PA05010276 A MXPA05010276 A MX PA05010276A
Authority
MX
Mexico
Prior art keywords
database
gene
information
regulatory
genomic
Prior art date
Application number
MXPA05010276A
Other languages
English (en)
Inventor
Leslie Margaret Mcevoy
Original Assignee
Corgentech Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Corgentech Inc filed Critical Corgentech Inc
Publication of MXPA05010276A publication Critical patent/MXPA05010276A/es

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/20Heterogeneous data integration
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Pathology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Processing (AREA)
  • Electrotherapy Devices (AREA)
  • Image Generation (AREA)

Abstract

Se proporciona un metodo para perfilar sitios de enlace al factor regulador. Un gen completo esta localizado sobre el genoma para mapear las regiones reguladoras del gen. La posicion genomica de los sitios de inicio de la transcripcion mas del extremo 5' (5') (TSS) del gen, es identificada. Las secuencias genomicas de las regiones reguladoras de genes son definidas y recuperadas con base en el TSS identificado. La informacion de la secuencia de ADN de cada region reguladora del gen recuperada es seleccionada para identificar sitios de enlace al factor regulador, putativos. Los sitios de enlace al factor regulador, putativos y sus apariciones genomicas, son perfilados.

Description

1 PERFIL GENOMICO DE SITIOS DE ENLACE AL FACTOR REGULADOR CAMPO DE LA INVENCIÓN La presente invención se refiere en general a los métodos, sistemas y estructuras de datos que proporcionan perfiles de los sitios de enlace al factor regulador de todos los genes conocidos, y más particularmente a los métodos, estructuras de datos y sistemas para identificar y caracterizar los sitios de enlace a los factores reguladores, con el fin de desarrollar análisis sistemáticos sobre los sitios de enlace identificados para el desarrollo de estrategias terapéuticas adicionales . ANTECEDENTES DE LA INVENCIÓN La alteración del nivel de expresión de genes se ha vuelto un procedimiento importante y eficiente para enfrentar trastornos humanos . El nivel de expresión de cada gen es controlado por la maquinaria de trascripción, en la cual algunas proteínas específicas llamadas factores de trascripción (TFs) se enlazan a la región reguladora del gen, y a su vez inicializan los procesos de trascripción. De este modo, los TFs correspondientes y sus sitios de enlace sobre la región reguladora del gen, pueden jugar el papel esencial en el control del nivel de trascripción del gen. Por lo tanto, los factores de trascripción y sus mecanismos de trascripción relacionados se han vuelto los puntos "calientes" en los EEF: 167120 2 esfuerzos de investigación y desarrollo biomédicos modernos . Para cada gen, el sitio de inicio de la trascripción (TSS, por sus siglas en inglés) es la posición donde su AKm comienza a ser transcrito a partir del ADN por la ARN-polimerasa II. Durante este proceso, la región reguladora del gen es asociada y enlazada por ciertos factores reguladores . Estos factores enlazados conjuntamente con otras proteínas de trascripción forman un complejo de trascripción que puede inicializar el proceso de trascripción. Más específicamente, esto incluye típicamente los sitios de enlace al factor de trascripción que son las secuencias genómicas cortas de consenso. Una de las regiones reguladoras más importantes es el promotor de núcleo usualmente localizado inmediatamente antes o flanqueando TSS. De este modo, la identificación de TSS es importante para definir la región reguladora de la trascripción para cada gen. Actualmente, muchas investigaciones y desarrollos específicos enfocan sus esfuerzos a los TFs específicos y a los sitios de enlace correspondientes, los cuales han proporcionado muchos datos sólidos, pero todavía fallan en cumplir el gran requerimiento del desarrollo de las necesidades biomédicas relacionadas al genoma. Para cumplir con el compromiso y el reto de descubrir fármacos relacionados a los factores de trascripción, de desarrollo rápido, es muy importante identificar todos los factores reguladores putativos y caracterizar sus 3 correspondientes sitios de enlace en el genoma. Especialmente, con la finalización del proyecto del genoma humano y las apariciones de una gran cantidad de datos de expresión de genes relacionados a enfermedades (tales como los datos basados en microarreglos) , el perfilamiento de todo el genoma de los sitios de enlace a los factores reguladores, se vuelve urgente . La presente invención recuperó todos los genes de longitud completa de diversas bases de datos públicamente disponibles (tales como, NCBI, consorcio NIH MGC, base de datos DBTSS de Japón, y así sucesivamente) y luego trazó el mapa (mapeo) de estos TSSs de los genes sobre el Anteproyecto de Trabajo del Genoma Humano más actualizado (tal como la versión Assembly de Julio del 2003, o la construcción 34 de NCBI). Luego, definió el TSS más del extremo 5' (5') para cada gen, mediante la comparación de todos los posibles TSSs generados mediante el trazado del mapa de la posición de este gen. La región reguladora de la trascripción (TRR) , tales como las regiones promotoras del núcleo fueron definidas con base en la mayoría de las posiciones 5' de TSS, y sus secuencias genómicas correspondientes fueron recuperadas del genoma humano más actualizado para el análisis posterior. Las TRR perfiladas para todos los genes conocidos fueron almacenadas en una base de datos para el análisis estadístico posterior relacionado al objetivo farmacológico y para el desarrollo 4 posterior de estrategias terapéuticas . BREVE DESCRIPCIÓN DE LA INVENCIÓN En consecuencia, un objetivo de la presente invención es proporcionar los métodos mejorados para el perfilamiento genómico de los sitios de enlace a factores reguladores, así como las estructuras y sistemas de datos asociados con los métodos . En otro objetivo más de la presente invención, los métodos para el perfilamiento de los sitios de enlace a los factores reguladores, así como las estructuras y sistemas de datos asociados con los métodos, son proporcionados, empleando el trazado del mapa de la probabilidad genómica con relación a los sitios de enlace perfilados . Otro objetivo más de la presente invención es proporcionar los métodos mejorados para la investigación biomédica, así como las estructuras y sistemas de los datos asociados con los métodos . Un objetivo adicional de la presente invención es proporcionar los métodos mejorados para el desarrollo pre-clínico, así como las estructuras y sistemas de datos asociadas con los métodos . Otro objetivo más de la presente invención es proporcionar los métodos mejorados para aplicaciones de selección o clasificación de fármacos, así como las estructuras y sistemas de datos asociados con los métodos. 5 Otro objetivo más de la presente invención es proporcionar los métodos mejorados para el descubrimiento objetivo y la validación objetivo, así como las estructuras y sistemas de datos asociados con los métodos . Otro objetivo más de la presente invención es proporcionar los métodos mejorados para el perfilamiento de una región reguladora, asi como las estructuras, y sistemas de datos asociados, con los métodos. Un objetivo adicional de la presente invención es proporcionar los métodos mejorados para construir las conexiones de todo el genoma o de los tejidos entre el perfilamiento regulador de diferentes genes, así como las estructuras y sistemas de datos asociados con los métodos. Un objetivo adicional de la presente invención es proporcionar los métodos mejorados para comprender el antecedente genómico o tisular o celular de diversos perfilamientos de trascripción conocidos, comprendiendo el antecedente genómico o tisular o celular de diversos perfilamientos de trascripción conocidos, así como estructuras y sistemas de datos asociados con los métodos. Estos y otros objetivos de la presente invención son logrados en un método para perfilar los sitios de enlace a los factores reguladores . Un gen completo está localizado sobre el genoma para trazar el mapa de las regiones reguladoras del gen. Las secuencias genómicas de las regiones reguladoras de 6 genes son definidas y recuperadas. La información de la secuencia de ADN de cada región reguladora del gen, recuperada, es clasificada para identificar los sitios de enlace a factores reguladores, putativos. Los sitios de enlace a factores de enlace, putativos, son perfilados. En otra modalidad más de la presente invención, un método para perfilar los sitios de enlace identificados, proporciona una base de datos que incluye los sitios de enlace identificados, perfilados, para todos los genes conocidos. El análisis estadístico de probabilidades aplicado los sitios de enlace perfilados . En otra modalidad más de la presente invención, se proporciona una estructura de datos tangiblemente almacenada en un medio legible en computadora. La estructura de datos incluye una base de datos con los sitios de enlace identificados, perfilados. Los sitios de enlace identificados, perfilados son creados mediante la clasificación de la información de la secuencia de ADN de las regiones reguladoras del gen. La base de datos es buscable por identificadores de genes . En otra modalidad más de la presente invención, un sistema implementado para computadora para mostrar visualmente los sitios de enlace a factores reguladores, perfilados, incluye una base de datos que incluye los sitios de enlace identificados, perfilados. Los sitios de enlace identificados, 7 perfilados son creados mediante la selección de la información de la secuencia de ADN de las regiones reguladoras del gen. La base de datos es buscable por identificadores de genes. Es proporcionada una interfaz de usuario que incluye una o más entradas de usuarios seleccionables . Un dispositivo de entrada es operable por un usuario. Es incluida una pantalla que muestra visualmente al menos una salida en respuesta a los sitios de enlace identificados, perfilados. BREVE DESCRIPCIÓN DE LAS FIGURAS La figura 1 es un diagrama de flujo que ilustra una modalidad de la presente invención para perfilar los sitios de enlace a factores reguladores . La figura 2 es un diagrama de flujo que describe cómo definir la región reguladora de la trascripción de un gen (e emplo gen X) La figura 3 es un diagrama de flujo que ilustra el cálculo de la frecuencia de los sitios de enlace a TF. La figura 4 ilustra que la región promotora del núcleo puede incluir 200 a 300 bases del extremo 5' y aproximadamente 50 a 100 bases del extremo 3' del TSS . La figura 5 es una descripción de una modalidad de una estructura de una base de datos de la presente invención. La figura 6 es un diagrama de flujo que ilustra la base de datos de la figura 5. La figura 7 lista las secuencias completas para el 8 DLD del gen, recuperado de la base de datos refseq (SEQ ID No. : 59) . La figura 8 lista las secuencias completas para el DLD del gen, recuperado de la base de datos MGC (SEQ ID No. : 60) . La figura 9 lista las secuencias completas para el DLD del gen, recuperado de la base de datos DBTSS (SEQ ID No. : 61) . La figura 10 lista la secuencia almacenada para el gen DLD (SEQ ID No. : 62) . La figura 11 es una porción de pantalla de una forma de búsqueda que puede ser utilizada con la base de datos de la figura 7. La figura 12 es una porción de pantalla de una modalidad de un resultado de la búsqueda en la base de datos a partir de la base de datos de la figura 5. La figura 13 ilustra una modalidad de un sistema de la presente invención. DESCRIPCIÓN DETALLADA DE LAS MODALIDADES PREFERIDAS En diversas modalidades, la presente invención proporciona los métodos para el perfilamiento a través del genoma, de los sitios de enlace a factores reguladores, las estructuras de datos tangiblemente almacenadas en un medio legible en computadora, y los sistemas asociados. Los ejemplos de sitios enlazadores reguladores incluyen, pero no están 9 limitados a, la secuencia AGGGGACTTTCCCA (SEQ ID No. : 1} como los sitios de enlace como el factor de trascripción en NF-kappa B; la secuencia TTTGGCGG (SEQ ID No. : 2) como los sitios de enlace para el factor de trascripción E2F-1, y similares. Con referencia a los diagramas del flujo de las figuras 1 y 2, en una modalidad de la presente invención, las secuencias genómicas de las regiones reguladoras de los genes son recuperadas y son trazadas en mapa al genoma humano. Con base en los genes trazados en mapa, la posición posición más hacia el extremo 5' de TSS para cada gen es identificada, y la región reguladora correspondiente para el gen es identificada. La información de la secuencia de ADN para cada región reguladora del gen, recuperada es clasificada para identificar los sitios de enlace a factores reguladores, putativos. Los sitios de enlace a factores reguladores, putativos, son luego perfilados . La información recuperada de la base de datos, puede ser utilizada para una variedad de diferentes propósitos y aplicaciones, incluyendo pero no limitadas a, investigación biomédica, desarrollo pre-clínico, aplicaciones de clasificación de fármacos, descubrimiento de objetivos y validación de objetivos, perfilamiento de una región reguladora, construcción de conexiones genómicas o tisulares entre el perfilamiento. mej orador de diferentes genes, la compresión del antecedente genómico tisular de diversos 10 perfilamientos de trascripción conocidos, comprendiendo el antecedente genómico tisular de diversos perfilamientos de trascripción conocidos, y similares. Con referencia a la figura 3 , el trazado del mapa de probabilidades es aplicado a los sitios de enlace identificados . El trazado del mapa de probabilidad describe la identificación de las existencias de sitios de enlace a factores reguladores, de trascripción específica, tales como todos los sitios E2F-1 putativos, en la región reguladora de todos los genes o en los genes que son expresados en ciertos tej idos o células . El trazado del mapa de probabilidad nos dice cuántos genes son posiblemente regulados por la trascripción por un factor regulador específico. Este también indica cuánto efecto a través del sistema biológico, del genoma de las células o de los tejidos podría tener un factor regulador específico. Esta información es muy útil para el desarrollo y métodos terapéuticos basados en la investigación biomédica. En otra modalidad más de la presente invención, es trazado el mapa de un gen de longitud completa para fines de tratar el mapa de regiones reguladoras de genes. Será apreciado que para los fines de esta especificación, la longitud completa se extiende a la longitud del gen. Esto puede provocar un ligero desplazamiento de la posición genómica de los sitios de inicio de la trascripción de las 11 diferentes versiones del mismo gen. En una modalidad, todo el gen de longitud completa disponible es utilizado en una comparación con el fin de obtener el TSS posición más hacia el extremo 5' . Con base en el TSS posición más hacia el extremo 5 ' , las regiones reguladoras de los genes son definidas y las secuencias genómicas de las regiones reguladoras de los genes, son recuperadas . La información de la secuencia de ADN es clasificada para cada región reguladora del gen, recuperada, para identificar los sitios de enlace a los factores de trascripción, putativos. Los sitios de enlace a los factores reguladores, putativos, son trazados en mapa al genoma humano. Los genes de longitud completa son recuperados para proporcionar información de secuencia para los genes recuperados . Los genes recuperados pueden ser trazados en mapa a un genoma humano recientemente actualizado, utilizando una herramienta proporcionada por bases de datos públicamente disponibles buscadoras del genoma de UCSC, documentos auto-desarrollados y similares. En una modalidad, el sitio de inicio a la trascripción es trazado en mapa. En una modalidad, el TSS es trazado en mapa al tomar el TSS posición más hacia el extremo 5' de cada gen después de comparar todos los TSSs disponibles para el gen, ilustrado en la figura 2. Una secuencia genómica de una región reguladora puede ser recuperada para cada gen recuperado con el TSS posición más hacia el extremo 5' proveniente del genoma humano 12 más actualizado. La región reguladora 5' es las secuencias del extremo 5' 5' del TSS y del extremo 3' 3' del TSS. En diversas modalidades, las regiones reguladoras del gen incluyen, pero no están limitadas a, la región promotora del núcleo, la región aumentadora del extremo 5 ' 5 ' , una región reguladora del extremo 3' 3, y similares, como se ilustra en la figura 4. La región promotora del núcleo puede incluir 200 a 300 bases del extremo 5' y aproximadamente 50 a 100 bases del extremo 3' del TSS. Las secuencias correspondientes con relación a TSS pueden ser cortadas y almacenadas. Las secuencias correspondientes con relación a TSS pueden ser cortadas y almacenadas con el uso de documentos auto-desarrollados provenientes de secuencias genómicas basadas en una liberación especifica, en liberaciones más antiguas, actualizadas y futuras, incluyendo pero no limitadas al buscador de genomas UCSC, la base de datos de genomas NCBI, la base de datos Ensembl, otras bases de datos de la secuencia genómica y similares . En una modalidad, la información de la secuencia de ADN es seleccionada utilizando un programa MATCH que es licenciado de la base de datos TRANSFAC. La clasificación de la información de la secuencia de ADN puede incluir la selección de la matriz TF, calificaciones de similitud de matriz, calificaciones de similitud de núcleo, y similares. 13 El recorte es aplicado para reducir las concordancias falsas positivas y falsas negativas durante la clasificación. Una frecuencia específica del genoma o del tejido de cada sitio de enlace, puede ser determinada. La frecuencia puede ser la existencia de los sitios de enlace a TF específicos, en las regiones reguladoras de al menos de uno de, (i) todos los genes a lo largo del genoma, (ii) todos los genes específicos de células, (iii) todos los genes específicos de tejidos, (iv) todos los genes definidos específicamente. La frecuencia puede ser la existencia de sitios de enlace a TF, específicos, en las regiones reguladoras de los genes específicos de tejidos. Adicionalmente, la frecuencia puede ser considerada con una calificación de conservación o una calificación del nivel de expresión. A manera de ilustración, y sin limitación, los sitios de enlace identificados pueden ser considerados de manera diferente con base en su calificación de conservación correspondiente o su nivel de expresión de genes, correspondiente. Por ejemplo, un sitio de enlace con más alta calificación de concentración o el gen correspondiente con más alto nivel de expresión, podrían jugar un papel más significativo que aquellos con menores calificaciones. La calificación de conservación para cada sitio de enlace puede ser creada. La calificación de conservación es seleccionada para cubrir regiones donde los sitios de enlace a 14 TF son identificados, así como cualesquiera otras mediciones que indican los niveles de conservación entre las dos especies, incluyendo pero no limitadas a ratón y humano. La posición de cada sitio de enlace puede ser determinada. La posición puede estar basada en un anteproyecto de trabajo del genoma humano . La posición es una posición convertida en un anteproyecto de trabajo del genoma humano. Conforme son agregadas más piezas de la secuencia, la longitud total para cada cromosoma crece. Esto desplaza la lectura de la posición para cada base sobre el cromosoma. No obstante, la posición puede ser fácilmente convertida y la posición relativa de una secuencia reguladora a la posición del gen, permanece sin cambio. La posición del genoma de un inicio y una finalización pueden ser determinadas. Una distancia de cada sitio de enlace al TSS puede ser determinada. La distancia es relativa a un número de bases entre un sitio de enlace y el TSS . ? manera de ilustración, y sin limitación, en una modalidad la distancia es aquella de la última base entre los sitios de enlace definidos a la base de la base 23 de TSS. En este ejemplo, existen 23 bases entre estas dos bases específicas. En una modalidad de la presente invención, con base en las posiciones de los TSSs posición más hacia el extremo 5', las secuencia reguladoras 5' provenientes del anteproyecto de trabajo del genoma humano más actualizado, son recuperadas para todos los genes disponibles utilizando los documentos y 15 programas de computadora auto-desarrollados . Estas secuencias recuperadas incluyen, pero no están limitadas a las 250 bases del extremo 5' 5' y 50 bases del extrema 3' 3' del TSS para cada gen. Todas las secuencias de la región reguladora pueden ser analizadas utilizando los patrones de la secuencia de consenso de enlace al factor de trascripción, bien caracterizados (o, la matriz ponderada por posición) creados por las bases de datos autorizadas TRANSFAC (versión TRANSFAC profesional 6.3. Wingender et al., Nucleic Acids Res., 29, 281) . Los sitios con concordancia de alta calificación con la matriz de enlace, serán seleccionados. Estos sitios incluyen sus posiciones en el genoma (con relación a la versión de ensamble del genoma específico) y sus longitudes y su información de sinergismo con los sitios flanqueantes. Todos los sitios de enlace resultantes de lo anterior son adicionalmente analizados mediante la comparación de sus calificaciones de conservación con el ratón. El genoma del ratón y la información de conservación relativa serán recuperados de las bases de datos del genoma NCBI y UCSC, disponibles al público, y la comparación de conservación con los sitios de enlace al factor de trascripción, humanos, será realizada utilizando los documentos y programas auto-generados . La información de la secuencia del sitio de enlace 16 al factor de trascripción, resultantes de lo anterior, incluyen sus posiciones genómicas (inicio, finalización) , longitud, distancia a TSS de cada gen, y las regiones flanqueantes (incluyen pero no se limitan a las 10 bases 5' y 3') serán depositadas en una base de datos. Los vínculos de referencia relacionados tales como el nombre del gen, la función, la anotación etc., son también agregados. Todos los señuelos de trascripción posibles pueden ser generados por computadora con base en la base de datos . Los señuelos pueden ser además experimentalmente clasificados mediante el uso de métodos de alto rendimiento, tales como el oligo-arreglo, electroforesis capilar, etc., para la optimización de la eficiencia de enlace. Toda la información de señuelo optimizada, será depositada en la base de datos. La información parcial en la base de datos puede ser utilizada en versiones f turas de la base de datos . Los perfiles de las regiones reguladoras incluyen, pero no están limitados a, (i) el trazado del mapa de probabilidad de cada sitio de enlace al factor regulador, (ii) la identificación de los genes objetivo para cada factor regulador conocido, (iii) el análisis estadístico de los perfiles de enlace al factor regulador de los genes identificados de diversos genes expresados diferencialmente y similares . En una modalidad, una longitud de cada sitio de 17 enlace es determinada. La información de la secuencia respecto a las regiones adyacentes al sitio de enlace, puede ser también determinada. Nuevamente por ilustración y sin limitación, un ejemplo es agcgtcagaAGGGGACTTTCCCaagagaggccgaga (SEQ ID No.: 3) con las letras de bases en letra minúscula que flanquean los sitios de enlace al núcleo, en letras mayúsculas. La información de consistencia de otros sitios de enlace pueden ser también evaluados . La maquinaria de trascripción requiere usualmente la información del complejo por diferentes y diversas proteínas relacionadas a la trascripción, e incluye los diversos factores del enlace al ADN, diferentes. Cuando se realizó la presente invención, los sitios de enlace son perfilados para una región reguladora del gen y frecuentemente más de un sitio de enlace es identificado a partir de una región simple. El número de sitios de enlace puede ser, a manera de ejemplo, quince a veinte a partir de una región simple . El grupo de sitios de enlace y sus posiciones puede ser determinado. Con referencia ahora a las figuras 5 y 6, otra modalidad de la presente invención es una estructura de datos tangiblemente almacenada en un medio legible en computadora que incluye una base de datos con la información del sitio de enlace, identificada, perfilada. La base de datos incluye una tabla de núcleo con identificadores, sitios de enlace y 18 similares. La información del sitio de enlace incluye, pero no está limitada a, secuencia, longitud, posición, dirección, frecuencia y similares. Una tabla de apoyo incluye la posición de TSS de todos los genes . Una tabla de secuencia proporciona las secuencias de las regiones reguladoras de los genes . Tablas de apoyo adicionales incluyen, pero no están limitadas a la frecuencia de TF, los genes objetivo o TF para cada TF y similares . Todas las tablas están vinculadas por uno o más identificadores . En una modalidad, se utilizan varios en vez de un documento perl CGI para encontrar y buscar la base de datos, y luego mostrar visualmente la información correspondiente. Se proporciona una interconexión de buscador en la red. La base de datos es buscable por una variedad de medios diferentes, incluyendo pero no limitados a los identificadores de genes, símbolos de genes, o identificadores auto-desarrollados, y similares. Los identificadores de genes pueden ser seleccionados de la base de datos de NCBI, la cual puede ser una ID de Unigene Cluster, ID de LoucsLink, símbolos de genes internacionalmente aprobados, y similares. En una modalidad, la base de datos incluye la información de las frecuencias genómicas para TF, y puede ser clasificada por al menos un nombre de TF o frecuencias de TF. Las frecuencias de TF pueden incluir frecuencias genómicas o 19 frecuencias específicas de tejido. En un ejemplo específico, la base de datos contiene los perfiles de los sitios de enlace al factor regulador, para todos los genes conocidos (aproximadamente 15,450 en total). A manera de ilustración, y sin limitación, un gen (símbolo: DLD, dihidrolipoamida-deshidrogenasa) es utilizado para mostrar brevemente cómo es construida la base de datos . 1. Recuperación de los genes de longitud completa para un gen ejemplar DLD para proporcionar información de las secuencias Como se ilustra en la figura 2, pueden ser recuperadas tres versiones diferentes de las secuencias de ARNm de longitud completa a partir de la base de datos de NCBI (refseq) , la base de datos MGC (MGC) , la base de datos DBTSS de Japón (DBTSS), y similares. Las secuencias completas para el gen DLD recuperado de la base de datos refseq se lista en la figura 7 (SEQ ID No.: 59), y aquella recuperada de MGC es listada en la figura 8 (SEQ ID No.: 60) y aquella recuperada de DBTSS es listada en la figura 9 (SEQ ID No. : 61) . 2. Los genes recuperados son trazados en mapa a un genoma humano recientemente actualizado Es utilizado un documento auto-desarrollado para ir a la búsqueda de la secuencia recuperada anterior a la base de datos buscadora de genomas UCSC para trazar el mapa de su posición genómica. La versión diferente recuperada del gen DLD 20 es trazada en mapa al genoma humano recientemente actualizado, utilizando una herramienta proporcionada por al menos una de las bases de datos buscadas de genoma de UCSC disponibles al público . 3. La posición del TSS es mapeada Las posiciones mapeadas son recuperadas utilizando el documento auto-desarrollado de la base de datos buscadora de genomas UCSC referida anteriormente. El resultado resumido del mapeo es listado en la tabla 1. Por ejemplo, la secuencia de longitud completa del gen DLD proveniente de la base de datos refseq de NCBI, fue mapeada al anteproyecto de trabajo del genoma humano (entregado en Junio del 2002 por el buscador de genoma ÜCSC) en la hebra en sentido o hebra positiva del cromosoma 7, comenzando en la posición cromosómica de 106015510, comenzando en la posición cromosómica de 106044308. Tabla 1: nombre Cromosoma Hebra inicio Fin DLC de refseq 7 + 106015510 106044308 DLD de MGC 7 + 106015541 106044089 DLD de DBTSS 7 + 106015488 106044308 El TSS es mapeado mediante la realización del TSS posición más hacia el extremo 5' de cada gen después de comparar todos los TSSs disponibles para el gen Con referencia nuevamente a la figura 2, este mapeo 21 es facilitado mediante el uso del documento auto-generado . Para el gen DLD, ya que éste está localizado sobre la hebra "+" del cromosoma 7. La posición inicial 106015488 es tomada en la posición posición más hacia el extremo 5' para TSS del gen DLD. 5. Una secuencia genómica de una región reguladora para cada gen recuperado con el TSS posición más hacia el extremo 5' es recuperada del genoma humano más actualizado La región reguladora 5' son las secuencias del extremo 5' del TSS y del extremo 3' del TSS. Más específicamente, para el gen DLD, la región reguladora o la región promotora del núcleo es la secuencia que incluye 200-300 bases del extremo 5' de la secuencia aproximadamente 50 -100 bases del extremo 3' del TSS. Por lo tanto, las secuencias correspondientes con relación a TSS del gen DLD son cortadas y almacenadas con el uso de los documentos auto-desarrollados provenientes de al menos una de las bases de datos buscadora del genoma UCSC y del genoma NCBI . La secuencia almacenada para el DLD es listada en la figura 10 (SEQ ID No.: 62) . 6. La secuencia almacenada para la región reguladora del gen DLD es seleccionada utilizando un programa de concordancia El programa de concordancia MATCH es la herramienta de análisis de secuencia incrustada dentro de la base de datos TRANSFAC licenciada. El análisis es realizado con el ajuste 22 adecuado para las calificaciones de la similitud de matriz y las calificaciones de la similitud de núcleo, con el fin de reducir la concordancia falsa positiva y falsa negativa durante la selección. El resultado de la selección para la región reguladora del gen DLD es mostrada en la tabla 2, donde las posiciones de sitios de enlace identificados son listadas. Tabla 2 23 24 posición hebra CalificaCalificasecuencias Nombre de TF ción de ción de núcleo matriz 72 (+) 0.824 0.873 ttctaAGTATaagaatacattgta STAT5A (SEQ ID NO 32) (homotetrámero) 123 (-) 1 0.962 agcaTTCCCacca lk-1 (SEQ ID NO 33) 123 (-) 1 0.927 agcaTTCCCacca lk-3 (SEQ ID NO 34) 1 7 (-) 0.813 0.869 gCGACAaa E2F (SEQ ID NO 35) 154 (-) 0.789 0.755 agccctgcgctCCTTAcgaca Pax-4 (SEQ ID NO 36) 202 (-) 0.96 0.925 GcctCGTGCg USF (SEQ ID NO 37) 222 (+) 1 0.934 gcgggCCAATcg (SEQ ID NO CCAATbox 38) 234 (-) 0.788 0.784 cgctgctcccgGGTGAtgacg Pax-4 (SEQ ID NO 39) 237 (-) 0.964 0.902 tgctcccgggTGATGacgtag Secuencia iniciadora de (SEQ ID NO 40) músculo -20 244 (+) 0.91 0.839 gggtGATGAcgtaggctgc v-Maf (SEQ ID NO 41 ) 246 (+> 1 0.991 gtgaTGACGtag (SEQ ID NO CREE 42) 25 7. Una f ecuencia especi ica genómica o tisular de cada sitio de enlace es determinada La frecuencia es la existencia de los sitios de enlace a TF específicos en las regiones reguladoras de todos los genes o genes específicos de tejido. Después del análisis de la región reguladora de todos los genes, la frecuencia o la probabilidad de existencia de los sitios de enlace TF es fácilmente establecida. Algunas de estas informaciones de las frecuencias son listadas para el gen DLD en la tabla 3: 26 Tabla 3 Nombre TF Posición Posición Distancia Frecuencia izquierda derecha (base) a genómica TSS Pax-3 106015239 106015259 -249 0.426259226 Pax-4 106015241 106015261 -247 0.96109025 Pax-6 106015242 106015262 -246 0.112003108 Pax-4 106015242 106015262 -246 0.96109025 Complejo Lmo2 106015260 106015268 -228 0.120419526 Cart-1 106015261 106015278 -227 0.020134663 Cart-1 106015261 106015278 -227 0.020134663 Cdc5 106015270 106015281 -218 0.360481678 Cdx-2 106015284 106015297 -204 0.259031464 FOXJ2 106015286 106015303 -202 0.167875178 HNF-3beta 106015286 106015300 -202 0.23688981 Xvent-1 106015287 106015299 -201 0.678946005 HFH-3 106015288 106015300 -200 0.066942898 FOXD3 106015288 106015299 -200 0.653632008 FOXJ2 106015290 106015307 -198 0.167875178 HNF-3beta 106015290 106015304 -198 0.23688981 FOX04 106015291 106015301 -197 0.10785964 XFD-2 106015291 106015304 -197 0.033665674 Freac-7 106015291 106015306 -197 0.076718892 HNF-3alfa 106015291 106015301 -197 0.312184384 HFH-1 106015292 106015303 -196 0.01657387 HFH-3 106015292 106015304 -196 0.066942898 HFH-8 106015292 106015304 -196 0.020652596 FOXD3 106015292 106015303 -196 0.653632008 27 8. Es creada una calificación de conservación para cada sitio de enlace Las calificaciones de conservación para la comparación del genoma completo entre humano y ratón son recuperadas de la base de datos buscadora del genoma de UCSC. La calificación de conservación es seleccionada para cubrir 28 las regiones donde son identificados los sitios de enlace a TF. Las calificaciones de conservación para los sitios de enlace a TF identificadas en la región reguladora del gen DLD son listadas en la tabla 4. Tabla 4 Nombre Secuencias de núcleo Posición Posición Distancia Calificación TF inicial final hacia TSS de conservación Pax-3 ígaacttgTCACGCtttactg 106015239 106015259 -249 0.426 (SEQ ID NO 4) Pax-4 aacttgtcacgCTTTActgtc 106015241 106015261 -247 0.3552 (SEQ ID NO 5) Pax-6 acttgTCACGCtttactgtcg 106015242 106015262 -246 0.3552 (SEQ ID NO 6) Pax-4 acttgTCACGCtttactgtcg 106015242 106015262 -246 0.3552 (SEQ ID NO 7) Lmo2com tCGATAatg 106015260 106015268 -228 0.06 plex (SEQ ID NO 8) Cart-1 cgaTAATGtgcattaagc 106015261 106015278 -227 0.06 (SEQ ID NO 10) Cart-1 cgataatgtgCATTAagc 106015261 106015278 -221 0.06 (SEQ ID NO 9) 29 Nombre Secuencias de núcleo Posición Posición Distancia Calificación TF inicial final hacia TSS de Cdc5 gcaTTAAGcaaa 106015270 106015281 -218 0.064 (SEQ ID NO 1 1 ) Cdx-2 ctagtTTTATttgt 106015284 106015297 -204 0.1 1 (SEQ ID NO 12) FOXJ2 agtttTATTTgtttattt 106015286 106015303 -202 0.162 (SEQ ID NO 13) HNF-3beta agtttTATTTgttta 106015286 106015300 -202 0.162 (SEQ ID NO 14) Xvent-1 gttttATTTGttt 10601 287 106015299 -201 0.1226666 67 (SEQ ID NO 15) HFH-3 tttTATTTgttta 106015288 106015300 -200 0.162 (SEQ ID NO 17) FOXD3 ttTTATTtgttt 106015288 106015299 -200 0.1226666 67 (SEQ ID NO 16) FOXJ2 ttattTGTTTatttcatc 106015290 106015307 -198 0.286 (SEQ ID NO 18) HNF-Sbeta ttattTGTTTatttc 1060T5290 106015304 -198 0.1 2 (SEQ ID NO 19) 30 Nombre Secuencias de núcleo Posición Posición Distancia Calificación TF inicial final hacia TSS de FOX04 tattTGTTTat 106015291 106015301 -197 0.192 (SEQ ID NO 22) XFD-2 tatttgTTTATttc 106015291 106015304 -197 0.192 (SEQ ID NO 20) Freac-7 tatttgTTTATttcat 106575291 106015306 -197 0.286 (SEQ ID NO 21) HNF-Salfa TATTTgtttat 106015291 106015301 -197 0.192 (SEQ ID NO 23) HFH-] atttGTTTAttí 106015292 106015303 -196 0.192 (SEQ ID NO 27) HFH-3 attTGTTTatttc 106015292 106015304 -196 0.192 (SEQ ID NO 25) HFH-8 attTGTTTatttc 106015292 106015304 -196 0.192 (SEQ ID NO 26) FOXD3 atTTGTTtattt 106015292 106015303 -196 0.192 (SEQ ID NO 28) Cdx-2 atttgTTTATttca 1060T5292 106015305 -196 0.286 (SEQ ID NO 24) HNF-Salfa TGTTTatttca 106015295 106015305 -193 0.3573333 33 (SEQ ID NO 29) 31 32 9. Se realiza una determinación del agrupamiento de los sitios de enlace y sus posiciones Los sitios de enlace adyacentes traslapados son agrupados mediante el uso del documento auto-generado y la posición correspondiente y el TF son listados en la tabla 5 33 para el gen DLD. Tabla 5: ID del Consecuencias del Posición Posición Factor(es) de trascripción grupo núcleo izquierda derecha Cdc5;Cart-l;Cart- l;Lmo2compIex ;Pax- 1 tgaacttgtcacgctttactgtcg 106015239 106015281 4;Pax-6;Pax-4;Fax-3; ataatgtgcattaagcaaa (SEQ ID NO 51) STAT5 A(homotetramer) :N KX3A;IRF- 7;HNF-3alfa;Cdx-2;HFH- 3;HFH-8;HFH- 1 ;FOXD3 ;Freac-7 ;XFD- 2;HNF- 3alfa;FOX04;FOXJ2;HN F- 3beta;HFH- 3;FOXD3;Xvent- l;FOXJ2;HNF-3beta;Cdx- 2 ctagttttatttgtttatttcatcttc 106015284 106015331 2; taagtataagaatacattgta (SEQ ID NO 52) 34 10. Los perfiles de enlace son recolectados en la base de datos Todos los perfiles de enlace listados anteriormente han sido recolectados en la base de datos. La lista ejemplar 35 de la entrada para el gen DLD se muestra en la tabla 6. Tabla 6: Nombre de Cali- CaliSecuencias de núcleo Posición Posición Distanci Frecuencia CalificaTF fica-ción ficación izquierda derecha a (base) genómica ción de de núde ma-triz hacia conservacleo TSS ción Pax-3 1 0.964 tgaacttaTCACGctttactg 106015239 106015259 -249 0.426259226 0.426 (SEQ ID NO 63) Pax-4 0.796 0.779 aacttgtcacgCTTTActgtc 106015241 106015261 -247 0.96109025 0.3552 (SEQ ID NO 5) Pax-6 1 0.886 acttgTCACGctttactgtcg 106015242 106015262 -246 0.112003108 0.3552 (SEQ ID NO 6) Pax-4 0.977 0.761 acttgTCACGctttactgtcg 106015242 106015262 -246 0.96109025 0.3552 (SEQ ID NO 7) Complejo 0.994 0.972 tCGATAatg 106015260 106015268 -228 0.120419526 0.06 Lmo2 (SEQ ID NO 8) Cart-1 0.951 0.952 caaTAATGtgcattaagc 106015261 106015278 -227 0.020134663 0.06 (SEQ ID NO 64) 36 37 38 CCAATbox 0.934 gcgggCCAATcg 106015458 106015469 -30 0.2S8488929 1.136 (SEQ ID NO 3 8) Pax-4 0.788 0.784 cgctgctcccgGGTGAtgacg 106015470 106015490 -18 0.96109025 1.3408 (SEQ ID NO 39) Secuencia 0.964 0.902 tgctcccgggTGATGacgtag 106015473 106015493 -15 0.29004273 1.3408 iniciadora (SEQ ID NO 40) de músculo -20 v-Maf 0.91 0.839 gggtGATGAcgtaggctgc 106015480 106015498 -8 0.233458501 1.356 (SEQ ID NO 41) CREE 1 0.991 gtgaTGACGtag 106015482 106015493 -6 0.308429367 1.37866 (SEQ ID NO 42) 6667 CREB 1 0.954 gaTGACGtaggc 106015484 106015495 -4 0.308429367 1.356 (SEQ ID NO 44) ATF4 1 0.881 gaTGACGtaggc 106015484 106015495 -4 0.142172731 1.356 (SEQ ID NO 43) TFII-1 0.973 0.951 tgacGTAGG 106015486 106015494 -2 0.949177781 1.544 (SEQ ID NO 45) CREB 1 0.971 TGACGtag 106015486 106015493 -2 0.308429367 1.544 (SEQ ID NO 46) MAZ 1 0.97 aGGGAGgg 106015513 106015520 25 1.118477276 0.71466 (SEQ ID NO 47) 6667 E2F 0.984 0.897 ctTGGCGg 106015526 106015533 38 0.566230739 0.532 (SEQ ID NO 50) E2F-1 0.964 0.916 ctTGGCGg 106015526 106015533 38 0.901268937 0.532 (SEQ ID NO 49) E2F-1 1 0.999 TTGGCgg 06015526 106015533 38 0.901268937 0.532 (SEQ ID NO 48) 39 11. La base de datos es buscable por identificadores de genes . La figura 11 ilustra un cuadro de pantalla de una forma de búsqueda que puede ser utilizada con la base de datos. La figura 12 ilustra un cuadro de pantalla de un resultado de la búsqueda de la base de datos . Como se ilustra en la figura 13, otra modalidad más de la presente invención es un sistema implementado por computadora para mostrar visualmente los sitios de enlace al factor regulador, perfilados. El sistema incluye la base de datos, una interconexión con el usuario que incluye una o más entradas de usuario seleccionables, un dispositivo de entrada operable por un usuario, y una pantalla para mostrar visualmente al menos una salida en respuesta a los sitios de enlaces identificados, perfilados. Los ejemplos de las salidas incluyen, pero no están limitados a, el nombre del gen, el identificador, el sitio de enlace a TF identificado, los nombres de TF, las posiciones genómicas, la longitud, la distancia, la calificación de conservación, las calificaciones de enlace, la información de frecuencias y las secuencias del sitio de enlace. Los ejemplos de entradas incluyen los identificadores de genes tales como los símbolos de genes, la ID de grupos de unigenes, o la ID del enlace del locus, y similares. El sistema también incluye una memoria, un 40 microprocesador, archivos de datos, documentos, el software disponible de apoyo, incluyendo pero no limitados a MS Windows, linux de sombrero rojo, Apache HTTP server, el programa recopilador Perl, y similares. La descripción anterior de una modalidad preferida de la invención ha sido presentada para fines de ilustración y de descripción. Esta no está destinada a ser exhaustiva o a limitar la invención a las formas precisas descritas . Obviamente, serán aparentes muchas modificaciones y variaciones para los practicantes expertos en esta técnica. Se pretende que el alcance de la invención sea definido por las siguientes reivindicaciones y sus equivalentes . Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el convencional para la manufactura de los objetos a que la misma se refiere.

Claims (1)

  1. 41 REIVINDICACIONES Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes reivindicaciones: 1. Un método para perfilar sitios de enlace al factor regulador; caracterizado porque comprende: la localización de un gen completo y de longitud completa más hacia el extremo 5' para mapear las regiones reguladoras del gen; la recuperación de las secuencias genómicas de las regiones reguladoras de los genes; la clasificación de la información de la secuencia de ADN para cada región reguladora del gen, recuperada para identificar los sitios de enlace al factor regulador, putativos ; y el perfilamiento de los sitios de enlace al factor regulador, putativos. 2. El método de conformidad con la reivindicación 1, caracterizado porque el mapeo incluye la recuperación de los genes de longitud completa para proporcionar la información de las secuencias para los genes recuperados. 3. El método de conformidad con la reivindicación 2, caracterizado porque el mapeo incluye, el mapeo de los genes recuperados a un genoma humano recientemente 42 actualizado . . El método de conformidad con la reivindicación 3, caracterizado porque los genes recuperados son mapeados al genoma humano recientemente actualizado utilizando una herramienta proporcionada por al menos una base de datos buscadora de genomas, UCSC públicamente disponible, y documentos auto-desarrollados . 5. El método de . conformidad con la reivindicación 3 , caracterizado porque el sitio de inicio de la transcripción (TSS) es mapeado. 6. El método de conformidad con la reivindicación 5, caracterizado porque el TSS es mapeado al tomar el TSS posición más hacia el extremo 5' de cada gen después de comparar todos los TSSs disponibles para el gen. 7. El método de conformidad con la reivindicación 1, caracterizado porque una secuencia genómica de una región reguladora para cada gen recuperado con el TSS posición más hacia el extremo 5' es recuperada a partir del genoma humano más actualizado. 8. El método de conformidad con la reivindicación 7, caracterizado porque la región reguladora 5' son las secuencias localizadas del extremo 5' del TSS y del extremo 3' del TSS. 9. El método de conformidad con la reivindicación 1, caracterizado porque una secuencia recuperada de una región 43 reguladora del gen es la región promotora del núcleo. 10. El método de conformidad con la reivindicación 9, caracterizado porque la región promotora del núcleo incluye 200 a 300 bases del extremo 5' y la secuencia aproximadamente 50 a 100 bases del extremo 3' del TSS. 11. El método de conformidad con la reivindicación 5 , caracterizado porque una secuencia genómica de un gen es la región aumentadora del extremo 5' . 12. El método de conformidad con la reivindicación 3, caracterizado porque una secuencia genómica de una región reguladora del gen es una región reguladora del extremo 3'. 13. El método de conformidad con la reivindicación 7, caracterizado porque comprende además: el recorte y el almacenamiento de las secuencias correspondientes con relación a TSS . 14. El método de conformidad con la reivindicación 13 , caracterizado porque las secuencias correspondientes con relación a TSS son cortadas y almacenadas con el uso de documentos auto-desarrollados a partir de al menos uno del buscador del genoma de UCSC o la base de datos del genoma de NCBI. 15. El método de conformidad con la reivindicación 1, caracterizado porque la información de la secuencia de ADN es clasificada utilizando un programa MATCH o los programas de matriz ponderada de posición, similares para la búsqueda de 44 motivos . 16. El método de conformidad con la reivindicación 1, caracterizado porque la clasificación de la información de la secuencia de ADN incluye la selección de la matriz TF, calificaciones de similitud de matriz y calificaciones de similitud de núcleo. 17. El método de conformidad con la reivindicación 1, caracterizado porque el recorte es aplicado para reducir la concordancia falsa positiva y falsa negativa durante la clasificación. 18. El método de conformidad con la reivindicación 1, caracterizado porque comprende: la determinación de al menos una de una frecuencia genómica o específica del tejido de cada sitio de enlace. 19. El método de conformidad con la reivindicación 1, caracterizado porque la frecuencia es la existencia de sitios de enlace a TF, específicos en las regiones reguladoras de todos los genes . 20. El método de conformidad con la reivindicación 1, caracterizado porque la frecuencia es la existencia de sitios de enlace a TF, específicos en las regiones reguladoras de los genes específicos de tejido. 21. El método de conformidad con la reivindicación 16, caracterizado porque comprende además: la creación de una calificación de conservación para 45 cada sitio de enlace. 22. El método de conformidad con la reivindicación 17 , caracterizado porque las calificaciones de conservación son seleccionadas para cubrir las regiones donde son identificados los sitios de enlace a TF. 23. El método de conformidad con la reivindicación 17, caracterizado porque comprende además: la determinación de una posición de cada sitio de enlace . 2 . El método de conformidad con la reivindicación 23, caracterizado porque la posición está basada en un anteproyecto de trabajo del genoma humano. 25. El método de conformidad con la reivindicación 24, caracterizado porque la posición es una posición convertida en un anteproyecto de trabajo del genoma humano. 26. El método de conformidad con la reivindicación 23, caracterizado porque es determinada la posición del genoma de un inicio y una finalización. 27. El método de conformidad con la reivindicación 23, caracterizado porque comprende además: la determinación de una distancia de cada sitio de enlace al TSS. 28. El método de conformidad con la reivindicación 27 , caracterizado porque la distancia es con relación a un número de bases entre un sitio de enlace y el TSS. 46 29. El método de conformidad con la reivindicación 27, caracterizado porque comprende además: la determinación de una longitud de cada sitio de enlace . 30. El método de ' conformidad con la reivindicación 29, caracterizado porque comprende además: la determinación de la información de secuencia respecto a las regiones adyacentes al sitio de enlace . 31. El método de conformidad con la reivindicación 30, caracterizado porque comprende además: la determinación de la información de co-existencia de otros sitios de enlace . 32. El método de conformidad con la reivindicación 31, caracterizado porque comprende además: la determinación del grupo de los sitios de enlace y sus posiciones. 33. El método de conformidad con la reivindicación 1 , caracterizado porque comprende además : la recolección de los perfiles de enlace en una base de datos . 34. El método de conformidad con la reivindicación 33, caracterizado porque la base de datos incluye los perfiles de enlace a TF para la región reguladora de cada gen. 35. El método de conformidad con la reivindicación 33, caracterizado porque la base de datos es buscable por 47 identificadores de genes . 36. El método de conformidad con la reivindicación 35, caracterizado porgue los identificadores de genes se seleccionan de la base de datos de NCBI . 37. El método de conformidad con la reivindicación 36, caracterizado porque la base de datos de NCBI incluye al menos uno de la ID de Unigene Cluster, ID de LoucsLink y los símbolos de genes internacionalmente aprobados . 38. El método de conformidad con la reivindicación 35, caracterizado porque la base de datos incluye la información de las frecuencias genómicas para TF. 39. La base de datos de conformidad con la reivindicación 38, caracterizada porque la base de datos puede ser clasificada por al menos uno del nombre de TF y las frecuencias de TF. 40. El método de conformidad con la reivindicación 39, caracterizado porque las frecuencias de TF incluyen las frecuencias del genoma y las frecuencias específicas del tejido. 41. El método de conformidad con la reivindicación 33, caracterizado porque comprende además: la recuperación de información de la base de datos para la investigación biomédica. 42. El método de conformidad con la reivindicación 33, caracterizado porque comprende además: 48 la recuperación de información de la base de datos para- el desarrollo pre-clínico. 43. El método de conformidad con la reivindicación 33, caracterizado porque comprende además: la recuperación de información de la base de datos para aplicaciones de selección de fármacos. 4 . El método de conformidad con la reivindicación 33, caracterizado porque comprende además: la recuperación de información de la base de datos para el descubrimiento objetivo y validación objetivo. 45. El método de conformidad con la reivindicación 33, caracterizado porque comprende además: la recuperación de información de la base de datos para el perfilamiento de una región reguladora. 46. El método de conformidad con la reivindicación 33, caracterizado porque comprende además: la recuperación de información de la base de datos para la construcción del genoma o las conexiones tisulares entre los perfilamientos reguladores de los diferentes genes . 47. El método de conformidad con la reivindicación 33, caracterizado porque comprende además: la recuperación de información de la base de datos para comprender el antecedente genómico o tisular de diversos perfilamientos de transcripción conocidos. 48. Un método para perfilar sitios de enlace 49 identificados, caracterizado porque comprende: la provisión de una base de datos que incluye sitios de enlace identificados, perfilados para genes conocidos; y la aplicación del mapeo de probabilidad a los sitios de enlace perfilados . 49. El método de conformidad con la reivindicación 48, caracterizado porque la base de datos incluye los perfiles de enlace a TF para la región reguladora de cada gen. 50. El método de conformidad con la reivindicación 48, caracterizado porque la base de datos es buscable por los identificadores de genes. 51. El método de conformidad con la reivindicación 50, caracterizado porque los identificadores de genes son seleccionados de la base de datos NCBI . 52. El método de conformidad con la reivindicación 51, caracterizado porque la base de datos de NCBI incluye al menos uno de la ID de Unigene Cluster, ID de LoucsLink y los símbolos de genes internacionalmente aprobados . 53. El método de conformidad con la reivindicación 51, caracterizado porque la base de datos incluye la información de las frecuencias genómicas para factores reguladores de la transcripción en vertebrados . 54. El método de conformidad con la reivindicación 53, caracterizado porque la base de datos puede ser clasificada por al menos uno del nombre de TF y las 50 frecuencias de TF. 55. El método de conformidad con la reivindicación 54 , caracterizado porque las frecuencias de TF incluyen las frecuencias del genoma y las frecuencias especificas del tejido . 56. El método de conformidad con la reivindicación 48, caracterizado porque comprende además: la recuperación de información a partir de la base de datos para la investigación biomédica. 57. El método de conformidad con la reivindicación 48, caracterizado porque comprende además: la recuperación de información a partir de la base de datos para el desarrollo pre-clínico. 58. El método de conformidad con la reivindicación 48, caracterizado porque comprende además: la recuperación de información a partir de la base de datos para aplicaciones en selección de fármacos. 59. El método de conformidad con la reivindicación 48, caracterizado porque comprende además: la recuperación de información a partir de la base de datos para el descubrimiento objetivo y validación obj etivo . 60. El método de conformidad con la reivindicación 48, caracterizado porque comprende además: la recuperación de información a partir de la base 51 de datos para el perfilamiento de una región reguladora. 61. El método de conformidad con la reivindicación 48, caracterizado porque comprende además: la recuperación de información a partir de la base de datos para construir las conexiones genómicas o tisulares entre los perfilamientos reguladores de diferentes genes . 62. El método de conformidad con la reivindicación 48, caracterizado porque comprende además: la recuperación de información a partir de la base de datos para comprender el antecedente genómico o tisular de diversos perfilamientos de transcripción conocidos. 63. Una estructura de datos tangiblemente almacenada sobre un medio legible en computadora, caracterizada porque comprende: una base de datos que incluye los sitios de enlace identificados, perfilados, los sitios de enlace identificados perfilados son creados por la clasificación de la información de la secuencia de ADN para las regiones reguladoras de los genes, y en donde la base de datos es buscable por identificadores de genes. 64. La estructura de datos de conformidad con la reivindicación 63, caracterizada porque los identificadores de genes son seleccionados de los identificadores NCBI GeneBank. 65. El método de conformidad con la reivindicación 64, caracterizado porque la base de datos NCBI incluye al 52 menos una de la ID de Unigene Cluster, ID de LoucsLink y símbolos de genes internacionalmente aprobados. 66. La estructura de datos de conformidad con la reivindicación 63 , caracterizada porque la base de datos incluye los perfiles de enlace a TF para la región reguladora de cada gen. 67. La estructura de datos de conformidad con la reivindicación 63 , caracterizada porque la base de datos incluye la información de las frecuencias genómicas para factores reguladores de la transcripción de vertebrados. 68. La base de datos de conformidad con la reivindicación 63 , caracterizada porque la base de datos puede ser clasificada por al menos uno del nombre de TF y frecuencias de TF. 69. La estructura de datos de conformidad con la reivindicación 68, caracterizada porque las frecuencias de TF incluyen las frecuencias del genoma y las frecuencias específicas de tejido. 70. La estructura de datos de conformidad con la reivindicación 63, caracterizada porque la base de datos incluye información para la investigación biomédica. 71. La estructura de datos de conformidad con la reivindicación 63 , caracterizada porque la base de datos incluye información para el desarrollo pre-clínico. 72. La estructura de datos de conformidad con la 53 reivindicación 63 , caracterizada porque la base de datos incluye información para las aplicaciones de selección de f rmacos . 73. La estructura de datos de conformidad con la reivindicación 63 , caracterizada porque la base de datos incluye información para el descubrimiento objetivo y validación objetivo. 7 . La estructura de datos de conformidad con la reivindicación 63 , caracterizada porque la base de datos incluye información para el perfilamiento de una región reguladora . 75. La estructura de datos de conformidad con la reivindicación 63, caracterizada porque la base de datos incluye información para la construcción de conexiones genómicas o tisulares anchas entre los perfilamientos reguladores de diferentes genes . 76. La estructura de datos de conformidad con la reivindicación 63, caracterizada porque la base de datos incluye información para comprender el antecedente genómico o tisular de diversos perfilamientos de transcripción conocidos. 77. Un sistema implementado en computadora para perfilar los sitios de enlace al factor regulador, caracterizado porque comprende: una base de datos que incluye los sitios de enlace identificados, perfilados, los sitios de enlace identificados, 54 perfilados son creados por la selección de la información de la secuencia de ADN para las regiones reguladoras de genes, y en donde la base de datos es buscable por identificadores de genes; una interconexión de usuario que incluye una o más entradas de usuario seleccionables ; un dispositivo de entrada operable por un usuario; y una pantalla para mostrar visualmente al menos una salida en respuesta a los sitios de enlace identificados, perfilados . 78. El sistema de conformidad con la reivindicación 77, caracterizado porque los identificadores de genes son seleccionados de los identificadores NCBI GeneBank. 79. El sistema de conformidad con la reivindicación 78, caracterizado porque la base de datos NCBI incluye al menos uno de ID de Unigene Cluster, ID de LoucsLink y símbolos de genes internacionalmente aprobados . 80. El sistema de conformidad con la reivindicación 77, caracterizado porque la base de datos incluye perfiles de enlace a TF para la región reguladora de cada gen. 81. El sistema de conformidad con la reivindicación 77, caracterizado porque la base de datos incluye información de las frecuencias genómicas para factores reguladores de la transcripción de vertebrados . 82. El sistema de conformidad con la reivindicación 55 77, caracterizado porque la base de datos puede ser clasificada por al menos uno del nombre de TF y frecuencias de TF. 83. El sistema de conformidad con la reivindicación 68, caracterizado porque las frecuencias de TF incluyen frecuencias genómicas y frecuencias específicas de tejido. 8 . El sistema de conformidad con la reivindicación 77, caracterizado porque la base de datos incluye información para investigación biomédica. 85. El sistema de conformidad con la reivindicación 77, caracterizado porque la base de datos incluye información para desarrollo pre-clinico. 86. El sistema de conformidad con la reivindicación 77, caracterizado porque la base de datos incluye información para aplicaciones de selección de fármacos. 87. El sistema de conformidad con la reivindicación 77, caracterizado porque la base de datos incluye información para descubrimiento de objetivos y validación de objetivos. 88. El sistema de conformidad con la reivindicación 77, caracterizado porque la base de datos incluye información para perfilamiento de una región reguladora. 89. El sistema de conformidad con la reivindicación 77, caracterizado porque la base de datos incluye información para la construcción de conexiones genómicas o tisulares anchas entre perfilamientos reguladores de diferentes genes . 56 90. El sistema de conformidad con la reivindicación 77, caracterizado porque la base de datos incluye información para comprender el antecedente genómico o tisular de diversos perfilamientos de transcripción conocidos. 91. El sistema de conformidad con la reivindicación 77, caracterizado porque al menos una salida incluye al menos uno de un nombre de gen, un identificador, un sitio de enlace a TF identificado, nombres de TF, posiciones genómicas, longitud, distancia, calificación de conservación, calificaciones de enlace, información de frecuencias y secuencias de sitios de enlace . 92. El sistema de conformidad con la reivindicación 77, caracterizado porque comprende además: una memoria; y un microprocesador.
MXPA05010276A 2003-03-28 2004-03-24 Perfil genomico de sitios de enlace al factor regulador. MXPA05010276A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/402,689 US20040191781A1 (en) 2003-03-28 2003-03-28 Genomic profiling of regulatory factor binding sites
PCT/US2004/009201 WO2004087966A2 (en) 2003-03-28 2004-03-24 Genomic profiling of regulatory factor binding sites

Publications (1)

Publication Number Publication Date
MXPA05010276A true MXPA05010276A (es) 2006-03-17

Family

ID=32989771

Family Applications (1)

Application Number Title Priority Date Filing Date
MXPA05010276A MXPA05010276A (es) 2003-03-28 2004-03-24 Perfil genomico de sitios de enlace al factor regulador.

Country Status (12)

Country Link
US (1) US20040191781A1 (es)
EP (1) EP1608786B1 (es)
JP (3) JP2004303201A (es)
KR (1) KR20060015484A (es)
CN (1) CN1784498A (es)
AT (1) ATE416261T1 (es)
AU (1) AU2004225474A1 (es)
CA (1) CA2519674A1 (es)
DE (1) DE602004018115D1 (es)
MX (1) MXPA05010276A (es)
RU (1) RU2005133192A (es)
WO (1) WO2004087966A2 (es)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080163824A1 (en) * 2006-09-01 2008-07-10 Innovative Dairy Products Pty Ltd, An Australian Company, Acn 098 382 784 Whole genome based genetic evaluation and selection process
US20090049856A1 (en) * 2007-08-20 2009-02-26 Honeywell International Inc. Working fluid of a blend of 1,1,1,3,3-pentafluoropane, 1,1,1,2,3,3-hexafluoropropane, and 1,1,1,2-tetrafluoroethane and method and apparatus for using
CN101930502B (zh) * 2010-09-03 2011-12-21 深圳华大基因科技有限公司 表型基因的检测及生物信息分析的方法及系统
CN103477318B (zh) * 2010-11-25 2019-01-29 便携基因组公司 基因组数据在电子装置上的组织、可视化及利用
US20150167062A1 (en) * 2012-06-14 2015-06-18 Whitehead Institute For Biomedical Research Genome-wide Method of Assessing Interactions Between Chemical Entities And Their Target Molecules
US9989528B2 (en) * 2013-08-28 2018-06-05 Oregon Health & Science University Synthetic olgononucleotides for detection of nucleic acid binding proteins
CN103870719B (zh) * 2014-04-09 2017-06-16 苏州大学 一种人类基因启动子识别方法及系统
CN104156635B (zh) * 2014-07-08 2017-07-07 华南师范大学 基于公共子序列的基因芯片表达数据的opsm挖掘方法
CN107111689B (zh) * 2014-12-10 2021-12-07 皇家飞利浦有限公司 用于生成非编码-编码基因共表达网络的方法和系统
CN105912886A (zh) * 2016-03-29 2016-08-31 上海师范大学 一种预测蛋白质在rna病毒基因中的结合位点的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6519583B1 (en) * 1997-05-15 2003-02-11 Incyte Pharmaceuticals, Inc. Graphical viewer for biomolecular sequence data

Also Published As

Publication number Publication date
JP2004303201A (ja) 2004-10-28
WO2004087966A2 (en) 2004-10-14
ATE416261T1 (de) 2008-12-15
JP2008293505A (ja) 2008-12-04
JP2006031728A (ja) 2006-02-02
WO2004087966A3 (en) 2004-12-09
US20040191781A1 (en) 2004-09-30
KR20060015484A (ko) 2006-02-17
CA2519674A1 (en) 2004-10-14
EP1608786B1 (en) 2008-12-03
CN1784498A (zh) 2006-06-07
DE602004018115D1 (de) 2009-01-15
EP1608786A2 (en) 2005-12-28
AU2004225474A1 (en) 2004-10-14
RU2005133192A (ru) 2006-02-27

Similar Documents

Publication Publication Date Title
Li et al. A hidden Markov model for analyzing ChIP-chip experiments on genome tiling arrays and its application to p53 binding sequences
Tran et al. A survey of motif finding Web tools for detecting binding site motifs in ChIP-Seq data
Down et al. NestedMICA: sensitive inference of over-represented motifs in nucleic acid sequence
Kwon et al. oPOSSUM-3: advanced analysis of regulatory motif over-representation across genes or ChIP-Seq datasets
Nix et al. Empirical methods for controlling false positives and estimating confidence in ChIP-Seq peaks
Kurtz et al. REPuter: the manifold applications of repeat analysis on a genomic scale
Molina et al. Genome wide analysis of Arabidopsis core promoters
Boeva et al. Short fuzzy tandem repeats in genomic sequences, identification, and possible role in regulation of gene expression
Wang et al. Vertebrate gene predictions and the problem of large genes
CN103797486A (zh) 用于组装核酸序列数据的方法
JP2008293505A (ja) 調節因子結合部位のゲノムプロファイリング
US9946835B2 (en) Method and system for the use of biomarkers for regulatory dysfunction in disease
Baril et al. Earl Grey: a fully automated user-friendly transposable element annotation and analysis pipeline
Genovese et al. Dot2dot: accurate whole-genome tandem repeats discovery
Wei et al. Comparative analysis of regulatory motif discovery tools for transcription factor binding sites
Ntasis et al. Extensive fragmentation and re-organization of transcription in systemic lupus erythematosus
JP2005176730A (ja) cDNA配列をゲノム配列にマッピングする方法
Kasukawa et al. Construction of representative transcript and protein sets of human, mouse, and rat as a platform for their transcriptome and proteome analysis
Pavesi et al. Using Weeder for the discovery of conserved transcription factor binding sites
Suvorova et al. Search for SINE repeats in the rice genome using correlation-based position weight matrices
Tammi et al. TRAP: Tandem Repeat Assembly Program produces improved shotgun assemblies of repetitive sequences
Donaldson et al. CoMoDis: composite motif discovery in mammalian genomes
JP2000285120A (ja) 遺伝子発現探索方法及びその装置
Almutairy et al. The effects of sampling on the efficiency and accuracy of k− mer indexes: Theoretical and empirical comparisons using the human genome
Morozov et al. Optimized position weight matrices in prediction of novel putative binding sites for transcription factors in the Drosophila melanogaster genome

Legal Events

Date Code Title Description
HC Change of company name or juridical status
FA Abandonment or withdrawal