MXPA00010346A - Procedimiento para evaluar pruebas quimicas y biologicas. - Google Patents

Procedimiento para evaluar pruebas quimicas y biologicas.

Info

Publication number
MXPA00010346A
MXPA00010346A MXPA00010346A MXPA00010346A MXPA00010346A MX PA00010346 A MXPA00010346 A MX PA00010346A MX PA00010346 A MXPA00010346 A MX PA00010346A MX PA00010346 A MXPA00010346 A MX PA00010346A MX PA00010346 A MXPA00010346 A MX PA00010346A
Authority
MX
Mexico
Prior art keywords
values
signal
error
hybridization
distributions
Prior art date
Application number
MXPA00010346A
Other languages
English (en)
Inventor
Peter Ramm
Original Assignee
Imaging Res Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Imaging Res Inc filed Critical Imaging Res Inc
Publication of MXPA00010346A publication Critical patent/MXPA00010346A/es

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Abstract

Se describe un procedimiento analitico, para discriminar los datos adquiridos a partir de muestras con distribuciones que se traslapan y para mejorar y evaluar la validez estadistica de la senal de hibridacion en arreglos de pruebas; el procedimiento incluye un metodo para convolver los datos en dos o mas funciones discretas de densidad probabilistica que representan a la senal y a la no-senal, fluorescencias discretas u otras variables independientes convueltas; el sistema utiliza las funciones de densidad probabilistica para asignar las senales de hibridacion, en forma objetiva, a una de las distribuciones modeladas; los procedimientos subsiguientes evaluan la variabilidad inherente a los arreglos y utilizan esta variacion evaluada para establecer puntuaciones de confiabilidad y limites de confianza para los arreglos de hibridacion completos y para las pruebas de hibridacion discretas dentro de los arreglos.

Description

PROCEDIMIENTO PARA EVALUAR PRUEBAS QUÍMICAS Y BIOLÓGICAS CAMPO DE LA INVENCIÓN La presente invención se refiere a un procedimiento para hacer evaluaciones el cual da objetividad al análisis de datos obtenidos a partir de arreglos de hibridación. La presente invención es, en un aspecto, un método para hacer inferencias en cuanto al grado de error aleatorio presente en las repeticiones de muestras genómicas constituidas por números pequeños de puntos de datos, y en otro aspecto, es un método para distinguir entre las diferentes clases de intensidades de la sonda (por ejemplo, de señal contra no-señal).
ANTECEDENTES DE LA INVENCIÓN Los análisis genéticos basados en arreglo empiezan con una genoteca grande de moléculas de ADN o de oligonucleotidos (sondas), inmovilizadas sobre un sustrato. Las sondas se hibridan con una sola secuencia marcada, o con una mezcla compleja marcada obtenida a partir de un ARN mensajero (blanco) de línea celular o de tejido. Tal como se utiliza en la presente invención, el término "sonda" será entendido por lo tanto para referirse a un material atado al arreglo, y el término "blanco" se referirá al material que se aplica a las sondas sobre el arreglo, de modo que pueda presentarse la hibridación. Existen dos tipos de error de medición, el error aleatorio y el error sistemático. El error aleatorio puede ser detectado mediante mediciones repetidas del mismo procedimiento o atributo y se maneja mediante 5 procedimientos estadísticos. Un bajo error aleatorio corresponde a una precisión elevada. El error sistemático (desplazamiento o sesgo) no puede ser detectado mediante mediciones repetidas. Un bajo error sistemático corresponde a una exactitud elevada. La corrección de fondo implica restar de la sonda la intensidad ák I de un área fuera de esa sonda. Las áreas utilizadas para calcular el fondo pueden estar cercanas a la sonda (por ejemplo, un círculo que esté alrededor de la sonda), o alejadas. Por ejemplo, se pueden crear elementos "de control" (es decir, elementos sin el material de la sonda), y el valor de estos elementos se puede utilizar para estimar el fondo. 15 Los procedimientos de normalización implican dividir la sonda entre la intensidad de alguna referencia. Por lo general, esta referencia se ^ toma a partir de un conjunto de sondas, o de la media de todas las sondas. Una vez que el error sistemático ha sido eliminado mediante los procedimientos de eliminación del fondo y de normalización (u otros, según se 20 requiera), cualquier error de medición remanente es, en teoría, aleatorio. El error aleatorio refleja la variación estadística esperada en un valor medido. Un valor medido puede consistir, por ejemplo, de un solo valor, una sumatoria de valores (media, mediana), una diferencia entre los valores individuales o la sumatoria de valores, o una diferencia entre las diferencias. Para que dos valores, sean considerados, en forma confiable, como diferentes uno del otro, su diferencia debe ser mayor a un valor umbral definido conjuntamente por el error en la medición asociado con la diferencia y por una probabilidad especificada de concluir en forma equivocada que los dos valores son diferentes (tasa de Error de Tipo I). Las diferencias entre dos o más valores cuantificados son de interés primordial, típicamente a través de condiciones diferentes (por ejemplo, líneas celulares enfermas contra líneas celulares no enfermas, fármaco contra ausencia de fármaco). En forma ideal, el valor estimado deseado de error aleatorio esperado debería ser obtenido a partir de la variación presentada por los valores repetidos de la misma cantidad. Esta es la forma en la que normalmente se utilizan estos estimados en otras áreas de la Ciencia. Sin embargo, los estudios de hibridación tienden a utilizar un número muy pequeño de repeticiones (por ejemplo, dos o tres). Los estimados de error aleatorio basados en tal número de muestras pequeño son por sí mismos muy variables, haciendo que las comparaciones entre las condiciones que utilizan pruebas estadísticas normales sean imprecisas e imprácticas para todas las diferencias excepto las muy grandes. Esta dificultad ha sido reconocida por Bassett, Eisen y Boguski en "Gene expression informatics: It's all in your mine", Nature Genetics, 21, 51-55 (1999) quienes han argumentado que los aspectos más retadores para presentar los datos de expresión de genes implican la cuantificación y la calificación de los valores de expresión y que la calificación podría incluir las pruebas de significancia y los intervalos de confianza estadísticos normales. Ellos argumentan también que "idealmente, sería económicamente factible repetir un experimento un número suficiente de veces de tal modo que se pueda determinar la varianza asociada con cada nivel de transcripción" (pág. 54). La frase "número suficiente de veces" en la cita anterior pone de relieve el problema. El estado actual de la técnica más avanzada en los estudios basados en arreglo excluye la obtención de índices estadísticos normales, (por ejemplo, intervalos de confianza, delineación de anomalías) y la realización de pruebas estadísticas normales (por ejemplo, pruebas t, análisis de varianza) que son utilizadas en forma rutinaria en otros dominios del campo científico, debido a que el número de repeticiones típicamente presente en los estudios podría ser considerado normalmente como insuficiente para estos propósitos. Una novedad clave en la presente invención es la superación de esta dificultad. Los índices y las pruebas estadísticas son necesarias para poder hacer estimados acerca de la confiabilidad de las diferencias observadas entre las interacciones sonda/blanco a través de las diferentes condiciones. La pregunta clave en estos tipos de comparaciones es ¿qué tan probable es que las diferencias observadas en los valores medidos reflejen únicamente el error aleatorio o si estas reflejan el error aleatorio combinado con el efecto del tratamiento (es decir, "diferencia verdadera")? En ausencia de procedimientos estadísticos formales para decidir entre estas alternativas, han surgido, en la técnica anterior, procedimientos informales. Estos procedimientos pueden ser resumidos como sigue: 1. Valores umbrales arbitrarios Las diferencias observadas a través de las condiciones difieren en un valor umbral arbitrario. Por ejemplo, se considera que las diferencias mayores de 2 ó 3 veces reflejan diferencias "verdaderas". 2. Valores umbrales establecidos con relación a un subconiunto de elementos del arreglo Se utiliza un subconjunto de genes de "referencia" como un punto de comparación para las relaciones de interés. Por ejemplo, con relación al gen de referencia, un gen podría mostrar una relación de expresión 2:1 cuando se mide al tiempo 1 , una relación 2.8:1 cuando se mide al tiempo 2, etcétera. 3. Valores umbrales establecidos tomando como base la variación observada en el fondo La desviación estándar de los valores del fondo se utiliza como una representación para la desviación estándar del error de medición asociado con los valores de la sonda de interés. Si la intensidad de una sonda supera a la desviación estándar del fondo por un número especificado (por ejemplo, 2.5), la sonda es considerada como "significativa".
Ninguno de los métodos anteriores es óptimo, debido a que cada uno se basa en un número relativamente pequeño de observaciones para derivar las reglas de inferencia. Además, las evaluaciones de confianza son subjetivas y no pueden ser evaluadas con relación a modelos estadísticos de "probabilidad". Los métodos 1 y 2 son especialmente vulnerables a esta crítica. Estos no cumplen con los estándares de inferencia estadística generalmente aceptados en otros campos de la ciencia en el sentido de que los modelos formales de probabilidad no participan en el procedimiento de toma de decisiones. El método 3 es menos susceptible a esta última crítica en el sentido de que se obtiene una representación del error de medición a partir del fondo. Sin embargo éste no es óptimo debido a que no se obtiene directamente el error de medición a partir de los valores de interés medidos (es decir, de las sondas) y no es necesariamente el caso que el error que funciona sobre los valores del fondo sea de la misma magnitud y/o modelo que el de aquel que funciona sobre los valores de la sonda. Son posibles otros métodos informales. Por ejemplo, los métodos descritos anteriormente en el punto 2 podrían ser modificados para estimar las desviaciones estándares de las mediciones transformadas en forma logarítmica de los genes de referencia sondeados más de una vez. Debido a la igualdad [log(a) - log(b) = log (a/b)], estos estimados representantes del error de medición podrían ser utilizados entonces para derivar los intervalos de confianza para las relaciones diferenciales de las sondas transformadas en forma logarítmica de las sondas de interés. Sin embargo, este método podría ser menos óptimo debido a que el error podría basarse sobre valores representantes y sobre un número relativamente pequeño de repeticiones. Chen et al. (Chen, Dougherty y Bittner) en "Ratio-based decisions and the quantitative analysis of cDNA microarray images", Journal of Biomedical Optics, 2, 364-374 (1997) han presentado un método matemático analítico que estima la distribución de relaciones diferenciales no repetidas bajo la hipótesis nula. Al igual que en la presente invención, este procedimiento deriva un método para obtener intervalos de confianza y estimados de probabilidad para las diferencias en las intensidades de la sonda a través de diferentes condiciones. Sin embargo, éste difiere de la presente invención en cómo éste obtiene estos estimados. A diferencia de la presente invención, el método de Chen et al. no obtiene estimados del error de medición a partir de valores de sonda repetidos. En cambio, el error de medición asociado con las relaciones de intensidades de sonda entre las condiciones se obtiene derivando matemáticamente la distribución de relaciones de la hipótesis nula. Es decir, Chen et al. derivan lo que podría ser la distribución de relaciones si ninguna de las sondas presentara diferencias en los valores medidos a través de las condiciones que fueran mayores que las esperadas por "casualidad". Tomando como base esta derivación, ellos establecen valores umbrales para las relaciones estadísticamente confiables de intensidades de la sonda a través de dos condiciones. El método, tal como se deriva, puede ser aplicado en la evaluación de las diferencias a través de dos condiciones únicamente. Más aún, se supone que el error de medición asociado con las intensidades de la sonda tiene una distribución normal. El método, tal como se deriva, no se puede ajustar a otros modelos de error de medición (por ejemplo, log-normal). Este también considera que todos los valores medidos no están sesgados y que son estimados confiables de la intensidad "verdadera" de la sonda. Es decir, se considera que ninguna de las intensidades de la sonda son valores "anómalos" que deberían ser excluidos del análisis. En efecto, no es posible la detección de anomalías con el método descrito por Chen et al. Los métodos descritos anteriormente intentan solucionar aspectos que se refieren a qué tan grandes deben ser las diferencias a través de las condiciones antes de que sean consideradas como suficientemente confiables como para garantizar una conclusión de diferencia "verdadera". El poder distinguir entre valores de la sonda que representen la señal y aquéllos que representan la no-señal representa un tema diferente que se relaciona a la determinación de la calidad de los valores de la sonda dentro de los conjuntos en lugar de a través de las condiciones. Dos métodos han sido presentados. Piétu et al. (Piétu, Alibert, Guichard y Lamy), indicaron en "Novel gene transcripts preferentially expressed in human muscles revealed by quantitative hybridization of a high density cDNA array", Genome Research, 6, 492-503 (1996), en su estudio que un histograma de intensidades de sonda presentó una distribución bimodal. Ellos indicaron también que la distribución de valores más pequeños parecía seguir una distribución Gaussiana. En una forma no descrita en su publicación, ellos "ajustaron" la distribución de los valores más pequeños a una curva Gaussiana y utilizaron un valor umbral para las desviaciones estándar de 1.96 por encima del promedio de la curva Gaussiana para distinguir las no-señales (más pequeñas que el valor umbral) de las señales (más grandes que el valor umbral). Chen et al. (citados anteriormente) describen el siguiente método para evaluar si es que una sonda representa o no un valor de señal o no-señal. Dentro de una imagen digitalizada de un arreglo, los pixeles dentro de cada área de la sonda están ordenados por rango. La intensidad de los ocho valores de pixel más bajos se compara con un fondo mediante una prueba estadística no paramétrica (prueba U de Mann-Whitney). Si los resultados de la prueba estadística apoyan la conclusión de que estos ocho valores de pixeles están por encima del fondo, el procedimiento se detiene y la sonda se considera una señal. Si los ocho valores de pixel no están por encima del fondo, se considera que algunos o todos los pixeles están por debajo del valor de fondo. Se repite la misma prueba ya sea eliminando todos los ocho pixeles y repitiendo la prueba con los siguientes ocho valores de pixel más bajos o eliminando un subconjunto de los ocho pixeles y reemplazándolos con el mismo número de los siguientes valores más bajos. La prueba continua de esta manera hasta que se estima que todos los pixeles en o por debajo del fondo o hasta que se llega a un valor umbral del número de pixeles. En cualquier caso la sonda se clasifica como no-señal.
El formato macro (figuras 1 ,4) fue introducido algunos años atrás y es utilizado ampliamente. Típicamente, las sondas se depositan sobre las membranas como manchas de aproximadamente 1 mm de diámetro. Estas manchas grandes son producidas fácilmente con dispositivos robotizados, y son bastante apropiadas para el marcado isotópico de los blancos, debido a que la diseminación de la radiación ionizante proveniente de una molécula excitada para marcación (por ejemplo 32P) excluye el uso de sondas pequeñas con muy poca separación entre ellas. La detección se realiza comúnmente utilizando tableros de almacenamiento de imagen con base de fósforo. Los microarreglos, que consisten de oligonucleotidos sintetizados sobre dispositivos microfabricados, han estado en uso desde hace algún tiempo. Con la reciente disponibilidad comercial de aparatos de microarreglo y detección, los microarreglos de moléculas de ADNc de cadena sencilla depositados sobre los mismos están siendo utilizados ampliamente cada vez más. Con los arreglos genómicos tanto macro- como microscópicos, los datos numéricos se producen detectando la cantidad de isótopo o de marca fluorescente en cada sitio de la prueba. El resultado es uno o más arreglos de números, cada uno de los cuales cuantifica el grado de hibridación en una prueba en el arreglo del espécimen. El nivel de hibridación es una indicación del nivel de expresión de las secuencias complementarias para una sonda específica. Por lo tanto, los análisis pueden ser utilizados tanto para identificar la presencia de las secuencias complementarias como para cuantificar la expresión de los genes que conducen a esas secuencias complementarias. Los análisis continúan con la determinación de cuáles de las pruebas específicas muestran alteraciones interesantes en el nivel de hibridación. Típicamente, las alteraciones en la hibridación se especifican como relaciones entre las condiciones. Por ejemplo, los datos pueden ser de la forma en la que la prueba X (que representa la expresión de un gen particular) esté marcada tres veces más intensamente en una línea de células de tumor que en una línea celular normal. El aspecto relevante es "cómo" se va a especificar la significancia estadística de una comparación específica?". La especificación de la significancia estadística es importante debido a la presencia de error en las mediciones. Se podría definir a la hibridación verdadera como la cantidad que podría ser observada si no estuvieran presentes el error del procedimiento y el de medición. Idealmente, el mismo par sonda-blanco daría siempre el mismo valor de hibridación medido. Los valores de hibridación válidos son aquellos que indican una hibridación verdadera. De hecho, la hibridación tiene tendencia a ser bastante influida por las condiciones de la reacción y por el error en la medición. El coeficiente de variación promedio en un microarreglo fluorescente repetido frecuentemente anda cerca del 25%. Es decir, los casos repetidos de hibridación entre la misma sonda y objetivo pueden dar valores que varían considerablemente alrededor de una media (el mejor valor estimado de hibridación verdadera). Por lo tanto, cualquier punto de datos individual puede ser o no un reflejo exacto de hibridación verdadera. La presente invención difiere de la técnica anterior en el sentido de que ésta estima el error de medición directamente a partir de las repeticiones de los arreglos (dentro o a través de los arreglos). La presente invención tiene la capacidad de proveer inferencias estadísticamente válidas con un número pequeño de repeticiones (por ejemplo, tres) características de los estudios de hibridación en arreglo. En la presente invención, las dificultades estadísticas presentadas por tamaños pequeños de muestras son superadas mediante el procedimiento novedoso de obtención de un estimado del error de medición para cada sonda tomando como base la varianza promedio de todas las repeticiones para todas las pruebas. De conformidad con un aspecto preferido, la invención considera que todas las repeticiones, al ser parte de la misma población de experimentos y siendo tratados en forma similar durante el procesamiento del arreglo, comparten una varianza común y/o constante. De conformidad con otro aspecto preferido, el error de medición puede ser evaluado en forma separada para clases diferentes de sondas. Estas clases pueden ser determinadas tomando como base los procedimientos de desconvolución descritos posteriormente o por medio de otros métodos estadísticos o experimentales. La presente invención difiere de toda técnica antecedente en que ésta: 1. Se puede aplicar a cualquier número de condiciones experimentales en vez de estar restringida a únicamente dos condiciones; 2. hace una estimación del error de medición en forma empírica a partir de las repeticiones de la sonda; 3. puede detectar anomalías; 4. puede ajustarse a varios modelos de error de medición; y 5. puede evaluar qué tan adecuado es un modelo de error de medición considerado. Existe un segundo aspecto para la presente invención, el cual se refiere a la discriminación de las clases de respuestas de las sondas dentro de los arreglos. Las mediciones dentro de los arreglos pueden reflejar clases múltiples de valores. Por ejemplo, algunos valores pueden representar señales y otros pueden representar no señales (por ejemplo, fondo). Como otro ejemplo, algunos valores pueden representar una familia de genes asociados con estados de enfermedad, mientras que otros valores se originan a partir de genes que se sabe no se alteran durante la enfermedad. La presente invención es novedosa en el sentido de que ésta utiliza un método derivado matemáticamente para desconvolver cualquier mezcla de distribuciones subyacentes distintas, el cual se utiliza a su vez para clasificar los valores de sonda como señal o no-señal. De manera específica, la presente invención es novedosa en cuanto a su método para tratar distribuciones que se traslapen dentro de los datos arreglados. En particular, la invención modela distribuciones duales o múltiples dentro de un arreglo. De preferencia, el método hace esto mediante modelado matemático de la mezcla lo cual puede ser aplicado para desconvolver distribuciones y regiones de traslape entre las distribuciones en una forma rigurosa. Esto contrasta con la técnica anterior, la cual no puede modelar más de una distribución con los datos del arreglo y el cual, por lo tanto, no puede modelar regiones de traslape entre distribuciones. Como consecuencia, la técnica anterior podría perder datos (por ejemplo, sondas con bajos niveles de señal) los cuales tienen probabilidades aceptables de pertenecer a una distribución válida de señales. La presente invención asigna las probabilidades de que cualquiera de las sondas pertenezca a una de las distribuciones contribuyentes dentro de una población de datos del arreglo.
BREVE DESCRIPCIÓN DE LOS DIBUJOS Los objetivos, características y ventajas adicionales de la invención serán entendidas en una forma más completa a partir de la siguiente descripción detallada de una modalidad preferida, aunque ilustrativa, haciendo referencia a los dibujos acompañantes, en los cuales: La figura 1 es una distribución de frecuencias de un arreglo de hibridación simulada, que muestra una mezcla de pruebas tanto de señal como de no-señal. El fondo tiene una media de cero, y varía alrededor de ese valor. Por lo tanto, existen valores tanto positivos como negativos en la distribución. Este tipo de distribución es típico de aquéllos encontrados en los arreglos de nylon. La figura 2, que comprende a las figuras 2A y 2B, muestra distribuciones individuales de señales y no-señales modeladas a partir del conjunto de datos de la figura 1. La figura 3 muestra ambas distribuciones provenientes de la figura 2, con la región de traslape dentro de la cual el procedimiento de modelado atribuye el origen de los puntos de los datos. La figura 4, que comprende a las figuras 4A y 4B, muestra una distribución de frecuencias de los valores de expresión provenientes de una línea celular de linfocitos (cada prueba es la media de tres repeticiones) sobre un microarreglo de vidrio, y un arreglo Atlas de Clonetech sobre una membrana de nylon. El fondo proveniente del sustrato ha sido restado, en ambos casos. El arreglo de vidrio presenta una proporción relativamente pequeña de valores que están en una región que podría ser confundida con hibridación no específica. El arreglo de membrana presenta un pico grande en la región de fondo. El arreglo de membrana es un sujeto apropiado para el modelado. El arreglo de vidrio podría no serlo. Las figuras 5 y 6 son diagramas de flujo que muestran una modalidad preferida del procedimiento, aplicándose la figura 5 al caso en el cual el modelo de error de medición es conocido y aplicándose la figura 6 al caso en el cual no lo es.
DESCRIPCIÓN DE LA MODALIDAD PREFERIDA La presente invención es un procedimiento estadístico para el k análisis objetivo de datos de arreglo. Este incluye dos procesos. 5 a) Desconvolución de las distribuciones. En donde el arreglo de datos observados incluye contribuciones provenientes de dos o más distribuciones, la presente invención desconvuelve esas distribuciones como funciones de densidad probabilística individuales. Esto permite poder discriminar las , 10 señales de hibridación de las no-señales, y/o discriminar las contribuciones de una marca a partir de la otra; b) Atribuir confianza a las pruebas. El presente tratamiento de cómo las distribuciones son discriminadas se referirá a un conjunto de datos constituidos de señal y no- 15 señal. La aplicación de estos procedimientos a un conjunto de datos que contiene las contribuciones de dos o más marcas, será evidente para el experto en la técnica. Un conjunto de datos de hibridación provee elementos tanto de señal como de no-señal (figura 1 ). La discriminación de la no-señal es 20 necesaria para que se puedan hacer comparaciones significativas de la expresión (señahseñal), mientras que al mismo tiempo evita comparaciones falsas (cualquiera que incluya no-señal). Supone la presencia de una o más distribuciones. El primer aspecto es establecer el valor umbral para la señal. Este procedimiento utiliza la información obtenida a partir de las propiedades de varianza del arreglo, para definir el punto de corte entre la no-señal y la señal. Primero, se supone que la distribución del arreglo es en realidad una mezcla de dos distribuciones. Estas son una distribución en el intervalo de baja intensidad (no-señal, incluyendo el fondo y la hibridación no específica) y una distribución en el intervalo de alta intensidad (señal) (figura 2). Describe las funciones de densidad de probabilidad para las dos distribuciones, utilizando modelado. A continuación se crea un conjunto de descriptores, los cuales especificarán la naturaleza de cada distribución. Para crear estos descriptores, se hace otra suposición. Se hace la suposición de que cada una de las distribuciones se origina a partir de una función de densidad probabilística específica (pdf) la cual puede ser estimada a partir de cuatro parámetros - medias, varianza, proporción de la mezcla y la clase (por ejemplo, Gaussiana, gamma). Un método bien aceptado para derivar la media, la varianza y la proporción de la mezcla a partir de distribuciones mezcladas es la estimación de máxima probabilidad (MLE). Se podrían utilizar otros métodos.
DEFINICIONES Método de máxima probabilidad La pregunta es: "¿Qué tan probable es que se hayan obtenido los valores dados por los datos reales (generados mediante software o por el usuario) de los cuatro parámetros para cada distribución (media, varianza, proporción de la mezcla y clase de distribución (por ejemplo, Gaussiana, gamma).?" El procedimiento de MLE estima la probabilidad de obtener los datos reales dados los valores iniciales, y después procede a evaluar esta probabilidad dando valores ligeramente diferentes. La iteración continua hasta que se llega a una probabilidad que está a su máximo o hasta que se llega al límite de iteración predefinido.
Función de densidad probabilística Una curva (por ejemplo, Gaussiana) definida por una ecuación matemática. Las probabilidades para los intervalos de valores (por ejemplo, x < 100; x > 500) se pueden obtener tomando como base el área bajo la curva. El procedimiento MLE genera las pdf para las distribuciones de señal y no-señal (figura 3). Estas distribuciones incluyen áreas que son inequívocamente, parte de una distribución o de la otra. Estas también contienen un área de traslape, y es en esta área de traslape que el presente procedimiento opera para asignar el origen de los puntos de datos. Utiliza la función de densidad probabilística para asignar los valores de hibridación a su distribución de origen. Para cualquiera de los valores de hibridación, se puede determinar la probabilidad de obtener un valor que sea grande o más grande que el de la distribución de la no-señal o que sea pequeño o más pequeño que el de la distribución de la señal. De esta forma, se pueden obtener dos probabilidades (una en la que el valor provenga de la distribución de la no-señal y una en la que el valor provenga de la distribución de la señal). La comparación de las dos probabilidades indica cuál de las dos probabilidades es la fuente más probable del valor de los datos. Considérense los valores reportados en el cuadro 1 , los cuales fueron tomados de los datos simulados analizados en el Apéndice A. Existen tres cosas que deben indicarse: 1. Es menos probable que los valores más altos provengan de la distribución de la no-señal (véase la columna 2) y es más probable que provengan de la distribución de la señal (véase la columna 3). 2. Las probabilidades en las columnas 2 y 3 muestran cuál de las dos columnas es la más probable a ser el origen de un valor de hibridación particular. Por ejemplo, la probabilidad de que un valor de 40 o mayor provenga de la distribución de la no-señal es 0.2107. La probabilidad de que un valor de 40 o menor provenga de la distribución de la señal es de 0.0995. El presente procedimiento establece que es más probable que un valor de 40 provenga de una distribución de no-señal. 3. Se puede obtener un valor de criterio para hibridación de señal y de no-señal a partir de la función de probabilidad. En el ejemplo, un valor menor de o igual a 49 es clasificado como no-señal y uno mayor de 49 es clasificado como señal. 4. CUADRO 1 Probabilidades de origen para diversos valores de hibridación Prueba de ajuste de bondad La presente invención crea modelos los cuales tienen la intención de describir los datos reales. Se pueden evaluar los modelos utilizando un parámetro de ajuste de bondad basado en la prueba estadística de chi cuadrada. La prueba puede ser automatizada, y el software marca los casos en los cuales el modelado da como resultado un mal ajuste.
Cuando el modelado es apropiado El procedimiento de modelado supone que el arreglo de puntos de datos de hibridación puede ser analizados sintácticamente en distribuciones múltiples, cada una con elementos suficientes para permitir el modelado exacto. Generalmente este es el caso con los arreglos de nylon, los cuales contienen componentes de no-señal grandes (figura 4). Muchos arreglos de vidrio son de naturaleza completamente diferente. El fondo tiende a ser mucho más bajo y la señal para ruido más alta. Por lo tanto, podría no ser posible o necesario modelar una distribución de no-señal para arreglos muy limpios. En el caso de arreglos de vidrio limpios con una sola marca se puede suponer una distribución individual (señal), prescindir del modelado, y utilizar un criterio sencillo de señal para discriminar las pruebas utilizables (por ejemplo, pruebas con una relación de señal a ruido > 3:1).
Breve descripción del modelado de la distribución La presente invención utiliza procedimientos de modelado para desconvolver una matriz de datos en dos o más funciones de densidad de probabilidad. Después se asignan los datos de hibridación a la distribución más probable de origen. Las ventajas de la presente invención son que el procedimiento de modelado provee un método objetivo para asignar valores de hibridación a las distribuciones de señal o de no-señal, a una marca o a la otra, o a cualquiera de las otras distribuciones desconvueltas. El procedimiento puede incluir una prueba de ajuste de bondad, la cual alerta si el resultado del modelado es sospechoso.
Atribuyendo confianza Cualquier prueba de hibridación es un estimado. Es decir, si se repite la prueba un número de veces, se obtendrán valores que varían alrededor de una media. Todos estos valores estiman un valor de hibridación verdadero. Algunas valores de las pruebas son buenos estimados del valor verdadero y algunos otros no. Los estimados bajos cubren un amplio intervalo de valores verdaderos potenciales. Los estimados buenos cubren un intervalo estrecho. Para definir los límites de confianza, la presente invención genera intervalos alrededor de los valores observados. Se puede tener una confianza elevada (por ejemplo > 95%) de que los valores verdaderos están dentro de estos intervalos. También se pueden utilizar estos intervalos para determinar la confianza en las diferencias entre valores de prueba. Si los intervalos se traslapan, se tiene una confianza baja en las diferencias. Si los intervalos no se traslapan, se tiene una confianza alta. Por lo tanto, la presente invención provee puntuaciones de confianza para cada caso de hibridación diferencial (véase la siguiente sección).
Punto 1 : El usuario introduce el estimado del error Se obtiene una magnitud del error en una de dos maneras. Si se está tratando con arreglos de elemento individuales (sin repeticiones), el usuario puede introducir un estimado de qué tanto error (como una proporción o como una constante) está presente. Por ejemplo, los genes de mantenimiento podrían indicar que esta prueba tiene un error de medición del 25%.
Punto 2: Determinar el error proveniente de las repeticiones utilizando desviación estándar o coeficiente de variación El error de medición también se puede determinar, directamente, a partir de las repeticiones. La ventaja del procedimiento de repetición es que el error asociado con un promedio es reducido por un factor de « en el cual n es el número de repeticiones. Se puede utilizar la información concerniente a esta variabilidad para proveer un parámetro de validez general para el arreglo completo (ecuación 1 ). en la cual ? es el número de repeticiones. El coeficiente de variación es una medida útil de la variabilidad, para medidas que tienen error de medición proporcional (característico de los arreglos de hibridación). El porcentaje de error de medición asociado con un valor individual (con relación a su media) se estima como: Porcentaje de CVX = 100^ Punto 3: Identificar las pruebas altamente no confiables utilizando estimados de la varianza obtenidos a partir de las repeticiones Los estimados de variabilidad a través de las repeticiones variarán de prueba a prueba. Si estos varían demasiado, la prueba debe ser desechada. ¿Cómo se establece el criterio para desechar una prueba? Se examina la variabilidad de la variabilidad. A partir de esto, se pueden identificar las repeticiones cuya variabilidad sea mayor de un valor. El valor se determina calculando la varianza de los valores de varianza y estableciendo un criterio objetivo para la varianza (por ejemplo, 3 unidades de desv. std.) que indique las anomalías. En el caso de error aditivo (por ejemplo, 100 ± 10, 1 ,000 ± 10), la desviación estándar es el mejor estimador de la varianza alrededor de cada punto de datos. El valor absoluto del error permanece constante. En el caso de error proporcional (por ejemplo, 100 ± 10, 1 ,000 ± 100), el coeficiente de variación es una medida más útil de variabilidad. La desviación estándar cambia proporcionalmente con la magnitud del valor de la medición. Las pruebas de hibridación con puntuación sin tratamiento presentarán, típicamente, error proporcional, mientras que las pruebas transformadas al logaritmo presentarán error aditivo. La prueba estadística apropiada se elige sobre esa base. Para resumir el proceso, se obtiene una desviación estándar (SD) o un CV promedio para las repeticiones en el arreglo entero. Después se utiliza ese promedio en el siguiente paso. Para un modelo de error aditivo, es procedimiento de obtención de los promedios se logra utilizando la ecuación 2: en la cual el subíndice g se refiere a un grupo o condición (por ejemplo, fármaco, control). Aquí se modelan dos grupos con propósitos ilustrativos, aunque el análisis se generaliza a cualquier número de grupos. El subíndice / se refiere a una sonda arreglada (n es el número total de sondas arregladas), y el subíndice/ se refiere a la repetición ( es el número de repeticiones). La ecuación 2 es una propiedad clave de la presente invención, en el sentido que ésta describe el método mediante el cual se pueden estimar las propiedades de la varianza de grupos discretos de repeticiones a partir de aquéllas del arreglo entero. Este método estima el valor esperado de la varianza de la población, dados los datos observados. Son posibles otros métodos que utilizan información basada en la varianza a través de los conjuntos de repeticiones para el arreglo entero (por ejemplo, el Método de Máxima Probabilidad). Este último método calcula, para valores diferentes de sg , la probabilidad de obtener los datos observados. El estimado de ss el cual produce la probabilidad más alta se elige como el estimado de la varianza de la población. En cualquiera de los métodos, la novedad se deriva del uso de la varianza a través de las repeticiones para el arreglo completo en la elección del valor de la varianza de la población que después se aplica a cada uno de los conjuntos de repeticiones.
Punto 4: Usar los límites de confianza obtenidos a partir del arreglo completo de un coniunto de pruebas de referencia para estimar la variabilidad de los valores de prueba individuales El porcentaje CV provee una medida de la variabilidad de los valores de repetición individuales alrededor de su media. La media de las repeticiones es el mejor estimado del valor verdadero de la prueba. Sin embargo, el valor de la media tiene un error de medición asociado con el mismo. La desviación estándar asociada con un valor de la media es denominada un error estándar de la media y se calcula como: s. N en la cual N es el número de repeticiones. Cuando el error de medición es proporcional, una medida de variabilidad es el porcentaje CV para la media, el cual se calcula como: s- Porcentaje CV; = 100 X La presente invención toma pruebas con repetición, y calcula el error de medición a partir de las repeticiones. Este procedimiento trabaja bien bajo la suposición de valores de CV o de desviación estándar (SD) iguales a través de la mayoría o de todo el intervalo de los valores de prueba. Más aún, las pruebas con valores de porcentaje de CV o de SD inusualmente altos pueden ser examinadas y suprimidas del análisis posterior si éstas son consideradas como no confiables.
El caso de expresión diferencial a través de los arreglos La mayoría de los procedimientos de modelado requieren de un número grande de puntos de datos. En algunos casos, la comparación de los valores de hibridación a través de los arreglos no provee números grandes de pruebas hibridadas en forma diferencial. En cambio, existe un número grande de pruebas con relaciones similares (normalmente 1:1), y sólo unos cuantos casos de hibridación diferencial (por ejemplo 4:1 ). Con la relación de hibridación a través de los arreglos, la presente invención utiliza formas de modelado distributivo que no requiere números grandes de puntos de datos.
Generar límites de confianza para relaciones de hibridación, cuando las repeticiones están presentes Si se tienen estimados del porcentaje de errores asociados con el numerador y el denominador de una relación, es un asunto fácil estimar el porcentaje de error asociado con la relación de conformidad con la siguiente fórmula: Porcentaje de error A/B = en la cual s- XA es el error proporcional para las medias de la repetición del arreglo A. La presente invención utiliza esta fórmula para calcular los límites de confianza para cualquier relación A/B.
Estimar los límites de confianza para las relaciones de hibridación cuando no están presentes las repeticiones La presente invención tiene la ventaja de que se pueden asignar límites de confianza a las pruebas de caso individual. Este estimado puede ser introducido por el usuario. Asigna límites tomando como base un estimado de variabilidad introducido por el usuario.
EJEMPLO DEL PROCEDIMIENTO Modelo de error de medición conocido En un aspecto preferido, la presente invención supone que el error sistemático ha sido reducido al mínimo o que ha sido modelado mediante la aplicación de procedimientos conocidos (por ejemplo, corrección del fondo, normalización) según se requiera. En otro aspecto preferido, la presente invención podría ser utilizada con el error sistemático que ha sido modelado y por lo tanto eliminado como un efecto de sesgado sobre los puntos de datos discretos. El procedimiento también podría ser utilizado con datos sin modelar que contienen error sistemático, pero los resultados podrían ser menos válidos.
Para facilitar la exposición, la siguiente discusión supone que las sondas.. son repetidas a través de los arreglos. Sin embargo, el procedimiento se aplica de igual manera, en casos en los cuales las repeticiones están presentes dentro de los arreglos. Dos modelos de error común son el "aditivo" y el "proporcional".
Un modelo de error con varianza constante, sin considerar la cantidad medida, es llamado un "modelo aditivo". Un modelo de error con una varianza proporcional a la cantidad medida es llamado un "error proporcional". Este último modelo viola la suposición de varianza constante asumida por muchas pruebas estadísticas. En este caso, una transformación logarítmica (en cualquier base conveniente) cambia el modelo de error de proporcional a aditivo. En el procedimiento discutido en la presente invención, se puede aplicar una transformación logarítmica a cada elemento individual del arreglo. Se contemplan otras transformaciones o ninguna transformación dependiendo del modelo de error. Las figuras 5 y 6 son diagramas de flujo que ilustran modalidades preferidas del procedimiento. Se contemplan otras secuencias de acción. Por ejemplo los bloques 5 a 7, los cuales implican los procedimientos de desconvolución y clasificación, deben ser insertados entre los bloques 2 y 3. Es decir, en esta modalidad alternativa, la desconvolución podría preceder a la estimación del error de medición de la repetición. En la figura 5 se muestra una vista general del procedimiento cuando se conoce el modelo de error de medición. Los siguientes párrafos están numerados para que correspondan con los números de los bloques funcionales en la figura. 1. Transformar los datos de conformidad con el modelo de error En el bloque 1 , los datos sin tratamiento son transformados, si es necesario, de modo que se cumplan las suposiciones requeridas para las pruebas estadísticas subsecuentes. 2. Calcular las medias y las desviaciones estándar de las repeticiones Cada conjunto de repeticiones de la sonda se cuantifica (por ejemplo, mediante lectura de la intensidad fluorescente de un ADNc de repetición) y se promedian los valores de sonda para generar una media para cada conjunto. Se calcula un estimado no sesgado de la varianza para conjunto de repeticiones de la sonda, como lo es cualquiera de las otras pruebas estadísticas descriptivas relevantes. 3. Realizar verificación del modelo En un aspecto clave de la presente invención, la variabilidad del promedio para cada conjunto de repeticiones está basada en la variabilidad de todos los conjuntos de repeticiones dentro del arreglo. Esta estadística puede después ser utilizada en las pruebas de diagnóstico. Son posibles varios modelos de error y pruebas diagnósticas. Las pruebas diagnósticas incluyen pruebas gráficas (por ejemplo, gráficas cuantil-cuantil para verificar la distribución de suposiciones residuales) y pruebas estadísticas formales (por ejemplo, la prueba de chi cuadrada; la prueba de Kolmogorov-Smirnov; las pruebas que comparan la media, el sesgado y la curtosis de los valores residuales observados con respecto a los valores esperados bajo el modelo de error). Si las suposiciones del modelo de error se satisfacen, se pueden establecer valores umbrales para eliminar las observaciones residuales anómalas ( por ejemplo, ± 3 desviaciones estándar lejos de la media). Las suposiciones del modelo pueden ser examinadas nuevamente después de eliminar las anomalías y se puede volver a calcular la variabilidad promedio para el conjunto de repeticiones. Después esta medida de la variabilidad puede ser utilizada en el bloque 8. 4 .Se cumplen las suposiciones del modelo?. En el bloque 4, se hace un juicio con respecto a que si la distribución de valores residuales es adecuada para proceder con el análisis de datos. Si lo es, se procede al bloque 5. Si no lo es se procede al bloque 9. 5. .Se requiere de la desconvolución? En el bloque 5, se hace una decisión en cuanto a que si se necesita la desconvolución de una mezcla de distribución de valores. Si se requiere, se procede al bloque 6. Si no es requerida, se procede al bloque 8. 6. Desconvolver la distribución de la mezcla En un aspecto clave de la presente invención, los datos de alimentación para este procedimiento son las intensidades de elemento tomadas a través de observaciones individuales o (de preferencia) a través de las repeticiones. En un aspecto preferido, el algoritmo E-M y cualquiera de las modificaciones que hacen más flexible su aplicación (para permitir, por ejemplo, el modelado de distribuciones no normales; para permitir el uso de una información a priori, por ejemplo, valores negativos son de no-señal) provee un algoritmo conveniente para modelar distribuciones subyacentes. Son posibles otros métodos para la desconvolución de la mezcla. 7. Aplicar la regla de clasificación Dados los parámetros de la distribución obtenidos en el bloque 6, será de interés clasificar las observaciones según caigan en una clase o en la otra (por ejemplo, señal y no-señal). Las observaciones pueden ser clasificadas de conformidad con el procedimiento descrito en la sección titulada "Uso de la función de densidad probabilística para asignar los valores de hibridación a su distribución de origen". 8. Pruebas estadísticas Una vez que se ha determinado el error de medición, se conducen pruebas estadísticas estándar y se proveen los intervalos de confianza. Tales pruebas podrían incluir pruebas t dependientes o independientes y análisis de varianza (ANOVA) dependiente e independiente, y otras, pruebas estándar. Estas comparaciones podrían hacerse entre las medias de las repeticiones provenientes de condiciones diferentes. Son posibles otras pruebas. Después de completar las pruebas, el procedimiento termina. Esto es considerado como una terminación normal. 9. Generar la alarma Si las suposiciones del modelo de error no se cumplen, se genera una alarma, y el procedimiento concluye. Esto se considera como una terminación anormal. Son entonces posibles tres soluciones. Los datos sin tratamiento pueden ser transformados manualmente mediante el procedimiento Box-Cox o mediante otros procedimientos. El procedimiento podría ser iniciado todo desde el principio, de modo que las suposiciones de un nuevo modelo puedan ser evaluadas. En forma alternativa, se puede aplicar la estrategia de optimización mostrada en la figura 6. Finalmente, la distribución del error podría ser estimada mediante métodos empíricos no paramétricos tales como el procedimiento de autoarrastre o mediante otros procedimientos.
Modelo de error de medición desconocido Cuando se desconoce el modelo de error de medición, el procedimiento, tal como se representa en la figura 6, es idéntico al utilizado cuando el modelo del error es conocido excepto en cómo se elige el modelo de error. En este caso, el modelo de error se elige basándose en un procedimiento de optimización intensiva por computadora. Los datos se someten a numerosas transformaciones sucesivas en bucle desde el bloque 1 hasta el bloque 3. Estas transformaciones se pueden basar, por ejemplo, en una transformación Box-Cox o en otro tipo de transformación evidente para el experto en la técnica. La transformación óptima se elige tomando como base las suposiciones del modelo de error. Si la transformación óptima está cercana a una aceptada, con base teórica (por ejemplo, transformación logarítmica), podría preferirse a ésta última. El procedimiento avanza a través de los pasos remanentes en la misma forma que cuando el modelo de error es conocido. Se incluye como APÉNDICE A un documento técnico el cual describe aspectos adicionales de las modalidades preferidas de la invención. Aunque se ha descrito una modalidad preferida de la invención con propósitos ilustrativos, los expertos en la técnica apreciarán que son posibles varias adiciones, modificaciones y sustituciones sin alejarse del campo y alcance de la invención.
APÉNDICE A INFORMÁTICA ESTADÍSTICA PROCEDIMIENTOS PARA ANÁLISIS DE DATOS DEL ARREGLO Introducción 25 Clases de estudio de expresión 25 Datos de expresión 25 Un nuevo procedimiento 26 Distribuciones discriminantes 27 El procedimiento de modelado 28 Cuando el modelado es apropiado 29 Modelando un espécimen real 30 Resumen del modelado de la distribución 32 Confiabilidad e intervalos de confianza 32 El procedimiento: las repeticiones están presentes 32 El procedimiento: las repeticiones no están presentes 34 Analizando la expresión diferencial 34 El procedimiento: Error de medición conocido 34 El procedimiento: Error de medición desconocido 34 Una opción gráfica 36 Referencias 37 INTRODUCCIÓN El análisis de expresión basado en el arreglo (ABEx) está proyectado para encontrar aplicación cada vez mayor en el descubrimiento de fármacos y en el diagnóstico. Aunque las herramientas ABEx siguen siendo complejas, se cree que se está entrando a un periodo en el cual una rápida evolución de las habilidades y de las herramientas comerciales favorecerá la aplicación cada vez mayor de esta tecnología. Una parte de la evolución del ABEx se encuentra en los materiales, procedimientos e instrumentación. Los avances se harán en la microfabricación, procedimientos de hibridación, disposición de los arreglos y en la detección. Otro aspecto de la evolución se refiere a las formas en las cuales se extrae el significado a partir de la informática de los arreglos. Las dudas referentes al significado se colocan en dos niveles. • La validez de las observaciones. ¿Cómo comprobamos que las observaciones son verdaderas? • Validez consecutiva. ¿Tienen las observaciones algún significado en términos de consecuencias biológicas para el organismo? Por ejemplo, ¿se pueden identificar "patrones de expresión" consistentes en familias de genes que muestren actividad similar bajo las condiciones de interés? ¿Pueden las alteraciones en la expresión de genes específicos ser relacionadas con sucesos en la traducción/post-traducción? Todos los usuarios de ABEx se enfrentarán a estas dudas. La validez, consecutiva es el objetivo de la investigación. La validez de la observación confirmada es una condición previa para sacar conclusiones referentes a la validez consecutiva. Se cree que los sistemas ABEx completos deben tanto detectar como especificar la validez para arreglos de datos de hibridación de alta densidad. Por lo tanto, se están desarrollando herramientas para la "informática estadística". La informática estadística (SI) es un conjunto de procedimientos analíticos que proveen estimados de la confiabilidad de los datos de puntos ABEx. Es más probable que los datos estadísticamente confiables sean válidos.
Clases de estudios de expresión Los estudios ABEx se clasifican en tres clases generales.
Condición individual: Expresión en una condición individual, sin comparación con el control. Diagnóstico: Expresión en una condición individual, con comparación con un control estándar. Comparativo: Comparaciones directas de expresión a través de las condiciones Los estudios de condición individual (por ejemplo, Pietu et al., 1966) hacen reportes del orden "Se encontraron secuencias de X altamente expresadas en este tejido, algunas de las cuales no se expresan en otros tejidos". Estos tipos de reportes se están volviendo menos comunes, debido a que es muy difícil establecer una relación causal entre una observación de expresión y una condición de tejido. Los estudios de diagnóstico y comparativos realizan la comparación directa de las condiciones del espécimen. En el caso diagnóstico, la comparación es con una condición de control normalizada en forma independiente. En el caso comparativo, se incluyen comparaciones múltiples dentro de un experimento.
Datos de expresión Todas las clases de estudio de ABEx deben dar valores de expresión confiables. Advierta que el término confiable, tal como se utiliza en la presente invención, es en el sentido analítico en oposición al sentido biológico. Los valores de expresión confiables son aquéllos que tienen una varianza de error especificada (y de preferencia baja). Existen varias estrategias utilizadas para reducir la varianza del error en los datos del arreglo. • Formación de manchas múltiples. Durante mucho tiempo se han utilizado paradigmas de repetición (utilizando muchas instancias de cada sonda) para reducir al mínimo los efectos de la variación dentro de una prueba. Al utilizar repeticiones múltiples de una prueba y tomando un promedio, o excluyendo los casos bastante variables, se consigue un resultado más confiable que si se tomara un sólo caso.
• Marca fluorescente. Se puede obtener una mejora bastante grande en la calidad de los datos moviéndose de especímenes marcados isotópicamente sobre membranas de nylon hacia especímenes marcados con fluorescencia sobre substratos de vidrio. • Comparación de las condiciones utilizando marcas múltiples sobre la misma sonda. Las marcas fluorescentes múltiples reducen al mínimo la varianza del error permitiendo comparaciones entre condiciones diferentes (por ejemplo, 10 cáncer contra normal) hibridadas a una sola sonda (por ejemplo, DeRisi et al., 1996; Shalon, Smith y Brown, 1996). En este caso, los datos se expresan como relaciones entre las condiciones. • Referencia a la media, la mediana o a un conjunto de 15 genes de referencia. Cada elemento del arreglo puede ser referido a algún parámetro global. En teoría, este procedimiento reducirá al mínimo la variación entre muestras eliminando la dependencia en los valores de intensidad absolutos. 20 • Pares igualados-no igualados. Cada secuencia en el arreglo tiene un compañero que difiere, normalmente en un par de bases. Los datos se expresan como una relación de la "igualación perfecta" con la secuencia no igualada o como un valor sustraído (igualado - no igualado). La sustracción elimina la hibridación no específica y el fondo (los cuales deberían ser los mismos bajo ambas condiciones), y la normalización provee una referencia interna para la sonda en cuestión. Una vez que se ha producido un cuerpo de datos, el siguiente paso es la especificación de qué tanta alteración en la expresión tiene significado. Por ejemplo, se observan declaraciones tales como "se pueden detectar alteraciones 2:1 en la expresión". La justificación precisa para este tipo de declaraciones varía. El método más común utiliza un estimado de ia variabilidad obtenido a partir de los genes de referencia. La genoteca contiene un conjunto de genes de referencia o genes de "mantenimiento", los cuales se sabe que hibridan. La varianza en este conjunto se utiliza para establecer un criterio de varianza para otros elementos del arreglo.
Un nuevo procedimiento Se propone un procedimiento estadístico, el cual se denomina "informática estadística" (SI), para el análisis de datos de ABEx. La SI incluye dos componentes principales. a) Desconvolución de las distribuciones. Si los datos del arreglo incluyen contribuciones provenientes de dos o más distribuciones (por ejemplo señal/no-señal, fluorescencia múltiple), esas distribuciones se desconvuelven en funciones de densidad probabilística diferentes. Esto permite discriminar la señal de hibridación de la no-señal, y/o discriminar las contribuciones de una marca a la otra; b) Confiabilidad de los valores de expresión. Algunos de los valores de expresión observados son buenos estimados (confiables). Otros están bastante influenciados por el error (no confiables). La confiabilidad se calcula para cualquier valor de expresión. Las ventajas de la SI incluyen: 10 • Aceptar los datos generados utilizando cualquiera de las estrategias de reducción de varianza; • Se basa en modelo, en oposición a la utilización de materiales de referencia creados con el arreglo; • Es de utilización simple, en el sentido de que se pueden 15 analizar los arreglos genéricos; • Provee un método objetivo para calcular la confiabilidad de cada punto de datos.
DISCRIMINACIÓN DE LAS DISTRIBUCIONES Muchos de los arreglos de datos de ABEx están constituidos por distribuciones múltiples. Por ejemplo, un conjunto de datos de hibridación provee tanto elementos de señal como de no-señal (figuras 1 , 2). La discriminación de no-señal es necesaria para que se puedan hacer comparaciones de expresiones significativas (señal:señal), mientras que al mismo tiempo se evitan comparaciones falsas (cualquiera que incluya no-señal).
Figura 1. Distribución de frecuencia de un arreglo simulado, que muestra una mezcla de pruebas tanto de señal como de no-señal. El fondo tiene una media de cero y varía alrededor de ese valor. Por lo tanto, en la distribución existen valores tanto positivos como negativos. Este tipo de distribución es típico de los arreglos sobre membranas de nylon.
Ver figura 1 Figura 2. Distribuciones de señal y de no-señal generadas a partir de los datos indicados en la Figura 1.
Ver figura 2A y 2B El procedimiento de modelado Paso 1 : Describir las funciones de densidad de probabilidad para las dos distribuciones, utilizando modelado Se crea un conjunto de descriptores, los cuales especifican la naturaleza de cada distribución. Para crear estos descriptores, se hace la suposición de que cada una de las distribuciones se origina a partir de una función de densidad probabilística específica (pdf) la cual puede ser estimada a partir de cuatro parámetros - media, varianza, proporción de la mezcla y la clase (por ejemplo, Gaussiana, gamma). Un método bien aceptado para derivar la media, la varianza y la proporción de la mezcla a partir de distribuciones mezcladas es la estimación de máxima probabilidad (MLE). Se podrían utilizar otros métodos.
Definiciones Método de máxima probabilidad La pregunta es: "¿Qué tan probable es que se hayan obtenido los valores dados para los datos reales (generados mediante software o por el usuario) para los cuatro parámetros para cada distribución (media, varianza, proporción de la mezcla y clase de distribución?" (por ejemplo, Gaussiana, gamma). El procedimiento de MLE estima la probabilidad de obtener los datos reales dados los valores iniciales, y después procede a evaluar esta probabilidad dando valores ligeramente diferentes. La iteración continua hasta que llega a una probabilidad que está a su máximo o hasta que se llega a un límite de iteración predefinido.
Función de densidad probabilística Una curva (por ejemplo, Gaussiana) definida por una ecuación matemática. Las probabilidades para los intervalos de valores (por ejemplo, x > 100; x < 500) se pueden obtener tomando como <| Q base el área bajo la curva.
El procedimiento MLE genera las pdf para las distribuciones de señal y no-señal (figura 3). Estas distribuciones incluyen áreas que son inequívocamente, parte de una distribución o de la otra. Estas también contienen un área de traslape, y es en esta área de traslape que el presente 15 procedimiento funciona para asignar el origen de los puntos de datos.
Figura 3: Funciones de densidad probabilística de las distribuciones de señal y de no-señal, que muestran la región de traslape. Dentro de esta región, el presente procedimiento asigna los valores de 0 hibridación a la distribución de origen.
Ver figura 3 ,10 Paso 2: Utilizar la función de densidad probabilística para asignar los valores de hibridación a su distribución de origen Para cualquiera de los valores de hibridación, se puede determinar la probabilidad de obtener un valor que sea grande o más grande 15 que el de la distribución de la no-señal o que sea pequeño o más pequeño que el de la distribución de la señal. De esta forma, se obtienen dos probabilidades (una de que el valor provenga de la distribución de la no-señal y una de que el valor provenga de la distribución de la señal). La comparación de las dos probabilidades indica cuál distribución es la fuente más probable 20 del valor de los datos. Considérense los valores reportados en el cuadro 1 , los cuales fueron tomados de los datos simulados y analizados en el Apéndice A. Existen tres cosas que deben indicarse: 1. Es menos probable que los valores más altos hayan provenido de la distribución de no-señal (véase la columna 2) y es más probable que hayan provenido de la distribución de la señal (véase la columna 3). 2. Las probabilidades en las columnas 2 y 3 muestran cuál de las dos columnas es la más probable a ser el origen de un valor de hibridación particular. Por ejemplo, la probabilidad de que un valor de 40 o mayor provenga de la distribución de no-señal es 0.2107. La probabilidad de que un valor de 40 o menor provenga de la distribución de señal es de 0.0995. El presente procedimiento establece que es más probable que un valor de 40 provenga de la distribución de no-señal. 3. Se puede obtener un valor de criterio para hibridación de señal y de no-señal a partir de la función de probabilidad. En el ejemplo, un valor menor que o igual a 49 es clasificado como no-señal y uno mayor de 49 es clasificado como señal.
CUADRO 1 Probabilidades de origen para diversos valores de hibridación 10 • Paso 3: Prueba de ajuste de bondad La presente invención crea modelos los cuales tienen la intención de describir los datos reales. Se pueden evaluar los modelos 15 utilizando un parámetro de ajuste de bondad basado en la prueba estadística de chi cuadrada. La prueba puede ser automatizada, y el software marca los casos en los cuales el modelado da como resultado un mal ajuste.
Cuando el modelado es apropiado 20 El procedimiento de modelado supone que el arreglo de puntos de datos de hibridación puede ser analizados sintácticamente en distribuciones múltiples, cada una con elementos suficientes para permitir el modelado exacto. Generalmente este es el caso con los arreglos de nylon, los cuales contienen componentes de no-señal grandes (figura 4). Muchos arreglas de vidrio son de naturaleza completamente diferente. El fondo tiende a ser mucho más bajo y la señal para ruido más alta. Por lo tanto, podría no ser posible o necesario modelar una distribución de no-señal para arreglos muy limpios. En el caso de un arreglo de vidrio limpio con una sola marca se puede suponer una distribución individual (señal), prescindir del modelado, y utilizar un criterio de señal sencillo para discriminar las pruebas utilizables (por ejemplo, pruebas con una relación de señal a ruido > 3:1).
Figura 4: Distribuciones de datos que muestran dos proporciones de no-señal. En la parte superior se muestra un arreglo Clonetech Atlas marcado con 32-P sobre vidrio. Existe un componente de no-señal grande. En la parte inferior está un microarreglo marcado con Cy3 sobre vidrio (tejido muscular). El componente de no-señal es muy pequeño.
Ver figura 4A y 4B Modelando un espécimen real Para resumir la situación hasta este punto: Se ha demostrado que el modelado trabaja bien con una distribución teórica. Se ha demostrado que los arreglos en membrana tienen las propiedades de la distribución teórica. Los microarreglos en vidrio limpio podrían no tener suficientes puntos de no-señal para permitir el modelado. ¿Será el modelado útil con vidrio? Para responder a esta pregunta, se examinaron algunos microarreglos que estaban menos limpios que la excelente genoteca de linfocitos. De hecho, estos arreglos pueden tener muchas de las propiedades de las membranas (figuras 5, 6). Por lo tanto el modelado será útil con una amplia variedad de arreglos, incluyendo microarreglos fluorescentes.
Figura 5: Una imagen de microarreglo fluorescente marcado con Cy3 que integra tres repeticiones de una genoteca de medula espinal. Los puntos rojos difusos representan la no-señal. Los puntos rojos brillantes caen en el área de traslape en la cual el modelado debe asignarles ya sea señal o no-señal. Los otros colores son señal inequívocamente Ver figura 7 Figura 6: Modelado del arreglo de la figura 5. Las líneas rojas muestran las distribuciones de señal y no-señal. Las azules muestran los depósitos de intensidad. La línea verde representa el ajuste del modelado a los datos, reales. El modelo no difiere, significativamente, de los datos (prueba X2).
Ver figura 8 Breve descripción del modelado de la distribución Se utilizan procedimientos de modelado para desconvolver una matriz de datos en dos o más funciones de densidad de probabilidad. Después se asignan los datos de hibridación a la distribución con mayor probabilidad de ser el origen. Las ventajas del modelado son: • No se necesita crear arreglos de referencia para estimar la no-señal: • Asigna en forma objetiva valores de hibridación a las distribuciones de señal o de no-señal, a una marca o a la otra, o a cualquiera de las otras distribuciones desconvueltas. El procedimiento puede incluir una prueba de ajuste de bondad, la cual alerta si el resultado del modelado es sospechoso.
CONFIABILIDAD E INTERVALOS DE CONFIANZA Cualquier prueba de hibridación es un estimado. Es decir, si se repite la prueba un número de veces, se obtendrán valores que varían alrededor de una media. Todos estos valores estiman un valor de hibridación verdadero. Algunos valores de las pruebas son estimados confiables del valor verdadero y algunos otros no. Es de utilidad especificar el grado en el cual cualquier valor de expresión es confiable. Los intervalos de confianza abarcan un valor verdadero. Para definir los límites de confianza, se utilizan los valores observados como estimados, y se generan intervalos alrededor de los estimados. Dado un valor observado de X, y un estimado de la confiabiiidad del valor observado, se puede dar un intervalo dentro del cual debe estar el valor de hibridación verdadero estimado por X. Este intervalo se indica con un nivel de confianza particular (por ejemplo > 95%). También se pueden utilizar estos datos de intervalo para especificar la confianza en las diferencias entre los valores de prueba o las relaciones de expresión. Si los intervalos se traslapan, se tiene una baja confianza en las diferencias. Si los intervalos no se traslapan, se tiene una confianza alta.
El procedimiento: las repeticiones están presentes — Si están presentes las repeticiones, el error de medición se puede determinar directamente. La ventaja adicional de las repeticiones es que el error asociado con un promedio es reducido por un factor de 1-Vñ en el cual n es el número de repeticiones.
Paso 1 : Identificar las pruebas altamente no confiables utilizando estimados de la varianza obtenidos a partir de las repeticiones Los estimados de variabilidad a través de las repeticiones variarán de prueba a prueba. Si estos varían demasiado, la prueba debe ser desechada. ¿Cómo se establece el criterio para desechar una prueba? Se examina la variabilidad de la variabilidad. A partir de esto, se pueden identificar las repeticiones cuya variabilidad sea mayor que un valor.
El valor se determina calculando la varianza de los valores de varianza y estableciendo un criterio objetivo para la varianza (por ejemplo, 3 unidades de desv. std.) para indicar las anomalías.
Paso 2: Determinar los estimados de error para las pruebas aceptables utilizando va sea la desviación estándar de la media o el coeficiente de variación Los valores de prueba verdaderos se estiman por la media de las repeticiones. El procedimiento puede utilizar ya sea el error estándar de la media (s-, ecuación 1 ) o el coeficiente de variación para la media (CV-, ecuación 2) para estimar el error de prueba a partir de las repeticiones.
Ecuación 1. error estándar de la media de las repeticiones para una prueba determinada. en la cual sx = es la desviación estándar de las repeticiones, y N -- = número de repeticiones.
Ecuación 2. Coeficiente de variación para la media de las repeticiones para una prueba determinada.
En el caso de error aditivo (por ejemplo, 100 ± 10, 1 ,000 ± 10), la desviación estándar es el mejor estimador de la varianza alrededor de cada punto de los datos. El valor absoluto del error permanece constante. En el caso de error proporcional (por ejemplo, 100 ± 10, 1 ,000 ± 100), el coeficiente de variación es una medida más útil de variabilidad. La desviación estándar cambia proporcionalmente con la magnitud del valor de medición. Típicamente, las pruebas de hibridación con resultados finales sin tratamiento presentarán error proporcional, mientras que las pruebas transformadas al logaritmo presentarán el error aditivo. La prueba estadística apropiada se elige sobre esa base. Para resumir el proceso, se obtiene una desviación estándar o un CV promedio para las repeticiones en el arreglo entero. Después se utiliza ese promedio en el siguiente paso.
Paso 3: Cálculo de los intervalos de confianza Los estimados de error para las pruebas permiten construir los intervalos de confianza alrededor de cada prueba. Mientras más alta sea la confianza que se desea tener, más amplio será el intervalo que abarque al valor verdadero. El intervalo de valores posibles a un nivel de confianza particular es denominado un "intervalo de confianza". El noventa y cinco porciento y el 99% de confianza son niveles de confianza típicos. Nivel de confianza: La probabilidad de que el intervalo incluya al valor verdadero. Intervalo de confianza: Los valores reales del intervalo.
Paso 4: Utilizando los intervalos de confianza para comparaciones entre las pruebas Los valores medidos para dos pruebas cualquiera casi siempre diferirán, con certeza, uno del otro. Estas diferencias podrían simplemente reflejar los efectos del error de medición o éstas podrían reflejar las diferencias reales entre los valores verdaderos. Se utilizan los intervalos de confianza para dar las probabilidades de que una diferencia observada sea real. Si los intervalos de confianza de dos pruebas no se traslapan, se puede tener la confianza de que, al nivel elegido (por ejemplo 95 o 99%), los valores verdaderos de las pruebas son diferentes uno del otro. Si los intervalos de confianza se traslapan, no se puede tener la confianza de que los valores verdaderos sean diferentes. Las ventajas de los presentes procedimientos son: • El error se calcula a partir de repeticiones, utilizando procedimientos estadísticos estándar. • Los intervalos de confianza se calculan directamente a partir de los datos del arreglo. • Se establecen los intervalos de confianza, utilizando criterios objetivos. • Las comparaciones de expresión se dan con una probabilidad de error.
El procedimiento: las repeticiones no están presentes Si las repeticiones no están presentes, no se puede disponer de estimados de confiabilidad obtenidos estadísticamente. Sin embargo, los estimados de error siguen siendo necesarios para construir los límites de confianza. Estos estimados de error se crean en diferentes maneras. Se pueden construir algunas pruebas repetidas en el arreglo y estimar el error a partir de éstas (por ejemplo, DeRisi et al., 1996). En forma alternativa, el usuario puede introducir algún valor de error que sea característico de sus conjuntos de datos. Una vez que se ha especificado un estimado del error, se pueden calcular los límites de confianza y las comparaciones entre valores de expresión se pueden especificar con probabilidades.
ANALIZANDO LA EXPRESIÓN DIFERENCIAL La mayoría de los procesos de modelado requieren de un número grande de puntos de datos. Por lo general, la comparación de los valores de hibridación a través de las condiciones no provee números grandes de pruebas expresadas en forma diferencial. Más bien, tienden a ser un número grande de pruebas con relaciones similares (normalmente 1 :1 ), y relativamente sólo unos cuantos casos de expresión diferencial (por ejemplo 4:1 ). Esto crea dificultades para un modelado exacto. Por fortuna, se puede tomar ventaja de algunas propiedades de la relación para realizar un modelado distributivo que no requiera de números grandes de puntos de datos.
El procedimiento: error de medición conocido Generar intervalos de confianza para relaciones de expresión utilizando repeticiones o la introducción por parte del usuario para estimar el error de medición Si se tienen estimados de los errores de medición asociados con el numerador y el denominador de una relación, es un asunto fácil estimar el error de medición asociado con la relación. Ecuación 3. Porcentaje de error para relaciones de hibridación (repeticiones presentes) Porcentaje de error A/B = en la cual (s- /XA ) = el error proporcional para cada una de las medias de la repetición en el arreglo A.
En la ecuación 3 se utilizan valores de hibridación sin tratamiento. Cuando el error de medición es la misma proporción proveniente de prueba a prueba dentro de cada arreglo, la ecuación 3 produce el mismo porcentaje de error para todas las relaciones A B. Se utiliza un procedimiento análogo cuando no existen repeticiones pero se dispone de un estimado del error de medición (por ejemplo, proveniente de valores de referencia o de estudios anteriores; véase el Apéndice A).
El procedimiento: error de medición desconocido Opción 2. Generar intervalos de confianza para las relaciones de expresión utilizando un estimado del error de medición obtenido a partir de la distribución Se pueden desarrollar intervalos de confianza para las relaciones, utilizando un estimado obtenido a partir de la variabilidad de valores expresados en forma no diferencial. Se examina la variabilidad del 50% central de las relaciones de hibridación transformadas en logaritmo, las cuales se supone que están distribuidas en forma aproximada de conformidad con una distribución Gaussiana. Se obtiene un estimado de la variabilidad de las relaciones que están expresadas en forma no diferencial a partir de esta medida, el estimado se utiliza después como se discutió en el Paso 2 para asignar los límites de confianza a todas las relaciones (figura 7).
Figura 7. Evaluación de la relación basándose en la confianza. Se compara la prueba en la posición 1, 1 con todas las otras pruebas. El color amarillo indica la expresión aumentada a un 95% de confianza (p< 0.05) y el rojo al 99% de confianza (p<0.01).
Ver figura 9 , 10 Una opción gráfica Relaciones de expresión diferencial del modelo utilizando una 15 gráfica C-C La gráfica C-C es un miembro de la familia de estadísticas gráficas. Esta mapea los datos de frecuencia hasta las pdf, en una forma que se entiende fácilmente. Se utiliza una gráfica C-C para modelar relaciones de pruebas en un arreglo dividido por las pruebas en otro arreglo (en realidad los 20 logaritmos de las relaciones de los datos sin tratamiento). Estas relaciones deben presentar tres distribuciones parcialmente traslapadas: • Valores que no difieren a través de los arreglos (relación 1 :1 ); • Valores que se incrementan a través de los arreglos (relación > 1 ); • Valores que disminuyen a través de los arreglos (relación < 1). Los valores log que constituyen la distribución de los valores que no difieren deben ser normales. Por lo tanto, se puede utilizar la parte central de esta distribución para modelar una distribución completa que cubra el intervalo observado en los datos. Hasta el grado en que los valores observados caigan para quedar dentro de esta distribución, estos caen en las distribuciones expresadas en forma diferencial (figura 8). Figura 8. Gráfica C-C que compara la distribución de las relaciones de expresión diferencial (línea roja) con la distribución Gaussiana (línea verde). En donde los valores observados quedan en proximidad cercana a la línea recta que describe al valor esperado, estos caen en la distribución de valores que no difieren a través de los arreglos. En donde los valores observados se desvían de los valores esperados, estos caen en las distribuciones de expresión diferencial.
Ver figura 10 La ventaja de este procedimiento es que éste puede ser realizado con cualquiera de las relaciones, incluso si no se tiene un estimado directo del error de medición.
REFERENCIAS DeRisi, J., Penland, L., Brown, P.O., Bittner, M.L., Meltzer, P.S., Ray, M., Chen, Y., Yan, A.S., y Trent, J.M. Use of a cDNA microarray to ¡ analyse gene expression patterns in human cáncer, Nature Genetics 14:457- 460 (1996). De Saizieu, A., Certa, U., Warrington, J., Gray, C, Keck, W., y Mous, J. Bacterial transcript imaging by hybridization of total RNA to oligonucleotide arrays, Nature Biotechnology 16:45-48 (1998). Nguyen , C, Rocha, D., Granjeaud, S., Baldit, M., Bernard, K., Naquet, P. y Jordán, B.R. Differential gene expression in the murine thymus assayed by quantitative hybridization of arrayed cDNA clones, Genomics 29:207-216 (1995). Pietu, G., Alibert, O., Guichard, V., Lamy, B., Bois, F., Leroy, E., Mariage-Smason, R., Houlgatte, R., Soulare, P. y Auffray, C. Novel gene transcripts preferentially expressed in human muscles revealed by quantitative hybridization of a high density cDNA array, Genome Research 6:492-503 (1996). Schena, M., Shalon, D., Davis, R.W. y Brown, P.O. Quantitative monitoring of gene expression patterns with a complementary DNA microarray, Science 271 :467-470 (1995). Shalon, D., Smith, S.J. y Brown, P.O. A DNA microarray system for analyzing complex DNA samples using two-color fluorescent probé hybridization, Genome Research 6:639-645 (1996).

Claims (1)

  1. NOVEDAD DE LA INVENCIÓN REIVINDICACIONES 1.- Un método para hacer inferencias estadísticamente válidas con respecto a los datos obtenidos a partir de estudios de hibridación en arreglos, en el cual el método toma ventaja de un número grande de muestras genómicas, cada una compuesta de un número pequeño de repeticiones que no son suficientes para hacer inferencias estadísticamente válidas y precisas, que comprende el paso de estimar el error para una muestra promediando a través de los estimados de error obtenidos a partir del número grande de muestras. 2.- El método de conformidad con la reivindicación 1 , caracterizado además porque se utiliza una estadística calculada a partir de una población completa de arreglos para estimar casos discretos de la estadística para las muestras pequeñas de repetición dentro de esa población. 3.- El método de conformidad con la reivindicación 1 o la 2, caracterizado además porque se utilizan estimados del error de medición para generar análisis de potencia estadística y de sensibilidad experimental. 4.- Un método en el cual se identifican las anomalías utilizando estimados de error a los que se llega de conformidad con la reivindicación 1 o 2. 5.- Un método para discriminar las clases de respuesta, tales como señal y no-señal, dentro de los arreglos de hibridación, que comprende el paso de desconvolver las porciones de las distribuciones que se traslapen y que representan las inferencias con respecto a los datos obtenidos a partir de los estudios de hibridación de arreglo. 6.- El método de conformidad con la reivindicación 5, caracterizado además porque se modela a una de las distribuciones dobles y múltiples dentro de un arreglo mediante modelado matemático de la mezcla. 7.- El método de conformidad con la reivindicación 5 o la 6, caracterizado además porque se utiliza el modelado de la mezcla para permitir las inferencias acerca de la probabilidad de que cualquier elemento discreto del arreglo caiga dentro de una de las distribuciones modeladas. 8.- El método de conformidad con cualquiera de las reivindicaciones 1 , 2, 5 o 6, utilizado para hacer inferencias válidas respecto a los datos obtenidos a partir de pruebas biológicas y químicas conducida en una de las placas de cavidades, tubos de ensaye y otros medios. 9.- El método de conformidad con la reivindicación 3, utilizado para hacer inferencias válidas con respecto a los datos obtenidos a partir de pruebas biológicas y químicas conducidas en una de las placas de cavidades, tubos de ensaye y otros medios. 10.- El método de conformidad con la reivindicación 4, utilizado para hacer inferencias válidas con respecto a los datos obtenidos a partir de pruebas biológicas y químicas conducidas en una de las placas de cavidades, tubos de ensaye y otros medios. 11.- El método de conformidad con la reivindicación 7, utilizado para hacer inferencias válidas con respecto a los datos obtenidos a partir de pruebas biológicas y químicas conducidas en una de las placas de cavidades, tubos de ensaye y otros medios.
MXPA00010346A 1998-04-22 1999-04-22 Procedimiento para evaluar pruebas quimicas y biologicas. MXPA00010346A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US8269298P 1998-04-22 1998-04-22
PCT/IB1999/000734 WO1999054724A1 (en) 1998-04-22 1999-04-22 Process for evaluating chemical and biological assays

Publications (1)

Publication Number Publication Date
MXPA00010346A true MXPA00010346A (es) 2002-08-06

Family

ID=22172808

Family Applications (1)

Application Number Title Priority Date Filing Date
MXPA00010346A MXPA00010346A (es) 1998-04-22 1999-04-22 Procedimiento para evaluar pruebas quimicas y biologicas.

Country Status (17)

Country Link
US (2) US6567750B1 (es)
EP (1) EP1078256B1 (es)
JP (1) JP2002512367A (es)
KR (1) KR20010042824A (es)
CN (1) CN1298486A (es)
AT (1) ATE228654T1 (es)
AU (1) AU760053B2 (es)
BR (1) BR9909942A (es)
CA (1) CA2327800A1 (es)
CZ (1) CZ20003884A3 (es)
DE (1) DE69904165T2 (es)
ES (1) ES2189407T3 (es)
HU (1) HUP0101655A2 (es)
IL (2) IL138944A0 (es)
MX (1) MXPA00010346A (es)
PT (1) PT1078256E (es)
WO (1) WO1999054724A1 (es)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7348181B2 (en) 1997-10-06 2008-03-25 Trustees Of Tufts College Self-encoding sensor with microspheres
US6351712B1 (en) * 1998-12-28 2002-02-26 Rosetta Inpharmatics, Inc. Statistical combining of cell expression profiles
MXPA01011988A (es) 1999-05-25 2002-05-06 Aventis Pharma Inc Analisis matematico para la estimacion de cambios en el nivel de la expresion de gen.
EP1200620B1 (en) * 1999-06-17 2004-08-25 Amersham Biosciences Niagara Inc. Process for removing systematic error and outlier data and for estimating random error in chemical and biological assays
US6516276B1 (en) 1999-06-18 2003-02-04 Eos Biotechnology, Inc. Method and apparatus for analysis of data from biomolecular arrays
AU2001234455A1 (en) 2000-01-14 2001-07-24 Integriderm, L.L.C. Informative nucleic acid arrays and methods for making same
EP1259928A2 (en) * 2000-03-02 2002-11-27 Imaging Research, Inc. Process for estimating random error in chemical and biological assays
AU2001281316A1 (en) * 2000-07-12 2002-01-21 Merck And Co., Inc. Method and apparatus for positionally correcting data in a three dimensional array
WO2002020824A2 (en) * 2000-09-08 2002-03-14 Imaging Research Inc. Process for estimating random error in chemical and biological assays
AU2002307486A1 (en) * 2001-04-26 2002-11-11 Rosetta Inpharmatics, Inc. Methods and compositions for utilizing changes of hybridization signals during approach to equilibrium
JP3825281B2 (ja) * 2001-06-20 2006-09-27 日立ソフトウエアエンジニアリング株式会社 検索スケジューリング装置、プログラム及びプログラムを記録した記録媒体
AU2003216257A1 (en) * 2002-02-11 2003-09-04 Syngenta Participations Ag Gene function inferring using gene expression data
US7440856B2 (en) * 2002-03-13 2008-10-21 Becton, Dickinson And Company System and method for determining clinical equivalence of test methods
US20050143933A1 (en) * 2002-04-23 2005-06-30 James Minor Analyzing and correcting biological assay data using a signal allocation model
AU2003245269A1 (en) * 2002-05-03 2003-11-17 Vialogy Corporation System and method for characterizing microarray output data
US6763308B2 (en) * 2002-05-28 2004-07-13 Sas Institute Inc. Statistical outlier detection for gene expression microarray data
EP1556506A1 (en) * 2002-09-19 2005-07-27 The Chancellor, Masters And Scholars Of The University Of Oxford Molecular arrays and single molecule detection
JP2005106755A (ja) * 2003-10-01 2005-04-21 Research Organization Of Information & Systems マイクロアレイ実験等から得られるデータの新規解析方法
WO2008005007A1 (en) * 2006-06-29 2008-01-10 Thomson Licensing Adaptive pixel-based filtering
US9487822B2 (en) * 2008-03-19 2016-11-08 Fluidigm Corporation Method and apparatus for determining copy number variation using digital PCR
US20090236541A1 (en) * 2008-03-24 2009-09-24 General Electric Company System and Methods for Optical Imaging
RU2014116255A (ru) * 2011-09-23 2015-10-27 ДАУ АГРОСАЙЕНСИЗ ЭлЭлСи Хемометрика для спектрального анализа ближнего инфракрасного диапазона
EP3432177B1 (en) * 2017-07-17 2023-04-26 Roche Diagnostics GmbH Method and device for analyzing a dataset
CN115098836B (zh) * 2022-07-25 2022-11-11 天津医科大学总医院 一种评估多个环境因素对阴道微生态影响的方法及装置

Also Published As

Publication number Publication date
US6567750B1 (en) 2003-05-20
HUP0101655A2 (hu) 2001-09-28
KR20010042824A (ko) 2001-05-25
PT1078256E (pt) 2003-04-30
AU760053B2 (en) 2003-05-08
CN1298486A (zh) 2001-06-06
AU3437899A (en) 1999-11-08
BR9909942A (pt) 2000-12-26
IL164235A0 (en) 2005-12-18
DE69904165T2 (de) 2003-08-21
CA2327800A1 (en) 1999-10-28
DE69904165D1 (de) 2003-01-09
WO1999054724A1 (en) 1999-10-28
EP1078256A1 (en) 2001-02-28
ATE228654T1 (de) 2002-12-15
CZ20003884A3 (cs) 2001-08-15
US7089120B2 (en) 2006-08-08
EP1078256B1 (en) 2002-11-27
ES2189407T3 (es) 2003-07-01
IL138944A0 (en) 2001-11-25
US20020039740A1 (en) 2002-04-04
JP2002512367A (ja) 2002-04-23

Similar Documents

Publication Publication Date Title
MXPA00010346A (es) Procedimiento para evaluar pruebas quimicas y biologicas.
CN112020565A (zh) 用于确保基于测序的测定的有效性的质量控制模板
IL249095B1 (en) Detection of subchromosomal aneuploidy in the fetus and variations in the number of copies
JP2005531853A (ja) Snp遺伝子型クラスタリングのためのシステムおよび方法
Hautaniemi et al. A novel strategy for microarray quality control using Bayesian networks
CN113674803A (zh) 一种拷贝数变异的检测方法及其应用
US6502039B1 (en) Mathematical analysis for the estimation of changes in the level of gene expression
Guha et al. Bayesian hidden Markov modeling of array CGH data
EP1190366B1 (en) Mathematical analysis for the estimation of changes in the level of gene expression
AU778358B2 (en) Process for evaluating chemical and biological assays
US20090094045A1 (en) Method and system for determining the reliability of forensic interpretation
US20030023403A1 (en) Process for estimating random error in chemical and biological assays when random error differs across assays
EP1223533A2 (en) Process for evaluating chemical and biological assays
Vaisipour Detecting, correcting, and preventing the batch effects in multi-site data, with a focus on gene expression microarrays
Shi et al. Gimscan: A new statistical method for analyzing whole-genome array cgh data
Shan et al. BayesRB: a markov chain Monte Carlo-based polygenic genetic risk score algorithm for dichotomous traits
Sheha et al. Detecting and analyzing copy number alternations in array-based cgh data
WO2024068399A1 (en) Detection method, computer program product, data processing unit and detection system for detecting mutations of a polynucleotide in a biological sample
Karakach et al. Methods for estimating and mitigating errors in spotted, dual-color DNA microarrays
Yan Selected topics in statistical methods for DNA microarray analysis
Simon Bioinformatics and Whole-Genome Technologies
Sodhi An algorithm for estimating the quality of microarrays
JP2006215809A (ja) アレイに基づく比較ハイブリダイゼーション・データの分析方法及びシステム
Khojasteh Lakelayeh Quality filtering and normalization for microarray-based CGH data