MXPA06005404A - Prediccion de cancer en el tracto aerodigestivo superior. - Google Patents

Prediccion de cancer en el tracto aerodigestivo superior.

Info

Publication number
MXPA06005404A
MXPA06005404A MXPA06005404A MXPA06005404A MXPA06005404A MX PA06005404 A MXPA06005404 A MX PA06005404A MX PA06005404 A MXPA06005404 A MX PA06005404A MX PA06005404 A MXPA06005404 A MX PA06005404A MX PA06005404 A MXPA06005404 A MX PA06005404A
Authority
MX
Mexico
Prior art keywords
cancer
spectral weight
further characterized
spectral
weight values
Prior art date
Application number
MXPA06005404A
Other languages
English (en)
Inventor
Li Mao
David Sidransky
Ren Hening
Original Assignee
Cangen Biotechnologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cangen Biotechnologies Inc filed Critical Cangen Biotechnologies Inc
Publication of MXPA06005404A publication Critical patent/MXPA06005404A/es

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Physiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

Se puede usar modelos de deteccion de cancer basados en analisis de datos de espectroscopia de masa para predecir el cander del tracto aerodigestivo superior, incluyendo canceres de pulmon y de cabeza y cuello. Los modelos se pueden generar comparando valores de peso espectales obtenidos de pacientes con cancer en el tracto aerodigestivo superior, y de pacientes con alto riesgo de sufrir de este cancer. Los valores predictores o covariantes identifican valores de peso espectrales asociados con cancer del tracto aerodigestivo superior.

Description

PREDICCIÓN DE CÁNCER EN EL TRACTO AERODIGESTIVO SUPERIOR Esta solicitud reclama el beneficio de la solicitud provisional número de serie 60/519,340 presentada el 12 de noviembre de 2003, y la incorpora mediante referencia, CAMPO DE LA INVENCIÓN La presente invención se refiere en general al diagnóstico de cáncer. La invención se refiere más específicamente a métodos de predicción y detección temprana de cánceres en un sujeto humano o animal basándose en datos de espectro de masa.
ANTECEDENTES DE LA INVENCIÓN Los enfoques descritos en esta sección se podrían seguir, pero no son necesariamente enfoques que se han concebido o seguido previamente. Por lo tanto, a menos que se indique aquí otra cosa, los enfoques descritos en esta sección no son técnica anterior para las reivindicaciones en esta solicitud, y no son admitidos como técnica anterior mediante inclusión en esta sección. El cáncer de pulmón es la causa principal de las muertes relacionadas con cáncer en Estados Unidos y en otras naciones grandes industrializadas. A pesar de los esfuerzos extensivos hechos en el desarrollo de métodos de diagnóstico y terapéuticos d urante las pasadas tres décadas, la tasa general de supervivencia, medida cinco años después del diagnóstico, permanece baja. La baja tasa de supervivencia se debe principalmente a la ausencia de métodos efectivos para diag nosticar el cáncer de pulmón suficientemente temprano para que pueda ser curado, y a la carencia de regímenes para prolongar suficientemente la calidad de vida de los pacientes con etapas avanzadas de cáncer de pulmón. En la práctica actual, solamente el 15% de los pacientes con cánceres de pulmón es diag nosticado cuando los tumores están en una etapa localizada, y se espera una tasa de supervivencia de 50% en cinco años para esta población. Una vez los tumores se esparcen fuera de la región local, el resultado es extremadamente malo. El carcinoma de cé lulas escamosas en cabeza y cuello ("HNSCC") es también un problema de salud principal en todo el m undo con más de 500 , 000 casos cada año. La supervivencia total durante 5 años para los pacientes con la enfermedad es solamente de 50% . El desarrollo de cánceres de pulmón y de cabeza y cuello requiere la introducción repetida de carcinógenos, típicamente de humo del tabaco, en el tracto digestivo superior durante un periodo de tiempo largo. El proceso de desarrollo ("carcinogénesis") puede tom ar muchos años, y tiene como resultado la acumulación de múltiples anormalidades moleculares en las células, las cuales son la base de la transformación maligna y de la progresión del tumor.
Ha surgido evidencia para demostrar q ue ocurren anormalidades genéticas en el proceso carcinógeno temprano en los pulmones y en la cavidad oral de fumadores crónicos, y de que ciertas anormalidades pueden persistir durante muchos años después de dejar de fumar. Frecuentemente, en las etapas tempranas de estas enfermedades, ha sido identificada una cantidad de alteraciones genéticas y moleculares, tales como mutaciones en el gen supresor de tumor p53 y en el proto-oncogen K-ras, hipermetilación del promotor del gen supresor de tumor p 16, y pérdida de heterocigocidad en m últiples reg iones cromosómicas críticas. De acuerdo con esto, una cantidad de investigadores ha estado explorando la posibilidad de usar estas alteraciones como biomarcadores en la detección temprana y en la evaluación del riesgo de cánceres de pulmón y de cuello y cabeza . Con la finalización del mapa del genoma h umano y los avances en las tecnologías de alto desempeño, el descubrimiento de alteraciones moleculares en el proceso carcinogénico es acelerado. Un esfuerzo sustancial se está realizando ahora para realizar descubrim ientos y validaciones cooperativos de biomarcadores en gran escala para el diagnóstico temprano de cáncer, tales como la Red de Investigación para la Detección Temprana (EDRN), patrocinada por el I nstituto Nacional de Cáncer en Estados Unidos. Se espera que se desarrollen estrategias de diagnóstico novedosas basadas en marcadores moleculares y que se introduzcan en la práctica clínica para aumentar las herramientas actualmente ineficientes en el diagnóstico de pacientes con cánceres de pulmón , y de cabeza y cuello en etapa temprana. También se ha explorado micro arreglos de ADNc para la clasificación de malignidades humanas y han mostrado resultados promisorios. Sin embargo, la estrategia es difícilmente practicable en el diagnóstico temprano de cáncer de pulmón, de cabeza y de cuello, debido a que requiere materiales biológicos adecuados con suficientes células malignas. El reconocimiento de patrón proteína/péptido en suero, se ha usado recientemente para diagnóstico de alto desempeño de cáncer ovárico. Esta prueba basada en espectrómetro de masa ha demostrado una sensibilidad de detección y especificidad extremadamente altas para predecir pacientes con y sin cáncer de ovario. Basándose en el conocimiento actual , parece que ning ún marcador solo puede hacer un diagnóstico sensible y específico de cán ceres de pulmón en etapa temprana. De acuerdo con esto, analizar más de un biomarcador puede ser necesario para lograr una sensibilidad y especificidad aceptables clínicamente para el diagnóstico de cáncer de pulmón en etapa temprana. Basado en lo precedente, hay una clara necesidad de un método mejorado para predecir y hacer un diagnóstico temprano de cáncer, tal como cánceres de los pulmones, cabeza y cuello. También es deseable tener un método para predecir o para elaborar un diagnóstico temprano de cáncer a partir de los resultados basado primordialmente en el análisis de datos de los compuestos en una muestra de tejido relativamente pequeña.
BREVE DESCRIPCIÓN DE LOS DIBUJOS La presente invención se ilustra a manera de ejemplo, y no a manera de limitación, en las figuras de los dibujos anexos. La figura 1A es un diagrama de flujo que ¡lustra una vista general de una modalidad de un método para generar un modelo de detección de cáncer. La figura 1B es un diagrama de flujo de datos que ilustra el uso de datos y elementos relacionados en el método ilustrado en la figura 1A. La figura 2A es un diagrama de flujo que ilustra una vista general de una modalidad de un método para predecir cáncer de pulmón, cabeza y cuello en mamíferos. La figura 2B es un diagrama de flujo de datos que ilustra el uso de datos y elementos relacionados en el método ¡lustrado en la figura 2A. La figura 3 muestra el área bajo las curvas de característica de operación del receptor (ROC) para índices de falsos positivos entre 0 y 1 (línea continua) y el área bajo las curvas ROC para índices de falsos positivos entre 0 y 0.10 (línea punteada), graficadas contra la cantidad de características (P) usadas en análisis lineal discriminante (LDA). Las líneas verticales muestran la ocurrencia máxima para cada curva. Los datos incluyen todos los pacientes con cáncer de cabeza y cuello para cada valor de P. El área bajo las curvas ROC se calculó usando el procedimiento de validación cruzada descrito aquí. La figura 4 muestra las curvas ROC promedio para los datos observados (línea continua) y la hipótesis nula (línea punteada). La línea diagonal punteada gruesa representa la curva ROC esperada bajo la hipótesis n ula en la cual X y Y -son independientes y no hay información en el espectro resultante. Las líneas pu nteadas grises representan permutaciones del nulo, y las líneas continuas grises representan las perm utaciones de los datos del espectro. Las cantidades que se muestran sobre las curvas representan el valor de los parámetros adaptados q ue produjeron especificidad y sensibilidad representada por los respectivos cuadrados negros y fueron generados por el proced imiento de validación cruzada descrito aquí. La figura 5 muestra en promedio el espectro de masa entre pacientes caso (l ínea continua) y sujetos de control (l ínea punteada). Los espectros promedio provienen de 99 pacientes con cáncer de cabeza y cuello, y de 143 sujetos de control. La frecuencia con la cual se seleccionaron las características durante las 200 divisiones aleatorias de los datos en los conjuntos de entrenamiento y de prueba, se muestra en el panel inferior. La escala del eje Y (desde 0% hasta 100%), es para picos espectrales que aparecen en los pacientes de caso, pero no en los sujetos de control. La figura 6 ilustra un diagrama de bloques de un entrono de hardware que se puede usar de acuerdo con una modalidad ilustrativa de la invención.
DESCRIPCIÓN DETALLADA DE LA INVENCIÓN Se describen métodos y aparatos para detectar cánceres en mamíferos, basados en datos del espectro de masa. Los métodos de la presente invención pueden llevarse a cabo para detectar la presencia de cáncer en un sujeto humano o animal, analizando los datos del espectro de masa del suero o de la sangre del sujeto, con respecto a un nivel ampliado o reducido de una o más especies moleculares, comparado con los datos del espectro de masa de sujetos normales. En la siguiente descripción, para los fines de explicación, se explican numerosos detalles específicos con el fin de proporcionar un entendimiento total de la presente invención. Será evidente, sin embargo, para un conocedor de la materia, que la presente invención se puede practicar sin esos detalles específicos. En otros casos, se muestran estructuras y dispositivos bien conocidos en forma de diagrama de bloque con el fin de evitar complicar innecesariamente la presente invención. Las modalidades se describen aquí de acuerdo con el siguiente esq uema: 1 .0 Visión general 2.0 Método y aparato para Predecir el Cáncer 2.1 . Generación de datos de muestra 2.2. Creación de Modelo de Predicción 2.3. Interpretación de predicciones 2.4. Resultados empíricos 2.5. Representación de la predicción como un problema de regresión 3.0 Mecanismos de im plementación . Visión general del hardware de computación 4.0 Extensiones y alternativas 1.0 VISIO N G E NE RAL Las necesidades identificadas anteriormente en los antecedentes, y otras necesidades y objetos que se harán evidentes con la sig uiente descripción , se log ran en la presente invención , la cual comprende, en un aspecto, un método para predecir cánceres de pulmón, cabeza y cuello en mam íferos. Como se usa aq uí, "predecir" incluye diagnosticar, pronosticar el curso de, y pronosticar la probabilidad de desarrollar estos cánceres. Los cánceres de pulmón incluyen carcinomas de células pequeñas y carcinomas de células no pequeñas (por ejemplo, carcinomas de células escamosas, adenocarcinomas, y carcinomas de células grandes). "Cáncer de cabeza y cuello", como se conoce en la materia, incluye todos los tumores malignos que aparecen en la cabeza y en el cuello, incluyendo la boca, conductos nasales, ojo, oído, laringe, faringe, y base del cráneo. Los ejemplos de cánceres de cabeza y cuello incluyen, sin limitación a ellos, cáncer hipofaríngeo, cáncer laríngeo, cáncer de labio, cáncer en la cavidad oral, melanoma maligno, cáncer nasofaríngeo, cáncer orofaríngeo, cáncer de los senos paranasales, cáncer de la cavidad nasal, cáncer de las glándulas salivales, y cáncer de tiroides. De acuerdo con una modalidad , los datos de muestra del espectro se general a partir de suero obtenido de una población h umana con patolog ía conocida con respecto al cáncer de pulmón, cabeza o cuello. Los datos de la muestra se dividen en un conjunto de datos de entrenamiento y un conjunto de datos de prueba. U n subconjunto de los valores de la muestra se selecciona del conjunto de entrenam iento. La extracción de característica se realiza en el subconjunto, para seleccionar adicionalmente valores de peso espectral s uperiores. Luego se aplica análisis lineal discriminante a los pesos espectrales seleccionados de los valores de datos de la muestra, dando como resultado la generación de uno o más valores de parámetro estimado asociados con una distribución condicional. Esto es, el modelo genera valores de datos de la muestra asociados con la población humana positiva para cáncer de la cual se obtuvo el suero. Los valores de parámetro estimados se modifican identificando uno o más positivos verdaderos y falsos positivos entre ellos. Como resultado, se crea un modelo predictivo que se puede usar para clasificar cada muestra en los datos de prueba, o cualquier otra muestra de datos del espectro, como representantes de un individuo carcinógeno o no carcinógeno. En una característica del proceso, se usa el análisis funcional discriminante para el análisis de los datos en un arreglo de dos escenarios. En particular, se usa un panel de muestras para propósitos de entrenamiento con el fin de identificar perfiles potenciales que distingan individuos con cáncer de individuos saludables. Un segundo panel derivado de individuos diferentes se usa para fines de prueba con el fin de validar los hallazgos generados del conjunto de entrenamiento. A diferencia del análisis de datos de expresión genética, en el cual los genes del individuo sirven como valores índice, en el análisis de datos del espectrómetro de masa, cada valor del espectro es continuo. En consecuencia, se usa la forma funcional del análisis lineal discriminante, acoplada con la selección de característica para identificar moléculas con valores de espectro específicos para la predicción de clase óptima. La predicción precisa se define como la identificación correcta del porcentaje de individuos con cáncer y de individuos saludables. Después de la validación del modelo contra los datos de prueba, se puede usar el modelo para predecir el cáncer en otras poblaciones, ajustando el modelo a nuevos conjuntos de datos. Usando, por ejemplo, espectrometría de masa mediante desorción/ionización por láser asistida por matriz ("MALDI") o espectrometría de masa en tiempo de vuelo mediante desorción/ionización por láser asistida por matriz (MALDI-TOF MS), se puede identificar patrones proteína/péptido distintos u otros patrones moleculares en suero, que indican los individuos con cánceres de pulmón o de cabeza y de cuello, y los individ uos saludables. En combinación con poderosas herramientas analíticas basadas en computadora, se puede manejar cientos de muestras y se puede obtener información de diagnóstico en un tiempo relativamente breve. Se entiende que la invención también comprende otras formas de perfil, incluyendo desorción/ionización por láser de superficie mejorado (SELD I), y cualquier otra forma de MALDI . En otro aspecto, la invención comprende un aparato de computación , un medio de computación legible, y una onda portadora configurada para llevar a cabo los pasos precedentes. La determinación de modelos de predicción de cáncer de la i nvención se describe mediante el ejemplo que se encuentra más adelante. Este tipo de modelos de predicción comprende un patrón de valores de pesos espectrales predictores de cáncer, los cuales corresponden a identificación de pesos espectrales. La identificación de pesos espectrales incluye 5, 10, 12, 15, 20, 45, 47, 54, 64 y 1 1 1 kD. Los modelos de predicción para cánceres del tracto aerodigestivo preferiblemente incluyen un valor de peso espectral predictor de cáncer correspondiente a 1 1 kD, sin embargo, los modelos de predicción de la invención pueden incluir valores de peso espectral predictores de cáncer correspondientes a cualquier combinación de 2, 3, 4, 5, 6, 7, 8 o 9 de estos pesos espectrales identificadores o para todos los diez. Los conocedores de la materia entenderán que la identificación precisa de los pesos espectrales en un modelo (o en una muestra de prueba) puede desviarse ligeramente de 5, 10, 12, 15, 20, 45, 47, 54, 64 o 111 kD debido al error experimental inherente en el instrumento particular usado para determinar los pesos. Los datos de la muestra para su uso en la generación de modelos de predicción de cáncer-de la invención, o para uso en la predicción del cáncer del tracto aerodigestivo, pueden obtenerse de muestras biológicas tales como suero, esputo, muestras de lavado bronquial, o muestras de biopsia. Las poblaciones de control para su uso en la generación de modelos de predicción de cáncer, preferiblemente incluyen individuos con alto riesgo de desarrollar un cáncer en el tracto aerodigestivo superior (por ejemplo, fumadores consuetudinarios), pero a quienes se le ha determinado clínicamente que no tienen un cáncer en el tracto aerodigestivo. La presencia o ausencia de los cánceres del tracto aerodigestivo superior está basada típicamente en una historia clínica y en un examen físico, lo que puede incluir pruebas diagnósticas tales como rayos X, exploraciones CT o MRI, pruebas de la sangre, lavado bronquial, y biopsias. Preferiblemente, cada individuo en la población de control tiene un alto riesgo de desarrollar cáncer en el tracto aerodigestivo superior, pero no lo ha desarrollado. 2.0. MÉTODO Y APARATO PARA PREDECIR EL CÁNCER Ahora se describe ejemplos de modalidades con respecto a la figura 1A, figura 1B, figura 2A, y figura 2B. La figura 1A es un diagrama de flujo que ilustra una visión general de una modalidad ilustrativa de un método para generar un modelo de exploración de cáncer. La figura 1B es un diagrama de flujo de datos que ilustra el uso de datos y elementos relacionados en el método de la figura 1A. La figura 2A es un diagrama de flujo que ilustra una visión general de una modalidad ilustrativa de un método para predecir cáncer de pulmón, cabeza y cuello en mamíferos. La figura 2B es un diagrama de flujo de datos que ilustra el uso de datos y de elementos relacionados en el método de la figura 2A. 2.1. GENERACIÓN DE DATOS DE MUESTRA Con referencia primero a la figura 1A, en el bloque 102, los datos muestra del espectro se generan a partir de suero de una población de muestra. Tal como se muestra en la figura 1B, una población 120 de individuos que son tanto cancerosos como normales, aporta una muestra de suero 122 de cada individuo. La muestra de suero 122 se aplica a un espectrómetro de masa 130 para dar como resultado la generación de valores de peso espectral para cada muestra de suero 124. Por ejemplo, se usa MALDI-TOF MS para generar un conjunto de datos de la muestra que representan patrones distintos proteína/péptido. En una investigación clínica, el suero de pacientes con cánceres de pulmón o de cabeza y cuello, o de controles saludables, se obtuvo antes de procedimientos quirúrgicos. Todos los diagnósticos finales fueron confirmados mediante histopatología y todos los controles fueron fumadores consuetudinarios pero sin evidencia de cáncer de pulmón o de cabeza y cuello basada en la presentación clínica y en examen de detección CT. Se prepararon los sueros para su evaluación mediante espectrómetro de masa, elaborando una matriz de muestras de suero. La matriz del espectrómetro de masa contenía 50% de ácido sinapínico saturado en 30% de acetonitrilo - 1% de ácido trifluoroacético. Se diluyó el suero 1:1000 en 0.1% de n-octil-ß3-D-glucopiranosida. Se colocó cinco µL de la matriz sobre cada área definida de una placa de muestra con 384 áreas definidas, y se añadió 0.5 µL de suero _de cada individuo a las áreas definidas seguido por aire seco. Las muestras y sus ubicaciones en las placas de muestra fueron registradas para la exacta interpretación de los datos. Se usó un espectrómetro de masa MALDI-TOF Axima CFR fabricado por Kratos Analytical Inc. Se configuró el instrumento como sigue: modo de sintonizador: lineal; escala de masa: 0 a 180,000; energía láser: 90; perfil: 300; disparos por punto: 5. El resultado del espectrómetro de masa se almacenó en computadora en la forma de un conjunto de datos de muestra. 2.2. CREACIÓN DE MODELO DE PREDICCIÓN Un uso del proceso descrito aquí es clasificar los valores de datos del espectro en uno de una pluralidad de salidas binarias que representan individuos normales e individuos que desarrollarán carcinoma de células escamosas ("SCC") del pulmón, cabeza o cuello. Para propósitos de análisis matemático, los valores de datos del espectro se expresan como X, y los resultados se expresan como Y. El .proceso en cuestión busca usar los valores de datos del espectro para predecir estos resultados. Cada espectro de X típicamente comprende una gran pluralidad de valores, denominados P . Por ejem plo, en una investigación , se digitalizaron espectros en valores de datos del espectro P = 284,027 en cada espectro individual. Los datos se pueden simplificar considerando opcionalmente sólo cada centesimo valor en el espectro ind ividual. Esto reduce considerablemente la complejidad y el tiempo de cómputo sin afectar los resultados finales. El proceso en cuestión asume que los valores de salida, los valores del espectro, y su distribución, provienen de procesos aleatorios. Se cree que la aleatoriedad aparece a partir de las técnicas de muestreo, errores de medición, y porque los compuestos de origen natural bajo estudio son inherentemente aleatorios. Basándose en este supuesto, los valores del espectro pueden ser considerados como predictores o covariantes. Los valores del espectro individual (o "valores de peso espectral") se expresan como Los valores espectrales pueden ser transformados logarítmicamente para disminuir la dependencia de la varianza med ia. Para predecir los resultados usando espectro de masa, se puede designar los espectros transformados logarítmicamente como predictores o covariantes, expresados, por ejemplo, como X = El proceso en cuestión está dirigido no a ajustarse a un modelo e interpretar parámetros, sino a predecir resultados. Así, el proceso busca particionar los covariantes en aquellos para las cuales se predice una morfolog ía normal , y aq uellos para los cuales se pred ice SCC. Estos últim os covariantes se denominan "predictores" o "clasificadores". En un enfoque, los clasificadores podrían ser identificados o entrenados basándose en datos para los cuales se conocen tanto los resultados como los covariantes. Sin embargo, en otro enfoq ue, la cantidad de covariantes es m ucho mayor q ue la cantidad de resultados, y por lo tanto se puede construir un clasificador q ue prediga perfectamente los datos para el entrenamiento. Se puede usar validación cruzada para evaluar qué tan bien se desempeña el clasificador. De acuerdo con esto, en el bloq ue 104, el conjunto de datos de la muestra se divide en un conjunto de datos de entrenamiento y un conjunto de datos de prueba. Tal como se puede ver en la figura 1 B, los valores de peso espectral para cada muestra de suero 124 se dividen en un conjunto de datos de entrenamiento 128 y un conjunto de datos de prueba 132. En una investigación, se seleccionaron dos tercios de los datos, aleatoriamente, como conjunto de datos de entrenamiento, y el otro tercio constituyó los datos de prueba, y se repitió el procesamiento descrito 200 veces. En el bloq ue 106, se selecciona un subconjunto de valores de datos del espectro de muestra, para cada muestra en el conjunto de entrenamiento. En la figura 1 B, la operación de selección del subconjunto tiene como resultado la creación de un subconjunto de valores de peso espectral 1 34. Por ejemplo, tal como se describió anteriormente, en una investigación en la cual cada muestra individ ual contenía 284,027 valores de datos del espectro, solamente cada centesimo valor en el espectro individual fue considerado. Este enfoq ue reduce considerablemente el tiempo de cómputo, y se cree que no afecta la exactitud de los resultados predictivos . En el bloque 108, se realiza la extracción de característica para seleccionar valores de peso espectrales altos de entre los que se están considerando en cada muestra. En la figura 1 B, la extracción de característica da como resultado la creación de valores de peso espectral 136. Este enfoque reduce la cantidad de covariados y mejora los resultados de los pasos analíticos siguientes. En una investigación, la extracción de característica involucrada usando los datos de entrenamiento para calcular estadísticas t, usando una proporción equivalente: varianza a través del grupo/varianza dentro del grupo, y comparando los valores de peso espectral normales y de SCC; luego se usaron los 45 valores superiores de peso espectral con las características estadísticas t más altas. Específicamente, con 338 muestras y 2840 predictores, se usó un procedimiento de selección de característica simple, equivalente a la prueba t. El procedimiento está basado en la relación de la varianza a través del grupo con respecto a la varianza dentro del gru po, y compara los valores normales y de cáncer. Todos los vaiores espectrales están clasificados, y los 45 superiores se escogen para el análisis lineal discriminante (LDA). En el bloq ue 1 1 0, se aplica un análisis lineal discriminante a los valores de peso espectral seleccionados de los valores de datos de la m uestra . Como resultado, se genera un modelo de predicción que comprende uno o más valores de parám etro estimados q ue están asociados con una distribución condicional, tal como se indicó mediante el modelo de predicción 1 38 de la figura 1 B. Esto es, el modelo genera valores de datos de la muestra asociados con la población humana positiva al cáncer de la cual se obtuvo el suero. El análisis lineal discriminante (LDA) es un procedimiento de clasificación disponible en muchas aplicaciones de software para análisis estadístico comercial. Por ejemplo, los paquetes de software proporcionan LDA. El LDA se describe en Ripley B. D. (1996) Pattern Recongition and Neural Networks, Cambridge, U. K. Cambridge University Press. Se ha usado métodos similares al LDA en problemas de clasificación usando la tecnología de micro arreglo, tal como se describe en Golub y co-autores (1999) "Molecular classification of cáncer: Class discovery and class prediction by gene expression monitoring" Science 286, 531 -537. Además, el LDA ha demostrado' que supera procedimientos más elaborados en el contexto de datos en micro arreglo en Dudoit, S., Fridlyand, y Speed , T. P. (2002) "Comparison of discrimination methods for the classification of tumors using gene expression data" Journal of the American Statistical Association 97, 77-87. En una modalidad , el uso de LDA en el bloque 1 1 0 asume que condicionado por Y, S sigue u na distribución normal multivariada. Por lo tanto, para predecir Y para un valor particular de X, el proceso aq u í encuentra un va lor de Y q ue aumenta al máximo la probabilidad posterior de observar X dado ese valor de Y. Opcionalmente, en el bloq ue 1 12, los valores paramétricos estimados se modifican identificando uno o más positivos verdaderos y falsos positivos entre ellos. En otras aplicaciones de LDA, los valores de probabilidad anteriores se asignan comúnmente a cada uno de los valores de Y.
Las probabilidades anteriores pueden usarse para controlar las tasas de falsos positivos, dado que ellos afectan las probabilidades en una forma directa. Los datos de entrenamiento se usan para estimar los parámetros, matriz media y covarianza , asociados con cada una de las distribuciones cond icionales. 2.3. INTERPRETACIÓN DE PREDICCIONES Se describe ahora un proceso para interpretar predicciones usando el modelo generado en el proceso de la figura 1 A, con referencia a la figura 2A. En el bloque 202, se accesa un conjunto de datos de prueba, por ejemplo, accesando valores de datos almacenados en computadora. En el bloque 204, se accesa un primer valor de la muestra. El valor de la muestra comprende típicam ente una gran pluralidad de valores de espectro individuales. En el bloq ue 206, se realiza una prueba para determinar si la primera muestra contiene cualesquiera valores de peso espectral q ue coinciden con los valores de parámetro estimados del modelo de predicción de cáncer que se desarrolló en el proceso de la fig ura 1 A. Si no, entonces el control se transfiere al bloq ue 208, en el cual se considera la muestra como asociada con un ind ividuo normal. Si se encuentran valores de peso espectral coincidentes, entonces en el bloque 210 se considera la muestra como representante de un individuo q ue desarrollará cáncer. Generalmente, un valor de peso espectral coincidente para un pico espectral particular está dentro de 25% o más del pico del modelo de predicción, más preferiblemente dentro del 20% o más, aún más preferiblemente, dentro del 15% o más, todavía más preferible, dentro del 10% o más, y m ucho más preferible, dentro del 5% o más. El método anterior puede aplicarse con respecto a al menos un pico, dos, tres, cuatro, cinco, siete, diez, quince, veinte, veinticinco, treinta o cincuenta o mas picos evaluados en combinación. El bloque 208 y el bloq ue 210 pueden involucrar almacenar una bandera de datos en una base de datos en asociación con un registro que representa un individuo. Los conocedores de la materia se darán cuenta de que a medida que el valor de peso espectral para un pico espectral particular se aproxima al valor de peso espectral para el pico del modelo de predicción de cáncer, la probabilidad de un resultado correcto a umenta. Los porcentajes citados aqu í son líneas guía que se han encontrado útiles basándose en pruebas y análisis exitosos. Sin embargo, tam bién se puede usar porcentajes más bajos o más altos alternativamente, dependiendo del margen de error deseado. De manera sim ilar, aplicar el método a un pico o a m uchos picos también está dentro del alcance de la presente invención. Alternativamente, para determinar si un individ uo desarrollará cáncer, los datos espectrales de masa de la muestra en el bloq ue 206 pueden ser comparados con los de los del modelo de predicción sin cáncer (o normales). Si no se encuentran valores espectrales no coincidentes, entonces en el bloque 210 se considera la muestra como representante de un individuo que desarrollará cáncer. Generalmente, un valor espectral no coincidente para un pico espectral particular es de 50% o más del pico del modelo de predicción sin cáncer, más preferiblemente 100% o más, aún más preferiblemente, de al menos 150% o más. Estos picos se pueden evaluar solos o en combinación, o dentro de diferentes porcentajes, tal como se describió en el párrafo previo. Está entendido que la presente invención también contempla determinar si un individuo no tiene o no desarrollará cáncer, descartando al individuo usando los métodos descritos aquí. En el bloq ue 212, se realiza una prueba para determinar si hay más muestras disponibles para la prueba. Si hay, entonces se transfiere el control al bloque 204 y se repite el proceso para la próxim a muestra. Si no, entonces se transfiere el control al bloque 214, en el cual se proporcionan los resultados de salida . Proporcionar los resultados de salida puede comprender generar uno o más reportes, g ráficos, cartas u otros registros de resultados. Proporcionar los resultados de salida tam bién puede comprender almacenar resultados en memoria , base de datos u otro almacenamiento de computación. El proceso de la figura 2A se puede usar para mejorar y modificar el modelo de predicción comparándolo con un conjunto de datos de prueba en el cual la patología de los individuos es conocida. Tal como se ve en la figura 1 B, el modelo de predicción 138 se compara con el conjunto de datos de prueba 132, y se modifica el modelo de predicción, dando como resultado la creación del modelo de predicción final 140. El proceso de la figura 2A puede usarse entonces para realizar diagnóstico o predicción de actividad cancerosa en una población para la cual es desconocida la patología. Alternativamente, el proceso de la figura 2A puede usarse para realizar el diagnóstico o predicción de actividad cancerosa en una población para la cual la patología es desconocida, sin retinar el modelo de predicción basado en el conjunto de datos de prueba. Con referencia ahora a la figura 2B, se obtiene una muestra de suero 152 de cada individuo en una población 150 para la cual es desconocida la patología individual. La muestra de suero 152 se aplica al espectrómetro de masa 130, en la forma descrita anteriormente, para general valores de peso espectral para cada muestra de suero 154. El modelo de predicción final 140 se aplica a los valores de peso espectral para cada muestra de suero 154 usando coincidencia de patrón tal como se describió con respecto a los bloques 204 - 210 y 214 de la figura 2a, para dar como resultado la generación de un diagnóstico o predicción de si un individuo tiene o desarrollará cáncer, tal como se indicó mediante el bloque 156. La especificidad y sensibilidad del LDA puede alterarse usando, por ejemplo, un modelo estocástico simple. Se puede asumir que los predictores (X) siguen una distribución normal multivariada condicional en el resultado binario (y). Para predecir Y para un valor particular de X, puede determinarse el valor de Y que aumenta al máximo la probabilidad posterior de observar X, dado ese valor de Y. Se puede asignar probabilidades previas para cada valor de Y, y se pueden usar para controlar la sensibilidad y especificidad. Por ejemplo, si se asume una probabilidad previa de 0, no habrá positivos falsos o verdaderos. Si se asume una probabilidad previa de 1 , ambas tasas de falsos y verdaderos serán del 100% . Los datos de entrenamiento pueden usarse para estimar los parámetros, media y matriz de covarianza asociados con cada distribución condicional. Usando el LDA, se puede establecer un parámetro que afecte directamente el equilibrio entre sensibilidad y especificidad. Los resultados de la validación cruzada para una gama del parámetro de sintonización pueden usarse entonces para graficar curvas de característica de operación del receptor (ROC). 2.4. RESULTADOS EMPÍRICOS Se seleccionó una población de 191 pacientes con cáncer de pulmón o de cabeza y cuello y 143 sujetos de control. La población de control incluyó una frecuencia más alta de individuos que fumaban o que bebían con mayor frecuencia entre la población general. Se sometieron muestras de suero diluidas a espectroscopia de masa MALDI operada en un modo lineal , con datos adquiridos de 0 a 180 kD. Vansteenkiste, J . F., Eur. Respir J Suppl, 34: S 1 15-121 (2001 ). Se extrajo la información de los puntos a lo largo del espectro de masa completo tratando los datos como una curva continua desde 0 hasta 180 kD a lo largo del eje X. Se seleccionó una cantidad preferida de características espectrales para su uso en el LDA basándose en la altura del pico, y aquellos picos que parecían diferenciar mejor entre sujetos paciente y control. Véase Fisher, RA, Ann Eugen, 7:179-88 (1936). Para cada valor de P (cantidad de características), se calculó el área bajo las curvas ROC obtenida usando la validación cruzada descrita anteriormente. Esto proporcionó una función de área bajo la curva en el eje Y y la cantidad de covariados en el eje X. El área bajo la curva ROC es un resumen típico de un número de una curva ROC. Con el LDA, se puede establecer un parámetro de sintonización que afecte el equilibrio entre sensibilidad y especificidad. Véase Venables, WN, "Modem Applied Statistics", (4a. Ed., NY), Springer (2002). Así, se usaron los resultados de validación cruzada para una gama de parámetros de sintonización para graficar curvas características de operación del receptor (ROC). Un valor "P" se estimó basándose en las 200 simulaciones. Se obtuvieron tasas medias de positivos falsos y verdaderos considerando la cantidad de veces que se hicieron llamadas correctas e incorrectas durante las 200 simulaciones. Estas tasas fueron comparadas a través de diferentes grupos basados en sexo, edad, estado de enfermedad, historia de fumar e historia de alcohol, usando la función general de métodos lineales en "R". Véase Ihaka y Gentleman, Graph Stat, 5: 299-314 (1996). Para alta especificidad, se consideró el área bajo la curva para tasas de falsos positivos hasta de 10%. Estas áreas fueron graficadas contra la cantidad de características usadas por el LDA. El área máxima bajo el valor de la curva ROC ocurrió cuando se usaron 45 características. Véase la figura 3. Así, se definió un procedimiento de selección de característica que selecciona como predictores en el LDA los 45 pesos espectrales superiores en una clasificación de acuerdo con el valor absoluto de la prueba t. Después, se escogió dos tercios de los datos para entrenar el procedimiento, y el otro tercio se escogió para probar el procedimiento. Considerando las tasas de falsos y de verdaderos positivos en solamente el conjunto de prueba, las tasas promedio en el conjunto de prueba proporcionaron una medida de predicción. Los resultados para los conjuntos de prueba se predijeron sobre la base de divisiones de los datos escogidos aleatoriamente, tal como se describió anteriormente. Para asegurarse de que los resultados predichos no eran el resultado de artificios matemáticos, se repitió el procedimiento 200 veces después de permutar aleatoriamente los resultados de Y. La especificidad y sensibilidad de cada modelo se calculó a través de una gama de cortes. Se generó una curva ROC para cada una de las 200 permutaciones, y se promediaron las curvas ROC. Véase la figura 4. La curva ROC promedio se computó promediando la tasa de positivos verdaderos asociada con cada tasa de falsos positivos. En el resultado medio con una sensibilidad de 70% en una especificidad de 90%, las 200 permutaciones nunca se intersectaron con la hipótesis nula (P = 0.01, intervalo de confianza de 95% = 0.00 a 0.02). Debido a que estas curvas ROC siempre fueron calculadas sobre datos independientes de los datos que generaron los modelos, ellas reflejan lo que se podría esperar en la práctica, y demuestran que este modelo de predicción es estadísticamente significativo mejor que la hipótesis nula. La figura 5 es un resumen del espectro promedio para pacientes de cabeza y cuello y sujetos de control. En general, los sueros de los pacientes de cáncer contenían más proteína total que el suero de sujetos de control. La parte inferior de la figura es una distribución en histograma de los puntos individuales, lo que demuestra la cantidad de veces que los puntos surgieron como características durante las 200 divisiones aleatorias de los datos. Los puntos que aparecieron más frecuentemente corresponden a posiciones en donde aparecieron o desaparecieron picos en las muestras de cáncer de cabeza y de cuello. U n pico particular, en aproximadamente 1 1 1 kD, fue diferente entre el suero de pacientes de caso y sujetos de control en las 200 simulaciones. Otros picos generalmente útiles en el análisis de la presente invención están en aproximadamente 5, 1 0, 12, 1 5, 20, 45 , 47, 54 y 64 kD. Estos picos representan moléculas que son marcadores séricos para cáncer, particularmente cáncer del tracto aerodigestivo superior tal como cáncer de cabeza y cuello o de pulmón , según se describe aqu í. Véase Srinivas y co-autores, Clin. Chem. 48, 1 160 - 69 (2002); Petricoin y co-autores, Nat,. Rev. Drug, Discov. 1 , 683 -95 (200); Pardanani y co-autores, Mayo Clin, Proc. 7, 1 1 85 - 96 (2002). La presente invención provee el diagnóstico a un sujeto con cáncer de cabeza, cuello o pulmón, generando datos del espectro de masa del suero o de la sangre del sujeto y comparando si coinciden estos datos con los datos generados de uno o más sujetos con cáncer de cabeza, cuello o pulmón. Una "coincidencia" se hace con uno o más picos. Los picos se hacen coincidir tal como se describió anteriormente, Preferiblemente se hace coincidir dos o más picos, más preferiblemente, se hace coincidir tres, cuatro, cinco, seis, siete, ocho, nueve o diez o más picos. La invención también proporciona el diagnóstico de cáncer de cabeza, cuello o pulmón en un sujeto identificando una o más proteínas en la sangre o suero del sujeto. Las proteínas generalmente están dentro del 2% de los pesos espectrales de identificación (es decir, 1 1 1 , 5, 10, 12, 15, 20, 45, 47, 54 o 64 kD) , más preferiblemente dentro de 1 .5%, aún más preferiblemente dentro de 1 % , y todavía más preferiblemente, dentro de 0.5%. Preferiblemente se identifica a dos o más proteínas, más preferiblemente se identifica a tres, cinco, siete o diez o más proteínas dentro de los parámetros descritos. Los métodos anteriores para diagnosticar un sujeto tam bién aplican para vig ilar la recurrencia de un sujeto diagnosticado previamente. El modelo descrito aqu í, el cual fue desarrol lado para casos de cabeza y cuello y controles saludables, y usa un corte óptimo que tuvo 73% de sensibilidad y 90% de especificidad, se aplicó a pacientes con cáncer de pulmón. Para la m isma investigación de ejemplo, la tabla 1 presenta el porcentaje de sensibilidad para cada diagnóstico y la cantidad de casos actual.
TABLA 1 * y otras condiciones inflamatorias ** dos casos de célula pequeña, un linfoma, y un carcinoide Dada la diversidad histológica fundamental de los diagnósticos en la Tabla 1 y el hecho de que el modelo se desarrolló a partir de casos de cabeza y cuello, la sensibilidad de predicción fue exitosa. Específicamente, la sensibilidad para el SCC de pulmón fue de 52%, adenocarcinoma 34%, y carcinoma de célula grade 40%, cuando la tasa de falso positivo fue de 10%. Más aún, cuando el modelo de la presente invención se aplicó a 7 individuos que tuvieron neumonía aguda u otras condiciones inflamatorias de pulmón, pero no tuvieron cáncer, todos fueron clasificados como negativos. Así, la presente invención muestra que ciertas condiciones comórbidas no elevan la tasa de falsos positivos.
Además, no se encontraron diferencias en predicción basadas en la etapa de enfermedad, raza, etnicidad, sexo o historia de fumar, en poblaciones con cáncer de cabeza y cuello o de pulmón. 2.5 REPRESENTACIÓN DE LA PREDICCIÓN COMO UN PROBLEMA DE REGRESIÓN Para propósitos de un entendimiento adicional de este enfoque, el problema de predicción presentado aquí se puede representar como un problema de regresión. En la vista de regresión, el problema es estimar el valor esperado de Y, dada la observación de los covariados Xj. En la notación estadística, el problema de regresión se expresa como: µ(Y\X1,...X?) = E[Y\ X1t...,X?] Por tanto, el objetivo de este enfoque es estimar µ(Y\X1,...X?) usando los datos observados, se expresa como con y¡ y x¡¡ para /=1 N y y'=1, ...,? Al resolver lo anterior, el enfoque usual para la regresión logística no es apropiado, dado que hay muchos más covariados que resultados. El ajuste resultante producirá predictibilidad perfecta, pero solamente como un artificio matemático. Adicionalmente, no hay ciencia que justifique asunción de la relación lineal en escala logística. Finalmente, debido a q ue en este problema las predicciones correctas son más importantes que la interpretación de parámetros del modelo, el modelo típico de regresión lineal no tiene ventajas. Cualquier procedimiento que pueda predecir confiablemente los resultados es considerado útil, sin considerar la interpretabilidad de los parámetros. Así, el proceso computacional descrito aqu í se observa mejor como una clasificación, en la cual se busca un proceso q ue puede predecir confiablemente Y dado el espectro X. 3.0 MECANISMOS DE IM PLEMENTACIÓN - VISIÓN GENERAL DEL HARDWARE La figura 6 es un diagrama de bloque que ilustra un sistema de com putación 500 sobre el cual se puede implementar un a modalidad de la invención. El sistema de computación 500 incluye un bus 502 u otro mecanismo de comunicación para com unicar información, y un procesador 504 acoplado con el bus 502 para procesar información. El sistema de computación 500 también incluye una memoria principal 506, tal como una memoria de acceso aleatorio ("RAM") u otro dispositivo de almacenamiento dinámico, acoplado al bus 502 para almacenar información e instrucciones para ser ejecutadas por el procesador 504. La memoria principal 506 tam bién se puede usar para almacenar variables temporales u otra información intermedia durante la ejecución de instrucciones para ser ejecutadas por el procesador 504. El sistema de computación 500 incluye además una memoria de sólo lectura ("ROM") 508 u otro dispositivo de almacenamiento estático acoplado al bus 502 para almacenar información estática e instrucciones para el procesador 504. Un dispositivo de almacenamiento 51 0, tal como un disco magnético, .disco óptico, memoria de estado sólido, o similar, está provisto y acoplado al bus 502 para almacenar información e instrucciones. El sistema de computación 500 puede estar acoplado por medio del bus 502 a una pantalla 512, tal como de tubo de rayos catódicos ("CRT"), pantalla de cristal líq uido ("LCD"), pantalla de plasma, televisión o sim ilar, para mostrar información a un usuario de computadora . U n dispositivo de entrada 514, incluyendo teclado alfanumérico y otros teclados, está acoplado al bus 502 para comu n icar inform ación y selecciones de comando al procesador 504. Otro tipo de d ispositivo de entrada para el usuario es el control de cursor 516, tal como un ratón, bola de seguimiento, lápiz óptico, o teclas de dirección del cursor para comunicar información de dirección y selecciones de comando al procesador 504 y para controlar el movimiento del cursos en la pantalla 512. Este dispositivo de entrada típicamente tiene dos grados de libertad en dos ejes, un primer eje (por ejemplo, x), y un segundo eje (por ejemplo, y), que permiten al dispositivo especificar posiciones en un plano. La invención está relacionada con el uso del sistema de computación 500 para predecir cánceres de cabeza, cuello y pulmón. De acuerdo con una modalidad de la invención, la predicción de cánceres de cabeza, cuello y pulmón es proporcionada por el sistema de computación 500 en respuesta al procesador 504 que ejecuta una o más secuencias de una o más instrucciones contenidas en la memoria principal 506. Estas instrucciones pueden leerse en la memoria principal 506 de otro medio legible por computadora, tal como un dispositivo de almacenamiento 510. La ejecución de las secuencias de instrucciones contenidas en la memoria principal 506 ocasiona que el procesador 504 realice los pasos del proceso descritos aquí. En modalidades alternativas, se puede usar la círcuitería con cableado en lugar de o en combinación con instrucciones de software para implementar la invención. Así, las modalidades de la invención no están limitadas a cualquier combinación específica de circuitos de hardware y software. Como se usa aquí, el término "medio legible por computadora" se refiere a cualquier medio que participe en proporcionar instrucciones al procesador 504 para su ejecución. Este tipo de medio puede tomar muchas formas, incluyendo, sin limitación a ellos, medios no volátiles, medios volátiles, y medios de transmisión. Los medios no volátiles incluyen, por ejemplo, discos ópticos o magnéticos, memorias en estado sólido, y similares, tales como el dispositivo de almacenamiento 510. Los med ios de transmisión incluyen cables coaxiales, cable de cobre y fibra óptica, incluyendo los cables que comprenden el bus 502. Los medios de transmisión también pueden tomar la forma de ondas acústicas o luminosas, tales como las generadas durante las comunicaciones de datos con ondas de radio e infrarrojas. Las formas comunes de medios legibles por computadores incluyen, por ejemplo, un disq uete, un disco flexible, un disco duro, una cinta magnética, o cualquier- otro medio magnético, un CD-ROM, cualquier otro medio óptico, mem oria de estado sólido, tarjetas perforadas, cinta de papel y cualquier otro medio físico con patrones o ag ujeros, una memoria RAM, PRO M y EPROM , una FLASH-EPROM , cualq uier otro chip o cartucho de memoria, una onda portadora como la descrita más adelante, o cualquier otro med io desde el cual pueda leer una computadora. Diversas formas de medios legibles por computadora pueden estar involucradas en transportar una o m ás secuencias de una o más instrucciones al procesador 504 para su ejecución. El sistema de computación 500 también puede incluir una interfaz de comunicación 518 acoplada al bus 502. La interfaz de comunicación 51 8 proporciona una com unicación de datos en dos vías que se acopla a un enlace de red 520 que está conectado a una red local 522. Por ejemplo, la interfaz de com unicación 518 puede ser una tarjeta de red digital de servicios integrados ("ISDN")o un módem para proporcionar una conexión de com unicación de datos a un tipo correspondiente de línea telefónica. Como otro ejemplo, la interfaz de comunicación 518 puede ser una tarjeta de red (por ejemplo, una tarjeta Ethernet), para proporcionar una conexión de comunicación de datos a una red de área local compatible ("LAN") o a una red de área amplia ("WAN"), tal como Internet. También puede implementarse enlaces inalámbricos . en cualquiera de estas ¡mplementaciones, la interfaz de comunicación 518 envía y recibe señales eléctricas, electromagnéticas u ópticas que portan corrientes de datos digitales que representan diversos tipos de información. El enlace de red 520 típicamente proporciona comunicación de datos a través de una o más redes hacia otros dispositivos de datos. Por ejemplo, el enlace 520 puede proporcionar una conexión a través de la red local 522 hasta una computadora servidora 524 o a equipo de datos que funciona a través de un Proveedor de Servicios de Internet ("ISP"). El ISP proporciona a su vez servicios de comunicación de datos a través de la red mundial de comunicación de paquetes de datos comúnmente denominada ahora "Internet" 528. La red local 522 y la Internet 528 usan ambas señales eléctricas, electromagnéticas u ópticas que portan corrientes de datos digitales. Las señales a través de las diversas redes y las señales en el enlace de red 520 y a través de la interfaz de comunicación 518, las cuales portan los datos digitales hacia y desde el sistema de computación 500, son ejemplos de formas de ondas portadoras que transportan la información. el sistema de computación 500 puede enviar mensajes y recibir datos, incluyendo código de programa a través de la red o redes, el enlace de red 520 y la interfaz de comunicación 518. En el ejemplo de Internet, un servidor 530 podría transmitir un código requerido por un programa de aplicación a través de Internet 528, la computadora servidora 524, la red local 522 y la interfaz de comunicación 518. De acuerdo con la invención, una aplicación descargada de este tipo provee la predicción de cánceres de cabeza, cuello y pulmón, según se describen aquí. El código recibido puede ser ejecutado .por el procesador 504 tal como se recibió, y/o almacenado en el dispositivo de almacenamiento 510, u otro medio tangible legible por computadora (por ejemplo, almacenamiento no volátil) para su ejecución posterior. De esta manera, el sistema de computación 500 puede obtener código de aplicación y/o datos en la forma de un medio intangible legible por computadora tal como una onda portadora, señal de datos modulada, u otra señal portadora propagada. 4.0 EXTENSIONES Y ALTERNATIVAS En la especificación precedente, la invención ha sido descrita con referencia a modalidades y ejemplos específicos de ellas. Sin embargo, será evidente que se puede hacer diversas modificaciones y cambios a ellas sin apartarse del más amplio espíritu y alcance de la invención. La especificación y los dibujos, de acuerdo con esto, deben ser considerados en un sentido ilustrativo, en lugar de en un sentido restrictivo. Todas las referencias citadas aquí, están incorporadas aqu í mediante referencia en su totalidad.

Claims (1)

  1. REIVINDICACIONES 1. Un medio legible por computadora que tiene almacenada en él una estructura de datos para almacenar un modelo de detección de cáncer, caracterizado porque el modelo de detección de cáncer comprende un patrón de valores de peso espectral predictor de cáncer correspondiente a una pluralidad de pesos espectrales identificadores seleccionados del grupo que consiste en 5, 10, 12, 15, 20, 45, 47, 54, 64 y 111 kD, y caracterizado además porque la estructura de datos comprende una pluralidad de campos de datos, cada campo de datos almacena un valor de peso espectral correspondiente a un peso espectral identificador. 2. El medio legible por computadora de la reivindicación 1, caracterizado además porque al menos uno de los valores de peso espectral almacenado corresponde al peso espectral identificador de 11 kD. 3. El medio legible por computadora de la reivindicación 1, caracterizado además porque la estructura de datos comprende cinco campos de datos. 4. El medio legible por computadora de la reivindicación 1, caracterizado además porque la estructura de datos contiene siete campos de datos. 5. El medio legible por computadora de la reivindicación 1, caracterizado además porque la pluralidad de campos de datos comprende: un primer campo de datos que almacena un primer valor de peso espectral correspondiente a 5 kD; un segundo campo de datos que almacena un segundo valor de peso espectral correspondiente a 10 kD; un tercer campo de datos q ue almacena un tercer valor de peso espectral correspondiente a 12 kD ; un cuarto campo de datos que almacena un cuarto valor de peso espectral correspondiente a 15 kD; un quinto campo de datos q ue almacena un quinto valor de peso espectral correspondiente a 20 kD; un sexto campo de datos q ue almacena un sexto valor de peso espectral correspond iente a 45 kD ; un séptimo campo de datos q ue almacena un séptimo valor de peso espectra l correspondiente a 47 kD; un octavo campo de datos que almacena un octavo valor de peso espectral correspond iente a 54 kD; un noveno campo de datos q ue almacena un noveno valor de peso espectral correspondiente a 64 kD; y un décimo campo de datos que almacena un décimo valor de peso espectral correspond iente a 1 1 1 kD. 6. Un método para generar un modelo de detección de cáncer para predecir cáncer del tracto aerodigestivo superior, que comprende los pasos de: (a) comparar un primer conjunto de valores de peso espectral obtenido de muestras biológicas de una primera población de individuos, con un segundo conjunto de valores de peso espectral obtenidos de muestras biológicas de una segunda población de individuos, caracterizado porque los individuos de la primera población tienen alto riesgo de desarrollar un cáncer del tracto aerodigestivo superior; y caracterizado además porque se ha determinado clínicamente que los individuos de la segunda población tienen un cáncer del tracto aerodigestivo superior; y (b) basándose en el paso (a), generar un modelo de detección de cáncer que comprende un patrón de una pluralidad de valores de peso espectral predictores de cáncer, los cuales diferencian individuos de la primera población de individuos de la segunda población, y los cuales corresponden a la identificación de pesos espectrales seleccionados del grupo que consiste en 5, 10, 12, 15, 20, 45, 47, 54, 64 y 111 kD. 7. El método de la reivindicación 6, caracterizado además porque se ha determinado clínicamente que los individuos de la segunda población tienen un cáncer de pulmón. 8. El método de la reivindicación 7, caracterizado además porque el cáncer de pulmón comprende un carcinoma de células pequeñas. 9. El método de la reivindicación 7, caracterizado además porque el cáncer de pulmón comprende un carcinoma de células no pequeñas. 10. El método de la reivindicación 9, caracterizado además porque el carcinoma de células no pequeñas comprende un carcinoma de células escamosas. 11. El método de la reivindicación 9, caracterizado además porque el carcinoma de células no pequeñas comprende un adenocarcinoma. 12. El método de la reivindicación 9, caracterizado además porque el carcinoma de células no pequeñas comprende un carcinoma de células grandes. 13. El método de la reivindicación 6, caracterizado además porque se ha determinado clínicamente que los individuos de la segunda población tienen cáncer de cabeza y cuello. 14. El método de la reivindicación 13, caracterizado además porque el cáncer de cabeza y cuello se selecciona del grupo que consiste en cáncer hipofaríngeo, cáncer laríngeo, cáncer de labio, cáncer de la cavidad oral, melanoma maligno, cáncer nasofaríngeo, cáncer orofaríngeo, cáncer de los senos paranasales, cáncer de la cavidad nasal, cáncer de las glándulas salivales, y cáncer de tiroides. 15. El método de la reivindicación 6, caracterizado además porque las muestras biológicas comprenden suero. 16. El método de ia reivindicación 6, caracterizado además porque las muestras biológicas comprenden muestras de lavado bronquial. 17. El método de la reivindicación 6, caracterizado adem ás porque las m uestras biológicas comprenden esputo. 18. El método de la reivindicación 6, caracterizado además porque las muestras biológicas comprenden muestras e biopsia. 1 9. El método de la reivindicación 6, que además comprende generar el primer conjunto de valores de peso espectral. 20. El método de la reivindicación 6, que además comprende generar el segundo conjunto de valores de peso espectral. 21 . El método de la reivindicación 6, q ue además comprende generar el primer y segundo conjunto de valores de peso espectral. 22. El método de la reivindicación 6, caracterizado adem ás porque la determ inación de la presencia o ausencia de un cáncer del tracto aerodigestivo superior está basada en una historia cl ín ica y un examen físico . 23. El método de la reivindicación 22, caracterizado además porq ue el examen físico incluye una prueba diagnóstica. 24. Un producto en un medio legible por computadora, que almacena de datos para uso en la predicción de cáncer del tracto aerodigestivo superior en un individuo, dicho producto en un medio legible por computadora se elabora mediante un método que comprende los pasos de: (a) comparar un primer conjunto de valores de peso espectral obtenido de muestras biológicas de una primera población de individuos, con un segundo conjunto de valores de peso espectral obtenido de muestras biológicas de una segunda población de individuos, caracterizado además porque los individuos de la primera población tienen un alto riesgo de desarrollar un cáncer del tracto aerodigestivo superior, pero se há determinado clínicamente que no tienen cáncer del tracto aerodigestivo superior; y caracterizado además porque se ha determinado clínicamente que los individuos de la segunda población tienen un cáncer del tracto aerodigestivo superior; y (b) basándose en el paso (a), generar un modelo de detección de cáncer que incluye un patrón de una pluralidad de valores de peso espectral predictores de cáncer, los cuales diferencian individuos de la primera población de individuos de la segunda población, y los cuales corresponden a la identificación de pesos espectrales seleccionados del grupo que consiste en 5, 10, 12, 15, 20, 45, 47, 54, 64 y 111 kD; y (c) almacenar información correspondiente al modelo de detección de cáncer en un medio legible por computadora. 25. Un método para predecir un cáncer del tracto aerodigestivo superior en un individuo, que comprende los pasos de: (a) comparar los valores de peso espectral obtenidos de una muestra biológica en un modelo de detección de cáncer que comprende una pluralidad de valores de peso espectral predictores de cáncer correspondientes a la identificación de pesos espectrales seleccionados del grupo que consiste en 5, 10, 12, 15, 20, 45, 47, 54, 64 y 111 kD; y (b) identificar que el individuo tiene o probablemente desarrollará un cáncer del tracto aerodigestivo superior si una pluralidad de los valores de peso espectral de la prueba está dentro del 25% o más de sus correspondientes valores de peso espectral predictores de cáncer. 26. El método de la reivindicación 25, caracterizado además porque al- menos uno de la pluralidad de valores de peso espectral predictores de cáncer corresponde al valor de peso espectral ¡dentificador de 111 kD. 27. El método de la reivindicación 25, caracterizado además porque el modelo de detección de cáncer comprende cinco valores de peso espectral. 28. El método de la reivindicación 25, caracterizado además porque el modelo de detección de cáncer comprende siete valores de peso espectral. 29 El método de la reivindicación 25, caracterizado además porque el modelo de detección de cáncer comprende diez valores de peso espectral. 30. El método de la reivindicación 25, caracterizado además porque la pluralidad de los valores de peso espectral está dentro del 20% o más de sus correspondientes valores de peso espectral predictores de cáncer. 31. El método de la reivindicación 25, caracterizado además porque la pluralidad de los valores de peso espectral está dentro del 15% o más de sus correspondientes valores de peso espectral predictores de cáncer. 32. El método de la reivindicación 25, caracterizado además porque la pluralidad de los valores de peso espectral está dentro del 10% o más de sus correspondientes valores de peso espectral predictores de cáncer. 33. El método de la reivindicación 25, caracterizado además porque la pluralidad de los valores de peso espectral está dentro del 5% o más de sus correspondientes valores de peso espectral predictores de cáncer. 34. El método de la reivindicación 25, que comprende además obtener los valores de peso espectral de prueba de la muestra biológica. 35. El método de la reivindicación 25, caracterizado además porque la muestra biológica comprende suero. 36. El método de la reivindicación 25, caracterizado además porque la muestra biológica comprende esputo. 37. El método de la reivindicación 25, caracterizado además porque la muestra biológica comprende muestra de lavado bronquial. 38. El método de la reivindicación 25, caracterizado además porque la muestra biológica comprende una muestra de biopsia. 39. El método de la reivindicación 25, que comprende adem ás generar el modelo de detección de cáncer mediante un método que comprende los pasos de: (a) comparar un primer conjunto de valores de peso espectral obtenidos de muestras biológicas de una primera población de individuos, con un seg undo conjunto de valores de peso espectral obtenidos de muestras biológicas de una segunda población de individuos, caracterizado además porque los individuos en la primera población tienen un alto riesgo de desarrollar un cáncer del tracto aerodigestivo superior, pero se ha determinado clínicamente q ue no tienen cáncer del tracto aerodigestivo superior; y caracterizado además porq ue se ha determinado clínicamente que los individuos en la seg unda población tienen un cáncer del tracto aerodigestivo superior; y (b) basándose en el paso (a) , generar un modelo de detección de cáncer que com prende u n patrón de u na pl uralidad de valores de peso espectral predictores de cáncer, los cuales diferencian a individ uos de la primera población , de individuos de la segunda población, y los cuales corresponden a pesos espectrales identificadores seleccionados del grupo que consiste en 5, 1 0, 12, 15, 20, 45, 47, 54, 64 y 1 1 1 kD. 40. El método de la reivindicación 39, que comprende además generar el primer conjunto de valores de peso espectral. 41 . El método de la reivindicación 39, que comprende además generar el segundo conjunto de valores de peso espectral. 42. El método de la reivindicación 39, que comprende además generar el primer y segundo conjuntos de valores de peso espectral. 43. Un medio legible por computadora, que almacena instrucciones ejecutables por computadora para realizar un método que comprende los pasos de: (a) comparar valores de peso espectral de prueba obtenidos de una muestra biológica del individuo, co valores de peso espectral predictores de cáncer en un modelo de detección de cáncer q ue comprende una pluralidad de valores de peso espectral predictores de cáncer correspondientes a pesos espectrales seleccionados del grupo que consiste en 5, 1 0, 12, 1 5, 20, 45, 47, 54, 64 y 1 1 kD; y (b) identificar que el individuo tiene o probablemente desarrollará un cáncer del tracto aerodigestivo superior si una pl uralidad de valores de peso espectral de la prueba está dentro del 25% o más de sus correspondientes valores de peso espectral predictores de cáncer. 44. El medio legible por computadora de la reivindicación 43, q ue comprende un med io intang ible, legible por computadora.
MXPA06005404A 2003-11-12 2004-11-12 Prediccion de cancer en el tracto aerodigestivo superior. MXPA06005404A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US51934003P 2003-11-12 2003-11-12
PCT/US2004/037727 WO2005048165A2 (en) 2003-11-12 2004-11-12 Method to predict upper aerodigestive tract cancer

Publications (1)

Publication Number Publication Date
MXPA06005404A true MXPA06005404A (es) 2007-03-01

Family

ID=34590395

Family Applications (1)

Application Number Title Priority Date Filing Date
MXPA06005404A MXPA06005404A (es) 2003-11-12 2004-11-12 Prediccion de cancer en el tracto aerodigestivo superior.

Country Status (8)

Country Link
US (1) US20050196773A1 (es)
EP (1) EP1685515A2 (es)
JP (1) JP2007513328A (es)
KR (1) KR20070012320A (es)
AU (1) AU2004290440A1 (es)
CA (1) CA2556643A1 (es)
MX (1) MXPA06005404A (es)
WO (1) WO2005048165A2 (es)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1730160A4 (en) * 2004-03-17 2008-04-09 Univ Johns Hopkins COMPOSITIONS FOR THE DIAGNOSIS OF NEOPLASIA AND METHOD OF USE
US8794979B2 (en) * 2008-06-27 2014-08-05 Microsoft Corporation Interactive presentation system
US8945511B2 (en) 2009-06-25 2015-02-03 Paul Weinberger Sensitive methods for detecting the presence of cancer associated with the over-expression of galectin-3 using biomarkers derived from galectin-3

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0753146A4 (en) * 1994-03-28 1999-05-26 Pacific Northwest Research Fou TECHNIQUES FOR DETERMINING DNA DAMAGE DUE TO OXIDATION
AU4153502A (en) * 2000-11-16 2002-06-03 Ciphergen Biosystems Inc Method for analyzing mass spectra

Also Published As

Publication number Publication date
AU2004290440A1 (en) 2005-05-26
US20050196773A1 (en) 2005-09-08
WO2005048165A3 (en) 2006-03-09
KR20070012320A (ko) 2007-01-25
JP2007513328A (ja) 2007-05-24
EP1685515A2 (en) 2006-08-02
WO2005048165A2 (en) 2005-05-26
CA2556643A1 (en) 2005-05-26

Similar Documents

Publication Publication Date Title
CN112048559B (zh) 基于m6A相关的IncRNA网络胃癌预后的模型构建及临床应用
US6675104B2 (en) Method for analyzing mass spectra
Hsu et al. An unsupervised hierarchical dynamic self-organizing approach to cancer class discovery and marker gene identification in microarray data
US20020193950A1 (en) Method for analyzing mass spectra
CN109830264B (zh) 肿瘤患者基于甲基化位点进行分类的方法
CN110577998A (zh) 预测肝癌术后早期复发风险分子模型的构建及其应用评估
CN110958853A (zh) 用于鉴定或监测肺病的方法和系统
CN114203256B (zh) 基于微生物丰度的mibc分型及预后预测模型构建方法
CN113140258A (zh) 基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法
CN114891887A (zh) 一种三阴性乳腺癌预后基因标志物筛选的方法
CN115588507A (zh) 一种肺腺癌emt相关基因的预后模型及构建方法和应用
CN115482880A (zh) 一种头颈鳞癌糖酵解相关基因预后模型及构建方法和应用
CN108048460A (zh) 一种新型分子标记及其在制备用于头颈癌诊断和预后的试剂盒中的应用
KR101990430B1 (ko) 암의 재발 예후 예측을 위한 바이오마커 발굴 시스템 및 방법
Nath et al. A survey on cancer prediction and detection with data analysis
CN116805509A (zh) 结直肠癌免疫治疗预测标志物的构建方法及应用
MXPA06005404A (es) Prediccion de cancer en el tracto aerodigestivo superior.
Ragazzi et al. Multivariate analysis approach to the plasma protein profile of patients with advanced colorectal cancer
Oh et al. Prostate cancer biomarker discovery using high performance mass spectral serum profiling
CN114171200A (zh) Ptc预后标志物及其应用、ptc的预后评估模型的构建方法
KR20220133516A (ko) 인공지능 기반 무세포 dna의 종양 유래 변이 검출 방법 및 이를 이용한 암 조기 진단 방법
Chen et al. Development of a Set of DNA Methylation Markers in the Diagnosis and Prognosis of Papillary Thyroid Carcinoma by Machine Learning
WO2022020598A1 (en) Biomedical big data analysis program
CN115927616A (zh) 一组用于预测头颈鳞癌预后的标志物及其应用
CN111718997A (zh) 一种特征mRNA表达谱组合及胃癌早期预测方法

Legal Events

Date Code Title Description
FA Abandonment or withdrawal