MXPA05004682A

MXPA05004682A - Metodo y sistema para clasificar paginas de presentacion utilizando resumenes.

Info

Publication number: MXPA05004682A
Application number: MXPA05004682A
Authority: MX
Inventors: Chen Zheng
Original assignee: Microsoft Corp
Priority date: 2004-04-30
Filing date: 2005-04-29
Publication date: 2005-11-17
Also published as: BRPI0502155A; DE602005021581D1; CA2505957A1; EP1591924A1; AU2005201766A1; EP1591924B1; KR20060047636A; US20090119284A1; CN1758245A; CN1758245B; US7392474B2; CA2505957C; ATE470192T1; RU2005113190A; JP2005322245A; RU2377645C2; KR101203345B1; US20050246410A1

Abstract

Se describen un metodo y sistema para clasificar paginas de presentacion basandose en resumenes automaticamente generados de paginas de presentacion. Un sistema de clasificacion de pagina web utiliza un sistema de resumen de pagina web para generar resumenes de las paginas web. El resumen de una pagina web puede incluir las oraciones de la pagina web que estan mas relacionadas con el topico principal de la pagina web. El sistema de resumen puede combinar los beneficios de multiples tecnicas de resumen para identificar las oraciones de una pagina web que representa el topico principal de la pagina web. Una vez que el resumen es generado, el sistema de clasificacion puede aplicar tecnicas de clasificacion convencionales al resumen para clasificar la pagina web. El sistema de clasificacion puede utilizar tecnicas de clasificacion convencionales tales como un clasificador Bayesiano simple o una maquina de vector de soporte para identificar las clasificaciones de una pagina web basandose en el resumen generado por el sistema de resumen.

Description

METODO Y SISTEMA PARA CLASIFICAR PAGINAS DE PRESENTACION UTILIZANDO RESUMENES CAMPO TECNICO La tecnología descrita se refiere en general a la clasificación automática de la información.

ANTECEDENTES Muchos servicios del motor de búsqueda, tales como Google y Overture, proveen la búsqueda de la información que es accesible a través del Internet. Estos servicios del motor de búsqueda permiten a los usuarios buscar páginas de presentación, tales como páginas web, que pueden ser de interés para los usuarios. Después de que un usuario somete una solicitud de búsqueda que incluye términos de búsqueda, el servicio del motor de búsqueda identifica las páginas web que pueden estar relacionadas con esos términos de búsqueda. Para rápidamente identificar las páginas web relacionadas, los servicios del motor de búsqueda pueden mantener una clasificación de las palabras clave de las páginas web. Esta clasificación puede generarse "moviéndose lentamente" en la web (es decir, la Red Amplia Mundial) para identificar las palabras clave de cada página web. Al moverse lentamente en la web, el servicio del motor de búsqueda puede utilizar una lista de las páginas web raíz para identificar todas las páginas web que son accesibles a través de esas páginas web raíz. Las palabras clave de cualquier página web particular pueden identificarse utilizando varias técnicas de recuperación de información bien conocidas, tales como identificando ias palabras de un titular, la palabras suministradas en los metadatos de la página web, las palabras que están resaltadas, etc. el servicio del motor de búsqueda puede generar un valor de relevancia para indicar que tan relevante puede ser la información de la página web para la solicitud de búsqueda basado en la cercanía en cada comparación, la popularidad de la página web (por ejemplo, La Página de Clasificación de Google), etc. El servicio del motor de búsqueda entonces despliega al usuario los enlaces a aquellas páginas web en un orden que está basado en sus clasificaciones. Aunque los servicios del motor de búsqueda pueden devolver muchas páginas web como un resultado de la búsqueda, la presentación de las páginas web en un orden clasificado puede hacer difícil para un usuario actualmente encontrar esas páginas web de interés particular para el usuario. Ya que las páginas web que se presentan primero pueden dirigirse a tópicos populares, un usuario que está interesado en un tópico oscuro puede necesitar explorar muchas páginas del resultado de la búsqueda para encontrar una página de interés. Para hacer más fácil para el usuario encontrar páginas web de interés, el resultado de la búsqueda de las páginas web podría presentarse en una organización jerárquica basada en alguna clasificación o categorización de las páginas web. Por ejemplo, si un usuario somete una solicitud de búsqueda de "peleas en el tribunal", el resultado de la búsqueda puede contener páginas web que pueden ser clasificadas como relacionadas con los deportes o relacionadas con la ley. El usuario puede preferir que inicialmente se le presente una lista de clasificaciones de las páginas web para que el usuario pueda seleccionar la clasificación de las páginas web que le interesan. Por ejemplo, se le podría presentar primer al usuario una indicación de que las páginas web del resultado de la búsqueda han sido clasificadas como relacionadas con los deportes o relacionadas con la ley. El usuario puede entonces seleccionar la clasificación relacionadas con la ley para ver páginas web que están relacionadas con la ley. En contraste, ya que las páginas web de deportes son más populares que las páginas web legales, un usuario podría tener que explorar muchas páginas para encontrar páginas web relacionadas con la ley si las páginas web más populares se presentan primero. Podría ser impráctico manualmente clasificar los millones de páginas web que están actualmente disponibles. Aunque las técnicas de clasificación automatizadas se han utilizado para clasificar contenido basado en texto, esas técnicas generalmente no son aplicables a contenido escandaloso, tal como un anuncio o una barra de navegación, que no está directamente relacionada con el tópico principal de la página web. Debido a que las técnicas de clasificación basadas en texto convencionales podrían utilizar dicho contenido escandaloso cuando clasifican una página web, estas técnicas tenderían a producir clasificaciones incorrectas de las páginas web. Sería deseable tener una técnica de clasificación para páginas web que basarán su clasificación de la página web en un tópico principal de la página web y den muy poco peso al contenido escandaloso de la página web.

COMPENDIO DE LA INVENCION Un sistema de clasificación y resumen clasifica y presenta dichas páginas web con base en resúmenes automáticamente generados de las páginas de presentación. En una modalidad, un sistema para la clasificación de páginas web utiliza un sistema de resumen de la página web para generar resúmenes de las páginas web. El resumen de una página web puede incluir las oraciones de la página web que están más estrechamente relacionadas con el tópico principal de la página web. El sistema de resumen puede combinar los beneficios de múltiples técnicas de resúmenes para identificar las oraciones de una página web que representan el tópico principal de la página web. Una vez que se genera un resumen, el sistema de clasificación puede aplicar las técnicas de clasificación convencionales al resumen para clasificar la página web.

BREVE DESCRIPCION DE LOS DIBUJOS La Figura 1 es un diagrama de bloque que ilustra los componentes de un sistema de clasificación y un sistema de resumen en una modalidad. La Figura 2 es un diagrama de flujo que ilustra el procesamiento del componente para la clasificación de la página web en una modalidad. La Figura 3 es un diagrama de flujo que ilustra el procesamiento del componente de resumen de la página web en una modalidad. La Figura 4 es un diagrama de flujo que ilustra el procesamiento del componente que calcula el puntaje en una modalidad. La Figura 5 es un diagrama de flujo que ilustra el procesamiento el componente que calcula el puntaje Luhn en una modalidad. La Figura 6 es un diagrama de flujo que ilustra el procesamiento del componente que calcula el puntaje del análisis semántico latente en una modalidad. La Figura 7 es un diagrama de flujo que ilustra el procesamiento el componente que calcula el puntaje del cuerpo del contenido en una modalidad. La Figura 8 es un diagrama de flujo que ilustra el procesamiento el componente que calcula el puntaje supervisados en una modalidad. La Figura 9 es un diagrama de flujo que ilustra el componente del puntaje combinados en una modalidad.

DESCRIPCION DETALLADA Se provee un método y un sistema para clasificar páginas de presentación basados en resúmenes automáticamente generados de las páginas de presentación. En una modalidad, un sistema de clasificación de una página web utiliza el sistema de resumen de la página web para generar resúmenes de las páginas web. El resumen de una página web puede incluir las oraciones de la página web que están más estrechamente relacionadas con el tópico principal de la página web. Una vez que se genera el resumen, el sistema de clasificación puede aplicar las técnicas de clasificación convencionales al resumen para clasificar la página web. El sistema de resúmenes puede combinar los beneficios de las técnicas de resúmenes múltiples para identificar las oraciones de una página web que representa el tópico principal de la página web. En una modalidad, el sistema de resúmenes utiliza una técnica se resumen Luhn, una técnica de resumen del análisis semántico latente, una técnica de resumen del cuerpo del contenido, y una técnica de resumen supervisada ya sea individualmente o en combinación para generar un resumen. El sistema de resumen utiliza cada una de las técnicas de resumen para generar un valor específico de la técnica del resumen para cada oración de una página web. El sistema de resumen entonces combina el puntaje específico de la técnica de resumen para una oración para generar un valor global para esa oración. El sistema de resumen selecciona las oraciones de la página web con los puntajes globales más altos para formar el resumen de la página web. El sistema de clasificación puede utilizar técnicas de clasificación convencionales tales como un clasificador Na'íve Bayesiano o simple o una máquina del vector de soporte para identificar las clasificaciones de una página web basada en el resumen generado por el sistema del resumen. En esta forma, las páginas web pueden ser automáticamente clasificadas con base en los resúmenes automáticamente generados de las páginas web. En una modalidad, el sistema de resumen utiliza una versión modificada de la técnica de resumen Luhn para generar el puntaje de cada oración de una página web. La técnica de resumen Luhn genera un valor para una oración está basado en las "palabras significativas" que están en la oración. Para generar un puntaje de una oración, la técnica de resumen Luhn identifica una porción de cierto número de palabras no significativas aparte. La técnica de resumen Luhn calcula el puntaje de la oración como la proporción del cuadro del número de palabras significativas contenidas en la porción entre paréntesis por el número de palabras dentro del a porción entre paréntesis. (Ver H.P. Luhn, The Automatic Creation of Literature Abstráete, 2IBM J DE RES. & DEV. No. 2, 159-65 (Abril de 1958). El sistema de resumen modifica la técnica de resumen Luhn definiendo una colección de palabras significativas para cada clasificación. Por ejemplo, una clasificación relacionada con los deportes puede tener una colección de palabras significativas que incluyen, "tribunal", "basquetbol", y "deporte", mientras que una clasificación relacionada con la ley puede tener una colección de palabras significativas que incluyen "tribunal", "abogado", y "criminal". El sistema de resumen puede identificar las colecciones de palabras significativas basadas en un grupo de entrenamiento de páginas web que han sido preclasificadas. El sistema de resumen puede seleccionar las palabras de uso más frecuente en las páginas web con una cierta clasificación como la colección de palabras significativas para esa clasificación. El sistema de resumen también puede remover ciertas palabras vacías de la colección que pueden representar contenido escandaloso. Cuando se califica una oración de una página web, la técnica para el resumen Luhn modificada calcula un puntaje para cada clasificación. La técnica de resumen entonces promedia los puntajes para cada clasificación que están por arriba del nivel del umbral para dar un puntaje Luhn combinado para la oración. El sistema de resumen puede seleccionar las oraciones con los puntajes Luhn más altos para formar el resumen. En una modalidad, el sistema de resumen utiliza una técnica de resumen del análisis semántico latente para generar el análisis semántico latente para cada oración de una página web. La técnica de resumen del análisis semántico latente utiliza la descomposición del valor individual para generar un puntaje para cada oración. El sistema de resumen genera una matriz palabra-oración para la página web que contiene un valor de término frecuencia ponderado para cada combinación palabra-oración. La matriz se puede representar a través de lo siguiente: A = U?VT (1) en donde A representa la matriz palabra-oración, U es una matriz normal de columna cuyas columnas son vectores singulares izquierdos, ? es una matriz diagonal cuyos elementos diagonales son valores singulares no negativos clasificados en orden descendente, y V es una matriz normal cuyas columnas son vectores singulares derechos. Después de descomponer la matriz en U, ?, y V, el sistema de resumen utiliza los vectores singulares derechos para generar los puntajes de las oraciones. (Ver, Y.H. Gong y X. Liu, Generis Text Summarization Using Relevante Measure and Latent Semantic Análisis, en PROC. OF THE 24TH ANNUAL I TER ATIONAL ACM SIGIT, Nueva Orleans, Louisiana, 19-25 (2001). El sistema de resumen puede seleccionar el primer vector singular derecho y la oración que tiene el valor índice más alto dentro de ese vector. El sistema de resumen entonces le da a la oración el puntaje más alto. El sistema de resumen entonces selecciona el segundo vector singular derecho y el da a la oración que tiene el valor índice más alto dentro de ese vector el segundo puntaje más alto. El sistema de resumen entonces continúa en una forma similar para generar los puntajes para las otras oraciones. El sistema de resumen puede seleccionar las oraciones con los puntajes más altos para formar el resumen de la página web. En una modalidad, el sistema de resumen utiliza una técnica de resumen del cuerpo del contenido para generar un puntaje del cuerpo del contenido para cada oración de una página web. La técnica para el resumen del cuerpo del contenido identifica el cuerpo del contenido de una página web y da un alto puntaje a las oraciones dentro del cuerpo del contenido. Para identificar el cuerpo del contenido de una página web, la técnica para el resumen del cuerpo del contenido identifica los objetos básicos y los objetos de composición de la página web. Un objeto básico es el área de información más pequeña que no puede dividir más. Por ejemplo, en HTML, un objeto básico es un elemento no fraccionable dentro de dos etiquetas o un objeto embebido. Un objeto de composición es un grupo de objetos básicos u otros objetos de composición que se combinan para realizar una función. Después de identificar los objetos, el sistema de resumen clasifica los objetos en categorías tales como información, navegación, interacción, decoración, o función especial. La categoría información es para los objetos que presentan información de contenido, la categoría navegación es para los objetos que presentan una guía de navegación, la categoría interacción es para los objetos que presentan interacciones del usuario (por ejemplo, campo de captura), la categoría decoración es para los objetos que presentan información tal como información legal, información de contacto, información del logo, etc. (Ver, J.L. Chen, y otros, Function-based Object Model Towards Website Application, PROC. OF WWW10, Hong Kong, China (2001). En una modalidad, el sistema de resumen construye una frecuencia de término a través del índice de frecuencia del documento invertido (es decir, TF*IDF) para cada objeto. El sistema de resumen entonces calcula la semejanza entre pares de objetos utilizando un cálculo de la semejanza tal como semejanza de coseno. Si la semejanza entre los objetos del par es mayor que un nivel de umbral, el sistema de resumen enlaza los objetos del par. El sistema de resumen entonces identifica el objeto que tiene el mayor número de enlaces con él según el objeto núcleo representa el tópico principal de la página web. El cuerpo del contenido de la página web es el objeto núcleo junto con cada objeto que tiene un enlace con el objeto del núcleo. El sistema de resumen da un puntaje alto a cada oración del cuerpo del contenido y un puntaje bajo a cada otra oración de la página web. El sistema de resumen puede seleccionar las oraciones con un alto puntaje para formar el resumen de la página web. En una modalidad, el sistema de resumen utiliza una técnica de resumen supervisada para generar un puntaje supervisado para cada frese de una página web. La técnica de resumen supervisado utiliza los datos de entrenamiento para aprender una función de resumen que identifica si una oración deberá ser seleccionada como parte de un resumen. La técnica de resumen supervisado representa cada oración a través de un vector de función definido en el Cuadro 1 en donde fu representa el valor de la función ith de la oración /.

CUADRO 1 El sistema de resumen puede utilizar un clasificador Nai've Bayesian para aprender la función del resumen. La función del resumen puede estar representada por lo siguiente: en donde p(seS) significa la tasa de compresión del resumidor (el cual puede ser predefinido para diferentes aplicaciones), p(f¡) es la probabilidad de cada función j, y p(/¡\ seS) es la probabilidad condicional de cada función j. Los últimos dos factores pueden estimarse a partir del grupo de entrenamiento. En una modalidad, el sistema de resumen combina los puntajes de la técnica de resumen Luhn, ia técnica de resumen del análisis semántico latente, la técnica de resumen del cuerpo del contenido, y la técnica de resumen supervisada para generar un puntaje global. Los puntajes pueden ser combinados como sigue: S = S/uhn + Sisa + S0¿ + Ssup (3) en donde S representa el puntaje combinado, S,uftn representa el puntaje Luhn, Slsa representa el puntaje del análisis semántico latente, Scb representa el puntaje del contenido del cuerpo, y Ssup representa el puntaje supervisado. Alternativamente, el sistema de resumen puede aplicar un factor de ponderación para cada puntaje de la técnica de resumen de tal forma que no todos los puntajes de las técnicas de resumen se ponderan igualmente. Por ejemplo si el puntaje Luhn se piensa que va a ser una reflexión más exacta de la relevancia de una oración al tópico principal de ia página web, entonces el factor de ponderación para el puntaje Luhn podría ser .7 y el factor de ponderación para los otros puntajes podrían ser .1 para cada uno. Si el factor de ponderación para una técnica de resumen se fija en cero, entonces el sistema de resumen no utiliza esa técnica de resumen. Uno con experiencia en la técnica apreciará que cualquier número de técnicas de resumen pueden tener sus pesos fijados en cero. Por ejemplo, si un factor de ponderación de 1 se utiliza para el puntaje Luhn y de cero para los otros puntajes, entonces el puntaje "combinado" sería simplemente el puntaje Luhn. Además, el sistema de resumen puede normalizar cada uno de los puntajes de la técnica de resumen. El sistema de resumen también puede utilizar una combinación no lineal de los puntajes de la técnica de resumen. El sistema de resumen puede seleccionar las oraciones con los puntajes combinados más altos para formar el resumen de la página web. En una modalidad, el sistema de clasificación utiliza un clasificador Na'íve Bayesian para clasificar una página web con base en este resumen. El calificador Na'íve Bayesian utiliza una regla Bayesian, la cual se puede definir como sigue: en donde se puede calcular contando la frecuencia con cada categoría c¡ que ocurre en los datos de entrenamiento, |C| es el numero de categorías, p(w¡ \ c¡ ) es una probabilidad de que la palabra w¡ pcurra en la clase c¡, N(wk, d¡)es el número de ocurrencias de una palabra wk y d¡ es el número de palabras en los datos de entrenamiento. (Ver A.McCallum . Nigam, A Comparison of Event Models for Naí've Bayesian Text Classification, en AAAI-98 WORKSHOP ON LEARNING POR TEXT CATEGORIZATION (1998). Ya que w¡, puede ser pequeño en los datos de entrenamiento, se puede utilizar un emparejamiento de LaPlace para estimar su valor. En una modalidad alternativa el sistema de clasificación utiliza una máquina del vector de soporte para clasificar una página web con base en su resumen. Una máquina del vector de soporte opera encontrando una hiper-superficie en el espacio de las capturas posibles. La hiper-superficie intenta dividir los ejemplos positivos de los ejemplos de navegación maximizando la distancia entre el más cercano del ejemplo positivo y del negativo a la hiper-superficie. Se pueden utilizar varias técnicas para entrenar una máquina del vector de soporte. Una técnica utiliza un algoritmo de optimización mínima secuencial que desglosa el problema de programación cuadrático grande en series de problemas de programación cuadráticos pequeños que pueden ser resueltos analíticamente (Ver Sequential Minimal Optimization, en http://research.microsoft.com/~jplatt/smo.html.) La Figura 1 es un diagrama de bloque que ilustra los componentes de un sistema de clasificación y un sistema de resumen en una modalidad. El sistema de clasificación 100 incluye un componente de clasificación de la página web 111 y un componente clasificador 112. El sistema de resumen 120 incluye de resumen de la página web 121, un componente de clasificación de oraciones 122, un componente de cálculo de puntaje 123, y un componente para seleccionar las mejores oraciones 124. El componente para clasificar a la página web utiliza el componente para resumir la página web para generar un resumen de la página web y después utiliza el componente clasificador para clasificar la página web con base en el resumen. El componente para el resumen de la página web utiliza el componente para calcular los puntajes para calcular un puntaje para cada oración de la página web. El componente para el resumen de la página web entonces utiliza el componente para clasificar las oraciones para clasificar las oraciones de la página web con base en sus puntajes y para que el componente para seleccionar las mejores oraciones seleccione las oraciones con los puntajes más altos para formar el resumen de la página web. El componente para calcular los puntajes utiliza un componente de puntaje Luhn 125, un componente para calcular el puntaje del análisis semántico latente 126, un componente para calcular el puntaje del cuerpo del contenido 127, y un componente para calcular el puntaje supervisado 128 para generar puntajes de varias técnicas de resumen. El componente que calcula los puntajes entonces combina los puntajes para que las técnicas de resumen para provean un puntaje global de cada oración.

El dispositivo de computación en el cual el sistema de resumen se implementa puede incluir una unidad de procesamiento central, una memoria, dispositivos de entrada (por ejemplo, teclado y dispositivos de apuntamiento), dispositivos de salida (por ejemplo, dispositivos de presentación), y dispositivos de almacenamiento (por ejemplo, unidades de disco). Los dispositivos de memoria y almacenamiento son medios legibles por computadora que pueden contener instrucciones que implementan el sistema de resumen. Además, las estructuras de datos y las estructuras de los mensajes se pueden almacenar o transmitir a través de un medio para la transmisión de datos, tal como una señal en un enlace de comunicación. Se pueden utilizar varios enlaces de comunicación, tales como el Internet, una red de área local, una red de área amplia, o una conexión de marcación de punto a punto. El sistema de resumen se puede implementar en varios ambientes operativos. El ambiente operativo descrito aquí es solamente un ejemplo de un ambiente operativo adecuado y no pretende sugerir ninguna limitación al alcance del uso o funcionalidad del sistema de resumen. Otros sistemas, ambientes y configuraciones bien conocidos que pueden ser adecuados para uso incluyen computadoras personales, computadoras servidor, dispositivos manuales o portátiles, sistemas multiprocesador, sistemas basados en microprocesador, electrónicos de consumidor programables, PCs en red, minicomputadoras, computadoras principales, entornos de computación distribuidos que incluyen cualquiera de los sistemas o dispositivos anteriores y similares. El sistema de resumen se puede describir en el contexto general de instrucciones ejecutables por computadora, tales como módulos de programa, ejecutados por una o más computadoras u otros dispositivos. Generalmente, los módulos de programa incluyen rutinas, programas, objetos, componentes, estructuras de datos, etc. que llevan a cabo tareas particulares o implementan tipos de datos abstractos. Típicamente, la funcionalidad de los módulos de programa puede estar combinada o distribuida en varias modalidades. La Figura 2 es un diagrama de flujo que ilustra el procesamiento del componente para la clasificación de la página web en una modalidad. Al componente se le pasa la página web y devuelve sus clasificaciones. En el bloque 201, el componente invoca el componente para el resumen de la página web para generar un resumen de la página web. En el bloque 202, el componente clasifica la página web con base en el resumen de la página web utilizando un clasificador tal como un clasificador Na'íve Bayesian o una máquina de vector de soporte. El componente entonces la completa. La Figura 3 es un diagrama de flujo que ilustra el procesamiento del componente que resume la página web en una modalidad. Se le pasa una página al componente, calcula el puntaje para cada una de las oraciones de la página web, y selecciona las oraciones con los puntajes más altos para formar el resumen de la página web. En el bloque 301, el componente invoca el componente que calcula el puntaje para calcular un puntaje para cada oración. En el bloque 302, el componente clasifica las oraciones con base en los puntajes calculados. En el bloque 303, el componente selecciona las oraciones con los mejores puntajes para formar el resumen para la página web. El componente entonces devuelve el resumen. La Figura 4 es un diagrama de flujo que ilustra el procesamiento del componente que calcula los puntajes en una modalidad. Se le pasa una página web al componente, calcula varios puntajes de las técnicas de resumen para las oraciones de la página web, y calcula el puntaje combinado para cada oración con base en aquellos puntajes de las técnicas de resumen. El componente puede alternativamente calcular un puntaje utilizando solamente una técnica de resumen o varias combinaciones de las técnicas de resumen. En el bloque 401, el componente invoca al componente para calcular el puntaje Luhn para calcular un puntaje Luhn para cada oración de la página web. En el bloque 402, el componente invoca el componente para el cálculo del puntaje del análisis semántico latente para calcular un puntaje del análisis semántico latente para cada oración de la página web. En el bloque 403, el componente invoca el componente para el cálculo del puntaje del cuerpo del contenido para calcular un puntaje del cuerpo del contenido para cada oración de la página web. En el bloque 404, el componente invoca al componente para calcular el puntaje supervisado para calcular un puntaje supervisado para cada oración de la página web. En el bloque 405, el componente invoca un componente que combina puntajes para calcular un puntaje combinado para cada oración de la página web. El componente entonces devuelve los puntajes combinados. La Figura 5 es un diagrama de flujo que ilustra el procesamiento del componente para el cálculo del puntaje Luhn en una modalidad. Se ie pasa una página web al componente y calcula un puntaje Luhn para cada oración de la página web. En el bloque 501, el componente selecciona la siguiente oración de la página web. En el bloque de decisión 502, si todas las oraciones de la página web ya han sido seleccionadas, entonces el componente devuelve los puntajes Luhn, de lo contrario el componente continúa al bloque 503. En los bloques 503-509, el componente da la vuelta de regreso generando un puntaje de la clase para la oración seleccionada para cada clasificación. En el bloque 503, el componente selecciona la siguiente clasificación. En el bloque de decisión 504, si todas las clasificaciones ya han sido seleccionadas, entonces el componente continúa al bloque 510, de lo contrario el componente continúa al bloque 505. En el bloque 505, el componente identifica las palabras de la oración seleccionada que están entre paréntesis mediante las palabras significativas de la clasificación seleccionada. En el bloque de decisión 506, si las palabras entre paréntesis están identificadas, entonces el componente continúa al bloque 507, de lo contrario el componente da la vuelta de regreso al bloque 503 para seleccionar la siguiente clasificación. En el bloque 507, el componente cuenta las palabras significativas dentro de la porción entre paréntesis de la oración seleccionada. En el bloque 508, el componente cuenta las palabras dentro de la porción entre paréntesis de la oración seleccionada. En el bloque 509, el componente calcula un puntaje para la clasificación como el cuadro del conteo de las palabras significativas dividido por el conteo de las palabras. El componente entonces da la vuelta de regreso al bloque 503 para seleccionar la siguiente clasificación. En el bloque 510, el componente calcula el puntaje Luhn para la oración seleccionada como una suma de los puntajes de las clases dividido por el número de clasificaciones para las cuales una porción entre paréntesis de la oración seleccionada fue identificada (es decir, el promedio de los puntajes de la clase que fueron calculados). El componente entonces da la vuelta de regreso al bloque 501 para seleccionar la siguiente oración. La Figura 6 es un diagrama de flujo que ilustra el procesamiento del componente que calcula el puntaje del análisis semántico latente en una modalidad. Al componente se le pasa una página web y calcula un puntaje del análisis semántico latente para cada oración de la página web pasada. En los bloques 601-603, el componente da la vuelta de regreso construyendo un vector de término por peso para cada oración de la página web. En el bloque 601, el componente selecciona la siguiente oración de la página web. En el bloque de decisión 602, si todas las oraciones de la página web ya han sido seleccionadas, entonces el componente continúa al bloque 604, de lo contrario el componente continúa al bloque 603. En el bloque 603, el componente construye un vector de término por peso para la oración seleccionada y después da la vuelta de regreso al bloque 601 para seleccionar la siguiente oración. Los vectores de término por peso para las oraciones formar una matriz que se descompone para dar una matriz de los vectores singulares derechos. En el bloque 604, el componente realiza la descomposición del valor singular de la matriz para generar los vectores singulares derechos. En los bloques 605-607, el componente da la vuelta de regreso configurando un puntaje para cada oración con base en los vectores singulares derechos. En el bloque 605, el componente selecciona el siguiente vector singular derecho. En el bloque de decisión 606, si todos los vectores singulares derechos ya han sido seleccionados, entonces el componente regresa el puntaje como los puntajes del análisis semántico latente, de lo contrario el componente continúa al bloque 607. En el bloque 607, el componente fija el puntaje de la oración con el valor índice más alto del vector singular derecho seleccionado y después da la vuelta de regreso al bloque 605 para seleccionar el siguiente vector singular derecho. La Figura 7 es un diagrama de flujo que ilustra el procesamiento del componente para calcular el puntaje del cuerpo del contenido en una modalidad. A componente se le pasa una página web y calcula el puntaje del cuerpo del contenido para cada oración de la página pasada. En el bloque 701, el componente identifica los objetos básicos de la página web. En el bloque 702, el componente identifica los objetos de composición de la página web. En los bloques 703-705, el componente da la vuelta de regreso para generar un vector de la frecuencia del término/frecuencia del documento invertida para cada objeto. En el bloque 703, el componente selecciona el siguiente objeto. En el bloque de decisión 704, si todos los objetos ya han sido seleccionados, entonces el componente continúa al boque 706, de lo contrario el componente continúa al bloque 705. En el bloque 705, el componente genera el vector de frecuencia del término/frecuencia del documento invertida para el objeto seleccionado y después da la vuelta de regreso al bloque 703 para seleccionar el siguiente objeto. En los bloques 706-710, el componente da la vuelta de regreso para calcular la semejanza entre los pares de objetos. En el bloque 706, el componente selecciona el siguiente par de objetos. En el bloque de decisión 707, si todos los pares de objetos ya han sido seleccionados, entonces el componente continúa al bloque 711, de lo contrario el componente continúa al bloque 708. En el bloque, 708, el componente calcula la semejanza entre los pares de objetos seleccionados. En el bloque de decisión 709, si la semejanza es mayor que un nivel de umbral de semejanza, entonces el componente continúa al bloque 710, de lo contrario el componente da la vuelta de regreso al bloque 706 para seleccionar el siguiente par de objetos. En el bloque 710, el componente agrega un enlace entre el par de objetos seleccionados y después da la vuelta de regreso al bloque 706 para seleccionar el siguiente par de objetos. En los bloques 711-715, el componente identifica el cuerpo del contenido de la página web identificando un objeto núcleo y todos los objetos con los enlaces con aquel del objeto núcleo. En el bloque 711, el componente identifica el objeto núcleo como el objeto con el mayor número de enlaces hacia él. En el bloque 712, el componente selecciona la siguiente oración de la página web. En el bloque de decisión 713, si todas las oraciones ha han sido seleccionadas, entonces el componente regresa los puntajes del cuerpo de contenido, de lo contrario el componente continúa al bloque 714. En el bloque de decisión 714, si la oración está dentro de un objeto que está enlazado al objeto núcleo, entonces la oración está dentro del cuerpo del contenido y el componente continúa al bloque 715, de lo contrario el componente establece el puntaje de la oración seleccionada en cero y da la vuelta de regreso al bloque 712 para seleccionar la siguiente oración. En el bloque 715, el componente establece el puntaje de la oración seleccionada a un puntaje alto y después da la vuelta de regreso al bloque 712 para seleccionar la siguiente oración. La Figura 8 es un diagrama de flujo que ilustra el procesamiento del componente para calcular el puntaje supervisado en una modalidad. Al componente se le pasa una página web y calcula un puntaje supervisado para cada oración de la página web. En el bloque 801, el componente selecciona la siguiente oración de la página web. En el bloque de decisión 802, si todas las oraciones ya han sido seleccionadas, entonces el componente regresa los puntajes supervisados, de lo contrario el componente continúa al bloque 803. En el bloque 803, el componente genera el vector de la función para la oración seleccionada. En el bloque 804, el componente calcula el puntaje para la oración seleccionada utilizando el vector de la función generado y la función de resumen aprendida. El componente entonces da la vuelta de regreso al bloque 801 para seleccionar la siguiente oración. La Figura 9 es un diagrama de flujo que ilustra el procesamiento del componente para calcular los puntajes combinados en una modalidad. El componente genera un puntaje combinado para cada oración de la página web con base en un puntaje Luhn, el puntaje del análisis semántico latente, el puntaje del cuerpo del contenido, y el puntaje supervisado. En el bloque 901, el componente selecciona la siguiente oración de la página web. En el bloque de decisión 902, si todas las oraciones ya han sido seleccionadas, entonces el componente regresa los puntajes combinados, de lo contrario el componente continúa al bloque 903. En el bloque 903, el componente combina los puntajes de las oraciones seleccionadas y entonces da la vuelta de regreso al bloque 901 para seleccionar la siguiente oración. Uno con experiencia en la técnica apreciará que aunque las modalidades específicas del sistema de resumen han sido descritas aquí para propósitos de ilustración, varias modificaciones se pueden hacer sin desviarse del espíritu y alcance de la invención. Uno con experiencia en la técnica apreciará que clasificación se refiere al proceso para identificar la clase o categoría asociada con una página de presentación. Las clases pueden ser predefinidas. Los atributos de una página de presentación que se va a clasificar pueden compararse con los atributos derivados de otras páginas de presentación que han sido clasificadas (por ejemplo, un grupo de entrenamiento). Con base en la comparación, la página de presentación se clasificó en la clase cuyos atributos de la página de presentación son similares a aquellos de la página de presentación que se está clasificando. El agrupamiento, en contraste, se refiere al proceso para identificar de un grupo de páginas de presentación grupo de páginas de presentación que son similares una con la otra. Por consiguiente, la invención no está limitada excepto por las reivindicaciones anexas.

Claims

REIVINDICACIONES

1. Un método en un sistema de computadora para clasificar páginas web, el método comprende: recuperar una página web; automáticamente generar un resumen del la página web recuperada; y determinar una clasificación para la página web recuperada con base en el resumen automáticamente generado.

2. El método de acuerdo con la reivindicación 1, en donde la generación automática del resumen incluye calcular un puntaje para cada oración de la página web utilizando múltiples técnicas de resumen.

3. El método de acuerdo con la reivindicación 2, en donde el puntaje para cada oración es una combinación lineal de los puntajes de las múltiples técnicas de resumen.

4. El método de acuerdo con la reivindicación 1, en donde las oraciones con los puntajes más altos se seleccionan para formar el resumen.

5. El método de acuerdo con la reivindicación 2, en donde las técnicas de resumen incluyen una técnica de resumen Luhn, una técnica de resumen del análisis semántico latente, una técnica de resumen del cuerpo del contenido, y una técnica de resumen supervisado.

6. El método de acuerdo con la reivindicación 2, en donde las técnicas de resumen incluyen cualquiera de las dos o más del grupo de técnicas de resumen que consisten de una técnica de resumen Luhn, una técnica de resumen del análisis semántico latente, una técnica de resumen del cuerpo del contenido, y una técnica de resumen supervisado.

7. El método de acuerdo con la reivindicación 1, en donde la determinación de la clasificación utiliza un clasificador Na'íve Bayesiano.

8. El método de acuerdo con la reivindicación 1, en donde la determinación de la clasificación utiliza una máquina del vector de soporte.

9. El método de acuerdo con la reivindicación 1, en donde la generación automática de un resumen utiliza una técnica de resumen Luhn.

10. El método de acuerdo con la reivindicación 1, en donde la generación automática de un resumen utiliza una técnica de resumen del análisis semántico latente.

11. El método de acuerdo con la reivindicación 1, en donde la generación automática de un resumen utiliza una técnica de resumen del cuerpo del contenido.

12. El método de acuerdo con la reivindicación 1, en donde la generación automática de un resumen utiliza una técnica de resumen supervisado.

13. Un método en un sistema de computadora para resumir una página web, el método comprende: recuperar la página web; para cada oración de la página web recuperada, asignar un puntaje a la oración para cada técnica de resumen múltiple; y combinar los puntajes asignados a la oración para generar un puntaje combinado para la oración; y seleccionar las oraciones con los puntajes combinados más altos para formar el resumen de la página web recuperada.

14. El método de acuerdo con la reivindicación 13, en donde el puntaje combinado para cada oración es una combinación lineal de los puntajes asignados.

15. El método de acuerdo con la reivindicación 14, en donde los puntajes asignados de las múltiples técnicas de resumen son ponderadas diferentemente cuando se combinan.

16. El método de acuerdo con la reivindicación 13, en donde las técnicas de resumen incluyen una técnica de resumen Luhn, una técnica de resumen del análisis semántico latente, una técnica de resumen del cuerpo del contenido, y una técnica de resumen supervisada.

17. El método de acuerdo con la reivindicación 13, en donde las técnicas de resumen incluyen cualquiera de dos o más del grupo de técnicas de resumen que consisten de una técnica de resumen Luhn, una técnica de resumen de análisis semántico latente, una técnica de resumen del cuerpo del contenido, y una técnica de resumen supervisada.

18. El método de acuerdo con la reivindicación 13, en donde una técnica de resumen es una técnica de resumen Luhn en la cual una clasificación tiene una colección de palabras significativas.

19. El método de acuerdo con la reivindicación 18, en donde las palabras escandalosas se descartan de una colección.

20. El método de acuerdo con la reivindicación 13, en donde la técnica de resumen es una técnica de resumen supervisada en la cual una oración se representa a través de un grupo de funciones que incluyen una función basada en la semejanza entre la oración y los metadatos de la página web.

21. El método de acuerdo con la reivindicación 13, en donde la técnica de resumen es una técnica de resumen supervisada en la cual una oración se representa a través de un grupo de funciones que incluyen una función basada en las palabras de la oración que están resaltadas en la página web.

22. El método de acuerdo con la reivindicación 13, en donde la técnica de resumen es una técnica de resumen supervisada en la cual una oración se representa a través de un grupo de funciones que incluyen una función basada en el tamaño de la fuente de las palabras en la oración.

23. El método de acuerdo con la reivindicación 13, que incluye la identificación de una clasificación para la página web recuperada con base en el resumen de la página web recuperada.

24. El método de acuerdo con la reivindicación 23, en donde la identificación de la clasificación utiliza un clasificador Na'ive Bayesiano.

25. El método de acuerdo con la reivindicación 23, en donde la identificación de la clasificación utiliza una máquina del vector de soporte.

26. Un medio legible por computadora que contiene instrucciones para causar que un sistema de computadora genere un resumen de una página de presentación a través de un método que comprende: para cada oración de la página de presentación, generar un puntaje para la página de presentación que está basado en las múltiples técnicas de resumen; y seleccionar las oraciones con los puntajes generados más altos para formar un resumen de la página de presentación.

27. El medio legible por computadora de acuerdo con la reivindicación 26, en donde el puntaje generado para cada oración es una combinación de un puntaje para cada una de las múltiples técnicas de resumen.

28. El medio legible por computadora de acuerdo con la reivindicación 27, en donde los puntajes de las múltiples técnicas de resumen son ponderados de manera diferente.

29. El medio legible por computadora de acuerdo con la reivindicación 26, en donde las técnicas de resumen incluyen la técnica de resumen Luhn, una técnica de resumen del análisis semántico latente, una técnica de resumen del cuerpo del contenido, y una técnica de resumen supervisado.

30. El medio legible por computadora de acuerdo con la reivindicación 26, en donde las técnicas de resumen incluyen cualquiera de dos o más del grupo de técnicas de resumen que consiste de una técnica de resumen Luhn, una técnica de resumen del análisis semántico latente, una técnica de resumen del cuerpo del contenido, y una técnica de resumen supervisado.

31. El medio legible por computadora de acuerdo con la reivindicación 26, en donde la técnica de resumen es una técnica de resumen Luhn en la cual una clasificación tiene una colección de las palabras significativas.

32. El medio legible por computadora de acuerdo con la reivindicación 31, en donde las palabras escandalosas son descartadas de la colección.

33. El medio legible por computadora de acuerdo con la reivindicación 26, en donde la técnica de resumen es una técnica de resumen supervisado en la cual la oración está representada por un grupo de funciones que incluyen una función basada en la semejanza entre la oración y los metadatos de la página de presentación.

34. El medio legible por computadora de acuerdo con la reivindicación 26, en donde la técnica de resumen es una técnica de resumen supervisado en la cual la oración está representada por un grupo de funciones que incluyen una función basada en palabras de la oración que están resaltadas en la página de presentación.

35. El medio legible por computadora de acuerdo con la reivindicación 26, en donde la técnica de resumen es una técnica de resumen supervisado en la cual la oración está representada por un grupo de funciones que incluyen una función basada en el tamaño de la fuente de la palabras en la oración.

36. El medio legible por computadora de acuerdo con la reivindicación 26, que incluye identificar una clasificación para la página de presentación con base en el resumen de la página de presentación.

37. Un sistema de computadora para clasificar páginas de presentación, que comprende: medios para automáticamente generar un resumen de la página de presentación; y medios para identificar una clasificación para la página de presentación con base en el resumen automáticamente generado.

38. El sistema de computadora de acuerdo con la reivindicación 37, en donde los medios para automáticamente generar el resumen calculan un puntaje para cada oración de la página de presentación utilizando múltiples técnicas de resumen.

39. El sistema de computadora de acuerdo con la reivindicación 38, en donde el puntaje para cada oración es una combinación lineal de los puntajes de las múltiples técnicas de resumen.

40. El sistema de computadora de acuerdo con la reivindicación 37, en donde las técnicas de resumen incluyen una técnica de resumen Luhn, una técnica de resumen del análisis semántico latente, una técnica de resumen del cuerpo del contenido, y una técnica de resumen supervisado.

41. El sistema de computadora de acuerdo con la reivindicación 37, en donde las técnicas de resumen incluyen cualquiera de dos o más del grupo de técnicas de resumen que consiste de una técnica de resumen Luhn, una técnica de resumen del análisis semántico latente, una técnica de resumen del cuerpo del contenido, y una técnica de resumen supervisado.

42. El sistema de computadora de acuerdo con la reivindicación 41, en donde a cada oración de la página de presentación se le asigna un puntaje que es una combinación de los puntajes de las múltiples técnicas de resumen.