MXPA05004682A - Metodo y sistema para clasificar paginas de presentacion utilizando resumenes. - Google Patents

Metodo y sistema para clasificar paginas de presentacion utilizando resumenes.

Info

Publication number
MXPA05004682A
MXPA05004682A MXPA05004682A MXPA05004682A MXPA05004682A MX PA05004682 A MXPA05004682 A MX PA05004682A MX PA05004682 A MXPA05004682 A MX PA05004682A MX PA05004682 A MXPA05004682 A MX PA05004682A MX PA05004682 A MXPA05004682 A MX PA05004682A
Authority
MX
Mexico
Prior art keywords
technique
sentence
web page
score
supervised
Prior art date
Application number
MXPA05004682A
Other languages
English (en)
Inventor
Chen Zheng
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of MXPA05004682A publication Critical patent/MXPA05004682A/es

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

Se describen un metodo y sistema para clasificar paginas de presentacion basandose en resumenes automaticamente generados de paginas de presentacion. Un sistema de clasificacion de pagina web utiliza un sistema de resumen de pagina web para generar resumenes de las paginas web. El resumen de una pagina web puede incluir las oraciones de la pagina web que estan mas relacionadas con el topico principal de la pagina web. El sistema de resumen puede combinar los beneficios de multiples tecnicas de resumen para identificar las oraciones de una pagina web que representa el topico principal de la pagina web. Una vez que el resumen es generado, el sistema de clasificacion puede aplicar tecnicas de clasificacion convencionales al resumen para clasificar la pagina web. El sistema de clasificacion puede utilizar tecnicas de clasificacion convencionales tales como un clasificador Bayesiano simple o una maquina de vector de soporte para identificar las clasificaciones de una pagina web basandose en el resumen generado por el sistema de resumen.

Description

METODO Y SISTEMA PARA CLASIFICAR PAGINAS DE PRESENTACION UTILIZANDO RESUMENES CAMPO TECNICO La tecnología descrita se refiere en general a la clasificación automática de la información.
ANTECEDENTES Muchos servicios del motor de búsqueda, tales como Google y Overture, proveen la búsqueda de la información que es accesible a través del Internet. Estos servicios del motor de búsqueda permiten a los usuarios buscar páginas de presentación, tales como páginas web, que pueden ser de interés para los usuarios. Después de que un usuario somete una solicitud de búsqueda que incluye términos de búsqueda, el servicio del motor de búsqueda identifica las páginas web que pueden estar relacionadas con esos términos de búsqueda. Para rápidamente identificar las páginas web relacionadas, los servicios del motor de búsqueda pueden mantener una clasificación de las palabras clave de las páginas web. Esta clasificación puede generarse "moviéndose lentamente" en la web (es decir, la Red Amplia Mundial) para identificar las palabras clave de cada página web. Al moverse lentamente en la web, el servicio del motor de búsqueda puede utilizar una lista de las páginas web raíz para identificar todas las páginas web que son accesibles a través de esas páginas web raíz. Las palabras clave de cualquier página web particular pueden identificarse utilizando varias técnicas de recuperación de información bien conocidas, tales como identificando ias palabras de un titular, la palabras suministradas en los metadatos de la página web, las palabras que están resaltadas, etc. el servicio del motor de búsqueda puede generar un valor de relevancia para indicar que tan relevante puede ser la información de la página web para la solicitud de búsqueda basado en la cercanía en cada comparación, la popularidad de la página web (por ejemplo, La Página de Clasificación de Google), etc. El servicio del motor de búsqueda entonces despliega al usuario los enlaces a aquellas páginas web en un orden que está basado en sus clasificaciones. Aunque los servicios del motor de búsqueda pueden devolver muchas páginas web como un resultado de la búsqueda, la presentación de las páginas web en un orden clasificado puede hacer difícil para un usuario actualmente encontrar esas páginas web de interés particular para el usuario. Ya que las páginas web que se presentan primero pueden dirigirse a tópicos populares, un usuario que está interesado en un tópico oscuro puede necesitar explorar muchas páginas del resultado de la búsqueda para encontrar una página de interés. Para hacer más fácil para el usuario encontrar páginas web de interés, el resultado de la búsqueda de las páginas web podría presentarse en una organización jerárquica basada en alguna clasificación o categorización de las páginas web. Por ejemplo, si un usuario somete una solicitud de búsqueda de "peleas en el tribunal", el resultado de la búsqueda puede contener páginas web que pueden ser clasificadas como relacionadas con los deportes o relacionadas con la ley. El usuario puede preferir que inicialmente se le presente una lista de clasificaciones de las páginas web para que el usuario pueda seleccionar la clasificación de las páginas web que le interesan. Por ejemplo, se le podría presentar primer al usuario una indicación de que las páginas web del resultado de la búsqueda han sido clasificadas como relacionadas con los deportes o relacionadas con la ley. El usuario puede entonces seleccionar la clasificación relacionadas con la ley para ver páginas web que están relacionadas con la ley. En contraste, ya que las páginas web de deportes son más populares que las páginas web legales, un usuario podría tener que explorar muchas páginas para encontrar páginas web relacionadas con la ley si las páginas web más populares se presentan primero. Podría ser impráctico manualmente clasificar los millones de páginas web que están actualmente disponibles. Aunque las técnicas de clasificación automatizadas se han utilizado para clasificar contenido basado en texto, esas técnicas generalmente no son aplicables a contenido escandaloso, tal como un anuncio o una barra de navegación, que no está directamente relacionada con el tópico principal de la página web. Debido a que las técnicas de clasificación basadas en texto convencionales podrían utilizar dicho contenido escandaloso cuando clasifican una página web, estas técnicas tenderían a producir clasificaciones incorrectas de las páginas web. Sería deseable tener una técnica de clasificación para páginas web que basarán su clasificación de la página web en un tópico principal de la página web y den muy poco peso al contenido escandaloso de la página web.
COMPENDIO DE LA INVENCION Un sistema de clasificación y resumen clasifica y presenta dichas páginas web con base en resúmenes automáticamente generados de las páginas de presentación. En una modalidad, un sistema para la clasificación de páginas web utiliza un sistema de resumen de la página web para generar resúmenes de las páginas web. El resumen de una página web puede incluir las oraciones de la página web que están más estrechamente relacionadas con el tópico principal de la página web. El sistema de resumen puede combinar los beneficios de múltiples técnicas de resúmenes para identificar las oraciones de una página web que representan el tópico principal de la página web. Una vez que se genera un resumen, el sistema de clasificación puede aplicar las técnicas de clasificación convencionales al resumen para clasificar la página web.
BREVE DESCRIPCION DE LOS DIBUJOS La Figura 1 es un diagrama de bloque que ilustra los componentes de un sistema de clasificación y un sistema de resumen en una modalidad. La Figura 2 es un diagrama de flujo que ilustra el procesamiento del componente para la clasificación de la página web en una modalidad. La Figura 3 es un diagrama de flujo que ilustra el procesamiento del componente de resumen de la página web en una modalidad. La Figura 4 es un diagrama de flujo que ilustra el procesamiento del componente que calcula el puntaje en una modalidad. La Figura 5 es un diagrama de flujo que ilustra el procesamiento el componente que calcula el puntaje Luhn en una modalidad. La Figura 6 es un diagrama de flujo que ilustra el procesamiento del componente que calcula el puntaje del análisis semántico latente en una modalidad. La Figura 7 es un diagrama de flujo que ilustra el procesamiento el componente que calcula el puntaje del cuerpo del contenido en una modalidad. La Figura 8 es un diagrama de flujo que ilustra el procesamiento el componente que calcula el puntaje supervisados en una modalidad. La Figura 9 es un diagrama de flujo que ilustra el componente del puntaje combinados en una modalidad.
DESCRIPCION DETALLADA Se provee un método y un sistema para clasificar páginas de presentación basados en resúmenes automáticamente generados de las páginas de presentación. En una modalidad, un sistema de clasificación de una página web utiliza el sistema de resumen de la página web para generar resúmenes de las páginas web. El resumen de una página web puede incluir las oraciones de la página web que están más estrechamente relacionadas con el tópico principal de la página web. Una vez que se genera el resumen, el sistema de clasificación puede aplicar las técnicas de clasificación convencionales al resumen para clasificar la página web. El sistema de resúmenes puede combinar los beneficios de las técnicas de resúmenes múltiples para identificar las oraciones de una página web que representa el tópico principal de la página web. En una modalidad, el sistema de resúmenes utiliza una técnica se resumen Luhn, una técnica de resumen del análisis semántico latente, una técnica de resumen del cuerpo del contenido, y una técnica de resumen supervisada ya sea individualmente o en combinación para generar un resumen. El sistema de resumen utiliza cada una de las técnicas de resumen para generar un valor específico de la técnica del resumen para cada oración de una página web. El sistema de resumen entonces combina el puntaje específico de la técnica de resumen para una oración para generar un valor global para esa oración. El sistema de resumen selecciona las oraciones de la página web con los puntajes globales más altos para formar el resumen de la página web. El sistema de clasificación puede utilizar técnicas de clasificación convencionales tales como un clasificador Na'íve Bayesiano o simple o una máquina del vector de soporte para identificar las clasificaciones de una página web basada en el resumen generado por el sistema del resumen. En esta forma, las páginas web pueden ser automáticamente clasificadas con base en los resúmenes automáticamente generados de las páginas web. En una modalidad, el sistema de resumen utiliza una versión modificada de la técnica de resumen Luhn para generar el puntaje de cada oración de una página web. La técnica de resumen Luhn genera un valor para una oración está basado en las "palabras significativas" que están en la oración. Para generar un puntaje de una oración, la técnica de resumen Luhn identifica una porción de cierto número de palabras no significativas aparte. La técnica de resumen Luhn calcula el puntaje de la oración como la proporción del cuadro del número de palabras significativas contenidas en la porción entre paréntesis por el número de palabras dentro del a porción entre paréntesis. (Ver H.P. Luhn, The Automatic Creation of Literature Abstráete, 2IBM J DE RES. & DEV. No. 2, 159-65 (Abril de 1958). El sistema de resumen modifica la técnica de resumen Luhn definiendo una colección de palabras significativas para cada clasificación. Por ejemplo, una clasificación relacionada con los deportes puede tener una colección de palabras significativas que incluyen, "tribunal", "basquetbol", y "deporte", mientras que una clasificación relacionada con la ley puede tener una colección de palabras significativas que incluyen "tribunal", "abogado", y "criminal". El sistema de resumen puede identificar las colecciones de palabras significativas basadas en un grupo de entrenamiento de páginas web que han sido preclasificadas. El sistema de resumen puede seleccionar las palabras de uso más frecuente en las páginas web con una cierta clasificación como la colección de palabras significativas para esa clasificación. El sistema de resumen también puede remover ciertas palabras vacías de la colección que pueden representar contenido escandaloso. Cuando se califica una oración de una página web, la técnica para el resumen Luhn modificada calcula un puntaje para cada clasificación. La técnica de resumen entonces promedia los puntajes para cada clasificación que están por arriba del nivel del umbral para dar un puntaje Luhn combinado para la oración. El sistema de resumen puede seleccionar las oraciones con los puntajes Luhn más altos para formar el resumen. En una modalidad, el sistema de resumen utiliza una técnica de resumen del análisis semántico latente para generar el análisis semántico latente para cada oración de una página web. La técnica de resumen del análisis semántico latente utiliza la descomposición del valor individual para generar un puntaje para cada oración. El sistema de resumen genera una matriz palabra-oración para la página web que contiene un valor de término frecuencia ponderado para cada combinación palabra-oración. La matriz se puede representar a través de lo siguiente: A = U?VT (1) en donde A representa la matriz palabra-oración, U es una matriz normal de columna cuyas columnas son vectores singulares izquierdos, ? es una matriz diagonal cuyos elementos diagonales son valores singulares no negativos clasificados en orden descendente, y V es una matriz normal cuyas columnas son vectores singulares derechos. Después de descomponer la matriz en U, ?, y V, el sistema de resumen utiliza los vectores singulares derechos para generar los puntajes de las oraciones. (Ver, Y.H. Gong y X. Liu, Generis Text Summarization Using Relevante Measure and Latent Semantic Análisis, en PROC. OF THE 24TH ANNUAL I TER ATIONAL ACM SIGIT, Nueva Orleans, Louisiana, 19-25 (2001). El sistema de resumen puede seleccionar el primer vector singular derecho y la oración que tiene el valor índice más alto dentro de ese vector. El sistema de resumen entonces le da a la oración el puntaje más alto. El sistema de resumen entonces selecciona el segundo vector singular derecho y el da a la oración que tiene el valor índice más alto dentro de ese vector el segundo puntaje más alto. El sistema de resumen entonces continúa en una forma similar para generar los puntajes para las otras oraciones. El sistema de resumen puede seleccionar las oraciones con los puntajes más altos para formar el resumen de la página web. En una modalidad, el sistema de resumen utiliza una técnica de resumen del cuerpo del contenido para generar un puntaje del cuerpo del contenido para cada oración de una página web. La técnica para el resumen del cuerpo del contenido identifica el cuerpo del contenido de una página web y da un alto puntaje a las oraciones dentro del cuerpo del contenido. Para identificar el cuerpo del contenido de una página web, la técnica para el resumen del cuerpo del contenido identifica los objetos básicos y los objetos de composición de la página web. Un objeto básico es el área de información más pequeña que no puede dividir más. Por ejemplo, en HTML, un objeto básico es un elemento no fraccionable dentro de dos etiquetas o un objeto embebido. Un objeto de composición es un grupo de objetos básicos u otros objetos de composición que se combinan para realizar una función. Después de identificar los objetos, el sistema de resumen clasifica los objetos en categorías tales como información, navegación, interacción, decoración, o función especial. La categoría información es para los objetos que presentan información de contenido, la categoría navegación es para los objetos que presentan una guía de navegación, la categoría interacción es para los objetos que presentan interacciones del usuario (por ejemplo, campo de captura), la categoría decoración es para los objetos que presentan información tal como información legal, información de contacto, información del logo, etc. (Ver, J.L. Chen, y otros, Function-based Object Model Towards Website Application, PROC. OF WWW10, Hong Kong, China (2001). En una modalidad, el sistema de resumen construye una frecuencia de término a través del índice de frecuencia del documento invertido (es decir, TF*IDF) para cada objeto. El sistema de resumen entonces calcula la semejanza entre pares de objetos utilizando un cálculo de la semejanza tal como semejanza de coseno. Si la semejanza entre los objetos del par es mayor que un nivel de umbral, el sistema de resumen enlaza los objetos del par. El sistema de resumen entonces identifica el objeto que tiene el mayor número de enlaces con él según el objeto núcleo representa el tópico principal de la página web. El cuerpo del contenido de la página web es el objeto núcleo junto con cada objeto que tiene un enlace con el objeto del núcleo. El sistema de resumen da un puntaje alto a cada oración del cuerpo del contenido y un puntaje bajo a cada otra oración de la página web. El sistema de resumen puede seleccionar las oraciones con un alto puntaje para formar el resumen de la página web. En una modalidad, el sistema de resumen utiliza una técnica de resumen supervisada para generar un puntaje supervisado para cada frese de una página web. La técnica de resumen supervisado utiliza los datos de entrenamiento para aprender una función de resumen que identifica si una oración deberá ser seleccionada como parte de un resumen. La técnica de resumen supervisado representa cada oración a través de un vector de función definido en el Cuadro 1 en donde fu representa el valor de la función ith de la oración /.
CUADRO 1 El sistema de resumen puede utilizar un clasificador Nai've Bayesian para aprender la función del resumen. La función del resumen puede estar representada por lo siguiente: en donde p(seS) significa la tasa de compresión del resumidor (el cual puede ser predefinido para diferentes aplicaciones), p(f¡) es la probabilidad de cada función j, y p(/¡\ seS) es la probabilidad condicional de cada función j. Los últimos dos factores pueden estimarse a partir del grupo de entrenamiento. En una modalidad, el sistema de resumen combina los puntajes de la técnica de resumen Luhn, ia técnica de resumen del análisis semántico latente, la técnica de resumen del cuerpo del contenido, y la técnica de resumen supervisada para generar un puntaje global. Los puntajes pueden ser combinados como sigue: S = S/uhn + Sisa + S0¿ + Ssup (3) en donde S representa el puntaje combinado, S,uftn representa el puntaje Luhn, Slsa representa el puntaje del análisis semántico latente, Scb representa el puntaje del contenido del cuerpo, y Ssup representa el puntaje supervisado. Alternativamente, el sistema de resumen puede aplicar un factor de ponderación para cada puntaje de la técnica de resumen de tal forma que no todos los puntajes de las técnicas de resumen se ponderan igualmente. Por ejemplo si el puntaje Luhn se piensa que va a ser una reflexión más exacta de la relevancia de una oración al tópico principal de ia página web, entonces el factor de ponderación para el puntaje Luhn podría ser .7 y el factor de ponderación para los otros puntajes podrían ser .1 para cada uno. Si el factor de ponderación para una técnica de resumen se fija en cero, entonces el sistema de resumen no utiliza esa técnica de resumen. Uno con experiencia en la técnica apreciará que cualquier número de técnicas de resumen pueden tener sus pesos fijados en cero. Por ejemplo, si un factor de ponderación de 1 se utiliza para el puntaje Luhn y de cero para los otros puntajes, entonces el puntaje "combinado" sería simplemente el puntaje Luhn. Además, el sistema de resumen puede normalizar cada uno de los puntajes de la técnica de resumen. El sistema de resumen también puede utilizar una combinación no lineal de los puntajes de la técnica de resumen. El sistema de resumen puede seleccionar las oraciones con los puntajes combinados más altos para formar el resumen de la página web. En una modalidad, el sistema de clasificación utiliza un clasificador Na'íve Bayesian para clasificar una página web con base en este resumen. El calificador Na'íve Bayesian utiliza una regla Bayesian, la cual se puede definir como sigue: en donde se puede calcular contando la frecuencia con cada categoría c¡ que ocurre en los datos de entrenamiento, |C| es el numero de categorías, p(w¡ \ c¡ ) es una probabilidad de que la palabra w¡ pcurra en la clase c¡, N(wk, d¡)es el número de ocurrencias de una palabra wk y d¡ es el número de palabras en los datos de entrenamiento. (Ver A.McCallum . Nigam, A Comparison of Event Models for Naí've Bayesian Text Classification, en AAAI-98 WORKSHOP ON LEARNING POR TEXT CATEGORIZATION (1998). Ya que w¡, puede ser pequeño en los datos de entrenamiento, se puede utilizar un emparejamiento de LaPlace para estimar su valor. En una modalidad alternativa el sistema de clasificación utiliza una máquina del vector de soporte para clasificar una página web con base en su resumen. Una máquina del vector de soporte opera encontrando una hiper-superficie en el espacio de las capturas posibles. La hiper-superficie intenta dividir los ejemplos positivos de los ejemplos de navegación maximizando la distancia entre el más cercano del ejemplo positivo y del negativo a la hiper-superficie. Se pueden utilizar varias técnicas para entrenar una máquina del vector de soporte. Una técnica utiliza un algoritmo de optimización mínima secuencial que desglosa el problema de programación cuadrático grande en series de problemas de programación cuadráticos pequeños que pueden ser resueltos analíticamente (Ver Sequential Minimal Optimization, en http://research.microsoft.com/~jplatt/smo.html.) La Figura 1 es un diagrama de bloque que ilustra los componentes de un sistema de clasificación y un sistema de resumen en una modalidad. El sistema de clasificación 100 incluye un componente de clasificación de la página web 111 y un componente clasificador 112. El sistema de resumen 120 incluye de resumen de la página web 121, un componente de clasificación de oraciones 122, un componente de cálculo de puntaje 123, y un componente para seleccionar las mejores oraciones 124. El componente para clasificar a la página web utiliza el componente para resumir la página web para generar un resumen de la página web y después utiliza el componente clasificador para clasificar la página web con base en el resumen. El componente para el resumen de la página web utiliza el componente para calcular los puntajes para calcular un puntaje para cada oración de la página web. El componente para el resumen de la página web entonces utiliza el componente para clasificar las oraciones para clasificar las oraciones de la página web con base en sus puntajes y para que el componente para seleccionar las mejores oraciones seleccione las oraciones con los puntajes más altos para formar el resumen de la página web. El componente para calcular los puntajes utiliza un componente de puntaje Luhn 125, un componente para calcular el puntaje del análisis semántico latente 126, un componente para calcular el puntaje del cuerpo del contenido 127, y un componente para calcular el puntaje supervisado 128 para generar puntajes de varias técnicas de resumen. El componente que calcula los puntajes entonces combina los puntajes para que las técnicas de resumen para provean un puntaje global de cada oración.
El dispositivo de computación en el cual el sistema de resumen se implementa puede incluir una unidad de procesamiento central, una memoria, dispositivos de entrada (por ejemplo, teclado y dispositivos de apuntamiento), dispositivos de salida (por ejemplo, dispositivos de presentación), y dispositivos de almacenamiento (por ejemplo, unidades de disco). Los dispositivos de memoria y almacenamiento son medios legibles por computadora que pueden contener instrucciones que implementan el sistema de resumen. Además, las estructuras de datos y las estructuras de los mensajes se pueden almacenar o transmitir a través de un medio para la transmisión de datos, tal como una señal en un enlace de comunicación. Se pueden utilizar varios enlaces de comunicación, tales como el Internet, una red de área local, una red de área amplia, o una conexión de marcación de punto a punto. El sistema de resumen se puede implementar en varios ambientes operativos. El ambiente operativo descrito aquí es solamente un ejemplo de un ambiente operativo adecuado y no pretende sugerir ninguna limitación al alcance del uso o funcionalidad del sistema de resumen. Otros sistemas, ambientes y configuraciones bien conocidos que pueden ser adecuados para uso incluyen computadoras personales, computadoras servidor, dispositivos manuales o portátiles, sistemas multiprocesador, sistemas basados en microprocesador, electrónicos de consumidor programables, PCs en red, minicomputadoras, computadoras principales, entornos de computación distribuidos que incluyen cualquiera de los sistemas o dispositivos anteriores y similares. El sistema de resumen se puede describir en el contexto general de instrucciones ejecutables por computadora, tales como módulos de programa, ejecutados por una o más computadoras u otros dispositivos. Generalmente, los módulos de programa incluyen rutinas, programas, objetos, componentes, estructuras de datos, etc. que llevan a cabo tareas particulares o implementan tipos de datos abstractos. Típicamente, la funcionalidad de los módulos de programa puede estar combinada o distribuida en varias modalidades. La Figura 2 es un diagrama de flujo que ilustra el procesamiento del componente para la clasificación de la página web en una modalidad. Al componente se le pasa la página web y devuelve sus clasificaciones. En el bloque 201, el componente invoca el componente para el resumen de la página web para generar un resumen de la página web. En el bloque 202, el componente clasifica la página web con base en el resumen de la página web utilizando un clasificador tal como un clasificador Na'íve Bayesian o una máquina de vector de soporte. El componente entonces la completa. La Figura 3 es un diagrama de flujo que ilustra el procesamiento del componente que resume la página web en una modalidad. Se le pasa una página al componente, calcula el puntaje para cada una de las oraciones de la página web, y selecciona las oraciones con los puntajes más altos para formar el resumen de la página web. En el bloque 301, el componente invoca el componente que calcula el puntaje para calcular un puntaje para cada oración. En el bloque 302, el componente clasifica las oraciones con base en los puntajes calculados. En el bloque 303, el componente selecciona las oraciones con los mejores puntajes para formar el resumen para la página web. El componente entonces devuelve el resumen. La Figura 4 es un diagrama de flujo que ilustra el procesamiento del componente que calcula los puntajes en una modalidad. Se le pasa una página web al componente, calcula varios puntajes de las técnicas de resumen para las oraciones de la página web, y calcula el puntaje combinado para cada oración con base en aquellos puntajes de las técnicas de resumen. El componente puede alternativamente calcular un puntaje utilizando solamente una técnica de resumen o varias combinaciones de las técnicas de resumen. En el bloque 401, el componente invoca al componente para calcular el puntaje Luhn para calcular un puntaje Luhn para cada oración de la página web. En el bloque 402, el componente invoca el componente para el cálculo del puntaje del análisis semántico latente para calcular un puntaje del análisis semántico latente para cada oración de la página web. En el bloque 403, el componente invoca el componente para el cálculo del puntaje del cuerpo del contenido para calcular un puntaje del cuerpo del contenido para cada oración de la página web. En el bloque 404, el componente invoca al componente para calcular el puntaje supervisado para calcular un puntaje supervisado para cada oración de la página web. En el bloque 405, el componente invoca un componente que combina puntajes para calcular un puntaje combinado para cada oración de la página web. El componente entonces devuelve los puntajes combinados. La Figura 5 es un diagrama de flujo que ilustra el procesamiento del componente para el cálculo del puntaje Luhn en una modalidad. Se ie pasa una página web al componente y calcula un puntaje Luhn para cada oración de la página web. En el bloque 501, el componente selecciona la siguiente oración de la página web. En el bloque de decisión 502, si todas las oraciones de la página web ya han sido seleccionadas, entonces el componente devuelve los puntajes Luhn, de lo contrario el componente continúa al bloque 503. En los bloques 503-509, el componente da la vuelta de regreso generando un puntaje de la clase para la oración seleccionada para cada clasificación. En el bloque 503, el componente selecciona la siguiente clasificación. En el bloque de decisión 504, si todas las clasificaciones ya han sido seleccionadas, entonces el componente continúa al bloque 510, de lo contrario el componente continúa al bloque 505. En el bloque 505, el componente identifica las palabras de la oración seleccionada que están entre paréntesis mediante las palabras significativas de la clasificación seleccionada. En el bloque de decisión 506, si las palabras entre paréntesis están identificadas, entonces el componente continúa al bloque 507, de lo contrario el componente da la vuelta de regreso al bloque 503 para seleccionar la siguiente clasificación. En el bloque 507, el componente cuenta las palabras significativas dentro de la porción entre paréntesis de la oración seleccionada. En el bloque 508, el componente cuenta las palabras dentro de la porción entre paréntesis de la oración seleccionada. En el bloque 509, el componente calcula un puntaje para la clasificación como el cuadro del conteo de las palabras significativas dividido por el conteo de las palabras. El componente entonces da la vuelta de regreso al bloque 503 para seleccionar la siguiente clasificación. En el bloque 510, el componente calcula el puntaje Luhn para la oración seleccionada como una suma de los puntajes de las clases dividido por el número de clasificaciones para las cuales una porción entre paréntesis de la oración seleccionada fue identificada (es decir, el promedio de los puntajes de la clase que fueron calculados). El componente entonces da la vuelta de regreso al bloque 501 para seleccionar la siguiente oración. La Figura 6 es un diagrama de flujo que ilustra el procesamiento del componente que calcula el puntaje del análisis semántico latente en una modalidad. Al componente se le pasa una página web y calcula un puntaje del análisis semántico latente para cada oración de la página web pasada. En los bloques 601-603, el componente da la vuelta de regreso construyendo un vector de término por peso para cada oración de la página web. En el bloque 601, el componente selecciona la siguiente oración de la página web. En el bloque de decisión 602, si todas las oraciones de la página web ya han sido seleccionadas, entonces el componente continúa al bloque 604, de lo contrario el componente continúa al bloque 603. En el bloque 603, el componente construye un vector de término por peso para la oración seleccionada y después da la vuelta de regreso al bloque 601 para seleccionar la siguiente oración. Los vectores de término por peso para las oraciones formar una matriz que se descompone para dar una matriz de los vectores singulares derechos. En el bloque 604, el componente realiza la descomposición del valor singular de la matriz para generar los vectores singulares derechos. En los bloques 605-607, el componente da la vuelta de regreso configurando un puntaje para cada oración con base en los vectores singulares derechos. En el bloque 605, el componente selecciona el siguiente vector singular derecho. En el bloque de decisión 606, si todos los vectores singulares derechos ya han sido seleccionados, entonces el componente regresa el puntaje como los puntajes del análisis semántico latente, de lo contrario el componente continúa al bloque 607. En el bloque 607, el componente fija el puntaje de la oración con el valor índice más alto del vector singular derecho seleccionado y después da la vuelta de regreso al bloque 605 para seleccionar el siguiente vector singular derecho. La Figura 7 es un diagrama de flujo que ilustra el procesamiento del componente para calcular el puntaje del cuerpo del contenido en una modalidad. A componente se le pasa una página web y calcula el puntaje del cuerpo del contenido para cada oración de la página pasada. En el bloque 701, el componente identifica los objetos básicos de la página web. En el bloque 702, el componente identifica los objetos de composición de la página web. En los bloques 703-705, el componente da la vuelta de regreso para generar un vector de la frecuencia del término/frecuencia del documento invertida para cada objeto. En el bloque 703, el componente selecciona el siguiente objeto. En el bloque de decisión 704, si todos los objetos ya han sido seleccionados, entonces el componente continúa al boque 706, de lo contrario el componente continúa al bloque 705. En el bloque 705, el componente genera el vector de frecuencia del término/frecuencia del documento invertida para el objeto seleccionado y después da la vuelta de regreso al bloque 703 para seleccionar el siguiente objeto. En los bloques 706-710, el componente da la vuelta de regreso para calcular la semejanza entre los pares de objetos. En el bloque 706, el componente selecciona el siguiente par de objetos. En el bloque de decisión 707, si todos los pares de objetos ya han sido seleccionados, entonces el componente continúa al bloque 711, de lo contrario el componente continúa al bloque 708. En el bloque, 708, el componente calcula la semejanza entre los pares de objetos seleccionados. En el bloque de decisión 709, si la semejanza es mayor que un nivel de umbral de semejanza, entonces el componente continúa al bloque 710, de lo contrario el componente da la vuelta de regreso al bloque 706 para seleccionar el siguiente par de objetos. En el bloque 710, el componente agrega un enlace entre el par de objetos seleccionados y después da la vuelta de regreso al bloque 706 para seleccionar el siguiente par de objetos. En los bloques 711-715, el componente identifica el cuerpo del contenido de la página web identificando un objeto núcleo y todos los objetos con los enlaces con aquel del objeto núcleo. En el bloque 711, el componente identifica el objeto núcleo como el objeto con el mayor número de enlaces hacia él. En el bloque 712, el componente selecciona la siguiente oración de la página web. En el bloque de decisión 713, si todas las oraciones ha han sido seleccionadas, entonces el componente regresa los puntajes del cuerpo de contenido, de lo contrario el componente continúa al bloque 714. En el bloque de decisión 714, si la oración está dentro de un objeto que está enlazado al objeto núcleo, entonces la oración está dentro del cuerpo del contenido y el componente continúa al bloque 715, de lo contrario el componente establece el puntaje de la oración seleccionada en cero y da la vuelta de regreso al bloque 712 para seleccionar la siguiente oración. En el bloque 715, el componente establece el puntaje de la oración seleccionada a un puntaje alto y después da la vuelta de regreso al bloque 712 para seleccionar la siguiente oración. La Figura 8 es un diagrama de flujo que ilustra el procesamiento del componente para calcular el puntaje supervisado en una modalidad. Al componente se le pasa una página web y calcula un puntaje supervisado para cada oración de la página web. En el bloque 801, el componente selecciona la siguiente oración de la página web. En el bloque de decisión 802, si todas las oraciones ya han sido seleccionadas, entonces el componente regresa los puntajes supervisados, de lo contrario el componente continúa al bloque 803. En el bloque 803, el componente genera el vector de la función para la oración seleccionada. En el bloque 804, el componente calcula el puntaje para la oración seleccionada utilizando el vector de la función generado y la función de resumen aprendida. El componente entonces da la vuelta de regreso al bloque 801 para seleccionar la siguiente oración. La Figura 9 es un diagrama de flujo que ilustra el procesamiento del componente para calcular los puntajes combinados en una modalidad. El componente genera un puntaje combinado para cada oración de la página web con base en un puntaje Luhn, el puntaje del análisis semántico latente, el puntaje del cuerpo del contenido, y el puntaje supervisado. En el bloque 901, el componente selecciona la siguiente oración de la página web. En el bloque de decisión 902, si todas las oraciones ya han sido seleccionadas, entonces el componente regresa los puntajes combinados, de lo contrario el componente continúa al bloque 903. En el bloque 903, el componente combina los puntajes de las oraciones seleccionadas y entonces da la vuelta de regreso al bloque 901 para seleccionar la siguiente oración. Uno con experiencia en la técnica apreciará que aunque las modalidades específicas del sistema de resumen han sido descritas aquí para propósitos de ilustración, varias modificaciones se pueden hacer sin desviarse del espíritu y alcance de la invención. Uno con experiencia en la técnica apreciará que clasificación se refiere al proceso para identificar la clase o categoría asociada con una página de presentación. Las clases pueden ser predefinidas. Los atributos de una página de presentación que se va a clasificar pueden compararse con los atributos derivados de otras páginas de presentación que han sido clasificadas (por ejemplo, un grupo de entrenamiento). Con base en la comparación, la página de presentación se clasificó en la clase cuyos atributos de la página de presentación son similares a aquellos de la página de presentación que se está clasificando. El agrupamiento, en contraste, se refiere al proceso para identificar de un grupo de páginas de presentación grupo de páginas de presentación que son similares una con la otra. Por consiguiente, la invención no está limitada excepto por las reivindicaciones anexas.

Claims (42)

REIVINDICACIONES
1. Un método en un sistema de computadora para clasificar páginas web, el método comprende: recuperar una página web; automáticamente generar un resumen del la página web recuperada; y determinar una clasificación para la página web recuperada con base en el resumen automáticamente generado.
2. El método de acuerdo con la reivindicación 1, en donde la generación automática del resumen incluye calcular un puntaje para cada oración de la página web utilizando múltiples técnicas de resumen.
3. El método de acuerdo con la reivindicación 2, en donde el puntaje para cada oración es una combinación lineal de los puntajes de las múltiples técnicas de resumen.
4. El método de acuerdo con la reivindicación 1, en donde las oraciones con los puntajes más altos se seleccionan para formar el resumen.
5. El método de acuerdo con la reivindicación 2, en donde las técnicas de resumen incluyen una técnica de resumen Luhn, una técnica de resumen del análisis semántico latente, una técnica de resumen del cuerpo del contenido, y una técnica de resumen supervisado.
6. El método de acuerdo con la reivindicación 2, en donde las técnicas de resumen incluyen cualquiera de las dos o más del grupo de técnicas de resumen que consisten de una técnica de resumen Luhn, una técnica de resumen del análisis semántico latente, una técnica de resumen del cuerpo del contenido, y una técnica de resumen supervisado.
7. El método de acuerdo con la reivindicación 1, en donde la determinación de la clasificación utiliza un clasificador Na'íve Bayesiano.
8. El método de acuerdo con la reivindicación 1, en donde la determinación de la clasificación utiliza una máquina del vector de soporte.
9. El método de acuerdo con la reivindicación 1, en donde la generación automática de un resumen utiliza una técnica de resumen Luhn.
10. El método de acuerdo con la reivindicación 1, en donde la generación automática de un resumen utiliza una técnica de resumen del análisis semántico latente.
11. El método de acuerdo con la reivindicación 1, en donde la generación automática de un resumen utiliza una técnica de resumen del cuerpo del contenido.
12. El método de acuerdo con la reivindicación 1, en donde la generación automática de un resumen utiliza una técnica de resumen supervisado.
13. Un método en un sistema de computadora para resumir una página web, el método comprende: recuperar la página web; para cada oración de la página web recuperada, asignar un puntaje a la oración para cada técnica de resumen múltiple; y combinar los puntajes asignados a la oración para generar un puntaje combinado para la oración; y seleccionar las oraciones con los puntajes combinados más altos para formar el resumen de la página web recuperada.
14. El método de acuerdo con la reivindicación 13, en donde el puntaje combinado para cada oración es una combinación lineal de los puntajes asignados.
15. El método de acuerdo con la reivindicación 14, en donde los puntajes asignados de las múltiples técnicas de resumen son ponderadas diferentemente cuando se combinan.
16. El método de acuerdo con la reivindicación 13, en donde las técnicas de resumen incluyen una técnica de resumen Luhn, una técnica de resumen del análisis semántico latente, una técnica de resumen del cuerpo del contenido, y una técnica de resumen supervisada.
17. El método de acuerdo con la reivindicación 13, en donde las técnicas de resumen incluyen cualquiera de dos o más del grupo de técnicas de resumen que consisten de una técnica de resumen Luhn, una técnica de resumen de análisis semántico latente, una técnica de resumen del cuerpo del contenido, y una técnica de resumen supervisada.
18. El método de acuerdo con la reivindicación 13, en donde una técnica de resumen es una técnica de resumen Luhn en la cual una clasificación tiene una colección de palabras significativas.
19. El método de acuerdo con la reivindicación 18, en donde las palabras escandalosas se descartan de una colección.
20. El método de acuerdo con la reivindicación 13, en donde la técnica de resumen es una técnica de resumen supervisada en la cual una oración se representa a través de un grupo de funciones que incluyen una función basada en la semejanza entre la oración y los metadatos de la página web.
21. El método de acuerdo con la reivindicación 13, en donde la técnica de resumen es una técnica de resumen supervisada en la cual una oración se representa a través de un grupo de funciones que incluyen una función basada en las palabras de la oración que están resaltadas en la página web.
22. El método de acuerdo con la reivindicación 13, en donde la técnica de resumen es una técnica de resumen supervisada en la cual una oración se representa a través de un grupo de funciones que incluyen una función basada en el tamaño de la fuente de las palabras en la oración.
23. El método de acuerdo con la reivindicación 13, que incluye la identificación de una clasificación para la página web recuperada con base en el resumen de la página web recuperada.
24. El método de acuerdo con la reivindicación 23, en donde la identificación de la clasificación utiliza un clasificador Na'ive Bayesiano.
25. El método de acuerdo con la reivindicación 23, en donde la identificación de la clasificación utiliza una máquina del vector de soporte.
26. Un medio legible por computadora que contiene instrucciones para causar que un sistema de computadora genere un resumen de una página de presentación a través de un método que comprende: para cada oración de la página de presentación, generar un puntaje para la página de presentación que está basado en las múltiples técnicas de resumen; y seleccionar las oraciones con los puntajes generados más altos para formar un resumen de la página de presentación.
27. El medio legible por computadora de acuerdo con la reivindicación 26, en donde el puntaje generado para cada oración es una combinación de un puntaje para cada una de las múltiples técnicas de resumen.
28. El medio legible por computadora de acuerdo con la reivindicación 27, en donde los puntajes de las múltiples técnicas de resumen son ponderados de manera diferente.
29. El medio legible por computadora de acuerdo con la reivindicación 26, en donde las técnicas de resumen incluyen la técnica de resumen Luhn, una técnica de resumen del análisis semántico latente, una técnica de resumen del cuerpo del contenido, y una técnica de resumen supervisado.
30. El medio legible por computadora de acuerdo con la reivindicación 26, en donde las técnicas de resumen incluyen cualquiera de dos o más del grupo de técnicas de resumen que consiste de una técnica de resumen Luhn, una técnica de resumen del análisis semántico latente, una técnica de resumen del cuerpo del contenido, y una técnica de resumen supervisado.
31. El medio legible por computadora de acuerdo con la reivindicación 26, en donde la técnica de resumen es una técnica de resumen Luhn en la cual una clasificación tiene una colección de las palabras significativas.
32. El medio legible por computadora de acuerdo con la reivindicación 31, en donde las palabras escandalosas son descartadas de la colección.
33. El medio legible por computadora de acuerdo con la reivindicación 26, en donde la técnica de resumen es una técnica de resumen supervisado en la cual la oración está representada por un grupo de funciones que incluyen una función basada en la semejanza entre la oración y los metadatos de la página de presentación.
34. El medio legible por computadora de acuerdo con la reivindicación 26, en donde la técnica de resumen es una técnica de resumen supervisado en la cual la oración está representada por un grupo de funciones que incluyen una función basada en palabras de la oración que están resaltadas en la página de presentación.
35. El medio legible por computadora de acuerdo con la reivindicación 26, en donde la técnica de resumen es una técnica de resumen supervisado en la cual la oración está representada por un grupo de funciones que incluyen una función basada en el tamaño de la fuente de la palabras en la oración.
36. El medio legible por computadora de acuerdo con la reivindicación 26, que incluye identificar una clasificación para la página de presentación con base en el resumen de la página de presentación.
37. Un sistema de computadora para clasificar páginas de presentación, que comprende: medios para automáticamente generar un resumen de la página de presentación; y medios para identificar una clasificación para la página de presentación con base en el resumen automáticamente generado.
38. El sistema de computadora de acuerdo con la reivindicación 37, en donde los medios para automáticamente generar el resumen calculan un puntaje para cada oración de la página de presentación utilizando múltiples técnicas de resumen.
39. El sistema de computadora de acuerdo con la reivindicación 38, en donde el puntaje para cada oración es una combinación lineal de los puntajes de las múltiples técnicas de resumen.
40. El sistema de computadora de acuerdo con la reivindicación 37, en donde las técnicas de resumen incluyen una técnica de resumen Luhn, una técnica de resumen del análisis semántico latente, una técnica de resumen del cuerpo del contenido, y una técnica de resumen supervisado.
41. El sistema de computadora de acuerdo con la reivindicación 37, en donde las técnicas de resumen incluyen cualquiera de dos o más del grupo de técnicas de resumen que consiste de una técnica de resumen Luhn, una técnica de resumen del análisis semántico latente, una técnica de resumen del cuerpo del contenido, y una técnica de resumen supervisado.
42. El sistema de computadora de acuerdo con la reivindicación 41, en donde a cada oración de la página de presentación se le asigna un puntaje que es una combinación de los puntajes de las múltiples técnicas de resumen.
MXPA05004682A 2004-04-30 2005-04-29 Metodo y sistema para clasificar paginas de presentacion utilizando resumenes. MXPA05004682A (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/836,319 US7392474B2 (en) 2004-04-30 2004-04-30 Method and system for classifying display pages using summaries

Publications (1)

Publication Number Publication Date
MXPA05004682A true MXPA05004682A (es) 2005-11-17

Family

ID=34939612

Family Applications (1)

Application Number Title Priority Date Filing Date
MXPA05004682A MXPA05004682A (es) 2004-04-30 2005-04-29 Metodo y sistema para clasificar paginas de presentacion utilizando resumenes.

Country Status (12)

Country Link
US (2) US7392474B2 (es)
EP (1) EP1591924B1 (es)
JP (1) JP2005322245A (es)
KR (1) KR101203345B1 (es)
CN (1) CN1758245B (es)
AT (1) ATE470192T1 (es)
AU (1) AU2005201766A1 (es)
BR (1) BRPI0502155A (es)
CA (1) CA2505957C (es)
DE (1) DE602005021581D1 (es)
MX (1) MXPA05004682A (es)
RU (1) RU2377645C2 (es)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8868670B2 (en) * 2004-04-27 2014-10-21 Avaya Inc. Method and apparatus for summarizing one or more text messages using indicative summaries
US7392474B2 (en) * 2004-04-30 2008-06-24 Microsoft Corporation Method and system for classifying display pages using summaries
US7707265B2 (en) * 2004-05-15 2010-04-27 International Business Machines Corporation System, method, and service for interactively presenting a summary of a web site
US7475067B2 (en) * 2004-07-09 2009-01-06 Aol Llc Web page performance scoring
US7747618B2 (en) 2005-09-08 2010-06-29 Microsoft Corporation Augmenting user, query, and document triplets using singular value decomposition
US7739254B1 (en) * 2005-09-30 2010-06-15 Google Inc. Labeling events in historic news
KR100775852B1 (ko) 2006-01-18 2007-11-13 포스데이타 주식회사 응용 프로그램의 자원 검색 시스템 및 방법
US20080077576A1 (en) * 2006-09-22 2008-03-27 Cuneyt Ozveren Peer-To-Peer Collaboration
US7672912B2 (en) * 2006-10-26 2010-03-02 Microsoft Corporation Classifying knowledge aging in emails using Naïve Bayes Classifier
US20080103849A1 (en) * 2006-10-31 2008-05-01 Forman George H Calculating an aggregate of attribute values associated with plural cases
US8539329B2 (en) * 2006-11-01 2013-09-17 Bloxx Limited Methods and systems for web site categorization and filtering
US7617182B2 (en) * 2007-01-08 2009-11-10 Microsoft Corporation Document clustering based on entity association rules
US8161369B2 (en) 2007-03-16 2012-04-17 Branchfire, Llc System and method of providing a two-part graphic design and interactive document application
CN101296155B (zh) * 2007-04-23 2011-02-16 华为技术有限公司 对内容分类的方法及系统
CN101452470B (zh) * 2007-10-18 2012-06-06 广州索答信息科技有限公司 摘要式网络搜索引擎系统及其搜索方法与应用
CN101184259B (zh) * 2007-11-01 2010-06-23 浙江大学 垃圾短信中的关键词自动学习及更新方法
US9292601B2 (en) * 2008-01-09 2016-03-22 International Business Machines Corporation Determining a purpose of a document
CN101505295B (zh) * 2008-02-04 2013-01-30 华为技术有限公司 一种内容和类别的关联方法和设备
US8046361B2 (en) * 2008-04-18 2011-10-25 Yahoo! Inc. System and method for classifying tags of content using a hyperlinked corpus of classified web pages
US20110047006A1 (en) * 2009-08-21 2011-02-24 Attenberg Joshua M Systems, methods, and media for rating websites for safe advertising
JP4965623B2 (ja) * 2009-09-30 2012-07-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 所定のソフトウェアの実行パラメータを入力フィールドへ入力することを支援するための方法、システム、およびプログラム
JP2011095905A (ja) * 2009-10-28 2011-05-12 Sony Corp 情報処理装置および方法、並びにプログラム
BR112012010120A2 (pt) * 2009-10-30 2016-06-07 Rakuten Inc dispositivo e método de determinação de conteúdo característico
US8732017B2 (en) * 2010-06-01 2014-05-20 Integral Ad Science, Inc. Methods, systems, and media for applying scores and ratings to web pages, web sites, and content for safe and effective online advertising
US9436764B2 (en) * 2010-06-29 2016-09-06 Microsoft Technology Licensing, Llc Navigation to popular search results
US8635061B2 (en) 2010-10-14 2014-01-21 Microsoft Corporation Language identification in multilingual text
JP5492047B2 (ja) * 2010-10-21 2014-05-14 日本電信電話株式会社 購買行動分析装置、購買行動分析方法、購買行動分析プログラム、購買行動分析システム及び制御方法
US10534931B2 (en) 2011-03-17 2020-01-14 Attachmate Corporation Systems, devices and methods for automatic detection and masking of private data
CN102737017B (zh) * 2011-03-31 2015-03-11 北京百度网讯科技有限公司 一种提取页面主题的方法和装置
US20130066814A1 (en) * 2011-09-12 2013-03-14 Volker Bosch System and Method for Automated Classification of Web pages and Domains
US9613135B2 (en) 2011-09-23 2017-04-04 Aol Advertising Inc. Systems and methods for contextual analysis and segmentation of information objects
US8793252B2 (en) * 2011-09-23 2014-07-29 Aol Advertising Inc. Systems and methods for contextual analysis and segmentation using dynamically-derived topics
US9916309B2 (en) * 2011-10-14 2018-03-13 Yahoo Holdings, Inc. Method and apparatus for automatically summarizing the contents of electronic documents
US9152730B2 (en) * 2011-11-10 2015-10-06 Evernote Corporation Extracting principal content from web pages
RU2491622C1 (ru) * 2012-01-25 2013-08-27 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Способ классификации документов по категориям
CN103324622A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种自动生成首页摘要的方法及装置
US9223861B2 (en) * 2012-05-10 2015-12-29 Yahoo! Inc. Method and system for automatic assignment of identifiers to a graph of entities
US10387911B1 (en) 2012-06-01 2019-08-20 Integral Ad Science, Inc. Systems, methods, and media for detecting suspicious activity
JP5700007B2 (ja) * 2012-09-13 2015-04-15 キヤノンマーケティングジャパン株式会社 情報処理装置、方法、およびプログラム
US20150046562A1 (en) * 2013-08-07 2015-02-12 Convergent Development Limited Web browser orchestration
CN104933055B (zh) * 2014-03-18 2020-01-31 腾讯科技(深圳)有限公司 网页识别方法及网页识别装置
US10021102B2 (en) 2014-10-31 2018-07-10 Aruba Networks, Inc. Leak-proof classification for an application session
CN105786853A (zh) * 2014-12-22 2016-07-20 北京奇虎科技有限公司 一种论坛帖子智能摘要的显示方法和系统
US10387550B2 (en) 2015-04-24 2019-08-20 Hewlett-Packard Development Company, L.P. Text restructuring
US20180018392A1 (en) * 2015-04-29 2018-01-18 Hewlett-Packard Development Company, L.P. Topic identification based on functional summarization
RU2638015C2 (ru) * 2015-06-30 2017-12-08 Общество С Ограниченной Ответственностью "Яндекс" Способ идентификации целевого объекта на веб-странице
US9875429B2 (en) 2015-10-06 2018-01-23 Adobe Systems Incorporated Font attributes for font recognition and similarity
US10074042B2 (en) 2015-10-06 2018-09-11 Adobe Systems Incorporated Font recognition using text localization
US10042880B1 (en) * 2016-01-06 2018-08-07 Amazon Technologies, Inc. Automated identification of start-of-reading location for ebooks
RU2642413C2 (ru) * 2016-02-09 2018-01-24 Общество С Ограниченной Ответственностью "Яндекс" Способ (варианты) и сервер обработки текста
US10007868B2 (en) 2016-09-19 2018-06-26 Adobe Systems Incorporated Font replacement based on visual similarity
RU2635213C1 (ru) * 2016-09-26 2017-11-09 Самсунг Электроникс Ко., Лтд. Способ суммаризации текста и используемые для его реализации устройство и машиночитаемый носитель информации
US10699062B2 (en) * 2017-08-01 2020-06-30 Samsung Electronics Co., Ltd. Apparatus and method for providing summarized information using an artificial intelligence model
US10248628B2 (en) * 2017-08-15 2019-04-02 Hybris Ag Statistical approach for testing multiple versions of websites
US10579698B2 (en) 2017-08-31 2020-03-03 International Business Machines Corporation Optimizing web pages by minimizing the amount of redundant information
KR102576267B1 (ko) * 2018-10-10 2023-09-07 스카라망가 테크놀로지스 프라이빗 리미티드 다중 통신 플랫폼 환경에서 통신 이벤트에 대한 문맥 키워드 집합을 제공하는 방법, 시스템 및 장치
US11397776B2 (en) 2019-01-31 2022-07-26 At&T Intellectual Property I, L.P. Systems and methods for automated information retrieval
US10950017B2 (en) 2019-07-08 2021-03-16 Adobe Inc. Glyph weight modification
US11295181B2 (en) 2019-10-17 2022-04-05 Adobe Inc. Preserving document design using font synthesis
CN111797945B (zh) * 2020-08-21 2020-12-15 成都数联铭品科技有限公司 一种文本分类方法
US20230222149A1 (en) * 2022-01-11 2023-07-13 Intuit Inc. Embedding performance optimization through use of a summary model

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02254566A (ja) * 1989-03-29 1990-10-15 Nippon Telegr & Teleph Corp <Ntt> 自動抄録生成装置
US5317507A (en) 1990-11-07 1994-05-31 Gallant Stephen I Method for document retrieval and for word sense disambiguation using neural networks
JP2944346B2 (ja) * 1993-01-20 1999-09-06 シャープ株式会社 文書要約装置
US5918240A (en) * 1995-06-28 1999-06-29 Xerox Corporation Automatic method of extracting summarization using feature probabilities
US5864855A (en) 1996-02-26 1999-01-26 The United States Of America As Represented By The Secretary Of The Army Parallel document clustering process
JPH09319768A (ja) * 1996-05-29 1997-12-12 Oki Electric Ind Co Ltd 要点抽出方法
US6359633B1 (en) * 1999-01-15 2002-03-19 Yahoo! Inc. Apparatus and method for abstracting markup language documents
JP4732593B2 (ja) * 1999-05-05 2011-07-27 ウエスト パブリッシング カンパニー ドキュメント分類システム、ドキュメント分類方法およびドキュメント分類ソフトウェア
JP4320491B2 (ja) * 1999-11-18 2009-08-26 ソニー株式会社 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体
US7137065B1 (en) * 2000-02-24 2006-11-14 International Business Machines Corporation System and method for classifying electronically posted documents
US6606644B1 (en) 2000-02-24 2003-08-12 International Business Machines Corporation System and technique for dynamic information gathering and targeted advertising in a web based model using a live information selection and analysis tool
US6775677B1 (en) * 2000-03-02 2004-08-10 International Business Machines Corporation System, method, and program product for identifying and describing topics in a collection of electronic documents
US7130848B2 (en) * 2000-08-09 2006-10-31 Gary Martin Oosta Methods for document indexing and analysis
US7607083B2 (en) * 2000-12-12 2009-10-20 Nec Corporation Test summarization using relevance measures and latent semantic analysis
US20020087326A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented web page summarization method and system
US20020169770A1 (en) * 2001-04-27 2002-11-14 Kim Brian Seong-Gon Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents
US6609124B2 (en) 2001-08-13 2003-08-19 International Business Machines Corporation Hub for strategic intelligence
US20040205457A1 (en) * 2001-10-31 2004-10-14 International Business Machines Corporation Automatically summarising topics in a collection of electronic documents
US20030221163A1 (en) * 2002-02-22 2003-11-27 Nec Laboratories America, Inc. Using web structure for classifying and describing web pages
US6910037B2 (en) * 2002-03-07 2005-06-21 Koninklijke Philips Electronics N.V. Method and apparatus for providing search results in response to an information search request
US7130837B2 (en) * 2002-03-22 2006-10-31 Xerox Corporation Systems and methods for determining the topic structure of a portion of text
US7065707B2 (en) * 2002-06-24 2006-06-20 Microsoft Corporation Segmenting and indexing web pages using function-based object models
US7292972B2 (en) * 2003-01-30 2007-11-06 Hewlett-Packard Development Company, L.P. System and method for combining text summarizations
US7392474B2 (en) 2004-04-30 2008-06-24 Microsoft Corporation Method and system for classifying display pages using summaries

Also Published As

Publication number Publication date
US20050246410A1 (en) 2005-11-03
KR20060047636A (ko) 2006-05-18
CA2505957C (en) 2014-10-21
AU2005201766A1 (en) 2005-11-17
ATE470192T1 (de) 2010-06-15
DE602005021581D1 (de) 2010-07-15
CN1758245A (zh) 2006-04-12
BRPI0502155A (pt) 2006-01-10
KR101203345B1 (ko) 2012-11-20
EP1591924B1 (en) 2010-06-02
US7392474B2 (en) 2008-06-24
CA2505957A1 (en) 2005-10-30
EP1591924A1 (en) 2005-11-02
RU2005113190A (ru) 2006-11-10
US20090119284A1 (en) 2009-05-07
JP2005322245A (ja) 2005-11-17
CN1758245B (zh) 2010-09-08
RU2377645C2 (ru) 2009-12-27

Similar Documents

Publication Publication Date Title
CA2505957C (en) Method and system for classifying display pages using summaries
CN103049435B (zh) 文本细粒度情感分析方法及装置
US8538989B1 (en) Assigning weights to parts of a document
CA2833359C (en) Analyzing content to determine context and serving relevant content based on the context
Macdonald et al. Blog track research at TREC
US20080270384A1 (en) System and method for intelligent ontology based knowledge search engine
US20100185623A1 (en) Topical ranking in information retrieval
US20100306214A1 (en) Identifying modifiers in web queries over structured data
CN105975459A (zh) 一种词项的权重标注方法和装置
Bohne et al. Efficient keyword extraction for meaningful document perception
KR101007056B1 (ko) 연관 태그에 기반한 태그 클러스터링 장치 및 그 방법
Mizzaro et al. Short text categorization exploiting contextual enrichment and external knowledge
Hall et al. Enabling the discovery of digital cultural heritage objects through wikipedia
Blanco et al. Supporting the automatic construction of entity aware search engines
WO2008032037A1 (en) Method and system for filtering and searching data using word frequencies
Asdaghi et al. A novel set of contextual features for web spam detection
Braslavski Marrying relevance and genre rankings: an exploratory study
Nakatani et al. Quality evaluation of search results by typicality and speciality of terms extracted from wikipedia
Nkongolo Enhancing search engine precision and user experience through sentiment-based polysemy resolution
Chakrabarti et al. Generating succinct titles for web urls
CN116127181A (zh) 一种获取用户喜爱功能评论的方法及装置
Li et al. A Transfer Learning Pipeline for Educational Resource Discovery with Application in Leading Paragraph Generation
Zhang et al. The architecture of ProMe instant question answering system
Hendriksen Extending WASP: providing context to a personal web archive
Takahashi et al. Social bookmarking induced active page ranking

Legal Events

Date Code Title Description
FA Abandonment or withdrawal