MXPA05004680A

MXPA05004680A - Metodo y sistema para calcular la importancia de un bloque dentro de una pagina de presentacion.

Info

Publication number: MXPA05004680A
Application number: MXPA05004680A
Authority: MX
Inventors: Song Ruihua
Original assignee: Microsoft Corp
Priority date: 2004-04-29
Filing date: 2005-04-29
Publication date: 2005-11-17
Also published as: US20120109950A1; US8401977B2; CA2505317A1; AU2005201765A1; RU2387004C2; US8095478B2; EP1591922A1; JP2005317018A; CN1702654B; US20050246296A1; BRPI0501441A; CN1702654A; RU2005113003A; US7363279B2; US20080256068A1; EP1591922B1; KR20060045873A

Abstract

Se describen un metodo y sistema para identificar la importancia de areas de informacion de una pagina de presentacion. Un sistema de importancia identifica areas de informacion o bloques de una pagina web. Un bloque de una pagina web representa un area de la pagina web que parece estar relacionada con un topico similar. El sistema de importancia proporciona las caracteristicas o rasgos de un bloque para una funcion de importancia que genera una indicacion de la importancia de ese bloque para su pagina web. El sistema de importancia "aprende" la funcion de importancia generando un modelo basandose en las caracteristicas de los bloques y la importancia especificada por el usuario de esos bloques. Para aprender la funcion de importancia, el sistema de importancia le pide al usuario proporcionar una indicacion de la importancia de los bloques de las paginas web en una coleccion de paginas web.

Description

METODO Y SISTEMA PARA CALCULAR LA IMPORTANCIA DE UN BLOQUE DENTRO DE UNA PAGINA DE PRESENTACION CAMPO TÉCNICO La tecnología descrita generalmente se refiere a identificar un bloque dentro de una página de presentación que representa el tópico primario de la página de presentación.

ANTECEDENTES Muchos servicios de máquina de búsqueda, tal como Google y Overture, proveen búsqueda para información que es accesible a través de Internet. Estos servicios de máquina de búsqueda permiten a usuarios buscar páginas de presentación, tal como páginas web, que pueden ser de interés a usuarios. Después de que un usuario presenta una solicitud de búsqueda que incluye términos de búsqueda, el servicio de máquina de búsqueda identifica páginas web que pueden estar relacionadas con aquellos términos de búsqueda. Para identificar rápidamente páginas web relacionadas, los servicios de máquina de búsqueda pueden mantener un mapa de palabras clave a páginas web. Este mapa puede ser generado al "navegar lentamente" en la web (es decir, la Gran Red Mundial) para Identificar las palabras claves de cada página web. Para navegar lentamente en la web, un servicio de máquina de búsqueda puede utilizar una lista de páginas web de raíz para identificar todas las páginas web que son accesibles a través de aquellas páginas web de raíz. Las palabras clave de cualquier página web particular pueden ser identificadas utilizando varias técnicas de recuperación de información bien conocidas, tal como identificar las palabras de un encabezado, las palabras provistas en los metadatos de la página web, las palabras que son resaltadas, y así sucesivamente. Después el servicio de máquina de búsqueda clasifica las páginas web del resultado de búsqueda basándose en la cercanía de cada ajuste, popularidad de página web (por ejemplo, Clasificación de Página de Google), y así sucesivamente. El servicio de máquina de búsqueda también puede generar una marca de relevancia para indicar qué tan importante puede ser la información de página web a la solicitud de búsqueda. El servicio de máquina de búsqueda después presenta ai usuario enlaces a aquellas páginas web en un orden que está basado en sus clasificaciones. Que las páginas web de un resultado de búsqueda son de interés a un usuario depende, en parte, en qué tan bien las palabras clave identificadas por el servicio de máquina de búsqueda representen el tópico primario de una página web. Debido a que una página web puede contener muchos tipos diferentes de información, puede ser difícil distinguir el tópico primario de una página web. Por ejemplo, muchas páginas web contienen anuncios que no están relacionados al tópico primario de la página web. Una página web fe un sitio web de noticias puede contener un artículo que se relaciona a un evento internacional y puede contener "información de ruido" tal como un anuncio para una dieta popular, un área relacionada con noticias legales, y una barra de navegación. Tradicionalmente ha sido muy difícil para un servicio de máquina de búsqueda identificar que información en una página web es información de ruido y qué información se refiere al tópico primario de la página web. Como un resultado, un servicio de máquina de búsqueda puede seleccionar palabras clave basándose en información de ruido, más que el tópico primario de la página web. Por ejemplo, un servicio de máquina de búsqueda puede trazar una página web que contiene un anuncio de dieta a la palabra clave "dieta", incluso aunque el tópico primario de la página web se refiere a un evento político internacional. Cuando un usuario después presenta una solicitud de búsqueda que incluye el término de búsqueda "dieta", el servicio de máquina de búsqueda puede regresar la página web que contiene el anuncio de dieta, que es poco probable que sea de interés al usuario. Sería deseable tener una técnica para calcular la importancia de varias áreas de información de una página web al tópico primario de la página web.

COMPENDIO DE LA INVENCION Un sistema de importancia identifica la importancia de áreas de información de una página de presentación. El sistema de importancia identifica áreas de información o bloques de una página web que representa áreas de la página web que parecen estar relacionadas a un tópico similar. Después de identificar los bloques de una página web, el sistema de importancia proporciona las características o rasgos de un bloque en una función de importancia que genera una indicación de la importancia de ese bloque a su página web. El sistema de importancia puede aprender la función de importancia al generar un modelo basándose en las características de bloques y la importancia especificada por usuario de aquellos bloques.

BREVE DESCRIPCIÓN DE LOS DIBUJOS La Figura 1 es un diagrama de bloque que ilustra los componentes del sistema de importancia en una modalidad. La Figura 2 es un diagrama de flujo que ¡lustra el procesamiento de un componente de función de importancia para generar del sistema de importancia en una modalidad. La Figura 3 es un diagrama de flujo que ilustra el procesamiento de un componente de vector de característica para generar del sistema de importancia en una modalidad. La Figura 4 es un diagrama de flujo que ilustra el procesamiento de un componente de importancia de bloque para calcular del sistema de importancia en una modalidad. La Figura 5 es un diagrama de flujo que ilustra el procesamiento de un componente de resultado de búsqueda de orden que utiliza la función de importancia aprendida en una modalidad. La Figura 6 es un diagrama de flujo que ilustra el procesamiento de un componente de resultado de búsqueda extendido que utiliza la función de importancia aprendida en una modalidad. La Figura 7 es un diagrama de flujo que ilustra el procesamiento de un componente de página web de recuperación que utiliza la función de importancia aprendida en una modalidad. La Figura 8 es un diagrama de flujo que ilustra el procesamiento de un componente de página web de recuperación que utiliza la función de importancia aprendida en una modalidad.

DESCRIPCION DETALLADA Se proporcionan un método y sistema ara identificar la importancia de áreas de información de una página de presentación. En una modalidad, un sistema de importancia identifica áreas de información o bloques de una página web. Un bloque de una página web representa un área de la página web que parece relacionarse a un tópico similar. Por ejemplo, un artículo de noticias de una página web puede representar un bloque, un anuncio de dieta de la página web puede representar otro bloque. Después de identificar los bloques de una página web, el sistema de importancia proporciona las características o rasgos de un bloque a una función de importancia que genera una indicación de la importancia de ese bloque a su página web. El sistema de importancia "aprende" la función de importancia al generar un modelo basándose en las características de bloques y la importancia especificada por usuario de aquellos bloques. Para aprender la función de importancia, el sistema de importancia le pide a usuarios proporcionar una indicación de la importancia de bloques de páginas web en una colección de páginas web. Por ejemplo, un usuario puede identificar un cierto bloque como de importancia primaria a una página web, y otro usuario puede identificarse mismo bloque como de importancia secundara a la página web. El sistema de importancia también identifica un vector de característica para cada bloque que puede representar varias características espaciales y de contenido del bloque. Por ejemplo, una característica espacial puede ser el tamaño de un bloque o la ubicación de un bloque, y una característica de contenido puede ser el número de enlaces dentro de un bloque o el número de palabras dentro del bloque. El sistema de importancia después aprende una función de importancia, basadas en la importancia especificada por usuario y los vectores de característica de los bloques, que ingresa un vector de característica de un bloque y saca la importancia del bloque. El sistema de importancia puede intentar aprender una función que minimiza el cuado de las diferencias entre la importancia especificada por usuario de los bloques y la importancia calculada por la función de importancia. De esta forma, el sistema de importancia puede identificar un bloque de una página web que puede estar relacionado con el tópico primario de la página web basándose en características de bloques que usuarios piensan que son importantes. La función de importancia, una vez aprendida, puede ser utilizada para mejorar la precisión de un amplio rango de aplicaciones cuyos resultados dependen en diferenciar tópicos de páginas web. Un servicio de máquina de búsqueda puede utilizar la función de importancia para calcular relevancia de páginas web de un resultado de búsqueda a la solicitud de búsqueda. Después de que el resultado de búsqueda es obtenido, el servicio de máquina de búsqueda puede utilizar la función de importancia para identificar el bloque más importante de cada página web y calcular una relevancia del bloque más importante (o grupo de bloques de importancia) a ia solicitud de búsqueda. Debido a que su relevancia está basada en la información del bloque más importante de la página web, puede ser una medida más precisa de relevancia que una relevancia que está basada en la información tota! de la página web, que puede incluir información de ruido. Un servicio de máquina de búsqueda también puede utilizar la función de importancia para identificar páginas web que están relacionadas a una cierta página web. El servicio de máquina de búsqueda puede utilizar la función de importancia para identificar el bloque más importante de esa página web y después formular una solicitud de búsqueda basándose en el texto del bloque identificado. El servicio de máquina de búsqueda puede realizar una búsqueda que utiliza esa solicitud de búsqueda formulada para identificas páginas web que están relacionadas a esa cierta página web. Un servicio de máquina de búsqueda también puede utilizar la función de importancia para clasificar páginas web. Por ejemplo, páginas web pueden ser clasificadas basándose en su tópico primario. El servicio de máquina de búsqueda puede utilizar la función de importancia para identificar el bloque más importante de una página web y después clasificar la página web basándose en el texto del bloque identificado. Un navegador web también puede utilizar la función de importancia para identificar porciones de una página web a ser presentada cuando el contenido completo de la página web no puede ajustarse en el dispositivo de presentación. Por ejemplo, dispositivos tal como teléfonos celulares o asistentes digitales personales pueden tener dispositivos muy pequeños en los que la mayoría de páginas web no pueden ser razonablemente presentadas debido a la cantidad, tamaño, y complejidad de la información de la página web. Una página web no es razonablemente presentada cuando el contenido es tan pequeño que no puede ser efectivamente visto por una persona. Cuando tal dispositivo es utilizado para navegar páginas web, la función de importancia puede ser utilizada para identificar un bloque más importante de una página web y para presentar sólo el bloque identificado en la presentación pequeña. Alternativamente, un navegador de web puede reordenar los bloques de una página web, resaltar bloques de una página web, remover bloques de una página web, y así sucesivamente basándose en la importancia de los bloques como se indicó por la función de importancia. El sistema de importancia puede identificar las áreas de información de una página web que utiliza varias técnicas de segmentación tal como un algoritmo de segmentación basado en modelo de objeto ("basado en DOM"), un algoritmo de segmentación basado en ubicación, un algoritmo de segmentación basado en visión, y así sucesivamente. Un algoritmo de segmentación basado en DOM puede utilizar la jerarquía de HTML de una página web para identificar sus varios bloques. Un algoritmo de segmentación basado en ubicación intenta identificar áreas de una página web que puede ser considerada una unidad basada en características físicas de las áreas. Un algoritmo de segmentación basado en visión es descrito en la Solicitud de patente de E.U.A. No. 10/628,766, titulada "Segmentación de Documento Basada en Visión", presentada el 28 de Julio, 2003, que es incorporada aquí por referencia. Ese algoritmo de segmentación basado en visión identifica bloques basándose en la coherencia del contenido de información de cada bloque. Por ejemplo, un anuncio para una dieta puede representar un bloque individual debido a que su contenido es uno dirigido a un tópico individual y de esa forma puede estar dividido en muchos bloques diferentes. El sistema de importancia puede utilizar varias técnicas para aprender la función de importancia de los vectores de característica que representan los bloques y la importancia especificada por usuario de los bloques. Por ejemplo, como se describe más adelante en mayor detalle, el sistema de importancia puede aprender la función de importancia que utiliza una red neural o una máquina de vector de soporte. Además, el sistema de importancia puede utilizar varias características espaciales y de contenido de un bloque en una representación de vector de característica del bloque. Por ejemplo, las características espaciales pueden incluir la ubicación de centro del bloque y las dimensiones del bloque, que son referidos como "características espaciales absolutas". Estas características espaciales absolutas pueden ser normalizadas basándose en el tamaño de la página web, que son referidas como "características espaciales relativas", o normalizadas basándose en el tamaño de la ventana, que son referidas como "características espaciales de ventana". Las características de contenido pueden referirse a las imágenes del bloque (por ejemplo, número y tamaño de imágenes), enlaces del bloque (por ejemplo, el número de enlaces y el número de palabras en cada enlace), texto del bloque (por ejemplo, número de palabras en bloque), interacción de usuario del bloque (por ejemplo, número y tamaño de campos de entrada), y formas del bloque (por ejemplo, número y tamaño). Varias características de contenido también pueden ser normalizadas. Por ejemplo, el número de enlaces de un bloque puede ser normalizado por el número total de enlaces en la página web, o el número de palabras de texto en el bloque puede ser normalizado por el número total de palabras en el texto de todos los bloques de la página web.

En una modalidad, el sistema de importancia puede permitir a usuarios especificar la importancia de bloques que utilizan valores separados o continuos. Los valores más altos pueden representar una importancia más alta de un bloque a una página web. Cuando se utilizan valores separados 1-4, un valor de 1 puede representar información de ruido tal como un anuncio, una noticia de derechos de autor, una decoración, y así sucesivamente. Un valor de 2 puede representar información útil que particularmente no es relevante al tópico primario de la página tal como información de navegación, información de directorio, y así sucesivamente. Un valor de 3 puede representar información que es relevante al tópico primario de la página pero no importancia prominente tal como tópicos relacionados, índices de tópico, y así sucesivamente. Un valor de 4 puede indicar la parte más prominente de las páginas web tal como un encabezado, contenido principal, y así sucesivamente. La Figura 1 es un diagrama de bloque que ilustra los componentes del sistema de importancia en una modalidad, El sistema de importancia puede incluir los componentes 101-105 y almacenamientos de datos 111-114. Los componentes pueden incluir un componente de bloques que identifican 101, un componente de importancia especificada por usuario que recolecta 102, un componente de función de importancia que genera 103, un componente de función de importancia que aplica 104, y componente de vector de característica que genera 105. Los almacenamientos de datos pueden incluir un almacenamiento de página web 111, un almacenamiento de bloque 112, un almacenamiento de importancia especificado por usuario 113, y un almacenamiento de función de importancia 114. El almacenamiento de página web puede contener una colección de páginas web para usarse al generar o aprender la función de importancia. El componente de bloques para identificar identifica los bloques de cada página web del almacenamiento de página web y almacena la identificación de cada bloque en el almacenamiento de bloque. El componente de importancia especificado por usuario que recolecta presenta cada página web del almacenamiento de página web a un usuario que resalta cada uno de los bloques de la página web, pide al usuario especificar la importancia de cada bloque, y almacena las especificaciones de importancia en el almacenamiento de importancia especificado por usuario. El componente de función de importancia que genera para cada bloque del almacenamiento de bloque. Después la función de importancia que genera aprende una función de importancia para moldear los vectores de característica de los bloques y la importancia especificada por usuario de los bloques. El almacenamiento de función de importancia puede contener información tal como factores y parámetros que definen la función de importancia aprendida que son calculados por el componente de función de importancia que genera. El componente de función de importancia que aplica es pasado a un bloque de una página web, invoca el componente de vector de característica que genera para generar el vector de característica para el bloque, y aplica la función de importancia al vector de característica generado para generar una indicación de la importancia del bloque. El dispositivo de cómputo en el que el sistema de importancia es implementado pude incluir una unidad de procesamiento central, memoria, dispositivos de entrada (por ejemplo, teclado y dispositivos de señalamiento), dispositivos de salida (por ejemplo, dispositivos de presentación), y dispositivos de almacenamiento (por ejemplo, unidades de disco). Los dispositivos de memoria y almacenamiento son medios legibles por computadora que pueden contener instrucciones que implementan el sistema de importancia. Además, las estructuras de datos y estructuras de mensaje pueden ser almacenadas o transmitidas a través de un medio de transmisión de datos, tal como una señal en un enlace de comunicaciones. Varios enlaces de comunicaciones pueden ser utilizados, tal como Internet, una red de área local, una red de área amplia, o una conexión de marcado de punto a punto. La Figura 1 ilustra un ejemplo de un ambiente operativo adecuado en el que el sistema de importancia puede ser implementado. El ambiente operativo es sólo un ejemplo de un ambiente operativo adecuado y no pretende sugerir cualquier limitación al alcance de uso o funcionalidad del sistema importancia. Otros sistemas, ambientes, y configuraciones de cómputo bien conocidos que pueden ser adecuados para uso incluyen computadoras personales, computadoras de servidor, dispositivos portátiles o laptop, sistemas de multiprocesador, sistemas basados de microprocesador, aparatos electrónicos programables para el consumidor, PCs de red, minicomputadoras, macrocomputadoras, ambientes de cómputo distribuidos que incluyen cualquiera de los sistemas o dispositivos anteriores, y similares. sistema de importancia puede ser descrito en el contexto general de instrucciones ejecutables por computadora, tal como módulos de programa, ejecutados por una o más computadoras u otros dispositivos. Generalmente, módulos de programa incluyen rutinas, programas, objetos, componentes, estructuras de datos, y así sucesivamente que realizan tareas particulares o implementan tipos de datos abstractos particulares. Típicamente, la funcionalidad de los módulos de programa puede ser combinada o distribuida como se desea en varias modalidades. En una modalidad, el sistema de importancia aprende una función de importancia de bloque al minimizar una función de objetivo de cuadros menor basándose en la importancia especificada por usuario de bloques de una colección de páginas web. Cada bloque puede ser representado por un vector y par de importancia (x,y) en donde x es el vector de característica del bloque e y es su importancia. El grupo de vector de característica y pares de importancia de la colección de páginas web es referido como un grupo de entrenamiento T. El sistema de importancia intenta aprender una función de importancia / que minimiza la siguiente función de objetivo: (1) La función de objetivo puede ser resuelta utilizando técnicas de clasificación tal como una máquina de vector de soporte si y es técnicas separadas y de regresión tal como una red neural si y es continua. Cuando la importancia es representada por números reales continuos, el sistema de importancia puede aplicar una red neural que aprende para aprender /* óptima que es dada al minimizar la siguiente función objetiva en donde m es el número de bloques en el grupo de entrenamiento. Este es un problema de regresión no paramétrico multivariante, ya que no existe un conocimiento anterior sobre la forma de la función de regresión que está siendo estimada. Un modelo de red neural tiene tres componentes mayores: arquitectura, función de costo, y algoritmo de búsqueda. La arquitectura define la forma funcional que se refiere a las entradas a las salidas (en términos de topología de red, conectividad de unidad, y funciones de activación). La búsqueda en espacio de peso para un grupo de pesos que minimiza la función de objetivo es el procedimiento de entrenamiento. En una modalidad, el sistema de importancia utiliza una red de función de base radial ("RBF") y un descendiente de gradiente estándar como la técnica de búsqueda. El sistema de importancia construye una red de RBF con tres diseños de página que tienes papeles diferentes. El diseño de página de entrada comprende nodos de fuente (es decir, unidades sensoriales) que conectan la red a su ambiente (es decir, espacio de característica de nivel bajo). El diseño de página escondido aplica una transformación no lineal del espacio de entrada al espacio escondido. Generalmente, el espacio escondido es de alta dimensionalidad. El diseño de página escondido tiene neuronas de RBF, que calculan la entrada del diseño de página escondido al combinar entradas y propensiones pesadas. El diseño de página de salida es lineal y provee la importancia de bloque dada la representación de bloque de bajo nivel aplicada al diseño de página de entrada. La función aprendida por redes de RBF puede ser representada por lo siguiente: en donde i es un bloque en el grupo de entrenamiento, h es el número de neuronas de diseño de página escondidas, w¡j C R son los pesos, y G¡ es la función radial definida como sigue: en donde c¡ es el centro para G¡ y a¡, es la amplitud de función base. El mapa k-dimensional puede ser representado como sigue: en donde /= [f f2, k] es la función de mapa. La red neural de RBF aproxima la función de regresión óptima de espacio de característica a importancia de bloque. El sistema de importancia puede entrenar la red neural de RBF fuera de línea con las muestras de entrenamiento {x¡, y¡} (i = 1,...,m) del grupo de entrenamiento T. Para un nuevo bloque previamente no procesado, el sistema de importancia puede calcular su importancia utilizando la función de regresión / dado el vector de característica del bloque. Cuando la importancia es representada por números separados, el sistema de importancia aplica una máquina de vector de soporte para aprender la función de importancia. Una máquina de vector de importancia intenta minimizar el riesgo estructural, más que riesgo empírico. La máquina de vector de soporte puede utilizar una clasificación binaria con el fin de que el grupo de entrenamiento sea definido por lo siguiente: en donde D es el grupo de entrenamiento, t es el número de muestras de entrenamiento, y y¡ S{-1,1}. El sistema de importancia intenta seleccionar, entre el número infinito de clasificadores lineales que separan los datos, el único con el mínimo error de generalización. Un hiperplano con esta propiedad es el que deja el margen máximo entre las dos clases. La función de importancia puede ser representada por lo siguiente: en donde or¡ asociada con la muestra de entrenamiento x¡ expresa la fuerza con la que ese punto es fijado en la función final y b es la intercepción también conocida como la propensión en aprendizaje de máquina. Una propiedad de esta representación es que frecuentemente sólo un subgrupo de los puntos estará asociado con no cero a¡. Estos puntos son llamados vectores de soporte y son los puntos que yacen lo más cerca al hiperplano que separa. La máquina de vector de soporte ni lineal traza la entrada variable en un espacio de alta dimensión (frecuentemente dimensión infinita), y aplica la máquina de vector de soporte lineal en el espacio. Conceptualmente, esto puede ser logrado por la aplicación de un núcleo (que reproduce). La función de decisión no lineal correspondiente es representada como sigue: en done K es la función de núcleo. Algunas funciones de núcleo típicas incluyen un núcleo polinomio, núcleo de RBF Gaussiano, y núcleo sigmoide. Para un problema de clasificación de clase múltiple, el sistema de importancia puede aplicar un esquema de uno contra todos. La Figura 2 es un diagrama de flujo que ilustra el procesamiento de un componente de función de importancia que genera del sistema de importancia en una modalidad. En el bloque 201, el componente recupera la colección de páginas web del almacenamiento de página web. En el bloque 202, el componente identifica los bloques dentro de las páginas web recuperadas y almacena las indicaciones de los bloques en el almacenamiento de bloque. En el bloque 203, el componente recolecta datos de importancia especificados por usuario para los bloques. El componente puede presentar cada página web junto con una indicación de los bloques de la página web y pedir a un usuario que estime la importancia de cada bloque a la página web. El componente almacena la importancia especificada por usuario en el almacenamiento de importancia especificado por usuario. En el bloque 204, el componente genera un vector de característica para cada bloque y puede almacenar los vectores de característica en el almacenamiento de bloque. En el bloque 205, el componente aprende la función de importancia utilizando técnicas de una red neural de una máquina de vector de soporte como se describió anteriormente.

La Figura 3 es un diagrama de flujo que ilustra el procesamiento de un componente de vector de característica que genera del sistema de importancia en una modalidad. El componente es pasado a una indicación de una página web junto con una indicación de un bloque de la página web cuya importancia va a ser calculada. En el bloque 301, el componente identifica las características espaciales absolutas del bloque. En el bloque 302, el componente calcula las características espaciales de ventana del bloque. El componente puede calcular las características espaciales de ventana tal como centro de bloque para el y-coordinado de acuerdo con lo siguiente: Centro de Bloque Y /(2* AlturadeEncabezado); si CentroBloqueY <AlturaEncábezado si AlturaEncabezado < CentroBloque CentroBloqueY = Y < AlturaPágina - AlturaPiePágina 1- (AlturaPágina - CentroBloqueY)/(2* AlturaPiePágina); entonces en donde Altura de Encabezado y Altura de Pie de Página son valores de constante predefinidos que se refieren a las alturas de encabezados y pies de una página. En el bloque 303, el componente identifica las características de contenido del bloque. En el bloque 304, el componente normaliza las características de contenido como es apropiado y después regresa el vector de característica. La Figura 4 es un diagrama de flujo que ilustra el procesamiento de un componente de importancia de bloque para calcular del sistema de importancia en una modalidad. El componente es pasado a una indicación de una página web y calcula la importancia de cada bloque de la página web al aplicar la función de importancia aprendida. En el bloque 401, el componente identifica los bloques de la página web pasada. En los bloques 402-406, el componente da la vuelta calculando la importancia de cada bloque de la página web pasada. En el bloque 402, el componente selecciona el siguiente bloque de la página web pasada. En el bloque de decisión 403, si todos los bloques de la página web pasada ya han sido seleccionados, después el componente regresa la importancia de cada bloque, también el componente continúa en el bloque 404. En el bloque 404, el componente invoca el componente de vector de característica que genera para generar el vector de característica para el bloque seleccionado. En el bloque 405, el componente aplica la función de importancia aprendida al vector de característica generado para calcular la importancia del bloque seleccionado. En el bloque 406, el componente guarda la importancia calculada y después gira a bloque 402 para seleccionar el siguiente bloque de la página web pasada. Las Figuras 5-8 ilustran el uso de la función de importancia aprendida en varias aplicaciones. La Figura 5 es un diagrama de flujo que ilustra el procesamiento de un componente de resultado de búsqueda de orden que utiliza la función de importancia aprendida en una modalidad. El componente es pasado a un resultado de búsqueda de páginas web y regresa el resultado de búsqueda reordenado basándose en importancia de bloque como se calculó por la función de importancia aprendida. En el bloque 501, el componente selecciona la siguiente página web del resultado de búsqueda. En el bloque de decisión 502, si todas las páginas web del resultado de búsqueda ya han sido seleccionadas, después el componente continúa en bloque 505, también el componente continua en bloque 503. En bloque 503 el componente invoca un componente de importancia de bloque que calcula para calcular la importancia de cada bloque de la página web seleccionada. En el bloque 504, el componente establece la relevancia de la página web basándose en el bloque con la importancia más alta. El componente puede calcular la relevancia basándose en qué tan bien se ajusta el texto del bloque más importante (o bloques) a la solicitud de búsqueda para la que el resultado de búsqueda fué identificado. El componente también puede combinar esa relevancia con la relevancia de cada página web que fue calculada por una máquina de búsqueda. Después el componente gira a bloque 501 para seleccionar la siguiente página web del resultado de búsqueda. En el bloque 505, el componente clasifica las páginas web basándose en la relevancia establecida y después regresa las páginas web reordenadas del resultado de búsqueda. La Figura 6 es un diagrama de flujo que ilustra el procesamiento de un componente de resultado de búsqueda que expande que utiliza la función de importancia aprendida en una modalidad. El componente es pasado a una página web e identifica páginas web que puedan estar relacionadas a la página web pasada. En el bloque 601, el componente invoca el componente de importancia de bloque que calcula para calcular la importancia de cada bloque de la página web pasada. En el bloque 602, el componente selecciona el bloque de la página web pasada con la importancia más alta. En el bloque 603, el componente recupera el texto asociado con el bloque seleccionado. En el bloque 604, el componente fórmula una solicitud de búsqueda basándose en el texto recuperado. En el bloque 605, el componente presenta la solicitud de búsqueda formulada a un servicio de máquina de búsqueda y recibe el resultado de búsqueda a cambio. El componente después regresa el resultado de búsqueda. La Figura 7 es un diagrama de flujo que ilustra el procesamiento de un componente de página web que presenta que utiliza la función de importancia aprendida en una modalidad. Este componente es pasado a un localizador de recurso uniforme de una página web y presenta el contenido del bloque a esa página web con la importancia más alta como el contenido de la misma página web. En el bloque 701, el componente utiliza el localizador de recurso uniforme pasado para recuperar la página web. En el bloque 702, el componente invoca la función de importancia de bloque que calcula para calcular la importancia de cada bloque de la página web recuperada. En el bloque 703, el componente selecciona el bloque de la página web recuperada con la importancia más alta. En el bloque 704, el componente presenta el bloque seleccionado como el contenido de la página web. La Figura 8 es un diagrama de flujo que ¡lustra el procesamiento de un componente de página web que clasifica que utiliza la función de importancia aprendida en una modalidad. El componente es pasado a una página web y clasifica esa página web. En el bloque 801, el componente invoca la función de importancia de bloque para calcular la importancia de cada bloque de la página web pasada. En el bloque 802, el componente selecciona el bloque (o grupo de bloques) de la página web pasada con la importancia más alta. En el bloque 803, el componente recupera el texto del bloque seleccionado con la importancia más alta. En el bloque 804, el componente genera una clasificación basándose en el texto recuperado, La clasificación también puede estar basada en enlaces dentro del bloque seleccionado. El componente después regresa la clasificación. Un experto en la técnica apreciará que aunque modalidades específicas el sistema de importancia han sido descritas aquí para propósitos de ilustración, varias modificaciones pueden ser hechas sin apartare del espíritu y alcance de la invención. Los principios del sistema de importancia pueden ser utilizados para determinar la importancia de áreas de información dentro de varias fuentes de información diferentes a páginas web. Estas fuentes de información pueden incluir documentos representados que utilizan HTML, XML, y otros lenguajes de marcación. Un experto en la técnica apreciará que algunas aplicaciones de importancia de bloque pueden utilizar una función de importancia que es no "aprendida". Por ejemplo, un desarrollador puede simplemente definir una función de importancia que refleja su concepto de importancia de bloque y no confía en datos empíricos recolectados de clasificaciones de usuario de importancia de bloque. Tal función de importancia puede clasificar la importancia de un bloque basándose en una combinación de su tamaño y ubicación. Por consiguiente, la invención no está limitada excepto por las reivindicaciones anexas.

Claims

REIVINDICACIONES 1. - Un método en un sistema de computadora para identificar importancia de un bloque a una página que contiene el bloque, el método comprende: proporcionar una colección de páginas con bloques; para cada bloque, generar un vector de característica que representa el bloque; y recolectar de una persona una indicación de la importancia del bloque a su página; aprender una función del vector de característica generado y la importancia indicada de cada bloque que representa un mapa de vector de característica a importancia; y aplicar la función aprendida a una representación de vector de característica del bloque de la página para generar una indicación de la importancia del bloque a la página. 2. - El método de acuerdo con la reivindicación 1, en donde el vector de característica incluye características espaciales. 3.- El método de acuerdo con la reivindicación 1, en donde el vector de característica incluye características de contenido. 4. - El método de acuerdo con la reivindicación 3, en donde las características de contenido incluyen características de imagen. 5. - El método de acuerdo con la reivindicación 3, en donde las características de contenido incluyen características de enlace. 6. - El método de acuerdo con la reivindicación 3, en donde las características de contenido incluyen características de interacción. 7. - El método de acuerdo con la reivindicación 1, en donde el vector de característica incluye características espaciales y características de contenido. 8. - El método de acuerdo con la reivindicación 1, en donde el aprendizaje de la función incluye aplicar un análisis de regresión basado en red neural. 9.- El método de acuerdo con la reivindicación 8, en donde la red neural es una red neural de base radial. 10. - El método de acuerdo con la reivindicación 1, en donde la función es aprendida al seleccionar una función que tiende a minimizar la suma del cuadrado de las diferencias de la importancia calculada por la función y la importancia recolectada. 11. - El método de acuerdo con la reivindicación 1, en donde el aprendizaje de función incluye utilizar un algoritmo de máquina de vector de soporte. 12. - Un método en un sistema de computadora para establecer relevancia de páginas para resultados de búsqueda, el método comprende: identificar bloques de cada página del resultado de búsqueda; y para cada página del resultado de búsqueda, seleccionar el bloque de la página con la importancia más alta; y establecer la relevancia de la página basándose en el bloque seleccionado. 13. - El método de acuerdo con la reivindicación 12, en donde el establecimiento de la relevancia incluye ajustar una relevancia previamente calculada. 14. - El método de acuerdo con la reivindicación 12, en donde la selección del bloque con la importancia más alta incluye para cada bloque de la página, generar un vector de característica para el bloque y aplicar una función de importancia para el vector de característica generado. 15. - El método de acuerdo con la reivindicación 14, en donde la función de importancia es aprendida basándose en importancia especificada por usuario para bloques de una colección de páginas. 16. El método de acuerdo con la reivindicación 12, que incluye ordenar las páginas basándose en la relevancia de grupo. 17. - Un método en un sistema de computadora para identificar páginas relacionadas a una página, el método comprende: identificar bloques de la página; seleccionar el bloque de la página con la importancia más alta; generar una solicitud de búsqueda basándose en el bloque seleccionado; y presentar la solicitud de búsqueda generada para identificar páginas relacionadas con la página. 18. - El método de acuerdo con la reivindicación 17, en donde la selección del bloque con la importancia más alta incluye para cada bloque de la página, generar un vector de característica para el bloque y aplicar una función de importancia al vector de característica generado. 19. - El método de acuerdo con la reivindicación 18, en donde la función de importancia es aprendida basándose en la importancia especificada por usuario para bloques de una colección de páginas. 20. - El método de acuerdo con la reivindicación 17, en donde la página es parte de un resultado de búsqueda. 21. - El método de acuerdo con la reivindicación 17, en donde la solicitud de búsqueda es generada basándose en el texto asociado con el bloque seleccionado. 22. - Un método en un sistema de computadora para seleccionar una porción de una página para presentar en un dispositivo de presentación, el método comprende: identificar bloques de la página; seleccionar el bloque de la página con la importancia más alta; y presentar el bloque seleccionado en el dispositivo de presentación. 23.- El método de acuerdo con la reivindicación 22, en donde el dispositivo de presentación no puede acomodar razonablemente la presentación de la página completa. 24.- El método de acuerdo con la reivindicación 22, en donde el dispositivo de presentación está asociado con el teléfono celular. 25.- El método de acuerdo con la reivindicación 22, en donde el dispositivo de presentación está asociado con un asistente digital personal. 26. - El método de acuerdo con la reivindicación 22, en donde el bloque seleccionado es el único bloque presentado en el dispositivo de presentación. 27. - El método de acuerdo con la reivindicación 22, en donde un subgrupo de los bloques identificados es presentado basándose en su importancia. 28. - El método de acuerdo con la reivindicación 22, en donde la selección del bloque con la importancia más alta incluye para cada bloque de la página, generar un vector de característica para el bloque y aplicar una función de importancia al vector de característica generado. 29. - El método de acuerdo con la reivindicación 28, en donde la función de importancia es aprendida basándose en la importancia especificada por usuario para bloques de una colección de páginas. 30. - Un método en un sistema de computadora para clasificar una página, el método comprende: identificar bloques de la página; seleccionar el bloque de la página con la importancia más alta; y generar una clasificación para la página basándose en el bloque seleccionado. 31. - El método de acuerdo con la reivindicación 30, en donde la selección del bloque con la importancia más alta incluye para cada bloque de la página, generar un vector de característica para el bloque y aplicar una función de importancia al vector de característica generado. 32. - El método de acuerdo con la reivindicación 31, en donde la función de importancia es aprendida basándose en la importancia especificada por usuario para bloques de una colección de páginas. 33. - El método de acuerdo con la reivindicación 30, en donde la generación de la clasificación además está basada en el texto asociado con el bloque seleccionado. 34.- El método de acuerdo con la reivindicación 30, en donde la generación de la clasificación además está basada en múltiples bloques que tienen una importancia alta. 35. - Un medio legible por computadora que contiene instrucciones para causar que un sistema de computadora determine la importancia de bloques de una página a través de un método que comprende: identificar bloques de una página; y para cada bloque de la página, generar un vector de característica que representa el bloque; y aplicar una función de importancia al vector de característica para determinar la importancia del bloque a la página. 36. - El medio legible por computadora de acuerdo con la reivindicación 35, en donde la función de importancia es aprendida basándose en importancias especificadas por usuario de bloques dentro de una colección de páginas. 37.- El medio legible por computadora de acuerdo con la reivindicación 36, en donde la función de importancia es aprendida utilizando una red neural. 38.- El medio legible por computadora de acuerdo con la reivindicación 36, en donde la función de importancia es aprendida utilizando una máquina de vector. 39. - El medio legible por computadora de acuerdo con la reivindicación 35, en donde el vector de característica incluye características espaciales. 40. - El medio legible por computadora de acuerdo con la reivindicación 35, en donde el vector de característica incluye características de contenido.