MXPA05004680A - Metodo y sistema para calcular la importancia de un bloque dentro de una pagina de presentacion. - Google Patents

Metodo y sistema para calcular la importancia de un bloque dentro de una pagina de presentacion.

Info

Publication number
MXPA05004680A
MXPA05004680A MXPA05004680A MXPA05004680A MXPA05004680A MX PA05004680 A MXPA05004680 A MX PA05004680A MX PA05004680 A MXPA05004680 A MX PA05004680A MX PA05004680 A MXPA05004680 A MX PA05004680A MX PA05004680 A MXPA05004680 A MX PA05004680A
Authority
MX
Mexico
Prior art keywords
importance
block
page
function
feature vector
Prior art date
Application number
MXPA05004680A
Other languages
English (en)
Inventor
Song Ruihua
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of MXPA05004680A publication Critical patent/MXPA05004680A/es

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47JKITCHEN EQUIPMENT; COFFEE MILLS; SPICE MILLS; APPARATUS FOR MAKING BEVERAGES
    • A47J39/00Heat-insulated warming chambers; Cupboards with heating arrangements for warming kitchen utensils
    • A47J39/02Dish-warmers; Devices to keep food hot
    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47JKITCHEN EQUIPMENT; COFFEE MILLS; SPICE MILLS; APPARATUS FOR MAKING BEVERAGES
    • A47J36/00Parts, details or accessories of cooking-vessels
    • A47J36/24Warming devices
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Food Science & Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

Se describen un metodo y sistema para identificar la importancia de areas de informacion de una pagina de presentacion. Un sistema de importancia identifica areas de informacion o bloques de una pagina web. Un bloque de una pagina web representa un area de la pagina web que parece estar relacionada con un topico similar. El sistema de importancia proporciona las caracteristicas o rasgos de un bloque para una funcion de importancia que genera una indicacion de la importancia de ese bloque para su pagina web. El sistema de importancia "aprende" la funcion de importancia generando un modelo basandose en las caracteristicas de los bloques y la importancia especificada por el usuario de esos bloques. Para aprender la funcion de importancia, el sistema de importancia le pide al usuario proporcionar una indicacion de la importancia de los bloques de las paginas web en una coleccion de paginas web.

Description

METODO Y SISTEMA PARA CALCULAR LA IMPORTANCIA DE UN BLOQUE DENTRO DE UNA PAGINA DE PRESENTACION CAMPO TÉCNICO La tecnología descrita generalmente se refiere a identificar un bloque dentro de una página de presentación que representa el tópico primario de la página de presentación.
ANTECEDENTES Muchos servicios de máquina de búsqueda, tal como Google y Overture, proveen búsqueda para información que es accesible a través de Internet. Estos servicios de máquina de búsqueda permiten a usuarios buscar páginas de presentación, tal como páginas web, que pueden ser de interés a usuarios. Después de que un usuario presenta una solicitud de búsqueda que incluye términos de búsqueda, el servicio de máquina de búsqueda identifica páginas web que pueden estar relacionadas con aquellos términos de búsqueda. Para identificar rápidamente páginas web relacionadas, los servicios de máquina de búsqueda pueden mantener un mapa de palabras clave a páginas web. Este mapa puede ser generado al "navegar lentamente" en la web (es decir, la Gran Red Mundial) para Identificar las palabras claves de cada página web. Para navegar lentamente en la web, un servicio de máquina de búsqueda puede utilizar una lista de páginas web de raíz para identificar todas las páginas web que son accesibles a través de aquellas páginas web de raíz. Las palabras clave de cualquier página web particular pueden ser identificadas utilizando varias técnicas de recuperación de información bien conocidas, tal como identificar las palabras de un encabezado, las palabras provistas en los metadatos de la página web, las palabras que son resaltadas, y así sucesivamente. Después el servicio de máquina de búsqueda clasifica las páginas web del resultado de búsqueda basándose en la cercanía de cada ajuste, popularidad de página web (por ejemplo, Clasificación de Página de Google), y así sucesivamente. El servicio de máquina de búsqueda también puede generar una marca de relevancia para indicar qué tan importante puede ser la información de página web a la solicitud de búsqueda. El servicio de máquina de búsqueda después presenta ai usuario enlaces a aquellas páginas web en un orden que está basado en sus clasificaciones. Que las páginas web de un resultado de búsqueda son de interés a un usuario depende, en parte, en qué tan bien las palabras clave identificadas por el servicio de máquina de búsqueda representen el tópico primario de una página web. Debido a que una página web puede contener muchos tipos diferentes de información, puede ser difícil distinguir el tópico primario de una página web. Por ejemplo, muchas páginas web contienen anuncios que no están relacionados al tópico primario de la página web. Una página web fe un sitio web de noticias puede contener un artículo que se relaciona a un evento internacional y puede contener "información de ruido" tal como un anuncio para una dieta popular, un área relacionada con noticias legales, y una barra de navegación. Tradicionalmente ha sido muy difícil para un servicio de máquina de búsqueda identificar que información en una página web es información de ruido y qué información se refiere al tópico primario de la página web. Como un resultado, un servicio de máquina de búsqueda puede seleccionar palabras clave basándose en información de ruido, más que el tópico primario de la página web. Por ejemplo, un servicio de máquina de búsqueda puede trazar una página web que contiene un anuncio de dieta a la palabra clave "dieta", incluso aunque el tópico primario de la página web se refiere a un evento político internacional. Cuando un usuario después presenta una solicitud de búsqueda que incluye el término de búsqueda "dieta", el servicio de máquina de búsqueda puede regresar la página web que contiene el anuncio de dieta, que es poco probable que sea de interés al usuario. Sería deseable tener una técnica para calcular la importancia de varias áreas de información de una página web al tópico primario de la página web.
COMPENDIO DE LA INVENCION Un sistema de importancia identifica la importancia de áreas de información de una página de presentación. El sistema de importancia identifica áreas de información o bloques de una página web que representa áreas de la página web que parecen estar relacionadas a un tópico similar. Después de identificar los bloques de una página web, el sistema de importancia proporciona las características o rasgos de un bloque en una función de importancia que genera una indicación de la importancia de ese bloque a su página web. El sistema de importancia puede aprender la función de importancia al generar un modelo basándose en las características de bloques y la importancia especificada por usuario de aquellos bloques.
BREVE DESCRIPCIÓN DE LOS DIBUJOS La Figura 1 es un diagrama de bloque que ilustra los componentes del sistema de importancia en una modalidad. La Figura 2 es un diagrama de flujo que ¡lustra el procesamiento de un componente de función de importancia para generar del sistema de importancia en una modalidad. La Figura 3 es un diagrama de flujo que ilustra el procesamiento de un componente de vector de característica para generar del sistema de importancia en una modalidad. La Figura 4 es un diagrama de flujo que ilustra el procesamiento de un componente de importancia de bloque para calcular del sistema de importancia en una modalidad. La Figura 5 es un diagrama de flujo que ilustra el procesamiento de un componente de resultado de búsqueda de orden que utiliza la función de importancia aprendida en una modalidad. La Figura 6 es un diagrama de flujo que ilustra el procesamiento de un componente de resultado de búsqueda extendido que utiliza la función de importancia aprendida en una modalidad. La Figura 7 es un diagrama de flujo que ilustra el procesamiento de un componente de página web de recuperación que utiliza la función de importancia aprendida en una modalidad. La Figura 8 es un diagrama de flujo que ilustra el procesamiento de un componente de página web de recuperación que utiliza la función de importancia aprendida en una modalidad.
DESCRIPCION DETALLADA Se proporcionan un método y sistema ara identificar la importancia de áreas de información de una página de presentación. En una modalidad, un sistema de importancia identifica áreas de información o bloques de una página web. Un bloque de una página web representa un área de la página web que parece relacionarse a un tópico similar. Por ejemplo, un artículo de noticias de una página web puede representar un bloque, un anuncio de dieta de la página web puede representar otro bloque. Después de identificar los bloques de una página web, el sistema de importancia proporciona las características o rasgos de un bloque a una función de importancia que genera una indicación de la importancia de ese bloque a su página web. El sistema de importancia "aprende" la función de importancia al generar un modelo basándose en las características de bloques y la importancia especificada por usuario de aquellos bloques. Para aprender la función de importancia, el sistema de importancia le pide a usuarios proporcionar una indicación de la importancia de bloques de páginas web en una colección de páginas web. Por ejemplo, un usuario puede identificar un cierto bloque como de importancia primaria a una página web, y otro usuario puede identificarse mismo bloque como de importancia secundara a la página web. El sistema de importancia también identifica un vector de característica para cada bloque que puede representar varias características espaciales y de contenido del bloque. Por ejemplo, una característica espacial puede ser el tamaño de un bloque o la ubicación de un bloque, y una característica de contenido puede ser el número de enlaces dentro de un bloque o el número de palabras dentro del bloque. El sistema de importancia después aprende una función de importancia, basadas en la importancia especificada por usuario y los vectores de característica de los bloques, que ingresa un vector de característica de un bloque y saca la importancia del bloque. El sistema de importancia puede intentar aprender una función que minimiza el cuado de las diferencias entre la importancia especificada por usuario de los bloques y la importancia calculada por la función de importancia. De esta forma, el sistema de importancia puede identificar un bloque de una página web que puede estar relacionado con el tópico primario de la página web basándose en características de bloques que usuarios piensan que son importantes. La función de importancia, una vez aprendida, puede ser utilizada para mejorar la precisión de un amplio rango de aplicaciones cuyos resultados dependen en diferenciar tópicos de páginas web. Un servicio de máquina de búsqueda puede utilizar la función de importancia para calcular relevancia de páginas web de un resultado de búsqueda a la solicitud de búsqueda. Después de que el resultado de búsqueda es obtenido, el servicio de máquina de búsqueda puede utilizar la función de importancia para identificar el bloque más importante de cada página web y calcular una relevancia del bloque más importante (o grupo de bloques de importancia) a ia solicitud de búsqueda. Debido a que su relevancia está basada en la información del bloque más importante de la página web, puede ser una medida más precisa de relevancia que una relevancia que está basada en la información tota! de la página web, que puede incluir información de ruido. Un servicio de máquina de búsqueda también puede utilizar la función de importancia para identificar páginas web que están relacionadas a una cierta página web. El servicio de máquina de búsqueda puede utilizar la función de importancia para identificar el bloque más importante de esa página web y después formular una solicitud de búsqueda basándose en el texto del bloque identificado. El servicio de máquina de búsqueda puede realizar una búsqueda que utiliza esa solicitud de búsqueda formulada para identificas páginas web que están relacionadas a esa cierta página web. Un servicio de máquina de búsqueda también puede utilizar la función de importancia para clasificar páginas web. Por ejemplo, páginas web pueden ser clasificadas basándose en su tópico primario. El servicio de máquina de búsqueda puede utilizar la función de importancia para identificar el bloque más importante de una página web y después clasificar la página web basándose en el texto del bloque identificado. Un navegador web también puede utilizar la función de importancia para identificar porciones de una página web a ser presentada cuando el contenido completo de la página web no puede ajustarse en el dispositivo de presentación. Por ejemplo, dispositivos tal como teléfonos celulares o asistentes digitales personales pueden tener dispositivos muy pequeños en los que la mayoría de páginas web no pueden ser razonablemente presentadas debido a la cantidad, tamaño, y complejidad de la información de la página web. Una página web no es razonablemente presentada cuando el contenido es tan pequeño que no puede ser efectivamente visto por una persona. Cuando tal dispositivo es utilizado para navegar páginas web, la función de importancia puede ser utilizada para identificar un bloque más importante de una página web y para presentar sólo el bloque identificado en la presentación pequeña. Alternativamente, un navegador de web puede reordenar los bloques de una página web, resaltar bloques de una página web, remover bloques de una página web, y así sucesivamente basándose en la importancia de los bloques como se indicó por la función de importancia. El sistema de importancia puede identificar las áreas de información de una página web que utiliza varias técnicas de segmentación tal como un algoritmo de segmentación basado en modelo de objeto ("basado en DOM"), un algoritmo de segmentación basado en ubicación, un algoritmo de segmentación basado en visión, y así sucesivamente. Un algoritmo de segmentación basado en DOM puede utilizar la jerarquía de HTML de una página web para identificar sus varios bloques. Un algoritmo de segmentación basado en ubicación intenta identificar áreas de una página web que puede ser considerada una unidad basada en características físicas de las áreas. Un algoritmo de segmentación basado en visión es descrito en la Solicitud de patente de E.U.A. No. 10/628,766, titulada "Segmentación de Documento Basada en Visión", presentada el 28 de Julio, 2003, que es incorporada aquí por referencia. Ese algoritmo de segmentación basado en visión identifica bloques basándose en la coherencia del contenido de información de cada bloque. Por ejemplo, un anuncio para una dieta puede representar un bloque individual debido a que su contenido es uno dirigido a un tópico individual y de esa forma puede estar dividido en muchos bloques diferentes. El sistema de importancia puede utilizar varias técnicas para aprender la función de importancia de los vectores de característica que representan los bloques y la importancia especificada por usuario de los bloques. Por ejemplo, como se describe más adelante en mayor detalle, el sistema de importancia puede aprender la función de importancia que utiliza una red neural o una máquina de vector de soporte. Además, el sistema de importancia puede utilizar varias características espaciales y de contenido de un bloque en una representación de vector de característica del bloque. Por ejemplo, las características espaciales pueden incluir la ubicación de centro del bloque y las dimensiones del bloque, que son referidos como "características espaciales absolutas". Estas características espaciales absolutas pueden ser normalizadas basándose en el tamaño de la página web, que son referidas como "características espaciales relativas", o normalizadas basándose en el tamaño de la ventana, que son referidas como "características espaciales de ventana". Las características de contenido pueden referirse a las imágenes del bloque (por ejemplo, número y tamaño de imágenes), enlaces del bloque (por ejemplo, el número de enlaces y el número de palabras en cada enlace), texto del bloque (por ejemplo, número de palabras en bloque), interacción de usuario del bloque (por ejemplo, número y tamaño de campos de entrada), y formas del bloque (por ejemplo, número y tamaño). Varias características de contenido también pueden ser normalizadas. Por ejemplo, el número de enlaces de un bloque puede ser normalizado por el número total de enlaces en la página web, o el número de palabras de texto en el bloque puede ser normalizado por el número total de palabras en el texto de todos los bloques de la página web.
En una modalidad, el sistema de importancia puede permitir a usuarios especificar la importancia de bloques que utilizan valores separados o continuos. Los valores más altos pueden representar una importancia más alta de un bloque a una página web. Cuando se utilizan valores separados 1-4, un valor de 1 puede representar información de ruido tal como un anuncio, una noticia de derechos de autor, una decoración, y así sucesivamente. Un valor de 2 puede representar información útil que particularmente no es relevante al tópico primario de la página tal como información de navegación, información de directorio, y así sucesivamente. Un valor de 3 puede representar información que es relevante al tópico primario de la página pero no importancia prominente tal como tópicos relacionados, índices de tópico, y así sucesivamente. Un valor de 4 puede indicar la parte más prominente de las páginas web tal como un encabezado, contenido principal, y así sucesivamente. La Figura 1 es un diagrama de bloque que ilustra los componentes del sistema de importancia en una modalidad, El sistema de importancia puede incluir los componentes 101-105 y almacenamientos de datos 111-114. Los componentes pueden incluir un componente de bloques que identifican 101, un componente de importancia especificada por usuario que recolecta 102, un componente de función de importancia que genera 103, un componente de función de importancia que aplica 104, y componente de vector de característica que genera 105. Los almacenamientos de datos pueden incluir un almacenamiento de página web 111, un almacenamiento de bloque 112, un almacenamiento de importancia especificado por usuario 113, y un almacenamiento de función de importancia 114. El almacenamiento de página web puede contener una colección de páginas web para usarse al generar o aprender la función de importancia. El componente de bloques para identificar identifica los bloques de cada página web del almacenamiento de página web y almacena la identificación de cada bloque en el almacenamiento de bloque. El componente de importancia especificado por usuario que recolecta presenta cada página web del almacenamiento de página web a un usuario que resalta cada uno de los bloques de la página web, pide al usuario especificar la importancia de cada bloque, y almacena las especificaciones de importancia en el almacenamiento de importancia especificado por usuario. El componente de función de importancia que genera para cada bloque del almacenamiento de bloque. Después la función de importancia que genera aprende una función de importancia para moldear los vectores de característica de los bloques y la importancia especificada por usuario de los bloques. El almacenamiento de función de importancia puede contener información tal como factores y parámetros que definen la función de importancia aprendida que son calculados por el componente de función de importancia que genera. El componente de función de importancia que aplica es pasado a un bloque de una página web, invoca el componente de vector de característica que genera para generar el vector de característica para el bloque, y aplica la función de importancia al vector de característica generado para generar una indicación de la importancia del bloque. El dispositivo de cómputo en el que el sistema de importancia es implementado pude incluir una unidad de procesamiento central, memoria, dispositivos de entrada (por ejemplo, teclado y dispositivos de señalamiento), dispositivos de salida (por ejemplo, dispositivos de presentación), y dispositivos de almacenamiento (por ejemplo, unidades de disco). Los dispositivos de memoria y almacenamiento son medios legibles por computadora que pueden contener instrucciones que implementan el sistema de importancia. Además, las estructuras de datos y estructuras de mensaje pueden ser almacenadas o transmitidas a través de un medio de transmisión de datos, tal como una señal en un enlace de comunicaciones. Varios enlaces de comunicaciones pueden ser utilizados, tal como Internet, una red de área local, una red de área amplia, o una conexión de marcado de punto a punto. La Figura 1 ilustra un ejemplo de un ambiente operativo adecuado en el que el sistema de importancia puede ser implementado. El ambiente operativo es sólo un ejemplo de un ambiente operativo adecuado y no pretende sugerir cualquier limitación al alcance de uso o funcionalidad del sistema importancia. Otros sistemas, ambientes, y configuraciones de cómputo bien conocidos que pueden ser adecuados para uso incluyen computadoras personales, computadoras de servidor, dispositivos portátiles o laptop, sistemas de multiprocesador, sistemas basados de microprocesador, aparatos electrónicos programables para el consumidor, PCs de red, minicomputadoras, macrocomputadoras, ambientes de cómputo distribuidos que incluyen cualquiera de los sistemas o dispositivos anteriores, y similares. sistema de importancia puede ser descrito en el contexto general de instrucciones ejecutables por computadora, tal como módulos de programa, ejecutados por una o más computadoras u otros dispositivos. Generalmente, módulos de programa incluyen rutinas, programas, objetos, componentes, estructuras de datos, y así sucesivamente que realizan tareas particulares o implementan tipos de datos abstractos particulares. Típicamente, la funcionalidad de los módulos de programa puede ser combinada o distribuida como se desea en varias modalidades. En una modalidad, el sistema de importancia aprende una función de importancia de bloque al minimizar una función de objetivo de cuadros menor basándose en la importancia especificada por usuario de bloques de una colección de páginas web. Cada bloque puede ser representado por un vector y par de importancia (x,y) en donde x es el vector de característica del bloque e y es su importancia. El grupo de vector de característica y pares de importancia de la colección de páginas web es referido como un grupo de entrenamiento T. El sistema de importancia intenta aprender una función de importancia / que minimiza la siguiente función de objetivo: (1) La función de objetivo puede ser resuelta utilizando técnicas de clasificación tal como una máquina de vector de soporte si y es técnicas separadas y de regresión tal como una red neural si y es continua. Cuando la importancia es representada por números reales continuos, el sistema de importancia puede aplicar una red neural que aprende para aprender /* óptima que es dada al minimizar la siguiente función objetiva en donde m es el número de bloques en el grupo de entrenamiento. Este es un problema de regresión no paramétrico multivariante, ya que no existe un conocimiento anterior sobre la forma de la función de regresión que está siendo estimada. Un modelo de red neural tiene tres componentes mayores: arquitectura, función de costo, y algoritmo de búsqueda. La arquitectura define la forma funcional que se refiere a las entradas a las salidas (en términos de topología de red, conectividad de unidad, y funciones de activación). La búsqueda en espacio de peso para un grupo de pesos que minimiza la función de objetivo es el procedimiento de entrenamiento. En una modalidad, el sistema de importancia utiliza una red de función de base radial ("RBF") y un descendiente de gradiente estándar como la técnica de búsqueda. El sistema de importancia construye una red de RBF con tres diseños de página que tienes papeles diferentes. El diseño de página de entrada comprende nodos de fuente (es decir, unidades sensoriales) que conectan la red a su ambiente (es decir, espacio de característica de nivel bajo). El diseño de página escondido aplica una transformación no lineal del espacio de entrada al espacio escondido. Generalmente, el espacio escondido es de alta dimensionalidad. El diseño de página escondido tiene neuronas de RBF, que calculan la entrada del diseño de página escondido al combinar entradas y propensiones pesadas. El diseño de página de salida es lineal y provee la importancia de bloque dada la representación de bloque de bajo nivel aplicada al diseño de página de entrada. La función aprendida por redes de RBF puede ser representada por lo siguiente: en donde i es un bloque en el grupo de entrenamiento, h es el número de neuronas de diseño de página escondidas, w¡j C R son los pesos, y G¡ es la función radial definida como sigue: en donde c¡ es el centro para G¡ y a¡, es la amplitud de función base. El mapa k-dimensional puede ser representado como sigue: en donde /= [f f2, k] es la función de mapa. La red neural de RBF aproxima la función de regresión óptima de espacio de característica a importancia de bloque. El sistema de importancia puede entrenar la red neural de RBF fuera de línea con las muestras de entrenamiento {x¡, y¡} (i = 1,...,m) del grupo de entrenamiento T. Para un nuevo bloque previamente no procesado, el sistema de importancia puede calcular su importancia utilizando la función de regresión / dado el vector de característica del bloque. Cuando la importancia es representada por números separados, el sistema de importancia aplica una máquina de vector de soporte para aprender la función de importancia. Una máquina de vector de importancia intenta minimizar el riesgo estructural, más que riesgo empírico. La máquina de vector de soporte puede utilizar una clasificación binaria con el fin de que el grupo de entrenamiento sea definido por lo siguiente: en donde D es el grupo de entrenamiento, t es el número de muestras de entrenamiento, y y¡ S{-1,1}. El sistema de importancia intenta seleccionar, entre el número infinito de clasificadores lineales que separan los datos, el único con el mínimo error de generalización. Un hiperplano con esta propiedad es el que deja el margen máximo entre las dos clases. La función de importancia puede ser representada por lo siguiente: en donde or¡ asociada con la muestra de entrenamiento x¡ expresa la fuerza con la que ese punto es fijado en la función final y b es la intercepción también conocida como la propensión en aprendizaje de máquina. Una propiedad de esta representación es que frecuentemente sólo un subgrupo de los puntos estará asociado con no cero a¡. Estos puntos son llamados vectores de soporte y son los puntos que yacen lo más cerca al hiperplano que separa. La máquina de vector de soporte ni lineal traza la entrada variable en un espacio de alta dimensión (frecuentemente dimensión infinita), y aplica la máquina de vector de soporte lineal en el espacio. Conceptualmente, esto puede ser logrado por la aplicación de un núcleo (que reproduce). La función de decisión no lineal correspondiente es representada como sigue: en done K es la función de núcleo. Algunas funciones de núcleo típicas incluyen un núcleo polinomio, núcleo de RBF Gaussiano, y núcleo sigmoide. Para un problema de clasificación de clase múltiple, el sistema de importancia puede aplicar un esquema de uno contra todos. La Figura 2 es un diagrama de flujo que ilustra el procesamiento de un componente de función de importancia que genera del sistema de importancia en una modalidad. En el bloque 201, el componente recupera la colección de páginas web del almacenamiento de página web. En el bloque 202, el componente identifica los bloques dentro de las páginas web recuperadas y almacena las indicaciones de los bloques en el almacenamiento de bloque. En el bloque 203, el componente recolecta datos de importancia especificados por usuario para los bloques. El componente puede presentar cada página web junto con una indicación de los bloques de la página web y pedir a un usuario que estime la importancia de cada bloque a la página web. El componente almacena la importancia especificada por usuario en el almacenamiento de importancia especificado por usuario. En el bloque 204, el componente genera un vector de característica para cada bloque y puede almacenar los vectores de característica en el almacenamiento de bloque. En el bloque 205, el componente aprende la función de importancia utilizando técnicas de una red neural de una máquina de vector de soporte como se describió anteriormente.
La Figura 3 es un diagrama de flujo que ilustra el procesamiento de un componente de vector de característica que genera del sistema de importancia en una modalidad. El componente es pasado a una indicación de una página web junto con una indicación de un bloque de la página web cuya importancia va a ser calculada. En el bloque 301, el componente identifica las características espaciales absolutas del bloque. En el bloque 302, el componente calcula las características espaciales de ventana del bloque. El componente puede calcular las características espaciales de ventana tal como centro de bloque para el y-coordinado de acuerdo con lo siguiente: Centro de Bloque Y /(2* AlturadeEncabezado); si CentroBloqueY <AlturaEncábezado si AlturaEncabezado < CentroBloque CentroBloqueY = Y < AlturaPágina - AlturaPiePágina 1- (AlturaPágina - CentroBloqueY)/(2* AlturaPiePágina); entonces en donde Altura de Encabezado y Altura de Pie de Página son valores de constante predefinidos que se refieren a las alturas de encabezados y pies de una página. En el bloque 303, el componente identifica las características de contenido del bloque. En el bloque 304, el componente normaliza las características de contenido como es apropiado y después regresa el vector de característica. La Figura 4 es un diagrama de flujo que ilustra el procesamiento de un componente de importancia de bloque para calcular del sistema de importancia en una modalidad. El componente es pasado a una indicación de una página web y calcula la importancia de cada bloque de la página web al aplicar la función de importancia aprendida. En el bloque 401, el componente identifica los bloques de la página web pasada. En los bloques 402-406, el componente da la vuelta calculando la importancia de cada bloque de la página web pasada. En el bloque 402, el componente selecciona el siguiente bloque de la página web pasada. En el bloque de decisión 403, si todos los bloques de la página web pasada ya han sido seleccionados, después el componente regresa la importancia de cada bloque, también el componente continúa en el bloque 404. En el bloque 404, el componente invoca el componente de vector de característica que genera para generar el vector de característica para el bloque seleccionado. En el bloque 405, el componente aplica la función de importancia aprendida al vector de característica generado para calcular la importancia del bloque seleccionado. En el bloque 406, el componente guarda la importancia calculada y después gira a bloque 402 para seleccionar el siguiente bloque de la página web pasada. Las Figuras 5-8 ilustran el uso de la función de importancia aprendida en varias aplicaciones. La Figura 5 es un diagrama de flujo que ilustra el procesamiento de un componente de resultado de búsqueda de orden que utiliza la función de importancia aprendida en una modalidad. El componente es pasado a un resultado de búsqueda de páginas web y regresa el resultado de búsqueda reordenado basándose en importancia de bloque como se calculó por la función de importancia aprendida. En el bloque 501, el componente selecciona la siguiente página web del resultado de búsqueda. En el bloque de decisión 502, si todas las páginas web del resultado de búsqueda ya han sido seleccionadas, después el componente continúa en bloque 505, también el componente continua en bloque 503. En bloque 503 el componente invoca un componente de importancia de bloque que calcula para calcular la importancia de cada bloque de la página web seleccionada. En el bloque 504, el componente establece la relevancia de la página web basándose en el bloque con la importancia más alta. El componente puede calcular la relevancia basándose en qué tan bien se ajusta el texto del bloque más importante (o bloques) a la solicitud de búsqueda para la que el resultado de búsqueda fué identificado. El componente también puede combinar esa relevancia con la relevancia de cada página web que fue calculada por una máquina de búsqueda. Después el componente gira a bloque 501 para seleccionar la siguiente página web del resultado de búsqueda. En el bloque 505, el componente clasifica las páginas web basándose en la relevancia establecida y después regresa las páginas web reordenadas del resultado de búsqueda. La Figura 6 es un diagrama de flujo que ilustra el procesamiento de un componente de resultado de búsqueda que expande que utiliza la función de importancia aprendida en una modalidad. El componente es pasado a una página web e identifica páginas web que puedan estar relacionadas a la página web pasada. En el bloque 601, el componente invoca el componente de importancia de bloque que calcula para calcular la importancia de cada bloque de la página web pasada. En el bloque 602, el componente selecciona el bloque de la página web pasada con la importancia más alta. En el bloque 603, el componente recupera el texto asociado con el bloque seleccionado. En el bloque 604, el componente fórmula una solicitud de búsqueda basándose en el texto recuperado. En el bloque 605, el componente presenta la solicitud de búsqueda formulada a un servicio de máquina de búsqueda y recibe el resultado de búsqueda a cambio. El componente después regresa el resultado de búsqueda. La Figura 7 es un diagrama de flujo que ilustra el procesamiento de un componente de página web que presenta que utiliza la función de importancia aprendida en una modalidad. Este componente es pasado a un localizador de recurso uniforme de una página web y presenta el contenido del bloque a esa página web con la importancia más alta como el contenido de la misma página web. En el bloque 701, el componente utiliza el localizador de recurso uniforme pasado para recuperar la página web. En el bloque 702, el componente invoca la función de importancia de bloque que calcula para calcular la importancia de cada bloque de la página web recuperada. En el bloque 703, el componente selecciona el bloque de la página web recuperada con la importancia más alta. En el bloque 704, el componente presenta el bloque seleccionado como el contenido de la página web. La Figura 8 es un diagrama de flujo que ¡lustra el procesamiento de un componente de página web que clasifica que utiliza la función de importancia aprendida en una modalidad. El componente es pasado a una página web y clasifica esa página web. En el bloque 801, el componente invoca la función de importancia de bloque para calcular la importancia de cada bloque de la página web pasada. En el bloque 802, el componente selecciona el bloque (o grupo de bloques) de la página web pasada con la importancia más alta. En el bloque 803, el componente recupera el texto del bloque seleccionado con la importancia más alta. En el bloque 804, el componente genera una clasificación basándose en el texto recuperado, La clasificación también puede estar basada en enlaces dentro del bloque seleccionado. El componente después regresa la clasificación. Un experto en la técnica apreciará que aunque modalidades específicas el sistema de importancia han sido descritas aquí para propósitos de ilustración, varias modificaciones pueden ser hechas sin apartare del espíritu y alcance de la invención. Los principios del sistema de importancia pueden ser utilizados para determinar la importancia de áreas de información dentro de varias fuentes de información diferentes a páginas web. Estas fuentes de información pueden incluir documentos representados que utilizan HTML, XML, y otros lenguajes de marcación. Un experto en la técnica apreciará que algunas aplicaciones de importancia de bloque pueden utilizar una función de importancia que es no "aprendida". Por ejemplo, un desarrollador puede simplemente definir una función de importancia que refleja su concepto de importancia de bloque y no confía en datos empíricos recolectados de clasificaciones de usuario de importancia de bloque. Tal función de importancia puede clasificar la importancia de un bloque basándose en una combinación de su tamaño y ubicación. Por consiguiente, la invención no está limitada excepto por las reivindicaciones anexas.

Claims (33)

  1. REIVINDICACIONES 1. - Un método en un sistema de computadora para identificar importancia de un bloque a una página que contiene el bloque, el método comprende: proporcionar una colección de páginas con bloques; para cada bloque, generar un vector de característica que representa el bloque; y recolectar de una persona una indicación de la importancia del bloque a su página; aprender una función del vector de característica generado y la importancia indicada de cada bloque que representa un mapa de vector de característica a importancia; y aplicar la función aprendida a una representación de vector de característica del bloque de la página para generar una indicación de la importancia del bloque a la página. 2. - El método de acuerdo con la reivindicación 1, en donde el vector de característica incluye características espaciales. 3.- El método de acuerdo con la reivindicación 1, en donde el vector de característica incluye características de contenido. 4. - El método de acuerdo con la reivindicación 3, en donde las características de contenido incluyen características de imagen. 5. - El método de acuerdo con la reivindicación 3, en donde las características de contenido incluyen características de enlace. 6. - El método de acuerdo con la reivindicación 3, en donde las características de contenido incluyen características de interacción. 7. - El método de acuerdo con la reivindicación 1, en donde el vector de característica incluye características espaciales y características de contenido. 8. - El método de acuerdo con la reivindicación 1, en donde el aprendizaje de la función incluye aplicar un análisis de regresión basado en red neural. 9.- El método de acuerdo con la reivindicación 8, en donde la red neural es una red neural de base radial. 10. - El método de acuerdo con la reivindicación 1, en donde la función es aprendida al seleccionar una función que tiende a minimizar la suma del cuadrado de las diferencias de la importancia calculada por la función y la importancia recolectada. 11. - El método de acuerdo con la reivindicación 1, en donde el aprendizaje de función incluye utilizar un algoritmo de máquina de vector de soporte. 12. - Un método en un sistema de computadora para establecer relevancia de páginas para resultados de búsqueda, el método comprende: identificar bloques de cada página del resultado de búsqueda; y para cada página del resultado de búsqueda, seleccionar el bloque de la página con la importancia más alta; y establecer la relevancia de la página basándose en el bloque seleccionado. 13. - El método de acuerdo con la reivindicación 12, en donde el establecimiento de la relevancia incluye ajustar una relevancia previamente calculada. 14. - El método de acuerdo con la reivindicación 12, en donde la selección del bloque con la importancia más alta incluye para cada bloque de la página, generar un vector de característica para el bloque y aplicar una función de importancia para el vector de característica generado. 15. - El método de acuerdo con la reivindicación 14, en donde la función de importancia es aprendida basándose en importancia especificada por usuario para bloques de una colección de páginas. 16. El método de acuerdo con la reivindicación 12, que incluye ordenar las páginas basándose en la relevancia de grupo. 17. - Un método en un sistema de computadora para identificar páginas relacionadas a una página, el método comprende: identificar bloques de la página; seleccionar el bloque de la página con la importancia más alta; generar una solicitud de búsqueda basándose en el bloque seleccionado; y presentar la solicitud de búsqueda generada para identificar páginas relacionadas con la página. 18. - El método de acuerdo con la reivindicación 17, en donde la selección del bloque con la importancia más alta incluye para cada bloque de la página, generar un vector de característica para el bloque y aplicar una función de importancia al vector de característica generado. 19. - El método de acuerdo con la reivindicación 18, en donde la función de importancia es aprendida basándose en la importancia especificada por usuario para bloques de una colección de páginas. 20. - El método de acuerdo con la reivindicación 17, en donde la página es parte de un resultado de búsqueda. 21. - El método de acuerdo con la reivindicación 17, en donde la solicitud de búsqueda es generada basándose en el texto asociado con el bloque seleccionado. 22. - Un método en un sistema de computadora para seleccionar una porción de una página para presentar en un dispositivo de presentación, el método comprende: identificar bloques de la página; seleccionar el bloque de la página con la importancia más alta; y presentar el bloque seleccionado en el dispositivo de presentación. 23.- El método de acuerdo con la reivindicación 22, en donde el dispositivo de presentación no puede acomodar razonablemente la presentación de la página completa. 24.- El método de acuerdo con la reivindicación 22, en donde el dispositivo de presentación está asociado con el teléfono celular. 25.- El método de acuerdo con la reivindicación 22, en donde el dispositivo de presentación está asociado con un asistente digital personal. 26. - El método de acuerdo con la reivindicación 22, en donde el bloque seleccionado es el único bloque presentado en el dispositivo de presentación. 27. - El método de acuerdo con la reivindicación 22, en donde un subgrupo de los bloques identificados es presentado basándose en su importancia. 28. - El método de acuerdo con la reivindicación 22, en donde la selección del bloque con la importancia más alta incluye para cada bloque de la página, generar un vector de característica para el bloque y aplicar una función de importancia al vector de característica generado. 29. - El método de acuerdo con la reivindicación 28, en donde la función de importancia es aprendida basándose en la importancia especificada por usuario para bloques de una colección de páginas. 30. - Un método en un sistema de computadora para clasificar una página, el método comprende: identificar bloques de la página; seleccionar el bloque de la página con la importancia más alta; y generar una clasificación para la página basándose en el bloque seleccionado. 31. - El método de acuerdo con la reivindicación 30, en donde la selección del bloque con la importancia más alta incluye para cada bloque de la página, generar un vector de característica para el bloque y aplicar una función de importancia al vector de característica generado. 32. - El método de acuerdo con la reivindicación 31, en donde la función de importancia es aprendida basándose en la importancia especificada por usuario para bloques de una colección de páginas. 33. - El método de acuerdo con la reivindicación 30, en donde la generación de la clasificación además está basada en el texto asociado con el bloque seleccionado. 34.- El método de acuerdo con la reivindicación 30, en donde la generación de la clasificación además está basada en múltiples bloques que tienen una importancia alta. 35. - Un medio legible por computadora que contiene instrucciones para causar que un sistema de computadora determine la importancia de bloques de una página a través de un método que comprende: identificar bloques de una página; y para cada bloque de la página, generar un vector de característica que representa el bloque; y aplicar una función de importancia al vector de característica para determinar la importancia del bloque a la página. 36. - El medio legible por computadora de acuerdo con la reivindicación 35, en donde la función de importancia es aprendida basándose en importancias especificadas por usuario de bloques dentro de una colección de páginas. 37.- El medio legible por computadora de acuerdo con la reivindicación 36, en donde la función de importancia es aprendida utilizando una red neural. 38.- El medio legible por computadora de acuerdo con la reivindicación 36, en donde la función de importancia es aprendida utilizando una máquina de vector. 39. - El medio legible por computadora de acuerdo con la reivindicación 35, en donde el vector de característica incluye características espaciales. 40. - El medio legible por computadora de acuerdo con la reivindicación 35, en donde el vector de característica incluye características de contenido.
MXPA05004680A 2004-04-29 2005-04-29 Metodo y sistema para calcular la importancia de un bloque dentro de una pagina de presentacion. MXPA05004680A (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/834,639 US7363279B2 (en) 2004-04-29 2004-04-29 Method and system for calculating importance of a block within a display page

Publications (1)

Publication Number Publication Date
MXPA05004680A true MXPA05004680A (es) 2005-11-17

Family

ID=34939568

Family Applications (1)

Application Number Title Priority Date Filing Date
MXPA05004680A MXPA05004680A (es) 2004-04-29 2005-04-29 Metodo y sistema para calcular la importancia de un bloque dentro de una pagina de presentacion.

Country Status (10)

Country Link
US (3) US7363279B2 (es)
EP (1) EP1591922B1 (es)
JP (1) JP2005317018A (es)
KR (1) KR20060045873A (es)
CN (1) CN1702654B (es)
AU (1) AU2005201765A1 (es)
BR (1) BRPI0501441A (es)
CA (1) CA2505317A1 (es)
MX (1) MXPA05004680A (es)
RU (1) RU2387004C2 (es)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7752266B2 (en) 2001-10-11 2010-07-06 Ebay Inc. System and method to facilitate translation of communications between entities over a network
US8078505B2 (en) 2002-06-10 2011-12-13 Ebay Inc. Method and system for automatically updating a seller application utilized in a network-based transaction facility
US7363279B2 (en) 2004-04-29 2008-04-22 Microsoft Corporation Method and system for calculating importance of a block within a display page
IL162411A0 (en) * 2004-06-08 2005-11-20 Picscout Ltd Method for presenting visual assets for sale, using search engines
WO2006093394A1 (en) * 2005-03-04 2006-09-08 Chutnoon Inc. Server, method and system for providing information search service by using web page segmented into several information blocks
US7672916B2 (en) * 2005-08-16 2010-03-02 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for music classification
US7546280B1 (en) * 2005-08-30 2009-06-09 Quintura, Inc. Use of neural networks for keyword generation
US7475072B1 (en) 2005-09-26 2009-01-06 Quintura, Inc. Context-based search visualization and context management using neural networks
US7620607B1 (en) * 2005-09-26 2009-11-17 Quintura Inc. System and method for using a bidirectional neural network to identify sentences for use as document annotations
JP4908813B2 (ja) 2005-09-30 2012-04-04 エプソンイメージングデバイス株式会社 電気光学装置、電気光学装置の駆動方法、電子機器
US7949646B1 (en) * 2005-12-23 2011-05-24 At&T Intellectual Property Ii, L.P. Method and apparatus for building sales tools by mining data from websites
US20070156523A1 (en) * 2005-12-30 2007-07-05 Deborah Yee-Ky Liu Method and system to process an incentive
US20070220421A1 (en) * 2006-03-16 2007-09-20 Microsoft Corporation Adaptive Content Service
US8639782B2 (en) 2006-08-23 2014-01-28 Ebay, Inc. Method and system for sharing metadata between interfaces
KR100832859B1 (ko) * 2006-08-30 2008-05-28 한양대학교 산학협력단 모바일 웹 콘텐츠 서비스 시스템 및 그 방법
US7437370B1 (en) * 2007-02-19 2008-10-14 Quintura, Inc. Search engine graphical interface using maps and images
US7895148B2 (en) * 2007-04-30 2011-02-22 Microsoft Corporation Classifying functions of web blocks based on linguistic features
US20090248707A1 (en) * 2008-03-25 2009-10-01 Yahoo! Inc. Site-specific information-type detection methods and systems
US8180754B1 (en) 2008-04-01 2012-05-15 Dranias Development Llc Semantic neural network for aggregating query searches
US8051083B2 (en) * 2008-04-16 2011-11-01 Microsoft Corporation Forum web page clustering based on repetitive regions
US20090265611A1 (en) * 2008-04-18 2009-10-22 Yahoo ! Inc. Web page layout optimization using section importance
US8593666B2 (en) * 2009-02-11 2013-11-26 Hewlett-Packard Development Company, L.P. Method and system for printing a web page
US8429110B2 (en) * 2010-06-10 2013-04-23 Microsoft Corporation Pattern tree-based rule learning
EP2431889A1 (en) * 2010-09-01 2012-03-21 Axel Springer Digital TV Guide GmbH Content transformation for lean-back entertainment
US8650143B2 (en) * 2011-08-30 2014-02-11 Accenture Global Services Limited Determination of document credibility
CN102708244B (zh) * 2012-05-08 2016-01-20 清华大学 一种基于重要度度量的概念图自动布图方法
CN103546505B (zh) * 2012-07-12 2018-03-06 百度在线网络技术(北京)有限公司 将页面分块按优先级顺序显示的方法、系统及装置
US9773182B1 (en) * 2012-09-13 2017-09-26 Amazon Technologies, Inc. Document data classification using a noise-to-content ratio
CN103970749B (zh) * 2013-01-25 2017-08-25 北京百度网讯科技有限公司 一种网页中的块重要性计算方法及系统
US10482507B2 (en) 2013-09-18 2019-11-19 Telefonaktiebolaget Lm Ericsson (Publ) Handling digital advertisements in a communication network
CN103678259B (zh) * 2013-12-18 2016-08-17 小米科技有限责任公司 一种页面的适配方法、装置和终端设备
US10152540B2 (en) * 2014-10-10 2018-12-11 Qualcomm Incorporated Linking thumbnail of image to web page
US9747382B1 (en) 2014-10-20 2017-08-29 Amazon Technologies, Inc. Measuring page value
CN104281714A (zh) * 2014-10-29 2015-01-14 南通大学 医院门户网站门诊专家信息抽取系统
CN104751148B (zh) * 2015-04-16 2018-09-07 同方知网数字出版技术股份有限公司 一种版式文件中识别科学公式的方法
CN106503012A (zh) * 2015-09-07 2017-03-15 阿里巴巴集团控股有限公司 页面展示方法及装置
US20170270407A1 (en) * 2016-03-18 2017-09-21 Google Inc. Globally normalized neural networks
CN106681049A (zh) * 2017-03-23 2017-05-17 合肥鑫晟光电科技有限公司 显示基板的制作方法、显示面板的制作方法及显示面板
CN114037828A (zh) * 2021-11-26 2022-02-11 北京沃东天骏信息技术有限公司 组件识别方法、装置、电子设备及存储介质

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3251662B2 (ja) * 1992-10-19 2002-01-28 富士通株式会社 データ表示処理システム
US5835905A (en) * 1997-04-09 1998-11-10 Xerox Corporation System for predicting documents relevant to focus documents by spreading activation through network representations of a linked collection of documents
US6032182A (en) * 1997-07-11 2000-02-29 International Business Machines Corporation Method, apparatus and computer program product for user selected refreshing of internet web pages
US20020002488A1 (en) 1997-09-11 2002-01-03 Muyres Matthew R. Locally driven advertising system
US20020004744A1 (en) 1997-09-11 2002-01-10 Muyres Matthew R. Micro-target for broadband content
US20010042016A1 (en) 1997-09-11 2001-11-15 Muyres Matthew R. Local portal
US6067565A (en) * 1998-01-15 2000-05-23 Microsoft Corporation Technique for prefetching a web page of potential future interest in lieu of continuing a current information download
US6182133B1 (en) * 1998-02-06 2001-01-30 Microsoft Corporation Method and apparatus for display of information prefetching and cache status having variable visual indication based on a period of time since prefetching
US6446095B1 (en) 1998-06-09 2002-09-03 Matsushita Electric Industrial Co., Ltd. Document processor for processing a document in accordance with a detected degree of importance corresponding to a data link within the document
US6334131B2 (en) * 1998-08-29 2001-12-25 International Business Machines Corporation Method for cataloging, filtering, and relevance ranking frame-based hierarchical information structures
US6985781B2 (en) * 1999-01-12 2006-01-10 Pavilion Technologies, Inc. Residual activation neural network
JP2001014326A (ja) * 1999-06-29 2001-01-19 Hitachi Ltd 構造指定による類似文書の検索装置及び検索方法
US6449636B1 (en) * 1999-09-08 2002-09-10 Nortel Networks Limited System and method for creating a dynamic data file from collected and filtered web pages
US6700590B1 (en) 1999-11-01 2004-03-02 Indx Software Corporation System and method for retrieving and presenting data using class-based component and view model
US6647410B1 (en) * 1999-11-05 2003-11-11 Reuters Limited Method, apparatus and program for delivery and display of information from dynamic and static data sources
US20020003547A1 (en) * 2000-05-19 2002-01-10 Zhi Wang System and method for transcoding information for an audio or limited display user interface
US6670968B1 (en) * 2000-07-10 2003-12-30 Fuji Xerox Co., Ltd. System and method for displaying and navigating links
US7130848B2 (en) * 2000-08-09 2006-10-31 Gary Martin Oosta Methods for document indexing and analysis
US6744447B2 (en) 2000-12-29 2004-06-01 International Business Machines Corporation Method and system for compiling and using placebot agents for automatically accessing, processing, and managing the data in a place
US6694307B2 (en) * 2001-03-07 2004-02-17 Netvention System for collecting specific information from several sources of unstructured digitized data
US7310666B2 (en) 2001-06-29 2007-12-18 International Business Machines Corporation Method and system for restricting and enhancing topology displays for multi-customer logical networks within a network management system
US7200662B2 (en) 2001-07-06 2007-04-03 Juniper Networks, Inc. Integrated rule network management system
WO2003014975A1 (en) * 2001-08-08 2003-02-20 Quiver, Inc. Document categorization engine
US6915025B2 (en) * 2001-11-27 2005-07-05 Microsoft Corporation Automatic image orientation detection based on classification of low-level image features
US6965900B2 (en) * 2001-12-19 2005-11-15 X-Labs Holdings, Llc Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents
US7035467B2 (en) * 2002-01-09 2006-04-25 Eastman Kodak Company Method and system for processing images for themed imaging services
US7343365B2 (en) 2002-02-20 2008-03-11 Microsoft Corporation Computer system architecture for automatic context associations
JP4370783B2 (ja) * 2002-06-27 2009-11-25 沖電気工業株式会社 情報処理装置および方法
US20040006748A1 (en) * 2002-07-03 2004-01-08 Amit Srivastava Systems and methods for providing online event tracking
US20040049374A1 (en) * 2002-09-05 2004-03-11 International Business Machines Corporation Translation aid for multilingual Web sites
AU2003304298A1 (en) * 2002-09-18 2005-01-21 Dmetrix, Inc. Method for referencing image data
US7363279B2 (en) 2004-04-29 2008-04-22 Microsoft Corporation Method and system for calculating importance of a block within a display page
US7580931B2 (en) * 2006-03-13 2009-08-25 Microsoft Corporation Topic distillation via subsite retrieval

Also Published As

Publication number Publication date
US20120109950A1 (en) 2012-05-03
US8401977B2 (en) 2013-03-19
CA2505317A1 (en) 2005-10-29
AU2005201765A1 (en) 2005-11-17
RU2387004C2 (ru) 2010-04-20
US8095478B2 (en) 2012-01-10
EP1591922A1 (en) 2005-11-02
JP2005317018A (ja) 2005-11-10
CN1702654B (zh) 2012-03-28
US20050246296A1 (en) 2005-11-03
BRPI0501441A (pt) 2006-01-10
CN1702654A (zh) 2005-11-30
RU2005113003A (ru) 2006-11-10
US7363279B2 (en) 2008-04-22
US20080256068A1 (en) 2008-10-16
EP1591922B1 (en) 2013-04-17
KR20060045873A (ko) 2006-05-17

Similar Documents

Publication Publication Date Title
MXPA05004680A (es) Metodo y sistema para calcular la importancia de un bloque dentro de una pagina de presentacion.
US7895148B2 (en) Classifying functions of web blocks based on linguistic features
KR101203345B1 (ko) 요약을 이용하여 디스플레이 페이지를 분류하는 방법 및시스템
US10410224B1 (en) Determining item feature information from user content
MXPA05004679A (es) Metodo y sistema para identificar relevancia de imagen utilizando un analisis de enlace y diseno de pagina.
US7974957B2 (en) Assessing mobile readiness of a page using a trained scorer
JP2008176511A (ja) コンピュータネットワークにおける情報処理方法および情報処理装置
KR101827338B1 (ko) 이동통신 단말기에서 인터넷 서비스 제공 방법 및 장치
CN112214687B (zh) 时态感知学术信息的论文推荐方法、系统及介质
Agrawal et al. FACT-Fine grained Assessment of web page CredibiliTy
Zhang et al. Adacml: Adaptive collaborative metric learning for recommendation
Makvana et al. Comprehensive analysis of personalized web search engines through information retrieval feedback system and user profiling
US20200226159A1 (en) System and method of generating reading lists
Bouras et al. Adaptation of RSS feeds based on the user profile and on the end device
CN112084406A (zh) 短信处理方法、装置、电子设备和存储介质
Braslavski Marrying relevance and genre rankings: an exploratory study
Gaou et al. The optimization of search engines to improve the ranking to detect user’s intent
Ali et al. Dataset creation framework for personalized type-based facet ranking tasks evaluation
Chen et al. Expert2Vec: distributed expert representation learning in question answering community
Reddy et al. Designing Recommendation System for Hotels Using Cosine Similarity Function
Pun et al. Ranking search results by web quality dimensions
Devika et al. Book recommendation system: reviewing different techniques and approaches
Soiraya et al. E-commerce web site trust assessment based on text analysis
Agrawal et al. Minimizing Web Diversion Using Query Classification and Text Mining
Hong A study on textual contents in online communities and social media using text mining approaches

Legal Events

Date Code Title Description
FA Abandonment or withdrawal