MX2008011223A - Extraccion de comportamiento de usuario de busqueda web para mejorar relevancia de busqueda web. - Google Patents

Extraccion de comportamiento de usuario de busqueda web para mejorar relevancia de busqueda web.

Info

Publication number
MX2008011223A
MX2008011223A MX2008011223A MX2008011223A MX2008011223A MX 2008011223 A MX2008011223 A MX 2008011223A MX 2008011223 A MX2008011223 A MX 2008011223A MX 2008011223 A MX2008011223 A MX 2008011223A MX 2008011223 A MX2008011223 A MX 2008011223A
Authority
MX
Mexico
Prior art keywords
user behavior
computer
user
implemented
component
Prior art date
Application number
MX2008011223A
Other languages
English (en)
Inventor
Susan T Dumais
Eric D Brill
Robert J Ragno
Yevgeny E Agichtein
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of MX2008011223A publication Critical patent/MX2008011223A/es

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Se describen métodos y sistemas que estiman la preferencia de usuario, a través de interpretación automática del comportamiento de usuario. Un componente de comportamiento de usuario asociado con una máquina de búsqueda puede interpretar automáticamente comportamiento colectivo de usuarios (por ejemplo, usuarios de búsqueda web). Dicho componente de realimentación puede incluir características de comportamiento de usuario y modelos predictivos (por ejemplo, de un componente de comportamiento de usuario) que son robustos al ruido, los cuales pueden estar presentes en interacciones de usuario observadas con los resultados de búsqueda (por ejemplo, actividad de usuario maliciosa y/o irracional).

Description

EXTRACCION DE COMPORTAMIENTO DE USUARIO DE BUSQUEDA WEB PARA MEJORAR RELEVANCIA DE BUSQUEDA WEB ANTECEDENTES Dada la popularidad de la Gran Red Mundial e Internet, los usuarios pueden adquirir información que se relaciona con casi cualquier tema desde una gran cantidad de fuentes de información. Con el fin encontrar información, los usuarios generalmente aplican varias máquinas de búsqueda para la tarea de recuperación de información. Las máquinas de búsqueda permiten a los usuarios encontrar páginas web que contienen información u otro material en Internet que contiene palabras o frases especificas. En general, una búsqueda de palabra clave puede encontrar, para la mejor de una capacidad de computadora, todos los sitios web que tienen cualquier información en ellos relacionada con cualquiera de las palabras clave y frases que se especifican. Un sitio de máquina de búsqueda tendrá un cuadro para que los usuarios ingresen palabras clave dentro y un botón para presionar el inicio de la búsqueda. Muchas máquinas de búsqueda tienen consejos sobre cómo utilizar palabras clave para buscar eficientemente. Típicamente, tales consejos ayudan a los usuarios a definir de forma estrecha términos de búsqueda, para que no se regrese información extraña y no relacionada y el procedimiento de recuperación de información no se desordena. Tal estrechamiento manual de términos puede mitigar recibir varios miles de sitios para clasificar cuando se busca información específica. En algunos casos, los temas de búsqueda se pre-distribuyen en áreas de tema y subtema. Por ejemplo, "Yahoo" proporciona una lista predeterminada jerárquicamente distribuida de temas posibles (por ejemplo, negocio, gobierno, ciencia, etc.) en donde el usuario seleccionará un tema y entonces además elegirá un subtema dentro de la lista. Otro ejemplo de listas de temas predeterminados es como en utilidades de ayuda de computadora personal de escritorio, en donde una lista de temas de ayuda y subtemas relacionados se proporciona al usuario. Mientras estas jerarquías predeterminadas pueden ser útiles en algunos contextos, los usuarios frecuentemente necesitan buscar/consultar sobre información fuera de y/o no incluir dentro de estas listas predeterminadas. De esa forma, las máquinas de búsqueda u otros sistemas de búsqueda frecuentemente se emplean para permitir a los usuarios dirigir consultas, para encontrar información deseada. Sin embargo, durante búsqueda de usuario se recuperan muchos resultados no relacionados, ya que los usuarios pueden estar inseguros de cómo crear o construir una consulta particular. Además, tales sistemas comúnmente requieren que los usuarios modifiquen continuamente consultas, y refinen resultados de búsqueda recuperados para obtener un número razonable de resultados para examinar. No es poco común escribir en una palabra o frase en un campo de consulta de entrada de' sistema de búsqueda, y entonces recuperar varios millones de resultados como candidatos potenciales. Para tener sentido del gran número de candidatos recuperados, el usuario frecuentemente experimentará con otras combinaciones de palabra, para además estrechar la lista. En general, el sistema de búsqueda clasificará los resultados de acuerdo con relevancia prevista de resultados para la consulta. La clasificación típicamente se basa en funciones que combinan muchos parámetros que incluyen la similitud de una página web a una consulta así como calidad intrínseca del documento, frecuentemente inferida de información de topología web. La calidad de la experiencia de búsqueda de usuario se relaciona directamente con la calidad de la función de clasificación, mientras los usuarios típicamente no ven resultados clasificados inferiores. En general, el sistema de búsqueda intentará hacer coincidir o encontrar todos los temas que se relacionan con la entrada de consulta de usuario sin importar si los temas "buscados" tienen cualquier relación contextual con el área o categoría de tema de lo que el usuario realmente esté interesado. Como un ejemplo, si un usuario que está interesado en astronomía ingresar a la consulta "Saturno" en un sistema de búsqueda convencional, todos los tipos de resultados no relacionados probablemente se regresarán incluyendo aquellos que se relacionan con autos, comerciantes de autos, juegos de computadora, y otros sitios que tiene la palabra "Saturno". Otro problema con implementaciones de búsqueda convencionales es que las máquinas de búsqueda operan igual para todos los usuarios sin importar de necesidades y circunstancias de usuario diferentes. De esa forma, si los usuarios ingresan la misma consulta de búsqueda típicamente obtienen los mismos resultados, sin importar sus intereses o características, historial de búsqueda previo, contexto de cómputo actual (por ejemplo, archivos abiertos), o contexto ambiental (por ejemplo, ubicación, máquina que se utiliza, tiempo del día, día de la semana). Al sintonizar las funciones de clasificación de búsqueda para regresar resultados relevantes en la parte superior generalmente requiere esfuerzo significativo. Un acercamiento general para máquinas de búsqueda modernas es entrenar funciones de clasificación y establecer parámetros de función y pesos automáticamente basándose en ejemplos de resultados de búsqueda manualmente clasificados. Los anotadores humanos pueden medir explícitamente un grupo de páginas para una consulta de acuerdo con una relevancia percibida, y crear el "estándar de oro" contra el cual pueden sintonizarse y evaluarse diferentes algoritmos de clasificación. Sin embargo, las clasificaciones humanas explícitas son costosas y difíciles de obtener, lo que frecuentemente resulta en funciones de clasificación incompletamente entrenadas y subóptimas.
BREVE DESCRIPCION DE LA INVENCION Lo siguiente presenta una breve descripción simplificada con el fin de proporcionar un entendimiento básico de algunos aspectos del tema reclamado. Esta breve descripción no es una revisión extensiva. No pretende identificar elementos clave/críticos ni delinear el alcance del tema reclamado. Su único propósito es presentar algunos conceptos en una forma simplificada como un preludio a la descripción más detallada que se presenta posteriormente. La innovación en cuestión mejora clasificaciones de búsqueda en un sistema de recuperación de información, a través de emplear un componente de comportamiento de usuario que facilita una interpretación automática para el comportamiento de usuarios colectivo, para estimar preferencias de usuario para un artículo sobre otro artículo. Tales preferencias entonces pueden emplearse para varios propósitos, tal como mejorar la clasificación de los resultados. El componente de comportamiento de usuario puede interactuar con una máquina(s) de búsqueda e incluir características de realimentación que mitigan el ruido que típicamente acompaña comportamiento de usuario (por ejemplo, actividad de usuario maligna y/o irracional). Al explotar el comportamiento agregado de usuarios (por ejemplo, no tratar a cada usuario como un experto individual) la innovación en cuestión puede mitigar ruido y generar juicios de relevancia de retroalimentación de usuarios. El componente de comportamiento de usuario emplea realimentación implícita o explícita de usuarios y sus interacciones que resultan de consultas previas. Las características de comportamiento clave incluyen características de presentación que pueden ayudar a un usuario a determinar si un resultado relevante al observar el título de resultado y la descripción; navegar características similar a tiempo de residencia en una página, la forma de buscar resultados de búsqueda (por ejemplo, a través de otros enlaces) desviación de tiempo promedio en dominio, y similares; dar clic a través de características tal como el número de clics en un resultado particular para la consulta. Para un par de consulta y un resultado dado la innovación en cuestión proporciona múltiples valores de característica observados y derivados para cada tipo de característica. El componente de comportamiento de usuario puede emplear un modelo manejado por datos de comportamiento de usuario. Por ejemplo, el componente de comportamiento de usuario puede modelar comportamiento de búsqueda web de usuario como sí se generará por dos componentes: un componente de "antecedentes", (tal como usuarios que dan clic indiscriminadamente), y un componente de "relevancia", (tal como comportamiento específico por consulta que se influencia por la relevancia del resultado a la consulta). De acuerdo con un aspecto adicional de la innovación en cuestión, el componente de comportamiento de usuario puede generar y/o modelar las desviaciones del comportamiento de usuario esperado. A partir de aquí, las características derivadas pueden calcularse, en donde tales características derivadas dirigen explícitamente la desviación del valor de característica observado para un resultado de búsqueda dado de de los valores esperados para un resultado, sin información dependiente de consulta. Además, el componente de comportamiento de usuario de la innovación en cuestión puede emplear modelos que tienen dos tipos de características para describir comportamiento de usuario, principalmente: directo y de desviación, en donde el formador son los valores directamente medidos, y después está la desviación de los valores esperados estimados de las distribuciones totales (independientes de consulta) para las características directamente observadas correspondientes. Por consiguiente, el valor observado o de una característica / para una consulta q y resultado r, puede expresarse como una mezcla de dos componentes: o(q, r, /) = C(r, /) + rel(q, r, /) en donde C(r, /) es la distribución de "antecedentes" previa para valores de / agregado a través de todas las consultas que corresponden a r, y rel(q, r, /) es el componente de "relevancia" del comportamiento influenciado por la relevancia del resultado a la consulta. Por ejemplo, una estimación de relevancia del comportamiento de usuario puede obtenerse con característica de clic, a través de una sustracción de distribución de antecedente de la frecuencia de clic observado en una posición dada. Para mitigar el efecto de variaciones de usuario individuales en comportamiento, la innovación en cuestión puede provenir valores de característica a través de todos los usuarios y sesiones de búsqueda para cada par de resultado-consulta. Tal agregación puede proporcionar voluminosidad adicional, en donde interacciones de usuario "ruidosa" individuales no se confían. Por consiguiente, el comportamiento de usuario para un par de consulta y un resultado puede representarse por un vector de característica que incluye tanto las características directamente observadas y los valores de característica "corregido", derivados. Varias técnicas de aprendizaje de máquina también pueden emplearse en conjunto con algoritmos de clasificación de entrenamiento para sistemas de recuperación de información. Por ejemplo, los juicios de relevancia de humano explícitos inicialmente puede proporcionarse para varias consultas de búsqueda y emplearse para algoritmos de clasificación de entrenamientos subsecuentes. En un aspecto relacionado, el comportamiento colectivo de usuarios que interactúan con una máquina de búsqueda web puede interpretarse automáticamente con el fin de predecir preferencias usuario futuras; a partir de aquí, el sistema puede adaptarse para cambiar patrones de comportamiento de usuario y diferentes configuraciones de búsqueda al reentrenar automáticamente el sistema con los datos de comportamiento de usuario más recientes. Para la realización de los fines anteriores y relacionados, ciertos aspectos ilustrativos del tema reclamado se describen aquí en conexión con la siguiente descripción y los dibujos anexos. Estos aspectos son . indicativos de varias formas en las cuales puede practicarse el tema, todas de las cuales pretenden estar dentro del alcance del tema reclamado. Otras ventajas y características novedosas pueden hacerse evidentes a partir de la siguiente descripción detallada cuando se consideran en conjunto con los dibujos BREVE DESCRIPCION DE LOS DIBUJOS La Figura 1 ilustra un diagrama de bloques de un componente de comportamiento de usuario de acuerdo con un aspecto ilustrativo de la innovación en cuestión. La Figura 2 ilustra un diagrama de bloques de un sistema que incorpora un componente de comportamiento de usuario e interactúa con un modelo de entrenamiento de una máquina de búsqueda de conformidad con un aspecto de la innovación en cuestión. La Figura 3 ilustra un diagrama de bloques de un sistema que incorpora un componente de clasificador operativamente conectado para un componente de comportamiento de usuario, y una máquina dé búsqueda de conformidad con un aspecto ilustrativo de la innovación en cuestión. La Figura 4 ilustra una tabla de características que representan actividades de navegación de usuario de acuerdo con un aspecto de la innovación en cuestión. La Figura 5 ¡lustra un sistema de recuperación de información automatizado que puede emplear un componente de aprendizaje de máquina de acuerdo con un aspecto de la innovación en cuestión.
La Figura 6 ilustra un componente de comportamiento de usuario que interactúa con una pluralidad de características de sistema, que representan acción de usuario de acuerdo con un aspecto particular de la innovación en cuestión. La Figura 7 ilustra una metodología ilustrativa para interpretar comportamiento de usuario para estimar preferencias de usuario de acuerdo con un aspecto de la innovación en cuestión. La Figura 8 ilustra una metodología para implementar comportamiento de usuario como parte de clasificación de valor de acuerdo con un aspecto de la innovación en cuestión. La Figura 9 ilustra un ambiente ilustrativo para implementar varios aspectos de la innovación en cuestión. La Figura 10 es un diagrama de bloques esquemático de un ambiente de cómputo adicional que puede emplearse para implementar varios aspectos de de la innovación en cuestión.
DESCRIPCION DETALLADA Los varios aspectos de la innovación en cuestión ahora se describen con referencia a los dibujos anexos, en donde números similares se refieren a elementos similares o correspondientes a través de esto. Sin embargo, se entenderá, que los dibujos y la descripción detallada que se relacionan a esto no pretende limitar el tema reclamado a la forma particular descrita. En lugar de esto, la intención es cubrir todas las modificaciones, equivalentes, y alternativas que caen dentro del espíritu y alcance del tema reclamado. Como se utiliza aquí, los términos "componentes", "sistema", "característica" y similares también pretenden referirse a una entidad relacionada con computadora, ya sea hardware, una combinación de hardware y software, software, o software en ejecución. Por ejemplo, un componente puede ser, pero no se limita a ser, un procedimiento que corre en un procesador, un procesador, un objeto, un ejecutable, una secuencia de ejecución, un programa, y/o una computadora. A manera de ilustración tanto una aplicación que corre en una computadora y la computadora puede ser un componente. Uno o más componentes pueden recibir dentro de un procedimiento y/o secuencia de ejecución y un componente puede localizarse en una computadora y/o distribuirse entre dos o más computadoras. La palabra "ilustrativo" se utiliza aquí para significar que sirve como un ejemplo, caso, o ilustración. Cualquier aspecto o diseño aquí descrito como "ilustrativo" no necesariamente se debe construir como preferido o ventajoso sobre otros aspectos o diseños. Además, el tema descrito puede implementarse como un sistema, método, aparato, o artículo de fabricación que utiliza técnicas de programación y/o ingeniería estándar para producir software, firmware, hardware, o cualquier combinación de los mismos para controlar una computadora o dispositivo basado en procesador para implementar aspectos aquí detallados. El término programa de computadora como se utiliza aquí pretende abarcar un programa de computadora accesible desde cualquier dispositivo legible por computadora, portador, o medio. Por ejemplo, medio legible por computadora puede incluir pero no se limita a dispositivos de almacenamiento magnético (por ejemplo, disco duro, disco flexible, bandas magnéticas...), discos ópticos (por ejemplo, disco compacto (CD), discos versátiles digitales (DVD)...), tarjetas inteligentes, y dispositivos de memoria flash (por ejemplo, tarjeta, memoria). Adicionalmente se debe apreciar que una onda portadora puede emplearse para transportar datos electrónicos legibles por computadora tal como aquellos utilizados al transmitir y recibir correo electrónico o al acceder una red tal como Internet o una red de área local (LAN). Por supuesto, aquellos expertos en la técnica reconocerán que pueden hacerse muchas modificaciones a esta configuración sin apartarse del alcance o espíritu del tema reclamado. Cambiando inicialmente a la Figura 1, se ¡lustra un diagrama de bloques de un sistema 100, que incorpora un componente de comportamiento de usuario que interactúa con una máquina de búsqueda de acuerdo con un aspecto ilustrativo de la innovación en cuestión. El componente de comportamiento de usuario 104 asociado con la máquina de búsqueda 102 puede interpretar automáticamente comportamiento de usuarios colectivos 101, 103, 105 (1 a N, en donde N es un entero). El componente comportamiento de usuario 104 puede incluir características de realimentación que mitigan ruido, que típicamente acompañan comportamiento de usuario (por ejemplo, actividad de usuario maligna y/o irracional) al explotar el comportamiento agregado de los usuario 101, 103, 105 (por ejemplo, no tratar cada usuario como un experto individual) el sistema 100 puede mitigar ruido, y generar juicios de relevancia de realimentación de usuarios. El componente de comportamiento de usuario 104 puede interactuar con el componente de clasificación. Para una consulta dada el componente de comportamiento de usuario 104 recupera las predicciones derivadas de un modelo de comportamiento previamente entrenado de esta consulta, y reordena los resultados para la consulta para que los resultados que parecían relevantes para usuarios previos se clasifican superiores. Por ejemplo para una consulta dada q, la marca implícita ISr puede calcularse para cada resultado r desde características de interacción de usuario disponibles, que resultan en la clasificación implícita lr para cada resultado. Una marca fusionada SM(r) puede calcularse para r al combinar las clasificaciones obtenidas de realimentación implícita, lr con la clasificación original de r, Or: ' / + 1 O + 1 s' existe realimentación implícita para r ] de otra manera Or+\ El peso wl es un factor de escalada heurísticamente sintonizado que representa la "importancia" relativa de la realimentación implícita. Los resultados de consulta pueden ordenarse por valores descendentes de SM(r) para producir la clasificación final. Un caso particular de tal modelo surge cuando se establecen w¡ a un valor muy grande, lo que efectivamente forza resultados con clic para clasificarse superiores a los resultados sin clic, una heurística intuitiva y efectiva que puede emplearse como una línea de base. En general, el acercamiento anterior asume que no hay interacciones entre las características fundamentales que producen la clasificación de búsqueda web original y las características de realimentación implícita. Otros aspectos de la innovación en cuestión relajan tal suposición al integrar las características de realimentación implícita directamente en el procedimiento de clasificación, como se describió en detalle anteriormente. Además, se debe apreciar que pueden emplearse comportamiento de usuario más sofisticado y algoritmos de combinación de clasificador, y es también dentro del reino de la innovación en cuestión. La Figura 2 ilustra un aspecto adicional de la innovación en cuestión, en donde la máquina de búsqueda 202 además comprende un modelo de entrenamiento 204 de acuerdo con un aspecto de la innovación en cuestión. El modelo de entrenamiento 204 además puede comprender tipos de modelos adicionales para describir comportamiento de usuario, principalmente: una característica de comportamiento observada 201 y una característica de comportamiento derivada 203. Las características de comportamiento observada 201 son los valores directamente medidos, y la característica de comportamiento derivada 203 es desviación de los valores esperados estimados de las distribuciones totales (independientes de consulta) para las características directamente observadas correspondientes. Por consiguiente, el valor observado o de una característica / para una consulta q y resultado r, puede expresarse como una mezcla de dos componentes: o(q, r, /) = C(r, /) +rel(q, r, /) en donde C(r, /) es la distribución de "antecedentes" previa para valores de / agregado a través de todas las consultas que corresponden a r, y rel(q, r, /) es el componente de comportamiento influenciado por la relevancia de los resultados. Por ejemplo, una estimación de relevancia del comportamiento de usuario puede obtenerse con característica de clic, a través de una sustracción de distribución de antecedente (por ejemplo, ruidos) de la frecuencia de clic observada en una posición dada. Para mitigar el efecto de variaciones de usuario individuales en comportamiento, la innovación en cuestión puede promediar valores de característica directos a través de todos los usuarios y sesiones de búsqueda para cada par de consulta-URL. Tal agregación puede proporcionar voluminosidad adicional, en donde interacciones de usuario "ruidosas" individuales no se confían. Por consiguiente, el comportamiento de usuario para un par de consulta-URL puede representarse por un vector de característica que incluye tanto las características directamente observadas y los valores de característica "corregidos", derivados. La Figura 3 ilustra un diagrama de bloques de un sistema 300 que incorpora un componente de clasificador 310 operativamente conectado a un componente de comportamiento de usuario 315 y una máquina de búsqueda 340 de acuerdo con un aspecto ilustrativo de la innovación en cuestión. Típicamente, la máquina de búsqueda 340 puede clasificar resultados de búsqueda 350 basándose en un gran número de características, que incluyen características basadas en contenido (por ejemplo, que tan cerca coincide una consulta con el texto o título u otro texto de ancla del documento), y características de calidad de página independientes de consulta (por ejemplo, ClasificaciónPágina del documento o el dominio), como se describió infra. Además, la máquina de búsqueda 340 puede emplear métodos automáticos (o semi-automáticos) para sintonizar la función de clasificación específica que combina tales valores de característica. Por ejemplo, puede asumirse que un usuario que envía una consulta 360 realizará acciones particulares. Tales acciones pueden incluir dar clic, navegar, enviar refinaciones de consulta hasta que se encuentra un documento relevante, y similares. Al encontrar el documento relevante, el usuario puede satisfacerse y cambiar comportamiento (por ejemplo, para leer el documento). La innovación en cuestión permite diseñar un grupo de características suficientemente rico que permitirá la detección de cuando el usuario se satisface con un resultado recuperado. Tales características son dependientes en consultas enviadas, y a partir de aquí son específicas de consulta. Por ejemplo, las características/actividades de usuario pueden clasificarse en características de presentación, características de navegación, y características de clic, como se describió con referencia a la Figura 4. La Figura 4 ilustra una tabla de características 400 que representa actividades de navegación de usuario. Las características de presentación 410 típicamente se diseñan para representar la experiencia del usuario mientras afectan algunos o todos los aspectos del comportamiento (por ejemplo, un usuario puede decidir dar clic en un resultado basándose en las características de presentación). Para modelar tal aspecto de experiencia de usuario la innovación en cuestión puede emplear características tal como traslape en palabras en título y palabras en consulta (Traslape de Titulo) y la fracción de palabras compartidas por la consulta y el compendio de resultado, todos estos frecuentemente se consideran por usuario cuando se hace una decisión si se da clic a un compendio de resultado para ver el documento completo. De forma similar, la característica de navegación 420 puede capturar y cuantificar aspectos de las interacciones de página web de usuario. Por ejemplo, la innovación en cuestión puede calcular desviación de tiempo de residencia desde tiempo de residencia de página esperado para una consulta, que permite modelar diversidad intra-consu Ita de comportamiento de navegación de página. Tal además puede incluir ambas características directas y características derivadas, como se describió en detalle anteriormente. De forma similar, las características de clic 430 son un ejemplo de interacción de usuario con los resultados de máquina de búsqueda. Por ejemplo, las características de clic pueden incluir el número de clics para un par de consulta-resultado, o la desviación de la probabilidad de clic esperada. Como se ilustró en la Figura 4, el clic ilustra un aspecto de interacciones de usuario con una máquina de búsqueda web. La innovación en cuestión puede emplear modelos de comportamiento de usuario predictivos automáticamente derivados. Por consiguiente, para una consulta dada, cada resultado puede representarse con las características en la Tabla de la Figura 4. Preferencias de usuarios relativas entonces pueden estimarse al utilizar el modelo de comportamiento de usuario aprendido, como se describió en detalle anteriormente. El uso de tales modelos de comportamiento de usuario permite a la máquina de búsqueda beneficiarse de la sabiduría de la gente que interactúa con los resultados de búsqueda así como características más ricas que caracterizan el comportamiento de navegación más allá de la página de resultados de búsqueda. La Figura 5 ilustra un sistema de recuperación de información automatizado 500 que puede emplear un componente de aprendizaje de máquina 535 de acuerdo con un aspecto de la innovación. Una estrategia de interpretación de realimentación implícita general puede emplearse para prender automáticamente un modelo de preferencias de usuario (por ejemplo, en lugar de confiar en heurística o comprensión). El sistema 500 incluye un componente de clasificación 510 puede entrenarse de un registro de datos 520 o interacciones con el componente de comportamiento de usuario 515, por ejemplo. Los datos en el registro 520 pueden reunirse de fuentes de datos locales o remotas e incluye información que se relaciona con datos de búsqueda previos o actividades 530 de una pluralidad de usuarios. Después de entrenamiento, el componente de clasificador 510 puede interactuar con la máquina de búsqueda 540 para facilitar o mejorar resultados' de búsqueda futuros que se indican como resultados relevantes 550. Por ejemplo, una o más consultas de búsqueda nuevas 560 pueden procesarse por la máquina de búsqueda 540, basándose en parte en entrenamiento de los datos de búsqueda previos 530, y/o información del componente de comportamiento de usuario 515. En general, el sistema 500 puede emplear varias técnicas de extracción de datos para mejorar relevancia de máquina de búsqueda. Tales pueden incluir emplear clasificadores de relevancia en el componente clasificador 510, para generar datos de entrenamiento de alta calidad para clasificadores de tiempo de operación, los cuales se emplean con la máquina de búsqueda de clasificador 540 para generar los resultados de búsqueda 550. La Figura 6 ilustra un componente de comportamiento de usuario 610 que interactúa con una pluralidad de características de sistema, que représentan acción de usuario. En un aspecto, la innovación en cuestión considera comportamientos de búsqueda web como una compilación de un componente de "antecedentes" (por ejemplo, ruido independiente de consulta y de relevancia en comportamiento de usuario, y similares), y un componente de "relevancia" (por ejemplo, comportamiento específico de consulta indicativo de la relevancia de un resultado a una consulta). Tal distribución puede tomar ventaja de comportamiento de usuario agregado, en donde el grupo de características está compuesto de características directamente observadas (calculadas directamente de observaciones para cada consulta), así como características derivadas de consulta-específicas, calculadas como la desviación de la distribución independiente de consulta total de valores para los valores de características directamente observados correspondientes. Como se ilustra en la Figura 6, las características de sistema ilustrativas tal como: característica(s) de clic 612, característica(s) de navegación 614, y características de presentación 616, que pueden emplearse para representar interacciones de usuario con resultado de búsqueda web, o a través del componente de comportamiento de usuario 610. Además, las características tal como la desviación del número de clic observado para un par de consulta-URL dado del número de clics esperado en un resultado en la posición dada, también pueden considerarse. Además, el comportamiento de navegación puede modelarse, por ejemplo, después que se aplica un resultado, entonces el tiempo de residencia de página promedio para un par de consulta-URL dado, así como su desviación del tiempo de residencia esperado (promedio), se emplea para tal modelo. Adicionalmente, ejemplo, los usuarios de búsqueda de web frecuentemente pueden determinar si un resultado es relevante al observar el título de resultado, URL, y compendio, en muchos casos, al observar el documento original típicamente no es necesario. Para modelar este aspecto de experiencia de usuario, las características tal como: traslape en palabras en título y palabras en consulta, también pueden emplearse. La Figura 7 ilustra una metodología ilustrativa 700 de interpretar comportamiento de usuario para estimar preferencias de usuario de acuerdo con un aspecto de la innovación en cuestión. Mientras el método ilustrativo se ilustra y describe aquí como una serie de bloques representativos de varios eventos y/o actos, la innovación en cuestión no se limita por el orden ilustrado de tales bloques. Por ejemplo, algunos actos o eventos pueden ocurrir en diferentes órdenes y/o concurrentemente con otros actos o eventos, además del orden aquí ilustrado, de acuerdo con la innovación. Además, no todos los bloques ilustrados, eventos o actos, pueden requerirse para implementar una metodología de acuerdo con la innovación en cuestión. Además, se apreciará que el método ilustrativo y otros métodos de acuerdo con la innovación pueden implementarse en asociación con el método ¡lustrado y descrito aquí, asi como en asociación con otros sistemas y aparatos no ilustrados o descritos. Inicialmente y en 710, los datos relacionados con interacción de usuario son máquina de búsqueda, tal como comportamiento de usuario de búsqueda posterior pueden adquirirse. Subsecuentemente y en 720, puede agregarse comportamiento de usuario, por ejemplo al emplear técnicas de análisis estadístico. En 730, el aprendizaje de máquina entonces puede emplearse para entrenar modelo de preferencia de usuario. Subsecuentemente, y en 740 pueden proporcionarse predicciones de preferencia para resultado de consultas futuras. La Figura 8 ilustra una metodología 800 para implementar comportamiento de usuario como parte de clasificación de acuerdo con un aspecto de la innovación en cuestión. I nicialmente, y en 810, los datos relacionados con comportamiento de usuario pueden recolectarse. Tal comportamiento de usuario entonces puede emplearse para entrenar y/o generar automáticamente un modelo de comportamiento en 820. Tal modelo (por ejemplo, modelo de comportamiento predictivo) entonces puede incorporarse como parte de una máquina de búsqueda para clasificar resultados y/o generar juicios de relevancia implícitos desde la realimentación de usuarios, en 830. Subsecuentemente, y 840 basándose en parte en la información de modelo de comportamiento generada y/o entrenada recuperada por la máquina de búsqueda entonces puede clasificarse.
Con el fin de proporcionar un contexto para los varios aspectos del tema descrito, las Figuras 9 y 10 así como la discusión al siguiente pretenden proporcionar una breve descripción general de un ambiente adecuado en donde los varios aspectos del tema descrito pueden implementarse. Mientras el tema se describió anteriormente en el contexto general de instrucciones ejecutables por computadora de un programa de computadora que corre en una computadora y/o computadoras, aquellos expertos en la técnica reconocerán que la innovación también puede implementarse en combinación con otros módulos de programa. Generalmente, los módulos de programa incluyen rutinas, programas, componentes, estructuras de datos, etc. que realizan tareas particulares y/o implementan tipos de datos abstractos particulares. Además, aquellos expertos en la técnica apreciaran que los métodos innovativos pueden practicarse con otras configuraciones de sistema de computadora, que incluyen sistemas de computadora de procesador individual o multiprocesador, dispositivos de mini-cómputo, macrocomputadoras, así como computadoras personales, dispositivos de cómputo portátiles (por ejemplo, asistente digital personal (PDA), teléfono, reloj...), electrónica basada en microprocesador de consumidor programable o electrónica industrial, y similares. Los aspectos ilustrados también pueden practicarse en ambientes de cómputo distribuidos en donde las tareas se realizan por dispositivo de procesamiento remoto que se enlazan a través de una red de comunicaciones. Sin embargo, algunos, si no es que todos los aspectos de la innovación pueden practicarse en computadoras individuales. En un ambiente de cómputo distribuido, los módulos de programa pueden localizarse tanto en dispositivo de almacenamiento de memoria local y remota. Con referencia a la Figura 9, un ambiente ilustrativo 910 para implementar varios aspectos de la innovación en cuestión se describe e incluye una computadora 912. La computadora 912 incluye una unidad de procesamiento 914, una memoria de sistema 916, y un conductor común de sistema 918. El conductor común de sistema 918 acopla componentes de sistema que incluyen, pero no se limitan a, la memoria de sistema 916 a la unidad de procesamiento 914. La unidad de procesamiento 914 puede ser cualquiera de varios procesadores disponibles. Los microprocesadores dobles y otras arquitecturas de multiprocesador también pueden emplearse como la unidad de procesamiento 914. El conductor común de sistema 918 puede ser cualquiera de varios tipos de estructura(s) de conductor común que incluye el conductor común de memoria o controlador de memoria, un conductor común periférico o conductor común externo, y/o un conductor común local que utiliza cualquier variedad de arquitecturas de conductor común disponibles que incluyen, pero no se limitan a, conductor común de 11 bits, Arquitectura estándar de industria (ISA), Arquitectura de microcanal (MCA), ISA extendido (EISA), Electrónica de unidad inteligente (IDE), Conductor común local de VESA (VLD), Interconexión de componente periférico (PCI), Conductor común en serie universal (USB), Puerto de gráficos avanzado (AGP), conductor común de Asociación internacional de tarjeta de memoria de computadora personal (PCMCIA), e Interfase de sistemas de computadora pequeña (FCSI). La memoria de sistema 916 incluye memoria volátil 920 y memoria no volátil 922. El sistema de entrada/salida básico (BIOS), que contienen las rutinas básicas para transferir información entre elementos dentro de la computadora 912, tal como durante el arranque, se almacena en memoria no volátil 922. A manera de ilustración, y no de limitación, la memoria no volátil 922 puede incluir memoria sólo de lectura (ROM), ROM programable (PROM), ROM eléctricamente programable (EPROM), ROM eléctricamente borrable (EEPROM), o memoria flash. La memoria volátil 920 incluye memoria de acceso aleatorio (RAM), que actúa como una memoria caché externa. A manera de ilustración y no de limitación, RAM está disponible en muchas formas tal como RAM sincrónica (SRAM), RAM dinámica (DRAM), DRAM sincrónica (SDRAM), SDRAM de velocidad de datos doble (DDR SDRAM), SDRAM mejorado (ESDRAM), DRAM de enlace sincrónico (SLDRAM), y RAM de conductor común de RAM directo (DRRAM). La computadora 912 también incluye medios de almacenamiento por computadora removibles/no removibles, volátiles/no volátiles. La Figura 9 ilustra, por ejemplo un almacenamiento de disco 924. El almacenamiento de disco 924 incluye, pero no se limita a, dispositivos como una unidad de disco magnético, unidad de disco flexible, unidad de cinta, unidad de Jaz, unidad de Zip, unidad LS-60, tarjeta de memoria flash, o tarjeta de memoria. Además, el almacenamiento de disco 924 puede incluir medios de almacenamiento separadamente o en combinación con otros medios de almacenamiento que incluyen, pero no se limitan a, una unidad de disco óptico tal como dispositivo de ROM de disco compacto (CD-ROM), unidad gravable de CD (unidad de CD-R), unidad de re-escribirle de CD (Unidad de CD-RW) o una unidad de ROM de disco versátil digital (DVD-ROM). Para facilitar conexión de los dispositivos de almacenamiento de disco 924 el conductor común de sistema 918, o una interfase removible o no removible típicamente se utiliza tal como interfase 926. Se debe apreciar que la Figura 9 describe software que actúa como intermediario entre usuarios y los recursos de computadora básicos descritos en ambiente operativo adecuado 910. Tal software incluye un sistema operativo 928. El sistema operativo 928, que puede almacenarse en almacenamiento de disco 924, actúa para controlar y distribuir recursos del sistema de computadora 912. Las aplicaciones de sistema 930 toman ventaja del manejo de recursos por el sistema operativo 928 a través de módulos de programa 932 y datos de programa 934 almacenados ya sea en memoria de sistema 916 o en almacenamiento de disco 924. Se debe apreciar que varios componentes aquí descritos pueden implementarse con varios sistemas operativos o combinaciones de sistemas operativos. Un usuario ingresa comandos o información en la computadora 912 a través de dispositivo(s) de entrada 936. Los dispositivos de entrada 936 incluyen, pero no se limitan a, un · dispositivo de señalamiento tal como un ratón, seguibola, aguja, almohadilla táctil, teclado, micrófono, palanca de mandos, almohadilla de juegos, antena parabólica, escáner, tarjeta de sintonizador de TV, cámara digital, cámara de video digital, cámara web, y similares. Estos y otros dispositivos de entrada se conectan a la unidad de procesamiento 914 a través del conductor común de sistema 918 a través del puerto(s) de interfase 938. El puerto(s) de interfase 938 incluye, por ejemplo, un puerto en serie, un puerto paralelo, un puerto de juegos, y un conductor común en serie universal (USB). El dispositivo(s) de salida 940 utiliza algunos del mismo tipo de puertos que el dispositivo(s) de entrada 936. De esa forma, por ejemplo, un puerto de USB puede utilizarse para proporcionar entrada a la computadora 912, y para sacar información de la computadora 912 a un dispositivo de salida 940. El adaptador de salida 942 se proporciona para ilustrar que existen algunos dispositivos de salida 940 como monitores, bocinas, e impresoras, entre otros dispositivos de salida 940 que requieren adaptadores especiales. Los adaptadores de salida 942 incluyen, a manera de ilustración y no limitación, tarjetas de video y sonido que proporcionan un medio de conexión entre el dispositivo de salida 940 y el conductor común de sistema 918. Se debe notar que otros dispositivos y/o sistemas de dispositivos proporcionan tanto capacidades de entrada y salida tal como computadora(s) remota 944. La computadora 912 puede operar en un ambiente en red que utiliza conexiones lógicas a una o más computadoras remotas, tal como computadora(s) remota 944. La computadora(s) remota 944 puede ser una computadora personal, un servidor, un enrutador, una PC de red, una estación de trabajo, un aparato basado en microprocesador, un dispositivo par u otro nodo de red común y similares, y típicamente incluyen muchos o todos los elementos descritos relativos a la computadora 912. Para propósitos de brevedad, sólo un dispositivo de almacenamiento de memoria 946 se ilustra con computadora(s) remota 944. La com putadora(s) remota 944 se conectan lógicamente a la computadora 912 a través de una interfáse de red 948 y entonces se conecta físicamente a través de la conexión de comunicación 950. La interfáse de red 948 abarca redes de comunicación tal como redes de área local (LAN) y redes de área ancha (WAN). Las tecnologías de LAN incluyen Interfáse de datos distribuidos de fibra (FDDI), Interfáse de datos distribuida por computadora (CDDI), Ethernet/IEEE 802.3, Anillo de señal/IEEE 802.5 y similares. Las tecnologías WAN incluyen, pero no se limitan a, enlaces de punto a punto, redes de conmutación de circuito similares a Redes digitales de servicios integrados (ISDN) y variaciones en estas, redes de conmutación de paquete, y Líneas de suscriptor digital (DSL). La conexión(es) de . comunicación 950 se refiere al hardware/software empleado para conectar la interfáse de red 948 al conductor común 918. Mientras la conexión de comunicación 950 se muestra para claridad ilustrativa dentro de la computadora 912, también puede ser externa la computadora 912. El hardware/software necesario para conexión a la interfáse de red 948 incluye, para propósitos ilustrativos solamente, tecnologías internas y externas tal como, módems que incluyen módems de grado de teléfono regular, módem de cable y módem de DSL, adaptadores de ISDN, y tarjetas de Ethernet. Como se utiliza aquí, los términos "componentes", "sistema" y similares pretenden referirse a una entidad relacionada con computadora, ya sea hardware, una combinación de hardware y software, software, o software en ejecución. Por ejemplo, un componente puede ser, pero no se limita a ser, un procedimiento que corre en un procesador, un procesador, un objeto, un ejecutable, una secuencia de ejecución, un programa, y/o una computadora. A manera de ilustración, tanto una aplicación que corre en una computadora como la computadora pueden ser un componente. Uno o más componentes pueden recibir dentro de un procedimiento y/o secuencia de ejecución y un componente puede localizarse en una computadora y/o distribuirse entre dos o más computadoras. La palabra "ilustrativo" se utiliza aquí para significar que sirve como un ejemplo, caso, o ilustración. Cualquier aspecto o diseñó aquí descrito como "ilustrativo" no necesariamente debe construirse como preferido o ventajoso sobre otros aspectos o diseños. Además, tema descrito puede implementarse como un sistema, método, aparato o artículo de fabricación que utiliza programación estándar y/o técnicas de ingeniería para producir software, firmware, hardware, o cualquier combinación de los mismos para controlar una computadora o dispositivo basado en procesador para implementar aspectos aquí detallados. El término programa de computadora como se utiliza aquí pretende abarcar un programa de computadora accesible desde cualquier dispositivo legible por computadora, portador o medios. Por ejemplo, los medios legibles por computadora pueden incluir pero no se limitan a dispositivos de almacenamiento magnético (por ejemplo, disco duro, disco flexible, bandas magnéticas...), discos ópticos (por ejemplo, disco compacto (CD), discos versátiles digitales (DVD)...), tarjetas inteligentes, y dispositivos de memoria flash (por ejemplo, tarjeta, memoria). Adicionalmente se debe apreciar que una onda portadora puede emplearse para transportar datos electrónicos legibles por computadora tal como aquellos utilizados al transmitir y recibir correo electrónico o al acceder a una red tal como Internet o una red de área local (LAN). Por supuesto, aquellos expertos en la técnica reconocerán que pueden hacerse muchas modificaciones a esta configuración sin apartarse del alcance o espíritu del tema reclamado. La Figura 10 es un diagrama de bloques esquemático de un ambiente de cómputo de muestra 1000 que puede emplearse para estimar referencia de usuario a través de componente de comportamiento de usuario de acuerdo con un aspecto de la innovación en cuestión. El sistema 1000 incluye uno o más cliente(s) 1010. El cliente(s) 1010 puede ser hardware y/o software (por ejemplo, secuencias, procedimientos, dispositivos de cómputo). El sistema 1000 también incluye uno o más servidor(es) 1030. El servidor(es) 1030 también puede ser hardware y/o software (por ejemplo, secuencias, procedimientos, dispositivos de cómputo). Los servidores 1030 pueden alojar secuencias para realizar transformaciones al emplear los componentes aquí descritos, por ejemplo. Una comunicación posible entre un cliente 1010 y un servidor 1030 puede estar en la forma de un paquete de datos adaptado para transmitirse entre dos o más procedimientos de computadora. El sistema 1000 incluye una estructura de comunicación 1050 que puede emplearse para facilitar comunicaciones entre el cliente(es) 1010 y el servidor(es) 1030. El cliente(s) 1010 se conecta operativamente a uno o más almacenamiento(s) de datos de cliente 1060 que pueden emplearse para almacenar información local al cliente(s) 1010. Similarmente, el servidor(es) 1030 se conectan operativamente a uno o más almacenamiento(s) de datos de servidor 1040 que pueden emplearse para almacenar información local a los servidores 1030. Lo que se describió anteriormente incluye varios aspectos ilustrativos. Por supuesto, no es posible describir toda combinación concebible de componentes o metodologías para propósitos de describir estos aspectos, pero un experto la técnica puede reconocer que son posibles muchas combinaciones y cambios adicionales. Por consiguiente, los aspectos aquí descritos pretenden abarcar todas tales alteraciones, modificaciones y variaciones que caen dentro el espíritu y alcance de las reivindicaciones anexas. Además, a la extensión que el término "incluye" se utiliza en la descripción detallada o las reivindicaciones, tal que no pretende ser inclusivo en una forma similar al término "que comprende" como "comprendiendo" se interpreta cuando se emplea como una palabra de transición en una reivindicación.

Claims (1)

  1. REIVINDICACIONES 1.- Un sistema implementado por computadora que comprende los siguientes componentes ejecutables por computadora: un componente de comportamiento de usuario (104, 315, 515, 610) que facilita interpretación automática de comportamiento de usuarios colectivo (101, 103, 105) para estimar preferencias de usuario de resultados de búsqueda (350, 550) y una máquina de búsqueda (102, 202, 340, 540) que incorpora el comportamiento colectivo para determinación de relevancia y clasificación de resultados de búsqueda regresados (350, 550). 2 - El sistema implementado por computadora de acuerdo con la reivindicación 1, en donde el componente de comportamiento de usuario además comprende un componente de antecedente y, un componente de relevancia. 3. - El sistema implementado por computadora de acuerdo con la .reivindicación 1, que además comprende un componente de aprendizaje de máquina. 4. - En sistema implementado por computadora de acuerdo con la reivindicación 1, en donde el componente de comportamiento de usuario además comprende un modelo conducido por datos de comportamiento de usuario. 5. - El sistema implementado por computadora de acuerdo con la reivindicación 4, en donde la máquina de búsqueda además comprende un modelo de comportamiento de usuario con características directamente observadas y características de comportamiento derivadas. 6. - El sistema implementado por computadora de acuerdo con la reivindicación 4, que además comprende un registro de datos que incluye datos de búsqueda previa. 7. - El sistema implementado por computadora de acuerdo con la reivindicación 1, en donde la máquina de búsqueda además comprende un componente de clasificador que clasifica resultados de búsqueda. 8.- El sistema implementado por computadora de acuerdo con la reivindicación 5, que además comprende un componente de aprendizaje de máquina que entrena el modelo de comportamiento de usuario. 9. - El sistema implementado por computadora de acuerdo con la reivindicación 5, en donde el modelo además comprende características de clic, características de presentación y características de navegación. 10. - Un método implementado por computadora que comprende los siguientes actos ejecutables: obtener comportamiento de usuario durante interacción con una máquina de búsqueda (102, 202, 340, 540); agregar comportamiento de usuario para un análisis del mismo; y estimar preferencias de usuario para resultados recuperados (350, 550). 11. - El método implementado por computadora de acuerdo con la reivindicación 10, que además comprende clasificar información recuperada basada en preferencias de usuario. 12. - El método implementado por computadora de acuerdo con la reivindicación 10, que además comprende entrenar un modelo para clasificar la información. 13. - El método implementado por computadora de acuerdo con la reivindicación 10, que además comprende generar automáticamente el modelo a partir del comportamiento de usuario. 14.- El método implementado por computadora de acuerdo con la reivindicación 10, que además comprende aconsejar un grupo de características relacionadas con interacción de usuario con información recuperada. 15. - El método implementado por computadora de acuerdo con la reivindicación 10, que además comprende emplear aprendizaje de máquina para incorporar comportamiento de usuario. 16. - El método implementado por computadora de acuerdo con la reivindicación 10, que además comprende predecir comportamiento de usuario. 17.- El método implementado por computadora de acuerdo con la reivindicación 10, que además comprende extraer comportamiento de usuario agregado para clasificación de resultados de búsqueda. 18.- El método implementado por computadora de acuerdo con la reivindicación 10, que además comprende emplear características directamente observadas desde interacciones de usuario con resultados de búsqueda para estimar preferencias de usuario. 19.- El método implementado por computadora de acuerdo con la reivindicación 10, que además comprende mitigar ruido asociado con comportamiento de usuario agregado. 20.- Un sistema implementado por computadora que comprende los siguientes componentes ejecutables por computadora: medios (102, 202, 340, 540) para recolectar realimentación implícita de usuarios; y medios (104, 315, 515, 610) para estimar preferencias de usuario.
MX2008011223A 2006-03-02 2007-02-08 Extraccion de comportamiento de usuario de busqueda web para mejorar relevancia de busqueda web. MX2008011223A (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US77865006P 2006-03-02 2006-03-02
US11/457,733 US20070208730A1 (en) 2006-03-02 2006-07-14 Mining web search user behavior to enhance web search relevance
PCT/US2007/003530 WO2007106269A1 (en) 2006-03-02 2007-02-08 Mining web search user behavior to enhance web search relevance

Publications (1)

Publication Number Publication Date
MX2008011223A true MX2008011223A (es) 2008-11-04

Family

ID=38472589

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2008011223A MX2008011223A (es) 2006-03-02 2007-02-08 Extraccion de comportamiento de usuario de busqueda web para mejorar relevancia de busqueda web.

Country Status (9)

Country Link
US (1) US20070208730A1 (es)
EP (1) EP1997065A4 (es)
JP (1) JP5247475B2 (es)
KR (1) KR101366408B1 (es)
BR (1) BRPI0708397A2 (es)
CA (1) CA2644440A1 (es)
MX (1) MX2008011223A (es)
RU (1) RU2435212C2 (es)
WO (1) WO2007106269A1 (es)

Families Citing this family (119)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461059B2 (en) 2005-02-23 2008-12-02 Microsoft Corporation Dynamically updated search results based upon continuously-evolving search query that is based at least in part upon phrase suggestion, search engine uses previous result sets performing additional search tasks
US7860886B2 (en) * 2006-09-29 2010-12-28 A9.Com, Inc. Strategy for providing query results based on analysis of user intent
US9747349B2 (en) * 2006-10-30 2017-08-29 Execue, Inc. System and method for distributing queries to a group of databases and expediting data access
US9110975B1 (en) * 2006-11-02 2015-08-18 Google Inc. Search result inputs using variant generalized queries
US8661029B1 (en) 2006-11-02 2014-02-25 Google Inc. Modifying search result ranking based on implicit user feedback
US9305088B1 (en) * 2006-11-30 2016-04-05 Google Inc. Personalized search results
KR100898456B1 (ko) * 2007-01-12 2009-05-21 엔에이치엔(주) 검색 결과를 제공하는 방법 및 상기 방법을 수행하는시스템
US8938463B1 (en) 2007-03-12 2015-01-20 Google Inc. Modifying search result ranking based on implicit user feedback and a model of presentation bias
US9092510B1 (en) 2007-04-30 2015-07-28 Google Inc. Modifying search result ranking based on a temporal element of user feedback
US8005643B2 (en) * 2007-06-26 2011-08-23 Endeca Technologies, Inc. System and method for measuring the quality of document sets
US8935249B2 (en) 2007-06-26 2015-01-13 Oracle Otc Subsidiary Llc Visualization of concepts within a collection of information
US8458165B2 (en) * 2007-06-28 2013-06-04 Oracle International Corporation System and method for applying ranking SVM in query relaxation
US7783630B1 (en) * 2007-06-29 2010-08-24 Emc Corporation Tuning of relevancy ranking for federated search
US7783620B1 (en) * 2007-06-29 2010-08-24 Emc Corporation Relevancy scoring using query structure and data structure for federated search
US8694511B1 (en) 2007-08-20 2014-04-08 Google Inc. Modifying search result ranking based on populations
US20090089311A1 (en) * 2007-09-28 2009-04-02 Yahoo! Inc. System and method for inclusion of history in a search results page
US8909655B1 (en) 2007-10-11 2014-12-09 Google Inc. Time based ranking
US7984000B2 (en) 2007-10-31 2011-07-19 Microsoft Corporation Predicting and using search engine switching behavior
US9152699B2 (en) * 2007-11-02 2015-10-06 Ebay Inc. Search based on diversity
US20090119254A1 (en) * 2007-11-07 2009-05-07 Cross Tiffany B Storing Accessible Histories of Search Results Reordered to Reflect User Interest in the Search Results
US20090119278A1 (en) * 2007-11-07 2009-05-07 Cross Tiffany B Continual Reorganization of Ordered Search Results Based on Current User Interaction
US7797260B2 (en) * 2008-02-11 2010-09-14 Yahoo! Inc. Automated document classifier tuning including training set adaptive to user browsing behavior
US7836058B2 (en) 2008-03-27 2010-11-16 Microsoft Corporation Web searching
US8069179B2 (en) * 2008-04-24 2011-11-29 Microsoft Corporation Preference judgements for relevance
US20090299964A1 (en) * 2008-05-30 2009-12-03 Microsoft Corporation Presenting search queries related to navigational search queries
US8543592B2 (en) * 2008-05-30 2013-09-24 Microsoft Corporation Related URLs for task-oriented query results
US8639636B2 (en) * 2008-08-15 2014-01-28 At&T Intellectual Property I, L.P. System and method for user behavior modeling
US7979415B2 (en) * 2008-09-04 2011-07-12 Microsoft Corporation Predicting future queries from log data
US8037043B2 (en) 2008-09-09 2011-10-11 Microsoft Corporation Information retrieval system
US8515950B2 (en) * 2008-10-01 2013-08-20 Microsoft Corporation Combining log-based rankers and document-based rankers for searching
US8060456B2 (en) * 2008-10-01 2011-11-15 Microsoft Corporation Training a search result ranker with automatically-generated samples
US9449078B2 (en) * 2008-10-01 2016-09-20 Microsoft Technology Licensing, Llc Evaluating the ranking quality of a ranked list
US8122021B2 (en) * 2008-10-06 2012-02-21 Microsoft Corporation Domain expertise determination
US8126894B2 (en) * 2008-12-03 2012-02-28 Microsoft Corporation Click chain model
US8396865B1 (en) 2008-12-10 2013-03-12 Google Inc. Sharing search engine relevance data between corpora
US8341167B1 (en) 2009-01-30 2012-12-25 Intuit Inc. Context based interactive search
US8577875B2 (en) * 2009-03-20 2013-11-05 Microsoft Corporation Presenting search results ordered using user preferences
US9009146B1 (en) 2009-04-08 2015-04-14 Google Inc. Ranking search results based on similar queries
US8073832B2 (en) 2009-05-04 2011-12-06 Microsoft Corporation Estimating rank on graph streams
US9495460B2 (en) * 2009-05-27 2016-11-15 Microsoft Technology Licensing, Llc Merging search results
US20100306224A1 (en) * 2009-06-02 2010-12-02 Yahoo! Inc. Online Measurement of User Satisfaction Using Long Duration Clicks
US20100332531A1 (en) * 2009-06-26 2010-12-30 Microsoft Corporation Batched Transfer of Arbitrarily Distributed Data
US20100332550A1 (en) * 2009-06-26 2010-12-30 Microsoft Corporation Platform For Configurable Logging Instrumentation
US8447760B1 (en) 2009-07-20 2013-05-21 Google Inc. Generating a related set of documents for an initial set of documents
US8082247B2 (en) * 2009-07-30 2011-12-20 Microsoft Corporation Best-bet recommendations
US8135753B2 (en) * 2009-07-30 2012-03-13 Microsoft Corporation Dynamic information hierarchies
US20110029516A1 (en) * 2009-07-30 2011-02-03 Microsoft Corporation Web-Used Pattern Insight Platform
US8392380B2 (en) * 2009-07-30 2013-03-05 Microsoft Corporation Load-balancing and scaling for analytics data
US9020936B2 (en) * 2009-08-14 2015-04-28 Microsoft Technology Licensing, Llc Using categorical metadata to rank search results
US8498974B1 (en) 2009-08-31 2013-07-30 Google Inc. Refining search results
US8972391B1 (en) 2009-10-02 2015-03-03 Google Inc. Recent interest based relevance scoring
US9576251B2 (en) * 2009-11-13 2017-02-21 Hewlett Packard Enterprise Development Lp Method and system for processing web activity data
US8874555B1 (en) 2009-11-20 2014-10-28 Google Inc. Modifying scoring data based on historical changes
US8615514B1 (en) 2010-02-03 2013-12-24 Google Inc. Evaluating website properties by partitioning user feedback
US8924379B1 (en) 2010-03-05 2014-12-30 Google Inc. Temporal-based score adjustments
US8959093B1 (en) 2010-03-15 2015-02-17 Google Inc. Ranking search results based on anchors
US9009134B2 (en) * 2010-03-16 2015-04-14 Microsoft Technology Licensing, Llc Named entity recognition in query
US9665648B2 (en) * 2010-03-29 2017-05-30 Nokia Technologies Oy Method and apparatus for a user interest topology based on seeded user interest modeling
KR101098871B1 (ko) 2010-04-13 2011-12-26 건국대학교 산학협력단 랭크된 사용자의 피드백 정보에 기반한 컨텐츠 유사도 측정 장치, 방법 및 그 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체
US20110258032A1 (en) * 2010-04-14 2011-10-20 Microsoft Corporation Search advertisement selection based on user actions
US10204163B2 (en) 2010-04-19 2019-02-12 Microsoft Technology Licensing, Llc Active prediction of diverse search intent based upon user browsing behavior
US8799280B2 (en) 2010-05-21 2014-08-05 Microsoft Corporation Personalized navigation using a search engine
US20110295897A1 (en) * 2010-06-01 2011-12-01 Microsoft Corporation Query correction probability based on query-correction pairs
US8612432B2 (en) 2010-06-16 2013-12-17 Microsoft Corporation Determining query intent
US9623119B1 (en) 2010-06-29 2017-04-18 Google Inc. Accentuating search results
US8825649B2 (en) 2010-07-21 2014-09-02 Microsoft Corporation Smart defaults for data visualizations
US8832083B1 (en) 2010-07-23 2014-09-09 Google Inc. Combining user feedback
WO2012034069A1 (en) * 2010-09-10 2012-03-15 Veveo, Inc. Method of and system for conducting personalized federated search and presentation of results therefrom
US8560484B2 (en) * 2010-12-17 2013-10-15 Intel Corporation User model creation
US9002867B1 (en) 2010-12-30 2015-04-07 Google Inc. Modifying ranking data based on document changes
US9449093B2 (en) * 2011-02-10 2016-09-20 Sri International System and method for improved search experience through implicit user interaction
US9053208B2 (en) 2011-03-02 2015-06-09 Microsoft Technology Licensing, Llc Fulfilling queries using specified and unspecified attributes
US9507861B2 (en) * 2011-04-01 2016-11-29 Microsoft Technolgy Licensing, LLC Enhanced query rewriting through click log analysis
US8732151B2 (en) 2011-04-01 2014-05-20 Microsoft Corporation Enhanced query rewriting through statistical machine translation
JP2013037624A (ja) * 2011-08-10 2013-02-21 Sony Computer Entertainment Inc 情報処理システム、情報処理方法、プログラム及び情報記憶媒体
CA2857517A1 (en) * 2011-12-15 2013-06-20 Yahoo! Inc. Systems and methods involving features of search and/or search integration
US9355095B2 (en) 2011-12-30 2016-05-31 Microsoft Technology Licensing, Llc Click noise characterization model
US20140143250A1 (en) * 2012-03-30 2014-05-22 Xen, Inc. Centralized Tracking of User Interest Information from Distributed Information Sources
US9460237B2 (en) 2012-05-08 2016-10-04 24/7 Customer, Inc. Predictive 411
CN103544150B (zh) * 2012-07-10 2016-03-09 腾讯科技(深圳)有限公司 为移动终端浏览器提供推荐信息的方法及系统
US8996513B2 (en) * 2012-07-24 2015-03-31 Microsoft Technology Licensing, Llc Providing an interface to access website actions
CN103631794B (zh) * 2012-08-22 2019-05-07 百度在线网络技术(北京)有限公司 一种用于对搜索结果进行排序的方法、装置与设备
US10108720B2 (en) * 2012-11-28 2018-10-23 International Business Machines Corporation Automatically providing relevant search results based on user behavior
US9589149B2 (en) 2012-11-30 2017-03-07 Microsoft Technology Licensing, Llc Combining personalization and privacy locally on devices
KR102090269B1 (ko) 2012-12-14 2020-03-17 삼성전자주식회사 정보 검색 방법, 그와 같은 기능을 갖는 디바이스 및 기록 매체
US9824151B2 (en) * 2012-12-27 2017-11-21 Google Inc. Providing a portion of requested data based upon historical user interaction with the data
US20140188889A1 (en) * 2012-12-31 2014-07-03 Motorola Mobility Llc Predictive Selection and Parallel Execution of Applications and Services
US9594837B2 (en) 2013-02-26 2017-03-14 Microsoft Technology Licensing, Llc Prediction and information retrieval for intrinsically diverse sessions
RU2543315C2 (ru) 2013-03-22 2015-02-27 Федеральное государственное автономное образовательное учреждение высшего профессионального образования "Национальный исследовательский университет "Высшая школа экономики" Способ отбора эффективных вариантов в поисковых и рекомендательных системах (варианты)
US10079737B2 (en) 2013-09-13 2018-09-18 Clicktale Ltd. Method and system for generating comparable visual maps for browsing activity analysis
CN104679771B (zh) * 2013-11-29 2018-09-18 阿里巴巴集团控股有限公司 一种个性化数据搜索方法和装置
RU2608886C2 (ru) * 2014-06-30 2017-01-25 Общество С Ограниченной Ответственностью "Яндекс" Ранжиратор результатов поиска
US10042936B1 (en) * 2014-07-11 2018-08-07 Google Llc Frequency-based content analysis
CN104268212A (zh) * 2014-09-23 2015-01-07 北京奇虎科技有限公司 一种互联网产品的发放方法和装置
CN104462377A (zh) * 2014-12-09 2015-03-25 小米科技有限责任公司 提供联系人信息的方法及装置
US10430473B2 (en) 2015-03-09 2019-10-01 Microsoft Technology Licensing, Llc Deep mining of network resource references
US9697286B2 (en) * 2015-03-16 2017-07-04 International Business Machines Corporation Shared URL content update to improve search engine optimization
CN105095357A (zh) * 2015-06-24 2015-11-25 百度在线网络技术(北京)有限公司 一种用于咨询数据处理的方法和装置
RU2637899C2 (ru) 2015-07-16 2017-12-07 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер определения изменений в пользовательском интерактивном взаимодействии со страницей результатов поиска
RU2632138C2 (ru) 2015-09-14 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ (варианты) и сервер ранжирования поисковых результатов на основе параметра полезности
RU2632133C2 (ru) * 2015-09-29 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования
RU2632423C2 (ru) * 2015-09-30 2017-10-04 Общество С Ограниченной Ответственностью "Яндекс" Способ и поисковая система предоставления поисковых результатов на множество клиентских устройств
CN109074292B (zh) * 2016-04-18 2021-12-14 谷歌有限责任公司 适当的代理的自动化助理调用
US10055481B2 (en) * 2016-07-20 2018-08-21 LogsHero Ltd. Method and system for automatic event classification
US10803070B2 (en) * 2016-07-29 2020-10-13 International Business Machines Corporation Selecting a content summary based on relevancy
RU2621962C1 (ru) * 2016-08-16 2017-06-08 Игорь Юрьевич Скворцов Самонастраивающаяся интерактивная система, способ и считываемый компьютером носитель данных обмена комментариями между пользователями
RU2630741C1 (ru) * 2016-12-20 2017-09-12 Игорь Юрьевич Скворцов Самонастраивающаяся интерактивная система, способ и считываемый компьютером носитель данных обмена комментариями между пользователями
CN107133290B (zh) * 2017-04-19 2019-10-29 中国人民解放军国防科学技术大学 一种个性化信息检索方法与装置
US11842533B2 (en) * 2017-04-26 2023-12-12 Chia-Lin Simmons Predictive search techniques based on image analysis and group feedback
RU2663706C1 (ru) * 2017-07-20 2018-08-08 Общество С Ограниченной Ответственностью "Центр Разработки И Внедрения Инновационных Технологий" Самонастраивающаяся интерактивная система, способ и считываемый компьютером носитель данных оценки доверия контенту
RU2689812C2 (ru) * 2017-07-25 2019-05-29 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для определения ранжированных позиций ненативных элементов с помощью системы ранжирования
RU2757546C2 (ru) * 2017-07-25 2021-10-18 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для создания персонализированного пользовательского параметра интереса для идентификации персонализированного целевого элемента содержимого
RU2693324C2 (ru) 2017-11-24 2019-07-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер преобразования значения категориального фактора в его числовое представление
RU2692048C2 (ru) 2017-11-24 2019-06-19 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для преобразования значения категориального фактора в его числовое представление и для создания разделяющего значения категориального фактора
EP3729248A4 (en) * 2017-12-21 2021-12-15 Commonwealth Scientific and Industrial Research Organisation CREATION OF A USER-SPECIFIC USER INTERFACE
JP6560843B1 (ja) * 2018-03-16 2019-08-14 楽天株式会社 検索システム、検索方法、及びプログラム
CN110971659A (zh) * 2019-10-11 2020-04-07 贝壳技术有限公司 推荐消息的推送方法、装置及存储介质
KR102144370B1 (ko) * 2019-11-18 2020-08-13 주식회사 오투오 대화형 정보 검색장치
CN113127614A (zh) * 2020-01-16 2021-07-16 微软技术许可有限责任公司 基于隐式相关性反馈来提供qa训练数据以及训练qa模型

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6272507B1 (en) * 1997-04-09 2001-08-07 Xerox Corporation System for ranking search results from a collection of documents using spreading activation techniques
US6493702B1 (en) * 1999-05-05 2002-12-10 Xerox Corporation System and method for searching and recommending documents in a collection using share bookmarks
US6321228B1 (en) * 1999-08-31 2001-11-20 Powercast Media, Inc. Internet search system for retrieving selected results from a previous search
US6546388B1 (en) * 2000-01-14 2003-04-08 International Business Machines Corporation Metadata search results ranking system
US6701362B1 (en) * 2000-02-23 2004-03-02 Purpleyogi.Com Inc. Method for creating user profiles
JP2002032401A (ja) * 2000-07-18 2002-01-31 Mitsubishi Electric Corp 文書検索方法及び文書検索装置及び文書検索方法をコンピュータに実現させるためのプログラムを記録したコンピュータで読取可能な記録媒体
US6792434B2 (en) * 2001-04-20 2004-09-14 Mitsubishi Electric Research Laboratories, Inc. Content-based visualization and user-modeling for interactive browsing and retrieval in multimedia databases
US20030018621A1 (en) * 2001-06-29 2003-01-23 Donald Steiner Distributed information search in a networked environment
KR100438857B1 (ko) * 2001-09-26 2004-07-05 엘지전자 주식회사 사용자 선호도 기반 멀티미디어 검색 시스템
US8117072B2 (en) * 2001-11-13 2012-02-14 International Business Machines Corporation Promoting strategic documents by bias ranking of search results on a web browser
US7814043B2 (en) * 2001-11-26 2010-10-12 Fujitsu Limited Content information analyzing method and apparatus
US7024404B1 (en) * 2002-05-28 2006-04-04 The State University Rutgers Retrieval and display of data objects using a cross-group ranking metric
CA2397424A1 (en) * 2002-08-09 2004-02-09 Mohammed Lamine Kherfi Content-based image retrieval using positive and negative examples
EP1586058A1 (en) * 2003-01-24 2005-10-19 BRITISH TELECOMMUNICATIONS public limited company Searching apparatus and methods
US20050071328A1 (en) * 2003-09-30 2005-03-31 Lawrence Stephen R. Personalization of web search
US20050120003A1 (en) * 2003-10-08 2005-06-02 Drury William J. Method for maintaining a record of searches and results
JP2005208943A (ja) * 2004-01-22 2005-08-04 Denso It Laboratory Inc サービス候補提供システム及びユーザ側通信装置並びにサービス候補提供サーバ
US7457823B2 (en) * 2004-05-02 2008-11-25 Markmonitor Inc. Methods and systems for analyzing data related to possible online fraud
US7257577B2 (en) * 2004-05-07 2007-08-14 International Business Machines Corporation System, method and service for ranking search results using a modular scoring system
WO2006023765A2 (en) * 2004-08-19 2006-03-02 Claria, Corporation Method and apparatus for responding to end-user request for information
WO2006036781A2 (en) * 2004-09-22 2006-04-06 Perfect Market Technologies, Inc. Search engine using user intent
WO2006042265A2 (en) * 2004-10-11 2006-04-20 Nextumi, Inc. System and method for facilitating network connectivity based on user characteristics

Also Published As

Publication number Publication date
BRPI0708397A2 (pt) 2011-05-31
KR20080114708A (ko) 2008-12-31
US20070208730A1 (en) 2007-09-06
EP1997065A1 (en) 2008-12-03
RU2008135459A (ru) 2010-03-10
RU2435212C2 (ru) 2011-11-27
KR101366408B1 (ko) 2014-03-03
CA2644440A1 (en) 2007-09-20
JP5247475B2 (ja) 2013-07-24
EP1997065A4 (en) 2011-04-13
JP2009528619A (ja) 2009-08-06
WO2007106269A1 (en) 2007-09-20

Similar Documents

Publication Publication Date Title
MX2008011223A (es) Extraccion de comportamiento de usuario de busqueda web para mejorar relevancia de busqueda web.
US10942905B2 (en) Systems and methods for cleansing automated robotic traffic
Sieg et al. Learning ontology-based user profiles: A semantic approach to personalized web search.
Middleton et al. Capturing knowledge of user preferences: ontologies in recommender systems
US7716150B2 (en) Machine learning system for analyzing and establishing tagging trends based on convergence criteria
US7672909B2 (en) Machine learning system and method comprising segregator convergence and recognition components to determine the existence of possible tagging data trends and identify that predetermined convergence criteria have been met or establish criteria for taxonomy purpose then recognize items based on an aggregate of user tagging behavior
KR101477306B1 (ko) 웹 검색 시스템 및 웹 쿼리 정제 방법
RU2419858C2 (ru) Система, способ и интерфейс для обеспечения персонализированного поиска и доступа к информации
EP2160677B1 (en) System and method for measuring the quality of document sets
US9251249B2 (en) Entity summarization and comparison
US20060026152A1 (en) Query-based snippet clustering for search result grouping
KR20060106642A (ko) 검색 엔진의 관련성을 향상시키기 위한 데이터 마이닝 기술
WO2009108576A2 (en) Prioritizing media assets for publication
Ye et al. Finding a good query‐related topic for boosting pseudo‐relevance feedback
Tan et al. To each his own: personalized content selection based on text comprehensibility
Amini et al. Discovering the impact of knowledge in recommender systems: A comparative study
Bashir et al. Opinion-Based Entity Ranking using learning to rank
Kravi et al. One query, many clicks: Analysis of queries with multiple clicks by the same user
Khan Processing big data with natural semantics and natural language understanding using brain-like approach
Khan et al. Reducing Human Effort in Keyphrase-Based Human-in-the-Loop Topic Models: A Method for Keyphrase Recommendations
JP5903370B2 (ja) 情報検索装置、情報検索方法、及びプログラム
Mandl Artificial intelligence for information retrieval
Broccolo Query log based techniques to improve the performance of a web search engine
Degemmis et al. Text learning for user profiling in e-commerce
Daoud et al. Contextual query classification for personalizing informational search

Legal Events

Date Code Title Description
FG Grant or registration
PD Change of proprietorship

Owner name: MICROSOFT TECHNOLOGY LICENSING, LLC