MX2008011223A

MX2008011223A - Extraccion de comportamiento de usuario de busqueda web para mejorar relevancia de busqueda web.

Info

Publication number: MX2008011223A
Application number: MX2008011223A
Authority: MX
Inventors: Susan T Dumais; Eric D Brill; Robert J Ragno; Yevgeny E Agichtein
Original assignee: Microsoft Corp
Priority date: 2006-03-02
Filing date: 2007-02-08
Publication date: 2008-11-04
Also published as: BRPI0708397A2; KR20080114708A; US20070208730A1; EP1997065A1; RU2008135459A; RU2435212C2; KR101366408B1; CA2644440A1; JP5247475B2; EP1997065A4; JP2009528619A; WO2007106269A1

Abstract

Se describen métodos y sistemas que estiman la preferencia de usuario, a través de interpretación automática del comportamiento de usuario. Un componente de comportamiento de usuario asociado con una máquina de búsqueda puede interpretar automáticamente comportamiento colectivo de usuarios (por ejemplo, usuarios de búsqueda web). Dicho componente de realimentación puede incluir características de comportamiento de usuario y modelos predictivos (por ejemplo, de un componente de comportamiento de usuario) que son robustos al ruido, los cuales pueden estar presentes en interacciones de usuario observadas con los resultados de búsqueda (por ejemplo, actividad de usuario maliciosa y/o irracional).

Description

EXTRACCION DE COMPORTAMIENTO DE USUARIO DE BUSQUEDA WEB PARA MEJORAR RELEVANCIA DE BUSQUEDA WEB ANTECEDENTES Dada la popularidad de la Gran Red Mundial e Internet, los usuarios pueden adquirir información que se relaciona con casi cualquier tema desde una gran cantidad de fuentes de información. Con el fin encontrar información, los usuarios generalmente aplican varias máquinas de búsqueda para la tarea de recuperación de información. Las máquinas de búsqueda permiten a los usuarios encontrar páginas web que contienen información u otro material en Internet que contiene palabras o frases especificas. En general, una búsqueda de palabra clave puede encontrar, para la mejor de una capacidad de computadora, todos los sitios web que tienen cualquier información en ellos relacionada con cualquiera de las palabras clave y frases que se especifican. Un sitio de máquina de búsqueda tendrá un cuadro para que los usuarios ingresen palabras clave dentro y un botón para presionar el inicio de la búsqueda. Muchas máquinas de búsqueda tienen consejos sobre cómo utilizar palabras clave para buscar eficientemente. Típicamente, tales consejos ayudan a los usuarios a definir de forma estrecha términos de búsqueda, para que no se regrese información extraña y no relacionada y el procedimiento de recuperación de información no se desordena. Tal estrechamiento manual de términos puede mitigar recibir varios miles de sitios para clasificar cuando se busca información específica. En algunos casos, los temas de búsqueda se pre-distribuyen en áreas de tema y subtema. Por ejemplo, "Yahoo" proporciona una lista predeterminada jerárquicamente distribuida de temas posibles (por ejemplo, negocio, gobierno, ciencia, etc.) en donde el usuario seleccionará un tema y entonces además elegirá un subtema dentro de la lista. Otro ejemplo de listas de temas predeterminados es como en utilidades de ayuda de computadora personal de escritorio, en donde una lista de temas de ayuda y subtemas relacionados se proporciona al usuario. Mientras estas jerarquías predeterminadas pueden ser útiles en algunos contextos, los usuarios frecuentemente necesitan buscar/consultar sobre información fuera de y/o no incluir dentro de estas listas predeterminadas. De esa forma, las máquinas de búsqueda u otros sistemas de búsqueda frecuentemente se emplean para permitir a los usuarios dirigir consultas, para encontrar información deseada. Sin embargo, durante búsqueda de usuario se recuperan muchos resultados no relacionados, ya que los usuarios pueden estar inseguros de cómo crear o construir una consulta particular. Además, tales sistemas comúnmente requieren que los usuarios modifiquen continuamente consultas, y refinen resultados de búsqueda recuperados para obtener un número razonable de resultados para examinar. No es poco común escribir en una palabra o frase en un campo de consulta de entrada de' sistema de búsqueda, y entonces recuperar varios millones de resultados como candidatos potenciales. Para tener sentido del gran número de candidatos recuperados, el usuario frecuentemente experimentará con otras combinaciones de palabra, para además estrechar la lista. En general, el sistema de búsqueda clasificará los resultados de acuerdo con relevancia prevista de resultados para la consulta. La clasificación típicamente se basa en funciones que combinan muchos parámetros que incluyen la similitud de una página web a una consulta así como calidad intrínseca del documento, frecuentemente inferida de información de topología web. La calidad de la experiencia de búsqueda de usuario se relaciona directamente con la calidad de la función de clasificación, mientras los usuarios típicamente no ven resultados clasificados inferiores. En general, el sistema de búsqueda intentará hacer coincidir o encontrar todos los temas que se relacionan con la entrada de consulta de usuario sin importar si los temas "buscados" tienen cualquier relación contextual con el área o categoría de tema de lo que el usuario realmente esté interesado. Como un ejemplo, si un usuario que está interesado en astronomía ingresar a la consulta "Saturno" en un sistema de búsqueda convencional, todos los tipos de resultados no relacionados probablemente se regresarán incluyendo aquellos que se relacionan con autos, comerciantes de autos, juegos de computadora, y otros sitios que tiene la palabra "Saturno". Otro problema con implementaciones de búsqueda convencionales es que las máquinas de búsqueda operan igual para todos los usuarios sin importar de necesidades y circunstancias de usuario diferentes. De esa forma, si los usuarios ingresan la misma consulta de búsqueda típicamente obtienen los mismos resultados, sin importar sus intereses o características, historial de búsqueda previo, contexto de cómputo actual (por ejemplo, archivos abiertos), o contexto ambiental (por ejemplo, ubicación, máquina que se utiliza, tiempo del día, día de la semana). Al sintonizar las funciones de clasificación de búsqueda para regresar resultados relevantes en la parte superior generalmente requiere esfuerzo significativo. Un acercamiento general para máquinas de búsqueda modernas es entrenar funciones de clasificación y establecer parámetros de función y pesos automáticamente basándose en ejemplos de resultados de búsqueda manualmente clasificados. Los anotadores humanos pueden medir explícitamente un grupo de páginas para una consulta de acuerdo con una relevancia percibida, y crear el "estándar de oro" contra el cual pueden sintonizarse y evaluarse diferentes algoritmos de clasificación. Sin embargo, las clasificaciones humanas explícitas son costosas y difíciles de obtener, lo que frecuentemente resulta en funciones de clasificación incompletamente entrenadas y subóptimas.

BREVE DESCRIPCION DE LA INVENCION Lo siguiente presenta una breve descripción simplificada con el fin de proporcionar un entendimiento básico de algunos aspectos del tema reclamado. Esta breve descripción no es una revisión extensiva. No pretende identificar elementos clave/críticos ni delinear el alcance del tema reclamado. Su único propósito es presentar algunos conceptos en una forma simplificada como un preludio a la descripción más detallada que se presenta posteriormente. La innovación en cuestión mejora clasificaciones de búsqueda en un sistema de recuperación de información, a través de emplear un componente de comportamiento de usuario que facilita una interpretación automática para el comportamiento de usuarios colectivo, para estimar preferencias de usuario para un artículo sobre otro artículo. Tales preferencias entonces pueden emplearse para varios propósitos, tal como mejorar la clasificación de los resultados. El componente de comportamiento de usuario puede interactuar con una máquina(s) de búsqueda e incluir características de realimentación que mitigan el ruido que típicamente acompaña comportamiento de usuario (por ejemplo, actividad de usuario maligna y/o irracional). Al explotar el comportamiento agregado de usuarios (por ejemplo, no tratar a cada usuario como un experto individual) la innovación en cuestión puede mitigar ruido y generar juicios de relevancia de retroalimentación de usuarios. El componente de comportamiento de usuario emplea realimentación implícita o explícita de usuarios y sus interacciones que resultan de consultas previas. Las características de comportamiento clave incluyen características de presentación que pueden ayudar a un usuario a determinar si un resultado relevante al observar el título de resultado y la descripción; navegar características similar a tiempo de residencia en una página, la forma de buscar resultados de búsqueda (por ejemplo, a través de otros enlaces) desviación de tiempo promedio en dominio, y similares; dar clic a través de características tal como el número de clics en un resultado particular para la consulta. Para un par de consulta y un resultado dado la innovación en cuestión proporciona múltiples valores de característica observados y derivados para cada tipo de característica. El componente de comportamiento de usuario puede emplear un modelo manejado por datos de comportamiento de usuario. Por ejemplo, el componente de comportamiento de usuario puede modelar comportamiento de búsqueda web de usuario como sí se generará por dos componentes: un componente de "antecedentes", (tal como usuarios que dan clic indiscriminadamente), y un componente de "relevancia", (tal como comportamiento específico por consulta que se influencia por la relevancia del resultado a la consulta). De acuerdo con un aspecto adicional de la innovación en cuestión, el componente de comportamiento de usuario puede generar y/o modelar las desviaciones del comportamiento de usuario esperado. A partir de aquí, las características derivadas pueden calcularse, en donde tales características derivadas dirigen explícitamente la desviación del valor de característica observado para un resultado de búsqueda dado de de los valores esperados para un resultado, sin información dependiente de consulta. Además, el componente de comportamiento de usuario de la innovación en cuestión puede emplear modelos que tienen dos tipos de características para describir comportamiento de usuario, principalmente: directo y de desviación, en donde el formador son los valores directamente medidos, y después está la desviación de los valores esperados estimados de las distribuciones totales (independientes de consulta) para las características directamente observadas correspondientes. Por consiguiente, el valor observado o de una característica / para una consulta q y resultado r, puede expresarse como una mezcla de dos componentes: o(q, r, /) = C(r, /) + rel(q, r, /) en donde C(r, /) es la distribución de "antecedentes" previa para valores de / agregado a través de todas las consultas que corresponden a r, y rel(q, r, /) es el componente de "relevancia" del comportamiento influenciado por la relevancia del resultado a la consulta. Por ejemplo, una estimación de relevancia del comportamiento de usuario puede obtenerse con característica de clic, a través de una sustracción de distribución de antecedente de la frecuencia de clic observado en una posición dada. Para mitigar el efecto de variaciones de usuario individuales en comportamiento, la innovación en cuestión puede provenir valores de característica a través de todos los usuarios y sesiones de búsqueda para cada par de resultado-consulta. Tal agregación puede proporcionar voluminosidad adicional, en donde interacciones de usuario "ruidosa" individuales no se confían. Por consiguiente, el comportamiento de usuario para un par de consulta y un resultado puede representarse por un vector de característica que incluye tanto las características directamente observadas y los valores de característica "corregido", derivados. Varias técnicas de aprendizaje de máquina también pueden emplearse en conjunto con algoritmos de clasificación de entrenamiento para sistemas de recuperación de información. Por ejemplo, los juicios de relevancia de humano explícitos inicialmente puede proporcionarse para varias consultas de búsqueda y emplearse para algoritmos de clasificación de entrenamientos subsecuentes. En un aspecto relacionado, el comportamiento colectivo de usuarios que interactúan con una máquina de búsqueda web puede interpretarse automáticamente con el fin de predecir preferencias usuario futuras; a partir de aquí, el sistema puede adaptarse para cambiar patrones de comportamiento de usuario y diferentes configuraciones de búsqueda al reentrenar automáticamente el sistema con los datos de comportamiento de usuario más recientes. Para la realización de los fines anteriores y relacionados, ciertos aspectos ilustrativos del tema reclamado se describen aquí en conexión con la siguiente descripción y los dibujos anexos. Estos aspectos son . indicativos de varias formas en las cuales puede practicarse el tema, todas de las cuales pretenden estar dentro del alcance del tema reclamado. Otras ventajas y características novedosas pueden hacerse evidentes a partir de la siguiente descripción detallada cuando se consideran en conjunto con los dibujos BREVE DESCRIPCION DE LOS DIBUJOS La Figura 1 ilustra un diagrama de bloques de un componente de comportamiento de usuario de acuerdo con un aspecto ilustrativo de la innovación en cuestión. La Figura 2 ilustra un diagrama de bloques de un sistema que incorpora un componente de comportamiento de usuario e interactúa con un modelo de entrenamiento de una máquina de búsqueda de conformidad con un aspecto de la innovación en cuestión. La Figura 3 ilustra un diagrama de bloques de un sistema que incorpora un componente de clasificador operativamente conectado para un componente de comportamiento de usuario, y una máquina dé búsqueda de conformidad con un aspecto ilustrativo de la innovación en cuestión. La Figura 4 ilustra una tabla de características que representan actividades de navegación de usuario de acuerdo con un aspecto de la innovación en cuestión. La Figura 5 ¡lustra un sistema de recuperación de información automatizado que puede emplear un componente de aprendizaje de máquina de acuerdo con un aspecto de la innovación en cuestión.

La Figura 6 ilustra un componente de comportamiento de usuario que interactúa con una pluralidad de características de sistema, que representan acción de usuario de acuerdo con un aspecto particular de la innovación en cuestión. La Figura 7 ilustra una metodología ilustrativa para interpretar comportamiento de usuario para estimar preferencias de usuario de acuerdo con un aspecto de la innovación en cuestión. La Figura 8 ilustra una metodología para implementar comportamiento de usuario como parte de clasificación de valor de acuerdo con un aspecto de la innovación en cuestión. La Figura 9 ilustra un ambiente ilustrativo para implementar varios aspectos de la innovación en cuestión. La Figura 10 es un diagrama de bloques esquemático de un ambiente de cómputo adicional que puede emplearse para implementar varios aspectos de de la innovación en cuestión.

DESCRIPCION DETALLADA Los varios aspectos de la innovación en cuestión ahora se describen con referencia a los dibujos anexos, en donde números similares se refieren a elementos similares o correspondientes a través de esto. Sin embargo, se entenderá, que los dibujos y la descripción detallada que se relacionan a esto no pretende limitar el tema reclamado a la forma particular descrita. En lugar de esto, la intención es cubrir todas las modificaciones, equivalentes, y alternativas que caen dentro del espíritu y alcance del tema reclamado. Como se utiliza aquí, los términos "componentes", "sistema", "característica" y similares también pretenden referirse a una entidad relacionada con computadora, ya sea hardware, una combinación de hardware y software, software, o software en ejecución. Por ejemplo, un componente puede ser, pero no se limita a ser, un procedimiento que corre en un procesador, un procesador, un objeto, un ejecutable, una secuencia de ejecución, un programa, y/o una computadora. A manera de ilustración tanto una aplicación que corre en una computadora y la computadora puede ser un componente. Uno o más componentes pueden recibir dentro de un procedimiento y/o secuencia de ejecución y un componente puede localizarse en una computadora y/o distribuirse entre dos o más computadoras. La palabra "ilustrativo" se utiliza aquí para significar que sirve como un ejemplo, caso, o ilustración. Cualquier aspecto o diseño aquí descrito como "ilustrativo" no necesariamente se debe construir como preferido o ventajoso sobre otros aspectos o diseños. Además, el tema descrito puede implementarse como un sistema, método, aparato, o artículo de fabricación que utiliza técnicas de programación y/o ingeniería estándar para producir software, firmware, hardware, o cualquier combinación de los mismos para controlar una computadora o dispositivo basado en procesador para implementar aspectos aquí detallados. El término programa de computadora como se utiliza aquí pretende abarcar un programa de computadora accesible desde cualquier dispositivo legible por computadora, portador, o medio. Por ejemplo, medio legible por computadora puede incluir pero no se limita a dispositivos de almacenamiento magnético (por ejemplo, disco duro, disco flexible, bandas magnéticas...), discos ópticos (por ejemplo, disco compacto (CD), discos versátiles digitales (DVD)...), tarjetas inteligentes, y dispositivos de memoria flash (por ejemplo, tarjeta, memoria). Adicionalmente se debe apreciar que una onda portadora puede emplearse para transportar datos electrónicos legibles por computadora tal como aquellos utilizados al transmitir y recibir correo electrónico o al acceder una red tal como Internet o una red de área local (LAN). Por supuesto, aquellos expertos en la técnica reconocerán que pueden hacerse muchas modificaciones a esta configuración sin apartarse del alcance o espíritu del tema reclamado. Cambiando inicialmente a la Figura 1, se ¡lustra un diagrama de bloques de un sistema 100, que incorpora un componente de comportamiento de usuario que interactúa con una máquina de búsqueda de acuerdo con un aspecto ilustrativo de la innovación en cuestión. El componente de comportamiento de usuario 104 asociado con la máquina de búsqueda 102 puede interpretar automáticamente comportamiento de usuarios colectivos 101, 103, 105 (1 a N, en donde N es un entero). El componente comportamiento de usuario 104 puede incluir características de realimentación que mitigan ruido, que típicamente acompañan comportamiento de usuario (por ejemplo, actividad de usuario maligna y/o irracional) al explotar el comportamiento agregado de los usuario 101, 103, 105 (por ejemplo, no tratar cada usuario como un experto individual) el sistema 100 puede mitigar ruido, y generar juicios de relevancia de realimentación de usuarios. El componente de comportamiento de usuario 104 puede interactuar con el componente de clasificación. Para una consulta dada el componente de comportamiento de usuario 104 recupera las predicciones derivadas de un modelo de comportamiento previamente entrenado de esta consulta, y reordena los resultados para la consulta para que los resultados que parecían relevantes para usuarios previos se clasifican superiores. Por ejemplo para una consulta dada q, la marca implícita ISr puede calcularse para cada resultado r desde características de interacción de usuario disponibles, que resultan en la clasificación implícita lr para cada resultado. Una marca fusionada SM(r) puede calcularse para r al combinar las clasificaciones obtenidas de realimentación implícita, lr con la clasificación original de r, Or: ' / + 1 O + 1 s' existe realimentación implícita para r ] de otra manera Or+\ El peso wl es un factor de escalada heurísticamente sintonizado que representa la "importancia" relativa de la realimentación implícita. Los resultados de consulta pueden ordenarse por valores descendentes de SM(r) para producir la clasificación final. Un caso particular de tal modelo surge cuando se establecen w¡ a un valor muy grande, lo que efectivamente forza resultados con clic para clasificarse superiores a los resultados sin clic, una heurística intuitiva y efectiva que puede emplearse como una línea de base. En general, el acercamiento anterior asume que no hay interacciones entre las características fundamentales que producen la clasificación de búsqueda web original y las características de realimentación implícita. Otros aspectos de la innovación en cuestión relajan tal suposición al integrar las características de realimentación implícita directamente en el procedimiento de clasificación, como se describió en detalle anteriormente. Además, se debe apreciar que pueden emplearse comportamiento de usuario más sofisticado y algoritmos de combinación de clasificador, y es también dentro del reino de la innovación en cuestión. La Figura 2 ilustra un aspecto adicional de la innovación en cuestión, en donde la máquina de búsqueda 202 además comprende un modelo de entrenamiento 204 de acuerdo con un aspecto de la innovación en cuestión. El modelo de entrenamiento 204 además puede comprender tipos de modelos adicionales para describir comportamiento de usuario, principalmente: una característica de comportamiento observada 201 y una característica de comportamiento derivada 203. Las características de comportamiento observada 201 son los valores directamente medidos, y la característica de comportamiento derivada 203 es desviación de los valores esperados estimados de las distribuciones totales (independientes de consulta) para las características directamente observadas correspondientes. Por consiguiente, el valor observado o de una característica / para una consulta q y resultado r, puede expresarse como una mezcla de dos componentes: o(q, r, /) = C(r, /) +rel(q, r, /) en donde C(r, /) es la distribución de "antecedentes" previa para valores de / agregado a través de todas las consultas que corresponden a r, y rel(q, r, /) es el componente de comportamiento influenciado por la relevancia de los resultados. Por ejemplo, una estimación de relevancia del comportamiento de usuario puede obtenerse con característica de clic, a través de una sustracción de distribución de antecedente (por ejemplo, ruidos) de la frecuencia de clic observada en una posición dada. Para mitigar el efecto de variaciones de usuario individuales en comportamiento, la innovación en cuestión puede promediar valores de característica directos a través de todos los usuarios y sesiones de búsqueda para cada par de consulta-URL. Tal agregación puede proporcionar voluminosidad adicional, en donde interacciones de usuario "ruidosas" individuales no se confían. Por consiguiente, el comportamiento de usuario para un par de consulta-URL puede representarse por un vector de característica que incluye tanto las características directamente observadas y los valores de característica "corregidos", derivados. La Figura 3 ilustra un diagrama de bloques de un sistema 300 que incorpora un componente de clasificador 310 operativamente conectado a un componente de comportamiento de usuario 315 y una máquina de búsqueda 340 de acuerdo con un aspecto ilustrativo de la innovación en cuestión. Típicamente, la máquina de búsqueda 340 puede clasificar resultados de búsqueda 350 basándose en un gran número de características, que incluyen características basadas en contenido (por ejemplo, que tan cerca coincide una consulta con el texto o título u otro texto de ancla del documento), y características de calidad de página independientes de consulta (por ejemplo, ClasificaciónPágina del documento o el dominio), como se describió infra. Además, la máquina de búsqueda 340 puede emplear métodos automáticos (o semi-automáticos) para sintonizar la función de clasificación específica que combina tales valores de característica. Por ejemplo, puede asumirse que un usuario que envía una consulta 360 realizará acciones particulares. Tales acciones pueden incluir dar clic, navegar, enviar refinaciones de consulta hasta que se encuentra un documento relevante, y similares. Al encontrar el documento relevante, el usuario puede satisfacerse y cambiar comportamiento (por ejemplo, para leer el documento). La innovación en cuestión permite diseñar un grupo de características suficientemente rico que permitirá la detección de cuando el usuario se satisface con un resultado recuperado. Tales características son dependientes en consultas enviadas, y a partir de aquí son específicas de consulta. Por ejemplo, las características/actividades de usuario pueden clasificarse en características de presentación, características de navegación, y características de clic, como se describió con referencia a la Figura 4. La Figura 4 ilustra una tabla de características 400 que representa actividades de navegación de usuario. Las características de presentación 410 típicamente se diseñan para representar la experiencia del usuario mientras afectan algunos o todos los aspectos del comportamiento (por ejemplo, un usuario puede decidir dar clic en un resultado basándose en las características de presentación). Para modelar tal aspecto de experiencia de usuario la innovación en cuestión puede emplear características tal como traslape en palabras en título y palabras en consulta (Traslape de Titulo) y la fracción de palabras compartidas por la consulta y el compendio de resultado, todos estos frecuentemente se consideran por usuario cuando se hace una decisión si se da clic a un compendio de resultado para ver el documento completo. De forma similar, la característica de navegación 420 puede capturar y cuantificar aspectos de las interacciones de página web de usuario. Por ejemplo, la innovación en cuestión puede calcular desviación de tiempo de residencia desde tiempo de residencia de página esperado para una consulta, que permite modelar diversidad intra-consu Ita de comportamiento de navegación de página. Tal además puede incluir ambas características directas y características derivadas, como se describió en detalle anteriormente. De forma similar, las características de clic 430 son un ejemplo de interacción de usuario con los resultados de máquina de búsqueda. Por ejemplo, las características de clic pueden incluir el número de clics para un par de consulta-resultado, o la desviación de la probabilidad de clic esperada. Como se ilustró en la Figura 4, el clic ilustra un aspecto de interacciones de usuario con una máquina de búsqueda web. La innovación en cuestión puede emplear modelos de comportamiento de usuario predictivos automáticamente derivados. Por consiguiente, para una consulta dada, cada resultado puede representarse con las características en la Tabla de la Figura 4. Preferencias de usuarios relativas entonces pueden estimarse al utilizar el modelo de comportamiento de usuario aprendido, como se describió en detalle anteriormente. El uso de tales modelos de comportamiento de usuario permite a la máquina de búsqueda beneficiarse de la sabiduría de la gente que interactúa con los resultados de búsqueda así como características más ricas que caracterizan el comportamiento de navegación más allá de la página de resultados de búsqueda. La Figura 5 ilustra un sistema de recuperación de información automatizado 500 que puede emplear un componente de aprendizaje de máquina 535 de acuerdo con un aspecto de la innovación. Una estrategia de interpretación de realimentación implícita general puede emplearse para prender automáticamente un modelo de preferencias de usuario (por ejemplo, en lugar de confiar en heurística o comprensión). El sistema 500 incluye un componente de clasificación 510 puede entrenarse de un registro de datos 520 o interacciones con el componente de comportamiento de usuario 515, por ejemplo. Los datos en el registro 520 pueden reunirse de fuentes de datos locales o remotas e incluye información que se relaciona con datos de búsqueda previos o actividades 530 de una pluralidad de usuarios. Después de entrenamiento, el componente de clasificador 510 puede interactuar con la máquina de búsqueda 540 para facilitar o mejorar resultados' de búsqueda futuros que se indican como resultados relevantes 550. Por ejemplo, una o más consultas de búsqueda nuevas 560 pueden procesarse por la máquina de búsqueda 540, basándose en parte en entrenamiento de los datos de búsqueda previos 530, y/o información del componente de comportamiento de usuario 515. En general, el sistema 500 puede emplear varias técnicas de extracción de datos para mejorar relevancia de máquina de búsqueda. Tales pueden incluir emplear clasificadores de relevancia en el componente clasificador 510, para generar datos de entrenamiento de alta calidad para clasificadores de tiempo de operación, los cuales se emplean con la máquina de búsqueda de clasificador 540 para generar los resultados de búsqueda 550. La Figura 6 ilustra un componente de comportamiento de usuario 610 que interactúa con una pluralidad de características de sistema, que représentan acción de usuario. En un aspecto, la innovación en cuestión considera comportamientos de búsqueda web como una compilación de un componente de "antecedentes" (por ejemplo, ruido independiente de consulta y de relevancia en comportamiento de usuario, y similares), y un componente de "relevancia" (por ejemplo, comportamiento específico de consulta indicativo de la relevancia de un resultado a una consulta). Tal distribución puede tomar ventaja de comportamiento de usuario agregado, en donde el grupo de características está compuesto de características directamente observadas (calculadas directamente de observaciones para cada consulta), así como características derivadas de consulta-específicas, calculadas como la desviación de la distribución independiente de consulta total de valores para los valores de características directamente observados correspondientes. Como se ilustra en la Figura 6, las características de sistema ilustrativas tal como: característica(s) de clic 612, característica(s) de navegación 614, y características de presentación 616, que pueden emplearse para representar interacciones de usuario con resultado de búsqueda web, o a través del componente de comportamiento de usuario 610. Además, las características tal como la desviación del número de clic observado para un par de consulta-URL dado del número de clics esperado en un resultado en la posición dada, también pueden considerarse. Además, el comportamiento de navegación puede modelarse, por ejemplo, después que se aplica un resultado, entonces el tiempo de residencia de página promedio para un par de consulta-URL dado, así como su desviación del tiempo de residencia esperado (promedio), se emplea para tal modelo. Adicionalmente, ejemplo, los usuarios de búsqueda de web frecuentemente pueden determinar si un resultado es relevante al observar el título de resultado, URL, y compendio, en muchos casos, al observar el documento original típicamente no es necesario. Para modelar este aspecto de experiencia de usuario, las características tal como: traslape en palabras en título y palabras en consulta, también pueden emplearse. La Figura 7 ilustra una metodología ilustrativa 700 de interpretar comportamiento de usuario para estimar preferencias de usuario de acuerdo con un aspecto de la innovación en cuestión. Mientras el método ilustrativo se ilustra y describe aquí como una serie de bloques representativos de varios eventos y/o actos, la innovación en cuestión no se limita por el orden ilustrado de tales bloques. Por ejemplo, algunos actos o eventos pueden ocurrir en diferentes órdenes y/o concurrentemente con otros actos o eventos, además del orden aquí ilustrado, de acuerdo con la innovación. Además, no todos los bloques ilustrados, eventos o actos, pueden requerirse para implementar una metodología de acuerdo con la innovación en cuestión. Además, se apreciará que el método ilustrativo y otros métodos de acuerdo con la innovación pueden implementarse en asociación con el método ¡lustrado y descrito aquí, asi como en asociación con otros sistemas y aparatos no ilustrados o descritos. Inicialmente y en 710, los datos relacionados con interacción de usuario son máquina de búsqueda, tal como comportamiento de usuario de búsqueda posterior pueden adquirirse. Subsecuentemente y en 720, puede agregarse comportamiento de usuario, por ejemplo al emplear técnicas de análisis estadístico. En 730, el aprendizaje de máquina entonces puede emplearse para entrenar modelo de preferencia de usuario. Subsecuentemente, y en 740 pueden proporcionarse predicciones de preferencia para resultado de consultas futuras. La Figura 8 ilustra una metodología 800 para implementar comportamiento de usuario como parte de clasificación de acuerdo con un aspecto de la innovación en cuestión. I nicialmente, y en 810, los datos relacionados con comportamiento de usuario pueden recolectarse. Tal comportamiento de usuario entonces puede emplearse para entrenar y/o generar automáticamente un modelo de comportamiento en 820. Tal modelo (por ejemplo, modelo de comportamiento predictivo) entonces puede incorporarse como parte de una máquina de búsqueda para clasificar resultados y/o generar juicios de relevancia implícitos desde la realimentación de usuarios, en 830. Subsecuentemente, y 840 basándose en parte en la información de modelo de comportamiento generada y/o entrenada recuperada por la máquina de búsqueda entonces puede clasificarse.

Con el fin de proporcionar un contexto para los varios aspectos del tema descrito, las Figuras 9 y 10 así como la discusión al siguiente pretenden proporcionar una breve descripción general de un ambiente adecuado en donde los varios aspectos del tema descrito pueden implementarse. Mientras el tema se describió anteriormente en el contexto general de instrucciones ejecutables por computadora de un programa de computadora que corre en una computadora y/o computadoras, aquellos expertos en la técnica reconocerán que la innovación también puede implementarse en combinación con otros módulos de programa. Generalmente, los módulos de programa incluyen rutinas, programas, componentes, estructuras de datos, etc. que realizan tareas particulares y/o implementan tipos de datos abstractos particulares. Además, aquellos expertos en la técnica apreciaran que los métodos innovativos pueden practicarse con otras configuraciones de sistema de computadora, que incluyen sistemas de computadora de procesador individual o multiprocesador, dispositivos de mini-cómputo, macrocomputadoras, así como computadoras personales, dispositivos de cómputo portátiles (por ejemplo, asistente digital personal (PDA), teléfono, reloj...), electrónica basada en microprocesador de consumidor programable o electrónica industrial, y similares. Los aspectos ilustrados también pueden practicarse en ambientes de cómputo distribuidos en donde las tareas se realizan por dispositivo de procesamiento remoto que se enlazan a través de una red de comunicaciones. Sin embargo, algunos, si no es que todos los aspectos de la innovación pueden practicarse en computadoras individuales. En un ambiente de cómputo distribuido, los módulos de programa pueden localizarse tanto en dispositivo de almacenamiento de memoria local y remota. Con referencia a la Figura 9, un ambiente ilustrativo 910 para implementar varios aspectos de la innovación en cuestión se describe e incluye una computadora 912. La computadora 912 incluye una unidad de procesamiento 914, una memoria de sistema 916, y un conductor común de sistema 918. El conductor común de sistema 918 acopla componentes de sistema que incluyen, pero no se limitan a, la memoria de sistema 916 a la unidad de procesamiento 914. La unidad de procesamiento 914 puede ser cualquiera de varios procesadores disponibles. Los microprocesadores dobles y otras arquitecturas de multiprocesador también pueden emplearse como la unidad de procesamiento 914. El conductor común de sistema 918 puede ser cualquiera de varios tipos de estructura(s) de conductor común que incluye el conductor común de memoria o controlador de memoria, un conductor común periférico o conductor común externo, y/o un conductor común local que utiliza cualquier variedad de arquitecturas de conductor común disponibles que incluyen, pero no se limitan a, conductor común de 11 bits, Arquitectura estándar de industria (ISA), Arquitectura de microcanal (MCA), ISA extendido (EISA), Electrónica de unidad inteligente (IDE), Conductor común local de VESA (VLD), Interconexión de componente periférico (PCI), Conductor común en serie universal (USB), Puerto de gráficos avanzado (AGP), conductor común de Asociación internacional de tarjeta de memoria de computadora personal (PCMCIA), e Interfase de sistemas de computadora pequeña (FCSI). La memoria de sistema 916 incluye memoria volátil 920 y memoria no volátil 922. El sistema de entrada/salida básico (BIOS), que contienen las rutinas básicas para transferir información entre elementos dentro de la computadora 912, tal como durante el arranque, se almacena en memoria no volátil 922. A manera de ilustración, y no de limitación, la memoria no volátil 922 puede incluir memoria sólo de lectura (ROM), ROM programable (PROM), ROM eléctricamente programable (EPROM), ROM eléctricamente borrable (EEPROM), o memoria flash. La memoria volátil 920 incluye memoria de acceso aleatorio (RAM), que actúa como una memoria caché externa. A manera de ilustración y no de limitación, RAM está disponible en muchas formas tal como RAM sincrónica (SRAM), RAM dinámica (DRAM), DRAM sincrónica (SDRAM), SDRAM de velocidad de datos doble (DDR SDRAM), SDRAM mejorado (ESDRAM), DRAM de enlace sincrónico (SLDRAM), y RAM de conductor común de RAM directo (DRRAM). La computadora 912 también incluye medios de almacenamiento por computadora removibles/no removibles, volátiles/no volátiles. La Figura 9 ilustra, por ejemplo un almacenamiento de disco 924. El almacenamiento de disco 924 incluye, pero no se limita a, dispositivos como una unidad de disco magnético, unidad de disco flexible, unidad de cinta, unidad de Jaz, unidad de Zip, unidad LS-60, tarjeta de memoria flash, o tarjeta de memoria. Además, el almacenamiento de disco 924 puede incluir medios de almacenamiento separadamente o en combinación con otros medios de almacenamiento que incluyen, pero no se limitan a, una unidad de disco óptico tal como dispositivo de ROM de disco compacto (CD-ROM), unidad gravable de CD (unidad de CD-R), unidad de re-escribirle de CD (Unidad de CD-RW) o una unidad de ROM de disco versátil digital (DVD-ROM). Para facilitar conexión de los dispositivos de almacenamiento de disco 924 el conductor común de sistema 918, o una interfase removible o no removible típicamente se utiliza tal como interfase 926. Se debe apreciar que la Figura 9 describe software que actúa como intermediario entre usuarios y los recursos de computadora básicos descritos en ambiente operativo adecuado 910. Tal software incluye un sistema operativo 928. El sistema operativo 928, que puede almacenarse en almacenamiento de disco 924, actúa para controlar y distribuir recursos del sistema de computadora 912. Las aplicaciones de sistema 930 toman ventaja del manejo de recursos por el sistema operativo 928 a través de módulos de programa 932 y datos de programa 934 almacenados ya sea en memoria de sistema 916 o en almacenamiento de disco 924. Se debe apreciar que varios componentes aquí descritos pueden implementarse con varios sistemas operativos o combinaciones de sistemas operativos. Un usuario ingresa comandos o información en la computadora 912 a través de dispositivo(s) de entrada 936. Los dispositivos de entrada 936 incluyen, pero no se limitan a, un · dispositivo de señalamiento tal como un ratón, seguibola, aguja, almohadilla táctil, teclado, micrófono, palanca de mandos, almohadilla de juegos, antena parabólica, escáner, tarjeta de sintonizador de TV, cámara digital, cámara de video digital, cámara web, y similares. Estos y otros dispositivos de entrada se conectan a la unidad de procesamiento 914 a través del conductor común de sistema 918 a través del puerto(s) de interfase 938. El puerto(s) de interfase 938 incluye, por ejemplo, un puerto en serie, un puerto paralelo, un puerto de juegos, y un conductor común en serie universal (USB). El dispositivo(s) de salida 940 utiliza algunos del mismo tipo de puertos que el dispositivo(s) de entrada 936. De esa forma, por ejemplo, un puerto de USB puede utilizarse para proporcionar entrada a la computadora 912, y para sacar información de la computadora 912 a un dispositivo de salida 940. El adaptador de salida 942 se proporciona para ilustrar que existen algunos dispositivos de salida 940 como monitores, bocinas, e impresoras, entre otros dispositivos de salida 940 que requieren adaptadores especiales. Los adaptadores de salida 942 incluyen, a manera de ilustración y no limitación, tarjetas de video y sonido que proporcionan un medio de conexión entre el dispositivo de salida 940 y el conductor común de sistema 918. Se debe notar que otros dispositivos y/o sistemas de dispositivos proporcionan tanto capacidades de entrada y salida tal como computadora(s) remota 944. La computadora 912 puede operar en un ambiente en red que utiliza conexiones lógicas a una o más computadoras remotas, tal como computadora(s) remota 944. La computadora(s) remota 944 puede ser una computadora personal, un servidor, un enrutador, una PC de red, una estación de trabajo, un aparato basado en microprocesador, un dispositivo par u otro nodo de red común y similares, y típicamente incluyen muchos o todos los elementos descritos relativos a la computadora 912. Para propósitos de brevedad, sólo un dispositivo de almacenamiento de memoria 946 se ilustra con computadora(s) remota 944. La com putadora(s) remota 944 se conectan lógicamente a la computadora 912 a través de una interfáse de red 948 y entonces se conecta físicamente a través de la conexión de comunicación 950. La interfáse de red 948 abarca redes de comunicación tal como redes de área local (LAN) y redes de área ancha (WAN). Las tecnologías de LAN incluyen Interfáse de datos distribuidos de fibra (FDDI), Interfáse de datos distribuida por computadora (CDDI), Ethernet/IEEE 802.3, Anillo de señal/IEEE 802.5 y similares. Las tecnologías WAN incluyen, pero no se limitan a, enlaces de punto a punto, redes de conmutación de circuito similares a Redes digitales de servicios integrados (ISDN) y variaciones en estas, redes de conmutación de paquete, y Líneas de suscriptor digital (DSL). La conexión(es) de . comunicación 950 se refiere al hardware/software empleado para conectar la interfáse de red 948 al conductor común 918. Mientras la conexión de comunicación 950 se muestra para claridad ilustrativa dentro de la computadora 912, también puede ser externa la computadora 912. El hardware/software necesario para conexión a la interfáse de red 948 incluye, para propósitos ilustrativos solamente, tecnologías internas y externas tal como, módems que incluyen módems de grado de teléfono regular, módem de cable y módem de DSL, adaptadores de ISDN, y tarjetas de Ethernet. Como se utiliza aquí, los términos "componentes", "sistema" y similares pretenden referirse a una entidad relacionada con computadora, ya sea hardware, una combinación de hardware y software, software, o software en ejecución. Por ejemplo, un componente puede ser, pero no se limita a ser, un procedimiento que corre en un procesador, un procesador, un objeto, un ejecutable, una secuencia de ejecución, un programa, y/o una computadora. A manera de ilustración, tanto una aplicación que corre en una computadora como la computadora pueden ser un componente. Uno o más componentes pueden recibir dentro de un procedimiento y/o secuencia de ejecución y un componente puede localizarse en una computadora y/o distribuirse entre dos o más computadoras. La palabra "ilustrativo" se utiliza aquí para significar que sirve como un ejemplo, caso, o ilustración. Cualquier aspecto o diseñó aquí descrito como "ilustrativo" no necesariamente debe construirse como preferido o ventajoso sobre otros aspectos o diseños. Además, tema descrito puede implementarse como un sistema, método, aparato o artículo de fabricación que utiliza programación estándar y/o técnicas de ingeniería para producir software, firmware, hardware, o cualquier combinación de los mismos para controlar una computadora o dispositivo basado en procesador para implementar aspectos aquí detallados. El término programa de computadora como se utiliza aquí pretende abarcar un programa de computadora accesible desde cualquier dispositivo legible por computadora, portador o medios. Por ejemplo, los medios legibles por computadora pueden incluir pero no se limitan a dispositivos de almacenamiento magnético (por ejemplo, disco duro, disco flexible, bandas magnéticas...), discos ópticos (por ejemplo, disco compacto (CD), discos versátiles digitales (DVD)...), tarjetas inteligentes, y dispositivos de memoria flash (por ejemplo, tarjeta, memoria). Adicionalmente se debe apreciar que una onda portadora puede emplearse para transportar datos electrónicos legibles por computadora tal como aquellos utilizados al transmitir y recibir correo electrónico o al acceder a una red tal como Internet o una red de área local (LAN). Por supuesto, aquellos expertos en la técnica reconocerán que pueden hacerse muchas modificaciones a esta configuración sin apartarse del alcance o espíritu del tema reclamado. La Figura 10 es un diagrama de bloques esquemático de un ambiente de cómputo de muestra 1000 que puede emplearse para estimar referencia de usuario a través de componente de comportamiento de usuario de acuerdo con un aspecto de la innovación en cuestión. El sistema 1000 incluye uno o más cliente(s) 1010. El cliente(s) 1010 puede ser hardware y/o software (por ejemplo, secuencias, procedimientos, dispositivos de cómputo). El sistema 1000 también incluye uno o más servidor(es) 1030. El servidor(es) 1030 también puede ser hardware y/o software (por ejemplo, secuencias, procedimientos, dispositivos de cómputo). Los servidores 1030 pueden alojar secuencias para realizar transformaciones al emplear los componentes aquí descritos, por ejemplo. Una comunicación posible entre un cliente 1010 y un servidor 1030 puede estar en la forma de un paquete de datos adaptado para transmitirse entre dos o más procedimientos de computadora. El sistema 1000 incluye una estructura de comunicación 1050 que puede emplearse para facilitar comunicaciones entre el cliente(es) 1010 y el servidor(es) 1030. El cliente(s) 1010 se conecta operativamente a uno o más almacenamiento(s) de datos de cliente 1060 que pueden emplearse para almacenar información local al cliente(s) 1010. Similarmente, el servidor(es) 1030 se conectan operativamente a uno o más almacenamiento(s) de datos de servidor 1040 que pueden emplearse para almacenar información local a los servidores 1030. Lo que se describió anteriormente incluye varios aspectos ilustrativos. Por supuesto, no es posible describir toda combinación concebible de componentes o metodologías para propósitos de describir estos aspectos, pero un experto la técnica puede reconocer que son posibles muchas combinaciones y cambios adicionales. Por consiguiente, los aspectos aquí descritos pretenden abarcar todas tales alteraciones, modificaciones y variaciones que caen dentro el espíritu y alcance de las reivindicaciones anexas. Además, a la extensión que el término "incluye" se utiliza en la descripción detallada o las reivindicaciones, tal que no pretende ser inclusivo en una forma similar al término "que comprende" como "comprendiendo" se interpreta cuando se emplea como una palabra de transición en una reivindicación.

Claims

REIVINDICACIONES 1.- Un sistema implementado por computadora que comprende los siguientes componentes ejecutables por computadora: un componente de comportamiento de usuario (104, 315, 515, 610) que facilita interpretación automática de comportamiento de usuarios colectivo (101, 103, 105) para estimar preferencias de usuario de resultados de búsqueda (350, 550) y una máquina de búsqueda (102, 202, 340, 540) que incorpora el comportamiento colectivo para determinación de relevancia y clasificación de resultados de búsqueda regresados (350, 550). 2 - El sistema implementado por computadora de acuerdo con la reivindicación 1, en donde el componente de comportamiento de usuario además comprende un componente de antecedente y, un componente de relevancia. 3. - El sistema implementado por computadora de acuerdo con la .reivindicación 1, que además comprende un componente de aprendizaje de máquina. 4. - En sistema implementado por computadora de acuerdo con la reivindicación 1, en donde el componente de comportamiento de usuario además comprende un modelo conducido por datos de comportamiento de usuario. 5. - El sistema implementado por computadora de acuerdo con la reivindicación 4, en donde la máquina de búsqueda además comprende un modelo de comportamiento de usuario con características directamente observadas y características de comportamiento derivadas. 6. - El sistema implementado por computadora de acuerdo con la reivindicación 4, que además comprende un registro de datos que incluye datos de búsqueda previa. 7. - El sistema implementado por computadora de acuerdo con la reivindicación 1, en donde la máquina de búsqueda además comprende un componente de clasificador que clasifica resultados de búsqueda. 8.- El sistema implementado por computadora de acuerdo con la reivindicación 5, que además comprende un componente de aprendizaje de máquina que entrena el modelo de comportamiento de usuario. 9. - El sistema implementado por computadora de acuerdo con la reivindicación 5, en donde el modelo además comprende características de clic, características de presentación y características de navegación. 10. - Un método implementado por computadora que comprende los siguientes actos ejecutables: obtener comportamiento de usuario durante interacción con una máquina de búsqueda (102, 202, 340, 540); agregar comportamiento de usuario para un análisis del mismo; y estimar preferencias de usuario para resultados recuperados (350, 550). 11. - El método implementado por computadora de acuerdo con la reivindicación 10, que además comprende clasificar información recuperada basada en preferencias de usuario. 12. - El método implementado por computadora de acuerdo con la reivindicación 10, que además comprende entrenar un modelo para clasificar la información. 13. - El método implementado por computadora de acuerdo con la reivindicación 10, que además comprende generar automáticamente el modelo a partir del comportamiento de usuario. 14.- El método implementado por computadora de acuerdo con la reivindicación 10, que además comprende aconsejar un grupo de características relacionadas con interacción de usuario con información recuperada. 15. - El método implementado por computadora de acuerdo con la reivindicación 10, que además comprende emplear aprendizaje de máquina para incorporar comportamiento de usuario. 16. - El método implementado por computadora de acuerdo con la reivindicación 10, que además comprende predecir comportamiento de usuario. 17.- El método implementado por computadora de acuerdo con la reivindicación 10, que además comprende extraer comportamiento de usuario agregado para clasificación de resultados de búsqueda. 18.- El método implementado por computadora de acuerdo con la reivindicación 10, que además comprende emplear características directamente observadas desde interacciones de usuario con resultados de búsqueda para estimar preferencias de usuario. 19.- El método implementado por computadora de acuerdo con la reivindicación 10, que además comprende mitigar ruido asociado con comportamiento de usuario agregado. 20.- Un sistema implementado por computadora que comprende los siguientes componentes ejecutables por computadora: medios (102, 202, 340, 540) para recolectar realimentación implícita de usuarios; y medios (104, 315, 515, 610) para estimar preferencias de usuario.