MXPA00012374A - Sistema y metodo para refinar las preguntas de busqueda - Google Patents

Sistema y metodo para refinar las preguntas de busqueda

Info

Publication number
MXPA00012374A
MXPA00012374A MXPA/A/2000/012374A MXPA00012374A MXPA00012374A MX PA00012374 A MXPA00012374 A MX PA00012374A MX PA00012374 A MXPA00012374 A MX PA00012374A MX PA00012374 A MXPA00012374 A MX PA00012374A
Authority
MX
Mexico
Prior art keywords
question
search
terms
user
questions
Prior art date
Application number
MXPA/A/2000/012374A
Other languages
English (en)
Inventor
Ruben E Ortega
Joel R Spiegel
Dwayne E Bowman
Michael L Hamrick
Timothy R Kohn
Original Assignee
Amazoncom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amazoncom filed Critical Amazoncom
Publication of MXPA00012374A publication Critical patent/MXPA00012374A/es

Links

Abstract

Se da a conocer un proceso de búsqueda, el cual sugiere términos relacionados al usuario, para permitir que este usuario refine una búsqueda. Estos términos relacionados se generan cuando datos de correlación de los términos de la pregunta, que reflejan las frecuencias con las cuales los términos específicos han aparecido previamente dentro de la misma pregunta. Los datos de correlación se generan y almacenan en una tabla de consulta (137), usando un proceso (136) fuera de línea, el cual analiza un archivo de registro (135) de preguntas. La tabla (137) se regenera periódicamente desde las presentaciones de preguntas más recientes (por ejemplo, lasúltimas dos semanas de presentaciones de preguntas) y asírefleja fuertemente las preferencias actuales de los usuarios. Cada término relacionado se presenta al usuario por medio de un hiper-enlace respectivo (910), el cual se puede seleccionar por el usuario para presentar una pregunta modificada. En una modalidad, los términos relacionados se agregan a, y se seleccionan de, la tabla (137), para asígarantizar que las preguntas modificadas no produzcan un resultado NULO de la pregunta.

Description

SISTEMA Y MÉTODO PARA REFINAR LAS PREGUNTAS DE BÚSQUEDA ANTECEDENTES DE LA INVENCIÓN Campo de la Invención La presente invención se refiere al proceso de las preguntas y, más específicamente, se refie;re a técnicas para facilitar el proceso de la refinación de las preguntas de búsqueda . Descripción de la Técnica Relacionada Con la creciente popularidad de la Internet y la World Wide Web (Red a Través del Mundo) , es común que los usuarios en línea utilicen procesos de búsqueda para buscar en la Internet la información deseada. Muchos sitios en la web (red) permiten que los usuarios realicen búsquedas para identificar un número más pequeño de artículos relevantes entre un dominio mucho más grande de artículos. Como un ejemplo, varios sitios del índice de la web permiten que los usuarios busquen sitios de web particulares entre los sitios de web conocidos. Similarmente, muchos comerciantes en línea, tal como los vendedores de libros, permiten que los usuarios busquen productos particulares entre todos los productos que pueden ser comprados del comercio. Otros servicios en línea, tal como el Lexis™ y estlaw™, permiten * -'-*-'-'- que los usuarios busquen los varios artículos y las opiniones de los tribunales. Con el fin de ejecutar una búsqueda, un usuario envía una pregunta que contiene uno o más términos en esta pregunta. La pregunta puede también identificar, explícita o implícitamente, un campo o segmento del registro que se va a buscar, tal como el título, autor, o clasificación de materia del artículo. Por ejemplo, un usuario de una librería en línea puede enviar una pregunta que contenga términos que el usuario crea aparecen dentro del título de un libro. El programa servidor de preguntas del proceso de búsqueda, procesa la pregunta para identificar cualquier artículo que coincida con los términos de la pregunta. El conjunto de artículos identificados por el programa servidor de preguntas se refiere como un "resultado de la búsqueda". En la librería en línea, por ejemplo, la pregunta suministra un conjunto de libros, cuyos títulos contienen algunos o todos los términos de la pregunta. En el ejemplo del sitio de índice de web, la pregunta resulta en un conjunto de sitios o documentos de la web. En realizaciones basadas en la web, el resultado de la búsqueda presentado al usuario como una lista hipertextual de los artículos localizados. Si el alcance de la búsqueda es grande, el resultado de la pregunta puede contener cientos, miles o aún millones de artículos. Si el usuario realiza la búsqueda con el fin de encontrar un solo artículo o un pequeño conjunto de artículos, los acercamientos convencionales en ordenar los artículos dentro del resultado de la búsqueda a menudo fallan en colocar el artículo o artículos buscados cerca de la parte superior de la lista de resultados de la pregunta. Esto requiere que el usuario lea a través de muchos otros artículos en el resultado de la pregunta, antes de llegar al artículo buscado. Ciertos procesos de búsqueda, tal como Excite™ y Altavista™ sugieren términos de preguntas relacionados al usuario como parte del proceso de la "refinación de búsqueda". Esto permite que; el usuario refine además la pregunta y estreche el resultado de la pregunta, seleccionando uno o más términos de pregunta relacionados y reflejen, más exactamente, la solicitud intentada del usuario. Los términos de pregunta relacionados son generados típicamente por el proceso de búsqueda que usa los contenidos del resultado de la pregunta, tal como identificando los términos usados más frecuentemente dentro de los documentos localizados. Por ejemplo, si un usuario envía una pregunta sobre el término "ALIMENTOS", el usuario recibe varios miles de artículos como el resultado de la pregunta. El proceso de búsqueda puede luego rastrear a través de los contenidos de algunos o todos estos artículos y presentar al usuario con términos relacionados con la pregunta, tal como "RESTAURANTES", "RECETAS" y "FDA", para permitir que el usuario refine la pregunta. Los términos relacionados con la pregunta se presentan comúnmente al usuario junto con los cuadros de comprobación correspondientes, que se marcan o comprueban selectivamente por el usuario y agrega términos a la pregunta. En algunas realizaciones, los términos relacionados de la pregunta son presentados alternativamente y se seleccionan por el usuario a través de menús presentados que son provistos sobre la página del resultado de la pregunta. En cualquier caso, el usuario puede agregar términos adicionales a la pregunta y luego volver a enviar la pregunta modificada. Usando esta técnica, el usuario puede estrechar el resultado de la pregunta a conjuntos más manejables que constan primariamente de productos relevantes . Un problema con las técnicas existentes para generar términos relacionados de preguntas es que los términos relacionados son frecuentemente de poco o ningún valor en el proceso de refinación de búsqiieda. Otro problema es que la adición de un o más términos relacionados a la pregunta algunas veces conducen a un resultado NULO de la pregunta. Otro problema es que el proceso de analizar los artículos resultantes de la pregunta para identificar los términos usados frecuentemente consume recursos significantes del procesador y pueden aumentar apreciablemente la cantidad de tiempo que el usuario debe esperar antes de ver el resultado de la pregunta. Éstas y otras deficiencias en las técnicas existentes obstaculizan 5 la meta del usuario de localizar, rápida y eficientemente, la mayoría de los artículos relevantes y pueden conducir a la frustración del usuario.
COMPENDIO DE LA INVENCIÓN 10 La presente invención se dirige a éstos y otros problemas, proporcionando un sistema de refinación de búsqueda y un método para generar y exhibir los términos relacionados de las preguntas ("términos relacionados"). De acuerdo con la invención, los términos relacionados son la generación usando los datos de correlación del término de la pregunta, que se basan en las presentaciones de preguntas históricas al proceso de búsqueda. Los deitos de correlación del término de la pregunta ("datos de correlación") se basan preferiblemente en al menos las frecuencias con las cuales los términos específicos se han presentado históricamente juntos con la misma pregunta. La incorporación de tal información histórica de la pregunta en el proceso tiende a producir términos relacionados, que se usan frecuentemente por otros usuarios en combinación con los términos presentados de la pregunta, y aumentar significantemente la -"i rütiin adMHAriWHUto probabilidad que estos términos relacionados sean útiles para el proceso de refinación de búsqueda. Para aumentar más la probabilidad que los términos relacionados sean útiles, los datos de correlación se generan preferiblemente sólo de 5 aquellos presentados históricamente con las preguntas, que produjeron un resultado de las preguntas exitosos (al menos una coincidencia) . De acuerdo con un aspecto de la invención, los datos de correlación se almacenan en una estructura de datos de correlación (tabla, base de datos, etc.), que se usa para consultar los términos relacionados en respuesta a las presentaciones de las preguntas. La estructura de datos es generada preferiblemente usando un proceso fuera de línea, que analizar un archivo de preguntas, pero puede alternativamente ser generado y actualizado en tiempo real, conforme las preguntas son recibidas de los usuarios. En una modalidad, la estructura de datos se regenera periódicamente (por ejemplo una vez al día) de las presentaciones de preguntas más recientes (por ejemplo, los últimos M días de entradas en el registro de preguntas) y así refleja fuertemente las pruebas actuales de los usuarios más comunes; como resultado, los términos relacionados sugeridos por el proceso de búsqueda reflejan las pruebas actuales de la comunidad. Así, por ejemplo, en el contexto de un proceso de búsqueda de un comerciante en línea, este proceso de búsqueda tiende a sugerir los términos relacionados que correspondan a los productos actuales mejor vendidos. En una modalidad preferida, cada entrada en la estructura de datos está en la forma de un término clave y una lista de términos relacionados correspondientes. Cada lista de términos relacionados contiene los términos que han aparecido históricamente juntos (en la misma pregunta) con el término clave respectivo con el mayor grado de frecuencia, ignorar las presentaciones no exitosas de la pregunta (presentaciones de la pregunta que produjeron un resultado NULO de la pregunta) . La estructura de datos proporciona así un mecanismo eficiente para consultar los términos relacionados para un término dado de pregunta. Para generar un conjunto de términos relacionados para refinar una pregunta expuesta (la "presente pregunta"), la lista de términos relacionados para cada término en la presente pregunta se obtienen inicialmente de la correlación de la estructura de datos. En este etapa se producen listas múltiples de términos relacionados (como en el caso de una pregunta de múltiples términos) , las listas de términos relacionados se combinan preferiblemente por tomar la intersección entre estas listas (es decir, omitiendo los términos que no son comunes a todas las listas) . Los términos relacionados que permanecen son términos que han aparecido previamente, en al menos una ——ita—nl^^^^ presentación de preguntas exitosa, en combinación con cada término de la presente pregunta. Así, suponiendo que los artículos que no se han omitido de la base de datos son buscados, cualquiera de estos términos relacionados puede ser agregado individualmente a la presente pregunta, mientras se garantiza que la pregunta modificada no producirá un resultado NULO de la pregunta. Para tomar ventaja de esta característica, los términos relacionados se presentan preferiblemente al usuario por medio de la interfaz del usuario que requiera que el usuario agrega no más de un término relacionados por presentación de la pregunta. En otra modalidad, los términos relacionados se seleccionan y exhiben sin garantizar un resultado exitoso de la pregunta . Debido a que los términos relacionados son identificados de datos de correlación generados previamente, sin la necesidad de analizar documentos o correlacionar términos, los términos relacionados pueden ser identificados y presentados al usuario con poco o n,ada de un retardo agregado.
•*?. BREVE DESCRIPCIÓN DE LOS DIBUJOS Éstas y otras características serán ahora descritas con referencia a los dibujos resumidos abajo.
Estos dibujos y la descripción asociada son provistos para ilustrar una modalidad preferida de la invención y no limitar el ámbito de la invención. A través de los dibujos, números de referencia que se vuelven a usar indican la correspondencia entre los elementos mencionados. Además, el primer dígito de cada número de referencia indica la figura en la cual el elemento aparece primero. La Figura 1 ilustra un sistema en el cual los usuarios tienen acceso de la información del sitio de web (red) por medio de la Internet, e ilustra los componentes básicos del sitio web usados para realizar un proceso de búsqueda, que opera de acuerdo con la invención. La Figura 2 ilustra una página de muestra de búsqueda de libros del sitio web. La Figura 3 ilustra entradas de registro de muestra de un archivo diario de registro de preguntas. La Figura 4 ilustra el proceso usado para generar la tabla de correlación de la Figura 1. La Figura 5A ilustra una topografía de muestra, antes de agregar una pregunta . .*^_k--?AietÍMtti La Figura 5B ilustra una topografía de muestra, después de agregar una pregunta. La Figura 6 ilustra un proceso para generar la tabla de correlación de los archivos de registro de preguntas diarias, más reciente. La Figura 7 ilustra un proceso para seleccionar los términos de preguntas relacionados de la tabla de correlación. La Figura 8A ilustra un conjunto de términos de preguntas relacionadas deSde una pregunta de un solo término. La Figura 8B ilustra un conjunto de términos de intersección y un conjunto de términos de preguntas relacionadas de una pregunta de múltiples términos. La Figura 9 ilustra una página del resultado de la búsqueda muestra del sitio web.
DESCRIPCIÓN DETALLADA DE LAS MODALIDADES PREFERIDAS La presente invención suministra un sistema de refinación de la búsqueda y un método para generar términos de preguntas relacionados ("términos relacionados") usando la historia de las preguntas presentada a un proceso de búsqueda por una comunidad de usuarios. Brevemente, el sistema genera datos de correlación de términos de preguntas que reflejan la frecuencia con la cual los términos ^^^ £ específicos han ocurrido previamente juntos dentro de la misma pregunta. El sistema usa datos de correlación de términos de la pregunta, en combinación con los términos de pregunta hechos entrar por el usuario, para los términos de 5 preguntas adicionales recomendados para refinar la pregunta. La incorporación de tal información de pregunta histórica en el proceso, tiende a producir términos relacionados que se usan frecuentemente por otros usuarios en combinación con los términos presentados de la pregunta, y aumenta significantemente la probabilidad que estos términos relacionados sean útiles, los datos de correlación se generan preferiblemente sólo de las presentaciones históricas de la pregunta, que produjeron un resultado exitoso de la pregunta (al menos una coincidencia) . 15 En la modalidad preferida, los datos de correlación del término de la pregunta se regeneran periódicamente de las presentaciones recientes de la pregunta, tal como cuando los últimos M días de entradas en un registro de preguntas, y así reflejan ciproximadamente los gustos actuales de los usuarios. Como resultado, los términos relacionados sugeridos por el p.roceso de búsqueda tienen a ser términos que corresponden a los artículos buscados más frecuentemente durante el período de tiempo relevante. Así, por ejemplo, en el contexto del proceso de búsqueda de un comercio en línea, el proceso de búsqueda «táaaíteiíiittii . ^^^^j^ «HÍNHÍMÉMI^U tiende a sugerir términos relacionados que corresponden a los productos actuales mejor vendidos. En una modalidad, la técnica usada para generar los términos relacionados y presentar estos términos al usuario, garantiza que la pregunta modificada no producirá un resultado NULO de la pregunta . Los métodos de refinamiento de búsqueda de la invención pueden ser realizados, por ejemplo, como parte de un sitio web, un sitio de la Internet, una red de servicios en línea, un sistema de recuperación de documentos, o cualquier otro tipo de sistema de computadora que suministra las capacidades de búsqueda a una comunidad de usuarios. Además, el método puede ser combinado con otros métodos para sugerir términos relacionados, tal como los métodos los cuales procesan los contenidos de los documentos ubicados. Una realización preferida basada en la web del sistema de refinación de búsqueda, será ahora descrito con referencia a las Figuras 1 a 9. Para los fines de ilustración, el sistema se describe aquí en el contexto de un proceso de búsqueda que se usa para ayiidar a los clientes de Amazon.com Inc., en localizan artículos (por ejemplo, libros, discos compactos, etc.) de un catálogo en línea de productos. A través de la descripción, se hará referencia a varios detalles específicos de realización de Amazon.com. Estos detalles son provistos con el fin de ilustrar - ' ~**°*-* > >* - completamente una modalidad preferida de la invención, y no limitar el alcance de esta invención. Este alcance de la invención se señala en las reivindicaciones anexas.
I . Revisión del Sitio Web y el Proceso de Búsqueda La Figura 1 ilustra el sitio web 130 de Amazon.com, que incluye los componentes usados para realizar un proceso de búsqueda, de acuerdo con la invención. Como es bien conocido en la técnica del comercio de la Internet, el sitio de la web, Amazon.com, incluye la funcionalidad para permitir que los usuarios busquen, hagan revisiones rápidas y hagan compras de un catálogo en línea de títulos de libros, títulos de música y otros tipos de artículos por medio de la Internet 120. Debido a que el catálogo contiene millones de artículos, es importante que el sitio suministre un mecanismo eficiente para ayudar a los usuarios en localizar los artículos. Como se ilustra en la Figura 1, el sitio de la web 130 incluye una aplicación 131 de servidor de web ("servidor de web") que procesa las solicitudes del usuario recibidas desde las computadoras 110 del usuario por medio de la Internet 120. Estas solicitudes incluyen las preguntas enviadas por los usuarios para buscar el catálogo en línea para los productos. El servidor 131 de web registra las transacciones del usuario, que incluyen las presentaciones de preguntas, dentro de un registro 135 de preguntas. En la t t «ilirmii modalidad ilustrada en la Figura 1, el registro 135 de preguntas consiste de una secuencia de archivos de registro diario de preguntas 135 (1) -135 (M) , cada uno de los cuales representa un día de transacciones. El sitio 130 de web también incluye un servidor 132 de preguntas, que procesa las preguntas buscando una base de datos bibliográfica 133. La base de datos bibliográfica 133 incluye información acerca de varios productos que los usuarios pueden comprar a través del sitio de web 130. Esta información incluye, por ejemplo, los títulos, autores, publicadores, descripciones de materia, y sus ISBN (International Standard Book Numbers) de los títulos de libros, artistas, etiquetas y clasificaciones de música de títulos de música. La información de cada artículo se dispone dentro de campos (tal como un campo de "autor" y un campo de "título"), habilitando la base de datos bibliográfica 133 a ser buscada en la base; restringida en el campo. El sitio también incluye una base de datos 134 de contenido HTML (Hypertext Markup Languaje), que incluye, entre otras cosas, las páginas de información de producto que muestran y describen los varios productos. El servidor 132 de preguntas incluye un proceso de selección de términos relacionado, 139, que identifica términos de preguntas relacionados, con base en los datos de correlación de términos de preguntas, almacenados en una a lfiAiKtdiita^iM a tabla 137 de correlación. Como se ilustra en la Figura 1 y se describe abajo, la tabla de correlación 137 es generada periódicamente de los M archivos de registro de preguntas diario, más reciente, 135 (1) -135 (M) , que usa un proceso de 5 generación 136 de tabla fuera de línea. El servidor 131 de web, servidor 132 de preguntas, proceso 136 de generación de tablas y software (programa) de base de datos, operan en una o más servidores basados en Unix™ y estaciones de trabajo (no mostradas) del sitio 130 de la web, aunque otros tipos de plataformas pueden ser usados. La tabla 137 de correlación es preferiblemente una memoria caché RAM (memoria de acceso aleatorio) en la misma máquina física como aquélla usada para realizar el servidor 132 de preguntas. Para acomodar números grandes de usuarios, este servidor de preguntas 132 y la tabla de correlación 137 se pueden duplicar a través de múltiples máquinas. Los componentes del sitio de web que se invocan durante el proceso de búsqueda se denominan colectivamente aquí como un "proceso de búsqueda" . 20 La Figura 2 ilustra el formato general de una página 200 de búsqueda de libros del sitio 130 de la web Amazon.com, que puede ser usado para buscar bases de datos bibliográficos 133 para títulos de libros. Los usuarios tienen acceso a otras páginas de búsqueda que pueden ser usadas para ubicar títulos de música y otros tipos de al ?l^M¡agami^ j¿^j^ productos vendidos por el comerciante en línea. La página 200 de búsqueda de libros incluye el autor, título y campos de materia 210, 220, 240 y controles asociados que permiten que el usuario inicie las búsquedas restringidas de campo 5 para los títulos de libros. Los usuarios pueden realizar búsquedas escribiendo primero en la información deseada en un campo de búsqueda 210, 220, 240 y luego haciendo "clic" (oprimir el ratón) en el botón de búsqueda apropiado, 230, 250. El término o cordón de términos presentados al proceso de búsqueda se denominan aquí como la "pregunta" . Otras áreas del sitio de web preguntan al usuario para presentar preguntas sin limitar los términos a los campos específicos. Cuando el usuario envía una pregunta desde la página 200 de búsqueda de libros al sitio 10 de la web, el servidor 132 de preguntas aplica la pregunta a la base de datos bibliográfica, tomando en cuenta cualquier restricción de campo dentro de la pregunta. Si el resultado de la pregunta es un artículo sencillo, la página de información del producto del artículo se presenta .al usuario. Si el 20 resultado de la pregunta incluye múltiples artículos, la lista de artículos se presenta al usuario a través de la página de resultados de preguntas, que contiene enlaces hipertextuales a las páginas de información del producto respectivo de los artículos. nütti MtiimuH iußiá. 1 •• **-----*'- - Para preguntas de múltiples términos, el servidor 132 de preguntas efectivamente en forma lógica, realiza la operación "Y" (.AND) a los términos de preguntas juntos para llevar a cabo la búsqueda. Por ejemplo, si el usuario hace 5 entrar los términos de "JAVA" y "PROGRAMACIÓN" en el campo del título 220, el servidor 132 de preguntas buscará y regresará una lista de todos los términos que tienen ambos términos dentro del título. Así, si cualquier término de pregunta no produce una coincidencia (denominado aquí como un "término no correspondiente"), la pregunta producirá un resultado NULO de la misma. La presentación de un resultado NULO de pregunta al usuario, puede causar una frustración significante al usuario. Para reducir este problema, en este caso, el usuario puede ser presentado con una lista de productos que se consideran como de "coincidencia cercana" . Aunque el proceso de búsqueda aquí descrito realiza la función "Y" lógicamente para juntar los términos de la pregunta, se reconocerá que la invención puede ser aplicada a procesos de búsqueda que usen otros métodos para preguntas del proceso. De acuerdo con la invención, el proceso de búsqueda usa los datos de correlación de términos de pregunta almacenados en la tabla 137 de correlación, para seleccionar los términos relacionados que mejor coinciden con la pregunta del usuario. Este proceso de búsqueda luego líl^^g^ --*' -*"• * - • A~ presenta los términos relacionados al usuario, permitiendo que el usuario refine la búsqueda y aumente el descubrimiento de la información correspondiente. Los datos de correlación del término de pregunta indica las relaciones entre los términos de pregunta, y se usa para predecir efectivamente los términos de pregunta que son probablemente útiles al proceso de refinación de búsqueda. De acuerdo con otro aspecto de la invención, la tabla de correlación 137 contiene o refleja preferiblemente la información histórica acerca de las frecuencias con las cu.ales los términos específicos de preguntas han aparecido juntos dentro de la misma pregunta. El formato general de la tabla de correlación 137 se ilustra en la Figura 1. En la modalidad ilustrada en la Figura 1 y descrita aquí en detalle, las correlaciones entre los términos de pregunta se basan solamente en la frecuencia de ocurrencia dentro de la misma pregunta. Como se describe abajo, otos tipos de correlaciones de términos de preguntas pueden ser usadas adicionalmente. Además, aunque la forma de realización revelada usa una tabla para almacenar los datos de correlación del término de pregunta, otros tipos de bases de datos se pueden usar. Como se ilustra en la Figura 1, cada entrada dentro de la tabla de correlación 137 (dos entradas mostradas) tiene dos componentes primarios: un término de _£_h^a£^_^_^_^^^_^^??UM_&ta_aa^^_ta^aaa¿a^__^^aarf^u^^M^^^^_^^^_^a^^^teMa^_^^_M^^^^^^^^^^^^^^^f^ "clave" 140, y una lista 142 de "términos relacionados, para ese término de clave. La lista 142 de términos relacionados es una lista de los N (por ejemplo 50) términos de pregunta que han aparecido dentro de la misma pregunta, como la palabra clave con un grado mayor de frecuencia y se ordenan de acuerdo con la frecuencia. Por ejemplo, la entrada para el término clave COSMOS (ignorando los prefijos de un solo término, que se discuten abajo) es: COSMOS: ASTRONOMÍA, LEYENDA, UNIVERSO,... que indica que ASTRONOMÍA ha aparecido junto con COSMOS con el grado mayor de frecuencia; LEYENDA ha aparecido con COSMOS con el segundo grado más alto de frecuencia, etc. cada término que aparece dentro de la lista 142 de términos relacionados se considera relacionado al término clave correspondiente 140, en virtud de la frecuencia relativamente alta, con la cual los términos han ocurrido dentro de la misma pregunta. Como se ilustra además en la Figura 1, cada término relacionado y cada término clave 140 incluye preferiblemente un prefijo de campo de un solo carácter, que indica el campo de búsqueda 210, 220, 240, al cual el término corresponde. Estos prefijos pueden, por ejemplo, ser como sigue: A = autor, T = título, S = sujeto, R = artista, L = etiqueta, G = genérico. Además, cada término relacionado se almacenan juntos con una clasificación 146 de correlación, que, en la modalidad preferida, indica el número de veces que el término relacionado ha aparecido en combinación con el término clave (dentro de los campos de búsqueda indicados por sus prefijos de campo respectivos) , 5 no contando preguntas que produjeron un resultado NULO de la misma . Así, por ejemplo, el término relacionado (que incluye el prefijo) S-ASTRONOMÍA, tiene una clasificación de correlación de 410 bajo el término clave:; de T-COSMOS, que indica que cuatrocientos diez preguntas "exitosas" se recibieron (durante el período de tiempo al cual corresponde la tabla 137) que incluye la combinación de COSMOS en el campo del título y ASTRONOMÍA en el campo de materia. Aunque los prefijos del campo y las clasificaciones 146 de correlación lleven información que es útil al proceso de selección de los términos relacionados (como se describe abajo), tal información no necesita ser preservada. En operación, cuando un usuario envía una pregunta al sitio 130 de web, el servidor 131 de we;b pasa la pregunta al servidor 132 de pregunta y este servidor de pregunta aplica la pregunta a la base de datos bibliográfica 133. Si el número de artículos encontrados excede cierto umbral (por ejemplo 50) , el servidor 132 de pregunta invoca su proceso de selección de términos relacionados ("proceso de selección") 139 para intentar identificar uno o más términos MÜhÜtttttf?iÉll. relacionados para sugerirlos al usuario. El proceso de selección puede alternativamente ser invocado sin considerar si una cierta cuenta de artículos se ha alcanzado. Para cada término en la pregunta, el proceso 139 5 de selección recupera la lista 142 de términos relacionada respectiva (si la hay) desde la tabla 137 de correlación y si resultan múltiples lisitas, funde juntéis estas listas. El proceso de selección 139 luego toma un número predeterminado (por ejemplo 5) de los términos relacionados desde la parte 10 superior de la lista resultante, y pasa estos "términos sugeridos" al servidor 131 de web con la lista de resultados de preguntas. Finalmente, el servidor 131 de web genera y regresa al usuario una página de resultados de preguntas (Figura 9) que presenta los términos sugeridos al usuario 15 para su selección. En una modalidad, las listas de términos se funden y retienen sólo los términos de intersección (términos que son comunes en todas las listas) y descartan todos los demás términos. Un beneficio importante de este método es que 20 cualquier término relacionado sencillo de la lista de resultados, se puede agregar a la pregunta sin producir un resultado NULO de la pregunta. Para tomar ventaja de esta característica, estos términos relacionados se presentan preferiblemente al usuario cuando un método de interfaz 25 (como en la Figura 9) que requiere que el usuario agregue MMHÜH Ato t.Í AA üJSkisc . solamente el término relacionado a la pregunta por presentación de pregunta. La operación del proceso 139 de selección del término relacionado se describe abajo en mayor detalle. 5 El proceso de búsqueda descrito, también usa probablemente las presentaciones históricas de la pregunta y las selecciones de artículos para clasificar los resultados de la pregunta para la presentación al usuario. Un método preferido de clasificar los resultados de la pregunta, basados en tales datos, se describe en la Solicitud de Patente de E.U.A:, No. 09/041,081, presentada el 10 de marzo de 1988. El proceso de búsqueda también usa preferiblemente correlaciones entre los términos de la pregunta para corregir los términos con faltas de ortografía dentro de las preguntas de búsqueda. Un método preferido para corregir errores de ortografía en las preguntas de búsqueda se describe en la Solicitud de Patente de E.U.A., No.09/115, 662, intitulada "Sistema y Método para Corregir Errores de Ortografía en Preguntas de Búsqueda", presentada el 15 de junio de 1998.
II . Captura y Proceso de Información de Preguntas Como se indicó antes, los datos de correlación del término de pregunta se genera preferiblemente del registro 135 de preguntas, cuando el proceso de generación de tabla ("proceso de generación") 136. En la modalidad preferida, el aHá^a^iÜIH^Mi^ proceso 136 de generación de tabla es realizado como un proceso fuera de línea, que opera una ve;z al día y genera una nueva taba 137 de correlación de preguntas. El proceso genera efectivamente la tabla desde los M archivos de registro de preguntas diario más reciente, 135 (1) -135 (M) . Usando una M relativamente pequeña (por ejemplo 5) se tiende a producir datos de correlación del término de la pregunta, pero refleja grandemente tendencias de compra de término corto (por ejemplo, nuevas publicaciones, libros mejor vendidos semanalmente, etc.) mientras usando una M grande (por ejemplo 100) , se tiende a producir una base de datos más completa. Un acercamiento híbrido puede ser usado alternativamente, en que la tabla es generada de un gran número de archivos de registro, pero en la cual los archivos de registro más recientes se les da mayor peso. Por ejemplo, las preguntas presentadas durante una semana a un mes anterior pueden contarse sólo una vez. Además, en lugar de usar M días consecutivos de presentaciones de preguntas, el proceso 136 de generación puede usar muestras de presentaciones de preguntas de múltiples períodos de tiempo diferentes . En la modalidad preferida, la construcción de la tabla 137 de correlación de preguntas consiste de dos fases primarias: (1) generar archivos de registro diario y (2) analizar periódicamente y procesar estos archivos de registro para generar la tabla 137 de correlación de preguntas. Además de generar nuevos datos de correlación de términos de preguntas, cada información de registro de tiempo llega a estar disponible, el proceso de generación 5 136 genera preferiblemente y mantiene separados los daos de correlación de términos de preguntas para diferentes períodos de tiempo constituyentes de longitud relativamente corta. En la modalidad preferida, el período del tiempo constituyente es un día tal que los datos de correlación de términos de preguntas para un solo día se almacene en un archivo de resultados diarios. Cada vez que los datos de correlación de términos de preguntas se generan por un período de tiempo constituyente nuevo, el proceso 136 de generación combina preferiblemente estos nuevos datos con los datos existentes de los períodos de tiempo constituyentes anteriores, para formar una tabla de correlación de preguntas colectiva con información que cubre un período de tiempo compuesto más largo. Este proceso es ilustrado en la Figura 6 y se describe además abajo. 20 Cualquier variedad de métodos alternativos se pueden usar para generar la tabla 137 de correlación. Por ejemplo, el proceso de generación 136 puede alternativamente ser realizado para actualizar la tabla de correlación de preguntas en un tiempo real, aumentando la tabla cada vez que un usuario presenta una pregunta exitosa. Además, el ^¿^^^a»a proceso 136 de la generación de tabla y/o el proceso 139 de la selección puede tomar en consideración otros tipos de correlaciones entre los términos de preguntas, que incluyen las correlaciones extrínsecas o "estáticas", que no son 5 dependientes de las acciones de los usuarios.
A. Generación de Archivos de Registros de Preguntas Diariamente Un servidor de la web mantiene un archivo de registro que detalla todas las solicitudes recibidas de 10 revisiones rápidas de la web. El archivo de registro se organiza generalmente de manera cronológica y se compone de varias entradas, cada una contiene información acerca de una solicitud diferente. De acuerdo con la invención, cada vez que un usuario ejecuta una búsqueda, el servidor 131 de web genera archivos de registro de preguntas diariamente, 135(1)- 135 (M) , que contienen cada uno las entradas de registro para un día respectivo. La Figura 3 ilustra cuatro entradas de registro de un archivo 135 de registro de preguntas diariamente de muestra. Cada entrada en el archivo 135 de registro incluye información acerca de una transacción particular de http (Hypertext Transfer Protocol) (Protocolo de Transferencia de Hipertexto) . La primera entrada 10 de registro contiene datos e información del tiempo para cuando el usuario envíe una pregunta, el identificador del usuario, tát? titm éám ^¡^ á ?^^?t^ que corresponde a la identidad del usuario (y, en algunas modalidades, la identificación de la interacción particular con el servidor de la web) , el nombre de la página de web donde la pregunta entró, los términos de la pregunta entrados por el usuario y el número de artículos encontrados para la pregunta. Los valores de "artículos encontrados" en el registro indican preferiblemente el número de artículos que coinciden exactamente en la pregunta. Por ejemplo, la entrada 310 indica que a las 2:23 AM el 13 de febrero de 1998, el usuario 29384719287 envió la pregunta {título = Derrumbe de Nieve} de la página de búsqueda de libro y dos artículos se; encontraron que coincidían exactamente con la pregunta. La entrada 320 indica que el mismo usuario seleccionó un artículo que tiene un ISBN de 0553562614 acerca de veinte segundos más tarde, y que esta selección se hizo de la página de resultados de búsqueda (como es evidente de la línea HTTP_REFERRER) . Otros tipos de acciones del usuario, tal como una solicitud para reemplaza un artículo en un carro de compras o comprar un artículo, se reflejan similarmente dentro del registro 135 de preguntas. Como se indicó por el ejemplo anterior, una trayectoria de navegación del usuario dada puede ser determinada comparando las entradas dentro del registro de preguntas 135. - • ' * • 3jaafc- B. Generación de Tabla de Correlación La Figura 4 muestra el método preferido para generar la tabla 137 de correlación. En la etapa 410, el proceso 136 de generación a través del archivo de registro 5 de preguntas diario, más reciente, para identificar todas las preguntas de múltiples términos (es descir, las preguntas comprendidas de más de un término) que regresan al menos un artículo ( "artículos_encontrados > 0) en el resultado de preguntas. EN la etapa 420, el proceso 136 de generación correlaciona cada término ("clave") de pregunta en el conjunto de preguntas a los términos relacionados que se usan con el término clave en una pregunta particular, y signa el término relacionado a una clasificación 146 de correlación. La clasificación de correlación indica la frecuencia con la cual los términos específicos aparecen históricamente juntos dentro de la misma pregunta, durante el período reflejado por el registro de preguntas diario. En la etapa 430, el proceso 136 de generación almacena los archivos de los resultados diarios para los últimos M días. 20 Finalmente, en la etapa 450, el proceso de generación 136 crea una nueva tabla de correlación 137 y reemplaza la tabla de correlación de preguntas existente. En la modalidad preferida, el proceso 136 de generación se ejecuta una vez por día a media noche, justo después que se cerró el registro de precjuntas diarias más reciente. Además, se supone que los M-l registros de preguntas diarias más recientes se han procesado ya por las etapas 410-430 del proceso, para generar los archivos de los resultados diarios respectivos. Cada una de las etapas 410-450 del proceso de la Figura 4 serán ahora descritas en mayor detalle.
Etapa 1 : Proceso del archivo de registro diario de preguntas Como se indicó anteriormente, el proceso 136 de generación analiza el archivo de registro de preguntas diario en la etapa 410, para identificar y extraer preguntas de múltiples términos exitosas. Ignorando las presentaciones de preguntas que producen resultados NULOS de las mismas (artículos_encontrados = 0) , se suministran beneficios importantes de (1) prevenir los términos de no correspondencia de ser agregados a la tabla de correlación -o como palabras clave o como términos relacionados - y (2) excluir las correlaciones potencialmente "débiles" entre los términos correspondientes de la consideración. Además, como se describe abajo, excluyendo cada presentación de pregunta "no exitosa", se hace posible que el proceso 139 de selección de los términos de preguntas sea realizado tal como para garantizar que la pregunta modificada produzca un resultado de pregunta exitosa (es decir, un resultado de pregunta en el cual la cuenta del artículo sea mayor de cero) . Usando la secuencia de registro de la Figura 3 como un ejemplo, el proceso 136 de generación analizará el archivo 135 de registro de la pregunta diario de la muestra, comenzando con la entrada de registro 310. El proceso 136 de generación extraerá la pregunta para la primera entrada de registro 310, debido a que esta pregunta contiene más de un término de pregunta y los "artículos_encontrados" son mayores de cero. En seguida, el proceso 136 de generación ignorará la entrada 320 debido a que no contiene términos de pregunta. El proceso de generación 136 luego ignorará la entrada 330, debido a que aunque hay múltiples términos de la pregunta, el número de artículos encontrados no es mayor de cero. El proceso de generación 136 en seguida extraerá la entrada 340 de registro y continuará a través del archivo 135 de registro de preguntas diario. En algunas modalidades, otra información, tal como un campo de preguntas o las acciones subsecuentes realizadas por el usuario pueden ser usadas para determinar cuáles presentaciones de preguntas extraer o cómo deben valorarse las preguntas en forma aproximada. Además, otros métodos pueden ser usados para extraer la información del registro de preguntas. üüriliÉÉüIta riUtíáli^^Mtita Etapa 2 : Términos de Correlación De acuerdo con la invención, el proceso de generación 136 primero toma cada pregunta extraída, y por cada término de pregunta, agrega un prefijo de campo de carácter sencillo ("prefijo"), que indica que el ampo de búsqueda en el cual el término de pregunta entra. Así, por ejemplo, usando los prefijos listados anteriormente, el prefijo "T" será agregado a los términos de "NIEVE" y "DERRUMBE" en la entrada 310 de registro y el prefijo "S" será agregado a los términos de "AL AIRE LIBRE" y "PISTA" en la entrada de registro 340. Durante este proceso, a los términos idénticos que se presentan en diferentes campos de búsqueda se asignan diferentes prefijos y se tratan como términos diferentes. Por ejemplo, el término de "NIEVE" con el prefijo "T", será tratado como diferente de "NIEVE" con el prefijo "S". En la realización aquí descrita, el término clave y los términos relacionados se almacenan sin considerar el caso alfabético, aunque la información del caso puede ser preservada alternativamente. El proceso de la generación 136 luego forma el mapa de cada término de pregunta ("clave") encontrado en la pregunta y su prefijo a otros téirminos ("términos relacionados") usados con esa pregunta particular. Una clasificación de correlación se mantiene para cada término relacionado en la topografía basada en el número de veces que el término relacionado ocurrió en combinación con el término clave. Los valores finales de las clasificaciones de correlación tomadas sobre M días se almacenan dentro de la tabla de correlación 137 de preguntas, como las clasificaciones 146 de correlación ilustíadas en la Figura 1. Por ejemplo, si un usuario envía la pregunta "GUÍA ABRUPTA A LONDRES", en el campo 220 del título, los términos serán primero acoplados con el prefijo "T" . Las clasificaciones de correlación en la topografía a "T-GUIA", "T-A" y "T-LONDRES", con relación a la clave "T-ABRUPTA", serán incrementados. Similarmente, la clasificación de correlación a los términos relacionados bajo las claves "T-GUÍA", "T-A" Y "T-LONDRES", también serán incrementadas. La Figura 5A ilustra un ejemplo de topografía. En este figura, se supone que el proceso de generación 138 se ha procesado ya muchas miles de entradas de registro. Para cada término de clave 140 almacenado en la tabla 137A, hay una lista de términos relacionada 142, de modo que cada término relacionado en la lista se acople con un prefijo y un valor 146, que representa la clasificación de correlación. Cada vez que el término clave 140 y el término relacionado 142 se usen juntos en una pregunta, el valor del término relacionado 146 será incrementado.
Supongamos que el proceso 136 de generación de tabla analice una pregunta "PISTA DE BICICLETA AL AIRE LIBRE", enviado en el campo presente. La Figura 5A muestra la topografía antes de agregar la pregunta. En respuesta a la pregunta, el proceso 136 de generación actualiza la topografía 137A, que produce la topografía 137B mostrada en la Figura 5B. El proceso de generación 136 primero analiza el término clave "S-AL AIRE LIBRE" 560 y luego señala los términos relacionados "S-BICICLETA" 580 y "S-PISTA" 590. Si se encuentra el término relacionado, su valor es incrementado. Si no se encuentra el término relacionado, el proceso 136 de generación agrega el término relacionado y asigna un valor de inicio. En el ejemplo mostrado en la Figura 5B, los valores para ambos "S-BICICLETA" 580 Y "S-PISTA EN" 590 se han incrementado por uno. Nótese que bajo el término clave de "T-AIRE LIBRE", el valor para el término "S-AIRE LIBRE" se incrementó, mientras el valor párale término "T-ARRASTRE" no se incremento. Esto es debido a que la pregunta fue enviada al campo del sujeto, afectando así sólo los términos con el prefijo "S" . En algunas modalidades, ciertos términos clave pueden ser excluidos de la topografía, cuando ellos se usan frecuentemente, y no lo hacen en el proceso de refinación de búsqueda. Por ejemplo, los artículos comunes, tal como "EL, LA, LOS, LAS", "UN, UNA, UNO, UNOS, UNAS", "HACIA" y "DE", pueden ser excluidos de la topografía. Mientras sólo tres entradas parciales se ilustran en la Figura 5A, muchos miles de entradas serán almacenadas en un archivo de resultados diarios típico. En la realización preferida, la topografía para un archivo de registro de preguntas diario se almacena en una estructura de datos del árbol B. En otras modalidades, una lista enlazada, base de datos u otro tipo de estructura de datos puede ser usada en lugar del árbol B. Además, la cantidad por la cual las clasifícaciones de correlación se aumentan puede ser aumentada o disminuida dependiendo de las clases diferentes de acciones de selección ejecutadas por los usuarios en los artículos identificados en los resultados de las preguntas. Estas pueden incluir si el usuario exhibió información adicional acerca de un artículo, cuánto tiempo gastó el usuario en ver la información adicional acerca del artículo, cuántos hiperenlaces el usuario siguió dentro de la información adicional acerca del artículo, si el usuario agregó el artículo a su canasta de compras y si el usuario finalmente compró el artículo. Por ejemplo, una presentación de preguntas dada puede contar el doble (tal como aumentando la clasificación de correlación por dos) si el usuario seleccionó subsecuentemente un artículo de la página de resultados de preguntas, y contó una tercera vez si el usuario luego compró el articulo o agregó el artículo a su canasta de compras. Éstos y otros tipos de actividades después de la búsqueda reflejan la utilidad del resultado de las preguntas y se pueden extraer del registro de preguntas 135, usando métodos de rastreo bien conocidos.
Etapa 3 : Crear el Archivo de Resultados Diarios Una vez que se completa la topografía, toas las entradas en el archivo de registro de preguntas diario, el proceso de generación 136 crea un archivo de resultados diario (etapa 430), para almacenar el .árbol B. En otras modalidades, el archivo de resultados diario puede ser generado en una etapa anterior del proceso y puede ser actualizado incrementalmente conforme ocurre el análisis.
Etapa 4 : Fusión de Archivos de Resultados Diarios En la etapa 440, el proceso de generación 136 genera la tabla de correlación 137 de preguntas, por un período compuesto por combinar las entradas de los archivos de resultados diarios por la longitud del período compuesto. Como se ilustra en la Figura 6, el proceso 136 de generación de la tabla regenera la tabla 137 de correlación de preguntas, en una base diaria, desde los M archivos de resultados diarios más recientes, donde M es un número fijo tal como 10 ó 20. Cada día, el archivo de resultados diario, creado en la etapa 130, se funde con al menos M-l archivos de resultados diarios, para producir la tabla de correlación de preguntas 137. Por ejemplo, en la Figura 6, supongamos que el proceso de generación 136 genera un archivo de resultados diario para el 7 de febrero de 1980, de 610, y se ajusta para generar una nueva tabla de correlación de preguntas para el período de los últimos siete días (M = 7) . Al final del 7 de febrero de 1998, el proceso 136 de generación fundirá los archivos de resultados diarios desde los pasados siete días para el período compuesto del 1 de febrero de 1998 al 7 de febrero de 1998, para formar una nueva tabla de correlación de preguntas, 137A. Al final del 8 de febrero de 1998, el proceso de generación 136 generará un archivo de resultados diario para el 8 de febrero de 1998 de 630 y luego fundirá los archivos de los resultados diarios desde los pasados siete días para el período compuesto del 2 de febrero de 1998 al 8 de febrero de 1998, para formar una nueva tabla de correlación de preguntas 137B. Cuando se funden las entradas, las clasificaciones de las entradas correspondientes se combinan, por ejemplo, sumándolas. En una modalidad, las clasificaciones en los archivos de los resultados diarios más recientes son medidos más densamente que esas clasificaciones en los archivos de resultados diarios menos recientes, así que los datos de correlación del término de la pregunta más densamente, refleja las presentaciones de preguntas recientes sobre las presentaciones de las preguntas antiguas. Esta acercamiento de "ventana de deslizamiento" produce ventajosamente una tabla de correlación de preguntas que se basa solamente en las presentaciones de preguntas recientes, y que sí reflejan las preferencias actuales de los usuarios . Por ejemplo, si un gran número de usuarios han buscado el libro Into Thin Air por Jon Krakauer en la pasada semana, las correlaciones entre los términos "T-INTO", "T-THIN", "T-AIR", y "A-KRAKAUER", probablemente serán altas correspondientemente; una pregunta que consiste de un subconjunto de estos términos tenderá así a producir una lista de términos relacionados que incluye los otros términos.
Etapa 5 : Reemplazar la Tabla de Correlación de Preguntas Antigua Con la Nueva Tabla de Correlación de Preguntas En la etapa 450, una vez que los archivos de resultados diarios se han fundido, el proceso 136 de generación clasifica las listas de términos relacionada desde la clasificación mayor a menor. El proceso 136 de generación luego trunca la lista de términos relacionada a una longitud fija N (por ejemplo 50) y almacena la tabla de correlación de preguntas en un árbol B para la tabla de consulta eficiente. La nueva tabla 137 de correlación de preguntas es luego colocada en una memoria caché en la RAM (memoria de acceso aleatorio) en lugar de la tabla de correlación de preguntas existentes.
III. Uso de la Tabla para Generar Términos Relacionados Como se indicó antes, el servidor 132 de preguntas usa la tabla 137 de correlación de preguntas para seleccionar términos relacionados que se van a sugerir al usuario. Más específicamente, cuando un usuario ejecuta una búsqueda que identifica más de un número de artículos predeterminado, el proceso de selección del término relacionado ("proceso de selección") 139 regresa un resultado de preguntas que lista artículos que coinciden con la pregunta, junto con un conjunto de términos relacionados, generados de la tabla de correlación de preguntas. Un beneficio importante de este método es que es altamente eficiente, permitiendo que la página de resultados de preguntas sea regresada sin agregar un retardo apreciable. Además, el retardo pequeño agregado por el proceso de selección de términos relacionados puede ser completamente evitado por generar opcionalmente los términos relacionados concurrentemente con la búsqueda de la base de datos bibliográfica 133, (más bien que esperar para ver si se alcanza la cuenta umbral de artículos) . La Figura 7 ilustra la secuencia de etapas realizadas por el proceso de selección 139. Este proceso de selección 139 primero entra en un lazo (etapas 710-740) en que el proceso de selección 139 busca un término de pregunta en la tabla de correlación y luego recupera la lista 142 de términos relacionada. Esto continúa para cada término en la pregunta. En seguida, si la preguntei tiene múltiples términos, en la etapa 760, el proceso de selección 139 combina las listas de términos relacionados. Las listas son combinadas preferiblemente tomando la intersección de las listas de términos relacionados (es decir, omitiendo términos que no aparezcan en todas las listas) y sumando las clasificaciones de correlación de los términos restantes. En este punto, cada término que permanece en la lista es un término que apareció en al menos una pregunta exitosa anterior, en combinación con cada término de la presente pregunta. Así, suponiendo entradas que no se han omitido de la base de datos bibliográfica 133, desde el inicio del período de tiempo compuesto (el período al cual se aplica la tabla 137) , cualquiera de estos términos se puede agregar individualmente a la presente pregunta, sin producir un resultado NULO de pregunta. En otra modalidad, el proceso 139 de selección combina las listas de términos relacionados sumando las clasificaciones de correlación de los términos comunes a otras listas de términos relacionadas, sin omitir algún término. Otra realización puede dar clasificaciones medidas para los términos de intersección, tal como los términos que aparecen en más de una lista de términos relacionada o pesado más que esos términos que aparecen sólo en una lista de términos relacionada. En la etapa 770, el proceso 139 de selección selecciona los términos X con los valore;s más altos de la lista, donde X puede ser cualquier número deseado. En una modalidad, el proceso 139 de selección escoge los términos relacionados con X sin importar los prefijos del campo de estos términos relacionados. El proceso de selección puede alternativamente ser configurado para seleccionar sólo esos términos relacionados que corresponden a los campos de búsqueda de la presente pregunta; por ejemplo, si la pregunta entró en el ampo del sujeto 240 (Figura 2), el usuario puede ser presentado sólo con otros términos del sujeto (términos relacionados con el prefijo "S"). Para preguntas de un solo término, el proceso 139 de selección recupera así los términos de X de la tabla. La Figura 8A ilustra los términos relacionados que serán generados para una pregunta de un solo término de "PISTA" en el campo del sujeto usando la topografía de la Figura 59. El proceso de selección 139 verificará el término clave de "S-PISTA" de 570, y seleccionará los términos relacionado con X con los valores X más altos. Por ejemplo, supongamos que el proceso de selección 139 se configura para sugerir tres términos relacionados (X = 3), que corresponden a los campos de búsqueda de la presente pregunta. El proceso 139 de selección luego verificará el término de "S-PISTA" 570 y exhibirá los tres términos relacionados con los tres valores superiores 810 y con el mismo prefijo como el término clave, como se ilustra en la Figura 8A. Para preguntas de múltiples términos, el proceso 139 de selección obtiene las listas de términos relacionados 142 para cada uno de los términos de preguntas y luego hace la intersección de estas litas. La Figura 8B ilustra los resultados de los términos relacionados paira una pregunta de términos múltiples el campo del sujeto de "PISTA AL AIRE LIBRE" usando la topografía de la Figura 5B. El proceso 139 de selección verificará los términos clave de "S-AIRE LIBRE" 560 y "S-PISTA" 570 y verá si ellos tienen cualquier término relacionado en común. En la topografía, los términos relacionados "S-BICICLETA" , "S-DEPORTES" y "S-VACACIÓN" , se encuentran bajo los términos de "S-AIRE LIBRE" 560 y "S-PISTA", 570; así, S-BICICLETA" , "S-DEPORTES" y "S-VACACIÓN" se encuentran bajo los términos clave de "S-AIRE LIBRE", 560, y "S-PISTA", 570; Así "S-BICICLETA" , "S-DEPORTES", Y "S-VACACIÓN", son los términos de intersección 820, como se ilustra en la Figura 8B. El proceso de selección 139 luego exhibirá los términos de intersección de X con el mismo prefijo y las clasificaciones de correlación sumadas más altas de X. Si hay menos términos relacionados de intersección de X, el proceso de selección 139 puede mostrar términos de intersección con cualquier prefijo o usar otros criterios para generar los términos relacionados restantes. Por ejemplo, el proceso 139 debe tomar los términos Y superiores con las clasificaciones de correlación sumadas más altas desde los términos relacionados que no se intersectan, aunque sugieren que tales términos pueden producir un resultado NULO de la pregunta. Como se indicó antes, el método puede alternativamente ser realizado sin preservar o tomar en cuenta la información del campo de búsqueda. Además el método puede ser combinado apropiadamente con otras técnicas para generar términos relacionados, que incluyen técnicas que usan los contenidos de los resultados de la pregunta.
IV. Presentación de los Términos de Preguntas Relacionadas al Usuario Existe un número de diferentes maneras de presentar los términos relacionados al usuario, que incluyen los métodos convencionales (comprobación de cuadros y menús aplicados) descritos antes. EN las realizaciones que sugieren sólo los términos relacionados de intersección, una interfaz que requiere que el usuario no agregue más de un término relacionado por presentación de pregunta se usa preferiblemente, así que la pregunta modificada producirá un resultado NULO de la pregunta.
En la modalidad preferida, los términos relacionados se presentan a través de enlaces hipertextuales que combinan tanto los términos de preguntas originales como los términos relacionados respectivos. Por ejemplo, si el usuario entre la pregunta "ESCARPADO" en el campo del sujeto, tres hiperenlaces adicionales se exhiben en la página del resultado de la pregunta, cada uno de los cuales genera una búsqueda modificada cuando se hace "clic" (oprime el ratón) por el usuario. Cada uno de esos enlaces se forma combinando la pregunta del usuario con un término relacionado (por ejemplo los tres hiperenlaces deben ser "ESCARPADO - GUÍA", "ESCARPADO-LONDRES" y "ESCARPADO -TERRENO" ) . Cuando el usuario hace "clic" en uno de estos enlaces, la pregunta modificada correspondiente será enviada al proceso de búsqueda. El método hace ctsí posible que el usuario seleccione y envíe la pregunta modificada con una simple acción (por ejemplo, un clic del ratón) . Como un beneficio inherente del método antes descrito de generar los términos relacionados, cada enlace produce al menos un "punto idéntico" . La Figura 9 ilustra una página 900 del resultado de la pregunta muestra en la cual un usuario ha ejecutado una búsqueda del campo del sujeto en los términos de "PISTA AL AIRE LIBRE", y ha recibido un conjunto de los tres términos relacionados, cada uno de los cuales se incorpora en un hiper-enlace respectivo 910. La página también contendrá típicamente una lista de los artículos 920 del resultado de las preguntas. SI el usuario hace clic en el hiper-enlace "PISTA AL AIRE LIBRE - BICICLETA", el proceso de búsqueda ejecutará una búsqueda usando los términos "S-AIRE LIBE", S-PISTA", y S-BICICLETA" , y luego regresará los artículos asociados. La página 900 de resultados de la pregunta puede también tener campos de búsqueda (no mostrados) para permitir que el usuario edite la pregunta. Cualquier variedad de técnicas adicionales puede ser usada en combinación con la interfaz basada en el hiperenlace. Por ejemplo, en una modalidad, el servidor 132 de peguntas selecciona automáticamente el término relacionado en la parte superior de la lista de términos relacionados (tal como el término "bicicleta" en el ejemplo de la Figura 9) . y busca el resultado de la pregunta para identificar un subconjunto de artículos de resultados de la pregunta que incluyen este término relacionado. El servidor 132 de preguntas, así aplica efectivamente la pregunta modificada sugerida "superior" a la base de datos 133 bibliográfica. Ese proceso se puede repetir usando términos relacionados adicionales en la lista. Los artículos dentro del subconjunto pueden luego ser exhibidor al usuario en la parte superior de la lista de resultados de las preguntas, y/o pueden ser exhibidos en forma destacada. Además, el servidor 132 de preguntas puede poner en una memoria caché la lista de los artículos que caen dentro del subconjunto, así que si el usuario envía la pregunta modificada (tal como por el clic en el enlace "BICICLETA AL AIRE LIBRE - PISTA" en la Figura 9=, el servidor de preguntas puede regresar el resultado de la búsqueda modificada sin buscar la base de datos bibliográfica. Etiquetas o códigos especiales pueden ser incrustados dentro de los hiperenlaces de preguntas modificadas y pasar al sitio de web (red) 130 para habilitar que el servidor 132 de preguntas coincida con las preguntas modificadas en los resultados de la memoria caché. Aunque esta invención se ha descrito en términos de ciertas modalidades preferidas, otras modalidades que son evidentes a los expertos ordinarios en la materia, también se encuentran dentro del alcance de la invención. Por lo tanto, el alance de la presente invención se define solamente con referencia a las reivindicaciones anexas. En las reivindicaciones que siguen, los caracteres de referencia usados para dentar las etapas del proceso son provistas por conveniencia de descripción únicamente, y no implican seguir algún orden particular del desempeño de las etapas .

Claims (36)

  1. REIVINDICACIONES 1. En un sistema de computadora, que realiza un proceso de búsqueda, el cual es accesible a una comunidad de usuarios, un método de asistir a los usuarios en refinar las preguntas de búsqueda para aumentar el hallazgo, este método comprende las etapas, realizadas en la computadora, de: (a) procesar las preguntas de búsqueda, presentadas al proceso de búsqueda por una pluralidad de usuarios sobre un período de tiempo, para generar datos de correlación de los términos de la pregunta, estos datos de correlación de los términos de la pregunta reflejan las frecuencias con las cuales los términos de la pregunta aparecen juntos dentro de la misma pregunta de búsqueda; (b) recibir una pregunta de búsqueda desde un usuario, esta pregunta de búsqueda incluye cuando menos un término de la pregunta; (c) usar cuando menos los datos de correlación de los términos de la pregunta, parei identificar la pluralidad de términos adicionales de la pregunta, que se consideran están relacionados con al menos un término de la pregunta; y (d) presentar la pluralidad de términos adicionales de la pregunta al usuario para la selección, y permitir que el usuario refine la pregunta de búsqueda.
  2. 2. El método de la reivindicación 1, en que la etapa (a) comprende generar una estructura de datos, la cual enlaza los términos clave a los términos relacionados, con base en las correlaciones entre las ocurrencias de los términos dentro de las presentaciones históricas de la pregunta, y la etapa (c) comprende el acceso de la estructura de datos para verificar los términos relacionados .
  3. 3. El método de la reivindicación 1, en que la pregunta de búsqueda incluye múltiples términos de preguntas, y la etapa (c) comprende las sub-etapas de: (cl) para cada uno de los múltiples términos de la pregunta, identificar un conjunto de términos que han ocurrido previamente, en combinación con los términos de pregunta respectivos dentro de una pregunta exitosa; y (c2) seleccionar, como los términos adicionales, un conjunto de términos que son comunes a todos los conjuntos, identificados en la etapa (cl) .
  4. 4. El método de la reivindicación 3, en que la etapa (d) comprende presentar los términos adicionales por medio de una interfaz del usuario, la cual inhibe que el usuario seleccione más de un término adicional, este método garantiza así que una pregunta modificada, producida agregando un término adicional, no produzca un resultado NULO de esta pregunta.
  5. 5. El método de la reivindicación 4, en que la etapa (d) comprende presentar al usuario con una pluralidad de hiperenlaces, que se pueden seleccionar para enviar una pregunta modificada, cada hiper-enlace agrega un diferente término adicional respectivo a la pregunta.
  6. 6. El método de la reivindicación 1, en que la etapa (a) comprende el proceso de un registro, que incluye las preguntas de búsqueda presentadas al proceso de búsqueda .
  7. 7. El método de la reivindicación 6, en que la etapa de procesar el registro comprende ignorar las preguntas de búsqueda que produjeron un resultado NULO de la pregunta.
  8. 8. El método de la reivindicación 6, en que la etapa de procesar el registro comprende aplicar una función de orientación basada en el tiempo al registro, para favorecer las presentaciones de preguntas de búsqueda recientes sobre las presentaciones de preguntas de búsqueda antiguas, de modo que los datos de correlación del término de la pregunta y las preferencias actuales reflejen los términos adicionales de la mayoría de la comunidad de los usuarios .
  9. 9. El método de la reivindicación 1, en que la etapa (a) comprende actualizar los datos de correlación de los términos de la pregunta substancialmente en un tiempo real, conforme las preguntas de búsqueda son recibidas por el proceso de búsqueda .
  10. 10. El método de la reivindicación 1, en que la etapa (d) comprende presentar al usuario con una pluralidad de hiperenlaces, cada hiper-enlace se puede seleccionar para presentar una pregunta de búsqueda refinada, la cual incluye un término de pregunta adicional respectivo, este método hace posible así que el usuario inicie una búsqueda refinada con una acción sencilla.
  11. 11. El método de la reivindicación 1, en que la etapa (a) además comprende evaluar las acciones de los usuarios, después de la presentación de la pregunta, para identificar las preguntas de búsqueda que se consideran han producido resultados útiles, y clasificar las preguntas de búsqueda que producen resultados útiles en forma más valiosa en la generación de los datos de correlación.
  12. 12. El método de la reivindicación 1, en que la etapa (c) se realiza en paralelo con la e;tapa de aplicar la pregunta a una base de datos que se va a buscar.
  13. 13. El método de la reivindicación 1, que además comprende usar al menos uno de los términos adicionales para seleccionar los artículos resultantes de la pregunta, para exhibirlos en la parte superior de la lista de resultados de la pregunta.
  14. 14. En un sistema de computadora, que realiza un proceso de búsqueda, en el cual se sugieren términos relacionados a los usuarios, para facilitar el refinamiento interactivo de las preguntas de búsqueda, un sistema para generar términos relacionados, el cual comprende: un primer proceso, el cual genera una estructura de datos, que enlaza los términos clave a los términos relacionados, con base; en al menos las correlaciones entre las ocurrencias de los términos dentro de las presentaciones históricas de las preguntas; y un segundo proceso, el cual usa la estructura de datos, en combinación con una pregunta de búsqueda presentada por un. usuario, para seleccionar términos relacionados que se sugieren al usuario.
  15. 15. El sistema de la reivindicación 14, en que el primer proceso determina las correlaciones entre las ocurrencias de los términos por al menos el análisis de un registro, que incluye las presentaciones históricas de las preguntas .
  16. 16. El sistema de la reivindicación 14, en que el primer proceso genera y actualiza la estructura de datos substancialmente en un tiempo real, conforme las preguntas de búsqueda son recibidas por el proceso de búsqueda.
  17. 17. El sistema de la reivindicación 14, en que el primer proceso regenera la estructura de datos periódicamente desde un registro de presentaciones de preguntas recientes, de modo que los términos relacionados sugeridos al usuario reflejen las preferencias actuales de los usuarios.
  18. 18. El sistema de la reivindicación 14, en que el primer proceso determina las correlaciones por al menos contando el número de veces que los términos han ocurrido dentro de la misma pregunta.
  19. 19. El sistema de la reivindicación 14, en que el primer proceso ignora las presentaciones de preguntas que produjeron resultados NULOS de las preguntas, así que la estructura de datos refleje solamente las presentaciones exitosas de las preguntas.
  20. 20. El sistema de la reivindicación 19, en que el segundo proceso procesa una pregunta de búsqueda de múltiples términos, por al menos: (a) para cada término en la pregunta de búsqueda, usando la estructura de datos para identificar un conjunto respectivo de términos que se presentaron previamente al proceso de búsqueda, en combinación con el término en una pregunta de búsqueda exitosa; y (b) seleccionar un conjunto de términos relacionados, de modo que cada término relacionado sea común a cada conjunto identificado en la etapa (a) .
  21. 21. El sistema de la reivindicación 20, que además comprende un proceso de interfaz del usuario, el cual presente el conjunto de términos relacionados al usuario, para la selección, de modo que no más de un término relacionado se pueda agregar a la pregunta de búsqueda por presentación de pregunta, el segundo proceso asegura así que una pregunta modificada, producida agregando un término relacionado no produzca un resultado NULO de la pregunta.
  22. 22. En un sistema de computadora, que realiza un proceso de búsqueda, el cual es accesible a una comunidad de usuarios, un método de asistir a los usua.rios en refinar las preguntas de búsqueda, para aumentar el hallazgo, este método comprende : (a) recibir una pregunta de búsqueda desde un usuario, este pregunta de búsqueda incluye al menos un término de la pregunta; (b) usar al menos los datos históricos de la pregunta de búsqueda, para identificar una pluralidad de términos adicionales de la pregunta, que se consideran estarán relacionados con al menos un término de la pregunta, los datos históricos de la pregunta de búsqueda basados en las preguntas de búsqueda presentadas previamente; y (c) presentar la pluralidad de términos adicionales de la pregunta al usuario, para seleccionar y permitir que el usuario refine la pregunta de búsqueda.
  23. 23. El método de la reivindicación 22, en que la pregunta de búsqueda incluye múltiples términos de la pregunta, y la etapa (b) comprende las sub-etapas de: (b2) para cada uno de los múltiples términos de la pregunta, identificar un conjunto de términos que han ocurrido previamente, en combinación con el término de pregunta respectivo dentro de una pregunta exitosa; y (b2) seleccionar, como términos adicionales de la pregunta, un conjunto de términos que son comunes a todos los conjuntos, identificados en la etapa (bl) .
  24. 24. El método de la reivindicación 23, en que la etapa (b) comprende usar un método de interfaz del usuario, el cual inhibe que el usuario seleccione más de un término adicional, este método además garantiza que la pregunta modificada, producida agregando un término adicional, no produzca un resultado .NULO de la pregunta.
  25. 25. En un proceso de búsqueda, que sugiere términos relacionados a los usuarios, para facilitar el refinamiento de la búsqueda, un método de generar términos relacionados, para así aumentar la probabilidad que una pregunta modificada no produzca un resultado NULO de la pregunta, este método comprende: (a) recibir una pregunta de búsqueda desde un usuario, usando la información histórica de la pregunta, para identificar un conjunto respectivo de términos, que se enviaron previamente al proceso de búsqueda, en combinación con el término, en una pregunta de búsqueda exitosa; (b) seleccionar un conjunto de términos relacionados, de modo que cada término relacionado sea común a cada conjunto identificado en la etapa (b) ; y (c) presentar el conjunto de términos relacionados al usuario para la adición a la pregunta de búsqueda.
  26. 26. El método de la reivindicación 25, en que la etapa (d) comprende presentar los términos relacionados por medio de una interfaz del usuario, que inhibe al usuario de seleccionar más de un término adicional para agregar a la pregunta.
  27. 27. El método de la reivindicación 26, en que la etapa (d) comprende presentar al usuario con una pluralidad de hiperenlaces, cada hiper-enlace se puede seleccionar para enviar una pregunta de búsqueda refinada, la cual incluye un término relacionado respectivo, este método hace posible así que el usuario inicie una búsqueda refinada con una acción sencilla .
  28. 28. El método de la reivindicación 25, en que la pregunta de búsqueda comprende múltiples términos de pregunta.
  29. 29. En un sistema de computadora, que realiza un proceso de búsqueda, el cual es accesible a una comunidad de usuarios, un método de asistir a los usuarios en refinar preguntas de búsqueda, este método comprende: recibir una pregunta de búsqueda, presentada por un usuario, esta pregunta de búsqueda comprende al menos un término; usar una historia de las preguntas de búsqueda, enviadas al proceso de búsqueda sobre un período seleccionado de tiempo, por la comunidad de usuarios, para identificar al menos un refinamiento de la pregunta de búsqueda; y sugerir al menos un refinamiento al usuario.
  30. 30. El método de la reivindicación 29, en que la identificación de al menos un refinamiento comprende usar la historia de preguntas de búsqueda, para identificar un término adicional, que ha aparecido en combinación con cada término de la pregunta presentado por el usuario relativamente frecuente sobre el período de tiempo seleccionado.
  31. 31. El método de la reivindicación 29, en que la sugerencia de al menos un refinamiento comprende presentar una pluralidad de preguntas de búsqueda aumentadas al usuario como hiperenlaces respectivos, que se pueden seleccionar por el usuario, para iniciar las búsquedas correspondientes .
  32. 32. El método de la reivindicación 29, en que el período de tiempo se selecciona de modo ?jue a las preguntas históricas recientes de búsqueda se les da más peso que a las preguntas históricas de búsqueda antiguas, de modo que los refinamientos sugeridos tiendan a reflejar los intereses actuales de la comunidad de usuarios.
  33. 33. Un sistema para asistir a usuarios en el refinamiento de preguntas de búsqueda presentados a un proceso de búsqueda, este sistema comprende: un primer módulo de programa, que procesa registros de preguntas del proceso de búsqueda, para generar datos de correlación que reflejen las frecuencias de ocurrencias de términos de preguntas dentro de la misma pregunta; y un segundo módulo de programa, el cual usa al menos los datos de correlación, para sugerir refinamientos a las preguntas de búsqueda recibidas de los usuarios.
  34. 34. El sistema de la reivindicación 33, en que el primer módulo de programa ignora las presentaciones de preguntas que produzcan resultados NULOS de búsqueda.
  35. 35. El sistema de la reivindicación 33, en que el primer módulo del programa, el cual genera los datos de correlación periódicamente a partir del conjunto más reciente de presentaciones históricas de dichas preguntas, de modo que los refinamientos sugeridos por el segundo módulo del programa reflejen los intereses actuales de los usuarios .
  36. 36. El sistema, según la reivindicación 33, en que el segundo módulo del programa presenta refinamientos para los usuarios que usan una interfaz de usuarios, en la cual cada refinamiento sugerido se presenta como un enlace respectivo, que se puede seleccionar para iniciar una búsqueda refinada.
MXPA/A/2000/012374A 1998-06-15 2000-12-13 Sistema y metodo para refinar las preguntas de busqueda MXPA00012374A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US60/089,244 1998-06-15
US09145360 1998-09-01

Publications (1)

Publication Number Publication Date
MXPA00012374A true MXPA00012374A (es) 2002-07-25

Family

ID=

Similar Documents

Publication Publication Date Title
US6169986B1 (en) System and method for refining search queries
US6772150B1 (en) Search query refinement using related search phrases
US7840577B2 (en) Search query processing to identify related search terms and to correct misspellings of search terms
US6876997B1 (en) Method and apparatus for indentifying related searches in a database search system
US9342563B2 (en) Interface for a universal search
US7865495B1 (en) Word deletion for searches
US8478792B2 (en) Systems and methods for presenting information based on publisher-selected labels
US20050065773A1 (en) Method of search content enhancement
US10296622B1 (en) Item attribute generation using query and item data
WO2001042880A2 (en) Search query refinement using related search phrases
US8190602B1 (en) Searching a database of selected and associated resources
US8090736B1 (en) Enhancing search results using conceptual document relationships
MXPA00012374A (es) Sistema y metodo para refinar las preguntas de busqueda
SEARCHES Bowman et ai.
MXPA01000469A (es) Sistema y metodo para corregir errores de ortografia en preguntas de busqueda