MX2011006340A - Suministro de recomendaciones utilizando la informacion determinada para dominios de interés. - Google Patents

Suministro de recomendaciones utilizando la informacion determinada para dominios de interés.

Info

Publication number
MX2011006340A
MX2011006340A MX2011006340A MX2011006340A MX2011006340A MX 2011006340 A MX2011006340 A MX 2011006340A MX 2011006340 A MX2011006340 A MX 2011006340A MX 2011006340 A MX2011006340 A MX 2011006340A MX 2011006340 A MX2011006340 A MX 2011006340A
Authority
MX
Mexico
Prior art keywords
terms
information
user
relevance
term
Prior art date
Application number
MX2011006340A
Other languages
English (en)
Inventor
Oliver B Downs
Michael Sandoval
Claudiu Alin Branzan
Vlad Mircea Iovanov
Sopurkh Singh Khalsa
Original Assignee
Atigeo Llc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Atigeo Llc filed Critical Atigeo Llc
Publication of MX2011006340A publication Critical patent/MX2011006340A/es

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Se describen técnicas para determinar y usar información relacionada con dominios de interés, como al analizar automáticamente documentos y otra información relacionada con un dominio para determinar automáticamente relaciones entre términos particulares dentro del dominio; dicha información determinada automáticamente puede entonces utilizarse para asistir a los usuarios a obtener información del dominio que es de interés (por ejemplo, documentos con contenido que sea relevante a los términos especificados por el usuario y/o a otros términos que se determina están suficientemente relacionados con los términos especificados por el usuario); por ejemplo, las recomendaciones pueden generarse automáticamente para un usuario usando información acerca de preferencias especificadas u otros intereses del usuario respecto a uno o más términos e identificar otros términos particulares que sean lo suficientemente probables como de interés para ese usuario, como con base en una representación probabilística generada de relaciones entre términos particulares para el dominio.

Description

SUMINISTRO DE RECOMENDACIONES UTILIZANDO LA INFORMACIÓN DETERMINADA PARA DOMINIOS DE INTERÉS REFERENCIA CRUZADA CON SOLICITUDES RELACIONADAS La presente solicitud reclama el beneficio de la Solicitud de Patente de E.U.A. No. de serie 61/122,282, presentada el 12 de diciembre de 2008 y titulada "Determining relevant information for domains of interest", la cual está incorporada por este medio como referencia en su totalidad.
CAMPO DE LA INVENCIÓN La siguiente descripción se refiere de manera general a la determinación en forma automática información para los usuarios.
ANTECEDENTES DE LA INVENCIÓN Con la abundancia actual de información disponible, puede resultar difícil localizar documentos y otra información que coincida con el interés de un usuario. Una opción para intentar localizar documentos involucra realizar búsquedas utilizando varios motores de búsqueda basados en la red mundial. Una búsqueda típica en la red mundial involucra a un usuario que proporciona un enunciado de búsqueda que incluye uno o más términos de búsqueda para un motor de búsqueda, con el enunciado de búsqueda en algunas situaciones, incluyendo también uno o más operadores de búsqueda lógica (por ejemplo "Y", "O", "NO", una indicación de que un término de búsqueda particular es el requerido, etc.), que se relaciona cada uno con uno o más términos de búsqueda. Después de recibir dicho enunciado de búsqueda, el motor de búsqueda normalmente identifica por lo menos algunos documentos disponibles cuyos contenidos coinciden con el enunciado de búsqueda (por ejemplo, los contenidos incluyen cada uno de los términos de búsqueda requeridos), genera una o más páginas de la red mundial que incluye vínculos con uno o más de los documentos identificados, y proporciona una o más de las páginas de la red mundial generadas para el usuario como los resultados de búsqueda para el enunciado de búsqueda. Adicionalmente, los diferentes usuarios que ingresan la misma cadena de búsqueda, normalmente reciben los mismos resultados de búsqueda.
Los motores de búsqueda utilizan diversas técnicas para identificar documentos cuyos contenidos coinciden con los términos de búsqueda particulares. Por ejemplo, algunos motores de búsqueda realizan un procesamiento previo automatizado antes de recibir la solicitud de búsqueda con el objeto de crear un índice que genera un mapa de términos para las páginas de la red mundial cuyos contenidos incluyen aquellos términos. Dicho procesamiento previo normalmente utiliza un programa automatizado denominado un "buscador de la red mundial" que repta en la red mundial para identificar documentos a indexar, tales como, recorrer vínculos de las páginas de la red mundial conocidos para las páginas de la red mundial nuevas. Adicionalmente, algunos motores de búsqueda utilizan una categorización manual de documentos para rastrear, cuyas páginas de la red mundial están relacionadas con las categorías especificadas y/o términos, tal como por medio de un directorio jerárquico de categorías y sub-categorías. Por consiguiente, los resultados de búsqueda de un motor de búsqueda pueden basarse, en algunos casos, en la información de un índice generado previamente en forma automática y/o de un directorio de categoría generado con anterioridad manualmente.
Sin embargo, los motores de búsqueda existentes y otras técnicas para identificar información de interés para los usuarios, padecen de varios problemas.
BREVE DESCRIPCIÓN DE LOS DIBUJOS Las figuras 1A a 1C, ilustran los ejemplos de técnicas para determinar la información de relevancia relacionada con los dominios de interés.
Las figuras 2A a 2E, ilustran los ejemplos de técnicas para determinar en forma automática y utilizar la información de relevación relacionada con un ejemplo de dominio de interés.
La figura 3, es un diagrama de bloques que ilustra un ejemplo de un sistema de cómputo para utilizar en la determinación de información de relevancia relacionada con los dominios de interés.
La figura 4, ilustra un diagrama de flujo de una modalidad de ejemplo de una rutina de Servicio de determinación de relevancia específica del dominio.
La figura 5, ilustra un diagrama de flujo de una modalidad de ejemplo de una rutina de Administrador de análisis de dominio.
La figura 6, ilustra un diagrama de flujo de una modalidad de ejemplo de una rutina de Administrador de determinación de inter-término de relevancia.
La figura 7, ilustra un diagrama de flujo de una modalidad de ejemplo de una rutina de Administrador de determinación de documento relevante.
Las figuras 8A y 8B, ¡lustran un diagrama de flujo de una modalidad de ejemplo de una rutina de Administrador de generación de recomendación de relación de términos.
Las figuras 9A a 91, ilustran los ejemplos de técnicas para determinar en forma automática la información específica del usuario de probable interés para usuarios particulares para uno o más dominios de interés de ejemplo, tales como las basadas en información de relevancia determinada en forma automática relacionadas con por lo menos uno de los dominios de interés de ejemplo.
DESCRIPCIÓN DETALLADA DE LA INVENCIÓN Se describen las técnicas para determinar y utilizar la información relevante relacionada con los temas y áreas de interés objetivo, también denominadas en la presente descripción como dominios de interés. En por lo menos algunas modalidades, las técnicas incluyen analizar en forma automática documentos y otros artículos de contenido relacionados con uno o más dominios de interés, con el objeto de determinar en forma automática la información sobre los términos relevantes dentro del dominio, tal como determinar las relaciones entre los términos particulares, así como también determinar cuáles artículos de contenido tienen contenidos que son relevantes para los términos particulares. Dicha información de relevancia determinada en forma automática para el dominio(s) puede entonces ser utilizada de diversas formas, incluyendo ayudar a los usuarios a obtener información de posible interés positivo para esos usuarios (por ejemplo, artículos de contenido con contenidos que son relevantes para los términos específicos del usuario y/o a otros términos que son determinados para estar relacionados de manera suficiente con los términos específicos del usuario) y/o para ayudar a los usuarios a evitar la información de posible interés negativo para esos usuarios. Por ejemplo, en por lo menos algunas modalidades, la información de relevancia determinada en forma automática para el dominio(s) puede utilizarse para generar una red Bayesiana u otra representación probabilística de relaciones entre términos particulares, de manera que la información sobre las preferencias especificadas de un usuario con respecto a uno o más términos y/u otra información específica para el usuario, pueden utilizarse para determinar en forma automática las probabilidades de que otros términos particulares también pueden ser de interés para ese usuario, tal como para utilizar al proporcionar recomendaciones específicas del usuario u otras sugerencias para el usuario. Como se plantea con mayor detalle más adelante, los términos, preferencias y artículos de contenido pueden tener diversas formas en diversas modalidades. Adicionalmente, en por lo menos algunas situaciones, las técnicas pueden utilizarse en conjunto con una modalidad de un servicio de Determinación de relevancia específica del dominio ("DSRD") implementada por computadora que determina en forma automática la información de relevancia relacionada con los dominios de interés y/o usos, tales como la información de relevancia determinada para proporcionar recomendaciones específicas del usuarios u otras sugerencias de información que probablemente será de interés para los usuarios particulares, como se describe con mayor detalle más adelante.
Por lo menos en algunas modalidades, las técnicas descritas incluyen analizar en forma automática documentos y/u otros artículos de contenido relacionados con un dominio de interés, con el objeto de determinar en forma automática la información sobre los términos relevantes dentro del dominio, tal como determinar las relaciones relevantes entre términos particulares (por ejemplo, para determinar los temas de términos múltiples dentro del dominio, o más generalmente, determinar los conceptos dentro del dominio que puede incluir cada uno, o de otra forma, estar asociados con uno o más términos). En por lo menos algunas modalidades, las relaciones entre términos pueden ser determinadas en forma automática con base por lo menos en parte, en el uso de diversos términos en artículos de contenido relacionados con un dominio de interés, y el análisis de diversos artículos de contenido pueden incluir la generación de un índice que se relaciones con el contenido de artículos de contenido particulares para términos particulares. Aunque una parte del siguiente planteamiento se refiere a los artículos de contenido que son "documentos", ahora se apreciará que las técnicas descritas pueden utilizarse con una gran variedad de tipos de artículos de contenido, incluyendo, por ejemplo, documentos de texto (por ejemplo, páginas de la red mundial, documentos de procesamiento de palabras, presentación de diapositivas, u otras presentaciones, correo electrónicos u otros mensajes electrónicos, etc.) imágenes, archivos de video, archivos de audio, código de software, firmware u otras lógicas, códigos genéticos, que acompañan cada uno a una o más secuencias de información genética, otros datos biológicos, etc. Adicionalmente, los artículos de contenido que pueden ser uno o más tipos de archivos u otras estructuras de datos (por ejemplo, datos de transmisión), incluyendo fragmentos de documentos u otras piezas o porciones de un documento objetivo u otro artículo de contenido, y los contenidos de dichos artículos de contenido pueden incluir texto y/o una variedad de otros tipos de datos (por ejemplo, codificaciones binarias de información de audio; codificaciones binarias de información de video; codificaciones binarias de información de imagen; mediciones de propiedades físicas; ecuaciones matemáticas y estructuras de datos matemáticas;, otros tipos de estructuras de datos alfanuméricos y/o estructuras de datos simbólicos; datos encriptados; etc.). Por consiguiente, los términos que están incluidos en los contenidos de los artículos de contenido o asociados de otra forma con los artículos de contenido pueden tener diversas formas en las diversas modalidades, incluyendo palabras te texto individuales, combinaciones de palabras de texto múltiples (por ejemplo, frases de términos múltiples, registros de palabras múltiples en una relación definida, tales como una triple semántica que incluyen un sujeto, objeto y una relación de preferencia entre el sujeto y el objeto; etc.), o en algunas modalidades de cualquier otro tipo de datos que pueden ser reconocidos, características propiedad u otro atributo que es parte de los contenidos de aquellos artículos de contenido o que está asociado de otra forma con aquellos artículos de contenido, como se plantea con mayor detalle en alguna otra parte. Adicionalmente, en por lo menos alguna parte del siguiente planteamiento, generalmente se realizan referencias a las relaciones entre los términos, los cuales pretenden abarcar grupos de uno o más términos a menos que sea indicado de otra forma, de manera que puede existir una relación particular entre un primer grupo de uno o más primeros términos (por ejemplo, relacionada con un primer concepto con uno o más términos asociados, o de otra forma, a un primer tema de términos múltiples o un primer término agregado integrado de una corriente especificada u otra combinación de otros términos múltiples) y un segundo grupo de uno o más segundos términos (por ejemplo, relacionados con un segundo concepto con uno o más términos asociados, o de otra forma con un segundo tema o un segundo término agregado). Adicionalmente, como se describe con mayor detalle más adelante, en algunas modalidades, las técnicas descritas incluyen la identificación de uno o más términos que reflejan las preferencias conocidas de un usuario, e intentan en forma automática identificar los términos adicionales que reflejan las preferencias adicionales del usuario que no han sido identificadas de manera explícita, tales como basadas, por lo menos en parte, en las relaciones entre los términos de preferencia conocidos y los preferencias de términos adicionales posibles. Dichos términos de preferencia conocidos y/o preferencias de términos adicionales posibles pueden tener formas diferentes en diversas modalidades (por ejemplo, como se observó anteriormente, un término puede reflejar cualquier tipo de datos que se pueden reconocer, características, propiedad u otros atributos que son parte de los contenidos de interés, o que están asociados de otra forma con ese contenido), y puede reflejar un interés positivo (por ejemplo, una preferencia por) un término particular y/o un interés negativo (por ejemplo, una preferencia contra) un término particular. Adicionalmente, las preferencias conocidas de un usuario pueden incluir no únicamente términos que son identificados de manera explícita por los usuarios, como siendo de interés positivo o negativo, aunque en algunas modalidades se pueden incluir términos para los cuales, el interés positivo o negativo puede ser inferido para un usuario particular (por ejemplo, con base en las acciones del usuario, tales como la búsqueda de o la selecciona de otra forma de términos particulares), o más generalmente, puede incluir cualquier información conocida sobre o asociada de otra forma con un usuario en particular (por ejemplo, información demográfica para el usuario, tal como edad, sexo, género, etc.; habilidades o actividades del usuario; etc.).
En por lo menos algunas modalidades, un grupo de documentos múltiples que son específicos para un dominio, son seleccionados y analizados en forma automática por una modalidad del servicio DSRD. El grupo de documentos puede ser, por ejemplo, un cuerpo que incluye todos los documentos disponibles para un dominio particular o que incluye documentos suficientes para ser representativos del dominio. Adicionalmente, los documentos a ser analizados pueden ser obtenidos de una o más fuentes, tales como de un sitio de la red mundial que incluye la información específica integral a uno o más dominios (por ejemplo, un sitio de la red mundial "all-baseball-now.com" hipotético que incluye información integral sobre el béisbol, el sitio de la red mundial "espn.com" que incluye información variada sobre una variedad de deportes, el sitio de la red mundial "imdb.com" que incluye información variada sobre una variedad de películas y espectáculos televisivos, el sitio de la red mundial de la enciclopedia Wikipedia en "Wikipedia.org" y el sitio de la red mundial de colección de medios Wikipedia Commons en "commons.wikipedia.org" y el sitio de la red mundial de fuente de noticias wikinews en "wikinews.org" que incluye información variada sobre una gran cantidad de dominios, etc.). En algunas modalidades, cada uno de los documentos tiene contenidos que son información textual por lo menos parcialmente que son analizados.
El análisis automatizado de documentos para un dominio puede, en por lo menos algunas modalidades, incluir el análisis de los contenidos de los documentos con el objeto de determinar las relaciones entre los términos que son relevantes al dominio, incluyendo en algunas modalidades, identificar temas u otros conceptos que son relevantes para el dominio, tales como el uso de técnicas extracción de datos u otras técnicas. Por ejemplo, si los documentos que están siendo analizados están relacionados con el dominio del béisbol, los términos pueden ser específicos para jugadores particulares, con equipos particulares, con ligas particulares (por ejemplo, liga mayor de béisbol, béisbol colegial de división I, etc.), con eventos o situaciones particulares (por ejemplo, un juego de estrellas anual o la serie mundial, la controversia por el uso de esferoide, etc.), temporadas particulares, con récords particulares (por ejemplo, el récord de cuadrangulares acumulativo), etc. Adicionalmente, las relaciones entre términos pueden reflejar por lo menos parte de dicha información, tal como identificar relaciones que corresponden a jugadores múltiples en un equipo determinado, con equipos múltiples que tienen una rivalidad histórica, con jugadores particulares o equipos asociados con eventos o récords particulares, etc.
En por lo menos algunas modalidades, el análisis automatizado de documentos para que un dominio identifique términos relevantes, incluye la indexación de documentos para determinar qué términos están presentes en cada uno de los documentos, y posteriormente analizar la importancia de algunos o todos de dichos términos para los documentos. Por ejemplo, en por lo menos algunas modalidades, se realiza una determinación inicial de un grado de relevancia de cada término en un documento para el documento con base en las cualidades distintivas del término para los contenidos del documento, tal como utilizando un análisis de frecuencia de término -frecuencia de documento inverso ("TF-IDF"). Adicionalmente, las combinaciones de uno o más de los términos relacionados utilizados en todo el grupo de documentos pueden seleccionarse para representar los temas u otros conceptos del dominio, tales como para los términos más relevantes y/o las relaciones entre términos, y el grado determinado de relevancia de uno o más de los términos relacionados para un tema o un concepto para uno o más documentos, se puede utilizar para determinar un grado de relevancia del uno o más documentos para el tema o concepto, como se plantea con mayor detalle más adelante. Aunque algunos ejemplos y modalidades más adelante plantean el uso de temas de términos múltiples en diversas formas, se apreciará que dicho planteamiento aplica de igual forma al uso de conceptos determinados que tiene uno o más términos asociados, como se plantea con mayor detalle en cualquier parte del documento. Adicionalmente, como se plantea con mayor detalle en todas partes, los términos u otra información que se asocia con un documento u otro artículo de contenido y que son analizados pueden, en algunas modalidades, incluir otros tipos de información, incluyendo información que no está incluida en los contenidos del artículo de contenido, tales como los metadatos asociados con el artículo de contenido y/o la información asociada con uno o más usuarios a los cuales corresponde el artículo de contenido.
Adicionalmente, en algunas modalidades, el análisis automatizado de documentos para que un dominio identifique los términos relevantes puede incluir una o más técnicas diferentes, ya sea en lugar de o además de utilizar un análisis TF-IDF o técnica similar para determinar el grado de relevancia de cada término en un documento para el contenido del documento. Por ejemplo, el análisis automatizado de los contenidos de uno o más documentos, pueden en algunas modalidades, incluir realizar un análisis estadístico para identificar los términos que son distintivos en el contenido de uno o más documentos en relación con otros contenidos (por ejemplo, otros documentos en el dominio, un grupo de línea de base de los contenidos utilizados para representar el dominio, etc.), de tal manera que identifica los valores atípicos (por ejemplo, los términos que pueden ser considerados para tener una proporción de señal a ruido alta en relación con otros términos), o para identificar de otra forma los términos que son relevantes en relación con otros términos. Adicionalmente, en situaciones en las cuales los documentos para un dominio están cambiando (por ejemplo, con base en documentos nuevos que se ponen disponibles, de tal manera que reflejan las noticias actuales u otra información disponible recientemente), el análisis automatizado de los documentos cambiantes puede utilizarse en algunas modalidades para identificar los términos recientemente relevantes (por ejemplo, los términos relevantes nuevos que son introducidos en los documentos cambiantes, términos existentes anteriormente cuya relevancia se incrementa en los documentos cambiantes, etc.). Dichos términos recientemente relevantes pueden, en algunas situaciones, reflejar los "temas de moda" de interés, y los documentos cambiantes utilizados para identificar dichos términos recientemente relevantes pueden tener varias formas en diversas modalidades (por ejemplo, suministro de noticias, sitio de páginas sociales en red; publicación de boletines electrónicos; sistemas para compartir información de inclusión, tales como Twitter; etc.). Adicionalmente, como se plantea con mayor detalle más adelante, cuando se identifican términos particulares como relevantes (por ejemplo, para términos recientemente relevantes), las técnicas descritas pueden identificar a usuarios particulares para los cuales, dichos términos particulares son relevantes, y proporcionar documentos u otros contenidos que están identificados como relacionados con aquellos términos particulares para esos usuarios particulares (por ejemplo, impulsando o proporcionando de otra manera recomendaciones para aquellos usuarios particulares de ese contenido identificado, incluyendo ese contenido identificado como parte de la información provista a aquellos usuarios particulares en respuesta a las solicitudes de esos usuarios particulares, etc.). La identificación de los usuarios particulares para quienes son relevantes los términos particulares pueden realizarse de diversas formas en diversas modalidades, tales como identificando a los usuarios particulares cuyas preferencias conocidas incluyen aquellos términos particulares, analizando la información sobre las preferencias del usuario conocido de uno o más usuarios (por ejemplo, todos los usuarios) con el objeto de determinar la probabilidad de que los términos particulares son términos adicionales que reflejan las preferencias desconocidas del usuario de aquellos usuarios, etc.
Como se observó anteriormente, la generación de la información de análisis de términos de documentos puede realizarse de diversas formas en diversas modalidades, y en algunas modalidades, utiliza un análisis TF-IDF. Dicho análisis TF-IDF utiliza una representación de espacio de vector de los documentos a ser analizados, en la cual, cada documento es tratado como similar a una "bolsa de palabras", sin considerar la función de los términos en el documento (por ejemplo, sin considerar la gramática, estructura de las oraciones, estructura de los párrafos, puntuación, etc.). En dichas situaciones, la representación del documento puede reflejar en gran medida o de manera única la Frecuencia de Términos ("TF") de los términos en los documentos, lo cual permite un mapeo eficiente de los documentos en un espacio de vector dimensional alto matemáticamente simple. Adicionalmente, la cualidad distintiva de un término particular en relación con los diversos documentos para un dominio puede considerarse y utilizarse cuando se determina la relevancia de los términos para los documentos, tales como considerar como ubicuo un término particular, está en los documentos de un cuerpo u otro grupo de documentos. En particular, la frecuencia de término de un término / en un documento d y la frecuencia de documento inverso ("IDF") del término /' a través de los documentos de un dominio puede expresarse de la siguiente manera, en por lo menos algunas modalidades: „_, . ,. ü ocurrencias de término i en documento d , (^documentos que contienen el término i TF(i,d) = , /D (í) = -log 3 # términos en documento d # documentos ) El término clasificación de Frecuencia de término-frecuencia de documento inversa ("TF-IDF" o "TF.IDF") para un término y un documento puede entonces ser determinado multiplicando la clasificación TF para el término y el documento y la clasificación IDF para el término. Dicha clasificación TF-IDF(i.d) (también mostrado como "TFR-IDFid" o "TF.IDFiid") para un término particular /' y un documento particular d puede utilizarse como una medición de qué tan importante que el término en la representación del espacio de vector es para la descripción de la huella digital de ese documento en el cuerpo, de manera que refleja un grado de relevancia de ese término para ese documento. Esta es una medida que clasifica altamente las palabras que ocurren frecuentemente en un documento específico, aunque sin frecuencia en el cuerpo como una totalidad.
El análisis automatizado de los documentos para un dominio puede, por lo menos en algunas modalidades, incluir analizar los contenidos de los documentos seleccionados con el objeto de determinar cuáles documentos tienen contenidos que son relevantes para los términos identificados y/o temas determinados para el dominio. Por ejemplo, en por lo menos algunas modalidades, una determinación inicial de la relevancia de los documentos seleccionados puede realizarse de manera que se determina el grado de relevancia de cada documento para cada uno de algunos o todos los términos o temas, tal como los basados en la relevancia de términos particulares dentro de un tema para el contenido de un documento particular, como se planteó con mayor detalle más adelante. Adicionalmente, en algunas modalidades, los documentos que son seleccionados para ser analizados como parte de la determinación de relevancia del documento son los mismos documentos que fueron analizados anteriormente para determinar las relaciones entre términos, mientras que en otras modalidades, algunos o todos los documentos de determinación de relevancia del documento seleccionado son diferentes de los documentos de determinación de relevancia entre términos (por ejemplo, si los documento de determinación de relevancia de documento incluyen documentos nuevos que no estuvieron disponibles durante una determinación de relevancia entre términos anterior; si los documentos de determinación de relevancia entre términos son un sub-grupo especializado de documentos que son seleccionado para propósitos de capacitación, tal como debido a ser representativos de un dominio; etc.). Adicionalmente, en por lo menos algunas modalidades y situaciones, los grupos de documentos relacionados múltiples pueden analizarse juntos con respecto a algunos o todos los términos y/o temas, tales como a través del tratamiento de los documentos relacionados múltiples como un documento único para el propósito del análisis, mientras que en otras situaciones, un documento particular puede dividirse en partes múltiples que son tratadas, cada una de ellas, como un documento diferente con respecto a alguno o todos los términos y/o temas para el propósito del análisis. Los detalles adicionales están incluidos más adelante en relación con el análisis de documentos de un dominio con el objeto de determinar documentos que son relevantes para los términos identificados y/o los temas determinados.
Después de que los documentos para un dominio son analizados en forma automática para determinar su relevancia con los términos particulares, dicha información de relevancia puede utilizarse para identificar adicionalmente las relaciones entre los términos particulares, en por lo menos algunas modalidades. Por ejemplo, en por lo menos algunas modalidades, la relación entre dos términos puede determinarse con base, por lo menos en parte, en la relevancia individual de aquellos términos para la diversidad de los documentos (por ejemplo, de manera que dos términos, los cuales son altamente relevantes para uno o más documentos comunes pueden determinarse probablemente ser altamente relevantes para el otro, y dichos dos términos que no son altamente relevantes para cualquiera de los mismos documentos, pueden determinarse ser probablemente de poca relevancia entre sí). Por consiguiente, en las modalidades en las cuales la relevancia de los documentos particulares para los términos particulares, se identificó con base por lo menos en parte en las clasificaciones TF-IDF, la determinación de relaciones entre los términos puede basarse de manera similar, por lo menos en parte de las clasificaciones TF-IDF. Las formas particulares para generar clasificaciones u otras representaciones de la relevancia de las relaciones de términos, se plantean con mayor detalle más adelante, incluyendo las formas diferentes a aquellas basadas en las clasificaciones TF-IDF.
Después de que la información de relevancia es determinada en forma automática por el servicio DSRD con respecto a las relaciones entre los términos dentro o a través de uno o más dominios, dicha información de relevancia determinada en forma automática, puede entonces utilizarse en diversas formas en las diversas modalidades. Por ejemplo, en por lo menos algunas modalidades, la información de relevancia con respecto a las relaciones entre términos para uno o más dominios, se utiliza para generar en forma automática una red Bayesiana u otra representación probabilística de las relaciones entre los términos seleccionados, tal como, para las relaciones que son identificadas como siendo las más fuertes, o de otra manera, las más relevantes. Dicha generación de la información de representación probabilística puede realizarse de diversas formas, como se plantea con mayor detalle más adelante, y puede incluir seleccionar diversos primeros términos particulares, que tienen cada uno, grados evaluados suficientemente altos de relevancia para los toros segundos términos que se presentó una influencia de aquellos primeros términos con los segundos términos correspondientes, y puede incluir la generación de información de probabilidad que representa una fuerza para aquellas influencias representadas. En particular, la estructura de una red Bayesiana refleja las dependencias probabilísticas de cada nodo, y proporciona un marco de trabajo en el cual realizar la interferencia sobre el estado de cada nodo, como se plantea con mayor detalle más adelante. Después de que se genera la información de representación probabilística, ésta puede utilizarse para determinar en forma automática la probabilidad u otra medida de probabilidad de que un usuario tiene una preferencia positiva o negativa para, u otro interés (ya sea positivo o negativo), en un término objetivo particular, que tiene una preferencia positiva o negativa conocida para u otro interés (ya sea positivo o negativo) de ese usuario en uno o más términos diferentes. Por consiguiente, dichas preferencias o intereses conocidos de un usuario particular en los términos particulares, puede tratarse como evidencia de la probabilidad de otras preferencias o intereses no expresados de ese usuario en dichos términos objetivo (por ejemplo, otras preferencias o intereses de los cuales, ese usuario está advertido, aunque los cuales son desconocidos para el servicio DSRD, otras preferencias o intereses de los cuales, ese usuarios no está advertido en forma explícita, etc.), a partir de los cuales pueden inferirse las preferencias o intereses no expresados particulares para los términos objetivo particulares.
En algunas modalidades, la determinación del interés probable de un usuario particular en un o más términos objetivo con base en un interés conocido o sospechado de ese usuario particular en uno o más términos diferentes utilizados como evidencia, se puede basar adicionalmente por lo menos en parte en la información sobre otros usuarios que tienen niveles de interés conocidos o sospechados tanto en los términos de evidencia como en los términos objetivo, tal como en una forma análoga para las técnicas de filtración en colaboración (por ejemplo, con base en las técnicas de aprendizaje de retro-alimentación y automatizado del usuario, como las que se plantean con mayor detalle más adelante). Sin embargo, enotras modalidades, dicha determinación del interés probable de un usuario particular en uno o más términos objetivo con base en el interés conocido o sospechado de ese usuario particular en el uno o más términos de eficiencia diferentes, se realiza sin el uso de información alguna sobre otros niveles de interés del usuario, tanto en los términos de evidencia como en los términos objetivo, o más generalmente, en algunos casos sin el uso de información alguna sobre los niveles de interés de otros usuarios en cualquiera de los términos objetivo - en dichas modalidades, las técnicas descritas pueden ser de uso particular para encargarse de asi denominado problema de recomendación de "arranque en frío", en el cual, las interferencias normalmente no pueden ser realizadas inicialmente para el filtrado en colaboración y otras técnicas de recomendación debido a la falta de datos con respecto a las preferencias de los usuarios en un área de interés. El uso de dicha información de relevancia generada en forma automática a partir del análisis de los documentos relacionados con el dominio, puede utilizarse adicionalmente en algunas modalidades y situaciones para extender la capacidad de proporcionar recomendaciones específicas para el usuario significativas u otras sugerencias para un dominio de interés nuevo para el cual existe poca o ninguna información de preferencia disponible del usuario a un dominio nuevo de interés, tal como mediante la información de preferencia disponibles de apalancamiento para uno o más dominios diferentes que tiene por lo menos algo de traslape con el dominio nuevo, como se plantea con mayor detalle más adelante. Adicionalmente, aún si las determinaciones iniciales de la probabilidad de interés en términos objetivo con base en los intereses conocidos en otros términos de evidencia se realiza sin el uso de información alguna sobre los niveles de interés reales del usuario tanto en los términos de evidencia como en los términos objetivo, las determinaciones subsiguientes pueden ser actualizadas para incorporar información que es aprendida sobre los niveles de interés reales de los usuarios tanto en los términos de evidencia como en los términos objetivo, como se plantea más adelante.
Después de que se determinan dichas relaciones probabilísticas con respecto a la relevancia de la información entre los términos dentro o a través de uno o más dominios (por ejemplo, como se expresa utilizando una representación probabilística de aquellas relaciones entre términos), la relevancia de la información se puede utilizar de diversas formas, incluyendo ayudar a un usuario humano (u otra entidad) para obtener las recomendaciones u otras sugerencias de documentos y/u otra información que probablemente será de interés para el usuario con base en la información sobre las preferencias del usuario por o los intereses relacionados con los términos particulares. Por ejemplo, uno o más términos objetivo particulares para los cuales es desconocida una preferencia del usuario, pueden seleccionarse en forma automática como siendo probablemente de interés para el usuario con base en aquellos intereses conocidos del usuario, tales como los términos objetivo para los cuales la probabilidad determinada u otra probabilidad de interés está por encima de un umbral definido o satisface de otra forma uno o más criterios especificados, con base en el uso de las relaciones entre términos probabilísticas determinadas y debido a aquellos intereses conocidos. Dichos términos objetivo seleccionados en forma automática pueden entonces utilizarse de diversas formas, incluyendo proporcionar recomendaciones u otras sugerencias o indicaciones de información de interés para ese usuario (por ejemplo, indicaciones de documentos que son relevantes para aquellos términos objetivo seleccionados; las indicaciones de esos términos objetivo seleccionados, tales como para la selección del usuario para indicar un interés o desinterés en ese término objetivo, o para indicar que un término objetivo particular se combinará como parte de un tema común con otros términos conocidos para los cuales, los términos objetivo seleccionados son de relevancia particular; etc.). Adicionalmente, la relevancia de la información determinada en forma automática puede utilizarse en otras formas diferentes en las diversas modalidades, tal como recibiendo uno o más términos de un usuario y presentando la información relacionada con el usuario (por ejemplo, temas que incluyen los términos recibidos, etc.), presentando un alista de temas determinados en forma automática u otras relaciones entre términos para un usuario que realiza una búsqueda o selección u otra retroalimentación, etc. Por consiguiente, la relevancia de la información determinada en forma automática con base en los documentos dentro de un dominio, puede ser utilizada por el servicio DSRD u otro servicio afiliado para ayudar a un usuario humano u otra entidad (por ejemplo, un programa automatizado) externo al servicio DSRD para obtener el contenido relacionado con uno o más términos de interés explícito o inferido, tal como en respuesta a un enunciado de búsqueda, colocando o proporcionando de otra forma la información relevante para un usuario que no es solicitada de forma explícita (por ejemplo, con base en las preferencias especificadas anteriormente para recibir información), etc. La información adicional sobre la inter-relevancia de los diversos términos puede desplegarse a los usuarios de diversas formas en las diversas modalidades.
Adicionalmente, en por lo menos algunas modalidades, la información sobre cómo la relevancia de la información entre términos determinada en forma automática y/o información de relevancia de documento es utilizada por los usuarios u otras entidades es rastreada y utilizada en diversas formas. Por ejemplo, en por lo menos algunas modalidades, la información sobre el uso de la información entre términos y/o documentos determinada en forma automática puede ser utilizada por el servicio DSRD como retroalimentación relacionada con la información de relevancia entre términos y/o documentos determinada en forma automática. Dicha retroalimentación se puede utilizar, por ejemplo, para revisar la determinación inicial de la relevancia de las relaciones de los términos particulares y entre términos y/o para revisar la determinación inicial de la relevancia de documentos particulares para términos determinados, y dicha información de relevancia determinada revisada puede entonces ser utilizada por el servicio DSRD u otro servicio afiliado en una forma similar a aquella como la información de relevancia determinada inicialmente. De manera similar, dicha retroalimentación puede ser utilizada, por ejemplo, para revisar redes Bayesianas, árboles de decisión, y/u otras representaciones probabilísticas de relaciones entre términos, y dichas representaciones probabilísticas de relación entre términos determinadas y revisadas puede entonces ser utilizada por el servicio DSRD u otro servicio afiliado en una forma similar a aquella de la información de representación probabilística determinada inicialmente. De esta forma, una ocurrencia de retroalimentación una vez, o en su lugar, continua u otro circuito de retroalimentación repetido, se pueden utilizar para mejorar de manera repetida las determinaciones de relevancia automáticas realizadas por el servicio DSRD. Como se describe con mayor detalle más adelante, en algunas modalidades, la retroalimentación se utiliza para aprender o revisar en forma automática la información de relación entre términos determinada en forma automática y/o la información de relevancia del documento, tal como mediante el uso de una red neural configurada u otro modelo o sistema adaptable, y/o actualizando una red Bayesiana configurada o árbol de decisión u otra estructura de datos de representación probabilística. Adicionalmente, en por lo menos algunas modalidades y situaciones, la red neural configurada u otro sistema adaptable, pueden extenderse de forma automática en diversas formas para utilizar la información sobre documentos nuevos que se hacen disponibles y/o relaciones entre términos nuevas que son determinados.
Para propósitos ilustrativos, algunos ejemplos y modalidades son descritos más adelantes, en los cuales los tipos específicos de información son analizados en formas específicas, y en los cuales, la información determinada relacionada con un dominio particular se utiliza en formas específicas. Estos ejemplos son provistos para propósitos ilustrativos y son simplificados con el objeto de ser breves, y se apreciará que las técnicas inventivas pueden ser utilizadas en una variedad amplia de situaciones diferentes, algunas de las cuales están descritas con mayor detalle más adelante. Por ejemplo, aunque se describe más adelante el análisis de documentos de texto particulares, la información en otras formas puede ser analizada y utilizada de manera similar. Adicionalmente, aunque ese ilustran algoritmos y tecnologías particulares como utilizadas para determinar las relaciones y/o temas entre términos relevantes dentro o a través de uno o más dominios, para determinar los documentos particulares que son relevantes para los términos y/o temas, y para la relevancia mejorada de aprendizaje con base en el uso real y otra retroalimentación, se pueden utilizar otros algoritmos y tecnologías en otras formas.
Las figuras 1A a 1C, ilustran los ejemplos de un servicio de determinación de relevancia específica del dominio automatizada que utiliza las técnicas descritas para determinar la información de relevancia relacionada con los dominios de interés y para proporcionar la información y funcionalidad relacionadas con los usuarios u otras entidades. En particular, la figura 1 B, ilustra una modalidad de un servicio DSRD 105, junto con una descripción de nivel alto del flujo de datos de ejemplo hacia y desde el servicio DSRD 105, como parte de la determinación y uso de la Información específica de dominio relevante. En este ejemplo, el servicio DSRD 105 accede y analiza diversos documentos 160 relacionados con uno o más dominios de interés, con el objeto de determinar la relevancia de la información relacionada con cada uno de los dominios. La relevancia de la información determinada que es generada por el servicio DSRD 105 en este ejemplo, incluye la información 170 sobre las relaciones relevantes entre términos dentro de cada uno del uno o más dominios (por ejemplo, información sobre temas de términos múltiples), y la información 180 sobre la cual, los documentos tienen contenidos que son relevantes para diversos términos, aunque en otras modalidades, únicamente se puede determinar uno de los tipos de información de relevancia. Como se plantea con mayor detalle en otras partes de la presente descripción, incluyendo con respecto a la figura 1C, la relevancia de la información entre términos relacionada 170 puede incluir los datos almacenados en diversas formas, incluyendo una o más redes neurales entre términos, una o más redes Bayesianas u otras representaciones probabilísticas de las relaciones entre términos, uno o más árboles de decisión que encapsulan la información sobre relaciones probabilísticas u otras relaciones entre términos particulares, etc.
En este ejemplo, el servicio DSRD 105 proporciona por lo menos una parte de la información de relación entre términos relevante determinada 170 y/o por lo menos alguna parte de la información de documento relevante determinada 180 para que los diversos usuarios 140 para su uso, tal como indicando a los documentos que son relevantes para los términos de búsqueda especificados por el usuario, indicando las sugerencias de otros términos que pueden ser relevantes para los términos especificados por el usuario, etc. Aunque no se ilustra en la presente descripción, en otras modalidades, el servicio DSRD 105 puede, en su lugar, proporcionar la información de relación entre-términos relevante determinada 170 y/o la información de documento relevante determinada 180 para los usuarios 140 y/u otras entidades en una o más formas diferentes, tal como mediante uno o más servicios intermedios diferentes (por ejemplo, otros servicios que obtienen la información específica del dominio relevante desde el servicio DSRD 105 y utilizan éste en diversas formas). Adicionalmente, en este ejemplo, el servicio DSRD 105 puede obtener diversa información de retroalimentación o diferente 190 relacionada con el uso por los usuarios 140 (u otras entidades) de información específica de dominio relevante determinada 170 y/o 180, ya sea directamente de los usuarios 140 o en lugar de uno o más servicios diferentes intermedios, y puede utilizar esa retroalimentación para refinar la información específica de dominio relevante determinada 170 y/o 180. Se apreciará que la recepción de la información de retroalimentación y/o el uso de la información de retroalimentación recibida para la información específica de dominio relevante determinada puede ocurrir de diversas formas en varias modalidades y situaciones, incluyendo en una forma incremental y dinámica, o en su lugar en forma de lote (por ejemplo, a partir de un servicio intermedio diferente que reúne dicha información y proporciona en forma periódica ésta al servicio DSRD 105). Los detalles adicionales relacionados con los diversos flujos de datos y acciones del servicio DSRD 105 están descritos con mayor detalles en cualquier otra parte, incluyendo con respecto a las modalidades de ejemplo planteadas en las figuras 2A a 2E y las figuras 9A a 91.
La figura 1A, ilustra los detalles de ejemplo adicional con respecto a una modalidad del servicio DSRD 105 de la figura 1 B. En particular, en el ejemplo de la figura 1A, los documentos que son accedidos y analizados por el servicio DSRD de ejemplo 105, los documentos pueden incluir documentos de dominio 160 que pueden ser accedidos sobre una red 100 (por ejemplo, que pueden ser accedidos públicamente desde uno o más sitios de la red mundial u otras fuentes de información) y/o documentos de dominio opcional 135, a los cuales el servicio DSRD 105 tiene acceso especializado (por ejemplo, los documentos de dominio que son generados por o provistos de otra forma por el servicio 105; los documentos de dominio que están disponibles de una fuente de terceros pero que no son accesibles públicamente, tales como si están disponibles para acceso pagado o con base en una relación definida entre el servicio 105 y la fuente de terceros; etc.). Adicionalmente, después de determinar la información de relevancia para uno o más dominios, el servicio DSRD 105, interactúa adicionalmente sobre la red 100 con los diversos usuarios 140 y/o con uno o más servicios opcionales diferentes 150 (por ejemplo, otros servicios afiliados que interactúan con los usuarios 140 y que utilizan la información provista por el servicio DSRD 105).
Adicionalmente, en este ejemplo, el servicio DSRD 105 incluye varios módulos que proporciona cada uno de ellos, alguna parte de la funcionalidad del servicio DSRD 105, incluyendo un módulo de Administrador de análisis de dominio 110, un módulo de Administrador de determinación de documento relevante 120, un módulo de Administrador de determinación de relevancia entre términos 130, y un módulo de administrador de generación de recomendación de relación de términos 125. En particular, el módulo de Administrador de análisis de dominio 110 realiza diversas acciones para obtener y analizar en forma automática los contenidos de los documentos relacionados con el dominio, tal como para poner disponible dicha información analizada para ser utilizada por los módulos 120 y 130. El módulo de Administrador de determinación de documento relevante 120 utiliza la información de documento analizada para determinar los documentos que son relevantes para los términos particulares u otros temas, tales como para generar la relevancia de la información de documento de dominio 180 de la figura 1 B (no mostrado en la figura 1A, aunque el cual puede ser almacenado en uno o más dispositivos de almacenamiento, tampoco mostrados en la figura 1A). De manera similar, el módulo de Administrador de determinación de relevancia entre términos 130 utiliza la información de documento analizado para determinar las relaciones entre términos que son relevantes para el dominio, tal como para generar la información de relevancia entre términos de dominio 170 de la figura 1 B (no mostrado en la figura 1A, aunque la cual puede ser almacenada en uno o más dispositivos de almacenamiento, tampoco mostrados en la figura 1A), aunque en otras modalidades puede determinar por lo menos alguna parte de la información de relación entre términos en formas diferentes de aquellas basadas en la información relacionada con el documento. El módulo de Administrador de generación de recomendación de relación de término 125 genera entonces la información para utilizar en la determinación de recomendaciones específicas del usuario u otras sugerencias basadas en las relaciones entre términos, de manera que genera la representaciones probabilísticas 170a y/o 170b de la información de relación entre términos de la figura 1C (no mostrada en la figura 1A, aunque la cual puede ser almacenada en uno o más de los dispositivos de almacenamiento, tampoco mostrados en la figura 1A). La información generada por el módulo 125 puede basarse, por lo menos en parte, en la información de relación entre términos determinada del módulo 130, y el módulo 125 puede además utilizar opcionalmente la información generada para determinar las recomendaciones específicas del usuario u otras sugerencias para los usuarios en algunas modalidades. En esta modalidad ilustrada, los módulos 120, 130 y/o 125 pueden proporcionar entonces la información de relevancia específica del dominio generada y/o las recomendaciones específicas del usuario determinadas u otras sugerencias para los usuarios 140 u otros servicios opcionales 150, tal como por medio de las GUIs provistas ("interfases de usuario gráficas) que los usuarios pueden utilizar en forma interactiva y/o por medio de las APIs ("interfases de programación de aplicación") provistas, por medio de las cuales, los programas de software pueden interactuar en forma programática. En otras modalidades, pueden estar presentes otros módulos, tales como un módulo 127 (no mostrado) que determina los artículos de contenido que son relevantes para los términos de interés indicados particulares, o uno o más módulos diferentes (no mostrados) del servicio DSRD 105 que pueden en su lugar, interactuar con los usuarios 140 y/u otros servicios opcionales 150 por medio de una o más GUIs y/o una o más APIs que son provistas por el servicio DSRD 105 (tal como en representación de otro de los módulos 110 a 130).
Los servicios DSRD 105 pueden ser ¡mplementados de diversas formas, incluyendo con uno o más módulos de software que tienen instrucciones de software para ejecución en uno o más sistemas de cómputo (no mostrados en la figura 1A), y pueden almacenar información diversa sobre uno o más dispositivos de almacenamiento locales o remotos (no mostrados). Por ejemplo, en alguna modalidades, el servicio DSRD 105 puede ser implementado en un sistema de cómputo único, mientras que en otras modalidades, el servicio DSRD 105 puede ser implementado en un sistema de cómputo único, mientras que en otras modalidades el servicio DSRD 105 puede ser implementado una forma distribuida (por ejemplo, con módulos diferentes 110 a 130 cada uno ejecutándose en sistemas de cómputo diferentes, aunque interactuando directamente o por medio de ubicaciones de almacenamiento de datos compartidas; con uno o más de los módulos 110 a 130 cada uno siendo distribuido a través de sistemas de cómputo múltiples, de tal manera que tienen implementaciones alternativas múltiples de un módulo en sistemas de cómputo diferentes que operan en grupos de datos diferentes en relación con las otras implementaciones alternativas del mismo módulo; etc.), tal como el uso de técnicas de cómputo ensombrecidas y/o en una forma de igual a igual. De manera similar, los usuarios 140, otros servicios 150 y los documentos de dominio 160 pueden utilizar o estar asociados con dispositivos o sistemas de cómputo (no mostrados) para realizar las diversas interacciones descritas y/o para almacenar la información diversa descrita. Adicionalmente, aunque el servicio DSRD 105 y otros servicios 150 pueden ser provistos por entidades no afiliadas en algunas modalidades, en otras modalidades el servicio DSRD 105 y uno o más de los otros servicios 150 pueden, en su lugar, ser provistos por un operador único (por ejemplo, en conjunto uno con el otro). Adicionalmente, la red 100 ilustrada en la figura 1A puede tener varias formas, tales como, por ejemplo, una red que se puede acceder públicamente de redes vinculadas (por ejemplo, la Internet), operadas posiblemente por diversas partes diferentes. En otras modalidades, la red 100 puede ser una red privada, tal como, por ejemplo, una red corporativa o de universidad que es completa o parcialmente inaccesible para los usuarios no privilegiados. En todavía otras modalidades, la red 100 puede incluir una o más redes privadas con acceso a y/o desde la Internet, y algunas o todas las redes 100 pueden incluir adicionalmente banda ancha, o transmisión cableada o vínculos inalámbricos (por ejemplo, una conexión de telefonía celular; una conexión de computadora inalámbrica que utiliza Wi-Fi, Wi-MAX, Bluetooth, transmisión de televisión análoga o digital, EVDO, satélite u otros protocolos de comunicación o red inalámbrica; etc.) en por lo menos algunas modalidades.
Adicionalmente, los diversos usuarios 140 y otras entidades pueden interactuar con el servicio DSRD 105 en diversas formas para realizar solicitudes y para especificar información diversa. Por ejemplo, los usuarios pueden registrarse o suscribirse con el servicio DSRD 105 y/o un servicio diferente opcional 150, de tal manera que suministra diversas preferencias relacionadas con los términos y otra información que se puede utilizar en solicitudes posteriores. En dichas modalidades, después de que un usuario interactúa con el servicio DSRD 105 para registrarse, el usuario puede emitir uno o más identificadores (por ejemplo, claves, señales, nombres de usuario, etc.) que están asociados con el usuario y ser utilizados posteriormente cuando se realizan otras solicitudes, tales como las solicitudes de búsqueda de resultados para búsquedas específicas. Adicionalmente, en algunas modalidades, un servicio diferente opcional 150 puede registrar o interactuar de otra forma con el servicio DSRD 105 para establecer una relación afiliada, tal como, para permitir que otro servicio 150 obtenga acceso a por lo menos parte de la información de relevancia específica del dominio generada por el servicio DSRD 105. Adicionalmente, pueden asociarse diversas tarifas con el uso de un servicio DSRD, de manera que el servicio DSRD puede responder a por lo menos algunas solicitudes a cambio de tarifas pagadas por el solicitante, tal como para proporcionar información de relevancia específica del dominio a un servicio opcional diferente 150 a cambio de tarifas del otro servicio 150, o proporcionar información de relevancia específica del dominio a un usuario 140 a cambio de las tarifas del usuario. En otras modalidades, el servicio DSRD 105 puede obtener tarifas en otras formas, tal como de los proveedores de documentos específicos del dominio y otros contenidos para realizar una determinación de relevancia relacionada con ese contenido y/o para proporcionar recomendaciones específicas del usuario de dichos documentos específicos del dominio y otro contenido para los usuarios particulares, de otros terceros, tales como anunciantes y vendedores al menudeo (por ejemplo, para proporcionar anuncios publicitarios u otro contenido indicado a por lo menos algunos usuarios 140), etc.
La figura 1C, ilustra detalles de ejemplo adicionales con respecto a una modalidad de acciones que pueden ser realizadas por el servicio DSRD 105 de las figuras 1A y 1 B. En particular, la figura 1 B ilustra que una modalidad del servicio DSRD 105 analiza diversos documentos de dominio 105 para uno o más dominios con el objeto de generar varias informaciones de relevancia de relación entre términos de dominio 170, la cual opcionalmente puede ser modificada y/o complementada con base en la retroalimentación de varios usuarios 140. Como se ilustró con detalle adicional en la figura 1C, en por lo menos algunas modalidades, la información de relevancia entre términos de dominio generada 170 puede incluir una representación probabilística 170a (por ejemplo, una red Bayesiana) de por lo menos algunas de las relaciones entre por lo menos algunos de los términos, y adicionalmente que la generación de información 170a puede ocurrir opcionalmente como parte de las actividades de procesamiento previo para permitir un uso de tiempo de corrida posterior de la información generada. Por consiguiente, en este ejemplo, la generación de la información 170a puede ocurrir en un primer momento, y en un segundo momento posterior una copia 170b de por lo menos alguna parte de la información generada 170a puede utilizarse para las actividades de tiempo de corrida que incluyen la generación de recomendaciones específicas del usuario u otras sugerencias basadas en parte en la información generada 170b. La copia 170b puede, por ejemplo, ser configurada u optimizada para el uso de tiempo de corrida, tal como codificando porciones particulares de una red Bayesiana generada 170a en cada uno de los árboles de decisión numerosos que representan las porciones diversas, como se plantea con mayor detalle con respecto a las figuras 9A a 91. Adicionalmente, el uso de la información generada 170b al determinar y proporcionar las recomendaciones específicas del usuarios u otras sugerencias que pueden ser realizadas en diversas formas, incluyendo el servicio DSRD 105 y/o mediante uno o más servicios diferentes.
En este ejemplo, durante el procesamiento del tiempo de ejecución, la información 195 es obtenido para un usuario particular 145, tal como para indicar las preferencias del usuario 145 para uno o más términos relacionados con el uno o más dominios a los cuales corresponden los documentos del dominio 160. El usuario 145 puede ser uno de los usuarios 140 que proporcionan opcionalmente retroalimentación como parte de la generación de información 170a como se planteó con respecto a la figura 1 B, o puede en su lugar, ser un usuario no relacionado. Adicionalmente, la información 195 sobre las preferencias conocidas del usuario para (u otro interés) términos particulares pueden obtenerse de diversas formas, tal como con base en los términos indicados por el usuario como parte del enunciado de búsqueda, los términos seleccionados por el usuarios para representar los temas de interés para el usuario, los términos que son parte de un documento que el usuario especifica como de interés, los términos que son extraídos de un perfil del usuario u otra información relacionada con el usuario, etc. El servicio (no mostrado) que realiza las actividades de procesamiento del tiempo de ejecución pueden utilizar entonces la información de preferencia del término específico del usuario 195 y la información de relación entre términos no específica del usuario 170b para identificar uno o más términos específicos del usuario adicionales 175 que son inferidos para ser de interés para el usuario con base en las diversas relaciones entre términos, opcionalmente con la información para indicar la probabilidad correspondiente en que cada uno de los términos adicionales serán de interés para el usuario particular 145.
Después de que el término(s) adicional(es) 175 es identificado, éste puede utilizarse de diversas formas, incluyendo proporcionar opcionalmente recomendaciones específicas del usuario u otras sugerencias 185 para el usuario 145. Las recomendaciones específicas del usuario u otras sugerencias pueden tener diversas formas en diversas modalidades. Por ejemplo, en por lo menos algunas modalidades, algunas o todas las recomendaciones/sugerencias específicas del usuario pueden ser algunos o todos los términos inferidos adicionales 175, de tal manera que permite que el usuario 145 especifique aquellos particulares de los términos inferidos adicionales que realmente son de interés o no, para especificar aquellos particulares de los términos inferidos adicionales que deben ser combinados con los términos conocidos de interés 195 como parte de un tema común, etc. En otras modalidades, algunas o todas las recomendaciones/sugerencias específicas del usuario pueden ser documentos de dominio particular u otros artículos de contenido seleccionado de un grupo de documentos de dominio candidato 165 con base en algunos o todos los términos inferidos adicionales de interés 175, de tal manera que incluye aquellos documentos de dominio seleccionados como parte de los resultados de búsqueda provistos al usuario 145, u de otra manera permitir que el usuario 145 obtenga acceso a los documentos de dominio seleccionados. Como se plantea con mayor detalle en todas partes, los documentos de dominio de candidato 165 pueden ser de diversos tipos, de tal manera que incluye algunos o todos los documentos de dominio 160 utilizados para generar la información de relación entre términos 170a y 170b, no incluye a cualquiera de los documentos de dominio 160 aunque incluyen otros documentos que están relacionados con los mismos uno o más dominios a los cuales corresponden los documentos de dominio 160, para incluir documentos que están relacionados con uno o más dominios adicionales que son diferentes del uno o más dominios iniciales a los cuales corresponden los documentos de dominio 160 (por ejemplo, los dominios adicionales que incluyen documentos con términos que tiene por lo menos un traslape con los términos en los dominios iniciales, de tal manera que extienden en forma automática las relaciones entre términos para que los dominios iniciales proporcionen las recomendaciones iniciales u otras sugerencias para los dominios adicionales independientemente de tener o no información limitada sobre los intereses reales del usuario por los dominios adicionales), etc. Aunque no se ilustra en forma explícita en la figura 1C, la información adicional puede, en algunas modalidades, ser obtenida del usuario que refleja el interés positivo o negativo del usuario en uno o más de los términos inferidos adicionales de interés (por ejemplo, con base en las selecciones del usuario u otras indicaciones en respuesta a lo opcional que proporciona las recomendaciones del usuario 185), y si es así, la retroalimentación opcional 187 puede utilizarse para actualizar el término(s) de interés 195 conocido del usuario con base en la información adicional obtenida del usuario. En otras modalidades, la información específica del usuario 195 puede ser actualizada en momentos aún sin confirmación específica u otras indicaciones del usuario, de tal manera que si la probabilidad de que un término adicional que es de interés para el usuario excede un umbral definido o de otra manera es suficientemente alto. Adicionalmente, aunque no está ilustrado en la figura 1C, la retroalimentación de los usuarios y otras entidades pueden, de manera similar en otras modalidades, ser utilizados para actualizar la información de relevancia entre términos de dominio 170a y 170b, como se plantea con mayor detalle con respecto a la figura 1 B.
Aunque la figura 1C ilustra el uso de la información de relación entre términos determinada en forma automática 170 con respecto a un usuario único 145, se apreciará que la generación y proporción de la recomendación específica del usuario u otra información de sugerencia puede proporcionarse para una variedad de usuarios en diversos momentos. De manera similar, la información generada 170a y/o 170b puede actualizarse en diversos momentos (por ejemplo, en forma periódica cuando los documentos de dominio nuevos 160 estén disponibles, con base en la retroalimentación del usuario que es recibida, etc.), de manera que la versión más reciente de la información generada 170b es utilizada para proporcionar información a los usuarios particulares 145. Adicionalmente, la información de relación entre términos determinada en forma automática 170 puede ser utilizada en una diversidad de otras formas en otras modalidades (por ejemplo, la expansión del término de enunciado de búsqueda, identificación de correcciones para errores ortográficos comunes, aclaración de preferencias específicas del usuario, determinación de temas de términos múltiples específicos del dominio, etc.), como se plantea con mayor detalle en todas partes.
Las figuras 9A a 91, ilustran los ejemplos de técnicas para generar representaciones probabilísticas de relaciones entre términos de un dominio de ejemplo, así como también para utilizar dicha información de representación probabilística generada de diversas formas, de tal manera que puede realizarse en forma automática en parte o en la totalidad mediante una modalidad del servicio DSRD.
En particular, la figura 9A, ilustra una red neural de ejemplo 995e que modela la información de relevancia de relación entre términos determinada, la cual en este ejemplo, se ha generado con base en el análisis de un cuerpo de ejemplo de documentos específicos de dominio para un dominio de interés de ejemplo. En particular, el dominio inicial de interés se relaciona en este ejemplo con el béisbol, y el cuerpo de ejemplo de los documentos específicos de dominio que están disponibles incluyen documentos de diversos tipos (por ejemplo, artículos de noticias, biografías de jugadores, resúmenes de equipos, etc.), como se plantea con mayor detalle con respecto a la ejemplo de las figuras 2A y 2B. Adicionalmente, como se plantea con mayor detalle con respecto a las figuras 2C a 2E, la información específica de dominio de ejemplo de los documentos del cuerpo puede ser analizada y utilizada de diversas formas (por ejemplo, con base en parte en los valores TF-IDT que indican las relaciones de términos con documentos en el cuerpo), incluyendo determinar la información de relevancia de documento de dominio y la información de relevancia entre términos de dominio similar a aquella planteada con respecto a las figuras 1A a 1C. Los ejemplos de las figuras 2C a 2E, proporcionan adicionalmente detalles con respecto a los usos de ejemplo de la información de relevancia determinada en forma automática para las relaciones entre términos, de tal manera que proporciona recomendaciones con base en la información de relación entre términos determinada automáticamente y/o para actualizar la información de relación entre términos determinada en forma automática con base en la retroalimentación del usuario.
En este ejemplo, la red neural entre términos 995e de la figura 9A, se basa en la red neural entre términos de ejemplo 295c de la figura 2C, cuya construcción está planteada con mayor detalle con respecto a la figura 2C. Por ejemplo, la red neural entre términos 995e de la figura 9A, incluyen varios nodos de entrada de datos con base en términos 980 y nodos de salida de datos con base en términos 983 en una forma análoga a los nodos de entrada y salida de datos basada en términos 280 de la figura 2C, y la figura 9A, ilustra adicionalmente la información de relevancia entre términos 999 para indicar los valores de relevancia entre términos particulares para los nodos de salida de datos particulares 983 con base en los nodos de entrada de datos de ejemplo seleccionados particulares 980, en una forma que se basa en los valores de relevancia entre términos análogos 298 ilustrados para la figura 2C. En este ejemplo, los nodos de entrada de datos 980a y 980c que corresponden a los términos "Bonds" y "esteroides" se han sido seleccionados, en una forma análoga a los nodos de entrada de datos seleccionados 280a y 280c de la figura 2C. Con respecto a la figura 2C, el valor de relevancia entre términos 298 para un término de salida de datos particular, se basa en los valores TF-IDF no normalizados promedio para ese término de salida de datos con respecto a los documentos de dominio seleccionados, con aquellos documentos de dominio que están siendo seleccionados con base en ser determinados para ser particularmente relevantes para los términos de entrada de datos seleccionados. Por consiguiente, la red neural entre términos de ejemplo 295c de la figura 2C determina la relevancia entre términos con base, por lo menos en parte, en la relevancia de los términos para los documentos seleccionados en el cuerpo, como se refleja en parte, en los nodos interiores 290 de la figura 2C que representan los documentos de dominio particulares. De manera inversa, la red neural entre términos de ejemplo 995e de la figura 9A no indica correspondencia alguna de manera explícita nodos interiores basados en documento particulares. Por consiguiente, aunque en algunas modalidades los nodos interiores 985 de la figura 9A pueden corresponder a una combinación de los nodos interiores 285 y 290 de la figura 2C, de tal manera que si los valores de relevancia determinados 999 para los nodos de salida 983 se basan en la relevancia de términos para los documentos del cuerpo, en otras modalidades, las determinaciones de relevancia entre términos para los nodos de salida de datos 983 de la figura 9A pueden no basarse en los documentos a los cuales corresponden los diversos términos, y/o la relevancia de los términos entre sí y/o para documentos que pueden ser determinados en forma diferentes a aquellas basadas en los valores TF-IDF. Adicionalmente, se apreciará que, aún si las determinaciones de relevancia entre términos para los nodos de salida de datos de la figura 9A inicialmente se basaran en los documentos con los cuales los diversos términos son determinados por corresponder y/o inicialmente se basan en la información de relevancia determinada utilizando los valores TF-IDF, los vínculos y sus pesos asociados y los valores del nodo de salida de datos resultante de dicha red neural entre términos puede modificarse de manera subsiguiente con base en la retroalimentación, de manera que una versión actual de la red neural entre términos ya no se basa en aquellas determinaciones iniciales. Más generalmente, y como se planteó con mayor detalle con respecto a la figura 2A, la una o más capas de nodos interiores 985 en la figura 9A pueden representar diversos cálculos que son realizados como parte de la generación de números de relevancia entre términos 999 para los nodos de salida de datos particulares 983 con base en los términos de entrada de datos seleccionados particulares 980. Por consiguiente, aunque únicamente se ilustró un grupo único de nodos interiores 985 en la figura 9A, con el objeto de simplificarla, se apreciará que algunas de dichas redes neurales pueden tener capas adicionales de nodos interiores. Adicionalmente, la red neural entre términos 995e de la figura 9A, incluye adicionalmente diversos vínculos entre nodos 982 y 988, y el planteamiento de las figuras 2A a 2D incluye los detalles adicionales con respecto a cómo dichos vínculos son determinados y utilizados como parte de una red neural entre términos (por ejemplo, cómo determinar los pesos asociados con algunos o todos dichos vínculos, así como también cómo utilizar la retroalimentación para actualizar los pesos y/o vínculos).
La figura 9B, ilustra una red neural entre términos 995f similar a la red neural 995e de la figura 9A, aunque únicamente con el nodo de entrada de datos único 980c (que corresponde al término "esteroides") siendo el seleccionado. Por consiguiente, los valores de relevancia entre términos 905 de la figura 9B difieren de los valores de relevancia 999 de la figura 9A, con los valores para los nodos de salida de datos 983b y 983d (que corresponden a los términos "Hank Aaron" y "cuadrangular") en la figura 9B, cayendo de manera significativa, y con el valor de relevancia 905e (que corresponde al término "expediente") en la figura 9B creciendo de manera significativa. Estos cambios en el valor de relevancia pueden comprenderse en forma intuitiva, con base en la relevancia relativamente alta del término de entrada de datos seleccionado anteriormente 980a (que corresponde al término "Bonds") para los nodos de salida de datos 983b y 983d que cayeron de manera significativa, y con base en la relevancia relativamente baja del término de entrada de datos seleccionado anteriormente 980a (que corresponde al término "Bonds") para el nodo de salida de datos 983a que cayó de manera significativa. En las modalidades en las cuales los valores de relevancia entre términos se basan en la relevancia de los términos de salida para documentos seleccionados que son más relevantes para el término(s) de entrada de datos seleccionado(s), el cambio en los valores de relevancia entre términos 905 puede basarse en parte en el grupo de documentos diferente que es seleccionado como relevante para el término de entrada de datos seleccionado único "esferoides" para la figura 9B en relación con la combinación anterior de términos de entrada seleccionados "esferoides" y "Bonds" para la figura 9A (por ejemplo, de tal manera que únicamente los documentos de ejemplo 3 y 4 de los Cuadros 1 y 2, son seleccionados como siendo particularmente relevantes para el término de entrada de datos seleccionado único "esteroides" en la figura 9B, en lugar de todos los documentos de ejemplo 1 a 4, para la combinación anterior de los términos de entrada de datos seleccionados "esteroides" y "Bonds" para la figura 9A, como se planteó con respecto a los cuadros 5 y 9). Adicionalmente, en el ejemplo de la figura 9B, un valor de relevancia 905a se muestra para el nodo de salida de datos 983a (que corresponde al término "Bonds"), mientras que un valor de relevancia correspondiente en la información 298 no se mostró en la figura 2C para el nodo de salida de datos análogo 283a, tal como el basado en el nodo de entrada 280a siendo uno de los nodos de entrada de datos seleccionados en la figura 9A (aunque en otras modalidades, dicho valor de relevancia puede en su lugar, ser calculado y mostrado para todos los nodos de salida si los términos/nodos de entrada de datos múltiples han sido seleccionados). Adicionalmente, la figura 9B incluye nodos de entrada y salida de datos adicionales 980f y 983f, que corresponden al término "Canseco", el cual, aunque no es un término particularmente relevante para la combinación de términos "Bonds" y "esteroides" planteado con respecto a la figura 9A (como se muestra en la fila 274f y la columna 272e del Cuadro 5), es un término altamente relevante para el término de entrada de datos único "esteroides".
CUADRO 9 Ejemplo de técnicas para determinar en forma automática la información específica del usuario de probable interés para usuarios particulares para uno o más dominios de interés de ejemplo, tales como las basadas en información de relevancia determinada en forma automática relacionadas con por lo menos uno de los dominios de interés de ejemplo Información de documento relevante de ejemplo Documentos 912a 912b 912c 912d 912e 912 La figura 9C, ilustra una gráfica acíclica dirigida simplificada de ejemplo ("DAG") 990 que representa por lo menos algunas relaciones entre términos más significativas para el dominio de ejemplo planteado con respecto a las figuras 9A y 9B, Cuadros 1 a 8 y figuras 2A a 2E, de manera que puede utilizarse como parte de una red Bayesiana que incluye representaciones probabilísticas de las relaciones entre términos significativas representadas. Aunque diversos detalles siguen con respecto a cómo el DAG y la red Bayesiana correspondiente pueden ser generados en forma automática para el dominio de ejemplo, se apreciará que la estructura de red y otra información de representación probabilística mostrada en estos ejemplos, no pretenden reflejar de forma precisa un cuerpo de documento real que captura por completo la información diversa de interés para el dominio béisbol - en lugar de, la información utilizada en este ejemplo se basa en parte en los documentos de dominio de ejemplo 1 a 5 planteados con respecto a los Cuadros 1 y 2, lo cual se debe a que la cantidad limitada de datos puede producir diferencias del dominio de béisbol real con respecto tanto a la estructura de red, como a otra información de representación probabilística.
Se muestran a continuación ejemplos de técnicas para determinar en forma automática y utilizar la información de relevación relacionada con un ejemplo de dominio de interés.
CUADRO 1 Cuerpo de documento de ejemplo (1000 documentos Documento de ejemplo 1 (Récord de cuadranquiares de relacionados con béisbol) Bonds) 200 202a 202b 202c 202d 210 212a 212b 212c 212d 212e Documento de ejemplo 2 (Biografía de Bonds) Documento de ejemplo 3 (Acusación de Bonds) 220 222a 222b 222c 222d 222e 230 232a 232b 232c 232d 232e CUADRO 2 Documento de e emplo 4 (Testimonio de Canseco) Documento de ejemplo 5 (Gigantes de San Francisco CUADRO 3 Identificación de relevancia de documento de ejemplo 265a Términos de Búsqueda: esteroides Bonds: 267a TF-IDF mínimo de ejemplo para Bonds: 0.000 267b TF-IDF máximo de ejemplo para Bonds: 3.000 267c TF-IDF mínimo de ejemplo para esteroides: 0.000 267d TF-IDF máximo de ejemplo para esteroides 2.500 Números de relevancia de documento normalizado Documentos 262a 262b 262c 262d 262e 262 Términos Documento Documento Documento Documento Documento 261a 264 1 2 3 4 5 264a Bonds 0.85 0.69 0.98 0.04 0.05 264b Esteroides 0.11 0.07 0.71 0.97 0.00 264x TOTAL 0.48 0.38 0.74 0.51 0.02 CUADRO 4 Resultados de búsqueda de ejemplo 260 266 términos de búsqueda: esteroides Bonds 269 Relevancia de documento Documento 269a 84% (altamente relevante) Documento 3 269b 51 % (moderadamente relevante) Documento 4 269c 48% (moderadamente relevante) Documento 1 269d 38% (de alguna manera relevante) Documento 2 268 ¿Expandir búsqueda para describir más el tema? Si No CUADRO 5 Expansión de relevancia de términos de ejemplo Términos de búsqueda: Esteroides Bonds Términos relacionados adicionales posibles Documentos 272a 272b 272c 272d 272e 272 CUADRO 6 Expansión de búsqueda de ejemplo 276 Términos de búsqueda: esteroides Bonds 279 Relevancia de término (0-10) Término 279a 8 Cuadrangular 279b 4 Acusación 279c 4 Hank Aaron 279d 4 Gigantes 279e 3 Barry CUADRO 7 Identificación de relevancia de documento revisado de ejemplo Términos de búsqueda: Esteroides Bonds "Cuadrangular" Hank Aaron Números de referencia de documento normalizado Documentos 262a 262b 262c 262d 262e 262 CUADRO 8 Identificación de relevancia de documento revisado de ejemplo Términos de búsqueda: Esteroides Bonds Acusación Canseco Números de referencia de documento normalizado Documentos 262a 262b 262c 262d 262e 262 En el ejemplo de la figura 9C, se ¡lustra diversos nodos de gráficos 990a a 990h, que corresponden a siete términos de ejemplo ilustrados en la figura 9B, así como también un término de ejemplo adicional "Bravos de Atlanta". En la gráfica de ejemplo 990, el nodo de gráficos 990a (que corresponde al término "Bonds") se ilustró como siendo dependiente directamente o influenciado de otra forma por los otros cinco nodos de gráficos, aquellos siendo los nodos de gráficos 990b, 990c, 990d, 990e y 990g (que corresponden a los términos "Hank Aaron", "esferoides", "cuadrangular", "expediente" y "Gigantes", respectivamente). Algunos de estos modos diferentes pueden depender directamente o ser influenciados de otra manera por otros nodos de gráficos (por ejemplo, el nodo de gráficos 990d que es influenciado por el nodo de gráficos 990b, el nodo de gráficos 990c que sea influenciado por el nodo de gráficos 990e, etc.), mientras que otros nodos de gráficos no tienen cualquiera de dichas influencias (por ejemplo, los nodos de gráficos 990b, 990e, 990g, etc.). Adicionalmente, en este ejemplo, cada uno de los nodos de gráficos 990a a 990h, puede adicionalmente tener información de probabilidad asociada 992 o 994, que está determinada y asociada con los nodos de gráficos, tales como la información de probabilidad anterior 992 y la información de probabilidad condicional 994, aunque en algunas modalidades, dicha información de probabilidad anterior 992 puede no utilizarse. Adicionalmente, en este ejemplo, los diversos nodos de gráficos 990a a 990h, todos son tratados como variables aleatorias independientes que cada una tiene únicamente dos valores posibles, aunque en otras modalidades, los nodos de gráficos pueden representar otros tipos de valores (por ejemplo, más de dos valores independientes, valores continuos sobre un intervalo especificado, etc.). Los Cuadros 11 y 12, proporcionan detalles adicionales con respecto a los ejemplos de dicha información de probabilidad determinada y los valores de nodo posibles. En otras modalidades, la gráfica 990 que está construida puede, en su lugar, tener otras formas, tal como no ser un DAG (por ejemplo, incluir uno o más ciclos), para tener por lo menos algunos de los nodos como variables aleatorias continuas o de otra manera, tener formas diferentes de las variables aleatorias independientes, etc., y más generalmente, las relaciones entre términos pueden representarse en una forma diferente a una gráfica.
CUADROS 11 Y 12 Ejemplos de técnicas para determinar en forma automática la información específica del usuario de probable interés para usuarios particulares para uno o más dominios de interés de ejemplo, tales como las basadas en información de relevancia determinada en forma automática relacionadas con por lo menos uno de los dominios de interés de ejemplo Información de probabilidad anterior de ejemplo 992g 992b Probabilidad anterior de interés en Gigantes 0.10 994Ó-1 994d-2 994d Interés en Hank Probabilidad de Aaron Interés en cuadrangular 994d-a Si 0.88 994d-b no 0.23 994a-1 994a-2 994a-3 994a-4 994a Para construir la gráfica de ejemplo 990 en este ejemplo, cada uno de los términos del dominio de ejemplo, es seleccionado primero en forma consecutiva como un nodo de entrada de datos individual para una red neural entre términos que representa el dominio de ejemplo (por ejemplo, la red neural entre términos 995f de la figura 9B), y los nodos de salida de datos con los valores de relevancia entre términos asociados más altos son seleccionados como candidatos para representar relaciones entre-términos significativos con el nodo de entrada de datos seleccionado, de manera que los términos que corresponden a los nodos de salida de datos seleccionados, puede probablemente ser influenciado por el término para el nodo de entrada seleccionado. En las modalidades en las cuales, la relevancia entre términos se basa, por lo menos ¡nicialmente en la relevancia de los términos para documentos en el cuerpo, la selección individual de los diversos términos de entrada de datos pueden dar como resultado documentos diferentes que son seleccionados como estando entre los más relevantes para aquellos términos de entrada de datos seleccionados, como se planteó con respecto a las figuras 9A y 9B. Adicionalmente, el Cuadro 9, ilustra la información de ejemplo 910 que indica aquellos particulares de los documentos de ejemplo 1 a 5, que pueden ser seleccionados para utilizar con cada uno de los ocho términos de ejemplo, aunque otros diversos documentos de cuerpo pueden ser seleccionados de manera similar para algunos o todos los términos de ejemplo que no se muestran, y los documentos, de manera similar pueden ser seleccionados para otros términos de ejemplo diversos que no se muestran.
Como se plantea con mayor detalle en cualquier parte de la presente descripción, los documentos particulares para utilizar, pueden ser seleccionados de diversas formas en diversas modalidades, tales como, por ejemplo, los siguientes: un número fijo o porcentaje de los documentos (por ejemplo, diez, mil, etc.), tales como los clasificados por el valor de relevancia TF-IDF del termino de entrada de datos seleccionado para el documento, mediante un valor de relevancia término a documento determinado por una red correspondiente (por ejemplo, red neural 295a de la figura 2D), o en otras formas; todos los documentos sobre uno fijo, tal como el valor TF-IDF, el valor de relevancia término a documento fijo u otro valor, o por encima de un porcentaje, tal como el valor TF-IDF, el porcentaje como el valor de relevancia término a documento u otro valor del término de entrada de datos seleccionado para todos los documentos del cuerpo; para seleccionar todos los documentos de cuerpo, aunque varían su influencia (por ejemplo, pesando cada contribución del documento al candidato más relevante otros términos mediante la relevancia del documento al término de entrada seleccionado, tal como con base en el valor TF-IDF para el término de entrada seleccionado y el documento, sobre el valor de relevancia de término a documento determinado por una red correspondiente, o en su lugar, de otras formas); etc. Como se plantea en todas partes, aunque los valores TF-IDF se utilizan como parte del ejemplo para las figuras 2A a 2E, tal como inicializar los valores de relevancia de término a documento para una red correspondiente, en otras modalidades, la relevancia de los términos para los documentos y/o para otros términos, puede determinarse de otras formas. En este ejemplo, los documentos relevantes pueden ser seleccionados con base en, por ejemplo, teniendo valores TF-IDF o valores de relevancia término a documento para el término de entrada seleccionado que está por encima de 0.400. Después de que se han seleccionado los documentos relevantes (y/o los pesos relativos se selecciona para ser utilizados por cada uno de algunos o todos los documentos posibles) para cada uno de los términos de entrada seleccionados, la relevancia de cada uno de los otros términos de salida al término de entrada seleccionado pueden determinarse utilizando los valores TF-IDF o los valores de relevancia de término a documento para el otro término de aquellos documentos relevantes seleccionados, tales como, por ejemplo, con base en un promedio de dichos valores TF-IDF o valores de relevancia de término a documento. Los detalles adicionales con respecto a la creación de una red neural de relevancia entre términos para modelar dicha información, están incluidos con respecto a las figuras 2A a 2D, incluyendo modificar dicha red neural entre términos después de la creación inicial para reflejar varias retroalimentaciones del usuario (lo cual puede provocar diversos valores de relevancia entre términos para variar de los valores TDF-IF determinados inicialmente con base únicamente en el análisis de documento de cuerpo). Adicionalmente, la relevancia de un término de salida de datos particular para los documentos relevantes múltiples puede determinarse en una variedad de formas diferente de un promedio de los valores TF-IDF del término de salida de datos o los valores de relevancia de término a documento para esos documentos.
Por consiguiente, para los propósitos de este ejemplo, y utilizando únicamente los cinco documentos de ejemplo 1 a 5, la relevancia de otro término de entrada "cuadrangular" 922a del Cuadro 10 para seleccionar el término de entrada "expediente" 924b del Cuadro 10 puede ser de 0.267 (el valor TF-IDF o el valor de relevancia término a documento para el término "cuadrangular" para el documento de ejemplo 3, el cual únicamente es uno de los cinco documentos de ejemplo que se selecciona como relevante para el término de entrada "expediente" como se ilustra en la fila 914b del Cuadro 9), mientras que la relevancia de otro término "expediente" 922b para seleccionar el término de entrada "cuadrangular" 924a puede ser de 0.000 (el valor TF-IDF promedio o el valor de relevancia de término a documento promedio para el término "expediente" para los documentos de ejemplo 1 y 2, los cuales son los documentos de ejemplo seleccionados como relevantes para el término de entrada "cuadrangular", como se ilustró en la fila 914a del Cuadro 9). De esta forma, la red neural entre términos construida anteriormente que representa dicha información entre términos puede utilizarse para proporcionar los valores de relevancia entre términos determinada para los otros términos 922 para cada uno de los términos de entrada seleccionados individualmente 924, como se muestra en la información de ejemplo 920 del Cuadro 5. Adicionalmente, en algunas modalidades, los valores de relevancia entre términos determinados diversos son normalizados (por ejemplo, para estar entre O y 1), aunque dicha normalización no está ilustrada en el ejemplo del Cuadro 10.
CUADRO 10 Ejemplo de técnicas para determinar en forma automática la información específica del usuario de probable interés para usuarios particulares para uno o más dominios de interés de ejemplo, tales como las basadas en información de relevancia determinada en forma automática relacionadas con por lo menos uno de los dominios de interés de ejemplo Información de documento relevante de ejemplo Términos de 922a 922b 922c 922d 922e 922f 922g salida 922 Después de que diversos valores de relevancia entre términos son determinados para los diversos términos de salida para cada uno de los términos de entrada seleccionados, los términos de salida más relevantes para los diversos términos de entrada que pueden seleccionarse con base en tener valores de relevancia entre términos suficientemente altas. Adicionalmente, en este ejemplo, si dos términos son seleccionados como siendo relevantes uno con el otro, únicamente la relación con el valor de relevancia entre términos superior, se selecciona para ser representado en la gráfica, de manera que proporcionan una dirección de mayor influencia entre esos dos términos. De esta forma, la información en el cuadro 920 del Cuadro 10 puede utilizarse para identificar la estructura de la gráfica 990 de la figura 9C (excepto por el término "Bravos de Atlanta", el cual no está enlistado en el Cuadro 10), con los valores de relevancia entre términos que son seleccionados para identificar las relaciones de influencia entre los términos que están siendo mostrados en negritas, por conveniencia. Se apreciará que, en las modalidades en las cuales se desea una gráfica acíclica, las acciones adicionales pueden tomarse si es necesario evitar ciclos, de tal manera que se elimina uno o más vínculos de influencia que son parte de un ciclo (por ejemplo, los vínculos de influencia con los valores de relevancia entre términos correspondiente más bajo para el ciclo), o en su lugar, en otras formas en otras modalidades. Adicionalmente, como se planteó con mayor detalle en todas partes, las relaciones entre términos particulares entre los términos de entrada y los términos de salida a ser utilizados para la gráfica, se pueden seleccionar de diversas formas en diversas modalidades, tales como, por ejemplo, las siguientes: un número o porcentaje fijo de los términos de salida para cada término de entrada (por ejemplo, diez, mil, etc.) como es clasificado mediante los valores de relevancia entre términos; todos los términos de salida sobre uno fijo de dichos valores de relevancia entre términos o por encima de un porcentaje dicho valor de relevancia entre términos para el término de entrada seleccionado y todos los términos de salida posibles; etc. En este ejemplo, para lograr simplicidad, se han seleccionado los términos de salida que tienen un valor de relevancia no normalizado entre términos sobre 0.400. Adicionalmente, en términos de entrada que son permitido para influir en cualquier término de salida particular en la gráfica puede adicionalmente limitarse de diversas formas en diversas modalidades, tal como, por ejemplo, un número o porcentaje fijo de dichos términos de entrada que influencia a cada término de salida (por ejemplo, diez, mil, etc.).
Después de que la estructura de la gráfica de relación entre términos de ejemplo 990 de la figura 9C, se determinó de esta manera, la información de probabilidad de ejemplo 992 y/o 994 pueden ser determinadas de diversas formas. El Cuadro 11 , ilustra los ejemplos de la información de probabilidad anterior 992b y 992g (que corresponden a los términos "Hank Aaron" y "Gigantes", respectivamente), los cuales, en este ejemplo, ambos son tratados como variables aleatorias independientes que tienen únicamente dos valores, que corresponden a un usuario que tiene una preferencia para u otro interés en el término o en su lugar, no tiene preferencia por u otro interés (o tiene una preferencia o interés negativos) en el término. Como se observó anteriormente, en otras modalidades, antes de que la información de probabilidad pueda tener formas diferentes que las variables aleatorias independientes con dos valores (por ejemplo, las variables aleatorias descritas con más de dos valores discretos, variables aleatorias continuas con valores continuos sobre un intervalo especificado, etc.). Por consiguiente, por ejemplo, la probabilidad anterior 992b de un usuario determinado que tiene un interés en el término "Hank Aaron" es identificado como siendo el 5% en este ejemplo, con un valor de probabilidad correspondiente por no estar interesado en el término "Hank Aaron" siendo del 95%. La probabilidad anterior 992g de un usuario determinado que tiene un interés en el término "Gigantes" es identificado como siendo del 10% en este ejemplo (y por consiguiente, tiene un valor de probabilidad correspondiente del 90% de no estar interesado en el término "Gigantes", el cual no se muestra con el objeto de lograr brevedad). Dicha información de probabilidad anterior puede ser accedida en forma automática en diversas formas, tales como utilizando un valor IDF del término a través de los documentos del cuerpo como una representación inversa de la probabilidad de interés del término para los usuarios (por ejemplo, proporcionar una probabilidad anterior superior del interés para un término con el valor IDF más bajo, tal como una probabilidad anterior máxima previamente determinada, y para proporcionar de manera proporcional las probabilidades anteriores más bajas de interés para otros términos con valores IDF crecientes), o en su lugar, de otras formas. En otras modalidades, dicha información de probabilidad anterior puede no ser determinada y utilizada.
El Cuadro 12, ilustra adicionalmente los ejemplos de información de probabilidad condicional 994a y 994d (que corresponden a los términos "Bonds" y "cuadrangulares", respectivamente), los cuales, en este ejemplo, son tratados ambos como variables aleatorias independientes que tienen únicamente dos valores. Por consiguiente, por ejemplo, con respecto a la información de probabilidad condicional 994 para el término "cuadrangular", el cual es influido en este ejemplo únicamente por el término "Hank Aaron", la información de probabilidad condicional 994d ilustra la probabilidad de un usuario determinado que tiene un interés en el término "cuadrangular" para cada valor posible del interés del usuario en el término "Hank Aaron". En este ejemplo, si un usuario determinado tiene interés en el término "Hank Aaron", existe un 88% de probabilidad de que ese usuario determinado también tendrá interés en el término "cuadrangular", mientras que si un usuario determinado no tiene un interés en el término "Hank Aaron", la probabilidad de que un usuano determinado tendrá un interés en el término "cuadrangular" cae al 23%. En una forma similar, con respecto a la información de probabilidad condicional 994a para el término "Bonds", el cual es influido directamente en este ejemplo por cada uno de los términos "Hank Aaron", "Gigantes", "cuadrangular", "esferoides" y "expediente", la información de probabilidad condicional 994d ilustra la probabilidad de que un usuario determinado que tiene un interés en el término "Bonds" para cada combinación posible de valores de ese interés del usuario en los otros cinco términos de los cuales depende el término "Bonds" o están influenciado de otra forma (aunque únicamente se ilustra un sub-grupo de combinaciones posibles, sin información para los términos "esteroides" y "expediente", siendo los mostrados).
Dicha información de probabilidad condicional 994a y 994d pueden ser determinados en forma automática en diversas formas. Por ejemplo, cada combinación de valores de término posibles puede seleccionarse de manera consecutiva individualmente y se utilizan como la entrada a una red neural de relevancia entre términos construida que representa el dominio (por ejemplo, la red neural de relevancia entre términos 995f de la figura 9B), con los diversos valores de relevancia correspondientes para el término de salida "Bonds" siendo rastreado. Aquellos valores de relevancia correspondientes pueden entonces ser convertidos en valores de probabilidad en diversas formas (por ejemplo, para proporcionar una probabilidad más alta de interés para la combinación de valores de término de entrada con el valor de relevancia entre términos correspondiente más alta para el término de entrada "Bonds", tal como una probabilidad máxima previamente determinada, y para proporcionar probabilidades proporcionalmente inferiores de interés para otras combinaciones de valores de términos de entrada con valores de relevancia entre términos correspondientes que disminuyen para el término de salida "Bonds"), o en su lugar de otras formas, como se planteó con mayor detalle en cualquier otro parte. Por ejemplo, en una modalidad particular, la red neural entre términos es vista como define Markov Blanket sobre el término de espacio, en la forma}: rámetrosfoálculo hacia adelante de d a través de AW)<?.vp(-.rw>) Ecuación 6 En donde d es un término de salida, en donde U, V, a, ? y E(d) son parámetros de la red neural entre términos que se plantean con mayor detalle con respecto a las figuras 2A a 2D. Por ejemplo, E(d) es la función de costo de la red neural de relevancia entre términos, de la siguiente manera: Ecuación 7 Debido a que el grupo de parámetros determinístico U, V, a y ? para la red neural entre términos, los valores fijos se asumen en la integral, con funciones de densidad de probabilidad determinada por las funciones Dirac delta, dejando el problema de estimación como una integral sobre los valores de t, asumidos para ser los orígenes del nodo de término d. Asumiendo los valores fijos de los parámetros de red neural, la integral puede ser resuelta en forma determinística, donde como resultado lo siguiente: * j e orígenes de Ecuación 8 En donde la normalización de la función de densidad de probabilidad en la Ecuación 6 tiene como resultado un sigmoideo o función SoftMax que asegura las probabilidades dentro del intervalo de 0 a 1. Por consiguiente, el cuadro de probabilidad condicional para el término d es determinado por p(d\t para cada combinación de los valores de los nodos de origen t (por ejemplo, utilizando el número 1 para representar un interés positivo, y el número 0 ó -1 representa un interés negativo o neutralidad). Adicionalmente, para los grupos de términos, la probabilidad de unión del juego de término sobre el juego completo de nodos de origen, pueden ser calculados. Como se plantea con mayor detalle en otra parte, y para la eficiencia de rutina (así como también para permitir la evidencia de incrustación de grupos grandes de preferencias del usuario dentro del modelo), los árboles de decisión pueden ser generados y utilizados como modelos generativos parametrizados.
Adicionalmente, para un usuario determinada con un grupo de evidencia definido (términos de preferencia), la probabilidad de que el usuario que tiene una preferencia para otro término X puede determinarse realizando la interferencia en la sub-gráfica que expande la evidencia y el término o términos específicos en la preferencia y el término X. En el caso en donde X está desconectado de todos los nodos de evidencia en la estructura de red determinada, se puede devolver una indicación de no resultado. Cuando existe una gráfica que extiende la evidencia y el término X, la interferencia aproximada puede ser realizada en la gráfica (por ejemplo, utilizando el muestreo de Gibbs, con base en las simulaciones de muestreo de Markov de cadena Monte Cario, utilizando los métodos de variación, etc.) para estimar el marginal, sobre los nodos inicializados sin evidencia, de la probabilidad del término X proporcionando la evidencia para el usuario. En otras modalidades, tal como si una red Bayesiana generada es suficientemente pequeña y/o la velocidad del tiempo de respuesta no es importante, la interferencia exacta puede en su lugar ser realizada en por lo menos algunas situaciones.
Por consiguiente, una vez que la estructura de gráficos entre términos y la información de probabilidad son determinadas para la gráfica 990 de la figura 9C, la gráfica puede ser utilizada como una red Bayesiana, cuya información es una representación probabilística de las relaciones entre términos significativas para el dominio(s) de interés. Por consiguiente, la figura 9D, ilustra un sub-grupo 970 de dicha red Bayesiana, en una forma similar a la gráfica 990 de la figura 9C. En este ejemplo, la evidencia ha sido obtenida con respecto a las preferencias de un usuario de ejemplo determinado (Usuario X), el cual incluye preferencias positivas para los términos "Hank Aaron" y "cuadrangular", aunque una preferencia negativa (o no preferencia) para el término "Gigantes", como se reflejó en los nodos de evidencia específicos del usuario nuevos 993b, 993d y 993g, respectivamente, que se han agregado al sub-grupo de la red Bayesiana 970. Adicionalmente, en este ejemplo, únicamente el sub-grupo de la red Bayesiana que es relevante para el término objetivo "Bonds" y se muestra la evidencia disponible -por consiguiente, los nodos 990e y 990c que corresponden a los términos "expediente" y "esteroides", respectivamente, no pueden utilizarse en esta situación para determinar la probabilidad del usuario X de interés en el término "Bonds" con base en la falta de videncia del interés del usuario X en esos términos (aunque en otras modalidades, la información con respecto a la información de probabilidad anterior 992e y/o la información de probabilidad condicional 994c que pueden influenciar la probabilidad de aquellos nodos siendo preferidos por el usuario X, pueden ser considerados). Por consiguiente, debido a que la evidencia específica del usuario 993b, 993d y 993g (e ignorando la influencia de los nodos 990e y 990c), una determinación específica del usuario es realizada porque el usuario X tiene una probabilidad del 92% de tener una preferencia para el término objetivo "Bonds" (como está reflejado en la fila 994a a 994f de la información 994a del Cuadro 12, ignorando nuevamente la influencia de los nodos 990e y 990c como objetivo de este ejemplo), como se ilustró mediante el valor de probabilidad de preferencia determinado 996a en este ejemplo. También pueden realizarse determinaciones similares de la probabilidad del usuario X de las preferencias para otros nodos de términos en la red Bayesiana completa, debido a que la evidencia disponible de las preferencias del usuario X, tal como para el nodo 990h (que corresponde al término "Bravos de Atlanta") y/u otros nodos, aunque dichas determinaciones no están ilustrada en la figura 9D. Una vez que las probabilidades de preferencia son determinadas para uno o más de dichos nodos objetivo, los nodos objetivo particulares pueden ser seleccionados con probabilidad suficiente (por ejemplo, con base en el exceso de un umbral definido para la probabilidad de preferencia u otra probabilidad determinada, o por otra parte satisfacer uno o más criterios determinados) para presentar las preferencias adicionales de ese usuario particular que todavía no han sido expresadas por el usuario o se han puesto a disposición para el servicio DSRD, tal como en este ejemplo para tener una preferencia no expresada para el término "Bonds". Dichos nodos objetivo particulares pueden ser seleccionados de diversas formas, tal como, por ejemplo, las siguientes: un número fijo o porcentaje de dichos términos objetivo clasificados por los valores de probabilidad de preferencia determinados; todos los términos objetivo sobre uno fijo, tal como el valor de probabilidad de preferencia determinada o porcentaje, dicho valor de probabilidad de preferencia determinado para todos los términos objetivo posibles; etc.
Como se planteó anteriormente, uno o más árboles de decisión también pueden ser generados para representar cada uno, un grupo de red Bayesiana u otra representación probabilística de la información de relación entre términos. La figura 9E, ilustra un ejemplo de un árbol de decisión 915 que es construido para representar la porción de la red Bayesiana 970 ilustrada en la figura 9D (siendo los nodos 990a, 990b, 990d y 990g, nuevamente asumiendo la simplificación de que otros nodos 990e y 990c no tienen una influencia en el nodo 990a que corresponde al término "Bonds" para este ejemplo). Los diversos ocho nodos de extremo 917h a 917o del árbol de decisión corresponden a las ocho filas 994a a 994h hasta 994a-a del Cuadro 12, y con cada uno de dichos nodos de extremo teniendo un valor de probabilidad de preferencia correspondiente para el nodo de gráficos 990a que corresponden al término "Bonds" como se muestra en la columna 994a-4 de la información 994a del Cuadro 12. Los nodos de decisión adicionales 915a a 915g del árbol de decisión corresponde a los valores variables para los tres nodos 900b, 990d, y 990g que son tratados en este ejemplo, teniendo una influencia en el valor de probabilidad de preferencia para el nodo de gráficos 990a. Por consiguiente, utilizando la evidencia específica del usuario 993b, 993d y 993g de la figura 9D para el usuario X, el árbol de decisión 915 podría ser atravesado en la forma indicada, de la siguiente manera: tomando la flecha izquierda del nodo de decisión 915a (que corresponde a una preferencia positiva para el término "Hank Aaron"), tomando después la flecha derecha del nodo de decisión 915b (que corresponde a una preferencia negativa o neutral para el término "Gigantes"), y tomando entonces la flecha izquierda del nodo de decisión 915e (que corresponde a una preferencia positiva para el término "cuadrangular"), llegando de esta manera en el nodo de extremo 917j que indica el valor de probabilidad de preferencia del 92% para el término "Bonds". Se apreciará que dichos árboles de decisión pueden ser generados, codificados y compilados en diversas formas para mejorar la velocidad del procesamiento de tiempo de ejecución que proporciona la evidencia de preferencia particular para un usuario particular.
Adicionalmente, como se plantea en cualquier parte, en algunas modalidades, la información de relevancia entre términos determinada para uno o más primeros dominios (por ejemplo, obtenida mediante el análisis de documento para aquellos primeros dominios y/o la retroalimentación de usuario que corresponde a esos primeros dominios) puede extenderse a uno o más segundos dominios para los cuales está disponible información de preferencia únicamente limitada o que no es del usuario. La figura 9F, ilustra una gráfica de ejemplo 960 que es similar a la gráfica 990 de la figura 9C, aunque la cual se ha expandido en este ejemplo para identificar la información de relevancia entre términos para los términos nuevos de un segundo dominio de interés nuevo. En particular, en este ejemplo, los diversos documentos u otros artículos de contenido se han analizado correspondientes al dominio de películas americanas, y diversas relaciones probabilísticas entre términos significativas han sido identificadas entre los términos nuevos en el dominio de película para los términos existentes en el dominio de béisbol. En este ejemplo, los términos relacionados con películas corresponden a los títulos de las películas, de manera que el gráfico expandido 960 es una red Bayesiana que incluye no únicamente los nodos de gráficos 990a a 990h, sino también los nodos de gráficos nuevos 960a a 960i, que corresponden a nueve películas de ejemplo (adicionalmente, para utilizarse como parte del ejemplo, los dos nodos relacionados con el dominio de béisbol adicionales 990i y 990j se han agregado correspondiendo a los términos "Atléticos de Oakiand" y "Mark McGwire", los cuales tienen influencia en los nodos previamente existente 990g y 990f, como está ilustrado).
En particular, en este ejemplo expandido, los ejemplos se han identificado de manera automática a partir del nodo de gráficos existente 990d (que corresponde al término "cuadrangular") para películas múltiples relacionadas con el béisbol, en las cuales, los cuadrangulares son una parte importante de la trama, los cuales, en este ejemplo, incluyen a las películas "Bull Durham", "The Natural" y "Hank Aaron: Chasing the dream". Dicha identificación automática de influencia puede ser determinada en una forma similar a aquella planteada anteriormente, tal como analizando los artículos de contenido que incluyen resúmenes de tramas de películas y/o críticas de películas de críticos, e identificación de una relevancia significativa del término "cuadrangular" para esas películas - adicionalmente, como se planteó con mayor detalle en cualquier parte, esta identificación automática de influencias adicionales, opcionalmente puede ser realizada sin información alguna sobre cualesquiera usuarios que tienen preferencias, tanto para el término "cuadrangular" como para cualquiera de las películas indicadas (o más generalmente sin información alguna sobre cualesquiera preferencias de los usuarios para cualesquiera películas). Adicionalmente, en este ejemplo, otras diversas relaciones probabilísticas entre términos significativas se han determinado adicionalmente, tales como las siguientes: entre la película relacionada con el béisbol "Bull Durham" y la película relacionada con el básquetbol "Hoosiers" (por ejemplo, con base en ambas películas estando en las listas de las mejores películas relacionadas con deportes, o de otra forma siendo comparado en artículos de contenido para el segundo y/o primer dominios); entre "The Natural" y "Butch Cassidy and the sundance kid" (por ejemplo, con base ambas en tener a Robert Redford como protagonista); de cada una de "The Natural" y "Hoosiers" para "Downhill racer" (por ejemplo, con base en los protagonistas de ambas películas estando en la última película); entre "The Natural" y "Ordinary People" (por ejemplo, con base en tener a Robert Redford como un actor en una y un director para la otra); entre "Ordinary people" y "Raging bull" (por ejemplo, con base en que ambas fueron nominadas para mejor película en el mismo año, y/o de otra forma, siendo planteadas juntas); etc. Se apreciará que las relaciones entre las películas, y entre los términos relacionados con béisbol y las películas, pueden ser identificadas en una variedad de formas en las diversas modalidades. Adícionalmente, debido a que dicha red Bayesiana expandida, las preferencias determinadas del usuario en el dominio relacionado con el béisbol pueden utilizarse para identificar las probables películas objetivo en las cuales ese usuario también tendrá una preferencia. Por ejemplo, debido a que la evidencia del usuario X planteada en la figura 9D, incluyendo las preferencias para los términos "Hank Aaron" y "cuadrangular", pude inferirse que el usuario X probablemente tendrá preferencias para películas tales como "Hank Aaron: chasing the dream", "The Natural", y "Bull Durham" y posiblemente también con otras películas relacionadas (por ejemplo, "Hoosiers", "Ordinary people", etc.).
Como se planteó con respecto a los cuadros 1 1 y 12, y en cualquier parte, la información de probabilidad para utilizar en una red Bayesiana u otra estructura de datos de relación probabilística determinada relacionada con uno o más dominios puede determinarse de diversas formas en diversas modalidades, incluyendo con base en el análisis de documentos para el dominio(s), y opcionalmente sin retroalimentación alguna de los intereses de los usuarios reales en relaciones entre términos particulares. Adicionalmente, como se observó anteriormente, si dicha información de interés de usuario real está disponible, la información de interés de usuario real puede incorporarse con la información de relación entre términos determinada en forma automática a partir del análisis de documento automatizado en diversos momentos (por ejemplo, como parte de la creación inicial de la información de probabilidad, para actualizar la información de probabilidad que inicialmente se determinó únicamente con base en el análisis de documento automatizado, etc.), y en algunas situaciones y modalidades, pueden utilizarse para reemplazar la información de relación entre términos determinados en forma automática a partir del análisis de documentos automatizados (por ejemplo, si se hace disponible la información de interés del usuario real suficiente). El Cuadro 13, ilustra los ejemplos actualizados de la información de probabilidad anterior 992b del Cuadro 11 y de la información de probabilidad condicional 994a del Cuadro 12, de tal manera que si las versiones iniciales de la información de probabilidad 992b y 994a, se genera con base en la información de relación entre términos determinada en forma automática a partir del análisis de documento automatizado, y las versiones actualizadas de la información de probabilidad 992b y 994a se basa, por lo menos en parte, en la información de interés del usuario real. Por ejemplo, el Cuadro 13 ¡lustra que la información de probabilidad anterior actualizada 992b relacionada con el interés del usuario en el término "Hank Aaron", refleja una probabilidad anterior real del 18% de un interés del usuario determinado en el término "Hank Aaron" actualizado a partir de la probabilidad anterior previa de únicamente el 5% de un interés de usuario determinado en el término "Hank Aaron". Adicionalmente, la información de probabilidad condicional actualizada 994a en el Cuadro 13, muestra las actualizaciones que se han realizado a la probabilidad 994a-4 de un interés del usuario determinado en el término "Bonds" para las filas 994a-a (de 0.12 a 0.09) y 994a-f (de 0.92 a 0.87) y otros valores de las filas pueden ser relacionados con el interés del usuario real actualizado de manera similar con la combinación de valores de entrada para aquellas filas que se ponen disponibles. Dicha información de probabilidad actualizada puede adicionalmente ser utilizada con una versión actualizada de una red Bayesiana correspondiente y/o un árbol de decisión, como se describe con mayor detalle con respecto a las figuras 9G y 9H.
CUADRO 13 Ejemplo de técnicas para determinar en forma automática la información específica del usuario de probable interés para usuarios particulares para uno o más dominios de interés de ejemplo, tales como las basadas en información de relevancia determinada en forma automática relacionadas con por lo menos uno de los dominios de interés de ejemplo Información de probabilidad actualizada de ejemplo 994d-1 994 -2 992b 994a-1 994a-2 994a-3 994a-4 994a Por consiguiente, en por lo menos algunas modalidades, la información determinada en forma automática sobre las relaciones entre términos para un dominio puede obtenerse y utilizarse (por ejemplo, con base en el análisis de documentos para el dominio), y la información de interés del usuario real diferente que refleja las relaciones entre términos para el dominio pueden obtenerse y utilizarse. En situaciones en las cuales, están disponibles ambos de estos tipos de información, estos pueden ser combinados de diversas formas. Por ejemplo, como se planteó anteriormente, las figuras 9A y 9C, ilustran los ejemplos de redes entre términos que pueden ser generadas con base en un análisis automatizado de documentos de un dominio, y que pueden ser modificados opcionalmente con base en la retroalimentación del usuario. Aunque no se ilustra en la presente, en algunas modalidades, uno o más redes entre términos similares pueden generarse para reflejar la información de interés del usuario real, aunque opcionalmente pueden diferir en una o más formas de las redes entre términos generadas a partir del análisis de documentos automatizado. Por ejemplo, en comparación con la figura 9C, una red entre términos similar puede ser generada con base en la información de interés del usuario real, aunque carece del vínculo existente en la figura 9C del término "expediente" 990e para "Bonds" 990a (por ejemplo, con base en que existen pocos o ningún usuario que indicaron realmente un interés positivo y/o negativo para ambos de estos términos juntos), y que incluye adicionalmente un vínculo nuevo en relación con la figura 9C, del término "Canseco" 990f para "Bonds" 990a (por ejemplo, con base en que existen uno o más usuarios que indicaron interés positivo y/o negativo para ambos de estos términos juntos, tal como con base, por lo menos en parte, en las habilidades de José Canseco para batear cuadrangulares). Adicionalmente, dicha red entre términos de interés del usuario real similares pueden incluir grados de relevancia de los términos particulares (por ejemplo, como se reflejó en los cuadros de probabilidad condicional y/o la información de probabilidad anterior para la red entre términos de interés del usuario real), ya sea en lugar de o además de una o más diferencias estructurales en la red entre términos de interés del usuario real en relación con la red entre términos de análisis automatizado de documentos. Si los datos están disponibles correspondiendo tanto a una red entre términos de análisis automatizado de documentos como una red entre términos de interés real del usuario para el mismo dominio, los datos pueden ser utilizados de diversas formas. Por ejemplo, para generar un grupo particular de las recomendaciones provistas a un grupo particular de preferencias de usuario conocidas, ambos tipos de redes pueden ser evaluadas independientemente utilizando aquellas preferencias del usuario conocidas en algunas modalidades, y los resultados de las dos redes pueden ser agregadas juntas. Alternativamente, los datos que corresponden a los dos tipos de gráficos se pueden utilizar para construir una red entre términos agregadas únicas en diversas formas, y porque una red entre términos agregados únicos se puede utilizar para proporcionar recomendaciones que corresponden a un grupo particular de preferencias conocidas del usuario. La construcción de una red entre términos agregado único puede incluir, por ejemplo, utilizando la información sobre la estructura de la red entre términos de interés del usuario real y los datos de la red entre términos de análisis automatizado de documentos para especificar el grado de relevancia entre los términos, o más generalmente puede incluir el uso de datos desde una de las redes para cortar y/o aumentar la estructura de la otra red, y/o más generalmente, puede incluir el uso de datos de una de las redes para ajustar la fuerza o influencia de las relaciones entre términos para la otra red. Por consiguiente, como se planteó anteriormente, la información de relevancia entre términos obtenidas a partir del análisis automatizado de los documentos del cuerpo pueden integrarse en forma automática en por lo menos algunas modalidades con los datos de relevancia entre términos relacionadas con el usuario que se obtiene de otras formas (por ejemplo, el filtrado en colaboración, etc.), proporcionando potencialmente beneficios sobre el uso de cualquiera de dichas técnicas en solitario.
Se apreciará que las actualizaciones para la información de probabilidad determinada pueden realizarse en una variedad de formas en diversas modalidades, y puede reflejar diversos factores. Por ejemplo, la actualización a la información de probabilidad anterior 992b para el término "Hank Aaron" puede reflejar que los documentos en el cuerpo de dominio analizado inicialmente se enfoca principalmente en las noticias actuales, de manera que el interés del usuario real actual en por lo menos algunos jugadores históricos puede ser superior que lo que podría ser indicado por los documentos de cuerpo de dominio analizado, puede reflejar un interés de crecimiento actual en el término "Hank Aaron" en relación con un momento al cual corresponden los documentos de cuerpo de dominio analizado inicialmente, etc. Cuando la información de interés de usuario real está combinada con la información de interés de usuario determinada en forma automática con base en el análisis automatizado de documentos de cuerpo de dominio, la combinación puede ser realizada de diversas formas, tal como pesando uno o ambos tipos de información de interés del usuario (por ejemplo, para proporcionar mayor peso al tipo de información que se considera ser más precisa, para proporcionar mayor peso al tipo de información que es más reciente, etc.). Como un ejemplo simplista, la información de interés del usuario que se determina en forma automática con base en el análisis automatizado de los documentos de cuerpo de dominio, puede tratarse como el equivalente de información de interés de usuario real de 10 usuarios, de tal manera que si 5 de 20 usuarios reales se determinan por tener un interés en el término "Hank Aaron", la información de probabilidad anterior actualizada podría ser indicada en el ejemplo (es decir, (5 + 0.05 * 10) / (20 + 10) = 0.183). Alternativamente, el peso provisto a la información de interés del usuario real puede variar con base en el número de usuarios reales, tal como para proporcionar únicamente peso limitado al interés del usuario real de los primeros pocos usuarios (por ejemplo, de manera que evita que la información anómala tenga un efecto disparado en la información de probabilidad combinada), para incrementar el peso de manera exponencial a medida que crece el número de usuarios, y opcionalmente para descartar o ignorar eventualmente (o proporcionar un peso relativo muy bajo) la información de interés de usuario determinada en forma automática con base en el análisis automatizado de documentos de cuerpo de dominio a medida que el número de usuarios reales alcanza una cantidad suficiente. Las actualizaciones a la información de probabilidad condicional 994a para el término de salida "Bonds" puede ser actualizado en una forma similar a aquella de la información de probabilidad anterior 992b. Por ejemplo, con respecto a los cambios en la probabilidad 994a-4 para el término "Bonds" con respecto a la fila 994a-f, la reducción en esa probabilidad puede basarse en uno o más usuarios que se determina tienen interés real en los términos "Hank Aaron" y "cuadrangular" (que corresponden a los valores "si" en las columnas 994a-1 y 994a-3 para la fila 994a-f) y para tener una falta real de interés (o interés negativos) en el término "Gigantes" (que corresponde al valor "no" en la columna 994a-2 para la fila 994a-f), y adicionalmente tiene una falta real de interés (o interés negativo) en el término "Bonds".
La figura 9G, ilustra un árbol de decisión actualizado 918 de estructura de datos que es similar al árbol de decisión 9 5 de la figura 9E, con los mismos nodos de decisión 915a a 915g, aunque con los nodos de extremo 918h a 918o ilustrados en la figura 9G, que reflejan la información de probabilidad condicional actual que corresponde al término "Bonds". En particular, en este ejemplo, los nodos 918j y 918o, se han actualizado con respecto a los nodos 917j y 197o de la figura 9E, con el nodo 918j en este ejemplo ilustrando el valor de probabilidad actualizado del 87% de la columna 994a-4 y la fila 994a-f del Cuadro 13, y con el nodo 918o en este ejemplo, ilustrando el valor de probabilidad actualizado del 9% de la columna 994a-4 y la fila 994a-a del Cuadro 13. Por consiguiente, a medida que la información de interés del usuario real se vuelve disponible para actualizar la información de probabilidad (tal como la información 994a del Cuadro 13), que corresponde a la información de árbol de decisión (tal como el árbol de decisión 915) puede ser actualizada para uso futuro. Por consiguiente, los usuarios adicionales que, por ejemplo, se determina que tienen una preferencia para u otro interés en los términos "Hank Aaron" y "cuadrangular", aunque tiene una carencia de una preferencia por u otro interés (o preferencia o interés negativo) en el término "Gigantes" se determinó tiene una probabilidad del 87% de tener una preferencia por u otro interés en el término "Bonds" de acuerdo con el nodo 918j del árbol de decisión actualizado 918.
En una forma similar a aquella de la figura 9G, la figura 9H ilustra una porción de red Bayesiana actualizada 970b de estructura de datos que es similar a la porción de red Bayesiana 970 de la figura 9D, con los mismos nodos gráficos 990a a 990e y 990g, aunque con nodos de evidencia 997b, 997d y 997g, ilustrados en la figura 9H que refleja la evidencia para un usuario nuevo (en este ejemplo, el usuario Y) que tiene la misma información de preferencia indicada como el ejemplo del usuario X de la figura 9D. En particular, en este ejemplo, la información del cuadro de probabilidad condicional 994a (no mostrado) para el nodo de gráficos 990a (que corresponden a los términos "Bonds") de la figura 9H que se han actualizado con respecto a la información del cuadro de probabilidad condicional para el mismo nodo en la figura 9D, tal como en este ejemplo, para reflejar el valor de probabilidad actualizada del 87% de la columna 994a-4 y la fila 994a-f del Cuadro 13 (así como también el valor de probabilidad actualizada del 9% de la columna 994a-4 y la fila 994a-a del Cuadro 13). La información de probabilidad anterior 992b (no mostrada) para el nodo de gráficos 990b (que corresponde al término "Hank Aaron" de la figura 9H, puede actualizarse de manera similar con respecto al mismo nodo de gráficos de la figura 9D, de manera que refleja la información de probabilidad anterior actualizada 992b de la figura 2C, aunque no se utiliza en este ejemplo. Por consiguiente, a medida que la información de interés del usuario real se vuelve disponible para actualizar la información de probabilidad (tal como la información 994a del Cuadro 13), que corresponden a la información de red Bayesiana (tal como para la porción de red Bayesiana 970b) puede ser actualizada para uso futuro. Por consiguiente, en este ejemplo, con respecto al usuario Y, quien se ha determinado que tiene una preferencia por u otro interés en términos de "Hank Aaron" y "cuadrangular" (como se muestra en los nodos de evidencia 997b y 997d), aunque tiene una falta de preferencia por u otro interés (o preferencia o interés negativo) en el término "Gigantes" (como se muestra en el nodo de evidencia 997g), se determinó tener una probabilidad del 87% de tener una preferencia para u otro interés en el término "Bonds", como se muestra mediante el valor de probabilidad de preferencia 996b de la figura 9H.
Por consiguiente, la información que corresponde a las representaciones probabilísticas de las relaciones entre términos, tal como puede determinarse, por lo menos en parte, en el análisis automatizado de documentos relacionados con un dominio, puede ser actualizado para reflejar la información de interés real del usuario que se vuelve disponible, tal como en la forma ilustrada con respecto al Cuadro 13 y las figuras 9D a 9H. Adicionalmente, en algunas situaciones, dicha información de interés del usuario real puede identificar relaciones entre términos adicionales que no se determinaron anteriormente para ser suficientemente relevantes con base únicamente en la información que estuvo disponible previamente, y si es así, las representaciones probabilísticas generadas de las relaciones entre términos pueden ser actualizadas para reflejar las relaciones entre términos adicionales. Como un ejemplo, una red neural de relevancia entre términos u otra representación de la información de relevancia entre términos puede actualizarse para reflejar la información de interés real del usuario, y las representaciones probabilísticas de las relaciones entre términos pueden ser generadas recientemente con base en la información de relevancia entre términos actualizadas. En otras modalidades y situaciones, por lo menos algunos tipos de información de representación probabilística de relación entre términos generada puede en su lugar sea actualizada de otras formas.
Como se observó anteriormente, los Cuadros 1-8 y las figuras 2A a 2E, ilustran ejemplos de técnicas para determinar y utilizar la información de relevancia relacionada con un dominio de interés de ejemplo, tal como aquel que puede realizarse en forma automática mediante una modalidad del servicio DSRD, e incluye detalles adicionales relacionados con diversos de los ejemplos planteados en las figuras 9A a 9F y los Cuadros 9 a 12.
Por ejemplo, los cuadros 1 y 2, ilustran los ejemplos de la información de resume sobre varios documentos que son parte de un dominio de interés de ejemplo particular, junto con la información de análisis de términos de ejemplo que pueden ser generados por una modalidad del servicio DSRD para los documentos relacionados con el dominio. En particular, como se indicó con respecto a la información de resumen de ejemplo 200, el dominio de interés de ejemplo se relaciona con el béisbol, y el cuerpo de los documentos específicos de dominio que están disponibles en este ejemplo para el dominio incluye 1000 documentos (por ejemplo, artículos de noticias, biografías de jugadores, resúmenes de equipo, etc.).
La información 200 en este ejemplo incluye un resumen de unos pocos términos de ejemplo que están presentes en el cuerpo, junto con la información IDF para aquellos términos. En particular, se muestran varios términos 202a, con cada uno teniendo una ID de término 202b, una indicación de un número de documentos 202c en el cuerpo que incluye que el término, y un valor IDF correspondiente 202d para el término y los documentos de cuerpo. Otra información diversa de resumen también puede ser generada y almacenada, aunque no se muestra en este ejemplo. Adicionalmente, cada fila 204 en el cuadro de ejemplo 200 refleja un término diferente, tal como para la fila 204a que corresponde al término común "el", el cual está presente en cada uno de los 1000 documentos en el cuerpo, y por consiguiente tiene un valor IDF de cero. En este ejemplo, las filas 204 se clasifican con base en el valor IDF, de manera que los términos subsiguientes tienen valores IDF crecientes, lo que refleja su presencia en menos de los documentos del cuerpo que los términos precedentes, y por consiguiente, son más distintivos con respecto a aquellos documentos en los cuales están presentes. Adicionalmente, en algunas modalidades, algunos términos comunes u otros términos indicados (por ejemplo, el término "el") pueden removerse como parte del análisis de términos del documento, y por consiguiente, no puede mostrarse en dicha información de resumen 200 o utilizarse en la última determinación de la información relacionada de relevancia. Adicionalmente, algunos de los términos 202a en este ejemplo son frases que incluyen palabras relacionadas múltiples, tales como "cuadrangular" y "Hank Aaron", mientras que se pueden utilizar otros términos juntos por momentos (por ejemplo, "Barry Bonds" y "Bobby Bonds") se muestran como términos separados. Se apreciará que dichos término agregados de palabras múltiples pueden ser determinados de diversas formas, tal como basado en forma automática en su uso repetido junto y carece del uso por separado, basado automáticamente en la inclusión de dichos términos en un diccionario de términos comunes para el dominio u otra información similar, por lo menos parcialmente de forma manual con base en la entrada de un operador del servicio DSRD, etc. En otras modalidades, cada palabra puede ser tratada como un término separado, por lo menos inicialmente, y opcionalmente puede ser agrupada posteriormente como parte de un tema de términos múltiples común con base en una relevancia aprendida de la inter relación de estos términos a partir de los términos que los usuarios utilizan en forma repetida juntos, como se planteó con mayor detalle en cualquier parte.
Los otros cuadros de ejemplo 210, 220, 230, 240 y 250 que se ilustran en los cuadros 1 y 2, reflejan cada uno un documento de ejemplo en el cuerpo, e incluye información diversa sobre los términos de ejemplo en aquellos documentos e información de relevancia de términos correspondiente para esos términos y esos documentos. En particular, la información 210 corresponde a un documento de ejemplo 1 , el cual, en este ejemplo, es un artículo de noticias relacionado con Barry Bonds estableciendo el récord de carreras por cuadrangular ("HR") en 2007, mientras que jugaba para los Gigantes de San Francisco, superando el récord anterior sostenido por Hank Aaron. Mientras que Bonds perseguía el récord por cuadrangulares, también se generó una cobertura de noticias significativas en proceso relacionada con la controversia de esferoides entre los jugadores en la Liga mayor de béisbol, y Bonds fue acusado posteriormente de los cargos relacionados con las declaraciones con respecto a su uso alegado de esteroides.
Las diversas entradas 214 en el cuadro 210, corresponde cada una a un sub-grupo de términos 212a de ejemplo que están presentes en el documento 1 de 1500 palabras, tal como el término "Bonds" en la entrada 214a, el término "Hank Aaron" en la entrada 214c, etc. También se ilustra el número de ocurrencias 212b de cada término en el documento 1 , y se muestra un valor de frecuencia de términos correspondientes 212c. Los valores IDF 212d también son replicados para los términos y corresponden a los mismos valores 202d en la información 200. Adicionalmente, cada entrada 214 incluye un valor TF-IDF 212e con base en el valor de frecuencia de términos 212c y el valor IDF 212d. Por ejemplo, el término "Bonds" en la entrada 214a está indicado ocurriendo 35 veces en el documento 1 , lo cual tiene como resultado una frecuencia de 2.33% entre las 1500 palabras del documento. El valor IDF 212d para el término "Bonds" es de 1.10, ya que corresponde a la información 202d de la entrada 204d de la información 200, y el valor TF-IDF 212e para Bonds en la entrada 214a en este ejemplo que es de 2.559. Las entradas 214 son ilustrada en este ejemplo con el objeto de disminuir el valor de los valores TF-IDF, indicando que el término "Bonds" es el término más descriptivo para este documento que se ilustró, aunque otros términos, tales como "el" y "acusado" en las entradas 214i y 214j, respectivamente, no son descriptivos de este documento (por ejemplo, debido a que el término "el" está presente en todos los documentos del cuerpo y por consiguiente tiene un valor IDF cero, y debido a que el término "acusado" no ocurre en este documento de ejemplo, y por consiguiente, tiene un valor de frecuencia de término de cero 212c). Mientras que el término "acusado" está incluido en este ejemplo para el documento 1 por razones explicativas, en otras modalidades, el término podría no estar incluido en la información 210 debido a que no está presente en el documento 1. Los detalles adicionales con respecto al cálculo de los valores TF y TF-IDF están incluidos en otra parte.
Los cuadros 220, 230, 240 y 250, incluyen información similar para documentos de ejemplo 2, 3, 4 y 5, respectivamente. En particular, el documento de ejemplo 2 es un esquema de la biografía de Barry Bonds, enfocándose en los diversos logros de Bonds e incluyendo términos correspondientes 222a, como se muestra en las diversas entradas 224. El documento de ejemplo 3 es un artículo de noticias que corresponden a la acusación de Bonds con base de relación en los abusos relacionados con esteroides posibles, e incluye los términos correspondientes 232a como se muestra en las diversas entradas 234. El documento de ejemplo 4 corresponde a un evento que ocurrió antes de la acusación de Bonds e inició alguna de las controversias relacionadas con esteroides en la Liga mayor de béisbol, y en particular, corresponde al antes jugador de la Liga Mayor de béisbol, José Canseco que testifica ante el Congreso relacionado con el uso alegado de esteroides en la Liga mayor de béisbol, con términos correspondiente 242a mostrados en las diversas entradas 244. El documento de ejemplo 5 es un artículo de noticias a mediados de la temporada de la Liga mayor de béisbol 2008 y se enfoca en el estado actual del equipo de los Gigantes de San Francisco, para el cual, Bonds dejó de jugar después de la temporada 2007, con términos correspondientes 252a mostrados en diversas entradas 254. Como se plantea con mayor detalle con respecto a los cuadros 3 a 8 y las figuras 2A a 2E, la información de términos de ejemplo de estos documentos de ejemplos también se utilizará para ilustrar algunas de las técnicas descritas en los términos para determinar temas de temas múltiples relevantes y otras relaciones entre términos, así como también, la determinación de documentos relevantes para términos particulares, para este dominio relacionado con el béisbol de ejemplo.
Los Cuadros 3 y 4, ilustran un ejemplo de un enunciado de búsqueda especificado por un usuario, en el cual, la información de análisis de término de ejemplo ilustrada en los Cuadros 1 y 2 para los documentos de ejemplo 1 a 5 del corpus, puede ser utilizado por el servicio DSRD para determinar la información particular que es relevante para la búsqueda. En particular, el Cuadro 3, ilustra una búsqueda que ha sido especificada por un usuario, la cual, en este ejemplo incluye los términos de búsqueda 265a "Bonds" y "esferoides". La información diversa 261a muestra que indica un grado de relevancia evaluado de cada uno de los dos términos de búsqueda para cada uno de los documentos de ejemplo 1 a 5, incluyendo una clasificación o número 264x de relevancia de documento agregado normalizado generado para cada uno de los documentos de ejemplo 262. Como se describe con mayor detalle más adelante, un número de relevancia de documento normalizado puede ser generado para cada término 264 y cada documento 262, con las calificaciones normalizadas para cada término para un documento que está siendo promediado en este ejemplo para generar un número de relevancia de documento 264x para el documento, con base en la combinación de los dos términos de búsqueda. En particular, en este ejemplo, la relevancia de un término para un documento se basa en parte en el valor TF-IDF para ese término y documento, y es normalizado en parte utilizando los valores TF-IDF máximo y mínimo para ese término a través de todos los documentos en el cuerpo. Los valores TF-IDF mínimo y máximo de ejemplo para los dos términos de búsqueda se muestran en la información 267a a 267d en este ejemplo, aunque dicha información 267 y/o el cuadro 261a puede no ser ilustrado para el usuario que especificó la búsqueda en por lo menos algunas modalidades. Los detalles adicionales relacionados con la generación de los números de relevancia del documento de ejemplo, están incluidos más adelante.
En este ejemplo, el documento de ejemplo 3 tiene el valor de relevancia de documento generado más alto para los términos de búsqueda, a medida que los contenidos del documento 3 relacionado con la acusación relacionada con esteroides de Bond, son altamente relevantes para ambos términos de búsqueda 265a. Los documentos de ejemplo 1 y 4, son cada uno moderadamente relevantes para la combinación de los términos de búsqueda 265a, con base en cada uno de aquellos documentos de ejemplo siendo altamente relevantes para uno de los términos de búsqueda y únicamente ligeramente relevante para el otro término de búsqueda (es decir, con el documento 1 de ejemplo siendo altamente relevante para el término "Bonds" y únicamente ligeramente relevante para el término "esteroides", y con el documento de ejemplo 4 siendo altamente relevante para el término "esteroides" y únicamente ligeramente relevante para el término "Bonds"), como se mostró en la columna 262a para el documento 1 y la columna 262d para el documento 4, en las entradas 264a y 264b de la información 261a. Los otros documentos de ejemplo 2 y 5, son menos relevantes para los términos de búsqueda 265a que los otros tres documentos de ejemplo.
Como se observó anteriormente, la determinación de la relevancia de un documento en particular para uno o más términos especificados (por ejemplo, los términos que son parte de un enunciado de búsqueda), tales como los términos relacionados múltiples que son partes de un tema, pueden ser realizados de diversas formas en diversas modalidades. Como un ejemplo específico, las clasificaciones TF-IDF para cada uno de los términos especificados y el documento puede combinarse en diversas formas, tales como generar un promedio o suma. En particular, en por lo menos algunas modalidades, se genera un promedio de las clasificaciones TF-IDF para los diversos términos especificados, y puede adicionalmente ser normalizado (por ejemplo, para representar un porcentaje de relevancia u otro número entre 0 y 1), de manera que produce una clasificación de relevancia de documento ("DR") normalizado para los términos especificados que facilita la comparación entre documentos y que facilita la comprensión humana de las clasificaciones DR. La clasificación DR gara un documento d en relación con un grupo g de uno o más términos especificados i, puede determinarse de la siguiente manera en por lo menos algunas modalidades: DR(d ) _ 3 con la suma realizada para cada uno de los términos i en g, con N términos (g) que reflejan la cantidad de los términos i en el grupo g, y con las clasificaciones TF-IDF¡ mínima y máxima para un término particular i que refleja las clasificaciones más baja y más alta, respectivamente, para ese término a través de todos los documentos k para un dominio.
El Cuadro 4, ilustra un ejemplo de la información 260 que puede ser desplegada a o provista de otra manera al usuario en respuesta a los términos de búsqueda 265a "Bonds" y "esteroides" indicados en el Cuadro 3. La información 260 pueden, por ejemplo, ser parte de una página de la red mundial que es generado y provisto para un dispositivo de cliente del usuario para despliegue, o de lo contrario puede ser parte de una pantalla de información que se presentó al usuario.
En particular, en este ejemplo, la información 260 incluye una indicación visual 266 de los términos de búsqueda especificados 265a, y un alista 269 de los resultados de búsqueda correspondientes, se muestran en el orden de relevancia del documento generado. Adicionalmente, en este ejemplo, cada una de las entradas en la lista 269 incluye una indicación no únicamente del documento relevante correspondiente (por ejemplo, un nombre u otro identificador del documento, de tal manera que puede ser desplegado como un vínculo que puede ser seleccionado por el usuario que puede ser seleccionado por el usuario para tener acceso al documento), aunque también incluye una indicación del número de relevancia de documento normalizado generado correspondiente para el documento, de tal manera que proporciona información al usuario para clasificar si obtener información adicional sobre un documento particular o seleccionar de otra forma el documento como siendo relevante para los términos de búsqueda 265a. Los números de relevancia de documento normalizados indicados en este ejemplo, incluyen cada uno una evaluación textual del grado de relevancia del número de relevancia de documento normalizado, aunque en otras modalidades, únicamente uno (o ninguno) de los números de relevancia de documento normalizado y evaluaciones textuales asociadas pueden ser mostradas. Adicionalmente, la selección y despliegue de los resultados de búsqueda particulares pueden realizarse de diversas formas en diversas modalidades, incluyendo mostrar una cantidad especificada de los resultados de búsqueda, para mostrar algunos o todos los resultados de búsqueda que están sobre un valor de relevancia de documento mínimo especificado, etc.
Adicionalmente, en este ejemplo, la información adicional y los controles que pueden ser seleccionados por el usuario 268 son provistos para la selección posible del usuario, aunque en otras modalidades, dicha información adicional no puede ser mostrada. En este ejemplo, la información adicional 268 pide al usuario de si él/ella podrían desear expandir el enunciado de búsqueda especificado anteriormente para describir adicionalmente un tema relevante para el dominio, de tal manera que mejora la precisión de los resultados de búsqueda especificando un tema más específico o un tema diferente de otra manera que representa mejor los intereses del usuario que los términos de búsqueda 265a. Como un ejemplo posible, como se planteó anteriormente con respecto a los documentos de ejemplo 1 y 4, que cada uno son altamente relevantes para uno délos términos de búsqueda especificados, aunque únicamente medianamente relevante para el otro término de búsqueda especificado, el usuario puede tener la capacidad de mejorar la precisión de los resultados de búsqueda al aclarar si el usuario está interesado en primer lugar en la controversia relacionada con esteroides en la Liga mayor de béisbol (por ejemplo, ya que pertenece no únicamente a Bonds sino también a otros jugadores), o en lugar de estar interesado principalmente en la información relacionada con Bonds que únicamente se relaciona parcialmente con el uso de esteroides alegado por Bonds (por ejemplo, el récord de carreras por cuadrangulares establecido por Bonds). Más generalmente, al identificar los términos adicionales que son particularmente relevantes para el interés actual del usuario, los términos de búsqueda expandidos resultantes pueden eliminar la ambigüedad de mejor forma de los temas posibles diversos que pueden ser asociados con los términos en la búsqueda inicial.
La selección del control "si" que puede seleccionar el usuario en la información 268 del Cuadro 4, puede preparar acciones adicionales diversas mediante el servicio DSRD, con uno de dichos ejemplos descrito con mayor detalle con respecto a los cuadros 5 y 6. En particular, el Cuadro 5 ilustra la información 270 sobre otros términos 274 que pueden estar relacionados con los términos de búsqueda especificados 265a "Bonds" y "esteroides", con indicaciones de los grados evaluados de relevancia de los otros términos para los términos de búsqueda especificados 265a que son determinados. En otras modalidades, el uso de la información de relevancia entre términos puede ser preparada de otras formas, tal como si ésta es realizada en forma automática para algunos o todos los usuarios en algunas o todas las situaciones (por ejemplo, de manera que despliega información adicional con la información 260 del Cuadro 4 con respecto a la relevancia posible de uno o más términos diferentes, ya sea en lugar de o además de la información 268).
La información diversa 270 en el Cuadro 5 puede utilizarse de maneras diferentes, tal como parte de la definición adicional de un tema particular para utilizarse en un enunciado de búsqueda refinado que se basa en parte, en los términos de búsqueda especificados inicialmente 265a, o para intereses generales identificados de otra forma del usuario. Por ejemplo, en algunas modalidades, alguna parte o toda dicha información 270 puede ser ilustrada para el usuario que especificó los términos de búsqueda 265a, aunque en la modalidad ilustrada, la información 270 no es desplegada al usuario. En este ejemplo, la información 270 incluye un número de entradas de término 274a a 274f, que cada uno corresponde a un término adicional candidato para la combinación posible con los términos de búsqueda 265a, y las columnas de documentos 272a a 272d, indican un grado de relevancia evaluado de esos términos para los documentos de ejemplo 1 a 4. La columna 272e, indica una clasificación de relevancia de término agregado para el término de candidato en cada entrada 274 con respecto a los términos de búsqueda 265a, de tal manera que refleja un grado evaluado de relevancia del término candidato para la combinación de términos representada por los términos de búsqueda 265a. Los diversos documentos de ejemplo 272 y los términos adicionales candidatos 274 pueden ser seleccionados en diversas formas en diversas modalidades. Por ejemplo, los términos adicionales candidato pueden ser seleccionados por la primera selección de un sub-grupo de los documentos del cuerpo que son determinados para ser los más relevantes para los términos de búsqueda 265a, de tal manera que se basa en los números de relevancia de documento normalizado 264x ilustrado en el Cuadro 3. Los documentos más relevantes pueden ser seleccionados de diversas formas, tal como para seleccionar una cantidad especificada de los documentos con los números de relevancia de documento más altos, para seleccionar un porcentaje especificado de los documentos con los números de relevancia de documento más alto, para seleccionar algunos o todos los documentos, cuyos números de relevancia de documentos están sobre un umbral especificado o satisfacen de otra manera uno o más criterios definidos (por ejemplo, un umbral definido previamente, tal como un umbral de número de relevancia de documento mínimo; o un umbral determinado dinámicamente, tal como si se agrupan los documentos con valores de número de relevancia de documento similares proporciona un punto de umbral que ocurre de manera natural entre un grupo de los documentos más relevantes y otros documentos), etc. En este ejemplo del Cuadro 5, el documento de ejemplo 5 no ha sido seleccionado como el documento más relevante para uso adicional en este ejemplo con base en su número de relevancia de documento bajo del 2%, como fue indicado en la columna 262e para la entrada 264x en el Cuadro 3, aunque los otros documentos de ejemplo 1 a 4, han sido seleccionados para utilizarse como documentos relevantes.
En este ejemplo, una vez que los documentos más relevantes son seleccionados para los términos de búsqueda 265a, los términos adicionales candidato son seleccionados para los términos de búsqueda 265a con base, por lo menos en parte, en aquellos documentos seleccionados. Por ejemplo, los términos adicionales candidato pueden ser seleccionados con base en los términos en los documentos seleccionados diferentes a los términos de búsqueda 265a que son los más relevantes para aquellos documentos seleccionados, de tal manera que se basan en los valores TF-IDF de aquellos otros términos para los documentos seleccionados. En este ejemplo, los números ilustrados en la información 270 para cada entrada de término 274 y el documento de ejemplo 272 refleja el valor TF-IDF para ese término y documento. Por ejemplo, con respecto a la entrada 274a que corresponde al término "cuadrangular", el valor de relevancia de término 272a de ese término, para el documento de ejemplo 1 está indicado para ser el valor TF-IDF 1.333 (como se indicó previamente en la entrada 214b y la columna 212e de la información 210 del Cuadro 1), y el valor de relevancia del término 272b para el término "cuadrangular" en la entrada 274a para el documento de ejemplo 2 que es indicado para ser el valor TF-IDF de 1.125 (como se indicó anteriormente en la fila 224b y la columna 222e de la información 220 del Cuadro 1).
Adicionalmente, en este ejemplo, los valores de relevancia de término para cada uno de los términos 274 es entonces agregado a través de los documentos seleccionados, tal como promediando aquellos valores específicos de documento TF-IDF individuales, con la clasificación o número de relevancia de término agregado determinado resultante para cada término adicional candidato 274 siendo reflejado en la columna 272e. En este ejemplo, los términos candidato 274 se muestran en orden descendiente de sus valores de relevancia agregados determinados para los términos de búsqueda 265a, de manera que el término candidato "cuadrangular" en la entrada 274a es determinado para ser el término adicional candidato más relevante para los términos de búsqueda especificados, y de manera que el término adicional candidato "Canseco" en la entrada 274f, se determina ser el término adicional candidato menos relevante para los términos de búsqueda especificados que son mostrados. Los términos adicionales candidato particulares que son seleccionados para la consideración con base en el grupo de los documentos seleccionados pueden ser identificados en diversas formas, tal como utilizando una cantidad especificada de otros términos de cada documento o de todos los documentos que son determinados para ser los más potencialmente relevantes (por ejemplo, utilizando los valores TF-IDF, los valores de frecuencia de término, u otros valores de relevancia de término de documento individual), utilizando un porcentaje especificado de los otros términos potencialmente más relevantes de cada documento o de todos los documentos, utilizando algunos o todos los demás términos cuyos valores TF-IDF (u otros valores de relevancia de término de documento individual) están por encima de un umbral especificado para por lo menos uno de los documentos seleccionados o para todos los documentos seleccionados o para algún sub-grupo mínimo especificado de los documentos más relevantes o de otra manera satisface uno o más criterios definidos (por ejemplo, un umbral definido previamente, tal como un umbral de número de relevancia de término mínimo; o un umbral determinado en forma dinámica, tal como si la agrupación con valores de número de relevancia de término similar proporciona un umbral que ocurre de manera natural entre un grupo de los términos más relevantes y otros términos), etc. En otras modalidades, los términos adicionales candidato y/o documentos relevantes pueden ser seleccionados de otras formas, y los valores de relevancia de término individual y/o los valores de relevancia de término agregado pueden determinarse de otras formas. Los detalles adicionales relacionados con la generación de las clasificaciones de relevancia de término de ejemplo u otros valores, están incluidos en cualquier parte.
El Cuadro 6, continúa el ejemplo de los Cuadros 1 a 5, e ilustra un ejemplo de información 275 que puede ser desplegado o provisto de otra forma al usuario para incluir información sobre otros términos posibles para selección y uso con los términos de búsqueda indicados anteriormente 265a, los cuales se mostraron con la indicación visual 266 en el Cuadro 4 y se muestran con la indicación visual 276 en el Cuadro 6. Como se observó anteriormente, la provisión de la información 275 puede ser indicada de diversas maneras, tal como en respuesta a la selección del control que puede ser seleccionado por el usuario "si" en la información 268 de la información 260 en el Cuadro 4, o en su lugar en otras formas. Adicionalmente, en una forma similar a aquella de la información 260 del Cuadro 4, la información ilustrada 275 puede ser provista al usuario en diversas formas, tal como, por ejemplo, como parte de una página de la red mundial que es generada y provista a un dispositivo de cliente del usuario para desplegar, o de otra forma como parte de una pantalla de información que es presentada al usuario (por ejemplo, como parte del GUI de una aplicación de software que se ejecuta en un dispositivo de cómputo del usuario, tal como una aplicación de software provista por un operador del servicio DSRD para utilizarse con el servicio DSRD, o en su lugar, provista por un tercero).
La pantalla de información 275 en este ejemplo, incluye una lista 279 de otros términos relacionados posibles para los términos de búsqueda especificados 265a, tal como es generado en este ejemplo con base en por lo menos algunos de los términos adicionales candidatos 274 del Cuadro 5. En particular, los otros términos relacionados de ejemplo 279 incluyen varias entradas 279a a 279e que han sido seleccionados como probables para ser de interés para el usuario con base en la relación entre términos entre los términos de búsqueda especificados 265a y los términos adicionales candidatos 274, y se muestran en orden de relevancia entre términos determinados decreciente con base en las calificaciones de relevancia agregada 272e del Cuadro 5. Adicionalmente, en este ejemplo, se muestra una indicación de la relevancia entre términos de cada uno de los otros términos posibles incluidos, aunque en otras modalidades, dicha información de relevancia entre términos no puede estar incluida o puede ser mostrada de otras formas - en este ejemplo, las clasificaciones de relevancia de término determinadas a partir de la columna 272e del Cuadro 5, se han traducido en una escala de 0 a 10, con otros términos posibles que son determinados para ser los más relevantes que tienen un valor posible de 10, y con otros términos posibles que son determinados para ser menos relevantes que tienen valores inferiores. Aunque no se ilustra en la presente descripción, cada uno de los otros términos posibles pueden ser un vínculo que puede ser seleccionado por el usuario o de otra manera, tener uno o más controles que pueden ser seleccionados por el usuario asociados para permitir que el usuario seleccione o especifique de otra forma ese término como de interés, tal como para especificar incluir ese término seleccionado como parte de una búsqueda revisada, o para tratar de otra manera ese término como entre los intereses del usuario. En otras modalidades, la información de relevancia entre términos puede ser desplegada de otra forma, tal como para indicar las clasificaciones de relevancia de términos determinados reales 272e del Cuadro 5, para desplegar una versión normalizada de dichas clasificaciones de relevancia de término (en una forma similar a aquella descrita anteriormente con respecto al Cuadro 4 para las clasificaciones de relevancia de documento), etc. Adicionalmente, aunque las descripciones textuales de los valores de relevancia de término no se muestran en el Cuadro 6, en una forma similar a aquella del Cuadro 4, en otras modalidades se pueden mostrar dichos valores de relevancia de términos.
Los cuadros 7 y 8, continúan los ejemplos de los cuadros 1 a 6, y en particular, corresponden a dos conceptos o temas alternativos que el usuario puede especificar, tal como seleccionar los términos relacionados adicionales como está indicado en el Cuadro 6, o en su lugar de otra forma. En particular, el Cuadro 7 corresponde a un ejemplo en el cual, el usuario ha seleccionado otros términos adicionales a "cuadrangular" y "Hank Aaron" para utilizar junto con los términos anteriores "Bonds" y "esferoides" como parte de un grupo de términos de búsqueda expandidos 265b, tal como con base en la selección de las entradas 279a y 279c de la lista 279 en el Cuadro 6. El Cuadro 7, también incluye información adicional 261b que indica la relevancia de los diversos documentos de ejemplo 1 a 5 a los términos de búsqueda expandidos 265b, en una forma similar a aquella descrita anteriormente con respecto a la información 261a del Cuadro 3. La información diversa 261b en el Cuadro 7 puede utilizarse de diversas formas, tal como para determinar los resultados de búsqueda nueva que incluyen los documentos del cuerpo que son los más relevantes para los términos de búsqueda expandidos 265b, los cuales pueden ser desplegados o provistos de otra forma al usuario (por ejemplo, en una forma similar a aquella del Cuadro 4, de manera que proporcionan recomendaciones al usuario con base en parte, en los términos de búsqueda adicionales). Adicionalmente, en algunas modalidades, alguna parte o toda dicha información 261 b puede ser ilustrada para el usuario que especificó los términos de búsqueda expandida 265b, aunque en la modalidad ilustrada, la información 261b no es desplegada al usuario.
En este ejemplo, la información 261b incluye entradas adicionales 264c y 264d en relación con la información 261a del Cuadro 3, las cuales han sido agregadas para corresponder a los dos términos de búsqueda adicionales. Por consiguiente, los números de relevancia de documento normalizados agregados resultantes en la entrada 264y se han actualizado con respecto a los números de relevancia de documento anterior de la entrada 264x del Cuadro 3 para reflejar la adición de los dos términos adicionales. En este ejemplo, la información de relevancia de documento normalizada agregada en la entrada 264y continua basándose en un promedio de los números de relevancia de término individual para cada uno de los cuatro o términos de búsqueda expandidos 265b, aunque en otras modalidades, las clasificaciones de relevancia de documento normalizado agregado pueden ser calculadas de otras formas (por ejemplo, utilizando un promedio pesado). En este ejemplo, la adición de los dos términos de búsqueda adicionales ha reducido la relevancia determinada para el documento de ejemplo 3, el cual fue determinado anteriormente para ser el documento más relevante en el Cuadro 3 para los términos de búsqueda iniciales 265a. En particular, como se muestra en la columna 262c y la entrada 264y de la información 261b, la clasificación de relevancia de documento revistado para el documento 3 se ha reducido del valor anterior del 84% al valor de corriente del 47%. Adicionalmente, la relevancia relativa de los documentos de ejemplo 1 y 2, se ha incrementado en relación con la información en el Cuadro 3, como se muestra en las columna 262a y 262b de la información 261b, de tal manera que el documento 1 se determina ser el documento más relevante para los términos de búsqueda expandidos 265b, y el documento 2 se determina ser el segundo documento más relevante para los términos de búsqueda expandidos 265b.
En este ejemplo, los cambios en los números de relevancia de documento pueden comprenderse de forma intuitiva con base en los tópicos generales de los documentos de ejemplo y el tema especificado utilizando los términos de búsqueda expandida 265b. En particular, en relación con los dos términos de búsqueda iniciales 265a del Cuadro 3, los términos de búsqueda expandidos 265b del Cuadro 7 parecen estar menos relacionados con la controversia relacionada con esferoides general en la Liga mayor de béisbol, y más relacionado con la información específica para Barry Bonds y sus logros del récord de cuadrangulares. Por consiguiente, el documento de ejemplo 1 de artículo de noticias relacionado con Bonds establece que re récord de cuadrangulares ahora se ha vuelto el documento más relevantes para la búsqueda expandida, y el documento de ejemplo 4 que está relacionado con la controversia de esferoides, más genera se ha vuelto mucho menos relevante. Los documentos de ejemplos 2 y 3, continúan siendo por lo menos moderadamente relevantes para los términos de búsqueda expandidos 265b, como la biografía del documento de ejemplo 2 relacionado con Bonds y el documento de ejemplo 3 relacionado con la acusación de Bonds, ambos incluyen el planteamiento del récord de cuadrangulares, y el documento de ejemplo 2 menciona al poseedor del récord anterior Hank Aaron. Aunque el usuario está ilustrado en este ejemplo habiendo seleccionado los dos términos de búsqueda adicionales "cuadrangular" y "Hank Aaron", en otras modalidades y situaciones, dichos términos adicionales pueden ser seleccionados en forma automática como teniendo un interés probable para el usuario con base en las relaciones entre términos entre los términos de búsqueda adicionales y los dos términos de búsqueda originales de "Bonds" y "esferoides", y si es así, los documentos que son particularmente relevantes para los términos de búsqueda expandidos 265b (por ejemplo, el documento 1) pueden ser provistos al usuario como recomendaciones específicas del usuario generadas en forma automática para el usuario.
El Cuadro 8, ilustra una alternativa a aquella mostrada en el Cuadro 7, en la cual, los términos de búsqueda iniciales 265a del Cuadro 3, se han expandido en una forma diferente, de tal manera que especifican un grupo de términos de búsqueda expandidos 265c que incluyen los términos de búsqueda adicionales "acusado" y "Canseco", así como también los términos anteriores "Bonds" y "esferoides". Dichos términos de búsqueda expandidos 265c pueden, por ejemplo, reflejar un concepto o tema de interés para el usuario que es, relativo a la búsqueda expandida 265b del Cuadro 7, más relacionado con el uso de esferoides alegado de Bond y la controversia relacionada con esteroides general en la Liga mayor de béisbol, y menos relacionado con la información particular sobre Bonds que está no relacionada con su uso de esteroides alegado. Por consiguiente, la información 261c del Cuadro 8 es similar a la información 261a y 261b de los Cuadros 3 y 7, respectivamente, aunque incluye las entradas adicionales 264g y 264h que corresponden a los dos términos de búsqueda nuevos y las entradas nuevas 264z de los números de relevancia de documento revisados reflejados que son generados con base en los términos de búsqueda expandidos nuevos 265c. Como podría esperarse en forma intuitiva, los documentos 3 y 4, relacionados con la acusación relacionada con esteroides de Bond y el testimonio relacionado con esteroides de Canseco, respectivamente, son los documentos más relevantes entre los documentos de ejemplo, mientras que los documentos de ejemplo 1 y 2 que no son específicos para la controversia de esteroides que se han desechado de manera significativa. Aunque el usuario en este ejemplo puede haber seleccionado los dos términos de búsqueda adicionales "acusación" y "Canseco", en otras modalidades y situaciones, dichos términos adicionales pueden ser seleccionados en forma automática como siendo probablemente de interés para el usuario con base en la relaciones entre términos entres los términos de búsqueda adicionales y los dos términos de búsqueda original de "Bonds" y "esteroides", y si es así, los documentos que son particularmente relevantes para los términos de búsqueda extendidos 265c (por ejemplo, el documento 3) puede ser provisto al usuario como recomendaciones específicas del usuario generadas en forma automática para el usuario.
En una forma similar a aquella del Cuadro 7, la información ilustrada 261c, pueden en por lo menos algunas modalidades no ser desplegada al usuario, aunque otra información similar a aquella del Cuadro 4 puede ser desplegada al usuario para ilustrar una lista revisada de los documentos relevantes con base en los términos de búsqueda nuevos 265c. Adicionalmente, la retroalimentación provista por el usuario al seleccionar los términos de búsqueda adicionales como se muestra en los cuadros 7 y 8, se pueden utilizar de otras formas en por lo menos algunas modalidades, incluyendo como retroalimentación para modificar la relevancia determinada de los documentos particulares y/o de las relaciones entre términos, para los términos particulares en relación con los términos de búsqueda iniciales 265a del Cuadro 3.
Por consiguiente, como se planteó con respecto a los Cuadros 7 y 8, así como también en cualquier parte, la relevancia de términos particulares entre sí y/o para un concepto más general pueden ser identificados de diversas formas, incluyendo con base en el análisis de documentos para un dominio y/o con base en la retroalimentación del usuario relacionado con los términos particulares. La figura 91, proporciona una ilustración gráfica 975 de diversos conceptos que pueden ser identificados y utilizados para un dominio de interés particular, los cuales, en este ejemplo, continúan siendo para el béisbol, incluyendo la Liga mayor de béisbol ("MLB").
En este ejemplo, los conceptos múltiples 977 y 978 se han identificado en forma automática y están ilustrados en la figura 91, con cada concepto incluyendo un resumen textual u otra etiqueta, así como también uno o más términos relacionados. Por consiguiente, por ejemplo, el concepto 977 tiene una etiqueta textual 977a de "abuso de esteroides en la MLB", mientras que el concepto 978 tiene una etiqueta textual 978a del "récord de cuadrangulares de la MLB ". Los conceptos 977 y 978 corresponden de manera general a los ejemplos de los Cuadros 7 y 8, respectivamente, como se planteó anteriormente. Además, el concepto 977 incluye diversos términos relacionados 977b, mientras que el concepto 978 incluye varios términos relacionados 978b, los cuales, en este ejemplo, incluyen determinado traslape (por ejemplo, "Bonds" y "esteroides") y cada uno incluye términos múltiples, aunque en otras situaciones pueden tener únicamente un término único y/o pueden no tener un traslape en términos con otros conceptos. Se apreciará que un gran número de conceptos adicionales (por ejemplo, cientos, miles, etc.) pueden ser identificados y utilizados para un dominio.
Adicionalmente, en los ejemplos planteados anteriormente, los términos de búsqueda de ejemplo 265a a 265c se han especificado en una forma relativamente simple, en la cual, los términos son enlistados sin una operación de combinación lógica indicada (por ejemplo, Y, O, etc.) u otra indicación de pesado o uso relativa. En otras modalidades, se puede especificar otro tipo de información para dichos enunciados de búsqueda, y se puede utilizar de diversas formas. Por ejemplo, en algunas otras modalidades, los usuarios pueden tener la capacidad de indicar no únicamente los términos de búsqueda que son de interés (o en los cuales, éstos tienen un interés positivo), sino que pueden también tener la capacidad de indicar los términos de búsqueda que no son de interés para una búsqueda o tema particular (o en los cuales tienen un interés negativo), y también pueden ser habilitados para modificar una búsqueda adicional en otras diversas formas. Por ejemplo, en una forma similar a aquella ilustrada con respecto a los cuadros 5 y 6, la información puede ser determinada para reflejar los otros términos menos relevantes con base en los términos de búsqueda iniciales 265a, y dicha información de término menos relevante puede, de manera similar, ser desplegado al usuario para permitir la selección de términos para excluirlos de la búsqueda expandida. En dichas situaciones, los términos de interés pueden ser combinados con los términos indicados para ser excluidos o que son, de otra forma de no interés en diversas formas. Por ejemplo, con respecto al ejemplo de los cuadros 3 y 4, los términos de búsqueda "Bonds" y "esferoides" pueden ser indicados para ser de interés, aunque puede ser especificado un término de búsqueda expandido con el término "Canseco" indicado para ser excluido. Como se muestra en la entrada 264h de la información 261c del Cuadro 8, el término "Canseco" es relevante únicamente para el documento 4 de los documentos de ejemplo 1 a 5, y en particular, tiene un número de relevancia de documento de 0.97 para el documento 4 en este ejemplo. Dicha información puede ser combinado con la información 261a del Cuadro 3 en diversas formas para tratar la relevancia del término excluido "Canseco" para cada uno de los documentos, así como una reducción en el número de relevancia de documento general para el documento con base en los términos de búsqueda expandidos, tal como tratando el valor de relevancia de término de un término excluido a un documento, como el negativo del valor de relevancia del término para un término incluido (junto con la expansión del intervalo de valores posibles para los números de relevancia de documento normalizado para ser de -1 a 1). Si es así, un número de relevancia de documento revisado de 0.01 puede ser generado para el documento 4 y los términos de búsqueda expandidos en este ejemplo, tomando un promedio de números de relevancia de término individual de 0.04 a 0.97 para "Bonds" y "esteroides", junto con el número de relevancia de término negativo de "-0.97" para "Canseco". Se apreciará que la información de relevancia sobre los términos excluidos y otros términos que no son de interés, pueden utilizarse y combinarse con la información de relevancia para los términos de interés en otras formas en otras modalidades.
Adicionalmente, en una forma similar a aquella del Cuadro 4, en algunas modalidades se puede permitir a un usuario especificar uno o más documentos que el usuario considera ser particularmente relevantes para los términos de búsqueda 265a, tal como para el uso para determinar otros términos que son relevantes para los términos de búsqueda 265a y/u otros documentos que son relevantes para el documento especificado (por ejemplo, para solicitar documentos similares al documento especificado). Alternativamente, en lugar de listar los términos posibles diferentes particulares en la forma mostrada en el Cuadro 6, uno o más temas de términos múltiples definidos anteriormente pueden, en su lugar, ser desplegados al usuario para la selección posible y uso al identificar documentos relevantes adicionales. Dichos otros temas definidos pueden ser especificados de diversas formas, incluyendo una etiqueta de texto (por ejemplo, "récord de carreras por cuadrangulares de Bonds") y/o utilizando los términos particulares que son parte de ese tema definido (por ejemplo, "Bonds, esteroides, cuadrangular, Hank Aaron"). Si los temas definidos particulares son seleccionas con base en su relevancia para los términos de búsqueda iniciales 265a, por lo menos algunos de los temas definidos no pueden basarse en por lo menos uno de los términos de búsqueda especificados inicialmente 265a, de tal manera que indica un tema definido con base en términos tales como "Bonds, cuadrangular, Hank Aaron" aunque sin "esteroides", y otro tema definido similar a aquel de la búsqueda 265c. De manera similar, en situaciones en las cuales el usuario selecciona los términos de búsqueda adicionales para utilizar como parte de una búsqueda expandida, el usuario puede adicionalmente remover uno o más de los términos de búsqueda anteriores si así se desea, tal como para remover el término "esteroides" en el ejemplo del Cuadro 7, o para indicar que dicho término debe ser excluido como se planteó anteriormente. La relevancia de término determinado y la información de relevancia de documento pueden utilizarse de manera similar en una variedad de otras formas en otras modalidades.
Como otro ejemplo ilustrativo, las técnicas similares a aquellas descritas anteriormente para la expansión de términos de búsqueda u otra modificación, también pueden utilizarse en situaciones en las cuales, un término de búsqueda especificado inicialmente tiene errores ortográficos o de otra forma en una forma no estándar o atípica (por ejemplo, con base en estar en forma singular o plural, con base en ser un verbo en un tiempo particular, con base en estar en un idioma diferente, etc.). Por consiguiente, por ejemplo, si los términos de búsqueda 276 del Cuadro 6 fueran en lugar de "Bonds" y "esferoides" (por ejemplo, con base en un usuario que ingresa esos términos aunque introduce incertidumbre al cometer errores de ortografía en "esferoides" en la forma de "esferoides" y al no empezar con mayúscula "Bonds"), los otros términos candidato 279 pueden ser expandidos o modificados de otra forma para incluir los términos adicionales relacionados con abordar la incertidumbre en los términos especificados por el usuario. Con respecto al término "esferoides", por ejemplo, uno de los términos adicionales más relevantes puede ser el término "esferoides", de tal manera que el uso en lugar de o además de "esferoides". El término adicional "esferoides" puede, en algunas modalidades, ser identificado con base en una búsqueda de diccionario para la palabra no reconocida "esferoides" (por ejemplo, opcionalmente, junto con otros términos de reemplazo sugeridos, tales como "asteroides", "toroides", etc.), aunque en otras modalidades, las técnicas de relevancia entre términos planteadas anteriormente, pueden utilizarse para identificar "esferoides" como un candidato posible o probable para un reemplazo o término complementario con base en una relación identificada anteriormente entre los términos "esteroides" y "esteroides" (por ejemplo, si "esteroides" es un error ortográfico común de "esteroides" por los usuarios) y/o con base en una relación identificada anteriormente entre los términos "bonds" y esteroides". De manera similar, en un esfuerzo por terminar con la ambigüedad del término "bonds", los términos adicionales pueden incluir elecciones tales como "Barry Bonds", "acciones", "tasas de interés", "Bobby Bonds", etc., tal como con base en las relaciones identificadas anteriormente entre el término "bonds" y los otros términos adicionales.
Como se observó anteriormente, en algunas modalidades, una determinación inicial de la relevancia de los términos particulares para los documentos particulares y/o para otros términos particulares, pueden basarse por lo menos en parte en el uso de los valores TF-IDF u otra información relacionada con la frecuencia de los términos. En otras modalidades, las determinaciones de dicha información de relevancia pueden realizarse de otras formas. Como un ejemplo, la relevancia de un término particular para uno o más documentos, puede ser representada como una probabilidad de distribución u otra distribución, y las distribuciones respectivas para dos o más de dichos términos puede compararse con determinar cómo esas distribuciones son, como una medida de cómo son los términos respectivos relacionados. De manera similar, cada uno de los documentos particulares pueden representarse como una distribución a través de términos múltiples, y las distribuciones respectivas para dos o más de dichos documentos, de manera similar, puede compararse para determinar cómo son similares esos documentos. Por consiguiente, por ejemplo, un enunciado de búsqueda con uno o más términos y un documento pueden ser representados como un par de distribuciones de probabilidad sobre los términos de documento deseados y contenidos, con una comparación de dichas distribuciones de probabilidad siendo realizados para algunos o todos los documentos en el cuerpo, de manera que el documento que tiene la información más estadística relacionada con la búsqueda puede ser determinado. Como un ejemplo para realizar dicha comparación entre dos distribuciones, la medida estadística de divergencia Kullback-Leibler puede calcularse para proporcionar una medición convexa de la similitud entre dos de dichas distribuciones, mientras que en otras modalidades, las diferencias en la entropía de la información estadística puede utilizarse para comparar dos de dichas distribuciones. Los detalles adicionales con respecto a realizar los ejemplos de dichas comparaciones están incluidos más adelante, y se apreciará que dichas comparaciones pueden ser realizadas de otras maneras en otras modalidades.
En particular, la divergencia Kullback-Leibler entre dos distribuciones relacionadas con el documento o relacionadas con el término se pueden utilizar para determinar la similitud entre las dos distribuciones en algunas modalidades. La divergencia Kullback-Leibler para dos distribuciones P y Q, se pueden expresar de la siguiente manera, En donde P¡ y Q¡, son valores de las distribuciones de probabilidad discretizados P y Q (por ejemplo, para una distribución relacionada con el documento para un documento P, cada P¡ puede representar el porcentaje de palabras en el documento que coinciden con el término i, pueden representar el grado de relevancia de un término particular i es el término más relevante en el documento P, etc.). Otras modalidades pueden utilizar otras medidas estadísticas para comparar dos distribuciones, tales como la diferencia entre dos medidas de entropía de información estadística, ya sea en lugar de o además de una medida de similitud, tal como a partir de la divergencia Kullback-Leibler. La entropía estadística de una distribución de probabilidad es una medida de la diversidad de la distribución de probabilidad. La entropía estadística de una distribución de probabilidad P puede expresarse de la siguiente forma, En donde P¡ es un valor de las distribuciones de probabilidad discretizadas P. La diferencia entre dos medidas de entropía estadística puede entonces ser medida calculando la medida de diferencia de entropía. La medida de diferencia de entropía entre dos distribuciones de probabilidad P y Q pueden expresarse como la información mutua entre las variables aleatorias como, En donde p(p) y p(q) representan las distribuciones marginales de P y Q, respectivamente, y en donde p(p,q) representa la distribución de unión de P y Q. Alternativamente, la medida de diferencia de entropía entre dos distribuciones de probabilidad P y Q, podrían expresarse como EM =\\ H(P) - H(Q) \\2 En donde H(P) y H(Q) son las entropías de las distribuciones de probabilidad P y Q, respectivamente, como se describió anteriormente.
Adicionalmente, como se planteó anteriormente, los Cuadros 1 a 8, ilustran los ejemplos de determinación de la información de relevancia relacionada con el documento y la información de relevancia relacionada con el tema entre términos para un grupo de documentos de ejemplo particulares, y utilizando esa información de relevancia en diversas formas. Como se plantea en otras partes, en algunas modalidades, al menos parte de la información relacionada con la relevancia determinada puede ser representada en diversas formas particulares, y puede ser actualizada para reflejar la retroalimentación del usuario y otros cambios. Las figuras 2A a 2D, ilustran los ejemplos particulares de representación y revisión de la información de relevancia de documento determinada y la información de relevancia relacionada con el término en diversas formas, y en particular, en estos ejemplos, generando y actualizando las redes neurales que representan la información relacionada con la relevancia determinada.
En particular, la figura 2A, ¡lustra una red neural de ejemplo 295a que representa la relevancia de los documentos particulares para los términos particulares. En este ejemplo, la red neural 295a incluye diversos nodos de entrada 280 que corresponden a los términos identificados para el cuerpo de documentos, diversos nodos de salida 290 que representan a los documentos en el cuerpo, y una o más capas de nodos interiores 285 que representan los cálculos realizados para generar los números de relevancia de documento para los documentos de salida particulares 290 con base en los términos de entrada particulares 280. Mientras que únicamente un grupo único de nodos interiores 285 son ilustrados en la figura 2A con el objeto de lograr simplicidad, se apreciará que algunas de dichas reden neurales pueden tener nodos interiores adicionales. Adicionalmente, los vínculos entre los nodos representan las relaciones entre estos nodos, y pueden incluir los pesos asociados como los que se plantean más adelante.
Como se planteó anteriormente con respecto al Cuadro 3, un enunciado de búsqueda se especificó incluyendo dos términos de búsqueda 265a, estos siendo los nodos "Bonds" y "esferoides" 280a y 280c en la figura 2A, representan aquellos términos en la red neural generada y son ilustrados en negritas con el objeto de ser reconocidos. Adicionalmente, en el ejemplo del Cuadro 3, los números de relevancia de documento normalizados 264x, fueron determinados para diversos documentos en el cuerpo, incluyendo los documentos de ejemplo 1 a 4, y aquellos documentos de ejemplos 1 a 4 que tienen nodos correspondientes 291 a 194 en este ejemplo. Adicionalmente, la información 297 es ilustrada en este ejemplo para mostrar los números de relevancia de documento normalizados para aquellos documentos de ejemplo 1 a 4, con base en los dos términos de búsqueda 265a para este ejemplo, denominados como "AC" como abreviatura para reflejar a los nodos interiores asociados 285a y 285c que corresponden a los nodos 280a y 280c para esos términos. Por consiguiente, por ejemplo, el valor de relevancia de documento normalizado ilustrado 297a para el documento 1 con base en los términos de búsqueda 265a es un valor de 0.48, como se mostró anteriormente en la columna 262a para la entrada 264x del Cuadro 3. La información similar 297b a 297d, se ilustra para los documentos de ejemplo 2 a 4.
En este ejemplo, el cálculo de los números de relevancia de documento para los documentos de salida 290 en la red neural generada se separa en dos partes que corresponden a los vínculos 282 entre los términos de entrada 280 y los nodos interiores 285, y los vínculos 287 entre los nodos interiores 285 y los documentos de salida 290. Adicionalmente, la información 287a y 287b, está ilustrada para reflejar la información sobre los diversos vínculos 287 que se muestran, incluyendo indicar un peso inicial que está asociado con cada vínculo con base en la información de relevancia de documento determinado inicial. Por ejemplo, con respecto al vínculo entre el nodo interior A 285a y un nodo de salida 291 que corresponde al documento de ejemplo 1 (denominado en abreviatura, como el vínculo "A-D1" en la información 287a), ese vínculo inicialmente es determinado por un peso de 0.000518, o 5.18X10"4, como se muestra en la información 287b. De manera similar, con respecto al vínculo entre el nodo interior C 285c y el nodo de salida 291 (denominado en abreviatura como el vínculo "C-D1" en la información 287a), ese vínculo inicialmente recibe un peso de 0.00053 en la información 287b. Adicionalmente, los vínculos 282 entre los nodos de entrada 280a y 280c y los nodos interiores 285a y 285c, respectivamente, pueden utilizarse para determinar los valores de 1,641 y 2,075, respectivamente, con base en la información de relevancia de término de ejemplo de 1 ,641 y 2,075, respectivamente, con base en la información de relevancia de término de ejemplo descrita en el Cuadro 3, y como se describe con mayor detalle más adelante. Por consiguiente, el valor de relevancia de documento normalizado 297a, por ejemplo, el documento 1 con base en los términos de búsqueda 280a y 280c pueden determinarse a partir de la red neural con base en esos dos vínculos A-D1 y C-D1 , así como también en los nodos interiores 285a y 285c, y en otros vínculos 282 entre el nodo de entrada 280a y el nodo interior 285a y entre el nodo de entrada 280c y el nodo interior 285c (por ejemplo, calculando 1641 * 0.000518 = 0.85, como el número de relevancia de documento para el término "Bonds", calculando 2075 * 0.000053 = 0.11 como el número de relevancia de documento para el término "esferoides" y con su promedio siendo de 0.48, como se ilustró en la información 261a del Cuadro 3). Los detalles adicionales con respecto a una modalidad de ejemplo para la generación de dicha red neural continúa, incluyendo con respecto a las ecuaciones 1 a 5, que se encuentran más adelante.
En particular, una vez que la relevancia de los términos particulares para documentos particulares se ha determinado (por ejemplo, como se reflejó en las clasificaciones DR para la combinación de estos documentos y estos términos), esa información puede ser representada en diversas formas, incluyendo el uso de una red neural que puede actualizarse con base en la retroalimentación del usuario y de otras formas. De manera similar, una vez que la relevancia de relaciones entre términos de los términos particulares con otros grupos de uno o más términos se ha determinado (por ejemplo, tal como con base en parte en los documentos relevantes para algunos o todos esos términos), esa información también puede ser representada y actualizada de diversas formas, incluyendo el uso de una red neural similar que puede actualizarse con base en la retroalimentación del usuario y en otras formas. Los pesos y/u otros aspectos de dichas redes neurales (por ejemplo, vínculos particulares) pueden ser modificados entonces para reflejar la retroalimentación y otra información adicional que es obtenida con el tiempo, tal como para mejorar la información de relevancia provista por la red neural con el tiempo para reflejar el aprendizaje automatizado de la retroalimentación y otra información adicional que puede obtenerse. A continuación se ilustra un ejemplo particular para generar dichas redes neurales y para actualizar los pesos en dichas redes neurales, y otras modalidades que pueden utilizar otras técnicas relacionadas.
Como se observó anteriormente, la clasificación DR (también denominada más adelante como una "clasificación HDR") para un documento d en relación con un grupo g de uno o más términos especificados i, puede determinarse de la siguiente manera en por lo menos algunas modalidades.
NTér min os(g) *f (max.(TF.IDFi) - mm(TF.IDFi)) Ecuación 1 Esta fórmula DR puede utilizarse de manera similar para representar un grupo de pesos de red neural que representan una combinación lineal, más desviaciones, de los valores TF.IDF para los términos individuales i en una búsqueda que tiene un grupo g de uno o más de dichos términos i que corresponden a un documento particular j, de la siguiente manera.
HDR(J) TF. lDFXj - y(] Ecuación 2 En donde - min TF.IDF Dichos pesos de la red neural con base en las clasificaciones DR calculadas, se pueden utilizar para inicializar una red neural generada para corresponder a las clasificaciones DR.
Adicionalmente, utilizando la definición de TF.IDF, en donde x¡j es el término de frecuencia de término i en el documento j, un valor TF.IDF puede representarse de la siguiente forma: TF. IDF, i = -xU l°9 ( N ) Ecuación 3 En donde s(?) es la función Heaviside (cuyo valor es de cero de su argumento x es negativo y uno, si este argumento x es cero positivo), y N es el número de documentos en el cuerpo.
Por consiguiente, sustituyendo en HDR(j), tiene como resultado lo siguiente: Ecuación 4 Para una búsqueda que tiene un grupo g de uno o más términos t, las frecuencias de términos en el documento pueden ser vistas como los pesos de aquellos términos en una proyección en cada documento, y posteriormente, para una búsqueda determinada un grupo de pesos y los coeficientes ai puede definirse, de manera que una red neural de relevancia puede generalmente expresarse de la siguiente manera, NTér min os HDR(j) = h = - ? U t \og{a t ) - ? J /=1 Ij l I I l Ecuación 5 y se inicializó con pesos, de tal manera que implementa una clasificación de relevancia de búsqueda TF.IDF, donde minTFJDF Dichos pesos U corresponden de manera general a los pesos 287b de la figura 2A para los vínculos 287 entre los nodos interiores 285 y la salida de los nodos de documento 290.
Adicionalmente, como se observó anteriormente, dicha red neural generada puede ser actualizada para reflejar la retroalimentación y otra información que indica la información relacionada con relevancia adicional para el dominio. Por ejemplo, una función de error cuadrático se puede utilizar sobre un grupo de ejemplos de capacitación [t,h], de la siguiente manera: Las reglas de propagación hacia atrás para actualizar los pesos de red mediante el gradiente estocástico descendente puede entonces ser derivado. Por consiguiente, los derivados de E con respecto a los pesos del modelo pueden calculares de la siguiente manera: dE NTér min os = 2 ? ? [U t log(a t ) - y ] - h Ejemplos\_ ¡Tx l] l 1 1 l dU dE NTér min av = "2 ? - ? [í/ í log(fl t ) - Y ? - h Ejemplos Los casos de entrenamiento pueden ser desarrollados de diversas formas en diversas modalidades, incluyendo utilizar la selección del usuario de un documento determinado para establecer un valor objetivo de hjO igual o algún porcentaje mayor que el valor para el documento relevante más real.
Cuando una red neural generada se expande para reflejar relaciones entre términos, tales como pueden ser útiles para eliminar la ambigüedad entre el traslape múltiple o los términos relacionados de otra forma. La red neural de ejemplo 295c de la figura 2C ilustra dicha red neural expandida, en la cual, se ilustran los nodos de salida basados en términos nuevos 283, con vínculos nuevos 296 entre los nodos basados en documentos 290 y los nodos de salida basados en términos nuevos 283. Adicionalmente, en dichas situaciones, es posible elegir, ya sea mantener los pesos de frecuencia de términos V fijos, o en su lugar, adaptar ambos pesos U y V, por medio de la propagación inversa. Como se observó anteriormente, los pesos U corresponden de manera general a los vínculos 287 entre los nodos interiores 285 y los nodos de documento 290, con los pesos de ejemplo 287b ilustrados en la figura 2A, y los pesos V que corresponden de manera general a los vínculos 296 entre los nodos de documento 290 y los nodos de salida basados en términos 283, con los pesos de ejemplo 296b ilustrados en la figura 2C.
En dicha situación, un pasos de envío de alimentación adicional se utiliza para los vínculos entre los nodos basados en documentos 290 y los nodos de salida basados en términos nuevos 283, para el propósito de eliminar la ambigüedad d, de la siguiente manera: inicializados con ?' - ??ß En la situación en la que los pesos V son fijos, los pesos V pueden invertirse y aplicarse al d nuevo para obtener los valores de retroalimentación adecuados de h. Alternativamente, los pesos U y V y c¡ y Yi pueden modificarse con. una función de error actualizada £* íd) , de la siguiente manera: Entonces, las reglas de aprendizaje descendente de gradiente tiene la siguiente forma: id) dE = 2? Y u t logia t ) - ? - d Y U t log(a - y U M Ij l I l l 3V V U ¦ = 2 ? y U t \og(a t ) - v ij lj ga tr lj l l l f l l Adicionalmente, el intervalo de parámetros aprendidos puede ser limitado por la implementacion de una regularización de "deterioro de peso" en por lo menos algunas modalidades. Como tal, este resultado que agrega términos cuadráticos a E y E(d) en U, V, a, y ??. Los derivados en los pesos diferentes, proco, tienen como resultado términos lineales en los gradientes de E y E(d), en los pesos que provocan el gradiente descendente para el efecto y deterioro exponencial en éstos en la ausencia de una señal de error basada en la diferencia para los valores objetivo de h o d. Por consiguiente, para w (cualquier peso de red U, V, az y ??) un término adicional. =e w dw pueden agregarse al gradiente, en donde es un parámetro. Aunque se han descrito los detalles adicionales con respectos a las modalidades para generar una actualización de dichas redes neurales, se apreciará que se pueden generar y/o actualizar otras redes neurales en otras formas en otras modalidades.
Volviendo a los ejemplos descritos anteriormente con respecto a los cuadros 1 a 8 y la figura 2A, la figura 2B continúa con esos ejemplos, y en particular, ilustra los cambios que pueden ocurrir para la red neural 295a de la figura 2D, son el tiempo, basado en la retroalimentación relacionada con el uso de la información de relevancia determinada para el cuerpo. En particular, una red neural modificada 295b está ilustrada en la figura 2B, en la cual, se han realizado modificaciones para el valor de relevancia del documento normalizado del documento de ejemplo 1 para los términos de búsqueda 280a y 280c. Dichos cambios pueden basarse, por ejemplo, en la selección repetida de los usuarios del documento de ejemplo 1 , para revisar o dar otro uso después de que se han especificado los términos de búsqueda 280a y 280c, de tal manera que reflejen la retroalimentación implícita del usuario, en que el documento de ejemplo 1 es el documento más relevante que corresponde a esos términos especificados, o en su lugar, la retroalimentación explícita de los usuarios que indica dicha relevancia del documento de ejemplo 1. Por consiguiente, en este ejemplo, el número de relevancia de documento 297a para el documento de ejemplo 1 se ha modificado, de manera que el documento 1 es el más relevante de todos los documentos de ejemplo con base en la retroalimentación del usuario, tal como en este ejemplo, modificando el número de relevancia de documento normalizado para ser igual que o superior al otro documento más relevante por un margen especificado (por ejemplo, por 0.01 en este ejemplo). Adicionalmente, para reflejar el número de relevancia de documento normalizado superior 297a, el valor de los vínculos A-D1 y C-D1 , se han modificado, como se muestra en la información modificada 287c. En este ejemplo, los pesos de vínculo modificados y el número de relevancia de documento 297a, se muestran en negritas por conveniencia, así como también las representaciones visuales de los vínculos A-D1 y C-D1. Se apreciará que las modificaciones a los pesos para los vínculos A-D1 y C-D1 , para reflejar el valor de relevancia de documento incrementada 297a, puede distribuirse entre aquellos vínculos en diversas formas, tal como incrementando los pesos de vínculo de igual forma o de manera proporcionar para corresponder al número de relevancia de documento incrementada. Alternativamente, en otras modalidades, el aprendizaje puede provocar que pesos de vínculo particulares sean actualizados, y los números de relevancia de documento actualizados, pueden en su lugar, ser generados para corresponder a aquellos pesos de vínculo actualizados.
Adicionalmente, aunque no está ilustrado en la figura 2B, en algunas modalidades, la modificación de la clasificación de relevancia de documento para el documento de ejemplo 1 y/o la modificación de los pesos de vínculo para los vínculos A-D1 y C-D1 , pueden provocar adicionalmente modificaciones a otros números de relevancia de documento generados y/o los pesos de vínculo. Por ejemplo, cuando la relevancia del documento de ejemplo 1 , se incrementa para los términos especificados 280a y 280c, la relevancia de otros documentos de ejemplo 2 a 4, pueden descenderse con respecto a aquellos términos especificados 280a y 280c para reflejar un valor de relevancia relativo inferior. Si es así, los números de relevancia de documento determinados 297b a 297d, puede disminuirse de diversas formas (por ejemplo, proporcionalmente), y se pueden disminuir los pesos de vínculo correspondientes para los vínculos entre los nodos interiores 285a y 285c y aquellos otros documentos de ejemplo 2 a 4. Dicha otra información que puede ser descendida en este ejemplo, se muestra en letras itálicas por conveniencia, aunque los valores de ejemplo no se han ajustado en la figura 2B. Adicionalmente, se apreciará que en algunas situaciones, un término particular puede determinarse para no tener relevancia para un documento de ejemplo particular, tal como con respecto al término "acusación", como el representado en el nodo de entrada 280e y el documento de ejemplo 1 , como reflejado en el valor 212e en la fila 214j para ese término y el documento en el Cuadro 1. Si es así, el vínculo entre el nodo interior 285e y el nodo 291 que corresponden al documento de ejemplo 1 , pueden no estar presentes, o en su lugar, pueden estar presentes aunque con un valor de peso de 0. En este ejemplo, los vínculos 287 que tiene pesos de valor 0, y pueden no estar presentes, se muestran utilizando las líneas punteadas. Sin embargo, se apreciará que, un vínculo particular, tal como E-D1 puede ser determinado inicialmente para tener un peso de 0 y no tener relevancia para un documento particular, tal como el documento de ejemplo 1 , aunque el aprendizaje y otras modificaciones con el tiempo para la información de relevancia determinada para el dominio, pueden indicar que existe una relevancia determinada entre ese término y ese documento, y si es así, el vínculo correspondiente y el peso asociado en la red neural modificada, pueden modificarse para reflejar esa relevancia determinada modificada.
Adicionalmente, aunque no se ilustra en la presente descripción, en algunas modalidades, las redes neurales, tales como 295a y 295b de las figuras 2A y 2B pueden ser modificados en otras formase después de haber sido creadas. Por ejemplo, si los documentos adicionales para el cuerpo se hacen disponibles después de que una red neural para el cuerpo se ha generado y/o actualizado, en algunas modalidades, los documentos adicionales pueden ser incorporados en la red neural existente de diversas maneras sin generar nuevamente la red neural completa. Como un ejemplo, los nodos de salida nuevos 290 pueden ser creados para dichos documentos nuevos y los vínculos nuevos 287 pueden ser generadas entre los nodos interiores 285 y los nodos del documento de salida 290. Adicionalmente, los pesos a ser asignados a los vínculos nuevos 287 pueden determinarse de diversas formas, tales como ínicializando aquellos pesos con base en los valores de relevancia determinados iniciales para los términos existentes para los documentos nuevos, tomando un promedio de los pesos de vínculo correspondientes que ya están en la red neural o generando de otra forma los pesos de vínculo nuevo con base en algunos o todos los pesos de vínculo existentes, determinando los documentos existentes diferentes más similares por ejemplo, evaluando la similitud de documentos utilizando la medida estadística de divergencia Kullback-Leibler, como se planteó anteriormente, o en su lugar de otra forma) e inicializando los pesos de vínculo y/o valores de relevancia de documento para los documentos nuevos con base en los documentos existente diferentes más similares (por ejemplo, para tomar el promedio de los valores correspondientes para los documentos existentes diferentes más similares), etc.
La figura 2C, ilustra una red neural de ejemplo 295c que es similar a la red neural 295a de la figura 2A, aunque refleja la información de relevancia relacionada con el tema determinado adicional para el cuerpo. En particular, en este ejemplo, la red neural 295c incluye nodos de entrada similares 280 que corresponden a los términos, nodos interiores 285 y nodos de documento 290 que corresponden a los números de relevancia normalizados determinados para los documentos con base en los términos de entrada, aunque adicionalmente incluyen nodos de salida adicionales 283 que corresponden a los términos para el cuerpo, así como también vínculos adicionales 296 entre los nodos relacionados con el documento 290 y los nodos de salida relacionados con el término nuevos 283. Como se planea con mayor detalle en otras partes, en algunas modalidades, la determinación de relevancia entre uno o más primeros términos y uno o más términos diferentes, puede basarse por lo menos en parte en documentos que son determinados para ser relevantes para los primeros términos, de tal manera que identifican otros términos relevantes posibles utilizando estos documentos. En este ejemplo, la información adicional 296a y 296b, se muestra para reflejar los pesos de los vínculos 296, en una forma similar a aquella descrita anteriormente con respecto a la figura 2A.
El estado inicial de esta red neural de ejemplo 295c corresponde al ejemplo del Cuadro 5, en donde, la relevancia de otros términos se determinó con base en el ejemplo de los términos de búsqueda iniciales 265a. por consiguiente, por ejemplo, la información desplegada 298 en la figura 2C, incluye indicaciones de la relevancia determinada de los otros términos de salida particulares 283 con base en los términos de entrada 280a y 280c (mostrados en negritas por conveniencia), tal como el número de relevancia de término 298b para el término de salida 283b en el Cuadro 5. Los números de relevancia de término 298d y 298e, de manera similar, indican los números de relevancia de término determinados para los términos de salida "cuadrangular" 283d y "acusado" 283e con base en los términos de entrada 280a y 280c.
En una forma similar a aquella de la figura 2B, la figura 2D ilustra una red neural modificada 295d que muestra los cambios a la red neural 295c de la figura 2C, que corresponden a los cambios aprendidos en la relevancia de los términos de salida particular para términos de entrada particulares. En este ejemplo, los términos de entrada de interés actual continúan siendo los términos de búsqueda 265a que corresponden a los nodos de entrada 280a y 280c, y la relevancia determinada de los términos de salida "Hank Aaron" 283b y "cuadrangular" 283d se ha modificado para reflejar un incremento aprendido en la relevancia de aquellos términos de salida con respecto a esos términos de entrada. Por ejemplo, como se ilustró en el Cuadro 7, un número de usuarios puede haber seleccionado los términos adicionales "Hank Aaron" y "cuadrangular" para utilizar en las búsquedas expandidas con los términos "Bonds" y "esferoides", como se planteó anteriormente con respecto al ejemplo del Cuadro 7. En este ejemplo, los números de relevancia de término revisados 298b y 298d, se han seleccionado para los nodos de salida 283b y 283d, respectivamente, el cual, en este ejemplo corresponde a un incremento del 50% en los números de relevancia para estos dos términos de salida con base en los dos términos de entrada. Adicionalmente, los pesos de vínculo correspondiente se han modificado en consecuencia, los cuales, en este ejemplo corresponden a los vínculos de cada uno del sub-grupo de documentos que se determinaron por ser los más relevantes para los términos de entrada 280a y 280c (los cuales, en este ejemplo incluyen a los documentos 1 a 4, como se describió en los cuadros 3 y 4) para los nodos de término de salida afectados 283b y 283d. Los números de relevancia de término 298 y los vínculos 296 que se han modificado en este ejemplo, se muestran en negrita por conveniencia.
Adicionalmente, en algunas modalidades, los pesos asociados con algunos de los vínculos 287 pueden ser modificados de manera similar, ya sea en lugar de o además de las modificaciones a los vínculos 296, de manera que se incrementan los pesos para los vínculos entre los nodos interiores 285a y 285c y uno o más de los documentos de ejemplo 1 a 4, para acomodar una parte o toda la relevancia incrementada de los términos de salida 283b y 283d para los términos de entrada 280a y 280c. Adicionalmente, se observará que los pesos de los vínculos D3-B y D4-B, se han incrementado teniendo valores de 0 en la figura 2C para tener pesos asociados pequeños en este ejemplo, aunque en otras modalidades, dichos pesos con valores 0 no pueden ser incrementados.
La figura 2E, ilustra un ejemplo de un GUI 205 que se puede utilizar en algunas modalidades para proporcionar a un usuario con información sobre la información de relevancia determinada para uno o más dominios de interés, tal como mediante el servicio DSRD en este ejemplo, o en su lugar, mediante un servicio relacionado. Por ejemplo, como se planteó anteriormente con respecto al Cuadro 4, el Cuadro 6 y en otras partes, un usuario puede, en algunas modalidades, ser provistas con recomendaciones con base en las preferencias conocidas del usuario, tal como para incluir términos adicionales que son determinados para probablemente ser también preferidos por el usuario y/o para incluir artículos de contenidos que están relacionados con dichos probablemente adicionales. En el ejemplo de la figura 2E, el GUI 205 está siendo provisto a un usuario particular con base en las preferencias conocidas o inferidas del usuario, con el usuario particular en este ejemplo siendo el Usuario X planteado anteriormente con respecto a las figuras 9D y 9E. Como se planteó anteriormente, se conoce que el Usuario X tiene preferencias positivas para los términos "Hank Aaron" y "cuadrangular" y para tener una preferencia negativa para el término "Gigantes", con respecto al dominio del béisbol. A partir de aquellas preferencias conocidas, se pueden inferir otras preferencias relacionadas con el dominio de béisbol, tal como con respecto al término "Bonds". Adicionalmente, las preferencias en otros dominios puede ser inferidas de manera similar para el Usuario X con base en las preferencias conocidas e inferidas en el dominio de béisbol, tal como se planteó con mayor detalle con respecto al dominio de películas norteamericanas en la figura 9F.
En particular, en el ejemplo de la figura 2E, el GUI 205 incluye un cuadro 205a que es desplegado al Usuario X (no mostrado), el cual incluye información sobre diversas preferencias de términos conocidos e inferidos 208 para diversas categorías o dominios 207. En este ejemplo ilustrado, se selecciona realmente una lengüeta que puede ser seleccionada por el usuario 206a que corresponde a las preferencias positivas del Usuario X, de manera que la información en la sección inferior 206e del cuadro 205a, realmente incluye información sobre dichas preferencias positivas. Si la lengüeta que puede ser seleccionada por el usuario 206b, en su lugar es seleccionada, la información en la sección inferior 206e se actualizará para mostrar la información sobre las preferencias negativas conocidas e inferidas del Usuario X. Adicionalmente, una o más de las categorías/dominios 207 pueden seleccionarse para la expansión en la sección inferior 206a, de manera que muestra las preferencias conocidas y preferidas para el Usuario X para esa categoría/dominio, tal como se muestra actualmente con respecto a la categoría/dominio de "deportes" 207c. En particular, en este ejemplo, cuatro preferencias de términos positivos conocidas o inferidas 208 se muestran para la categoría/dominio "deportes" 207c, incluyendo las preferencias conocidas 208b a 208d para los términos "Hank Aaron", "cuadrangular" y "49s de San Francisco", respectivamente, y la preferencia sugerida inferida 208a para el término "Bonds" (mostrado en este ejemplo en forma sombreado o resaltado de otra forma, tal como con un color diferente en un GUI que utiliza colores múltiples, para indicar al usuario X que ésta es una preferencia sugerida). Adicionalmente, en este ejemplo, el usuario X puede especificar otras preferencias utilizando control de entrada de texto que puede ser seleccionada por el usuario 206c y el control de selección 206d, o modificar y manipular de otra forma las preferencias utilizando los controles que pueden ser seleccionados por el usuario 206h y 206i. Se apreciará que otros GUIs pueden desplegar la misma u otra información en una variedad amplia de maneras y utilizando una variedad amplia de controles de interfase del usuario y técnicas de manipulación. Como un ejemplo, el Usuario X puede ser provisto con un mecanismo para seleccionar o indicar de otra forma que la preferencia de términos sugerida 208a para el término "Bonds" es una preferencia real positiva o negativa, o para remover de otra forma la preferencia de término sugerida a partir de la vista actual. Adicionalmente, algunas modalidades y situaciones pueden involucrar pantallas GUI de tamaño diferente que despliegan cantidades variables de información, de tal manera que despliega muchas más preferencias de término (sugerencias ya sea conocidas y/o inferidas) en un momento único.
Adicionalmente, en el ejemplo de la figura 2E, la información adicional 205b se ilustra para corresponder a otro servicio (en este ejemplo, un servicio en línea con información sobre películas, utilizando un dominio de la Red mundial hipotético "American-Movie-lnfo.com") que interactúa con el servicio DSRD para intercambiar información sobre las preferencias de término conocidas e inferidas del Usuario X. En algunas modalidades, la información 205b pueden ser ilustradas como un cuadro adicional del GUI 205 del servicio DSRD, tal como en forma simultánea o serial con el cuadro 205e. En otras modalidades, la información 205b puede, en su lugar, ser desplegada o de lo contrario presentada al Usuario X por el otro servicio en una forma independiente del GUI 205, o en lugar de alguna parte o toda la información adicional 205b puede ser desplegado al usuario X como parte del cuadro 205a (por ejemplo, expandiendo la categoría/dominio 207d del cuadro 205a, para ilustrar la información provista al servicio DSRD mediante otro servicio relacionado con la película. Adicionalmente, en algunas modalidades y situaciones, múltiples de dichos otros servicios pueden estar disponibles y afiliados con el servicio DSRD, y si es así, pueden seleccionarse utilizando el control de menú de despliegue que puede ser seleccionado por el usuario 209a, controles de selección 209b, o en otras formas.
En este ejemplo, la información adicional 205b ilustra una preferencia conocida 211a del Usuario X para la película "Raging Bull" (por ejemplo, con base en la información que es suministrada previamente o en forma dinámica al otro servicio mediante el servicio DSRD, con base en la información de que otro servicio obtenido anteriormente del usuario X u otras fuentes, etc.), e ilustra árboles de preferencias sugeridos inferidos 211b a 211d para el Usuario X con base en la preferencia conocida 211a y otra información de preferencia 208 disponible del servicio DSRD. Por ejemplo, la figura 9F, proporciona detalles de ejemplo adicionales con respecto a cómo las preferencias de películas pueden determinarse con base en por lo menos parte de dicha información de preferencia 208 para el Usuario X.Por consiguiente, de esta manera, un servicio que proporcionar un GUI tal como el GUI 205 puede proporcionar y obtener información relacionada con la preferencia para diversos usuarios, y puede utilizar dicha información para proporcionar diversos beneficios a los usuarios y para el servicio. En una forma similar a aquella del cuadro 205a, se apreciará que otros GUIs pueden desplegar la misma u otra información, tal como aquella información 205b en una variedad amplia de maneras y utilizando una variedad amplia de controles de interfase del usuario y técnicas de manipulación, incluyendo cantidades variables de información.
También se apreciará que los diversos pesos, números de relevancia y otra información ilustrados para las redes neurales de ejemplo 295a a 205d se proporcionan con el objeto de ilustración y pueden tener otras formas y pueden ser modificados de otras maneras en otras modalidades. Adicionalmente, la información ¡lustrada en los ejemplos del Cuadro 1 a 2M, se ha proporcionada únicamente con propósitos ilustrativos, y se apreciará que varias de las actividades descritas pueden ser realizadas de otras formas en otras modalidades. Adicionalmente, otros detalles diversos se han mostrado en una forma abstracta o no se han ilustrado para lograr su comprensión. Adicionalmente, otros tipos diversos de funcionalidad pueden ser provistos y utilizados por un servicio DSRD en diversas modalidades, como se planeó con mayor detalle en otras partes. También se apreciará que aunque un número pequeño de términos, documentos y nodos de red neural están ilustrados, en las modalidades reales, las cantidades reales pueden ser mucho mayores, de tal manera que incluye cientos de términos y millones de documentos, con números correspondientes de nodos de red neurales.
Aunque los ejemplos de las figuras 2A a 2E y los cuadros 1 a 8, se basan en el análisis de términos que están presentes en los documentos de texto u otros artículos de contenido, se apreciará que las técnicas descritas pueden utilizarse de otras formas y con otros tipos de contenido. En particular, se puede analizar un cuerpo de artículos de contenido con otros tipos de contenido, con el objeto de identificar a cualquier otro tipo de características o propiedad que se puede reconocer u otro atributo que es parte del contenido de aquellos artículos de contenido o que está asociado de otra forma con aquellos artículos de contenido, y la relevancia de los atributos particulares para el contenido y/o a otros de dichos atributos, puede determinarse en formas similares a aquellas planteadas para los términos textuales. Una lista no exclusiva de dichos atributos de artículo de contenido incluye los siguientes: un tipo de artículo de contenido (por ejemplo, una corriente o archivo de audio, una corriente o archivo de video, una imagen, etc.); una fuente de un artículo de contenido; un objeto particular en el contenido de imagen o video; un patrón particular de información en una corriente o archivo de artículo de contenido; un tipo particular de metadatos asociados con un artículo de contenido; etc. Dichos atributos pueden, cada uno, ser tratados como un término, de manera que proporcionar los resultados de búsqueda que son relevantes para los atributos especificados y/o para definir los temas u otros grupos de uno o más atributos relacionados.
Adicionalmente, aunque los ejemplos de las figuras 2A a 2E utilizan redes neurales y aprendizaje de propagación inversa para mejorar la información de relevancia determinada con el tiempo, en otras modalidades, se pueden utilizar en su lugar otros tipos de técnicas de aprendizaje de máquina o sistemas de adaptación. Como un ejemplo, en algunas otras modalidades, la información de relevancia determinada inicial puede ser representada utilizando una red neural Bayesiana probabilística que tiene una estructura similar a aquella planeada en los ejemplos de las figuras 2A a 2E, aunque con los valores de nodo representando las probabilidades condicionales con base en los valores de entrada correspondientes de los nodos vinculados precedentes en la red, con propagación de opinión probabilística para determinar los valores de relevancia particulares, y con el aprendizaje involucrando la actualización de los valores de probabilidad condicionales para corresponder a la retroalimentación con el tiempo.
Adicionalmente, aunque se han planteado anteriormente ejemplos con respecto a un usuario que especifica términos de búsqueda o información de preferencia, otros tipos de información pueden utilizarse de diversas formas en varias modalidades. Por ejemplo, un grupo de información que es específica para un usuario puede analizarse en forma automática y utilizarse para determinar la información de preferencia para ese usuario, el cual puede entonces ser utilizado para determinar en forma automática otro contenido que es relevante para esa información de preferencia. Los ejemplos no exclusivos de dicha información específica del usuario que puede ser analizada incluye grupos de correo electrónico y otras comunicaciones (por ejemplo, todo el correo electrónico que ha enviado y/o recibido un usuario durante un período de tiempo especificado, algunas o todas las entradas en un boletín electrónico del usuario u otro grupo de registros, etc.), los récords o historias de las acciones del usuario de diversos tipos (por ejemplo, las historias de búsquedas que son realizadas y/o las interacciones con resultados de búsqueda resultante), la información sobre las redes sociales del usuario y otras relaciones, etc. Alternativamente, uno o más de dichos grupos de información específica del usuario puede en su lugar, en algunas modalidades, ser tratados como un cuerpo de documentos que puede ser de interés para ese usuario (y/u para otros), tal como determinar en forma automática los temas de interés para el usuario con base en un análisis de dicha información del usuario y/o para permitir la recuperación de piezas particulares de dicha información específica del usuario que es relevante para los intereses actuales del usuario.
Por ejemplo, un usuario puede estar accediendo a un documento, y el contexto de la información de ese documento puede utilizarse para identificar otros artículos de contenido relevante (por ejemplo, a partir del sistema de cómputo del usuario, a partir de la Internet u otra red externa o almacén de datos, etc.). Como un ejemplo ilustrativo específico, un usuario John Doe, puede estar editando su curriculum vltae, y puede desear obtener datos de historia de trabajos relevantes u otros datos relacionados del almacén de correo electrónico del usuario y de la Red mundial. El almacén de correo electrónico puede, por ejemplo, tener correos electrónicos relacionados con el trabajo pasado realizado por el usuario para la Compañía 1 y para la Compañía 2, con encabezados de estos correos que incluyen los nombres de las compañías respectivas. Un almacén de datos para el usuario (ya sea local o remoto) también pueden contener uno o más curriculum vitae anteriores del usuario o ejemplos de curriculum vitae y un sitio en red de trabajo social relacionado puede tener una historia del empleo anterior del usuario. En dicha situación, el contexto en que el usuario particular tiene el curriculum vitae abierto, puede utilizarse para expandir o complementar en forma automática una búsqueda que especifica el usuario con el término de búsqueda "Doe", de tal manera que agrega uno o más de los términos de búsqueda adicionales "John", "Compañía 1", "Compañía 2", "curriculum vitae", cargo en el trabajo o información de descripción del curriculum vitae, información de ubicación geográfica para el usuario del curriculum vitae o para otra información de perfil o preferencia almacenado para el usuario, etc. La búsqueda expandida puede entonces identificar diversos tipos de documentos relevantes u otra información, tales como los correos electrónicos relacionados con el trabajo anterior realizado por el usuario para la Compañía 1 y la Compañía 2, otros documentos almacenados relacionados con la Compañía 1 y la Compañía 2, los currículos vitae pasados o los ejemplos de curriculum vitae, la información de historia de empleos del sitio en red relacionado con trabajo social, etc.
Los detalles adicionales relacionados con los ejemplos de determinación de información relevante relacionada con los dominios de interés y para uso posible de dicha información relevante determinada están disponibles en la Solicitud de Patente de E.U.A. No. 12/334,389, presentada el 12 de diciembre de 2008, y titulada "Electronic profile development, storage, use, and systems therefor"; en la Solicitud de Patente de E.U.A. No. 12/334,416, presentada el 12 de diciembre de 2008 y titulada "Advertising selection and display based on electronic profile information", en la Solicitud de Patente de E.U.A. No. 12/392,933, presentada el 25 de febrero de 2009 y titulada "Determining relevant information for domains of interest"; en la Solicitud de Patente de E.U.A. No. 12/334,389, presentada el 12 de diciembre de 2008 y titulada "Electronic profile development, storage, use and systems therefor"; en la Solicitud de Patente de E.U.A. No. 12/334,416, presentada el 12 de diciembre de 2008 y titulada "Advertising Selection and display based on electronic profile information; en la Solicitud de Patente de E.U.A. No. 12/392,908 presentada el 25 de febrero de 2009 y titulada "Electronic profile development, storage, use and systems for taking action base thereon"; y la Solicitud de Patente de E.U.A. No. 12/392,900, presentada el 25 de febrero de 2009 y titulada "platform for data aggregation, communication, rule evaluation and combinations thereof, using templated auto-generation", cada una de las cuales están incorporadas en la presente descripción como referencia en su totalidad.
Adicionalmente, como se describe con mayor detalle en cualquier parte, las técnicas descritas pueden utilizarse en situaciones diferentes a la identificación o recuperación de artículos de contenido relevantes. Por ejemplo, se puede utilizar un análisis automatizado de un primer grupo de artículos de contenidos para identificar temas que corresponden a los tipos o categorías de datos en los artículos de contenido del primer grupo (por ejemplo, con base en los datos que tienen patrones coincidentes o similares), y aquellos temas identificados pueden ser utilizados para categorizar u determinar de otra forma un tipo de otro artículo de datos que se utiliza como el término de búsqueda. Como un ejemplo ilustrativo, los diversos tipos de datos encriptados pueden ser analizados, de manera que los temas que son identificados que corresponden a los tipos de esquemas de encriptación. Si un archivo encriptado u otra pieza de datos encriptados son suministrados posteriormente o especificados de otra forma, el servicio DSRD puede utilizarse en forma automática para identificar uno o más de los esquemas de encriptación más probablemente utilizados para encriptar esa pieza de datos especificados. Más generalmente, los temas identificados de un primer grupo de artículos de contenido pueden ser tipos de soluciones válidas que son relevantes para un área sujeto, de manera que las búsquedas posteriores pueden tener algún tipo de problema matemático u otro problema para el cual, uno o más de los temas identificados correspondientes que son determinados en forma automática como soluciones posibles. Se apreciará que las técnicas descritas pueden ser utilizadas de manera similar en una variedad de formas diferentes.
La figura 3, es un diagrama de bloques que ilustran una modalidad de ejemplo de un sistema adecuado para realizar las técnicas para determinar la información relevante relacionada con los dominios de interés. En particular, la figura 3, ilustra un sistema de cómputo 300 adecuado para ejecutar una modalidad de un sistema DSRD 340, así como también diversos sistemas de cómputo del usuario 350 y otros sistemas de cómputo 360, 370 y 380. En la modalidad ilustrada, el sistema de cómputo 300 tiene componentes que incluyen un CPU 305, diversos componentes l/O 310, el almacenamiento 320, y la memoria 330. Los componentes l/O ilustrados incluyen un despliegue 311 , una conexión de red 312, un controlador de medios legible por computadora 313, y otros dispositivos l/O 315 (por ejemplo, un teclado, un ratón, bocinas, etc.). Adicionalmente, los sistemas de cómputo de usuario ilustrados 350 tienen componentes similares a aquellos del sistema de cómputo del servidor 300, incluyendo un CPU 351 , componentes l/O 352, almacenamiento 354, y memoria 357, aunque no se ilustran algunos detalles (por ejemplo, los componentes l/O particulares). Los otros sistemas de cómputo 360, 370 y 380 pueden también incluir cada uno, componentes similares para algunos o todos los componentes ilustrados con respecto al sistema de cómputo 300, aunque dichos componentes no son ilustrados en este ejemplo con el objeto de ser breves.
El sistema DSRD 340 puede incluir instrucciones de software que se pueden ejecutar en la memoria 330 mediante el CPU 305, de tal manera que proporcionan una modalidad del servicio DSRD. En particular, el sistema DSRD 340 interactúa con algunos o todos los sistemas de cómputo 350, 360, 370 y 380 sobre la red 390 (por ejemplo, por medio de la internet y/u la Red mundial, por medio de una red celular privada, etc.) para obtener información y solicitudes, y para proporcionar información en respuesta. Por ejemplo, el sistema DSRD 340 en este ejemplo, recibe las solicitudes de varios usuarios (no mostrados) que están interactuando con los sistemas de cómputo del usuario 350, tal como las solicitudes para proporcionar los resultados de búsqueda solicitados y/o información sobre temas determinados u otras relaciones entre términos para un dominio, y responde en consecuencia. En algunas modalidades, el sistema DSRD 340 adicionalmente puede recibir las solicitudes para las recomendaciones específicas del usuario en representación de los usuarios particulares (ya sea de los usuarios directamente o de otros sistema en representación de los usuarios) y proporciona las recomendaciones específicas del usuario correspondientes que se basan, por lo menos en parte, en la información de relevancia determinada específica del dominio, mientras que en otras modalidades, uno o más sistemas diferentes 335 y/o 365 pueden en su lugar utilizar la información de relevancia determinada específica del usuario provista por el sistema DSRD 340 para generar y proporcionar dichas recomendaciones específicas del usuario. Adicionalmente, uno o más de los sistemas de cómputo del usuario 350 pueden interactuar con el sistema DSRD 340 para realizar otros tipos diversos de acciones, tal como proporcionar tipos diferentes de acciones de usuarios con respecto a la retroalimentación, como se plantea con mayor detalle en cualquier parte. Los otros sistemas de cómputo 350 pueden ejecutar diversos software como parte de las interacciones con el sistema DSRD 340. Por ejemplo, los sistemas de cómputo de usuario 350 pueden ejecutar cada una un buscador de la Red mundial 358 u otro software en la memoria 357 para interactuar con el sistema DSRD 340, tal como para interactuar con un GUI basado en la red mundial del servicio DSRD provisto por el sistema DSRD 340.
Con el objeto de determinar la información de relevancia específica del dominio, el sistema DSRD 340 obtiene documentos específicos del dominio u otro contenido de una o más fuentes, y analiza esa información para determinar en forma automática la información de relevancia específica del dominio. Las fuentes del contenido específico del dominio pueden variar en diversas modalidades, tal como para incluir opcionalmente información relacionada con el dominio 322 en el almacenamiento local 320, Información de dominio opcional 375 en otros sistemas de cómputo remotos 370, la información suministrada para el análisis por medio de uno o más usuarios de los sistemas de cómputo del usuario 350 y/o de los otros sistemas opcionales 365 en otros sistemas de cómputo 360, etc. Los otros sistemas opcionales 365 en los otros sistemas de cómputo 360 y/o los otros sistemas opcionales 335 ejecutándose en la memoria 330 puede tener diversas formas en diversas modalidades, tales como los servicios afiliados que obtienen información de relevancia determinada desde el sistema DSRD 340 y utilizan esa información obtenida en varias formas (por ejemplo, para interactuar con los usuarios de los sistemas de cómputo del usuario 350), y/o servicios de provisión de contenido que proporciona contenido al sistema DSRD para su análisis. Por ejemplo, un sistema diferente opcional particular 365 puede mantener y proporcionar información de dominio al sistema DSRD 340 para el análisis, y obtener y utilizar la información de relevancia determinada resultante del sistema DSRD 340, aunque con por lo menos una parte de la información que es utilizada por el sistema DSRD 340 en la determinación de la información de relevancia (por ejemplo, la información de análisis textual, las redes neurales generadas, etc.) siendo almacenadas en el sistema de cómputo 300, y no provistas en el otro sistema 365. Alternativamente, en otras modalidades, el sistema DSRD 340 puede generar y utilizar la información de relevancia determinada para uno o más dominios sin interactuar con cualquiera de dichos otros servicios opcionales. Adicionalmente, uno o más terceros opcionales pueden utilizar uno o más de los otros sistemas de cómputo 380 e interactuar con el servicio DSRD en otras formas diversas.
La información diversa relacionada con la operación del sistema DSRD 340 puede ser almacenado en el almacenamiento 320 o cualquier otra parte (por ejemplo, remotamente en uno o más de los otros sistemas de cómputo 380), tal como la información 322 relacionada con uno o más dominios de interés (por ejemplo, el contenido específico de dominio a ser analizado o que ya se ha analizado), la información 324 relacionada con los resultados del análisis del contenido específico del dominio (por ejemplo, la información de relevancia específica del dominio, tales como las estructuras de datos de red neural generadas, las estructuras de datos de red Bayesiana que incluyen representaciones probabilísticas de las relaciones entre términos, estructuras de datos de árbol de decisión generadas que representan subgrupos de información de representación probabilística, etc.; clasificaciones determinadas y otra información relacionada con términos y temas y documentos particulares; etc.), la información 326 para reflejar la información sobre las interacciones de los usuario con información específica del dominio diversa y otra información de retroalimentación, e información diversa del usuario 328 (por ejemplo, las preferencias para u otros intereses en los términos particulares, o más generalmente, las preferencias relacionadas con los mecanismos de comunicación o interacción). En otras modalidades, alguna parte o toda la información utilizada o generada por el sistema DSRD 340 puede ser almacenada en otras formas, incluyendo en otros sistemas de cómputo 380 o en otros nodos/sistemas de almacenamiento (no mostrados). El sistema DSRD 340 puede obtener la información de retroalimentación 326 en diversas formas, tal como, generando la información con base en las interacciones del sistema DSRD 340 con los usuarios (por ejemplo, cuando se les proporciona información de relevancia determinada), a partir de los otros sistemas opcionales 335 y/o 365 que interactúa con los usuarios y que proporciona a esos usuarios información de relevancia determinada desde el sistema DSRD 340, mediante uno o más sistemas que interactúan con los usuarios para el propósito de generar información de retroalimentación, etc.
Se apreciará que los sistemas de cómputo 300, 350, 360, 370, y 380 únicamente son ilustrativos y no pretenden limitar el alcance de la presente invención. Los sistemas de cómputo pueden, en su lugar, incluir cada uno, sistemas o dispositivos de cómputo de interacción múltiples, y los sistemas de cómputo pueden ser conectados a otros dispositivos que no están ilustrados, incluyendo a través de una o más redes, tales como la Internet, por medio de la Red mundial, o por medio de redes privadas (por ejemplo, redes de comunicación móvil, etc.). Más generalmente, un sistema de cómputo puede comprender cualquier combinación de hardware y software que puede interactuar y realizar los tipos de funcionalidad descritos, incluyendo sin limitación, a computadoras de escritorio u otras computadoras, servidores de base de datos, dispositivos de almacenamiento de red y otros dispositivos de red. PDAs, teléfonos celulares y teléfonos inalámbricos y otros sistemas de telefonía, buscadores, organizadores electrónicos, dispositivos de Internet, sistemas basados en televisión (por ejemplo, utilizando sintonizadores externos y/o grabadores de video personal/digital), sistemas de transmisión, y diversos otros productos del consumidor que incluyen capacidades de comunicación adecuadas utilizando cualquier protocolo de comunicación adecuado. Adicionalmente, la funcionalidad provista por el sistema DSRD ilustrado 340, puede en algunas modalidades ser distribuido en diversos módulos, como se planteó con mayor detalle en cualquier parte. De manera similar, en algunas modalidades, una parte de la funcionalidad del sistema DSRD 340 puede no ser provisto y/u otra funcionalidad adicional puede estar disponible.
También se apreciará que, aunque se ilustraron los diversos artículos como siendo almacenados en la memoria o en el almacenamiento mientras que están siendo utilizados, estos artículos o porciones de éstos pueden transferirse entre la memoria y otros dispositivos de almacenamiento para los propósitos de administración de memoria e integridad de datos. Alternativamente, en otras modalidades, algunos o todos los módulos de software y/o sistemas pueden ejecutarse en la memoria en otro dispositivo y comunicarse con los sistemas de cómputo ilustrados por medio de la computadora entre computadoras. Adicionalmente, en algunas modalidades, una parte o todos los sistemas y/o módulos, pueden ser implementados o provistos en otras formas, tal como, por lo menos parcialmente, en firmware y/o hardware, incluyendo, sin limitación, uno o más circuitos integrados específicos de la aplicación (ASICs), circuitos integrados estándar, controladores (por ejemplo, ejecutando instrucciones adecuadas, e incluyendo microcontroladores y/o controladores incrustados), arreglos de portal programable del campo (FPGAs), dispositivos lógicos programables complejos (CPLDs), etc., así como también los dispositivos que emplean tecnología RFID. Algunos o todos los módulos, sistemas y estructuras de datos también pueden ser almacenados (por ejemplo, como instrucciones de software y datos estructurados) en un medio legible por computadora, tal como un disco duro, una memoria, una red o un artículo de medio portátil a ser leído por un controlador adecuado o por medio de una conexión adecuada, incluyendo una codificada en una o más códigos de barras u otros códigos relacionados almacenados en uno o más de dichos medios legibles por computadora y siendo legibles por un dispositivo lector adecuado. Los sistemas, módulos y estructuras de datos pueden también ser transmitidos, como las señales de datos generadas (por ejemplo, como parte de una onda portadora) en una variedad de medios de transmisión legibles por computadora, incluyendo medios con base inalámbrica y con base cableada/cable, y pueden tomar una variedad de formas, o más generalmente, pueden ser mediados en cualquier medio legible por computadora. Dichos productos de programa de cómputo también pueden tomar otras formas en otras modalidades. Por consiguiente, la presente invención puede ser practicada con otras configuraciones del sistema de cómputo.
La figura 4, es un diagrama de flujo de una modalidad de ejemplo de una rutina de servicio DSRD 400. La rutina puede ser provista mediante, por ejemplo, la ejecución del servicio DSRD 105 de las figuras 1A a 1C y/o el sistema DSRD 340 de la figura 3, tal como para manejar la determinación de información de relevancia relacionada con los dominios de interés, así como también, a las interacciones correspondientes con los usuarios u otras entidades. En la modalidad ilustrada, la rutina analiza la información sobre el uno o más dominios de interés en diversos momentos, de tal manera que procesa previamente la información sobre un dominio particular (por ejemplo, como el instruido por un operador humano del servicio DSRD, como es solicitado por una entidad de terceros, etc.) para determinar por lo menos algunos tipos de información de relevancia específica del dominio para utilizar en la respuesta a solicitudes posteriores con base en dicha información, o en lugar de generar en forma dinámica por lo menos algunos tipos de información de relevancia específica del dominio en respuesta a las solicitudes de los usuarios u otras entidades en por lo menos algunas situaciones.
En la modalidad ilustrada, la rutina empieza en el bloque 405, en donde se recibe una indicación de una solicitud u otra información. La rutina continúa en el bloque 410 para determinar si es recibida una solicitud para determinar la información relacionada con la relevancia para un dominio indicado o si el contenido específico del dominio a ser analizado ha sido provisto, y si es así continúa en el bloque 415. En los bloques 415 a 450, la rutina analiza entonces la información específica de dominio con el objeto de determinar la información relacionada con la relevancia para el dominio, y almacena esa información para uso posterior. Adicionalmente, mientras que los bloques 415 a 450 son ilustrados realizando una determinación de la información relacionada con la relevancia para un dominio de interés, en por lo menos algunas modalidades, algunos o todos los bloques 415 a 450, pueden realizarse de forma similar para modificar la información de relevancia determinada anteriormente, de tal manera que revisa la información de relevancia determinada anteriormente con base en la retroalimentación del usuario y/o expandir la información de relevancia determinada anteriormente con base en el contenido específico de dominio recientemente disponible.
En particular, la rutina en el bloque 415 obtiene documentos u otra información específica del dominio para que el dominio sea analizado, tal como con base en los documentos recibidos actualmente en el bloque 405, los documentos recibidos anteriormente y almacenados para uso posterior, los documentos recuperados de una ubicación externa indicada en la solicitud recibida en el bloque 405, etc. Después del bloque 415, la rutina continúa en el bloque 420 para realizar una rutina del Administrador de análisis de dominio para analizar la información de término para el contenido específico de dominio disponible, con un ejemplo de dicha rutina siendo ilustrado con respecto a la figura 5. Después del bloque 420, la rutina continúa al bloque 430 para realizar una rutina del Administrador de determinación de relevancia entre términos para determinar las relaciones entre términos relevantes (por ejemplo, la información relacionada con el tema) para el dominio (por ejemplo, con base en los datos generados por el bloque 420), con un ejemplo de dicha rutina siendo ilustrado con respecto a la figura 6. Después del bloque 430, la rutina continúa en el bloque 440 para realizar una rutina del Administrador de determinación de documento relevante para determinar los documentos particulares del dominio que son relevantes para los términos y temas particulares (por ejemplo, con base en los datos generados por el bloque 420), con un ejemplo de dicha rutina siendo ilustrado con respecto a la figura 7. Después del bloque 440, la rutina continúa al bloque 445 para realizar una rutina del Administrador de generación de recomendación de relación de términos para generar representaciones probabilísticas de las relaciones entre los términos particulares para el dominio(s) (por ejemplo, con base en los datos generados por los bloques 430 y/o 440) para uso posterior en la generación de recomendaciones específicas del usuario con base, por lo menos en parte, en dichas relaciones entre términos, con un ejemplo de dicha rutina siendo ilustrado con respecto a las figuras 8A y 8B. Después de que el bloque 445, la rutina continúa en el bloque 447 para realizar opcionalmente una rutina u operar de otra forma para identificar los artículos de contenido que son relevantes para los términos de interés particulares relacionados con el dominio que está siendo analizado (por ejemplo, los artículos de contenido de términos adicionales que son identificados como siendo de interés particular para otros términos indicados, tal como con base en la salida de la rutina del Administrador de Generación de Recomendación de Relación de términos del bloque 445), tal como puede realizarse mediante el módulo opcional 127 planteado con respecto a la figura 1A (por ejemplo, para uso posterior en la generación de recomendaciones específicas del usuario con base, por lo menos en parte, en dichos términos indicados y/o términos adicionales), aunque en algunas modalidades, dicha identificación de artículo de contenido no es realizada en este momento en absoluto. Después del bloque 447, la rutina continúa en el bloque 450 para almacenar la información de relevancia determinada de los bloques 420 a 445 y/o para proporcionar opcionalmente una parte o toda esa información de relevancia determinada para el solicitante, de tal manera que si la información se determinó en forma dinámica en respuesta a una solicitud o está siendo suministrado para acomodar una solicitud anterior. La información de relevancia determinada a partir de los bloques 420 a 445 pueden ser almacenados en diversas formas, incluyendo en la memoria volátil y/o el almacenamiento no volátil, y como se plantea con mayor detalle en cualquier parte, puede almacenarse en diversas formas (por ejemplo, las redes neurales, las redes Bayesianas, los árboles de decisión, etc.).
Si en su lugar, en el bloque 410 se determinó que es recibido otro tipo de solicitud o información, la rutina continúa en su lugar, al bloque 460 para determinar si se ha recibido una solicitud para proporcionar la información de relevancia determinada para un dominio indicado. Dicha información de relevancia determinada puede ser provista por diversas razones en diversos momentos, tal como en respuesta a una solicitud de búsqueda o como parte de la ayuda a un usuario en la especificación de la información con respecto a uno o más temas de interés, así como en diversas formas (por ejemplo, como parte de una página de la red mundial u otra pantalla de información provista a un usuario para despliegue u otra presentación en un dispositivo del cliente del usuario, para otro servicio en respuesta a una solicitud para que la información sea utilizada por ese servicio, etc.). Si se determinó en el bloque 460 que una solicitud ha sido recibida para proporcionar información de relevancia determinada para un dominio indicado, la rutina continúa en el bloque 465 para determinar si la información de relevancia solicitada ya ha sido determinada y almacenada para uso posterior en los bloques 415 a 450, o si alguna parte o toda la información de relevancia solicitada será generada dinámicamente. En otras modalidades, dicha determinación puede no ser realizada, tal como si la información de relevancia provista en respuesta a dichas solicitudes siempre es determinada y almacenada previamente, o si es determinada siempre en forma dinámica. En la modalidad ilustrada, si se determinó en el bloque 465 utilizar la información de relevancia almacenada, la rutina continúa en el bloque 470 para obtener la información de relevancia solicitada a partir de la información que se determinó y almacenó anteriormente.
Adicionalmente, las acciones 470 pueden ser realizadas de diversas maneras en diversas modalidades. Por ejemplo, en algunas modalidades, por lo menos algunos tipos de información de relevancia determinada puede estar disponible únicamente para un sub-grupo de usuarios u otras entidades que son autorizadas para recibir la información, y si es así, las acciones para uno o más de los bloques 460 a 475, pueden incluir adicionalmente determinar si el solicitante está autorizado para recibir la información solicitada (por ejemplo, ha provisto una comisión adecuada para pagar el acceso a la información, tiene una identidad particular que es verificada como autorizada para recibir la información solicitada confidencial, etc.). Adicionalmente, las solicitudes pueden ser recibidas y la información puede ser provista en diversas formas, incluyendo en mensajes electrónicos o por medio de interacciones programáticas utilizando uno o más APIs provistos por el servicio DSRD, tal como mediante un servicio afiliado. Alternativamente, una solicitud basada en la Red mundial puede ser recibida de un usuario (por ejemplo, con base en una GUI de búsqueda de información basada en la Red mundial u otra GUI provista por el servicio DSRD u otro servicio afiliado), y la información solicitada puede ser suministrada al usuario como parte de una o más páginas Web generadas que son enviadas en respuesta a la solicitud.
Si se determinó en su lugar, en el bloque 465 para obtener en forma dinámica por lo menos alguna parte de la información de relevancia solicitada, la rutina continúa, en su lugar, al bloque 475 para realizar la obtención dinámica de la información. En particular, como se ilustró en el ejemplo de rutina 400, el desempeño del bloque 475 puede incluir ejecutar una o más de las otras rutinas que corresponden a los bloques 420 a 445 (así como también si está presente el bloque opcional 447) y obteniendo la información resultante de las rutinas. Adicionalmente, aunque no se ilustra en la presente descripción, en algunas modalidades, el desempeño del bloque 475 puede incluir adicionalmente obtener documentos u otro contenido a ser analizado, tal como iniciando el desempeño del bloque 415 también, o en su lugar, dicho contenido a ser utilizado puede ser recibido en el bloque 405 y provisto a una o más de las rutinas que corresponden a los bloques 420 a 445 (y/o el bloque opcional 447) como parte del desempeño del bloque 475. Después de los bloques 470 o 475, la rutina continúa al bloque 480 para proporcionar la información obtenida al usuario u otro solicitante, lo cual puede ser realizado de diversas formas en diversas modalidades, como se plantea con mayor detalle en cualquier parte. Adicionalmente, se apreciará que el desempeño del bloque 480 puede involucrar interacciones múltiples con el usuario u otro solicitante en por lo menos algunas situaciones, tal como para proporcionar inicialmente alguna información, y para proporcionar posteriormente información adicional o realizar otras interacciones con el usuario u otro solicitante con base en las acciones tomadas por el usuario u otro solicitante después de la provisión inicial de la información. Después del bloque 480, la rutina continúa en el bloque 485 para obtener o determina opcionalmente retroalimentación a partir del uso de la información de relevancia provista por el usuario u otro solicitante, y si es así, retiene la retroalimentación en la modalidad ilustrada para uso posterior al realizar las acciones de aprendizaje para mejorar la información de relevancia determinada anteriormente - en otras modalidades, la rutina puede, en su lugar, utilizar de manera inmediata cualquiera de dicha retroalimentación obtenida en por lo menos algunas situaciones, tal como para realizar nuevamente las rutinas que corresponden a uno o más de los bloques, 420 a 445 utilizando la información de retroalimentación.
Si en su lugar, se determinó en el bloque 460 que una solicitud no ha sido recibida para proporcionar la información de relevancia determinada para un dominio indicado, la rutina continúa, en su lugar, al bloque 462 para determinar si se ha recibido una solicitud desde o en representación de un usuario (por ejemplo, de otro servicio que está interactuando con el usuario) que se relaciona con proporcionar recomendaciones específicas del usuario para el usuario con base en la información de relevancia determinada para un o más dominios indicados. Si es así, la rutina continúa con el bloque 464 para realizar una rutina del Administrador de generación de recomendación de relación de términos para generar recomendaciones específicas del usuario para el usuario para el dominio(s) indicado(s) con base en las representaciones probabilísticas de las relaciones entre los términos particulares para el dominio(s), tal como las representaciones probabilísticas que fueron generadas anteriormente con respecto al bloque 445 o que en su lugar, son generadas en forma dinámica en un momento para responder a la solicitud actual. En otras modalidades, otro servicio puede, en su lugar, proporcionar dichas recomendaciones específicas del usuario utilizando la información de representación probabilística generada por el servicio DSRD, de manera que la rutina ejecutada en el bloque 445 puede únicamente generar las representaciones probabilísticas de la información de relación entre términos para uso posterior y proporciona es información generada al otro servicio (por ejemplo, con respecto a uno o más bloques 450, 480, 490, etc.). Después del bloque 464, continúa en el bloque 480 para proporcionar la información de recomendación generada al solicitante.
Si en su lugar, se determinó en el bloque 462 que una solicitud no ha sido recibida para proporcionar recomendaciones con base en la información de relevancia determinada para un dominio indicado, la rutina continúa, en su lugar, al bloque 490 para realizar una o más operaciones indicadas diferentes, según sea adecuado. Por ejemplo, el contenido específico del dominio puede ser recibido en el bloque 490 y almacenado para análisis posterior, tal como la información para un dominio nuevo para ser analizada y/o información nueva o actualizada para un dominio para el cual se determinó anteriormente la información de relevancia. Alternativamente, otros tipos de información pueden ser recibidos y utilizados en el bloque 490, tal como la información de retroalimentación relacionada con el uso de información de relevancia determinada previamente, y se puede utilizar de diversas formas. Por ejemplo, si uno o más criterios previamente definidos son satisfechos por la retroalimentación recibida en el bloque 490 y/o es almacenada en el bloque 485 (por ejemplo, con base en una cantidad mínima o máxima de retroalimentación que es obtenida, una cantidad mínima o máxima de tiempo desde una determinación anterior de información de relevancia correspondiente, etc.), un desempeño adicional de las rutinas que corresponden a uno o más de los bloques 420 a 445 pueden ser activadas utilizando la información de retroalimentación con el objeto de aprender y actualizar la información de relevancia determinada anteriormente, como se describió con mayor detalle en cualquier parte. Adicionalmente, pueden ser recibidos y procesados otros tipos de solicitudes en el bloque 490, tal como las solicitudes para actualizar la información de relevancia determinada anteriormente (por ejemplo, con base en la información de retroalimentación subsiguiente, el contenido específico de dominio adicional subsiguiente que está disponible, etc.), tal como una solicitud de un usuario u otra entidad con la cual interactúa el servicio DSRD o de un operador humano del servicio DSRD. De manera similar, se pueden recibir y procesar diversas solicitudes administrativas de un operador humano del servicio DSRD. De manera asimilar, las diversas solicitudes administrativas de un operador humano del servicio DSRD pueden ser recibidas y procesadas.
Después de que los bloques 450, 485 ó 490, la rutina continúa al bloque 495 para determinar si continuar, tal como hasta que se recibe una indicación explícita de terminación. Si se determinó continuar, la rutina regresa al bloque 405, y si no es así, continúa al bloque 499 y termina.
La figura 5, es un diagrama de flujo de una modalidad de ejemplo de una rutina del Administrador de análisis de dominio 500. La rutina puede ser provista mediante, por ejemplo, la ejecución del módulo de Administrador de análisis de dominio 110 del servicio DSRD 105 de la figura 1A y/o un módulo del sistema DSRD 340 de la figura 3, tal como para analizar el contenido específico del dominio para un dominio con el objeto de determinar el uso de términos particulares en documentos particulares y a través del grupo de todos los documentos. Adicionalmente, en por lo menos algunas situaciones, la rutina 500 puede realizarse con base en la ejecución del bloque 420 de la figura 4. En este ejemplo, la rutina 500 es realizada con respecto a un análisis inicial del contenido específico de dominio par aun dominio, aunque en otras modalidades, puede realizarse de manera similar para actualizar la información analizada anteriormente, tal como para analizar los documentos adicionales que se ponen disponibles para un dominio después de que se ha completado un análisis anterior de los otros documentos. Adicionalmente, en una forma similar a aquella de las otras rutinas, la rutina 500 puede determinar la información de análisis de términos para un dominio antes del uso de esa información determinada, así como también dinámicamente en respuesta a una solicitud para dicha información.
La modalidad ilustrada de la rutina empieza en el bloque 505, en donde se recibe una indicación de los documentos a ser analizados para un dominio u otra solicitud. La rutina continúa en el bloque 510 para determinar si los documentos a ser analizados fueron recibidos. Si es así, la rutina continúa en el bloque 515 para analizar cada uno de los documentos para determinar los términos que están presentes en los documentos. Adicionalmente, como se planteó con mayor detalle en cualquier parte, la determinación de los términos para un documento pueden incluir una variedad de tipos de procesamiento de términos en diversas modalidades, de tal manera que se normalizan los términos (por ejemplo, utilizando el término de origen para combinar los términos relacionados), para remover los términos comunes (por ejemplo, "el", "un", "una", "de", "y", etc.) u otros términos indicados, para agregar palabras múltiples juntas en términos únicos para los propósitos del análisis posterior, para generar un índice de los términos en el documento, etc. Después de que el bloque 515, la rutina continúa al bloque 520 para realizar una determinación de frecuencia de término para los términos de cada documento, y en el bloque 530 realiza una determinación de frecuencia de documento inversa para cada término a través de todos los documentos. En el bloque 540, la rutina determina entonces una clasificación TF-IDF para cada término y la combinación de documentos con base en la información generada en los bloques 520 y 530. Después del bloque 540, la rutina continúa al bloque 560 para almacenar la información determinada para uso posterior, y para proporcionar opcionalmente la información determinada como salida (por ejemplo, como una respuesta a una invocación dinámica de la rutina 500 para la información determinada, tal como con respecto al bloque 475 de la figura 4; o para utilizar mediante la rutina del Administrador de determinación de tema relevante 600 de la figura 6 y/o la rutina del Administrador de determinación de documento relevante 700 de la figura 7, tal como el correspondiente a los bloques 430 y/o 440 de la figura 4).
Si en su lugar, se determinó en el bloque 510 que los documentos a ser analizados no fueron recibidos, la rutina continúa, en su lugar, al bloque 585 para realizar una o más de las operaciones indicadas según sea adecuado. Por ejemplo, las otras operaciones pueden incluir recibir y responder a las solicitudes para la información de análisis de término de documentos generados anteriormente, para solicitudes que actualizan previamente la información de análisis del documento determinado para reflejar el contenido específico de dominio nuevo que está disponible, para las solicitudes administrativas de un operador humano del servicio DSRD, etc. Como se plantea con mayor detalle en cualquier parte, cuando se actualiza la información de análisis de documento determinada anteriormente para reflejar los documentos específicos de dominio nuevos que están disponibles, la rutina puede en ciertas modalidades, realizar los pasos 515 a 560 para aquellos documentos nuevos, mientras que en otras modalidades, puede analizar o incorporar de otra forma dichos documentos nuevos en otras formas (por ejemplo, identificando uno o más de los documentos analizados anteriormente, a los cuales es más similar el documento nuevo con base en una o más medidas de similitud, y promediando o utilizando de otra forma la información de relevancia analizada para los otros documentos identificados para representar el documento nuevo, tal como utilizando las clasificaciones TF-IDF para los términos en el otro documento identificado para representar al documento nuevo).
Después de los bloques 560 o 585, la rutina continúa al bloque 595 para determinar si continuar, tal como hasta que se recibe una indicación explícita para terminar. Si se determina continuar, la rutina regresa al bloque 505, y si no continúa en el bloque 599 y termina. Se apreciará que varios de los bloques de la figura 5 pueden ser realizado de diversas formas en diversas modalidades, incluyendo el análisis de documentos diferentes en una forma serial o paralela (por ejemplo, en una forma distribuida en los sistemas de cómputo múltiples).
La figura 6, es un diagrama de flujo de una modalidad de ejemplo de una rutina del Administrador de determinación de relevancia entre términos 600. La rutina puede ser provista mediante, por ejemplo, la ejecución del módulo de Administrador de determinación de relevancia entre términos 130 de la figura 1A y/o un módulo del sistema DSRD 340 de la figura 3, tal como el uso de la información de análisis de término de documento para documentos de un dominio para determinar las relaciones entre términos, incluyendo temas entre términos posibles para el dominio. La rutina 600 puede ser iniciada mediante, por ejemplo, la ejecución del bloque 430 de la figura 4, o en su lugar, de otras formas. Adicionalmente, la modalidad ¡lustrada de la rutina describe una determinación inicial de información de relación entre términos relevante para un dominio, así como también la actualización de la información de relación entre términos determinada anteriormente para reflejar la retroalimentación subsiguiente y/u otra información sobre los temas posibles para el dominio. Adicionalmente, en una forma similar a aquella de las otras rutinas, la rutina 600 puede determinar la información de relevancia para un dominio antes del uso de esa información de relevancia determinada, así como también en forma dinámica en respuesta a una solicitud de dicha información.
Adicionalmente, en la modalidad ilustrada, la determinación de la información de relevancia de relación entre términos para un dominio en la figura 6, está ilustrada como siendo realizada por separado a partir de la determinación de información de relevancia relacionada con el documento para el dominio en la figura 7, aunque en otras modalidades, la determinación de dichos tipos de información de relevancia puede ser realizada de otras formas. Por ejemplo, únicamente una información de relevancia de relación entre términos y la información de relevancia relacionada con el documento puede ser determinada en una modalidad particular, la determinación tanto de la información relacionada con la relación entre términos y la información de relevancia relacionada con el documento para un dominio puede realizarse junta como una parte de una rutina única, la información que es común para ambos tipos de terminaciones puede realizarse una vez y posteriormente ser compartida entre dos rutinas diferentes, etc.
La modalidad ilustrada de la rutina empieza en el bloque 605, en donde la información de análisis de términos de documento para los documentos de un dominio es recibida (por ejemplo, como salida de rutina 500 de la figura 5, como la información suministrada como parte de una solicitud de determinación dinámica, etc.), u otra solicitud es recibida. La rutina continúa en el bloque 610 para determinar si la información de análisis de término de documentos es recibida, si es así, continúa en el bloque 615.
En la modalidad ilustrada, los bloques 615 a 650 son realizados para determinar la información relacionada con el tema para cada grupo de uno o más términos del dominio que son de interés. Los términos a ser analizados pueden ser seleccionados, por ejemplo, utilizando cada términos presente en cualquiera de los documentos (opcionalmente excluyendo los términos comunes y/u otros términos indicados). Alternativamente, los grupos de términos a ser analizados pueden incluir, por ejemplo, cada combinación de dos términos o de otra cantidad indicada de términos que están presentes en los documentos del dominio, cada combinación de dos términos o de otra cantidad indicada de términos que son determinados para estar relacionados de manera suficientemente potencial unos con los otros (por ejemplo, sobre un umbral especificado), etc. Adicionalmente, los bloques 615 a 650 pueden ser realizados en forma repetida para evaluar y revisar la información sobre la interrelación de los términos múltiples, tal como para realizar inicialmente los bloques 615 a 650 para cada término individualmente, para realizar a continuación la determinación para al menos algunas combinaciones de dos términos (por ejemplo, con base en la información disponible del desempeño de los bloques 615 a 650 para esos términos en forma individual), para realizar a continuación la determinación para al menos algunas combinaciones de tres términos (por ejemplo, con base en la información disponible del desempeño de los bloques 615 a 650 para términos particulares que están relacionados de manera suficiente con las combinaciones seleccionadas anteriormente de dos términos), etc. Alternativamente, en algunas modalidades, algunos o todos los bloques 615 a 650 pueden ser realizados, en su lugar, en una forma paralela (por ejemplo, en una forma distribuida en sistemas de cómputo múltiples) para algunos o todos los grupos de uno o más términos a ser considerados.
En particular, en la modalidad ilustrada, la rutina en el bloque 615 selecciona el siguiente grupo de uno o más términos a ser considerados, empezando con el primero de dichos grupos, y en elemento bloque 620, de manera similar selecciona el siguiente documento del dominio a ser considerado, empezando con el primer documento. En el bloque 625, la rutina determina entonces la relevancia de promedio normalizada del término seleccionado para el documento seleccionado, tal como con base en el promedio o agregando de otra manera las clasificaciones TF-IDF normalizadas para cada término seleccionado para el documento seleccionado. En el bloque 635, la rutina determina entonces si existen más documentos a ser analizados, y si es así, regresa al bloque 620. De lo contrario, la rutina continúa al bloque 640 para determinar los documentos más relevantes para los términos seleccionados actualmente con base en las clasificaciones relevantes determinadas en el bloque 625. A continuación, en el bloque 645, la rutina identifica uno o más de los documentos más relevantes determinados, y utiliza los documentos identificados para determinar otros términos que son potencialmente los más relevantes para los términos seleccionados, tal como, con base en la frecuencia de términos de aquellos otros términos en el documento identificado u otra indicación de la relevancia de esos otros términos para los documentos identificados.
Adicionalmente, en algunas modalidades, los otros términos que son determinados para ser los más relevantes para el término seleccionado, opcionalmente pueden ser combinados con uno o más de los términos seleccionados para uso posible como un tema y/o para análisis posterior posible con respecto a los bloques 615 a 650 para el grupo combinado de esos términos, tal como encontrar opción otros términos adicionales que pueden estar relacionados con aquel grupo de términos combinado. Dicho análisis en curso de las relaciones posibles de otros términos adicionales a los términos seleccionados actualmente, puede realizarse de diversas formas, tal como combinando individualmente el grupo de términos seleccionados con cada uno de los otros términos más relevantes, con todos los otros términos más relevantes, con algunas o todas las sub-combinaciones de los otros términos más relevantes, etc. Alternativamente, en otras modalidades, algunos o todos los otros términos más relevantes pueden combinarse con un aparte o todos los términos seleccionados para identificar los temas posibles en otras formas, y/o la retroalimentacion posterior del usuario de términos juntos a través de los usuarios que pueden ser utilizados para refinar cuáles grupos de términos están relacionados juntos como temas para el dominio.
Después del bloque 645, la rutina continúa en el bloque 650 para determinar si existen más grupos de uno o más términos a considerar, y si es así, regresa al bloque 615. De lo contrario, la rutina continúa al bloque 660 para, en la modalidad ilustrada, generar una red neural para reflejar la relevancia de los términos en el dominio para otros términos en el dominio, tal como con base, en parte, en la información generada con respecto a los bloques 625, 640 y 645. Como se planteó con respecto al bloque 680, dicha red neural generada también puede ser actualizada posteriormente con base en la retroalimentación para refinar la determinación de la capacidad de interrelación de los términos particulares para el dominio, tal como para algunos o todos los términos de entrada y/o términos de salida en una forma paralela. Después del bloque 660, la rutina continúa en el bloque 670 para almacenar la información relacionada con el tema relevante determinada y la red neural generada, y proporciona adicionalmente alguna parte de la información determinada como de salida si es adecuado (por ejemplo, como una respuesta a una solicitud para generar en forma dinámica esa información).
Si en su lugar, se determinó en el bloque 610 que la información de análisis de términos de documento no es recibida, la rutina continúa en lugar del bloque 675 para determinar si la información de retroalimentación es recibida o se puede determinar, tal como con base en el uso de la información de relevancia determinada anteriormente y provista. Si es así, la rutina continúa en el bloque 680 para utilizar la información de retroalimentación para actualizar una red neural generada anteriormente que corresponde a la retroalimentación, como se plantea con mayor detalle en cualquier parte. El desempeño del bloque 680 almacena adicionalmente la información de red neural actualizada, y opcionalmente proporciona la información actualizada a un solicitante como salida de la rutina. Si en su lugar, en el bloque 675 se determinó que la información de retroalimentación no es recibida, la rutina continúa, en su lugar, al bloque 685 para realizar una o más de otras operaciones indicadas como adecuadas. Por ejemplo, dichas otras operaciones indicadas pueden incluir recibir una solicitud para suministrar la información relacionada con el tema determinado anteriormente para un dominio (por ejemplo, la información relacionada con el tema de una versión actual de una red neural generada anteriormente particular para el dominio, tal como después de que la red neural ha sido actualizada), recibiendo la información de retroalimentación del usuario para uso posterior para la refinación de la información relacionada con el tema determinado para el dominio (por ejemplo, grupos particulares de términos que son seleccionados juntos para representar un tema), recibiendo una solicitud de un usuario u otra entidad u otro operador humano para realizar una actualización a la información relacionada con el tema determinada anteriormente (por ejemplo, con base en el contenido de retroalimentación o contenido específico de dominio adicional que está disponible para el dominio), recibiendo otras solicitudes administrativas de un operador humano del servicio DSRD, etc. La información de retroalimentación que es recibida para uso posterior puede ser manejada de diversas formas. Por ejemplo, si se satisfacen uno o más criterios previamente definidos por la retroalimentación (por ejemplo, con base en una cantidad mínima o máxima de retroalimentación que es obtenida, una cantidad mínima o máxima de tiempo debido a que una determinación anterior de la información de relevancia correspondiente, etc.), el desempeño del bloque 685 pueden activar un desempeño subsiguiente de la rutina 600 en la cual, esa información de retroalimentación es suministrada para utilizarse en el bloque 680.
Después de los bloques 670, 680 o 685, la rutina continúa en el bloque 695 para determinar si continuar, tal como hasta que se recibe una indicación explícita para determinación. Si se determina continuar, la rutina regresa al bloque 605 y si no continúa en el bloque 699 y termina.
La figura 7, es un diagrama de flujo de una modalidad de ejemplo de una rutina de Administrador de determinación de documento relevante 700. La rutina puede ser provista mediante, por ejemplo, la ejecución del módulo de Administrador de determinación de documento relevante 120 de la figura 1A y/o un módulo del sistema DSRD 340 de la figura 3, tal como para utilizar la información de análisis de término de documento para los documentos de un dominio para determinar las relaciones entre los términos y documentos para el dominio. La rutina 700 puede ser iniciada mediante, por ejemplo, la ejecución del bloque 440 de la figura 4, o en su lugar, en otras formas. Adicionalmente, la modalidad ilustrada de la rutina describe la determinación inicial de la información relacionada con el documento relevante para un dominio, así como también actualizar la información de relevancia relacionada con el documento determinada anteriormente para reflejar una retroalimentación subsiguiente y/u otra información sobre los documentos para el dominio. Adicionalmente, en una forma similar a aquella de las otras rutinas, la rutina 700 puede determinar la información de relevancia relacionada con el documento para un dominio antes del uso de aquella información de relevancia determinada, así como también en forma dinámica en respuesta a una solicitud de dicha información.
La modalidad ilustrada de la rutina empieza en el bloque 705, en donde la información de análisis de término de documento para los documentos de un dominio es recibida (por ejemplo, como salida de la rutina 500 de la figura 5, como la información suministrada como parte de una solicitud de determinación dinámica, etc.), u otra solicitud es recibida. La rutina continúa en el bloque 710 para determinar si la información de análisis de término de documentos es recibida, y si es así, continúa en el bloque 715. En la modalidad ilustrada, los bloques 715 as 745 son realizados para determinar la información relacionada con el documento para cada grupo de uno o más términos del dominio que son de interés, tal como en una forma similar a la de los bloques 615 a 650 de la figura 6. Los términos a ser analizados pueden ser seleccionados mediante, por ejemplo, utilizando cada término presente en cualquiera de los documentos (opcionalmente, excluyendo los términos comunes y/u otros términos indicados), o en otras formas como las que se describen con mayor detalle con respecto a la figura 6.
En particular, en la modalidad ilustrada, la rutina en el bloque 715 selecciona el siguiente grupo de uno o más términos a ser considerados, empezando con el primero de dichos grupos, y en el bloque 720 selecciona de manera similar el siguiente documento del dominio a ser considerado, empezando con el primer documento. En el bloque 725, la rutina entonces determina la relevancia promedio normalizada de los términos seleccionados para el documento seleccionado, tal como con base en el promedio o adición de otra forma de las clasificaciones TF-IDF normalizadas para cada término seleccionado para el documento seleccionado. En el bloque 735, la rutina determina entonces si existen más documentos a ser analizados, y si es así, regresa al bloque 720. De lo contrario, la rutina continúa en el bloque 740 para determinar los documentos más relevantes para los términos seleccionados actualmente con base en las clasificaciones relevantes determinadas en el bloque 725. A continuación, en el bloque 745, la rutina determina si existen más grupos de uno o más términos a considerar, y si es así, regresa al bloque 715. En una forma similar a aquella planteada con respecto a la figura 6, los bloques 715 a 745 pueden ser realizados de forma repetida para evaluar y revisar la información sobre la relación de los términos múltiples y documentos múltiples, tal como realizar inicialmente los bloques 715 a 745 para cada término de manera individual, tal como para realizar inicialmente los bloques 715 a 745 para cada término de manera individual, para realizar a continuación la determinación para, por lo menos algunas combinaciones de dos términos (por ejemplo, con base en la información disponible del desempeño de los bloques 715 a 745 para esos términos en forma individual), para realizar a continuación la determinación para, por lo menos algunas combinaciones de tres términos (por ejemplo, con base en la información disponible del desempeño de los bloques 715 a 745 para términos particulares que están relacionados de manera suficiente con las combinaciones seleccionadas anteriormente de dos términos), etc. Alternativamente, en algunas modalidades, algunos o todos los bloques 715 a 745, pueden en su lugar, ser realizados en una forma paralela (por ejemplo, en una forma distribuida en sistemas de cómputo diferentes) para algunos o todos los grupos de uno o más términos y/o uno o más documentos a ser considerados.
De lo contrario, la rutina continúa en el bloque 750 para, en la modalidad ilustrada, genera una red neural para reflejar la relevancia de términos en el dominio para los documentos en el dominio, tal como con base en parte, en la información generada con respecto a los bloques 725 y 740. Como se planteó con respecto al bloque 780, dicha red neural generada también puede ser actualizada posteriormente con base en la retroalimentación para refinar la determinación de la relación de los términos particulares para el dominio de documentos particulares del dominio, tal como para algunos o todos los términos y/o documentos en una forma paralela. Después del bloque 750, la rutina continúa al bloque 755 para almacenar la información relacionada con el documento relevante determinada y la red neural generada, y opcionalmente proporciona una parte o toda la información determinada como salida si es adecuado (por ejemplo, como una respuesta a una solicitud para generar en forma dinámica esa información).
Si, en su lugar en el bloque 710 se determinó que la información de análisis de término de documento no es recibida, la rutina continúa en su lugar, en el bloque 775 para determinar si la información de retroalimentación es recibida o puede ser determinada, tal como con base en el uso de la información de relevancia determinada anteriormente y provista. Si es así, la rutina continúa en el bloque 780 para utilizar la información de retroalimentación para actualizar una red neural generada anteriormente que corresponde a la retroalimentación, como se plantea con mayor detalle en cualquier parte. El desempeño del bloque 780 almacena adicionalmente la información de red neural actualizada, y opcionalmente proporciona la información actualizada a un solicitante como salida de la rutina. Si en su lugar, se determinó en el bloque 775 que la información de retroalimentación no es recibida, la rutina continua en su lugar, al bloque 785 para realizar una o más operaciones indicadas anteriormente como adecuadas. Por ejemplo, dichas otras operaciones indicadas puede incluir recibir una solicitud para suministrar la información relacionada con el documento determinada anteriormente para un dominio (por ejemplo, la información relacionada con el documento a partir una versión real de una red neural generada anteriormente particular para el dominio, tal como después de que se ha actualizado la red neural), recibir la información de retroalimentación del usuario para utilizar posteriormente al refinar la información relacionada con el documento determinada para el dominio (por ejemplo, los documentos particulares que son seleccionados para el uso que corresponde a un tema especificado u otro grupo de términos), recibiendo una solicitud de un usuario u otra entidad u otro operador humano para realizar una actualización a la información relacionada con el documento determinada anteriormente (por ejemplo, con base en la retroalimentación del usuario y/o el contenido específico de dominio adicional que está disponible para el dominio), recibiendo otras solicitudes administrativas de un operador humano del servicio DSRD, etc. La información de retroalimentación que es recibida para uso posterior puede ser manejada de diversas formas. Por ejemplo, si uno o más criterios previamente definidos son satisfechos por la retroalimentación (por ejemplo, con base en una cantidad mínima o máxima de retroalimentación que es obtenida, una cantidad mínima o máxima de tiempo debido a una determinación anterior de la información de relevancia correspondiente, etc.), el desempeño del bloque 785 puede activar un desempeño subsiguiente de la rutina 700, en el cual, esa información de retroalimentación es suministrada para utilizarse en el bloque 780.
Después de los bloques 755, 780 o 785, la rutina continúa en el bloque 795 para determinar si continuar, hasta que se recibe una indicación explícita para terminar. Si se determinó continuar, la rutina continua al bloque 705, y si no, continúa en el bloque 799 y termina.
Las figuras 8A y 8B, ilustran un diagrama de flujo de una modalidad de ejemplo de una rutina del Administrador de generación de recomendación de relación de términos 800. La rutina puede ser provista mediante, por ejemplo, la ejecución del módulo de Administrador de generación de recomendación de relación de términos 125 de la figura 1A y/o un módulo del sistema DSRD 340 de la figura 3, de tal manera que genera las representaciones probabilísticas de las relaciones entre los términos para uno o más dominios, y/o para el uso generado de la representación probabilística de la información de relación entre términos para proporcionar recomendaciones específicas del usuario u otra información a los usuarios. La rutina 800 puede ser iniciada mediante, por ejemplo, la ejecución de los bloques 445 y/o 464 de la figura 4, o en su lugar en otras formas.
En la modalidad ilustrada, la rutina 800 genera estructuras de datos de representación probabilística de red Bayesiana y opcionalmente que corresponde a los árboles de decisión con base en la información de relación entre términos generada por otro módulo (por ejemplo, mediante el módulo 130 de la figura 1A y como se describió con respecto a la figura 6, de tal manera que se basa en la información de análisis de término de documento para documentos de un dominio), aunque en otras modalidades se pueden utilizar otros tipos de representaciones (por ejemplo, las representaciones no probabilísticas) de los datos de relación entre términos, y/o pueden determinar la información de relación entre términos en formas diferentes a las basadas en el análisis de documentos de dominio. Adicionalmente, en la modalidad ilustrada, la rutina 800 realiza tanto la generación de las representaciones probabilísticas de la información de relación entre términos y el uso subsiguiente de esa representación probabilística de información de relación entre términos generada para proporcionar recomendaciones a los usuarios específicas del usuario, aunque en otras modalidades, dichos tipos de funcionalidad pueden ser separadas en rutinas diferentes (ya sea, ambas realizadas por una modalidad del servicio DSRD, o una o ambas realizadas por otro servicio). Aunque la modalidad ilustrada de la rutina describe la generación inicial de las representaciones probabilísticas de la información de relación entre términos para un dominio aunque no plantea de manera explícita la actualización de dicha información generada anteriormente para reflejar una retroalimentación subsiguiente y/u otra información sobre las relaciones entre términos para el dominio, otras modalidades de la rutina pueden realizar dicha actualización, o en su lugar, cualquier actualización puede ocurrir, en su lugar, con respecto a la información de relación entre términos subyacente que es utilizada por la rutina y la rutina puede generar representaciones probabilísticas de información de relación entre términos nueva para que un dominio refleje la información subyacente actualizada. Adicionalmente, en una forma similar a aquella de las otras rutinas, la rutina 800 puede generar las representaciones probabilísticas de información de relación entre términos para un dominio antes del uso de esa información generada, así como también, en forma dinámica en respuesta a una solicitud de dicha información.
Adicionalmente, en la modalidad ilustrada, la generación de las representaciones probabilísticas de información de relación entre términos para un dominio en las figuras 8A y 8B, se ilustra siendo realizado por separado a partir de la determinación de la información de relevancia de relación entre términos subyacente para un dominio en la figura 6, aunque en otras modalidades, estas actividades pueden ser realizadas de otras formas. Por ejemplo, únicamente una de la información de relevancia de relación entre términos subyacentes y las representaciones probabilísticas de información de relación entre términos, puede ser generada o determinada de otra forma en una modalidad particular, la determinación, tanto de la información relacionada con la relación entre términos subyacente y las representaciones probabilísticas de información de relación entre términos para un dominio, puede realizarse junta como parte de una rutina única, la información que es común para ambos tipos de actividades, puede realizarse una vez, y posteriormente ser compartida entre dos rutinas diferentes, etc.
La modalidad ilustrada de la rutina, empieza en el bloque 805, en donde es recibida una indicación para generar representaciones probabilísticas de relaciones entre términos para uno o más dominios de interés, u otras solicitudes recibidas. En algunas modalidades, la rutina puede recibir la entrada que incluye información sobre la información de relevancia entre términos determinada subyacente (por ejemplo, cuando la rutina es ejecutada como parte del bloque 445 de la figura 4, para recibir los datos como la entrada que fue generada por el bloque 430), la información sobre las preferencias relacionadas con los términos particulares de un usuario particular para utilizarse en la determinación de recomendaciones específicas del usuario con base en los términos relacionados, etc. La rutina continúa al bloque 810 para determinar si las representaciones probabilísticas de las relaciones entre términos serán generadas (por ejemplo, con base en una solicitud explícita, con base en la recepción de la información de relevancia entre términos determinada subyacente, etc.), y si es así, continúa en el bloque 815. En la modalidad ¡lustrada, los bloques 815 a 835 son realizados para generar los datos de representación probabilística de relación entre términos para uso posterior, y los bloques 850 a 870 se realiza para utilizar las representaciones probabilísticas generadas anteriormente de las relaciones entre términos para determinar y proporcionar recomendaciones específicas del usuario a los usuarios.
En particular, con respecto al bloque 815, la rutina obtiene la información de relevancia determinada subyacente sobre las relaciones entre términos para el uno o más dominios de interés, tal como con base en la información recibida en el bloque 805, al recuperar la información almacenada que se generó mediante la rutina 600, y/o interactuando en forma dinámica con la rutina 600 para obtener dicha información. La rutina continúa en el bloque 820 para analizar la información de relevancia subyacente para determinar las relaciones entre términos significativas que incluye cada uno del uno o más primeros términos teniendo una influencia en uno o más de los otros segundos términos (por ejemplo, con los segundos términos siendo causalmente dependientes o de lo contrario, dependientes de los primeros términos). La rutina continúa entonces en el bloque 820 para generar una o más de los gráficos dirigidos (por ejemplo un DAG, o un gráfico acíclico dirigido) en el cual, los términos seleccionados están representados con nodos variables aleatorios que corresponden a una preferencia para o de interés en ese término dentro del dominio(s), y en el cual, las dependencias u otras influencias están representadas con vínculos o límites entre aquellos nodos. La rutina continúa entonces al bloque 825 para determinar la información de probabilidad para utilizar para los gráficos dirigidos generados, incluyendo los cuadros de probabilidad condicional para aquellos nodos que son dependientes de uno o más nodos diferentes, y opcionalmente, los valores de probabilidad anteriores para representar la indefinición de aquellos nodos que no son dependientes de otros nodos. Como se planteó con mayor detalle en cualquier parte, la determinación de las relaciones entre términos para el modelo en los gráficos dirigidos y la determinación de la información de probabilidad para que los nodos gráficos sean realizados de diversas formas en las diversas modalidades, incluyendo con base, por lo menos en parte, en la información de relevancia determinada a partir del análisis de los documentos de dominio y/o con base en el aprendizaje u otras modificaciones que se han realizado con base en la retroalimentación del usuario. Adicionalmente, si los gráficos dirigidos múltiples son creados de manera no interdependiente, en algunas modalidades, los gráficos múltiples serán combinados en un gráfico dirigido mayor único (por ejemplo, modelando las relaciones entre términos menos relevantes adicionales), mientras que en otras modalidades, los gráficos dirigidos múltiples, en su lugar, serán utilizados para representar los dominios.
Después del bloque 825, la rutina continúa al bloque 830 para generar una o más representaciones probabilísticas de red Bayesiana de las relaciones relevantes entre términos para el dominio a partir del gráfico dirigido y la información de probabilidad determinada. Se apreciará que en por lo menos algunas modalidades, la red Bayesiana generada puede tener cientos de miles o millones de nodos y números correspondientes de los bordes entre nodos para representar un dominio particular de interés. Adicionalmente, en por lo menos algunas modalidades, la rutina en el bloque 830 genera adicionalmente una o más (por ejemplo, cientos o miles o cientos de miles) de árboles de decisión, en donde cada uno representar un sub-grupo de las redes Bayesianas generadas, de tal manera que permite que el procesamiento de tiempo de ejecución posterior pueda ser realizado en una forma más rápida que con el uso de la red Bayesiana completa. Como se plantea con mayor detalle en cualquier parte, la generación de la red(es) Bayesiana y el árbol(es) de decisión, puede realizarse de diversas formas en varias modalidades. Por ejemplo, en algunas modalidades, después de que la información sobre una de las preferencias de términos del usuario y uno o más términos de interés objetivo son identificados (por ejemplo, como se planteó con respecto a los bloques 877 a 888), una red Bayesiana parcial y/o uno o más árboles de decisión parciales, pueden ser ejemplificados correspondientes a una porción de la red Bayesiana (si existe) que conecta las preferencias de términos y los términos objetivo, de tal manera que incluye adicionalmente los nodos de evidencia y otra información de evidencia sobre las preferencias de término y la información de relevancia de término específica del usuario para el término objetivo. Después del bloque .830, la rutina continúa en el bloque 835 para almacenar la información generada para uso posterior, y opcionalmente, también proporciona parte de o toda la información generada como salida (por ejemplo, si la generación de la información se realizó en respuesta a una solicitud de información generada particular).
Si en su lugar, se determinó en el bloque 810 que las representaciones probabilísticas de las relaciones entre términos no serán generadas, la rutina continúa en su lugar, al bloque 845 para determinar si las recomendaciones específicas del usuario serán determinadas y provistas (por ejemplo, con base en una solicitud explícita, con base en la recepción de las preferencias relacionadas con el término especificadas para un usuario, etc.), y si es así, continúa al bloque 850. En el bloque 850, la rutina obtiene información sobre las preferencias del usuario objetivo para u otro interés, en uno o más términos particulares a partir de uno o más dominios indicados, tal como pueden ser recibidos en el bloque 805, recuperados de la información de preferencia almacenada para el usuario, determinado mediante la interacción en forma dinámica con el usuario (ya sea directamente o por medio de un servicio intermediario), etc. En el bloque 855, la rutina recupera la información de representación probabilística almacenada que corresponde al dominio del usuario y las preferencias indicadas, tales como uno o más árboles de decisión generados anteriormente y almacenados con respeto a los bloques 830 y 835, o en su lugar, una red Bayesiana completa que se generó anteriormente y es almacenada con respecto a los bloques 830 y 835. En otras modalidades, la rutina puede en su lugar, iniciar en forma dinámica la ejecución de algunos o todos los bloques 815 a 835 para obtener la información probabilística de relación entre términos deseada.
Después del bloque 855, la rutina continúa al bloque 860 para identificar y seleccionar uno o más términos objetivo específicos del usuario adicionales que son suficientemente probables para ser de interés para el usuario objetivo con base en la información disponible sobre los intereses conocidos del usuario objetivo utilizados como evidencia. Como se plantea en cualquier parte, dichos términos objetivo pueden ser identificados de diversas formas, tal como la siguiente: determinar la probabilidad de uno o más términos objetivo de interés que están indicados en la solicitud y seleccionar algunos o todos ellos; determinar la probabilidad del interés del usuario objetivo en algunos o todos los términos modelados en la red Bayesiana generada (por ejemplo, otros términos que no son directa o indirectamente independientes de los términos de interés de evidencia conocidos), y seleccionar un sub-grupo de esos términos con las probabilidades determinadas más altas; etc.
Después del bloque 860, la rutina continúa en el bloque 865 para determinar una o más recomendaciones para el usuario objetivo con base por lo menos en parte en los términos objetivo adicionales seleccionados, y en el bloque 870 para proporcionar indicaciones de las recomendaciones objetivo para el usuario objetivo (por ejemplo, directamente, por medio de uno o más servicios intermediarios, etc.). Por ejemplo, las recomendaciones generadas pueden, en algunas modalidades, incluir uno o más documentos de dominio, y si es así, la rutina en el bloque 860 puede adicionalmente recuperar la información sobre diversos documentos candidatos (por ejemplo, la información sobre relevancia de diversos documentos candidatos para los términos objetivo seleccionados), y determinar los documentos candidato particulares para recomendación con base en aquellos que tienen la mayor relevancia para los términos objetivo seleccionados (o para la combinación de los términos objetivo seleccionado y los términos de interés de evidencia conocidos del usuario objetivo). En algunas modalidades, las recomendaciones pueden ser generadas de otras formas y/o tener otras formas. Por ejemplo, algunos o todos los documentos candidatos pueden ser suministrados como parte de la solicitud, y/o algunos o todos los documentos candidato pueden estar relacionados con los dominios diferentes de aquellos, los cuales son conocidos por corresponder a los términos de interés de evidencia conocidos del usuario objetivo (por ejemplo, si los términos de interés evidencia conocidos del usuario objetivo son conocidos por corresponder a uno o más primeros dominios de interés, para identificar términos objetivo adicionales que son determinados para estar relacionados con los términos de interés evidencia conocidos para uno o más de los otros segundos dominios, tal como para permitir las recomendaciones en el segundo dominio para el cual, no está disponible información sobre los intereses del usuario objetivo y/o sobre cualesquiera intereses de los usuarios). Adicionalmente, en por lo menos algunas modalidades, los términos objetivo adicionales seleccionados pueden ser determinados para ser utilizados como algunas o todas las recomendaciones provistas, tal como para ser provistas al usuario objetivo para la selección posible u otra identificación de esos términos como siendo de interés real para el usuario objetivo o siendo relevantes de otra forma para una actividad actual del usuario objetivo. Adicionalmente, en otras modalidades, los términos objetivo adicionales seleccionados y/o las recomendaciones determinadas para el usuario objetivo, pueden utilizarse de otras formas, ya sea, en lugar de o adicionalmente para proporcionarle al usuario objetivo y/o utilizarse para generar recomendaciones, tales como almacenar los términos objetivo adicionales seleccionados como de interés probable o real del usuario objetivo para uso posterior, empujar en forma proactiva la recomendación determinada para el usuario objetivo, aún si el usuario objetivo no ha solicitad recomendaciones, identificar los anuncios publicitarios o la información de terceros que puede ser de interés para el usuario objetivo con base en los términos objetivo adicionales seleccionados, etc.
Si en su lugar, se determinó en el bloque 845 que las recomendaciones específicas del usuario no serán determinadas y provistas, la rutina continúa en su lugar, al bloque 875 para determinar si la relevancia de uno o más de los términos objetivo serán determinadas para un usuarios particular en una forma específica del usuario (por ejemplo, con base en una solicitud explícita, con base en la recepción de las preferencias relacionadas con los términos para un usuarios y/o términos objetivo de interés, etc.), y si es así, continúa en el bloque 877. Dicha solicitud puede ser iniciada en diversas formas, tal como a partir de un servicio de terceros que interactúa con el servicio DSRD para determinar si un usuario particular probablemente tendrá interés en uno o más términos objetivo particulares para los cuales el servicio de terceros tiene un contenido relacionado, mediante el servicio DSRD u otro servicio para determinar que un usuario probablemente tendrá interés en la publicidad relacionada con uno o más términos objetivo, etc. En el bloque 877, la rutina obtiene información sobre uno o más términos objetivo de interés, para los cuales, una preferencia probable del usuario particular de u otro interés será determinada, y en el bloque 879 obtiene información sobre las preferencias del usuario particular para u otro interés en uno o más términos particulares para uno o más dominios. La información en los bloques 877 y/u 879 puede obtenerse de diversas formas en varias modalidades, tal como siendo recibida en el bloque 805, siendo recuperada de la información de preferencia robada para un usuario identificado particular, determinada interactuando en forma dinámica con un usuario identificado particular (ya sea directamente o por medio de un servicio intermediario), etc. Adicionalmente, en algunas modalidades y situaciones, el usuario particular puede ser identificado, mientras que en otras modalidades, la solicitud recibida puede indicar las preferencias de términos del usuario particular, aunque sin identificar al usuario particular (por ejemplo, para un usuario particular que es conocido por el solicitante, aunque no identificado en la solicitud, tal como si el solicitante en su lugar proporciona la in información de referencia para ese usuario no identificado; para un usuario anónimo, para el cual está disponible la información de preferencia, y opcionalmente con información sobre un solicitante que indica las preferencia probables del usuario anónimo u otra información de contexto relacionada con las preferencias posibles del usuario anónimo; para un usuario hipotético con preferencias de término hipotéticas; etc.). Adicionalmente, en algunas modalidades, el usuario para el cual se determinó la relevancia de los términos objetivo, se refiere a una sola persona, mientras que en otras modalidades, el usuario puede tener otras formas (por ejemplo, una entidad no humana, tal como un negocio u organización; una colección o grupo de personas múltiples, tal como un club u otra agregación de personas con por lo menos algunas preferencias comunes o preferencias agregadas de otra forma; etc.). En el bloque 881 , la rutina recupera entonces la información de representación probabilística almacenada que corresponde al dominio relevante, tal como uno o más árboles de decisión generados anteriormente y almacenados con respecto a los bloques 830 y 835, o en su lugar redes Bayesianas únicas o múltiples completas que fueron generadas anteriormente y almacenadas con respecto a los bloques 830 y 835. En otras modalidades, la rutina en su lugar puede iniciar en forma dinámica la ejecución de algunos o todos los bloques 815 a 835 para obtener la información probabilística de relación entre términos deseada.
Después del bloque 881 , la rutina continúa en el bloque 883 para determinar si la información de representación probabilística recuperada muestra una relación entre la preferencias de términos del usuario y el término objetivo, tal como una o más trayectorias de una red Bayesiana que conecta una o más de las preferencias de términos para el término objetivo. Si se determinó en el bloque 885 que la información de representación probabilística recuperada no muestra dicha relación, la rutina continúa en el bloque 889 para proporcionar una indicación al solicitante de la falta de información de relevancia para determinar la preferencia probable de usuario para el término objetivo, dadas la preferencias de término actuales del usuario. De lo contrario, la rutina continúa en el bloque 886 para generar o seleccionar opcionalmente un sub-grupo de la información de representación probabilística que corresponde a la relación entre las preferencias de término del usuario y el término objetivo, tal como un sub-gráfico de la red Bayesiana que incluye la una o más trayectorias a partir de las preferencias de término al término objetivo, y/o uno o más árboles de decisión que corresponden a las influencias entre las preferencias de término y los términos objetivo. En otras modalidades, la red Bayesiana existente y/o los árboles de decisión pueden ser utilizados sin generar estructura de datos nueva alguna específica para el usuario particular.
Después del bloque 886, la rutina continúa en el bloque 887 para determinar la probabilidad u otra probabilidad de que el usuario particular tenga una preferencia de u otro interés en los términos objetivo, tal como, para cada término objetivo individualmente y/o para una combinación de términos objetivo múltiples, con base en el sub-grupo de información de representación probabilística generada de manera opcional u otra información de representación probabilística generada anteriormente. En el bloque 888, la rutina proporciona entonces una indicación al solicitante de la probabilidad determinada para los términos objetivo.
Si en su lugar, en el bloque 875 se determinó que una relevancia específica del usuario de uno o más términos objetivo indicados para un usuario particular no serán determinados y provistos, la rutina continúa, en su lugar, al bloque 890 para realizar una o más operaciones diferentes indicadas como adecuadas. Por ejemplo, en algunas modalidades, la rutina puede recibir las actualizaciones relacionadas con la información de representación probabilística generada anteriormente (por ejemplo, actualizaciones a la información de relevancia entre términos subyacente, actualización a partir de la retroalimentación del usuario u otro aprendizaje relacionado con la relevancia entre términos, etc.), y si es así, puede modificar de manera opcional la información de representación probabilística generada anteriormente para reflejar las actualizaciones y/o puede iniciar la generación de la información de representación probabilística nueva para reflejar las actualizaciones. Adicionalmente, en algunas modalidades, la rutina puede recibir y responder a las solicitudes para suministrar la información de representación probabilística generada anteriormente, iniciar en forma periódica la generación de la información de representación probabilística nueva con base en cualquier información de relevancia entre términos subyacentes que está disponible actualmente (por ejemplo, en las modalidades en las cuales los documentos del dominio y otros artículos de contenido pueden cambiar, en las cuales, la información de relevancia entre términos determinada puede cambiar con base en la retroalimentación del usuario, etc.), realizar diversas operaciones de mantenimiento periódicas, etc.
Después de los bloques 835, 870 u 890, la rutina continúa en el bloque 895 para determinar si continuar, hasta que se recibe una indicación explícita para terminar. Si se determinó continuar, la rutina regresa al bloque 805, y si no, continúa al bloque 899 y termina.
Se apreciará que en algunas modalidades, la funcionalidad provista por las rutinas planteadas anteriormente puede ser provista en formas alternativas, tal como siendo separada entre más rutinas o consolidada en menos rutinas. De manera similar, en algunas modalidades, las rutinas ilustradas pueden proporcionar más o menos funcionalidad que la que se describe, tal como cuando otras rutinas ilustradas en su lugar, carecen o incluyen dicha funcionalidad, respectivamente, o cuando la cantidad de funcionalidad que es provista se altera. Adicionalmente, aunque se pueden ilustrar diversas operaciones como realizadas en una forma particular (por ejemplo, en serie o en paralelo) y/o en un orden particular, aquellos expertos en la materia apreciarán que en otras modalidades, las operaciones pueden ser realizadas en otros órdenes y en otras formas. Aquellos expertos en la materia también apreciarán que las estructuras de datos planteadas anteriormente pueden ser estructuradas de formas diferentes, tales como teniendo una estructura de datos única separada en las estructuras de datos múltiples o teniendo estructuras de datos múltiples consolidadas en una estructura de datos única. De manera similar, en algunas modalidades ilustradas las estructuras de datos pueden almacenar más o menos información que la descrita, tal como cuando las otras estructuras de datos ¡lustradas en su lugar, carecen o incluyen dicha información, específicamente, o cuando la cantidad o tipos de información que se almacenan son alterados.
A partir de lo anterior, se apreciará que, aunque las modalidades específicas han sido descritas en la presente descripción con el propósito de ilustración, diversas modificaciones pueden ser realizadas sin desviarse del espíritu y alcance de la presente invención. Por consiguiente, la presente invención no está limitada excepto por las reivindicaciones que son especificadas y los elementos recitados en la presente descripción. Adicionalmente, aunque determinados aspectos de la presente invención pueden ser presentados en momentos en ciertas formas reclamadas, los inventores contemplan los diversos aspectos de la presente invención en cualquier forma de reclamo disponible. Por ejemplo, aunque únicamente algunos aspectos de la presente invención pueden ser recitados en un momento particular, como representados en un medio legible por computadora, otros aspectos pueden igualmente ser representados así.

Claims (37)

NOVEDAD DE LA INVENCIÓN REIVINDICACIONES
1.- Un método implementado por computadora para proporcionar información con base en las relaciones determinadas en forma automática, el método comprende: bajo el control de uno o más sistemas de cómputo configurados para proporcionar información de recomendación con base en las relaciones determinadas en forma automática entre términos, recibir una o más indicaciones de un grupo de artículos de contenido múltiples cuyos contenidos son representativos de un área de interés sujeto, los contenidos incluyen una pluralidad de términos; analizar en forma automática los artículos de contenido múltiples del grupo, para identificar las relaciones entre por lo menos algunos de la pluralidad de términos, una primera de las relaciones identificadas indicando un grado evaluado de relevancia de uno o más primeros términos de la pluralidad de términos para uno o más segundos términos de la pluralidad de términos; obtener información sobre uno o más de los términos indicados para los cuales, un primer usuario tiene una preferencia, los términos indicados incluyen por lo menos uno de los primeros términos, aunque no incluye cualquiera de los segundos términos; para cada uno del uno o más segundos términos, determinar en forma automática una probabilidad de que el segundo término es de interés para el primer usuario con base, por lo menos en parte, en el por lo menos un término incluido en los términos indicados y sobre el grado evaluado de relevancia del uno o más primeros términos para el uno o más segundos términos; y proporcionar una indicación de por lo menos uno del uno o más segundos términos que se seleccionaron para permitir que una o más recomendaciones sean provistas al primer usuario con base en por lo menos uno de los segundos términos, y por lo menos uno de los segundos términos siendo seleccionados con base en un o más criterios determinados para evaluar las probabilidades determinadas del por lo menos un segundo término.
2 - El método de conformidad con la reivindicación 1 , caracterizado además porque las relaciones identificadas por el análisis automático incluye relaciones múltiples entre términos cada una está entre, por lo menos dos de la pluralidad de términos, en donde el análisis automático incluye adicionalmente evaluar en forma automática para cada una de las relaciones entre términos múltiples en un grado inicial de relevancia entre los por lo menos dos términos para la relación entre términos, en donde el análisis automático de los artículos de contenido múltiple del grupo incluye adicionalmente generar una representación probabilística de por lo menos algunas de las relaciones entre términos múltiples con base, por lo menos en parte, en los grados evaluados de relevancia para las por lo menos algunas relaciones identificadas, la representación probabilística incluyendo información para cada una de las por lo menos algunas relaciones entre términos relacionadas con una probabilidad de la relación entre los por lo menos dos términos para la relación entre términos, y en donde la determinación automática de la probabilidad para cada uno del uno o más segundos términos se basa en el uso de la información incluida en la representación probabilística.
3. - El método de conformidad con la reivindicación 2, caracterizado además porque la representación probabilística incluye una red Bayesiana que tiene información incluida que indica para cada una de las por lo menos algunas relaciones entre términos, una dirección de influencia entre los por lo menos dos términos para la relación entre términos y que indica la información de probabilidad condicional para cada una de las por lo menos algunas relaciones entre términos.
4. - El método de conformidad con la reivindicación 3, caracterizado además porque comprende adicionalmente, después de proporcionar la indicación del por lo menos un segundo término seleccionado: obtener retroalimentación de los usuarios relacionada con la pluralidad de términos; actualizar en forma automática la información de probabilidad condicional indicada en la información incluida en la red Bayesiana para una o más relaciones entre términos con base, por lo menos en parte, en la retroalimentación adicional obtenida; y utilizando la información de probabilidad condicional actualizada incluida en la red Bayesiana para determinar en forma automática las probabilidades de uno o más usuarios adicionales que tienen un interés en uno más términos adicionales de la pluralidad de términos.
5. - El método de conformidad con la reivindicación 2, caracterizado además porque la representación probabilística incluye uno o más árboles de decisión que representa cada uno, una o más de las por lo menos algunas relaciones entre términos e incluyen por lo menos un nodo de decisión y nodos de extremo múltiples, cada uno de los nodos de extremo representando una probabilidad de un usuario que tiene un interés en uno del por lo menos uno de los términos para una o más relaciones entre términos representadas.
6. - El método de conformidad con la reivindicación 5, caracterizado además porque comprende adicionalmente, después de proporcionar la indicación del por lo menos un segundo término seleccionado: obtener retroalimentación de los usuarios relacionada con la pluralidad de términos; actualizar en forma automática la probabilidad representada por uno o más nodos de extremo del uno o más árboles de decisión con base, por lo menos en parte, en la retroalimentación adicional obtenida; y utilizar la probabilidad representada actualizada del uno o más árboles de decisión para determinar en forma automática las probabilidades de uno o más usuarios adicionales que tiene un interés en uno o más términos adicionales de la pluralidad de términos.
7.- El método de conformidad con la reivindicación 2, caracterizado además porque el análisis automático incluye adicionalmente generar una red neural de relevancia de términos que representa los grados de relevancia evaluados iniciales entre los por lo menos dos términos para las relaciones entre términos múltiples, y actualizar en forma repetida los grados evaluados de relevancia para las relaciones entre términos múltiples que son representadas por la red neural de relevancia de términos con base en la retroalimentación obtenida de los usuarios que realiza las selecciones que corresponden a la pluralidad de términos, y en donde la generación de la representación probabilística de por lo menos algunas relaciones entre términos se basa en los grados de relevancia evaluados actualizados para al menos, algunas relaciones identificadas.
8.- El método de conformidad con la reivindicación 7, caracterizado además porque comprende adicionalmente, después de proporcionar la indicación del por lo menos un segundo término seleccionado: obtener retroalimentación adicional de los usuarios relacionada con la pluralidad de términos; identificar en forma automática una o más de las relaciones entre términos adicionales con base, por lo menos en parte, en la retroalimentación adicional obtenida; generar en forma automática una red neural de relevancia de término nueva que representa un grado evaluado inicial de relevancia para las una o más relaciones entre términos adicionales identificadas y que representa los grados de relevancia evaluados actualizados para una o más de las relaciones entre términos múltiples; generar en forma automática una representación probabilística nueva de las por lo menos algunas relaciones entre términos y de por lo menos una de las relaciones entre términos adicionales; y utilizar la información incluida en la representación probabilística nueva generada, para determinar en forma automática las probabilidades de uno o más usuarios adicionales que tienen un interés en uno o más términos adicionales de la pluralidad de términos.
9.- El método de conformidad con la reivindicación 2, caracterizado además porque comprende adicionalmente, después de generar de la representación probabilística de las por lo menos algunas relaciones entre términos con base, por lo menos en parte, en los grados evaluados de relevancia para las por lo menos algunas relaciones identificadas: obtener retroalimentación de los usuarios relacionada con la pluralidad de términos; actualizar en forma automática la información incluida en la representación probabilística generada para una o más relaciones entre términos combinando la retroalimentación adicional obtenida con los grados de relevancia evaluados a partir del análisis automático de los artículos de contenido múltiples del grupo, la combinación incluye el uso de pesos diferentes para la retroalimentación adicional obtenida y los grados evaluados de relevancia a partir del análisis automático de los artículos de contenido múltiples del grupo; y utilizar la información incluida actualizada para determinar en forma automática las probabilidades de uno o más usuarios adicionales que tienen un interés en uno o más términos adicionales de la pluralidad de términos.
10.- El método de conformidad con la reivindicación 9, caracterizado además porque comprende adicionalmente, después de utilizar la información incluida actualizada, determinar en forma automática las probabilidades del uno o más usuarios adicionales que tienen un interés en el uno o más términos adicionales, obtener retroalimentación adicional de los usuarios en relación con la pluralidad de términos, y determinar en forma automática el uso de la retroalimentación adicional obtenida de los usuarios, en lugar de los grados de relevancia evaluados a partir del análisis automático de los artículos de contenido múltiples del grupo, como parte de determinar en forma automática las probabilidades adicionales de uno o más usuarios diferentes que tienen un interés en uno o más términos.
11.- El método de conformidad con la reivindicación 2, caracterizado además porque comprende adicionalmente generar en forma automática una segunda representación probabilística de una o más de las por lo menos algunas relaciones entre términos con base, por lo menos en parte, en la información obtenida sobré las preferencias reales de una pluralidad de usuarios, la segunda representación probabilística incluyendo información para cada una de la una o más relaciones entre términos relacionadas con una probabilidad de la relación entre los por lo menos dos términos para la relación entre términos, y en donde, la determinación automática de la probabilidad para al menos uno del uno o más segundos términos se basa adicionalmente eYi el uso de la información incluida en la representación probabilística.
12.- El método de conformidad con la reivindicación 1 , caracterizado además porque el uno o más términos indicados para los cuales el primer usuario tiene una preferencia, son términos de búsqueda especificados por el primer usuario, y en donde, proporcionar la indicación del por lo menos uno de los segundos términos seleccionados incluye generar los resultados de búsqueda que se basan, por lo menos en parte, en el por lo menos uno de los segundos términos seleccionados y proporcionar los resultados de búsqueda generados para desplegar al primer usuario, los resultados de búsqueda generados provistos incluyendo la una o más recomendaciones.
13.- El método de conformidad con la reivindicación 12, caracterizado además porque los resultados de búsqueda generados incluyen uno o más de los artículos de contenido múltiples del grupo.
14.- El método de conformidad con la reivindicación 12, caracterizado además porque los resultados de búsqueda generados incluyen uno o más artículos de contenido que están relacionados con el área de interés sujeto, aunque no son parte del grupo de los artículos de contenido.
15.- El método de conformidad con la reivindicación 1 , caracterizado además porque el uno o más términos indicados para los cuales el primer usuario tiene una preferencia, son especificados por el primer usuario, en donde la una o más recomendaciones incluye uno o más del por lo menos uno de los segundos términos seleccionados, y en donde, proporcionar la indicación del por lo menos uno de los segundos términos seleccionados incluye proporcionar el por lo menos uno de los segundos términos seleccionados para desplegar al primer usuario para permitir que el primer usuario seleccione uno o más del por lo menos uno de los segundos términos seleccionados como una preferencia adicional del primer usuario.
16. - El método de conformidad con la reivindicación 1 , caracterizado además porque el uno o más términos indicados para los cuales el primer usuario tiene preferencia, son especificados por el primer usuario, en donde la una o más recomendaciones incluye uno o más del por lo menos uno de los segundos términos seleccionados, y en donde, proporcionar la indicación del por lo menos uno de los segundos términos seleccionados incluye proporcionar el por lo menos uno de los segundos términos seleccionados para desplegar al primer usuario para permitir que el primer usuario seleccione uno o más del por lo menos un segundo término seleccionado como parte de un tema de términos múltiples comunes con el uno o más términos indicados para el área de interés sujeto.
17. - El método de conformidad con la reivindicación 1 , caracterizado además porque la determinación automática de la probabilidad de que uno o más segundos términos sean de interés para el primer usuario, se basa en el grado de relevancia evaluado del uno o más primeros términos para el uno o más segundos términos del análisis automático de los artículos de contenido múltiples y se realiza sin utilizar información alguna sobre cualquiera de las preferencias reales de cualesquiera usuarios relacionados con el uno o más segundos términos.
18.- El método de conformidad con la reivindicación 1 , caracterizado además porque comprende adicionalmente: analizar en forma automática una pluralidad de artículos de contenido de un segundo grupo para identificar una o más de las relaciones entre términos adicionales relacionadas con una segunda área de interés sujeto con la cual se relaciona la pluralidad de artículos de contenido del segundo grupo, la segunda área de interés sujeto siendo diferente del área de interés sujeto y la pluralidad de artículos de contenido del segundo grupo siendo diferentes de los artículos de contenido múltiples del grupo, las relaciones adicionales identificadas incluyendo una segunda relación entre el uno o más primeros términos y uno o más de los otros terceros términos que no son parte de la pluralidad de los términos; y proporcionar una indicación de por lo menos uno de los terceros términos que es seleccionado para permitir que se proporcione una o más recomendaciones adicionales al primer usuario con base en el por lo menos un tercer término, el por lo menos uno de los terceros términos siendo seleccionado sin utilizar información alguna sobre cualesquiera preferencias reales de cualesquiera usuarios relacionados con el uno o más terceros términos.
19.- El método de conformidad con la reivindicación 1 , caracterizado además porque comprende adicionalmente analizar en forma automática una pluralidad de artículos de contenido de un segundo grupo relacionado con una segunda área de interés sujeto para identificar uno o más de la pluralidad de artículos de contenido que se relacionan con el seleccionado de por lo menos uno de los segundos términos, y proporcionar la una o más recomendaciones para el primer usuario, la una o más recomendaciones incluyendo el uno o más artículos de contenido identificados relacionado con el por lo menos uno de los segundos términos seleccionado.
20.- El método de conformidad con la reivindicación 1 , caracterizado además porque el por lo menos uno de los segundos términos se selecciona para representar las preferencias no expresadas del primer usuario.
21.- El método de conformidad con la reivindicación 1 , caracterizado además porque el uno o más criterios determinados se basan en el por lo menos uno de un umbral definido para las probabilidades determinadas del por lo menos uno de los segundos términos, de manera que el uno o más de los segundos términos seleccionados tienen probabilidades determinadas sobre el umbral definido, una cantidad definida del por lo menos uno de los segundos términos, de manera que el uno o más de los segundos términos seleccionados son de la cantidad definida y tiene probabilidades determinadas superiores que los otros segundos términos no seleccionados, y un porcentaje definido del por lo menos uno de los segundos términos, de manera que aquel seleccionado del uno o más segundos términos son del porcentaje definido y tienen probabilidades determinadas superiores que otros segundos términos no seleccionados.
22.- El método de conformidad con la reivindicación 1 , caracterizado además porque los artículos de contenido del grupo incluyen por lo menos uno de los documentos textuales, cuyo texto contiene por lo menos algunos de la pluralidad de términos, información de audio, información de imagen, información de video, información biológica, estructuras de datos alfanuméricas, estructuras de datos simbólicas y estructuras de datos matemáticas, y en donde el uno o más sistemas de cómputo configurados son parte de un sistema de determinación de relevancia que realiza la proporción de la información de recomendación con base en las relaciones determinadas en forma automática entre términos.
23.- Un sistema de cómputo configurado para proporcionar información con base en las relaciones determinadas en forma automática, que comprende: uno o más procesadores; y un sistema de determinación de relevancia que es configurado para, cuando es ejecutado por al menos uno del uno o más procesadores, proporcionar información con base en las relaciones determinadas en forma automática: analizando en forma automática los artículos de contenido múltiples relacionados con un área de interés sujeto con el objeto de identificar las relaciones entre términos entre una pluralidad de términos relacionados con los artículos de contenido múltiples, cada una de las relaciones entre términos indicando una relevancia evaluada del por lo menos un primer término de la pluralidad de términos para al menos uno de los otros segundos términos de la pluralidad de términos; generar en forma automática la representación probabilística de las relaciones entre términos seleccionadas con base, por lo menos en parte, en las relevancias evaluadas para las relaciones entre términos seleccionados, la representación probabilística incluyendo la información relacionada con una probabilidad determinada de una relación entre el por lo menos un primer término y el por lo menos un segundo término para cada una de las relaciones entre términos seleccionadas; y proporcionar información sobre la probabilidad determinada de la relación entre el por lo menos un primer término y el por lo menos un segundo término para por lo menos una de las relaciones entre términos seleccionadas para permitir que se determinen una o más sugerencias para un usuario que tiene un interés en el por lo menos un primer término para la por lo menos una relación entre términos seleccionada.
24.- El sistema de cómputo de conformidad con la reivindicación 23, caracterizado además porque los artículos de contenido relacionados múltiples son representativos del área de interés sujeto y la pluralidad de términos están incluidos en los contenidos de los artículos de contenido relacionados múltiples, y en donde la proporción de la información sobre la probabilidad determinada de la relación entre por lo menos un primer término y el por lo menos un segundo término para la por lo menos una relación entre términos, incluye: después de obtener información sobre el usuario que tiene una preferencia de por lo menos un primer término de la por lo menos una primera relación entre términos seleccionada, utilizando la información incluida en la representación probabilística generada para determinar en forma automática ese por lo menos un segundo término de la por lo menos una relación entre términos seleccionada que también es de interés para el usuario con base, por lo menos en parte en la probabilidad determinada de la por lo menos una relación entre términos seleccionada; determinar la una o más sugerencias para el usuario con base por lo menos en parte en el por lo menos un segundo término de la por lo menos una relación entre términos seleccionada; y proporcionar la una o más sugerencias determinadas al usuario.
25. - El sistema de cómputo de conformidad con la reivindicación 23, caracterizado además porque comprende adicionalmente uno o más sistemas configurados para recibir la información provista sobre la probabilidad determinada de la relación entre el por lo menos un primer término y el por lo menos un segundo término para al menos una de las relaciones entre términos seleccionadas, y para, para cada uno de los usuarios múltiples: obtener información sobre uno o más términos indicados por el usuario para ser preferencias del usuario; determinar en forma automática uno o más segundos términos que probablemente son de interés para el usuario con base por lo menos en parte en la información provista recibida; determinar en forma automática una o más recomendaciones para el usuario con base, por lo menos en parte, en uno o más segundos términos determinados; y proporcionar la una o más recomendaciones determinadas al usuario.
26. - El sistema de cómputo de conformidad con la reivindicación 25, caracterizado además porque, para uno de los usuarios múltiples, la determinación automática del uno o más segundos términos que probablemente son de interés para un usuario, incluye determinar para cada uno de los segundos términos múltiples, una probabilidad de que un usuario tiene un interés en el segundo término, y seleccionar uno o más segundos términos determinados a partir de los segundos términos múltiples con base en uno o más criterios determinados para evaluar las probabilidades determinadas de los segundos términos múltiples.
27. - El sistema de cómputo de conformidad con la reivindicación 23, caracterizado además porque el sistema de determinación de relevancia incluye instrucciones de software para la ejecución mediante por lo menos un procesador.
28. - El sistema de cómputo de conformidad con la reivindicación 23, caracterizado además porque el sistema de determinación de relevancia consiste en un medio para proporcionar información con base en las relaciones determinadas en forma automática: analizando en forma automática los artículos de contenido múltiples relacionados con un área de interés sujeto con el objeto de identificar las relaciones entre términos entre una pluralidad de términos relacionados con los artículos de contenido múltiples, cada una de las relaciones entre términos indicando una relevancia evaluada de por lo menos un primer término de la pluralidad de términos para por lo menos otro segundo término de la pluralidad de términos; generar en forma automática una representación probabilística de las relaciones entre términos seleccionados con base, por lo menos en parte, en las relevancias evaluadas para las relaciones entre términos seleccionadas, la representación probabilística incluyendo la información relacionada con una probabilidad determinada de una relación entre el por lo menos un primer término y el por lo menos un segundo término para cada una de las relaciones entre términos seleccionadas; y proporcionar información sobre la probabilidad determinada de la relación entre el por lo menos un primer término y el por lo menos un segundo término para al menos una de las relaciones entre términos seleccionadas para permitir que sea determinada una o más sugerencias para un usuario que tiene un interés en el por lo menos un primer término para la por lo menos una primera relación entre términos seleccionada.
29.- Un método implementado por computadora para proporcionar información con base en las relaciones determinadas en forma automática, el método comprende: bajo el control de uno o más sistemas de cómputo configurados para proporcionar un servicio de determinación de relevancia, determinar en forma automática la información relevante para recomendar, analizando en forma automática los contenidos de una pluralidad de documentos relacionados con un primer dominio de interés para identificar relaciones entre términos múltiples entre por lo menos una parte de una pluralidad de términos que están presentes en el contenido de los documentos, cada una de las relaciones identificadas indicando una relevancia evaluada inicial entre por lo menos uno de los términos y por lo menos otro de los términos; generar en forma automática una red neural de relevancia de términos que modela las relevancias evaluadas de las relaciones identificadas, la red neural de relevancia de términos modela inicialmente las relevancias iniciales evaluadas, y actualiza de forma repetida las relevancias evaluadas que son modeladas por la red neural de relevancia de términos con base en la retroalimentación obtenida de los usuarios que realizan las selecciones que corresponden a la pluralidad de términos; generar en forma automática una red Bayesiana probabilística con base en las relevancias evaluadas actualizadas de por lo menos algunas de las relaciones identificadas, la red Bayesiana probabilística incluyendo información que indica las probabilidades para las relaciones entre por lo menos alguna de la pluralidad de términos; y utilizar la información incluida en la red Bayesiana probabilística para proporcionar las recomendaciones relacionadas con el primer dominio, para cada uno de los usuarios múltiples; obtener información sobre un primer grupo de uno o más de la pluralidad de términos para los cuales el usuario ha expresado una preferencia; para cada uno del uno o más términos objetivo de la pluralidad de términos que no están en el primer grupo, determinar en forma automática una probabilidad de que el término objetivo sea una preferencia no expresada del usuario, la probabilidad determinada basándose en la preferencia del usuario para el uno o más términos del primer grupo y basándose en una o más relaciones entre el uno o más términos del primer grupo y el término objetivo que están indicados en la información incluida en la red Bayesiana probabilística; y proporcionar una o más recomendaciones para el usuario relacionadas con el primer dominio que están basadas en un segundo grupo seleccionado de por lo menos uno de los términos objetivo, los términos objetivo del segundo grupo siendo seleccionado con base en las probabilidades determinadas de que aquellos términos objetivo sean preferencias no expresadas del usuario, y en donde, los términos objetivo del segundo grupo seleccionado para al menos uno de los usuarios múltiples, difiere de los términos objetivo del segundo grupo seleccionado para al menos otros de los usuarios múltiples.
30. - El método de conformidad con la reivindicación 29, caracterizado además porque la generación automática de la red Bayesiana probabilística incluye, para cada una de las por lo menos algunas relaciones identificadas, determinar una dirección de influencia entre el por lo menos un término y el por lo menos otro término de la relación identificada, y determinar una o más probabilidades condicionales que representan una fuerza de la influencia entre el por lo menos un término y el por lo menos otro término de la relación identificada, y en donde la información incluida en la red Bayesiana probabilística incluye las direcciones determinadas de influencia y las probabilidades condicionales determinadas.
31. - El método de conformidad con la reivindicación 30, caracterizado además porque la generación automática de la red Bayesiana probabilística incluye adicionalmente generar árboles de decisión múltiples, en donde cada uno corresponde a una porción de la información incluida en la red Bayesiana probabilística, y en donde la determinación automática de la probabilidad para cada uno de los términos objetivo para uno de los usuarios múltiples es realizada utilizando los árboles de decisión múltiples generados.
32.- El método de conformidad con la reivindicación 29, caracterizado además porque el uso de la información incluida en la red Bayesiana probabilística para proporcionar recomendaciones relacionadas con el primer dominio para los usuarios múltiples, incluye adicionalmente, después de que la información incluida en la red Bayesiana probabilística se utiliza para proporcionar recomendaciones relacionadas con el primer dominio para uno o más de los usuarios múltiples: obtener información sobre las preferencias reales de los usuarios adicionales relacionadas con la pluralidad de términos, los usuarios adicionales siendo diferentes de los usuarios múltiples; y actualizar la información incluida en la red Bayesiana probabilística para reflejar la información obtenida sobre las preferencias reales de los usuarios adicionales; y en donde el uso de la información incluida en la red Bayesiana probabilística para proporcionar recomendaciones relacionadas con el primer dominio para los usuarios múltiples diferentes de uno o más usuarios, incluye utilizar la información actualizada.
33.- El método de conformidad con la reivindicación 29, caracterizado además porque comprende adicionalmente: generar en forma automática una segunda red Bayesiana probabilística que indica las segundas probabilidades para las relaciones entre la pluralidad de términos para el primer dominio y que se basa en la información obtenida sobre las preferencias reales de una pluralidad de usuarios para la pluralidad de términos; y para cada uno del uno o más usuarios múltiples, después de obtener la información sobre el primer grupo del uno o más términos para los cuales el usuario ha expresado una preferencia, utilizar la segunda red Bayesiana probabilística para determinar en forma automática una segunda probabilidad para cada uno del uno o más términos objetivo en donde el término objetivo es una preferencia no expresada del usuario, la segunda probabilidad determinada para al menos uno de los términos objetivo, siendo diferente de la probabilidad para ese término objetivo para el usuario que se determinó con base en la red Bayesiana probabilística generada utilizando la red neural de relevancia de términos; y en donde el segundo grupo seleccionado de los términos objetivo que se utilizó para proporcionar recomendaciones al por lo menos uno de los uno o más usuarios incluye adicionalmente por lo menos un término objetivo que se selecciona con base en las segundas probabilidades determinadas de la segunda red Bayesiana probabilística y que no se selecciona con base en las probabilidades determinadas a partir de la red Bayesiana probabilística generada utilizando la red neural de relevancia de términos.
34.- El método de conformidad con la reivindicación 29, caracterizado además porque la determinación automática de la información relevante para recomendar, incluye adicionalmente: analizar en forma automática los contenidos de otros documentos relacionados con un segundo dominio de interés para identificar relaciones adicionales múltiples entre una segunda pluralidad de términos que están presentes en los contenidos de los otros documentos, la segunda pluralidad de términos incluyendo uno o más primeros términos que son parte de la pluralidad de términos presentes en los contenidos de los documentos relacionados con el primer dominio y que incluyen uno o más de otros segundos términos que no son parte de la pluralidad de términos presentes en los contenidos de los documentos relacionados con el primer dominio y las relaciones adicionales múltiples identificadas indicando una relevancia evaluada inicial de uno o más de los primeros términos para uno o más de los segundos términos; actualizar en forma automática la red Bayesiana probabilística para incluir información adicional que indica las probabilidades que corresponden a por lo menos una de las relaciones adicionales, la actualización automática siendo realizada con base, por lo menos en parte, en la relevancia evaluada inicial del uno o más primeros términos para el uno o más segundos términos aunque sin información alguna de una preferencia de cualesquiera usuarios para el uno o más segundos términos; y después de obtener la información sobre un primer grupo de uno o más términos para los cuales, un primer usuario tiene una preferencia, aunque no incluyen cualquiera de los segundos términos, proporcionar una o más recomendaciones al primer usuario que se basan en por lo menos uno de los segundos términos, el por lo menos uno de los segundos términos siendo seleccionado en forma automática con base en una probabilidad determinada de que por lo menos uno de los segundos términos son una preferencia no expresada del primer usuario, la probabilidad determinada de que por lo menos uno de los segundos términos son una preferencia no expresada del primer usuario siendo determinada con base en la información adicional incluida en la red Bayesiana probabilística actualizada.
35.- El método de conformidad con la reivindicación 29, caracterizado además porque, para uno de los usuarios múltiples, el servicio de determinación de relevancia tiene un problema de recomendación de inicio frío basado en una falta de información para permitir la identificación de cualesquiera otros usuarios que tienen similitud con un usuario para permitir que el servicio de determinación de relevancia proporcione las recomendaciones a un usuario relacionadas con el primer dominio con base en la información disponible sobre los otros usuarios, y en donde las relaciones identificadas del análisis automático de los contenidos de los documentos relacionados con el primer dominio son utilizados por el servicio de determinación de relevancia para superar el problema de recomendación de inicio frío con respecto a proporcionar una o más recomendaciones a un usuario.
36. - El método de conformidad con la reivindicación 35, caracterizado además porque la una o más recomendaciones provistas a un usuario incluyen por lo menos uno de uno o más de la pluralidad de documentos relacionados con el primer dominio y de uno o más de los términos objetivo seleccionados para el segundo grupo de un usuario.
37. - El método de conformidad con la reivindicación 29, caracterizado además porque el servicio de determinación de relevancia puede ser accedido por los usuarios por medio de uno o más servicios afiliados, de tal manera que por lo menos algunos proporcionan las recomendaciones para los usuarios múltiples, incluyendo proporcionar aquellas recomendaciones a los servicios afiliados, los cuales, proporcionan adicionalmente información con base en aquellas recomendaciones para esos usuarios, y en donde el servicio de determinación de relevancia es una servicio con base en tarifas que obtiene comisiones de los servicios afiliados y/o de aquellos usuarios.
MX2011006340A 2008-12-12 2009-12-11 Suministro de recomendaciones utilizando la informacion determinada para dominios de interés. MX2011006340A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12228208P 2008-12-12 2008-12-12
PCT/US2009/067778 WO2010068931A1 (en) 2008-12-12 2009-12-11 Providing recommendations using information determined for domains of interest

Publications (1)

Publication Number Publication Date
MX2011006340A true MX2011006340A (es) 2011-10-28

Family

ID=42241728

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2011006340A MX2011006340A (es) 2008-12-12 2009-12-11 Suministro de recomendaciones utilizando la informacion determinada para dominios de interés.

Country Status (7)

Country Link
US (2) US8429106B2 (es)
EP (1) EP2377011A4 (es)
JP (1) JP5379239B2 (es)
CN (1) CN102326144B (es)
CA (1) CA2746675C (es)
MX (1) MX2011006340A (es)
WO (1) WO2010068931A1 (es)

Families Citing this family (173)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090216563A1 (en) * 2008-02-25 2009-08-27 Michael Sandoval Electronic profile development, storage, use and systems for taking action based thereon
US20090216639A1 (en) * 2008-02-25 2009-08-27 Mark Joseph Kapczynski Advertising selection and display based on electronic profile information
EP2260373A4 (en) * 2008-02-25 2016-08-03 Atigeo Llc DETERMINING RELEVANT INFORMATION FOR AREAS OF INTEREST
US9563616B2 (en) * 2008-11-07 2017-02-07 Workiva Inc. Method and system for generating and utilizing persistent electronic tick marks and use of electronic support binders
US9443209B2 (en) * 2009-04-30 2016-09-13 Paypal, Inc. Recommendations based on branding
US8180783B1 (en) * 2009-05-13 2012-05-15 Softek Solutions, Inc. Document ranking systems and methods
US8781990B1 (en) * 2010-02-25 2014-07-15 Google Inc. Crowdsensus: deriving consensus information from statements made by a crowd of users
CN102169566A (zh) * 2010-02-26 2011-08-31 国际商业机器公司 在陌生领域中生成推荐项目的方法和装置
US20110231387A1 (en) * 2010-03-22 2011-09-22 Yahoo! Inc. Engaging content provision
US8392435B1 (en) 2010-04-14 2013-03-05 Google Inc. Query suggestions for a document based on user history
WO2011140506A2 (en) 2010-05-06 2011-11-10 Atigeo Llc Systems, methods, and computer readable media for security in profile utilizing systems
US8655938B1 (en) 2010-05-19 2014-02-18 Adobe Systems Incorporated Social media contributor weight
US10216831B2 (en) * 2010-05-19 2019-02-26 Excalibur Ip, Llc Search results summarized with tokens
US9710555B2 (en) * 2010-05-28 2017-07-18 Adobe Systems Incorporated User profile stitching
US8676875B1 (en) 2010-05-19 2014-03-18 Adobe Systems Incorporated Social media measurement
US8751520B1 (en) * 2010-06-23 2014-06-10 Google Inc. Query suggestions with high utility
US20120016817A1 (en) * 2010-07-19 2012-01-19 Smith S Alex Predicting Life Changes of Members of a Social Networking System
TW201205307A (en) * 2010-07-30 2012-02-01 Ibm Method, apparatus and computer program product for efficiently sharing information
US10216393B2 (en) 2010-07-30 2019-02-26 International Business Machines Corporation Efficiently sharing user selected information with a set of determined recipients
CN102346894B (zh) * 2010-08-03 2017-03-01 阿里巴巴集团控股有限公司 推荐信息的输出方法、系统及服务器
KR101722687B1 (ko) * 2010-08-10 2017-04-04 삼성전자주식회사 객체간 또는 객체와 유저간에 정보 제공 방법, 그 방법을 수행할 수 있는 유저 디바이스, 및 저장 매체
JP6230060B2 (ja) * 2010-08-16 2017-11-15 シズベル ソチエタ イタリアーナ ペル ロ ズヴィルッポ デルエレットロニカ エッセ ピ ア 少なくとも1つのメディアアイテムを選択するための方法及び装置
US8683389B1 (en) * 2010-09-08 2014-03-25 The New England Complex Systems Institute, Inc. Method and apparatus for dynamic information visualization
US8548988B2 (en) 2010-11-22 2013-10-01 SRM Institute of Science and Technology System and method for comparing universities based on their university model graphs
US8606775B2 (en) * 2010-12-17 2013-12-10 Audible, Inc. Graphically representing associations between referents and stories
US8560678B2 (en) * 2010-12-22 2013-10-15 Facebook, Inc. Providing relevant notifications based on common interests between friends in a social networking system
KR101274419B1 (ko) * 2010-12-30 2013-06-17 엔에이치엔(주) 사용자 그룹별로 키워드의 순위를 결정하는 시스템 및 방법
US8719692B2 (en) 2011-03-11 2014-05-06 Microsoft Corporation Validation, rejection, and modification of automatically generated document annotations
US8700580B1 (en) 2011-04-29 2014-04-15 Google Inc. Moderation of user-generated content
US8862492B1 (en) 2011-04-29 2014-10-14 Google Inc. Identifying unreliable contributors of user-generated content
US8533146B1 (en) 2011-04-29 2013-09-10 Google Inc. Identification of over-clustered map features
FR2975553B1 (fr) * 2011-05-17 2014-05-16 Alcatel Lucent Aide a la recherche de contenus videos sur un reseau de communication
JP5248655B2 (ja) * 2011-05-18 2013-07-31 株式会社東芝 情報処理装置およびプログラム
US9530167B2 (en) * 2011-08-12 2016-12-27 Facebook, Inc. Coefficients attribution for different objects based on natural language processing
CN102955781B (zh) * 2011-08-19 2016-04-20 腾讯科技(深圳)有限公司 一种人物搜索方法及装置
US8838589B1 (en) * 2011-08-19 2014-09-16 Reverb Technologies, Inc. Technique for building a user profile based on content consumption or production
US8732101B1 (en) 2013-03-15 2014-05-20 Nara Logics, Inc. Apparatus and method for providing harmonized recommendations based on an integrated user profile
US8170971B1 (en) 2011-09-28 2012-05-01 Ava, Inc. Systems and methods for providing recommendations based on collaborative and/or content-based nodal interrelationships
US10467677B2 (en) 2011-09-28 2019-11-05 Nara Logics, Inc. Systems and methods for providing recommendations based on collaborative and/or content-based nodal interrelationships
US10789526B2 (en) 2012-03-09 2020-09-29 Nara Logics, Inc. Method, system, and non-transitory computer-readable medium for constructing and applying synaptic networks
US11727249B2 (en) * 2011-09-28 2023-08-15 Nara Logics, Inc. Methods for constructing and applying synaptic networks
US11151617B2 (en) 2012-03-09 2021-10-19 Nara Logics, Inc. Systems and methods for providing recommendations based on collaborative and/or content-based nodal interrelationships
US8909581B2 (en) 2011-10-28 2014-12-09 Blackberry Limited Factor-graph based matching systems and methods
US8688793B2 (en) 2011-11-08 2014-04-01 Blackberry Limited System and method for insertion of addresses in electronic messages
US8463295B1 (en) * 2011-12-07 2013-06-11 Ebay Inc. Systems and methods for generating location-based group recommendations
US20130159254A1 (en) * 2011-12-14 2013-06-20 Yahoo! Inc. System and methods for providing content via the internet
US8666836B2 (en) 2011-12-15 2014-03-04 Facebook, Inc. Targeting items to a user of a social networking system based on a predicted event for the user
US9075498B1 (en) * 2011-12-22 2015-07-07 Symantec Corporation User interface for finding similar documents
US8832116B1 (en) 2012-01-11 2014-09-09 Google Inc. Using mobile application logs to measure and maintain accuracy of business information
US9015086B2 (en) * 2012-03-23 2015-04-21 Sap Se Learnable contextual network
US20130346424A1 (en) * 2012-06-21 2013-12-26 Microsoft Corporation Computing tf-idf values for terms in documents in a large document corpus
US9396179B2 (en) * 2012-08-30 2016-07-19 Xerox Corporation Methods and systems for acquiring user related information using natural language processing techniques
US8977622B1 (en) * 2012-09-17 2015-03-10 Amazon Technologies, Inc. Evaluation of nodes
US20150206183A1 (en) * 2012-09-18 2015-07-23 Beijing Yidian Wangju Technology Co., Ltd. Method and system for facilitating users to obtain content
US20150170160A1 (en) * 2012-10-23 2015-06-18 Google Inc. Business category classification
US20140129973A1 (en) * 2012-11-08 2014-05-08 Microsoft Corporation Interaction model for serving popular queries in search box
CN103870000B (zh) * 2012-12-11 2018-12-14 百度国际科技(深圳)有限公司 一种对输入法所产生的候选项进行排序的方法及装置
US9147168B1 (en) * 2012-12-20 2015-09-29 Emc Corporation Decision tree representation for big data
US8996436B1 (en) 2012-12-20 2015-03-31 Emc Corporation Decision tree classification for big data
US10664657B2 (en) 2012-12-27 2020-05-26 Touchtype Limited System and method for inputting images or labels into electronic devices
GB201223450D0 (en) * 2012-12-27 2013-02-13 Touchtype Ltd Search and corresponding method
US10129596B2 (en) * 2013-01-21 2018-11-13 Netflix, Inc. Adaptive row selection
CN104111935B (zh) * 2013-04-17 2017-02-01 腾讯科技(深圳)有限公司 一种推送微博的方法及系统、服务器
US9547698B2 (en) 2013-04-23 2017-01-17 Google Inc. Determining media consumption preferences
US9699019B2 (en) 2013-06-14 2017-07-04 Microsoft Technology Licensing, Llc Related content display associated with browsing
US10453114B2 (en) * 2013-06-23 2019-10-22 Intel Corporation Selective sharing of user information based on contextual relationship information, such as to crowd-source gifts of interest to a recipient
US20160012511A1 (en) * 2013-06-25 2016-01-14 Kobo Incorporated Methods and systems for generating recommendation list with diversity
US9276951B2 (en) * 2013-08-23 2016-03-01 The Boeing Company System and method for discovering optimal network attack paths
WO2015043389A1 (zh) * 2013-09-30 2015-04-02 北京奇虎科技有限公司 一种基于视频搜索的分词信息推送方法和装置
CN103488787B (zh) * 2013-09-30 2017-12-19 北京奇虎科技有限公司 一种基于视频搜索的在线播放入口对象的推送方法和装置
CN103491205B (zh) * 2013-09-30 2016-08-17 北京奇虎科技有限公司 一种基于视频搜索的关联资源地址的推送方法和装置
US9779722B2 (en) * 2013-11-05 2017-10-03 GM Global Technology Operations LLC System for adapting speech recognition vocabulary
US9679018B1 (en) * 2013-11-14 2017-06-13 Google Inc. Document ranking based on entity frequency
US10474747B2 (en) * 2013-12-16 2019-11-12 International Business Machines Corporation Adjusting time dependent terminology in a question and answer system
US9778817B2 (en) 2013-12-31 2017-10-03 Findo, Inc. Tagging of images based on social network tags or comments
US9483738B2 (en) * 2014-01-17 2016-11-01 Hulu, LLC Topic model based media program genome generation
US10217058B2 (en) 2014-01-30 2019-02-26 Microsoft Technology Licensing, Llc Predicting interesting things and concepts in content
US9965521B1 (en) * 2014-02-05 2018-05-08 Google Llc Determining a transition probability from one or more past activity indications to one or more subsequent activity indications
US20150286650A1 (en) * 2014-04-03 2015-10-08 Kurt Stump Decision Making and Activity Recommendations Engine via Online Persona
CN105095202B (zh) * 2014-04-17 2018-10-30 华为技术有限公司 消息推荐方法及装置
US10325205B2 (en) 2014-06-09 2019-06-18 Cognitive Scale, Inc. Cognitive information processing system environment
US9846836B2 (en) 2014-06-13 2017-12-19 Microsoft Technology Licensing, Llc Modeling interestingness with deep neural networks
US10082778B2 (en) 2014-06-20 2018-09-25 Veritone Alpha, Inc. Managing coordinated control by multiple decision modules
EP3201803A4 (en) * 2014-07-18 2018-08-22 Maluuba Inc. Method and server for classifying queries
KR102348084B1 (ko) * 2014-09-16 2022-01-10 삼성전자주식회사 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
US9984166B2 (en) 2014-10-10 2018-05-29 Salesforce.Com, Inc. Systems and methods of de-duplicating similar news feed items
US10592841B2 (en) 2014-10-10 2020-03-17 Salesforce.Com, Inc. Automatic clustering by topic and prioritizing online feed items
US9558244B2 (en) * 2014-10-22 2017-01-31 Conversable, Inc. Systems and methods for social recommendations
US10671601B2 (en) * 2014-12-08 2020-06-02 International Business Machines Corporation Platform for consulting solution
EP3259682A4 (en) * 2015-02-20 2018-08-01 Ent. Services Development Corporation LP Personalized profile-modified search for dialog concepts
CN104657487B (zh) * 2015-03-05 2017-12-22 东方网力科技股份有限公司 一种基于用户车牌查询行为的车牌推荐方法及装置
CN104809165B (zh) * 2015-04-02 2018-09-25 海信集团有限公司 一种多媒体文件相关度的确定方法及设备
EP3309686B1 (en) * 2015-04-10 2020-08-19 Soliton Systems K.K. Electronic mail transmission error determination device, electronic mail transmission system, and recording medium
US9774692B2 (en) * 2015-04-16 2017-09-26 Mediatek Inc. Method and system of automatic recording and portable application of lifestyle related data
EP3093803A1 (en) * 2015-04-30 2016-11-16 Tata Consultancy Services Limited Systems and methods for contextual recommendation of learning content
US10984056B2 (en) * 2015-04-30 2021-04-20 Walmart Apollo, Llc Systems and methods for evaluating search query terms for improving search results
US10210218B2 (en) * 2015-06-16 2019-02-19 Salesforce.Com, Inc. Processing a file to generate a recommendation using a database system
US10089108B1 (en) 2015-06-17 2018-10-02 Amazon Technologies, Inc. Archival format for incremental deployments and version control
US10223393B1 (en) * 2015-06-25 2019-03-05 Amazon Technologies, Inc. Efficient processing of source code objects using probabilistic data structures
US10803391B2 (en) * 2015-07-29 2020-10-13 Google Llc Modeling personal entities on a mobile device using embeddings
US10528958B2 (en) * 2015-08-18 2020-01-07 Mastercard International Incorporated Systems and methods for generating relationships via a property graph model
CN105245609A (zh) * 2015-10-23 2016-01-13 小米科技有限责任公司 推送信息的方法、装置、设备及系统
US10191988B2 (en) * 2015-10-28 2019-01-29 Sony Mobile Communications Inc. System and method for returning prioritized content
US10521410B2 (en) * 2015-11-20 2019-12-31 International Business Machines Corporation Semantic graph augmentation for domain adaptation
US11456885B1 (en) 2015-12-17 2022-09-27 EMC IP Holding Company LLC Data set valuation for service providers
US10572519B2 (en) * 2016-01-04 2020-02-25 Facebook, Inc. Systems and methods to search resumes based on keywords
US20170271984A1 (en) 2016-03-04 2017-09-21 Atigeo Corp. Using battery dc characteristics to control power output
US10528522B1 (en) 2016-03-17 2020-01-07 EMC IP Holding Company LLC Metadata-based data valuation
US10838946B1 (en) 2016-03-18 2020-11-17 EMC IP Holding Company LLC Data quality computation for use in data set valuation
CN105912685B (zh) * 2016-04-15 2019-08-23 上海交通大学 基于跨领域的机票个性化推荐系统及推荐方法
US10789224B1 (en) 2016-04-22 2020-09-29 EMC IP Holding Company LLC Data value structures
US10838965B1 (en) 2016-04-22 2020-11-17 EMC IP Holding Company LLC Data valuation at content ingest
US10671483B1 (en) 2016-04-22 2020-06-02 EMC IP Holding Company LLC Calculating data value via data protection analytics
US9818406B1 (en) 2016-06-23 2017-11-14 Intuit Inc. Adjusting user experience based on paralinguistic information
US10445356B1 (en) * 2016-06-24 2019-10-15 Pulselight Holdings, Inc. Method and system for analyzing entities
US9645999B1 (en) * 2016-08-02 2017-05-09 Quid, Inc. Adjustment of document relationship graphs
US10210551B1 (en) * 2016-08-15 2019-02-19 EMC IP Holding Company LLC Calculating data relevance for valuation
US11042574B2 (en) * 2016-10-05 2021-06-22 International Business Machines Corporation Contextual enhancing of content participation in search results
US10510088B2 (en) * 2016-10-07 2019-12-17 Bank Of America Corporation Leveraging an artificial intelligence engine to generate customer-specific user experiences based on real-time analysis of customer responses to recommendations
US10621558B2 (en) 2016-10-07 2020-04-14 Bank Of America Corporation System for automatically establishing an operative communication channel to transmit instructions for canceling duplicate interactions with third party systems
US10476974B2 (en) 2016-10-07 2019-11-12 Bank Of America Corporation System for automatically establishing operative communication channel with third party computing systems for subscription regulation
CN107918778B (zh) * 2016-10-11 2022-03-15 阿里巴巴集团控股有限公司 一种信息匹配方法及相关装置
US10135989B1 (en) 2016-10-27 2018-11-20 Intuit Inc. Personalized support routing based on paralinguistic information
US10515632B2 (en) * 2016-11-15 2019-12-24 At&T Intellectual Property I, L.P. Asynchronous virtual assistant
US10719480B1 (en) 2016-11-17 2020-07-21 EMC IP Holding Company LLC Embedded data valuation and metadata binding
US11037208B1 (en) 2016-12-16 2021-06-15 EMC IP Holding Company LLC Economic valuation of data assets
US10514833B2 (en) * 2016-12-30 2019-12-24 Google Llc Contextual paste target prediction
US10339185B2 (en) * 2017-01-10 2019-07-02 International Business Machines Corporation Efficient management of document corpus
US11361235B2 (en) * 2017-01-25 2022-06-14 Pearson Education, Inc. Methods for automatically generating Bayes nets using historical data
US11182393B2 (en) * 2017-02-21 2021-11-23 International Business Machines Corporation Spatial data analyzer support
US10534825B2 (en) * 2017-05-22 2020-01-14 Microsoft Technology Licensing, Llc Named entity-based document recommendations
US10331402B1 (en) * 2017-05-30 2019-06-25 Amazon Technologies, Inc. Search and knowledge base question answering for a voice user interface
US11335466B2 (en) * 2019-02-15 2022-05-17 Tencent America LLC Method for determining disease symptom relations using acceptance and rejection of random samples
US10642908B2 (en) * 2017-11-15 2020-05-05 Sap Se Internet of things search and discovery dynamic alteration of results
US10726072B2 (en) 2017-11-15 2020-07-28 Sap Se Internet of things search and discovery graph engine construction
US10592732B1 (en) * 2017-12-14 2020-03-17 Perceive Corporation Probabilistic loss function for training network with triplets
CN110162766B (zh) * 2018-02-12 2023-03-24 深圳市腾讯计算机系统有限公司 词向量更新方法和装置
JP7031387B2 (ja) * 2018-03-12 2022-03-08 オムロン株式会社 情報処理装置、情報処理方法、および、情報処理プログラム
US11995537B1 (en) 2018-03-14 2024-05-28 Perceive Corporation Training network with batches of input instances
US11586902B1 (en) 2018-03-14 2023-02-21 Perceive Corporation Training network to minimize worst case surprise
CN110619075B (zh) * 2018-06-04 2023-04-18 阿里巴巴集团控股有限公司 一种网页识别方法与设备
US10945012B2 (en) * 2018-06-28 2021-03-09 Pandora Media, Llc Cold-start podcast recommendations
US11250486B1 (en) 2018-08-03 2022-02-15 Rentpath Holdings, Inc. Systems and methods for displaying filters and intercepts leveraging a predictive analytics architecture
US10853578B2 (en) * 2018-08-10 2020-12-01 MachineVantage, Inc. Extracting unconscious meaning from media corpora
US10666076B1 (en) 2018-08-14 2020-05-26 Veritone Alpha, Inc. Using battery state excitation to control battery operations
US20200134096A1 (en) * 2018-10-30 2020-04-30 Longsand Limited Search results based on models derived from documents
GB201818237D0 (en) * 2018-11-08 2018-12-26 Polyal A dialogue system, a dialogue method, a method of generating data for training a dialogue system, a system for generating data for training a dialogue system
GB201818234D0 (en) 2018-11-08 2018-12-26 Polyal A dialogue system and a dialogue method
CN109508421B (zh) * 2018-11-26 2020-11-13 中国电子科技集团公司第二十八研究所 一种基于词向量的文献推荐方法
EP3660699A1 (en) * 2018-11-29 2020-06-03 Tata Consultancy Services Limited Method and system to extract domain concepts to create domain dictionaries and ontologies
US10452045B1 (en) 2018-11-30 2019-10-22 Veritone Alpha, Inc. Controlling ongoing battery system usage while repeatedly reducing power dissipation
CN111310882A (zh) * 2018-12-11 2020-06-19 北京京东尚科信息技术有限公司 用于生成信息的方法和装置
CN111444334B (zh) * 2019-01-16 2023-04-25 阿里巴巴集团控股有限公司 数据处理方法、文本识别方法、装置及计算机设备
US10816949B1 (en) 2019-01-22 2020-10-27 Veritone Alpha, Inc. Managing coordinated improvement of control operations for multiple electrical devices to reduce power dissipation
US11097633B1 (en) 2019-01-24 2021-08-24 Veritone Alpha, Inc. Using battery state excitation to model and control battery operations
US11048738B2 (en) * 2019-01-31 2021-06-29 EMC IP Holding Company LLC Records search and management in compliance platforms
US11069926B1 (en) * 2019-02-14 2021-07-20 Vcritonc Alpha, Inc. Controlling ongoing battery system usage via parametric linear approximation
TWI724515B (zh) * 2019-08-27 2021-04-11 聯智科創有限公司 機器學習服務提供方法
US11407327B1 (en) 2019-10-17 2022-08-09 Veritone Alpha, Inc. Controlling ongoing usage of a battery cell having one or more internal supercapacitors and an internal battery
CN110825972B (zh) * 2019-11-12 2022-10-25 重庆邮电大学 一种基于领域差异化的热点话题关键用户发现方法
US11036925B2 (en) 2019-11-18 2021-06-15 International Business Machines Corporation Managing the distinctiveness of multimedia
KR20210070623A (ko) * 2019-12-05 2021-06-15 엘지전자 주식회사 사용자의 관심사를 추출하는 인공 지능 장치 및 그 방법
CN111125528B (zh) * 2019-12-24 2023-04-28 腾讯科技(深圳)有限公司 信息推荐方法及装置
CN111368202B (zh) * 2020-03-06 2023-09-19 咪咕文化科技有限公司 搜索推荐方法、装置、电子设备及存储介质
US11373210B2 (en) * 2020-03-26 2022-06-28 Adobe Inc. Content interest from interaction information
US11238113B2 (en) * 2020-04-01 2022-02-01 Grand Rounds Inc. Systems and methods for machine learning models for search engine performance optimization
CN111401046B (zh) * 2020-04-13 2023-09-29 贝壳技术有限公司 房源标题的生成方法和装置、存储介质、电子设备
WO2022072898A1 (en) 2020-10-01 2022-04-07 Crowdsmart, Inc. Diagnosing sources of noise in an evaluation
US11935557B2 (en) * 2021-02-01 2024-03-19 Harman International Industries, Incorporated Techniques for detecting and processing domain-specific terminology
CN112783918A (zh) * 2021-03-15 2021-05-11 北京百度网讯科技有限公司 搜索方法、搜索装置、电子设备、存储介质和程序产品
EP4109322A1 (en) 2021-06-23 2022-12-28 Tata Consultancy Services Limited System and method for statistical subject identification from input data
US11430446B1 (en) 2021-08-12 2022-08-30 PolyAI Limited Dialogue system and a dialogue method
CN114036403B (zh) * 2022-01-07 2022-03-25 智者四海(北京)技术有限公司 用户兴趣探测方法、装置和存储介质

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02224068A (ja) * 1989-02-27 1990-09-06 Toshiba Corp 情報検索システム
JPH03122769A (ja) * 1989-10-05 1991-05-24 Ricoh Co Ltd キーワード連想検索装置
JPH0887508A (ja) * 1994-09-14 1996-04-02 Olympus Optical Co Ltd 情報検索装置
US6807537B1 (en) * 1997-12-04 2004-10-19 Microsoft Corporation Mixtures of Bayesian networks
JP3645431B2 (ja) * 1998-10-02 2005-05-11 富士通株式会社 情報検索支援装置および情報検索支援プログラム記憶媒体
US6385602B1 (en) * 1998-11-03 2002-05-07 E-Centives, Inc. Presentation of search results using dynamic categorization
US6560590B1 (en) * 2000-02-14 2003-05-06 Kana Software, Inc. Method and apparatus for multiple tiered matching of natural language queries to positions in a text corpus
US6687696B2 (en) * 2000-07-26 2004-02-03 Recommind Inc. System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models
WO2002010954A2 (en) * 2000-07-27 2002-02-07 Polygnostics Limited Collaborative filtering
DE60103301T2 (de) * 2000-11-20 2005-05-25 British Telecommunications P.L.C. Verfahren zum aktualisieren von interessen
US7356530B2 (en) * 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
US20030204496A1 (en) * 2002-04-29 2003-10-30 X-Mine, Inc. Inter-term relevance analysis for large libraries
EP1484693A1 (en) * 2003-06-04 2004-12-08 Sony NetServices GmbH Content recommendation device with an arrangement engine
ATE370466T1 (de) * 2003-09-15 2007-09-15 Philippe Baumard Verfahren und system zur interessenniveaumessung von digitalen nachrichten
JP2005135113A (ja) * 2003-10-29 2005-05-26 Sony Corp 電子機器装置、関連語抽出方法及びプログラム
US7392278B2 (en) * 2004-01-23 2008-06-24 Microsoft Corporation Building and using subwebs for focused search
JP4535765B2 (ja) * 2004-04-23 2010-09-01 富士通株式会社 コンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置
WO2006001008A2 (en) * 2004-06-24 2006-01-05 Amir Lavi System for facilitating search over a network
US7698626B2 (en) * 2004-06-30 2010-04-13 Google Inc. Enhanced document browsing with automatically generated links to relevant information
JP2006085389A (ja) * 2004-09-15 2006-03-30 Kyoto Univ 検索装置
US7428533B2 (en) * 2004-12-06 2008-09-23 Yahoo! Inc. Automatic generation of taxonomies for categorizing queries and search query processing using taxonomies
EP1866738A4 (en) * 2005-03-18 2010-09-15 Search Engine Technologies Llc USER FEEDBACK RESEARCH ENGINE FOR IMPROVING RESEARCH RESULTS
US20080009268A1 (en) * 2005-09-14 2008-01-10 Jorey Ramer Authorized mobile content search results
US20070078832A1 (en) * 2005-09-30 2007-04-05 Yahoo! Inc. Method and system for using smart tags and a recommendation engine using smart tags
US7620725B2 (en) * 2005-12-05 2009-11-17 About Us, Inc. Metadata collection within a trusted relationship to increase search relevance
JP2007241451A (ja) * 2006-03-06 2007-09-20 Fuji Xerox Co Ltd 情報収集支援装置
JP2008065417A (ja) * 2006-09-05 2008-03-21 Hottolink Inc 連想語群検索装置、システム及びコンテンツマッチ型広告システム
JP2008077227A (ja) * 2006-09-19 2008-04-03 Access Co Ltd リンク生成装置、ブラウザプログラム、リンク生成システム
EP2260373A4 (en) * 2008-02-25 2016-08-03 Atigeo Llc DETERMINING RELEVANT INFORMATION FOR AREAS OF INTEREST

Also Published As

Publication number Publication date
CN102326144B (zh) 2015-06-17
US8429106B2 (en) 2013-04-23
EP2377011A4 (en) 2017-12-13
EP2377011A1 (en) 2011-10-19
US20100153324A1 (en) 2010-06-17
JP2012512465A (ja) 2012-05-31
JP5379239B2 (ja) 2013-12-25
CN102326144A (zh) 2012-01-18
US20130325769A1 (en) 2013-12-05
US9607264B2 (en) 2017-03-28
CA2746675A1 (en) 2010-06-17
CA2746675C (en) 2015-03-31
WO2010068931A1 (en) 2010-06-17

Similar Documents

Publication Publication Date Title
MX2011006340A (es) Suministro de recomendaciones utilizando la informacion determinada para dominios de interés.
JP5351182B2 (ja) 関心領域についての関連情報の決定
CA2805391C (en) Determining relevant information for domains of interest
Liu et al. Related pins at pinterest: The evolution of a real-world recommender system
Hu et al. Characterizing search intent diversity into click models
CN106802915B (zh) 一种基于用户行为的学术资源推荐方法
Said et al. User-centric evaluation of a k-furthest neighbor collaborative filtering recommender algorithm
KR101366408B1 (ko) 컴퓨터 실행 가능 컴포넌트를 포함하는 컴퓨터 구현된 시스템
Lu et al. Selective transfer learning for cross domain recommendation
Ha-Thuc et al. Personalized expertise search at LinkedIn
Berendsen et al. Pseudo test collections for training and tuning microblog rankers
Zoghi et al. Click-based hot fixes for underperforming torso queries
CN109189990A (zh) 一种搜索词的生成方法、装置及电子设备
US20090327043A1 (en) Method And System Of Ranking A Document
Li et al. Analyzing user's sequential behavior in query auto-completion via markov processes
CN106407316B (zh) 基于主题模型的软件问答推荐方法和装置
Pera et al. A community question-answering refinement system
Badami et al. Adaptive search query generation and refinement in systematic literature review
Singh et al. Valid explanations for learning to rank models
Pang et al. Query expansion and query fuzzy with large-scale click-through data for microblog retrieval
Kim et al. Echo chambers in science
Wu et al. An entropy-based query expansion approach for learning researchers’ dynamic information needs
KR101356193B1 (ko) 온톨로지 정보를 이용한 문서 주제어 생성 방법 및 그 장치
Sun et al. Mining clickthrough data for collaborative web search
Sepliarskaia Understanding user goals by analyzing logged interactions and asking the right questions

Legal Events

Date Code Title Description
FG Grant or registration