MX2010011323A

MX2010011323A - Sistema y método para mostrar publicidad relevante textual basada en semejanza semántica.

Info

Publication number: MX2010011323A
Application number: MX2010011323A
Authority: MX
Inventors: Ramon Felipe Brena Pinero; Eduardo Hector Ramirez Rangel
Original assignee: Itesm
Priority date: 2008-08-20
Filing date: 2010-10-14
Publication date: 2010-12-02

Abstract

La invención descrita presenta un método para encontrar anuncios conceptualmente relacionados que tengan relación semántica con otros documentos siendo consultado. Para tal efecto, se presenta un método que selecciona los anuncios más relevantes semánticamente relacionados de una colección de posibles anuncios dando un documento que es consultado por un usuario de Internet. Para tal fin, se presenta un método que calcula estructuras llamadas "Contextos semánticos", que representa tópicos o conceptos. Asimismo, se presenta un método que utiliza contextos semánticos para medir la proximidad conceptual entre un documento y un anuncio. Ya qué este método no depende de una coincidencia exacta de palabras, como muchos otros método en el estado del arte, el método presentado es menos vulnerable a la sinonimia, polisemia y omisiones de palabras.

Description

SISTEMA Y MÉTODO PARA MOSTRAR PUBLICIDAD RELEVANTE TEXTUAL BASADA EN SEMEJANZA SEMÁNTICA CAMPO DE LA INVENCIÓN El objetivo del invento es proveer a los usuarios de Internet anuncios semánticamente relacionados con los documentos que se estén consultando. Para tal efecto, se presenta un método que selecciona los anuncios más relevantes de colección de anuncios posibles.

ANTECEDENTES DE LA INVENCIÓN En los últimos 10 años, la publicidad de productos y servicios ha seguido una tendencia hacia la migración desde los medios tradicionales como radio, televisión y prensa hacia redes de computadoras como GSM y la Internet. Se espera que dicha tendencia se mantenga creciendo a un ritmo acelerado en los siguientes años debido a que los medios electrónicos ofrecen mayores posibilidades para dirigir y medir la efectividad de las campañas publicitarias y de mercadeo.

Las técnicas en el estado del arte definen la relevancia como una función de la similaridad léxica entre un par de documentos. Tal definición es efectiva en aplicaciones donde un instrumento es en realidad una consulta explícita proporcionada por el usuario, pero no es efectiva cuando se trata de relacionar automáticamente dos documentos, tale como una página web y un anuncio textual corto, de menos de 20 palabras.

Un problema que surge en ambos casos es que las palabras utilizadas en ambos documentos deben ser altamente similares, o las mismas. Dicha situación presenta una limitación a las técnicas de recuperación de información y ha sido caracterizada por Furnast, et. Al (Fumas 1987) como el "problema de la incompatibilidad del vocabulario" (vocabulary mismatch problem).

En 1989, Scott Deerwester, et. Al (US-4839853) presentaron un método para solucionar el problema de la incompatibilidad del vocabulario en recuperación de información, basado en el cálculo de una estructura semántica latente. El método, usualmente conocido como Análisis Semántico Latente (LSA) es un método basado en corpus que comienza por la creación de una matriz de términos-documentos, entonces, tomando cada uno de los "renglones" (tiAT) de la matriz, una nueva matriz (XAT)(X) es producida. La nueva matriz contiene información sobre cómo cada término se relaciona con los otros, en términos de su frecuencia total en los documentos. Finalmente, al factorizar la matriz (XAT)(X) por el método de Descomposición de Valor Singular (SVD) y asumiendo un número fijo de dimensiones, se obtienen tres matrices derivadas U, V y Sigma, donde: X = (U) (Sigma)(VAT) En la expresión resultante, las matrices U y V, proporcionan una representación espacial de la relación semántica entre términos y documentos, de tal forma que la similaridad semántica de los términos puede ser calculada como distancia coseno en la matriz U, y la similaridad semántica de los documentos como distancia coseno de vectores en la matriz VAT.

Una de las principales contribuciones del método de LSA es que mostró la factibilidad de la solución al problema de la incompatibilidad de vocabulario utilizando una estructura semántica latente, sin embargo, la representación espacial de la estructura semántica es computacionalmente compleja y limita la aplicación del método en colecciones mayores a unos cuantos miles de documentos.

Además, el método tiene como desventaja el alto costo de las actualizaciones, ya que al introducir un nuevo documento en la colección, toda la matriz debe ser recalculada. Más aún, en virtud de la representación espacial, el método LSA no puede manejar la polisemia, es decir, el hecho de que una palabra aparezca cerca de otras no permite concluir que dicha palabra posea distintos significados.

Posteriormente, construyendo sobre las bases del método LSA, Hoffman (US06687696) desarrolló un nuevo sistema para mejorar la recuperación de información y generar recomendaciones personalizadas. El modelo de Hoffman fue llamado Indexamiento Latente Semántico Probabilístico (PLSI) y aunque se inspiró en el principio de LSA pero lo replanteó aplicando fundamentos estadísticos.

En PLSI, cada documento es modelado como una "bolsa de palabras" (bag of words), donde se asume que cada palabra fue generada con una cierta probabilidad por un tópico oculto, y consecuentemente, el documento habría sido generado por un cierto número de tópicos a partir de una distribución de probabilidad. En virtud de este supuesto, PLSI es considerado un "modelo generativo", que puede ser expresado de la siguiente manera: P(d,w) = [Suma sobre tópicos z] P(z)P(w|z)P(d|z).

Así, el problema de encontrar la estructura semántica se convierte en el problema de definir una distribución de probabilidad para cada clase latente, P(z) y para cada una de las palabras en la clase P(w|z). Con dichas entradas, también es factible calcular la mezcla de tópicos o clases para un documento, esto es P(z|d).

A fin de realizar esta tarea, el método PLSI propone la maximización de la función de verosimilitud (likelihood function) utilizando un algoritmo de maximización de expectativas, EM. El algoritmo EM intenta maximizar: L = [Suma sobre documentos] [Suma sobre palabras] n(d,w) log P(d,w) Aunque PLSI implica algunas mejoras en términos de perplejidad con respecto a LSA y tiene la importante ventaja de no requerir la reconstrucción completa del modelo para realizar análisis sobre documentos no vistos, la construcción del modelo es computacionalmente costosa y no es factible para analizar colecciones en el orden de millones de documentos, como el internet. Otra limitación de PLSI es que el número de clases latentes o tópicos es un número arbitrario, y que dicho número requiere ser pequeño a que tal cantidad es determinante de la complejidad computacional del método.

Por lo tanto, la invención propuesta cumple un objetivo comparable en tanto que permite extraer la estructura latente de colecciones de documentos y efectuar cálculos de similaridad semántica, mediante un algoritmo y una representación simplificada de tópicos definida como "contextos semánticos". El método presentado hace uso de métricas de teoría de información, índices de búsqueda y algoritmos de optimización local para extraer un número desconocido de tópicos y puede ser escalado a colecciones de documentos mucho más grandes.

Uno de los retos en la publicidad en línea es proveer al cliente anuncios muy relevantes. Mientras más relevante sea el anuncio para la persona que navega en internet, más probable es que dicha persona siga la liga de dicho anuncio y finalmente haga alguna transacción comercial. Actualmente, los sistemas más modernos operan bajo un esquema de subasta en el cual los anunciantes seleccionan palabras clave, y colocan pujas en la subasta para conseguir que su publicidad sea desplegada. El sistema trata de maximizar la relevancia de los anuncios, con base en el contenido del documento electrónico siendo leído por el usuario en ese momento o bien por las consultas colocadas por usuarios buscadores de Internet.

El proceso de crear campañas de anuncios no es trivial para el anunciante, ya que se le pide que escoja manualmente las variantes de las palabras clave que dispararán el despliegue del anuncio. En este proceso, los siguientes tres problemas pueden ocurrir: 1. La selección de palabras clave es difícil. Por ejemplo, frecuentemente el anunciante no elige suficientes palabras clave relacionadas para su campaña.

Esto conlleva una baja exposición de la campaña. 2. La selección de palabras clave está sujeta a ambigüedad, porque el anunciante puede elegir palabras clave que tienen múltiples significados, esto es, palabras polisémicas. Esta situación puede causar que el anuncio sea presentado en situaciones donde no es relevante. 3. El anunciante puede elegir por error palabras no relacionadas. Como en el caso anterior, esto puede llevar a presentar anuncios irrelevantes, lo que redunda en un costo por oportunidades perdidas tanto para el anunciante como para el operador del sistema.

El sistema y método presentado en esta invención incrementa la relevancia de los anuncios presentados al usuario, al relacionar semánticamente los anuncios ocn los documentos electrónicos que están siendo leídos por un usuario en un momento dado. El método de relación semántica que es realizado por el sistema utiliza las propiedades estadísticas del lenguaje, y por ello es capaz de detectar similaridad semántica de un par dado de documentos (uno de los cuales puede ser un anuncio), que no necesariamente comparten términos en común, pero que de hecho se relacionan con los mismos conceptos.

BREVE DESCRIPCIÓN DE LAS FIGURAS Figura 1. Diagrama de flujo ilustrando el método general de impresión de anuncios, Figura 2. Diagrama de flujo detallado ilustrando el proceso, Figura 3. Diagrama de flujo detallado ilustrando el proceso de extracción de tópicos de la colección.

DESCRIPCION DETALLADA DE LA INVENCION La Figura 1 es un diagrama de flujo que ilustra el método general de impresión de anuncios. Asume un procesamiento previo (descrito, en la figura 3) de identificación de tópicos (1), que produce una estructura de datos identificada como "Estructura de tópicos" (2). También asume que una colección de anuncios candidatos ha sido almacenada en la base de datos (3) y que los tópicos han sido identificados utilizando los métodos descritos posteriormente en este documento. Una vez que esto ha sido realizado, el sistema puede ser ejecutado por un usuario de la siguiente manera: Supóngase que el usuario consulta un documento electrónico, típicamente una página web (4). En seguida, el sistema asocia (5) los tópicos de los anuncios candidatos con aquellos relacionados con el documento en cuestión y genera una lista de anuncios relacionados (6), que corresponden a los mismos tópicos que el documento consultado por el usuario (4).

La Figura 2 es un diagrama de flujo detallado ilustrando el proceso seguido por el sistema presentado en esta invención. El primer paso a realizar es el pre-procesamiento de los términos de los documentos (8). El pre-procesamiento se realiza secuencialmente, tomando cada documento de la colección y aplicando las siguientes transformaciones. Cuando un documento es pre-procesado, la primera fase consiste en separar el documento en sentencias, de acuerdo a la puntuación y a los separadores de hipertexto tales como saltos de línea, tablas y etiquetas de título. Entonces, las sentencias son reducidas a listas de palabras, eliminando aquellas con 'funciones lingüísticas, tales como artículos, pronombres, adverbios y similares, normalmente conocidas como "stop- words". Por ejemplo, la sentencia en idioma inglés: "The quick brown fox jumps over the lazy dog" se reduce a la lista: {quick, brown, fox, jumps, lazy, dog} . Al conjunto de todos los términos relevantes incluidos en el documento se le llama "vocabulario".

Posteriormente, como parte de la fase de pre-procesamiento (8), se crea un índice invertido. El índice invertido es un mapeo entre cada término y los identifícadores de los documentos que contienen ese término. Los índices invertidos son una técnica de dominio general en el campo de recuperación de información para localizar eficientemente los documentos que contienen un término determinado. Adicionalmente, una tabla de términos es construida. Cada registro en la tabla de términos contiene información adicional sobre cada uno de ellos, por ejemplo, su identificador único numérico (llamado, term-id), la frecuencia del término (número de documentos en los que aparece dicho término) y la frecuencia por sentencia del término (número de sentencias en las que dicho término aparece).

Otra fase de preparación necesaria es la generación de una matriz de co-ocurrencias de términos. En dicha matriz, tanto las columnas (j) como los renglones (i) corresponden a los términos del vocabulario, y en las celdas (i j) de la misma se almacena el número de ocurrencias en la misma sentencia de los términos i e j. A la aparición de dos términos en una misma sentencia se le llama co-ocurrencia. Solo aquellos términos con una frecuencia superior a un cierto nivel son tomadas en cuenta para alimentar la matriz, en otras palabras, sólo aquellos términos que aparecen un mínimo número de sentencias son almacenadas en la base de datos.

Una vez finalizada la construcción de la matriz, ésta es almacenada en la base de datos (3) de tal manera que su información pueda ser utilizada por los procesos mencionados en la figura 2 (7) y finaliza el paso (8) de pre-procesamiento.

El siguiente paso es la construcción del conjunto de Tópicos (9), que es previo al uso del sistema por el usuario final. La construcción del conjunto de tópicos se ilustra en la figura 3 y será descrita posteriormente en este documento. Por el momento, considerar cada tópico o tema en el documento representado por un "Contexto semántico" que está definido por un conjunto de k términos W= {wl,... wk} . Los términos en un contexto semántico son las palabras que juntas describen de la "mejor" forma un tópico dado, en donde el significado exacto de "mejor" será explicado en breve. Al conjunto de k palabras W también se le llama "core". Los términos en un core no contienen elementos generales del lenguaje, como artículos, preposiciones o adverbios como resultado del pre-procesamiento descrito en (8). DW representa el conjunto de documentos que contienen todos los términos en W. Los documentos DW se consideran semánticamente cercanos entre sí. La principal característica que distingue un "core" de un conjunto arbitrario de términos k del vocabulario es que la métrica llamada fuerza es máxima cuando se aplica en ellos. Entonces, la fórmula de "fuerza" es el criterio para determinar lo que es un core. La fuerza se define a su vez, mediante la siguiente fórmula: } D{W) En la formula mencionada, c es una constante de escala, J(W) es la frecuencia conjunta de las palabras, que es el número de documentos en las cuales todas las palabreas del conjunto W co-ocurren. El término D(W) representa la cantidad definida como "frecuencia disjunta", que es la suma de las magnitudes de cada uno de los conjuntos disjuntos del documentos donde el iésimo-término sin que co-ocurra con ninguna de las palabras restantes en el conjunto W.

El proceso para obtener cores, es decir, los conjuntos de k términos con fuerza máxima, se explica mediante la figura 3 y se presenta al término de la explicación de la figura 2. Asumiendo que el cálculo de los cores se ha completado, y que la información de los cores ha sido almacenada en la base de datos (3), el proceso continúa en la figura 2, con el cálculo del vector de pesos de tópicos (10). Para cada core descubierto, un vector con pesos se calculará a fin de determinar su similaridad con cualquier documento, como se explicará después.

En esta fase, un vector con pesos (ti,wi), (t2,w2), (tn,wn) de los términos para cada uno de los tópicos es calculado, donde para cada término t¡, su peso w¡ representa la importancia del término t¡ en el tópico considerado.

Para calcular el vector de pasos para ada tópico, se recuperan los socumentos que coinciden con la consulta represrentada por el "core" correspondiente (es decir, el conjunto de documentos DW que contienen todeas las palabras del core). Para llevar a cabo este cáflculo, cada documento se representa como un vector de términos con la frecuencia de cada término en el documento, es decir, [(ti,fij), (t2,f2j), (tn,fnj) ] para un documento j. Luego, todas las frecuencias para los documentos en DW son sumadas, obteniendo un vector [(ti, f|,i+fii2+...),(t2, f2>i+f2,2+...) , (tn, fn,i+fn,2+...)]. En este vector, se aplica la fórmula est+ándar TF-IDF para calcular el peso de cada término con respecto al core. La formula de TF-IDF es: Donde w¡j es el peso del término i e el documento j, y if(i,j) es la cantidad de ocurrencias del término i en el documento j; N representa el número total de documentos en el corpus y n¡ es el número de documentos en los que el término i ocurre; log es una función logarítmica. Una vez que se ha completado este paso, se lleva a cabo una normalización dividiendo cada peso entre la suma de pesos, lo que resulta en un vector unitario.

En la siguiente fase, el sistema calcula la similaridad de los anuncios con los tópicos (1 1). Para ello se calcula un vector de términos con pesos para cada uno de los anuncios, utilizando un proceso similar al que construye los vectores para cada tópico (10) descrito anteriormente. Posteriormente, la similaridad entre el vector del anuncio y el vector del tópico se calculada para cada uno de los vectores de tópicos. Esta similaridad se obtiene con la "distancia coseno" estándar, que no es sino el producto escalar de los vectores dividido entre el producto de lsus magnitudes. Dicho número provee una medida de la similaridad de cada anuncio con cada tópico. Luego, una base de datos (3) se forma con las similaridades entre cada anuncio con cada uno de los tópicos. Para un anuncio "d", un "Vector de similaridad de tópicos" Td será un vector de la forma (Ti,wi), (T2,w2), (Tn,wn), donde T¡ son los tópicos y w¡ los pesos, que son recíprocos de la distancia coseno entre el anuncio d y el tópico T¡. Esto finaliza el cálculo de la similaridad entre anuncios y tópicos (1 1).

Después de que se han completado las fases previamente descritas, el sistema puede recibir documentos web a través de la red (¡2). Puede ser que la petición del usuario contenga la dirección del documento remoto residente en la red, o que el texto completo del documento esté local mente disponible, por lo tanto, para determinar el caso, se realiza una prueba para verificar si el documento está disponible (13) en la base de datos (los documentos que estuvieron en algún momento en la base, pero expiraron, no se consideran disponibles ¡ocalmente). Si el documento se encuentra efectivamente en la base de datos, el método recupera su vector de tópicos (16) de la base de tópicos por documento. Si no, el nuevo documento se almacena en el índice y en la base de datos (14) y se utiliza el método para calcular su similaridad con los tópicos (15), esto es: construir un vector de términos con pesos para el documento, calcular la similaridad del vector del documento con cada uno de los vectores de tópicos y almacenar los resultados en la base de tópicos-documentos.

En cualquiera de los dos casos, después de que el cálculo de la similaridad de los documentos con los tópicos ( 15) o la recuperación del vector de tópicos del documento (16), el método procede a ordenar los anuncios (17) para el documento consultado por el usuario; que será referido como "d". Para tal efecto, el método primero selecciona los anuncios candidatos usando un criterio de pre-selección. Para cada uno de estos anuncios candidatos, se recupera su vector de tópicos de la base de datos, Finalmente, la distancia coseno es calculada entre cada vector anuncio-tópicos y el vector de tópicos del documento "d", y los resultados (distancias) ordenados en forma ascendente, de tal forma que las distancias más pequeñas aparecerán primero. El procedimiento termina cuando se genera la lista ordenada de anuncios (18).

La Figura 3 es un diagrama de flujo que ilustra el proceso de extracción de tópicos de la colección. Comienza con un conjunto dado de documentos pre-procesados (19), que pueden ser parte del repositorio de una organización o ser una muestra de una colección muy grande como la Internet; el pre-procesamiento fue descrito en secciones anteriores (8), incluyendo la eliminación de términos no esenciales, separación de frases, construcción de vectores de frecuencias de términos y construcción de la matriz de coocurrencias de términos, por ejemplo. El resultado de este proceso es un conjunto de "cores" (esto es, conjuntos de k términos, donde k es un entero pequeño, típicamente 3 o 4) de fuerza máxima, empleando la medida definida en la fórmula anteriormente descrita.

En seguida, en el cálculo de semillas (2), para cada documento de la colección, un grupo inicial de k términos llamado "semilla" es obtenido tomando los k términos con mayor TF-IDF para dicho documento. Luego se lleva a cabo la parte central del método, que es el proceso de refinamiento de cores (21). Los cores iniciales son las semillas calculadas en la fase previa. En la fase actual, cada uno de los cores es sistemáticamente modificado, cambiando uno de sus términos para probar si la fuerza de la variante resultante se incrementa; de ser el caso, la variante toma el lugar del core del que procede y el core original es desechado; de no ser el caso, una nueva variante es probada. LA complejidad de éste paso radica en evitar probar demasiadas variaciones, ya que en principio, si existen n términos en el vocabulario (típicamente varios miles), entonces existen n! / K! (n-k)! posibles variantes, que es un número intratable inclusive para un valor pequeño de l .

En este punto, la matriz de co-ocurrencias sirve para evitar probar cada combinación posible de términos; el procedimiento descrito considera únicamente los términos con un nivel significativo de co-ocurrencias con los k-1 términos restantes en el core, esto es, sólo los términos con co-ocurrencias por encima de un nivel predeterminado son candidatos a reemplazar un término del core. Una vez que todos los términos candidatos viables han sido probados para cada uno de los términos del core, sin conseguir incrementar la fuerza, se asegura que el core tiene máxima fuerza. Cuando dos o más cores siendo refinados resultan idénticos, entonces dichos cores son integrados en uno solo. Así, el procedimiento produce como resultado final una colección de cores únicos con máxima fuerza (22).

Claims

REINVIDICACIONES Habiendo presentado la invención que es novedosa y describiéndola suficientemente, reivindicamos como nuestra propiedad exclusiva:

1. Un método para recuperar un subconjunto relevante de anuncios, teniendo un sistema de recuperación de información que recupera el conjunto de anuncios textuales dado el contenido de un documento, que está caracterizado por comprender las siguientes etapas: (a) Identificar los tópicos existentes en una colección de documentos web; (b) Asociar anuncios textuales con los tópicos extraídos aplicando una métrica de similaridad semántica; (c) Asociar el documento con los tópicos mencionados aplicando una métrica de similaridad semántica; (d) Ordenar semánticamente los anuncios recuperados para un documento dado.

2. El método para recuperar un subconjunto relevante de anuncios, teniendo un sistema de recuperación de información que recupera el conjunto de anuncios textuales dado el contenido de un documento, de acuerdo a la reivindicación 1, en su sub-etapa (a) que consiste en identificar los tópicos existentes en una colección de documentos web, comprende las siguientes sub-etapas: (a) Compilar una colección de documentos; (b) Construir un índice de términos por documento; (c) Construir una matriz de término-por-término; (d) Extraer los tópicos de cada uno de los documentos; (e) Construir un vector con pesos para cada uno de los tópicos en la base de datos, Tv.

El método para recuperar un subconjunto relevante de anuncios, teniendo un sistema de recuperación de información que recupera el conjunto de anuncios textuales dado el contenido de un documento, de acuerdo a la reivindicación 2, en su sub-etapa (b) que consiste en construir un índice de términos por documento, comprende las siguientes sub-etapas: (a) Identificar las sentencias existentes en cada uno de los documentos de la colección; (b) Eliminar palabras no significativas (stop-words) de los términos de cada sentencia; (c) Acumular la suma de sentencias en que ocurre cada término; (d) Acumular la suma de documentos en las que ocurre cada término; (e) Mantener la lista de documentos en las que cada término ocurre.

El método para recuperar un subconjunto relevante de anuncios, teniendo un sistema de recuperación de información que recupera el conjunto de anuncios textuales dado el contenido de un documento, de acuerdo a la reivindicación 2, en su sub-etapa (c) que consiste en acumular la suma de sentencias en que ocurre cada término, comprende las siguientes sub-etapas: (a) Generar mapeos término-a-término para cada una de las combinaciones de palabras de cada sentencia; (b) Acumular la suma de las co-ocurrencias término-a-término en la celda correspondiente de la matriz; (c) Acumular la suma de co-ocurrencias por documento en la celda de la matriz de término-a-término;

El método para recuperar un subconjunto relevante de anuncios, teniendo un sistema de recuperación de información que recupera el conjunto de anuncios textuales dado el contenido de un documento, de acuerdo a la reivindicación 2, en su sub-etapa (d) que consiste en extraer los tópicos de cada uno de los documentos, comprende las siguientes sub-etapas: (a) Calcular un vector de frecuencias de términos, con cada uno de los términos del documento; (b) Calcular un nuevo vector normalizado con pesos, para cada uno de los términos en el vector de frecuencias de términos; (c) Generar un conjunto semilla de términos; (d) Reemplazar iterativamente cada uno de los términos del conjunto semilla por el término que produzca la mayor evaluación de fuerza; (e) Almacenar la combinación de 3-términos con máxima evaluación de fuerza en la base de datos de tópicos.

El método para recuperar un subconjunto relevante de anuncios, teniendo un sistema de recuperación de información que recupera el conjunto de anuncios textuales dado el contenido del documento, de acuerdo a la reivindicación 5, en su sub-etapa (d) que consiste en reemplazar iterativamente cada uno de los términos del conjunto semilla por el término que produzca la mayor evaluación de fuerza que comprende la utilización de la matriz de término-a-término para seleccionar los k términos ordenados por la suma de sus co-ocurrencias por sentencia en orden descendiente, siendo k una constante entera arbitraria.

El método para recuperar un subconjunto relevante de anuncios, teniendo un sistema de recuperación de información que recupera el conjunto de anuncios textuales dado el contenido de un documento, de acuerdo a la reivindicación 5, en su sub-etapa (d) que consiste en reemplazar iterativamente cada uno de los términos del conjunto semilla por el término que produzca la mayor evaluación de fuerza que comprende el cálculo de la métrica de fuerza para cada uno de los reemplazos candidatos, que consiste en las siguientes sub-etapas: (a) Contar el número de documentos en donde las 3 palabras aparecen simultáneamente, identificado como J; (b) Contar el número de documentos en donde la primer palabra ocurre, pero la segunda y tercera no ocurren, identificando dicha cantidad como di; (c) Contar el número de documentos en donde la segunda palabra ocurre, pero la primera y la tercera no ocurren, identificando dicha cantidad como d2; (d) Contar el número de documentos en donde la tercera palabra ocurre, pero la primera y la segunda palabra no ocurren, identificando dicha cantidad como d3; (e) Eliminar la fuerza del conjunto, identificada como F, dividiendo J entre el resultado de la suma de dl+d2+d3.

8. El método para recuperar un subconjunto relevante de anuncios, teniendo un sistema de recuperación de información que recupera el conjunto de anuncios textuales dado el contenido de un documento, de acuerdo a la reivindicación 5, en su sub-etapa (d) que consiste en reemplazar iterativamente cada uno de los términos del conjunto semilla por el término que produzca la mayor evaluación de fuerza que comprende la utilización del índice de términos-por-documento.

9. El método para recuperar un subconjunto relevante de anuncios, teniendo un sistema de recuperación de información que recupera el conjunto de anuncios textuales dado el contenido de un documento, de acuerdo a la reivindicación 5, en su sub-etapa (b), que consiste en calcular un nuevo vector normalizado con pesos, para cada uno de los términos en el vector de frecuencias de términos, comprende las siguientes sub-etapas: (a) Recuperar el número total de documentos existentes en el índice de términos- por-documento, N; (b) Recuperar el número total de documentos en donde el dicho término ocurre, F; (c) Asignar el resultado de la fórmula w*log(N/F), donde w representa el peso actual del vector como nuevo peso para el vector.

10. El método para recuperar un subconjunto relevante de anuncios, teniendo un sistema de recuperación de información que recupera el conjunto de anuncios textuales dado el contenido de un documento, de acuerdo a la reivindicación 5, en su sub-etapa (c) que consiste en generar un conjunto semilla de 3 términos, comprende las siguientes sub-etapas: (a) Ordenar los términos por el peso mencionado en orden descendente; (b) Remover aquellos cuyo número total de ocurrencias en el índice es mayor que 5; (c) Seleccionar los 3 mayores como conjunto semilla.

1 1. El método para recuperar un subconjunto relevante de anuncios, teniendo un sistema de recuperación de información que recupera el conjunto de anuncios textuales dado el contenido de un documento, de acuerdo a la reivindicación 1 , en su sub-etapa (b) que consiste en asociar anuncios textuales con los tópicos extraídos aplicando una métrica de similaridad semántica; comprende las siguientes sub-etapas: (a) Construir un vector de términos con pesos para cada uno de los anuncios que serán analizados, incluyendo el título, texto, ligas y palabras clave proporcionadas por el usuario, Av; (b) Calcular la distancia coseno del mencionado vector de anuncios Av, con cada uno de los vectores de tópicos, Tv; (c) Almacenar el vector de similaridad de tópicos resultante en la base de datos anuncios-tópicos.

12. El método para recuperar un subconjunto relevante de anuncios, teniendo un sistema de recuperación de información que recupera el conjunto de anuncios textuales dado el contenido de un documento, de acuerdo a la reivindicación 1 , en su sub-etapa (c) que consiste en asociar el documento con los tópicos mencionados aplicando una métrica de similaridad semántica, comprende las siguientes sub-etapas: (a) Construir un vector de términos con pesos para el documento a ser analizado, Dv; (b) Calcular la distancia coseno del mencionado vector de anuncios Dv, con cada uno de los vectores de tópicos, Tv; (c) Almacenar el vector-columna de similaridad de tópicos en la base de datos de documentos-tópicos.

13. El método para recuperar un subconjunto relevante de anuncios, teniendo un sistema de recuperación de información que recupera el conjunto de anuncios textuales dado el contenido de un documento, de acuerdo a la reivindicación 2, en su sub-etapa (e) que consiste en construir un vector con pesos para cada uno de los tópicos en la base de datos, Tv, comprende las siguientes sub-etapas: (a) Encontrar todos los documentos en los cuales las 3 palabras del tópico coocurren, D; (b) Construir un vector de frecuencias de términos para cada uno de los documentos recuperados; (c) Calcular la suma vectorial de cada uno de los vectores de frecuencia mencionados y obtener un nuevo vector de frecuencias Tf , donde cada uno de los pesos de los términos es la suma de frecuencias del término en el conjunto D; (d) Calcular un nuevo conjunto de pesos W, aplicando una función de normalización a cada uno de los pesos del vector Tfv.

14. El método para recuperar un subconjunto relevante de anuncios, teniendo un sistema de recuperación de información que recupera el conjunto de anuncios textuales dado el contenido de un documento, de acuerdo a la reivindicación 13, en su sub-etapa (d) que consiste en calcular un nuevo conjunto de pesos W, aplicando una función de normalización a cada uno de los pesos del vector Tfv, comprende las siguiente sub-etapas: (a) Recuperar el número total de documentos existentes en el índice de términos- por-documento, N; (b) Recuperar el número total de documentos en los cuales el término dado ocurre F; (c) Asignar el resultado de la fórmula w*log(N/F), donde w representa el peso actual del término, al nuevo peso del mismo en el vector.

15. El método para recuperar un subconjunto relevante de anuncios, teniendo un sistema de recuperación de información que recupera el conjunto de anuncios textuales dado el contenido de un documento, de acuerdo a la reivindicación 1, en su sub-etapa (d) que consiste en ordenar semánticamente los anuncios recuperados para un documento dado, comprende las siguientes sub-etapas: (a) Generar una lista de anuncios candidatos, seleccionando aquellos que pertenecen a los mismos tópicos que el documento; (b) Recuperar el vector columna normalizado para cada uno de los anuncios candidatos de la base de datos anuncios-tópicos; (c) Recuperar los vectores de tópicos asociados al documento bajo análisis, V; (d) Construir la matriz de similaridad de anuncios-tópicos A, trasponiendo todos los vectores de similaridad de anuncios-tópicos, es decir, [f(al), f(a2). ..f(a3)AT; (e) Recuperar el vector columna de similaridad documento-tópico de la base de datos documentos-tópicos, para el documento en consideración, T; (f) Calcular el vector columna R, multiplicando la matriz de anuncios-tópicos A, por el vector columna de tópicos documentos T, es decir, R= AxT; (g) Obtener el orden de los anuncios semánticamente al ordenar los elementos del vector columna R.