MX2008010488A - Propagacion de relevancia de documentos etiquetados a documentos no estiquetados - Google Patents
Propagacion de relevancia de documentos etiquetados a documentos no estiquetadosInfo
- Publication number
- MX2008010488A MX2008010488A MXMX/A/2008/010488A MX2008010488A MX2008010488A MX 2008010488 A MX2008010488 A MX 2008010488A MX 2008010488 A MX2008010488 A MX 2008010488A MX 2008010488 A MX2008010488 A MX 2008010488A
- Authority
- MX
- Mexico
- Prior art keywords
- documents
- relevance
- component
- similarity
- pages
- Prior art date
Links
- 230000001902 propagating Effects 0.000 title claims abstract description 12
- 230000000644 propagated Effects 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 25
- 238000004422 calculation algorithm Methods 0.000 claims description 23
- 238000010276 construction Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 4
- 238000007635 classification algorithm Methods 0.000 claims 1
- 238000000034 method Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 230000003044 adaptive Effects 0.000 description 5
- 238000002360 preparation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000000875 corresponding Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002452 interceptive Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000001537 neural Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000002104 routine Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Abstract
Se proporcionan un método y sistema para propagar la relevancia de documentos etiquetados a una consulta a documentos no etiquetados. El sistema de propagación proporciona datos de entrenamiento que incluyen consultas, documentos etiquetados con su relevancia a las consultas, y documentos no etiquetados. El sistema de propagación después calcula la similitud entre pares de documentos en los datos de entrenamiento. El sistema de propagación después propaga la relevancia de los documentos etiquetados a documentos similares, pero no etiquetados. El sistema de propagación puede propagar iterativamente etiquetas de los documentos hasta que las etiquetas convergen en una solución. Los datos de entrenamiento con la relevancia propagada después pueden utilizarse para entrenar una función de clasificación.
Description
PROPAGACION DE RELEVANCIA DE DOCUMENTOS ETIQUETADOS A DOCUMENTOS NO ETIQUETADOS
ANTECEDENTES
Muchos servicios de máquina de búsqueda, tal como Google y Overture, proporcionan búsqueda de información que es accesible a través de Internet. Estos servicios de máquina de búsqueda permiten a los usuarios buscar páginas de presentación, tal como páginas web, que pueden ser de interés para usuarios. Después que un usuario envía una solicitud de búsqueda (es decir, una consulta) que incluye términos de búsqueda, el servicio de motor de búsqueda identifica páginas web que pueden relacionarse con esos términos de búsqueda. Para identificar rápidamente páginas web relacionadas, los servicios de motor de búsqueda pueden mantener un delineado de palabras clave a páginas web. Este delineado puede generarse al "arrastrar" la web (es decir, la Gran Red Mundial) para identificar palabras clave de cada página web. Para arrastrar la web, un servicio de motor de búsqueda puede utilizar una lista de páginas web de raíz para identificar todas las páginas web que son accesibles a través de esas páginas web de raíz. Las palabras clave de cualquier página web particular pueden identificarse utilizando varias técnicas de recuperación de información bien conocidas, tal como identificar las palabras de un encabezado, las palabras suministradas en los metadatos de la página web, las palabras que se resaltan, y asi sucesivamente. El servicio de motor de búsqueda identifica páginas web que pueden relacionarse con la solicitud de búsqueda basada en que también coinciden las palabras clave de una página de búsqueda con las palabras de la consulta. El servicio de motor de búsqueda entonces presenta al usuario enlaces a las páginas web identificadas en un orden que se basa en una clasificación que puede determinarse por su relevancia a la consulta, popularidad, importancia, y/o alguna otra medida. Tres técnicas bien conocidas para clasificar páginas web son Clasificación de Página, HITS ("Búsqueda de Tema Inducida por Hipervínculo"), y HIT Directo. La Clasificación de Página se basa en el principio que las páginas web tendrán enlaces a (es decir, "enlaces salientes") de páginas web importantes. De esa forma, la importancia de una página web se basa en el número e importancia de otras páginas web que se enlazan a esa página web (es decir, "enlaces de entrada"). En una forma simple, los enlaces entre páginas web pueden representarse por matriz adyacente A, en donde A¡j representa el número de enlaces de salida de la página web i a la página web j. La marca de importancia w¡ para página web j puede representarse por la siguiente ecuación: Esta ecuación puede resolverse por cálculos iterativos basados en la siguiente ecuación: ATw = w en donde w es el vector de marcas de importancia para las páginas web y es el principal vector característico de AT. La técnica de HITS se basa adicionalmente en el principio que una página web que tiene muchos enlaces a otras páginas web importantes por si misma puede ser importante. De esa forma, HITS divide "importancia" de páginas web en dos atributos relacionados: "central" y "autoridad". "Central" se mide por la "autoridad" de las páginas web a las que se enlaza una página web, y "autoridad" se mide por la marca de "central" de las páginas web que se enlazan a una página web. En contraste a Clasificación de Página, que calcula la importancia de páginas web independientemente de la consulta, HITS calcula importancia basada en las páginas web del resultado y páginas web que se relacionan con las páginas web del resultado al seguir los enlaces de entrada y salida. HITS envía una consulta un servicio de motor de búsqueda y utiliza las páginas web del resultado como el grupo inicial de páginas web. HITS agrega al grupo esas páginas web que fueron los destinos de enlaces de entrada y aquellas páginas web que fueron las fuentes de enlaces de salida de las páginas web del resultado. HITS entonces calcula la autoridad y marca de central de cada página web que utiliza un algoritmo iterativo. La autoridad y las marcas de central pueden representarse por las siguientes ecuaciones:
en donde a(p) representa la marca de autoridad para página web p y h(p) representa la marca de central para la página web p. HITS utiliza una matriz adyacente A para representar los enlaces. La matriz adyacente se representa por la siguiente ecuación:
si pagina i tiene una unión de pagina j, de otra manera
Los vectores a y h corresponden a la autoridad y marcas de central, respectivamente, de todas las páginas web en el grupo y pueden representarse por las siguientes ecuaciones: a= ATh y h= Aa De esa forma, a y h son vectores característicos de matrices ATA y AAT . HITS también puede modificarse para factor en la popularidad de una página web como medida por el número de visitas. Basándose en un análisis de datos de clic, b¡j de la matriz adyacente puede aumentarse en cualquier momento que un usuario viaja de página web i a página web j. HIT directo clasifica páginas basándose en historial de usuario pasado con resultados de consulta similares. Por ejemplo, si un usuario que envía consulta similares típicamente seleccionó primero la tercer página web del resultado, entonces su historial de usuarios será una indicación que la tercera página web debe clasificarse superior. Como otro ejemplo, si el usuario que envía consultas similares típicamente gasta la mayoría del tiempo al ver la cuarta página web del resultado, entonces este historial de usuario será una indicación para que la cuarta página deba clasificarse superior. HIT directo deriva los historiales de usuario de análisis de datos de clic.
Algunas técnicas de clasificación utilizan algoritmos de aprendizaje de máquina para aprender una función de clasificación de datos de entrenamiento que incluye consultas, vectores de característica que representan páginas, y para consulta, una clasificación para cada página web. Una función de clasificación sirve como un delineado de características de una página web a su clasificación para una consulta dada. El aprendizaje de una función de clasificación se consideró por algún como un problema de regresión para aprender el delineado de un vector de característica a un miembro de un grupo ordenado de clasificaciones numéricas. Algunas técnicas basadas en regresión intentan proporcionar una marca de relevancia absoluta que puede utilizarse para clasificar páginas. Una función de clasificación, sin embargo, no necesita proporcionar una marca de relevancia absoluta sino que necesita sólo proporcionar una clasificación relativa de las páginas. De esa forma, estas técnicas basadas en regresión resuelven un problema que es más difícil que necesario. Los algoritmos de aprendizaje de máquina para una función de clasificación utilizan consultas, vectores de característica, y marcas de relevancia etiquetadas por usuario como datos de entrenamiento. Para generar los datos de entrenamiento, las consultas pueden enviarse a una máquina de búsqueda que genera las páginas del resultado de búsqueda. Los algoritmos entonces generan los vectores de característica para las páginas y entradas de un usuario de las marcas de relevancia para cada página. Una dificultad con tal acercamiento es que un motor de búsqueda puede regresar cientos de páginas como su resultado de búsqueda. Puede ser muy costoso tener una etiqueta de usuario de todas las páginas de un resultado de búsqueda. Además, puede ser difícil que un usuario valore exactamente la relevancia de tal gran número de páginas. Aunque un usuario sólo puede etiquetar una pequeña porción de las páginas, el aprendizaje basado en tal porción pequeña puede no proporcionar una función de clasificación exacta.
BREVE DESCRIPCION DE LA INVENCION
Se proporciona un método y sistema para propagar la relevancia de documentos etiquetados a una consulta para la relevancia de documentos no etiquetados. El sistema de propagación proporciona datos de entrenamiento que incluyen consultas, documentos etiquetados con su relevancia a las consultas, y documentos no etiquetados. El sistema de propagación entonces calculan las similitudes entre pares de documentos en los datos de entrenamiento. El sistema de propagación entonces propaga la relevancia de los documentos etiquetados con documentos similares, pero no etiquetados. El sistema de propagación puede propagar iterativamente etiquetas de los documentos hasta que las etiquetas cubren una solución. Los datos de entrenamiento con las relevancias propagadas entonces pueden utilizarse para entrenar una función de clasificación . Esta breve descripción se proporciona para introducir una selección de conceptos en una forma simplificada que además se describe posteriormente en la descripción detallada. Esta breve descripción no pretende identificar características claves o características esenciales del tema reclamado, ni se pretende utilizar como un auxiliar al determinar el alcance del tema reclamado.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
La Figura 1 es un diagrama que ilustra una porción de un gráfico de documentos. La Figura 2 es un diagrama de bloques que ilustra componentes de sistema de propagación en una modalidad. La Figura 3 es un diagrama de flujo que ilustra el procesamiento de componente de función de clasificación para crear del sistema de propagación en una modalidad. La Figura 4 es un diagrama de flujo que ilustra el procesamiento del componente de relevancia de propagar del sistema de propagación en una modalidad. La Figura 5 de un diagrama de flujo que ilustra el procesamiento del componente de gráfico para construir de sistema de propagación en una modalidad. La Figura 6 es un diagrama de flujo que ilustra el procesamiento de los pesos para generar para el componente de gráficos del sistema de propagación en una modalidad. La Figura 7 es un diagrama de flujo que ilustra el procesamiento de tos pesos para normalizar del componente de gráficos del sistema de propagación en una modalidad. La Figura 8 es un diagrama de flujo que ilustra el procesamiento de la relevancia para propagar basada en componente de gráficos del sistema de propagación en una modalidad.
DESCRIPCIÓN DETALLADA
Se proporcionan un método y sistema para propagar relevancia de documentos etiquetados a una consulta para documentos no etiquetados. En una modalidad, el sistema de propagación proporciona datos de entrenamiento que incluyen consultas, documentos (representado por vectores de característica) etiquetados con su relevancia a las consultas, y documentos no etiquetados. Por ejemplo, el sistema de preparación puede enviar una consulta a una máquina de búsqueda y utiliza el resultado de búsqueda como los documentos (por ejemplo, páginas web). El sistema de propagación entonces puede impulsar a un usuario a etiquetar algunos de los documentos del resultado de búsqueda basándose en su relevancia a la consulta. El sistema de propagación entonces calcula la similitud entre pares de documentos en los datos de entrenamiento. Por ejemplo, el sistema de propagación puede representar cada documento por un lector de característica y puede calcular la similitud entre documentos basados en la distancia euclidiana en el espacio característico o basado en una métrica de similitud del coseno. El sistema de propagación entonces propaga la relevancia de los documentos etiquetados a documentos similares, pero no etiquetados. El sistema de propagación puede propagar iterativamente etiquetas de los documentos hasta que las etiquetas llevan a una solución. Los datos de entrenamiento con las relevancias propagadas entonces pueden utilizarse para entrenar una función de clasificación. De esta forma, el sistema de propagación puede aumentar automáticamente datos de entrenamiento con datos de entrenamiento adicionales basándose en similitudes entre documentos. En una modalidad, el sistema de propagación representa los documentos utilizando un gráfico de documento con cada nodo que representa un documento y cada borde que representa similitud entre los documentos representados por los nodos conectados. El sistema de propagación puede representar el gráfico como una matriz cuadrada con una fila y columna para cada documento en la cual valor no cero indica un borde entre el nodo de la fila y el nodo de la columna. El sistema de propagación puede definir bordes para el gráfico que utiliza varias técnicas. Por ejemplo, el sistema de propagación puede considerar el gráfico para conectarse completamente con casos de cada nodo que tienen un borde a cada otro nodo. Como otro ejemplo, el sistema de propagación puede considerar los nodos para conectarse a través de un árbol de espacio mínimo. En una modalidad, el sistema de propagación considera los modos para conectarse al utilizar un algoritmo vecino más cercano a k. En particular, el sistema de propagación identifica los vecinos más cercanos k para cada nodo y agrega un borde de este nuevo a cada uno de sus vecinos más cercanos k. El sistema de propagación entonces calcula de pesos para los bordes basándose en la similitud entre los documentos representados por los bordes conectados. El sistema de propagación puede utilizar varias técnicas para determinar la similitud entre documentos. De una modalidad, el sistema de propagación utiliza una métrica de distancia euclidiana basada en vector de característica de los documentos en un espacio de característica. El sistema de propagación almacena la similitud como los valores de la matriz cuadrada que resultan en una similitud o matriz de afinidad. El sistema de preparación también puede normalizar la matriz de similitud. El sistema de propagación también puede establecer los valores de diagonal a cero para prevenir regreso durante propagación de relevancia. Después de generar la matriz de similitud, el sistema de propagación propaga la relevancia de los documentos etiquetados a los documentos no etiquetados al utilizar una clasificación múltiple basada en algoritmo de propagación. Una clasificación múltiple basada en algoritmo se describe en He, J. Li, M., Zhang, H.J., y otros, "Clasificación Múltiple basada en recuperación de imagen", Proc. de la 12va conferencia internacional de ACM anual en multimedia, 2004. El sistema de propagación inicialmente establece la relevancia de los documentos etiquetados a la marca de relevancia proporcionada por el usuario y la relevancia de los documentos no etiquetados a 0. El sistema de propagación entonces distribuye la relevancia de los documentos etiquetados a sus documentos no etiquetados conectados que factorizan la similitud como síndico por la matriz de similitud. El sistema de propagación iterativamente distribuye la marca de relevancia hasta que las marcas de relevancia se transportan en una solución. Las marcas de relevancia resultantes de los documentos no etiquetados se harán en proporción a la probabilidad que es relevante a la misma consulta que los documentos etiquetados. Un documento no etiquetado que es muy similar a muchos documentos etiquetados con marcas de alta relevancia de esa forma tendrá una marca de alta relevancia. De forma inversa, un documento no etiquetado que no es muy similar a alguno de los documentos etiquetados tendrá una marca de baja relevancia. El sistema de propagación puede representar similitud al utilizar un núcleo de Laplace, que puede representarse por la siguiente ecuación:
x ¡ j y jj representan la lva dimensión de x¡ y x¡ respectivamente, t representa las dimensiones del espacio de característica, y o¡ representa un parámetro positivo que refleja los pesos de diferentes dimensiones en el cálculo de similitud. De esa forma, el sistema de propagación representa el peso de los bordes por la siguiente ecuación:
en donde Wij representa la similitud entre documentos i y j. El sistema de propagación puede omitir el coeficiente constante 1/2s? ya que este efecto en la matriz e similitud W contra actuará por la normalización de la matriz. El sistema de propagación normaliza la matriz de similitud como se representó por la siguiente ecuación: S = D 2WD /2 (3) en donde S representa la matriz de similitud normalizada y D representa una matriz diagonal en donde (i, i) es igual a la suma de la ava fila de matriz de similitud W. La normalización normaliza las similitudes para ser relativas a la similitud de los documentos conectados. El sistema de propagación puede representar cada documento como un vector x de característica de dimensión t que forma un punto en el espacio euclidiano. Para una consulta, el sistema de propagación recibe el grupo de resultado de documentos X = {x¡j, x¡2, ... Xim , xui- *u2, ··¦ un} el'. Los primeros m puntos (en espacio de característica) representan documentos etiquetados por usuario, y los últimos n puntos (en espacio de característica) representan documentos no etiquetados. El sistema de propagación también recibe un vector de etiqueta correspondiente y = {y¡¡, y¡2 , ·¦· y¡m. 0, 0, ... 0}T. Las últimas n etiquetas tienen el valor de 0 para representar documentos no etiquetados. El sistema de propagación también puede permitir la especificación de etiquetas negativas, más que sólo etiquetas positivas, para representar ejemplos negativos de relevancia. El sistema de propagación representa distancia entre documentos en espacio de característica como d : X x X ? ., que asigna cada par de puntos x¡ y j una distancia d(x¡ , Xj) , y representa una función de clasificación de los documentos como f:x?D, que asigna a cada punto x¡ una marca de clasificación f¡. El problema de aprendizaje de función de clasificación es aprender f:X?D de un grupo de consultas con las características X = {xy} y las etiquetas = {yq}. El sistema de propagación representa el límite de la propagación de relevancia por la siguiente ecuación: f* = (1-a)(l-aS)'1y (4) en donde f* representa el límite de la relevancia, y representa las etiquetas iniciales, y a representa un factor de deterioro. Debido a que es computacionalmente difícil calcular la inversa de la matriz de similitud normalizada S, el sistema de propagación aproxima f* que utiliza una expansión de serie de Taylor. El sistema de propagación puede representar la expansión de serie de Taylor por la siguiente ecuación: f* = (l-aS) 1y = (l+ aS + a2S2+...)y (5) = y + aSy + aS(aSy) + ... El sistema de propagación iterativamente resuelve f* hasta que cubre una solución o para un número fijo de iteraciones. Una vez que se propagan la relevancia, el sistema de etiquetado de propagación puede utilizar los grupos de datos de entrenamiento (vectores de característica de consulta y etiquetados) para entrenar una función de clasificación. Una función de clasificación puede implementarse como una máquina de vector de soporte, un clasificador de inicio adaptativo, un clasificador de red neural, y así sucesivamente. Una máquina director de soporte opera al encontrar una híper superficie en el espacio de entradas posibles. Los intentos de híper superficie para dividir los ejemplos positivos de los ejemplos negativos al maximizar distancia entre los más cercanos de los ejemplos positivos y negativos a la híper superficie. Esto permite la clasificación correcta de datos que son similares pero no idénticos a los datos de entrenamiento. Pueden utilizarse varias técnicas para entrenar una máquina director de soporte. Una técnica utiliza un algoritmo de optimización mínimo secuencíal que divide el problema de programación cuadrátíco grande en una serie de problemas de programación cuadráticos pequeños que pueden resolverse analíticamente. (Ver optimización mínima secuencíal, en http://búsqueda. microsoft.com/~iplatt/sm o. html. ) El inicio adaptivo es un procedimiento interactivo que corre múltiples pruebas en una colección de datos de entrenamiento. El inicio adaptivo transforma un algoritmo de aprendizaje débil (un algoritmo que realiza en un nivel sólo ligeramente mejor que la oportunidad) en un algoritmo de aprendizaje fuerte (un algoritmo que presenta un índice de error bajo). El algoritmo de aprendizaje débil corre en diferentes subgrupos de los datos de entrenamiento. El algoritmo concentra más y más de esos ejemplos en los cuales los predecesores tienden a mostrar errores. El algoritmo corrige los errores hechos por aprendizajes débiles previos. El algoritmo es adaptable debido a que ajusta los índices de error de sus predecesores. El inicio adaptivo combina aproximadamente y moderadamente reglas imprecisas de vistas pequeñas para crear un algoritmo de alto desempeño. El inicio adaptivo combina los resultados de cada prueba de funcionamiento de forma separada en un clasificador individual, muy preciso. Un modelo de red neural tiene tres componentes mayores: arquitectura, función de costo, y algoritmo de búsqueda. La arquitectura define la forma funcional que se relaciona a las entradas y a las salidas (en términos de topología de red, conectividad de unidad, y funciones de activación) la búsqueda en espacio de peso para un grupo de pesos que minimiza la función objetivo es el procedimiento de entrenamiento. Un modelo de red neural puede utilizar una red de función de base radial ("RBF") y un gradiente estándar descendente como su técnica de búsqueda. La Figura 1 es un diagrama que ilustra un gráfico de documentos regresados como el resultado de búsqueda de una consulta. En este ejemplo, el subgráfico 100 representa una porción de los documentos regresados en el resultado de búsqueda. Los nodos 101-112 representan 12 documentos del resultado de búsqueda. Los nodos 101 y 106 representan documentos etiquetados. El documento representado por el nodo 101 se etiquetó con la marca de relevancia de .75, y el documento representado por el nodo 106 se etiquetó con la marca de relevancia de .6. El sistema de propagación generado de los bordes entre los nodos que utiliza un algoritmo vecino más cercano. En este ejemplo, los nodos 102, 103, y 104 cada uno son de los vecinos más cercanos k al 101, pero los nodos 105-112 no son uno de los vecinos más cercanos k. El sistema de propagación entonces calculó la similitud entre nodos conectados que utilizan un algoritmo de marca de similitud. Por ejemplo, el nodo 101 se conecta al nodo 102 con un borde con el peso de .8, que indica similitud entre los nodos conectados. La Figura 2 es un diagrama de bloques que ilustra componentes del sistema de propagación en una modalidad. El sistema de propagación 230 se conecta a los almacenamientos de documento 210 (por ejemplo, sitios web) a través de enlace de comunicaciones 220 (por ejemplo, Internet). El sistema de propagación incluye un componente de datos de entrenamiento para recolectar 231, un almacenamiento de datos de entrenamiento 232, y un índice de documento 233. El índice de documento contiene un índice de documentos (por ejemplo, páginas web) en los almacenamientos de documento. El índice de documento puede generarse por un arrastre web. El índice de documento puede incluir un vector de característica para cada documento que se utiliza para entrenar una función de clasificación. Los vectores de característica pueden representar muchos tipos diferentes de características de documentos tal como frecuencia de documento inverso, palabras clave, tamaño de fuente, y así sucesivamente. El componente de datos de entrenamiento para recolectar envía consultas a un motor de búsqueda (no mostrado), y recibe documentos que coinciden con las consultas. La máquina de búsqueda puede ser independiente de sistema de propagación. En tal caso, el sistema de propagación puede generar vectores característicos dinámicamente de resultados de búsqueda. El componente de datos de entrenamiento de recolección puede impulsar un usuario a etiquetar la relevancia de algunos de los documentos que coinciden con las consultas. El componente de datos de entrenamiento para recolectar almacena las consultas, resultados de búsqueda (por ejemplo, vectores de característica), y etiquetas en el almacenamiento de datos de entrenamiento. El sistema de propagación también incluye un componente de relevancia para propagar 235, un componente de gráfico de construcción 236, pesos para generar de componente gráfico 237, pesos para normalizar de componente de gráficos 238, y una relevancia para propagar basada en el componente de gráfico 239. El componente de relevancia para propagar propaga la relevancia de los documentos etiquetados a los documentos no etiquetados que se almacenan en el almacenamiento de datos de entrenamiento. El componente de relevancia para propagar invoca al componente de gráficos de construcción para construir un gráfico que incluye bordes que representan los documentos de un resultado de búsqueda. El componente de relevancia para propagar entonces invoca los pesos para generar de componente de gráfico para generar los pesos iniciales para los bordes del gráfico. El componente para propagar relevancia invoca los pesos para normalizar de componente de gráfico para normalizar los pesos generados. El componente para propagar relevancia entonces invoca la relevancia para propagar basada en componente de gráfico para realizar la propagación real de la relevancia de los documentos etiquetados a los documentos no etiquetados. El sistema de propagación también incluye un componente de función de clasificación para crear 241 y una función de clasificación 242. La función de clasificación para crear utiliza los datos de entrenamiento con la relevancia propagada para crear una función de clasificación.
Los dispositivos de cómputo en los cuales puede implementarse el sistema de propagación pueden incluir una unidad de procesamiento central, memoria, dispositivos de entrada (por ejemplo, teclado y dispositivo de señalamiento), dispositivos de salida (por ejemplo, dispositivos de presentación), y dispositivos de almacenamiento (por ejemplo, unidades de disco). La memoria y los dispositivos de almacenamiento son medios legibles por computadora que pueden contener instrucciones que implementan el sistema de propagación. Además, las estructuras de datos y estructuras de mensaje pueden almacenarse o transmitirse a través de los medios de transmisión de datos, tal como una señal en un enlace de comunicaciones. Pueden utilizarse varios enlaces de comunicaciones, tal como Internet, una red de área local, una red de ancha, o una conexión de marcación de punto a punto. El sistema de propagación puede proporcionar servicios a varios sistemas o dispositivos de cómputo que incluyen computadoras personales, computadoras de servidor, dispositivos móviles o portátiles, sistemas de multiprocesador, sistemas a base de microprocesador, electrónica de consumidor programable, PCs de red, minicomputadoras, macro computadoras, ambientes de cómputo distribuido de que incluyen cualquiera de los sistemas o dispositivos anteriores, y similares. El sistema de propagación puede describirse en el contexto general de instrucciones ejecutables por computadora, tal como módulos de programa, ejecutados por una o más computadoras u otros dispositivos. Generalmente, los módulos de programa incluyen rutinas, programas, objetos, componentes, estructuras de datos, y así sucesivamente que realizan tareas particulares o implementan tipos de datos abstractos particulares. Típicamente, la funcionalidad de los módulos de programa puede combinarse o distribuirse como se desee en varias modalidades. La Figura 3 es un diagrama de flujo que ilustra el procesamiento de componente de función de clasificación para crear del sistema de propagación en una modalidad. El componente de función de clasificación para crear recolecta datos de entrenamiento, propaga la relevancia de los documentos etiquetados a documentos no etiquetados, y entonces entrena una función de clasificación. En el bloque 301, el componente recolecta los datos de entrenamiento. En el bloque 302, el componente ingresa etiquetas para un subgrupo de los datos de entrenamiento. En el bloque 303, el componente invoca el componente para propagar relevancia, para propagar la relevancia de los documentos etiquetados a los documentos no etiquetados. En el bloque 304, el componente entrena la función de clasificación que utiliza las relevancias propagadas. La Figura 4 es un diagrama de flujo que ilustra el procesamiento de componente para propagar relevancia del sistema de propagación en una modalidad. El componente se proporciona con datos de entrenamiento y propaga la relevancia de los documentos de los documentos etiquetados a los documentos no etiquetados. En el bloque 401, el componente invoca el componente de gráficos de construcción para construir el gráfico inicial que incluye bordes. En el bloque 402, el componente invoca para generar pesos para componente de gráfico para generar pesos que indican la similitud entre documentos representados por nodos conectados. En el bloque 403, el componente invoca los pesos para normalizar de componente de gráficos para normalizar los pesos del gráfico. En el bloque 404, el componente invoca la relevancia para propagar basada en componente de gráfico para realizar la propagación de la relevancia. El componente entonces regresa. La Figura 5 es un drama de flujo que ilustra el procesamiento del componente de gráficos para construir de sistema de propagación en una modalidad. El componente crea una matriz cuadrada con cada fila y columna que representa un documento. El componente entonces identifica y agrega una conexión entre cada nodo y sus vecinos más cercanos k (por ejemplo, k = 10 ) . En el bloque 501, el componente selecciona el siguiente documento i. En el bloque de decisión 502, todos los documentos i ya se seleccionaron, entonces el componente regresa, también el componente continúa en el bloque 503. En el bloque 503, el componente selecciona el siguiente documento j. En el bloque de decisión 504, si todos los documentos j para el documento seleccionado i ya se seleccionaron, entonces el componente continúa en el bloque 506, también el componente continúa en el bloque 505. En el bloque 505, el componente calcula la distancia entre el documento seleccionado i y el documento seleccionado j y después gira al bloque 503 para seleccionar el siguiente documento j. En el bloque 506, el componente selecciona los 10 documentos j de la distancia más pequeña para un documento i (es decir, los vecinos más cercanos) y entonces gira al bloque 501 para seleccionar el siguiente documento i. La Figura 6 es un diagrama de flujo ilustra el procesamiento de los pesos para generar para componente de tráfico del sistema de propagación en una modalidad. El componente calcula la similitud entre documentos conectados basándose en una métrica de Manhattan. En el bloque 601, el componente selecciona el siguiente documento i. En el bloque de decisión 602, si todos los documentos i ya se seleccionaron, entonces el componente regresa, también el componente continúa en bloque 603. En el bloque 603, el componente inicia la similitud del documento por sí mismo a 0. En el bloque 604, el componente selecciona el siguiente documento más cercano j (es decir, un documento conectado) al documento seleccionado i. En el bloque de decisión 605, si todos los documentos más cercanos j para el documento seleccionado i ya se seleccionaron, entonces el componente gira al bloque 601 para seleccionar el siguiente documento i, también el componente continúa en el bloque 606. En el bloque 606, el componente inicia la similitud entre el documento seleccionado i y el documento seleccionado j a 1. En los bloques 607-609, el componente gira al calcular la métrica de distancia. En el bloque 607, el componente selecciona la siguiente dimensión I del vector de característica. En el bloque de decisión 608, si todas las dimensiones ya se seleccionaron, entonces el componente gira al bloque 604 para seleccionar el siguiente documento más cercano j, también el componente continúa en el bloque 609. En el bloque 609, el componente establece la similitud entre el documento seleccionado i y el documento seleccionado j a su similitud actual multiplicado por una función de la diferencia entre la característica seleccionada I del documento seleccionado i y el documento seleccionado j de acuerdo con la Ecuación 2. El componente entonces gira al bloque 607 para seleccionar la siguiente dimensión. La Figura 7 es un diagrama de flujo que ilustra el procesamiento de los pesos para normalizar el componente de gráficos del sistema de propagación en una modalidad. El componente normaliza los pesos de la matriz de similitud. En el bloque 701, el componente selecciona la siguiente fila i de la matriz. En el bloque de decisión 702, si todas las filas ya se seleccionaron, entonces el componente continúa en el bloque 706, también el componente continúa en el bloque 703. En los bloques 703-705, el componente calcula el valor de la matriz diagonal D para la fila seleccionada. En el bloque 703, el componente selecciona la siguiente columna j de la matriz de similitud. En el bloque de decisión 704, si todas las columnas ya se seleccionaron, entonces el componente gira al bloque 701 para seleccionar la siguiente fila, también el componente continúa en el bloque 705. En el bloque 705, el componente agrega los pesos de la fila seleccionada i y la columna seleccionada j al elemento diagonal para la fila seleccionada i. El componente entonces gira al bloque 703 para seleccionar la siguiente columna j para la fila seleccionada i. En el bloque 706, el componente normaliza la matriz de similitud de acuerdo con la Ecuación 3. La Figura 8 es un diagrama de flujo que ilustra el procedimiento de la relevancia para propagar basándose en el componente de gráfico del sistema de preparación en la modalidad. El componente iterativamente calcula la expansión de serie de Taylor de la Ecuación 5 hasta que converge en una solución. En el bloque 801, el componente inicia el índice i a 0. En el bloque 802, el componente inicia el vector de solución a 0. En los bloque 803-805, el componente gira hasta que converge en una solución. En el bloque 803, el componente calcula el valor para la siguiente iteración basándose en el valor de la iteración previa más el siguiente factor de la expansión en serie de Taylor. En el bloque de decisión 804, si los valores convergen en una solución, entonces el componente regresa, también el componente continúa en el bloque 805. En el 805, el componente incrementa el índice de la siguiente iteración y gira de nuevo al bloque 803 para realizar la siguiente iteración. Aunque el tema se describe en lenguaje específico a características estructurales y/o actos metodológicos, se debe entender que el tema definido en las reivindicaciones anexas no necesariamente se limita a las características específicas o actos descritos anteriormente. Más que eso, las características específicas y actos descritos anteriormente se describen como formas ilustrativas para implementar las reivindicaciones. El sistema de propagación puede utilizarse para aumentar resultados de búsqueda. Por ejemplo, la máquina de búsqueda puede generar un resultado de búsqueda basándose en cierto cuerpo de documentos. La relevancia de los documentos del resultado de búsqueda entonces puede propagarse a documentos de un cuerpo diferente que utiliza el sistema de propagación. Los documentos del diferente cuerpo con la relevancia superior entonces pueden agregarse al resultado de búsqueda. El sistema de propagación por utilizarse para propagar relevancia de documentos etiquetados con su relevancia a una consulta individual a documentos etiquetados (propagación intra-consulta) o de documentos etiquetados con su relevancia a múltiples consultas a documentos no etiquetados (propagación de interconsulta). El componente de propagación entrena el componente entrenamiento de forma separada para cada consulta con propagación de intra-consulta y simultáneamente para consultas con propagación de inter-consulta. Por consiguiente, la invención no se limita excepto por la reivindicaciones anexas.
Claims (1)
1 - Un sistema para propagar relevancia de documentos etiquetados a documentos no etiquetados, que comprende: un almacenamiento de documento (232) que contiene representaciones de documentos, algunos de los documentos siendo etiquetados con relevancia a una consulta y otros de los documentos no siendo etiquetados con relevancia a la consulta; un componente de gráfico (236) que crea un gráfico de los documentos con los documentos representados como nodos que se conectan por bordes que representan similitud entre documentos; y un componente de relevancia para propagar (239) que propaga relevancia de los documentos etiquetados a los documentos no etiquetados basándose en la similitud entre documentos como se indica por la similitud representada por los bordes del gráfico. 2.- El sistema acuerdo con la reivindicación 1, en donde el componente de gráfico incluye: un componente de gráfico de construcción que construye un gráfico en el cual los nodos que representan documentos similares se conectan a través de bordes; un componente de pesos de generación que genera pesos para los bordes basándose en similitud de los documentos representados por los nodos conectados; y un componente de pesos de normalización que normaliza los pesos del gráfico. 3. - El sistema de acuerdo con la reivindicación 2, en donde el componente de gráfico de construcción establece bordes entre nodos utilizando un algoritmo vecino más cercano. 4. - El sistema acuerdo con la reivindicación 3, en donde el algoritmo vecino más cercano utiliza una métrica de distancia euclidiana. 5. - El sistema acuerdo con la reivindicación 3, en donde el componente de gráfico de construcción conecta un nodo a sus 10 vecinos más cercanos. 6.- El sistema acuerdo con la reivindicación 2, en donde el componente de gráfico de construcción establece bordes entre cada par de nodos. 7. - El sistema de acuerdo con la reivindicación 2, en donde el componente de gráfico de construcción establece bordes entre nodos para crear un árbol de espacio mínimo. 8. - El sistema acuerdo con la reivindicación 1, en donde la relevancia de los documentos etiquetados se genera al buscar documentos relacionados con la consulta en un cuerpo de documentos y los documentos no etiquetados no se incluyen en el cuerpo de documentos. 9. - El sistema acuerdo con la reivindicación 1, en donde el componente de propagar relevancia propaga relevancia utilizando un algoritmo basado en clasificación múltiple. 10. - El sistema acuerdo con la reivindicación 1, en donde el componente de propagar relevancia propaga relevancia de acuerdo con la siguiente ecuación: f* = (1-a)(l-aS) 1y en donde f* representa un vector de relevancia propagado, S es una matriz de similitud, y representa un vector de relevancia inicial, y a representa un índice de caída. 11. - El sistema acuerdo con la reivindicación 1, en donde el componente de propagar relevancia propaga relevancia de acuerdo con la siguiente ecuación: f* = (l + aS + a2S2+... +aNSN)y en donde f* representa un vector de relevancia propagado, S es una matriz de similitud, y representa un vector de relevancia inicial, y a representa un índice de caída, en donde n representa un exponente para el cual f* converge en una solución. 12. - Un sistema para propagar relevancia de página etiquetada a una consulta a páginas no etiquetadas a la consulta, que comprende: un almacenamiento de página (232) que contiene representaciones de páginas, algunas de las páginas siendo etiquetadas con relevancia a una consulta y otras de las páginas no siendo etiquetadas con relevancia a la consulta; un componente de gráfico que crea un gráfico de las páginas con las páginas representadas como nodos conectadas por bordes que representan similitud entre las páginas, incluyendo: un componente de gráfico de construcción (236) que construye un gráfico al cual se conectan los nodos que representan páginas similares a través de bordes; y un componente de generar pesos (237) que genera pesos para los bordes basándose en similitud de las páginas representadas por los nodos conectados; y un componente de propagar relevancia (239) que propaga relevancia de las páginas etiquetadas a las páginas no etiquetadas basándose en la similitud entre páginas como se indica por la similitud representada por los bordes del gráfico y basándose en un algoritmo de clasificación múltiple. 13.- El sistema de acuerdo con la reivindicación 12, en donde el componente de gráfico de construcción establece bordes entre nodos utilizando un algoritmo vecino más cercano. 14. - El sistema alguno con la reivindicación 13, en donde el algoritmo vecino más cercano utiliza una métrica de distancia euclidiana. 15. - El sistema acuerdo con la reivindicación 13, en donde el componente de gráfico de construcción conecta un nodo a sus 10 vecinos más cercanos. 16 - El sistema acuerdo con la reivindicación 12, en donde el componente de generar pesos utiliza una métrica de distancia de Manhattan para representar la similitud entre páginas. 17.- El sistema acuerdo con la reivindicación 12, en donde cada página está representada por un vector de característica y la similitud entre páginas está representada por distancia en vector de espacio de característica. 18. - Un medio legible por computadora que contiene instrucciones para controlar un sistema de computadora para propagar relevancia de documentos a una consulta a otros documentos, a través de un método que comprende: crear (236) un gráfico de los documentos representados como nodos conectados por bordes que tienen pesos que representan similitud entre documentos; y propagar (239) la relevancia de los documentos etiquetados a los documentos no etiquetados basándose en los pesos de los bordes entre nodos utilizando un algoritmo basado en clasificación múltiple. 19. - El medio legible por computadora de acuerdo con la reivindicación 18, en donde la propagación de relevancia de los documentos etiquetados incluye utilizar una expansión de Taylor para iterativamente resolver la siguiente ecuación: f* = (1-a)(l-aS)"1y 20. - En medio legible por computadora de acuerdo con la reivindicación 18, en donde la creación del gráfico incluye conectar bordes utilizando un algoritmo vecino más cercano y establecer el peso de un borde basándose en distancia entre documentos representados por los nodos conectados al borde.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11364807 | 2006-02-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
MX2008010488A true MX2008010488A (es) | 2008-10-03 |
Family
ID=
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8019763B2 (en) | Propagating relevance from labeled documents to unlabeled documents | |
US8001121B2 (en) | Training a ranking function using propagated document relevance | |
US7363279B2 (en) | Method and system for calculating importance of a block within a display page | |
US9135308B2 (en) | Topic relevant abbreviations | |
RU2383922C2 (ru) | Способ и система для ранжирования документов результата поиска для повышения уровня разнообразия и информационной насыщенности | |
US7519588B2 (en) | Keyword characterization and application | |
US10755179B2 (en) | Methods and apparatus for identifying concepts corresponding to input information | |
US20070005588A1 (en) | Determining relevance using queries as surrogate content | |
US20080147669A1 (en) | Detecting web spam from changes to links of web sites | |
US20080027912A1 (en) | Learning a document ranking function using fidelity-based error measurements | |
US20110040752A1 (en) | Using categorical metadata to rank search results | |
Leake et al. | Aiding knowledge capture by searching for extensions of knowledge models | |
US7617194B2 (en) | Supervised ranking of vertices of a directed graph | |
US8484193B2 (en) | Look-ahead document ranking system | |
US7774340B2 (en) | Method and system for calculating document importance using document classifications | |
Lieberam-Schmidt | Analyzing and influencing search engine results: business and technology impacts on Web information retrieval | |
MX2008010488A (es) | Propagacion de relevancia de documentos etiquetados a documentos no estiquetados | |
MX2008010485A (es) | Entrenamiento de una funcion de clasificacion utilizando relevancia propaganda de documento | |
Jiang et al. | Mining product relationships for recommendation based on cloud service data | |
Kailasam | Using document similarity networks to evaluate retrieval systems |