MX2013005056A

MX2013005056A - Enfoque multimodal para entrada de busqueda de consulta.

Info

Publication number: MX2013005056A
Application number: MX2013005056A
Authority: MX
Inventors: Heung-Yeung Shum; Lei Zhang; Jiyang Liu; Jian Sun; Xiaosong Yang; Yu-Ting Kuo; Yi Li; Qifa Ke; Ce Liu
Original assignee: Microsoft Corp
Priority date: 2010-11-05
Filing date: 2011-10-31
Publication date: 2013-06-28
Also published as: IN2013CN03029A; EP2635984A1; EP2635984A4; US20120117051A1; IL225831A0; CN102402593A; KR20130142121A; TW201220099A; AU2011323602A1; RU2013119973A; JP2013541793A; WO2012061275A1

Abstract

Se utilizan consultas de búsqueda de contienen múltiples modos de entrada de consulta para identificar resultados en respuesta. Las consultas de búsqueda pueden estar compuestas de combinaciones de palabra clave o entrada de texto, o entrada de imagen, o entrada de video, entrada de audio, u otros modos de entrada. Los modos múltiples de entrada de consulta pueden presentarse en una solicitud de búsqueda inicial, o una solicitud inicial que contiene un solo tipo de entrada de consulta que puede suplementarse con un segundo tipo de entrada. Además de proporcionar resultados en respuesta, en algunas modalidades pueden hacerse refinaciones o sugerencias de consulta adicionales basándose en el contenido de la consulta o los resultados inicialmente en respuesta.

Description

ENFOQUE MULT1MODAL PARA ENTRADA DE BUSQUEDA DE CONSULTA ANTECEDENTES Varios métodos para búsqueda y recuperación de información, tales como por un buscador a través de una red de área ancha, son conocidos en la técnica. Tales métodos típicamente emplean búsqueda basada en texto. La búsqueda basada en texto emplea una consulta de buscar que comprende uno o más elementos textuales tales como palabras o frases. Los elementos textuales se comparan con un índice u otra estructura de datos para identificar documentos tales como páginas web que incluyen contenido textual coincidente o semánticamente similar, metadatos, nombres de archivo, u otras representaciones textuales.

Los métodos conocidos de búsqueda basada en texto trabajan relativamente bien para documentos basados en texto, sin embargo son difíciles de aplicar a archivos de imagen y datos. Con el fin de buscar archivos de imagen a través de una consulta basada en texto, el archivo de imagen debe asociarse con uno o más elementos textuales, tales como un título, nombre de archivo, u otros metadatos o etiquetas. Los buscadores y algoritmos empleados para búsqueda basada en texto no pueden buscar archivos de imagen basados en el contenido de la imagen y de esa forma, están limitados a identificar imágenes de resultado de búsqueda basadas únicamente en los datos asociados con las imágenes.

Se han desarrollado métodos para búsqueda basada en contenido de imágenes que analizan el contenido de una imagen para identificar imágenes visualmente similares. Sin embargo, tales métodos pueden estar limitados con respecto a identificar documentos basados en texto que son relevantes para la entrada de la búsqueda de imagen.

BREVE DESCRIPCION DE LA INVENCION En varias modalidades, se proporcionan métodos para utilizar modos múltiples de entrada como parte de una consulta de búsqueda. Los métodos permiten consultas de búsqueda compuestas de combinaciones de palabra clave o entrada de texto, entrada de imagen, entrada de video, entrada de audio, u otros modos de entrada. Una búsqueda de documentos en respuesta entonces puede realizarse basándose en características extraídas de los varios modos de entrada de consulta. Los múltiples modos de entrada de consulta pueden estar presentes en una solicitud de búsqueda inicial, o una solicitud inicial que contiene un solo tipo de entrada de consulta puede complementarse con un segundo tipo de entrada. Además de proporcionar resultados en respuesta, en algunas modalidades pueden hacerse refinaciones o sugerencias de consulta adicionales basadas en el contenido de la consulta o los resultados inicialmente en respuesta.

Esta breve descripción se proporciona para introducir una selección de conceptos en una forma simplificada que además se describe a continuación en la descripción detallada. Esta breve descripción no pretende identificar características clave o características esenciales del tema reclamado, ni pretende utilizarse como un auxiliar, en aislamiento, al determinar el alcance del tema reclamado.

BREVE DESCRIPCION DE LOS DIBUJOS La invención se describe con detalle a continuación con referencia a las figuras anexas, en donde: La Figura 1 es un diagrama de bloques de un ambiente de cómputo ilustrativo adecuado para usarse para ¡mplementar modalidades de la presente invención.

La Figura 2 muestra esquemáticamente un ambiente de red adecuado para realizar modalidades de la invención.

La Figura 3 muestra esquemáticamente un ejemplo de los componentes de una ¡nterfase de usuario de acuerdo con una modalidad de la invención.

La Figura 4 muestra la relación entre varios componentes y procedimientos involucrados para realizar una modalidad de la invención .

Las Figuras 5-9 muestran un ejemplo de extracción de características de imagen de una imagen de acuerdo con una modalidad de la invención.

Las Figuras 10-12 muestran ejemplos de métodos de acuerdo con varias modalidades de la invención.

DESCRIPCION DETALLADA Vista general En varias modalidades, se proporcionan sistemas y métodos para integrar entrada de búsqueda basada en palabra clave o texto con otros modos de entrada de búsqueda. Ejemplos de otros modos de entrada de búsqueda pueden incluir entrada de imagen, entrada de video, y entrada de audio. Más generalmente, los sistemas y métodos pueden permitir la realización de búsquedas basada en múltiples modos de entrada en la consulta. Las modalidades resultantes de sistemas y métodos de búsqueda multimodal pueden proporcionar a un usuario mayor flexibilidad al proporcionar entrada a un buscador. Adicionalmente, cuando un usuario inicia una búsqueda con un tipo de entrada, tal entrada de imagen, un segundo tipo de entrada (u otros múltiples tipos de entrada) entonces pueden utilizarse para retinar o de otra forma modificar los resultados de búsqueda en respuesta. Por ejemplo, un usuario puede ingresar una o más palabras clave para asociar con una entrada de imagen. En muchas situaciones, la asociación de palabras clave adicionales con una entrada de imagen puede proporcionar una indicación más clara de la intención del usuario que cualquier entrada de imagen o entrada de palabra clave sola.

En algunas modalidades, la búsqueda de resultados en respuesta basada en una entrada de búsqueda multimodal se realiza utilizando un índice que incluye términos relacionados con más de un tipo de datos, tal con un índice que incluye palabras clave basadas en texto, "palabras clave" basadas en imagen, "palabras clave" basadas en video, y "palabras clave" basadas en audio. Una opción para incorporar "palabras clave" para modos de entrada diferentes a búsqueda basada en texto puede ser correlacionar las características multimodales con palabras clave artificiales. Esas palabras clave artificiales pueden denominarse como palabras clave de descriptor. Por ejemplo, las características de imagen utilizadas para búsqueda basada en imagen pueden correlacionarse con palabras clave de descriptor, para que las características de búsqueda basadas en imagen aparezcan en el mismo índice invertido que las palabras clave basadas en texto tradicionales. Por ejemplo, una imagen del edificio "Space Needle" en Seattle pueden contener una pluralidad de características de imagen. Esas características de imagen pueden extraerse de la imagen, y entonces correlacionarse con las "palabras clave" de descriptor para incorporación en un índice invertido con otros términos de palabra clave basados en texto.

Además de incorporar palabras clave de descriptor en un índice de palabra clave basada en texto, las palabras clave de descriptor de un imagen (u otro tipo de entrada sin texto) también pueden asociarse con los términos de palabra clave tradicionales. En el ejemplo anterior, el término "Space Needle" puede correlacionarse con una o más palabras clave de descriptor de una imagen de la Space Needle. Esto puede permitir consultas sugeridas o revisadas que incluyen las palabras clave de descriptor, y por lo tanto se adecúan mejor para realizar una búsqueda basada en imagen para otras imágenes similares a la imagen de Space Needle. Tales consultas sugeridas pueden proporcionarse al usuario para permitir una búsqueda mejorada de otras imágenes relacionadas con la imagen de Space Needle, o las consultas sugeridas pueden utilizarse automáticamente para identificar tales imágenes relacionadas.

En la discusión a continuación, se utilizan las siguientes definiciones para describir aspectos para realizar una búsqueda multimodal. Una característica se refiere a cualquier tipo de información que puede utilizarse como parte de selección y/o clasificación de un documento como en respuesta a una consulta de búsqueda. Las características de una consulta basada en texto típicamente incluyen palabras clave. Las características de una consulta basada en imagen pueden incluir porciones de una imagen identificada como siendo distintiva, tales como porciones de una imagen que tienen intensidad o porciones contrastantes de una imagen que corresponden a la cara de una persona para reconocimiento facial. Las características de una consulta basada en audio pueden incluir variaciones en el nivel de volumen del audio u otros patrones de audio detectables. Una palabra clave se refiere a un término de búsqueda basado en texto convencional. Una palabra clave puede hacer referencia a una o más palabras que se utilizan como un solo término para identificar un documento en respuesta a una consulta. Una palabra clave de descriptor se refiere a una palabra clave que ha sido asociada con una característica basada en no texto. De esa forma, puede utilizarse una palabra clave de descriptor para identificar una característica basada en imagen, una característica basada en video, una característica basada en audio, u otras características sin texto. Un resultado en respuesta se refiere a cualquier documento que se identifica como relevante para una consulta de búsqueda basada en la selección y/o clasificación realizada por un buscador. Cuando se presenta un resultado en respuesta, el resultado en respuesta puede presentarse al presentar el mismo documento, o un identificador del documento puede presentarse. Por ejemplo, los hipervínculos convencionales, también conocidos como los "enlaces azules" regresados por un buscador basado en texto representan identificadores para, o enlaces a, otros documentos. Al dar clic en un enlace, se puede tener acceso al documento representado. Los identificadores para un documento pueden o no proporcionar información adicional sobre el documento correspondiente.

Recepción de una Consulta de Búsqueda Multimodal Pueden extraerse características de múltiples modos de búsqueda de una consulta y utilizarse pare identificar resultados que son en respuesta a la consulta. En una modalidad, pueden proporcionarse múltiples modos de entrada de consulta mediante cualquier método conveniente. Por ejemplo, una interfase de usuario para recibir una entrada de consulta puede incluir un cuadro de diálogo para recibir una entrada de consulta de palabra clave. La interfase de usuario también puede incluir una ubicación para recibir una imagen seleccionada por el usuario, tal como un cuadro de consulta de imagen que permite a un usuario "dejar caer" una imagen de entrada deseada dentro de la interfase de usuario. Alternativamente, el cuadro de consulta de imagen puede recibir una ubicación de archivo o dirección de red como la fuente de la entrada de imagen. Puede proporcionarse un cuadro o ubicación similar para identificar un archivo de audio, archivo de video, u otro tipo de entrada sin texto para usarse como una entrada de consulta.

Los múltiples modos de entrada de consulta no necesitan recibirse al mismo tiempo. Más bien, pueden proporcionarse primero un tipo de entrada de consulta, y luego un segundo modo de entrada puede proporcionarse para refinar la consulta. Por ejemplo, una imagen de estrella de cine puede enviarse como una entrada de consulta. Esto regresará una serie de resultados coincidentes que probablemente incluyen imágenes. La palabra "actor" entonces puede escribirse en un cuadro de consulta de búsqueda como una palabra clave, con el fin de refinar los resultados de búsqueda basados en el deseo del usuario de saber el nombre de la estrella de cine.

Después de recibir información de búsqueda multimodal, la información multimodal puede utilizarse como una consulta de búsqueda pare identificar resultados en respuesta. Los resultados en respuesta puede ser cualquier tipo de documento determinado como relevante por un buscador, sin importar el modo de entrada de la consulta de búsqueda. De esa forma, pueden identificarse artículos de imagen como documentos en respuesta a una consulta basada en texto, o artículos basados en texto pueden ser documentos en respuesta a una consulta basada en audio. Adiciónalmente, una consulta que incluye más de un modo de entrada también puede utilizarse para identificar resultados en respuesta de cualquier tipo disponible. Los resultados en respuesta presentados a un usuario pueden estar en la forma de los mismos documentos, o en la forma de ¡dentificadores para documentos en respuesta.

Se pueden utilizar uno o más índices para facilitar la identificación de resultados en respuesta. En una modalidad, un solo índice, tal como un índice invertido, puede utilizarse para almacenar palabras clave y palabras clave de descriptor basadas en todo tipo de modos de búsqueda. Alternativamente, un sistema de clasificación individual puede utilizar múltiples índices para almacenar términos o características. Sin importar el número o forma de los índices, el uno o más índices pueden utilizarse como parte de un método de selección y/o clasificación integrado para identificar documentos que son en respuesta a una consulta. El método de selección y/o método de clasificación puede incorporar características basadas en cualquier modo disponible de entrada de consulta.

Las palabras clave basadas en texto que están asociadas con otros tipos de entrada también pueden extraerse para uso. Una opción para incorporar múltiples modos de información puede ser utilizar información de texto asociada con otro modo de entrada de consulta. Una imagen, video, o archivo de audio frecuentemente tendrá metadatos asociados con el archivo. Esto puede incluir el título del archivo, un asunto del archivo, u otro texto asociado con el archivo. El otro texto puede incluir texto que es parte de un documento en donde aparece el archivo de medios como un enlace, tal como una página web, u otro texto que describe el archivo de medios. Los metadatos asociados con una imagen, video, o archivo de audio pueden utilizarse para complementar una entrada de consulta en una variedad de formas. Los metadatos de texto pueden utilizarse para formar sugerencias de consulta adicionales que se proporcionan a un usuario. El texto también puede utilizarse automáticamente para complementar una consulta de búsqueda existente, con el fin de modificar la clasificación de resultados en respuesta.

Además de utilizar metadatos asociados con una consulta de entrada, los metadatos asociados con el resultado en respuesta pueden utilizarse para modificar una consulta de búsqueda. Por ejemplo, una consulta de búsqueda basada en una imagen puede resultar en una imagen conocida de la torre Eiffel como un resultado en respuesta. Los metadatos del resultado en respuesta pueden indicar que la torre Eiffel es el asunto del resultado de imagen en respuesta. Estos metadatos pueden utilizarse para sugerir consultas adicionales para un usuario, o para complementar automáticamente la consulta de búsqueda.

Existen múltiples formas de extraer metadatos. La técnica de extracción de metadatos puede predeterminarse o puede seleccionarse dinámicamente ya sea por una persona o un procedimiento automatizado. Las técnicas de extracción de metadatos pueden incluir, pero no están limitadas a: (1) analizar el nombre de archivo para metadatos incorporados; (2) extraer metadatos del objeto digital duplicado cercano; (3) extraer el texto circundante en una página web en donde se aloja el objeto digital duplicado cercano; (4) extraer anotaciones y comentario asociado con el duplicado cercano de un sitio web que soporta anotaciones y comentario en donde se almacena el objeto de medios digital duplicado cercano; y (5) extraer palabras clave de consulta que estaban asociadas con el duplicado cercano cuando un usuario seleccionó el duplicado cercano después de una consulta de texto. En otras modalidades, las técnicas de extracción de metadatos pueden involucrar otras operaciones.

Algunas de las técnicas de extracción de metadatos inician con un cuerpo de texto y cambian los metadatos más concisos. Por consiguiente, pueden utilizarse técnicas tales como análisis contra una gramática u otro análisis basado en señal. Por ejemplo, el texto circundante para una imagen puede incluir un subtítulo o un párrafo largo. Al menos en el último caso, el párrafo largo puede analizarse para extraer términos de interés. A manera de otro ejemplo, las anotaciones y datos de comentarios son notorios para contener abreviaturas de texto (por ejemplo, IMHO para "en mi humilde opinión") y partículas emotivas (por ejemplo, caritas sonrientes y puntos de exclamación repetidos). IMHO, a pesar de su aparente énfasis en anotaciones y comentarios, probablemente va a ser un candidato para filtrar búsqueda para metadatos.

En el caso que se elijan múltiples técnicas de extracción de metadatos, un método de reconciliación puede mejorar una forma para reconciliar resultados de metadatos candidatos potencialmente en conflicto. La reconciliación puede realizarse, por ejemplo, utilizando análisis estadístico y aprendizaje de máquina o alternativamente a través de procesadores de reglas.

La Figura 3 proporciona un ejemplo de una interfase de usuario adecuada para recibir entrada de búsqueda multimodal y presentar resultados en respuesta de acuerdo con una modalidad de la invención. En la Figura 3, la interfase de usuario proporciona ubicaciones de entrada para tres tipos de entrada de consulta. El cuadro de entrada 311 puede recibir entrada de palabra clave, tal como la entrada basada en texto típicamente utilizada por un buscador convencional. El cuadro de entrada 313 puede recibir un archivo de imagen y/o video como entrada. Un archivo de imagen o video que se analiza o de otra forma se "deja caer" en el cuadro de entrada 313 puede analizarse utilizando técnicas de análisis de imagen para identificar características que pueden extraerse para búsqueda. Similarmente, el cuadro de entrada 315 puede recibir un archivo de audio como entrada.

El área 320 contiene una lista de resultados en respuesta. En la modalidad mostrada en la Figura 3, se muestran actualmente resultados en respuesta 332 y 342. El resultado en respuesta 332 es un identificador, tal como una vista miniatura, para un documento de imagen identificado como una respuesta a una búsqueda. Además del resultado de imagen 332, también se proporciona un enlace o icono 334 para permitir una búsqueda revisada que incorpora el resultado de imagen 332 (o las palabras clave de descriptor asociadas con el resultado de imagen 332) como parte de la consulta revisada. El resultado en respuesta 342 corresponde a un identificador para un documento basado en texto.

El área 340 contiene una lista de consultas sugeridas 347 basadas en la consulta inicial. Las consultas sugeridas 347 pueden generarse utilizando algoritmos de sugerencia de consulta convencionales. Las consultas sugeridas 347 también pueden basarse en metadatos asociados con entrada enviada en la entrada de imagen/video 313 o entrada de audio 315. Incluso otras consultas sugeridas 347 pueden basarse en metadatos asociados con un resultado en respuesta, tal como un resultado en respuesta 332.

La Figura 4 muestra esquemáticamente la interacción de varios sistemas y/o procedimientos para realizar una búsqueda multimodal de acuerdo con una modalidad de la invención. En la modalidad mostrada en la Figura 4, la búsqueda multimodal corresponde a una búsqueda basada en entrada de consulta de palabra clave y entrada de consulta de imagen. En la Figura 4, se inicia una búsqueda basada en recibir una consulta. La consulta incluye palabras clave de consulta 405 e imagen de consulta 407. Para procesar la imagen de consulta 407, puede utilizarse un componente de entendimiento 412 para identificar características dentro de la imagen. A las características extraídas de la imagen de consulta 407 por el componente de entendimiento 412 se les puede asignar palabras clave de descriptor por característica de texto de imagen y componente de característica visual de imagen 422. Un ejemplo de métodos que pueden utilizarse por un componente de entendimiento de imagen 412 se describe a continuación junto con las Figuras 5-9. El componente de entendimiento de imagen 412 también puede incluir otros tipos de métodos de entendimiento de imagen, tales como métodos de reconocimiento facial, o métodos para analizar similitud de color en una imagen. El componente de análisis de metadatos 414 puede identificar metadatos asociados con la imagen de consulta 407. Esto puede incluir información incorporada dentro del archivo de imagen y/o almacenada con el archivo por el sistema operativo, tal como un título para la imagen o anotaciones almacenadas dentro del archivo. Esto también puede incluir otro texto asociado con la imagen, tal como texto en una trayectoria URL que se ingresa para identificar la imagen para usarse en la búsqueda, o texto localizado cerca de la imagen para una imagen localizada en o incorporada en una página web u otro documento basado en texto. La característica de texto de imagen y el componente de característica visual de imagen 422 pueden identificar características de palabra clave basadas en la salida del análisis de metadatos 414.

Después de identificar términos de consulta 405 y cualquiera de las características adicionales en característica de texto de imagen y componente de característica visual de imagen 422, la consulta resultante opcionalmente puede alterarse o expandirse en el componente 432. La alteración o expansión de consulta puede basarse en características derivadas de metadatos en el componente de análisis de metadatos 414 y característica de texto imagen/componente de característica visual de imagen 422. Otra fuente para alteración o expansión de consulta puede retroalimentarse del Componente interactivo Ul 462. Esto puede incluir información de consulta adicional proporcionada por un usuario, así como sugerencias de consulta 442 basadas en los resultados en respuesta de las consultas actuales o previas. La consulta opcionalmente expandida o alterada puede utilizarse para generar resultados en respuesta 452. En la Figura 4, la generación de resultado 452 involucra utilizar la consulta para identificar documentos en respuesta en una base de datos 475, que incluye tanto características de texto como de imagen para los documentos en la base de datos. La base de datos 475 puede representar un índice invertido o cualquier otro tipo conveniente de formato de almacenamiento para identificar resultados en respuesta basados en una consulta.

Dependiendo de la modalidad, la generación de resultado 452 puede proporcionar uno o más tipos de resultados. En algunas situaciones, una identificación de una coincidencia más probable puede ser deseable, tal como uno o pocos resultados en respuesta altamente clasificados. Esto puede proporcionarse como una respuesta 444. Alternativamente, puede ser deseable una lista de resultados en respuesta en un orden clasificado. Esto puede proporcionarse como resultados clasificados combinados 446. Además de una respuesta o resultados clasificados, también puede proporcionarse una o más sugerencias de consulta 442 a un usuario. La interacción con un usuario, incluyendo presentación de resultados y recibo de consultas, puede manejarse por un componente interactivo Ul 462.

Métodos de Búsqueda Basados en Multimedia Las Figuras 5-9 muestran esquemáticamente el procesamiento de una imagen ilustrativa 500 de acuerdo con una modalidad de la invención. En la Figura 5, se procesa una imagen 500 utilizando un algoritmo de operador para identificar una pluralidad de puntos de interés 502. El algoritmo de operador incluye cualquier algoritmo disponible que se puede utilizar para identificar puntos de interés 502 en la imagen 500. En una modalidad, el algoritmo de operador puede ser una diferencia de algoritmo Gausiano o un algoritmo de Laplaciano como se conoce en la técnica. En una modalidad, el algoritmo de operador está configurado para analizar la imagen 500 en dos dimensiones. Opcionalmente, cuando la imagen 500 es una imagen a color, la imagen 500 puede convertirse a una escala en grises.

Un punto de interés 502 puede incluir cualquier punto en la imagen 500 como se ilustra en la Figura 5, así como una región 602, área, grupo de píxeles, o característica en la imagen 500 como se ilustra en la Figura 6. Los puntos de interés 502 y las regiones 602 se denominan en lo sucesivo como puntos de interés 502 para búsqueda de claridad y brevedad, sin embargo se hace referencia a los puntos de interés 502 para ser inclusiva de tanto los puntos de interés 502 como las regiones 602. En una modalidad, un punto de interés 502 está localizado en un área de la imagen 500 que es estable e incluye una característica distinta o identificable en la imagen 500. Por ejemplo, un punto de interés 502 está localizado en un área de una imagen que tiene características nítidas con alto contraste entre las características como se ilustra en 502a y 602a. De forma inversa, un punto de interés no está localizado en un área sin características o contrastes distintos, tal como una región de color de contraste de escala en grises como se indica por 504.

El algoritmo de operador identifica cualquier número de puntos de interés 502 en la imagen 500, tal como, por ejemplo, miles de puntos de interés. Los puntos de interés 502 pueden ser una combinación de puntos 502 y regiones 602 en la imagen 500 y el número de los mismos puede basarse en el tamaño de la imagen 500. El componente de procesamiento de imagen 412 calcula una métrica para cada uno de los puntos de interés 502 y clasifica los puntos de interés 502 de acuerdo con la métrica. La métrica puede incluir una medida de la resistencia de señal o la relación de señal a ruido de la imagen 500 en el punto de interés 502. El componente de procesamiento de imagen 412 selecciona un subgrupo de los puntos de interés 502 para procesamiento adicional basado en la clasificación. En una modalidad, se seleccionan los cien puntos de interés 502 más sobresalientes que tienen la relación de señal a ruido más alta, sin embargo puede seleccionarse cualquier número deseado de puntos de interés 502. En otra modalidad, no se selecciona un subgrupo y se incluyen todos los puntos de interés en procesamiento adicional.

Como se ilustra en la Figura 7, puede identificarse un grupo de parches 700 que corresponden a los puntos de interés seleccionados 502. Cada parche 702 corresponde a un punto de interés seleccionado individual 502. Los parches 702 incluyen un área de la imagen 500 que incluye el punto interior respectivo 502. El tamaño de cada parche 702 que se va a tomar de la imagen 500 se determina basándose en una salida del algoritmo de operador para cada uno de los puntos de interés seleccionados 502. Cada uno de los parches 702 puede ser de un tamaño diferente y las áreas de la imagen 500 que se van a incluir en los parches 702 pueden traslaparse. Adicionalmente, la forma de los parches 702 es cualquier forma deseada incluyendo un cuadrado, rectángulo, triángulo, círculo, óvalo, o similares. En la modalidad ilustrada, los parches 702 son de forma cuadrada.

Los parches 702 pueden normalizarse como se ilustra en la Figura 7. En una modalidad, los parches 702 se normalizan para conformar a cada uno de los parches 702 a un tamaño igual, tal como un parche cuadrado de Píxel X por píxel X. Normalizar los parches 702 a un tamaño igual pueden incluir aumentar o disminuir el tamaño y/o resolución de un parches 702, entre otras operaciones. Los parches 702 también pueden normalizarse a través de una o más otras operaciones tal como aplicar mejora de contraste, desgranulado, nitidez, y aplicar una escala en grises, entre otros.

Un descriptor también puede determinarse para cada parche normalizado. Un descriptor puede ser una descripción de un parche que puede incorporarse como una característica para usarse en una búsqueda de imagen. Un descriptor puede determinarse al calcular estadísticas de los píxeles en un parche 702. En una modalidad, se determina un descriptor basándose en las estadísticas de los gradientes de escala en grises de los píxeles en un parche 702. El descriptor también puede representarse visualmente como un histograma para cada parche, tal como un descriptor 800 ilustrado en la Figura 8 (en donde los parches 702 de la Figura 7 corresponden a descriptores 802 similarmente localizados en la Figura 8). El descriptor también puede describirse como un vector multidimensional tal como, por ejemplo, y sin limitación, un vector multidimensional que es representativo de estadísticas de escala en grises de píxel para los píxeles en un parche. Un vector T2S2 36- dimensional es un ejemplo de un vector que es representativo de estadísticas de escala en grises de píxel.

Como se ilustra en la Figura 9, puede emplearse una tabla de cuantificación 900 para correlacionar una palabra clave de descriptor 902 con cada descriptor 802. La tabla de cuantificación 900 puede incluir cualquier tabla, índice, cuadro, u otra estructura de datos útil para trazar los descriptores 802 a la palabra clave de descriptor 902. Se conocen varias tablas de cuantificación 900 en la técnica y se pueden utilizar en modalidades de la invención. En una modalidad, la tabla de cuantificación 900 se genera al procesar primero una cantidad de imágenes (por ejemplo, imagen 500), por ejemplo, un millón de imágenes, para identificar descriptores 802 para cada imagen. Los descriptores 802 identificados de esto entonces se analizan estadísticamente para identificar aglomeraciones o grupos de descriptores 802 que tienen valores similares, o estadísticamente similares. Por ejemplo, los valores de variables en vectores T2S2 son similares. Un descriptor representativo 904 de cada grupo se selecciona y asigna con una ubicación en la tabla de cuantificación 900 así como una palabra clave de descriptor correspondiente 902. Las palabras clave de descriptor 902 pueden incluir cualquier indicador deseado que identifica un descriptor representativo correspondiente 904. Por ejemplo, las palabras clave de descriptor 902 pueden incluir valores de entero como se ilustra en la Figura 9, o valores alfanuméricos, valores numéricos, símbolos, texto, o una combinación de los mismos. En algunas modalidades, las palabras clave de descriptor 902 pueden incluir una secuencia de caracteres que identifican la palabra clave de descriptor como estando asociada con un modo de búsqueda basada en no texto. Por ejemplo, todas las palabras clave de descriptor pueden incluir una serie de tres enteros seguido por un carácter calificado por debajo como los primeros cuatro caracteres en la palabra clave. Esta secuencia inicial entonces podría utilizarse para identificar la palabra clave de descriptor como estando asociada con una imagen.

Para cada descriptor 802, puede identificarse un descriptor representativo 904 que coincide muy cercanamente en la tabla de cuantificación 900. Por ejemplo, un descriptor 802a ilustrado en la Figura 8 corresponde muy cercanamente con un descriptor representativo 904a de la tabla de cuantificación 900 en la Figura 9. Las palabras clave del descriptor 902 para cada uno de los descriptores 802 están asociados consecuentemente con la imagen 500 (por ejemplo, el descriptor 802a corresponde con el identif icador de descriptor 902 "1"). Las palabras clave de descriptor 902 asociadas con la imagen 500 cada una puede ser diferente entre sí o uno o más de las palabras clave de descriptor 902 pueden estar asociadas con la imagen 500 múltiples veces (por ejemplo, la imagen 500 puede tener palabras clave de descriptor 902 de "1, 2, 3, 4" o "1, 2, 2, 3"). En una modalidad, tomando en cuenta características, tales como variaciones de imagen, un descriptor 802 puede trazarse a más de un identificador de descriptor 902 al identificar más de un descriptor representativo 904 que coincide muy cercanamente con el descriptor 802 y la palabra clave de descriptor respectiva 902 para lo mismo. Basándose en lo anterior, el contenido de una imagen 500 que tiene un grupo de puntos de interés identificados 502 puede representarse por un grupo de palabras clave de descriptor 902.

En otra modalidad, pueden integrarse otros tipos de búsqueda basada en la imagen en un esquema de búsqueda. Por ejemplo, los métodos de reconocimiento facial pueden proporcionar otro tipo de búsqueda de imagen. Además de y/o en lugar de identificar palabras clave de descriptor como se describe anteriormente, pueden utilizarse métodos de reconocimiento facial para determinar las identidades de gente en una imagen. La identidad de una persona en una imagen puede utilizarse para complementar una consulta de búsqueda. Otra opinión puede ser tener una biblioteca de gente para coincidir con tecnología de reconocimiento facial. Los metadatos pueden incluirse en la biblioteca para varias personas, y estos metadatos almacenados pueden utilizarse para complementar una consulta de búsqueda.

Lo anterior proporciona una descripción para adaptar esquemas de búsqueda basados en la imagen para un esquema de búsqueda basado en texto. Puede hacerse una adaptación similar para otros modos de búsqueda, tal como un esquema de búsqueda basado en audio. En una modalidad, puede utilizarse cualquier tipo conveniente de búsqueda basada en audio. El método para búsqueda basada en audio puede tener uno o más tipos de características que se utilizan para identificar archivos de audio que tienen características similares. Como se describió anteriormente, las características de audio pueden estar correlacionadas con palabras clave de descriptor. Las palabras clave de descriptor pueden tener un formato que indica que la palabra clave está relacionada con una búsqueda de audio, tal como teniendo los últimos cuatro caracteres de la palabra clave para corresponder con un guión seguido por cuatro números.

Ejemplos de Búsqueda Basados en Consultas ultimodales Ejemplo de búsqueda 1 - Agregar información de imagen a una consulta basada en texto. Una dificultad con métodos de búsqueda convencionales es identificar resultados deseados para términos de consulta comunes. Un tipo de búsqueda que puede involucrar términos de búsqueda comunes es una búsqueda por una persona con un nombre común, tal como "Steve Smith". Si una consulta de palabra clave de "Steve Smith" se envía a un buscador, se identificará un gran número de resultados como en respuesta, y estos resultados probablemente corresponderán a un gran número de diferentes personas que comparten un nombre igual o similar.

En una modalidad, puede mejorarse una búsqueda de una entidad nombrada al enviar una imagen de la entidad como parte de la consulta de búsqueda. Por ejemplo, además de ingresar "Steve Smith" en un cuadro de texto de palabra clave, puede dejarse caer una imagen o video del señor Smith particular de interés en una ubicación para recibir información de consulta basada en imagen. Entonces puede utilizarse software de reconocimiento facial para coincidir con "Steve Smith" correcto con la consulta de búsqueda. Adicionalmente, si la imagen o video contiene otro agente, los resultados basados en la gente adicional pueden asignarse con una clasificación inferior debido a la consulta de palabra clave que indica la persona de interés. Como un resultado, la combinación de palabras clave de imagen o video puede utilizarse para identificar de forma eficiente resultados correspondientes a una persona (u otra entidad) con un nombre común.

Como una variación de lo anterior, considerar una situación en donde un usuario tiene una imagen o video de una persona, pero no conoce el nombre de la persona. La persona podría ser un político, un actor o actriz, una figura deportiva, o cualquier otra persona u otra entidad que puede reconocerse por tecnología de reconocimiento facial o de coincidencia de imagen. En esta situación, la imagen o video que contiene la entidad puede enviarse con una o más palabras clave como una consulta de búsqueda multimodal. En esta situación, una o más palabras clave pueden representar la información que el usuario posee con respecto a la entidad, tal como "político" o "actriz". Las palabras clave adicionales pueden ayudar a la búsqueda de imagen en varias formas. Un beneficio de tener tanto imagen o video y palabras clave es que los resultados de interés para el usuario pueden proporcionarse con una clasificación superior. Enviar la palabra clave "actriz" con una imagen indica una intención de usuario por conocer el nombre de la persona y la imagen, y llevaría al nombre de la actriz como un resultado clasificado superior que un resultado para una película que enlista a la actriz en los créditos. Adicionalmente, para reconocimiento facial u otra tecnología de análisis de imagen en donde no se logra una coincidencia exacta, las palabras clave pueden ayudar a clasificar los resultados de búsqueda potencialmente en respuesta. Si el método de reconocimiento facial identifica un senador de estado y un autor como coincidencias potenciales, la palabra clave "político" puede utilizarse para proporcionar información sobre el senador de estado como los resultados clasificados más altos.

Ejemplo de búsqueda 2 - Refinación de consulta para consultas multimodales. En este ejemplo, un usuario desea obtener más información sobre un producto encontrado en una tienda, tal como un CD de música o un DVD de película. Como un precursor para el procedimiento de búsqueda, el usuario puede tomar una imagen de la cubierta de un CD de música que es de interés. Esta imagen entonces puede enviarse como una consulta de búsqueda. Al utilizar el reconocimiento y/o coincidencia de imagen, la cubierta de CD puede coincidir con una imagen almacenada en la cubierta de CD que incluye metadatos adicionales. Estos metadatos pueden incluir opcionalmente el nombre del artista, el título del CD, los nombres de las canciones individuales en el CD, o cualquier otro dato con respecto al CD.

Una imagen almacenada de la cubierta de CD puede regresar como un resultado en respuesta, y posiblemente como el resultado clasificado más alto. Dependiendo de la modalidad, al usuario se le pueden ofrecer modificaciones de consulta potenciales en la página de resultados iniciales, o el usuario pueda dar clic en un enlace con el fin de acceder a las modificaciones de consulta potenciales. Las modificaciones de consulta pueden incluir sugerencias basadas en los metadatos, tal como el nombre del artista, título del CD, o el nombre de una de las canciones populares en el CD. Estas modificaciones de consulta pueden ofrecerse como enlaces al usuario. Alternativamente, al usuario se le puede proporcionar una opción para agregar algunos o todos los metadatos de consulta a un cuadro de búsqueda de palabra clave. El usuario también puede complementar las modificaciones sugeridas con términos de búsqueda adicionales. Por ejemplo, el usuario podría seleccionar el nombre del artista y entonces agregar la palabra "concierto" al cuadro de consulta. La palabra adicional "concierto" puede asociarse con la imagen para usarse como parte de la consulta de búsqueda. Esto podría, por ejemplo, producir resultados en respuesta que indican fechas de concierto futuras para el artista. Otras opciones para sugerencias o modificaciones de consulta incluirían información de precio, noticias relacionadas con el artista, letras de canción para una canción en el CD, u otros tipos de sugerencias. Opcionalmente, algunas modificaciones de consulta pueden enviarse automáticamente para búsqueda para generar resultados en respuesta para la consulta modificada sin acción adicional del usuario. Por ejemplo, agregar la palabra clave "precio" a la consulta con base en la cubierta de CD podría ser una modificación de consulta automática, para que se regrese el precio en varios minoristas en línea con la página de resultados de búsqueda inicial.

Observar que en el ejemplo anterior, se envía primero una imagen de consulta, y luego las palabras clave que se asociaron con la consulta como una refinación. Pueden realizarse refinaciones similares al iniciar con una búsqueda de palabra clave de texto, y entonces refinación basada en una imagen, video, o archivo de audio.

Ejemplo de búsqueda 3 - Búsqueda móvil y mejorada. En este ejemplo, un usuario puede saber generalmente qué pedir, pero puede tener dudas sobre cómo redactar una consulta de búsqueda. Este tipo de búsqueda móvil puede utilizarse para búsqueda en cualquier tipo de ubicación, persona, objeto, o entidad. La adición de una o más palabras clave permite al usuario recibir resultados en respuesta basados en una intención del usuario, en lugar de basados en la mejor coincidencia de imagen. Las palabras clave pueden agregarse, por ejemplo, en un cuadro de texto de búsqueda antes de enviar la imagen como una consulta de búsqueda. Las palabras clave pueden complementar opcionalmente cualquiera de las palabras clave que pueden derivarse de metadatos asociados con una imagen, video, o archivo de audio. Por ejemplo, un usuario podría tomar una imagen de un restaurante y enviar la imagen como una consulta de búsqueda junto con la palabra clave "menú". Esto aumentaría la clasificación de resultados que involucran el menú para ese restaurante. Alternativamente, un usuario podría tomar un video de un tipo de gato y enviar la consulta de búsqueda con la palabra "especies". Esto aumentaría la relevancia de resultados que identifican el tipo de gato, opuesto a regresar resultados de imagen o video de otros animales que realizan actividades similares. Incluso otra opción podría ser enviar una imagen del póster de una película junto con la palabra clave "banda sonora", con el fin de identificar las canciones reproducidas en la película.

Incluso como otro ejemplo, un usuario que viaja en una ciudad puede desear información con respecto al programa del sistema de tránsito masivo local. Desafortunadamente, el usuario no conoce el nombre del sistema. El usuario inicia escribiendo una consulta de palabra clave de <nombre de Ciudad> y "tránsito masivo". Esto regresa un gran número de resultados, y el usuario no está confiado con respecto a qué resultado será más útil. El usuario entonces nota un logotipo para el sistema de tránsito en una parada de autobús cercana. El usuario toma una imagen del logotipo, y refina la búsqueda utilizando el logotipo como parte de la consulta. El sistema de autobuses asociado con el logotipo entonces se regresa como el resultado clasificado más alto, proporcionando al usuario la confianza que se ha identificado del programa de tránsito correcto.

Ejemplo de búsqueda 4 - Búsqueda multimodal que involucra archivos de audio. Además de video o imágenes, pueden utilizarse otros tipos de modos de entrada para búsqueda. Los archivos de audio representan otro ejemplo de una entrada de consulta adecuada. Como se describió anteriormente para imágenes o videos, puede enviarse un archivo de audio como una consulta de búsqueda junto con palabras clave. Alternativamente, el archivo de audio puede enviarse ya sea antes o después del envío de otro tipo de entrada de consulta, como parte de refinación de consulta. Observar que en algunas modalidades, una consulta de búsqueda multimodal puede incluir múltiples tipos de entrada de consulta sin que un usuario proporcione cualquier entrada de palabra clave. De esa forma, un usuario podría proporcionar una imagen y un video o un video y un archivo de audio. Incluso otra opción podría ser incluir múltiples imágenes, videos, y/o archivos de audio junto con palabras clave como entradas de consulta.

Habiendo descrito brevemente una vista general de varias modalidades de la invención, ahora se describe un ambiente operativo adecuado para realizar la invención. Al hacer referencia a los dibujos en general, e inicialmente a la Figura 1 en particular, se muestra un ambiente operativo ilustrativo para implementar modalidades de la presente invención y se designa generalmente como el dispositivo de cómputo 100. El dispositivo de cómputo 100 es sólo un ejemplo de un ambiente de cómputo adecuado y no pretende sugerir ninguna limitación en cuanto al alcance de uso o funcionalidad de la invención. El dispositivo de cómputo 100 tampoco debe interpretarse como teniendo cualquier dependencia o requisito que se refiere a cualquiera o combinación de componentes ilustrados.

Las modalidades de la invención pueden describirse en el contexto general de código de computadora o instrucciones útiles por máquina, incluyendo instrucciones ejecutables por computadora tales como módulos de programa, que se ejecutan por una computadora u otra máquina, tal como un asistente de datos personal u otro dispositivo portátil. Generalmente, los módulos de programa, incluyendo rutinas, programas, objetos, componentes, estructuras de datos con etc., se refieren a código que realiza tareas particulares o implementan tipos de datos abstractos particulares. La invención puede practicarse en una variedad de configuraciones de sistema, incluyendo dispositivos portátiles, electrónica de consumidor, computadoras de propósito general, dispositivos de cómputo de más especialidad, y similares. La invención también puede practicarse en ambientes de cómputo distribuido en donde las tareas se realizan por dispositivos de procesamiento remoto que están enlazados a través de una red de comunicaciones.

Con referencia continua a la Figura 1, el dispositivo de cómputo 100 incluye un conductor común 110 que se acopla directa o indirectamente a los siguientes dispositivos: memoria 112, uno o más procesadores 114, uno o más componentes de presentación 116, puertos de entrada/salida (l/O) 118, componentes l/O 120, y un suministro de energía ilustrativo 122. El conductor común 110 representa lo que pueden ser uno o más conductores comunes (tal como conductor común de dirección, conductor común de datos, o combinación de los mismos). Aunque los varios bloques de la Figura 1 se muestran con líneas para la búsqueda de claridad, en realidad, delinear varios componentes no es tan claro, y metafóricamente, las líneas serían de forma más precisa grises y confusas. Por ejemplo, uno puede considerar un componente de presentación tal como un dispositivo de presentación para ser un componente l/O. Adicionalmente, muchos procesadores tienen memoria. Los inventores de la misma reconocen que tal es la naturaleza de la técnica, y reiteran que el diagrama de la Figura 1 es simplemente ilustrativo de un dispositivo de cómputo ilustrativo que puede utilizarse en conexión con una o más modalidades de la presente invención. No se hace distinción entre tales categorías como "estación de trabajo", "servidor", "laptop", "dispositivos portátiles", etc., ya que todos se contemplan dentro del alcance de la Figura 1 y referencia a "dispositivo de cómputo".

El dispositivo de cómputo 100 típicamente incluye una variedad de medios legibles por computadora. Los medios legibles por computadora pueden ser cualquier medio disponible que puede accederse por el dispositivo de cómputo 100 e incluye tanto medios volátiles como no volátiles, medios removibles y no removibles. A manera de ejemplo, y no de limitación, los medios legibles por computadora pueden comprender medios de almacenamiento por computadora y medios de comunicación. Los medios de almacenamiento por computadora incluyen medios volátiles y no volátiles, removibles y no removibles implementados en cualquier método o tecnología para almacenamiento o información tal como instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos. Los medios de almacenamiento por computadora incluyen, pero no están limitados a, Memoria de Acceso Aleatorio (RAM), Memoria de Sólo Lectura (ROM), Memoria de Sólo Lectura Programable Electrónicamente Borrable (EEPROM), memoria flash u otra tecnología de memoria, CD-ROM, discos versátiles digitales (DVQ) u otra memoria holográfica, casetes magnéticos, cinta magnética, almacenamiento de disco magnético u otros dispositivos de almacenamiento magnético, onda portadora, o cualquier otro medio que puede utilizarse para codificar información deseada y que puede accederse por el dispositivo de cómputo 100. En una modalidad, los medios de almacenamiento por computadora pueden seleccionarse de medios de almacenamiento por computadora tangibles. En otra modalidad, los medios de almacenamiento por computadora pueden seleccionarse de medios de almacenamiento por computadora no transitorios.

La memoria 112 incluye medios de almacenamiento por computadora en la forma de memoria volátil y/o no volátil. La memoria puede ser removible, no removible, o una combinación de las mismas. Los dispositivos de hardware ilustrativos incluyen memoria de estado sólido, unidades duras, unidades de disco óptico, etc. El dispositivo de cómputo 100 incluye uno o más procesadores que leen datos de varias entidades tal como la memoria 112 y/o componentes l/O 120. El componente(s) de presentación 116 presenta indicaciones de datos a un usuario u otro dispositivo. Los componentes de presentación ilustrativos incluyen un dispositivo de presentación, bocina, componente de impresión, componente vibratorio, y similares.

Los puertos l/O 118 permiten que el dispositivo de cómputo 100 se acople lógicamente a otros dispositivos que incluyen los componentes l/O 120, algunos de los cuales pueden estar incorporados. Los componentes ilustrativos incluyen un micrófono, palanca de mandos, almohadilla de juegos, antena parabólica, escáner, impresora, dispositivo inalámbrico, etc.

Con referencia adicional a la Figura 2, se describe un diagrama de bloques que ilustra un ambiente de red ilustrativo 200 adecuado para usarse en modalidades de la invención. El ambiente 200 es sólo un ejemplo de un ambiente que puede utilizarse en modalidades de la invención y puede incluir cualquier número de componentes en una gran variedad de configuraciones. La descripción del ambiente 200 aquí proporcionada es para propósitos ilustrativos y no pretende limitar configuraciones de modalidades en donde pueden implementarse las modalidades de la invención.

El ambiente 200 incluye una red 202, un dispositivo de entrada de consulta 204, y un servidor de buscador 206. En la red 202 incluye cualquier red de computadora tal como, por ejemplo, y sin limitación, Internet, intranet, redes locales privadas y públicas, y datos inalámbricos o redes telefónicas. El dispositivo de entrada de consulta 204 es cualquier dispositivo de cómputo, tal como el dispositivo de cómputo 100, para el cual se proporciona una consulta de búsqueda. Por ejemplo, el dispositivo de entrada de consulta 204 puede ser una computadora personal, una laptop, una computadora de servidor, un teléfono o dispositivo inalámbrico, un asistente digital personal (PDA), o una cámara digital, entre otros. En una modalidad, una pluralidad de dispositivos de entrada de consulta 204, tal como miles o millones de dispositivos de entrada de consulta 204, están conectados a la red 202.

El servidor de buscador 206 incluye cualquier dispositivo de cómputo, tal como el dispositivo de cómputo 100, y proporciona al menos una porción de las funcionalidades para proporcionar un buscador basado en contenido. En una modalidad un grupo de servidores de buscador 206 comparten o distribuyen las funcionalidades requeridas para proporcionar operaciones de buscador a una población de usuario.

También se proporciona un servidor de procesamiento de imagen 208 en el ambiente 200. El servidor de procesamiento de imagen 208 incluye cualquier dispositivo de cómputo, tal como el dispositivo de cómputo 100, y está configurado para analizar, representar, e indexar el contenido de una imagen como se describe más completamente a continuación. El servidor de procesamiento de imagen 208 incluye una tabla de cuantificación 210 que está almacenada en una memoria del servidor de procesamiento de imagen 208 o es remotamente accesible por el servidor de procesamiento de imagen 208. La tabla de cuantificación 210 se utiliza por el servidor de procesamiento de imagen 208 para informar un trazado de contenido de imágenes para permitir la búsqueda e indexado de características de imagen.

El servidor de buscador 206 y el servidor de procesamiento de imagen 208 están comunicativamente acoplados a un almacenamiento de imagen 212 y un índice 214. El almacenamiento de imagen 212 y el índice 214 incluyen cualquier dispositivo de almacenamiento de computadora disponible, o una pluralidad de los mismos, tal como una unidad de disco duro, memoria flash, dispositivos de memoria óptica, y similares. El almacenamiento de imagen 212 proporciona almacenamiento de datos para imágenes de archivo que pueden proporcionarse en respuesta a una búsqueda basada en contenido de una modalidad de la invención. El índice 214 proporciona un índice de búsqueda para búsqueda basada en contenido de documentos disponibles a través de la red 212, incluyendo las imágenes almacenadas en el almacenamiento de imagen 212. El índice 214 puede utilizar cualquier estructura o formato de datos de indexado, y preferiblemente emplea un formato de índice invertido. Observar que en algunas modalidades, el almacenamiento de imagen 212 puede ser opcional.

Un índice invertido proporciona un trazado que ilustra las ubicaciones de contenido en una estructura de datos. Por ejemplo, cuando se busca un documento para una palabra clave particular (incluyendo un descriptor de palabra clave), la palabra clave se encuentra en el índice invertido que identifica la ubicación de la palabra clave en el documento y/o la presencia de una característica en un documento de imagen, en lugar de buscar el documento para encontrar ubicaciones de la palabra o característica.

En una modalidad, uno o más del servidor de buscador 206, servidor de procesamiento de imagen 208, almacenamiento de imagen 212, e índice 214 se integran en un solo dispositivo de cómputo o están directamente acoplados comunicativamente para permitir la comunicación directa entre los dispositivos sin atravesar la red 202.

La Figura 10 ilustra un método de acuerdo con una modalidad de la invención, o alternativamente instrucciones ejecutables para un método representado en un medio de almacenamiento de computadora de acuerdo con una modalidad de la invención. En la Figura 10, una imagen, un video, o un archivo de audio se adquiere 1010 e incluye una pluralidad de características de relevancia que pueden extraerse. La imagen, video, o archivo de audio está asociada 1020 con al menos una palabra clave. La imagen, video, o archivo de audio y palabra clave asociada se envía 1030 como una consulta a un buscador. Al menos se recibe un resultado en respuesta 1040 que está en respuesta a la pluralidad de características de relevancia y la palabra clave asociada. El por lo menos un resultado en respuesta entonces se presenta 1050.

La Figura 11 ilustra otro método de acuerdo con una modalidad de la invención, o alternativamente instrucciones ejecutables para un método o representado en medio de almacenamiento por computadora de acuerdo con una modalidad de la invención. En la Figura 11, se recibe una consulta 1110 que incluye al menos dos modos de consulta. Se extraen características de relevancia 1120 correspondientes al menos a dos modos de consulta de la consulta. Se selecciona una pluralidad de resultados en respuesta 1130 basados en las características de relevancia extraídas. La pluralidad de resultados en respuesta también se clasifica 1140 basándose en las características de relevancia extraídas. Uno ó más de los resultados en respuesta clasificados entonces se presentan 1150.

La Figura 12 ilustra otro método de acuerdo con una modalidad de la invención, o alternativamente instrucciones ejecutables para un método representado en medios de almacenamiento de computadora de acuerdo con una modalidad de la invención. En la Figura 12, se recibe 1210 una consulta que comprende al menos una palabra clave. Una pluralidad de resultados en respuesta se presenta 1220 basándose en la consulta recibida. La entrada de consulta complementaría se recibe 1230 que comprende al menos una de una imagen, un video, o un archivo de audio. Una clasificación de la pluralidad de resultados en respuesta se modifica 1240 basándose en la entrada de consulta complementaria. Uno o más de los resultados en respuesta se presenta 1250 basándose en la clasificación modificada.

Modalidades Adicionales Una primera modalidad contemplada incluye un método para realizar una búsqueda multimodal. El método incluye recibir (1110) una consulta que incluye al menos dos modos, extraer (1120) características de relevancia correspondientes a al menos a dos modos correspondientes de la consulta; seleccionar (1130) una pluralidad de resultados en respuesta basados en las características de relevancia extraídas; clasificar (1140) la pluralidad de resultados en respuesta basándose en las características de relevancia extraídas; y presentar (1150) uno o más de los resultados en respuesta clasificados.

Una segunda modalidad incluye el método de la primera modalidad, en donde los modos de consulta en la consulta recibida incluyen dos o más de una palabra clave, una imagen, un video, o un archivo de audio.

Una tercera modalidad incluye cualquiera de las modalidades anteriores, en donde la pluralidad de documentos en respuesta se selecciona utilizando un índice invertido que incorpora características de relevancia de al menos dos modos de consulta.

Una cuarta modalidad incluye la tercera modalidad, en donde las características de relevancia extraídas de la imagen, video, o archivo de audio se incorporan en el índice invertido como palabras clave de descriptor.

En una quinta modalidad, se proporciona un método para realizar una búsqueda multimodal. El método incluye adquirir (1010) una imagen, un video, o un archivo de audio que incluye una pluralidad de características de relevancia que pueden extraerse; asociar (1020) la imagen, video, o archivo de audio con al menos una palabra clave; enviar (1030) la imagen, video, o archivo de audio y la palabra clave asociada con una consulta a un buscador; recibir (1040) al menos un resultado en respuesta que es en respuesta a la pluralidad de características de relevancia y la palabra clave asociada; y presentar (1050) el por lo menos un resultado en respuesta.

Una sexta modalidad incluye cualquiera de las modalidades anteriores, en donde las características de relevancia extraídas corresponden a una palabra clave y una imagen.

Una séptima modalidad incluye cualquiera de las modalidades anteriores, que además comprende: extraer metadatos de una imagen, un video, o un archivo de audio; identificar una o más palabras clave de los metadatos extraídos; y formar una segunda consulta incluyendo al menos las características de relevancia extraídas de la consulta recibida y las palabras clave identificadas de los metadatos extraídos.

Una octava modalidad incluye la séptima modalidad, en donde clasificar la pluralidad de documentos en respuesta basándose en las características de relevancia extraídas comprende clasificar la pluralidad de documentos en respuesta basándose en la segunda consulta.

Una novena modalidad incluye la séptima u octava modalidad, en donde la segunda consulta se presenta en asociación con los resultados en respuesta presentados.

Una décima modalidad incluye cualquiera de la séptima a novena modalidades, que además comprende: seleccionar automáticamente una segunda pluralidad de documentos en respuesta basados en la segunda consulta; clasificar la segunda pluralidad de documentos en respuesta basándose en la segunda consulta; y presentar al menos un documento de la segunda pluralidad de documentos en respuesta.

Una décima primera modalidad incluye cualquiera de las modalidades anteriores, en donde se adquiere una imagen o un video como una imagen o un video de una cámara asociada con un dispositivo de adquisición.

Una décima segunda modalidad incluye cualquiera de las modalidades anteriores, en donde una imagen, un video, o un archivo de audio se adquiere al acceder a una imagen, video, o archivo de audio almacenado a través de una red.

Una décima tercera modalidad incluye cualquiera de las modalidades anteriores, en donde al menos un resultado en respuesta comprende un documento de texto, una imagen, un video, un archivo de audio, una identidad de un documento de texto, una identidad de una Imagen, una identidad de un video, una identidad de un archivo de audio, o una combinación de los mismos.

Una décima cuarta modalidad incluye cualquiera de las modalidades anteriores, en donde el método además comprende presentar una o más sugerencias de consulta basadas en la consulta enviada y los metadatos correspondientes al menos a un resultado en respuesta.

En una décima quinta modalidad, se proporciona un método para realizar una búsqueda multimodat, que incluye recibir (1210) una consulta que comprende al menos una palabra clave; presentar (1220) una pluralidad de resultados en respuesta basados en la consulta recibida; recibir (1230) entrada de consulta complementaria que comprende al menos uno de una imagen, un video, un archivo de audio; modificar (1240) una clasificación de la pluralidad de resultados en respuesta basados en la entrada de consulta complementaria; y presentar (1250) uno o más resultados en respuesta basados en la clasificación modificada.

Las modalidades de la presente invención han sido descritas con relación a modalidades particulares, que pretende en todos los aspectos ser ilustrativas en lugar de restrictivas. Las modalidades alternativas se harán evidentes para aquellos expertos en la técnica a los cuales pertenece la invención sin apartarse de su alcance.

A partir de lo anterior, se observará que esta invención es una bien adaptada para obtener todos los fines y objetivos establecidos aquí anteriormente junto con otras ventajas que son obvias y que son inherentes para la estructura.

Se entenderá que ciertas características y sub-combinaciones son de utilidad y pueden emplearse sin referencia a otras características y sub-combinaciones. Esto se contempla por y está dentro del alcance de las reivindicaciones.

Claims

REIVINDICACIONES

1.- Un método para realizar una búsqueda multimodal, que comprende: recibir una consulta que incluye al menos dos modos de consulta; extraer características de relevancia correspondientes a al menos a dos modos de consulta de la consulta; seleccionar una pluralidad de resultados en respuesta basados en las características de relevancia extraídas; clasificar la pluralidad de resultados en respuesta basándose en las características de relevancia extraídas; y presentar uno o más de los resultados en respuesta clasificados.

2.- El método de acuerdo con la reivindicación 1, en donde los modos de consulta en la consulta recibida incluyen dos o más de una palabra clave, una imagen, un video, o un archivo de audio.

3. - El método de acuerdo con cualquiera de las reivindicaciones anteriores, en donde la pluralidad de documentos en respuesta se selecciona utilizando un índice invertido que incorpora características de relevancia de al menos dos modos de consulta.

4. - El método de acuerdo con la reivindicación 3, en donde las características de relevancia extraídas de la imagen, video, o archivo de audio se incorporan en el índice invertido como palabras clave de descriptor.

5. - Un método para realizar una búsqueda multimodal, que comprende: adquirir una imagen, un video, o un archivo de audio que incluye una pluralidad de características de relevancia que pueden ser extraídas; asociar la imagen, video, o archivo de audio con al menos una palabra clave; enviar la imagen, video, o archivo de audio y la palabra clave asociada como una consulta a un buscador; recibir al menos un resultado en respuesta que es en respuesta a la pluralidad de características de relevancia y la palabra clave asociada; y presentar por lo menos un resultado en respuesta.

6. - El método de acuerdo con las reivindicaciones anteriores, en donde las características de relevancia extraídas Corresponden a una palabra clave y una imagen.

7. - El método de acuerdo con cualquiera de las reivindicaciones anteriores, que además comprende: extraer metadatos de una imagen, un video, o un archivo de audio; identificar una o más palabras clave de los metadatos extraídos; y formar una segunda consulta que incluye al menos las características de relevancia extraídas de la consulta recibida y las palabras clave identificadas de los metadatos extraídos.

8. - El método de acuerdo con la reivindicación 7, en donde clasificar la pluralidad de documentos en respuesta basándose en las características de relevancia extraídas comprende clasificar la pluralidad de documentos en respuesta basándose en la segunda consulta.

9. - El método de acuerdo con la reivindicación 7 u 8, en donde la segunda consulta se presenta en asociación con los resultados en respuesta presentados.

10. - El método de acuerdo con cualquiera de las reivindicaciones 7-9, que además comprende: seleccionar automáticamente una segunda pluralidad de documentos en respuesta basándose en la segunda consulta; clasificar la segunda pluralidad de documentos en respuesta basándose en la segunda consulta; y presentar al menos un documento de la segunda pluralidad de documentos en respuesta.

11. - El método de acuerdo con cualquiera de las reivindicaciones anteriores, en donde se adquiere una imagen o un video como una imagen o un video de la cámara asociada con un dispositivo de adquisición.

12. - El método de acuerdo con cualquiera de las reivindicaciones anteriores, en donde una imagen, un video, o un archivo de audio se adquiere al acceder a una imagen almacenada, video, o archivo de audio a través de una red.

13.- El método de acuerdo con cualquiera de las reivindicaciones anteriores, en donde al menos un resultado en respuesta comprende un documento de texto, una imagen, un video, un archivo de audio, una identidad de un documento de texto, una identidad de una imagen, una identidad de un video, una identidad de un archivo de audio, o una combinación de los mismos.

14. - El método de acuerdo con cualquiera de las reivindicaciones anteriores, en donde el método además comprende presentar una o más sugerencias de consulta basándose en la consulta enviada y metadatos correspondientes al menos a un resultado en respuesta.

15. - Un método para realizar una búsqueda multimodal, que comprende: recibir una consulta que comprende al menos una palabra clave; presentar una pluralidad de resultados en respuesta basándose en la consulta recibida; recibir entrada de consulta complementaria que comprende al menos una de una imagen, un video, o un archivo de audio; modificar una clasificación de la pluralidad de resultados en respuesta basándose en la entrada de consulta complementaria; y presentar uno o más de los resultados en respuesta basándose en la clasificación modificada.