MX2011012725A - Aparato de busqueda de imagenes y metodo de busqueda de imagenes. - Google Patents

Aparato de busqueda de imagenes y metodo de busqueda de imagenes.

Info

Publication number
MX2011012725A
MX2011012725A MX2011012725A MX2011012725A MX2011012725A MX 2011012725 A MX2011012725 A MX 2011012725A MX 2011012725 A MX2011012725 A MX 2011012725A MX 2011012725 A MX2011012725 A MX 2011012725A MX 2011012725 A MX2011012725 A MX 2011012725A
Authority
MX
Mexico
Prior art keywords
image
event
detection module
face
module
Prior art date
Application number
MX2011012725A
Other languages
English (en)
Inventor
Hiroshi Sukegawa
Osamu Yamaguchi
Original Assignee
Toshiba Kk
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Kk filed Critical Toshiba Kk
Publication of MX2011012725A publication Critical patent/MX2011012725A/es

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/178Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition

Abstract

De acuerdo con una modalidad, un aparato de búsqueda de imágenes incluye, un módulo de entrada de imágenes que se alimenta con una imagen, un módulo de detección de eventos que detecta eventos a partir de la imagen de entrada ingresada por el módulo de entrada de imágenes, y determina niveles, dependiendo de los tipos de los eventos detectados, un módulo de control de eventos que retiene los eventos detectados por el módulo de detección de eventos, para cada uno de los niveles, y un módulo de salida que proporciona como salida los eventos retenidos por el módulo de control de eventos, para cada uno de los niveles.

Description

APARATO DE BÚSQUEDA DE IMÁGENES Y MÉTODO DE BÚSQUEDA DE IMÁGENES CAMPO DE LA INVENCIÓN Las modalidades aquí descritas se refieren generalmente a un aparato de búsqueda de imágenes y un método de búsqueda de imágenes .
ANTECEDENTES DE LA INVENCIÓN Se hacen desarrollos en la tecnología para buscar una imagen deseada a partir de imágenes de monitor obtenidas por una pluralidad de cámaras instaladas en una pluralidad de ubicaciones. Tal tecnología debe buscar una imagen deseada de entre imágenes directamente ingresadas desde cámaras o imágenes acumuladas en un aparato de registro.
Por ejemplo, existe la tecnología de detectar una imagen que representa visualmente algún cambio o que representa visualmente una figura humana. Un observador especifica una imagen deseada mediante el monitoreo de imágenes detectadas. Sin embargo, si se detecta un gran número de imágenes que representan visualmente cambios o figuras humanas, una comprobación visual de las imágenes detectadas requiere mucho trabaj o .
Para una fácil comprobación visual de las imágenes, existe la tecnología para buscar una imagen similar señalando la información de los atributos para una imagen de cara. Por ejemplo, una imagen de cara que incluye una característica especificada se puede buscar a partir de una base de datos especificando una característica de una cara de una figura humana a buscar, como una condición de búsqueda.
Adicionalmente, existe tecnología para limitar las imágenes de cara utilizando atributos (en forma de texto) preliminarmente anexados a una base de datos. Por ejemplo, una búsqueda de alta velocidad se logra realizando una búsqueda utilizando un nombre, un ID de miembro, o año/mes/día de registro, además de una imagen de cara. Adicionalmente, los diccionarios de reconocimiento se limitan utilizando información de los atributos (altura, peso, género, edad, etcétera) aparte de la información biométrica principal tal como una cara.
Sin embargo, cuando se busca una imagen que empata con la información de los atributos, existe el problema de que la exactitud se degrada debido a que los puntos de tiempo de la formación de imágenes no se consideran ni por el lado de los diccionarios ni por el lado de entrada.
Cuando se realiza la limitación utilizando información de la edad en forma de texto, la limitación no se puede lograr a menos que la información de los atributos (en forma de texto) se adjunte preliminarmente a los objetivos de búsqueda.
La presente invención por lo tanto proporciona un aparato de búsqueda de imágenes y un método de búsqueda de imágenes capaces de realizar más eficientemente una búsqueda de imágenes .
BREVE DESCRIPCIÓN DE LOS DIBUJOS La FIGURA 1 es un diagrama ejemplar que se muestra para explicar un aparato de búsqueda de imágenes de acuerdo con una modalidad; La FIGURA 2 es un diagrama ejemplar que se muestra para explicar el aparato de búsqueda de imágenes de acuerdo con la modalidad; La FIGURA 3 es un diagrama ejemplar que se muestra para explicar el aparato de búsqueda de imágenes de acuerdo con la modalidad; La FIGURA 4 es un diagrama ejemplar que se muestra para explicar el aparato de búsqueda de imágenes de acuerdo con la modalidad; La FIGURA 5 es una tabla ejemplar que se muestra para explicar el aparato de búsqueda de imágenes de acuerdo con la modalidad; La FIGURA 6 es una gráfica ejemplar que se muestra para explicar el aparato de búsqueda de imágenes de acuerdo con la modalidad; La FIGURA 7 es un diagrama ejemplar que se muestra para explicar un aparato de búsqueda de imágenes de acuerdo con una otra modalidad; La FIGURA 8 es un diagrama ejemplar que se muestra para explicar el aparato de búsqueda de imágenes de acuerdo con la otra modalidad; La FIGURA 9 es un diagrama ejemplar que se muestra para explicar el aparato de búsqueda de imágenes de acuerdo con la otra modalidad; La FIGURA 10 es un diagrama ejemplar que se muestra para explicar el aparato de búsqueda de imágenes de acuerdo con la otra modalidad; y La FIGURA 11 es un diagrama ejemplar que se muestra para explicar el aparato de búsqueda de imágenes de acuerdo con la otra modalidad.
DESCRIPCIÓN DETALLADA DE LA INVENCIÓN En general, de acuerdo con una modalidad, un aparato de búsqueda de imágenes comprende; un módulo de entrada de imágenes que se alimenta con una imagen, un módulo de detección de eventos que detecta eventos a partir de la imagen de entrada ingresada por el módulo de entrada de imágenes, y determina niveles, dependiendo de los tipos de los eventos detectados, un módulo de control de eventos que retiene los eventos detectados por el módulo de detección de eventos, para cada uno de los niveles, y un módulo de salida que proporciona como salida los eventos retenidos por el módulo de control de eventos, para cada uno de los niveles.
A partir de ahora, se describirán específicamente un aparato de búsqueda de imágenes y un método de búsqueda de imágenes de acuerdo con una modalidad.
Primera Modalidad La FIGURA 1 es un diagrama ejemplar que se muestra para explicar un aparato 100 de búsqueda de imágenes de acuerdo con la modalidad.
Como se muestra en la FIGURA 1, el aparato 100 de búsqueda de imágenes comprende un módulo 110 de entrada de imágenes, un módulo 120 de detección de eventos, un módulo 130 de unidad de control de la información de la característica de búsqueda, un módulo 140 de control de eventos, y un módulo 150 de salida. El aparato 100 de búsqueda de imágenes puede comprender un módulo de operación que recibe una entrada operacional a partir de los usuarios.
El aparato 100 de búsqueda de imágenes extrae las escenas que representan mediante imagen ( visualmente ) una figura humana específica a partir de las imágenes de entrada (fotografías o secuencias de imágenes) tales como las imágenes del monitor. El aparato 100 de búsqueda de imágenes extrae los eventos dependiendo de los grados de conflabilidad que indican cuán confiablemente una figura humana se representa mediante imágenes. De esta manera, el aparato 100 de búsqueda de imágenes asigna niveles a las escenas que incluyen los eventos extraídos, respectivamente para los grados de conflabilidad. Controlando una lista de los eventos extraídos asociados con las imágenes, el aparato 100 de búsqueda de imágenes puede fácilmente proporcionar como salida escenas en las cuales existe una figura humana deseada.
De esta manera, el aparato 100 de búsqueda de imágenes puede buscar la misma figura humana según se representa visualmente en una foto de cara actualmente en mano. El aparato 100 de búsqueda de video también puede buscar imágenes pertinentes cuando ocurre un accidente o crimen. Adicionalmente, el aparato 100 de búsqueda de imágenes puede buscar eventos o escenas pertinentes entre las imágenes de una cámara de seguridad instalada.
El módulo 110 de entrada de imágenes es un medio de entrada al cual se ingresan imágenes desde una cámara o un almacenamiento que almacena imágenes.
El módulo 120 de detección de eventos detecta eventos tales como una región de movimiento, una región personal, una región de la cara, información de atributos personales, o información de identificación personal. El módulo 120 de detección de eventos obtiene secuencialmente información (información del cuadro) que indica las posiciones de los cuadros que incluyen los eventos detectados en una imagen de video.
Un módulo 130 de control de la información de la característica de búsqueda almacena la información personal y la información utilizada para la determinación de los atributos .
Un módulo 140 de control de eventos asocia las imágenes de entrada, los eventos detectados, y la información del cuadro entre sí. El módulo 150 de salida proporciona como salida un resultado controlado por el módulo 140 de control de eventos .
A continuación se describirán en orden los módulos del aparato 100 de búsqueda de imágenes.
El módulo 110 de entrada de imágenes ingresa una imagen de cara de una figura humana objetivo a representar mediante imagen. El módulo 110 de entrada de imágenes comprende, por ejemplo, una cámara de televisión industrial (ITV) . La cámara ITV digitaliza la información óptica recibida a través de un lente, mediante un convertidor A/D, y proporciona como salida la información como datos de imagen. De esta manera, el módulo 110 de entrada de imágenes puede proporcionar como salida datos de imagen al módulo 120 de detección de eventos.
El módulo 110 de entrada de imágenes alternativamente se puede configurar para comprender un aparato de registro tal como una grabadora de video digital (DVR) , que registra imágenes, o una terminal de entrada que se alimenta con imágenes registradas en un medio de registro. Específicamente, el módulo 110 de entrada de imágenes puede tener cualquier configuración en tanto la configuración pueda obtener datos de imagen digitalizados .
Un objetivo de búsqueda necesita sólo ser, finalmente, datos de imagen digitales que incluyan una imagen de cara. Un archivo de imagen creado por una cámara fotográfica digital se puede cargar a través de un medio, o incluso es aprovechable una imagen digital escaneada a partir de un medio de papel o una fotografía. En este caso, una escena de búsqueda de una gran cantidad de imágenes fijas almacenadas para una imagen correspondiente se cita como un ejemplo de aplicación.
El módulo 120 de detección de eventos detecta una imagen suministrada a partir del módulo 110 de entrada de imágenes o un evento a ser detectado con base en una pluralidad de imágenes. El módulo 120 de detección de eventos también detecta un índice que indica un cuadro (por ejemplo, un número de cuadros) en que se ha detectado un evento. Por ejemplo, cuando las imágenes a ser ingresadas son una pluralidad de imágenes fijas, el módulo 120 de detección de eventos puede detectar nombres de archivo de las imágenes fijas como la información del cuadro.
El módulo 120 de detección de eventos detecta, como eventos, una escena donde existe una región que se mueve con un tamaño predeterminado o más, una escena donde existe una figura humana, una escena donde se detecta una cara de una figura humana, una escena donde se detecta una cara de una figura humana y existe una persona que corresponde a un atributo especifico, y una escena donde se detecta una cara de una figura humana y existe una persona especifica. Sin embargo, los eventos que se detectan por el módulo 120 de detección de eventos no se limitan a aquellos descritos anteriormente. El módulo 120 de detección de eventos se puede configurar para detectar un evento de cualquier manera en tanto que el evento indique que existe una figura humana.
El módulo 120 de detección de eventos detecta una escena que pueda representar mediante imagen una figura humana, como un evento. El módulo 120 de detección de eventos agrega niveles respectivamente a las escenas en orden desde una escena a partir de la cual se puede obtener la cantidad más grande de información pertinente a una figura humana.
Específicamente, el módulo 120 de detección de eventos asigna "nivel 1" como el nivel mínimo a cada escena donde existe una región que se mueve sobre un tamaño predeterminado o más. El módulo 120 de detección de eventos asigna "nivel 2" a cada escena donde existe una figura humana. El módulo 120 de detección de eventos asigna "nivel 3" a cada escena donde se detecta la cara de una figura humana. El módulo 120 de detección de eventos asigna "nivel 4" a cada escena donde se detecta la cara de una figura humana y existe una figura humana que corresponde a un atributo especifico. Adicionalmente, el módulo 120 de detección de eventos asigna "nivel 5" como el nivel más alto a cada escena donde se detecta la cara de una figura humana y existe una persona especifica .
El módulo 120 de detección de eventos detecta una región que se mueve sobre un tamaño predeterminado o más, en un método descrito más abajo. El módulo 120 de detección de eventos detecta una escena donde existe una región que se mueve sobre un tamaño predeterminado o más, con base en un método descrito en la Patente Japonesa No. P3486229, P3490196, o P3567114.
Específicamente, el módulo 120 de detección de eventos almacena, para el estudio preliminar, una distribución de luminancia en una imagen de fondo, y compara una imagen suministrada a partir del módulo 110 de entrada de imágenes con la distribución de luminancia pre-almacenada . Como un resultado de la comparación, el módulo 120 de detección de eventos determina que "existe un objeto que no forma parte de un fondo" en cualquier región de la imagen que no empate con la distribución de luminancia.
En la presente modalidad, la versatilidad general se puede mejorar empleando un método capaz de detectar correctamente un "objeto que no forma parte de un fondo" incluso a partir de una imagen que incluya un fondo donde aparezca un cambio periódico tal como el movimiento de hojas.
El módulo 120 de detección de eventos extrae los pixeles donde ocurrió un cambio en la luminancia, predeterminado o mayor, en la región de movimiento detectada, y transforma los pixeles en una imagen binaria expresada por "cambio = 1" y "sin cambio = 0". El módulo 120 de detección de eventos divide cada conjunto de pixeles, cada uno de los cuales se expresa por "1", por medio de etiquetado, y calcula un tamaño de una región de movimiento, con base en un tamaño de un rectángulo circunscrito para cada uno de los conjuntos de pixeles, o con base en un número de pixeles en movimiento incluidos en cada uno de los conjuntos de pixeles. Si el tamaño calculado es mayor que un tamaño de referencia pre-establecido, el módulo 120 de detección de eventos determina "cambiado" y extrae la imagen .
Si la región de movimiento es extremadamente grande, el módulo 120 de detección de eventos determina que los valores de pixel han cambiado debido a que el sol se ha ido detrás de una nube y se ha oscurecido repentinamente o porque se ha encendido una iluminación cercana, o por alguna otra razón casual. Por consiguiente, el módulo 120 de detección de eventos puede extraer correctamente una escena donde existe un objeto en movimiento tal como una figura humana.
El módulo 120 de detección de eventos también puede extraer correctamente una escena donde existe un objeto en movimiento tal como una figura humana, estableciendo un limite superior a un tamaño a ser determinado como una región de movimiento. Por ejemplo, el módulo 120 de detección de eventos puede extraer de manera más exacta una escena donde existe una figura humana, estableciendo umbrales para los limites superior e inferior para un tamaño asumido de una distribución de un ser humano.
El módulo 120 de detección de eventos puede detectar una escena donde existe una figura humana, con base en un método descrito más abajo. Por ejemplo, el módulo 120 de detección de eventos puede detectar una escena donde existe una figura humana utilizando tecnología para detectar una región del todo de una figura humana. La tecnología para detectar una región del todo de una figura humana se describe en, por ejemplo, Documento 1 (Watanabe et al., "Co-occurrence Histograms of Oriented Gradients for Pedestrian Detection, In Proceedings of the 3rd Pacific-Rim Symposium on Image and Video Technology" (PSIVT2009) , pp. 37-47) .
En este caso, el módulo 120 de detección de eventos obtiene cómo aparece una distribución de la información del gradiente de luminancia cuando existe una figura humana, utilizando la co-ocurrencia en una pluralidad de regiones locales. Si existe una figura humana, una región media superior de la figura humana se puede calcular como información del rectángulo.
Si existe una figura humana en una imagen de entrada, el módulo 120 de detección de eventos detecta un cuadro de la misma como un evento. De acuerdo con este método, el módulo 120 de detección de eventos puede detectar una escena donde existe una figura humana aún cuando una cara de la figura humana no se represente visualmente en la imagen o si la resolución es insuficiente para reconocer una cara.
Con base en un método descrito más abajo, el módulo 120 de detección de eventos detecta una escena donde se detecta una cara de una figura humana. El módulo 120 de detección de eventos calcula un valor de correlación con mover una plantilla preparada dentro de una imagen de entrada. El módulo 120 de detección de eventos especifica, como una región de la cara, una región donde se calcula un valor de correlación más alto. De esta manera, el módulo 120 de detección de eventos puede detectar una escena donde se representa mediante imagen una cara de una figura humana.
Alternativamente, el módulo 120 de detección de eventos se puede configurar para detectar una región de la cara utilizando un método de espacio propio o un método de subespacio. El módulo 120 de detección de eventos detecta una posición de una porción facial tal como un ojo o una nariz a partir de una imagen de una región de la cara detectada. El módulo 120 de detección de eventos puede detectar porciones faciales de acuerdo con un método descrito en, por ejemplo, Documento 2 (Kazuhiro Fukui and Osamu Yamaguchi, "Facial Feature Point Extraction Method Based on Combination of Shape Extraction and Pattern Matching", Transactions of the Institute of Electronics, Information and Communication Engineers (D) , vol .J80-D-II, No.8, pp 2170 - 2177(1997)).
Cuando el módulo 120 de detección de eventos detecta una región de la cara (característica de la cara) a partir de una imagen, el módulo 120 de detección de eventos obtiene un valor de correlación con respecto a una plantilla para toda la imagen, y proporciona como salida una posición y un tamaño que maximizan el valor de correlación. Cuando se obtiene una pluralidad de características faciales a partir de una imagen, el módulo 120 de detección de eventos obtiene un valor máximo local del valor de correlación para toda la imagen, y limita las posiciones candidato de una cara en consideración del traslape dentro de una imagen. Adicionalmente, el módulo 120 de detección de eventos finalmente puede detectar simultáneamente una pluralidad de características faciales en consideración de las relaciones (transición cronológica) con las imágenes pasadas que se han ingresado secuencialmente .
Alternativamente, el módulo 120 de detección de eventos se puede configurar para pre-almacenar patrones faciales de figuras humanas que utilizan una máscara, anteojos de sol, y una prenda para la cabeza, como plantillas para que una región de la cara se pueda detectar aun si una figura humana utiliza una máscara, anteojos de sol, o una prenda para la cabeza.
Si el módulo 120 de detección de eventos no puede detectar todos los puntos de características faciales cuando el módulo 120 de detección de eventos detecta puntos de características faciales, el módulo 120 de detección de eventos realiza un procesamiento, con base en los valores de evaluación para parte de los puntos de características faciales. Específicamente, si un valor de evaluación para parte de los puntos de características faciales es no menor que un valor de referencia pre-establecido, el módulo 120 de detección de eventos puede estimar los puntos de características restantes a partir de los puntos de características que han sido detectados utilizando un modelo facial bidimensional o tridimensional.
Aún cuando algún punto de característica no se pueda detectar en absoluto, el módulo 120 de detección de eventos puede detectar una posición de una cara entera y puede estimar un punto de característica facial a partir de la posición de la cara entera, estudiando preliminarmente un patrón de una cara entera.
Si existe una pluralidad de caras en una imagen, el módulo 120 de detección de eventos puede dar una instrucción acerca de cuál cara establecer como un objetivo de búsqueda, mediante un medio de configuración de la condición de búsqueda o un medio de salida. Adicionalmente, el módulo 120 de detección de eventos se puede configurar para seleccionar y proporcionar como salida automáticamente objetivos de búsqueda en un orden de índices que indican la probabilidad de la cara obtenida a través del procesamiento anteriormente descrito.
Si una figura humana idéntica se representa mediante imagen durante todos los cuadros secuenciales, es más adecuado tratar los cuadros como "un evento que representa mediante imagen una figura humana idéntica" que controlar los cuadros como eventos respectivamente diferentes, en muchos casos.
Por lo tanto, el módulo 120 de detección de eventos calcula probabilidades, con base en la información estadística que indica a cuál de los cuadros secuenciales se mueve una figura humana que camina normalmente, y selecciona una combinación que maximiza la probabilidad. El módulo 120 de detección de eventos puede asociar por consiguiente la combinación con un evento a surgir. De esta manera, el módulo 120 de detección de eventos puede reconocer, como un evento, una escena donde una figura humana idéntica se representa mediante imagen durante toda una pluralidad de cuadros.
Cuando una tasa de cuadros es alta, el módulo 120 de detección de eventos asocia las regiones personales o las regiones de la cara entre si entre cuadros utilizando, por ejemplo, un flujo óptico. Consecuentemente, el módulo 120 de detección de eventos puede reconocer, como un evento, una escena donde una figura humana idéntica se representa mediante imagen durante toda una pluralidad de cuadros.
Adicionalmente, el módulo 120 de detección de eventos puede seleccionar una "mejor toma" entre una pluralidad de cuadros (un grupo de imágenes asociadas). La mejor toma es más adecuada para inspeccionar visualmente una figura humana.
Entre los cuadros incluidos en un evento detectado, el módulo 120 de detección de eventos selecciona, como la mejor toma, un cuadro que tiene el valor más alto que toma al menos uno o más índices en consideración, de entre un cuadro que incluye la región más grande de la cara, un cuadro en que una cara de un ser humano se dirige en una dirección más cercana a la dirección frontal, un cuadro que tiene el máximo contraste de una imagen en una región de la cara, y un cuadro que tiene la máxima similitud a un patrón que indica la probabilidad de la cara.
Alternativamente, el módulo 120 de detección de eventos se puede configurar para seleccionar, como la mejor toma, una imagen fácil de ver para los ojos humanos o una imagen adecuada para un procesamiento de reconocimiento. Un criterio de selección para seleccionar tal una mejor toma se puede establecer libremente con base en la discreción del usuario.
El módulo 120 de detección de eventos detecta una escena donde existe una figura humana que corresponde a un atributo especifico, con base en un método descrito más abajo. El módulo 120 de detección de eventos calcula la información de la característica para especificar la información de los atributos de una figura humana utilizando la información de una región de la cara detectada por el procesamiento descrito anteriormente .
La información de los atributos descrita en la presente modalidad se ha descrito como incluyendo los cinco tipos de edad, sexo, tipo de anteojos, tipo de máscara, y tipo de prenda para la cabeza. Sin embargo, el módulo 120 de detección de eventos se puede configurar para utilizar otra información de atributo. Por ejemplo, el módulo 120 de detección de eventos se puede configurar para utilizar, como la información de los atributos, una raza, utilizar anteojos o no (información de 1 o 0) , utilizar una máscara o no (información de 1 o 0) , utilizar una prenda para la cabeza o no (información de 1 o 0) , un accesorio facial (perforación, pendiente, etcétera) , un atuendo, una apariencia de la cara, un índice de obesidad, un índice de riqueza o bienestar, etcétera. El módulo 120 de detección de eventos puede utilizar cualquier característica como un atributo mediante el estudio de un patrón por adelantado para cada atributo utilizando un método de determinación de atributos descrito más tarde.
El módulo 120 de detección de eventos extrae una característica facial a partir de una imagen en una región de la cara. Por ejemplo, el módulo 120 de detección de eventos puede calcular la característica facial utilizando el método de subespacio.
Cuando un atributo de una figura humana se determina comparando una característica facial con la información de los atributos, existe un caso que un método de cálculo para calcular una característica facial difiere para cada atributo. Por lo tanto, el módulo 120 de detección de eventos se puede configurar para calcular una característica facial utilizando un método de cálculo dependiendo de la información de los atributos con la que se comparará.
Por ejemplo, cuando la comparación se realiza con la información de los atributos tal como una edad o un género, el módulo 120 de detección de eventos puede determinar de manera más exacta un atributo aplicando un pre-procesamiento adecuado para cada uno de la edad y el género.
Usualmente, cada figura humana tiene una cara que más se arruga a medida que incrementa la edad de una figura humana. Por consiguiente, el módulo 120 de detección de eventos puede determinar un atributo (la década de la edad) de una figura humana con alta exactitud, sintetizando un filtro de énfasis de segmentos de lineas que enfatiza las arrugas, en una imagen de una región de la cara.
El módulo 120 de detección de eventos sintetiza un filtro que enfatiza un componente de frecuencia para enfatizar una porción especifica para un género (tal como una barba) , en una imagen de una región de la cara, o sintetiza un filtro que enfatiza la información del esqueleto, en una imagen de una región de la cara. De esta manera, el módulo 120 de detección de eventos puede determinar de manera más exacta un atributo (género) de una persona.
Adicionalmente, el módulo 120 de detección de eventos especifica una posición de un ojo, un canto exterior, o un canto interior de una porción facial obtenida por un procesamiento de detección de la cara. Por consiguiente, el módulo 120 de detección de eventos puede obtener información de la característica concerniente a anteojos cortando una imagen alrededor de los dos ojos y tratando la imagen cortada como un objetivo de cálculo para un subespacio.
El módulo 120 de detección de eventos especifica, por ejemplo, las posiciones de una boca y una nariz a partir de la información posicional de las porciones faciales, que se obtiene por el procesamiento de detección de la cara. Por consiguiente, el módulo 120 de detección de eventos puede obtener información de la característica concerniente a una máscara, cortando una imagen alrededor de las posiciones especificadas de la boca y nariz y tratando la imagen cortada como un objetivo de cálculo para un subespacio.
El módulo 120 de detección de eventos especifica las posiciones de los ojos y cejas a partir de la información posicional de las porciones faciales obtenida por el procesamiento de detección de la cara. Por consiguiente, el módulo 120 de detección de eventos puede especificar un extremo superior de una región de piel de una cara. Adicionalmente, el módulo 120 de detección de eventos puede obtener la información de la característica concerniente a una prenda para la cabeza, cortando una imagen de una región superior de una cara especificada y tratando la imagen cortada como un objetivo de cálculo para un subespacio.
Como se describe anteriormente, el módulo 120 de detección de eventos puede extraer la información de la característica especificando unos anteojos, una máscara, y un sombrero a partir de una posición de una cara.
Específicamente, el módulo 120 de detección de eventos puede extraer la información de la característica a partir de cualquier atributo en tanto que el atributo exista en una posición que sea estimable a partir de una posición de una cara.
Un algoritmo que detecta directamente un objeto que una figura humana se pone generalmente ha sido puesto en uso práctico. El módulo 120 de detección de eventos se puede configurar para extraer la información de la característica utilizando tal un método.
A menos que una figura humana utilice anteojos, una máscara, o una prenda para la cabeza, el módulo 120 de detección de eventos extrae la información de la piel facial directamente como la información de la característica. Por consiguiente, se extrae diferente información de la característica individualmente para cada uno de los atributos tales como anteojos, una máscara, y anteojos de sol. Específicamente, el módulo 120 de detección de eventos no necesita extraer obligatoriamente la información de la característica particularmente clasificando atributos tales como anteojos, una máscara, y anteojos de sol.
El módulo 120 de detección de eventos se puede configurar para extraer separadamente la información de la característica que indica nada puesto si una figura humana no utiliza anteojos, ni una máscara, ni un sombrero.
Después de calcular la información de la característica para determinar un atributo, el módulo 120 de detección de eventos compara adicionalmente la información de la característica con la información de los atributos almacenada por el módulo 130 de control de la información de la característica de búsqueda descrito más tarde. El módulo 120 de detección de eventos determina por consiguiente un atributo tal como un género, una década de la edad, anteojos, una máscara, y un sombrero para una figura humana de una imagen de cara ingresada. El módulo 120 de detección de eventos establece, como un atributo a ser utilizado para detectar un evento, al menos uno de una edad, un género, utilizar anteojos o no, un tipo de anteojos, utilizar una máscara o no, un tipo de máscara, utilizar una prenda para la cabeza o no, un tipo de prenda para la cabeza, una barba, un lunar, una arruga, una lesión, un color de pelo, un color de atuendo, una forma del atuendo, una prenda para la cabeza, un ornamento, un accesorio cerca de la cara, una apariencia de la cara, un grado de riqueza, y una raza.
El módulo 120 de detección de eventos proporciona como salida el atributo determinado al módulo 120 de detección de eventos. Específicamente, como se muestra en la FIGURA 2, el módulo 120 de detección de eventos comprende un módulo 121 de extracción y un módulo 122 de determinación de atributos. El módulo 121 de extracción extrae la información de la característica para una región predeterminada en una imagen registrada (imagen de entrada), como se describe anteriormente. Por ejemplo, cuando se ingresan la información de la región de la cara que indica una región de la cara y una imagen de entrada, el módulo 121 de extracción calcula entonces la información de la característica para la región indicada por la información de la región de la cara en la imagen de entrada.
El módulo 122 de determinación de atributos determina un atributo de una figura humana en la imagen de entrada, con base en la información de la característica extraída por el módulo 121 de extracción y la información de atributos pre-almacenada en el módulo 130 de control de la información de la característica de búsqueda. El módulo 122 de determinación de atributos determina un atributo de la figura humana en la imagen de entrada, calculando una similitud entre la información de la característica extraída por el módulo 121 de extracción y la información de atributos pre-almacenada en el módulo 130 de control de la información de la característica de búsqueda.
El módulo 122 de determinación de atributos comprende, por ejemplo, un módulo 123 de determinación del género y un módulo 124 de determinación de la década de la edad. El módulo 122 de determinación de atributos puede comprender además un módulo de determinación para determinar un atributo adicional. Por ejemplo, el módulo 122 de determinación de atributos puede comprender un módulo de determinación que determina un atributo tal como anteojos, una máscara, o una prenda para la cabeza .
Por ejemplo, el módulo 130 de control de la información de la característica de búsqueda preliminarmente retiene la información de atributo de hombre y la información de atributo de mujer. El módulo 123 de determinación del género calcula las similitudes, con base en la información de atributo de hombre y la información de atributo de mujer retenidas por el módulo 130 de control de la información de la característica de búsqueda, y la información de la característica extraída por el módulo 121 de extracción. El módulo 123 de determinación del género proporciona como salida la información de los atributos para la cual se ha calculado una mayor similitud, como un resultado de una determinación de los atributos para una imagen de entrada.
Por ejemplo, como se describe en la Publicación KOKAI de Solicitud de Patente Japonesa No. 2010-044439, el módulo 123 de determinación del género utiliza una cantidad de características reteniendo una frecuencia de ocurrencias de una característica de gradiente local de una cara como la información estadística. Específicamente, el módulo 123 de determinación del género determina dos clases tales como la masculinidad y la feminidad, seleccionando una característica de gradiente para la cual la masculinidad o la feminidad puede ser más identificada a partir de la información estadística, y calculando un discriminador que identifica la característica a través de estudios.
Si hay atributos de tres clases o más en lugar de dos clases, como en la estimación de la edad, el módulo 130 de control de la información de la característica de búsqueda preliminarmente retiene diccionarios de características faciales promedio (información de los atributos) para las clases respectivas (décadas de la edad en este caso) . El módulo 124 de determinación de la década de la edad calcula una similitud entre la información de los atributos para cada década de la edad, que se retiene en el módulo 130 de control de la información de la característica de búsqueda, y la información de la característica extraída por el módulo 121 de extracción. El módulo 124 de determinación de la década de la edad determina una década de la edad de una figura humana en una imagen de entrada, con base en la información de los atributos utilizada para calcular la similitud más alta.
La tecnología para estimar una década de la edad en exactitud mucho más alta será un método descrito más abajo, el cual utiliza un discriminador de dos clases como se describe anteriormente .
Al principio, para estimar las edades, el módulo 130 de control de la información de la característica de búsqueda retiene preliminarmente una imagen de cara para cada una de las edades que se desean identificar. Por ejemplo, para determinar un grupo de décadas de edad de edades desde 10 hasta 60, el módulo 130 de control de la información de la característica de búsqueda retiene preliminarmente una imagen de cara para edades menores que 10 y no menores que 60. En este caso, a medida que incrementa el número de imágenes de cara retenidas por el módulo 130 de control de la información de la característica de búsqueda, las décadas de edad se pueden determinar de manera más exacta. Adicionalmente, el módulo 130 de control de la información de la característica de búsqueda puede ampliar las edades determinables reteniendo preliminarmente imágenes de cara para décadas de edad más amplias .
Después, el módulo 130 de control de la información de la característica de búsqueda prepara un discriminador para determinar "si una década de la edad es mayor o menor que una edad de referencia". El módulo 130 de control de la información de la característica de búsqueda puede hacer que el módulo 120 de detección de eventos realice una determinación de dos clases utilizando análisis discriminativo lineal .
El módulo 120 de detección de eventos y el módulo 130 de control de la información de la característica de búsqueda se pueden configurar para emplear un método tal como una máquina de vectores de soporte. La máquina de vectores de soporte se referirá a partir de ahora como una SVM. De acuerdo con la SVM, se puede establecer una condición de límite para discriminar dos clases, y se puede calcular si una distancia está dentro de una distancia establecida desde un límite o no. Por consiguiente, el módulo 120 de detección de eventos y el módulo 130 de control de la información de la característica de búsqueda pueden discriminar imágenes de cara que pertenecen a edades mayores que una edad N de referencia e imágenes de cara que pertenecen a edades menores que la edad N de referencia .
Por ejemplo, donde la edad de referencia es 30, el módulo 130 de control de la información de la característica de búsqueda retiene preliminarmente un grupo de imágenes para determinar si se excede 30 o no. Por ejemplo, el módulo 130 de control de la información de la característica de búsqueda se alimenta con imágenes que incluyen imágenes para la edad 30 o más edad, como las imágenes para una clase positiva de "30 o más edad". El módulo 130 de control de la información de la característica de búsqueda también se alimenta con imágenes para una clase negativa de "menor que 30". El módulo 130 de control de la información de la característica de búsqueda realiza estudios SVM con base en las imágenes de entrada.
Mediante el método anteriormente descrito, el módulo 130 de control de la información de la característica de búsqueda crea diccionarios, con edades de referencia desplazadas desde 10 hasta 60. De esta manera, por ejemplo, como se muestra en la FIGURA 3, el módulo 130 de control de -la información de la característica de búsqueda crea diccionarios para la determinación de la década de la edad de "10 o más edad", "menor que 10", "20 o más edad", "menor que 20", y "60 o más edad", "menor que 60". El módulo 124 de determinación de la década de la edad determina una década de la edad para una figura humana en una imagen de entrada, con base en una pluralidad de diccionarios para la determinación de la década de la edad que se almacenan por el módulo 130 de control de la información de la característica de búsqueda, y con base en la imagen de entrada.
El módulo 130 de control de la información de la característica de búsqueda clasifica las imágenes para la determinación de la década de la edad, que se han preparado desplazando las edades de referencia desde 10 hasta 60, en dos clases con relación a una edad de referencia. De esta manera, el módulo 130 de control de la información de la característica de búsqueda puede preparar una máquina de estudio SVM de conformidad con el número de edades de referencia. En la presente modalidad, el módulo 130 de control de la información de la característica de búsqueda prepara seis máquinas de estudio para edades desde 10 hasta 60.
El módulo 130 de control de la información de la característica de búsqueda "devuelve un índice de un valor positivo cuando se ingresa una edad mayor que la edad de referencia" estudiando una clase de "edad X o más edad" como una clase "positiva". Un índice que indica si una década de edad es mayor o menor que la edad de referencia se puede obtener, realizando este procesamiento de determinación con desplazamiento de las edades de referencia desde 10 hasta 60. Entre los índices así proporcionados como salida, un índice que es más cercano a cero es más cercano a una edad a ser proporcionada como salida.
La FIGURA 4 muestra un método para estimar una edad. Un módulo 124 de determinación de la década de la edad en el módulo 120 de detección de eventos calcula un valor de salida de la SVM para cada edad de referencia. Adicionalmente, el módulo 124 de determinación de la década de la edad gráfica los valores de salida a lo largo del eje vertical que representa los valores de salida y a lo largo del eje horizontal que representa las edades de referencia. Con base en la gráfica, el módulo 124 de determinación de la década de la edad puede especificar una edad de una figura humana en una imagen de entrada.
Por ejemplo, el módulo 124 de determinación de la década de la edad selecciona una gráfica cuyo valor de salida es más cercano a cero. En el ejemplo mostrado en la FIGURA 4, la edad de referencia 30 da como resultado el valor de salida más cercano a cero. En este caso, el módulo 124 de determinación de la década de la edad proporciona como salida "los años treinta" como un atributo de una figura humana en una imagen de entrada. Cuando la gráfica fluctúa de manera no estable hacia arriba y hacia abajo, el módulo 124 de determinación de la década de la edad puede determinar de manera estable una década de la edad calculando un cambio promedio con relación a las edades de referencia adyacentes.
Por ejemplo, el módulo 124 de determinación de la década de la edad se puede configurar para calcular una función de aproximación, con base en una pluralidad de gráficas adyacentes entre si, y para especificar un valor sobre el eje horizontal como una edad estimada si un valor de salida de la función de aproximación calculada es 0. En un ejemplo mostrado en la FIGURA 4, el módulo 124 de determinación de la década de la edad especifica un punto de intersección calculando una función de aproximación lineal, con base en las gráficas, y puede especificar una edad de aproximadamente 33 a partir del punto de intersección especificado.
Adicionalmente, el módulo 124 de determinación de la década de la edad se puede configurar para calcular una función de aproximación con base en todas las gráficas en lugar de un subconjunto (por ejemplo, las gráficas que cubren tres edades de referencia adyacentes) . En este caso, se puede calcular una función de aproximación con menos errores de aproximación .
Alternativamente, el módulo 124 de determinación de la década de la edad se puede configurar para determinar una clase mediante un valor obtenido a partir de una función de transformación predeterminada.
Adicionalmente, el módulo 120 de detección de eventos detecta una escena donde existe una persona especifica, con base en un método descrito más abajo. Al principio, el módulo 120 de detección de eventos calcula la información de la característica para especificar la información de los atributos de una figura humana utilizando la información de una región de la cara detectada por el procesamiento como se describe anteriormente. En este caso, el módulo 130 de control de la información de la característica de búsqueda comprende un diccionario para especificar una persona. Este diccionario comprende información de la característica calculada a partir de una imagen de cara de una persona a especificar.
El módulo 120 de detección de eventos corta una región de la cara en un tamaño constante y una forma constante, con base en las posiciones detectadas de las partes de una cara, y utiliza la información de escala de grises de las mismas como una cantidad de características. Aquí, el módulo 120 de detección de eventos utiliza valores de escala de grises de una región de m x n pixeles directamente como la información de la característica, e información dimensional de m x n como un vector de la característica.
El módulo 120 de detección de eventos realiza un procesamiento empleando el método de subespacio, con base en la información de la característica extraída a partir de una imagen de entrada y la información de la característica de una persona retenida por el módulo 130 de control de la información de la característica de búsqueda. Específicamente, el módulo 120 de detección de eventos calcula una similitud entre los vectores de la característica realizando una normalización para establecer las longitudes de los vectores cada una a 1 y calculando un producto interior, de acuerdo con un método de similitud simple.
Alternativamente, el módulo 120 de detección de eventos puede aplicar un método de crear una imagen en que una dirección o condición de una cara se mueve intencionalmente, utilizando un modelo, para encontrarse con la información de la imagen de una imagen. De acuerdo con el procesamiento descrito anteriormente, el módulo 120 de detección de eventos puede obtener una característica de una cara a partir de una imagen .
El módulo 120 de detección de eventos puede reconocer una figura humana en exactitud más alta, con base en una secuencia de imágenes que incluye una pluralidad de imágenes obtenidas cronológicamente secuencialmente de una figura humana idéntica. Por ejemplo, el módulo 120 de detección de eventos se puede configurar para emplear un método de subespacio mutuo descrito en el Documento 3 (Kazuhiro Fukui, Osamu Yamaguchi, and Kenichi Maeda: "Face Recognition System using Temporal Image Sequence", IEICE technical report PRMU, vol 97, No. 113, pp 17-24 (1997) ) .
En este caso, el módulo 120 de detección de eventos corta una imagen de m x n pixeles a partir de una secuencia de imágenes, como en el procesamiento de extracción de característica descrito anteriormente, obtiene una matriz de correlación con base en los datos cortados, y obtiene vectores ortonormales mediante expansión KL. Por consiguiente, el módulo 120 de detección de eventos puede calcular un subespacio que indica una característica facial obtenida a partir de- las imágenes secuenciales .
De acuerdo con un método de cálculo para un subespacio, se calcula una matriz de correlación (o matriz de covarianzas) de los vectores de la característica, y se calculan vectores ortonormales (vectores propios) mediante la expansión K-L de los mismos. Consecuentemente, se calcula un subespacio. El subespacio se expresa seleccionando k vectores propios correspondientes a un valor propio, en un orden desde uno que tiene el máximo valor propio, y utilizando un conjunto de los vectores propios. En la presente modalidad, una matriz F de vectores propios se obtiene mediante la obtención de una matriz de correlación Cd a partir de los vectores de la característica, y mediante la diagonalizacion de la matriz con la matriz de correlación Cd = F? Ad F? T. Esta información es un subespacio que indica una característica facial de una figura humana quien es actualmente un objetivo de reconocimiento .
La información de la característica tal como un subespacio que se proporciona como salida en un método como se describe anteriormente se toma como la información de la característica de una persona para una cara detectada a partir de una imagen de entrada. El módulo 120 de detección de eventos realiza un procesamiento de realizar un cálculo para indicar las similitudes a la información de la característica facial en el módulo 130 de control de la información de la característica de búsqueda que preliminarmente registra una pluralidad de caras, y de devolver resultados en orden desde uno que tiene la similitud más alta.
En este momento, como resultados del procesamiento de búsqueda, figuras humanas controladas en el módulo 130 de control de la información de la característica de búsqueda para identificar personas, IDs, e índices que indican las similitudes como resultados de cálculo se devuelven en orden desde uno que tiene la similitud más alta. Además de los resultados, la información controlada para cada una de las personas mediante el módulo 130 de control de la información de la característica de búsqueda se puede devolver conjuntamente. Sin embargo, debido a que la asociación con IDs de identificación está disponible, no se necesita utilizar información adicional en el procesamiento de búsqueda.
Se utiliza un índice que indica una similitud, una similitud entre subespacios controlada como la información de la característica facial. Un método de cálculo del mismo puede ser un método de subespacio, un método de similitud múltiple, o cualquier otro método. En el método, ambos de los datos de reconocimiento pre-almacenados en la información de registro y los datos de entrada se expresan como subespacios calculados a partir de una pluralidad de imágenes, y un "ángulo" entre dos subespacios se define como una similitud.
Aquí, un subespacio de entrada se refiere como un subespacio de medios de entrada. El módulo 120 de detección de eventos también obtiene una matriz de correlación Cin para una columna de datos de entrada, y se diagonaliza con la matriz con Cin = F?????F???, para obtener por consiguiente vectores propios F??. El módulo 120 de detección de eventos obtiene una similitud de subespacio (0.0 a 1.0) para un subespacio expresado por dos vectores propios F?? y Fd. El módulo 120 de detección de eventos utiliza esta similitud como una similitud para reconocer una persona.
El módulo 120 de detección de eventos se puede configurar para identificar una persona proyectando una pluralidad de imágenes de cara, que -se sabe- pertenecen a una figura humana idéntica, conjuntamente a un subespacio. En este caso, se puede mejorar la exactitud de identificación personal.
El módulo 130 de control de la información de la característica de búsqueda retiene una variedad de información utilizada en un procesamiento para detectar varios eventos mediante el módulo 120 de detección de eventos. Como se describe anteriormente, el módulo 130 de control de la información de la característica de búsqueda retiene información requerida para determinar personas, y atributos de figuras humanas.
El módulo 130 de control de la información de la característica de búsqueda retiene, por ejemplo, información de la característica facial para cada una de las personas, e información de la característica (información de los atributos) para cada uno de los atributos. Adicionalmente, el módulo 130 de control de la información de la característica de búsqueda puede retener información de los atributos asociada con cada figura humana idéntica.
El módulo 130 de control de la información de la característica de búsqueda retiene, como la información de la característica facial y la información de los atributos, una variedad de información de la característica calculada en el mismo método como el módulo 120 de detección de eventos. Por ejemplo, el módulo 130 de control de la información de la característica de búsqueda retiene m x n vectores de la característica, un subespacio, o una matriz de correlación inmediatamente antes de que se realice la expansión KL.
En muchos casos, la información de la característica para especificar personas no se puede preparar por adelantado. Por consiguiente, la configuración se puede disponer a fin de detectar figuras humanas a partir de fotografías o secuencias de imágenes ingresadas al aparato 100 de búsqueda de imágenes, calcular información de la característica con base en imágenes de figuras humanas detectadas, y almacenar la información de la característica calculada en el módulo 130 de control de la información de la característica de búsqueda. En este caso, el módulo 130 de control de la información de la característica de búsqueda almacena, con asociar la información de la característica, imágenes faciales, IDs de identificación, y nombres entre sí, en donde los nombres se ingresan a través de un módulo de entrada de operaciones no ilustrado.
El módulo 130 de control de la información de la característica de búsqueda se puede configurar para almacenar diferente información adicional o información de los atributos asociada con la información de la característica, con base en la información de texto pre-establecida .
El módulo 140 de control de eventos retiene información concerniente a un evento detectado por el módulo 120 de detección de eventos. Por ejemplo, el módulo 140 de control de eventos almacena la información de imagen de entrada directamente apenas la información de imagen se ingresa o se somete a una conversión descendente. Si la información de imagen se ingresa desde un aparato tal como una DVR, el módulo 140 de control de eventos almacena la información del enlace para una imagen correspondiente. De esta manera, el módulo 140 de control de eventos fácilmente puede buscar una escena que se instruye cuando se instruye la reproducción de una escena arbitraria. Consecuentemente, el aparato 100 de búsqueda de imágenes puede reproducir el aparato 100 de búsqueda de imágenes .
La FIGURA 5 es una tabla que se muestra para explicar un ejemplo de la información almacenada por el módulo 140 de control de eventos.
Como se muestra en la FIGURA 5, el módulo 140 de control de eventos retiene tipos de eventos (equivalentes a los niveles descritos anteriormente) detectados por el módulo 120 de detección de eventos, información (información de coordenadas) que indica las coordenadas en que los objetos detectados se representan mediante imagen, información de los atributos, información de identificación para identificar personas, e información de los cuadros que indica los cuadros en las imágenes, con los tipos e información anterior asociada entre si.
El módulo 140 de control de eventos controla, como un grupo, una pluralidad de cuadros a lo largo de los cuales una figura humana idéntica se representa mediante imagen secuencialmente . En este caso, el módulo 140 de control de eventos selecciona y retiene una mejor imagen tomada como una imagen representativa. Por ejemplo, cuando se ha detectado una región de la cara, el módulo 140 de control de eventos retiene una imagen de cara a partir de la cual la región de la cara puede ser conocida, como una mejor toma.
Alternativamente, cuando se ha detectado una región personal, el módulo 140 de control de eventos retiene una imagen de una región personal como una mejor toma. En este caso, el módulo 140 de control de eventos selecciona, como una mejor toma, una imagen en la cual una región personal se representa visualmente más grande o una imagen en la cual se determina que una figura humana mira hacia una dirección más cercana a la dirección frontal debido a la simetría bilateral.
Cuando se ha detectado una región de movimiento, por ejemplo, el módulo 140 de control de eventos selecciona, como una mejor toma, una imagen en la cual una cantidad de movimiento es la más grande o una imagen que muestra un movimiento pero se ve estable debido a que una cantidad de movimiento de la misma es pequeña.
Como se ha descrito anteriormente, el módulo 140 de control de eventos clasifica los eventos detectados mediante el módulo 120 de detección de eventos en niveles dependiendo de "probabilidad humana". Específicamente, el módulo 140 de control de eventos asigna "nivel 1" como el nivel mínimo a una escena donde existe una región que se mueve sobre un tamaño predeterminado o más. El módulo 140 de control de eventos asigna "nivel 2" a una escena donde existe una figura humana. El módulo 140 de control de eventos asigna "nivel 3" a una escena donde se detecta una cara de una figura humana. El módulo 140 de control de eventos asigna "nivel 4" a una escena donde se detecta una cara de una figura humana y existe una persona que corresponde a un atributo especifico. Adicionalmente, el módulo 140 de control de eventos asigna "nivel 5" como el nivel más alto a una escena donde se detecta una cara de una figura humana y existe una persona especifica.
A medida que el nivel es más cercano a 1, disminuyen las fallas en detectar una "escena donde existe una figura humana". Sin embargo, las detecciones sensitivas ocurren más a menudo, y la exactitud en la limitación a una persona específica disminuye. A medida que el nivel es más cercano a 5, se proporciona como salida un evento que es más limitado a una persona específica. Por otro lado, las fallas en la detección incrementan.
La FIGURA 6 es un diagrama que se muestra para explicar un ejemplo de una pantalla desplegada por el aparato 100 de búsqueda de imágenes .
El módulo 150 de salida proporciona como salida una pantalla 151 de salida como se muestra en la FIGURA 6, con base en la información almacenada por el módulo 140 de control de eventos.
La pantalla 151 de salida proporcionada como salida a partir del módulo 150 de salida comprende un botón 11 de conmutación de imagen, un botón 12 de ajuste de detección, una pantalla 13 de reproducción, botones 14 de control, una barra 15 de tiempo, marcas 16 de eventos, y un botón 17 de ajuste del despliegue de eventos.
El botón 11 de conmutación de imagen es para conmutar una imagen como un objetivo de procesamiento. Esta modalidad se describirá ahora con referencia a un ejemplo de lectura de un archivo de imagen. En este caso, el botón 11 de conmutación de imagen muestra un nombre de archivo de un archivo de imagen leído. Como se describe anteriormente, una imagen a ser procesada por el presente aparato se puede ingresar directamente desde una cámara o puede ser una lista de imágenes fijas en una carpeta.
El botón 12 de ajuste de detección es para hacer un ajuste para la detección a partir de una imagen como un objetivo. Por ejemplo, para realizar el nivel 5 (identificación personal), se acciona el botón 12 de ajuste de detección. En este caso, el botón 12 de ajuste de detección muestra una lista de personas como objetivos de búsqueda. La lista de personas desplegada se puede configurar para permitir que las personas sean borradas o editadas o para permitir que se agregue un nuevo objetivo de búsqueda.
La pantalla 13 de reproducción es una pantalla que reproduce una imagen como un objetivo. Un procesamiento de reproducción para una imagen se controla mediante los botones 14 de control. Por ejemplo, el botón 14 de control comprende "salto al evento previo", "reproducción de alta velocidad inversa", "reproducción inversa", "marcha atrás cuadro por cuadro", "pausa", "avance cuadro por cuadro", "reproducción", "reproducción de alta velocidad", y "salto al siguiente evento" en este orden desde el lado izquierdo en la FIGURA 6. Un botón adicional para otra función se puede agregar o cualquier botón inservible se puede suprimir de los botones 14 de control.
La barra 15 de tiempo indica una posición de reproducción con relación a una longitud de la imagen completa. La barra 15 de tiempo comprende un elemento de deslizamiento que indica una posición actual de la reproducción. Cuando se opera el elemento de deslizamiento, el aparato 100 de búsqueda de imágenes realiza un procesamiento para cambiar la posición de reproducción .
Las marcas 16 de eventos marcan las posiciones de los eventos detectados. Las posiciones de las marcas 16 de eventos corresponden a las posiciones de reproducción en la barra 15 de tiempo. Cuando se acciona el "salto al evento previo" o "salto al siguiente evento" de los botones 14 de control, el aparato 100 de búsqueda de imágenes salta a una posición de un evento que existe antes o después del elemento de deslizamiento de la barra 15 de tiempo.
El botón 17 de ajuste del despliegue de eventos comprende casillas de verificación mostradas para los niveles 1 a 5. Los eventos que corresponden a niveles verificados se marcan como las marcas 16 de eventos. Específicamente, el usuario puede hacer eventos inútiles no desplegados operando el botón 17 de ajuste del despliegue de eventos.
Adicionalmente, el módulo 150 de salida comprende botones 18 y 19, imágenes 20 a 23 miniatura, y un botón 24 de salvar.
Las imágenes 20 a 23 miniatura forman una lista de eventos desplegados. Las imágenes 20 a 23 miniatura respectivamente muestran las mejores imágenes tomadas para los eventos, la información del cuadro (números de cuadros), los niveles del evento, e información adicional concerniente a los eventos. El aparato 100 de búsqueda de imágenes se puede configurar para mostrar imágenes de regiones detectadas como las imágenes 20 a 23 miniatura si una región personal o una región de la cara se detecta para cada evento. Las imágenes 20 a 23 miniatura muestran eventos cerca de las posiciones correspondientes en el elemento de deslizamiento de la barra 15 de tiempo.
Cuando se acciona el botón 18 o 19, el aparato 100 de búsqueda de imágenes conmuta una de las imágenes 20 a 23 miniatura a otra. Por ejemplo, cuando se acciona el botón 18, el aparato 100 de búsqueda de imágenes despliega entonces una imagen miniatura concerniente a un evento que existe antes de un evento actualmente desplegado.
Alternativamente, cuando se acciona el botón 19, el aparato 100 de búsqueda de imágenes despliega entonces una imagen miniatura concerniente a un evento que existe después de un evento actualmente desplegado. Una imagen miniatura que corresponde a un evento que se reproduce en la pantalla 13 de reproducción se despliega, bordeado como se muestra en la FIGURA 6.
Cuando cualquiera de las imágenes 20 a 23 miniatura desplegadas se selecciona mediante un doble clic, el aparato 100 de búsqueda de imágenes salta a una posición de reproducción de un evento seleccionado y despliega una imagen correspondiente en la pantalla 13 de reproducción.
El botón 24 de salvar es para almacenar una imagen o una secuencia de imágenes de un evento. Cuando se selecciona el botón 24 de salvar, el aparato 100 de búsqueda de imágenes puede entonces almacenar, en un módulo de almacenamiento no ilustrado, una imagen de un evento correspondiente a una seleccionada de las imágenes 20 a 23 miniatura desplegadas.
Si el aparato 100 de búsqueda de imágenes salva un evento como una imagen, esta imagen a salvar se puede seleccionar y salvar a partir de una "región de la cara", "región media superior del cuerpo humano", "región del cuerpo humano completo", "región de movimiento completa", e "imagen completa" de conformidad con una entrada de operación. En este caso, el aparato 100 de búsqueda de imágenes se puede configurar para proporcionar como salida un número de cuadros, nombre de archivo, y archivo de texto. El aparato 100 de búsqueda de imágenes proporciona como salida, como un nombre de archivo para el archivo de texto, un nombre de archivo que tiene una extensión diferente de aquella de un archivo de imagen. Adicionalmente, el aparato 100 de búsqueda de imágenes puede proporcionar como salida toda la información relevante en forma de texto.
Cuando un evento es una secuencia de imágenes del nivel 1, el aparato 100 de búsqueda de imágenes proporciona como salida, como un archivo de secuencia de imágenes, imágenes para una duración a lo largo de la cual un movimiento continúa secuencialmente . Cuando un evento es una secuencia de imágenes del nivel 2 , el aparato 100 de búsqueda de imágenes proporciona como salida, como un archivo de secuencia de imágenes, imágenes que corresponden a un rango a lo largo del cual una figura humana idéntica se puede asociar a lo largo de una pluralidad de cuadros.
El aparato 100 de búsqueda de imágenes puede almacenar el archivo que se proporciona como salida de esta manera, como una imagen o video de evidencia que se puede inspeccionar visualmente. Adicionalmente, el aparato 100 de búsqueda de imágenes puede proporcionar como salida el archivo a un sistema que realiza la comparación con la figura humana pre-registrada .
Como se describe anteriormente, el aparato 100 de búsqueda de imágenes se alimenta con una imagen de cámara monitor o una imagen registrada, y extrae las escenas donde las figuras humanas se representan mediante imagen, con las escenas asociadas con una secuencia de imágenes. En este caso, el aparato 100 de búsqueda de imágenes asigna niveles a los eventos extraídos, dependiendo de los grados de conflabilidad que indican cuán confiablemente existen las figuras humanas. Adicionalmente, el aparato 100 de búsqueda de imágenes controla una lista de eventos extraídos, asociados con las imágenes. De esta manera, el aparato 100 de búsqueda de imágenes puede proporcionar como salida escenas donde una figura humana deseada por el usuario se representa mediante imagen.
Por ejemplo, el aparato 100 de búsqueda de imágenes permite que el usuario vea fácilmente las imágenes de figuras humanas detectadas proporcionando como salida en primer lugar un evento del nivel 5 y en segundo lugar un evento del nivel 4. Adicionalmente, el aparato 100 de búsqueda de imágenes hace que el usuario vea eventos a lo largo de una imagen entera sin fallas, desplegando los eventos, conmutando los niveles en orden desde 3 hasta 1.
Segunda Modalidad A partir de ahora, se describirá la segunda modalidad. Las características de configuración que son comunes a la primera modalidad se referirán a símbolos de referencia comunes, y las descripciones detalladas de las mismas se omitirán .
La FIGURA 7 es un diagrama que se muestra para explicar la configuración de un aparato 100 de búsqueda de imágenes de acuerdo con la segunda modalidad. El aparato 100 de búsqueda de imágenes comprende un módulo 110 de entrada de imágenes, un módulo 120 de detección de eventos, un módulo 130 de control de la información de la característica de búsqueda, un módulo 140 de control de eventos, un módulo 150 de salida, y un módulo 160 de estimación de tiempo.
El módulo 160 de estimación de tiempo estima un punto de tiempo de una imagen de entrada. El módulo 160 de estimación de tiempo estima un punto de tiempo cuando se representó visualmente la imagen de entrada. El módulo 160 de estimación de tiempo asigna información (información del punto de tiempo) que indica el punto de tiempo estimado para la imagen de entrada al módulo 110 de entrada de imágenes, y proporciona como salida la información al módulo 120 de detección de eventos .
Aunque el módulo 110 de entrada de imágenes tiene sustancialmente la misma configuración que aquella de la primera modalidad, se ingresa información del tiempo que indica un punto de tiempo de la representación visual de una imagen, de acuerdo con la presente modalidad. Por ejemplo, cuando una imagen es un archivo, el módulo 110 de entrada de imágenes y el módulo 160 de estimación de tiempo pueden asociar cuadros de la imagen y puntos de tiempo entre si, con base en las marcas de tiempo y una tasa de cuadros del archivo .
En grabadoras de video digitales (DVR) para cámaras monitor, la información del punto de tiempo a menudo se incrusta gráficamente en una imagen. Por consiguiente, el módulo 160 de estimación de tiempo puede generar información del tiempo reconociendo figuras numéricas que expresan puntos de tiempo, que se incrustan en la imagen.
El módulo 160 de estimación de tiempo también puede obtener un punto de tiempo actual utilizando la información del punto de tiempo obtenida a partir de un reloj de tiempo real que se ingresa directamente desde una cámara.
Existe un caso que un metaarchivo que incluye información que indica el tiempo se agrega a un archivo de imagen. En este caso, está disponible un método para proporcionar información que indica una relación de los cuadros respectivos con los puntos de tiempo, en forma de un metaarchivo externo como un archivo de información de subtítulos, separadamente del módulo 160 de estimación de tiempo. Por consiguiente, la información del tiempo se puede obtener leyendo el metaarchivo externo.
Si la información del tiempo de una imagen no se suministra simultáneamente conjuntamente con la imagen, el aparato 100 de búsqueda de imágenes prepara, como las imágenes de cara para la búsqueda, las imágenes de cara que han sido respectivamente las edades y los puntos de tiempo de la representación mediante imágenes preliminarmente dados, o las imágenes de cara para las cuales los puntos de tiempo de la representación mediante imágenes han sido conocidos y las edades se estiman utilizando las imágenes de cara.
El módulo 160 de estimación de tiempo estima un punto de tiempo de la representación mediante imágenes, con base en un método de utilizar información EXIF agregada a una imagen de cara o una marca de tiempo de un archivo. Alternativamente, el módulo 160 de estimación de tiempo se puede configurar para utilizar, como un punto de tiempo de la representación mediante imágenes, la información del tiempo ingresada por una entrada de operación no ilustrada.
El aparato 100 de búsqueda de imágenes calcula las similitudes entre todas las imágenes de cara detectadas a partir de una imagen de entrada y la información de la característica facial personal para la búsqueda, que se pre-almacena en el módulo 130 de control de la información de la característica de búsqueda. El aparato 100 de búsqueda de imágenes realiza un procesamiento desde una posición arbitraria de una imagen, y estima una edad para una imagen de cara para la cual se calcula primero una similitud predeterminada. Adicionalmente, el aparato 100 de búsqueda de imágenes calcula regresivamente un punto de tiempo de la representación visual de una imagen de entrada, con base en un valor promedio o un valor del modo entre las diferencias entre los resultados de estimación de la edad para las imágenes de cara para la búsqueda y los resultados de estimación de la edad para las imágenes de cara para las cuales se ha calculado la similitud predeterminada.
La FIGURA 8 muestra un ejemplo del procesamiento de la estimación de tiempo. Como se muestra en la FIGURA 8, las edades se estiman preliminarmente para las imágenes de cara para la búsqueda que se almacenan en el módulo 130 de control de la información de la característica de búsqueda. En un ejemplo mostrado en la FIGURA 8, se estima que una figura humana de una imagen de cara para la búsqueda tiene 35 años de edad. En este estado, el aparato 100 de búsqueda de imágenes busca la misma figura humana a partir de la imagen de cara para la búsqueda utilizando las características faciales de una imagen de entrada. Un método para buscar la misma figura humana es el mismo como se describe en la primera modalidad.
El aparato 100 de búsqueda de imágenes calcula las similitudes entre todas las imágenes de cara detectadas a partir de una imagen y una imagen de cara para la búsqueda. El aparato 100 de búsqueda de imágenes asigna una similitud "o" a cada imagen de cara para la cual una similitud se calcula para ser un valor predeterminado pre-establecido o mayor, y asigna una similitud "x" a cada imagen de cara para la cual una similitud se calcula para ser menor que el valor predeterminado .
Con base en las imágenes de cara para las cuales la similitud se calcula para ser "o", el aparato 100 de búsqueda de imágenes estima una edad para cada una de estas imágenes de cara utilizando el mismo método como se describe en la primera modalidad. Adicionalmente, el aparato 100 de búsqueda de imágenes calcula un valor promedio de las edades calculadas, y estima la información del punto de tiempo que indica un punto de tiempo de la representación visual de una imagen de entrada, con base en una diferencia entre el valor promedio y una edad estimada a partir de la imagen de cara para la búsqueda. En este método, el aparato 100 de búsqueda de imágenes se ha descrito para tener una configuración de utilizar un valor promedio de las edades calculadas. Sin embargo, el aparato 100 de búsqueda de imágenes se puede configurar para utilizar un valor intermedio, un valor de modo, o cualquier otro valor.
De acuerdo con el ejemplo mostrado en la FIGURA 8, las edades calculadas son 40, 45, y 44. Por consiguiente, un valor promedio de los mismos es 43. Una diferencia de edad de 8 años existe para la imagen de cara para la búsqueda. Específicamente, el aparato 100 de búsqueda de imágenes determina que la imagen de entrada se representó visualmente entre el año 2000 cuando la imagen de cara para la búsqueda había sido representada visualmente y el año 2008 que es ocho años después del 2000.
Si se determina que la imagen de entrada se ha representado visualmente ocho años más tarde, por ejemplo, el aparato 100 de búsqueda de imágenes especifica el punto de tiempo de la representación visual de la imagen de entrada como el 23 de Agosto de 2008, incluyendo año/mes/día, aunque dependiendo de la exactitud de la estimación de la edad. Específicamente, el aparato 100 de búsqueda de imágenes puede estimar la fecha/tiempo de representación mediante imágenes en unidades de días.
Adicionalmente, el aparato 100 de búsqueda de imágenes se puede configurar para estimar una edad, por ejemplo, con base en una imagen de cara detectada primero, como se muestra en la FIGURA 9, y para estimar un punto de tiempo de la representación mediante imágenes, con base en la edad estimada y la edad de una imagen para la búsgueda. De acuerdo con este método, el aparato 100 de búsqueda de imágenes puede estimar un punto de tiempo de la representación mediante imágenes más rápido.
El módulo 120 de detección de eventos realiza el mismo procesamiento que la primera modalidad. Sin embargo, en la presente modalidad, se agrega un punto de tiempo de la representación mediante imágenes a una imagen. El módulo 120 de detección de eventos se puede configurar para asociar no sólo la información del cuadro sino también un punto de tiempo de la representación mediante imágenes con cada evento detectado .
Adicionalmente, el módulo 120 de detección de eventos se puede configurar para limitar las edades estimadas utilizando una diferencia entre un punto de tiempo de la representación visual de una imagen de cara para la búsqueda y un punto de tiempo de la representación visual de una imagen de entrada, cuando el módulo 120 de detección de eventos realiza un procesamiento del nivel 5, es decir, cuando una escena donde se representa mediante imagen una persona especifica se detecta a partir de una imagen de entrada.
En este caso, como se muestra en la FIGURA 10, el módulo 120 de detección de eventos estima una edad en el momento cuando la imagen de entrada de la figura humana para la búsqueda se representó visualmente, con base en una diferencia entre el tiempo de la representación visual de la imagen de cara para la búsqueda y el punto de tiempo de la representación visual de la imagen de entrada. Adicionalmente, el módulo 120 de detección de eventos estima las edades respectivamente para las figuras humanas en una pluralidad de eventos en los cuales las figuras humanas detectadas a partir de la imagen de entrada se representan mediante imágenes. El módulo 120 de detección de eventos detecta un evento en el cual una figura humana está acerca de la edad en el momento cuando se representó visualmente la imagen de entrada de la persona en la imagen de cara para la búsqueda.
En el ejemplo mostrado en la FIGURA 10, la imagen de cara para la búsqueda se representó visualmente en el año 2000, y se estima que la figura humana en la imagen de cara para la búsqueda tiene 35 años de edad. Adicionalmente, se sabe que la imagen de entrada se representa visualmente en el año 2010. En este caso, el módulo 120 de detección de eventos estima que una edad de la figura humana en la imagen de cara para la búsqueda es 35 + (2010 - 2000) = 45 en el punto de tiempo de la imagen de entrada. El módulo 120 de detección de eventos detecta un evento en el cual se representa mediante imagen una figura humana quien se determina está cerca de la edad estimada de 45.
Por ejemplo, el módulo 120 de detección de eventos establece, como un objetivo para detectar un evento, la edad en el momento cuando se representó visualmente ± la imagen de entrada de la figura humana en la imagen de cara para la búsqueda. De esta manera, el aparato 100 de búsqueda de imágenes puede detectar más regularmente eventos sin fallas. El valor de o¡ se puede establecer arbitrariamente con base en la entrada de operación de un usuario o se puede preestablecer como un valor de referencia.
Como se describe anteriormente, el aparato 100 de búsqueda de imágenes de acuerdo con la presente modalidad estima un punto de tiempo cuando se representó visualmente una imagen de entrada, en un procesamiento del nivel 5 para detectar una persona a partir de una imagen de entrada. Adicionalmente, el aparato de búsqueda de imágenes estima una edad en un punto de tiempo cuando se representó visualmente una imagen de entrada de una figura humana para la búsqueda. El aparato 100 de búsqueda de imágenes detecta una pluralidad de escenas en las cuales se representan mediante imagen las figuras humanas, y estima las edades de las figuras humanas quienes se representan mediante imagen en las escenas. El aparato 100 de búsqueda de imágenes puede detectar una escena donde se estima que una figura humana tiene una edad cercana a la edad de la figura humana a buscar. Como un resultado, el aparato 100 de búsqueda de imágenes puede detectar, en una mayor velocidad, las escenas donde una figura humana especifica se representa mediante imagen.
En la presente modalidad, el módulo 130 de control de la información de la característica de búsqueda retiene adicionalmente la información del punto de tiempo que indica un punto de tiempo cuando una imagen de cara se representó visualmente y la información que indica una edad en el punto de tiempo de tener representada visualmente la imagen de cara, conjuntamente con la información de la característica extraída a partir de la imagen de cara de cada figura humana. Las edades pueden ser ya sea estimadas a partir de las imágenes o ingresadas por el usuario.
La FIGURA 11 es un diagrama que se muestra para explicar un ejemplo de una pantalla desplegada por el aparato 100 de búsqueda de imágenes.
El módulo 150 de salida proporciona como salida una pantalla 151 de salida que comprende información 25 del punto de tiempo que indica un punto de tiempo de una imagen además del mismo contenido según se despliega en la primera modalidad. La información del punto de tiempo de la imagen se despliega asi conjuntamente. Adicionalmente, la pantalla 151 de salida se puede configurar para desplegar una edad que se estima con base en una imagen desplegada en una pantalla 13 de reproducción. De esta manera, el usuario puede reconocer una edad estimada de una figura humana desplegada en la pantalla 13 de reproducción.
Las funciones descritas en la modalidad anterior se pueden constituir no sólo con el uso de hardware sino también con el uso de software, por ejemplo, haciendo que una computadora lea un programa que describe las funciones. Alternativamente, las funciones cada una se puede constituir seleccionando apropiadamente ya sea el software o el hardware.
Mientras que se han descrito ciertas modalidades, estas modalidades se han presentado únicamente a manera de ejemplo, y no pretenden limitar el alcance de las invenciones. Por supuesto, las novedosas modalidades aquí descritas se pueden implementar en una variedad de otras formas; además, se pueden hacer diversas omisiones, sustituciones y cambios en la forma de las modalidades aquí descritas sin desviarse del espíritu de las invenciones. Las reivindicaciones acompañantes y sus equivalentes pretenden cubrir tales formas o modificaciones en tanto caigan dentro del alcance y espíritu de las invenciones.

Claims (12)

REIVINDICACIONES
1. Un aparato de búsqueda de imágenes, caracterizado en que comprende: un módulo de entrada de imágenes que se alimenta con una imagen; un módulo de detección de eventos que detecta eventos a partir de la imagen de entrada ingresada por el módulo de entrada de imágenes, y determina niveles, dependiendo de los tipos de los eventos detectados; un módulo de control de eventos que retiene los eventos detectados por el módulo de detección de eventos, para cada uno de los niveles; y un módulo de salida que proporciona como salida los eventos retenidos por el módulo de control de eventos, para cada uno de los niveles.
2. El aparato de búsqueda de imágenes de la reivindicación 1, caracterizado en que el módulo de detección de eventos detecta al menos una de las escenas, como un evento, y determina un nivel para cada una de las al menos una de las escenas detectadas como un evento, las escenas siendo una escena donde existe una región de movimiento, una escena donde existe una región personal, una escena donde existe una figura humana que corresponde a un atributo pre-establecido, y una escena donde existe una persona pre-establecida .
3. El aparato de búsqueda de imágenes de la reivindicación 2, caracterizado en que el módulo de detección de eventos establece, como un atributo, al menos uno de una edad personal, un género, la utilización de anteojos o no, un tipo de anteojos, la utilización de una máscara o no, un tipo de máscara, la utilización de una prenda para la cabeza o no, un tipo de prenda para la cabeza, una barba, un lunar, una arruga, una lesión, un diseño de un peinado, un color de pelo, un color de atuendo, una forma del atuendo, una prenda para la cabeza, un ornamento, un accesorio cerca de la cara, una apariencia de la cara, un grado de riqueza, y una raza.
4. El aparato de búsqueda de imágenes de la reivindicación 2, caracterizado en que el módulo de detección de eventos detecta una pluralidad de cuadros secuenciales como un evento cuando el módulo de detección de eventos detecta un evento a partir de los cuadros secuenciales.
5. El aparato de búsqueda de imágenes de la reivindicación 4, caracterizado en que el módulo de detección de eventos selecciona, como una mejor toma, al menos uno de un cuadro en el cual existe una región más grande de la cara, un cuadro en el cual una cara humana mira en una dirección más cercana a una dirección frontal, y un cuadro en el cual una imagen de una región de la cara tiene máximo contraste, entre los cuadros incluidos en el evento detectado.
6. El aparato de búsqueda de imágenes de la reivindicación 2, caracterizado en que el módulo de detección de eventos agrega, a un evento, la información del cuadro que indica una posición de un cuadro a partir del cual se detecta un evento, en la imagen de entrada.
7. El aparato de búsqueda de imágenes de la reivindicación 6, caracterizado en que si una pantalla de reproducción que despliega la imagen de entrada, y una marca de evento que indica una posición de un evento en la imagen de entrada, que se retiene por el módulo de control de eventos, y si se selecciona la marca de evento, el módulo de salida reproduce la imagen de entrada a partir de un cuadro indicado por la información del cuadro agregada al evento correspondiente a la marca de evento seleccionada.
8. El aparato de búsqueda de imágenes de la reivindicación 2, caracterizado en que el módulo de salida salva, como una imagen o una secuencia de imágenes, al menos una de una región de la cara, una región media superior del cuerpo humano, una región del cuerpo humano completo, una región de movimiento completa, y una región completa, concerniente a un evento retenido por el módulo de control de eventos .
9. El aparato de búsqueda de imágenes de la reivindicación 2, caracterizado en que el módulo de detección de eventos realiza la estimación de un punto de tiempo cuando se representó visualmente la imagen de entrada, la estimación de una primera edad estimada de una figura humana en una imagen de cara para la búsqueda en un punto de tiempo de la representación visual de la imagen de entrada, con base en un punto de tiempo cuando se representó visualmente la imagen de cara para la búsqueda para detectar una persona, una edad de la figura humana en la imagen de cara para la búsqueda en el punto de tiempo cuando se representó visualmente la imagen de cara para la búsqueda, y el punto de tiempo de la representación visual de la imagen de entrada, la estimación de una segunda edad estimada de una figura humana representada visualmente en la imagen de entrada, y la detección, como un evento, de una escena donde la figura humana para la cual se ha estimado la segunda edad estimada, la segunda edad estimada que tiene una diferencia no menor que un valor predeterminado pre-establecido para la primera edad estimada.
10. El aparato de búsqueda de imágenes de la reivindicación 9, caracterizado en que el módulo de detección de eventos estima un punto de tiempo cuando se representó visualmente la imagen de entrada, con base en la información del punto de tiempo incrustada como una imagen en la imagen de entrada .
11. El aparato de búsqueda de imáqenes de la reivindicación 9, caracterizado en que el módulo de detección de eventos estima una tercera edad estimada de al menos una figura humana para la cual una similitud a la imagen de cara para la búsqueda es no menor que un valor predeterminado pre-establecido, entre las figuras humanas representadas visualmente en la imagen de entrada, y el módulo de detección de eventos estima un punto de tiempo cuando se representó visualmente la imagen de entrada, con base en un punto de tiempo cuando se representó visualmente la imagen de cara para la búsqueda, una edad de la figura humana en la imagen de cara para la búsqueda en el punto de tiempo cuando se representó visualmente la imagen de cara para la búsqueda, y la tercera edad estimada.
12. Un método de búsqueda de imágenes, caracterizado en que comprende: detectar eventos a partir de una imagen de entrada, y determinar niveles dependiendo de los tipos de los eventos detectados; retener los eventos detectados para cada uno de los niveles; y proporcionar como salida los eventos retenidos para cada uno de los niveles.
MX2011012725A 2010-12-06 2011-11-29 Aparato de busqueda de imagenes y metodo de busqueda de imagenes. MX2011012725A (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010271508A JP5649425B2 (ja) 2010-12-06 2010-12-06 映像検索装置

Publications (1)

Publication Number Publication Date
MX2011012725A true MX2011012725A (es) 2012-06-07

Family

ID=46162272

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2011012725A MX2011012725A (es) 2010-12-06 2011-11-29 Aparato de busqueda de imagenes y metodo de busqueda de imagenes.

Country Status (4)

Country Link
US (1) US20120140982A1 (es)
JP (1) JP5649425B2 (es)
KR (1) KR20120062609A (es)
MX (1) MX2011012725A (es)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3549176B2 (ja) * 1997-07-28 2004-08-04 株式会社東芝 液晶表示装置、およびカラーフィルタ基板の製造方法
JP6039942B2 (ja) * 2012-07-09 2016-12-07 キヤノン株式会社 情報処理装置及びその制御方法及びプログラム
US8948568B2 (en) * 2012-07-31 2015-02-03 Google Inc. Customized video
JP2014106637A (ja) * 2012-11-26 2014-06-09 Sony Corp 情報処理装置および方法、並びにプログラム
JP2014134898A (ja) * 2013-01-08 2014-07-24 Canon Inc 画像検索装置
CN105164627B (zh) * 2013-01-11 2019-04-09 卓尔医学产品公司 Ems决策支持界面、事件历史和相关工具
KR102057947B1 (ko) * 2013-04-01 2019-12-20 삼성전자주식회사 사용자 인증을 수행하는 디스플레이 장치 및 그 사용자 인증 방법
US9418650B2 (en) * 2013-09-25 2016-08-16 Verizon Patent And Licensing Inc. Training speech recognition using captions
JP6369470B2 (ja) * 2013-09-26 2018-08-08 日本電気株式会社 情報処理システム
JP5852171B2 (ja) * 2014-05-09 2016-02-03 株式会社Jストリーム コンテンツ付加情報提供システム
WO2015178234A1 (ja) * 2014-05-22 2015-11-26 株式会社日立国際電気 画像検索システム
KR102282465B1 (ko) * 2014-10-27 2021-07-27 한화테크윈 주식회사 로이터링 시각화 장치 및 방법
KR101645517B1 (ko) 2015-04-01 2016-08-05 주식회사 씨케이앤비 특징점 추출 장치 및 방법과 이를 이용한 콘텐츠의 온라인 유통 현황 분석을 위한 이미지 매칭 시스템
KR101713197B1 (ko) 2015-04-01 2017-03-09 주식회사 씨케이앤비 서버 컴퓨팅 장치 및 이를 이용한 콘텐츠 인식 기반의 영상 검색 시스템
DE102015207415A1 (de) * 2015-04-23 2016-10-27 Adidas Ag Verfahren und Gerät zum Verknüpfen von Bildern in einem Video einer Aktivität einer Person mit einem Ereignis
PL3131064T3 (pl) * 2015-08-13 2018-03-30 Nokia Technologies Oy Wyszukiwanie zawartości obrazu
JP6483576B2 (ja) * 2015-09-01 2019-03-13 東芝情報システム株式会社 事象判定装置及び数量予測システム
WO2017061148A1 (ja) * 2015-10-09 2017-04-13 株式会社Ihi 線分検出方法
KR102489557B1 (ko) * 2016-05-11 2023-01-17 한화테크윈 주식회사 영상 처리 장치 및 그 제어 방법
JP6738213B2 (ja) * 2016-06-14 2020-08-12 グローリー株式会社 情報処理装置及び情報処理方法
GB2551715A (en) * 2016-06-27 2018-01-03 Image Capture Ltd A system and method for determining the age of an individual
JP2018037029A (ja) * 2016-09-02 2018-03-08 株式会社C.U.I ウェブサイト検索表示システム、ウェブサイト検索表示方法、端末装置、サーバー装置、及びプログラム
US11042753B2 (en) * 2016-09-08 2021-06-22 Goh Soo Siah Video ingestion framework for visual search platform
KR20180058019A (ko) * 2016-11-23 2018-05-31 한화에어로스페이스 주식회사 영상 검색 장치, 데이터 저장 방법 및 데이터 저장 장치
JP7120590B2 (ja) * 2017-02-27 2022-08-17 日本電気株式会社 情報処理装置、情報処理方法、及びプログラム
CN107844781A (zh) * 2017-11-28 2018-03-27 腾讯科技(深圳)有限公司 人脸属性识别方法及装置、电子设备及存储介质
JP7098752B2 (ja) * 2018-05-07 2022-07-11 アップル インコーポレイテッド ライブビデオフィード及び録画ビデオを閲覧するためのユーザインタフェース
US10747989B2 (en) 2018-08-21 2020-08-18 Software Ag Systems and/or methods for accelerating facial feature vector matching with supervised machine learning
US11363071B2 (en) 2019-05-31 2022-06-14 Apple Inc. User interfaces for managing a local network
US10904029B2 (en) 2019-05-31 2021-01-26 Apple Inc. User interfaces for managing controllable external devices
EP4068791A4 (en) * 2019-11-26 2023-11-01 Hanwha Vision Co., Ltd. EVENT-ORIENTED MULTI-CHANNEL IMAGE SECURITY DEVICE AND METHOD THEREOF AND NETWORK SURVEILLANCE CAMERA SYSTEM THEREFOR
KR102554705B1 (ko) * 2020-04-01 2023-07-13 한국전자통신연구원 벡터를 이용한 장면 묘사 기반의 메타데이터 생성 방법 및 이를 위한 장치
CN111695419A (zh) * 2020-04-30 2020-09-22 华为技术有限公司 一种图像数据处理方法及相关装置
CN113627221A (zh) * 2020-05-09 2021-11-09 阿里巴巴集团控股有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
US11079913B1 (en) 2020-05-11 2021-08-03 Apple Inc. User interface for status indicators
US11589010B2 (en) 2020-06-03 2023-02-21 Apple Inc. Camera and visitor user interfaces
US11657614B2 (en) 2020-06-03 2023-05-23 Apple Inc. Camera and visitor user interfaces
WO2022051112A1 (en) 2020-09-05 2022-03-10 Apple Inc. User interfaces for managing audio for media items
JP7279241B1 (ja) 2022-08-03 2023-05-22 セーフィー株式会社 システムおよびプログラム
JP7302088B1 (ja) 2022-12-28 2023-07-03 セーフィー株式会社 システムおよびプログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6064303A (en) * 1997-11-25 2000-05-16 Micron Electronics, Inc. Personal computer-based home security system
US6940545B1 (en) * 2000-02-28 2005-09-06 Eastman Kodak Company Face detecting camera and method
JP2001251607A (ja) * 2000-03-06 2001-09-14 Matsushita Electric Ind Co Ltd 画像監視システム及び画像監視方法
US20040125877A1 (en) * 2000-07-17 2004-07-01 Shin-Fu Chang Method and system for indexing and content-based adaptive streaming of digital video content
BR0102542B1 (pt) * 2001-04-04 2009-01-13 método e sistema de captura e armazenamento de uma seqüência de imagens associadas a uma ou mais infrações de tránsito .
WO2002082275A1 (en) * 2001-04-09 2002-10-17 Monitoring Technology Corporation Data recording and playback system and method
JP4172275B2 (ja) * 2003-01-08 2008-10-29 セイコーエプソン株式会社 画像データに対する画像処理
JP4569190B2 (ja) * 2004-06-24 2010-10-27 オムロン株式会社 不審者対策システム及び不審者検出装置
US20060159370A1 (en) * 2004-12-10 2006-07-20 Matsushita Electric Industrial Co., Ltd. Video retrieval system and video retrieval method
US8502870B2 (en) * 2005-02-02 2013-08-06 Pima Electronic Systems Ltd. Device, system, and method of rapid image acquisition
DE602006017812D1 (de) * 2005-03-17 2010-12-09 British Telecomm Verfahren zur verfolgung von objekten in einer videosequenz
JP4622702B2 (ja) * 2005-05-27 2011-02-02 株式会社日立製作所 映像監視装置
KR100785076B1 (ko) * 2006-06-15 2007-12-12 삼성전자주식회사 스포츠 동영상에서의 실시간 이벤트 검출 방법 및 그 장치
JP2008154228A (ja) * 2006-11-24 2008-07-03 Victor Co Of Japan Ltd 監視映像記録制御装置
JP4945236B2 (ja) * 2006-12-27 2012-06-06 株式会社東芝 映像コンテンツ表示装置、映像コンテンツ表示方法及びそのプログラム
US8782681B2 (en) * 2007-03-08 2014-07-15 The Nielsen Company (Us), Llc Method and system for rating media and events in media based on physiological data
US9177209B2 (en) * 2007-12-17 2015-11-03 Sinoeast Concept Limited Temporal segment based extraction and robust matching of video fingerprints
US8358856B2 (en) * 2008-06-02 2013-01-22 Eastman Kodak Company Semantic event detection for digital content records
JP4636190B2 (ja) * 2009-03-13 2011-02-23 オムロン株式会社 顔照合装置、電子機器、顔照合装置の制御方法、および顔照合装置制御プログラム
TWI452540B (zh) * 2010-12-09 2014-09-11 Ind Tech Res Inst 影像式之交通參數偵測系統與方法及電腦程式產品

Also Published As

Publication number Publication date
KR20120062609A (ko) 2012-06-14
US20120140982A1 (en) 2012-06-07
JP2012123460A (ja) 2012-06-28
JP5649425B2 (ja) 2015-01-07

Similar Documents

Publication Publication Date Title
MX2011012725A (es) Aparato de busqueda de imagenes y metodo de busqueda de imagenes.
KR102560308B1 (ko) 외관 탐색을 위한 시스템 및 방법
US8861801B2 (en) Facial image search system and facial image search method
US9171012B2 (en) Facial image search system and facial image search method
JP5444137B2 (ja) 顔画像検索装置および顔画像検索方法
KR101490016B1 (ko) 인물 화상 처리 장치 및 인물 화상 처리 방법
JP4168940B2 (ja) 映像表示システム
EP3418944A2 (en) Information processing apparatus, information processing method, and program
US8379931B2 (en) Image processing apparatus for retrieving object from moving image and method thereof
US10303927B2 (en) People search system and people search method
WO2019083509A1 (en) PEOPLE SEGMENTATIONS FOR BACKGROUND REPLACEMENTS
JP2016200969A (ja) 画像処理装置、画像処理方法、及びプログラム
JP2014016968A (ja) 人物検索装置及びデータ収集装置
Ravi et al. A study on face recognition technique based on Eigenface
Vaquero et al. Attribute-based people search

Legal Events

Date Code Title Description
FG Grant or registration