MX2013013313A

MX2013013313A - Dispositivo de captura de imagenes en movimiento, sistema de procesamiento de informacion, dispositivo de procesamiento de unformacion y metodo de procesamiento de datos de imagenes.

Info

Publication number: MX2013013313A
Application number: MX2013013313A
Authority: MX
Inventors: Akio Ohba; Hiroyuki Segawa
Original assignee: Sony Computer Entertainment Inc
Priority date: 2011-05-19
Filing date: 2012-04-05
Publication date: 2014-02-10
Also published as: WO2012157178A1; CN103518368B; KR101451734B1; BR112013029656A2; KR20130140174A; US9247132B2; EP2712177B1; CN103518368A; RU2013156453A; BR112013029656B1; RU2570195C2; TWI496471B; JP5629642B2; JP2012244438A; EP2712177A1; US20140078265A1; TW201251459A; EP2712177A4

Abstract

Una unidad 156 de síntesis de imágenes recibe valores de píxeles respectivos para una sola fila horizontal de una imagen sin mosaico de 1/4, una imagen sin mosaico de 1/16, y una imagen sin mosaico de 1/64 desde un filtro de pirámide proporcionado en la fase precedente para reducir, en una pluralidad de fases, una trama de una imagen en movimiento que se captura. La unidad 156 de síntesis de imágenes entonces conecta los valores de píxeles en una regla predeterminada para generar una imagen sintetizada virtual y produce la imagen sintetizada en forma de corrientes. Una unidad 164 de control de una unidad 151 de transmisión de imágenes notifica a una unidad 154 de selección de datos de una solicitud de una terminal central. La unidad 154 de selección de datos selecciona y extrae datos necesarios de las corrientes respectivas de piezas de datos de la imagen sintetizada, una imagen RAW, y una imagen sin mosaico de 1/1, las cuales se ingresan desde la unidad 156 de síntesis de imágenes y una unidad de adquisición de imágenes y una unidad de interpolación de mosaicos proporcionada en las fases precedentes, respectivamente, y genera una corriente de datos que se transmitirá. Una unidad 162 de formación de paquetes forma en paquetes la corriente y transmite la corriente formada en paquetes a la terminal central.

Description

DISPOSITIVO DE CAPTURA DE IMÁGENES EN MOVIMIENTO, SISTEMA DE PROCESAMIENTO DE INFORMACIÓN, DISPOSITIVO DE PROCESAMIENTO DE INFORMACIÓN Y MÉTODO DE PROCESAMIENTO DE DATOS DE IMÁGENES CAMPO TÉCNICO La presente invención se refiere a una tecnología para realizar procesamiento de información de acuerdo con el movimiento de un objeto.

TÉCNICA ANTECEDENTE En la técnica relacionada, se conocen juegos en los cuales la imagen de una parte del cuerpo de un usuario tal como la cabeza se captura por una videocámara, en la cual un área predeterminada para un ojo, una boca, una mano, o similares entonces se extrae, y en la cual el área se remplaza con otra imagen para desplegar en una pantalla (por ejemplo, documento de patente No. 1) . Una interfaz de usuario también se sabe que recibe, como instrucción para operar una aplicación, el movimiento de una boca o una mano capturada por una videocámara.

Documento de Patente No. 1 Solicitud de Patente Europea No. 0999518 DESCRIPCIÓN DE LA INVENCIÓN PROBLEMA QUE SERÁ RESUELTO POR LA INVENCIÓN En una técnica tal como la descrita en lo anterior, una imagen de alta resolución es necesaria para extraer un área predeterminada para la boca, mano o similar de un usuario. Sin embargo, a medida que el rendimiento de un elemento de imagen de una videocámara se vuelve mayor, la cantidad de datos incrementa debido a una mejora en la resolución o similar. De esta manera, surge un problema donde los costos de procesamiento de extracción de datos para filtración, escalado, recortar y similares, para proporcionar, en una escala adecuada, información necesaria para la compresión para la transferencia, el procesamiento de expansión y reconocimiento, detección, procesamiento de medición, y similares, se incrementan y donde la latencia de la entrada de la cámara en cada salida de procesamiento se incrementa. El uso de la cámara como interfaz de usuario crea un problema donde un incremento en la latencia reduce dramáticamente la capacidad de uso. Como se describe, aún cuando el rendimiento de un elemento de imagen de una cámara se incrementa, el rendimiento de un sistema como un todo puede reducirse.

En estos antecedentes, el propósito de la presente invención es proporcionar una tecnología de procesamiento de imágenes para suprimir la latencia desde el momento de la captura de la imagen hasta el momento de la presentación de imagen utilizando los datos de los mismos mientras se utiliza un elemento de imagen de alto rendimiento.

MEDIOS PARA RESOLVER EL PROBLEMA Una modalidad de la presente invención se refiere a un dispositivo de captura de imágenes en movimiento. El dispositivo de captura de imágenes en movimiento comprende: una unidad de generación de datos de imágenes configurada para generar piezas respectivas de datos de una pluralidad de imágenes que tienen diferentes resoluciones cada una en un orden de píxel predeterminado al reducir, en varias fases, cada trama de una imagen en movimiento adquirida por la captura de imágenes de un objeto y para producir de manera secuencial las piezas de datos en forma de corrientes,- una unidad de síntesis de imágenes configurada para generar, al conectar, para cada fila de píxeles para una sola fila horizontal de una imagen o para cada fila de píxeles en un margen más pequeño, piezas respectivas de datos de una pluralidad de imágenes predeterminadas entre las piezas respectivas de datos de la pluralidad de imágenes producidas por la unidad de generación de datos de imágenes y después al producir las piezas respectivas de datos de la pluralidad de imágenes predeterminadas en forma de corrientes, una imagen sintetizada virtual que contiene la pluralidad de imágenes predeterminadas; y una unidad de transmisión de imágenes configurada para generar una corriente de datos que se transmitirá, al recibir na solicitud para transmitir los datos desde una terminal central a la cual se conecta la unidad de transmisión de imágenes, al extraer los datos para píxeles incluidos en una imagen y un área que se solicita de yna pluralidad de corrientes que se producen de la unidad de generación de datos de imágenes y la unidad de síntesis de imágenes y para transmitir la corriente de datos a la terminal central .

Otra modalidad de la presente invención también se refiere a un dispositivo de captura de imágenes en movimiento. El dispositivo de captura de imágenes en movimiento comprende un par de cámaras para capturar una imagen de un solo objeto desde diferentes puntos de vista derecho e izquierdo, en donde cada una del par de cámaras incluye: una unidad de generación de datos de imágenes configurada para generar piezas respectivas de datos de una pluralidad de imágenes que tienen diferentes resoluciones cada una en un orden de píxel predeterminado al reducir, en varias fases, cada trama de una imagen en movimiento adquirida al capturar una imagen del objeto y para producir de manera secuencial las piezas de datos en forma de corrientes; y una unidad de síntesis de imágenes configurada para generar, al conectar, por cada fila de píxeles para una sola fila horizontal de una imagen o para cada fila de píxeles en un margen más pequeño, piezas respectivas de datos de una pluralidad de imágenes predeterminadas entre las piezas respectivas de datos de la pluralidad de imágenes producidas por la unidad de generación de datos de imágenes y después al producir las piezas respectivas de datos de la pluralidad de imágenes predeterminadas en forma de corrientes, una imagen sintetizada virtual que contiene la pluralidad de imágenes predeterminadas, y en donde el dispositivo de captura de imágenes en movimiento además comprende: una unidad de procesamiento de correlación estéreo configurada para generar una imagen profunda que indica la posición del objeto en un espacio tridimensional en un orden de píxel predeterminado al realizar correlación estéreo en piezas respectivas de datos de imágenes que tienen una resolución predeterminada entre piezas respectivas de datos de imágenes de diferentes puntos de vista que se generan por el par de cámaras y para producir de manera secuencial la imagen profunda en forma de corrientes; y una unidad de transmisión de imágenes configurada para generar una corriente de datos que se transmitirá, al recibir una solicitud para transmitir datos desde una · terminal central a la cual se conecta la unidad de transmisión de imágenes, al extraer datos de píxeles incluidos en una imagen y un área que se requiere de una pluralidad de corrientes que se producen desde la unidad de generación de datos de imágenes, la unidad de síntesis de imágenes, y la unidad de procesamiento de correlación estéreo y para transmitir la corriente de datos a la terminal central .

Aún otra modalidad de la presente invención se refiere a un sistema de procesamiento de información. El sistema de procesamiento de información comprende: un dispositivo de captura de imágenes : en movimiento para capturar una imagen de un objeto y generar datos de una imagen en movimiento; y una terminal central para adquirir una parte de los datos de la imagen en movimiento del dispositivo de captura de imágenes en movimiento y despliegan una imagen después de realizar un proceso de imagen predeterminado utilizando la parte de los datos, en donde el dispositivo de captura de imágenes en movimiento incluye: una unidad de generación de datos de imágenes configurada para generar piezas respectivas de datos de una pluralidad de imágenes que tienen diferentes resoluciones cada una en un orden de plxel predeterminado al reducir, en varias fases, cada trama de una imagen en movimiento adquirida por la captura de imágenes y para producir de manera secuencial las piezas de datos en forma de corrientes; una unidad de síntesis de imágenes configurada para generar, al conectar, para cada fila de píxeles para una sola fila horizontal de una imagen o para cada fila de píxeles en un margen más pequeño, piezas respectivas de datos de una pluralidad de imágenes predeterminadas entre las piezas respectivas de datos de la pluralidad de imágenes producidas por la unidad de generación de datos de imágenes y después al producir las piezas respectivas de datos de la pluralidad de imágenes predeterminadas en forma de corrientes, una imagen sintetizada virtual que contiene la pluralidad de imágenes predeterminadas; y una unidad de transmisión de imágenes configurada para generar una corriente de datos que se transmitirá al extraer datos para píxeles incluidos en una imagen y un área que se solicita de una pluralidad de corrientes que se producen de la unidad de generación de datos de imágenes y la unidad de síntesis de imágenes y después transmitir la corriente de datos a la terminal central. .

Aún otra modalidad de la presente invención se refiere a un dispositivo de procesamiento de información. El dispositivo de procesamiento de información comprende: una unidad de solicitud de datos configurada para solicitar a una cámara que capture una imagen de un objeto para transmitir los datos de imagen de una trama de una imagen en movimiento al especificar una resolución y un área dentro de una imagen; una unidad de despliegue de datos configurada para desplegar los datos de imágenes, los cuales se transmiten desde la cámara de acuerdo con una solicitud, en un estado de una corriente en el cual los valores de píxeles del área específica se conectan a cada fila de píxeles, como datos de imágenes bidimensionales ; y una unidad, de procesamiento de datos configurada para desplegar una imagen después de realizar un proceso de imagen predeterminada utilizando los datos de imágenes bidimensionales, en donde la unidad de solicitud de datos especifica una imagen sintetizada, la cual se genera dentro de la cámara en la cual una pluralidad de imágenes que tienen diferentes resoluciones obtenidas al reducir la trama de la imagen en movimiento en varias fases se disponen en áreas rectangulares predeterminadas respectivas, y en donde la unidad de despliegue de datos realiza separación de imagen al desplegar la imagen sintetizada transmitida desde la cámara en una pieza individual de datos de imágenes bidimensionales para cada una de las imágenes sometida a síntesis .

Aún otra modalidad de la presente invención se refiere a un método de procesamiento de datos de imágenes. El método de procesamiento de datos de imágenes realizado por un dispositivo de captura de imágenes en movimiento, comprende: generar piezas respectivas de datos de una pluralidad de imágenes que tienen diferentes resoluciones cada una en un orden de píxel predeterminado al reducir, varias fases, cada trama de una imagen en movimiento adquirida al capturar una imagen de un objeto y para producir de manera secuencial las piezas de datos en forma de corrientes; generar, al conectar para cada fila de píxeles para una sola fila horizontal de una imagen o para cada fila de píxeles en un margen más pequeño, piezas respectivas de datos de una pluralidad de imágenes predeterminadas entre las piezas respectivas de datos de la pluralidad de imágenes producidas en la producción y después al producir las piezas respectivas de datos de la pluralidad de imágenes predeterminadas en forma de corrientes, una imagen sintetizada virtual que contiene la pluralidad de imágenes predeterminadas; y generar una corriente de datos que se . transmitirá, al recibir una solicitud para transmitir datos desde, una terminal central a la cual se conecta la unidad de transmisión de imágenes, al extraer datos para píxeles incluidos en una imagen y un área que se solicita de una pluralidad de corrientes producidas en la producción y en la generación y transmisión de la corriente de datos a la terminal central.

Combinaciones opcionales de los elementos constituyentes antes mencionados, e implementaciones de la invención en forma de métodos, aparatos, sistemas, programas de computadora, y medios de grabación que graban programas de computadora también pueden practicarse como modos adicionales de la presente invención.

VENTAJA DE LA INVENCIÓN De acuerdo con la presente invención, la latencia desde el momento de la captura de imágenes hasta el momento de la presentación de imágenes utilizando los datos de la misma puede suprimirse.

BREVE DESCRIPCIÓN DE LOS DIBUJOS La Figura 1 es un diagrama que ilustra toda la configuración de un sistema de cámara de baja latencia de acuerdo con una primera modalidad; la Figura 2 es un diagrama que ilustra la configuración de una cámara de acuerdo con la primera modalidad; la Figura 3 es un diagrama que ilustra, en detalle, la configuración de una unidad de síntesis de imágenes y la configuración de una unidad de transmisión de imágenes de la cámara en la primera modalidad; la Figura 4 es un diagrama que ilustra la configuración de un circuito interno de una terminal central en la primera modalidad; la Figura 5 es un diagrama que ilustra de manera esquemática una transición básica de la forma de datos en la cámara y la terminal central en la primera modalidad; la Figura 6 es un diagrama de tiempos que ilustra el tiempo de entrada de los valores de píxeles respectivos de una imagen sin mosaico de 1/4, una imagen si mosaico de 1/16, y una imagen sin mosaico de 1/64 a partir de una unidad de filtro de pirámide en la primera modalidad; la Figura 7 ilustra de manera esquemática un estado en donde piezas respectivas de datos para filas de pixeles de una pluralidad de imágenes se conectan por la unidad de síntesis de imágenes en la primera modalidad; la Figura 8 es un diagrama que ilustra la configuración relacionada con un proceso de solicitud de datos de la terminal central y un proceso de transmisión de datos de la cámara en la primera modalidad; la Figura 9 es un diagrama que ilustra una variación ejemplar de la configuración de la unidad de transmisión de imágenes en la primera modalidad; la Figura 10 es un diagrama que ilustra la configuración de una cámara de acuerdo con una segunda modalidad; la Figura 11 es un diagrama que ilustra la configuración de una cámara con una tercera modalidad; la Figura 12 es un diagrama que ilustra un diagrama de flujo que muestra un ejemplo de un procedimiento de procesamiento de un proceso de imagen realizado por una terminal central y una cámara estéreo en cooperación entre sí en la tercera modalidad y que ilustra ejemplos de imágenes que se producen; la Figura 13 es un diagrama que ilustra un diagrama de flujo que muestra otro ejemplo del procedimiento de procesamiento del proceso de imagen realizado por la terminal central y la cámara estéreo en cooperación entre sí en la tercera modalidad y que ilustra ejemplos de imágenes que se producen; y la Figura 14 es un diagrama que ilustra un diagrama de flujo que muestra otro ejemplo del procedimiento de procesamiento del proceso de imagen realizado por la terminal central y la cámara estéreo en cooperación entre sí en la tercera modalidad y que ilustra ejemplos de imágenes que se producen.

MEJOR MODO PARA LLEVAR A CABO LA INVENCIÓN Primera Modalidad La Figura 1 ilustra toda la configuración de un sistema 10 de cámara de baja latencia de acuerdo con la presente modalidad. En este sistema, una imagen en movimiento de un usuario 6 se captura por una cámara 100, y un proceso de imagen se realiza basándose en los datos de la misma en una terminal 20 central. Después, un resultado de la misma se muestra en una pantalla 4 o se transmite a un destino de comunicación predeterminado mediante una red 12 tal como la Internet o una LAN (Red de Área Local) .

La cámara 100 es una videocámara digital proporcionada con un elemento de captura de imágenes tal como un CCD (Dispositivo Acoplado por Carga) o un CMOS (Semiconductor de Óxido de Metal Complementario) y se proporciona en la parte superior de un alojamiento de la pantalla 4 como se muestra en la figura. La pantalla 4 por ejemplo, es una televisión de pantalla, de cristal líquido, una televisión de plasma, una pantalla de PC, o similares. Normalmente, el usuario 6 se para enfrente de la pantalla 4 de manera que una imagen de todo o parte del cuerpo del usuario se captura por la cámara 100.

Una imagen mostrada en la pantalla 4 varía dependiendo de una aplicación ejecutada- en el sistema 10 de cámara de baja latencia. Por ejemplo, cuando el sistema 10 de cámara de baja latencia se utiliza como interfaz de usuario (UI) que reconoce el movimiento o expresión del usuario 6 e interpreta el movimiento o expresión en cierta clase de instrucción de operación, una imagen 8 mostrada en la pantalla 4 es una imagen de una parte del usuario 6, tal como una cara o una mano, o todo el cuerpo. Cuando el sistema 10 de cámara de baja latencia se utiliza para video conversación, la imagen 8 mostrada en la pantalla 4 es una imagen de una cara de un compañero de conversación, y una imagen del usuario 6 se muestra en una pantalla del compañero de conversación mediante la red 12.

En vista de un modo de uso tal como aquel descrito en lo anterior, la cámara 100 se proporciona de manera más adecuada en la parte superior de la pantalla 4. Sin embargo, siempre y cuando una imagen de todo o parte del cuerpo del usuario 6 puede capturarse, la cámara 100 puede colocarse en una ubicación distinta a la proximidad de la pantalla 4, por ejemplo, en la proximidad de la terminal 20 central o alrededor del usuario. En lugar de proporcionar la cámara 100 como una sola estructura, la cámara 100 puede integrarse en el alojamiento de la pantalla 4 o similar. En lugar de utilizar un elemento de captura de imagen en la cámara 100, una imagen análoga puede convertirse de análoga a digital (A/D) para su uso.

La terminal 20 central es una terminal de computadora tal como una computadora personal o un dispositivo de juego que se proporciona con una función de procesamiento de imágenes. La terminal 20 central secuencialmente toma, en orden cronológico, cada trama o varios datos que pueden obtenerse de cada trama de una imagen en movimiento obtenida por la captura de imagen del usuario 6 utilizando la cámara 100 y realiza un proceso de imagen predeterminado. En caso de una aplicación de video conversación, una imagen del usuario 6 se transmite a un compañero de conversación mediante la red 12 en tiempo real. En caso de una aplicación de interfaz de usuario, un proceso de información predeterminado se realiza basándose en una imagen del usuario 6, varios datos que pueden obtenerse de la imagen, o similar, y un resultado de la misma entonces se produce en la pantalla 4.

Por ejemplo, una imagen de un personaje que se mueve en respuesta al movimiento del usuario 6 o una imagen en la cual un elemento tal como una espada se coloca en una mano del usuario 6 se producen en la pantalla 4 en tiempo real. Un proceso de detección de rostro para el usuario 6 y un proceso de seguimiento para una parte específica los cuales son necesarios en tal aplicación, pueden realizarse por la terminal 20 central. Alternativamente, estos procesos pueden realizarse por la cámara .100 como se describe posteriormente, y un resultado de los mismos pueden transmitirse a la terminal 20 central como parte de lo "diversos datos" .

En la aplicación de video conversación, un proceso puede realizarse tal como mostrar solamente un área de la cara del usuario 6, la cual se obtiene como resultado del proceso de detección de rostro, en alta resolución. Además de los procesos de imágenes anteriores, la terminal 20 central también es capaz de sintetizar una imagen de objeto tal como un menú o un cursor para la ejecución de varias aplicaciones y después despliegan la imagen sintetizada en la pantalla 4.

Como se describe, existe una variedad de posibles procesos que pueden realizarse utilizando una imagen en movimiento que se captura por la cámara 100 en un sistema 10 de cámara de baja latencia y los detalles de los procesos no se limitan particularmente. Cuando se realiza alguno de los procesos, la cámara 100 captura una imagen en movimiento y también realiza cierta clase de proceso. utilizando la imagen en movimiento que se captura para generar una pluralidad de tipos de datos, en la presente modalidad. Existen muchos procesos posibles que se realizan por la cámara 100 e incluso las configuraciones respectivas de la misma dependiendo de una aplicación, la capacidad de procesamiento de la cámara y la terminal central, y similares.

En la presente modalidad, la cámara 100 genera datos de imágenes en movimiento qué muestran, en una pluralidad de resoluciones, una imagen de video que se captura por la cámara 100 y transmiten a la terminal 20 central sólo una parte necesaria de los datos de acuerdo con una solicitud de la terminal 20 central en tiempo real. Se asume que la terminal 20 central es capaz de especificar una forma de mostrar toda una imagen tal como resolución, un sistema de color, y componentes de la misma así como especificar un área en una trama.

Por ejemplo, al adquirir de la cámara 100 datos de toda una imagen de una baja resolución y datos de imagen de sólo un área que se observará de una, imagen de una alta resolución y después combinar estas imágenes en un plano de imagen, puede desplegarse una imagen en movimiento, en la cual el área que se observa se muestra en detalle, mientras se reduce un carga de la transmisión de datos. Este ejemplo es efectivo para aplicaciones de video conversación o similares si un área de la cara obtenida al realizar el proceso de detección de rostro en la terminal 20 central se establece para ser un área que se observará.

La Figura 2 ilustra la configuración de la cámara 100 de acuerdo con la modalidad. Características mostradas en la figura y en las Figuras 3, 4 y 8-11, las cuales se describen posteriormente, pueden implementarse por configuraciones tales como una CPU (Unidad de Procesamiento Central) , una RAM (Memoria de Acceso Aleatorio) , una ROM (Memoria de Sólo Lectura) y un circuito de presentación en términos de hardware, y por programas para proporcionar varias funciones tales como entrada de datos, almacenamiento de datos, procesamiento de imágenes y presentación en términos de software. Estas figuras ilustran bloques funcionales implementados por la cooperación de estos componentes. Por lo tanto, estos bloques funcionales pueden implementarse en una variedad de formas, por combinaciones de hardware y software. Para facilitar la explicación, la Figura 2 incluye un diagrama esquemático que ilustra una porción de imagen procesada en cada bloque funcional .

La cámara 100 comprende una unidad 102 de adquisición de imágenes, una unidad 104 de interpolación de mosaicos, una unidad 170 de filtro de pirámide, una unidad 156 de síntesis de imágenes, una unidad 151 de transmisión de imágenes, y una unidad 108 de comunicación. La unidad 102 de adquisición de imágenes lee, en un tiempo predeterminado (por ejemplo, 60 veces/segundos) , una imagen expuesta por un elemento de imagen tal como un CCD o jun CMOS. En la siguiente explicación, se asume que esta imagen tiene un ancho de "W" pixeles en una dirección horizontal y un ancho de "H" pixeles en una dirección vertical. Esta imagen es una imagen denominada RAW (sin procesar) . La unidad 102 - de adquisición de imágenes transmite la imagen RAW a la unidad 104 de interpolación de mosaicos y la unidad 151 de transmisión de imágenes cada vez que se completa la exposición para una sola fila horizontal de la imagen RAW.

La unidad 104 de interpolación de mosaicos tiene una memoria intermedia 105 de FIFO (Primero en Entrar Primero en Salir) que tiene una capacidad de W pixeles y una unidad 106 de procesamiento de interpolación de mosaicos simple. La información de pixel de una fila horizontal simple de la imagen RAW se ingresa y almacena en la memoria intermedia 105 de FIFO hasta que los pixeles para una fila horizontal subsiguiente se ingresan en la unidad 104 de interpolación mosaicos. Con la recepción de los pixeles para las dos filas horizontales, la unidad 106 de procesamiento de interpolación de mosaicos simple realiza, utilizando los pixeles recibidos, un proceso de interpolación de mosaicos para complementar la información de color para cada pixel basándose en los pixeles circundantes de la misma y después crear una imagen a todo color.

Como se conoce por una persona con experiencia en la técnica, existen muchos métodos para este proceso de interpolación de mosaicos. Sin embargo, un proceso simple de interpolación de mosaicos que utiliza sólo los píxeles para las dos filas horizontales es suficiente en este caso. Como ejemplo, cuando un píxel para el cual un valor correspondiente YCbCr se calculará tiene sólo un valor G, un valor RGB se obtiene al utilizar un valor R obtenido al tomar un promedio de los valores respectivos R de los píxeles adyacentes derecho e izquierdo, el valor G y un valor B de un píxel por encima o por debajo del píxel para un valor R, un valor G y un valor B del mismo, respectivamente, y después sustituirse en una ecuación de conversión predeterminada para calcular el valor YCbCr. Puesto que tal proceso de interpolación de mosaicos se conoce bien, una explicación detallada adicional del mismo se omite. Un espacio de color de los datos de imagen que se generan por la unidad 104 de interpolación de mosaicos o en un proceso subsiguiente no se limita a YCbCr.

La razón por la cual un proceso de interpolación de mosaicos simple es suficiente debido a que la imagen RAW puede utilizarse cuando es necesaria una imagen de alta calidad. En una variación de un proceso de interpolación de mosaicos simple, un método para formar un valor YCbCr de un solo píxel de cuatro píxeles para RGB puede utilizarse. En este caso, una imagen sin mosaico de 1/4 de tamaño de la imagen RAW puede obtenerse. De esta manera, un primer filtro 110 descrito posteriormente no es necesario.

Como se muestra en la figura, la unidad 106 de procesamiento de interpolación de mosaicos simple convierte RGB de cuatro píxeles, los cuales son dos píxeles horizontales por dos píxeles verticales, en señales de color YCbCr, por ejemplo, un bloque compuesto de estos cuatro píxeles se transfiere a la unidad 151 de transmisión de imágenes como imagen sin mosaico de l/l y también se transmite a la unidad 170 de filtro de pirámide.

La unidad 170 de filtro de pirámide tiene una función para dar jerarquía una imagen determinada en una pluralidad de resoluciones y producir la imagen jerárquica. Un filtro de pirámide, en general, se proporciona con filtros de reducción de 1/4 basándose en el número de niveles de resoluciones que se necesitan. En la presente modalidad, el filtro de pirámide tiene filtros de tres niveles: un primer filtro 110 a un tercer filtro 130. Cada filtro realiza un proceso de interpolación bilineal de cuatro píxeles que se encuentran adyacentes entre sí y después calcula un valor de píxel promedio de los cuatro píxeles. Por lo tanto, un tamaño de imagen obtenido después del proceso se vuelve 1/4 de tamaño de la imagen antes del proceso. Una persona con experiencia en la técnica debe apreciar fácilmente que lo mismo aplica incluso cuando filtros distintos a filtros de tres niveles se utilizan.

Antes del primer filtro 110, una memoria intermedia 112 simple de FIFO para W píxeles se proporciona de manera correspondiente para cada una de las señales Y, Cb y Cr. Estas memorias intermedias 112 de FIFO cada una tienen una función de almacenar píxeles de YCbCr para una sola fila horizontal hasta que los píxeles para una fila horizontal subsiguiente se produzcan a partir de la unidad 106 de procesamiento de interpolación de mosaicos simple. El tiempo de almacenamiento de los píxeles se determina de acuerdo con la velocidad de la exploración lineal de un elemento de imagen. Con la entrada de los píxeles para dos filas horizontales, el primer filtro 110 promedia los valores de píxeles Y, Cb y Cr para cuatro píxeles de dos píxeles horizontales por dos píxeles verticales. Al repetir este proceso, la longitud de una imagen sin mosaico de 1/1 se vuelve 1/2 tanto vertical como horizontalmente de manera que la imagen se convierte para tener 1/4 de tamaño como un todo. La imagen sin mosaico de 1/4 convertida se transmite a la unidad 156. de síntesis de imágenes y también se transfiere al segundo filtro 120 subsiguiente.

Antes del segundo filtro 120, una memoria intermedia 122 simple de FIFO para W/2 pixeles se proporciona de manera correspondiente para cada una de las señales Y, Cb, y Cr. Estas memorias intermedias 122 de FIFO, cada una también tiene una función de almacenar los pixeles YCbCr para una sola fila horizontal hasta que los pixeles para una fila horizontal subsiguiente se produzcan del primer filtro 110. Con la entrada de los pixeles para dos. filas horizontales, el segundo filtro 120 promedia los valores de pixeles Y, Cb y Cr para cuatro pixeles de dos pixeles horizontales por dos pixeles verticales. Al repetir este proceso, la longitud de la imagen sin mosaico de 1/4 se vuelve 1/2 tanto vertical como horizontalmente de manera que la imagen se convierte para tener el tamaño de 1/16 como un todo. La imagen sin mosaico de 1/16 convertida se transmite a la unidad 156 de síntesis de imágenes y también se transfiere al tercer filtro 130 subsiguiente.

Enfrente del tercer filtro 130, las memorias intermedias 132 de FIFO para W/4 se proporcionan. Distinto a esto, los mismos procesos que aquellos descritos en lo anterior se repiten. Una imagen sin mosaico de 1/64 de tamaño entonces se transmite a la unidad 156 de síntesis, de imágenes. Puesto que un filtro de pirámide tal como aquellos mostrados en lo anterior se conoce bien, como se describe en el documento de patente No. 1, una explicación detallada adicional del mismo se omite en la especificación objeto.

Como se describe, las salidas de imágenes que se han reducido para ser de 1/4, una a una se ingresa en la unidad 156 de síntesis de imágenes desde los filtros respectivos de la unidad 170 de filtro de pirámide. Como es evidente a partir de esto, el tamaño de una memoria intermedia de FIFO que es necesario antes de que cada filtro se vuelva más pequeño que el número de filtros pasados" se vuelve grande en la unidad 170 de filtro de pirámide. El número de filtros no se limita a tres y puede determinarse de manera adecuada dependiendo de un ancho de resolución que se requiera .

La unidad 156 de síntesis de' imágenes recibe los valores de píxeles YCbCr respectivos de la imagen sin mosaico de 1/4, la imagen sin mosaico de 1/16, y la imagen sin mosaico de 1/64 del primer filtro 110, el segundo filtro 120 y el tercer filtro 130, respectivamente. La unidad 156 de síntesis de imágenes entonces genera una nueva fila de píxeles donde fila respectivas de píxeles de la imagen sin mosaico de 1/4, la imagen sin mosaico de 1/16, y la imagen sin mosaico de 1/64 se conectan para cada uno de los valores de píxeles Y, Cb y Cr al conectar una fila de píxeles para una sola fila horizontal de cada una de las imágenes o una fila de píxeles en un margen más pequeña que la fila simple entre sí en una regla predeterminada. La fila de píxeles que se ha generado se transmite a la unidad 151 de transmisión de imágenes .

De acuerdo con una solicitud de datos recibida de la terminal 20 central mediante la unidad 108 de comunicación, la unidad 151 de transmisión de imágenes selecciona datos necesarios de entre una pluralidad de tipos de datos de imágenes que se han ingresado. La unidad 151 de transmisión de imágenes pone en paquetes los datos seleccionados y transmite los datos en paquetes a la unidad 108 de comunicación. En la presente modalidad, un proceso realizado por la cámara 100 se realiza en un orden de trama, comenzando en la parte izquierda superior de una imagen y repitiendo un proceso desde la parte izquierda a la parte derecha en la dirección descendente. Los píxeles para una sola fila horizontal se establecen para ser una unidad de procesamiento básica. El formato de datos de cada tipo de imagen que se ingresa en la unidad 151 de transmisión de imágenes y el formato de datos de una imagen que se transmite a la terminal 20 central básicamente son corrientes en las cuales piezas de datos, de las cuales cada una es para una sola fila horizontal de una imagen, se conectan desde la parte superior.

La unidad 108 de comunicación transmite el paquete a la terminal 20 central de acuerdo con por ejemplo, un protocolo predeterminado tal como USB 1.0/2.0, o similares. La comunicación con la terminal 20 central no se limita a una comunicación alámbrica. Por ejemplo, la comunicación puede ser comunicación inalámbrica por LAN tal como IEEE 802.11a/b/g o similar o comunicación infrarroja tal como IrDA o similar En la Figura 2, los datos para Y, los datos para C , y los datos para Cr se expresan por separado, y las filas para entrada y salida de datos se muestran para cada uno de los datos. Sin embargo, para evitar que se compliquen las figuras, los componentes se muestran en un conjunto simple después de esto.

En la presente modalidad, los: datos generados por la unidad 156 de síntesis de imágenes es una corriente de una serie de valores de píxeles en la cual filas respectivas de píxeles de las tres imágenes sin mosaicos se mezclan. Por lo tanto, hablando estrictamente, una imagen de un plano bidimensional no se genera como resultado de conectar las tres imágenes sin mosaicos. Sin embargo, como se describe posteriormente en detalle, cuando el número de píxeles que corresponde con el número de píxeles para una sola fila horizontal de una imagen se define para una corriente que se produce por la unidad 156 de síntesis de imágenes, los procesos subsiguientes son los mismos que aquellos en los datos de una imagen RAW o una imagen 1/1 en la cual la unidad 156 de síntesis de imágenes no se ve implicada. Como resultado, la unidad 156 de síntesis de imágenes sustancialmente genera una imagen en la cual la imagen sin mosaico de 1/4, la imagen sin mosaico de 1/16, y la imagen sin mosaico de 1/64 se combinan. Después de esto, esta imagen virtual se denomina como "imagen sintetizada" .

La Figura 3 ilustra las configuraciones respectivas de la unidad 156 de síntesis de imágenes y la unidad 151 de transmisión de imágenes de la cámara 100. La unidad 156 de síntesis de imágenes tiene memorias intermedias 149 y 150 de FIFO para almacenamiento temporal, respectivamente, de datos para una sola fila horizontal de la imagen sin mosaico de 1/16 y los datos para una sola fila horizontal de la imagen sin mosaico de 1/64, las cuales se han adquirido respectivamente del segundo filtro 120 y el tercer filtro 130.

Como se describe posteriormente en detalle, la unidad 156 de síntesis de imágenes se conecta a los datos para píxeles para una sola fila horizontal de la imagen sin mosaico de 1/4 del primer filtro 110, los datos para la mitad de los píxeles de una fila de píxeles para la fila simple horizontal de la imagen sin mosaico de 1/16 del segundo filtro 120 y los datos para un cuarto de los píxeles de una fila de los píxeles para la fila simple horizontal de la imagen sin mosaico de 1/64 del tercer filtro 130 en el orden para formar datos para una sola fila horizontal de la imagen sintetizada virtual.

La unidad 151 de transmisión de imágenes tiene .una unidad 154 de selección de datos, una unidad 162 de formación de paquetes y una unidad 164 de control . Basándose en una solicitud de la terminal 20 central, la unidad 164 de control de la unidad 151 de transmisión de imágenes indica a la unidad 154 de selección de datos cuál de las diversas piezas de los datos de imágenes se transmitirá como paquete. Al utilizar, como datos de entrada, los datos para una fila de píxeles de la imagen RAW que se ha ingresado desde la unidad 102 de adquisición de imágenes, los datos para una fila de píxeles de la imagen sin mosaico de l/l que se ha ingresado desde la unidad 104 de interpolación de mosaicos, y los datos para una fila de píxeles de la imagen sintetizada que se ha ingresado desde la unidad 156 de síntesis de imágenes, la unidad 154 de selección de datos selecciona y extrae los datos indicados por la unidad 164 de control y transmite los datos a la unidad 162 de formación de paquetes.

En este tiempo, dependiendo de la solicitud de la terminal 20 central, la unidad 154 de selección de datos transmite una corriente de datos de imágenes determinados como un todo o transmite sólo los datos para una parte de un margen incluido en el área que va a observarse, como se describe en lo anterior. En el caso anterior, una corriente se reconstruye al conectar piezas de . datos que se transmitirán. La unidad 162 de formación de paquetes forma paquetes, para cada tamaño de acuerdo con un protocolo de la unidad 108 de comunicación, una corriente que se ha ingresado de la unidad 154 de selección de datos y escribe la corriente en paquetes en una memoria intermedia de paquetes interna (no mostrada) . Por ejemplo, en el caso de un USB, la unidad 162 de formación de paquetes pone en paquete una corriente para cada tamaño de un punto extremo.

La unidad 108 de comunicación transmite un paquete en la memoria intermedia de paquetes a la terminal 20 central de acuerdo con un protocolo de comunicación predeterminado. Cuando las piezas respectivas de datos de una pluralidad de imágenes se solicitan entre los datos de la imagen RAW, los datos de la imagen sin mosaico de 1/1, y los datos de la imagen sintetizada, la unidad 154 de. selección de datos ingres una pluralidad de corrientes que corresponde con aquellas piezas de datos en la unidad 162 de formación de paquetes. La transmisión de datos con menor latencia puede lograrse al proporcionar una pluralidad de canales de salida desde la unidad 154 de selección de datos, la entrada en y la salida de la unidad 162 de formación de paquetes, y la entrada en y la salida de la unidad 108 de comunicación de manera que la pluralidad de piezas de datos que se han solicitado se transmitan en paralelo. Una descripción detallada se seguirá con respecto a este caso.

La Figura 4 ilustra la configuración de un circuito interno de la terminal 20 central. La terminal 20 central incluye una CPU 50 (Unidad de Procesamiento Central) , una GPU 52 (Unidad de Procesamiento de Gráficos), una . unidad 54 de control de visualización, una unidad 56 de almacenamiento, una memoria 58 principal, y una unidad 60 de comunicación. La CPU 50 procesa una señal o controla un componente de constitución interna basándose en los programas tales como sistema operativo o una aplicación. La GPU 52 realiza un proceso de imagen de acuerdo con una solicitud de la CPU 50. La unidad 54 de control de visualización genera una señal de video que se desplegará en la pantalla 4, datos de imágenes extraídos por la GPU 52 en una memoria intermedia de tramas (no mostrada) .

La unidad 56 de almacenamiento se compone de una unidad de disco duro, una memoria no volátil, o similares y almacena un programa y datos necesarios para operar el sistema 10 de cámara de baja latencia. La memoria 58 principal se compone de una RAM (Memoria de Acceso Aleatorio) o similar y almacena los datos que se transmiten desde la cámara 100 así como un programa cargado y datos. La unidad 60 de comunicación es una interfaz periférica, tal como un USB o IEEE 1394, o una interfaz de red alámbrica o inalámbrica de LAN. Particularmente en la presente modalidad, la unidad 60 de comunicación transmite una señal de solicitud de datos a la cámara 100 y recibe los datos transmitidos desde la cámara 100. Estos componentes se conectan mutuamente entre sí mediante un bus 62. La GPU 52 puede leer directamente los datos, los cuales son necesarios para el procesamiento, tal como datos de textura de la memoria 58 principal mediante el bus 52.

La Figura 5 ilustra de manera esquemática una transición básica de la forma de datos en la cámara 100 y la terminal 20 central. En este caso, como ejemplo, una situación se considera donde los datos de toda una imagen 200 de trama que tiene un ancho de "W" píxeles en una dirección horizontal y un ancho de "H" píxeles en una dirección vertical se transmite a la terminal 20 central desde la cámara 100. Como se describe en lo anterior, la generación, selección y transmisión de datos de imágenes se realizan en un orden de trama de píxeles, y las filas de píxeles cada una para una sola fila horizontal se conectan de manera secuencial y se procesan en un formato de corriente en la presente modalidad.

Los datos que se producen por la unidad 154 de selección de datos bajo tal situación es una corriente 202. En la figura, el eje horizontal de la corriente 202 representa el paso del tiempo, y los rectángulos Ll, L2, y LH, los cuales constituyen la corriente 202, representan piezas respectivas de datos de píxeles de una primera fila, píxeles de una segunda fila, y píxeles de una Hésima fila de la imagen 200 de trama. Cuando el tamaño de datos de un píxel simple se establece para ser d byte, el tamaño de datos de cada rectángulo es W*d bytes .

La unidad 162 de formación de paquetes rompe la corriente 202 para cada tamaño predeterminado para generar paquetes Pl, P2, P3 , P4 , P5, .... Esto permite que los paquetes Pl, P2, P3, P4, P5, ... se transmitan a la terminal 20 central desde la cámara 100 en el orden. Cuando la terminal 20 central recibe los paquetes Pl, P2 , P3 , P4, P5, ... mediante la unidad 60 de comunicación, la terminal 20 central almacena los paquetes en la memoria 58 principal bajo el control de la CPU 50.

En este tiempo, al disponer las piezas respectivas de datos de los paquetes en el orden de trama en la memoria 58 principal de manera que los datos dispuestos tengan un ancho horizontal que justifique el número ("W") de los píxeles de la imagen 200 de trama original en la dirección horizontal, los datos se despliegan en direcciones continuas de W*d*H bytes para reproducir una imagen 204. En la figura, los rectángulos que constituyen la imagen 204 representan piezas de datos de los paquetes respectivos. Bajo el control de la CPU 50, la GPU 52 presenta una imagen que se desplegará en la pantalla 4 al procesar la imagen ; 204 desplegada en la memoria 58 principal o al combinar la imagen 204 con otra imagen.

Se proporciona ahora una explicación con respecto a un método para sintetizar una imagen sin mosaico de 1/4, una imagen sin mosaico de 1/16, y una imagen sin mosaico de 1/64 mediante la unidad 156 de síntesis de imágenes. La Figura 6 es un diagrama de tiempos que ilustra el tiempo de entrada de los valores de pixeles respectivos de una imagen sin mosaico de 1/4, una imagen sin mosaico de 1/16 y una imagen sin mosaico de 1/64 de filtros respectivos de una unidad 170 de filtro de pirámide. En la figura, las etapas SI, S2, S3 y S4, ... de tiempo representan periodos respectivos en los cuales los valores de pixeles respectivos de la primera línea, segunda línea, tercera línea, cuarta línea, ... de la imagen sin mosaico de 1/4 se ingresan.

Como en el caso de la imagen sin mosaico de 1/4 anterior, en las imágenes incluidas en una imagen sintetizada, una imagen con la más alta resolución tiene la proporción de generación de datos más alta en la unidad 170 de filtro de pirámide. De esta manera, un periodo en el cual se ingresan valores de pixeles para una sola fila horizontal de la imagen con la más alta resolución se establece para ser una etapa de tiempo de referencia, y la etapa de tiempo se asocia con una fila de pixeles para una sola fila horizontal de la imagen sintetizada. En otras palabras, los datos para una sola fila horizontal de la imagen sintetizada se generan utilizando, como ciclo de referencia, un periodo en el cual los valores de pixeles para una sola fila horizontal de la imagen con la más alta resolución se ingresan.

La fila superior, la fila media y la fila inferior de la figura muestran el tiempo de entrada de una imagen sin mosaico de 1/4, el tiempo de entrada de una imagen sin mosaico de 1/16, y el tiempo de entrada de una imagen sin mosaico de 1/64, respectivamente, y un solo rectángulo corresponde con la entrada para un solo píxel . En primer lugar, en la etapa SI de tiempo, los valores de pixeles de una fila de pixeles de L(i/4)1 de la primera fila de la imagen sin mosaico de 1/4 se ingresan comenzando desde el píxel izquierdo. En esta etapa de tiempo, la imagen sin mosaico de 1/16 y la imagen sin mosaico de 1/64 no se generan y de este modo no se ingresan.

Después, en la etapa S2 de tiempo, los valores de pixeles de una fila de pixeles L(i/4)2 de la segunda fila de la imagen sin mosaico de 1/4 se ingresan comenzando desde el píxel izquierdo. En este tiempo, una fila de pixeles L(i/i6)l de la primera fila de la imagen sin mosaico de 1/1-6 se genera en la unidad 170 de filtro de pirámide utilizando los valores de pixeles de la fila de pixeles L(1/4)l de la primera fila y los valores de pixeles de la fila de pixeles L<i/4)2 de la segunda fila de la imagen sin mosaico de 1/4. De esta manera, los valores de pixeles de la fila de pixeles también se ingresan en la etapa S2 de tiempo.

Por ejemplo, los valores de. pixeles que se ingresan en un periodo 210 en el extremo izquierdo de una fila de pixeles L(1/16)l de la primera fila de la imagen sin mosaico de 1/16 se generan utilizando ambos valores de pixeles de los dos pixeles que se ingresan en un periodo 206 en la fila de pixeles L(i/4)1 de la primera fila de la imagen sin mosaico de 1/4 y los valores de pixeles de los dos pixeles que se ingresan en un periodo 208 en la fila de pixeles L(1/4)2 de la segunda fila. Por lo tanto, en la etapa S2 de tiempo, el tiempo de entrada de los valores de pixeles de la fila de pixeles L(i/i6)l se retarda por el menos dos pixeles comparado con el tiempo de entrada de los valores de pixeles de los pixeles que corresponden con la fila de pixeles L(i/ )2.

En la etapa S3 de tiempo subsiguiente, los valores de pixeles de una fila de pixeles L(i/4)3 de la tercera fila de la imagen sin mosaico de 1/4 se ingresan. En esta etapa de tiempo, los valores de pixeles de la segunda fila de la imagen sin mosaico de 1/16 no se generan, y la imagen sin mosaico de 1/64 no se genera tampoco. De esta manera, ninguna de las dos se ingresa. En la etapa S4 de tiempo subsiguiente, es decir, en un periodo en el cual los valores de pixeles de una fila de pixeles L<i/4)4 de la cuarta fila de la imagen sin mosaico de 1/4 se ingresan, los valores de pixeles de una fila de pixeles L(i/i6)2 de la segunda fila de la imagen sin mosaico de 1/16 también se ingresan como en el caso de la etapa S2 de tiempo.

Además, una fila de píxeles L(i/64)1 de la primera fila de una imagen sin mosaico de 1/64 se genera en la unidad 170 de filtro de pirámide utilizando los valores de píxeles de la fila de píxeles L(i/16)l de la primera fila y los valores de píxeles de la fila de píxeles L(i/i6>2 de la segunda fila de la imagen sin mosaico de 1/16. De esta manera, los valores de píxeles de la fila de píxeles también se ingresan en la etapa S4 de tiempo. Por ejemplo, los valores de píxeles que se ingresan en un primer periodo 218 en una fila de píxeles L(! 64)l de la primera fila de la imagen sin mosaico de 1/64 se generan utilizando ambos valores de píxeles de los dos píxeles que se ingresan en los periodos 210 y 212 en la fila de píxeles La/i6)l de la primera fila de la imagen sin mosaico de 1/16 y los valores de píxeles de los dos píxeles que se ingresan en los periodos 214 y 216 en la fila de píxeles L(i/ie)2 de la segunda fila.

Por lo tanto, en la etapa S4 de tiempo, el tiempo de entrada de la fila de píxeles L(i/64)1 se retarda por al menos dos píxeles en comparación con el. tiempo de entrada de los valores de píxeles de los píxeles que corresponden con la fila de píxeles Ld i6)2. Después de. esto, al repetir la entrada de los valores de píxeles respectivos de las imágenes de la misma manera, todos los valores de píxeles respectivos de la imagen sin mosaico de 1/4, la imagen sin mosaico de 1/16, y la imagen sin mosaico de 1/64 se ingresan en la unidad 156 de síntesis de imágenes.

Como se describe en lo anterior, los valores de pixeles respetivos de las imágenes se ingresan en el orden de trama como corrientes individuales de filtros correspondientes de la unidad 170 de filtro de pirámide. La unidad 156 de síntesis de imágenes conecta estas corrientes para formar una sola corriente y produce la corriente en la unidad 151 de transmisión de imágenes. La forma más simple posible es conectar piezas respectivas de datos en los valores de pixeles en orden de tiempo de entrada sin importar las imágenes originales. En este caso, aunque es fácil un proceso de síntesis por sí mismo, la clasificación y extracción de las piezas de datos para cada fila simple son necesarias para cada una de las imágenes y los procesos subsiguientes, y de esta manera se complican los procesos.

También es posible recolectar valores de pixeles para cada una de las imágenes en cada etapa de tiempo para formar filas de pixeles y después conectar estas filas de pixeles en serie. En este caso, aunque . los valores de pixeles que se ingresan en las etapas SI y S3 de tiempo sólo son datos de la imagen sin mosaico de 1/4, aquellas que se ingresan en por ejemplo, la etapa S4 son datos de las tres imágenes: la imagen sin mosaico de 1/4; la imagen sin mosaico de 1/16; y la imagen sin mosaico de .1/64. Como se describe, la longitud de datos que se produce varía mayormente dependiendo de una etapa de tiempo.. De esta manera, para imágenes con etapas de tiempo durante las cuales no se ingresan datos, algunos valores de píxeles que se han ingresado no hace mucho se producen utilizando las etapas de tiempo para igualar casi la longitud de datos que se ingresa en cada una de las etapas de tiempo en la presente modalidad.

La Figura 7 ilustra de manera esquemática un estado en donde piezas respectivas de datos para filas de píxeles de una pluralidad de imágenes se conectan con una unidad 156 de síntesis de imágenes. En la figura, SO, SI, S2, S3, son etapas de tiempo que son similares a las mostradas en la Figura 6, y los valores de píxeles para una sola fila de la imagen sin mosaico de 1/4 se ingresan en cada periodo. La figura muestra, en un rectángulo sombreado diferente para cada una de las imágenes, una fila de píxeles para la cual se producen los datos en cada etapa de tiempo. Como se explica con referencia a la Figura 6, en la etapa SI de tiempo, los valores de píxeles de una fila de píxeles L<i/4)1 de la primera fila de la imagen sin mosaico de 1/4 se ingresan, y la unidad 156 de síntesis de imágenes de esta manera produce los valores de píxeles directamente. Cuando . el valor de píxel de la imagen RAW original en la dirección horizontal se establece para ser, el número de píxeles para una sola fila de la imagen sin mosaico de 1/4 es W/2 como se muestra en la figura.

En la etapa S2 de tiempo subsiguiente, los valores de píxeles de la fila de píxeles L<i/4)2 de la segunda fila de la imagen sin mosaico de 1/4 y los valores de píxeles de la fila de píxeles L(ii6)l de la primera fila de la imagen sin mosaico de 1/16 se ingresan en paralelo en el tiempo mostrado en la Figura 6. De aquellos valores de píxeles, la unidad 156 de síntesis de imágenes almacena de manera temporal los valores de píxeles de la fila de píxeles L(i/i6)l de la primera fila de la imagen sin mosaico de 1/16 en la memoria intermedia 149 de FIFO y produce de manera secuencial los valores de píxeles de la fila de píxeles L(1/4)2 de la segunda fila de la primera imagen sin mosaico de 1/4.

Al terminar la producción de todos los valores de píxeles de la fila de píxeles L(1/4)2 de la segunda fila de la imagen sin mosaico de 1/4, la unidad 156 de síntesis de imágenes lee de manera sucesiva la fila de píxeles de la primera fila de la imagen sin mosaico de 1/16 de la memoria intermedia 149 de FIFO y produce la fila de píxeles L(i/i6)l» En este tiempo, en consideración de la cantidad de valores de píxeles que se producirá en la etapa S3 de tiempo subsiguiente, la unidad 156 de síntesis de imágenes produce sólo los valores de píxeles de la primera mitad (la mitad ' izquierda en el plano de imagen) de todos los píxeles de la fila de píxeles L(i i6)l de la primera fila de la imagen sin mosaico de 1/16 y continúa almacenando el resto en la memoria intermedia 149 de FIFO.

En la etapa S3 de tiempo subsiguiente, sólo los valores de pixeles de la fila de pixeles L(1/4)3 de la tercera fila de la imagen sin mosaico de 1/4 se ingresa. La unidad 156 de síntesis de imágenes produce directamente los valores de pixeles de la fila de pixeles. De manera subsiguiente, la unidad 156 de síntesis de imágenes lee los valores de pixeles de la última mitad (mitad derecha en el plano de imagen) , que no se han producido, de la fila de pixeles L(i i6)l de la primera fila de la imagen sin mosaico de 1/16 de una memoria interna y produce los valores de pixeles.

En la etapa S4 de tiempo subsiguiente, los valores de pixeles de la fila de pixeles L(i/)4 de la cuarta fila de la imagen sin mosaico de 1/4 y los valores de pixeles de la fila de pixeles L(i i6)2 de la segunda fila de la imagen sin mosaico de 1/16 y la fila de pixeles L(i/G4)l de la primera fila de la imagen sin mosaico de 1/64 se ingresan en paralelo en el tiempo mostrado en la Figura 6. De estos valores de pixeles, la unidad 156 de síntesis de imágenes almacena temporalmente los valores de pixeles de la fila de pixeles L(1/1S)2 de la segunda fila de la imagen sin mosaico de 1/16 y los valores de pixeles déla fila de pixeles L(1/64)l de la primera fila de la imagen sin mosaico de 1/64 en las memorias intermedias 149 y 150 de FIFO, respectivamente, y de manera secuencial producen los valores de pixeles de la fila de plxeles L(i4)4 de la cuarta fila de la primera imagen sin mosaico de 1/4.

Con la finalización de la producción de todos los valores de píxeles de la fila de píxeles L(i/4>4 de la cuarta fila de la imagen sin mosaico de 1/4, la unidad 156 de síntesis de imágenes lee de manera sucesiva la primera mitad de la fila de píxeles L(1/16)2 de la segunda fila de la imagen sin mosaico de 1/16 de la memoria intermedia 149 de FIFO y produce la primera mitad de la fila de píxeles L(i/is)2. Después, la unidad 156 de síntesis de imágenes produce la fila de píxeles L(i 64)1 de la primera fila de la imagen sin mosaico de 1/64. En este tiempo, en consideración de la cantidad de valores de píxeles que se producirá en las siguientes tres etapas S5, S6 y S7 de tiempo, la unidad 156 de síntesis de imágenes divide la fila de píxeles L(1/64)l de la primera fila de la imagen sin mosaico de 1/64 en cuatro cuartos y produce sólo los valores de píxeles del primer cuarto. La unidad 156 de síntesis de imágenes almacena el resto en la memoria intermedia 150 de FIFO.

En la etapa S5 de tiempo subsiguiente, sólo los valores de píxeles de una fila de píxeles L(1/4)5 de la quinta fila de la imagen sin mosaico de 1/4 se ingresan. La unidad 156 de síntesis de imágenes produce directamente los valores de píxeles de la fila de píxeles. De manera subsiguiente, la unidad 156 de síntesis de imágenes lee los valores de píxeles de la última mitad, la cual no se ha producido de la fila de píxeles L<i/i6)2 de la segunda fila de la imagen sin mosaico de 1/16 de la memoria intermedia 149 de; PIFO y produce los valores de píxeles. Además, la unidad 156 de síntesis de imágenes produce los valores de píxeles del segundo cuarto de los datos, el cual no se ha producido y se ha dividido en cuatro cuartos, de la fila de píxeles L(i/64)1 de la primera fila de la imagen sin mosaico de 1/64.

De manera similar, en la etapa S6 de tiempo subsiguiente, la unidad 156 de síntesis de imágenes produce los valores de píxeles de una fila de píxeles L(i/4)6 de la sexta fila de la imagen sin mosaico de 1/4, los valores de píxeles de la primera mitad de la fila de píxeles L(i/ie)3 de la tercera fila de la imagen sin mosaico de 1/16, y los valores de píxeles del tercer cuarto de los datos, el cual se ha producido y se ha dividido en cuatro cuartos, de la fila de píxeles L(i 6 )1 de la primera fila de la imagen sin mosaico de 1/64. En la etapa S7 de tiempo subsiguiente, la unidad 156 de síntesis de imágenes produce los valores de píxeles de una fila de píxeles L(i/4)7 de la séptima' . fila de la imagen sin mosaico de 1/4, los valores de píxeles de la última mitad de la fila de píxeles L(i/i6)3 de la tercera fila de la imagen sin mosaico de 1/16, y los valores de píxeles del último cuarto de los datos, el cual se ha dividido en cuatro cuartos, de la fila de píxeles L(i 64)1 de la primera fila de la imagen sin mosaico de 1/64.

En otras palabras, la fila de píxeles L(i/i6)l de la primera fila de la imagen sin mosaico de 1/16 se produce la mitad cada uno en las dos etapas S2 y S3 de tiempo. La fila de píxeles L(i/e4)l de la primera fila de la imagen sin mosaico de 1/64 se produce en un cuarto cada uno en las cuatro etapas S4, S5, S6 y S5 de tiempo. Cuando el valor de píxel de la imagen RAW en la dirección horizontal se establece para ser W, el número de píxeles de una sola fila horizontal de la imagen sin mosaico de 1/16 y el número de píxeles de una sola fila horizontal de la imagen sin mosaico de 1/64 son W/4 y W/8, respectivamente. De esta manera, como se muestra en la figura los datos para (W/4)/2 píxeles y los datos para (W/8)/4 píxeles se producen cada uno por etapa de tiempo, respectivamente.

Los procesos de producción anteriores se repiten a través de las filas inferiores respectivas de las imágenes. En este caso, al momento que se producen los datos para la fila de píxeles inferior de la imagen. sin mosaico de 1/4, los datos para la última mitad de la fila de píxeles inferior de la imagen sin mosaico de 1/16 y los datos para los tres cuartos restantes de los píxeles de la fila inferior de la imagen sin mosaico de 1/64 aún no se producen. De esta manera, en una etapa de tiempo ,S(H/2+l) que sigue inmediatamente, la unidad 156 de síntesis de imágenes produce los datos para la última mitad de la fila de plxeles inferior de la imagen sin mosaico de 1/16 y los datos para el segundo cuarto de la fila de píxeles inferior, la cual se ha dividido en cuatro cuartos, de la imagen sin mosaico de 1/64.

En este tiempo, la unidad 156 de síntesis de imágenes primero produce datos inválidos como datos para W/2 píxeles, para los cuales los datos dé la imagen sin mosaico de 1/4 se han producido hasta este tiempo, y después produce los datos de la imagen sin mosaico de 1/16 y los datos de la imagen sin mosaico de 1/64. En las siguientes dos etapas de tiempo S(H/2+2) y S(H/2+3), la unidad 156 de síntesis de imágenes primero produce datos inválidos como datos para W/2+(W/4)/2 píxeles, para los cuales los datos de la imagen sin mosaico de 1/4 y los datos para la imagen sin mosaico de 1/16 se han producido hasta ese tiempo, y después produce las piezas respectivas de datos del tercer y cuarto cuartos de la fila de píxeles inferior, la cual se ha divido en cuatro cuartos, de la imagen sin mosaico de 1/64.

Como se muestra en la figura los datos para [W/2+ (W/4) /2+ (W/8) /4 = 21W/32] píxeles se producen en todos los tiempos excepto para las primeras, tres etapas de tiempo y las últimas tres etapas de tiempo, cuando se realiza la producción como se describe en lo anterior. Para producir valores de píxeles para una sola fila, se requiere una etapa de tiempo para la imagen sin mosaico de 1/4, dos etapas de tiempo para la imagen sin mosaico de 1/16, y cuatro etapas para la imagen sin mosaico de 1/64. De esta manera, el número de etapas de tiempo requerido para producir datos de imágenes para una sola trama es idéntico para todos como sigue: H/2 = (H/4)*2 = (H/8)*4. Como resultado, el número total de etapas de tiempo requerido para producir datos de las tres imágenes que representan una sola trama es H/2+3.

Como se describe en lo anterior, los datos que se producen por la unidad 156 de síntesis de imágenes es una fila de valores de píxeles. Al proporcionar con anticipación el número de píxeles que corresponde con cada etapa de tiempo, es decir, 21W/32, como el número de píxeles de una sola fila horizontal, la unidad 151 de transmisión de imágenes trata los datos que se producen en cada etapa de tiempo como datos para una sola fila de una imagen como en el caso de la imagen RAW y la imagen sin mosaico de 1/1.

Por lo tanto, al mapear cada etapa de tiempo para píxeles de una imagen en la dirección vertical, el proceso de producción se vuelve equivalente a un proceso de generación de una imagen 220 sintetizada mostrada por un área rectangular general en la Figura 7. Al fijar un margen ocupado por los datos de cada imagen en una fila de píxeles que se produce en cada etapa de tiempo, como se describe en lo anterior, los datos de la imagen sin mosaico de 1/4, los datos de la imagen sin mosaico de 1/16, y los datos de la imagen sin mosaico de 1/64 cada uno forma un área de bloque rectangular en la imagen 220 sintetizada. Por lo tanto, la segmentación de datos en una base de imagen por imagen puede realizarse fácilmente utilizando la localidad.

La Figura 8 ilustra la configuración relacionada con un proceso de solicitud de datos de la terminal 20 central y un proceso de transmisión de datos de la cámara 100. En la figura, números de referencia idénticos representan bloques funcionales que son idénticos a los mostrados en las Figuras 3 y 4, y la descripción de los mismos se omite parcialmente. La terminal 20 central y la cámara 100 intercambian varios datos mediante unidades de comunicación respectivas de los mismos como se describe en lo anterior. Sin embargo, en la figura, las unidades de comunicación respectivas se omiten. La CPU 50 de la terminal 20 central tiene una unidad 64 de solicitud de datos, una unidad 66 de procesamiento de datos, y una unidad 68 de implementación de datos. La unidad 154 de selección de datos de la unidad 151 de transmisión de imágenes de la cámara 100 tiene una unidad 166 de selección de. corriente y una unidad 168 de recorte.

La unidad 64 de solicitud de datos de la CPU 50 transmite a la cámara 100 una señal de solicitud de datos que especifica una imagen solicitada para que se transmita y un área de la misma. Se especifica como la imagen solicitada para que se transmita, por ejemplo, una imagen RAW o una imagen sin mosaico de cada tamaño. Se especifican para el área, por ejemplo, las coordenadas de izquierda superior y los anchos en las direcciones horizontal y vertical del área en el plano de imagen. Además, de éstos, la unidad 64 de solicitud de datos de la CPU 50 transmite a la cámara 100 una señal que solicita el inicio o finalización de la captura de imágenes, una señal que especifica las condiciones de captura de imágenes, o similares. Las condiciones de captura de imágenes por ejemplo, son una proporción de trama, velocidad del obturador, balance de blancos, un ángulo de visualización, y similares u se determinan basándose en el rendimiento de la cámara 100, una aplicación que se ejecuta por la CPU 50, o similares.

Al recibir la señal de solicitud de datos de la unidad 64 de solicitud de datos, la unidad 164 de control de la unidad 151 de transmisión de imágenes proporciona información de la misma a la unidad 154 de selección de datos. Cuando la unidad 164 de control " recibe una señal que solicita inicio o finalización de la captura de imágenes, una señal que especifica las condiciones de captura de imágenes, o similares, la unidad 164 de control proporciona de manera adecuada información de la misma a la unidad 102 de adquisición de imágenes de la cámara 100. Puesto que puede aplicarse una técnica comúnmente utilizada en este caso, se omite una explicación detallada de la misma.

La unidad 166 de selección de corriente de la unidad 154 de selección de datos lee las corrientes de la imagen RAW, la imagen sin mosaico de 1/1, y los datos de imágenes sintetizadas en paralelo de la unidad 102 de adquisición de imágenes, la unidad 104 de interpolación de mosaicos, y la unidad 156 de síntesis de imágenes, respectivamente, y selecciona sólo los, datos de la imagen especificada por la señal de solicitud de datos para producir los datos en la unidad 168 de recorte. La unidad 168 de recorte extrae sólo los datos para píxeles incluidos en un área rectangular especificada por la señal de solicitud de datos de los datos para píxeles que se han ingresado y produce los datos extraídos en la unidad 162 de formación de paquetes.

El proceso realizado por la unidad 168 de recorte es el mismo que un proceso de recorte comúnmente utilizado donde se remueve un área innecesaria al recortar un área rectangular específica en una imagen. En la presente modalidad, un objeto de procesamiento no es un plano de imagen sino una unidad de filas de píxeles. Sin embargo, al proporcionar información para el número de píxeles de una sola fila horizontal de una imagen original con anticipación, coordenadas bidimensionales de un plano de imagen pueden mapearse fácilmente en coordenadas mono-dimensionales en una corriente, y la especificación de los píxeles que se corta puede realizarse de manera similar.

En la presente modalidad, los datos de la imagen sin mosaico de 1/4, la imagen sin mosaico de 1/16, y la imagen sin mosaico de 1/64 se agrupan en áreas rectangulares en una imagen sintetizada tal como la mostrada en la Figura 7. De esta manera, las tres imágenes pueden cortarse fácilmente por este proceso de recorte. Por ejemplo, en el caso de la imagen sintetizada mostrada en la Figura 7, toda el área de la imagen sin mosaico de 1/16 puede cortarse al especificar un área que tiene un vértice de izquierda superior en las coordenadas (W/2,1), un ancho de W/8 en la dirección horizontal y un ancho de H/2 en la dirección vertical.

La unidad 154 de selección de datos repite los procesos anteriores, por lo que produce secuencialmente los datos del área en la imagen especificada por la señal de solicitud de datos en un formato de corriente en el cual se conectan las filas de píxeles. Las corrientes recibidas por la unidad 162 de formación de paquetes se forman en paquetes para cada tamaño predeterminado basándose en la política del FIFO y después se transmiten de manera secuencial a la terminal 20 central.

La unidad 68 de implementación de datos de la terminal 20 central implementa los paquetes, los cuales se reciben desde la cámara 100, como plano de imagen en la memoria 58 principal como se muestra en la Figura 5. .Al utilizar la imagen implementada, la unidad 66 de procesamiento de datos realiza un proceso de acuerdo con una aplicación que se ejecuta. Si es necesario, la unidad 66 de procesamiento de datos puede solicitar a la GPU 52 que realice el proceso de imagen, y la GPU 52 puede leer la imagen de la memoria 58 principal para procesar y sintetizar la imagen. Los datos de imagen implementados en la memoria 58 principal son los mismos que los datos de imágenes comúnmente utilizados y de esta manera también., pueden leerse como textura .

La unidad 66 de procesamiento de datos puede adquirir la posición de un área de la cara o un objeto en seguimiento al analizar la imagen implementada en la memoria 58 principal y proporcionar la información del área a la unidad 64 de solicitud de datos. La unidad 64 de solicitud de datos puede especificar el área y transmitir una nueva señal de solicitud de datos a la cámara 100 en este tiempo. En este caso, la unidad 168 de recorte de la cámara 100 cambia un área, la cual se extraerá, de acuerdo con la especificación ál momento cuando se procese una nueva trama de imagen .

La Figura 9 ilustra una variación ejemplar de la configuración de la unidad de transmisión de imágenes . En la figura, números de referencia similares representan bloques que tienen bloques funcionales similares mostrados en la Figura 8, y la descripción de los mismos se omite parcialmente. En este ejemplo, un resultado de la unidad 151 de transmisión de imágenes y una entrada y una salida de la unidad 108 de comunicación tienen una pluralidad de canales. Al proporcionar la pluralidad de canales, piezas respectivas de datos de diferentes imágenes y de diferentes áreas pueden extraerse en paralelo y transmitirse a la terminal 20 central en paralelo.

En este caso, el número de canales no se limita particularmente. En la figura, al proporcionar tres canales, tres tipos de datos se transmiten al mismo tiempo. Por lo tanto, la unidad 151 de transmisión de imágenes se proporciona con tres unidades de selección de datos : una primera unidad 154a de selección de datos; una segunda unidad 154b de selección de datos; y una tercera unidad 154c de selección de datos, y tres unidades de formación de paquetes: una primera unidad 162a de formación de paquetes; una segunda unidad 162b de formación de paquetes; y una tercera unidad 162c de formación de paquetes. La primera unidad 154a de selección de datos, la segunda unidad 154b de selección de datos y la tercera unidad 154c de selección de datos se conectan en serie a la primera unidad 162a de formación de paquetes, la segunda unidad 162b de formación de paquetes y la tercera unidad 162c de formación de paquetes, respectivamente, para seleccionar, extraer y formar en paquetes las piezas respectivas de datos de las que se encargan las unidades .

Por lo tanto, la primera unidad 154a de selección de datos, la segunda unidad 154b de selección de datos y la tercera unidad 154c de selección de datos tienen un conjunto de una unidad 166a de selección de corrientes y una unidad 168a de recorte, y un conjunto de una unidad 166b de selección de corrientes y una unidad 168b de recorte, y un conjunto de una unidad 166c de selección de corrientes y una unidad 168c de recorte, respectivamente. La unidad 164 de control asigna, en cada una de las tres unidades de selección de datos, piezas respectivas de información para un máximo de tres imágenes y áreas especificadas por una señal de solicitud de datos de la terminal 20 central.

Las piezas de información para las imágenes y las áreas que se asignan a diferentes canales pueden representar imágenes que todas son diferentes o pueden representar diferentes áreas de una sola imagen. Un proceso realizado por cada conjunto de unidad de selección de datos y una unidad de producción de paquetes es el mismo que el realizado por la unidad 154 de selección de datos y la unidad 162 de formación de paquetes mostrada en la Figura 8. Los paquetes de las tres corrientes se producen en paralelo a partir de la unidad 151 de transmisión de imágenes como se describe en lo anterior y se ingresan respectivamente a tres canales, es decir, un primer canal 172a, un segundo canal 172b, y un tercer canal 172c, que se proporcionan en la unidad 108 de comunicación y se transmiten en paralelo a la terminal 20 central. Las piezas transmitidas de datos se implementan como imágenes individuales en la memoria 58 principal de la terminal 20 central .

De acuerdo con la presente modalidad descrita en lo anterior, en un sistema que incluye una cámara para capturar el movimiento de un usuario o similar y una terminal central para desplegar una imagen utilizando la cámara, una imagen en movimiento que se ha capturado se cambia en datos que tienen una pluralidad de resoluciones dentro de' la cámara. Los datos entonces se cambian en una corriente en la cual los valores de píxeles se conectan en orden de transferencia de píxeles para cada tipo y resolución de imagen. Después, una parte de la misma se transmite de acuerdo con una solicitud de la terminal central para construir una imagen en una memoria de la terminal central. Como se describe, al realizar de manera secuencial procesos en un estado de una fila de píxeles sin implementar los datos como imagen de trama dentro de la cámara, el tamaño de una memoria que se proporciona en la cámara puede mantenerse al mínimo. También, puesto que no existe necesidad de esperar todos los datos para una sola trama para que se- encuentren listos hasta la transmisión a la terminal central después de la captura de imágenes, el sistema como un todo tiene capacidad de visualización de imágenes que corresponden con el movimiento en baja latencia.

También, los datos de imágenes- de una pluralidad de resoluciones se incluyen en una corriente simple al conectar, para cada valor de píxel para una: sola fila, piezas respectivas de datos. Una proporción en la cual el "valor de píxel para una sola fila" se genera varía dependiendo de una resolución. De esta manera, en el caso de una imagen que tiene una baja resolución en la cual los datos se generan en una proporción baja, realiza asignación de manera que los datos se incluyen de manera uniforme en una corriente incluso durante un periodo en el cual los datos no se generan. Con esto, el tamaño de los datos que se procesan y transmiten por unidad de tiempo se vuelve igual. De esta manera, la estimación de tiempo requerida hasta su producción, un ancho de banda de transmisión que se utilice, y el tiempo requerido para la transmisión se facilita, y una posibilidad de supresión del ancho de banda de transmisión debido a un incremento no específico en el tamaño de datos se disminuye.

En un proceso subsiguiente, una corriente generada como se describe puede tratarse de la misma manera como corriente compuesta de sólo datos de imágenes de una sola resolución. De esta manera, una imagen sintetizada se genera de manera sustancial que se compone de una imagen que tiene una pluralidad de resoluciones. Al conectar piezas respectivas de datos como se describe en lo anterior, cada imagen que se combine forma un área rectangular en una imagen sintetizada. De esta manera, al especificar un área en la imagen sintetizada, piezas respectivas de datos de una pluralidad de imágenes que coexisten en una sola corriente pueden separarse de manera fácil por un proceso de imagen comúnmente utilizado denominado recorté.

Además, al proporcionar a la cámara una pluralidad de mecanismos para la selección de una corriente, la extracción de una parte de datos, y la formación de paquetes de acuerdo con la especificación por la terminal central, una pluralidad de piezas de datos puede transmitirse en paralelo y el tiempo de transmisión puede acortarse. También, puesto que cada uno de los mecanismos se encuentra a cargo de una sola corriente de manera que la transmisión a la terminal se realice para cada trama, un proceso de separación de datos en la terminal central puede omitirse .

Segunda Modalidad En la primera modalidad, la cámara 100 genera datos de imágenes en movimiento que tienen una pluralidad de resoluciones de una imagen de video que se ha capturado y transmite a la terminal 20 central sólo una parte necesaria de los datos de acuerdo con la solicitud de la terminal 20 central en tiempo real. En la presente modalidad, una imagen de diferencia de movimiento inter-trama se genera adicionalmente y se somete a una solicitud por la terminal 20 central. Además, en la cámara 100, cualquier imagen se analiza en la cámara 100, y el resultado de la misma' se agrega como metadatos a los datos de imagen que se transmiten a la terminal 20 central.

La presente modalidad puede obtenerse por un sistema similar al sistema 10 de cámara de baja latencia mostrado en la Figura 1. La terminal 20 central tiene una configuración similar a la mostrada en la Figura 4. Después de esto, se proporciona una explicación principalmente enfocándose en los puntos que son diferentes de aquellos de acuerdo con la primera modalidad, y una explicación con respecto a los puntos que son los mismos se omite de manera adecuada .

La Figura 10 ilustra la configuración de una cámara de acuerdo con la presente modalidad. Como en el caso de la cámara 100 de acuerdo con la primera modalidad, una cámara 100a comprende una unidad 102 de adquisición de imágenes, una unidad 104 de interpolación de mosaicos, una unidad 170 de filtro de pirámide, un unidad 156 de síntesis de imágenes, una unidad 151a de transmisión de imágenes, y una unidad 108 de comunicación. La cámara 100a además tiene una unidad 174 de generación de imágenes de diferencia y una unidad 176 de análisis de imágenes.

La unidad 102 de adquisición de imágenes, la unidad 104 de interpolación de mosaicos, y la "unidad 170 de filtro de pirámide operan igual que los bloques funcionales correspondientes de acuerdo con la primera modalidad. La unidad 174 de generación de imágenes de diferencia genera una imagen de diferencia entre una imagen que tiene una resolución predeterminada que se produce por la unidad 170 de filtro de pirámides y una imagen de otra trama que tiene la misma resolución que se ha producido previamente. Por lo tanto, la unidad 174 de generación de imágenes de diferencia se proporciona con una memoria interna (no mostrada) que almacena de manera temporal los datos de imágenes para una sola trama.

La unidad 174 de generación de imágenes de diferencia obtiene una diferencia entre un valor de píxel que se produce recientemente de la unidad 170 de filtro de pirámide y un valor de píxel de un píxel correspondiente de una trama previa que se almacena en la memoria interna y produce un resultado de la misma en la unidad 156 de síntesis de imágenes con el valor de píxel de una imagen de diferencia. Este proceso también se realiza en orden de trama. De esta manera, los datos que se producen se encuentran en una corriente como en el caso de otras imágenes.

Dependiendo del propósito para utilizar la imagen de diferencia por la terminal 20 central tal como el caso de realizar una estimación aproximada de un' área con movimiento, la imagen de diferencia con frecuencia no se requiere que tenga una alta resolución. De esta manera, la unidad 174 de generación de imágenes de diferencia genera la imagen de diferencia de una imagen que tiene la más baja resolución generada por la unidad 170 de filtró de pirámide de manera que la imagen de diferencia se somete a síntesis por la unidad 156 de síntesis de imágenes. Una vez que la imagen de diferencia se vuelve parte de una imagen sintetizada, los datos de la imagen de diferencia pueden transmitirse a la terminal 20 central cuando la unidad 151a de transmisión de imágenes y la unidad 108 de comunicación operen igual que la forma discreta en la primera modalidad.

La unidad 176 de análisis de imágenes realiza análisis de imágenes predeterminadas en una imagen que tiene una resolución predeterminada que se produce por la unidad 170 de filtro de pirámide y proporciona un resultado de la misma a la unidad 151a de transmisión de imágenes. En la figura, una imagen que tiene la misma resolución se procesará por la unidad 174 de generación de imágenes de diferencia de la unidad 176 de análisis de imágenes. Sin embargo, la presente modalidad no se limita a esto, y las imágenes respectivas que tienen resoluciones respectivas pueden procesarse .

El análisis de imágenes realizado por la unidad 176 de análisis de imágenes es un proceso de detección de rostro, seguimiento de un objeto que tiene una forma predeterminada, o similares. Por lo tanto, un resultado de análisis que se produce en la unidad 151a de transmisión de imágenes es la información con respecto a la posición y tamaño de un área de rostro o el área del objeto, un valor de evaluación que muestra precisión de detección/seguimiento, o similares. De acuerdo con una aplicación que se ejecuta, la cámara 100 se notifica con anticipación de la terminal 20 central de las condiciones para análisis, tal como tipo de análisis que se realiza en la información de forma del objeto, por ejemplo, al momento que se inicia la aplicación.

La unidad 162 de formación de paquetes (mostrada en la Figura 3) de la unidad 151a de transmisión de imágenes inserta como metadatos un resultado del análisis de imágenes realizado por la unidad 176 de análisis de imágenes inmediatamente después de que una corriente para una sola trama de datos de imágenes se transmita a la terminal 20 central o en una posición predeterminada en la corriente para la trama simple. La unidad 162 de formación de paquetes entonces realiza la formación de paquetes en un tamaño predeterminado como en el caso donde no se realiza el análisis de imágenes.

En este caso, la terminal 20 central implementa una parte de datos de imágenes de datos transmitidos desde la cámara 100 en una memoria principal como imagen y utili2a los metadatos para un proceso tal como procesamiento o síntesis de la imagen. Al utilizar los metadatos, la terminal 20 central puede especificar nuevamente datos que se soliciten a la cámara 100 con respecto a las tramas subsiguientes. Una distinción puede realizarse entre los datos de imágenes y los metadatos al determinar con anticipación un área en la cual se agregan los metadatos en el plano de imagen cuando se asume que todas las corrientes recibidas representan una imagen, o al agregar información para identificar los metadatos en los metadatos mismos.

En la presente modalidad, tanto la unidad 174 de generación de imágenes de diferencia como la unidad 176 de análisis de imágenes se proporcionan en la cámara 100a. Sin embargo, sólo una de las dos puede proporcionarse. También, la información agregada como los metadatos no puede ser resultado del análisis de imágenes y, por ejemplo, puede ser una marca de tiempo para cuando se ha adquirido la imagen RAW original. En este caso, la información con respecto a una marca de tiempo generada por la unidad 102 de adquisición de imágenes para cada trama necesita adquirirse directamente por la unidad 151a de transmisión de imágenes y después insertarse en una corriente como en el caso descrito en lo anterior.

De acuerdo con la presente modalidad descrita en lo anterior, se proporciona un mecanismo para generar una imagen de diferencia dentro de la cámara además de la configuración de acuerdo con la primera modalidad. En un modo donde un área con movimiento se detecta utilizando una imagen de diferencia, incluso una imagen de baja resolución con frecuencia funciona de manera suficiente. De esta manera, por ejemplo, se incluye una imagen de diferencia generada en una imagen sintetizada para una imagen que tiene la resolución más baja. Con esto, la separación puede realizarse fácilmente por un proceso de recorte también para una imagen de diferencia, además de las ventajas descritas en la primera modalidad. Como resultado, incluso en un caso donde un área con movimiento se desea detectar, procesos que se realizan por una terminal central pueden reducirse al mínimo.

Además, un mecanismo para detectar un área de rostro o seguimiento de un objeto que tiene una forma predeterminada se proporciona dentro de una cámara, y un resultado de la misma se inserta como metadatos en una corriente de datos de imagen en unidades^ de tramas. Con esto, por ejemplo, en un caso donde un área de rostro o el área del objeto se desea procesar o donde la información detallada del área que se desea obtener, procesos que se realizan por una terminal central pueden reducirse al mínimo.

Tercera Modalidad En la presente modalidad, la cámara 100 del sistema 10 de cámara de baja latencia mostrada en la Figura 1 se forma por una cámara estéreo que incluye un par de cámaras para capturar una imagen de un solo objeto de diferentes puntos de vista derecho e izquierdo. En la cámara estéreo, se realiza una correlación estéreo utilizando tramas respectivas de dos imágenes en movimiento capturadas de derecha a izquierda para generar una imagen profunda que muestre la posición del objeto en la dirección de . profundidad. Como en el caso de otras imágenes, esta imagen de profundidad se transmite cuando es necesario de acuerdo con una solicitud de la terminal 20 central. La terminal 20 central puede tener la misma configuración que la descrita en la primera modalidad. Después de esto, una explicación se proporciona principalmente enfocándose en puntos que son diferentes de aquellos de acuerdo con la primera y segunda modalidades, y se omite una explicación con respecto a los puntos que son los mismos .

La Figura 11 ilustra la configuración de una cámara de acuerdo con la presente modalidad. Una cámara 100 de estéreo comprende una primera cámara 190a, una segunda cámara 190b, una unidad 192 de procesamiento de correlación estéreo, una unidad 151b de transmisión de imágenes, y una unidad 108 de comunicación. La primera cámara 190a y la segunda cámara 190b cada una tiene casi la misma configuración que la de la cámara 100 mostrada en la primera modalidad y que de la cámara 100a mostrada en la segunda modalidad. La unidad 151b de transmisión de imágenes y la unidad 108 de comunicación se comparten por la primera cámara 190a, la segunda cámara 190b, y la unidad 192 de procesamiento de correlación estéreo.

La primera cámara 190a tiene una unidad 102a de adquisición de imágenes, una unidad 104a de interpolación de mosaicos, una unidad 170a de filtro de pirámide, una unidad 156a de síntesis de imágenes, y una unidad 176a de análisis de imágenes. De manera similar, la segunda cámara 190b tiene una unidad 102b de adquisición de imágenes, una unidad 104b de interpolación de mosaicos, una unidad 170b de filtro de pirámide, una unidad 156b de síntesis de imágenes, y una unidad 176b de análisis de imágenes. Un elemento de imagen proporcionado en la unidad 102a de adquisición de imágenes y un elemento de imagen proporcionado en la unidad 102b de adquisición de imágenes captura una imagen de un solo objeto desde diferentes puntos de vista derécho e izquierdo. La configuración de los elementos de imagen como hardware puede ser la misma que la de una cámara estéreo comúnmente utilizada.

Los bloques funcionales de la primera cámara 190a y la segunda cámara 190b operan igual que los bloques funcionales correspondientes explicados en la primera y segunda modalidades. La unidad 192 de procesamiento de correlación estéreo, adquiere en una proporción predeterminada, una de las tramas de imagen en movimiento derecha e izquierda que tienen una resolución predeterminada de la unidad 104a de interpolación de mosaicos y la unidad 170a de filtro de pirámide de la primera cámara 190a y la otra de la unidad 104b de interpolación de mosaicos o la unidad 170b de filtro de pirámide de la segunda cámara 190b.

La unidad 192 de procesamiento de correlación estéreo entonces realiza correlación estéreo utilizando imágenes derecha e izquierda adquiridas al mismo tiempo que genera una imagen de profundidad. La imagen de profundidad es una imagen cuyo valor de píxel en el plano de imagen es un valor que muestra la posición de un objeto en la dirección de profundidad y muestra información de posición del objeto en un espacio tridimensional. Para el proceso de correlación estéreo que se realiza, sólo uno de los diversos métodos que se han sugerido de esta manera hasta ahora puede utilizarse. Por ejemplo, un método de correlación de área o similar puede utilizarse donde los puntos correspondientes se adquieren al establecer una ventana de correlación de una de las imágenes derecha e izquierda y calcular el coeficiente de correlación mutua con una imagen con la ventana de correlación mientras mueve una ventana de búsqueda de la otra imagen para obtener una información de posición tridimensional utilizando el principio de triangulación basado en paralaje entre estos puntos correspondientes .

En cualquier caso, las piezas respectivas de datos de las imágenes derecha e izquierda que se han ingresado se procesan en una base de fila por fila para determinar un valor de pixel de una imagen de profundidad en orden de trama, el valor de píxel se produce de. manera secuencial en la imagen 151b de transmisión de imágenes. Junto con las piezas de datos de la imagen de profundidad, la unidad 151b de transmisión de imágenes adquiere piezas respectivas de datos de imágenes RA derecha e izquierda, imágenes de mosaicos de 1/1, e imágenes sintetizadas en la primera cámara 190a y la segunda cámara 190b.

A partir de la unidad 176a de análisis de imágenes de la primera cámara 190a y la unidad 176b de análisis de imágenes de la segunda cámara 190b, la unidad 151b de transmisión de imágenes recibe los resultados del análisis de imágenes igual que con la explicada en la segunda modalidad. Como en el caso explicado en la primera modalidad, la unidad 151b de transmisión de imágenes selecciona datos solicitados por la terminal 20 central y extrae · y después forma en paquetes sólo un área solicitada cuando es necesaria. Como se explica en la segunda modalidad, la unidad 151b de transmisión de imágenes inserta el resultado del análisis de imágenes adquirido de las unidades 176a y 176b de análisis de imágenes como metadatos en este tiempo dependiendo de una solicitud de la terminal 20 central.

Un proceso realizado por la unidad 108 de comunicación es como se explica de esta manera hasta ahora. En la figura, un resultado de la unidad 151b de transmisión de imágenes y una entrada y una salida de la unidad 108 de comunicación cada una se muestra por una flecha. Alternativamente, como se muestra en la Figura 9, una pluralidad de canales puede proporcionarse de manera que una pluralidad de piezas de datos se transmita en paralelo.

Se muestra ahora un ejemplo de la operación del sistema 10 de cámara de baja latencia que puede realizarse por las configuraciones descritas de esta manera hasta ahora. El ejemplo de la operación que se muestra aquí puede obtenerse por el sistema que incluye la cámara 100b estéreo explicada en la tercera modalidad. Sin embargo, las configuraciones descritas en la primera y segunda modalidades también se combinan adecuadamente.

La Figura 12 ilustra un diagrama de flujo que muestra un ejemplo de un procedimiento de procesamiento de un proceso de imagen realizado por la terminal 20 central y la cámara 100b estéreo en cooperación entre sí e ilustran los ejemplos de imágenes que se producen. Los diagramas de flujo mostrados en las Figuras 12 a 14 se inician cuando un usuario ingresa a la terminal 20 central una instrucción para iniciar una aplicación. Las etapas se muestran por rectángulos respectivos conectados en serie para facilitar la comprensión. Se asume que estas etapas se realizan repetidamente y en paralelo para cada fila de píxel y cada trama durante un periodo en el cual se captura una imagen en movimiento.

La terminal 20 central primero especifica condiciones iniciales y datos necesarios que se establecen para un programa de aplicación o similares y proporciona a la cámara 100b estéreo una instrucción para iniciar, la captura de imágenes y na solicitud para transmitir los datos (S10) . Las condiciones iniciales incluyen las resoluciones respectivas y las proporciones de tramas de imágenes en movimiento capturadas por las dos cámaras de la cámara 100b estéreo, una resolución y una proporción de tramas de imágenes para las cuales la unidad 192 de procesamiento de correlación estéreo realiza correlación estéreo, información de forma de un objeto de seguimiento y similares. Para las resoluciones respectivas y las proporciones de tramas e imágenes en movimiento capturadas por las cámaras, pueden cambiarse las condiciones de ajuste para la exposición al formar imágenes en elementos. Alternativamente, las resoluciones y las proporciones de tramas pueden cambiarse al realizar un ajuste tal como reducción de datos de los elementos de imágenes en una fase subsiguiente.

En este caso, por ejemplo, las condiciones iniciales se especifican como sigue: Primer cámara: resolución 1280*720, proporción de tramas 60 fps, Segunda cámara: resolución 1280*720, proporciones de tramas 60 fps, Correlación estéreo: resolución 1280*720, proporción de tramas 60 fps.

Como se describe en lo anterior, para la especificación de los datos necesarios, pueden especificarse metadatos así como especificar el tipo de resolución" de imagen y un área dentro de la imagen. En este caso, por ejemplo, tres piezas de datos se especifican como sigue: Datos 1: (imagen izquierda, YUV422: 16 bits, 0, 0, 1280, 720) Datos 2: (imagen izquierda sintetizada, YUV422: 16 bits, 0, 0, 850, 367, área de rostro, área de objeto, marca de tiempo) Datos 3: (imagen de profundidad, Z: 16 bits, 0, 0, 1280, 720) .

Los datos 1 representan un área cuyas coordenadas de izquierda superior se encuentran en (0,0) con los anchos de (1280, 720) en las direcciones horizontal y vertical en una imagen sin mosaico de 1/1 (YUV422: 16 bits) de una imagen capturada por una cámara de lado izquierdo de la cámara 100b estéreo. En consideración de la resolución especificada en las condiciones iniciales anteriores, puede encontrarse que esta área sea toda el área de la imagen capturada.

Los datos 2 representan un área cuyas coordenadas de izquierda superior se encuentran en (0,0) con los anchos de (850, 357) en las direcciones horizontal y vertical en una imagen sintetizada (YUV422: 16 bits) de la imagen capturada por una cámara de lado izquierdo. Se . asume que las imágenes sintetizadas en los ejemplos mostrados en las Figuras 12-14 incluyen una imagen de diferencia obtenida como resultado de tomar una diferencia ínter-tramas de la imagen sin mosaico de 1/256 con la imagen sin mosaico de 1/4, la imagen sin mosaico de 1/16, y la imagen sin mosaico de 1/64 mostradas en la Figura 7. Esta imagen de diferencia se agrega en el borde derecho de la imagen sintetizada mostrada en la Figura 7 como área de imagen de (W/16)/8*H/2 bajo una norma similar a -las otras.

Un área especificada por los datos 2 es toda el área de esta imagen sintetizada. En los datos 2, el área de rostro obtenido como resultado de realizar un proceso de detección de rostro, el área de un objeto obtenida como resultado de realizar un proceso de seguimiento, y una marca de tiempo al momento de capturar la imagen original de la imagen sintetizada se especifica adicionalmente para agregarse a la imagen sintetizada como metadatos. Los datos 3 representan un área cuyas coordenadas de izquierda superior se encuentran en (0,0) con anchos de (1280, 720) en las direcciones horizontal y vertical en una imagen de profundidad (cuyos píxeles se representan por la información de posición de 16 bits, en la dirección de profundidad) generadas por la unidad 192 de procesamiento de correlación estéreo. Esto también es toda el área.

Al recibir la especificación de las condiciones iniciales y la solicitud de datos, la primera cámara 190a y la segunda cámara 190b de la cámara 100b estéreo comienzan a capturar una imagen en movimiento bajo las condiciones iniciales (S12) . Cuando la primera cámara 190a, la segunda cámara 190b, y la unidad 192 de procesamiento de correlación estéreo realizan procesos como se describe en lo anterior utilizando una trama de imagen que se ha capturado, piezas respectivas de datos de imagen RA de lado izquierdo y una imagen 230 sin mosaico de l/l, una imagen 232 sintetizada de lado izquierdo una imagen 234 de profundidad, una imagen RAW de lado derecho y una imagen 236 sin mosaico de 1/1, y una imagen 238 sintetizada de lado izquierdo se generan (S14) .

La figura muestra toda el área de cada una de las imágenes. Las piezas actuales de datos de imágenes se ingresan secuencialmente a la unidad 151b de transmisión de imágenes en un estado de corrientes de valores de píxeles. Lo mismo aplica a las Figuras 13 y 14. La unidad 151b de transmisión de imágenes entonces selecciona y extrae sólo los datos especificados en S10, genera los datos de transmisión al poner en paquetes los datos en forma de, y transmite los datos de transmisión (S16) .

Al recibir los datos, la terminal 20 central implementa imágenes en la memoria 58 principal. Como resultado, toda el área 240 de una imagen sin mosaico de 1/1, toda el área 242 de una imagen sin mosaico de 1/4, toda el área 244 de una imagen sin mosaico de 1/16, toda el área 246 de una imagen sin mosaico de 1/64, . una imagen 248 de diferencia de una imagen sin mosaico de 1/256, metadatos 250 que contienen el área de un rostro, el área de un objeto, y una marca de tiempo, y una imagen 252 de profundidad se almacenan en la memoria 58 principal.

La CPU 50 y la GPU 52 de la terminal 20 central generan una imagen que se desplegará utilizando estas piezas de datos y despliegan la imagen en la pantalla 4 (S18, S20) . Por ejemplo, la CPU 50 y el GPU 52 detectan un área con movimiento desde la imagen 248 de diferencia de movimiento y adquieren la información de profundidad del objeto en el área desde la imagen 252 de profundidad. La CPU 50 y la GPU 52 reconocen el gesto de un usuario que es el objeto, al continuar esto para una continuidad de tramas. La CPU 50 y la GPU 52 entonces despliegan una imagen obtenida al realizar un proceso predeterminado, de acuerdo con el gesto, en un área de rostro o similar en toda el área 240 de la imagen sin mosaico de 1/1.

El tamaño de los datos transmitidos desde la cámara 100b estéreo a la terminal 20 central por unidad de tiempo en esta modalidad ejemplar es de 2.1 Gbps en total como se muestra en lo siguiente: Datos 1: (1280*720 píxeles) * (60 fps) * 16 bits) = 885 Mbps Datos 2: (850*370 píxeles) * (60 fps) * 16 bits) = 300 Mbps Datos 3: (1280*720 píxeles) * (60 fps) * 16 bits) = 885 Mbps La Figura 13 ilustra un diagrama de flujo que muestra otro ejemplo de un procedimiento de procesamiento del proceso de imagen realizado por la terminal 20 central y la cámara 100b estéreo en cooperación entre sí e ilustran los ejemplos de imágenes que se producen. Como en el caso de la Figura 12 la terminal 20 central especifica condiciones iniciales y datos necesarios y proporciona a la cámara 100b estéreo una instrucción para iniciar la captura de imágenes y una solicitud para transmitir datos (S22) .

Se asume que las condiciones iniciales en este ejemplo son las mismas que aquellas en el ejemplo mostrado en la Figura 12. Como datos necesarios, una sola pieza de datos se especifica como sigue: Datos 1: (imagen sintetizada izquierda YUV422: 16 bit 0, 0, 850, 367, área de rostro, área de objeto, marca de tiempo) Estos datos son los mismos que los datos 2 en el ejemplo mostrado en la Figura 12.

Al recibir la especificación de las condiciones iniciales y la solicitud de datos, la primera cámara 190a y la segunda cámara 190b de la cámara 100b estéreo comienzan la captura de una imagen en movimiento bajo las condiciones iniciales (S24) . La primera cámara 190a, la segunda cámara 190b, la unidad 192 de procesamiento de correlación estéreo cada una generan una pieza de datos de imágenes (S26) . Los datos de imágenes generados en este tiempo son los mismos que los datos de imágenes generados en S14 mostrados en la Figura 12.

La unidad 151b de transmisión de imágenes entonces selecciona y extrae sólo los datos . especificados en S22, genera los datos de transmisión al formar en paquetes los datos en forma de corrientes, y transmite los datos de transmisión (S28) . Al recibir los datos, la terminal 20 central implementa imágenes en la memoria 58 principal. Como resultado, toda el área 242 de una imagen sin mosaico de 1/4, toda el área 244 de una imagen sin mosaico de 1/16, toda el área 246 de una imagen sin mosaico de 1/64, una imagen 248 de diferencia de una imagen sin mosaico de 1/256, y los metadatos 250 que contienen el área de un rostro, el área de un objeto, y una marca de tiempo se almacenan en la memoria 58 principal.

La CPU 50 de la terminal 20 central determina como área de interés un área con movimiento especificado de la imagen 248 de diferencia o un área de un margen predeterminado que incluye el área del rostro o el área del objeto contenida en los metadatos 250 (S30) . La CPU 50 entonces especifica el área de interés y realiza nuevamente una solicitud de datos (S32) . En este caso, por ejemplo, dos piezas de datos se especifican como sigue: Datos 2: (imagen izquierda, RAW: 16 bit, Fx, Fy, Fw, Fh) Datos 3: (imagen de profundidad, RAW: 8 bit, Hx, Hy, Hw, Hh).

Los datos 2 representan un área cuyas coordenadas de izquierda superior son (Fx, Fy) con anchos de (Fw, Fh) , la cual se determina es el área de interés que incluye el área del rostro, en las direcciones horizontal y vertical de una imagen RAW (16 bits) capturada por la cámara de lado izquierdo de la cámara 100b estéreo. Los datos 3 representan un área cuyas coordenadas de izquierda superior son (Hx, Hy) con anchos de (Hw, Hh) , que se determina es el área de interés que incluye el área del objeto, en las direcciones horizontal y vertical en una imagen de profundidad (cuyos píxeles se representan por la información de posición de 8 bits en la dirección de profundidad) generados por la unidad 192 de procesamiento de correlación estéreo.

La unidad 151b de transmisión de imágenes de la cámara 100b estéreo extrae piezas respectivas de datos de áreas específicas de la imagen RAW y la imagen de profundidad al momento cuando se ingresa una nueva trama de cada una de las imágenes, genera datos de transmisión al formar en paquetes las piezas respectivas de datos en forma de corrientes, y transmite los datos en paquetes (S34). Al recibir los datos, la terminal 20 central implementa imágenes en la memoria 58 principal. Como resultado, una imagen RA del área que incluye el rostro y .; una imagen 256 de profundidad del área que incluye el objeto se almacenan en la memoria 58 principal.

La CPU 50 y la GPU 52 de la terminal 20 central generan una imagen que se desplegará utilizando estas piezas de datos y despliegan la imagen en la pantalla 4 (S36, S38) . Por ejemplo, al sintetizar la imagen 254 RAW del área que incluye el rostro mientras que tiene un fondo de la imagen sin mosaico de 1/4, la CPU 50 y la GPU 52 despliegan implementan una imagen en la cual sólo el área de rostro que muestra un cambio en la expresión facial o similar es clara mientras suprime un tamaño de datos. Además, la CPU 50 y la GPU 52 pueden adquirir la información de profundidad del objeto desde la imagen 256 de profundidad, reconocer el gesto del usuario, y realizar un proceso predeterminado de acuerdo con el gesto.

Al repetir los procesos en S30-S38, aún cuando el rostro y el objeto se han movido, datos necesarios relacionados con el movimiento pueden adquirirse constantemente sin ningún desperdicio y reflejarse en la pantalla de imagen. Como resultado, el tamaño de los datos que se transmiten desde la cámara 100b estéreo a la terminal 20 central puede suprimirse.

Si se asume en la especificación de datos anterior que (Fw, Fh) es (400, 600) y que (Hw, Hh) es (320, 450), el tamaño de datos transmitido desde la cámara 100b estéreo a la terminal 20 central por unidad de tiempo en esta modalidad ejemplar es de 600 Mbps en total como se muestra en lo siguiente: Datos 1: (850*370 píxeles) * (60 fps) * 16 bits) = 300 Mbps Datos 2: (400*600 plxeles) * (60 fps) * 16 bits) = 230 Mbps Datos 3: (320*450 píxeles) * (60 fps) * 8 bits) = 70 Mbps La Figura 14 ilustra un diagrama de flujo que muestra otro ejemplo de un procedimiento de procesamiento del proceso de imágenes realizado por la terminal 20 central y la cámara 100b estéreo en cooperación entre sí e ilustra ejemplos de imágenes que se producen. Como en el caso de la Figura 12, la terminal 20 central especifica condiciones iniciales y datos necesarios y proporciona a la cámara 100b estéreo una instrucción para iniciar la captura de imágenes y una solicitud para transmitir datos (S40) .

Las condiciones iniciales en este ejemplo se especifican como sigue: Primera cámara: resolución 1280*720, proporción de tramas 30 fps Segunda cámara: resolución 1280*720, proporción de tramas 15 fps Correlación estéreo: resolución 320*180, proporción de tramas 15 fps Los datos necesarios se especifican como sigue: Datos 1: (imagen sintetizada izquierda, Y (diferencia de movimiento) : 8 bits, 840, 8, 10, 360, marca de tiempo) Datos 2: (imagen sintetizada izquierda, YUV422: 16 bits, 800, 0, 4, 40, 360, área de rostro, marca de tiempo) Datos 3: (imagen de profundidad, Z: 8 bits, 20, 15, 280, 150, marca de tiempo) Los datos 1 representan el área de una imagen de diferencia en una imagen Y, es decir, un área cuyas coordenadas izquierda superior son (840,8) con anchos de (10,360) en las direcciones horizontal y vertical en una imagen sintetizada de una imagen capturada por la cámara de lado izquierdo. Además, en los datos 1, una marca de tiempo en el tiempo de captura de la imagen original se especifica para agregarse como metadatos .

Los datos 2 representan un área cuyas coordenadas de izquierda superior son (800,4) con anchos de (40, 360) en las direcciones horizontal y vertical en una imagen sintetizada (YUV422: 16 bits) de la imagen capturada por la cámara de lado izquierdo, es decir el área de una imagen sin mosaico de 1/64. Además en los datos 2, el área de un rostro obtenido como resultado de realizar un proceso de detección de rostro y una marca de tiempo al momento de capturar la imagen original se especifican para agregarse como metadatos. La información de área de las imágenes incluidas en la imagen sintetizada que se especifican por los datos 1 y los datos 2 puede especificarse de acuerdo con ' la regla para la disposición mostrada en la Figura 7.

Los datos 3 representan un área cuyas coordenadas de izquierda superior son (20,15) con anchos de (280, 150) en las direcciones horizontal y vertical en una imagen de profundidad (cuyos píxeles se representan por la información de posición de 8 bits en la dirección de profundidad) generada por la unidad 192 de procesamiento de correlación estéreo. Esta es un área obtenida al cortar el borde superior y el borde inferior de la imagen de profundidad cada una por una cantidad de 15 píxeles y cortar el borde izquierdo y el borde derecho cada uno por una cantidad de 20 píxeles. El área se considera que es un área que tiene un significado como información de profundidad. El. tamaño de los datos también puede suprimirse de esta manera. Además, en los datos 3, una marca de tiempo al momento de capturar la imagen original se especifica para agregarse como metadatos.

Al recibir la especificación de las condiciones iniciales y la solicitud de datos, la primera cámara 190a y la segunda cámara 190b de la cámara i00b estéreo comienzan a capturar una imagen en movimiento bajo las condiciones iniciales (S42) . La primera cámara 190a, la segunda cámara 190b, la unidad 192 de procesamiento de correlación estéreo cada una generan una pieza de datos de imágenes (S44) . Una imagen obtenida en este caso es simple comparada con los ejemplos mostrados en las Figuras 12 y 13 en términos de tamaño de imagen, un espacio de color, una proporción de tramas, y similares.

La unidad 151b de transmisión: de imágenes entonces selecciona y extrae sólo los datos especificados en S40, genera datos de transmisión al forinar . en paquetes los datos en forma de corrientes, y transmite los datos de transmisión (S46) . Al recibir los datos, la terminal 20 central implementa imágenes en la memoria 58 principal. Como resultado, una imagen 260 de diferencia de una imagen sin mosaico de 1/256, una marca de tiempo 262 de la imagen original de la misma, toda el área 260 de una imagen sin mosaico de 1/64, los metadatos 266 que contienen el área de un rostro y una marca de tiempo, una imagen 268 de profundidad cuya periferia se ha recortado, y una marca de tiempo 270 de la imagen original de la misma se almacenan en la memoria 58 principal.

La CPU 50 y la GPU 52 de la terminal 20 central generan una imagen que se despliega utilizando estas piezas de datos y despliegan la imagen en la pantalla 4 (S48, S50) . Por ejemplo, la CPU 50 y la GPU 52 detectan un área con movimiento de la imagen 260 de diferencia y adquieren la información de profundidad del objeto en el área de la imagen 268 de profundidad. Esto permite a la CPU 50 y la GPU 52 reconocer un gesto de un usuario que es el objeto y después despliegan una imagen obtenida al realizar un proceso predeterminado, de acuerdo con el gesto con un área de rostro o similar obtenida de los metadatos 266 en toda el área 260 de la imagen sin mosaico de 1/64.

En este ejemplo, al reducir la proporción de trama o al transmitir solo una imagen que tiene baja resolución, la cantidad de consumo de un recurso que v incluye un ancho de banda de transmisión se suprime mientras mantiene toda el área como objetivo para transmisión y procesamiento. Puesto que toda el área se transmite, la etapa adaptable para especificar un área mostrada en la Figura 13 puede omitirse. Aún cuando un tamaño de datos para una sola trama es diferente en tres piezas de datos que se transmiten de modo que los datos para una sola trama lleguen a la terminal 20 central en un tiempo diferente dependiendo de una pieza de datos, una relación de correspondencia " entre las piezas de datos puede identificarse fácilmente ai agregar, para cada trama, una marca de tiempo al momento de capturar la imagen original .

El tamaño de los datos transmitidos desde la cámara 100b estéreo hasta la terminal 20 central por unidad de tiempo en esta modalidad ejemplar, es 9.5 Mbps en total como se muestra en lo siguiente: Datos 1: (10*360 píxeles)* (30 fps)*(8 bits) = 864 kbps Datos 2: (160*90 píxeles )*( 15 ' fps )*( 16 bits) = 3.5 Mbps Datos 3: (280*150 píxeles) * (15 fps)*(8 bits) = 5 Mbps De acuerdo con la presente modalidad descrita en lo anterior, las características en la primera y segunda modalidades se aplican a una cámara estéreo. Además, un mecanismo para realizar correlación estéreo se proporciona en la cámara estéreo. En este caso, los datos especificados por la terminal central pueden transmitirse con baja latencia de entre datos diversificados tal como la imagen RAW generada por cada cámara, una imagen sin mosaico de l/l, una imagen sintetizada, y una imagen de profundidad obtenida como resultado de la correlación estéreo, información de un área de rostro obtenida como resultado de la detección de rostro, e información del área del objeto obtenida como resultado de un proceso de seguimiento. Por lo tanto, una carga de procesamiento de la terminal central se reduce, y mediante el efecto sinérgico con un incremento en la eficiencia de la transmisión de datos de una cámara, desplegar la imagen que sigue el movimiento del objeto con baja latencia se vuelve posible .

En lo anterior se describe, una explicación de la presente invención basándose en las modalidades. Las modalidades se pretenden para ser ilustrativas solamente, y será obvio para aquellos con experiencia en la técnica que varias modificaciones a los elementos constituyentes y procesos podrían desarrollarse y que tales modificaciones también se encuentran dentro del alcance de la presente invención.

DESCRIPCIÓN DE LOS NUMEROS DE REFERENCIA 4 pantalla, 10 sistema de cámara de baja latencia, 20 terminal central, 50 CPU, 52 GPU, 58 memoria principal, 60 unidad de comunicación, 64 unidad de solicitud de datos, 66 unidad de procesamiento de datos, 68 unidad de implementación de datos, 100 cámara, 104 unidad de interpolación de mosaicos, 108 unidad de comunicación, 149 memoria intermedia de FIFO, 150 memoria intermedia de FIFO, 151 unidad de transmisión de imágenes, 156 unidad de síntesis de imágenes, 154 unidad de selección de datos, 162 unidad de formación de paquetes, 164 unidad de control, 166 unidad de selección de corrientes, 168 unidad de recorte, 170 unidad de filtro de pirámide, 172a primer canal, 172b segundo canal, 172c tercer canal, 174 unidad de generación de imágenes de diferencia, 176 unidad de análisis de imágenes, 190a primera cámara, 190b segunda cámara, 192 unidad de procesamiento de correlación estéreo .

Claims

REIVINDICACIONES

1. Un dispositivo de captura de imágenes en movimiento caracterizado porque comprende: una unidad de generación de datos de imágenes configurada para generar piezas respectivas de datos de una pluralidad de imágenes que tienen diferentes resoluciones cada una en un orden de píxel predeterminado al reducir, en varias fases, cada trama de una imagen en movimiento adquirida por la captura de imágenes de un objeto y para producir de manera secuencial las piezas de datos en forma de corrientes ; una unidad de síntesis de imágenes configurada para generar, al conectar, para cada fila de pixeles para una sola fila horizontal de una imagen para cada fila de pixeles en un margen más pequeño, piezas respectivas de datos de una pluralidad de imágenes predeterminadas entre las piezas respectivas de datos de la pluralidad de imágenes producidas por la unidad de generación de datos de imágenes y después al producir las piezas respectivas de datos de la pluralidad de imágenes predeterminadas en forma de corrientes, una imagen sintetizada virtual que contiene la pluralidad de imágenes predeterminadas; y una unidad de transmisión de imágenes configurada para generar una corriente de datos que se transmite, recibir una solicitud para transmitir los datos desde una terminal central, al extraer datos para píxeles incluidos en una imagen y un área que se solicita en una pluralidad de corrientes de la unidad de generación de datos de imágenes y la unidad de síntesis de imágenes y para transmitir la corriente de datos en la terminal central .

2. El dispositivo de captura de imágenes en movimiento de conformidad con la reivindicación 1, caracterizado porque la unidad de síntesis de imágenes produce datos para una sola fila de píxeles de la imagen sintetizada utilizando, como ciclo de referencia, un periodo en el cual los datos para una sola fila de píxeles de una imagen con la resolución más alta se genera entre imágenes sometidas a síntesis y ajusta el margen de filas de píxeles que se conectan de manera que los datos se produzcan uniformemente en este ciclo de generación para una imagen con una resolución diferente para la cual los datos para una sola fila se generan en un ciclo que es más largo que el ciclo de referencia .

3. El dispositivo de captura de imágenes en movimiento de conformidad con la reivindicación 1 ó 2, caracterizado porque la unidad de transmisión de imágenes incluye una unidad de recorte para recortar, en unidades de filas de píxeles que constituyen una corriente, un área rectangular en una imagen para la cual se solicita transmisión de datos por la terminal central, en donde la unidad de síntesis de imágenes conecta piezas respectivas de datos de las imágenes sometidas a síntesis de manera que cada una de las imágenes que constituya un área rectangular en la imagen sintetizada, y en donde la unidad de recorte corta cualquiera de las imágenes sometidas a síntesis de la imagen sintetizada en unidades de filas de píxeles y transmite una imagen que se corta en la terminal central de acuerdo con una solicitud de la terminal central .

4. El dispositivo de captura de imágenes en movimiento de conformidad con la reivindicación 1 ó 2, caracterizado además porque comprende: una unidad de generación de imágenes de diferencia configurada para generar una imagen de diferencia que tiene una resolución predeterminada al tomar una diferencia entre tramas de imágenes que tienen la resolución predeterminada entre la pluralidad de imágenes que tienen diferentes resoluciones, y la unidad de síntesis de imágenes incluye la imagen de diferencia como la imagen sometida a síntesis.

5. El dispositivo de captura de imágenes en movimiento de conformidad con la reivindicación 1 ó 2, caracterizado porque la unidad de transmisión de imágenes lee una pluralidad de corrientes que se producen de la unidad de generación de datos de imágenes y la unidad de síntesis de imágenes en paralelo y genera una corriente que se transmite por al menos una parte de una corriente seleccionada de la pluralidad de corrientes de acuerdo con una solicitud de la terminal central.

6. El dispositivo de captura de imágenes en movimiento de conformidad con la reivindicación 1 ó 2, caracterizado porque la unidad de transmisión de imágenes incluye una pluralidad de canales de salida para realizar transmisión de datos a la terminal central y transmite, cuando piezas respectivas de datos de una pluralidad de área se solicita por la terminal central, corrientes respectivas generadas para las piezas de datos en paralelo de la pluralidad de canales de salida.

7. El dispositivo de captura de imágenes en movimiento de conformidad con la reivindicación 1 ó 2, caracterizado además porque comprende: una unidad de detección de rostro configurada para identificar el área de un rostro humano, el cual es un objeto, al realizar un proceso de detección de rostros en cualquiera de la pluralidad de imágenes, y en donde de acuerdo con una solicitud de la terminal central, la unidad de transmisión de imágenes inserta, como metadatos, datos relacionados con el área del rostro identificada por la unidad de detección de rostros en una posición predeterminada de una corriente de datos de imágenes que sea generado, y transmite la corriente a la terminal central .

8. El dispositivo de captura de imágenes en movimiento de conformidad con la reivindicación 1 ó 2, caracterizado además porque comprende: una unidad de seguimiento configurada para adquirir información de forma de un objeto que se rastrea de la terminal central y para reducir un proceso para rastrear el objeto basándose en la información de imagen, y en donde de acuerdo con una solicitud de la terminal central, la unidad de transmisión de imágenes inserta como metadatos datos relacionados con la posición del objeto identificado por la unidad de seguimiento en una posición predeterminada de una corriente de datos de imágenes que se ha generado, y transmite la .corriente a la terminal central .

9. Un dispositivo de captura de imágenes en movimiento caracterizado porque comprende un par de cámaras para capturar una imagen de un solo objeto de diferentes puntos de vista derecho e izquierdo, en donde cada una del par de cámaras incluye: una unidad de generación de datos de imágenes configurada para generar piezas respectivas de datos de una pluralidad de imágenes que tienen diferentes resoluciones cada una en un orden de pixel predeterminado al reducir, en varias fases, cada trama de una imagen en movimiento adquirida al capturar una imagen del objeto y para producir de manera secuencial las piezas de datos en una forma de corrientes; y una unidad de síntesis de imágenes configurada para generar, al conectar, para cada fila de pixeles para una sola fila horizontal de una imagen o para cada fila de pixeles en un margen más pequeño, piezas respectivas de datos y una pluralidad de imágenes predeterminadas entre las piezas respectivas de datos de la pluralidad de imágenes producidas por la unidad de generación de datos de imágenes y después al producir las piezas respectivas de datos de la pluralidad de imágenes predeterminadas en forma de corrientes , un imagen sintetizada virtual que contiene la pluralidad de imágenes predeterminadas, y en donde el dispositivo de captura de imágenes en movimiento además comprende : una unidad de procesamiento de correlación estéreo configurada para generar una imagen de profundidad que indica la posición del objeto en un espacio tridimensional en una orden de píxel predeterminado al realizar correlación estéreo en piezas respectivas de datos de imágenes que tienen una resolución predeterminada entre piezas respectivas de datos de imágenes de diferentes puntos de vista que se generan por el par de cámaras y para producir de manera secuencial la imagen de profundidad en una forma de corrientes; y una unidad de transmisión de imágenes configurada para generar una corriente de datos que se transmite, al recibir una solicitud para transmitir datos desde una terminal central, al extraer los datos de píxeles incluidos en una imagen y un área que se solicita de una pluralidad de corrientes que se produce de la unidad de generación de datos de imágenes, la unidad de síntesis de imágenes, y la unidad de procesamiento de correlación estéreo y para transmitir la corriente de datos a la terminal central .

10. Un sistema de procesamiento de información caracterizado porque comprende: un dispositivo de captura de imágenes en movimiento para capturar una imagen de un objeto y para generar datos de una imagen en movimiento; y una terminal central para adquirir una parte de los datos de la imagen en movimiento del dispositivo de captura de imágenes en movimiento y desplegar una imagen después de realizar un proceso de imagen predeterminado utilizando la parte de los datos, en donde el dispositivo de captura de imágenes en movimiento incluye: una unidad de generación de datos de imágenes configurada para generar piezas respectivas de datos de una pluralidad de imágenes que tienen diferentes resoluciones cada una en orden de píxel predeterminado al reducir, en varias fases, cada trama de una imagen en movimiento adquirida por la captura de imágenes y para producir de manera secuencial las piezas de datos en forma de corrientes; una unidad de síntesis de imágenes configurada para generar, al conectar, para cada fila de píxeles para una sola fila horizontal de una imagen o para cada fila de píxeles en un margen más pequeño, piezas respectivas de datos de una pluralidad de imágenes predeterminadas entre las piezas respectivas de datos de la pluralidad de imágenes producidas por la unidad de generación de datos de imágenes y después al producir las piezas respectivas de datos de la pluralidad de imágenes predeterminadas en forma de corrientes, una imagen sintetizada virtual que contiene la pluralidad de imágenes predeterminadas; y una unidad de transmisión de imágenes configurada para generar una corriente de datos que se transmite al extraer datos para los píxeles incluidos en una imagen y un área que se solicita de una pluralidad de corrientes que se producen de la unidad de generación de datos de imágenes y la unidad de síntesis de imágenes y después transmitir la corriente de datos a la terminal central.

11. Un dispositivo de procesamiento de información caracterizado porque comprende: una unidad de solicitud de datos configurada para solicitar a una cámara que capture una imagen de un objeto para transmitir los datos de imagen de una trama de una imagen en movimiento al especificar una resolución y un área dentro de una imagen; una unidad de implementación de datos configurada para implementar los datos de imagen, los cuales se transmiten desde la cámara de acuerdo con una solicitud, en forma de una corriente en la cual los valores de pixeles del área específica se conectan para cada fila de pixeles, como datos de imagen bidimensional ; y una unidad de procesamiento de datos configurada para desplegar una imagen después de realizar un proceso de imagen predeterminado utilizando los datos de imágenes bidimensional, en donde la unidad de solicitud de datos especifica una imagen sintetizada, la cual se genera dentro de la cámara, en la cual una pluralidad de imágenes que tienen diferentes resoluciones obtenidas al reducir la trama de la imagen en movimiento en varias fases se disponen en áreas rectangulares predeterminadas respectivas, y en donde la unidad de implementación de datos realiza separación de imagen al desplegar la imagen sintetizada transmitida desde la cámara en una pieza individual de datos de imagen bidimensional para cada una de las imágenes sometida a síntesis.

12. Un método de procesamiento de datos de imágenes realizado por un dispositivo de captura de imágenes en movimiento, caracterizado porque comprende: generar piezas respectivas de datos de una pluralidad de imágenes que tienen diferentes resoluciones cada una en un orden de píxel predeterminado al reducir, en varias fases, cada trama de una imagen en movimiento adquirida al capturar una imagen de un objeto y producir secuencialmente las piezas de datos en una forma de corrientes; generar, al conectar, para cada fila de píxeles para una sola fila horizontal de una imagen o para cada fila de píxeles en un margen más pequeño, piezas respectivas de datos de una pluralidad de imágenes predeterminadas entre las piezas respectivas de datos de la pluralidad de imágenes producidas en la producción y después al producir las piezas respectivas de datos de la pluralidad de imágenes predeterminadas en forma de corrientes, una imagen sintetizada virtual que contiene la pluralidad de imágenes predeterminadas; y generar una corriente de datos que se transmite, al recibir una solicitud para transmitir datos desde una terminal central, al extraer datos para, píxeles incluidos en una imagen y un área que se solicita en una pluralidad de corrientes producidas en la producción y en la generación de transmisión de la corriente de datos a la terminal central.

13. Un medio de grabación legible por computadora no transitorio que tiene representado en el mismo un producto de programa de computadora caracterizado porque comprende: un módulo configurado para generar piezas respectivas de datos de una pluralidad de imágenes que tienen diferentes resoluciones cada una en un orden de píxel predeterminado al reducir, en varias fases, cada trama de una imagen en movimiento adquirida al capturar una imagen de un objeto y para producir de manera secuencial las piezas de datos en forma de corrientes; un módulo configurado para generar, al conectar, para cada fila de píxeles para una sola fila horizontal de una imagen o para cada fila de plxeles en un margen más pequeño, piezas respectivas de datos de una pluralidad de imágenes predeterminadas entre las piezas respectivas de datos de la pluralidad de imágenes producidas en el módulo configuradas para producir las piezas¦ de datos y después producir las piezas respectivas de datos de la pluralidad de imágenes predeterminadas en forma de corrientes, una imagen sintetizada virtual que contiene la pluralidad de imágenes predeterminadas ¡ y un módulo configurado para generar una corriente de datos que se transmite, al recibir una solicitud para transmitir datos desde una terminal central, al extraer datos para píxeles incluidos en un imagen en un área que se solicita de una pluralidad de corrientes que se producen en el módulo configurado para producir las piezas de datos y en el módulo configurado para generar la imagen sintetizada virtual y para transmitir la corriente de datos a la terminal central. RESUMEN DE LA INVENCIÓN Una unidad 156 de síntesis ¦ de imágenes recibe valores de píxeles respectivos para una sola fila horizontal de una imagen sin mosaico de 1/4, una imagen sin mosaico de 1/16, y una imagen sin mosaico de 1/64 desde un filtro de pirámide proporcionado en la fase precedente para reducir, en una pluralidad de fases, una trama de una imagen en movimiento que se captura. La unidad 156 de síntesis de imágenes entonces conecta los valores de píxeles en una regla predeterminada para generar una imagen sintetizada virtual y produce la imagen sintetizada en forma de corrientes. Una unidad 164 de control de una unidad 151 de transmisión de imágenes notifica a una unidad 154 de selección de datos de una solicitud de una terminal central. La unidad 154 de selección de datos selecciona y extrae datos necesarios de las corrientes respectivas de piezas de datos de la imagen sintetizada, una imagen RAW, y una imagen sin mosaico de 1/1, las cuales se ingresan desde la unidad 156 de síntesis de imágenes y una unidad de adquisición de imágenes y una unidad de interpolación de mosaicos proporcionada en las fases precedentes, respectivamente, y genera una corriente de datos que se transmitirá. Una unidad 162 de formación de paquetes forma en paquetes la corriente y transmite la corriente formada en paquetes a la terminal central .