MXPA98009262A - Estimacion del desplazamiento de vista para la codificacion de video esteroscopico - Google Patents

Estimacion del desplazamiento de vista para la codificacion de video esteroscopico

Info

Publication number
MXPA98009262A
MXPA98009262A MXPA/A/1998/009262A MX9809262A MXPA98009262A MX PA98009262 A MXPA98009262 A MX PA98009262A MX 9809262 A MX9809262 A MX 9809262A MX PA98009262 A MXPA98009262 A MX PA98009262A
Authority
MX
Mexico
Prior art keywords
lower layer
image
layer image
intensification
displacement
Prior art date
Application number
MXPA/A/1998/009262A
Other languages
English (en)
Other versions
MX9809262A (es
Inventor
Chen Xuemin
Original Assignee
General Instrument Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US08/966,277 external-priority patent/US6043838A/en
Application filed by General Instrument Corporation filed Critical General Instrument Corporation
Publication of MX9809262A publication Critical patent/MX9809262A/es
Publication of MXPA98009262A publication Critical patent/MXPA98009262A/es

Links

Abstract

En un sistema de transmisión de vídeo estereoscópico, en donde una imagen de capa de intensificación se predice pos disparidad utilizando una imagen de capa inferior, se hace que la imagen de capa inferior se iguale de manera más cercana a la imagen de capa de intensificación al desplazar la imagen de capa inferior a la derecha para compensar la separación interocular de las lentes de la cámara. El rango de búsqueda del vector de movimiento para la predicción de disparidad se reduce para mejorar la eficiencia de codificación. En un codificador, el desplazamientoóptimo, x, entre la imagen de capa de intensificación y la imagen de capa inferior se determina de acuerdo a ya sea un error promedio mínimo o un error cuadrado promedio mínimo entre las imágenes de la capa de intensificación e inferior. El desplazamiento x se limita mediante un rango de búsqueda de desplazamiento X. Las x columnas de pixeles más a la derecha de la imagen de capa inferior se cancelan, y las x columnas más a la izquierda de la imagen de capa inferior se rellenan para desplazar de manera efectiva la imagen de capa inferior a la derecha mediante x pixeles, para obtener la imagen de referencia para utilizarse en predecir por disparidad la imagen de capa de intensificación. Para imágenes formadas arbitrariamente tales como VOPs dentro de un cuadro, la porción más a la izquierda se cancela y la porción más a la derecha se rellena. En un decodificador, el valor de desplazamiento x se recupera si se encuentra disponible y se utiliza para reconstruir el cuadro de referencia.

Description

ESTIMACIÓN DEL DESPLAZAMIENTO DE VISTA PARA LA CODIFICACIÓN DE VIDEO ESTEREOSCÓPICO ANTECEDENTES DE LA INVENCIÓN La presente invención se refiere a un aparato y método para codificar datos de video estereoscópico. En particular, se presenta un sistema para estimar el desplazamiento óptimo de una escena entre vistas de canal, derecha e izquierda, en el mismo punto de referencia temporal. El sistema reduce el rango de búsqueda del vector de movimiento para la predicción (es decir, canal cruzado o capa cruzada) de disparidad para mejorar la eficiencia de codificación. La tecnología digital ha revolucionado el suministro de servicio de video y audio a los consumidores, ya que suministra señales de calidad mucho más elevada que las técnicas análogas y proporciona características adicionales que anteriormente no estaban disponibles. Los sistemas digitales son particularmente ventajosos para señales que se transmiten a través de una red de televisión por cable o por satélite hacia afiliados de televisión por cable y/o directamente a receptores de televisión por satélite locales. En tales sistemas, un suscriptor recibe la corriente de datos digitales a través de un receptor/despertubador que descomprime y decodifica los datos con el objeto de reconstruir las señales de video y audio originales. El receptor digital incluye una icrocomputadora y elementos de almacenamiento de memoria para utilizarse en este proceso. La necesidad de proporcionar receptores de bajo costo mientras aún se proporciona video y audio de calidad elevada, requiere que la cantidad de datos que se procesa sea limitada. Además, la amplitud de banda disponible para la transmisión de la señale digital también puede limitarse por restricciones físicas, procedimientos de comunicación existentes y regulaciones gubernamentales. De acuerdo con lo anterior, se han desarrollado varios esquemas de compresión de datos de intra-cuadro que toman ventaja de la correlación espacial entre pixeles adyacentes en una estructura de video particular (por ejemplo, cuadro) . Además, los esquemas de compresión de intercuadro toman ventaja de las correlaciones temporales entre regiones correspondientes de cuadros sucesivos, al utilizar datos de compensación del movimiento y algoritmos de estimación del movimiento de igualación del bloque. En este caso, un vector de movimiento se determina para cada bloque en una estructura actual de una imagen, al identificar un bloque en una estructura previa que se parece de manera más minuciosa al bloque actual. La estructura actual entera puede entonces reconstruirse en un decodificador al enviar los datos que representan la diferencia entre los pares de bloque correspondientes, junto con los vectores de movimiento que se requieren para identificar los pares correspondientes. Los algoritmos que estiman el movimiento de igualación del bloque son particularmente efectivos cuando se combinan con técnicas de compresión espacial en base al bloque, tal como la transformación del coseno discreto (DCT) . Además, se ha incrementado el interés en los formatos de transmisión de video estereoscópico propuestos, tal como el sistema de Perfil de Multi-vista (MVP) MPEG-2 del Grupo de Expertos de estructura en Movimiento (MPEG) , descrito en el documento ISO/IEC JTC1/SC29/WG11 N1088 (ITU-T Recomendación T H.6262), titulado "Enmienda del Proyecto Propuesto No. 3 para 13818-2 (Perfil de Multi-vista) " ("Proposed Draft Amendment No. 3 to 13818-2 (Multi-view Profile)"), Noviembre de 1995 y su enmienda 3; así como el Modelo de Verificación de Video MPEG-4 (VM) Versión 3.0, descrito en el documento ISO/IEC JTC1/SC29/WG11 N1277, Tampere, Finlandia, Julio de 1996, ambos de los cuales se incorporan en la presente para referencia. El video estereoscópico proporciona vistas ligeramente desplazadas de la misma imagen para producir una imagen combinada con mayor profundidad del campo, creando así un efecto tri-dimensional (3-D) . En tal sistema, las cámaras dobles pueden colocarse aproximadamente 2.5 pulgadas, o 65 mm separadas, para registrar un evento en dos señales de video separadas. El espacio de las cámaras se aproxima a la distancia entre los ojos humanos, izquierdo y derecho, es decir, la separación inter-ocular. Además, con algunas cámaras de video esteroscópico, los dos lentes se construyen en una cabeza de cámara grabadora y por lo tanto se mueven en sincronismo, por ejemplo, en una panorámica a través de una imagen. Las dos señales de video pueden transmitirse y recombinarse en un receptor para producir una imagen con una profundidad de campo que corresponde a la visión humana normal. También pueden proporcionarse otros efectos especiales. El sistema de MVP del MPEG incluye dos capas de video que se transmiten en una señal multiplexada. Primero, una capa base (por ejemplo, inferior) representa una vista izquierda de un objeto tri-dimensional. Segundo, una capa de intensificación (por ejemplo, auxiliar o superior) representa una vista derecha del objeto. Ya que las vistas, derecha e izquierda, son del mismo objeto y se desplazan solo ligeramente en relación una a otra, usualmente existirá un gran grado de correlación entre las imágenes de video de las capas, base y de intensificación. Esta correlación puede utilizarse para comprimir los datos de la capa de intensificación relativos a la capa base, reduciendo así la cantidad de datos que necesitan transmitirse en la capa de intensificación para mantener una calidad de imagen dada. Generalmente, la calidad de imagen corresponde al nivel de cuantificación de los datos de video. El sistema de MVP del MPEG incluye tres tipos de estructuras de video; específicamente, la estructura intra-codificada (estructura I), la estructura predictiva-codificada (estructura P) y la estructura bidireccionalmente predictiva-codificada (estructura B) . Además, mientras la capa base acomoda cualquiera de las secuencias de video de estructura de campo o cuadro, la capa de intensificación acomoda solo la estructura de cuadro. Una estructura I describe completamente una estructura de video única sin referencia a cualquier otra estructura. Para la ocultación mejorada del error, los vectores de movimiento pueden incluirse con una estructura I. Un error en una estructura I tiene el potencial para un mayor impacto en el video desplegado ya que tanto las estructuras P como las estructuras B en la capa base, se predicen a partir de las estructuras I. Además, las estructuras en la capa de intensificación pueden predecirse a partir de las estructuras en la capa base en un proceso de predicción de capa cruzada conocido como predicción de disparidad. La predicción de un cuadro a otro dentro de una capa se conoce como predicción temporal. En la capa base, las estructuras P se predicen en base a las estructuras I o P previas. La referencia es de una estructura I o P anterior a una estructura P futura, y se conoce como predicción en avance. Las estructuras B se predicen a partir de la estructura I o P anterior más cercana y la estructura I o P anterior más cercana. En la capa de intensificación, una estructura P puede predecirse a partir de (a) la estructura decodificada de manera más reciente en la capa de intensificación, (b) la estructura de capa base más reciente, en orden de despliegue, o (c) la siguiente estructura de capa inferior, en orden de despliegue. El caso (b) se utiliza usualmente cuando la estructura de capa base más reciente, en orden de despliegue, es una estructura I. Además, una estructura B en la capa de intensificación puede predecirse utilizando (d) la estructura de capa de intensificación decodificada más reciente para la predicción en avance, y la estructura de capa inferior más reciente, en orden de despliegue, (e) la estructura de capa de intensificación decodificada más reciente para la predicción en avance, y la siguiente estructura de capa inferior, en orden de despliegue, para la predicción inversa, o (f) la estructura de capa inferior más reciente, en orden de despliegue, para la predicción en avance, y la siguiente estructura de capa inferior, en orden de despliegue, para la predicción inversa. Cuando la estructura de capa inferior más reciente, en orden de despliegue, es una estructura I, solo esa estructura I se utilizará para la codificación predictiva (por ejemplo, no habrá predicción en avance) . Obsérvese que solo los modos de predicción (a) , (b) y (d) se incluyen dentro del sistema de MVP del MPEG. El sistema de MVP es un sub-conjunto de la codificación de la graduabilidad temporal del MPEG, la cual incluye cada uno de los modos (a)-(f). En una configuración opcional, la capa de intensificación solo tiene estructuras P y B, pero no estructuras I. la referencia para una estructura futura (es decir, una que aún no se ha desplegado) se llama predicción inversa. Obsérvese que no ocurre predicción inversa dentro de la capa de intensificación. De acuerdo con lo anterior, las estructuras de la capa de intensificación se transmiten en orden de despliegue. Existen situaciones en donde la predicción inversa es muy útil para incrementar la velocidad de compresión. Por ejemplo, en una escena en la cual se abre una puerta, la estructura actual puede predecir qué hay atrás de la puerta en base a una estructura futura, en la cual la puerta ya se encuentra abierta.
Las estructuras B produjeron más compresión pero también incorporan más error. Para eliminar la propagación del error, las estructuras B nunca pueden predecirse a partir de otras estructuras B en la capa base. Las estructuras P produjeron menor error y menos compresión. Las estructuras I produjeron la mínima compresión, pero son capaces de proporcionar acceso aleatorio. Para la predicción de disparidad, por ejemplo, en donde una imagen de capa inferior se utiliza como una imagen de referencia para una imagen de capa de intensificación, ya sea sola o en combinación con una imagen de referencia de la capa de intensificación. La imagen de capa de intensificación se compensa en movimiento al encontrar una mejor comparación de imagen en la imagen de referencia al buscar un área de búsqueda predefinida, después al codificar diferencial ente los pixeles de la imagen de capa de intensificación utilizando los pixeles de la mejor comparación de imagen de la imagen de referencia. Un vector de movimiento, el cual define el desplazamiento relativo de la mejor comparación de imagen hacia la región de la capa de intensificación codificada, se transmite con los datos de pixel codificados diferencialmente para permitir la reconstrucción de la imagen de capa de intensificación en un decodificador. El procesamiento puede ocurrir en un macrobloque mediante bases de macrobloque. Sin embargo, los requerimiento de almacenamiento de la memoria y del procesamiento para la predicción de disparidad se incrementan cuando el rango de búsqueda del vector de movimiento se incrementa. Además, da como resultado la codificación de longitud variable ineficiente (por ejemplo, codificación Huffman) de los vectores de disparidad. Esto da como resultado un aparato de codificación y decodificación más costoso y/o más lento. De acuerdo con lo anterior, sería ventajoso tener un sistema para mejorar la eficiencia de codificación de las imagen de la capa de intensificación previstas de disparidad en un sistema de video estereoscópico. El sistema deberá responder a la separación inter-ocular de una cámara de video estereoscópica para proporcionar una imagen de capa inferior desplazada, la cual se iguala de manera más cercana a la imagen de capa de intensificación. El sistema deberá ser compatible con diversos tamaños de imagen, incluyendo rectangular así como imagen formadas arbitrariamente. El sistema además deberá ser compatible con diversas normas de codificación de video propuestas y existentes tales como, MPEG-1, MPEG-2, MPEG-4, H.261 y H.263. El sistema deberá proporcionar la transmisión de un valor de desplazamiento para utilizarse mediante un decodificador en la reconstrucción de un cuadro de referencia. El sistema también deberá ser efectivo con normas de video que no permiten la transmisión de un valor de desplazamiento, al reducir el rango de búsqueda del vector de movimiento en un codificador. La técnica debe ser adecuada tanto para las imágenes fijas como para las secuencias de imágenes. La presente invención proporciona un sistema que tiene las ventajas anteriores y otras. SUMARIO DE LA INVENCIÓN De acuerdo con la presente invención se presenta un método y aparato para mejorar la eficiencia de codificación en un sistema de transmisión de video esteroscópico, al compensar la separación de las lentes de la cámara inter-ocular. Un método para la predicción de una imagen de capa de intensificación en una capa de intensificación de una señal de video estereoscópica utilizando una imagen de capa inferior en una capa inferior de la misma comprende las etapas de determinar un desplazamiento óptimo, x, entre la imagen de capa de intensificación y la imagen de capa inferior de acuerdo a cualquier error promedio mínimo, o un error cuadrado promedio mínimo, y desplazar la imagen de capa inferior de acuerdo al desplazamiento óptimo para obtener una imagen de referencia para utilizarse en predecir la disparidad de la imagen de capa de intensificación. El desplazamiento se logra al cancelar las últimas x columnas de pixeles (por ejemplo, más a la derecha) de la imagen de capa inferior y rellenar las primeras x columnas de pixeles (por ejemplo, más a la izquierda) de acuerdo a la primer columna de pixeles preexistente (es decir, la columna más a la izquierda antes del desplazamiento) . La imagen de capa de intensificación se predice por disparidad a partir de la imagen de referencia utilizando la compensación de movimiento, y se obtiene una mejor comparación de imagen, tal como un macrobloque, en la imagen de referencia utilizando un rango de búsqueda que se reduce con relación a un rango de búsqueda de la imagen de capa inferior sin el desplazamiento. Un desplazamiento estimado puede determinarse de acuerdo a un parámetro del enfoque de la cámara y una separación inter-ocular, en cuyo caso la imagen de capa inferior puede buscarse en un rango determinado por el desplazamiento estimado para encontrar el desplazamiento óptimo. La imagen de capa de intensificación y la imagen de capa inferior puede comprender planos del objeto de video u otras imágenes formadas arbitrariamente así como imágenes rectangulares (por ejemplo, cuadros) . Un nuevo desplazamiento óptimo x puede determinarse cuando se detecta un cambio de escena para la imagen de capa inferior. Si no se detecta un cambio de escena, puede utilizarse un desplazamiento a partir de una imagen anterior en la capa inferior como el desplazamiento óptimo x. Opcionalmente, un nuevo desplazamiento óptimo x puede determinarse para un nuevo grupo de imágenes en la capa inferior. El desplazamiento óptimo x puede transmitirse en la señal de video estereoscópica para utilizarse por un decodificador en recrear la imagen de referencia. Para el error promedio mínimo, el desplazamiento óptimo x se determina de tal manera que el valor ! ((ww--xx--Di?(hh--l1))?., Dist L±(x) = — ? TS |yt(i+x,j)-y1P(i j) - h( -x) i=0 jj==0 I l ^ se minimiza, en donde yL y Yz representan valores del pixel de luminancia de las imágenes de la capa inferior y de intensificación, respectivamente, i y j son coordenadas Cartesianas, horizontal y vertical, respectivamente, en las imágenes de la capa inferior y de intensificación, h es la altura de la imagen de capa inferior, w es el ancho de la imagen de capa inferior, la imagen de capa inferior es una imagen de vista izquierda y la imagen de capa de intensificación es una imagen de vista derecha.
Para el error cuadrado promedio mínimo, el desplazamiento óptimo x se determina de tal manera que el valor 9 i ( (ww--xx--DD((hh--ll))/? ). Dist L(?) = — ? ? yt(i+ ?,j)-yt(i,j) _ h(w-x) i=0 jj==0 v L E ) El desplazamiento para los datos de crominancia es Lx/2j para video de 4:2:0. También se presenta un aparato y decodificador correspondientes . BREVE DESCRIPCIÓN DE LOS DIBUJOS La figura 1 es un diagrama de bloques de una estructura del codificador/decodificador para el video estereoscópico . La figura 2 es una diagrama esquemático de un modelo de la cámara de video estereoscópica. La figura 3 es una ilustración de un modo de predicción de disparidad para las estructuras P en la capa de intensificación. La figura 4 es una ilustración de un modo de predicción de la capa de intensificación para las estructuras B. La figura 5 ilustra el procesamiento de una estructura de vista izquierda de acuerdo con la presente invención. La figura 6 ilustra un flujo del proceso codificador de acuerdo con la presente invención. La figura 7 ilustra un flujo del proceso decodificador de acuerdo con la presente invención. La figura 8 ilustra la predicción de disparidad y ,1a búsqueda del vector de movimiento de acuerdo con la presente invención. La figura 9 ilustra la búsqueda del vector de movimiento de acuerdo con la presente invención. La figura 10 es un diagrama de bloques de una estructura del decodificador de la capa de intensificación de acuerdo con la presente invención. DESCRIPCIÓN DETALLADA DE LA INVENCIÓN Se presenta un método y aparato para estimar el desplazamiento óptimo de una escena entre vistas de canal, derecha e izquierda, en un sistema de video estereoscópico. La figura 1 es un diagrama de bloques de una estructura del codificador/decodificador para el video estereoscópico. Los sistemas similares y la norma MVP del MPEG incluyen la codificación de dos capas de video, que incluyen una capa inferior y una capa superior o de intensificación. Para tal aplicación, la capa inferior se asigna a una vista izquierda, mientras que la capá de intensificación se asigna a una vista derecha. En la estructura del codificador/decodificador (por ejemplo, codificador/decodificador) de la figura 1, las secuencias de video de la capa de intensificación y la capa inferior se reciben mediante un remultiplexor temporal (remux) 105. Utilizando la multiplexión por división de tiempo (TDMX) , el video de la capa de intensificación se proporciona hacia un codificador de intensificación 110, mientras que el video de la capa base se proporciona hacia un codificador inferior 115. Obsérvese que los datos de video de la capa inferior pueden proporcionarse hacia el codificador de intensificación 110 para la predicción de disparidad. Las capas, base y de intensificación, codificadas se proporcionan entonces hacia un multiplexor del sistema 120 para la transmisión hacia un decodificador, mostrado en general en 122, como una corriente de transporte. La trayectoria de transmisión típicamente es un enlace por satélite hacia un sistema cabezal de antena del sistema de cable o directamente a través del satélite hacia el hogar del consumidor. En el decodificador 122, la corriente de transporte se desmultiplexa en un desmultiplexor del sistema 125. Los datos de la capa de intensificación codificados se proporcionan hacia un decodificador de intensificación 130, mientras que los datos de la capa inferior codificados se proporcionan hacia un decodificador inferior 135. Obsérvese que la decodificación preferentemente se lleva a cabo de manera concurrente con las capas, inferior y de intensificación, en una una distancia inter-ocular d (130), típicamente de 65 mm. Los ejes 115 y 125 cruzan un plano de cámara 140. El aparato de cámara 100 incluye dos cámaras idénticas, cada una con una lente respectiva, a fin de que se obtengan dos o capa cruzada) . Al reducir un rango de búsqueda del vector de movimiento para la predicción de disparidad entre imágenes de vista izquierda y derecha, puede implementarse un codificador de complejidad baja. Esto se logra al estimar de manera óptima el desplazamiento de ubicación local de una escena entre imágenes de dos vistas en el mismo punto de referencia temporal. El sistema presentado en la presente puede utilizarse como una opción de intensificación de la ejecución de los experimentos del Modelo de Verificación de Video (VM) MPEG-4 (Versión 3.0 y anterior) y el Perfil de Multi-vista (MVP) MPEG-2 para la predicción de disparidad de la codificación de video estereoscópico. El MVP (o MV MPEG-4 3.0) incluye dos capas de codificación, principalmente una capa inferior o base y una capa de intensificación. Para la codificación de video estereoscópico, la capa inferior se asigna a la vista izquierda y la capa de intensificación se asigna a la vista derecha. Los modos de estimación/predicción de disparidad de la capa de intensificación en el MVP para estructuras P y B, consisten de una técnica de igualación de bloque en base al macrobloque. En un decodificador MVP, estos modos de predicción se muestran en las figuras 3, 4 y 8. Con la codificación de video estereoscópico, se espera un vector de disparidad horizontal para cada macrobloque predicho de disparidad, debido al desplazamiento de los puntos de vista. De hecho, esto causa codificación (Huffman) de longitud variable ineficiente (VLC) de estos vectores de disparidad. La presente invención se dirige al problema de como determinar el desplazamiento horizontal de vistas estereoscópicas, de tal manera que la codificación de los vectores de disparidad estimados se vuelva más eficiente. De acuerdo con la presente invención, la imagen de vista izquierda se desplaza mediante un número apropiado de pixeles, de tal manera que el desplazamiento entre la imagen de vista izquierda desplazada y la imagen derecha pueda reducirse. Por lo tanto, la predicción de disparidad en base a este nuevo par de imágenes es más eficiente. La figura 3 es una ilustración de un modo de predicción de disparidad para estructuras P en la capa de intensificación. Aquí, una estructura P 310 en la capa de intensificación se predice por disparidad utilizando una estructura I temporalmente coincidente 300 en la capa inferior. La figura 4 es una ilustración de un modo de predicción de la capa de intensificación para estructura B. Aquí, una estructura B 410 en la capa de intensificación se predice utilizando tanto predicción en avance como predicción de disparidad. Específicamente, la estructura B 410 se predice en avance utilizando otra estructura B 420, la cual es la estructura de capa de intensificación decodificada más reciente, y una estructura I 400, la cual es la estructura de capa inferior más reciente, en orden de despliegue. La figura 5 ilustra el procesamiento de una estructura de vista izquierda de acuerdo con la presente invención. Una técnica de desplazamiento de posición horizontal global de la presente invención mejora la eficiencia de codificación, mientras que mantiene la compatibilidad con los estándares de codificación estereoscópicos existentes. El método de desplazamiento de posición horizontal global obtiene un desplazamiento de posición horizontal de la imagen de vista izquierda, de tal manera que la distorsión entre la imagen de vista izquierda (desplazada) y la imagen de vista derecha correspondiente se minimiza. Esta técnica es aplicable a imágenes formadas arbitrariamente tales como, Planos del objeto de Video (VOP) como se describe en la norma MPEG-4 así como imágenes rectangulares, por ejemplo, una estructura o cuadro de video o sub-porción de la misma como se utiliza en la norma MVP de MPEG-2. Específicamente, un VOP en una imagen de vista izquierda se desplaza a la derecha al cancelar los x pixeles más a la izquierda, los cuales se extienden verticalmente en el VOP, es decir, en el borde más a la izquierda del VOP, y al rellenar los x pixeles que inician en el borde más a la derecha del VOP. De esta manera, el borde más a la derecha se extiende horizontalmente mediante x pixeles. La posición del VOP de esta manera se desplaza con respecto al cuadro de vista izquierda, en el cual se sitúa, así como con respecto al VOP correspondiente en la imagen de vista derecha. Generalmente, las porciones más a la izquierda y más a la derecha del cuadro de vista izquierda son indesplazables, suponiendo que el VOP no se extiende hacia los límites verticales del cuadro. En la figura 5 se muestra, una imagen de vista izquierda 500 y una imagen de vista derecha 510. Los parámetros h y w denotan la altura y amplitud, respectivamente, para ambas imágenes. Por ejemplo, para video NTSC, h=480 y w=704, y para video PAL, h=576 y w=704) . Los parámetros yL(i,j) y VR(Í/J) representan los valores del pixel de luminancia de las imágenes de vista izquierda (o inferior) y de vista derecha, respectivamente. El parámetro yR(i,j) puede referirse como yE(i/j)/ en donde el subíndice "E" denota la capa de intensificación. La técnica se describe suponiendo que la imagen de vista izquierda se encuentra en la capa inferior y la imagen de vista derecha se encuentra en la capa de intensificación. Sin embargo, la técnica se adapta fácilmente para utilizarse en, un sistema de video estereoscópico en donde la imagen de vista derecha se encuentra en la capa inferior y la imagen de vista izquierda se encuentra en la capa de intensificación. La imagen de vista izquierda 500 incluye un dispositivo 505, mientras que la imagen de vista derecha 510 incluye el mismo dispositivo 515 pero en una posición relativamente diferente dentro del cuadro. Específicamente, la imagen 500 se desplaza relativamente hacia la izquierda de la imagen 510 mediante una distancia x. En una primer etapa, el valor x es el desplazamiento horizontal que está para determinarse, y se supone que se encuentra dentro de un rango X predeterminado o preasignado, que es. 0 < x = X. La técnica de desplazamiento de posición horizontal global de acuerdo con la primer modalidad de la presente invención es para encontrar el valor entero del desplazamiento horizontal x, de tal manera que: Dist se minimiza, en donde yL y ye representan valores del pixel de luminancia de las imágenes de la capa inferior y de intensificación, respectivamente, i y j son coordenadas Cartesianas, horizontal y vertical, respectivamente, en las imágenes de la capa inferior y de intensificación, h es la altura de cada imagen, w es la anchura de cada imagen. Esta técnica utiliza un error cuadrado promedio mínimo entre los valores del pixel de las imágenes de la capa de intensificación e inferior. Obsérvese que h(w-x) denota multiplicación, no una función de h. Se ejecuta una búsqueda exhaustiva de manera horizontal para 0 < x < X, para encontrar el desplazamiento x, de tal manera que Dist_L2(x) es un mínimo. En otra modalidad de la presente invención, se encuentra el valor de desplazamiento x, de tal manera que: 1 (w-x-iXh-l).f Dist L1(x) = ~ S S |yL(i+?,j)-yE(i,j) - h(w-x) i=0 j=0 I l ^ ** es un mínimo. Esta técnica, la cual utiliza un error promedio mínimo entre valores del pixel de las imágenes de la capa de intensificación e inferior, puede implementarse con requerimientos computacionales reducidos. En otra modalidad de la presente invención, se estima un desplazamiento horizontal xest, al utilizar un parámetro de enfoque de cámara y la separación intra-ocular d. Por ejemplo, puede utilizarse un desplazamiento estimado de diez pixeles (por ejemplo, +/-5) . Entonces, se ejecuta una búsqueda horizontal exhaustiva para max{xest-5, 0} < i < {xest+5}, para encontrar el desplazamiento x, de tal manera que Dist_LJ (x) o Dist_L2(x) es un mínimo. Un cuadro de referencia de vista izquierda para la predicción y estimación de disparidad se obtiene como sigue. Después de determinar el desplazamiento horizontal x en el codificador, un cuadro de referencia se construye a partir de las imágenes de vista izquierda, original y reconstruida, para la estimación/predicción de disparidad de la imagen de vista derecha. Si la norma de video permite que el valor de desplazamiento x sea transmitido hacia un decodificador, el desplazamiento x se extrae en el decodificador, y el cuadro de referencia se reconstruye a partir de la imagen de vista izquierda decodificada para la predicción/compensación de disparidad de la imagen de vista derecha. El desplazamiento puede transmitirse en la porción de datos del usuario de un encabezamiento de imagen, por ejemplo. Se logra el proceso de construcción del cuadro de referencia para los pixeles de luminancia, en una segunda etapa, al cancelar las últimas columnas x de la imagen de vista izquierda. En el codificador, se utiliza la imagen de vista izquierda original, mientras que en el decodificador, se utiliza la imagen de vista izquierda decodificada. Refiriéndose a la imagen de vista izquierda 535, se cancelan las últimas columnas x 520 en el lado a mano derecha de la imagen 535. En una tercer etapa, para cada fila de la imagen de vista izquierda 540, se llenan los x pixeles en el inicio de la fila con el primer valor de pixel de la fila. El proceso de llenado (por ejemplo, relleno) puede lograrse como se describe en la norma MPEG-4. La región rellenada 530 se muestra en el lado a mano izquierda de la imagen 540. Como un resultado de las etapas anteriores, se obtiene una imagen de vista izquierda cambiada o desplazada 540 que se iguala de manera más cercana a la imagen de vista derecha correspondiente. Para los datos de pixel de crominancia, el proceso de construcción del cuadro de referencia para la predicción de disparidad consiste de las mismas etapas dadas, pero con un desplazamiento horizontal de Lx/2_|, que es, x/2 con redondeo hacia bajo al siguiente entero. Esto supone un formato de video 4:2:0. El desplazamiento puede modificarse para otros formatos como se requiera. La figura 6 ilustra un flujo del proceso codificador de acuerdo con la presente invención. El proceso mostrado corresponde al caso en donde el valor de desplazamiento horizontal x puede transmitirse hacia un decodificador. Para el caso en donde el desplazamiento horizontal no puede transmitirse, por ejemplo, con la norma MVP de MPEG-2, el valor de desplazamiento horizontal x aún puede utilizarse para reducir la complejidad de buscar el vector de disparidad en el codificador, como se describe en relación con las figuras 8 y 9. El valor de desplazamiento x puede determinarse de acuerdo a diversos procedimientos. Por ejemplo, x puede computarse y almacenarse para cada imagen sucesiva en una secuencia de video. Sin embargo, esto puede ser computacionalmente innecesario e incómodo. Alternativamente, el desplazamiento x puede determinarse cada vez' que se detecta un desplazamiento de escena, o en el inicio de un nuevo grupo de estructuras (GOP) . Un grupo de estructura (GOP) indica una o más estructuras consecutivas que pueden decodificarse sin referencia a las estructuras en otro GOP. La selección de un criterio óptimo para recalcular el desplazamiento x debe basarse en la complejidad de implementación y características del video. si el desplazamiento x no se recalcular de nuevo para la imagen actual, puede utilizarse el desplazamiento almacenado previo. La imagen de vista izquierda se proporciona hacia un bloque 610, en donde se determina si se detecta un cambio de escena o un GOP nuevo. Si es así, en el bloque 620, el rango de búsqueda del desplazamiento x (en donde 0 = x < X) se carga, por ejemplo, en la memoria para utilizarse mediante una microcomputadora. Si no, en el bloque 600, se utiliza el desplazamiento horizontal x que se determinó a partir de la última escena. En el bloque 630, el desplazamiento x se determina utilizando ya sea el error promedio mínimo o el error cuadrado promedio mínimo, descritos previamente. Los datos de la imagen de vista derecha se utilizan para este procedimiento. En el bloque 640, el cuadro de referencia se construye utilizando el procedimiento descrito en relación con la figura 5. Los datos de la imagen de vista derecha también se utilizan para este procedimiento. En el bloque 650, el cuadro de referencia nuevamente construido se busca para determinar los mejores macrobloques de comparación. Es decir, un rango de búsqueda se define en el cuadro de referencia sobre el cual cada macrobloque se compara con un macrobloque de vista derecha, el cual actualmente se codifica para determinar el macrobloque del cuadro de referencia, el cual se compara de manera más cercana al macrobloque de vista derecha que actualmente se codifica. Ya que el cuadro de referencia se desplaza con relación a la imagen de vista izquierda original, se parece de manera más cercana a la imagen de vista derecha, y puede utilizarse un rango de búsqueda reducido para obtener la mejor comparación de macrobloque. Por ejemplo, como se describe en relación con la figura 9 de abajo, el rango de búsqueda puede reducirse de 64x48 pixeles a 8x8 pixeles, por ejemplo. En el bloque 660, la imagen de vista derecha se codifica utilizando nuevas técnicas, tal como aquellas descritas en la norma MVP. En el bloque 670, los datos codificados y el desplazamiento x se transmiten hacia un decodificador, por ejemplo, en una red de CATV de transmisión por satélite, como se describe en relación con la figura . Algunos normas de comunicación de video no pueden proporcionar la transmisión del valor de desplazamiento x, en cuyo caso el desplazamiento solo puede utilizarse en el codificador para reducir el rango de búsqueda. La figura 7 ilustra un flujo del proceso decodificador de acuerdo con la presente invención. En este caso, se supone que el desplazamiento x se transmita con los datos de video en una corriente de bits codificados. En el bloque 700, el desplazamiento horizontal se extrae de la corriente de bits codificados. En el bloque 710, la imagen de vista izquierda se decodifica de una manera convencional. En el bloque 720, el cuadro de referencia se construye utilizando el desplazamiento x. En el bloque 730, la imagen de vista derecha se predice por disparidad utilizando los datos de la imagen de vista derecha codificados y el cuadro de referencia. El desplazamiento x y los vectores de movimiento se utilizan para identificar la mejor comparación de macrobloque del cuadro de referencia, y se recupera la imagen de vista derecha completa utilizando la suma de los datos de pixel de la mejor comparación de macrobloques y los datos de la imagen de vista derecha diferencialmente codificados. Para los casos en donde el desplazamiento horizontal no pueda transmitirse, por ejemplo, con la norma MVP de MPEG-2, aún puede utilizarse el desplazamiento horizontal para reducir la complejidad de la búsqueda del vector de disparidad en el codificador, por ejemplo, al reducir el rango de búsqueda del vector de movimiento. La figura 8 ilustra la predicción de disparidad y la búsqueda del vector de movimiento de acuerdo con la presente invención. La capa de intensificación incluye, una estructura P 810, una estructura B 820 y una estructura B 830, mientras que la capa inferior incluye, una estructura I 840, una estructura P 850 y una estructura P 860. La predicción se indica mediante la dirección de las flechas, de tal manera la flecha señala desde la imagen de referencia hacia la imagen predicha. Por ejemplo, cada macrobloque en la estructura P 850 se predice utilizando la mejor comparación de macrobloques correspondientes en la estructura I 840. Para cada ésimo macrobloque, un vector de movimiento (vx,vy) indica el desplazamiento relativo de la mejor comparación de macrobloque hacia el macrobloque predicho. Para la predicción de la capa inferior, la estimación se centra en una posición de no desplazamiento de cada macrobloque. Por ejemplo, el pixel a mano izquierda superior de cada macrobloque predicho puede tomarse como la coordenada de no desplazamiento (0,0). La imagen B 820 se predice por disparidad utilizando la estructura P 850 en la capa inferior y temporalmente se predice utilizando la estructura P 810 en la capa de intensificación. Para la predicción de disparidad, el desplazamiento horizontal x se determina como se describe. Después, los macrobloques en la estructura B 820 se predicen por disparidad al ubicar la mejor comparación de macrobloques en la estructura P 850, en donde la estimación/predicción de disparidad se centra en (x,0) en lugar de (0,0). Es decir, la estimación se desplaza por x pixeles hacia la derecha. El vector de disparidad (vx,vy) indica la diferencia de posición entre macrobloques correspondientes de pixeles de la capa base y la capa de intensificación, y se utiliza para la reconstrucción de la estructura de capa de intensificación predicha por disparidad en un decodificador. En particular, con las coordenadas de pixel para el macrobloque de la ventana de búsqueda en la capa de intensificación siendo (xs,ys), y las coordenadas de pixel para un macrobloque de la ventana de referencia correspondiente en la capa base siendo (xr/yr)f el vector de disparidad es v= (vx, vy) = (xs-xr/ ys/yr). De esta manera, el vector de disparidad es una medida de una diferencia de posición o de traslación entre la ventana de búsqueda y la ventana de referencia. Los vectores de disparidad pueden transmitirse en la corriente de datos del canal de vista derecha para utilizarse en reconstruir la estructura de capa de intensificación predicha por disparidad en un decodificador . Además, la predicción temporal de la estructura B 820 utilizando la estructura P 810, se centra en (vx,vy) para cada ésimo macrobloque. La predicción de disparidad y el proceso de búsqueda del vector de movimiento pueden entenderse además con referencia a la figura 9. La figura 9 ilustra la búsqueda del vector de movimiento de acuerdo con la presente invención. Como se describe en relación con la figura 8, un vector (vx,vy) define una mejor comparación de macrobloque 920 en la estructura I 840 para un ésimo macrobloque 900 en la estructura P 850. El vector indica la cantidad de movimiento temporal de una imagen entre las dos estructuras. Se utiliza un rango de búsqueda 910 para encontrar la mejor comparación de macrobloque 920. El rango de búsqueda puede tener un tamaño total de 82X64 pixeles, que corresponden a una variación de 64X48 para el macrobloque de 16x16 900.
Para la predicción por disparidad de los macrobloques en la estructura B 820 en la capa de intensificación, el ésimo macrobloque 930 se centra en (x,0), y se compara con los macrobloques en un rango de búsqueda más pequeño 940, por ejemplo, teniendo un tamaño total de 24x24 pixeles, que corresponde a una variación de 8x8 para un macrobloque de 16x16. El valor de desplazamiento x permite que se utilice un rango de búsqueda más pequeño, ya que la mejor comparación de macrobloque para codificar diferencialmente el macrobloque 930 es probable que se encuentre en una proximidad más pequeña de pixeles cerca al macrobloque 930. De acuerdo con lo anterior, puede obtenerse un tiempo de procesamiento más rápido y requerimientos de memoria reducidos. Además, cuando el valor de desplazamiento se transmite hacia los decodificadores, da como resultado una codificación de longitud variable más eficiente (por ejemplo, codificación Huffman) de los vectores de disparidad, ya que cada vector de disparidad es más pequeño, reduciendo así la cantidad de datos que deben transmitirse. Un macrobloque en la estructura B 820, el cual se co-ubica con el macrobloque 900 en la estructura P 850, también puede utilizar un rango de búsqueda más pequeño en la estructura P 810 que se centra en el macrobloque 920 definido por el vector (vx,vy) . Por ejemplo, el rango de búsqueda del vector de movimiento para la secuencia de vista derecha también puede reducirse tan bajo como una variación de 8x8. Esto es verdad ya que la correlación entre la estructura B 820 y la estructura P 810 es probable sea similar a la correlación entre la estructura P 850 y la estructura I 840. La figura 10 es un diagrama de bloques de una estructura del decodificador de la capa de intensificación de acuerdo con la presente invención. El decodificador, mostrado en general en 130, incluye una terminal de entrada 1005 para recibir los datos de la capa de intensificación comprimidos y un analizador sintáctico del nivel de transporte 1010 para analizar los datos. Los datos analizados se proporcionan a un administrador de memoria 1030, el cual puede comprender una unidad de procesamiento central. El administrador de memoria 1030 se comunica con una memoria 1020, la cual puede comprender una memoria de acceso aleatorio dinámica (DRAM), por ejemplo. El desplazamiento horizontal x puede comunicarse con los datos de la capa de intensificación o proporcionarse de otra manera en la señal de video estereoscópica. Un cuadro de referencia se construye utilizando los datos de la capa inferior decodificados y el desplazamiento x. El administrador de memoria 1030 también se comunica con un procesador de descompresión/predicción 1040, y recibe los datos de nivel inferior decodificados a través de la terminal 1050, los cuales pueden almacenarse temporalmente en la memoria 1020 para uso subsecuente mediante el procesador 1040 en decodificar las estructuras de la capa de intensificación predichas por disparidad. El procesador de descompresión/predicción 1040 proporciona una variedad de funciones de procesamiento tales como, corrección y detección de errores, decodificación del vector de movimiento, cuantificación inversa, transformación de coseno discreta inversa, decodificación de Huffman y cálculos de predicción, por ejemplo. Después de procesarse mediante la función de descompresión/predicción 1040, los datos de la capa de intensificación decodificados se emiten mediante el administrador de memoria. Alternativamente, los datos descodificados pueden emitirse directamente • a partir de la función de descompresión/predicción 1040 a través de medios no mostrados. Una estructura análoga puede utilizarse para la capa inferior. Además, los decodificadores de la capa de intensificación e inferior pueden compartir el hardware común. Por ejemplo, la memoria 1020 y el procesador 1040 puede compartirse. Los resultados de la prueba concuerdan en que la técnica de estimación de desplazamiento de vista de la presente invención puede mejorar efectivamente la eficiencia de codificación para las señales de video estereoscópicas. La técnica de estimación de desplazamiento se implemento en un programa MVP de MPEG-2 y se corrió a través de las secuencias de prueba de video Clase D de ISO/IEC JTC1/SC29/WG11/MPEG-4 y algunas otras secuencias. Los ejemplos de los resultados de la prueba con un rango de búsqueda de desplazamiento de X=20 pixeles, se muestran en la Tabla 1. La mejora en la eficiencia de codificación sobre MVP en bits/cuadros varía de 2.0 a 5.2%. PSNR indica la proporción máxima de señal a ruido. Todos los tipos de estructura son estructuras P.
TABLA 1 Además, las mejoras en la eficiencia de codificación puede lograrse al utilizar un umbral T a cero del macrobloque residual después de la compensación, o cero de los coeficientes de DCT de frecuencia algo elevada. Como puede observarse, la presente invención proporciona un sistema para estimar el desplazamiento óptimo x de una escena entre vistas de canal, izquierda y derecha, en el mismo punto de referencia temporal. El sistema reduce el rango de búsqueda del vector de movimiento para la predicción de disparidad (es decir, canal cruzado o capa cruzada) para mejorar la eficiencia de codificación. El desplazamiento puede recalcularse cuando existe un cambio de escena o un nuevo grupo de estructuras en la capa inferior. En un codificador, el desplazamiento óptimo, x, entre la imagen de capa de intensificación y la imagen de capa inferior, se determina de acuerdo a cualquier error promedio mínimo entre las imágenes de la capa de intensificación e inferior, o un error cuadrado promedio mínimo entre las imágenes de la capa de intensificación e inferior. El desplazamiento x se une mediante un rango de búsqueda de desplazamiento x. Las columnas x de pixeles más a la derecha de la imagen de capa inferior se cancelan, y las columnas x más a la izquierda de la imagen de capa inferior se rellenan para desplazar efectivamente la imagen de capa inferior a la derecha mediante x pixeles, para obtener la imagen de referencia para utilizarse en predecir por disparidad la imagen de capa de intensificación. Para imágenes formadas arbitrariamente tales como, VOPs, un VOP en una imagen de vista izquierda se desplaza a la derecha, al cancelar los x pixeles más a la izquierda que se extienden verticalmente en el VOP, y rellenar con x pixeles comenzando en el borde más a la derecha del VOP. El cuadro de referencia se busca para obtener la mejor comparación de macrobloques, y los datos de vista derecha se codifican de manera diferencial. En un decodificador, el valor de desplazamiento x se recupera si se encuentra disponible y se utiliza para reconstruir la imagen de referencia para la predicción por disparidad. Aunque la invención se ha descrito en relación con diversas modalidades específicas, aquellos expertos en la materia apreciarán que pueden hacerse numerosas adaptaciones y modificaciones a la misma sin apartarse del espíritu y alance de la invención, como se establece en las reivindicaciones.

Claims (2)

  1. NOVEDAD DE LA INVENCIÓN Habiendo descrito la presente invención se considera como novedad y por lo tanto se reclama como propiedad lo descrito en las siguientes reivindicaciones. 1. Un método para predecir una imagen de capa de intensificación en una capa de intensificación de una señal de video estereoscópica, utilizando una imagen de capa inferior en una capa inferior de la misma, que comprende las etapas de: determinar un desplazamiento óptimo, x, entre dicha imagen de capa de intensificación y dicha imagen de capa inferior de acuerdo a uno de (a) un error promedio mínimo entre valores del pixel de dicha imagen de capa de intensificación y dicha imagen de capa inferior, y (b) un error cuadrado promedio mínimo entre valores de pixeles de dicha imagen de capa de intensificación y dicha imagen de capa inferior; y desplazar dicha imagen de capa inferior de acuerdo a dicho desplazamiento óptimo para obtener una imagen de referencia para utilizarse en la predicción por disparidad de la imagen de capa de intensificación.
  2. 2. El método según la reivindicación 1, caracterizado porque: la imagen de capa de intensificación se predice por disparidad a partir de dicha imagen de referencia utilizando la compensación de movimiento; y se obtiene una mejor comparación de imagen en dicha imagen de intensificación y dicha imagen de capa inferior se forman v arbitrariamente . 25 7. El método según la reivindicación 6, 11. El método según una de las reivindicaciones precedentes, caracterizado porque comprende la etapa adicional de: transmitir dicho desplazamiento óptimo x en dicha señal de video estereoscópica para utilizarse por un decodificador en recrear la imagen de referencia. 12. El método según una de las reivindicaciones precedentes, caracterizado porque para dicho error promedio mínimo, dicho desplazamiento óptimo x se determina de tal manera que el valor , i (w-x-lXh-l),, Dist_L(x) = — ? ? |yL(i+x,j)-yE(i,j) h (w-x) ?=0 3=0 I l se minimiza, en donde yL y ye representan valores del pixeles de luminancia de las imágenes de la capa inferior y de intensificación, respectivamente, i y j son coordenadas Cartesianas, horizontal y vertical, respectivamente, en las imágenes de la capa inferior y de intensificación, h es la altura de la imagen de capa inferior, w es la anchura de la imagen de capa inferior, dicha imagen de capa inferior es una imagen de vista izquierda y dicha imagen de capa de intensificación es una imagen de vista derecha. 13. El método según la reivindicación 12, caracterizado porque para dicho error promedio mínimo, un desplazamiento óptimo para los valores del pixel de crominancia es Lx/2_|. 14. El método según una de las reivindicaciones 1 a 11, caracterizado porque para dicho error cuadrado promedio mínimo, dicho desplazamiento óptimo x se determina de tal manera que el valor ! ( (ww--xx--DD((hhh---lll))), i? Dist L2(x) = ? 2 (i+x,j)-yE(i,j) } h( -x) i=0 1tj ? yL ===o l se minimiza, en donde y y ye representan los valores de pixeles de luminancia de las imágenes de la capa inferior y de intensificación, respectivamente, i y j son coordenadas Cartesianas, horizontal y vertical, respectivamente, en las imágenes de la capa inferior y de intensificación, h es la altura de la imagen de capa inferior, w es la anchura de la imagen de capa inferior, dicha imagen de capa inferior es una imagen de vista izquierda y dicha imagen de capa de intensificación es una imagen de vista derecha. 15. El método según la reivindicación 14, caracterizado porque para dicho error cuadrado promedio mínimo, un desplazamiento óptimo para los valores del pixel de crominancia es Lx/2_|. 16. Un aparato para predecir una imagen de capa de intensificación en una capa de intensificación de una señal de video estereoscópica utilizando una imagen de capa inferior en una capa inferior de la misma, caracterizado porque comprende: medios para determinar un desplazamiento óptimo x, entre dicha imagen de capa de intensificación y dicha imagen de capa inferior de acuerdo a uno de (a) un error promedio mínimo entre valores de pixel de dicha imagen de capa de intensificación y dicha imagen de capa inferior, y (b) un error cuadrado promedio mínimo entre valores de pixel de dicha imagen de capa de intensificación y dicha imagen de capa inferior; y medios para desplazar dicha imagen de capa inferior de acuerdo a dicho desplazamiento óptimo para obtener una imagen de referencia para utilizarse en predecir por disparidad la imagen de capa de intensificación. ' 17. El aparato según la reivindicación 16, caracterizado porque la imagen de capa de intensificación se predice por disparidad a partir de dicha imagen de referencia, utilizando compensación de movimiento; y se obtiene una mejor comparación de imagen en dicha imagen de referencia utilizando un rango de búsqueda, el cual se reduce en relación a un rango de búsqueda de dicha imagen de capa inferior sin dicho desplazamiento. 18. El aparato según las reivindicaciones 16 o 17, caracterizado porque comprende además: medios para determinar un desplazamiento estimado de acuerdo a al menos uno de un parámetro de enfoque de la cámara y una separación inter-ocular; y medios para la búsqueda dentro de dicha imagen de capa inferior en un rango determinado por dicho desplazamiento estimado para encontrar dicho desplazamiento óptimo. 19. El aparato según una de las reivindicaciones 16 a 18, que comprende además: medios para la búsqueda pixeles. 24. El aparato según una de las reivindicaciones 16 a 23, caracterizado porque comprende además medios para: (a) determinar un nuevo desplazamiento óptimo x cuando se detecta un desplazamiento de escena para la imagen de capa inferior; y (b) si no se detecta un cambio de escena, utilizar un desplazamiento de una imagen previa en dicha capa inferior como dicho desplazamiento óptimo x. 25. El aparato según una de las reivindicaciones 16 a 24, caracterizado porque: se determina un nuevo desplazamiento óptimo x para un nuevo grupo de estructuras en la capa inferior. 26. El aparato según una de las reivindicaciones 16 a 25, caracterizado porque comprende además medios para transmitir dicho desplazamiento óptimo x en dicha señal de video estereoscópica para utilizarse por un decodificador en recrear la imagen de referencia. 27. El aparato según la reivindicación 16, caracterizado porque para dicho error promedio mínimo, dicho desplazamiento óptimo x se determina de tal manera que el valor Dist (i,j) se minimiza, en donde yL y ye representan valores de pixel de luminancia de las imágenes de la capa inferior y de intensificación, respectivamente, i y j son coordenadas Cartesianas, horizontal y vertical, respectivamente, en las imágenes de la capa inferior y de intensificación, h es la altura de la imagen de capa inferior, w es la anchura de la imagen de capa inferior, dicha imagen de capa inferior es una imagen de vista izquierda y dicha imagen de capa de intensificación es una imagen de vista derecha. 28. El aparato según la reivindicación 27, caracterizado porque para dicho error promedio mínimo, un desplazamiento óptimo para los valores del pixel de crominancia es Lx/2_|. 29. El aparato según una de las reivindicaciones 16 a 25, caracterizado porque para dicho error cuadrado promedio mínimo, dicho desplazamiento óptimo x se determina de tal manera que el valor Dist se minimiza, en donde yL y YE representan los valores de pixeles de luminancia de las imágenes de la capa inferior y de intensificación, respectivamente, i y j son coordenadas Cartesianas, horizontal y vertical, respectivamente, en las imágenes de la capa inferior y de intensificación, h es la altura de la imagen de capa inferior, w es la anchura de la imagen de capa inferior, dicha imagen de capa inferior es una imagen de vista izquierda y dicha imagen de capa de intensificación es una imagen de vista derecha. 30. El aparato según la reivindicación 29, caracterizado porque para dicho error cuadrado promedio mínimo, un desplazamiento óptimo para los valores de pixel de crominancia es Lx/2_|. 31. Un decodificador para predecir una imagen de capa de intensificación en una capa de intensificación de una señal de video estereoscópica utilizando una imagen de capa inferior en una capa inferior de la misma, que comprende: medios para recuperar un desplazamiento óptimo, x, entre dicha imagen de capa de intensificación y dicha imagen de capa inferior a partir de dicha señal de video estereoscópica; determinándose dicho desplazamiento óptimo x en un codificador de acuerdo a uno de (a) un error promedio mínimo entre los valores del pixel de dicha imagen de capa de intensificación y dicha imagen de capa inferior, y (b) un error cuadrado promedio mínimo entre los valores de pixel de dicha imagen de capa de intensificación y dicha imagen de capa inferior; y medios para desplazar dicha imagen de capa inferior de acuerdo a dicho desplazamiento óptimo para obtener una imagen de referencia para utilizarse en predecir por disparidad la imagen de capa de intensificación. 32. El decodificador según la reivindicación 31, caracterizado porque la imagen de capa de intensificación se predice por disparidad a partir de dicha imagen de referencia utilizando la compensación de movimiento; y se obtiene una mejor comparación de imagen en dicha imagen de con x columnas del pixeles. 37. El decodificador según una de las reivindicaciones 31 a 36, caracterizado porque para dicho error promedio mínimo, dicho desplazamiento óptimo x se determina de tal manera que el valor - i (w-x-l)(h-l)u Dist Lx(x) = — ? ? (yL(i+x,j)-yE(i,j) - h(w-x) i=0 j=0 I l se minimiza, en donde yL y yE representan valores de pixeles de luminancia de las imágenes de la capa inferior y de intensificación, respectivamente, i y j son coordenadas Cartesianas, horizontal y vertical, respectivamente, en las imágenes de la capa inferior y de intensificación, h es la altura de la imagen de capa inferior, w es la anchura de la imagen de capa inferior, dicha imagen de capa inferior es una imagen de vista izquierda y dicha imagen de capa de intensificación es una imagen de vista derecha. 38. El decodificador según la reivindicación 37, caracterizado porque para dicho error promedio mínimo, un desplazamiento óptimo para los valores del pixel de crominancia es Lx/2_|. 39. El decodificador según una de las reivindicaciones 31 a 36, caracterizado porque para dicho error cuadrado promedio mínimo, dicho desplazamiento óptimo x se determina de tal manera que el valor Dist se minimiza, en donde yL y yE representan valores de pixel de luminancia de las imágenes de la capa inferior y de intensificación, respectivamente, i y j son coordenadas Cartesianas, horizontal y vertical, respectivamente, en las imágenes de la capa inferior y de intensificación, h es la altura de la imagen de capa inferior, y w es la anchura de la imagen de capa inferior, dicha imagen de capa inferior es una imagen de vista izquierda y dicha imagen de capa de intensificación es una imagen de vista derecha. 40. El decodificador según la reivindicación 39, caracterizado porque para dicho error cuadrado promedio mínimo, un desplazamiento óptimo para los valores del pixel de crominancia es L.x/2_). RESUMEN En un sistema de transmisión de video estereoscópico, en donde una imagen de capa de intensificación se predice por disparidad utilizando una imagen de capa inferior, se hace que la imagen de capa inferior se iguale de manera más cercana a la imagen de capa de intensificación al desplazar la imagen de capa inferior a la derecha para compensar la separación interocular de las lentes de la cámara. El rango de búsqueda del vector de movimiento para la predicción de disparidad se reduce para mejorar la eficiencia de codificación. En un codificador, el desplazamiento óptimo, x, entre la imagen de capa de intensificación y la imagen de capa inferior se determina de acuerdo a ya sea un error promedio mínimo o un error cuadrado promedio mínimo entre las imágenes de la capa de intensificación e inferior. El desplazamiento x se limita mediante un rango de búsqueda de desplazamiento X. Las x columnas de pixeles más a la derecha de la imagen de capa inferior se cancelan, y las x columnas más a la izquierda de la imagen de capa inferior se rellenan para desplazar de manera efectiva la imagen de capa inferior a la derecha mediante x pixeles, para obtener la imagen de referencia para utilizarse en predecir por disparidad la imagen de capa de intensificación. Para imágenes formadas arbitrariamente tales como VOPs dentro de un cuadro, la porción más a la izquierda se cancela y la porción más a la derecha se rellena. En un decodificador, el valor de desplazamiento x se recupera si se encuentra disponible y se utiliza para reconstruir el cuadro de referencia.
MXPA/A/1998/009262A 1997-11-07 1998-11-06 Estimacion del desplazamiento de vista para la codificacion de video esteroscopico MXPA98009262A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08966277 1997-11-07
US08/966,277 US6043838A (en) 1997-11-07 1997-11-07 View offset estimation for stereoscopic video coding

Publications (2)

Publication Number Publication Date
MX9809262A MX9809262A (es) 2007-02-27
MXPA98009262A true MXPA98009262A (es) 2007-05-02

Family

ID=

Similar Documents

Publication Publication Date Title
US6043838A (en) View offset estimation for stereoscopic video coding
US5652616A (en) Optimal disparity estimation for stereoscopic video coding
US8644386B2 (en) Method of estimating disparity vector, and method and apparatus for encoding and decoding multi-view moving picture using the disparity vector estimation method
US6404814B1 (en) Transcoding method and transcoder for transcoding a predictively-coded object-based picture signal to a predictively-coded block-based picture signal
CA2238900C (en) Temporal and spatial scaleable coding for video object planes
US5886736A (en) Synchronization of a stereoscopic video sequence
US6072831A (en) Rate control for stereoscopic digital video encoding
US8204133B2 (en) Method and apparatus for encoding and decoding multi-view video using image stitching
EP1119975B1 (en) Motion vector detection with local motion estimator
US5438374A (en) System and method for filtering video signals
EP1993292B1 (en) Dynamic image encoding method and device and program using the same
US20070104276A1 (en) Method and apparatus for encoding multiview video
US20060177123A1 (en) Method and apparatus for encoding and decoding stereo image
JP2007180981A (ja) 画像符号化装置、画像符号化方法、及び画像符号化プログラム
KR100738867B1 (ko) 다시점 동영상 부호화/복호화 시스템의 부호화 방법 및시점간 보정 변이 추정 방법
WO2007035054A1 (en) Method of estimating disparity vector, and method and apparatus for encoding and decoding multi-view moving picture using the disparity vector estimation method
US8704932B2 (en) Method and system for noise reduction for 3D video content
JP2007180982A (ja) 画像復号装置、画像復号方法、及び画像復号プログラム
Yang et al. An MPEG-4-compatible stereoscopic/multiview video coding scheme
Adolph et al. 1.15 Mbit/s coding of video signals including global motion compensation
KR100737808B1 (ko) 2차원 구조의 다시점 영상 압축 방법
Ding et al. Stereo video coding system with hybrid coding based on joint prediction scheme
MXPA98009262A (es) Estimacion del desplazamiento de vista para la codificacion de video esteroscopico
Song Improved disparity estimation algorithm with MPEG-2's scalability for stereoscopic sequences
El-Shafai et al. Computer and Information Sciences