MXPA03006662A

MXPA03006662A - Procedimientos de codificacion y decodificacion de imagenes, dispositivos y aplicaciones correspondientes.

Info

Publication number: MXPA03006662A
Application number: MXPA03006662A
Authority: MX
Inventors: Laurent-Chantenet Nathalie
Original assignee: France Telecom
Priority date: 2001-01-26
Filing date: 2002-01-25
Publication date: 2004-10-15
Also published as: FR2820256A1; CA2435933A1; FR2820256B1; CA2435933C

Abstract

La presente invencion se refiere a un metodo para la codificacion de imagenes utilizando selectivamente cuando menos dos modos de codificacion de imagenes, cada uno optimizando la compresion de cuando menos una secuencia de imagenes de video sobre la base de diferentes criterios de optimizacion.

Description

PROCEDIMIENTOS DE CODIFICACIÓN Y DESCODIFICACION DE IMÁGENES, DISPOSITIVOS Y APLICACIONES CORRESPONDIENTES . CAMPO DE LA INVENCIÓN El dominio técnico de la invención es el de la codificación mediante la reducción de la tasa de transferencia de bitios de secuencias de imágenes animadas, particularmente video .

ANTECEDENTES DE LA INVENCIÓN Existe un gran número de aplicaciones de la codificación de video. Estas incluyen (la lista no es exhaustiva) : -la transmisión de TV digital -la transmisión de video en tiempo real, en varios tipos de redes: P, móvil, ("IP de flujo continuo") -el almacenamiento de video en computadoras. La invención puede aplicarse, en particular, dentro de la red de sistemas que implementa la codificación del tipo MPEG. Codificación del tipo MPEG significa codificación basada en la predicción temporal y en la transformación cosenoidal discreta basada en una estructura de bloques duros, a menudo con un tamaño fijo, pero posiblemente con un tamaño variable. Los dos estándares representativos para esta familia de codificación son los estándares MPEG-4 de las versiones de la 1 a la 4 y el ITU-T/H.263 hasta la versión 2. La invención puede aplicarse también dentro de la red de la recomendación H26L de la CCITT (por ejemplo, ver el documento VCEG-N83dl correspondiente) . Los diagramas de codificación y descodificación de video ofrecidos comúnmente se dividen en dos categorías : La codificación estandarizada ya sea por ISO/MPEG, o por ITU-T, todas basadas en el mismo tipo de técnicas (la predicción temporal y la transformación cosenoidal discreta basada en una estructura de bloques) - La codificación bajo desarrollo, ofrecida por los laboratorios de investigación que invocan un gran panel de técnicas: codificación de tren de ondas, codificación regional, codificación fractal, codificación por enmallado, etc. Comúnmente, la codificación MPEG-4 se considera el estándar comercial, no únicamente en la codificación estandarizada, sino que también en términos de la codificación publicada. Se considera que la codificación del tipo MPEG-4 o ITU-T/H.263++ alcanzó sus limitaciones, en particular debido a la estructura de bloques duros, de tamaño fijo, usada como soporte para todos los cálculos y operaciones de la codificación. En particular, la predicción temporal de imágenes dentro de una secuencia no es explotada en forma suficiente. Además, la codificación alternativa, publicada, no ha alcanzado todavía un grado de optimización suficiente. Por lo tanto, para permitir que se obtengan secuencias de video codificadas, con tasas de transferencia de bitios bajas, los codificadores reducen normalmente el tamaño de las imágenes y crean submuestras temporales de la secuencia de video original. No obstante, la segunda técnica tiene la inconveniencia de reestablecer movimientos erráticos que son más o menos problemáticos para el usuario, dependiendo del nivel de la submuestra . Para evitar estos movimientos erráticos, las imágenes faltantes (no codificadas) deben ser regeneradas en el descodificador usando interpolación temporal . No obstante, las técnicas actuales para la interpolación temporal de imágenes no permiten obtener resultados satisfactorios, particularmente cuando se implementan en un solo descodificador . En efecto, estas técnicas son la fuente de artefactos visuales relacionados con las técnicas de compensación de movimiento basadas en bloques que definen únicamente un solo vector de movimiento para todos los elementos de imagen de un bloque. El propósito de la invención es, específicamente, remediar las limitaciones de las técnicas previas . En forma más precisa, un objetivo de la invención es proporcionar una técnica para codificar y descodificar datos de imágenes, que permita que se obtenga una tasa de transferencia de bitios reducida y/o una calidad de la imagen regenerada, mejorada, con respecto a las técnicas conocidas. Este objetivo se consigue, de conformidad con la invención, con la ayuda de un procedimiento de codificación de imágenes, que implementa selectivamente al menos dos métodos de codificación de imágenes, cada uno de los cuales optimiza la compresión de al menos una imagen de secuencia de video, dependiendo de varios criterios de optimización. De acuerdo con varias modalidades benéficas, la información concerniente a la elección de uno de los modos de codificación, de un descodificador, puede ser conocida por un descodificador, de acuerdo con al menos una de las técnicas que pertenezca al grupo que comprende las siguientes: - elección predefinida, conocida en el nivel de codificación y descodificación; información representativa de la elección incluida en el flujo de datos compuesto de al menos algunos datos de imágenes codificadas; información representativa de la elección incluida en el flujo de datos sin importar los datos de imágenes codificadas; - la determinación de la elección, en una manera predefinida por el descodificador . Benéficamente, el procedimiento involucra una fase para seleccionar un modo de codificación para aplicarlo a la imagen, el cual incluye al menos : una codificación inicial que optimiza la representación fotometrica de una imagen; una segunda codificación que optimiza una representación del movimiento entre al menos dos imágenes. Como tal, la presente invención involucra un nuevo procedimiento de codificación de video, mediante la hibridación de la codificación, en particular la codificación del tipo MPEG y la codificación que usa la interpolación temporal basada en una representación por enmallado, así como el procedimiento de descodificación y la estructura de la representación binaria asociada. Preferentemente la segunda codificación toma en cuenta al menos una imagen previa y/o al menos una imagen subsecuente codificada usando la primera codificación. Benéficamente, la segunda codificación toma en cuenta un campo de vectores de movimiento calculado a partir de la imagen inmediatamente precedente, codificada usando la codificación inicial y/o un campo de vectores de movimiento, calculado a partir de la imagen inmediatamente subsecuente, usando la codificación inicial. Benéficamente, estos campos de vectores de movimiento se aplican al enmallado. En este caso, los campos de vectores de movimiento pueden ser usados para determinar un campo de vectores de movimiento, reducido, asociado con una imagen codificada usando la segunda codificación. De acuerdo con una modalidad preferencial de la invención, la fase de selección se basa en la implementacion de una submuestra de N factores fijos, en donde una imagen en N se codifica usando la codificación inicial . Benéficamente, este valor M es variable, dependiendo de al menos un criterio predefinido. De acuerdo con una modalidad específica, la codificación inicial implementa una transformación en bloques de imágenes y una predicción temporal mediante los bloques. Esta transformación es, por ejemplo, una transformación del tipo DCT, una transformación de Hadamard, una transformación de tren de ondas, etc. Se observará que los bloques de imágenes no son necesariamente cuadrados, sino que pueden tener cualquier forma adaptada a las necesidades y medios disponibles . Esta codificación inicial puede ser, en particular, la codificación MPEG-4 o H26L. En el caso de la última, es preferible usar imágenes del tipo I (intra) y/o imágenes del tipo P (predecibles) (y preferentemente imágenes que no sean del tipo B) .

De acuerdo con otro aspecto particular de la invención, la segunda codificación se basa benéficamente en la implementación de un enmallado jerárquico de nivel , en donde M es mayor o igual que 1, y, por ejemplo, un enmallado triangular. En este caso, el procedimiento involucra preferentemente una fase de manejo de las áreas de oclusión, o áreas de supresión. Los datos producidos pueden ser agrupados en un solo flujo. Benéficamente, se pueden esperar al menos dos flujos de datos que puedan ser trasmitidos en rutas de transmisión independientes . Benéficamente, los flujos de datos pertenecen al grupo que comprende : - un encabezado global; - datos de imágenes codificadas de acuerdo con la codificación inicial; - datos de imágenes codificadas de acuerdo con la segunda codificación. Por lo tanto, la transmisión del flujo puede llevarse a cabo independientemente. En particular, esto permite la descodificación progresiva y/o parcial de imágenes, dependiendo de los medios y de las necesidades . Por lo tanto, de acuerdo con una modalidad particular de la invención, se explotan los siguientes aspectos : La optimización realizada mediante módulos constitutivos de codificación estandarizada del tipo MPEG o ITU-T/H.263 La poderosa codificación por predicción temporal y error relacionado, para técnicas basadas en enmallado . En efecto, el enfoque basado en el enmallado ayuda a evitar los efectos de bloques normales, gracias al uso de campos de movimiento continuo. Además, la técnica de enmallado permite que se detecten "objetos" de supresión, así como la codificación de errores, que es adaptada apropiadamente a estas áreas. Además, combinando la codificación de errores del tipo MPEG, alrededor de estas áreas, puede mejorarse sustancialmente la eficiencia de la interpolación, con un costo mucho menor que para las imágenes bidireccionales (imágenes del tipo B) ofrecidas por la codificación del tipo MPEG. Por lo tanto, la información básica puede ser codificada eficientemente con baja resolución temporal, usando la codificación del tipo MPEG, con buena calidad, y todo el flujo de la secuencia puede reestablecerse después usando la codificación en el modo interpolado, mediante enmallado. La invención involucra también, por supuesto: - procedimientos para descodificar una señal de imagen codificada usando el procedimiento de codificación descrito anteriormente; procedimientos para codificar una señal de imagen codificada usando el procedimiento de codificación descrito anteriormente; - dispositivos para descodificar una señal de imagen codificada usando el procedimiento de codificación descrito anteriormente (incluyendo, en forma benéfica, medios para determinar al menos parte de un campo vectorial y/o al menos una parte de las áreas de supresión, similares a aquellas implementadas durante la codificación; - dispositivos para almacenar al menos una señal de imagen codificada usando el procedimiento de codificación descrito anteriormente; sistemas de codificación, transmisión y/o descodificación, de una señal de imagen codificada usando el procedimiento de codificación descrito anteriormente (la elección de uno de los modos de codificación puede ser conocida benéficamente por un descodificador, de acuerdo con al menos una de las técnicas que pertenecen al grupo, que comprende las siguientes: elección predefinida, conocida durante la codificación y la descodificación; información representativa de la elección incluida en un flujo de datos que comprenda al menos algunos de los datos de imágenes codificadas; información representativa de la elección incluida en un flujo de datos, sin importar los datos de imágenes codificadas; determinación de la elección en una manera intrínseca, por parte del descodificador; los productos-programas de computadora para codificar y/o descodificar una señal de imagen codificada usando el procedimiento de codificación; - soporte de datos para ese programa. La invención involucra también señales de datos de imágenes que comprenden datos codificados de acuerdo con el procedimiento descrito anteriormente. En forma benéfica, esta señal comprende al menos un indicador que especifica si el procedimiento ha sido activado o no .

Preferentemente, la señal comprende datos que especifican la estructura de cuadros, al inicio de la secuencia de video y/o en cada cuadro de señal. Benéficamente, una secuencia que sea codificada usando la segunda codificación, empieza con un encabezado que indica el número de cuadros codificados de acuerdo con esta segunda codificación. De conformidad con una modalidad específica, la señal comprende al menos dos flujos de datos, que pueden ser transmitidos en rutas de transmisión separadas. En este caso, los flujos de datos pertenecen benéficamente al grupo que comprende: - un encabezado global; - datos de imágenes codificadas de acuerdo con la codificación inicial ,- - datos de imágenes codificadas de acuerdo con la segunda codificación. La invención encuentra aplicaciones en varios dominios y, en particular, en dominios que pertenecen al grupo que comprende : - TV digital; - video en tiempo real a través de la red IP; - video en tiempo real a través de la red para dispositivos móviles; - almacenamiento de datos de imágenes .

BREVE DESCRIPCIÓN DE LOS DIBUJOS Otras características y ventajas de la invención serán más evidentes al leer la descripción de una modalidad preferente de la invención, proporcionada como un ejemplo no limitativo, ilustrado en forma simple, así como los dibujos anexos en los que : - la figura 1 es un diagrama esquemático de la codificación de la invención; - la figura 2 ilustra un ejemplo de la estructura de enmallado jerárquico, para el movimiento; la figura 3 ilustra el principio de interpolación afín, en una malla triangular; - la figura 4 es un ejemplo de supresión detectada por triángulos de cobertura; la figura 5 ilustra el proceso de transformación de cualquier triángulo de imagen en una matriz cuadrada simétrica; - la figura 6 ilustra la transformación de cualquier triángulo en un triángulo isósceles rectángulo - la figura 7 ilustra un enmallado jerárquico y la representación mediante el árbol cuaternario relacionado; - la figura 8 es un ejemplo de una decisión de codificación para el enmallado jerárquico,- - la figura 9 ilustra la estructura global de una cadena binaria de acuerdo con la invención; - la figura 10 ilustra un diagrama de bloques de un descodificador de conformidad con la invención. La modalidad de la invención descrita posteriormente, consiste esencialmente en la hibridación de la codificación del tipo MPEG, por ejemplo la MPEG-4, usando la codificación por enmallado, que opera en el modo interpolado, llamado también modo B o imágenes B en los estándares MPEG. Deberá observarse que la codificación MPEG-4 mencionada aqui, puede ser reemplazada por cualquier codificador basado en técnicas equivalentes, es decir, usando una predicción temporal y la transformación cosenoidal discreta basada en una estructura de bloques, y cuantificaciones y codificación entrópica para la información generada. En particular, la codificación ITU-T/H .263++ puede ser sustituida por la codificación MPEG-4. Para cada imagen de la secuencia que entra al codificador, el codificador decide de acuerdo con un proceso de toma de dediciones específico (por ejemplo, submuestreo temporal de factores fijos) del codificador, con el módulo de codificación MPEG-4, o con el módulo de codificación basada en enmallado . Las imágenes codificadas en el modo de enmallado usan, como una referencia para su predicción temporal, imágenes codificadas en el modo MPEG-4 localizadas inmediatamente antes o inmediatamente después del grupo de imágenes codificadas en el modo de enmallado al cual pertenecen. El punto clave de la eficiencia de la compresión, de la invención, es que la compensación de movimiento basada en el enmallado, conduce a una predicción temporal muy poderosa, con un costo de codificación asociado, muy bajo. En efecto, esta técnica: toma en cuenta varios tipos de movimiento dentro de las imágenes . - específicamente procesa el tapado y destapado de áreas, debido al movimiento de los objetos. La figura 1 proporciona una revisión general del principio del codificador. Primero, las imágenes entrantes son dirigidas ya sea al módulo de codificación MPEG o al módulo de codificación basado en enmallado, de acuerdo con un método de decisión determinado, por ejemplo, con un ritmo predefinido: 1 imagen en N se codifica en MPEG, y el resto se codifican en el modo interpolado por enmallado . Obsérvese que Nk representa el número de imágenes codificadas en el modo MPEG. Todas las otras IkN<l<NK+i imágenes se codifican mediante un codificador basado en enmallado, por ejemplo triangular, que opera en un modo interpolado, llamado modo B. El principio general de este codificador es como sigue: 1. El cálculo de los campos de movimiento antes y después, entre las imágenes k y Nk+X. Estos campos son modelados en la forma de enmallados triangulares. 2a. Estimación de áreas predecibles : durante la interpolación, se estima el movimiento entre It e It' . Si la aplicación del vector de movimiento no conduce a una conversión (lo cual significa que se trata de un área predecible) , la compensación del movimiento se lleva a cabo ponderando los vectores usando el escalar k(0 <k < 1) a fin de interpolar lt+k en donde t+k pertenece a ]t, t' [. Existen tres posibles enfoques a la compensación del movimiento, como se describe posteriormente . 2b. La estimación de áreas no predecibles: la detección de áreas de supresión no predecibles, en II imágenes que vayan a ser codificadas, a partir del conocimiento de estos campos de movimiento . 3. La codificación especifica de estas áreas de supresión, de acuerdo con uno de los siguientes tres modos posibles : - Predicción con una de las imágenes de referencia (Nk, N¾+1, o estas imágenes compensadas durante el movimiento con sus campos de movimiento) sin compensación de movimiento, y después codificando el error de predicción con una técnica basada en enmallado triangular. - Predicción con una de las imágenes de referencia (]¾, ?¾+?, o estas imágenes compensadas durante el movimiento con sus campos de movimiento) con compensación de movimiento intra-imágenes, y luego codificando el error de predicción con una técnica basada en enmallado triangular. - La codificación intra- imágenes , basada en una técnica basada en el enmallado triangular. 4. Opcionalmente, la codificación del tipo MPEG en el modo P, de la codificación o error de predicción residual, limitada a un área alrededor del área de supresión. Como se mencionó anteriormente, la compensación del movimiento puede llevarse a cabo usando tres enfoques: con un estimado antes, con un estimado después o con un estimado antes y un estimado después . 1) con un estimado antes: Durante la interpolación, se estima el movimiento entre Itl e It2 . Si la aplicación del vector de movimiento no conduce a una conversión (que corresponda a las áreas predecibles) , entonces la compensación de movimiento se lleva a cabo ponderando los vectores con el escalar k= m/ (tl+t2) (0<k<l) a fin de interpolar Im en donde m pertenece a [ti, t2] . Se obtiene la imagen estimada El. 2) con un estimado después: Durante la interpolación, se estima el movimiento entre It2 e Iti. Si la aplicación del vector de movimiento no conduce a una conversión (que corresponda a las áreas predecibles) , entonces la compensación de movimiento se lleva a cabo ponderando los vectores con el escalar k' = 1-m/ (tl-t2) (0<k'<l) a fin de interpolar Im en donde m pertenece a [ti, t2] . Se obtiene la imagen estimada E2. 3) con ambos estimados: Durante la interpolación, se estima el movimiento entre Iti e It2 Y entre It2 e Itl. Si la aplicación del vector de movimiento no conduce a una conversión (que corresponda a las áreas predecibles) , entonces la compensación de movimiento se lleva a cabo ponderando los vectores "antes" con el escalar (0<k<l) , y se obtiene El. Se hace lo mismo con los vectores "después" usando el escalar k' (0<k'<l) , y se obtiene E2. La imagen estimada es entonces E=aEl+ (1-a) E2 en donde (0<a<l) . Cada 2 bitios se toma la mejor solución después de calcular la PSNR entre la solución estimada y la imagen fuente relacionada. 1. Cálculo de los campos de movimiento antes y después, entre imágenes I¾ y MK+i Los campos de movimiento antes y después, entre las imágenes Mk y N+i, se calculan en la forma de enmallado jerárquico, por ejemplo triangular, t y Tbk+1 como se indica en la figura 2. Estos enmallados se obtienen dividiendo ciertas mallas, por ejemplo, las mallas triangulares se dividen en 4 subtriángulos, de acuerdo con un criterio específico durante el proceso de estimación del movimiento. En cada nivel jerárquico, se toman o no decisiones de división para cada malla. Una vez que se han decidido estas divisiones, las mallas adyacentes de las mallas divididas se dividen a fin de mantener una estructura de enmallado, uniforme. El enmallado inicial, antes de la división (la parte superior de la jerarquía) puede tomar cualquier forma. En el ejemplo que se encuentra en la figura 2, el estimador de movimiento decide dividir los triángulos 3 y 8. Esto conduce a la división de los triángulos 2, 4, 7, y 9. El proceso se repite hasta un nivel de jerarquía predefinido. En el caso de enmallados triangulares, la expresión del campo de movimiento, definida por el enmallado triangular T, está dada para cada triángulo e, por: en donde : e indica el elemento triangular de T que ? contiene el punto actual p de las coordenadas x e y (ver(e) } indica todos los tres nodos o picos, ? ? ? numerados i, j, k de las posiciones ?±, P , y Pk ?? (l=i, j, k) representa las coordenadas baricéntricas del punto p (x, y) en el elemento triangular ei, j, k, en donde : de lo contrario ?/(?,?)=0 Este tipo de modelo define un campo totalmente continuo. Además, permite el control total de la exactitud de la representación, una característica esencial para la compresión. En cada nivel de la jerarquía de enmallado, los vectores del movimiento nodal se calculan a fin de minimizar los errores de predicción. Se pueden usar varios estimadores de movimiento en base a enmallado, por ejemplo aquellos descritos en la patente FR No. 98 11227, o FR No. 99 15568. El punto importante a recordar es que el enmallado final es el resultado de un proceso jerárquico a partir del enmallado inicial por divisiones. Esta naturaleza jerárquica se usa en efecto para sacar ventaja de la codificación diferencial de los vectores de movimiento nodal entre un nodo y sus nodos precursores (los bordes del arco en el que se inserta) . La estructura enmallada se vuelve a calcular en el descodificador, usando el conocimiento del enmallado inicial, así como los indicadores de división de la malla . Por lo tanto, al final del proceso, se obtienen 2 mallas de movimiento, para cada grupo de imágenes compuesto de ?¾ y Nk+i imágenes usadas para regenerar todas las imágenes del grupo . 2. Detección de áreas de supresión A partir de estos 2 enmallados, se detectan las oclusiones en las áreas de supresión, es decir las áreas no predecibles en la Nk imagen obtenida a partir de la Nk+1 imagen o viceversa, del tapado o destapado de objetos. Estas áreas son definidas simplemente por el tapado de triángulos después de que hayan sido movidos por sus vectores nodales . La figura ilustra la detección de supresión básica en el destapado de triángulos después del movimiento. El codificador puede continuar el estimado de movimiento, desactivando los triángulos en las áreas de supresión, a fin de obtener vectores de movimiento que sean menos desviados . No obstante, esta es estrictamente una característica interna de la estrategia del codificador, y finalmente, son los dos enmallados de movimiento completo Tbk y fk+i los que se codifican e insertan en la cadena binaria. El descodificador puede encontrar después las áreas de supresión usando estos 2 enmallados. Estas áreas de supresión se definen en las k y Nk+1 imágenes, y una vez que son detectadas, sus triángulos correspondientes se marcan como un resultado, tanto en el codificador como en el descodificador . No obstante, el codificador debe conocer donde se encuentran estas áreas en las Nk+i y Nk+i-l imágenes. Estas imágenes se obtienen simplemente proyectando los enmallados t y Tfk+i sobre la imagen que se va a codificar, aplicando vectores de movimiento nodal que se vuelven a normalizar para tomar en cuenta la distancia temporal entre la imagen actual y la imagen de referencia ¾ o Nk+i- 3. Codificación del área de supresión Para cada área de supresión, la imagen de referencia para una predicción posible se selecciona entre INK, y IN(K+D / asi como que es la imagen obtenida en 1, mediante la compensación de movimiento con el enmallado Tbk o Tfk+1, en un nivel en el que todavía no haya cobertura de malla. En forma más precisa, la elección entre INK e IU(K+D depende simplemente del enmallado TB¾ o Tfk+i que haya generado el área de supresión actual. Entonces, este enmallado se usa para predecir la imagen y proporcionar Ii. La elección entre Ii e INK o IN(k+i) se basa en un criterio de error de predicción: se mantiene la imagen que cause el error más débil. Por lo tanto, simplemente se trata de insertar 1 bitio en el flujo binario, por área, para codificar la elección de la predicción que se mantuvo . Tomar nota de I , la imagen de referencia seleccionada. El resto de la codificación de estas áreas incluye 2 etapas : - Una etapa de predicción. Una etapa de codificación del error de predicción o de la textura original en el caso de una predicción incorrecta. 3.1 Predicción residual de la textura del área de supresión Se pueden usar tres métodos, en una manera exclusiva. La decisión se basa en el criterio del menor error.

Método 1 : Los valores Y, U y V de un elemento de imagen en el área, son simplemente aquellos del elemento de imagen localizado en la misma imagen de referencia Ix. Es decir, ?? la imagen resultante . El error de predicción entre ? e IX se descodifica después .

Método 2 : Por lo tanto se lleva a cabo un estimado del movimiento entre ?? (la imagen que se va a codificar) e íi (el resultado de la predicción a partir del método 1) sobre el área de supresión. El enmallado resultante, que proviene del último nivel de enmallado Tr, r=k o k+1, antes de que las mallas sean cubiertas, se codifica entonces al igual que sus movimientos nodales. Finalmente, el error de predicción residual se codifica de acuerdo con un procedimiento definido después.

Método 3 : No se lleva a cabo predicción y se codifican los valores originales de los elementos de imagen del área. 4. Codificación de la textura o error de predicción de las áreas de supresión. La textura original y el error de predicción sufren la misma codificación, para lo cual el principio es como sigue: Se asume que se pudo definir un enmallado triangular inicial, a partir del movimiento del enmallado Tr mantenido para la predicción del área que se va a codificar. La forma de obtener esta malla inicial se describirá después. Entonces se logra una aproximación de la textura en cada malla, de acuerdo con una elección: Las mallas con muchas frecuencias altas se codifican en base a la transformación mediante coseno discreto llamada DCT . - Las mallas más suaves se codifican usando un modelo refinado de elementos acabados. Nuevamente, se usará un enfogue jerárquico para reducir el costo de codificar la representación mediante enmallado . El enfoque usado permite que se mantenga un bajo costo de la codificación relacionada con una jerarquía regular de mallas, a la vez que permite la adaptación local de contenidos de imágenes que permite la descomposición irregular de mallas . A partir del enmallado inicial continuo del área, las mallas se subdividen en 4 submallas triangulares, hasta un nivel determinado. En el último nivel se puede implementar una permutación opcional de las diagonales cuadrilaterales generadas por 2 triángulos adyacentes, si esto da por resultado una reducción del error de aproximación. 4.1 Inicialización del enmallado de textura sobre áreas de supresión Este enmallado está dado simplemente por el último nivel Tr (enmallado que resulta del movimiento de Tk o Tk+i, dependiendo de la dirección mantenida) antes de que las conversiones aparezcan en el área bajo consideración. Por lo tanto, se obtiene un enmallado de textura que se inserta naturalmente en el enmallado de movimiento, debido a que se extrae del último . 4.2 Representaciones usadas para la textura en triángulos Se combinan dos representaciones : la interpolación afin y 4 DCT triangulares .

Interpolación afín Los nodos del enmallado triangular contienen la información fotométrica (color, error) y la interpolación para los puntos dentro del triángulo se lleva a cabo mediante un elemento final de Lagrange, llamada también interpolación afín. ? ? El valor v (p) del punto p (x, y) dentro del triángulo ei/:¡jk definido por los 3 nodos p±, 1 = i, j, k está proporcionado por la siguiente ecuación: En donde ?? (1 = i, j, k) representa las coordenadas baricéntricas del punto. ? v (p) puede ser uno de los componentes fotométricos Y, U, o V del punto o del error de predicción para estos componentes . Se pueden usar varios métodos para calcular los valores nodales, en particular, el método de mínimos cuadrados.

Transformación cosenoidal discreta (DCT) en triángulos El principio del método consiste en transformar cualquier triángulo en una referencia de isósceles rectangular. El contenido de este triángulo se vuelve entonces simétrico con respecto a la hipotenusa, para proporcionar una matriz cuadrada simétrica (figura 4) . Por lo tanto, a esta matriz se aplica una DCT clásica (cuadrada) . Puede demostrarse que la matriz transformada también es simétrica. Por lo tanto, únicamente los coeficientes de su triángulo menor son cuantificados entonces y luego son codificados estadísticamente (codificación entrópica) . La figura 4 describe las diferentes etapas del proceso: selección del triángulo T, transformación afín del triángulo T en un triángulo isósceles rectángulo ?" . A través de la transformación afín, los elementos de imagen del triángulo no se encuentran ya localizados sobre una gráfica ortogonal regular, y se recomienda volver a muestrear los valores fotométricos dentro del triángulo de referencia. Para hacerlo así, se usa un proceso similar al proceso para la compensación de movimiento en la imagen (durante la transformación afín) , usando un interpolador, por ejemplo bilineal . La transformación afín F y su inversa F"1 se definen mediante las siguientes ecuaciones: Los valores fotométricos M(i,j) del triángulo ?" (por lo tanto del bloque M que se vuelve simétrico de ?" ) se obtienen mediante la transformación inversa F t, y luego interpolación G de la textura de la imagen por codificar: en donde : el coeficiente M(iy,jx) es el valor en el punto Q(X,Y) e donde la transformada P(x,y) es F'1 (Q) I indica el interpolador usado para calcular el valor de la imagen en el punto, las coordenadas que son potencialmente no enteros . La regeneración G de la textura G está dada por: en donde Ir indica la textura interpolada a partir de los valores del bloque M' , una versión cuantificada de M. Esta técnica únicamente puede aplicarse a triángulos de área no nula. Pero, por definición, este tipo de triángulo no necesita codificación de textura. Contrario a la SADCT (DCT adaptada a una forma) , esta transformación no garantiza la regeneración perfecta después de la transformación inversa, inclusive si no hay cuantificación. A fin de reducir los errores de regeneración, se introduce un factor de escala a para calcular el bloque Mi (de tamaño Ni x i) para el triángulo i : en donde : • E es la parte completa por exceso, • Ai es el área del triángulo i . En efecto, a = 1 permite un compromiso interesante, que es más efectivo para triángulos que sean cercanos a un isósceles. El caso en que a < 1 se usa junto con el paso de cuantificación para comprimir el volumen de información. Una vez que el bloque Mi se encuentra definido para cada triángulo, se les aplica una transformación clásica DCT, y los coeficientes transformados se cuantifican de acuerdo con varios procedimientos posibles, por ejemplo, la cuantificación escalar uniforme, o inclusive la cuantificación por incrementos con la frecuencia del coeficiente transformado. El uso de las matrices de cuantificación MPEG o JPEG, bien conocidas, también es posible. La expresión DCT está dada por: ?(§)= de lo contrario 1 La relación F(u,v) = F(v,u) se encuentra presente porque : / )=f (j , i) (\fu,v,i,j=0,.../N-l) por definición. Como un resultado, basta calcular solamente los coeficientes de la parte inferior de la matriz transformada. 4.3 Codificación global de la textura Como se indicó previamente, se usa un enmallado jerárquico uniforme que se obtiene dividiendo cada triángulo de un nivel determinado de la jerarquía, en 4 subtriángulos , e insertando nodos en el centro de los arcos . El proceso se repite hasta que se alcanza el nivel máximo. Esta jerarquía de triángulos es representada y manejada también por el codificador, en la forma de un árbol cuaternario (figura 5) . Obsérvese que únicamente se toman en cuenta los triángulos incluidos en el área que se va a codificar. El procedimiento de construcción del enmallado inicial básico garantiza que todos los triángulos de la jerarquía del enmallado pertenezcan al área que se va a codificar. El proceso de codificación por el enmallado de un área de supresión, puede resumirse como sigue: 1. Se define un enmallado jerárquico, intercalado, sobre el área que se va a codificar, creando un enmallado inicial, regular, y luego subdividiendo en forma repetida triángulos en 4 subtriángulos e insertando nuevos nodos en el centro de los arcos . Los valores de los nodos se calculan a fin de minimizar el error de aproximación del área debido al enmallado. 2. Los valores de los elementos de imagen se mueven más cerca entre si, usando la interpolación afín sobre el triángulo que contenga los elementos de imagen que usen los valores de los nodos . Para cada triángulo en la jerarquía, se evalúa el error de aproximación E y luego se deciden los diferentes métodos de representación y codificación, en base a 2 umbrales: s? y s2: 1. Si E < , la interpolación afín sobre el triángulo es suficiente. 2. Si Ci < E < s2, debe usarse la descomposición más delgada del triángulo, para obtener una buena aproximación, siempre usando interpolación afin. 3. Si ?>s2, el triángulo se texturiza y el error de interpolación afín se codifica usando DCT. Finalmente, en el enmallado más delgado, se analiza la reducción del error producido por la permutación de las diagonales cuadrilaterales formadas por 2 triángulos adyacentes. Si se obtiene un resultado positivo, se valida esta permutación . De acuerdo con los métodos de codificación seleccionados para los diferentes triángulos, los diferentes datos se codifican en la siguiente manera. Los valores nodales YUV se predicen primero usando los valores de los nodos precursores (bordes del arco en donde se inserta el nodo actual) . Por lo tanto se cuantifica la diferencia entre el valor del nodo y su valor predxcho. Finalmente, la estructura de árbol cuaternario (incluyendo los indicadores de división y de no división, de los triángulos), los indicadores de permutación diagonal, los valores nodales diferenciales de YUV y los coeficientes de DCT cuantificados, se codifican usando el codificador aritmético y se insertan en la cadena binaria. 5. Resumen de la información codificada en el flujo binario de cuadros, codificado mediante enmallado Cada grupo de cuadros codificados en el modo de enmallado entre Nk+i y Nk+X-1 (en donde Nk y k+i son los cuadros precedentes y subsecuentes, respectivamente, codificados en el modo MPEG) se representa como un todo en el flujo binario. Los datos manejados comprenden, en forma codificada: Un encabezado para el conjunto de grupos de cuadros, incluyendo, entre otros, el número real de cuadros codificados . Los enmallados de movimiento (vectores de estructura y movimiento de los nodos) bk y La textura del error de predicción u original , para cada imagen del grupo . 6. Estructura global de la cadena binaria La cadena binaria global comprende una sucesión de cuadros codificados en el modo MPEG y grupos de cuadros codificados en el modo de enmallado, tal como se indica en la figura 8. El encabezado global de la cadena binaria que representa la secuencia codificada contiene, entre otras, la indicación de la codificación híbrida. La parte de la cadena binaria que corresponde a un grupo de cuadros codificados en el modo de enmallado, empieza con un encabezado que indica, entre otras cosas, el número de cuadros realmente codificados, y puede ser nulo. Los varios flujos de datos (cadenas binarias) que corresponden, respectivamente, al encabezado global de la secuencia codificada, las imágenes codificadas en MPEG y los grupos de i imágenes codificadas en el modo de enmallado interpolado, pueden ser enviados a través de diferentes rutas independientes si asi se requiere. En particular, el procedimiento de codificación permite la codificación jerárquica (o escalable) de la secuencia, es decir, la descodificación que usa solamente una parte de la tasa de transferencia de bitios total . 7. Procedimiento de descodificacion La figura 9 proporciona una vista general del principio de descodificación. Primero, la descodificación del encabezado permite que se active la descodificación híbrida. Después, el descodificador reconoce para cada parte de la cadena binaria, que corresponda a una entidad independiente, si existe un cuadro codificado en MPEG-4 o un grupo de cuadros codificados por enmallado. Los cuadros en MPEG-4 son proporcionados al módulo de descodificación MPEG-4, y los grupos de cuadros codificados en el modo de enmallado son proporcionados al módulo de descodificación mediante enmallado. 7.1 Descodificación basada en enmallado Primero, se descodifican los enmallados de movimiento t y Tf (k+i) para el grupo de imágenes Ilt Nk<lN<k+1. Después, se encuentran las áreas de supresión para estas imágenes, de acuerdo con el mismo procedimiento que en el codificador. Después, los elementos de imagen que se encuentran fuera de las áreas de supresión, se interpolan simplemente usando las imágenes INK e I +I Y los campos de movimiento t y Tfk+1. El enmallado de la textura más gruesa (parte superior de la jerarquía) se encuentra para cada área de supresión, de acuerdo con un procedimiento que es idéntico al procedimiento del codificador. La información relacionada con el enmallado jerárquico correspondiente (indicador de división por triángulos, decisiones de interpolación afín o codificación DCT, valores YUV nodales, diferenciales, y coeficientes DCT cuantificados) se codifica entonces y se regeneran los valores YUV de los elementos de imagen de estas áreas .

Claims

REIVINDICACIONES

1. Un proceso de codificación de imágenes, caracterizado por los siguientes pasos : - seleccionar dos imágenes ITX e IT2, dividir por series de al menos una imagen que no haya sido submuestreada; - codificar las imágenes ??? e IT2 delimitando la serie de imágenes a través de un primer modo de codificación de imágenes, optimizando significativamente una representación fotométrica de una imagen,- - codificar cada imagen de la serie de imágenes, mediante un segundo modo de codificación de imágenes que optimice una representación de movimiento entre al menos dos imágenes, en base a una determinación de al menos un campo de vectores de movimiento descritos por una malla compuesta de nodos a los cuales se afecte un vector de movimiento, de manera tal que cada imagen sea codificada de acuerdo con únicamente un modo de codificación.

2. El método de codificación de conformidad con la reivindicación 1, caracterizado porque una pieza de información que representa una elección de uno de esos modos de codificación, es conocida por un descodificador, de acuerdo con al menos una de las técnicas que pertenezcan al grupo que comprende : - una elección predefinida, conocida en los niveles de codificación y descodificación; - una pieza de información que representa esa elección y que está incluida en un flujo de datos que comprende al menos algunos datos de la imagen codificada; - una pieza de información que representa la elección e incluida en un flujo de datos, sin importar los datos de la imagen codificada; determinar la elección en una manera intrínseca, mediante el descodificador;

3. El método de codificación de conformidad con cualesquiera de las reivindicaciones 1 y 2 , caracterizado porque comprende el paso de seleccionar un modo de codificación que se aplique a la imagen, entre los cuales al menos se encuentran : - una codificación inicial que substancraímente optimice una representación fotométrica de una imagen. - una segunda codificación que substancialmente optimice una representación de movimiento entre al menos dos imágenes .

4. El método de codificación de conformidad con la reivindicación 3, caracterizado porque la segunda codificación toma en cuenta al menos una imagen previa y/o una imagen subsecuente codificada usando la codificación inicial.

5. El método de codificación de conformidad con la reivindicación 4, caracterizado porque la segunda codificación toma en cuenta un campo de vectores de movimiento, calculado a partir de una imagen inmediatamente precedente, codificada usando la codificación inicial y/o un campo de vectores de movimiento calculado a partir de una imagen inmediatamente subsecuente, codificada usando la codificación inicial .

6. El método de codificación de conformidad con la reivindicación 5, caracterizado porque el campo de vectores de movimiento se aplica a un enmallado.

7. El método de codificación de conformidad con cualesquiera de las reivindicaciones 5 y 6, caracterizado porque los campos de vectores de movimiento se usan para determinar un campo de vectores de movimiento, deducido, relacionado con una imagen codificada usando la segunda codificación.

8. El método de codificación de conformidad con cualesquiera de las reivindicaciones de la 5 a la 7, caracterizado porque la segunda codificación implementa un estimado del movimiento antes, entre una imagen Itx y una imagen después It2, y un paso de compensación de movimiento en el que los vectores de movimiento obtenidos durante ese estimado de movimiento y que no conducen a la conversión, son ponderados 'por un escalar k=m/ (tl+t2) , 0<k<l, a fin de interpolar al menos una imagen Iml en donde m pertenece a [ti, t2] .

9. El método de codificación de conformidad con cualesquiera de las reivindicaciones de la 5 a la 7, caracterizado porque la segunda codificación implementa un estimado del movimiento después, entre una imagen It2 y una imagen antes Iti, y una fase de compensación de movimiento en la que los vectores de movimiento obtenidos durante el estimado de movimiento y que no conducen a la conversión, son ponderados por un escalar k' =l-m/ (tl+t2) , 0<k'<l, a fin de interpolar al menos una imagen Im2 en donde m pertenece a [ti, t2] .

10. El método de codificación de conformidad con las reivindicaciones 8 y 9, caracterizado porque implementa un estimado después y un estimado antes, a fin de obtener una imagen Im estimada, tal como Im=aEl+ (1-a) E2 en donde 0<a<l .

11. El método de codificación de conformidad con cualesquiera de las reivindicaciones de la 3 a la 10, caracterizado porque la fase de selección se basa en la implementación de un submuestreo de N factores fijos, en donde una imagen en N se codifica usando la codificación inicial.

12. El método de codificación de conformidad con la reivindicación 11, caracterizado porque N es mayor que 2.

13. El método de codificación de conformidad con cualesquiera de las reivindicaciones 11 y 12, caracterizado porque N es variable .

14. El método de codificación de conformidad con cualesquiera de las reivindicaciones de la 3 a la 11, caracterizado porque la codificación inicial implementa una transformación en bloques de imágenes y una predicción temporal mediante los bloques .

15. El método de codificación de conformidad con la reivindicación 14, caracterizado porque la codificación inicial es una codificación MPEG-4 o H26L.

16. El método de codificación de conformidad con la reivindicación 15, caracterizado porque las imágenes obtenidas mediante la codificación MPEG-4 o H26L comprende imágenes del tipo I (intra) y/o del tipo P (predecibles) . 1 . El método de codificación de conformidad con cualesquiera de las reivindicaciones de la 3 a la 16, caracterizado porque la segunda codificación se basa en un enmallado jerárquico de nivel M, en donde M es mayor o igual que 1. 18. El método de codificación de conformidad con la reivindicación 17, caracterizado porque el enmallado es triangular . 19. El método de codificación de conformidad con cualesquiera de las reivindicaciones 17 y 18, caracterizado porgue comprende una fase de manejo de las áreas de oclusión. 20. El método de codificación de conformidad con cualesquiera de las reivindicaciones de la 1 a la 19, caracterizado porque produce al menos dos flujos de datos que pueden ser transmitidos a través de rutas de transmisión separadas . 21. El método de codificación de conformidad con la reivindicación 20, caracterizado porque los flujos de datos pertenecen a un grupo que comprende: - un encabezado global ; - datos de imágenes codificadas de acuerdo con la codificación inicial; - datos de imágenes codificadas de acuerdo con la segunda codificación. 22. El método para descodificar una señal de imagen, codificada usando el método de codificación de conformidad con cualesquiera de las reivindicaciones de la 1 a la 21. 23. El dispositivo para codificar una señal de imagen codificada usando el método de codificación de conformidad con cualesquiera de las reivindicaciones de la 1 a la 21. 24. El dispositivo caracterizado porque se usa para descodificar una señal de imagen codificada usando el método de codificación de conformidad con cualesquiera de las reivindicaciones de la 1 a la 21. 25. El dispositivo de descodificación de conformidad con la reivindicación 24, caracterizado porque comprende medios para determinar al menos una parte de un campo vectorial y/o al menos una parte de áreas de oclusión, similares a aquellos implementados durante la codificación. 26. El dispositivo de almacenamiento caracterizado porque contiene al menos una señal de imagen codificada usando el procedimiento de codificación de conformidad con cualesquiera de las reivindicaciones de la 1 a la 21. 27. El sistema caracterizado porque se usa para la codificación, transmisión y/o descodificación, de una señal de imagen codificada usando el procedimiento de codificación de conformidad con cualesquiera de las reivindicaciones de la 1 a la

17. 28. El sistema de conformidad con la reivindicación 27, caracterizado porque una pieza de información concerniente a la elección de uno de los modos de codificación, es conocida por un descodificador de acuerdo con al menos una de las técnicas que pertenecen a un grupo que comprende las siguientes : una elección predefinida, conocida en los niveles de codificación y descodificación; - una pieza de información representativa de la elección e incluida en un flujo de datos que comprende al menos algunos datos de imágenes codificadas; - una pieza de información represent iva de la elección e incluida en un flujo de datos, sin importar los datos de la imagen codificada; - determinar la elección en una manera intrínseca mediante el descodificador . 29. El producto-programa para computadora, caracterizado porque se usa para codificar y/o descodificar señales de imagen codificadas usando el método de codificación de conformidad con cualesquiera de las reivindicaciones de la 1 a la 21. 30. Medios para datos, caracterizados porque albergan un programa para computadora para codificar y/o descodificar una señal de imagen codificada usando el método de codificación de conformidad con cualesquiera de las reivindicaciones de la 1 a la 21. 31. Una señal de datos de imagen, caracterizada porque comprende datos codificados de acuerdo con el procedimiento de conformidad con cualesquiera de las reivindicaciones de la 1 a la 21. 32. La señal de conformidad con la reivindicación 31, caracterizada porque comprende al menos un indicador que especifica si el método de conformidad con cualesquiera de las reivindicaciones de la 1 a la 21 se encuentra activado o no. 33. La señal de conformidad con cualesquiera de las reivindicaciones 31 y 32, caracterizada porque comprende un elemento de datos que especifica la estructura de cuadros al inicio de una secuencia de video y/o en cada cuadro de señal . 34. La señal de conformidad con cualesquiera de las reivindicaciones de la 31 a la 33, caracterizada porque una secuencia codificada usando la segunda codificación, empieza con un encabezado que especifica un número de cuadros codificados de acuerdo con esta segunda codificación. 35. La señal de conformidad con cualesquiera de las reivindicaciones de la 31 a la 34, caracterizada porque comprende al menos dos flujos de datos que pueden ser trasmitidos a través de rutas de transmisión separadas . 36. La señal de conformidad con la reivindicación 35, caracterizada porque los flujos de datos pertenecen a un grupo que comprende : - un encabezado global ; - datos de imágenes codificadas de conformidad con la codificación inicial; - datos de imágenes codificadas de conformidad con la segunda codificación. 37. La aplicación del método de codificación de conformidad con cualesquiera de las reivindicaciones de la 1 a la 21, caracterizada porque se lleva a cabo en al menos uno de los dominios que pertenecen aun grupo que comprende : - TV digital; - video en tiempo real a través de una red IP; - video en tiempo real a través de una red para dispositivos móviles ,- - almacenamiento de datos de imágenes .