MXPA05000558A

MXPA05000558A - Metodo de acceso aleatorio y renovacion gradual de imagen en codificacion de video.

Info

Publication number: MXPA05000558A
Application number: MXPA05000558A
Authority: MX
Inventors: Miska M Hannuksela
Original assignee: Nokia Corp
Priority date: 2002-07-16
Filing date: 2003-07-16
Publication date: 2005-04-19
Also published as: EP3177020B1; HK1123653A1; WO2004008735A2; EP1547382A4; CA2492751C; EP1547382A2; AU2003251964A8; US20040066854A1; KR100754419B1; CN101232616A; CN101232615A; KR20050019864A; CN1669321A; JP4695129B2; WO2004008735A3; CN101232616B; JP2005533444A; CA2492751A1; US8300690B2; EP3177020A1

Abstract

Se describe un metodo y aparato asociado para proporcionar acceso aleatorio a y renovacion gradual de, secuencias de video codificadas. La renovacion gradual del descodificador es habilitada por medio del uso de regiones aisladas, orden de macrobloques flexible y apagado de filtro de bucle en fronteras de rebanada. Tambien se proporcionan mecanismos para la deteccion confiable de operaciones deacceso aleatorio y para la senalizacion confiable de cuadros delanteros e imagenes de ODR (renovacion de descodificador abierta).

Description

METODO DE ACCESO ALEATORIO Y RENOVACION GRADUAL DE IMAGEN EN CODIFICACION DE VIDEO CAMPO DE LA INVENCIÓN La presente invención es concerniente en general con el acceso aleatorio y renovación gradual de imágenes de video. Más específicamente, la invención es concerniente con un método para el acceso - aleatorio y renovación gradual de imágenes de video en secuencias de video codificadas de acuerdo con el estándar de codificación de video I U-T H.264 ISO/IEC MPEG-4 parte 10. ANTECEDENTES DE LA INVENCIÓN Una secuencia de video consiste de una serie de imágenes fijas o cuadros. Los métodos de compresión de video están basados en la reducción de partes redundantes y perceptualmente irrelevantes de secuencias de video. La redundancia en las secuencias de video puede ser clasificada en redundancia espectral, espacial y temporal. La xedundancia espectral se refiere a la similaridad entre los diferentes componentes de color de la misma imagen, en tanto que la redundancia espacial resulta de la similaridad entre pixeles vecinos en una imagen. Existe redundancia temporal debido a que es probable que los objetos que aparecen en una imagen previa también aparezcan en la imagen actual. La compresión puede ser obtenida al tomar ventaja de esta redundancia Ref.: 161170 temporal y predicción de la imagen actual de otra imagen, denominada una imagen de afianzamiento o imagen de referencia. En la práctica, esto se obtiene al generar datos de compensación de movimiento que describen el movimiento entre la imagen actual y la imagen previa. Los métodos de compresión de video comúnmente diferencian entre imágenes que utilizan reducción de redundancia -temporal y aquellas que no. Las imágenes comprimidas que no utilizan métodos de reducción de redundancia temporal son usualmente llamadas cuadros o imágenes INTRA (o I) . Las imágenes pronosticadas temporalmente son usualmente pronosticadas hacia delante a partir de una imagen que ocurre antes de la imagen actual y son llamadas cuadros INTER o cuadros P. En el caso de cuadros INTER, la imagen compensada en movimiento pronosticada es raramente lo suficientemente precisa y por consiguiente un cuadro de error de predicción comprimido espacialmente es asociado con cada cuadro INTER. Las imágenes INTER pueden contener áreas INTRA-codificadas . Muchos esquemas de compresión de video también usan temporalmente cuadros pronosticados bidireccionalmente, que son denominados comúnmente como imágenes B o cuadros B. Las imágenes B son insertadas entre pares de imagen de afianzamiento de cuadros I- y/o P y son pronosticadas ya sea partir de una o ambas de las imágenes de afianzamiento. Las imágenes B normalmente producen compresión incrementada, en comparación con las imágenes P INTER-codificadas pronosticadas hacia adelante. Las imágenes B no son usadas como imágenes de af anzamiento, esto es, otras imágenes no son pronosticadas a partir de ellas. Por consiguiente, pueden ser descartadas (ya sea intencional o no intencionalmente) sin impactar la calidad de imagen de las imágenes futuras . Mientras que las imágenes B pueden mejorar el desempeño de compresión en comparación con las imágenes B, su generación requiere mayor complejidad de cálculo y uso de memoria e introducen retardos adicionales . Esto puede no ser problema para aplicaciones que no son en tiempo real, tales como flujo de video, pero puede provocar problemas en aplicaciones en tiempo real, tales como videoconferencia . Así, como se explica anteriormente, un segmento de video comprimido consiste comúnmente de una secuencia de imágenes, las cuales pueden ser clasificadas aproximadamente en imágenes INTRA temporalmente independientes, imágenes INTER codificadas temporalmente de manera diferente y (posiblemente) imágenes B predecidas bi-direccionalmente . Puesto que la eficiencia de compresión de las imágenes INTRA-codificadas es normalmente más baja que aquella de las imágenes INTER-codificadas, las imágenes INTRA son usadas escasamente, en especial en aplicaciones de baja velocidad de bits. Sin embargo, debido a que las imágenes INTRA-codificadas pueden ser descodificadas independientes de cualquier otra imagen en la secuencia de video, cada imagen IMTRA representa una entrada (o punto de acceso aleatorio) a la secuencia de video codificada, esto es, un punto desde el cual es puede iniciar la descodificación. Asi, es ventajoso incluir un cierto número de imágenes INTRA-codificadas en una secuencia de video codificada, por ejemplo a intervalos regulares, con el fin de permitir el acceso aleatorio a la secuencia. Además, una secuencia de video típica incluye un número de escenas o tomas . Ya que los contenidos de imagen pueden ser significativamente diferentes de una escena a otra, también es ventajoso codificar la primera imagen de cada nueva escena en formato INTRA. De esta manera, aún si no se incluyen otros cuadros INTRA-codificados en la secuencia codificada, por lo menos el primer cuadro en cada escena proporciona un punto de acceso aleatorio. Cada serie descodificable independientemente de imágenes en una secuencia de video codificada, iniciando con un cuadro INTRA-codificado (que constituye un punto de acceso aleatorio) y que termina en el cuadro inmediatamente precedente al siguiente cuadro INTRA-codificado, es comúnmente denominado como un Grupo de Imágenes o GOP por brevedad. Algunas operaciones de acceso aleatorio son generadas por el usuario final (por ejemplo un observador de la secuencia de video) , por ejemplo como resultado DE que el usuario busca una nueva posición en un archivo de video transferido. En este caso, es probable que el descodificador obtenga una indicación de una operación de acceso aleatorio generadar por el usuario y puede actuar de conformidad. Sin embargo, en algunas situaciones, las operaciones de acceso aleatorio no son controladas por el usuario final . Por ejemplo, un flujo rebanado o editado puede contener "cortes" en el flujo codificado con características similares a las operaciones de acceso aleatorio llevadas a cabo por un usuario. Sin embargo, en este último caso el descodificador puede no recibir una indicación de que tal corte ha ocurrido y puede no ser apto de descodificar imágenes subsecuentes en la secuencia correctamente. Por consiguiente, es importante que se proporcione un descodificador de video con un método confiable para detectar operaciones de acceso aleatorio o cortes en un flujo de video codificado. Los estándares de codificación de video modernos definen una sintaxis para una flujo de bits de video autosuficiente . Los estándares más populares al tiempo de redacción son International Telecommunications Union ITU-T Recommendation H-263, "Video coding for low bit rate communication" , febrero de 1998; International Standards Organization/International Electro-technical Commission ISO/IEC 14496-2, "Generic Coding of Audio-Visual Objects. Parte 2: Visual", 1999 (conocido como MPEG-4) e ITU-T Recommendation H.262 (ISO/lEC 13818-2) (conocido como PEG-2) .

Estos estándares definen una jerarquía para los flujos de bits y correspondientemente para secuencias de imágenes e imágenes . El desarrollo de estándares de codificación de video adicionales está todavía en marcha. En particular, ahora se llevan a cabo esfuerzos de estandarización en el desarrollo de un sucesor a largo plazo para H.263, conocido como ITU-T H.264 ] ISO/IEC MPEG- parte 10, conjuntamente bajo los auspicios de un cuerpo de estandarización conocido como el Equipo de Video Unido (JVT) de ISO/IEC MPEG (Grupo de Expertos de Imágenes en Movimiento) y ITU-T VCEG (Grupo de Expertos de Codificación de Video) . Algunos aspectos particulares de estos estándares y en particular aquellos aspectos del estándar de codificación de video H.264 relevantes para la presente invención son descritos a continuación. La figura 1 ilustra una secuencia de imágenes codificadas convencional, que comprende imágenes I INTRA-codificadas, imágenes P INTER-codificadas e imágenes B codificadas bidireccionalmente arregladas en un patrón- que tiene la forma I B B P.. etc. Los bloques indican cuadros en orden de presentación, las flechas indican compensación de movimiento, las letras en los bloques indican tipos de cuadro y los valores en los bloques son números de cuadro (como se especifica de acuerdo con el estándar de codificación de video H.264), que indican el orden de codificación/descodificación de los cuadros .

El término "cuadro delantero" o "imagen delantera" es usada para describir cualquier cuadro o imagen que no puede ser descodificado correctamente después de tener acceso al cuadro I previo y cuyo tiempo de presentación es antes del tiempo de presentación del cuadro I . (Los cuadros B B17 en la figura 1 son ejemplos de cuadros delanteros) . En esta descripción, el término imagen de "renovación de descodificador abierta" (ODR, por sus siglas en inglés) es usado para denotar un cuadro accesible aleatoriamente con imágenes delanteras. Patrones de cuadro codificados similares a aquel mostrado en la figura 1 son comunes y así es deseable hacer acceso aleatorio a imágenes ODR tan fácil como sea posible. Ya existen un número de alternativas para tener acceso a imágenes ODR. Una solución típica es simplemente descartar cualesquier imágenes B delanteras . Este es el procedimiento adoptado comúnmente en los estándares de codificación de video que no permiten selección de imagen de referencia y desacoplamiento de descodificación y orden de presentación, en donde una imagen I es siempre un punto de acceso aleatorio. Otra solución al problema es considerar todos los cuadros no almacenados que siguen inmediatamente un cuadro I (en orden de codificación/descodificación) como cuadros delanteros. En tanto que este procedimiento trabaja en el caso simple ilustrado en la figura 1, carece de la propiedad de manejar cuadros delanteros almacenados. Un ejemplo de un esquema de codificación en el cual hay un cuadro delantero almacenado antes de un cuadro I accesible aleatoriamente es mostrado en la figura 2. La identificación implícita simple de cuadros delanteros, recién descrita, no traba a correctamente en este ejemplo. Una idea directa adicional es considerar todas las imágenes B que ocurren después de un cuadro I (en orden de codificación/descodificación) como imágenes delanteras. Sin embargo, las imágenes delanteras pueden no ser siempre imágenes B. Por ejemplo, el artículo científico de Miska M. Hannuksela, intitulado: "Simple Packet Loss Recovery Method for Video Streaming" , Proceedings of Packet Video Workshop 2001, Kyongju, South Korea, abril 20 - mayo 1, 2001 e ITU-T SG16/Q15 documento Q15-K38 proponen un método de postergación de INTRA-cuadro por resiliencia de error mejorada en codificación de video, la adopción del cual vuelve este método simple para la identificación de cuadros delanteros no trabajables. La figura 3 muestra un ejemplo de un cuadro INTRA postergado por un intervalo de cuadro almacenado. Consecuentemente, hay un cuadro P (P17) precedente al cuadro INTRA en orden de presentación. El documento de JVT JVT-B063 propone que un cuadro puede ser asociado con un retardo de inicialización (provisto en el flujo de bits de video como información de Mejora Complementaria) que indica cuanto toma para todos los cuadros subsecuentes en orden de presentación para ser completamente correctos en contenido después de iniciar la descodificación de un cuadro particular. Esta información de SEI de retardo de inicialización puede ser usada cuando se tiene acceso a imágenes ODR. Sin embargo, hay tres desventajas asociadas con este procedimiento. En primer lugar, el proceso del descodificador para manejar mensajes SEI es no normativo, esto es, no es una parte determinante del estándar H.264 y por consiguiente no tiene que ser soportado por todos los descodificadores implementados de acuerdo con H.2G4. Así, podría haber un descodificador, no conciente de SEI, que cumple con el estándar, que hace acceso a un flujo que cumple con el estándar aleatoriamente pero falla en descodificarlo debido a cuadros de referencia ausentes para imágenes delanteras. En segundo lugar, el descodificador puede descodificar algunos datos, tales como cuadros delanteros almacenados, innecesariamente ya que no sabe que no son útiles para la operación de renovación. En tercer lugar, la operación del descodificador para referirse a números de cuadro faltantes se vuelve más complicada. Consecuentemente, este procedimiento no es preferido como solución al acceso aleatorio de imágenes ODR. El estándar de codificación de video H.264 (como se especifica en el borrador del comité de JVT) incluye los conceptos de "renovación de descodificador instantánea" (GDR, por sus siglas en inglés) . Esto se refiere a una forma del llamado acceso aleatorio "sucio" , en donde se hace referencia a datos previamente codificados pero posiblemente no recibidos y el contenido de imagen correcto es recuperado gradualmente en más de una imagen codificada. GDR permite capacidades de acceso aleatorio utilizando cualquier tipo de cuadro. Un mecanismo de señalización para GDR fue propuesto por primera vez en el documento de JV JVT-B063 (y luego en el documento de salida JVT JVT-B109) . JVT-B063 concluyó que hay básicamente dos alternativas fundamentales para inicializar el proceso de descodificación de GDR, "descodificación de mejor esfuerzo" y "descodificación asegurada". En la descodificación de mejor esfuerzo todos los cuadros no disponibles son inicializados a gris de medio nivel y la descodificación de todos los cuadros es iniciada pero son considerados completamente correctos en contenido solamente después que se satisfacen ciertas condiciones indicadas . En la "descodificación asegurada" el descodificador inicia la descodificación de un cuadro I y luego espera antes de intentar descodificar cualesquier más cuadros que no son I, para asegurar que los cuadros restantes no contengan referencias a datos no disponibles. La alternativa del mejor esfuerzo fue preferida en JVT-B063. Cuestiones concernientes con la codificación de renovación de descodificador gradual fueron estudiadas en el documento de JVT JVT-C074. Este documento concluyó que GDR era imposible - de realizar utilizando la versión del codee JVT H.246 válida en aquel tiempo y propuso que se debe usar un método conocido como la "técnica de región aislada" (IREG) para la codificación de GDR. La técnica de región aislada fue propuesta en el documento JVT JVT-C072. Una región aislada es un área sólida de macrobloques , que definen la forma de la frontera a través de la cual la filtración de bucle debe ser apagada y a la cual la predicción en imagen espacial es limitada. La predicción temporal fuera de regiones aisladas en cuadros de referencia debe ser deshabilitada. La forma de una región aislada puede evolucionar durante un número de imágenes codificadas consecutivas. El grupo de imágenes (GOP) , dentro de las cuales la forma de una región aislada depende de la forma de la región aislada correspondiente en una imagen previa y que incluye la imagen que contiene la región aislada inicial codificada sin predicción temporal, es denominada como un "grupo de imágenes con regiones aisladas evolucionarías" (IREG GOP) . El período correspondiente (en términos de cuadros de referencia codificados) es llamado el "período de regiones aisladas evolucionarlo" o "período IREG" . Como se menciona anteriormente, IREG proporciona una solución elegante para habilitar la funcionalidad GDR y puede también ser usado para proporcionar resiliencia de error y recuperación (véase documento de JVT JVT-C073) , codificación de región de interés y prioritización, funcionalidad de imagen en imagen y codificación de transiciones de escenas de video enmascaradas (véase documento JVT-C075) . El acceso aleatorio gradual basado en IREG, permite conmutación de canal de medios para receptores, conmutación de flujo de bits para un servidor y permite además fácil acceso de novedades en aplicaciones de flujo de multidifusión. La propiedad de resiliencia de error mejorada y la propiedad de renovación de descodificador gradual de regiones aisladas son aplicables al mismo tiempo. Así, cuando un codificador usa regiones aisladas para obtener renovación de descodificador gradual, obtiene resiliencia de error mejorada "gratis" sin velocidad de bits adicional o costo de complejidad y viceversa. Un concepto adicional incluido en el estándar de codificación de video H.264 es aquel de "orden de macrobloque flexible" (FMO) . El FMO fue propuesto por primera vez en la contribución de JVT JVT-C089 y luego fue incluido en el borrador del comité de JVT del estándar H.264. Al repartir imágenes en grupos de rebanadas, FMO permite la codificación de macroblogues en un orden diferente a aquel del orden de barrido de trama típico. La aplicación clave habilitada por este mecanismo es la implementación de métodos de resiliencia de error, tales como rebanadas dispersadas (véase documento JVT JVT-C090) e intercalado de rebanadas (como se propone en el documento JVT JVT-C091) . Debido a su flexibilidad, otras aplicaciones de orden de macrobloque flexible son también posibles. El documento JVT JVT-D095 propone unas pocas mejoras al FMO. El apagado del filtro de bucle en las fronteras de rebanada fue propuesto en el documento JVT-C117 para mejorar la resiliencia de error y para soportar la GD perfecta. Esta limitación de filtro de bucle tiene dos ventajas adicionales: en primer lugar proporciona una buena solución al problema de procesamiento paralelo inherente en la técnica de FMO y en segundo lugar es necesaria para permitir la descodificación correcta de rebanadas en el tiempo fuera de orden. BREVE DESCRIPCIÓN DE LA INVENCIÓN La presente invención' introduce nuevos métodos para implementar acceso aleatorio y renovación gradual de imágenes en secuencias de video codificadas. Se integra, en particular, en los métodos de renovación de descodificador gradual propuestos durante el desarrollo del estándar de codificación de video H.264 y propone una implementación práctica para GDR en el contexto del codee de video H.264. Sin embargo, se debe apreciar que la invención no está de ninguna manera limitada a aplicación en los confines del estándar H.264 y puede ser aplicada en otros estándares de codificación de video en los cuales secuencias de video son codificadas usando una combinación de cuadros INTRA e INTER codificados y que emplea una sintaxis que es similar a aquella usada en H.264. Más específicamente, la presente invención propone una implementación de renovación de descodificador gradual habilitada al usar regiones aisladas, orden de macrobloque flexible y apagado de filtro de bucle en fronteras de rebanada. En particular, la invención adapta la técnica de región aislada original de JVT-C072 para inclusión en el estándar de codificación de video H.264 e introduce un método de señalización para renovación de descodificador gradual. La invención también propone un mecanismo para la detección confiable de operaciones de acceso aleatorio. También propone mecanismos para la señalización confiable de cuadros delanteros e imágenes de ODR. BREVE DESCRIPCIÓN DE LAS FIGURAS La figura 1 ilustra un patrón de cuadro I B B P codificado y muestra la ubicación de cuadros B delanteros; La figura 2 muestra un cuadro I accesible aleatoriamente con cuadros delanteros almacenados ; La figura 3 ilustra la técnica de postergación de cuadro INTRA y La figura 4 ilustra el orden de crecimiento de evolución de forma en la dirección de las manecillas del reloj, fuera de bloque, de acuerdo con la presente invención.

DESCRIPCIÓN DETALLADA DE LA INVENCIÓN Ahora se describirá una implementación práctica de renovación de descodificador gradual de acuerdo con la presente invención. Como se menciona previamente en los antecedentes de la invención, el apagado de filtración de bucle en fronteras de rebanada es ventajoso para la implementación de renovación de descodificador gradual. En particular, la filtración de bucle a través del borde de un área renovada debe ser apagada con el fin de evitar una desadaptación de valor de pixel en la descodificación normal y durante la descodificación después de acceso aleatorio. La renovación de descodificador gradual sin la limitación de filtro de bucle (esto es, con filtración de bucle todavía habilitada) es- posible no son muy probables las desadaptaciones molestas; sin embargo, es difícil controlar la amplitud y propagación de desadaptaciones, de tal manera que es preferible apagar el filtro de bucle. Por consiguiente, la presente invención propone que la filtración de bucle esté limitada de tal manera que las fronteras de rebanada sean manejadas como fronteras de imagen. Esta limitación puede ser señalada en una base de imagen por imagen. Más específicamente, de acuerdo con una modalidad preferida de la invención, si un macrobloque y el macrobloque vecicno a su izquierda pertenecen a rebanadas diferentes, el macrobloque es filtrado como si estuviera en la frontera de imagen izquierda.

Si un macrobloque y el macrobloque vecino por encima del mismo pertenecen a rebanadas diferentes, entonces el macrobloque es filtrado como si estuviera en la hilera superior de macrobloques en la imagen. La invención introduce además el concepto de un "grupo de rebanadas" para uso en relación con renovación de descodificador gradual. De acuerdo con la invención, un grupo de rebanadas es definido como un grupo de rebanadas que cubre una cierta región de una imagen, el tamaño de cada rebanada dentro del grupo es ajustable independientemente. Ventajosamente, el tamaño codificado de una rebanada es ajustado de acuerdo con el tamaño de paquete de transporte preferido. Un grupo de rebanadas, como se define de acuerdo con la presente invención, es ideal para implementación de renovación de descodificador gradual usando el procedimiento de región aislada (como se introduce por el documento JVT JVT-C072 y descrito anteriormente en el texto) . En particular, una región aislada cubre una cierta área espacial, que puede contener más de una rebanada y sus fronteras deben ser procesadas de una manera similar a las fronteras de rebanada (en particular, filtración de bucle e INTRA predicción deben ser apagadas) . Cuando se usa para implementar renovación de descodificador gradual, la forma, tamaño y ubicación de una región aislada evolucionan, debido a que el área renovada gradualmente comúnmente crece de imagen en imagen. En tanto que tal evolución de forma podría ser transportada con la sintaxis PMO del estándar de codificación de video H.264, un número significativo de bits pueden ser ahorrados cuando se define una sintaxis de F O específica para formas evolucionarías . De acuerdo con la invención, la información de forma y posición de regiones aisladas en cuadros consecutivos es almacenada. Esta información es usada en la estimación de movimiento. La manera en la cual se efectúa la estimación/compensación de movimiento también es modificada con el fin de facilitar el uso de regiones aisladas. En particular, cuando se lleva a cabo estimación de movimiento de pleno pixel, los vectores de movimiento referentes al exterior de las regiones aisladas en cuadros de referencia correspondientes son descartados sin calcular los costos de codificación. También son necesarias medidas especiales cuando se lleva a cabo estimación/compensación de movimiento a una resolución de pixel no entero. El estándar de codificación de video H.264 permite la estimación/compensación de movimiento a la exactitud de 1/4 o 1/8 de pixel. Se usan diferentes filtros de interpolación para interpolar los sub-pixeles de 1/4 y 1/8. Para la exactitud de 1/4 de pixel, posiciones de 1/2 muestra son interpoladas usando filtración de 6 derivaciones y las posiciones de 1/4 de muestra son interpoladas al promediar las dos muestras más cercanas en la posición de una muestra entera o 1/2 muestra. Hay una excepción a esta regla general, conocida como la "posición divertida" , que es obtenida al promediar las cuatro muestras de enteros más cercanas. Como resultado del proceso de interpolación, ciertas regiones "abandonadas" afectan los sub-pixeles residentes al interior pero menos de 2 pixeles enteros alejados de la frontera de una región aislada. De acuerdo con la invención, este hecho es tomado en cuenta cuando se lleva a cabo la estimación de movimiento a resolución de sub-pixel . Más específicamente, los vectores de movimiento que se refieren a bloques más cercanos que dos pixeles alejados de la frontera de una región aislada son descartados sin calcular los costos de codificación. Una operación similar se lleva a cabo cuando se usa la resolución de pixel de 1/8 para la estimación/compensación de movimiento. Como se explica anteriormente, cuando se lleva a cabo la renovación de descodificador gradual usando regiones aisladas, las regiones aisladas evolucionan en tamaño, forma y ubicación. Finalmente, como resultado ¦ 'del proceso de renovación de descodificador gradual, se obtiene un cuadro confiable (esto es, completamente reconstruido) . Esto se obtiene cuando una región aislada evoluciona para volverse igual a un cuadro entero (esto es, cubre toda el área de imagen) . De acuerdo con la invención, una vez que se ha alcanzado esta situación, se imponen las siguientes limitaciones sobre la codificación de cuadros subsecuentes: 1. Las nuevas regiones aisladas deben evitar predicción del GOP de IREG previo; 2. Para regiones abandonadas, se debe evitar la predicción que se refiere a las regiones abandonadas en cuadros antes del cuadro confiable y que se refiere a cualquier bloque en cuadros temporalmente antes del GOP de IREG previo. Limitaciones de cuadro de referencia apropiados y limitaciones de vector de movimiento similares a aquellas descritas anteriormente son aplicadas con el fin de cumplir con estos dos requerimientos . En cuadros en donde se usa la técnica de GDR que utiliza regiones aisladas implementadas de acuerdo con la invención, cada imagen contiene una región aislada y una región abandonada. La región aislada es un grupo de rebanadas y la región abandonada es otro grupo de rebanadas. Las formas de región de los dos grupos de rebanadas evolucionan y siguen la evolución de la región aislada de imagen en imagen, de acuerdo con la velocidad de crecimiento de la región señalada.

La presente invención introduce además sintaxis adicional para ser incluida en el estándar de codificación de video H.2S4 para permitir la señalización de regiones aisladas. Más específicamente, de acuerdo con la invención, algunos nuevos mb_allocation_map_types son agregados a la sintaxis del estándar H.264. Estos son mostrados a continuación en la tabla 1, en donde los elementos de sintaxis agregados introducidos con el fin de soportar regiones aisladas son denotados por "IREG" en la columna derecha y "RECT" denota grupos de rebanadas rectangulares (como se propone en JVT-D095) : Tabla 1 : Sintaxis para soportar regiones independientes de acuerdo con la invención En la tabla 1, el parámetro num_slice_groups_minusl es ajustado a 1 cuando el mb_allocation_map_type es 4, 5 o 6 (esto es, hay solamente dos grupos de rebanadas en la imagen) . El parámetro growth_rate representa el número de macrobloques por los cuales una región aislada crece por imagen. Usando el parámetro velocidad de crecimiento y conociendo el tamaño de una imagen a ser renovada, un descodificador puede determinar el tiempo requerido para renovar completamente toda la imagen (conocido como el periodo GDR) . Por ejemplo, en el caso de imágenes QCIF (que comprenden 99 macrobloques de 16 x 16 pixeles en un arreglo rectangular de 11 x 9) y una velocidad de crecimiento de 10 macrobloques por imagen, la obtención de una imagen plenamente renovada toma el techo (99/10) = 10 imágenes desde el inicio del periodo GDR (inclusive) . El nuevo mb_allocation_map_types 4, 5, 6 y direcciones de evolución definidos de acuerdo con la invención y presentados en la tabla 1 definen seis patrones de evolución de grupo de rebanadas para regiones aisladas, como se muestra a continuación en la tabla 2. Tabla 2 : Nuevos parámetros de evolución de grupo de rebanadas de acuerdo con la invención Los seis patrones de evolución de región presentados en la tabla 2 son definidos como sigue: 1. Barrido de trama: El primer macrobloque de la región aislada es el macroblogue superior izquierdo de la imagen. La región aislada crece en orden de barrido de trama. 2. Barrido de trama inverso : El primer macrobloque de la región aislada es el macroblogue inferior derecho de la imagen. La región aislada crece en orden de barrido de trama inverso. 3. Enjugón derecho. El primer macrobloque de la región aislada es el macrobloque superior izquierdo de la imagen. La región aislada crece de arriba abajo. El siguiente macrobloque después del macrobloque más del fondo de una columna es el macrobloque superior de la columna del lado derecho de la columna previa. 4. Enjugón izquierdo. El primer macrobloque de la región aislada es el macrobloque inferior derecho de la imagen. La región aislada crece de abajo -hacia arriba. El siguiente macrobloque después del macrobloque de lo más alto de una columna es el macrobloque del fondo de la columna en el lado izquierdo de la columna previa. 5. Encuadrado en la dirección de las manecillas del reloj: Utilizando un sistema de coordenadas (x, y) con su origen en el macrobloque superior izquierdo y que tiene granularidad de macrobloque y usando H para denotar el número de hileras de macrobloques codificados en la imagen y W para denotar el número de columnas de macrobloques codificados de la imagen, el primer macrobloque de la región aislada es el macrobloque que tiene coordenadas (xO, yO) = ( /2, H2) , "/" denota división por truncamiento. El orden de crecimiento de la región aislada es definido como se muestra en la figura 4 de los dibujos adjuntos. 6. Encuadrado en la dirección contraria de las manecillas del reloj : Usando las mismas definiciones de sistema de coordenadas, variables y la operación aritmética como se introduce en 5 anteriormente, el primer macrobloque de la región aislada es el macrobloque que tiene coordenadas ( O , yO) = (( -D/2, (H-D/2). El orden de crecimiento es similar a aquel mostrado en la figura 4 pero en la dirección contraria a las manecillas del reloj . Con el fin de permitir que los descodificadores , unidades de edición de dominio codificado y elementos de red distingan un punto de acceso aleatorio fácilmente, una modalidad preferida de la presente invención propone que el inicio de un período GDR sea señalado en el tipo de unidad de Capa de Adaptación de Red (NAL) de la sintaxis H.264. La primera imagen de un período de GDR es llamada una imagen GDR. No se requiere una sintaxis precisa, pero una sintaxis ej emplar que podría ser usada se puede encontrar en el borrador del trabajo de JV -C074. La presente invención también propone mecanismos para la indicación confiable de imágenes ODR y cuadros delanteros. De una manera similar a aquella descrita en relación con la señalización de una imagen GDR, la invención propone que se proporcione una imagen ODR con un tipo de unidad NAL especializad . Además, en una modalidad preferida de la invención, cuadros delanteros son marcados explícitamente. Este procedimiento es preferido debido a que no impone restricciones o complicaciones en las implementaciones del codificador y proporciona un mecanismo mediante el cual los descodificadores pueden identificar fácilmente cuadros delanteros. De acuerdo con la invención, las imágenes delanteras pueden ser cualesquier imágenes compensadas en movimiento, esto es, imágenes P, B y SP (el tipo de imagen SP es un tipo especial de imagen compensada en movimiento, definida de acuerdo con H.264). Ventajosamente, una bandera (denominada una leading_picture_flag) es asociada con estos tipos de imagen y es agregada en la sintaxis de tipo unidad NAL H.264 o en la imagen o sintaxis de encabezado de rebanada, con el fin de proporcionar una indicación explícita de que una imagen dada es una imagen delantera. Esta opción es particularmente ventajosa, ya que involucra muy pocos gastos o sin gastos de velocidad de bits y es fácil de usar tanto por los codificadores como los descodificadores . De acuerdo con la invención, los puntos de acceso aleatorio son indicados usando el "identificador de sub-secuencia" como se presenta en el documento JVT JVT-D098.

La sintaxis precisa par la señalización de imágenes GDR u ODR e imágenes delanteras puede variar de acuerdo con los detalles de la sintaxis tipo unidad NAL adoptada en el estándar de codificación de video H.264. Una imagen ODR definida de acuerdo con la invención tiene las siguientes características: 1. El proceso de descodificación puede ser iniciado o reiniciado después de una operación de acceso aleatorio de una imagen ODR. 2. Una imagen ODR contiene solamente rebanadas I o SI; 3. La unidad NAL de ODR contiene una rebanada EBSP y . El tipo de unidad NAL de ODR es usado para todas las unidades NAL que contienen datos de macrobloque codificados de una imagen ODR. Una imagen GDR definida de acuerdo con la invención tiene .las siguientes características: 1. El proceso de descodificación puede ser iniciado o reiniciado después de una operación de acceso aleatorio de una imagen GDR; 2. Una imagen GDR puede ser codificada con cualquier tipo de codificación. 3. El tipo de unidad NAL de GDR es usado para todas las unidades NAL que contienen datos de macrobloque codificados de una imagen GDR. De acuerdo con la invención, la leading_picture_flag asociada con una imagen delantera tiene las siguientes características : 1. La leading_picture_flag señala una imagen que no será descodificada si el proceso de descodificación fue iniciado de una imagen ODR previa en el orden de descodificación y una imagen IDR ocurrió en el orden de descodificación entre la imagen actual y la imagen ODR. 2. La leading_picture_flag permite acceso aleatorio a una imagen ODR que es usada como referencia de compensación de movimiento por imágenes temporalmente previas en orden de presentación, sin descodificar aquellos cuadros que no pueden ser reconstruidos correctamente si la imagen ODR es accesada aleatoriamente . Los siguientes cambios en el proceso de descodificación H.264 resultan de la adopción de imágenes ODR y GDR y los mecanismos para señalización de puntos de acceso aleatorio y cuadros delanteros como se define de acuerdo con la presente invención: 1. Si el identificador de sub-secuencia de una imagen GDR u ODR es diferente del identificador de sub-secuencia recibido previo, el descodificador infiere una operación de renovaciónde GDR u ODR y el índice de cuadro a largo plazo máximo es restablecido a 0. 2. Si una operación de ODR iniciada de una imagen de ODR y si ninguna imagen de ODR o IDR fue descodificada desde la imagen de ODR inicial, una imagen que tiene una leading_picture_flag igual a wl" no es descodif cada. 3. Si una operación de GDR iniciada de una imagen de GDR, el descodificador no descodifica ninguna región abandonada y no interfiere una pérdida de datos si no se recibe una región abandonada. Se hace constar que, con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente invención.

Claims

REIVINDICACIONES Habiéndose descrito la invención como antecede, se reclama como propiedad, lo contenido en las siguientes reivindicaciones: 1. Un método para llevar a cabo la renovación gradual del contenido de imagen en relación con acceso aleatorio a una secuencia de video codificada, la secuencia de video comprende un número de cuadros de video, el contenido de video de cada cuadro es codificado en por lo menos un forma no pronosticado temporalmente y un formado pronosticado temporalmente, caracterizado porque la renovación gradual es implementada al definir una región dentro del área de imagen representada por los cuadros de video, renovación del contenido de imagen de la región progresivamente a medida que cada cuadro codificado de la secuencia de video es descodificado después del acceso aleatorio y provocar que la región evolucione progresivamente de una manera predeterminada en un período de más de un cuadro, para cubrir toda el área de imagen representada por los cuadros de video, proporcionando mediante esto una renovación completa del contenido de imagen. 2. El método de conformidad con la reivindicación 1, caracterizado porque el acceso aleatorio ocurre en un cuadro codificado en un formato pronosticado temporalmente . 3. El método de conformidad con la reivindicación 1, caracterizado porque el acceso aleatorio ocurre en un cuadro codificado en un formato no pronosticado temporalmente. 4. El método de conformidad con la reivindicación 1, caracterizado porque se proporciona una indicación de la manera predeterminada en la cual la región evoluciona en un flujo de bits representativo de la secuencia de video codificada . 5. El método de conformidad con la reivindicación 4, caracterizado porque la indicación de la manera predeterminada en la cual la región evoluciona incluye una indicación de la dirección en la cual la región evoluciona. 6. El método de conformidad con la reivindicación 4, caracterizado porque la indicación de la manera predeterminada en la cual la región evoluciona incluye una indicación de una velocidad de crecimiento que especifica una cantidad por la cual la región crece de un cuadro al siguiente . 7. El método de conformidad con la reivindicación 6, caracterizado porque la indicación de la velocidad de crecimiento especifica un número de macrobloques por los cuales la región crece de un cuadro al siguiente. 8. Un descodificador de video, caracterizado porque es arreglado para implementar el método de conformidad con la reivindicación

1.