MX2010011541A

MX2010011541A - Metodo y aparato para codificar y descodificar video.

Info

Publication number: MX2010011541A
Application number: MX2010011541A
Authority: MX
Inventors: Shih-Ta Hsiang; Faisal Ishtiaq; Tamer Shanableh
Original assignee: Motorola Mobility Inc
Priority date: 2008-04-24
Filing date: 2009-04-07
Publication date: 2011-06-21
Also published as: CN102067599B; WO2009131830A1; US8249142B2; BRPI0910340B1; RU2013128143A; US20090268805A1; CN102067599A; EP2279619A1; BRPI0910340A2; EP2279619B1; KR101249652B1; RU2010147830A; RU2534751C1; KR20100137010A

Abstract

Un método y aparato para codificar y descodificar video realiza la transformación de por lo menos una porción de una trama de video con alta resolución en una imagen con baja resolución y una pluralidad de conjuntos de datos de mejora, codifica la imagen con baja resolución como una imagen codificada primaria en un formato de corriente de bits y codifica cada una de la pluralidad de conjuntos de datos de mejora como una imagen codificada redundante diferente en el formato de corriente de bits. Para descodificar, se genera una imagen con baja resolución descodificada y una pluralidad de conjuntos de datos de mejora descodificados y se realiza una transformación inversa para crear una imagen con alta resolución descodificada. La imagen codificada primaria y una imagen codificada redundante pueden formatearse de acuerdo con la especificación ITU-T H.264 de Codificación Avanzada. La transformación puede ser una transformación polifásica o de sub-banda.

Description

MÉTODO Y APARATO PARA CODIFICAR Y DESCODIFICAR VIDEO CAMPO DE LA INVENCIÓN La presente descripción se relaciona por lo general con la videocomunicación y más en particular con técnicas de videocomunicación que proporcionan resolución de imagen escalable y tolerancia a falla mejorada.

ANTECEDENTES DE LA INVENCIÓN En la norma de codificación de video H.264/AVC con fecha de 3/2005, cada unidad de acceso (p. 4, sección 3.1, definición de "unidad de acceso") comprende una imagen codificada primaria para proporcionar la información requerida para la representación de una imagen en movimiento codificada. Una unidad de acceso puede además contener una o más imágenes codificadas redundantes, que "no tienen efecto normativo en el proceso de descodificación". Sección 7.4.3 ("Semántica de encabezado del segmento: redundant_pic_cnt" ) de estos estados estándar: "No se requiere un proceso de descodificación para un segmento codificado o división de datos de segmento codificado de una imagen codificada redundante. Cuando redundant_pic_cnt en el encabezado de segmento de un segmento codificado es mayor que 0, el descodificador puede descartar el segmento codificado. NOTA 6 Cuando algunos de los ejemplos en la imagen primaria descodificada no puede descodificarse correctamente debido a errores o pérdidas en la transmisión de la secuencia y un segmento redundante codificado puede descodificarse correctamente, el descodificador debe reemplazar las muestras de la imagen primaria descodificada con las muestras correspondientes del segmento redundante descodificado. Cuando más de un segmento redundante cubre la región relevante de la imagen primaria, puede utilizarse el segmento redundante que tiene el valor más bajo de redundant_pic_cnt . " De esta manera, la presencia de una o más imágenes codificadas redundantes en la corriente de bits codificada es opcional y el uso pretendido (pero no un uso requerido) de una imagen codificada redundante es la corrección de los errores de transmisión en la imagen codificada primaria. Wikipedia.com presentó (el 15 de marzo de 2008) la característica de la imagen codificada redundante de H.264 de la siguiente manera,- "Segmentos redundantes (RS) , una característica de robustez de error/pérdida que permita que un codificador envíe una representación extra de una región de imagen (por lo regular a más baja fidelidad) que puede utilizarse si se corrompe o se pierde la representación primaria" .

La nueva versión prepublicada de la norma MPEG-4 AVC/H.264 además proporciona herramientas de codificación escalable de video y permite que un descodificador recupere la imagen codificada primaria o una forma con mayor resolución de la imagen codificada primaria. Sin embargo, la industria no adoptó rápidamente estas nuevas herramientas de codificación estándar que implican complejidad de implementación aumentada.

BREVE DESCRIPCIÓN DE LAS FIGURAS Las figuras anexas, donde los números de referencia similares se refieren a elementos idénticos o funcionalmente similares a lo largo de las vistas separadas, junto con la descripción detallada a continuación, se incorporan en y forman parte de la especificación, y sirven para además ilustrar las modalidades de conceptos que incluyen la invención reivindicada, y explica varios principios y ventajas de estas modalidades.

La FIGURA 1 es un diagrama que muestra una porción de una trama de video a color, de acuerdo con ciertas modalidades .

La FIGURA 2 y la FIGURA 3 son, respectivamente, un diagrama de bloques funcional y un diagrama de flujo de un aparato y algunas etapas de un método para codificar por lo menos una porción de una trama de video de acuerdo con ciertas modalidades.

La FIGURA 4 es un diagrama de flujo que muestra una etapa de un método para realizar una transformación de acuerdo con ciertas modalidades.

La FIGURA 5 es un diagrama de bloques de una función de transformación de acuerdo con ciertas modalidades.

La FIGURA 6 es un diagrama que ilustra la cuadrícula de muestreo para una porción de una trama de video, de acuerdo con ciertas modalidades.

La FIGURA 7 es un diagrama de flujo que muestra algunas etapas de un método para realizar una transformación de acuerdo con ciertas modalidades.

La FIGURA 8 y la FIGURA 9, respectivamente, son un diagrama de bloques de un descodificador y etapas de un método para descodificar, mostradas de acuerdo con ciertas modalidades .

La FIGURA 10 es un diagrama de bloques de una función de transformación inversa para una función promedio descrita con referencia a la FIGURA 6.

Los expertos en la técnica apreciarán que los elementos en las FIGURAS se ilustran por simplicidad y claridad y no necesariamente se dibujaron a escala. Por ejemplo, las dimensiones de algunos elementos en las FIGURAS, pueden exagerarse en relación con otros elementos para ayudar a mejorar el entendimiento de las modalidades de la presente invención .

Los componentes del aparato y método se representaron según era adecuado mediante símbolos convencionales en los dibujos, mostrando únicamente aquellos detalles específicos concernientes al entendimiento de las modalidades de la presente invención para no opacar la descripción con detalles que serán fácilmente aparentes para aquellos con habilidad ordinaria en la técnica que tengan el beneficio de la descripción en la misma.

DESCRIPCIÓN DETALLADA DE LA INVENCIÓN De acuerdo con ciertos aspectos de las presentes modalidades, las técnicas se describen como que proporcionan transformación de una trama de video original con alta resolución a una imagen con baja resolución y una pluralidad de conjunto de datos mejorados, que entonces se codifican y pueden transmitirse cómo corrientes de bits codificadas. La imagen con baja resolución puede descodificarse y utilizarse para generar una versión de baja resolución de la trama de video recuperada con alta resolución. La imagen de baja resolución y la pluralidad de conjuntos de datos mejorados pueden descodificarse y de forma inversa transformarse para crear una trama de video descodificada con alta resolución.

En algunas modalidades, la manera en que el video se codifica y descodifica es compatible con la especificación publicada por la Unión Internacional de Telecomunicaciones que se identifica como la especificación ITU-T H.264 de fecha de 03/2005, titulada "SERIES H: SISTEMAS AUDIOVISUALES Y DE MULTIMEDIA, Infraestructura de servicios audiovisuales Codificación de video en movimiento - Codificación de video avanzado para servicios genéricos audiovisuales" , que en lo sucesivo se conocen como "ITU-T H.264 de Codificación Avanzada", y la especificación equivalente publicada por el Grupo de Expertos de Imagen en Movimiento, que comúnmente se conocen como la especificación de MPEG-4 Parte 10 AVC. Además, la manera en que se codifica y descodifica el video puede ser compatible con las especificaciones aún no publicadas. En particular, las técnicas descritas en la presente exploran el nuevo uso de la herramienta de imagen redundante, que no tiene efecto normativo en los procesos de descodificación, junto con la codificación de sub-banda y la codificación múltiple de la descripción (MDC) . Estas técnicas también pueden ser compatibles con las técnicas de codificación de video que no sean las especificadas en ITU-T H.264 de Codificación Avanzada.

Una transformación de sub-banda/tren de ondas descompone una imagen de entrada en una representación de señal en multiresolución . Se ha demostrado ser uno de los métodos más eficientes para la compresión de imágenes en la literatura y se utiliza en la norma internacional JPEG 2000 para las aplicaciones de codificación de imagen y video (en el formato de Movimiento JPEG 2000) en la industria. Gracias a la compactación de gran energía de la transformación de sub-banda/tren de ondas, los codificadores de sub-banda/tren de ondas son capaces de lograr un excelente desempeño de compresión sin los artefactos tradicionales de bloqueo asociados con la transformación de bloqueo. Más importante, pueden acomodar fácilmente la funcionalidad de codificación escalable espacial deseable casi sin penalidad en la eficiencia de compresión debido a que la transformación de sub-banda-tren de ondas es una resolución escalable por naturaleza.

Se utilizaron ciertas formas de muestreo polifásico en la codificación múltiple dé la descripción. La codificación de video Múltiple de la Descripción (MD) es un método para unidifundir y multidifundir la transmisión de video sobre las redes propensas a error. La codificación de video múltiple de la descripción es conceptualmente diferente a la codificación escalable de video tradicional de multicapa disponible en los codees híbridos tales como la familia o especificaciones de MPEG-2, MPEG-4 y H.26x. En la codificación de video de MD, un número de descriptores de video igualmente importantes se genera y probablemente se entrega a través de los diferentes canales o trayectorias de transmisión. Cada descriptor de video se descodifica de manera individual y es capaz de reproducir la resolución del video original aunque posiblemente a una menor calidad. Por lo tanto, un cliente remoto puede recuperar y utilizar el video codificado mientras que por lo menos se haya recibido de manera exitosa una descripción. La noción de las capas de video jerárquicas no aplica, por ende entre más descriptores de video haya disponibles para el receptor, mayores serán los videos descodificados sin importar el orden de los descriptores recibidos. En otras palabras, la codificación de video múltiple de la descripción remueve las dependencias de la intercapa, y por ende la prioritización de capa de video introducida por la codificación multicapa tradicional ya no es necesaria.

La FIGURA 1 es un diagrama que muestra una cuadrícula de muestreo para una porción 100 de una trama de video a color, de acuerdo con ciertas modalidades. Es similar a la figura 6-1 de ITU-T H.264 de Codificación Avanzada, que se titula "Ubicaciones verticales y horizontales nominales de muestras de brillo y color 4:2:0 en una trama". En la FIGURA 1, las muestras 105 de brillo de la trama de video se muestran como X y uno de los dos conjuntos asociados de muestras 110 de color se muestran como O. Las muestras de color en el otro conjunto de color se presentarían en las mismas posiciones mostradas para las muestras 110 de color. La cantidad de muestras 105 de brillo se relaciona con la resolución y tamaño de la imagen de video en la trama. La cantidad de muestras de color se relaciona con la cantidad de muestras de brillo. La FIGURA 1 ilustra una trama de video especificada en un formato 4:2:0 en donde la cantidad de las muestras de color es ¾ de la cantidad de las muestras de brillo. La norma ITU-T H.264 de Codificación Avanzada proporciona otras proporciones tales como 1 a 1 y ½ a 1. Por supuesto, una imagen monocromática no tiene muestras de color. Cuando una trama de video, o una porción de la trama de video, tal como una división, macrobloque, o una región de interés se codifican, por ejemplo, de acuerdo con la norma ITU-T H.264 de Codificación Avanzada, las operaciones realizadas en las muestras de brillo también se llevan a cabo en las muestras de color, escaladas a la cantidad de muestras de color. Lo mismo es real con las operaciones únicas definidas en la misma. Para simplificar la descripción de las operaciones, éstas se describen en términos de píxeles, en donde un píxel puede tomarse como una muestra de brillo o una muestra de color. Para además simplificar en términos utilizados en la presente, cuando el término "porción" se utiliza, significa "por lo menos una porción", que puede incluir una parte, partes o la totalidad. Cuando la trama de video es una trama a color, las operaciones descritas se llevan a cabo en los conjuntos de muestras de brillo y de color para la porción de la trama de video, escaladas a los tamaños de los conjuntos de muestras.

La FIGURA 2 y la FIGURA 3 son, respectivamente, un diagrama 200 de bloques funcional y un diagrama 300 de flujo de un aparato y algunas etapas de un método para codificar por lo menos una porción de una trama de video, de acuerdo con ciertas modalidades. Con referencia a la FIGURA 2, la información de una secuencia de trama 205 de video se acopla a una entrada 210 de una función 215 de transformación. Por lo regular, la información se opera sobre una trama de video a la vez, o por lo menos una porción (tal como un segmento) de una trama de video. En este ejemplo, la trama 206 de video de la secuencia 205 de trama de video se opera mediante la función 215 de transformación. La trama 206 de video es una trama de video con alta resolución. La función 215 de transformación transforma (305, FIGURA 3) por lo menos una porción de la trama 206 de video (FIGURA 2) en una imagen 220 con baja resolución y una pluralidad de conjuntos 225, 230, 235 de datos de mejora. En el ejemplo mostrado en la FIGURA 2, existen tres conjuntos 225, 230, 235 de datos de mejora. La pluralidad de conjuntos de datos de mejora podría ser una cantidad diferente a tres en algunas modalidades. La transformación utilizada por la función 215 de transformación tiene diversas modalidades, como se describe en mayor detalle a continuación. Los tipos de transformaciones que se utilizan mediante la función 215 de transformación en ciertas modalidades son tales de manera que realizar la inversión de la transformación de la imagen con baja resolución y la pluralidad de conjuntos de datos mejorados reconstruye la trama de video con alta resolución (o porción de la misma) .

La imagen 220 con baja resolución se acopla a un codificador de imagen primaria (Codificador de PP) 240, que codifica la imagen con baja resolución con el uso de técnicas de codificación para la codificación de imagen primaria, generando una imagen 250 codificada primaria. Cada una de la pluralidad de conjuntos de datos de mejora se acopla a un codificador de imagen redundante (Codificador de RP) 245, que codifica el conjunto de datos de mejora correspondiente con el uso de técnicas de codificación para la codificación de imagen redundante, generando una imagen 255, 260, 265 codificada redundante. De acuerdo con ciertas modalidades, el codificador 240 de imagen primaria codifica (310, FIGURA 3) la imagen con baja resolución como una imagen primaria en un formato que se especifica mediante ITU-T H.264 de Codificación Avanzada, y cada codificador 245 de imagen redundante codifica (315, FIGURA 3) uno de los conjuntos y datos de mejora como una imagen codificada redundante diferente en el formato que se especifica mediante ITU-T H.264 de Codificación Avanzada. Cuando se utilizan las técnicas de codificación que no sean las especificadas por ITU-T H.264 de Codificación Avanzada, la codificación descrita anteriormente como codificación de imagen primaria puede realizarse mediante cualquier método de codificación de la técnica que sea compatible con la codificación de una imagen con baja resolución que normalmente se descodifica mediante un descodificador para esa técnica, y la codificación descrita anteriormente como codificación de imagen redundante puede realizarse mediante cualquier método de codificación de la técnica que sea compatible con la codificación de un conjunto de datos de mejora o complementarios, es decir, uno que se identifica para un descodificador para esa técnica como asociado con la trama de video con alta resolución, y para la cual la descodificación puede ser opcional. Los formatos de imagen y codificación utilizados para otras técnicas pueden identificarse por nombres que no sean "imagen codificada primaria" y "imagen codificada redundante" . Cuando se completa la imagen con baja resolución en la codificación de conjunto de datos de mejora, la imagen 250 codificada primaria y la pluralidad de imágenes 255, 260, 265 codificadas redundantes, se acopla a una función 270 de formación de corrientes de bits que las forma en una corriente de bits 275, que entonces puede transmitirse (320, FIGURA 3) .

Con referencia a la FIGURA 4, un diagrama de flujo muestra una etapa de un método para realizar una transformación, de acuerdo con ciertas modalidades. En estas modalidades, la función 215 de transformación realiza 405 una transformación de sub-banda de la porción de la trama de video con alta resolución para generar una representación con baja resolución y conjuntos de datos de mejora comúnmente conocidos como sub-bandas LL, HL, LH y HH de la trama de video (o porción de la misma) .

Con referencia a la FIGURA 5, se muestra un diagrama de bloques de la función 215 de transformación de sub-banda de acuerdo con ciertas modalidades. La función 215 de transformación comprende bancos 505, 515 de filtro de análisis de sub-banda que son bancos de filtro de sub-banda convencionales, y en algunas modalidades, bancos de filtro de tren de ondas, que son bien conocidos en la técnica. La trama 206 de video de entrada (o porción de la misma) se procesa primero respectivamente mediante un filtro 506 de paso bajo y un filtro 507 de paso alto, seguido de una operación de muestreo a lo largo de la dirección vertical de la imagen, generando señales 510 intermedias. Las señales 510 intermedias entonces se procesan respectivamente mediante un filtro de paso bajo y un filtro de paso alto que tienen las mismas funciones de transferencia, seguidas de una operación de muestreo a lo largo de la dirección horizontal, generando las cuatro sub-bandas LL 220, HL 225, LH 230 y HH 235 que están sujetas a codificación mediante el Codificador PP 240 y los Codificadores PR 245 en la FIGURA 2, respectivamente. Este proceso comúnmente se conoce como descomposición de sub-banda. Los bancos de filtro de síntesis de sub-banda correspondientes que se utilizan en la función 875 (FIGURA 8) de transformación inversa de descodificador 800 pueden crear a partir de las cuatro sub-bandas descodificadas una versión descodificada de la trama 206 de video con alta resolución original que se desfragmentó mediante los bancos 505, 515 de filtro de análisis de sub-banda (FIGURA 5) . Los filtros utilizados en los bancos, 505, 515 de filtro de síntesis/análisis de sub-banda pueden pertenecer a una familia de filtros de tren de ondas o una familia de filtros QMF que son conocidos en la técnica, y la estructura de los bancos de filtro de sub-banda pueden ser una estructura diferente a la mostrada, que es conocida en la técnica.

Con referencia a la FIGURA 6, un diagrama ilustra una porción de una trama 600 de video, de acuerdo con ciertas modalidades. Los pixeles de la porción de la trama de video mostrada en la FIGURA 6 se ejemplificaron en fases de la porción de la trama de video. En este ejemplo, el muestreo se llevó a cabo con un factor de dos en cada dimensión espacial. De esta manera, se formaron cuatro fases de únicamente conjuntos diferentes de pixeles, cada uno que comprende aproximadamente un cuarto del número de pixeles en la porción de la trama de video. Se establece la cantidad de un cuarto como aproximada debido a los efectos de borde. Los pixeles de las cuatro fases diferentes se representan como triángulos, x, cuadrados, y circuios. Una cercanía de pixeles puede definirse como válida para cualquier píxel en la trama de video. En este ejemplo, una cercanía de pixeles se define como que incluye un píxel seleccionado, tal píxel 615, y otros pixeles incluidos dentro del límite 610 de la cercanía. En general, una cercanía de pixeles puede tener cualquier forma y tamaño. Un grupo de fase de pixeles puede definirse para cualquier píxel en la trama de video. Un grupo de fase de pixeles incluye un píxel de cada fase ubicado en la misma posición en la cuadrícula de imagen muestreada respectiva. En el ejemplo de la FIGURA 6, el píxel 615 se selecciona e identifica el grupo de fase de píxel dentro del límite 605.

El tamaño de un grupo de fase de pixel se determina mediante el factor de muestreo. Para los propósitos de este documento, el pixel 615 seleccionado se designa como un pixel (0,0). El pixel identificado mediante la x dentro del grupo de fase de pixel se designa como el pixel (1,0) . El pixel identificado mediante un cuadrado dentro del grupo de fase de pixel se designa como (0,1) . El pixel identificado mediante el circulo dentro del grupo de fase de pixel se designa como (1,1) . Aunque un grupo de fase de pixel debe tener una relación topográfica consistente con un pixel seleccionado de una fase particular para una modalidad particular, la relación topográfica puede ser diferente en otras modalidades. Por ejemplo, el grupo de fase de pixel mostrado en la FIGURA 6 utiliza pixeles que son vecinos más cercanos al pixel seleccionado y que están a la derecha por debajo del pixel seleccionado, pero otro conjunto de cuatro vecinos más cercanos únicos podría utilizarse para un grupo de fase.

Con referencia a la FIGURA 7, un diagrama de flujo 700 muestra algunas etapas de un método 700 para realizar una transformación, de acuerdo con ciertas modalidades. En la etapa 705, la función 215 de transformación forma una pluralidad de fases de la porción de la trama 206 de video con alta resolución. En los ejemplos mostrados en la FIGURA 6, la pluralidad es igual a cuatro. En la etapa 710, la función 215 de transformación forma la imagen con baja resolución para comprender pixeles de baja resolución en donde se determina un valor de cada píxel de baja resolución con el uso de una función promedio de valores de pixeles dentro de una cercanía de pixeles de cada píxel que está en una primera fase de la pluralidad de fases. En la etapa 715, la función 215 de transformación determina cada conjunto de datos de mejora de la pluralidad de conjuntos de datos de mejora como un conjunto único que comprende todos los pixeles de una fase que no sea de la primera fase. Por ejemplo, los conjuntos de datos de mejora para la porción transformada de la trama 600 de video mostrada en la FIGURA 6 comprendería un conjunto de todos los pixeles en la porción de la trama 600 de video designada por cuadrados, un conjunto de todos los pixeles en la porción de trama 600 de video designada por x, y un conjunto de todos los pixeles en la porción de la trama 600 de video designada por círculos. Debe hacerse notar que la primera fase puede ser cualquier fase particular de la pluralidad de fases que es útil para el método.

De acuerdo con ciertas modalidades, la función promedio es una función de impulso, que determina el valor de cada píxel de baja resolución como igual al valor del píxel correspondiente de la primera fase. En otras palabras, el promedio es un promedio de un número. En el ejemplo mostrado en la FIGURA 6, la imagen con baja resolución simplemente comprende todos los píxeles designados mediante los triángulos .

De acuerdo con ciertas modalidades, la función promedio determina el valor de cada pixel de baja resolución como igual al promedio de los valores de píxeles dentro de una cercanía de píxeles de un pixel de la primera fase. En el ejemplo mostrado en la FIGURA 6, el valor del pixel de la imagen con baja resolución que se relaciona con el pixel 615 de una fase particular se determina al promediar los valores de nueve píxeles dentro de los límites 610. De acuerdo con ciertas modalidades, la función promedio determina el valor dé cada pixel de baja resolución como igual al promedio de los valores del pixel dentro del grupo de fases de píxeles de un pixel de la primera fase. En los ejemplos mostrados en la FIGURA 6, el valor del pixel de la imagen con baja resolución que se relaciona con el pixel 615 de la primera fase puede determinarse al promediar los valores de los cuatro píxeles dentro del límite 605.

De acuerdo con ciertas modalidades, el número de fases es cuatro. Los cuatro píxeles identificados con referencia a la FIGURA 6 mediante el triángulo, x, cuadrado, y círculo en cada grupo de fase de pixel se identifican de forma alterna respectivamente como píxeles (0,0), (0,1), (1,0) , y (1,1) . Los píxeles (0,0) y (1,1) se colocan de manera diagonal. La función promedio determina el valor de cada píxel de baja resolución como igual a la media del valor de un píxel de la primera fase (píxel 615 en la FIGURA 6) y un predictor y. El predictor y se determina a partir de los píxeles en el mismo grupo de fase de píxel como el píxel de la primera fase, de la siguiente manera: y = max ((0,1 ), (1 ,0)) cuando (1 ,1) es >= max ((0, 1), (1 ,0)) (1 ) y = min ((0,1 ), (1 ,0)) cuando (1 ,1) es <= min ((0,1 ),(1 ,0)) (2) y = (0, 1 ) + (1 ,0) - (1 , 1 ) o de otra manera (3) Con referencia a la FIGURA 8 y la FIGURA 9, un diagrama de bloques de un descodif icador 800 y etapas de un método 900 para descodificar, se muestran respectivamente de acuerdo con ciertas modalidades. Una corriente de bits 805 (FIGURA 8) se codificó de acuerdo con una modalidad descrita con referencia a la FIGURA 1, la FIGURA 2, la FIGURA 3, la FIGURA 4, la FIGURA 5, la FIGURA 6 y la FIGURA 7 se acopló a un separador 810 de corriente de bits (FIGURA 8) . Una imagen 815 codificada primaria y una pluralidad de imágenes 820, 825, 830 codificadas redundantes se recibió (905, FIGURA 9) en la corriente de bits y está separada mediante el separador 810 de corrientes de bits. Un descodificador 835 de imagen primaria (FIGURA 2) genera (910, FIGURA 9) una imagen 855 con baja resolución al descodificar la imagen 815 codificada primaria. En la etapa 915 (FIGURA 9) , cuando se realiza una selección en la etapa 930 (FIGURA 9) para utilizar una imagen con baja resolución, una función 875 de transformación inversa (FIGURA 8) puede simplemente escalar la información en la imagen con baja resolución y generar una imagen 885 con baja resolución descodificada en la salida 880, y no necesitan realizarse etapas del método 900. En la etapa 915 (FIGURA 9) , cuando se realiza una selección para utilizar una imagen con alta resolución, una pluralidad de descodificadores 840 de imagen redundante (FIGURA 8) genera (920, FIGURA 9) una pluralidad de conjuntos 860, 865, 870 de datos de mejora al descodificar la pluralidad correspondiente de imágenes 820, 825, 830 codificadas redundantes. La función 875 de transformación inversa (FIGURA 8) realiza (925, FIGURA 9) una transformación inversa de la imagen 855 con baja resolución (FIGURA 2) y cada una de la pluralidad de conjuntos 860, 865, 870 de datos de mejora (FIGURA 2) , que construye la versión descodificada de la porción de la trama 855 de video con alta resolución a partir de la cual, la imagen codificada primaria y la pluralidad de conjunto de datos mejorados se generaron en la salida 880, como parte de una secuencia 890 de trama de video. La etapa 925 puede establecerse ligeramente diferente como reconstruyendo al menos sustancialmente la porción de la trama 206 de video con alta resolución.

Al reconstruir la porción de la trama 885 de video con alta resolución, la función 875 de transformación inversa utiliza una inversión de la transformación que se utiliza para codificar la trama 206 de video con alta resolución. Para una versión codificada de una trama de video con alta resolución que se generó con el uso de la transformación de sub-banda, como se describió en la FIGURA 4, la función 875 de transformación inversa es una operación de síntesis de sub-banda que sintetiza la trama de video descodificada con alta resolución, con el uso de bancos de filtro de síntesis doble como es conocido para aquellos con habilidad ordinaria en la técnica. Para una trama de video codificada con alta resolución que se generó con el uso de una transformación polifásica, como se describió en la FIGURA 7, la función 875 de transformación inversa comprende una función promedio inversa. Con referencia a la FIGURA 10, un diagrama de bloques de una función 1000 de transformación inversa para la función promedio descrita anteriormente con referencia a la FIGURA 6, se muestra de acuerdo con ciertas modalidades. La función 1000 de transformación inversa comprende una memoria 1005, una función 1010 promedio inversa, y una función 1035 de reconstrucción. La pluralidad de conjuntos 860, 865, 870 de datos mejorados se acopla a la memoria 1005, que almacena los conjuntos de datos mejorados como fases 2, 3 , y 4 de la imagen con alta resolución. La imagen 855 con baja resolución se acopla a la función 1010 promedio inversa. Cuando se realiza una selección para una imagen con baja resolución en el método 900 (FIGURA 9) , la función 1010 promedio inversa genera la imagen 855 con baja resolución en la salida 880. La imagen 855 con baja resolución se recibe mediante la función 1035 de reconstrucción y pasa a través de la salida 880. Ya sea la función 1010 promedio inversa o la función 1035 de reconstrucción, o ambas, pueden aplicar el escalamiento a los valores de la imagen 855 con baja resolución. Cuando se realiza una selección para una imagen con alta resolución en el método 900 (FIGURA 9) , la función 1010 promedio inversa determina la primera fase de la porción de la trama de video con alta resolución de la imagen 855 con baja resolución y las otras fases de la porción de la trama 1020, 1025, 1030 de video con alta resolución, con el uso de métodos bien conocidos para alguien con habilidad ordinaria en la técnica. La primera fase de la porción de la trama de video con alta resolución se acopla de la salida 1015 a la función 1035 de reconstrucción, junto con las otras fases de la porción de la trama 1020, 1025, 1030 de video con alta resolución, donde se combinan para reconstruir la porción de la trama 885 de video con alta resolución en la salida 880.

Se apreciará que ciertas etapas de los métodos descritos en la presente pueden no requerir realizarse en el orden descrito. Como un ejemplo, la etapa 920 del método 900 en la FIGURA 9 podría realizarse antes de la etapa 915; los resultados de la etapa 920 pueden entonces no utilizarse cuando se elige la imagen con baja resolución.

Las modalidades descritas en la presente proporcionan nuevos métodos para la codificación escalable de imagen/video y codificación múltiple de la descripción sin requerir cambios sustanciales a los codificadores y descodificadores no escalables existentes. En particular, las técnicas pueden además utilizar la herramienta de imagen redundante y pueden aplicarse fácilmente a los sistemas de codificación de video tradicionales que únicamente están diseñados para que sean compatibles con los perfiles ITU-T H.264 no escalables.

Se apreciará que algunas modalidades pueden comprender uno o más procesadores genéricos o especializados (o "dispositivos de procesamiento") tales como microprocesadores, procesadores de señal digital, procesadores personalizados y disposiciones de puerta de campo programable (FPGA) e instrucciones de programa únicas almacenadas (que incluye software y firmware) que controlan uno o más procesadores para implementar, junto con ciertos circuitos sin procesador, algunos, la mayoría, o todas las funciones de los métodos y/o aparatos descritos en la presente. De forma alterna, algunas, la mayoría, o todas estas funciones podrían implementarse mediante una máquina de estado que no tiene instrucciones de programa almacenadas, o en uno o más circuitos integrados para aplicaciones específicas (ASIC) , en donde cada función o algunas combinaciones de ciertas funciones se implementan como lógica personalizada. Por supuesto, podría utilizarse una combinación de los dos métodos.

Además, una modalidad puede implementarse como un medio de almacenamiento legible por computadora que tiene un código legible por computadora almacenado en la misma para programar una computadora (por ejemplo, que comprende un procesador) para realizar un método según se describe y reivindica en la presente. Ejemplos de tales medios de almacenamiento legibles por computadora incluyen, pero no se limitan a, disco duro, CD-ROM, un dispositivo de almacenamiento óptico, un dispositivo de almacenamiento magnético, una memoria ROM (Memoria de Sólo Lectura) , una memoria PROM (Memoria de Sólo Lectura Programable) , un memoria EPROM (Memoria de Sólo Lectura Programable y Borrable) , una memoria EEPROM (Memoria de Sólo Lectura y Borrado Programable Eléctricamente) y una memoria Flash.

Además, se espera que una persona con habilidad ordinaria en la técnica, no obstante el esfuerzo posiblemente considerable y varias opciones de diseño motivadas por, por ejemplo, tiempo disponible, tecnología actual, y consideraciones económicas , cuando se guíe mediante los conceptos y principios descritos en la presente, serán capaces de generar fácilmente tales instrucciones de software y programas de IC con experimentación mínima.

En la especificación anterior, se describieron modalidades específicas. Sin embargo, alguien con habilidad ordinaria en la técnica aprecia que varias modificaciones y cambios pueden realizarse sin apartarse del alcance de la invención como se establece en las siguientes reivindicaciones. Por consiguiente, la especificación y las FIGURAS deben considerarse ilustrativas en vez de en un sentido restrictivo, y todas las modificaciones pretenden incluirse dentro del alcance de las presentes enseñanzas . Los beneficios, ventajas, soluciones a problemas, y cualquier elemento que pueda provocar cualquier beneficio, ventaja o solución que ocurra o sea más pronunciada, no debe interpretarse como una característica o elemento crítico, requerido o esencial de cualquiera o todas las reivindicaciones. La invención se define únicamente mediante las reivindicaciones anexas que incluye cualquier enmienda realizada durante estado de pendiente de esta solicitud y todos los equivalentes de esas reivindicaciones según se emiten.

Además, en este documento, los términos relacionados tales como primer y segundo, superior e inferior, y similares pueden utilizarse únicamente para distinguir una entidad o acción de otra entidad o acción sin requerir necesariamente o implicar cualquier relación u orden actual entre las entidades o acciones. Los términos "comprende" , "que comprende" , "tiene" , "que tiene" , "incluye", "que incluye", "contiene", "que contiene" o cualquier otra variación de los mismos, pretende cubrir una inclusión no exclusiva, tal como un proceso, método, artículo, o aparato que comprende, tiene, incluye, contiene una lista de elementos, no incluye únicamente estos elementos sino que puede incluir otros elementos no enlistados expresamente o implícitamente en tal proceso, método, artículo o aparato. Un elemento seguido de "comprende ...un", "tiene ...un", "incluye ...un", "contiene ...un" no, sin mayores restricciones, excluye la existencia de elementos idénticos en el proceso, método, artículo o aparato que comprende, tiene, incluye, contiene el elemento. Los términos "un" y "una" se definen como uno o más a menos que se establezca explícitamente lo contrario en la presente. Los términos "sustancialmente" , "esencialmente", "aproximadamente", "alrededor de" o cualquier otra versión de los mismos, se definen como cercanos para que una persona con habilidad ordinaria en la técnica los entienda, y en una modalidad sin límite, el término se defina como dentro del 10%, en otra modalidad dentro del 5%, en otra modalidad dentro del 1% y en otra modalidad dentro del 0.5%. El término "acoplado" como se utiliza en la presente se define como conectado, aunque no necesariamente en forma directa o no necesariamente en forma mecánica. Un dispositivo o estructura que "se configura" en una cierta manera, se configura en por lo menos esa manera, pero también puede configurarse en otras formas no enlistadas .

El Extracto de la Descripción se proporciona para permitir que el lector establezca rápidamente la naturaleza de la descripción técnica. Se envía con el entendimiento de que no se utilizará para interpretar o limitar el alcance o significado de las reivindicaciones. Además, en la Descripción Detallada anterior, puede apreciarse que varias características se agrupan en varias modalidades para el propósito de agilizar la descripción. El método de la descripción no debe interpretarse como que refleja una intención de que las modalidades reivindicadas requieren más características que las enumeradas de forma expresa en cada reivindicación. Por el contrario, como lo reflejan las siguientes reivindicaciones, el objeto inventivo yace en menos que todas las características de una sola modalidad descrita. Por ende, las siguientes reivindicaciones se incorporan en la presente en la Descripción Detallada, con cada reivindicación independiente como un objeto reivindicado por separado.

Claims

NOVEDAD DE LA INVENCIÓN Habiendo descrito la presente invención se considera como novedad y por lo tanto se reclama como propiedad lo descrito en las siguientes: REIVINDICACIONES

1. Un método de codificación de video, caracterizado porque comprende: transformar por lo menos una porción de una trama de video con alta resolución en una imagen con baja resolución y una pluralidad de conjuntos de datos de mejora; codificar la imagen con baja resolución como una imagen codificada primaria; y codificar cada uno de la pluralidad de conjuntos de datos de mejora como una imagen codificada redundante diferente .

2. El método de codificación de video de conformidad con la reivindicación 1, se caracteriza porque la codificación se realiza en una manera que es compatible con la ITU-T H.264 de Codificación Avanzada.

3. El método de codificación de video de conformidad con la reivindicación 1, se caracteriza porque la transformación tiene una transformación inversa y que realiza la transformación inversa de la imagen con baja resolución y la pluralidad de conjuntos de datos mejorados por lo menos sustancialmente reconstruye la trama de video con alta resolución.

4. El método de codificación de video de conformidad con la reivindicación 1, se caracteriza porque la transformación utiliza una transformación de sub-banda que descompone la porción de la trama de video con alta resolución en las sub-bandas LL, HL, LH y HH y en donde la sub-banda LL es la imagen con baja- resolución y las sub-bandas HL, LH y HH son la pluralidad de conjuntos de datos de mej ora .

5. El método de codificación de video de conformidad con la reivindicación 1, se caracteriza porque la transformación comprende: realizar una transformación polifásica para descomponer la trama de video con alta resolución en subtramas de una pluralidad de diferentes fases; formar la imagen con baja resolución para comprender píxeles de baja resolución en donde un valor de cada píxel de baja resolución se determina con el uso de una función promedio de valores de píxeles definidos dentro de una cercanía de píxeles de cada píxel que está en una fase particular de la pluralidad de fases; y determinar cada conjunto de datos de mejora de la pluralidad de conjuntos de datos de mejora como un conjunto único que comprende todos los píxeles de una fase que no sea los de las primera fase.

6. El método de conformidad con la reivindicación 5, se caracteriza porque la función promedio es una función de impulso, que determina el valor de cada píxel de baja resolución como igual al valor de un píxel correspondiente de la fase particular.

7. El método de conformidad con la reivindicación 5, se caracteriza porque la función promedio determina el valor de cada píxel de baja resolución como igual a la media de los valores de los píxeles dentro de una cercanía de píxeles de un píxel de la fase particular.

8. El método de conformidad con la reivindicación 5, se caracteriza porque la cercanía de un píxel es un grupo de fase de, píxel.

9. El método de conformidad con la reivindicación 5, se caracteriza porque el número de fases es cuatro, en donde los cuatro píxeles en cada grupo de fases de píxeles se identifica como píxeles (0,0), (0,1), (1,0), y (1,1), en donde los píxeles (0,0) y (1,1) se colocan de manera diagonal, y en donde la función promedio determina el valor de cada píxel de baja resolución como igual a la media del valor de un píxel de la fase (0,0) (la fase particular) y un predictor y, en donde el predictor y se determina a partir de los píxeles en el mismo grupo de fase de píxeles como el píxel de la fase particular, de la siguiente manera: y = max ((0,1 ), (1 ,0)) cuando (1 ,1 ) es >= max ((0,1 ),(1 ,0)) y = min ((0,1), (1 ,0)) cuando (1 , 1) es <= min ((0,1),(1 ,0)) y = (0,1 ) + (1 ,0) - (1 ,1 ) o de otra manera

10. Un método de codificación escalable de video espacial, caracterizado porque comprende: transformar por lo menos una porción de una trama de video con alta resolución en una imagen con baja resolución y una pluralidad de conjuntos de datos de mejora, la transformación comprende formar una pluralidad de fases de la porción de la trama de video con alta resolución, en donde cada fase es una imagen mostrada diferente de la porción, formar la imagen de baja resolución como una que comprende píxeles de baja resolución en donde un valor de cada píxel de baja resolución se determina con el uso de una función promedio de valores de píxeles definidos dentro de una cercanía de píxeles de cada píxel en una fase particular de la pluralidad de fases, determinar cada conjunto de datos de mejora de la pluralidad de conjuntos de datos de mejora como un conjunto único que comprende todos los píxeles de una fase que no sea la fase particular; codificar la imagen de baja resolución con el uso de un primer proceso de codificación; y codificar cada una de la pluralidad de conjuntos de datos de mejora con el uso de un segundo proceso de codificació .

11. El método de conformidad con la reivindicación 10, se caracteriza porque la función promedio determina el valor de cada píxel de baja resolución como igual a la media de los valores de los pixeles dentro de una cercanía de píxel de un píxel de la fase particular.

12. El método de conformidad con la reivindicación 10, se caracteriza porque el número de fases es cuatro, en donde los cuatro pixeles en cada grupo de fases de pixeles se identifica como (0,0), (0,1), (1,0), y (1,1), en donde los pixeles (0,0) y (1,1) se colocan de manera diagonal, y en donde la función promedio determina el valor de cada píxel de baja resolución como igual a la media del valor de un píxel de la fase particular y un predictor y, en donde el predictor y se determina a partir de los pixeles en el mismo grupo de fase de pixeles como el píxel de la fase particular, de la siguiente manera: y = max ((0,1 ), (1 ,0)) cuando (1 , 1 ) es >= max ((0,1 ),(1 ,0)) y = min ((0,1 ), (1 ,0)) cuando (1 ,1) es <= min ((0,1 ),(1 ,0)) y = (0,1 ) + (1 ,0) - (1 ,1) o de otra manera

13. Un método de descodificación de video, caracterizado porque comprende: generar una imagen descodificada con baja resolución al descodificar una imagen codificada primaria; generar una pluralidad de conjuntos de datos de mejora descodificados al descodificar una pluralidad correspondiente de imágenes codificadas redundantes; y realizar una transformación inversa de la imagen descodificada con baja resolución y la pluralidad de conjuntos de datos de mejora descodificados para crear una versión descodificada de una porción de una trama de video con alta resolución a partir de la cual se genera la imagen codificada primaria y la pluralidad de imágenes codificadas redundantes.

14. El método de codificación de video de conformidad con la reivindicación 13, se caracteriza porque la descodificación se realiza en tal manera que sea compatible con la ITU-T H.264 de Codificación Avanzada.

15. El método de descodificación de video de conformidad con la reivindicación 13, se caracteriza porque la imagen de baja resolución es una sub-banda LL de la porción de la trama de video con alta resolución descompuesta de sub-banda, y la pluralidad de conjuntos de datos de mejora son las sub-bandas HL, LH, y HH de la trama de video descompuesta con alta resolución, y en donde la transformación inversa es una operación de síntesis de sub-banda que sintetiza la versión descodificada de la trama de video con alta resolución de la sub-bandas LL, HL, LH y HH.

16. El método de descodificación de video de conformidad con la reivindicación 13, se caracteriza porque la imagen con baja resolución comprende pixeles de baja resolución en donde un valor de cada píxel de baja resolución se determina con el uso de una función promedio de valores de pixeles definidos dentro de una cercanía de pixeles de cada píxel en una fase particular de una pluralidad de fases de la porción de la trama de video con alta resolución y cada una de la pluralidad de conjuntos de datos de mejora es un conjunto único que comprende todos los pixeles de una fase de la porción de la trama de video con alta resolución que no sea la fase particular, en donde la transformación inversa comprende : fijar cada fase de la trama de video con alta resolución que no sea la fase particular a una pluralidad correspondiente de conjuntos de datos de mejora; determinar la fase particular de la porción del video con alta resolución de la imagen de baja resolución y las otras fases de la porción del video con alta resolución; y combinar la fase particular y las otras fases para construir la versión descodificada de la trama de video con alta resolución.

17. Un aparato de descodificación, caracterizado porque comprende : un descodificador que recupera una imagen con baja resolución de una imagen codificada primaria en una corriente de bits y recupera una pluralidad de conjuntos de datos de mejora de una pluralidad correspondiente de imágenes codificadas redundantes en la corriente de bits,- y un post-procesador que realiza una transformación inversa en la imagen con baja resolución y la pluralidad de conjuntos de datos de mejora, creando una versión descodificada de una porción de una trama de video con alta resolución a partir de la cual se genera la imagen codificada primaria y la pluralidad de imágenes codificadas redundantes.

18. El aparato de descodificación de conformidad con la reivindicación 17, se caracteriza porque la recuperación se realiza de una manera que sea compatible con ITU-T H.264 de Codificación Avanzada.

19. El aparato de descodificación de conformidad con la reivindicación 17, se caracteriza porque la imagen con baja resolución es una sub-banda LL de la porción de la trama de video con alta resolución y la pluralidad de conjuntos de datos de mejora y de sub-bandas HL, LH, y HH de la porción de la trama de video con alta resolución, y en donde la transformación inversa es una operación de síntesis de sub-banda que sintetiza la porción de la versión descodificada de la trama de video con alta resolución de las sub-bandas descodificadas LL, HL, LH y HH .

20. El aparato de descodificación de conformidad con la reivindicación 17, se caracteriza porque la imagen con baja resolución comprende pixeles de baja resolución en donde un valor de cada píxel de baja resolución se determina con el uso de una función promedio de valores de pixeles definidos con una cercanía de pixeles de cada píxel en una fase particular de una pluralidad de fases de la porción de la trama de video con alta resolución en cada una de la pluralidad de conjuntos de datos de mejora, es un conjunto único que comprende todos los pixeles de una fase de la porción de la trama de video con alta resolución que no sea la fase particular, en donde la función de transformación inversa comprende: una memoria para fijar cada fase de la trama de video con alta resolución que no sea la fase particular a una pluralidad correspondiente de los conjuntos de datos de mej ora; una función promedio inversa que determina la fase particular de la porción del video con alta resolución de la imagen de baja resolución y las otras fases de la porción de la trama de video con alta resolución; y un reconstructor que combina la fase particular y las otras fases en la versión descodificada de la trama de video con alta resolución.