MX2013003871A

MX2013003871A - Metodo y aparato para escalabilidad espacial para hevc.

Info

Publication number: MX2013003871A
Application number: MX2013003871A
Authority: MX
Inventors: Krit Panusopone; David M Baylon; Ajay K Luthra; Wei-Ying Kung; Koohyar Minoo
Original assignee: Gen Instrument Corp
Priority date: 2011-03-11
Filing date: 2012-03-12
Publication date: 2013-06-24
Also published as: CA2810905C; CA2810905A1; KR20130070638A; CN103155561A; US20120170646A1; US9532059B2; EP2606650A1; WO2012125532A1

Abstract

En un sistema de distribución de video, se proporciona un divisor (105) para segmentar una corriente de video de entrada (302) en divisiones para cada uno de una pluralidad de canales de la corriente de video; un analizador de canal (306) está acoplado al divisor, en donde el analizador de canal descompone las divisiones; un codificador (106) está acoplado al analizador de canal para codificar las divisiones descompuestas en una corriente de bits codificada (208, 210) en donde el codificador recibe información de codificación desde al menos uno de la pluralidad de canales que van a ser utilizados en la codificación de las divisiones descompuestas en la corriente de bits codificada; un decodificador (124) recibe la corriente de bits codificada para decodificar la corriente de bits recibida y para reconstruir la corriente de video de entrada; el decodificador utiliza la información de codificación para decodificar la corriente de bits.

Description

METODO Y APARATO PARA ESCALABILIDAD ESPACIAL PARA HEVC CAMPO DE LA INVENCION Esta solicitud se refiere a la codificación de corrientes de video y, en particular, se refie;re a una división de las corrientes de video de acuerdo con las características encontradas en la corriente de video y después utilizando el método de codificación apropiado para codificar la corriente de video dividida.

ANTECEDENTES DE LA INVENCION Muchas técnicas de compresión de video, por ejemplo MPEG-2 y PEG-4 Parte 10/AVC, utilizan codificación de transformada compensada de movimiento basado en bloque. Estos enfoques intentan adaptar el tamaño del. bloque al ¡contenido para predicción espacial y temporal, con la codificación de transformada DCT del residual. Aunque se puede lograr la codificación eficiente, las limitaciones en el tamaño de bloque y artefactos de los bloques con frecuencia pueden afectar el desempeño. Lo que se necesita es un marco que permita la codificación del video que se pueda adaptar mejor al contenido de imágenes locales para una codificación eficiente y percepción visual mejorada.

BREVE DESCRIPCION DE LAS FIGURAS Las figuras acompañantes, donde números de referencia similares se refieren a elementos idénticos o funcionalmente similares a través de las diversas; vistas y que junto con la siguiente descripción detallada se incorporan y forman parte de la especificación, sirven para ilustrar adicionalmente varias modalidades y explicar diversos principios y ventajas todo ello de acuerdo con la presente invención.

La figura 1 es un ejemplo de una arquitectura de red que es utilizada por algunas modalidades de la Invención.

La figura 2 es un diagrama de un codificador/decodificador utilizado de acuerdo coh algunas modalidades de la invención.

La figura 3 es un diagrama de un codificador/decodificador utilizado de acuerdo algunas modalidades de la invención.

La figura 4 es una ilustración de un co'dificador que incorpora algunos de los principios de la invención.

La figura 5 es una ilustración de un decodificador correspondiente al codificador mostrado en la figura : 4.

La figura 6 es una ilustración de una imagen dividida tomada de una corriente de video de acuerdo con algunas modalidades de la invención. i La figura 7 es una ilustración de un codificador que incorpora algunos de los principios de la invención.

La figura 8 es una ilustración de un decodificador correspondiente al codificador mostrado en la figura 7.

Las figuras 9(a) y 9(b) son ilustraciones de i módulos de interpolación que incorporan algunos de los principios de la invención.

La figura 10 es una ilustración de un codificador que incorpora algunos de los principios de la invención.

La figura 11 es una ilustración de un decodificador correspondiente al codificador mostrado en la figurai 10.

La figura 12 es una ilustración de la codificación 3D.

La figura 13 es otra ilustración de la codificación 3D. , La figura 14 es otra ilustración todavía de la codificación 3D.

La figura 15 es una ilustración de un codificador que incorpora algunos de los principios de la invención.

La figura 16 es una ilustración de un decodificador correspondiente al codificador mostrado en la figura 15.

La figura 17 es un gráfico de flujo que muestra la operación de la codificación de una corriente de video de entrada de acuerdo con algunas modalidades de la invención.

La figura 18 es un gráfico de flujo que muestra la operación de la decodificación de una corriente de bits codificada de acuerdo con algunas modalidades de la invención. .

La figura 19 ilustra la descomposición de una entrada x en dos capas a través de filtración de análisis.

Aquellos expertos en la técnica apreciaran que los elementos en las figuras se ilustran por simplicidad y claridad y no necesariamente han sido dibujados a escala. Por ejemplo, las. dimensiones de algunos de los elementps en las figuras se pueden exagerar con relación a otros [elementos para ayudar a mejorar el entendimiento de las modalidades de i la presente invención.

DESCRIPCION DETALLADA DE LA INVENCION Antes de describir a detalle modalidades que son de acuerdo con la presente invención, se debiera observar que las modalidades residen principalmente en combinaciones de pasos de método y componentes de aparato relacionados con un método y aparato de la codificación basada en características de las corrientes de video. Por consiguiente, los componentes del aparato y pasos del método han sido representados, donde se juzga apropiado, mediante símbolos convencionales n los dibujos, mostrando solamente aquellos detalles específicos que son pertinentes al entendimiento de las modalidades de la presente invención a fin de no oscurecer la divulgación con detalles que serán fácilmente aparentes para ¡ aquellos expertos en la técnica quienes gocen del beneficio de la presente descripción. ; En este documento, los términos de relación tales como primero y segundo, superior e inferior, y similares pueden ser utilizados solamente para distinguir una entidad o acción de otra entidad o acción sin necesariamente requerir o implicar alguna relación u orden real entre dichas entidades o acciones. Los términos "comprende", "comprendiendo" o cualquier otra variación de los mismos, están destinados a cubrir una inclusión no exclusiva, de manera que un; proceso, método, articulo o aparato que comprende una lista de elementos no incluye solamente esos elementos sino que se pueden incluir otros elementos no expresamente enlistados o inherentes a dicho proceso, método, articulo o aparato. Un elemento precedido por "comprende...un" sin mayores restricciones no prohibe la existencia de elementos ¡idénticos adicionales en el proceso, método, articulo o aparato que comprende el elemento. Se apreciará que las modalidades de la invención aquí descritas pueden estar comprendidas de uno o más procesadores convencionales e instrucciones de ¡ programa almacenadas únicas que controlan uno o más procesadores para implementar, en conjunto con algunos circuitos de no procesador, algunas, la mayoría o todas las funciones de la codificación basada en la característica de las corrientes de video como aquí se describe. Los circuitos que no son de procesador pueden incluir, pero no se limitan a, un radio receptor, un radio transmisor, excitadores de ¡ señales, circuitos de reloj, circuitos de fuente de energía, y dispositivos de entrada de usuario. Debido a esto, estas funciones pueden ser interpretadas como pasos de ':un método para ejecutar la codificación basada en característica de las corrientes de video. Alternativamente, algunas o todas las funciones podrían ser implementadas a través de un'a máquina de estado que no tenga instrucciones de programa almacenadas, o en uno o más circuitos integrados de aplicación específica (ASIC) , en los cuales cada función o algunas combinaciones de ciertas funciones se implementan como lógica habitual. Por supuesto, se podría utilizar una combinación de los dos enfoques. Por lo tanto, aquí se han descrito los métodos y medios para estas funciones. Además, se espera que un experto en la técnica, no obstante posiblemente el esfuerzo significativo y muchas elecciones de diseño motivadas, por ejemplo, por el tiempo disponible, la tecnología actual y las consideraciones económicas, cuando son guiados ¡por los conceptos y principios aquí divulgados, fácilmente podrán generar dichas instrucciones y programas de software asi como ICs con experimentación mínima.

De acuerdo con la descripción, los principios descritos están dirigidos a un aparato que opera en una cabecera de un sistema de distribución de video y ün divisor para segmentar una corriente de video de entrada en divisiones para cada una de una pluralidad de cánales del video. El aparato también incluye un analizador de canal acoplado al divisor en donde el analizador ,de canal descompone las divisiones, y un codificador acoplado al analizador de canal para codificar las divisiones descompuestas en una corriente de bits codificada, en donde el codificador recibe información de codificación desde al menos uno de la pluralidad de canales para que sea ¡utilizada en la codificación de las divisiones descompuestas dentro de la corriente de bits codificada. En una modalidad, el aparato incluye un bucle de reconstrucción para decodificar la corriente de bits codificada y recombinar las corrientes de bits decodificadas en una corriente de video reconstruida y una memoria intermedia para almacenar la corriente de video reconstruida.. En otra modalidad, la memoria intermedia también puede almacenar otra información de codificación de otros canales de la corriente de video. Además, la información de codificación incluye al menos uria de la corriente de video reconstruida y la información de codificación utilizada para el codificador, y la información de codificación es al menos una de información de . imagen de referencia e información de codificación de la corriente de video. Además, el divisor utiliza al menos uno de una pluralidad de conjuntos de características para formar las divisiones. En una modalidad, la información de dmagen de referencia es determinada a partir de la corriente; de video reconstruida creada a. partir de las corrientes de bits.

En otra modalidad, se describe un aparato que incluye un decodificador que recibe una corriente de . bits codificada en donde el decodificador decodifica la corriente de bits de acuerdo con la información de codificación recibida referente a los canales de la corriente, de bits codificada. El aparato también incluye un sintetizador de canal acoplado al decodificador para sintetizar la corriente de bits decodificada en divisiones de una corriente de video, y un combinador acoplado al sintetizador de canal para crear una corriente de video reconstruida a partir . de las corrientes de bits decodificadas . La información de codificación puede incluir al menos una de la corriente de video reconstruida e información de codificación ; para la corriente de video reconstruida. Además, el aparato incluye una memoria intermedia acoplada al combinador en ¡donde la memoria intermedia almacena la corriente de video reconstruida. Un filtro se puede acoplar entre la memoria intermedia y el decodificador para retroalimentar al menos i I una parte de la corriente de video reconstruida al decodificador como información de codificación. Las divisiones también se pueden determinar con base en al menos uno de una pluralidad de conjuntos de características de la corriente de video reconstruida.

Además, los principios descritos divulgan un método que incluye recibir una corriente de video de entrada y dividir la corriente de video de entrada en una pluralidad de divisiones. El método también incluye descomponer la pluralidad de divisiones, y codificar las divisiones descompuestas en una corriente de bits codificada , en donde la codificación utiliza información de codificación de los canales de la corriente de video de entrada.! Eñ una modalidad, el método además incluye recibir una corriente de video reconstruida derivada de las corrientes de bits codificadas como una entrada utilizada para codificar las divisiones en la corriente de bits. Además, el método puede incluir, almacenar en memoria intermedia una corriente de video reconstruida que es reconstruida a partir'; de las corrientes de bits codificadas para que sea utilizada como 1 1 información de codificación para otros canales1 de la corriente de video de entrada. La información de codificación puede ser al menos una de información de imagen de referencia e información de codificación de la corriente de video.

También se divulga otro método. Este método incluye recibir al menos una corriente de bits codificada y decodificar la corriente de bits recibida en ¡ donde la decodificación utiliza información de codificación de los canales de una corriente de video de entrada. Además, el método sintetiza la corriente de bits decodificada en una serie de divisiones de la corriente de video de entrada, y combina las divisiones en una corriente de video reconstruida. En una modalidad, la información de codificación es al menos una de la información de ¡imagen de referencia e información de codificación de la corriente de i video de entrada. Además, el método puede incluir, utilizar la corriente de video reconstruida como entrada ; para decodificar las corrientes de bits y sintetizar la corriente de video reconstruida para decodificar la corriente de bits.

La presente descripción se desarrolla con base en la premisa de que cada área de una imagen en una corriente de video se describe de manera más eficiente con un conjunto especifico de características. Por ejemplo, un conjunto de características puede ser determinado para los parámetros que describen de manera eficiente una cara para un modelo de cara determinado. Además, la eficiencia de un conjunto de características que describe una parte de uña imagen depende de la aplicación (por ejemplo, relevancia perceptiva para aquellas aplicaciones en donde personas son el usuario final) y la eficiencia del algoritmo de compresión utilizado en la codificación para una longitud de descripción mínima de esas características .

El códec de video propuesto utiliza N conjuntos de características, concretamente { FSj ... FSN} , donde, cada FS consiste de n± características nombradas (f~i(l) ... f~i(n¿)}. El códec de video propuesto divide de manera eficiente (por ejemplo, con base en algún esquema de conocimiento de Distorsión de Velocidad) cada imagen en P divisiones convenientes que pueden estar traslapadas o separadas. A i continuación, a cada división j se le asigna un conjunto de características que de manera óptima describe esa ¡división, por ejemplo, FS¿. Finalmente, el valor asociado con cada una de las características r¡ en el conjunto de características FSi para describir los datos de la división j, sería codificado/comprimido y enviado al decodificador . El decodificador reconstruye cada valor de característica y después reconstruye la división. La pluralidad de divisiones formará la imagen reconstruida. ': En una modalidad se ejecuta un método que recibe una corriente de video que va a ser codificada y transmitida o almacenada en un medio conveniente. La corriente de video está comprendida de una pluralidad de imágenes que están acomodadas en una serie. Para cada una de la pluralidad de imágenes, el método determina un conjunto de características para la imagen y divide cada imagen en una pluralidad de divisiones. Cada división corresponde al menos a una de las características que describe la división. El método codifica cada división de acuerdo con un esquema de codificación que está adaptado a la característica que describe la división.

Las divisiones codificadas entonces pueden ser transmitidas o almacenadas.

Se puede apreciar que un método conveniente de codificación es ejecutado para una corriente de video que es recibida utilizando codificación basada en características.

I El método determina, a partir de la corriente de video recibida, las divisiones codificadas. A partir de cada división recibida se. determina, a partir del método de codificación utilizado, la característica utilizada- para codificar cada división. Con base en las características determinadas, el método reconstruye la pluralidad de divisiones utilizadas para crear cada una de la pluralidad de imágenes en la corriente de video codificada.

En una modalidad, cada esquema de codificación de características pudiera ser único para esa característica específica. En otra modalidad,- cada esquema de codificación de características puede ser compartido para la codificación de un número de diferentes características. Los esquemas de codificación pueden utilizar información espacial, temporal o de codificación a través del espacio de características para la misma división a fin de codificar de manera óptima cualquier característica determinada. Si el decodificador depende de dicha información espacial, temporal o de característica cruzada, ésta debe provenir de datos ya transmitidos y decodificados .

Volviendo a la figura 1 se ilustra una arquitectura de red 100 que codifica y decodifica una corriente de video de acuerdo con las características encontradas; en las imágenes de la corriente de video. Modalidades de la codificación y decodificación se describen con mayor detalle a continuación. Tal como se muestra en la figura 1, la arquitectura de red 100 se ilustra como una arquitectura de red de televisión por cable (CATV) 100, incluyendo una unidad de cabecera de cable 110 y una red de cable 111. No obstante, se entiende que los conceptos aquí descritos aplican a otras modalidades de corriente de video incluyendo otros tipos de transmisión cableados e inalámbricos. Un número de fuentes de datos 101, 102, 103 pueden estar comunicativamente acopladas i a la unidad de cabecera de cable 110 incluyendo, pero en ninguna forma limitado a, una pluralidad .de servidores 101, la Internet 102, señales de radio, o señales de televisión recibidas a través de un proveedor de contenido 103. La cabecera de cable 110 también está acoplada de manera comunicativa a uno o más suscriptores 150a-n a través de una red de cable 111.

La cabecera de cable 110 incluye el equipo necesario para codificar la corriente de video que recibe desde las fuentes de datos 101, 102, 103 de acuerdo con las diversas modalidades que se describen a continuación. La cabecera de cable 110 incluye un dispositivo de conjunto de características 104. El dispositivo de conjunto de características 104 almacena las diversas características, que se describen a continuación, las cuales son utilizadas para dividir la corriente de video. A medidai qüe se determinan las características, las cualidades ¦ de las características son almacenadas en la memoria del dispositivo i de conjunto de características 104. La cabecera de bable 110 también incluye un divisor 105 que divide la corriente de video en una pluralidad de divisiones de acuerdo con las diversas características de la corriente de video determinada por el dispositivo del conjunto de características 104.

El codificador 106 codifica las divisiones utilizando cualquiera de una variedad de esquemas de codificación que están adaptados a las características que describen las divisiones. En una modalidad, el codificador tiene la capacidad para codificar la corriente de' video de acuerdo con cualquiera de una variedad de diferentes esquemas de codificación. Las divisiones codificadas de la 1 corriente de video son proporcionadas a la red de cable 111 y transmitidas utilizando el transceptor 107 a lasi diversas unidades de suscriptor 150a-n. Además, un procesador 108 y memoria 109 son utilizados en conjunto con el dispositivo de conjunto de características 104, divisor 105, codificador 106 y transceptor 107 como parte de la operación de la cabecera de cable 110.

Las unidades de suscriptor 150a-n pueden ser televisiones listas para 2D 150n o televisiones listas para 3D 150d. En una modalidad, la red de cable 111 proporciona la corriente de contenido de video 3D y 2D a cada una de las unidades de suscriptor 150a-n utilizando, por ejemplo, fibras ópticas fijas o cables coaxiales. Las unidades de suscriptor 150a-n incluyen, cada una, una consola de decodificación (STB) 120, 120d que recibe la corriente de contenido de video que está utilizando los principios descritos basados en las características. Tal como se entiende, las unidades de suscriptor 150a-n pueden incluir otros tipos de transceptores cableados o inalámbricos del STB 120, 120d que tiene la capacidad para transmitir y recibir corrientes dé video y datos de control desde la cabecera 110. La unidad de suscriptor 150d puede tener un componente de TV listo para 3D 122d con la capacidad para desplegar vistas estereoscópicas 3D. La unidad de suscriptor 150n tiene un componente de TV 2D 122 que tiene la capacidad para desplegar vistas 2D. Cada una de las unidades de suscriptor 150a-n incluye un combinador 121 que recibe las divisiones decodificadas y recrea la corriente de video. Además, un procesador 126 y memoria 128, asi como otros componentes que no se muestran, son utilizados en conjunto con el STB y los componentes de TV 122, ,122d como parte de la operación de las unidades de suscriptor 150a-n.

Tal como se mencionó, cada imagen en la '¡corriente de video es dividida de acuerdo con diversas características encontradas en las imágenes. En una modalidad, las: reglas a través de las cuales se descompone o analiza una división para codificación y en la cual es reconstruida o sintetizada para decodificación están basadas en un conjunto de características fijas que son conocidas tanto : por el codificador como por el decodificador . Estas reglas fijas son almacenadas en las memorias 109, 128 del dispositivo de cabecera 110 y las unidades de suscriptor ISOa-n, respectivamente. En esta modalidad, no hay necesidad de enviar información alguna desde el codificador al decodificador respecto a cómo reconstruir la división en esta clase de codees de video basados en características fijas. En esta modalidad, el codificador 106 y los decodificadores 124 están configurados con los conjuntos de características i utilizados para codificar/decodificar las diversas divisiones de la corriente de video.

En otra modalidad, las reglas a través de las cuales se descompone o analiza una división para codificación y se reconstruye o sintetiza para decodificación están basadas en un conjunto de características que es establecido por el codificador 106 para permitir una codificación más eficiente de una división determinada. Las reglas que son establecidas por el codificador 106 son reglas de reconstrucción adaptativas. Estas reglas necesitan ser enviadas desde la cabecera 110 al decodificador 124 en las unidades de suscriptor 150a-n.

La figura 2 muestra un diagrama de alto nivel 200 donde la señal de video de entrada x 202 es descompuesta en dos conjuntos de características a través de un dispositivo de conjunto de características 104. Los píxeles del : video de entrada x 202 pueden ser categorizados por características tales como movimiento (por ejemplo, bajo, alto) , intensidad (brillantez, oscuridad) , textura, patrón, orientación, forma y otras categorías basadas en el contenido, calidad o contexto del video de entrada x 202. La señal de video de entrada x 202 también puede ser descompuesta por frecuencia-temporal, señal contra ruido, o utilizando algún modelo de imagen. Además, la señal de video de entrada x 202 se puede descomponer utilizando una combinación de cualesquiéra de las diferentes categorías. Debido a que la importancia perceptiva I de cada característica puede diferir, cada una puede ser codificada de manera más apropiada por el codificador 106 con uno o más de los diferentes codificadores E¿ 204, 206 utilizando diferentes parámetros de codificador para producir corrientes de bits b 208, 210. El codificador E 106 también puede realizar un uso conjunto de los codificadores de características individuales Ei 204, 206.

El decodificador D 124, el cual incluye el decodificador 212, 214 reconstruye las características de las corrientes de bits b± 208, 210 con uso conjunto posible de información de todas las corrientes de bits que son enviadas entre la cabecera 110 y las unidades de suscriptor ; 105a-n y las características son combinadas por el combinador 121 para producir la señal de video de salida reconstruida x' 216. Tal como se puede entender, la señal de video de salida x' 216 corresponde a la señal de video de entrada x 202.

De manera más específica, la figura 3 muestra un diagrama del enfoque de Codificación de Video; de Alta Eficacia (HVC) propuesto. Por ejemplo, las características utilizadas como una parte de HVC están basadas en una descomposición de frecuencia espacial. No obstante, se entiende que los principios descritos para HVC se pueden aplicar a características diferentes a la descomposición de frecuencia espacial. Tal como se muestra, una señal de video de entrada x 302 es proporcionada al divisor 105 el cual incluye un módulo de división 304 y un módulo de análisis de canal 306. El módulo de división 304 está configurado para analizar la señal de video de entrada x 302 de acuerdo con un conjunto de características determinado, por ejemplo, frecuencia espacial, y dividir o repartir la señal; de video de entrada x 302 en una pluralidad de divisiones con base en el conjunto de características. La división de la señal de video de entrada x 302 está basada en las reglas correspondientes al conjunto de características determinado. Por ejemplo, debido a que el contenido de frecuencia! espacial varía dentro de una imagen, cada imagen de entrada es dividida por el módulo de división 304 de manera que cada división puede tener una descomposición de frecuencia espacial diferente de tal forma que cada división tiene un conjunto de características diferente. I Por ejemplo, en el módulo de análisis de canal 306, i una división de video de entrada se puede descomponer en bandas 2x2 con base en la frecuencia espacial, por ejemplo, bajo-bajo, bajo-alto, alto-bajo, y alto-alto para un total de cuatro conjuntos de características, o en bandas de frecuencia 2x1 (vertical) o 1x2 (horizontal) lo qué requiere dos características (componentes de frecuencia H&L) para estos dos conjuntos de características. Estas sub-bandas o "canales" pueden ser codificados utilizando predicción espacial, predicción temporal, y predicción de banda cruzada, con un objetivo específico de sub-banda apropiada o métrica de calidad perceptiva (por ejemplo, ponderación ¦ de error cuadrático medio (MSE) ) . La tecnología de códec existente puede ser utilizada o adaptada para codificar lias bandas utilizando el codificador de canal 106. La corriente de bits resultante de las divisiones de señal de video codificadas es transmitida a la unidad de suscriptor 150a-n para decodificación. Los canales decodificados por el decodificador 124 son utilizados para síntesis de canal por el módulo 308 para reconstruir las divisiones mediante el módulo 310 que así produce la señal de video de salida 312.

En la figura 4 se muestra un ejemplo de un codificador HVC de dos canales 400. La señal de video de entrada x 402 puede ser la imagen completa o una, sola división de imagen del divisor 105. La señal de video de entrada x 402 es filtrada de acuerdo con una función h por los filtros 404, 406. Se entiende que se puede utilizar cualquier número de filtros dependiendo del conjunto de características. En una modalidad, las señales filtradas entonces son muestreadas por el muestreador 408 por; un factor correspondiente al número de filtros 404, 406, por ejemplo dos, de manera que el número total de muestras en todos los canales es el mismo que el número de muestras de entrada. La imagen o división de entrada puede ser rellenada ide manera apropiada (por ejemplo, utilizando la extensión simétrica) a fin de lograr el número apropiado de muestras en cada canal. Los datos de canal resultantes entonces son codificados por el codificador E0 410 y Ei 412 para producir la corriente de bits de canal b0 414 y bi 416, respectivamente.

Si la resolución de profundidad de bits de los datos de entrada a un codificador ? es más grande de lo que el decodificador puede procesar, entonces los ;datos de entrada pueden ser reescalados de manera apropiada ¡ antes de la codificación. Esta reescalada se puede realizar ; a través de la cuantificación delimitada (uniforme o no uniforme) de datos que pueden incluir escala, compensación, redondeo y I recorte de los datos. Cualquier operación ejecutada antes de la codificación (tal como la escala y compensación) debiera ser invertida después de la decodificación. Los parámetros particulares utilizados en la transformación se pueden transmitir al decodificador o se pueden acordar previamente entre el codificador y decodificador .

Un codificador de canal puede hacer uso de la información de codificación i01 418 de otros canales (canal k para el canal j en el caso de ijk) para mejorar la eficiencia de la codificación y el desempeño. Si i0i ya está disponible j en el decodificador , no hay necesidad de incluir esta información en la corriente de bits de esta información; de otra manera, ioi también se vuelve disponible para el decodificador, descrito a continuación, con las corrientes de bits. En una modalidad, la información de codificación iik puede ser la información necesaria por los codificadores o decodificadores o puede ser información predictiva basada en el análisis de la información y las condiciones del canal. La reutilización de la información de predicción espacial o temporal puede ser a través de una pluralidad de sub-bandas determinadas por el enfoque de codificación HVC. Vectores de movimiento de los canales pueden estar disponibles " para los codificadores y decodificadores de manera que la codificación de una sub-banda puede ser utilizada por otra sub-banda. Estos vectores de movimiento pueden ser el vector de movimiento exacto de la sub-banda o vectores de movimiento predictivos. Cualquier unidad de codificación actualmente codificada puede heredar la información del modo de codificación de una o más de las sub-bandas que están disponibles para los codificadores y decodificadores . Además, los codificadores y decodificadores pueden utilizar la información del modo de codificación para predecir el modo de codificación pára la unidad de codificación actual. Por lo tanto, los modos de una sub-banda también pueden ser utilizados por otra sub-banda. ' A fin de acoplar la salida decodificada, 1 el bucle de reconstrucción del decodificador 420 también es incluido en el codificador, tal como lo ilustra el decodif cador de corriente de bits Di 422, 424. Como parte del bucle de reconstrucción de decodificador 420, las corrientes de bits decodificadas 414, 416 son sobre-muestreadas por un factor de dos por los muestreadores 423, donde el factor corresponde al número de corrientes de bits, y después es post-fil'trado por una función de gi por los filtros 428, 430. Los filtros hi 404, 406 y los filtros gi 428, 430 pueden ser elégidos de manera que cuando las salidas post-filtradas son añadidas por el combinador 431, la señal de entrada original x puede ser recuperada como la señal reconstruida x' en la ausencia de la distorsión de codificación. Alternativamente, los filtros hi 404, 406 y gi 428, 430 pueden ser diseñados para réducir al mínimo la distorsión general en la presencia de la distorsión de codificación. > La figura 4 también ilustra la manera en que la salida reconstruida x' puede ser utilizada como una referencia para codificar imágenes futuras asi como para codificar información y para otro canal k ( ß no se muestra) . Una memoria intermedia 431 almacena estas salidas, las cuales entonces pueden ser filtradas h¿ y decimadas para producir la imagen rir y esto se ejecuta tanto' para el codificador como para el decodificador D±. Tal como se muestra, la imagen r¿ puede ser retroalimentada : para ser utilizada tanto por el codificador 410 como el decodificador 422, lo cual es una parte del bucle de reconstrucción 420. Además, la optimización se puede lograr utilizando los filtros Ri 432, 434, los cuales filtran y muestrean la salida i para el bucle de reconstrucción del decodificador 420 utilizando una función de filtro h 436, 438 y mues'treadores 440. En una modalidad, los filtros Ri 432, 434 seleccionan uno de varios análisis de canal (incluyendo el valor por omisión sin descomposición) para cada imagen o división. Sin embarjo, una vez que una imagen o división es reconstruida, la salida almacenada en memoria intermedia entonces puede ser filtrada utilizando todos los posibles análisis de canal para producir las imágenes de referencia apropiadas. Tal1 cómo se entiende, estas imágenes de referencia pueden ser utilizadas como una parte de los codificadores 410, 412 y como información de codificación para otros canales. Además, aunque la figura 4 muestra los canales de referencia que están siendo decimados después de la filtración, también es posible que los canales de referencia sean no decimados. i Aunque la figura 4 muestra el caso de un análisis de dos canales, la extensión a más canales es fácilmente entendida a partir de los principios descritos.

Se puede utiliza la interpolación de imagen de referencia de sub-banda para proporcionar información respecto a lo que debiera ser la corriente de video. La imagen reconstruida puede ser descompuesta dé manera apropiada para generar información de sub-banda de referencia. La generación de los datos de referencia de sub-banda sub-muestreados se puede realizar utilizando una imagen de referencia no decimada que pudiera haber sido sintetizada de manera apropiada. Se puede utilizar un diseño de un filtro de interpolación fija con base en las características espectrales de cada sub-banda. Por ejemplo, una interpolación plana es apropiada para datos de alta frecuencia. 'Por otra parte, filtros de interpolación adaptativa pueden : estar basados en la minimización MSE que puede incluir coeficientes de filtro Wiener que aplican a cuadros de referencia sintetizados que no están decimados. ' La figura 5 muestra el decodificador 500 correspondiente al codificador ilustrado en la figura 4. El decodificador 500 opera en las corrientes de bits recibidas bi 414, 416 y la información de codificación de có-canal i418. Esta información puede ser utilizada para ¡derivar o reutilizar la información de codificación entre los canales tanto en el codificador como en el decodificador . Las corrientes de bits recibidas 414, 416 son decodificadas por los decodificadores 502, 504 los cuales están configurados para acoplarse a los codificadores 410, 412. Cuando los parámetros de codificación/decodificación son acordados con anterioridad, entonces los decodificadores 502, 504 son configurados con parámetros similares. Alternativamente, los decodificadores 502, 504 reciben datos de parámetros como una parte de las corrientes de bits 414, 416 para ser r configurados correspondientes a los codificadores 410, 412. Los muestreadores 506 son utilizados para re-muestrear la señal decodificada . Los filtros 508, 510 que utilizan una función de filtro g¿ son utilizados para obtener una; señal de video de entrada reconstruida x' . Las señales de salida. 0512 y c,514 de los filtros 508, 510 son sumados juntos por el sumador 516 para producir la señal de video de entrada reconstruida x' 518.

Tal como se observa, la señal de video reconstruida ?' 518 también es proporcionada a la memoria intermedia 520. La señal almacenada en memoria intermedia es suministrada a los filtros 522, 524 que filtran la señal de video reconstruida mediante una función de h± 526, 528 ¡ y después re-muestrean las señales utilizando el muestreador 530. Tal como se muestra, la señal de entrada reconstruida filtrada es retroalimentada a los decodificadores 502, 504.

Tal como se describió anteriormente, una corriente de video de entrada x puede ser dividida en divisiones por el divisor 105. En una modalidad, las imágenes de una ¡ corriente de video de entrada x son divididas en divisiones donde cada división es descompuesta utilizando el conjunto de filtros de análisis, sub-muestreo y síntesis más conveniente (con base en el contenido de imagen local para cada división determinada) donde las divisiones están configuradas, teniendo características similares del conjunto de características. La figura 6 muestra un ejemplo de un escenario de codificación que utiliza un total de 4 opciones de descomposición diferentes utilizando descomposición de frecuencia: espacial como un ejemplo del conjunto de características utilizado para dividir, descomponer y codificar de manera adaptativa una imagen 600. La división adaptativa de imágenes en una corriente de video puede ser descrita por un conjunto de características FS que está basado en un criterio de; longitud de descripción de característica mínima. Tal como se entiende, se pueden utilizar otros conjuntos de características. Para descomposición de frecuencia espacial, la imagen 600 es examinada para determinar las diferentes divisiones donde se pueden encontrar características similares. Con base en la examinación de la imagen 600, se crean las divisiones 602-614. Tal como se muestra, las divisiones 602-614 no se están traslapando entre sí, pero se entiende que los bordes de las divisiones 602-614 se pueden traslapar.

En el ejemplo de la descomposición de frecuencia espacial, las opciones del conjunto de características son tal como se basan en la filtración y sub-muestreo vertical u horizontal. En un ejemplo, designado como ????, utilizado en las divisiones 604, 610 como un ejemplo, los valores, de, píxel de la división son codificados: este conjiunto de características tiene solamente una característica, la cual es los valores de píxel de la división. Esto es equivalente de la codificación de imagen tradicional, donde el codificador y decodificador operan en los valores de píxel. Tal como se muestra, las divisiones 606, 612, las cuales están designadas por ???2, son filtradas y sub-muestreadas de manera horizontal por un factor de dos para cada una de las dos sub-bandas. Este conjunto de características tiene dos características: una es el valor de la sub-banda de baja frecuencia y la otra es el valor de la sub-banda de alta frecuencia. Cada sub-banda entonces es codificada con un codificador apropiado. Además, la división 602, la cual es designada por V2Hi, es filtrada utilizando un filtró vertical y sub-muestreada por un factor de dos para cada una de las dos sub-bandas. Al igual que las divisiones 606, 612 utilizando ViH2, el conjunto de características para la división 602 tiene dos características. Una es el valor de la sub-banda de baja frecuencia y la otra es el valor de la sub-banda de alta frecuencia. Cada sub-banda puede ser codificada con un codificador apropiado. 1 Las divisiones 608, 614, las cuales son designadas por V2H2/ utilizan filtración y sub-muestreo separable o no separable por un factor de dos en cada una de las direcciones horizontal y vertical. Debido a que la filtración y sub-muestreo es en dos dimensiones, la operación ocurre para cada una de las cuatro sub-bandas de manera que el conjunto de características tiene cuatro características. Por ejemplo, en el caso de una descomposición separable, la primera característica captura los valores de una sub-bandá de baja frecuencia (LL) , la segunda y tercera características capturan la combinación de frecuencias baja y alta, es decir, valores de sub-banda LH y HL, respectivamente, y la cuarta característica captura los valores de sub-bandá de alta frecuencia (HH) . Cada sub-banda entonces es codificada con un codificador apropiado.

El divisor 105 puede utilizar un número de diferentes esquemas de división adaptativos para i crear el enfoque de las divisiones 602-614 de cada imagén en una corriente de video de entrada x. Una categoría está basada en la distorsión de velocidad (RD) . Un ejemplo de división basada en RD es un enfoque de Árbol estructurado;. En este enfoque, un mapa de división sería codificado utilizando una estructura de árbol, por ejemplo, árbol cuaternario. La ramificación del árbol es decidida con base en la minimización del costo que incluye tanto el rendimiento del mejor esquema de descomposición como los bits requeridos para la descripción de los nodos y hojas del árbol. Alternativamente, la división basada en RD puede utilizar un enfoque de dos pasos. En el primer paso, todas las divisiones con un tamaño determinado, experimentarían descomposición adaptativa para encontrar el costo de cada elección de descomposición, después las divisiones del primer' paso se fusionarían de manera óptima para reducir al mínimo el costo general de la codificación de la imagen. En este ¡cálculo, también se puede considerar el costo de transmisión de la información de división. En el segundo paso la imagen sería dividida y descompuesta de acuerdo con el mapa de división óptimo .

Otra categoría de división es no basada i en RD. En este enfoque se utiliza la minimización de la norma-p: en este método una norma-p de los datos de sub-banda 'para todos los canales de la misma localidad espacial sería calculada para cada opción posible de descomposición. La división óptima se obtiene mediante la división óptima de ; la imagen para reducir al mínimo la norma-p general en todas las divisiones 602-614. También en este método, el, costo de enviar la información de división es considerado mediante la I adición de la tasa de transferencia de bits convenientemente ponderada (ya sea real o estimada) para enviar la información de división a la norma-p general de los datos. Para imágenes con contenido natural se utiliza con más frecuencia una I ; norma-1.

La descomposición de sub-banda adaptatiya de una imagen o división en la codificación de video se describió anteriormente. Cada elección de descomposición es' descrita por el nivel de sub-muestreo en cada una de las direcciones horizontal y vertical, lo cual a su vez define el número y tamaño de sub-bandas, por ejemplo, ????, ViH2, etcétera. Tal como se entiende, la información de descomposición para una imagen o división puede ser reutilizada o pronosticada enviando el incremento residual para una imagen o división futura. Cada sub-banda es derivada mediante la aplicación de i filtros de análisis, por ejemplo, filtros h¿ 404, 406, antes de la compresión y reconstruida mediante la aplicación de un filtro de síntesis, por ejemplo, filtros g¿ 428, 430, después del sobre-muestreo apropiado. En el caso de cascada de la descomposición, pudiera haber más de un filtro involucrado para analizar o sintetizar cada banda.

Volviendo a las figuras 4 y 5, los filtros 404, 406, 428, 430, 436, 438, 508, 510, 524, 522 pueden ser configurados y diseñados para reducir al mínimo la distorsión general y como filtros de síntesis adaptativos (ASF) . En ASF, los filtros están intentando reducir al mínimo la distorsión causada por la codificación de cada canal. Los coeficientes del filtro de síntesis pueden ser establecidos con base en los canales reconstruidos. Un ejemplo de ASF está 'basado en la optimización de sub-banda conjunta. Para un tamaño determinado de la función de q±, se puede utilizar la técnica de Estimación de Media Cuadrática Lineal para calcular los coeficientes de g de manera que se reduce al mínimo el error del estimado medio cuadrático entre la división reconstruida final x' y los píxeles originales en la señal original x en la división. En una modalidad alternativa, se utiliza la optimización de canal independiente. En este ejemplo, la optimización de sub-banda conjunta requiere la auto correlación y la correlación cruzada entre la señal original x y las señales de sub-banda reconstruidas después 'del sobre-muestreo. Además, se puede resolver un sistema de 'ecuaciones de matriz. El cálculo asociado con esta optimización de sub- i banda conjunta pudiera ser prohibitivo en muchas aplicaciones .

Un ejemplo de la solución de optimización de canal independiente para un codificador 700 se puede observar en la figura 7, la cual se enfoca en el ASF de manera que se omite el procesamiento de imagen de referencia utilizando los filtros 432 y 434 que se muestran en la figura 3. Én ASF, el módulo de estimación de filtro (FEj.) 702, 704 es proporcionado para ejecutar estimación de filtro entre el canal reconstruido decodificado c¡ , el cual generalmente es ruido, y el canal reconstruido no codificado c'i, que es sin ruido. Tal como se muestra, una señal de video de !entrada x 701 es dividida y proporcionada a los filtros 706, 708 los cuales filtran la señal x de acuerdo con la función conocida hi y después la muestrean utilizando los muestreadores 710 a una tasa de transferencia determinada por el número de divisiones. En una modalidad de descomposición de dos canales, uno de los filtros 706, 708 puede ser un jfiltro de paso bajo y el otro puede ser un filtro de paso : alto. Se entiende que la división de los datos en una descomposición de dos canales dobla la tasa de transferencia. Por lo tanto, los muestreadores 710 pueden muestrear de manera crítica las señales de entrada a la mitad de la cantidad de1 datos de manera que el mismo número de muestras está disponible para reconstruir la señal de entrada en el decodificador1. La señal filtrada y muestreada entonces es codificada por los codificadores E¿ 712, 714 para producir corrientes de bits b 716, 718. Las corrientes de bits codificadas bi 716, 718 son proporcionadas a los decodificadores 720, 722.

El codificador 700 es proporcionado con un módulo de interpolación 724, 726 que recibe una señal filtrada y muestreada proporcionada a los codificadores 712, 714 y desde i el decodificador 720, 722. La señal decimada y mue'streada y la señal decodificada son muestreadas por los muestreadores 728, 730. Las señales re-muestreadas o procesadas1 por los filtros 732, 734 para producir la señal c'¿ mientras que las señales decodificadas también son procesadas por los filtros 736, 738 para producir la señal c¡ . Las señales c'j y c, son proporcionadas al módulo de estimación de filtro 702; 704 que se describió anteriormente. La salida del módulo de estimación de filtro 702, 704 corresponde a la información de filtro infoi del módulo de interpolación 724, '726. La información de filtro info± también puede ser proporcionada al decodificador correspondiente asi como a otros codificadores.

El modulo de interpolación también se puede configurar con un filtro 740, 742 utilizando una función de filtro f±. El filtro 740, 742 puede ser derivado para reducir al mínimo una métrica de error entre c'¿ y c¡ , y este filtro es aplicado a c"i para generar c±. Las salidas resultantes del canal filtrado c± entonces se combinan para producir la salida general. En una modalidad, las salidas del ASF c¿ pueden ser utilizadas para reemplazar ci en la figura 4. Debido a que el ASF se aplica a cada canal antes de la combinación, las salidas filtradas del ASF c¿ pueden ser mantenidas a una resolución de profundidad de bits' superior con relación a la resolución de profundidad de bits de salida final. Es decir, las salidas combinadas del ASF pueden ser mantenidas a una resolución de profundidad de bits'1 superior internamente para propósitos de procesamiento de imagen de referencia, mientras que la resolución de profundidad de bits de salida final se puede reducir, por ejemplo, 1 mediante recorte y redondeo. La filtración ejecutada por el módulo de interpolación 740, 742 puede llenar la información que puede ser descartada por el muestreo conducido por¦ los muestreadores 710. En una modalidad, los codificadores, 712, 714 pueden utilizar diferentes parámetros con base en las características establecidas utilizadas para dividir las señales de video de entrada y después para codificar las señales.

La información de filtro i puede ser transmitida al decodificador 800, el cual se muestra en la figura 8. El filtro de síntesis modificado 802, 804 g^' se puede derivar de las funciones gi y fi de los filtros 706, 708, 732-738 de manera que tanto el codificador 700 como el decodificador 800 ejecutan una filtración equivalente. En ASF, el 'filtro de síntesis 732-738 g es modificado a g en los filtros 802, 804 para considerar las distorsiones introducidas por la codificación. También es posible modificar las funciones del filtro de análisis h± de los filtros 706, 708 a h ' en los í filtros 806, 808 para considerar las distorsiones de i codificación en la filtración de análisis adaptativo (AAF) .

AAF y ASF simultáneas también es posible. ASF/AAF¡se pueden aplicar a toda la imagen o a divisiones de la imagen, y un filtro diferente se puede aplicar a diferentes divisiones. En un ejemplo de AAF, el filtro de análisis, por ejemplo 9/7, 3/5, etcétera, se puede seleccionar a partir de un conjunto de bancos de filtro. El filtro que es utilizado está basado en las cualidades de la señal que entra al filtró. Los coeficientes del filtro AAF se pueden establecer con base en el contenido de cada división y la condición de la codificación. Además, los filtros pueden ser utilizados para la generación de datos de referencia de sub-banda, en caso que el índice de filtro o los coeficientes puedan ser transmitidos al decodificador para evitar una 'derivación entre el codificador y el decodificador .

Tal como se observa en la figura 8, las corrientes de bits bi 116, 718 son suministradas a los decodificadores 810, 812, los cuales tienen parámetros complementarios para los codificadores 712, 714. Los decodificadores : 810, 812 también reciben como entradas información de codificación ii desde el codificador 700 así como desde otros codificadores y decodificadores en el sistema. La salida ' de los decodificadores 810, 812 son re-muestreadas por los muestreadores 814 y suministradas a los filtros 802, 804 antes descritos. Las corrientes de bits decodificadas filtradas c"± son ' combinadas por el combinador 816 para producir la señal de video reconstruida x' . La señal de video reconstruida x' también puede ser almacenada en memoria intermedia 818 y procesada por los filtros 806, 808 y muestreada por los muestreadores 820 para ser suministrada como entrada de retroalimentación a los decodificadores 810, 812.

Los codees mostrados en las figuras 4-5 y 7-8 se pueden mejorar para HVC. En una modalidad, se puede j utilizar i la predicción de sub-banda cruzada. Para codificar una división con múltiples conjuntos de características de sub-banda, el codificador y el decodificador pueden utilizar la información de codificación de todas las sub-bandas que ya están decodificadas y disponibles en el decodificador sin la necesidad de enviar alguna información extra. Esto se muestra mediante la entrada de la información de codificación i± proporcionada a los codificadores y decodificadores . Un ejemplo de esto es la reutilización de información predictiva temporal y espacial para las sub-bandas colocadas que ya están decodificadas en el decodificador . El problema de la predicción de banda cruzada es un problema relacionado con el codificador y el decodificador . Ahora se describirán unos cuantos esquemas que pueden ser utilizados para ejecutar esta tarea en el contexto de los codificadores y decodificadores de video contemporáneos. ! Uno de dichos esquemas utiliza la predicción de vector de movimiento de sub-banda cruzada. Debido a que los vectores de movimiento en las ubicaciones correspondientes en cada una de las sub-bandas señalan a la misma área en el dominio de píxel de la señal de video de entrada x, y por lo tanto para las diversas divisiones de x, resulta benéfico utilizar los vectores de movimiento de bloques de sub-bandas ya codificados en la ubicación correspondiente para derivar el vector de movimiento para el bloque actual. , Se pueden agregar dos modos extra al códec para soportar esta característica. Un modo es la reutilización de los vectores de movimiento. En este modo el vector de movimiento! utilizado para cada bloque es directamente derivado de !todos los vectores de movimiento de los bloques correspondientes en las sub-bandas ya transmitidas. Otro modo utiliza la predicción del vector de movimiento. En este modo, el vector de movimiento utilizado para cada bloque es directamente derivado añadiendo un vector de movimiento delta al ; ector de movimiento pronosticado a partir de todos los vectores de movimiento de los bloques correspondientes en las sub-bandas ya transmitidas. ! Otro esquema utiliza la predicción de . modo de codificación de sub-banda cruzada. Debido a | que los gradientes estructurales tales como bordes en cada 'ubicación de imagen tomados de una imagen en la corriente de video o de una división de la imagen pueden estar derramados en ubicaciones correspondientes en cada una de las sub-bandas, resulta benéfico para la codificación de cualquier bloque determinado reutilizar la información de modo de codificación de los bloques de sub-banda ya codificados en la ubicación correspondiente. Por ejemplo, en este modo, el modo de predicción para cada macrobloque puede ser derivado del macrobloque correspondiente de la sub-banda de baja frecuencia. i Otra modalidad del me oramiento de códec utiliza i interpolación de imagen de referencia. Para propósitos de procesamiento de imagen de referencia, las ¡ imágenes reconstruidas son almacenadas en memoria intermedia como se observa en las figuras 4 y 5 y son utilizadas como referencias para la codificación de imágenes futuras. Debido a que el codificador E± opera en los canales filtrados /decimados, las imágenes de referencia de igual manera son filtradas y decimadas mediante el proceso de imagen de referencia R± ejecutado por los filtros 432, ' 434. No obstante, algunos codificadores pueden utilizar precisión de sub-pixel superior y la función J¿ típicamente es interpolada como se muestra en las figuras 9(a) y 9(b) para el caso de una resolución de cuarto de pixel (quarter-pel ) .

En las figuras 9(a) y 9(b), las señales de entrada reconstruidas x' son proporcionadas al filtro Qi 902 y £?? 904. Tal como se observa en la figura 9(a), la operación de procesamiento de imagen de referencia mediante la operación del filtro R± 432 utiliza el filtro ¿ 436 y decima ' la señal utilizando el muestreador 440. La operación de interpolación típicamente ejecutada en el codificador se puede combinar en la operación del filtro Qi 902 utilizando el modulo de interpolación de cuarto de pixel (quarter-pel) 910 . Esta operación general genera muestras de referencia de resolución de cuarto de pixel (quarter-pel) q± 906 de las entradas del canal del codificador. Alternativamente, otra manera de generar la imagen de referencia interpolada g se muestra en i i la figura 9(b) . En esta "interpolación no decimada" Qi' , la salida reconstruida solamente es filtrada en R 'utilizando el filtro h¿ 436 y no es decimada. La salida filtrada entonces es interpolada por una mitad de pixel (half-pel) utilizando el módulo de interpolación de mitad de pixel (half-pel) 912 para generar la imagen de referencia de cuarto de pixel (quarter-pel) g¿' 908 . La ventaja de Qi' sobre Q± es que Qi' tiene acceso a las muestras de mitad de pixel (half-pel) I "originales" (no decimadas) , teniendo como resultado mejores valores de muestra de mitad de pixel (half-pel) y 'de cuarto de pixel (quarter-pel) . La interpolación Qi' se puede adaptar a las características específicas de cada canal i, :y también se puede extender a cualquier resolución de ;sub-píxel deseada.

Tal como se entiende a partir de lo anterior, cada imagen, la cual en serie constituye la corriente de video de entrada x, puede ser procesada como una imagen completa, o dividida en sub-imágenes que se traslapan o que son Contiguas más pequeñas como se observa en la figura 5. Las divisiones pueden tener un tamaño y forma, fijos o adaptativos. Las divisiones se pueden realizar a nivel de imagen o de manera adaptativa. En una modalidad adaptativa, la imagen, puede ser segmentada en divisiones utilizando cualquiera de , un número de diferentes métodos incluyendo una estructura de árbol o una estructura de dos pasos donde la primera trayectoria utiliza bloques fijos y el segundo paso trabaja sobre bloques fusionados .

En la descomposición, el análisis y síntesis del canal se pueden elegir dependiendo del contenido de 1 la imagen y la corriente de video. Para el ejemplo del análisis y síntesis basados en filtro, la descomposición puede asumir cualquier número de bandas horizontales y/o verticales, así como múltiples niveles de descomposición. Los filtros de análisis/síntesis pueden ser separables o no, y ést!os pueden ser diseñados para lograr una reconstrucción perfecta en el caso de la codificación sin pérdida. Alternativamente, para cada caso de codificación disipativa, éstos pueden ser diseñados de manera conjunta para reducir al mínimo; el. error extremo-a-extremo general o el error perceptivo. Al igual que con la división, cada imagen o sub-imagen puede tener una descomposición diferente. Ejemplos de dicha descomposición de la imagen o corriente de video están basados ert filtro, basados en característica, basados en contenido táles; como vertical, horizontal, diagonal, características, ' múltiples niveles, separable y no separable, reconstrucción perfecta (PR) o no PR, y métodos adaptativos de imagen y sub-imagen.

Para codificación mediante los codificadores E± de los canales, se pueden utilizar o adaptar tecnologías de codificación de video existentes. En el caso de una descomposición por frecuencia, la banda de baja frecuencia puede ser directamente codificada como una secuencia de video normal debido a que conserva muchas propiedades del contenido de video original. Debido a esto, el marco puede ser utilizado para mantener la "compatibilidad hacia atrás" donde la banda baja es decodificada independientemente utilizando tecnología de codee actual. Las bandas superiores pueden ser decodificadas utilizando tecnología desarrollada futura y pueden ser utilizadas junto con la banda baja para reconstruir a una calidad superior. Debido a que cada canal o banda puede exhibir diferentes propiedades una de ' otra, se pueden aplicar métodos de codificación de canal específicos. Las redundancias de inter-canal también se pueden explotar de manera espacial y temporal para mejorar la eficiencia de la codificación. Por ejemplo, vectores de movimiento, 'vectores de movimiento pronosticado, orden de escaneo de coeficiente, decisiones del modo de codificación, y otros métodos pueden ser derivados con base en uno o más canales diferentes. En este caso, los valores derivados pueden necesitar ser escalados o mapeados de manera apropiada entre canales. Los principios se pueden aplicar a cualquier códec , de video, pueden ser compatibles hacia atrás (por ejempio, bandas bajas), pueden ser para métodos de codificación, de canal específicos (por ejemplo, bandas altas) y pueden explotar las redundancias de inter-canal.

Para interpolación de imagen de referencia, se puede utilizar una combinación de muestras de medio pixel (half-pel) no decimadas, valores interpolados y muestras de filtro de interpolación adaptativa (AIF) para las posiciones interpoladas. Por ejemplo, algunos experimentos mostraron que puede ser benéfico utilizar muestras AIF excepto para posiciones de medio pixel (half-pel ) de banda alta, 'donde fue benéfico utilizar muestras de ondas pequeñas no decimadas. Aunque la interpolación de medio pixel (half-pel) 'en Q' se puede adaptar a las características de señal y ruido de cada canal, se puede utilizar un filtro de paso bajo para todos los canales a fin de generar los valores de cuarto ¡ de pixel (quarter-pel ) .

Se entiende que algunas características se pueden adaptar en la codificación de canales. En una modalidad, el mejor parámetro de cuantificación es elegido para cada división/canal basado en el costo RD. Cada imagen1 de una secuencia de video puede ser dividida y descompuesta en varios canales. Al permitir diferentes parámetros de cuantificación para cada división o canal, se puede mejorar i el rendimiento general. > Para ejecutar una asignación de bits óptima entre diferentes sub-bandas de la misma división o a 'través de diferentes divisiones, se puede utilizar una técnica de minimización RD. Si la medida de fidelidad es la relación señal pico-a-ruido (PSNR) , es posible reducir al mínimo de manera independiente el costo Lagrangiano (D+A.R) 'para cada sub-banda cuando el mismo multiplicador Lagrangiano (?) es utilizado para lograr la codificación óptima de canales y divisiones individuales.

Para la banda de baja frecuencia que conserva la mayoría del contenido de imagen natural, su curva RD generada mediante un códec de video tradicional mantiene una propiedad convexa, y un parámetro de cuantificación (qp) es obtenido mediante una búsqueda de costo RD recursiv'o. Por ejemplo, en el primer paso se calculan los costos RD en qpi=qp, ¡qp2-qp+A, qp3=qp-A. El valor de qpi (i=l, 2, o 3) que tiene ' el costo más pequeño es utilizado para repetir el proceso en donde el nuevo qp es establecido a qpi . Los costos RD en qpi=qp, qp2=qp+A/2, qp3=qp-A/2 entonces son calculados, y ¡ esto se repite hasta que el incremento qp ? se convierte en 1.

Para bandas de alta frecuencia, la propiedad convexa ya no se mantiene. En lugar del método recursivo, se aplica una búsqueda exhaustiva para encontrar el mejor qp con el costo RD más bajo. El proceso de codificación en diferentes parámetros de cuantificación de qp - ? ai qp + ? se corre entonces.

Por ejemplo, ? se establece para que sea 2 en la búsqueda de canal de baja frecuencia, y esto tiene como resultado un incremento 5x en la complejidad de la codificación en tiempo con relación al caso' sin la optimización RD a nivel de canal. Para la búsqueda de canal de alta frecuencia, ? se establece para que sea 3, correspondiente a un incremento 7x en la complejidad de la codificación. , A través del método anterior, un qp óptimo para cada canal es determinado a expensas de una codificación de múltiple paso y una complejidad de codificación incrementada. Se pueden desarrollar métodos para reducir la complejidad los cuales asignen directamente qp para cada canal sin pasar a través de una codificación multi-paso.

En otra modalidad, se puede utilizar el ajuste lambda para cada canal. Tal como se mencionó anteriormente, la elección del multiplicador Lagrangiano para diferentes sub-bandas tendrá como resultado una codificación óptima bajo ciertas condiciones. Una de dichas condiciones es que las distorsiones de todas las sub-bandas son aditivas con igual peso en la formación de la imagen reconstruida final. Esta observación junto con el conocimiento de que el: ruido de i compresión para diferentes sub-bandas pasa a través de diferentes filtros (síntesis) , con diferentes ganancias que dependen de la frecuencia, sugiere que la eficiencia de la codificación se puede mejora.r asignando una función Lagrangiana diferente para diferentes sub-bandas, dependiendo de la forma espectral del ruido de compresión y las características del filtro. Por ejemplo, esto s'e realiza asignando un factor de escala · al canal lambda, ! donde el factor de escala puede ser un parámetro de entrada del archivo de configuración.

En otra modalidad todavía, se puede utilizar la determinación del tipo de imagen. Un codificador de codificación de video avanzada (AVC) puede no' ser muy eficiente en la codificación de las sub-bandas de alta frecuencia. Muchos microbloques (MB) en HVC son intra-codificados en rebanadas predictivas, incluyendo rebanadas P y B. En algunos casos extremos, todos los MB en una rebanada predictiva son intra-codificados . Debido a que el modelo de contexto del modo intra MB es diferente para diferentes tipos de rebanada, las velocidades de bit generadas son bastante diferentes cuando la sub-banda es codificada como una I rebanada, P rebanada o una B rebanada. En otras palabras, en imágenes naturales, los intra B tienen menos probabilidades de ocurrir en una rebanada predictiva. Por lo 'tanto, se asigna un modelo de contexto con una probabilidad baja de intra MB. Para I rebanadas, se asigna un modelo dé contexto con una probabilidad de intra MB mucho más alta*. En este caso, una rebanada predictiva con todos los MB intra-codificados consume más bits que una I rebanada incluso cuando cada MB es codificado en el mismo modo. : Como una consecuencia, se puede utilizar un tipo de codificador de entropía diferente para canales de alta frecuencia. Además, cada sub-banda puede utilizar una técnica de codificación de entropía diferente o codificador basado , en las características estadísticas de cada sub-banda. i Alternativamente, otra solución es codificar cada 'imagen en i un canal con un tipo de rebanada diferente, y después elegir el tipo de rebanada con el menor costo RD.

Para otra modalidad, se utiliza un nuevo modo intra-omisión para cada unidad de codificación básica. El modo intra-omisión beneficia la codificación de datos escasos para un algoritmo basado en bloque donde la predicción de píxeles vecinos ya reconstruidos es utilizada para reconstruir el contenido. Señales de alta 'sub-banda generalmente contienen muchas áreas planas y los componentes de alta frecuencia quedan ubicados de manera escasa. Puede ser conveniente utilizar un bit para distinguir si ¡un área es plana o no. En particular, un modo intra-omisión fue definido para indicar un MB con contenido plano. Siempre que se decide un modo intra-omisión, el área no es codificada, y ya no se envía residual, y el valor DC del área es pronosticado utilizando los valores de píxel en el MB vecino.

Específicamente, el modo intra-omisión es una etiqueta de nivel MB adicional. El MB puede ser de , cualquier tamaño. En AVC, el tamaño del MB es 16x16. Para algunos codees de video se proponen tamaños de MB más grandes (32x32, 64x64, etcétera) para secuencias de video de alta definición.

El modo intra-omisión se beneficia del tamaño MB más grande debido a la menor cantidad de bits potenciales generados por las áreas planas. El modo de intra-omisión únicamente es habilitado en la codificación de las señales de banda alta y es deshabilitado en la codificación de las señales de banda baja. Debido a que las áreas planas en el-canal de baja frecuencia no son tan frecuentes como , aquéllas en los canales de alta frecuencia, hablando en ; términos generales, el modo de intra-omisión aumenta la , tasa de transferencia de bits para canales de baja frecuencia mientras que disminuye la tasa de transferencia de bits para canales de alta frecuencia. El modo de omisión también puede aplicar a todo un canal o banda.

Para otra modalidad todavía se utiliza el! filtro de desbloqueo en bucle. Un filtro de desbloqueo en bucle ayuda al desempeño RD y la calidad visual en el códec AVC. Hay dos lugares donde se puede colocar el filtro de desbloqueo en bucle en el codificador HVC. Estos se ilustran en ¡la figura 10 para el codificador, y en la figura 11 ; para el decodificador correspondiente. Las figuras 10 y 11 están configuradas como el codificador 400 de la figura 4 y el decodificador 500 de la figura 5 donde componentes ¡similares son numerados de manera similar y ejecutan la misma función como se describió anteriormente. Un filtro de desbloqueo en bucle es una parte del decodificador ¿ 1002, 10041 que está en el extremo de cada reconstrucción de canal individual. El otro filtro de desbloqueo en bucle 1006 está después de la síntesis de canal y la reconstrucción de la imagen1 completa por- el combinador 431. Los primeros filtros de desbloqueo en bucle 1002, 1004 son utilizados para la reconstrucción del canal y son una señal intermedia. Su suavidad en los límites del MB puede mejorar la reconstrucción de imagen final en un sentido RD. Esto también puede tener como resultado, que las señales intermedias varíen adicionalmente lejos ¡ de los valores verdaderos de manera que es posible una degradación del rendimiento. Para superar esto, los filtros de desbloqueo en bucle 1002, 1004 se pueden configurar para cada1 canal con i base en las propiedades de la manera en cómo el canal va a i ser sintetizado. Por ejemplo, los filtros 1002,; 1004 se pueden basar en la dirección del sobre-muestreo asi como el tipo de filtro de síntesis.

Por otra parte, el filtro de desbloqueo en bucle 1006 debiera ser útil después de la reconstrucción de la imagen. Debido a la naturaleza de la codificación de sub-banda/canal, las imágenes reconstruidas finales preservan los artefactos diferentes al bloque, tal como los efectos de oscilación parásita. Por lo tanto, es mejor rediseñar el filtro en bucle para tratar de manera efectiva esos artefactos. j Se entiende que los principios descritos para los filtros de desbloqueo en bucle 1002-1006 aplican a los filtros de desbloqueo en bucle 1102, 1104 y 1106 que se encuentran en el decodificador 1100 de la figura 11.

En otra modalidad, se puede' utilizar la codificación de entropía que depende de la sub-banda. Los codificadores de entropía de legado tales como tabías VLC y CABAC en codees convencionales (AVC, MPEG, etcétera) están diseñados con base en las características estadísticas de las imágenes naturales en cierto dominio de transformada : (por ejemplo, DCT en el caso de AVC el cual tiende a seguir cierta mezcla de distribuciones Laplacianas y Gausianas) . El rendimiento de la codificación de entropía de sub-banda se puede mejorar utilizando un codificador de entropía; basado en las características estadísticas de cada sub-banda.; En otra modalidad todavía, se puede utilizar el orden de escaneo del coeficiente que depende de la I descomposición. La elección de descomposición óptima para cada división* puede ser indicativa de la orientación de las características en la división. Por lo tanto, sería preferible utilizar un orden de escaneo conveniente antes de i la codificación de entropía de los coeficientes de transformada de codificación. Por ejemplo, es posible asignar un orden de escaneo específico a cada sub-banda para cada uno de los esquemas de descomposición disponibles. Por lio tanto, ninguna información extra necesita ser enviada para comunicar la elección del orden de escaneo. Alternativamente, es posible elegir y comunicar de forma selectiva el patrón de escaneo de los coeficientes codificados, tales como los coeficientes DCT cuantificados en el caso de AVC, a partir de una lista de posibles elecciones de orden de escaneo y enviar esta selección de orden de escaneo para cada sub-banda codificada de cada división. Esto requiere que las elecciones de selección sean enviadas para cada sub-banda de la descomposición determinada para una división déterminada. Este orden de escaneo también puede ser pronosticado a partir de las sub-bandas ya codificadas con la misma preferencia de dirección. Además, se puede ejecutar el orden de espaneo fijo por sub-banda y por elección de descomposición. Alternativamente, se puede utilizar un patrón de éscaneo selectivo por sub-banda en una división.

En una modalidad, se puede utilizar el ajuste de distorsión de sub-banda. La distorsión de sub-banda se puede basar en la creación de más información a partir de algunas sub-bandas al mismo tiempo que no se produce información alguna para otras sub-bandas. Dichos ajustes de distorsión se pueden realizar a través de síntesis de distorsión o mediante mapeo de distorsión de sub-bandas al dominio de píxel. En el caso general, la distorsión de sub-banda primero ¡ se puede mapear a cierto dominio de frecuencia y después ponderar de i acuerdo con la respuesta de frecuencia del proceso de síntesis de sub-banda. En esquemas de codificación de video convencionales, muchas de las decisiones de codificación son llevadas a cabo mediante la reducción al mínimo de un costo de la distorsión por velocidad. La distorsión medida en cada sub-banda no necesariamente refleja el impacto final de la distorsión de esa sub-banda para la imagen final reconstruida o la división de imagen. Para métricas de ¡ calidad perceptivas, esto es más obvio en la situación donde la misma cantidad de distorsión, por ejemplo, MSE en una de las sub-bandas de frecuencia tendría un impacto perceptivO| diferente para la imagen reconstruida final que la misma cantidad de distorsión en una sub-banda diferente. Para medidas de calidad no subjetivas, tal como MSE, la densidad espectral de la distorsión puede impactar la distorsión en la calidad de la división sintetizada.

Para corregir esto, es posible insertar 'el bloque de ruido en la división de imagen de otra manera sin ruido. Además, el sobre-muestreo de sub-banda y la filtración de síntesis pueden ser necesarias antes de calcular la distorsión para ese bloque determinado. Alternativamente, es posible utilizar un mapeo fijo de la distorsión en los datos de sub-banda a una distorsión en la división sintetizada final. Para métricas de calidad perceptivas, esto puede involucrar recopilar resultados de prueba subjetivos para generar la función de mapeo. Para un caso más general, la distorsión de sub-banda puede ser mapeada a ciertas sub-bandas de frecuencia más finas donde la distorsión total sería una suma ponderada de cada distorsión de sub-sub-banda de acuerdo con la respuesta de frecuencia combinada del sobre-muestreo y filtración de síntesis.

En otra modalidad se proporciona ajuste de rango.

Es posible que los datos de sub-banda puedan ser, un punto flotante que necesite ser convertido a un punto entero con cierto rango dinámico. El codificador pudiera no, estar en condiciones de manejar la entrada de punto flotante1 de manera que la entrada es cambiada para compensar lo qué se está recibiendo. Esto se puede lograr utilizando implementación de entero de la descomposición de sub-banda a través de un esquema de levantamiento. Alternativamente, se puede utilizar un cuantificador delimitado genérico que sea construido utilizando una curva de mapeo que no disminuya, continua (por ejemplo, un sigmoide) seguido por un cuantificador ;uniforme. Los parámetros para las curvas de mapeo debieran ser conocidos por el decodificador o pasados a éste para reconstruir la señal de sub-banda antes del sobre-muestreo y síntesis.

El HVC descrito ofrece varias ventajas. La descomposición de sub-banda de frecuencia puede proporcionar una mejor separación de banda para una mejor predicción espacio temporal y eficiencia de codificación. Debido a que la mayoría de la energía en contenido de video típico está concentrada en unas pocas sub-bandas, se puede ejecutar una codificación u omisión de banda más eficientes para las bandas de baja energía. También se puede ejecutar la cuantificación que depende de la sub-banda, la codificación de entropía, y la optimización subjetiva/objetiva. Esto se puede utilizar para ejecutar codificación de acuerdo con la importancia perceptiva de cada sub-banda. También, en comparación con otros enfoques únicamente de prefiltración, una descomposición críticamente muestreada no incrementa el número de muestras y es posible la reconstrucción perfecta.

Desde una perspectiva de codificación predictiva, HVC añade predicción de sub-banda cruzada además de la predicción espacial y temporal. Cada sub-banda puede ser codificada utilizando un tipo de imagen (por ' ejemplo, rebanadas ?/?/?) diferente de las otras sub-bandas ¡siempre y cuando se adhiera al tipo de imagen/división (por ejemplo, una división tipo intra solamente puede tener codificación tipo intra para todas sus sub-bandas) . En virtud de la descomposición, las unidades de codificación virtual y las unidades de transformada son extendidas sin la necesidad de diseñar explícitamente nuevos modos de predicción, ' esquemas de sub-división, transformadas, escaneos de coeficiente, codificación de entropía, etcétera.

La complejidad computacional inferior es posible en HVC donde las operaciones que consumen tiempo tales como, por ejemplo, estimación de movimiento (ME) , son ejecutadas únicamente en las sub-bandas de baja frecuencia decimadas. También es posible un procesamiento paralelo de sub÷bandas y descomposiciones. ; Debido a que el marco HVC es independiente de la codificación de canal o sub-banda particular utilizada, éste puede utilizar diferentes esquemas de compresión, para las I diferentes bandas. Esto no entra en conflicto con otras herramientas de codificación propuestas (por ejemplo, KTA y el JCT-VC propuesto) y puede proporcionar ganancias de codificación adicionales encima de las otras herramientas de codificación.

Los principios de HVC antes descritos para corriente de video 2D también pueden aplicar a salidas de video 3D tales como para 3DTV. HVC también puede tomar mayor ventaja de las tecnologías de compresión 3DTV, se requiere i hardware de codificación y decodificación más nuevo. Debido a i esto, ha habido un interés reciente en sistemas que proporcionan una señal compatible con 3?· utilizando tecnología códec 2D existente. Dicha señal de "capa; base" (BL) sería compatible hacia atrás con hardware 2D existente, mientras que sistemas más nuevos con hardware 3D pueden sacar ventaja de señales de "capa de me oramiento" adicionales (EL) para entregar señales 3D de calidad superior.

Una manera de lograr dicha codificación de trayectoria de migración a 3D es utilizar un formato1 de panel 3D lado-a-lado o superior/inferior para el BL, y utilizar las dos vistas de plena resolución para el EL. El BL ' puede ser codificado y decodificado utilizando compresión 2D1 existente tal como AVC con solamente pequeños cambios adicionales para manejar la señalización apropiada del formato1 3D (por ejemplo, mensajes SEI de paquete de cuadro y señalización HD I 1.4). Sistemas 3D más nuevos pueden decodificar tanto BL como EL y utilizarlos para reconstruir las señales 3D de plena resolución.

Para codificación de video 3D, el BL y el EL pueden tener vistas de concatenación. Para el BL, las primeras dos vistas, por ejemplo, vistas izquierda y derecha, pueden ser concatenadas y después la imagen 2x concatenada sería descompuesta para producir el BL. Alternativamente, una vista puede ser descompuesta y después las sub-bandas¡ de baja frecuencia de cada vista pueden ser concatenadas para i producir el BL. En este enfoque, el proceso de descomposición no mezcla información de vista alguna. Para el EL, las primeras dos vistas pueden ser concatenadas y después la imagen 2x concatenada sería descompuesta para producir la capa de mejoramiento. Cada vista puede ser descompuesta y después codificada por una capa de mejoramiento o dos capas de mejoramiento. En la modalidad de capa de mejoramiento, las sub-bandas de alta frecuencia para cada vista serían i concatenadas para producir el EL tan grande como la capa base. En la modalidad de dos capas, la sub-banda de alta frecuencia para una vista seria codificada primero, como la primera capa de mejoramiento y después la sub-banda de alta frecuencia para la otra vista seria codificada como la segunda capa de mejoramiento. En este enfoque, el EL_1 puede utilizar el EL_0 ya codificado como una referencia para las I predicciones de codificación. , La figura 12 muestra el enfoque 1 para la codificación de trayectoria de migración utilizando compresión de codificación de video escalable (SVC) 1200 para el caso lado-a-lado. Tal como se puede entender, la; extensión a otros formatos 3D (por ejemplo, superior/inferior, disposición de tablero de damas, etcétera) es directa. Por lo tanto, la descripción se enfoca en el caso lado-a-ládo. El EL 1202 es una versión de doble ancho concatenada de las dos vistas de plena resolución 1204, mientras que el BL 1206 generalmente es una versión filtrada y horizontalmente sub-muestreada del EL 1204. Las herramientas de escalabilidad espacial SVC entonces pueden ser utilizadas para codificar el BL 1206 y EL 1204, donde el BL es codificado por AVC. Ambas vistas de plena resolución pueden ser extraídas del EL decodificado .

Otra posibilidad para la codificación de trayectoria de migración es utilizar compresión de codificación de video multi-vista (MVC) . En el enfoque MVC, las dos vistas de plena resolución típicamente son muestreadas sin filtración para producir dos paneles. En la figura 13, el panel BL 1302 contiene las columnas pares de i las vistas derecha e izquierda en la plena resolución 1304. El panel EL 1306 contiene las columnas impares de ambas vistas 1304. También es posible que el BL 1302 contenga la columna par de una vista y la columna impar de la otra vista, o viceversa, mientras que el EL 1306 contendría la otra paridad. El panel BL 1302 y el panel EL 1306 entonces pueden ser codificados como dos vistas utilizando MVC, , donde la estructura de codificación GOP es elegida de manera que el BL es la vista codificada por AVC independiente, mientras que el EL es codificado como una vista dependiente. Después de la decodificación tanto del BL como del EL, las dos vistas de plena resolución pueden ser generadas mediante' lá reintercalación apropiada de las columnas BL y EL. i La pre-filtración típicamente no es ejecutada en la generación de las vistas BL y EL de manera que las vistas de plena resolución originales pueden ser recuperadas en la ausencia de la distorsión de codificación.

Volviendo a la figura 14, es posible aplicar HVC en la codificación 3DTV de la trayectoria de migración ' debido a que el contenido de video típico tiende a ser de baja frecuencia en naturaleza. Cuando la entrada a HVC es una versión de doble ancho concatenada de las dos vistas de plena resolución, el BL 1402 es la banda de baja frecuencia en una descomposición horizontal de dos bandas (para el caso lado-alado) de la vista de plena resolución 1406, y el EL 1404 puede ser la banda de alta frecuencia.

Este enfoque HVC para la codificación de trayectoria de migración 3DTV por el codificador 1500 se muestra en la figura 15, la cual es una aplicación y caso especial del enfoque HVC general. Tal como se observa, muchos de los principios antes analizados son incluidos en la trayectoria de migración para este enfoque 3DTV. Una trayectoria de codificación de baja frecuencia utilizando corriente de codificación de video de entrada x 1502 se muestra utilizando algunos de los principios descritos en relación con la figura 4. Debido a que se desea que \ el BL cumpla con AVC, el canal superior de baja frecuencia , en la figura 15 utiliza herramientas AVC para la codificación. Una trayectoria de la corriente x 1502 es filtrada utilizando el filtro ho 1504 y decimada por el muestreador 1506. Un módulo de ajuste de rango 1508 restringe el rango de la capa base tal como se describe con mayor detalle a continuación. La información infoRA puede ser utilizada por el codificador mostrado, el decodificador correspondiente (ver figura 16) asi como otros codificadores, etcétera, tal como se describió anteriormente. La señal de entrada restringida entonces es proporcionada al codificador E0 1510 para producir la i corriente de bits bo 1512. La información de codificación i01 i que contiene información referente a las señales, de, banda baja y alta del codificador, decodificador u otros canales es proporcionada al codificador 1526 para mejorar el rendimiento. Tal como se entiende, la corriente de bits ba 1 puede ser reconstruida utilizando un bucle de reconstrucción.

El bucle de reconstrucción incluye un decodificador complementario Do 1514, un módulo de ajuste de rango RA'1 1516, muestreador 1518 y filtro g0 1520.

También se proporciona una trayectoria de codificación de alta frecuencia, la cual se describe en relación con la figura 7. A diferencia del canal de baja frecuencia antes analizado, el canal de alta frecuencia, puede utilizar herramientas de codificación adicionales tales como interpolación no decimada, ASF, predicción del vector de movimiento y modo de sub-banda cruzada, Modo Intra-Omisión, etcétera. El canal de alta frecuencia incluso puede ser codificado de manera dependiente, donde una vista es codificada de forma independiente y la otra vista es codificada de manera dependiente. Tal como se desdribió en relación con la figura 7, la banda de alta frecuencia incluye el filtro hi 1522 que filtra la corriente de entrada de alta frecuencia x que después es decimada por el muestreador 1524. El codificador ?? 1526 codifica la señal filtrada y decimada para formar la corriente de bits bi 1528. 1 Al igual que el canal de baja frecuencia,1 el canal de alta frecuencia incluye un decodificador Di ! 1529 que alimenta una señal decodificada al módulo de interpolación 1530. El módulo de interpolación 1530 es proporcionado para que el canal de alta frecuencia produzca información infoi 1532. El módulo de interpolación 1530 corresponde al módulo de interpolación 726 que se muestra en la figura 7 - e incluye los muestreadores 728, 730, 'los filtros gi 734,, 738, el filtro FEi 704, y el filtro 742 para prqducir la información ????? . La salida de la corriente de entrada de baja frecuencia decodificada 1521 y del módulo de interpolación 1532 son combinadas por el combinador ;1534 para producir la señal reconstruida x' 1536.

La señal reconstruida x' 1536 también es proporcionada a la memoria intermedia 1538, la cual es similar a las memorias intermedias antes descritas. La señal almacenada en memoria intermedia puede ser suministrada al i módulo de procesamiento de imagen de referencia Q' 1540 tal como se describió en relación con la figura 9(b) . La salida del módulo de procesamiento de imagen de referencia es suministrada al codificador de alta frecuencia Ei 1526. Tal i como se muestra, la información i01 del módulo de j procesamiento de imagen de referencia que incluye la codificación del canal de baja frecuencia se puede utilizar en la codificación del canal de alta frecuencia, pero no necesariamente viceversa.

Debido a que el BL con frecuencia está restringido para que sea un componente de 8 bits por color erí 3DTV, es importante que la salida del filtro h0 (y decimación) quede limitada en profundidad de bits a 8 bits. Una manera de cumplir con el rango dinámico restringido de la capa base es utilizar cierta operación de Ajuste de Rango (RA) ejecutada por el módulo RA 1508. El módulo RA 1508 pretende mapear los valores de entrada a la profundidad de bits deseada. En general, el proceso RA se puede lograr a través de una Cuantificación Delimitada (uniforme o no uniforme) de los I valores de entrada. Por ejemplo, una posible operación RA se puede definir como RAfuera=recortar (redondear (escalar*RAdentro + compensación)), donde redondear ( ) se aproxima al entero más cercano, y recortar ( ) limita el rango de valores a [min, max] (por ejemplo [0, 225] para 8 bits), y escalar ? 0. Otras operaciones RA pueden ser definidas, incluyendo unas que operan simultáneamente en un grupo de valores de ' entrada y salida. La información de parámetro RA necesita ser enviada al decodi icador (como i foiy en caso que estos parámetros no sean fijos o de cierta forma no sean conocidos por el decodificador . El módulo RA"1 "inverso" 1516 vuelve a escalar los valores al rango original, pero por supuesto con cierta pérdida posible debido al redondeo y recorte en la operación RA de avance, donde: RA-1fuera= (RA_1dentro - compensación) /escalar . i El ajuste de rango del BL permite una calidad visual aceptable mediante la escalación y desplazamiento de los datos de sub-banda, o mediante el uso, de una transformación no lineal más general. En una modalidad de escalación fija, se establece una escalación fija 'de manera que la ganancia DC del filtro de síntesis y escalación es uno. En escalación y desplazamiento adaptativos se seleccionan dos parámetros de escala y desplazamiento para cada vista de manera que el histograma normalizado de esa vista en el BL tiene la misma media y varianzá que el histograma normalizado de la vista original correspondiente.

El decodificador correspondiente 1600 mostrado en la figura 16 también ejecuta la operación RA"1, pero solamente para propósitos de reconstruir las vistas de plena resolución i concatenadas de doble ancho, ya que el BL se asume que es solamente AVC decodificado y emitido. El decodificador 1600 incluye Un decodificador de canal de baja frecuencia Do 1602 que puede producir una señal de video decodificada Jw para la capa base. La señal decodificada es suministrada al módulo de ajuste de rango inverso RA-1 1604 que es re-muestreado por el muestreador 1606 y filtrado por el filtro g0 :1608 para producir la señal reconstruida de baja frecuencia^ c0 1610. Para la trayectoria de alta frecuencia, el decodificador Di 1612 decodifica la señal que después es re-muestreada por el muestreador 1614 y filtrada por el filtro g'? 1616. La información ????± puede ser proporcionada al filtro' 1616. La salida de filtro 1616 produce la señal reconstruida' c, . 1617. Las señales reconstruidas de baja frecuencia ; y ; alta frecuencia son combinadas por el combinador 1618 para crear la señal de video reconstruida x 1620. La señal de video reconstruida x 1620 es suministrada a la memoria intermedia 1621 para ser utilizada por otros codificadores y decodificadores . La señal almacenada en memoria intermedia también puede ser proporcionada a un módulo de procesamiento de imagen de referencia 1624 que es retroalimehtada al decodificador de alta frecuencia Di.

La elección especifica de los módulos RA1 puede ser determinada con base en consideraciones de ' eficacia perceptiva y/o de codificación asi como compensaciones. Desde un punto de vista de eficacia de la codificación, con frecuencia es deseable hacer uso de todo el rango dinámico de salida especificado por la profundidad de bits. Debido a que el rango dinámico de entrada a RA generalmente es 1 diferente I para cada imagen o división, los parámetros que elevan al máximo el rango dinámico de salida diferirán entre . imágenes . Aunque esto puede no ser un problema desde el puntó de vista de la codificación, esto puede ocasionar problemas cuando el BL es decodificado y directamente visto, ya que la operación RA-1 puede no ser ejecutada antes de ser vista, posiblemente conduciendo a variaciones en brillantez y contraste'. Esto es en contraste al HVC más general, donde los: canales i individuales son internos y no están destinados ¡para ser vistos. Una solución alternativa para remediar la pérdida de información, asociada con el proceso RA, es utilizar una implementación de enteros de la codificación de sub-banda utilizando un esquema de levantamiento que lleve a la capa de banda base al rango dinámico deseado.

Si el BL codificado por AVC soporta la escalación de rango adaptativo por imagen o división RA-1 (tal como a través de mensajería SEI), entonces las operaciones RA y RA"1 pueden ser elegidas para optimizar tanto la calidad perceptiva como la eficacia de la codificación. En la ausencia de dicho procesamiento del decodificador para el BL y/o información referente al rango dinámico de entrada, una posibilidad es elegir un RA fijo para conservar ciertas características visuales deseadas. Por ejemplo, si el filtro de análisis h0 1504 tiene una ganancia DC de a ? 0, una elección razonable de RA en el módulo 1508 es establecer la ganancia =l/or y la compensación = 0.

Vale la pena observar que aunque no se muestra en las figuras 15 y 16, el EL también puede experimentar operaciones RA y RA"1 similares. No obstante, la profundidad de bits del EL típicamente es más elevada qué aquélla requerida por el BL. También, el análisis, síntesis y filtración de imagen de referencia de la imagen de doble ancho concatenada por h¿ y g± en las figuras 15 y 16 pueden ser ejecutados de manera que no hay mezclado de vistas alrededor del borde de la vista (en contraste a la filtración SVC) . Esto se puede lograr, por ejemplo, mediante relleno simétrico y extensión de una vista determinada en el borde, similar a aquella utilizada en los bordes de las otras imágenes .

En virtud de lo anterior, la codificación \ de ; video HVC analizada proporciona un marco que ofrece muchas ventajas y flexibilidad a partir de la codificación de 1 video de dominio de pixel tradicional. Se puede utilizar una aplicación del enfoque de codificación HVC para proporcionar una trayectoria de migración escalable a la codificación 3DTV. Su rendimiento parece proporcionar ciertas ¡ ganancias promisorias en comparación con otros enfoques escalables tales como SVC y MVC. Este utiliza tecnología AVC existente para el BL 3DTV de resolución inferior, y permite que herramientas adicionales mejoren la eficiencia de la codificación del EL y vistas de plena resolución.

Volviendo ahora a los dispositivos antes 'descritos se ejecuta un método 1700 de codificación de una corriente de video de entrada. La corriente de video de entrada es recibida 1702 en una cabecera de un sistema de distribución de video descrito y se divide 1704 en una serie de divisiones basadas en al menos un conjunto de características de la corriente de video de entrada. El conjunto de características puede ser cualquier tipo de características de la ¡corriente de video incluyendo características del contenido, contexto, calidad y funciones de la codificación de la corriente de video. Además, la corriente de video de entrada se puede dividir de acuerdo con los diversos canales de la corriente de video de manera que cada canal es dividido por separado de acuerdo con los mismos o diferentes conjuntos de características. Después de la división, las divisiones de la corriente de video de entrada son procesadas y ¡analizadas para descomponer 1706 las divisiones para la cojdificación mediante dichas operaciones como decimación y muestreo de las divisiones. Las divisiones descompuestas entonces son codificadas 1708 para producir corrientes de bits codificadas. Como parte del proceso de codificación, la información de codificación puede ser proporcionada al codificador. La información de codificación puede incluir información de entrada de los otros canales de la ' corriente de video de entrada así como información de codificación basada en una corriente de video reconstruida. La información de codificación también puede incluir información ¡referente al control e información de calidad referente a la ;cor,riente de video así como información referente a los conjuntos de características. En una modalidad, la corriente de bits codificada es reconstruida 1710 en una corriente de video reconstruida la cual puede ser puesta en memoria intermedia y almacenada 1712. La corriente de video reconstruida puede ser retroalimentada 1714 en el codificador y utilizada como información de codificación así como proporcionada 1716 a los codificadores para otros canales de la corriente de · video de entrada. Tal como se entiende a partir de la descripción anterior, el proceso de reconstruir la corriente de; video asi como proporcionar la corriente de video reconstruida como información de codificación puede incluir los procesos de analizar y sintetizar las corrientes de bits codificadas y la corriente de video reconstruida.

La figura 18 es un gráfico de flujo que ilustra un método 1800 de decodificar corrientes de bits codificadas que son formadas como un resultado del método mostrado en la figura 17. Las corrientes de bits codificadas son ' recibidas 1802 por una unidad de suscriptor 150a-n como parte de un sistema de distribución de video. Las corrientes de bits son decodificadas 1804 utilizando información de codificación que es recibida por el decodificador . La información de decodificación puede ser recibida como parte de la corriente de bits o puede ser almacenada por el decodificador. Además, la información de codificación puede ser recibida desde diferentes canales para la corriente de video. La corriente de bits decodificada entonces es sintetizada 1806 en una serie de divisiones que entonces son combinadas 1808 para crear una corriente de video reconstruida que corresponde a la corriente de video de entrada descrita en relación con la figura 17.

Otra implementación todavía hace uso : de: una descomposición del video de entrada en características que pueden ser representadas de manera eficiente y que. se pueden ajustar mejor a la percepción del video. Aunque la Imayoria de la descomposición apropiada puede depender j de las características del video, esta contribución se enf'oca en una descomposición para una amplia variedad de contenido incluyendo video natural, típico. La figura 19 ilustra la descomposición de la entrada x en dos capas a .través de i filtración de análisis. En este ejemplo, la filtración separa x en diferentes bandas de frecuencia espacial. Aunque la entrada x puede corresponder a una porción de una imagen o a toda una imagen, el enfoque en esta contribución e's en toda la imagen. Para video típico, la mayoría de la energía puede estar concentrada en la capa de baja frecuencia 10 en comparación con la capa de alta frecuencia 11. También, I0 i tiende a capturar características de intensidad local mientras que Ii captura detalles de variación tales como bordes.

Cada capa li puede entonces ser codificada con Ei para producir la corriente de bits bi. Para esca'labilidad espacial, el proceso del análisis puede incluir el filtrado seguido por el sub-muestreo de manera que bO puede corresponder a una corriente de bits de capa base apropiada. Como una corriente de bits de mejoramiento, bl p,uede ser generado utilizando información de la capa base 10 conforme a lo indicado por la flecha de EO a El. La combinación de EO a El se refiere como el codificador escalable general 'Es.

El decodificador escalable Ds puede consistir de un decodificador de capa base DO y decodificador de capa de mejoramiento DI. La corriente de bits de capa basé bO puede ser decodificada por DO para reconstruir la capá l'O. La corriente de bits de capa de mejoramiento bl puede ser decodificada por DI junto con posible información de bO para reconstruir la capa l'l. Las dos capas decodificadas , d'O y d' 1 pueden entonces ser utilizadas para reconstruir x' utilizando una operación de síntesis.

Para ilustrar las modalidades propuestas para escalabilidad espacial, el muestreo crítico fue utilizando en una descomposición de dos bandas al nivel de imagen. Las direcciones horizontal y vertical fueron sub-muestreadas por un factor de dos, teniendo como resultado un1 sistema escalable de cuatro capas. Se realizaron simulaciones utilizando HM 2..0 para los codificadores Ei y decodificadores Di. Aunque es posible mejorar la eficiencia; de la codificación mediante la explotación de las correlaciones entre las capas, estas simulaciones no hacen uso de alguna predicción ínter-capa.

El desempeño de la implementación propuesta se comparó con casos de una sola capa y de transmisión simultánea. En el caso de una sola capa, x es codificado utilizando HM 2.0 directamente. En este caso de transmisión simultánea, la tasa de transferencia de bits es determinada sumando los bits para la codificación x directamente y los bits para la codificación 10 directamente, mientras que la PSNR és aquella correspondiente a la codificación directa de x. En la implementación propuesta, la tasa de transferencia de bits corresponde a los bits para todas las capas, y la PSNR es aquélla para x' .

Representación eficiente: Utilizando capas criticamente muestreadas, los codificadores Ei en este ejemplo operan en el mismo número total de pixelés que la entrada x. Esto es en contraste a SVC, donde para escalabilidad espacial hay un incremento en el número total de pixeles que se van a codificar, y el requerimiento de memoria también se incrementa.

Escalabilidad espacial general: La implementación se puede extender a otros factores de escalabilidad espacial, por ejemplo, l:n. Debido a que las capas pueden ¡tener el mismo tamaño, puede haber una correspondencia simple en información colocada (por ejemplo, pixeles, CU/PU/TU, vectores de movimiento, modos de codificación, etc.) entre capas. Esto es en contraste a SVC, donde el tamaño (y í posiblemente la forma) de las capas no son las mismas,, y la correspondencia en la información colocada entre dapas puede no ser tan directa.

Mejoramiento de nitidez: Las presentes implementaciones pueden ser utilizadas para lograr un mejoramiento de la nitidez ya que capas adicionales proporcionan más detalles a las características tales como bordes. Este tipo de mejoramiento de nitidez es en contraste a otras implementaciones escalables que mejoran la calidad solamente mediante cambios en la cantidad de cuantificación.

Codificación independiente de capas: Los resultados de la simulación para escalabilidad espacial indican que es posible ejecutar la codificación independiente de capas mientras se mantiene un buen desempeño de la eficiencia de la codificación. Esto hace posible el procesamiento paralelo de las capas, donde las capas pueden ser procesadas simultáneamente. Para el caso de escalabilidad espacial de dos capas con SVC, la codificación independiente de ilas capas (sin predicción inter-capas) correspondería al caso de transmisión simultánea. Observar que, con codificación independiente de capas, los errores en una capa no afectan a las otras capas. Además, se puede utilizar un codificador diferente ?? para codificar cada 1¿ para ajustarse mejor a las características de la capa.

Codificación dependiente de las capas:, En las implementaciones aquí divulgadas, la codificación dependiente de capas puede mejorar la eficiencia de la codificación. Cuando las capas tienen el mismo tamaño, compartir la información colocada entre capas es simple. También es posible codificar de manera adaptativa capas dependientemente o independientemente para compensar el desempeño de la eficiencia de la codificación con desempeño de resiliencia de error.

En la especificación anterior se han 1 descrito modalidades especificas de la presente invención. Sin embargo, un experto en la técnica aprecia que se pueden realizar diversas modificaciones y cambios sin apartarse del alcance de la presente invención tal como se establece en las siguientes reivindicaciones. Por consiguiente, la especificación y las figuras serán vistas en un sentido ilustrativo en lugar de restrictivo, y todas esas modificaciones pretenden quedar incluidas dentro del alcance de la presente invención. Los beneficios, ventajas, soluciones a problemas, y cualesquiera elementos que pueden ocasionar algún beneficio, ventaja o solución para que ocurra o se vuelva más pronunciada no se interpretarán como una característica o elemento crítico, requerido o esencial de cualquiera o todas las reivindicaciones. La invención queda definida solamente por las reivindicaciones anexas incluyendo cualesquiera enmiendas realizadas durante la etapa pendiente de esta solicitud y todos los equivalentes '¦ de esas reivindicaciones tal como se emitan. í ;

Claims

NOVEDAD DE LA INVENCION Habiendo descrito el presente invento, sé considera como una novedad y, por lo tanto, se reclama como prioridad lo contenido en las siguientes: REIVINDICACIONES

1. - Un aparato que comprende: un divisor para segmentar una corriente de video de entrada en divisiones para cada uno de una pluralidad de divisiones de la corriente de video; un analizador de canal acoplado al divisor en donde el analizador de canal descompone las divisiones, y un codificador acoplado al analizador de canal para codificar cada división descompuesta en una corriente de bits codificada para producir una pluralidad de corrientes de bits codificadas, en donde el codificador utiliza la información de codificación de al menos uno de la pluralidad de divisiones descompuestas que se van a utilizar en la codificación de las divisiones descompuestas en la pluralidad de corrientes de bits codificadas, en donde cada una de las divisiones descompuestas es del mismo tamaño.

2. - El aparato de conformidad con la reivindicación 1, que además comprende un bucle de reconstrucción para decodificar la corriente de bits codificada y recombinar las corrientes de bits decodificadas en una corriente de video reconstruida.

3. - El aparato de conformidad con la reivindicación 2, que además comprende una memoria intermedia para almacenar la corriente de video reconstruida.

. - El aparato de conformidad con la reivindicación 1, caracterizado porque al menos una de la corriente de video reconstruida y la información de codificación es utilizada como información de codificación para el codificador.

5. - El aparato de conformidad con la reivindicación 1, caracterizado porque el divisor utiliza al menos uno de una pluralidad de conjuntos de características pára formar las divisiones. ;

6. - El aparato de conformidad con la reivindicación 1, caracterizado porque la información de codificación es al menos . una de una información de imagen de referencia e información de codificación de corriente de video.

7. - El aparato de conformidad con la reivindicación 6, caracterizado porque la información de imagen de referencia es determinada a partir de la corriente de video reconstruida creada a partir de las corrientes de bits.

8. - Un aparato que comprende: un decodificador que recibe una corriente de bits codificada, en donde el decodificador decodifica toda o parte de la corriente de bits de acuerdo con la información de codificación recibida referente a los canales de la corriente de bits codificada; un sintetizador de canal acoplado al decodificador para sintetizar la corriente de bits decodificada en una o más divisiones de una corriente de video, y un combinador acoplado al sintetizador de canal para crear una corriente de video reconstruida a ' partir de todas o parte de las corrientes de bits decodificadas .

9. - El aparato de conformidad con la reivindicación 8, caracterizado porque la información de codificación incluye al menos una de la corriente de video reconstruida e información de codificación para la corriente ¡de video reconstruida.

10. - El aparato de conformidad ' con la reivindicación 8, que además comprende una memoria intermedia acoplada al combinador en donde la memoria intermedia almacena la corriente de video reconstruida.

11. - El aparato de conformidad con la reivindicación 10, que además comprende un filtro¦ acoplado entre la memoria intermedia y el decodificador para retroalimentar al menos una parte de la corriente de video reconstruida al decodificador como información de codificación. ;

12. - El aparato de conformidad : con la reivindicación 8, caracterizado porque las divisiones son determinadas con base, al menos en parte, en uno de una pluralidad de conjuntos de características de una' corriente de video de entrada correspondiente a la corriente de video reconstruida.

13. - Un método que comprende: recibir una corriente de video de entrada; dividir la corriente de video de entrada en una pluralidad de divisiones; descomponer la pluralidad de divisiones; y codificar las divisiones descompuestas; en una corriente de bits codificada, en donde la codificación utiliza información de codificación de los canal'es de la corriente de video de entrada, ! . en donde cada una de las divisiones descompuestas tiene el mismo tamaño.

14. - El método de conformidad con la reivindicación 13, caracterizado porque la codificación además incluye recibir una corriente de video reconstruida derivada de las corrientes de bits codificadas como una entrada utilizada para codificar las divisiones en la corriente de bits.

15. - El método de conformidad con la reivindicación 13, que además comprende almacenar en memoria intermedia una i corriente de video reconstruida a partir de las corrientes de bits codificadas que van a ser utilizadas como información de codificación para otros canales de la corriente de video de entrada. i

16. - El método de conformidad con la reivindicación i 13, caracterizado porque la información de codificación es al menos una de información de imagen de referencia e información de codificación de corriente de video.

17. - Un método que comprende: j recibir al menos una corriente de bits codificada; decodificar toda o parte de la corriente de bits recibida, en donde la decodificación utiliza la información i I de codificación de los canales de una corriente de! video de entrada; ; sintetizar la corriente de bits decodificada en una o más divisiones de la corriente de video de entrada; y combinar una o más de las divisiones, en una corriente de video reconstruida.

18. - El método de conformidad con la reivindicación 17, caracterizado porque la información de codificación es al menos una de información de imagen de referencia e información de codificación de corriente de video de ¡entrada.

19. - El método de conformidad con la reivindicación 17, que además comprende el uso de la corriente, de video reconstruida como entrada para la decodificación de las corrientes de bits.

20. - El método de conformidad con la reivindicación 19, que además comprende sintetizar la corriente1 de video reconstruida para decodificar la corriente de bits.