MX2007000810A

MX2007000810A - Metodo y aparato para conversion ascendente de velocidad por cuadro asistido de codificador (ea-fruc) para compresion de video.

Info

Publication number: MX2007000810A
Application number: MX2007000810A
Authority: MX
Inventors: Gordon Kent Walker; Vijayalakshmi R Raveendran; Fang Shi
Original assignee: Qualcomm Inc
Priority date: 2004-07-20
Filing date: 2005-07-20
Publication date: 2007-04-02
Also published as: JP2008507915A; IL180767A0; EP2096873A3; CA2574297A1; WO2006012384A2; RU2007106081A; BRPI0513527A; CN101189882B; CN101189882A; WO2006012384A3; AU2005267171A1; US9521411B2; US20060165176A1; EP2194720A1; KR101016168B1; EP1772017A2; KR20070044455A; EP2096873A2; US8374246B2; US20130188742A1

Abstract

Se describe un sistema de Conversion Ascendente de Velocidad por Cuadro Asistido de Codificador (EA-FRUC) que utiliza codificacion de video y operaciones de procesamiento previo en el codificador de video para explotar el procesamiento FRUC que ocurrira en el decodificador para mejorar la eficiencia de la compresion y la calidad del video reconstruido; una operacion del sistema EA-FRUC involucra tomar una determinacion respecto a si codificar un cuadro en una secuencia de cuadros de un contenido de video determinando una actividad espacial en un cuadro de la secuencia de cuadros; determinar una actividad temporal en el cuadro; determinar una actividad espacio-temporal en el cuadro basada en la actividad espacial determinada y la actividad temporal determinada; determinar un nivel de una redundancia en el cuadro fuente con base por lo menos en una de la actividad espacial determinada, la actividad temporal determinada, y la actividad espacio-temporal determinada; y, codificar la informacion no redundante en el cuadro si la redundancia determinada esta dentro de los umbrales predeterminados.

Description

MÉTODO Y APARATO PARA CONVERSIÓN ASCENDENTE DE VELOCIDAD POR CUADRO ASISTIDO DE CODIFICADOR (EA- RUC) PARA COMPRESIÓN DE VIDEO CAMPO DE LA INVENCIÓN Las modalidades aquí descritas se refieren generalmente a compresión de video digital y, muy particularmente, a un método y aparato para Conversión Ascendente de Velocidad por Cuadro Asistido de Codificador (EA-FRUC) para compresión de video.

ANTECEDENTES DE LA INVENCIÓN Hoy en día existen formatos de video que soportan varias velocidades de cuadro. Los siguientes formatos actualmente son los más prevalecientes, listados en orden por sus cuadros soportados por segundo (fps) : 24 (película nativa) , 25 (PAL) , 30 (video típicamente entrelazado) , y 60 (Alta Definición (HD) por ejemplo, 720p) . Aunque estas velocidades de cuadro son convenientes para la mayoría de las aplicaciones, para alcanzar el ancho de banda bajo requerido para las comunicaciones de video de equipo móvil, las velocidades de cuadro en ocasiones son llevadas a velocidades tan bajas como 15, 10, 7.5 ó 3 fps. Aunque estas bajas velocidades permiten dispositivos de bajo extremo con capacidades computacionales inferiores para desplegar algún video, la calidad del video resultante sufre de "sacudidas" (es decir, tiene un efecto deslizante), en lugar de ser suave en movimiento. También, los cuadros tirados con frecuencia no rastrean correctamente la cantidad de movimiento en el video. Por ejemplo, se deberían tirar menos cuadros durante porciones de contenido de video de "alto movimiento" tal como aquellas que ocurren en eventos deportivos, mientras que se pueden tirar más cuadros durante segmentos de contenido de video de "bajo movimiento" tal como aquellos que ocurren en programas de conversación. La compresión de video necesita depender del contenido, y sería deseable poder analizar e incorporar características de movimiento y textura en la secuencia que se va a codificar para mejorar la eficiencia de la compresión de video. La Conversión Ascendente de Velocidad por Cuadro (FRUC) es un proceso de uso de interpolación de video en el decodificador de video para aumentar la velocidad de cuadro del video reconstruido. En FRÜC, los cuadros interpolados son creados utilizando cuadros recibidos como referencias. Actualmente, los sistemas que ejecutan interpolación de cuadro FRUC incluyen enfoques basados en la interpolación de movimiento compensado y el procesamiento de vectores de movimiento transmitidos. FRUC también se utiliza en la conversión entre varios formatos de video. Por ejemplo, en aplicaciones de Telecine y Telecine Inverso, el cual es una técnica de transferencia de película-a-videocinta que rectifica las diferencias respectivas de velocidad de cuadro de color entre la película y el video, el video progresivo (24 cuadros/segundo) se convierte a video entrelazado NTSC (29.97 cuadros/segundo). Otro enfoque FRUC utiliza interpolación de movimiento compensado ponderado-adaptivo (WAMCI) , para reducir los artefactos de bloqueo causados por las deficiencias de la estimación de movimiento y el procesamiento basado en el bloqueo. Este enfoque se basa en una interpolación mediante la suma ponderada de múltiples imágenes de interpolación de movimiento compensado (MCI) . Los artefactos de bloqueo en los límites de bloqueo también se reducen en el método propuesto mediante la aplicación de una técnica similar a la compensación de movimiento de bloque traslapado (OBMC) . Específicamente, para reducir la borrosidad durante el procesamiento de áreas traslapadas, el método utiliza el análisis de movimiento para determinar el tipo de movimiento de bloque y aplica OBMC de manera adaptiva. Resultados experimentales indican que el enfoque propuesto logra resultados mejorados, con artefactos de bloqueo significativamente reducidos.

Otro enfoque FRUC todavía utiliza análisis de confiabilidad de vector para reducir los artefactos causados por el uso de cualesquiera vectores de movimiento que son transmitidos, de manera imprecisa, desde - el codificador. En este enfoque, la estimación de movimiento se utiliza para construir vectores en movimiento que se comparan con vectores de movimiento transmitidos a fin de determinar el enfoque más deseado para la interpretación de cuadros. En algoritmos de conversión ascendente convencionales que utilizan estimación de movimiento, el proceso de estimación es ejecutado mediante el uso de dos cuadros decodificados adyacentes para construir los vectores de movimiento que permitirán a un cuadro ser interpolado. Sin embargo, estos algoritmos intentan mejorar la utilización de ancho de banda de transmisión sin considerar la cantidad de cálculo que se requiere para la operación de estimación de movimiento. En comparación, en algoritmos de conversión ascendente que utilizan vectores de movimiento transmitidos, la calidad de los cuadros interpolados depende en gran medida de los vectores de movimiento que son derivados por el codificador. Utilizando una combinación de los dos enfoques, los vectores de movimiento transmitidos primero son analizados para decidir si éstos son útiles para construir cuadros de interpolación. El método utilizado para la interpolación es entonces seleccionado, de manera adaptiva, de entre tres métodos: interpolación local de movimiento compensado, interpolación global de movimiento compensado e interpolación de cuadro repetido. Aunque generalmente se ejecutan técnicas FRUC como funciones de post-procesa iento en el decodificador de video, el codificador de video típicamente no está involucrado en esta operación. Sin embargo, en un enfoque denominado como FRUC de codificador asistido (EA-FRUC) , el codificador puede determinar si la transmisión de cierta información relacionada con los vectores de movimiento o cuadros de referencias . (por ejemplo, datos residuales), se pueden eliminar mientras se sigue permitiendo al decodificador regenerar, de manera autónoma, porciones principales de cuadros sin el vector eliminado o datos residuales. Por ejemplo, un método de codificación de video predictivo bidireccional se ha introducido como una mejora para la codificación de B-cuadros en MPEG-2. En este método, se propone el uso de un criterio de error para permitir la aplicación de verdaderos vectores de movimiento en la codificación predictiva de movimiento compensado. La medición de distorsión se basa en la suma de diferencias absolutas (SAD) , pero esta medición de distorsión es conocida como insuficiente para proveer una verdadera medición de distorsión, particularmente en los casos donde la cantidad de movimiento entre dos cuadros en una secuencia necesita ser cuantificada. Adicionalmente, la variación en umbrales se clasifica utilizando umbrales fijos cuando, de manera opcional, estos umbrales deberían ser variables ya que las clasificaciones de preferencia dependen del contenido. El campo-de-estudio de EA-FRUC es un campo en crecimiento. Con un creciente interés en el área de la compresión de video, particularmente para aplicaciones de baja velocidad de bit tal como el video en corriente y la telefonía en video, y especialmente en escenarios donde el remitente está en un nodo de red, el cual tiene la capacidad para soportar aplicaciones de alta complejidad, y el receptor es un dispositivo con potencia y restricciones de complejidad. EA-FRUC también encuentra aplicación en sistemas abiertos, en donde el decodificador se ajusta a cualquier tecnología de codificación de video estándar o popular, y en sistemas cerrados, en donde se pueden adoptar técnicas de decodificación de marca registrada. Lo que es deseable es un enfoque que provea cuadros interpolados de alta calidad en el decodificador mientras se reduce la cantidad de ancho de banda necesario para transmitir la información necesaria para ejecutar la interpolación y también reducir el volumen del cálculo necesario para crear estos cuadros para hacerlo conveniente para dispositivos móviles de multimedia que dependen del procesamiento de baja potencia. Por consiguiente, existe la necesidad de superar los problemas antes observados.

SUMARIO DE LA INVENCIÓN Las modalidades proveen un sistema de Conversión Ascendente de Velocidad por Cuadro Asistido de Codificador (EA-FRUC) que utiliza codificación de video y operaciones de pre-procesamiento en el codificador de video para explotar el procesamiento FRUC que ocurrirá en el decodificador para mejorar la eficiencia de compresión y la calidad de video reconstruido. En una modalidad, el proceso involucra determinar si se debe codificar un cuadro en una secuencia de cuadros de un contenido de video mediante la determinación de una actividad espacial en un cuadro de la secuencia de cuadros; determinar una actividad temporal en el cuadro; determinar una redundancia por lo menos en una de la actividad espacial determinada, la actividad temporal determinada y la actividad espacio-temporal determinada; y, codificar el cuadro si la redundancia determinada está por debajo de un umbral predeterminado. En otra modalidad, el proceso involucra determinar si se codifica un conjunto de uno o más cuadros en una secuencia de cuadros de un contenido de video mediante la determinación de la actividad espacial en el conjunto de cuadros de la secuencia de cuadros; determinar la actividad temporal en el conjunto de cuadros; determinar una redundancia por lo menos en uno de la actividad espacial determinada, la actividad temporal determinada y - la actividad espacio-temporal determinada; y, codificar uno o más del conjunto de cuadros si las redundancias determinadas están dentro de un conjunto de umbrales predeterminados . En otra modalidad, se describe un medio legible por computadora tiene instrucciones almacenadas en el mismo para provocar que una computadora ejecute un método para la construcción de una secuencia de video, incluyendo una secuencia de cuadros. El método comprende determinar una actividad espacial en un cuadro de la secuencia de cuadros; determinar una actividad temporal en el cuadro; determinar una redundancia por lo menos en una de la actividad espacial determinada y la actividad temporal determinada; y, codificar el cuadro si la redundancia determinada está por debajo de un umbral predeterminado. En otra modalidad todavía, se describe un aparato para la construcción de una secuencia de video que incluye una secuencia de tramas. El aparato incluye medios para determinar una actividad espacial en un cuadro de la secuencia de cuadros; medios para determinar una actividad temporal en el cuadro; medios para determinar una redundancia por lo menos en una de la actividad espacial determinada y la actividad temporal determinada; y medios para codificar el cuadro si la redundancia determinada está por debajo de un umbral predeterminado. En otra modalidad todavía, se describe por lo menos un procesador configurado para ejecutar un método para la construcción de una secuencia de video que incluye una secuencia de cuadros. El método incluye determinar una actividad espacial en un cuadro de la secuencia de cuadros; determinar una actividad temporal en el cuadro; determinar una redundancia por lo menos en una de la actividad espacial determinada y la actividad temporal determinada; y, codificar el cuadro si la redundancia determinada está por debajo de un umbral predeterminado. Otros objetivos, características y ventajas serán aparentes para aquellos expertos en la técnica a partir de la siguiente descripción detallada. Sin embargo, se entenderá que la descripción detallada y los ejemplos específicos, aunque indican modalidades ejemplares, se proporcionan a manera de ilustración y no limitación. Se pueden hacer muchos cambios y modificaciones dentro de la siguiente descripción sin apartarse del espíritu de la misma, y la descripción se deberá entender como que incluye todas esas modificaciones.

BREVE DESCRIPCIÓN DE LAS FIGURAS La invención se podrá entender más fácilmente haciendo referencia a las figuras anexas en donde: La figura 1 es un diagrama en bloques de un sistema de codificación de video que ejecuta un sistema de conversión ascendente de velocidad por cuadro asistido de codificador (EA-FRUC) , de acuerdo con una modalidad; La figura 2 es un diagrama de flujo que ilustra la operación del sistema EA-FRÜC de la figura 1; La figura 3 es un diagrama que ilustra la codificación de un paso, de acuerdo con una modalidad del sistema EA-FRUC de la figura 1; La figura 4 es un diagrama que ilustra la codificación de dos pasos, de acuerdo con una modalidad del sistema EA-FRUC de la figura 1; y La figura 5 es un diagrama en bloques que ilustra una aplicación del sistema EA-FRUC 100 para un sistema inalámbrico. Números similares se refieren a partes similares en las diversas vistas de las figuras.

DESCRIPCIÓN DETALLADA DE LA INVENCIÓN La conversión ascendente de velocidad por cuadro (FRUC) es una técnica para aumentar la velocidad de cuadro en el decodificador en la transmisión de video de baja velocidad de bit. Típicamente, esta es una operación del decodificador. Sin embargo, al anticipar las necesidades del algoritmo FRUC en el decodificador, un codificador de video puede tomar decisiones inteligentes respecto a cuál cuadro o cuadros en una secuencia de video pueden ser tirados (es decir, no transmitidos al decodificador) para ofrecer un incremento en la velocidad de bits comprimida general, mejorando así la eficiencia de la compresión. En una modalidad del sistema FRUC asistido de codificador (EA-FRUC) , como aquí se describe, el codificador tiene acceso a los cuadros fuente así como a conocimiento previo del algoritmo FRUC utilizado en el decodificador y, utilizando el cuadro interpolado generado con el mismo, transmite información adicional para ayudar al decodificador en la ejecución de FRUC y mejorar las decisiones tomadas durante la interpolación. Al tomar ventaja del conocimiento que FRUC será ejecutado en el decodificador, el sistema EA-FRUC utiliza codificación de video y operaciones de pre-procesamiento en el codificador de video para mejorar la eficiencia de la compresión (mejorando así la utilización del ancho de banda de transmisión) y la calidad de video reconstruido. Específicamente, la información proveniente del codificador que puede ser un suplemento o que puede reemplazar información normalmente transmitida por el codificador es provista al decodificador para que sea utilizada en FRUC regular o asistido por codificador. En una modalidad, la información provista por el codificador incluye parámetros tales como características espaciales (por ejemplo, refinamientos, decisiones de modo, características vecinas) y temporal (por ejemplo decisiones de vectores de movimiento) de la imagen que se va a interpolar en el decodificador, así como información diferencial con respecto a la codificación de cuadro pronosticada normal (B ó P) y el cuadro generado por el proceso FRUC. Los cuadros interpolados por el proceso FRUC aquí se denominarán como "F-cuadros".

Perspectiva general de FRUC de codificador asistido La figura 1 ilustra un sistema de codificación/decodificación ("codificación") de video 100 configurado de acuerdo con una modalidad. El sistema de codificación 100 incluye un codificador de video 104 que procesa datos de video digital para optimizar esos datos para transmisión y decodificación por parte de uno o más decodificadores. Específicamente, en una modalidad, el codificador de video 104 emplea un algoritmo de codificación de video para codificar y comprimir un video de fuente de entrada 102 para reducir el ancho de banda requerido para transmitir el video 102 al decodificador 154. La eficiencia de compresión del codificador de video 104 se puede mejorar a través de varios métodos, uno de los cuales es a través de la reducción de velocidad de cuadros transmitidos (es decir, reducción del número de cuadros que tienen que ser transmitidos) . Los mecanismos FRUC se emplean entonces en el decodificador 154 para aumentar la velocidad de cuadro de la corriente de video decodificado y mejorar la interpretación del movimiento. Específicamente, el decodificador 154 crea cuadros interpolados utilizando cuadros de referencia en la corriente de video codificado conforme es recibido desde el codificador 104. Como se describe adicionalmente en la presente invención, el codificador de video 104 está "consciente" de la capacidad del decodificador de video 154 para ejecutar FRUC durante la operación de codificación y explota este potencial para reducir el número y el tamaño de cuadros transmitidos.

Análisis de F cuadros En una modalidad, el codificador 104 del sistema de codificación 100 incluye un módulo de clasificación de contenido 106 para determinar la complejidad espacial y temporal, ambas: (i) en cada cuadro de la secuencia de video; y (ii) entre los cuadros en la secuencia de video. El codificador 104 utiliza el resultado de esta operación para determinar: (i) cuáles cuadros en una secuencia de cuadros, también conocida como un Grupo de Imágenes (GOP), pueden ser tirados; y (ii) cuántos cuadros consecutivos pueden ser tirados entre dos cuadros codificados. Cada GOP está compuesto, por definición, de un arreglo de una imagen I (cuadro) , imagen P (cuadro) , y una o más imágenes B (cuadro) . Un GOP sirve como una unidad de acceso básica, en donde el cuadro I sirve como el punto de acceso para facilitar el acceso aleatorio. Se debería apreciar que un GOP puede constar de un número variable de cuadros . Se asume que cualesquiera cuadros tirados serán apropiadamente reconstruidos según sea necesario utilizando técnicas FRUC conocidas en el decodificador 154. En una modalidad, se adoptará uno de los siguientes métodos para el análisis: 1.- Clasificar la importancia de cada cuadro en la secuencia dependiendo de la actividad en la secuencia (por ejemplo, movimiento lento contra movimiento rápido, regiones planas contra texturas ocupadas) , y después tirar (desechar) todos los cuadros altamente correlacionados en la secuencia. 2.- El algoritmo FRUC disponible en el decodificador 154 es empleado en el decodificador 104 para construir un cuadro FRUC esperado. Si la correlación entre un cuadro fuente y su versión interpolada es alta, el cuadro fuente se tira. Alternativamente, si el cuadro fuente está codificado como un B-cuadro y el B-cuadro reconstruido está altamente correlacionado con su versión interpolada, se tira este B-cuadro altamente correlacionado. Si no es así, el cuadro fuente es codificado y transmitido. Si la correlación entre el cuadro fuente y el cuadro interpolado o el B-cuadro y el cuadro interpolado es moderada, la parte no redundante del cuadro es codificada como información de asistencia que se utiliza para mejorar la calidad del cuadro interpolado con respecto a su cuadro fuente correspondiente. La figura 2 ilustra una modalidad del proceso utilizado por el sistema de codificación 100 para clasificar el contenido fuente. En una modalidad, en el paso 208, se determina si existen cualesquiera restricciones de latencia para el rendimiento de la codificación del contenido fuente. Por ejemplo, las aplicaciones de corriente en tiempo real o codificadores restringidos por los requerimientos de latencia (por ejemplo, corrientes que portan video de conversación tal como telefonía de video) típicamente tienen que completar todas las operaciones de codificación en un paso sencillo. En este caso, la operación continúa con el paso 208, en donde se ejecuta un proceso de codificación de un paso. En contraste, video sin conversación, tal como aplicaciones de video sobre demanda (VOD) , cámara digital y cámara-grabadora, en donde el video codificado es almacenado y, por lo tanto, no existen restricciones sobre la operación de codificación en términos de recursos de temporización, puede ser procesado utilizando codificación de dos pasos, como en el paso 216. Como aquí se describe, debido a estas diferencias, varía la extensión y la calidad de la clasificación de contenido ejecutada por los sistemas de codificación 100 para los dos modos.

Actividad espacial Continuando con referencia a la figura 2 , y refiriéndose nuevamente a la figura 1, la actividad espacial queda determinada por el módulo de clasificación de contenido 106 en el paso 210. Específicamente, el módulo de clasificación de contenido 106 determina la cantidad de actividad espacial en la fuente de video 102. En una modalidad, actividad espacial se refiere a la cantidad de información de textura, tal como borde, color saturado, y objetos de alto contraste, en los cuadros de imágenes de una secuencia de video. Generalmente, mientras mayor es la cantidad de información de textura en la secuencia de video, mayor es la actividad espacial. En una modalidad, la información de textura puede ser cuantificada utilizando las siguientes mediciones: a. Media: en codificación basada en bloques, la media de cada bloque se compara con la media de: (i) el cuadro o (ii) una zona cercana de bloques de diversos tamaños . b. Varianza: la cantidad de varianza de píxel en cada macrobloque se puede comparar contra un umbral dependiente de datos predeterminado para determinar ia actividad espacial. Alternativamente, los bloques se pueden clasificar con base en las mediciones de varianza y media, en cuyo caso se pueden utilizar diferentes umbrales para diferentes rangos de valores medios. c. Varianza y media de forma/tamaño de bloque variable: las mediciones de varianza y media se pueden extender a tamaños de bloque variables y a objetos que abarcan regiones arbitrariamente configuradas (y formadas) en una imagen o cuadro. d. Relación de contraste: la relación de: (i) la desviación estándar de un bloque, región, u objeto, a (ii) la media de una región o zona cercana de bloques (por ejemplo, un bloque 3x3), se puede utilizar para proveer una medición de contraste dentro de una zona cercana de elementos. Adicionalmente, se puede ponderar la relación de contraste con base en los valores medios. Específicamente, la relación de contraste de un bloque o macrobloque determinado se expresa como una suma de diferencias de la media del bloque actual y la media de bloques vecinos (8 bloques vecinos en una zona cercana 3x3 de 9 bloques) normalizada por la media de todos los bloques en la zona cercana. Esta medición proveyó bastante granularidad en la información de textura espacial, lo cual se traduce en actividad espacial y se utilizó con éxito como el algoritmo de división de bloque, para DCT de tamaño de bloque variable (también conocido como ABSDCT) . e. Campo de vector de movimiento: En cuadros pronosticados (por ejemplo, cuadros P ó B) , los vectores de movimiento de macrobloques (y vectores de movimiento de sub-bloques) del cuadro pronosticado, se pueden mapear para formar un campo de vector de movimiento. Dichos campos se utilizan para procesamiento de vector de movimiento a vectores de movimiento de perfil suave y, en general, son indicadores de: (i) el movimiento global en la secuencia; (ii) la actividad de movimiento de varios objetos en los cuadros (por ejemplo, con base en la intensidad, densidad y/o magnitud del campo de vector de movimiento) ; y (iii) el numero de objetos en movimiento en el cuadro. El nivel de actividad de movimiento también provee una indicación de actividad espacial de una secuencia particular debido a la necesidad de la detección por parte del proceso de actividad de movimiento para detectar ambos objetos (lo cual requiere la detección de bordes) y variabilidad (la cual requiere la detección de diferencias entre regiones) a través de la secuencia. f. Detección de borde: los algoritmos de detección de borde en procesamiento de imágenes típicamente aplican un filtro de paso alto, tal como un filtro Sobel, a los píxeles en una imagen sobre una ventana particular (por ejemplo, una región 3x3 ó 5x5), y después la salida filtrada es comparada con un umbral para determinar la existencia de un borde. Un mapa de los bordes detectados y la cantidad de bordes provee una indicación de la actividad espacial. g. Existen otros indicadores de actividad espacial, tal como los conocen aquellos expertos en la técnica de procesamiento de imágenes, y cualquiera de esas mediciones se puede aplicar al proceso como se muestra en la figura 2.

Actividad temporal En el paso 212, la actividad temporal queda determinada por el módulo de clasificación de contenido 106. La cantidad de movimiento en una secuencia de video determina la cantidad de correlación temporal y redundancia en los cuadros de la secuencia de video que se puede utilizar para comprimir la secuencia de video. En una modalidad, la cuantificación de actividad temporal queda determinada a través de uno de los siguientes enfoques: a. Campo de vector de movimiento: esta medición utiliza el mismo enfoque que se describió anteriormente bajo la descripción para el módulo de actividad espacial 210 para construir un campo de vector de movimiento para un cuadro interpolado y después analizar el campo de vector de movimiento. b. Tamaño de cuadro pronosticado: el tamaño de un cuadro pronosticado es un indicador de su entropía debido a que, para un cuadro pronosticado, el tamaño de cuadro pronosticado depende del número de bits que se requiere para codificar los vectores de movimiento y residuales de la predicción. Generalmente, mientras mayor es la cantidad de movimiento (o actividad temporal) , mayor es la entropía a ser codificada en los cuadros pronosticados. c. Descriptor de MPEG-7 : el descriptor de actividad de movimiento MPEG-7 (MAD) intenta "capturar" la percepción humana de la "intensidad de acción" o el "paso" de una secuencia de video. Por ejemplo, un momento de anotación de gol en un juego de fútbol sería percibido como una secuencia de "acción elevada" por la mayoría de los telespectadores humanos. En comparación, una secuencia de "cabeza y hombros" de una persona que habla, ciertamente sería considerada como una secuencia de "acción baja" por los mismos telespectadores. Se ha descubierto que el MAD MPEG-7 captura con precisión todo el rango de intensidad de acción en video natural. Este utiliza una desviación estándar cuantificada de vectores de movimiento para clasificar segmentos de video en cinco clases que van desde una intensidad muy baja a una intensidad muy alta. d. Actividad de movimiento: el descriptor de actividad de movimiento trata el asunto del análisis de contenido eficiente, la indexación, navegación e investigación de actividad de movimiento de datos de video, la cual se define como la cantidad de movimiento en una secuencia de video, y ha sido incluida como un descriptor en la norma MPEG-7. La técnica propuesta intenta medir, de manera automática, la actividad de movimiento utilizando la acumulación de diferencias de píxel cuantificadas entre los cuadros de un segmento de video determinado. Como resultado, el movimiento acumulado de cada escena es representado como una matriz bidimensional. También se provee de manera efectiva una técnica escalable para comparar estas matrices y generar MAD que representan varios movimientos de cada escena. Los grados (cantidades) así como las ubicaciones de movimiento son calculados y presentados . Todas las mediciones anteriores de actividad espacial y temporal son simples ejemplos. En otras modalidades, cualquiera y todos esos algoritmos se pueden utilizar con una simple determinación de umbral para valorar y graduar el nivel de actividad espacial y temporal en un cuadro y entre cuadros .

Actividad espacio-temporal En el paso 214, la actividad espacial absoluta entre cuadros vecinos o un conjunto de cuadros, tal como un GOP y la variación (varianza) de la actividad espacial absoluta a través de los cuadros se cuantifican utilizando simples diferencias de cuadro y/o estadísticas de orden superior, tal como la varianza y curtosis para determinar la correlación entre cuadros. Alternativamente, los principios de la relación de contraste se extienden al dominio temporal para proveer mediciones de actividad espacio-temporal.

Determinación de redundancia Las métricas de actividad espacial determinadas por el paso 210 en conjunto con las métricas de actividad temporal o de movimiento determinadas por el paso 212, se utilizan para determinar la actividad global espacial temporal para una secuencia determinada. Por ejemplo, en compresión de video híbrido, el primer cuadro en una secuencia (por ejemplo, el primer cuadro después de un punto de acceso aleatorio o un cambio de escena) es codificado, típicamente de forma independiente de cualquier predicción temporal. Este primer cuadro se denomina como un cuadro I. Cuadros posteriores en la secuencia son predominantemente pronosticados a partir del cuadro I u otros cuadros previos, los cuales, como se observó anteriormente, se denominarán como cuadros P ó B. En una modalidad, la redundancia entre el cuadro de referencia y el cuadro pronosticado en la secuencia de fuente de video se puede determinar utilizando los siguientes enfoques: a. Correlación: una correlación de dos elementos de: (1) los píxeles de (i) uno o más macrobloques; (ii) otras unidades básicas de un cuadro; o (iii) un cuadro completo pronosticado, con respecto a (2) una unidad colocada equivalente en el cuadro de referencia, se puede ejecutar para determinar la redundancia. Este enfoque de procesamiento es una operación computacionalmente costosa, pero es un estimado preciso de redundancia. b. Vector de movimiento: la magnitud y correlación de vectores de movimiento, ambos en una cercanía de macrobloques y sobre un cuadro completo, se comparan entre la referencia y los cuadros pronosticados. El vector de movimiento que suaviza u otro vector de movimiento que procesa se pueden entonces aplicar para determinar la varianza del vector de movimiento, o para clasificar los campos de movimiento con base en la actividad. c. Importancia: cada macrobloque o ventana de macrobloques se clasifica entonces con base en el nivel de redundancia como bajo, medio o alto. Los bloques de redundancia baja son codificados como B-cuadros utilizando predicción bidireccional, los bloques de redundancia media proveen una o más de la siguiente información al decodificador: vector de movimiento para refinar los resultados del procesamiento del vector de movimiento en el decodificador FRUC, información de residuo para refinar la diferencia en textura, información de cambio de luminancia en la forma de compensaciones DC, etc. Bloques de redundancia alta son aquellos que se correlacionan bien con los bloques correspondientes en el cuadro interpolado FRUC y se omiten. Todas las piezas de información antes descritas en relación con un macrobloque o ventana, 3x3, de macrobloques, se denominan como información de ayuda.

Elección de cuadros para FRUC Después que la cantidad de redundancia en el video fuente ha sido determinada como se describió anteriormente, entonces se clasifica con base en el contenido. En una modalidad, se utiliza una variedad de datos fuente muestra para establecer los parámetros de clasificación para una aplicación particular, y por lo tanto, el sistema de codificación 100 se puede sintonizar a un contenido específico que se espera sea soportado por esa ejecución. EL mecanismo de clasificación utiliza el tamaño de los cuadros pronosticados en codificación híbrida normal. En una modalidad, mientras más pequeño es el tamaño y mayor es el factor de redundancia del cuadro pronosticado, mayor será la probabilidad de que el cuadro interpolado será omitido durante el proceso de codificación. Estos cuadros entonces no serán incluidos en la secuencia de video de transmisión pero, en consecuencia, serán sobre-convertidos durante la decodificación/proceso FRUC. El mecanismo anteriormente descrito aplica a una codificación de dos pasos de baja complejidad y un paso, como se muestra en la figura 3, que son útiles para dichas aplicaciones, tal como aplicaciones de cámara-grabadora móviles; donde las capacidades de latencia y del procesador limitan la capacidad del dispositivo para ejecutar una codificación de primer paso completa o parcial seguida por una codificación de segundo paso completa. Sin embargo, cuando la complejidad del codificador no es una preocupación, como en el caso de ejecuciones de Internet o un servidor de multimedia inalámbrico, la codificación híbrida normal se puede llevar a cabo en el primer paso y después la actividad espacial, actividad temporal, actividad espacio-temporal se puede determinar en un segundo paso, como se ilustra en la figura 4 . En una modalidad, basada en los tamaños de cuadro pronosticados de la secuencia de video (por ejemplo, los tamaños de cuadro de los cuadros P y B en la secuencia de video) y las características de cuadro (por ejemplo, proporción de bits para Vectores de Movimiento contra datos de coeficientes) , bajo costo (por ejemplo, cuadros de bajo costo de transmisión) se pueden tirar en el codificador 104 y reconstruir en el decodificador 154 utilizando cuadros de referencia decodificados . En otra modalidad, una pequeña entropía puede ser codificada por el codificador 104 y transmitida al decodificador 154 para "ayudar" al decodificador 154 con el proceso de conversión ascendente, como se describe a continuación. Aunque el propósito de la ayuda es principalmente mejorar la calidad del video reconstruido, también se puede utilizar para reducir la carga computacional en el decodificador 154 mediante la ayuda del motor FRUC 158 en el decodificador 154 en la toma de las decisiones correctas durante un proceso de decisión de modo .

Codificación de entropía entre cuadros interpolados FRUC y fuente Como aquí se observó, una de las principales ventajas de EA-FRUC es que el cuadro fuente para el cuadro que se va a interpolar está disponible en el codificador. Por lo tanto, las decisiones FRUC pueden ser guiadas para reducir al mínimo el error entre la fuente y el cuadro reconstruido. Por ejemplo, los enfoques del procesamiento FRUC propuesto, aquí descritos, dependen del procesamiento del vector de movimiento, la identificación de contenido y la asignación. En estos procesos, la interpolación de oclusiones y regiones de traslape representa un reto. Sin embargo, utilizando la codificación de entropía a través de un módulo de determinación de entropía 108 en la figura 1, dichas regiones son identificadas e información lateral apropiada es transmitida al decodificador 154 para ayudar con el proceso FRUC. Otras aplicaciones de dicha codificación de entropía se encuentran en aplicaciones de codificación de video escalable de procesos FRUC, como se describe en la solicitud de patente copendiente No. 11/173,121, titulada "Método y Aparato par Utilizar Técnicas de Conversión Ascendente de Velocidad por Cuadro en Codificación de Video Escalable". En una modalidad, el módulo de determinación de entropía 108 puede utilizar las siguientes mediciones para codificación de entropía: 1. Datos de diferencia de píxel: el residuo de píxeles entre un cuadro FRUC reconstruido y un cuadro fuente es transformado, cuantificado y codificado por entropía para transmisión. Este enfoque es simple. Sin embargo, cualquier residuo restante del proceso de codificación contiene alta energía y no comprime bien. 2. Determinación de umbral: los umbrales sé basan en las mediciones de actividad (espacial y temporal) , o enmascaramiento de sistema visual humano y sensibilidad en lugar de basarse en SAD. El sistema visual humano (HVS) es un modelo empírico que describe las sensibilidades del ojo humano a varios efectos visuales tal como color, luminancia, contraste, etc., SAD se conoce por reducir al mínimo el error de un sentido de cuadros mínimos en lugar de un sentido de calidad visual. 3. Vector de movimiento: los datos correctos del vector de movimiento para regiones con grandes diferencias del cuadro fuente se codifican y transmiten. Este vector de movimiento es estimado utilizando los cuadros fuente y los cuadros de referencia reconstruidos, tanto en forma causal como no causal. La codificación causal es codificación predictiva que utiliza la información disponible al momento de la codificación/decodificación (por ejemplo, información de macrobloques previos en término de orden de decodificación) , mientras que la codificación no causal es codificación interpolativa que utiliza información interpolativa (por ejemplo, información del siguiente macrobloque) . 4. Codificación de B-cuadro: En la solicitud de patente copendiente número [040442] titulada "Método y Aparato par Utilizar Técnicas de Conversión Ascendente de Velocidad por Cuadro en Codificación de Video Escalable", se describe el uso de un cuadro FRUC interpolado como uno de los cuadros de referencia durante la predicción de B-cuadro. Este enfoque puede ofrecer, en promedio, un 30% de reducción en los datos de textura que se van a transmitir. 5. Basado en modo: el enfoque de codificación de B-cuadro, anterior, describe el uso de un cuadro interpolado como un cuadro de referencia en la codificación de B-cuadros. La decisión de utilizar el cuadro interpolado se puede basar en la velocidad (es decir, para reducir al mínimo la velocidad de bits para una distorsión determinada) , distorsión (es decir, para reducir al mínimo la distorsión para una velocidad de bits objetivo determinada) , y/o calidad (es decir, para elevar al máximo el error medio cuadrático o con base en HVS, una métrica para medir las mediciones de calidad basadas en calidad de percepción para una velocidad de bit objetivo determinada) . Una vez que se ha determinado la entropía que se va a codificar, en una modalidad, códigos de longitud variable comúnmente utilizados, tal como códigos Huffman o aritméticos, se pueden aplicar para codificar los datos. Además, para datos distribuidos Laplacianos tal como residuales, se pueden aplicar códigos Golomb-Rice o Exp-Golomb.

Generación de corriente de bits Las normas de codificación de video definen la corriente de bits que va a ser codificada por cualesquiera normas que se adecúen al decodificador de video. Sin embargo, la operación del codificador es "abierta" en el sentido de que cualquier técnica de codificador se puede utilizar siempre y cuando la corriente de bits codificada sea compatible con un decodificador que cumpla con las normas en el proceso de reconstrucción. En aplicaciones de finalidad abierta, en donde se desconocen las capacidades del decodificador, una corriente de bits que cumple con las normas necesita ser generada por el codificador y el rendimiento es enfocado y optimizado para que cumpla con la decodificación. En una modalidad, un módulo de generación de corriente de bits 112 del sistema de codificación 100 controla la operación de un generador de corriente de bits que cumple con las normas 114, un generador de corriente de bits que no cumple con las normas 116, y un generador de corriente de bits de marca registrada 118. La operación de cada uno de estos generadores se explicará a continuación. Los perfiles y niveles se definen en normas de codificación de video debido a que ofrecen un gran conjunto de herramientas para la codificación de objetos audio-visuales y, para permitir la ejecución efectiva de normas, se han identificado sub-conjuntos de los conjuntos de herramientas, que se van a utilizar para aplicaciones específicas. Estos sub-conjuntos, denominados "Perfiles" limitan el número de herramientas en un conjunto de herramientas que un decodificador tiene que ejecutar. Además, para cada uno de estos Perfiles, también se establece uno o más niveles de complejidad, restringiendo la complejidad computacional.

Cumplimiento de perfil y normas Para que los decodificadores cumplan con las normas en receptores a fin de decodificar una corriente transmitida, como en el caso de comunicaciones de multimedia inalámbricas, estos decodificadores de video se ajustan a perfiles y niveles específicos. Aunque se han provisto algoritmos FRUC en varias normas como anexos, típicamente no son parte de un perfil de norma. Por lo tanto, es deseable que no se tenga que realizar una modificación a la sintaxis y/o semántica de la corriente de bits para acomodar EA-FRUC.

Para que se ajuste a las normas existentes, el sistema de codificación 100 que utiliza sintaxis que cumple con las normas (cumple con el perfil) se puede explotar para transmitir la información de "ayuda". En una modalidad, la sintaxis de norma puede ser utilizada por el generador que cumple con las normas 114 en los siguientes enfoques para ejecutar el proceso EA-FRUC: a. Sintaxis de B-cuadro: cuando no se reciben B-cuadros, ya sea porque son parte de la capa de mejoramiento y solo se recibió la capa base o, no se envió todo el B-cuadro, con la mayoría de los macrobloques redundantes siendo macrobloques en modo de omisión, solo la información de ayuda es enviada a través de la codificación normal de B-cuadro. b. Trozos o imágenes redundantes: H.264 provee esta sintaxis. Todo un trozo o cuadro necesita ser enviado en este caso donde algunos de los cuadros son redundantes. Partes del trozo (pocos macrobloques importantes) o cuadro (pocos trozos determinados como importantes) son enviados utilizando esta sintaxis. Esta característica es parte de todos los perfiles definidos en H.264. c. Información suplementaria de mejora (SEI) : los campos específicos de SEI son parte de los perfiles en H.264 que se pueden utilizar para transmitir información de "ayuda".

Cumplimiento con las normas, no cumplimiento con el perfil Los conjuntos de herramientas en muchas normas de codificación de video incluyen sintaxis y semántica para portar datos privados que no cumplen con los perfiles definidos en la norma (es decir, las herramientas proveen referencias informativas en oposición a referencias normativas) . La interpretación de los datos privados analizados sintácticamente pueden ser específicos de dispositivos de destino, lo cual en un sistema de comunicación cerrado esta característica particular se puede explotar para mejorar el rendimiento. En una modalidad de la invención, el generador de corriente de bits que no cumple con las normas 116 utiliza estos datos privados que no cumplen con las normas para proveer la información de "ayuda" para FRUC en dicha aplicación de esta característica. El uso de información privada en un sistema de bucle cerrado provee más flexibilidad en la transmisión de información de "ayuda" ya que las modificaciones de decodificador necesarias para explotarlas son mínimas y se pueden habilitar a través de simples "enchufes" o "anexiones". a. Campos específicos de SEI : estos campos, los cuales no son parte de los perfiles en H.264, se pueden utilizar para transmitir información de "ayuda". b. Datos de usuario: MPEG-2 y MPEG-4 ofrecen sintaxis para portar datos privados, los cuales se pueden utilizar para transmitir la información de "ayuda".

Marca registrada Un codee de marca registrada que no se ajusta a las normas provisto en un generador de corriente de bits de marca registrada 118 aumenta la flexibilidad del enfoque EA-FRUC provisto en el mismo. Específicamente, cualquiera y todas las tecnologías de compresión (por ejemplo, basadas en transformadas tales como DCT, entero, Hadamard, onda, objeto, flujo óptico, o morfología) pueden adoptar el algoritmo genérico de interpolación de video aplicado para lograr la reducción de velocidad de bit y aumentar la eficiencia de la compresión como se describió anteriormente para EA-FRUC. Las ventajas de utilizar un codee de marca registrada incluyen el hecho de que la naturaleza de marca registrada del generador de corriente de bits 118 provee una plataforma extremadamente flexible para explotar todos los algoritmos FRUC y EA-FRUC. Gran reducción en la sobrecarga de corriente de bits, introducida por normas (por ejemplo, encabezados de macrobloque en H.264 tiende a ocupar el 25% de la velocidad de bits total) se puede reducir y/o eliminar. Codificación conjunta de fuente-canal también es posible ahora, lo cual es altamente ventajoso para comunicaciones de multimedia sobre canales propensos al error. Por ejemplo, un enfoque de marca registrada que utiliza probabilidades de canal de transmisión y fuente conjuntas, distribuciones y características, provee la capacidad para que el sistema de codificación 100 otorgue prioridad a una corriente particular y agregue parámetros necesarios y datos para recuperación de errores.

FRUC y EA-FRUC para ocultación de error La popularidad de ganancia de multimedia inalámbrica requiere que el video transmitido sea resiliente a errores y decodificadores de video inteligente que pueden ocultar errores de bits, paquete y ráfaga. La compresión de video remueve redundancia y aumenta la entropía en corriente comprimida. Sin embargo, irónicamente, la remoción de información redundante y el aumento en la entropía es tan importante, casi al grado de que la pérdida de un solo bit, byte o paquete de datos puede impactar la calidad del video reconstruido; oscilando de la pérdida de un bloque a muchos macrobloques o trozos, propagándose a través del GOP actual hasta que el siguiente I o cuadro de Actualización de Decodificación Instantánea (IDR) es recibido correctamente. IDR es una terminología de H.264 que significa Actualización de Decodificación Instantánea. Una imagen IDR es un punto de actualización absoluto (unidad de acceso) en la corriente de bits, de manera que no existe información predictiva más allá de la unidad de acceso necesaria para decodificar una imagen IDR. Las posibilidades de errores que ocurren tienen serias consecuencias y la ocultación de errores es vital en aplicaciones tales como telefonía de video, otorgamiento de video y video por correo electrónico) . Los errores también tienen impacto en las latencias de aplicaciones de conversión. Afortunadamente, la interpolación de cuadro, trozo, macrobloque y bloque así como los algoritmos de interpolación asistida (por ejemplo, asignación de vector de movimiento y procesamiento de vector de movimiento) tal como se provee en varias formas de FRUC, se pueden utilizar para la ocultación de errores. La figura 5 muestra un diagrama en bloques de una terminal de acceso 502x y un punto de acceso 504x, en donde el decodificador 154 y el codificador 104 pueden estar respectivamente ubicados en una aplicación del sistema EA-FRUC 100 para un sistema inalámbrico. Para el enlace inverso, en la terminal de acceso 502x, un procesador de datos de transmisión (TX) 514 recibe datos de tráfico provenientes de una memoria intermedia de datos 512, procesa (por ejemplo, codifica, intercala y mapea en símbolos) cada paquete de datos que está basado en un esquema de codificación y modulación seleccionado, y provee símbolos de datos. Un símbolo de datos es un símbolo de modulación para datos, y un símbolo piloto es un símbolo de modulación para piloto (el cual se conoce con anterioridad) . Un modulador 516 recibe los símbolos de datos, símbolos piloto, y posiblemente señalización para el enlace inverso, ejecuta (por ejemplo, OFDM) modulación y/u otro procesamiento conforme a lo especificado por el sistema, y provee una corriente de chips de salida. Una unidad transmisora (TMTR) 518 procesa (por ejemplo, convierte a análogo, filtra, amplifica y sobre-convierte en frecuencia) la corriente- de chips de salida y genera una señal modulada, la cual es transmitida desde una antena 520. En el punto de acceso 504x, las señales moduladas transmitidas por la terminal de acceso 502x y otras terminales en comunicación con el punto de acceso 504x, son recibidas por una antena 552. Una unidad receptora (RCVR) 554 procesa (por ejemplo, acondiciona y digitaliza) la señal recibida desde la antena 522 y provee muestras recibidas. Un desmodulador (Demod) 556 procesa (por ejemplo, desmodula y detecta) las muestras recibidas y provee símbolos de datos detectados, los cuales son estimado de ruido de los símbolos de datos transmitidos por las terminales al punto de acceso 504x. Un procesador de datos de recepción (RX) 558 procesa (por ejemplo, desmapea en símbolos, desintercala y decodifica) los símbolos de datos detectados para cada terminal y provee datos decodificados para esa terminal. Para el enlace de avance, en el punto de acceso 504x, los datos de tráfico son procesados por un procesador de datos TX 560 para generar símbolos de datos. Un modulador 562 recibe los símbolos de datos, símbolos piloto, y señalización para el enlace de avance, ejecuta (por ejemplo, OFDM) modulación y/u otro procesamiento pertinente, y provee una corriente de chips de salida, la cual es acondicionada adicionalmente por una unidad transmisora 564 y transmitida desde la antena 552. La señalización del enlace de avance puede incluir comandos de control de potencia generados por un controlador 570 para todas las terminales que transmiten en el enlace inverso al punto de acceso 504x. En la terminal de acceso 502x, la señal modulada transmitida por el punto de acceso 504x es recibida por la antena 520, acondicionada y digitalizada por una unidad receptora 522, y procesada por un desmodulador 524 para obtener símbolos de datos detectados. Un procesador de datos RX 1026 procesa los símbolos de datos detectados y provee datos decodificados para la terminal y la señalización de enlace de avance. El controlador 530 recibe los comandos de control de potencia, y controla la transmisión de datos y transmite potencia en el enlace inverso al punto de acceso 504x. Los controladores 530 y 570 dirigen la operación de la terminal de acceso 502x y el punto de acceso 504x, respectivamente. Las unidades de memoria 532 y 572 almacenan códigos de programa y datos utilizados por los controladores 530 y 570, respectivamente. Una "terminal de acceso", tal como aquí se analizó, se refiere a un dispositivo que provee conectividad de voz y/o datos a un usuario. La terminal de acceso se puede conectar a un dispositivo de cómputo tal como una computadora portátil o una computadora de escritorio, o puede ser un dispositivo autónomo tal como un asistente digital personal. La terminal de acceso también se puede denominar como una unidad suscriptora, estación móvil, móvil, estación remota, terminal remota, terminal de usuario, agente de usuario, o equipo de usuario. La terminal de acceso puede ser una estación de suscriptor, dispositivo inalámbrico, teléfono celular, teléfono PCS, un teléfono inalámbrico, un teléfono de Protocolo de Iniciación de Sesión (SIP) , una estación de bucle local inalámbrico (WLL) , un asistente digital personal (PDA) , un dispositivo manual con capacidad de conexión inalámbrica, u otro dispositivo de procesamiento conectado a un módem inalámbrico . Un "punto de acceso", como se describe aquí, se refiere a un dispositivo en una red de acceso que se comunica sobre la interfaz de aire, a través de uno o más sectores, con las terminales de acceso. El punto de acceso actúa como un enrutador entre la terminal de acceso y el resto de la red de acceso, la cual puede incluir una red IP, mediante la conversión de cuadros de interfaz de aire recibidos a paquetes IP. El punto de acceso también coordina la administración de atributos para la interfaz de aire. Las modalidades descritas se pueden aplicar a cualquiera de las combinaciones de las siguientes tecnologías: sistemas de Acceso Múltiple por División de Código (CDMA) , CDMA de portadora múltiple (MC-CDMA) , CDMA de banda ancha (W-CDMA) , Acceso de Paquetes de Enlace Descendente de Alta Velocidad (HSDPA) , sistemas de Acceso Múltiple por División de Tiempo (TDMA) , sistemas de Acceso Múltiple por División de Frecuencia (FDMA) y sistemas de Acceso Múltiple por División de Frecuencia Ortogonal (OFDMA) . Se debe tomar en cuenta que los métodos aquí descritos pueden ser ejecutados en una variedad de hardware de comunicación, sistemas y procesadores conocidos por aquellos expertos en la técnica. Por ejemplo, el requisito general para que el cliente opere como aquí se describe es que el cliente tenga una pantalla para desplegar contenido e información, un procesador para controlar la operación del cliente y una memoria para almacenar datos y programas relacionados con la operación del cliente. En una modalidad, el cliente es un teléfono celular. En otra modalidad, el cliente es una computadora manual que tiene capacidades de comunicación. En otra modalidad todavía, el cliente es una computadora personal que tiene capacidades de comunicación. Las diversas lógicas ilustrativas, bloques lógicos, módulos y circuitos descritos en relación con las modalidades aquí descritas se pueden ejecutar o llevar a cabo con un procesador de propósito general, un procesador de señal digital (DSP) , un circuito integrado de aplicación específica (ASIC) , un arreglo de compuerta programable en campo (FPGA) u otro dispositivo lógico programable, compuerta discreta o lógico de transistor, componentes discretos de hardware, o cualquiera combinación de los mismos diseñada para llevar a cabo las funciones aquí descritas. Un procesador de propósito general puede ser un microprocesador, pero, en la alternativa, el procesador puede ser cualquier procesador convencional, controlador, microcontrolador, o máquina de estado. Un procesador también puede ser ejecutado como una combinación de dispositivos de cómputo, por ejemplo, una combinación de un DSP y un microprocesador, una pluralidad de microprocesadores, uno o más microprocesadores junto con un DSP núcleo, o cualquier otra configuración. Los pasos de un método o algoritmo descrito en relación con las modalidades aquí descritas se pueden incorporar directamente en hardware, en un módulo de software ejecutado por un procesador, o en una combinación de los dos. Un módulo de software puede residir en memoria RAM, memoria instantánea, memoria ROM, memoria EPROM, memoria EEPROM, registros, disco duro, un disco removible, un CD-ROM, o cualquier otra forma de medio de almacenamiento conocida en la técnica. Un medio de almacenamiento ejemplar está acoplado al procesador, de manera que el procesador puede leer información de, y escribir información en el medio de almacenamiento. En la alternativa, el medio de almacenamiento puede ser parte integral del procesador. El procesador y el medio de almacenamiento pueden residir en un ASIC. El ASIC puede residir en una terminal de usuario. En la alternativa, el procesador y el medio de almacenamiento pueden residir como componentes discretos en una terminal de usuario. La descripción de las modalidades descritas se provee para permitir a cualquier experto en la técnica hacer o utilizar las diversas modalidades. Varias modificaciones a estas modalidades serán fácilmente aparentes para aquellos expertos en la técnica, y los principios genéricos aquí definidos se pueden aplicar a otras modalidades, por ejemplo, en un servicio de envío de mensajes instantáneo o cualesquiera aplicaciones de comunicación de datos inalámbrica general, sin apartarse del espíritu o alcance de la invención. Por lo tanto, la descripción no pretende quedar limitada a las modalidades aquí mostradas, sino que se le acordará el alcance más amplio consistente con los principios y características novedosas aquí descritas. La palabra "ejemplar" se utiliza de manera exclusiva aquí para decir "que sirve como ejemplo, caso o ilustración." Cualquier modalidad aquí descrita como "ejemplar" no es necesariamente para ser interpretada como preferida o ventajosa sobre otras modalidades .

Claims

NOVEDAD DE LA INVENCIÓN Habiendo descrito el presente invento, se considera como una novedad y, por lo tanto, se reclama como prioridad lo contenido en las siguientes: REIVINDICACIONES

1.- Un método para la construcción de una secuencia de video que incluye una secuencia de cuadros que comprende : determinar una cantidad de un tipo de actividad en la secuencia de cuadros, el tipo de actividad seleccionado de un grupo que consiste de actividad espacial, actividad temporal y espacial-temporal; determinar una redundancia en la actividad; y codificar el cuadro si la redundancia determinada está por debajo de un umbral predeterminado.

2. - El método de conformidad con la reivindicación 1 , caracterizado porque la determinación de la actividad espacial en la secuencia de cuadros comprende determinar una cantidad de información de textura por lo menos en un cuadro de la secuencia.

3. - El método de conformidad con la reivindicación 1, caracterizado porque la determinación de la actividad temporal en la secuencia de cuadros comprende determinar una cantidad de correlación temporal y redundancia por lo menos entre dos cuadros en la secuencia de cuadros.

4.- El método de conformidad con la reivindicación 1, caracterizado porque la determinación de la actividad espacio-temporal en el cuadro de la secuencia de cuadros comprende determinar una cantidad de correlación temporal y redundancia de una cantidad de información de textura por lo menos entre dos cuadros en la secuencia de cuadros .

5. - El método de conformidad con la reivindicación 1, caracterizado porque la determinación de la redundancia en la actividad comprende determinar la redundancia utilizando por lo menos una medición de actividad espacial seleccionada del grupo que consiste de una medición de relación de contraste, una medición de complejidad espacial y una medición de varianza.

6.- El método de conformidad con la reivindicación 1, caracterizado porque la determinación de la redundancia en la actividad comprende determinar la redundancia utilizando por lo menos una medición de actividad temporal seleccionada del grupo que consiste de una medición de intensidad de campo de movimiento, una medición de complejidad temporal, una suma de medición de diferencias absolutas .

7. - El método de conformidad con la reivindicación 1, caracterizado porque la determinación de la redundancia en la actividad comprende determinar la redundancia mediante la comparación por lo menos de dos mediciones de actividad seleccionadas del grupo que consiste de una correlación de mediciones de actividad espacial entre una pluralidad de cuadros vecinos, una medición de directividad, un comportamiento conjunto entre regiones con mediciones variables de actividad espacial, una medición de intensidad de campo de movimiento, una medición de complejidad temporal, y una suma de medición de diferencias absolutas.

8. - Un método para determinar información diferencial entre dos cuadros que comprende: determinar una medición de diferencia seleccionada de un grupo que consiste de una medición de diferencias de píxel, una medición de diferencias de información de movimiento, una medición de umbral de decisión de modo y una medición de refinamiento de cuadro interpolado, en donde la determinación de la medición de diferencia es ejecutada utilizando un proceso de conversión ascendente de velocidad por cuadro.

9.- Un método para codificar información diferencial que comprende: utilizar por lo menos una técnica seleccionada de un grupo que consiste de un proceso de compensación de movimiento, un proceso de transformación de vector en movimiento, un proceso de cuantificación de vector de movimiento, y un proceso de codificación de entropía, por lo menos una técnica es especificada en una norma de codificación de video, en donde un procesador que cumple con las normas puede procesar la información diferencial en conjunto con el proceso de conversión ascendente de velocidad por cuadro para generar un cuadro de video.

10.- Un método para procesar una corriente de bits de video, la corriente de bits de video tiene información diferencial contenida en la misma, el método comprende : utilizar una técnica de codificación de entropía para codificar información diferencial en la corriente de bits de video seleccionada de un grupo que consiste de una técnica de codificación de longitud variable, una técnica de codificación Huffman, y una técnica de codificación aritmética; y transmitir la información codificada en una sintaxis de datos de usuario especificada en una norma de codificación de video.

11.- El método de conformidad con la reivindicación 10, que además comprende generar una corriente de bits de video que cumple con las normas.

12.- Un método para procesar una corriente de bits de video con información diferencial codificada en la misma, la información diferencial codificada está almacenada en una sintaxis de datos de usuario, el método comprende : extraer la información diferencial codificada de la sintaxis de datos de usuario; decodificar la información diferencial; y generar un cuadro de video utilizando la información diferencial decodificada en un proceso de conversión ascendente de velocidad por cuadro.

13.- Un medio legible por computadora que tiene instrucciones almacenadas en el mismo para hacer que una computadora ejecute un método para la construcción de una secuencia de video que incluye una secuencia de cuadros que comprende : determinar una cantidad de un tipo de actividad en la secuencia de cuadros, el tipo de actividad seleccionado de un grupo que consiste de actividad espacial, actividad temporal y espacial-temporal; determinar una redundancia en la actividad; y codificar el cuadro si la redundancia determinada está por debajo de un umbral predeterminado.

14.- El medio legible por computadora de conformidad con la reivindicación 13, caracterizado porque la determinación de la actividad espacial en la secuencia de cuadros comprende determinar una cantidad de información de textura por lo menos en un cuadro de la secuencia.

15.- El medio legible por computadora de conformidad con la reivindicación 13, caracterizado porque la determinación de la actividad temporal en la secuencia de cuadros comprende determinar una cantidad de correlación temporal y redundancia por lo menos entre dos cuadros en la secuencia de cuadros.

16.- El medio legible por computadora de conformidad con la reivindicación 13, caracterizado porque la determinación de la actividad espacio-temporal en el cuadro de la secuencia de cuadros comprende determinar una cantidad de correlación temporal y redundancia de una cantidad de información de textura por lo menos entre dos cuadros en la secuencia de cuadros.

17.- El medio legible por computadora de conformidad con la reivindicación 13, caracterizado porque la determinación de la redundancia en la actividad comprende determinar la redundancia utilizando por lo menos una medición de actividad espacial seleccionada del grupo que consiste de una medición de relación de contraste, una medición de complejidad espacial y una medición de varianza.

18.- El medio legible por computadora de conformidad con la reivindicación 13, caracterizado porque la determinación de la redundancia en la actividad comprende determinar la redundancia utilizando por lo menos una medición de actividad temporal seleccionada del grupo que consiste de una medición de intensidad de campo de movimiento, una medición de complejidad temporal, una suma de medición de diferencias absolutas.

19.- El medio legible por computadora de conformidad con la reivindicación 13, caracterizado porque la determinación de la redundancia en la actividad comprende determinar la redundancia mediante la comparación por lo menos de dos mediciones de actividad seleccionadas del grupo que consiste de una correlación de mediciones de actividad espacial entre una pluralidad de cuadros vecinos, una medición de directividad, un comportamiento conjunto entre regiones con mediciones variables de actividad espacial, una medición de intensidad de campo de movimiento, una medición de complejidad temporal, y una suma de medición de diferencias absolutas.

20.- Un medio legible por computadora que tiene instrucciones almacenadas en el mismo para ocasionar que una computadora ejecute un método para determinar información diferencial entre dos cuadros que comprende: determinar una medición de diferencia seleccionada de un grupo que consiste de una medición de diferencias de píxel, una medición de diferencias de información de movimiento, una medición de umbral de decisión de modo y una medición de refinamiento de cuadro interpolado, en donde la determinación de la medición de diferencia es ejecutada utilizando un proceso de conversión ascendente de velocidad por cuadro .

21.- Un medio legible por computadora que tiene instrucciones almacenadas en el mismo para ocasionar que una computadora ejecute un método para codificar información diferencial que comprende: utilizar por lo menos una técnica seleccionada de un grupo que consiste de un proceso de compensación de movimiento, un proceso de transformación de vector en movimiento, un proceso de cuantificación de vector de movimiento, y un proceso de codificación de entropía, por lo menos una técnica es especificada en una norma de codificación de video, en donde un procesador que cumple con las normas puede procesar la información diferencial en conjunto con el proceso de conversión ascendente de velocidad por cuadro para generar un cuadro de video.

22.- Un medio legible por computadora que tiene instrucciones almacenadas en el mismo para ocasionar que una computadora ejecute un método para procesar una corriente de bits de video, la corriente de bits de video tiene información diferencial contenida en la misma, el método comprende : utilizar una técnica de codificación de entropía para codificar información diferencial en la corriente de bits de video seleccionada de un grupo que consiste de una técnica de codificación de longitud variable, una técnica de codificación Huffman, y una técnica de codificación aritmética; y transmitir la información codificada en una sintaxis de datos de usuario especificada en una norma de codificación de video.

23.- El medio legible por computadora de conformidad con la reivindicación 22, que además comprende generar una corriente de bits de video que cumple con las normas.

24.- Un medio legible por computadora que tiene instrucciones almacenadas en el mismo para ocasionar que una computadora ejecute un método para procesar una corriente de bits de video con información diferencial codificada en la misma, la información diferencial codificada está almacenada en una sintaxis de datos de usuario, el método comprende: extraer la información diferencial codificada de la sintaxis de datos de usuario; y decodificar la información diferencial; y generar un cuadro de video utilizando un proceso de conversión ascendente de velocidad por cuadro.

25.- Un aparato para la construcción de una secuencia de video que incluye una secuencia de cuadros que comprende : medios para determinar una cantidad de un tipo de actividad en la secuencia de cuadros, el tipo de actividad seleccionado de un grupo que consiste de actividad espacial, actividad temporal y espacial-temporal; medios para determinar una redundancia en la actividad; y medios para codificar el cuadro si la redundancia determinada está por debajo de un umbral predeterminado.

26.- El aparato de conformidad con la reivindicación 25, caracterizado porque los medios para la determinación de la actividad espacial en la secuencia de cuadros comprenden medios para determinar una cantidad de información de textura por lo menos en un cuadro de la secuencia.

27.- El aparato de conformidad con la reivindicación 25, caracterizado porque los medios para la determinación de la actividad temporal en la secuencia de cuadros comprenden medios para determinar una cantidad de correlación temporal y redundancia por lo menos entre dos cuadros en la secuencia de cuadros.

28.- El aparato de conformidad con la reivindicación 25, caracterizado porque los medios para la determinación de la actividad espacio-temporal en el cuadro de la secuencia- de cuadros comprenden medios para determinar una cantidad de correlación temporal y redundancia de una cantidad de información de textura por lo menos entre dos cuadros en la secuencia de cuadros.

29.- El aparato de conformidad con la reivindicación 25, caracterizado porque los medios para la determinación de la redundancia en la actividad comprenden medios para determinar la redundancia utilizando por lo menos una medición de actividad espacial seleccionada del grupo que consiste de una medición de relación de contraste, una medición de complejidad espacial y una medición de varianza.

30.- El aparato de conformidad con la reivindicación 25, caracterizado porque los medios para la determinación de la redundancia en la actividad comprenden medios para determinar la redundancia utilizando por lo menos una medición de actividad temporal seleccionada del grupo que consiste de una medición de intensidad de campo de movimiento, una medición de complejidad temporal, una suma de medición de diferencias absolutas.

31.- El aparato de conformidad con la reivindicación 25, caracterizado porque los medios para la determinación de la redundancia en la actividad comprenden medios para determinar la redundancia mediante la comparación por lo menos de dos mediciones de actividad seleccionadas del grupo que consiste de una correlación de mediciones de actividad espacial entre una pluralidad de cuadros vecinos, una medición de directividad, un comportamiento conjunto entre regiones con mediciones variables de actividad espacial, una medición de intensidad de campo de movimiento, una medición de complejidad temporal, y una suma de medición de diferencias absolutas.

32.- Un aparato para determinar información diferencial entre dos cuadros que comprende medios para determinar una medición de diferencia seleccionada de un grupo que consiste de una medición de diferencias de píxel, una medición de diferencias de información de movimiento, una medición de umbral de decisión de modo y una medición de refinamiento de cuadro interpolado, en donde la determinación de la medición de diferencia es ejecutada utilizando un proceso de conversión ascendente de velocidad por cuadro.

33.- Un aparato para codificar información diferencial que comprende medios para utilizar por lo menos una técnica seleccionada de un grupo que consiste de un proceso de compensación de movimiento, un proceso de transformación de vector en movimiento, un proceso de cuantificación de vector de movimiento, y un proceso de codificación de entropía, por lo menos una técnica es especificada en una norma de codificación de video, en donde un procesador que cumple con las normas puede procesar la información diferencial en conjunto con el proceso de conversión ascendente de velocidad por cuadro para generar un cuadro de video.

34.- Un aparato para procesar una corriente de bits de video, la corriente de bits de video tiene información diferencial contenida en la misma, que comprende : medios para utilizar una técnica de codificación de entropía para codificar información diferencial en la corriente de bits de video seleccionada de un grupo que consiste de una técnica de codificación de longitud variable, una técnica de codificación Huffman, y una técnica de codificación aritmética; y medios para transmitir la información codificada en una sintaxis de datos de usuario especificada en una norma de codificación de video.

35.- El aparato de conformidad con la reivindicación 34, que además comprende medios para generar una corriente de bits de video que cumple con las normas.

36.- Un aparato para procesar una corriente de bits de video con información diferencial codificada en la misma, la información diferencial codificada está almacenada en una sintaxis de datos de usuario, que comprende : medios para extraer la información diferencial codificada de la sintaxis de datos de usuario; medios para decodificar la información diferencial; y medios para generar un cuadro de video utilizando la información diferencial decodificada en un proceso de conversión ascendente de velocidad por cuadro.