MXPA06009934A - Metodo y aparato para determinar un estimado - Google Patents

Metodo y aparato para determinar un estimado

Info

Publication number
MXPA06009934A
MXPA06009934A MXPA/A/2006/009934A MXPA06009934A MXPA06009934A MX PA06009934 A MXPA06009934 A MX PA06009934A MX PA06009934 A MXPA06009934 A MX PA06009934A MX PA06009934 A MXPA06009934 A MX PA06009934A
Authority
MX
Mexico
Prior art keywords
energy
band
measure
signal
estimate
Prior art date
Application number
MXPA/A/2006/009934A
Other languages
English (en)
Inventor
Geyersberger Stefan
Hilpert Johannes
Schug Michael
Neuendorf Max
Original Assignee
Fraunhofergesellschaft Zur Foerderung Der Angewandten Forschung EV
Geyersberger Stefan
Hilpert Johannes
Neuendorf Max
Schug Michael
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofergesellschaft Zur Foerderung Der Angewandten Forschung EV, Geyersberger Stefan, Hilpert Johannes, Neuendorf Max, Schug Michael filed Critical Fraunhofergesellschaft Zur Foerderung Der Angewandten Forschung EV
Publication of MXPA06009934A publication Critical patent/MXPA06009934A/es

Links

Abstract

Para determinar un estimado de la necesidad de unidades de información para codificar una señal, se toma en cuenta una medida (nl(b)) para la distribución de la energía en la banda de frecuencia (102, 104, 106), además de la interferencia admisible para una banda de frecuencia y la energía de la banda de frecuencia. Con esto, se obtiene un mejor estimado de la necesidad de unidades de información, de manera que la codificación puede efectuarse más eficientemente y de manera más precisa.

Description

MÉTODO Y APARATO PARA DETERMINAR UN ESTIMADO Campo de la Invención La presente invención se refiere a codificadores para codificar una señal que incluye información de audio y/o vídeo, y en particular a la estimación de la necesidad de unidades de información para codificar esta señal. ANTECEDENTES DE LA INVENCIÓN El codificador de la técnica anterior se presentará a continuación. Se suministra una señal de audio que va a codificarse en una entrada 1000. Esta señal de audio se alimenta inicialmente en una etapa de escala 1002, en donde el así llamado control de ganancia AAC se conduce para establecer el nivel de la señal de audio. La información secundaria de la escala se suministra a un formateador de corriente de bits 1004, como se representa mediante la flecha ubicada entre el bloque 1002 y el bloque 1004. La señal de audio escalada se suministra entonces a un banco de filtro MDCT 1006. Con el codificador AAC, el banco de filtro implementa una transformación modificada de coseno discreta con 50% de ventanas de sobreposición, determinándose la longitud de las ventanas por un bloque 1008. Hablando de manera general, el bloque 1008 se encuentra presente con el propósito de presentar en ventana las señales transitorias con ventanas relativamente cortas, y de presentar en ventanas señales que tienden a ser estacionarias con ventanas relativamente grandes. Esto sirve para lograr un más alto nivel de resolución de tiempo (a expensas de la resolución de frecuencia) para señales transitorias debido a las ventanas relativamente cortas, mientras que para las señales que tienden a ser estacionarias, se logra una mayor resolución de frecuencia (a expensas de la resolución de tiempo) debido a ventanas más grandes, existiendo una tendencia a preferir las ventanas más grandes dado que dan como resultado una ganancia de codificación mayor. En la salida del banco de filtro 1006, se encuentran presentes bloques de valores espectrales, siendo los bloques sucesivos en tiempo, que pueden ser coeficientes MDCT, coeficientes Fourier o señales de subbanda, dependiendo de la implementación del banco de filtro, cada señal de sub-banda que tiene una amplitud de banda específica limitada por el canal de sub-banda respectivo en el banco de filtro 1006, y teniendo cada señal de sub-banda un número específico de muestras de sub-banda. SUMARIO DE LA INVENCIÓN Lo que sigue es una presentación, a manera de ejemplo, del caso en donde el banco de filtro da salida a bloques temporalmente sucesivos de coeficientes espectrales MDCT que, generalmente hablando, representan espectros sucesivos a corto plazo de la señal de audio que va a codificarse en una entrada 1000. Un bloque de valores espectrales MDCT se alimenta entonces en un bloque de procesamiento TNS 1010 (TNS = configuración de ruido temporal) , en donde la configuración de ruido temporal se lleva a cabo. La técnica TNS se utiliza para configurar la forma temporal del ruido de cuantificación dentro de cada ventana de la transformación. Esto se logra aplicando un proceso de filtración a partes de los datos espectrales de cada canal. La codificación se lleva a cabo en una base de ventana. En particular, se llevan a cabo las siguientes etapas para aplicar la herramienta TNS a una ventana de datos espectrales, i.e., a un bloque de valores espectrales. Inicialmente, se selecciona un rango de frecuencia para la herramienta TNS. Una selección adecuada comprende la cobertura de un rango de frecuencia de 1.5 kHz con un filtro, hasta la banda de factor de escala más alta posible. Debe anotarse que este rango de frecuencia depende de la proporción de muestreo, como se especifica en el estándar AAC (ISO/IEC 14496-3: 2001 (E) ) . Subsecuentemente, se lleva a cabo un cálculo (LPC = codificación de predicción lineal) , para precisar utilizando los coeficienets MDCT espectrales presentes en el rango de frecuencia objetivo seleccionado. Para incremento en la estabilidad, los coeficientes que corresponden a frecuencias por debajo de 2.5 kHz se excluyen de este proceso. Los procedimientos LPC comunes como se conocen del procesamiento del habla pueden utilizarse para el cálculo LPC, por ejemplo el conocido algoritmo Levinson-Durbin. El cálculo se lleva a cabo para el orden máximo admisible del filtro de configuración de ruido. Como resultado del cálculo LPC, se obtiene la ganancia de predicción esperada PG. Además, se obtienen los coeficientes de reflexión o coeficientes Parcor . Si la ganancia de predicción no excede un umbral específico, no se aplica la herramienta TNS. En este caso, se escribe una pieza de información de control en la corriente de bits de manera que el decodificador sepa que no se ha llevado a cabo el procesamiento TNS. Sin embargo, si la ganancia de predicción excede un umbral, se aplica el procesamiento TNS. En una siguiente etapa, los coeficientes de reflexión se cuantifican. El orden del filtro de configuración de ruido utilizado se determina retirando todos los coeficientes de reflexión que tienen un valor absoluto más pequeño que el umbral de la "cola" de la disposición de coeficientes de reflexión. El número de coeficientes de reflexión restante se encuentra en el orden de magnitud del filtro de configuración de ruido. Un umbral adecuado es de 0.1. Los coeficientes de reflexión restantes se convierten típicamente en coeficientes de predicción lineales, siendo conocida esta técnica también como procedimiento de "etapas". Los coeficientes LPC calculados se utilizan entonces como coeficientes de filtro de configuración de ruido del codificador, i.e., como coeficientes de filtro de predicción. Este filtro FIR se utiliza para filtrar el rango de frecuencia objetivo especificado. Un filtro autorregresivo se utiliza en la decodificación, mientras que se utiliza un así llamado filtro de promedio móvil en la codificación. Eventualmente, la información secundaria para esta herramienta TNS se suministra al formateador de corriente de bits, como se representa por la flecha mostrada entre el bloque de procesamiento TNS 1010 y el formateador de corriente de bis 1004 en la Figura 3. Después, pasan diversas herramientas opcionales que no se muestran en la Figura 3, tales como una herramienta de predicción a largo plazo, una herramienta de intensidad/acoplamiento, una herramienta de predicción, una herramienta de sustitución de ruido, hasta llegar eventualmente a un codificador de lado medio 1012. El codificador de lado medio 1012 se encuentra activo cuando la señal de audio que va a codificarse es una señal multi-canales, i.e., una señal estéreo que tiene un canal izquierdo y un canal derecho. Hasta ahora, i.e., en la corriente ascendente del bloque 1012 en la Figura 3, los canales de estéreo izquierdo y derecho se han procesado, i.e., escalados, transformados por el banco de filtro, sometidos a procesamiento TNS o no, etc., por separado. En el codificador de lado medio, se lleva a cabo inicialmente la verificación en cuanto a si el codificador de lado medio tiene sentido, i.e., si producirá alguna ganancia de codificación. La codificación de lado medio producirá una ganancia de codificación si los canales izquierdo y derecho tienden a ser similares, dado que en este caso, el canal medio, i.e., la suma de los canales izquierdo y derecho, es casi igual al canal izquierdo o al canal derecho, además de escalarse mediante un factor de , mientras que el canal secundario solo tiene valores muy pequeños, dado que es igual a las diferencias entre los canales izquierdo y derecho. Como consecuencia, puede observarse que cuando los canales izquierdo y derecho son aproximadamente iguales, la diferencia es de aproximadamente cero, o incluye solo valores muy pequeños que, se espera, se cuantificarán a cero en un cuantificador 1014 subsecuente, y por tanto pueden transmitirse de una manera muy eficiente dado que se encuentra conectado un codificador de entropía 1016 en la corriente descendente del cuantificador 1014. Al cuantificador 1014 se suministra una interferencia admisible por banda de factor de escala mediante un modelo psico-acústico 1020. El cuantificador opera de una manera iterativa, i.e., se llama inicialmente un circuito de iteración externo, que entonces llamará a un circuito de iteración interno. Hablando generalmente, comenzando desde los valores iniciales del intervalo-medida del cuantificador, se lleva a cabo inicialmente la cuantificación de un bloque de calores en la entrada del cuantificador 1014. En particular, el circuito interno cuantifica los coeficientes MDCT, un número específico de bits que se consumen en el proceso. El circuito externo calcula la distorsión y la energía modificada de los coeficientes utilizando el factor de escala a fin de llamar de nuevo un circuito interno. Este proceso se repite durante un tiempo hasta llegar a una cláusula condicional específica. Para cada iteración en el circuito externo de iteración la señal se reconstruye a fin de calcular la interferencia introducida por la cuantificación, y para compararla con la interferencia permitida suministrada por el modelo psico-acústico 1020. Además, los factores de escala de aquellas bandas de frecuencia que después de esta comparación aún se consideran interferidas, se agrandan mediante una _o más etapas de iteración a iteración, para ser precisos para cada iteración del circuito de iteración externo. Una vez lograda una situación en donde la interferencia de cuantificación introducida por la cuantificación se encuentra por debajo de la interferencia permitida determinada por e 1 modelo psico-acústico, y si al mismo tiempo, se cumplen los requerimientos de bits, que señalan, para precisar, que no se exceda una tasa máxima en bits, la iteración, i.e., el método de análisis-por-síntesis, se termina, y los factores de escala obtenidos se codifican como se ilustra en el bloque 1014, y se suministran en forma codificada al formateador de corriente de bits 1004 como se marca mediante la flecha que se dibuja entre el bloque 1014 y el bloque 1004. Los valores de cuantificación se suministran entonces al codificador de entropía 1016, que típicamente lleva a cabo la codificación de entropía para diversas bandas de factor de escala utilizando diversas tablas de código Huffman, a fin de trasladar los valores cuantificados en un formato binario. Como se sabe, la codificación de entropía en forma de codificación Huffman implica caer de nuevo en las tablas de código que se crean en base a estadísticas de señal esperadas, y en donde a los valores que se presentan frecuentemente se dan palabras de código más cortas que a los valores que se presentan menos frecuentemente. Los valores codificados por entropía se suministran entonces, como información principal real, al formateador de corriente de bits 1004, que entonces da salida a la señal de audio codificada en el lado del lado de salida de acuerdo con una sintaxis de corriente de bits específica. La reducción de datos de las señales de audio en este momento es una técnica conocida, que es sujeto de una serie de estándares internacionales (e.g., ISO/MPEG-I, MPEG-2 AACC, MPEG-4) . Los métodos antes mencionados tienen en común que la señal de entrada se convierte en una representación compacta de datos reducidos por medio de un así llamado codificador, tomando ventaja de los efectos relacionados con la percepción (psicoacústicos, psicoópticos) . Para este fin, se lleva a cabo comúnmente un análisis espectral de la señal, y se cuantifican los componentes de señal correspondiente, tomando en cuenta un modelo de percepción, y después se codifican como una así llamada corriente de bits de una manera tal compacta como sea posible. A fin de estimar, previo a la cuantificación real, cuántos bits requerirá una cierta porción que va a codificarse, se empleará la así llamada entropía de percepción (PE) . La PE también proporciona una medida para cuan difícil es para el codificador codificar una cierta señal o partes de la misma. La desviación de la PE del número de bits realmente requerido es crucial para la calidad de la estimación. Además, la entropía de percepción y/o cada estimado de la necesidad de unidades de información para codificar una señal, puede emplearse para estimar si una señal puede emplearse para estimar si la señal es transitoria o estacionaria, dado que las señales transitorias también requieren más bits para codificar que las señales estacionarias. La estimación de la propiedad transitoria de una señal, por ejemplo, se utiliza para llevar a cabo una decisión de longitud de ventana como se indica en los bloques 1008 en la Figura 3. En la Figura 6, la entropía de percepción se ilustra calculada de acuerdo al ISO/IEC IS 13818-7 (MPEG-2 codificación de audio avanzada (AAC) ) . La ecuación ilustrada en la Figura 6 se utiliza para el cálculo de esta entropía de percepción, es decir, la entropía de percepción de banda. En esta ecuación, el parámetro pe representa la entropía de percepción. Además, la amplitud (b) representa el número de coeficientes espectrales en la banda b respectiva. Además e (b) es la energía de la señal en esta banda. Finalmente nb(b) es el umbral de enmascarado correspondiente o más generalmente, la interferencia admisible que puede introducirse en la señal, por ejemplo mediante cuantificación, de manera que un escucha humano escucha no obstante o no solo la interferencia infinitesimal. Las bandas pueden originarse de la división de banda del modelo psicoacústico (bloque 1020 en la Figura 3) , o pueden ser las así llamadas bandas de factor de escala (scfb) utilizadas en la cuantificación. El umbral de enmascarado psicoacústico es el valor de energía que el error de cuantificación no debe exceder. La ilustración mostrada en la Figura 6 muestra por tanto cuan bien funciona una entropía de percepción determinada de esta manera, como una estimación del número de bits requerido para la codificación. Para este fin, la entropía de percepción respectiva se ilustró dependiendo de los bits utilizados en el ejemplo de un codificador AAC en tasas de bits diferentes para cada bloque individual. La pieza de prueba utilizada contiene una mezcla típica de música, discurso e instrumentos individuales. Idealmente, los puntos se unirán a lo largo de una línea recta a través del punto cero. La expansión de la serie de puntos con las desviaciones desde la línea ideal aclara la estimación imprecisa. De este modo, lo desventajoso en el concepto mostrado en la Figura 6, es la desviación, que hace sentir por sí misma e.g., a un valor demasiado alto para que surja la entropía de percepción, que a su vez significa que se señala al cuantificador que se necesitan más bits de los requeridos realmente. Esto conduce al hecho de que el cuantificador cuantifica demasiado finamente, i.e., que no emite la medida de interferencia admisible, que da como resultado una reducción en la ganancia de codificación. Por otra parte, si el valor ed la entropía de percepción se determina demasiado baja, se señala al cuantificador que se necesitan menos bits de los realmente requeridos para codificar la señal. A su vez, esto da como resultado el hecho de que el cuantificador se cuantifica demasiado burdamente, lo cual conducirá inmediatamente a una interferencia audible en la señal, si no se toman medidas contrarias. Las medidas contrarias pueden ser que el cuantificador requiera aún uno o más circuitos de iteración adicionales, lo cual aumenta el tiempo de computación del codificador . Para mejorar el cálculo de la entropía de percepción, puede introducirse un término constante, tal como 1.5, en la expresión logarítmica, como se muestra en la Figura 7. Entonces, puede obtenerse ya un mejor resultado, i.e., una desviación ascendente o descendente menor, aunque no obstante puede observarse que, al tomar en cuenta en la expresión logarítmica un término constante, se reduce el caso de señales de entropía de percepción demasiado optimista, la necesidad de bits. Por otra parte, puede observarse claramente a partir de la Figura 7, sin embargo, que se señala significativamente un número de bits demasiado alto que conduce al hecho de que el cuantificador cuantificará siempre demasiado finamente, i.e., que la necesidad de bits se asume mayor de lo que realmente es, lo que a su vez da como resultado una reducción en la ganancia de codificación. La constante en la expresión logarítmica es una estimación en bruto de los bits requeridos para la información secundaria. De este modo, la inserción de un término en la expresión logarítmica proporciona una mejora de la entropía de percepción en banda, como se ilustra en la Figura 6, dado que las bandas con una distancia muy pequeña entre el umbral de energía y enmascarado son más proclives a tomarse en cuenta, dado que también se requiere una cierta cantidad de bits para la transmisión de coeficientes espectrales cuantificados a cero. Un cálculo adicional, pero muy intenso en tiempo de computación, de la entropía de percepción se ilustra en la Figura 8. En la Figura 8 se muestra el caso en el cual la entropía de percepción se calcula en línea. La desventaja, sin embargo, reside en el mayor tiempo del cálculo en línea. Aquí, en lugar de energía, se emplean coeficientes espectrales X(k), en donde Desplaza ientok (b) designa el primer índice de banda b. Cuando se compara la Figura 8 con la Figura 7, puede observarse claramente una reducción en las "excursiones" ascendentes en el rango de desde 2,000 hasta 3,000 bits. En consecuencia, la estimación PE será más precisa, i.e., no estimada en forma demasiado pesimista, sino que reside en el óptimo, de manera que la ganancia en codificación puede incrementarse en comparación con los métodos de cálculo mostrados en las Figuras 6 y 7, y/o se reduce el número de iteraciones en el cuantificador.
El tiempo de computación requerido para evaluar la ecuación mostrada en la Figura 8, sin embargo, es desventajoso en el cálculo en línea de la entropía de percepción. Tales desventajas en el tiempo de computación no necesariamente juegan ningún papel si el codificador opera en una PC poderosa o en una estación de trabajo poderosa. Pero, las cosas se ven completamente diferentes si el codificados se acomoda en un dispositivo portátil, tal como un teléfono celular UMTS, que por una parte, tiene que ser pequeño y no costoso, por ora parte, debe necesitar baja corriente, y adicionalmente debe operar rápidamente a in de permitir la codificación de una señal de audio o señal de vídeo transmitida a través de la conexión UMTS. Un objetivo de la presente invención es proporcionar un concepto eficiente y no obstante preciso para determinar un estimado de la necesidad de unidades de información para codificar una señal. Este objetivo se logra mediante un aparato de la reivindicación 1, un método de la reivindicación 12 o un programa de computadora de la reivindicación 13. La presente invención se basa en el descubrimiento de que el cálculo en banda de frecuencia del estimado de la necesidad de unidades de información debe retenerse por razones de tiempo de computación, pero que, a fin de obtener una determinación precisa del estimado, debe tomarse en cuenta la distribución de la energía en la banda de frecuencia que va a calcularse de una manera en banda. Con esto, el codificador de entropía que sigue al cuantificador se encuentra de una manera implícitamente "implicado" en la determinación del estimado de la necesidad de unidades de información. La codificación de entropía permite que se requiera una cantidad menor de bits para la transmisión de valores espectrales más pequeños que para la transmisión de mayores valores espectrales. El codificador de entropía es específicamente eficiente cuando los valores espectrales cuantificados a cero pueden transmitirse. Dado que estos típicamente se presentan más frecuentemente, la palabra clave para transmitir una línea espectral cuantificada a cero es la palabra clave más corta, y la palabra clave para transmitir una línea espectral cuantificada siempre grande es siempre más larga. Además, para un concepto especialmente eficiente para transmitir una secuencia de valores espectrales cuantificados a cero, puede emplearse una codificación de longitud de operación uniforme, que da como resultado en el hecho de que en el caso de una operación de ceros por valor espectral cuantificado a cero, visto en proporción, no se requiere ni un solo bit. Se ha encontrado que el cálculo de entropía de percepción en banda para determinar el estimado de la necesidad de unidades de información utilizadas en la técnica anterior, ignora completamente el modo de operación del codificador de entropía en corriente descendente si la distribución de la energía en la banda de frecuencia se desvía de una distribución completamente uniforme. De esta manera, de acuerdo con la invención, para la reducción de las imprecisiones del cálculo en banda, se ha tomado en cuenta cómo se distribuye la energía dentro de una banda. Dependiendo de la implementación, la medida de la distribución de la energía en la banda de frecuencia puede determinarse en base a las amplitudes reales o mediante un estimado de las líneas de frecuencia que no se cuantifican a cero por el cuantificador. Esta medida, también referida como "nl", en donde nl se toma como "número de líneas activas", se prefiere por razones de eficiencia del tiempo de computación. El número de líneas espectrales cuantificadas a cero o una subdivisión más fina, sin embargo, también puede tomarse en cuenta, en donde esta estimación se hace más y más precisa, entre más información del codificador de entropía en la corriente descendente se tome en cuenta. Si el codificador de entropía se construye en base a las tablas del código Huffman, las propiedades de estas tablas de código pueden integrarse particularmente bien, dado que las tablas de código no se calculan en línea, por así decirlo, debido a las estadísticas de señal, pero, dado que las tablas de código se fijan de cualquier manera, independientemente de la señal real. Dependiendo de las limitaciones del tiempo de computación, en el caso de un cálculo específicamente eficiente, la medida para la distribución de la energía en la banda de frecuencia, se lleva a cabo, sin embargo, mediante la determinación de las líneas que sobreviven aún después de la cuantificación, i.e., el número de líneas activas. La presente invención es ventajosa en que se determina un estimado de la necesidad de contenido de información, que es tanto más preciso como más eficiente que en la técnica anterior. Además, la presente invención es escalable para varias aplicaciones, dado que siempre pueden tomarse más propiedades del codificador de entropía en la estimación de la necesidad de bits dependiendo de la precisión deseada del estimado, pero a costa de un incremento en el tiempo de computación. BREVE DESCRIPCIÓN DE LOS DIBUJOS Las modalidades preferidas de la presente invención se explicarán en mayor detalle en lo siguiente con referencia a los dibujos acompañantes, en los cuales: La Figura 1 es un diagrama de circuito en bloque del aparato de la invención para determinar un estimado; La Figura 2 muestra una modalidad preferida del medio para calcular una medida para la distribución de la energía en la banda de frecuencia; La Figura 2b muestra una modalidad preferida del medio para calcular el estimado de la necesidad de bits; La Figura 3 es un diagrama de circuito en bloque de un codificador de audio conocido; La Figura 4 es una ilustración principal para la explicación de la influencia de la distribución de energía dentro de una banda en la determinación del estimado; La Figura 5 es un diagrama para el cálculo del estimado de acuerdo con la presente invención; La Figura 6 es un diagrama para el calculo del estimado de acuerdo al ISO/IEC IS 13818-7 (AAC) ; La Figura 7 es un diagrama para el cálculo del estimado con un término constante; La Figura 8 es un diagrama para el cálculo del estimado en línea con un término constante; DESCRIPCIÓN DETALLADA Subsecuentemente, con referencia a la Figura 1, se ilustrará el aparato de la invención para determinar un estimado de la necesidad de unidades de información para codificar una señal. La señal, que puede ser una señal de audio y/o vídeo, se alimenta a través de una entrada 100. Preferentemente, la señal se encuentra ya presente como representación espectral con valores espectrales. Esto, sin embargo, no es absolutamente necesario, dado que también pueden llevarse a cabo algunos cálculos con una señal de tiempo por la filtración de paso de banda correspondiente, por ejemplo. La señal se suministra a un medio 102 para proporcionar una medida para una interferencia admisible para una banda de frecuencia de la señal. La interferencia admisible puede determinarse por ejemplo, por medio de un modelo psicoacústico, como se ha explicado en base a la Figura 3 (bloque 1020) . El medio 102 es operable además para proporcionar también una medida para la energía de la señal en la banda de frecuencia. Es un prerrequisito para el cálculo en banda que la banda de frecuencia para la cual se indica una interferencia admisible o una energía de señal contenga al menos dos o más líneas espectrales de la representación espectral de la señal. En codificadores de audio típicos estandarizados, la banda de frecuencia será preferentemente una banda de factor de escala, dado que la estimación de necesidad de bits es necesaria inmediatamente para que el cuantificador establezca si la cuantificación que tuvo lugar cumple con un criterio de bits o no. El medio 102 se forma para suministrar tanto la interferencia admisible nb (b) como la energía de señal e (b) de la señal en la banda a un medio 104 para calcular el estimado de la necesidad de bits. De acuerdo con la invención, el medio 104 para calcular el estimado de la necesidad de bits se forma para tomar en cuenta una medida nl (b) para la distribución de la energía en la banda de frecuencia, además de la interferencia admisible y la energía de señal, en donde la distribución de la energía en la banda de frecuencia se desvía de una distribución completamente uniforme. La medida para la distribución de la energía se calcula en un medio 106, en donde el medio 106 requiere al menos una banda, a saber la banda de frecuencia considerada de la señal de audio o vídeo ya sea como señal de paso de banda o directamente como resultado de las líneas espectrales, a fin de ser capaces de llevar a cabo un análisis espectral de la banda, por ejemplo, para obtener la medida para la distribución de las energías en la banda de frecuencia. Por supuesto, la señal de audio o vídeo puede suministrarse al medio 106 como una señal de tiempo, en donde el medio 106 lleva a cabo entonces una filtración de banda así como un análisis en la banda. Como alternativa, la señal de audio o vídeo suministrada al medio 106 puede encontrarse ya presente en el dominio de frecuencia, e.g., como coeficientes MDCT, o también como una señal de paso de banda en el banco de filtro con un número menor de filtros de paso de banda en comparación con un filtro de banda MDCT.
En una modalidad preferida, el medio 106 para calcular se forma para tomar en cuenta las magnitudes presentes de valores espectrales en la banda de frecuencia para calcular el estimado. Además, el medio para calcular la medida de la distribución de la energía puede formarse para determinar, como medida para la distribución de la energía, un número de valores espectrales cuyas magnitudes son mayores que o iguales a un umbral de magnitud predeterminado, o cuya magnitud es menor que o igual a el umbral de magnitud, en donde el umbral de magnitud es preferentemente una etapa del cuantificador exacta o estimada que ocasiona valores menores que o iguales a cero en un cuantificador. En este caso, la medida para la energía es el número de líneas activas, es decir, el número de líneas que sobreviven o que no son iguales a cero después de la cuantificación. La Figura 2a muestra una modalidad preferida para el medio 106 para el cálculo de la medida para la distribución de la energía en la banda de frecuencia. La medida para la distribución de la energía en la banda de frecuencia se designa con nl (b) en la Figura 2a. El factor de forma ffac (b) ya es una medida para la distribución de la energía en la banda de frecuencia. Como puede observarse a partir del bloque 106, la medida para la distribución espectral nl se determina a partir del factor de forma ffac (b) calculando con la cuarta raíz de la energía de señal e (b) dividida entre la amplitud de banda, amplitud (b) y/o entre el número de líneas en la banda b del factor de escala.
En este contexto, se anote que el hecho de que el factor de forma es también un ejemplo para una cantidad que indica una medida para la distribución de las energías, mientras que nl (b) , en contraste a las mismas, es un ejemplo para una cantidad que representa un estimado para el número de líneas relevante para la cuantificación. El factor de forma ffac (b) se calcula a través de la formación de magnitud de una línea espectral y que conforma la formación de raíz de esta línea espectral y conforma la suma de las magnitudes "de raíz" de las líneas espectrales en la banda. La Figura 2b muestra una modalidad preferida del medio 104 para calcular el estimado pe, en donde también se introduce un caso de diferenciación en la Figura 2b, a saber cuando el logaritmo para la base 2 de la tasa de la energía para la interferencia admisible es mayor que un factor cl constante o igual al factor constante. En este caso, se toma la alternativa superior del bloque 104, es decir, la medida para la distribución espectral nl se multiplica por la expresión logarítmica. Por otra parte, si se determina que el logaritmo para la base 2 de la tasa de la energía de señal para la interferencia admisible es menor que el valor cl, se utiliza la alternativa inferior en el bloque 104 de la Figura 2b, que adicionalmente tiene también una constante de adición c2 así como una constante de multiplicación c3 calculada a partir de la constante c2 y cl. Subsecuentemente, en base a la Figura 4a y a la Figura 4b, se ilustrará el concepto de la invención. La Figura 4a muestra una banda en la cual se encuentran presentes cuatro líneas espectrales, que son todas igualmente grandes. La energía en esta banda se encuentra por tanto distribuida uniformemente a través de la banda. En contraste, la Figura 4b muestra una situación en la cual la energía en la banda reside en una línea espectral, mientras que las otras tres líneas espectrales son iguales a cero. La banda mostrada en la Figura 4b podría, por ejemplo, encontrarse presente previo a la cuantificación o podría obtenerse después de la cuantificación, si las líneas espectrales ajustadas a cero en la Figura 4b son menores que la primera etapa del cuantificador previo a la cuantificación y por tanto ajustadas a cero por el cuantificador, i.e., no "sobreviven" . El número de líneas activas en la Figura 4b por tanto es igual a l, en donde el parámetro nl en la Figura 4b se calcula a la raíz cuadrada de 2. En contraste, el valor nl, i.e., la medida de la distribución espectral de la energía, se calcula a 4 en la Figura 4a. Esto significa que la distribución espectral de la energía es más uniforme si la medida para la distribución de la energía espectral es mayor . Se anota el hecho de que el cálculo en banda de la entropía de percepción de acuerdo con la técnica anterior no establece una diferencia entre los dos casos. En particular, si la misma energía se encuentra presente en ambas bandas mostradas en las Figuras 4a y 4b, no se establece ninguna diferencia. Pero el caso mostrado en la Figura 4b puede codificarse obviamente solo con una línea relevante con menos bits, dado que las tres líneas espectrales ajustadas a cero pueden transmitirse muy eficientemente. En general, la contabilidad más simple del caso mostrado en la Figura 4b se basa en el hecho de que, después de la cuantificación y codificación s in pérdidas, los valores menores y, en particular, los valores cuantificados a cero requieren menos bits para su transmisión. De acuerdo con la invención, se toma en cuenta por tanto cómo se distribuye la energía dentro de la banda. Como se ha definido, esto se hace reemplazando el número de líneas por banda en la ecuación conocida (Figura 6) mediante un estimado del número de líneas que no son iguales a cero después de la cuantificación. Este estimado se muestra en la Figura 2a. Además debe señalarse el hecho de que el factor de forma mostrado en la Figura 2a también se necesita en otro punto en el codificador, por ejemplo, dentro del bloque de cuantificación 1014 para determinar la cuantificación de intervalo-medida. Si el factor de forma ya sea ha calculado en algún otro punto, entonces no tiene que calcularse de nuevo para la estimación de bits, de manera que el concepto de la invención para la mejor estimación de la medida de los bits requeridos se efectúa con un mínimo de tiempo de computación. Como ya sea ha definido, X(k) es el coeficiente espectral que va a cuantificarse más tarde, mientras que la variable Desplazamientok (b) designa el primer índice en la banda b. Como puede observarse a partir de las Figuras 4a y 4b, el espectro en la Figura 4a produce un valor de nl=4, mientras que el espectro en la Figura 4b produce un valor de 1.41. Por tanto, con la ayuda del factor de forma, se dispone de una medida para la cuantificación de la estructura del campo espectral dentro de la banda. La nueva fórmula para el cálculo de una entropía mejorada de percepción en banda se basa por tanto en la multiplicación de la medida para la distribución espectral de la energía y la expresión logarítmica, en la cual la energía de señal e (b) se presenta en el numerador y la interferencia admisible en el denominador, en donde puede insertarse un término dentro del logaritmo dependiendo de la necesidad, como se ilustra en la Figura 7. Este término por ejemplo, puede ser también 1.5, pero también puede ser igual a cero, como en el caso mostrado en la Figura 2b, en donde esto puede determinarse, por ejemplo, empíricamente. En este punto, debe señalarse una vez más la Figura 5, de la cual es aparente la entropía de percepción calculada de acuerdo con la invención, a saber, los bits ilustrados contra los requeridos. Se observa claramente una mayor precisión del estimado opuesta a los ejemplos comparativos en las Figuras 6, 7 y 8. El cálculo en banda modificado de acuerdo con la invención también funciona así como el cálculo en línea. Dependiendo de las circunstancias, el método de acuerdo con la invención puede implementarse en hardware o software. La implementación puede ser en un medio de almacenamiento digital, en particular un disquete o CD con señales de control legibles electrónicamente capaces de cooperar con un sistema de computadora programable de manera que se ejecute el método. En general, la invención consiste por tanto, en un producto de programa de computadora con un código de programa almacenado en un vehículo legible en máquina para llevar a cabo el método de la invención, cuando el producto de programa de computadora se ejecuta en una computadora. En otras palabras, la invención también puede efectuarse por tanto como un programa de computadora con un código de computadora para llevar a cabo el método, cuando el programa de computadora se ejecuta en una computadora.

Claims (11)

  1. REIVINDICACIONES 1. Un aparato para determinar un estimado (pe) de la necesidad de unidades de información para codificar una señal que tiene información de audio o vídeo, en donde la señal tiene diversas bandas de frecuencia, que comprenden: un medio para proporcionar una medida (nb (b) ) para una interferencia admisible para una banda de frecuencia (b) de la señal, en donde la banda de frecuencia (b) incluye al menos dos valores espectrales de una representación espectral de la señal, y una medida (e (b) ) para la energía de la señal en la banda de frecuencia; un medio para calcular la medida (nl(b)) para la distribución de la energía (e (b) ) en la banda de frecuencia (b) , en donde la distribución de la energía en la banda de frecuencia se desvía de una distribución completamente uniforme, en donde el medio para calcular la medida (nl(b)) para la distribución de la energía (e (b) ) se forma para determinar, como medida para la distribución de la energía, un estimado para un número de valores espectrales cuyas magnitudes son mayores que o iguales a un umbral de magnitud predeterminado, o cuyas magnitudes son menores que o iguales a el umbral de magnitud, en donde el umbral de magnitud es una etapa del cuantificador exacta o estimada que ocasiona, en el cuantificador, valores menores que o iguales a la etapa del cuantificador a cuantificarse a cero; y un medio para calcular el estimado (pe) utilizando la medida (nb (b) ) para la interferencia, la medida para la energía y la medida para la distribución de la energía.
  2. 2. El aparato de la reivindicación 1, en donde el medio para el cálculo se forma para tomar en cuenta las magnitudes de los valores espectrales en la banda de frecuencia para calcular la medida para la distribución de la energía .
  3. 3. El aparato de una de las reivindicaciones precedentes, en donde el medio para el cálculo se forma para calcular un factor de forma de acuerdo con la siguiente ecuación: en donde X(k) es un valor espectral a un índice de frecuencia k, en donde Desplazamientok es un primer valor espectral en una banda b, y en donde ffac(b) es el factor de forma.
  4. 4. El aparato de una de las reivindicaciones precedentes, en donde el medio para el cálculo se forma para tomar en cuenta una cuarta raíz de una proporción entre la energía en la banda de frecuencia y la amplitud de la banda de frecuencia o número de los valores espectrales en la banda de frecuencia.
  5. 5. El aparato de una de las reivindicaciones precedentes, en donde el medio para el cálculo se forma para calcular la medida para la distribución de la energía de acuerdo con las siguientes ecuaciones : en donde X(k) es un valor espectral a un índice de frecuencia k, en donde Desplazamientok es un primer valor espectral en una banda b, en donde ffac(b) es un factor de forma, en donde nl(b) representa la medida para la distribución de la energía en la banda b, en donde e (b) es la energía de señal en la banda b, y en donde la amplitud (b) es la amplitud de la banda.
  6. 6. El aparato de una de las reivindicaciones precedentes, en donde el medio para calcular el estimado se forma para utilizar un cociente de la energía en la banda de frecuencia y la interferencia en la banda de frecuencia.
  7. 7. El aparato de una de las reivindicaciones precedentes, en donde el medio para calcular el estimado se forma para calcular el estimado utilizando la siguiente expresión: en donde pe es el estimado, en donde nl(b) representa la medida para la distribución de la energía en la banda b, en donde e(b) es la energía de la señal en la banda b, en donde nb(b) es la interferencia admisible en la banda b, y en donde s es un término de adición preferentemente igual a 1.5.
  8. 8. El aparato de una de las reivindicaciones precedentes, en donde el medio para calcular el estimado se forma para calcular el estimado de acuerdo con la siguiente ecuación: en donde ; en donde : en donde pe es el estimado, en donde nl (b) representa la medida para la distribución de la energía en la banda b, en donde e(b) es la energía de la señal en la banda b, en donde nb(b) es la interferencia admisible en la banda b, en donde s es un término de adición preferentemente igual a 1.5, en donde X(k) es un valor espectral a un índice de frecuencia k, en donde Desplazamientok es un primer valor espectral en una banda b, en donde ffac (b) es el factor de forma, y en donde la amplitud (b) es una amplitud de la banda .
  9. 9. El aparato de una de las reivindicaciones precedentes, en donde la señal se da como una representación espectral con valores espectrales.
  10. 10. Un método para determinar un estimado de la necesidad de unidades de información para codificar una señal que tiene información de audio o vídeo, en donde la señal tiene diversas bandas de frecuencia, que comprende las etapas de : proporcionar una medida (nb (b) ) para una interferencia admisible para una banda de frecuencia (b) de la señal, en donde la banda de frecuencia incluye al menos dos valores espectrales de una representación espectral de la señal, y una medida (e (b) ) para la energía de la señal en la banda de frecuencia (b) ; calcular la medida (nl(b)) para la distribución de la energía en la banda de frecuencia (b) , en donde la distribución de la energía en la banda de frecuencia se desvía de una distribución completamente uniforme, en donde como la medida (nl(b)) para la distribución dé la energía, se determina un estimado para un número de valores espectrales cuyas magnitudes son mayores que o iguales a un umbral de magnitud predeterminado, o cuyas magnitudes son menores que o iguales al umbral de magnitud, en donde el umbral de magnitud es una etapa del cuantificador exacta o estimada que ocasiona, en el cuantificador, valores menores que o iguales a la etapa del cuantificador para cuantificarse a cero; y calcular el estimado (pe) utilizando la medida (nb (b) ) para la interferencia, la medida (e (b) ) para la energía y la medida (nl-(b)) para la distribución de la energía.
  11. 11. El programa de computadora con un código de programa para llevar a cabo el método para determinar un estimado de la necesidad de unidades de información para codificar una señal de la reivindicación 10, cuando el programa se ejecuta en una computadora.
MXPA/A/2006/009934A 2004-03-01 2006-08-31 Metodo y aparato para determinar un estimado MXPA06009934A (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102004009949.9 2004-03-01

Publications (1)

Publication Number Publication Date
MXPA06009934A true MXPA06009934A (es) 2007-04-10

Family

ID=

Similar Documents

Publication Publication Date Title
CA2559354C (en) Device and method for determining an estimated value
RU2608878C1 (ru) Регулировка уровня во временной области для декодирования или кодирования аудиосигналов
EP2054882B1 (en) Arbitrary shaping of temporal noise envelope without side-information
KR100823097B1 (ko) 멀티채널 신호를 처리하는 장치 및 방법
RU2329549C2 (ru) Устройство и способ определения величины шага квантователя
JP5154934B2 (ja) 知覚的歪みを最小化する結合オーディオ符号化
MXPA06009934A (es) Metodo y aparato para determinar un estimado
CN110534119B (zh) 一种基于人耳听觉频率尺度信号分解的音频编解码方法
Zhang et al. Informed source separation from compressed mixtures using spatial Wiener filter and quantization noise estimation
Creusere Quantifying perceptual distortion in scalably compressed MPEG audio
MXPA06009932A (es) Aparato y metodo para determinar un tamaño de la etapa del cuantificador
MXPA06009933A (es) Aparato y metodo para procesar una señal multicanal