MX2012005414A - Codificacion y decodificacion parametricas. - Google Patents

Codificacion y decodificacion parametricas.

Info

Publication number
MX2012005414A
MX2012005414A MX2012005414A MX2012005414A MX2012005414A MX 2012005414 A MX2012005414 A MX 2012005414A MX 2012005414 A MX2012005414 A MX 2012005414A MX 2012005414 A MX2012005414 A MX 2012005414A MX 2012005414 A MX2012005414 A MX 2012005414A
Authority
MX
Mexico
Prior art keywords
weighting
signal
estimate
channel
parametric
Prior art date
Application number
MX2012005414A
Other languages
English (en)
Inventor
Arnoldus Werner Johannes Oomen
Albertus Cornelis Den Brinker
Erik Gosuinus Petrus Schuijers
Original Assignee
Koninkl Philips Electronics Nv
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninkl Philips Electronics Nv filed Critical Koninkl Philips Electronics Nv
Publication of MX2012005414A publication Critical patent/MX2012005414A/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

Un codificador para una señal de audio de múltiples canales que comprende un mezclador descendente (201, 203, 205) para la generación de un mezclado descendente como una combinación al menos de una primera y segunda señal de canal ponderada, de manera respectiva, por una primera y segunda ponderación con diferentes amplitudes al menos para algunos intervalos de tiempo-frecuencia. Además, un circuito (201, 203, 209) genera los datos paramétricos de mezclado ascendente que caracterizan la relación entre las señales de canal así como también caracterizan las ponderaciones. Un circuito genera los estimados de ponderación para las ponderaciones de codificador a partir de los datos paramétricos de mezclado ascendente; y comprende un mezclador ascendente (407) que recrea la señal de audio de múltiples canales mediante el mezclado ascendente del mezclado descendente en respuesta a los datos paramétricos de mezclado ascendente, el primer estimado de ponderación y el segundo estimado de ponderación. El mezclado ascendente es dependiente de la amplitud al menos de uno de los estimado(s) de ponderación.

Description

CODIFICACION Y DECODIFICACION PARAMETRICAS Campo de la Invención La invención se refiere a la codificación y decodificación paramétricas , y en particular, a la codificación y decodificación paramétricas de señales de múltiples canales que utilizan un mezclado descendente y datos paramétricos de mezclado ascendente.
Antecedentes de la Invención La codificación digital de varias señales de origen se ha vuelto cada vez más importante a través de las últimas décadas puesto que la representación y comunicación de señal digital ha reemplazado cada vez más la representación y comunicación analógica. Por ejemplo, la distribución de contenido de medios, tales como video y música, está basada cada vez más en la codificación de contenido digital.
La codificación de señales de múltiples canales podría ser realizada a través del mezclado descendente de la señal de múltiples canales en una menor cantidad de canales y la codificación y transmisión de estos. Por ejemplo, una señal de estéreo podría ser mezclada hacia abajo en una señal mono que posteriormente es codificada. En la codificación paramétrica de múltiples canales, son adicionalmente generados datos paramétricos, los cuales soportan un mezclado ascendente del mezclado descendente para la recreación REF . 230117 (aproximaciones) de la señal original de múltiples canales. Los ejemplos de sistemas de múltiples canales que utilizan el mezclado descendente/mezclado ascendente y los datos paramétricos asociados incluyen la técnica conocida como el estándar de Estéreo Paramétrico (PS, por sus siglas en inglés) y su extensión a la codificación paramétrica de múltiples canales (por ejemplo, Envolvente MPEG: MPS) .
En su forma más simple, el mezclado descendente de una señal de estéreo en una señal mono simplemente podría ser realizado generando el promedio de los dos canales de estéreo, es decir, al generar simplemente la señal media o de suma. Entonces, esta señal mono podría ser distribuida y además podría ser directamente utilizada como una señal-mono. En los procedimientos de codificación, tales como los utilizados por el Estéreo Paramétrico, son proporcionados puntos de referencia de estéreo además de la señal de mezclado descendente. De manera específica, las diferencias de nivel entre canales, las diferencias de tiempo o fase y los parámetros de coherencia o correlación son determinados por un mosaico de tiempo-frecuencia (lo cual típicamente corresponde con una división de banda Bark o una división de banda ERB del eje de frecuencia y la segmentación uniforme fija del eje de tiempo) . En forma típica, estos datos son distribuidos junto con la señal de mezclado descendente y permiten que sea realizada la recreación precisa de la señal original de estéreo a través del mezclado ascendente que es dependiente de los parámetros .
Sin embargo, es bien conocido que la creación de la señal media típicamente origina señales en cierto modo opacas, es decir, con el contenido reducido de brillantez/alta frecuencia. La razón es que para las señales típicas de audio, los diferentes canales tienden a ser casi correlacionados para las bajas frecuencias aunque no para las frecuencias más altas. La suma directa de los dos canales de estéreo suprime, de manera efectiva, los componentes no alineados de la señal. En su lugar, para las subbandas de frecuencia en donde las señales izquierda y derecha se encuentran completamente fuera de fase, la señal media resultante es de cero.
La solución que ha sido propuesta es utilizar la alineación de fase de los canales antes que sea realizada la suma. De esta manera, las señales izquierda y derecha son idealmente compensadas para cualquier diferencia de fase en el dominio de frecuencia (que corresponde con la diferencia de tiempo en el dominio de tiempo) antes de ser agregadas juntas. Sin embargo, este procedimiento tiende a ser complejo y podría introducir un retraso algorítmico. Asimismo, en la práctica, el procedimiento tiende a no proporcionar una calidad óptima. Por ejemplo, si la diferencia de fase entre canales es medida, existe una ambigüedad en sí se alinea la fase del canal izquierdo o del canal derecho o viceversa. Asimismo el intento de cambiar la fase de ambos canales conduce igualmente a la ambigüedad. Además, la diferencia de fase es numéricamente mal acondicionada cuando es baja la correlación, con lo cual, origina un sistema menos preciso y robusto. Todos estos problemas tienden a conducir a los artefactos perceptibles cuando se crea un mezclado descendente por la alineación de fase. En forma típica, las modulaciones en los componentes de tono se originan a partir del procedimiento.
Como una consecuencia, los sistemas más prácticos tienden a utilizar el así llamado mezclado descendente pasivo que simplemente es generado como el promedio de las señales izquierda y derecha. De manera desafortunada, el mezclado descendente pasivo también tiene algunas desventajas asociadas. Una de estas es que la energía acústica puede ser sustancialmente reducida e incluso totalmente perdida para las señales fuera de fase. Un método propuesto para dirigir esto es utilizar el así llamado mezclado descendente activo en donde el mezclado descendente nuevamente es escalado para tener la misma energía que las señales originales. Otra solución propuesta es proporcionar la compensación de energía en el lado del decodificador . Sin embargo, estas compensaciones tienden a estar en un nivel más que global y no discriminan entre los componentes de tono (en donde la compensación es necesaria) y el ruido (en donde la compensación no es necesaria) . Además, en ambos procedimientos de mezclado descendente pasivo y activo, ocurren problemas para las señales en la que el procedimiento está fuera de fase. En su lugar, los componentes fuera de fase están completamente ausentes en la señal de mezclado descendente .
Por lo tanto, sería ventajoso un sistema mejorado para la codificación/decodificación paramétrica de múltiples canales y en particular, sería ventajoso un sistema que permita la flexibilidad aumentada, la operación facilitada, la implementación facilitada, la complejidad reducida, la robustez mejorada, la codificación mejorada de los componentes de señal fuera de fase, la velocidad reducida de datos en contra de la relación de calidad y/o el rendimiento mejorado.
Sumario de la Invención En consecuencia, la invención busca mitigar, aliviar o eliminar de preferencia una o más de las desventajas mencionadas con anterioridad solas o en cualquier combinación .
De acuerdo con un aspecto de la invención se proporciona un decodificador para la generación de una señal de audio de múltiples canales, el decodificador comprende: un primer receptor que recibe un mezclado descendente que es una combinación al menos de una primera señal de canal ponderada por medio de una primera ponderación y una segunda señal de canal ponderada por medio de una segunda ponderación, la primera ponderación y la segunda ponderación tienen diferentes amplitudes al menos para algunos intervalos de tiempo-frecuencia; un segundo receptor que recibe datos paramétricos de mezclado ascendente que caracterizan la relación entre la primera señal de canal y la segunda señal de canal; un circuito que genera un primer estimado de ponderación para la primera ponderación y un segundo estimado de ponderación para la segunda ponderación a partir de los datos paramétricos de mezclado ascendente; y un mezclador ascendente que genera la señal de audio de múltiples canales mediante el mezclado ascendente del mezclado descendente en respuesta a los datos paramétricos de mezclado ascendente, el primer estimado de ponderación y el segundo estimado de ponderación, el mezclado ascendente es dependiente de la amplitud por lo menos de uno del primer estimado de ponderación y el segundo estimado de ponderación.
La invención podría permitir la operación mejorada y/o facilitada en muchos escenarios. En forma típica, el procedimiento podría mitigar los problemas y/o desventajas fuera de fase de la codificación de alineación de fase. A menudo, el procedimiento podría permitir la calidad mejorada de audio sin necesitar de una velocidad incrementada de datos. A menudo, un sistema más robusto de codificación/decodificación podría ser conseguido y sobre todo, la codificación/decodificación podría ser menos sensible a condiciones específicas de señal. El procedimiento podría permitir una implementación de baja complejidad y/o podría tener un requerimiento de recurso de baja computación.
El procesamiento podría estar basado en una subbanda. La codificación y decodificación podrían ser realizadas en subbandas de frecuencia y en intervalos de tiempo. En particular, la primera ponderación y la segunda ponderación podrían ser proporcionadas para cada subbanda de frecuencia y para cada segmento (tiempo) ,. junto con un valor de señal de mezclado descendente. El mezclado descendente podría ser generado de manera individual en cada subbanda combinando los valores de subbanda de frecuencia de la primera y segunda señales de canal ponderadas por las ponderaciones para la subbanda. Las ponderaciones (y de esta manera, los estimados de ponderación) para una subbanda tienen diferentes amplitudes (y de esta manera, energías) al menos para algunos valores de la primera y segunda señales de canal. Cada intervalo de tiempo- frecuencia podría corresponder, de manera específica, con un segmento de tiempo de codificación/decodificación y la subbanda de frecuencia.
Los datos paramétricos de mezclado ascendente comprenden parámetros que podrían ser utilizados para generar un mezclado ascendente que corresponde con la señal original de múltiples canales de mezclado descendente que proviene del mezclado descendente. Los datos paramétricos de mezclado ascendente podrían comprender, de manera específica, los parámetros de Diferencia de Nivel Entrecanales (ILD, por sus siglas en inglés), de Coherencia/Correlación entre Canales (IC/ICC, por sus siglas en inglés) , de Diferencia de Fase entre Canales (IPD, por sus siglas en inglés) y/o de Diferencia de Tiempo entre Canales (ITD, por sus siglas en inglés) . Los parámetros podrían ser proporcionados para las subbandas de frecuencia y con un intervalo adecuado de actualización. En particular,, podría ser proporcionado un conjunto de parámetros para cada una de la pluralidad de bandas de frecuencia para cada segmento de tiempo de codificación/decodificación . Las bandas de frecuencia y/o los segmentos de tiempo utilizados para los datos paramétricos podrían ser idénticos a los utilizados para el mezclado descendente aunque no necesitan serlo. Por ejemplo, las mismas subbandas de frecuencia podrían ser utilizadas para frecuencias más bajas aunque no para frecuencias más altas. De esta manera, la resolución de tiempo-frecuencia para la primera y segunda ponderaciones y los parámetros de los datos paramétricos de mezclado ascendente no necesitan ser idénticos .
Una de la primera y segunda ponderaciones (y de esta manera, los estimados correspondientes de ponderación) para algunos valores de señal podría ser de cero en una subbanda. La combinación de la primera y segunda señales de canal podría ser una combinación lineal tal como específicamente una suma lineal con cada señal que es escalada por la ponderación correspondiente antes de la suma.
La señal de múltiples canales comprende dos o más canales. De manera específica, la señal de múltiples canales podría ser una señal de dos canales (estéreo) .
El procedimiento podría mitigar en particular los problemas fuera de fase para proporcionar un sistema más robusto mientras que al mismo tiempo mantiene una baja complejidad y una baja velocidad de datos. De manera específica, el procedimiento podría permitir que diferentes ponderaciones (con diferentes amplitudes) sean determinadas sin requerir que sean enviados datos adicionales. De esta manera, podría ser conseguida una calidad mejorada de audio sin necesitar una velocidad incrementada de datos.
La determinación del primer y/o segundo estimados de ponderación podría utilizar el mismo procedimiento que es (se supone que será) utilizado para determinar la primera y/o segunda ponderaciones en el codificador. En muchas modalidades, uno o ambos de las ponderaciones/estimados de ponderación podrían ser determinados en función de la función supuesta para determinar la ponderación/estimado de ponderación de los parámetros de los datos paramétricos de mezclado ascendente.
El decodificador no podría tener una información explícita de las características exactas de la señal recibida sino simplemente podría operar suponiendo que el mezclado descendente es una combinación al menos de una primera señal de canal ponderada por medio de una primera ponderación y una segunda señal de canal ponderada por medio de una segunda ponderación en donde la primera ponderación y la segunda ponderación tienen diferentes amplitudes al menos para algunos intervalos de tiempo-frecuencia. Un intervalo de tiempo-frecuencia podría corresponder con un intervalo de tiempo, un intervalo de frecuencia o la combinación de un intervalo de tiempo y un intervalo de frecuencia, tal como por ejemplo, una subbanda de frecuencia en un segmento de tiempo .
De acuerdo con una característica opcional de la invención, el circuito es colocado para generar el primer estimado de ponderación y el segundo estimado de ponderación con diferentes relaciones al menos con algunos parámetros de los datos paramétricos al menos para algunos intervalos de tiempo-frecuencia .
Esto podría permitir un sistema mejorado de codificación/decodificación y en particular, podría mitigar los problemas fuera de fase para proporcionar un sistema más robusto. Las funciones que determinan los estimados de ponderación de los parámetros podrían ser de esta manera diferentes para las dos ponderaciones, de manera que los mismos parámetros originarán estimados de ponderación con diferentes amplitudes.
En consecuencia, el codificador podría ser colocado para determinar la primera ponderación y la segunda ponderación de manera que tengan diferentes relaciones al menos con algunos parámetros de los datos paramétricos al menos para algunos intervalos de tiempo-frecuencia .
Un intervalo de tiempo-frecuencia podría corresponder con un intervalo de tiempo, un intervalo de frecuencia o la combinación de un intervalo de tiempo y un intervalo de frecuencia, tal como por ejemplo, una subbanda de frecuencia en un segmento de tiempo.
De acuerdo con una característica opcional de la invención, el mezclador ascendente es colocado para determinar al menos uno del primer estimado de ponderación y el segundo estimado de ponderación como una función de un parámetro de energía de los datos paramétricos de mezclado ascendente, el parámetro de energía es indicativo de la característica de energía relativa para la primera señal de canal y la segunda señal de canal .
Esto podría proporcionar el rendimiento mejorado y/o la operación y/o la implementación facilitada. Las consideraciones de energía podrían ser particularmente relevantes para la determinación de las ponderaciones adecuadas, y éstas en consecuencia podrían ser más adecuadamente representadas y correlacionadas con los parámetros de energía de los datos paramétricos de mezclado ascendente. De esta manera, el uso de los parámetros de energía para determinar las ponderaciones/estimados de ponderación permite una comunicación eficiente de la información que permite que sean determinadas las ponderaciones/estimados de ponderación con diferentes amplitudes. En particular, el uso de los parámetros de energía para determinar las ponderaciones/estimados de ponderación permite una determinación eficiente de la amplitud de las ponderaciones más que simplemente la fase de las ponderaciones.
Los parámetros de energía podrían proporcionar, de manera específica, la información de las características de energía (o de manera equivalente, la potencia) de cualquiera de la primera señal de canal, la segunda señal de canal, de la diferencia entre o de la energía de la señal combinada (tal como la característica de potencia cruzada) .
De acuerdo con una característica opcional de la invención, el parámetro de energía es al menos uno de: un parámetro de Diferencia de Intensidad entre Canales, IID; un parámetro de Nivel de Intensidad entre Canales, ILD; y un parámetro de Coherencia/Correlación entre Canales, IC/ICC.
Esto podría proporcionar un rendimiento particularmente ventajoso y podría proporcionar una compatibilidad mejorada hacia atrás.
De acuerdo con una característica opcional de la invención, los datos paramétricos de mezclado ascendente comprenden una indicación de precisión para la relación entre la primera ponderación y la segunda ponderación y los datos paramétricos de mezclado ascendente, y el decodificador es colocado para generar al menos uno del primer estimado de ponderación y el segundo estimado de ponderación en respuesta a la indicación de precisión.
Esto podría proporcionar un rendimiento mejorado en muchos escenarios y en particular, podría permitir una determinación mejorada de los estimados más precisos de ponderación para diferentes condiciones de señal.
La indicación de precisión podría ser indicativa de la precisión que puede ser obtenida para un estimado de ponderación cuando se calcula éste a partir de los datos paramétricos. La indicación de precisión podría indicar, de manera específica, si la precisión conseguible cumple o no con los criterios de precisión o exactitud. Por ejemplo, la indicación de precisión podría ser una indicación binaria que indique simplemente si pueden ser utilizados o no los datos paramétricos. La indicación de precisión podría comprender un valor individual para cada subbanda o podría comprender una o más indicaciones aplicables a una pluralidad o incluso a todas las subbandas .
El decodificador podría ser colocado para estimar los estimados de ponderación de los datos paramétricos sólo si la indicación de precisión es indicativa de una precisión suficiente.
De acuerdo con una característica opcional de la invención, al menos una de la primera ponderación y la segunda ponderación por lo menos para un intervalo de frecuencia tiene una resolución de frecuencia-temporal más fina que el parámetro correspondiente de los datos paramétricos de mezclado ascendente.
Esto podría proporcionar un rendimiento mejorado en muchos escenarios puesto que pueden utilizarse ponderaciones más precisas para generar el mezclado descendente mientras que al mismo tiempo, se permite que sea mantenida baja la velocidad de datos .
En forma similar, al menos uno del primer estimado de ponderación y el segundo estimado de ponderación por lo menos para un intervalo de frecuencia podría tener una resolución de frecuencia-temporal más fina que el parámetro correspondiente de los datos paramétricos de mezclado ascendente.
El parámetro correspondiente es el parámetro que incluye el mismo intervalo de tiempo-frecuencia. En muchas modalidades, el decodificador podría proceder a generar el estimado para la primera y/o segunda ponderaciones en función del parámetro correspondiente. De esta manera, aunque el parámetro podría representar las características de señal con respecto a un intervalo de tiempo y/o frecuencia más grande este podría ser utilizado como una aproximación para el intervalo de tiempo y/o frecuencia de la ponderación.
De acuerdo con una característica opcional de la invención, el mezclador ascendente es colocado para generar un valor de Diferencia de Fase Total en respuesta a los datos paramétricos y para realizar el mezclado ascendente en respuesta al valor de Diferencia de Fase Total, el valor de Diferencia de Fase Total es dependiente del primer estimado de ponderación y el segundo estimado de ponderación.
Esto podría permitir una decodificación eficiente con una alta calidad. En algunos escenarios, esto podría proporcionar una compatibilidad mejorada hacia atrás. La OPD es individualmente dependiente de ambos del primer y segundo estimados de ponderación (incluyendo las amplitudes de los mismos) y podría definirse, de manera específica, como una función de las ponderaciones, es decir, OPD=f (wi, w2) .
El mezclado ascendente podría ser generado, por ejemplo, de manera sustancial como: c, · cos(oc + ß ) · eJopd c ¦ si (a + ß ) · eJopá s • cos(-a + ß )¦ ej{opd-ipd) c2¦ sin (-a + ß )· ej(opá-ipi) en donde s es la señal de mezclado descendente y s<j es una señal decorrelacionada generada por decodif icador para la señal de mezclado descendente. Ci y c2 son los parámetros de ganancia que son utilizados para reinstalar la diferencia correcta de nivel entre los canales izquierdo y derecho de salida, y a y ß son valores que son generados a partir de los datos paramétricos de mezclado ascendente.
El valor OPD podría ser generado por ejemplo, sustancialmente como: opd - arctani ~ W + Wlr *CC s^P ) ' ^ ~ w2i · ice¦ cos{ipd)· üd1 wlr¦ iid + w2r · ice · cos(ipd ) · füd + w2¡¦ ice¦ sm(ipd )¦ <Jüd ] ' o por ejemplo, sustancialmente como: en donde w2 y w2 son la primera y segunda ponderaciones de manera respectiva y la señal de mezclado descendente es generado por s = wi -1 + w2 ¦ r.
De acuerdo con una característica opcional de la invención, el mezclado ascendente es independiente de la amplitud al menos de uno del primer estimado de ponderación y el segundo estimado de ponderación excepto para el valor de Diferencia de Fase Total.
Esto podría permitir el rendimiento y/u operación mejorada .
De acuerdo con una característica opcional de la invención, el mezclador ascendente es colocado para: generar una señal decorrelacionada a partir del mezclado descendente, la señal decorrelacionada es decorrelacionada con el mezclado descendente; realizar el mezclado ascendente de la mezcla descendente aplicando una multiplicación de matriz al mezclado descendente y la señal decorrelacionada en donde los coeficientes de la multiplicación de matriz son dependientes del primer estimado de ponderación y el segundo estimado de ponderación .
Esto podría permitir la decodificación eficiente con una alta calidad. En algunos escenarios, esto podría proporcionar una compatibilidad mejorada hacia atrás.
La multiplicación de matriz podría incluir un coeficiente de predicción que representa la predicción de una señal de diferencia de la señal de mezclado descendente. El coeficiente de predicción podría ser determinado a partir de las ponderaciones. La multiplicación de matriz podría incluir un factor de escala de decorrelación que representa una contribución a una señal de diferencia de la señal de decorrelación. El factor de escala de decorrelación podría ser determinado a partir de las ponderaciones.
Los coeficientes de la multiplicación de matriz podrían ser determinados a partir de las ponderaciones estimadas. Los diferentes coeficientes podrían tener diferentes dependencias sobre la primera y segunda ponderaciones y la primera y segunda ponderaciones podrían afectar cada coeficiente, de manera diferente.
El mezclado ascendente podría ser específicamente realizado, sustancialmente como: en donde a es el factor de predicción, ß es el factor de escala de decorrelación, s es el mezclado descendente, s<¡ es una señal decorrelacionada generada por decodificador, wx y w2 son la primera y segunda ponderaciones de manera respectiva, y * denota la conjugación compleja. a y/o ß podrían ser determinados a partir de las ponderaciones estimadas y los datos paramétricos por ejemplo, sustancialmente como: De acuerdo con una característica opcional de la invención, el mezclador ascendente es colocado para determinar el primer estimado de ponderación al: determinar una primera medición de energía indicativa de la energía de una combinación alineada sin fase para la primera señal de canal y la segunda señal de canal en respuesta a los datos paramétricos de mezclado ascendente; determinar una segunda medición de energía indicativa de la energía de una combinación alineada de fase del primer canal y el segundo canal en respuesta a los datos paramétricos de mezclado ascendente; determinar una primera medición de la primera medición de energía con relación a la segunda medición de energía; determinar el primer estimado de ponderación en respuesta a la primera medición.
Esto podría proporcionar una determinación altamente ventajosa del primer estimado de ponderación. La característica podría proporcionar un rendimiento mejorado y/u operación facilitada.
La primera medición de energía podría ser una indicación de la energía de la suma de la primera señal de canal y la segunda señal de canal. La segunda medición de energía podría ser una indicación de la energía de la suma coherente de la primera señal de canal y la segunda señal de canal. La. primera medición podría representar una indicación del grado de la anulación de fase entre la primera señal de canal y la segunda señal de canal . La primera y/o segunda medición de energía podría ser cualquier indicación de la energía y podría referirse, de manera específica, a las mediciones normalizadas de energía, por ejemplo, con relación a la energía de la primera y/o la segunda señal de canal .
La primera medición podría determinarse por ejemplo, como la relación entre la primera medición de energía y la segunda medición de energía. Por ejemplo, la primera medición podría ser determinada sustancialmente como: iid + 1 + 2 · cos(ipd)- ice¦ üd r = iid + 1 + 2 - ice - sjiid primera ponderación podría determinarse como una función no lineal y/o monotónica de la primera medición. La segunda ponderación podría ser determinada por ejemplo, a partir de la primera ponderación, por ejemplo, de modo que la suma de la amplitud de las dos ponderaciones tenga un valor predeterminado. En algunas modalidades, la generación de la primera y/o segunda ponderación podría incluir la normalización de la energía del mezclado descendente. Por ejemplo, las ponderaciones podrían ser escaladas a fin de originar un mezclado descendente sustancialmente con la misma energía que la suma de la energía de la señal de canal izquierdo y la energía de la señal de canal derecho.
Las ponderaciones podrían ser generadas, de manera específica, sustancialmente como sigue: combinada con resulta en wi = 9i · c, w2 = g2 · c, en donde c es seleccionada para proporcionar la normalización deseada de energía.
El codificador podría realizar las mismas operaciones y la derivación de la primera ponderación (y posiblemente la segunda ponderación) como es descrito con referencia al codificador.
De acuerdo con una característica opcional de la invención, el mezclador ascendente es colocado para determinar el primer estimado de ponderación por: para cada uno de la pluralidad de pares de valores predeterminados de la primera ponderación y la segunda ponderación que determinan en respuesta a los datos paramétricos , la medición de energía indicativa de la energía de un mezclado descendente que corresponde con los pares de valores predeterminados; y determinar la primera ponderación en respuesta a las mediciones de energía y los pares de valores predeterminados .
Esto podría proporcionar una determinación altamente ventajosa del primer estimado de ponderación. La característica podría proporcionar el rendimiento mejorado y/u operación facilitada.
El decodificador podría asumir que el mezclado descendente es una combinación de una pluralidad de mezclados descendentes que utilizan ponderaciones fijas predeterminadas con la combinación que es dependiente de la energía de la señal de cada mezclado descendente. De esta manera, el primer estimado de ponderación (y/o el segundo estimado de ponderación) podría ser determinado de manera que corresponde con la combinación de las ponderaciones predeterminadas en donde la combinación de las ponderaciones predeterminadas individuales es determinada en respuesta a la energía estimada (o la potencia en forma equivalente) de cada uno de los mezclados descendentes. La energía estimada para cada mezclado descendente podría ser determinada en función de los datos paramétricos de mezclado ascendente.
De manera específica, el primer estimado de ponderación podría ser determinado combinando los pares de valores predeterminados con una ponderación de cada par de valores predeterminados que son dependientes de la medición de energía para el par de valores predeterminados.
La medición de energía para un par de valores predeterminados podría ser determinada, de manera específica, sustancialmente como: en donde m es un índice para el par de ponderaciones predeterminadas y M(m,k) representa la k ' th ponderación del m'th par de ponderaciones predeterminadas.
En algunas modalidades, podría ser introducida una derivación hacia uno o más de los pares de las ponderaciones. Por ejemplo, la medición de energía podría determinarse como: en donde b(m) es una función de derivación que podría introducir una derivación adicional para uno o más de los mezclados descendentes. La función de derivación podría ser una función de los datos paramétricos de mezclado ascendente .
De acuerdo con un aspecto de la invención se proporciona un codificador para la generación de una representación codificada de una señal de audio de múltiples canales que comprende al menos un primer canal y un segundo canal, el codificador comprende: un mezclador descendente que genera un mezclado descendente como una combinación al menos de una primera señal de canal del primer canal ponderado por medio de una primera ponderación y una segunda señal de canal del segundo canal ponderado por medio de una segunda ponderación, la primera ponderación y la segunda ponderación tienen diferentes amplitudes al menos para algunos intervalos de tiempo-frecuencia; un circuito que genera datos paramétricos de mezclado ascendente que caracterizan la relación entre la primera señal de canal y la segunda señal de canal, los datos paramétricos de mezclado ascendente además caracterizan la primera ponderación y la segunda ponderación; y un circuito que genera la representación codificada para incluir el mezclado descendente y los datos paramétricos de mezclado ascendente.
Esto podría proporcionar una codificación particularmente ventajosa que podría ser compatible con el decodificador descrito con anterioridad. Será apreciado que la mayoría de los comentarios proporcionados con referencia al decodificador se aplican igualmente al codificador según sea adecuado.
La primera y segunda ponderaciones no podrían ser incluidas en los datos paramétricos de mezclado ascendente o en su lugar no podrían ser comunicadas o distribuidas por el codificador. El mezclado descendente podría ser codificado de acuerdo con cualquier algoritmo adecuado de codificación.
De acuerdo con una característica opcional de la invención, el mezclador descendente es colocado para: determinar una primera medición de energía indicativa de la energía de una combinación alineada sin fase para la primera señal de canal y la segunda señal de canal; determinar una segunda medición de energía indicativa de la energía de una combinación alineada de fase de la primera señal de canal y la segunda señal de canal; determinar una primera medición de la primera medición de energía con relación a la segunda medición de energía; y determinar la primera ponderación y la segunda ponderación en respuesta a la primera medición.
Esto podría proporcionar una codificación particularmente ventajosa.
De acuerdo con una característica opcional de la invención, el mezclador descendente es colocado por: para cada uno de la pluralidad de pares de valores predeterminados de la primera ponderación y la segunda ponderación generar un mezclado descendente; para cada uno de los mezclados descendentes determinar la medición de energía indicativa de la energía del mezclado descendente; y generar el mezclado descendente combinando los mezclados descendentes en respuesta a las mediciones de energía.
Esto podría proporcionar una codificación particularmente ventajosa.
De acuerdo con un aspecto de la invención se proporciona un método de generación de una señal de audio de múltiples canales, el método comprende: recibir un mezclado descendente que es la combinación al menos de una primera señal de canal ponderada por medio de una primera ponderación y una segunda señal de canal ponderada por medio de una segunda ponderación, la primera ponderación y la segunda ponderación tienen diferentes amplitudes al menos para algunos intervalos de tiempo-frecuencia; recibir los datos paramétricos de mezclado ascendente que caracterizan la relación entre la primera señal de canal y la segunda señal de canal; generar un primer estimado de ponderación para la primera ponderación y un segundo estimado de ponderación para la segunda ponderación a partir de los datos paramétricos de mezclado ascendente; y generar la señal de audio de múltiples canales mediante el mezclado ascendente del mezclado descendente en respuesta a los datos paramétricos de mezclado ascendente, el primer estimado de ponderación y el segundo estimado de ponderación, el mezclado ascendente es dependiente de la amplitud por lo menos de uno del primer estimado de ponderación y el segundo, estimado de ponderación.
De acuerdo con un aspecto de la invención se proporciona un método de generación de una representación codificada de una señal de audio de múltiples canales que comprende al menos un primer canal y un segundo canal, el método comprende: generar un mezclado descendente como una combinación al menos de una primera señal de canal del primer canal ponderado por medio de una primera ponderación y una segunda señal de canal del segundo canal ponderado por medio de una segunda ponderación, la primera ponderación y la segunda ponderación tienen diferentes amplitudes al menos para algunos intervalos de tiempo-frecuencia; generar los datos paramétricos de mezclado ascendente que caracterizan la relación entre la primera señal de canal y la segunda señal de canal, los datos paramétricos de mezclado ascendente además caracterizan la primera ponderación y la segunda ponderación; y generar la representación codificada para incluir el mezclado descendente y los datos paramétricos de mezclado ascendente.
De acuerdo con un aspecto de la invención se proporciona un flujo de bits de audio para una señal de audio de múltiples canales que comprende un mezclado descendente que es una combinación al menos de una primera señal de canal ponderada por medio de una primera ponderación y una segunda señal de canal ponderada por medio de una segunda ponderación, la primera ponderación y la segunda ponderación tienen diferentes amplitudes al menos para algunos intervalos de tiempo-frecuencia; y los datos paramétricos de mezclado ascendente que caracterizan la relación entre la primera señal de canal y la segunda señal de canal, los datos paramétricos de mezclado ascendente además caracterizan la primera ponderación y la segunda ponderación. La primera y segunda ponderaciones no podrían ser incluidas en el flujo de bits .
Estos y otros aspectos, características y ventajas de la invención serán aparentes y aclarados con referencia a las modalidades descritas de aquí en adelante.
Breve Descripción de las Figuras Las modalidades de la invención serán descritas, solo por medio de ejemplo, con referencia a las figuras, en las cuales La Figura 1 es una ilustración de un sistema de distribución de audio de acuerdo con algunas modalidades de la invención; La Figura 2 es una ilustración de los elementos de un codificador de audio de acuerdo con algunas modalidades de la invención; La Figura 3 es una ilustración de los elementos de un codificador de audio de acuerdo con algunas modalidades de la invención; y La Figura 4 es una ilustración de los elementos de un decodificador de audio de acuerdo con algunas modalidades de la invención.
Descripción Detallada de la Invención La siguiente descripción se enfoca en las modalidades de la invención que son aplicables a la codificación y decodificación de una señal de múltiples canales con dos canales (es decir, una señal de estéreo) . De manera específica, la descripción se enfoca en el mezclado descendente de una señal de estéreo a un mezclado descendente mono y los parámetros asociados, y al mezclado ascendente asociado. Sin embargo, será apreciado que la invención no es limitada a esta aplicación, sino que podría ser aplicada a otros muchos sistemas de múltiples canales (que incluyen el canal estéreo) tal como por ejemplo, el envolvente MPEG y el estéreo paramétrico como en HE-AAC v2.
La Figura 1 ilustra un sistema de transmisión 100 para la comunicación de una señal de audio de acuerdo con algunas modalidades de la invención. El sistema de transmisión 100 comprende un transmisor 101 que es acoplado con un receptor 103 a través de una red 105 que de manera específica, podría ser la Internet.
En el ejemplo específico, el transmisor 101 es un dispositivo de grabación de señal y el receptor 103 es un dispositivo reproductor de señal, aunque será apreciado que en otras modalidades un transmisor y un receptor podrían ser utilizados en otras aplicaciones y para otros propósitos. Por ejemplo, el transmisor 101 y/o el receptor 103 podrían ser partes de una funcionalidad de transcodificación y podrían proporcionar como por ejemplo, la interconexión con otras fuentes o destinos de señal.
En el ejemplo específico en donde es soportada una función de grabación de señal, el transmisor 101 comprende un digitalizador 107 que recibe una señal analógica que es convertida en una señal digital de múltiples canales PCM (Modulada por impulsos Codificados) mediante el muestreo y la conversión de analógica-a-digital .
El digitalizador 107 es acoplado con el codificador 109 de la Figura 1 que codifica la señal PCM de múltiples canales de acuerdo con un algoritmo de codificación. El codificador 109 es acoplado con un transmisor de red 111 que recibe la señal codificada y se interconecta con la Internet 105. El transmisor de red podría trasmitir la señal codificada al receptor 103 a través de la Internet 105.
El receptor 103 comprende un receptor de red 113 que se interconecta con la Internet 105 y que es colocado para recibir la señal codificada del transmisor 101.
El receptor de red 113 es acoplado con un decodificador 115. El decodificador 115 recibe la señal codificada y la decodifica de acuerdo con un algoritmo de decodificación .
En el ejemplo específico en donde es soportada una función de reproducción de señal, el receptor 103 además comprende un reproductor de señal 117 que recibe la señal decodificada de audio del decodificador 115 y presenta esta al usuario. De manera específica, el reproductor de señal 117 podría comprender un convertidor de digital-a-analógica, amplificadores y altavoces que son requeridos para la salida de la señal decodificada de audio de múltiples canales.
La Figura 2 ilustra el codificador 109 en mayor detalle. Las señales recibidas izquierda y derecha primero son convertidas en el dominio de frecuencia. En el ejemplo específico, la señal derecha es alimentada a un primer convertidor de subbanda de frecuencia 201 que convierte la señal derecha en una pluralidad de subbandas de frecuencia. En forma similar, la señal izquierda es alimentada a un segundo convertidor de subbanda de frecuencia 203 que convierte la señal izquierda en una pluralidad de subbandas de frecuencia.
Las señales derecha e izquierda de subbanda son alimentadas a un procesador de mezclado descendente 205 que es colocado para generar un mezclado descendente de las señales de estéreo como será descrito en mayor detalle más adelante. En el ejemplo específico, el mezclado descendente es una señal mono que es generada combinando las subbandas individuales de las señales derecha e izquierda para generar una señal mono de mezclado descendente de subbanda de dominio de frecuencia. De esta manera, el mezclado descendente es realizado en una basé de subbanda. El procesador de mezclado descendente 205 es acoplado con un codificador de mezclado descendente 207 que recibe la señal mono de mezclado descendente y la codifica de acuerdo con un algoritmo adecuado de codificación. La señal mono de mezclado descendente transferida al codificador de mezclado descendente 207 podría ser una señal de subbanda de dominio de frecuencia o primero podría ser transformada de regreso al dominio de tiempo.
El codificador 109 además comprende un procesador de parámetro 209 que genera los datos paramétricos espaciales que pueden ser utilizados por el decodificador 115 para realizar el mezclado ascendente del mezclado descendente en una señal de múltiples canales.
De manera específica, el procesador de parámetro 209 podría agrupar las subbandas de frecuencia en las subbandas de Bark o ERB para las cuales son extraídos los puntos de referencia de estéreo. El procesador de parámetro 209 podría utilizar, de manera específica, un procedimiento estándar para generar los datos paramétricos. En particular, podrían ser utilizados los algoritmos conocidos a partir de las técnicas de Estéreo Paramétrica y Envolvente MPEG. De esta manera, el procesador de parámetro 209 podría generar los parámetros de Diferencia de Nivel Entre Canales (ILD) , de Coherencia/Correlación entre Canales (IC/ICC), de Diferencia de Fase entre Canales (IPD) o de Diferencia de Tiempo entre Canales (ITD) para cada subbanda de parámetro como será conocido por la persona experta.
El procesador de parámetro 209 y el codificador de mezclado descendente 207 son acoplados con un procesador de salida de datos 211 el cual multiplexa los datos codificados de mezclado descendente y los datos paramétricos para generar una señal codificada compacta de datos que podría ser, de manera específica, un flujo de bits.
La Figura 3 ilustra el principio de la generación de mezclado descendente del codificador 109 e ilustra las referencias que serán utilizadas en la siguiente descripción. Como es ilustrado, las señales de entrada izquierda (1) y derecha (r) son entradas, en forma separada, al primer y segundo convertidores de subbanda de frecuencia 201, 203. Las salidas son las señales de subbanda de frecuencia K llt ...,lK y G?, . , .,G?, de manera respectiva, las cuales son alimentadas al procesador de mezclado descendente 205. El procesador de mezclado descendente 205 genera el mezclado descendente (dj, ...,dK) a partir de las señales de subbanda izquierda y derecha {??, ., .,?? y rlf ...,rK) las cuales son alimentadas al codificador de mezclado descendente 207 para generar la señal de dominio de tiempo de mezclado descendente d que entonces podría ser codificada (en algunas modalidades, el mezclado descendente de subbanda es codificado en forma directa) .
En los sistemas convencionales, el mezclado descendente es realizado por una suma lineal de las señales izquierda y derecha en cada subbanda. En forma típica, el mezclado descendente pasivo es realizado simplemente al sumar o promediar la señal izquierda y la señal derecha. Sin embargo, este procedimiento conduce a problemas sustanciales cuando las señales izquierda y derecha se encuentran cerca de estar fuera de fase entre sí debido a que la señal resultante de suma será reducida, de manera sustancial, e incluso podría ser reducida a cero para señales completamente fuera de fase. En algunos sistemas convencionales, las señales sumadas podrían ser escaladas para originar una señal de mezclado descendente con una energía que corresponde con las señales de entrada. Sin embargo, esto podría ser problemático puesto que se vuelve más significativo el error relativo y la incertidumbre de la muestra generada de mezclado descendente para valores bajos. La normalización de energía no solo escalará el mezclado descendente sino que también ésta señal asociada de error. En su lugar, para señales completamente fuera de fase, la señal resultante de suma o promedio es cero y en consecuencia, no puede ser escalada.
En algunos sistemas la suma ponderada es utilizada en donde las ponderaciones no son simples valores de. unidad o escalares sino que además introducen un cambio de fase a las señales izquierda y derecha. Este procedimiento es utilizado para proporcionar la alineación de fase, de manera que la suma de las señales izquierda y derecha es realizada en fase, es decir, es utilizada para alinear en fase las señales para la suma coherente. Sin embargo, la generación de este mezclado descendente alineado de fase tiene un número de desventajas. En particular, tiende a ser una operación compleja y ambigua que podría originar una calidad reducida de audio.
Sin embargo, en contraste con estos procedimientos el mezclado descendente del sistema de las Figuras 1-3, es generado utilizando ponderaciones que no sólo podrían tener diferentes fases, sino que también podrían tener diferentes amplitudes. De esta manera, la amplitud de las ponderaciones para los dos canales al menos para algunas características de señal podría tener diferentes valores. De esta manera, en el mezclado descendente generado, es diferente la ponderación de los dos canales de estéreo.
Además, las ponderaciones aplicadas de subbanda para la combinación de la señal es izquierda y derecha de subbanda en una subbanda de mezclado descendente también son dependientes de la señal y varían como una función de las características de señal para las señales izquierda y derecha. De manera específica, en cada subbanda, las ponderaciones son determinadas en función de las características de señal en la subbanda. De esta manera, tanto la fase como la amplitud son dependientes de la señal y podrían variar. Por lo tanto, la amplitud de las ponderaciones será variable de tiempo.
De manera específica, las ponderaciones podrían ser modificadas, de manera que es introducida una derivación hacia diferentes amplitudes para las ponderaciones para las señales izquierda y derecha que cada vez más están fuera de fase entre sí. Por ejemplo, la diferencia de amplitud entre las ponderaciones podría ser dependiente sobre la medición de potencia cruzada para las señales izquierda y derecha. La medición de potencia cruzada podría ser una correlación cruzada de las señales izquierda y derecha. La medición de potencia cruzada podría ser una medición normalizada con relación a la energía al menos en uno de los canales derecho e izquierdo.
De esta manera, las ponderaciones, y de manera específica, tanto la fase como la amplitud, en el ejemplo específico, son dependientes de las mediciones de energía para la señal izquierda y la señal derecha, así como también, de la correlación entre estas (tal como por ejemplo, representadas por una medición de potencia cruzada) .
Las ponderaciones son determinadas a partir de las características de señal de las señales izquierda y derecha y de manera específica, podrían ser determinadas sin consideración de los datos paramétricos generados por el procesador de parámetro 209. Sin embargo, como será demostrado más adelante, los datos paramétricos generados también son dependientes de las energías de la señal y esto podría permitir que el decodificador recree las ponderaciones utilizadas en el mezclado descendente de los datos paramétricos. De esta manera, aunque son utilizadas ponderaciones variables con diferentes amplitudes, estas ponderaciones no necesitan ser explícitamente comunicadas al decodificador sino que pueden ser estimadas en función de los datos paramétricos recibidos. De esta manera, en contraste con las expectativas, no necesita ser comunicada la sobrecarga adicional de datos para soportar las ponderaciones con diferentes amplitudes.
Además, el uso de diferentes ponderaciones puede ser empleado para evitar o mitigar los problemas fuera de fase asociados con la suma fija convencional sin requerir la realización de la alineación de fase y de esta manera, se introducen las desventajas asociadas con la misma.
Por ejemplo, podría ser generada una medición indicativa de la potencia de una combinación alineada sin fase de las señales izquierda y derecha relativa a la potencia combinada de las señales izquierda y derecha. De manera específica, la potencia/energía de la señal de suma para las señales izquierda y derecha podría ser determinada y relacionada con la suma de la potencia/energía de la señal izquierda y la potencia/energía de la señal derecha. Un valor más alto de esta medición indicará que las señales izquierda y derecha no están fuera de fase y en consecuencia, que las ponderaciones simétricas (incluso la energía) podrían ser utilizadas para el mezclado descendente. Sin embargo, para las señales cada vez más fuera de fase, la primera potencia (que es la señal de suma) se reduce hacia cero y de esta manera, un valor más bajo de la medición indicará que las señales izquierda y derecha están cada vez más fuera de fase y que en consecuencia, una simple suma no será ventajosa como un señal de mezclado descendente. En consecuencia, las ponderaciones podrían ser cada vez más asimétricas originando una contribución mayor de un canal al otro en el mezclado descendente con lo cual, se reduce la anulación de una señal por la otra. En su lugar, para las señales fuera de fase, el mezclado descendente podría ser determinado, por ejemplo, simplemente como una de las señales izquierda y derecha, es decir, la energía de una ponderación podría ser cero.
Como un ejemplo específico, una medición, r, que refleja la relación entre la energía de la suma de las señales izquierda y derecha y las señales izquierda y derecha alineadas de fase (es decir, la energía siguiente coherente en adición de fase de las señales izquierda y derecha) puede ser determinada : en donde ipd es la diferencia de fase entre las señales izquierda y derecha (que también es uno de los parámetros determinados por el procesador de parámetro 209) , <> denota el producto interior y E{ . } es el operador de expectativa.
El valor relativo por encima es generado de esta manera para reflejar la relación relativa entre la medición de energía para la suma de las señales izquierda y derecha y la medición de energía indicativa de la energía de la combinación alineada de fase de las señales izquierda y derecha. Las ponderaciones son entonces determinadas a partir de este valor relativo.
La relación r es indicativa de la cantidad en la que las dos señales se encuentran fuera de fase. En particular, para señales completamente fuera de fase, la relación es igual a 0 y para señales completamente en fase la relación es igual a 1. De esta manera, la relación proporciona una medición normalizada ([0,1]) de cuanta reducción de energía ocurre debido a las diferencias de fase entre los canales izquierdo y derecho.
Puede mostrarse que: en donde ?? y Er son las energías de las señales izquierda y derecha y E¿r es la correlación cruzada entre las señales izquierda y derecha.
Entonces, utilizando: en donde iid es la diferencia de intensidad entre canales e ice es la coherencia entre canales, esto puede ser mostrado que conduce a: _ iid + 1 + 2 · cos(ipd ) · ice · üd iid + 1 + 2 · z'cc ·V^¿ De esta manera, como es ilustrado, la medición r que es indicativa de cuanto las señales se encuentran fuera de fase, puede ser derivada de los datos paramétricos y de esta manera, puede ser determinada por el decodificador 115 sin requerir que sean comunicados algunos datos adicionales.
La relación podría ser utilizada para generar las ponderaciones para las señales de mezclado descendente. De manera específica, la señal de mezclado descendente podría ser generada en cada subbanda como: d (n) = w (n) + w2r{n) .
Las ponderaciones podrían ser generadas a partir de la relación r, de manera que la asimetría (diferencia de energía) se incrementa a medida que r se aproxima a cero. Por ejemplo, un valor intermedio podría ser generado como: g = 1'4, Utilizando el valor intermedio g, dos ganancias son calculadas como: 91 = 2 - q, 92 = g- Las ponderaciones pueden ser entonces determinadas por una normalización opcional de energía: wi = gi · c, en donde c es elegida para proporcionar la normalización deseada. De manera específica, c podría ser seleccionada, de manera que la energía del mezclado descendente resultante es igual a la potencia de la señal izquierda más la potencia de la señal derecha.
Como otro ejemplo, el valor intermedio podría ser generado como : 0 r<0.5 r-0.5 q = 0.5<r<0.75, 0.75-0.5 1 r > 0.75 Lo cual tenderá a proporcionar ponderaciones que son constantes (ya sea completamente simétricas o completamente asimétricas) para el incremento en la variedad de las condiciones de señal.
De esta manera, el codificador 109 podría emplear en esta modalidad un mezclado descendente flexible y dinámico en donde las ponderaciones son automáticamente adaptadas a las condiciones específicas de señal, de manera que las desventajas asociadas con el mezclado descendente fijo o alineado de fase pueden ser evitadas o mitigadas. En su lugar, el procedimiento podría adaptarse, gradual y automáticamente, a partir de un mezclado descendente completamente simétrico que trata ambos canales igualmente que un mezclado descendente completamente asimétrico en donde un canal es completamente ignorado. Esta adaptación podría permitir que el mezclado descendente proporcione una señal mejorada en la cual se basa el mezclado ascendente, mientras que al mismo tiempo se genera una señal de mezclado descendente que puede ser directamente utilizada (es decir, puede ser utilizada como una señal -mono) . Además, el ejemplo descrito proporciona una transición muy gradual y suave de la diferencia de energía, con lo cual, se proporciona una experiencia mejorada de escucha.
Asimismo, como será demostrado más adelante, este rendimiento mejorado puede ser conseguido sin requerir que ningunos datos adicionales sean distribuidos para proporcionar información de las ponderaciones seleccionadas. De manera específica, como es demostrado con anterioridad, las ponderaciones pueden ser determinadas a partir de los datos paramétricos transmitidos y, como será demostrado más adelante, los procedimientos convencionales para el mezclado ascendente basados en suposiciones de las mismas ponderaciones de mezclado descendente pueden ser modificados y extendidos para permitir el mezclado descendente para ponderaciones con diferentes energías (o amplitudes o potencias equivalentemente diferentes) .
A continuación, será descrito otro ejemplo de un procedimiento de codificación que utiliza diferentes ponderaciones de mezclado descendente. En algunos escenarios, el mezclado descendente podría ser creado sin la utilización de los datos paramétricos . En otros escenarios o modalidades, los datos paramétricos también podrían ser utilizados en el codificador para determinar las ponderaciones. El procedimiento está basado en la determinación de una pluralidad de mezclados descendentes intermedios que utilizan ponderaciones predeterminadas (las cuales, de manera específica, podrían ser simétricas de energía, es decir, podrían tener la misma energía y por ejemplo, sólo podrían introducir un cambio de fase) . Los mezclados descendentes intermedios son entonces combinados en un mezclado descendente único en donde cada uno de los mezclados descendentes intermedios es ponderado en función de la energía del mezclado descendente intermedio. De esta manera, los mezclados descendentes intermedios que tienen una baja energía debido a que son originados de la combinación de señales sustancialmente fuera de fase son ponderados más bajos que los mezclados descendentes intermedios que tienen una alta energía debido a que se originan a partir de combinaciones más coherentes. Entonces, el mezclado descendente resultante podría ser normalizado de energía con relación a las señales de entrada.
En mayor detalle, el conjunto de diferentes mezclados descendentes de subbanda a priori (intermedios) dpk,p = \,...,P es generado como: dp,k{n) = wPtllk(n)+wPt2rk En forma típica, el número de mezclados descendentes intermedios puede mantenerse bajo, con lo cual, se originan requerimientos de baja complejidad y de computación reducida. En particular, el número de mezclados descendentes intermedios de s b-banda es diez o menos y ha sido encontrado particularmente ventajoso el intercambio entre la complejidad y el rendimiento para cuatro mezclados descendentes intermedios.
En el ejemplo específico cuatro mezclados descendentes intermedios (P = 4) a priori (determinados y fijos) son utilizados con las ponderaciones específicas: con j = V17!, q =(l+ j)/V2 * <5ue denota la conjugación. Las ponderaciones también podrían ser expresadas en forma de matriz: Estos mezclados descendentes a priori corresponden con los mezclados descendentes óptimos para los casos en que las señales izquierda y derecha son iguales en amplitud y de 0, 90, 180 u 270 grados fuera de fase. En forma alterna, puede ser utilizado un conjunto de sólo dos mezclados descendentes a-priori, por ejemplo, p = 1 y p = 4.
A continuación, las energías EPik (n) de cada una de estas opciones son determinadas por con w que es una ventana opcional centrada alrededor de un índice simple n. Los mezclados descendentes de subbanda son combinados para formar un nuevo mezclado descendente de subbanda en donde las ponderaciones aPik son determinadas a partir de la intensidad relativa de los mezclados descendentes. De esta manera, los diferentes mezclados intermedios son combinados en un mezclado descendente único mediante la ponderación de cada uno de ellos de acuerdo con su intensidad relativa.
La intensidad relativa puede estar basada en la energía tal como por ejemplo, en donde £ es una constante positiva pequeña que evita la división entre cero. Otras mediciones, tales como las mediciones de envolvente, obviamente, también pueden ser utilizadas .
El mezclado descendente final dk es generado a partir de por una normalización de energía. De manera específica, la energía de puede ser determinada y puede ser realizada la escala requerida con el propósito de ajustar esta para que sea igual a la de la suma de las energías de la señal izquierda y derecha.
Como un ejemplo específico, para cada mezclado descendente la relación de energía de suma derivada puede ser calculada como: en donde b(m) es una función de derivación que podría introducir una derivación adicional al mezclado descendente por omisión, de acuerdo con: Entonces, dos ganancias son calculadas como: Si =?rm M{m,0), Vm y las ponderaciones finales son determinadas por una normalización de energía: wi = gi · c, w2 = g2 · c, en donde c es seleccionada, de manera que la energía del mezclado descendente resultante es igual a la potencia del canal izquierdo más la potencia del canal derecho.
Debe observarse que estos procedimientos permiten que las ponderaciones sean generadas por el decodificador 115 utilizando los datos paramétricos recibidos y no requieren que alguna información adicional sea trasmitida.
El procedimiento descrito evita o mitiga las desventajas del mezclado descendente, tanto pasivo como activo (fijo) asociadas con las señales fuera de fase sin tener que utilizar la alineación de fase y las desventajas asociadas .
Una ventaja del procedimiento descrito es que la combinación lineal de una pluralidad de diferentes mezclados descendentes intermedios proporciona una robustez adicional debido a que es probable que los problemas fuera de fase sean restringidos sólo a uno o posiblemente dos de los mezclados descendentes. Además, utilizando solo cuatro mezclados descendentes intermedios, puede conseguirse una demanda de recursos eficiente y de baja computación.
También es provechoso observar que, finalmente, la señal de mezclado descendente dk es sólo una combinación lineal de las señales izquierda y derecha, es decir, ¾(«) = k.Jk(n)+ k,2rk(n)> en donde cada fik,ji i = 1/ 2 depende de EP/k y la wPr.q elegida .
También es provechoso observar que EPik depende de las energías de las señales izquierda y derecha y la energía cruzada. En particular, puede mostrarse que: EP,k =EI +E2+2CR{wp pE}, en donde 9?{ . } denota la parte real de un número complejo. Esto permite un esquema computacionalmente más simple debido a que las energías del mezclado descendente intermedio no necesitan ser medidas y en su lugar, los mezclados descendentes intermedios no necesitan ser explícitamente generados. Más bien, los valores oiPik pueden ser derivados de las ponderaciones de mezclado descendente seleccionadas a priori wPrq y la energía EPik en donde las últimas siguen directamente a partir de las energías medidas y la energía cruzada de las señales originales como es indicado con anterioridad.
En consecuencia, ß^,? sigue a partir de la WPIÍ elegida y las energías medidas y la energía cruzada debido a que Asimismo, la compensación de energía sigue fácilmente a partir de las energías de entrada y el conocimiento de ß?,?· El procedimiento descrito podría ser menos eficiente para escenarios en donde es baja la correlación entre las señales izquierda y derecha, o cuando las energías de la señal izquierda y derecha son sustancialmente diferentes. Sin embargo, en estos casos, es proporcionado un buen mezclado descendente a través de la suma simple de la señal izquierda y derecha .
Esta consideración puede ser utilizada para modificar el procedimiento como sigue. En primer lugar, el índice de modulación µ es definido como El+E2 en donde Elt E2 y ?2 son las energías de la señal izquierda, la señal derecha y la energía cruzada, ' de manera respectiva. Se observa que 0 < µ = 1.
El cálculo de o¡ ahora puede ser adaptado para preferir el mezclado descendente p = 1 (suponiendo que éste corresponde con la señal intermedia como en nuestro ejemplo) si µ es bajo por instancia Esto conduce a la creación de un mezclado descendente que tiene una robustez numérica y que también todavía incluye componentes fuera de fase en el mezclado descendente.
Una vez más, debe observarse que la generación de mezclado descendente que utiliza los mezclados descendentes fijos intermedios es en función de los parámetros de mezclado descendente los cuales en su lugar son dependientes de la señal. Sin embargo, la dependencia de las ponderaciones resultantes de mezclado descendente resultante sólo dependen de las energías ¾, E2 y la energía cruzada E12. Puesto que éste también es el caso para los datos de parámetro (por ejemplo, ILD, IPD e IC generadas) es posible que el decodificador 115 derive de las ponderaciones aplicadas de los datos paramétricos transmitidos. De manera específica, las ponderaciones pueden ser encontradas por el decodificador evaluando las mismas funciones que se describen con anterioridad con referencia al codificador 109.
En mayor detalle, la ponderación para una señal dada de mezclado descendente puede ser encontrada a partir de los parámetros considerando primero µ como: _ l^l _ icc- üd E + E2 iid + 1 Entonces, utilizando la siguiente relación, ocP k (n) puede ser calculada para toda p: e + + 1 + 29t{wp !w* 2 · ice · üd¦ exp ¦ ipd)} A partir de esta S¿ ¿, sigue como En lo anterior, han sido descritos varios procedimientos de codificador, los cuales aplican una variación dinámica dependiente de la señal de las ponderaciones de mezclado descendente (que incluyen variaciones de amplitud) para proporcionar una señal de mezclado descendente más robusta y mejorada. Los procedimientos utilizan, de manera específica, ponderaciones asimétricas (con amplitudes potencialmente diferentes) para mejorar el rendimiento. Además, como ha sido demostrado, las ponderaciones de mezclado descendente pueden ser derivadas de las ponderaciones y de esta manera, pueden ser determinadas por el decodificador, con lo cual, se permite que una operación de decodificador realice el mezclado ascendente en función de la suposición de un procedimiento de codificador que utiliza diferentes energías para las ponderaciones. Este mezclado ascendente solo está basado en el mezclado descendente y los parámetros espaciales y no requiere ninguna información adicional. De esta manera, la operación de decodificador ha sido modificada para tomar en cuenta las ponderaciones que tienen diferentes amplitudes, y de esta manera, no está basada en la suposición de las mismas ponderaciones de mezclado descendente de amplitud como los decodificadores convencionales. A continuación, serán descritos diferentes ejemplos de estos decodificadores , y será demostrado que no sólo los procedimientos de mezclado ascendente pueden ser modificados para operar con ponderaciones de mezclado descendente de amplitud asimétrica sino además esto puede ser conseguido en función de los datos paramétricos existentes y sin requerir que sean comunicados datos adicionales.
La Figura 4 ilustra un ejemplo de un decodificador de acuerdo con algunas modalidades de la invención.
El decodificador comprende un receptor 401 que recibe el flujo de datos del codificador 109. El receptor 401 es acoplado con un procesador de parámetro 403 que recibe los datos paramétricos del flujo de datos. De esta manera, el procesador de parámetro 403 recibe los valores IID, IPD e ICC del flujo de datos.
El receptor 401 además es acoplado con un decodificador de mezclado descendente 405 que decodifica la señal codificada recibida de mezclado descendente. El decodificador de mezclado descendente 405 realiza la función inversa del codificador de mezclado descendente 207 del codificador 109 y de esta manera, genera una señal decodificada de subbanda de dominio de frecuencia (o una señal de dominio de tiempo que posteriormente es convertida en una señal de subbanda de dominio de frecuencia) .
El decodificador de mezclado descendente 405 además es acoplado con un procesador de mezclado ascendente 407 el cual también es acoplado con el procesador de parámetro 403. El procesador de mezclado ascendente 407 realiza el mezclado ascendente de la señal de mezclado descendente para generar una señal de múltiples canales (la cual en el ejemplo específico es una señal de estéreo) . En el ejemplo específico el mezclado descendente mono es mezclado hacia arriba con los canales izquierdo y derecho de una señal de estéreo. El mezclado ascendente es realizado en función de los datos paramétricos y los estimados determinados de las ponderaciones de enlace descendente que podrían generarse a partir de los datos paramétricos. El canal de estéreo de mezclado ascendente es alimentado a un circuito de salida 409 el cual en el ejemplo específico podría incluir una conversión del dominio de subbanda de frecuencia al dominio de tiempo. El circuito de salida 409 podría incluir, de manera específica, una transformada inversa QMF o FFT.
En el decodificador de la Figura 4, el procesador de parámetro 403 es acoplado con un procesador de ponderación 411 el cual además es acoplado con el procesador de mezclado ascendente. El procesador de ponderación 411 es colocado para estimar las ponderaciones de mezclado descendente de los datos paramétricos recibidos. Esta determinación no es limitada a la suposición de ponderaciones iguales. Más bien, mientras que el decodificador 115 no podría conocer necesariamente con exactitud cuáles ponderaciones de mezclado descendente han sido aplicadas en. el codificador 109, la decodificación está basada en el uso de ponderaciones potencialmente asimétricas con una diferencia (amplitud) entre las ponderaciones. De esta manera, los parámetros recibidos son utilizados para determinarla energía/amplitud y/o ángulo de las ponderaciones. En particular, la determinación de las ponderaciones es realizada en respuesta a los parámetros indicativos de las relaciones de energía entre los canales. De manera específica, la determinación no es limitada al valor de fase de la IPD sino que es en respuesta los valores IID y/o ICC.
La determinación de las ponderaciones aplicadas utiliza, de manera específica, el mismo procedimiento como se describió con anterioridad para el codificador 115. De esta manera, podrían ser realizados los mismos cálculos como se describió con anterioridad para el codificador 109 por el procesador de ponderación 411 para originar las ponderaciones Wi y w2 que habrán sido utilizadas (o se supone que serán) por el correspondiente codificador 109.
El mezclado ascendente realizado por decodificadores convencionales está basado en la suposición que las ponderaciones aplicadas son idénticas para los dos canales o que sólo difieren por un valor de fase. Sin embargo, en el decodificador 115 de la Figura 4 el mezclado ascendente también toma en cuenta la diferencia de amplitud entre las ponderaciones y es modificada, de manera específica, de modo que las actuales ponderaciones estimadas WÍ y w2 del procesador de parámetro 403 son utilizadas para modificar el mezclado ascendente. De esta manera, los procedimientos convencionales de mezclado ascendente han sido modificados además para considerar la variación dinámica de las ponderaciones dependientes de la señal para las cuales son calculados los estimados a partir de los datos paramétricos recibidos.
A continuación, serán presentados ejemplos específicos de algoritmos de mezclado ascendente que han sido extendidos para acomodar ponderaciones con diferentes energías .
Los métodos de mezclado ascendente que utilizan una diferencia total de fase indicativa del cambio absoluto de fase (promedio) de los canales izquierdo y derecho de subbanda con relación a una referencia fija (en forma típica, el canal izquierdo) son conocidos.
De manera específica, el estándar de estéreo paramétrico utiliza el siguiente mezclado ascendente: / c ¦ cos(a + ß )· eJopi c,¦ sin (a + ß )· eJopá s r ¦ cos(-a + ß )· ei(opd-ipd) c2 · sin(-oc + ß )¦ eÁopá-ipá) en donde s es el mezclado descendente mono recibido y Sd es una señal decorrelacionada que es generada por el decodificador como será conocido por la persona experta, c2 y C2 son ganancias que garantizan las diferencias correctas de nivel entre las señales izquierda y derecha De manera específica, clt c2, a y ß podrían ser determinados como: 1 + iid arccos(í'cc C~i Ci ß = arctan tan(oc) Esta ecuación todavía es válida para el escenario en donde las ponderaciones wi y w2 tienen diferentes energías si el valor OPD es adecuadamente modificado. De esta manera, ninguna modificación de la ecuación anterior es necesaria para la decodificación de las señales que permiten las diferencias energía entre las ponderaciones. Esto es debido a que la matriz de mezclado ascendente siempre reinstala los puntos de referencia espaciales correctos (IID, ICC, IPD) independiente de la OPD . La OPD puede observarse como un grado adicional de libertad.
OPD es definida como el ángulo entre el cana izquierdo y la señal de suma, ss es generada sumando señales izquierda y derecha: z{(l, w l + w2 - r)} z{(l, wx - l) + (l, w2 - r 4^(U) + w¡(l,r)} Además , w'(l,l)+ w2'(l,r) = (w]r -jw)-Pu + {w2r -jwv)-Plr = wlr · Pu + w2r¦ wr + q2¡¦ w¡ -j¦ (wu · Pu - w2r¦ P + w2¡¦ P*)' en donde P es la potencia de la señal izquierda, y Pir es la potencia cruzada o la correlación cruzada de las señales izquierda y derecha.
De esta manera: en donde Prr es la potencia de la señal derecha.
De esta manera, las ponderaciones w y w2 primero podrían ser determinadas por el procesador de ponderación 411 en función de los datos paramétricos como es descrito con anterioridad, y las ponderaciones estimadas podrían entonces ser utilizadas juntas con los datos paramétricos para generar un valor total de fase que toma en cuenta la ponderación potencialmente asimétrica (es decir, la diferencia entre las ponderaciones que incluyen la asimetría de amplitud) . Entonces, el valor total de fase generado podría ser utilizado para generar la señal mezclada hacia arriba a partir de la señal de mezclado descendente y la señal correlacionada .
En algunas modalidades, el valor OPD podría ser generado de acuerdo con la suposición que los canales son correlacionados, es decir, que el parámetro icc tiene un valor de unidad. Esto conduce al siguiente valor OPD opd = De esta manera, el decodificador podría generar una señal mezclada hacia arriba que no experimenta tantas de las desventajas típicas asociadas, de los procedimientos de mezclado descendente de suma fija o de la alineación de fase. Además, esto es conseguido sin requerir que sean enviados datos adicionales.
Como otro ejemplo, el mezclado ascendente podría estar basado en la predicción de la señal decorrelacionada de la señal de mezclado descendente. El mezclado descendente es generado como S = Wx ¦ l + w2 · r , en donde ambos de wi y w2 podrían ser complejos. Entonces, una señal auxiliar podría ser construida utilizando una rotación compleja de escala que origina una matriz de mezclado descendente total de: De esta manera, la señal d representa la señal de diferencia para las señales izquierda y derecha. La matriz teórica resultante de mezclado ascendente puede ser determinada como: La señal de diferencia podría ser expresada por un componente predecible que puede ser previsto a partir de las señales de mezclado descendente y un componente no predecible que es decorrelacionado con las señales de mezclado descendente. De esta manera, d puede expresarse como: d = ce · s + ß · s'd , en donde Sd es una señal de suma decorrelacionada generada por un decodificador, a es un factor complejo de predicción, y ß es un factor de escala de decorrelación (real-valuado) . Esto conduce a: De esta manera, con la condición que el factor de predicción a y el factor de escala de decorrelación ß puedan ser determinados, el mezclado ascendente podría ser generado por este procedimiento.
En la ecuación anterior para la generación de la señal de diferencia, el segundo término de ß ¦ s<¡ representa la parte de la señal de diferencia que no puede ser prevista a partir de las señales de mezclado descendente. Con el propósito de mantener una baja velocidad de datos, este componente de señal residual no es típicamente comunicado al decodificador y por lo tanto, el mezclado ascendente está basado en la señal decorrelacionada localmente generada y el factor de escala de decorrelación.
Sin embargo, en algunos casos, la señal residual ß · es codificada como una señal dres y es comunicada al decodificador . En estos casos, la señal de diferencia podría ser dada como: d =a · s + dres , que conduce a : Además, tanto el factor de predicción a como el factor de escala de decorrelación ß pueden ser determinados a partir de los datos paramétricos recibidos: De esta manera, el procedimiento basado en la predicción permite que sea realizado el mezclado ascendente, el cual está basado en la suposición de que las ponderaciones de energía asimétrica son utilizadas para el mezclado descendente. Además, el proceso de mezclado ascendente es controlado por los datos paramétricos y ninguna información adicional necesita ser transmitida a partir del codificador.
En mayor detalle, el factor complejo de predicción a y el factor de escala de decorrelación ß pueden ser derivados a partir de las siguientes consideraciones.
En primer lugar, el parámetro de predicción a es dado como: en donde (a'^) ~?ak ' ¦ . Esto conduce a d,s) a (s,s) Entonces, utilizando la definición de parámetro: esto produce: (l - iid) · w2* ¦ w* - ice¦ Jüd · (w2 · w2 · expíj · ipd) - w* · w* · exp(- j¦ ipd )) w |2 · iid + + 2 · zcc · -Jtid¦ · w2* · exp( / · 1 factor de escala de decorrelación ß es dado como Utilizando la suposición que la potencia de la señal decorrelacionada coincide con la potencia de la señal de suma .
A partir de lo cual continúa Los ejemplos previos han descrito un sistema que permite ponderaciones variables y asimétricas (que incluyen la asimetría de amplitud entre las ponderaciones) que serán utilizadas con un sistema de mezclado descendente/mezclado ascendente sin requerir que sean comunicados parámetros adicionales. Más bien, las ponderaciones y la operación de mezclado ascendente pueden estar en función de los datos paramétricos .
Este procedimiento es particularmente ventajoso cuando las subbandas utilizadas para el mezclado descendente y el mezclado ascendente corresponden de una manera estrecha con las bandas de análisis para las cuales son calculados los parámetros .
A menudo este podría ser el caso para frecuencias más bajas en donde las subbandas de mezclado descendente y las bandas de frecuencia de análisis paramétrico tienden a coincidir. Sin embargo, en algunas modalidades podría ser ventajoso por ejemplo, tener subbandas de mezclado descendente que tengan una frecuencia más fina y/o cuantificación de tiempo que las bandas de frecuencia de análisis puesto que esto podría originar en algunos escenarios una calidad mejorada de audio. De manera particular, éste podría ser el caso para las frecuencias más altas .
De esta manera, en intervalos de frecuencia más alta, podría diferir la correlación entre la subbandas del mezclado descendente y el análisis de parámetro. Puesto que las ponderaciones podrían ser diferentes para las subbandas individuales de mezclado descendente, la correlación entre los datos paramétricos y las ponderaciones individuales para cada subbanda podría ser menos precisa. Sin embargo, los datos paramétricos podrían ser típicamente utilizados para generar un estimado más burdo de las ponderaciones de mezclado descendente, y en forma típica, será aceptable la degradación asociada de la calidad.
De manera específica, en algunas modalidades, el codificador podría evaluar la diferencia entre las actuales ponderaciones de mezclado descendente utilizadas en cada subbanda y aquellas que pueden ser calculadas en función de los datos paramétricos de la banda más ancha de análisis. Si la discrepancia se vuelve muy grande, el codificador podría incluir una indicación de esto. De esta manera, el codificador podría incluir una indicación de si los datos paramétricos deben ser utilizados para generar las ponderaciones al menos para un intervalo de frecuencia-tiempo (por ejemplo, para una subbanda de mezclado descendente de un segmento) . Si la indicación es que los datos paramétricos no deben ser utilizados, el codificador podría utilizar en su lugar otro procedimiento, tal como por ejemplo, en función del mezclado ascendente suponiendo que el mezclado descendente es una suma simple.
En algunas modalidades, el codificador además podría ser colocado para incluir una indicación de las ponderaciones de mezclado descendente utilizadas para las subbandas para las cuales la indicación de precisión indica que los datos paramétricos son insuficientes para estimar las ponderaciones. En estas modalidades, el decodificador 115 podría extraer de esta manera, en forma directa, estas ponderaciones y aplicarlas a las subbandas adecuadas. Las ponderaciones podrían ser comunicadas como valores absolutos o por ejemplo, podrían ser comunicadas como valores relativos tales como por ejemplo, la diferencia entre las ponderaciones actuales y aquellas que son calculadas utilizando los datos paramétricos .
Será apreciado que la descripción anterior por motivos de claridad ha descrito las modalidades de la invención con referencia a los diferentes circuitos, unidades y procesadores funcionales. Sin embargo, será apreciado que cualquier distribución adecuada de funcionalidad entre diferentes circuitos, unidades o procesadores funcionales podría ser utilizada sin apartarse de la invención. Por ejemplo, . la f ncionalidad ilustrada que será realizada a través de procesadores o controladores separados podría realizarse a través del mismo procesador o controladores. Por lo tanto, las referencias a las unidades o circuitos funcionales específicos solo serán observadas como referencia para medios adecuados que proporcionen la funcionalidad descrita más que indicativa de una estructura u organización lógica o física estricta.
La invención puede ser implementada en cualquier forma adecuada que incluya hardware, software, firmware o cualquier combinación de estos. La invención podría ser implementada, de manera opcional, al menos en forma parcial como un software de computadora que se ejecuta en uno o más procesadores de datos y/o procesadores de señal digital. Los elementos y componentes de una modalidad de la invención podrían ser implementados, en forma física, funcional y lógica en cualquier modo adecuado. En su lugar, la funcionalidad pudiera ser implementada en una unidad única, en una pluralidad de unidades como parte de otras unidades funcionales. Como tal, la invención podría ser implementada en una unidad única o podría ser distribuida, física y funcionalmente, entre diferentes unidades, circuitos y procesadores.
Aunque la presente invención ha sido descrita en conexión con algunas modalidades, no se pretende que sea limitada a la forma específica señalada en la presente. Más bien, el alcance de la presente invención sólo es limitado por las reivindicaciones que la acompañan. De manera adicional, aunque una característica podría parecer que es descrita en conexión con modalidades particulares, una persona experta en la técnica podría reconocer que varias características de las modalidades descritas podrían ser combinadas de acuerdo con la invención. En las reivindicaciones, el término 'que comprende' no excluye la presencia de otros elementos o etapas .
Además, aunque son enlistados en forma individual, una pluralidad de medios, elementos, circuitos o etapas de método podrían ser implementados por ejemplo, por medio de un circuito, unidad o procesador único. De manera adicional, aunque podrían ser incluidas características individuales en diferentes reivindicaciones, estas podrían ser posiblemente combinadas, en forma ventajosa, y la inclusión en diferentes reivindicaciones no implica que la combinación de características no sea factible y/o ventajosa. Asimismo, la inclusión de una característica en una categoría de reivindicaciones no implica una limitación para esta categoría sino más bien, indica que la característica es igualmente aplicable a otras características de reivindicación según sea adecuado .
Además, el orden de las características en las reivindicaciones no implica algún orden específico en el cual las características deben ser trabajadas y en particular, el orden de las etapas individuales en una reivindicación de método no implica que las etapas tengan que ser realizadas en este orden. Más bien, las etapas podrían ser realizadas en cualquier orden adecuado. Además, las referencias de singular no excluyen una pluralidad. De esta manera, las referencias a "una", "un", "primero", "segundo", etc., no impiden una pluralidad. Los signos de referencia en las reivindicaciones son proporcionados simplemente como un ejemplo aclaratorio que no debe ser interpretado como limitante para el alcance de las reivindicaciones en modo alguno.
Se hace constar que con relación a esta fecha el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención.

Claims (17)

REIVINDICACIONES Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes reivindicaciones:
1. Un decodificador para la generación de una señal de audio de múltiples canales, caracterizado porque comprende : un primer receptor que recibe un mezclado descendente que es una combinación al menos de una primera señal de canal ponderada por medio de una primera ponderación y una segunda señal de canal ponderada por medio de una segunda ponderación, la primera ponderación y la segunda ponderación tienen diferentes amplitudes al menos para algunos intervalos de tiempo-frecuencia; un segundo receptor que recibe datos paramétricos de mezclado ascendente que caracterizan la relación entre la primera señal de canal y la segunda señal de canal; un circuito que genera un primer estimado de ponderación para la primera ponderación y un segundo estimado de ponderación para la segunda ponderación a partir de los datos paramétricos de mezclado ascendente; y un mezclador ascendente que genera la señal de audio de múltiples canales mediante el mezclado ascendente del mezclado descendente en respuesta a los datos paramétricos de mezclado ascendente, el primer estimado de ponderación y el segundo estimado de ponderación, el mezclado ascendente es dependiente de la amplitud por lo menos de uno del primer estimado de ponderación y el segundo estimado de ponderación.
2. El decodificador de conformidad con la reivindicación 1, caracterizado porque el circuito es colocado para generar el primer estimado de ponderación y el segundo estimado de ponderación con diferentes relaciones al menos con algunos parámetros de los datos paramétricos por lo menos para algunos intervalos de tiempo-frecuencia .
3. El decodificador de conformidad con la reivindicación 2, caracterizado porque el mezclador ascendente es colocado para determinar al menos uno del primer estimado de ponderación y el segundo estimado de ponderación como una función de un parámetro de energía de los datos paramétricos de mezclado ascendente, el parámetro de energía es indicativo de la característica de energía relativa para la primera señal de canal y la segunda señal de canal .
4. El decodificador de conformidad con la reivindicación 3, caracterizado porque el parámetro de energía es al menos uno de: un parámetro de Diferencia de Intensidad entre Canales, IID; un parámetro de Nivel de Intensidad entre Canales, ILD; y un parámetro de Coherencia/Correlación entre Canales, IC/ICC.
5. El decodificador de conformidad con la reivindicación 1, caracterizado porque los datos paramétricos de mezclado ascendente comprenden una indicación de precisión para la relación entre la primera ponderación y la segunda ponderación y los datos paramétricos de mezclado ascendente, y el decodificador es colocado para generar al menos uno del primer estimado de ponderación y el segundo estimado de ponderación en respuesta a la indicación de precisión.
6. El decodificador de conformidad . con la reivindicación 1, caracterizado porque al menos una de la primera ponderación y la segunda ponderación por lo menos para un intervalo de frecuencia tiene una resolución de frecuencia-temporal más fina que el parámetro correspondiente de los datos paramétricos de mezclado ascendente.
7. El decodificador de conformidad con la reivindicación 1, caracterizado porque el mezclador ascendente es colocado para generar un valor de Diferencia de Fase Total en respuesta a los datos paramétricos y para realizar el mezclado ascendente en respuesta al valor de Diferencia de Fase Total, el valor de Diferencia de Fase Total es dependiente del primer estimado de ponderación y el segundo estimado de ponderación.
8. El decodificador de conformidad con la reivindicación 1, caracterizado porque el mezclado ascendente es independiente de la amplitud al menos de uno del primer estimado de ponderación y el segundo estimado de ponderación excepto para el valor de Diferencia de Fase Total.
9. El decodificador de conformidad con la reivindicación 1, caracterizado porque el mezclador ascendente es colocado para: generar una señal decorrelacionada a partir del mezclado descendente, la señal decorrelacionada es decorrelacionada con el mezclado descendente; realizar el mezclado ascendente del mezclado descendente aplicando una multiplicación de matriz al mezclado descendente y la señal decorrelacionada en donde los coeficientes de la multiplicación de matriz son dependientes del primer estimado de ponderación y el segundo estimado de ponderación .
10. El decodificador de conformidad con la reivindicación 1, caracterizado porque el mezclador ascendente es colocado para determinar el primer estimado de ponderación al : determinar una primera medición de energía indicativa de la energía de una combinación alineada sin fase para la primera señal de canal y la segunda señal de canal en respuesta a los datos paramétricos de mezclado ascendente; determinar una segunda medición de energía indicativa de la energía de una combinación alineada de fase del primer canal y el segundo canal en respuesta a los datos paramétricos de mezclado ascendente; determinar una primera medición de la primera medición de energía con relación a la segunda medición de energía; determinar el primer estimado de ponderación en respuesta a la primera medición.
11. El decodificador de conformidad con la reivindicación 1, caracterizado porque el mezclador ascendente es colocado para determinar el primer estimado de ponderación por: para cada uno de la pluralidad de pares de valores predeterminados de la primera ponderación y la segunda ponderación, que determinan en respuesta a los datos paramétricos, la medición de energía indicativa de la energía de un mezclado descendente que corresponde con los pares de valores predeterminados ; y determinar la primera ponderación en respuesta a las mediciones de energía y los pares de valores predeterminados .
12. Un codificador para la generación de una representación codificada de una señal de audio de múltiples canales comprende al menos un primer canal y un segundo canal, caracterizado porque comprende: un mezclador descendente que genera un mezclado descendente como una combinación al menos de una primera señal de canal del primer canal ponderado por medio de una primera ponderación y una segunda señal de canal del segundo canal ponderado por medio de una segunda ponderación, la primera ponderación y la segunda ponderación tienen diferentes amplitudes al menos para algunos intervalos de tiempo-frecuencia ; un circuito que genera datos paramétricos de mezclado ascendente que caracterizan la relación entre la primera señal de canal y la segunda señal de canal, los datos paramétricos de mezclado ascendente además caracterizan la primera ponderación y la segunda ponderación; y un circuito que genera la representación codificada para incluir el mezclado descendente y los datos paramétricos de mezclado ascendente, en donde el mezclador descendente es colocado para: determinar una primera medición de energía indicativa de la energía de una combinación alineada sin fase para la primera señal de canal y la segunda señal de canal; determinar una segunda medición de energía indicativa de la energía de una combinación alineada de fase de la primera señal de canal y la segunda señal de canal; determinar una primera medición de la primera medición de energía con relación a la segunda medición de energía; y determinar la primera ponderación y la segunda ponderación en respuesta a la primera medición.
13. Un método de generación de una señal de audio de múltiples canales, caracterizado porque comprende: recibir un mezclado descendente que es la combinación al menos de una primera señal de canal ponderada por medio de una primera ponderación y una segunda señal de canal ponderada por medio de una segunda ponderación, la primera ponderación y la segunda ponderación tienen diferentes amplitudes al menos para algunos intervalos de tiempo-frecuencia ; recibir los datos paramétricos de mezclado ascendente que caracterizan la relación entre la primera señal de canal y la segunda señal de canal ; generar un primer estimado de ponderación para la primera ponderación y un segundo estimado de ponderación para la segunda ponderación a partir de los datos paramétricos de mezclado ascendente; y generar la señal de audio de múltiples canales mediante el mezclado ascendente del mezclado descendente en respuesta a los datos paramétricos de mezclado ascendente, el primer estimado de ponderación y el segundo estimado de ponderación, el mezclado ascendente es dependiente de la amplitud por lo menos de uno del primer estimado de ponderación y el segundo estimado de ponderación.
14. Un método de generación de una representación codificada de una señal de audio de múltiples canales comprende al menos un primer canal y un segundo canal, caracterizado porque comprende: generar un mezclado descendente como una combinación al menos de una primera señal de canal del primer canal ponderado por medio de una primera ponderación y una segunda señal de canal del segundo canal ponderado por medio de una segunda ponderación, la primera ponderación y la segunda ponderación tienen diferentes amplitudes al menos para algunos intervalos de tiempo-frecuencia; generar los datos paramétricos de mezclado ascendente que caracterizan la relación entre la primera señal de canal y la segunda señal de canal, los datos paramétricos de mezclado ascendente además caracterizan la primera ponderación y la segunda ponderación; y generar la representación codificada para incluir el mezclado descendente y los datos paramétricos de mezclado ascendente.
15. El producto de programa de computadora, caracterizado porque ejecuta el método de conformidad con cualquiera de las reivindicaciones 13 ó 14.
16. Un flujo de bits de audio para una señal de audio de múltiples canales comprende un mezclado descendente que es una combinación al menos de una primera señal de canal ponderada por medio de una primera ponderación y una segunda señal de canal ponderada por medio de una segunda ponderación, la primera ponderación y la segunda ponderación tienen diferentes amplitudes al menos para algunos intervalos de tiempo-frecuencia; y los datos paramétricos de mezclado ascendente que caracterizan la relación entre la primera señal de canal y la segunda señal de canal, los datos paramétricos de mezclado ascendente, caracterizado porque además la primera ponderación y la segunda ponderación.
17. El medio de almacenamiento, caracterizado porque tiene almacenado en el mismo el flujo de bits de audio de conformidad con la reivindicación 16.
MX2012005414A 2009-11-12 2010-11-05 Codificacion y decodificacion parametricas. MX2012005414A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP09175771A EP2323130A1 (en) 2009-11-12 2009-11-12 Parametric encoding and decoding
PCT/IB2010/055025 WO2011058484A1 (en) 2009-11-12 2010-11-05 Parametric encoding and decoding

Publications (1)

Publication Number Publication Date
MX2012005414A true MX2012005414A (es) 2012-06-14

Family

ID=42008564

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2012005414A MX2012005414A (es) 2009-11-12 2010-11-05 Codificacion y decodificacion parametricas.

Country Status (10)

Country Link
US (1) US9070358B2 (es)
EP (2) EP2323130A1 (es)
JP (1) JP5643834B2 (es)
KR (1) KR101732338B1 (es)
CN (1) CN102598122B (es)
BR (1) BR112012011084B1 (es)
MX (1) MX2012005414A (es)
RU (1) RU2560790C2 (es)
TW (1) TWI573130B (es)
WO (1) WO2011058484A1 (es)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8571875B2 (en) * 2006-10-18 2013-10-29 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding multichannel audio signals
EP2464146A1 (en) 2010-12-10 2012-06-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an input signal using a pre-calculated reference curve
WO2013029225A1 (en) * 2011-08-29 2013-03-07 Huawei Technologies Co., Ltd. Parametric multichannel encoder and decoder
CN104246873B (zh) * 2012-02-17 2017-02-01 华为技术有限公司 用于编码多声道音频信号的参数编码器
CN103534753B (zh) 2012-04-05 2015-05-27 华为技术有限公司 用于信道间差估计的方法和空间音频编码装置
KR20140016780A (ko) * 2012-07-31 2014-02-10 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법 및 장치
PT2883225T (pt) * 2012-08-10 2017-09-04 Fraunhofer Ges Forschung Codificador, descodificador, sistema e método empregando um conceito residual para codificação de objeto de áudio paramétrico
EP2717261A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
RU2613731C2 (ru) * 2012-12-04 2017-03-21 Самсунг Электроникс Ко., Лтд. Устройство предоставления аудио и способ предоставления аудио
WO2014171791A1 (ko) 2013-04-19 2014-10-23 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
US8804971B1 (en) * 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
CN104299615B (zh) * 2013-07-16 2017-11-17 华为技术有限公司 一种声道间电平差处理方法及装置
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
CN105336335B (zh) * 2014-07-25 2020-12-08 杜比实验室特许公司 利用子带对象概率估计的音频对象提取
EP2980789A1 (en) * 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
CA2997332A1 (en) * 2015-09-25 2017-03-30 Voiceage Corporation Method and system for decoding left and right channels of a stereo sound signal
EP3301673A1 (en) * 2016-09-30 2018-04-04 Nxp B.V. Audio communication method and apparatus
US10224042B2 (en) 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
EP3748633A1 (en) * 2016-11-08 2020-12-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer and method for downmixing at least two channels and multichannel encoder and multichannel decoder
PT3539125T (pt) 2016-11-08 2023-01-27 Fraunhofer Ges Forschung Aparelho e método para codificar ou descodificar um sinal multicanal utilizando um ganho side e um ganho residual
CN109389984B (zh) 2017-08-10 2021-09-14 华为技术有限公司 时域立体声编解码方法和相关产品
CN109389985B (zh) 2017-08-10 2021-09-14 华为技术有限公司 时域立体声编解码方法和相关产品
CN109389987B (zh) 2017-08-10 2022-05-10 华为技术有限公司 音频编解码模式确定方法和相关产品
US10580420B2 (en) 2017-10-05 2020-03-03 Qualcomm Incorporated Encoding or decoding of audio signals
EP3550561A1 (en) 2018-04-06 2019-10-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value
WO2020178322A1 (en) * 2019-03-06 2020-09-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for converting a spectral resolution
GB2582749A (en) * 2019-03-28 2020-10-07 Nokia Technologies Oy Determination of the significance of spatial audio parameters and associated encoding
US10904690B1 (en) * 2019-12-15 2021-01-26 Nuvoton Technology Corporation Energy and phase correlated audio channels mixer
US20220399026A1 (en) * 2021-06-11 2022-12-15 Nuance Communications, Inc. System and Method for Self-attention-based Combining of Multichannel Signals for Speech Processing

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
ATE487213T1 (de) * 2003-03-17 2010-11-15 Koninkl Philips Electronics Nv Verarbeitung von mehrkanalsignalen
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7392195B2 (en) * 2004-03-25 2008-06-24 Dts, Inc. Lossless multi-channel audio codec
WO2005098821A2 (en) 2004-04-05 2005-10-20 Koninklijke Philips Electronics N.V. Multi-channel encoder
DE102004043521A1 (de) * 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
JP4892184B2 (ja) * 2004-10-14 2012-03-07 パナソニック株式会社 音響信号符号化装置及び音響信号復号装置
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US7961890B2 (en) * 2005-04-15 2011-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Multi-channel hierarchical audio coding with compact side information
JP2006325162A (ja) * 2005-05-20 2006-11-30 Matsushita Electric Ind Co Ltd バイノーラルキューを用いてマルチチャネル空間音声符号化を行うための装置
JP5171622B2 (ja) * 2005-07-19 2013-03-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチチャンネルオーディオ信号の生成
US7702407B2 (en) 2005-07-29 2010-04-20 Lg Electronics Inc. Method for generating encoded audio signal and method for processing audio signal
US20080262853A1 (en) 2005-10-20 2008-10-23 Lg Electronics, Inc. Method for Encoding and Decoding Multi-Channel Audio Signal and Apparatus Thereof
KR101218776B1 (ko) * 2006-01-11 2013-01-18 삼성전자주식회사 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체
CN101390443B (zh) * 2006-02-21 2010-12-01 皇家飞利浦电子股份有限公司 音频编码和解码
WO2007111568A2 (en) 2006-03-28 2007-10-04 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for a decoder for multi-channel surround sound
ATE499677T1 (de) * 2006-09-18 2011-03-15 Koninkl Philips Electronics Nv Kodierung und dekodierung von audio-objekten
EP2082397B1 (en) * 2006-10-16 2011-12-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation

Also Published As

Publication number Publication date
RU2560790C2 (ru) 2015-08-20
TWI573130B (zh) 2017-03-01
JP5643834B2 (ja) 2014-12-17
KR101732338B1 (ko) 2017-05-04
BR112012011084B1 (pt) 2020-12-08
KR20120089335A (ko) 2012-08-09
CN102598122A (zh) 2012-07-18
JP2013511062A (ja) 2013-03-28
RU2012123750A (ru) 2013-12-20
TW201145259A (en) 2011-12-16
US9070358B2 (en) 2015-06-30
EP2323130A1 (en) 2011-05-18
US20120224702A1 (en) 2012-09-06
EP2499638B1 (en) 2015-02-25
EP2499638A1 (en) 2012-09-19
CN102598122B (zh) 2014-10-29
WO2011058484A1 (en) 2011-05-19
BR112012011084A2 (pt) 2017-09-19

Similar Documents

Publication Publication Date Title
MX2012005414A (es) Codificacion y decodificacion parametricas.
JP7156986B2 (ja) 無相関化信号の寄与の残差信号ベースの調整を用いたマルチチャンネルオーディオデコーダ、マルチチャンネルオーディオエンコーダ、方法およびコンピュータプログラム
ES2955962T3 (es) Método y sistema que utiliza una diferencia de correlación a largo plazo entre los canales izquierdo y derecho para mezcla descendente en el dominio del tiempo de una señal de sonido estéreo en canales primarios y secundarios
TWI420512B (zh) 用以利用相位值平滑化方式來對向下混合音訊信號進行向上混合之裝置、方法和電腦程式
US8433583B2 (en) Audio decoding
KR101613975B1 (ko) 멀티 채널 오디오 신호의 부호화 방법 및 장치, 그 복호화 방법 및 장치
AU2013326516B2 (en) Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
NO342863B1 (no) Konsept for kopling av gapet mellom parametrisk flerkanals audiokoding og matrise-surround flerkanalkoding
WO2010097748A1 (en) Parametric stereo encoding and decoding
KR20080093342A (ko) 스테레오 신호 및 멀티 채널 신호 부호화 및 복호화 방법및 장치
JP2019506633A (ja) 改良されたミッド/サイド決定を持つ包括的なildを持つmdct m/sステレオのための装置および方法
RU2791872C1 (ru) Устройство, способ или компьютерная программа для формирования выходного представления понижающего микширования
AU2020233210B2 (en) Downmixer and method of downmixing
KR20220017400A (ko) 출력 다운믹스 표현을 생성하기 위한 장치, 방법 또는 컴퓨터 프로그램
CN117037816A (zh) 多声道音频编码方法、系统、介质及设备

Legal Events

Date Code Title Description
FG Grant or registration