MX2015003195A

MX2015003195A - Aparato y metodo para proveer funciones mejoradas de mezcla guiada para audio 3d.

Info

Publication number: MX2015003195A
Application number: MX2015003195A
Authority: MX
Inventors: Harald Fuchs; Bernhard Grill; Stephan Schreiner; Arne Borsum; Michael Kratz; Sebastian Scharrer
Original assignee: Fraunhofer Ges Zur Förderung Der Angewandten Forschung E V
Priority date: 2012-09-12
Filing date: 2013-09-12
Publication date: 2015-07-14
Also published as: MX343564B; ZA201502353B; BR122021021487B1; HK1212537A1; PL2896221T3; MY181365A; RU2015113161A; RU2635884C2; CN104782145A; US20170249946A1; AU2013314299A1; AR092540A1; JP5917777B2; US10950246B2; US9653084B2; US10347259B2; BR122021021500B1; US20190287540A1; BR122021021494B1; SG11201501876VA

Abstract

Se presenta un aparato (100) para efectuar la mezcla de tres o más canales de audio de entrada para obtener dos o más canales de audio de salida. El aparato (100) comprende una interfaz de recepción (110) para recibir los tres o más canales de audio de entrada y para recibir información complementaria. Además, el aparato (100) comprende un dispositivo de mezcla (120) para efectuar la mezcla de los tres o más canales de audio de entrada dependiendo de la información complementaria para obtener los dos o más canales de audio de salida. El número de canales de salida de audio es menor que el número de canales de audio de entrada. La información complementaria indica una característica de por lo menos uno de los tres o más canales de audio de entrada, o una característica de una o más ondas de sonido grabadas dentro de dicho uno o más canales de entrada de audio, o una característica de una o más fuentes de sonido que emitieran una o más ondas de sonido grabadas dentro de dicho uno o más canales de entrada de audio.

Description

APARATO Y MÉTODO PARA PROVEER FUNCIONES MEJORADAS DE MEZCLA GUIADA PARA AUDIO 3D Descripción La presente invención se relaciona con el procesamiento de señales de audio y, en particular, con un aparato y un metodo para producir una mezcla mejorada, en particular, para lograr funciones mejoradas de mezcla guiada para audio 3D.

Se utiliza un número creciente de parlantes para la reproducción espacial de sonido. Si bien la reproducción de sonido envolvente tradicional (por ej. 5.1) se limitaba a un solo plano se han introducido nuevos formatos de canales con parlantes elevados en el contexto de la reproducción de audio 3D.

Las señales que se deben reproducir por medio de parlantes solían estar directamente relacionadas con parlantes específicos y se almacenaban y transmitían en forma discreta o paramétrica. Se puede decir de este tipo de formatos, que están supeditados a un número y posición claramente definidos de parlantes del sistema de reproducción de sonido. En consecuencia, se debe considerar un formato de reproducción específico antes de la transmisión o almacenamiento de una señal de audio.

De todos modos, ya hay algunas excepciones a este principio. Por ejemplo, las señales de audio multicanal (por ej. cinco canales de audio envolvente o, por ej., 5.1 canales de audio envolvente) deben ser sometidas a mezcla para la reproducción por dos disposiciones de parlantes estéreo de dos canales. Existen reglas para la reproducción de cinco canales surround por dos parlantes de un sistema estéreo.

Más aun, cuando se introdujeron los canales estéreo, existía una regla para la reproducción de contenido de audio de los dos canales por un único parlante monoaural.

Dado que el número de formatos y, por consiguiente, las posibles formas de colocar los parlantes, ha de ser casi imposible considerar la disposición de parlantes del sistema de reproducción antes de la transmisión o el almacenamiento. En consecuencia, es necesario adaptar las señales de audio entrantes a la disposición real de parlantes.

Se pueden emplear diferentes métodos para la mezcla de sonido surround a estéreo de dos canales la mezcla en el dominio del tiempo aún utilizada ampliamente con coeficientes estáticos de mezcla a menudo se denomina mezcla ITU [5]. Otras téenicas de mezcla de dominio del tiempo - en parte con ajuste dinámico a los coeficientes de mezcla - se emplean en los codificadores de las técnicas surround de matriz [6], [7].

En [3], se describe que las fuentes de sonido directas mezcladas hacia los canales traseros duplicados en el panorama estéreo de dos canales pueden no ser discernióles debido al enmascaramiento o de otro modo enmascarar otras fuentes de sonido.

En el curso del desarrollo de las tecnologías de codificación de audio espacial (SAC), se introdujeron los algoritmos de mezcla selectivos de la frecuencia como parte del codificador [8], [9]. Específicamente, se pueden reducir las coloraciones de sonido y se mantiene el balanceo de nivel y la estabilidad de la fuente de sonido aplicando ecualización de energía a los canales de audio así obtenidos. La ecualización de la energía se realiza también en otros sistemas de mezcla [9], [10], [12].

En el caso en que los canales traseros sólo contienen reverberación del tipo de sonido ambiente, la reducción de la acústica ambiental (reverberación, espaciosidad) se resuelve en la mezcla ITU [5] atenuando los canales traseros de la señal multicanal. Si los canales traseros también contienen sonido directo, esta atenuación no es apropiada, ya que las partes directas del canal trasero también se atenuarían en la mezcla. Por lo tanto, es apreciado un algoritmo sofisticado de atenuación de la acústica ambiental.

Los codees de audio como AC-3 y HE-AAC ofrecen un medio para transmitir los denominados metadatos junto con el flujo de audio, incluyendo los coeficientes de mezcla para la mezcla de cinco a dos canales de audio (estéreo). La cantidad de canales de audio seleccionados (canales central, trasero) en la señal estéreo obtenida se controla transmitiendo valores de ganancia. Si bien estos coeficientes pueden ser variables en el tiempo, por lo general se mantienen constantes durante la duración de un ítem de un programa.

La solución empleada en el sistema de matriz "Logic7" introducido en una estrategia adaptativa a la señal, que atenúa los canales posteriores sólo sí se los considera totalmente ambientales. Esto se obtiene comparando la potencia de los canales anteriores con la potencia de los canales posteriores. La presunción de este enfoque es que si los canales posteriores sólo contienen acústica ambiental, tienen significativamente menos potencia que los canales anteriores. Cuanta más potencia tienen los canales anteriores en comparación con los canales posteriores, más se atenúan los canales posteriores en el proceso de mezcla. Esta presunción puede ser cierta en el caso de algunas producciones envolventes, especialmente con contenido clásico, aunque esta presunción no es real en el caso de otras diversas señales.

Por lo tanto sería muy ventajoso si se dieran a conocer conceptos mejorados para el procesamiento de señales de audio.

El objetivo de la presente invención es dar a conocer conceptos mejorados para el procesamiento de señales de audio. El objetivo de la presente invención se resuelve por medio de un aparato de acuerdo con la reivindicación 1, un sistema de acuerdo con la reivindicación 13, un metodo de acuerdo con la reivindicación 14 y un programa de computación de acuerdo con la reivindicación 15.

Se presenta un aparato para generar dos o más canales de audio de salida de tres o más canales de audio de entrada. El aparato comprende una interfaz de recepción para recibir los tres o más canales de audio de entrada y para recibir información complementaria. Además, el aparato comprende un dispositivo de mezcla para efectuar la mezcla de los tres o más canales de audio de entrada dependiendo de la información complementaria para obtener los dos o más canales de audio de salida. El número de los canales de salida de audio es menor que el número de los canales de audio de entrada. La información complementaria indica una característica de por lo menos uno de los tres o más canales de audio de entrada, o una característica de una o más ondas de sonido grabadas dentro de dicho uno o más canales de entrada de audio, o una característica de una o más fuentes de sonido que emitieran una o más ondas de sonido grabadas dentro de dicho uno o más canales de entrada de audio.

Las realizaciones se basan en el concepto de la transmisión de información complementaria junto con las señales de audio para guiar el proceso de conversión de formato del formato de la señal de audio entrante al formato del sistema de reproducción.

De acuerdo con una forma de realización, el dispositivo de mezcla puede estar configurado para generar cada canal de salida de audio de los dos o más canales de audio de salida mediante la modificación de por lo menos dos canales de entrada de audio de los tres o más canales de audio de entrada dependiendo de la información complementaria para obtener un grupo de canales de audio modificados, y combinando cada canal de audio modificado de dicho grupo de canales de audio modificados para obtener dicho canal de salida de audio.

En una forma de realización, el dispositivo de mezcla puede estar configurado, por ejemplo, para generar cada canal de salida de audio de los dos o más canales de audio de salida modificando cada canal de entrada de audio de los tres o más canales de audio de entrada dependiendo de la información complementaria para obtener el grupo de canales de audio modificados, y combinando cada canal de audio modificado of dicho grupo de canales de audio modificados para obtener dicho canal de salida de audio.

De acuerdo con una forma de realización, el dispositivo de mezcla puede estar configurado, por ejemplo, para generar cada canal de salida de audio de los dos o más canales de audio de salida generando cada canal de audio modificado del grupo de canales de audio modificados mediante la determinación de una ponderación dependiendo de un canal de entrada de audio de dicho uno o más canales de entrada de audio y dependiendo de la información complementaria y mediante la aplicación de dicha ponderación a dicho canal de entrada de audio.

En una forma de realización, la información complementaria puede indicar una cantidad de efectos ambientales de cada uno de los tres o más canales de audio de entrada. El dispositivo de mezcla puede estar configurada para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de la cantidad de acústica ambiental de cada uno de los tres o más canales de audio de entrada para obtener los dos o más canales de audio de salida.

De acuerdo con otra forma de realización, la información complementaria puede indicar una difusividad de cada uno de los tres o más canales de audio de entrada o la directividad de cada uno de los tres o más canales de audio de entrada. El dispositivo de mezcla puede estar configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de la difusividad de cada uno de los tres o más canales de audio de entrada o dependiendo de la directividad de cada uno de los tres o más canales de audio de entrada para obtener los dos o más canales de audio de salida.

En otra forma de realización, la información complementaria puede indicar una dirección de llegada de sonido. El dispositivo de mezcla puede estar configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de la dirección de llegada de sonido para obtener los dos o más canales de audio de salida.

En una forma de realización, cada uno de los dos o más canales de audio de salida puede ser un canal de parlante para guiar un parlante.

De acuerdo con una forma de realización, el aparato puede estar configurado para alimentar cada uno de los dos o más canales de audio de salida a un parlante de un grupo de dos o más parlantes. El dispositivo de mezcla puede estar configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de cada posición presunta del parlante de un primer grupo de posiciones presuntas de tres o más parlantes y dependiendo de cada posición real del parlante de un segundo grupo de posiciones reales dos o más de parlantes para obtener los dos o más canales de audio de salida. Cada posición real de parlante del segundo grupo de posiciones reales de dos o más parlantes puede indicar la posición de un parlante del grupo de dos o más parlantes.

En una forma de realización, cada canal de entrada de audio de los tres o más canales de audio de entrada puede ser asignado a una posición presunta del parlante del primer grupo de posiciones presuntas de tres o más parlantes. Cada canal de salida de audio de los dos o más canales de audio de salida puede ser asignado a una posición real de parlante del segundo grupo de posiciones reales de dos o más parlantes. El dispositivo de mezcla puede estar configurado para generar cada canal de salida de audio de los dos o más canales de audio de salida dependiendo de por lo menos dos de los tres o más canales de audio de entrada, dependiendo de la posición presunta del parlante de cada uno de dichos por lo menos dos de los tres o más canales de audio de entrada y dependiendo de la posición real del parlante de dicho canal de salida de audio.

De acuerdo con una forma de realización, cada uno de los tres o más canales de audio de entrada comprende una señal de audio de un objeto de audio de tres o más objetos de audio. La información complementaria comprende, por cada objeto de audio de los tres o más objetos de audio, la posición de un objeto de audio que indica la posición de dicho objeto de audio. El dispositivo de mezcla está configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de la posición del objeto de audio de cada uno de los tres o más objetos de audio para obtener los dos o más canales de audio de salida.

En una forma de realización, el dispositivo de mezcla está configurado para ejecutar la mezcla de cuatro o más canales de entrada de audio dependiendo de la información complementaria para obtener tres o más canales de salida de audio.

Se presenta además un sistema. El sistema comprende un codificador para codificar tres o más canales de audio sin procesar para obtener tres o más canales de audio codificados, y para codificar información adicional sobre los tres o más canales de audio sin procesar para obtener información complementaria. Más aun, el sistema comprende un aparato de acuerdo con una de las realizaciones antes descriptas para recibir los tres o más canales de audio codificados en forma de tres o más canales de audio de entrada, para recibir la información complementaria, y para generar, dependiendo de la información complementaria, dos o más canales de audio de salida a partir de los tres o más canales de audio de entrada.

Se presenta asimismo un método para generar dos o más canales de audio de salida a partir de tres o más canales de audio de entrada. El método comprende: Recibir los tres o más canales de audio de entrada y recibir información complementaria y: Efectuar la mezcla de los tres o más canales de audio de entrada dependiendo de la información complementaria para obtener los dos o más canales de audio de salida.

El número de canales de salida de audio es menor que el número de canales de audio de entrada. Los canales de audio de entrada comprenden una grabación de un sonido emitido por una fuente de sonido, y donde la información complementaria indica una característica de sonido o una característica de la fuente de sonido.

Por añadidura, se da a conocer un programa de computación para implementar el método antes descripto al ejecutarse en una computadora o en un procesador de señales.

A continuación se describen las realizaciones de la presente invención en forma más detallada con referencia a las figuras, en las cuales: La Fig. 1 es un aparato para la mezcla de tres o más canales de audio de entrada para obtener dos o más canales de audio de salida de acuerdo con una forma de realización, La Fig.2 ilustra un dispositivo de mezcla de acuerdo con una forma de realización, La Fig. 3 ilustra una situación de acuerdo con una forma de realización, donde cada uno de los canales de salida de audio se genera dependiendo de cada uno de los canales de audio de entrada, La Fig.4 ilustra otro contexto de acuerdo con una forma de realización, donde cada uno de los canales de salida de audio se genera dependiendo de exactamente dos de los canales de audio de entrada, La Fig. 5 ilustra un mapeo de señales transmitidas de representación espacial sobre la posición real de parlantes, La Fig.6 ilustra un mapeo de señales espaciales elevadas con otros niveles de elevación, La Fig.7 ilustra dicha renderización de una señal de origen correspondiente a diferentes posiciones de parlantes, La Fig.8 ilustra un sistema de acuerdo con una forma de realización, y La Fig.9 es otra ilustración de un sistema de acuerdo con una forma de realización.

La Fig. 1 ilustra un aparato 100 para generar dos o más canales de audio de salida a partir de tres o más canales de audio de entrada de acuerdo con una forma de realización.

El aparato 100 comprende una interfaz de recepción 110 para recibir los tres o más canales de audio de entrada y para recibir información complementaria.

Además, el aparato 100 comprende un dispositivo de mezcla 120 para efectuar la mezcla de los tres o más canales de audio de entrada dependiendo de la información complementaria para obtener los dos o más canales de audio de salida.

El número de canales de salida de audio es menor que el número de canales de audio de entrada. La información complementaria indica una característica de por lo menos uno de los tres o más canales de audio de entrada, o una característica de una o más ondas de sonido grabadas dentro de dicho uno o más canales de entrada de audio, o una característica de una o más fuentes de sonido que emitieran una o más ondas de sonido grabadas dentro de dicho uno o más canales de entrada de audio.

La Fig. 2 expone un dispositivo de mezcla 120 de acuerdo con una forma de realización en una ilustración adicional. La información orientativa ilustrada en la Fig.2 es información complementaria.

La Fig. 7 ilustra la renderfeación de una señal de origen correspondiente a diferentes posiciones de parlante·. Las funciones de transferencia de renderización pueden depender dd toa ángulos (azimut y elevación) que indican, por ej., una dirección de llegada de una onda de sonido, pueden depender de una distancia, por ej., una dlilincia desde una fuente de sonido a un micrófono para grabar y/o pueden depender de una difusividad, donde estos parámetros pueden ser, por ej., dependientes de la frecuencia.

A diferencia de las estrategias de mezcla ciega, por ej., las teenicas de mezcla no guiada, de acuerdo con las realizaciones, se transmiten datos de control o información descriptiva junto con la señal de audio para que influya sobre el proceso de mezcla del lado del receptor de la cadena de señales. Esta información complementaria puede ser calculada del lado del emisor/codificador de la cadena de señales o puede ser provista por una entrada del usuario. La información complementaria se puede transmitir, por ejemplo, en un flujo de bits, por ej., multiplexada con una señal de audio codificada.

De acuerdo con una forma de realización específica, el dispositivo de mezcla 120 puede estar configurado, por ejemplo, para efectuar la mezcla de cuatro o más canales de entrada de audio dependiendo de la información complementaria para obtener tres o más canales de salida de audio.

En una forma de realización, cada uno de los dos o más canales de audio de salida puede ser, por ej., un canal de parlante para guiar un parlante.

Por ejemplo, en otra forma de realización específica, el dispositivo de mezcla 120 puede estar configurado para ejecutar la mezcla de siete canales de entrada de audio para obtener tres o más canales de salida de audio. En otra forma de realización específica, el dispositivo de mezcla 120 puede estar configurado para ejecutar la mezcla de nueve canales de entrada de audio para obtener tres o más canales de salida de audio. En otra forma de realización específica, el dispositivo de mezcla 120 puede estar configurado para ejecutar la mezcla de 24 canales para obtener tres o más canales de salida de audio.

En otra forma de realización específica, el dispositivo de mezcla 120 puede estar configurado para ejecutar la mezcla de siete o más canales de entrada de audio para obtener exactamente cinco canales de salida de audio, por ej. para obtener cinco canales de audio of un sistema envolvente de cinco canales. En otra forma de realización específica, el dispositivo de mezcla 120 puede estar configurado para ejecutar la mezcla de siete o más canales de entrada de audio para obtener exactamente seis canales de salida de audio, por ej., seis canales de audio of un sistema envolvente 5.1.

De acuerdo con una forma de realización, el dispositivo de mezcla puede estar configurado para generar cada canal de salida de audio de los dos o más canales de audio de salida modificando por lo menos dos canales de entrada de audio de los tres o más canales de audio de entrada dependiendo de la información complementaria para obtener un grupo de canales de audio modificados, y combinando cada canal de audio modificado de dicho grupo de canales de audio modificados para obtener dicho canal de salida de audio.

En una forma de realización, el dispositivo de mezcla puede estar configurado, por ejemplo, para generar cada canal de salida de audio de los dos o más canales de audio de salida modificando cada canal de entrada de audio de los tres o más canales de audio de entrada dependiendo de la información complementaria para obtener el grupo de canales de audio modificados, y combinando cada canal de audio modificado de dicho grupo de canales de audio modificados para obtener dicho canal de salida de audio.

De acuerdo con una forma de realización, el dispositivo de mezcla 120 puede estar configurado, por ejemplo, para generar cada canal de salida de audio de los dos o más canales de audio de salida generando cada canal de audio modificado del grupo de canales de audio modificados mediante la determinación de una ponderación dependiendo de un canal de entrada de audio de dicho uno o más canales de entrada de audio y dependiendo de la información complementaria y mediante la aplicación de dicha ponderación a dicho canal de entrada de audio.

La Fig. 3 ilustra ese tipo de forma de realización. Cada canal de salida de audio (AOCi, AOC2, AOC3) depende de cada uno de los canales de audio de entrada (AIC1, AIC2, AIC3, AIC4).

Por ejemplo, se considera el primer canal de salida de audio AOC-i.

El dispositivo de mezcla 120 está configurado para determinar una ponderación g^-i, g >2, gi,3, g-i,4 por cada canal de entrada de audio AIC1, AIC2, AIC3, AIC4 dependiendo del canal de entrada de audio y dependiendo de la información complementaria. Además, el dispositivo de mezcla 120 está configurado para aplicar cada ponderación gi,i, gi,2l gi,3, i,4a su canal de entrada de audio AIC1, AIC2, AIC3, AIC4.

Por ejemplo, el dispositivo de mezcla puede estar configurado para aplicar una ponderación a su canal de entrada de audio multiplicando cada muestra en el dominio del tiempo del canal de entrada de audio por la ponderación (por ej., cuando el canal de entrada de audio está representado en el dominio del tiempo). O, por ejemplo, el dispositivo de mezcla puede estar configurado para aplicar una ponderación a su canal de entrada de audio multiplicando cada valor espectral del canal de entrada de audio por la ponderación (por ej., cuando el canal de entrada de audio está representado en el dominio espectral, el dominio de la frecuencia o el dominio de tiempo-frecuencia). Luego se combinan los canales de audio modificados obtenidos (MAC1 1, MAC-1,2, MAC13, MAC 1,4) como resultado de la aplicación de ponderaciones gi,-i, g-i.2, gi,3, gi,4, por ejemplo se suman, para obtener uno de los canales de salida de audio AOC .

El segundo canal de salida de audio AOC2 se determina de manera análoga mediante la determinación de las ponderaciones g2,i, g2,2, g2,3, g2,4, por la aplicación de cada una de las ponderaciones a su canal de entrada de audio AIC1, AIC2, AIC3, AIC4, y la combinación de los canales de audio modificados así obtenidos MAC2 1, MAC2,2, MAC2,3, MAC2,4.

Del mismo modo, el tercer canal de salida de audio AOC2 se determina de manera análoga mediante la determinación de las ponderaciones g31, g3,2 g3,3. g34, por la aplicación de cada una de las ponderaciones a su canal de entrada de audio AIC1, AIC2, AIC3, AIC4, y la combinación de los canales de audio modificados así obtenidos MAC3.1, MAC3,2, MAC3,3, MAC34.

La Fig. 4 ilustra una forma de realización, donde cada uno de los canales de salida de audio no se genera modificando cada canal de entrada de audio de los tres o más canales de audio de entrada, sino que cada uno de los canales de salida de audio se genera modificando sólo dos de los canales de audio de entrada y combinando estos dos canales de entrada de audio.

Por ejemplo, en la Fig. 4, se reciben cuatro canales como canales de entrada de audio (LS1 = canal de entrada envolvente izquierdo; L1 = canal de entrada izquierdo; R1 = canal de entrada derecho; RS1 = canal de entrada envolvente derecho) y se generan tres canales de salida de audio (L2 = canal de salida izquierdo; R2 = canal de salida derecho; C2 = canal de salida central) mediante la mezcla de los canales de audio de entrada.

En la Fig. 4, el canal de salida izquierdo L2 se genera dependiendo del canal de entrada envolvente izquierdo LSi y dependiendo del canal de entrada izquierdo Li. Para este fin, el dispositivo de mezcla 120 genera una ponderación gi i correspondiente al canal de entrada envolvente izquierdo LSi dependiendo de la información complementaria y genera una ponderación gi 2 correspondiente al canal de entrada izquierdo Li dependiendo de la información complementaria y aplica cada una de las ponderaciones a su canal de entrada de audio para obtener el canal de salida izquierdo L2.

Además, el canal de salida central C2 se genera dependiendo del canal de entrada izquierdo U y dependiendo del canal de entrada derecho Ri. Para este fin, el dispositivo de mezcla 120 genera una ponderación g2,2 correspondiente al canal de entrada izquierdo Li dependiendo de la información complementaria y genera una ponderación g23 correspondiente al canal de entrada derecho Ri dependiendo de la información complementaria y aplica cada una de las ponderaciones a su canal de entrada de audio para obtener el canal de salida central C2.

Más aun, el canal de salida derecho R2 se genera dependiendo del canal de entrada derecho Ri y dependiendo del canal de entrada envolvente derecho RSi. Para este fin, el dispositivo de mezcla 120 genera una ponderación g3,3 correspondiente al canal de entrada derecho Ri dependiendo de la información complementaria y genera una ponderación g3,4 correspondiente al canal de entrada envolvente derecho RSi dependiendo de la información complementaria y aplica cada una de las ponderaciones a su canal de entrada de audio para obtener el canal de salida izquierdo R2.

Motivan las realizaciones de la presente invención los siguientes hallazgos: La teenología actual produce coeficientes de mezcla como metadatos en el flujo de bits.

Una estrategia consistiría en extender la tecnología actual mediante coeficientes de mezcla selectivos de la frecuencia, más canales (por ej., canales de audio, de la configuración original de canales, por ej. información de altura) y/o formatos adicionales para usar en la configuración objetivo de los canales. En otras palabras, la matriz de mezcla para los formatos de audio 3D audio se debe extender según los canales adicionales del formato de entrada, en particular por los canales de altura de los formatos de audio 3D. Respecto de los formatos adicionales, el audio 3D debe admitir una multitud de formatos de salida. Si bien con una señal 5.0 o 5.1 se puede efectuar una mezcla sólo en estereo, o posiblemente mono, con configuraciones de canales que comprenden un mayor número de canales, se debe tener presente que hay varios formatos de salida relevantes. Con 22.2 canales, estos podrían ser mono, estéreo, 5.1 o variantes 7.1 diferentes, etc.

Sin embargo, las velocidades de transmisión de bits esperadas para la transmisión de estos coeficientes extendidos se incrementarían significativamente. En cuanto a los formatos específicos, puede ser razonable definir coeficientes adicionales de mezcla y combinarlos con los metadatos de mezcla existentes (véase la propuesta de 7.1 a MPEG, documento emitido N12980).

En el contexto del audio 3D, las combinaciones esperadas de configuraciones de canales del lado del emisor y el receptor son numerosas y la cantidad de datos irá más allá de las velocidades de transmisión de bits aceptables. De todos modos, la reducción de redundancia (por ej. la codificación de huffman) podría reducir la cantidad de datos a una proporción admisible.

Además, los coeficientes de mezcla antes descriptos pueden ser caracterizados paramétricamente.

Sin embargo, de todas maneras las velocidades estimadas de transmisión de bits se incrementarían significativamente por esa téenica.

De lo que antecede surge que, por lo general no es viable extender las técnicas establecidas, y una razón de ello es que, como consecuencia, las velocidades de datos crecerían en forma desproporcionada.

Una especificación genérica de mezcla en el dominio del tiempo se podría formular de la siguiente manera: yn(t) — Cnm Xm(t) donde y(t) es la señal de salida de una mezcla x(t) es la señal de entrada, n es el índice del canal de entrada de audio, m es el índice del canal de salida de audio. El coeficiente de mezcla de m° canal de entrada en el n° canal de salida corresponde a cnm· Un ejemplo conocido es la mezcla de una señal de 5 canales y una señal estereo de 2 canales con: L t ) = L(t) + cc C(t ) + cR · LS(t ) R í) = R{t) + cc C t) + cR RS{t) Los coeficientes de mezcla son estáticos y se aplican a cada muestra de la señal de audio. Se los puede agregar en forma de metadatos al flujo de bits de audio. El término "coeficientes de mezcla selectivos de la frecuencia” se utiliza con referencia a la posibilidad de utilizar coeficientes de mezcla separados para bandas de frecuencia específicas. En combinación con los coeficientes variables en el tiempo, se puede controlar la mezcla del lado del decodificador desde el codificador. La especificación de mezcla correspondiente a un cuadro de audio es entonces: yn(k, S) = Cnm(k) Xm(k, s), donde k es la banda de frecuencia (por ej. una banda QMF híbrida), s representa las submuestras de una banda QMF híbrida.

Como se describiera anteriormente, la transmisión de estos coeficientes daría como resultado altas velocidades de transmisión de bits.

Las realizaciones de la presente invención dan a conocer el empleo de información complementaria descriptiva. El dispositivo de mezcla 120 está configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de dicha información complementaria (descriptiva) para obtener los dos o más canales de audio de salida.

La información descriptiva sobre los canales de audio, la combinación de canales de audio u objetos de audio, puede mejorar el proceso de mezcla, ya que se pueden tomar en cuenta las características de las señales de audio.

En general esa información complementaria indica una característica de por lo menos uno de los tres o más canales de audio de entrada, o una característica de una o más ondas de sonido grabadas dentro de dicho uno o más canales de entrada de audio, o una característica de una o más fuentes de sonido que emitieran una o más ondas de sonido grabadas dentro de dicho uno o más canales de entrada de audio.

Los ejemplos de información complementaria pueden ser uno o más de los siguientes parámetros: Relación Seco/húmedo Cantidad de efectos de acústica ambiental Difusividad - Directividad Ancho de la fuente de sonido Distancia de la fuente de sonido Dirección de llegada Las definiciones de estos parámetros son muy conocidas por una persona con capacitación en la teenica. Se pueden encontrar definiciones de estos parámetros en la literatura adjunta (véase [1] - [24]). Por ejemplo, se ofrece una definición correspondiente a la cantidad de sonido envolvente en [15], [16], [17], [18], [19] y [14]. La definición correspondiente a la relación seco/húmedo se puede deducir inmediatamente de la definición de directo/ambiente, como es de conocimiento de la persona con capacitación en la técnica.. Los términos directividad y difusividad se explican en [21] y también son muy conocidos por la persona con capacitación en la técnica.

Los parámetros sugeridos se presentan como información complementaria para guiar el proceso de renderización que genera una señal de salida de N canales a partir de la señal de entrada de M canales donde - en el caso de la mezcla - N es menor que M.

Los parámetros que se incluyen como información complementaria no son necesariamente constantes. Por el contrario, los parámetros pueden variar con el tiempo (los parámetros pueden ser variables en el tiempo).

En general, la información complementaria puede comprender parámetros que se pueden obtener de manera selectiva de la frecuencia.

La aplicación de la información complementaria transmitida se lleva a cabo en un post procesamiento/renderización del lado del decodificador. La evaluación de los parámetros y su ponderación depende de la configuración objetivo de los canales y de otras características del lado de la transmisión.

Los parámetros mencionados pueden ser relativos a canales, grupos de canales u objetos.

Los parámetros se pueden utilizar en un proceso de mezcla a fin de determinar la ponderación de un canal u objeto durante la mezcla e realizada por el dispositivo de mezcla 120.

Por ejemplo: si un canal de altura contiene exclusivamente reverberación y reflexiones, podría tener un efecto negativo sobre la calidad de sonido durante la mezcla. En este caso, su participación en el canal de audio producido como resultado de la mezcla e debe ser, por lo tanto, pequeña. Al controlar la mezcla, un valor elevado del parámetro “cantidad de acústica ambiental” daría como resultado, por consiguiente, bajos coeficientes de mezcla para ese canal. Por el contrario, si contiene señales directas, se debería reflejar en mayor grado en el canal de audio producido como resultado de la mezcla y, por lo tanto, daría origen a coeficientes de mezcla más elevados (con mayor ponderación).

Por ejemplo, los canales de altura de la producción de audio 3D pueden contener componentes de señales directas como sí tambien reflexiones y reverberaciones con el fin de lograr la envolvencia. Si estos canales de altura se mezclan con los canales del plano horizontal, el resultado de esto último sería perjudicial en la mezcla obtenida, en tanto que el contenido de audio del primer plano de los componentes directos debe ser sometido a mezcla en su totalidad.

La información se puede utilizar para ajustar los coeficientes de mezcla (cuando resultare apropiado en forma selectiva de la frecuencia). Esta observación se aplica a todos los parámetros antes citados. La selectividad de la frecuencia puede permitir un control más afinado de la mezcla.

Por ejemplo, la ponderación que se aplica a un canal de entrada de audio para obtener un canal de audio modificado se puede determinar en consecuencia dependiendo la respectiva información complementaria.

Por ejemplo, si los canales de un plano anterior (por ej. un canal izquierdo, central o derecho de un sistema envolvente) se generan como canales de salida de audio, y no canales de fondo (tales como el canal envolvente izquierdo o el canal envolvente derecho de un sistema envolvente), luego: - Si la información complementaria indica que la cantidad de acústica ambiental de un canal de entrada de audio es elevada, luego se puede determinar una pequeña ponderación correspondiente a este canal de entrada de audio para generar el canal de salida de audio del plano anterior. De esta manera, el canal de audio modificado producido como resultado de este canal de entrada de audio sólo es tomado ligeramente en cuenta para generar el respectivo canal de salida de audio.

Si la información complementaria que la cantidad de acústica ambiental de un canal de entrada de audio es baja, luego se puede determinar una mayor ponderación para este canal de entrada de audio para generar el canal de salida de audio del plano anterior. De esta manera, el canal de audio modificado producido como resultado de este canal de entrada de audio es tomado en cuenta ampliamente generar el respectivo canal de salida de audio.

En una forma de realización, la información complementaria puede indicar una cantidad de acústica ambiental de cada uno de los tres o más canales de audio de entrada. El dispositivo de mezcla puede estar configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de la cantidad de acústica ambiental de cada uno de los tres o más canales de audio de entrada para obtener los dos o más canales de audio de salida.

Por ejemplo, la información complementaria puede comprender un parámetro que especifica una cantidad de acústica ambiental por cada canal de entrada de audio de los tres o más canales de audio de entrada. Por ej., cada canal de entrada de audio puede comprender porciones de señales ambientes y/o porciones de señales directas. Por ejemplo, la cantidad de acústica ambiental de un canal de entrada de audio se puede especificar en forma de número real a, donde i indica uno de los tres o más canales de audio de entrada, y donde a¡ podría estar, por ejemplo, en el rango de 0 £ a¡ £ 1. a¡ = 0 puede indicar que el respectivo canal de entrada de audio no comprende ninguna porción de señal ambiental. a¡ = 1 puede indicar que el respectivo canal de entrada de audio comprende sólo porciones de señales ambientales. En general, una cantidad de acústica ambiental de un canal de entrada de audio puede indicar, por ej., una cantidad de porciones de señales ambientales dentro del canal de entrada de audio.

Por ejemplo, volviendo a la Fig. 3, en una forma de realización, se podría decidir que las porciones de señales ambientales son siempre inadmisibles. Un dispositivo correspondiente de mezcla 120 puede determinar las ponderaciones de la Fig.3, por ejemplo, de acuerdo con la fórmula: gc,¡ = (1 - a¡) / 4 donde c e { 1, 2, 3}; i e { 1, 2, 3, 4}; 0 < a¡ < 1 En esa forma de realización, todas las ponderaciones se determinan de igual manera para cada uno de los tres o más canales de salida de audio.

Sin embargo, en el caso de otras realizaciones, se puede decidir que, para algunos canales de salida de audio, la acústica ambiental es más aceptables que en el caso de otros canales de salida de audio. Por ejemplo, se puede decidir que, en una forma de realización de acuerdo con la Fig. 3, la acústica ambiental es más aceptable para el primer canal de salida de audio AOCi y para el tercer canal de salida de audio AOC3 que para el segundo canal de salida de audio AOC2. Luego, un dispositivo correspondiente de mezcla 120 puede determinar las ponderaciones de la Fig.3, por ejemplo, de acuerdo con la fórmula: gi,¡ = (1 - (a¡/2) ) 14 donde i e { 1, 2, 3, 4 }; 0 < a¡ < 1 g2,¡ = (1— a¡) / 4 donde i e { 1 , 2, 3, 4 }; 0 < a¡ < 1 g3,í = (1— (a, / 2) ) / 4 donde i e { 1, 2, 3, 4}; 0 < a¡ £ 1 En esa forma de realización, las ponderaciones de uno de los tres o más canales de salida de audio se determinan de manera diferente de las ponderaciones de otro de los tres o más canales de salida de audio.

Las ponderaciones de la Fig. 4 se pueden determinar de manera similar que en los dos ejemplos descriptos con respecto a la Fig. 3, por ejemplo, de manera análoga el primer ejemplo, a saber: gi.i = (1 - a ¡) / 2; g-i.2 = (1 - a ¡) / 2; g2.2 = (1 - a¡) / 2; g2,3 = (1 - a i) / 2; g3,3 = (1 - a ¡) / 2; g3,4 = (1 - a¡) / 2; Las ponderaciones gc,¡ de la Fig. 3 y la Fig. 4 tambien se pueden determinar de cualquier otra manera adecuada y conveniente.

De acuerdo con otra forma de realización, la información complementaria puede indicar una difusividad de cada uno de los tres o más canales de audio de entrada o una directividad de cada uno de los tres o más canales de audio de entrada. El dispositivo de mezcla puede estar configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de la difusividad de cada uno de los tres o más canales de audio de entrada o dependiendo de la directividad de cada uno de los tres o más canales de audio de entrada para obtener los dos o más canales de audio de salida.

En esa forma de realización, la información complementaria puede comprender, por ejemplo, un parámetro que especifica la difusividad correspondiente a cada canal de entrada de audio de los tres o más canales de audio de entrada. Por ej., cada canal de entrada de audio puede comprender porciones de señales difusas y/o porciones de señales directas. Por ejemplo, la difusividad de un canal de entrada de audio puede estar especificada en forma de número real d¡, donde i indica uno de los tres o más canales de audio de entrada, y donde d¡ podría estar, por ejemplo, en el rango de 0 < d¡ < 1. d¡ = 0 puede indicar que el respectivo canal de entrada de audio no comprende porciones de señales difusas. d¡ = 1 puede indicar que el respectivo canal de entrada de audio comprende sólo porciones de señales difusas. En general, la difusividad de un canal de entrada de audio puede indicar, por ej., una cantidad de porciones de señales difusas dentro del canal de entrada de audio.

Las ponderaciones gc,¡ se pueden determinar, en el caso ¡lustrado en la Fig. 3, por ejemplo, de la siguiente manera gc,¡ = (1 - d¡) / 4 donde c e { 1, 2, 3 }; i e { 1, 2, 3, 4 }; 0 < d¡ < 1 o, por ejemplo, como g-i,? = (1— (d¡ / 2) ) / 4 donde i e { 1, 2, 3, 4 }; 0 < d¡ < 1 g2,¡ = (1 - d¡) / 4 donde i e { 1 , 2, 3, 4 }; 0 < d¡ < 1 g3,¡ = (1— (d¡ / 2) ) / 4 donde i <= { 1, 2, 3, 4 }; 0 < d¡ < 1 o de cualquier otra manera adecuada que convenga.

De lo contrario, la información complementaria puede comprender, por ejemplo, un parámetro que especifica la directividad correspondiente a cada canal de entrada de audio de los tres o más canales de audio de entrada. Por ejemplo, la directividad de un canal de entrada de audio puede ser especificada en forma de número real d¡, donde i indica uno de los tres o más canales de audio de entrada, y donde d¡ podría estar, por ejemplo, en el rango de 0 < dir¡ < 1. dir¡ = 0 puede indicar que las porciones de señales del respectivo canal de entrada de audio tienen baja directividad. dir¡ = 1 puede indicar que las porciones de señales del respectivo canal de entrada de audio tienen alta directividad.

Las ponderaciones gc,¡ se pueden determinar, en el caso ilustrado en la Fig. 3, por ejemplo, de la siguiente manera gc,¡ = dir¡ / 4 donde c e {1,2,3}; i e {1,2, 3, 4}; 0<dir¡<1 o, por ejemplo, como gi,i = 0,125 + dir¡/8 donde i e {1,2, 3, 4}; 0 £ dir¡ < 1 g2,¡ = din / 4 donde i e { 1, 2, 3, 4}; 0 £ dir¡ < 1 g3,¡ = 0,125 + dir¡/8 donde i e {1,2, 3, 4}; 0<dir¡<1 o de cualquier otra manera adecuada que convenga.

Por ejemplo, una dirección de llegada, por ej., una dirección de llegada de una onda de sonido. Por ejemplo, la dirección de llegada de una onda de sonido grabada por un canal de entrada de audio puede ser especificada en forma de ángulo cp¡, donde I indica uno de los tres o más canales de audio de entrada, donde <p¡ podría estar, por ej., en el rango de 0o < q>¡ < 360°. Por ejemplo, las porciones de sonido de ondas de sonido con una dirección de llegada próxima a 90° han de tener una elevada ponderación y las ondas de sonido con una dirección de llegada cercana a 270° han de tener una baja ponderación o no tener ponderación alguna en absoluto en la señal de salida de audio. Las ponderaciones gc,¡ se pueden determinar, en el caso ilustrado en la Fig. 3, por ejemplo, de la siguiente manera ge, i = (1 + sin <p¡) / 8 donde C e { 1, 2, 3 }; i e { 1, 2, 3, 4 }; 0° < (p¡ < 360° Cuando una dirección de llegada de 270° es más aceptable para los canales de salida de audio AOCi y AOC3 que para el canal de salida de audio AOC2, luego se pueden determinar las ponderaciones gc,¡ por ejemplo, de la siguiente manera gi,¡ = (1.5 + (sin cp¡) / 2 ) / 8 donde i e { 1, 2, 3, 4 }; 0o < <p¡ < 360° g2,¡ = (1 + sin <p¡) / 8 donde i e { 1, 2, 3, 4 }; 0o < cp¡ < 360° g3,j = (1.5 + (sin cp¡) / 2 ) / 8 donde i e { 1 , 2, 3, 4 }; 0o < <p¡ < 360° o de cualquier otra manera adecuada que convenga.

Para realizar la reproducción de señales de audio para diferentes disposiciones de parlantes mediante el empleo de información complementaria descriptiva, se puede emplear por ejemplo, uno o más de los siguientes parámetros: dirección de llegada (horizontal y vertical) diferencia con respecto al oyente ancho de la fuente („difusividad“) En particular con el audio 3D orientado a objetos, se pueden emplear estos parámetros para controlar el mapeo de un objeto con los parlantes del formato objetivo.

Además, estos parámetros pueden estar disponibles, por ejemplo, de manera selectiva de la frecuencia.

Rango de valores de “difusividad": Origen puntual - onda de plano- onda de llegada omnidireccional. Se debe tener en cuenta que la difusividad puede ser diferente de la acústica ambiental (vease, por ej., las voces que llegan de la nada en los largometrajes psicodélicos).

De acuerdo con una forma de realización, el aparato 100 puede estar configurado para alimentar cada uno de los dos o más canales de audio de salida a un parlante de un grupo de dos o más parlantes. El dispositivo de mezcla 120 puede estar configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de cada posición presunta del parlante de un primer grupo de posiciones presuntas de tres o más parlantes y dependiendo de cada posición real del parlante de un segundo grupo de posiciones reales de dos o más parlantes para obtener los dos o más canales de audio de salida. Cada posición real del parlante del segundo grupo de posiciones reales de dos o más parlantes puede indicar la posición de un parlante del grupo de dos o más parlantes.

Por ejemplo, se puede asignar un canal de entrada de audio a la posición presunta de un parlante. Además, se genera un primer canal de salida de audio para un primer parlante en una la posición real del primer parlante, y se genera un segundo canal de salida de audio correspondiente a un segundo parlante en una la posición real del segundo parlante. Si la distancia entre la posición real del primer parlante y la posición presunta del parlante es mejor que la distancia entre la posición real del segundo parlante y la posición presunta del parlante, luego, por ejemplo, el canal de entrada de audio influye sobre el primer canal de salida de audio más que el segundo canal de salida de audio.

Por ejemplo, se puede generar una primera ponderación y una segunda ponderación. La primera ponderación puede depender de la distancia entre la posición real del primer parlante y la posición presunta del parlante. La segunda ponderación puede depender de la distancia entre la posición real del segundo parlante y la posición presunta del parlante. La primera ponderación es mayor que la segunda ponderación. Para generar el primer canal de salida de audio, se puede aplicar la primera ponderación al canal de entrada de audio para generar un primer canal de audio modificado. Para generar el segundo canal de salida de audio, se puede aplicar la segunda ponderación al canal de entrada de audio para generar un segundo canal de audio modificado De igual modo se pueden generar otros canales de audio modificados para los demás canales de salida de audio y/o para los demás canales de entrada de audio, respectivamente. Cada canal de salida de audio de los dos o más canales de audio de salida se puede generar combinando sus canales de audio modificados.

La Fig. 5 ilustra ese mapeo de señales transmitidas de representación espacial sobre las posiciones reales de parlantes. Las posiciones presuntas de parlantes 511, 512, 513, 514 y 515 pertenecen al primer grupo de posiciones presuntas de parlantes. Las posiciones reales de parlantes 521, 522 y 523 pertenecen al el segundo grupo de posiciones reales de parlantes.

Por ejemplo, la forma en que un canal de entrada de audio correspondiente a un parlante presunto en una posición presunta del parlante 512 influye sobre una primera señal de audio de salida correspondiente a un primer parlante real en una posición real del primer parlante 521 y una segunda señal de audio de salida correspondiente a un segundo parlante en una posición real del segundo parlante 522, depende de lo cerca que la posición presunta 512 (o su posición virtual 532) está de la posición real del primer parlante 521 y de la posición real del segundo parlante 522. Cuanto más cerca está la posición presunta del parlante de la posición real del parlante, más influencia tiene el canal de entrada de audio sobre el correspondiente canal de salida de audio.

En la Fig. 5, f indica un canal de entrada de audio correspondiente al parlante en la posición presunta del parlante 512. gi indica un primer canal de salida de audio correspondiente al primer parlante real en la posición real del primer parlante 521, g2 indica un segundo canal de salida de audio correspondiente al segundo parlante real en la posición real del segundo parlante 522, a indica un ángulo azimutal y b indica un ángulo de elevación, donde el ángulo azimutal a y el ángulo de elevación b, por ejemplo, indican una dirección desde una posición real del parlante a una posición presunta del parlante o viceversa.

En una forma de realización, cada canal de entrada de audio de los tres o más canales de audio de entrada puede ser asignado a una posición presunta de parlantes del primer grupo de posiciones presuntas de tres o más parlantes. Por ejemplo, cuando se presume que un canal de entrada de audio ha de ser reproducido por un parlante en una posición presunta del parlante, luego este canal de entrada de audio es asignado a esa posición presunta del parlante. Cada canal de salida de audio de los dos o más canales de audio de salida puede ser asignado a una posición real de parlantes del segundo grupo de posiciones reales de dos o más parlantes. Por ejemplo, cuando un canal de salida de audio ha de ser reproducido por un parlante en una posición real del parlante, luego se asigna este canal de salida de audio a esa posición real del parlante. El dispositivo de mezcla puede estar configurado para generar cada canal de salida de audio de los dos o más canales de audio de salida dependiendo de por lo menos dos de los tres o más canales de audio de entrada, dependiendo de la posición presunta del parlante de cada uno de dichos por lo menos dos de los tres o más canales de audio de entrada y dependiendo de la posición real del parlante de dicho canal de salida de audio.

La Fig. 6 ilustra un mapeo de señales espaciales elevadas contra otros niveles de elevación. Las señales espaciales transmitidas (canales) son canales para parlantes en un plano elevado de parlantes o para parlantes en un plano de parlantes no elevado. Si todos los parlantes reales están situados en un único plano de parlantes (un plano no elevado de parlantes), los canales correspondientes al plano elevado de parlantes deben ser alimentados a los parlantes del plano no elevado de parlantes.

Para este fin, la información complementaria comprende la información sobre la posición presunta del parlante 611 de un parlante en el plano elevado de parlantes. Se determina una correspondiente posición virtual 631 en el plano no elevado de parlantes por medio del dispositivo de mezcla y los canales de audio modificados que se generan modificando el canal de entrada de audio correspondiente al parlante elevado presunto se genera dependiendo de las posiciones reales de parlantes 621, 622, 623, 624 de parlantes existentes en realidad.

Se puede emplear la selectividad de la frecuencia para obtener un control más afinado de la mezcla. Usando el ejemplo de “cantidad de acústica ambiental”, un canal de altura podría comprender tanto componentes espaciales como componentes directos. De modo correspondiente se pueden caracterizar los componentes de frecuencia con propiedades diferentes.

Por ejemplo, el primer canal de entrada de audio comprende una señal de audio de un primer objeto de audio. Puede haber un primer parlante situado en una posición real del primer parlante. Un segundo parlante puede estar ubicado en una posición real del segundo parlante. La distancia entre la posición real del primer parlante y la posición del primer objeto de audio puede ser menor que la distancia entre la posición real del segundo parlante y la posición del primer objeto de audio. Luego, se genera un primer canal de salida de audio correspondiente al primer parlante y un segundo canal de salida de audio correspondiente al segundo parlante, de tal manera que la señal de audio del primer objeto de audio tenga una mayor influencia en el primer canal de salida de audio que en el segundo canal de salida de audio.

Por ejemplo, se puede generar una primera ponderación y una segunda ponderación. La primera ponderación puede depender de la distancia entre la posición real del primer parlante y la posición del primer objeto de audio. La segunda ponderación puede depender de la distancia entre la posición real del segundo parlante y la posición del segundo objeto de audio. La primera ponderación es mayor que la segunda ponderación. Para generar el primer canal de salida de audio, se puede aplicar la primera ponderación a la señal de audio del primer objeto de audio para generar un primer canal de audio modificado. Para generar el segundo canal de salida de audio, se puede aplicar la segunda ponderación a la señal de audio del primer objeto de audio para generar un segundo canal de audio modificado. Del mismo modo se pueden generar otros canales de audio modificados correspondientes a los otros canales de salida de audio y/o a los otros objetos de audio, respectivamente. Cada canal de salida de audio de los dos o más canales de audio de salida se puede generar combinando sus canales de audio modificados.

La Fig. 8 ilustra un sistema de acuerdo con una forma de realización.

El sistema comprende un codificador 810 para codificar tres o más canales de audio sin procesar para obtener tres o más canales de audio codificados, y para codificar información adicional sobre los tres o más canales de audio sin procesar para obtener información complementaria.

Más aun, el sistema comprende un aparato 100 de acuerdo con una de las realizaciones antes descriptas para recibir los tres o más canales de audio codificados en forma de tres o más canales de audio de entrada, para recibir la información complementaria, y para generar, dependiendo de la información complementaria, dos o más canales de audio de salida de los tres o más canales de audio de entrada.

La Fig. 9 presenta otra ilustración de un sistema de acuerdo con una forma de realización. La información orientativa ilustrada es información complementaria. Los M canales de audio codificados, codificados por el codificador 810, son alimentados al aparato 100 (indicado por “mezcla”) para generar los dos o más canales de audio de salida. Se generan N canales de salida de audio mediante la mezcla de los M canales de audio codificados (los canales de audio de entrada del aparato 820). En una forma de realización, se aplica N < M.

Si bien se han descripto algunos aspectos en el contexto de un aparato, es obvio que estos aspectos tambien representan una descripción del método correspondiente, en el cual un bloque o dispositivo corresponde a un paso del método o a una característica de un paso del método. De manera análoga, los aspectos descriptos en el contexto de un paso del método también representan una descripción de un bloque o ítem correspondiente o de una característica de un aparato correspondiente.

La señal de audio descompuesta de la invención puede ser almacenada en un medio de almacenamiento digital o puede ser transmitida por un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión cableado tal como la internet.

Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención pueden ser implementadas en hardware o en software. La implementación se puede realizar empleando un medio de almacenamiento digital, por ejemplo un disco blando, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tiene almacenadas en la misma señales control legibles electrónicamente, que cooperan (o tienen capacidad para cooperar) con un sistema de computación programable de tal manera que se ejecute el método respectivo.

Algunas realizaciones de acuerdo con la invención comprenden un transportador no transitorio de datos que comprende señales de control legibles electrónicamente, con capacidad para cooperar con un sistema de computación programable de tal manera que se ejecute uno de los metodos descriptos en la presente.

En general, las realizaciones de la presente invención pueden ser implementadas en forma de producto programa de computación con un código de programa, donde el código de programa cumple la función de ejecutar uno de los métodos al ejecutarse el programa de computación en una computadora. El código de programa puede ser almacenado, por ejemplo, en un portador legible por una máquina Otras formas de realización comprenden el programa de computación para ejecutar uno de los métodos aquí descriptos, almacenado en un portador legible por una máquina.

En otras palabras, una realización del método de la invención consiste, por lo tanto, en un programa de computación que consta de un código de programa para realizar uno de los métodos aquí descriptos al ejecutarse el programa de computación en una computadora.

Otra forma de realización de los métodos de la invención consiste, por lo tanto, en un portador de datos (o medio de almacenamiento digital, o medio legible por computadora) que comprende, grabado en el mismo, el programa de computación para ejecutar uno de los métodos aquí descriptos.

Otra forma de realización del método de la invención es, por lo tanto, un flujo de datos o una secuencia de señales que representa el programa de computación para ejecutar uno de los métodos aquí descriptos. El flujo de datos o la secuencia de señales pueden estar configurados, por ejemplo, para ser transferida a través de una conexión de comunicación de datos, por ejemplo por la Internet Otra forma de realización comprende un medio de procesamiento, por ejemplo una computadora, un dispositivo lógico programable, configurado o adaptado para ejecutar uno de los métodos aquí descriptos Otra forma de realización comprende una computadora en la que se ha instalado el programa de computación para ejecutar uno de los métodos aquí descriptos En algunas formas de realización, se puede utilizar un dispositivo lógico programable (por ejemplo una matriz de puertas programables en el campo) para ejecutar algunas o todas las funcionalidades de los métodos aquí descriptos. En algunas formas de realización, una matriz de puertas programables en el campo puede cooperar con un microprocesador para ejecutar uno de los métodos aquí descriptos. Por lo general, los métodos son ejecutados preferentemente por cualquier aparato de hardware.

Las realizaciones precedentemente descriptas son meramente ilustrativas de los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y detalles aquí descriptos han de ser evidentes para las personas con capacitación en la téenica. Por lo tanto, sólo es intención limitarse al alcance de las siguientes reivindicaciones de patente y no a los detalles específicos presentados a manera de descripción y explicación de las realizaciones aquí presentadas.

Literatura [1] J.M. Eargle: Stereo/Mono Disc Compatibility: A Survey of the Problems, 35th AES Convention, Octubre de 1968 [2] P. Schreiber: Four Channels and Compatibility, J. Audio Eng. Soc., Vol. 19, Issue 4, abril de 1971 (2) [3] D. Griesinger: Surround from stereo, Workshop #12, 115th AES Convention, 2003 [4] E. C, Cherry (1953): Some experiments on the recognition of speech, with one and with two ears, Journal of the Acoustical Society of America 25, 975979 [5] ITU-R Recommendation BS.775-1 Multi-channel Stereophonic Sound System with or without Accompanying Picture, International Telecommunications Union, Ginebra, Suiza, 1992-1994 [6] D. Griesinger: Progress in 5-2-5 Matrix Systems, 103th AES Convention, septiembre de 1997 [7] J. Hull: Surround sound past, present, and future, Dolby Laboratories, 1999, www.dolby.com/tech/ [8] C. Faller, F. Baumgarte: Binaural Cue Coding Applied to Stereo and Multi - Channel Audio Compression, 112th AES Convention, Munich 2002 [9] C. Faller, F. Baumgarte: Binaural Cue Coding Part II: Schemes y Applications, IEEE Trans. Speech and Audio Proc., vol. 11, no. 6, pp. 520- 531, Nov. 2003 [10] J. Breebaart, J. Herre, C. Faller, J. Rdn, F. Myburg, S. Disch, H. Purnhagen, G. Hotho, M. Neusinger, K. K5ling, W. Oomen: MPEG Spatial Audio Coding / MPEG Surround: OverView and Current Status, 119th AES Convention, octubre de 2005. [11] ISO/IEC 14496-3, Capítulo 4.5.1.2.2 [12] B. Runow, J. Deigmóller: Optimierter Stereo - Downmix von 5.1- Mehrkanalproduktionen (An optimized Stereo Downmix of a multichannel audio production), 25. Tonmeistertagung - VDT International convention, noviembre de 2008 [13] J. Thompson, A. Warner, B. Sm ith: An Active Multichannel Downmix Enhancement for Minimizing Spatial y Spectral Distortions, 127 AES Convention, octubre de 2009 14] C. Faller: Multiple-Parlante Playback of Stereo Signáis. JAES Volume 54 Issue 11 pp. 1051 -1064; noviembre de 2006 [15] AVENDANO, Carlos u. JOT, Jean-Marc: Ambience Extraction y Synthesis from Stereo Signáis for Multi-Channel Audio Mix-Up. In: Proc.or IEEE Internat. Conf. on Acoustics, Speech and Signal Processing (ICASSP), mayo de 2002 [16] US 7,412,380 B1: Ambience extraction and modification for enhancement y upmix of audio signáis [17] US 7,567,845 B1 : Ambience generation for stereo signáis [18] US 2009/0092258 A1: CORRELATION-BASED METHOD FOR AMBIENCE EXTRACTION FROM TWO-CHANNEL AUDIO SIGNALS [19] US 2010/0030563 A1: Uhle, Walther, Herre, Hellmuth, Janssen: APPARATUS AND METHOD FOR GENERATING AN AMBIENT SIGNAL FROM AN AUDIO SIGNAL, APPARATUS AND METHOD FOR DERIVING A MULTI-CHANNEL AUDIO SIGNAL FROM AN AUDIO SIGNAL AND COMPUTER PROGRAM [20] J. Herre, H. Purnhagen, J. Breebaart, C. Faller, S.Disch, K. Kjórling, E.

Schuljers, J. Hilpert, y F. Myburg, The Reference Model Architecture for MPEG Spatial Audio Coding, presentado en la 118a Convención de la Audio Engineering Society, J. Audio Eng. Soc. (Abstracts), vol. 53, pp. 693, 694 (2005 julio/Ago.), documento de la convención 6447 [21] Ville Pulkki: Spatial Sound Reproduction with Directional Audio Coding.

JAES Volume 55 Issue 6 pp. 503-516; junio de 2007 [22] ETSI TS 101 154, Capítulo C [23] MPEG-4 downmix metadata [24] DVB downmix metadata

Claims

REIVINDICACIONES Habiendo así especialmente descripto y determinado la naturaleza de la presente invención y la forma como la misma ha de ser llevada a la práctica, se declara reivindicar como de propiedad y derecho exclusivo: 1. Un aparato (100) para generar dos o más canales de audio de salida de tres o más canales de audio de entrada, donde el aparato (100) comprende: una interfaz de recepción (110) para recibir los tres o más canales de audio de entrada y para recibir información complementaria y un dispositivo de mezcla (120) para efectuar la mezcla de los tres o más canales de audio de entrada dependiendo de la información complementaria para obtener los dos o más canales de audio de salida, donde el número de los canales de salida de audio es menor que el número de los canales de audio de entrada y donde la información complementaria indica una característica de por lo menos uno de los tres o más canales de audio de entrada, o una característica de una o más ondas de sonido grabadas dentro de dicho uno o más canales de entrada de audio, o una característica de una o más fuentes de sonido que emitieran una o más ondas de sonido grabadas dentro de dicho uno o más canales de entrada de audio. 2. Un aparato (100) de acuerdo con la reivindicación 1 , en el cual el dispositivo de mezcla (120) está configurado para generar cada canal de salida de audio de los dos o más canales de audio de salida modificando por lo menos dos canales de entrada de audio de los tres o más canales de audio de entrada dependiendo de la información complementaria para obtener un grupo de canales de audio modificados, y combinando cada canal de audio modificado de dicho grupo de canales de audio modificados para obtener dicho canal de salida de audio. Un aparato (100) de acuerdo con la reivindicación 2, en el cual el dispositivo de mezcla (120) está configurado para generar cada canal de salida de audio de los dos o más canales de audio de salida modificando cada canal de entrada de audio de los tres o más canales de audio de entrada dependiendo de la información complementaria para obtener el grupo de canales de audio modificados, y combinando cada canal de audio modificado de dicho grupo de canales de audio modificados para obtener dicho canal de salida de audio. Un aparato (100) de acuerdo con la reivindicación 2 o 3, en el cual el dispositivo de mezcla (120) está configurado para generar cada canal de salida de audio de los dos o más canales de audio de salida generando cada canal de audio modificado del grupo de canales de audio modificados mediante la determinación de una ponderación dependiendo de un canal de entrada de audio de dicho uno o más canales de entrada de audio y dependiendo de la información complementaria y mediante la aplicación de dicha ponderación a dicho canal de entrada de audio. Un aparato (100) de acuerdo con una de las reivindicaciones anteriores, en el cual la información complementaria indica una cantidad de acústica ambiental de cada uno de los tres o más canales de audio de entrada y donde el dispositivo de mezcla (120) está configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de la cantidad de acústica ambiental de cada uno de los tres o más canales de audio de entrada para obtener los dos o más canales de audio de salida. 6. Un aparato (100) de acuerdo con una de las reivindicaciones anteriores, en el cual la información complementaria indica una difusividad de cada uno de los tres o más canales de audio de entrada o una directividad de cada uno de los tres o más canales de audio de entrada y donde el dispositivo de mezcla (120) está configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de la difusividad de cada uno de los tres o más canales de audio de entrada o dependiendo de la directividad de cada uno de los tres o más canales de audio de entrada para obtener los dos o más canales de audio de salida. 7 Un aparato (100) de acuerdo con o una de las reivindicaciones anteriores, en el cual la información complementaria indica una dirección de llegada de sonido y donde el dispositivo de mezcla (120) está configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de la dirección de llegada de sonido para obtener los dos o más canales de audio de salida. 8 Un aparato (100) de acuerdo con una de las reivindicaciones anteriores, en el cual cada uno de los dos o más canales de audio de salida es un canal de parlante para guiar un parlante. Un aparato (100) de acuerdo con una de las reivindicaciones 1 a 7, donde el aparato (100) está configurado para alimentar cada uno de los dos o más canales de audio de salida a un parlante de un grupo de dos o más parlantes, donde el dispositivo de mezcla (120) está configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de cada posición presunta del parlante de un primer grupo de posiciones presuntas de tres o más parlantes y dependiendo de cada posición real del parlante de un segundo grupo de posiciones reales de dos o más parlantes para obtener los dos o más canales de audio de salida, donde cada posición real de parlante del segundo grupo de posiciones reales de dos o más parlantes indica la posición de un parlante del grupo de dos o más parlantes. Un aparato (100) de acuerdo con la reivindicación 9, en el cual cada canal de entrada de audio de los tres o más canales de audio de entrada es asignado a una posición presunta de parlante del primer grupo de posiciones presuntas de tres o más parlantes, donde cada canal de salida de audio de los dos o más canales de audio de salida es asignado a una posición real de parlante del segundo grupo de posiciones reales de dos o más parlantes y donde el dispositivo de mezcla (120) está configurado para generar cada canal de salida de audio de los dos o más canales de audio de salida dependiendo de por lo menos dos de los tres o más canales de audio de entrada, dependiendo de la posición presunta del parlante de cada uno de dichos por lo menos dos de los tres o más canales de audio de entrada y dependiendo de la posición real del parlante de dicho canal de salida de audio. 11. Un aparato (100) de acuerdo con una de las reivindicaciones 1 a 7, en el cual cada uno de los tres o más canales de audio de entrada comprende una señal de audio de un objeto de audio de tres o más objetos de audio, donde la información complementaria comprende, por cada objeto de audio de los tres o más objetos de audio, la posición de un objeto de audio que indica la posición de dicho objeto de audio y donde el dispositivo de mezcla (120) está configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de la posición del objeto de audio de cada uno de los tres o más objetos de audio para obtener los dos o más canales de audio de salida. 12. Un aparato (100) de acuerdo con una de las reivindicaciones anteriores, en el cual el dispositivo de mezcla (120) está configurado para ejecutar la mezcla de cuatro o más canales de entrada de audio dependiendo de la información complementaria para obtener tres o más canales de salida de audio. 13. Un sistema que comprende: un codificador (810) para codificar tres o más canales de audio sin procesar para obtener tres o más canales de audio codificados, y para codificar información adicional sobre los tres o más canales de audio sin procesar para obtener información complementaria, y un aparato (100) de acuerdo con una de las reivindicaciones anteriores para recibir los tres o más canales de audio codificados as tres o más canales de audio de entrada, para recibir la información complementaria, y para generar, dependiendo de la información complementaria, dos o más canales de audio de salida de los tres o más canales de audio de entrada. Un metodo para generar dos o más canales de audio de salida de tres o más canales de audio de entrada, donde el método comprende: recibir los tres o más canales de audio de entrada y recibir información complementaria y efectuar la mezcla de los tres o más canales de audio de entrada dependiendo de la información complementaria para obtener los dos o más canales de audio de salida, donde el número de los canales de salida de audio es menor que el número de los canales de audio de entrada y donde la información complementaria indica una característica de por lo menos uno de los tres o más canales de audio de entrada, o una característica de una o más ondas de sonido grabadas dentro de dicho uno o más canales de entrada de audio, o una característica de una o más fuentes de sonido que emitieran una o más ondas de sonido grabadas dentro de dicho uno o más canales de entrada de audio. 15. Un programa de computación para implementar el metodo de acuerdo con la reivindicación 14 al ejecutarse en una computadora o en un procesador de señales.