MX2015003195A - Aparato y metodo para proveer funciones mejoradas de mezcla guiada para audio 3d. - Google Patents
Aparato y metodo para proveer funciones mejoradas de mezcla guiada para audio 3d.Info
- Publication number
- MX2015003195A MX2015003195A MX2015003195A MX2015003195A MX2015003195A MX 2015003195 A MX2015003195 A MX 2015003195A MX 2015003195 A MX2015003195 A MX 2015003195A MX 2015003195 A MX2015003195 A MX 2015003195A MX 2015003195 A MX2015003195 A MX 2015003195A
- Authority
- MX
- Mexico
- Prior art keywords
- audio
- channels
- input
- output
- audio channels
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 47
- 230000000295 complement effect Effects 0.000 claims description 47
- 230000005236 sound signal Effects 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 4
- 239000000203 mixture Substances 0.000 description 15
- 230000007613 environmental effect Effects 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 6
- 101000889523 Homo sapiens Retina-specific copper amine oxidase Proteins 0.000 description 5
- 102100039141 Retina-specific copper amine oxidase Human genes 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000009877 rendering Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 4
- 101000694615 Homo sapiens Membrane primary amine oxidase Proteins 0.000 description 3
- 102100027159 Membrane primary amine oxidase Human genes 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 101100059544 Arabidopsis thaliana CDC5 gene Proteins 0.000 description 1
- 101100244969 Arabidopsis thaliana PRL1 gene Proteins 0.000 description 1
- 241000167854 Bourreria succulenta Species 0.000 description 1
- 102100039558 Galectin-3 Human genes 0.000 description 1
- 101100454448 Homo sapiens LGALS3 gene Proteins 0.000 description 1
- 101150115300 MAC1 gene Proteins 0.000 description 1
- 101150051246 MAC2 gene Proteins 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 235000019693 cherries Nutrition 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000001337 psychedelic effect Effects 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
- H04S5/005—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation of the pseudo five- or more-channel type, e.g. virtual surround
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Stereophonic System (AREA)
Abstract
Se presenta un aparato (100) para efectuar la mezcla de tres o más canales de audio de entrada para obtener dos o más canales de audio de salida. El aparato (100) comprende una interfaz de recepción (110) para recibir los tres o más canales de audio de entrada y para recibir información complementaria. Además, el aparato (100) comprende un dispositivo de mezcla (120) para efectuar la mezcla de los tres o más canales de audio de entrada dependiendo de la información complementaria para obtener los dos o más canales de audio de salida. El número de canales de salida de audio es menor que el número de canales de audio de entrada. La información complementaria indica una característica de por lo menos uno de los tres o más canales de audio de entrada, o una característica de una o más ondas de sonido grabadas dentro de dicho uno o más canales de entrada de audio, o una característica de una o más fuentes de sonido que emitieran una o más ondas de sonido grabadas dentro de dicho uno o más canales de entrada de audio.
Description
APARATO Y MÉTODO PARA PROVEER FUNCIONES MEJORADAS DE
MEZCLA GUIADA PARA AUDIO 3D
Descripción
La presente invención se relaciona con el procesamiento de señales de audio y, en particular, con un aparato y un metodo para producir una mezcla mejorada, en particular, para lograr funciones mejoradas de mezcla guiada para audio 3D.
Se utiliza un número creciente de parlantes para la reproducción espacial de sonido. Si bien la reproducción de sonido envolvente tradicional (por ej. 5.1) se limitaba a un solo plano se han introducido nuevos formatos de canales con parlantes elevados en el contexto de la reproducción de audio 3D.
Las señales que se deben reproducir por medio de parlantes solían estar directamente relacionadas con parlantes específicos y se almacenaban y transmitían en forma discreta o paramétrica. Se puede decir de este tipo de formatos, que están supeditados a un número y posición claramente definidos de parlantes del sistema de reproducción de sonido. En consecuencia, se debe considerar un formato de reproducción específico antes de la transmisión o almacenamiento de una señal de audio.
De todos modos, ya hay algunas excepciones a este principio. Por ejemplo, las señales de audio multicanal (por ej. cinco canales de audio envolvente o, por ej., 5.1 canales de audio envolvente) deben ser sometidas a mezcla para la reproducción por dos disposiciones de parlantes estéreo de dos canales. Existen
reglas para la reproducción de cinco canales surround por dos parlantes de un sistema estéreo.
Más aun, cuando se introdujeron los canales estéreo, existía una regla para la reproducción de contenido de audio de los dos canales por un único parlante monoaural.
Dado que el número de formatos y, por consiguiente, las posibles formas de colocar los parlantes, ha de ser casi imposible considerar la disposición de parlantes del sistema de reproducción antes de la transmisión o el almacenamiento. En consecuencia, es necesario adaptar las señales de audio entrantes a la disposición real de parlantes.
Se pueden emplear diferentes métodos para la mezcla de sonido surround a estéreo de dos canales la mezcla en el dominio del tiempo aún utilizada ampliamente con coeficientes estáticos de mezcla a menudo se denomina mezcla ITU [5]. Otras téenicas de mezcla de dominio del tiempo - en parte con ajuste dinámico a los coeficientes de mezcla - se emplean en los codificadores de las técnicas surround de matriz [6], [7].
En [3], se describe que las fuentes de sonido directas mezcladas hacia los canales traseros duplicados en el panorama estéreo de dos canales pueden no ser discernióles debido al enmascaramiento o de otro modo enmascarar otras fuentes de sonido.
En el curso del desarrollo de las tecnologías de codificación de audio espacial (SAC), se introdujeron los algoritmos de mezcla selectivos de la frecuencia como parte del codificador [8], [9]. Específicamente, se pueden reducir
las coloraciones de sonido y se mantiene el balanceo de nivel y la estabilidad de la fuente de sonido aplicando ecualización de energía a los canales de audio así obtenidos. La ecualización de la energía se realiza también en otros sistemas de mezcla [9], [10], [12].
En el caso en que los canales traseros sólo contienen reverberación del tipo de sonido ambiente, la reducción de la acústica ambiental (reverberación, espaciosidad) se resuelve en la mezcla ITU [5] atenuando los canales traseros de la señal multicanal. Si los canales traseros también contienen sonido directo, esta atenuación no es apropiada, ya que las partes directas del canal trasero también se atenuarían en la mezcla. Por lo tanto, es apreciado un algoritmo sofisticado de atenuación de la acústica ambiental.
Los codees de audio como AC-3 y HE-AAC ofrecen un medio para transmitir los denominados metadatos junto con el flujo de audio, incluyendo los coeficientes de mezcla para la mezcla de cinco a dos canales de audio (estéreo). La cantidad de canales de audio seleccionados (canales central, trasero) en la señal estéreo obtenida se controla transmitiendo valores de ganancia. Si bien estos coeficientes pueden ser variables en el tiempo, por lo general se mantienen constantes durante la duración de un ítem de un programa.
La solución empleada en el sistema de matriz "Logic7" introducido en una estrategia adaptativa a la señal, que atenúa los canales posteriores sólo sí se los considera totalmente ambientales. Esto se obtiene comparando la potencia de los canales anteriores con la potencia de los canales posteriores. La presunción de este enfoque es que si los canales posteriores sólo contienen acústica ambiental,
tienen significativamente menos potencia que los canales anteriores. Cuanta más potencia tienen los canales anteriores en comparación con los canales posteriores, más se atenúan los canales posteriores en el proceso de mezcla. Esta presunción puede ser cierta en el caso de algunas producciones envolventes, especialmente con contenido clásico, aunque esta presunción no es real en el caso de otras diversas señales.
Por lo tanto sería muy ventajoso si se dieran a conocer conceptos mejorados para el procesamiento de señales de audio.
El objetivo de la presente invención es dar a conocer conceptos mejorados para el procesamiento de señales de audio. El objetivo de la presente invención se resuelve por medio de un aparato de acuerdo con la reivindicación 1, un sistema de acuerdo con la reivindicación 13, un metodo de acuerdo con la reivindicación 14 y un programa de computación de acuerdo con la reivindicación 15.
Se presenta un aparato para generar dos o más canales de audio de salida de tres o más canales de audio de entrada. El aparato comprende una interfaz de recepción para recibir los tres o más canales de audio de entrada y para recibir información complementaria. Además, el aparato comprende un dispositivo de mezcla para efectuar la mezcla de los tres o más canales de audio de entrada dependiendo de la información complementaria para obtener los dos o más canales de audio de salida. El número de los canales de salida de audio es menor que el número de los canales de audio de entrada. La información complementaria indica una característica de por lo menos uno de los tres o más canales de audio de entrada, o una característica de una o más ondas de sonido grabadas dentro
de dicho uno o más canales de entrada de audio, o una característica de una o más fuentes de sonido que emitieran una o más ondas de sonido grabadas dentro de dicho uno o más canales de entrada de audio.
Las realizaciones se basan en el concepto de la transmisión de información complementaria junto con las señales de audio para guiar el proceso de conversión de formato del formato de la señal de audio entrante al formato del sistema de reproducción.
De acuerdo con una forma de realización, el dispositivo de mezcla puede estar configurado para generar cada canal de salida de audio de los dos o más canales de audio de salida mediante la modificación de por lo menos dos canales de entrada de audio de los tres o más canales de audio de entrada dependiendo de la información complementaria para obtener un grupo de canales de audio modificados, y combinando cada canal de audio modificado de dicho grupo de canales de audio modificados para obtener dicho canal de salida de audio.
En una forma de realización, el dispositivo de mezcla puede estar configurado, por ejemplo, para generar cada canal de salida de audio de los dos o más canales de audio de salida modificando cada canal de entrada de audio de los tres o más canales de audio de entrada dependiendo de la información complementaria para obtener el grupo de canales de audio modificados, y combinando cada canal de audio modificado of dicho grupo de canales de audio modificados para obtener dicho canal de salida de audio.
De acuerdo con una forma de realización, el dispositivo de mezcla puede estar configurado, por ejemplo, para generar cada canal de salida de audio de los dos o más canales de audio de salida generando cada canal de audio modificado del grupo de canales de audio modificados mediante la determinación de una ponderación dependiendo de un canal de entrada de audio de dicho uno o más canales de entrada de audio y dependiendo de la información complementaria y mediante la aplicación de dicha ponderación a dicho canal de entrada de audio.
En una forma de realización, la información complementaria puede indicar una cantidad de efectos ambientales de cada uno de los tres o más canales de audio de entrada. El dispositivo de mezcla puede estar configurada para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de la cantidad de acústica ambiental de cada uno de los tres o más canales de audio de entrada para obtener los dos o más canales de audio de salida.
De acuerdo con otra forma de realización, la información complementaria puede indicar una difusividad de cada uno de los tres o más canales de audio de entrada o la directividad de cada uno de los tres o más canales de audio de entrada. El dispositivo de mezcla puede estar configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de la difusividad de cada uno de los tres o más canales de audio de entrada o dependiendo de la directividad de cada uno de los tres o más canales de audio de entrada para obtener los dos o más canales de audio de salida.
En otra forma de realización, la información complementaria puede indicar una dirección de llegada de sonido. El dispositivo de mezcla puede estar
configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de la dirección de llegada de sonido para obtener los dos o más canales de audio de salida.
En una forma de realización, cada uno de los dos o más canales de audio de salida puede ser un canal de parlante para guiar un parlante.
De acuerdo con una forma de realización, el aparato puede estar configurado para alimentar cada uno de los dos o más canales de audio de salida a un parlante de un grupo de dos o más parlantes. El dispositivo de mezcla puede estar configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de cada posición presunta del parlante de un primer grupo de posiciones presuntas de tres o más parlantes y dependiendo de cada posición real del parlante de un segundo grupo de posiciones reales dos o más de parlantes para obtener los dos o más canales de audio de salida. Cada posición real de parlante del segundo grupo de posiciones reales de dos o más parlantes puede indicar la posición de un parlante del grupo de dos o más parlantes.
En una forma de realización, cada canal de entrada de audio de los tres o más canales de audio de entrada puede ser asignado a una posición presunta del parlante del primer grupo de posiciones presuntas de tres o más parlantes. Cada canal de salida de audio de los dos o más canales de audio de salida puede ser asignado a una posición real de parlante del segundo grupo de posiciones reales de dos o más parlantes. El dispositivo de mezcla puede estar configurado para generar cada canal de salida de audio de los dos o más canales de audio de salida dependiendo de por lo menos dos de los tres o más canales de audio de
entrada, dependiendo de la posición presunta del parlante de cada uno de dichos por lo menos dos de los tres o más canales de audio de entrada y dependiendo de la posición real del parlante de dicho canal de salida de audio.
De acuerdo con una forma de realización, cada uno de los tres o más canales de audio de entrada comprende una señal de audio de un objeto de audio de tres o más objetos de audio. La información complementaria comprende, por cada objeto de audio de los tres o más objetos de audio, la posición de un objeto de audio que indica la posición de dicho objeto de audio. El dispositivo de mezcla está configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de la posición del objeto de audio de cada uno de los tres o más objetos de audio para obtener los dos o más canales de audio de salida.
En una forma de realización, el dispositivo de mezcla está configurado para ejecutar la mezcla de cuatro o más canales de entrada de audio dependiendo de la información complementaria para obtener tres o más canales de salida de audio.
Se presenta además un sistema. El sistema comprende un codificador para codificar tres o más canales de audio sin procesar para obtener tres o más canales de audio codificados, y para codificar información adicional sobre los tres o más canales de audio sin procesar para obtener información complementaria. Más aun, el sistema comprende un aparato de acuerdo con una de las realizaciones antes descriptas para recibir los tres o más canales de audio codificados en forma de tres o más canales de audio de entrada, para recibir la información complementaria, y para generar, dependiendo de la información
complementaria, dos o más canales de audio de salida a partir de los tres o más canales de audio de entrada.
Se presenta asimismo un método para generar dos o más canales de audio de salida a partir de tres o más canales de audio de entrada. El método comprende:
Recibir los tres o más canales de audio de entrada y recibir información complementaria y:
Efectuar la mezcla de los tres o más canales de audio de entrada dependiendo de la información complementaria para obtener los dos o más canales de audio de salida.
El número de canales de salida de audio es menor que el número de canales de audio de entrada. Los canales de audio de entrada comprenden una grabación de un sonido emitido por una fuente de sonido, y donde la información complementaria indica una característica de sonido o una característica de la fuente de sonido.
Por añadidura, se da a conocer un programa de computación para implementar el método antes descripto al ejecutarse en una computadora o en un procesador de señales.
A continuación se describen las realizaciones de la presente invención en forma más detallada con referencia a las figuras, en las cuales:
La Fig. 1 es un aparato para la mezcla de tres o más canales de audio de entrada para obtener dos o más canales de audio de salida de acuerdo con una forma de realización,
La Fig.2 ilustra un dispositivo de mezcla de acuerdo con una forma de realización,
La Fig. 3 ilustra una situación de acuerdo con una forma de realización, donde cada uno de los canales de salida de audio se genera dependiendo de cada uno de los canales de audio de entrada,
La Fig.4 ilustra otro contexto de acuerdo con una forma de realización, donde cada uno de los canales de salida de audio se genera dependiendo de exactamente dos de los canales de audio de entrada,
La Fig. 5 ilustra un mapeo de señales transmitidas de representación espacial sobre la posición real de parlantes,
La Fig.6 ilustra un mapeo de señales espaciales elevadas con otros niveles de elevación,
La Fig.7 ilustra dicha renderización de una señal de origen correspondiente a diferentes posiciones de parlantes,
La Fig.8 ilustra un sistema de acuerdo con una forma de realización, y
La Fig.9 es otra ilustración de un sistema de acuerdo con una forma de realización.
La Fig. 1 ilustra un aparato 100 para generar dos o más canales de audio de salida a partir de tres o más canales de audio de entrada de acuerdo con una forma de realización.
El aparato 100 comprende una interfaz de recepción 110 para recibir los tres o más canales de audio de entrada y para recibir información complementaria.
Además, el aparato 100 comprende un dispositivo de mezcla 120 para efectuar la mezcla de los tres o más canales de audio de entrada dependiendo de la información complementaria para obtener los dos o más canales de audio de salida.
El número de canales de salida de audio es menor que el número de canales de audio de entrada. La información complementaria indica una característica de por lo menos uno de los tres o más canales de audio de entrada, o una característica de una o más ondas de sonido grabadas dentro de dicho uno o más canales de entrada de audio, o una característica de una o más fuentes de sonido que emitieran una o más ondas de sonido grabadas dentro de dicho uno o más canales de entrada de audio.
La Fig. 2 expone un dispositivo de mezcla 120 de acuerdo con una forma de realización en una ilustración adicional. La información orientativa ilustrada en la Fig.2 es información complementaria.
La Fig. 7 ilustra la renderfeación de una señal de origen correspondiente a diferentes posiciones de parlante·. Las funciones de transferencia de renderización pueden depender dd toa ángulos (azimut y elevación) que indican, por ej., una dirección de llegada de una onda de sonido, pueden depender de una distancia, por ej., una dlilincia desde una fuente de sonido a un micrófono para grabar y/o pueden depender de una difusividad, donde estos parámetros pueden ser, por ej., dependientes de la frecuencia.
A diferencia de las estrategias de mezcla ciega, por ej., las teenicas de mezcla no guiada, de acuerdo con las realizaciones, se transmiten datos de
control o información descriptiva junto con la señal de audio para que influya sobre el proceso de mezcla del lado del receptor de la cadena de señales. Esta información complementaria puede ser calculada del lado del emisor/codificador de la cadena de señales o puede ser provista por una entrada del usuario. La información complementaria se puede transmitir, por ejemplo, en un flujo de bits, por ej., multiplexada con una señal de audio codificada.
De acuerdo con una forma de realización específica, el dispositivo de mezcla 120 puede estar configurado, por ejemplo, para efectuar la mezcla de cuatro o más canales de entrada de audio dependiendo de la información complementaria para obtener tres o más canales de salida de audio.
En una forma de realización, cada uno de los dos o más canales de audio de salida puede ser, por ej., un canal de parlante para guiar un parlante.
Por ejemplo, en otra forma de realización específica, el dispositivo de mezcla 120 puede estar configurado para ejecutar la mezcla de siete canales de entrada de audio para obtener tres o más canales de salida de audio. En otra forma de realización específica, el dispositivo de mezcla 120 puede estar configurado para ejecutar la mezcla de nueve canales de entrada de audio para obtener tres o más canales de salida de audio. En otra forma de realización específica, el dispositivo de mezcla 120 puede estar configurado para ejecutar la mezcla de 24 canales para obtener tres o más canales de salida de audio.
En otra forma de realización específica, el dispositivo de mezcla 120 puede estar configurado para ejecutar la mezcla de siete o más canales de entrada de audio para obtener exactamente cinco canales de salida de audio, por ej. para
obtener cinco canales de audio of un sistema envolvente de cinco canales. En otra forma de realización específica, el dispositivo de mezcla 120 puede estar configurado para ejecutar la mezcla de siete o más canales de entrada de audio para obtener exactamente seis canales de salida de audio, por ej., seis canales de audio of un sistema envolvente 5.1.
De acuerdo con una forma de realización, el dispositivo de mezcla puede estar configurado para generar cada canal de salida de audio de los dos o más canales de audio de salida modificando por lo menos dos canales de entrada de audio de los tres o más canales de audio de entrada dependiendo de la información complementaria para obtener un grupo de canales de audio modificados, y combinando cada canal de audio modificado de dicho grupo de canales de audio modificados para obtener dicho canal de salida de audio.
En una forma de realización, el dispositivo de mezcla puede estar configurado, por ejemplo, para generar cada canal de salida de audio de los dos o más canales de audio de salida modificando cada canal de entrada de audio de los tres o más canales de audio de entrada dependiendo de la información complementaria para obtener el grupo de canales de audio modificados, y combinando cada canal de audio modificado de dicho grupo de canales de audio modificados para obtener dicho canal de salida de audio.
De acuerdo con una forma de realización, el dispositivo de mezcla 120 puede estar configurado, por ejemplo, para generar cada canal de salida de audio de los dos o más canales de audio de salida generando cada canal de audio modificado del grupo de canales de audio modificados mediante la determinación
de una ponderación dependiendo de un canal de entrada de audio de dicho uno o más canales de entrada de audio y dependiendo de la información complementaria y mediante la aplicación de dicha ponderación a dicho canal de entrada de audio.
La Fig. 3 ilustra ese tipo de forma de realización. Cada canal de salida de audio (AOCi, AOC2, AOC3) depende de cada uno de los canales de audio de entrada (AIC1, AIC2, AIC3, AIC4).
Por ejemplo, se considera el primer canal de salida de audio AOC-i.
El dispositivo de mezcla 120 está configurado para determinar una ponderación g^-i, g >2, gi,3, g-i,4 por cada canal de entrada de audio AIC1, AIC2, AIC3, AIC4 dependiendo del canal de entrada de audio y dependiendo de la información complementaria. Además, el dispositivo de mezcla 120 está configurado para aplicar cada ponderación gi,i, gi,2l gi,3, i,4a su canal de entrada de audio AIC1, AIC2, AIC3, AIC4.
Por ejemplo, el dispositivo de mezcla puede estar configurado para aplicar una ponderación a su canal de entrada de audio multiplicando cada muestra en el dominio del tiempo del canal de entrada de audio por la ponderación (por ej., cuando el canal de entrada de audio está representado en el dominio del tiempo). O, por ejemplo, el dispositivo de mezcla puede estar configurado para aplicar una ponderación a su canal de entrada de audio multiplicando cada valor espectral del canal de entrada de audio por la ponderación (por ej., cuando el canal de entrada de audio está representado en el dominio espectral, el dominio de la frecuencia o el dominio de tiempo-frecuencia). Luego se combinan los canales de audio
modificados obtenidos (MAC1 1, MAC-1,2, MAC13, MAC 1,4) como resultado de la aplicación de ponderaciones gi,-i, g-i.2, gi,3, gi,4, por ejemplo se suman, para obtener uno de los canales de salida de audio AOC .
El segundo canal de salida de audio AOC2 se determina de manera análoga mediante la determinación de las ponderaciones g2,i, g2,2, g2,3, g2,4, por la aplicación de cada una de las ponderaciones a su canal de entrada de audio AIC1, AIC2, AIC3, AIC4, y la combinación de los canales de audio modificados así obtenidos MAC2 1, MAC2,2, MAC2,3, MAC2,4.
Del mismo modo, el tercer canal de salida de audio AOC2 se determina de manera análoga mediante la determinación de las ponderaciones g31, g3,2 g3,3. g34, por la aplicación de cada una de las ponderaciones a su canal de entrada de audio AIC1, AIC2, AIC3, AIC4, y la combinación de los canales de audio modificados así obtenidos MAC3.1, MAC3,2, MAC3,3, MAC34.
La Fig. 4 ilustra una forma de realización, donde cada uno de los canales de salida de audio no se genera modificando cada canal de entrada de audio de los tres o más canales de audio de entrada, sino que cada uno de los canales de salida de audio se genera modificando sólo dos de los canales de audio de entrada y combinando estos dos canales de entrada de audio.
Por ejemplo, en la Fig. 4, se reciben cuatro canales como canales de entrada de audio (LS1 = canal de entrada envolvente izquierdo; L1 = canal de entrada izquierdo; R1 = canal de entrada derecho; RS1 = canal de entrada envolvente derecho) y se generan tres canales de salida de audio (L2 = canal de
salida izquierdo; R2 = canal de salida derecho; C2 = canal de salida central) mediante la mezcla de los canales de audio de entrada.
En la Fig. 4, el canal de salida izquierdo L2 se genera dependiendo del canal de entrada envolvente izquierdo LSi y dependiendo del canal de entrada izquierdo Li. Para este fin, el dispositivo de mezcla 120 genera una ponderación gi i correspondiente al canal de entrada envolvente izquierdo LSi dependiendo de la información complementaria y genera una ponderación gi 2 correspondiente al canal de entrada izquierdo Li dependiendo de la información complementaria y aplica cada una de las ponderaciones a su canal de entrada de audio para obtener el canal de salida izquierdo L2.
Además, el canal de salida central C2 se genera dependiendo del canal de entrada izquierdo U y dependiendo del canal de entrada derecho Ri. Para este fin, el dispositivo de mezcla 120 genera una ponderación g2,2 correspondiente al canal de entrada izquierdo Li dependiendo de la información complementaria y genera una ponderación g23 correspondiente al canal de entrada derecho Ri dependiendo de la información complementaria y aplica cada una de las ponderaciones a su canal de entrada de audio para obtener el canal de salida central C2.
Más aun, el canal de salida derecho R2 se genera dependiendo del canal de entrada derecho Ri y dependiendo del canal de entrada envolvente derecho RSi. Para este fin, el dispositivo de mezcla 120 genera una ponderación g3,3 correspondiente al canal de entrada derecho Ri dependiendo de la información complementaria y genera una ponderación g3,4 correspondiente al canal de
entrada envolvente derecho RSi dependiendo de la información complementaria y aplica cada una de las ponderaciones a su canal de entrada de audio para obtener el canal de salida izquierdo R2.
Motivan las realizaciones de la presente invención los siguientes hallazgos: La teenología actual produce coeficientes de mezcla como metadatos en el flujo de bits.
Una estrategia consistiría en extender la tecnología actual mediante coeficientes de mezcla selectivos de la frecuencia, más canales (por ej., canales de audio, de la configuración original de canales, por ej. información de altura) y/o formatos adicionales para usar en la configuración objetivo de los canales. En otras palabras, la matriz de mezcla para los formatos de audio 3D audio se debe extender según los canales adicionales del formato de entrada, en particular por los canales de altura de los formatos de audio 3D. Respecto de los formatos adicionales, el audio 3D debe admitir una multitud de formatos de salida. Si bien con una señal 5.0 o 5.1 se puede efectuar una mezcla sólo en estereo, o posiblemente mono, con configuraciones de canales que comprenden un mayor número de canales, se debe tener presente que hay varios formatos de salida relevantes. Con 22.2 canales, estos podrían ser mono, estéreo, 5.1 o variantes 7.1 diferentes, etc.
Sin embargo, las velocidades de transmisión de bits esperadas para la transmisión de estos coeficientes extendidos se incrementarían significativamente. En cuanto a los formatos específicos, puede ser razonable definir coeficientes
adicionales de mezcla y combinarlos con los metadatos de mezcla existentes (véase la propuesta de 7.1 a MPEG, documento emitido N12980).
En el contexto del audio 3D, las combinaciones esperadas de configuraciones de canales del lado del emisor y el receptor son numerosas y la cantidad de datos irá más allá de las velocidades de transmisión de bits aceptables. De todos modos, la reducción de redundancia (por ej. la codificación de huffman) podría reducir la cantidad de datos a una proporción admisible.
Además, los coeficientes de mezcla antes descriptos pueden ser caracterizados paramétricamente.
Sin embargo, de todas maneras las velocidades estimadas de transmisión de bits se incrementarían significativamente por esa téenica.
De lo que antecede surge que, por lo general no es viable extender las técnicas establecidas, y una razón de ello es que, como consecuencia, las velocidades de datos crecerían en forma desproporcionada.
Una especificación genérica de mezcla en el dominio del tiempo se podría formular de la siguiente manera:
yn(t) — Cnm Xm(t)
donde y(t) es la señal de salida de una mezcla x(t) es la señal de entrada, n es el índice del canal de entrada de audio, m es el índice del canal de salida de audio. El coeficiente de mezcla de m° canal de entrada en el n° canal de salida
corresponde a cnm· Un ejemplo conocido es la mezcla de una señal de 5 canales y una señal estereo de 2 canales con:
L t ) = L(t) + cc C(t ) + cR · LS(t )
R í) = R{t) + cc C t) + cR RS{t)
Los coeficientes de mezcla son estáticos y se aplican a cada muestra de la señal de audio. Se los puede agregar en forma de metadatos al flujo de bits de audio. El término "coeficientes de mezcla selectivos de la frecuencia” se utiliza con referencia a la posibilidad de utilizar coeficientes de mezcla separados para bandas de frecuencia específicas. En combinación con los coeficientes variables en el tiempo, se puede controlar la mezcla del lado del decodificador desde el codificador. La especificación de mezcla correspondiente a un cuadro de audio es entonces:
yn(k, S) = Cnm(k) Xm(k, s),
donde k es la banda de frecuencia (por ej. una banda QMF híbrida), s representa las submuestras de una banda QMF híbrida.
Como se describiera anteriormente, la transmisión de estos coeficientes daría como resultado altas velocidades de transmisión de bits.
Las realizaciones de la presente invención dan a conocer el empleo de información complementaria descriptiva. El dispositivo de mezcla 120 está configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de dicha información complementaria (descriptiva) para obtener los dos o más canales de audio de salida.
La información descriptiva sobre los canales de audio, la combinación de canales de audio u objetos de audio, puede mejorar el proceso de mezcla, ya que se pueden tomar en cuenta las características de las señales de audio.
En general esa información complementaria indica una característica de por lo menos uno de los tres o más canales de audio de entrada, o una característica de una o más ondas de sonido grabadas dentro de dicho uno o más canales de entrada de audio, o una característica de una o más fuentes de sonido que emitieran una o más ondas de sonido grabadas dentro de dicho uno o más canales de entrada de audio.
Los ejemplos de información complementaria pueden ser uno o más de los siguientes parámetros:
Relación Seco/húmedo
Cantidad de efectos de acústica ambiental
Difusividad
- Directividad
Ancho de la fuente de sonido
Distancia de la fuente de sonido
Dirección de llegada
Las definiciones de estos parámetros son muy conocidas por una persona con capacitación en la teenica. Se pueden encontrar definiciones de estos parámetros en la literatura adjunta (véase [1] - [24]). Por ejemplo, se ofrece una definición correspondiente a la cantidad de sonido envolvente en [15], [16], [17], [18], [19] y [14]. La definición correspondiente a la relación seco/húmedo se puede deducir inmediatamente de la definición de directo/ambiente, como es de conocimiento de la persona con capacitación en la técnica.. Los términos directividad y difusividad se explican en [21] y también son muy conocidos por la persona con capacitación en la técnica.
Los parámetros sugeridos se presentan como información complementaria para guiar el proceso de renderización que genera una señal de salida de N canales a partir de la señal de entrada de M canales donde - en el caso de la mezcla - N es menor que M.
Los parámetros que se incluyen como información complementaria no son necesariamente constantes. Por el contrario, los parámetros pueden variar con el tiempo (los parámetros pueden ser variables en el tiempo).
En general, la información complementaria puede comprender parámetros que se pueden obtener de manera selectiva de la frecuencia.
La aplicación de la información complementaria transmitida se lleva a cabo en un post procesamiento/renderización del lado del decodificador. La evaluación de los parámetros y su ponderación depende de la configuración objetivo de los canales y de otras características del lado de la transmisión.
Los parámetros mencionados pueden ser relativos a canales, grupos de canales u objetos.
Los parámetros se pueden utilizar en un proceso de mezcla a fin de determinar la ponderación de un canal u objeto durante la mezcla e realizada por el dispositivo de mezcla 120.
Por ejemplo: si un canal de altura contiene exclusivamente reverberación y reflexiones, podría tener un efecto negativo sobre la calidad de sonido durante la mezcla. En este caso, su participación en el canal de audio producido como resultado de la mezcla e debe ser, por lo tanto, pequeña. Al controlar la mezcla, un valor elevado del parámetro “cantidad de acústica ambiental” daría como resultado, por consiguiente, bajos coeficientes de mezcla para ese canal. Por el contrario, si contiene señales directas, se debería reflejar en mayor grado en el canal de audio producido como resultado de la mezcla y, por lo tanto, daría origen a coeficientes de mezcla más elevados (con mayor ponderación).
Por ejemplo, los canales de altura de la producción de audio 3D pueden contener componentes de señales directas como sí tambien reflexiones y reverberaciones con el fin de lograr la envolvencia. Si estos canales de altura se mezclan con los canales del plano horizontal, el resultado de esto último sería perjudicial en la mezcla obtenida, en tanto que el contenido de audio del primer plano de los componentes directos debe ser sometido a mezcla en su totalidad.
La información se puede utilizar para ajustar los coeficientes de mezcla (cuando resultare apropiado en forma selectiva de la frecuencia). Esta observación
se aplica a todos los parámetros antes citados. La selectividad de la frecuencia puede permitir un control más afinado de la mezcla.
Por ejemplo, la ponderación que se aplica a un canal de entrada de audio para obtener un canal de audio modificado se puede determinar en consecuencia dependiendo la respectiva información complementaria.
Por ejemplo, si los canales de un plano anterior (por ej. un canal izquierdo, central o derecho de un sistema envolvente) se generan como canales de salida de audio, y no canales de fondo (tales como el canal envolvente izquierdo o el canal envolvente derecho de un sistema envolvente), luego:
- Si la información complementaria indica que la cantidad de acústica ambiental de un canal de entrada de audio es elevada, luego se puede determinar una pequeña ponderación correspondiente a este canal de entrada de audio para generar el canal de salida de audio del plano anterior. De esta manera, el canal de audio modificado producido como resultado de este canal de entrada de audio sólo es tomado ligeramente en cuenta para generar el respectivo canal de salida de audio.
Si la información complementaria que la cantidad de acústica ambiental de un canal de entrada de audio es baja, luego se puede determinar una mayor ponderación para este canal de entrada de audio para generar el canal de salida de audio del plano anterior. De esta manera, el canal de audio modificado producido como resultado de este canal de entrada de audio es tomado en cuenta ampliamente generar el respectivo canal de salida de audio.
En una forma de realización, la información complementaria puede indicar una cantidad de acústica ambiental de cada uno de los tres o más canales de audio de entrada. El dispositivo de mezcla puede estar configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de la cantidad de acústica ambiental de cada uno de los tres o más canales de audio de entrada para obtener los dos o más canales de audio de salida.
Por ejemplo, la información complementaria puede comprender un parámetro que especifica una cantidad de acústica ambiental por cada canal de entrada de audio de los tres o más canales de audio de entrada. Por ej., cada canal de entrada de audio puede comprender porciones de señales ambientes y/o porciones de señales directas. Por ejemplo, la cantidad de acústica ambiental de un canal de entrada de audio se puede especificar en forma de número real a, donde i indica uno de los tres o más canales de audio de entrada, y donde a¡ podría estar, por ejemplo, en el rango de 0 £ a¡ £ 1. a¡ = 0 puede indicar que el respectivo canal de entrada de audio no comprende ninguna porción de señal ambiental. a¡ = 1 puede indicar que el respectivo canal de entrada de audio comprende sólo porciones de señales ambientales. En general, una cantidad de acústica ambiental de un canal de entrada de audio puede indicar, por ej., una cantidad de porciones de señales ambientales dentro del canal de entrada de audio.
Por ejemplo, volviendo a la Fig. 3, en una forma de realización, se podría decidir que las porciones de señales ambientales son siempre inadmisibles. Un
dispositivo correspondiente de mezcla 120 puede determinar las ponderaciones de la Fig.3, por ejemplo, de acuerdo con la fórmula:
gc,¡ = (1 - a¡) / 4 donde c e { 1, 2, 3}; i e { 1, 2, 3, 4}; 0 < a¡ < 1 En esa forma de realización, todas las ponderaciones se determinan de igual manera para cada uno de los tres o más canales de salida de audio.
Sin embargo, en el caso de otras realizaciones, se puede decidir que, para algunos canales de salida de audio, la acústica ambiental es más aceptables que en el caso de otros canales de salida de audio. Por ejemplo, se puede decidir que, en una forma de realización de acuerdo con la Fig. 3, la acústica ambiental es más aceptable para el primer canal de salida de audio AOCi y para el tercer canal de salida de audio AOC3 que para el segundo canal de salida de audio AOC2. Luego, un dispositivo correspondiente de mezcla 120 puede determinar las ponderaciones de la Fig.3, por ejemplo, de acuerdo con la fórmula:
gi,¡ = (1 - (a¡/2) ) 14 donde i e { 1, 2, 3, 4 }; 0 < a¡ < 1 g2,¡ = (1— a¡) / 4 donde i e { 1 , 2, 3, 4 }; 0 < a¡ < 1 g3,í = (1— (a, / 2) ) / 4 donde i e { 1, 2, 3, 4}; 0 < a¡ £ 1
En esa forma de realización, las ponderaciones de uno de los tres o más canales de salida de audio se determinan de manera diferente de las ponderaciones de otro de los tres o más canales de salida de audio.
Las ponderaciones de la Fig. 4 se pueden determinar de manera similar que en los dos ejemplos descriptos con respecto a la Fig. 3, por ejemplo, de manera análoga el primer ejemplo, a saber:
gi.i = (1 - a ¡) / 2; g-i.2 = (1 - a ¡) / 2; g2.2 = (1 - a¡) / 2;
g2,3 = (1 - a i) / 2; g3,3 = (1 - a ¡) / 2; g3,4 = (1 - a¡) / 2;
Las ponderaciones gc,¡ de la Fig. 3 y la Fig. 4 tambien se pueden determinar de cualquier otra manera adecuada y conveniente.
De acuerdo con otra forma de realización, la información complementaria puede indicar una difusividad de cada uno de los tres o más canales de audio de entrada o una directividad de cada uno de los tres o más canales de audio de entrada. El dispositivo de mezcla puede estar configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de la difusividad de cada uno de los tres o más canales de audio de entrada o dependiendo de la directividad de cada uno de los tres o más canales de audio de entrada para obtener los dos o más canales de audio de salida.
En esa forma de realización, la información complementaria puede comprender, por ejemplo, un parámetro que especifica la difusividad correspondiente a cada canal de entrada de audio de los tres o más canales de audio de entrada. Por ej., cada canal de entrada de audio puede comprender porciones de señales difusas y/o porciones de señales directas. Por ejemplo, la difusividad de un canal de entrada de audio puede estar especificada en forma de
número real d¡, donde i indica uno de los tres o más canales de audio de entrada, y donde d¡ podría estar, por ejemplo, en el rango de 0 < d¡ < 1. d¡ = 0 puede indicar que el respectivo canal de entrada de audio no comprende porciones de señales difusas. d¡ = 1 puede indicar que el respectivo canal de entrada de audio comprende sólo porciones de señales difusas. En general, la difusividad de un canal de entrada de audio puede indicar, por ej., una cantidad de porciones de señales difusas dentro del canal de entrada de audio.
Las ponderaciones gc,¡ se pueden determinar, en el caso ¡lustrado en la Fig. 3, por ejemplo, de la siguiente manera
gc,¡ = (1 - d¡) / 4 donde c e { 1, 2, 3 }; i e { 1, 2, 3, 4 }; 0 < d¡ < 1
o, por ejemplo, como
g-i,? = (1— (d¡ / 2) ) / 4 donde i e { 1, 2, 3, 4 }; 0 < d¡ < 1
g2,¡ = (1 - d¡) / 4 donde i e { 1 , 2, 3, 4 }; 0 < d¡ < 1
g3,¡ = (1— (d¡ / 2) ) / 4 donde i <= { 1, 2, 3, 4 }; 0 < d¡ < 1
o de cualquier otra manera adecuada que convenga.
De lo contrario, la información complementaria puede comprender, por ejemplo, un parámetro que especifica la directividad correspondiente a cada canal de entrada de audio de los tres o más canales de audio de entrada. Por ejemplo, la directividad de un canal de entrada de audio puede ser especificada en forma
de número real d¡, donde i indica uno de los tres o más canales de audio de entrada, y donde d¡ podría estar, por ejemplo, en el rango de 0 < dir¡ < 1. dir¡ = 0 puede indicar que las porciones de señales del respectivo canal de entrada de audio tienen baja directividad. dir¡ = 1 puede indicar que las porciones de señales del respectivo canal de entrada de audio tienen alta directividad.
Las ponderaciones gc,¡ se pueden determinar, en el caso ilustrado en la Fig. 3, por ejemplo, de la siguiente manera
gc,¡ = dir¡ / 4 donde c e {1,2,3}; i e {1,2, 3, 4}; 0<dir¡<1
o, por ejemplo, como
gi,i = 0,125 + dir¡/8 donde i e {1,2, 3, 4}; 0 £ dir¡ < 1
g2,¡ = din / 4 donde i e { 1, 2, 3, 4}; 0 £ dir¡ < 1
g3,¡ = 0,125 + dir¡/8 donde i e {1,2, 3, 4}; 0<dir¡<1
o de cualquier otra manera adecuada que convenga.
En otra forma de realización, la información complementaria puede indicar una dirección de llegada de sonido. El dispositivo de mezcla puede estar configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de la dirección de llegada de sonido para obtener los dos o más canales de audio de salida.
Por ejemplo, una dirección de llegada, por ej., una dirección de llegada de una onda de sonido. Por ejemplo, la dirección de llegada de una onda de sonido grabada por un canal de entrada de audio puede ser especificada en forma de ángulo cp¡, donde I indica uno de los tres o más canales de audio de entrada, donde <p¡ podría estar, por ej., en el rango de 0o < q>¡ < 360°. Por ejemplo, las porciones de sonido de ondas de sonido con una dirección de llegada próxima a 90° han de tener una elevada ponderación y las ondas de sonido con una dirección de llegada cercana a 270° han de tener una baja ponderación o no tener ponderación alguna en absoluto en la señal de salida de audio. Las ponderaciones gc,¡ se pueden determinar, en el caso ilustrado en la Fig. 3, por ejemplo, de la siguiente manera
ge, i = (1 + sin <p¡) / 8 donde C e { 1, 2, 3 }; i e { 1, 2, 3, 4 }; 0° < (p¡ < 360°
Cuando una dirección de llegada de 270° es más aceptable para los canales de salida de audio AOCi y AOC3 que para el canal de salida de audio AOC2, luego se pueden determinar las ponderaciones gc,¡ por ejemplo, de la siguiente manera
gi,¡ = (1.5 + (sin cp¡) / 2 ) / 8 donde i e { 1, 2, 3, 4 }; 0o < <p¡ < 360° g2,¡ = (1 + sin <p¡) / 8 donde i e { 1, 2, 3, 4 }; 0o < cp¡ < 360° g3,j = (1.5 + (sin cp¡) / 2 ) / 8 donde i e { 1 , 2, 3, 4 }; 0o < <p¡ < 360°
o de cualquier otra manera adecuada que convenga.
Para realizar la reproducción de señales de audio para diferentes disposiciones de parlantes mediante el empleo de información complementaria descriptiva, se puede emplear por ejemplo, uno o más de los siguientes parámetros:
dirección de llegada (horizontal y vertical)
diferencia con respecto al oyente
ancho de la fuente („difusividad“)
En particular con el audio 3D orientado a objetos, se pueden emplear estos parámetros para controlar el mapeo de un objeto con los parlantes del formato objetivo.
Además, estos parámetros pueden estar disponibles, por ejemplo, de manera selectiva de la frecuencia.
Rango de valores de “difusividad": Origen puntual - onda de plano- onda de llegada omnidireccional. Se debe tener en cuenta que la difusividad puede ser diferente de la acústica ambiental (vease, por ej., las voces que llegan de la nada en los largometrajes psicodélicos).
De acuerdo con una forma de realización, el aparato 100 puede estar configurado para alimentar cada uno de los dos o más canales de audio de salida a un parlante de un grupo de dos o más parlantes. El dispositivo de mezcla 120 puede estar configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de cada posición presunta del parlante de un primer grupo de posiciones presuntas de tres o más parlantes y dependiendo de
cada posición real del parlante de un segundo grupo de posiciones reales de dos o más parlantes para obtener los dos o más canales de audio de salida. Cada posición real del parlante del segundo grupo de posiciones reales de dos o más parlantes puede indicar la posición de un parlante del grupo de dos o más parlantes.
Por ejemplo, se puede asignar un canal de entrada de audio a la posición presunta de un parlante. Además, se genera un primer canal de salida de audio para un primer parlante en una la posición real del primer parlante, y se genera un segundo canal de salida de audio correspondiente a un segundo parlante en una la posición real del segundo parlante. Si la distancia entre la posición real del primer parlante y la posición presunta del parlante es mejor que la distancia entre la posición real del segundo parlante y la posición presunta del parlante, luego, por ejemplo, el canal de entrada de audio influye sobre el primer canal de salida de audio más que el segundo canal de salida de audio.
Por ejemplo, se puede generar una primera ponderación y una segunda ponderación. La primera ponderación puede depender de la distancia entre la posición real del primer parlante y la posición presunta del parlante. La segunda ponderación puede depender de la distancia entre la posición real del segundo parlante y la posición presunta del parlante. La primera ponderación es mayor que la segunda ponderación. Para generar el primer canal de salida de audio, se puede aplicar la primera ponderación al canal de entrada de audio para generar un primer canal de audio modificado. Para generar el segundo canal de salida de audio, se puede aplicar la segunda ponderación al canal de entrada de audio para
generar un segundo canal de audio modificado De igual modo se pueden generar otros canales de audio modificados para los demás canales de salida de audio y/o para los demás canales de entrada de audio, respectivamente. Cada canal de salida de audio de los dos o más canales de audio de salida se puede generar combinando sus canales de audio modificados.
La Fig. 5 ilustra ese mapeo de señales transmitidas de representación espacial sobre las posiciones reales de parlantes. Las posiciones presuntas de parlantes 511, 512, 513, 514 y 515 pertenecen al primer grupo de posiciones presuntas de parlantes. Las posiciones reales de parlantes 521, 522 y 523 pertenecen al el segundo grupo de posiciones reales de parlantes.
Por ejemplo, la forma en que un canal de entrada de audio correspondiente a un parlante presunto en una posición presunta del parlante 512 influye sobre una primera señal de audio de salida correspondiente a un primer parlante real en una posición real del primer parlante 521 y una segunda señal de audio de salida correspondiente a un segundo parlante en una posición real del segundo parlante 522, depende de lo cerca que la posición presunta 512 (o su posición virtual 532) está de la posición real del primer parlante 521 y de la posición real del segundo parlante 522. Cuanto más cerca está la posición presunta del parlante de la posición real del parlante, más influencia tiene el canal de entrada de audio sobre el correspondiente canal de salida de audio.
En la Fig. 5, f indica un canal de entrada de audio correspondiente al parlante en la posición presunta del parlante 512. gi indica un primer canal de salida de audio correspondiente al primer parlante real en la posición real del
primer parlante 521, g2 indica un segundo canal de salida de audio correspondiente al segundo parlante real en la posición real del segundo parlante 522, a indica un ángulo azimutal y b indica un ángulo de elevación, donde el ángulo azimutal a y el ángulo de elevación b, por ejemplo, indican una dirección desde una posición real del parlante a una posición presunta del parlante o viceversa.
En una forma de realización, cada canal de entrada de audio de los tres o más canales de audio de entrada puede ser asignado a una posición presunta de parlantes del primer grupo de posiciones presuntas de tres o más parlantes. Por ejemplo, cuando se presume que un canal de entrada de audio ha de ser reproducido por un parlante en una posición presunta del parlante, luego este canal de entrada de audio es asignado a esa posición presunta del parlante. Cada canal de salida de audio de los dos o más canales de audio de salida puede ser asignado a una posición real de parlantes del segundo grupo de posiciones reales de dos o más parlantes. Por ejemplo, cuando un canal de salida de audio ha de ser reproducido por un parlante en una posición real del parlante, luego se asigna este canal de salida de audio a esa posición real del parlante. El dispositivo de mezcla puede estar configurado para generar cada canal de salida de audio de los dos o más canales de audio de salida dependiendo de por lo menos dos de los tres o más canales de audio de entrada, dependiendo de la posición presunta del parlante de cada uno de dichos por lo menos dos de los tres o más canales de audio de entrada y dependiendo de la posición real del parlante de dicho canal de salida de audio.
La Fig. 6 ilustra un mapeo de señales espaciales elevadas contra otros niveles de elevación. Las señales espaciales transmitidas (canales) son canales para parlantes en un plano elevado de parlantes o para parlantes en un plano de parlantes no elevado. Si todos los parlantes reales están situados en un único plano de parlantes (un plano no elevado de parlantes), los canales correspondientes al plano elevado de parlantes deben ser alimentados a los parlantes del plano no elevado de parlantes.
Para este fin, la información complementaria comprende la información sobre la posición presunta del parlante 611 de un parlante en el plano elevado de parlantes. Se determina una correspondiente posición virtual 631 en el plano no elevado de parlantes por medio del dispositivo de mezcla y los canales de audio modificados que se generan modificando el canal de entrada de audio correspondiente al parlante elevado presunto se genera dependiendo de las posiciones reales de parlantes 621, 622, 623, 624 de parlantes existentes en realidad.
Se puede emplear la selectividad de la frecuencia para obtener un control más afinado de la mezcla. Usando el ejemplo de “cantidad de acústica ambiental”, un canal de altura podría comprender tanto componentes espaciales como componentes directos. De modo correspondiente se pueden caracterizar los componentes de frecuencia con propiedades diferentes.
De acuerdo con una forma de realización, cada uno de los tres o más canales de audio de entrada comprende una señal de audio de un objeto de audio de tres o más objetos de audio. La información complementaria comprende, por
cada objeto de audio de los tres o más objetos de audio, la posición de un objeto de audio que indica la posición de dicho objeto de audio. El dispositivo de mezcla está configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de la posición del objeto de audio de cada uno de los tres o más objetos de audio para obtener los dos o más canales de audio de salida.
Por ejemplo, el primer canal de entrada de audio comprende una señal de audio de un primer objeto de audio. Puede haber un primer parlante situado en una posición real del primer parlante. Un segundo parlante puede estar ubicado en una posición real del segundo parlante. La distancia entre la posición real del primer parlante y la posición del primer objeto de audio puede ser menor que la distancia entre la posición real del segundo parlante y la posición del primer objeto de audio. Luego, se genera un primer canal de salida de audio correspondiente al primer parlante y un segundo canal de salida de audio correspondiente al segundo parlante, de tal manera que la señal de audio del primer objeto de audio tenga una mayor influencia en el primer canal de salida de audio que en el segundo canal de salida de audio.
Por ejemplo, se puede generar una primera ponderación y una segunda ponderación. La primera ponderación puede depender de la distancia entre la posición real del primer parlante y la posición del primer objeto de audio. La segunda ponderación puede depender de la distancia entre la posición real del segundo parlante y la posición del segundo objeto de audio. La primera ponderación es mayor que la segunda ponderación. Para generar el primer canal de salida de audio, se puede aplicar la primera ponderación a la señal de audio del
primer objeto de audio para generar un primer canal de audio modificado. Para generar el segundo canal de salida de audio, se puede aplicar la segunda ponderación a la señal de audio del primer objeto de audio para generar un segundo canal de audio modificado. Del mismo modo se pueden generar otros canales de audio modificados correspondientes a los otros canales de salida de audio y/o a los otros objetos de audio, respectivamente. Cada canal de salida de audio de los dos o más canales de audio de salida se puede generar combinando sus canales de audio modificados.
La Fig. 8 ilustra un sistema de acuerdo con una forma de realización.
El sistema comprende un codificador 810 para codificar tres o más canales de audio sin procesar para obtener tres o más canales de audio codificados, y para codificar información adicional sobre los tres o más canales de audio sin procesar para obtener información complementaria.
Más aun, el sistema comprende un aparato 100 de acuerdo con una de las realizaciones antes descriptas para recibir los tres o más canales de audio codificados en forma de tres o más canales de audio de entrada, para recibir la información complementaria, y para generar, dependiendo de la información complementaria, dos o más canales de audio de salida de los tres o más canales de audio de entrada.
La Fig. 9 presenta otra ilustración de un sistema de acuerdo con una forma de realización. La información orientativa ilustrada es información complementaria. Los M canales de audio codificados, codificados por el codificador 810, son alimentados al aparato 100 (indicado por “mezcla”) para generar los dos o más
canales de audio de salida. Se generan N canales de salida de audio mediante la mezcla de los M canales de audio codificados (los canales de audio de entrada del aparato 820). En una forma de realización, se aplica N < M.
Si bien se han descripto algunos aspectos en el contexto de un aparato, es obvio que estos aspectos tambien representan una descripción del método correspondiente, en el cual un bloque o dispositivo corresponde a un paso del método o a una característica de un paso del método. De manera análoga, los aspectos descriptos en el contexto de un paso del método también representan una descripción de un bloque o ítem correspondiente o de una característica de un aparato correspondiente.
La señal de audio descompuesta de la invención puede ser almacenada en un medio de almacenamiento digital o puede ser transmitida por un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión cableado tal como la internet.
Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención pueden ser implementadas en hardware o en software. La implementación se puede realizar empleando un medio de almacenamiento digital, por ejemplo un disco blando, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tiene almacenadas en la misma señales control legibles electrónicamente, que cooperan (o tienen capacidad para cooperar) con un sistema de computación programable de tal manera que se ejecute el método respectivo.
Algunas realizaciones de acuerdo con la invención comprenden un transportador no transitorio de datos que comprende señales de control legibles electrónicamente, con capacidad para cooperar con un sistema de computación programable de tal manera que se ejecute uno de los metodos descriptos en la presente.
En general, las realizaciones de la presente invención pueden ser implementadas en forma de producto programa de computación con un código de programa, donde el código de programa cumple la función de ejecutar uno de los métodos al ejecutarse el programa de computación en una computadora. El código de programa puede ser almacenado, por ejemplo, en un portador legible por una máquina
Otras formas de realización comprenden el programa de computación para ejecutar uno de los métodos aquí descriptos, almacenado en un portador legible por una máquina.
En otras palabras, una realización del método de la invención consiste, por lo tanto, en un programa de computación que consta de un código de programa para realizar uno de los métodos aquí descriptos al ejecutarse el programa de computación en una computadora.
Otra forma de realización de los métodos de la invención consiste, por lo tanto, en un portador de datos (o medio de almacenamiento digital, o medio legible por computadora) que comprende, grabado en el mismo, el programa de computación para ejecutar uno de los métodos aquí descriptos.
Otra forma de realización del método de la invención es, por lo tanto, un flujo de datos o una secuencia de señales que representa el programa de computación para ejecutar uno de los métodos aquí descriptos. El flujo de datos o la secuencia de señales pueden estar configurados, por ejemplo, para ser transferida a través de una conexión de comunicación de datos, por ejemplo por la Internet
Otra forma de realización comprende un medio de procesamiento, por ejemplo una computadora, un dispositivo lógico programable, configurado o adaptado para ejecutar uno de los métodos aquí descriptos
Otra forma de realización comprende una computadora en la que se ha instalado el programa de computación para ejecutar uno de los métodos aquí descriptos
En algunas formas de realización, se puede utilizar un dispositivo lógico programable (por ejemplo una matriz de puertas programables en el campo) para ejecutar algunas o todas las funcionalidades de los métodos aquí descriptos. En algunas formas de realización, una matriz de puertas programables en el campo puede cooperar con un microprocesador para ejecutar uno de los métodos aquí descriptos. Por lo general, los métodos son ejecutados preferentemente por cualquier aparato de hardware.
Las realizaciones precedentemente descriptas son meramente ilustrativas de los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y detalles aquí descriptos han de ser evidentes para las personas con capacitación en la téenica. Por lo tanto, sólo es intención
limitarse al alcance de las siguientes reivindicaciones de patente y no a los detalles específicos presentados a manera de descripción y explicación de las realizaciones aquí presentadas.
Literatura
[1] J.M. Eargle: Stereo/Mono Disc Compatibility: A Survey of the Problems, 35th AES Convention, Octubre de 1968
[2] P. Schreiber: Four Channels and Compatibility, J. Audio Eng. Soc., Vol. 19, Issue 4, abril de 1971 (2)
[3] D. Griesinger: Surround from stereo, Workshop #12, 115th AES Convention,
2003
[4] E. C, Cherry (1953): Some experiments on the recognition of speech, with one and with two ears, Journal of the Acoustical Society of America 25, 975979
[5] ITU-R Recommendation BS.775-1 Multi-channel Stereophonic Sound
System with or without Accompanying Picture, International Telecommunications Union, Ginebra, Suiza, 1992-1994
[6] D. Griesinger: Progress in 5-2-5 Matrix Systems, 103th AES Convention, septiembre de 1997
[7] J. Hull: Surround sound past, present, and future, Dolby Laboratories, 1999, www.dolby.com/tech/
[8] C. Faller, F. Baumgarte: Binaural Cue Coding Applied to Stereo and Multi - Channel Audio Compression, 112th AES Convention, Munich 2002
[9] C. Faller, F. Baumgarte: Binaural Cue Coding Part II: Schemes y Applications, IEEE Trans. Speech and Audio Proc., vol. 11, no. 6, pp. 520- 531, Nov. 2003
[10] J. Breebaart, J. Herre, C. Faller, J. Rdn, F. Myburg, S. Disch, H. Purnhagen, G. Hotho, M. Neusinger, K. K5ling, W. Oomen: MPEG Spatial Audio Coding
/ MPEG Surround: OverView and Current Status, 119th AES Convention, octubre de 2005.
[11] ISO/IEC 14496-3, Capítulo 4.5.1.2.2
[12] B. Runow, J. Deigmóller: Optimierter Stereo - Downmix von 5.1- Mehrkanalproduktionen (An optimized Stereo Downmix of a multichannel audio production), 25. Tonmeistertagung - VDT International convention, noviembre de 2008
[13] J. Thompson, A. Warner, B. Sm ith: An Active Multichannel Downmix Enhancement for Minimizing Spatial y Spectral Distortions, 127 AES Convention, octubre de 2009
14] C. Faller: Multiple-Parlante Playback of Stereo Signáis. JAES Volume 54 Issue 11 pp. 1051 -1064; noviembre de 2006
[15] AVENDANO, Carlos u. JOT, Jean-Marc: Ambience Extraction y Synthesis from Stereo Signáis for Multi-Channel Audio Mix-Up. In: Proc.or IEEE Internat. Conf. on Acoustics, Speech and Signal Processing (ICASSP), mayo de 2002
[16] US 7,412,380 B1: Ambience extraction and modification for enhancement y upmix of audio signáis
[17] US 7,567,845 B1 : Ambience generation for stereo signáis
[18] US 2009/0092258 A1: CORRELATION-BASED METHOD FOR AMBIENCE
EXTRACTION FROM TWO-CHANNEL AUDIO SIGNALS
[19] US 2010/0030563 A1: Uhle, Walther, Herre, Hellmuth, Janssen:
APPARATUS AND METHOD FOR GENERATING AN AMBIENT SIGNAL
FROM AN AUDIO SIGNAL, APPARATUS AND METHOD FOR DERIVING
A MULTI-CHANNEL AUDIO SIGNAL FROM AN AUDIO SIGNAL AND
COMPUTER PROGRAM
[20] J. Herre, H. Purnhagen, J. Breebaart, C. Faller, S.Disch, K. Kjórling, E.
Schuljers, J. Hilpert, y F. Myburg, The Reference Model Architecture for
MPEG Spatial Audio Coding, presentado en la 118a Convención de la
Audio Engineering Society, J. Audio Eng. Soc. (Abstracts), vol. 53, pp. 693,
694 (2005 julio/Ago.), documento de la convención 6447
[21] Ville Pulkki: Spatial Sound Reproduction with Directional Audio Coding.
JAES Volume 55 Issue 6 pp. 503-516; junio de 2007
[22] ETSI TS 101 154, Capítulo C
[23] MPEG-4 downmix metadata
[24] DVB downmix metadata
Claims (1)
- REIVINDICACIONES Habiendo así especialmente descripto y determinado la naturaleza de la presente invención y la forma como la misma ha de ser llevada a la práctica, se declara reivindicar como de propiedad y derecho exclusivo: 1. Un aparato (100) para generar dos o más canales de audio de salida de tres o más canales de audio de entrada, donde el aparato (100) comprende: una interfaz de recepción (110) para recibir los tres o más canales de audio de entrada y para recibir información complementaria y un dispositivo de mezcla (120) para efectuar la mezcla de los tres o más canales de audio de entrada dependiendo de la información complementaria para obtener los dos o más canales de audio de salida, donde el número de los canales de salida de audio es menor que el número de los canales de audio de entrada y donde la información complementaria indica una característica de por lo menos uno de los tres o más canales de audio de entrada, o una característica de una o más ondas de sonido grabadas dentro de dicho uno o más canales de entrada de audio, o una característica de una o más fuentes de sonido que emitieran una o más ondas de sonido grabadas dentro de dicho uno o más canales de entrada de audio. 2. Un aparato (100) de acuerdo con la reivindicación 1 , en el cual el dispositivo de mezcla (120) está configurado para generar cada canal de salida de audio de los dos o más canales de audio de salida modificando por lo menos dos canales de entrada de audio de los tres o más canales de audio de entrada dependiendo de la información complementaria para obtener un grupo de canales de audio modificados, y combinando cada canal de audio modificado de dicho grupo de canales de audio modificados para obtener dicho canal de salida de audio. Un aparato (100) de acuerdo con la reivindicación 2, en el cual el dispositivo de mezcla (120) está configurado para generar cada canal de salida de audio de los dos o más canales de audio de salida modificando cada canal de entrada de audio de los tres o más canales de audio de entrada dependiendo de la información complementaria para obtener el grupo de canales de audio modificados, y combinando cada canal de audio modificado de dicho grupo de canales de audio modificados para obtener dicho canal de salida de audio. Un aparato (100) de acuerdo con la reivindicación 2 o 3, en el cual el dispositivo de mezcla (120) está configurado para generar cada canal de salida de audio de los dos o más canales de audio de salida generando cada canal de audio modificado del grupo de canales de audio modificados mediante la determinación de una ponderación dependiendo de un canal de entrada de audio de dicho uno o más canales de entrada de audio y dependiendo de la información complementaria y mediante la aplicación de dicha ponderación a dicho canal de entrada de audio. Un aparato (100) de acuerdo con una de las reivindicaciones anteriores, en el cual la información complementaria indica una cantidad de acústica ambiental de cada uno de los tres o más canales de audio de entrada y donde el dispositivo de mezcla (120) está configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de la cantidad de acústica ambiental de cada uno de los tres o más canales de audio de entrada para obtener los dos o más canales de audio de salida. 6. Un aparato (100) de acuerdo con una de las reivindicaciones anteriores, en el cual la información complementaria indica una difusividad de cada uno de los tres o más canales de audio de entrada o una directividad de cada uno de los tres o más canales de audio de entrada y donde el dispositivo de mezcla (120) está configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de la difusividad de cada uno de los tres o más canales de audio de entrada o dependiendo de la directividad de cada uno de los tres o más canales de audio de entrada para obtener los dos o más canales de audio de salida. 7 Un aparato (100) de acuerdo con o una de las reivindicaciones anteriores, en el cual la información complementaria indica una dirección de llegada de sonido y donde el dispositivo de mezcla (120) está configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de la dirección de llegada de sonido para obtener los dos o más canales de audio de salida. 8 Un aparato (100) de acuerdo con una de las reivindicaciones anteriores, en el cual cada uno de los dos o más canales de audio de salida es un canal de parlante para guiar un parlante. Un aparato (100) de acuerdo con una de las reivindicaciones 1 a 7, donde el aparato (100) está configurado para alimentar cada uno de los dos o más canales de audio de salida a un parlante de un grupo de dos o más parlantes, donde el dispositivo de mezcla (120) está configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de cada posición presunta del parlante de un primer grupo de posiciones presuntas de tres o más parlantes y dependiendo de cada posición real del parlante de un segundo grupo de posiciones reales de dos o más parlantes para obtener los dos o más canales de audio de salida, donde cada posición real de parlante del segundo grupo de posiciones reales de dos o más parlantes indica la posición de un parlante del grupo de dos o más parlantes. Un aparato (100) de acuerdo con la reivindicación 9, en el cual cada canal de entrada de audio de los tres o más canales de audio de entrada es asignado a una posición presunta de parlante del primer grupo de posiciones presuntas de tres o más parlantes, donde cada canal de salida de audio de los dos o más canales de audio de salida es asignado a una posición real de parlante del segundo grupo de posiciones reales de dos o más parlantes y donde el dispositivo de mezcla (120) está configurado para generar cada canal de salida de audio de los dos o más canales de audio de salida dependiendo de por lo menos dos de los tres o más canales de audio de entrada, dependiendo de la posición presunta del parlante de cada uno de dichos por lo menos dos de los tres o más canales de audio de entrada y dependiendo de la posición real del parlante de dicho canal de salida de audio. 11. Un aparato (100) de acuerdo con una de las reivindicaciones 1 a 7, en el cual cada uno de los tres o más canales de audio de entrada comprende una señal de audio de un objeto de audio de tres o más objetos de audio, donde la información complementaria comprende, por cada objeto de audio de los tres o más objetos de audio, la posición de un objeto de audio que indica la posición de dicho objeto de audio y donde el dispositivo de mezcla (120) está configurado para ejecutar la mezcla de los tres o más canales de audio de entrada dependiendo de la posición del objeto de audio de cada uno de los tres o más objetos de audio para obtener los dos o más canales de audio de salida. 12. Un aparato (100) de acuerdo con una de las reivindicaciones anteriores, en el cual el dispositivo de mezcla (120) está configurado para ejecutar la mezcla de cuatro o más canales de entrada de audio dependiendo de la información complementaria para obtener tres o más canales de salida de audio. 13. Un sistema que comprende: un codificador (810) para codificar tres o más canales de audio sin procesar para obtener tres o más canales de audio codificados, y para codificar información adicional sobre los tres o más canales de audio sin procesar para obtener información complementaria, y un aparato (100) de acuerdo con una de las reivindicaciones anteriores para recibir los tres o más canales de audio codificados as tres o más canales de audio de entrada, para recibir la información complementaria, y para generar, dependiendo de la información complementaria, dos o más canales de audio de salida de los tres o más canales de audio de entrada. Un metodo para generar dos o más canales de audio de salida de tres o más canales de audio de entrada, donde el método comprende: recibir los tres o más canales de audio de entrada y recibir información complementaria y efectuar la mezcla de los tres o más canales de audio de entrada dependiendo de la información complementaria para obtener los dos o más canales de audio de salida, donde el número de los canales de salida de audio es menor que el número de los canales de audio de entrada y donde la información complementaria indica una característica de por lo menos uno de los tres o más canales de audio de entrada, o una característica de una o más ondas de sonido grabadas dentro de dicho uno o más canales de entrada de audio, o una característica de una o más fuentes de sonido que emitieran una o más ondas de sonido grabadas dentro de dicho uno o más canales de entrada de audio. 15. Un programa de computación para implementar el metodo de acuerdo con la reivindicación 14 al ejecutarse en una computadora o en un procesador de señales.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261699990P | 2012-09-12 | 2012-09-12 | |
PCT/EP2013/068903 WO2014041067A1 (en) | 2012-09-12 | 2013-09-12 | Apparatus and method for providing enhanced guided downmix capabilities for 3d audio |
Publications (2)
Publication Number | Publication Date |
---|---|
MX2015003195A true MX2015003195A (es) | 2015-07-14 |
MX343564B MX343564B (es) | 2016-11-09 |
Family
ID=49226131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
MX2015003195A MX343564B (es) | 2012-09-12 | 2013-09-12 | Aparato y metodo para proveer funciones mejoradas de mezcla guiada para audio 3d. |
Country Status (20)
Country | Link |
---|---|
US (4) | US9653084B2 (es) |
EP (1) | EP2896221B1 (es) |
JP (1) | JP5917777B2 (es) |
KR (1) | KR101685408B1 (es) |
CN (1) | CN104782145B (es) |
AR (1) | AR092540A1 (es) |
AU (1) | AU2013314299B2 (es) |
BR (6) | BR122021021487B1 (es) |
CA (1) | CA2884525C (es) |
ES (1) | ES2610223T3 (es) |
HK (1) | HK1212537A1 (es) |
MX (1) | MX343564B (es) |
MY (1) | MY181365A (es) |
PL (1) | PL2896221T3 (es) |
PT (1) | PT2896221T (es) |
RU (1) | RU2635884C2 (es) |
SG (1) | SG11201501876VA (es) |
TW (1) | TWI545562B (es) |
WO (1) | WO2014041067A1 (es) |
ZA (1) | ZA201502353B (es) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR122021021487B1 (pt) * | 2012-09-12 | 2022-11-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V | Aparelho e método para fornecer capacidades melhoradas de downmix guiado para áudio 3d |
CN104982042B (zh) | 2013-04-19 | 2018-06-08 | 韩国电子通信研究院 | 多信道音频信号处理装置及方法 |
CN108806704B (zh) | 2013-04-19 | 2023-06-06 | 韩国电子通信研究院 | 多信道音频信号处理装置及方法 |
EP2830332A3 (en) | 2013-07-22 | 2015-03-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method, signal processing unit, and computer program for mapping a plurality of input channels of an input channel configuration to output channels of an output channel configuration |
US9319819B2 (en) | 2013-07-25 | 2016-04-19 | Etri | Binaural rendering method and apparatus for decoding multi channel audio |
KR102160254B1 (ko) | 2014-01-10 | 2020-09-25 | 삼성전자주식회사 | 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치 |
KR102529121B1 (ko) * | 2014-03-28 | 2023-05-04 | 삼성전자주식회사 | 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 |
BR112016030345B1 (pt) * | 2014-06-26 | 2022-12-20 | Samsung Electronics Co., Ltd | Método de renderização de um sinal de áudio, aparelho para renderização de um sinal de áudio, meio de gravação legível por computador, e programa de computador |
CN107004421B (zh) | 2014-10-31 | 2020-07-07 | 杜比国际公司 | 多通道音频信号的参数编码和解码 |
EP3258467B1 (en) * | 2015-02-10 | 2019-09-18 | Sony Corporation | Transmission and reception of audio streams |
GB2540175A (en) * | 2015-07-08 | 2017-01-11 | Nokia Technologies Oy | Spatial audio processing apparatus |
JP2019533404A (ja) * | 2016-09-23 | 2019-11-14 | ガウディオ・ラボ・インコーポレイテッド | バイノーラルオーディオ信号処理方法及び装置 |
US10659904B2 (en) | 2016-09-23 | 2020-05-19 | Gaudio Lab, Inc. | Method and device for processing binaural audio signal |
GB2572419A (en) * | 2018-03-29 | 2019-10-02 | Nokia Technologies Oy | Spatial sound rendering |
US11356791B2 (en) | 2018-12-27 | 2022-06-07 | Gilberto Torres Ayala | Vector audio panning and playback system |
JP2022521694A (ja) | 2019-02-13 | 2022-04-12 | ドルビー ラボラトリーズ ライセンシング コーポレイション | オーディオオブジェクトクラスタリングのための適応型音量正規化 |
KR20220018588A (ko) * | 2019-06-12 | 2022-02-15 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | DirAC 기반 공간 오디오 코딩을 위한 패킷 손실 은닉 |
WO2022258876A1 (en) * | 2021-06-10 | 2022-12-15 | Nokia Technologies Oy | Parametric spatial audio rendering |
DE102021122597A1 (de) | 2021-09-01 | 2023-03-02 | Synotec Psychoinformatik Gmbh | Mobiler, immersiver 3D-Audioraum |
Family Cites Families (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0795698A (ja) | 1993-09-21 | 1995-04-07 | Sony Corp | オーディオ再生装置 |
US7567845B1 (en) | 2002-06-04 | 2009-07-28 | Creative Technology Ltd | Ambience generation for stereo signals |
JP3519724B2 (ja) * | 2002-10-25 | 2004-04-19 | パイオニア株式会社 | 情報記録媒体、情報記録装置及び情報記録方法並びに情報再生装置及び情報再生方法 |
US7412380B1 (en) | 2003-12-17 | 2008-08-12 | Creative Technology Ltd. | Ambience extraction and modification for enhancement and upmix of audio signals |
SE0400997D0 (sv) * | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Efficient coding of multi-channel audio |
US7490044B2 (en) * | 2004-06-08 | 2009-02-10 | Bose Corporation | Audio signal processing |
US7853022B2 (en) | 2004-10-28 | 2010-12-14 | Thompson Jeffrey K | Audio spatial environment engine |
JP2006197391A (ja) | 2005-01-14 | 2006-07-27 | Toshiba Corp | 音声ミクシング処理装置及び音声ミクシング処理方法 |
EP1691348A1 (en) | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
US20060262936A1 (en) * | 2005-05-13 | 2006-11-23 | Pioneer Corporation | Virtual surround decoder apparatus |
ATE476732T1 (de) * | 2006-01-09 | 2010-08-15 | Nokia Corp | Steuerung der dekodierung binauraler audiosignale |
BRPI0707969B1 (pt) | 2006-02-21 | 2020-01-21 | Koninklijke Philips Electonics N V | codificador de áudio, decodificador de áudio, método de codificação de áudio, receptor para receber um sinal de áudio, transmissor, método para transmitir um fluxo de dados de saída de áudio, e produto de programa de computador |
US8379868B2 (en) | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
US9014377B2 (en) | 2006-05-17 | 2015-04-21 | Creative Technology Ltd | Multichannel surround format conversion and generalized upmix |
ATE539434T1 (de) * | 2006-10-16 | 2012-01-15 | Fraunhofer Ges Forschung | Vorrichtung und verfahren für mehrkanalparameterumwandlung |
DE102006050068B4 (de) * | 2006-10-24 | 2010-11-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm |
RU2417549C2 (ru) * | 2006-12-07 | 2011-04-27 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Способ и устройство для обработки аудиосигнала |
EP2102858A4 (en) * | 2006-12-07 | 2010-01-20 | Lg Electronics Inc | METHOD AND DEVICE FOR PROCESSING AN AUDIO SIGNAL |
KR101049143B1 (ko) * | 2007-02-14 | 2011-07-15 | 엘지전자 주식회사 | 오브젝트 기반의 오디오 신호의 부호화/복호화 장치 및 방법 |
US9015051B2 (en) * | 2007-03-21 | 2015-04-21 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Reconstruction of audio channels with direction parameters indicating direction of origin |
US8908873B2 (en) * | 2007-03-21 | 2014-12-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and apparatus for conversion between multi-channel audio formats |
US20080232601A1 (en) * | 2007-03-21 | 2008-09-25 | Ville Pulkki | Method and apparatus for enhancement of audio reconstruction |
US8107631B2 (en) | 2007-10-04 | 2012-01-31 | Creative Technology Ltd | Correlation-based method for ambience extraction from two-channel audio signals |
ES2461601T3 (es) | 2007-10-09 | 2014-05-20 | Koninklijke Philips N.V. | Procedimiento y aparato para generar una señal de audio binaural |
DE102007048973B4 (de) * | 2007-10-12 | 2010-11-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung |
US8315396B2 (en) | 2008-07-17 | 2012-11-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating audio output signals using object based metadata |
EP2154910A1 (en) * | 2008-08-13 | 2010-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus for merging spatial audio streams |
US20120121091A1 (en) * | 2009-02-13 | 2012-05-17 | Nokia Corporation | Ambience coding and decoding for audio applications |
WO2010122455A1 (en) * | 2009-04-21 | 2010-10-28 | Koninklijke Philips Electronics N.V. | Audio signal synthesizing |
EP2249334A1 (en) * | 2009-05-08 | 2010-11-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio format transcoder |
US8976972B2 (en) * | 2009-10-12 | 2015-03-10 | Orange | Processing of sound data encoded in a sub-band domain |
EP2464146A1 (en) * | 2010-12-10 | 2012-06-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decomposing an input signal using a pre-calculated reference curve |
WO2012122397A1 (en) * | 2011-03-09 | 2012-09-13 | Srs Labs, Inc. | System for dynamically creating and rendering audio objects |
TWI603632B (zh) * | 2011-07-01 | 2017-10-21 | 杜比實驗室特許公司 | 用於適應性音頻信號的產生、譯碼與呈現之系統與方法 |
US9473870B2 (en) * | 2012-07-16 | 2016-10-18 | Qualcomm Incorporated | Loudspeaker position compensation with 3D-audio hierarchical coding |
BR122021021487B1 (pt) * | 2012-09-12 | 2022-11-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V | Aparelho e método para fornecer capacidades melhoradas de downmix guiado para áudio 3d |
KR102226420B1 (ko) * | 2013-10-24 | 2021-03-11 | 삼성전자주식회사 | 다채널 오디오 신호 생성 방법 및 이를 수행하기 위한 장치 |
-
2013
- 2013-09-12 BR BR122021021487-5A patent/BR122021021487B1/pt active IP Right Grant
- 2013-09-12 BR BR122021021494-8A patent/BR122021021494B1/pt active IP Right Grant
- 2013-09-12 ES ES13765670.8T patent/ES2610223T3/es active Active
- 2013-09-12 PL PL13765670T patent/PL2896221T3/pl unknown
- 2013-09-12 BR BR122021021506-5A patent/BR122021021506B1/pt active IP Right Grant
- 2013-09-12 EP EP13765670.8A patent/EP2896221B1/en active Active
- 2013-09-12 CN CN201380058866.1A patent/CN104782145B/zh active Active
- 2013-09-12 JP JP2015531556A patent/JP5917777B2/ja active Active
- 2013-09-12 RU RU2015113161A patent/RU2635884C2/ru active
- 2013-09-12 BR BR122021021500-6A patent/BR122021021500B1/pt active IP Right Grant
- 2013-09-12 WO PCT/EP2013/068903 patent/WO2014041067A1/en active Search and Examination
- 2013-09-12 PT PT137656708T patent/PT2896221T/pt unknown
- 2013-09-12 BR BR112015005456-0A patent/BR112015005456B1/pt active IP Right Grant
- 2013-09-12 BR BR122021021503-0A patent/BR122021021503B1/pt active IP Right Grant
- 2013-09-12 MX MX2015003195A patent/MX343564B/es active IP Right Grant
- 2013-09-12 KR KR1020157009303A patent/KR101685408B1/ko active IP Right Grant
- 2013-09-12 MY MYPI2015000600A patent/MY181365A/en unknown
- 2013-09-12 AR ARP130103261A patent/AR092540A1/es active IP Right Grant
- 2013-09-12 AU AU2013314299A patent/AU2013314299B2/en active Active
- 2013-09-12 TW TW102133018A patent/TWI545562B/zh active
- 2013-09-12 SG SG11201501876VA patent/SG11201501876VA/en unknown
- 2013-09-12 CA CA2884525A patent/CA2884525C/en active Active
-
2015
- 2015-03-10 US US14/643,007 patent/US9653084B2/en active Active
- 2015-04-09 ZA ZA2015/02353A patent/ZA201502353B/en unknown
-
2016
- 2016-01-08 HK HK16100174.0A patent/HK1212537A1/xx unknown
-
2017
- 2017-05-15 US US15/595,065 patent/US10347259B2/en active Active
-
2019
- 2019-06-03 US US16/429,280 patent/US10950246B2/en active Active
-
2021
- 2021-01-14 US US17/148,638 patent/US20210134304A1/en active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210134304A1 (en) | Apparatus and method for providing enhanced guided downmix capabilities for 3d audio | |
US10701507B2 (en) | Apparatus and method for mapping first and second input channels to at least one output channel | |
JP5209637B2 (ja) | オーディオ処理方法及び装置 | |
TWI396187B (zh) | 用於將以物件為主之音訊信號編碼與解碼之方法與裝置 | |
IL184340A (en) | Compact side information for parametric coding of spatial audio |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FG | Grant or registration |