MX2011007035A - Procedimiento y aparato para la codificacion de campos acusticos tridimensionales y una reconstruccion optima. - Google Patents

Procedimiento y aparato para la codificacion de campos acusticos tridimensionales y una reconstruccion optima.

Info

Publication number
MX2011007035A
MX2011007035A MX2011007035A MX2011007035A MX2011007035A MX 2011007035 A MX2011007035 A MX 2011007035A MX 2011007035 A MX2011007035 A MX 2011007035A MX 2011007035 A MX2011007035 A MX 2011007035A MX 2011007035 A MX2011007035 A MX 2011007035A
Authority
MX
Mexico
Prior art keywords
tracks
audio
ambisonic
further characterized
encoding
Prior art date
Application number
MX2011007035A
Other languages
English (en)
Inventor
Sole Antonio Mateos
Albo Pau Arumi
Original Assignee
Fundacion Barcelona Media Uni Pompeu Fabra
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fundacion Barcelona Media Uni Pompeu Fabra filed Critical Fundacion Barcelona Media Uni Pompeu Fabra
Publication of MX2011007035A publication Critical patent/MX2011007035A/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Abstract

Un procedimiento y aparato para codificar audio con información espacial de una manera que no depende de la configuración de exhibición y descodificar y reproducir de forma óptima para cualquier configuración de exhibición dada, aumentando al máximo el área de reconstrucción óptima de campos sonoros ye incluyendo configuraciones con altavoces a diferentes alturas y auriculares; la parte del audio que requiere una ubicación muy precisa se codifica en un conjunto de pistas de audio mono con parámetros de dirección asociados, mientras que el audio restante se codifica en un conjunto de pistas ambisónicas de un orden y mezcla dados; al especificar un sistema de exhibición dado, el formato independiente de la exhibición se descodifica adaptándose al sistema especificado usando diferentes procedimientos de descodificación para cada grupo asignado.

Description

PROCEDIMIENTO Y APARATO PARA LA CODIFICACIÓN DE CAMPOS ACÚSTICOS TRIDIMENSIONALES Y UNA RECONSTRUCCIÓN ÓPTIMA CAMPO DE LA INVENCIÓN La presente invención se refiere a técnicas para mejorar la codificación, la distribución, y la descodificación, de campos acústicos tridimensionales. En particular, la presente invención se refiere a técnicas de codificación de señales de audio con información espacial de una manera que no depende de la configuración de exhibición, y a una descodificación óptima para un sistema de exhibición dado, ya sean configuraciones de múltiples altavoces o auriculares.
ANTECEDENTES DE LA INVENCIÓN Y TÉCNICA ANTERIOR En una reproducción y una escucha multicanal, un oyente está rodeado generalmente de múltiples altavoces. Un objetivo general de la reproducción es generar un campo acústico en el que el oyente pueda percibir la ubicación específica de las fuentes de sonido, por ejemplo, la ubicación de un músico de una banda. Diferentes configuraciones de altavoz pueden crear diferentes impresiones espaciales. Por ejemplo, las configuraciones estéreo estándar pueden recrear de manera convincente la escena acústica en el espacio entre los dos altavoces, pero no consiguen esa finalidad en ángulos situados fuera de los dos altavoces.
Las configuraciones con más altavoces que rodean al oyente pueden conseguir una mejor impresión espacial en un mayor conjunto de ángulos. Por ejemplo, una de las normas de disposición de múltiples altavoces más conocidas es la norma surround 5.1 (ITU-R775-1 ), que consiste en 5 altavoces situados en acimuts de -30, 0, 30, -1 10, 1 10 grados alrededor del oyente, donde 0 se refiere a la dirección frontal. Sin embargo, esta configuración no puede soportar sonidos por encima del plano horizontal del oyente.
Para mejorar la experiencia inmersiva del oyente, la tendencia actual es sacar provecho de configuraciones de muchos altavoces, que incluyen altavoces a diferentes alturas. Un ejemplo es el sistema 22.2 desarrollado por Hamasaki en la NHK, Japón, que consiste en un total de 24 altavoces situados a tres alturas diferentes.
El paradigma actual para generar audio especializado en aplicaciones profesionales para tales configuraciones es proporcionar una pista de audio para cada canal utilizado en la reproducción. Por ejemplo, se necesitan 2 pistas de audio para una configuración estéreo; se necesitan 6 pistas de audio en una configuración 5.1 , etc. Normalmente, estas pistas son el resultado de la fase de postproducción, aunque también pueden producirse directamente en la fase de grabación para su difusión. Es importante indicar que en muchas ocasiones se utiliza un pequeño número de altavoces para reproducir exactamente los mismos canales de audio. Este es el caso de la mayoría de salas de cine que utilizan el sistema 5.1 , donde cada canal envolvente se reproduce a través de tres o más altavoces. Por lo tanto, en estas ocasiones, aunque el número de altavoces puede ser mayor que 6, el número de canales de audio diferentes sigue siendo 6 y solo se reproducen 6 señales diferentes en total.
Una consecuencia de este paradigma de "una pista por canal" es que relaciona el trabajo realizado en las fases de grabación y postproducción con la configuración de exhibición donde va a exhibirse el contenido. En la fase de grabación, por ejemplo en la radiodifusión, el tipo y la posición de los micrófonos utilizados y la manera en que se mezclan se decide en función de las configuraciones donde va a reproducirse el evento. Asimismo, en la producción multimedia, los ingenieros de postproducción necesitan conocer los detalles de la configuración donde se exhibirá el contenido, ocupándose después de cada canal. Cualquier fallo a la hora de configurar correctamente la disposición de múltiples altavoces de exhibición para la que se adaptó el contenido dará como resultado una menor calidad de reproducción. Si el contenido va a exhibirse en diferentes configuraciones, entonces es necesario crear diferentes versiones en la postproducción. Esto da como resultado mayores costes y más horas de trabajo.
Otra consecuencia de este paradigma de "una pista por canal" es el tamaño de los datos necesarios. Por un lado, sin una codificación adicional, el paradigma requiere tantas pistas de audio como canales. Por otro lado, si se proporcionan diferentes versiones, o bien se proporcionan por separado, lo que de nuevo aumenta el tamaño de los datos, o bien es necesario llevar a cabo algunas mezclas descendentes, lo que compromete la calidad resultante.
Finalmente, otra desventaja del paradigma de "una pista por canal" es que el contenido generado de esta manera no puede utilizarse en el futuro. Por ejemplo, las 6 pistas presentes en una película dada creada para una configuración 5.1 no incluyen fuentes de audio situadas por encima del oyente y no pueden aprovechar completamente configuraciones con altavoces a diferentes alturas.
Actualmente existen algunas tecnologías que pueden proporcionar audio especializado independiente del sistema de exhibición. Quizá la tecnología más sencilla es la panoramización en amplitud, como la denominada panoramización en amplitud basada en vectores (VBAP). Se basa en introducir la misma señal mono en los altavoces más cercanos a la posición en la que está previsto colocar la fuente de sonido, con un ajuste de volumen para cada altavoz. Tales sistemas pueden funcionar en configuraciones 2D y 3D (con altura), normalmente seleccionando los dos o tres altavoces más cercanos, respectivamente. Una ventaja de este procedimiento es que proporciona una amplia zona de sonido óptimo, lo que quiere decir que hay una amplia región dentro de la configuración de altavoces donde el sonido se percibe como proviniendo de la dirección prevista. Sin embargo, este procedimiento no es adecuado para reproducir campos reverberantes, como los presentes en salas reverberantes, ni para fuentes de sonido con una gran dispersión. A lo sumo, los primeros rebotes del sonido emitido por las fuentes pueden reproducirse con estos procedimientos, pero proporciona una costosa solución de baja calidad.
La ambisónica es otra tecnología que puede proporcionar audio especializado independiente del sistema de exhibición. Creada en la década de los 70 por Michael Gerzon, proporciona una metodología de cadena de codificación-descodificación completa. En la codificación se guarda un conjunto de armónicos esféricos del campo acústico en un punto. El orden de cero (W) corresponde a lo que un micrófono omnidireccional grabaría en ese punto. El primer orden, que consiste en 3 señales (X, Y, Z), corresponde a lo que grabarían en ese punto tres micrófonos en forma de ocho, alineados con ejes cartesianos. Señales de orden superior corresponden a lo que grabarían micrófonos con patrones más complicados. Existe una codificación ambisónica de orden mixto en la que sólo se utilizan algunos subconjuntos de las señales de cada orden, por ejemplo utilizando solamente las señales W, X, Y en la ambisónica de primer orden, despreciando por tanto la señal Z. Aunque la generación de señales más allá del primer orden es sencilla en la postproducción o a través de simulaciones de campos acústicos, es más difícil cuando se graban campos acústicos reales con micrófonos; de hecho, solamente micrófonos capaces de medir señales de orden cero y de primer orden han estado disponibles para aplicaciones profesionales hasta muy recientemente. Ejemplos de micrófonos ambisónicos de primer orden son los micrófonos Soundfield y los micrófonos TetraMic más recientes. En la descodificación, una vez que se haya especificado la configuración de múltiples altavoces (el número y la posición de cada altavoz), la señal que va a introducirse en cada altavoz se determina normalmente requiriendo que el campo acústico creado por la configuración completa se aproxime tanto como sea posible al campo específico (ya sea el campo creado en la postproducción o el campo a partir del cual se grabaron las señales). Además de la independencia con respecto al sistema de exhibición, ventajas adicionales de esta tecnología son el alto grado de manipulación que ofrece (básicamente rotación y zoom del sonido ambiental) y su capacidad de reproducir fielmente campos reverberantes.
Sin embargo, la tecnología ambisónica presenta dos desventajas principales: la incapacidad de reproducir fuentes de sonido estrechas y el pequeño tamaño de la zona de sonido óptimo. El concepto de fuentes estrechas o dispersas se utiliza en este contexto para hacer referencia a la anchura angular de la imagen de sonido percibida. El primer problema se debe al hecho de que cuando se intenta reproducir una fuente de sonido muy estrecha, la descodificación ambisónica activa más altavoces que los simplemente más cercanos a la posición prevista de la fuente. El segundo problema se debe al hecho de que, aunque en la zona de sonido óptimo las ondas que provienen de cada altavoz su suman en fase para crear el campo acústico deseado, fuera de la zona de sonido óptimo las ondas no interfieren con la fase correcta. Esto cambia la coloración del sonido y, lo que es más importante, el sonido tiende a percibirse como proviniendo del altavoz más cercano al oyente debido al efecto de precedencia psicoacústica ampliamente conocido. Para un tamaño fijo de la sala de escucha, la única manera de reducir ambos problemas es aumentando el orden ambisónico utilizado, pero esto implica un rápido crecimiento en el número de canales y altavoces implicados.
Vale la pena mencionar que existe otra tecnología que puede reproducir de manera exacta un campo sonoro arbitrario, la denominada síntesis de campo de ondas (WFS). Sin embargo, esta tecnología requiere que los altavoces estén separados a menos de 15 ó 20 cm, lo que requiere aproximaciones adicionales (y la consiguiente pérdida de calidad) y aumenta en gran medida el número de altavoces requeridos; las aplicaciones actuales utilizan entre 100 y 500 altavoces, lo que reduce su aplicabilidad en eventos personalizados de alta gama.
Es deseable proporcionar una tecnología que pueda proporcionar contenido de audio especializado que pueda distribuirse independientemente de la configuración de exhibición, ya sea bidimensional o tridimensional; que, una vez que se haya especificado la configuración, pueda descodificarse para poder aprovechar totalmente sus capacidades; que pueda reproducir todo tipo de campos acústicos (fuentes estrechas, campos reverberantes o difusos) para todos los oyentes dentro del espacio, es decir, con una amplia zona de sonido óptimo; y que no requiera un elevado número de altavoces. Esto hará posible crear contenido que pueda utilizarse en el futuro, en el sentido de que se adaptará fácilmente a todas las configuraciones actuales y futuras de múltiples altavoces, y también hará posible que las salas de cine o los usuarios domésticos elijan la configuración de múltiples altavoces que mejor se adapte a sus necesidades y objetivos, con el beneficio de estar seguros de que habrá una gran cantidad de contenido que aprovechará totalmente las capacidades de su configuración elegida.
BREVE DESCRIPCIÓN DE LA INVENCIÓN Un procedimiento y aparato para codificar audio con información espacial de una manera que no depende de la configuración de exhibición, y para descodificar y emitir de manera óptima para cualquier configuración de exhibición, incluyendo configuraciones con altavoces a diferentes alturas, y auriculares.
La invención se basa en un procedimiento para, dado algún material de audio de entrada, codificarlo en un formato independiente de la exhibición asignándolo a dos grupos: el primer grupo contiene el audio que necesita una localización altamente direccional; el segundo grupo contiene audio para el que basta la localización proporcionada por una tecnología ambisónica de bajo orden.
Todo el audio del primer grupo se codifica como un conjunto de diferentes pistas de audio mono con metadatos asociados. El número de diferentes pistas de audio mono es ilimitado, aunque pueden imponerse algunas limitaciones en determinadas modalidades, tal y como se describirá posteriormente. Los metadatos contienen información acerca del momento exacto en que va a reproducirse tal pista de audio, así como información espacial que describe, al menos, la dirección de origen de la señal en cada momento. Todo el audio del segundo grupo se codifica en un conjunto de pistas de audio que representan un orden dado de señales ambisónicas. De manera ideal, hay un único conjunto de canales ambisónicos, aunque puede utilizarse más de uno en determinadas modalidades.
Durante la reproducción, una vez que se conoce el sistema de exhibición, el primer grupo de canales de audio se descodificará para su reproducción utilizando algoritmos de panoramización estándar que utilizan un pequeño número de altavoces alrededor de la ubicación prevista de la fuente de audio. El segundo conjunto de canales de audio se descodificará para su reproducción utilizando descodificadores ambisónicos optimizados para el sistema de exhibición dado.
Este procedimiento y aparato resuelven los problemas mencionados anteriormente tal y como se describirá más adelante.
En primer lugar, permite que las fases de grabación, postproducción y distribución de audio de producciones típicas sean independientes de las configuraciones en las que va a exhibirse el contenido. Una consecuencia genérica de este hecho es que el contenido generado con este procedimiento puede utilizarse en el futuro, en el sentido de que puede adaptarse a cualquier configuración arbitraria de múltiples altavoces, ya sea actual o futura. Esta propiedad también se satisface con tecnología ambisónica.
En segundo lugar, puede reproducir correctamente fuentes muy estrechas. Éstas se codifican en pistas de audio individuales con metadatos direccionales asociados, permitiendo algoritmos de descodificación que utilizan un pequeño número de altavoces alrededor de la ubicación prevista de la fuente de audio, como una panoramización en amplitud basada en vectores bidimensional o tridimensional. Por el contrario, la ambisónica requiere la utilización de órdenes elevados para conseguir el mismo resultado, con el consiguiente aumento en el número de pistas asociadas, en los datos y en la complejidad de descodificación.
En tercer lugar, este procedimiento y aparato pueden proporcionar una amplia zona de sonido óptimo en la mayoría de situaciones, aumentando por tanto el área de reconstrucción óptima de campos sonoros. Esto se consigue separando en el primer grupo de pistas de audio todas las partes de audio que son responsables de una reducción de la zona de sonido óptimo. Por ejemplo, en la modalidad ilustrada en la FIG. 8 y descrita posteriormente, el sonido directo de un diálogo se codifica como una pista de audio aparte con información acerca de su dirección de procedencia, mientras que la parte reverberante se codifica como un conjunto de pistas ambisónicas de primer orden. Por lo tanto, gran parte de la audiencia percibe el sonido directo de esta fuente como proviniendo de la ubicación correcta, generalmente desde algunos altavoces situados en torno a la dirección prevista; por lo tanto, los efectos de precedencia y de coloración fuera de fase se eliminan del sonido directo, el cual dispone la imagen de sonido en su posición correcta.
En cuarto lugar, la cantidad de datos codificados utilizando este procedimiento se reduce en la mayoría de situaciones de codificación de audio con múltiples altavoces, en comparación con el paradigma de "una pista por canal" y con la codificación ambisónica de orden superior. Esto es ventajoso para fines de almacenamiento y distribución. Hay dos razones para esta reducción en el tamaño de los datos. Por un lado, la asignación del audio altamente direccional a la lista de reproducción de audio estrecho solo permite la utilización de una ambisónica de primer orden para la reconstrucción de la parte restante del sonido ambiental, que consiste en audio disperso, difuso o no altamente direccional. Por lo tanto, las 4 pistas del grupo ambisónico de primer orden son suficientes. Por el contrario, una ambisónica de orden superior será necesaria para reconstruir correctamente fuentes estrechas, lo que requerirá, por ejemplo, 16 canales de audio para el tercer orden o 25 para el cuarto orden. Por otro lado, el número de fuentes estrechas requeridas para reproducirse simultáneamente es bajo en muchas situaciones; este es el caso, por ejemplo, del cine, donde solamente los diálogos y algunos efectos especiales de sonido se asignan normalmente a la lista de reproducción de audio estrecho. Además, todo el audio del grupo de lista de reproducción de audio estrecho es un conjunto de pistas individuales con una longitud correspondiente únicamente a la duración de esa fuente de audio. Por ejemplo, el audio correspondiente a un coche que aparece tres segundos en una escena sólo dura tres segundos. Por lo tanto, en un ejemplo de aplicación para el cine donde la banda sonora de una película va a producirse para una configuración 22.2, el paradigma de "una pista por canal" requerirá 24 pistas de audio, y una codificación ambisónica de tercer orden requerirá 16 pistas de audio. Por el contrario, el formato independiente de la exhibición propuesto requerirá solamente 4 pistas de audio de longitud total, más un conjunto de pistas de audio por separado de longitudes diferentes que se minimizan con el fin de cubrir solamente la duración prevista de las fuentes de sonido estrecho seleccionadas.
BREVE DESCRIPCIÓN DE LOS DIBUJOS La figura 1 muestra una modalidad del procedimiento para, dado un conjunto de pistas de audio iniciales, seleccionarlas y codificarlas, y finalmente descodificarlas y reproducirlas de manera óptima en una configuración de exhibición arbitraria.
La figura 2 muestra un esquema del formato propuesto independiente de la exhibición con los dos grupos de audio: la lista de reproducción de audio estrecho con información espacial y las pistas ambisónicas.
La figura 3 muestra un descodificador que utiliza diferentes algoritmos para procesar cualquiera de los dos grupos de audio.
La figura 4 muestra una modalidad de un procedimiento mediante el cual los dos grupos de audio pueden recodificarse.
La figura 5 muestra una modalidad mediante la cual el formato independiente de la exhibición puede basarse en flujos de audio en lugar de en archivos de audio completos almacenados en disco o en otro tipo de memoria.
La figura 6 muestra una modalidad adicional del procedimiento, donde el formato independiente de la exhibición se introduce en un descodificador que puede reproducir el contenido en cualquier configuración de exhibición.
La figura 7 muestra algunos detalles técnicos acerca del proceso de rotación, que corresponde a operaciones sencillas en ambos grupos de audio.
La figura 8 muestra una modalidad del procedimiento en un marco de trabajo de postproducción audiovisual.
La figura 9 muestra una modalidad adicional del procedimiento como parte de la producción y postproducción de audio en una escena virtual (por ejemplo, en una película de animación o juego en 3D).
La figura 10 muestra una modalidad adicional del procedimiento como parte de un servidor de cine digital.
La figura 11 muestra una modalidad alternativa del procedimiento para el cine mediante la cual el contenido puede descodificarse antes de distribuirse.
DESCRIPCIÓN DETALLADA DE LAS MODALIDADES PREFERIDAS La figura 1 muestra una modalidad del procedimiento para, dado un conjunto de pistas de audio iniciales, seleccionarlas y codificarlas, y finalmente descodificarlas y reproducirlas de manera óptima en una configuración de exhibición arbitraria. Es decir, para ubicaciones de altavoces dados, el campo sonoro espacial se reconstruirá de la mejor manera posible, adaptándose a los altavoces disponibles y ampliando la zona de sonido óptimo tanto como sea posible. El audio inicial puede provenir de cualquier fuente, por ejemplo: mediante la utilización de cualquier tipo de micrófono de cualquier patrón de directividad o respuesta de frecuencia; mediante la utilización de micrófonos ambisónicos que pueden suministrar un conjunto de señales ambisónicas de cualquier orden u orden mixto; o mediante la utilización de audio generado sintéticamente o efectos como reverberación de sala.
El proceso de selección y codificación consiste en generar dos grupos de pistas a partir del audio inicial. El primer grupo consiste en aquellas partes del audio que requieren una localización estrecha, mientras que el segundo grupo consiste en el resto del audio, para el que basta la direccionalidad de un orden ambisónico dado. Las señales de audio asignadas al primer grupo se mantienen en pistas de audio mono acompañadas de metadatos espaciales relacionados con su dirección de origen a lo largo del tiempo y con su tiempo de reproducción inicial.
La selección es un proceso dirigido por el usuario, aunque pueden realizarse algunas acciones por defecto en algunos tipos de audio inicial. En el caso general (es decir, para pistas de audio no ambisónicas) el usuario define para cada fragmento de audio inicial su dirección origen y el tipo de fuente: fuente estrecha o fuente ambisónica, correspondientes a los grupos de codificación mencionados anteriormente. Los ángulos de dirección pueden definirse, por ejemplo, por el acimut y la elevación de la fuente con respecto al oyente, y pueden especificarse como valores fijos por pista o como datos variables en el tiempo. Si no se proporciona ninguna dirección para algunas de las pistas, pueden definirse asignaciones por defecto, por ejemplo, asignando tales pistas a una dirección constante fija dada.
Opcionalmente, los ángulos de dirección pueden acompañarse de un parámetro de dispersión. Los términos "disperso" y "estrecho" deben entenderse en este contexto como la anchura angular de la imagen percibida de sonido de la fuente. Por ejemplo, una manera de cuantificar la dispersión es utilizando valores en el intervalo [0,1], donde un valor de 0 describe sonido perfectamente direccional (es decir, sonido que emana desde una dirección distinguible solamente) y un valor de 1 describe sonido que llega desde todas las direcciones con la misma energía.
Para algunos tipos de pistas iniciales pueden definirse acciones por defecto. Por ejemplo, las pistas identificadas como pares estéreo pueden asignarse al grupo ambisónico con un acimut de -30 y 30 grados para los canales L y R, respectivamente. Las pistas identificadas como surround 5.1 (ITU-R775-1) pueden correlacionarse de manera similar con acimuts de -30, 0, 30, -1 10, 110 grados. Finalmente, las pistas identificadas como ambisónicas de primer orden (o formato B) pueden asignarse al grupo ambisónico sin necesidad de información de dirección adicional.
El proceso de codificación de la FIG. 1 toma la información definida por el usuario mencionada anteriormente y proporciona un formato de audio independiente de la exhibición con información espacial, tal y como se describe en la figura 2 la salida del proceso de codificación para el primer grupo es un conjunto de pistas de audio mono con señales de audio correspondientes a diferentes fuentes de sonido, con metadatos espaciales asociados, que incluyen la dirección de origen con respecto a un sistema de referencia dado, o las propiedades de dispersión del audio. La salida del proceso de conversión para el segundo grupo de audio es un único conjunto de pistas ambisónicas de un orden elegido (por ejemplo, 4 pistas si se elige una ambisónica de primer orden) que corresponde a la mezcla de todas las fuentes del grupo ambisónico.
Después, la salida del proceso de codificación se utiliza por un descodificador que utiliza información acerca de la configuración de exhibición escogida para producir una pista de audio o flujo de audio para cada canal de la configuración.
La figura 3 muestra un descodificador que utiliza diferentes algoritmos para procesar cualquier grupo de audio. El grupo de pistas ambisónicas se descodifica utilizando descodificadores ambisónicos adecuados para la configuración específica. Las pistas de la lista de reproducción de audio estrecho se descodifican utilizando algoritmos adecuados para esta finalidad; éstos utilizan información espacial de metadatos de cada pista para la descodificación utilizando normalmente un número muy pequeño de altavoces alrededor de la ubicación prevista de cada pista. Un ejemplo de un algoritmo de este tipo es la panoramización en amplitud basada en vectores. Los metadatos de tiempo se utilizan para iniciar la reproducción de cada audio de este tipo en el momento correcto. Los canales descodificados se envían finalmente para su reproducción a los altavoces o auriculares.
La figura 4 muestra una modalidad adicional de un procedimiento mediante el cual los dos grupos de audio pueden recodificarse. El proceso genérico de recodificación toma como entrada una lista de reproducción de audio estrecho que contiene N pistas de audio diferentes con metadatos direccionales asociados, y un conjunto de pistas ambisónicas de un orden P dado, y un tipo dado de mezcla A (por ejemplo, puede contener todas la pistas de orden cero y de primer orden, pero solamente 2 pistas correspondientes a señales de segundo orden). La salida del proceso de recodificación es una lista de reproducción de audio estrecho que contiene M pistas de audio diferentes con metadatos direccionales asociados, y un conjunto de pistas ambisónicas de un orden Q dado, con un tipo dado de mezcla B. En el proceso de recodíficación, M, Q y B pueden ser diferentes de N, P y A, respectivamente.
La recodificación puede utilizarse, por ejemplo, para reducir el número de datos contenidos. Esto puede conseguirse, por ejemplo, seleccionando una o más pistas de audio contenidas en la lista de reproducción de audio estrecho y asignándolas al grupo ambisónico mediante una conversión de mono a ambisónico que utiliza la información direccional asociada a la pista mono. En este caso, es posible obtener M<N a expensas de utilizar una localización ambisónica para el audio estrecho recodificado. Con el mismo objetivo, es posible reducir el número de pistas ambisónicas, por ejemplo, conservando solamente aquéllas que se requieren para su reproducción en configuraciones de exhibición planas. Mientras que el número de señales ambisónicas para una P dada es (P+1)2, la reducción a configuraciones planas reduce el número a 1+2 P.
Otra aplicación del proceso de recodificación es la reducción de pistas de audio simultáneas requeridas por una lista de reproducción de audio estrecho. Por ejemplo, en aplicaciones de radiodifusión puede ser deseable limitar el número de pistas de audio que pueden reproducirse simultáneamente. De nuevo, esto puede resolverse asignando algunas pistas de la lista de reproducción de audio estrecho al grupo ambisónico.
Opcionalmente, la lista de reproducción de audio estrecho puede contener metadatos que describen la relevancia del audio que contiene, que es una descripción de cómo es de importante para cada audio descodificarse utilizando algoritmos para fuentes estrechas. Estos metadatos pueden utilizarse para asignar automáticamente el audio menos relevante al grupo ambisónico.
Un uso alternativo del proceso de recodificación puede ser simplemente permitir al usuario asignar audio de la lista de reproducción de audio estrecho al grupo ambisónico, o cambiar el orden y el tipo de mezcla del grupo ambisónico solamente para fines estéticos. También es posible asignar audio del grupo ambisónico a la lista de reproducción de audio estrecho: una posibilidad es seleccionar solamente una parte de la pista de orden cero y asociar manualmente sus metadatos espaciales; otra posibilidad es utilizar algoritmos que deduzcan la ubicación de la fuente a partir de las pistas ambisónicas, como el algoritmo DirAC.
La figura 5 muestra una modalidad adicional de la presente invención mediante la cual el formato propuesto independiente de la exhibición puede basarse en flujos de audio en lugar de en archivos de audio completos almacenados en disco o en otro tipo de memoria. En escenarios de radiodifusión, el ancho de banda de audio es limitado y fijo y, por lo tanto, el número de canales de audio que pueden transmitirse simultáneamente. El procedimiento propuesto consiste, en primer lugar, en dividir los flujos de audio disponibles en dos grupos, los flujos de audio estrecho y los flujos ambisónicos, y, en segundo lugar, en recodificar el formato intermedio independiente de la exhibición basado en archivo con respecto al número limitado de flujos.
Tal recodificación utiliza las técnicas explicadas en los párrafos anteriores para reducir, cuando sea necesario, el número de pistas simultáneas tanto para la parte de audio estrecho (reasignando pistas de baja relevancia al grupo ambisónico) como para la parte ambisónica (eliminando componentes ambisónicas).
La transmisión de audio tiene especificaciones adicionales, como la necesidad de concatenar las pistas de audio estrecho en flujos continuos y de recodificar los metadatos de dirección de audio estrecho en las utilidades de transmisión disponibles. Si el formato de la transmisión de audio no permite transmitir tales metadatos direccionales, debe reservarse una única pista de audio para transportar estos metadatos codificados de una manera apropiada.
El siguiente ejemplo sencillo servirá para explicar esto en mayor detalle. Considérese la banda sonora de una película en el formato propuesto independiente de la exhibición que utiliza una ambisónica de primer orden (4 canales) y una lista de reproducción de audio estrecho con un máximo de 4 canales simultáneos. Esta banda sonora se transmitirá utilizando solamente 6 canales de TV digital. Tal y como se muestra en la figura 5, la recodificación utiliza 3 canales ambisónicos (eliminándose el canal Z) y 2 canales de audio estrecho (es decir, reasignando un máximo de dos pistas simultáneas al grupo ambisónico).
Opcionalmente, el formato propuesto independiente de la exhibición puede utilizar datos de audio comprimidos. Esto puede utilizarse en ambos modos del formato propuesto independiente de la exhibición: basado en archivo o basado en flujo. Cuando se utilizan formatos con pérdidas basados en psicoacústica, la compresión puede afectar a la calidad de reconstrucción espacial.
La figura 6 muestra una modalidad adicional del procedimiento, donde el formato independiente de la exhibición se introduce en un descodificador que puede reproducir el contenido en cualquier configuración de exhibición. La especificación de la configuración de exhibición puede realizarse de varias formas diferentes. El descodificador puede tener unos preajustes estándar, como surround 5. 1 (ITU-R775-1), que el usuario puede simplemente seleccionar para adaptarse a su configuración de exhibición. Esta selección puede permitir opcionalmente algún ajuste para establecer de manera precisa la posición de los altavoces en la configuración específica del usuario. Opcionalmente, el usuario puede utilizar algún sistema de autodetección que pueda localizar la posición de cada altavoz, por ejemplo, mediante tecnología de audio, ultrasonidos o infrarrojos. La especificación de la configuración de exhibición puede reconfigurarse un número ilimitado de veces permitiendo al usuario adaptarse a cualquier configuración actual y futura de múltiples altavoces. El descodificador puede tener múltiples salidas, de manera que diferentes procesos de descodificación pueden llevarse a cabo al mismo tiempo para una reproducción simultánea en diferentes configuraciones. De manera ideal, la descodificación se lleva a cabo antes de cualquier posible ecualización del sistema de emisión.
Si el sistema de reproducción son unos auriculares, la descodificación se realizará mediante tecnología binaural estándar. Utilizando una o varias bases de datos de funciones de transferencia relativas a la cabeza (HRTF) es posible producir sonido especializado utilizando algoritmos adaptados a ambos grupos de audio propuestos en el presente procedimiento: listas de reproducción de audio estrecho y pistas ambisónicas. Esto se consigue normalmente realizando en primer lugar una descodificación para una configuración virtual de múltiples altavoces utilizando los algoritmos descritos anteriormente y después convolucionando cada canal con la HRTF correspondiente a la ubicación del altavoz virtual.
Ya sea para una exhibición en configuraciones de múltiples altavoces o en auriculares, una modalidad adicional del procedimiento permite una rotación final de todo el sonido ambiental en la fase de exhibición. Esto puede ser útil de varias maneras. En una aplicación, un usuario con auriculares puede tener un mecanismo de seguimiento de la cabeza que mida parámetros acerca de la orientación de su cabeza para hacer rotar todo el sonido ambiental consecuentemente.
La figura 7 muestra algunos detalles técnicos acerca del proceso de rotación, que corresponde a operaciones sencillas en ambos grupos de audio. La rotación de las pistas ambisónicas se lleva a cabo aplicando diferentes matrices de rotación a cada orden ambisónico. Esto es un procedimiento ampliamente conocido. Por otro lado, los metadatos espaciales asociados con cada pista de la lista de reproducción de audio estrecho pueden modificarse calculando simplemente el acimut origen y la elevación que percibiría un oyente con una orientación dada. Esto es también un cálculo simple estándar.
La figura 8 muestra una modalidad del procedimiento en un marco de trabajo de postproducción audiovisual. Un usuario tiene todo el contenido de audio en su software de postproducción, que puede ser una estación de trabajo de audio digital. El usuario especifica la dirección de cada fuente que necesita localizarse utilizando módulos estándar o dedicados. Para generar el formato intermedio propuesto independiente de la exhibición, selecciona el audio que se codificará en la lista de reproducción de pistas mono y el audio que se codificará en el grupo ambisónico. Esta asignación puede realizarse de diferentes maneras. En una modalidad, el usuario asigna a través de un módulo un coeficiente de direccionalidad a cada fuente de audio; después, esto se utiliza para asignar automáticamente todas las fuentes con un coeficiente de direccionalidad por encima de un valor dado a la lista de reproducción de audio estrecho, y el resto al grupo ambisónico. En una modalidad alternativa, el software lleva a cabo algunas asignaciones por defecto; por ejemplo, la parte reverberante de todo el audio, así como todo el audio que se grabó originalmente utilizando micrófonos ambisónicos, puede asignarse al grupo ambisónico a no ser que el usuario indique lo contrario. Como alternativa, todas las asignaciones se realizan manualmente.
Cuando finalizan las asignaciones, el software utiliza módulos dedicados para generar la lista de reproducción de audio estrecho y las pistas ambisónicas. En este procedimiento, los metadatos acerca de las propiedades espaciales de la lista de reproducción de audio estrecho están codificados. Asimismo, la dirección, y opcionalmente la dispersión, de las fuentes de audio que están asignadas al grupo ambisónico se utiliza para la transformación de mono o estéreo a ambisónico a través de algoritmos estándar. Por lo tanto, la salida de la fase de postproducción de audio es un formato intermedio independiente de la exhibición con la lista de reproducción de audio estrecho y un conjunto de canales ambisónicos de un orden y mezcla dados.
En esta modalidad, para un futuro desarrollo de versiones, puede ser útil generar más de un conjunto de canales ambisónicos. Por ejemplo, si se producen versiones de la misma película en diferentes idiomas, resulta útil codificar en un segundo conjunto de pistas ambisónicas todo el audio relacionado con los diálogos, incluyendo la parte reverberante de los diálogos. Utilizando este procedimiento, los únicos cambios necesarios para producir una versión en un idioma diferente consiste en sustituir los diálogos secos contenidos en la lista de reproducción de audio estrecho y la parte reverberante de los diálogos contenidos en el segundo conjunto de pistas ambisónicas.
La figura 9 muestra una modalidad adicional del procedimiento como parte de la producción y postproducción de audio en una escena virtual (por ejemplo, en una película de animación o un juego en 3D). En la escena virtual hay información disponible acerca de la ubicación y orientación de las fuentes de sonido y del oyente. Opcionalmente, puede haber información disponible acerca de la geometría tridimensional de la escena, asi como de los materiales presentes en la misma. La reverberación puede calcularse opcionalmente de manera automática utilizando simulaciones acústicas de la sala. En este contexto, la codificación del sonido ambiental en el formato intermedio independiente de la exhibición propuesto en este documento puede simplificarse. Por un lado, es posible asignar pistas de audio a cada fuente y codificar la posición con respecto al oyente en cada momento deduciéndola simplemente de manera automática a partir de las posiciones y orientaciones respectivas, en lugar de tener que especificarla posteriormente en la postproducción. También es posible decidir cuánta reverberación se codifica en el grupo ambisónico asignando el sonido directo de cada fuente, así como un determinado número de primeras reflexiones sonoras, a la lista de reproducción de audio estrecho y la parte restante de la reverberación al grupo ambisónico.
La figura 10 muestra una modalidad adicional del procedimiento como parte de un servidor de cine digital. En este caso, el mismo contenido de audio puede distribuirse a las salas de cine en el formato descrito independiente de la exhibición, que consiste en la lista de reproducción de audio estrecho más el conjunto de pistas ambisónicas. Cada sala de cine puede tener un descodificador con la especificación de cada configuración particular de múltiples altavoces, que puede introducirse manualmente o mediante algún tipo de mecanismo de autodetección. En particular, la detección automática de la configuración puede integrarse fácilmente en un sistema que, al mismo tiempo, calcule la necesidad de ecualización para cada altavoz. Esta etapa puede consistir en medir la respuesta de impulso de cada altavoz en una sala de cine dada para deducir tanto la posición de altavoz como el filtro inverso necesario para ecualizarla. La medición de la respuesta de impulso, que puede realizarse utilizando múltiples técnicas existentes (como barridos senoidales, secuencias MLS) y la deducción correspondiente de las posiciones de altavoz, es un procedimiento que no necesita llevarse a cabo con frecuencia, sino solamente cuando cambian las características del espacio o de la configuración. En cualquier caso, una vez que el descodificador tenga la especificación de la configuración, el contenido puede descodificarse de manera óptima en un formato de "una pista por canal", listo para reproducirse.
La figura 11 muestra una modalidad alternativa del procedimiento para el cine, donde el contenido puede descodificarse antes de su distribución. En este caso, el descodificador necesita conocer la especificación de cada configuración de cine para que puedan generarse múltiples versiones de "una pista por canal" y distribuirse posteriormente. Esta aplicación es útil, por ejemplo, para suministrar contenido a las salas de cine que no tengan un descodificador compatible con el formato independiente de la exhibición propuesto en este documento. También puede ser útil comprobar o certificar la calidad del audio adaptado a una configuración especifica antes de distribuirlo.
En una modalidad adicional del procedimiento, parte de la lista de reproducción de audio estrecho puede reeditarse sin tener que acudir al proyecto maestro original. Por ejemplo, algunos de los metadatos que describen la posición de las fuentes o su dispersión pueden modificarse.
Aunque lo expuesto anteriormente se ha mostrado y descrito en particular con referencia a modalidades particulares de la invención, los expertos en la técnica entenderán que pueden realizarse otros cambios en la forma y en los detalles sin apartarse del espíritu y el alcance de la invención. Debe entenderse que pueden realizarse varios cambios para la adaptación a diferentes modalidades sin apartarse de los conceptos generales dados a conocer en este documento y comprendidos en las siguientes reivindicaciones.

Claims (26)

NOVEDAD DE LA INVENCIÓN REIVINDICACIONES
1- Un procedimiento para codificar señales de audio e información espacial relacionada en un formato independiente de la disposición de reproducción, comprendiendo el procedimiento: a. asignar un primer conjunto de las señales de audio a un primer grupo y codificar el primer grupo como un conjunto de pistas de audio mono con metadatos asociados que describen la dirección de origen de la señal de cada pista con respecto a una posición de grabación, y su tiempo de reproducción inicial; b. asignar un segundo conjunto de las señales de audio a un segundo grupo y codificar el segundo grupo como al menos un conjunto de pistas ambisónicas de un orden dado y mezcla de órdenes dada; y c. generar dos grupos de pistas que comprenden el primer y el segundo conjunto de señales de audio.
2. - El procedimiento de conformidad con la reivindicación 1 , caracterizado además porque también comprende: codificar parámetros de dispersión asociados con las pistas del conjunto de pistas de audio mono.
3. - El procedimiento de conformidad con la reivindicación 1 , caracterizado además porque también comprende: codificar parámetros direccionales adicionales asociados con las pistas del conjunto de pistas de audio mono.
4.- El procedimiento de conformidad con la reivindicación 1 , caracterizado además porque también comprende: obtener la dirección de origen de las señales de las pistas del primer conjunto a partir de cualquier representación tridimensional de la escena que contiene las fuentes de sonido asociadas a las pistas, y la ubicación de grabación.
5.- El procedimiento de conformidad con la reivindicación 1 , caracterizado además porque también comprende: asignar la dirección de origen de las señales de las pistas del primer conjunto según reglas predefinidas.
6. - El procedimiento de conformidad con la reivindicación 1 , caracterizado además porque también comprende: codificar los parámetros direccionales para cada pista del primer conjunto como valores constantes fijos o como valores variables en el tiempo.
7. - El procedimiento de conformidad con la reivindicación 1 , caracterizado además porque también comprende: codificar metadatos que describen la especificación del formato ambisónico utilizado, tal como el orden ambisónico, el tipo de mezcla de órdenes, ganancias relacionadas con las pistas y la ordenación de las pistas.
8. - El procedimiento de conformidad con la reivindicación 1, caracterizado además porque también comprende: codificar el tiempo de reproducción inicial asociado con las pistas ambisónicas.
9. - El procedimiento de conformidad con la reivindicación 1 , caracterizado además porque también comprende: codificar señales mono de entrada con datos direccionales asociados en las pistas ambisónicas de un orden y mezcla de órdenes dados.
10. - El procedimiento de conformidad con la reivindicación 1 , caracterizado además porque también comprende: codificar cualquier señal multicanal de entrada en las pistas ambisónicas de un orden y mezcla de órdenes dados.
11. - El procedimiento de conformidad con la reivindicación 1 , caracterizado además porque también comprende: codificar cualquier señal ambisónica de entrada, de cualquier orden y mezcla de órdenes, en pistas ambisónicas de un orden y mezcla de órdenes dados posiblemente diferentes.
12. - El procedimiento de conformidad con la reivindicación 1 , caracterizado además porque también comprende recodificar el formato independiente de la disposición de reproducción, comprendiendo la recodificación al menos uno de lo siguiente: a. asignar pistas del conjunto de pistas mono al conjunto ambisónico; b. asignar partes de audio del conjunto ambisónico al conjunto de pistas mono, incluyendo posiblemente información direccional obtenida de las señales ambisónicas; c. cambiar el orden o mezcla de órdenes del conjunto de pistas ambisónico; d. modificar los metadatos direccionales asociados con el conjunto de pistas mono; e. modificar las pistas ambisónicas mediante operaciones tales como rotación y zoom.
13. - El procedimiento de conformidad con la reivindicación 12, caracterizado además porque también comprende recodificar el formato independiente de la disposición de reproducción en un formato adecuado para la radiodifusión, satisfaciendo la recodificación las siguientes restricciones: un número fijo de flujos de audio continuos, la utilización de los protocolos disponibles para el transporte de metadatos contenidos en el formato independiente de la disposición de reproducción.
14.- El procedimiento de conformidad con la reivindicación 1 , caracterizado además porque también comprende descodificar el formato independiente de la disposición de reproducción para una configuración dada de múltiples altavoces, utilizando la descodificación una especificación de las posiciones de los múltiples altavoces para: a. descodificar el conjunto de pistas mono utilizando algoritmos adecuados para reproducir fuentes de sonido estrecho; b. descodificar el conjunto de pistas ambisónicas con algoritmos adaptados al orden y mezcla de órdenes de la pista y a la configuración especificada.
15. - El procedimiento de conformidad con la reivindicación 14, caracterizado además porque también comprende la utilización de parámetros de dispersión y posiblemente otros metadatos espaciales asociados con el conjunto de pistas mono para utilizar algoritmos de descodificación adecuados para la dispersión especificada.
16. - El procedimiento de conformidad con la reivindicación 14, caracterizado además porque también comprende la utilización de preajustes estándar de configuración de disposición de reproducción, tales como estéreo y surround 5.1, ITU-R775-1.
17. - El procedimiento de conformidad con la reivindicación 14, caracterizado además porque también comprende descodificar para auriculares, mediante tecnología binaural estándar, utilizando bases de datos de funciones de transferencia relativas a la cabeza.
18. - El procedimiento de conformidad con la reivindicación 14, caracterizado además porque también comprende la utilización de parámetros de control de rotación para llevar a cabo una rotación del sonido ambiental completo, en el que tales parámetros de control pueden generarse, por ejemplo, a partir de dispositivos de seguimiento de la cabeza.
19. - El procedimiento de conformidad con la reivindicación 14, caracterizado además porque también comprende la utilización de tecnología para obtener automáticamente la posición de los altavoces para definir la especificación de configuración que utilizará el descodificador.
20. - El procedimiento de conformidad con las reivindicaciones 14 ó 17, caracterizado además porque la salida de la descodificación se almacena como un conjunto de pistas de audio en lugar de reproducirse directamente.
21. - El procedimiento de conformidad con las reivindicaciones 1 , 12, 13 ó 20, caracterizado además porque todas o parte de las señales de audio se codifican en formatos de audio comprimidos.
22.- Un codificador de audio para codificar señales de audio e información espacial relacionada en un formato independiente de la disposición de reproducción, comprendiendo el codificador: a. un codificador para asignar un primer conjunto de las señales de audio a un primer grupo y para codificar el primer grupo en un conjunto de pistas mono con información direccional y de tiempo de reproducción inicial; b. un codificador para asignar un segundo conjunto de las señales de audio a un segundo grupo y para codificar el segundo grupo en un conjunto de pistas ambisonicas de cualquier orden y mezcla de órdenes; y c. un codificador para generar dos grupos de pistas que comprenden el primer y el segundo conjunto de señales de audio.
23. - Un recodificador y modificador de audio para manipular y recodificar audio en un formato de entrada independiente de la disposición de reproducción, mediante el cual la salida se modifica según el procedimiento de la reivindicación 12, donde el recodificador está adaptado para llevar a cabo al menos uno de lo siguiente: a. asignar pistas del conjunto de pistas mono al conjunto ambisónico; b. asignar partes de audio del conjunto ambisónico al conjunto de pistas mono, incluyendo posiblemente información direccional obtenida de las señales ambisonicas; c. cambiar el orden o mezcla de órdenes del conjunto de pistas ambisónico; d. modificar los metadatos direccionales asociados con el conjunto de pistas mono; e. modificar las pistas ambisonicas mediante operaciones tales como rotación y zoom.
24. - Un descodificador de audio para descodificar un formato independiente de la disposición de reproducción para un sistema de reproducción dado con N canales, en el que el formato independiente de la disposición de reproducción se genera según el procedimiento de la reivindicación 1, comprendiendo el descodificador de audio: a. un descodificador para descodificar un conjunto de pistas mono con información direccional y de tiempo de reproducción inicial en N canales de audio, en función de la especificación de configuración de reproducción, b. un descodificador para descodificar un conjunto de pistas ambisónicas en N canales de audio, en función de la especificación de configuración de reproducción, c. un mezclador para mezclar la salida de los dos descodificadores anteriores para generar los N canales de audio de salida listos para reproducirse o almacenarse.
25.- Un sistema para codificar y recodificar audio espacial en un formato independiente de la disposición de reproducción, y para realizar una descodificación y una reproducción en cualquier configuración de múltiples altavoces, o en auriculares, comprendiendo el sistema: a. un codificador de audio para codificar un conjunto de señales de audio e información espacial relacionada en un formato independiente de la disposición de reproducción como en la reivindicación 22, b. un recodificador y modificador de audio para manipular y recodificar audio en un formato de entrada independiente de la disposición de reproducción como en la reivindicación 23, c. un descodificador de audio para descodificar el formato independiente de la disposición de reproducción para un sistema de reproducción dado, ya sea una configuración de múltiples altavoces o unos auriculares, como en la reivindicación 24.
26.- Un programa informático que, cuando se ejecuta en un ordenador, implementa el procedimiento de cualquiera de las reivindicaciones 1 a 21.
MX2011007035A 2008-12-30 2009-12-29 Procedimiento y aparato para la codificacion de campos acusticos tridimensionales y una reconstruccion optima. MX2011007035A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP08382091.0A EP2205007B1 (en) 2008-12-30 2008-12-30 Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
PCT/EP2009/009356 WO2010076040A1 (en) 2008-12-30 2009-12-29 Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction

Publications (1)

Publication Number Publication Date
MX2011007035A true MX2011007035A (es) 2011-10-11

Family

ID=40606571

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2011007035A MX2011007035A (es) 2008-12-30 2009-12-29 Procedimiento y aparato para la codificacion de campos acusticos tridimensionales y una reconstruccion optima.

Country Status (8)

Country Link
US (1) US9299353B2 (es)
EP (2) EP2205007B1 (es)
JP (1) JP5688030B2 (es)
CN (1) CN102326417B (es)
MX (1) MX2011007035A (es)
RU (1) RU2533437C2 (es)
UA (1) UA106598C2 (es)
WO (1) WO2010076040A1 (es)

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10326978B2 (en) 2010-06-30 2019-06-18 Warner Bros. Entertainment Inc. Method and apparatus for generating virtual or augmented reality presentations with 3D audio positioning
US9591374B2 (en) 2010-06-30 2017-03-07 Warner Bros. Entertainment Inc. Method and apparatus for generating encoded content using dynamically optimized conversion for 3D movies
US9552840B2 (en) * 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
AR084091A1 (es) * 2010-12-03 2013-04-17 Fraunhofer Ges Forschung Adquisicion de sonido mediante la extraccion de informacion geometrica de estimativos de direccion de llegada
EP2469741A1 (en) 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
FR2970574B1 (fr) * 2011-01-19 2013-10-04 Devialet Dispositif de traitement audio
EP2637427A1 (en) * 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
EP2665208A1 (en) 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
WO2013192111A1 (en) 2012-06-19 2013-12-27 Dolby Laboratories Licensing Corporation Rendering and playback of spatial audio using channel-based audio systems
EP2688066A1 (en) * 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
EP2875511B1 (en) * 2012-07-19 2018-02-21 Dolby International AB Audio coding for improving the rendering of multi-channel audio signals
EP2733963A1 (en) * 2012-11-14 2014-05-21 Thomson Licensing Method and apparatus for facilitating listening to a sound signal for matrixed sound signals
KR102028122B1 (ko) * 2012-12-05 2019-11-14 삼성전자주식회사 오디오 장치 및 그의 신호 처리 방법 그리고 그 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능 매체
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
KR102143545B1 (ko) * 2013-01-16 2020-08-12 돌비 인터네셔널 에이비 Hoa 라우드니스 레벨을 측정하기 위한 방법 및 hoa 라우드니스 레벨을 측정하기 위한 장치
US9913064B2 (en) * 2013-02-07 2018-03-06 Qualcomm Incorporated Mapping virtual speakers to physical speakers
EP2782094A1 (en) * 2013-03-22 2014-09-24 Thomson Licensing Method and apparatus for enhancing directivity of a 1st order Ambisonics signal
CN105103569B (zh) 2013-03-28 2017-05-24 杜比实验室特许公司 使用被组织为任意n边形的网格的扬声器呈现音频
US9723305B2 (en) 2013-03-29 2017-08-01 Qualcomm Incorporated RTP payload format designs
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
JP6204684B2 (ja) * 2013-04-05 2017-09-27 日本放送協会 音響信号再生装置
EP2800401A1 (en) 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
JP6228389B2 (ja) * 2013-05-14 2017-11-08 日本放送協会 音響信号再生装置
JP6228387B2 (ja) * 2013-05-14 2017-11-08 日本放送協会 音響信号再生装置
US9466305B2 (en) * 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9854377B2 (en) * 2013-05-29 2017-12-26 Qualcomm Incorporated Interpolation for decomposed representations of a sound field
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
EP2824661A1 (en) 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
CN109785851B (zh) 2013-09-12 2023-12-01 杜比实验室特许公司 用于各种回放环境的动态范围控制
US9807538B2 (en) 2013-10-07 2017-10-31 Dolby Laboratories Licensing Corporation Spatial audio processing system and method
DE102013223201B3 (de) * 2013-11-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
US9489955B2 (en) 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
WO2015145782A1 (en) * 2014-03-26 2015-10-01 Panasonic Corporation Apparatus and method for surround audio signal processing
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US10070094B2 (en) * 2015-10-14 2018-09-04 Qualcomm Incorporated Screen related adaptation of higher order ambisonic (HOA) content
EP3188504B1 (en) 2016-01-04 2020-07-29 Harman Becker Automotive Systems GmbH Multi-media reproduction for a multiplicity of recipients
FR3046489B1 (fr) * 2016-01-05 2018-01-12 Mimi Hearing Technologies GmbH Encodeur ambisonique ameliore d'une source sonore a pluralite de reflexions
KR20190013900A (ko) * 2016-05-25 2019-02-11 워너 브로스. 엔터테인먼트 인크. 3d 오디오 포지셔닝을 이용하는 가상 또는 증강 현실 프레젠테이션을 생성하기 위한 방법 및 장치 (method and apparatus for generating virtual or augmented reality presentations with 3d audio positioning)
US10158963B2 (en) * 2017-01-30 2018-12-18 Google Llc Ambisonic audio with non-head tracked stereo based on head position and time
US10390166B2 (en) 2017-05-31 2019-08-20 Qualcomm Incorporated System and method for mixing and adjusting multi-input ambisonics
GB2563635A (en) 2017-06-21 2018-12-26 Nokia Technologies Oy Recording and rendering audio signals
WO2019012131A1 (en) 2017-07-14 2019-01-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. CONCEPT FOR GENERATING AN ENHANCED AUDIO FIELD DESCRIPTION OR A MODIFIED AUDIO FIELD DESCRIPTION USING A MULTIPOINT SOUND FIELD DESCRIPTION
RU2740703C1 (ru) 2017-07-14 2021-01-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием многослойного описания
US10257633B1 (en) * 2017-09-15 2019-04-09 Htc Corporation Sound-reproducing method and sound-reproducing apparatus
CN109756683A (zh) * 2017-11-02 2019-05-14 深圳市裂石影音科技有限公司 全景音视频录制方法、装置、存储介质和计算机设备
US10595146B2 (en) * 2017-12-21 2020-03-17 Verizon Patent And Licensing Inc. Methods and systems for extracting location-diffused ambient sound from a real-world scene
US10714098B2 (en) * 2017-12-21 2020-07-14 Dolby Laboratories Licensing Corporation Selective forward error correction for spatial audio codecs
EP3503102A1 (en) * 2017-12-22 2019-06-26 Nokia Technologies Oy An apparatus and associated methods for presentation of captured spatial audio content
GB2572420A (en) 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering
CN109462811B (zh) * 2018-11-23 2020-11-17 武汉轻工大学 基于非中心点的声场重建方法、设备、存储介质及装置
CN218198110U (zh) * 2019-10-23 2023-01-03 索尼公司 移动装置
TW202123220A (zh) 2019-10-30 2021-06-16 美商杜拜研究特許公司 使用方向性元資料之多通道音頻編碼及解碼
CN111263291B (zh) * 2020-01-19 2021-06-11 西北工业大学太仓长三角研究院 一种基于高阶麦克风阵列的声场重构方法
JP2021131433A (ja) * 2020-02-19 2021-09-09 ヤマハ株式会社 音信号処理方法および音信号処理装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9204485D0 (en) * 1992-03-02 1992-04-15 Trifield Productions Ltd Surround sound apparatus
AUPO316296A0 (en) * 1996-10-23 1996-11-14 Lake Dsp Pty Limited Dithered binaural system
AUPP272598A0 (en) * 1998-03-31 1998-04-23 Lake Dsp Pty Limited Wavelet conversion of 3-d audio signals
JP3863306B2 (ja) * 1998-10-28 2006-12-27 富士通株式会社 マイクロホンアレイ装置
KR100542129B1 (ko) * 2002-10-28 2006-01-11 한국전자통신연구원 객체기반 3차원 오디오 시스템 및 그 제어 방법
FR2847376B1 (fr) * 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
US8027482B2 (en) * 2003-02-13 2011-09-27 Hollinbeck Mgmt. Gmbh, Llc DVD audio encoding using environmental audio tracks
DE10344638A1 (de) * 2003-08-04 2005-03-10 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene
WO2006054599A1 (ja) * 2004-11-16 2006-05-26 Nihon University 音源方向判定装置及び方法
DE102005008366A1 (de) 2005-02-23 2006-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ansteuern einer Wellenfeldsynthese-Renderer-Einrichtung mit Audioobjekten
FI20055260A0 (fi) * 2005-05-27 2005-05-27 Midas Studios Avoin Yhtioe Laite, järjestelmä ja menetelmä akustisten signaalien vastaanottamista tai toistamista varten
EP1989854B1 (fr) * 2005-12-27 2015-07-22 Orange Procede de determination d'un mode d'encodage spatial de donnees audio
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
JP2009540650A (ja) * 2006-06-09 2009-11-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 複数の音声再生ユニットへの送信のための音声データを生成する装置及び方法
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
JP2008061186A (ja) * 2006-09-04 2008-03-13 Yamaha Corp 指向特性制御装置、収音装置および収音システム
RU2420027C2 (ru) * 2006-09-25 2011-05-27 Долби Лэборетериз Лайсенсинг Корпорейшн Улучшенное пространственное разрешение звукового поля для систем многоканального воспроизведения аудио посредством получения сигналов с угловыми членами высокого порядка
US8290167B2 (en) * 2007-03-21 2012-10-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
RS1332U (en) 2013-04-24 2013-08-30 Tomislav Stanojević FULL SOUND ENVIRONMENT SYSTEM WITH FLOOR SPEAKERS

Also Published As

Publication number Publication date
WO2010076040A1 (en) 2010-07-08
US20110305344A1 (en) 2011-12-15
EP2205007B1 (en) 2019-01-09
RU2011131868A (ru) 2013-02-10
CN102326417A (zh) 2012-01-18
RU2533437C2 (ru) 2014-11-20
UA106598C2 (uk) 2014-09-25
JP5688030B2 (ja) 2015-03-25
JP2012514358A (ja) 2012-06-21
EP2382803A1 (en) 2011-11-02
US9299353B2 (en) 2016-03-29
EP2205007A1 (en) 2010-07-07
EP2382803B1 (en) 2020-02-19
CN102326417B (zh) 2015-07-08

Similar Documents

Publication Publication Date Title
EP2205007B1 (en) Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
RU2741738C1 (ru) Система, способ и постоянный машиночитаемый носитель данных для генерирования, кодирования и представления данных адаптивного звукового сигнала
JP7033170B2 (ja) 適応オーディオ・コンテンツのためのハイブリッドの優先度に基づくレンダリング・システムおよび方法
TWI744341B (zh) 使用近場/遠場渲染之距離聲相偏移
JP5956994B2 (ja) 拡散音の空間的オーディオの符号化及び再生
TWI442789B (zh) 使用物件式元資料來產生音訊輸出信號之裝置與方法
AU2012279357A1 (en) System and method for adaptive audio signal generation, coding and rendering
KR101381396B1 (ko) 입체음향 조절기를 내포한 멀티 뷰어 영상 및 3d 입체음향 플레이어 시스템 및 그 방법
Paterson et al. Producing 3-D audio
Baxter Immersive Sound Production Using Ambisonics and Advance Audio Practices
Pfanzagl-Cardone HOA—Higher Order Ambisonics (Eigenmike®)
Stevenson Spatialisation, Method and Madness Learning from Commercial Systems

Legal Events

Date Code Title Description
GB Transfer or rights

Owner name: DOLBY INTERNATIONAL AB.*

HC Change of company name or juridical status

Owner name: EVONIK TREIBACHER GMBH

GB Transfer or rights

Owner name: DOLBY INTERNATIONAL AB.*

FG Grant or registration