MX2011001657A - Aparato para determinar una señal de audio espacial convertida. - Google Patents

Aparato para determinar una señal de audio espacial convertida.

Info

Publication number
MX2011001657A
MX2011001657A MX2011001657A MX2011001657A MX2011001657A MX 2011001657 A MX2011001657 A MX 2011001657A MX 2011001657 A MX2011001657 A MX 2011001657A MX 2011001657 A MX2011001657 A MX 2011001657A MX 2011001657 A MX2011001657 A MX 2011001657A
Authority
MX
Mexico
Prior art keywords
component
omnidirectional
input
directional
wave
Prior art date
Application number
MX2011001657A
Other languages
English (en)
Inventor
Markus Kallinger
Fabian Kuech
Galdo Giovanni Del
Ville Pulkki
Mikko-Ville Laitinen
Richard Schultz-Amling
Original Assignee
Ten Forschung Ev Fraunhofer
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ten Forschung Ev Fraunhofer filed Critical Ten Forschung Ev Fraunhofer
Publication of MX2011001657A publication Critical patent/MX2011001657A/es

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

Se describe un aparato (100) para determinar una señal de audio espacial convertida, la señal de audio espacial convertida tiene un componente de audio omnidireccional (W´) y por lo menos un componente de audio direccional a partir de una señal de audio espacial de entrada, la señal de audio espacial de entrada tiene una representación de audio de entrada (W) y una dirección de llegada de entrada (F ). El aparato (100) comprende un estimador (110) para estimar una representación de onda (W) que comprende una medida de campo de onda y una medida de dirección de llegada de onda basada en la representación de audio de entrada (W) y la dirección de llegada de entrada (F). El aparato (100) comprende además un procesador (120) para procesar la medida de campo de onda y la medida de dirección de llegada de onda para obtener el componente de audio omnidireccional (W) y el por lo menos un componente direccional (X;Y;Z).

Description

APARATO PARA DETERMINAR UNA SEÑAL DE AUDIO ESPACIAL CONVERTIDA DESCRIPCIÓN DE LA INVENCIÓN La presente invención es concerniente con el campo de procesamiento de audio, especialmente procesamiento de audio espacial y conversión de diferentes formatos de.audio espacial.
La codificación de audio ¦ de DirAC (DirAC Codificación de Audio . Direccional ) es un método para la reproducción y procesamiento de audio espacial.
Los sistemas convencionales aplican DirAC en la reproducción de alta calidad bidimensional y tridimensional de sonido grabado, aplicaciones de teleconferencia, micrófonos direccionales y mezcla ascendente de estéreo a surround, por ejemplo V. Pulkki y C. Faller, Directional audio coding: Filterbank and STFT-based design, in 120th AES Convention, May 20-23, 2006, Paris, France May 2006, V. Pulkki and C. Faller, Directional audio coding in spatial sound reproduction and stereo upmixing, in AES 28th International Conference, Pitea, Sweden, June 2006, V. .Pulkki, Spatial sound reproduction with directional audio coding, Journal of the Audio Engineering Society, 55 (6) :503-516, June 2007, Jukka Añonen, V. Pulkki and Tapio Lokki, Teleconference application and B-format microp one array for directional audio coding, in 30th AES International Conference.
Otras aplicaciones convencionales que usan DirAC son, por ejemplo, el formato de codificación universal y cancelación de ruido. En DirAC, algunas propiedades direccionales del sonido son analizadas en bandas de frecuencia dependientes del tiempo. Los datos de análisis son transmitidos junto con los datos de audio y sintetizados para diferentes propósitos. El análisis se hace comúnmente utilizando señales de formato B, aunque teóricamente DirAC no está- limitado a este formato. El formato B, ver Michael Gerzon, Surround sound psychoacoustics, in Wireless World, volume 80, pages 483-486, December 1974, fue desarrollado en el trabajo de Ambisonics, un sistema desarrollado por investigadores británicos en los 70 's para traer el sonido surround a salas de concierto a salas de estar. El formato B consiste de cuatro señales, es decir w(t) ,x(t) ,y(t) y z(t). Las primeras tres corresponden a la presión medida por un micrófono omnidireccional , mientras que las últimas tres son lecturas de presión de micrófonos que tienen patrones de captación de cifra de ocho dirigidos hacia los tres ejes de un- sistema de coordenadas Cartesiano. Las señales x(t) ,y(t) y z(t) son proporcionales- a los componentes del vector de velocidad de partículas dirigidos hacia x,y y z respectivamente.
La corriente de DirAC consiste de 1-4 canales de audio con metadatos direccionales. En teleconferencia y en algunos otros casos, la corriente consiste de solamente un solo canal de audio con metadatos, llamado una corriente de DirAC mono. Esta es una manera muy compacta para describir audio espacial, ya que solamente un solo canal de audio necesita ser transmitido junto con información lateral, que por ejemplo, da buena separación espacial entre los parlantes. Sin embargo, en tales casos algunos tipos de sonido, tales como escenarios de sonido reverberado o sonido ambiente pueden ser reproducidos con calidad limitada. Para producir mejor calidad en estos casos, canales de audio adicionales necesitan ser transmitidos.
La conversión del formato B a DirAC es descrita en V. Pulkki , A method for reproducing natural or modified spatial impression in multichannel listening, Patent WO 2004 / 077884 Al, September 2004 . La Codificación de Audio Direccional es un procedimiento eficiente para el análisis y reproducción de sonido espacial. DirAC utiliza una representación paramétrica de campos de sonido basados en los elementos que son relevantes para la percepción de sonido espacial, es decir la DOA (DOA = dirección de llegada) y difusividad del campo de sonido en sub-bandas de frecuencia. En efecto, DirAC supone que las diferencias de tiempo interaurales (ITD) y diferencias de nivel interaural (ILD) son percibidas correctamente cuando la DOA de un campo de sonido es reproducida correctamente, mientras que la coherencia interaural (IC) es percibida correctamente, si la difusividad es reproducida exactamente. Estos parámetros, es decir DOA y difusividad, representan información lateral que acompaña una señal mono en lo que es denominada como una corriente de DirAC mono.
La Figura 7 muestra el codificador de DirAC, del cual señales de micrófono apropiadas calcula un canal de audio mono e información lateral, es decir difusividad (k,n) y dirección de llegada GDOA (k,n) . La Figura 7 muestra un codificador de DirAC 200, que es apto para calcular un canal de audio mono e información lateral de señales de micrófono apropiadas. En otras palabras, la Figura 7 ilustra un codificador de DirAC 200 para determinar la difusividad y dirección de llegada de señales de micrófono. La Figura 7 muestra un codificador de DirAC 200 que comprende una unidad de estimación P/U 210, en donde P(k,n) representa una señal de presión y U(k,n) representa un vector de velocidad de partícula. La unidad de estimación de P/U recibe las señales de micrófono como información de entrada, en la cual la estimación de P/U está basada. Una etapa de análisis energético 220 permite la estimación de la dirección de llegada y el parámetro de a difusividad de la corriente de DirAC mono.
Los parámetros de DirAC, como por ejemplo una representación de audio mono W{k,n) , un parámetro de difusividad (k,n) y una dirección de llegada (DOA) eD0A (k,n), pueden ser obtenidos a partir de una representación de frecuencia-tiempo de las señales de micrófono. Por consiguiente, los parámetros son dependientes del tiempo y de la frecuencia. En el lado de reproducción, esta información permite la presentación espacial exacta. Para recrear el sonido espacial en una posición de escucha deseada, se requiere un montaje de múltiples altavoces. Sin embargo, su geometría puede ser arbitraria. En efecto, los canales de los altavoces pueden ser determinados como función de los parámetros de DirAC.
Hay diferencias sustanciales entre DirAC y codificación de audio de multicanal paramétrica, tal como MPEG Surround, véase Lars Villemocs, Juergen Herré, Jeroen Breebaart, Gerard Hotho, Sascha Disch, Heiko Purnhagen, and Kristofer Kjrling, MPEG surround: The forthcoming ISO standard for spatial audio coding, in AES 28th International Conference, -Pitea, Sweden, June 2006, aunque comparten estructuras de procesamiento similares. Mientras que MPEG Surround está basado en un análisis de tiempo/frecuencia de los diferentes canales de altavoces, DirAC toma como entrada los canales de micrófonos coincidentes , que describen efectivamente el campo de sonido en un punto. Así, DirAC también representa una técnica de grabación eficiente para audio espacial.
Otro sistema que trata con audio espacial es SAOC (SAOC = Codificación de Objeto de Audio Espacial) , véase Joñas Engdegard, Barbara Resch, Cornelia Falch, Oliver Hellmuth, Johannes Hilpert, Andreas Hoelzer, Leonid Terentiev, Jeroen Breebaart, Jeroen Koppens, Erik Schuijers, and Werner Oomen, Spatial audio object (SAOC) the upcoming MPEG standard on parametric object based audio coding, in 12th AES Convention, May 17-20, 2008, Amsterdam, The Netherlands, 2008, actualmente bajo normalización de ISO/MPEG. Se integra sobre el motor de presentación de MPEG Surround y trata diferentes fuentes de sonido como objetos. Esta codificación de audio ofrece eficiencia muy alta en términos de proporción de bits y da libertad sin precedentes de interacción en el lado de reproducción. Este procedimiento promete nuevos elementos componentes y funcionalidad en sistemas heredados, también como varias otras nuevas aplicaciones .
Es el objeto de la presente invención proveer un concepto mejorado para el procesamiento espacial.
El objetivo es obtenido por un aparato para determinar una señal de audio espacial convertida de acuerdo con la reivindicación 1 y un método correspondiente de acuerdo con la reivindicación 15.
La presente invención está basada en el descubrimiento de que el procesamiento espacial mejorado puede ser obtenido, por ejemplo cuando se convierte una señal de audio espacial codificada como una corriente de DirAC mono a una señal de formato B. En modalidades, la señal de formato B convertida puede ser procesada o presentada antes de ser agregada a algunas otras señales de audio y codificada de regreso a una corriente de DirAC. Algunas modalidades pueden tener diferentes aplicaciones, por ejemplo, mezcla de tipos diferentes de corriente de DirAC y corrientes de formato B, basados en DirAC, etc. Algunas modalidades pueden introducir una operación inversa a WO 2004/077884 Al, es decir la conversión de una corriente de DirAC mono a formato B.
La presente invención está basada en el descubrimiento de que el procesamiento mejorado .puede ser obtenido, si las señales de audio son convertidas a componentes direccionales . En otras palabras, es el descubrimiento de la presente invención de que el procesamiento espacial mejorado puede ser obtenido, cuando el formato de una señal de audio espacial corresponde a componentes direccionales tal como son grabados, por ejemplo, mediante un micrófono direccional de formato B. Además, es un descubrimiento de la presente invención que los compuestos direccionales u omnidireccionales de fuentes diferentes pueden ser procesados conjuntamente y con los mismos con una eficiencia incrementada. En otras palabras, especialmente cuando se procesan señales de audio espacial a partir de múltiples fuentes de audio, el procesamiento se puede llevar a cabo más eficientemente, si las señales de las múltiples fuentes de audio están disponibles en el formato de sus componentes omnidireccionales y direccionales, ya que estos pueden ser procesados conjuntamente. En algunas modalidades, por consiguiente, los generadores de efecto de audio o procesadores de audio pueden ser usados más eficientemente mediante el procesamiento de componentes combinados de múltiples fuentes.
En algunas modalidades, las señales de audio espacial pueden ser representadas como una corriente de DirAC mono que denota una técnica de flujo de DirAC en donde los datos de los medios están acompañados por solamente un canal de audio en la transmisión. Este formato puede ser convertido, por ejemplo, a una corriente de formato B, que tiene múltiples componentes direccionales . Algunas modalidades pueden habilitar el procesamiento espacial mejorado al convertir las señales de audio espacial a componentes direccionales .
Algunas modalidades pueden proveer una ventaja con respecto a la descodificación de DirAC, en donde solamente un canal de audio es usado para crear todas las señales de altavoz, en que el procesamiento espacial adicional es habilitado en base a los componentes de audio direccionales, que son determinados antes de crear las señales de altavoz . Algunas modalidades pueden proveer la ventaja de que los problemas en la creación de sonidos reverberantes son reducidos .
En modalidades, por ejemplo, una corriente de DirAC puede usar una señal de audio estéreo en una señal de audio mono, en donde los canales estéreo son L (L = canal estéreo izquierdo) y R (R canal de estéreo derecho) y son transmitidos para ser usados en la descodificación de DirAC. Algunas modalidades pueden obtener una mejor calidad para sonido reverberante y proveer una compatibilidad directa con los sistemas de altavoz estéreo, por ejemplo.
Algunas modalidades pueden proveer la ventaja de que la descodificación de DirAC de micrófono virtual puede ser habilitada. Detalles en cuanto a descodificación de DirAC de micrófono virtual se pueden encontrar en V. Pulkki, Spatial sound reproduction with directional audio coding, Journal of the Audio Engineering Society, 55 (6): 503-516, June 2007. Estas modalidades obtienen las señales de audio para los altavoces colocando micrófonos virtuales orientados hacia la posición de los altavoces y que tienen fuentes de sonido semejantes a punto, cuya posición es determinada por los parámetros de DirAC. Algunas modalidades pueden proveer la ventaja de que, mediante la conversión, se puede habilitar la combinación lineal conveniente de las señales de audio.
Las modalidades de la presente invención serán detalladas usando las figuras adjuntas, en las cuales: La Figura la muestra una modalidad de un aparato para determinar una señal de . audio espacial convertida,- La Figura Ib muestra los componentes de presión de un vector de velocidad de partículas en un plano Gaussiano para una onda plana; La Figura 2 muestra otra modalidad para convertir una corriente de DirAC mono a una señal de formato B; La Figura 3 muestra una modalidad para combinar múltiples señales de audio espacial convertidas; Las Figuras 4a-4d muestran modalidades para combinar múltiples señales de audio espacial basadas en DirAC aplicando diferentes efectos de audio; La Figura 5 ilustra una modalidad de un generador de efecto de audio; La Figura 6 muestra una modalidad de un generador de efecto de audio que aplica múltiples efectos de audio sobre componentes direccionales ; y La Figura 7 muestra un codificador de DirAC del estado del arte.
La Figura la muestra un aparato 100 para determinar una señal de audio espacial convertida, la señal de audio espacial convertida tiene un componente omnidireccional y por lo menos un componente direccional (X;Y;Z), a partir de una señal de audio espacial de entrada, la señal de audio espacial de entrada tiene una representación de audio de entrada (W) y una dirección de llegada de entrada {</>) .
El aparato 100 comprende un estimador 110 para estimar una representación de ola que comprende una medida de campo de onda y una medida de dirección de llegada de onda basada en la representación de audio de entrada (W) y la dirección de llegada de entrada ( ) . Además, el aparato 100 comprende un procesador 120 para procesar la medida de campo de onda y la medida de dirección de llegada de onda para obtener el componente omnidireccional y el por lo menos un componente direccional. El estimador 110 puede ser apto para estimar la representación de onda como una representación de onda plana.
En algunas modalidades, el procesador puede ser apto para proveer la representación de audio de entrada (W) como el componente de audio omnidireccional (W) . En otras palabras, el componente de audio omnidireccional W puede ser igual a la representación de audio de entrada W. Por consiguiente, de acuerdo con las lineas de puntos de la Figura la, la representación de audio de entrada puede omitir el estimador 110, el procesador 120 o ambos. En otras modalidades, el componente de audio omnidireccional W puede estar basado en la intensidad de onda y la dirección de llegada de onda siendo procesada por el procesador 120 junto con la representación de audio de entrada W. En algunas modalidades, múltiples componentes de audio direccionales (X; Y; Z) pueden ser procesados, por ejemplo un primero (X) , un segundo (Y) y/o un tercero (Z) componente de audio direccional correspondiente a diferentes direcciones espaciales. En algunas modalidades, por ejemplo tres componentes de audio direccional diferentes (X; Y; Z) pueden ser derivados de acuerdo con las diferentes direcciones de un sistema de coordenadas Cartesiano.
El estimador 110 puede ser apto para estimar la medida de campo de onda en términos de una amplitud de campo de onda y una fase de campo de onda. En otras palabras, en algunas modalidades, la medida de campo de onda puede ser estimada como una cantidad de valor complejo. La amplitud de campo de onda puede corresponder a una magnitud de presión de sonido y la fase de campo de onda puede corresponder a una fase de presión de sonido en algunas modalidades.
En algunas modalidades, la medida de dirección de llegada de onda puede corresponder a cualquier cantidad direccional, expresada por ejemplo por un vector, uno o más ángulos, etc. y puede ser derivada de cualquier medida direccional que representa un componente de audio como por ejemplo, un. vector de intensidad, un vector de velocidad de partícula, etc. La medida de campo de onda puede corresponder a cualquier cantidad física que describe un componente de audio, que puede ser de valor real o valor complejo, corresponder a una señal de presión, una amplitud de magnitud de velocidad de partícula, volumen, etc. Además, las medidas pueden ser consideradas en el dominio de tiempo y/o dominio de frecuencia.
Algunas modalidades pueden estar basadas en la estimación de una representación de onda plana para cada una de las corrientes de entrada, que se puede llevar a cabo por el estimador 110 en la Figura la. En otras palabras, la medida de campo de onda puede ser modelada utilizando una representación de onda plana. En general, existen varias descripciones exhaustivas (esto es, completas) equivalentes de una onda u ondas planas en general. En lo siguiente, se presentará una descripción matemática para calcular los parámetros de difusividad y direcciones de llegada o medidas de dirección para diferentes componentes. Aunque solamente unas pocas descripciones son concernientes directamente con cantidades físicas, como por ejemplo presión, velocidad de partícula, etc., potencialmente existen un número infinito de diferentes maneras para describir representaciones de onda, de las cuales una será presentado como ejemplo subsecuentemente, sin embargo, no se propone ser limitante de ninguna manera a las modalidades de la presente invención. Cualquier combinación puede corresponder a la medida de campo de onda y . la medida de dirección de llegada de onda.
Con el fin de detallar adicionalmente diferentes descripciones potenciales se consideran dos números reales a y b. La información contenida en a y b puede ser transferida al enviar c y d, cuando en donde ? es una matriz de 2x2 conocida. El ejemplo considera solamente combinaciones lineales, en general cualquier combinación, esto es, también una combinación no lineal es concebible.
En lo siguiente, los escalares son representados por letras minúsculas a,b, c, mientras que los vectores de columna son representados por letras minúsculas en negritas a.,b,c. El superíndice ( )G denota las transpuesta, respectivamente, mientras que (·} y (·) denotan conjugación completa. La notación de fasor complejo es distinguida de la temporal. Por ejemplo, la presión p(t), que es un número real y del cual una medida de campo de onda posible puede ser derivada, puede ser expresada por medio del fasor P, que es un número complejo y del cual otra medida de campo de onda posible puede ser derivada por en donde Re{ · } denota la parte real y ? - 2p? es la frecuencia angular. Además, las letras mayúsculas usadas para cantidades físicas representan fasores en lo siguiente. Para la siguiente notación ejemplar introductoria y para evitar confusión, por favor nótese que todas las cantidades con el subíndice WPW" se refieren a ondas planas.
Para una onda plana monocromática ideal, el vector de velocidad de partícula UPW puede ser indicado como üy 6c en donde el vector unitario e<j apunta hacia 1 dirección de propagación de la onda, por ejemplo correspondiente a una medida de dirección. Se puede probar que (a) 2¼c ? = 0 en donde I0 denota la intensidad activa, p0 denota a densidad de del aire, c denota la velocidad del sonido, E denota la energía del campo de sonido y ? denota la difusividad.
Es interesante notar que, puesto que todos los componentes de e<i son números reales, los componentes de UPW están todos en fase con PPW. La Figura Ib ilustra un üPW y PPW en el plano Gaussiano. Como se mencionó, todos los componentes de UPW comparten la misma fase como PPWl es decir T. Sus magnitudes, "por otra parte, están limitadas a Algunas modalidades de la presente invención pueden proveer un método para convertir una corriente de DirAC mono a una señal de formato B. Una corriente de DirAC mono puede ser representada por una señal de presión capturada, por ejemplo por un micrófono omnidireccional y mediante información lateral . La información lateral puede comprender medidas dependientes del tiempo-frecuencia de difusividad y dirección de llegada del sonido.
En algunas modalidades, la señal de audio espacial de entrada puede comprender adicionalmente un parámetro de difusividad y el estimador 110 puede ser apto para estimar la medida de campo de onda basado adicionalmente en el parámetro de difusividad ?.
La dirección de llegada de entrada y la medida de la dirección de llegada de onda se pueden referir a un punto de referencia correspondiente a un sitio de grabación de la señal de audio espacial de entrada, esto es, en otras palabras todas las direcciones se pueden referir al mismo punto de referencia. El punto de referencia puede ser el sitio en donde un micrófono está colocado o múltiples micrófonos direccionales son colocados con el fin de grabar un campo de sonido.
En algunas modalidades, ,1a señal de audio espacial convertida puede comprender un primero (X) , un segundo (Y) y un tercero (Z) componente direccional . El procesador 120 puede ser apto para el procesamiento adicional de la medida de campo de onda y la medida de dirección de llegada de onda para obtener el primero (X) y/o el segundo (Y) y/o el tercero (Z) componentes direccionales y/o los componentes de audio omnidireccionales .
En las siguientes notaciones un modelo de datos será introducido.
Sea p(t) y u (t) =[ux(t.) , uy (t) , uz (t) ]T el vector depresión y velocidad de partícula, respectivamente, para un punto específico en el espacio, en donde [·]G denota la transpuesta. p(t) puede corresponder a una representación de audio y u (t) = [ux (t) , uy (t) , uz (t) ]T puede corresponder a componentes direccionales . Estas señales pueden ser transformadas a un dominio de tiempo-frecuencia por medio de un banco de filtros apropiado o una STFT (STFT = Transformada de Fourier en el Tiempo Corta) como se sugiere por ejemplo por V. Pulkki and C. Faller, Directional audio coding: Filterbank and STFT-based design, in 120th AES Convention, May 20-23, 2006, Paris, France, May 2006.
Sea P(k,n) y U(k, n)-[Ux (k, n) , Uy (k, n) , Uz (k, n) ]T que denoten las señales transformadas, en donde k y n son índices para la frecuencia (o banda de frecuencia) y tiempo, respectivamente. El vector de intensidad activa Ia(k,n) puede ser definido como en donde (·)* denota la conjugación compleja Re{-} extrae la parte real. El vector de intensidad activa puede expresar el flujo neto de energía que caracteriza el campo de sonido, véase F.J. Fahy, Sound Intensity, Essex: Elsevier Science Publishers Ltd., 1989.
Sea c que denote la velocidad de sonido en el medio considerado y £ la energía de campo de sonido definida por F.J. Fahy en donde || calcula la 2 -norma. En lo siguiente, el contenido de una corriente de DirAC mono será detallado.
La corriente de DirAC mono puede consistir de la señal mono p(t) o representación de audio y la información lateral, por ejemplo una medida de dirección de llegada. Esta información lateral puede comprender la dirección de llegada dependiente del tiempo- frecuencia y una medida de difusividad dependiente del tiempo-frecuencia. La primera puede ser denotada por eDQñ (k, n) , que es un vector unitario que apunta hacia la dirección de la cual el sonido llega, esto es, puede ser el modelado de la dirección de llegada. La última, difusividad, puede ser denotada por En algunas modalidades, el estimador 110 y/o el procesador 120 pueden ser aptos para estimar/procesar la DOA de entrada y/o la medida de DOA de onda en términos de un vector unitario eO0A (k, n) . La dirección de llegada puede ser obtenida como en donde el vector unitario ej(k,n) indica la dirección hacia la cual la intensidad activa apunta, es decir «,< ) = /e(*,«)/|/0(*,«)|| , ( 3) respectivamente. Alternativamente, en algunas modalidades, la DOA o medida de DOA puede ser expresada en términos de azimut y ángulo de elevación en un sistema de coordenadas esféricas. Por ejemplo, si <p(k,n) y ¿J(k/n) son azimut y ángulos de elevación, respectivamente, entonces *???F>?) -[cos((*,«))·cos(3{k,n)% *8(<p(k,n))·cosi&(k}n))t en(&(ktn))J =[ < (*>?» «)> *Dto¿ (*. ")] (4) en donde eD0A,x(k,n) es un componente del vector unitario e8A(k,n) de la dirección de llegada de entrada a lo largo de un eje x de un sistema de coordenadas Cartesiano, eD0A,y (k, n) es un componente de eD0A(k,n) a lo largo del eje y y eD0A,z (k, n) es un componente de eDoA(k,n) a lo largo del eje z. en algunas modalidades, el estimador 110 puede ser apto para estimar la medida de campo de onda basado adicionalmente en el parámetro de difusividad ?, opcionalmente también expresado por * (k,n) de manera dependiente del tiempo-frecuencia. El estimador 110 puede ser apto para estimar en base al parámetro de difusividad en términos de c<E(k,n)>, f {5) en donde <·>, indica un promedio temporal.
Existen diferentes estrategias para obtener P(k,n) y U(k,n) en la práctica. Una posibilidad es usar un micrófono de formato B, que alimenta 4 señales, es decir w(t) , x(t), y(t) y z(t). La primera w(t) , puede corresponder a la lectura de presión de un micrófono omnidireccional . Las últimas tres pueden corresponder a lecturas de presión de micrófonos que tienen patrones de captación de cifra de ocho dirigidos hacia los tres ejes de un sistema de coordenadas Cartesiano. Estas señales también son proporcionales a la velocidad de partícula. Por consiguiente, en algunas modalidades: P{k,n) = W(k,n) en donde W(k,n), X(k,n), Y(k,n) y Z(k,n) son las señales de formato B transformadas correspondientes al componente omnidireccional W(k,n) y los tres componentes direccionales X(k,n), Y(k,n), Z(k,n). Nótese que el factor 2 en (6) viene de la convención usada en la definición de señales de formato B, véase Michael Gerzon, Surround sound psychoacoustics , in Wireless World, volume 80, pages 483-486, December 1974.
Alternativamente, P(k,n) y ü(k,n) pueden ser estimados por medio de un arreglo de micrófonos ominidireccionales , como se sugiere en J. Merimaa, Applications of a 3-D microphone array, in 112th AES Convention, Paper 5501, Munich, May 2002. Las etapas de procesamiento descritas anteriormente también son ilustradas en la Figura 7.
La Figura 7 muestra un codificador de DirAC 200, que es apto para calcular un canal de audio mono e información lateral a partir de señales de micrófono apropiadas . En otras palabras, la Figura 7 ilustra un codificador de DirAC 200 para determinar . la difusividad * (k,n) y dirección de llegada eOOk{k,n) a partir de señales de micrófono apropiadas. La Figura 7 muestra un codificador de DirAC 200 que comprende una unidad de estimación de P/U 210. La unidad de estimación de P/U recibe las señales de micrófono como información de entrada, a las cuales está basada la estimación de P/ü. Puesto que toda la información está disponible, la estimación de P/U es directa de acuerdo con las ecuaciones anteriores. Una etapa de análisis energético 220 permite la estimación de la dirección de llegada y el parámetro de difusividad de la corriente combinada.
En algunas modalidades, el estimador 110 puede ser apto para determinar la medida o amplitud del campo de onda en base a una fracción (k,n) de la representación de audio de entrada P(k,n) . La Figura 2 muestra las etapas de procesamiento de una modalidad para calcular las señales de formato B a partir de una corriente de DirAC mono. Todas las cantidades dependen de los índices de tiempo y frecuencia (k,n) y son parcialmente omitidas en lo siguiente por simplicidad.
En otras palabras, la Figura 2 ilustra otra modalidad. De acuerdo con la Ecuación (6), W(k,n) es igual a la presión P(k,n). Por consiguiente, el problema de sintetizar el formato B a partir de una corriente de DirAC mono se reduce a la estimación de del vector de velocidad de partícula U(k,n), ya que sus componentes son proporcionales a X(k,n), Y(k,n) , y Z(k,n) .
Algunas modalidades pueden aproximar la estimación basada en la suposición de que el campo consiste de una onda plana sumada a un campo difuso. Por consiguiente, la presión y velocidad de partícula pueden ser expresados como: P(k,n)= PfW(k.n)+P (k,n) (7} U{k,») = Upw{k,n)+V (k,n). {8) en donde los subíndices nPW" y ndiff" denotan la onda plana y el campo difuso, respectivamente.
Los parámetros de DirAC portan información solamente con respecto a la intensidad activa. Por consiguiente, el vector de velocidad de partícula U(k,n) es estimado con ftPW(k,n) , que es el estimador para la velocidad de partícula de la onda plana solamente. Puede ser definido como: üPW(k,n) = -—ß( ?)¦P(k,n) ^{¿,«)9 (9) en donde el número real (k,n) es un factor de ponderación apropiado, que en general es dependiente de la frecuencia y puede exhibir una proporcionalidad inversa a la difusividad f(k,n) . En efecto, para baja difusividad, esto es (k,n) cercano a cero, se puede suponer que el campo está compuesto de una sola onda plana, de tal manera que: */«,(*,«) *-—Pi e^ik.n)= Ü„(A,n)¡,(^, , (10) implicando que fi(k,n) = 1.
En otras palabras, el estimador 110 puede ser apto para estimar la medida de campo de onda con una alta amplitud para un parámetro de baja difusividad ? y para estimar la medida de campo de onda con una baja amplitud para un parámetro de alta difusividad ?. En algunas modalidades, el parámetro de difusividad ? - [0..1] . El parámetro de difusividad puede indicar una relación entre la energía en un componente direccional y la energía en un componente omnidireccional . En algunas modalidades, el parámetro de difusividad ? puede ser una medida para un ancho espacial de un componente direccional .
Considerando la ecuación anterior y la Ecuación (6), los componentes omnidireccional y/o el primero y/o segundo y/o tercero componente direccionales puede ser expresados como: Y(k,n) eí>0Aty(k,n) Z(A, «) = V¾?(*, it) ·P( , ») ·eoOA kt») en donde eD0A,x(k,n) es el componente del vector unitario eD0A(k,n) de la dirección de llegada de entrada a lo largo del eje x de un sistema de coordenadas Cartesiano, &DOA,y(k,n) es el componente de eD0A(k,n) a lo largo del eje y y GDOA,Z (k, n) es el componente eD0A(k,n) a lo largo del eje z. En la modalidad mostrada en la Figura 2, la medida de dirección de llegada de onda estimada por el estimador 110 corresponde a SDOA.X (k, n) , eDoA,y(k,n) y eDQA,z (k, n) y la medida de campo de onda corresponde a ß (k,n) P (k,n) . El primer componente direccional tal como es emitido por el procesador 120 puede corresponder a cualquiera de X(k,n), Y(k,n) o Z(k,n) y el segundo componente direccional de acuerdo con cualquiera de X(k,n), Y(k,n) o Z(k,n) . en lo siguiente, dos modalidades prácticas serán presentadas en como determinar el factor de (k,n) . la primera modalidad tiene como objetivo estimar la Bsión de una onda plana primero, es decir PPW(k,n) , y luego, la misma, derivar el vector de velocidad de partícula.
Ajustando la densidad del aire p0 igual a 1, y abandonando la dependencia funcional (k,n) por simplicidad, se puede escribir: Dadas las propiedades estadísticas de los campos difusos, se puede introducir una aproximación por: <|>w|2>>+2tf2 £í¾r>(*<|p|2>f , (13) en donde ¾iff es la energía del campo difuso. El estimador puede así ser obtenido mediante: Para calcular valores estimativos instantáneos, esto es, para cada mosaico de frecuencia en el tiempo, los operadores de esperanza pueden ser removidos, obteniendo: Al aprovechar la suposición de onda plana, el valor estimativo para la velocidad de partícula puede ser derivado directamente : de lo cual se sigue que: (17) En otras palabras, el estimador 110 puede ser apto para estimar la fracción (k,n) en base al parámetro de difusividad * (k,n) , de acuerdo con: y la medida de campo de onda de acuerdo con: en donde el procesador 120 puede ser apto para obtener la magnitud del primer componente direccional X(k,n) y/o el segundo componente direccional Y(k,n) y/o el tercer componente direccional Z(k,n) y/o el componente de audio omnidireccional W(k,n) mediante W(ktn)=P(k,n) en donde la medida de dirección de llegada de onda es representada por el vector unitario [eoo^(^»w)>eDo^(^»w)»¾<M en donde x, y y z indican las direcciones en un sistema de coordenadas Cartesiano .
Una solución alternativa en algunas modalidades puede ser derivada al obtener el factor (k,n) directamente de la expresión de la difusividad (k,n) . Como ya se mencionó, la velocidad de partícula ü(k,n) puede ser modelada como La Ecuación (18) puede ser sustituida en (5) conduciendo a: Para obtener los valores instantáneos, los operadores de esperanza pueden ser removidos y resolviendo para (k,n) produce : En otras palabras, en algunas modalidades, el estimador 110 puede ser apto para estimar la fracción fi(k,n) en base a (k,n) , de acuerdo con: En algunas modalidades, la señal de audio espacial de entrada puede corresponder a una señal de DirAC mono. Algunas modalidades pueden ser extendidas para el procesamiento de otras corrientes . En caso de que la corriente o la señal de audio espacial de entrada no porte un canal omnidireccional , algunas modalidades pueden combinar los canales disponibles para aproximar un patrón de captación omnidireccional. Por ejemplo, en el caso de una corriente de DirAC estéreo .como señal de audio espacial de entrada, la señal de. presión P en la Figura 2 puede ser aproximada al sumar los canales L y R.
En lo siguiente, una modalidad con ? - 1 será ilustrada. La Figura 2 ilustra que si la difusividad es igual a uno para ambas modalidades, el sonido es enrutado exclusivamente al canal W ya que ß es igual a cero, de tal manera que las señales X, Y y Z, esto es, los componentes direccionales, pueden ser también cero. Si ? = 1 constantemente en el tiempo, el canal de audio mono puede así ser enrutado al canal W sin ningún cálculo adicional. La interpretación física de esto es que la señal de audio es presentada al escucha como un campo reactivo puro, ya que el vector de velocidad de partícula tiene magnitud cero.
Otro caso cuando ? = 1 ocurre considerando una situación en donde una señal de audio está presente solamente en una o cualquier sub-conjunto de señales de dipolo y no en la señal W. En el análisis de difusividad de DirAC, este escenario es analizado para tener ? - 1 con la Ecuación 5, puesto que el vector de intensidad tiene constantemente la duración de cero, ya que la presión P es cero en la Ecuación (1) . La interpretación física de esto es también que la señal de audio es presentada al escucha siendo reactiva, ya que esta señal de presión en el tiempo es constantemente cero, mientras que el vector de velocidad de partícula no es cero.
Debido al hecho de que el formato B es inherentemente una representación independiente de montaje de los altavoces, algunas modalidades pueden usar el formato B como un lenguaje común hablado por diferentes dispositivos de audio, lo que significa que la conversión de uno a otro se puede hacer posible por modalidades vía una conversión intermedia a formato B. Por ejemplo, algunas modalidades pueden unir corrientes de DirAC de diferentes medios ambientes acústicos grabados con diferentes medios ambientes de sonido sintetizados en formato B. La unión de corriente de DirAC mono a corriente de formato B puede también ser habilitada por algunas modalidades.
Algunas modalidades pueden permitir la unión de señales de audio de multicanal en cualquier formato surround con una corriente de DirAC mono. Además, algunas modalidades pueden permitir la unión de una corriente de DirAC mono con cualquier corriente de formato B. Además, algunas modalidades pueden permitir la unión de una corriente de DirAC mono con una corriente de formato B.
Estas modalidades pueden proveer una ventaja, por ejemplo, en la creación de reverberación o introducir efectos de audio, como será detallado subsecuentemente. En la producción de música, los reverberadores pueden ser usados como dispositivos de efecto que colocan perceptualmente el audio procesado a un espacio virtual. En realidad virtual, la síntesis de reverberación puede ser necesaria cuando las fuentes virtuales son aurilizadas al interior de un espacio cerrado, por ejemplo en salas o salones de conciertos.
Cuando una señal para reverberación está disponible, tal auralización puede ser efectuada por algunas modalidades mediante aplicación de sonido seco y sonido reverberado a diferentes corrientes de DirAC. Algunas modalidades pueden usar diferentes procedimientos en cuanto a como procesar la señal reverberada en el contexto de DirAC, en donde algunas modalidades pueden producir el sonido reverberado que es máximamente difuso alrededor del escucha.
La Figura 3 ilustra una modalidad de un aparato 300 para determinar una señal de audio espacial convertida combinada, la señal de audio espacial convertida combinada tiene por lo menos un primer componente combinado y un segundo componente combinado, en donde la señal de audio espacial convertida combinada es determinada a partir de una primera y una segunda señal de audio espacial de entrada que tiene una primera y una segunda representación de audio de entrada y una primera y una segunda dirección de llegada.
El aparato 300 comprende una primera modalidad del aparato 101 para determinar una señal de audio espacial convertida de acuerdo con la descripción anterior, para proveer una primera señal convertida que tiene un primer componente omnidireccional y por lo menos un componente direccional del primer aparato 101. Además, el aparato 300 comprende otra modalidad de un aparato 102 para determinar una señal de audio espacial convertida de acuerdo con la descripción anterior para proveer una segunda señal convertida, que tiene un segundo componente omnidireccional y por lo menos un componente direccional del segundo aparato 102.
En general, algunas modalidades no están limitados a comprender solamente dos de los aparatos 100, en general, una pluralidad de los aparatos descritos anteriormente pueden estar comprendidos en el aparato 300, por ejemplo, el aparato 300 puede ser apto para combinar una pluralidad de señales de DirAC .
De acuerdo con la Figura 3, el aparato 300 comprende además un generador de efectos de audio 301 para presentar el primer compuesto omnidireccional y el primer componente de audio direccional del primer aparato 101 para obtener un primer componente presentado. Además, el aparato 300 comprende un primer combinador 311 para combinar el primer componente presentado con los primeros y segundos componentes omnidireccionales , o para combinar el primer componente presentado con componentes direccionales del primer aparato 101 y el segundo aparato 102 para obtener el primer componente combinado. El aparato 300 comprende además un segundo combinador 312 para combinar los primeros y segundos componentes omnidireccionales o los componentes direccionales a partir del primero o segundo aparato 101 y 102 para obtener el segundo componente combinado.
' En otras palabras, el generador de efectos de audio 301 puede presentar el primer componente omnidireccional, de tal manera que el primer combinador 311 puede luego combinar el primer componente omnidireccional presentado, el primer componente omnidireccional y el segundo componente omnidireccional para obtener el primer componente combinado. El primer componente combinado puede luego corresponder, por ejemplo, a un componente omnidireccional combinado. En esta modalidad, el segundo combinador 312 puede combinar el componente direccional del primer aparato 101 y el componente direccional del segundo aparato para obtener el segundo componente combinado, por ejemplo, correspondiente a un primer componente direccional combinado .
En algunas modalidades, el generador de efectos de audio 301 puede presentar los componentes direccionales . En estas modalidades el combinador 311 puede combinar el componente direccional del primer aparato 101, el componente direccional del segundo aparato 102 y el primer componente presentado para obtener el primer componente combinado, en este caso correspondiente a un componente direccional combinado. En esta modalidad, el segundo combinador 312 puede combinar los primeros y segundos componentes omnidireccionales del primer aparato 101 y el segundo aparato 102 para obtener el segundo componente combinado, esto es, un componente omnidireccional combinado .
En otras palabras, la Figura 3 muestra una modalidad de un aparato 300 apto para determinar una señal de audio espacial convertida combinada, la señal de audio espacial convertida combinada tiene por lo menos un primer componente combinado y un segundo componente combinado, a partir de una primera y una segunda señal de audio espacial de entrada, la primera señal de audio espacial de entrada tiene una primera representación de audio de entrada y una primera dirección de llegada, la segunda señal de entrada espacial tiene una segunda representación de audio de entrada y una segunda dirección de llegada.
El aparato 300 comprende un primer aparato 101 que comprende un aparato 100 apto para determinar una señal de audio espacial convertida, la señal de audio espacial convertida tiene un componente de audio omnidireccional W y por lo menos un componente de audio direccional X; Y; Z, a partir de una señal de audio espacial de entrada, la señal de audio espacial de entrada tiene una representación de audio de entrada y una dirección de llegada de entrada. El aparato 100 comprende un estimador 110 apto para estimar una representación de onda, la representación de onda comprende una medida de campo de onda y una medida de dirección de llegada de onda, basada en la representación de audio de entrada y la dirección de llegada de entrada.
Además, el aparato 100 comprende un procesador 120 apto para procesar la medida de campo de onda y la medida de di de llegada de onda para obtener el componente omnidireccional (W ) y el por lo menos un componente direccional (X;Y;Z). El primer aparato 101 es apto para proveer una primera señal convertida basada en la primera señal de audio espacial de entrada, que tiene un primer componente omnidireccional y por lo menos un componente direccional del primer aparato 101.
Además, el aparato 300 comprende un segundo aparato 102 que comprende otro aparato 100 apto para proveer una segunda señal convertida basada en la segunda señal de audio espacial de entrada, que tiene un segundo componente omnidireccional y por lo menos un componente direccional del segundo aparato 102. Además, él aparato 300 comprende un generador de efectos de audio 301 apto para presentar el primer componente omnidireccional para obtener un primer componente presentado o para presentar el componente direccional del primer aparato 101 para obtener el primer componente presentado.
Además, el aparato 300 comprende un primer combinador 311 apto para combinar el primer componente presentado, el primer componente omnidireccional y el segundo componente omnidireccional, o para combinar el primer componente presentado, el componente direccional del primer aparato 101, y el componente direccional del segundo aparato 102 para obtener el primer componente combinado. El aparato 300 comprende un segundo combinador 312 apto para combinar el componente direccional del primer aparato 101 y el componente direccional del segundo aparato 102 o para combinar el primer componente omnidireccional y el segundo componente omnidireccional para obtener el segundo componente combinado .
En otras palabras, la Figura 3 muestra, una modalidad de un aparato 300 apto para determinar una señal de audio espacial convertida combinada, la señal de audio espacial convertida combinada tiene por lo menos un primer componente combinado y un segundo componente combinado, a partir de una primera y una segunda señal de audio espacial de entrada, la primera señal de audio espacial de entrada tiene una primera representación de audio de entrada y una primera dirección de llegada, la segunda señal de entrada espacial tiene una segunda representación de audio de entrada y una segunda dirección de llegada. El aparato 300 comprende primeros medios 101 aptos para determinar una primera señal convertida, la primera señal convertida tiene un primer componente omnidireccional y por lo menos un primer componente direccional (X;Y;Z), a partir de la primera señal de audio espacial de entrada. Los primeros medios 101 pueden comprender una modalidad del aparato descrito anteriormente 100.
Los primeros medios 101 comprenden un estimador apto para estimar una primera representación de onda, la primera representación de onda comprende una primera medida de campo y una primera medida de dirección de llegada de onda, basada en la primera representación de audio de entrada y la primera dirección de llegada de entrada. El estimador puede corresponder a una modalidad del estimador 110 descrito anteriormente.
Los primeros medios 101 comprenden además un procesador aptos para procesar la primera medida de campo de onda y la primera medida de dirección de llegada de onda para obtener el primer componente omnidireccional y el por lo menos un primer componente direccional . El procesador puede corresponder a una modalidad del procesador 120 descrito anteriormente .
Los primeros medios 101 pueden ser aptos además para proveer la primera señal convertida que tiene el primer componente omnidireccional y el por lo menos un primer componente direccional .
Además, el aparato 300 comprende segundos medios 102 aptos para proveer una segunda señal convertida basada en la segunda señal de audio espacial de entrada, que tiene un segundo componente omnidireccional y por lo menos un segundo componente direccional. Los segundos medios pueden comprender una modalidad del aparato 100 descrito anteriormente.
Los segundos medios 102 comprenden además otro estimador apto para estimar una segunda representación de onda, la segunda representación de onda comprende una segunda medida de campo de onda y una segunda medida de dirección de llegada de onda, basada en la segunda representación de audio de entrada y la segunda dirección de llegada de entrada. El otro estimador puede corresponder a una modalidad del estimador 110 descrito anteriormente.
Los segundos medios 102 comprenden además otro procesador apto para procesar la segunda medida de campo de onda y la segunda medida de dirección de llegada de "onda para obtener el segundo componente omnidireccional y el por lo menos un segundo componente direccional . El otro procesador puede corresponder a una modalidad del procesador 120 descrito anteriormente.
Además, los segundos medios 101 son. aptos para proveer la segunda señal convertida que tiene el segundo componente omnidireccional y por lo menos un segundo componente direccional.
Además, el aparato 300 comprende un generador de efectos de audio 301 apto para presentar el primer componente omnidireccional para obtener un primer componente presentado o para presentar el primer componente direccional para obtener el primer componente presentado. El aparato 300 comprende un primer combinador 311 apto para combinar el primer componente presentado, el primer componente omnidireccional y el segundo componente omnidireccional, o para combinar el primer componente presentado, el primer componente direccional, y el segundo componente direccional para obtener el primer componente combinado .
Además, el aparato 300 comprende un segundo combinador 312 apto para combinar el primer componente direccional y el segundo componente direccional, o para combinar el primer componente omnidireccional y el segundo componente omnidireccional para obtener el segundo componente combinado .
En modalidades, se puede efectuar un método para determinar una señal de audio espacial convertida combinada, la señal de audio espacial convertida combinada tiene por lo menos un primer componente combinado y un segundo componente combinado, a partir de una primera y una segunda señal de audio espacial de entrada, la primera señal de audio espacial de entrada tiene una primera representación de audio de entrada y una primera dirección de llegada, la segunda señal de entrada espacial tiene una segunda representación de audio de entrada y una segunda dirección de llegada.
El método puede comprender las etapas de determinar una primera señal de audio espacial convertida, la primera señal de audio espacial convertida tiene un primer componente omnidireccional (W ) y por lo menos un primer componente direccional (X;Y;Z), a partir de la primera señal de audio espacial de entrada, al usar las sub-etapas de estimar una primera representación de onda, la primera representación de onda comprende una primera medida de campo de onda y una primera medida de dirección de llegada de onda, basada en la primera representación de audio de entrada y la primera dirección de llegada de entrada; y procesar la primera medida de campo de onda y la primera medida de dirección de llegada de onda para obtener el primer componente omnidireccional (W ) y el por lo menos un primer componente direccional (X;Y;Z).
El método puede comprender además la etapa de proveer la primera señal convertida que tiene el primer componente omnidireccional y el por lo menos un primer componente direccional .
Además, el método puede comprender determinar una segunda señal de audio espacial convertida, la segunda señal de audio espacial convertida tiene un segundo componente omnidireccional (W ) y por lo menos un segundo componente direccional (X;Y;Z), a partir de la segunda señal de audio espacial de entrada, al usar las sub-etapas de estimar una segunda representación de onda, la segunda representación de onda comprende una segunda medida de campo de onda y una segunda medida de dirección de llegada de onda, basada en la segunda representación de audio de entrada y la segunda dirección de llegada de entrada; y procesar la segunda medida de campo de onda y la segunda medida de dirección de llegada de onda para obtener el segundo componente omnidireccional (W ) y el por lo menos un segundo componente direccional (X;Y;Z).
Además el método puede comprender proveer la segunda señal convertida que tiene el segundo componente omnidireccional y el por lo menos un segundo componente direccional .
El método puede comprender además presentar el primer componente omnidireccional para obtener un primer componente presentado o presentar el primer componente direccional para obtener el primer componente presentado; y combinar el primer componente presentado, el primer componente omnidireccional y el segundo componente omnidireccional, o combinar el primer componente presentado, el primer componente direccional, y el segundo componente direccional para obtener el primer componente combinado .
Además , el método puede comprender combinar el primer componente direccional y el segundo componente direccional, o combinar el primer componente omnidireccional y el segundo componente omnidireccional para obtener el segundo componente combinado .
De acuerdo con las modalidades descritas anteriormente, cada uno de los aparatos pueden producir múltiples componentes direccionales , por ejemplo un componente X, un componente Y y un componente Z. En algunas modalidades, se pueden usar múltiples generadores de efecto de audio, lo que se indica en la Figura 3 por los bloques de líneas discontinuas 302, 303 y 304. Estos generadores de efecto de audio opcionales pueden generar componentes presentados correspondientes, basados en señales de entrada omnidireccionales y/o direccionales . En una modalidad, un generador de efecto de audio puede presentar un componente direccional en base a un componente omnidireccional. Además, el aparato 300 puede comprender múltiples combinadores, esto es combinadores 311, 312, 313 y 314 con el fin de combinar un componente combinado omnidireccional y múltiples componentes direccionales combinados, por ejemplo, para las tres dimensiones espaciales.
Una de las ventajas de la estructura del aparato 300 es que un máximo de cuatro generadores de efecto de audio son necesarios para presentar en general un número ilimitado de fuentes de audio.
Como se indica por los combinadores de lineas discontinuas 331, 332, 333 y 334 en la Figura 3, un generador de efecto de audio puede ser apto para presentar una combinación de componentes direccionales u omnidireccionales a partir de los aparatos 101 y 102. En una modalidad, el generador de efecto de audio 301 puede ser apto para presentar una combinación de los componentes omnidireccionales del primer aparato 101 y el segundo aparato 102 o para presentar una combinación de los componentes direccionales del primer aparato 101 y el segundo aparato 102 para obtener el primer componente presentado. Como se indica por las trayectorias discontinuas en la Figura 3, se pueden proveer combinaciones de múltiples componentes a los diferentes generadores de efecto de audio.
En una modalidad, todos los componentes omnidireccionales de todas las fuentes de sonido, en la Figura 3, representadas por el primer aparato 101 y el segundo aparato 102, pueden ser combinados con el fin de generar múltiples componentes presentados. En cada una de las cuatro trayectorias mostradas en la Figura 3, cada generador de efecto de audio puede generar un componente presentado a ser agregado a los componentes direccionales u omnidireccionales correspondientes de las fuentes de sonido .
Además, como se muestra en la Figura 3, se pueden usar múltiples etapas de retardo y escalamiento 321 y 322. En otras palabras, cada aparato 101 ó 102 puede tener en su trayectoria de salida una etapa de retardo y escalamiento 321 ó 322, con el fin de retardar uno o más de sus componentes de salida. En algunas modalidades, las etapas de retardo y escalamiento pueden retardar y escalar los respectivos componentes omnidireccionales solamente. En general, las etapas de retardo y escalamiento pueden ser usadas para componentes omnidireccionales y direccionales.
En algunas modalidades, el aparato 300 puede comprender una pluralidad de aparatos 100 que representan fuentes de audio y correspondientemente una pluralidad de generadores de efecto de audio, en donde el número de generadores de efecto de audio es menor que el número de aparatos correspondientes a las fuentes de sonido. Como ya se mencionó anteriormente, en una modalidad, pueden haber hasta cuatro generadores de efecto de audio, con un número básicamente ilimitado de fuentes de sonido. En algunas modalidades, un generador de efecto de audio puede corresponder a un reverberador .
La Figura 4a muestra otra modalidad de un aparato 300 en más detalle. La Figura 4a muestra dos aparatos 101 y 102 cada uno emitiendo un componente de audio omnidireccional W, y tres componentes direccionales X, Y, Z. De acuerdo con la modalidad mostrada en la Figura 4a, los componentes omnidireccionales de cada uno de los aparatos 101 y 102 son provistos a dos etapas de retardo y escalamiento 321 y 322, que emiten tres componentes retardados y escalados, que son luego agregados por los combinadores 331, 332, 333 y 334. Cada una de las señales combinadas es luego presentada separadamente por uno de los cuatro generadores de efecto de audio 301, 302, 303 y 304, que son implementados como reverberadores en la Figura 4a. Como se indica en la Figura 4a, cada uno de los generadores de efecto de audio emite un componente, correspondiente a un componente omnidireccional y tres componentes direccionales en total. Los combinadores 311, 312, 313 y 314 son luego usados para combinar los respectivos componentes presentados con los componentes originales emitidos por los aparatos 101 y 102, en donde en la Figura 4a en general, pueden haber una multiplicidad de aparatos 100.
En otras palabras, en el combinador 311 una versión presentada de las señales de salida omnidireccionales combinadas de todos los aparatos puede ser combinada con los componentes de salida omnidireccionales originales o sin presentar. Combinaciones similares se pueden llevar a cabo por otros combinadores con respecto a los componentes direccionales . En la modalidad mostrada en la Figura 4a, los componentes direccionales presentados son creados en base a versiones retardadas y escaladas de los componentes omnidireccionales .
En general, algunas modalidades pueden aplicar un efecto de audio como por ejemplo una reverberación eficientemente a una o más corrientes de DirAC. Por ejemplo, por lo menos dos corrientes de DirAC son introducidas a la modalidad del aparato 300, como se muestra en la Figura 4a. En algunas modalidades, estas corrientes pueden ser corrientes de DirAC reales o corrientes sintetizadas, por ejemplo al tomar una señal mono y agregar información lateral como dirección y difusividad. De acuerdo con la discusión anterior, los aparatos 101, 102 pueden generar hasta cuatro señales para cada corriente, es decir W, X, Y y Z. En general, las modalidades de los aparatos 101 ó 102 pueden proveer menos de tres componentes direccionales, por ejemplo solamente X o X y Y, o cualquier otra combinación de los mismos .
En algunas modalidades, los componentes omnidireccionales W pueden ser provistos a generadores de efecto de audio, como por ejemplo reverberadores con el fin de crear los componentes presentados. En algunas modalidades, para cada una de las corrientes de DirAC de entrada, las señales pueden ser copiadas a las cuatro ramas mostradas en la Figura 4a, que pueden ser retardadas independientemente, esto es, individualmente por aparato 101 ó 102 cuatro retardadas independientemente, por ejemplo por retardos t?, t?/ t?/ t? y escaladas, por ejemplo por factores de escalamiento ???,??,??,??, versiones pueden ser combinadas antes de ser provistas a un generador de efecto de audio.
De acuerdo con las Figuras 3 y 4a, las ramas de las diferentes corrientes, esto es, las salidas de los aparatos 101 y 102, pueden ser combinadas para obtener cuatro señales combinadas . Las señales combinadas pueden luego ser presentadas independientemente por los generadores de audio, por ejemplo reverberadores mono convencionales . Las señales presentadas resultantes pueden luego ser sumadas a las señales W, X, Y y Z emitidas originalmente de los diferentes aparatos 101 y 102.
En algunas modalidades, señales de formato B generales pueden ser obtenidas, que pueden luego, por ejemplo, ser reproducidas con un descodificador de formato B y se lleva a cabo por ejemplo en Ambisonics. En otras modalidades, las señales de formato B pueden ser codificadas como por ejemplo con el codificador de DirAC como se muestra en la Figura 7, de tal manera que la corriente de DirAC resultante puede luego ser transmitida, procesada o descodificada adicionalmente con un descodificador de DirAC mono convencional. La etapa de descodificación puede corresponder a calcular señales de altavoz para reproducción.
La Figura 4b muestra otra modalidad de un · aparato 300. La Figura 4b muestra los dos aparatos 101 y 102 con los cuatro componentes de salida correspondientes. En la modalidad mostrada en la Figura 4b, solamente los componentes omnidireccionales W son usados para ser primero retardados individualmente y escalados en las etapas de retardo y escalamiento 321 y 322 antes de ser combinados por el combinador 331. La señal combinada es luego provista al generador de efecto de audio 301, que es otra vez implementado como un reverberador en la Figura 4b. La salida presentada del reverberador 301 es luego combinada con los componentes omnidireccionales originales de los aparatos 101 y 102 por el combinador 311. Los otros combinadores 312, 313 y 314 son usados para combinar los componentes direccionales X, Y y Z de los aparatos 101 y 102 con el fin de obtener componentes direccionales combinados correspondientes.
En relación con la modalidad ilustrada en la Figura 4a, la modalidad ilustrada en la Figura 4b corresponde a ajustar los factores de escalamiento para las ramas X, Y y Z a 0. En esta modalidad, solamente un generador de efecto de audio o reverberador 301 es usado. En una modalidad, el generador de efecto de audio 301 puede ser apto para reverberar el primer componente omnidireccional solamente para obtener el primer componente presentado, esto es, solamente W puede ser reverberado .
En general, ya que los aparatos .101, 102 y potencialmente N aparatos correspondientes a N fuentes de sonido, las potencialmente N etapas de retardo y escalamiento 321, que son opcionales, pueden simular las distancias de las fuentes de sonido, un retardo más corto puede corresponder a la percepción de una fuente de sonido virtual más cercana a la escucha. En general, la etapa de retardo y escalamiento 321, puede ser usada para presentar una relación espacial entre diferentes fuentes de sonido representadas por la señal convertida, señales de audio espacial convertidas respectivamente. La impresión espacial de un medio ambiente de los alrededores puede luego ser creado por los generadores de efecto de audio correspondiente 301 o reverberádores . En otras palabras, en algunas modalidades, las etapas de retardo y escalamiento 321 pueden ser usadas para introducir retardos específicos de fuente y escalamiento en relación con las otras fuentes de sonido. Una combinación de las señales relacionadas apropiadamente, esto es, retardadas y escaladas, convertidas, puede luego ser apta a un medio ambiente espacial por el generador de efecto de audio 301.
La etapa de retardo y escalamiento 321 puede ser vista como una clase de reverberador también. En algunas modalidades, el retardo introducido por la etapa de retardo y escalamiento 321 puede ser más corta que un retardo introducido por el generador de efecto de audio 301. En algunas modalidades, una base de tiempo común, por ejemplo como es provista por un generador de reloj , puede ser usada para la etapa de retardo y escalamiento 321 y el generador de efecto de audio 301. Un retardo puede luego ser expresado en términos de un número de períodos de muestra y el retardo introducido por la etapa de retardo y escalamiento 321 puede corresponder a un número más bajo de períodos de muestra que un retardo introducido por el generador de efecto de audio 301.
Las modalidades como se ilustran en las Figuras 3, 4a y 4b pueden ser utilizadas para casos cuando se usa descodificación de DirAC mono para N fuentes de sonido que son luego reverberadas conjuntamente. Ya que se puede suponer que la salida de un reverberador tiene una salida que es totalmente difusa, esto es, puede ser interpretada como una señal omnidireccional W también. Esta señal puede ser combinada con otras señales de formato sintetizadas, tales como las señales de formato B originadas de N fuentes de audio por sí mismas, que representan así la trayectoria directa al escucha. Cuando la señal de formato B resultante es codificada y descodificada por DirAC adicionalmente, el sonido reverberado se puede hacer disponible por algunas modalidades.
En la Figura 4c, se muestra otra modalidad del aparato 300. En la modalidad mostrada en la Figura 4c, en base a las señales omnidireccionales de salida de los aparatos 101 y 102, se crean componentes presentados reverberados direccionales . Por consiguiente, en base a la salida omnidireccional , las etapas de retardo y escalamiento 321 y 322 crean componentes retardados y escalados individualmente, que son combinados por los combinadores 331 , 332 y 333 . A cada una de las señales combinadas, diferentes reverberadores 301 , 302 y 303 son aplicados, que en general corresponden a diferentes generadores de efecto de audio. De acuerdo con la descripción anterior, los componentes omnidireccionales , direccionales y presentados correspondientes son combinados por los combinadores 311 , 312 , 313 y 314 , con el fin de proveer un componente omnidireccional combinado y componentes direccionales combinados .
En otras palabras, las señales W o señales omnidireccionales para cada corriente son alimentadas a tres generadores de efecto de audio, como por ejemplo reverberadores, como se muestra en las figuras. En general, también pueden haber solamente dos ramas dependiendo de si una señal de sonido bidimensional o tridimensional va a ser generada. Una vez que se obtiene las señales de formato B, las corrientes pueden ser decodificadas vía un descodificador de DirAC de micrófono virtual. El último es descrito en detalle en V. Pulkki, Spatial Sound Reproduction With Directional Audio Coding, Journal of the Audio Engineering Society, 55 ( 6 ) : 503 -516 .
Con este descodificador , las señales de altavoz Dp(k,n) pueden ser obtenidas como una combinación lineal de las señales W,X,Y y Z, por ejemplo de acuerdo con: +r(A,»)se«(ap)cosOSp)+Z(*>«)sen(^p)] en donde Op y ß? son el azimut y la elevación del p-ésimo altavoz. El término G(k,n) es una ganancia de toma panorámica dependiente de la dirección de llegada y de la configuración del altavoz.
En otras palabras, la modalidad mostrada en la Figura 4c puede proveer las señales de audio para los altavoces correspondiente a señales de audio obtenibles al colocar micrófonos virtuales orientados hacia la posición de los altavoces y que tienen fuentes de sonido semejantes a punto, cuya posición es determinada por los parámetros de DirAC. Los micrófonos virtuales pueden tener patrones de captación formados como caridioides, como dipolos o como cualquier patrón direccional de primer orden.
Los sonidos reverberados pueden por ejemplo ser usados eficientemente como X y Y en la suma de formato B. Tales modalidades pueden ser aplicadas a disposiciones físicas de altavoz horizontales que tienen cualquier número de altavoces, sin crear la necesidad de más reverberadores .
Como se discute anteriormente, la descodificación de DirAC mono tiene limitaciones en calidad de reverberación, en donde en modalidades la calidad puede ser mejorada con la descodificación de DirAC de micrófono virtual, que toma ventaja también de las señales de dipolo en una corriente de formato B.
La creación apropiada de señales de formato B para reverberar una- señal de audio para la descodificación de DirAC de micrófono virtual se puede llevar a cabo en algunas modalidades. Un concepto simple y efectivo que puede ser usado por algunas modalidades es enrutar diferentes canales de audio diferentes señales de dipolo, por ejemplo, a X y Y canales. Algunas modalidades puede implementar esto por dos reverberadores que producen canales de audio mono incoherentes a partir del mismo canal de entrada, tratando sus salidas como canales de audio dipolo de formato B X y Y, respectivamente, como se muestra en la Figura 4c para los componentes direccionales . Ya que las señales no son aplicadas a W, serán analizadas para ser totalmente .difusas en la codificación de DirAC subsecuente. También, la calidad incrementada para reverberación puede ser obtenida en la descodificación de DirAC de micrófono virtual, ya que los canales de dipolo contienen sonido reverberado diferentemente. Algunas modalidades pueden generar con las mismas una percepción "más amplia" y "más envolvente" de reverberación que con la descodificación de DirAC mono. Algunas modalidades pueden por consiguiente usar un máximo de dos reverberadores en disposiciones físicas de altavoz horizontales y tres disposiciones físicas de altavoces 3-D en la reverberación basada en DirAC descrita.
Algunas modalidades pueden no estar limitadas a reverberación de señales, sino que pueden aplicar cualesquier otros efectos de audio que tienen por objetivo, por ejemplo en una percepción totalmente difusa del sonido. Similar a las modalidades descritas anteriormente, la señal de formato B reverberada puede ser sumada a otras señales de formato B sintetizadas en algunas modalidades, tales como las que se originan de las N fuentes de audio por sí mismas, representando así una trayectoria directa al escucha.
Todavía otra modalidad es mostrada en la Figura 4d. La Figura 4d muestra una modalidad similar como la Figura 4a, sin embargo, ninguna etapa de retardo o escalamiento 321 ó 322 está presente, esto es, las señalados individuales en las ramas son solamente reverberadas, en algunas modalidades solo los componentes omnidireccionales W son reverberados . La modalidad ilustrada en la Figura 4d puede también ser vista como similar a la modalidad ilustrada en la Figura 4a con los retardos y escalamientos o ganancias antes de que los reverberadores sean ajustados a 0 y 1, respectivamente, sin embargo, en esta modalidad, se supone que los reverberadores 301, 302, 303 y 304 no son arbitrarios e independientes. En la modalidad ilustrada en la Figura 4d, los cuatro generadores de efecto de audio son sumados para ser dependiente entre sí teniendo una estructura específica.
Cada uno de los generadores de efecto de audio o reverberadores pueden ser implementados como una línea de retardo derivada como será detallado subsecuentemente con la ayuda de la Figura 5. Los retardos y ganancias o escalamientos pueden ser escogidos apropiadamente de tal manera que cada una de las derivaciones modela un eco distinto cuya dirección, retardo y potencia pueden ser ajustados a voluntad.
En tal modalidad, el i-ésimo eco puede ser caracterizado por un factor de ponderación, por ejemplo en referencia a un sonido de DirAC /¾, un retardo t? y una dirección de llegada é¾ y ? , correspondiente a la elevación y azimut respectivamente.
Los parámetros de los reverberadores pueden ser ajustados como sigue: Tw = tx = ?? = Tz = Yw = Pi > para el W reverberador , Yx - Pi " eos ( ? ) · eos ( <¾) , para el X reverberador ?? - ?? · sen(^¿) · eos { ?? ) , para el Y reverberador Yz = Pi ' sen (0i ) , para el reverberador Z En algunas modalidades, los parámetros físicos de cada eco pueden ser extraídos de procesos aleatorios o tomados de una respuesta de impulso de espacial de sala. La última podría por ejemplo .ser medida o simulada con una herramienta de rastreo de rayos .
En general, algunas modalidades pueden proveer con las mismas la ventaja de que el número de generadores de efecto de audio es independiente del número de fuentes .
La Figura 5 ilustra una modalidad que utiliza un esquema conceptual de un efecto de audio mono como por ejemplo usado dentro de un generador de efecto de audio, que es extendido dentro del contexto de DirAC. Por ejemplo, un reverberador puede ser realizado de acuerdo con este esquema. La Figura 5 muestra una modalidad de un reverberador 500. La Figura 5 muestra en principio una estructura de filtro de FIR (FIR = Respuesta de Impulso Finito) . Otras modalidades pueden utilizar filtros de IIR (IIR = Respuesta de Impulso Infinito) también. Una entrada señal es retardada por las K etapas de retardo marcadas por ,511 a 51K. Las K copias retardadas, para las cuales los retardos son denotados por ti a t? de la señal, son luego amplificadas por los amplificadores 521 a 52K con factores de amplificación ? a ?? antes de que sean sumadas en la etapa de suma 530.
La Figura 6 muestra otra modalidad con una extensión de la cadena de procesamiento de la Figura 5 dentro del contexto de DirAC. La salida del bloque de procesamiento puede ser una señal de formato B. La Figura 6 muestra una modalidad en donde múltiples etapas de suma 560, 562 y 564 son utilizadas dando como resultado las tres señales de salida W, X y Y. Con el fin de establecer diferentes combinaciones, las copias de señal retardadas pueden ser escaladas diferentemente antes de que sean agregadas en las tres etapas de adición diferentes 560, 562 y 564. Esto se lleva a cabo por los amplificadores adicionales 531 a 53K y 541 a 54K. En otras palabras, la modalidad 600 mostrada en la Figura 6 lleva a cabo reverberación para diferentes componentes de una señal de formato B basada en una corriente de DirAC mono . Tres diferentes copias reverberadas de la señal son generadas utilizando tres filtros de FIR diferentes siendo establecidos por medio de diferentes coeficientes de filtro /¾ a pK y ? a ??- La siguiente modalidad se puede aplicar a un reverberador o efecto de audio que puede ser modelado como la Figura 5. Una señal de entrada corre a través de una línea de retardo derivada simple, en donde múltiples copias de la misma son sumadas conjuntamente. La i-ésima de K ramas es retardada y atenuada por Ti y ít respectivamente.
Los factores ? y t pueden ser obtenidos dependiendo del efecto de audio deseado. En caso de un reverberador, estos factores imitan la respuesta de impulso de la sala que va a ser simulada. De cualquier manera, su determinación no es iluminada y así se supone que es dada.
Una modalidad es ilustrada en la Figura 6. El esquema en la Figura 5 es extendido de tal manera que dos capas más son obtenidas. En modalidades, a cada rama y ángulo de llegada T puede ser asignados obtenido de un proceso estocástico. Por ejemplo, T puede ser la realización de una distribución uniforme en el intervalo [-p,p]. La i-ésima rama es multiplicada con los factores ?± y p±, que pueden ser definidos como ?± = sen(0i) (21) En algunas modalidades, el i-ésimo eco puede ser percibido como procedente de #¿. La extensión a 3D es directa. En este caso, más capas necesitan ser agregadas y un ángulo de elevación necesita ser considerado. Una vez que la señal de formato B ha sido generada, es decir W, X, Y, y posiblemente Z, la combinación de la misma con otras señales de formato B se pueden llevar a cabo. Luego, puede ser enviada directamente a un descodificador de DirAC de micrófono virtual, o después de la codificación de DirAC la corriente de DirAC mono puede ser enviada a un descodificador de DirAC mono.
Algunas modalidades pueden comprender un método para determinar -una señal de audio espacial convertida, la señal de audio espacial convertida tiene un primer componente de audio direccional y un segundo componente de audio direccional, a partir de una señal de audio espacial de entrada, la señal de audio espacial de entrada tiene una representación de audio de entrada y una dirección de llegada de entrada. El método comprende la etapa de estimar la representación de onda que comprende una medida de campo de onda y una medida de dirección de llegada de onda basada en la representación de audio de entrada y la dirección de llegada de entrada.
Además, el método comprende la etapa de procesamiento de la medida de campo de onda y la medida de dirección de llegada de onda para obtener el primer componente direccional y el segundo componente direccional .
En algunas modalidades, el método para determinar una señal de audio espacial convertida puede estar comprendido por una obtener una corriente de DirAC mono que va a ser convertida a formato B'. Opcionalmente W puede ser obtenido de P, cuando está disponible. Si no, se puede efectuar una etapa de aproximar W como una combinación lineal de las señales de audio disponibles. Subsecuentemente, se puede llevar a cabo una etapa de calcular el factor ß como factor de ponderación dependiente de la potencia-tiempo inversamente proporcional a la difusividad, por ejemplo' de acuerdo con El método puede comprender además la etapa de calcular las señales X, Y y Z a partir de eD0A.
Para casos en los cuales ? = 1, la etapa de obtener W a partir de P puede ser reemplazada al obtener w de P con X, Y y Z siendo cero, obteniendo por lo menos una señal dipolo X, Y o Z a partir de P; W es cero, respectivamente. Algunas modalidades de la presente invención pueden llevar a cabo el procesamiento de señales en el dominio de formato B, produciendo la ventaja de que el procesamiento de señal avanzada se puede llevar a cabo antes de que las señales de altavoz sean generadas.
Dependiendo de ciertos requerimientos de implementación de los métodos de la invención, los métodos de la invención pueden ser implementados en elementos físicos o elementos de programación. La implementación puede ser efectuada utilizando un medio de almacenamiento digital, y particularmente una memoria instantánea, un disco, un DVD o un CD que tiene señales de control que se pueden leer electrónicamente almacenadas en el mismo, que cooperan con un sistema de computadora programable, de tal manera que los métodos de la invención son efectuados. En general, la presente invención es, por consiguiente un código de programa de computadora con un código de programa almacenado en un portador que se puede leer por la máquina, el código de programa es operativo para efectuar los métodos de la invención cuando el programa de computadora se ejecuta en una computadora o procesador. En otras palabras, los métodos de la invención son por consiguiente un programa de computadora que tiene un código de programa para efectuar por lo menos uno de los métodos de la invención, cuando el programa de computadora se ejecuta en una computadora .

Claims (16)

REIVINDICACIONES
1. Un aparato apto para determinar una señal de audio espacial convertida combinada, la señal de audio espacial convertida combinada tiene por lo menos un primer componente combinado y un segundo componente combinado, a partir de una primera y una segunda señal de audio espacial de entrada, la primera señal de audio espacial de entrada tiene una primera representación de audio de entrada y una primera dirección de llegada, la segunda señal de entrada espacial tiene una segunda representación de audio de entrada y una segunda dirección de llegada, caracterizado porque comprende: primeros medios aptos para determinar una primera señal convertida, la primera señal convertida tiene un primer componente omnidireccional y por lo menos un primer componente direccional (X;Y;Z), a partir de la primera señal de audio espacial de entrada, los primeros medios comprenden: un estimador apto para estimar una primera representación de onda, la primera representación de onda comprende una primera medida de campo de onda y una primera medida de dirección de llegada de onda, basada en la primera representación de audio de entrada y la primera dirección de llegada de entrada; y un procesador apto para procesar la primera medida de campo de onda y la primera medida de dirección de llegada de onda para obtener el primer componente omnidireccional y el por lo menos un primer componente direccional; en donde los primeros medios son aptos para proveer la primera señal convertida que tiene el primer componente omnidireccional y el por lo menos un primer componente direccional; segundos medios aptos para proveer una segunda señal convertida basada en la segunda señal de audio espacial de entrada, que tiene un segundo componente omnidireccional y por lo menos un segundo componente direccional, los segundos medios comprenden : otro estimador apto para estimar un segunda representación de onda, la segunda representación de onda comprende una segunda medida de campo de onda y una segunda medida de dirección de llegada de onda, basada en la segunda representación de audio de entrada y la segunda dirección de llegada de entrada; y otro procesador apto para procesar la segunda medida de campo de onda y la segunda medida de dirección de llegada de onda para obtener el segundo componente omnidireccional y el por lo menos un segundo componente direccional; en donde los segundos medios son aptos para proveer la segunda señal convertida que tiene el segundo componente omnidireccional y por lo menos un segundo componente direccional; un generador de efectos de audio apto para presentar el primer componente omnidireccional para obtener un primer componente presentado o para presentar el primer componente direccional para obtener el primer componente presentado; un primer combinador apto para combinar el primer componente presentado, el primer componente omnidireccional y el segundo componente omnidireccional , o para combinar el primer componente presentado, el primer componente direccional, y el segundo componente direccional para obtener el primer componente combinado; y un segundo combinador apto para combinar el primer componente direccional y el segundo componente direccional, o para combinar el primer componente omnidireccional y el segundo componente omnidireccional para obtener el segundo componente combinado .
2. El aparato de conformidad con la reivindicación 1, caracterizado porque el estimador o el otro estimador es apto para estimar la primera o segunda medida de campo de onda en términos de una amplitud de campo de onda y una fase de campo de onda.
3. El aparato de conformidad con cualquiera de las reivindicaciones 1 ó 2, caracterizado porque la primera o segunda señal de audio espacial de entrada comprende además un parámetro de difusividad ? y en donde el estimador o el otro estimador es apto para estimar la medida de campo de onda basada adicionalmente en el parámetro de difusividad ?.
4. El aparato de conformidad con cualquiera de las reivindicaciones 1 a 3, caracterizado porque la primera o segunda dirección de llegada de entrada se refiere a un punto de referencia y en donde el estimador o el otro estimador es apto para estimar la primera o segunda medida de dirección de llegada de onda en referencia al punto de referencia, el punto de referencia corresponde a un sitio de grabación de la señal de audio espacial de entrada.
5. El aparato de conformidad con cualquiera de las reivindicaciones 1 a 4, caracterizado porque la primera o la segunda señal de audio espacial convertida comprende un primero, un segundo y un tercero componente direccional y en donde el procesador o el otro procesador es apto para el procesamiento adicional de la primera o segunda medida de campo de onda y la primera o segunda medida de dirección de llegada de onda para obtener los primeros, segundos y terceros componentes direccionales para la primera o segunda señal convertida.
6. El aparato de conformidad con cualquiera de las reivindicaciones 2 a 5, caracterizado porque el estimador o el otro estimador es apto para determinar la primera o segunda medida de campo de onda basada . en una fracción ß(}?,?) de la primera o segunda representación de audio de entrada P(k,n), en donde k denota un índice de tiempo y n denota un índice de frecuencia.
7. El aparato de conformidad con la reivindicación 6, caracterizado porque el procesador o el otro procesador es apto para obtener una medida compleja del primer componente direccional X(k,n) y/o el segundo componente direccional Y(k,n) y/o el tercer componente direccional Z(k,n) y/o el primero o segundo componente de audio omnidireccional W(k,n) para la primera o segunda señal convertida mediante W(k,n) = P(k,n) en donde eD0A,x(k, n) es un componente de un vector unitario eD0A(k,n) de la primera o segunda dirección de llegada de entrada a lo largo del eje x de un sistema de coordenadas Cartesiano, eD0A,y (k, n) es un componente de eDOñ(k,n) a lo largo del eje y y eD0A,x(k,n) es un componente de eD0A(k,n) a lo largo del eje z.
8. El aparato de conformidad con cualquiera de las reivindicaciones 6 ó 7, caracterizado porque el estimador o el otro estimador es apto para estimar la fracción ß(k/n) basada en el parámetro de difusividad (k,n) de acuerdo con:
9. El aparato de conformidad con cualquiera de las reivindicaciones 6 ó 7, caracterizado porque el estimador o el otro estimador es apto para estimar la fracción (k,n) basada en * (k,n) de acuerdo con:
10. El aparato de conformidad con cualquiera de las reivindicaciones 1 a 9, caracterizado porque la primera o la segunda señal de audio espacial de entrada corresponde a una señal de audio codificada de DirAC y en donde el procesador o el otro procesador es apto para obtener el primero o segundo componente omnidireccional (W ) y por lo menos un primero o segundo componente direccional en términos de una señal de formato B.
11. El aparato de conformidad con cualquiera de las reivindicaciones 1 a 10, caracterizado porque el generador de efecto de audio es apto para presentar una combinación del primer componente omnidireccional y el segundo componente omnidireccional, o para presentar una combinación del primer componente direccional y el segundo componente direccional para obtener el primer componente presentado.
12. El aparato de conformidad con cualquiera de las reivindicaciones 1 a 11, caracterizado porque comprende además una primera etapa de retardo y escalamiento para retardar y/o escalar el primer componente omnidireccional y/o el primer componente direccional, y/o una segunda etapa de retardo y escalamiento . para retardar y/o escalar el segundo componente omnidireccional y/o el segundo componente direccional .
13. El aparato de conformidad con cualquiera de las reivindicaciones 1 a 12, caracterizado porque comprende una pluralidad de medios para convertir una pluralidad de señales de audio espacial de entrada, el aparato comprende además una pluralidad de generadores de efecto de audio, en donde el número de generadores de efecto de audio es menor que el número de medios .
14. El aparato de conformidad con cualquiera de las reivindicaciones 1 a 13, caracterizado porque el generador de efecto de audio es apto para reverberar el primer componente omnidireccional o el primer componente direccional para obtener el primer componente presentado.
15. Un método para determinar una señal de audio espacial convertida combinada, la señal de audio espacial convertida combinada tiene por lo menos un primer componente combinado y un segundo componente combinado, a partir de una primera y una segunda señal de audio espacial de entrada, la primera señal de audio espacial de entrada tiene una primera representación de audio de entrada y una primera dirección de llegada, la segunda señal de entrada espacial tiene una segunda representación de audio de entrada y una segunda ' dirección de llegada, caracterizado porque comprende las etapas de: determinar una primera señal de audio espacial convertida, la primera señal de audio espacial convertida tiene un primer componente omnidireccional y por lo menos un primer componente direccional, a partir de la primera señal de audio espacial de entrada, al usar las sub-etapas de: estimar una primera representación de onda, la primera representación de onda comprende una primera medida de campo de onda y una primera medida de dirección de llegada de onda, basada en la primera representación de audio de entrada y la primera dirección de llegada de entrada; y procesar la primera medida de campo de onda y la primera medida de dirección de llegada de onda para obtener el primer componente omnidireccional y el por lo menos un primer componente direccional; proveer la primera señal convertida que tiene el primer componente omnidireccional y el por lo menos un primer - componente direccional; determinar una segunda señal de audio espacial convertida, la segunda señal de audio espacial convertida tiene un segundo componente omnidireccional y por lo menos un segundo componente direccional, a partir de la segunda señal de audio espacial de entrada, al usar las sub-etapas de: estimar un segunda representación de onda, la segunda representación de onda comprende un segunda medida de campo de onda y una segunda medida de dirección de llegada de onda, basada en la segunda representación de audio de entrada y la segunda dirección de llegada de entrada; y procesar la segunda medida de campo de onda y la segunda medida de dirección de llegada de onda para obtener el segundo componente omnidireccional y el por lo menos un segundo componente direccional; proveer la segunda señal convertida que tiene el segundo componente omnidireccional y el por lo menos un segundo componente direccional; presentar el primer componente omnidireccional para obtener un primer componente presentado o presentar el primer componente direccional para obtener el primer componente presentado; combinar el primer componente presentado, el primer componente omnidireccional y el segundo componente omnidireccional, o combinar el primer componente presentado, el primer componente direccional, y el segundo componente direccional para obtener el primer componente combinado; y combinar el primer componente direccional y el segundo componente direccional, o combinar el primer componente omnidireccional y el segundo componente omnidireccional para obtener el segundo componente combinado.
16. Un programa de computadora que tiene un código de programa para efectuar el método de conformidad con la reivindicación 15, caracterizado porque el código de programa se ejecuta en un procesador de computadora.
MX2011001657A 2008-08-13 2009-08-12 Aparato para determinar una señal de audio espacial convertida. MX2011001657A (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US8851308P 2008-08-13 2008-08-13
US9168208P 2008-08-25 2008-08-25
EP09001398.8A EP2154677B1 (en) 2008-08-13 2009-02-02 An apparatus for determining a converted spatial audio signal
PCT/EP2009/005859 WO2010017978A1 (en) 2008-08-13 2009-08-12 An apparatus for determining a converted spatial audio signal

Publications (1)

Publication Number Publication Date
MX2011001657A true MX2011001657A (es) 2011-06-20

Family

ID=40568458

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2011001657A MX2011001657A (es) 2008-08-13 2009-08-12 Aparato para determinar una señal de audio espacial convertida.

Country Status (14)

Country Link
US (1) US8611550B2 (es)
EP (2) EP2154677B1 (es)
JP (1) JP5525527B2 (es)
KR (2) KR101476496B1 (es)
CN (1) CN102124513B (es)
AU (1) AU2009281367B2 (es)
BR (1) BRPI0912451B1 (es)
CA (1) CA2733904C (es)
ES (2) ES2425814T3 (es)
HK (2) HK1141621A1 (es)
MX (1) MX2011001657A (es)
PL (2) PL2154677T3 (es)
RU (1) RU2499301C2 (es)
WO (1) WO2010017978A1 (es)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007083739A1 (ja) * 2006-01-19 2007-07-26 Nippon Hoso Kyokai 3次元音響パンニング装置
AU2011231565B2 (en) 2010-03-26 2014-08-28 Dolby International Ab Method and device for decoding an audio soundfield representation for audio playback
WO2012072787A1 (en) 2010-12-03 2012-06-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatially selective sound acquisition by acoustic triangulation
TWI489450B (zh) 2010-12-03 2015-06-21 Fraunhofer Ges Forschung 用以產生音訊輸出信號或資料串流之裝置及方法、和相關聯之系統、電腦可讀媒體與電腦程式
FR2982111B1 (fr) * 2011-10-27 2014-07-25 Cabasse Enceinte acoustique comprenant un haut-parleur coaxial a directivite controlee et variable.
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
KR102201713B1 (ko) 2012-07-19 2021-01-12 돌비 인터네셔널 에이비 다채널 오디오 신호들의 렌더링을 향상시키기 위한 방법 및 디바이스
US9549276B2 (en) * 2013-03-29 2017-01-17 Samsung Electronics Co., Ltd. Audio apparatus and audio providing method thereof
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
EP2922057A1 (en) 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
KR102428794B1 (ko) * 2014-03-21 2022-08-04 돌비 인터네셔널 에이비 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치
CA2943670C (en) * 2014-03-24 2021-02-02 Samsung Electronics Co., Ltd. Method and apparatus for rendering acoustic signal, and computer-readable recording medium
EP3143779B1 (en) 2014-05-13 2020-10-07 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for edge fading amplitude panning
CN105336332A (zh) 2014-07-17 2016-02-17 杜比实验室特许公司 分解音频信号
TWI584657B (zh) * 2014-08-20 2017-05-21 國立清華大學 一種立體聲場錄音以及重建的方法
TWI567407B (zh) * 2015-09-25 2017-01-21 國立清華大學 電子裝置及電子裝置之操作方法
GB2554446A (en) 2016-09-28 2018-04-04 Nokia Technologies Oy Spatial audio signal format generation from a microphone array using adaptive capture
CN108346432B (zh) * 2017-01-25 2022-09-09 北京三星通信技术研究有限公司 虚拟现实vr音频的处理方法及相应设备
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
CA3076703C (en) 2017-10-04 2024-01-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding
CN108845292B (zh) * 2018-06-15 2020-11-27 北京时代拓灵科技有限公司 一种声源定位的方法及装置
US11699451B2 (en) * 2018-07-02 2023-07-11 Dolby Laboratories Licensing Corporation Methods and devices for encoding and/or decoding immersive audio signals
JP7179079B2 (ja) * 2018-10-09 2022-11-28 ローランド株式会社 効果音発生方法、及び情報処理装置
CN111145793B (zh) * 2018-11-02 2022-04-26 北京微播视界科技有限公司 音频处理方法和装置
TWI808298B (zh) * 2019-01-21 2023-07-11 弗勞恩霍夫爾協會 對空間音訊表示進行編碼的裝置和方法或使用傳輸後設資料對編碼音訊訊號進行解碼的裝置和方法和相關計算機程式
US20200304933A1 (en) * 2019-03-19 2020-09-24 Htc Corporation Sound processing system of ambisonic format and sound processing method of ambisonic format

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2738099B1 (fr) * 1995-08-25 1997-10-24 France Telecom Procede de simulation de la qualite acoustique d'une salle et processeur audio-numerique associe
AUPO099696A0 (en) * 1996-07-12 1996-08-08 Lake Dsp Pty Limited Methods and apparatus for processing spatialised audio
JP2004507904A (ja) * 1997-09-05 2004-03-11 レキシコン 5−2−5マトリックス・エンコーダおよびデコーダ・システム
US7231054B1 (en) * 1999-09-24 2007-06-12 Creative Technology Ltd Method and apparatus for three-dimensional audio display
CN1452851A (zh) * 2000-04-19 2003-10-29 音响方案公司 保持三维中的空间谐波的多通道环绕声母版制作和再现技术
JP3810004B2 (ja) * 2002-03-15 2006-08-16 日本電信電話株式会社 ステレオ音響信号処理方法、ステレオ音響信号処理装置、ステレオ音響信号処理プログラム
FR2847376B1 (fr) * 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
JP2006526161A (ja) * 2003-05-27 2006-11-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化
JP2005345979A (ja) * 2004-06-07 2005-12-15 Nippon Hoso Kyokai <Nhk> 残響信号付加装置
ATE378793T1 (de) * 2005-06-23 2007-11-15 Akg Acoustics Gmbh Methode zur modellierung eines mikrofons
JP2007124023A (ja) * 2005-10-25 2007-05-17 Sony Corp 音場再現方法、音声信号処理方法、音声信号処理装置
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
RU2420027C2 (ru) * 2006-09-25 2011-05-27 Долби Лэборетериз Лайсенсинг Корпорейшн Улучшенное пространственное разрешение звукового поля для систем многоканального воспроизведения аудио посредством получения сигналов с угловыми членами высокого порядка
US20080232601A1 (en) * 2007-03-21 2008-09-25 Ville Pulkki Method and apparatus for enhancement of audio reconstruction
US20090045275A1 (en) * 2007-08-14 2009-02-19 Beverly Ann Lambert Waste Chopper Kit

Also Published As

Publication number Publication date
RU2499301C2 (ru) 2013-11-20
US8611550B2 (en) 2013-12-17
HK1155846A1 (en) 2012-05-25
CN102124513B (zh) 2014-04-09
AU2009281367A1 (en) 2010-02-18
CA2733904C (en) 2014-09-02
BRPI0912451A2 (pt) 2019-01-02
EP2311026A1 (en) 2011-04-20
BRPI0912451B1 (pt) 2020-11-24
CA2733904A1 (en) 2010-02-18
JP2011530915A (ja) 2011-12-22
KR20110052702A (ko) 2011-05-18
AU2009281367B2 (en) 2013-04-11
CN102124513A (zh) 2011-07-13
PL2311026T3 (pl) 2015-01-30
JP5525527B2 (ja) 2014-06-18
ES2523793T3 (es) 2014-12-01
ES2425814T3 (es) 2013-10-17
EP2311026B1 (en) 2014-07-30
EP2154677B1 (en) 2013-07-03
RU2011106584A (ru) 2012-08-27
KR20130089277A (ko) 2013-08-09
US20110222694A1 (en) 2011-09-15
KR101476496B1 (ko) 2014-12-26
WO2010017978A1 (en) 2010-02-18
EP2154677A1 (en) 2010-02-17
PL2154677T3 (pl) 2013-12-31
HK1141621A1 (en) 2010-11-12

Similar Documents

Publication Publication Date Title
EP2154677B1 (en) An apparatus for determining a converted spatial audio signal
JP7119060B2 (ja) マルチポイント音場記述を使用して拡張音場記述または修正音場記述を生成するためのコンセプト
KR101235543B1 (ko) 공간 오디오 스트림을 병합하는 장치
CN104185869B9 (zh) 用于合并基于几何的空间音频编码流的设备和方法
TWI489450B (zh) 用以產生音訊輸出信號或資料串流之裝置及方法、和相關聯之系統、電腦可讀媒體與電腦程式
RU2759160C2 (ru) УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ
KR101195980B1 (ko) 다채널 오디오 포맷들 사이의 변환 장치 및 방법
JP2009527970A (ja) オーディオ符号化及び復号
Pulkki et al. Directional audio coding-perception-based reproduction of spatial sound
McCormack et al. Higher-order processing of spatial impulse responses
McCormack Parametric reproduction of microphone array recordings

Legal Events

Date Code Title Description
FG Grant or registration