MX2011001653A - Aparato para fusionar corrientes de audio espacial. - Google Patents

Aparato para fusionar corrientes de audio espacial.

Info

Publication number
MX2011001653A
MX2011001653A MX2011001653A MX2011001653A MX2011001653A MX 2011001653 A MX2011001653 A MX 2011001653A MX 2011001653 A MX2011001653 A MX 2011001653A MX 2011001653 A MX2011001653 A MX 2011001653A MX 2011001653 A MX2011001653 A MX 2011001653A
Authority
MX
Mexico
Prior art keywords
wave
representation
audio
merged
fused
Prior art date
Application number
MX2011001653A
Other languages
English (en)
Inventor
Markus Kallinger
Fabian Kuech
Galdo Giovanni Del
Ville Pulkki
Mikko-Ville Laitinen
Richard Schultz-Amling
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of MX2011001653A publication Critical patent/MX2011001653A/es

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Se describe un aparato (100) para fusionar una primera corriente de audio espacial con una segunda corriente de audio espacial para obtener una corriente de audio fusionada que comprende un estimador (120) para estimar una primera representación de onda que comprende una primera medida de dirección de onda y una primera medida de campo de onda para la primera corriente de audio espacial, la primera corriente de audio espacial tiene una primera representación de audio y una primera dirección de llegada. El estimador (120) es apto para estimar una segunda representación de onda que comprende una segunda medida de dirección de onda y una segunda medida de campo de onda para la segunda corriente de audio espacial, la segunda corriente de audio espacial tiene una segunda representación de audio y una segunda dirección de llegada. El aparato (100) comprende además un procesador (130) para procesar la primera representación de onda y la segunda representación de onda para obtener una representación de onda fusionada que comprende una medida de campo de onda fusionada y una medida de dirección de llegada fusionada y para procesar la primera representación de audio y la segunda representación de audio para obtener una representación de audio fusionada y para proveer la corriente de audio fusionada que comprende la representación de audio fusionada y la medida de dirección de llegada fusionada.

Description

APARATO PARA FUSIONAR CORRIENTES DE AUDIO ESPACIAL DESCRIPCIÓN DE LA INVENCIÓN La presente invención es concerniente con el campo de procesamiento de audio, especialmente procesamiento de audio espacial y la fusión de múltiples corrientes de audio espacial .
DirAC (DirAC = codificación de audio direccional) , cf. V. Pulkki y C. Faller, Directional audio coding in spatial sound reproduction and stereo upmixing, en la^28a. Conferencia Internacional de la AES, Pitea, Suecia, Junio 2006 y V. Pulkki, A method for reproducing natural or modified spatial impression in Multichannel listening, Patente WO 2004/077884 Al, Septiembre 2004, es un procedimiento > eficiente para el análisis y reproducción de sonido espacial. DirAC utiliza una representación paramétrica de campos de sonido basados en los elementos que son relevantes para la percepción de sonido espacial, es decir la dirección de llegada (DOA = dirección de llegada) y difusividad del campo de sonido en sub-bandas de frecuencia. En efecto, DirAC asume las diferencias de tiempo inter-aural (ITD = diferencia de tiempo inter-aural) y diferencias de' nivel inter-aural (ILD = diferencias de nivel inter-aural) son percibidas correctamente cuando la DOA de un campo de sonido es reproducida correctamente, en tanto que la coherencia inter-aural (IC = coherencia inter-aural) es percibida correctamente, si la difusividad es reproducida exactamente.
Estos parámetros, es decir DOA y difusividad, representan información lateral que acompaña a una señal mono-aural en lo que es denominada como una corriente de DirAC mono. Los parámetros de DirAC son obtenidos de una representación de tiempo-frecuencia de las señales del micrófono. Por consiguiente, los parámetros son dependientes del tiempo y de la frecuencia. En el lado de la reproducción, esta información permite una presentación espacial exacta. Para recrear el sonido espacial en una posición de escucha deseada se requiere un montaje de múltiples altavoces. Sin embargo, su geometría es arbitraria. En efecto, las señales para los altavoces son determinadas como función de los parámetros de DirAC .
Hay diferencias substanciales entre DirAC y codificación de audio de multi-canal paramétrica tal como MPEG Surround aunque comparten estructuras de procesamiento muy similares, cf. Lars Villemoes, Juergen Herré, Jeroen Breebaart, Gerard Hotho, Sascha Disch, Heiko Purnhagen, and Kristofer Kjrlingm, MPEG Surround: The forthcoming ISO Standard for spatial audio coding, en la 28a. Conferencia Internacional de la AES, Pitea, Suecia, Junio 2006. En tanto que MPEG Surround está basado en un análisis de tiempo-frecuencia de los diferentes canales de altavoz, DirAC toma como entrada los canales de micrófonos coincidentes, que describen efectivamente el campo de sonido en un punto. Así, DirAC también representa una técnica de grabación eficiente para audio espacial.
Otro sistema convencional que trata con audio espacial es SAOC (SAOC = codificación de objeto de audio espacial), cf. Joñas Engdegard, Barbara Resch, Cornelio Falch, Oliver Hellmuth, Johannes Hilpert, Andreas Hoelzer, Leonid Ternetiev, Jeroen Breebaart, Jeroen oppens , Erik Schuijer y Werner Oomen, Spatial audio objectcoding (SAOC) the upcoming MPEG Standard on parametric object based audio coding, en la 124a. Convención de la AES, Mayo 17-20, 2008, Amsterdam, Países Bajos, 2008, actualmente bajo normalización en ISO/MPEG.
Se integra sobre el motor de presentación de MPEG Surround y trata diferentes fuentes de sonido como objetos. Esta codificación de audio ofrece eficiencia muy alta en términos de proporción de bits y da una libertad de interacción sin precedentes en el lado de reproducción. Este procedimiento promete nuevos elementos compelentes y funcionalidad en sistemas heredados, también como varias otras nuevas aplicaciones .
Es un objeto de la presente invención proveer un concepto aprobado para la fusión de señales de audio espaciales.
El objeto es obtenido por un aparato para fusión de acuerdo con una de las reivindicaciones 1 o 14 y con un método de fusión de acuerdo con una de las reivindicaciones 13 o 15.
Nótese que la fusión sería trivial en el caso de una corriente de DirAC de multi-canal, esto es, si los 4 canales de audio de formato de B estuvieran disponibles. En efecto, las señales de diferentes fuentes pueden ser sumadas directamente para obtener las señales de formato B de la corriente fusionada. Sin embargo, si estos canales no están disponibles la fusión directa es problemática.
La presente invención está basada en el descubrimiento de que las señales de audio espaciales pueden ser representadas por la suma de una representación de onda, por ejemplo, una ' representación de onda plana y una representación de campo difuso. A la primera se puede asignar una dirección. Cuando se fusionan varias corrientes de audio, las modalidades pueden permitir obtener la información lateral de la corriente fusionada, por ejemplo en términos de difusividad y dirección.1 Las modalidades pueden obtener esta información a partir de las representaciones de onda también como las corrientes de audio de entrada. Cuando se fusionan varias corrientes de audio, que pueden todas ser modeladas por una parte o representación de onda y una parte o representación difusa, las partes o componentes de onda y partes o componentes difusos, pueden ser fusionados separadamente. La fusión de la parte de onda produce una parte de onda fusionada, para la cual se puede obtener una dirección fusionada en base a las direcciones de las representaciones de la parte de onda. Además, las partes difusas pueden también ser fusionadas separadamente, de la parte difusa fusionada, un parámetro de difusividad global puede ser derivado.
Las modalidades pueden proveer un método para fusionar dos o más señales de audio espaciales codificadas como corrientes de DirAC mono. La señal fusionada resultante puede ser representada como una corriente de DirAC mono también. En modalidades, la codificación de DirAC mono puede ser una manera compacta para describir audio espacial, ya que solamente un canal de audio necesita ser transmitido junto con información lateral .
En modalidades un escenario posible puede ser una aplicación de tele-conferencia con más de dos partes. Por, ejemplo, sea el usuario A que se comunica con los usuarios B y C, que generan dos corrientes de DirAC mono separadas. En la ubicación de A, la modalidad puede permitir que las corrientes del usuario B y C sean fusionadas a una sola corriente de DirAC mono, que puede ser reproducida con la técnica de síntesis de DirAC convencional. En una modalidad que utiliza una topología de red que observa la presencia de una unidad de control de multi-punto (MCU = unidad de control de multi-punto) , la operación de fusión sería efectuada por la MCU misma, de tal manera que el usuario A recibiría una corriente de DirAC mono individual que ya contiene el habla tanto de B como de C. Claramente, las corrientes de DirAC a ser fusionadas pueden también ser generadas sintéticamente, lo que significa que la información lateral apropiada puede ser agregada a una señal de audio mono. En el ejemplo recién mencionado, el usuario A podría recibir dos corrientes de audio de B y C sin ninguna información lateral. Luego, es posible asignar a cada corriente una cierta dirección y difusividad, agregando así la información lateral necesaria para construir las corrientes de DirAC, que pueden luego ser fusionadas por una modalidad.
Otro escenario posible en modalidades se puede encontrar en juegos en línea de múltiples jugadores y aplicaciones de realidad virtual. En estos casos, se generan varias corrientes ya sea de los jugadores u objetos virtuales. Cada corriente es caracterizada por una cierta dirección de llegada en relación con el escucha y puede por consiguiente ser expresada por una corriente de DirAC. La modalidad puede ser usada para fusionar ' las diferentes corrientes a una sola corriente de DirAC, que es luego reproducida en la posición del escucha.
Modalidades de la presente invención serán detalladas utilizando las figuras adjuntas, en las cuales: La Figura la muestra una modalidad de un aparato para fusión; La Figura Ib muestra la presión y componentes de un vector de velocidad de partículas en un plano Gaussiano para una onda plana; la Figura 2 muestra una modalidad de un codificador de DirAC; la Figura 3 ilustra una fusión ideal de corrientes da audio; la Figura 4 muestra las entradas y salidas de una modalidad de un bloque de procesamiento de fusión de DirAC general ; la Figura 5 muestra un ' diagrama de bloques de una modalidad y la Figura 6 muestra un diagrama de flujo de una modalidad de un método para fusión.
La Figura la ilustra una modalidad de un aparato 100 para fusión de una primera corriente de audio espacial con una segunda corriente de audio espacial para obtener una corriente de audio fusionada. La modalidad ilustrada en la Figura la ilustra la fusión de dos corrientes de audio, sin embargo no estará limitada a dos corrientes de audio, de manera similar, múltiples corrientes de audio espaciales pueden ser fusionadas. La primera corriente de audio espacial y la segunda corriente de audio espacial pueden por ejemplo corresponder a corriente de DirAC mono y la corriente de audio fusionada puede también corresponder a una sola corriente de audio de DirAC mono. Como se destallará subsecuentemente, una corriente de DirAC mono puede comprender una señal de presión, por ejemplo capturada por un micrófono omnidireccional e información lateral. La última puede comprender medidas dependientes del tiempo-frecuencia de difusividad y dirección de llegada del sonido.
La Figura la muestra una modalidad de un aparato 100 para fusionar 'una primera corriente de audio espacial con una segunda corriente de audio espacial para obtener una corriente de audio fusionada, que comprende un estimador 120 para estimar una primera representación de onda que comprende una primera medida de dirección de onda y una primera medida de campo de onda para la primera corriente de audio espacial, la primera corriente de audio espacial tiene una primera representación de audio y una primera dirección de llegada y para estimar una segunda representación de onda que comprende una segunda medida de la dirección de onda y una segunda medida del campo de onda para la segunda corriente de audio espacial, la segunda corriente de audio espacial tiene una segunda representación de audio y una segunda dirección de llegada. En modalidades, la primera y/o segunda representación de onda pueden corresponder a una representación de onda plana.
En la modalidad mostrada en la Figura la, el aparato 100 comprende además un procesador 130 para el procesamiento de la primera representación de onda y la segunda representación de onda para obtener una representación de onda fusionada que comprende una medida de campo fusionada y una dirección fusionada de medida de llegada y para el procesamiento de la primera representación de audio y la segunda representación de audio para obtener una representación de audio fusionada, el procesador 130 es apto además para proveer la corriente de audio fusionada que comprende la representación de audio fusionada y la medida de dirección de llegada fusionada.
El estimador 120 puede ser adaptado pará estimar la primera medida de campo de onda en términos de una primera amplitud de campo de onda, para estimar la segunda medida de campo de onda en términos de una segunda amplitud de campo de onda y para estimar una diferencia de fase entre la primera medida de campo de onda y la segunda medida de campo de onda. En modalidades, el estimador puede ser apto para estimar una primera fase de campo de onda y una segunda fase de campo de onda. En modalidades, el estimador 120 puede estimar solamente un desplazamiento o diferencia de fase entre las primeras y segundas representaciones de onda, las primeras y segundas medidas de campo de onda, respectivamente. El procesador 130 puede luego así ser apto para procesar la primera representación de onda y la segunda representación de onda para obtener una representación de onda fusionada que comprende una medida de campo de onda fusionada, que puede comprender una amplitud de campo de onda fusionada, una fase de campo de onda fusionada y una medida de la dirección de llegada fusionada y para el procesamiento de la primera representación de audio y la segunda representación de audio para obtener una representación de audio fusionada.
En modalidades, el procesador 130 puede ser apto adicionalmente para el procesamiento de la primera representación de onda y la segunda representación de onda para obtener la representación de onda fusionada que comprende la medida de campo de onda fusionada, la medida de dirección de llegada fusionada y un parámetro de difusividad fusionada y para proveer la corriente de audio fusionada que comprende la ? representación de audio fusionada, la medida de dirección de llegada fusionada y el parámetro de difusividad fusionado.
En otras palabras, en modalidades, un parámetro de difusividad puede ser determinado en base a las representaciones de onda para la corriente de audio fusionada. El parámetro de difusividad puede establecer una medida de difusividad espacial de una corriente de audio, esto es, una medida para la distribución espacial como por ejemplo una distribución angular alrededor de una cierta dirección. En una modalidad, un escenario posible podría ser la fusión de dos señales sintéticas mono con solo información direccional.
El procesador 130 puede ser apto para el procesamiento de la primera representación de onda y la segunda representación de onda para obtener la representación de onda fusionada, en donde el parámetro de difusividad fusionado está basado en la primera medida de dirección de onda y en la segunda medida de dirección de onda. En modalidades, las primeras y segundas representaciones de onda pueden tener direcciones de llegada diferentes y la dirección de llegada fusionada puede caer entre ellas. En esta modalidad, aunque las primeras y segundas corrientes de audio espacial pueden no proveer ningún parámetro de difusividad, el parámetro de difusividad fusionado puede ser determinado a partir de las primeras y segundas representaciones de onda, esto es, basadas en la primera medida de dirección de onda y en la segunda medida de dirección de onda. Por ejemplo, si dos ondas planas chocan desde diferentes direcciones, esto es, la primera medida de dirección de onda difiere de la segunda medida de dirección de onda, la representación de audio fusionada puede comprender una dirección de llegada fusionada combinada con un parámetro de difusividad fusionado que no se desvanece, con el fin de tomar en cuenta la primera medida de dirección de onda y la segunda medida de dirección de onda. En otras palabras, mientras que dos corrientes de audio espacial enfocadas pueden no tener ó proveer ninguna difusividad, la corriente de audio fusionada puede tener una difusividad que no se desvanece, ya que está basada en la distribución angular establecida por las primeras y segundas corrientes de audio.
Las modalidades pueden estimar un parámetro de difusividad ?, por ejemplo, para una corriente de DirAC fusionada. En general, las modalidades pueden luego establecer o asumir los parámetros de difusividad de las corrientes • individuales a un valor fijo, por ejemplo 0 o 0.1 o a un valor variable derivado de un análisis de las representaciones de audio y/o representaciones de dirección.
En otras modalidades, el aparato 100 para fusión de la primera corriente de audio espacial con la segunda corriente de audio espacial para obtener una corriente de audio fusionada puede comprender el estimador 120 para estimar la primera representación de onda que comprende una primera medida de dirección de onda y una primera medida de campo de onda para la primera corriente de audio espacial, la primera corriente de audio espacial tiene la primera representación de audio, la primera dirección de llegada y un primer parámetro de difusividad. En otras palabras, la primera representación de audio puede corresponder a una señal de audio con un cierto ancho espacial o ser difusa a una cierta extensión. En una modalidad, esto puede corresponder a un escenario en un juego de computadora. Un primer jugador puede estar en un escenario, en donde la primera representación de audio representa una fuente de audio como por ejemplo un tren que pasa, al crear un campo de sonido difuso a una cierta extensión. En tal modalidad, los sonidos evocados por el tren mismo pueden ser difusos, un sonido producido por la bocina del tren, esto es, los componentes de frecuencia correspondientes, pueden no ser difusos.
El estimador 120 puede además ser apto para estimar la segunda representación de onda que comprende la segunda medida de dirección de onda y la segunda medida de campo de onda para la segunda corriente de audio espacial, la segunda corriente de audio espacial que tiene la segunda representación de audio, la segunda dirección de llegada y un segundo parámetro de difusividad. En otras palabras, la segunda representación de audio puede corresponder a una señal de audio con un cierto ancho espacial o ser difusa a una cierta extensión. Otra vez, esto puede corresponder al escenario en el juego de computadora, en donde una segunda fuente de sonido puede ser representada por la segunda corriente de audio, por ejemplo ruido de fondo de otro tren que pasa en otra pista. Para el primer jugador en el juego de computadora, ambas fuentes de sonido pueden ser difusas ya que está ubicado en la estación del tren.
En modalidades, el procesador 130 puede ser apto para el procesamiento de la primera representación de onda y la segunda representación de onda para obtener la representación de onda fusionada que comprende la medida de campo de onda fusionada y la medida de dirección de llegada fusionada y para procesar la primera representación de audio y la segunda representación de audio para obtener la representación de audio fusionada y para proveer la corriente de audio fusionada que comprende la representación de audio fusionada y la medida de dirección de . llegada fusionada. En otras palabras, el procesador 130 puede no determinar un parámetro de difusividad fusionado. Esto puede corresponder al campo de sonido experimentado por un segundo jugador en el juego de computadora descrito anteriormente. El segundo jugador puede estar ubicado más alejado de la estación del tren, de tal manera que las dos fuentes de sonido pueden no ser experimentadas como difusas por el segundo jugador, sino más bien representar fuentes de sonido enfocadas, debido a una distancia más grande.
En modalidades, el aparato 100 puede comprender además medios 110 para determinar la primera corriente de audio espacial la primera representación de audio y la primera dirección de llegada y para determinar para la segunda corriente de audio espacial la segunda representación de audio la segunda dirección de llegada. En modalidades, los medios 110 para determinar pueden ser provistos con una corriente de audio directa, esto es, la determinación puede solamente referirse a la lectura de la representación de audio en términos de por ejemplo una señal de presión y una DOA y opcionalmente también parámetros de difusividad en términos de la información lateral .
El estimador 120 puede ser apto para estimar la primera representación de onda a partir de la primera corriente de audio espacial que tiene además un primer parámetro de difusividad y/o para estimar la segunda representación de onda a partir de la segunda corriente de audio espacial que tiene además un segundo parámetro de difusividad, el procesador 130 puede ser apto para el procesamiento de la medida de campo de onda fusionada, las primeras y segundas representaciones de audio y los primeros y segundos parámetros de difusividad para obtener el parámetro de difusividad fusionado para la corriente de audio fusionada y el procesador 130 puede ser apto adicionalmente para proveer la corriente de audio que comprende el parámetro de difusividad fusionado.. Los medios 110 para determinación pueden ser aptos para determinar el primer parámetro de difusividad para la primera corriente de audio espacial y el segundo parámetro de difusividad para la segunda corriente de audio espacial .
El procesador 130 puede ser apto para el procesamiento de las corrientes de audio espaciales, las representaciones de audio, la DOA y/o los parámetros de difusividad bloque por bloque, esto es, en términos de segmentos de muestras o valores. En algunas modalidades, un segmento puede comprender un número predeterminado de muestras correspondientes a una representación de frecuencia de una cierta banda de frecuencia a un cierto tiempo de una corriente de audio espacial . Tal segmento puede corresponder a una representación mono y tener asociada una DOA y un parámetro de difusividad.
En modalidades, los medios 110 para determinación pueden ser aptos para determinar la primera y segunda representación de audio, la primera y segunda dirección de llegada y los primeros y segundos parámetros de difusividad de una manera dependiente del tiempo-frecuencia y/o el procesador 130 puede ser apto para el procesamiento de las primeras y segundas representaciones de onda, parámetros de difusividad y/o medida de DOA y/o para determinar la representación de audio fusionada, la medida de dirección de llegada fusionada y/o el parámetro de difusividad fusionada de uña manera dependiente del tiempo-frecuencia.
En modalidades, la primera representación de audio puede corresponder a una primera representación mono y la segunda representación de audio puede corresponder a una segunda representación mono y la representación de audio fusionada puede corresponder a una representación mono fusionada. En otras palabras, las representaciones de audio pueden corresponder a un solo canal de audio.
En modalidades, los medios 110 p ra determinación pueden ser aptos para determinar y/o el procesador puede ser apto para el procesamiento de la primera y segunda representación mono, la primera y la segunda DOA y un primero y un segundo parámetros de difusividad y el procesador 130 puede proveer la representación mono fusionada, la medida de DOA fusionada ,y/o el parámetro de difusividad fusionado de una manera dependiente del tiempo-frecuencia. En modalidades, la primera corriente de audio espacial puede ya ser provista en términos de, por ejemplo una representación de DirAC, los medios 110 para determinación pueden ser aptos para determinar la primera y segunda representación mono, la primera y segunda DOA y los primeros y segundos parámetros de difusividad simplemente mediante la extracción de las primeras y segundas corrientes de audio, por ejemplo de la información lateral de DirAC.
En lo siguiente, una modalidad será presentada en detalle, en donde la notación y el modelo de datos serán presentados primero. En modalidades, los medios 110 para determinación pueden ser aptos para determinar las primeras y segundas representaciones de audio y/o el procesador 130 puede ser apto para proveer una representación mono-fusionada en términos de una señal de presión p(t) o una señal de presión transformada en tiempo-frecuencia P(k,n), en donde k denota un índice de frecuencia y n denota un índice de tiempo.
En modalidades, las primeras y segundas mediciones de dirección de onda, también como la medida de dirección de llegada fusionada pueden corresponder a cualquier cantidad direccional, por ejemplo como un vector, un ángulo, una dirección, etc. y pueden ser derivados de cualquier medida direccional que representa un componente de audio, por ejemplo un vector de intensidad, un vector de velocidad de partícula, etc. Las primeras y segundas medidas de campo de onda, también como la medida de campo de onda fusionada puede corresponder a cualquier cantidad física que describe un componente de audio, que puede ser de valor real o complejo, corresponder a una señal de presión, una amplitud o magnitud de la velocidad de partícula, volumen, etc. Además, las medidas pueden ser consideradas en el dominio de tiempo y/o frecuencia.
Las modalidades pueden estar basadas en la estimación de una representación de onda plana para las medidas de campo de onda de las representaciones de onda de las corrientes de entrada, lo que se puede llevar a cabo por el estimador 120 en la Figura la. En otras palabras, la medida de campo de onda puede ser modelada utilizando una representación de onda plana. En general, existen varias descripciones exhaustivas equivalentes (por ejemplo, completas) de una onda u ondas planas en general. En lo siguiente, una descripción matemática será introducida para calcular parámetros de difusividad y direcciones de llegadas o medidas de dirección para diferentes componentes . Aunque solamente unas pocas descripciones se. relacionan directamente con cantidades físicas, como por ejemplo presión, velocidad de partícula, etc., existen potencialmente un número infinito de diferentes maneras para describir representaciones de onda, de las cuales una será presentada como un ejemplo subsecuentemente, sin embargo no pretendiendo ser limitantes de ninguna manera a las modalidades de la presente invención.
Con el fin de detallar adicionalmente diferentes descripciones potenciales se consideran dos números reales a y b. La información contenida en a y b puede ser transferida al enviar c y d, cuando en donde O es una matriz de 2x2 conocida. El ejemplo considera solamente combinaciones lineales, en general cualquier combinación, esto es, también una combinación no lineal es concebible.
En lo siguiente, los escalares, son representados por letras minúsculas, a, b, c, mientras que los vectores de columna son representados por letras minúsculas en negritasa, b, c. El superíndice ( . )T denota la transpuesta, respectivamente, mientras que y (·)* denotan conjugación compleja. La notación de fasor complejo es distinguida del temporal. Por ejemplo, la presión p(t) que es un número real y en el cual una medida de campo de onda posible puede ser derivada, puede ser expresado por medio del fasor P, que es un número complejo y en del cual otra medida de campo de onda posible pude ser derivada, mediante p(t) = Re{PeJa* } 1 ' en donde Re{-} denota la parte real y ? = 2p[ es la frecuencia angular. Además, letras mayúsculas usadas para cantidades físicas representan fasores en lo siguiente. Para el siguiente ejemplo introductorio y para evitar confusión, por favor nótese que todas las cantidades con el subíndice "PW" considerados en lo siguiente se refieren a ondas planas.
Para una onda plana monocromática ideal, el vector de velocidad de partícula Upw puede ser indicado como en donde el vector unitario ed apunta hacia 1 dirección de propagación de la onda, por ejempl correspondiente a una medida de dirección. Se puede probar que ? = 0 en donde ía denota la intensidad active, p0 denota la densidad del aire, c denota la velocidad del sonido, E denota la energía de campo de sonido y ? denota la difusividad.
Es interesante notar que puesto que todos los componentes de ed son números reales, los componentes de UPW están todos en fase con Upw . La Figura Ib ilustra un Upw 1 ejemplar y VPW en el plano Gaussiano. Como se menciona, todos los componentes de Upw comparten la misma fase como Upw , es decir T. Sus magnitudes, por otra parte, están limitadas a Aun cuando múltiples fuentés de sonido están presentes, la presión y velocidad de partícula pueden todavía ser expresadas como una suma de componentes individuales . Sin pérdida de generalidad, el caso de dos fuentes de sonido puede ser ilustrad. En efecto, la extensión a números m¾s grandes de fuentes es directa.
Sean Pm y (2) las presiones que habrían sido registradas _ para la primera y la segunda fuente, respectivamente, por ejemplo que representa las primeras y i segundas medidas de campo de onda.
Similarmente, sea Um y U{2) los vectores de velocidad de partícula complejos. Dada la linealidad del fenómeno de propagación, cuando las fuentes juegan conjuntamente, la presión observada P y velocidad de partícula U son U = U(1)+U(2) Por consiguiente, las intensidades activas ASÍ, 1 = 1(O + i(2) +IRe u(2) + <2) Nótese que aparte de casos especiales, Cuando las dos, por ejemplo ondas planas están exactamente en fase (aunque viajando hacia direcciones diferentes) , p(2) =r.pm en donde ? es un número real. Se sigue que: y ia - (i+r)il1) + (i+1)il2)- y Cuando las ondas están en fase y viajando hacia la misma dirección pueden ser interpretadas claramente como una onda.
Para ?--\ y cualquier dirección, la presión se desvanece y puede no haber ningún flujo de energía, i. e., 7J = ° - Cuando las ondas están perfectamente en cuadratura, entonces u2)=yv*2ux(,) u 2)=y "2u » Uz(2)= -e^2Uz(1) en donde ? es un número real. A partir de esto, se sigue que: y Utilizando las ecuaciones anteriores, se puede probar fácilmente que para una onda plana, cada una de las cantidades ejemplares U, P y ed o P y la pueden representar una descripción equivalente y exhaustiva, también como todas las otras cantidades físicas pueden ser derivadas de ellas, esto es cualquier combinación de ellas puede en algunas modalidades ser usada en lugar de la medida de campo de onda o medida de dirección de onda. Por ejemplo, en modalidades las dos - norma del vector de intensidad activa puede ser usada como medida de campo de onda.
Una descripción mínima puede ser identificada para efectuar la fusión como se especifica por las modalidades. Los vectores de presión y velocidad de partícula para la onda del i-ésimo plano pueden ser expresados como p ( _ \p ( L i¿Pw ( u (O Poc en donde ZP(,) representa la fase de . Expresando el vector de intensidad fusionado, esto es la medida de campo de onda fusionado y la medida de dirección de llegada fusionada, con respecto a estas variables, se sigue que: _Llp(')l2ea)+_J_lp(2) 2 oc 2Poc Nótese que los primeros dos sumandos son y I . La ecuación puede ser simplificada adicionalmente á: •cos(zP(1)-ZP(2))+ 1 ) (2 ) »(D • eos 2p0c Introduciendo produce Esta ecuación muestra que la información requerida para calcular Ia puede ser reducida a e , |z.P(2) -ZP(1)| . En otras palabras, la representación para cada por ejemplo onda plana puede ser reducida a la amplitud de la onda y la dirección de propagación. Además, la diferencia de fase relativa entre las ondas puede ser considerada también. Cuando más de dos ondas van a ser fusionadas, las diferencias de fase entre todos los pares de ondas pueden ser consideradas. Claramente, existen varias otras descripciones que contienen la misma información. Por ejemplo, conociendo los vectores de intensidad y la diferencia de fases seria equivalente.
En general, una descripción energética de las ondas planas puede no ser suficiente para llevar a cabo la fusión correctamente. La fusión podría ser aproximada al suponer las , ondas en cuadratura. Un descriptor exhaustivos de las ondas (esto es, todas las cantidades físicas de la onda son conocidas) pueden ser suficiente para la fusión, sin embargo puede no ser necesaria en todas las modalidades. En modalidades que llevan a cabo la fusión correcta, la amplitud de cada onda, la dirección de propagación de cada onda y la diferencia de fase relativa entre cada par de ondas a ser fusionadas pueden ser tomados en cuenta.
Los medios 110 para determinación pueden ser aptos para proveer y/o el procesador 130 puede ser apto para el procesamiento de las primeras y segundas direcciones de llegada y/o para proveer la medida de dirección de llegada fusionada en términos de un vector unitario eD0A{k,ri) , con eD0A(k,n) = -e¡(k,n) y ß( ) = ||?,( )|| · ß/( ) con que denota el vector de velocidad de partícula u{t) = ^tx {í uy {t uz {t) t transformado en tiempo-frecuencia . En otras palabras, sea p(t) y u(t) = el vector de presión y velocidad de partícula, respectivamente, para un punto en el espacio específico, en donde [J denota la transpuesta. Estas señales pueden ser transformadas a un dominio de tiempo-frecuencia por medio de un banco de filtros apropiado, por ejemplo, una transformada de Fourier de tiempo corto (STFT) como se sugiere por ejemplo por V. Pulkki y C. Faller, Directional audio coding: Filterbank and STFT-based ,design, en la 120a. Convención de la AES, Mayo 20-23, 2006, Paris, Francia, Mayo 2006.
Sea P(k,n) y U(k, n) Uz{k, n que denoten las señales transformadas, en donde k y n son índices para la frecuencia (o banda de frecuencia) y tiempo, respectivamente. El vector de intensidad activo la (k, n) puede ser definido como en donde (·)* denota la conjugación compleja y Re{-} extrae la parte real. El vector de intensidad activo expresa el flujo de energía neto que caracteriza el campo de sonido, por ejemplo cf. F.J.' Fahy, Sound Intensity, Essex: Elsevier Science Publishers Ltd., 1989, y así ser usado como una medida de campo de onda.
Sea c que denote la velocidad de sonido en el medio considerado y E la energía de campo de sonido definida por F.J.
Fahy en donde || calcula la 2 - norma. En lo siguiente, el contenido de una corriente de DirAC mono será detallado.
La corriente de DirAC mono puede consistir de una de la señal mono p(t) y de información lateral. Esta información lateral puede comprender la dirección de llegada dependiente del tipo-frecuencia y una medida dependiente del tiempo-frecuencia por la difusividad. La primera puede ser denotada con eD0A(k,n) que es un vector unitario que apunta hacia la dirección de la cual el sonido llega. La última, difusividad, es denotada por (k,n) En modalidades, los medios 110 y/o el procesador 130 pueden ser aptos para proveer/procesar las primeras y segundas DOA y/o la DOA fusionada en términos de un vector unitarioeD(:)/1(Á:,rt) . La dirección de llegada puede ser obtenida como : en donde el vector unitario e,(k,ri) indica la dirección hacia la cual la intensidad activa apunta, es decir Ia(A.*H|Jfl(*.")||- «/<*.«> Alternativamente, en modalidades, la DOA puede ser expresada en términos de azimut y ángulos de elevación en un sistema de coordenadas esférico. Por ejemplo, si f y i son azimut y ángulos de elevación, respectivamente, entonces eDOi(k-n = [cos(^)¦ «>s(5).sen( ?)- COs( )ssen( 3)f (4) En modalidades, los medios 110 para determinación y/o el procesador 130 pueden ser aptos para proveer/procesar los primeros y segundos parámetros de difusividad y/o el parámetro de difusividad fusionado por (k,n) de manera dependiente del tiempo-frecuencia . Los medios 110 para determinación pueden ser aptos para proveer los primeros y/o segundos parámetros de difusividad ylo el procesador 130 puede ser apto para proveer un parámetro de difusividad fusionado en términos de: c <E(k, ri >. en donde <¦>, indica un promedio temporal.
Existen diferentes estrategias para obtener P(k,n) y U(k,n) en la práctica. Una posibilidad es utilizar un micrófono de formato B, que entrega cuatro señales, es decir w(t) , x(t), y(t) y z(t). La primera, w(t) , corresponde a la lectura de presión de un micrófono omni-direccional . Las últimas tres son lecturas de presión de micrófonos que tienen patrones de captación de figura de ocho dirigidos hacia los tres ejes de un sistema de coordenadas Cartesiano. Estas señales son también proporcionales a la velocidad de partícula. Por consiguiente, en algunas modalidades: P(k,n)= W(ksn) U c,ri) =—j—[X(k:n Y(k,«).. Z(k,n)]T <6> n en donde W(k,n) , X(k,n), Y(k,n) y Z(k,n) son las señales de formato B transformadas. Nótese que el factor en ecuación (6) viene de la convención usada en la definición de las señales de formato B, cf. Michael Gerzon, Surround sound psychoacoustics , In WirelessWorld, volumen 80, páginas 483-486, Diciembre 1974.
Alternativamente, P(k,n) y U(k,n) pueden ser estimados por medio de un arreglo de micrófono omni-direccional como se sugiere en J. Merimaa, Applications of a 3-D microphonearray, en la 112a. Convención de la AES, Documento 5501, Munich, Mayo 2002. Las etapas de procesamiento descritas anteriormente son ilustradas en la Figura 2.
La Figura 2 muestra un codificador de DirAC 200, que es apto para calcular un canal de audio mono e información lateral a partir de señales de entrada apropiadas, por ejemplo,-señales de micrófono. En otras palabras, la Figura 2 ilustra un codificador de DirAC 200 para determinar la difusividad y dirección de llegada de señales de micrófono apropiadas . La Figura 2 muestra un codificador de DirAC 200 que comprende una unidad de estimación de P/U 210. La unidad de estimación de P/U recibe las señales del micrófono como información de entrada, en las cuales la estimación de P/U está basada. Puesto que toda la información está disponible, la estimación de P/U es directa de acuerdo con las ecuaciones anteriores . Una etapa de análisis energética 220 permite la estimación de la dirección de llegada y el parámetro de difusividad de la corriente fusionada.
En modalidades, otras corrientes de audio que las corrientes de audio de DirAC mono pueden ser fusionadas . En otras palabras, en algunas modalidades, los medios 110 para determinación pueden ser aptos para convertir cualquier otra corriente de audio a las primeras y segundas corrientes de audio, por ejemplo datos de audio estéreo o surround. En caso de que las modalidades fusionen corrientes de DirAC diferentes a mono, pueden distinguir entre diferentes casos. Si la corriente de DirAC transporta señales de formato B como señales de audio, entonces los vectores de velocidad de partícula serían conocidos y una fusión sería trivial, como será detallado subsecuentemente. Cuando la corriente de DirAC porta señales de audio diferentes que las señales de formato. B o una señal omni-direccional mono, los medios 110 para determinación pueden ser aptos para convertir a dos corrientes de DirAC mono primero y una modalidad puede luego fusionar las corrientes convertidas de conformidad. En modalidades, las primeras y las segundas corrientes de audio espaciales pueden así representar corrientes de DirAC mono convertidas .
Modalidades pueden combinar los canales de audio disponibles para aproximar un patrón de captación omni-direccional. Por ejemplo, en el caso de una corriente de DirAC estéreo, esto puede ser obtenido al sumar el canal izquierdo L y el canal derecho R.
En lo siguiente, se ilustrará la física en un campo generado por múltiples fuentes sonido. Cuando múltiples fuentes de sonido están presentes, todavía es posible expresar la presión y velocidad de partícula como una suma de componentes individuales .
Sea P{,)(k,n) y U{,)(k,n) la presión y velocidad de partícula que habrían sido registradas para la i-ésima fuente, si se fuera a reproducir sola. Suponiendo linealidad del fenómeno de propagación, cuando N fuentes se reproducen conjuntamente, la presión P(k,n) y velocidad de partícula U(k,n) observadas son y ¿-i Las ecuaciones previas muestran que si tanto la presión como la velocidad de partícula fueran conocidas, la obtención de la corriente de DirAC mono fusionada sería directa. Tal situación es ilustrada en la Figura 3 . La Figura 3 ilustra una modalidad que efectúa la fusión optimizada o posiblemente ideal de múltiples corrientes de audio. La Figura 3 supone que todos los vectores de presión y velocidad de partícula son conocidos. Desafortunadamente, tal fusión, trivial no es posible para corriente de DirAC mono, para las cuales la velocidad de partícula U{,)(k,n) no es conocida.
La Figura 3 ilustra N corrientes, para cada una de las cuales se lleva a cabo una estimación de P/U en los bloques 301 , 302 -30N . El resultado de los bloques de estimación de P/U y las representaciones de tiempo-frecuencia correspondientes de las señales de y U{,)(k,n) individuales, que pueden luego ser combinadas de acuerdo con las ecuaciones anteriores ( 7 ) y ( 8 ) , ilustrada por los dos adicionadores 310 y 311 . Una vez que el P(k,n) y U(k,n) combinados son obtenidos, una etapa de análisis energético 320 puede determinar el parámetro de difusividad (k,n) y la dirección de llegada eDOA(k,n) de una manera directa.
La Figura 4 ilustra una modalidad para fusionar múltiples corrientes de DirAC mono. De acuerdo con la descripción anterior, N corrientes van a ser fusionadas por la modalidad de un aparato 100 ilustrado en la Figura 4. Como se ilustra en la Figura 4, cada una de las N corrientes de entrada pueden ser representadas por . una representación mono dependiente del tiempo-frecuencia P(,)k,n) , una dirección de llegada e^(0A{k,n) y W(X)(k,ri) , en donde (1) representa la primera corriente. Una representación de acuerdo es también ilustrada en la Figura 4 para la corriente fusionada.
La tarea de fusión de dos o más corrientes de DirAC mono es ilustrada en la Figura 4. Ya que la presión P(k,n) puede ser obtenida simplemente al sumar las cantidades conocidas como en (7) , el problema de fusión de dos o más corrientes de DirAC mono se reduce a la determinación de. eD0A(k,n) y ? (k,n) . La siguiente modalidad está basada en la suposición de que el campo de cada fuente consiste de una onda plana sumada a un campo difuso. Por consiguiente, la presión y velocidad de partícula para la i-ésima fuente pueden ser expresadas como UiHk.n) = l w(k,n)+ Zr$T(k ), (!O) en donde los subíndices "PW" y "diff" denotan la onda plana y el campo difuso, respectivamente. En lo siguiente se presente una modalidad que tiene una estrategia para estimar la dirección de llegada del sonido y la difusividad. Las etapas de procesamiento correspondientes son ilustradas en la Figura 5.
La Figura 5 ilustra otro aparato 500 para fusionar múltiples corrientes de audio que serán detalladas en lo siguiente. La Figura 5 ejemplifica el procesamiento de la primera corriente de audio espacial en términos de una primera representación mono , una primera dirección de llegada e^OA y un primer parámetro de difusividad ?(?) . De acuerdo con la Figura 5, la primera corriente de audio espacial es descompuesta a una representación de onda plana aproximada (k, n) también como la segunda corriente de audio espacial y potencialmente otras corrientes de audio espacial de acuerdo a Ppw(k, n)...Ppw{k, ri) . Los valores estimativos son indicados por el sombrero encima de la representación de fórmula respectiva.
El estimador 120 puede ser apto para estimar una pluralidad de N representaciones de onda y representaciones de campo difusas P¿^ k,n) como aproximaciones P(, (k, n) para una pluralidad de N corrientes de audio espaciales, con l=i=N . El procesador 130 puede ser apto para determinar la dirección de llegada fusionada en base a un valor estimativo, t? p , con I. n) = iRe^^nJ-Ú^(*,«)} . P^(k,n) = a0(k,n)-P{i)(k,n) Ü<£(k, ) =--L (*,«)· »)·e»,(*,») conlos números reales a('){k,n), (,){k,n) e {0...l} .
La Figura 5 muestra en líneas de puntos el estimador 120 y el procesador 130. En la modalidad mostrada en la Figura 5, los medios 110 para determinación no están presentes, ya que se supone que la primera corriente de audio espacial y la segunda corriente de audio espacial, también como potencialmente otras corrientes de audio son provistas en la representación . de DirAC mono, esto es las representaciones mono, la DOA y los parámetros de difusividad son solo separados de la corriente. Como se muestra en la Figura 5, el procesador 130 puede ser apto para determinar la DOA fusionada en base a un valor estimativo.
La dirección de llegada del sonido, esto es, medidas de dirección, puede ser estimada por éD0A(k,n) , que es calculado como en donde Ia(k,ri) es el valor estimativo para intensidad activa para la corriente fusionada. Puede obtenido como sigue: Ia{k.n) = ÍRe{p?Jf(Lrí) - ¾ (^n)} en donde Ppw(k,ri) y ÜPW(k,n) son los valores estimativos de la presión y velocidad de partícula correspondientes a las ondas planas, por ejemplo como medidas de campo de onda, solamente. Pueden ser definidos como: .v PFW(krí) =?P®(k,n) (13) í-l *) n) = )¦ P&(k,ri) e }c,n) (16) Los factores a(,)(k,n) y (,(k,n) son en general dependientes de la frecuencia y pueden exhibir una proporcionalidad inversa a la difusividad ?(,)(?:,«) . En efecto, cuando la difusividad ?(,)(£,/?) es cercana a 0, se puede suponer que ' el campo está compuesto de una sola onda plana, de tal manera que y (17) Ü (k,n) x~I*Hkn)-e&A(k,n) (18) P<f lo que implica que a{i)(k,n) = /3{,)(k,n) = 1.
En lo siguiente, dos modalidades serán presentadas que determinan a(,)(k,n) y fi{' k,ri) . Primero, se consideran consideraciones energéticas de los campos difusos. En modalidades, el estimador 120 puede ser apto para determinar los factores a{,)(k,n) y fi )(k,ri) en base a los campos difusos. Algunas modalidades pueden suponer que el campo está compuesto de una onda plana sumada a un campo difuso ideal. En modalidades, el estimador 120 puede ser apto para determinar y P(i)(k,ri) de acuerdo con al establecer la densidad del aire p0 igual a 1 y abandonar la dependencia de la funcionalidad (k,n) por simplicidad, se puede escribir: En modalidades, el procesador 130 puede ser apto para aproximar los campos difusos en base a sus propiedades estadísticas, una aproximación puede ser obtenida por: <tól >t +2c2 < ¾>í¾<| « >t (21) en donde Ediff es la energía del campo difuso. Las modalidades pueden así estimar: Para calcular valores estimativos instantáneos (esto es, para cada mosaico de tiempo-frecuencia) , las modalidades pueden remover los operadores de esperanza, obteniendo: Al aprovechar la suposición de onda plana, el valor estimativo para la velocidad de partícula puede ser derivado directamente En modalidades, un modelado simplificado de la velocidad de partícula puede, ser aplicado. En modalidades, un modelado simplificado de la velocidad de partícula puede ser aplicado. En modalidades, el estimador 120 puede ser apto para aproximar los factores a(i)(k,n) y en base al modelado simplificado. Algunas modalidades pueden utilizar una solución alternativa, que puede ser derivada al introducir modelado simplificado de la velocidad de partícula: Una derivación es dada en lo siguiente. La velocidad de partícula U(,)(k,n) es modelada como factor P{,)(k,ri) puede ser obtenido al sustituir (26) en (5) , conduciendo a Para obtener valores instantáneos, los operadores esperanza pueden ser removidos y resueltos para obteniendo Nótese que este procedimiento conduce a direcciones de llegada de sonido similares como la dada en (19), sin embargo, con una complejidad computacional más baja dado que el factor {,)(k,n) es la unidad.
En modalidades, el procesador 130 puede ser apto para estimar la difusividad, esto es, para estimar el parámetro de difusividad fusionado. La difusividad de la corriente fusionada, denotado por W{k,n) , puede ser estimado directamente de las cantidades conocidas *F(,)(k,ri) y P(,)(k,ri) y del valor estimativo Ia(k,ri) obtenido como se describe anteriormente. Siguiendo las consideraciones energéticas introducidas en la sección previa, modalidades pueden usar el estimador: (29) El conocimiento de ¾. y ? permite el uso de las representaciones alternativas dadas en la ecuación (b) en algunas modalidades. En efecto, la dirección de la onda puede ser obtenida por Ú mientras que Pp' da la amplitud y fase de la i-ésima onda. De la última, todas las diferencias de fase A{,'j) pueden ser calculadas fácilmente. Los parámetros de DirAC de la corriente fusionada pueden luego ser calculados al sustituir la ecuación (b) en la ecuación (a), (3) y (5).
La Figura 6 ilustra una modalidad de un método para fusionar dos o más corrientes de DirAC. Las modalidades pueden proveer un método para fusionar una primera corriente de audio espacial con una segunda corriente de audio espacial para obtener una corriente de audio fusionada. En modalidades, el método puede comprender la etapa de determinar para la primera corriente de audio espacial una primera representación de audio y una primera DOA, también como para la segunda corriente de audio espacial una segunda representación de audio y una segunda DOA. En modalidades, las representaciones, de DirAC de las corrientes de audio espacial pueden estar disponibles, la etapa de determinación lee luego simplemente las representaciones de conformidad a partir de las corrientes de audio. En la Figura 6, se supone que las dos o más corrientes de DirAC pueden ser simplemente obtenidas de las corrientes de audio de acuerdo con la etapa 610.
En modalidades, el método puede comprender una etapa de estimar una primera representación de onda que comprende una primera medida de dirección de onda y una primera medida de campo de onda para la primera corriente de audio espacial en base a la primera representación de audio, la primera DOA y opcionalmente un primer parámetro de difusividad. Así, el método puede comprender una etapa de estimar una segunda representación de onda que comprende una segunda medida de dirección de onda y una segunda medida de campo de onda para la segunda corriente de* audio espacial basada en la segunda representación de audio, la segunda DOA y opcionalmente un segundo parámetro de difusividad.
El método puede comprender además una etapa de combinar la primera representación de onda y la segunda representación de onda para obtener una representación de onda fusionada que comprende una medida de campo fusionada y una medida de DOA fusionada y una etapa de combinar la primera representación de audio y la segunda representación de audio para obtener una representación de audio fusionada, que es indicada en la Figura 6 por la etapa 620 para canales de audio mono. La modalidad ilustrada en la Figura 6 comprende una etapa de calcular cc(í)(k,n) y fi{i)(k,n)de acuerdo con (19) y (25) permitiendo la estimación de los vectores de presión y velocidad de partícula para las representaciones de onda plana en la etapa 640. En otras palabras, las etapas de estimar las primeras y segundas representaciones de onda plana se llevan a cabo en las etapas 630 y 640 en la Figura 6 en términos de representaciones de onda plana.
La etapa de combinar las primeras y segundas representaciones de onda plana se lleva a cabo en la etapa 650, en donde los vectores de presión y velocidad de partícula de todas las corrientes pueden ser sumados .
• En la etapa 660 de la Figura 6, el cálculo del vector de intensidad activa y estimación de la DOA se lleva a cabo en base a la representación de onda plana fusionada.
Modalidades pueden comprender una etapa de combinar o procesar la medida de campo fusionada, las primeras y segundas representaciones mono y los primeros y segundos parámetros de difusividad para obtener un parámetro de difusividad fusionado. En la modalidad ilustrada en la Figura 6, el cálculo de la difusividad se lleva a cabo en la etapa 670, por ejemplo en base a (29) .
Modalidades pueden proveer la ventaja de que la fusión de las corrientes de audio espacial se puede efectuar con alta calidad y complejidad moderada.
Dependiendo de ciertos requerimientos de implementación de los métodos de la invención, los métodos de la invención pueden ser implementados en elementos físicos o elementos de programación. La implementación puede ser efectuada utilizando un medio de almacenamiento digital y particularmente una memoria instantánea, un disco, un DVD o un CD que tiene señales de control que se pueden leer electrónicamente almacenadas en el mismo, que. cooperan con un sistema de computadora programable, de tal manera que los métodos de la invención son efectuados. En general, la presente invención es, por consiguiente un código de programa de computadora con un código de programa almacenado en un portador que se puede leer por la máquina, el código de programa es operativo para efectuar los métodos de la invención cuando el programa de computadora se ejecuta en una computadora o procesador. En otras palabras, los métodos de la invención son, por consiguiente un programa de computadora que tiene un código de programa para efectuar por lo menos uno de los métodos de la invención, cuando el programa de computadora se ejecuta en una computadora .

Claims (15)

REIVINDICACIONES
1. Un aparato para fusionar una primera corriente de audio espacial con una segunda corriente de audio espacial para obtener una corriente de audio fusionada, caracterizado porgue comprende : un estimador para estimar una primera representación de onda que comprende una primera medida de dirección de onda que es una cantidad direccional de una primera onda y una primera medida de campo de onda que es relacionada con la magnitud de la primera onda para la primera corriente de audio espacial, la primera corriente de audio espacial tiene una primera representación de audio que comprende una medida para una presión de una magnitud de una primera señal de audio y una primera dirección de llegada y para estimar una segunda representación de onda que comprende una segunda medida de dirección de onda que es una cantidad direccional de una segunda onda y una segunda medida de campo de onda que está relacionada con la magnitud de la segunda onda para la segunda corriente de audio espacial, la segunda corriente de audio espacial tiene una segunda representación de audio que comprende una medida para la presión o magnitud de una segunda señal de audio y una segunda dirección de llegada y un procesador para procesar la primera representación de onda y la segunda representación de onda para obtener una representación de onda fusionada que comprende una medida de campo de onda fusionado, una medida de dirección de llegada fusionada y un parámetro de difusividad fusionado, en donde el parámetro de difusividad fusionado está basado en la medida de campo de onda fusionado, la primera representación de audio y la segunda representación de audio y en donde la medida de campo de onda fusionado está basada en la primera medida de campo de onda, la segunda medida de campo de onda, la primera medida de dirección de onda y la segunda medida de dirección de onda y - en donde el procesador está configurado para procesar la primera representación de audio y la segunda representación de audio para obtener una representación de audio fusionada y para proveer la corriente de audio fusionada que comprende la representación de audio fusionada, la medida de dirección de llegada fusionada y el parámetro de difusividad fusionado.
2. El aparato de conformidad con la reivindicación 1, caracterizado porque el estimador es apto para estimar la primera medida de campo de onda en términos de una primera amplitud de campo de onda y para estimar la segunda medida de campo de onda en términos de una segunda amplitud de campo de onda y para estimar una diferencia de fase entre la primera medida de campo de onda y la segunda medida de campo de onda y/o para estimar una primera fase de campo de onda y una segunda fase de campo de onda.
3. El aparato de conformidad con cualquiera de las reivindicaciones 1 a 2, caracterizado porque comprende medios para determinar, para la primera corriente de audio espacial la primera representación de audio, la primera medida de dirección de llegada y el primer parámetro de difusividad y para determinar para la segunda corriente de audio espacial la segunda representación de audio, la segunda medida de dirección de llegada y el segundo parámetro de difusividad.
4. El aparato de conformidad con cualquiera de las reivindicaciones 1 a 3, caracterizado porque el procesador es apto para determinar la representación de audio fusionada, la medida de dirección de llegada fusionada y el parámetro de difusividad fusionado de una manera dependiente del tiempo-frecuencia.
5. El aparato de conformidad con cualquiera de las reivindicaciones 1 a 4, caracterizado porque el estimador es apto para estimar las primeras y/o segundas representaciones de onda y en donde el procesador es apto para proveer la representación de audio fusionado en términos de una señal de presión o una señal de presión transformada en el tiempo-frecuencia P(k,n), en donde k denota un índice de frecuencia y n denota un índice de tiempo.
6. El aparato de conformidad con la reivindicación 5, caracterizado porque el procesador es apto para procesar las primeras y segundas medidas de direcciones de llegada y/o para proveer la med'ida de dirección de llegada fusionada en términos de un vector unitario eD0A{k,ri) , con /ß(?.») = |/ß(?.» ||-«/(?1») en donde P(k,n) es la presión de la corriente fusionada y denota el vector de velocidad de p transformado en tiempo-frecuencia de la corriente de audio fusionada, en donde Re{-} denota la parte real .
7. El aparato de conformidad con la reivindicación 6, caracterizado porque el procesador es apto para el procesamiento de los primeros y/o segundos parámetros de difusividad y/o para proveer el parámetro de difusividad fusionada en términos de yU(k,n)=ux(k,n Uy(k,n),Uz(k,n)Y denota un vector de velocidad de partícula u(t) (t transformado en tiempo-frecuencia, Re{-} denota la parte real, P(k,n) denota la señal de presión p(t) transformada en el tiempo-frecuencia, en donde k denota un índice de frecuencia y n denota un índice de tiempo, c es la velocidad del sonido y E(k,n) denota la energía de campo de sonido, en donde p0 denota la densidad del aire y <·>, denota un promedio temporal.
8. El aparato de conformidad con la reivindicación 7, caracterizado porque el estimador es apto para estimar una pluralidad de N representaciones de onda Pp^(k,n) y representaciones de campo difuso como aproximaciones para una pluralidad de N corrientes de audio espacial Pj¡^(k,n) , con l=i=N , y en donde el procesador es apto para determinar la medida de dirección de llegada fusionada en base a un valor estimativo, la(k,n) = Re{ppw(k, n) - Vm(k, n)} PPW (k,n) =?P^ (k, n) Pj$ (k, n) = a(í) (k, rí) (k, ri) tJPAk> n) =?tJ (k, n) %{k, n) fi i)(k,n)-P 5(H0 k,n)-e 0) A(k,n) con los números reales (')(k,n)^(')(k,n) e {0...l} y U(k,n)=ux(k,n),Uy(k,n\Uz{k,n)[ que denotan un vector de velocidad de partícula u{t)=^iAt uy{tuAt) transformado en el tiempo-frecuencia, Re{-} denota la parte real, P(,)(k,n) denota una señal de presión transformada en tiempo-frecuencia , en donde k denota un índice de frecuencia y n denota un índice de tiempo, N el número de corrientes de audio espacial, c es la velocidad de sonido y p0 denota la densidad del aire.
9. El aparato' de conformidad con la reivindicación 8, caracterizado porque el estimador es apto para determinar a(,)(k,n) y p(l(k,n) de acuerdo con a(i)(k,n) = (i(k,n)
10. El aparato de conformidad con la reivindicación caracterizado porque el procesador es apto para determinar y (í)(k,n) mediante a{i)(k,n) = \ 1-? (k,n)
11. El aparato de conformidad con cualquiera de las reivindicaciones 9 a 10, caracterizado porque el procesador es apto para, determinar el parámetro de difusividad fusionado mediante
12. El aparato de conformidad con la reivindicación 1, caracterizado porque la primera corriente de audio espacial comprende adicionalmente un primer parámetro de difusividad (?(1)), en donde la segunda corriente de audio espacial comprende adicionalmente un segundo parámetro de difusividad y en donde el procesador está configurado para calcular el parámetro de difusividad fusionado basado adicionalmente en el primer parámetro de difusividad (?(1)) y el segundo parámetro de difusividad ( ?(2) ) .
13. un método para fusionar una primera corriente de audio espacial con una segunda corriente de audio espacial para obtener una corriente de audio fusionada, caracterizado porgue comprende : estimar una primera representación de onda que comprende una primera medida de dirección de onda ( V(pW ) que es una cantidad direccional de una primera onda y una primera medida de campo de onda ( P ¡, ) que es relacionada con una magnitud de la primera onda para la primera corriente de audio espacial, la primera corriente de audio espacial tiene una primera representación de audio que comprende una medida para la presión o magnitud de una primera señal de audio (P(1)) y una primera dirección de llegada (e^); estimar una segunda representación de onda que comprende una segunda medida de dirección de onda ( ) que es una cantidad direccional de una segunda onda y una segunda medida de campo de onda ( P ) que es relacionada con la magnitud de la segunda onda para la segunda corriente de audio espacial, -la segunda corriente de audio espacial tiene una segunda representación de audio que comprende una medida para la presión o magnitud de una segunda señal de audio (P<2)) y una segunda dirección de llegada ( ) ; procesar la primera representación de onda y la segunda representación de onda para obtener la representación de onda fusionada que tiene una medida de campo de onda fusionado ( „), una medida de dirección de llegada fusionada ( éD0A ) y un parámetro de difusividad fusionado ( ? ) , en donde el parámetro de difusividad fusionado ( ? ) está basado en la medida de campo de onda fusionada ( Ia ) , la primera representación de audio (P(1)) y la segunda representación de audio (P(2>), y en donde la medida de campo de onda fusionada ( Ia ) está basada en la primera medida de campo de onda, la segunda medida de campo de onda, la primera medida de dirección de onda ( 1] ) , y la segunda medida de dirección de onda ( ܾ, ) ; procesar la primera representación de audio (P<:L)) y la segunda representación de audio (P(2)) para obtener una representación de audio fusionada (P) y proveer la corriente de audio fusionada que comprende la representación de audio fusionada (P) , una medida de dirección de llegada fusionada ( éD0A ) y el parámetro de difusividad fusionado (?).
14. El método de conformidad con la reivindicación 14, caracterizado porque la primera corriente de audio espacial comprende adicionalmente un primer parámetro de difusividad, en donde la segunda corriente de audio espacial comprende adicionalmente un segundo parámetro de difusividad y en donde el parámetro de difusividad fusionado (?) es calculado en la etapa de procesamiento adicionalmente basado en el primer parámetro de difusividad ( ?(1) ) y el segundo parámetro de difusividad ( ?(2) ) ·
15. Un programa de computadora que tiene un código de programa para efectuar el método de conformidad con la reivindicación 14, caracterizado porque el código de programa se ejecuta en una computadora o un procesador.
MX2011001653A 2008-08-13 2009-08-11 Aparato para fusionar corrientes de audio espacial. MX2011001653A (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US8852008P 2008-08-13 2008-08-13
EP09001397A EP2154910A1 (en) 2008-08-13 2009-02-02 Apparatus for merging spatial audio streams
PCT/EP2009/005827 WO2010017966A1 (en) 2008-08-13 2009-08-11 Apparatus for merging spatial audio streams

Publications (1)

Publication Number Publication Date
MX2011001653A true MX2011001653A (es) 2011-03-02

Family

ID=40605771

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2011001653A MX2011001653A (es) 2008-08-13 2009-08-11 Aparato para fusionar corrientes de audio espacial.

Country Status (15)

Country Link
US (1) US8712059B2 (es)
EP (2) EP2154910A1 (es)
JP (1) JP5490118B2 (es)
KR (1) KR101235543B1 (es)
CN (1) CN102138342B (es)
AT (1) ATE546964T1 (es)
AU (1) AU2009281355B2 (es)
BR (1) BRPI0912453B1 (es)
CA (1) CA2734096C (es)
ES (1) ES2382986T3 (es)
HK (1) HK1157986A1 (es)
MX (1) MX2011001653A (es)
PL (1) PL2324645T3 (es)
RU (1) RU2504918C2 (es)
WO (1) WO2010017966A1 (es)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101415026B1 (ko) * 2007-11-19 2014-07-04 삼성전자주식회사 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치
EP2375410B1 (en) 2010-03-29 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. A spatial audio processor and a method for providing spatial parameters based on an acoustic input signal
US9313599B2 (en) 2010-11-19 2016-04-12 Nokia Technologies Oy Apparatus and method for multi-channel signal playback
US9456289B2 (en) * 2010-11-19 2016-09-27 Nokia Technologies Oy Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof
US9055371B2 (en) 2010-11-19 2015-06-09 Nokia Technologies Oy Controllable playback system offering hierarchical playback options
TWI489450B (zh) 2010-12-03 2015-06-21 Fraunhofer Ges Forschung 用以產生音訊輸出信號或資料串流之裝置及方法、和相關聯之系統、電腦可讀媒體與電腦程式
EP2600343A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
WO2013150341A1 (en) 2012-04-05 2013-10-10 Nokia Corporation Flexible spatial audio capture apparatus
BR112015005456B1 (pt) 2012-09-12 2022-03-29 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Aparelho e método para fornecer capacidades melhoradas de downmix guiado para áudio 3d
EP2733965A1 (en) * 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of parametric audio streams and apparatus and method for generating a plurality of loudspeaker signals
US10635383B2 (en) 2013-04-04 2020-04-28 Nokia Technologies Oy Visual audio processing apparatus
EP2997573A4 (en) 2013-05-17 2017-01-18 Nokia Technologies OY Spatial object oriented audio apparatus
EP2824661A1 (en) 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals
US9693009B2 (en) 2014-09-12 2017-06-27 International Business Machines Corporation Sound source selection for aural interest
CN106716525B (zh) * 2014-09-25 2020-10-23 杜比实验室特许公司 下混音频信号中的声音对象插入
BR112018007276A2 (pt) 2016-03-15 2018-10-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. aparelho, método ou programa de computador para gerar uma descrição de campo de som
GB2549532A (en) * 2016-04-22 2017-10-25 Nokia Technologies Oy Merging audio signals with spatial metadata
WO2018064296A1 (en) 2016-09-29 2018-04-05 Dolby Laboratories Licensing Corporation Method, systems and apparatus for determining audio representation(s) of one or more audio sources
CA3076703C (en) 2017-10-04 2024-01-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding
CN111656442A (zh) * 2017-11-17 2020-09-11 弗劳恩霍夫应用研究促进协会 使用量化和熵编码来编码或解码定向音频编码参数的装置和方法
GB2574238A (en) * 2018-05-31 2019-12-04 Nokia Technologies Oy Spatial audio parameter merging
US11699451B2 (en) * 2018-07-02 2023-07-11 Dolby Laboratories Licensing Corporation Methods and devices for encoding and/or decoding immersive audio signals
CN110517703B (zh) 2019-08-15 2021-12-07 北京小米移动软件有限公司 一种声音采集方法、装置及介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7231054B1 (en) * 1999-09-24 2007-06-12 Creative Technology Ltd Method and apparatus for three-dimensional audio display
US6351733B1 (en) 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
FR2847376B1 (fr) * 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
PL378021A1 (pl) 2002-12-28 2006-02-20 Samsung Electronics Co., Ltd. Sposób i urządzenie do mieszania strumieni akustycznych i nośnik pamięciowy informacji
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
KR101079066B1 (ko) * 2004-03-01 2011-11-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 멀티채널 오디오 코딩
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
KR20060122693A (ko) * 2005-05-26 2006-11-30 엘지전자 주식회사 다운믹스된 오디오 신호에 공간 정보 비트스트림을삽입하는 프레임 크기 조절방법
EP1952177A2 (en) * 2005-09-21 2008-08-06 Koninklijke Philips Electronics N.V. Ultrasound imaging system with voice activated controls usiong remotely positioned microphone
JP2007269127A (ja) 2006-03-30 2007-10-18 Mitsubishi Fuso Truck & Bus Corp 後車軸の傾斜角調整構造および調整方法
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
ATE542216T1 (de) * 2006-07-07 2012-02-15 Fraunhofer Ges Forschung Vorrichtung und verfahren zum kombinieren mehrerer parametrisch kodierter audioquellen
EP2595150A3 (en) * 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Apparatus for coding multi-object audio signals
US8213623B2 (en) * 2007-01-12 2012-07-03 Illusonic Gmbh Method to generate an output audio signal from two or more input audio signals
JP2008184666A (ja) 2007-01-30 2008-08-14 Phyzchemix Corp 成膜装置
EP2128856A4 (en) * 2007-10-16 2011-11-02 Panasonic Corp DEVICE FOR PRODUCING A STREAM AND DECODING DEVICE AND CORRESPONDING METHOD

Also Published As

Publication number Publication date
AU2009281355B2 (en) 2014-01-16
KR101235543B1 (ko) 2013-02-21
CA2734096C (en) 2015-12-01
CN102138342B (zh) 2014-03-12
RU2011106582A (ru) 2012-08-27
BRPI0912453A2 (pt) 2019-11-19
KR20110055622A (ko) 2011-05-25
BRPI0912453B1 (pt) 2020-12-01
CN102138342A (zh) 2011-07-27
WO2010017966A1 (en) 2010-02-18
PL2324645T3 (pl) 2012-07-31
EP2154910A1 (en) 2010-02-17
JP5490118B2 (ja) 2014-05-14
ATE546964T1 (de) 2012-03-15
US8712059B2 (en) 2014-04-29
JP2011530720A (ja) 2011-12-22
ES2382986T3 (es) 2012-06-15
US20110216908A1 (en) 2011-09-08
CA2734096A1 (en) 2010-02-18
RU2504918C2 (ru) 2014-01-20
HK1157986A1 (en) 2012-07-06
EP2324645B1 (en) 2012-02-22
AU2009281355A1 (en) 2010-02-18
EP2324645A1 (en) 2011-05-25

Similar Documents

Publication Publication Date Title
MX2011001653A (es) Aparato para fusionar corrientes de audio espacial.
AU2009281367B2 (en) An apparatus for determining a converted spatial audio signal
CN103811010B (zh) 产生增强下混频信号的装置和产生增强下混频信号的方法
KR101195980B1 (ko) 다채널 오디오 포맷들 사이의 변환 장치 및 방법
CA2673624C (en) Apparatus and method for multi-channel parameter transformation
AU2021225242B2 (en) Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
CN108476366A (zh) 用于参数化双耳输出系统和方法的头部跟踪
RU2722391C2 (ru) Система и способ слежения за движением головы для получения параметрического бинаурального выходного сигнала

Legal Events

Date Code Title Description
FG Grant or registration