MX2012008119A - Aparato y metodo para extraer una señal directa/de ambiente de una señal de mezcla descendente e informacion parametrica espacial. - Google Patents

Aparato y metodo para extraer una señal directa/de ambiente de una señal de mezcla descendente e informacion parametrica espacial.

Info

Publication number
MX2012008119A
MX2012008119A MX2012008119A MX2012008119A MX2012008119A MX 2012008119 A MX2012008119 A MX 2012008119A MX 2012008119 A MX2012008119 A MX 2012008119A MX 2012008119 A MX2012008119 A MX 2012008119A MX 2012008119 A MX2012008119 A MX 2012008119A
Authority
MX
Mexico
Prior art keywords
signal
direct
environment
ambient
downmix
Prior art date
Application number
MX2012008119A
Other languages
English (en)
Inventor
Juergen Herre
Jan Plogsties
Bernhard Neugebauer
Juha Vilkamo
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of MX2012008119A publication Critical patent/MX2012008119A/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Se describe un aparato para extraer una señal directa/del ambiente de una señal de mezcla descendente e información paramétrica espacial, la señal de mezcla descendente y la información paramétrica espacial representan una señal de audio de múltiples canales que tiene más canales que la señal de mezcla descendente, donde la información paramétrica espacial comprende relaciones intercanal de la señal de audio de múltiples canales El aparato comprende un estimador de la señal directa/del ambiente y un extractor de la señal directa/del ambiente. El estimador de una señal directa/ambiente se configura para estimar una información de nivel de una porción directa y/o una porción del ambiente de la señal de audio de múltiples canales basada en la información paramétrica espacial. El extractor de una señal directa/del ambiente está configurado para extraer una porción de la señal directa y/o una porción de la señal del ambiente desde una señal de mezcla descendente basada en la información de nivel estimada de la porción directa o de la porción del ambiente.

Description

APARATO Y MÉTODO PARA EXTRAER UNA SEÑAL DIRECTA/DE AMBIENTE DE UNA SEÑAL DE MEZCLA DESCENDENTE E INFORMACIÓN PARAMÉTRICA ESPACIAL Memoria La presente invención se refiere al procesamiento de señales de audio y, en particular, a un aparato y a un método para extraer una señal directa/del ambiente de una señal de mezcla descendente (downmix) e información paramétrica espacial. Otras formas de realización de la presente invención se refieren a la utilización de la separación de la señal directa/del ambiente para mejorar la reproducción binaural de señales de audio. Del mismo modo, otras formas de realización se refieren a la reproducción binaural de sonido de múltiples canales, donde el audio de múltiples canales significa audio que tiene dos o más canales. El contenido de audio típico que tiene sonido de múltiples canales son las bandas de sonido de las películas y las grabaciones musicales en múltiples canales.
El sistema auditivo espacial del ser humano tiénde a procesar el sonido mayormente en dos partes. Por un lado, se trata de una parte localizable o directa y, por el otro, una parte no localizable o del ambiente. Hay muchas aplicaciones de procesamiento de audio, tal como la reproducción de sonido binaural y mezcla ascendente (upmixing) de múltiples canales, donde resulta conveniente tener acceso a estos dos componentes de audio.
En la técnica, se conocen métodos de separación de la señal directa/del ambiente, según se describe en "Primar/— ambient signal decomposition and vector— based localization for spatial audio codm' g and enhancement", Goodwin, Jot, IEEE Intl. Conf. On Acoustics, Speech and Signal proc, abril de 2007; "Correlation— based ambience extraction from stereo recordings", Merimaa, Goodwin, Jot, AES 123rd Convention, New York, 2007; "Múltiple— loudspeaker playback of stereo signáis", C. Faller, Journal of the AES, octubre de 2007; "Primary—ambient decomposition of stereo audio signáis using a complex similarity index"; Goodwin y colaboradores, publicación número: US2009/0198356 A1 , agosto de 2009; solicitud de patente que lleva el título "Met od to Genérate Multi— Channel Audio Signal from Stereo Signáis", inventores: Christof Faller, agentes: FISH & RICHARDSON P.C., Cesionaria: LG ELECTRONICS, INC., origen: Minneapolis, N, Estados Unidos de Norteamérica, Clase IPC8: AH04R500FI, Clase USPC: 381 1 ; y "Ambience géneration for stereo signáis", Avendano y colaboradores, fecha de emisión: 28 de julio de 2009, número de solicitud 10/163.158, depositada el 4 de junio de 2002, los cuales pueden utilizarse para varias aplicaciones. Lo algoritmos de separación de la señal directa— del ambiente más avanzados se basan en la comparación de señales intercanales de sonido estéreo en bandas de frecuencia.
Igualmente, en "Binaural 3—D Audio Rendering Based on Spatial Audio Scene Coding", Goodwin, Jot, AES 23rd Convention, New York 2007, también se trata el tema de reproducción binaural con extracción del ambiente. Del mismo modo, se hace referencia a la extracción del ambiente en relación con la reproducción binaural en J. Usher y J. Benesty, "Enhancement of spatial sound quality: a new reverberation— extraction audio upmixer," IEEE Trans. Audio, Speech, Language Processing, volumen 15, páginas 2141— 2150, septiembre de 2007. Este último trabajo se centra en la extracción del ambiente en grabaciones con micrófono en estéreo, filtrado adaptativo en canales cruzados con criterio de mínimos cuadrados promediados . del componente directo en cada canal. Típicamente, los codificadores— decodificadores de audio espacial, por ejemplo MPEG Surround, constan de una corriente de audio de uno o dos canales en combinación con información lateral espacial, que extiende el audio en varios canales, tal como se describe en ISO/IEC 23003— 1 — MPEG Surround; y en Breebaart, J., Herré, J., Villemoes, L, Jin, C, Kjorling, K., Plogsties, J., Koppens, J. (2006). "Multi—channel goes mobile: MPEG Surround binaural rendering". Proc. 29th AES conference, Seúl, Corea.
Sin embargo, las tecnologías de codificación de audio paramétricas modernas, tales como MPEG Surround (MPS, por sus siglas en inglés) y estéreo paramétrico (PS, por sus siglas en inglés) sólo proporcionan un número reducido de canales de mezcla descendente de audio— en algunos casos sólo uno— junto con información lateral espacial adicional. La comparación entre los canales de entrada "originales" sólo puede hacerse después de la primera decodificación del sonido en el formato de salida previsto.
Por lo tanto, se requiere un concepto para extraer una porción de la señal directa o una porción de la señal del ambiente desde una señal de mezcla descendente e información paramétrica espacial. Sin embargo, no existen soluciones para la extracción de la señal directa/del ambiente usando la información lateral paramétrica.
Por lo tanto, constituye un objeto de la presente invención proporcionar un concepto para extraer una porción de la señal directa o una porción de la señal del ambiente de una señal de mezcla descendente mediante el uso de información paramétrica espacial.
Este objeto se logra con un aparato según la reivindicación 1 , un método según la reivindicación 15 o un programa de computación según la reivindicación 16.
La idea básica que subyace la presente invención es que la extracción de la señal directa/del ambiente que se mencionó puede lograrse cuando se estima un nivel de información de una porción directa o una porción del ambiente de una señal de audio de múltiples canales según la información paramétrica espacial y una porción de la señal directa o una porción de la señal de ambiente se extrae de una señal de mezcla descendente basada en la información de nivel estimada. Aquí, la señal de mezcla descendente y la información paramétrica espacial representan la señal de audio de canales múltiples que tiene más canales que la señal de mezcla descendente. Esta medida permite una extracción de la señal directa y/o del ambiente de una señal de mezcla descendente que tiene uno o más canales de entrada usando la información paramétrica lateral espacial.
Según una forma de realización de la presente invención, un aparato para extraer una señal directa/del ambiente de una señal de mezcla descendente e información paramétrica espacial comprende un estimador de una señal directa/del ambiente y un extractor de una señal directa/del ambiente. La señal de mezcla descendente y la información paramétrica espacial representan una señal de audio de canales múltiples que tiene más canales que la señal de mezcla descendente. Del mismo modo, la información paramétrica espacial comprende relacionas intercanales de la señal de audio de múltiples canales. El estimador de una señal directa/ambiente se configura para estimar una información de nivel de una porción directa o una porción del ambiente de la señal de audio de múltiples canales basada en la información paramétrica espacial. El extractor de una señal directa/del ambiente está configurado para extraer una porción de la señal directa o una porción de la señal del ambiente desde una señal de mezcla descendente basada en la información de nivel estimada de la porción directa o de la porción del ambiente.
Según otra forma de realización de la presente invención, el aparato para extraer una señal directa/del ambiente de una señal de mezcla descendente e información paramétrica espacial también comprende un dispositivo que genera sonido directo binaural, un dispositivo que genera sonido del ambiente binaural y un combinador. El dispositivo que genera sonido directo binaural está configurado para procesar la porción de la señal directa a fin de obtener una primera señal de salida binaural. El dispositivo que genera sonido del ambiente binaural está configurado para procesar la porción de la señal del ambiente a fin de obtener una segunda señal de salida binaural. El combinador está configurado para combinar las señales de salida binaural primera y segunda a fin de obtener una señal de salida binaural combinada. Por lo tanto, se puede proporcionar una reproducción binaural de una señal de audio, donde la porción de la señal directa y la porción de la señal del ambiente de la señal de audio se procesan por separado.
A continuación, se explican las formas de realización de la presente invención con referencia a los dibujos adjuntos, en los cuales: La Figura 1 muestra un diagrama de bloques de una forma de realización de un aparato para extraer una señal directa/del ambiente de una señal de mezcla descendente e información paramétrica espacial que representa una señal de audio de múltiples canales; La Figura 2 muestra un diagrama de bloques de una forma dé realización de un aparato para extraer una señal directa/del ambiente de una señal de mezcla descendente mono e información paramétrica espacial que representa una señal de audio estéreo paramétrica; La Figura 3a. muestra una ilustración esquemática de la descomposición espectral de una señal de audio de múltiples canales según una forma de realización de la presente invención; La Figura 3b muestra una ilustración esquemática para calcular las relaciones intercanales de una señal de audio de múltiples canales basada en la descomposición espectral de la Figura 3a; La Figura 4 muestra un diagrama de bloques de una forma de realización de un extractor de señal directa/del ambiente mezclado descendente (downmixing) de la información de nivel estimada.
La Figura 5 muestra un diagrama de bloques de otra forma de realización de un extractor de señal directa/del ambiente aplicando parámetros de ganancia a una señal de mezcla descendente; La Figura 6 muestra un diagrama de bloques de otra forma de realización de un extractor de señal directa/del ambiente basada en una solución LMS con mezcla cruzada de canales; La Figura 7a muestra un diagrama de bloques de una forma de realización de un estimador de señal directa/del ambiente usando una fórmula de estimación del ambiente en estéreo; La Figura 7b muestra un gráfico de un ejemplo de proporción de energía directa a total comparada con coherencia intercanal; La Figura 8 muestra un diagrama de bloques de un sistema de codificador/decodificador según una forma de realización de la presente invención; La Figura 9a muestra un diagrama de bloques de las generalidades de la producción de un sonido directo binaural según una forma de realización de la presente invención; La Figura 9b muestra un diagrama de bloques de los detalles de la producción del sonido directo binaural de la Figura 9a; La Figura 10a muestra un diagrama de bloques de las generalidades de la producción de un sonido del ambiente binaural según una forma de realización de la presente invención; La Figura 10b muestra un diagrama de bloques de los detalles de la producción de sonido del ambiente binaural de la producción de sonido del ambiente binaural de la Figura 10a; La Figura 11 muestra un diagrama de bloques conceptual de una forma de realización de reproducción binaural de una señal de audio de múltiples canales; La Figura 12 muestra un diagrama de bloques general de una forma de realización de una extracción de señal directa/del ambiente que incluye la reproducción binaural; La Figura 13a muestra un diagrama de bloques de una forma de realización de un aparato para extraer una señal directa/del ambiente de una señal de mezcla descendente mono en un dominio de banco de filtros; La Figura 13b muestra un diagrama de bloques de una forma de realización de un bloque de extracción de la señal directa/del ambiente de la Figura 13a; y La Figura 14 muestra una ilustración esquemática de un ejemplo de un esquema de decodificación MEPG Surround según otra forma de realización de la presente invención.
La Figura 1 muestra un diagrama de bloques de una forma de realización de un aparato 100 para extraer una señal directa/de ambiente 125— 1 , 125— 2 de una señal de mezcla descendente 115 e información paramétrica espacial 105. Tal como se muestra en la Figura 1 , la señal de mezcla descendente 115 y la información paramétrica espacial 105 representan una señal de audio de múltiples canales 101 que tiene más canales Ch ... ChN que la señal de mezcla descendente 115. La información paramétrica espacial 105 puede comprender relacionas intercanales de la señal de audio de múltiples canales 101. En particular, el aparato 100 comprende un estimador de la señal directa/del ambiente 110 y un extractor de señal directa/del ambiente 120. El estimador de señal directa/del ambiente 110 puede configurarse para estimar una información de nivel 113 de una porción directa o una porción del ambiente de la señal de audio de múltiples canales 101 basada en la información paramétrica espacial 105. El extractor directo/del ambiente 120 puede estar configurado para extraer una porción de la señal directa 125— 1 o una porción de la señal del ambiente 125— 2 desde la señal de mezcla descendente 115 basada en la información de nivel estimada 113 de la porción directa o de la porción del ambiente.
La Figura 2 muestra un diagrama de bloques de una forma de realización de un aparato 200 para extraer una señal directa/del ambiente 125— 1 , 125— 2 de una señal de mezcla descendente mono 215 e información paramétrica espacial 105 que representa una señal de audio estéreo paramétrica 201. El aparato 200 de la Figura 2 esencialmente comprende los mismos bloques que el aparato 100 de la Figura 1. Por lo tanto, los bloques idénticos que tienen implementaciones y/o funciones similares se identifican con las mismas referencias numéricas. Del mismo moco, la señal de audio estéreo paramétrica 201 de la Figura 2 puede corresponder a la señal de audio de múltiples canales de la Figura 1 , y la señal de mezcla descendente mono 215 de la Figura 2 puede corresponder a la señal de mezcla descendente 115 de la Figura 1. En la forma de realización de la Figura 2, la señal de mezcla descendente mono 215 y la información paramétrica espacial 105 representan la señal de audio estéreo paramétrica 201. La señal de audio estéreo paramétrica puede comprender un canal izquierdo que lleva a indicación "L" y un canal derecho que lleva la indicación "R". Aquí, el extractor de señal directa/ de ambiente 120 está configurado para extraer la porción de la señal directa 125— 1 o la porción de la señal del ambiente 125— 2 de la señal de mezcla descendente mono 215 según la información de nivel estimada 113, que se puede derivar de la información paramétrica espacial 105 a través del uso del estimador de la señal directa/del ambiente 110.
En la práctica, los parámetros espaciales (información paramétrica espacial 105) de la forma de realización de la Figura 1 o de la Figura 2, respectivamente, se refieren especialmente a MPEG Surround (MPS) o información lateral paramétrica estéreo (PS). Estas dos tecnologías son métodos avanzados de codificación de audio envolvente o estéreo de baja tasa de bits. Con referencia a la Figura 2, PS proporciona un canal de audio de mezcla descendente con parámetros espaciales y, con referencia a la Figura 1 , MPS proporciona uno, dos o más canales de audio de mezcla descendente con parámetros espaciales.
Específicamente, las formas de realización de la Figura 1 y de la Figura 2 muestran claramente que la información lateral paramétrica espacial 105 puede usarse fácil y rápidamente en el campo de la extracción de señales directas y/o del ambiente desde una señal (es decir, señal de mezcla descendente 115, 215) que tiene uno o más canales de entrada.
La estimación de niveles de señales directas y/o del ambiente (información de nivel 113) se basa en la información sobre relaciones intercanal o diferencias intercanal, tales como las diferencias y/o la correlación de nivel. Estos valores pueden calcularse a partir de una señal estéreo o de múltiples canales. La Figura 3a muestra una ilustración esquemática de la descomposición espectral 300 de una señal de audio de múltiples canales (Ch-|...ChN) que se habrá de usar para calcular las relaciones intercanal de las respectivas Chi ... ChN. Tal como se puede apreciar a partir de la Figura 3a, una descomposición espectral de un canal inspeccionado Ch¡ de la señal de audio de múltiples canales (Chi ... ChN) o una combinación lineal R del resto de los canales, respectivamente, comprende una pluralidad 301 de subbandas, donde cada subbanda 303 de la pluralidad 301 de subbandas se extiende a lo largo del eje horizontal (eje del tiempo 310) que tiene valores de subbanda 305, tal como lo indican los recuadros pequeños de la grilla de tiempo/frecuencia. Del mismo moco, las subbandas 303 están ubicadas consecutivamente a lo largo del eje vertical (eje de frecuencia 320) correspondiente a diferentes regiones de frecuencia de un banco de filtros. En la Figura 3a, un respectivo mosaico de tiempo/frecuencia X" k o X/" se indica con una línea punteada. Así, el índice i denota el canal Ch¡ y R y la combinación lineal del resto de los canales, mientras que los índices n y k corresponden a ciertos intervalos de tiempo del banco de filtros 307 y las subbandas del banco de filtros 303. Según estos mosaicos de tiempo/frecuencia X"'k y X/" , por ejemplo ubicados en el mismo punto de tiempo/frecuencia (t0, fo) con respecto a los ejes de tiempo/frecuencia 310, 320, relaciones intercanales 335, tales como las coherencias intercanales (ICC¡) o las diferencias del nivel de canales (CLD¡) del canal inspeccionado Ch¡, se puede calculara en le paso 330, tal como se muestra en la Figura 3b. Aquí, el cálculo de las relaciones intercanal ICC¡ y CLD¡ puede realizarse usando las siguientes relaciones: donde Ch¡ es el canal inspeccionado y R la combinación lineal de los canales remanentes, mientras que <...> denota un promedio de tiempo. Un ejemplo de la combinación lineal R de los canales restantes es su suma normalizada por energía. Del mismo modo, la diferencia de nivel de canal (CLDj) es, típicamente, un valor en decibeles del parámetro <r..
Con referencia a las ecuaciones citadas previamente, la diferencia del nivel de canal (CLD¡) o parámetro s(. puede corresponder a un nivel P¡ del canal Ch¡ normalizado en un nivel PR de la combinación lineal R del resto de los canales. Aquí, los niveles de P¡ o PR pueden derivarse del parámetro de diferencia de nivel intercanal ICLD¡ del canal Ch¡ y una combinación lineal ICLDR de los parámetros de diferencia de nivel intercanal ICLDj 0? ¡) del resto de los canales.
Aquí, ICLD¡ e ICLDj pueden relacionarse con un canal de referencia Chref, respectivamente. En otras formas de realización, los parámetros de diferencia de nivel intercanal ICLD¡ e ICLDj también pueden relacionarse con cualquier otro canal de la señal de audio de múltiples canales (Chi ...CIIN) que es el canal de referencia Chref. En definitiva, esto lleva al mismo resultado para la diferencia de nivel de canal (CLD¡) o el parámetro s,..
Según otras formas de realización, las relaciones intercanal 335 de la Figura 3b también pueden derivarse operando en diferentes o en todos los pares Ch¡, Chj de canales de entrada de la señal de audio de múltiples canales (Chi ... CIIN). En este caso, los parámetros de coherencia intercanal calculados en pares ICC¡,j o la diferencia del nivel del canal (CLD¡j) o parámetros a ¡ (o ICLD¡j) pueden obtenerse, los índices (i, j) denotan un cierto . par de canales Ch¡ y Chj, respectivamente.
La Figura 4 muestra un diagrama de bloques de una forma de realización 400 de un extractor de señal directa/del ambiente 420, que incluye mezclado descendente de la información de nivel estimada 113. La forma de realización de la Figura 4, esencialmente, comprende los mismos bloques que la forma de realización de la Figura 1. Por lo tanto, los bloques idénticos que tienen implementaciones y/o funciones similares se identifican con las mismas referencias numéricas. Sin embargo, el extractor de señal directa/del ambiente 420 de la Figura 4, que puede corresponder al extractor de la señal directa/del ambiente 120 de la Figura 1 , está configurado para la mezcla de estéreo a mono de la información de nivel estimada 113 de la porción directa o de la porción del ambiente de la señal de audio de múltiples canales para obtener información de nivel mezclada de estéreo a mono de la porción directa o de la porción del ambiente y para extraer la porción de la señal directa 125— 1 o la porción de la señal del ambiente 125— 2 desde la señal de mezcla descendente 115 basada en la información de nivel mezclada de estéreo a mono. Tal como se muestra en la Figura 4, la información paramétrica espacial 105 puede, por ejemplo, ser derivada de una señal de audio de múltiples canales 101 (C†H ... ChN) de la Figura 1 y puede comprender las relacionase intercanales 335 de Chi ... ChN que se introducen en la Figura 3b. La información paramétrica espacial 105 de la Figura 4 también puede comprender la mezcla de estéreo a mono de la información 410 que se debe alimentar en el extractor de la señal directa/del ambiente 420. En ciertas formas de realización, la información de mezclado descendente puede caracterizar la mezcla de estéreo a mono de una señal de audio de múltiples canales original (por ejemplo, la señal de audio de múltiples canales 101 de la Figura 1 ) en la señal de mezcla descendente 115. Por ejemplo, la mezcla de estéreo a mono puede realizarse usando un mezclador descendente (downmixer) (que no se muestra) que funciona en cualquier dominio de codificación, tal como en un dominio de tiempo o en un dominio espectral.
Según otras formas de realización, el extractor de señal directa/del ambiente 420 también puede configurarse para realizar una mezcla de estéreo a mono de la información de nivel estimada 113 de la porción directa o de la porción del ambiente de la señal de audio de múltiples canales 101 , para lo cual se combina la información de nivel estimada de la porción directa con la suma coherente y la información de nivel estimada de la porción del ambiente con suma incoherente.
Cabe destacar que la información de nivel estimada puede representar niveles de energía o niveles de potencia de la porción directa o de la porción del ambiente, respectivamente.
En particular, el mezclado descendente de las energías (es decir, la información de nivel 113) de la parte directa/del ambiente puede realizarse asumiendo la incoherencia total o la coherencia total entre los canales. Las dos fórmulas que se pueden aplicar en el caso de la mezcla de estéreo a mono basada en sumas incoherentes o coherentes, respectivamente, son las siguientes: Para señales incoherentes, la energía con mezcla de estéreo a mono o la información de nivel con mezcla de estéreo a mono puede calcularse con Para señales coherentes, la energía con mezcla de estéreo a mono o la información de nivel con mezcla de estéreo a mono puede calcularse con Aquí g es la ganancia de mezcla descendente, que puede obtenerse a partir de la información de mezclado descendente, mientras que E(Ch¡) denota la energía de la porción directa/del ambiente de un canal Ch¡ de la señal de audio de múltiples canales. Como ejemplo típico de mezclado descendente incoherente, en caso de mezclar canales 5.1 en dos, la energía de la mezcla descendente izquierdo puede ser: C' L _ DMX ~ ^ Lefl ^ ^ Lefl _ surround v" J ^ Center La Figura 5 muestra otra forma de realización de un extractor de señal directa/del ambiente 520 aplicando parámetros de ganancia go, gA a una señal de mezcla descendente 115. El extractor directo/del ambiente 520 de la Figura 5 puede corresponder al extractor de señal directa/del ambiente 420 de la Figura 4. Primero, la información de nivel estimada dé una porción directa 545— 1 o una porción del ambiente 545— 2 puede recibirse desde un estimador de señal directa/del ambiente, según ya describió. La información de nivel recibida 545— 1 , 542— 1 puede combinarse/mezclarse en el paso 550 a fin de obtener información de nivel mezclada de la porción directa 555— 1 o la porción del ambiente 555— 2, respectivamente. Luego, en un paso 560, se pueden derivar los parámetros de ganancia gD 565— 1 o gA 565— 2 desde la información de nivel remezclada 555— 1 , 555— 2 para la porción directa o la porción del ambiente, respectivamente. Por último, el extractor de señal directa/del ambiente 520 puede usarse para aplicar los parámetros de ganancia derivados 565— 1, 565— 2 a la señal de mezcla descendente115 (paso 570), de modo que se obtenga la porción de señal directa 125— 1 o la señal del ambiente 125— 2.
Aquí, cabe destacarse que en las formas de realización de las Figuras 1 ; 4; 5, la señal de mezcla descendente 115 puede consistir de una pluralidad de canales de mezcla descendente (Chi...ChM) que se encuentran presentes en las entradas de los extractores de la señal directa/del ambiente 120; 420; 520, respectivamente.
En otras formas de realización, el extractor de señal directa/del ambiente 520 está configurado para determinar una proporción de energía directa a total (DTT) o ambiente a total (ATT) de la información del nivel mezclada 555— 1 , 555— 2 de la porción directa o de la porción del ambiente y el uso como el parámetro de ganancia 565— 1 , 565— 2 de los parámetros de extracción según la proporción de energía DTT o de ATT.
También en otras formas de realización, el extractor de señal directa/del ambiente 520 está configurado para multiplicar la señal de mezcla descendente 115 con un primer parámetro de extracción sqrt (DTT) para obtener la porción de señal directa 125— 1 y con un segundo parámetro de extracción sqrt (ATT) para obtener la porción de la señal del ambiente 125— 2. Aquí, la señal de mezcla descendente 115 puede corresponder a la señal de mezcla descendente mono 215, tal como se muestra en la forma de realización de la Figura 2 ("caso de mezcla descendente mono").
En el caso de mezcla descendente mono, la extracción del ambiente puede hacerse aplicando sqrt(ATT) y sqrt(DTT). Sin embargo, el mismo enfoque es válido también para las señales mezcla descendente de múltiples canales, en particular, aplicando sqrt(ATT¡) y sqrt(DTT¡) para cada canal Ch¡.
Según otras formas de realización, en caso de que la señal de mezcla descendente 115 comprenda una pluralidad de canales ("caso de mezcla descendente de múltiples canales"), el extractor de señal directa/del ambiente 520 puede configurarse . para aplicar una primera pluralidad de parámetros de extracción, por ejemplo sqrt(DTT¡), a la señal de mezcla descendente 115 a fin de obtener la porción de señal directa 125— 1 y una segunda pluralidad de los parámetros de extracción, por ejemplo sqrt(ATT¡), a la señal de mezcla descendente 115 para obtener la porción de señal del ambiente 125— 2. Aquí, las pluralidades primera y segunda de parámetros de extracción pueden constituir una matriz diagonal.
En general, el extractor de señal directa/del ambiente 120; 420; 520 también puede configurarse para extraer la porción de señal directa 125— 1 o la porción de la señal del ambiente 125— 2 aplicando una matriz de extracción cuadrática M por M a la señal de mezcla descendente 115, donde un tamaño (M) de la matriz de extracción cuadrática M por corresponde al número (M) de los canales de mezcla descendente (Chi...C iM).
Por lo tanto, la aplicación de la extracción del ambiente puede describirse aplicando una matriz de extracción cuadrática M por M, donde M es el número de canales de mezcla descendente (Chi...ChM). Esto puede incluir todas las formas posibles de manipular la señal de entrada para obtener la salida directa/del ambiente, incluyendo el enfoque relativamente simple basado en los parámetros sqrt(ATT¡) y sqrt(DTT¡) que representan los principales elementos de una matriz de extracción cuadrática M por M que está configurada como una matriz diagonal, o un enfoque de mezclado cruzado (crossmixing) de LMS como una matriz integral. A continuación se describe ésta última. Aquí cabe destacar que el enfoque antedicho de aplicar la matriz de extracción M por M cubre cualquier número de canales, incluido uno.
Según otras formas de realización, la matriz de extracción puede no ser necesariamente una matriz cuadrática del tamaño de matriz M por M, porque podemos tener un menor número de canales de salida. Por lo tanto, la matriz de extracción puede tener un número reducido de líneas. Un ejemplo de ello sería extraer una señal directa simple en lugar de M.
No es necesario tomar siempre todos los canales mezcla descendente M como la entrada correspondiente a tener M columnas de la matriz de extracción. Esto, en particular, puede ser pertinente para aplicaciones donde no se requiere tener todos los canales como entradas.
La Figura 6 muestra el diagrama de bloques de otra forma de realización 600 de un extractor de señal directa/del ambiente 620 basada en una solución LMS (criterio de mínimos cuadrados promediados) con mezclado cruzado de canales. El extractor de señal directa/del ambiente 620 de la Figura 6 puede corresponder al extractor de señal directa/del ambiente 120 de la Figura 1. Por lo tanto, en la forma de realización de la Figura 6, los bloques idénticos que tienen implementaciones y/o funciones similares a la forma de realización de la Figura 1 se denotan con las mismas referencias numéricas. Sin embargo, la señal de mezcla descendente 615 de la Figura 6, que puede corresponder a la señal de mezcla descendente 115 de la Figura 1 , puede comprender una pluralidad de canales de mezcla descendente Chi...ChM, donde el número de canales de mezcla descendente (M) es menor que el de los canales Ch-|...ChN (N) de la señal de audio de múltiples canales 101 , es decir, M < N. Específicamente, el extractor de señal directa/del ambiente 620 está configurado para extraer la porción de la señal directa 125— 1 o la porción de la señal del ambiente 125— 2 a través de una solución de mínimos cuadrados promediados (LMS, por sus siglas en inglés) que no requiere niveles de ambiente iguales. Dicha solución de LMS que no requiere niveles iguales de ambiente y que también se extiende a cualquier número de canales se consigna a continuación. La solución de LMS que se acaba de mencionar no es obligatoria, sino que representa una alternativa más precisa que la precedente.
Los símbolos usados en la solución LMS para las ponderaciones de mezclado cruzado para la extracción directa/del ambiente son: Ch canal i a ganancia del sonido directo en el canal i D y D parte directa del sonido y su estimado A y A parte del ambiente del canal i y su estimado p' = E[XX*] energía estimada de X expectativa E error de estimación de X X w ponderaciones de LMS de mezclado cruzado para el canal i en la parte directa Di w ponderaciones de LMS de mezclado cruzado para el canal n en e ambiente del canal i Ai,n En este contexto, también cabe destacar que la derivación de la solución de LMS puede basarse en la representación espectral de los respectivos canales de la señal de audio de múltiples canales, que significa que todo funciona en las bandas de frecuencia.
El modo de señal es dado por Chi = aiD+ A¡ En primer lugar, la derivación se ocupa de a) la parte directa y luego b) la parte del ambiente. Finalmente, se deriva la solución para las ponderaciones y se describe el método para una normalización de las ponderaciones. a) Parte directa La estimación de la ponderación de la parte directa es N N ¿ =?wáCA1 =?wA(flf + ^l) =1 El error de estimación se lee como Para tener la solución de LMS, necesitamos ¾ ortogonal respecto de las señales de entrada.
*- ° J , para todas las k En la forma de matriz, la relación precedente se lee de la siguiente manera: Aw=P (aiaiPD + PM) ta2PD a,aNPD V • axa2PD {a2a2PD + PA 2) a2 = a,aNPD (aNaNPD + PM) WÓN. b) Parte del ambiente Partimos del mismo modelo de señal y estimamos las ponderaciones a partir de El error de estimación es E. =Ai-Ai = A -?W ii(aiD + Ai) y la ortogonalidad L AI *j _ para todas las /( ?w ;. a„®??? _ w ya -.k , P.t = 0 , if i k En la forma de matriz, la relación precedente se lee de la siguiente manera AW =p {atatPD+PM) ata2PD apNPD a&?0 (a?a2?0 + ???) WA2.2 0 ?, ataNPQ Vo + PAN) W.
ANM Soluciones para las ponderaciones Las ponderaciones pueden resolverse invirtiendo la matriz A, que es idéntica en ambos cálculos: tanto de la parte directa como de a parte del ambiente. En caso de señales estéreo, la solución es: D\ ~ a a PDPAX + axa PDPA 2 + PA XPA2 div W IPQPAI + A I AU div W - = . IPDPAX 1.2 div donde div es el divisor ^^D^I + ^PDPA 2 + PA\PAI Normalización de las ponderaciones Las ponderaciones son para la solución de LMS, pero debido a que se deben conservar los niveles de energía, las ponderaciones se normalizan. Esto también hace innecesaria la división por el término div en las fórmulas precedentes. La normalización se produce al garantizar que las energías de los canales de señales directa y del ambiente sean PD y PA¡, donde / es el índice del canal.
Esto es directo, si se asume que conocemos las coherencias intercanal, los factores de mezclado y las energías de los canales. Por cuestiones de simplicidad, nos centramos en el caso de dos canales y especialmente en el par de ponderación ww y donde las ganancias producen el primer canal del ambiente de los canales de entrada primero y segundo. Los pasos son los siguientes: Paso 1 : calcular la energía de la señal de salida (donde la parte coherente se suma en toda la amplitud, y la parte incoherente en toda la energía) PM = ( J/ CH + sign(ICQWÁl lCC\ . P2 ) + (1 - |/ ^w], , + (l - |/«¾?2?¾ Paso 2: calcular el factor de ganancia de la normalización y aplicar el resultado a los factores de ponderación de mezclado cruzado WÁW V WÁ i- ^n e' Paso 'os va'ores absolutos y los operadores de signos para ICC se incluyen a fin de tomar en cuenta también el caso de que los canales de entrada sean negativamente coherentes. El resto de los factores de ponderación también se normalizan de la misma manera.
En particular, y con referencia a lo antedicho, el extractor de señal directa/del ambiente 620 puede configurarse para derivar la solución de LMS asumiendo un modelo de señal de múltiples canales estable, de modo que la solución de LMS no se restringa a una señal de mezcla descendente del canal estéreo.
La Figura 7a muestra un diagrama de bloques de una forma de realización 700 de un estimador de señal directa/del ambiente 710 que se basa en una fórmula de estimación del ambiente estéreo. El estimador de señal directa/del ambiente 710 de la Figura 7 puede corresponder al estimador de señal directa/del ambiente 110 de la Figura 1 . En particular, el estimador de la señal directa/del ambiente 710 de la Figura 7 está configurado para aplicar una fórmula de estimación del ambiente estéreo usando la información paramétrica espacial 105 para cada canal (Ch¡) de la señal de audio de múltiples canales 101 , donde la fórmula de estimación del ambiente estéreo puede representarse como una dependencia funcional.
DTT( = fDTr [s,. (Ch„R),ICC, (Ch„R)] , ATT; = \ -DTT¡ que muestra explícitamente una dependencia de la diferencia del nivel de canal (CLD¡) o parámetro o¡ y un parámetro de coherencia intercanal (ICC¡) del canal Ch¡. Tal como se indica en la Figura 7, la información paramétrica espacial 105 se alimenta en el estimador de la señal directa/del ambiente 710 y puede comprender los parámetros de relación intercanal ICC¡ y o¡ para cada canal Ch¡.
Después de aplicar esta fórmula de estimación del ambiente estéreo con el uso del estimador de señal directa/del ambiente 710, la proporción de energía directa a total (DTT¡) o ambiente a total (ATT¡), respectivamente, se obtendrá como su salida 715. Cabe destacar que la fórmula de estimación del ambiente estéreo indicada previamente que se usa para estimar las respectivas proporciones de energía DTT ó ATT no se basa en una condición de amiente igual.
En particular, la estimación de la proporción de señal directa/del ambiente puede realizarse porque la proporción (DTT) de la energía directa en un canal en comparación con la energía total de ese canal puede formularse de la siguiente manera: donde h es el canal inspeccionado y R es la combinación lineal del resto de los canales. O es el promedio de tiempo. Esta fórmula se aplica cuando se asume que el nivel del ambiente es igual en el canal y en la combinación lineal del resto de los canales, y su coherencia es cero.
La Figura 7b muestra un gráfico 750 de un ejemplo de una proporción de energía DTT (directa a total) 760 como una función del parámetro de coherencia intercanal ICC 770. En la forma de realización de la Figura 7b, la diferencia de nivel del canal (CLD) o parámetro s a modo de ejemplo se fija en 1 (s = 1 ), de modo que el nivel P (Ch¡) del canal Ch¡ y el nivel P(R) del resto de los canales será igual. En este caso, la proporción de energía DTT 760 será linealmente proporcional al parámetro ICC, según lo indica la línea recta 775 que se denota por DTT ~ ICC. En la Figura 7b puede apreciarse que en caso de que el ICC = 0, que puede corresponder a una relación intercanal totalmente incoherente, la proporción de energía DTT 760 será 0, lo que puede corresponder a una situación totalmente de ambiente (caso 'R- ). Sin embargo, un caso de ICC = 1 , que puede corresponder a una relación intercanal totalmente coherente, la proporción de energía DTT 760 puede ser 1 , lo cual puede corresponder a una situación totalmente directa (caso 'R2'). Por lo tanto, en el caso de R1f no hay esencialmente energía directa, mientras que en el caso R2, no hay esencialmente energía del ambiente en un canal con respecto a la energía total de ese canal.
La Figura 8 muestra un diagrama de bloques de un sistema de codificador/decodificador 800 según otras formas de realización de la presente invención; En el lado del sistema codificador/decodificador 800, se muestra una forma de realización del decodificador 820, que puede corresponder al aparato 100 de la Figura 1. Debido a la similitud de las formas de realización de las Figuras 1 y 8, los bloques idénticos que tienen implementaciones o funciones similares en estas formas de realización se denotan con las mismas referencias numéricas. Tal como se muestra en las formas de realización de la Figura 8, el extractor de señal directa/del ambiente 120 puede estar operativo en una señal de mezcla descendente 115 que tiene la pluralidad Chi ... C iM de los canales de mezcla descendente. El estimador de señal directa/del ambiente 110 de la Figura 8 también puede configurarse para recibir al menos dos canales de mezcla descendente 825 de la señal de mezcla descendente 815 (optativa), de modo que la información de nivel 113 de la porción directa o de la porción del ambiente de la señal de audio de múltiples canales 101 se estimará según la información paramétrica espacial 105 sobre, al menos, dos canales de mezcla descendente 825 recibidos. Finalmente, la porción de la señal directa 125— 1 o la porción de la señal del ambiente 125— 2 se obtendrán después de la extracción mediante el extractor de la señal directa/del ambiente 120.
En el lado del codificador del sistema codificador/decodificador 800, se muestra una forma de realización de un codificador 810, que puede comprender un mezclador descendente 815 para mezclar de estéreo a mono la señal de audio de múltiples canales (Ch-i ... ChN) en la señal de mezcla descendente 115 que tiene la pluralidad Chi ... ??½ de los canales de mezcla descendente, donde el número de canales se reduce de N a M. El mezclador descendente 825 también puede estar configurado para producir información paramétrica espacial 105 calculando las relaciones intercanal a partir de la señal de audio de múltiples canales 101. En el sistema codificador/decodificador 800 de la Figura 8, la señal de mezcla descendente 115 y la información paramétrica espacial 105 pueden transmitirse desde el codificador 810 al decodificador 820. Aquí, el codificador 810 puede derivar una señal codificada basada en la señal de mezcla descendente 115 y la información paramétrica espacial 105 para transmitir desde el lado del codificador al lado del decodificador. Sumado a ello, la información paramétrica espacial 105 se basa en información del canal de la señal de audio de múltiples canales 101.
Por otro lado, los parámetros de la relación intercanal o¡(Ch¡, R) y ICC¡(Ch¡, R) pueden calcularse entre el canal Ch¡ y la combinación lineal R del resto de los canales en el codificador 810 y transmitirse dentro de la señal codificada. El decodificador 820 puede, a su vez, recibir la señal codificada y ser operativo en los parámetros de la relación intercanal transmitidos a¡(Ch¡, R) e ICC¡(Ch¡, R).
Por otro lado, el codificador 810 también puede estar configurado para calcular los parámetros de coherencia intercanal ICC¡ j entre pares de diferentes canales (Ch¡, Chj) a ser transmitidos. En este caso, el decodificador 810 debe poder derivar los parámetros ICC¡(Ch¡, R) entre el canal Ch¡ y la combinación lineal R del resto de los canales de lo parámetros calculados en pares transmitidos ICC¡j(Ch¡, Chj), de modo que pueden ponerse en práctica las formas de realización correspondientes que se describieron previamente. Cabe destacar en este contexto que el decodificador 820 no puede reconstruir los parámetros ICC¡(CI R) a partir del conocimiento de la señal de mezcla descendente 115 solamente.
En ciertas formas de realización, los parámetros espaciales transmitidos no sólo son acerca de comparaciones de canales en pares.
Por ejemplo, el caso de MPS más típico es que hay dos canales de mezcla descendente. El primer conjunto de parámetros espaciales en la decodificación MPS forma tres canales de dos: central, izquierdo y derecho. El conjunto de parámetros que guía este mapeo se llama coeficiente de predicción central (CPC, por sus siglas en inglés) y un parámetro ICC que es específico de esta configuración de dos a tres.
El segundo conjunto de parámetros espaciales divide a cada uno en dos: los canales laterales en los correspondientes canales delantero y trasero, y el canal central en el canal central e izquierdo. El mapeo se refiere a los parámetros ICC y CLD introducidos anteriormente.
No es práctico hacer reglas de cálculo para todas las clases de configuraciones de mezclado descendente y todas las clases de parámetros espaciales. Sin embargo, es práctico seguir virtualmente los pasos de mezclado descendente. Como sabemos la manera en que los dos canales se transforman en tres, y los tres en seis, en definitiva encontramos una relación entrada— salida de la manera que dos canales de entrada se enrutan a seis salidas. Las salidas son sólo combinaciones lineales de los canales mezcla descendente, más las combinaciones lineales de sus versiones no correlacionadas. No es necesario decodificar efectivamente la señal de salida y medirla, pero como conocemos esta "matriz decodificante", podemos calcular con eficiencia y gracias a la información los parámetros ICC y CLD entre cualquier canal o combinación de canales en el dominio paramétrico.
Independientemente de la configuración de la señal de mezcla descendente y de múltiples canales, cada salida de la señal decodificada es una combinación lineal de las señales mezcla descendente más una combinación lineal de una versión decorrelacionada de cada una de ellas. dmx channels Ch_out¡ = (ak iCh_dmxk + bk iD{Ch _dmxk]) k=\ donde el operador DQ corresponde a un decorrelacionador, es decir, un proceso que hace un duplicado incoherente de la señal de entrada. Los factores a y b son conocidos, dado que derivan directamente de la información lateral paramétrica. Esto se debe a que, por definición, la información paramétrica es la guía para la manera en que el decodificador crea la salida de múltiples canales de la señales de mezcla descendente. La fórmula precedente puede simplificarse a dmx _ channels Ch_out¡ - ^ (okJCh _ dmxk ) + D¡ k=\ dado que todas las partes decorrelacionadas pueden combinarse para hacer una comparación de energía/coherencia. Se conoce la energía de D, dado que los factores b también se conocían en la primera fórmula.
Desde este punto, cabe destacar que podemos hacer cualquier clase de comparación de coherencia y energía entre lós canales de salida o entre las diferentes combinaciones lineales de los canales de salida. En caso de un ejemplo simple de dos canales de mezcla descendente, y un conjunto de canales de salida, entre los cuales, por ejemplo, los canales número 3 y 5 se comparan entre sí, la sigma se calcula de la siguiente manera: E Ch_out¡] ' 3,5 E[Ch_out¡] donde EQ es la expectativa (en la práctica: promedio) del operador. Ambos términos pueden formularse de la siguiente manera: E Ch_out ]= 2 = E[D ~\+?(al¡E[Ch_dmxk2 'fy- 2al ¡a2 I(E[Ch_dmxlCh_dmx2 ) Todos los parámetros indicados previamente son conocidos o mensurables a partir de las señales de mezcla descendente. Por definición, los términos cruzados E[Ch_dmx*D] eran cero y, por lo tanto, no están en la última hilera de la fórmula. Del mismo modo, la fórmula de coherencia es Nuevamente, dado que todas las partes de la fórmula precedente son una combinación lineal de las entradas más la señal decorrelacionada, la solución está fácilmente disponible.
En los ejemplos precedentes se compararon dos canales de salida, pero de la misma manera se puede hacer una comparación entre combinaciones lineales de los canales de salida, del mismo modo que con un proceso de ejemplo que se habrá de describir más adelante.
En una síntesis de las formas de realización previas, la técnica/el concepto que se presentaron pueden comprender los siguientes pasos: 1. Recuperar las relaciones intercanal (coherencia, nivel) de un conjunto "original" de canales que puede ser más alto que el número de canales de mezcla descendente. 2. Estimar las energías directa y del ambiente en este conjunto de canales "original". 3. Mezclar de estéreo a mono las energías directa y del ambiente de este conjunto de canales "original" en un número menor de canales. 4. Usar las energías mezcladas para extraer las señales directa y del ambiente, en los canales de mezcla descendente que se proporcionan aplicando factores de ganancia o una matriz de ganancia.
El uso de información lateral paramétrica espacial se explica y se sintetiza mejor en la forma de realización de la Figura 2. En la forma de realización de la Figura 2, tenemos una corriente estéreo paramétrica, que incluye un canal de audio simple e información lateral espacial acerca de las diferencias intercanal (coherencia, nivel) del sonido estéreo que representa. Ahora, dado que conocemos las diferencias intercanal, podemos aplicarles la fórmula de estimación del ambiente estéreo, y obtener las energías directa y del ambiente de los canales estéreo originales. Luego, podemos "mezclar de estéreo a mono" (downmix) las energías de los canales agregando las energías directas juntas (con suma coherente) y energías del ambiente (con suma incoherente) y derivar las proporciones de energía directa a total y ambiente a total del canal mezcla descendente simple.
Con referencia a la forma de realización de la Figura 2, la información paramétrica espacial esencialmente comprende coherencia intercanal (ICO., ICCR) y parámetros de diferencia de nivel de canal (CLDL, CLDR) que corresponden al canal izquierdo (L) y derecho (R) de la señal de audio estéreo paramétrica, respectivamente. Aquí, cabe destacarse que los parámetros de coherencia intercanal ICCL e ICCR son iguales (ICCL = ICCR), mientras que los parámetros de diferencia de nivel CLDL y CLDR se relacionan mediante CLDL =— CLDR. De manera correspondiente, dado que los parámetros de diferencia de nivel del canal CLDL y CLDR son, típicamente, valores en decibeles de los parámetros <JL y aR, respectivamente, los parámetros aL y aR para los canales izquierdo (L) y derecho (R) se relacionan mediante aL = 1/aR. Estos parámetros de diferencias intercanal puede utilizarse fácil y rápidamente para calcular las respectivas proporcionas de energía directa a total (DTTL, DTTR) y ambiente a total (ATTL, ATTR) para ambos canales (L, R) sobre la base de la fórmula de estimación del ambiente estéreo. En la fórmula de estimación del ambiente estéreo, las proporciones de energía directa a total y ambiente a total (DTTL, ATTL) del canal izquierdo (L) dependen de los parámetros de diferencia intercanal (CLDL, ICCL) para el canal L, mientras que las proporciones de energía directa a total y ambiente a total (DTTR, ATTR) del canal derecho (R) dependen de los parámetros de diferencia intercanal (CLDR, ICCR) para el canal derecho R. Sumado a ello, las energías (EL, ER) para ambos canales L, R, de la señal de audio estéreo paramétrica puede derivarse según los parámetros de diferencia de nivel del canal (CLDL, CLDR) para el canal izquierdo (L) y para el canal derecho (R), respectivamente. Aquí, la energía (EL) para el canal izquierdo L puede obtenerse aplicando el parámetro de diferencia del nivel de canal (CLDL) para el canal izquierdo L a la señal de mezcla descendente mono, mientras que la energía (ER) para el canal R puede obtenerse aplicando el parámetro de diferencia del nivel de canal (CLDR) para el canal derecho R a la señal de mezcla descendente mono. Luego, multiplicando las energías (EL, ER) para ambos canales (L, R) con los correspondientes parámetros basados en DTTL, DTTR y ATTL> ATTR - se pueden obtener las energías directa (EDL. EDR) y del ambiente (EAL, EAR) para ambos canales (L, R). Luego, las energías directas (EDL, EDR) para ambos canales (L, R) pueden combinarse/sumarse usando una regla de mezclado descendente coherente para obtener una energía mezclada (Eo.mono) para la porción directa de la señal de mezcla descendente mono, mientras que las energías del ambiente (EAL, EAR) para ambos canales (L, R) pueden obtenerse/sumarse usando una regla de mezclado descendente incoherente para obtener una energía mezclada (EA,mono) para la porción del ambiente de la señal de mezcla descendente. Luego, relacionando las energías mezcladas (Eo.mono, ??,G????) para la porción de la señal directa y la porción de la señal del ambiente respecto de la energía total (Emono) de la señal de mezcla descendente mono, se obtiene la proporción de energía directa a total (DTTmono) y ambiente a total (ATI"™™) de la señal de mezcla descendente mono. Finalmente, sobre la base de estas proporciones de energía DTTmono y ATTmono. la porción se señal directa o la porción de la señal del ambiente pueden extraerse, esencialmente, de la señal de mezcla descendente mono.
En reproducción de audio, a menudo surge la necesidad de reproducir el sonido a través de auriculares. La escucha en auriculares tiene una característica específica que la hace drásticamente diferente de la escucha por altavoz y también es diferente del sonido natural del entorno. El audio se fija directamente en el oído izquierdo y derecho. Típicamente, el contenido de audio se produce para reproducción en altavoz. Por lo tanto, las señales de audio no contienen las propiedades y entradas que usa nuestro sistema auditivo en la percepción del sonido espacial. Este es el caso, salvo que se introduzca en el sistema el procesamiento binaural.
Fundamentalmente, puede decirse que el procesamiento binaural es un proceso que toma el sonido de entrada y lo modifica para que contenga sólo las propiedades interaurales y monoaurales que son correctas (en cuanto a la manera en que el sistema auditivo procesa el sonido espacial). El procesamiento binaural no es una tarea directa y las soluciones existentes según el estado de la técnica tienen varias suboptimalidades.
Existe un gran número de aplicaciones en las cuales el procesamiento binaural para la reproducción de música y de películas ya está incluido, tal como los reproductores de medios y dispositivos de procesamiento que están diseñados para transformar las señales de audio de múltiples canales en la contraparte binaural para auriculares. Un enfoque típico es usar las funciones de transferencias relativas a la cabeza (HRTF) para hacer altavoces virtuales y agregar un efecto de habitación a la señal. Esto, en teoría, puede ser equivalente a escuchar con altavoces en una habitación específica.
Sin embargo, la práctica ha demostrado repetidamente que este enfoque no siempre ha dado satisfacción a quienes escuchan. Aparentemente, hay un compromiso de que la buena espacialización con este método directo viene con el precio de perder calidad de audio, tal como tener cambios no preferidos en el color o timbre del sonido, lo cual perturba la percepción del efecto de la habitación y produce pérdida de dinámica. Entre otros problemas se incluye la localización imprecisa (por ejemplo, localización en cabeza, confusión frente— parte posterior), falta de distancia espacial de las fuentes del sonido y falta de coincidencia interaural, es decir sensación auditiva cerca de los oídos debido a entradas interaurales incorrectas.
Cada escucha puede juzgar los problemas de manera diferente. La sensibilidad también varía según el material de entrada, tal como música (estrictos criterios de calidad en cuanto a color del sonido), películas (menos estrictos) y juegos (aún menos estrictos, pero la localización es importante). También hay diferentes metas de diseño según el contenido.
Por lo tanto, la descripción que se consigna seguidamente se refiere a un enfoque para solucionar los problemas indicados previamente de la manera más satisfactoria posible para maximizar la calidad general percibida en promedio.
La Figura 9 muestra un diagrama de bloques de una generalidad 900 de un dispositivo que produce sonido directo binaural 910 según otras formas de realización de la presente invención. Tal como se muestra en la Figura 9a, el dispositivo que produce sondo directo binaural 910 está configurado para procesar la porción de la señal directa 125— 1 , que puede estar presente en la salida del extractor de la señal directa/del ambiente 120 en la forma de realización de la Figura 1 , a fin de obtener una primera señal de salida binaural 915. La señal de salida binaural 915 puede comprender un canal izquierdo que lleva la indicación "L" y un canal derecho que lleva la indicación "R".
Aquí, el dispositivo que produce sonido directo binaural 910 puede configurarse para alimentar la porción de señal directa 125— 1 a través de funciones de transferencia relativas a la cabeza (HRTF) para obtener una porción de señal directa transformada. El dispositivo que produce sonido directo binaural 910 también puede configurarse para aplicar efecto de habitación a la porción de la señal directa transformada para obtener, finalmente, la primera señal de salida binaural 915.
La Figura 9b muestra un diagrama de bloques de detalles 905 del dispositivo que produce sonido directo binaural 910 de la Figura 9a. El dispositivo que produce sonido directo binaural 910 puede comprender un "transformador HRTF" indicado por un bloque 912 y un dispositivo para el procesamiento de efecto de habitación (reverberación paralela o simulación de reflexiones previas) que se indica con el bloque 914. Tal como se muestra en la Figura 9b, el transformador HRTF 912 y el dispositivo que procesa el efecto de habitación 914 puede ser operativo en la porción de a señal directa 125— 1 aplicando las funciones de transferencia relativas a la cabeza (HRTF) y efecto de habitación en paralelo, de modo que se obtenga la primera señal de salida binaural 915.
Específicamente, con referencia a la Figura 9b, este procesamiento del efecto de habitación también puede proporcionar una señal directa reverberada incoherente 919, que se puede procesar por medio de un filtro de mezclado cruzado posterior 920 para adaptar la señal a la coherencia interaural de los campos de sonido difuso. Aquí, la salida combinada del filtro 920 y el transformador HRTF 912 constituyen la primera señal de salida binaural 915. Según otras formas de realización, el procesamiento del efecto de habitación sobre el sonido directo también puede ser una representación paramétrica de reflexiones anteriores.
Por lo tanto, en formas de realización, el efecto de habitación puede aplicarse, preferentemente, en paralelo a los HRTF y no en serie (aplicando efecto de habitación después de alimentar la señal a través del HRTF). Específicamente, sólo el sonido que se propaga directamente desde la fuente atraviesa— o es transformado por— los correspondientes HRTF. El sonido indirecto/reverberado puede aproximarse para ingresar completamente al oído, es decir, de manera estadística (empleando control de coherencia en lugar de HRTF). También puede haber implementaciones en serie, pero se prefiere el método paralelo.
La Figura 10a muestra un diagrama de bloques de una generalidad 1000 de un dispositivo que produce sonido del ambiente binaural 1010 según otras formas de realización de la presente invención. Tal como se muestra en la Figura 10a, el dispositivo que produce sonido del ambiente binaural 1010 puede configurarse para procesar la salida de la porción de la señal del ambiente 125— 2, por ejemplo, desde el extractor de la señal directa/del ambiente 120 de la Figura 1 , para obtener la segunda señal de salida binaural 1015. La segunda señal de salida binaural 1015 también puede comprender un canal izquierdo (L) y un canal derecho (R).
La Figura 10b muestra un diagrama de bloques de detalles 1005 del dispositivo que produce sonido del ambiente binaural 1010 de la Figura 10a. En la Figura 10b puede observarse que el dispositivo que produce sonido del ambiente binaural 1010 puede configurarse de manera de aplicar el efecto de la habitación, según se indica con el bloque 1012 que se denota como "procesamiento del efecto de la habitación" a la porción de la señal del ambiente 125— 2, de modo que se obtenga una señal del ambiente reverberada incoherente 1013. El dispositivo que produce sonido del ambiente binaural 1010 también puede configurarse para procesar la señal del ambiente reverberada incoherente 1013 aplicando un filtro tal como el filtro de mezclado cruzado que se indica con el bloque 1014, de modo que se proporcione la segunda señal de salida binaural 1015, la segunda señal de salida binaural 1015 se adaptará a la coherencia interaural de los campos de sonido difusos reales. El bloque 1012, denotado como "procesamiento del efecto de habitación" puede configurarse de modo que produce directamente la coherencia interaural de los campos de sonido difusos reales. En este caso no se usa el bloque 1014.
Según otra forma de realización, el dispositivo que produce sonido del ambiente binaural 1010 está configurado para aplicar el efecto de habitación y/o un filtro a la porción de la señal del ambiente 125—2 para proporcionar la segunda señal de salida binaural 1015, de modo que la segunda señal de salida binaural 1015 se adaptará a la coherencia interaural de los campos de sonidos difusos reales.
En las formas de realización indicadas previamente,- se puede realizar la decorrelación y control de coherencia en dos pasos consecutivos, pero esto no es un requisito indispensable. También es posible lograr el mismo resultado con un proceso de un único paso, sin la formulación intermedia de señales incoherentes. Ambos métodos son igualmente válidos.
La Figura 11 muestra un diagrama de bloques conceptual 1100 de una forma de realización de reproducción binaural de una señal de audio de entrada de múltiples canales 101. Específicamente, la forma de realización de la Figura 11 representa un aparato para la reproducción binaural de la señal de audio de entrada de múltiples canales 101 , que comprende un primer convertidor 1110 ("transformación de frecuencia"), el separador 1 20 ("separación entre señal directa— del ambiente"), el dispositivo que produce sonido directo binaural 910 ("producción de fuente directa"), el dispositivo que produce sonido del ambiente binaural 1010 ("producción de sonido del ambiente"), el combinador 1130 según se indica por el signo "más" y un segundo convertidor 1140 ("transformación de frecuencia inversa"). En particular, el primer convertidor 1110 puede configurarse para convertir la señal de audio de entrada de múltiples canales 101 en una representación espectral 1115. El separador 1120 puede configurarse para extraer la porción de la señal directa 125— 1 o la porción de la señal del ambiente 125— 2 de la representación espectral 1115. Aquí, el separador 1120 puede corresponder al aparato 100 de la Figura 1 , especialmente incluyendo el estimador de la señal directa/del ambiente 110 y el extractor de la señal directa/del ambiente 120 de la forma de realización de la Figura 1. Tal como ya se explicó, el dispositivo que produce el sonido directo binaural 910 puede estar operativo en la porción de la señal directa 125— 1 a fin de obtener la primera señal de salida binaural 915. En correspondencia, el dispositivo que produce el sonido del ambiente binaural 1010 puede estar operativo en la porción de la señal del ambiente 125— 2 a fin de obtener la segunda señal de salida binaural 1015. El combinador 1130 puede estar configurado para combinar la primera señal de salida binaural 915 y la segunda señal de salida binaural 1015 a fin de obtener una señal combinada 1135. Finalmente, el segundo convertidor 1140 puede estar configurado para convertir la señal combinada 1135 en un dominio de tiempo para obtener una señal de salida estéreo 1150 ("salida en estéreo para auriculares").
La operación de transformación de la frecuencia de la forma de realización de la Figura 11 ilustra que el sistema funciona en un dominio de transformación de frecuencia, que es el dominio natural en el procesamiento perceptual de audio espacial. El sistema en sí mismo no necesariamente tiene transformación de frecuencia si se usa como expansión (add—on) en un sistema que ya funciona en un dominio de transformación en frecuencia.
El proceso de separación de señal directa/del ambiente que se indicó puede subdividirse en dos partes diferentes. En la parte de estimación de la señal directa/del ambiente, los niveles y/o las proporciones de la parte del ambiente directa se estiman según la combinación de un modelo de señal y las propiedades de la señal de audio. En la parte de extracción de la señal directa/del ambiente, las proporciones conocidas y la señal de entrada pueden usarse para crear la señal de salida en las señales del ambiente.
Finalmente, la Figura 12 muestra un diagrama de bloques general de una forma de realización 1200 de la estimación/extracción de la señal directa/del ambiente incluido el caso de uso de la reproducción binaural. En particular, la forma de realización 1200 de la Figura 12 puede corresponder a las formas de realización 1100 de la Figura 1 1. Sin embargo, en la forma de realización 1200, se muestran los detalles del separador 1120 de la Figura 1 1 correspondientes a los bloques 1 10, 120 de la forma de realización de la Figura 1 , que incluye el proceso de estimación/extracción basado en la información paramétrica espacial 105. Del mismo modo, en oposición a la forma de realización 1 100 de la Figura 1 11 , no se muestra ningún proceso de conversión entre los diferentes dominios en la forma de realización 1200 de la Figura 12. Los bloques de la forma de realización 1200 también son explícitamente operativos en la señal de mezcla descendente 115, que se puede derivar de la señal de audio de múltiples canales 101.
La Figura 13a muestra un diagrama de bloques de una forma de realización de un aparato 1300 para extraer una señal directa/del ambiente de una señal de mezcla descendente mono en un dominio de banco de filtros. Tal como se muestra en la Figura 13a, el aparato 1300 comprende un banco de filtros de análisis 1310, un banco de filtros de síntesis 1320 para la porción directa y un banco de filtros de síntesis 1322 para la porción del ambiente.
En particular, el banco de filtros de análisis 1310 del aparato 1300 puede implementarse para realizar una transformada de Fourier de tiempo corto (STFT, por sus siglas en inglés) o puede, por ejemplo, configurase como un banco de filtros QMF, mientras que los bancos de filtros de síntesis 1320, 1322 del aparato 1300 pueden implementarse para realizar una transformada de Fourier de tiempo corto inversa (ISTFT, por sus siglas en inglés) o bien pueden configurarse como bancos de filtros QMF.
El banco de filtros de análisis 1310 está configurado para recibir una señal de mezcla descendente mono 1315, que puede corresponder a una señal de mezcla descendente mono 215 según se muestra en la forma de realización de la Figura 2, y convertir la señal de mezcla descendente mono 1315 en una pluralidad de subbandas del banco de filtros 1311 . Tal como se puede apreciar en la Figura 13a, la pluralidad 131 1 de subbandas del banco de filtros se conecta a una pluralidad 1350, 1352 de bloques de extracción de la señal directa/del ambiente, respectivamente, donde la pluralidad 1350, 1352 de los bloques de extracción de la señal directa/del ambiente está configurada para aplicar parámetros basados en DTTmono - o ATTmono - 1333, 1335 a las subbandas del banco de filtros, respectivamente.
Los parámetros basados en DTTmono. ATTm0no 1333, 1335 pueden suministrarse a partir de un calculador DTTmono, ATTm0no. tal como se muestra en la Figura 13b. En particular, el calculador DTTm0no. ATTmono 1330 de la Figura 13b puede configurarse para calcular las proporciones de energía DTTm0no, ATTmono o para derivar los parámetros basados en DTTmono, ATTm0no de los parámetros de diferencia de nivel del canal y de coherencia intercanal que se proporcionan (ICCL, CLDL, ICCR, CLDR) 105 correspondientes al canal izquierdo y derecho (L, R) de una señal de audio estéreo paramétrica (por ejemplo, la señal de audio estéreo paramétrica 201 de la Figura 2), que ya se ha descripto según corresponde. Aquí, para una subbanda del banco de filtros simple se pueden usar los correspondientes parámetros 105 y los parámetros basados en DTTmono , ATTmono 1333, 1335. En este contexto, cabe destacar que aquellos parámetros no son constantes en toda la frecuencia.
Como resultado de la aplicación de los parámetros basados en DTTmono o ATTmono 1333, 1335, se obtendrá una pluralidad 1353, 1355 de las subbandas del banco de filtros modificadas, respectivamente. A continuación, se alimenta la pluralidad 1353, 1355 de las subbandas del banco de filtros modificadas en los bancos de filtros de síntesis 1320, 1355, respectivamente, que se configuran para sintetizar la pluralidad 1353, 1355 de subbandas del banco de filtros modificadas, de manera de obtener la porción de señal directa 1325— 1 o la porción de señal del ambinete1325— 2 de la señal de mezcla descendente mono 1315, respectivamente. Aquí, la porción de la señal directa 1325— 1 de la Figura 13a puede corresponder a la porción de la señal directa 125— 1 de la Figura 2, mientras que la porción de la señal del ambiente 1325— 2 de la Figura 13a puede corresponder a la porción de la señal del ambiente 125— 2 de la Figura 2.
Con referencia a la Figura 13b, un bloque de extracción de la señal directa/del ambiente 1380 de la pluralidad 1350, 1352 de bloques de extracción de la señal directa/del ambiente de la Figura 13a especialmente comprende el calculador de DTTmono, ATTmono 1330 y un multiplicador 1360. El multiplicador 1360 puede configurarse para multiplicar una subbanda del banco de filtros (FB, por sus siglas en inglés) simple 1301 de la pluralidad de subbandas del banco de filtros 1311 con el correspondiente parámetro basado en DTTmOno/ATTm0no 1333, 1335, de modo que se obtiene una subbanda del banco de filtros simple 1365 de la pluralidad de subbandas del banco de filtros 1353, 1355. En particular, el bloque de extracción de la señal directa/del ambiente 1380 está configurado para aplicar el parámetro basado en DTTm0no en caso de que el bloque 1380 pertenezca a la pluralidad 1350 de bloques, mientras que están configurados para aplicar el parámetro basado ATTmono en caso de que el bloque 1380 pertenezca a la pluralidad 1352 de bloques. La subbanda del banco de filtros simple modificada 1365 también puede suministrarse al respectivo banco de filtros de síntesis 1320, 1322 para la porción de la señal directa o la porción de la señal del ambiente.
Según formas de realización, los parámetros espaciales y los parámetros derivados se dan en una resolución de frecuencia según las bandas críticas del sistema auditivo del ser humano, por ejemplo 28 bandas, que normalmente es menor que la resolución del banco de filtros.
Por lo tanto, la extracción de la señal directa/del ambiente según la forma de realización de la Figura 13a esencialmente opera en diferentes subbandas en un dominio del banco de filtros basado en la coherencia intercanal calculada de toda la subbanda y los parámetros de diferencia del nivel de canal, que pueden corresponder a los parámetros de la relación intercanal 335 de la Figura 3b.
La Figura 14 muestra una ilustración esquemática de un esquema de decodificación MEPG Surround 1400 según otra forma de realización de la presente invención. En particular, la forma de realización de la Figura 14 describe una decodificación de un mezcla descendente estéreo 1410 en seis canales de salida 1420. Aquí, las señales que se denotan con "res" son señales residuales, que son reemplazos óptimos para las señales decorrelacionadas (de los bloques que se denotan con una "D"). Según la forma de realización de la Figura 14, la información paramétrica espacial o los parámetros de relación intercanal (ICC, CLD) transmitidos dentro de una corriente MPS de un codificador, tal como el codificador 810 de la Figura 8 a un decodificador, tal como el decodificador 820 de la Figura 8, puede usarse para generar matrices de decodificación 1430, 1440 que se notan con "matriz de pre— decorrelacionador M1" y "matriz mixta M2", respectivamente. Es específico de la forma de realización de la Figura 14 que la generación de los canales de salida 1420 (es decir, los canales upmix L, LS, R, RS, C, LFE) de los canales laterales (L, R) y el canal central C) (L, R, C 1435) usando la matriz mixta 2 1440, esté esencialmente determinada por información paramétrica espacial 1405, que puede corresponder a la información paramétrica espacial 105 de la Figura 1 , que comprende los parámetros de relación intercanal particulares (ICC, CLD) según el estándar de PS Surround.
Aquí, una división del canal izquierdo (L) en los correspondientes canales de salida L, LS, el canal derecho (R) en los correspondientes canales de salida R, RS y el canal central (C) en los correspondientes canales de salida C, LFE, respectivamente, pueden estar representados por una configuración uno a dos (OTT) que tiene la respectiva entrada para los correspondientes parámetros ICC, CLD.
El esquema de decodificación MPEG Surround 1400 que específicamente corresponde a la "configuración 5— 2— 5" puede, por ejemplo, comprender los pasos que se consignan seguidamente. En un primer paso, los parámetros espaciales o la información lateral paramétrica pueden formularse en las matrices de decodificación 1430, 1440, que se muestran en la Figura 14, según el estándar MPS Surround existente. En un segundo paso, las matrices de decodificación 1430, 1440 pueden usarse en el dominio de parámetro para proporcionar información intercanal de los canales upmix 1420. En un tercer paso, con la información intercanal que se proveyó de esta manera, se pueden calcular las energías directa/del ambiente de cada canal upmix. En un cuarto paso, las energías directa/del ambiente obtenidas de esta manera pueden mezclarse de estéreo a mono en el número de canales mezcla descendente 1410. En un quinto paso, se pueden calcular las ponderaciones que se aplicarán a los canales de mezcla descendente 1410.
Antes de seguir avanzando, cabe destacar que el proceso de ejemplo que se acaba de mencionar requiere que se mida: que son las potencias medias de los canales de mezcla descendente, y E Ldmx mx '] al que se puede hacer referencia como el espectro cruzado de los canales de mezcla descendente. Aquí, intencionalmente se hace referencia a las potencias medias de los canales de mezcla descendente como las energías, dado que le término "potencia media" no es un término de uso frecuente.
El operador de expectativas indicado por las llaves puede reemplazarse en aplicaciones prácticas por un promedio de tiempo, sea recursivo o no recursivo. Las energías y el espectro cruzado se pueden medir fácilmente a partir de la señal de mezcla descendente.
También cabe destacar que la energía de una combinación lineal de dos canales puede formularse a partir de las energías de los canales, los factores de mezcla y el espectro cruzado (todo en el dominio paramétrico, donde no se ' requieren operaciones de las señales).
La combinación lineal Ch = aL dmx + bR im tiene la siguiente energía: E \Ch |2 ]= E aLdmx + bRdmx \2]= a2E \Ldmx |2 ]+ b*E |¾mt |2 ]+ ab(E [LdmxRd'ttlx ]+ E [RdnKL'dmx ]) = a2E \LJmx |2]+ b2E \Rdmx |2 ]+ 2«¿(Re {E ]}) A continuación se describen los pasos individuales del proceso de ejemplo (es decir, el esquema de decodificación).
Primer paso (parámetros espaciales a las matrices de mezclado) Tal como se describió previamente, se crean las matrices M1 y M2 según el estándar de MPS Surround. El elemento de la hilera a:th— columna b:th de M1 es M1 (a,b).
Segundo paso (mezcla de matrices con energías v espectros cruzados del mezclado respecto la información intercanal de los canales mezclados).
Ahora tenemos las matrices de mezclado M1 y M2. Tenemos que formular la manera en que se crean los canales de salida desde el canal de mezcla descendente izquierdo (Ldmx) y del canal de mezcla descendente derecho (Rdmx). Asumimos que se usan los decorrelatores (área gris de la Figura 14). La decodificación/mezcla ascendente en el estándar MPS básicamente proporciona, al final, la siguiente fórmula para la relación general entrada— salida en todo el proceso: L = aLLdmx + bLRdmx + c¿Z>,[S,] + dLD2[S2]+eLD3[S3] Lo que se presentó previamente es un ejemplo del canal izquierdo delantero mezclado. Los otros canales pueden formularse de la misma manera. Los elementos D son los decorrelatores, a— e son las ponderaciones que se pueden calcular a partir de las entradas de las matrices M1 y M2.
En particular, los factores a— e se pueden formular de manera simple a partir de las entradas de matrices: ¾=?M1UM2U =l ¾=?M1UM2U ¿=1 cL=M2lA ¿=M215 ¾ = M21.6 y para los otros canales de la manera correspondiente.
Las señales S son Estas señales S son las entradas a los decorrelatores desde la matriz del lado izquierdo de la Figura 14. La energía puede calcularse de la manera que se explicó más arriba. El decorrelator no afecta la energía.
Una manera motivada de hacer extracción del ambiente de múltiples canales es comparando un canal contra la suma de todos los otros canales. (Cabe destacar que ésta es sólo una opción entre muchas). Ahora, si consideramos a modo de ejemplo el caso del canal L, el resto de los canales se leen de la siguiente manera: *L = S«a *™+ YbaRAa + ?c„A[S,]+ ?dChD2 [S2]+ ?echD3 [S}) Usamos el símbolo "X" aquí porque puede generarse una confusión al usar "R" para el resto de los canales.
Así, la energía del canal L es: Así, la energía del canal es: Y el espectro cruzado es: £[¾] + ? eaeLE[\S}\2] + ? aLbaE[LdmxRd'mx]+ ? aChbLE[LdmxRd'mi]' Ahora podemos formular el ICC y la sigma Tercer paso (información intercanal en los canales mezclados en parámetros DTT de los canales mezclados).
Ahora podemos calcular el DTT del canal L según: La energía de la señal directa de L es La energía de la señal del ambiente de L es £| |2 (?-^G)· £[?|2] Cuarto paso (mezclado de estéreo a mono de las energías directa/del ambiente) Si se usa una regla de mezclado descendente incoherente, la energía del ambiente del canal de mezclado descendente izquierdo es: y, de la misma manera, para la parte directa y la parte directa y del ambiente del canal derecho. Cabe destacar que lo antedicho es una regla de mezclado de estéreo a mono (downmixing). Pero también pueden existir otras reglas de mezclado.
Quinto paso (cálculo de las ponderaciones para la extracción del ambiente en los canales de mezcla descendente) La proporción DDT de mezcla descendente izquierdo es Los factores de ponderación pueden calcularse de la manera que se describe en la forma de realización de la Figura 5 (usando el enfoque de sqrt(DTT) o sqrt(1— DTT), o bien como se indica en la forma de realización de la Figura 6 (es decir, usando un método de matriz de mezcla cruzada).
Básicamente, el proceso de ejemplo que se describió se refiere a los parámetros CPC, ICC, y CLD en la corriente MPS respecto de las proporciones del ambiente de los canales de mezcla descendente.
Según otras formas de realización, típicamente existen otros medios de lograr metas similares, como así también otras condiciones. Por ejemplo, puede haber otras reglas para el mezclado, diseños de altavoces, otros métodos de decodificación y otras maneras de hacer la estimación del ambiente de múltiples canales fuera de las que se han descripto aquí, donde un canal específico se compara con el resto de los canales.
Si bien se ha descripto la presente invención en el contexto del diagrama de bloques donde los bloques representan componentes de hardware reales o lógicos, la presente invención también puede ¡mplementarse a través de un método implementado por computadora. En este último caso, los bloques representan los correspondientes pasos del método donde estos pasos representan las funcionalidades que se implementan por los bloques de hardware lógico o físico correspondiente.
Las formas de realización que se describieron son meramente ilustrativas de los principios de la presente invención. Cabe comprender que se pueden introducir modificaciones y variantes a las disposiciones, y los especialistas en la técnica podrán apreciar los detalles que se describen en la presente. Por lo tanto, la invención sólo se verá limitada por las reivindicaciones de patente que acompañan y no por los detalles específicos que se presentan a modo de descripción y explicación de las formas de realización que se consignan en este trabajo.
Según los requisitos de ciertas implementaciones de los métodos de la invención, los métodos de la invención pueden implementarse en hardware o en software. La implementación puede realizarse usando un medio de almacenamiento digital, en particular un disco, un DVD o un CD que tenga almacenadas señales de control que se puedan leer electrónicamente, que cooperan con los sistemas informáticos programables, tales como los que se proponen en los métodos de la invención. Por lo tanto, en términos generales la invención puede implementarse como un producto de un programa informático con el código del programa almacenado en un portador legible en máquina, el código del programa es operativo para poner en práctica los métodos de la invención cuando el producto del programa informático se ejecuta en una computadora. Es decir, los métodos inventivos son, por lo tanto, un programa informático que tiene un código de programa para llevar a cabo, por lo menos, uno de los métodos inventivos cuando el programa informático funciona en una computadora. La señal de audio codificada de la invención se puede almacenar en cualquier medio de almacenamiento legible por la máquina, tal como un medio de la memoria numérica.
Una ventaja del concepto y de la técnica novedosos es que las formas de realización antedichas, es decir el aparato, método o programa informático, que se describen en esta solicitud permiten estimar y extraer los componentes de la señal directa y/o del ambiente de una señal de audio con la ayuda de la información paramétrica espacial. En particular, el proceso novedoso de la presente invención funciona en bandas de frecuencia, como típicamente en el campo de la extracción de la señal del ambiente. El concepto que se presenta es pertinente al procesamiento de señal audio, puesto que hay un número de usos que requieren la separación de componentes de la señal directo y del ambiente de una señal de audio.
A diferencia de los métodos de extracción del ambiente de la técnica anterior, el actual concepto no se basa en señales de entrada estéreo solamente y puede también aplicarse a las situaciones de mezcla descendente mono. Para un mezcla descendente de un único canal, en general, ninguna diferencia entre canales puede ser computada. Sin embargo, tomando en cuenta la información lateral espacial, la extracción de la señal del ambiente llega a ser posible en este caso también.
La presente invención es ventajosa porque utiliza los parámetros espaciales para estimar los niveles del ambiente de la señal " original". Se basa en el concepto de que los parámetros espaciales ya contienen la información sobre las diferencias entre canales de la señal estéreo "original" o de varios canales.
Una vez que se estimen los niveles estéreos originales o de varios canales de la señal del ambiente, también se pueden derivar los niveles de la señal directa y del ambiente en el o los canales mezcla descendente que se proporcionan. Esto puede hacerse por las combinaciones lineales (es decir, la suma ponderada) de las energías del ambiente para la parte del ambiente, y dirigir las energías o las amplitudes para la parte directa. Por lo tanto, las formas de realización de la presente invención proveen la estimación y de la extracción de la señal del ambiente con ayuda de la información lateral espacial.
Se pueden alcanzar- las siguientes propiedades beneficiosas o ventajas a partir de este concepto de procesamiento basado en información lateral.
Las formas de realización de la presente invención proveen la estimación de la señal del ambiente con la ayuda de la información lateral espacial y de los canales de mezcla descendente que se proporcionan. Dicha estimación del ambiente es importante en los casos en que hay más de un canal de mezcla descendente proporcionado junto con la información lateral. La información lateral, y la información que se mide a partir de los canales de mezcla descendente, se pueden utilizar juntas en la estimación del ambiente. En MPEG Surround con una mezcla descendente estéreo, estas dos fuentes de información juntas proporcionan la información completa de las relaciones entre canales del sonido de varios canales originales, y la estimación del ambiente se basa en estas relaciones.
Las formas de realización de la presente invención también proporcionan mezclado descendente de las energías directas y del ambiente. En la situación que se describe respecto de la extracción del ambiente basada en información lateral, hay un paso intermedio de estimar la señal del ambiente en un número de canales superiores a los canales de mezcla descendente proporcionados. Por lo tanto, esta información del ambiente tiene que trazarse en el número de los canales de audio de mezcla descendente de una manera válida. Se puede hacer referencia a este proceso como mezcla de estéreo a mono (downmixing) debido a su correspondencia con el mezcla descendente del canal de audio. Esto se puede realizar de manera muy directa combinando la energía directa y del ambiente de la misma manera en que se mezclaron los canales de mezcla descendente.
La regla de mezclado no tiene una solución ideal, sino que es probable que dependa de la aplicación. Por ejemplo, en MPEG Surround puede ser beneficioso tratar los canales de manera diferente (centro, altavoces delanteros, altavoces traseros) debido a su contenido de señal típicamente diferente.
Por otra parte, las formas de realización proporcionan una estimación de varios canales del ambiente independientemente en cada canal respecto de los otros canales. Este enfoque/propiedad permite utilizar simplemente la fórmula estéreo de la estimación del ambiente a cada canal concerniente al resto de los canales que se presenta. Por esta medida, no es necesario asumir un nivel igual de la señal del ambiente en todos los canales. Este enfoque se basa en la presunción acerca de la percepción espacial de que el componente del ambiente en cada canal es que el componente que tiene una contraparte incoherente en algunos de todos los otros canales. Un ejemplo que sugiere la validez de esta presunción es que uno de dos canales que emiten ruido (ambiente) puede dividirse en dos canales con la mitad de la energía cada uno, sin afectar en gran medida la escena del sonido percibido.
En términos del proceso de señal, es ventajoso que la estimación real de la proporción entre señal directa/del ambiente se produce aplicando la fórmula de la estimación del ambiente que se presenta a cada canal respecto de la combinación lineal del resto de los canales.
Finalmente, las formas de realización proporcionan un uso de las energías directas estimadas del ambiente para extraer las señales reales. Una vez que se conocen los niveles de ambiente en los canales de mezcla descendente, se pueden aplicar dos métodos inventivos para obtener las señales del ambiente. El primer método se basa en una multiplicación simple, donde las partes directa y del ambiente para cada canal de mezcla descendente pueden generarse multiplicando la señal con sqrt (proporción de energía directa a total) y sqrt (proporción de energía ambiente a total). Esto proporciona dos señales para cada canal de mezcla descendente que son coherentes entre sí, pero tienen las energías que se estimaron para la parte directa y del ambiente.
El segundo método se basa en una solución de mínimos cuadrados promediados con mezcla cruzada de los canales, donde la mezcla cruzada de los canales (también es posible con signos negativos) permite una mejor estimación de las señales directas y del ambiente que las soluciones indicadas previamente. En contraposición a una solución de mínimos cuadrados promediados para ingreso estéreo y niveles de ambiente iguales en los canales previstos en "Múltiple— loudspeaker playback of stereo signáis", C. Faller, Journal of the AES, octubre de 2007, y en la solicitud de patente titulada "Method to Genérate Multi— Channel Audio Signal from Stereo Signáis", inventores: Christof Faller, agentes: FISH & RICHARDSON P.C., cesionaria: LG ELECTRONICS, INC., origen: Minneapolis, MN, Estados Unidos de Norteamérica, Clase IPC8: AH04R500FI, Clase USPC: 381 1 , la presente invención proporciona una solución de mínimos cuadrados promediados que no requiere niveles de ambiente iguales y también se puede extender a cualquier número de canales.
Las características adicionales del proceso novedoso son las que se describen a continuación. En el procesamiento de la señal del ambiente para producción binaural, la señal del ambiente puede procesarse con un filtro que tenga la propiedad de suministrar coherencia interaural en bandas de frecuencia que sea similar a la coherencia interaural en campos de sonidos difusos reales, donde el filtro también puede incluir el efecto de la habitación. En el procesamiento de la parte directa para la producción binaural, la parte directa puede alimentarse a través de funciones de transferencia relativas a la cabeza (HRTF) con el posible agregado del efecto de la habitación, tal como reflexiones y/o reverberaciones tempranas.
Además de esto, un control del " nivel de separación" que corresponde a un control de seco/húmedo se puede observar en. otras formas de realización. En particular, la separación completa puede no ser deseable en muchas aplicaciones, ya que puede derivar en defectos audibles, tal como cambios abruptos, efectos de modulación, y otros. Por lo tanto, todas las partes relevantes de los procesos que se describen se pueden poner en práctica con un control del "nivel de separación" para controlar la cantidad de separación deseada y útil. Con respecto a la Figura 11 , tal control del nivel de separación es indicado por una entrada del control 1105 de una caja rayada para controlar la separación de la señal directa/del ambiente 1120 y/o los dispositivos de producción binaural 910, 1010, respectivamente. Este control puede trabajar similar a un control de seco/húmedo en el procesamiento de audio de los efectos Las ventajas principales de la solución que se presenta son las siguientes. El sistema funciona en todas las situaciones, también con estéreo paramétrico y MPEG Surround con mezcla descendente mono, a diferencia de las soluciones previas que dependen sólo de la información de mezcla descendente. El sistema puede además utilizar la información lateral espacial transportada junto con la señal audio en bitstreams audio espaciales más exactamente a la estimación directa y a las energías del ambiente que con el análisis entre canales simple de los canales del mezcla descendente. Por lo tanto, muchos usos, tales como el procesamiento binaural, pueden brindar beneficios aplicando diversos procesos para las partes directas y del ambiente del sonido.
Las formas de realización se basan en las siguientes presunciones psicoacústicas. Los sistemas auditivos humanos localizan las fuentes basadas en señales inter— aurales en los mosaicos de la tiempo— frecuencia (áreas restringidas en cierto rango de la frecuencia y del tiempo). Si dos o más fuentes concurrentes incoherentes que se superponen en tiempo y frecuencia se presentan simultáneamente en diferentes ubicaciones, el sistema auditivo no puede percibir la ubicación de las fuentes. Esto es porque la suma de estas fuentes no produce señales inter— aurales confiables en el oyente. Se puede describir el sistema auditivo de modo que levanta desde la escena de audio mosaicos de frecuencia y tiempo cerrados que brindan información sobre localización confiable y trata al resto como no localizable. Por estos medios el sistema auditivo puede localizar fuentes en entornos de sonido complejos. Las fuentes coherentes simultáneas tienen un diverso efecto: ellas forman aproximadamente las mismas señales ínter— aurales que formaría una sola fuente entre las fuentes coherentes.
Esta es la propiedad aprovechada por las formas de realización. El nivel del sonido localizable (directo) y no localizable (del ambiente) puede ser estimado y se extraen estos componentes. El procesamiento de la señal de espacialización se aplica únicamente a la parte localizable/directa, mientras que el procesamiento de difusión/espacio/envolvente se aplica a la parte no localizable/del ambiente. Esto aporta una ventaja significativa en el diseño de un sistema de proceso binaural, puesto que muchos procesos se pueden aplicar solamente donde son necesarios, dejando la señal restante inafectada. Todo el proceso se produce en bandas de frecuencia que se aproximan a la resolución de la frecuencia auditiva del ser humano.
Las formas de realización se basan en una descomposición de la señal para maximizar la calidad perceptiva, pero reducen al mínimo los problemas percibidos. Por tal descomposición, es posible obtener por separado el componente de la señal directa y del ambiente de una señal audio. Los dos componentes se pueden procesar más a fondo para alcanzar un efecto o una representación conveniente.
Específicamente, las formas de realización de la presente invención permiten la estimación de la señal del ambiente con la ayuda de la información lateral espacial en el dominio codificado.
La presente invención es, también, ventajosa en que los problemas típicos de la reproducción en auricular de señales audio pueden reducirse separando las señales en una señal directa y del ambiente. Las formas de realización permiten mejorar los métodos existentes de extracción de la señal directa/del ambiente que se aplicarán al sonido binaural que se produce para la reproducción en auricular.
El caso del uso principal del procesamiento basado en información lateral espacial es MPEG Surround natural y estéreo paramétrico (y las técnicas de codificación paramétricas similares). Los usos típicos que se benefician a partir de la extracción de la señal del ambiente son la reproducción binaural debido a la capacidad de aplicar un diverso grado del efecto de habitación a diferentes partes del sonido, y de mezclar a un número más alto de canales debido a la capacidad de colocar y de procesar diversos componentes del sonido de manera diferente. También pueden existir aplicaciones en las cuales el usuario requiera la modificación del nivel de la señal directa/del ambiente, por ejemplo, con el propósito de mejorar la inteligibilidad del discurso.

Claims (16)

REIVINDICACIONES
1. Un aparato (100) para extraer una señal directa/del ambiente (125— 1 , 125—2) de una señal de mezcla descendente (115) e información paramétrica espacial (105), la señal de mezcla descendente (115) y la información paramétrica espacial (105) representan una señal de audio de múltiples canales (101 )que tiene más canales Ch-i ... ChN que la señal de mezcla descendente (115), donde la información paramétrica espacial (105) comprende relaciones intercanal de la señal de audio de múltiples canales (101 ), el aparato (100) comprende: un estimador de señal directa/del ambiente (110) para estimar una información de nivel directa (113) de una porción directa de la señal de audio de multicanal y/o para estimar una información de nivel de ambiente (113) de una porción del ambiente de la señal de audio de múltiples canales (101 ) sobre la base de la información paramétrica espacial (105); y un extractor de señal directa/del ambiente (120) para extraer una porción de la señal directa (125— 1) y/o una porción de la señal del ambiente 125— 2 desde la señal de mezcla descendente (115) sobre la base de la información de nivel directa estimada (113) de la porción directa o basada en la información de nivel de ambiente estimada (113) de la porción del ambiente.
2. El aparato según la reivindicación 1 , donde el extractor de señal directa/del ambiente (420) está configurado para la mezcla de estéreo a mono de la información de nivel estimada directa (113) de la porción directa o la información de nivel de ambiente estimada (113) de la porción del ambiente para obtener información de nivel mezclada de estéreo a mono de la porción directa o de la porción del ambiente y para extraer la porción de la señal directa (125— 1 ) o la porción de la señal del ambiente (125— 2) desde la señal de mezcla descendente (1 15) basada en la información de nivel mezclada de estéreo a mono.
3. El aparato según la reivindicación 2, donde el extractor de señal directa/del ambiente (420) también está configurado para realizar una mezcla de estéreo a mono de la información de nivel estimada directa (1 13) de la porción directa o la información de nivel de ambiente estimada (1 13) de la porción del ambiente, para lo cual se combina la información de nivel estimada (1 13) de la porción directa estimada con la suma coherente y la información de nivel de ambiente estimada (1 13) de la porción del ambiente con suma incoherente.
4. El aparato según la reivindicación 2 ó 3, donde el extractor de la señal directa/del ambiente (520) está también configurado para derivar parámetros de ganancia (565— 1 , 565— 2) de la información de nivel mezclada de estéreo a mono (555— 1 , 555— 2) de la porción directa o de la porción del ambiente y aplica los parámetros de ganancia derivada (565— 1 , 565— 2) a la señal de mezcla descendente (1 15) para obtener la porción de la señal directa (125— 1 ) o la porción de la señal del ambiente (125— 2).
5. El aparato según la reivindicación 4, donde el extractor de señal directa/del ambiente (520) también está configurado para determinar una proporción de energía directa a total (DTT) o ambiente a total (ATT) de la información del nivel mezclada (555— 1 , 555— 2) de la porción directa o de la porción del ambiente y el uso como los parámetros de ganancia (565— 1 , 565— 2) de los parámetros de extracción según la proporción de energía DTT o de ATT.
6. El aparato según una de las reivindicaciones 1 a 5, donde el extractor de señal directa/del ambiente (520) está configurado para extraer la porción de señal directa (125— 1 ) o la porción de la señal del ambiente (125— 2) aplicando una matriz de extracción cuadrática M por M a la señal de mezcla descendente (115), donde un tamaño (M) de la matriz de extracción cuadrática M por M corresponde al número (M) de los canales de mezcla descendente (Chi...ChM).
7. El aparato según la reivindicación 6, donde el extractor de la señal directa/del ambiente (520) está también configurado para aplicar una primera pluralidad de parámetros de extracción a la señal de mezcla descendente (115) a fin de obtener la porción de señal directa (125—1 ) y una segunda pluralidad de los parámetros de extracción a la señal de mezcla descendente (115) para obtener la porción de señal del ambiente (125— 2); las pluralidades primera y segunda de los parámetros de extracción constituyen una matriz diagonal..
8. El aparato según una de las reivindicaciones 1 a 7, donde el estimador de señal directa/del ambiente (110) está configurado para estimar la información de nivel directa (113) de la porción directa de la señal de audio de multicanal (101) o para estimar la información de nivel de ambiente (113) de la porción del ambiente de la señal de audio de múltiples canales (101 ) sobre la base de la información paramétrica espacial (105) y al menos dos canales de mezcla descendente (825) de la señal de mezcla descendente (115) recibida por el estimador de la señal directa/del ambiente (110).
9. El aparato según una de las reivindicaciones 1 a 8, donde el estimador de señal directa/del ambiente (710) está configurado para aplicar una fórmula de estimación del ambiente estéreo usando la información paramétrica espacial (105) para cada canal (Ch¡) de la señal de audio de múltiples canales (101 ), donde la fórmula de estimación del ambiente estéreo está dada por DTT,. = fm [s, (Ch R) , ICC, (Ch R)] , ATT^ X -DTTi Según la diferencia de nivel de canal (CLD¡), que es un valor en decibeles de o¡, y un parámetro de coherencia intercanal (ICC¡) del canal Ch¡, y donde R es una combinación lineal de los canales restantes.
10. El aparato según una de las reivindicaciones 1 a 9, donde el extractor de señal directa/del ambiente (620) está configurado para extraer la porción de la señal directa (125— 1 ) o la porción de la señal del ambiente (125— 2) a través de una solución de mínimos cuadrados promediados (LMS, por sus siglas en inglés) que no requiere niveles de ambiente iguales.
11 . El aparato según la reivindicación 9, donde el extractor de señal directa/del ambiente (620) está configurado para derivar la solución de LMS asumiendo un modelo de señal, de modo que la solución de LMS no se restringa a una señal de mezcla descendente del canal estéreo.
12. El, aparato según una de las reivindicaciones 1 a 1 1 , el aparato también comprende: un dispositivo que genera sonido directo binaural (910) para procesar la porción de la señal directa (125— 1 ) a fin de obtener una primera señal de salida binaural (915); un dispositivo que genera sonido del ambiente binaural (1010) para procesar la porción de la señal del ambiente (125— 2) a fin de obtener una segunda señal de salida binaural (1015); y un combinador (1 130) para combinar la primera (915) y la segunda (1015) señal de salida binaural 1015 a fin de obtener una señal binaural combinada (1 135).
13. El aparato según la reivindicación 12, donde el dispositivo que produce sonido del ambiente binaural (1010) está configurado para aplicar el efecto de habitación y/o un filtro a la porción de la señal del ambiente (125— 2) para proporcionar la segunda señal de salida binaural (1015), de modo que la segunda señal de salida binaural (1015) se adapte a la coherencia interaural de los campos de sonidos difusos reales.
14. El aparato según la reivindicación 12 ó 13, donde el dispositivo que produce sonido directo binaural (910) está configurado para alimentar la porción de señal directa (125— 1 ) a través de filtros basados en funciones de transferencia relativas a la cabeza (HRTF, por sus siglas en inglés) para, obtener la primera señal de salida binaural.
15. Un método (100) para extraer una señal directa/del ambiente (125— 1 , 125— 2) de una señal de mezcla descendente (1 15) e información paramétrica espacial (105), la señal de mezcla descendente (1 15) y la información paramétrica espacial (105) representan una señal de audio de múltiples canales (101 ) que tiene más canales Crn ... ChN que la señal de mezcla descendente (1 15), donde la información paramétrica espacial (105) comprende relaciones intercanal de la señal de audio de múltiples canales (101 ), el método (100) comprende: estimar (1 10) una información de nivel directa (1 13) de una porción directa de la señal de audio de multicanal (101 ) y/o estimar (1 10) una información de nivel de ambiente (1 13) de una porción del ambiente de la señal de audio de múltiples canales 101 basada en la información paramétrica espacial 105; y extraer (120) una porción de la señal directa (125— 1 ) y/o una porción de la señal del ambiente (125— 2) desde la señal de mezcla descendente (1 15) basada en la información de nivel estimada (1 13) de la porción directa o basada en la información de nivel de ambiente estimada (1 13) de la porción del ambiente.
16. Un programa informático que tiene un código de programa para poner en práctica el método (100) de la reivindicación 15, donde el programa informático se ejecuta en una computadora.
MX2012008119A 2010-01-15 2011-01-11 Aparato y metodo para extraer una señal directa/de ambiente de una señal de mezcla descendente e informacion parametrica espacial. MX2012008119A (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US29527810P 2010-01-15 2010-01-15
EP10174230A EP2360681A1 (en) 2010-01-15 2010-08-26 Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
PCT/EP2011/050265 WO2011086060A1 (en) 2010-01-15 2011-01-11 Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information

Publications (1)

Publication Number Publication Date
MX2012008119A true MX2012008119A (es) 2012-10-09

Family

ID=43536672

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2012008119A MX2012008119A (es) 2010-01-15 2011-01-11 Aparato y metodo para extraer una señal directa/de ambiente de una señal de mezcla descendente e informacion parametrica espacial.

Country Status (14)

Country Link
US (1) US9093063B2 (es)
EP (2) EP2360681A1 (es)
JP (1) JP5820820B2 (es)
KR (1) KR101491890B1 (es)
CN (1) CN102804264B (es)
AR (1) AR079998A1 (es)
AU (1) AU2011206670B2 (es)
BR (1) BR112012017551B1 (es)
CA (1) CA2786943C (es)
ES (1) ES2587196T3 (es)
MX (1) MX2012008119A (es)
RU (1) RU2568926C2 (es)
TW (1) TWI459376B (es)
WO (1) WO2011086060A1 (es)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011083979A2 (en) 2010-01-06 2011-07-14 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
TWI800092B (zh) * 2010-12-03 2023-04-21 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
US9253574B2 (en) 2011-09-13 2016-02-02 Dts, Inc. Direct-diffuse decomposition
RU2618383C2 (ru) * 2011-11-01 2017-05-03 Конинклейке Филипс Н.В. Кодирование и декодирование аудиообъектов
EP2896040B1 (en) * 2012-09-14 2016-11-09 Dolby Laboratories Licensing Corporation Multi-channel audio content analysis based upmix detection
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
RU2630370C9 (ru) * 2013-02-14 2017-09-26 Долби Лабораторис Лайсэнзин Корпорейшн Способы управления межканальной когерентностью звуковых сигналов, подвергнутых повышающему микшированию
US9830917B2 (en) 2013-02-14 2017-11-28 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
BR112015024692B1 (pt) 2013-03-29 2021-12-21 Samsung Electronics Co., Ltd Método de provisão de áudio realizado por um aparelho de áudio, e aparelho de áudio
KR102150955B1 (ko) 2013-04-19 2020-09-02 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
WO2014171791A1 (ko) 2013-04-19 2014-10-23 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
CN104240711B (zh) 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
BR112016004299B1 (pt) * 2013-08-28 2022-05-17 Dolby Laboratories Licensing Corporation Método, aparelho e meio de armazenamento legível por computador para melhora de fala codificada paramétrica e codificada com forma de onda híbrida
RU2641463C2 (ru) 2013-10-21 2018-01-17 Долби Интернэшнл Аб Структура декоррелятора для параметрического восстановления звуковых сигналов
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
EP3672285A1 (en) 2013-10-31 2020-06-24 Dolby Laboratories Licensing Corporation Binaural rendering for headphones using metadata processing
CN103700372B (zh) * 2013-12-30 2016-10-05 北京大学 一种基于正交解相关技术的参数立体声编码、解码方法
EP2892250A1 (en) 2014-01-07 2015-07-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of audio channels
KR102486338B1 (ko) 2014-10-31 2023-01-10 돌비 인터네셔널 에이비 멀티채널 오디오 신호의 파라메트릭 인코딩 및 디코딩
TR201904212T4 (tr) * 2015-03-27 2019-05-21 Fraunhofer Ges Forschung Ön hoparlörlerde münferit üç boyutlu ses elde etmek için araçlarda yeniden üretime ilişkin stereo sinyallerin işlenmesi için ekipman ve yöntem.
CN112492501B (zh) 2015-08-25 2022-10-14 杜比国际公司 使用呈现变换参数的音频编码和解码
CN105405445B (zh) * 2015-12-10 2019-03-22 北京大学 一种基于声道间传递函数的参数立体声编码、解码方法
CN112218211B (zh) * 2016-03-15 2022-06-07 弗劳恩霍夫应用研究促进协会 用于生成声场描述的装置、方法或计算机程序
GB2549532A (en) * 2016-04-22 2017-10-25 Nokia Technologies Oy Merging audio signals with spatial metadata
JP6846822B2 (ja) * 2016-04-27 2021-03-24 国立大学法人富山大学 オーディオ信号処理装置、オーディオ信号処理方法、およびオーディオ信号処理プログラム
US9913061B1 (en) 2016-08-29 2018-03-06 The Directv Group, Inc. Methods and systems for rendering binaural audio content
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
CN109427337B (zh) * 2017-08-23 2021-03-30 华为技术有限公司 立体声信号编码时重建信号的方法和装置
US10306391B1 (en) 2017-12-18 2019-05-28 Apple Inc. Stereophonic to monophonic down-mixing
WO2020009350A1 (ko) * 2018-07-02 2020-01-09 엘지전자 주식회사 오클루션 이펙트에 관한 오디오 데이터를 송수신하는 방법 및 그 장치
WO2020008112A1 (en) * 2018-07-03 2020-01-09 Nokia Technologies Oy Energy-ratio signalling and synthesis
EP3618464A1 (en) * 2018-08-30 2020-03-04 Nokia Technologies Oy Reproduction of parametric spatial audio using a soundbar
CN109036455B (zh) * 2018-09-17 2020-11-06 中科上声(苏州)电子有限公司 直达声与背景声提取方法、扬声器系统及其声重放方法
EP3874492B1 (en) 2018-10-31 2023-12-06 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
GB2578603A (en) * 2018-10-31 2020-05-20 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
WO2020231883A1 (en) * 2019-05-15 2020-11-19 Ocelot Laboratories Llc Separating and rendering voice and ambience signals
WO2024081957A1 (en) * 2022-10-14 2024-04-18 Virtuel Works Llc Binaural externalization processing

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL129752A (en) * 1999-05-04 2003-01-12 Eci Telecom Ltd Telecommunication method and system for using same
CN1144224C (zh) * 2000-02-14 2004-03-31 王幼庚 耳前声波记录生成空间声信号的方法
US7567845B1 (en) 2002-06-04 2009-07-28 Creative Technology Ltd Ambience generation for stereo signals
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
EP1761110A1 (en) 2005-09-02 2007-03-07 Ecole Polytechnique Fédérale de Lausanne Method to generate multi-channel audio signals from stereo signals
RU2393646C1 (ru) * 2006-03-28 2010-06-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Усовершенствованный способ для формирования сигнала при восстановлении многоканального аудио
US8103005B2 (en) 2008-02-04 2012-01-24 Creative Technology Ltd Primary-ambient decomposition of stereo audio signals using a complex similarity index
CN102246543B (zh) * 2008-12-11 2014-06-18 弗兰霍菲尔运输应用研究公司 产生多信道音频信号的装置

Also Published As

Publication number Publication date
CN102804264B (zh) 2016-03-09
CA2786943A1 (en) 2011-07-21
RU2568926C2 (ru) 2015-11-20
AR079998A1 (es) 2012-03-07
RU2012136027A (ru) 2014-02-20
BR112012017551A2 (pt) 2017-10-03
KR20120109627A (ko) 2012-10-08
CN102804264A (zh) 2012-11-28
JP5820820B2 (ja) 2015-11-24
EP2524370B1 (en) 2016-07-27
US9093063B2 (en) 2015-07-28
ES2587196T3 (es) 2016-10-21
WO2011086060A1 (en) 2011-07-21
US20120314876A1 (en) 2012-12-13
AU2011206670A1 (en) 2012-08-09
EP2360681A1 (en) 2011-08-24
AU2011206670B2 (en) 2014-01-23
CA2786943C (en) 2017-11-07
TW201142825A (en) 2011-12-01
EP2524370A1 (en) 2012-11-21
TWI459376B (zh) 2014-11-01
BR112012017551B1 (pt) 2020-12-15
KR101491890B1 (ko) 2015-02-09
JP2013517518A (ja) 2013-05-16

Similar Documents

Publication Publication Date Title
MX2012008119A (es) Aparato y metodo para extraer una señal directa/de ambiente de una señal de mezcla descendente e informacion parametrica espacial.
Herre et al. MPEG surround-the ISO/MPEG standard for efficient and compatible multichannel audio coding
CN101543098B (zh) 产生输出信号的去相关器和方法以及产生多声道输出信号的音频解码器
RU2409911C2 (ru) Декодирование бинауральных аудиосигналов
US8917874B2 (en) Method and apparatus for decoding an audio signal
EP1989920B1 (en) Audio encoding and decoding
Breebaart et al. Background, concept, and architecture for the recent MPEG surround standard on multichannel audio compression
Breebaart et al. Multi-channel goes mobile: MPEG Surround binaural rendering
NO340450B1 (no) Forbedret koding og parameterfremstilling av flerkanals nedblandet objektkoding
KR20050021484A (ko) 오디오 코딩
WO2013149671A1 (en) Multi-channel audio encoder and method for encoding a multi-channel audio signal
KR20070091587A (ko) 스테레오 신호 생성 방법 및 장치
KR101710544B1 (ko) 스펙트럼 무게 발생기를 사용하는 주파수-영역 처리를 이용하는 스테레오 레코딩 분해를 위한 방법 및 장치
JP2023166560A (ja) バイノーラル・ダイアログ向上
Breebaart et al. Binaural rendering in MPEG Surround
He et al. Literature review on spatial audio
Jansson Stereo coding for the ITU-T G. 719 codec
MX2008011994A (es) Generacion de mezclas descendentes espaciales a partir de representaciones parametricas de señales de multicanal.
Vilkamo Perceptually motivated time-frequency processing of spatial audio
Jiang et al. Multi-channel audio compression method based on ITU-T G. 719 codec
KR100891668B1 (ko) 믹스 신호 처리 방법 및 장치
Plogsties et al. MPEG Sorround binaural rendering-Sorround sound for mobile devices (Binaurale Wiedergabe mit MPEG Sorround-Sorround sound fuer mobile Geraete)
Gao et al. A Backward Compatible MultiChannel Audio Compression Method

Legal Events

Date Code Title Description
FG Grant or registration