MX2008010631A - Codificacion y decodificacion de audio - Google Patents

Codificacion y decodificacion de audio

Info

Publication number
MX2008010631A
MX2008010631A MX/A/2008/010631A MX2008010631A MX2008010631A MX 2008010631 A MX2008010631 A MX 2008010631A MX 2008010631 A MX2008010631 A MX 2008010631A MX 2008010631 A MX2008010631 A MX 2008010631A
Authority
MX
Mexico
Prior art keywords
data
signal
stereo signal
stereo
binaural
Prior art date
Application number
MX/A/2008/010631A
Other languages
English (en)
Inventor
W J Oomen Arnoldus
J Breebaart Dirk
Gp Schuijers Erik
Original Assignee
J Breebaart Dirk
Koninklijke Philips Electronics Nv
W J Oomen Arnoldus
Schuijers Erik G P
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by J Breebaart Dirk, Koninklijke Philips Electronics Nv, W J Oomen Arnoldus, Schuijers Erik G P filed Critical J Breebaart Dirk
Publication of MX2008010631A publication Critical patent/MX2008010631A/es

Links

Abstract

Un decodificador de audio comprende un receptor de múltiples canales (401) que recibe una señal de audio de canal-M, en donde M(2. Un procesador de mezclado descendente (403) realiza el mezclado descendente de la señal de audio de canal-M con una primera señal de estéreo y los datos paramétricos asociados y un procesador espacial (407) modifica la primera señal de estéreo para generar una segunda señal de estéreo en respuesta a los datos paramétricos asociados y los datos espaciales de parámetro para una función de transferencia perceptual binaural, tal como una Función de Transferencia Relacionada con la Cabeza (HRTF). La segunda señal de estéreo es una señal binaural y, de manera específica, podría ser una señal espacial virtual (3D). Un flujo de datos de salida comprende los datos codificados y los datos paramétricos asociados son generados por el procesador de codificación (411) y el procesador de salida (413). El procesamiento de HRTF podría permitir la generación de una señal espacial virtual (3D) a través de los decodificadores convencionales de estéreo. Un decodificador de múltiples canales podría invertir el proceso del procesador espacial (407) para generar una señal de múltiples canales de calidad mejorada.

Description

CODIFICACION Y DECODIFICACION DE AUDIO DESCRIPCIÓN DE LA INVENCIÓN La invención se refiere a la codificación y decodificación de audio y en particular, aunque no de manera exclusiva a la codificación y/o decodificación que involucra una señal binaural espacial virtual . La codificación digital de varias señales de origen se ha vuelto cada vez más importante a través de las últimas décadas puesto que la representación y la comunicación de señal digital ha reemplazado cada vez más la representación y comunicación análoga. Por ejemplo, la distribución del contenido de medios tales como video y música cada vez más está basada en la codificación del contenido digital. Además, en la última década ha existido una tendencia hacia el audio de múltiples canales y de manera más especifica, hacia el audio espacial que se extiende más allá de las señales convencionales de estéreo. Por ejemplo, las grabaciones tradicionales de estéreo sólo comprenden dos canales, mientras que los sistemas modernos avanzados de audio por lo regular utilizan cinco o seis canales, como los sistemas populares de sonido envolvente de 5.1 canales. Esto proporciona una experiencia de escucha más involucrada, en donde el usuario podría ser envuelto por las fuentes de sonido. REF. 193873 Varias técnicas y estándares han sido desarrollados para la comunicación de estas señales de múltiples canales. Por ejemplo, seis canales discretos que representan un sistema envolvente de 5.1 canales podrían ser transmitidos de acuerdo con los estándares tales como La Codificación Avanzada de Audio (AAC) o los estándares Dolby Digital. Sin embargo, con el fin de proporcionar una compatibilidad hacia atrás, se conoce el mezclado descendente del número más alto de canales con el número más bajo y de manera específica se utiliza en forma frecuente el mezclado descendente de una señal de sonido envolvente de 5.1 canales con una señal de estéreo que permite que la señal de estéreo sea reproducida a través de decodif icadores de legado (estéreo) y una señal 5.1 mediante los decodificadores de sonido envolvente. Un ejemplo es el método de codificación compatible hacia atrás MPEG2. Una señal de múltiples canales es de mezclado descendente en una señal de estéreo. Las señales adicionales son codificadas en la porción de datos auxiliares permitiendo que el decodificador de múltiples canales MPEG2 genere una representación de la señal de múltiples canales. Un decodificador PEGl desechará los datos auxiliares y por lo tanto, sólo va a decodificar el mezclado descendente de estéreo. La desventaja principal del método de codificación aplicado en MPEG2 es que la velocidad adicional de datos requerida para las señales adicionales se encuentra en el mismo orden de magnitud que la velocidad de datos requerida para la codificación de la señal de estéreo. Por lo tanto, es significante la velocidad adicional de bits para extender el audio de estéreo a múltiples canales. Otros métodos existentes para la transmisión de múltiples canales compatibles hacia atrás sin una información adicional de múltiples canales pueden ser normalmente caracterizados como los métodos envolventes de matriz. Los ejemplos de la codificación de sonido envolvente de matriz incluyen métodos tales como Dolby Prologic II y Logic-7. El principio común de estos métodos es que multiplican por matriz los múltiples canales de la señal de entrada por una matriz adecuada no cuadrática, con lo cual, se genera una señal de salida con un número más bajo de canales. De manera específica, un codificador de matriz por lo regular aplica cambios de fase a los canales envolventes antes de mezclarlos con los canales frontal y central. Otra razón para la conversión de canal es la eficiencia de la codificación. Se ha encontrado que las señales de audio de sonido envolvente pueden ser codificadas como señales de audio de canal estéreo combinadas con un flujo de bits de parámetro que describe las propiedades espaciales de la señal de audio. El decodificador puede reproducir las señales de audio de estéreo con un grado muy satisfactorio de exactitud. De este modo, pueden obtenerse ahorros sustanciales de la velocidad de bits. Existen varios parámetros que podrían ser utilizados para describir las propiedades espaciales de las señales de audio. Uno de estos parámetros es la correlación cruzada entre canales, tal como la correlación cruzada entre el canal izquierdo y el canal derecho para las señales de estéreo. Otro parámetro es la relación de potencia de los canales. En los así llamados codificadores de audio espacial (paramétricos ) , estos y otros parámetros son extraídos de la señal de audio original para así producir una señal de audio que tenga un número reducido de canales, por ejemplo, sólo un canal único, más un conjunto de parámetros que describen las propiedades espaciales de la señal de audio original. En los así llamados decodificadores de audio espacial (paramétricos) , las propiedades espaciales como es descrito por los parámetros espaciales transmitidos son nuevamente instaladas . De preferencia, esta codificación de audio espacial emplea una estructura jerárquica de cascada o basada en árbol, que comprende unidades estándares en el codificador y el decodificador . En el codificador, estas unidades estándares pueden ser mezcladores descendentes que combinan canales en un número más bajo de canales tales como mezcladores descendentes de 2-a-l, 3-a-l, 3-a-2, etc., mientras que en el decodif icador las unidades estándares correspondientes pueden ser mezcladores ascendentes que dividen los canales en un número más grande de canales tales como los mezcladores ascendentes de l-a-2, 2-a-3. Un ejemplo de un sistema en donde una señal de múltiples canales es de mezclado descendente con una señal de estéreo que es posteriormente procesada en forma subsiguiente utilizando los parámetros espaciales del mezclado descendente se presenta en la Publicación de Solicitud de Patente del Tratado de Cooperación de Patentes WO 2005/098826A. Un ejemplo de un aparato de codificación y decodificación de señal de audio con la capacidad de transmitir una señal de audio o una señal de audio junto con una señal de audio procesada de efecto de campo de sonido se proporciona en la Publicación de Solicitud de Patente de los Estados Unidos US 2005/0273322A1. El posicionamiento de la fuente de sonido 3D en realidad está ganando interés, sobre todo en el dominio móvil. La reproducción de música y los efectos de sonido en los juegos móviles pueden agregar un valor significante a la experiencia del consumidor cuando se sitúe en 3D, creando de manera efectiva un efecto 3D fuera de la cabeza. De manera especifica, se conoce la grabación y reproducción de señales binaurales de audio que contienen la información específica de dirección en la que es sensible el oído humano.
Normalmente, las grabaciones binaurales son realizadas utilizando dos micrófonos montados en una cabeza humana ficticia o de modelo, de modo que el sonido grabado corresponda con el sonido capturado por el oído humano e incluya cualquier tipo de influencias debido a la forma de la cabeza y los oídos. Las grabaciones binaurales difieren de las grabaciones de estéreo (es decir, estereofónicas ) porque la reproducción de la grabación binaural se pretende que sea generalmente para un auricular o audífonos, mientras que una grabación de estéreo es generalmente realizada para la reproducción a través de altavoces. Mientras que una grabación binaural permite la reproducción de toda la información espacial utilizando sólo dos canales, una grabación de estéreo no proporcionaría la misma percepción espacial. Las grabaciones regulares de doble canal (estereofónicas) o de múltiples canales (por ejemplo, 5.1) podrían ser transformadas en grabaciones binaurales mediante la convolución de cada señal regular con un conjunto de funciones de transferencia perceptual . Estas funciones de transferencia perceptual modelan la influencia de la cabeza humana, y posiblemente otros objetos, en base de la señal. Un tipo bien conocido de función de transferencia perceptual espacial es la así llamada Función de Transferencia Relacionada con la Cabeza (HRTF) . Un tipo alternativo de función de transferencia perceptual espacial, que también toma en cuenta las reflexiones provocadas por las paredes, el techo y el piso de una habitación es la Respuesta de Impulso Binaural de Habitación (BRIR) . Normalmente, los algoritmos de posicionamiento 3D emplean HRTFs, las cuales describen la transferencia de una cierta posición de la fuente de sonido a los tímpanos por medio de una respuesta de impulso. El posicionamiento de la fuente de sonido 3D puede ser aplicado en señales de múltiples canales por medio de HRTFs, con lo cual se permite que una señal binaural proporcione la información de sonido espacial al usuario, por ejemplo, utilizando un par de audífonos . Se conoce que la percepción de elevación es predominantemente facilitada por los picos y muescas específicos en el espectro que llega en ambos oídos. Por otro lado, el acimutal (percibido) de la fuente de sonido es capturado en las marcas "binaurales" , tal como las diferencias de nivel y las diferencias de tiempo de llegada entre las señales en los tímpanos. La percepción de distancia es más facilitada por el nivel total de señal y en el caso de entornos reverberantes, por medio de la relación de energía directa y reverberante. En la mayoría de los casos se supone que sobre todo en la cola final de reverberación no existen marcas de localización confiable de la fuente de sonido. Las marcas perceptuales para la elevación, acimutal y la distancia pueden ser capturadas por medio de (pares de) respuestas de impulso; una respuesta de impulso que describe la transferencia de una posición especifica de fuente de sonido al oído izquierdo, y una para el oído derecho. Por lo tanto, las marcas perceptuales la elevación, acimutal y la distancia son determinadas por las propiedades correspondientes de (par de) las respuestas de impulso HRTF . En la mayoría de los casos, un par HRTF es medido para un conjunto grande de posiciones de fuente de sonido; normalmente, con una resolución espacial aproximadamente de 5 grados tanto en la elevación, como en el acimutal. La síntesis convencional binaural 3D comprende el filtrado (convolución) de una señal de entrada con un par HRTF para la posición deseada de la fuente de sonido. Sin embargo, debido a que las HRTFs normalmente son medidas en las condiciones de reverberación, la percepción de localización de "distancia" o "fuera de la cabeza" con frecuencia está faltando. Aunque la convolución de una señal con HRTFs de reverberación no es suficiente para la síntesis de sonido 3D, el uso de HRTFs de reverberación a menudo es preferible a partir del punto de vista de la complejidad y flexibilidad. El efecto del entorno de eco o imitativo (requerido para la creación de la percepción de la distancia) puede ser agregado en una etapa posterior, dejando alguna flexibilidad para el usuario final a fin de que modifique las propiedades acústicas de la habitación. Además, debido a que la reverberación final a menudo es supuesta que es omni-direccional (sin marcas de dirección) , este método de procesamiento a menudo es más eficiente que la convolución de cada fuente de sonido con un par imitativo HRTF. Asimismo, además de los argumentos de complejidad y flexibilidad para la acústica de la habitación, el uso de HRTFs imitativas tiene ventajas para la síntesis de la señal "seca" (marca de dirección) . La investigación reciente en el campo del posicionamiento 3D ha mostrado que la resolución de frecuencia que es representada por las respuestas de impulso imitativo HRTF es en muchos casos más alta de la necesaria. De manera específica, parece que tanto para el espectro de fase como de magnitud, una resolución de frecuencia no lineal como es propuesto por la escala ERB es suficiente para sintetizar las fuentes de sonido 3D con una exactitud que no es perceptualmente diferente del procesamiento con HRTFs totalmente imitativas. En otras palabras, el espectro HRTF imitativa no requiere una resolución espectral que sea más alta que la resolución de frecuencia del sistema auditivo humano . Un algoritmo convencional de síntesis binaural es delineado en la Figura 1. Un conjunto de canales de entrada es filtrado por un conjunto de HRTFs. Cada señal de entrada es dividida en dos señales (un componente izquierdo 1 L' , y un componente derecho 'R'); cada una de estas señales es filtrada, de manera subsiguiente por una HRTF que corresponda con la posición deseada de la fuente de sonido. Todas las señales de oído izquierdo son subsiguientemente sumadas para generar la señal de salida binaural izquierda y las señales de oído derecho son sumadas para generar la señal de salida binaural derecha. La convolución HRTF puede ser realizada en el dominio de tiempo, aunque con frecuencia se prefiere que se realice el filtrado como un producto en el dominio de frecuencia. En este caso, la suma también puede ser realizada en el dominio de frecuencia. Los sistemas de decodificadores son conocidos puesto que pueden recibir una señal codificada de sonido envolvente y pueden generar una experiencia del sonido envolvente a partir de una señal binaural. Por ejemplo, son conocidos los sistemas de audífonos que permiten que una señal de sonido envolvente sea convertida en una señal binaural de sonido envolvente para proporcionar una experiencia de sonido envolvente al usuario de los audífonos. La Figura 2 ilustra un sistema en donde un decodificador envolvente MPEG recibe una señal de estéreo con datos espaciales paramétricos . El flujo de bits de entrada es desmultiplexado originando parámetros espaciales y un flujo de bits de mezclado descendente. El último flujo de bits es decodificado utilizando un decodificador convencional mono o estéreo. El mezclado descendente decodificado es descifrado por un decodificador espacial, el cual genera una salida de múltiples canales en base a los parámetros espaciales transmitidos. Finalmente, la salida de múltiples canales es entonces procesada a través de una etapa de síntesis binaural (similar a la de la Figura 1) originando una señal de salida binaural que proporciona una experiencia de sonido envolvente al usuario. Sin embargo, este procedimiento tiene un número de desventajas asociadas. Por ejemplo, la cascada del decodificador de sonido envolvente y la síntesis binaural incluye el cálculo de la representación de señal de múltiples canales como una etapa intermedia, seguida por la convolución HRTF y el mezclado descendente en la etapa de síntesis binaural. Esto podría originar un incremento en la complejidad y una reducción en el rendimiento. Asimismo, el sistema es muy complejo. Por ejemplo, normalmente los decodificadores espaciales operan en el dominio de subbanda (QMF) . Por otro lado, la convolución HRTF normalmente puede ser implementada de manera más eficiente en el dominio FF . Por lo tanto, una cascada de un banco de filtros de síntesis QMF de múltiples canales, una transformada FFT de múltiples canales y una transformada FFT inversa de estéreo son necesarias, originando un sistema con altas demandas de computación. La calidad de la experiencia proporcionada al usuario podría ser reducida. Por ejemplo, los artefactos de codificación creados por el decodificador espacial que generan una reconstrucción de múltiples canales serán audibles en la salida binaural (estéreo) . Además, el procedimiento requiere decodificadores dedicados y que sea efectuado el procesamiento complejo de señal por los dispositivos de usuario individual. Esto podría impedir o interrumpir la aplicación en muchas situaciones. Por ejemplo, los dispositivos de legado que sólo son capaces de decodificar el mezclado descendente de estéreo no serán capaces de proporcionar una experiencia de usuario de sonido envolvente . Por lo tanto, una codificación/decodificación mejorada de audio sería ventajosa. Por consiguiente, se prefiere que la invención busque mitigar, aliviar o eliminar una o más de las desventajas mencionadas con anterioridad solas o en cualquier combinación . De acuerdo con un primer aspecto de la invención, se proporciona un codificador de audio que comprende: el medio que recibe una señal de audio de canal-M, en donde M>2; el medio de mezclado descendente que realiza la combinación descendente de la señal de audio de canal-M con una primera señal de estéreo y los datos paramétricos asociados; el medio de generación que modifica la primera señal de estéreo a fin de crear una segunda señal de estéreo en respuesta a los datos paramétricos asociados y los datos espaciales de parámetro para una función de transferencia perceptual binaural, la segunda señal de estéreo es una señal binaural; el medio que codifica la segunda señal de estéreo para generar los datos codificados; y el medio de salida que genera el flujo de datos de salida que comprende los datos codificados y los datos paramétricos asociados. La invención podría permitir una codificación mejorada de audio. En particular, la invención podría permitir una codificación efectiva de estéreo de señales de múltiples canales mientras permite que los decodificadores de estéreo de legado proporcionen una experiencia mejorada espacial. Además, la invención permite que un proceso de síntesis binaural espacial virtual sea invertido en el decodificador, con lo cual se permite una decodificación de múltiples canales de alta calidad. La invención podría permitir un codificador de baja complejidad y en particular podría permitir una generación de baja complejidad de la señal binaural. La invención podría permitir la implementación facilitada y la reutilización de la funcionalidad. En particular, la invención podría proporcionar una determinación de base paramétrica de una señal binaural espacial virtual a partir de una señal de múltiples canales. La señal binaural podría ser, de manera específica, una señal binaural espacial virtual tal como una señal de estéreo binaural 3D virtual. La señal de audio de canal-repodría ser una señal envolvente tal como una señal envolvente de 5.1 ó 7.1 canales . La señal binaural espacial virtual podría emular la posición de la fuente de sonido para cada canal de la señal de audio de canal- . Los datos espaciales de parámetro pueden comprender datos indicativos de la función de transferencia de la posición pretendida de la fuente de sonido al tímpano del usuario pretendido. La función de transferencia perceptual binaural podría ser por ejemplo, una Función de Transferencia Relacionada con la Cabeza (HRTF, por sus siglas en inglés) o Respuesta Binaural de Impulso de Habitación (BPIR, por sus siglas en inglés) . De acuerdo con una característica opcional de la invención, el medio de generación es situado para generar la segunda señal de estéreo mediante el cálculo de los valores de datos de subbanda para la segunda señal de estéreo en respuesta a los datos paramétricos asociados, los datos espaciales de parámetro y los valores de datos de subbanda para la primera señal de estéreo.
Esto podría permitir una codificación mejorada y/o implementación facilitada. De manera específica, la característica podría proporcionar una complejidad reducida y/o una carga reducida computacional . Los intervalos de frecuencia de subbanda de la primera señal de estéreo, la segunda señal de estéreo, los datos paramétricos asociados y los datos espaciales de parámetro podrían ser diferentes o algunas o la totalidad de las subbandas podrían ser sustancialmente idénticas para algunas o la totalidad de éstas. De acuerdo con una característica opcional de la invención, el medio de generación es situado para crear valores de subbanda para la primera subbanda de la segunda señal de estéreo en respuesta a la multiplicación de los correspondientes valores de subbanda de estéreo para la primera señal de estéreo a través de una matriz de primera subbanda; el medio de generación además comprende medios de parámetro que determinan los valores de datos de la matriz de la primera subbanda en respuesta a los datos paramétricos y a los datos espaciales de parámetro para la primera subbanda. Esto podría permitir una codificación mejorada y/o implementación facilitada. De manera específica, la característica podría proporcionar una complejidad reducida y/o carga computacional reducida. La invención podría en particular proporcionar una determinación de base paramétrica de una señal binaural espacial virtual a partir de una señal de múltiples canales mediante la realización de operaciones de matriz en base a las subbandas individuales. Los valores de la matriz de la primera subbanda podrían reflejar el efecto combinado de una cascada de decodificación de múltiples canales y el filtrado HRTF/BRIR de los múltiples canales resultantes. Una multiplicación de matriz de subbanda podría ser realizada para todas las subbandas de la segunda señal de estéreo. De acuerdo con una característica opcional de la invención, el medio de generación además comprende el medio que convierte el valor de datos al menos de una de la primera señal de estéreo, los datos paramétricos y los datos espaciales de parámetro asociados con una subbanda que tiene un intervalo de frecuencia diferente del primer intervalo de subbanda con el valor correspondiente de datos para la primera subbanda . Esto podría permitir una codificación mejorada y/o implementación facilitada. De manera específica, esta característica podría permitir una complejidad reducida y/o carga computacional reducida. De manera específica, la invención podría permitir que los distintos procesos y algoritmos estén basados en divisiones de subbanda más adecuadas para el proceso individual . De acuerdo con una característica opcional de la invención, el medio de generación es situado para determinar los valores de subbanda estéreo LB, RB para la primera subbanda de la segunda señal de estéreo, de manera sustancial como : en donde L0, R0 son los valores correspondientes de subbanda de la primera señal de estéreo y el medio de parámetro es situado para determinar los valores de datos de la matriz de multiplicación, de manera sustancial como: All = m HL(L)+m2lHL(R)+m3lHL(C) l2= HL(L)+ m22HL(R)+ m32HL(C) h2{ = mnHR(L)+ m2lHR(R)+m HR(C) = ml2HR{L)+m22HR(R)+mnHR(C) en donde mk,i son los parámetros determinados en respuesta a los datos paramétricos asociados para un mezclado descendente por medio del mezclado descendente de los canales L, R y C con la primera señal de estéreo; y Hj (X) es determinado en respuesta a los datos espaciales de parámetro para el canal X con el canal de salida estéreo J de la segunda señal de estéreo. Esto podría permitir una codificación mejorada y/o implementación facilitada. De manera específica, la característica podría proporcionar una complejidad reducida y/o carga computacional reducida. De acuerdo con una característica opcional de la invención, al menos uno de los canales L y R corresponde con un mezclado descendente por lo menos de dos canales de mezclado descendente y el medio de parámetro es situado para determinar Hj (X) en respuesta a una combinación ponderada de los datos espaciales de parámetro al menos para dos canales de mezclado descendente. Esto podría permitir una codificación mejorada y/o implementación facilitada. De manera específica, la característica podría proporcionar una complejidad reducida y/o carga computacional reducida. De acuerdo con una característica opcional de la invención, el medio de parámetro es situado para determinar la ponderación de los datos espaciales de parámetro al menos para dos canales de mezclado descendente en respuesta a la medición relativa de energía por lo menos para dos canales de mezclado descendente. Esto podría permitir una codificación mejorada y/o implementación facilitada. De manera específica, la característica podría proporcionar una complejidad reducida y/o carga computacional reducida. De acuerdo con una característica opcional de la invención, los datos espaciales de parámetro incluyen al menos un parámetro seleccionado a partir del grupo que consiste de: un parámetro de subbanda por nivel promedio; un parámetro de tiempo de llegada promedio; una fase al menos de un canal de estéreo; un parámetro de sincronización; un parámetro de retraso del grupo; una fase entre canales de estéreo; y un parámetro de correlación de canal cruzado. Estos parámetros podrían proporcionar una codificación particularmente ventajosa y podrían en particular ser específicamente adecuados para el procesamiento de subbanda. De acuerdo con una característica opcional de la invención, el medio de salida es situado para incluir los datos de posición de fuente de sonido en el flujo de salida. Esto podría permitir que un decodificador determine los datos espaciales de parámetro adecuados y/o podría proporcionar una forma eficiente para indicar los datos espaciales de parámetro con una baja sobrecarga. Esto podría proporcionar una forma eficiente para invertir el proceso de síntesis binaural espacial virtual en el decodificador, con lo cual, se permite la decodificación de múltiples canales de alta calidad. La característica además podría permitir una experiencia mejorada de usuario y podría permitir o facilitar la implementación de una señal binaural espacial virtual con fuentes de sonido en movimiento. La característica podría alternativa o adicionalmente, permitir la adaptación de una síntesis espacial en el decodificador , por ejemplo, a través de la primera inversión de la síntesis realizada en el codificador seguido por la síntesis que utiliza una función adaptada o individualizada de transferencia perceptual binaural . De acuerdo con una característica opcional de la invención, el medio de salida es situado para incluir al menos algunos de los datos espaciales de parámetro en el flujo de salida. Esto podría proporcionar una forma eficiente de invertir el proceso de síntesis binaural espacial virtual en el decodificador , con lo cual, se permite una decodificación de múltiples canales de alta calidad. La característica además podría proporcionar una experiencia mejorada de usuario y podría permitir o facilitar la implementación de la señal binaural espacial virtual con fuentes de sonido en movimiento. Los datos espaciales de parámetro podrían ser directa o indirectamente incluidos en el flujo de salida, por ejemplo, mediante la inclusión de la información que permite que un decodificador determine los datos espaciales de parámetro. La característica podría, alternativa o adicionalmente, permitir la adaptación de la síntesis espacial en el decodificador , por ejemplo, mediante la primera inversión de la síntesis realizada en el codificador seguido por una síntesis que utiliza una función adaptada o individualizada de transferencia perceptual binaural. De acuerdo con una característica opcional de la invención, el codificador además comprende el medio que determina los datos espaciales de parámetro en respuesta a las posiciones deseadas de la señal de sonido. Esto podría permitir la codificación mejorada y/o implementación facilitada. Las posiciones deseadas de la señal de sonido podrían corresponder con las posiciones de las fuentes de sonido para los canales individuales de la señal de canal- . De acuerdo con otro aspecto de la invención, se proporciona un decodificador de audio que comprende: el medio que recibe los datos de entrada que incluyen una primera señal de estéreo y los datos paramétricos asociados con la señal de estéreo de mezclado descendente de una señal de audio de canal-M, en donde M>2, la primera señal de estéreo es una señal binaural que corresponde con la señal de audio de canal-M; y el medio de generación que modifica la primera señal de estéreo para crear la señal de estéreo de mezclado descendente en respuesta a los datos paramétricos y los primeros datos espaciales de parámetro para una función de transferencia perceptual binaural, los primeros datos espaciales de parámetro son asociados con la primera señal de estéreo . La invención podría permitir la decodificación de audio mejorada. En particular, la invención podría permitir una decodificación de estéreo de alta calidad y de manera específica, también podría permitir que un proceso de síntesis binaural espacial binaural de codificador sea invertido en el decodificador . La invención podría permitir un decodificador de baja complejidad. La invención podría permitir la implementación facilitada y la reutilización de la funcionalidad. La señal binaural podría ser, de manera específica, la señal binaural espacial virtual tal como la señal binaural de estéreo 3D virtual. Los datos espaciales de parámetro podrían comprender los datos indicativos de una función de transferencia de la posición pretendida de la fuente de sonido al oído del usuario pretendido. La función de transferencia perceptual binaural podría ser, por ejemplo, una Función de Transferencia Relacionada con la Cabeza (HRTF) o Respuesta Binaural de Impulso de Habitación (BPIR) . De acuerdo con una característica opcional de la invención, el decodificador de audio además comprende el medio de generación de la señal de audio de canal -M en respuesta a la señal de estéreo de mezclado descendente y los datos paramétricos . La invención podría permitir la decodificación de audio mejorada. En particular, la invención podría permitir una decodificación de múltiples canales de alta calidad y de manera específica, podría permitir que un proceso de síntesis binaural espacial virtual de codificador sea invertido en el decodificador . La invención podría permitir un decodificador de baja complejidad. La invención podría permitir la implementación facilitada y la reutilización de la funcionalidad. La señal de audio de canal-M podría ser una señal envolvente tal como una señal envolvente de 5.1 ó 7.1. La señal binaural podría ser una señal espacial virtual que emule la posición de la fuente de sonido para cada canal de la señal de audio de canal-M. De acuerdo con una característica opcional de la invención, el medio de generación es situado para crear la señal de estéreo de mezclado descendente mediante el cálculo de los valores de datos de subbanda para la señal de estéreo de mezclado descendente en respuesta a los datos paramétricos asociados, los datos espaciales de parámetro y los valores de datos de subbanda para la primera señal de estéreo. Esto podría permitir la decodificación mejorada y/o la implementación facilitada. De manera específica, la característica podría proporcionar una complejidad reducida y/o una carga computacional reducida. Los intervalos de frecuencia de subbanda de la primera señal de estéreo, la señal de estéreo de mezclado descendente, los datos paramétricos asociados y los datos espaciales de parámetro podrían ser diferentes o algunas o la totalidad de subbandas podrían ser sustancialmente idénticas para algunas o la totalidad de estos. De acuerdo con una característica opcional de la invención, el medio de generación es situado para crear valores de subbanda para una primera subbanda de la señal de estéreo de mezclado descendente en respuesta a la multiplicación de los valores correspondientes de subbanda estéreo para la primera señal de estéreo por la matriz de la primera subbanda; el medio de generación además comprende el medio de parámetro que determina los valores de datos de la matriz de primera subbanda en respuesta a los datos paramétricos y los datos espaciales de parámetro para la primera subbanda. Esto podría permitir la decodificación mejorada y/o la implementación facilitada. De manera específica, la característica podría proporcionar la complejidad reducida y/o la carga computacional reducida. Los valores de la matriz de primera subbanda podrían reflejar el efecto combinado de una cascada de una decodificación de múltiples canales y el filtrado de HRTF/BRIR de los múltiples canales resultantes. La multiplicación de matriz de subbanda podría ser realizada para todas las subbandas de la señal de estéreo de mezclado descendente . De acuerdo con una característica opcional de la invención, los datos de entrada comprenden al menos algunos datos espaciales de parámetro. Esto podría proporcionar un modo eficiente de invertir el proceso de síntesis binaural espacial virtual realizado en un codificador, con lo cual, se permite la decodificación de múltiples canales de alta calidad. La característica además podría permitir una experiencia mejorada de usuario y también podría permitir o facilitar la implementación de una señal binaural espacial virtual con fuentes de sonido en movimiento. Los datos espaciales de parámetro podrían ser directa o indirectamente incluidos en los datos de entrada, por ejemplo, estos podrían ser cualquier información que permita que el decodificador determine los datos espaciales de parámetro. De acuerdo con una característica opcional de la invención, los datos de entrada comprenden los datos de posición de la fuente de sonido y el decodificador comprende el medio que determina los datos espaciales de parámetro en respuesta a los datos de posición de la fuente de sonido. Esto podría permitir la codificación mejorada y/o la implementación facilitada. Las posiciones deseadas de la señal de sonido podrían corresponder con las posiciones de las fuentes de sonido para los canales individuales de la señal de canal-M. El decodificador podría comprender, por ejemplo, un almacenamiento de datos que incluya los datos espaciales de parámetro HRTF asociados con las distintas posiciones de la fuente de sonido y podría determinar los datos espaciales de parámetro para uso en la recuperación de los datos de parámetro para las posiciones indicadas. De acuerdo con una característica opcional de la invención, el decodificador de audio además comprende una unidad de decodificador espacial que produce un par de canales de salida binaural mediante la modificación de la primera señal de estéreo en respuesta a los datos paramétricos asociados y los segundos datos espaciales de parámetro para una segunda función de transferencia perceptual binaural, los segundos datos espaciales de parámetro son diferentes de los primeros datos espaciales de parámetro. La característica podría permitir una síntesis espacial mejorada y podría en particular, permitir una señal binaural sintetizada espacial individual o personalizada que sea en particular adecuada para el usuario específico. Esto podría ser conseguido mientras todavía se permite que los decodificadores de estéreo de legado generen señales binaurales espaciales sin requerir de la síntesis espacial en el decodificador . Por lo tanto, puede conseguirse un sistema mejorado de audio. La segunda función de transferencia perceptual binaural podría ser, de manera específica, diferente de la función de transferencia perceptual binaural de los primeros datos espaciales. La segunda función de transferencia perceptual binaural y los segundos datos espaciales podrían ser adaptados, de manera específica para el usuario individual del decodificador . De acuerdo con una característica opcional de la invención, el decodificador espacial comprende: una unidad de conversión de parámetro que transforma los datos paramétricos en parámetros de síntesis binaural utilizando los segundos datos espaciales de parámetro, y una unidad de síntesis espacial que sintetiza el par de canales binaurales utilizando los parámetros de síntesis binaural y la primera señal de estéreo. Esto podría permitir el rendimiento mejorado y/o la implementación facilitada y/o la complejidad reducida. Los parámetros binaurales podrían ser parámetros que pudieran ser multiplicados con muestras de subbanda de la primera señal de estéreo y/o la señal de estéreo de mezclado descendente para generar muestras de subbanda para los canales binaurales . La multiplicación podría ser, por ejemplo, una multiplicación de matriz . De acuerdo con una característica opcional de la invención, los parámetros de síntesis binaural comprenden los coeficientes de matriz para una matriz de 2 por 2 con relación a las muestras de estéreo de la señal de estéreo de mezclado descendente con las muestras de estéreo del par de canales de salida binaural . Esto podría permitir el rendimiento mejorado y/o la implementación facilitada y/o la complejidad reducida. Las muestras de estéreo podrían ser muestras de subbanda de estéreo, por ejemplo, subbandas de frecuencia de transformada QMF o Fourier. De acuerdo con una característica opcional de la invención, los parámetros de síntesis binaural comprenden coeficientes de matriz para una matriz de 2 por 2 con relación a las muestras de subbanda de estéreo de la primera señal de estéreo a las muestras de estéreo del par de canales de salida binaural. Esto podría permitir el rendimiento mejorado y/o la implementación facilitada y/o la complejidad reducida. Las muestras de estéreo podrían ser muestras de subbanda de estéreo, por ejemplo, subbandas de frecuencia de transformada QMF o Fourier. De acuerdo con otro aspecto de la invención, se proporciona un método de codificación de audio, el método comprende: recibir una señal de audio de canal-M, en donde M>2; realizar el mezclado descendente de la señal de audio de canal-M con una primera señal de estéreo y los datos paramétricos asociados; modificar la primera señal de estéreo para generar una segunda señal de estéreo en respuesta a los datos paramétricos asociados y los datos espaciales de parámetro para la función de transferencia perceptual binaural, la segunda señal de estéreo es una señal binaural; codificar la segunda señal de estéreo para generar datos codificados; y generar un flujo de datos de salida que comprenda los datos codificados y los datos paramétricos asociados . De acuerdo con otro aspecto de la invención, se proporciona un método de decodificación de audio, el método comprende: recibir datos de entrada que incluyen una primera señal de estéreo y los datos paramétricos asociados con una señal de estéreo de mezclado descendente de una señal de audio de canal-M, en donde M>2, la primera señal de estéreo es una señal binaural que corresponde con la señal de audio de canal-M; y modificar la primera señal de estéreo para generar la señal de estéreo de mezclado descendente en respuesta a los datos paramétricos y los datos espaciales de parámetro para una función de transferencia perceptual binaural, los datos espaciales de parámetro son asociados con la primera señal de estéreo. De acuerdo con otro aspecto de la invención se proporciona un receptor que admite una señal de audio que comprende: el medio que recibe los datos de entrada que incluyen una primera señal de estéreo y los datos paramétricos asociados con la señal de estéreo de mezclado descendente de una señal de audio de canal-M, en donde M>2, la primera señal de estéreo es una señal binaural que corresponde con la señal de audio de canal-M; y el medio de generación que modifica la primera señal de estéreo para crear la señal de estéreo de mezclado descendente en respuesta a los datos paramétricos y los datos espaciales de parámetro para una función de transferencia perceptual binaural, los datos espaciales de parámetro son asociados con la primera señal de estéreo. De acuerdo con otro aspecto de la invención se proporciona un transmisor que envía un flujo de datos de salida; el transmisor comprende: el medio que recibe una señal de audio de canal-M, en donde M>2; el medio de mezclado descendente que realiza el mezclado descendente de la señal de audio de canal-M con una primera señal de estéreo y los datos paramétricos asociados; el medio de generación que modifica la primera señal de estéreo para crear una segunda señal de estéreo en respuesta a los datos paramétricos asociados y los datos espaciales de parámetro para una función de transferencia perceptual binaural, la segunda señal de estéreo es una señal binaural; el medio que codifica la segunda señal de estéreo para generar datos codificados; el medio de salida que genera un flujo de datos de salida que comprende los datos codificados y los datos paramétricos asociados; y el medio que transmite el flujo de datos de salida . De acuerdo con otro aspecto de la invención se proporciona un sistema de transmisión que envía una señal de audio, el sistema de transmisión comprende: un transmisor que incluye: el medio que recibe una señal de audio de canal-M, en donde M>2, el medio de mezclado descendente que realiza el mezclado descendente de la señal de audio de canal-M con una primera señal de estéreo y los datos paramétricos asociados, el medio de generación que modifica la primera señal de audio para crear una segunda señal de estéreo en respuesta a los datos paramétricos asociados y los datos espaciales de parámetro para una función de transferencia perceptual binaural, la segunda señal de estéreo es una señal binaural, el medio que codifica la segunda señal de estéreo para generar datos codificados, el medio de salida que genera un flujo de datos de salida de audio que comprende los datos codificados y los datos paramétricos asociados, y el medio que transmite el flujo de datos de salida de audio; y un receptor que incluye: el medio que recibe el flujo de datos de salida de audio; y el medio que modifica la segunda señal de estéreo para generar la primera señal de estéreo en respuesta a los datos paramétricos y los datos espaciales de parámetro .
De acuerdo con otro aspecto de la invención se proporciona un método de recepción de una señal de audio, el método comprende: recibir datos de entrada que incluyan una primera señal de estéreo y los datos paramétricos asociados con la señal de estéreo de mezclado descendente de una señal de audio de canal-M, en donde M>2, la primera señal de estéreo es una señal binaural que corresponde con la señal de audio de canal-M; y modificar la primera señal de estéreo para generar la señal de estéreo de mezclado descendente en respuesta a los datos paramétricos y los datos espaciales de parámetro para una función de transferencia perceptual binaural, los datos espaciales de parámetro son asociados con la primera señal de estéreo. De acuerdo con otro aspecto de la invención se proporciona un método de transmisión de un flujo de datos de salida de audio, el método comprende: recibir una señal de audio de canal-M, en donde M>2; realizar el mezclado descendente de la señal de audio de canal-M con una primera señal de estéreo y los datos paramétricos asociados; modificar la primera señal de estéreo para generar una segunda señal de estéreo en respuesta a los datos paramétricos asociados y los datos espaciales de parámetro para una función de transferencia perceptual binaural, la segunda señal de estéreo es una señal binaural; codificar la segunda señal de estéreo para generar datos codificados; y generar un flujo de datos de salida de audio que comprende los datos codificados y los datos paramétricos asociados; y transmitir el flujo de datos de salida de audio. De acuerdo con otro aspecto de la invención se proporciona un método de transmisión y recepción de una señal de audio, el método comprende recibir una señal de audio de canal-M, en donde M>2; realizar el mezclado descendente de la señal de audio de canal-M con una primera señal de estéreo y los datos paramétricos asociados; modificar la primera señal de estéreo para generar una segunda señal de estéreo en respuesta a los datos paramétricos asociados y los datos espaciales de parámetro para la función de transferencia perceptual binaural, la segunda señal de estéreo es una señal binaural; codificar la segunda señal de estéreo para generar datos codificados; y generar un flujo de datos de salida de audio que comprende los datos codificados y los datos paramétricos asociados; transmitir el flujo de datos de salida de audio; recibir el flujo de datos de salida de audio; y modificar la segunda señal de estéreo para generar la primera señal de estéreo en respuesta a los datos paramétricos y los datos espaciales de parámetro. De acuerdo con otro aspecto de la invención se proporciona un producto de programa de computadora que ejecuta cualquiera de los métodos descritos con anterioridad. De acuerdo con otro aspecto de la invención se proporciona un dispositivo de grabación de audio que comprende un codificador de acuerdo con el codificador descrito con anterioridad. De acuerdo con otro aspecto de la invención se proporciona un dispositivo de reproducción de audio que comprende un decodificador de acuerdo con el decodificador descrito con anterioridad. De acuerdo con otro aspecto de la invención se proporciona un flujo de datos de audio para una señal de audio que comprende una primera señal de estéreo; y los datos paramétricos asociados con una señal de estéreo de mezclado descendente de una señal de audio de canal-M, en donde M>2; en donde la primera señal de estéreo es una señal binaural que corresponde con la señal de audio de canal-M. De acuerdo con otro aspecto de la invención se proporciona un medio de almacenamiento que tiene guardado en el mismo una señal como se describió con anterioridad. Estos y otros aspectos, características y ventajas de la invención serán aparentes y aclarados con referencia a las modalidades descritas de aquí en adelante. Las modalidades de la invención serán descritas sólo por medio de ejemplo con referencia a las figuras, en las cuales La Figura 1 es una ilustración de una síntesis binaural de acuerdo con la técnica anterior; La Figura 2 es una ilustración de una cascada de un decodificador de múltiples canales y una síntesis binaural; La Figura 3 ilustra un sistema de transmisión para la comunicación de una señal de audio de acuerdo con algunas modalidades de la invención; La Figura 4 ilustra un codificador de acuerdo con algunas modalidades de la invención; La Figura 5 ilustra un codificador de mezclado descendente paramétrico de sonido envolvente; La Figura 6 ilustra un ejemplo de la posición de la fuente de sonido con relación al usuario; La Figura 7 ilustra un decodificador de múltiples canales de acuerdo con algunas modalidades de la invención; La Figura 8 ilustra un decodificador de acuerdo con algunas modalidades de la invención; La Figura 9 ilustra un decodificador de acuerdo con algunas modalidades de la invención; La Figura 10 ilustra un método de codificación de audio de acuerdo con algunas modalidades de la invención; y La Figura 11 ilustra un método de decodificación de audio de acuerdo con algunas modalidades de la invención. La Figura 3 ilustra un sistema de transmisión 300 para la comunicación de una señal de audio de acuerdo con algunas modalidades de la invención. El sistema de transmisión 300 comprende un transmisor 301 que es conectado con un receptor 303 a través de una red 305 la cual, de manera específica, podría ser la Internet. En el ejemplo específico, el transmisor 301 es un dispositivo de grabación de señal y el receptor es un dispositivo de reproducción de señal 303 aunque será apreciado que en otras modalidades el transmisor y el receptor podrían ser utilizados en otras aplicaciones y para otros propósitos. Por ejemplo, el transmisor 301 y/o el receptor 303 podrían ser parte de una funcionalidad de transcodificación y podrían proporcionar por ejemplo, una interconexión con otras fuentes o destinos de señal. En el ejemplo específico en donde una función de grabación de señal es soportada, el transmisor 3 01 comprende un digitalizador 307 que recibe una señal analógica que es convertida en una señal digital PCM mediante el muestreo y la conversión de analógica a digital. El digitalizador 307 muestrea una pluralidad de señales, con lo cual, se genera una señal de múltiples canales. El transmisor 301 es conectado con el codificador 309 de la Figura 1 el cual cifra la señal de múltiples canales de acuerdo con un algoritmo de codificación. El codificador 300 es conectado con un transmisor de red 311 que recibe la señal codificada y se conecta con la Internet 305 . El transmisor de red podría enviar la señal codificada al receptor 303 a través de la Internet 305 .
El receptor 303 comprende un receptor de red 313 que se interconecta con la Internet 305 y que es situado para recibir la señal codificada del transmisor 301. El receptor de red 313 es conectado con un decodificador 315. El decodificador 315 recibe la señal codificada y la decodifica de acuerdo con un algoritmo de decodificación . En el ejemplo especifico en donde una función de reproducción de señal es soportada, el receptor 303 además comprende un reproductor de señal 317 que recibe la señal de audio decodificada del decodificador 315 y presenta esta al usuario. De manera especifica, el reproductor de señal 313 podría comprender un convertidor de digital a analógico, amplificadores y altavoces según sea requerido para dar salida a la señal decodificada de audio. En el ejemplo específico, el codificador 309 recibe una señal de sonido envolvente de cinco canales y realiza el mezclado descendente en esta señal de estéreo. Entonces, la señal de estéreo es posteriormente procesada para generar una señal binaural la cual es, de manera específica, una señal binaural espacial virtual en la forma de un mezclado descendente binaural 3D. Mediante la utilización de una etapa de procesamiento posterior 3D que trabaja en base al mezclado descendente después de la codificación espacial, el procesamiento 3D puede ser invertido en el decodificador 315.
Como resultado, un decodificador de múltiples canales para la reproducción de altavoz no presentará una degradación significante de calidad debido al mezclado descendente modificado de estéreo, mientras que al mismo tiempo, todavía los decodificadores convencionales de estéreo producirán una señal compatible 3D . De esta manera, el codificador 309 podría generar una señal que permita una decodificación de múltiples canales de alta calidad y al mismo tiempo también permite una experiencia pseudo-espacial a partir de la salida de estéreo tradicional tal como por ejemplo, a partir de un decodificador tradicional que alimenta un par de audífonos. La Figura 4 ilustra el codificador 3 09 en mayor detalle . El codificador 3 09 comprende un receptor de múltiples canales 401 que admite una señal de audio de múltiples canales. Aunque los principios descritos se aplicarán en una señal de múltiples canales que comprende cualquier número de canales por encima de dos, el ejemplo específico se enfocará en una señal de cinco canales que corresponde con una señal estándar de sonido envolvente (por motivos de claridad y brevedad el canal de frecuencia más baja que es frecuentemente utilizado para las señales envolventes será ignorado. Sin embargo, será claro para la persona experta en la técnica que la señal de múltiples canales podría tener un canal adicional de baja frecuencia.
Este canal podría ser combinado, por ejemplo, con el canal central a través de un procesador de mezclado descendente) . El receptor de múltiples canales 401 es conectado con un procesador de mezclado descendente 403 que es situado para realizar el mezclado descendente de la señal de audio de cinco canales con una primera señal de estéreo. Además, el procesador de mezclado descendente 403 genera los datos paramétricos 405 asociados con la primera señal de estéreo y contiene marcas de audio y la información con relación a la primera señal de estéreo con los canales originales de la señal de múltiples canales. El procesador de mezclado descendente 403 podría implementar, por ejemplo, un codificador de múltiples canales envolventes MPEG. Un ejemplo de esto se ilustra en la Figura 5. En el ejemplo, la señal de entrada de múltiples canales consiste de los canales Lf (frontal izquierdo), Ls (envolvente izquierdo, C (central), Rf (frontal derecho) y Rs (envolvente derecho) . Los canales Lf y Ls son alimentados a un primer mezclador TTO (Dos para Uno) 501 , el cual genera un mezclado descendente mono para el canal izquierdo (L) , así como también los parámetros que relacionan los dos canales de entrada LF y Ls con el canal de salida L. En forma similar, los canales Rf y Rs son alimentados a un segundo mezclador descendente TTO 503 el cual genera un mezclado descendente mono para un canal derecho (R) así como también los parámetros que relacionan los dos canales de entrada Rf y Rs con el canal de salida R. Los canales R, L y C son entonces alimentados al mezclador descendente TTT (Tres para Dos) 505 el cual combina estas señales para generar un mezclado descendente estéreo y los datos paramétricos adicionales. Los parámetros que se originan del mezclador descendente TTT 505 normalmente consisten de un par de coeficientes de predicción para cada banda de parámetro, o un par de diferencias de nivel que describen las relaciones de energía de las tres señales de entrada. Los parámetros de los mezcladores descendentes TTO 501 , 503 por lo regular consisten de diferencias de nivel y valores de coherencia o correlación cruzada entre las señales de entrada para cada banda de frecuencia. La primera señal de estéreo generada es de esta manera una señal de estéreo convencional estándar que comprende un número de canales de mezclado descendente. Un decodificador de múltiples canales puede recrear la señal original de múltiples canales mediante el mezclado ascendente y la aplicación de los datos paramétricos asociados. Sin embargo, un decodificador de estéreo estándar simplemente proporcionará una señal de estéreo, con lo cual se pierde la información espacial y se produce una experiencia reducida de usuario . Sin embargo, en el codificador 309 , la señal de estéreo de mezclado descendente no es directamente codificada y transmitida. Más bien, la primera señal de estéreo es alimentada a un procesador espacial 407 que a su vez es alimentado por los datos de parámetro asociados 405 del procesador de mezclado descendente 403 . Además, el procesador espacial 407 es conectado con un procesador HRTF 409 . El procesador HRTF 409 genera datos de parámetro de la Función de Transferencia Relacionada con la Cabeza (HRTF) que son utilizados por el procesador espacial 407 para generar una señal binaural 3D . De manera específica, una HRTF describe la función de transferencia de la posición dada de la fuente de sonido a los tímpanos por medio de una respuesta de impulso. El procesador HRTF 409 genera, de manera específica, los datos de parámetro HRTF que corresponden con el valor de la función deseada HRTF en una subbanda de frecuencia. El procesador HRTF 409 podría calcular, por ejemplo, una HRTF para una posición de la fuente de sonido de uno de los canales de la señal de múltiples canales. Esta función de transferencia podría ser convertida en un dominio de frecuencia adecuada de subbanda (tal como el dominio de subbanda QMF O FFT) y podría ser determinado el correspondiente valor del parámetro HRTF en cada subbanda. Se apreciará que aunque la descripción se enfoca en la aplicación de las Funciones de Transferencia Relacionadas con la Cabeza, el procedimiento y los principios descritos se aplican por igual a otras funciones de transferencia perceptual binaural (espaciales tal como la función de Respuesta de Impulso Binaural de Habitación (BRIR) . Otro ejemplo de una función de transferencia perceptual binaural es una regla de movimiento de amplitud simple que describe la cantidad relativa del nivel de señal de un canal de entrada a cada uno de los canales de salida de estéreo binaural. En algunas modalidades, los parámetros HRTF podrían ser calculados en forma dinámica, mientras que en otras modalidades podrían ser predeterminados y guardados en un almacenamiento adecuado de datos. Por ejemplo, los parámetros HRTF podrían ser almacenados en una base de datos como una función de la banda acimutal, de elevación distancia y frecuencia. Los parámetros adecuados HRTF para una subbanda de frecuencia dada pueden entonces simplemente ser recuperados mediante la selección de los valores para la posición espacial deseada de la fuente de sonido. El procesador espacial 407 modifica la primera señal de estéreo para generar una segunda señal de estéreo en respuesta a los datos paramétricos asociados y los datos espaciales de parámetro HRTF. En contraste con la primera señal de estéreo, la segunda señal de estéreo es una señal binaural espacial virtual y de manera específica, una señal binaural 3D que cuando es presentada a través de un sistema convencional de estéreo (por ejemplo, a través de un par de audífonos) puede proporcionar una experiencia mejorada espacial que emula la presencia de más de dos fuentes de sonido en distintas posiciones de fuente de sonido. La segunda señal de estéreo es alimentada a un procesador de codificación 411 que es conectado con un procesador espacial 407 y que cifra la segunda señal en un flujo de datos adecuado para su transmisión (por ejemplo, aplicando niveles convenientes de cuantificación, etc.). El procesador de codificación 411 es conectado con un procesador de salida 413 que genera un flujo de salida mediante la combinación al menos de los datos codificados de la segunda señal de estéreo y los datos asociados de parámetro 405 creados a través del procesador de mezclado descendente 403 . Normalmente, la síntesis HRTF requiere formas de onda para todas las fuentes de sonido individuales (por ejemplo, señales de altavoz en el contexto de la señal de sonido envolvente). Sin embargo, en el codificador 307 , los pares HRTFs son parametrizados para las subbandas de frecuencia, con lo cual, se permite que un ajuste de altavoz virtual 5 . 1 sea generado por medio de un procesamiento posterior de baja complejidad del mezclado descendente de la señal de entrada de múltiples canales, con la ayuda de los parámetros espaciales que fueron extraídos durante el proceso de codificación (y de mezclado descendente) . El procesador espacial podría operar, de manera específica, en el dominio de subbanda tal como el dominio de subbanda QMF o FFT. Más que realizar la decodificación de la primera señal de estéreo de mezclado descendente para generar la señal original de múltiples canales seguida por la síntesis HRTF utilizando el filtrado HRTF, el procesador espacial 407 genera valores de parámetro para cada subbanda que corresponda con el efecto combinado de la decodificación de la primera señal de estéreo de mezclado descendente con una señal de múltiples canales seguida por la nueva codificación de la señal de múltiples canales como una señal binaural 3D. De manera específica, los inventores se han dado cuenta que la señal binaural 3D puede ser generada mediante la aplicación de una multiplicación de matriz de 2x2 a los valores de señal de subbanda de la primera señal. Los valores resultantes de señal de la segunda señal corresponden en forma estrecha con los valores de señal que serían generados por una decodificación de cascada de múltiples canales y de síntesis HRTF. De esta manera, el procesamiento combinado de señal de la codificación de múltiples canales y la síntesis HRTF puede ser mezclado en cuatro valores de parámetro (los coeficientes de matriz) que simplemente pueden ser aplicados a los valores de señal de subbanda de la primera señal para generar los valores deseados de subbanda de la segunda señal. Debido a que los valores de parámetro de matriz reflejan el proceso combinado de la decodificación de señal de múltiples canales y la síntesis HRTF , los valores de parámetro son determinados en respuesta tanto a los datos paramétricos asociados del procesador de mezclado descendente 403 así como también a los parámetros HRTF. En el codificador 309, las funciones de HRTF son parametrizadas para las bandas individuales de frecuencia. El propósito de la parametrización HRTF es capturar las marcas más importantes para la localización de la fuente de sonido a partir de cada para HRTF. Estos parámetros podrían incluir: - El nivel (promedio) para la subbanda de frecuencia para la respuesta de impulso de oído izquierdo; - El nivel (promedio) para la subbanda de frecuencia para la respuesta de impulso de oído derecho; - La diferencia tiempo o fase de llegada (promedio) entre la respuesta de impulso de oído izquierdo y oído derecho ; - La fase o tiempo absoluto (promedio) (o retraso del grupo) por subbanda de frecuencia para ambas de las respuestas de impulso de oído izquierdo y derecho (en este caso, la diferencia de tiempo o fase se convierte en la mayoría de los casos en obsoleta) ; - la correlación de canal cruzado o la coherencia por subbanda de frecuencia entre las respuestas correspondientes de impulso.
Los parámetros de nivel por subbanda de frecuencia pueden ser facilitados tanto para la síntesis de elevación (debidos a los picos y valles específicos en el espectro) , así como también las diferencias de nivel para el acimutal (determinado por la relación de los parámetros de nivel para cada banda) . Los valores absolutos de fase o los valores de diferencia de fase pueden capturar las diferencias de tiempo de llegada entre ambos oídos, los cuales también son importantes marcas para el acimutal de la fuente de sonido. El valor de coherencia podría ser agregado para simular diferencias finas de estructura entre ambos oídos que no pueden ser contribuidas a las diferencias de nivel ylo fase promedio por banda (parámetro) . A continuación, es descrito un ejemplo específico del procesamiento mediante el procesador espacial 407. En el ejemplo, la posición de la fuente de sonido es definida con relación al escucha mediante un ángulo acimutal a y una distancia D, como se muestra en la Figura 6. Una fuente de sonido situada a la izquierda del escucha corresponde con ángulos positivos acimutales. La función de transferencia de la posición de fuente de sonido al oído izquierdo es denotada por HL; la función de transferencia de la posición de la fuente de sonido al oído derecho es denotada por HR. Las funciones de transferencia ¾ y HR están en función del ángulo acimutal a, la distancia D y la elevación e (no se muestran en la Figura 6) . En una representación paramétrica, las funciones de transferencia pueden ser descritas como un conjunto de tres parámetros por subbanda de frecuencia HRTF bh. Este conjunto de parámetros incluye el nivel promedio por banda de frecuencia para la función de transferencia izquierda P± ( , e, D, bh) , el nivel promedio por banda de frecuencia para la función de transferencia derecha Pr(a,e,D, bh) , la diferencia promedio de fase por banda de frecuencia f (a,e,?, bh) . Una extensión posible de este conjunto es la inclusión de una medición de coherencia de las funciones de transferencia izquierda y derecha por banda de frecuencia HRTF ?{a,e,?, bh) . Estos parámetros pueden ser almacenados en una base de datos como una función de acimutal, de elevación, distancia y banda de frecuencia y/o pueden ser calculados utilizando alguna función analítica. Por ejemplo, los parámetros Pj y P podrían ser almacenados como una función del acimutal y la elevación, mientras que el efecto de la distancia es conseguido al dividir estos valores entre la distancia por sí misma (suponiendo una relación 1/D entre el nivel y la distancia de señal) . A continuación, la notación Pj(Lf) denota el parámetro espacial Pi que corresponde con la posición de la fuente de sonido del canal Lf. Debe observarse que el número de subbandas de frecuencia para la parametrización HRTF (i¾) y el ancho de banda de cada subbanda no son necesariamente iguales a la resolución de frecuencia del banco de filtros (QMF) (k) utilizado por el procesador espacial 407 o la resolución de parámetro espacial del procesador de mezclado descendente 403 y las bandas asociadas de parámetro (2¾) . Por ejemplo, el banco de filtros híbrido QMF podría tener 71 canales, una HRTF podría ser parametrizada en 28 bandas de frecuencia y la codificación espacial podría ser efectuada utilizando 10 bandas de parámetro. En estos casos, el mapeo de los parámetros espaciales y HRTF con el índice híbrido QMF podría ser aplicado por ejemplo, utilizando una tabla de búsqueda o una interpolación o función promedio. Los siguientes índices de parámetros serán utilizados en la descripción: índice Descripción bh Indice de banda de parámetro para HRTFs bp índice de banda de parámetro para mezclado descendente de múltiples canales k índice híbrido de banda QMF En el ejemplo específico, el procesador espacial 407 divide la primera señal de estéreo en subbandas adecuadas de frecuencia mediante el filtrado QMF. Para cada subbanda los valores de subbanda LB , RB son determinados como: en donde L0, Ro son los valores correspondientes de subbanda de la primera señal de estéreo y los valores de matriz hj , k son parámetros que son determinados a partir de los parámetros HRTF y los datos paramétricos asociados de mezclado descendente. Los coeficientes de matriz tienen por objetivo la reproducción de las propiedades del mezclado descendente como si todos los canales individuales fueran procesados con HRTFs que corresponden con la posición deseada de la fuente de sonido y que incluyen el efecto combinado de la decodificación de la señal de múltiples canales y la realización de la síntesis HRTF en ésta. De manera específica, y con referencia a la Figura 5 y la descripción de la misma, los valores de matriz pueden ser determinados como: = muHL(L)+m2lHL(R)+m3lHL(C) = m HL(L)+ m22HL(R)+ m32HL(C) h2l = m HR(L)+ m2lHR(R)+ miiHR(C) hn=ml2HR(L)+ m22HR(R)+ m32HR(C) en donde mk<i son los parámetros determinados en respuesta a los datos paramétricos generados por el mezclador descendente TTT 505.
De manera específica, las señales L, R y C son generadas a partir de la señal de estéreo de mezclado descendente L0, Ro de acuerdo con: en donde mkil son dependientes de dos coeficientes de predicción Ci y c2, los cuales son parte de los parámetros espaciales transmitidos: Los valores Hj(X) son determinados en respuesta a los datos de parámetro HRTF para el canal X al canal de salida estéreo J de la segunda señal de estéreo, así como también los parámetros adecuados de mezclado descendente. De manera específica, los parámetros Hj(X) se refieren a las señales izquierda (L) y derecha (R) de mezclado descendente que son generadas por los dos mezcladores descendentes TTO 501, 503 y podrían ser determinados en respuesta a los datos de parámetro HRTF para los dos canales de mezclado descendente. De manera específica, podrían ser utilizada una combinación ponderada de los parámetros HRTF para los dos canales individuales izquierdos (LF y Ls) o derecho (Rf y Rs) . Los parámetros individuales pueden ser ponderados a través de la energía relativa de las señales individuales. Como un ejemplo específico, los siguientes valores podrían ser determinados para la señal izquierda (L) : en donde las ponderaciones wx son dadas por J Q OD, / ÍO v ~ j -j- ioCiD' lü ' j ^_ J Q CZ ), / IO » y CLDi es la "Diferencia de Nivel de Canal" entre los canales izquierdo-frontal (Lf) e izquierdo-envolvente (Ls) definidos en decibeles (que es parte del flujo de bits de parámetro espacial) : con c^if que es la potencia en la subbanda de parámetro del canal Lf y & s que es la potencia en la subbanda correspondiente del canal Ls .
En forma similar, los siguientes valores pueden ser determinados para la señal derecha (R) : f \+\oCLD,no ' ,CLDr/10 " 1 + 10 y para la señal central (C) : HR CC) = Pr (C)e Por lo tanto, utilizando el procedimiento descrito un procesamiento espacial de baja complejidad puede permitir que una señal binaural espacial virtual sea generada en base a la señal de múltiples canales de mezclado descendente. Como se mencionó una ventaja del procedimiento descrito es que las subbandas de frecuencia de los parámetros asociados de mezclado descendente, el procesamiento espacial a través del procesador espacial 407 y los parámetros HRTF no necesitan ser los mismos. Por ejemplo, podría ser realizado el mapeo entre los parámetros de una subbanda con las subbandas del procesamiento espacial. Por ejemplo, si una subbanda de procesamiento espacial cubriera un intervalo de frecuencia que corresponda con las dos subbandas de parámetro HRTF, el procesador espacial 407 simplemente podría aplicar (individual) el procesamiento en base a las subbandas de parámetro HRTF, utilizando el mismo parámetro espacial para todas las subbandas de parámetro HRTF que correspondan con este parámetro espacial . En algunas modalidades, el codificador 309 podría ser situado de manera que incluya los datos de posición de fuente de sonido que permitan que un decodificador identifique los datos deseados de posición de una o más de las fuentes de sonido en el flujo de salida. Esto permite que el decodificador determine los parámetros HRTF aplicados por el codificador 309, con lo cual, se permite que éste invierta la operación del procesador espacial 407. En forma adicional o alterna, el codificador puede ser situado para incluir al menos algunos de los datos de parámetro HRTF en el flujo de salida. De esta manera, en forma opcional los parámetros HRTF y/o los datos de posición de altavoz pueden ser incluidos en el flujo de salida. Esto podría permitir, por ejemplo, la actualización dinámica de los datos de posición de altavoz como una función de tiempo (en el caso de la transmisión de la posición de altavoz) o el uso de datos individualizados HRTF (en el caso de la transmisión de parámetro HRTF) . En el caso que los parámetros HRTF sean transmitidos como parte del flujo de bits, al menos los parámetros Plt Pr y f pueden ser transmitidos para cada banda de frecuencia y para cada posición de fuente de sonido. Los parámetros de magnitud ? , Pr pueden ser cuantificados utilizando un cuantificador lineal, o pueden ser cuantificados en el dominio logarítmico. Los ángulos de fase f pueden ser cuantificados en forma lineal. Los índices de cuantificador pueden ser entonces incluidos en el flujo de bits. Además, los ángulos de fase f pueden ser supuestos que son cero para las frecuencias normalmente por arriba de 2.5 kHz, debido a que la información de fase (inter-aural ) es perceptualmente irrelevante para las altas frecuencias . Después del proceso de cuantificación, podrían aplicarse varios esquemas de compresión sin pérdida a los índices de cuantificador de parámetro HRTF . Por ejemplo, podría aplicarse la codificación de entropía, posiblemente en combinación con la codificación diferencial a través de las bandas de frecuencia. En forma alterna, los parámetros HRTF podrían ser representados como una diferencia con respecto al conjunto común o promedio de parámetros HRTF. Esto se mantiene en especial para los parámetros de magnitud. De otro modo, los parámetros de fase pueden ser aproximados con total exactitud simplemente al codificar la elevación y el acimutal. Mediante el cálculo de la diferencia de tiempo de llegada [normalmente, la diferencia de tiempo de llegada es prácticamente independiente de la frecuencia; es más principalmente dependiente en el acimutal y la elevación] , dada la diferencia de trayectoria para ambos oídos, los parámetros correspondientes de fase pueden ser derivados . Además, las diferencias de medición pueden ser codificadas de manera diferencial en los valores previstos en base a los valores de acimutal y de elevación. También podrían aplicarse esquemas de compresión con pérdidas, tal como la descomposición del componente principal, seguida por la transmisión de algunas de las ponderaciones más importantes PCA. La Figura 7 ilustra un ejemplo de un decodificador de múltiples canales de acuerdo con algunas modalidades de la invención. De manera específica, el decodificador podría ser el decodificador 315 de la Figura 3 . El decodificador 315 comprende un receptor de entrada 701 que admite el flujo de salida del codificador 309 . El receptor de entrada 701 desmultiplexa el flujo recibido de datos y proporciona los datos relevantes a los elementos funcionales adecuados . El receptor de entrada 701 es conectado con un procesador de decodificación 703 que es alimentado con los datos codificados de la segunda señal de estéreo. El procesador de decodificación 703 descifra estos datos para generar la señal binaural espacial virtual que es producida por el procesador espacial 407 .
El procesador de decodificación 7 03 es conectado con un procesador de inversión 7 0 5 que se sitúa para invertir la operación realizada por el procesador espacial 407 . Por lo tanto, el procesador de inversión 7 05 genera la señal de estéreo de mezclado descendente que es producida por el procesador de mezclado descendente 4 03 . De manera específica, el procesador de inversión 7 05 genera la señal de estéreo de mezclado descendente mediante la aplicación de una multiplicación de matriz con los valores de subbanda de la señal binaural espacial virtual recibida. La multiplicación de matriz es por una matriz que corresponda con la matriz inversa de la que es utilizada por el procesador espacial 4 07 , con lo cual se invierte esta operación : Esta multiplicación de matriz también puede ser descrita como: Los coeficientes de matriz qk/1 son determinados a partir de los datos paramétricos asociados con la señal de mezclado descendente (y recibidos en el flujo de datos a partir del decodificador 3 09 ) , así como también los datos de parámetro HRTF. De manera específica, el procedimiento descrito con referencia al codificador 3 09 también podría ser utilizado por el decodificador 4 0 9 para generar los coeficientes de matriz hxy . Los coeficientes de matriz qxy pueden ser entonces encontrados por una inversión estándar de la matriz. El procesador de inversión 7 05 es conectado con un procesador de parámetro 7 07 que determina los datos de parámetro HRTF que serán utilizados. Los parámetros HRTF podrían ser incluidos en algunas modalidades en el flujo recibido de datos y simplemente podrían ser extraídos, del mismo. En otras modalidades, distintos parámetros HRTF podrían ser almacenados, por ejemplo, en una base de datos para las distintas posiciones de fuente de sonido y el procesador de parámetro 7 07 podría determinar los parámetros HRTF mediante la extracción de los valores que correspondan con la posición deseada de la fuente de señal. En algunas modalidades, la posición (es) deseada de la fuente de señal puede ser incluida en el flujo de datos del codificador 3 09 . El procesador de parámetros 7 07 puede extraer esta información y utilizarla para determinar los parámetros HRTF. Por ejemplo, éste podría recuperar los parámetros HRTF almacenados para la posición (es) de indicación de fuente de sonido . En algunas modalidades, la señal de estéreo que es generada por el procesador de inversión podría ser salida en forma directa. No obstante, en otras modalidades, ésta podría ser alimentada a un decodificador de múltiples canales 709 , los cuales pueden generar una señal de canal-M a partir de la señal de estéreo de mezclado descendente y los datos paramétricos recibidos. En el ejemplo, la inversión de la síntesis binaural 3D es realizada en el dominio de subbanda, tal como en las subbandas de frecuencia Q F o Fourier. De esta manera, el procesador de decodificación 703 podría comprender un banco de filtros QMF o una Transformada Rápida de Fourier (FFT) para la generación de las muestras de subbanda alimentadas al procesador de inversión 705 . En forma similar, el procesador de inversión 705 o el decodificador de múltiples canales 709 podrían comprender un banco de filtro inverso FFT o QMF para la conversión de las señales de regreso al dominio de tiempo. La generación de la señal binaural 3D en el lado del codificador permite experiencias de escucha espacial que serán proporcionadas al usuario de audífonos a través de un codificador convencional de estéreo. Por lo tanto, el procedimiento descrito tiene la ventaja que los dispositivos de estéreo de legado puedan reproducir una señal binaural 3D. Como tal, con el fin de reproducir señales binaurales 3D, ningún procedimiento posterior adicional necesita ser aplicado originando una solución de baja complejidad. Sin embargo, en este procedimiento, una HRTF generalizada es normalmente empleada, lo cual podría conducir en algunos casos a una generación espacial subóptima en comparación con la generación de la señal binaural 3D en la señal decodificada utilizando los datos dedicados HRTF que son optimizados para el usuario específico. De manera específica, una percepción limitada de la distancia y posiblemente de errores de localización de fuente de sonido puede originarse en algunas ocasiones del uso de las HRTFs no individualizadas (tal como las respuestas de impulso medidas por una cabeza de modelo u otra persona) . En principio, las HRTFs difieren de persona a persona debido a las diferencias en la geometría anatómica del cuerpo humano. Por lo tanto, los resultados óptimos en términos de la localización correcta de la fuente de sonido pueden ser mejor conseguidos con datos individualizados HRTF. En algunas modalidades, el decodificador 315 además comprende la funcionalidad para la primera inversión del procesamiento espacial del codificador 309 seguido por la generación de una señal binaural 3D que utiliza datos locales HRTF y de manera específica, que utiliza datos individuales HRTF que son optimizados para el usuario específico. Por lo tanto, en esta modalidad el decodificador 315 genera un par de canales de salida binaural mediante la modificación de la señal de estéreo de mezclado descendente utilizando los datos paramétricos asociados y los datos de parámetro HRTF que son diferentes de los datos (HRTF) utilizados en el codificador 309. Por lo tanto, en este procedimiento se proporciona una combinación de la síntesis 3D en el lado del codificador, la inversión en el lado del decodificador , seguida por otra etapa de síntesis 3D en el lado del decodificador . Una ventaja de este procedimiento es que los dispositivos estéreo de legado tendrán señales binaurales 3D como una salida que proporciona una calidad básica 3D, mientras los decodificadores mejorados tienen la opción de utilizar HRTFs personalizadas que permitan una calidad mejorada 3D. De esta manera, ambas de la síntesis compatible de legado 3D, así como también la síntesis dedicada de alta calidad 3D son permitidas en el mismo sistema de audio. Un ejemplo simple de este sistema se ilustra en la Figura 8, el cual muestra cómo puede ser agregado un procesador espacial adicional 801 al decodificador de la Figura 7 a fin de proporcionar una señal de salida binaural personalizada 3D. En algunas modalidades, el procesador espacial 801 simplemente podría proporcionar una simple síntesis binaural directa 3D utilizando funciones individuales HRTF para cada uno de los canales de audio. De esta manera, el decodificador puede recrear la señal original de múltiples canales y puede convertir esto en una señal binaural 3D que utilice el filtrado personalizado HRTF. En otras modalidades, la inversión de la síntesis del codificador y la síntesis del decodificador podrían ser combinadas a fin de proporcionar una operación de complejidad más baja. De manera específica, las HRTFs individualizadas que se utilizan para la síntesis del decodif icador pueden ser parametrizadas y combinadas con los parámetros (el inverso de) utilizados por la síntesis 3D del codificador. De manera más específica como se describió con anterioridad, la síntesis del codificador involucra la multiplicación de las muestras de subbanda estéreo de las señales de mezclado descendente por una matriz de 2x2: en donde L0, Ro son los valores correspondientes de subbanda de la señal de estéreo de mezclado descendente y los valores de matriz hj , k son los parámetros que son determinados a partir de los parámetros HRTF y los datos paramétricos asociados de mezclado descendente como se describió con anterioridad. La inversión realizada por el procesador de inversión 705 puede ser entonces dada por: en donde LB, RB son los valores correspondientes de subbanda de la señal de estéreo de mezclado descendente del decodificador .
Para garantizar un proceso adecuado de inversión en el lado del decodificador , los parámetros de HRTF utilizados en el codificador para generar la señal binaural 3D, y los parámetros HRTF utilizados para invertir el procesamiento binaural 3D son idénticos o suficientemente similares. Debido a que un flujo de bits generalmente servirá para varios decodificadores , la personalización del mezclado descendente binaural 3D es difícil de obtener a través de la síntesis del codificador . Sin embargo, debido a que el proceso de síntesis binaural 3D puede ser invertido, el procesador de inversión 705 regenera la señal de estéreo de mezclado descendente, la cual es entonces utilizada para generar una señal binaural 3D en base a las HRTFs individualizadas. De manera específica, en analogía con la operación en el codificador 309, la síntesis binaural 3D en el decodificador 315 puede ser generada por una operación simple de matriz longitudinal de subbanda de 2x2 en base a la señal de mezclado descendente L0, Ro para generar una señal binaural 3D LB ' , RB' : en donde los parámetros px,y son determinados en base a las HRTFs individualizadas en el mismo modo que hx,y son generados por el codificador 309 en base a la HRTF general.
De manera específica, en el decodificador 309, los parámetros hx,y son determinados a partir de los datos paramétricos de múltiples canales y las HRTFs generales. Puesto que los datos paramétricos de múltiples canales son transmitidos al decodificador 315, el mismo procedimiento puede ser utilizado por éste para calcular px,y en base a la HRTF individual. Combinando esto con la operación del procesador de inversión 705: En esta ecuación, las entradas de matriz hx,y son obtenidas utilizando el conjunto general de HRTF no individualizada que se emplea en el codificador, mientras que las entradas de matriz px,y son obtenidas utilizando un conjunto diferente y preferiblemente personalizado de HRTFs. Por lo tanto, la señal binaural de entrada 3D LB, RB que es generada utilizando datos de HRTF no individualizada es transformada en una señal binaural alternativa de salida 3D LB' , RB' # utilizando diferentes datos de HRTF personalizada. Además, como se ilustra, el procedimiento combinado de la inversión de la síntesis del codificador y la síntesis del decodificador puede ser conseguido a través de una operación simple de matriz de 2x2. Por lo tanto, la complejidad de cómputo de este proceso combinado es virtualmente la misma que para una simple inversión binaural 3D. La Figura 9 ilustra un ejemplo del decodificador 315 que opera de acuerdo con los principios descritos con anterioridad. De manera espec fica, las muestras de subbanda de estéreo del mezclado descendente de estéreo binaural 3D que provienen del codificador 309 son alimentadas al procesador de inversión 705, el cual regenera las muestras originales de mezclado descendente estéreo a través de una operación de matriz de 2x2.
Las muestras resultantes de subbanda son alimentadas a una unidad de síntesis espacial 901 que genera una señal binaural individualizada 3D mediante la multiplicación de estas muestras por una matriz de 2x2.
Los coeficientes de matriz son generados por una unidad de conversión de parámetro 903 la cual genera los parámetros en base a la HRTF individualizada y los datos de extensión de múltiples canales recibidos a partir del codificador 309. Las muestras de subbanda de síntesis LB' , RB' , son alimentadas a una subbanda en la transformada del dominio de tiempo 905 la cual genera las señales binaurales de dominio de tiempo 3D que pueden ser proporcionadas al usuario. Aunque la Figura 9 ilustra las etapas de la inversión 3D en base a las HRTFs no individualizadas y la síntesis 3D en base a las HRTFs individualizadas como operaciones secuenciales mediante distintas unidades de función, será apreciado que en muchas modalidades esas operaciones son usadas en forma simultánea por una aplicación única de matriz. De manera específica, la matriz de 2x2 es calculada y las muestras de salida son calculadas como Se apreciará que el sistema descrito proporciona un número de ventajas que incluyen: - Ninguna o poca degradación de calidad (perceptual) de la reconstrucción de múltiples canales puesto que el procesamiento exterior espacial puede ser invertido en decodificadores de múltiples canales. - Una experiencia estéreo binaural espacial (3D) puede ser proporcionada incluso por los decodificadores convencionales de estéreo. - Una complejidad reducida si se compara con los métodos existentes de posicionamiento espacial. La complejidad es reducir en un número de formas: un almacenamiento eficiente de los parámetros HRTF. En lugar de almacenar respuestas de impulso HRTF, sólo un número limitado de parámetros es utilizado para caracterizar las HRTFs . - Un procesamiento eficiente 3D. Debido a que las HRTFs son caracterizadas como parámetros en una resolución limitada de frecuencia, y la aplicación de los parámetros HRTF es realizada en el dominio de parámetro (de una muestra en gran medida hacia abajo) , la etapa de síntesis espacial es más eficiente que los métodos convencionales de síntesis basados en la convolución total HRTF. - El procesamiento requerido puede ser realizado, por ejemplo, en el dominio QMF, originando una carga computacional y de memoria más pequeña que los métodos basados en FFT . La reutilización eficiente de los bloques existentes de construcción de sonido envolvente (tal como las funcionalidades estándares de codificación/decodificación del sonido envolvente MPEG) que permiten una complejidad mínima de implementación. La posibilidad de personalización mediante la modificación de los datos HRTF (parametrizados ) que son transmitidos por el codificador. - Las posiciones de fuente de sonido pueden cambiar al vuelo mediante la información transmitida de posición. La Figura 10 ilustra un método de codificación de audio de acuerdo con algunas modalidades de la invención. El método inicia en la etapa 1001 en donde la señal de audio de canal- es recibida (M>2 ) . La etapa 1001 es seguida por la etapa 1003 , en donde la señal de audio de canal-M este mezclado descendente con una primera señal de estéreo y los datos paramétricos asociados . La etapa 1003 es seguida por la etapa 1005 , en donde la primera señal de estéreo es modificada para generar una segunda señal de estéreo en respuesta a los datos paramétricos asociados y los datos espaciales de parámetro de la Función de Transferencia Relacionada con la Cabeza (HRTF) . La segunda señal de estéreo es una señal binaural espacial virtual . La etapa 1005 es seguida por la etapa 1007 , en donde la segunda señal de estéreo es codificada para generar datos codificados . La etapa 1007 es seguida por la etapa 1009 , en donde es generado un flujo de datos de salida que comprende los datos codificados y los datos paramétricos asociados. La Figura 11 ilustra un método de decodificación de audio de acuerdo con algunas modalidades de la invención. El método inicia en la etapa 1101 en donde un decodificador recibe datos de entrada que comprenden una primera señal de estéreo y los datos paramétricos asociados con una señal de estéreo de mezclado descendente de una señal de audio de canal-M, en donde M>2. La primera señal de estéreo es una señal binaural espacial virtual. La etapa 1101 es seguida por la etapa 1103, en donde la primera señal de estéreo es modificada para generar una señal de estéreo de mezclado descendente en respuesta a los datos paramétricos y los datos espaciales de parámetro de la Función de Transferencia Relacionada con la Cabeza (HRTF) asociados con la primera señal de estéreo. La etapa 1103 es seguida por la etapa opcional 1105 en donde la señal de audio de canal-M es generada en respuesta a la señal de estéreo de mezclado descendente y los datos paramétricos. Será apreciado que la descripción anterior ha explicado, por motivos de claridad, las modalidades de la invención con referencia a las distintas unidades funcionales y procesadores. Sin embargo, será aparente que cualquier distribución adecuada de funcionalidad entre las distintas unidades funcionales o procesadores podría utilizarse sin apartarse de la invención. Por ejemplo, la funcionalidad ilustrada que será realizada por procesadores o controladores separados podría ser efectuada por el mismo procesador o controladores. Por lo tanto, las referencias a las unidades específicas funcionales sólo son para observarse como referencias a los medios adecuados que proporcionan la funcionalidad descrita más que indicativa de una estructura u organización estricta lógica o física. La invención puede ser implementada en cualquier forma adecuada que incluye hardware, software, firmware o cualquier combinación de éstas. La invención podría ser implementada, de manera opcional, por lo menos parcialmente, como un software de computadora que se ejecuta en uno o más procesadores de datos y/o procesadores de señal digital. Los elementos y componentes de una modalidad de la invención podrían ser implementados en forma física, funcional y lógica en cualquier modo adecuado. En su lugar, la funcionalidad podría ser implementada en una unidad única, en una pluralidad de unidades o como parte de otras unidades funcionales. Como tal, la invención podría ser implementada en una unidad única o podría ser distribuida física y funcionalmente entre diferentes unidades y procesadores. Aunque la presente invención ha sido descrita en conexión con algunas modalidades, no se pretende que sea limitada a la forma específica señalada en la presente. Más bien, el alcance de la presente invención sólo es limitado por las reivindicaciones que la acompañan. Además, aunque una característica podría aparecer que es descrita en conexión con modalidades particulares, una persona experta en la técnica reconocería que varias características de las modalidades descritas podrían ser combinadas de acuerdo con la invención. En las reivindicaciones, el término que comprende no excluye la presencia de otros elementos o etapas . Además, aunque son enlistados de manera individual, una pluralidad de medios, elementos o etapas de método podría ser implementada a través, por ejemplo, de una unidad o procesador único. Además, aunque podrían ser incluidas las características individuales en distintas reivindicaciones, estas posiblemente podrían ser combinadas, de manera ventajosa, y la inclusión en diferentes reivindicaciones no implica que una combinación de características no sea factible y/o ventajosa. Asimismo, la inclusión de una característica en una categoría de reivindicaciones no implica la limitación a esta categoría sino más bien indica que la característica puede ser aplicada por igual en otras categorías de reivindicación, según sea adecuado. Además, el orden de las características en las reivindicaciones no implica ningún orden específico en el cual las características tengan que ser trabajadas y en particular, el orden de las etapas individuales en una reivindicación de método no implica que las etapas tengan que ser efectuadas en este orden. Más bien, las etapas podrían ser realizadas en cualquier orden adecuado. Además, las referencias en singular no excluyen una pluralidad. Por lo tanto, las referencias a "un", "una", "primero", "segundo", etc. no excluyen una pluralidad. Los signos de referencia en las reivindicaciones son proporcionados simplemente como un ejemplo aclaratorio que no debe ser interpretado como limitante del alcance de las reivindicaciones en modo alguno. Se hace constar que con relación a esta fecha el mejor método conocido por la Solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención.

Claims (34)

  1. REIVINDICACIONES Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes reivindicaciones : 1. Un codificador de audio, caracterizado porque comprende : el medio que recibe una señal de audio de canal-M, en donde >2 ; el medio de mezclado descendente que realiza el mezclado descendente de la señal de audio de canal-M con una primera señal de estéreo y los datos paramétricos asociados; el medio de generación que modifica la primera señal de estéreo a fin de crear una segunda señal de estéreo en respuesta a los datos paramétricos asociados y los datos espaciales de parámetro indicativos de una función de transferencia perceptual binaural, la segunda señal de estéreo es una señal binaural; el medio que codifica la segunda señal de estéreo para generar los datos codificados; y el medio de salida que genera el flujo de datos de salida que comprende los datos codificados y los datos paramétricos asociados .
  2. 2. El codificador de conformidad con la reivindicación 1, caracterizado porque el medio de generación es situado para crear la segunda señal de estéreo mediante el cálculo de los valores de datos de subbanda para la segunda señal de estéreo en respuesta a los datos paramétricos asociados, los datos espaciales de parámetro y los valores de datos de subbanda para la primera señal de estéreo.
  3. 3. El codificador de conformidad con la reivindicación 2, caracterizado porque el medio de generación es situado para crear los valores de subbanda para la primera subbanda de la segunda señal de estéreo en respuesta a la multiplicación de los valores correspondientes de subbanda de estéreo para la primera señal de estéreo por una matriz de primera subbanda; el medio de generación además incluye el medio de parámetro que determina los valores de datos de la matriz de primera subbanda en respuesta a los datos paramétricos asociados y los datos espaciales de parámetro para la primera subbanda.
  4. 4. El codificador de conformidad con la reivindicación 3, caracterizado porque el medio de generación además comprende el medio que convierte un valor de datos al menos de una de la primera señal de estéreo, los datos paramétricos asociados y los datos espaciales de parámetro asociados con una subbanda que tiene un intervalo de frecuencia diferente del intervalo de primera subbanda con un valor correspondiente de datos de la primera subbanda.
  5. 5. El codificador de conformidad con la reivindicación 3, caracterizado porque el medio de generación es situado para determinar los valores estéreo de subbanda LB, RB para la primera subbanda de la segunda señal de estéreo, de manera sustancial como: en donde L0, R0 son los valores correspondientes de subbanda de la primera señal de estéreo y el medio de parámetro es situado para determinar los valores de datos de la matriz de multiplicación, de manera sustancial como: A,, = muHL(L)+ m2lHL(R)+m)HL(C) h2=mnHL(L)+ m22HL(R)+ mJ2HL(C) =mnHR(L)+ m2lHR(R)+m3lHR(C) h^^m^H&{L)+ m22HR(R)+mi2HR(C) en donde mk,i son los parámetros determinados en respuesta a los datos paramétricos asociados para un mezclado descendente por medio del mezclado descendente de los canales L, R y C con la primera señal de estéreo; y H (X) es determinada en respuesta a los datos espaciales de parámetro para el canal X con el canal de salida J de la segunda señal de estéreo.
  6. 6. El codificador de conformidad con la reivindicación 5, caracterizado porque al menos uno de los canales L y R corresponde con un mezclado descendente por lo menos de dos canales de mezclado descendente y el medio de parámetro es situado para determinar Hj(X) en respuesta a una combinación ponderada de los datos espaciales de parámetro al menos para dos canales de mezclado descendente.
  7. 7. El codificador de conformidad con la reivindicación 6, caracterizado porque el medio de parámetro es situado para determinar la ponderación de los datos espaciales de parámetro al menos para dos canales de mezclado descendente en respuesta a la medición relativa de energía al menos para dos canales de mezclado descendente.
  8. 8. El codificador de conformidad con la reivindicación 1, caracterizado porque los datos espaciales de parámetro incluyen al menos un parámetro seleccionado a partir del grupo que consiste de: un parámetro promedio de nivel por subbanda; un parámetro promedio de tiempo de llegada; una fase al menos de un canal estéreo; un parámetro de sincronización; un parámetro de retraso de grupo; una fase entre canales estéreo; y un parámetro de correlación de canal cruzado.
  9. 9. El codificador de conformidad con la reivindicación 1, caracterizado porque el medio de salida es situado de manera que incluya los datos de posición de fuente de sonido en el flujo de salida.
  10. 10. El codificador de conformidad con la reivindicación 1, caracterizado porque el medio de salida es situado de manera que incluya al menos algunos de los datos espaciales de parámetro en el flujo de salida.
  11. 11. El codificador de conformidad con la reivindicación 1, caracterizado además porque comprende el medio que determina los datos espaciales de parámetro en respuesta a las posiciones deseadas de la señal de sonido.
  12. 12. Un decodificador de audio, caracterizado porque comprende : el medio que recibe los datos de entrada que incluyen una primera señal de estéreo y los datos paramétricos asociados con la señal de estéreo de mezclado descendente de una señal de audio de canal-M, en donde M>2, la primera señal de estéreo es una señal binaural que corresponde con la señal de audio de canal-M; y el medio de generación que modifica la primera señal de estéreo para crear la señal de estéreo de mezclado descendente en respuesta a los datos paramétricos y los primeros datos espaciales de parámetro indicativos de una función de transferencia perceptual binaural, los primeros datos espaciales de parámetro son asociados con la primera señal de estéreo.
  13. 13. El decodificador de conformidad con la reivindicación 12, caracterizado además porque comprende el medio que genera la señal de audio de canal-M en respuesta a la señal de estéreo de mezclado descendente y los datos paramétricos .
  14. 14. El decodificador de conformidad con la reivindicación 12, caracterizado porque el medio de generación es situado para crear una señal de estéreo de mezclado descendente mediante el cálculo de los valores de datos de subbanda para la señal de estéreo de mezclado descendente en respuesta a los datos paramétricos asociados, los primeros datos espaciales de parámetro y los valores de datos de subbanda para la primera señal de estéreo.
  15. 15. El decodificador de conformidad con la reivindicación 14, caracterizado porque el medio de generación es situado para crear valores de subbanda para la primera subbanda de la señal de estéreo de mezclado descendente en respuesta a la multiplicación de los valores correspondientes de subbanda estéreo para la primera señal de estéreo por una matriz de primera subbanda; el medio de generación además incluye el medio de parámetro que determina los valores de datos de la matriz de primera subbanda en respuesta a los datos paramétricos y los datos de parámetro de función de transferencia perceptual binaural para la primera subbanda .
  16. 16. El decodificador de conformidad con la reivindicación 12, caracterizado porque los datos de entrada comprenden al menos algunos de los primeros datos espaciales de parámetro .
  17. 17. El decodificador de conformidad con la reivindicación 12, caracterizado porque los datos de entrada comprenden los datos de posición de la fuente de sonido y el decodificador incluye el medio que determina los primeros datos espaciales de parámetro en respuesta a los datos de posición de la fuente de sonido.
  18. 18. El decodificador de conformidad con la reivindicación 12, caracterizado además porque comprende: una unidad de decodificador espacial que produce un par de canales de salida binaural mediante la modificación de la primera señal de estéreo en respuesta a los datos paramétricos asociados y los segundos datos espaciales de parámetro indicativos de una segunda función de transferencia perceptual binaural, los segundos datos espaciales de parámetro son diferentes de los primeros datos espaciales de parámetro .
  19. 19. El decodificador de conformidad con la reivindicación 18, caracterizado porque la unidad de decodificador espacial comprende: una unidad de conversión de parámetro que transforma los datos paramétricos en parámetros de síntesis binaural utilizando los segundos datos espaciales de parámetro, y una unidad de síntesis espacial que sintetiza el par de canales binaurales utilizando los parámetros de síntesis binaural y la primera señal de estéreo.
  20. 20 . El decodificador de conformidad con la reivindicación 19 , caracterizado porque los parámetros de síntesis binaural comprenden coeficientes de matriz para una matriz de 2 x 2 con relación a las muestras de estéreo de la señal de estéreo de mezclado descendente con las muestras de estéreo del par de canales de salida binaural.
  21. 21 . El decodificador de conformidad con la reivindicación 19 , caracterizado porque los parámetros de síntesis binaural comprenden coeficientes de matriz para una matriz de 2 x 2 que relaciona las muestras de subbanda de estéreo de la primera señal de estéreo con las muestras de estéreo del par de canales de salida binaural.
  22. 22 . Un método de codificación de audio, caracterizado porque comprende: recibir una señal de audio de canal-M, en donde M>2 ; realizar el mezclado descendente de la señal de audio de canal-M con una primera señal de estéreo y los datos paramétricos asociados; modificar la primera señal de estéreo para generar una segunda señal de estéreo en respuesta a los datos paramétricos asociados y los datos espaciales de parámetro para la función de transferencia perceptual binaural, la segunda señal de estéreo es una señal binaural; codificar la segunda señal de estéreo para generar datos codificados; y generar un flujo de datos de salida que comprenda los datos codificados y los datos paramétricos asociados.
  23. 23. Un método de decodificación de audio, caracterizado porque comprende: recibir los datos de entrada que incluyen una primera señal de estéreo y los datos paramétricos asociados con una señal de estéreo de mezclado descendente de una señal de audio de canal-M, en donde M>2, la primera señal de estéreo es una señal binaural que corresponde con la señal de audio de canal-M; y modificar la primera señal de estéreo para generar la señal de estéreo de mezclado descendente en respuesta a los datos paramétricos y los datos espaciales de parámetro para una función de transferencia perceptual binaural, los datos espaciales de parámetro son asociados con la primera señal de estéreo.
  24. 24. El receptor, caracterizado porque admite una señal de audio que comprende un decodificador de audio de conformidad con la reivindicación 12.
  25. 25. El transmisor que envía un flujo de datos de salida, caracterizado porque comprende un codificador de audio de conformidad con la reivindicación 1 y el medio que transmite el flujo de datos de salida.
  26. 26. El sistema de transmisión que envía una señal de audio, caracterizado porque comprende: un transmisor de conformidad con la reivindicación 25 ; y un receptor que incluye: el medio que recibe el flujo de datos de salida; y el medio que modifica la segunda señal de estéreo para generar la primera señal de estéreo en respuesta a los datos paramétricos asociados y los datos espaciales de parámetro .
  27. 27 . El método de recepción de una señal de estéreo, caracterizado porque comprende realizar el método de conformidad con la reivindicación 23 .
  28. 28 . El método de transmisión de un flujo de datos de salida de audio, caracterizado porque comprende realizar el método de conformidad con la reivindicación 22 ; y transmite el flujo de datos de salida de audio.
  29. 29 . El método de transmisión y recepción de una señal de audio, caracterizado porque comprende la realización del método de conformidad con la reivindicación 28 ; y recibir el flujo de datos de salida de audio; y modificar la segunda señal de estéreo para generar la primera señal de estéreo en respuesta a los datos paramétricos y los datos espaciales de parámetro.
  30. 30 . El producto de programa de computadora, caracterizado porque ejecuta el método de conformidad con cualquiera de las reivindicaciones 22, 23, 27, 28 ó 29.
  31. 31. El dispositivo de grabación de audio, caracterizado porque comprende un codificador de conformidad con la reivindicación 1.
  32. 32. El dispositivo de reproducción de audio, caracterizado porque comprende un decodificador de conformidad con la reivindicación 12. 33. Un flujo de datos de audio para una señal de audio, caracterizado porque comprende: una primera señal de estéreo; y datos paramétricos asociados con una señal de estéreo de mezclado descendente de una señal de audio de canal-M, en donde M>2; en donde la primera señal de estéreo es una señal binaural que corresponde con la señal de audio de canal-M. 34. El medio de almacenamiento, caracterizado porque tiene guardado en el mismo un flujo de datos de audio de conformidad con la reivindicación
  33. 33.
MX/A/2008/010631A 2006-02-21 2008-08-19 Codificacion y decodificacion de audio MX2008010631A (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP06110231.5 2006-02-21
EP06110803.1 2006-03-07
EP06112104.2 2006-03-31
EP06119670.5 2006-08-29

Publications (1)

Publication Number Publication Date
MX2008010631A true MX2008010631A (es) 2008-10-03

Family

ID=

Similar Documents

Publication Publication Date Title
US20200335115A1 (en) Audio encoding and decoding
AU2008309951B8 (en) Method and apparatus for generating a binaural audio signal
KR101010464B1 (ko) 멀티 채널 신호의 파라메트릭 표현으로부터 공간적 다운믹스 신호의 생성
KR101782917B1 (ko) 오디오 신호 처리 방법 및 장치
KR100928311B1 (ko) 오디오 피스 또는 오디오 데이터스트림의 인코딩된스테레오 신호를 생성하는 장치 및 방법
JP6329629B2 (ja) 領域の音場データを圧縮および解凍するための方法および装置
US20120039477A1 (en) Audio signal synthesizing
CN108353242A (zh) 音频解码器和解码方法
RU2427978C2 (ru) Кодирование и декодирование аудио
MX2008010631A (es) Codificacion y decodificacion de audio
MX2008011994A (es) Generacion de mezclas descendentes espaciales a partir de representaciones parametricas de señales de multicanal.