MX2011003742A - Renderizacion binaural de una señal de audio multicanal. - Google Patents

Renderizacion binaural de una señal de audio multicanal.

Info

Publication number
MX2011003742A
MX2011003742A MX2011003742A MX2011003742A MX2011003742A MX 2011003742 A MX2011003742 A MX 2011003742A MX 2011003742 A MX2011003742 A MX 2011003742A MX 2011003742 A MX2011003742 A MX 2011003742A MX 2011003742 A MX2011003742 A MX 2011003742A
Authority
MX
Mexico
Prior art keywords
signal
stereo
binaural
multichannel
conversion
Prior art date
Application number
MX2011003742A
Other languages
English (en)
Inventor
Lars Villemoes
Johannes Hilpert
Jonas Engdegard
Jeroen Breebaart
Jan Plogsties
Harald Mundt
Oliver Hellmuth
Leonid Terentiev
Cornelia Falch
Jeroen Koppens
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of MX2011003742A publication Critical patent/MX2011003742A/es

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S1/005For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

Se describe la renderización binaural una señal de audio multicanal en una señal de salida binaural (24). La señal de audio multicanal comprende una señal (18) de conversión estereofónica de multicanal a estéreo, a la cual una pluralidad de señales de audio se convierte de multicanal a estéreo, e información conexa que comprende una información sobre conversión de multicanal a estéreo (DMG, DCLD) que indica, para cada señal de audio, hasta qué punto la respectiva señal de audio se ha mezclado en un primer canal y un segundo canal de la señal (18) de conversión estereofónica de multicanal a estéreo, respectivamente, así como la información sobre el nivel del objeto de la pluralidad de señales de audio y la información de correlación cruzada entre objetos que describe semejanzas entre pares de señales de audio de la pluralidad de señales de audio. Basado en una primera prescripción de renderización, una señal (54) binaural preliminar, se calcula a partir de los primeros y segundos canales de la señal (18) de conversión estereofónica de multicanal a estéreo. Se genera una señal no correlacionada (Xnd,k), como un equivalente perceptual con una conversión monoaural de multicanal a estéreo (58), de los primeros y segundos canales de la señal (18) de conversión estereofónica de multicanal a estéreo que es, sin embargo, decorrelacionada a la conversión monoaural de multicanal a estéreo (58). Según una segunda prescripción de renderización (p21, m), se calcula una señal (64) binaural correctiva a partir de la señal (62) no correlacionada y la señal (54) binaural preliminar, se mezcla con la señal (64) binaural correctiva para obtener la señal de salida binaural (24).

Description

RENDERIZACIÓN BINAURAL DE UNA SEÑAL DE AUDIO MULTICANAL Descripción de la Invención La presente solicitud se relaciona con la renderización binaural de una señal de audio multicanal .
Muchos algoritmos de codificación de audio han sido propuestos a fin de codificar con eficacia o comprimir datos de audio de un canal, es decir, señales monoarurales . Usando la psicoacústica, las muestras de audio son apropiadamente modificadas a escala, cuantificadas o conjunto ni siquiera al cero a fin de retirar la irrelevancia de, por ejemplo, el PCM señal de audio codificada. La eliminación de redundancia también es llevada a cabo.
Como una etapa adicional, las semejanzas entre el canal derecho e izquierdo de señales de audio estéreo han sido explotadas a fin de codificar/comprimir con eficacia señales de audio estéreo.
Sin embargo, las aplicaciones próximas plantean demandas adicionales en algoritmos de codificación de audio. Por ejemplo, en teleconferencia, vídeojuegos, desempeño de música y lo similar, varias señales de audio que son parcialmente o incluso completamente no correlacionadas tienen que transmitirse en paralelo. A fin de mantener la velocidad binaria necesaria para codificar estas señales de audio bastante bajo a fin de ser compatible a aplicaciones de transmisión de tasa con el bajo bit, recientemente, codees de audio ha sido propuesta que conversión de multicanal a estéreo múltiples señales de audio de entrada en una señal de conversión de multicanal a estéreo, como una señal de conversión monoaural de multicanal a estéreo estéreo o ni siquiera. Por ejemplo, las conversiones de multicanal a estéreo de norma de Sonido envolvente de MPEG los canales de entrada en la señal de conversión de multicanal a estéreo en una manera prescrita por norma. La conversión de multicanal a estéreo se lleva a cabo por el uso de llamados bloques de TTT"1 y OTT"1 para la conversión de multicanal a estéreo dos señales en una y tres señales en dos, respectivamente. A fin de a la conversión de multicanal a estéreo más de tres señales, una estructura jerárquica de estos¦ bloques se usa. Cada bloque de OTT-1 salidas, además de la señal de conversión monoaural de multicanal a estéreo, diferencias de nivel de canal entre los dos canales de entrada, así como coherencia entre canales / parámetros de correlación cruzada que representan la coherencia o la correlación cruzada entre los dos canales de entrada. Los parámetros son enviados junto con la señal de conversión de multicanal a estéreo del codificador de Sonido envolvente de MPEG dentro del tren de datos de Sonido envolvente de MPEG. De forma similar, cada biogue de TTT-i transmite coeficientes de predicción de canal que habilitan recuperar los tres canales de entrada de la señal de conversión estereofónica de multicanal a estéreo resultante. Los coeficientes de predicción de canal también son transmitidos como la información conexa dentro del tren de datos de Sonido envolvente de MPEG. Las conversiones de estéreo a multicanal de Decodificador de sonido envolvente de MPEG la señal de conversión de multicanal a estéreo por el uso de la información conexa transmitida y recuperan, la entrada de canales original en el codificador de Sonido envolvente de MPEG.
Sin embargo, el Sonido envolvente de MPEG, lamentablemente, no realiza todos los requerimientos planteados por muchas aplicaciones. Por ejemplo, el Decodificador de sonido envolvente de MPEG es dedicado para convertir de estéreo a multicanal la señal de conversión de multicanal a estéreo del codificador de Sonido envolvente de MPEG el que los canales de entrada del codificador de Sonido envolvente de MPEG son recuperados como éstos son. En otras palabras, el tren de datos de Sonido envolvente de MPEG es dedicado para ser puesto por el uso de la configuración de altavoz que se ha usado para la codificación, o por configuraciones comunes como el estéreo.
Sin embargo, según algunas aplicaciones, sería favorable si la configuración de altavoz pudiera cambiarse en el lado del decodificador libremente.
A fin de encargarse a las últimas necesidades, la codificación espacial del objeto de audio (SAOC) la norma es diseñada actualmente. Cada canal se somete a tratamiento como un objeto individual, y todos los objetos se convierten de multicanal a estéreo en una señal de conversión de multicanal a estéreo. Es decir los objetos son manejados como señales de audio que son independientes de entre sí sin adherirse a cualquier configuración de altavoz específica, pero con la capacidad de colocar los altavoces (virtuales) en el lado del decodificador arbitrariamente. Los objetos individuales pueden comprender fuentes de sonido individuales como p.ej documentos o pistas vocales. Diferenciándose del Decodificador de sonido envolvente de MPEG, el decodificador SAOC está libre para convertir de estéreo a multicanal individualmente la señal de conversión de multicanal a estéreo para volver a jugar los objetos individuales en cualquier configuración de altavoz. A fin de habilitar el decodificador SAOC para recuperar los objetos individuales que tienen sido codificado en el tren de datos SAOC, objetan diferencias de nivel y, para objetos que forman conjuntamente un estéreo (o multicanal) señal, los parámetros de correlación cruzados entre objetos se transmiten como la información conexa dentro del tren de bits SAOC . Además de esto, el decodificador/transcodificador SAOC se proporciona con la información que revela como los objetos individuales se han convertido de multicanal a estéreo en la señal de conversión de multicanal a estéreo. Así, en el lado del decodificador, es posible recuperar los canales SAOC individuales y renderizar estas señales en cualquier configuración de altavoz utilizando la información de renderizacion controlada por el usuario.
Sin embargo, aunque los codees ya mencionados, es decir Sonido envolvente de MPEG y SAOC, sean capaces de transmitir y renderizar el contenido de audio multicanal en configuraciones de altavoz que tienen a más de dos altavoces, el interés creciente en audífonos ya que el sistema de reproducción de audio requiere esto estos codees también son capaces de renderizar el contenido de audio en audífonos. En contraste con el pregrabado de altavoz, el contenido de audio estéreo reproducido sobre audífonos es percibido dentro el cabezal. La ausencia del efecto de la vía acústica de fuentes las a ciertas posiciones físicas a los tímpanos hacen que la imagen espacial parezca no natural ya que las señales de aviso que determinan el acimut percibido, elevación y distancia de una fuente de sonido es esencialmente ausente o muy inexacta. Así, para resolver la etapa de sonido no natural causada por señales de aviso de localización de fuente de sonido inexactas o ausentes en audífonos, diversos métodos han sido propuestos para simular una configuración de altavoz virtual . La idea es superimponer señales de aviso de localización de fuente de sonido en cada señal de altavoz.
Esto se logra filtrando señales de audio con llamadas funciones de transferencia relacionadas por el cabezal (HRTFs) o respuestas a impulsos de cuarto binaurales (BRlRs) si el cuarto propiedades acústicas se incluye en estos datos de cuantificación. Sin embargo, filtrar cada señal de altavoz con las funciones sólo mencionadas requeriría una cantidad considerablemente más elevada de la energía de cálculo en el lado de decodificador/reproducción. En términos particulares, la renderización la señal de audio multicanal en las ubicaciones de altavoz "virtuales" tendría que llevarse a cabo primero donde, luego, cada señal de altavoz así obtenida, es filtrada con la respectiva función de transferencia o respuesta a impulsos para obtener el canal derecho e izquierdo de la señal de salida binaural . Incluso peor: la señal de salida binaural obtenida tendría una calidad de audio mala debido a que a fin de lograr las señales de altavoz virtuales, un relativamente la gran cantidad de señales de decorrelación sintéticas tendría que mezclarse en las señales convertidas de estéreo a multicanal a fin de compensar la correlación entre señales de entrada de audio al principio no correlacionadas, la correlación que resulta a partir de la conversión de multicanal a estéreo la pluralidad de señales de entrada de audio en la señal de conversión de multicanal a estéreo.
En la versión actual del códec SAOC, los parámetros SAOC dentro de la información conexa permiten la renderizacion espacial interactiva por el usuario de los objetos de audio usando cualquier configuración de pregrabado con, en principio, incluyendo audífonos. La renderizacion binaural a audífonos permite el control espacial de posiciones de objeto virtuales en el espacio en 3D usando la función de transferencia relacionada por el cabezal (HRTF) parámetros. Por ejemplo, la renderizacion binaural en SAOC podría implementarse restringiendo este caso a la conversión monoaural de multicanal a estéreo caso de SAOC donde las señales de entrada se mezclan en el canal mono igualmente. Lamentablemente, la conversión monoaural de multicanal a estéreo requiere todas las señales de audio para mezclarse en una señal de conversión monoaural de multicanal a estéreo común de modo que las propiedades de correlación originales entre las señales de audio originales sean máximamente perdidas y por lo tanto, la calidad de renderizacion de la señal de salida de renderizacion binaural es no óptima.
Así, es el objeto de la presente invención para proporcionar esquema de la renderizacion binaural de una señal de audio multicanal el que el resultado de renderizacion binaural es mejorado con, simultáneamente, evitando una restricción en la libertad de componer la señal de conversión de multicanal a estéreo de las señales de audio originales.
Este objeto se logra por un aparato según la reivindicación 1 y un método según la reivindicación 10.
Una de las ideas básicas que son la base de la presente invención es que la renderización binaural de una señal de audio multicanal inicial de una señal de conversión estereofónica de multicanal a estéreo es ventajosa sobre la renderización binaural inicial de la señal de audio multicanal de una señal de conversión monoaural de multicanal a estéreo de lo mismo en aquella, debido a que pocos objetos se encuentran en los canales individuales de la señal de conversión estereofónica de multicanal a estéreo, la cantidad de la decorrelación entre las señales de audio individuales es mejor conservada, y en aquella la posibilidad de elegir entre los dos canales de la señal de conversión estereofónica de multicanal a estéreo en el lado codificador habilita esto las propiedades de correlación entre señales de audio en diferentes canales de conversión de multicanal a estéreo son parcialmente conservadas. En otras palabras, debido a la conversión de multicanal a estéreo codificador, las coherencias entre objetos son degradadas que tiene para ser representado en el lado decodificador donde la coherencia entre canales de la señal de salida binaural es una medida importante para la percepción de la anchura de fuente de sonido virtual, pero usando la conversión estereofónica de multicanal a estéreo en vez de la conversión monoaural de multicanal a estéreo reduce la cantidad de degradarse de modo que la restauración/generación de la cantidad apropiada de la coherencia entre canales por la renderización binaural la señal de conversión estereofónica de multicanal a estéreo logre la mejor calidad.
Una idea principal adicional de la presente solicitud consiste en que ICC ya mencionado (ICC = coherencia entre canales) control puede lograrse por medio de una señal no correlacionada que forma un equivalente perceptual con una conversión monoaural de multicanal a estéreo de los canales de conversión de multicanal a estéreo de la anchura de señal de conversión estereofónica de multicanal a estéreo, sin embargo, no correlacionado a la conversión monoaural de multicanal a estéreo. Así, mientras el uso de una señal de conversión estereofónica de multicanal a estéreo en vez de una señal de conversión monoaural de multicanal a estéreo conserva algunas propiedades de correlación de la pluralidad de señales de audio, que se habrían perdido al usar una señal de conversión monoaural de multicanal a estéreo, la renderización binaural puede basarse en una señal no correlacionada que es representativa para ambos, el primero y segundo canal de conversión de multicanal a estéreo, reduciendo así la cantidad de decorrelaciones o procesamiento de señal sintético comparado con decorrelacionar por separado cada canal de conversión estereofónica de multicanal a estéreo.
Respecto a las figuras, las modalidades preferidas de la presente solicitud se describen más detalladamente. Entre estas figuras, Figura 1 muestra un diagrama de bloques de una configuración de codificador/decodificador SAOC donde las modalidades de la presente invención pueden ponerse en práctica; Figura 2 muestra un diagrama esquemático e ilustrativo de una representación espectral de una señal monoarural; Figura 3 muestra un diagrama de bloques de un decbdificador de audio capaz de la renderización binaural según una modalidad de la presente invención; Figura 4 muestra un diagrama de bloques de la conversión de multicanal a estéreo el bloque pre de procesamiento de la Figura 3 según una modalidad de la presente invención; Figura 5 muestra una flujograma de etapas llevadas a cabo por la unidad de procesamiento . de datos de parámetro SAOC 42 de la Figura 3 según una primera alternativa; y Figura 6 muestra un gráfico que ilustra los resultados de pruebas de capacidad auditiva.
Antes de que las modalidades de la presente invención se describan más detalladamente después, el códec SAOC y los parámetros SAOC transmitidos en un tren binario SAOC se presentan a fin de aliviar la comprensión de las modalidades específicas detalladas con mayor detalle después.
La Figura 1 muestra una configuración general de un codificador SAOC 10 y un decodificador SAOC 12. El codificador SAOC 10 recibe como una entrada N objetos, es decir, señales de audio 14? a 14N. En términos particulares, el codificador 10 comprende un convertidor de multicanal a estéreo 16 que recibe las señales de audio 14! a 14N y conversiones de multicanal a estéreo mismo a una señal de conversión de multicanal a estéreo 18. En la Figura 1, la señal de conversión de multicanal a estéreo es ejemplarmente mostrada como una señal de conversión estereofónica de multicanal a estéreo. Sin embargo, el codificador 10 y decodificador 12 puede ser capaz de funcionar en un modo mono también donde el caso la señal de conversión de . multicanal a estéreo sería una señal de conversión monoaural de multicanal a estéreo. La siguiente descripción, sin embargo, se concentra en el caso de conversión estereofónica de multicanal a estéreo. Los canales de la señal 18 de conversión estereofónica de multicanal a estéreo son LO denotado y RO.
A fin de habilitar el decodificador SAOC 12 para recuperar el paciente se opone 14i a 14N, el convertidor de multicanal a estéreo 16 proporciona el decodificador SAOC 12 por la información conexa que incluye SAOC-parámetros que incluyen diferencias de nivel de objeto parámetros de correlación cruzados (ANTERIORES), entre objetos (IOC), valores de ganancias de conversión de multicanal a estéreo (DMG) y diferencias de nivel de canal de conversión de multicanal a estéreo (DCLD) . La información conexa 20 incluyendo los SAOC-parámetros , junto con la señal de conversión de multicanal a estéreo 18 , forma la transmisión de datos de salida SAOC 21 recibido por el decodificad r SAOC 12 .
El decodificador SAOC 12 comprende una conversión de estéreo a multicanal 22 que recibe la señal de conversión de multicanal a estéreo 18 así como la información conexa 20 a fin de recuperar y renderizar las señales de audio 14i y 14N en cualquier conjunto seleccionado por el usuario de canales 2 i a 24M' , con la renderización como prescrito por la información de renderización 26 entrada en el decodificador SAOC 12 así como parámetros HRTF 27 el significado de que se describe más detalladamente después. La siguiente descripción se concentra en la renderización binaural, donde M' =2 y, la señal de salida es sobre todo dedicada para la reproducción de audífonos, aunque la decodificación 12 pueda ser capaz de renderizar en otra configuración de altavoz (no binaural) también, según órdenes dentro de la introducción de datos por el usuario 26 .
Las señales de audio 14i a 14N pueden ser introducidas en el convertidor de multicanal a estéreo 16 en cualquier dominio de codificación, tal como, por ejemplo, a tiempo o dominio espectral. Por si, las señales de audio 14i a 14N se alimenten en el convertidor de multicanal a estéreo 16 en el dominio temporal, como el PCM codificado, convertidor de multicanal a estéreo 16 usos un banco de filtros, como un banco de QMF híbrido, p.ej, un banco del complejo los filtros exponencialmente modulados con una extensión de filtro de Nyquist para las bandas de frecuencia más bajas que aumentan la resolución de la frecuencia en esa parte, a fin de transferir las señales en el dominio espectral donde las señales de audio son representadas en varias subbandas asociadas con diferentes porciones espectrales, a una resolución de banco de filtros específica. Si las señales de audio 14i a 14N están ya en la representación prevista por el convertidor de multicanal a estéreo 16, mismo no tiene que llevar a cabo la decomposición espectral.
La Figura 2 muestra una señal de audio en el dominio espectral sólo mencionado. Como se puede observar, la señal de audio es representada como una pluralidad de señales de subbanda. Cada señal de subbanda 30i a 30P comprende una secuencia de valores de la subbanda indicados por los pequeños bloques 32. Como se puede observar, los valores de la subbanda 32 de las señales de subbanda 30i a 30P son sincronizadas entre sí a tiempo de modo que para cada uno de intervalos temporales de banco de filtros consecutivos 34 , cada subbanda 30i a 30P comprenda exacto un valor de la subbanda 32 . como se ilustra por el eje de frecuencia 35 , las señales de subbanda 30i a 30P se asocian con diferentes regiones de frecuencia, y como se ilustra eje 37 , los intervalos temporales de banco de filtros 34 son consecutivamente configurados a tiempo.
Como detallado antes, el convertidor de multicanal a estéreo 16 calcula SAOC-parámetros de las señales de audio de entrada 14i a 14N . El convertidor de multicanal a estéreo 16 lleva a cabo este cálculo en una resolución de tiempo/frecuencia que puede ser disminuida con relación a la resolución de tiempo/frecuencia original como se determina mediante los intervalos temporales de banco de filtros 34 y descomposición de subbanda, por una cierta cantidad, donde esta cierta cantidad puede ser señalada al lado decodificador dentro de la información conexa 20 por respectivos elementos sintácticos bsFrameLength y bsFreqRes. Por ejemplo, los grupos de intervalos temporales de banco de filtros consecutivos 34 pueden formar un cuadro 36 , respectivamente. En otras palabras, la señal de audio puede estar dividida en cuadros que se superponen a tiempo o que es inmediatamente adyacente a tiempo, por ejemplo. En este caso, el bsFrameLength puede definir la cantidad de intervalos temporales de parámetro 38 por cuadro, es decir, la unidad de tiempo en donde los parámetros SAOC tal como ANTERIOR e IOC, se calculan en un cuadro SAOC 36 y bsFreqRes puede definir la cantidad de bandas de frecuencia de procesamiento para las cuales los parámetros SAOC se calculan, es decir la cantidad de bandas hacia donde el dominio de frecuencia es subdividido y para que los parámetros SAOC se determinan y transmitido. Por esta medida, cada cuadro está dividido en recuadros de tiempo/frecuencia ejemplificados en la Figura 2 por líneas entrecortadas 39.
El convertidor de multicanal a estéreo 16 calcula parámetros SAOC según las siguientes fórmulas. En términos particulares, el convertidor de multicanal a estéreo 16 calcula diferencias de nivel de objeto para cada objeto i como : donde las sumas y los índices n y k, respectivamente, pasan por todos los intervalos temporales de banco de filtros 34, y todas las subbandas de banco de filtros 30 que pertenecen a un cierto recuadro de tiempo/frecuencia 39. Así, las energías de todos los valores de la subbanda xi de una señal de audio ú objeto yo soy resumido y normalizado al valor de energía más elevado de aquel recuadro entre todos los objetos o señales de audio.
Adicionalmente el convertidor de multicanal a estéreo SAOC 16 es capaz de computar una medida de semejanzas de los recuadros de tiempo/frecuencia correspondientes de pares de la diferente entrada se opone 14i a 14N. Aunque el convertidor de multicanal a estéreo SAOC 16 pueda computar la medida de semejanzas entre todos los pares de la entrada se opone 14i a 14N, el convertidor de multicanal a estéreo 16 también puede suprimir la señalización de las medidas de semejanzas o restringir el cálculo de las medidas de semejanzas a objetos de audio 14i a 14N que forman izquierda o canales derechos de un canal estéreo común. En cualquier caso, la medida de semejanzas se llama el parámetro de correlación cruzado entre objetos IOCi, j. El cálculo es como sigue: con nuevamente los índices n y k que pasan por todos los valores de la subbanda que pertenecen a un cierto recuadro de tiempo/frecuencia 39, y yo y j denotación de un cierto par de objetos de audio 14i a 14N.
El convertidor de multicanal a estéreo 16 conversiones de multicanal a estéreo los objetos 14? a 14N por uso de factores de ganancia aplicados a cada objeto 14i a 14N.
En caso de una señal de conversión estereofónica de multicanal a estéreo, qué caso es. ejemplificado en la Figura 1, Un factor de ananc a Di, me aplico para oponerme i y luego toda la ganancia los objetos amplificados son sumados a fin de obtener el canal de conversión de multicanal a estéreo de izquierda LO, y factores de ganancia D2 / me aplico para oponerme i y luego los objetos amplificados por la ganancia son sumados a fin de obtener el canal de conversión de multicanal a estéreo derecho R0. Así, factores DI, yo y ^2 formo una matriz de conversión de multicanal a estéreo D del tamaño 2x con: Esta prescripción de conversión de multicanal a estéreo es señalada al lado decodificador por medio de abajo DMGi de ganancias de mezcla y, en caso de una señal de conversión estereofónica de multicanal a estéreo, diferencias de nivel de canal de conversión de multicanal a estéreo DCLDi · Las ganancias de conversión de multicanal a estéreo se calculan según: dondee está un pequeño número tal como 10"9 o 96dB entrada de señal a continuación máxima.
Para el DCLDs la siguiente fórmula aplica: DCLD1=10log10^) El convertidor de multicanal a estéreo 16 genera la señal de conversión estereofónica de multicanal a estéreo según: Asi, en las fórmulas anteriormente mencionadas, los parámetros ANTERIORES e IOC son una función de las señales de audio y parámetros DMG y DCLD son una función de D. A propósito, esto se observa que D puede variar a tiempo.
En caso de la renderización binaural, qué modo de operación del decodificador se describe aquí, la señal de salida naturalmente comprende dos canales, es decir M' =2 . Sin embargo, la información de renderización ya mencionada 2 6 indica en cuanto a como las señales de entrada 14i a 14N deben ser distribuidas en posiciones de altavoz virtuales 1 a donde M podría ser más elevado que 2. La información de renderización, así, puede comprender M de la matriz de renderización de indicación en. cuanto a como la entradá objeta a que ob i debieran ser distribuidos en las posiciones de altavoz virtuales j para obtener señales de altavoz virtuales vsj con j que está entre 1 y M inclusivamente y yo que estoy entre 1 y N inclusivamente, con: La información de renderización puede proporcionarse o introducir por el usuario en ninguna forma. Esto puede incluso posible que la información de renderización 2 6 esté contenida dentro de la información conexa de la transmisión SAOC 2 1 sí mismo. Por supuesto, la información de renderización puede dejarse hacerse variar a tiempo. Por ejemplo, la resolución de tiempo puede igualar la resolución de cuadro, es decir M puede definirse por cuadro 3 6 . Incluso una varianza de M por la frecuencia puede ser posible. Por ejemplo, M podría definirse para cada recuadro 39. Después, por ejemplo, ™ se usara para denotar M, con m de denotación de la banda de frecuencia, y 1 denotación de la fracción de' tiempo de parámetro 38.
Finalmente, en el seguir, el HRTFs 27 se mencionará. Estos HRTFs describen como una señal j de altavoz virtual es volverse en el oído derecho e izquierdo, respectivamente, de modo que las señales de aviso binaurales se conserven. En otras palabras, para cada posición de altavoz virtual j, dos HRTFs existen, a saber un para el oído de izquierda y otro para el oído derecho. COMO se describirá más detalladamente después, es posible que el decodificador se proporcione con parámetros HRTF 27 que comprenden, para cada posición de altavoz virtual j , un desplazamiento de desplazamiento de F. fase 1 que describe el desplazamiento de desplazamiento de fase entre las señales recibidas por ambos oídos y se origina de la misma fuente j , y dos Pi · de amplificaciones /atenuaciones de amplitud, R y P±, L para el oído izquierdo y derecho, respectivamente, describiendo las atenuaciones de ambas señales debido al cabezal del oyente. El parámetro HRTF 27 podría ser constante con el tiempo, pero se define a alguna resolución de la frecuencia que podría ser igual a la resolución de parámetro SAOC, es decir, por banda de frecuencia. A continuación, los parámetros HRTF se les proporcionan como J , J'R y J-L con m de denotación de la banda de frecuencia.
La Figura 3 muestra al decodificador SAOC 12 de la Figura 1 más detalladamente, como se muestra en esa parte, el decodificador 12 comprende una unidad de proceso previo de conversión de multicanal a estéreo 40 y una unidad de procesamiento de datos de parámetro SAOC 42. La unidad de proceso previo de conver.sión de multicanal a estéreo 40 se configura para recibir la señal 18 de conversión estereofónica de multicanal a estéreo y convertir mismo en la señal de salida binaural 24. La unidad de proceso previo de conversión de multicanal a estéreo 40 lleva a cabo esta conversión en una manera controlada por la unidad de procesamiento de datos de parámetro SAOC 42. En términos particulares , la unidad de procesamiento de datos de parámetro SAOC 42 proporciona la unidad de proceso previo de conversión de multicanal a estéreo 40 por una información de prescripción de renderización 44 que la unidad de procesamiento de datos de parámetro SAOC 42 deriva de la información conexa SAOC 20 e información de renderización 26.
La Figura 4 muestra la unidad de proceso previo de conversión de multicanal a estéreo 40 de acuerdo con una modalidad de la presente invención más detalladamente. En términos particulares, de acuerdo con la Figura 4, la unidad de proceso previo de conversión de multicanal a estéreo 40 comprende dos trayectos conectados en paralelo entre la entrada en donde la señal 18 de conversión estereofónica de multicanal a estéreo, es decir se recibeX"'k , y una salida de ? n k la unidad 40 en donde la señal de salida binaural^"' es enviada, a saber un trayecto llamado trayecto seco 46 hacia donde una unidad de renderización seca es en serie conectada, y un trayecto húmedo 48 hacia donde un generador de señal de decorrelación 50 y una unidad de renderización húmeda 52 se conecta en serie, donde unas mezclas de etapa 53 mezcladas las salidas de ambos trayectos 46 y 48 para obtener el resultado final, a saber la señal de salida binaural 24.
Como se describirá más detalladamente después, la unidad de renderización seca 47 se configura para calcular una señal de salida binaural preliminar 54 de la señal 18 de conversión estereofónica de multicanal a estéreo con la señal de salida binaural preliminar 54 representación de la salida del trayecto de renderización seco 46. La unidad de renderización seca 47 lleva a cabo su cálculo basado en una prescripción de renderización seca presentado por la unidad de procesamiento de datos de parámetro SAOC 42. En la modalidad específica descrita después, la prescripción de renderización se define por Gn k de la matriz de renderización seco, . La condición sólo mencionada se ilustra en la Figura 4 por medio de una flecha rota.
El generador de señal no correlacionado 50 se configura para generar una señal no correlacionada d de la señal 18 de conversión estereofónica de multicanal a estéreo por la conversión de multicanal a estéreo el que mismo es un equivalente perceptual con una conversión monoaural de 5 multicanal a estéreo del canal izquierdo y derecho de la señal 18 de conversión estereofónica de multicanal a estéreo con, sin embargo, es decorrelacionado a la conversión monoaural de multicanal a estéreo, como se muestra en la Figura 4, el generador de señal no correlacionado 50 puede -Lo comprender un circuito sumador 56 para sumar el canal derecho e izquierdo de la señal 18 de conversión estereofónica de multicanal a estéreo a, por ejemplo, una proporción 1:1 o, por ejemplo, alguna otra proporción fija para obtener la respectiva conversión monoaural de multicanal a estéreo 58, ^ seguido de un decorrelacionador 60 para generar la señal no correlacionada ya mencionada d . El decorrelacionador 60 puede comprender, por ejemplo, uno o más etapas de retraso a fin de formar la señal no correlacionada d de la versión retardada o una suma ponderada de las versiones retardadas de 20 la conversión monoaural de multicanal a estéreo 58 o incluso una suma ponderada sobre la conversión monoaural de multicanal a estéreo 58 y la versión (ones) retardada de la conversión monoaural de multicanal a estéreo. Por supuesto, hay muchas alternativas para el decorrelacionador 60. En 25 efecto, la decorrelación llevada a cabo por el decorrelacionador 60 y el generador de señal no correlacionado 50, respectivamente, tiende a bajar la coherencia entre canales entre la señal 62 no correlacionada y la conversión monoaural de multicanal a estéreo 58 cuando medido por la fórmula anteriormente mencionada correspondiente a la correlación cruzada entre objetos, con mantener sustancialmente las diferencias de nivel de objeto de lo mismo cuando medido por la fórmula anteriormente mencionada para diferencias de nivel de objeto.
La unidad de renderización húmeda 52 se configura para calcular una señal de salida binaural correctiva 64 de la señal 62 no correlacionada, la señal de salida binaural correctiva obtenida 64 representación de la salida del trayecto de renderización húmedo 48. La unidad de renderización húmeda 52 bases su cálculo en una prescripción de renderización húmeda que, por su parte, depende de la prescripción de renderización seca usada por la unidad de renderización seca 47 como desribed después. En consecuencia, la prescripción de renderización húmeda que se indica como P2n' k en la Figura 4, se obtiene de la unidad de procesamiento de datos de parámetro SAOC 42 como se indica por la flecha rota en la Figura 4.
Las mezclas de etapa 53 mezcladas ambas señales de salida binaural 54 y 64 de los trayectos de renderización secos y húmedos 46 y 48 para obtener la señal de salida binaural final 24. como se muestra en la Figura 4, la etapa 53 mezclada se configura para mezclar los canales derechos e izquierdos de las señales de salida binaural 54 y 64 individualmente y puede comprender, en consecuencia, un circuito sumador 66 para sumar los canales de izquierda de lo mismo y un circuito sumador 68 para sumar los canales derechos de lo mismo, respectivamente.
Después de que tener describió la estructura del decodificador SAOC 12 y la estructura interna de la unidad de proceso previo de conversión de multicanal a estéreo 40, la funcionalidad de lo mismo se describe en el seguir. En términos particulares, las modalidades detalladas descritas después de diferentes alternativas presentes para la unidad de procesamiento de datos de parámetro SAOC 42 para derivar la información de prescripción de renderización 44 así control de la' coherencia entre canales de la señal 24 de objeto binaural. En otras palabras, la unidad de procesamiento de datos de parámetro SAOC 42 no sólo calcula la información de prescripción de renderización 44, pero simultáneamente controla la proporción de mezcla por la cual las señales 55 y 64 binaurales preliminares y correctivas se mezclan en la señal de salida binaural final 24.
De acuerdo con una primera alternativa, la unidad de procesamiento de datos de parámetro SAOC 42 se configura para controlar la proporción de mezcla sólo mencionada como se muestra en la Figura 5. En términos particulares, en una etapa 80, un valor de coherencia entre canales binaural actual de la señal de salida binaural preliminar 54 se determina o estimado por la unidad 42. En una etapa 82, la unidad de procesamiento de datos de parámetro de SAOC 42 determina un valor de coherencia entre canales binaural con especificidad de objetivo. Basado en estos valores de coherencia entre canales determinados, la unidad de procesamiento de datos de parámetro SAOC 42 conjuntos la proporción de mezcla ya mencionada en etapa 84. En términos particulares, la etapa 84 puede comprender la unidad de procesamiento de datos de parámetro SAOC 42 apropiadamente de calcular la prescripción de renderización seca usada por la unidad de renderización seca 42 y la prescripción de renderización húmeda usada por la unidad de renderización húmeda 52, respectivamente, basado en los valores de coherencia entre canales determinados en etapas 80 y 82, respectivamente .
A continuación, las alternativas ya mencionadas se describirán en una base matemática. Las alternativas se diferencian de entre sí en el modo que la unidad de procesamiento de datos de parámetro SAOC 42 determina la información de prescripción de renderización 44, incluyendo la prescripción de renderización seca y la prescripción de renderización húmeda con controlar intrínsecamente la proporción de mezcla entre trayectos de renderización secos y húmedos 46 y 48. De acuerdo con la primera alternativa representada en la Figura 5, la unidad de procesamiento de datos de parámetro SAOC 42 determina un valor de coherencia entre canales binaural con especificidad de objetivo. Como se describirá más detalladamente después, la unidad 42 puede llevar a cabo esta determinación basada en componentes de una matriz de coherencia con especificidad de objetivo F =A · E · Un *, con "*" la denotación del conjugado transporta, un que es una matriz de renderización binaural con especificidad de objetivo relación de los objetos /señales de audio 1 ... N al canal izquierdo y derecho de la señal de salida binaural 24 y señal de salida binaural preliminar 54, respectivamente, y que se deriva de la información de renderización 26 y parámetros HRTF 27, y E que es una matriz los coeficientes de que se derivan del IOCij1' m y diferencias de nivel de objeto OLDi1, m. El cálculo puede llevarse a cabo en la resolución espacial/temporal de los parámetros SAOC, es decir para cada uno (1, m) . Sin embargo, es adicional posible llevar a cabo el cálculo en una resolución inferior con la interpolación entre los respectivos resultados. La última declaración también es verdadera para los cálculos subsecuentes dispuestos después.
Como la matriz de renderización binaural con especificidad de objetivo A se relacionan los objetos de entrada 1 ... N a los canales derechos e izquierdos de la señal de salida binaural 24 y la señal de salida binaural preliminar 54, respectivamente, mismo es del tamaño 2xN, es decir . ^ _ ( fll l - alN J \a21 ... a2N } La matriz ya mencionada E es del tamaño Nx con sus coeficientes que se definen como: e.. = -jOLD, OLDj -max(lOCy,?) Así, la matriz E con: tiene a lo largo de ello la diagonal las diferencias de nivel de objeto, es decir: eu=OLDt ya que ene fuera de sus coeficientes de la matriz diagonales que representan la media geométrica de las diferencias de nivel de objeto de objetos i y j, respectivamente, ponderado con la medida de correlación cruzada entre objetos IOCy (se proporcionó mismo es mayor que 0 con los coeficientes que se configuran a 0 otra cosa) .
Comparado al mismo, las segundas y terceras alternativas descritas después, procuran obtener las matrices de renderización encontrando el mejor partido en el sentido menos cuadrado de la ecuación que se corresponde de la señal 18 de conversión estereofónica de multicanal a estéreo en la señal de salida binaural preliminar 54 por medio de la matriz de renderización seca G a la ecuación de renderización con especificidad de objetivo que se corresponde de los objetos de entrada vía lado a lado matriz un en la señal de salida binaural "con especificidad de objetivo" 24 con segundo y tercer diferenciarse alternativo de entre sí en el modo que el mejor partido se forma y el modo que la matriz de renderización húmeda se selecciona.
A fin de aliviar la comprensión de las siguientes alternativas, la descripción ya mencionada de Figuras 3 y 4 es matemáticamente descrita de nuevo. Como descrito antes, la señal 18 de conversión estereofónica de multicanal a estéreoX"'k alcanza el decodificador SAOC 12 junto con los parámetros SAOC 20 y usuario información de renderización definida 26. Adicionalmente, el decodificador de SAOC 12 y unidad de procesamiento de datos de parámetro SAOC 42 , respectivamente, tiene el acceso a una base de datos HRTF como se indica por la flecha 27. Los parámetros SAOC transmitidos comprenden diferencias de nivel de objeto OLD'lm , ioc'.m valores de correlación cruzados entre objetos ,J , las ganancias d ,e conversi.ó,n d,e mul.t.i.cana.l a est.é,reoDMG'm y .las diferencias de nivel de canal de conversión de multicanal a estéreoDCLD"'m para todo N se oponen i, j con "1, m" de denotación del respectivo tiempo / recuadro espectral 39 con 1 especificación del tiempo y m de especificación de la frecuencia.. Se supone, e emplarmente, que los parámetros HRTF 27 se les proporcionen como para todas las posiciones de altavoz virtuales o posición de la fuente de sonido espacial virtual g, para la izquierda (L) y derecha (R) canal binaural y para todas las bandas de frecuencia m.
La unidad de proceso previo de conversión de multicanal a estéreo 40 se configura para calcular la salida binaural-^"' , tan calculada de la conversión estereofónica de multicanal a estéreo-^"'* y señal de conversión monoaural de multicanal a estéreo decorrelacionada d como: La señal no correlacionada es Xdn'k perceptivamente equivalente a la suma 58 de los canales de conversión de multicanal a estéreo derechos e izquierdos de la señal 18 de conversión estereofónica de . multicanal a estéreo, pero máximamente decorrelacionado a ello según: † =decorrFunction((l l)*"*) Respecto a la Figura 4, el generador de señal no correlacionado 50 lleva a cabo la función decorrFunction de la fórmula anteriormente mencionada.
Adicionalmente, como también descrito antes, la unidad de proceso previo de conversión de multicanal a estéreo 40 comprende dos trayectos paralelos 46 y 48. En consecuencia, la ecuación anteriormente mencionada se basa en dos matrices dependientes de tiempo/ frecuencia, a saber, G1' m para el seco y P21' m para el trayecto húmedo.
Como se muestra en la Figura 4, la decorrelación en el trayecto húmedo puede ponerse en práctica por la suma del canal de conversión de multicanal a estéreo derecho e izquierdo que se alimenta en un decorrelacionador 60 que genera una señal 62, que es perceptivamente equivalente, pero máximamente decorrelacionada a su entrada 58.
Los elementos de las matrices sólo mencionadas se calculan por la unidad de proceso previo SAOC 42. Como también denotado antes, los elementos de las matrices sólo mencionadas pueden calcularse en la resolución de tiempo/ frecuencia de los parámetros SAOC, es decir para cada intervalo temporal 2 y cada banda de procesamiento m. Los elementos de la matriz obtenidos pueden ser extendidos sobre la frecuencia e interpolados a tiempo dando como resultado matrices k y P22' m definido para todos los intervalos temporales de banco de filtros n y subbandas de frecuencia k. Sin embargo, como ya antes, allí también son alternativas. Por ejemplo, la interpolación podría dejarse lejos, de modo que en el antes de la ecuación, los índices n, k pudieran ser con eficacia reemplazados por "I, m" . Más aún, el cálculo de los elementos de las matrices sólo mencionadas podría llevarse a cabo incluso a una resolución de tiempo/frecuencia reducida con la interpolación en la resolución 1, m o n, k. Así, nuevamente, aunque en el seguir, los índices 1, m indique que los cálculos de la matriz se llevan a cabo para cada recuadro 39, el cálculo puede llevarse a cabo a alguna resolución inferior donde, aplicando las respectivas matrices por la unidad de proceso previo de conversión de multicanal a estéreo 40, las matrices de renderización pueden ser interpoladas hasta una resolución final tal como abajo a la resolución de tiempo/frecuencia QMF de los valores de la subbanda individuales 32.
Según la primera alternativa anteriormente mencionada, de la matriz de renderización seco, m £& calcula para la izquierda Y el canal de conversión de multicanal a estéreo derecho por separado el que: f P>- U "'1 Las ganancias correspondientes P¿ , r* y diferencias de fase F1 m' x se define como: consta donde el consti puede ser, por ejemplo, 11 y const2 puede ser 0.6. El índice x denota la izquierda o canal de conversión de multicanal a estéreo derecho y en consecuencia asume o 1 o 2.
En términos generales, el antes de que la condición se distinga entre un intervalo espectral más elevado y un intervalo espectral inferior y, sobre todo, sólo sea (potencialmente) realizada para el intervalo espectral inferior. Además o alternativamente, la condición es dependiente de en cuanto a si uno del valor de coherencia entre canales binaural actual y el valor de coherencia entre canales binaural con especificidad de objetivo tiene una relación predeterminada a un valor umbral de coherencia o no, con la condición que es (potencialmente) , realizada sólo si la coherencia excede el valor umbral. Las subcondiciones individuales sólo mencionadas, como se indica antes, pueden combinarse por medio de un y operación. yL escalar, m. x s& calcula como .
Esto se observa que e puede ser igual que o diferente al mencionado e antes con respecto a la definición de las ganancias de conversión de multicanal a estéreo. La matriz E se ha introducido ya antes. El índice (2, m) simplemente denota la dependencia de tiempo/ frecuencia del cálculo de la matriz como ya mencionado antes. Adicionalmente, las matrices D1, m' x también tiene mencionado antes, con respecto a la definición de las ganancias de conversión de multicanal a estéreo y las diferencias de nivel de canal de conversión de multicanal a estéreo, de modo que D1, m' 1 correspondan a I¼ ya mencionado y Corres onde D2 ya mencionado · Sin embargo, a fin de aliviar la comprensión como la unidad de procesamiento de datos -de parámetro SAOC 42 deriva ^1 de la matriz seco c^e genera, m ¿e lo£J parámetrOS SAOC recibidos, la correspondencia entre la matriz de conversión de multicanal a estéreo de canal D1, m' x y la prescripción de conversión de multicanal a estéreo que comprende las ganancias de conversi ¦ó'n de mu1l+t-i*canail a esté.reoDMG''m yDCLD'' m se presenta nuevamente, en la dirección inversa. En términos particulares, los elementos ' de la matriz de conversión de multicanal a estéreo de canal D1, m' x de tamaño lx , es decir. . m, x _ proporcionan como: dl'm con el elemento ' que se define como DCLD¡' f l,m T)l,m,x pl,m,x En la ecuación superior de w ' m , las ganancias ¿ y * j dependen de coeficientes fuv de una matriz de covariancia de objetivo de paciente de canal-x F2' m' x, que, por su parte, como se configurará más detalladamente después, depende de una matriz el-' m' x del e¡,m,x tamaño NxN los elementos iJ de que se calculan como: J,m l,m Los elementos ¡i de la matriz de tamañoN x-/v son, tan declarados antes, proporcionado e¡:m = jOLDl "1 OLD' ¦ mzx(IOC¡:m,0) como : La matriz de covariancia con especificidad de objetivo sólo mencionada del tamaño 2x2 con elementos 'm es, de manera similar a la matriz de covariancia F . indicada antes, proporcionado como: ^ ' f donde "*" corresponde al conjugado transportan.
La matriz de renderizacion binaural con especificidad de lm F"1 Pm Pm objetivoA,m se deriva de los parámetros HRTF q , q-R y q'L para todas las posiciones de altavoz virtuales WHRTF Y 1& m triz de renderizacion '",m*>y es del tamaño /?xy?vG . Sus elementos a!'m definen relación deseada entre todos los objetos' y la señal de salida binaural como: La matriz de renderizacion «* con elementos se relaciona cada objeto de audio' a un altavoz virtual ^ representado por el HRTF.
La matriz de conversión de estéreo a multicanal húmedaP^ se calcula basada en G1 de la matriz' m como: Las ganancias se definen como: pl,m _ / ci'i" p'.m _ rL - yij. >rR -¦ c''m El 2x2 matriz de covariancia 2' m con elementos "·? de la señal 54 binaural seca es estimado como: Cl'm =G'-mD''mEKm(Dhm)'{G''m) donde V1 escalar' m se calcula como: vi,m = w''mE''m{$V''m) + e. w''m Los elementos ' de la matriz de conversión monoaural de multicanal a estéreo húmeda W1' m del tamaño lx se les proporciona como:' Los elementos *·' de la matriz de conversión estereofónica de multicanal a estéreo D1 , m del tamaño 2xN se les proporciona como: dx,¡ = d¡ ¦ En la ecuación anteriormente mencionada de G1' m , U1 ' m y D1' m representa la pieza rotatoria se desvía dedicado para el control de ICC. En términos particulares, la pieza rotatoria sesga D1, m de controles el mezclado del seco y la señal binaural húmeda a fin de ajustar el ICC de la salida binaural 24 a aquel del objetivo binaural. Al determinar a los ángeles de pieza rotatoria, el ICC de la señal 54 binaural seca debería obtenerse en cuenta que es, según el contenido de audio y la matriz de conversión estereofónica de multicanal a estéreo D, por lo común más pequeño que 1.0 y mayor que ICC con especificidad de objetivo. Esto es en contraste con una conversión monoaural de multicanal a estéreo la renderización binaural basada donde el ICC de la señal binaural seca siempre sería igual a 1.0.
La pieza rotatoria- sesga ? 1, m y ? 1, m de control el mezclado del seco y la señal binaural húmeda. El ICC^ de la conversión estereofónica de multicanal a estéreo reproducida binaural seca 54 es, en la etapa 80, estimado como: ICC con especificidad de objetivo binaural total ^c es, en la etapa 82, estimado como, o determinado de ser: La pieza rotatoria sesga D1, m y D1, m para minimizar la energía de la señal húmeda es luego, en la etapa 84, se puso para ser: a'm =- (arceos^"" ) - arccos(/?¿m Así, según la descripción matemática anteriormente descrita de la funcionalidad del decodificador SAOC 12 para generar la señal de salida binaural 24, la unidad de procesamiento de datos de parámetro SAOC 42 computa, en determinar de ICC binaural actual, "c por el uso de las nl'm ecuaciones anteriormente presentadas para^c y las ecuaciones subsidiarias también presentadas antes. De forma similar, la unidad de procesamiento de datos de parámetro de SAOC 42 computa, en determinar de ICC binaural con especificidad de n''m objetivo en la etapa 82, el parámetro^ por la ecuación anteriormente indicada y las ecuaciones subsidiarias. En la base de lo mismo, la unidad de procesamiento de datos de parámetro SAOC 42 determina en la etapa 84 la pieza rotatoria sesga así la configuración de la proporción de mezcla entre el trayecto de renderización seco y húmedo. Con éstos la pieza rotatoria se desvía, la unidad de procesamiento de datos de parámetro de SAOC 42 construye las matrices de renderización secas y húmedas o parámetros de conversión de estéreo a multicanal^ y 2 que, por su parte, se usan por la unidad de proceso previo de conversión de multicanal a estéreo 40 - a la resolución n, k - a fin de derivar la señal de salida binaural 24 de la conversión estereofónica de multicanal a estéreo 18.
Deberse observar que la primera alternativa ya mencionada puede hacerse variar de algún modo. Por ejemplo, la ecuación anteriormente presentada para la diferencia de fase de mtercanal c podría cambiarse hasta el punto de que la segunda subcondición podría comparar ICC actual de la conversión estereofónica de multicanal a estéreo reproducida binaural seca a const2 en vez del ICC determinado de la matriz de covariancia de paciente de canal F1, m~ K de modo que en aquella la ecuación la porción fhm,"fn-' fuera reemplazada por el término ^c""c" .
Adicionalmente, débase observar que, de acuerdo con la notación seleccionada, en algunas ecuaciones superiores, una matriz de todos los se ha dejado lejos cuando una constante escalar, como el ? se agrega a una matriz de modo que esta constante se agregue a cada coeficiente de la respectiva matriz .
Una generación alternativa de la matriz de renderización seca con el potencial más elevado de la extracción de objeto se basa en un tratamiento conjunto de los canales de conversión de multicanal a estéreo derechos e izquierdos. Omitiendo al par de índice de subbanda para la claridad, el principio debe apuntar en el mejor partido en la menor parte de sentido de cuadrados de: X = GX a la renderización con especificidad de objetivo: Y = AS .
Esto produce la matriz de covariancia con especificidad de objetivo: YY' = ASS'A' donde el complejo que proporcionan a la matriz de renderización binaural con especificidad de objetivo valorada A en una fórmula anterior y la matriz S contiene las señales de subbanda de objetos originales como hileras.
La menor parte de partido de cuadrados se calcula de la segunda información de orden derivada del objeto transportado y datos de conversión de multicanal a estéreo. Es decir las siguientes substituciones se llevan a cabo: XX'i^DED', YX* «- AED IT* <?¦ AEÁ.
Para motivar las substituciones, recuerde que SAOC objetan parámetros información por lo común transportable sobre las energías de objeto correlaciones cruzadas entre objetos (ANTERIORES) y (seleccionadas) (IOC) . De estos parámetros, la matriz de covariancia de objeto de xN E se deriva, que representa una aproximación a SS *, es decir. E¾SS *, produciendo YY * = AEA*.
Adicionalmente, X=DS y la matriz de covariancia de conversión de multicanal a estéreo se convierten: XX * = DSS*D *, que nuevamente puede derivarse de E por XX * = DED* .
La matriz de renderización seca G se obtiene solucionando la menor parte de problema de cuadrados : minuto {norma {Y-X}}. donde YX* se calcula como YX * = AED* .
Así, seque la unidad de renderización 42 determina que la señal de salida binaural^ forma la señal de conversión de multicanal a estéreo-^ por el uso del 2x2 matriz de conversión de estéreo a multicanal G, por-^ = G_Y, y ia unidad de procesamiento de datos de parámetro SAOC determina ' por el uso de las fórmulas superiores de ser: Considerando este complejo matriz de renderización seca valorada, el complejo la matriz de renderización húmeda valorada P - antes denotó que P? - se calcula en la unidad de procesamiento de datos de parámetro SAOC 42 tomando en cuenta la matriz de error de covariancia ausente: AR = YY' -G0XX'G0'.
Esto puede mostrarse que esta matriz tiene resultado positivo y una opción preferida de P se les . proporciona seleccionando un vector propio de norma de unidad u correspondiente al valor propio más grande ? deAR y modificándolo a escala según: donde el escalar V se calcula como observado antes , es decir. V = WE(wJ+ e En otras palabras, ya que el trayecto húmedo se instala para corregir la correlación de la solución seca obtenida, AR = AEA* - GnDED*G * . 0 0 representa la matriz de error de covariancia ausente, es decir. YY * = X X * +?? o, respectivamente, ?/?-??*-X X * ( y, or lo tanto, la unidad de procesamiento de datos de parámetro SAOC 42 stets P el que PPS * =?? ? Una solución para la cual se les proporciona seleccionando . el vector propio de norma de unidad anteriormente mencionado u.
Un tercer método para generar matrices de renderización secas y húmedas representa una valoración de los parámetros de renderización basados en la señal de aviso predicción compleja reprimida y combina la ventaja de rehabilitar la estructura de covariancia compleja correcta con las ventajas del tratamiento conjunto de canales de conversión de multicanal a estéreo para la extracción de objeto mejorada. Una oportunidad adicional ofrecida por este método es ser capaz de omitir la conversión de estéreo a multicanal . húmeda. totalmente en muchos casos, que así preparan el terreno para una versión de la renderización binaural con la complejidad computacional inferior. Como con la segunda alternativa, la tercera alternativa presentada después se basa en un tratamiento conjunto de los canales de conversión de multicanal a estéreo derechos e izquierdos.
El principio debe apuntar en el mejor partido en la menor parte de sentido de cuadrados de: X = GX a la renderización con especificidad de objetivo Y = COMO bajo la coacción de covariancia compleja correcta: GXX*G* + VPP* = YY*.
Así, es el objetivo de encontrar una solución para G y P, este 1) IT = YY* (que es la coacción a la formulación en 2); y 2) el minuto {norma { Y- Y } ) , ya que es solicitado dentro de la segunda alternativa.
De la teoría de multiplicadores de Lagrange, resulta que allí existe una matriz autoadjuntad = Af , el que: MP = 0, y MGXX* = YX* En el caso genérico donde tanto YX* como XX* son no singulares esto sigue de la segunda ecuación que M es no singular, y por lo tanto P = 0 es la única solución de la primera ecuación. Esto es una solución sin la renderización húmeda. La configuración K = nf1 esto puede observarse por que la conversión de estéreo a multicanal seca correspondiente se les proporciona: G = KG0 donde G0 es la solución profética derivada antes con respecto a la segunda alternativa, y la matriz' autoadjunta K soluciona : KG0XX*G0*K* = YY* .
Si el positivo exclusivo y por lo tanto matriz de autoadjunto las raiz cuadradas de G0XX*G0 por Q, entonces la solución puede ser escrita como: K = Q"1 (QYY*Q) 1 2Q'1.' Así, la unidad de procesamiento de datos de parámetro SAOC 42 determina G para ser: KG0 = a"1 (QYY*Q) 1 2Q_1 G0 = (G0DED*G0 (Go DED*G0* AEA* G0 DED*G0 *) 1 2 (G0 DED*G0 *) 1 G0 con G0 = AED* (DED Para las raiz cuadradas internas habrá en general cuatro soluciones autoadjuntas, y la solución que da como resultado al mejor partido deX a Y se selecciona.
En la práctica, uno tiene que limitar la matriz de renderización seca G = KG0 a un tamaño máximo, por ejemplo limitando la condición en la suma de cuadrados de valores absolutos de todos los coeficientes de la matriz de renderización secos, que pueden expresarse como: remontar (GG *) <gmax.
Si la solución viola esta condición que limita, una solución que apoya en el límite se encuentra en cambio. Esto se logra agregando la coacción: remontar (GG *) = gmax a las coacciones anteriores y derivar de nuevo las ecuaciones de Lagrange. Resulta que la ecuación anterior: GXX* = YX* tiene que ser reemplazado por: MGXX * + µ I = YX* donde µ es un parámetro complejo intermedio adicional y soy el 2x2 matriz de identidad. Una solución con la renderización húmeda distinta a cero P resultará. En términos particulares, una solución para la matriz de conversión de estéreo a multicanal húmeda puede encontrarse por PPS * = (YY* - GXxV) / V = (AEA* - GDED*6*) / V, donde la opción de P es preferentemente basada en la consideración de valor propio ya indicada antes de que con respecto a la segunda alternativa, y V sea WEW + ?. La última determinación de P también es hecha por la unidad de procesamiento de datos de parámetro SAOC 42.
Las matrices determinadas G y P son usados luego por las unidades de renderización húmedas y secas como descritas antes .
Si se requiere una baja versión de complejidad, la siguiente etapa debe reemplazar incluso esta solución con una solución sin la renderización húmeda. Un método preferido de lograr esto es reducir los requerimientos en la covariancia compleja para emparejar sólo en la diagonal, el que las energías de señal correctas todavía son logradas en los canales izquierdos y derechos, pero la covariancia cruzada se deja abierta.
En cuanto a las primeras pruebas de capacidad auditiva alternativas, subjetivas se llevan a cabo en un cuarto de capacidad auditiva acústicamente aislado que es diseñado para permitir la escucha de alta calidad. El resultado es detallado después.
El pregrabado se lleva a cabo usando audífonos (STAX SR Lambda Pro con la gente de la laca Convertidor de D/A y SRM-Monitor de STAX) . El método de prueba procedimientos de norma seguidos usados en las pruebas de verificación de audio espaciales, basadas en "Múltiple Estímulo con Referencia Escondida y Anclas" (MUSHRA) método para el asesoramiento subjetivo de audio de calidad intermedio.
Un total de 5 oyentes participó en cada una de las pruebas llevadas a cabo. Todos los sujetos pueden considerarse como oyentes experimentados. De acuerdo con la metodología MUSHRA, los oyentes son con instrucciones para comparar todas las condiciones de prueba con la referencia. Las condiciones de prueba son aleatorizadas automáticamente para cada artículo de prueba y para cada oyente. Respuestas subjetivas son registradas por un programa de MUSHRA asistido por ordenador en una escala en los límites 0 a 100. Una conmutación instantánea entre los artículos bajo la prueba es permitida. Las pruebas de MUSHRA se han llevado a cabo para evaluar el desempeño perceptual del procesamiento de estéreo a binaural descrito del MPEG sistema de SAOC.
A fin de evaluar una ganancia de calidad perceptual del sistema descrito comparado con el mono al desempeño binaural, los artículos procesados por el mono al sistema binaural también son incluidos en la prueba. La correspondencia mono y señales de conversión estereofónica de multicanal a estéreo es codificada por el Comando Aéreo de Alaska a 80 kbits por segundo y por canal .
Ya que la base de datos de HRTF "KEMAR_MIT_COMPAC " se usa. La condición de referencia se ha generado por filtrar binauraí de objetos con las respuestas a impulsos HRTF apropiadamente ponderadas que tienen en cuenta la renderización deseada. La condición de ancla es la baja pasada condición de referencia filtrada (a 3.5 kilohercios).
La Tabla 1 contiene la lista de los artículos de audio analizados.
Tabla 1 - Artículos de audio de las pruebas de capacidad auditiva Cinco diferentes escenas se han analizado, que son resultado de la renderización (mono o estéreo) objetos de 3 diferentes grupos de la fuente de objeto. Tres diferentes matrices de conversión de multicanal a estéreo se han aplicado en el codificador SAOC, ver la Tabla. 2.
Tabla 2 - Tipos de conversión de multicanal a estéreo Las pruebas de evaluación de calidad de presentación de conversión de estéreo a multicanal se han definido como enumerado en la Tabla 3.
Tabla 3 - Condiciones de prueba para capacidad auditiva El sistema "5222" usa el preprocesador de conversión estereofónica de multicanal a estéreo como descrito en ISO/IEC JTC 1/Consejero principal 29/WG 11 (MPEG), el Documento N10045, "CD ISO/IEC Codificación espacial del objeto de audio 23003-2 :200x (SAOC)", 85to MPEG Hacer contacto, julio de 2008, Hannover, Alemania, con el complejo matriz de renderización con especificidad de. objetivo binaural valoradaA,m como una entrada. Es decir ningún control de ICC se lleva a cabo. La prueba de capacidad auditiva informal ha mostrado que considerando la magnitud deA''m para bandas superiores en vez de mantener ella el complejo valorado por todas las bandas mejora el desempeño. El mejorado "5222" sistema se ha usado en la prueba.
Una descripción corta en términos de diagramas que demuestran los resultados de pruebas de capacidad auditiva obtenidos puede encontrarse en la Figura 6. Estos complots muestran MUSHRA promedio que clasifica por articulo sobre todos los oyentes y el valor promedio estadístico sobre todos los artículos evaluados conjuntamente con los intervalos de confianza del 95 % asociados. Habría que observar que los datos para la referencia escondida se omiten en los complots de MUSHRA porque todos los sujetos lo han identificado correctamente .
Las siguientes observaciones pueden hacerse basadas mediante los resultados de las pruebas de capacidad auditiva: "x-2-b_DualMono" lleva a cabo comparable a "5222". "x-2-b_DualMono" lleva a cabo claramente mejor que "5222_DualMono" . - "x-2-b_DualMono" lleva a cabo comparable a "x-l-b" wx-2-b" puesto en práctica según la primera alternativa superior, lleva a cabo ligeramente mejor que todas otras condiciones . el artículo "discol" no muestra mucha variación en los resultados y puede no ser adecuado.
Así, un concepto para la renderización binaural de señales de conversión estereofónica de multicanal a estéreo en SAOC se ha descrito antes, que cumple requisitos para de diferentes matrices de conversión de multicanal a estéreo. Particularmente la calidad para el dual mono como conversiones de multicanal a estéreo es igual que para conversiones monoaurales de multicanal a estéreo verdaderas que ha sido verificado en una prueba de capacidad auditiva. La mejora de la calidad que puede obtenerse de conversiones estereofónicas de multicanal a estéreo comparado con conversiones monoaurales de multicanal a estéreo también puede observarse de la prueba de capacidad auditiva. Los bloques de procesamiento básicos de las modalidades anteriores son la renderización binaural seca de la conversión estereofónica de multicanal a estéreo y el mezclado con una señal binaural húmeda no correlacionada con una combinación apropiada de ambos bloques .
? En términos particulares, la señal binaural húmeda se calcula usando un decorrelacionador con la entrada de conversión monoaural de multicanal a estéreo de modo que las energías derechas e izquierdas y el IPD son iguales como en la señal binaural seca.
? El mezclado de las señales binaurales húmedas y secas se controla por ICC con especificidad de objetivo y el ICC de la señal binaural seca de modo que la decorrelación por lo común menos sea requerida que para la conversión monoaufal de multicanal a estéreo renderización binaural basada calidad de sonido total dando como resultado más elevada .
? Adicionalmente, las modalidades anteriores, puede ser fácilmente modificado para cualquier combinación de entrada mono / entrada de conversión estereofónica de multicanal a estéreo y salida mono/estéreo/binaural en una manera estable.
En otras palabras, las modalidades que proporcionan una estructura de procesamiento de señal y método para decodificación y renderización binaural de la conversión estereofónica de multicanal a estéreo trenes de bits SAOC basados con el control de coherencia entre canales se describen antes. Todas las combinaciones de mono o entrada de conversión estereofónica de multicanal a estéreo y salida mono, estéreo o binaural pueden ser manejadas como casos especiales de la conversión estereofónica de multicanal a estéreo descrita concepto basado. La calidad de la conversión estereofónica de multicanal a estéreo el concepto basado resultó ser por lo común mejor que la conversión monoaural de multicanal a estéreo el concepto basado que es verificado en MUSHRA anteriormente descrito que escucha la prueba.
En la Codificación espacial del objeto de audio (SAOC) ISO/IEC JTC 1/Consejero principal 29/WG 11 (MPEG), el Documento N10045, "el CD ISO/IEC Codificación espacial del objeto de audio 23003-2:200x (SAOC)", el 85to MPEG Hacer contacto' julio de 2008, Hannover, Alemania, múltiples objetos de audio se convierte de multicanal a estéreo a una señal mono o estéreo. Esta señal es codificada y transmitida conjuntamente con la información conexa (parámetros de SAOC) al decodificador SAOC. Las modalidades anteriores habilitan la coherencia entre canales (ICC) de la señal de salida binaural que es una medida importante para la percepción de la anchura de fuente de sonido virtual, y que es, debido a la conversión de multicanal a estéreo codificador, degradada o incluso ' destruyó, (casi) completamente para corregirse.
Las entradas al sistema son lá conversión estereofónica de multicanal a estéreo, parámetros de SAOC, información de renderización espacial y una base de datos HRTF. La salida es la señal binaural. Amba entrada y salida se les proporciona en el dominio de transformación de decodificador por lo común por medio de un complejo sobremuestreado el banco de filtros de análisis modulado, como el banco de filtros QMF de híbrido de Sonido envolvente de MPEG, ISO/IEC 23003-1:2007, Tecnología de la información - tecnologías de audio de MPEG -la Parte 1: Sonido envolvente de MPEG con suficientemente baja distorsión por plegado del espectro inband. La señal de salida binaural se convierte nuevamente al dominio temporal de PCM por medio del banco de filtros de síntesis. El sistema es así, en otras palabras, una extensión de una conversión monoaural de multicanal a estéreo potencial renderización binaural basada hacia señales de conversión estereofónica de multicanal a estéreo. Ya que la conversión monoaural de multicanal a estéreo dual señala que la salida del sistema es igual que para la conversión monoaural de multicanal a estéreo el sistema basado. Por lo tanto el sistema puede manejar cualquier combinación de entrada mono / entrada de conversión estereofónica de multicanal a estéreo 'y salida mono/estéreo/binaural fijando los parámetros de renderización apropiadamente en una manera estable.
En incluso otras palabras, las modalidades anteriores llevan a cabo la renderización binaural y la decodificación de la conversión estereofónica de multicanal a estéreo trenes binarios SAOC basados con el control de ICC. Comparado con una conversión monoaural de multicanal a estéreo renderización binaural basada, las modalidades pueden aprovechar la conversión estereofónica de multicanal a estéreo de dos modos: Las propiedades de correlación entre objetos en diferentes canales de conversión de multicanal a estéreo son en parte conservadas - Objetar a que la extracción sea mejorada ya que pocos objetos se encuentran en un canal de conversión de multicanal a estéreo Así, un concepto para la renderización binaural de señales de conversión estereofónica de multicanal a estéreo en SAOC se ha descrito antes de que esto cumpla requisitos para de diferentes matrices de conversión de multicanal a estéreo. En términos particulares, la calidad para el dual mono como conversiones de multicanal a estéreo es igual que para conversiones monoaurales de multicanal a estéreo verdaderas que ha sido verificado en una prueba de capacidad auditiva. La mejora de la calidad que puede obtenerse de conversiones estereofónicas de multicanal a estéreo comparado con conversiones monoaurales de multicanal a estéreo también puede observarse de la prueba de capacidad auditiva. Los bloques de procesamiento básicos de las modalidades anteriores son la renderización binaural seca de la conversión estereofónica de multicanal a estéreo y el mezclado con una señal binaural húmeda no correlacionada con una combinación apropiada de ambos bloques. En términos particulares, la señal binaural húmeda se calcula usando un decorrelacionador con la entrada de conversión monoaural de multicanal a estéreo de modo que las energías derechas e izquierdas y el IPD son iguales como en la señal binaural seca. El mezclado de las señales binaurales húmedas y secas se controla por ICC con especificidad de objetivo y la conversión monoaural de multicanal a estéreo la renderización binaural basada calidad de sonido total dando como resultado más elevada. Adicionalmente, las modalidades anteriores pueden ser fácilmente modificadas para cualquier combinación de entrada mono / entrada de conversión estereofónica de multicanal a estéreo y salida mono/estéreo/binaural en una manera estable. De acuerdo con las modalidades, la señal de conversión estereofónica de multicanal a estéreo Xn' k se obtiene conjuntamente con los parámetros SAOC, usuario información de renderización definida y una base de datos HRTF como entradas. Los parámetros SAOC transmitidos son OLDj1, m (objete diferencias de nivel) , iOCij1, m (correlación cruzada entre objetos) , DMGi1, m (ganancias de conversión de multicanal a estéreo) y DCLDi1, m (diferencias de nivel de canal de conversión de multicanal a estéreo) para todo N se •opone i, j. Los parámetros HRTF se les proporcionan como para todo el índice g de base de datos HRTF, qué se asocia con una cierta posición de la fuente de sonido espacial .
Finalmente, esto se observa que aunque dentro de la descripción anterior, los términos "entre canales de coherencia" und "correlación cruzada entre objetos" se hayan construido diferentemente en aquella "la coherencia" se usa en un término y "se cruzan la correlación" se usa en el otro, los últimos términos se pueden usar de modo indistinto como una medida para semejanzas entre canales' y objetos, respectivamente .
Según una realización actual, el concepto de renderizacion binaural inventivo puede ponerse en práctica en el hardware o en el software. Por lo tanto, la 'presente invención también se relaciona con un programa informático, que puede almacenarse en un medio legible por computadora, como un CD, un disco, DVD, una barra de memoria, una tarjeta de memoria o un microcircuito de memoria. La presente invención es, por lo tanto, también un programa informático que tiene un código de programación que, cuando ejecutado en una computadora, lleva a cabo el método inventivo de codificar, convertiendo o decodificando descrito en relación con las figuras anteriores .
Mientras esta invención se ha descrito en términos de varias modalidades preferidas, hay modificaciones, las permutaciones, y los equivalentes que se incluyen dentro el alcance de esta invención. Deberse también observar que hay muchos modos alternativos de poner en práctica los métodos y composiciones de la presente invención. Es por lo tanto pretendido que las siguientes reivindicaciones añadidas sean interpretadas como incluyendo todas las modificaciones, permutaciones, y equivalentes como se incluyen dentro el espíritu verdadero y el alcance de la presente invención. .
Más aún, esto se observa que todas las etapas indicadas en los organigramas se ponen en práctica por el respectivo medio en el decodificador, respectivamente, un que las realizaciones pueden comprender subrutinas que funcionan en una unidad central de proceso, las partes de circuito de un ASIC o lo similar. Una declaración similar es verdad para las funciones de los bloques en los diagramas de bloques En otras palabras , según una modalidad un aparato para la renderizacion binaural de una señal de audio multicanal (21) en una señal de salida binaural (24) se proporciona, la señal de audio multicanal (21) que comprende una señal (18) de conversión estereofónica de multicanal a estéreo hacia donde una . pluralidad de señales de audio (14i-14N) se convierte de multicanal a estéreo, e información conexa (20) que comprende una información de conversión de multicanal a estéreo (DMG, DCLD) indicación, para cada señal de audio, hasta que punto la respectiva señal de audio se ha mezclado en un primer canal (LO) y un segundo canal (R0) de la señal (18) de conversión estereofónica de multicanal a estéreo, respectivamente, así como información sobre el nivel de objeto (ANTERIOR) de la pluralidad de señales de audio e información de correlación cruzada entre objetos (IOC) descripción de semejanzas entre pares de señales de audio de la pluralidad de señales de audio, el aparato que comprende el medio (47) para la informática, basada en una primera prescripción de renderizacion (G1, m) según la información de correlación cruzada entre objetos, la información sobre el nivel de objeto, la información de conversión de multicanal a estéreo, información de renderizacion que relaciona cada señal de audio con una posición de altavoz virtual y parámetros HRTF, una señal (54) binaural preliminar de los primeros y segundos canales de la señal (18) de conversión estereofónica de multicanal a estéreo; el medio (50) para generar una señal no correlacionada ( d ) como un equivalente perceptual con una conversión monoaural de multicanal a estéreo (58) de los primeros y segundos canales de la señal (18) de conversión estereofónica de multicanal a estéreo que es, sin embargo, decorrelacionada a la conversión monoaural de multicanal a estéreo (58); medio (52) para informática, según una segunda prescripción de renderizacion (P22 m) según la información de correlación cruzada entre objetos, la información sobre el nivel de objeto, la información de conversión de multicanal a estéreo, la información de renderizacion y los parámetros HRTF, una señal (64) binaural correctiva de la señal (62) no correlacionada; y medio (53) para mezclado la señal (54) binaural preliminar con la señal (64) binaural correctiva de obtener la señal de salida binaural (24) .
Referencias ISO/IEC JTC 1/SC 29/WG 11 (MPEG), Document N10045, "ISO/IEC CD 23003-2:200x Spatial Audio Object Coding (SAOC)", 85th MPEG Meeting, July 2008, Hannover, Alemania.
EBU Technical recommendation: "MUSHRA-EBU Method for Subjective Listening Tests of Intermedíate Audio Quality", Doc. B/AIM022, October 1999.
ISO/IEC 23003-1:2007, Information technology - MPEG audio technologies - Part 1: MPEG Surround.
ISO/IEC JTC1/SC29/WG11 (MPEG), Document N9099: "Final Spatial Audio Object Coding Evaluation Procedures and Criterion". Abril de 2007, San José, EUA.
Jeroen, Breebaart, Christof Faller: Spatial Audio Processing. MPEG Surround and Other Applications. Wiley & Sons, 2007.
Jeroen, Breebaart et al.: Multi-Channel goes Mobile : MPEG Surround Binaural Rendering. AES 29th International Conference, Seúl, Corea, 2006.

Claims (11)

REIVINDICACIONES
1. Un aparato para la renderización binaural de una señal de audio multicanal (21) en una señal de salida binaural (24) , la señal de audio multicanal (21) comprende 5 una señal (18) de conversión estereofónica de multicanal a estéreo hacia donde una pluralidad de señales de audio (14i- 14N) se convierte de multicanal a estéreo, e información conexa (20) que comprende una información de conversión de multicanal a estéreo (DMG, DCLD) indicación, para cada señal lo de audio, hasta que punto la respectiva señal de audio se ha mezclado en un primer canal (LO) y un segundo canal (R0) de la señal (18) de conversión estereofónica de multicanal a estéreo, respectivamente, así como información sobre el nivel de objeto (ANTERIOR) de la pluralidad de señales de audio e ^ información de correlación cruzada entre objetos (IOC) descripción de semejanzas entre pares de señales de audio de la pluralidad de señales de audio, el aparato que se configura a: computar (47), basado en una primera prescripción de 20 renderización (ff2' m) según la información de correlación cruzada entre objetos, la información sobre el nivel de objeto, la información de conversión de multicanal a estéreo, información de renderización que relaciona cada señal de audio con una posición de altavoz virtual y parámetros HRTF, 25 una señal (54) binaural preliminar de los primeros y segundos canales de la señal (18) de conversión estereofónica de multicanal a estéreo; generar (50) una señal no correlacionada ( á ) como un equivalente perceptual con una conversión monoaural de multicanal a estéreo (58) de los primeros y segundos canales de la señal (18) de conversión estereofónica de multicanal a estéreo que es, sin embargo, decorrelacionada a la conversión monoaural de multicanal a estéreo (58); computar (52), según una segunda prescripción de renderización (P22, m) según la información de correlación cruzada entre objetos, la información sobre el nivel de objeto, la información de conversión de multicanal a estéreo, la información de renderización y los parámetros HRTF, una señal (64) binaural correctiva de la señal (62) no correlacionada; y mezclar (53) la señal (54) binaural preliminar con la señal (64) binaural correctiva de obtener la señal de salida binaural (24) .
2. Un aparato según la reivindicación 1, donde el aparato es configurado adicionalmente a, en la generación de la señal no correlacionada ( d ) , sume el primer y segundo canal de la señal (18) de conversión estereofónica de multicanal a estéreo y decorrelacione la suma para obtener la señal (62) no correlacionada.
3. Un aparato según la reivindicación 1 o 2, adicionalmente configurado para: estimar (80) un valor de coherencia entre canales binaural actual de la señal (54) binaural preliminar; determinar (82) un valor de coherencia entre canales 5 binaural con especificidad de objetivo; y conformar (84) una proporción de mezcla determinante a cual grado la señal de salida binaural (24) es bajo la influencia de los primeros y segundos canales de la señal (18) de conversión estereofónica de multicanal a estéreo como 20 procesado por el cálculo (47) de la señal (54) binaural preliminar y los primeros y segundos canales de la señal (18) de conversión estereofónica de multicanal a estéreo como procesado por la generación (50) de una señal no correlacionada y el cálculo (52) de la señal (64) binaural ^ correctiva, respectivamente, basada en el valor de coherencia entre canales binaural actual y el valor de coherencia entre canales binaural con especificidad de objetivo.
4. Un aparato según la reivindicación 3, donde el aparato es configurado adicionalmente, en la configuración de 20 la proporción de mezcla, determine la proporción de mezcla determinando la primera prescripción de renderizacion (G1, m) y la segunda prescripción de renderizacion {P21' m) basado en el valor de coherencia entre canales binaural actual y el valor de coherencia entre canales' binaural con especificidad 25 de objetivo.
5. Un aparato según la reivindicación 3 o 4, donde el aparato es configurado adicionalmente a, en determinar del valor de coherencia entre canales binaural con especificidad de objetivo, lleve a cabo la determinación basada en componentes de una matriz de covariancia con especificidad de objetivo F = Un E ™ *, con " *" denotación que el conjugado transporta, un que es una matriz de renderización binaural con especificidad de objetivo relación de las señales de audio a los primeros y segundos canales de la señal de salida binaural, respectivamente, y que es exclusivamente determinado por la información de renderización y los parámetros HRTF, y E que es una matriz que es exclusivamente determinada por la información de correlación cruzada entre objetos y la información sobre el nivel de objeto.
6. Un aparato según la reivindicación 5, donde el aparato es configurado adicionalmente, en la informática de la señal (54) binaural preliminar, lleve a cabo el cálculo de modo que: Xx =GX donde X es un 2x1 dirigen los componentes de los cuales corresponden a los primeros y segundos canales de la señal (18) de conversión estereofónica de multicanal a estéreo,^' es un 2x1 dirigen los componentes de los cuales corresponden a los primeros y segundos canales de la señal (54), G binaural preliminar es una primera matriz de renderización que representa la primera prescripción de renderizacion y que tiene un tamaño de 2x2 con f P cos(p + a)exp( ¾-) P] cos(p + <x)exp(/ ) ' G = 2 cos(p - a)exp(- j¿) P] cos(p - a)exp(- donde , con x {1,2}: a forma ondición donde , J y-'22 son coeficientes de matrices de covariancia con especificidad de objetivo F* del tamaño 2x2 con: = A E? A*, donde: son coeficientes de la matriz de Nx £xcepto, el N es la cantidad de señales de áudio, los e±j son coeficientes de la matriz E es del tamaño NxN, y d·'x son exclusivamente determinados por la información de conversión de multicanal a estéreo, donde > indica el grado a cual señal de audio me he mezclado en el primer canal de la señal (18) de conversión estereofónica de multicanal a estéreo y defino hasta que punto señal de audio me he mezclado en el segundo canal de la señal de salida estéreo (18) , donde jv/x es un escalar conV'x— T)xP +P y if es un lx dx matriz los coeficientes de que son 1 , donde el aparato es configurado adicionalmente a, en la informática de una señal de salida binaural correctiva (64) lleve a cabo el cálculo el que: X2 = P2¦Xd t 64 dónde Xd es la señal no correlacionada, 2 es un 2x1 dirigen los componentes de los cuales corresponden a primeros y segundos canales de la señal (64) binaural correctiva, y P2 es una segunda matriz de renderizacion que representa la segunda prescripción de renderizacion y que tiene un tamaño 2x2 con: donde PL y PR de ganancias se definen como: donde Cu y c22 son coeficientes de un 2x2 la matriz C de covariancia de la señal (54) binaural preliminar con: C =GDED'G* V nde V es un escalar con = w F W* +F do , W es una matriz de conversión monoaural de multicanal a estéreo del tamaño lxN los coeficientes de que son exclusivamente determinados • donde el aparato es configurado adicionalmente a, en la estimación del valor de coherencia entre canales binaural actual, determine el valor de coherencia entre canales binaural actual como: donde el aparato es configurado adicionalmente a, en determinar del valor de coherencia entre canales binaural con especificidad de objetivo, determine el valor de coherencia entre canales binaural con especificidad de objetivo como: donde el aparato es configurado adicionalmente a, en la configuración de la proporción de mezcla, determine que la pieza rotatoria sesga o¡ y ß según: que denota una pequeña constante para evitar divisiones por cero, respectivamente.
7. Aparato según la reivindicación 1, donde el aparato es configurado adicionalmente a, en la informática de la señal (54) binaural preliminar, lleve a cabo el cálculo de modo que : donde X es un 2x1 dirigen los componentes de los cuales corresponden a los primeros y segundos canales de la señal (18) de conversión estereofónica de multicanal a estéreo, 1 es un 2x1 dirigen los componentes de los cuales corresponden a los primeros y segundos canales de la señal (54), G binaural preliminar es una primera matriz de renderizacion que representa la primera prescripción de renderizacion y que tiene un tamaño de 2x2 con: G= AED DED*) donde E es una matriz que es exclusivamente determinada por la información de correlación cruzada entre objetos y la información sobre el nivel de objeto; D es un 2x matriz los coeficientes^ son exclusivamente determinados por la información de conversión de multicanal a estéreo, donde indica el grado al cual la señal de audio j se ha mezclado en el primer canal de la señal (18) de conversión estereofónica de multicanal a estéreo y^2J define hasta que punto la señal de audio j se ha mezclado en el segundo canal de la señal de salida estéreo (18); A es una matriz de renderización binaural con especificidad de objetivo relación de las señales de audio a los primeros y segundos canales de la señal de salida binaural, respectivamente, y es exclusivamente determinado por la información de renderización y los parámetros HRTF, donde el aparato es configurado adicionalmente a, en la informática de una señal de salida binaural correctiva (64), lleve a cabo el cálculo el que: X2=P xd donde X¿¡ es la señal no correlacionada, X2 es un 2x1 dirigen los componentes de los cuales corresponden a primeros y segundos canales de la señal (64) binaural correctiva, y P es una segunda matriz de renderización que representa la segunda prescripción de renderizacion y que tiene un tamaño 2x2 y se determina el que: PPS * =?/?, conÁR = AEA ~GoDED Go con6» = G .
8. El aparato según la reivindicación 1, donde el aparato es configurado adicionalmente a, calculando la señal (54) binaural preliminar, lleve a cabo el cálculo de modo que : X =G X donde X es un 2x1 dirigen los componentes de los cuales corresponden a los primeros y segundos canales de la señal (18). de conversión estereofónica de multicanal a estéreo, Í' es un 2x1 dirigen los componentes de los cuales corresponden a los primeros y segundos canales de la señal (54) , G binaural preliminar es una primera matriz de renderizacion que representa la primera prescripción de renderizacion y que tiene un tamaño de 2x2 con: G= (G0DED*G0 1 (G0 DED*G0* AEA* G0 DED*G0 *) 1 2 (Go DED*G0 Go con Go = AED* (DED donde E es una matriz que es exclusivamente determinada por la información de correlación cruzada entre objetos y la información sobre el nivel de objeto; D es un 2xN matriz los coeficientes son exclusivamente determinados por la información de conversión de multicanal a estéreo, donde indica el grado al cual la señal de audio j sé ha mezclado en el primer canal de la señal (18) de conversión estereofónica de multicanal a estéreo y^2J define hasta que punto la señal de audio j se ha mezclado en el segundo canal de la señal de salida estéreo (18); 5 A es una matriz de renderización binaural con especificidad de objetivo relación de las señales de audio a los primeros y segundos canales de la señal de salida binaural, respectivamente, y es exclusivamente determinado por la información de renderización y los parámetros HRTF, 0 donde el aparato es configurado adicionalmente a, en la informática de una señal de salida binaural correctiva (64), lleve a cabo el cálculo el que: 2=P-Xd y donde ¾ es la señal no correlacionada, 2 es un 2x1 ^ dirigen los componentes de los cuales corresponden a primeros y segundos canales de la señal (64) binaural correctiva, y P es una segunda matriz de renderización que representa la segunda prescripción de renderización y que tiene un tamaño 2x2 y se determina el que PPS * = (AEA* - GDED*G*) / V con V 20 que es un escalar.
9. Un aparato según cualquiera de las reivindicaciones precedentes, donde la información de conversión de multicanal a estéreo (DMG, DCLD) es dependiente del tiempo, y la información sobre el nivel de objeto (ANTERIOR) y la 25 información de correlación cruzada entre objetos (IOC) es dependiente de tiempo y frecuencia.
10. El método para la renderización binaural de una señal de audio multicanal (21) en una señal de salida binaural (24), la señal de audio multicanal (21) que comprende una señal (18) de conversión estereofónica de multicanal a estéreo hacia donde una pluralidad de señales de audio (14i-14N) se convierte de multicanal a estéreo, e información conexa (20) que comprende una información de conversión de multicanal a estéreo (DMG, DCLD) indicación, para cada señal de audio, hasta que punto la respectiva señal de audio se ha mezclado en un primer canal (LO) y un segundo canal (R0) de la señal (18) de conversión estereofónica de multicanal a estéreo, respectivamente, así como información sobre el nivel de objeto (ANTERIOR) de la pluralidad de señales de audio e información de correlación cruzada entre objetos (I0C) descripción de semejanzas entre pares de señales de audio de la pluralidad de señales de audio, el método comprende : computar, basado en una primera prescripción de renderización (G1, m.) según la información de correlación cruzada entre objetos, la información sobre el nivel de objeto, la información de conversión de multicanal a estéreo, información de renderización que relaciona cada señal de audio con una posición de altavoz virtual y parámetros HRTF, una señal (54) binaural preliminar de los primeros y segundos canales de la señal (18) de conversión estereofónica de multicanal a estéreo; generar una señal no correlacionada ( d ) como un equivalente perceptual con una conversión monoaural de multicanal a estéreo (58) de los primeros y segundos canales de la señal (18) de conversión estereofónica de multicanal a estéreo que es, sin embargo, decorrelacionada a la conversión monoaural de multicanal a estéreo (58); computar, según una segunda prescripción de renderización (P21' m) según la información de correlación cruzada entre objetos, la información sobre el nivel de objeto, la información de conversión de multicanal a estéreo, la información de renderización y los parámetros HRTF, una señal (64) binaural correctiva de la señal (62) no correlacionada; y mezclar la señal (54) binaural preliminar con la señal (64) binaural correctiva de obtener la señal de salida binaural (24) .
11. El programa informático que tiene instrucciones para llevar a cabo, al ejecutarse en una computadora, un método según la reivindicación 10.
MX2011003742A 2008-10-07 2009-09-25 Renderizacion binaural de una señal de audio multicanal. MX2011003742A (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10330308P 2008-10-07 2008-10-07
EP09006598A EP2175670A1 (en) 2008-10-07 2009-05-15 Binaural rendering of a multi-channel audio signal
PCT/EP2009/006955 WO2010040456A1 (en) 2008-10-07 2009-09-25 Binaural rendering of a multi-channel audio signal

Publications (1)

Publication Number Publication Date
MX2011003742A true MX2011003742A (es) 2011-06-09

Family

ID=41165167

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2011003742A MX2011003742A (es) 2008-10-07 2009-09-25 Renderizacion binaural de una señal de audio multicanal.

Country Status (16)

Country Link
US (1) US8325929B2 (es)
EP (2) EP2175670A1 (es)
JP (1) JP5255702B2 (es)
KR (1) KR101264515B1 (es)
CN (1) CN102187691B (es)
AU (1) AU2009301467B2 (es)
BR (1) BRPI0914055B1 (es)
CA (1) CA2739651C (es)
ES (1) ES2532152T3 (es)
HK (1) HK1159393A1 (es)
MX (1) MX2011003742A (es)
MY (1) MY152056A (es)
PL (1) PL2335428T3 (es)
RU (1) RU2512124C2 (es)
TW (1) TWI424756B (es)
WO (1) WO2010040456A1 (es)

Families Citing this family (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
US10158958B2 (en) 2010-03-23 2018-12-18 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
CN113490133B (zh) 2010-03-23 2023-05-02 杜比实验室特许公司 音频再现方法和声音再现系统
CN102907120B (zh) * 2010-06-02 2016-05-25 皇家飞利浦电子股份有限公司 用于声音处理的系统和方法
UA107771C2 (en) 2011-09-29 2015-02-10 Dolby Int Ab Prediction-based fm stereo radio noise reduction
CN102404610B (zh) * 2011-12-30 2014-06-18 百视通网络电视技术发展有限责任公司 视频点播服务的实现方法及系统
KR20130093798A (ko) 2012-01-02 2013-08-23 한국전자통신연구원 다채널 신호 부호화 및 복호화 장치 및 방법
WO2013103256A1 (ko) 2012-01-05 2013-07-11 삼성전자 주식회사 다채널 음향 신호의 정위 방법 및 장치
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
RU2628195C2 (ru) * 2012-08-03 2017-08-15 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Декодер и способ параметрической концепции обобщенного пространственного кодирования аудиообъектов для случаев многоканального понижающего микширования/повышающего микширования
CN104604256B (zh) * 2012-08-31 2017-09-15 杜比实验室特许公司 基于对象的音频的反射声渲染
EP2717261A1 (en) 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
WO2014077374A1 (ja) * 2012-11-16 2014-05-22 ヤマハ株式会社 オーディオ信号処理装置、位置情報取得装置、およびオーディオ信号処理システム
CA3031476C (en) 2012-12-04 2021-03-09 Samsung Electronics Co., Ltd. Audio providing apparatus and audio providing method
WO2014105857A1 (en) * 2012-12-27 2014-07-03 Dts, Inc. System and method for variable decorrelation of audio signals
MX347551B (es) * 2013-01-15 2017-05-02 Koninklijke Philips Nv Procesamiento de audio binaural.
EP2757559A1 (en) * 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
US9900720B2 (en) * 2013-03-28 2018-02-20 Dolby Laboratories Licensing Corporation Using single bitstream to produce tailored audio device mixes
EP2987166A4 (en) * 2013-04-15 2016-12-21 Nokia Technologies Oy BESTIMMER FOR MULTI-CHANNEL AUDIOSIGNAL CODIER MODE
US10075795B2 (en) 2013-04-19 2018-09-11 Electronics And Telecommunications Research Institute Apparatus and method for processing multi-channel audio signal
CN108806704B (zh) * 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
US8804971B1 (en) 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
CN105075294B (zh) * 2013-04-30 2018-03-09 华为技术有限公司 音频信号处理装置
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
US10582330B2 (en) * 2013-05-16 2020-03-03 Koninklijke Philips N.V. Audio processing apparatus and method therefor
RU2671627C2 (ru) * 2013-05-16 2018-11-02 Конинклейке Филипс Н.В. Аудиоустройство и способ для него
KR102033304B1 (ko) 2013-05-24 2019-10-17 돌비 인터네셔널 에이비 오디오 오브젝트들을 포함한 오디오 장면들의 효율적 코딩
PT3022949T (pt) * 2013-07-22 2018-01-23 Fraunhofer Ges Forschung Descodificador de áudio multicanal, codificador de áudio de multicanal, métodos, programa de computador e representação de áudio codificada usando uma descorrelação dos sinais de áudio renderizados
EP2830334A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
EP2830336A3 (en) * 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Renderer controlled spatial upmix
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
US9812150B2 (en) 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
CN110890101B (zh) * 2013-08-28 2024-01-12 杜比实验室特许公司 用于基于语音增强元数据进行解码的方法和设备
ES2641538T3 (es) 2013-09-12 2017-11-10 Dolby International Ab Codificación de contenido de audio multicanal
EP3767970B1 (en) 2013-09-17 2022-09-28 Wilus Institute of Standards and Technology Inc. Method and apparatus for processing multimedia signals
WO2015048551A2 (en) * 2013-09-27 2015-04-02 Sony Computer Entertainment Inc. Method of improving externalization of virtual surround sound
EP2854133A1 (en) * 2013-09-27 2015-04-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Generation of a downmix signal
WO2015049332A1 (de) * 2013-10-02 2015-04-09 Stormingswiss Gmbh Ableitung von multikanalsignalen aus zwei oder mehreren grundsignalen
RU2648947C2 (ru) * 2013-10-21 2018-03-28 Долби Интернэшнл Аб Параметрическая реконструкция аудиосигналов
CA2926243C (en) 2013-10-21 2018-01-23 Lars Villemoes Decorrelator structure for parametric reconstruction of audio signals
CN108449704B (zh) 2013-10-22 2021-01-01 韩国电子通信研究院 生成用于音频信号的滤波器的方法及其参数化装置
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
EP2866475A1 (en) 2013-10-23 2015-04-29 Thomson Licensing Method for and apparatus for decoding an audio soundfield representation for audio playback using 2D setups
WO2015066062A1 (en) 2013-10-31 2015-05-07 Dolby Laboratories Licensing Corporation Binaural rendering for headphones using metadata processing
CA2934856C (en) 2013-12-23 2020-01-14 Wilus Institute Of Standards And Technology Inc. Method for generating filter for audio signal, and parameterization device for same
RU2747713C2 (ru) * 2014-01-03 2021-05-13 Долби Лабораторис Лайсэнзин Корпорейшн Генерирование бинаурального звукового сигнала в ответ на многоканальный звуковой сигнал с использованием по меньшей мере одной схемы задержки с обратной связью
CN104768121A (zh) 2014-01-03 2015-07-08 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
US10468036B2 (en) 2014-04-30 2019-11-05 Accusonus, Inc. Methods and systems for processing and mixing signals using signal decomposition
US20150264505A1 (en) 2014-03-13 2015-09-17 Accusonus S.A. Wireless exchange of data between devices in live events
KR101782917B1 (ko) * 2014-03-19 2017-09-28 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
US9848275B2 (en) 2014-04-02 2017-12-19 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and device
WO2015152666A1 (ko) * 2014-04-02 2015-10-08 삼성전자 주식회사 Hoa 신호를 포함하는 오디오 신호를 디코딩하는 방법 및 장치
CN105338446B (zh) * 2014-07-04 2019-03-12 南宁富桂精密工业有限公司 音频声道控制电路
WO2016009863A1 (ja) * 2014-07-18 2016-01-21 ソニー株式会社 サーバ装置、およびサーバ装置の情報処理方法、並びにプログラム
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
JP6463955B2 (ja) * 2014-11-26 2019-02-06 日本放送協会 三次元音響再生装置及びプログラム
EP3869825A1 (en) * 2015-06-17 2021-08-25 Samsung Electronics Co., Ltd. Device and method for processing internal channel for low complexity format conversion
CN114005454A (zh) 2015-06-17 2022-02-01 三星电子株式会社 实现低复杂度格式转换的内部声道处理方法和装置
KR102537541B1 (ko) * 2015-06-17 2023-05-26 삼성전자주식회사 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치
US9860666B2 (en) 2015-06-18 2018-01-02 Nokia Technologies Oy Binaural audio reproduction
CA3219512A1 (en) 2015-08-25 2017-03-02 Dolby International Ab Audio encoding and decoding using presentation transform parameters
ES2818562T3 (es) * 2015-08-25 2021-04-13 Dolby Laboratories Licensing Corp Descodificador de audio y procedimiento de descodificación
JP6797187B2 (ja) 2015-08-25 2020-12-09 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ・デコーダおよびデコード方法
KR20170125660A (ko) 2016-05-04 2017-11-15 가우디오디오랩 주식회사 오디오 신호 처리 방법 및 장치
US10356545B2 (en) * 2016-09-23 2019-07-16 Gaudio Lab, Inc. Method and device for processing audio signal by using metadata
US10659904B2 (en) 2016-09-23 2020-05-19 Gaudio Lab, Inc. Method and device for processing binaural audio signal
CN114025301A (zh) 2016-10-28 2022-02-08 松下电器(美国)知识产权公司 用于回放多个音频源的双声道渲染装置和方法
WO2018147701A1 (ko) * 2017-02-10 2018-08-16 가우디오디오랩 주식회사 오디오 신호 처리 방법 및 장치
CN107205207B (zh) * 2017-05-17 2019-01-29 华南理工大学 一种基于中垂面特性的虚拟声像近似获取方法
EP4093057A1 (en) * 2018-04-27 2022-11-23 Dolby Laboratories Licensing Corp. Blind detection of binauralized stereo content
US11929091B2 (en) 2018-04-27 2024-03-12 Dolby Laboratories Licensing Corporation Blind detection of binauralized stereo content
CN109327766B (zh) * 2018-09-25 2021-04-30 Oppo广东移动通信有限公司 3d音效处理方法及相关产品
JP7092050B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 多地点制御方法、装置及びプログラム
CN110049423A (zh) * 2019-04-22 2019-07-23 福州瑞芯微电子股份有限公司 一种利用广义互相关和能量谱检测麦克风的方法和系统
WO2020227140A1 (en) 2019-05-03 2020-11-12 Dolby Laboratories Licensing Corporation Rendering audio objects with multiple types of renderers
TWI750565B (zh) * 2020-01-15 2021-12-21 原相科技股份有限公司 真無線多聲道揚聲裝置及其多音源發聲之方法
GB2595475A (en) * 2020-05-27 2021-12-01 Nokia Technologies Oy Spatial audio representation and rendering
US20230081104A1 (en) * 2021-09-14 2023-03-16 Sound Particles S.A. System and method for interpolating a head-related transfer function

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7447317B2 (en) 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
CA2992125C (en) * 2004-03-01 2018-09-25 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters
CN1930914B (zh) * 2004-03-04 2012-06-27 艾格瑞系统有限公司 对多声道音频信号进行编码和合成的方法和装置
EP1735779B1 (en) * 2004-04-05 2013-06-19 Koninklijke Philips Electronics N.V. Encoder apparatus, decoder apparatus, methods thereof and associated audio system
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US20060247918A1 (en) * 2005-04-29 2006-11-02 Microsoft Corporation Systems and methods for 3D audio programming and processing
US20070055510A1 (en) * 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
KR100619082B1 (ko) * 2005-07-20 2006-09-05 삼성전자주식회사 와이드 모노 사운드 재생 방법 및 시스템
JP5587551B2 (ja) * 2005-09-13 2014-09-10 コーニンクレッカ フィリップス エヌ ヴェ オーディオ符号化
JP2007104601A (ja) * 2005-10-07 2007-04-19 Matsushita Electric Ind Co Ltd マルチチャンネル符号化における頭部伝達関数をサポートするための装置
RU2008132156A (ru) * 2006-01-05 2010-02-10 Телефонактиеболагет ЛМ Эрикссон (пабл) (SE) Персонализированное декодирование многоканального объемного звука
WO2007080225A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
ATE476732T1 (de) * 2006-01-09 2010-08-15 Nokia Corp Steuerung der dekodierung binauraler audiosignale
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
KR20080087909A (ko) * 2006-01-19 2008-10-01 엘지전자 주식회사 신호 디코딩 방법 및 장치
TWI344638B (en) * 2006-01-19 2011-07-01 Lg Electronics Inc Method and apparatus for processing a media signal
EP1989920B1 (en) * 2006-02-21 2010-01-20 Koninklijke Philips Electronics N.V. Audio encoding and decoding
KR100773560B1 (ko) * 2006-03-06 2007-11-05 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
JP5209637B2 (ja) * 2006-12-07 2013-06-12 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
JP5133401B2 (ja) * 2007-04-26 2013-01-30 ドルビー・インターナショナル・アクチボラゲット 出力信号の合成装置及び合成方法
RU2443075C2 (ru) * 2007-10-09 2012-02-20 Конинклейке Филипс Электроникс Н.В. Способ и устройство для генерации бинаурального аудиосигнала

Also Published As

Publication number Publication date
ES2532152T3 (es) 2015-03-24
EP2335428B1 (en) 2015-01-14
JP2012505575A (ja) 2012-03-01
MY152056A (en) 2014-08-15
PL2335428T3 (pl) 2015-08-31
US20110264456A1 (en) 2011-10-27
TW201036464A (en) 2010-10-01
HK1159393A1 (en) 2012-07-27
EP2335428A1 (en) 2011-06-22
EP2175670A1 (en) 2010-04-14
CN102187691B (zh) 2014-04-30
CA2739651C (en) 2015-03-24
US8325929B2 (en) 2012-12-04
WO2010040456A1 (en) 2010-04-15
KR101264515B1 (ko) 2013-05-14
CA2739651A1 (en) 2010-04-25
KR20110082553A (ko) 2011-07-19
JP5255702B2 (ja) 2013-08-07
RU2011117698A (ru) 2012-11-10
RU2512124C2 (ru) 2014-04-10
CN102187691A (zh) 2011-09-14
AU2009301467A1 (en) 2010-04-15
AU2009301467B2 (en) 2013-08-01
BRPI0914055A2 (pt) 2015-11-03
TWI424756B (zh) 2014-01-21
BRPI0914055B1 (pt) 2021-02-02

Similar Documents

Publication Publication Date Title
MX2011003742A (es) Renderizacion binaural de una señal de audio multicanal.
KR102230727B1 (ko) 광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들을 사용하여 다채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법
JP4603037B2 (ja) マルチチャネルオーディオ信号を表示するための装置と方法
CA2730234C (en) Efficient use of phase information in audio encoding and decoding
KR101120909B1 (ko) 멀티 채널 파라미터 변환 장치, 방법 및 컴퓨터로 판독가능한 매체
US8958566B2 (en) Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
NO338701B1 (no) Parametrisk felleskoding av audiokilder
US8885854B2 (en) Method, medium, and system decoding compressed multi-channel signals into 2-channel binaural signals
GB2485979A (en) Spatial audio coding

Legal Events

Date Code Title Description
FG Grant or registration
HC Change of company name or juridical status