MX2013009657A - Aparato y metodo para determinar una medida de un nivel percibido de reverberacion, procesador de audion y metodo para procesar una señal. - Google Patents

Aparato y metodo para determinar una medida de un nivel percibido de reverberacion, procesador de audion y metodo para procesar una señal.

Info

Publication number
MX2013009657A
MX2013009657A MX2013009657A MX2013009657A MX2013009657A MX 2013009657 A MX2013009657 A MX 2013009657A MX 2013009657 A MX2013009657 A MX 2013009657A MX 2013009657 A MX2013009657 A MX 2013009657A MX 2013009657 A MX2013009657 A MX 2013009657A
Authority
MX
Mexico
Prior art keywords
signal
reverberation
component
sound intensity
filtered
Prior art date
Application number
MX2013009657A
Other languages
English (en)
Inventor
Juergen Herre
Oliver Hellmuth
Christian Uhle
Jouni Paulus
Peter Prokein
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of MX2013009657A publication Critical patent/MX2013009657A/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • G10K15/12Arrangements for producing a reverberation or echo sound using electronic time-delay networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

Un aparato para determinar una medida de un nivel percibido de reverberación en una señal de mezcla que consiste de un componente de señal directa (100) y un componente de señal de reverberación (102), comprende un procesador modelo de intensidad de sonido (104) que comprende una etapa de filtro perceptual para filtrar el componente de señal seca (100), el componente de señal de reverberación (102) o la señal de mezcla, en donde la etapa de filtro perceptual está configurada para modelar un mecanismo de percepción auditiva de una entidad para obtener una señal directa filtrada, una señal de reverberación filtrada o una señal de mezcla filtrada. El aparato además comprende un estimador de intensidad de sonido para estimar una primera medida de intensidad de sonido utilizando la señal directa filtrada y para estimar una segunda medida de intensidad de sonido utilizando la señal de reverberación filtrada o la señal de mezcla filtrada, en donde la señal de mezcla filtrada se obtiene desde una superposición del componente de señal directa y el componente de señal de reverberación. El aparato además comprende un combinador (110) para combinar la primera y la segunda medida de intensidad de sonido (106, 108) para obtener una medida (112) del nivel percibido de reverberación.

Description

APARATO Y MÉTODO PARA DETERMINAR UNA MEDIDA DE UN NIVEL PERCIBIDO DE REVERBERACIÓN, PROCESADOR DE AUDIO Y MÉTODO PARA PROCESAR UNA SEÑAL Memoria descriptiva La presente solicitud está relacionada con el procesamiento de señales de audio y, particularmente, el procesamiento de audio utilizable en reverberadores artificiales.
La determinación de una medida de un nivel percibido de reverberación se desea, por ejemplo, para aplicaciones en donde se opera un procesador de reverberación artificial en forma automática y necesita adaptar sus parámetros a la señal de entrada de tal manera que el nivel percibido de reverberación coincida con un valor objetivo. Cabe destacar que el término reverberancia cuando se hace referencia al mismo tema, no parece tener una definición comúnmente aceptada lo cual dificulta su uso como una medida cuantitativa en una prueba de audición y escenario de predicción.
Los procesadores de reverberación artificiales son implementados a menudo como sistemas lineales invariables con el tiempo y operados en una ruta de señal de envío-retorno, tal como se ¡lustra en la Fig. 6, con pre-retardo d , respuesta al impulso de reverberación (RIR, según sus siglas en inglés) y un factor de ajuste de escala g para controlar la relación directa a la reverberación (DRR, según sus siglas en inglés). Cuando se implementan como procesadores paramétricos de reverberación, ellos presentan una variedad de parámetros, por ejemplo, para controlar la forma y la densidad de la respuesta al impulso de reverberación (RIR) y la coherencia de intercanal (ICC, según sus siglas en inglés) de las RIR para los procesadores multicanal en una o más bandas de frecuencia.
La Fig. 6 ilustra una entrada de señal directa x[k] en una entrada 600, y esta señal se envía a un sumador 602 para sumar dicha señal a una salida de componente de señal de reverberación r[k] desde un ponderador 604, el cual recibe, en su primera entrada, una salida de señal por un filtro de reverberación 606 y el cual recibe, en su segunda entrada, un factor de ganancia g. El filtro de reverberación 606 puede tener una etapa de retardo opcional 608 conectada corriente arriba del filtro de reverberación 606, pero debido al hecho de que el filtro de reverberación 606 incluirá cierto retardo por sí mismo, el retardo en el bloque 608 puede esta incluido en el filtro de reverberación 606 para que la rama superior de la Fig. 6 sólo pueda comprender un solo filtro que incorpore el retardo y la reverberación o que sólo incorpore la reverberación sin ningún retardo adicional. Un componente de señal de reverberación es emitido por el filtro 606 y este componente de señal de reverberación pueden ser modificado por el multiplicador 606 en respuesta al factor de ganancia g con el fin de obtener el componente de reverberación de señal manipulada r[k], que se combina entonces con la entrada de componente de señal directa en 600 con el fin de obtener finalmente la señal de mezcla m[k] en la salida del sumador 602. Cabe señalar que el término "filtro de reverberación" se refiere a las aplicaciones comunes de reverberaciones artificiales (ya sea como convolución que es equivalente al filtrado FIR, o como aplicaciones que utilizan estructuras recursivas, tales como las Redes de Realimentación de Retardo o redes de filtros de todo paso y filtros de peine de realimentación u otros filtros recursivos), pero designa un procesamiento general que produce una señal reverberante. Estos procesamientos pueden incluir procesos no lineales o procesos variables con el tiempo tales como las modulaciones de baja frecuencia de amplitudes de señal o longitudes de retardo. En estos casos, el término "filtro de reverberación" no sería aplicable en un sentido estrictamente técnico de un sistema Lineal Invariable con el Tiempo (LTI, según sus siglas en inglés). De hecho, el "filtro de reverberación" se refiere a un proceso que emite una señal reverberante, incluyendo posiblemente un mecanismo para leer una señal reverberante computarizada o registrada desde la memoria.
Estos parámetros tienen un impacto en la señal de audio resultante en términos de nivel percibido, distancia, tamaño de la sala, coloración y calidad de sonido. Además, las características percibidas de la reverberación dependen de las características temporales y espectrales de la señal de entrada [1]. Centrándose en una sensación muy importante, es decir la intensidad de sonido, se puede observar que la intensidad de sonido de la reverberación percibida está monotónicamente relacionada con la no estacionariedad de la señal de entrada. Por intuición, una señal de audio con grandes variaciones en su envolvente excita la reverberación en niveles altos y permite que sea audible en niveles inferiores. En un escenario típico en el que la relación directa a la reverberación (RRD) a largo plazo expresada en decibeles es positiva, la señal directa puede enmascarar la señal de reverberación casi en su totalidad en instancias de tiempo en donde aumenta su envolvente de energía. Por otro lado, siempre que la señal termina, la cola de reverberación previamente excitada se hace evidente en intervalos que exceden una duración mínima determinada por la pendiente del postenmascaramiento (como máximo 200 ms) y el tiempo de integración del sistema auditivo (como máximo 200 ms para niveles moderados).
Con fines ilustrativos, la Fig. 4a ilustra los envolventes de señal de tiempo de una señal de audio sintético y de una señal de reverberación generada artificialmente, y la Fig. 4b ilustra funciones de intensidad de sonido previsto y de intensidad de sonido parcial calculadas con un modelo computacional de intensidad de sonido. En la presente se utiliza una respuesta al impulso de reverberación (RIR) con un pre-retardo corto de 50 ms, omitiendo primeras reflexiones y sintetizando la última parte de la reverberación con el decaimiento exponencial de ruido blanco [2]. La señal de entrada ha sido generada a partir de una señal armónica de banda ancha y una función de envolvente de tal manera que se percibe un evento con un decaimiento corto y un segundo evento con un decaimiento largo. Aunque el evento largo produce más energía de reverberación total, no sorprende que el sonido corto se perciba como más reverberante. Cuando la pendiente de decaimiento del evento más largo enmascara la reverberación, el sonido corto ya desapareció antes de acumularse la reverberación y, por lo tanto, hay un intervalo abierto en el que se percibe la reverberación. Cabe destacar que la definición de enmascaramiento según se emplea en la presente incluye tanto un enmascaramiento completo como parcial A pesar de que estas observaciones se han hecho muchas veces [4, 5, 6], todavía vale enfatizarlas debido a que ilustran cualitativamente por qué los modelos de intensidad de sonido parcial pueden ser aplicados en el contexto de este trabajo. De hecho, se ha señalado que la percepción de reverberación se origina en procesos de segregación de corriente en el sistema auditivo [4, 5, 6] y está influenciada por el enmascaramiento parcial de la reverberación debido al sonido directo.
Las consideraciones anteriores motivan el uso de modelos de intensidad de sonido. Lee et al., llevaron a cabo investigaciones relacionadas y se centraron en la predicción del índice de decaimiento subjetivo de las respuestas al impulso de reverberación (RIR) cuando se oyen directamente [7] y sobre el efecto del nivel de reproducción en la reverberancia [8]. En [9] se propone un predictor de reverberancia que utiliza el decaimiento temprano basado en la intensidad de sonido. A diferencia de este trabajo, los métodos de predicción propuestos en la presente procesan la señal directa y la señal de reverberación con un modelo computacional de intensidad de sonido parcial (y con versiones simplificadas de mismo en la búsqueda de aplicaciones de baja complejidad) y por lo tanto consideran la influencia de la señal de entrada (directa) en la sensación. Recientemente, Tsilfidis y Mourjopoulus [10] investigaron el uso de un modelo de intensidad de sonido para la supresión de la reverberación tardía en grabaciones de un solo canal. Una estimación de la señal directa se calcula a partir de la señal de entrada reverberante utilizando un método de sustracción espectral, y se obtiene un índice de enmascaramiento de reverberación por medio de un modelo de enmascaramiento auditivo computacional, el cual controla el procesamiento de reverberación.
El agregado de reverberación es una característica de los sintetizadores y otros dispositivos multicanal con el fin de lograr un mejor sonido desde un punto de vista perceptual. Por otro lado, la reverberación generada es una señal artificial que, cuando se agrega a la señal de bajo nivel, es apenas audible y cuando se agrega al nivel alto produce una señal mixta final que tiene un sonido antinatural y desagradable. Lo que empeora las cosas es que, como se describe en el contexto de la Fig. 4a y 4b, el nivel percibido de reverberación es fuertemente dependiente de la señal y, por tanto, un cierto filtro de reverberación podría funcionar muy bien para un tipo de señales, pero puede no tener un efecto audible o, peor aún, puede generar graves distorsiones audibles para un tipo diferente de señales.
Un problema adicional relacionado con la reverberación es que la señal reverberada está destinada a la oreja de un individuo o entidad, tal como un ser humano y el objetivo final de generar una señal de mezcla que tiene un componente de señal directa y un componente de señal de reverberación es que la entidad percibe esta señal mixta o "señal reverberada" como una señal que suena bien o que suena natural. Sin embargo, el mecanismo de percepción auditiva o el mecanismo de cómo el sonido es realmente percibido por un individuo es fuertemente no lineal, no sólo con respecto a las bandas en las que funciona el oído humano, sino también con respecto al procesamiento de señales dentro de las bandas. Adicionalmente, se sabe que la percepción humana del sonido no está demasiado dirigida por el nivel de presión de sonido que se puede calcular, por ejemplo, elevando al cuadrado muestras digitales, pero la percepción es más controlada por un sentido de intensidad de sonido. Adicionalmente, para las señales mixtas, que incluyen un componente directo y un componente de señal de reverberación, la sensación de la intensidad de sonido del componente de reverberación depende no sólo del tipo de componente de señal directa, sino también en el nivel o intensidad de sonido del componente de señal directa.
Por lo tanto, existe una necesidad de determinar una medida de un nivel percibido de reverberación en una señal que consiste de un componente de señal directa y un componente de señal de reverberación con el fin de hacer frente a los problemas anteriores relacionados con el mecanismo de percepción auditiva de una entidad.
Un objetivo de la presente invención es, por lo tanto, proporcionar un aparato o método para determinar una medida de un nivel percibido de reverberación o proporcionar un procesador de audio o un método de procesamiento de una señal de audio con características mejoradas.
Este objetivo se logra mediante un aparato para determinar una medida de un nivel percibido de reverberación de acuerdo con la reivindicación 1 , un método para determinar una medida de un nivel percibido de reverberación de acuerdo con la reivindicación 10, un procesador de audio de acuerdo con la reivindicación 11 , un método de procesamiento de una señal de audio de acuerdo con la reivindicación 14 o un programa de computadora de acuerdo con la reivindicación 15.
La presente invención se basa en el hallazgo de que la medida de un nivel percibido de reverberación en una señal está determinada por un procesador modelo de intensidad de sonido que comprende una etapa de filtro perceptual para filtrar' un componente de señal directa, un componente de señal de reverberación o un componente de señal de mezcla que utiliza un filtro perceptual con el fin de modelar un mecanismo de percepción auditiva de una entidad. En base a las señales filtradas perceptualmente, un estimador de intensidad de sonido calcula una primera medida de intensidad de sonido utilizando la señal directa filtrada y una segunda medida de intensidad de sonido utilizando la señal de reverberación filtrada o la señal de mezcla filtrada. Entonces, un combinador combina la medida primera y la segunda medida para obtener una medida del nivel percibido de reverberación. En particular, una forma de combinar dos medidas diferentes de intensidad de sonido calculando preferentemente la diferencia proporciona un valor cuantitativo o una medida de cuán fuerte es una sensación de la reverberación en comparación con la sensación de la señal directa o la señal de mezcla.
Para calcular las medidas de intensidad de sonido se pueden utilizar las medidas absolutas de intensidad de sonido y, en particular, las medidas absolutas de intensidad de sonido de la señal directa, la señal mixta o la señal de reverberación. Alternativamente, la intensidad de sonido parcial también se puede calcular cuando la primera medida de intensidad de sonido se determina utilizando la señal directa como estímulo y la señal de reverberación como ruido en el modelo de intensidad de sonido y la segunda medida de intensidad de sonido se calcula utilizando la señal de reverberación como estímulo y la señal directa como ruido. Particularmente, al combinar estas dos medidas en el combinador se obtiene una medida útil de un nivel percibido de reverberación. Los inventores han descubierto que tal medida útil no puede ser determinada generando solamente una única medida de intensidad de sonido, por ejemplo, utilizando solamente la señal directa o solamente la señal de mezcla o solamente la señal de reverberación. En cambio, debido a las interdependencias en la audición humana y combinando las medidas que provienen de forma diferente de cualquiera de estas tres señales, el nivel percibido de reverberación en una señal puede ser determinado o modelado con un alto grado de precisión.
Preferentemente, el procesador modelo de intensidad de sonido proporciona una conversión de tiempo/frecuencia y reconoce la función de transferencia auditiva junto con el patrón de excitación que en realidad ocurre en la audición humana, modelada por modelos de audición.
En una forma de realización preferida, la medida del nivel percibido de reverberación es enviada a un predictor que proporciona realmente el nivel percibido de reverberación en una escala útil tal como la escala Soné. Este predictor está preferentemente formado por la audición de datos de prueba y los parámetros del predictor para un predictor lineal preferido comprenden un término constante y un factor de ajuste de escala. El término constante depende preferentemente de la característica del filtro de reverberación efectivamente utilizado y, en una forma de realización, del parámetro T6ocaracterístico del filtro de reverberación, el cual puede ser determinado para filtros de reverberación simples y bien conocidos que se utilizan en reverberadores artificiales. Sin embargo, aun cuando esta característica no se conoce, por ejemplo, cuando el componente de señal de reverberación no está disponible por separado, pero ha sido separado de la señal de mezcla antes del procesamiento en el aparato de la invención, se puede obtener una estimación del término constante.
A continuación, las formas de realización preferidas de la presente invención se describirán con referencia a los dibujos adjuntos, en los cuales: la Fig. 1 es un diagrama en bloques de un aparato o método para determinar una medida de un nivel percibido de reverberación; la Fig. 2a es una ilustración de una forma de realización preferida del procesador modelo de intensidad de sonido; las Figs. 2b, 2c ilustran una aplicación preferida adicional del procesador modelo de intensidad de sonido; la Fig. 3 ilustra una aplicación preferida adicional del procesador modelo de intensidad de sonido; las Figs. 4a, 4b ilustran ejemplos de envolventes de señal de tiempo y una intensidad de sonido correspondiente y parcial; las Figs. 5a,5 b ilustran información sobre los datos experimentales para el entrenamiento del predictor; la Fig. 6 ilustra un diagrama en bloques de un procesador de reverberación artificial; las Figs. 7a, 7b ilustran tres tablas para indicar las métricas de evaluación para las formas de realización de la invención; la Fig. 8 ilustra un procesador de señal de audio implementado para utilizar la medida de un nivel percibido de reverberación para los fines de la reverberación artificial; la Fig. 9 ilustra una aplicación preferida del predictor que se basa en los niveles percibidos de reverberación, promediados en el tiempo; y la Fig. 10 ilustra las ecuaciones de la publicación de Moore, Glasberg, Baer de 1997, utilizadas en una forma de realización preferida para el cálculo de la intensidad específica de sonido.
El nivel percibido de reverberación depende tanto de la señal de audio de entrada como de la respuesta al impulso. Las formas de realización de la invención tienen el propósito de cuantificar esta observación y predecir el nivel percibido de reverberación tardía sobre la base de rutas de señales separadas de señales directas y reverberantes, tal como aparecen en los efectos digitales de audio. Una aproximación al problema se desarrolla y amplía posteriormente al considerar el impacto del tiempo de reverberación en el resultado de predicción. Esto conduce a un modelo de regresión lineal con dos variables de entrada que es capaz de predecir el nivel percibido con gran precisión, tal como se observa en datos experimentales obtenidos a partir de pruebas de audición. Las variaciones de este modelo con distintos grados de sofisticacion y complejidad computacional se comparan en cuanto a su precisión. Las aplicaciones incluyen el control de efectos digitales de audio para la mezcla automática de señales de audio.
Las formas de realización de la presente invención no sólo son útiles para predecir el nivel percibido de reverberación en la voz y la música cuando la señal directa y la respuesta al impulso de reverberación (RIR) están disponibles por separado. La presente invención también se puede aplicar en otras formas de realización en las que ocurre una señal reverberada. En este caso, sin embargo, se incluiría un separador directo/de ambiente o directo/de reverberación para separar el componente de la señal directa y el componente de señal reverberada de la señal de mezcla. Por lo tanto, dicho procesador de audio sería útil para cambiar la relación directa/de reverberación en esta señal con el fin de generar una señal reverberada con mejor sonido o una señal de mezcla con mejor sonido.
La Fig. 1 ¡lustra un aparato para determinar una medida de un nivel percibido de reverberación en una señal de mezcla que comprende un componente de señal directa o un componente de señal seca 100 y un componente de señal de reverberación 102. El componente de señal seca 100 y el componente de señal de reverberación 102 se introducen en un procesador modelo de intensidad de sonido 104. El procesador modelo de intensidad de sonido está configurado para recibir el componente de señal directa 100 y el componente de señal de reverberación 102 y además comprende una etapa de filtro perceptual 104a y un calculador de intensidad de sonido conectado posteriormente 104b tal como se ilustra en la Fig. 2a. El procesador modelo de intensidad de sonido genera, en su salida, una primera medida de intensidad de sonido 106 y una segunda medida de intensidad de sonido 108. Ambas medidas de intensidad de sonido se introducen en un combinador 110 para combinar la primera medida de intensidad de sonido 106 y la segunda medida de intensidad de sonido 108 para obtener finalmente una medida 1 12 del nivel percibido de reverberación. Dependiendo de la aplicación, la medida del nivel percibido 1 12 se puede introducir en un predictor 1 14 para predecir el nivel percibido de reverberación sobre la base de un valor promedio de por lo menos dos medidas de la intensidad de sonido percibido para distintos cuadros de señal, tal como se describirá en el contexto de la Fig. 9. Sin embargo, el predictor 14 en la Fig. 1 es opcional y, en efecto, transforma la medida del nivel percibido en un rango de valor determinado o rango de unidad tal como el rango de unidad Soné que es útil para proporcionar valores cuantitativos relacionados con la intensidad de sonido. Sin embargo, también pueden utilizarse otros usos de la medida del nivel percibido 112 que no es procesada por el predictor 1 14, por ejemplo, en el procesador de audio de la Fig. 8, que no necesariamente tiene que depender de un valor emitido por el predictor 114, pero que también puede procesar directamente la medida del nivel percibido 1 12, ya sea en forma directa o preferentemente en un tipo de forma nivelada en donde se prefiere la nivelación a través del tiempo con el fin de no tener correcciones muy marcadas de nivel de la señal reverberada o, tal como se describe más adelante, del factor de ganancia g ilustrado en la Fig. 6 o ilustrado en la Fig. 8.
En particular, la etapa de filtro perceptual está configurada para filtrar el componente de señal directa, el componente de señal de reverberación o el componente de señal de mezcla, en donde la etapa de filtro perceptual está configurada para modelar un mecanismo de percepción auditiva de una entidad tal como un ser humano para obtener una señal directa filtrada, una señal de reverberación filtrada o una señal de mezcla filtrada. Dependiendo de la aplicación, la etapa de filtro perceptual puede comprender dos filtros que funcionan en paralelo o puede comprender un almacenamiento y un solo filtro debido a que uno y el mismo filtro puede ser utilizado, en efecto, para filtrar cada una de las tres señales, es decir, la señal de reverberación, la señal de mezcla y la señal directa. En este contexto, sin embargo, cabe señalar que, aunque la Fig. 2a ilustra n filtros modelando el mecanismo de percepción auditiva, en realidad dos filtros serán suficientes o un solo filtro que filtre dos señales del grupo que comprende el componente de señal de reverberación, el componente de señal de mezcla y el componente de señal directa.
El calculador 104b o el estimador de intensidad de sonido está configurado para estimar la primera medida relacionada con la intensidad de sonido utilizando la señal directa filtrada y para estimar la segunda medida de intensidad de sonido utilizando la señal de reverberación filtrada o la señal de mezcla filtrada, en donde la señal de mezcla se obtiene desde una posición superior del componente de señal directa y el componente de señal de reverberación.
La Fig. 2c ilustra cuatro modos preferidos de cálculo de la medida de nivel percibido de reverberación. La forma de realización 1 se basa en la intensidad de sonido parcial en donde ambos, el componente de señal directa x y el componente de señal de reverberación r se utilizan en el procesador modelo de intensidad de sonido, pero en donde, con el fin de determinar la primera medida EST1 , la señal de reverberación se utiliza como estímulo y la señal directa se utiliza como ruido.
Para determinar la segunda medida de intensidad de sonido EST2, la situación cambia, y el componente de señal directa se utiliza como estímulo y el componente de señal de reverberación se utiliza como ruido. Entonces, la medida del nivel percibido de corrección, generado por el combinador, es una diferencia entre la primera medida de intensidad de sonido EST1 y la segunda medida de intensidad de sonido EST2.
Sin embargo, existen otras formas de realización eficientes desde el punto de vista computacional, las cuales se indican en las líneas 2, 3, y 4 en la Fig. 2c. Estas medidas más eficientes desde el punto de vista computacional se basan en el cálculo de la intensidad de sonido total de tres señales que comprenden la señal de mezcla m, la señal directa x y la señal de reverberación n. En función del cálculo requerido realizado por el combinador que se indica en la última columna de la Fig. 2c, la primera medida de intensidad de sonido EST1 es la intensidad de sonido total de la señal de mezcla o la señal de reverberación y la segunda medida de intensidad de sonido EST2 es la intensidad de sonido total del componente de señal directa x o el componente de señal de mezcla m, en donde las combinaciones reales están ilustradas en la Fig. 2c.
En una forma de realización adicional, el procesador modelo de intensidad de sonido 104 funciona en el dominio de frecuencia tal como se describe más detalladamente en la Fig. 3. En dicha situación, el procesador modelo de intensidad de sonido y, en particular, el calculador 104b proporciona una primera medida y una segunda medida para cada banda. Estas primeras medidas sobre todas las bandas n se agregan o combinan posteriormente entre sí en un sumador 104c para el primer ramal y 104d para el segundo ramal con el fin de obtener finalmente una primera medida para la señal de banda ancha y una segunda medida para la señal de banda ancha.
La Fig. 3 ilustra la forma de realización preferida del procesador modelo de intensidad de sonido que ya ha sido descripta en algunos aspectos con respecto a la Figs. 1 , 2a, 2b, 2c. En particular, la etapa de filtro perceptual 104a comprende un convertidor de tiempo-frecuencia 300 para cada ramal, en donde en la forma de realización de la Fig. 3, x[/c] indica el estímulo y n[k] indica el ruido. La señal convertida de tiempo/frecuencia se transmite en un bloque de función de transferencia auditiva 302 (Sírvase notar que, alternativamente, la función de transferencia auditiva puede ser calculada con anterioridad al conversor de tiempo-frecuencia obteniendo resultados similares, pero con mayor carga computacional) y la salida de este bloque 302 se introduce en un bloque de patrón de excitación calculado 304 seguido por un bloque de integración temporal 306. Luego, en el bloque 308 se calcula la intensidad específica de sonido en esta forma de realización, en donde el bloque 308 corresponde al bloque calculador de intensidad de sonido 104b en la Fig. 2a. Posteriormente se lleva a cabo una integración sobre frecuencia en el bloque 310, en donde el bloque 310 corresponde al sumador ya descripto como 104c y 104d en la Fig. 2b. Cabe señalar que el bloque 310 genera la primera medida de un primer conjunto de estímulo y ruido y la segunda medida de un segundo conjunto de estímulo y ruido. Particularmente, cuando se considera la Fig. 2b, el estímulo para calcular la primera medida es la señal de reverberación y el ruido es la señal directa mientras que, para calcular la segunda medida, la situación cambia y el estímulo es el componente de señal directa y el ruido es el componente de señal de reverberación . Por lo tanto, para generar dos medidas distintas de intensidad de sonido, el procedimiento ilustrado en la Fig. 3 se ha realizado dos veces. Sin embargo, los cambios en el cálculo sólo se producen en el bloque 308, el cual funciona diferente tal como se describe además en el contexto de la Fig. 10, de modo que los pasos ilustrados por los bloques 300 a 306 sólo tienen que ser realizados una vez, y el resultado del bloque de integración temporal 306 puede ser almacenado con el fin de calcular la primera intensidad de sonido estimada y la segunda intensidad de sonido estimada para la forma de realización 1 en la Fig. 2c. Cabe señalar que, para las otras formas de realización 2, 3, 4 en la Fig. 3c, el bloque 308 es reemplazado por un bloque individual "cálculo de intensidad de sonido total" para cada ramal, en donde, en esta forma de realización es indiferente si una señal se considera un estímulo o un ruido.
A continuación, el modelo de intensidad de sonido ¡lustrado en la Fig. 3 se describe más detalladamente.
La aplicación del modelo de intensidad de sonido en la Fig. 3 sigue las descripciones en [1 1 , 12], cuyas modificaciones se describen más adelante. El entrenamiento y la validación de la predicción utilizan datos de pruebas de audición que se describe en [13] y se resumen brevemente más adelante. La aplicación del modelo de intensidad de sonido para predecir el nivel percibido de reverberación tardía se describe también más adelante. A continuación se describen los resultados experimentales.
Esta sección describe la aplicación de un modelo de intensidad de sonido parcial, los datos de prueba de audición que se utilizaron como base real para la predicción computacional del nivel percibido de reverberación, y un método propuesto de predicción que se basa en el modelo de intensidad de sonido parcial.
El modelo de intensidad de sonido calcula la intensidad de sonido parcial NX I [k] de una señalj [&] cuando se presenta simultáneamente con una señal de enmascaramiento n[k] *,.. [*] = /(*[*].»[*])· (1 ) Aunque los primeros modelos han tratado la percepción de la intensidad de sonido en el ruido de fondo constante, existen estudios sobre la percepción de la intensidad de sonido en fondos de ruido aleatorio co-modulado [14], sonidos complejos ambientales [12], y señales de música [15]. La Fig. 4b ilustra la intensidad de sonido total y la intensidad de sonido parcial de sus componentes de la señal de ejemplo que se ilustra en la Fig. 4a, calculada con el modelo de intensidad de sonido utilizado en la presente.
El modelo utilizado en este trabajo es similar a los modelos [11 , 12], los cuales se extraen de la investigación anterior realizada por Fletcher, Munson, Stevens y Zwicker, con algunas modificaciones que se describen a continuación. Un diagrama en bloques del modelo de intensidad de sonido se ilustra en la Fig. 3. Las señales de entrada son procesadas en el dominio de frecuencia utilizando una transformada de Fourier de tiempo corto (STFT, según sus siglas en inglés). En [12] se utilizan 6 DFT de distintas longitudes con el fin de obtener una buena adaptación para la resolución de frecuencia y la resolución temporal a la del sistema auditivo humano en todas las frecuencias. En este trabajo, sólo se utiliza una longitud de DFT a efectos de la eficiencia computacional, con una longitud de cuadro de 21 ms a una velocidad de muestreo de 48 kHz, 50% de superposición y una función de ventana Hann. La transferencia a través del oído externo y medio se simula con un filtro fijo. La función de excitación se calcula para 40 bandas de filtros auditivos separados en la escala de ancho de banda rectangular equivalente (ERB, según sus siglas en inglés) que utiliza un patrón de excitación dependiente del nivel. Además de la integración temporal, debida a la partición de ventanas de la STFT, se implementa una integración recursiva con una constante de tiempo de 25 ms, la cual sólo está activa cuando la señal de excitación decae.
La intensidad específica de sonido parcial, es decir, la intensidad de sonido parcial provocada en cada una de las bandas de filtro auditivo, se calcula a partir de los niveles de excitación de la señal de interés (el estímulo) y el ruido de interferencia de acuerdo con las Ecuaciones (17)-(20) en [1 1], ilustradas en la Fig. 10. Estas ecuaciones abarcan los cuatro casos en donde la señal está por encima o no del umbral de audición en el ruido, y en donde la excitación de la señal de mezcla es inferior o no a 100 dB. Si no se introduce señal de interferencia en el modelo, es decirn[ c] = 0 , el resultado es igual a la intensidad de sonido total Nx [k] del estímulo x[k] .
Particularmente, la Fig. 10 ilustra las ecuaciones 17, 18, 19, 20 de la publicación "A Model for the Prediction of Thresholds, Loudness and Partial Loudness", B.C.J. Moore, B.R. Glasberg, T. Baer, J. Audio Eng. Soc, Vol. 45, N° 4, abril de 1997. Esta referencia describe el caso de una señal presentada junto con un sonido de fondo. Aunque el fondo puede ser cualquier tipo de sonido, en esta referencia se denomina "ruido", para distinguirla de la señal cuya intensidad de sonido será evaluada. La presencia de ruido reduce la intensidad de sonido de la señal, un efecto que se denomina enmascaramiento parcial. La intensidad de sonido de la señal aumenta muy rápidamente cuando su nivel aumenta desde un valor umbral a un valor de 20-30dB por encima del umbral. En el documento se supone que la intensidad de sonido parcial de una señal presentada en el ruido se puede calcular sumando la intensidad específica de sonido parcial de la señal a través de la frecuencia (en una escala ERB). Las ecuaciones se obtienen para calcular la intensidad específica de sonido parcial, teniendo en cuenta cuatro casos excluyentes. ESIG indica la excitación evocada por la señal y ENOISE indica la excitación provocada por el ruido. Se supone que ESIG>ETHRQ y ESIG más ENOISE<1010. La intensidad específica de sonido total ?/t?t se define de la siguiente manera: NT0T = C{[(ESIG + Em]SE)G + A]a - A") Se supone que el oyente puede dividir una intensidad específica de sonido en una frecuencia central determinada entre la intensidad específica de sonido de la señal y la del ruido, pero de una manera que prefiere la intensidad específica de sonido total.
M' = N' + M Este supuesto es coherente, ya que en la mayoría de los experimentos que miden el enmascaramiento parcial, el oyente escucha primero el ruido solo y luego el ruido más la señal. La intensidad específica de sonido para el ruido solo, suponiendo que está por encima del umbral, es ^No,SE = Q(^NO.SEG + ^)a -^].
Por lo tanto, si la intensidad específica de sonido de la señal se obtuviera simplemente aplicando la intensidad específica de sonido del ruido desde la intensidad específica de sonido total, el resultado sería N ,c = C{[(ESIG + EMISE)G + AY - AA} - C[(E OLSEG + AY - AA) En la práctica, la forma en que la intensidad específica de sonido se divide entre la señal y el ruido parece variar en función de la excitación relativa de la señal y el ruido.
Se tienen en cuenta cuatro situaciones que indican de qué manera la intensidad específica de sonido se asigna a distintos niveles de señal. Permitamos que ETHRN indique la excitación máxima provocada por una señal sinusoidal cuando está en su umbral enmascarado en el ruido de fondo. Cuando ESIG está muy por debajo de ETHRN, toda la intensidad específica de sonido se asigna al ruido, y la intensidad específica de sonido parcial de la señal se aproxima a cero. En segundo lugar, cuando ENOISE está muy por debajo de ETHRQ, la intensidad específica de sonido parcial se aproxima al valor que tendría para una señal silenciosa. En tercer lugar, cuando la señal está en su umbral enmascarado, con la excitación ETHRN, se supone que la intensidad específica de sonido parcial es igual al valor que se produciría para una señal en el umbral absoluto. Por último, cuando una señal está centrada en el ruido de banda estrecha está muy por encima de su umbral enmascarado y la intensidad de sonido de la señal se aproxima a su valor no enmascarado. Por lo tanto, la intensidad específica de sonido parcial de la señal también se aproxima a su valor no enmascarado.
Consideremos las implicancias de esta variedad de condiciones límite. En el umbral enmascarado, la intensidad específica de sonido es igual que para una señal en el umbral en silencio. Esta intensidad específica de sonido es menor de lo que se podría prever de la ecuación anterior, presumiblemente porque parte de la intensidad específica de la señal está asignada al ruido. Con el fin de obtener la correcta intensidad específica de sonido para la señal, se supone que intensidad específica de sonido asignada al ruido aumenta por el factor B, donde La aplicación de este factor al segundo término en la ecuación anterior para ATSIG proporciona Nsic = C{[(2?SIG + EmG + AY - A- } - C{[(£THRN + EmlSE )G + A]° - (£THRQ G + A)" } .
Se supone que cuando la señal está en el umbral enmascarado, su excitación máxima ETHRN es igual a ENOISE+£THRQ, en donde K es la relación señal-a-ruido en la salida del filtro auditivo, necesaria para el umbral en los niveles más altos de enmascaramiento. Estimaciones recientes de K, obtenidas para los experimentos de enmascaramiento que utilizan ruido de banda eliminada, sugieren que K aumenta notablemente a frecuencias muy bajas, convirtiéndose más grande que la unidad. En la referencia, el valor de K se calcula en función de la frecuencia. El valor disminuye de niveles altos a frecuencias bajas a niveles bajos constantes a frecuencias más altas. Lamentablemente, no existen estimaciones de K para frecuencias centrales por debajo de 100 Hz, por lo que los valores de 50 a 100 Hz sustituyen ETHRN en los resultados de la ecuación anterior en: Ns' m = C{[(Esm + EmiSE)G + A]a - Aa} - C{[(Emm(l + K) + E^ )G + AY - (ETHRQ G + Á)a } Cuando ESIG=£THRN. esta ecuación especifica la intensidad específica máxima de sonido para una señal en el umbral absoluto en silencio.
Cuando la señal está muy por encima de su umbral enmascarado, es decir, cuando ESIG>:>ETHRN, 'a intensidad específica de sonido de la señal se aproxima al valor que tendría cuando no hay ruido de fondo presente. Esto significa que la intensidad específica de sonido asignada al ruido se vuelve extremadamente pequeña. Para adaptarse a esto, la ecuación anterior se modifica introduciendo un término adicional, el cual depende de la relación ETHRN/ESIG- Este término disminuye a medida que E ESIG aumenta por encima del valor correspondiente al umbral enmascarado. Por lo tanto, la ecuación anterior se convierte en la ecuación 17 de la Fig. 10.
Esta es la ecuación final para N¿IG en el caso en que S^ETHRN y ESIG+ENOISE=1010. El exponente 0,3 en el término final fue elegido empíricamente con el fin de proporcionar un buen ajuste a los datos sobre la intensidad de sonido de un tono en el ruido en función de la relación señal-a-ruido.
Posteriormente se considera la situación en donde ESIG^THRN- En el caso excluyente en donde ESIG está justo por debajo de ETHRN. la intensidad específica de sonido se acercaría al valor proporcionado en la Ecuación 17 de la Fig. 10.
Cuando ESIG disminuye a un valor muy por debajo de ETHRN, la intensidad específica de sonido se volvería rápidamente muy pequeña. Esto se logra mediante la Ecuación 18 de la Fig. 10. El primer término entre paréntesis determina la velocidad a la que una intensidad específica de sonido disminuye a medida que ESIG disminuye por debajo de EJHRN- Esto describe la relación entre la intensidad específica de sonido y la excitación para una señal silenciosa cuando ESIG<ETHRQ, excepto que ETHRN ha sido sustituido en la Ecuación 18. El primer término entre llaves se asegura de que la intensidad específica de sonido se aproxime al valor definido por la Ecuación 17 de la Fig. 10 a medida que ESIG se aproxima a ETHRN- Las ecuaciones para la intensidad de sonido parcial descriptas hasta aquí se aplican cuando ESIG+ENOISE<1010. Al aplicar el mismo razonamiento utilizado para la derivación de la ecuación (17) de la Fig. 10, cualquier ecuación puede derivarse para el caso ENOISE=ETHRN y ESIG+£NOISE>1010 como se indica en la ecuación 19 de la Fig. 10. C2=C/(1 ,04x106)0,5. De igual modo, al aplicar el mismo razonamiento utilizado para la derivación de la ecuación (18) de la Fig. 10, una ecuación puede derivarse para el caso en donde ESIG<ETHRN y ESIG+ENOISE>1010 como se indica en la ecuación 20 de la Fig. 10.
Cabe destacar los siguientes puntos. Este modelo de la técnica previa se aplica para la presente invención en donde, en una primera ejecución SIG corresponde, por ejemplo, a la señal directa como "estímulo" y Noise corresponde, por ejemplo, a la señal de reverberación o a la señal de mezcla como "ruido". En la segunda ejecución descripta en el contexto de la primera forma de realización de la Fig. 2c, SIG correspondería entonces a la señal de reverberación como "estímulo" y "noise" correspondería a la señal directa. Así es que se obtienen las dos medidas de intensidad de sonido, las cuales luego son combinadas por el combinador, preferentemente formando una diferencia.
Con el fin de evaluar la idoneidad del modelo de intensidad de sonido descripto para la tarea de predecir el nivel percibido de la reverberación tardía, se prefiere un corpus de base real generado a partir de las respuestas del oyente. Para este fin, en este documento se utilizan los datos de una investigación que ofrece varias pruebas de audición [13] que se resumen brevemente a continuación. Cada prueba de audición consistió de múltiples pantallas de interfaz gráfica de usuario que presentaron mezclas de distintas señales directas con distintas condiciones de reverberación artificial. Los oyentes fueron invitados a evaluar esta cantidad percibida de reverberación en una escala de 0 a 100 puntos. Asimismo se presentaron dos señales de anclaje en 10 puntos y en 90 puntos. Los oyentes fueron invitados a evaluar la cantidad percibida de reverberación en una escala de 0 a 100 puntos. Asimismo se presentaron dos señales de anclaje en 10 puntos y en 90 puntos. Las señales de anclaje se crearon a partir de la misma señal directa con distintas condiciones de reverberación.
Las señales directas utilizadas para crear los elementos de prueba fueron grabaciones monofónicas de voz, instrumentos individuales y música de distintos géneros con una longitud de alrededor de 4 segundos cada uno. La mayoría de los elementos se originaron a partir de grabaciones anecoicas pero también se utilizaron grabaciones comerciales con una pequeña cantidad de reverberación original.
Las RIR representan la reverberación tardía y se generaron utilizando ruido blanco con decaimiento exponencial, con índices de decaimiento dependientes de la frecuencia. Los índices de decaimiento se eligen de manera tal que el tiempo de reverberación disminuye de frecuencias bajas a frecuencias altas, comenzando en un tiempo de reverberación base T60 . En este trabajo se omitieron las reflexiones tempranas. La señal de reverberación r[k] y la señal directa x[k] se ajustaron a escala y se agregaron de modo tal que la relación de su medida promedio de intensidad de sonido de acuerdo con ITU-R BS.1770 [16] coincide con una DRR deseada y de modo tal que todas las mezclas de señal de prueba tengan igual intensidad de sonido a largo plazo. Todos los participantes en las pruebas estaban trabajando en el campo del audio y tenían experiencia en las pruebas subjetivas de audición.
Los datos utilizados sobre base real para el entrenamiento y la verificación/evaluación del método de predicción se seleccionaron a partir de dos pruebas de audición y se designan mediante A y B , respectivamente. El conjunto de datos A consistió de calificaciones de 14 oyentes para 54 señales. Los oyentes repitieron la prueba una vez y la calificación promedio se obtuvo de todos las 28 calificaciones para cada elemento. Las 54 señales se generaron combinando 6 señales directas distintas y 9 condiciones de reverberación estereofonica, con T60 e {1,1.6,2.4} s y DRR e {3,7.5,12} dB, y sin pre-retardo.
Los datos en B se obtuvieron a partir de las calificaciones de 14 oyentes para 60 señales. Las señales se generaron utilizando 15 señales directas y 36 condiciones de reverberación. Las condiciones de reverberación muestrearon cuatro parámetros, a saber T60 , DRR, pre-retardo, e ICC. Para cada señal directa se eligieron 4 RIR de tal manera que dos no tenían pre-retardo y dos tenían un pre-retardo breve de 50 ms, y dos eran monofónicas y dos estereofónicas.
A continuación se describen otras características de una forma de realización preferida del combinador 110 de la Fig. 1.
La característica básica de entrada para el método de predicción se calcula a partir de la diferencia de la intensidad de sonido parcial Nr j [^] de la señal de reverberación r[k] (siendo la señal directa x[k] la interferencia) y la intensidad de sonido N^ ffc] de x[k] (en donde r[k] es la interferencia), de acuerdo con la Ecuación 2.
ANrjl [k] = N [k] - N„[k] (2) El fundamento detrás de la Ecuación (2) es que la diferencia ANr J [A:] es una medida de cuán fuerte es la sensación de la reverberación en comparación con la sensación de la señal directa. Al obtener la diferencia también se descubrió que el resultado de la predicción resultó aproximadamente invariable con respecto al nivel de reproducción. El nivel de reproducción tiene un impacto sobre la sensación investigada [17, 8], pero en un grado más sutil que el reflejado por el aumento de la intensidad de sonido parcial Nr<x con un nivel de reproducción cada vez mayor. Por lo general, las grabaciones musicales suenan más reverberantes en niveles moderados a altos (a partir de aproximadamente 75-80 dB SPL) que en niveles más bajos de aproximadamente 12 a 20 dB. Este efecto es especialmente evidente en los casos en que la DRR es positiva, que es válido "para casi toda la música grabado" [18], pero no en todos los casos para la música de concierto en donde "los oyentes a menudo están mucho más lejos de la distancia crítica" [6].
La disminución del nivel percibido de la reverberación con una disminución del nivel de reproducción se explica mejor por el hecho de que el rango dinámico de reverberación es menor que el de los sonidos directos (o, una representación de tiempo-frecuencia de reverberación es más densa mientras que una representación de tiempo-frecuencia de sonidos directos es poco densa [19]). En tal caso, es más probable que la señal de reverberación caiga por debajo del umbral de audición a que esto ocurra con los sonidos directos.
Aunque la ecuación (2) describe, como la operación de combinación, una diferencia entre las dos medidas de intensidad de sonido Nr,x[k] y A/x,r[/c], se pueden realizar otras combinaciones así también como multiplicaciones, divisiones o incluso adiciones. En cualquier caso, es suficiente que las dos alternativas indicadas por las dos medidas de intensidad de sonido se combinen con el fin de tener influencias de ambas alternativas en el resultado. Sin embargo, los experimentos han demostrado que la diferencia produce los mejores valores del modelo, es decir, los resultados del modelo que se adaptan en buena medida a las pruebas de audición, de modo que la diferencia es la forma preferida de la combinación.
A continuación se describen detalles del predictor 114 ilustrado en la Fig. 1 , en donde estos detalles se refieren a una forma de realización preferida.
Los métodos de predicción descriptos a continuación son lineales y utilizan mínimos cuadrados aptos para el cálculo de los coeficientes del modelo. La estructura simple del predictor es ventajosa en situaciones en donde el tamaño de los conjuntos de datos para el entrenamiento y la evaluación del predictor es limitado, lo que podría causar una sobrevaloración del modelo cuando se utilizan métodos de regresión con más grados de libertad, por ejemplo, redes neuronales.
El predictor de referencia Rb se obtiene mediante regresión lineal de acuerdo con la Ecuación (3) con coeficientes a¡ , siendo K la longitud de la señal en los cuadros, El modelo tiene sólo una variable independiente, es decir, el promedio de ANr x [k] . Para rastrear los cambios y poder aplicar un procesamiento en tiempo real, el cálculo del promedio se puede aproximar utilizando un integrador con fugas. Los parámetros del modelo obtenidos al utilizar el conjunto de datos A para el entrenamiento son a0 = 48.2 y a, = 14.0 , en donde <¾ es igual a la clasificación promedio para todos los oyentes y elementos.
La Fig. 5a describe las sensaciones previstas para el conjunto de datos A . Se puede observar que las predicciones están moderadamente correlacionadas con las calificaciones promedio de oyentes con un coeficiente de correlación de 0,71. Cabe destacar que la elección de los coeficientes de regresión no afecta esta correlación. Tal como se ilustra en el gráfico inferior, para cada mezcla generado por las mismas señales directas, los puntos exhiben una forma característica centrada cerca de la diagonal. Esta forma indica que, aunque el modelo de referencia Rb es capaz de predecir R en cierto grado, esto no refleja la influencia de T60 en las calificaciones. La inspección visual de los puntos de datos sugiere una dependencia lineal sobre G60. Si se conoce el valor de T60 , como es el caso cuando se controla un efecto de audio, se puede incorporar fácilmente en el modelo de regresión lineal para obtener una predicción mejorada Los parámetros del modelo obtenidos del conjunto de datos A son a0 = 48.2 , a, = 12. , a2 = 10.2 . Los resultados se ilustran en la Fig. 5b por separado para cada uno de los conjuntos de datos. La evaluación de los resultados se describe más detalladamente en la sección siguiente.
Alternativamente se puede calcular el promedio de más o menos bloques siempre que se calcule el promedio de por lo menos dos bloques, aunque debido a la teoría de la ecuación lineal se pueden obtener mejores resultados cuando se calcula un promedio de toda la pieza musical hasta un cierto cuadro. Sin embargo, para aplicaciones en tiempo real, se prefiere reducir el número de cuadros sobre los cuales se calcula el promedio en función de la aplicación real.
La Fig. 9 ilustra adicionalmente que el término constante está definido por a0 y a2- T6o- El segundo término a2-T60 ha sido seleccionado para estar en la posición de aplicar esta ecuación no sólo a un único reverberador, es decir, a una situación en la que el filtro 600 de la Fig. 6 no cambia. Esta ecuación que, por supuesto, es un término constante, pero que depende de los filtros de reverberación 606 efectivamente utilizados de la Fig. 6 proporciona, por lo tanto, la flexibilidad para utilizar exactamente la misma ecuación para otros filtros de reverberación que tienen otros valores de T6o- Como es conocido en la técnica, ?ß? es un parámetro que describe un determinado filtro de reverberación y, en particular, significa que la energía de reverberación ha disminuido en 60dB desde un valor máximo inicial de energía de reverberación. Típicamente, las curvas de reverberación disminuyen con el tiempo y, por lo tanto, ?ß? indica un período de tiempo, en el que una energía de reverberación generada por una excitación de señal ha disminuido en 60dB. Se obtienen resultados similares en términos de precisión de la predicción cuando se reemplaza ?ß? por parámetros que representan información similar (la longitud de RIR), por ejemplo, T30.
A continuación, los modelos se evalúan utilizando el coeficiente de correlación r , el error absoluto medio (MAE, según sus siglas en inglés) y la raíz del error cuadrático medio (RMSE, según sus siglas en inglés) entre las calificaciones promedio del oyente y la sensación prevista. Los experimentos se llevan a cabo dos veces en forma de validación cruzada, es decir, el predictor se entrena con el conjunto de datos A y se evalúa con el conjunto de datos B, y el experimento se repite con B para el entrenamiento y A para la evaluación. La métrica de evaluación obtenida a partir de ambas ejecuciones se promedia por separado para el entrenamiento y la evaluación.
Los resultados se ilustran en la Tabla 1 para los modelos de predicción Rb y Re . El predictor Re proporciona resultados exactos con un RMSE de 10,6 puntos.
El promedio de la desviación estándar de las calificaciones individuales del oyente por elemento se proporciona como una medida de la dispersión del promedio (de las calificaciones de todos los oyentes por elemento), como s^ = 13.4 para el conjunto de datos A y s? = 13.6 para el conjunto de datos B . La comparación con RMSE indica que Re es por lo menos tan exacto como el oyente promedio en la prueba de audición.
La precisión de las predicciones para los conjuntos de datos difieren ligeramente, por ejemplo, para Re ambos MAE y RMSE son aproximadamente un punto por debajo del valor promedio (como se indica en la tabla) cuando se evalúan con el conjunto de datos A y un punto por encima del promedio cuando se evalúan con el conjunto de datos B . El hecho de que las métricas de evaluación para el entrenamiento y la prueba son comparables indica que la sobrevaloración del predictor se ha evitado.
Con el fin de facilitar una aplicación económica de dichos modelos de predicción, los siguientes experimentos investigan cómo el uso de características de intensidad de sonido con menor complejidad computacional afecta la precisión del resultado de la predicción. Los experimentos se centran en el reemplazo del cálculo de la intensidad de sonido parcial por estimaciones de intensidad de sonido total y en aplicaciones simplificadas del patrón de excitación.
En lugar de utilizar la diferencia de intensidad de sonido parcial ???. ? [&] se examinan tres diferencias de las estimaciones de intensidad de sonido total, con la intensidad de sonido de la señal directa Nx [k] , la intensidad de sonido de la reverberación Nr [k] , y la intensidad de sonido de la señal de mezcla Nm [k] , tal como se ilustra en las Ecuaciones (5) - (7), respectivamente. ?? [k] = Nm [k] -Nx [k] (5) La Ecuación (5) se basa en la suposición de que el nivel percibido de la señal de reverberación se puede expresar como la diferencia (aumento) en toda la intensidad de sonido que es causada por la adición de la reverberación a la señal seca.
Siguiendo un razonamiento similar en cuanto a la diferencia de intensidad de sonido parcial en la Ecuación (2), las características de intensidad de sonido que utilizan las diferencias de intensidad de sonido total de la señal de reverberación y la señal de mezcla o la señal directa, respectivamente, están definidas en las Ecuaciones (6) y (7). La medida para predecir la sensación se obtiene de la intensidad de sonido de la señal de reverberación cuando se escucha por separado, con términos sustractivos para modelar el enmascaramiento parcial y para la normalización con respecto al nivel de reproducción proveniente de la señal de mezcla o la señal directa, respectivamente.
Wr_m [k] = Nr [k] - Nm [k] (6) ANr-,M= NrM- N,M (7) La Tabla 2 ilustra los resultados obtenidos con las características sobre la base de la intensidad de sonido total y revela que, de hecho, dos de ellos, ?? [k] y ?? [^] . proporcionan predicciones con casi la misma precisión que Re . Pero como se ilustra en la Tabla 2, incluso ANr-n[k] resulta útil para los resultados.
Por último, en un experimento adicional, se investiga la influencia de la aplicación de la función de propagación. Esto es de particular importancia para muchos escenarios de aplicación, porque el uso de los patrones de excitación dependientes del nivel exige aplicaciones de alta complejidad computacional. Los p experimentos con un procesamiento similar como para e pero que utilizan un modelo de intensidad de sonido sin propagación y un modelo de intensidad de sonido con la función de propagación invariable de nivel proporcionaron los resultados ilustrados en la Tabla 2. La influencia de la propagación parece ser insignificante.
Por lo tanto, las ecuaciones (5), (6) y (7) que indican las formas de realización 2, 3, 4 de la Fig. 2c ilustran que, incluso sin intensidades de sonido parcial, pero con intensidades de sonido total, para distintas combinaciones de componentes de señal o señales, también se obtienen buenos valores o medidas para el nivel percibido de la reverberación en una señal de mezcla.
A continuación se describe una aplicación preferida de la determinación de la invención de medidas para un nivel percibido de reverberación en el contexto de la Fig. 8. La Fig. 8 ilustra un procesador de audio para generar una señal reverberada a partir de un componente de señal directa introducido en una entrada 800. El componente de señal directa o seca se introduce en un reverberador 801 , el cual puede ser similar al reverberador 606 en la Fig. 6. El componente de señal seca de la entrada 800 se introduce adicionalmente en un aparato 802 para determinar la medida de una intensidad de sonido percibido que se puede implementar como se describe en el contexto de la Fig. 1 , la Fig. 2a y 2c, 3, 9 y 10. La salida del aparato 802 es la medida R para un nivel percibido de reverberación en una señal de mezcla que se introduce en un controlador 803. El controlador 803 recibe, en una entrada adicional, un valor objetivo para la medida del nivel percibido de reverberación y calcula, a partir de dicho valor objetivo y el valor real R nuevamente un valor en la salida 804.
Este valor de ganancia se introduce en un manipulador 805 que está configurado para manipular, en esta forma de realización, el componente de señal de reverberación 806 emitido por el reverberador 801. Este concepto está ilustrado en la Fig. 8, el aparato 802 recibe adicionalmente el componente de señal de reverberación 806 como se describe en el contexto de la Fig. 1 y las otras Figs. describen el aparato para determinar una medida de una intensidad de sonido percibido. La salida del manipulador 805 se introduce en un sumador 807, en donde la salida del manipulador comprende en la forma de realización de la Fig. 8, el componente de reverberación manipulada y la salida del sumador 807 indica una señal de mezcla 808 con una reverberación percibida determinada por el valor objetivo. El controlador 803 puede estar configurado para aplicar cualquiera de las normas de control definidas en la técnica para los controles de realimentación en donde el valor objetivo es un valor establecido y el valor R generado por el aparato es un valor real y la ganancia 804 está seleccionada de modo que el valor R real se aproxime al valor objetivo introducido en el controlador 803. Aunque la Fig. 8 ilustra que la señal de reverberación es manipulada por la ganancia en el manipulador 805 que comprende particularmente un multiplicador o ponderador, también se pueden llevar a cabo otras aplicaciones. Una aplicación distinta, por ejemplo, es que la señal de reverberación 806 no es manipulada, pero sí lo es el componente de señal seca que es manipulado por el manipulador tal como lo indica la línea opcional 809. En este caso, el componente de señal de reverberación no manipulada emitido por el reverberador 801 sería introducido en el sumador 807 tal como ilustra la línea opcional 810. Naturalmente, incluso se podría llevar a cabo una manipulación del componente de señal seca y el componente de señal de reverberación con el fin de introducir o establecer una cierta medida de intensidad de sonido percibido de la reverberación en la señal de mezcla 808 emitida por el sumador 807. Otra aplicación, por ejemplo, es que el tiempo de reverberación ?ß? es manipulado.
La presente invención proporciona una predicción simple y robusta del nivel percibido de reverberación y, específicamente, la reverberación tardía en la voz y la música que utilizan modelos de intensidad de sonido de diversa complejidad computacional. Los módulos de predicción han sido entrenados y evaluados utilizando datos subjetivos derivados de tres pruebas de audición. Como punto de partida, el uso de un modelo de intensidad de sonido parcial ha dado lugar a un modelo de predicción con gran precisión cuando se conoce el T6o de la RIR 606 de la Fig. 6. Este resultado también es interesante desde el punto de vista perceptual, cuando se considera que el modelo de intensidad de sonido parcial no se desarrolló originalmente con estímulos de sonido directo y reverberante como se describe en el contexto de la Fig. 10. Las modificaciones posteriores del cálculo de las características de entrada para el método de predicción conducen a una serie de modelos simplificados que se ilustraron para lograr un rendimiento comparable para los conjuntos de datos en cuestión. Estas modificaciones incluyeron el uso de modelos de intensidad de sonido total y funciones de propagación simplificadas.
Las formas de realización de la presente invención también son aplicables para más RIR diversas, incluyendo reflexiones tempranas y pre-retardos más extensos. La presente invención también es útil para determinar y controlar la contribución de intensidad de sonido percibido de otros tipos de efectos de audio aditivos o reverberantes.
Aunque algunos aspectos han sido descriptos en el contexto de un aparato, es evidente que estos aspectos representan también una descripción del método correspondiente, en donde un bloque o dispositivo corresponde a un paso del método o una característica de un paso del método. En forma análoga, los aspectos descriptos en el contexto de un paso del método también representan una descripción de un bloque o elemento o característica correspondiente de un aparato respectivo.
Dependiendo de determinados requisitos de aplicación, las formas de realización de la invención se pueden implementar en hardware o en software. La implementación se puede llevar a cabo utilizando un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un CD, una memoria ROM, una memoria PROM, una memoria EPROM, una memoria EEPROM o una memoria FLASH, que tienen señales de control de lectura electrónica almacenadas en los mismos, cuyas señales cooperan (o son capaces de cooperar) con un sistema de computación programable de forma tal que el método respectivo se realice.
Algunas formas de realización de acuerdo con la invención comprenden un portador de datos no transitorio o tangible que tiene señales de control de lectura electrónica, las cuales son capaces de cooperar con un sistema de computadora programable, de tal manera que uno de los métodos descriptos aquí se realice.
En general, las formas de realización de la presente invención se pueden implementar como un producto de programa informático con un código de programa, cuyo código de programa es operativo para llevar a cabo uno de los métodos cuando el producto de programa informático se ejecuta en una computadora. El código del programa se puede almacenar, por ejemplo, en un portador legible por computadora.
Otras formas de realización comprenden el programa informático para llevar a cabo uno de los métodos descriptos en la presente, almacenados en un portador legible por computadora.
En otras palabras, una forma de realización del método de la invención es, por lo tanto, un programa informático que tiene un código de programa para llevar a cabo uno de los métodos descriptos en la presente, cuando el programa informático se ejecuta en una computadora.
Otra forma de realización de los métodos de la invención es, por lo tanto, un portador de datos (o un medio de almacenamiento digital, o un medio legible por computadora) que comprende, grabado en el mismo, el programa informático para llevar a cabo uno de los métodos descriptos en la presente.
Otra forma de realización del método de la invención es, por lo tanto, una corriente de datos o una secuencia de señales que representan el programa informático para llevar a cabo uno de los métodos descriptos en la presente. La corriente de datos o la secuencia de señales, por ejemplo, puede estar configurada para ser transferida a través de una conexión de comunicación de datos, por ejemplo, a través de Internet.
Una forma de realización adicional comprende un medio de procesamiento, por ejemplo, una computadora, o un dispositivo lógico programable, configurado o adaptado para llevar a cabo uno de los métodos descriptos en la presente.
Otra forma de realización comprende una computadora que tiene el programa informático instalado en la misma para llevar a cabo uno de los métodos descriptos en la presente.
En algunas formas de realización, un dispositivo lógico programable (por ejemplo, un arreglo de puerta programable de campo) se puede utilizar para llevar a cabo algunas o todas las funcionalidades de los métodos descriptos en la presente. En algunas formas de realización, un arreglo de puerta programable de campo puede cooperar con un microprocesador para llevar a cabo uno de los métodos descriptos en la presente. En general, los métodos se llevan a cabo preferentemente por cualquier aparato de hardware.
Las formas de realización anteriormente descriptas son simplemente ilustrativas de los principios de la presente invención. Se entiende que las modificaciones y variaciones de los arreglos y los detalles descriptos en la presente serán evidentes para otros expertos en la materia. Es la intención, por lo tanto, de que la invención esté limitada solamente por el alcance de las reivindicaciones inminentes de la patente y no por los detalles específicos presentados a modo de descripción y explicación de las formas de realización de la presente.
Lista de Referencias [1] A. Czyzewski, "A method for artificial reverberation quality testing," J. Audio Eng. Soc, vol. 38, pp. 129-141 , 1990. [2] J.A. Moorer, "About this reverberation business," Computer Music Journal, vol. 3, 1979. [3] B. Scharf, "Fundamentáis of auditory masking," Audiology, vol. 10, pp. 30^10, 1971. [4] W.G. Gardner and D. Griesinger, "Reverberation level matching experiments," in Proc. of the Sabine Centennial Symposium, Acoust. Soc. ofAm., 1994. [5] D. Griesinger, "How loud is my reverberation," in Proc. Of the AES 98?h Conv., 1995. [6] D. Griesinger, "Further investigation into the loudness of running reverberation," in Proc. of the Institute ofAcoustics (UK) Conference, 1995. [7] D. Lee and D. Cabrera, "Effect of listening level and background noise on the subjective decay rate of room impulse responses: Using time varying-loudness to model reverberance," Applied Acoustics, vol. 71 , pp. 801-811 , 2010. [8] D. Lee, D. Cabrera, and W.L. Martens, "Equal reverberance matching of music," Proc. of Acoustics, 2009. [9] D. Lee, D. Cabrera, and W.L. Martens, "Equal reverberance matching of running musical stimuli having various reverberation times and SPLs," in Proc. of the 2&h International Congress on Acoustics, 2010. [10] A. Tsilfidis and J. Mourjopoulus, "Blind single-channel suppression of late reverberation based on perceptual reverberation modeling," J. Acoust. Soc. Am, vol. 129, pp. 1439-1451 , 2011. [11] B.C.J. Moore, B.R. Glasberg, and T. Baer, "A model for the prediction of threshold, loudness, and partial loudness," J. Audio Eng. Soc, vol. 45, pp. 224— 240, 1997. [12] B.R. Glasberg and B.C.J. Moore, "Development and evaluation of a model for predicting the audibility of time varying sounds in the presence of the background sounds," J. Audio Eng. Soc, vol. 53, pp. 906-918, 2005. [13] J. Paulus, C. Uhle, and J. Herré, "Perceived level of late reverberation in speech and music," in Proc. of the AES 130th Conv., 201 1. [14] J.L. Verhey and S.J. Heise, "Einfluss der Zeitstruktur des Hintergrundes auf die Tonhaltigkeit und Lautheit des tonalen Vordergrundes (in Germán)," in Proc. of DAGA, 2010. [15] C. Bradter and K. Hobohm, "Loudness calculation for individual acoustical objects within complex temporally variable sounds," in Proc. of the AES 124th Conv., 2008. [16] International Telecommunication Union, Radiocommunication Assembly, "Algorithms to measure audio programme loudness and true-peak audio level," Recommendation ITU-R BS. 1770, 2006, Geneva, Switzerland. [17] S. Hase, A. Takatsu, S. Sato, H. Sakai, and Y. Ando, "Reverberance of an existing hall in relation to both subsequent reverberation time and SPL," J. Sound Vib., vol. 232, pp. 149-155, 2000. [18] D. Griesinger, "The importance of the direct to reverberant ratio in the perception of distance, localization, clarity, and envelopment," in Proc. of the AES 12&h Conv., 2009. [19] C. Uhle, A. Walther, O. Hellmuth, and J. Herré, "Ambience separation from mono recordings using Non-negative Matrix Factorization," in Proc. of the AES 30th Conf., 2007.

Claims (15)

REIVINDICACIONES Habiendo así especialmente descripto y determinado la naturaleza de la presente invención y la forma como la misma ha de ser llevada a la práctica, se declara reivindicar como de propiedad y derecho exclusivo:
1. Aparato para determinar una medida de un nivel percibido de reverberación en una señal de mezcla que comprende un componente de señal directa (100) y un componente de señal de reverberación (102), el cual comprende: un procesador modelo de intensidad de sonido (104) que comprende una etapa de filtro perceptual para filtrar el componente de señal seca (100), el componente de señal de reverberación ( 02) o la señal de la mezcla, en donde la etapa de filtro perceptual está configurada para modelar un mecanismo de percepción auditiva de una entidad para obtener una señal directa filtrada, una señal de reverberación filtrada o una señal de mezcla filtrada; un estimador de intensidad de sonido para estimar una primera medida de intensidad de sonido utilizando la señal directa filtrada y para estimar una segunda medida de intensidad de sonido utilizando la señal de reverberación filtrada o la señal de mezcla filtrada, en donde la señal de mezcla filtrada se obtiene desde una superposición del componente de señal directa y el componente de señal de reverberación; y un combinador (110) para combinar la primera y la segunda medida de intensidad de sonido (106, 108) para obtener una medida (112) del nivel percibido de reverberación.
2. Aparato de acuerdo con la reivindicación 1 , en el cual el estimador de intensidad de sonido (104b) está configurado para estimar la primera medida de intensidad de sonido de modo que se considera que la señal directa filtrada es un estímulo y se considera que la señal de reverberación filtrada es un ruido, o para estimar la segunda medida de intensidad de sonido (108) de modo que se considera que la señal de reverberación filtrada es un estímulo y se considera que la señal directa filtrada es un ruido.
3. Aparato de acuerdo con la reivindicación 1 o 2, en el cual el estimador de intensidad de sonido (104b) está configurado para calcular la primera medida de intensidad de sonido como una intensidad de sonido de la señal directa filtrada o para calcular la segunda medida de intensidad de sonido como una intensidad de sonido de la señal de reverberación filtrada o la señal de mezcla.
4. Aparato de acuerdo con una de las reivindicaciones precedentes, en el cual el combinador (110) está configurado para calcular una diferencia utilizando la primera medida de intensidad de sonido (106) y la segunda medida de intensidad de sonido (108).
5. Aparato de acuerdo con la reivindicación 1 , el cual además comprende: un predictor (114) para predecir el nivel percibido de reverberación sobre la base de un valor promedio (904) de por lo menos dos medidas para la intensidad de sonido percibido para distintos cuadros de señal (k).
6. Aparato de acuerdo con la reivindicación 5, en el cual el predictor (114) está configurado para utilizar, en una predicción (900) un término constante (901 , 903), un término lineal en función del valor promedio (904) y un factor de ajuste de escala ( 902).
7. Aparato de acuerdo con la reivindicación 5 o 6, en el cual el término constante (903) depende del parámetro de reverberación que describe el filtro de reverberación (606) utilizado para generar la señal de reverberación en un reverberador artificial.
8. Aparato de acuerdo con una de las reivindicaciones precedentes, en el cual la etapa de filtro comprende una etapa de conversión de tiempo-frecuencia (300), en el cual el estimador de intensidad de sonido (104b) está configurado para sumar (104c, 104d) los resultados obtenidos para una pluralidad de bandas para obtener la primera y la segunda medida de intensidad de sonido (106, 108) para una señal de mezcla de banda ancha que comprende el componente de señal directa y el componente de señal de reverberación.
9. Aparato de acuerdo con una de las reivindicaciones precedentes, en el cual la etapa de filtro (104a) comprende: un filtro de transferencia auditiva (302), un calculador de patrón de excitación (304), y un integrador temporal (306) para obtener la señal directa filtrada o la señal de reverberación filtrada o la señal de mezcla filtrada.
10. Método para determinar una medida de un nivel percibido de reverberación en una señal de mezcla que comprende un componente de señal directa (100) y un componente de señal de reverberación (102), el cual comprende: filtrar (104) el componente de señal seca (100), el componente de señal de reverberación (102) o la señal de mezcla, en donde el filtrado se lleva a cabo utilizando una etapa de filtro perceptual configurada para modelar un mecanismo de percepción auditiva de una entidad para obtener una señal directa filtrada, una señal de reverberación filtrada o una señal de mezcla filtrada; estimar una primera medida de intensidad utilizando la señal directa filtrada; estimar una segunda medida de intensidad de sonido utilizando la señal de reverberación filtrada o la señal de mezcla filtrada, en donde la señal de mezcla filtrada se obtiene desde una superposición del componente de señal directa y el componente de señal de reverberación; y combinar (1 10) la primera y la segunda medida de intensidad de sonido (106, 108) para obtener una medida (112) del nivel percibido de reverberación.
11. Procesador de audio para generar una señal reverberada (808) a partir de un componente de señal directa (800), el cual comprende: un reverberador (801 ) para reverberar el componente de señal directa (800) para obtener un componente de señal reverberada (806); un aparato para determinar una medida de un nivel percibido de reverberación en la señal reverberada que comprende el componente de señal directa y el componente de señal reverberada de acuerdo con una de las reivindicaciones 1 a 9; un controlador (803) para recibir el nivel percibido (R) generado por el aparato (802) para determinar una medida de un nivel percibido de reverberación, y para generar una señal de control (804) de acuerdo con el nivel percibido y un valor objetivo; un manipulador (805) para manipular el componente de señal seca (800) o el componente de señal de reverberación (806) de acuerdo con el valor de control (804); y un combinador (807) para combinar el componente manipulado de señal seca y el componente manipulado de señal de reverberación, o para combinar el componente de señal seca y el componente manipulado de señal de reverberación, o para combinar el componente manipulado de señal seca y el componente de señal de reverberación para obtener la señal de mezcla (808).
12. Aparato de acuerdo con la reivindicación 1 1 , en el cual el manipulador (805) comprende un ponderador para ponderar el componente de señal de reverberación por un valor de ganancia y el valor de ganancia es determinado por la señal de control, o en el cual el reverberador (801 ) comprende un filtro variable y el filtro es variable en respuesta a la señal de control (804).
13. Aparato de acuerdo con la reivindicación 12, en el cual el reverberador (801 ) tiene un filtro fijo, en el cual el manipulador (805) tiene el ponderador para generar el componente manipulado de señal de reverberación, y en el cual el sumador (807) está configurado para agregar el componente de señal directa y el componente manipulado de señal de reverberación para obtener la señal mixta (808).
14. Método para procesar una señal de audio para generar una señal reverberada (808) a partir de un componente de señal directa (800), el cual comprende: reverberar (801 ) el componente de señal directa (800) para obtener un componente de señal reverberada (806); un método para determinar una medida de un nivel percibido de reverberación en la señal reverberada que comprende el componente de señal directa y el componente de señal reverberada de acuerdo con la reivindicación 10; recibir el nivel percibido (R) generado por el método (802) para determinar una medida de un nivel percibido de reverberación. generar (803) una señal de control (804) de acuerdo con el nivel percibido y un valor objetivo; manipular (805) el componente de señal seca (800) o el componente de señal de reverberación (806) de acuerdo con el valor de control (804); y combinar (807) el componente manipulado de señal seca y el componente manipulado de señal de reverberación, o combinar el componente de señal seca y el componente manipulado de señal de reverberación, o combinar el componente manipulado de señal seca y el componente de señal de reverberación para obtener la señal de mezcla (808).
15. Programa informático que tiene un código de programa para llevar a cabo, cuando se ejecuta en una computadora, el método de acuerdo con la reivindicación 10 o 14.
MX2013009657A 2011-03-02 2012-02-24 Aparato y metodo para determinar una medida de un nivel percibido de reverberacion, procesador de audion y metodo para procesar una señal. MX2013009657A (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161448444P 2011-03-02 2011-03-02
EP11171488A EP2541542A1 (en) 2011-06-27 2011-06-27 Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal
PCT/EP2012/053193 WO2012116934A1 (en) 2011-03-02 2012-02-24 Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal

Publications (1)

Publication Number Publication Date
MX2013009657A true MX2013009657A (es) 2013-10-28

Family

ID=46757373

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2013009657A MX2013009657A (es) 2011-03-02 2012-02-24 Aparato y metodo para determinar una medida de un nivel percibido de reverberacion, procesador de audion y metodo para procesar una señal.

Country Status (14)

Country Link
US (1) US9672806B2 (es)
EP (2) EP2541542A1 (es)
JP (1) JP5666023B2 (es)
KR (1) KR101500254B1 (es)
CN (1) CN103430574B (es)
AR (1) AR085408A1 (es)
AU (1) AU2012222491B2 (es)
BR (1) BR112013021855B1 (es)
CA (1) CA2827326C (es)
ES (1) ES2892773T3 (es)
MX (1) MX2013009657A (es)
RU (1) RU2550528C2 (es)
TW (1) TWI544812B (es)
WO (1) WO2012116934A1 (es)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9055374B2 (en) * 2009-06-24 2015-06-09 Arizona Board Of Regents For And On Behalf Of Arizona State University Method and system for determining an auditory pattern of an audio segment
WO2014171791A1 (ko) 2013-04-19 2014-10-23 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
US10075795B2 (en) 2013-04-19 2018-09-11 Electronics And Telecommunications Research Institute Apparatus and method for processing multi-channel audio signal
EP2830043A3 (en) 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for Processing an Audio Signal in accordance with a Room Impulse Response, Signal Processing Unit, Audio Encoder, Audio Decoder, and Binaural Renderer
EP2840811A1 (en) 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
ES2932422T3 (es) 2013-09-17 2023-01-19 Wilus Inst Standards & Tech Inc Método y aparato para procesar señales multimedia
EP3062534B1 (en) 2013-10-22 2021-03-03 Electronics and Telecommunications Research Institute Method for generating filter for audio signal and parameterizing device therefor
WO2015099424A1 (ko) 2013-12-23 2015-07-02 주식회사 윌러스표준기술연구소 오디오 신호의 필터 생성 방법 및 이를 위한 파라메터화 장치
CN107770717B (zh) * 2014-01-03 2019-12-13 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
EP4294055A1 (en) 2014-03-19 2023-12-20 Wilus Institute of Standards and Technology Inc. Audio signal processing method and apparatus
CN106165454B (zh) 2014-04-02 2018-04-24 韦勒斯标准与技术协会公司 音频信号处理方法和设备
US9407738B2 (en) * 2014-04-14 2016-08-02 Bose Corporation Providing isolation from distractions
EP2980789A1 (en) 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
PL3311379T3 (pl) 2015-06-17 2023-03-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kontrola głośności dla interaktywności użytkownika w systemach kodowania audio
US9590580B1 (en) 2015-09-13 2017-03-07 Guoguang Electric Company Limited Loudness-based audio-signal compensation
GB201615538D0 (en) * 2016-09-13 2016-10-26 Nokia Technologies Oy A method , apparatus and computer program for processing audio signals
EP3389183A1 (en) 2017-04-13 2018-10-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for processing an input audio signal and corresponding method
GB2561595A (en) * 2017-04-20 2018-10-24 Nokia Technologies Oy Ambience generation for spatial audio mixing featuring use of original and extended signal
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
EP3460795A1 (en) * 2017-09-21 2019-03-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal processor and method for providing a processed audio signal reducing noise and reverberation
CN117475983A (zh) * 2017-10-20 2024-01-30 索尼公司 信号处理装置、方法和存储介质
JP7294135B2 (ja) 2017-10-20 2023-06-20 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム
JP2021129145A (ja) 2020-02-10 2021-09-02 ヤマハ株式会社 音量調整装置および音量調整方法
US11670322B2 (en) * 2020-07-29 2023-06-06 Distributed Creation Inc. Method and system for learning and using latent-space representations of audio signals for audio content-based retrieval
US20220322022A1 (en) * 2021-04-01 2022-10-06 United States Of America As Represented By The Administrator Of Nasa Statistical Audibility Prediction(SAP) of an Arbitrary Sound in the Presence of Another Sound
GB2614713A (en) * 2022-01-12 2023-07-19 Nokia Technologies Oy Adjustment of reverberator based on input diffuse-to-direct ratio
EP4247011A1 (en) * 2022-03-16 2023-09-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for an automated control of a reverberation level using a perceptional model

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7949141B2 (en) * 2003-11-12 2011-05-24 Dolby Laboratories Licensing Corporation Processing audio signals with head related transfer function filters and a reverberator
US7495166B2 (en) 2004-08-25 2009-02-24 Pioneer Corporation Sound processing apparatus, sound processing method, sound processing program and recording medium which records sound processing program
KR100619082B1 (ko) * 2005-07-20 2006-09-05 삼성전자주식회사 와이드 모노 사운드 재생 방법 및 시스템
EP1761110A1 (en) * 2005-09-02 2007-03-07 Ecole Polytechnique Fédérale de Lausanne Method to generate multi-channel audio signals from stereo signals
JP4175376B2 (ja) * 2006-03-30 2008-11-05 ヤマハ株式会社 オーディオ信号処理装置、オーディオ信号処理方法、及びオーディオ信号処理プログラム
JP4668118B2 (ja) * 2006-04-28 2011-04-13 ヤマハ株式会社 音場制御装置
US8036767B2 (en) * 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
WO2009039897A1 (en) 2007-09-26 2009-04-02 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
US8965000B2 (en) * 2008-12-19 2015-02-24 Dolby International Ab Method and apparatus for applying reverb to a multi-channel audio signal using spatial cue parameters

Also Published As

Publication number Publication date
BR112013021855B1 (pt) 2021-03-09
ES2892773T3 (es) 2022-02-04
CN103430574A (zh) 2013-12-04
KR20130133016A (ko) 2013-12-05
EP2681932B1 (en) 2021-07-28
CA2827326A1 (en) 2012-09-07
BR112013021855A2 (pt) 2018-09-11
US9672806B2 (en) 2017-06-06
AU2012222491B2 (en) 2015-01-22
RU2013144058A (ru) 2015-04-10
RU2550528C2 (ru) 2015-05-10
EP2681932A1 (en) 2014-01-08
CN103430574B (zh) 2016-05-25
JP5666023B2 (ja) 2015-02-04
AR085408A1 (es) 2013-10-02
TWI544812B (zh) 2016-08-01
EP2541542A1 (en) 2013-01-02
WO2012116934A1 (en) 2012-09-07
CA2827326C (en) 2016-05-17
TW201251480A (en) 2012-12-16
JP2014510474A (ja) 2014-04-24
AU2012222491A1 (en) 2013-09-26
KR101500254B1 (ko) 2015-03-06
US20140072126A1 (en) 2014-03-13

Similar Documents

Publication Publication Date Title
CA2827326C (en) Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal
US10771914B2 (en) Generating binaural audio in response to multi-channel audio using at least one feedback delay network
US20230199427A1 (en) Generating Binaural Audio in Response to Multi-Channel Audio Using at Least One Feedback Delay Network
US10242692B2 (en) Audio coherence enhancement by controlling time variant weighting factors for decorrelated signals
KR101670313B1 (ko) 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
RU2569346C2 (ru) Устройство и способ генерирования выходного сигнала с применением блока разложения сигнала
Uhle et al. Predicting the perceived level of late reverberation using computational models of loudness
Lee et al. Comparison of psychoacoustic-based reverberance parameters
Vecchi et al. Predicting the perceived reverberation in different room acoustic environments using a binaural auditory model
Lee et al. Development of a clarity parameter using a time-varying loudness model
EP4247011A1 (en) Apparatus and method for an automated control of a reverberation level using a perceptional model
Weber et al. Automated Control of Reverberation Level Using a Perceptional Model

Legal Events

Date Code Title Description
FG Grant or registration