MX2012011203A - Procesador de audio espacial y metodo para proveer parametros espaciales en base a una señal de ntrada acustica. - Google Patents
Procesador de audio espacial y metodo para proveer parametros espaciales en base a una señal de ntrada acustica.Info
- Publication number
- MX2012011203A MX2012011203A MX2012011203A MX2012011203A MX2012011203A MX 2012011203 A MX2012011203 A MX 2012011203A MX 2012011203 A MX2012011203 A MX 2012011203A MX 2012011203 A MX2012011203 A MX 2012011203A MX 2012011203 A MX2012011203 A MX 2012011203A
- Authority
- MX
- Mexico
- Prior art keywords
- signal
- spatial
- parameters
- acoustic input
- input signal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 75
- 238000004364 calculation method Methods 0.000 claims abstract description 111
- 238000012935 Averaging Methods 0.000 claims description 191
- 238000006243 chemical reaction Methods 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 10
- 230000001052 transient effect Effects 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 description 55
- 239000013598 vector Substances 0.000 description 37
- 238000004458 analytical method Methods 0.000 description 36
- 230000003595 spectral effect Effects 0.000 description 29
- 230000000694 effects Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 22
- 230000000875 corresponding effect Effects 0.000 description 20
- 230000001419 dependent effect Effects 0.000 description 18
- 230000008569 process Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 12
- 230000005236 sound signal Effects 0.000 description 10
- 238000005259 measurement Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 239000002245 particle Substances 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000036962 time dependent Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 235000017274 Diospyros sandwicensis Nutrition 0.000 description 1
- 241000282838 Lama Species 0.000 description 1
- 241000202863 Pareas Species 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/301—Automatic calibration of stereophonic sound system, e.g. with test microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
Abstract
Se describe un procesador de audio espacial para proveer parámetros espaciales en base a una señal de entrada acústica que comprende un determinador de características de señal y un estimador de parámetros controlable. El determinador de características de señal está configurado para determinar una característica de señal de la señal de entrada acústica. El estimador de parámetros controlable para calcular los parámetros espaciales para la señal de entrada acústica de acuerdo con una regla de cálculo de parámetros espaciales variable está configurado para modificar la regla de cálculo del parámetro espacial variable de acuerdo con la característica de señal determinada.
Description
PROCESADOR DE AUDIO ESPACIAL Y METODO PARA PROVEER PARAMETROS ESPACIALES EN BASE A UNA SEÑAL DE ENTRADA ACUSTICA
CAMPO DE TÉCNICO
Las modalidades de la presente invención crean procesador de audio espacial para proveer parámetros espaciales en base a una señal de entrada acústica. Modalidades adicionales de la presente invención crean un método para proveer parámetros espaciales en base a una señal de entrada acústica. Las modalidades de la presente invención pueden ser concernientes con el campo de análisis acústica, descripción paramétrica y reproducción de sonido espacial, por ejemplo basada en grabaciones de micrófonos.
ANTECEDENTES DE LA INVENCIÓN
La grabación de sonido espacial tiene como objetivo capturar un campo de sonido con múltiples micrófonos, de tal manera que en el sitio de reproducción, el usuario que escucha percibe la imagen de sonido como si estuviera presente en el sitio de grabación. Procedimientos estándar para grabación de sonido espacial usan micrófonos estereofónicos simples o combinaciones más sofisticadas de micrófonos direccionales, por ejemplo tales como micrófonos de formato B usados en Ambisonics. Comúnmente, estos métodos son denominados como técnicas de micrófono coincidentes.
Alternativamente, se pueden aplicar métodos basados en una representación paramétrica de campos de sonido, que son denominados como procesadores de audio espacial paramétricos . Recientemente, se han propuesto varias técnicas para el análisis, descripción paramétrica y reproducción de audio espacial. Cada sistema tiene ventajas y desventajas únicas con respecto al tipo de la descripción paramétrica, el tipo de las señales requeridas, la dependencia e independencia de un montaje de altavoz específico, etc.
Un ejemplo para una descripción paramétrica eficiente de sonido espacial es dado por Codificación de Audio Direccional (DirAC) (V, Pulkki: Spatial Sound Reproduction with Directional Audió Coding, Journal of the AES, Vol . 55, No. 6, 2007) . DirAC representa un procedimiento al análisis acústico y descripción paramétrica del sonido espacial (análisis de DirAC) , también como su reproducción (síntesis de DirAC) . El análisis de DirAC toma múltiples señales de micrófono como entrada. La descripción de sonido espacial es provista para un numero de sub-bandas de frecuencia en términos de una o varias señales de audio de mezcla descendente e información lateral paramétrica que contiene dirección del sonido y difusividad. El ultimo pa.rámetro describe que tan difuso el campo de sonido grabado esta. Además, la difusividad puede ser usada como una medida de conflabilidad para el valor estimativo de la dirección. Otra aplicación consiste del procesamiento dependiente de la dirección de la señal de audio espacial (M. Kallinger et al.: A Spatial Filtering Approach for Directional Audio Coding, 126th AES Convention, Munich, May 2009) . En base a la representación paramétrica, el audio espacial puede ser reproducido con montajes de altavoces arbitrarios, además, el análisis de DirAC puede ser considerado como un extremo frontal acústico para el sistema de codificación paramétrico que son aptos de codificar, transmitir y reproducir audio espacial de multicanai, por ejemplo surround de MEPG.
Otro procedimiento análisis de campo de sonido espacial es representado por el llamado Micrófono de Audio Espacial (SAM) (C. Faller: Microphone Front-Ends for Spatial Audio Coders, in Proceedings of the AES 125th International Convention, San Francisco, Oct. 2008) . SAM toma las señales de micrófonos direcci'onales coincidentes como entrada. Similar a DirAC, SAM determina la DOA (DOA-dirección de llegada) del sonido para una descripción paramétrica del campo de sonido, junto con un valor estimativo de los componentes de sonido difusos.
Técnicas paramétricas para la grabación y análisis de audio espacial, tales como DirAC y SAM, dependen de valores estimativos de parámetros de campo de sonido específicos. El desempeño de estos procedimientos son así fuertemente dependientes del desempeño de estimación de los parámetros de pista espacial tales como la dirección de llegada del sonido o la difusividad del campo de sonido.
En general, cuando se estiman parámetros de pista espacial, se pueden hacer suposiciones especificas en cuanto a las señales de entrada acústicas (por ejemplo, en lo estacionario o en la tonalidad) con el fin de emplear el mejor algoritmo (esto es, el más eficiente o más exacto) para el procesamiento de audio. Tradicionalmente, un solo modelo de señal no variante en el tiempo puede ser definido para este propósito. Sin embargo, un problema que surge comúnmente es que diferentes señales de audio pueden exhibir una varianza temporal significativa de tal manera que un modelo invariante en el tiempo general que describe la entrada de audio es frecuentemente inapropiado. En particular, cuando se considera un modelo de señal invariante . en el tiempo individual para el procesamiento de audio, se puede presentar desajustes de modelo que degradan el desempeño del algoritmo aplicado .
Es un objetivo de las modalidades de la presente invención proveer parámetros espaciales para una señal de entrada acústica con desajustes de modelo más bajas provocadas por una varianza temporal o un no estacionario temporal de la señal de entrada acústica.
BREVE DESCRIPCIÓN DE LA INVENCIÓN
Este objetivo es resuelto por un procesador de audio espacial de acuerdo con la reivindicación 1, un método para proveer parámetros espaciales en base a una señal de entrada acústica de acuerdo con la reivindicación 14 y un programa de computadora de acuerdo con la reivindicación 15.
Modalidades de la presente invención crean un procesador de audio espacial para proveer parámetros espaciales en base a una señal de entrada acústica. El procesador de audio espacial comprende un determinador de características de señal y un estimador de parámetros controlables. El determinador de características de señal está configurado para determinar una característica de la señal de la señal de entrada acústica. El estimador de parámetros controlable está configurado para calcular los parámetros espaciales para la señal de entrada acústica de acuerdo con una regla de cálculo de parámetros espaciales variable. El estimador de parámetros está configurado además para modificar la regla de cálculo del parámetro espacial variable de acuerdo con la característica de señal determinada.
Es una idea de las modalidades de la presente invención que un procesador de audio espacial para proveer parámetros espaciales basados en una señal de entrada acústica, que reduce desajustes de modelo provocados por una varianza temporal de la señal de entrada acústica, pueden ser creados cuando una regla de cálculo para calcular el parámetro espacial es modificada en base a una característica de señal de la señal de entrada acústica. Se h encontrado que los desajustes de modelo pueden ser reducidos cuando una característica de señal de la señal de entrada acústica es determinada y en base a esta característica de señal determinada, los parámetros espaciales para la señal de entrada acústica son calculados.
En otras palabras, las modalidades de la presente invención pueden manejar el problema de desajustes de modelo provocados por una varianza temporal de la señal de entrada acústica al determinar características (características de señal) de la señales de entrada acústicas, por ejemplo en una etapa de pre procesamiento (en el determinador de característica de señal) y luego identificar el modelo de señal (por ejemplo, una regla de calculo de parámetros espaciales o parámetros del arreglo de cálculo de parámetros espaciales) que se ajustan mejor a la situación actual (las características de señal actuales) . Esta información puede ser implementada al estimador de parámetros que pueden luego seleccionar la mejor estrategia de estimación de parámetros (con respecto a la varianza temporal de la señal de entrada acústica) para calcular los parámetros espaciales. Por consiguiente, es una ventaja de las modalidades de la presente invención que una descripción de campo paramétrica (los parámetros espaciales) con un desajuste de modelo significativamente reducido pueda ser obtenida.
La señal de entrada acústica puede por ejemplo ser una señal medida con uno o más micrófono (s) , por ejemplo con arreglos de micrófonos o con un micrófono de formato B. Diferentes micrófonos pueden tener diferentes directividades . Las señales de entrada acústicas pueden ser por ejemplo una presión de sonido "P" o una velocidad particular "U", por ejemplo en un dominio de tiempo o en un dominio de frecuencia (por ejemplo, en un dominio STFT- , STFT= transformada de Fourier de tiempo corto) o en otras palabras, ya sea en una representación de tiempo o en una representación de frecuencia. La señal de entrada acústica puede por ejemplo comprender componentes en tres direcciones diferentes (por ejemplo, ortogonales) (por ejemplo, un componente X, un componente Y y un componente Z) y de un componente omnidireccional (por ejemplo, un componente W) . Además, las señales de entrada acústicas pueden solamente contener componentes de las tres direcciones y ningún componente omnidireccional. Además, las señal de entrada acústica puede comprender dos componentes direccionales (por ejemplo, el componente X, el componente Y, el componente X y el componente Z o el componente Y y el componente Z) y el componente omnidireccional o ningún componente omnidireccional. Además, la señal de entrada acústica puede comprender solamente un componente direccional (por ejemplo, el componente X, un componente Y y un componente Z) y el componente omnidireccional o ningún componente omnidireccional .
La característica de señal determinada por el determinador de características de señal de la señal de entrada acústica, por ejemplo de señales de micrófono puede ser por ejemplo: intervalos estacionarios con respecto al tiempo, frecuencia, espacio; presencia de doble habla o múltiples fuentes de sonido; presencia de tonalidad o transitorios; una proporción de señal a ruido de la señal de entrada acústica o presencia de señales semejantes a aplausos .
Las señales semejantes a aplausos son definidas en la presente como señales que comprenden una secuencia temporal rápida de transitorios, por ejemplo diferentes direcciones.
La . información reunida por el determinador de características de señal puede ser usada para controlar el estimador de parámetros controlables, por ejemplo en la codificación de audio direccional (DirAC) o micrófono de audio espacial (SAM) , por ejemplo para seleccionar la estrategia del estimador o los ajustes del estimador (o en otras palabras para modificar la regla de cálculo del parámetro espacial variable) que se ajuste mejor a la situación actual (la característica de señal actual de la señal de entrada acústica) .
Las modalidades de la presente invención pueden ser aplicadas de manera similar a ambos sistemas, micrófono de audio espacial (SAM) y codificación de audio direccional (DirAC) o a cualquier otro sistema paramétrico. En lo siguiente, un enfoque principal caerá en el análisis de codificación de audio direccional.
De acuerdo con algunas modalidades de la presente invención, el estimador de parámetros controlable puede estar configurado para calcular los parámetros espaciales como parámetros de codificación de audio direccional que comprenden un parámetro de difusividad para un segmento del tiempo y una sub-banda de frecuencia y/o un parámetro de dirección de llegada para un segmento de tiempo y una sub-banda de frecuencia o como parámetros de micrófono de audio espacial .
En lo siguiente, la codificación de audio de dirección y micrófono de audio espacial son considerados como extremos frontales acústicos para sistemas que operan en parámetros espaciales, tales como por ejemplo la dirección de llegada y la difusividad del sonido. Se debe notar que es directo aplicar el concepto de la presente invención a otros extremos frontales acústicos también. Tanto la codificación de audio direccional como el micrófono de audio espacial proveen parámetros específicos (espaciales) obtenidos de señales de entrada acústicas para describir el sonido tradicional. Tradicionalmente, cuando se procesa audio espacial con extremos frontales acústicos, tales como codificación de audio de dirección y micrófono de audio espacial, un solo modelo general para las señales de entrada acústico es definido de tal manera que estimadores de parámetros óptimos (o casi óptimos) puedan ser derivados. Los estimadores se desempeñan como se desee en tanto que se satisfagan las suposiciones fundamentales tomadas en cuenta por el modelo. Como se menciona antes, si este no es el caso, surgen desajustes de modelo, que usualmente conducen a errores severos en los valores estimativos. Tales desajustes de modelo representan un problema recurrente .puesto que las señales de entrada acústicas son usualmente variantes en el tiempo altamente.
BREVE DESCRIPCIÓN DE LAS FIGURAS
Modalidades de acuerdo con la presente invención serán descritas con referencia a las figuras adjuntas, en las cuales :
La Figura 1 muestra un diagrama esquemático por bloques de un procesador de audio espacial de acuerdo con una modalidad de la presente invención;
La Figura 2 muestra un diagrama de bloques esquemático de un codificador de audio direccional como un ejemplo de referencia;
La Figura 3 muestra un diagrama de bloques esquemático de un procesador de audio espacial de acuerdo con una modalidad adicional de, la presente invención;
La Figura 4 muestra un diagrama de bloques esquemático de un procesador de audio espacial de acuerdo con una modalidad adicional de la presente invención;
La Figura 5 muestra un diagrama de bloques esquemático de un procesador de audio espacial de acuerdo con una modalidad adicional de la presente invención;
La Figura 6 muestra un diagrama de bloques esquemático de un procesador de audio espacial de acuerdo con una modalidad adicional de la presente invención;
La Figura 7a muestra un diagrama de blo'ques esquemático de un estimador de parámetros que puede ser usado en procesador de audio espacial de acuerdo con una modalidad de la presente invención;
La Figura 7b muestra un diagrama de bloques esquemático de un estimador de parámetros que puede ser usado en un procesador de audio espacial de acuerdo con una modalidad de la presente invención;
La Figura 8 muestra un diagrama de bloques esquemático de un procesador de audio espacial de acuerdo con una modalidad adicional de la presente invención;
La Figura 9 muestra un diagrama de bloques esquemático de un procesador de audio espacial de acuerdo con una modalidad adicional de la presente invención y
La Figura 10 muestra un diagrama de flujo de un método de acuerdo con una modalidad adicional de la presente invención.
DESCRIPCIÓN DETALLADA DE MODALIDADES DE LA PRESENTE INVENCIÓN
Antes de que las modalidades de la presente invención sean explicadas con mayor detalle utilizando las figuras adjuntas, se debe indicar que los mismos o elementos funcionalmente iguales son provistos con los mismos números de referencia y que se omitirá una descripción repetida de estos elementos. Las descripciones de elementos provistos con los mismos números de referencia son por consiguiente mutuamente intercambiables .
Procesador de audio espacial de acuerdo con la Figura 1
En lo siguiente, un procesador de audio espacial 100 será descrito con referencia a la Figura 1 que muestra un diagrama de bloques esquemático de tal procesador de audio espacial. El procesador de audio espacial 100 para proveer parámetros espaciales 102 o valores estimativos de parámetros espaciales 102 en base a una señal de entrada acústica 104 (o en una pluralidad de señales de entrada acústicas 104) comprende un estimador de parámetros controlables 106 y un determinador de características de señal 108. El determinador de características de señal 108 está configurado para determinar una característica de señal 110 de la señal de entrada acústica 104. El estimador de parámetros controlables 106 está configurado para calcular los parámetros espaciales 102 para la señal de entrada acústica 104 de acuerdo con una regla de cálculo de parámetros espaciales variable. El estimador de parámetros controlables 106 esta configurado además para modificar la regla de cálculo de parámetros espaciales variables de acuerdo con las características de señal determinadas 110.
En otras palabras, el estimador de parámetros controlables 106 es controlado dependiendo de las características de las señales de entrada acústica o la entrada de señal acústica 104.
La señal de entrada acústica 104 puede comprender, como se describe anteriormente, componentes direccionales y/o componentes omnidireccionales . Una característica de señal apropiada 110, como ya se menciono puede ser por ejemplo intervalos estacionarios con respecto al tiempo, frecuencia, espacio de la señal de entrada acústica 104, una presencia de doble habla o múltiples fuentes de sonido en la señal de entrada acústica 104, una presencia de tonalidad o transitorios al interior de la señal de entrada acústica 104, una presencia de aplausos o una proporción de señal a ruido de la señal de entrada acústica 104. Esta enumeración de características de señal apropiadas es solo un ejemplo de características de señal que el determinador de características de señal 108 puede determinar. De acuerdo con modalidades adicionales de la presente invención, el determinador de características de señal 108 puede también determinar otras características de señal (no mencionadas) de la señal de entrada acústica 104 y el estimador de parámetros controlables 106 puede modificar la regla de cálculo del parámetro espacial variable en base a estas otras características de señal de la señal de entrada acústica 104.
El estimador de parámetros controlables 106 puede estar configurado para calcular los parámetros espaciales 102 como parámetros de codificación de audio direccionales que comprenden un parámetro de difusividad ? (k,n) para un segmento de tiempo n y una sub banda de frecuencia k y/o un parámetro de dirección de llegada' f para un segmento de tiempo n y una sub-banda de frecuencia k o como parámetros de micrófono de audio espacial, por ejemplo para un segmento de tiempo n y una sub-banda de frecuencia k.
El estimador de parámetros controlable 106 puede estar configurado además para calcular los parámetros espaciales 102 utilizando otro concepto de DirAC o SAM. El cálculo de los parámetros de DirAC y parámetros de SAM solamente serán comprendidos como ejemplos. El estimador de parámetros controlable puede por ejemplo estar configurado para calcular los parámetros espaciales 102 de tal manera que los parámetros espaciales comprenden una dirección del sonido, una difusividad de sonido o una medida estadística de la dirección del sonido.
Una señal de entrada acústica 104 puede por ejemplo ser provista en un dominio de tiempo o un dominio de frecuencia (tiempo corto) , por ejemplo en el dominio de STFT.
Por ejemplo, la señal acústica 104., en donde es provista en el dominio de tiempo, puede comprender una pluralidad de corrientes de audio acústicas Xi(t) a Xu(t) cada una comprendiendo una pluralidad de muestras de entrada acústica con el paso del tiempo. Cada una de las corrientes de entrada acústica, pueden por ejemplo ser provistas de · un micrófono diferente y pueden corresponder con una dirección de observación diferente. Por ejemplo, una primera corriente de entrada acústica Xi(t) puede comprender con una primera dirección (por ejemplo, con una dirección x) , una segunda corriente de entrada acústica X2(t) puede corresponder con una segunda dirección, que puede ser ortogonal a la primera dirección (por ejemplo, una dirección y) , una tercera corriente de entrada acústica 3(t) puede corresponder con una tercera dirección, que puede ser ortogonal a la primera dirección y a la segunda dirección (por ejemplo, una dirección seca) y una cuarta corriente de entrada acústica x4(t) puede ser' un componente omnidireccional . Estas diferentes corrientes de aire acústica pueden ser grabadas de diferentes micrófonos, por ejemplo en una orientación ortogonal y pueden ser digitalizadas utilizando un convertidor análogo a digital.
De acuerdo con modalidades adicionales de la presente invención, la señal de entrada . acústica 104 puede comprender corrientes de entrada acústicas en una representación de frecuencia, por ejemplo en un dominio de frecuencia de tiempo, tal como el dominio STFT. Por ejemplo, la señal de entrada acústica 104 puede ser provista en el formato B que comprende un vector de velocidad particular ü (k,n) y un vector de presión de sonido P (k,n) en donde k denota una sub-banda de frecuencia y n denota un espacio de tiempo. El vector de velocidad particular U (k,n) es un componente direccional de la señal de entrada acústica 104, en donde la presión de sonido P (k,n) representa un componente omnidireccional de la señal de entrada acústica 104.
Como se menciona anteriormente, el estimador de parámetros controlables 106 puede ser configurado para proveer los parámetros espaciales 102 como parámetros de codificación de audio direccionales o como parámetros de micrófonos de audio espacial. En lo siguiente, un codificador de audio direccional convencional será presentado como un ejemplo de referencia. Un diagrama de bloques esquemático de tal codificador de audio direccional convencional es mostrado en la Figura 2.
Audio Direccional Convencional de acuerdo con la Figura 2
La Figura 2 muestra un diagrama de bloques esquemático de un codificador de audio direccional 200. El codificador de audio direccional 200 comprende un estimador de formato B 202. El estimador de formato B 202 comprende un banco de filtros. El codificador de audio direccional 200 comprende además un estimador de parámetros de codificación de audio direccional 204. El estimador de parámetros de codificación de audio direccional 204 comprende un analizador energético 206 para efectuar un análisis energético. Además, el estimador de parámetros de codificación de audio direccional 204 comprende un estimador de dirección 208 y un estimador de difusividad 210.
Directional Audio Coding (DirAC) (V. Pulkki : Spatial Sound Reproduction with Directional Audio Coding, Journal of the AES, Vol . 55, No. 6, 2007) representa un procedimiento motivado perceptualmente , eficiente al análisis y reproducción de sonido espacial. El análisis de DirAC provee una descripción paramétrica del campo de sonido en términos de una señal de audio de mezcla descendente e información lateral adicional, por ejemplo dirección de llegada (DOA) del sonido y difusividad del campo de sonido. DirAC toma en cuenta los elementos que son relevantes para la audición humana. , Por ejemplo, supone que diferencias de tiempo ínter aurales (ITD) y diferencias de nivel inter aurales (ILD) puede ser descrita por la DOA del sonido. Correspondientemente, se supone que la coherencia interaural (IC) puede ser representada por la difusividad del campo de sonido. De la salida del análisis de DirAC un sistema de reproducción de sonido puede generar elementos para reproducir el sonido con la impresión espacial original con el conjunto arbitrario, de altavoces. Se debe notar que la difusividad puede también ser considerada como una medida de continuidad para las DOA estimadas. Mientras más alta es la difusividad, más baja es la coríflabilidad de la DOA y viceversa. Esta información puede ser usada por muchas herramientas basadas en DirAC tales como localización de fuente (0. Thiergart et al.: Localization of Sound Sources in Reverberant Environment Base don Directional Audio COding Parameters, 127th AES Convention, NY, Octubre 2009) . Modalidades de la presente invención se enfocan en la parte de análisis de DirAC en lugar de sobre la reproducción de sonido .
En el análisis de DirAC, los parámetros son estimados vía un análisis energético efectuado por el analizador energético 206 del campo de sonido, en base a las señales de formato B provistas por el estimador de formato B 202. Las señales de formato B consisten de una señal omnidireccional, correspondiente a la presión de sonido P (k,n) y una, dos o tres señales de dipolo alienadas con la dirección x, y y z de un sistema de coordenadas cartesiano. Las señales de dipolo corresponden a los elementos del vector de velocidad de partículas U (k, n) . El análisis de DirAC es centrado en la Figura 2. Las señales de micrófono en el dominio de tiempo, es decir Xi(t), x2(t),... xN(t) , son provistas al estimador de formato B 202. Estas señales de micrófono de dominio de tiempo pueden ser denominadas como- "señales de entrada acústica en el dominio de tiempo" en lo siguiente. El estimador de formato B 202, que contiene una transformada de Fourier de tiempo corto (STFT) u otro banco de filtros (FB) , calcula la señales de formato B en el dominio de frecuencia de tiempo corto, esto es, la presión de sonido P (k,n) y el vector de velocidad de partículas U (k,n), en donde k y n denotan el índice de frecuencia (una sub-banda de frecuencia) y el índice de bloque de tiempo (un segmento de tiempo) , respectivamente. Las señales P (k,n) y U (k,n, ) pueden ser denominadas como "señales de entrada acústica en el dominio d frecuencia de tiempo corto" en lo siguiente. Las señales de formato B pueden ser obtenidas de mediciones con arreglos de micrófono como se explica en R. Schultz-Amling et al.: Planar Microphone Array Processing for the Analysis and Reproduction of Spatial Audio using Directional Audio Coding, 124th AES COnvention, Amsterdam, The Netherlands, Mayo 2008 o directamente al usar por ejemplo un micrófono de formato B. en el análisis energético, el vector de intensidad de sonido activo Ia(k,n) puede ser estimado separadamente diferentes bandas de frecuencia utilizando
en donde Re (.) produce la parte real y U* (k, n) denota el conjugado completo del vector de velocidad de partículas U(k,n) .
En lo siguiente, el vector de intensidad de sonido activo también será llamado parámetro de intensidad.
Utilizando la representación de dominio de STFT en la ecuación 1, la DOA del sonido cp(k,n) puede ser determinada en el estimador de dirección 208 para cada k y n como la dirección opuesta del vector de intensidad de sonido activo Ia(k,n) . En el estimador de difusividad 210, la difusividad del campo de sonido ? (k,n) puede ser calculada en base a fluctuaciones de la intensidad activa de acuerdo con:
en donde | ( . ) | denota la norma del vector y E ( . ) devuelve la esperanza. En la aplicación práctica, la esperanza E(.) puede ser aproximada mediante una promediación obtenida a lo largo de una o más dimensiones específicas, por ejemplo a lo largo del tiempo, frecuencia o espacio.
Se ha encontrado que la esperanza E ( . ) en la ecuación 2 puede ser aproximada mediante pro mediación a lo largo de una dimensión especifica. Para esta cuestión, la pro mediación puede ser llevada a cabo a lo largo del tiempo (pro mediación temporal) , frecuencia (pro mediación espectral) o espacio (pro mediación espacial) . La pro mediación espacial significa por ejemplo que el vector de intensidad del sonido activo Ia(k,n) de la ecuación 2 es estimado con múltiples arreglos de micrófono colocados en puntos diferentes. Por ejemplo, se pueden colocar cuatro arreglos diferentes (micrófonos) en cuatro puntos diferentes al interior de la sala. Como resultado, se tiene entonces para cada tiempo de punto de tiempo-frecuencia (k, n) , cuatro vectores de intensidad Ia(k,n)que pueden ser promediados (de la misma manera, por ejemplo la pro mediación espacial) para obtener una aproximación del operador de esperanza E(.).
Por ejemplo, cuando se usa una pro mediación temporal sobre varios n-, se obtiene un valor estimativo ? (k,n) para el parámetro de difusividad dado por
Existen métodos comunes para realizar una pro mediación temporal como se requiera en (3) . Un método es pro mediación por bloques (pro mediación de intervalos) sobre un numero especifico N de instancia de tiempo n, dadas por
en donde y (k,n,) es la cantidad hacer promediada, por ejemplo Ia(k,n) o |la(k,n) |. Un segundo método para calcular promedios temporales, que es usado comúnmente en DirAC debido a su eficiencia es aplicar filtros de respuesta de impulso infinita (IIR) . por ejemplo, cuando se usa un filtro de paso debajo de orden con coeficiente de filtro a e[0,l] una pro mediación temporal de una cierta señal y (k,n) a lo largo de n puede ser obtenida con
en donde y(k,n,) denota el resultado de pro mediación real y y (k,n,-l) es el resultado de pro mediación pasado, esto es, el resultado de pro mediación para la instancia de tiempo (n-1) . Una pro mediación temporal más larga es obtenida para OÍ más pequeña, mientras que una una mas grande produce resultados más instantáneos en donde el resultado pasado y(k,n-l) cuenta menos. Un valor típico para usado en DirAC es a=0.1.
Se ha encontrado que además de usar la pro mediación temporal, el operador de esperanza en la ecuación 2 puede también ser aproximado mediante pro mediación espectral a lo largo de varias o todas las sub-bandas de frecuencia k. este método es solamente aplicable si ningún valor estimativo de difusividad independiente para la diferentes sub-bandas de frecuencia en el último procesamiento, por ejemplo cuando solamente una sola fuente de sonido, está presente, son necesarias. Y así, usualmente la manera más apropiada para calcular la difusividad en la práctica puede ser emplear pro mediación temporal .
En general, cuando se. aproxima un operador de esperanza como en la ecuación 2 mediante un proceso de pro mediación, se supone estacionario de la señal considerada con respecto a la cantidad a ser promediada. Mientras más larga es la pro mediación, esto es, más muestras son tomadas en cuenta, usualmente más datos son los resultados .
En lo siguiente, el análisis de micrófono de audio espacial (SAM) también será explicado en breve.
Análisis de Micrófono de Audio Espacial (SAM)
Similar a DirAC el análisis de SAM (C. Faller:
Microphone Fronts-Ends for Spatial Audio Coders, in Proceedings of the AES 125th International Convention, San Francisco, Oct . 2008) provee una descripción paramétrica del sonido espacial. La representación de campo de sonido está basada en una señal de audio de mezcla descendente e información lateral paramétrica, es decir la DOA del sonido y valores estimativos de los niveles de los componentes de sonido directos y difusos. La entrada al análisis de SAM son las señales de medidas con múltiples micrófonos direccionales coincidentes, por ejemplo dos sensores cardiodes colocados en el mismo punto. La base para el análisis de SAM son las densidades espectrales de potencia (PSD) y las densidades espectrales cruzadas (CSD) de las señales de entrada.
Por ejemplo, sea Xl(k,n) y X2(k,n) las señales en el dominio de tiempo-frecuencia medidas por dos micrófonos direccionales coincidentes. Las PSD de ambas señales de entrada pueden ser determinadas con
PSD.fcn^ EfX^nJX*, (k,n)}
PSDjOcnJ ^EfXjfcnJX^ fcn)}. (5a)
La CSD entre ambas entradas es dada por la correlación
La SAM supone las señales de entrada medidas Xi(k;n) y X2(k,n) representan una superposición del sonido directo y sonido difuso, mientras que el sonido directo y el sonido difuso no están correlacionados. En base a esta suposición, es mostrado en C. Faller: Microphone Fronts-Ends for Spatial Audio Coders, in Proceedings of the AES 125th International Convention, San Francisco, Oct. 2008, que es posible derivar de las ecuaciones 5a y 5b para cada sensor la PSD del sonido directo medido y el sonido difuso medido. A partir de la proporción entre las PSD del sonido directo es entonces posible determinar la DOA f (k,n) del sonido con un conocimiento a priori de la respuestas direccionales de los micrófonos .
Se ha encontrado que en una aplicación práctica, las esperanzas E{.} en la ecuación 5a y 5b pueden ser aproximadas mediante operaciones de pro mediación temporal y/o espectral. Esto es similar al cálculo de difusividad en DirAC descrito en la sección previa. Similarmente, la pro mediación puede ser llevada a cabo utilizando por ejemplo la ecuación 4 o 5. Para dar un ejemplo, la estimación de la CSD puede ser efectuada en base a la pro mediación temporal recursiva de acuerdo con
CDSÍk,n)¾a-X5(k,n)X2(k,n)+(1-a)<CDS{k;n-i). (5c) Como se discute en la sección previa, cuando se aproxima un operador de esperanza como en las ecuaciones 5a y 5b mediante un proceso de pro mediación, lo estacionario de la educación considerada con respecto a la cantidad a ser promediada, puede tener que ser supuesta.
En lo siguiente, una modalidad de la presente invención será explicada que efectúa una estimación parámetros variante en el tiempo dependiendo un intervalo de estacionario.
Procesador de Audio Espacial de acuerdo con la Figura 3
La Figura 3 muestra un procesador de audio espacial 300 de acuerdo con una modalidad de la presente invención. En una funcionalidad del procesador de audio espacial 300 puede ser similar a una funcionalidad del procesador de audio de audio espacial 100 de acuerdo con la Figura 1. El procesador de audio espacial 300 puede comprender los elementos adicionales mostrados en la Figura 3. El procesador de audio espacial 300 comprende un estimador de parámetros controlable 306, una f ncionalidad del cual puede ser similar a una funcionalidad de estimador de parámetros controlables 106 de acuerdo con la Figura 1 y que puede comprender los elementos adicionales descritos en lo siguiente. El procesador de audio espacial 300 comprende además un determinador de características de señal 308, una funcionalidad en el cual puede ser similar a una funcionalidad del determinador de características de señal 108 de acuerdo con la Figura 1 y que puede comprender los elementos adicionales descritos en lo siguiente.
El determinador de características de señal 308 puede estar configurado para determinar un intervalo de estacionario de la señal de entrada acústica 104 que constituye la característica de señal determinada 110, por ejemplo utilizando un determinador de intervalo estacionario 310. El estimador de parámetro 306 puede estar configurado para modificar la regla de cálculo del parámetro variable de acuerdo con las características de señal determinada 110, esto es el intervalo estacionario determinado. El estimador de parámetros 306 puede estar configurado para modificar la regla de cálculo del parámetro variable, de tal manera que un periodo de pro mediación o longitud de pro mediación para calcular los parámetros espaciales 102 es comparativamente más largo (más alto) para un intervalo estacionario comparativamente más largo y es comparativamente más corto (más bajo) para un intervalo estacionario comparativamente más corto. La longitud de pro mediación puede por ejemplo ser igual al intervalo estacionario.
En otras palabras, el procesador de audio espacial 300 crea un concepto para mejorar la estimación de difusividad en la codificación de audio de dirección al considerar el intervalo variable de estacionario de la señal de entrada acústica 104 o las señales de entrada acústicas.
El intervalo estacionario de la señal de entrada acústica 104 puede por ejemplo definir un periodo en el tiempo en el cual ningún movimiento (o solamente uno insignificativamente pequeño) de una fuente de sonido de la entrada de la señal acústica 104 se presenta. En general, lo estacionario de la señal de entrada acústica 104 puede definir un periodo de tiempo en el cual una cierta característica de la señal de la señal de entrada acústica 104 permanece constante a lo largo del tiempo. Las características de señal puede ser por ejemplo una energía de señal, una * difusividad espacial, una tonalidad, una proporción de señal a ruido y/o u otros . Al tomar en cuenta el intervalo estacionario de la señal de entrada acústica 104 para calcular los parámetros espaciales 102, una longitud de pro mediación para calcular los parámetros espaciales 102 pueden ser modificada, de tal manera que la precisión de los parámetros espaciales 102 que representan la entrada de señal acústica 104 pueden ser mejorados. Por ejemplo, para un intervalo, estacionario más largo, lo que significa que la fuente de sonido de la señal de entrada acústica 104 no se ha movido por un intervalo más largo, una pro mediación temporal más larga (o tiempo) puede ser aplicada que para un intervalo estacionario más corto. Por consiguiente, una estimación de parámetros espaciales casi óptima (o en algunos casos aun una óptima) puede (siempre) ser efectuada por el estimador de parámetros controlables 306 dependiendo del intervalo estacionario de la señal de entrada acústica 104.
El estimador de parámetros controlables 306 puede por ejemplo ser configurado para proveer un parámetro difusividad ? (kfn) por ejemplo en un dominio de STFT para un sub-banda de frecuencia k y un segmento de tiempo o bloque de tiempo n. el estimador de parámetros controlables 306 puede comprender un estimador de difusividad 312 para calcular el parámetro de difusividad ? (k,n), por ejemplo en base a una promediación temporal de un · parámetro de intensidad de una entrada de señal acústica 104 en un dominio STFT. Además, el estimador de parámetros controlables 306 puede comprender un analizador energético 314 para efectuar un análisis energético de la señal de entrada acústica 104 para determinar el parámetro de intensidad Ia(k,n). El parámetro de intensidad la(k,n) puede también ser designado como vector de intensidad de salida activo y puede ser calculado por el analizador energético 314 de acuerdo con la ecuación l.
Por consiguiente la señal de entrada acústica 104 puede también ser provista en el dominio STFT por ejemplo en el formato B que comprende una presión de sonido P(k,n,) y un vector de velocidad particular U (k,n,) para una sub-banda de frecuencia k y un segmento de tiempo n.
El estimador de difusividad 312 puede calcular el parámetro de difusividad ? (k,n) en base a una promediación temporal de los parámetros de intensidad Ia(k,n) de la señal acústica 104, por ejemplo de la misma sub-banda de frecuencia k. el estimador de difusividad 312 puede calcular el parámetro de difusividad ? (k,n) de acuerdo con la ecuación 3 , en donde un numero de parámetros de intensidad y por consiguiente la longitud de promediación pueden ser variados por el estimador de difusividad 312 en dependencia del intervalo estacionario determinado.
Como un ejemplo numérico, si un intervalo estacionario comparativamente largo es determinado por el determinador de intervalo estacionario 310, el estimador de difusividad 312 puede efectuar la promediación temporal de los parámetros de intensidad Ia(k,n) con respecto a los parámetros de intensidad Ia (k,n-10) a Ia (k,n-l). Para un intervalo estacionario comparativamente corto determinado por el determinador de intervalo estacionario 310, el estimador de difusividad 312 puede efectuar la promediación temporal de los parámetros de intensidad la (k,n)para los parámetros de intensidad Ia (k,n-l) .
Como se puede ver, la longitud de promediación de la promediación temporal aplicada por el estimador de difusividad 312 corresponde con el número de parámetros de intensidad Ia (k,n-l) usado por la promediación temporal.
En otras palabras, la estimación de difusividad de codificación de audio direccional es mejorada al considerar el intervalo estacionario invariante en el tiempo (también llamado tiempo de coherencia) de las señales de entrada acústica con la señal de entrada acústica 104. Como se explica anteriormente, la manera común en la práctica para estimar el parámetro de difusividad ? (k,n) es usar la ecuación 3 que comprende una promediación temporal del vector de intensidad activo Ia (k,n) . Se ha encontrado que la longitud de promediación óptima depende del estacionario temporal de las señales de entrada acústica o la entrada de señal de entrada acústica 104. Se ha encontrado que los resultados más exactos pueden ser obtenidos cuando la longitud de promediación es escogida para ser igual al intervalo estacionario.
Tradicionalmente, como se muestra con el codificador de audio direccional convencional 200, un modelo invariante en el tiempo en general para la señal de entrada acústica es definido del cual la estrategia de estimación de parámetros óptimos es luego definida, que en este caso significa la longitud de promediación temporal óptima. Para la estimación de difusividad, se supone comúnmente que la señal de entrada acústica posee el estacionario del tiempo dentro de un cierto intervalo de tiempo, por ejemplo 20 ms . En otras palabras, el intervalo estacionario considerado es ajustado a un valor constante que es típico para varias señales de entrada. Del intervalo estacionario supuesto, la estrategia de promediación temporal óptima es luego derivada, por ejemplo, el mejor valor para alfa cuando se usa una promediación de IIR como se muestra en la ecuación 5 o en la mejor N cuando se usa promediación por bloques como se muestra en la ecuación 4.
Sin embargo, se ha encontrado que diferentes señales de entrada acústicas son usualmente caracterizadas por diferentes intervalos estacionarios, así, el método tradicional para suponer un modelo invariante en el tiempo para la señal de entrada acústica no se mantiene. En otras palabras, cuando la señal de entrada exhibe intervalos estacionarios que son diferentes del supuesto por el estimador, se puede ejecutar a un desajuste de modelo que puede dar como resultado valores estimativos de parámetros escasos .
Por consiguiente, el nuevo procedimiento propuesto (por ejemplo realizado en el procesador de audio espacial 300) adapta la estrategia de estimación de parámetros (la regla de cálculo de parámetros espaciales variables) dependiendo de la característica de señal real, tal como es visualizada en la Figura 3 para la estimación de difusividad: el intervalo estacionario de la señal de entrada acústica 104, esto es, de la señal de formato B, es determinado en una etapa de pre procesamiento (por el determinador de características de señal 308) . A partir de esta información (del intervalo estacionario determinado) la mejor longitud de promediación temporal (o en algunos casos la casi mejor) , el mejor valor (o en algunos casos casi el mejor valor) para o para N es escogido y luego el cálculo de parámetros (espacial) es llevado a cabo con el estimador de difusividad 312.
Se debe mencionar que además de una estimación de difusividad adaptable de señal en DirAC, es posible mejorar la estimación de dirección en SAM de una manera muy similar. En efecto, el cálculo de la PSD y la CSD de las señales de entrada acústicas en las ecuaciones 5a y 5b también requieren aproximar los operadores de esperanza mediante un proceso de promediación temporal (por ejemplo, al usar las ecuaciones 4 o 5) . Como se explica anteriormente, los resultados más exactos pueden ser obtenidos cuando la longitud de promediación corresponde al intervalo estacionario de las señales de entrada acústicas. Esto significa que el análisis de SAM puede ser mejorado al determinar primero el intervalo estacionario de las señales de entrada acústicas y luego escoger de esta información la mejor longitud de promediación. El intervalo estacionario de las señales de entrada acústicas y el filtro de promediación óptimo correspondiente pueden ser determinados como se explica en lo siguiente.
En lo siguiente, se presentara un procedimiento ejemplar que determina el intervalo estacionario de la señal de entrada acústica 104. A partir de esta información, la longitud de promediación temporal óptima para el cálculo de difusividad mostrado en la Figura 3 es luego escogida.
Determinación del intervalo estacionario
En lo siguiente, una manera posible para determinar el intervalo estacionario de una señal de entrada acústica (por ejemplo, la entrada de señal acústica 104) también como el coeficiente de filtro IIR óptimo a (por ejemplo usado en la ecuación 5) que produce una promediación temporal correspondiente es descrita. La determinación del intervalo estacionario descrita en lo siguiente puede ser efectuada por el determinador de intervalo estacionario 310. del determinador de características de señal 308. El método presentado permite usar la ecuación 3 para estimar exactamente la difusividad (parámetro) (k,n) dependiendo del intervalo estacionario de la señal de entrada acústica 104. La presión de sonido del dominio de frecuencia P(k,n) que es parte de la señal de formato B, puede ser considerada como la señal de entrada acústica 104. En otras palabras, la señal de entrada acústica 104 puede comprender por lo menos un componente correspondiente a la presión de sonido P (k,n,).
Las señales de entrada acústica exhiben en general un intervalo estacionario corto si la energía de señal varía fuertemente dentro de un intervalo de tiempo corto y viceversa. Ejemplos típicos para los cuales el intervalo estacionario es corto son transitorios, inicios de habla y "desplazamientos" , es decir cuando un usuario se detiene de hablar. El último caso es caracterizado por energía de señal decreciente fuertemente (ganancia negativa) dentro de un tiempo corto, mientras que en los dos primeros casos, la energía se incrementa fuertemente (ganancia positiva) .
El algoritmo deseado, que tiene como objetivo encontrar el coeficiente de filtro óptimo , tiene que proveer valores cercanos a = 1 (correspondiente a una promediación temporal corta) para señales no estacionarias altas y valores cerca de OÍ = a' en el caso de estacionario. El símbolo a' denota un coeficiente de filtro independiente de señal apropiado para promediar señales estacionarias. Expresado en términos matemáticos, un algoritmo es dado por
en donde a+(k,n) es el coeficiente de filtro óptimo para cada bandeja de tiempo-frecuencia, W (k,n,)=|P(k,n,)|2 es el valor absoluto de la energía de señal instantánea de P(k,n,) y W (k,n) es un promedio temporal de (k,n) . Para señales estacionarias, la energía instantánea (k,n) es igual a al promedio temporal W(k,n) que produce a+ = a' como se desea. En el caso de señales altamente no estacionarias debido a ganancias de energía positivas, el denominador de la ecuación 7 se convierte en a' W(k,n), ya que W(k,n) es grande en comparación con W (k,n) . Así, OÍ+ ¾ 1 es obtenido como se desea. En caso de no estacionario debido a ganancias de energía negativas, el resultado indeseable o¡+ * 0 es obtenido, puesto que (k,n) se vuelve grande en comparación con W (k,n). Por consiguiente, un candidato alternativo para el coeficiente de filtro óptimo a, es decir
es introducido que es similar a la ecuación 7, pero exhibe el comportamiento inverso en el caso de no estacionario. Esto significa que en el caso de no estacionario debido a ganancia de energía positiva, se tiene a" « 0, mientras que para ganancias de energía negativa a" « 1 es obtenido. De aquí, tomando el máximo de la ecuación 7 y ecuación 8 esto es
a =max(c¿ \cf ) , (9)
produce el valor óptimo deseado para el coeficiente de promediación recursivo a, conduciendo a una promediación temporal que corresponde al intervalo estacionario de las señales de entrada acústicas.
En otras palabras, el determinador de características de señal 308 está configurado para determinar el parámetro de ponderación a en base a una proporción entre la energía de señal actual (instantánea) de por lo menos un componente (omnidireccional) (por ejemplo, la presión de sonido P (k,n)) de la señal de entrada acústica 104 y un promedio temporal sobre un segmento de tiempo dado (previo) de energía de señal de por lo menos un componente (omnidireccional) de la señal de entrada acústica 104. El segmento de tiempo dado puede por ejemplo corresponder a un número dado de coeficiente de energía de señal para diferentes segmentos de tiempo (previo) .
En el caso de un análisis de SAM, la señal de energía (k,n) puede estar compuesta de las de energías de las dos señales de micrófono Xi(k,n) y X2(k,n), por ejemplo W (k,n) = I Xi(k,n) |2 + I Xx(k,n) |2 . El coeficiente para la estimación recursiva de las correlaciones en la ecuación 5a o ecuación 5b, de acuerdo con la ecuación 5c, puede ser escogido apropiadamente utilizando el criterio de la ecuación 9 descrita anteriormente.
Como se puede ver de lo anterior, el estimador de parámetros controlable 306 puede ser configurada para aplicar la promediación temporal de los parámetros de Ia(k,n) de la señal acústica 104 utilizando un filtro de paso de bajos (por ejemplo, el filtro de respuesta de impulso infinita) (IIR) mencionado o un filtro de respuesta de impulso finita (FIR) ) . Además, estimador de parámetros controlable 306 puede ser configurado para ajustar la ponderación entre un parámetro de intensidad actual de la señal de audio acústica 104 y parámetros de intensidad previos de la señal de entrada acústica 104 en base al parámetro de ponderación alfa. En un caso especial del filtro de IIR de primer orden como se muestra con la ecuación 5, una ponderación entre el parámetro de intensidad actual y el parámetro de intensidad previo puede ser ajustada. Mientras más alto es el factor de ponderación alfa, más corta es la longitud de promediación temporal y por consiguiente más alto es el peso del parámetro de intensidad actual en comparación con el peso de los parámetros de intensidad previos. En oras palabras, la longitud de promediación temporal está basada en el parámetro de ponderación a.
El estimador de parámetros controlable 306 puede por ejemplo estar configurado de tal manera que el peso del parámetro de intensidad actual en comparación con el peso de los parámetros de intensidad previos es comparativamente más alto para un intervalo estacionario comparativamente más corto y de tal manera que el peso del parámetro de intensidad actual en comparación con el peso de los parámetros de intensidad previos es comparativamente más bajo para un intervalo estacionario comparativamente más largo. Por consiguiente, la longitud de promediación temporal es comparativamente más corta para un intervalo estacionario comparativamente más corto y es comparativamente más larga para un intervalo estacionario comparativamente más largo.
De acuerdo con modalidades adicionales de la presente invención, un estimador de parámetros controlable de un procesador de audio espacial de acuerdo con una modalidad de la presente invención puede estar configurado para seleccionar una regla de cálculo de parámetros espaciales de una pluralidad de reglas de cálculo de parámetros espaciales para calcular los parámetros espaciales en dependencia de la característica de señal determinada. Una pluralidad de reglas de cálculo de parámetros espaciales puede por ejemplo diferir en parámetros de cálculo o pueden aun ser completamente diferentes entre sí. Como se muestra con las ecuaciones 4 y 5, una promediación temporal puede ser calculada utilizando una promediación por bloques como se muestra en la ecuación 4 o un filtro de paso de bajos como se muestra en la ecuación 5. Una primera regla de cálculo de parámetros espaciales puede por ejemplo corresponder con la promediación por bloques de acuerdo con la ecuación 4 y una segunda regla de cálculo de parámetros puede por ejemplo corresponder con la promediación que usa el filtro de paso de bajo de acuerdo con la ecuación 5. El estimador de parámetros controlable puede escoger las reglas de cálculo de la pluralidad de las reglas de cálculo que provee la estimación más precisa de los parámetros espaciales, en base a la característica de señal determinada.
De acuerdo con modalidades adicionales de la presente invención, el estimador de parámetros controlable puede ser configurado de tal manera que una primera regla de cálculo de parámetros espaciales de la pluralidad de reglas de cálculo de parámetros espaciales es diferente de una segunda regla de cálculo de parámetros espaciales de la pluralidad de reglas de cálculo de parámetros espaciales. La primera regla de cálculo de parámetros espaciales y la segunda regla de cálculo de parámetros espaciales pueden ser seleccionadas de un grupo que consiste de :
promediación en el tiempo sobre una pluralidad de segmentos de tiempo en una sub-banda de frecuencia (por ejemplo, como se muestra en la ecuación 3), promediación de frecuencia sobre una pluralidad de sub-bandas de frecuencia en un segmento de tiempo, promediación de tiempo de frecuencia, promediación especial y sin promediación.
En lo siguiente, este concepto de escoger una regla de cálculo de parámetros espaciales de una pluralidad de reglas de cálculo de parámetros espaciales por un estimador de parámetros controlable será descrito utilizando dos modalidades ejemplares de la presente invención mostradas en las Figura 4 y 5.
Estimación de la dirección de llegada y difusividad variantes en el tiempo dependiendo de doble habla utilizando un codificador espacial de acuerdo con la Figura 4
La Figura 4 muestra un diagrama de bloques esquemático de un procesador de audio espacial 400 de acuerdo con una modalidad de la presente invención. La funcionalidad del procesador de audio espacial 400 puede ser similar a la funcionalidad del procesador de audio espacial 100 de acuerdo con la Figura 1. El procesador de audio espacial 400 puede comprender los elementos adicionales descritos en lo siguiente. El procesador de audio espacial 400 comprende un estimador de parámetros controlable 406, la funcionalidad del cual puede ser similar a la funcionalidad del estimador de parámetros controlables 106 de la Figura 1 y que puede comprender los elementos adicionales descritos en lo siguiente. El procesador de audio espacial 400 comprende además un determinar de características de señal 408, la funcionalidad del cual puede ser similar a la funcionalidad del determinador de características de señal de acuerdo con la Figura 1 y que puede comprender los elementos adicionales descritos en lo siguiente.
El estimador de parámetros controlable 406 está configurado para seleccionar una regla de cálculo de parámetros espaciales de una pluralidad de reglas de cálculo de parámetros espaciales para calcular parámetros espaciales 102, en dependencia de una característica de señal determinada 110, que es determinada por el determinador de características de señal 408. En la modalidad ejemplar mostrada en la Figura 4, el determinador de características de señal está configurado para determinar si una señal de entrada acústica 104 comprende componentes de diferentes fuentes de sonido o solamente comprende componentes de una fuente de sonido. En base a esta determinación, el estimador de parámetros controlable 406 puede escoger una primera regla de cálculo de parámetros espaciales 410 para calcular los parámetros espaciales 102. si la señal de entrada acústica 104 solamente comprende componentes de una fuente de sonido y puede escoger una segunda regla de cálculo de parámetros espaciales 412 para calcular los parámetros espaciales 102 si la señal de entrada acústica 104 comprende componentes de una más de una fuente de sonido. La primera regla de cálculo de parámetros espaciales 410 puede por ejemplo comprender una promediación espectral o promediación de frecuencia sobre una pluralidad de sub-bandas de frecuencia y la segunda regla de cálculo de parámetros espaciales 412 puede no comprender promediación espectral o promediación de frecuencia.
La determinación de si la señal de entrada acústica 104 comprende componentes de más de una fuente de sonido o no puede ser efectuada por un detector de doble habla 414 del determinador de características de señal 408. El estimador de parámetros 406 puede por ejemplo estar configurado para proveer un parámetro de difusividad ? (k, n) de la señal de entrada acústica 104 en el dominio de STFT para una sub-banda de frecuencia k y un bloque de tiempo n.
En otras palabras, el procesador de audio espacial 400 muestra un concepto para mejorar la estimación de difusividad en la codificación de audio direccional al tomar en cuenta situaciones de doble habla.
De otra manera, en otras palabras, el determinador de características de señal 408 está configurado para determinar si la señal de entrada acústica 104 comprende componentes de diferentes fuentes de sonido al mismo tiempo. EL estimador de parámetros controlable 406 está configurado para seleccionar de acuerdo con el resultado de la determinación de características de señal una regla de cálculo de parámetros espaciales (por ejemplo, la primera regla de cálculo de parámetros espaciales 410 o la segunda regla de cálculo de parámetros espaciales 412) de la pluralidad de reglas de cálculo de parámetros espaciales, para calcular los parámetros espaciales 102 (por ejemplo, para calcular el parámetro de difusividad ? (k, n) ) . La primera regla de cálculo de parámetros espaciales 410 es escogida cuando la señal de entrada acústica 104 comprende componentes de a lo máximo una fuente de sonido y la segunda regla de cálculo de parámetros espaciales de la pluralidad de reglas de cálculo de parámetros espaciales es escogida cuando la señal de entrada acústica 104 comprende componentes de más de una fuente de sonido al mismo tiempo. La primera regla de cálculo de parámetros espaciales 410 incluye una promediación de frecuencia (por ejemplo, de parámetro de intensidad Ia (k, n) ) de la señal de entrada acústica 104 sobre una pluralidad de sub-bandas de frecuencia. La segunda regla de cálculo de parámetros espaciales 412 no incluye promediación de frecuencia.
En el ejemplo mostrado en la Figura 4, la estimación del parámetro de difusividad ? (k, n) y/o parámetro de dirección (de llegada) f (k, n) en el análisis de codificación de audio direccional es mejorada al ajustar los estimadores correspondiente dependiendo de situaciones de doble habla. Se ha encontrado que el cálculo de difusividad de la ecuación 2 puede ser realizado en la práctica mediante promediación del vector de intensidad activo Ia (k, n) sobre sub-bandas de frecuencia k o al combinar una promediación temporal y promediación espectral. Sin embargo, la promediación espectral no es apropiada si se requieren valores estimativos de difusividad independientes para las diferentes sub-bandas de frecuencia, como es el caso en una llamada situación de doble habla, en donde múltiples fuentes de sonido (por ejemplo, usuarios que hablan) están activos al mismo tiempo. Por consiguiente, tradieionalmente (como en el codificador de audio direccional mostrado en la Figura 2) la promediación espectral no es empleada, ya que el modelo general de las señales de entrada acústicas siempre supone situaciones de doble habla. Se ha encontrado que esta suposición de modelo no es óptima en el caso de situaciones de una sola habla, debido a que se ha encontrado que en situaciones de una sola habla, la promediación espectral puede mejorar la exactitud de estimación de parámetros.
El nuevo procedimiento propuesto, como se muestra en la Figura 4, escoge la estrategia de estimación de parámetros óptima (la regla de cálculo de parámetros espaciales óptima) al seleccionar el modelo básico para la señal de entrada acústica 104 o para las señales de entrada acústicas. En otras palabras, la Figura 4 muestra una aplicación de una modalidad de la presente invención para mejorar la estimación de difusividad dependiendo de situaciones de doble habla: Primero el detector de doble habla 414 es empleado que determina de la señal de entrada acústica 104 o las señales de entrada acústicas si está presente doble habla en la situación actual o no. Si no se decide para un estimador de parámetros (o en otras palabras, el estimador de parámetros controlable 406 escoge una regla de cálculo de parámetros espaciales) que calcula la difusividad (parámetros) ? (k, n) al aproximar la ecuación 2 al utilizar la promediación espectral (frecuencia) y temporal del vector de intensidad activo Ia (k, n) , esto es:
De otra manera, si existe doble habla, un estimador es escogido (o en otras palabras, el estimador de parámetros controlable 406 escoge una regla de cálculo de parámetros espaciales) que usa promediación temporal solamente, como en la ecuación 3. Una idea similar puede ser aplicada a la estimación de dirección: en el caso de situaciones de una sola habla, pero solamente en este caso, la estimación de dirección f (k, n) puede ser mejorada mediante una promediación espectral de los resultados sobre varias o todas la sub-bandas de frecuencia k, esto es:
^(k, n) = f(?) =<(p{ , n) >k ,(11)
De acuerdo con algunas modalidades de la presente invención, es también concebible aplicar la promediación (espectral) sobre partes del espectro y no todo el ancho de banda necesariamente.
Para efectuar la promediación temporal y espectral, el estimador de parámetros controlable 406 puede determinar el vector de intensidad activo Ia (k, n) , por ejemplo en el dominio de STFR para cada sub-banda k y cada segmento de tiempo n, por ejemplo utilizando un análisis energético, por ejemplo al emplear un analizador enérgico 416 del estimador de parámetros controlable 406.
En otras palabras, el estimador de parámetros 406 puede estar configurado para determinar un parámetro de difusividad actual ? (k, n) para una sub-banda de frecuencia k y un segmento de tiempo actual n de la señal de entrada acústica 104 en base a la promediación espectral y temporal de los parámetros de intensidad activos determinados Ia (k, n) de la señal de entrada acústica 104 incluida en la primera regla de cálculo de parámetros espaciales 410 o basada en solamente la promediación temporal de los vectores de intensidad activos determinado Ia (k, n) en dependencia de la característica de señal determinada.
En lo siguiente, otra modalidad ejemplar de la presente invención será descrita que esta también basada en el concepto de escoger una regla de cálculo de parámetros espaciales de ajuste para mejorar el cálculo de los parámetros espaciales de la señal de entrada acústica utilizando un procesador de audio espacial 500 mostrado en la Figura 5, basado en la tonalidad de la señal de entrada acústica.
Estimación de parámetros dependiente de la tonalidad utilizando un procesador espacial de acuerdo con la Figura 5
La Figura 5 muestra un diagrama de bloques esquemático de un procesador de audio espacial 500 de acuerdo con una modalidad de la presente invención. La funcionalidad del procesador de audio espacial 500 puede ser similar a la funcionalidad del procesador de audio espacial 100 de acuerdo con la Figura 1. El procesador de audio espacial 500 puede comprender además los elementos adicionales descritos en lo siguiente. El procesador de audio espacial 500 comprende un estimador de parámetros controlables 506 y un determinador de características de señal 508. La funcionalidad del estimador de parámetros controlable 506 puede ser similar a la funcionalidad del estimador de parámetros controlable 106 de acuerdo con la Figura 1, el estimador de parámetros controlable 506 puede comprender los elementos adicionales descritos en lo siguiente. La funcionalidad del determinador de características de señal 508 puede ser similar a la funcionalidad del determinador de características de señal 108 de acuerdo con la Figura 1. El determinador de características de señal 508 puede comprender los elementos adicionales descritos en lo siguiente.
El procesador de audio espacial 500 difiere del procesador de audio espacial 400 en el hecho de que el cálculo de los parámetros espaciales 102 es modificado en base a la tonalidad determinada de la señal de entrada acústica 104. El determinador de características de señal 508 puede determinar la tonalidad de señal de entrada acústica 104 y el estimador de parámetros controlable 506 puede escoger, en base a la tonalidad determinada de la señal de entrada acústica 104, una regla de cálculo de parámetros espaciales de una pluralidad de reglas de cálculo de parámetros espaciales para calcular los parámetros espaciales 102.
En otras palabras, el procesador de audio espacial 500 muestra un concepto para mejorar la estimación en parámetros de codificación de audio direccional al considerar la tonalidad de la señal de entrada acústica 104 o de las señales de entrada acústicas.
El determinador de características de señal 508 puede determinar la tonalidad de la señal de entrada acústica utilizando una estimación de tonalidad, por ejemplo, utilizando el estimador de tonalidad 510 del determinador de características de señal 508. El . determinador de características de señal 508 puede proveer por consiguiente la tonalidad de la señal de entrada acústica 104 o una información correspondiente a la tonalidad de la señal de entrada acústica 104 como la característica de señal determinada 110 de la señal de entrada acústica 104.
El estimador de parámetros controlable 506 puede estar configurado para seleccionar, de acuerdo con un resultado de la determinación de características de señal (de la estimación de tonalidad) una regla de cálculo de parámetros espaciales de la pluralidad de reglas de cálculo de parámetros espaciales para calcular los parámetros espaciales 102, de tal manera que una primera regla de cálculo de parámetros espaciales de la pluralidad de reglas de cálculo de parámetros espaciales es escogida cuando la tonalidad de la señal de entrada acústica 10 está debajo de un nivel de umbral de tonalidad dado y de tal manera que una segunda regla de cálculo de parámetros espaciales de la pluralidad de reglas de cálculo de parámetros espaciales es escogida cuando la tonalidad de la señal de entrada acústica 104 está por encima de un nivel de umbral de tonalidad dado. Similar al estimador de parámetros controlables 406 de acuerdo con la Figura 4, la primera regla de cálculo de parámetros espaciales puede incluir una promediación de frecuencia y la segunda regla de cálculo de parámetros espaciales puede no incluir promediación de frecuencia.
En general, la tonalidad de una señal acústica provee información de si la señal tiene o no un espectro de .banda ancha. Una alta tonalidad indica que el espectro de señal contiene solamente unas pocas frecuencias con alta energía. En contraste, la baja tonalidad indica señales de banda amplia, esto es, señales en donde energía similar está presente en un intervalo de frecuencia grande.
Esta información en la tonalidad de la señal de entrada acústica (de la tonalidad de la señal de entrada acústica 104) puede ser aprovechada para mejorar, por ejemplo la estimación de parámetros de codificación de audio direccional. Con referencia al diagrama de bloques esquemático mostrado en la Figura 5, de la señal de entrada acústica 104 o la señales de entrada acústicas, primero la tonalidad es determinada (por ejemplo, como se explica en S. Molla y B. Torresani: Determining Local Transientness of Audio Signáis, IEEE Signal Processing Letters, Vol . 11, No. 7, Julio 2007) de la entrada utilizando el detector de tonalidad o estimador de tonalidad 510. La información en cuanto a la tonalidad (la característica de señal determinada 110) controla la estimación de los parámetros de codificación de audio direccionales (de los parámetros de audio espaciales 102) . Una salida del estimador de parámetros controlables 506 son los parámetros espaciales 102 con exactitud incrementada en comparación con el método tradicional con el codificador de audio direccional de acuerdo con la Figura 2.
La estimación de la difusividad ? (k, n) puede ganar del conocimiento de la tonalidad de señal de entrada como sigue: el cálculo de la difusividad ? (k, n) requiere un proceso de promediación como se muestra en la ecuación 3. Esta promediación es tradicionalmente llevada a cabo solo a lo largo del tiempo n. particularmente en campos de sonido difuso, una estimación exacta de la difusividad es solamente posible cuando la promediación es suficientemente larga. Una promediación temporal larga sin embargo usualmente no es posible debido al intervalo estacionario corto de las señales de entrada acústicas. Para mejorar la estimación de difusividad, se puede combinar la promediación temporal con una promediación espectral sobre las bandas de frecuencia k, esto
Sin embargo, este método puede requerir señales de banda amplia en donde la difusividad es similar para diferentes de frecuencia. En el caso de señales tonales, en donde solamente pocas frecuencias poseen energía significativa, la verdadera difusividad del campo de sonido puede variar fuertemente a lo largo de las bandas de frecuencia k. Esto significa que cuando el detector de tonalidad (el estimador de tonalidad 510 del determinador de características de señal 508) indica una alta tonalidad de la señal acústica 104, entonces la promediación espectral es evitada.
En otras palabras, el estimador de parámetros controlables 506 está configurado para derivar los parámetros espaciales 102, por ejemplo un parámetro de difusividad ? (k, n) por ejemplo en el dominio de STFT para una sub-banda de frecuencia k y un segmento de tiempo n en base a promediación temporal y espectral de los parámetros de intensidad Ia(k, n) de la señal de entrada acústica 104 si la tonalidad determinada de la señal acústica 104 es comparativamente pequeña y proveer los parámetros espaciales 102, por ejemplo el parámetro de difusividad ? (k, n) basado en solamente una promediación temporal y no promediación espectral de los parámetros de intensidad Ia (k, n) de la de señal entrada acústica 104 si la tonalidad determinada de la señal de de entrada acústica 104 es comparativamente alta.
La misma idea puede ser aplicada a la estimación del parámetro de dirección (de llegada) f (k, n) para mejorar la proporción de la señal a ruido de los resultados (de los parámetros espaciales determinados 102). En otras palabras, el estimador de parámetros controlable 506 puede estar configurado, para determinar el parámetro de dirección de llegada cp (k, n) en base a la promediación espectral si la tonalidad determinada de la señal de entrada acústica 104 es comparativamente pequeña y para derivar el parámetro de dirección de llegada cp (k, n) sin efectuar una promediación espectral si la tonalidad ya es comparativamente alta.
Esta idea de mejorar la proporción de mejorar la señal a ruido m3diante promediación espectral del parámetro de dirección de llegada f (k, n) será descrita en lo siguiente en más detalle utilizando otra modalidad de la presente invención .
La promediación espectral puede ser aplicada a la señal de entrada acústica 104 o las señales de entrada acústicas al a intensidad de señal activo o directamente al parámetro de dirección (de llegada) f (k, n) .
Para la persona experimentada en el arte es claro que el procesador de audio espacial 500 puede también ser aplicado al análisis de micrófono de audio espacial de manera similar con la diferencia de que ahora los operadores de esperanza en la ecuación 5a y 5b son aproximados al considerar una promediación espectral en el caso en donde ninguna doble habla está presente o en el caso de una baja tonalidad.
En lo siguiente, otras dos modalidades de la presente invención serán explicadas, que efectúan una estimación de dirección dependiente de la proporción de señal a ruido para mejorar el cálculo de los parámetros espaciales.
Estimación de dirección dependiente de la proporción de señal a ruido utilizando un procesador de audio espacial de acuerdo con la Figura 6
La Figura 6 muestra un diagrama de bloques esquemático del procesador de audio espacial 600. El procesador de audio espacial 600 está configurado para efectuar la estimación de dirección dependiente de la producción de ruido mencionada anteriormente .
La funcionalidad del procesador de audio espacial 600 puede ser similar a la funcionalidad del procesador de audio espacial 100 de acuerdo con la Figura 1. El procesador de audio espacial 600 puede comprender los elementos adicionales descritos en lo siguiente. El procesador de audio espacial 600 comprende un estimador de parámetros controlable 606 y un determinador de características de señal 608. La funcionalidad del estimador de parámetros controlable 606 puede ser similar a la funcionalidad del estimador de parámetros controlable 106 de acuerdo con la Figura 1, el estimador de parámetros controlable 606 puede comprender los elementos adicionales descritos en lo siguiente. La funcionalidad del determinador de características de señal 608 puede ser similar a la funcionalidad del determinador de características de señal 108 de acuerdo con la Figura 1 y el determinador de características de señal 608 puede comprender los elementos adicionales descritos en lo siguiente.
El determinador de características de señal 608 puede estar configurado para determinar la proporción de señal a ruido (SNR) de una señal de entrada acústica 104 como una característica de señal 110 de la señal de entrada acústica 104. El estimador de parámetros controlable 606 puede estar configurado para proveer una regla de cálculo espacial variable para calcular parámetros espaciales 102 de la señal de entrada acústica 104 en base a la proporción de señal a ruido de la señal de entrada acústica 104.
El estimador de parámetros controlable 606 puede por ejemplo efectuar una promediación temporal para determinar los parámetros espaciales 102 y puede hacer variar la longitud de promediación de la promediación temporal (o un número de elementos usados para la promediación temporal) en dependencia de la proporción de señal a ruido determinado de la señal de entrada acústica 104. Por ejemplo, el estimador de parámetros 606 puede estar configurado para hacer variar la longitud de promediación de la promediación temporal, de tal manera que la longitud de promediación es comparativamente alta para una proporción de señal a ruido comparativamente baja de la señal de entrada acústica 104 y de tal manera que la longitud de promediación es comparativamente baja para una proporción de señal a ruido comparativamente alta de la señal de entrada acústica 104.
El estimador de parámetros 606 puede estar configurado para proveer el parámetro de dirección de llegada f (k, n) como parámetro espacial 602 en base a la promediación temporal mencionada. Como se menciona anteriormente, el parámetro de dirección de llegada cp (k, n) puede ser determinado en el estimador de parámetros controlables 606 (por ejemplo, en un estimador de dirección 610 del estimador de parámetros 606) para cada sub-banda de frecuencia k y segmento de tiempo como la dirección opuesta del vector de intensidad de sonido activo Ia (k, n) . El estimador de parámetros 606 puede comprender por consiguiente un analizador energético 612 para efectuar un análisis energético en la señal de entrada acústica 104 para determinar el vector de intensidad de sonido activo Ia (k, n) por cada sub-banda de frecuencia k y cada segmento de tiempo n. el estimador de dirección 610 puede efectuar la promediación temporal, por ejemplo en el vector de intensidad activo determinado para una sub-banda de frecuencia k sobre una pluralidad de segmentos de tiempo n. en otras palabras, el estimador de dirección 610 puede efectuar una promediación temporal de los parámetros de intensidad Ia (k, n) para una sub-banda de frecuencia k y una pluralidad de segmentos de tiempo (previo) para calcular el parámetro de dirección de llegada f (k, n) para una sub-banda de frecuencia k y un segmento de tiempo n. De acuerdo con modalidades adicionales de la presente invención, estimador de dirección 610 puede también (por ejemplo, en lugar de una promediación temporal de los parámetros de intensidad Ia(k, n) ) efectuar la promediacíón temporal en una pluralidad de parámetros de dirección de llegada determinados f (k, n) para una sub-banda. de frecuencia k y una. pluralidad de segmentos de tiempo (previos) . La longitud de promediación de la promediación temporal corresponde por consiguiente con el número de parámetros de intensidad o el número de parámetros de dirección de llegada usados para efectuar la promediación temporal. En otras palabras, el estimador de parámetros 606 puede estar configurado para aplicar la promediación temporal a un subconjunto de parámetros de intensidad Ia(4k, n) para una pluralidad de segmentos de tiempo y una su -banda de frecuencia k o a un subconjunto de parámetros de dirección de llegada f (k, n) para una pluralidad de segmentos de tiempo y una sub-banda de frecuencia k. El número de parámetros de intensidad en el subconjunto de parámetros de intensidad o el número de parámetros de dirección de llegada en el subconjunto de parámetros de dirección de llegada usados para la promediación temporal corresponde con la longitud de promediación de la promediación temporal. El estimador de parámetros controlable 606 es configurado para ajustar el número de parámetros de intensidad o el número de parámetros de dirección de llegada en el subconjunto usado para calcular la promediación temporal, de tal manera que el número de parámetros de intensidad en el subconjunto de parámetros de intensidad o el número de parámetros de dirección de llegada en el subconjunto de parámetros de dirección de llegada es comparativamente bajo para una proporción de señal a ruido comparativamente alta de la señal de entrada acústica 104 y de tal manera que el número de parámetros de intensidad o el número de parámetros de dirección de llegada es comparativamente alto para una proporción de señal a ruido comparativamente baja de la señal de entrada acústica 104.
En otras palabras, la modalidad de la presente invención provee una estimación de dirección de codificación de audio direccional que está basada en la proporción de señal a ruido de las señales de entrada acústicas o de la señal de entrada acústica 104.
En general, la exactitud de la dirección estimada f (k, n) (o del parámetro de dirección de llegada f (k, n) ) del sonido, definido de acuerdo con el codificador de audio direccional 200 de acuerdo con la Figura 2 es influenciada por el ruido que está siempre presente dentro de las señales de entrada acústicas .
El impacto del ruido sobre la exactitud de estimación depende de la SNR, esto es, de la proporción entre la energía de señal del sonido que llega en el arreglo (micrófono) y la energía del ruido. Una SNR pequeña reduce significativamente la exactitud de estimación de la dirección f (k, n) . La señal de ruido es usualmente introducida por el equipo de medición, esto es, los micrófonos y el amplificador del micrófono y conduce a errores en f (k, n) . Se ha encontrado que la dirección f (k, n) está con igual probabilidad ya sea subestimada o sobreestimada, pero la esperanza de f (k, n) es todavía correcta.
Se ha encontrado que al tener varias estimaciones independientes del parámetro de dirección de llegada f (k, n) , por ejemplo, al repetir la medición varias veces, la influencia del ruido puede ser reducida y así la exactitud de la estimación de dirección puede ser incrementada mediante promediación del parámetro de dirección de llegada f (k, n) sobre lasa varias instancias de medición. Efectivamente, el proceso de promediación incrementa la proporción de señal a ruido del estimador. Mientras más pequeña es la proporción a ruido en los micrófonos o en general en los dispositivos de grabación o mientras más alta es la proporción de señal a ruido objetivo deseada en el estimador, más alto es el número de instancias de medición que pueden ser requeridas en el proceso de promediación.
El codificador espacial 600 mostrado en la Figura 6 efectúa este proceso de promediación en dependencia de la proporción de señal a ruido de la señal de entrada acústica 104. De otra manera, en otras palabras, el procesador de audio espacial 600 muestra un concepto para mejorar la estimación de dirección en codificación de audio direccional al tomar en cuenta la SNR en la entrada acústica o de la señal de entrada acústica 104.
Antes de estimar la dirección f (k, n) con el estimador de dirección 610, la proporción de señal a ruido de la señal de entrada acústica 104 o de las señales de entrada acústicas es determinada con el estimador de proporción de señal a ruido 614 del determinador de características de señal 608. La proporción de señal a ruido puede ser estimada para cada bloque de tiempo n y una banda de frecuencia k, por ejemplo en el dominio de STFT. La información en cuanto a la proporción de señal a ruido real de la señal de entrada acústica 104 es provista como la característica de señal determinada 110 del estimador de proporción de señal a ruido 614 al estimador de dirección 610 que incluye una promediación temporal dependiente de la frecuencia y el tiempo de señales de codificación de audio direccional específicas para mejorar la proporción de señal a ruido. Además, una proporción de señal a ruido objetivo deseada se puede hacer pasar al estimador de dirección 610. La proporción de señal a ruido objetivo deseada puede ser definida externamente, por ejemplo por un usuario. El estimador de dirección 610 puede ajustar la longitud e promediación de la promediación temporal, de tal manera que una proporción de señal a ruido obtenida de la señal de entrada acústica 104 o en la salida del estimador de parámetros controlable 606 (después de la promediación) coincide con la proporción de señal a ruido deseada. De otra manera, en otras palabras, la promediación (en el estimador de dirección 610) se lleva a cabo hasta que se obtiene la proporción de señal a ruido objetivo deseada.
El estimador de dirección 610 puede comparar continuamente la proporción de señal a ruido obtenida de la señal de entrada acústica 104 con la proporción de señal a ruido objetivo y puede efectuar la promediación hasta que se obtiene la proporción de señal a ruido deseada. Utilizando este concepto, la proporción de señal a ruido obtenida, la señal de entrada acústica 104 es monitoreada continuamente y la promediación es finalizada, cuando la proporción de señal a ruido obtenida de la señal de entrada acústica 104 coincide con la proporción de señal a ruido objetivo, así, no hay necesidad de calcular la longitud de promediación por adelantado .
Además, el estimador de dirección 610 puede determinar, en base a la proporción de señal a ruido de la señal de entrada acústica 104 en la entrada del estimador de parámetros controlables 606 , la longitud de promediación para la promediación de la proporción de señal a ruido de la señal de entrada acústica 104, de tal manera que la proporción de señal a ruido obtenida de la señal de entrada acústica 104 en la salida de estimador de parámetros controlables 606 coincide con la proporción de señal a ruido objetivo. Así, utilizando este concepto, la proporción de señal a ruido obtenida de la señal de entrada acústica 104 no es monitoreada continuamente .
Un resultado generado por los dos conceptos para el estimador de dirección 610 descrito anteriormente es el mismo: durante la estimación de los parámetros espaciales 102, se puede obtener la precisión de los parámetros espaciales 102, como si la señal de entrada acústica 104 tuviera la proporción de señal a ruido objetivo, aunque la proporción de señal a ruido actual de la señal de entrada acústica 104 (en la entrada del estimador de parámetros controlables 606) es peor.
Mientras más pequeña es la proporción de señal a ruido de la señal de entrada acústica 104 en comparación con la proporción de señal a ruido objetivo, más larga es la promediación temporal. Una salida del estimador de dirección 610, por ejemplo es un valor estimativo f (k, n) esto es, en parámetros de dirección de llegada cp (k, n) con exactitud incrementada. Como se menciona anteriormente, diferentes posibilidades para la promediación de la señales de codificación de audio direccionales existen: promediación del vector de intensidad del sonido activo Ia(k, n) para una sub-banda de frecuencia k y una pluralidad de segmentos de tiempo provistos en la ecuación 1 o promediación directamente de la dirección estimada f (k, n ) (el parámetro de dirección de llegada cp (k, n) ) definido ya antes como la dirección opuesta del vector de intensidad de salida activo a lo largo del tiempo.
El procesador de audio espacial 600 puede también ser aplicado al análisis de dirección de micrófono de audio espacial de manera similar. La exactitud de la estimación de dirección puede ser incrementada al promediar resultados sobre varias instancias de medición. Esto significa que similar a DirAC en la Figura 6, el estimador de SAM es mejorado al terminar primero la SNR de la (s) señal (es) de entrada acústica (s) 104. La información en cuanto a la SNR real y la SNR objetivo deseada se hace pasar al estimador de dirección de SAM que incluye una promediación temporal dependiente de la frecuencia y el tiempo de señales de SAM específicas para mejorar la SNR. La promediación es llevada a cabo hasta que se obtiene la SNR objetivo deseada. En efecto, dos señales de SAM pueden ser promediadas, es decir, la dirección estimada f (k, n) o lama PSD y CSD definidas en la ecuación 5a y ecuación 5b. La última estimación posiblemente significa que los operadores de esperanza son aproximados por un proceso de promediación cuya longitud depende de la SNR real y la SNR (objetivo) deseada. La promediación de la dirección estimada f (k, n) es explicada para DirAC de acuerdo con la Figura 7b, pero sigue siendo de la misma manera para SAM.
De acuerdo con una modalidad adicional de la presente invención, que será explicada más tarde utilizando la Figura 8, n lugar de promediar explícitamente las cantidades físicas con estos dos métodos, es posible cambiar a un banco de filtros utilizado, como ya que el bando de filtros puede contener una promediación inherente de las señales de entrada. En lo siguiente, los dos métodos mencionados para promediar las señales de codificación de audio direccional serán explicados en más detalle utilizando las Figuras 7a y 7b. El método alternativo de cambio el banco de filtros con un procesador de audio espacial es mostrado en la Figura 8.
Promediación del vector de densidad de sonido activo en codificación de audio direccional de acuerdo con la Figura 7a
La Figura 7a muestra un diagrama de bloques esquemático de una primera realización posible del estimador de dirección dependiente de la proporción de señal a ruido 610 de la Figura 6. La realización que es mostrada en la Figura 7a está basada en la promediación temporal de la intensidad de sonido acústico o de los parámetros de intensidad de sonido Ia (k, n) por un estimador de dirección 610a. la funcionalidad del estimador de dirección 610a puede ser similar a la funcionalidad del estimador de dirección 610 de la Figura 6, en donde el estimador de dirección 610a puede comprender los elementos adicionales descritos en lo siguiente.
El estimador de dirección 610a está configurado para efectuar una promediación y una estimación de dirección. El estimador de dirección 610a es conectado al analizador energético 612 de la Figura 6, el estimador de dirección 610 con el analizador energético 612 puede constituir un estimador de parámetros controlable 606a, una funcionalidad de la cual es similar a la funcionalidad del estimador de parámetros controlables 606 mostrado en la Figura 6. El estimador de parámetros controlables 606a determina en primer lugar a partir de la señal de entrada acústica 104 o las señales de entrada acústica un vector de intensidad de sonido activo 706 (Ia(k, n) ) en el análisis energético utilizando el analizador energético 612 utilizando la ecuación 1 como se explica anteriormente. En un bloque de . promediación 702 del estimador de dirección 610a que efectúa la promediación de este vector (el vector de intensidad de sonido 706) es promediado a lo largo del tiempo n, independientemente para todas (o por lo menos parte de todas) las bandas de frecuencia o sub-bandas de frecuencia k, que conduce a un vector de intensidad acústica promediado 708 (Iavg(k, n) ) de acuerdo con la siguiente ecuación.
= < Ia(k,n) >„ . (13)
Para llevar a cabo la promediación, el estimador de dirección 610a considera los valores estimativos de intensidad del pasado. Una entrada al bloque de promediación 702 es la proporción de señal a ruido 710 de la entrada acústica 104 o de la señal de entrada acústica 104, que es determinada con el estimador de proporción de señal a ruido 714 mostrado en la Figura 6. La proporción de señal a ruido real 710 de la señal de entrada acústica 104 constituye la característica de señal determinada 110 de la señal de entrada acústica 10 . La proporción de señal a ruido es determinada para cada sub-banda de frecuencia k y cada segmento de tiempo n en el dominio de frecuencia de tiempo corto. Una segunda entrada al bloque de promediación 702 es una proporción de señal a ruido deseada o una proporción de señal a ruido objetivo 712, que debe ser obtenida en una salida del estimador de parámetros controlables 606a, esto es, la proporción de señal a ruido objetivo. La proporción de señal a ruido objetivo 712 es una entrada externa, dada por ejemplo por un usuario. El bloque de promediación 702 promedia el vector de intensidad 706 (Ia (k, n) ) hasta que se obtiene la proporción de señal a ruido objetivo 712. En base al vector de intensidad promediado (acústico) 708 (Iavg(k, n) ) finalmente la dirección cp(k, n) del sonido puede ser calculada utilizando un bloque de estimación de dirección 704 del estimador de dirección 310a que efectúa la estimación de dirección, como se explica anteriormente. El parámetro de dirección de llegada cp (k, n) constituye un parámetro espacial 702 determinado por el estimador de parámetros controlables 606a. el estimador de dirección 610a puede determinar el parámetro de dirección de llegada f (k, n) para cada sub-banda de frecuencia k y segmento de tiempo como la dirección opuesta del vector de intensidad de sonido promediado 708 (IaVg (k, n) ) de la sub-banda de frecuencia correspondiente k y el segmento de tiempo correspondiente n.
•Dependiendo de la proporción de señal a ruido objetivo deseada 712, el estimador de parámetros controlable 610a puede hacer variar la longitud de promediación para la promediación de los parámetros de intensidad de sonido 706 (Ia (k, n) ) de tal manera que la proporción de señal a ruido en la salida del estimador de parámetros controlables 606a coincide (o es igual a) la proporción de señal a ruido objetivo 712. Comúnmente, el estimador de parámetros controlable 610a puede escoger una longitud de promediación comparativamente larga para una diferencia comparativamente alta entre la proporción de señal a ruido real 710 de la señal de entrada acústica 104 y la proporción de señal a ruido objetivo 712. Para una diferencia comparativamente baja entre la proporción de señal a ruido real 710 de la señal de entrada acústica 104 y la proporción de señal a ruido objetivo 712, el estimador de parámetros controlable 610a escogerá una longitud de promediación comparativamente corta.
En otras palabras, el estimador de dirección 606a está basado en la promediación de la intensidad acústica de los parámetros de intensidad acústica.
Promediación del parámetro de dirección de codificación de audio direccional directamente de acuerdo con la Figura 7b
La Figura 7b muestra un diagrama de bloques esquemático de un estimador de parámetros controlables 606b, la funcionalidad del cual puede ser similar a la funcionalidad del estimador de parámetros controlables 606 mostrado en la Figura 6. El estimador de parámetros controlable 606b comprende el analizador energético 612 y un estimador de dirección 610b configurado para efectuar una estimación de dirección y una promediación. El estimador de dirección 610b difiere del estimador de dirección 610a en que en primer lugar efectúa una estimación de dirección para determinar el parámetro de dirección de llegada 718 (f (k, n) ) para cada sub-banda de frecuencia k y cada segmento de tiempo n y en segundo lugar efectúa la promediación del parámetro de dirección de llegada determinado 718 para determinar un parámetro de dirección de llegada (pprom (k, n) promediado para cada sub-banda de frecuencia k y cada segmento de tiempo n. el parámetro de dirección de llegada promediado (cpprom (k, n) ) constituye un parámetro espacial 102 determinado por el estimador de parámetros controlable 606b.
En otras palabras, la Figura 7b muestra otra realización posible del estimador de dirección dependiente de la proporción de señal a ruido 610, que es mostrado en la Figura. 6. La realización, que es mostrada en la Figura 7b, está basada en la promediación temporal de la dirección estimada (el parámetro de dirección de llegada 718 (f (k, n) ) ) que puede ser obtenida con un procedimiento de codificación de audio convencional, por ejemplo para cada sub-banda de frecuencia k y cada segmento de tiempo n como la dirección opuesta del vector de intensidad del sonido activo 706 (Ia (k, n) .
De la entrada acústica o la señal de entrada acústica 104 el análisis energético es efectuado utilizando el analizador energético 612 y luego la dirección de sonido (el parámetro de dirección de llegada 718 (cp (k, n) ) ) es determinada en un bloque de estimación de dirección 714 del estimador de dirección 710b que efectúa la estimación de dirección, por ejemplo con un método de codificación de audio direccional convencional explicado anteriormente. Luego, en un bloque de promediación 716 del estimador de dirección 710b, una promediación temporal es aplicada sobre ' esta dirección (sobre el parámetro de dirección de llegada 718 (f (k, n) ) ) . Como se explica anteriormente, la promediación es llevada a cabo a lo largo del tiempo y para todas (o para por lo menos parte de todas) las bandas de frecuencia o sub-bandas de frecuencia k, que produce la dirección promediada (f?G?p> (k, n) ) :
<Pprom (k, n) = < f (k, n) >n. (14)
La dirección promediada (pprom (k, n) para cada sub-banda de frecuencia k y cada segmento de tiempo n constituye un parámetro espacial 102 determinado por el estimador de parámetros comparables 606b.
Como se describe anteriormente, las entradas al bloque de promediación 716 son la proporción de señal a ruido real 710 de la entrada acústica o de la señal de entrada acústica 104, también como la proporción de señal a ruido objetivo 712, que será obtenida en la salida del estimador de parámetros controlable 606b. La proporción de señal a ruido real 710 es determinada para cada sub-banda de frecuencia y cada segmento de tiempo n, por ejemplo en el dominio de SFTF. La promediación 716 es llevada a cabo en un número suficiente de bloquees de tiempo (o segmentos de tiempo) hasta que se obtiene la proporción de señal a ruido 712. El resultado final es la dirección promediada temporal (ppr0m (k, n) con exactitud incrementada.
Para resumir en breve, el determinador de características de señal 708 está configurado para proveer la proporción de señal a ruido 710 de la señal de entrada acústica 104 como una pluralidad de parámetros de proporción de señal a ruido para una sub-banda de frecuencia k y un segmento de tiempo n, de la señal de entrada acústica 104. Los estimadores de parámetros controlables 606a, 606b están configurados para recibir la proporción de señal a ruido objetivo 712 como una pluralidad de parámetros de proporción de señal a ruido objetivo para una sub-banda dé frecuencia k y un segmento de tiempo n. Los estimadores de parámetros controlables 606a, 606b . están configurados además para derivar la longitud de promediación de la promediación temporal de acuerdo con un parámetro de proporción de señal a ruido actual de la señal de entrada acústica de tal manera que un parámetro de proporción de señal a ruido actual del parámetro de dirección de llegada actual (promediado cpprom (k, n) coincide con el parámetro de proporción de señal a ruido objetivo actual.
Los estimadores de parámetros controlables 606a, 606b están configurados para derivar los parámetros de intensidad Ia(k, n) para cada sub-banda de frecuencia k y cada segmento de tiempo n de la señal de entrada acústica 104. Además, los estimadores de parámetros controlables 606a, 606b están configurados para derivar los parámetros de dirección de llegada f (k, n) para cada sub-banda de frecuencia y cada segmento de tiempo n de la señal de entrada acústica 104 en base de los parámetros de intensidad Ia (k, n) de la señal de audio acústica determinado por los estimadores de parámetros controlables 606a, 606b. Los estimadores de parámetros controlables 606a, 606b están configurados además para derivar el parámetro de dirección de llegada actual f (k, n) para una sub-banda de frecuencia actual y un segmento de tiempo actual en base a la promediacióri temporal de por lo menos un subconjunto de parámetros de intensidad derivados de la señal de entrada acústica 104 o basados en la promediación temporal de por lo menos un subconjunto de parámetros de dirección de llegada derivados.
Los estimadores de parámetros controlables 606a, 606b están configurados para derivar los parámetros de intensidad Ia (k, n) para cada sub-banda de frecuencia k y cada segmento de tiempo n, en el dominio de STFT, además, los estimadores de parámetros controlables 606a, 606b están configurados para derivar el parámetro de dirección de llegada f (k, n) para cada sub-banda de frecuencia k y cada segmento de tiempo n, por ejemplo en el dominio de STFT. El estimador de parámetros controlables 606a está configurado para escoger el subconjunto de parámetros de intensidad para efectuar la promediación temporal, de tal manera que un subcanal de frecuencia asociado con todos los parámetros de intensidad del subconjunto de parámetros de intensidad es igual a una sub-banda de frecuencia actual asociada con el parámetro de dirección de llegada actual. El parámetro controlable 606b está configurado para escoger el subconjunto de parámetros de dirección de llegada para efectuar la promediación temporal 716, de tal manera que un subcanal de frecuencia asociado con todos los parámetros de dirección de llegada del subconjunto de parámetros de dirección de llegada es igual al subcanal de frecuencia actual asociado con el parámetro de dirección de llegada actual.
Además, el estimador de parámetros controlable 606a está configurado para escoger el subconjunto de parámetros de intensidad, de tal manera que los segmentos de tiempos asociados con los parámetros de intensidad del subconjunto de parámetros de intensidad son adyacentes en el tiempo. El estimador de parámetros controlables 606b está configurado para escoger el subconjunto de parámetros de dirección de llegada, de tal manera que los segmentos de tiempo asociados con los parámetros de dirección de llegada del subconjunto de parámetros de dirección de llegada son adyacentes en el tiempo. El número de parámetros de intensidad en el subconjunto de parámetros de intensidad o el número de parámetros de dirección de llegada en el subconjunto de parámetros de dirección de llegada corresponde con la longitud de promediación de la promediación temporal . El estimador de parámetros controlable 606a está configurado para derivar el número de parámetros de intensidad en el subconjunto de parámetros de intensidad para efectuar la promediación temporal en dependencia de la diferencia entre la proporción de señal a ruido actual de la señal acústica 104 y la proporción de señal a ruido objetivo actual. El estimador de parámetros controlable 606b está configurado para derivar el número de parámetros de dirección de llegada en el subconjunto de parámetros de dirección de llegada para efectuar la promediación temporal en base a la diferencia entre la proporción de señal a ruido actual de la señal de entrada acústica 104 y la proporción de señal a ruido objetivo actual.
En otras palabras el estimador de dirección 606b está basado en la promediación de la dirección 718 f (k, n) obtenida con un procedimiento de codificación de audio direccional convencional.
En lo siguiente, otra realización de un procesador de audio espacial será descrita, que también efectúa una estimación de parámetros dependiente de la proporción de señal a ruido.
Uso de un campo de filtros con una resolución espectro-temporal apropiada en codificación de audio direccional utilizando un codificador de audio de acuerdo con la Figura 8
La Figura 8 muestra un procesador de audio espacial 800 que comprende un. estimador de parámetros controlable 806 y un determinador de características de señal 808. La funcionalidad del codificador de audio direccional 800 puede ser similar a la funcionalidad del codificador de audio direccional 100. El codificador de audio direccional 800 puede comprender los elementos adicionales descritos en lo siguiente. La funcionalidad del estimador de parámetros controlable 806 puede ser similar a la funcionalidad del estimador de parámetros controlable 106 y la funcionalidad del determinador de características de señal 808 puede ser similar a la funcionalidad del determinador de características de señal 108. El estimador de parámetros controlable 806 y el determinador de características de señal 808 pueden comprender los elementos adicionales descritos en lo siguiente.
El determinador de características de señal 808 difiere del determinador de características de señal 608 en que determina la proporción de señal a ruido 810 de la señal de entrada acústica 104, que es también denotada como proporción de señal a ruido de entrada, en el dominio de tiempo y no en el dominio de STFT. La proporción de señal a ruido 810 de la señal de entrada acústica 104 constituye una característica de señal determinada por el determinador de características de señal 808. El estimador de parámetros controlable 806 difiere del estimador de parámetros controlable 606 mostrado en la Figura 6 en que comprende un estimador de formato B 812 que comprende un banco e filtros 814 y un bloque de cálculo de formato B 816, que está configurado para transformar la señal de entrada acústica 104 en el dominio de tiempo a la representación de formato B, por ejemplo en el dominio de STFT.
Además, el estimador de formato B 812 está configurado para hacer variar la determinación de formato B de la señal de entrada acústica 104 en base a las características de señal determinadas por el determinador de características de señal 808 o en otras palabras en dependencia de la proporción de señal a ruido 810 de la señal de entrada acústica 104 en el dominio de tiempo.
Una salida del estimador de formato B 812 es una representación de formato 818 de la señal de entrada acústica 104. La representación de formato B 818 comprende un componente omnidireccional , por ejemplo el vector de presión de sonido mencionado anteriormente P (k, n) y un componentes direccional, por ejemplo, el vector de velocidad de sonido mencionado anteriormente U (k, n) para cada sub-banda de frecuencia k y cada segmento de tiempo n.
Un estimador de dirección 820 del estimador de parámetros controlable 806 deriva un parámetro de dirección de llegada f (k, n) de la señal de entrada acústica 104 para cada sub-banda de frecuencia k y cada segmento de tiempo n. el parámetro de dirección de llegada f (k, n) constituye un parámetro espacial 102 determinado por el estimador de parámetros controlable 806. El estimador de dirección 820 puede efectuar la estimación de dirección al determinar un parámetro de intensidad activo Ia(k, n) para cada sub-banda de frecuencia k y cada segmento de tiempo n y al derivar los parámetros de dirección de llegada f (k, n) en base a los parámetros de intensidad activos Ia(k, n) .
El banco de filtros 814 del estimador de formato B 812 está configurado para recibir la proporción de señal a ruido real 810 de la señal de entrada acústica 104 y para recibir una proporción de señal a ruido objetivo 822. El estimador de parámetros controlable 806 está configurado para hacer variar la longitud del bloque del banco de filtro 814 dependiendo de la diferencia entre la proporción de señal a ruido real 810 de la señal de entrada acústica 104 y la proporción de señal a ruido objetivo 822. Una salida de banco de filtros 814 es la representación de frecuencia (por ejemplo, en el dominio de STFT) de la señal de entrada acústica 104, en base a la cual el bloque de cálculo de formato B 816 calcula la representación de formato 818 de la señal de entrada acústica 104. En otras palabras, la conversión de la señal de entrada acústica 104 del dominio de tiempo a la representación de frecuencia puede ser efectuada por el banco de filtros 814 en dependencia de la proporción de señal a ruido real determinada 810 de la señal de entrada acústica 104 y en dependencia de la proporción de señal a ruido objetivo 822. En breve, el cálculo de formato B puede ser efectuado por el bloque de formato B 816 en dependencia de la proporción de señal a ruido real determinado 810 y la proporción de señal a ruido objetivo 822.
En otras palabras, el determinador de características de señal 808 está configurado para determinar la proporción de señal a ruido 810 de la señal de entrada acústica 104 en el dominio de tiempo. El estimador de parámetros controlable 806 comprende el banco de filtros 814 para convertir la señal de entrada acústica 804 del dominio de tiempo a la representación de frecuencia. El estimador de parámetros controlable 806 está configurado para hacer variar la longitud de bloques del banco de filtros 814 de acuerdo con la proporción de señal a ruido determinada 810 de la señal de entrada acústica 104. El estimador de parámetros controlable 806 está configurado para recibir la proporción de señal a ruido objetivo 812 y para hacer variar la longitud del bloque del banco de filtros 814, de tal manera que la proporción de señal a ruido d la señal de entrada acústica 104 en el dominio de frecuencia coincide con la proporción de señal a ruido objetivo 824 o en otras palabras, de tal manera que la proporción de señal a ruido de la representación de frecuencia 824 de la señal de entrada acústica 104 coincide con la proporción de señal a ruido objetivo 822.
El estimador de parámetros controlable 806 mostrado en la Figura 8 puede también ser entendido como otra realización del estimador de dirección dependiente de la proporción de señal a ruido 610 mostrado en la Figura 6. La realización que es mostrada en la Figura 8 está basada en escoger una resolución temporal espectral asociada del banco de filtros 814. Como se explica anteriormente, la codificación de audio direccional opera en el dominio de STFT. Así, la señales de entrada acústicas o la señal de entrada acústica 104 en el dominio de tiempo, por ejemplo medidas con micrófonos son transformadas utilizando por ejemplo una transformación de Fourier de tiempo corto o cualquier otro banco de filtros. El estimado de formato B 812 provee luego la representación de frecuencia de tiempo corto 818 de la señal de entrada acústica 104 o en otras palabras provee la señal de formato B como se denota por la presión de sonido P (k, n) y el vector de velocidad particular U (k, n) , respectivamente. La aplicación del banco de filtros 814 sobre las señales de entrada del dominio de tiempo acústicas (sobre la señal de entrada acústica 104 en el dominio de tiempo) promedia inherentemente la señal transformada (la representación de frecuencia de tiempo corto 824 de la señal de entrada acústica 104), mientras que la longitud de promediación corresponde a la longitud de transformada (o longitud de bloques) del banco de filtros 814. El método de promediación descrito en conjunción con el procesador de audio espacial 800 aprovecha esta promediación temporal inherente de la señales de entrada.
La entrada acústica o la señal de entrada acústica 104 que puede ser medida con los micrófonos, es transformada al dominio de frecuencia de tiempo corto utilizando el banco de filtros 814. La longitud de transformada o longitud de filtro o longitud de bloque es controlada por la proporción de señal a ruido de entrada real 810 de la señal de entrada acústica 104 o de las señales de entrada acústicas y la proporción de señal a ruido objetivo deseadas 822, que debe ser obtenida mediante el proceso de promediación. En otras palabras, se desea efectuar la promediación en el banco de filtros 814, de tal manera que la proporción de señal a ruido de la representación de tiempo-frecuencia 824 de la señal de entrada acústica 104 coincide es igual con la proporción de señal a ruido objetivo 822. La proporción de señal a ruido es determinada a partir de la señal de entrada acústica 104 o las señales de entrada acústicas en el dominio de tiempo. En el caso de una alta proporción de señal a ruido de entrada 810 una longitud de transformada más corta es escogida y viceversa una para proporción de señal a ruido de entrada baja 810, se escoge una longitud de transformada más larga. Como se explica en la sección previa, la proporción de señal a ruido de entrada 810 de la señal de entrada acústica 104 es provista por un estimador de proporción de señal a ruido del determinador de características de señal 808, mientras que la proporción de señal a ruido objetivo 822 puede ser controlada externamente, por ejemplo por un usuario. La salida del banco de filtros 814 y el cálculo de formato B subsecuente efectuado por el bloque de cálculo de formato B 816 son la señales de entrada acústicas 818, por ejemplo en el dominio de STFT, es decir P(k, n) o U (k, n) . Estas señales (la señal de entrada acustica818 en el dominio de STFT) son procesadas adicionalmente, por ejemplo, con el procesamiento de audio direccional convencional en el estimador de dirección 820 para obtener la dirección x para cada sub-banda de frecuencia k y cada segmento de tiempo n.
En otras palabras, el procesador de audio espacial 800 o el estimador de dirección están basados en escoger un banco de filtro apropiado para la señal de entrada acústica 104 o para las señales de entrada acústica.
En breve, el determinador de características de señal 808 está configurado para determinar la proporción de señal a ruido 810 de la señal de entrada acústica 104 en el dominio de tiempo. El estimador de parámetros controlable 806 comprende el banco de filtros 814 configurado para convertir la señal de entrada acústica 104 del dominio de tiempo a la representación de frecuencia. El estimador de parámetros controlable 806 está configurado para hacer variar la longitud de bloque del banco de filtros 814, de acuerdo con la proporción de señal a ruido determinada 810 de la señal de entrada acústica 104. Además, el estimador de parámetros controlable 806 está configurado para recibir la proporción de señal a ruido objetivo 822 y para hacer variar la longitud de bloques del banco de filtros 814, de tal manera que la proporción de señal a ruido de la señal de entrada acústica 824 en la representación de frecuencia coincide con la proporción de señal a ruido objetivo 822.
La estimación de la proporción de señal a ruido efectuada por el estimador de características de señales 608, 808 es un problema bien conocido. En lo siguiente, se describirá una implementación posible de un estimador de la proporción de señal a ruido.
Implementación posible de un estimador de SNR
En lo siguiente, se describirá una implementación posible del estimador de proporción de señal a ruido de entrada 614 en la Figura 600. El estimador de la proporción de señal a ruido descrito en lo siguiente puede ser usado por el estimador de parámetros controlable 606a y el estimador de parámetros controlables 606b mostrado en la Figura 7a y 7b. El estimador de la proporción de señal a ruido estima la proporción de señal a ruido de la señal de entrada acústica 104, por ejemplo en el dominio de STFT. Una implementación en dominio de tiempo (por ejemplo, implementado en el determinador de características de señal 808) puede ser realizada de manera similar.
El estimador de SNR puede esti ar la SNR de las señales de entrada acústicas, por ejemplo en el dominio de STFT para cada bloque de tiempo n y banda de frecuencia k o para señal de dominio de tiempo. La SNR es estimada al calcular la energía de la señal para la bandeja de tiempo- frecuencia considerada. Sea x (k, n) la señal de entrada acústica. La energía de la señal S (k, n) puede ser determinada con
S(k,n) = |x(k;n)j2 (15)
Para obtener la SNR, la proporción entre la energía de la señal y la energía de ruido N (k) es calculada, esto es
SNR«S(k,n)/N(k).
Ya que S (k, n) ya contiene ruido, un estimador de SNR más exacto en el caso de SNR baja es dado por:
SNR - ( S( ) -N(k) ) /N(k). (16)
Se supone que la señal de energía de ruido N (k) es constante a lo largo del tiempo n. se puede determinar para cada k de la entrada acústica. En efecto, es igual a la potencia media de la señal de entrada acústica en el caso de que ningún sonido este presente, esto es durante el silencio. Expresado en términos matemáticos
N (k) = < |x(k, n) | 2>n, x (k, n ) medido durante el silencio (17)
En otras palabras, de acuerdo con algunas modalidades de la presente invención, un determinador de características de señal está configurado para medir una señal de ruido durante una fase silente de la señal de entrada acústica 104 y para calcular la energía N (k) de la señal de ruido. El determinador de características de señal puede estar configurado además para medir una señal activa durante una fase no silente de la señal de entrada acústica 104 y para calcular la energía S (k, n) de la señal activa. El determinador de características de señal puede estar configurado además para calcular la estimador de la proporción de señal a ruido de la entrada señal acústica 104 en base a la potencia calculada N (k) de la señal de ruido y la potencia calculada S (k) de la señal activa.
Este esquema puede también ser aplicado al determinarlo de características de señal 808 con la diferencia de que el determinador de características de señal 808 determina la energía S (t) de la señal activa en el dominio de tiempo y determina la energía N (t) de la señal de ruido en el dominio de tiempo, para obtener la estimador de la proporción · de señal a ruido real de la señal de entrada acústica 104 en el dominio de tiempo.
En otras palabras, los determinadores de características de señal 608, 808 están configurados para medir una señal de ruido durante una fase silente durante la fase de señal de entrada acústica 104 y para calcular la energía N (k) de señal de ruido. Los determinadores de características de señal 606, 808 están configurados para medir una señal activa durante una fase no silente de la señal de entrada acústica 104 y para calcular la energía de la señal activa (S (k, n) ) . Además, los determinadores de características de señal 608, 808 están configurados para determinar la proporción de señal a ruido de la señal de entrada acústica 104 en base a la energía calculada N(k) en base a la señal de ruido y la energía calculada S (k) de la señal activa.
En lo siguiente otra modalidad de la presente invención será descrita que efectúa una estimación de parámetros dependiente de aplausos .
Estimación de parámetros dependiente de aplauso utilizando un procesador de audio espacial de acuerdo con la Figura 9
La Figura 9 muestra un diagrama de bloques esquemático de un procesador de audio espacial 900 de acuerdo con una modalidad de la presente invención. La funcionalidad del procesador de audio espacial 900 puede ser similar a la funcionalidad del procesador de audio espacial 100 y el procesador de audio espacial 900 puede comprender los elementos adicionales descritos en lo siguiente. El procesador de audio espacial 900 comprende un estimador de parámetros controlables 906 y un determinador de características de señal 908. La funcionalidad del estimador de parámetros controlables 906 puede ser similar a la funcionalidad del estimador de parámetros controlables 106 y el estimador de parámetros controlables 906 puede comprender los elementos adicionales descritos en lo siguiente. La funcionalidad del determinador de características de señal 908 puede ser similar a la funcionalidad del determinador de características de señal 108 al determinar de características de señal 908 puede comprender los elementos adicionales descritos en lo siguiente.
El determinador de características de señal 908 está configurado para determinar si la señal de entrada acústica 104 comprende componentes transitorios que corresponden a señales semejantes a aplauso utilizando un detector de aplauso 910.
Las señales semejantes a aplausos definidas en la presente como señales que comprenden una secuencia temporal rápida de transitorios, por ejemplo con diferentes direcciones.
El estimador de parámetros controlable 906 comprende un banco de filtros 912 que está configurado para convertir la señal de entrada acústica 104 del dominio de tiempo a una representación de frecuencia (a un dominio de STFT) en base a una regla de cálculo de conversión. El estimador de parámetros controlable 906 está configurado para escoger la regla de cálculo de conversión para convertir la señal de entrada acústica 104 del dominio de tiempo a la representación de frecuencia de una pluralidad de reglas de cálculo de conversión de acuerdo con el resultado de una determinación de características de señal efectuada por el determinador de características de señal 908. El resultado de la determinación de características de señal constituye la característica de señal determina 110 del determinador de características de señal 908. El estimador de parámetros controlables 906 escoge la regla de cálculo de conversión de una pluralidad de reglas de cálculo de conversión, de tal manera que una primera regla de cálculo de conversión de la pluralidad de reglas de cálculo de conversión es escogida para convertir la señal de entrada acústica 104 del dominio de tiempo a la representación de frecuencia cuando la señal de . entrada acústica comprende componentes correspondientes a aplausos y de tal manera que una segunda regla de cálculo de conversión de la pluralidad de reglas de cálculo de conversión es escogida para convertir la señal de entrada acústica 104 del dominio de tiempo a la representación de frecuencia cuando la señal de entrada acústica 104 no comprende componentes correspondientes a aplausos.
En otras palabras, el estimador de parámetros controlable 906 está configurado para escoger una regla de cálculo de conversión apropiada para convertir la señal de entrada acústica 104 del dominio de tiempo a la representación de frecuencia en dependencia de la detección de aplauso.
En breve, el procesador de audio espacial 900 es mostrado como una modalidad ejemplar de la invención, en donde la descripción paramétrica del campo de sonido es determinada dependiendo de la características de las señales de entrada acústica o la señal de entrada acústica 104. En el caso de micrófonos que capturan el aplauso o la señal de entrada acústica 104 comprende componentes correspondientes a señales semejantes a aplauso,· se usa un procesamiento especial con el fin de incrementar la exactitud de la estimación del parámetro.
El aplauso es caracterizado usualmente por una variación rápida de la dirección de llegada de sonido dentro de un periodo de tiempo muy corto. Además, la señales de sonido capturados contienen principalmente transitorios. Se ha encontrado para un análisis exacto del sonido es ventajoso un sistema que pueda resolver la variación temporal rápida de la dirección de llegada y que pueda conservar el carácter transitorio de los componentes de señal.
Estos objetivos pueden ser obtenidos al utilizar un banco de filtro con alta resolución temporal (por ejemplo, una STFT con transformada corta o longitud de bloque corta) para transformar las señales de entrada de dominio de tiempo acústicas. Cuando se usa tal banco de filtros, la resolución espectral del sistema será reducida. Esto no es problemático para señales de aplauso ya que la DOA del sonido no varía mucho a lo largo de la frecuencia debido a las características transitorias del sonido, sin embargo, se ha encontrado que una resolución espectral pequeña es problemática para otras señales tales como habla en un escenario de doble habla, en donde una cierta resolución espectral es requerida para ser aptos de distinguir entre los parlantes individuales. Se ha encontrado que una estimación de parámetros exacta puede requerir un cambio dependiente de la señal del banco de filtro (o de la transformada correspondiente o longitud correspondiente del banco de filtro) dependiendo de las características de las señales de entrada acústicas o de la señal de entrada acústica 104.
El codificador espacial 900 mostrado en la Figura 9 representa una realización posible para efectuar la conmutación dependiente de la señal del banco de filtro 912 o de escoger la regla de cálculo de conversión de banco de filtro 912. Antes de transformar las señales de entrada o la señal de entrada acústica 104 a la representación de frecuencia (por ejemplo, al dominio de STFT) con el banco de filtro 912, las señales de entrada o la señal de entrada acústica 104 se hace pasar al detector de aplausos 910 del determiriador de características de señal 908. La señal de entrada acústica 104 se hace pasar al detector de aplausos 910 en el dominio de tiempo. El detector de aplausos 910 del determinador de características de señal 908 controla el banco de filtro 912 en base a la característica de señal determinada 110 (que en este caso señala así la señal de entrada acústica 104 contiene componentes correspondientes a señales semejantes a aplauso o" no) . Si el aplauso es detectado en las señales de entrada acústica o en la señal de entrada acústica 104, el estimador de parámetros controlables 900 cambia a un banco de filtros o en otras palabras una regla de cálculo de conversión es escogida en el banco de filtros que es apropiada para el análisis de aplauso. En el caso de que ningún aplauso este presente, un banco de filtros convencional o en otras palabras una regla de cálculo de conversión convencional que puede ser por ejemplo conocido del codificador de audio direccional 200 es usada. Después de transformar la señal de entrada acústica 104 al dominio de STFT (u otra representación de frecuencia) , un procesamiento de codificación de audio direccional convencional puede ser llevado a cabo (utilizando un bloque de cálculo de formato B 914 y un bloque de estimación de parámetros 916 del estimador de parámetros controlable 906). En otras palabras, la determinación de los parámetros de codificación de audio direccionales, que constituyen los parámetros espaciales 102, que son determinados por el procesador de audio espacial 900, puede ser llevado a cabo utilizando el bloque de cálculo de formato B 914 y el bloque de estimación de parámetros 916 como se describe de acuerdo con el codificador de audio direccional 200 mostrado en la Figura 2. Los resultados son por ejemplo los parámetros de codificación de audio direccional, esto es, dirección f (k, n) y difusividad ? (k, m) .
En otras palabras, el procesador de audio espacial 900 provee un concepto en el cual la estimación de los parámetros de codificación de audio direccionales es mejorada al cambiar el banco de filtros en el caso de señales de aplauso o señales semejantes a aplauso.
En breve, el estimador de parámetros controlable 906 está configurado de tal , manera que la primera regla de cálculo de conversión corresponde a una resolución temporal más alta de la señal de entrada acústica en la representación de frecuencia que la segunda regla de cálculo de conversión y de tal manera que la segunda regla de cálculo de conversión corresponde a una resolución espectral más alta de la señal de entrada acústica en la representación de frecuencia que la primera regla de cálculo de conversión.
El detector de aplausos 910 del determinador de características de señal 908 puede determinar por ejemplo si la señal de entrada acústica 104 comprende señales semejantes a aplauso en base a metadatos, por ejemplo generados por el usuario.
El proceso de audio espacial 900 mostrado en la Figura 9 puede también ser aplicado al análisis de SAM de manera similar con la diferencia que ahora el banco de filtros del SAM es controlado por el detector de aplausos 910 del determinador de características de señal 908.
En una modalidad adicional de la presente invención, el estimador de parámetros controlable puede determinar los parámetros espaciales utilizando diferentes estrategias de estimación de parámetros independientes de la característica de señal determinada, de tal manera que para cada estrategia de estimación de parámetros, el estimador de parámetros controlable determina un conjunto de parámetros espaciales de la señal de entrada acústica. El estimador de parámetros controlable puede está configurado además para seleccionar un conjunto de parámetros espaciales de los conjuntos determinados de parámetros espaciales como el parámetro espacial de la señal de entrada acústica y por consiguiente como el resultado del proceso de estimación en dependencia de la característica de señal determinada. Por ejemplo, una primera regla de cálculo de parámetros espaciales variables puede comprender: determinar parámetros espaciales de la señal de entrada acústica para cada estrategia de estimación de parámetros y seleccionar el conjunto de parámetros espaciales determinados con una primera estrategia de estimación de parámetros. Una segunda regla de cálculo de parámetros espaciales variables puede comprender: determinar parámetros espaciales de la señal de entrada acústica para cada estrategia de estimación de parámetros y seleccionar el conjunto de parámetros espaciales determinado con una segunda estrategia de estimación de parámetros.
La Figura 10 muestra un diagrama de flujo de un método 1000 de acuerdo con una modalidad de la presente invención.
El método 1000 para proveer parámetros espaciales en base a una señal de entrada acústica comprende una etapa 1010 para determinar una característica de señal de la señal de entrada acústica.
El método 1000 comprende además una etapa 1020 de modificar una regla de cálculo de parámetros espaciales variables de acuerdo con la característica de señal determinada .
El método 1000 comprende además una etapa 1030 para calcular parámetros espaciales de la señal de entrada acústica de acuerdo con la regla de cálculo de parámetros espaciales variable.
Modalidades de la presente invención son concernientes con el método que controla estrategias de estimación de parámetros en sistemas para representación de sonido espacial basados en características de señales de entrada acústicas, esto es señales de micrófono.
En lo siguiente, algunos aspectos de modalidades de la presente invención serán resumidos.
Por lo menos algunas modalidades de la presente invención están configuradas para recibir señales de audio de multicanal acústicas, esto es señales de micrófono. A partir de las señales de entrada acústica, modalidades de la presente invención pueden determinar las características de señal específicas. En base a las características de señal, modalidades de la presente invención pueden escoger el modelo de señal de mejor ajuste. El modelo de señal puede luego controlar la estrategia de estimación de parámetros. En base a la estrategia de estimación de parámetros controlada o seleccionada, modalidades de la presente invención pueden estimar parámetros espaciales de mejora ajuste para la señal de entrada acústica dada.
La estimación de descripción de campo de sonido paramétrico depende de suposiciones específicas en las señales de entrada acústicas. Sin embargo, esta entrada puede exhibir una varianza temporal significativa y así un modelo invariante en el tiempo es frecuentemente inapropiado. En la codificación paramétrica, este problema puede ser resuelto al identificar a prior las características de señal y luego escoger la estrategia de codificación mejor de una manera variante en el tiempo. Modalidades de la presente invención determinan las características de señal de las señales de entrada acústicas no a priori sino continuamente, por ejemplo por bloques, por ejemplo para una sub-banda de frecuencia y un segmento de tiempo o para un subconjunto de sub-bandas de frecuencia y/o un subconjunto de segmento de tiempo. Modalidades de la presente invención pueden aplicar esta estrategia a extremos frontales acústicos para el procesamiento de audio espacial paramétrico y/o codificación de audio espacial tal como codificación de audio direccional (DirAC) o micrófono de audio espacial (SAM) .
Es una idea de modalidades de la presente invención usar estrategias de procesamiento de datos dependientes de la señal dependientes en el tiempo para la estimación de parámetros en codificación de audio espacial paramétrica basada en señale de micrófono o en otras señales de entrada acústicas .
Modalidades de la presente invención han sido descritas con un enfoque principal sobre la estimación de parámetros en codificación de audio direccional, sin embargo el concepto presentado puede también ser aplicado a otros procedimientos paramétricos, tal como un micrófono de audio espacial.
Modalidades de la presente invención proveen una estimación de parámetros adaptables de señal para sonido espacial basado en señales de entrada acústicas.
Diferentes modalidades de la presente invención han sido descritas. Algunas modalidades de la presente invención efectúan una estimación de parámetros dependiendo de un intervalo estacionario de las señales de entrada. Modalidades adicionales de la presente invención efectúan una estimación de parea metros dependiendo de situaciones de doble habla. Modalidades adicionales de la presente invención efectúan una estimación de parámetros dependiente de una proporción de señal a ruido de las señales de entrada. Modalidades adicionales de la presente invención efectúan una estimación de parámetros basada en la promediación del vector de intensidad de sonido dependiendo de la proporción de señal a ruido de entrada. Modalidades adicionales de la presente invención efectúan la estimación de parámetros basada en la promediación del parámetro de dirección estimado dependiendo de la proporción de señal a ruido de entrada. Modalidades adicionales de la presente invención efectúan la estimación de parámetros al escoger un banco de filtros apropiado o una regla de cálculo de conversión apropiada dependiendo de la proporción de señal a ruido de entrada. Modalidades adicionales de la presente invención efectúan la estimación de parámetros dependiendo de la tonalidad de las señales de entrada acústicas. Modalidades adicionales de la presente invención efectúan la estimación de parámetros dependiente de las señales semejantes a aplauso.
Un procesador de audio espacial puede ser en general un aparato que procesa audio espacial y genera o procesa información paramétrica.
Alternativas de implementación
Aunque algunos aspectos han sido descritos en el contexto de un aparato, es claro que estos aspectos también representan una descripción del método correspondiente en donde un bloque o dispositivo corresponde a una etapa de método o un elemento de una etapa de método. Análogamente, aspectos descritos en el contexto de una etapa de método también representan una descripción de un bloque o ítem o elemento correspondiente de un aparato correspondiente. Algunas o todas las etapas del método pueden ser ejecutadas al (o usando) un aparato de elementos físicos, por ejemplo un microprocesador, una computadora programable o un circuito electrónico. En algunas modalidades, una o más de las etapas de método más importantes pueden ser ejecutadas mediante tal aparato.
Dependiendo de ciertos requerimientos de implementación, modalidades de la invención pueden ser implementadas en elementos físicos o en elementos de programación. La implementación puede ser efectuada utilizando un medio de almacenamiento digital, por ejemplo un disco flexible, un Dvd, un bluy ray, un CD, un ROM, un PROM, un EPROM, un EEPROM o una memoria instantánea, que tiene señales de control que se pueden leer electrónicamente almacenadas en la misma que cooperan (o son aptas de cooperar) con un sistema de computadora programable, de tal manera que el método respectivo es efectuado. Por consiguiente, el medio de almacenamiento digital puede ser leíble por computadora.
Algunas modalidades de acuerdo con la invención comprenden un portador de datos que tiene señales de control que se pueden leer electrónicamente que son aptas de cooperar con un sistema de computadora programable, de tal manera que uno de los métodos descritos en la presente es efectuado.
En general, modalidades de la presente invención pueden ser implementadas como un producto de programa de computadora con un código de programa, el código de programa es operativo para efectuar uno de los métodos cuando el producto de programa de computadora se ejecuta en una computadora. Los códigos de programa pueden por ejemplo ser almacenados en un portador que se puede leer por la máquina.
Otras modalidades comprenden el programa de computadora para efectuar uno de los métodos descritos en la presente, almacenados en un portador que se puede leer por la máquina .
En otras palabras, una modalidad del método de la invención es por consiguiente un programa de computadora que tiene códigos de programa para efectuar uno de los métodos descritos en la presente, cuando el programa de computadora se ejecuta en una computadora.
Una modalidad adicional de los métodos de la invención es por consiguiente un portador de datos (o medio de almacenamiento digital o medio que sé puede leer por computadora) que comprende, registrado sobre el mismo, el programa de computadora para efectuar uno de los métodos descritos en la presente.
Una modalidad adicional del método de la invención es por consiguiente una corriente de datos o una secuencia de señales que representan el programa de computadora para efectuar uno de los métodos descritos en la presente. La corriente de datos o la secuencia de señales puede por ejemplo estar configurada para ser transferida vía una conexión de comunicación de datos, por ejemplo vía internet.
Una modalidad adicional comprende un medio de procesamiento, por ejemplo una computadora o un dispositivo lógico programable configurado para o apto para efectuar uno de los métodos descritos en la presente.
Una modalidad adicional comprende una computadora que tiene instalado en la misma el programa de computadora para efectuar uno de los métodos descritos en la presente.
En algunas modalidades, un dispositivo lógico programable (por ejemplo, un arreglo de compuerta programable en el campo) puede ser usado para efectuar algunas o todas las funcionalidades de los métodos descritos en la presente. En algunas modalidades, un arreglo de compuerta programable en el campo puede cooperar con un microprocesador con el fin de efectuar uno de los métodos descritos en la presente. En general, los métodos son efectuados preferiblemente por cualquier aparato de elementos físicos.
Las modalidades descritas anteriormente son solo ilustrativas para los principios de la presente invención. Se comprenderá que modificaciones y variaciones de los arreglos y los detalles descritos en la presente se harán evidentes para otros experimentados en el arte. Se pretende por consiguiente estar limitados solo por el alcance de las reivindicaciones de patentes pendientes y no por los detalles específicos presentados a manera de descripción y explicación de las modalidades de la presente .
Claims (15)
1. Un procesador de audio espacial para proveer parámetros espaciales en base a una señal de entrada acústica, el procesador de audio espacial esta caracterizado porque comprende : un determinador de características de señal configurado para determinar una característica de señal de la señal de entrada acústica, en donde la señal de entrada acústica comprende por lo menos un componente direccional y un estimador de parámetros controlable para calcular los parámetros espaciales para la señal de entrada acústica de acuerdo con una regla de cálculo de parámetros espaciales variable; en donde el estimador de parámetros controlable está configurado para modificar la regla de cálculo de parámetros espaciales de acuerdo con la señal de características determinada .
2. El procesador de audio espacial de acuerdo con la reivindicación 1, caracterizado porque los parámetros espaciales comprenden una dirección del sonido y/o una difusividad del sonido y/o una medida estadística de la dirección del sonido.
3. El procesador de acuerdo con la reivindicación 1 o 2, caracterizado porque el estimador de parámetros controlable está configurado para calcular los parámetros espaciales como parámetros de codificación de audio direccional que comprende un parámetro de difusividad para un segmento de tiempo y para un sub-banda de frecuencia y/o un parámetro de dirección de llegada para un segmento de tiempo y para una sub-banda de frecuencia o como parámetros de micrófono de audio espacial.
4. El procesador de audio espacial de acuerdo con una de las reivindicaciones 1 a 3, caracterizado porque el determinador de características de señal está configurado para determinar un intervalo estacionario de la señal de entrada acústica y en donde el estimador de parámetros controlable está configurado para modificar la regla de cálculo de parámetros espaciales variables de acuerdo con el intervalo estacionario determinado de tal manera que un periodo de promediación para calcular los parámetros espaciales es comparativamente mas largo para un intervalo estacionario comparativamente mas largo y es comparativamente más corto para un intervalo estacionario comparativamente más corto.
5. El procesador de audio espacial de acuerdo con la reivindicación 1, caracterizado porque estimador de parámetros controlable está configurado para calcular los parámetros espaciales a partir de la entrada acústica para un segmento de tiempo y una sub-banda de frecuencia en base a por lo menos una promediación en tiempo de los parámetros de señal de la señal de entrada acústica y en donde el estimador de parámetros controlable está configurado para hacer variar un periodo de promediación de la promediación en el tiempo de los parámetros de señal de la señal de entrada acústica de acuerdo con el intervalo estacionario determinado.
6. El procesador de audio espacial de acuerdo con la reivindicación 5, caracterizado porque el estimador de parámetros controlable está configurado para aplicar la promediación en tiempo de los parámetros de señal de la señal de entrada acústica utilizando un filtro de paso de bajo; en donde el estimador de parámetros controlable está configurado para ajustar la ponderación entre un parámetro de señal actual de la señal de entrada acústica y parámetros de señal previos de la señal de entrada acústica en base a un parámetro de ponderación , de tal manera que el periodo de promediación está basado en el parámetro de ponderación, de tal manera que un peso del parámetro de señal actual comparado con el peso de los parámetros de señal previos es comparativamente alto para un intervalo estacionario comparativamente corto y de tal manera que el peso del parámetro de señal actual comparado con el peso de los parámetros de señal previos es comparativamente bajo para un intervalo estacionario comparativamente largo.
7. El procesador de audio espacial de acuerdo con una de las reivindicaciones 1 a 6, caracterizado porque estimador de parámetros controlable está configurado para seleccionar una regla de cálculo de parámetros espaciales de una pluralidad de reglas de cálculo de parámetros espaciales para calcular los parámetros espaciales en dependencia de la característica de señal determinada.
8. El procesador de audio espacial de acuerdo con la reivindicación 7, caracterizado porque el estimador de parámetros controlable está configurado de tal manera que una primera regla de cálculo de parámetros espaciales de la pluralidad de reglas de cálculo de parámetros espaciales es diferente de una segunda regla de cálculo de parámetros espaciales de la pluralidad de reglas de cálculo de parámetros espaciales y en donde la primera regla de cálculo de parámetros espaciales y la segunda regla de cálculo de parámetros espaciales son seleccionadas de un grupo que consiste de: promediación en el tiempo sobre una pluralidad de segmentos de tiempo en una sub-banda de frecuencia, promediación de frecuencia sobre una pluralidad de sub-bandas de frecuencia en un segmento en el tiempo, promediación en el tiempo y promediación de frecuencia y sin promediación.
9. El procesador de audio espacial de acuerdo con una de las reivindicaciones 1 a 8, caracterizado porque el determinador de características de señal está configurado para determinar si la señal de entrada acústica comprende componentes de diferentes fuentes de sonido al mismo tiempo o en donde el determinador de características de señal está configurado para determinar la tonalidad de la señal de entrada acústica; en donde el estimador de parámetros controlables está configurado para seleccionar, de acuerdo con un resultado de la determinación de características de señal, una regla de cálculo de parámetros espaciales de una pluralidad de reglas de cálculo de parámetros espaciales para calcular los parámetros espaciales, de tal manera que una primera regla de cálculo de parámetros espaciales de pluralidad de reglas de cálculo de parámetros espaciales es escogida cuando la señal de entrada acústica comprende componentes de una fuente de sonido máxima o cuando la tonalidad de la* señal de entrada acústica está por debajo de un nivel de umbral de tonalidad dada y de tal manera que una segunda regla de cálculo de parámetros espaciales de la pluralidad de reglas de cálculo de parámetros espaciales es escogida cuando la señal de entrada acústica comprende componentes de más de una fuente de sonido al mismo tiempo o cuando la tonalidad de la señal de entrada acústica está por encima de un nivel de umbral de tonalidad dado; en donde la primera regla de cálculo de parámetros espaciales incluye una promediación de frecuencia sobre un primer un primer número de sub-bandas de frecuencia y la segunda regla de cálculo de parámetros espaciales incluye una promediación de frecuencia sobre un. segundo numero de sub-bandas de frecuencia y no incluye promediación de frecuencia Y en donde el primer número es mayor que el segundo número .
10. El procesador de audio espacial de acuerdo con una de las reivindicaciones 1 a 9, caracterizado porque el determ'inador de características de señal está configurado para determinar la proporción de señal a ruido de la señal de entrada acústica; en donde el estimador de parámetros controlable está configurado para aplicar una promediación en el tiempo sobre una pluralidad de segmentos de tiempo en una sub-banda de frecuencia, una promediación de frecuencia sobre una pluralidad de sub-bandas de frecuencia en un segmento de tiempo, una promediación espacial o una combinación de las mismas y en donde el estimador de parámetros controlable está configurado para hacer variar un periodo de promediación de la promediación en el tiempo, de la promediación de frecuencia, de la promediación espacial o de la combinación de las mismas, de acuerdo con la proporción de señal a ruido determinada, de tal manera que el periodo de promediación es comparativamente más largo para una proporción de . señal a ruido comparativamente más bajo de la señal de entrada acústica y de tal manera que el periodo de promediación es comparativamente más corto para una proporción de señal a ruido comparativamente más alta de la señal de entrada acústica .
11. El procesador de audio espacial de acuerdo con la reivindicación 10, caracterizado porque el estimador de parámetros controlable está configurado para aplicar la promediación en el tiempo a un subconjunto de parámetros de intensidad sobre una pluralidad de segmentos de tiempo y una sub-banda de frecuencia o aun subconjunto de parámetros de dirección de llegada sobre una pluralidad de segmentos de tiempo y una sub-banda de frecuencia y en donde el número de parámetros de intensidad en el subconjunto de parámetros de intensidad o un numero de parámetros de dirección de llegada en el subconjunto de parámetros de dirección de llegada corresponde al periodo de promediación de la promediación en el tiempo, de tal manera que el número de parámetros de intensidad en el subconjunto de parámetros de intensidad o el número de parámetros de dirección de llegada en el subconjunto de parámetros de dirección de llegada es comparativamente más bajo para una proporción de señal a ruido comparativamente más alta de la señal de entrada acústica y de tal manera que el número de parámetros de intensidad en el subconjunto de parámetros de intensidad o el número de parámetros de dirección de llegada en el subconjunto de parámetros de dirección de llegada es comparativamente más alto para una proporción de señal a ruido comparativamente más baja de la señal de entrada acústica .
12. El procesador de audio espacial de acuerdo con una de las reivindicaciones 10 a 11, caracterizado porque el determinador de características de señal está configurado para proveer la proporción de señal a ruido de la señal de entrada acústica como una pluralidad de parámetros de proporción de señal a ruido a la señal de entrada acústica, cada parámetro de proporción de señal a ruido de la señal de entrada acústica está asociado con una sub-banda de frecuencia y un segmento de tiempo en donde el estimador de parámetros controlable está configurado para recibir una proporción de señal a ruido objetivo como una pluralidad de parámetros de proporción de señal a ruido objetivo, cada parámetro de proporción de señal a ruido objetivo está asociado con una sub-banda de frecuencia y un segmento de tiempo y en donde el estimador de parámetros controlable está configurado para hacer el periodo de promediación de la promediación en el tiempo de acuerdo con un parámetro de proporción de señal a ruido actual en la señal de entrada acústica, de tal manera que un parámetro de proporción de señal a ruido actual intenta coincidir con un parámetro de proporción de señal a ruido objetivo actual.
13. El procesador de audio espacial de acuerdo con una de las reivindicaciones 1 a 12, caracterizado porque el determinador de características de señal está configurado para determinar si la señal de entrada acústica comprende componentes transitorios que corresponden a señales semejantes a aplauso; en donde el estimador de parámetros controlable comprende un banco de filtros que está configurado para convertir la señal de entrada acústica de un dominio de tiempo a una representación de frecuencia basada en una regla de cálculo de conversión y en donde el estimador de parámetros controlable está configurado para escoger la regla de cálculo de conversión para convertir la señal de entrada acústica del dominio de tiempo a la representación de frecuencia de una pluralidad de reglas de cálculo de conversión de acuerdo con el resultado de la determinación de características de señal, de tal manera que una primera regla de cálculo de conversión de la pluralidad de las reglas de cálculo de conversión es escogida para convertir la señal de entrada acústica del dominio d tiempo a la representación de frecuencia cuando la señal de entrada acústica comprende componentes correspondientes a señales semejantes a aplauso y de tal manera que una segunda regla de conversión de la pluralidad de reglas de cálculo de conversión es escogida para convertir la entrada de señal acústica del dominio de tiempo a la representación de frecuencia cuando la señal de entrada acústica no comprende componentes correspondientes a señales semejantes a aplauso.
14. Un método para proveer parámetros espaciales en base a uña señal de entrada acústica, el método esta caracterizado porque comprende: determinar una característica de señal de la señal de entrada acústica, en done la señal de entrada acústica comprende por lo menos un componente direccional ; modificar una regla de cálculo de parámetros espaciales variables de acuerdo con la característica de señal determinada y calcular los parámetros espaciales de la señal de entrada acústica de acuerdo con la regla de cálculo de parámetros espaciales variables.
15. Un programa de computadora caracterizado porque tiene códigos de programa para efectuar, cuando se ejecuta en una computadora el método de acuerdo con la reivindicación 14
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US31868910P | 2010-03-29 | 2010-03-29 | |
EP10186808.1A EP2375410B1 (en) | 2010-03-29 | 2010-10-07 | A spatial audio processor and a method for providing spatial parameters based on an acoustic input signal |
PCT/EP2011/053958 WO2011120800A1 (en) | 2010-03-29 | 2011-03-16 | A spatial audio processor and a method for providing spatial parameters based on an acoustic input signal |
Publications (1)
Publication Number | Publication Date |
---|---|
MX2012011203A true MX2012011203A (es) | 2013-02-15 |
Family
ID=44023044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
MX2012011203A MX2012011203A (es) | 2010-03-29 | 2011-03-16 | Procesador de audio espacial y metodo para proveer parametros espaciales en base a una señal de ntrada acustica. |
Country Status (14)
Country | Link |
---|---|
US (2) | US9626974B2 (es) |
EP (2) | EP2375410B1 (es) |
JP (1) | JP5706513B2 (es) |
KR (1) | KR101442377B1 (es) |
CN (1) | CN102918588B (es) |
AU (1) | AU2011234772B2 (es) |
BR (1) | BR112012025013B1 (es) |
CA (1) | CA2794946C (es) |
ES (2) | ES2656815T3 (es) |
HK (1) | HK1180824A1 (es) |
MX (1) | MX2012011203A (es) |
PL (1) | PL2543037T3 (es) |
RU (1) | RU2596592C2 (es) |
WO (1) | WO2011120800A1 (es) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9462399B2 (en) | 2011-07-01 | 2016-10-04 | Dolby Laboratories Licensing Corporation | Audio playback system monitoring |
CN103765511B (zh) * | 2011-07-07 | 2016-01-20 | 纽昂斯通讯公司 | 嘈杂语音信号中的脉冲干扰的单信道抑制 |
US9761229B2 (en) * | 2012-07-20 | 2017-09-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for audio object clustering |
US9516446B2 (en) | 2012-07-20 | 2016-12-06 | Qualcomm Incorporated | Scalable downmix design for object-based surround codec with cluster analysis by synthesis |
US10499176B2 (en) | 2013-05-29 | 2019-12-03 | Qualcomm Incorporated | Identifying codebooks to use when coding spatial components of a sound field |
EP4425489A2 (en) | 2013-07-05 | 2024-09-04 | Dolby International AB | Enhanced soundfield coding using parametric component generation |
CN104299615B (zh) | 2013-07-16 | 2017-11-17 | 华为技术有限公司 | 一种声道间电平差处理方法及装置 |
KR102231755B1 (ko) | 2013-10-25 | 2021-03-24 | 삼성전자주식회사 | 입체 음향 재생 방법 및 장치 |
KR102112018B1 (ko) * | 2013-11-08 | 2020-05-18 | 한국전자통신연구원 | 영상 회의 시스템에서의 음향 반향 제거 장치 및 방법 |
EP2884491A1 (en) * | 2013-12-11 | 2015-06-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Extraction of reverberant sound using microphone arrays |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
US10770087B2 (en) | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
US9462406B2 (en) | 2014-07-17 | 2016-10-04 | Nokia Technologies Oy | Method and apparatus for facilitating spatial audio capture with multiple devices |
CN105336333B (zh) * | 2014-08-12 | 2019-07-05 | 北京天籁传音数字技术有限公司 | 多声道声音信号编码方法、解码方法及装置 |
CN105989851B (zh) | 2015-02-15 | 2021-05-07 | 杜比实验室特许公司 | 音频源分离 |
CA2999393C (en) * | 2016-03-15 | 2020-10-27 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus, method or computer program for generating a sound field description |
EP3264802A1 (en) * | 2016-06-30 | 2018-01-03 | Nokia Technologies Oy | Spatial audio processing for moving sound sources |
CN107731238B (zh) * | 2016-08-10 | 2021-07-16 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
CN107785025B (zh) * | 2016-08-25 | 2021-06-22 | 上海英波声学工程技术股份有限公司 | 基于房间脉冲响应重复测量的噪声去除方法及装置 |
EP3297298B1 (en) | 2016-09-19 | 2020-05-06 | A-Volute | Method for reproducing spatially distributed sounds |
US10187740B2 (en) * | 2016-09-23 | 2019-01-22 | Apple Inc. | Producing headphone driver signals in a digital audio signal processing binaural rendering environment |
US10020813B1 (en) * | 2017-01-09 | 2018-07-10 | Microsoft Technology Licensing, Llc | Scaleable DLL clocking system |
JP6788272B2 (ja) * | 2017-02-21 | 2020-11-25 | オンフューチャー株式会社 | 音源の検出方法及びその検出装置 |
JP7257975B2 (ja) | 2017-07-03 | 2023-04-14 | ドルビー・インターナショナル・アーベー | 密集性の過渡事象の検出及び符号化の複雑さの低減 |
EP3692704B1 (en) * | 2017-10-03 | 2023-09-06 | Bose Corporation | Spatial double-talk detector |
US10165388B1 (en) * | 2017-11-15 | 2018-12-25 | Adobe Systems Incorporated | Particle-based spatial audio visualization |
CN111656442B (zh) * | 2017-11-17 | 2024-06-28 | 弗劳恩霍夫应用研究促进协会 | 使用量化和熵编码来编码或解码定向音频编码参数的装置和方法 |
GB2572650A (en) * | 2018-04-06 | 2019-10-09 | Nokia Technologies Oy | Spatial audio parameters and associated spatial audio playback |
US11122354B2 (en) | 2018-05-22 | 2021-09-14 | Staton Techiya, Llc | Hearing sensitivity acquisition methods and devices |
CN109831731B (zh) * | 2019-02-15 | 2020-08-04 | 杭州嘉楠耘智信息科技有限公司 | 音源定向方法及装置和计算机可读存储介质 |
CN110007276B (zh) * | 2019-04-18 | 2021-01-12 | 太原理工大学 | 一种声源定位方法及系统 |
US10964305B2 (en) | 2019-05-20 | 2021-03-30 | Bose Corporation | Mitigating impact of double talk for residual echo suppressors |
GB2598932A (en) * | 2020-09-18 | 2022-03-23 | Nokia Technologies Oy | Spatial audio parameter encoding and associated decoding |
CN112969134B (zh) * | 2021-02-07 | 2022-05-10 | 深圳市微纳感知计算技术有限公司 | 麦克风异常检测方法、装置、设备及存储介质 |
US12046253B2 (en) * | 2021-08-13 | 2024-07-23 | Harman International Industries, Incorporated | Systems and methods for a signal processing device |
CN114639398B (zh) * | 2022-03-10 | 2023-05-26 | 电子科技大学 | 一种基于麦克风阵列的宽带doa估计方法 |
CN114949856A (zh) * | 2022-04-14 | 2022-08-30 | 北京字跳网络技术有限公司 | 游戏音效的处理方法、装置、存储介质及终端设备 |
GB202211013D0 (en) * | 2022-07-28 | 2022-09-14 | Nokia Technologies Oy | Determining spatial audio parameters |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3812887B2 (ja) * | 2001-12-21 | 2006-08-23 | 富士通株式会社 | 信号処理システムおよび方法 |
EP1523863A1 (en) | 2002-07-16 | 2005-04-20 | Koninklijke Philips Electronics N.V. | Audio coding |
RU2383941C2 (ru) * | 2005-06-30 | 2010-03-10 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Способ и устройство для кодирования и декодирования аудиосигналов |
JP2007178684A (ja) * | 2005-12-27 | 2007-07-12 | Matsushita Electric Ind Co Ltd | マルチチャンネルオーディオ復号装置 |
US20080232601A1 (en) * | 2007-03-21 | 2008-09-25 | Ville Pulkki | Method and apparatus for enhancement of audio reconstruction |
US8180062B2 (en) * | 2007-05-30 | 2012-05-15 | Nokia Corporation | Spatial sound zooming |
US8209190B2 (en) * | 2007-10-25 | 2012-06-26 | Motorola Mobility, Inc. | Method and apparatus for generating an enhancement layer within an audio coding system |
WO2009084918A1 (en) * | 2007-12-31 | 2009-07-09 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
WO2009116280A1 (ja) * | 2008-03-19 | 2009-09-24 | パナソニック株式会社 | ステレオ信号符号化装置、ステレオ信号復号装置およびこれらの方法 |
KR101629862B1 (ko) * | 2008-05-23 | 2016-06-24 | 코닌클리케 필립스 엔.브이. | 파라메트릭 스테레오 업믹스 장치, 파라메트릭 스테레오 디코더, 파라메트릭 스테레오 다운믹스 장치, 파라메트릭 스테레오 인코더 |
PT2146344T (pt) * | 2008-07-17 | 2016-10-13 | Fraunhofer Ges Forschung | Esquema de codificação/descodificação de áudio com uma derivação comutável |
EP2154910A1 (en) * | 2008-08-13 | 2010-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus for merging spatial audio streams |
CN101673549B (zh) * | 2009-09-28 | 2011-12-14 | 武汉大学 | 一种移动音源空间音频参数预测编解码方法及系统 |
-
2010
- 2010-10-07 EP EP10186808.1A patent/EP2375410B1/en active Active
- 2010-10-07 ES ES10186808.1T patent/ES2656815T3/es active Active
-
2011
- 2011-03-16 RU RU2012145972/08A patent/RU2596592C2/ru active
- 2011-03-16 WO PCT/EP2011/053958 patent/WO2011120800A1/en active Application Filing
- 2011-03-16 PL PL11708299T patent/PL2543037T3/pl unknown
- 2011-03-16 EP EP11708299.0A patent/EP2543037B8/en active Active
- 2011-03-16 KR KR1020127028038A patent/KR101442377B1/ko active IP Right Grant
- 2011-03-16 ES ES11708299.0T patent/ES2452557T3/es active Active
- 2011-03-16 CN CN201180026742.6A patent/CN102918588B/zh active Active
- 2011-03-16 BR BR112012025013-2A patent/BR112012025013B1/pt active IP Right Grant
- 2011-03-16 JP JP2013501726A patent/JP5706513B2/ja active Active
- 2011-03-16 AU AU2011234772A patent/AU2011234772B2/en active Active
- 2011-03-16 MX MX2012011203A patent/MX2012011203A/es active IP Right Grant
- 2011-03-16 CA CA2794946A patent/CA2794946C/en active Active
-
2012
- 2012-09-27 US US13/629,192 patent/US9626974B2/en active Active
-
2013
- 2013-07-08 HK HK13107931.2A patent/HK1180824A1/xx unknown
-
2017
- 2017-01-20 US US15/411,849 patent/US10327088B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
PL2543037T3 (pl) | 2014-08-29 |
HK1180824A1 (en) | 2013-10-25 |
EP2543037B8 (en) | 2014-04-23 |
US20130022206A1 (en) | 2013-01-24 |
CA2794946C (en) | 2017-02-28 |
BR112012025013A2 (pt) | 2020-10-13 |
ES2452557T3 (es) | 2014-04-01 |
EP2543037B1 (en) | 2014-03-05 |
JP5706513B2 (ja) | 2015-04-22 |
AU2011234772B2 (en) | 2014-09-04 |
RU2596592C2 (ru) | 2016-09-10 |
US20170134876A1 (en) | 2017-05-11 |
KR20130007634A (ko) | 2013-01-18 |
EP2375410A1 (en) | 2011-10-12 |
CA2794946A1 (en) | 2011-10-06 |
KR101442377B1 (ko) | 2014-09-17 |
WO2011120800A1 (en) | 2011-10-06 |
EP2375410B1 (en) | 2017-11-22 |
US9626974B2 (en) | 2017-04-18 |
EP2543037A1 (en) | 2013-01-09 |
CN102918588A (zh) | 2013-02-06 |
AU2011234772A1 (en) | 2012-11-08 |
US10327088B2 (en) | 2019-06-18 |
JP2013524267A (ja) | 2013-06-17 |
ES2656815T3 (es) | 2018-02-28 |
RU2012145972A (ru) | 2014-11-27 |
BR112012025013B1 (pt) | 2021-08-31 |
CN102918588B (zh) | 2014-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10327088B2 (en) | Spatial audio processor and a method for providing spatial parameters based on an acoustic input signal | |
KR101984115B1 (ko) | 오디오 신호 처리를 위한 다채널 다이렉트-앰비언트 분해를 위한 장치 및 방법 | |
RU2762302C1 (ru) | Устройство, способ или компьютерная программа для оценки разности во времени между каналами | |
CN113302692B (zh) | 基于方向响度图的音频处理 | |
Kamkar-Parsi et al. | Instantaneous binaural target PSD estimation for hearing aid noise reduction in complex acoustic environments | |
JP2010541350A (ja) | 周囲信号を抽出するための重み付け係数を取得する装置および方法における周囲信号を抽出する装置および方法、並びに、コンピュータプログラム | |
US20220060824A1 (en) | An Audio Capturing Arrangement | |
EP3762923A1 (en) | Audio coding | |
US20210360362A1 (en) | Spatial audio processing | |
RU2793703C2 (ru) | Обработка аудиоданных на основе карты направленной громкости | |
RU2771833C1 (ru) | Обработка аудиоданных на основе карты направленной громкости | |
RU2798019C2 (ru) | Обработка аудиоданных на основе карты направленной громкости | |
Herzog et al. | Signal-Dependent Mixing for Direction-Preserving Multichannel Noise Reduction | |
RU2826539C1 (ru) | Обработка аудиоданных на основе карты направленной громкости | |
Gong et al. | Noise power spectral density matrix estimation based on modified IMCRA |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FG | Grant or registration |