MX2007004726A - Formacion de canal individual para esquemas de bcc y los semejantes. - Google Patents
Formacion de canal individual para esquemas de bcc y los semejantes.Info
- Publication number
- MX2007004726A MX2007004726A MX2007004726A MX2007004726A MX2007004726A MX 2007004726 A MX2007004726 A MX 2007004726A MX 2007004726 A MX2007004726 A MX 2007004726A MX 2007004726 A MX2007004726 A MX 2007004726A MX 2007004726 A MX2007004726 A MX 2007004726A
- Authority
- MX
- Mexico
- Prior art keywords
- channel
- envelope
- audio
- indication
- codes
- Prior art date
Links
- 230000002123 temporal effect Effects 0.000 title claims abstract description 83
- 238000007493 shaping process Methods 0.000 title 1
- 230000015572 biosynthetic process Effects 0.000 claims description 60
- 238000000034 method Methods 0.000 claims description 57
- 238000003786 synthesis reaction Methods 0.000 claims description 36
- 230000001052 transient effect Effects 0.000 claims description 11
- 238000012512 characterization method Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000002156 mixing Methods 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 52
- 230000005236 sound signal Effects 0.000 description 40
- 238000010586 diagram Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 13
- 230000001934 delay Effects 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 6
- 239000000203 mixture Substances 0.000 description 5
- 210000005069 ears Anatomy 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000002441 reversible effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 210000003454 tympanic membrane Anatomy 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- ZYXYTGQFPZEUFX-UHFFFAOYSA-N benzpyrimoxan Chemical compound O1C(OCCC1)C=1C(=NC=NC=1)OCC1=CC=C(C=C1)C(F)(F)F ZYXYTGQFPZEUFX-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000009365 direct transmission Effects 0.000 description 1
- 238000009429 electrical wiring Methods 0.000 description 1
- 230000005670 electromagnetic radiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002028 premature Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Stereophonic System (AREA)
- Stereo-Broadcasting Methods (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Superheterodyne Receivers (AREA)
- Channel Selection Circuits, Automatic Tuning Circuits (AREA)
- Outer Garments And Coats (AREA)
- Time-Division Multiplex Systems (AREA)
- Electrophonic Musical Instruments (AREA)
- Steroid Compounds (AREA)
Abstract
Se describe la formacion de canal individual para esquemas de BCC y los semejantes. En un codificador de audio, se generan codigos de indicacion para uno o mas canales de audio, en donde se genera un codigo de indicacion de envolvente mediante la caracterizacion de una envolvente temporal en un canal de audio. En un descodificador de audio, E canal(es) de audio transmitidos con descodificados para generar C canales de audio de reproduccion, en donde C>E.1. Los codigos de indicacion recibidos incluyen un codigo de indicacion de envolvente correspondiente a una envolvente temporal caracterizada de un canal de audio correspondiente al (los) canal(es) transmitidos. Uno o mas canal(es) transmitido(s) es(son) mezclados ascendentemente para generar uno o mas canales mezclados ascendentemente. Uno o mas canales de reproduccion son sintetizados mediante la aplicacion de los codigos de indicacion al uno o mas canales mezclados ascendentemente, en donde el codigo de indicacion de envolvente es aplicado a un canal mezclado ascendentemente o una senal sintetizada para ajustar una envolvente temporal de la senal sintetizada, en base a la envolvente temporal caracterizada, de tal manera que la envolvente temporal ajustada corresponde sustancialmente con la envolvente temporal caracterizada.
Description
FORMACIÓN DE CANAL INDIVIDUAL PARA ESQUEMAS DE BCC Y LOS SEMEJANTES CAMPO DE LA INVENCIÓN La presente invención es concerniente con la codificación de señales de audio y la síntesis subsecuente de escenas auditivas a partir de los datos de audio codificados.
ANTECEDENTES DE LA INVENCIÓN Cuando una persona oye una señal de audio (esto es, sonidos) generados por una fuente de audio particular, la señal de audio llegara comunmente en los oidos izquierdo y derecho de la persona a dos tiempos diferentes y con dos niveles de audio diferentes (por ejemplo, decibles), en donde estos diferentes tiempos y niveles son funciones de las diferencias en las trayectorias a través de las cuales la señal de audio viaja para llegar a los oídos izquierdo y derecho, respectivamente. El cerebro de la persona interpreta estas diferencias en tiempo y nivel para dar la persona la percepción de que la señal de audio recibida es generada por una fuente de audio situada en una posición particular (por ejemplo, dirección y distancia) en relación con la persona. Una escena auditiva es el efecto neto de la persona que escucha simultáneamente señales de audio generadas por una o más fuentes de audio diferentes situadas en una o más posiciones diferentes en relación con la persona.
La existencia de este procesamiento por el cerebro puede ser usada para sintetizar escenas auditivas, en donde señales de audio de una o mas fuentes de audio diferentes son modificadas propuestamente para generar señales de audio izquierda y derecha que dan la percepción de que las diferentes fuentes de audio están ubicadas en diferentes posiciones en relación con la persona. La figura 1 muestra un diagrama de bloques de alto nivel del sintetizador de señales binaural convencional 100, que convierte una sola señal de fuente de audio (por ejemplo, una monoseñal) a las señales de audio izquierda y derecha de una señal binaural, en donde se define que una señal binaural son las dos señales recibidas en los tímpanos del usuario. Además de la señal de fuente de audio, el sintetizador 100 recibe un conjunto de indicaciones espaciales correspondientes a la posición deseada de la fuente de audio en relación con el usuario. En implementaciones típicas, el conjunto de indicaciones espaciales comprende un valor de diferencias de nivel de ínter-canal (ICLD) (que identifica la diferencia en nivel de audio entre las señales de audio izquierda y derecha tal como son recibidas en los oídos izquierdo y derecho, respectivamente) y un valor de diferencia de tiempo de ínter-canal (ICTD) (que identifica la diferencia en tiempo de llegada entre las señales de audio izquierda y derecha tal como son recibidas en los oídos izquierdo y derecho, respectivamente) .
Además o como alternativa, algunas técnicas de síntesis involucran el modelado de una función de transferencia dependiente de la dirección para el sonido de la fuente de señal a los tímpanos, también denominada como la función de transferencia relacionada con la cabeza (HRTF). Véase, por ejemplo, J. Blauert, The Psychophysics of Human Sound Localization, MIT Press, 1983, las enseñanzas del cual son incorporados en la presente por referencia. Al utilizar el sintetizador de señales binaural 100 de la figura 1, la señal de audio mono generada por una sola fuente de sonido puede ser procesada de tal manera que cuando es escuchada en audífonos, la fuente de sonido es colocada espacialmente al aplicar un conjunto apropiado de indicaciones espaciales (por ejemplo, ICLD, ICTD y/o HRTF) para generar la señal de audio para cada oído. Véase, por ejemplo, D. R. Begault, 3-D Sound for Virtual Reality and Multimedia, Academic Press, Cambridge, Mass., 1994. El sintetizador de señales binaural 100 de la figura 1 genera el tipo más simple de escenas auditivas: aquellas que tienen una sola fuente de audio colocada en relación con el usuario. Escenas auditivas más complejas que comprenden dos o más fuentes de audio ubicadas en diferentes posiciones en relación con el usuario pueden ser generadas utilizando un sintetizador de escena auditiva que es implementado esencialmente utilizando múltiples instancias del smtetizador
de señales binaural, en donde cada instancia de sintetizador de señales binaural genera la señal binaural correspondiente a una fuente de audio diferente. Puesto que cada fuente de audio diferente tiene una ubicación diferente en relación con el usuario, un diferente conjunto de indicaciones espaciales se usa para generar la señal de audio binaural para cada fuente de audio diferente.
BREVE DESCRIPCIÓN DE LA INVENCIÓN De acuerdo con una modalidad, la presente invención es un método, aparato y medio que se puede leer por la maquina para codificar canales de audio. Uno o más códigos de indicación son generados y transmitidos para uno o más canales de audio, en donde por lo menos un código de indicación es un código de indicación de envolvente generado mediante la caracterización de una envolvente temporal en los uno o más canales de audio. De acuerdo con una modalidad, la presente invención es un aparato para codificar C canales de audio de entrada para generar E canal (es) de audio transmitido. El aparato comprende un analizador de envolvente, estimador de código y mezclador descendente. El analizador de envolvente caracteriza una envolvente temporal de entrada de por lo menos uno de los C canales de entrada. El estimador de códigos genera códigos de indicación para dos o mas de los C canales de entrada. El
mezclador descendente mezcla descendentemente los C canales de entrada para generar el (los) E canal (es) transmitidos, en donde C>E 1, en donde el aparato transmite información acerca de los códigos de indicación y la envolvente temporal de entrada caracterizada para permitir que un descodificador efectúe la síntesis y formación de envolvente durante la descodificación del (los) E canal (es) transmitidos. De acuerdo con otra modalidad, la presente invención es una corriente de bits de audio codificada generada al codificar canales de audio, en donde uno o más códigos de indicación son generados para uno o más canales de audio, en donde por lo menos un código de indicación es un código de indicación de envolvente generado mediante la caracterización de una envolvente temporal en uno de los uno o más canales de audio. El uno o más códigos de indicación y E canal (es) de audio transmitidos correspondientes al uno o más canales de audio, en donde £31, son codificados a la corriente de bits de audio codificada. De acuerdo con otra modalidad, la presente invención es una corriente de bits de audio codificada que comprende uno o más códigos de indicación y £ canal (es)) de audio transmitidos. El uno o más códigos de indicación son generados para uno o mas canales de audio, en donde por lo menos un código de indicación es un código de indicación de envolvente generado mediante la caracterización de una envolvente temporal
en uno de los uno o más canales de audio. El (los) E canal (es) de audio transmitidos corresponden al uno o más canales de audio . De acuerdo con otra modalidad, la presente invención es un método, aparato y medio que se puede leer por la máquina para descodificar E canal (es) de audio transmitidos para generar C canales de audio de reproducción, en donde C>E3 \ . Los códigos de indicación correspondientes al (los) E canal (es) transmitidos son recibidos, en donde los códigos de indicación comprenden un código de indicación de envolvente correspondiente a una envolvente temporal caracterizada de un canal de audio correspondiente al (los) E canal (es) transmitidos. Uno o más del (los) E canal (es) transmitidos son mezclados ascendentemente para generar uno o más canales mezclados ascendentemente. Uno o más de los C canales de reproducción son sintetizados mediante la aplicación de los códigos de indicación a uno o más canales mezclados ascendentemente, en donde el código de indicación de envolvente es aplicado a un canal mezclado ascendentemente o una señal sintetizada para ajustar una envolvente temporal de la señal sintetizada en base a la envolvente temporal caracterizada, de tal manera que la envolvente temporal ajustada corresponde sustancialmente con la envolvente temporal caracterizada.
BREVE DESCRIPCIÓN DE LAS FIGURAS
Otros aspectos, elementos y ventajas de la presente invención se harán más plenamente evidentes a partir de la siguiente descripción detallada, las reivindicaciones adjuntas y las figuras adjuntas en las cuales los números de referencia semejantes identifican elementos similares o idénticos. La figura 1 muestra un diagrama de bloques de alto nivel del sintetizador de señales binaural convencional; La figura 2 es un diagrama de bloques de un sistema de procesamiento de audio de codificación de indicación binaural (BCC) genérico; La figura 3 muestra un diagrama de bloques de un mezclador descendente que puede ser usado para el mezclador descendente de la figura 2; La figura 4 muestra un diagrama de bloques de un sintetizador de BCC que puede ser usado para el descodificador de la figura 2; La figura 5 muestra un diagrama de bloques del estimador de BCC de la figura 2 de acuerdo con una modalidad de la presente invención; La figura 6 ilustra la generación de datos de ICTD e
ICLD para audio de cinco canales; La figura 7 ilustra la generación de datos de ICC para audio de cinco canales; La figura 8 muestra un diagrama de bloques de una implementación del sintetizador de BCC de la figura 4 que puede
ser usado en un descodificador de BCC para generar una señal de audio estereofónica o de multicanal dada una señal de suma transmitida individual s(n) más los indicaciones espaciales; La figura 9 ilustra cómo ICTD e ICLD se hacen variar dentro de una sub-banda como función de la frecuencia; La figura 10 muestra un diagrama de bloques del procesamiento de dominio de tiempo que es agregado a un codificador de BCC, tal como el codificador de la figura 2, de acuerdo con una modalidad de la presente invención; La figura 11 ilustra una aplicación de dominio de tiempo ejemplar de procesamiento de TP en el contexto del smtetizador de BCC de la figura 4; Las figuras 12 (a) y (b) muestran implementaciones posibles del TPA de la figura 10 y del TP de la figura 11, respectivamente, en donde se aplica formación de envolvente solamente a frecuencias más altas que la frecuencia de corte
La figura 13 muestra un diagrama de bloques del procesamiento de dominio de frecuencia que es agregado a un codificador de BCC, tal como el codificador de la figura 2, de acuerdo con una modalidad alternativa de la presente invención; La figura 14 ilustra una aplicación de dominio de frecuencia ejemplar de procesamiento de TP en el contexto del sintetizador de BCC de la figura 4; La figura 15 muestra un diagrama de bloques del
procesamiento de dominio de frecuencia que es agregado a un codificador de BCC, tal como el codificador de la figura 2, de acuerdo con otra modalidad alternativa de la presente invención; La figura 16 ilustra otra aplicación de dominio de frecuencia ejemplar de precisión de TP en el contexto del sintetizador BCC de la figura 4; Las figuras 17 (a) -(c) muestran diagramas de bloque de implementaciones posibles de TPA de las figuras 15 y 16 y ITP y TP de la figura 16; y Las figuras 18 (a) y (b) ilustran dos modos ejemplares de operación del bloque de control de la figura 16.
DESCRIPCIÓN DETALLADA DE LA INVENCIÓN En la codificación de indicación binaural (BCC) , un codificador codifica C canales de audio de entrada para generar E canales de audio transmitidos, en donde C>E=1. En particular, dos o mas de los C canales de entrada son provistos en un dominio de frecuencia y uno o mas códigos de indicaciones son generados para cada una de una o mas diferentes bandas de frecuencia en los dos o mas canales de entrada en el dominio de frecuencia. Ademas, los C canales de entrada son mezclados descendentemente para generar los E canales transmitidos. En algunas implementaciones de mezclado descendente, por lo menos uno de los E canales transmitidos esta basado en dos o mas de
los C canales de entrada y por lo menos uno de los E canales transmitidos esta basado en solamente uno solo de los C canales de entrada. En una modalidad, un codificador BCC tiene dos o más bancos de filtros, un decimador de código y un mezclador descendente. Los dos o mas bancos de filtros convierten dos o más de los C canales de entrada de un dominio de tiempo a un dominio de frecuencia. El estimador de código genera uno o más códigos de indicación para cada una de una o más bandas de frecuencias diferentes en los dos o mas canales de entrada convertidos. El mezclador descendente mezcla descendentemente los C canales de entrada para generar los E canales transmitidos, en donde OE=l. En la descodificación de BCC, E canales de audio transmitidos son descodificados para generar C canales de audio de reproducción. En particular, para cada una de una o mas bandas de frecuencia diferentes, uno o más de los E canales transmitidos son mezclados ascendentemente en un dominio de frecuencia para generar dos o más de los C canales de reproducción en el dominio de frecuencia, en donde OE=l. Uno o más códigos de indicación son aplicados a cada una de las una o más bandas de frecuencia diferentes en los dos o más canales de reproducción en el dominio de frecuencia para generar dos o más canales modificados y los dos o más canales modificados son convertidos del dominio de frecuencia a un dominio de tiempo.
En algunas implementaciones de mezcla ascendente, por lo menos uno de los C canales de reproducción está basado en por lo menos uno de los E canales transmitidos y por lo menos un código de indicación y por lo menos uno de los C canales de reproducción está basado en solamente uno de los E canales transmitidos e independiente de cualesquier códigos de indicación . En una modalidad, un descodificador de BCC tiene un mezclador ascendente, un sintetizador y uno o más bancos de filtro inversos. Para cada una de una o más bandas de frecuencia diferentes, el mezclador ascendente mezcla ascendentemente uno o más de los E canales transmitidos en un dominio de frecuencia para generar dos o más de los C canales de reproducción en el dominio de frecuencia, en donde OE=l. El smtetizador aplica uno o mas códigos de indicación a cada una de las una o más bandas de frecuencia diferentes en los dos o más canales de reproducción en el dominio de frecuencia para generar dos o más canales modificados. El uno o más bancos de filtro inverso convierten los dos o más canales modificados del dominio de frecuencia a un dominio de tiempo. Dependiendo de la implementación particular, un canal de reproducción dado puede ser usado en un solo canal transmitido, en lugar de una combinación de dos o más canales transmitidos. Por ejemplo, cuando hay solamente un canal transmitido, cada uno de los C canales de reproducción está
basado en aquel canal transmitido. En estas situaciones, la mezcla ascendente corresponde a copiar el canal transmitido correspondiente. Como tal, para aplicaciones en las cuales hay solamente un canal transmitido, el mezclador ascendente puede ser implementado utilizando un replicador que copia el canal transmitido para cada canal de reproducción. Codificadores y/o descodificadores de BCC pueden ser incorporados a un numero de sistemas o aplicaciones en los que se incluyen, por ejemplo, grabadores/reproductores de video digital, grabadores/reproductores de video digital, computadoras, transmisores/receptores de satélite, transmisores/receptores de cable, transmisores/receptores de difusión terrestre, sistemas de entretenimiento en casa y sistemas de teatro de película.
Procesamiento de BCC genérico La figura 2 es un diagrama de bloques de un sistema de procesamiento de audio de codificación de indicación binaural (BCC) genérico 200 que comprende un codificador 202 y un descodificador 204. El codificador 202 incluye el mezclador descendente 206 y el estimador de BCC 208. El mezclador descendente 206 convierte C canales de audio de entrada xí ( n ) a E canales de audio transmitidos y^n), en donde OE=l. En esta especificación, las señales expresadas utilizando la variable n son señales de dominio de tiempo, en
tanto que las señales expresadas usadas usando la variable k son señales de dominio de frecuencia. Dependiendo de la implementacion particular, se puede implementar el mezclado descendente ya sea en el dominio de tiempo o el dominio de frecuencia. El estimador de BCC 208 genera códigos de BCC a partir de los C canales de audio de entrada y transmite aquellos códigos de BCC ya sea como información lateral en banda o fuera de banda en relación con los E canales de audio transmitidos. Códigos de BCC típicos incluyen uno o mas de diferencia de tiempo mtercanal (ICTD), diferencia de nivel ínter-canal (ICLD) y datos de correlación de ínter-canal (ICC) estimados entre ciertos pares de canales de entrada como función de frecuencia y tiempo. La implementación particular determinará entre cuales pares particulares de canales de entrada, los códigos de BCC son estimados. Los datos de ICC corresponden a la coherencia de una señal bmaural, que está relacionada con el ancho percibido de la fuente de audio. Mientras más ancha es la fuente de audio, más baja es la coherencia entre los canales izquierdo y derecho de la señal binaural resultante. Por ejemplo, la coherencia de la señal binaural correspondiente a una orquesta dispersada en una etapa de auditorio es comúnmente más baja que la coherencia de la señal binaural correspondiente a un solo de ejecución de violín individual. En general, una señal de audio con coherencia más baja es percibida usualmente como más esparcida
en espacio auditivo. Como tal, los datos de ICC son concernientes comúnmente con el ancho de fuente aparente y grado de envolvente del escucha. Véase, por ejemplo J. Blauert, The Psychophysics of Human Sound Localization, MIT Press, 1983. Dependiendo de la aplicación particular, los E canales de audio transmitidos y correspondientes códigos de BCC pueden ser transmitidos directamente al descodificador 204 o almacenados en algún tipo apropiado de dispositivos de almacenamiento para acceso subsecuente por el descodificador 204. Dependiendo de la situación, el término "transmisión" se puede referir ya sea a la transmisión directa a un descodificador o almacenamiento para su provisión subsecuente a un descodificador . Ya sea en un caso u otro, el descodificador 204 recibe los canales de audio transmitidos e información lateral y efectúa la mezcla ascendente y síntesis de BCC utilizando los códigos de BCC para convertir los E canales de audio transmitidos a más de E (comúnmente, pero no necesariamente C) canales de audio de reproducción .?,(«) para la reproducción de audio. Dependiendo de la implementación particular, la mezcla ascendente se puede efectuar ya sea en el dominio de tiempo o el dominio de frecuencia. Además de procesamiento de BCC mostrado en la figura 3, un sistema de procesamiento de audio de BCC genérico puede incluir etapas de codificación y descodificación adicionales, para comprimir adicionalmente las señales de audio en el
codificador y luego descomprimir las señales de audio en el descodificador, respectivamente. Estos codees de audio pueden estar basados en técnicas de compresión/descompresión de audio convencionales, tales como aquellas a base de modulación de código de impulso (PCM), PCM diferencial (DPCM) o DPCM adaptable (ADPCM) . Cuando el mezclador descendente 206 genera una sola señal de suma (esto es E = 1), la codificación de BCC es apta de representar señales de audio de multicanal a una velocidad de bits solo ligeramente mayor que aquella que se requiere para representar una señal de audio mono. Esto es así debido a que los datos de ICTD, ICLD e ICC estimados entre un par de canal contiene aproximadamente dos ordenes de magnitud menos información que una forma de onda de audio. No solamente la baja velocidad de bits de la codificad de BCC, sino también su aspecto de compatibilidad hacia atrás es de interés. Una sola señal de suma transmitida corresponde a una mezcla descendente mono de la señal estéreo o de multicanal original. Para receptores que no soportan reproducción de sonido estéreo o de multicanal, la escucha de la señal de suma transmitida es un método válido para representar el material de audio en equipo de reproducción mono de bajo perfil. Por consiguiente, la codificación de BCC puede también ser usada para mejorar los servicios existentes que involucran la entrega de material de audio mono hacia audio de
multicanal. Por ejemplo, los sistemas de difusión de radio de audio monoaural pueden ser mejorados para la reproducción estéreo o multicanal si la información lateral de BCC puede ser incrustada al canal de transmisión existente. Existen capacidades análogas cuando se mezclan descendentemente audio de multicanal a dos señales de suma que corresponden a un audio estéreo . BCC procesa señales de audio con una cierta resolución de tiempo y frecuencia. La resolución de frecuencia usada es motivada extensamente por la resolución de frecuencia del sistema auditivo humano. La psico-acustica sugiere que la percepción espacial está más probablemente basada en una representación de banda critica de la señal de banda acústica. Esta resolución de frecuencia es considerada al utilizar un banco de filtros mvertible (por ejemplo, basado en una transformada de Fourier rápida (FFT) o un filtro de espejo de cuadratura (QMF) ) con sub-bandas con anchos de banda iguales o proprocionales al ancho de banda crítico del sistema auditivo humano .
Mezclado descendente genérico En implementaciones preferidas, la(s) señal (es) de suma transmitida (s) contiene (n) todos los componentes de señal de la señal de audio de entrada. El objetivo es que cada componente de señal sea mantenido plenamente. La simple suma de
los canales de audio de entrada da como resultado frecuentemente amplificación o atenuación de los componentes de señal. En otras palabras, la energía de los componentes de señal en una "simple" suma es frecuente más grande o más pequeña que la suma de la energía de componente de señal correspondiente de cada canal. Se puede usar una técnica de mezclado descendente que ecualiza la señal de suma, de tal manera que la energía de los componentes de señal en la señal de suma es aproximadamente la misma como la energía correspondiente en todos los canales de entrada. La figura 3 muestra un diagrama de bloque de un mezclador descendente 300 que puede ser usado para el mezclador descendente 206 de la figura 2 de acuerdo con ciertas implementaciones del sistema de BCC 200. El mezclador descendente 300 tiene un banco de filtros (FB) 302 para cada canal de entrada x1 (n) , un bloque de mezclado descendente 304, un bloque de escalamiento/retardo opcional 306 y un FB inverso (IFB) 308 para cada canal codificado y1 (n) . Cada banco de filtro 302 convierte cada cuadro (por ejemplo 20 ms) de un canal de entrada digital correspondiente j (n) en el dominio de tiempo a un conjunto de coeficientes de entrada ^k) en el dominio de frecuencia. El bloque de mezclado descendente 304 mezcla descendentemente cada sub-banda de C coeficientes de entrada correspondientes a una sub-banda correspondiente de E coeficientes de dominio de frecuencia
mezclados descendentemente. La ecuación (1) representa la mezcla descendente de la k-ésima sub-banda de coeficientes de entrada {xi {k),x2(k),... ,xc(k) para generar la k-ésima sub-banda de
coeficiente mezclados descendentemente ( ^k), y2(k),... ,yE(k) como sigue
en donde Dr£ es un matriz de mezcla descendente de C por E de valor real. El bloque de escalamiento/retardo opcional 306 comprende un conjunto de multiplicadores 310, cada uno de los cuales multiplica un coeficiente mezclado descendentemente correspondiente y,{k) por un factor de escalamiento ?i (k) para generar un coeficiente escalado correspondiente y, (k) . La motivación para la operación de escalamiento es equivalente a la ecualización generalizada para la mezcla descendente con factores ponderación arbitrarios para cada canal. Si los canales de entrada son independientes, entonces la energía /?,-. (i) de la señal mezclada descendentemente en cada sub-banda es dada por la ecuación (2) como sigue:
en donde DC£ es derivado al elevar al cuadrado cada elemento de matriz en la matriz DC£ de mezclado descendente de
C por E y /?f(i) es la energía de la sub-banda k del canal de entrada i. Si las sub-bandas no son independientes, entonces los valores de energía p. {k) de la señal de mezclado descendente será mayor o más pequeño que el calculado utilizando la ecuación (2), debido a aplicaciones o cancelaciones de señal cuando los componentes de señal están en fase o fuera de fase, respectivamente. Para impedir esto, la operación de mezclado descendente de la ecuación (1) es aplicada en sub-bandas seguida por la operación de escalamiento de los multiplicadores 310. Los factores de escalamiento ex (k) (l#i#E) pueden ser derivados utilizando la ecuación (3) como sigue:
en donde p. ,k ) es la energía de sub-banda tal como es calculada por la ecuación (2) y p. {k) es la energía de la señal de sub-banda mezclada descendentemente correspondiente y (k) .
Además de o en lugar de proporcionar el escalamiento opcional, el bloque de escalamiento/retardo 306 puede aplicar opcionalmente retardos a las señales. Cada banda de filtros inverso 308 convierte un conjunto de coeficientes escalados correspondientes y,(k) en el dominio de frecuencia a un cuadro de un canal transmitido digital correspondiente y (n) . Aunque la figura 3 muestra todos los C canales de entrada siendo convertidos al dominio de frecuencia para la subsecuente mezcla descendente, en implementaciones alternativas, uno o mas (pero menos que C-l) de los C canales de entrada se podría desviar algo o todo el procesamiento mostrado en la figura 3 y ser transmitido como un número equivalente de canales de audio sin modificar. Dependiendo de la implementación particular, estos canales de audio sin modificar podrían o no ser usados por el estimador de BCC 208 de la figura 2 en la generación de los códigos de BCC transmitidos . En una implementación del mezclado descendente que genera una sola señal de suma y ( n ) , E=l y las señales xc(k) de cada sub-banda de cada canal de entrada C son agregados y luego multiplicados con un factor e ( k) , de acuerdo con la ecuación (4) como sigue:
} ;(*) = e(*)?rr(*). (4)
el factor e(k) es dado por la ecuación (5) como sigue
en donde p- (k) es un valor estimativo de tiempo corto
de la energía xc (k) al índice de tiempo k , y p- (k) es un valor
estimativo de tiempo corto de la energía de ? _ xc (k) . Las sub-bandas ecualizadas son transformadas de regreso al dominio de tiempo dando como resultado de suma y ( n ) que es transmitida al descodificador de BCC.
Síntesis de BCC genérica La figura 4 muestra un día de bloques de un sintetizador de BCC 400 que puede ser usado por el descodificador 204 de la figura 2 de acuerdo con ciertas implementaciones del sistema de BCC 200. El sintetizador de BCC 400 tiene un banco de filtros 402 para cada canal transmitido y1 (n ) , un bloque de mezcla ascendente 404, retardos 406, multiplicadores 408, bloque de correlación 410 y un banco de filtros inversos 412 para cada canal de reproducción x, (n) . Cada banco de filtro 402 convierte cada cuadro de un canal transmitido digital correspondiente yx (n ) en el dominio de tiempo a un conjunto de coeficientes de entrada y, (k) en el
dominio de frecuencia. El bloque de mezcla ascendente 404 mezcla ascendentemente cada sub-banda de E coeficientes de canal transmitido correspondientes a una sub-banda correspondiente de C coeficientes de dominio de frecuencia mezclados ascendentemente. La ecuación (4) representa la mezcla ascendente de la k-esima sub-banda de coeficientes de canal transmitidos (yt(k), y2(k), ,yF(k)) para generar la k-ésima sub-banda
de coeficientes mezclados ascendentemente {st k),s2{k), ,sc (k)) como sigue :
en donde Uff es una matriz de mezcla ascendente de E por C de valor real. La realización de la mezcla ascendente en el dominio de frecuencia permite que la mezcla ascendente sea aplicada individualmente en cada diferente sub-banda. Cada retardo 406 aplica un valor de retardo d? (k) en base a un código de BCC correspondiente para datos ICTD para asegurar que los valores de ICTD deseados aparezcan entre ciertos pares de canales de reproducción. Cada multiplicador 408 aplica un factor de escalamiento a (k) en base a un código de BCC correspondiente para datos ICLD para asegurar que los valores de ICLD deseados aparezcan entre ciertos pares de canales de reproducción. El bloque de correlación 410 efectúa
una operación de des-correlación A basada en códigos de BCC correspondientes para datos de ICC para asegurar que los valores de ICC deseados aparezcan entre ciertos pares de canales de reproducción. Una descripción adicional de las operaciones del bloque de correlación 410 se puede encontrar en la solicitud de patente estadounidense No. 10/155,437, presentada el 05/24/02 como Baumgarte 2-10. La síntesis de valores de ICLD puede ser menos molesta que la síntesis de valores ICTD e ICC, puesto que la síntesis de ICLD involucra solamente el escalamiento de las señales de sub-banda. Puesto que los indicaciones de ICL son los indicaciones direccionales más comunmente usados, es usualmente más importante que los valores de ICLD aproximados a aquellos de la señal de audio original. Como tal, los datos de ICLD podrían ser estimados entre todos los pares de canales. Los factores de escalamiento a ? (k) (l# #C) para cada sub-banda son preferiblemente escogidos de tal manera que la energía de sub-banda de cada canal de reproducción se aproxime a la energía correspondiente del canal de audio derivada original. Un objetivo puede ser aplicar relativamente pocas modificaciones de señal para sintetizar valores de ICTD e ICC. Como tal, los datos de BCC podrían no incluir valores de ICTD e ICC para todos los pares de canales. En aquel caso, el smtetizador de BCC 400 sintetizaría valores de ICTD e ICC solamente entre ciertos pares de canales.
Cada banco de filtros inversos 412 convierte un conjunto de coeficientes sintetizados correspondientes x, (k) en el dominio de frecuencia a un cuadro de un canal de reproducción digital correspondiente x, (n) . Aunque la figura 4 muestra todos los E canales transmitidos siendo convertidos al dominio de frecuencia para la subsecuente mezcla ascendente y procesamiento de BCC, en implementaciones alternativas, uno o más (pero no todos) los E canales transmitidos se podrían desviar de algo o todo el procesamiento mostrado en la figura 4. Por ejemplo, uno o más de los canales transmitidos pueden ser canales sin modificar que no son sometidos a ninguna mezcla ascendente. Además de ser uno o mas de los C canales de reproducción, estos canales sin modificar podrían ser a su vez, no tener que ser usados como canales de referencia a los cuales se aplica procesamiento de BCC para sintetizar uno o más de los otros canales de reproducción. Ya sea en un caso u otro, tales canales sin modificar pueden ser sometidos a retardos para compensar el tiempo de procesamiento involucrado en la mezcla ascendente y/o procesamiento de BCC usado para generar el resto de los canales de reproducción. Nótese que, aunque la figura 4 muestra C canales de reproducción siendo sintetizados a partir de E canales transmitidos, en donde C era también el número de canales de
entrada originales, la síntesis de BCC no está limitada a aquel número de canales de reproducción. En general, el número de canales de reproducción puede ser cualquier número de canales, en los que se incluyen números mayores o menores que C y posiblemente aún situaciones en donde el número de canales de reproducción es igual o menor que el número de canales transmitidos .
"Diferencias perceptualmen e relevantes" entre canales de audio Suponiendo una sola señal de suma, BCC sintetiza una señal de audio estereofónica o de multicanal de tal manera que ICTD, ICLD, e ICC se aproximan a los indicaciones correspondientes de la señal de audio original. En lo siguiente, se discute el papel de ICTD, ICLD, e ICC en relación con los atributos de imagen espacial auditivas. El conocimiento acerca de la audición espacial implica que para un evento auditivo, ICTD e ICC están relacionados con la dirección percibida. Cuando se consideran respuestas de impulso de sala binaural (BRIR) de una fuente, hay una relación entre el ancho del evento auditivo y la envolvente de escucha y datos de ICC estimados para partes prematuras y posteriores de las BRIR. Sin embargo, la relación entre ICC y estas propiedades para señales generales (y no solo las BRIR) no es directa.
Las señales de audio estéreo y de multicanal contienen usualmente una mezcla compleja de señales de fuente concurrentemente activas superpuestas por los componentes de señal reflejados resultantes de la grabación en espacios cerrados o agregados por el técnico de grabación para crear artificialmente una impresión espacial. Señales de diferentes fuentes y sus reflejos ocupan diferentes regiones en el plano de tiempo-frecuencia. Esto es reflejado por ICT, ICLD e ICC que varían como función del tiempo y frecuencia. En este caso, la relación entre ICTD, ICLD, e ICC instantáneos y direcciones de eventos auditivos e impresión espacial no es obvia. La estrategia de ciertas modalidades de BCC es sintetizar ciegamente estos indicaciones, de tal manera que se aproximen a los indicaciones correspondientes de la señal de audio original . Bancos de filtros con sub-bandas de anchos de bandas de anchos de bandas iguales a dos veces el ancho de banda rectangular equivalente (ERB) son utilizados. La escucha informal revela que la calidad de audio de BCC no mejora notablemente cuando se escoge una resolución de frecuencia más alta. Una resolución de frecuencia más baja puede ser deseable, puesto que da como resultado menos valores de ICTD, ICLD e ICC que necesitan ser transmitidos al descodificador y asi en una velocidad de bits más baja.
Con respecto a la resolución de tiempo, ICTD, ICLD e ICC son considerados comunmente a intervalos de tiempo regulares. Se obtiene un desempeño alto cuando ICTD, ICLD e ICC son considerados aproximadamente cada 4 a 16 ms. Nótese que, a no ser que los indicaciones sean considerados a intervalos de tiempo muy cortos, el efecto de precedencia no es considerado directamente. Suponiendo un par de adelanto-retraso clásico de estimulo de sonido si el adelanto y el retraso caen a un intervalo de tiempo en donde solamente un conjunto de indicaciones es sintetizado, entonces la dominancia de localizacion del delantero no es considerada. A pesar de esto, BCC obtiene calidad de audio reflejada en una puntuación de MUSHRA promedio de aproximadamente 87 (esto es, calidad de audio "excelente") en promedio y en hasta casi 100 para ciertas señales de audio. La diferencia perceptualmente pequeña frecuentemente obtenida entre la señal de referencia y la señal sintetizada implica que los indicaciones relacionados con un amplio intervalo de atributos de imagen espacial auditivas son implícitamente considerados al sintetizar ICTD, ICLD e ICC a intervalos de tiempo regulares. En lo siguiente, se dan algunos argumentos de cómo ICTD, ICLD e ICC se pueden relacionar con un intervalo de atributos de imagen espacial auditivos.
Estxmación de indicaciones espaciales
En lo siguiente, se describe cómo ICTD, ICLD e ICC son estimados. La velocidad de bits para la transmisión de estos indicaciones espaciales (cuantificados y codificados) puede ser de solo pocos kb/s y así, con BCC, es posible transmitir señales de audio estéreo y de multicanal a velocidades de bits cercanas a aquella que se requiere para un solo canal de audio. La figura 5 muestra un diagrama de bloques del estimador de BCC 208 de la figura 2, de acuerdo con una modalidad de la presente invención. El estimador de BCC 208 comprende bancos de filtros (FB) 502, que pueden ser los mismos como los bancos de filtros 302 de la figura 3 y el bloque de estimación 504, que genera ICTD, ICLD e ICC indicaciones espaciales para cada sub-banda de frecuencia diferente generada por los bancos de filtros 502.
Estimación de ICTD, ICLD e ICC para señales estéreo Las siguientes medidas son usadas para ICTD, ICLD e ICC para señales de sub-banda correspondientes x¡ (k) y x2{k) de dos canales de audio (por ejemplo estéreo) : ICTD [muestras] : ,( ) = argmax{Fl2(f/,¿)} ,
con un valor estimativo de tiempo corto de la función de correlación cruzada normalizada dada por la ecuación (8) como sigue:
en donde
d. - max i-d, 0} , (9) d2 = max{c/,?}
y p- - (d, k) es un valor estimativo de tiempo corto de
la media de .v, (k - t )x2 (k - d2) .
ICLD [dB] :
?Z,- (*) = 101ogI0 ?o;
I CC : cl 2(/r) = max |Fl 2 (í/, ¿r)| . di :
Nótese que el valor absoluto de la correlación cruzada normalizada es considerado y cn (k) tiene un intervalo de
[0,1] .
Estimación de ICTD, ICLD e ICC para señales de audio de multicanal Cuando hay más de dos canales de entrada, es comúnmente suficiente definir ICTD e ICLD entre un canal de referencia (por ejemplo número de canal 1) y los otros canales,
como se ilustra en la figura 6 para el caso de C = 5 canales, en donde tic(k) y ?Ln(k) denotan el ICTD e ICLD, respectivamente, entre el canal de referencia 1 y canal c. En contraposición con ICTD e ICLD, ICC tiene comúnmente más grados de libertad. El ICC como se define puede tener diferentes valores entre todos los pares de canales de entrada posibles. Para C canales, hay C(C-l)/2 pares de canales posibles; por ejemplo para 5 canales hay 10 pares de canales como se ilustra en la figura 7 (a). Sin embargo, tal esquema requiere que, para cada sub-banda a cada índice de tiempo, los valores de C(C-l)/2 ICC sean estimados y transmitidos, dando como resultado alta complejidad computacional y alta velocidad de bits. Alternativamente, para cada sub-banda, ICTD e ICLD determinan la dirección a la cual se proporciona el evento auditivo del componente de señal correspondiente en la sub-banda. Un solo parámetro de ICC por sub-banda puede luego ser usado para describir la coherencia global entre todos los canales de audio. Se pueden obtener buenos resultados al estimar y transmitir indicaciones de ICC solamente entre los dos canales con la mayor energía en cada sub-banda en cada índice de tiempo. Esto es ilustrado en la figura 7 (b) , en donde para los instantes de tiempo k-1 y k, los pares de canales
(3,4) y (1,2) son más fuertes, respectivamente. Una regla
heurística puede ser usada para determinar ICC entre los otros pares de canales.
Síntesis de indicaciones espaciales La figura 8 muestra un diagrama de bloques de una implementación del sintetizador de BCC 400 de la figura 4 que puede ser usada en un descodificador de BCC para generar una señal de audio estéreo o de multicanal dada una señal de suma transmitida individual s(n) más los indicaciones espaciales. La señal de suma s(n) es descompuesta en sub-bandas, en donde s(k) denota una de tales sub-bandas. Para generar las sub-bandas correspondientes de cada uno de los canales de salida, se aplican retardos dc, factores de escala ac, y filtros hc a la sub-banda correspondiente de la señal de suma. (Por simplicidad de notación, el índice de tiempo k es ignorado en los retardos, factores de escala y filtros). Los ICTD son sintetizados al imponer retardos, ICLD por escalamiento e ICC al aplicar filtros de des-correlación. El procesamiento mostrado en la figura 8 es aplicado independientemente a cada sub-banda.
Síntesis de ICTD Los retardos dc son determinados a partir de los ICTD tíc(k) de acuerdo con la ecuación (12) como sigue:
El retardo para el canal de referencia di es calculado de tal manera que la magnitud máxima de los retardos dc es minimizada. Mientras menos las señales de sub-banda son modificadas, hay menos peligro de que se presenten artefactos. Si la velocidad de toma de muestras de sub-banda no proporciona resolución de tiempo suficientemente alta para síntesis de ICTD, los retardos pueden ser impuestos más precisamente al utilizar filtros de todos los pasos apropiados. Síntesis de ICLD Con el fin de que señales de sub-banda de salida tengan ICLD deseados ?Ln (k) entre el canal c y el canal de referencia 1, los factores de ganancia ac deben satisfacer la ecuación (13) como sigue: ¿/-i, (A) ^ = 10 20 13'
Adicionalmente, las sub-bandas de salida son preferiblemente normalizadas, de tal manera que la suma de la energía de todos los canales de salida es igual a la energía de la señal de suma de entrada. Puesto que la energía de señal original total en cada sub-banda es preservada en la señal de suma, esta normalización da como resultado la energía de sub-banda absoluta para cada canal de salida que se aproxima a la
energía correspondiente de la señal de audio de entrada del codificador original. Dadas estas restricciones, los factores de escala ac son dados por la ecuación (14) como sigue:
Síntesis de ICC En ciertas modalidades, el objetivo de la síntesis de ICC es reducir la correlación entre las sub-bandas después que se han aplicado retardos y escalamientos, sin afectar ICTD e ICLD. Esto se puede obtener al diseñar los filtros hc en la figura 8 de tal manera que ICTD e ICLD se hacen variar efectivamente como función de la frecuencia de tal manera que la variación promedio es cero en cada sub-banda (banda critica auditiva) . La figura 9 ilustra como se hacen variar ICTD e ICLD dentro de una sub-banda como función de la frecuencia. La amplitud de la variación de ICTD e ICLD determina el grado de des-correlacion y es controlado como función de ICC. Nótese que ICTD se hace variar suavemente (como en la figura 9 (8a)), en tanto que ICLD se hacen variar aleatoriamente (como en la figura 9 (b) ) . Se podría hacer variar ICLD tan suavemente como ICTD, pero esto daría como resultado mas coloración de las señales de audio resultantes.
Otro método para sintetizar ICC, particularmente apropiado para síntesis de ICC de multicanal, es descrito en más detalle en Faller, "Parametric multi-channel audio coding: Synthesis of coherence cues," IEEE Trans. on Speech and Audio Proc., 2003, las enseñanzas del cual son incorporados en la presente por referencia. Como función del tiempo y la frecuencia, cantidades específicas de reverberación tardía artificial son agregadas a cada uno de los canales de salida para obtener una ICC deseada. Adicionalmente, se puede aplicar modificación espectral de tal manera que la envolvente espectral de la señal resultante se aproxima a la envolvente espectral de la señalada de audio original. Otras técnicas de síntesis ICC relacionadas y no relacionadas para señales estéreo (o pares de canales de audio) han sido presentadas en E. Schuijers, W. Oomen, B. den Brinker, and J. Breebaart, "Advances m parametric coding for high-quality audio," ?n Preprint 114th Conv. Aud. Eng. Soc., marzo de 2003 y J. Engdegard, H. Purnhagen, J. Roden, and L. Liljeryd, "Synthetic ambience m parametric stereo coding," ín Preprint 117 h Conv. Aud. Eng. Soc., mayo de 2004, las enseñanzas de ambos de los cuales son incorporados en la presente por referencia.
C a E BCC
Como se describe previamente, se puede implementar
BCC con más de un canal de transmisión. Una variación de BCC se ha descrito que representa C canales de audio no como un solo canal (transmitido), sino como E canales, denotado C a E BCC. Hay (por lo menos) dos motivaciones para C a E BCC: BCC con un canal de transmisión proporciona una trayectoria compatible hacia atrás para actualizar sistemas monoaurales existentes para reproducción de audio estéreo o de multicanal. Los sistemas actualizados transmiten la señal de suma mezclada descendentemente de BCC por medio de la infraestructura monoaural existente, en tanto que adicionalmente transmite la información lateral de BCC. C a E BCC es aplicable a codificación compatible hacia atrás de canal E de audio de canal C. C a E BCC introduce escalabilidad en términos de diferentes grados de reducción del numero de canales trasmitidos. Se espera que mientras más canales de audio son transmitidos, mejor será la calidad de audio. Detalles de procesamiento de señales para C a E BCC, tal como como definir los indicaciones de ICTD, ICLD e ICC, son descritos en la solicitud de patente estadounidense No. de serie 10/762,100, presentada el 01/20/04 (Faller 13-1) .
Formación de canal individual En ciertas modalidades, tanto BCC con un canal de
transmisión y C a E de BCC involucran algoritmos para la síntesis de ICTD, ICLD, y/o ICC. Usualmente, es suficiente sintetizar los indicaciones de ICTD, ICLD, y/o ICC aproximadamente cada 4 a 30 ms . Sin embargo, el fenómeno perceptual de efecto de precedencia implica que hay instantes de tiempo específicos cuando el sistema auditivo humano evalúa indicaciones a una resolución de tiempo más alta (por ejemplo, cada 1 a 10 ms) . Un solo banco de filtros estático no puede proporcionar comunmente resolución de frecuencia suficientemente alta, apropiada para la mayoría de los instantes de tiempo, en tanto que proporciona resolución de tiempo suficientemente alta a instantes de tiempo cuando el efecto de precedencia se vuelve efectivo. Ciertas modalidades de la presente invención son concernientes con un sistema que usa relativamente síntesis de ICTD, ICLD, y/o ICC de ba a resolución de tiempo, en tanto que agrega procesamiento adicional para tratar los instantes de tiempo cuando se requiere resolución de tiempo más alta. Adicionalmente, en ciertas modalidades, el sistema elimina la necesidad de tecnología de conmutación de ventana adaptable de señal que es usualmente difícil de integrar en la estructura de un sistema. En ciertas modalidades, las envolventes temporales de uno o mas de los canales de audio de entrada del codificador original son estimadas. Esto se puede hacer, por ejemplo
directamente mediante análisis de la estructura de tiempo de la señal o al examinar la autocorrelación del espectro de la señal con respecto a la frecuencia. Ambos procedimientos serán elaborados adicionalmente en los ejemplos de implementación subsecuentes. La información contenida en estas envolventes es transmitida al descodificador (como códigos de tiene de envolvente) si se requiere perceptualmente y es ventajoso. En ciertas modalidades, el descodificador aplica cierto procesamiento para imponer estas envolventes temporales deseadas en sus canales de audio de salida: Esto se puede obtener mediante procesamiento de TP, por ejemplo, manipulación de la envolvente de la señal mediante multiplicación de las muestras de dominio de tiempo de la señal con una función de modificación de amplitud que varía en el tiempo. Un procesamiento similar puede ser aplicado a muestras espectrales/sub-banda si la resolución al tiempo de las sub-bandas es suficientemente alta (al costo de una resolución de frecuencia burda) . Alternativamente, se puede usar una convolución/filtración de la representación espectral de la señal con respecto a la frecuencia de manera análoga a aquella usada en el arte previo por el propósito de formar el ruido de cuantificación .de un codificador de audio de baja velocidad de bits o para mejorar la intensidad de señales codificadas estéreo. Esto es preferido si el banco de filtros tiene una
resolución de frecuencia alta y por consiguiente una resolución de tiempo más bien baja. Para el procedimiento de convolución/filtración : El método de formación de envolvente es extendido desde intensidad estéreo a codificación de multicanal C a E. La técnica comprende un ajuste en donde la formación de envolvente es controlada mediante información parametrica
(por ejemplo, banderas binarias) generadas por el codificador pero se lleva a cabo realmente utilizando conjuntos de coeficientes de filtro derivados del descodificador . En otro ajuste, conjuntos de coeficientes de filtro son transmitidos del codificador, por ejemplo solamente cuando es necesario perceptualmente y/o benéfico. Lo mismo es también cierto para el procedimiento de dominio de tiempo/dominio de sub-banda. Por consiguiente, se pueden introducir criterios (por ejemplo, detección de transitorios y un valor estimativo de tonalidad) para controlar adicionalmente la transmisión de información de envolvente. Pueden haber situaciones cuando es favorable deshabilitar el procesamiento de TP con el fin de evitar artefactos potenciales. Con el fin de estar en el lado seguro, es una buena estrategia dejar el procesamiento temporal deshabilitado de manera predeterminada (esto es, BCC operaría de acuerdo con un esquema BCC convencional). El procesamiento adicional es habilitado solamente cuando se espera que una
resolución temporal mas alta de los canales produzca mejora, por ejemplo, cuando se espera que el efecto de precedencia se vuelva activo. Como se afirma anteriormente, este control de habilitación/deshabilitación puede ser obtenido mediante detección de transitorios. Esto es, si se detecta un transitorio, entonces el procesamiento de TP es habilitado. El objeto de precedencia es más efectivo para los transitorios. La detección de transitorios puede ser usada de manera anticipada para formar efectivamente no solo transitorios individuales sino también los componentes de señal brevemente antes y después del transitorio. Maneras posibles para detectar transitorios incluyen: Observar la envolvente temporal de las señales de entrada de codificador BCC o señal (es) de suma de BCC transmitidas. Si hay un incremento repentino en energía, entonces ocurrió un transitorio. Examinar la ganancia de codificación predictiva lineal (LPC) tal como es estimada en el codificador o descodificador . Si la ganancia de predicción de LPC excede un cierto umbral, entonces se puede suponer que la señal es transitoria o altamente fluctuante. El análisis de LPC es calculado en la autocorrelación del espectro. Adicionalmente, para impedir artefactos posibles en las señales tonales, el procesamiento de TP preferiblemente no
es aplicado cuando la tonalidad de la(s) señal (es) de suma transmitida (s ) es alta. De acuerdo con ciertas modalidades de la presente invención, las envolventes temporales de los canales de audio originales individuales son estimados en un codificador ele BCC con el fin de habilitar un descodificador de BCC para generar canales de salida con envolventes temporales similares (o perceptualmente similares) a aquellas de los canales de audio originales. Ciertas modalidades de la presente invención tratan el fenómeno de efecto de precedencia. Ciertas modalidades de la presente invención involucran la transmisión de códigos de indicación de envolventes ademas de los otros códigos de BCC tales como ICLD, ICTD, y/o ICC, como parte de la información lateral de BCC. En ciertas modalidades de la presente invención, la resolución de tiempo para los indicaciones de envolvente temporal es más fina que la resolución de tiempo de otros códigos de BCC (por ejemplo, ICLD, ICTD, ICC) . Esto permite que la formación de envolvente sea efectuada dentro del período de tiempo estipulado por una ventana de síntesis que corresponde a la longitud de un bloque de un canal de entrada para el cual los otros códigos de BCC son derivados.
Ejemplos de implementación La figura 10 muestra un diagrama de bloques del
procesamiento de dominio de tiempo que es agregado a un codificador de BCC, tal como el codificador 202 de la figura 2, de acuerdo con una modalidad de la presente invención. Como se muestra en la figura 10 (a), cada analizador de proceso temporal (TPA) 1002 estima la envolvente temporal de un canal de entrada original diferente xc (n) , aunque en general cualquiera de uno o mas de los canales de entrada pueden ser analizados. La figura 10 (b) muestra un diagrama de bloques de una implementación a base de dominio de tiempo posible de TPA 1002 en el cual las muestras de señales de entrada son elevadas al cuadrado (1006) y luego filtradas en paso de bajos (1008) para caracterizar la envolvente temporal de la señal de entrada. En modalidades alternativas, la envolvente temporal puede ser estimada utilizando un método de autocorrelacion/LPC o con otros métodos, por ejemplo, utilizando una transformada de Hilbert. El bloque 1004 de la figura 10 (a) parametriza, cuantifica y codifica las envolventes temporales estimadas antes de su transmisión como información de procesamiento temporal (TP) (esto es, códigos de indicación de envolventes) que es incluida en la información lateral de la figura 2. En una modalidad, un detector (no mostrado) dentro del bloque 1004 determina si el procesamiento de TP en el descodificador mejorara la calidad de audio, de tal manera que el bloque 1004 transmite información lateral de TP solamente
durante aquellos instantes de tiempo cuando la calidad de audio será mejorada mediante el procesamiento de TP. La figura 11 ilustra una aplicación de dominio de tiempo ejemplar del procesamiento de TP en el contexto del sintetizador de BCC 400 de la figura 4. En esta modalidad, hay una sola señal de suma transmitida s ( n) , C señales base son generadas mediante replicación de aquella señal de suma y la formación de envolvente es aplicada individualmente a canales sintetizados diferentes. En modalidades alternativas, el orden de retardos, escalamiento y otro procesamiento pueden ser diferentes. Además, en modalidades alternativas, la formación de envolvente no está restringida al procesamiento de cada canal independientemente. Esto es especialmente cierto para implementaciones a base de convolución/fíltración que aprovechan la coherencia sobre bandas de frecuencia para derivar información en cuanto la estructura fina temporal de la señal . En la figura 11 (a), el bloque de descodificación 1102 recupera señales de envolvente temporal a para cada canal de salida de la información lateral de TP transmitida del codificador de BCC y cada bloque de TP 1104 aplica la información de envolvente correspondiente para formar la envolvente del canal de salida. La figura 11 (b) muestra un diagrama de bloques de una implementación a base de dominio de tiempo posible de TP 1104
en la cual las muestras de señal sintetizadas son elevadas al cuadrado (1106) y luego filtradas en paso de bajos (1108) para caracterizar la envolvente temporal b del canales sintetizado. Se genera un factor de escala (por ejemplo, sqrt ( a /b) ) (1110) y luego es aplicado (1112) al canal sintetizado para generar un canal de salida que tiene una envolvente temporal sustancialmente igual a aquella del canal de entrada original correspondiente . En implementaciones alternativas de TPA 1002 de la figura 10 y TP 1104 de la figura 11, las envolventes temporales son caracterizadas utilizando operaciones de magnitud en lugar de elevar al cuadrado las muestras de señal. En tales implementaciones, se puede usar la proproción a/b como el factor de escala sin tener que aplicar la operación de raíz cuadrada. Aunque la operación de escalamiento de la figura 11 (c) corresponde a una implementación a base de dominio de tiempo del procesamiento de TP, el procesamiento de TP (también como procesamiento de TPA y TP inverso (ITP)) puede también ser implementado utilizando señales de dominio de frecuencia, como en la modalidad de las figuras 16-17 (descritas posteriormente en la presente). Como tal, por propósitos de esta especificación, el término "función de escalamiento" debe ser interpretado para cubrir ya sea operaciones de dominio de tiempo u operaciones de dominio de frecuencia, tales como las
operaciones de filtración de las figuras 17 (b) y (c) . En general, cada TP 1104 está diseñado preferiblemente de tal manera que no modifica la energía de la señal (esto es, energía). Dependiendo de la implementación particular, esta energía de señal puede ser una energía de señal promedio de tiempo corto en cada canal, por ejemplo basada en la energía señal total por canal en el período de tiempo definido por la ventana de síntesis o alguna otra medida de energía apropiada . Como tal, el escalamiento para la síntesis de ICLD
(por ejemplo, utilizando multiplicadores 408) puede ser aplicado antes o después de la formación de envolvente. Puesto que el escalamiento de plena banda de las señales de salida de BCC puede dar como resultado artefactos, la formación de envolvente podría ser aplicada solamente a frecuencias especificadas, por ejemplo frecuencias más grandes que una cierta frecuencia de corte fTP (por ejemplo, 500 Hz) . Nótese que el intervalo de frecuencia para el análisis (TPA) puede diferir del intervalo de frecuencia para la síntesis (TP) . Las figuras 12 (a) y (b) muestran implementaciones posibles de TPA 1002 de la figura 10 y TP 1104 de la figura 11 en donde se aplica formación de envolvente solamente a frecuencias mas altas que la frecuencia de corte fTP. En particular, la figura 12 (a) muestra la adición del filtro de
paso de altos 1202, que filtra frecuencias más bajas que fTp antes de la caracterización de envolvente temporal. La figura 12 (b) muestra la adición del banco de filtro de dos bandas 1204 que tiene una frecuencia de corte fTP entre las dos sub-bandas, en donde solamente la parte de alta frecuencia es formada temporalmente. Luego el banco de filtros inverso de dos bandas 1206 recombinada la parte de baja frecuencia con la parte de alta frecuencia formada temporalmente para generar el canal de salida . La figura 13 muestra un diagrama de bloques del procesamiento de dominio de frecuencia que es agregado a un codificador de BCC, tal como el codificador 202 de la figura 2, de acuerdo con una modalidad alternativa de la presente invención. Como se muestra en la figura 13 (a), el procesamiento de cada TPA 1302 es aplicado individualmente en una sub-banda diferente, en donde cada banco de filtros (FB) es el mismo como FB correspondiente 302 de la figura 3 y el bloque 1304 es una implementación de sub-banda análoga al bloque 1004 de la figura 10. En implementaciones alternativas, las sub-bandas para el procesamiento de TPA pueden diferir de las sub-bandas de BCC. Como se muestra en la figura 13 (b), el TPA 1302 puede ser implementado análogo al TPA 1002 de la figura 10. La figura 14 ilustra una aplicación de dominio de frecuencia ejemplar del procesamiento de TP en el contexto del sintetizador de BCC 400 de la figura 4. El bloque de
descodificación 1402 es análogo al bloque de descodificación 1102 de la figura 11, y cada TP 1404 es una implementacion de sub-banda análoga a cada TP 1104 de la figura 11, como se muestra en la figura 14 (b) . La figura 15 muestra un diagrama de bloques del procesamiento de dominio de frecuencia que es agregado a un codificador de BCC, tal como el codificador 202 de la figura 2, de acuerdo con otra modalidad alternativa de la presente invención. Este esquema tiene el siguiente ajuste: La información de envolvente para cada canal de entrada es derivada mediante cálculo de LPC a través de frecuencia (1502), parametrizado (1504) , cuantificado (1506) , y codificada a la corriente de bits (1508) mediante el codificador. La figura 17 (a) ilustra un ejemplo de implementación del TPA 1502 de la figura 15. La información lateral a ser transmitida al sintetizador de multicanal (descodificador) podrían ser los coeficientes de filtro de LPC calculados mediante un método de autocorrelación, los coeficientes de reflexión resultantes o pares espectrales de línea, etc., por el propósito de mantener la velocidad de datos de información lateral pequeña, parámetros derivados de, por ejemplo, la ganancia de predicción LPC como banderas binarias de "transitorios presentes/no presentes" . La figura 16 ilustra otra aplicación de dominio de frecuencia ejemplar del procesamiento de TP en el contexto del
sintetizador de BCC 400 de la figura 4. El procesamiento de codificación de la figura 15 y el procesamiento de descodificador de la figura 16 pueden ser implementados para formar un par correspondiente de una configuración de codificador/descodificador . El bloque de descodificación 1602 es análogo al bloque de descodificación 1402 de la figura 14, y cada TP 1604 es análogo a cada TP 1404 de la figura 14. En este sintetizador de multicanal, la información lateral de TP transmitida es descodificada y usada para controlar la formación de envolvente de canales individuales, sin embargo, además, el sintetizador incluye una etapa de caracterizador de envolvente (TPA) 1606 para el análisis de señales de suma transmitidas, un TP inverso (ITP) 1608 para "aplanar" la envolvente temporal de cada señal base, en donde los ajustadores de envolvente (TP) 1604 imponen una envolvente modificada sobre cada canal de salida. Dependiendo de la implementación particular, ITP puede ser aplicado ya sea antes o después de la mezcla ascendente. En detalle, esto se hace utilizando el procedimiento de convolución/filtración en donde se obtiene la formación de envolvente mediante la aplicación de filtros a base de LPC sobre el espectro a través de frecuencia como se ilustra en las figuras 17 (a) , (b) , y (c) para el procesamiento de TPA, ITP, y TP, respectivamente. En la figura 16, el bloque de control 1610 determina si se va a implementar o no la formación de envolvente y si es así, estará basada en
(1) la información lateral de TP transmitida o (2) los datos de envolvente caracterizados localmente de TPA 1606. Las figuras 18 (a) y (b) ilustran dos modos ejemplares para poner el operación el bloque de control 1610 de la figura 16. En la implementación de la figura 18 (a), un conjunto de coeficientes de filtro es transmitido al descodificador y la formación de envolvente mediante convolución/filtración se hace en base a los coeficientes transmitidos. Si se detecta la formación de transitorios que no es benéfica por el codificador, entonces no se envían datos de filtro y los filtros son deshabilitados (mostrado en la figura 18 (a) mediante conmutación a un conjunto de coeficientes de filtros unitario "[1,0...]"). En la implementación de la figura 18 (b) , solamente una "bandera de transitorio/no transitorio" es transmitida para cada canal y esta bandera es usada para activar o desactivar la formación en base a los conjuntos de coeficiente de filtro calculados a partir de las señales de mezcla descendente transmitidas en el descodificador .
Modalidades alternativas adicionales Aunque la presente invención se ha descrito en el contexto de esquemas de codificación de BCC en los cuales hay una sola señal de suma, la presente invención puede también ser implementada en el contexto de esquemas de codificación de BCC
que tienen dos o más señales de suma. En este caso, la envolvente temporal para cada señal de suma "base" diferente puede ser estimada antes de la aplicación de síntesis de BCC y diferentes canales de salida de BCC pueden ser generados en base a diferentes envolventes temporales, dependiendo de cuales señales de suma fueron usadas para sintetizar los diferentes canales de salida. Un canal de salida que es sintetizado a partir de dos o mas canales de suma diferentes podría ser generado en base a una envolvente temporal efectiva que toma en cuenta (por ejemplo, vía promediacion ponderada) los efectos relativos de los canales de suma constituyentes. Aunque la presente invención se ha descrito en el contexto de esquemas de codificación de BCC que involucran códigos de ICTD, ICLD, e ICC, la presente invención puede también ser implementada en el contexto de otros esquemas de codificación de BCC que involucran solamente uno o dos de estos tres tipos de códigos (por ejemplo, ICLD e ICC, pero no ICTD) y/o uno o más tipos de códigos adicionales. Además, la secuencia de procesamiento de síntesis de BCC y formación de envolvente puede variar en implementaciones diferentes. Por ejemplo, cuando la formación de envolvente es aplicada a señales de dominio de frecuencia, como en las figuras 14 y 16, la formación de envolvente podría alternativamente ser implementada después de la síntesis de ICTD (en aquellas modalidades que emplean síntesis de ICTD) , pero antes del
análisis de ICLD. En otras modalidades, la formación de envolvente podría ser aplicada a señales mezcladas ascendentemente antes de que se aplique cualquier otra síntesis de BCC. Aunque la presente invención se ha descrito en el contexto de codificadores de BCC que generan códigos de indicación de envolvente a partir de los canales de entrada originales, en modalidades alternativas, los códigos de indicación de envolvente podrían ser generados a partir de canales mezclados descendentemente correspondientes a los canales de entrada originales. Esto permitiría la implementación de un procesador (por ejemplo, un codificador de indicación de envolvente separado) que podría (1) aceptar la salida de un codificador de BCC que genera los canales mezclados descendentemente y ciertos códigos de BCC (por ejemplo, ICLD, ICTD, y/o ICC) y (2) caracterizan la(s) envolvente (s) temporal (es) de uno o más de los canales mezclados descendentemente para agregar códigos de indicación de envolvente a la información lateral de BCC. Aunque la presente invención se ha descrito en el contexto de esquemas de codificación de BCC en los cuales los códigos de indicación de envolvente son transmitidos con uno o más canales de audio (esto es, los E canales transmitidos) junto con otros códigos de BCC, en modalidades alternativas, los códigos de indicación de envolvente podrían ser
transmitidos, ya sea solos o con otros códigos de BCC, a un lugar (por ejemplo, un descodificador o un dispositivo de almacenamiento) que ya tiene los canales transmitidos y posiblemente otros códigos de BCC. Aunque la presente invención se ha descrito en el contexto de esquemas de codificación de BCC, la presente invención puede también ser implementada en el contexto de otros sistemas de procesamiento de audio en los cuales las señales de audio son des-correlacionadas u otro procesamiento de audio que necesita para des-correlacionar señales. Aunque la presente invención se ha descrito en el contexto de implementaciones en las cuales el codificador recibe la señal de audio de entrada en el dominio de tipo y genera señales de audio transmitidas en el dominio de tiempo y el descodificador recibe las señales de audio transmitidas en el dominio de tiempo y genera señales de audio de reproducción en el dominio de tiempo, la presente invención no está limitada de esta manera. Por ejemplo, en otras implementaciones, cualquiera de una o más de la señales de audio de reproducción de entrada, transmitidas podrían ser representadas en un dominio de frecuencia. Codificadores y/o descodificadores de BCC pueden ser usados en conjunción con o incorporados a una variedad de diferentes aplicaciones o sistemas, en los que se incluyen sistemas para televisión o distribución de música electrónica,
cines, difusión, flujo y/o recepción. Estos incluyen sistemas para codificar/descodificar transmisiones vía por ejemplo medios terrestres, satélite, cable, internet, intraredes o medios físicos (por ejemplo, discos compactos, discos versátiles digitales, chips semi-conductores, discos duros, tarjetas de memoria y los semejantes) . Codificadores y/o descodificadores de BCC pueden también ser usados en juegos y sistemas de juegos en los que se incluyen, por ejemplo productos de elementos de programación o software interactivos diseñados para mteractuar con un usuario para entretenimiento (acción, desempeñar papeles, estrategia, aventura, simulaciones, carreras, deportes, arcada, tarjetas y juegos de tablero) y/o de educación que pueden ser publicados para múltiples maquinas, plataformas o medios. Además, se pueden incorporar codificadores y/o descodificadores de BCC a aplicaciones de elementos de programación de PC que incorporan descodificacion digital (por ejemplo, reproductor, descodificador) y aplicaciones de elementos de programación que incorporan capacidades de codificación digital (por ejemplo, codificador, descodificador, recodificador y consolas) . La presente invención puede ser implementada como procesos a base de circuitos, en los que se incluyen implementaciones posibles como un solo circuito integrado (tal como un ASIC o un FPGA) , un modulo de múltiples chips, una sola tarjeta o un paquete de circuitos de múltiples tarjetas. Como
sera evidente para el experimentado en el arte, varias funciones de elementos de circuito pueden también ser implementadas como etapas de procesamiento en un programa de elementos de programación. Tales elementos de programación pueden ser empleados por ejemplo en un procesador de señales digital, microcontrolador o computadora de propósito general. La presente invención puede ser implementada en forma de métodos y aparatos para llevar a la práctica aquellos métodos. La presente invención puede también ser implementada en forma de código de programa implementado en medios tangibles, tales como discos flexibles, CD-ROM, discos duros o cualquier otro medio de almacenamiento que se puede leer por la máquina, en donde, cuando el código de programa es cargado a y efectuado por una máquina, tal como una computadora, la máquina se convierte en un aparato para llevar a la práctica la invención. La presente invención puede también ser implementada en forma de un código de programa, por ejemplo, ya sea almacenado en un medio de almacén, cargado a y/o ejecutado por una máquina o transmitido en algún medio o portador de transmisión, tal como en alambre o cableado eléctrico, por medio de fibras ópticas o vía radiación electromagnética, en donde, cuando el código de programa es cargado a y ejecutado por una máquina, tal como una computadora, la máquina se convierte en un aparato para llevar a la práctica la invención. Cuando es implementado en un procesador de propósito general o
multiusos, los segmentos de código de programa se combinan con el procesador para proporcionar un dispositivo único que opera análogamente a circuitos lógicos específicos. Se comprenderá además que varios cambios en detalles, materiales y disposiciones de las partes que han sido descritos e ilustrados con el fin de explicar la naturaleza de esta invención se pueden realizar por aquellos experimentados en el arte sin desviarse del alcance de la invención como se expresa en las siguientes reivindicaciones. Aunque las etapas en las siguientes reivindicaciones de método, si las hay, son citadas en una secuencia particular con una etiquetación correspondiente, a no ser que las citas de las reivindicaciones lo impliquen de otra manera una secuencia particular para implementar algunas o todas estas etapas, aquellas etapas no se proponen necesariamente estar limitadas a ser implementadas en aquella secuencia particular.
Claims (42)
- REIVINDICACIONES 1. Un método para la codificación de canales de audio, el método esta caracterizado porque comprende: generar uno o más códigos de indicación para uno o más canales de audio, en donde por lo menos un código de indicación es un código de indicación de envolvente generado por la caracterización de una envolvente temporal en uno de los uno o más canales de audio, en donde el uno o más códigos de indicación comprenden además uno o más de códigos de correlación de intercanal (ICC), código de diferencia de nivel mtercanal (ICLD), y códigos de diferencia de tiempo intercanal (ICTD), en donde una primera resolución de tiempo asociada con el código de indicación de envolvente es mas fina que una segunda resolución en el tiempo asociada con los otros códigos de indicación y en donde la envolvente temporal es caracterizada por el canal de audio correspondiente en un dominio de tiempo o individualmente para diferentes sub-bandas de señal del canales de audio correspondiente en un dominio de sub-banda; y transmitir el uno o más códigos de indicación.
- 2. El método de conformidad con la reivindicación 1, caracterizado porque comprende además transmitir E canal (es) de audio transmitidos correspondientes al uno o más canales de audio, en donde E=l .
- 3. El método de conformidad con la reivindicación 2, caracterizado porque: el uno o más canales de audio comprenden C canales de audio de entrada, en donde C>E; y los C canales de entrada son mezclados descendentemente para generar el (los) E canal (es) transmitidos .
- 4. El método de conformidad con la reivindicación 1, caracterizado porque el uno o más códigos de indicación son transmitidos para permitir que un descodificador efectúe la formación de envolvente durante la descodificación de (los) E canal (es) transmitidos en base al uno o más códigos de indicación, en donde el (los) E canal (es) de audio transmitidos corresponden al uno o más canales de audio, en donde E=l .
- 5. El método de conformidad con la reivindicación 4, caracterizado porque la formación de envolvente ajusta una envolvente temporal de una señal sintetizada generada por el descodificador para coincidir sustancialmente con la envolvente temporal caracterizada.
- 6. El método de conformidad con la reivindicación 1, caracterizado porque la envolvente temporal es caracterizada solamente para frecuencias especificadas del canal de audio correspondiente.
- 7. El método de conformidad con la reivindicación 8, caracterizado porque la envolvente temporal es caracterizada solamente para frecuencias del canal de audio correspondiente por encima de una frecuencia de corte especificada.
- 8. El método de conformidad con la reivindicación 10, caracterizado porque el dominio de sub-banda corresponde a un filtro de espejo de cuadratura (QMF) .
- 9. El método de conformidad con la reivindicación 1, caracterizado porque comprende además determinar si se habilita o deshabilita la caracterización.
- 10. El método de conformidad con la reivindicación 9, caracterizado porque comprende además generar y transmitir una bandera de habilitación/deshabilitación en base a la determinación de instruir a un descodificador si implementar o no la formación de envolvente durante la descodificación del (los) E canal (es) transmitidos correspondiente al uno o más canales de audio, en donde E=l.
- 11. El método de conformidad con la reivindicación 9, caracterizado porque la determinación está basada en análisis de un canal de audio para detectar transitorios en el canal de audio de tal manera que la caracterización es habilitada si se detecta la presencia de un transitorio.
- 12. El método de conformidad con la reivindicación 1, caracterizado porque la etapa de generación del código de indicación de envolvente incluye elevar al cuadrado o formar una magnitud y filtración de paso de bajos de muestras de señal del canal de audio o de las señales de sub-banda del canal de audio con el fin de caracterizar la envolvente temporal.
- 13. El método de conformidad con la reivindicación 1 o 12, caracterizado porque la etapa de generación comprende además la etapa de parametrización, cuantificación y codificación de una envolvente temporal estimada.
- 14. Un aparato para la codificación de canales de audio, el aparato está caracterizado porque comprende: medios para generar uno o más códigos de indicación para uno o más canales de audio, en donde porque por lo menos un código de indicación es un código de indicación de envolvente generado mediante la caracterización de una envolvente temporal en uno de los uno o más canales de audio, en donde los uno o más códigos de indicación comprende además uno o más de códigos de correlación de intercanal (ICC), códigos de diferencia de nivel de intercanal (ICLD), y códigos de diferencia de tiempo de intercanal (ICTD), en donde una primera resolución de tiempo asociada con el código de indicación de envolvente es más fina que una segunda resolución en el tiempo asociada con el (los) otros códigos de indicación y en donde la envolvente temporal es caracterizada para el canal de audio correspondiente en un dominio de tiempo o individualmente para diferentes sub-bandas de señal del canal de audio correspondiente en un dominio de sub-banda; y medios para transmisión del uno o más códigos de indicación .
- 15. Un aparato para la codificación de C de audio de entrada para generar E canal (es) de audio transmitidos, el aparato está caracterizado porque comprende: un analizador de envolvente para caracterizar una envolvente temporal de entrada de por lo menos uno de los C canales de entrada; un estimador de código adaptado para generar códigos de indicación para dos o más de los C canales de entrada, en donde los uno o más códigos de indicación comprenden ademas uno o mas de códigos de correlación de intercanal (ICC), código de diferencia de nivel de intercanal (ICLD), y códigos de diferencia de tiempo de intercanal (ICTD), en donde una primera resolución en el tiempo asociada con el código de indicación de envolvente es más fina que una segunda resolución en el tiempo asociada con el (los) otro(s) cód?go(s) de indicación y en donde la envolvente temporal es caracterizada para el canal de audio correspondiente en un dominio de tiempo o individualmente para diferentes sub-bandas de señal del canal de audio correspondiente en un dominio de sub-banda, y un mezclador descendente adaptado para mezclar descendentemente los C canales de entrada para generar el (los) E canal (es) transmitidos, en donde OE=l, en donde el aparato está adaptado para transmitir información acerca de los códigos de indicación y la envolvente temporal de entrada caracterizada para permitir que un descodificador efectué la síntesis y formación de envolvente durante la descodificación del (los) E canal (es) transmitidos.
- 16. El aparato de conformidad con la reivindicación 15, caracterizado porque: el aparato es un sistema seleccionado del grupo que consiste de una grabadora de video digital, una grabadora de audio digital, una computadora, un transmisor de satélite, un transmisor de cable, un transmisor de difusión terrestre, un sistema de entretenimiento en casa y un sistema de cine, y el sistema comprende el analizador de envolvente, estimador de código y mezclador descendente.
- 17. Un medio que se puede leer por la máquina que tiene codificado en el mismo código de programas, caracterizado porque, cuando el código de programa es ejecutado por la máquina, la maquina implementa el método de conformidad con la reivindicación 1.
- 18. Una corriente de bits de audio codificada, caracterizada porque tiene: uno o mas códigos de indicación generados para uno o más canales de audio, en donde por lo menos un código de indicación es un código de indicación de envolvente generado mediante la caracterización de una envolvente temporal en uno de los uno o más canales de audio, en donde porque el uno o más códigos de indicación comprenden además uno o más de códigos de correlación de mtercanal (ICC), código de diferencia de nivel de intercanal (ICLD), y códigos de diferencia de tiempo de intercanal (ICTD), en donde una primera resolución en el tiempo asociada con el código de indicación de envolvente es más fina que una segunda resolución en el tiempo asociada con el (los) otro(s) código (s) de indicación y en donde la envolvente temporal es caracterizada para el canal de audio correspondiente en un dominio de tiempo o individualmente para diferentes sub-bandas de señal del canal de audio correspondiente en un dominio de sub-banda, y + el uno o más códigos de indicación y E canal (es) de audio transmitidos corresponden al uno o más canales de audio, en donde E=l, son codificados a la corriente de bits de audio codificada .
- 19. Una corriente de bits de audio codificada, que comprende uno o más códigos de indicación y E canal (es) de audio transmitidos, caracterizada porque: el uno o más códigos de indicación son generados para uno o más canales de audio, en donde por lo menos un código de indicación es un código de indicación de envolvente generado mediante la caracterización de una envolvente temporal en uno de los uno o más canales de audio, en donde el uno o más códigos de indicación comprenden además uno o más códigos de correlación de intercanal (ICC), código de diferencia de nivel de intercanal (ICLD), y códigos de diferencia de tiempo de intercanal (ICTD), en donde una primera resolución en el tiempo asociada con el código de indicación de envolvente es más fina que una segunda resolución en el tiempo asociada con el (los) otro(s) código (s) de indicación, y en donde la envolvente temporal está caracterizada para el canal de audio correspondiente en un dominio de tiempo o individualmente para diferentes sub-bandas de señal del canal de audio correspondiente en un dominio de sub-banda; y el (los) E canal (es) de audio transmitidos corresponden al uno o mas canales de audio.
- 20. Un método para la descodificación de E canal (es) de audio transmitidos, para generar C canales de audio de reproducción, en donde OE=l, el método está caracterizado porque comprende: recibir códigos de indicación correspondiente al (los) E canal (es) transmitidos, en donde los códigos de indicación comprenden un código de indicación de envolvente correspondiente a una envolvente temporal caracterizada de un canal de audio correspondiente al (los) E canal (es) transmitidos, en donde el uno o más códigos de indicación comprenden además uno o más de códigos de correlación de intercanal (ICC), códigos de diferencia de nivel de intercanal (ICLD), y códigos de diferencia de tiempo de intercanal (ICTD), en donde una primera resolución de tiempo asociada con el código de indicación de envolvente es mas fina que una segunda resolución en el tiempo asociada con el (los) otro(s) cód?go(s) de indicación; mezclar ascendentemente uno o más del (los) £ canal (es) transmitidos para generar uno o más canales mezclados ascendentemente; y sintetizar uno o más de los C canales de reproducción mediante la aplicación de los códigos de indicación a uno o más canales mezclados ascendentemente, en donde el código de indicación de envolvente es aplicado a un canal mezclado ascendentemente o una señal sintetizada para ajustar una envolvente temporal de la señal sintetizada en base a la envolvente temporal caracterizada mediante escalamiento de dominio de tiempo o muestras de señal de dominio de sub-banda utilizando un factor de escalamiento, de tal manera que la envolvente temporal ajustada coincide sustancialmente con la envolvente temporal caracterizada.
- 21. El método de conformidad con la reivindicación 20 ++++, caracterizado porque el código de indicación de envolvente corresponde a una envolvente temporal caracterizada en un canal de entrada original usado para generar el (los) £ canal (es) transmitidos.
- 22. El método de conformidad con la reivindicación 20, caracterizado porque la síntesis comprende síntesis de ICC de reverberación tardía.
- 23. El método de conformidad con la reivindicación 21, caracterizado porque la envolvente temporal de la señal sintetizada es ajustada antes de la síntesis de ICLD.
- 24. El método de conformidad con la reivindicación 20, caracterizado porque: la envolvente temporal de la señal sintetizada es caracterizada; y la envolvente temporal de la señal sintetizada es ajustada en base tanto a la envolvente temporal caracterizada correspondiente al código de indicación de envolvente como la envolvente temporal caracterizada de la señal sintetizada.
- 25. El método de conformidad con la reivindicación 24, caracterizado porque: una función de escalamiento es generada en base a la envolvente temporal caracterizada correspondiente al código de indicación de envolvente y la envolvente temporal caracterizada de la señal sintetizada; y la función de escalamiento es aplicada a la señal sintetizada .
- 26. El método de conformidad con la reivindicación 20, caracterizado porque comprende además ajustar un canal transmitido en base a la envolvente temporal caracterizada para generar un canal aplanado, en donde la mezcla ascendente y la síntesis son aplicados al canal aplanado para generar un canal de reproducción correspondiente.
- 27. El método de conformidad con la reivindicación 20, caracterizado porque comprende además ajustar un canal mezclado ascendentemente en base a la envolvente temporal caracterizada para generar un canal aplanado, en donde la síntesis es aplicada al canal aplanado para generar un canal de reproducción correspondiente.
- 28. El método de conformidad con la reivindicación 20, caracterizado porque la envolvente temporal de la señal sintetizada es ajustadas solamente para frecuencias especificadas .
- 29. El método de conformidad con la reivindicación 28, caracterizado porque la envolvente temporal de la señal sintetizada es ajustada solamente para frecuencias mayores que una frecuencia de corte especificada.
- 30. El método de conformidad con la reivindicación 20, caracterizado porque las envolventes temporales son ajustadas individualmente para diferentes sub-bandas de señal en la señal sintetizada.
- 31. El método de conformidad con la reivindicación 20, caracterizado porque un dominio de sub-banda corresponde a un QMF.
- 32. El método de conformidad con la reivindicación 20, caracterizado porque la envolvente temporal de la señal sintetizada es ajustada en un dominio de tiempo.
- 33. El método de conformidad con la reivindicación 20, caracterizado porque comprende además determinar si se habilita o deshabilita el ajuste de la envolvente temporal de la señal sintetizada.
- 34. El método de conformidad con la reivindicación 33, caracterizado porque la determinación esta basada en una bandera de habilitación/deshabilitación generada por un codificador de audio que generó el (los) £ canal (es) transmitidos.
- 35. El método de conformidad con la reivindicación 33, caracterizado porque la determinación está basada en el análisis del (los) E canal (es) transmitidos para detectar transitorios de tal manera que el ajuste se habilita si se detecta la presencia de un transitorio.
- 36. El método de conformidad con la reivindicación 20, caracterizado porque comprende además: caracterización de una envolvente temporal de un canal transmitido; y determinar si se usa (1) la envolvente temporal caracterizada correspondiente al código de indicación de envolvente o (2) la envolvente temporal caracterizada del canal transmitido para ajustar la envolvente temporal de la señal sintetizada .
- 37. El método de conformidad con la reivindicación 20, caracterizado porque la energía dentro de una ventana específica de la señal sintetizada después del ajuste de la envolvente temporal es sustancialmente igual a la energía de una ventana correspondiente de la señal sintetizada antes del ajuste.
- 38. El método de conformidad con la reivindicación 37, caracterizado porque la ventana especificada corresponde a una ventana de síntesis asociada con uno o más códigos de indicación sin envolvente.
- 39. Un aparato para descodificar £ canal (es) de audio transmitidos para generar C canales de audio de reproducción, en donde OE=l, el aparato está caracterizado porque comprende: medios para recibir códigos de indicación correspondientes al (los) £ canal (es) transmitidos, en donde los códigos de indicación comprenden un código de indicación de envolvente correspondiente a una envolvente temporal caracterizada de un canal de audio correspondiente al (los) £ canales transmitidos, en donde el uno o más códigos de indicación comprenden además uno o mas de códigos de correlación de intercanal (ICC), códigos de diferencia de nivel de intercanal (ICLD), y códigos de diferencia de tiempo de mtercanal (ICTD), en donde una primera resolución de tiempo asociada con el código de indicación de envolvente es más fina que una segunda resolución de tiempo asociada con el (los) otro(s) cód?go(s) de indicación; medios para mezclar ascendentemente uno o más de los £ canales transmitidos para generar uno o más canales mezclados ascendentemente; y medios para sintetizar uno o más de los C canales de reproducción mediante la aplicación de los códigos de indicación al uno o mas canales mezclados ascendentemente, en donde el código de indicación de envolvente es aplicado a un canal mezclado ascendentemente o una señal sintetizada para ajustar una envolvente temporal de la señal sintetizada en base a la envolvente temporal caracterizada mediante el escalamiento de dominio de tiempo o muestras de señal de dominio de sub-banda utilizando un factor de escalamiento, de tal manera que la envolvente temporal ajustada corresponde sustancialmente con la envolvente temporal caracterizada.
- 40. Un aparato para la descodificación de £ canal (es) de audio transmitidos, para generar C canales de audio de reproducción, en donde OE=l, el aparato está caracterizado porque comprende: un receptor adaptado para recibir códigos de indicación correspondiente al (los) £ canal (es) transmitidos, en donde los códigos de indicación comprenden un código de indicación de envolvente correspondiente a una envolvente temporal caracterizada de un canal de audio correspondiente a los £ canales transmitidos, en donde el uno o más códigos de indicación comprenden además uno o más de códigos de correlación de intercanal (ICC), códigos de diferencia de nivel de intercanal (ICLD), y códigos de diferencia de tiempo de intercanal (ICTD), en donde una primera resolución de tiempo asociado con el código de indicación de envolvente es más fina que una segunda resolución en el tiempo asociada con el (los) otro(s) código (s) de indicación; un mezclador ascendente adaptado para mezclar ascendentemente uno o más de los £ canales transmitidos para generar uno o más canales mezclados ascendentemente; y un sintetizador adaptado para sintetizar uno o más de los C canales de reproducción mediante la aplicación de los códigos de indicación al uno o más canales mezclados ascendentemente, en donde el código de indicación de envolvente es aplicado a un canal mezclado ascendentemente o una señal sintetizada para ajustar una envolvente temporal de la señal sintetizada en base a la envolvente temporal caracterizada mediante escalamiento de dominio de tiempo o muestras de señal de dominio de banda utilizando un factor de escalamiento de tal manera que la envolvente temporal ajustada coincide sustancialmente con la envolvente temporal caracterizada.
- 41. El aparato de conformidad con la reivindicación 40, caracterizado porque: el aparato es un sistema seleccionado del grupo que consiste de un reproductor de video digital, un reproductor de audio digital, una computadora, un receptor de satélite, un receptor de cable, un receptor de difusión terrestre, un sistema de entretenimiento en casa, y un sistema de cine; y el sistema comprende el receptor, mezclador ascendente, sintetizador, y ajustador de envolvente.
- 42. Un medio que se puede leer por la máquina, que tiene codificado en el mismo códigos de programa, caracterizado porque, cuando el código de programa es ejecutado por una máquina, la máquina implementa el método para descodificación de conformidad con la reivindicación 20.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US62048004P | 2004-10-20 | 2004-10-20 | |
US11/006,482 US7720230B2 (en) | 2004-10-20 | 2004-12-07 | Individual channel shaping for BCC schemes and the like |
PCT/EP2005/009618 WO2006045371A1 (en) | 2004-10-20 | 2005-09-07 | Individual channel temporal envelope shaping for binaural cue coding schemes and the like |
Publications (1)
Publication Number | Publication Date |
---|---|
MX2007004726A true MX2007004726A (es) | 2007-09-07 |
Family
ID=36180779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
MX2007004726A MX2007004726A (es) | 2004-10-20 | 2005-09-07 | Formacion de canal individual para esquemas de bcc y los semejantes. |
Country Status (21)
Country | Link |
---|---|
US (1) | US7720230B2 (es) |
EP (1) | EP1803117B1 (es) |
JP (1) | JP4664371B2 (es) |
KR (1) | KR100924576B1 (es) |
CN (1) | CN101044551B (es) |
AT (1) | ATE424606T1 (es) |
AU (1) | AU2005299068B2 (es) |
BR (1) | BRPI0516405B1 (es) |
CA (1) | CA2582485C (es) |
DE (1) | DE602005013103D1 (es) |
DK (1) | DK1803117T3 (es) |
ES (1) | ES2323275T3 (es) |
HK (1) | HK1106861A1 (es) |
IL (1) | IL182236A (es) |
MX (1) | MX2007004726A (es) |
NO (1) | NO338919B1 (es) |
PL (1) | PL1803117T3 (es) |
PT (1) | PT1803117E (es) |
RU (1) | RU2339088C1 (es) |
TW (1) | TWI318079B (es) |
WO (1) | WO2006045371A1 (es) |
Families Citing this family (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI393121B (zh) * | 2004-08-25 | 2013-04-11 | Dolby Lab Licensing Corp | 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式 |
KR20070056081A (ko) * | 2004-08-31 | 2007-05-31 | 마츠시타 덴끼 산교 가부시키가이샤 | 스테레오 신호 생성 장치 및 스테레오 신호 생성 방법 |
US20060106620A1 (en) * | 2004-10-28 | 2006-05-18 | Thompson Jeffrey K | Audio spatial environment down-mixer |
KR100682915B1 (ko) * | 2005-01-13 | 2007-02-15 | 삼성전자주식회사 | 다채널 신호 부호화/복호화 방법 및 장치 |
EP1691348A1 (en) * | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
JP4887288B2 (ja) * | 2005-03-25 | 2012-02-29 | パナソニック株式会社 | 音声符号化装置および音声符号化方法 |
EP1905002B1 (en) * | 2005-05-26 | 2013-05-22 | LG Electronics Inc. | Method and apparatus for decoding audio signal |
JP4988716B2 (ja) | 2005-05-26 | 2012-08-01 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号のデコーディング方法及び装置 |
US7974713B2 (en) * | 2005-10-12 | 2011-07-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Temporal and spatial shaping of multi-channel audio signals |
KR100644715B1 (ko) * | 2005-12-19 | 2006-11-10 | 삼성전자주식회사 | 능동적 오디오 매트릭스 디코딩 방법 및 장치 |
US8111830B2 (en) * | 2005-12-19 | 2012-02-07 | Samsung Electronics Co., Ltd. | Method and apparatus to provide active audio matrix decoding based on the positions of speakers and a listener |
EP1974347B1 (en) * | 2006-01-19 | 2014-08-06 | LG Electronics Inc. | Method and apparatus for processing a media signal |
CN102693727B (zh) * | 2006-02-03 | 2015-06-10 | 韩国电子通信研究院 | 用于控制音频信号的渲染的方法 |
WO2007091850A1 (en) * | 2006-02-07 | 2007-08-16 | Lg Electronics Inc. | Apparatus and method for encoding/decoding signal |
CN101390443B (zh) * | 2006-02-21 | 2010-12-01 | 皇家飞利浦电子股份有限公司 | 音频编码和解码 |
KR100773562B1 (ko) * | 2006-03-06 | 2007-11-07 | 삼성전자주식회사 | 스테레오 신호 생성 방법 및 장치 |
JP5457171B2 (ja) * | 2006-03-20 | 2014-04-02 | オランジュ | オーディオデコーダ内で信号を後処理する方法 |
US8027479B2 (en) | 2006-06-02 | 2011-09-27 | Coding Technologies Ab | Binaural multi-channel decoder in the context of non-energy conserving upmix rules |
US7876904B2 (en) * | 2006-07-08 | 2011-01-25 | Nokia Corporation | Dynamic decoding of binaural audio signals |
US8126721B2 (en) | 2006-10-18 | 2012-02-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
US8041578B2 (en) | 2006-10-18 | 2011-10-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
US8417532B2 (en) | 2006-10-18 | 2013-04-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
CA2670864C (en) | 2006-12-07 | 2015-09-29 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
FR2911426A1 (fr) * | 2007-01-15 | 2008-07-18 | France Telecom | Modification d'un signal de parole |
PL2118889T3 (pl) | 2007-03-05 | 2013-03-29 | Ericsson Telefon Ab L M | Sposób i sterownik do wygładzania stacjonarnego szumu tła |
CA2705968C (en) * | 2007-11-21 | 2016-01-26 | Lg Electronics Inc. | A method and an apparatus for processing a signal |
EP2248289A1 (en) * | 2008-02-29 | 2010-11-10 | Telefonaktiebolaget L M Ericsson (publ) | Channel power estimation means |
WO2009125046A1 (en) * | 2008-04-11 | 2009-10-15 | Nokia Corporation | Processing of signals |
KR101499785B1 (ko) | 2008-10-23 | 2015-03-09 | 삼성전자주식회사 | 모바일 디바이스를 위한 오디오 처리 장치 및 그 방법 |
JP4932917B2 (ja) | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
TWI433137B (zh) | 2009-09-10 | 2014-04-01 | Dolby Int Ab | 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法 |
EP2491551B1 (en) * | 2009-10-20 | 2015-01-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus for providing an upmix signal representation on the basis of a downmix signal representation, apparatus for providing a bitstream representing a multichannel audio signal, methods, computer program and bitstream using a distortion control signaling |
EP2323130A1 (en) * | 2009-11-12 | 2011-05-18 | Koninklijke Philips Electronics N.V. | Parametric encoding and decoding |
FR2961980A1 (fr) * | 2010-06-24 | 2011-12-30 | France Telecom | Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique |
EP3422346B1 (en) | 2010-07-02 | 2020-04-22 | Dolby International AB | Audio encoding with decision about the application of postfiltering when decoding |
CN103339670B (zh) * | 2011-02-03 | 2015-09-09 | 瑞典爱立信有限公司 | 确定多通道音频信号的通道间时间差 |
KR101662681B1 (ko) | 2012-04-05 | 2016-10-05 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 멀티채널 오디오 인코더 및 멀티채널 오디오 신호 인코딩 방법 |
RU2628195C2 (ru) | 2012-08-03 | 2017-08-15 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Декодер и способ параметрической концепции обобщенного пространственного кодирования аудиообъектов для случаев многоканального понижающего микширования/повышающего микширования |
CN105393304B (zh) * | 2013-05-24 | 2019-05-28 | 杜比国际公司 | 音频编码和解码方法、介质以及音频编码器和解码器 |
EP2830050A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhanced spatial audio object coding |
EP2830333A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals |
EP2830047A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for low delay object metadata coding |
EP2830045A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for audio encoding and decoding for audio channels and audio objects |
WO2015041477A1 (ko) | 2013-09-17 | 2015-03-26 | 주식회사 윌러스표준기술연구소 | 오디오 신호 처리 방법 및 장치 |
US10204630B2 (en) | 2013-10-22 | 2019-02-12 | Electronics And Telecommunications Research Instit Ute | Method for generating filter for audio signal and parameterizing device therefor |
BR112016014892B1 (pt) | 2013-12-23 | 2022-05-03 | Gcoa Co., Ltd. | Método e aparelho para processamento de sinal de áudio |
EP4294055A1 (en) | 2014-03-19 | 2023-12-20 | Wilus Institute of Standards and Technology Inc. | Audio signal processing method and apparatus |
CN108966111B (zh) | 2014-04-02 | 2021-10-26 | 韦勒斯标准与技术协会公司 | 音频信号处理方法和装置 |
EP2980794A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
TWI587286B (zh) * | 2014-10-31 | 2017-06-11 | 杜比國際公司 | 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體 |
JP6797187B2 (ja) | 2015-08-25 | 2020-12-09 | ドルビー ラボラトリーズ ライセンシング コーポレイション | オーディオ・デコーダおよびデコード方法 |
ES2771200T3 (es) | 2016-02-17 | 2020-07-06 | Fraunhofer Ges Forschung | Postprocesador, preprocesador, codificador de audio, decodificador de audio y métodos relacionados para mejorar el procesamiento de transitorios |
CN107818790B (zh) * | 2017-11-16 | 2020-08-11 | 苏州麦迪斯顿医疗科技股份有限公司 | 一种多路音频混音方法及装置 |
RU2762302C1 (ru) * | 2018-04-05 | 2021-12-17 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство, способ или компьютерная программа для оценки разности во времени между каналами |
GB2584630A (en) * | 2019-05-29 | 2020-12-16 | Nokia Technologies Oy | Audio processing |
Family Cites Families (76)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4236039A (en) | 1976-07-19 | 1980-11-25 | National Research Development Corporation | Signal matrixing for directional reproduction of sound |
US4815132A (en) | 1985-08-30 | 1989-03-21 | Kabushiki Kaisha Toshiba | Stereophonic voice signal transmission system |
DE3639753A1 (de) | 1986-11-21 | 1988-06-01 | Inst Rundfunktechnik Gmbh | Verfahren zum uebertragen digitalisierter tonsignale |
DE3943881B4 (de) | 1989-04-17 | 2008-07-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Digitales Codierverfahren |
US5583962A (en) | 1991-01-08 | 1996-12-10 | Dolby Laboratories Licensing Corporation | Encoder/decoder for multidimensional sound fields |
DE4209544A1 (de) | 1992-03-24 | 1993-09-30 | Inst Rundfunktechnik Gmbh | Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale |
DE4236989C2 (de) | 1992-11-02 | 1994-11-17 | Fraunhofer Ges Forschung | Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle |
US5371799A (en) | 1993-06-01 | 1994-12-06 | Qsound Labs, Inc. | Stereo headphone sound source localization system |
US5463424A (en) | 1993-08-03 | 1995-10-31 | Dolby Laboratories Licensing Corporation | Multi-channel transmitter/receiver system providing matrix-decoding compatible signals |
JP3227942B2 (ja) | 1993-10-26 | 2001-11-12 | ソニー株式会社 | 高能率符号化装置 |
DE4409368A1 (de) * | 1994-03-18 | 1995-09-21 | Fraunhofer Ges Forschung | Verfahren zum Codieren mehrerer Audiosignale |
JP3277679B2 (ja) | 1994-04-15 | 2002-04-22 | ソニー株式会社 | 高能率符号化方法と高能率符号化装置及び高能率復号化方法と高能率復号化装置 |
JPH0969783A (ja) | 1995-08-31 | 1997-03-11 | Nippon Steel Corp | オーディオデータ符号化装置 |
US5956674A (en) | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US5771295A (en) | 1995-12-26 | 1998-06-23 | Rocktron Corporation | 5-2-5 matrix system |
US7012630B2 (en) | 1996-02-08 | 2006-03-14 | Verizon Services Corp. | Spatial sound conference system and apparatus |
ATE309644T1 (de) | 1996-02-08 | 2005-11-15 | Koninkl Philips Electronics Nv | Mit 2-kanal- und 1-kanal-übertragung kompatible n-kanalübertragung |
US5825776A (en) | 1996-02-27 | 1998-10-20 | Ericsson Inc. | Circuitry and method for transmitting voice and data signals upon a wireless communication channel |
US5889843A (en) | 1996-03-04 | 1999-03-30 | Interval Research Corporation | Methods and systems for creating a spatial auditory environment in an audio conference system |
US5812971A (en) * | 1996-03-22 | 1998-09-22 | Lucent Technologies Inc. | Enhanced joint stereo coding method using temporal envelope shaping |
US6697491B1 (en) | 1996-07-19 | 2004-02-24 | Harman International Industries, Incorporated | 5-2-5 matrix encoder and decoder system |
JP3707153B2 (ja) | 1996-09-24 | 2005-10-19 | ソニー株式会社 | ベクトル量子化方法、音声符号化方法及び装置 |
SG54379A1 (en) | 1996-10-24 | 1998-11-16 | Sgs Thomson Microelectronics A | Audio decoder with an adaptive frequency domain downmixer |
SG54383A1 (en) | 1996-10-31 | 1998-11-16 | Sgs Thomson Microelectronics A | Method and apparatus for decoding multi-channel audio data |
US5912976A (en) | 1996-11-07 | 1999-06-15 | Srs Labs, Inc. | Multi-channel audio enhancement system for use in recording and playback and methods for providing same |
US6131084A (en) | 1997-03-14 | 2000-10-10 | Digital Voice Systems, Inc. | Dual subframe quantization of spectral magnitudes |
US6111958A (en) | 1997-03-21 | 2000-08-29 | Euphonics, Incorporated | Audio spatial enhancement apparatus and methods |
US5946352A (en) | 1997-05-02 | 1999-08-31 | Texas Instruments Incorporated | Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain |
US5860060A (en) | 1997-05-02 | 1999-01-12 | Texas Instruments Incorporated | Method for left/right channel self-alignment |
US6108584A (en) | 1997-07-09 | 2000-08-22 | Sony Corporation | Multichannel digital audio decoding method and apparatus |
DE19730130C2 (de) | 1997-07-14 | 2002-02-28 | Fraunhofer Ges Forschung | Verfahren zum Codieren eines Audiosignals |
US5890125A (en) | 1997-07-16 | 1999-03-30 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method |
US6021389A (en) | 1998-03-20 | 2000-02-01 | Scientific Learning Corp. | Method and apparatus that exaggerates differences between sounds to train listener to recognize and identify similar sounds |
US6016473A (en) | 1998-04-07 | 2000-01-18 | Dolby; Ray M. | Low bit-rate spatial coding method and system |
TW444511B (en) | 1998-04-14 | 2001-07-01 | Inst Information Industry | Multi-channel sound effect simulation equipment and method |
JP3657120B2 (ja) | 1998-07-30 | 2005-06-08 | 株式会社アーニス・サウンド・テクノロジーズ | 左,右両耳用のオーディオ信号を音像定位させるための処理方法 |
JP2000152399A (ja) | 1998-11-12 | 2000-05-30 | Yamaha Corp | 音場効果制御装置 |
US6408327B1 (en) | 1998-12-22 | 2002-06-18 | Nortel Networks Limited | Synthetic stereo conferencing over LAN/WAN |
US6282631B1 (en) | 1998-12-23 | 2001-08-28 | National Semiconductor Corporation | Programmable RISC-DSP architecture |
US6539357B1 (en) | 1999-04-29 | 2003-03-25 | Agere Systems Inc. | Technique for parametric coding of a signal containing information |
JP4438127B2 (ja) | 1999-06-18 | 2010-03-24 | ソニー株式会社 | 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体 |
US6823018B1 (en) | 1999-07-28 | 2004-11-23 | At&T Corp. | Multiple description coding communication system |
US6434191B1 (en) | 1999-09-30 | 2002-08-13 | Telcordia Technologies, Inc. | Adaptive layered coding for voice over wireless IP applications |
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
US6614936B1 (en) | 1999-12-03 | 2003-09-02 | Microsoft Corporation | System and method for robust video coding using progressive fine-granularity scalable (PFGS) coding |
US6498852B2 (en) | 1999-12-07 | 2002-12-24 | Anthony Grimani | Automatic LFE audio signal derivation system |
US6845163B1 (en) | 1999-12-21 | 2005-01-18 | At&T Corp | Microphone array for preserving soundfield perceptual cues |
US6782366B1 (en) | 2000-05-15 | 2004-08-24 | Lsi Logic Corporation | Method for independent dynamic range control |
US6850496B1 (en) | 2000-06-09 | 2005-02-01 | Cisco Technology, Inc. | Virtual conference room for voice conferencing |
US6973184B1 (en) | 2000-07-11 | 2005-12-06 | Cisco Technology, Inc. | System and method for stereo conferencing over low-bandwidth links |
US7236838B2 (en) | 2000-08-29 | 2007-06-26 | Matsushita Electric Industrial Co., Ltd. | Signal processing apparatus, signal processing method, program and recording medium |
JP3426207B2 (ja) | 2000-10-26 | 2003-07-14 | 三菱電機株式会社 | 音声符号化方法および装置 |
TW510144B (en) | 2000-12-27 | 2002-11-11 | C Media Electronics Inc | Method and structure to output four-channel analog signal using two channel audio hardware |
US7292901B2 (en) | 2002-06-24 | 2007-11-06 | Agere Systems Inc. | Hybrid multi-channel/cue coding/decoding of audio signals |
US20030035553A1 (en) | 2001-08-10 | 2003-02-20 | Frank Baumgarte | Backwards-compatible perceptual coding of spatial cues |
US7116787B2 (en) | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
US7006636B2 (en) | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
US6934676B2 (en) | 2001-05-11 | 2005-08-23 | Nokia Mobile Phones Ltd. | Method and system for inter-channel signal redundancy removal in perceptual audio coding |
US7668317B2 (en) | 2001-05-30 | 2010-02-23 | Sony Corporation | Audio post processing in DVD, DTV and other audio visual products |
SE0202159D0 (sv) * | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
KR20040080003A (ko) | 2002-02-18 | 2004-09-16 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 파라메트릭 오디오 코딩 |
US20030187663A1 (en) | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
US8498422B2 (en) | 2002-04-22 | 2013-07-30 | Koninklijke Philips N.V. | Parametric multi-channel audio representation |
WO2003094369A2 (en) | 2002-05-03 | 2003-11-13 | Harman International Industries, Incorporated | Multi-channel downmixing device |
US6940540B2 (en) | 2002-06-27 | 2005-09-06 | Microsoft Corporation | Speaker detection and tracking using audiovisual data |
JP4322207B2 (ja) | 2002-07-12 | 2009-08-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ符号化方法 |
WO2004008806A1 (en) | 2002-07-16 | 2004-01-22 | Koninklijke Philips Electronics N.V. | Audio coding |
US7516066B2 (en) * | 2002-07-16 | 2009-04-07 | Koninklijke Philips Electronics N.V. | Audio coding |
ATE348386T1 (de) | 2002-11-28 | 2007-01-15 | Koninkl Philips Electronics Nv | Audiosignalkodierung |
KR101049751B1 (ko) * | 2003-02-11 | 2011-07-19 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 코딩 |
FI118247B (fi) | 2003-02-26 | 2007-08-31 | Fraunhofer Ges Forschung | Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa |
KR20050116828A (ko) | 2003-03-24 | 2005-12-13 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 다채널 신호를 나타내는 주 및 부 신호의 코딩 |
US20050069143A1 (en) | 2003-09-30 | 2005-03-31 | Budnikov Dmitry N. | Filtering for spatial audio rendering |
DE602004030594D1 (de) * | 2003-10-07 | 2011-01-27 | Panasonic Corp | Verfahren zur entscheidung der zeitgrenze zur codierung der spektro-hülle und frequenzauflösung |
US7394903B2 (en) | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
US20070092086A1 (en) * | 2005-10-24 | 2007-04-26 | Pang Hee S | Removing time delays in signal paths |
-
2004
- 2004-12-07 US US11/006,482 patent/US7720230B2/en active Active
-
2005
- 2005-09-07 MX MX2007004726A patent/MX2007004726A/es active IP Right Grant
- 2005-09-07 CN CN2005800357018A patent/CN101044551B/zh active Active
- 2005-09-07 AU AU2005299068A patent/AU2005299068B2/en active Active
- 2005-09-07 BR BRPI0516405-2A patent/BRPI0516405B1/pt active IP Right Grant
- 2005-09-07 RU RU2007118679/09A patent/RU2339088C1/ru active
- 2005-09-07 PT PT05792350T patent/PT1803117E/pt unknown
- 2005-09-07 DE DE602005013103T patent/DE602005013103D1/de active Active
- 2005-09-07 ES ES05792350T patent/ES2323275T3/es active Active
- 2005-09-07 DK DK05792350T patent/DK1803117T3/da active
- 2005-09-07 CA CA2582485A patent/CA2582485C/en active Active
- 2005-09-07 JP JP2007537133A patent/JP4664371B2/ja active Active
- 2005-09-07 AT AT05792350T patent/ATE424606T1/de active
- 2005-09-07 KR KR1020077008410A patent/KR100924576B1/ko active IP Right Grant
- 2005-09-07 EP EP05792350A patent/EP1803117B1/en active Active
- 2005-09-07 PL PL05792350T patent/PL1803117T3/pl unknown
- 2005-09-07 WO PCT/EP2005/009618 patent/WO2006045371A1/en active Application Filing
- 2005-10-19 TW TW094136500A patent/TWI318079B/zh active
-
2007
- 2007-03-21 NO NO20071493A patent/NO338919B1/no unknown
- 2007-03-27 IL IL182236A patent/IL182236A/en active IP Right Grant
- 2007-12-28 HK HK07114229.7A patent/HK1106861A1/xx unknown
Also Published As
Publication number | Publication date |
---|---|
HK1106861A1 (en) | 2008-03-20 |
NO20071493L (no) | 2007-05-22 |
PT1803117E (pt) | 2009-06-15 |
RU2339088C1 (ru) | 2008-11-20 |
AU2005299068B2 (en) | 2008-10-30 |
IL182236A (en) | 2011-08-31 |
DK1803117T3 (da) | 2009-06-22 |
ATE424606T1 (de) | 2009-03-15 |
BRPI0516405A (pt) | 2008-09-02 |
DE602005013103D1 (de) | 2009-04-16 |
NO338919B1 (no) | 2016-10-31 |
CN101044551A (zh) | 2007-09-26 |
TW200628001A (en) | 2006-08-01 |
US20060083385A1 (en) | 2006-04-20 |
CA2582485A1 (en) | 2006-05-04 |
BRPI0516405B1 (pt) | 2019-09-17 |
WO2006045371A1 (en) | 2006-05-04 |
JP2008517333A (ja) | 2008-05-22 |
ES2323275T3 (es) | 2009-07-10 |
JP4664371B2 (ja) | 2011-04-06 |
BRPI0516405A8 (pt) | 2018-07-31 |
US7720230B2 (en) | 2010-05-18 |
EP1803117B1 (en) | 2009-03-04 |
PL1803117T3 (pl) | 2009-08-31 |
KR100924576B1 (ko) | 2009-11-02 |
CA2582485C (en) | 2012-05-15 |
EP1803117A1 (en) | 2007-07-04 |
KR20070061872A (ko) | 2007-06-14 |
AU2005299068A1 (en) | 2006-05-04 |
IL182236A0 (en) | 2007-09-20 |
CN101044551B (zh) | 2012-02-08 |
TWI318079B (en) | 2009-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2582485C (en) | Individual channel shaping for bcc schemes and the like | |
EP1803325B1 (en) | Diffuse sound envelope shaping for binaural cue coding schemes and the like | |
CA2593290C (en) | Compact side information for parametric coding of spatial audio | |
JP5106115B2 (ja) | オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング | |
JP5017121B2 (ja) | 外部的に供給されるダウンミックスとの空間オーディオのパラメトリック・コーディングの同期化 | |
JP4856653B2 (ja) | 被送出チャネルに基づくキューを用いる空間オーディオのパラメトリック・コーディング |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FG | Grant or registration |