MX2015001748A - Metodos y aparatos para adaptar informacion de audio en codificacion de objeto de audio espacial. - Google Patents
Metodos y aparatos para adaptar informacion de audio en codificacion de objeto de audio espacial.Info
- Publication number
- MX2015001748A MX2015001748A MX2015001748A MX2015001748A MX2015001748A MX 2015001748 A MX2015001748 A MX 2015001748A MX 2015001748 A MX2015001748 A MX 2015001748A MX 2015001748 A MX2015001748 A MX 2015001748A MX 2015001748 A MX2015001748 A MX 2015001748A
- Authority
- MX
- Mexico
- Prior art keywords
- audio
- information
- input
- parametric
- downmix
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 39
- 230000006978 adaptation Effects 0.000 claims abstract description 44
- 239000003607 modifier Substances 0.000 claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims description 49
- 238000004590 computer program Methods 0.000 claims description 11
- 230000005236 sound signal Effects 0.000 description 23
- 230000003595 spectral effect Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 9
- 239000000203 mixture Substances 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000000926 separation method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 101100180304 Arabidopsis thaliana ISS1 gene Proteins 0.000 description 2
- 101100519257 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PDR17 gene Proteins 0.000 description 2
- 101100042407 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SFB2 gene Proteins 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 108091092742 A-DNA Proteins 0.000 description 1
- -1 ISS2 Proteins 0.000 description 1
- 101100356268 Schizosaccharomyces pombe (strain 972 / ATCC 24843) red1 gene Proteins 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000012782 phase change material Substances 0.000 description 1
- 238000002135 phase contrast microscopy Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Se provee un aparato para adaptar información de audio de entrada, codificación de uno o más objetos de audio, para obtener información de audio adaptada. La información de audio de entrada comprende dos o más canales de mezcla descendente de audio de entrada y comprende además información lateral paramétrica de entrada. La información de audio adaptada comprende uno o más canales de mezcla descendente de audio adaptado y comprende además información lateral paramétrica adaptada. El aparato comprende un modificador de señal de mezcla descendente (110) para adaptar, dependiendo de la información de adaptación, los dos o más canales de mezcla descendente de audio de entrada para obtener el uno o más canales de mezcla descendente de audio adaptados. Además, el aparato comprende un adaptador de información lateral paramétrica (120) para adaptar, dependiendo de la información de adaptación, la información lateral paramétrica de entrada para obtener la información lateral paramétrica adaptada.
Description
METODOS Y APARATOS PARA ADAPTAR INFORMACION DE AUDIO EN
CODIFICACION DE OBJETO DE AUDIO ESPACIAL DESCRIPCIÓN DE LA INVENCIÓN
La presente invención es concerniente con la decodificación de señal de audio y el procesamiento de señales de audio y en particular con un descodificador y métodos para adaptar información de audio espacial codificación de objeto de audio espacial (SAOC).
En los sistemas de audio digitales modernos, hay una tendencia importante por permitir modificaciones relacionadas con el objeto de audio del contenido transmitido en el lado del receptor. Estas modificaciones incluyen modificaciones de ganancia de partes seleccionadas de la señal de audio y/o re-posicionamiento espacial de objetos de audio dedicados en caso de reproducción de multicanal vía altavoces distribuidos espacialmente. Esto se puede obtener al alimentar individualmente diferentes partes del contenido de audio a los diferentes altavoces.
En otras palabras, en la téenica de procesamiento de audio, transmisión de audio y almacenamiento de audio, existe el deseo incrementado de permitir la interacción del usuario en la reproducción de contenido de audio orientado al objeto y también una demanda por utilizar las posibilidades extendidas de reproducción multicanal para presentar individualmente contenido de audio o parte del mismo, con el
fin de mejorar la impresión de audición. Mediante esto, el uso del contenido de audio de multi-canal trae consigo mejoras significativas para el usuario. Por ejemplo, se puede obtener una impresión de audición tridimensional, lo que trae consigo una mejora en la satisfacción del usuario en aplicaciones de entretenimiento. Sin embargo, el contenido de audio de multi-canal es también útil en entornos profesionales, por ejemplo, en aplicaciones de conferencia telefónica, debido a que la inteligibilidad del hablante se puede mejorar mediante el uso de reproducción de audio de multi-canal. Otra aplicación posible es la de ofrecer a un oyente de una pieza musical la posibilidad de ajustar individualmente el nivel de reproducción y/o posición espacial de diferentes partes (también denominadas como "objetos de audio") o pistas, tales como una parte vocal o diferentes instrumentos. El usuario puede efectuar tal ajuste por razones de gusto personal, para transcribir más fácil una o más partes de la pieza musical, por propósitos educativos, karaoke, ensayo, etc.
La transmisión discreta directa de todo el contenido de audio de multi-canal o muíti-objetos digital, por ejemplo en forma de datos de modulación de código de impulso (PCM) o aún formados de audio comprimido, demanda muy altas velocidades de bits. Sin embargo, también es deseable transmitir y almacenar datos de audio de una manera eficiente en velocidad
de bits. Así, se está dispuesto a aceptar una solución intermedia razonable entre la calidad de audio y requerimientos de velocidad de bits con el fin de evitar una carga de recursos excesiva provocada por aplicaciones de multi-canal/multi-objetos.
Recientemente, en el campo de codificación de audio, se han introducido téenicas paramétricas para la transmisión/almacenamiento eficiente en velocidad de bits de señales de audio de multi-canal/multi-objetos, por ejemplo, por el grupo de expertos de películas (MPEG) y otros. Un ejemplo es Surround de MPEG (MPS) como un procedimiento orientado al canal [MPS, BCC] o codificación de objeto de audio espacial de MPEG (SAOC) como un procedimiento orientado al objeto [JSC, SAOC, SAOC1, SAOC2]. Otro procedimiento orientado al objeto es denominado como "separación de fuentes informada" [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]. Estas técnicas tienen como objetivo reconstruir una escena de audio de salida deseada o un objeto de fuente de audio deseada en base a una mezcla descendente de canales/objetos e información lateral adicional que describe la escena de audio transmitida/almacenada y/o los objetos de audio fuente en la escena de audio.
La estimación y aplicación de información lateral relacionada al objeto/canal en tales sistemas se hace de manera tiempo-frecuencia selectiva. Así, tales sistemas
emplean transformada de Fourier discreta (DFT), transformada de Fourier de tiempo corto (STFT) o bancos de filtros como bancos de filtros de espejo en cuadratura (QMF), etc. El principio básico de tales sistemas es ilustrado en la figura 3, usando el ejemplo de SAOC de MPEG.
En el caso de la STFT, la dimensión temporal es representada por el número de tiempo-bloque y la dimensión espectral es capturada por el número de coeficiente espectral ("bin"). En caso de QMF, la dimensión temporal es representada por el número de tiempo-segmento y la dimensión espectral es capturada por el número de sub-banda. Si la resolución espectral del QMF es mejorada por la aplicación subsecuente de una segunda etapa de filtro, todo el banco de filtros de QMF es denominado híbrido y las sub-bandas de resolución fina son denominadas sub-bandas híbridas.
Como ya se mencionó anteriormente, en SAOC el procesamiento general se lleva a cabo de manera tiempo-frecuencia selectiva y puede ser descrito como sigue dentro de cada banda de frecuencia, como se ilustra en la figura 3:
- N señales de objeto de audio de entrada s2... sN son mezcladas a P canales x2... xP como parte del procesamiento del codificador, usando una matriz de mezcla descendente que consiste de los elementos d2I ... dWP. Además, el codificador extrae información lateral que describe las características de los objetos de audio de entrada (módulo estimador de
información lateral (SIE)). Para SAOC DE MPEG, las relaciones de potencias del objeto w.r.t. entre sí son la forma más básica de tal información lateral.
- La(s) señal(es) de mezcla descendente e información lateral son transmitidas/almacenadas. Para este fin, la(s) señal(es) de audio de mezcla descendente puede(n) ser comprimida(s), por ejemplo, usando codificadores de audio perceptual bien conocidos, tales como MPEG -1/2 Capa II o III (también conocido como .mp3), codificación de audio avanzada de MPEG-2/4 (AAC), etc.
En el extremo receptor, el descodificador conceptualmente intenta restaurar las señales del objetos original ("separación de objeto") de las señales de mezcla descendente (descodificadas) usando la información lateral transmitida. Estas señales de objeto aproximadas S ... sN son luego mezcladas a una escena objetivo representada por M canales de salida de audio yi ... yM usando una matriz de presentación descrita por los coeficientes rI2... rN M en la figura 3. La escena objetivo deseada puede ser, en caso extremo, la presentación de solamente una señal fuente de la mezcla (escenario de separación fuente), pero también cualquier otra escena acústica arbitraria que consiste de los objetos transmitidos. Por ejemplo, la salida puede ser una escena objetivo de un solo canal, de 2 canales estéreofónica o 5.1 de multi-canal.
La figura 6 ilustra esquemáticamente el principio de un esquema de codificación/decodificación de audio. En particular, la figura 6 es una descripción del principio de una cadena de codificación/decodificación de audio.
En el lado de codificación, la señal de audio es comprimida por un esquema de codificación de audio (que normalmente aprovecha efectos perceptuales) y se calcula la información lateral paramétrica (PSI) (véase codificador 601). El flujo de bits resultante que consiste de la señal de audio codificada y PSI es almacenada (o transmitida) al lado del descodificador, en donde puede ser descodificada por varias instancias de descodificador 620, 621, 622, marcadas como "A", "B", etc. en la figura 6. Estas instancias de descodificador pueden diferir entre sí (por ejemplo, diferentes niveles de complejidad en la especificación estándar, restricciones de aplicación o aplicación, etc.) [SAOC. SAOC1, SAOC2].
Los esquemas de codificación del estado de la téenica no son capaces de adaptar la PSI a una plataforma o escenario de aplicación objetivo específica de manera eficiente. Esto puede conducir a complejidad computacional más alta (que lo necesario) en el lado del descodificador o puede dar como resultado problemas de compatibilidad.
El objeto de la presente invención es proveer conceptos mejorados para codificación de objeto de audio. El objeto de
la presente invención es resuelto por un descodificador de acuerdo con la reivindicación 1, por un método para codificación de acuerdo con la reivindicación 14 y por un programa de computadora de acuerdo con la reivindicación 15.
Se provee un aparato para adaptar información de audio de entrada, codificación de uno o más objetos de audio, para obtener información de audio adaptada. La información de audio de entrada comprende dos o más canales de mezcla descendente de audio de entrada y comprende además información lateral paramétrica de entrada. La información de audio adaptada comprende uno o más canales de mezcla descendente de audio adaptados y comprende además información lateral paramétrica adaptada.
El aparato comprende un modificador de señal de mezcla descendente para adaptar, dependiendo de la información de adaptación, los dos o más canales de mezcla descendente de audio de entrada para obtener el uno o más canales de mezcla descendente de audio adaptados.
Además, el aparato comprende un adaptador de información lateral paramétrica para adaptar, dependiendo de la información de adaptación, la información lateral paramétrica de entrada para obtener la información lateral paramétrica adaptada.
De acuerdo con una modalidad, el modificador de señal de mezcla descendente puede estar configurado para adaptar los
dos o más canales de mezcla descendente de audio de entrada dependiendo de la información de adaptación, de tal manera que el número del uno o más canales de mezcla descendente de audio adaptados es menor que el número de los dos o más canales de mezcla descendente de audio de entrada.
En una modalidad, la información de adaptación puede depender de una instancia de descodificador. El modificador de señal de mezcla descendente puede estar configurado para adaptar los dos o más canales de mezcla descendente de audio de entrada dependiendo de la instancia del descodificador. Aquí y en lo siguiente, los términos "descodificador" e "instancia de descodificador" tienen el mismo significado.
De acuerdo con una modalidad, la instancia de descodificador puede ser capaz de descodificar a lo sumo un número máximo de canales de mezcla descendente. La información de adaptación puede depender de dicho número máximo de canales de mezcla descendente. Además, el modificador de señal de mezcla descendente puede estar configurado para adaptar los dos o más canales de mezcla descendente de audio de entrada, dependiendo de la información de adaptación para obtener el uno o más canales de mezcla descendente de audio adaptados, de tal manera que el número del uno o más canales de mezcla descendente adaptados es igual a dicho número máximo de canales de mezcla descendente.
De acuerdo con una modalidad, la información de adaptación puede comprender una matriz de adaptación
) .
En una modalidad, el modificador de señal de mezcla descendente puede estar configurado para adaptar, dependiendo de la matriz de adaptación
), los dos o más canales de mezcla descendente de audio de entrada
) para obtener el uno o más canales de mezcla descendente de audio adaptados g DSM
A dmx >
De acuerdo con una modalidad, el modificador de señal de mezcla descendente puede estar configurado para adaptar, dependiendo de la matriz de adaptación
, los dos o más canales de mezcla descendente de audio de entrada
para obtener el uno o más canales de mezcla descendente de audio adaptados
mediante la aplicación de la fórmula:
vDSM _ Y^DSM^ ENC
L dmx dmx L dmx ·
En una modalidad, el adaptador de información lateral paramétrica puede estar configurado para adaptar, dependiendo de la matriz de adaptación
) la información lateral paramétrica de entrada
) para obtener la información lateral paramétrica adaptada ( Ddmx ) .
De acuerdo con una modalidad, el adaptador de información lateral paramétrica puede estar configurado para adaptar, dependiendo de la matriz de adaptación
, la
información lateral paramétrica de entrada
para obtener la información lateral paramétrica adaptada
mediante la aplicación de la fórmula:
D fSI psu D ENC
dmx = D dmx dmx ·
En una modalidad, la información lateral paramétrica de entrada
)puede indicar una matriz de mezcla descendente inicial, de tal manera que mediante la aplicación de la matriz de mezcla descendente inicial
) sobre el uno o más objetos de audio (S), se obtienen los dos o más canales de mezcla descendente de audio de entrada
). El adaptador de información lateral paramétrica puede estar configurado para determinar una matriz de mezcla descendente adaptada (Drfmx) como la información lateral paramétrica adaptada, de tal manera que mediante la aplicación de la matriz de mezcla descendente adaptada (Drfrax) sobre uno o más objetos de audio (S), se obtienen el uno o más canales de mezcla descendente de audio adaptados
).
Además, se provee de acuerdo con una modalidad, un aparato para generar uno o más canales de audio a partir de información de audio que codifican uno o más objetos de audio.
El aparato para generar el uno o más canales de audio comprende un aparato de acuerdo con una de las modalidades
descritas anteriormente para adaptar información de audio de entrada para obtener información de audio adaptada, en donde la información de audio de entrada comprende dos o más canales de mezcla descendente de audio de entrada y comprende además información lateral paramétrica de entrada, en donde la información de audio adaptada comprende uno o más canales de mezcla descendente de audio adaptados y comprende además información lateral paramétrica adaptada.
Además, el aparato para generar el uno o más canales de audio comprende una instancia de descodificador, para descodificar, dependiendo de la información lateral paramétrica adaptada, el uno o más canales de mezcla descendente de audio adaptados para obtener el uno o más canales de audio.
De acuerdo con una modalidad, el adaptador de información lateral paramétrica del aparato para adaptar información de audio de entrada puede estar configurado para recibir un flujo de bits de entrada que comprende la información lateral paramétrica de entrada. El adaptador de información lateral paramétrica del aparato para adaptar información de audio de entrada puede estar configurado para adaptar la información lateral paramétrica de entrada para obtener la información lateral paramétrica adaptada y para alimentar la información lateral paramétrica adaptada a la instancia de descodificador. La instancia de descodificador
puede estar configurada para descodificar el uno o más canales de mezcla descendente de audio adaptados dependiendo de la información lateral paramétrica adaptada.
En otra modalidad, el adaptador de información lateral paramétrica del aparato para adaptar información de audio de entrada puede estar configurado para recibir un flujo de bits de entrada que comprende la información lateral paramétrica de entrada. El adaptador de información lateral paramétrica del aparato para adaptar información de audio de entrada puede ser configurado para sustituir la información lateral paramétrica de entrada dentro del flujo de bits de entrada por la información lateral paramétrica adaptada para obtener un flujo de bits modificado. El adaptador de información lateral paramétrica del aparato para adaptar información de audio de entrada puede estar configurado para alimentar el flujo de bits modificado a la instancia de descodificador. Además, la instancia de descodificador puede ser configurada para descodificar el uno o más canales de mezcla descendente de audio adaptados dependiendo del flujo de bits modificado.
Además, se provee un método para adaptar información de audio de entrada, codificar uno o más objetos de audio, para obtener información de audio adaptada. La información de audio de entrada comprende dos o más canales de mezcla descendente de audio de entrada y comprende además información lateral paramétrica de entrada. La información de
audio adaptada comprende uno o más canales de mezcla descendente de audio adaptados y comprende además información lateral paramétrica adaptada. El método comprende:
- adaptar, dependiendo de la información de adaptación, los dos o más canales de mezcla descendente de audio de entrada para obtener el uno o más canales de mezcla descendente de audio adaptados y
- adaptar, dependiendo de la información de adaptación, la información lateral paramétrica de entrada para obtener la información lateral paramétrica adaptada.
Además, se provee un programa de computadora para implementar el método descrito anteriormente, cuando es ejecutado por una computadora o procesador de señal.
Modalidades preferidas serán provistas en las reivindicaciones dependientes.
En lo siguiente, se describen en más detalle modalidades de la presente invención con referencia a las figuras, en las cuales:
La figura 1 ilustra un aparato para adaptar información de audio de entrada, codificar uno o más objetos de audio, para obtener información de audio adaptada de acuerdo con una modalidad.
La figura 2 ilustra un aparato para adaptar información de audio de entrada, codificar uno o más objetos de audio, para obtener información de audio adaptada de acuerdo con
otra modalidad.
La figura 3 muestra un diagrama de bloques esquemático de una vista general conceptual de un sistema de SAOC,
La figura 4 muestra un diagrama esquemático e ilustrativo de una representación temporal-spectral de una señal de audio de un solo canal.
La figura 5 muestra un diagrama de bloques esquemático de un cálculo selectivo de tiempo-frecuencia de información lateral dentro de un codificador de SAOC.
La figura 6 ilustra esquemáticamente el principio de un esquema de codificación/decodificación de audio,
La figura 7 ilustra un aparato para generar uno o más canales de audio a partir de información de audio de entrada que codifica uno o más objetos de audio de acuerdo con una modalidad,
La figura 8 ilustra una aplicación de PSIA conjunta dentro de un esquema de codificación/decodificación de acuerdo con una modalidad y
La figura 9 ilustra la aplicación de PSIA disjunta dentro de un esquema de codificación/decodificación de acuerdo con una modalidad.
Antes de describir modalidades de la presente invención, se proveen más antecedentes en cuanto a sistemas de SAOC del estado de la téenica.
La figura 3 muestra una disposición general de un
codificador de SAOC 10 y un descodificador de SAOC 12. El codificador de SAOC 10 recibe como entrada N objetos, esto es, señales de audio s a sN. En particular, el codificador 10 comprende un mezclador descendente 16 que recibe las señales de audio s2 a sN y mezcla descendentemente las mismas a una señal de mezcla descendente 18. Alternativamente, la mezcla descendente puede ser provista externamente ( "mezcla descendente artística") y el sistema estima información lateral adicional para hacer que la mezcla descendente provista coincida con la mezcla descendente calculada. En la figura 3, se muestra que la señal de mezcla descendente es una señal de canal P. Así, es concebible cualquier configuración de señal de mezcla descendente monoaural (P = 1), estereofónica (P = 2) o de multi-canal (P >2).
En el caso de una mezcla descendente estéreo, los canales de la señal de mezcla descendente 18 son denotadas LO y R0, en caso de una mezcla descendente monoaural, el mismo es simplemente denotado LO. Con el fin de permitir que el descodificador de SAOC 12 recupere los objetos individuales s2 a sN el estimador de información lateral 17 provee al descodificador de SAOC 12 con información lateral que incluye parámetros de SAOC. Por ejemplo, en el caso de una mezcla descendente estéreo, los parámetros de SAOC comprenden diferencias a nivel de objeto (OLD), correlaciones de inter objeto (COI) (parámetros de correlación cruzada de Ínter-
objeto), valores de ganancia de mezcla descendente (DMG) y diferencias de nivel de canal de mezcla descendente (DCLD). La información lateral 20, que incluye los parámetros de SAOC, junto con la señal de mezcla descendente 18, forma la corriente de datos de salida de SAOC recibida por el descodificador de SAOC 12.
El descodificador de SAOC 12 comprende un mezclador ascendente que recibe la señal de mezcla descendente 18, tambien como información lateral 20 con el fin de recuperar y presentar las señales de audio s2 y sN sobre cualquier conjunto de canales seleccionados por el usuario y2 a yM, con la presentación siendo prescrita por la información de presentación 26 introducida al descodificador de SAOC 12.
Las señales de audio s2 a sN pueden ser introducidas al codificador 10 en cualquier dominio de codificación, tal como en dominio de tiempo o dominio espectral. En caso de que las señales de audio s2 a sN sean alimentadas al codificador 10 en el dominio de tiempo, tal como PCM codificadas, el codificador 10 puede usar un banco de filtros, tal como un banco de QMF híbrido, con el fin de transferir las señales a un dominio espectral, en el cual las señales de audio son representadas en varias sub-bandas asociadas con diferentes porciones espectrales, a una resolución de banco de filtros específica. Si las señales de audio s2 a sN ya están en la representación esperada por el codificador 10, el mismo no
tiene que efectuar la descomposición espectral.
La figura 4 muestra una señal de audio en el dominio espectral mencionado. Como se puede ver, la señal de audio es representada como una pluralidad de señales de sub-banda. Cada señal de sub-banda 30 a 30k consiste de una secuencia temporal de valores de sub-banda indicados por cajas pequeñas cajas 32. Como se puede ver, los valores de sub-banda 32 de las señales de sub-banda 30x a 30k son sincronizados entre sí en el tiempo, de manera que, por cada uno de los segmentos de tiempo del banco de filtros consecutivos 34, cada sub-banda 30c a 30k comprende un valor de sub-banda exacto 32. Como se ilustra por el eje de frecuencia 36, las señales de sub-banda 30 a 30k son asociadas con diferentes regiones de frecuencia y como se ilustra por el eje del tiempo 38, los segmentos de tiempo 34 del banco de filtros consecutivos son dispuestos consecutivamente en el tiempo.
Como se resume anteriormente, el extractor de información lateral 17 de la figura 3 calcula parámetros de SAOC de las señales de audio de entrada a Si a sN. De acuerdo con el estándar de SAOC implementado actualmente, el codificador 10 efectúa este cálculo en una resolución de tiempo/frecuencia que puede ser disminuida en relación con la resolución de tiempo/frecuencia original como se determinó por los segmentos de tiempo 34 del banco de filtros y por la descomposición de sub-banda, por una cierta cantidad, con
esta cierta cantidad siendo señalada al lado del descodificador dentro de la información lateral 20. Los grupos de segmentos de tiempo 34 del banco de filtro consecutivos pueden formar un cuadro de SAOC 41. También el número de bandas de parámetro dentro del marco de SAOC 41 es transportado dentro de la información lateral 20. De aquí, el dominio de tiempo/frecuencia es dividido en mosaicos de tiempo/frecuencia ejemplificados en la figura 4 por líneas discontinuas 42. En la figura 4 las bandas de parámetros son distribuidas de la misma manera en los varios cuadros de SAOC ilustrados 41 de tal manera que se obtiene una disposición regular de los mosaicos de tiempo/frecuencia. En general, sin embargo, las bandas de parámetros pueden variar de un cuadro de SAOC 41 al subsecuente, dependiendo de las diferentes necesidades de resolución espectral en los respectivos cuadros de SAOC 41. Además, la longitud de los cuadros üe SAOC 41 puede variar también. Como consecuencia, la disposición de los mosaicos de tiempo/frecuencia puede ser irregular. Sin embargo, los mosaicos de tiempo/frecuencia dentro de un cuadro de SAOC particular 41 tienen comúnmente la misma duración y son alineados en la dirección del tiempo, esto es, todos los mosaicos de tiempo/frecuencia en dicho cuadro de SAOC 41 empiezan al inicio del cuadro de SAOC 41 dado y terminan al final del cuadro de SAOC 41.
El extractor de información lateral 17 ilustrado en la
figura 3 calcula los parámetros de SAOC de acuerdo con las siguientes fórmulas. En particular, el extractor de información lateral 17 calcula diferencias a nivel de objeto para cada objeto i como
_
en donde las sumas y los índices n y k, respectivamente, avanzan a través de todos los índices temporales 34 y todos los índices espectrales 30 que pertenecen a un cierto mosaico de tiempo/frecuencia 42, referido por los índices 1 para el cuadro de SAOC (o segmento de tiempo de procesamiento) y m para la banda de parámetro. Mediante esto, las energías de todos los valores de sub-banda Xi de una señal u objeto de audio son sumadas hasta y normalizadas al valor de energía más alto de aquel mosaico entre todos los objetos o señales de audio. x”k* denota el conjugado complejo de x”k .
Además, el extractor de información lateral de SAOC 17 es capaz de calcular una medida de similitud de los mosaicos de tiempo/frecuencia correspondientes de pares de objetos de entrada diferentes Si a sN. Aunque el extractor de información lateral de SAOC 17 puede calcular la medida de similitud
entre todos los pares de objetos de entrada Si a sN, el extractor de información lateral 17 también puede suprimir la señalización de las medidas de similitud o restringir el cálculo de las medidas de similitud a los objetos de audio s. a sN, que forman los canales izquierdo o derecho de un canal estéreo común. En cualquier caso, la medida de similitud es llamada el parámetro de correlación cruzada de inter-objetos IOC1™ . El cálculo es como sigue:
los índices n y k otra vez avanzan a través de todos los valores de sub-banda pertenecientes a un cierto mosaico de tiempo/frecuencia 42, i y j denotan un cierto par de objetos de audio Si a sN y Re{} que denota la operación de descartar la parte imaginaria del argumento complejo.
El mezclador descendente 16 de la figura 3 mezcla descendentemente los objetos Si a sN mediante el uso de factores de ganancia aplicados a cada objeto Si a sN. Esto es, se aplica un factor de ganancia di al objeto i y luego todos los objetos así ponderados Si a sN son sumados hasta obtener una señal de mezcla descendente monoaural, que es
ejemplificada en la figura 3 si P = 1. En otro caso ejemplar de una señal de mezcla descendente de dos canales, ilustrado en la figura 3, si P = 2, se aplica un factor de ganancia di,i al objeto i y luego todos de tales objetos ganancia amplificados son sumados con el fin de obtener el canal de mezcla descendente izquierdo LO y se aplican los factores de ganancia d2,i al objeto i y luego los objetos ganancia amplificados son sumados con el fin de obtener el canal de mezcla descendente derecho R0. Se aplicará un procesamiento que es análogo al anterior en el caso de una mezcla descendente de multicanal (P > 2).
Esta prescripción de mezcla descendente es señalada al lado del descodificador por medio de ganancias de mezcla descendente DMGi y en el caso de una señal de mezcla descendente estéreo, diferencias de nivel de canal de mezcla descendente DCLDi.
Las ganancias de mezcla descendente son calculadas de acuerdo con:
, (mezcla descendente mono) ,
DMG¡ =10log10(í/, +dl,+f) , (mezcla descendente estéreo),
en donde e es un número pequeño tal como 109.
Para las DCLD se aplica la siguiente fórmula:
En el modo normal, el mezclador descendente 16 genera la señal de mezcla descendente de acuerdo con:
para una mezcla descendente mono o
para una mezcla descendente estereo, respectivamente. Así, en las formulas mencionadas anteriormente, los parámetros OLD e IOC son función de las señales de audio y los parámetros DMG y DCLD son función de d. Por cierto, se notará que d puede ser variante en tiempo y en frecuencia.
Así, en el modo normal, el mezclador descendente 16 mezcla todos los objetos Si a sN sin preferencias, esto es, manejando todos los objetos Si a sN igualmente.
En el lado del descodificador, el mezclador ascendente efectúa la inversión del procedimiento de mezcla descendente
y la implementación de la "información de presentación" 26 representada por una matriz R (en la literatura también llamada algunas veces A) en una etapa de cálculo, es decir, en el caso de una mezcla descendente de dos canales
-
en donde E un una función de los parámetros OLD e IOC y la matriz D contiene los coeficientes de mezcla descendente como
La matriz E es una matriz de covarianza estimada de los objetos de audio Si a sN. En implementaciones de SAOC actuales, el cálculo de la matriz de covarianza estimada E es efectuado comúnmente en la resolución espectral/temporal de los parámetros de SAOC, esto es, por cada (1, m), de tal manera que la matriz de covarianza estimada puede ser escrita como E1'1”. La matriz de covarianza estimada E1,m es de tamaño N
x N con sus coeficientes siendo definidos como
tiene a lo largo de su diagonal las diferencias a nivel de objeto, esto es, e*’™ =OLÜ:m para i=j, debido a que OLD'm - OLDljm e IOC^’ -1 para i=j. Fuera de su diagonal, la matriz de covarianza estimada E tiene coeficientes de matriz que representan la media geométrica de las diferencias a nivel de objeto de los objetos i y j, respectivamente, ponderados con la medida de correlación cruzada de inter objeto IOC' .
La figura 5 muestra un principio de implementación posible en el ejemplo del estimador de información lateral (SIE) como parte de un codificador de SAOC 10. El codificador de SAOC 10 comprende el mezclador 16 y el estimador de información lateral (SIE) 17. El SIE consiste conceptualmente de dos módulos: un módulo 45 para calcular una representación de tiempo/frecuencia a base de tiempo corto (por ejemplo,
STFT o QMF) de cada señal. La representación de tiempo/frecuencia de corto tiempo calculada es alimentada al segundo módulo 46, el módulo de estimación de información lateral tiempo/frecuencia-selectivo (t/f-SIE). El módulo de t/f-SIE 46 calcula la información lateral para cada mosaico de tiempo/frecuencia. En implementaciones de SAOC actuales, la transformada de tiempo/frecuencia es fija e idéntica para todos los objetos de audio Si a sN. Además, los parámetros de SAOC son determinados sobre cuadros de SAOC que son los mismos para todos los objetos de audio y tienen la misma resolución de tiempo/frecuencia para todos los objetos de audio Si a sN, sin consideración así de las necesidades objeto-específicas para la resolución temporal fina en algunos casos o resolución espectral fina en otros casos.
En lo que sigue, se describen modalidades de la presente invención.
La figura 1 ilustra un aparato para adaptar información de audio de entrada, codificar uno o más objetos de audio, para obtener información de audio adaptada de acuerdo con una modalidad.
La información de audio de entrada comprende dos o más canales de mezcla descendente de audio de entrada y comprende además información lateral paramétrica de entrada. La información de audio adaptada comprende uno o más canales de mezcla descendente de audio adaptados y comprende además
información lateral paramétrica adaptada.
El aparato comprende un modificador de señal de mezcla descendente (DSM) 110 para adaptar, dependiendo de la información de adaptación, los dos o más canales de mezcla descendente de audio de entrada para obtener el uno o más canales de mezcla descendente de audio adaptados.
Además, el aparato comprende un adaptador de información lateral paramétrica (PSIA) 120 para adaptar, dependiendo de la información de adaptación, la información lateral paramétrica de entrada para obtener la información lateral paramétrica adaptada.
La figura 2 ilustra un aparato para adaptar información de audio de entrada, codificar uno o más objetos de audio, para obtener información de audio adaptada de acuerdo con otra modalidad.
En una modalidad, la información de adaptación puede depender de una instancia de descodificador y el modificador de señal de mezcla descendente 110 puede estar configurado para adaptar los dos o más canales de mezcla descendente de audio de entrada dependiendo de la instancia del descodificador.
Por ejemplo, el modificador de señal de mezcla descendente 110 de la figura 2 adapta la mezcla descendente a las capacidades de la instancia de descodificador particular.
De acuerdo con una modalidad, el modificador de señal de
mezcla descendente 110 puede estar configurado para adaptar los dos o más canales de mezcla descendente de audio de entrada dependiendo de la información de adaptación, de tal manera que el número del uno o más canales de mezcla descendente de audio adaptados es menor que el número de los dos o más canales de mezcla descendente de audio de entrada.
Por ejemplo, en la modalidad de la fig. 2, el modificador de señal de mezcla descendente 110 reduce el número de canales de transporte/mezcla descendente.
Por ejemplo, 22.2 canales de mezcla descendente de audio de entrada (= 24 canales de mezcla descendente de audio de entrada) pueden ser reducidos a 71. canales de mezcla descendente de audio adatados (= 8 canales de mezcla descendente de audio adaptados).
De otra manera, por ejemplo, 5.1 canales de mezcla descendente de audio de entrada (= 6 canales de mezcla descendente de audio de entrada) son reducidos a 2.0 canales de mezcla descendente de audio adaptados (= 2 canales de mezcla descendente de audio adaptados).
De otra manera, por ejemplo, 2 canales de mezcla descendente de audio de entrada son reducidos a 1 canal de mezcla descendente de audio adaptado.
Varias otras combinaciones de canales de mezcla descendente de audio de entrada y canales de mezcla descendente de audio adaptados son posibles.
De acuerdo con una modalidad, la instancia de descodificador puede ser capaz de descodificar a lo sumo un número máximo de canales de mezcla descendente. La información de adaptación puede depender de dicho número máximo de canales de mezcla descendente. Además, el modificador de señal de mezcla descendente 110 puede estar configurado para adaptar los dos o más canales de mezcla descendente de audio de entrada dependiendo de la información de adaptación para obtener el uno o más canales de mezcla descendente de audio adaptados, de tal manera que el número del uno o más canales de mezcla descendente adaptados es igual a dicho número máximo de canales de mezcla descendente.
Por ejemplo, el modificador de señal de mezcla descendente 110 de la figura 2 convierte la mezcla descendente a la señal de audio que corresponde a la configuración de canal de salida soportado máximo de la instancia de codificador particular.
De acuerdo con una modalidad, la información de adaptación puede comprender, por ejemplo, una matriz de adaptación (Dd¥t).
El adaptador de información lateral paramétrica 120 puede, por ejemplo, adaptar la PSI para que corresponda a la mezcla descendente modificada, con el fin de disminuir la complejidad computacional del descodificador y para reducir el tamaño de flujo de bits de datos/velocidad de bits
correspondiente sin producir influencia negativa sobre la calidad de audio de salida del descodificador.
Por ejemplo, el PSIA 120 modifica el flujo de bits de PSI correspondiente que sustituye la información que representa la matriz de mezcla descendente inicial por la información actualizada que describe la mezcla descendente resultante (tomando en cuenta las modificaciones de DSM) para corresponder a la especificación particular del descodificador.
Por ejemplo, un codificador de SAOC provee la señal de mezcla descendente estéreo
resultante de la aplicación de la matriz de mezcla descendente del codificador
a las señales de objeto de audio de entrada S:
•vENC _ nENC<¿
Admx ~ Udmx ° ·
De acuerdo con una modalidad, el modificador de señal de mezcla descendente 110 puede estar configurado para adaptar, dependiendo de la matriz de adaptación
, los dos o más canales de mezcla descendente de audio de entrada
para obtener el uno o más canales de mezcla descendente de audio adaptados
· En una modalidad, esto es realizado por ejemplo, al aplicar la formula
Por ejemplo, en una modalidad, donde se supone que la instancia del descodificador de SAOC particular soporta
solamente mezcla descendente mono (por ejemplo, perfil de bajo retardo de SAOC/nivel 1). En este caso, el DSM 110 convierte la mezcla descendente estéreo
a la señal mono usando una matriz de mezcla descendente predefinida
como sigue:
vDSM _ nDSM ENC
A*a — Udmx A-dna *
De acuerdo con una modalidad, el adaptador de información lateral paramétrica 120 puede estar configurado para adaptar, dependiendo de la matriz de adaptación
, la información lateral paramétrica de entrada
obtener la información lateral paramétrica adaptada DrfffíX. En una modalidad, esto puede ser realizado por ejemplo, al aplicar la fórmula:
npsi _ Y^DSM nENC
Udmx ~ Udmx Udmx
Por ejemplo, de acuerdo con una modalidad, el PSIA 120 analiza sintácticamente el flujo de bits de PSI correspondiente; extrae información que describe la matriz de mezcla descendente D^c; sustituye estos datos por información actualizada que describe la nueva matriz de mezcla descendente
:
J\PSI _ -r DSMnENC
dmx ^dmx dmx *
Así, de acuerdo con una modalidad, la información lateral paramétrica de entrada (D^ ) puede indicar una matriz de mezcla descendente inicial, de tal manera al aplicar la matriz de mezcla descendente inicial (D e x ) sobre el uno o más objetos de audio (S), se obtienen los dos o más canales de mezcla descendente de audio de entrada
). El adaptador de información lateral paramétrica puede estar configurado para determinar una matriz de mezcla descendente adaptada ( Odmx ) como la información lateral parametn ca, de tal manera que al aplicar la matriz de mezcla descendente adaptada
) en el uno o más objetos de audio (S), se obtienen el uno o más canales de mezcla descendente de audio adaptados
En una modalidad, el PSIA formatea el nuevo flujo de bits modificado o hace pasar directamente estos parámetros al descodificador.
Este proceso de codificación y decodificación efectuado por el PSIA puede también incluir conversión de diferentes formatos de representación de matriz de mezcla descendente (por ejemplo, sistema de coordenadas polar a cartesiano, etc.).
Esta función descrita del PSIA puede resolver posibles problemas de compatibilidad y reducir el tamaño del flujo de
bits correspondiente.
La figura 7 ilustra un aparato 700 para generar uno o más canales de audio a partir de información de audio de entrada que codifica uno o más objetos de audio de acuerdo con una modalidad.
El aparato 700 para generar el uno o más canales de audio comprende un aparato 710 de acuerdo con una de las modalidades descritas anteriormente para adaptar información de audio de entrada para obtener información de audio adaptada. La información de audio de entrada comprende dos o más canales de mezcla descendente de audio de entrada y comprende además información lateral paramétrica de entrada. La información de audio adaptada comprende uno o más canales de mezcla descendente de audio adaptados y comprende además información lateral paramétrica adaptada.
El aparato 710 de acuerdo con una de las modalidades descritas anteriormente para adaptar información de audio de entrada comprende un modificador de señal de mezcla descendente 110 y un adaptador de información lateral paramétrica 120.
Además, el aparato 700 para generar el uno o más canales de audio comprende una instancia de descodificador 720, para la decodificación, dependiendo de la información lateral paramétrica adaptada, el uno o más canales de mezcla descendente de audio adaptados para obtener el uno o más
canales de audio.
De acuerdo con una modalidad, el adaptador de información lateral paramétrica 120 del aparato 710 para adaptar información de audio de entrada puede estar configurado para recibir un flujo de bits de entrada que comprende la información lateral paramétrica de entrada. El adaptador de información lateral paramétrica 120 del aparato 710 para adaptar información de audio de entrada puede estar configurado para adaptar la información lateral paramétrica de entrada para obtener la información lateral paramétrica adaptada y para alimentar la información lateral paramétrica adaptada a la instancia de descodificador 720. La instancia de descodificador 720 puede estar configurada para descodificar el uno o más canales de mezcla descendente de audio adaptados dependiendo de la información lateral paramétrica adaptada.
En otra modalidad, el adaptador de información lateral paramétrica 120 del aparato 710 para adaptar información de audio de entrada puede estar configurado para recibir un flujo de bits de entrada que comprende la información lateral paramétrica de entrada. El adaptador de información lateral paramétrica 120 del aparato 710 para adaptar información de audio de entrada puede estar configurado para sustituir la información lateral paramétrica de entrada dentro del flujo de bits de entrada por la información lateral paramétrica
adaptada para obtener un flujo de bits modificado. El adaptador de información lateral paramétrica 120 del aparato 710 para adaptar información de audio de entrada puede estar configurado para alimentar el flujo de bits modificado a la instancia de descodificador 720. Además, la instancia de descodificador 720 puede estar configurada para descodificar el uno o más canales de mezcla descendente de audio adaptados dependiendo de la corriente de bits modificada.
Las figuras 8 y 9 ilustran dos posibilidades para incorporar el aparato para adaptar información de audio de entrada a la cadena de procesamiento de decodificación.
En particular, la figura 8 ilustra una aplicación de PSIA conjunta dentro de un esquema de codificación/decodificación de acuerdo con una modalidad.
La figura 8 ilustra una pluralidad de aparatos 800, 801, 802 para generar uno o más canales de audio a partir de información de audio de entrada que codifica uno o más objetos de audio, en donde el aparato 800 para generar uno o más canales de audio comprende un aparato 810 para adaptar información de audio de entrada y una instancia de descodificador 820, en donde el aparato 801 para generar uno o más canales de audio comprende un aparato 811 para adaptar información de audio de entrada y una instancia de descodificador 821 y en donde el aparato 802 para generar uno o más canales de audio comprende un aparato 812 para adaptar
información de audio de entrada y una instancia de descodificador 822. Se debe notar que, por ejemplo, el aparato 800 para generar uno o más canales de audio, que comprende el aparato 810 para adaptar información de audio de entrada y la instancia del descodificador 820, no tiene que ser realizado como una sola unidad de elementos físicos 800, sino que en lugar de esto puede ser realizado por dos unidades separadas 810, 820 que son conectadas por un alambre o que son conectadas inalámbricamente.
La implementación conjunta (integrada) del aparato para adaptar información de audio de entrada se puede realizar con el fin de reducir la complejidad computacional para la decodificación (vease figura 8). Además, esto permite implementar una interfase no cuantificada (no codificada) entre el aparato para adaptar información de audio de entrada y el descodificador. Esto puede ser relevante, en particular para dispositivos de aplicaciones móviles para reducir el consumo de energía.
La figura 9 ilustra la aplicación PSIA disjunta en un esquema de codificación/decodificación de acuerdo con una modalidad.
En particular, la figura 9 ilustra una pluralidad de aparatos 900, 901, 902 para generar uno o más canales de audio a partir de información de audio de entrada que codifica uno o más objetos de audio, en donde el aparato 900
para generar uno o más canales de audio comprende un aparato 910 para adaptar información de audio de entrada y una instancia de descodificador 920, en donde el aparato 901 para generar uno o más canales de audio comprende un aparato 911 para adaptar información de audio de entrada y una instancia de descodificador 921 y en donde el aparato 902 para generar uno o más canales de audio comprende un aparato 912 para adaptar la información de audio de entrada y una instancia de descodificador 922. Se debe notar que, por ejemplo, el aparato 900 para generar uno o más canales de audio, que comprende el aparato 910 para adaptar información de audio de entrada y la instancia del descodificador 920, no tienen que ser realizados como una sola unidad de elementos físicos (hardware) 900, sino que pueden ser realizados por dos unidades separadas 910, 920 siendo conectadas por un alambre o siendo conectadas inalámbricamente.
La implementación disjunta (separada) del aparato para adaptar información de audio de entrada se puede realizar con el fin de reducir el tamaño del flujo de bits de datos/veloeidad de bits correspondiente, véase figura 9. Esto puede ser relevante en particular para dispositivos de aplicación móvil con capacidad de almacenamiento y transmisión limitada y sistemas de unidad de control de multipuntos (MCU) con canales de transición de datos estrechos .
Aunque algunos aspectos han sido descritos en el contexto de un aparato, es claro que estos aspectos también representan una descripción del método correspondiente, en donde un bloque o dispositivo corresponde a una etapa de método o un aspecto de una etapa de método. Análogamente, los aspectos descritos en el contexto de una etapa de método también representan una descripción de un bloque o ítem o aspecto correspondiente de un aparato correspondiente.
La señal descompuesta de la invención ,puede ser almacenada en un medio de almacenamiento digital o puede ser transmitida en un medio de transmisión, tal como un medio de transmisión inalámbrico o un medio de transmisión por cable, tal como Internet.
Dependiendo de ciertos requerimientos de implementación, las modalidades de la invención pueden ser implementadas en elementos físicos (hardware) o elementos de programación (software). La implementación puede ser efectuada utilizando un medio de almacenamiento digital, por ejemplo, un disquete, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tiene señales de control legibles electrónicamente almacenadas en el mismo, que cooperan (o son capaces de cooperar) con un sistema de computadora programable de tal manera que el método respectivo es efectuado.
Algunas modalidades de acuerdo con la invención
comprenden un portador de datos no transitorio que tiene señales de control que se pueden leer electrónicamente, que son capaces de cooperar con un sistema de computadora programable, de tal manera que uno de los métodos descritos en la presente es efectuado.
En general, las modalidades de la presente invención pueden ser implementadas como un producto de programa de computadora con un código de programa, el código de programa es operativo para efectuar uno de los métodos, cuando el producto de programa de computadora es ejecutado en una computadora. El código del programa puede por ejemplo ser almacenado en un portador que se puede leer por máquina.
Otras modalidades comprenden el programa de computadora para efectuar uno de los métodos descritos en la presente, almacenado en un portador que se puede leer por máquina.
En otras palabras, una modalidad del método de la invención es, por consiguiente, un programa de computadora que tiene un código de programa para efectuar uno de los métodos descritos en la presente, cuando el programa de computadora es ejecutado en una computadora.
Una modalidad adicional de los métodos de la invención es, por consiguiente, un portador de datos (o un medio de almacenamiento digital o un medio que se puede leer por computadora) que comprende, registrado en el mismo, el programa de computadora para efectuar uno de los métodos
descritos en la presente.
Una modalidad adicional del método de la invención es, por consiguiente, un flujo de datos o una secuencia de señales que representan el programa de computadora para efectuar uno de los métodos descritos en la presente. El flujo de datos o la secuencia de señales pueden, por ejemplo estar configurados para ser transferidos vía una conexión de comunicación de datos, por ejemplo vía Internet.
Una modalidad adicional comprende además un medio de procesamiento, por ejemplo una computadora o un dispositivo lógico programable, configurado o apto para efectuar uno de los métodos descritos en la presente.
Una modalidad adicional comprende además una computadora que tiene instalado en la misma el programa de computadora para efectuar uno de los métodos descritos en la presente.
En algunas modalidades, un dispositivo lógico programable (por ejemplo, un arreglo de compuertas programable en el campo) puede ser usado para efectuar algunas o todas de las funcionalidades de los métodos descritos en la presente. En algunas modalidades, un arreglo de compuertas programable en el campo puede cooperar con un microprocesador con el fin de efectuar uno de los métodos descritos en la presente. En general, los métodos son efectuados preferiblemente por cualquier aparato de elementos físicos .
Las modalidades descritas anteriormente son meramente ilustrativas de los principios de la presente invención. Se entiende que modificaciones y variaciones de las disposiciones y los detalles descritos en la presente serán evidentes para otros expertos en la téenica. Es la intención, por consiguiente, estar limitados solamente por el alcance de las reivindicaciones de patente inminentes y no por los detalles específicos presentados a modo de descripción y explicación de las modalidades de la presente.
Referencias
[MPS] ISO/IEC 23003-1:2007, MPEG-D (Tecnologías de audio MPEG), Parte 1: MPEG Surround, 2007.
[BCC] C. Faller y F. Baumgarte, "Codificación de pista binaural - Parte II: Esquemas y aplicaciones", IEEE Trans. on Speech and Audio Proc., vol.11, no.6, Nov.2003.
[JSC] C. Faller, "Codificación conjunta paramétrica de fuentes de audio", 12a Convención de AES, Paris, 2006.
[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "De SAC a SAOC - Desarrollos Recientes en Codificación Paramétrica de Audio Espacial", 22a Conferencia de AES Regional del Reino Unido de la Gran Bretaña, Cambridge, Reino Unido de la Gran Bretaña abril 2007.
[SA0C2] J. Engdegárd, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hólzer, L. Terentiev, J. Breebaart, J.
Koppens, E. Schuijers y W. Oomen: "Codificación de Objeto de Audio Espacial (SAOC) - El estándar de MPEG venidero en Codificación de Audio a Base de Objeto Paramétrica", 124a Convención de AES, Amsterdam 2008.
[SAOC] ISO/IEC, "Teenologías de Audio MPEG Parte 2: Codificación de Objeto Espacial (SAOC)", ISO/IEC JTC1/SC29/WG11 (MPEG) Estándar Internacional 23003-2.
[ISS1] M. Parvaix y L. Girin: "Separación de Fuente Informada de Mezclas Estéreo Instantáneas Usando Incrustación de Indice de Fuente", IEEE ICASSP, 2010
[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "Método a base de marca de agua para separación de fuente informada de señales de audio con un solo sensor", Transacciones del IEEE en Procesamiento de Audio, Habla y Lenguaje, 2010.
[ISS3] A. Liutkus, J. Pinel, R. Badeau, L. Girin y G. Richard: "Separación de fuente informada por medio de codificación de espectrograma e incrustación de datos", Signal Processing Journal, 2011.
[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Separación de fuente informada: la codificación de fuente se encuentra con la separación de fuente", Taller del IEEE en cuanto a Aplicaciones de Procesamiento de Señal a Audio y Acústica, 2011.
[ISS5] Shuhua Zhang y Laurent Girin: "Sistema de Separación de Fuente Informada para Señales de Habla",
INTERSPEECH, 2011.
[ISS6] L . Girin y J. Pinel: "Separación de Fuente de
Audio Informada a partir de Mezclas Estéreo Lineales Comprimidas", AES 42a Conferencia Internacional: Semántica de Audio, 2011.
Claims (13)
1. Un aparato para adaptar información de audio de entrada, codificar uno o más objetos de audio, para obtener información de audio adaptada, en donde en donde la información de audio de entrada comprende dos o más canales de mezcla descendente de audio de entrada y comprende además, información lateral paramétrica de entrada, en donde la información de audio adaptada comprende uno o más canales de mezcla descendente de- audio adaptados y comprende además información lateral paramétrica adaptada, en donde el aparato comprende: un modificador de señal de mezcla descendente (110) para adaptar, dependiendo de la información de adaptación, los dos o más canales de mezcla descendente de audio de entrada para obtener el uno o más canales de mezcla descendente de audio adaptados y un adaptador de información lateral paramétrica (120) para adaptar, dependiendo de la información de adaptación, la información lateral paramétrica de entrada para obtener la información lateral paramétrica adaptada, en donde la información de adaptación comprende una matriz de adaptación en donde el modificador de señal de mezcla descendente (110) está configurado para adaptar, dependiendo de la matriz de adaptación ), los dos o más canales de mezcla descendente de audio de entrada (XJ E^ ) para obtener el uno o más canales de mezcla descendente de audio adaptados ), en donde el adaptador de información lateral paramétrica (120) está configurado para adaptar, dependiendo de la matriz de adaptación ( ), la información lateral paramétrica ( ^dmx ) para obtener la información lateral paramétrica adaptada
2. El aparato de acuerdo con la reivindicación 1, en donde la información lateral paramétrica ) indica una matriz de mezcla descendente inicial, de tal manera que mediante la aplicación de la matriz de mezcla descendente inicial ) en el uno o más objetos de audio, se obtienen los dos o más canales de mezcla descendente de audio de entrada y en donde el adaptador de información lateral paramétrica (120) está configurado para determinar una matriz de mezcla descendente adaptada ( Ddmx ) como la información lateral paramétrica adaptada, de tal manera que mediante la aplicación de la matriz de mezcla descendente adaptada (Drfmx) sobre el uno o más objetos de audio (S), se obtienen el uno o más canales de mezcla descendente de audio adaptados ( Xd^ ) .
3. El aparato de acuerdo con la reivindicación 1 o 2, en donde el modificador de señal de mezcla descendente (110) está configurado para adaptar los dos o más canales de mezcla descendente de audio de entrada dependiendo de la información de adaptación, de tal manera que el número del uno o más canales de mezcla descendente de audio adaptados es menor que el número de los dos o más canales de mezcla descendente de audio de entrada.
4. El aparato de acuerdo con una de las reivindicaciones 1 a 3, en donde la información de adaptación depende de una instancia del descodificador y en donde el modificador de señal de mezcla descendente (110) está configurado para adaptar los dos o más canales de mezcla descendente de audio de entrada dependiendo de la instancia del descodificador.
5. El aparato de acuerdo con la reivindicación 4, en donde la instancia del descodificador es capaz de descodificar a lo más un número máximo de canales de mezcla descendente. en donde la información de adaptación depende del número máximo de canales de mezcla descendente y en donde el modificador de señal de mezcla descendente (110) está configurado para adaptar los dos o más canales de mezcla descendente de audio de entrada dependiendo de la información de adaptación para obtener el uno o más canales de mezcla descendente de audio adaptados, de tal manera que el número del uno o más canales de mezcla descendente adaptados es igual al número máximo de canales de mezcla descendente.
6. El aparato de acuerdo con una de las reivindicaciones precedentes, en donde el modificador de señal de mezcla descendente (110) está configurado para adaptar, dependiendo de la matriz de adaptación , los dos o más canales de mezcla descendente de audio de entrada para obtener el uno o más canales de mezcla descendente de audio adaptados -dmx mediante la aplicación de la fórmula: Y¥AÍ _ ftWyEVC L dmx ^ dmx ^dmx
7. El aparato de acuerdo con una de las reivindicaciones precedentes, en donde el adaptador de información lateral paramétrica (120) está configurado para adaptar, dependiendo de la matriz de adaptación , la información lateral paramétrica de entrada para obtener la información lateral paramétrica adaptada D dmx mediante aplicación de la fórmula: T\PSI _ -p| DSMj^ENC Udmx— Udmx Udmx
8. Un aparato (700; 800, 801, 802; 900, 901, 902) para generar uno o más canales de audio de información de audio de entrada que codifica uno o más objetos de audio, en donde el aparato comprende: un aparato (710; 810, 811, 812; 910, 911, 912) de acuerdo con una de las reivindicaciones 1 a 6 para adaptar información de audio de entrada para obtener información de audio adaptada, en donde la información de audio de entrada comprende dos o más canales de mezcla descendente de audio de entrada y comprende además información lateral paramétrica de entrada, en donde la información de audio adaptada comprende uno o más canales de mezcla descendente de audio adaptados y comprende además información lateral paramétrica adaptada y una instancia de descodificador (720; 820, 821, 822; 920, 921, 922) para descodificar, dependiendo de la información lateral paramétrica adaptada, el uno o más canales de mezcla descendente de audio adaptados para obtener el uno o más canales de audio.
9. El aparato (700; 800, 801, 802) de acuerdo con la reivindicación 8, en donde el adaptador de información lateral paramétrica (120) del aparato (710; 810, 811, 812) de acuerdo con una de las reivindicaciones 1 a 7 está configurado para recibir un flujo de bits de entrada que comprende la información lateral paramétrica de entrada, en donde el adaptador de información lateral paramétrica (120) del aparato (710; 810, 811, 812) de acuerdo con una de las reivindicaciones 1 a 7 está configurado para adaptar la información lateral paramétrica de entrada para obtener la información lateral paramétrica adaptada y para alimentar la información lateral paramétrica adaptada a la instancia de descodificador (720; 820, 821, 822) y en donde la instancia de descodificador (720; 820, 821, 822) está configurada para descodificar el uno o más canales de mezcla descendente de audio adaptado en la información lateral paramétrica adaptada.
10. El aparato (700; 900, 901, 902) de acuerdo con la reivindicación 8, en donde el adaptador de información lateral paramétrica (120) del aparato (710; 910, 911, 912) de acuerdo con una de las reivindicaciones 1 a 7 está configurado para recibir un flujo de bits de entrada que comprende la información lateral paramétrica de entrada, en donde el adaptador de información lateral paramétrica (120) del aparato (710; 910, 911, 912) de acuerdo con una de las reivindicaciones 1 a 7 está configurado para sustituir la información lateral paramétrica de entrada dentro de la corriente de bits de entrada por la información lateral paramétrica adaptada para obtener una corriente de bits modificada, en donde el adaptador de información lateral paramétrica (120) del aparato (710; 910, 911, 912) de acuerdo con una de las reivindicaciones 1 a 7 está configurado para alimentar la corriente de bits modificada a la instancia del descodificador (720; 920, 921, 922) y en donde la instancia de descodificador (720; 920, 921, 922) está configurada para descodificar el uno o más canales de mezcla descendente de audio adaptados dependiendo de la corriente de bits modificada.
11. Un método para adaptar información de audio de entrada, codificar uno o más objetos de audio, para obtener información de audio adaptada, en donde la información de audio de entrada comprende dos o más canales de mezcla descendente de audio de entrada y comprende además información lateral paramétrica de entrada, en donde la información de audio adaptada comprende uno o más canales de mezcla descendente de audio adaptados y comprende además información lateral paramétrica adaptada, en donde el método comprende: adaptar, dependiendo de la información de adaptación, los dos o más canales de mezcla descendente de audio de entrada para obtener el uno o más canales de mezcla descendente de audio adaptados y adaptar, dependiendo de la información de adaptación, la información lateral paramétrica de entrada para obtener la información lateral paramétrica adaptada, en donde la información de adaptación comprende una matriz de adaptación en donde la etapa de adaptar los dos o más canales de mezcla descendente de audio de entrada comprende adaptar, dependiendo de la matriz de adaptación, )» los dos ° más canales de mezcla descendente de audio de entrada ) para obtener el uno o más canales de mezcla descendente de audio adaptados en donde la etapa de adaptar la información lateral paramétrica de entrada comprende adaptar, dependiendo de la matriz de adaptación ) > la información lateral paramétrica de entrada ) para obtener la información lateral paramétn ca adaptada ( Odmx ) .
12. El método de acuerdo con la reivindicación 11, en donde la información lateral paramétrica de entrada ) indica una matriz de mezcla descendente inicial, de tal manera que mediante la aplicación de la matriz de mezcla descendente inicial ) sobre el uno o más objetos de audio (S), se obtienen los dos o más canales de mezcla descendente de audio de entrada ) y en donde la etapa de adaptar la información lateral paramétrica de entrada comprende determinar una matriz de mezcla descendente adaptada ( Ddmx ) como la información lateral paramétrica adaptada, de tal manera que mediante la aplicación de la matriz de mezcla descendente adaptada ) sobre el uno o más objetos de audio (S), se obtienen el uno o más canales de mezcla descendente de audio adaptados(C^ )·
13. Un programa de computadora para iplementar el método de la reivindicación 11 o 12, cuando es ejecutado por una computadora o procesador de señal.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261681732P | 2012-08-10 | 2012-08-10 | |
PCT/EP2013/063703 WO2014023477A1 (en) | 2012-08-10 | 2013-06-28 | Apparatus and methods for adapting audio information in spatial audio object coding |
Publications (2)
Publication Number | Publication Date |
---|---|
MX2015001748A true MX2015001748A (es) | 2015-06-05 |
MX350687B MX350687B (es) | 2017-09-13 |
Family
ID=48700607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
MX2015001748A MX350687B (es) | 2012-08-10 | 2013-06-28 | Métodos y aparatos para adaptar información de audio en codificación de objeto de audio espacial. |
Country Status (12)
Country | Link |
---|---|
US (1) | US10497375B2 (es) |
EP (1) | EP2883226B1 (es) |
JP (1) | JP6141980B2 (es) |
KR (2) | KR102033985B1 (es) |
CN (1) | CN104704557B (es) |
AU (1) | AU2013301864B2 (es) |
BR (1) | BR112015002794B1 (es) |
CA (1) | CA2880412C (es) |
ES (1) | ES2595220T3 (es) |
MX (1) | MX350687B (es) |
RU (1) | RU2609097C2 (es) |
WO (1) | WO2014023477A1 (es) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2804176A1 (en) * | 2013-05-13 | 2014-11-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio object separation from mixture signal using object-specific time/frequency resolutions |
JP6313641B2 (ja) * | 2014-03-25 | 2018-04-18 | 日本放送協会 | チャンネル数変換装置 |
US9378384B2 (en) * | 2014-04-16 | 2016-06-28 | Bank Of America Corporation | Secure endpoint file export in a business environment |
CN106294331B (zh) | 2015-05-11 | 2020-01-21 | 阿里巴巴集团控股有限公司 | 音频信息检索方法及装置 |
EP3174316B1 (en) * | 2015-11-27 | 2020-02-26 | Nokia Technologies Oy | Intelligent audio rendering |
GB2559200A (en) | 2017-01-31 | 2018-08-01 | Nokia Technologies Oy | Stereo audio signal encoder |
GB2594265A (en) * | 2020-04-20 | 2021-10-27 | Nokia Technologies Oy | Apparatus, methods and computer programs for enabling rendering of spatial audio signals |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1817767B1 (en) * | 2004-11-30 | 2015-11-11 | Agere Systems Inc. | Parametric coding of spatial audio with object-based side information |
RU2406164C2 (ru) * | 2006-02-07 | 2010-12-10 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Устройство и способ для кодирования/декодирования сигнала |
ATE527833T1 (de) * | 2006-05-04 | 2011-10-15 | Lg Electronics Inc | Verbesserung von stereo-audiosignalen mittels neuabmischung |
ES2380059T3 (es) * | 2006-07-07 | 2012-05-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y método para combinar múltiples fuentes de audio codificadas paramétricamente |
WO2008039043A1 (en) * | 2006-09-29 | 2008-04-03 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
CN101479785B (zh) * | 2006-09-29 | 2013-08-07 | Lg电子株式会社 | 用于编码和解码基于对象的音频信号的方法和装置 |
SG175632A1 (en) * | 2006-10-16 | 2011-11-28 | Dolby Sweden Ab | Enhanced coding and parameter representation of multichannel downmixed object coding |
JP5337941B2 (ja) * | 2006-10-16 | 2013-11-06 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | マルチチャネル・パラメータ変換のための装置および方法 |
JP5254983B2 (ja) | 2007-02-14 | 2013-08-07 | エルジー エレクトロニクス インコーポレイティド | オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置 |
CN101542597B (zh) * | 2007-02-14 | 2013-02-27 | Lg电子株式会社 | 用于编码和解码基于对象的音频信号的方法和装置 |
US8295494B2 (en) * | 2007-08-13 | 2012-10-23 | Lg Electronics Inc. | Enhancing audio with remixing capability |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
PT2146344T (pt) * | 2008-07-17 | 2016-10-13 | Fraunhofer Ges Forschung | Esquema de codificação/descodificação de áudio com uma derivação comutável |
US8315396B2 (en) * | 2008-07-17 | 2012-11-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating audio output signals using object based metadata |
MX2011011399A (es) * | 2008-10-17 | 2012-06-27 | Univ Friedrich Alexander Er | Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto. |
WO2010090019A1 (ja) * | 2009-02-04 | 2010-08-12 | パナソニック株式会社 | 結合装置、遠隔通信システム及び結合方法 |
ES2524428T3 (es) * | 2009-06-24 | 2014-12-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decodificador de señales de audio, procedimiento para decodificar una señal de audio y programa de computación que utiliza etapas en cascada de procesamiento de objetos de audio |
PL2489037T3 (pl) * | 2009-10-16 | 2022-03-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Urządzenie, sposób i program komputerowy do dostarczania regulowanych parametrów |
-
2013
- 2013-06-28 ES ES13732189.9T patent/ES2595220T3/es active Active
- 2013-06-28 JP JP2015525793A patent/JP6141980B2/ja active Active
- 2013-06-28 EP EP13732189.9A patent/EP2883226B1/en active Active
- 2013-06-28 MX MX2015001748A patent/MX350687B/es active IP Right Grant
- 2013-06-28 KR KR1020157006247A patent/KR102033985B1/ko active IP Right Grant
- 2013-06-28 KR KR1020177002803A patent/KR101837686B1/ko active IP Right Grant
- 2013-06-28 RU RU2015104055A patent/RU2609097C2/ru active
- 2013-06-28 WO PCT/EP2013/063703 patent/WO2014023477A1/en active Application Filing
- 2013-06-28 CA CA2880412A patent/CA2880412C/en active Active
- 2013-06-28 BR BR112015002794-6A patent/BR112015002794B1/pt active IP Right Grant
- 2013-06-28 CN CN201380042080.0A patent/CN104704557B/zh active Active
- 2013-06-28 AU AU2013301864A patent/AU2013301864B2/en active Active
-
2015
- 2015-02-06 US US14/616,374 patent/US10497375B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
MX350687B (es) | 2017-09-13 |
CA2880412C (en) | 2019-12-31 |
CN104704557B (zh) | 2017-08-29 |
JP6141980B2 (ja) | 2017-06-07 |
WO2014023477A1 (en) | 2014-02-13 |
US20150154968A1 (en) | 2015-06-04 |
CN104704557A (zh) | 2015-06-10 |
RU2609097C2 (ru) | 2017-01-30 |
EP2883226B1 (en) | 2016-08-03 |
AU2013301864B2 (en) | 2016-04-14 |
KR20170016997A (ko) | 2017-02-14 |
JP2015525905A (ja) | 2015-09-07 |
US10497375B2 (en) | 2019-12-03 |
KR20150043404A (ko) | 2015-04-22 |
CA2880412A1 (en) | 2014-02-13 |
KR102033985B1 (ko) | 2019-10-18 |
BR112015002794A2 (pt) | 2020-04-22 |
BR112015002794B1 (pt) | 2021-07-13 |
RU2015104055A (ru) | 2016-09-27 |
AU2013301864A1 (en) | 2015-02-19 |
EP2883226A1 (en) | 2015-06-17 |
ES2595220T3 (es) | 2016-12-28 |
KR101837686B1 (ko) | 2018-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11074920B2 (en) | Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding | |
EP3093843A1 (en) | Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value | |
US10497375B2 (en) | Apparatus and methods for adapting audio information in spatial audio object coding | |
CN104885150B (zh) | 用于多声道缩混/上混情况的通用空间音频对象编码参数化概念的解码器和方法 | |
JP2015518578A (ja) | パラメトリック空間オーディオ符号化および復号化のための方法、パラメトリック空間オーディオ符号器およびパラメトリック空間オーディオ復号器 | |
AU2013298462B2 (en) | Decoder and method for multi-instance spatial-audio-object-coding employing a parametric concept for multichannel downmix/upmix cases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FG | Grant or registration |