MX2015004019A

MX2015004019A - Codificador, decodificador y metodos para la transformacion de amplicacion por acercamiento dependiente de señales de la codificacion espacial de objetos de audio.

Info

Publication number: MX2015004019A
Application number: MX2015004019A
Authority: MX
Inventors: Jürgen Herre; Bernd Edler; Oliver Hellmuth; Thorsten Kastner; Jouni Paulus; Sascha Disch
Original assignee: Fraunhofer Ges Zur Förderung Der Angewandten Forschung E V
Priority date: 2012-10-05
Filing date: 2013-10-02
Publication date: 2015-07-06
Also published as: CN105190747A; AR092928A1; EP2904610B1; EP2904611A1; MX351359B; KR101685860B1; KR20150065852A; TW201423729A; JP2015535959A; ES2873977T3; RU2015116645A; TWI541795B; KR20150056875A; CN104798131A; JP2015535960A; JP6268180B2; US20150279377A1; MY178697A; RU2639658C2; TWI539444B

Abstract

Se provee un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de downmix que comprende una pluralidad de muestras de downmix en el dominio del tiempo. La señal de downmix codifica dos o más señales de objeto de audio. El decodificador comprende un generador de secuencias de ventana (134) para determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de downmix en el dominio del tiempo de la señal de downmix. Cada ventana de análisis de la pluralidad de ventanas de análisis tiene una longitud de ventana que indica la cantidad de las muestras de downmix en el dominio del tiempo de dicha ventana de análisis. El generador de secuencias de ventana (134) está configurado para determinar la pluralidad de ventanas de análisis de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales de objeto de audio. Además, el decodificador comprende un módulo de análisis t/f (135) para transformar la pluralidad de muestras de downmix en el dominio del tiempo de cada ventana de análisis de la pluralidad de ventanas de análisis desde un dominio del tiempo a un dominio de tiempo-frecuencia en función de la longitud de ventana de dicha ventana de análisis, para obtener un downmix transformado. Por otra parte, el decodificador comprende una unidad de desmezclado (136) para desmezclar el downmix transformado en base a información paramétrica lateral sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio. Además, se provee un codificador.

Description

CODIFICADOR. PECOD1FICADOR Y MÉTODOS PARA LA TRANSFORMACIÓN DE AMPLICACIÓN POR ACERCAMIENTO DEPENDIENTE DE SEÑALES EN LA CODIFICACIÓN ESPACIAL DE OBJETOS DE AUDIO Descripción La presente invención se refiere a la codificación de señales de audio, la decodificación de señales de audio y al procesamiento de señales de audio, y, en particular, a un codificador, a un decodificador y a métodos para la adaptación dinámica inversa compatible de la resolución en tiempo/frecuencia en la codificación espacial-de audio-de objeto (SAOC, spatial-audio-objeto-coding).

En los sistemas de audio digital modernos, es una tendencia importante permitir modificaciones relacionadas con audio-objeto en cuanto al contenido transmitido en el lado del receptor. Estas modificaciones incluyen modificaciones de ganancia de partes seleccionadas de la señal de audio y/o el reposicionamiento espacial de los objetos de audio dedicados en el caso de la reproducción de múltiples canales por intermedio de altavoces distribuidos espacialmente. Esto puede lograrse mediante la entrega de forma individual de diferentes partes del contenido de audio a los diferentes altavoces. En otras palabras, en la téenica del procesamiento de audio, de la transmisión de audio, y del almacenamiento de audio, existe un creciente deseo de permitir la interacción del usuario en la reproducción de contenido de audio orientado a objeto y también una demanda para utilizar las posibilidades ampliadas de la reproducción de múltiples canales a efectos de renderizar individualmente los contenidos de audio o partes de los mismos con el fin de mejorar la impresión de la audición. De esta manera el uso del contenido de audio multi-canal aporta significativas mejoras para el usuario. Por ejemplo, es posible obtener una impresión de audición tridimensional, lo que trae consigo una mejora de la satisfacción del usuario en aplicaciones de entretenimiento. Sin embargo, el contenido de audio multi-canal tambien es útil en entornos profesionales, por ejemplo, en aplicaciones de conferencias telefónicas, ya que es posible mejorar la comprensión del hablante mediante el uso de una reproducción de audio de múltiples canales. Otra aplicación posible consiste en ofrecer a un oyente de una pieza musical el ajuste individual del nivel de reproducción y/o la posición espacial de diferentes partes (también denominados "objetos de audio") o pistas, tales como una parte vocal o diferentes instrumentos. El usuario puede realizar este ajuste por razones de gusto personal, para facilitar la transcripción de una o más partes de la pieza musical, con fines educativos, karaoke, ensayo, etc.

La transmisión discreta sencilla de todos el contenido de audio digital de múltiples canales o de múltiples objetos, por ejemplo, en forma de datos de PCM (pulse code modulation, modulación por impulsos codificados) o aun de formatos de audio comprimidos, requiere velocidades o caudales de bits (bitrates) muy elevadas. Sin embargo, también es deseable transmitir y almacenar datos de audio de una manera eficiente en cuanto a la velocidad de bits. Por ello existe la predisposición de aceptar una solución de compromiso razonable entre la calidad de audio y los requisitos en cuanto a velocidad de bits con el fin de evitar una carga excesiva sobre los recursos causada por aplicaciones de multicanal/multiobjeto.

Recientemente, en el campo de la codificación de audio, téenicas paramétricas para la transmisión/ almacenamiento eficiente desde el punto de vista de la velocidad de bits para señales de audio multicanal/multiaudio han sido introducidos mediante, por ejemplo, el MPEG (Moving Picture Experts Group, Grupo de Expertos de Imágenes en Movimiento). Un ejemplo es el MPS (MPEG Surround ) a título de enfoque orientado a los canales [MPS, BCC], o el SAOC (Spatial Audio Objeto Coding, Codificación de Objetos orientado a audio espacial) a título de enfoque orientado a objeto [JSC, SAOC, SAOC1 , SAOC2] Otro enfoque orientado a objeto lleva la denominación de “informed source separation (separación de fuente informada)” [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]. Estas técnicas apuntan a reconstruir una escena de audio con una salida deseada o un objeto de fuente de audio deseado sobre la base de un downmix de canales/objetos e información lateral adicional que describe la escena de audio transmitida/almacenada y/o los objetivos de fuente de audio en la escena de audio.

La estimación y la aplicación de información lateral relaciona da con canal/objeto en tales sistemas se realiza de manera selectiva en tiempo-frecuencia. Por lo tanto, tales sistemas emplean trasformadas de tiempo-frecuencia tales como la transformada discreta de Fourier (DFT, Discrete Fourier Transform), la Transformada de Fourier de Tiempo Corto (STFT, Short Time Fourier Transform) o bancos de filtros tales como bancos QMF (Quadrature Mirror Filter, Filtro de espejo en Cuadratura), etc. El principio básico de estos sistemas se representa en la Figura 3, mediante el ejemplo de MPEG SAOC.

En el caso de STFT, la dimensión temporal está representada por la cantidad de bloque de tiempo y la dimensión espectral es capturada por el número de coeficientes espectrales ("bin"). En el caso de la QMF, la dimensión temporal está representada por la cantidad de ranura de tiempo y la dimensión espectral es capturada por la cantidad de subbanda. Si la resolución espectral de la QMF se mejora mediante la posterior aplicación de una segunda etapa de filtro, todo el banco de filtros lleva la denominación de QMF híbrido y las subbandas de resolución llevan la denominación de subbandas híbridas.

Como ya se ha mencionado en lo que precede, en SAOC se lleva a cabo el procesamiento general de una manera selectiva en tiempo-frecuencia y puede ser descrito de la siguiente manera dentro de cada banda de frecuencia, como se representa en la Figura 3: N señales de objeto de audio de entrada Sj ... sw son sometidos a downmixing en P canales Xi ... Xp como parte del procesamiento de codificador para lo cual se utiliza una matriz de downmix consistente en los elementos dn ... dw,p. Además, el codificador extrae información lateral que describe las características de los objetos de audio ingresados (módulo de SIE (side-information-estimator, estimador de información lateral). Para el MPEG SAOC, las relaciones de las potencias de objeto entre sí son la forma más básica de dicha información lateral.

La(s) señal(es) de downmix y la información lateral son transmitidas/almacenadas. A tal efecto, la o las señales de audio de downmix pueden ser comprimidas, por ejemplo, mediante la utilización de codificadores de audio perceptuales bien conocidos tales como MPEG-1/2 Capa II o III (también conocido como .mp3), MPEG-2/4 AAC (Advanced Audio Coding, Codificación Avanzada de Audio), etc.

En el extremo receptor, el decodificador intenta conceptualmente restaurar las señales objeto originales (“separación de objetos”) a partir de las señales de downmix (decodificadas) mediante el uso de la información lateral transmitida. Las señales objeto aproximadas §1 ... sw son seguidamente mezcladas en forma de una escena apuntada representada por M canales de salida de audio y1 ... yM para lo cual se utiliza una matriz de renderización descrita por los coeficientes p ... rN,M en la Figura 3. La escena objeto deseada puede ser, en el caso extremo, la renderización de solamente una señal fuente fuera de la mezcla (escenario de separación de fuente), pero tambien cualquier otra escena acústica arbitraria consistente en los objetivos transmitidos. Por ejemplo, la salida puede ser un canal simple, un estéreo de canales o una escena apuntada multicanal 5.1.

Los sistemas basados en tiempo-frecuencia pueden utilizar una transformada de tiempo-frecuencia (t/f) con resolución estática de tiempo y frecuencia. La elección de una dada grilla resolución t/f fija típicamente implica un compromiso entre resolución de tiempo y de frecuencia.

El efecto de una -resolución t/f fija se puede demostrar con el ejemplo de señales de objeto típicas en una mezcla de señales de audio. Por ejemplo, los espectros de sonidos tonales presentan una estructura armónicamente relacionada con una frecuencia fundamental y varios matices. La energía de tales señales se concentra en determinadas regiones de frecuencia. Para este tipo de señales, una resolución de alta frecuencia de la representación de t/f utilizada es beneficiosa para la separación de las regiones espectrales tonales de banda estrecha a partir de una mezcla de señales. En cambio, las señales transitorias, tales como los sonidos de percusión, frecuentemente tienen una estructura temporal distinta: la energía sustancial se halla presente solamente durante cortos períodos de tiempo y se extiende sobre una amplia gama de frecuencias. Para estas señales, una elevada resolución temporal de la representación de t/f utilizada es ventajosa para separar la porción de señal transitoria de la mezcla de señales.

Los esquemas de codificación de objetos de audio actuales ofrecen solamente una limitada variabilidad del procesamiento por SAOC. Por ejemplo, el MPEG SAOC [SAOC] [SAOC1] [SAOC2] está limitado a la resolución en tiempo-frecuencia que puede obtenerse mediante el uso del denominado Hybrid-QMF (Hybrid Quadrature Mirror Filter Bank, Banco de Filtros Espejo de Cuadratura Híbrido) y su subsiguiente agrupación en bandas parametricas. Por ello, la restauración de los objetos en SAOC estándar (MPEG SAOC, estandarizado en [SAOC]) frecuentemente adolece de una resolución grosera de la frecuencia del Hybrid-QMF lo que conduce a una diafonía audible modulada debida a los otros objetos de audio (por ejemplo, artefactos de diafonía en artefactos groseros en el habla o auditivos en música).

Los esquemas de codificación de objetos de audio, tales como el BCC (Binaural Cue Coding, codificación de Cue binaural) y las fuentes de JSC (Parametric Joint-Coding of Audio Sources, Codificación paramétrica conjunta) también se limitan al uso de un banco de filtros de resolución fija. La elección real de un banco de filtros de resolución fija o transformación siempre implica un compromiso predefinido en términos de carácter óptimo entre las propiedades temporales y espectrales del esquema de codificación.

En el campo de la separación de fuente informada (ISS, ), informed source separation) se ha sugerido adaptar dinámicamente la longitud de la transformada de tiempo frecuencia a las propiedades de la señal [ISS7] como es bien conocido a partir de los esquemas de codificación de audio perceptuales, por ejemplo, AAC (Advanced Audio Coding) [AAC].

El objeto de la presente invención es el de proveer conceptos mejorados para la codificación de objetos de audio. El objeto de la presente invención se logra mediante un decodificador de acuerdo con la reivindicación 1, mediante un codificador de acuerdo con la reivindicación 7, mediante un metodo para la decodificación de acuerdo con la reivindicación 13, mediante un método para la codificación de acuerdo con la reivindicación 14 y mediante un programa de computadora de acuerdo con la reivindicación 15.

A diferencia del SAOC del estado de la téenica, se proveen formas de realización para adaptar dinámicamente la resolución de tiempo-frecuencia a la señal de una manera compatible en dirección inversa, de manera tal que - las corrientes de bits de parámetro SAOC originadas desde un codificador SAOC estándar (MPEG SAOC, estandardizado en [SAOC]) todavía puedan ser decodificadas por un decodificador reforzado con una calidad de la percepción comparable con la obtenida mediante un decodificador estándar, - las corrientes de bits de SAOC reforzadas pueden ser decodificadas con una calidad óptima con el decodificador reforzado; y - las corrientes de bits de SAOC estándar y reforzadas pueden ser mezcladas, por ejemplo, en un escenario MCU (multi-point unidad de control, unidad de control de múltiples puntos), en forma de una corriente de bits en común que puede ser decodificada con un decodificador estándar o con un decodificador reforzado.

Para las propiedades mencionadas anteriormente, es útil para proveer una representación de banco de filtros en común/transformada que se pueda adaptar dinámicamente en resolución de tiempo-frecuencia para sea soportar la decodificación de los novedosos datos de SAOC reforzados y al mismo tiempo, el mapeo inverso compatible de los datos de SAOC tradicionales estándar. La fusión de datos mejorados de SAOC con datos SAOC estándar es posible mediante una representación en común de este tipo.

Es posible obtener una calidad mejorada de la calidad de percepción de SAOC mediante la adaptación dinámica de la resolución en tiempo-frecuencia del banco de filtros o transformada que se emplea para estimación o que se utiliza para sintetizar las señales de los objetos de audio a las propiedades específicas del objeto de audio de entrada. Por ejemplo, si el objeto de audio es casi estacionario durante un cierto intervalo de tiempo, la estimación de los parámetros y la síntesis se llevan a cabo ventajosamente en una resolución grosera de tiempo gruesa y una resolución fina de la frecuencia. Si el objeto de audio contiene transitorios o no estacionarios durante un cierto intervalo de tiempo, la estimación de los parámetros y la síntesis se realizan de manera ventajosa con una resolución fina en tiempo fina y una resolución grosera en frecuencia. De este modo, la adaptación dinámica del banco de filtros o de transformada permite: - una elevada selectividad de la frecuencia en la separación espectral de las señales casi estacionarias a efectos de evitar la diafonía entre objetos, y - una elevada precisión temporal para iniciaciones de objeto o para eventos transitorios a efectos de minimizar pre- y poseeos.

Al mismo tiempo, es posible obtener una la calidad SAOC tradicional mediante el mapeo de datos de SAOC estándar en la grilla de tiempo-frecuencia provista por transformada adaptativa de señales compatible inversamente de acuerdo con la invención que depende de información lateral que describe las características de la señal de objeto.

Tener la capacidad de decodificar tanto datos SAOC estándar como datos SAOC reforzados utilizando una transformación en común permite la compatibilidad directa inversa para aplicaciones que abarcan el mezclado de datos de SAOC estándar y mejorados.

Se provee un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de downmix que comprende una pluralidad de muestras de downmix en el dominio del tiempo. La señal de downmix codifica dos o más señales de objetos de audio.

El decodificador comprende un generador de secuencias de ventana para determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de downmix en el dominio del tiempo de la señal de downmix. Cada ventana de análisis de la pluralidad de ventanas de análisis tiene una longitud de ventana que designa la cantidad de las muestras de downmix en el dominio del tiempo de dicha ventana de análisis. El generador de secuencias de ventana está configurado para determinar la pluralidad de ventanas de análisis de modo que la longitud de la ventana de cada una de las ventanas de análisis depende de una propiedad de señal de al menos una de las dos o más señales de objetos de audio.

Por otra parte, el decodificador comprende un módulo de análisis de t/f para transformar la pluralidad de muestras de downmix en el dominio del tiempo de cada ventana de análisis de la pluralidad de ventanas de análisis a partir de un dominio del tiempo a un dominio de tiempo-frecuencia en función de la longitud de la ventana de dicha ventana de análisis, de manera de obtener un downmix transformado.

Además, el decodificador comprende una unidad de desmezclado para desmezclar el downmix transformado en base a información lateral parametrica sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio.

De acuerdo con una forma de realización, el generador de secuencias de ventanas puede estar configurado para determinar la pluralidad de ventanas de análisis, de manera tal que un transitorio, que designa un cambio de señal de por lo menos uno de los dos o más señal de objeto de audio que se están codificando por medio de la señal de downmix, se halle comprendida por una primera ventana de análisis de la pluralidad de ventanas de análisis, en donde un centro ck de la primera ventana de análisis está definida por una ubicación t del transitorio de acuerdo con ck = t - k, y un centro ck+ 1 de la primera ventana de análisis está definido por la ubicación t del transitorio de acuerdo con ck+ 1 = t + la, en donde la e lb son números.

En una forma de realización, el generador de secuencias de ventanas puede estar configurado para determinar la pluralidad de ventanas de análisis, de manera tal que un transitorio, que designa un cambio de señal de por lo menos uno de los dos o más señal de objeto de audio que se están codificando mediante la señal de downmix, se halle comprendida por una primera ventana de análisis de la pluralidad de ventanas de análisis, en donde un centro ck de la primera ventana de análisis está definido por una ubicación t del transitorio de acuerdo con ck = t, en donde un centro C/ de una segunda ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio de acuerdo con ck- 1 = t- lb, y en donde un centro o*+i de una tercera ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio de acuerdo con c^+i = t+ la, en donde la y Ib son números.

De acuerdo con una forma de realización, el generador de secuencias de ventanas puede estar configurado para determinar la pluralidad de ventanas de análisis, de manera tal que cada una de entre la pluralidad de ventanas de análisis sea comprende una primera cantidad de muestras de señales en el dominio del tiempo sea una segunda cantidad de muestras de señales en el dominio del tiempo, en donde la segunda cantidad de muestras de señales en el dominio del tiempo es mayor que la primera cantidad de muestras de señales en el dominio del tiempo, y en donde cada una de las ventanas de análisis de la pluralidad de ventanas de análisis comprende la primera cantidad de muestras de señales en el dominio del tiempo cuando dicha ventana de análisis comprende un transitorio, que designa un cambio de señal de por lo menos uno de los dos o más señales de objeto de audio que se están codificando por medio de la señal de downmix.

En una forma de realización, el módulo de análisis de t/f puede estar configurado para transformar las muestras de downmix en el dominio del tiempo de cada una de las ventanas de análisis desde un dominio de tiempo a un dominio de tiempo-frecuencia mediante el empleo de un banco de filtros de QMF y de un banco de filtros de Nyquist, en donde la unidad de análisis de t/f (135) está configurada para transformar la pluralidad de muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis.

Además, se provee un codificador para codificar dos o más señales ingresadas de objeto de audio. Cada una de las dos o más señales ingresadas de objeto de audio comprende una pluralidad de muestras de señales en el dominio del tiempo. El codificador comprende una unidad de secuencias de ventana para determinar una pluralidad de ventanas de análisis. Cada una de las ventanas de análisis comprende una pluralidad de las muestras de señales en el dominio del tiempo de una de las señales ingresadas de objeto de audio, en donde cada una de las ventanas de análisis tiene una longitud de ventana que indica la cantidad de muestras de señales en el dominio del tiempo de dicha ventana de análisis. La unidad de secuencias de ventana está configurada para determinar la pluralidad de ventanas de análisis de manera tal que la longitud de ventana de cada una de las ventanas de análisis dependa de una propiedad de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio.

Además, el codificador comprende una unidad de análisis de t/f para transformar las muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis a partir de un dominio del tiempo a un dominio de tiempo-frecuencia de manera de obtener muestras de señales transformadas. La unidad de análisis de t/f puede estar configurada para transformar la pluralidad de muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis.

Por otra parte, el codificador comprende una unidad para la estimación de PSI para determinar información lateral parametrica en función de las muestras de señales transformadas.

En una forma de realización, el codificador puede además comprender una unidad para la detección de transitorios que está configurada para determinar una pluralidad de diferencias de nivel de objeto de las dos o más señales ingresadas de objeto de audio, y que está configurada para determinar, si una diferencia entre una primera de las diferencias de nivel de objeto y una segunda de las diferencias de nivel de objeto es mayor que un valor umbral, para determinar para cada una de las ventanas de análisis, si dicha ventana de análisis comprende un transitorio, lo que designa un cambio de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio.

De acuerdo con una forma de realización, la unidad de detección de transitorios puede estar configurada para utilizar una función de detección d(n) para determinar si la diferencia entre una primera de las diferencias de nivel de objeto y la segunda de las diferencias de nivel de objeto es mayor que el valor umbral, en donde la función de detección d(n) se define como sigue: \ en donde n designa un índice, en donde / designa un primer objeto, en donde j designa un segundo objeto, en donde b designa una banda parametrica. OLD puede, por ejemplo, indicar una diferencia de nivel de objeto.

En una forma de realización, la unidad de secuencias de ventana puede estar configurada para determinar la pluralidad de ventanas de análisis, de manera tal que un transitorio, que indica un cambio de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio, está comprendida por una primera ventana de análisis de la pluralidad de ventanas de análisis y por una segunda ventana de análisis de la pluralidad de ventanas de análisis, en donde un centro ck de la primera ventana de análisis está definido por una ubicación t del transitorio de acuerdo con ck = t - , y un centro ck+ 1 de la primera ventana de análisis está definido por la ubicación t del transitorio de acuerdo con ck+-\ = t + la, en donde la y lb son números.

De acuerdo con una forma de realización, la unidad de secuencias de ventana puede estar configurado para determinar la pluralidad de ventanas de análisis, de manera tal que un transitorio, que indica un cambio de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio, está comprendido por una primera ventana de análisis de la pluralidad de ventanas de análisis, en donde un centro ck de la primera ventana de análisis está definido por una ubicación t del transitorio de acuerdo con ck = t, en donde un centro ck- 1 de una segunda ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio de acuerdo con C - 1 = t- , y en donde un centro ck+ 1 de una tercera ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio de acuerdo con ck+-\ = t + la, en donde la y Ib son números.

En una forma de realización, la unidad de secuencias de ventana puede estar configurada para determinar la pluralidad de ventanas de análisis, de manera tal que cada una de la pluralidad de ventanas de análisis sea comprende una primera cantidad de muestras de señales en el dominio del tiempo o una segunda cantidad de muestras de señales en el dominio del tiempo, en donde la segunda cantidad de muestras de señales en el dominio del tiempo es mayor que la primera cantidad de muestras de señales en el dominio del tiempo, y en donde cada una de las ventanas de análisis de la. pluralidad de ventanas de análisis comprende la primera cantidad de muestras de señales en el dominio del tiempo cuando dicha ventana de análisis comprende un transitorio, que indica un cambio de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio.

De acuerdo con una forma de realización, la unidad de análisis de t/f puede estar configurada para transformar las muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis desde un dominio del tiempo a un dominio de tiempo-frecuencia mediante la utilización de un banco de filtros de QMF y de un banco de filtros de Nyquist, en donde la unidad de análisis de t/f puede estar configurada para transformar la pluralidad de muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis.

Además, se provee un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de downmix que comprende una pluralidad de muestras de downmix en el dominio del tiempo. La señal de downmix codifica dos o más señales de objeto de audio. El decodificador comprende un primer submódulo de análisis para transformar la pluralidad de muestras de downmix en el dominio del tiempo a efectos de obtener una pluralidad de subbandas que comprende una pluralidad de muestras de subbandas. Además, el decodificador comprende un generador de secuencias de ventanas para determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de subbandas de una de entre la pluralidad de subbandas, en donde cada ventana de análisis de la pluralidad de ventanas de análisis tiene una longitud de ventana que indica la cantidad de muestras de subbandas de dicha ventana de análisis, en donde el generador de secuencias de ventanas está configurado para determinar la pluralidad de ventanas de análisis de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales de objeto de audio. Por otra parte, el decodificador comprende u segundo módulo de análisis para transformar la pluralidad de muestras de subbandas de cada ventana de análisis de la pluralidad de ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis a efectos de obtener una matriz transformada. Por otra parte, el decodificador comprende una unidad de desmezclado para desmezclar el downmix transformado en base a información lateral parametrica sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio.

Por otra parte, se provee un codificador para codificar dos o más señales ingresadas de objeto de audio. Cada una de las dos o más señales ingresadas de objeto de audio comprende una pluralidad de muestras de señales en el dominio del tiempo. El codificador comprende un primer submódulo de análisis para transformar la pluralidad de muestras de señales en el dominio del tiempo de manera de obtener una pluralidad de subbandas que comprende una pluralidad de muestras de subbandas. Además, el codificador comprende una unidad de secuencias de ventana para determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de subbandas de una de entre la pluralidad de subbandas, en donde cada una de las ventanas de análisis tiene una longitud de ventana que indica la cantidad de muestras de subbandas de dicha ventana de análisis, en donde la unidad de secuencias de ventana está configurada para determinar la pluralidad de ventanas de análisis de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio. Por otra parte, el codificador comprende un módulo de análisis para transformar la pluralidad de muestras de subbandas de cada ventana de análisis de la pluralidad de ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis para obtener muestras de señal transformadas. Además, el codificador comprende una unidad para estimar PSI para determinar información lateral parametrica en función de las muestras de señal transformadas.

Además, se provee un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de downmix. La señal de downmix codifica una o más señales de objeto de audio. El decodificador comprende una unidad de control para establecer una indicación de activación a un estado de activación en función de una propiedad de señal de por lo menos una de las una o más señales de objeto de audio. Además, el decodificador comprende un primer módulo de análisis para transformar la señal de downmix de manera de obtener un primer downmix transformado que comprende una pluralidad de primeros canales de subbandas. Por otra parte, el decodificador comprende un segundo módulo de análisis para generar, cuando la indicación de activación está colocada en el estado de activación, un segundo downmix transformado para lo cual se transforma por lo menos uno de los primeros canales de subbandas de manera de obtener una pluralidad de segundos canales de subbandas, en donde el segundo downmix transformado comprende los primeros canales de subbandas que no ha sido transformados por el segundo módulo de análisis y los segundos canales de subbandas. Además, el decodificador comprende una unidad de desmezclado, en donde la unidad de desmezclado está configurada para desmezclar el segundo downmix transformado, cuando la indicación de activación está colocada en el estado de activación, en base a información paramétrica lateral sobre la una o más señales de objeto de audio de manera de obtener la señal de salida de audio, y para desmezclar el primer downmix transformado, cuando la indicación de activación no está colocada en el estado de activación, en base a la información paramétrica lateral sobre la una o más señales de objeto de audio de manera de obtener la señal de salida de audio.

Por otra parte, se provee un codificador para codificar una señal ingresada de objeto de audio. El codificador comprende una unidad de control para establecer una indicación de activación a un estado de activación en función de una propiedad de señal de la señal ingresada de objeto de audio. Además, el codificador comprende un primer módulo de análisis para transformar la señal ingresada de objeto de audio a efectos de obtener una primera señal transformada de objeto de audio, en donde la primera señal transformada de objeto de audio comprende una pluralidad de primeros canales de subbandas. Por otra parte, el codificador comprende un segundo módulo de análisis para generar, cuando la indicación de activación está colocada en el estado de activación, una segunda señal transformada de objeto de audio por medio de la transformación de por lo menos uno de entre la pluralidad de primeros canales de subbandas de manera de obtener una pluralidad de segundos canales de subbandas, en donde la segunda señal transformada de objeto de audio comprende los primeros canales de subbandas que no han sido transformados por el segundo módulo de análisis y los segundos canales de subbandas. Además, el codificador comprende una unidad de estimación de PSI, en donde la unidad de estimación de PSI está configurada para determinar información paramétrica información lateral en base a la segunda señal transformada de señal de objeto de audio, cuando la indicación de activación está colocada en el estado de activación, y para determinar la información paramétrica lateral en base a la primera señal transformada de objeto de audio, cuando la indicación de activación no está colocada en el estado de activación.

Además, se provee un método de decodificación para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de downmix que comprende una pluralidad de muestras de downmix en el dominio del tiempo. La señal de downmix codifica dos o más señales de objeto de audio. El método comprende: determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de downmix en el dominio del tiempo de la señal de downmix, en donde cada ventana de análisis de la pluralidad de ventanas de análisis tiene una longitud de ventana que indica la cantidad de muestras de downmix en el dominio del tiempo de dicha ventana de análisis, en donde la determinación de la pluralidad de ventanas de análisis se lleva a cabo de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales de objeto de audio; - transformar la pluralidad de muestras de downmix en el dominio del tiempo de cada ventana de análisis de la pluralidad de ventanas de análisis desde un dominio del tiempo a un dominio de tiempo-frecuencia en función de la longitud de ventana de dicha ventana de análisis, a efectos de obtener un downmix transformado, y desmezclar el downmix transformado en base a información parametrica lateral sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio.

Por otra parte, se provee un método para codificar dos o más señales ingresadas de objeto de audio. Cada una de las dos o más señales ingresadas de objeto de audio comprende una pluralidad de muestras de señales en el dominio del tiempo. El método comprende: determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de las muestras de señales en el dominio del tiempo de una de las señales ingresadas de objeto de audio, en donde cada una de las ventanas de análisis tiene una longitud de ventana que indica la cantidad de muestras de señales en el dominio del tiempo de dicha ventana de análisis, en donde la determinación de la pluralidad de ventanas de análisis se lleva a cabo de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio; transformar las muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis desde un dominio del tiempo a un dominio de tiempo-frecuencia para obtener muestras de señales transformadas, en donde la transformación de la pluralidad de muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis depende de la longitud de ventana de dicha ventana de análisis. Y: determinar información paramétrica lateral en función de las muestras de señales transformadas.

Además, se provee un método para decodificar mediante la generación de una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de downmix que comprende una pluralidad de muestras de downmix en el dominio del tiempo, en donde la señal de downmix codifica dos o más señales de objeto de audio. El método comprende: Transformar la pluralidad de muestras de downmix en el dominio del tiempo para obtener una pluralidad de subbandas que comprende una pluralidad de muestras de subbandas; determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de subbandas de una de entre la pluralidad de subbandas, en donde cada ventana de análisis de la pluralidad de ventanas de análisis tiene una longitud de ventana que indica la cantidad de muestras de subbandas de dicha ventana de análisis, en donde la determinación de la pluralidad de ventanas de análisis se lleva a cabo de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales de objeto de audio; transformar la pluralidad de muestras de subbandas de cada ventana de análisis de la pluralidad de ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis para obtener un downmix transformado. Y: desmezclar el downmix transformado en base a información parametrica lateral sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio.

Por otra parte, se provee un método para codificar dos o más señales ingresadas de objeto de audio, en donde cada una de las dos o más señales ingresadas de objeto de audio comprende una pluralidad de muestras de señales en el dominio del tiempo. El metodo comprende: transformar la pluralidad de muestras de señales en el dominio del tiempo para obtener una pluralidad de subbandas que comprende una pluralidad de muestras de subbandas; determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de subbandas de una de entre la pluralidad de subbandas, en donde cada una de las ventanas de análisis tiene una longitud de ventana que indica la cantidad de muestras de subbandas de dicha ventana de análisis, en donde la determinación de la pluralidad de ventanas de análisis se lleva a cabo de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio; transformar la pluralidad de muestras de subbandas de cada ventana de análisis de la pluralidad de ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis para obtener muestras de señales transformadas. Y: determinar información paramétrica lateral en función de las muestras de señales transformadas.

Además, se provee un metodo para decodificar mediante la generación de una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de downmix, en donde la señal de downmix codifica dos o más señales de objeto de audio. El método comprende: establecer una indicación de activación a un estado de activación en función de una propiedad de señal de por lo menos una de las dos o más señales de objeto de audio; transformar la señal de downmix para obtener un primer downmix transformado que comprende una pluralidad de primeros canales de subbandas; generar, cuando la indicación de activación está colocada en el estado de activación, un segundo downmix transformado mediante la transformación de por lo menos uno de los primeros anales de subbandas de manera de obtener una pluralidad de segundos canales de subbandas, en donde el segundo downmix transformado comprende los primeros canales de subbandas que no ha sido transformados por el segundo módulo de análisis y los segundos canales de subbandas. Y: desmezclar el segundo downmix transformado, cuando la indicación de activación está colocado en el estado de activación, en base a información paramétrica lateral sobre las dos o más señales de objeto de audio de manera de obtener la señal de salida de audio, y desmezclar el primer downmix transformado, cuando la indicación de activación no está puesta en el estado de activación, en base a la información parametrica lateral sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio.

Por otra parte, se provee un método para codificar dos o más señales ingresadas de objeto de audio. El método comprende: colocar una indicación de activación en un estado de activación en función de una propiedad de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio; transformar cada una de las señales ingresadas de objeto de audio de manera de obtener una primera señal transformada de objeto de audio de dicha señal ingresada de objeto de audio, en donde dicha primera señal transformada de objeto de audio comprende una pluralidad de primeros canales de subbandas; generar para cada una de las señales ingresadas de objeto de audio, cuando la indicación de activación está colocada en el estado de activación, una segunda señal transformada de objeto de audio mediante la transformación de por lo menos de los primeros canales de subbandas de la primera señal transformada de objeto de audio de dicha señal ingresada de objeto de audio de manera de obtener una pluralidad de segundos canales de subbandas, en donde dicho segundo downmix transformado comprende dichos primeros canales de subbandas que no han sido transformados por el segundo módulo de análisis y dichos segundos canales de subbandas. Y: determinar información paramétrica lateral en base a la segunda señal transformada de objeto de audio de cada una de las señales ingresadas de objeto de audio, cuando la indicación de activación está colocada en el estado de activación, y determinar la información paramétrica lateral en base a la primera señal transformada de objeto de audio de cada una de las señales ingresadas de objeto de audio, cuando la indicación de activación no está colocada en el estado de activación.

Además, se provee un programa de computadora para implementar uno de los métodos arriba descritos cuando se lo ejecuta en una computadora o en una procesadora de señal.

En las reivindicaciones secundarias proveerán formas de realización preferidas.

Seguidamente se describen con mayor detalle formas de realización de la presente invención con referencia a los dibujos en los que: la Figura 1a ilustra un decodificador de acuerdo con una forma de realización; la Figura 1b ilustra un decodificador de acuerdo con otra forma de realización; la Figura 1c ilustra un decodificador de acuerdo con otra forma de realización más; la Figura 2a ilustra un codificador para codificar señales ingresadas de objeto de audio de acuerdo con una forma de realización; la Figura 2b ilustra un codificador para codificar señales ingresadas de objeto de audio de acuerdo con otra forma de realización; la Figura 2c ilustra un codificador para codificar señales ingresadas de objeto de audio de acuerdo con otra forma de realización más; la Figura 3 muestra un diagrama de bloques esquemático para una revisión conceptual de un sistema de SAOC; la Figura 4 muestra un diagrama esquemático e ilustrativo de una representación temporal-espectral de una señal de audio de canal simple; la Figura 5 muestra un diagrama de bloques esquemático de una computación selectiva en frecuencia, de información lateral dentro de un codificador de SAOC; la Figura 6 ilustra un diagrama de bloques de un decodificador de SAOC reforzado da una forma de realización, que ilustra corrientes de bits de SAOC estándar; la Figura 7 ilustra un diagrama de bloques de un decodificador de acuerdo con una forma de realización; la Figura 8 ilustra un diagrama de bloques de un codificador de acuerdo con una forma de realización particular en la que se implementa una trayectoria paramétrica de un codificador; la Figura 9 ilustra la adaptación de la secuencia de ventana normal para dar cabida a un punto de cruce de ventana en el transitorio; la Figura 10 ilustra un esquema de conmutación de bloque de aislación de un transitorio de acuerdo con una forma de realización; la Figura 11 ilustra una señal con un transitorio y la secuencia de ventana similar a AAC resultante de acuerdo con una forma de realización; la Figura 12 ilustra filtración de híbrido QMF ampliado; la Figura 13 ilustra un ejemplo en el que se utilizan ventanas cortas para la transformada; la Figura 14 ilustra un ejemplo en el que para la transformada se utilizan ventanas más largas que en el ejemplo de la Figura 13; la Figura 14 ilustra un ejemplo en el que se lleva a cabo una resolución de frecuencia muy alta y una resolución en tiempo bajo; la Figura 16 ilustra un ejemplo en el que se lleva a cabo una resolución en tiempo elevado y una resolución en frecuencia baja; la Figura 17 ilustra un primer ejemplo en el que se lleva a cabo una resolución en tiempo intermedio y una resolución en frecuencia intermedia; y la Figura 18 ilustra un primer ejemplo en el que se lleva a cabo una resolución en tiempo intermedio y una resolución en frecuencia intermedia.

Antes de describir formas de realización de la presente invención, se provee mayor información sobre los sistemas de SAOC del estado de la téenica.

La Figura 3 muestra una disposición general de un codificador SAOC 10 y de un decodificador SAOC 11. El codificador SAOC recibe como una entrada N objetos, es decir, señales de audio Si a sN. En particular, el codificador 10 comprende un downmixer 16 que recibe las señales de audio s* a sN y efectúa un downmixing con los mismos de manera de obtener una señal de downmix 18. Como alternativa, el downmix puede ser provisto externamente (“downmix artístico”) y el sistema estima información adicional lateral para hacer que el downmix provisto concuerde con el downmix calculado. En la Figura 3, la señal de downmix mostrada es una señal de canal P. Por lo tanto, puede concebirse cualquier configuración de downmix de canal mono (P= 1), canal estéreo (P= 2) o canal múltiple (P> 2).

En el caso de un downmix estéreo, los canales de la señal de downmix 18 llevan la designación LO y R0, en el caso de un downmix mono la designación es simplemente LO. A efectos de permitir que el decodificador de SAOC 12 recupere los objetivos individuales s1 a sN, el estimador de información lateral 17 provee al decodificador de SAOC 12 información lateral inclusive los parámetros de SAOC. Por ejemplo, en el caso de un downmix estéreo, los parámetros de SAOC comprende diferencias de nivel de objeto (OLD), correlación inter-objeto (IOC) (parámetros de relación cruzada inter-objeto), valores de ganancia de downmix (DMG) y diferencias de nivel de canal de downmix (DCLD). La información 20, inclusive los parámetros de SAOC, junto con la señal de downmix 18, forma la corriente de datos de salida de SAOC recibida por el decodificador de SAOC 12.

El decodificador de SAOC 12 comprende un up-mixer que recibe la señal de downmix 18 así como también la información lateral 20 a efectos de recuperar y renderizar las señales de audio s y Sw sobre cualquier conjunto seleccionado por el usuario de canales y-i a yM, estando la renderización prescrita por la información de renderización 26 ingresada en el decodificador de SAOC 12.

Las señales de audio Si a s/v pueden ser ingresadas en el codificador 10 en cualquier dominio de codificación, tal como, en el dominio de tiempo o de espectro. En el caso en que las señales de audio si a SN son introducidas en el codificador 10 en el dominio de tiempo, tal como codificados por PCM, el codificador 10 puede utilizar un banco de filtros, tal como un banco de QMF híbrido, a efectos de transferir las señales en un dominio espectral, en el que las señales de audio están representadas en varias subbandas asociadas con diferentes porciones espectrales, con una resolución específica del banco de filtros. Si las señales de audio sj a SN ya se hallan en la representación prevista por el codificador 10, no es necesario que éste lleve a cabo la descomposición espectral.

La Figura 4 muestra una señal de audio en el dominio espectral recién mencionado. Como puede observarse, la señal de audio ha sido representada como una pluralidad de señales de subbandas. Cada señal de subbanda 30i a 30K consiste en una secuencia temporal de valores de subbanda indicadas mediante bloques pequeños 32. Como puede observarse, los valores de subbanda 32 de las señal de subbanda 30i a 30K están sincronizados entre sí en el tiempo de manera tal que, para cada una de las ranuras de tiempo 34 consecutivas del banco de filtros, cada subbanda 30i a 30K comprende exactamente un valor de subbanda 32. Como se ilustra mediante el eje de las frecuencias, las señal de subbanda 30i a 30K están asociadas con diferentes regiones de frecuencia, y como se ilustra mediante el eje del tiempo, las ranuras de tiempo 34 del banco de filtros están dispuestas consecutivamente en el tiempo.

Como se señaló a grandes rasgos en lo que precede, el extractor de información lateral 17 de la Figura 3 calcula los parámetros de SAOC a partir de las señales ingresadas de audio Si a sN de acuerdo con el estándar de SAOC actualmente implementado, el codificador 10 lleva a cabo este cálculo con una resolución en tiempo/frecuencia que puede ser disminuida con respecto a la resolución en tiempo/frecuencia original como definen las ranuras de tiempo 34 del banco de filtros y la descomposición de subbanda, en una magnitud determinada, señalizándose esta magnitud determinada al lado decodificador dentro de la información lateral 20. Los grupos de ranuras de tiempo consecutivas 34 del banco de filtros pueden formar un marco de SAOC 41. También la cantidad de bandas de parámetros dentro del marco de SAOC 41 es transportada dentro de la información lateral 20. Por ello el dominio de tiempo/frecuencia se divide en tiles de tiempo/frecuencia ejemplificados en la Figura 4 mediante líneas de trazos 42. En la Figura 4 las bandas de parámetros están distribuidas de la misma manera en los varios marcos de SAOC ilustrados 41 de manera tal que se obtiene una disposición regular de tiles de tiempo/frecuencia. Sin embargo, por lo general, las bandas de parámetros pueden variar de un marco de SAOC 41 al subsiguiente, en función de las diferentes necesidades de resolución espectral en los respectivos marcos de SAOC 41. Por otra parte, la longitud de los marcos de SAOC 41 tambien puede variar. El resultado de ello es que la disposición de los tiles de tiempo/frecuencia puede ser irregular. Sin embargo, los tiles de tiempo/frecuencia dentro de un marco de SAOC 41 en particular típicamente tienen la misma duración y están alineados en la dirección del tiempo, es decir, todos los tiles t/f en dicho marco de SAOC 41 empiezan en el inicio del marco de SAOC 41 dado y terminan al final de dicho marco de SAOC 41.

El extractor de información lateral 17 ilustrado en la Figura 3 calcula los parámetros de SAOC de acuerdo con las fórmulas siguientes. En particular, el extractor de información lateral 17 calcula las diferencias de nivel de objeto para cada objeto i como sigue _ en donde las sumas y los índices n y k, respectivamente, abarcan todos los índices temporales 34, y todos los índices espectrales 30 que forman parte de un determinado tile de tiempo/frecuencia tile 42, referido mediante los índices / para el marco de SAOC (o ranura de tiempo de procesamiento) y m para la banda de parámetros. Por ello, las energías de todos los valores de subbanda x, de una señal de audio u objeto / se acumulan y se normalizan al valor de energía más elevado de dicho tile entre todos los objetivos o señales de audio. x," ** designa el conjugado complejo de x”-k .

Además, el extractor de información lateral de SAOC 17 tiene la capacidad de calcular una medida de similitud de los correspondientes tiles de tiempo/frecuencia de pares de diferentes objetivos ingresados s-i a sN. Si bien el extractor de información lateral de SAOC 17 puede calcular la medida de similitud entre todos los pares de objetos ingresados s? a sN, el extractor de información lateral tambien puede suprimir la señalización de las medidas de similitud o restringir el cálculo de las medidas de similitud a objetivos de audio Si a SN que forman canales izquierda o derecha de un canal estéreo en común. En cualquier caso, la medida de similitud recibe la denominación de parámetros de relación cruzada ínter objetos IOC' . El cálculo se efectúa como sigue: donde, nuevamente, los índices n y k pasan por todos los valores de subbanda pertenecientes a una determinado tile de tiempo/frecuencia 42; i y j designan un determinado par de objetos de audio s a sN, y Re{ } designa la operación de descartar la parte imaginaria del argumento complejo.

El downmixer 16 de la Figura 3 efectúa el downmixing a los objetos s? a sN mediante el uso de factores de ganancia aplicados a cada objeto s? a S/ . Es decir, se aplica un factor de ganancia d¡ al objeto / y seguidamente todos los objetos así ponderados sr a sN son sumados de manera de obtener una monoseñal de downmix, que se ejemplifica en la Figura 3 si P= 1. En otro caso dado a título de ejemplo de una señal de downmix de dos canales, ilustrado en la Figura 3 si P= 2, se aplica un factor de ganancia c/í al objeto i y seguidamente todos estos objetos amplificados en ganancia son sumados a efectos de obtener el canal de downmix izquierdo LO, y los factores de ganancia d2,i son aplicados al objeto / y seguidamente los objetos así ampliados por ganancia son sumados de manera de obtener el canal de downmix derecho R0. Debe aplicarse un procesamiento análogo al descrito en el caso de un downmix de múltiples canales (P> 2).

Esta prescripción del downmix es señalada al lado decodificador mediante las ganancias de downmix DMG¡ y, en el caso de una señal estereo de downmix, diferencias de nivel de canal de downmix DCLD¡.

Las ganancias de downmix se calculan como sigue: DMGi = 201og10 (d¡ + e ) , (downmix mono), , (downm ix estéreo) , donde e es un número pequeños tal como 10 9.

Para los DCLDs rige la siguiente fórmula: En el modo normal, el downmixer 16 genera la señal de downmix de acuerdo con: para un downmix mono, o para un downmix estéreo, respectivamente.

Por lo tanto, en las fórmulas arriba mencionadas, los parámetros OLD y IOC son una función de las señales de audio y los parámetros DMG y DCLD son una función de d. Incidentalmente, se señala que d puede variar en tiempo y en frecuencia.

Por lo tanto, en el modo normal, el downmixer 16 mezcla todos los objetos Sj a SN sin preferencias, es decir, se tratan todos los objetos Si a sN de la misma manera.

En el lado decodificador, el upmixer lleva a cabo la inversión del procedimiento de downmix y la implementación de la “información de renderización” 26 representada mediante una matriz R (que en la bibliografía teenica lleva a veces también la deligación A) en un paso de cálculo, a saber, en el caso de un downmix de dos canales: donde la matriz E es una función de los parámetros OLD y IOC, y la matriz D contiene los coeficientes de downmixing como: La matriz E es una matriz de covarianza estimada de los objetos de audio SÍ a sN. En las ¡mplementaciones de SAOC actuales, el cálculo de la matriz de covarianza estimada E típicamente se lleva a cabo en la resolución espectral/temporal de los parámetros de SAOC, es decir, para cada ( l,m ), de manera tal que la matriz de covarianza estimada puede escribirse como El,m. La matriz de covarianza estimada E/,m es de una magnitud Nx N y sus coeficientes se definen como sigue Por lo tanto, la matriz E,m con tiene a lo largo de su diagonal las diferencias de nivel de objeto, es decir, e'·” =OLD' m para i=j, ya que OLD m =OLD':m y IOC™ =1 para /=/. Fuera de esta diagonal la matriz de covarianza estimada E tiene coeficientes de matriz que representan la media geométrica de las diferencias de nivel de objeto de los objetos i y j, respectivamente ponderados con la medida de correlación inter objetos IOC' .

La Figura representa un posible principio para la implementación del ejemplo del estimador de información lateral (SIE, side-información estimator como parte de un codificador de SAOC 10. El codificador de SAOC 10 comprende el mezclador 16 y el estimador de información lateral (SIE) 17. El SIE consiste conceptualmente en dos módulos: un módulo 45 para calcular una representación t/f basada en poco tiempo (por ejemplo, STFT o QMF) de cada señal. La representación de t/f en poco tiempo, calculada, es introducida en el segundo módulo, 46, el módulo de estimación de información lateral selectivo en t/f (t/f— SIE). El módulo t/f-SIE 46 calcula la información lateral para cada tile de t/f. En las implementaciones de SAOC actuales, la transformada de tiempo/frecuencia es fija e identica para todos los objetos de audio Si a sN. Por otra parte, se determinan los parámetros de SAOC sobre marcos de SAOC que son los mismos para todos los audio y que tienen la misma resolución en tiempo/frecuencia para todos los objetos de audio Si a Sw, por lo tanto independientemente de las necesidades específicas para la resolución temporal fina en algunos casos o resolución espectral fina en otros casos.

En lo que sigue se describen algunas formas de realización de la presente invención.

La Figura 1A-1C ilustra un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio de señal de downmix que comprende una pluralidad de muestras de downmix en el dominio del tiempo de acuerdo con una forma de realización. La señal de downmix codifica dos o más señales de objeto de audio.

El decodificador comprende un generador de secuencias de ventana 134 para determinar una pluralidad de ventanas de análisis (por ejemplo, en base a información paramétrica lateral, por ejemplo, diferencias de nivel de objeto), en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de downmix en el dominio del tiempo de la señal de downmix. Cada ventana de análisis de la pluralidad de ventanas de análisis tiene una longitud de ventana que indica la cantidad de las muestras de downmix en el dominio del tiempo de dicha ventana de análisis. El generador de secuencias de ventana 134 está configurado para determinar la pluralidad de ventanas de análisis de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales de objeto de audio. Por ejemplo, la longitud de ventana puede depender de si dicha ventana de análisis comprende un transitorio, que indica un cambio de señal de por lo menos una de las dos o más señales de objeto de audio que se están codificando por medio de la señal de downmix.

Para determinar la pluralidad de ventanas de análisis, el generador de secuencias de ventana 134 puede, por ejemplo, analizar información paramétrica lateral, por ejemplo, diferencias transmitidas de nivel de objeto relacionadas con las dos o más señales de objeto de audio, para determinar la longitud de ventana de las ventanas de análisis, de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales de objeto de audio. O, por ejemplo, para determinar la pluralidad de ventanas de análisis, el generador de secuencias de ventana 134 puede analizar las formas de las ventanas o las ventanas de análisis como tales, en donde las formas de las ventanas o las ventanas de análisis pueden, por ejemplo, ser transmitidas en la corriente de bits desde el codificador hacia el decodificador, y en donde la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales de objeto de audio.

Además, el decodificador comprende un módulo de análisis t/f 135 para transformar la pluralidad de muestras de downmix en el dominio del tiempo de cada ventana de análisis de la pluralidad de ventanas de análisis a partir de un dominio del tiempo a un dominio de tiempo-frecuencia en función de la longitud de ventana de dicha ventana de análisis, para obtener un downmix transformado.

Por otra parte, el decodificador comprende una unidad de desmezclado 136 para desmezclar el downmix transformado en base a información parametrica lateral sobre las dos o señales de objeto de audio para obtener la señal de salida de audio.

En las siguientes formas de realización se utiliza un mecanismo especial para la construcción de secuencias de ventanas. Se define un función de ventana prototipo f (n, Nw) para el índice 0 £ n £ Nw- 1 para una longitud de ventana Nw. Utilizando la notación ws(n) para una ventana individual, se necesitan tres puntos de control, a saber los centros de las ventana previa, actual y siguiente, ck_ ck , y Mediante su uso se define la función de ventana como sigue: - _ - _ - _ _ - _ La ubicación real de la ventana es entonces \ck_x~\ £m£\_ck+x\ siendo n = m-[ck_x~\ ([ ] designa la operación del redondeo del argumento en el número entero próximo más elevado, y [_ J designa de manera correspondiente la operación del redondeo del argumento en el número entero próximo más bajo). La función de ventana prototipo utilizada en las ilustraciones es una sinusoidal y se define como sigue; f(n,N) = sin pero tambien es posible utilizar otras formas. La ubicación t del transitorio defines los centros para tres ventanas ck_x =t-lb , ck =t , y ck+ =t+la , en donde los números lb y la definen el intervalo de ventana deseado antes y después del transitorio.

Como se explica más adelante con respecto a la Figura 9, el generador de secuencias de ventana 134 puede, por ejemplo, estar configurado para determinar la pluralidad de ventanas de análisis, de manera tal que un transitorio está comprendido por una primera ventana de análisis de la pluralidad de ventanas de análisis y por una segunda ventana de análisis de la pluralidad de ventanas de análisis, en donde un centro ck de la primera ventana de análisis está definido por una ubicación t del transitorio de acuerdo con ck = t - lb, y un centro ck+ 1 de la primera ventana de análisis está definido por la ubicación t del transitorio de acuerdo con cf f+i = t+ la, en donde la y lb son números.

Como se explica más adelante con respecto a la Figura 10, el generador de secuencias de ventana 134 puede, por ejemplo, estar configurado para determinar la pluralidad de ventanas de análisis, de manera tal que un transitorio está comprendida por una primera ventana de análisis de la pluralidad de ventanas de análisis, en donde un centro ck de la primera ventana de análisis está definido por una ubicación t del transitorio de acuerdo con c = t, en donde un centro \ de una segunda ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio de acuerdo con ¾_i = t- lb, y en donde un centro ck+^ de una tercera ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio de acuerdo con ck+-\ = t + la, en donde ¡a y lb son números.

Como se explica más adelante con respecto a la Figura 11 , el generador de secuencias de ventana 134 puede, por ejemplo, estar configurado para determinar la pluralidad de ventanas de análisis, de manera tal que cada una de entre la de la pluralidad de ventanas de análisis sea comprende una primera cantidad de muestras de señales en el dominio del tiempo seda una segunda cantidad de muestras de señales en el dominio del tiempo, en donde la segunda cantidad de muestras de señales en el dominio del tiempo es mayor que la primera cantidad de muestras de señales en el dominio del tiempo, y en donde cada una de las ventanas de análisis de la pluralidad de ventanas de análisis comprende la primera cantidad de muestras de señales en el dominio del tiempo cuando dicha ventana de análisis comprende un transitorio.

En una forma de realización, el módulo de análisis t/f 135 está configurado para transformar las muestras de downmix en el dominio del tiempo de cada una de las ventanas de análisis desde un dominio del tiempo a un dominio de tiempo-frecuencia mediante la utilización de un banco de filtros de QMF y de un banco de filtros de Nyquist, en donde la unidad de análisis de t/f (135) está configurada para transformar la pluralidad de muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis.

La Figura 2a ilustra un codificador para codificar dos o más señales ingresadas de objeto de audio. Cada una de las dos o más señales ingresadas de objeto de audio comprende una pluralidad de muestras de señales en el dominio del tiempo.

El codificador comprende una unidad de secuencias de ventana 102 para determinar una pluralidad de ventanas de análisis. Cada una de las ventanas de análisis comprende una pluralidad de las muestras de señales en el dominio del tiempo de una de las señales ingresadas de objeto de audio, en donde cada una de las ventanas de análisis tiene una longitud de ventana que indica la cantidad de muestras de señales en el dominio del tiempo de dicha ventana de análisis. La unidad de secuencias de ventana 102 está configurada para determinar la pluralidad de ventanas de análisis de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio. Por ejemplo, la longitud de ventana puede depender de si dicha ventana de análisis comprende un transitorio, que indica un cambio de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio.

Además, el codificador comprende una unidad de análisis de t/f 103 para transformar las muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis desde un dominio del tiempo a un dominio de tiempo-frecuencia para obtener muestras de señales transformadas. La unidad de análisis de t/f 103 puede estar configurada para transformar la pluralidad de muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis.

Por otra parte, el codificador comprende la unidad de estimación de PSI 104 para determinar información parametrica lateral en función de las muestras de señales transformadas.

En una forma de realización, el codificador puede, por ejemplo, además comprender una unidad de detección de transitorios 101 que se está configurando para determinar una pluralidad de diferencias de nivel de objeto de las dos o más señales ingresadas de objeto de audio, y que se está configurando para determinar, si una diferencia entre una primera de las diferencias de nivel de objeto y una segunda de las diferencias de nivel de objeto es mayor que un valor umbral, para determinar para cada una de las ventanas de análisis, si dicha ventana de análisis comprende un transitorio, que indica un cambio de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio.

De acuerdo con una forma de realización, la unidad de detección de transitorios 101 está configurada para emplear una función de detección d(n) para determinar si la diferencia entre la primera de las diferencias de nivel de objeto y la segunda de las diferencias de nivel de objeto es mayor que el valor umbral, en donde la función de detección d(n) se define como sigue: d(n) = å|log {OLDt J (b, n - 1)) - log(OI , ; (b, n))| ij en donde n designa un índice temporal, en donde / designa un primer objeto, en donde j designa un segundo objeto, en donde b designa una banda paramétrica. OLD puede, por ejemplo, indicar una diferencia de niveles de objeto.

Como se explica más adelante con respecto a la Figura 9, la unidad de secuencias de ventana 102 puede, por ejemplo, estar configurada para determinar la pluralidad de ventanas de análisis, de manera tal que un transitorio, que indica un cambio de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio, está comprendida por una primera ventana de análisis de la pluralidad de ventanas de análisis y por una segunda ventana de análisis de la pluralidad de ventanas de análisis, en donde un centro ck de la primera ventana de análisis está definido por una ubicación t del transitorio de acuerdo con ck = t- lb, y un centro ck+ 1 de la primera ventana de análisis está definido por la ubicación t del transitorio de acuerdo con c k+i = t + ¡a, en donde la y !b son números.

Como se explica más adelante con respecto a la Figura 10, la unidad de secuencias de ventana 102 puede, por ejemplo, estar configurada para determinar la pluralidad de ventanas de análisis, de manera tal que un transitorio, que indica un cambio de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio, está comprendido por una primera ventana de análisis de la pluralidad de ventanas de análisis, en donde un centro ck de la primera ventana de análisis está definido por una ubicación t del transitorio de acuerdo con ck = t, en donde un centro ck^ de una segunda ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio de acuerdo con ck-i = t- lb, y en donde un centro ¾+i de una tercera ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio de acuerdo con ck^ = t + la, en donde la y lb son números.

Como se explica más adelante con respecto a la Figura 11, la unidad de secuencias de ventana 102 puede, por ejemplo, estar configurada para determinar la pluralidad de ventanas de análisis, de manera tal que cada una de entre la de la pluralidad de ventanas de análisis sea comprende una primera cantidad de muestras de señales en el dominio del tiempo o una segunda cantidad de muestras de señales en el dominio del tiempo, en donde la segunda cantidad de muestras de señales en el dominio del tiempo es mayor que la primera cantidad de muestras de señales en el dominio del tiempo, y en donde cada una de las ventanas de análisis de la pluralidad de ventanas de análisis comprende la primera cantidad de muestras de señales en el dominio del tiempo cuando dicha ventana de análisis comprende un transitorio, que indica un cambio de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio.

De acuerdo con una forma de realización, la unidad de análisis de t/f 103 está configurada para transformar las muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis desde un dominio del tiempo a un dominio de tiempo-frecuencia para lo cual se utiliza un banco de filtros de QMF y un banco de filtros de Nyquist, en donde la unidad de análisis de t/f 103 está configurada para transformar la pluralidad de muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis.

En lo que sigue se describe SAOC reforzado mediante el uso de bancos de filtros adaptativos inversos compatibles de acuerdo con formas de realización.

En primer lugar se explica la decodificación de corrientes de bits de SAOC estándar mediante un decodificador de SAOC reforzado.

El decodificador reforzado de SAOC está diseñado de manera tal que es capaz de decodificar con una buena calidad de corrientes de bits de codificadores SAOC estándar. La decodificación se limita a la reconstrucción parametrica solamente, y se ignoran posibles corrientes residuales.

La Figura 6 ilustra un diagrama de bloques de un decodificador reforzado de acuerdo con una forma de realización, ilustrándose la decodificación de corrientes de bits SAOC estándar. Los bloques funcionales en negrita (132, 133, 134, 135) indican el procesos de acuerdo con la invención. La información paramétrica lateral (PSI) consiste en conjuntos de diferencias de nivel de objeto (OLD), correlaciones interobjeto (IOC), y una matriz de downmix D utilizada para crear la señal de downmix (audio de DMX) a partir de los objetivos individuales en el decodificador. Cada conjunto de parámetros está asociado con un borde de parámetros que define la región temporal a la cual los parámetros están asociados. En el SAOC estándar SAOC, los bins de frecuencia de la representación de tiempo/frecuencia subyacente están agrupados en bandas paramétricas. La separación entre las bandas se asemeja a la de las bandas en el sistema auditivo humano. Por otra parte, múltiples marcos de representación t/f pueden ser agrupados en un marco de parámetros. Estas dos operaciones proveen una reducción en la cantidad de información lateral requerida con el coto de las inexactitudes de la modelación.

Como se describe en la norma SAOC, se utilizan los OLDs e lOCs para calcular la matriz de desmezclado G = EDrJ , donde los elementos de E son E(/ ) = IOC ^OLDi OLD se aproxima a la matriz de correlación de objetos, i y j son índices de objeto, J w(DEDr)‘, y Dr es la transpuesta de D . Un calculador de matriz de desmezclado 131 puede estar configurado para calcular la matriz de desmezclad de manera acorde.

La matriz de desmezclado se interpola seguidamente de manera lineal mediante un interpolador temporal 132 a partir de la matriz de desmezclado del marco precedente arriba del marco de los parámetros hasta límite de los parámetros sobre los cuales se logran los valores estimados, de acuerdo con la norma SAOC. Esto tiene como resultado matrices de desmezclado para cada ventana de tiempo/frecuencia análisis y banda parametrica.

La resolución de la frecuencia de banda paramétrica de las matrices de desmezclado se expande hasta la resolución de la representación de tiempo-frecuencia en dicha ventana de análisis mediante una unidad de adaptación de la resolución de frecuencia de la ventana 133. Cuando la matriz de desmezclado interpolada para la banda paramétrica b en un marco de tiempo está definida as G (b) , se utilizan los mismos coeficientes de desmezclado para la totalidad de los bins de frecuencia situados dentro de dicha banda paramétrica.

Hay un generador de secuencias de ventana 134 configurado para utilizar la información de intervalo del conjunto de parámetros del PSI para determinar una adecuada secuencia de ventana para analizar la señal de audio de downmix ingresada. El principal requerimiento es que cuando hay un límite para el conjunto de parámetros en el PSI, el punto de cruce entre ventanas de análisis consecutivas debería coincidir con el mismo. La realización de las ventanas determina también la resolución de frecuencia de los datos dentro de cada ventana (utilizado en la expansión de los datos de desmezclado, como se describió anteriormente).

Los datos de ventana son seguidamente transformados por el módulo de análisis t/f 135 en una representación del dominio de frecuencias mediante la utilización de una adecuada transformada de tiempo-frecuencia, por ejemplo, Transformada Discreta de Fourier(DFT, Discrete Fourier Transform), Transformada de Coseno Discreto Complejo Modificada (CMDCT, Complex Modified Discrete Cosine Transform), o Transformada Discreta de Fourier de Apilamiento (ODFT, Oddly stacked Discrete Fourier Transform).

Finalmente, una unidad de desmezclado 136 aplica las matrices de desmezclado por marco por frecuencia sobre la representación espectral de la señal de downmix X para obtener las reconstrucciones paramétricas Y . El canal de salida J es una combinación lineal de los canales de downmix Para la mayoría de las utilizaciones, la calidad que puede obtenerse mediante este proceso no puede distinguirse de manera perceptible del resultado obtenido con un decodificador SAOC estándar.

Debe tenerse presente que el texto precedente describe la reconstrucción de objetos individuales, pero en el SAOC estándar la renderización se halla incluido en la matriz de desmezclado, es decir, se halla incluido en la interpolación paramétrica. Como una operación linear, el orden de las operaciones no interesa, pero vale la pena observar la diferencia.

Seguidamente se describe la decodificación de corrientes de bit de SAOC reforzado mediante un decodificador de SAOC reforzado.

La principal funcionalidad del decodificador reforzado de SAOC ya ha sido descrita anteriormente en la decodificación de corrientes de bit SAOC estándar. En este capítulo se describiera como los refuerzos de SAOC introducidos en el PSI pueden ser utilizados para obtener una mejor calidad de la percepción.

En la Figura 7, se ilustran los principales bloques funcionales del decodificador de acuerdo con una forma de realización de ilustran la decodificación de los refuerzos de resolución de frecuencia. Los bloques funcionales en negrita (132, 133, 134, 135) indican el procesamiento inventivo.

Inicialmente, una unidad de expandir valor sobre banda 141 adapta los valores de OLD y IOC para cada banda paramétrica a la resolución de frecuencia utilizada en los refuerzos, por ejemplo a 1.024 bins. Esto se lleva a cabo replicando el valor sobre los bins de frecuencia que corresponden a la banda paramétrica. Esto tiene como resultado nuevos OLDs OLD*nh{f) K{f,b)OLDt {b) y lOCs IOCenj‘(f) = K(f,b)IOCi j(b) . K (f,b) es una matriz núcleo que define la asignación de bins de frecuencia / en bandas paramétricas b mediante i, if y eó K(/,¿) 0, otherwise Paralelamente a esto, la unidad de recuperación de función delta 142 invierte la parametrización del factor de corrección para obtener la función delta cr(/) de la misma magnitud que los OLD y IOC expandidos.

Seguidamente, la unidad de aplicación delta 143 aplica el delta sobre los valores OLD expandidos, y se obtienen los valores OLD de resolución fina mediante OLD?m(f) = C, (f )OLD‘nh(f ) .

En una forma de realización particular, el cálculo de las matrices de desmezclado puede efectuarse por ejemplo mediante el calculador 131 de la matriz de desmezclado como con la decodificación de la corriente de bits estándar; G(/) = E(/)Dr(/)J(/), con E , ,(/) = IOC^ (f) LD?”" (f)OLD^ (/) , y J(/) »(D(/)E(/)Dr(/)) ' . Si se desea, es posible multiplicar la matriz de renderización de manera de obtener la matriz de desmezclado G (/). La interpolación temporal por el interpolador temporal 132 sigue como para la norma SAOC.

Dado que la resolución de frecuencia en cada ventana puede ser diferente (por lo general es inferior) con respecto a la resolución nominal de alta frecuencia, la unidad de adaptación de resolución de frecuencia de ventana 133 debe adaptar las matrices de desmezclado para que coincidan con la resolución de los datos espectrales de audio a efectos de permitir su aplicación. Esto se puede hacer, por ejemplo, por remuestreo de los coeficientes sobre el eje de frecuencia hasta resolución correcta. O, si las resoluciones son múltiplos enteros, la simple promediación a partir de los datos de alta resolución con los índices que corresponden a un bin de frecuencia en la resolución más baja.

La información de la secuencia de ventana de la corriente de bits se puede utilizar para obtener un análisis de tiempo-frecuencia totalmente complementario con respecto a al utilizado en el codificador, o la secuencia de ventanas puede ser construido en base de una de las fronteras de los parámetros, como se hace en la decodificación de corrientes de bit SAOC estándar. Para ello es posible emplear un generador de secuencias de ventana 134.

El análisis en tiempo-frecuencia del audio de downmix se lleva seguidamente a cabo mediante un módulo de análisis t/f 135 para lo cual se utilizan las ventanas dadas.

Por último, las matrices de desmezclado temporalmente interpoladas y (posiblemente) espectralmente adaptadas se aplican mediante una unidad de desmezclado 136 en la representación tiempo-frecuencia de la entrada de audio, y el canal de salida j se puede obtener como una combinación lineal de los canales de entrada Seguidamente se describe la codificación SAOC reforzada inversa compatible.

Ahora se describe un codificador SAOC reforzado que produce una corriente de bits que contiene una porción lateral de información inversa compatible y refuerzos adicionales. Los decodificadores SAOC estándar existentes pueden decodificar la porción inversa compatible de PSI y producir reconstrucciones de los objetos. La información añadida utilizado por el decodificador de SAOC reforzado mejora la calidad de la percepción de las reconstrucciones en la mayoría de los casos. Además, si el decodificador de SAOC reforzado está ejecutándose con recursos limitados, es posible ignorar los refuerzos ya que se sigue obteniendo una reconstrucción de calidad básica. Cabe señalar que las reconstrucciones mediante los decodificadores de SAOC estándar y reforzado en los que se utiliza solamente el PSI compatible del SAOC estándar, difieren entre sí, pero se considera que perceptivamente son muy similares (la diferencia es de una naturaleza similar que en la decodificación de corrientes de bit estándar con un decodificador de SAOC reforzado).

En la Figura 8 se ilustra un diagrama de bloques de codificador de acuerdo con una forma de realización particular en la que se implementa la trayectoria paramétrica del codificador arriba descrito. Los bloques funcionales en negrita (102, 103) indican el procesamiento inventivo. En particular, la Figura 8 ilustra un diagrama de bloques de dos etapas que produce una corriente de bits de etapa inversa compatible con refuerzos para decodificadores de mayor capacidad.

En primer lugar, se subdivide la señal en marcos de análisis, que luego se transforman en el dominio de la frecuencia. Múltiples marcos de análisis se agrupan en un marco de parámetros de longitud fija para lo cual se utiliza, por ejemplo, en MPEG SAOC, longitudes de 16 y 32 marcos de análisis que son comunes. Se supone que las propiedades de las señales siguen siendo casi-estacionarias durante el marco de los parámetros y que puede se puede caracterizar con un solo conjunto de parámetros. Si las características de la señal cambian dentro del marco de parámetros, hay un error de modelado, y sería beneficioso subdividir el marco de parámetros más largo en partes en las que se cumpla de nuevo el supuesto de casi estacionario. Para este fin, es necesaria la detección de los transitorios.

Los transitorios pueden ser detectados por la unidad de detección de transitorios 101 en todos los objetos ingresados por separado, y cuando hay un evento transitorio en sólo uno de los objetos esa ubicación se declara como una ubicación global de transitorio. La información de las ubicaciones de los transitorios se utiliza para la construcción de una secuencia de ventanas apropiada. La construcción se basa, por ejemplo, en la siguiente lógica: - establecer una longitud por defecto de la ventana, es decir, la longitud de un bloque de transformada de señal por default, por ejemplo, 2.048 muestras establecer la longitud del marco de los parámetros, por ejemplo, 4.096 muestras, correspondiente a 4 ventanas por defecto con una superposición del 50%. Los marcos de parámetros en múltiples ventanas juntos y un único conjunto de descriptores de señal en lugar de tener descriptores para cada ventana por separado. Esto permite reducir la cantidad de PSI. si no se ha detectado ningún transitorio, utilizar las ventanas por defecto y la longitud completa del marco de parámetros.

- Si se detecta un transitorio, adaptar las ventanas a efectos de proveer una mejor resolución temporal en la ubicación del transitorio.

Mientras se construye la secuencia de ventanas, la unidad de secuencias de ventana 102 responsable de ello tambien crea submarcos de parámetros para una o más ventanas de análisis. Cada subconjunto se analiza como una entidad única y solamente un conjunto de parámetros PSI se transmiten para cada subbloque. Para proveer un PSI SAOC compatible estándar, la longitud de bloque de parámetros definida se utiliza como la principal longitud del bloque de parámetros, y los posibles transitorios situados dentro de este bloque definen subconjuntos de parámetros.

La secuencia de ventanas construida es emitida para el análisis en tiempo y frecuencia de las señales de audio ingresadas llevado a cabo por la unidad de análisis de t/f 103, y se transmite en la porción de refuerzo de SAOC reforzado del PSI.

Los datos espectrales de cada ventana de análisis son utilizados por la unidad de estimación de PSI 104 para estimar el PSI en cuanto a la parte SAOC inversa compatible (por ejemplo, MPEG). Esto se lleva a cabo agrupando los bins espectrales en forma de bandas paramétricas de MPEG SAOC y estimando los lOCs, OLDs y energías absolutas de los objetos (NRG) en las bandas. Siguiendo aproximadamente la notación de MPEG SAOC, el producto normalizado de dos espectros de objeto S , (/,«) y S;(/,«) en un tile de parametrización se define como; — d el mapeo de los bis de representación t/f de Fn t/f en el marco n (de los N marcos en este marco de parámetros) en forma de bandas paramétricas B mediante íl, if f e b ; . , y 0, otherwise S* es el conjugado complejo de S. La resolución espectral puede variar entre los marcos dentro de un bloque paramédico individual, por lo que la matriz de mapeo convierte los datos en forma de una base de resolución común. La máxima energía del objeto en este tile de parametrización es por definición la máxima energía de objeto NRG(b) = max(nrgn(b)). Al tener este valor, los OLDs son entonces por definición las energías de objeto normalizadas: - Y finalmente, es posible obtener el IOC a partir de las potencias cruzadas en forma de: Con esto concluye la estimación de las partes compatibles SAOC estándar de la corriente de bits.

Se utiliza una unidad de reconstrucción grosera de potencial-espectro 105 para utilizar los OLDs y NRGs a efectos de reconstruir una estimación grosera de la envuelta espectral en el bloque de análisis de los parámetros. Se construye la envuelta en la máxima resolución de frecuencia utilizada en dicho bloque.

Se utiliza el espectro original de cada ventana de análisis mediante una unidad de estimación de potencial-espectro 106 para calcular el espectro de potencia en dicha ventana.

Los espectros de potencia obtenidos son transformados en una presentación de elevada frecuencia mediante una unidad de adaptación de frecuencia-resolución 107. Esto puede efectuarse por ejemplo interpolando los valores espectrales de potencia. Seguidamente se calcula el perfil espectral de media potencia para lo cual se hace una promediación de los espectros dentro del bloque de parámetros. Esto corresponde aproximadamente a que en la estimación de OLD se omita la agregación de la banda parametrica. El perfil espectral obtenido se considera como OLD de resolución fina.

La unidad de estimación de delta 108 está configurada para estimar un factor de corrección, “delta”, por ejemplo, para lo cual se divide el OLD de resolución fina por la reconstrucción grosera del espectro de potencia. Como resultado de ello, esto provee para cada bin de frecuencia un factor de corrección (multiplicativo) que pueden utilizarse para aproximar el OLD de resolución fina dados los espectros groseros.

Finalmente, hay una unidad de modelación de delta 109 configurada para modelar el factor de correlación estimado de una manera eficiente para la transmisión.

Efectivamente, las modificaciones de SAOC reforzado en la corriente de bits consisten en la información de secuencias de ventana y en los parámetros para transmitir el “delta”.

En lo que sigue se describe la detección de los transitorios.

Cuando las características de la señal permanecen casi estacionarias, es posible obtener una ganancia en la codificación (con respecto a la cantidad de información lateral) para lo cual se combinan varios marcos temporales en forma de bloques de parámetros. Por ejemplo, en el SAOC estándar, entre los valores frecuentemente utilizados y están los 16 y 32 marcos de QMF por cada uno de los bloques de parámetros. Los mismos corresponden a 1.024 y 2.048 muestras, respectivamente. La longitud del bloque de parámetros puede ser ajustada anticipadamente en un valor fijo. El único efecto indirecto que tiene, es el retardo codee (el codificador ha de tener un marco completo para poder codificarlo). Cuando se utilizan bloques parametritos largos, sería beneficioso detectar cambios significativos en las características de la señal, esencialmente cuando se infringe la suposición de casi estacionario. Después de hallar una ubicación de un cambio significativo, el dominio de la señal de tiempo puede ser dividido allí y las partes pueden nuevamente asumir y de mejor manera la suposición de casi estacionario.

Aquí se describe un novedoso método para la detección de transitorios a ser utilizado con el SAOC. Visto de manera pedante, no tiene por objeto detectar los transitorios, sino más bien cambios en las parametrizaciones de las señales que pueden ser activados por ejemplo por un desplazamiento del sonido.

La señal ingresada es dividida en marcos breves superpuestos, y los marcos son transformados en el dominio de las frecuencias, por ejemplo, mediante la transformada discreta de Fourier (DFT, Discrete Fourier Transform). El espectro complejo es transformado en espectro de potencia para lo cual se multiplican los valores con sus conjugados complejos (es decir, se elevan al cuadrado sus valores absolutos). Seguidamente se utiliza una agrupación de bandas paramétricas, similar al utilizado en SAOC estándar, y se calcula la energía de cada banda paramétrica en cada marco de tiempo en cada objeto. En pocas palabras, las operaciones son como sigue: donde S , (/,«) es el espectro de los complejos del objeto i en el marco de tiempo n . La suma abarca los bins de frecuencia / en la banda b . Para remover algún efecto de ruido de los datos, los valores son filtrados en paso bajo con un filtro IIR de primer orden: -donde 0 < aLP < 1 es el coeficiente de retroalimentación del filtro, por ejemplo, aLP— 0.9.

La principal parametrización en el SAOC son las diferencias de nivel de objeto (OLDs). El método de detección propuesto intenta detectar cuando cambiarían los OLDs. Por lo tanto, todos los pares de objeto son inspeccionados con OLD¡ J(b,n) n) . Los cambios en todos los pares de objeto únicos se suman en forma de una función de detección mediante d{n) = \og{OLDt -l))-log(0£A,,( ))| · j Se comparan los valores obtenidos con un umbral T para eliminar por filtrado pequeñas desviaciones de los niveles, y se implementa una distancia mínima L entre detecciones consecutivas. Por lo tanto la función de detección de la siguiente; fl, if (d{n) > D &(5(m) = 0, /m : n- L < m < ri) Í(») =|O A continuación se describe una resolución de frecuencia en SAOC reforzado.

La resolución de frecuencia obtenida mediante el análisis de SAOC estándar se limita a la cantidad de bandas parametricas, que tienen el valor máximo de 28 en el SAOC estándar. Se los obtiene a partir de un banco de filtros híbrido consistente en un análisis de QMF de 64 bandas seguido por una etapa de filtrado híbrido sólo bancos más bajos además de dividirlos en hasta cuatro subbandas complejas. Las bandas de frecuencia obtenidas son agrupadas en forma de bandas paramétricas que imitan la resolución de banda crítica del sistema de audición humano. La agrupación permite reducir la velocidad de los datos laterales portadores de la información requerida.

El sistema existente produce una calidad de separación razonable dada la velocidad razonablemente baja de los datos. El problema principal es la insuficiente resolución de frecuencia para una separación clara de los sonidos tonales. Esto se presenta como un “halo” de otros objetos que rodean los componentes tonales de un objeto. Desde el punto de vista de la percepción, esto se observa como rugosidad o como un artefacto similar a un vocoder. El efecto perjudicial de este halo puede reducirse incrementando la resolución de frecuencia paramétrica. Se ha observado que una resolución igual o superior a 512 bandas (con una velocidad de muestreo de 44,1 kHz) produce una separación perceptivamente buena en las señales de ensayo. Esta resolución podría obtenerse ampliando la etapa de filtrado híbrido del sistema existente, pero sería necesario que los filtros híbridos fuesen de un orden bastante elevado para una separación suficiente, lo cual implica un elevado costo computacional.

Una manera simple de obtener la resolución de frecuencia requerida consiste en utilizar una transformada de tiempo-frecuencia basada DFT. Los mismos pueden incrementarse de manera eficiente mediante un algoritmo de transformada rápida de Fourier (FFT, Fast Fourier Transform). En lugar de un DFT normal, CMDCT u ODFT se consideran como alternativas. La diferencia es que estos dos últimos son impares, y el espectro obtenido contiene frecuencias positivas y negativas puras. En comparación con un DFT, los bins de frecuencia están desplazados en un ancho de 0,5 bin. En el DFT uno de los bins está centrado a 0 Hz y otro en la frecuencia Nyquist. La diferencia entre ODFT y CMDCT es que el CMDCT contiene una operación adicional de posmodulación que afecta el espectro de fase. El beneficio de esto es que el espectro de complejos resultante consiste en el MDCT (Modified Discrete Cosine Transform, transformada modificada de coseno discreto) y en MDST (Modified Discrete Sine Transform, transformada modificada de seno discreto).

Una transformada basada en DFT de longitud N produce un espectro de los complejos con N valores. Cuando la secuencia transformada tiene el valor real, solamente N/2 de estos valores son necesarios para una reconstrucción perfecta, los otros N/2 valores pueden obtenerse a partir de los dados mediante simples manipulaciones. El análisis opera normalmente tomando un marco de N muestras del dominio del tiempo de la señal, aplicando una función de ventana sobre los valores, despues de lo cual se calcula la transformada actual sobre los datos de ventana. Los bloques consecutivos se superponen temporalmente en un 50% y las funciones de ventana están diseñadas de manera tal que los cuadrados de ventana consecutivas se sumarán en forma de una unidad. Esta asegura que cuando la función de ventana se aplica dos veces sobre los datos (una vez analizando la señal del dominio del tiempo, y una segunda vez después de la transformada de síntesis antes de su superposición/adición); la cadena de síntesis de análisis plus no tiene pérdida.

Dada una superposición de 50% entre marcos consecutivos y una longitud de marco de 2.048 muestras, la resolución temporal efectiva es de 1.024 muestras (lo que corresponde a 23,2 ms con una velocidad de muestreo de 44,1 kHz). Esto no es suficientemente pequeño por dos razones: en primer lugar sería deseable poder decodificar corrientes de bits producidas por un codificador SAOC estándar, y en segundo lugar, analizar señales en un codificador SAOC reforzado con una resolución temporal más fina, en caso de ser necesario.

En el SAOC, es posible agrupar múltiples bloques en forma de marcos de parámetros. Se supone que las propiedades de las señales permanecen suficientemente similares a lo largo del marco de parámetros para poder caracterizarlo con un único conjunto de parámetros. Las longitudes de parámetros normalmente encontrados en el SAOC estándar son 16 ó 32 marcos QMF (la norma permite longitudes de hasta 72 marcos). Pueden efectuarse agrupaciones similares cuando se utiliza un banco de filtros con una elevada resolución de frecuencias. Si las propiedades de la señal no cambian durante un marco de parámetros, la agrupación provee una eficiencia de codificación sin degradaciones de la calidad. Sin embargo, si las propiedades de la señal cambian dentro del marco de parámetros, la agrupación induce errores. El SAOC permite definir una longitud de agrupación por default, se utiliza con señales casi estacionarias, pero que también define subbloques de parámetros. Los subbloques definen agrupaciones más cortas que la longitud por defecto, y la parametrización se efectuará sobre cada subbloque por separado. Debido a la resolución temporal del banco de QMF subyacente, la resolución temporal resultante es de 64 muestras en el dominio del tiempo, lo que es mucho más fino que la resolución que puede obtenerse mediante un banco de filtros fijo con una elevada resolución de frecuencias. Este requerimiento afecta el decodificador de SAOC reforzado.

La utilización de un banco de filtros con una gran longitud de transformada provee una buena resolución de frecuencias, pero al mismo tiempo se degrada la resolución temporal (el denominado principio de incertidumbre). Si las propiedades de la señal cambian dentro de un único marco de análisis, la resolución temporal baja puede ocasionar un borroneo en la salida de síntesis. Por ello, sería beneficioso obtener una resolución temporal submarco en los lugares en los que se presente considerables cambios de señal. La resolución temporal en submarco conduce naturalmente a una resolución más baja y frecuencia, pero eso supone que durante un cambio de señal la resolución temporal es el aspecto más importante que debe ser capturado con exactitud. Este requerimiento de resolución submarco afecta principalmente al codificador de SAOC reforzado (y por lo tanto, tambien al decodificador).

Puede utilizarse el mismo principio de solución en ambos casos: la utilización de marcos de análisis largos si la señal es casi estacionaria (no se detectan transitorios) y si no hay fronteras de parámetros. Si alguna de estas dos condiciones no se cumple, se emplea el esquema de la conmutación de la longitud de los bloques. Una excepción a esta condición puede efectuarse sobre la frontera de los parámetros que reciben entre grupos de marcos no divididos y que coinciden con el punto de cruce entre dos ventanas largas (mientras se decodifica una corriente de bits de SAOC estándar). Eso supone que en un caso como éste las propiedades de la señal permanecen suficientemente estacionarías para el banco de filtros de alta resolución. Si se señala una frontera de parámetros (por la corriente de bits o por el detector de transitorios), se ajustan los marcos para que utilicen una longitud de marco más pequeña, y por lo tanto se mejora localmente la resolución temporalmente.

Las dos formas de realización utilizan el mismo mecanismo subyacente para la construcción de secuencias de ventana. Una función de ventana prototipo f(n,N ) está definida por el índice 0 £ n £ N-l para una longitud de ventana N .

Es necesario designar una ventana única w k(n) , ... de control, a saber los centros de la ventana precedente, la actual y la siguiente, ck_ ck , y ck+l.

Mediante su utilización, la función de ventana se define como sigue: - _ - _ - _ - _ _ La ubicación vial de la ventana es entonces [cH] < m <|_cA+1J donde n = m-\ck_l \ . La función prototipo de ventana utilizada en las ilustraciones es una función sinusoidal como sigue; / («,N) = sin pero tambien es posible utilizar otras formas.

Seguidamente se describe el cruce en un transitorio de acuerdo con una forma de realización.

La Figura 9 es una ilustración del principio del esquema de conmutación de bloques “cruce en el transitorio”. En particular, en la Figura 9 se ilustra la adaptación de la secuencia de ventana normal para dar cabida a un punto de cruce de ventana en el transitorio. La línea 111 representa las muestras de señales en el dominio del tiempo, la línea vertical 112 la ubicación t del transitorio detectado (o una frontera de parámetros con respecto a la corriente de bits), y las líneas 113 ilustran las funciones de ventana y sus intervalos temporales. Este esquema requiere decidir la cantidad de superposición entre las dos ventanas wk y wk+ alrededor del transitorio, definir la pendiente de la ventana. Si la longitud de superposición ha sido ajustada en un valor pequeño, las ventanas tienen sus puntos máximos cercanos al transitorio y las secciones que cruzan el transitorio decaen rápidamente. Las longitudes de superposición también pueden ser diferentes antes y después del transitorio. En este enfoque, las dos ventanas o marcos que rodean el transitorio serán ajustados en longitud. La ubicación del transitorio defines los centros de las ventanas circundantes como sigue ck =t-lb y ck+ , =t+la , en donde lh y la son la longitud de superposición antes y después del transitorio, respectivamente. Habiéndose definido estos, puede utilizarse la invasión precedente.

Seguidamente se describe la aislación de los transitorios de acuerdo con una forma de realización.

La Figura 10 ilustra el principio del esquema de conmutación de bloques de anulación de transitorios de acuerdo con una forma de realización. Hay una ventana breve wk centrada sobre el transitorio, y las dos ventanas adyacentes y k+x están ajustadas de manera de complementar la ventana corta. De manera efectiva las ventanas adyacentes se limitan a la ubicación del transitorio, por lo que la ventana precedente contiene solamente señales antes del transitorio, y la ventana siguiente contiene solamente señales despues del transitorio. En este enfoque, el transitorio define los centros de tres ventanas ck_1 -t-lb, ck =t , y ck+l =t+la , donde lb y la definen el intervalo de ventana deseado antes y después del transitorio. Habiéndose definido estos, puede utilizarse la ecuación precedente.

Lo que sigue se describe la formación de marcos similares a AAC de acuerdo con una forma de realización.

Es posible que no siempre sean necesarios los grados de libertad de los dos esquemas de ventana anteriormente descritos. También se emplea un procesamiento diferente para los transitorios en el campo de la codificación perceptual de audio. En este caso el objetivo es el de reducir la dispersión temporal del transitorio que ocasionaría los denominados preecos. En el MPEG-2/4 AAC [AAC], se utilizan dos longitudes básicas para las ventanas: LONG (largo, con una longitud de 2.048 muestras), y SHORT (corto, con una longitud de 256 muestras). Además de estos dos, también se definen dos ventanas de transición a efectos de permitir la transición desde un LONG a SHORT e inversamente. A título de restricción adicional, se requiere que las ventanas SHORT-se presente en grupos de a ocho ventanas. De esta manera, el margen entre ventanas y grupos de ventana permanece en un valor constante de 1024 muestras.

Si el sistema SAOC emplea un codee basado en AAC para las señales de audio, el downmix, o los objetivos residuales, sería beneficioso tener un esquema de marcos que pueda ser sincronizado fácilmente con el codee. Por esta razón, se describe un esquema de conmutación de bloques en base a las ventanas AAC.

En la Figura 11 se ilustra un ejemplo de conmutación de bloques similar a AAC. En particular, en la Figura 11 se ilustra la misma señal con un transitorio y la resultante secuencia de ventana similar a AAC. Puede observarse que la ubicación temporal del transitorio está cubierta con ocho ventanas SHORT, que están rodeadas por ventanas de transición desde y hacia ventanas LONG. Puede apreciarse en la ilustración que el transitorio de por sí no está centrado en una ventana única ni en el punto de cruce entre dos ventanas. Esto se debe a que las ubicaciones de las ventanas están fijadas en una grilla, pero esta grilla asegura el paso constante al mismo tiempo. Se supone que el error de redondeo resultante es lo suficientemente pequeño para ser porcentualmente irrelevante en comparación con los errores ocasionados por el uso de ventanas LONG-solamente.

Las ventanas se definen como sigue: La ventana LONG: w LONG(n) = f{n, NLom ) , donde Nwm = 2048.

- La ventana SHORT : wSH0RT ( n ) = / («, NSH0RT ) , donde NSH0RT = 256.

- La ventana de transición de LONG a SHORTs .

- La ventana de transición de SHORTs a LONG W STOP (n)— WS74/rr (N LONG — W— V) En lo que sigue se describen variantes de implementación de acuerdo con formas de realización.

Independientemente del esquema de conmutación de bloques, otra elección en cuanto a diseño es la longitud de la transformada real t/f real. Si el objetivo principal es el de seguir las siguientes operaciones en el dominio de las frecuencias a traves de los marcos de análisis, puede utilizarse una longitud de transformada constante. Se ajusta la longitud a un valor grande adecuado, por ejemplo, correspondiente a la longitud del marco más largo permitido. Si el marco del dominio del tiempo es más breve que este valor, entonces se lo almohadilla en cero (zero-padding) a la longitud completa. Cabe observar que un después del almohadillado en cero el espectro tiene un mayor número de bits, la cantidad de información real no aumentado en comparación con una transformada más corta. En este caso, las matrices de núcleo K (b,f,n) tienen la misma dimensiones para todos los valores de n .

Otra alternativa es la de transformar el marco aventanado si el almohadillado en cero. Esto presenta una menor complejidad de cálculo que con una longitud de transformada constante. Sin embargo, las resoluciones de frecuencias diferentes entre marca consultivos deben ser tomadas en cuenta con las matrices de núcleo En lo que sigue se describe la filtración híbrida ampliada de acuerdo con una forma de realización.

Otra posibilidad de obtener una mayor resolución en frecuencia consistiría en modificar el banco de filtros híbrido utilizado en el SAOC estándar para lograr una resolución más fina. En el SAOC estándar, solamente las tres más bajas de las 64 bandas de QMF se hacen pasar a través del banco de filtros de Nyquist que subdividen el banco de filtros.

La Figura 12 ilustra la filtración híbrida de QMF ampliado. Los filtros de Nyquist se repiten para cada banda de QMF por separado, y las salidas son combinadas para lograr un único espectro de alta resolución. En particular, la Figura 12 muestra que obtener una resolución en frecuencia comparable al enfoque basado en DFT requerirá subdividir cada banda de QMF en, por ejemplo, 16 subbandas (lo que requiere una filtración compleja en 32 subbandas). El inconveniente de este enfoque es que los prototipos de filtros requeridos son largos debido a que las bandas son angostas. Esto ocasiona algún retardo en el procesamiento e incrementa la complicidad del cálculo.

Una manera alternativa consiste en implementar la filtración híbrida ampliada mediante el reemplazo de los conjuntos de filtros de Nyquist por bancos de filtrosbtransformadas eficientes (por ejemplo, DFT de “zoom”, transformada de coseno discreto, etc.). Por otra parte, la polarización contenida en los coeficientes espectrales de alta resolución resultantes, que es causada por los efectos de fuga de la primera etapa de grado (en este caso: QMF), pueden reducirse de manera sustancial mediante un posprocesamiento de anulación de polarización similar al bien conocido banco de filtros híbridos MPEG-1/2 Capa 3 [FB] [MPEG-1].

En la Figura 1b se ilustra un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio desde una señal de downmix que comprende una pluralidad de muestras de downmix en el dominio del tiempo de acuerdo con una correspondiente forma de realización. La señal de downmix codifica dos o más señales de objeto de audio.

El decodificador comprende u primer submódulo de análisis 161 para transformar la pluralidad de muestras de downmix en el dominio del tiempo de manera de obtener una pluralidad de subbandas que comprende una pluralidad de muestras de subbandas.

Además, el decodificador comprende un generador de secuencias de ventana 162 para determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de subbandas de una de entre la pluralidad de subbandas, en donde cada ventana de análisis de la pluralidad de ventanas de análisis tiene una longitud de ventana que indica la cantidad de muestras de subbandas de dicha ventana de análisis. El generador de secuencias de ventana 162 está configurado para determinar la pluralidad de ventanas de análisis, por ejemplo, en base a información parametrica lateral, de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales de objeto de audio.

Por otra parte, el decodificador comprende un segundo módulo de análisis 163 para transformar la pluralidad de muestras de subbandas de cada ventana de análisis de la pluralidad de ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis para obtener un downmix transformado.

Por otra parte, el decodificador comprende una unidad de desmezclado 164 para desmezclar el downmix transformado en base a información paramétrica lateral sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio.

En otras palabras: la transformada se lleva a cabo en dos fases. En una primera fase de transformada, se crea una pluralidad de subbandas cada una de las cuales comprende una pluralidad de muestras de subbandas. Seguidamente, en una segunda fase, se lleva a cabo otra transformada. Entre otros, las ventanas de análisis utilizadas para la segunda fase determinan la resolución en tiempo y la resolución en frecuencia del downmix transformado resultante.

La Figura 13 ilustra un ejemplo en el que se utilizan ventanas corta para la transformada. La utilización de ventanas cortas permite obtener una baja resolución en frecuencia, pero una elevada resolución en tiempo. El empleo de ventanas cortas puede ser adecuado, por ejemplo cuando hay un transitorio presente en las señales codificadas de objetos de audio (El ¿b¿indica muestras de subbandas, y el vs,r indica muestra del downmix transformado en un dominio de tiempo-frecuencia).

La Figura 14 ilustra un ejemplo en el que se utilizan ventanas más largas para la transformada que en el ejemplo de la Figura 13. La utilización de ventanas largas conduce a una resolución en frecuencia, pero a una baja resolución en tiempo. La utilización de ventanas largas puede ser adecuada por ejemplo cuando no hay un transitorio presente en las señales codificadas de objetos de audio (nuevamente, los u¡j indican las muestras de subbandas, y los vsr indican las muestras del downmix transformado en el dominio de tiempo-frecuencia.) La Figura 2b ilustra un correspondiente codificador para codificar dos o más señales ingresadas de objeto de audio de acuerdo con una forma de realización. Cada una de las dos o más señales ingresadas de objeto de audio comprende una pluralidad de muestras de señales en el dominio del tiempo.

El codificador comprende un primer submódulo de análisis 171 para transformar la pluralidad de muestras de señales en el dominio del tiempo a efectos de obtener una pluralidad de subbandas que comprende una pluralidad de muestras de subbandas.

Además, el codificador comprende una unidad de secuencias de ventana 172 para determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de subbandas de una de entre la pluralidad de subbandas, en donde cada una de las ventanas de análisis tiene una longitud de ventana que indica la cantidad de muestras de subbandas de dicha ventana de análisis, en donde la unidad de secuencias de ventana 172 está configurada para determinar la pluralidad de ventanas de análisis, de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio. Por ejemplo, una unidad (opcional) de detección de transitorios 175 puede proveer información acerca de si hay un transitorio presente en una de las señales ingresadas de objeto de audio en la unidad de secuencias de ventana 172.

Por otra parte, el codificador comprende un segundo módulo de análisis 173 para transformar la pluralidad de muestras de subbandas de cada ventana de análisis de la pluralidad de ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis a efectos de obtener muestras de señales transformadas.

Además, el codificador comprende una unidad de estimación de PSI 174 para determinar información paramétrica lateral en función de las muestras de señales transformadas.

De acuerdo con otras formas de realización, puede haber dos módulos de análisis para llevar a cabo análisis en dos fases, pero el segundo módulo puede estar conectado o no en función de una propiedad de señal.

Por ejemplo, si se requiere una elevada resolución en frecuencia y es aceptable una baja resolución en tiempo, entonces se conecta el segundo módulo de análisis.

En cambio, si se requiere una elevada resolución en tiempo y es aceptable una baja resolución en frecuencia, entonces se desconecta el segundo módulo de análisis.

La Figura 1c ilustra un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de downmix de acuerdo con una forma de realización tal. La señal de downmix codifica una o más señales de objeto de audio.

El decodificador comprende una unidad de control 181 para establecer una indicación de activación en un estado de activación en función de una propiedad de señal de por lo menos una la una o más señales de objeto de audio.

Además, el decodificador comprende un primer módulo de análisis 182 para transformar la señal de downmix a efectos de obtener un primer downmix transformado que comprende una pluralidad de primeros canales de subbandas.

Por otra parte, el decodificador comprende un segundo módulo de análisis 183 para generar, cuando la indicación de activación está colocada en el estado de activación, un segundo downmix transformado mediante la transformación de por lo menos uno de los primeros canales de subbandas de manera de obtener una pluralidad de segundos canales de subbandas, en donde el segundo downmix transformado comprende los primeros canales de subbandas que no han sido transformados por el segundo módulo de análisis y los segundos canales de subbandas.

Además, el decodificador comprende una unidad de desmezclado 184, en donde la unidad de desmezclado 184 está configurada para desmezclar el segundo downmix transformado, cuando la indicación de activación está colocada en el estado de activación, en base a información parametrica lateral sobre la una o más señales de objeto de audio para obtener la señal de salida de audio, y para desmezclar el primer downmix transformado, cuando la indicación de activación no está colocada en el estado de activación, en base a la información paramétrica lateral sobre la una o más señales de objeto de audio a efectos de obtener la señal de salida de audio.

La Figura 15 ilustra u ejemplo en el que se requiere una elevada resolución en frecuencia y una baja resolución en tiempo es aceptable. Por lo tanto, la unidad de control 181 conecta el segundo módulo de análisis colocando la indicación de activación en el estado de activación (por ejemplo colocando una “activationjndication” booleana variable en “activationjndication = verdad”). La señal de downmix es transformada por el primer módulo de análisis 182 (no se muestra en la Figura 15) de manera de obtener un primer downmix transformado. En el ejemplo de la Figura 15, el downmix transformado tiene tres subbandas. En escenarios de aplicación más realistas, el downmix transformado puede tener, por ejemplo 32 ó 64 subbandas. Entonces, el primer downmix transformado es transformado por el segundo módulo de análisis 183 (no se muestra en la Figura 15) de manera de obtener un segundo downmix transformado. En el ejemplo de la Figura 15, el downmix transformado tiene nueve subbandas. En escenarios de aplicación más realistas, el downmix transformado puede tener por ejemplo 512, 1024 o 2048 subbandas. La unidad de desmezclado 184 entonces desmezclarará el segundo downmix transformado de manera de obtener la señal de salida de audio.

Por ejemplo, la unidad de desmezclado 184 puede recibir la indicación de activación procedente de la unidad de control 181. O, por ejemplo, cada vez que la unidad de desmezclado 184 reciba un segundo downmix transformado desde el segundo módulo de análisis 183, la unidad de desmezclado 184 llega a la conclusión que el segundo downmix transformado ha de ser desmezclado; cada vez que la unidad de desmezclado 184 no reciba un segundo downmix transformado procedente del segundo módulo de análisis 183, la unidad de desmezclado 184 llega a la conclusión que el primer downmix transformado ha de ser desmezclado.

La Fig. 16 ilustra u ejemplo en el que se requiere una elevada resolución en tiempo y una baja resolución en frecuencia es aceptable. Por lo tanto, la unidad de control 181 desconecta el segundo módulo de análisis colocando la indicación de activación en un estado que es diferente del estado de activación (por ejemplo colocando “activationjndication” booleana variable en “activationjndication = falso”). La señal de downmix es transformada por el primer módulo de análisis 182 (no se muestra en Figura 16) de manera de obtener un primer downmix transformado. Seguidamente, y a diferencia con la Figura 15, el primer downmix transformado no es transformado una vez más por el segundo módulo de análisis 183. En cambio, la unidad de desmezclado 184 desmezclarará el primer segundo downmix transformado para obtener la señal de salida de audio.

De acuerdo con una forma de realización, la unidad de control 181 está configurado para colocar la indicación de activación en el estado de activación en función de si por lo menos una de las una o más señales de objeto de audio comprende un transitorio que indica un cambio de señal de la por lo menos una de las una o más señales de objeto de audio.

En otra forma de realización, se asigna una transforma de subbanda a cada uno de los primeros canales de subbandas. La unidad de control 181 está configurada para colocar la indicación de transformada de subbanda de cada uno de los primeros canales de subbandas en un estado de subbanda de transformada en función de la propiedad de señal de por lo menos una de la una o más señales de objeto de audio. Además, el segundo módulo de análisis 183 está configurado para transformar cada uno de los primeros canales de subbandas, cuya indicación de transformada de subbanda está colocada en el estado de subbanda de transformada, de manera de obtener la pluralidad de segundos canales de subbandas, y de no transformar cada uno de los segundos canales de subbandas, cuya indicación de transformada de subbanda no está colocada en el estado de subbanda de transformada.

La Figura 17 ilustra u ejemplo en el que la unidad de control 181 (no se muestra en la Figura 17) colocó efectivamente la indicación de transformada de subbanda de la segunda subbanda en el estado de subbanda de transformada (por ejemplo, colocando una “subband_transform_indication_2” booleana variable en “subband transform_indication_2 = verdad”). Por lo tanto, el segundo módulo de análisis 183 (no se muestra en la Figura 17) transforma la segunda subbanda para obtener tres “fine-resolution” nuevas. En el ejemplo de la Figura 17, la unidad de control 181 no colocó la indicación de transformada de subbanda de la primera y tercera subbanda en el estado de subbanda de transformada (por ejemplo, esto puede indicarse mediante la unidad de control 181 mediante la colocación de las “subband_transform_indication_1” y “subband_transform_indication_3” booleanas variables en “subband transform_ind¡cat¡on_1 = falso” y “subband transform_indication_3 = falso”). Por lo tanto, el segundo módulo de análisis 183 no transforma la primera y tercera subbanda. En cambio, la primera subbanda y la tercera subbanda son utilizadas como tales como subbandas del segundo downmix transformado.

La Figura 18 ilustra un ejemplo, en el que la unidad de control 181 (no se muestra en la Figura 18) colocó efectivamente la indicación de transformada de subbanda de la primera y segunda subbanda en el estado de subbanda de transformada (por ejemplo mediante la colocación de la variable booleana “subband_transform_indication_1” en “subband transform_indication_1 = verdad” y, por ejemplo, mediante la colocación de la variable booleana “subband_transform_ind¡cation_2” en “subband transformJndication_2 = verdad”). Por lo tanto, el segundo módulo de análisis 183 (no se muestra en la Figura 18) transforma la primera y segunda subbandas de manera de obtener seis “fine-resolution” subbandas nuevas. En el ejemplo de la Figura 18, la unidad de control 181 no colocó la indicación de transformada de subbanda en el estado de subbanda de transformada (por ejemplo, esto puede indicarse mediante unidad de control 181 mediante la colocación de la variable booleana “subband_transform_indication_3” en “subband transform_indication_3 = falso”).

Por lo tanto, el segundo módulo de análisis 183 no transforma la tercera subbanda. En cambio, la tercera subbanda como tal se utiliza como una subbanda del segundo downmix transformado.

De acuerdo con una forma de realización, el primer módulo de análisis 182 está configurado para transformar la señal de downmix a efectos de obtener el primer downmix transformado que comprende la pluralidad de primeros canales de subbandas para lo cual se utiliza u QMF (Quadrature Mirror Filter, Filtro Espejo de Cuadratura).

En una forma de realización, el primer módulo de análisis 182 está configurado para transformar la señal de downmix en función de una primera longitud de ventana de análisis , en donde la primera longitud de ventana de análisis depende de dicha propiedad de señal, y/o el segundo módulo de análisis 183 está configurado para generar, cuando la indicación de activación está colocada en el estado de activación, el segundo downmix transformado mediante la transformación de por lo menos uno de los primeros canales de subbandas en función de una segunda longitud de ventana de análisis, en donde la segunda longitud de ventana de análisis depende de dicha propiedad de señal. En una forma de realización de este tipo se conecta y desconecta el segundo módulo de análisis 183, y se ajusta la longitud de una ventana de análisis.

En una forma de realización, el decodificador está configurado para generar la señal de salida de audio que comprende uno o más canales de salida de audio a partir de la señal de downmix, en donde la señal de downmix codifica dos o más señales de objeto de audio. La unidad de control 181 está configurada para colocar la indicación de activación en el estado de activación en función de la propiedad de señal de por lo menos una de las dos o más señales de objeto de audio. Además, la unidad de desmezclado 184 está configurada para desmezclar el segundo downmix transformado, cuando la indicación de activación está colocada en el estado de activación, en base a información parametrica lateral sobre la una o más señales de objeto de audio a efectos de obtener la señal de salida de audio, y para desmezclar el primer downmix transformado, cuando la indicación de activación no está colocada en el estado de activación, en base a la información paramétrica lateral sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio.

La Figura 2c ilustra un codificador para codificar una señal ingresada de objeto de audio de acuerdo con una forma de realización.

El codificador comprende una unidad de control 191 para establecer una indicación de activación en un estado de activación en función de una propiedad de señal de la señal ingresada de objeto de audio.

Además, el codificador comprende un primer módulo de análisis 192 para transformar la señal ingresada de objeto de audio para obtener una primera señal transformada de objeto de audio, en donde la primera señal transformada de objeto de audio comprende una pluralidad de primeros canales de subbandas.

Por otra parte, el codificador comprende un segundo módulo de análisis 193 para generar, cuando la indicación de activación está colocada en el estado de activación, una segunda señal transformada de objeto de audio mediante la transformación de por lo menos uno de entre la pluralidad de primeros canales de subbandas para obtener una pluralidad de segundos canales de subbandas, en donde la segunda señal transformada de objeto de audio comprende los primeros canales de subbandas que no han sido transformados por el segundo módulo de análisis y los segundos canales de subbandas.

Además, el codificador comprende una unidad de estimación de PSI 194, en donde la unidad de estimación de PSI 194 está configurada para determinar información parametrica lateral en base a la segunda señal transformada de objeto de audio, cuando la indicación de activación está colocada en el estado de activación, y para determinar la información paramétrica lateral en base a la primera señal transformada de objeto de audio, cuando la indicación de activación no está colocada en el estado de activación.

De acuerdo con una forma de realización, la unidad de control 191 está configurada para colocar la indicación de activación en el estado de activación en función de si la señal ingresada de objeto de audio comprende un transitorio que indica un cambio de señal de la señal ingresada de objeto de audio.

En otra forma de realización, se asigna una indicación de transformada a cada uno de los primeros canales de subbandas. La unidad de control 191 está configurada para colocar la indicación de transformada de subbanda de cada uno de los primeros canales de subbandas en un estado de subbanda de transformada en función de la propiedad de señal de la señal ingresada de objeto de audio. El segundo módulo de análisis 193 está configurado para transformar cada uno de los primeros canales de subbandas, cuya la indicación de transformada de subbanda está colocada en el estado de subbanda de transformada, de manera de obtener la pluralidad de segundos canales de subbandas, y no transformar cada uno de los segundos canales de subbandas, cuya indicación de transformada de subbanda no está colocada en el estado de subbanda de transformada.

De acuerdo con una forma de realización, el primer módulo de análisis 192 está configurado para transformar cada una de las señales ingresadas de objeto de audio, para lo cual se utiliza un filtro de espejo de cuadratura.

En otra forma de realización, el primer módulo de análisis 192 está configurado para transformar la señal ingresada de objeto de audio en función de una primera longitud de ventana de análisis, en donde la primera longitud de ventana de análisis depende de dicha propiedad de señal, y/o el segundo módulo de análisis 193 está configurado para generar, cuando la indicación de activación está colocada en el estado de activación, la segunda señal transformada de objeto de audio mediante la transformación de por lo menos uno de entre la pluralidad de primeros canales de subbandas en función de una segunda longitud de ventana de análisis, en donde la longitud de la segunda ventana de análisis depende de dicha propiedad de señal.

De acuerdo con otra forma de realización, el codificador está configurado para codificar la señal ingresada de objeto de audio y por lo menos otra señal ingresada de objeto de audio. La unidad de control 191 está configurada para colocar la indicación de activación en el estado de activación en función de la propiedad de señal de la señal ingresada de objeto de audio y en función de una propiedad de señal de la por lo menos un señal ingresada más de objeto de audio. El primer módulo de análisis 192 está configurado para transformar por lo menos una señal ingresada más de objeto de audio para obtener por lo menos una primera señal transformada de objeto de audio, en donde cada una de las por lo menos o más primeras señal transformada de objeto de audio comprende una pluralidad de primeros canales de subbandas. El segundo módulo de análisis 193 está configurado para transformar, cuando la indicación de activación está colocada en el estado de activación, por lo menos uno de entre la pluralidad de primeros canales de subbandas de por lo menos una de entre las primeras señal transformadas de objeto de audio de manera de obtener una pluralidad de segundos canales de subbandas. Además, la unidad de estimación de PSI 194 está configurada para determinar la información parametrica lateral en base a la pluralidad de los segundos canales de subbandas, cuando la indicación de activación está colocada en el estado de activación.

El método y aparato de acuerdo con la invención alivian los inconvenientes arriba mencionados del procesamiento por SAOC del estado de la téenica en el que se utiliza un banco de filtros fijo o una transformada en tiempo-frecuencia. Es posible obtener un calidad de audio subjetivamente mejor mediante la adaptación dinámica de la resolución en tiempo/frecuencia de las transformadas o bancos de filtros empleados para analizar y sintetizar objetos de audio dentro del SAOC. Al mismo tiempo, los artefactos tales como los pre y poseeos causados por falta de precisión temporal y los artefactos tales como la rugosidad auditiva y la diafonía causadas por insuficiente precisión espectral pueden minimizarse dentro del mismo sistema de SAOC. Y, lo que es más importante, el sistema SAOC reforzado equipado con la transformada adaptativa de la invención mantiene la compatibilidad inversa con el estándar sin dejar de proveer una buena calidad de la percepción comparable con la del SAOC estándar.

Las formas de realización proveen un codificador de audio o un método de audio que codifica o un programa de computadora arriba descrito. Además, las formas de realización proveen un codificador de audio o un método decodificación de audio o programa de computadora como arriba descrito. Por otra parte, las formas de realización proveen una señal codificada de audio o u medio de almacenamiento en el que se almacena la señal de audio codificada arriba descrita.

Si bien se han descrito algunos aspectos en el contexto de un aparato, es evidente que estos aspectos también representan una descripción del método correspondiente, en donde un bloque o dispositivo corresponde a una etapa de método o a un rasgo de una etapa de método. De manera análoga, los aspectos descritos en el contexto de una etapa del método también representan una descripción de un bloque, ítem o rasgo, correspondientes, de un aparato correspondiente.

La señal descompuesta inventiva puede ser almacenada en un medio de almacenamiento digital, o puede ser transmitida en un medio de transmisión tal como un medio de transmisión inalámbrica o un medio de transmisión alámbrica tal como Internet.

En función de determinados requerimientos de implementación, las formas de realización de la invención pueden ser implementadas en hardware o en software. La implementación puede llevarse a cabo mediante un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un CD, un ROM, un PROM, un EPROM, un EEPROM, o una memoria FLASH, que tenga almacenados en él señales de control electrónicamente legibles, que cooperan (o que son capaces de cooperar) con un sistema computadora programable de manera tal que se lleve a cabo el método respectivo.

Algunas formas de realización de acuerdo con la invención comprenden un portador de datos no transitorios que tiene señales de control electrónicamente legibles, que son capaces de cooperar con un sistema de computadora programable, de manera tal que se lleve al cabo uno de los metodos descritos en la presente.

En términos generales, las formas de realización de la presente invención pueden ser implementados como un producto programa de computadora con un código de programa, siendo el código del programa operativo para llevar a cabo uno de los métodos cuando el programa de computadora se ejecuta en una computadora. El código del programa puede estar almacenado por ejemplo en un portador legible por máquina.

Otras formas de realización comprende el programa de computadora para llevar a cabo uno de los métodos descritos en la presente, almacenado en un portador legible por máquina.

En otras palabras, una forma de realización del método de acuerdo con la invención es por lo tanto un programa de computadora que tiene un código de programa para implementar uno de los métodos descritos en el presente, cuando el programa de computadora se ejecuta en una computadora.

Por ello, otra forma de realización más de los métodos de acuerdo con la invención consiste en un portador de datos (o en un medio para almacenamiento digital, o un medio legible por computadora), que comprende, grabado en él, el programa de computadora para llevar a cabo uno de los métodos descritos en la presente.

Otra forma de realización más del método de acuerdo con la invención es por lo tanto una corriente de datos o una secuencia de señales que representan el programa de computadora para llevar a cabo uno de los métodos descritos en el presente. La corriente de datos o la secuencia de señales pueden está configurados por ejemplo para ser transferidos por intermedio de una conexión de comunicación de datos, por ejemplo por intermedio de Internet.

Y otra forma de realización más comprende un medio de procesamiento, por ejemplo una computadora o un dispositivo lógico programable, configurado o adaptado para llevar a cabo uno de los métodos descritos en la presente.

Otra forma de realización de la invención comprende una computadora que tiene instalado en él el programa de computadora para llevar a cabo uno de los métodos descritos de la presente.

En algunas formas de realización, es posible utilizar un dispositivo lógico programable (por ejemplo, un gate array programable en el campo) para llevar a cabo algunas de las funcionalidades de los métodos descritos en la presente, o la totalidad de dichas funcionalidades. En algunas formas de realización un gate array programable en el campo puede cooperar con una microprocesador a efectos de llevar a cabo uno de los métodos descritos en el presente. Por lo general, los métodos son preferiblemente llevados a cabo mediante cualquier aparato de hardware.

Las formas de realización descritas en lo que precede son meramente ilustrativas de los principios de la presente invención. Se da por entendido que modificaciones y variaciones en las disposiciones y en los detalles descritos en la presente serán evidentes para personas con pericia en la especialidad. Por lo tanto, la intención es la quedar limitado solamente por los alcances de las reivindicaciones de patentes adjuntas y no por los detalles específicos presentados a título de descripción y explicación de las formas de realización de la presente.

Referencias [BCC] C. Faller and F. Baumgarte, “Binaural Cue Coding - Part II: Schemes and applications,” IEEE Trans. on Speech y Audio Proc., vol. 11, no. 6, Nov. 2003.

[JSC] C. Faller, “Parametric Joint-Coding of Audio Sources”, 120th AES Convention, París, 2006.

[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April, 2007.

[SAOC2] J. Engdegárd, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hólzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Audio Object Based Coding", 124th AES Convention, Amsterdam, 2008.

[SAOC] ISO/IEC, “MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC),” ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2:2010.

[AAC] Bosi, Marina; Brandenburg, Karlheinz; Quackenbush, Schuyler; Fielder, Louis; Akagiri, Kenzo; Fuchs, Hendrik; Dietz, Martin, “ISO/IEC MPEG-2 Advanced Audio Coding”, J. Audio Eng. Soc, vol 45, no 10, pp. 789-814, 1997.

[ISS1] M. Parvaix y L. Girin: “Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding”, IEEE ICASSP, 2010.

[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: “A watermarking-based method for informed source separation of audio signáis with a single sensor”, IEEE Transactions on Audio, Speech and Language Processing, 2010.

[ISS3] A. Liutkus and J. Pinel y R. Badeau y L. Girin y G. Richard: “Informed source separation through spectrogram coding and data embedding”, Signal Processing Journal, 2011.

[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: “Informed source separation: source coding meets source separation”, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.

[ISS5] Shuhua Zhang and Laurent Girin: “An Informed Source Separation System for Speech Signáis”, INTERSPEECH, 2011.

[ISS6] L. Girin and J. Pinel: “Informed Audio Source Separation from Compressed Linear Stereo Mixtures”, AES 42nd International Conference: Semantic Audio, 2011.

[ISS7] Andrew Nesbit, Emmanuel Vincent, y Mark D. Plumblcy: “Benchmarking flexible adaptive time-frequency transforme for underdetermined audio source separation”, IEEE International Conference on Acoustics, Speech y Signal Processing, pp. 37-40, 2009.

[FB] B. Edler, "Aliasing reduction in sub-bands of cascaded filterbanks with decimation", Electronic Letters, vol. 28, No. 12, pp. 1104-1106, June 1992.

[MPEG-1] ISO/IEC JTC1/SC29/WG11 MPEG, International Standard ISO/IEC 11172, Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s, 1993.

Claims

REIVINDICACIONES Habiendo así especialmente descrito y determinado la naturaleza de la presente invención y la forma como la misma ha de ser llevada a la práctica, se declara reivindicar como de propiedad y derecho exclusivo:

1. Un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de downmix, en donde la señal de downmix codifica una o más señales de objeto de audio, en donde el decodificador comprende: una unidad de control (181) para colocar una indicación de activación en un estado de activación en función de una propiedad de señal de por lo menos uno de las una o más señales de objeto; un primer módulo de análisis (182) para transformar la señal de downmix de manera de obtener un primer downmix transformado que comprende una pluralidad de primeros canales de subbandas, un segundo módulo de análisis (183) para generar, cuando la indicación de activación está colocada en el estado de activación, un segundo downmix transformado mediante la transformación de por lo menos uno de los primeros canales de subbanda para obtener una pluralidad de segundos canales de subbanda, en donde el segundo downmix transformado comprende los primeros canales de subbanda que no han sido transformados por el segundo módulo de análisis y los segundos canales de subbanda, y y una unidad de desmezclado (184), en donde la unidad de desmezclado (184) está configurada para desmezclar el segundo downmix transformado, cuando la indicación de activación está colocada en el estado de activación, en base a la información parametrica lateral sobre la una o más señales de objeto de audio para obtener la señal de salida de audio, y para desmezclar el primer downmix transformado, si la indicación de activación no está colocada en el estado de activación, sobre la base de la información paramétrica lateral sobre la una o más señales de objeto de audio para obtener la señal de salida de audio.

Un decodificador de acuerdo con la reivindicación 1 , en donde la unidad de control (181) está configurada para colocar la indicación de activación en el estado de activación en función de si por lo menos una o más de las señales de objeto de audio comprenden un transitorio que indica un cambio de señal de la por lo menos una de la una o más señales de objeto de audio.

Un decodificador de acuerdo con la reivindicación 1 ó 2, en donde se asigna una indicación de trasformada de subbanda a cada uno de los primeros canales de subbanda, en donde la unidad de control (181) está configurada para colocar la indicación de trasformada de subbanda de cada uno de los primeros canales de subbanda en un estado de trasformada de subbanda en función de la propiedad de señal de por lo menos una de la una o más señales de objeto de audio, y en donde el segundo módulo de análisis (183) está configurada para transformar cada uno de los primeros canales de subbanda, cuya indicación de trasformada de subbanda está colocada en el estado de trasformada de subbanda, para obtener la pluralidad de segundos canales de subbanda, y no transformar cada uno de los segundos canales de subbanda, cuya indicación de trasformada de subbanda no está colocada en el estado de trasformada de subbanda.

4. Un decodificador de acuerdo con una de las reivindicaciones precedentes, en donde el primer módulo de análisis (182) está configurado para transformar la señal de downmix para obtener el primer downmix transformado que comprende la pluralidad de primeros canales de subbanda mediante la utilización de un filtro especular en cuadratura.

5. A decodificador de acuerdo con una de las reivindicaciones precedentes, en donde el primer módulo de análisis (182) está configurado para transformar la señal de downmix en función de una primera longitud de ventana de análisis, en donde la primera longitud de ventana de análisis depende de dicha propiedad de señal, o en donde el segundo módulo de análisis (183) está configurado para generar, cuando la indicación de activación está colocada en el estado de activación, el segundo downmix transformado mediante la transformación del por lo menos uno de los primeros canales de subbanda en función de una segunda longitud de ventana de análisis, en donde la segunda longitud de ventana de análisis depende de dicha propiedad de señal.

Un decodificador de acuerdo con una de las reivindicaciones precedentes, en donde el decodificador está configurado para generar la señal de salida de audio que comprende uno o más canales de salida de audio a partir de la señal de downmix, en donde la señal de downmix codifica dos o más señales de objeto de audio, en donde la unidad de control (181) está configurado para colocar la indicación de activación en el estado de activación en función de la propiedad de señal de por lo menos una de las dos o más señales de objeto de audio, y en donde la unidad de desmezclado (184) está configurada para desmezclar el segundo downmix transformado, cuando la indicación de activación está colocada en el estado de activación, sobre la base de información parametrica lateral sobre la una o más señales de objeto de audio para obtener la señal de salida de audio, y para desmezclar el primer downmix transformado, cuando la indicación de activación no está colocada en el estado de activación, sobre la base de la información paramétrica lateral sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio.

7. Un codificador para codificar una señal de objeto de audio ingresada, en donde el codificador comprende: una unidad de control (191) para colocar una indicación de activación en un estado de activación en función de una propiedad de señal de la señal de objeto de audio ingresada, un primer módulo de análisis (192) para transformar la señal de objeto de audio ingresada para obtener una primera señal de objeto de audio transformada, en donde la primera señal de objeto de audio transformada comprende una pluralidad de primeros canales de subbanda, un segundo módulo de análisis (193) para generar, cuando la indicación de activación está colocada en el estado de activación, una segunda señal de objeto de audio transformada mediante la transformación de por lo menos uno de entre la pluralidad de primeros canales de subbanda para obtener una pluralidad de segundos canales de subbanda, en donde la segunda señal de objeto de audio transformada comprende los primeros canales de subbanda que no han sido transformados por el segundo módulo de análisis y los segundos canales de subbanda, y una unidad de estimación de PSI (194), en donde la unidad de estimación de PSI (194) está configurada para determinar información parametrica lateral sobre la base de la segunda señal de objeto de audio transformada, cuando la indicación de activación está colocada en el estado de activación, y para determinar la información paramétrica lateral sobre la base de la primera señal de objeto de audio transformada, cuando la indicación de activación no está colocada en el estado de activación.

Un codificador de acuerdo con la reivindicación 7, 7, en donde la unidad de control (191) está configurada para colocar la indicación de activación en el estado de activación en función de si la señal de objeto de audio ingresada comprende un transitorio que indica un cambio de señal de la señal de objeto de audio ingresada.

Un codificador de acuerdo con la reivindicación 7 u 8, en donde se asigna una indicación de trasformada de subbanda a cada uno de los primeros canales de subbanda, en donde la unidad de control (191) está configurada para colocar la indicación de trasformada de subbanda de cada uno de los primeros canales de subbanda en un estado de trasformada de subbanda en función de la propiedad de señal de la señal de objeto de audio ingresada, y en donde el segundo módulo de análisis (193) está configurado para transformar cada uno de los primeros canales de subbanda, cuya indicación de trasformada de subbanda está colocada en el estado de trasformada de subbanda, para obtener la pluralidad de segundos canales de subbanda, y para no transformar cada uno de los segundos canales de subbanda, cuya indicación de transformada de subbanda no está colocada en el estado de trasformada de subbanda.

10. Un codificador de acuerdo con una de las reivindicaciones precedentes 7 a 9, en donde el primer módulo de análisis (192) está configurado para transformar cada una de las señales de objeto de audio ingresadas mediante la utilización de un filtro especular en cuadratura.

11. Un codificador de acuerdo con una de las reivindicaciones precedentes 7 a 10, en donde el primer módulo de análisis (192) está configurado para transformar la señal de objeto de audio ingresada en función de una primera longitud de ventana de análisis, en donde la primera longitud de ventana de análisis depende de dicha propiedad de señal, o en donde el segundo módulo de análisis (193) está configurado para generar, cuando la indicación de activación está colocada en el estado de activación, la segunda señal de objeto de audio transformada mediante la transformación de por lo menos un canal de entre la pluralidad de primeros canales de subbanda en función de una segunda longitud de ventana de análisis, en donde la segunda longitud de ventana de análisis depende de dicha propiedad de señal.

Un codificador de acuerdo con una de las reivindicaciones precedentes 7 a 11. en donde el codificador está configurado para codificar la señal de objeto de audio ingresada y por lo menos otra señal más de objeto de audio ingresada, en donde la unidad de control (191) está configurada para colocar la indicación de activación en el estado de activación en función de la propiedad de señal de la señal de objeto de audio ingresada y en función de una propiedad de señal de la por lo menos otra señal más de de objeto de audio ingresada, en donde el primer módulo de análisis (192) está configurado para transformar por lo menos otra señal más de objeto de audio ingresada para obtener por lo menos otra primera señal de objeto de audio transformada, en donde cada una de la por lo menos otra primera señal más de objeto de audio transformada comprende una pluralidad de primeros canales de subbanda, en donde el segundo módulo de análisis (193) está configurado para transformar, cuando la indicación de activación está colocada en el estado de activación, por lo menos un canal de entre la pluralidad de primeros canales de subbanda de por lo menos otra de primeras señales transformadas de objeto de audio para obtener una pluralidad de otros primeros canales de subbanda, y en donde la unidad de estimación de PSI (194) está configurada para determinar la información parametrica lateral sobre la base de la pluralidad de otros segundos canales de subbanda, cuando la indicación de activación está colocada en el estado de activación.

13. Un método para decodificar mediante la generación de una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de downmix, en donde la señal de downmix codifica dos o más señales de objeto de audio, en donde el método comprende: colocar una indicación de activación en un estado de activación en función de una propiedad deseada de por lo menos una de las dos o más señales de objeto de audio, transformar la señal de downmix para obtener un primer downmix transformado que comprende una pluralidad de primeros canales de subbanda, generar, cuando la indicación de activación está colocada en el estado de activación, un segundo downmix transformado mediante la transformación de por lo menos uno de los primeros canales de subbanda para obtener una pluralidad de segundos canales de subbanda, en donde el segundo downmix transformado comprende los primeros canales de subbanda que no han sido transformados por el segundo módulo de análisis y los segundos canales de subbanda, y desmezclar el segundo downmix transformado, cuando la indicación de activación está colocada en el estado de activación, sobre la base de información parametrica lateral sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio, y desmezclar el primer downmix transformado, cuando la indicación de activación no está colocada en el estado de activación, sobre la base de la información paramétrica lateral sobre los dos o más señales de objeto de audio para obtener la señal de salida de audio.

14. Un método para codificar dos o más señales de objeto de audio ingresadas, en donde el método comprende: colocar una indicación de activación en un estado de activación en función de una propiedad de señal de por lo menos una de las dos o más señales de objeto de audio ingresadas, transformar cada una de las señales de objeto de audio ingresadas para obtener una primera señal de objeto de audio transformada de dicha señal de objeto de audio ingresada, en donde dicha primera señal de objeto de audio transformada comprende una pluralidad de primeros canales de subbanda, generar para cada una de las señales de objeto de audio ingresadas, cuando la indicación de activación está colocada en el estado de activación, una segunda señal de objeto de audio transformada mediante la transformación de por lo menos uno de los primeros canales de subbanda de la primera señal de objeto de audio transformada de dicha señal de objeto de audio ingresada para obtener una pluralidad de segundos canales de subbanda, en donde dicho segundo downmix transformado comprende dichos primeros canales de subbanda que no han sido transformados por el segundo módulo de análisis y dichos segundos canales de subbanda, y determinar información paramétrica lateral sobre la base de la segunda señal de objeto de audio transformada de cada una de las señales de objeto de audio ingresadas, cuando la indicación de activación está colocada en el estado de activación, y determinar información paramétrica lateral sobre la base de la primera señal de objeto de audio transformada de cada una de las señales de objeto de audio ingresadas, cuando la indicación de activación no está colocada en el estado de activación.

15. Un programa de computadora para implementar el método de acuerdo con la reivindicación 13 ó 14 cuando se lo ejecuta en una computadora o en un procesador de señales. RESUMEN Se provee un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de downmix que comprende una pluralidad de muestras de downmix en el dominio del tiempo. La señal de downmix codifica dos o más señales de objeto de audio. El decodificador comprende un generador de secuencias de ventana (134) para determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de downmix en el dominio del tiempo de la señal de downmix. Cada ventana de análisis de la pluralidad de ventanas de análisis tiene una longitud de ventana que indica la cantidad de las muestras de downmix en el dominio del tiempo de dicha ventana de análisis. El generador de secuencias de ventana (134) está configurado para determinar la pluralidad de ventanas de análisis de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales de objeto de audio. Además, el decodificador comprende un módulo de análisis t/f (135) para transformar la pluralidad de muestras de downmix en el dominio del tiempo de cada ventana de análisis de la pluralidad de ventanas de análisis desde un dominio del tiempo a un dominio de tiempo-frecuencia en función de la longitud de ventana de dicha ventana de análisis, para obtener un downmix transformado. Por otra parte, el decodificador comprende una unidad de desmezclado (136) para desmezclar el downmix transformado en base a información parametrica lateral sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio. Además, se provee un codificador.