MX2015004018A - Codificador, decodificador y metodos para la adaptacion dinamica inversa compatible de la resolucion en tiempo/frecuencia en la codificacion espacial de objetos de audio. - Google Patents
Codificador, decodificador y metodos para la adaptacion dinamica inversa compatible de la resolucion en tiempo/frecuencia en la codificacion espacial de objetos de audio.Info
- Publication number
- MX2015004018A MX2015004018A MX2015004018A MX2015004018A MX2015004018A MX 2015004018 A MX2015004018 A MX 2015004018A MX 2015004018 A MX2015004018 A MX 2015004018A MX 2015004018 A MX2015004018 A MX 2015004018A MX 2015004018 A MX2015004018 A MX 2015004018A
- Authority
- MX
- Mexico
- Prior art keywords
- analysis
- window
- samples
- signal
- downmix
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 59
- 238000004458 analytical method Methods 0.000 claims abstract description 457
- 230000001131 transforming effect Effects 0.000 claims abstract description 40
- 230000001052 transient effect Effects 0.000 claims description 103
- 230000008859 change Effects 0.000 claims description 28
- 238000001514 detection method Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 10
- 238000002156 mixing Methods 0.000 abstract description 3
- 230000004913 activation Effects 0.000 description 74
- 230000006870 function Effects 0.000 description 40
- 239000011159 matrix material Substances 0.000 description 29
- 230000003595 spectral effect Effects 0.000 description 26
- 230000005236 sound signal Effects 0.000 description 25
- 238000001228 spectrum Methods 0.000 description 20
- 230000002123 temporal effect Effects 0.000 description 19
- 238000012545 processing Methods 0.000 description 14
- 238000000926 separation method Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 230000006978 adaptation Effects 0.000 description 8
- 238000013459 approach Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 8
- 238000001914 filtration Methods 0.000 description 8
- 238000009877 rendering Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000002441 reversible effect Effects 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 6
- 230000008447 perception Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 241000272522 Anas Species 0.000 description 2
- 101100180304 Arabidopsis thaliana ISS1 gene Proteins 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 2
- 101100519257 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PDR17 gene Proteins 0.000 description 2
- 101100042407 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SFB2 gene Proteins 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 125000001475 halogen functional group Chemical group 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000010287 polarization Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 208000037271 Cystoid macular dystrophy Diseases 0.000 description 1
- -1 ISS2 Proteins 0.000 description 1
- 101150048484 Nrgn gene Proteins 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 101100356268 Schizosaccharomyces pombe (strain 972 / ATCC 24843) red1 gene Proteins 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 201000010206 cystoid macular edema Diseases 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
Abstract
Se provee un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de downmix que comprende una pluralidad de muestras de downmix en el dominio deI tiempo. La señal de downmix codifica dos o más señales de objeto de audio. El decodificador comprende un generador de secuencias de ventana (134) para determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de downmix en el dominio del tiempo de la señal de downmix. Cada ventana de análisis de la pluralidad de ventanas de análisis tiene una longitud de ventana que indica la cantidad de las muestras de downmix en el dominio del tiempo de dicha ventana de análisis. El generador de secuencias de ventana (134) está configurado para determinar la pluralidad de ventanas de análisis de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales de objeto de audio. Además, el decodificador comprende un módulo de análisis t/f (135) para transformar la pluralidad de muestras de downmix en el dominio del tiempo de cada ventana de análisis de la pluralidad de ventanas de análisis desde un dominio del tiempo a un dominio de tiempo-frecuencia en función de la longitud de ventana de dicha ventana de análisis, para obtener un downmix transformado. Por otra parte, el decodificador comprende una unidad de desmezclado (136) para desmezclar el downmix transformado en base a información paramétrica lateral sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio. Además, se provee un codificador.
Description
CODIFICADOR. DECODIFICADOR Y MÉTODOS PARA LA ADAPTACIÓN
DINÁMICA INVERSA COMPATIBLE DE LA RESOLUCIÓN EN TIEMPO/FRECUENCIA EN LA CODIFICACIÓN ESPACIAL DE OBJETOS DE
AUDIO
Descripción
La presente invención se refiere a la codificación de señales de audio, la decodificación de señales de audio y al procesamiento de señales de audio, y, en particular, a un codificador, a un decodificador y a metodos para la adaptación dinámica inversa compatible de la resolución en tiempo/frecuencia en la codificación espacial-de audio-de objeto (SAOC, spatial-audio-objeto-coding)
En los sistemas de audio digital modernos, es una tendencia importante permitir modificaciones relacionadas con audio-objeto en cuanto al contenido transmitido en el lado del receptor. Estas modificaciones incluyen modificaciones de ganancia de partes seleccionadas de la señal de audio y/o el reposicionamiento espacial de los objetos de audio dedicados en el caso de la reproducción de múltiples canales por intermedio de altavoces distribuidos espacialmente. Esto puede lograrse mediante la entrega de forma individual de diferentes partes del contenido de audio a los diferentes altavoces. En otras palabras, en la téenica del procesamiento de audio, de la transmisión de audio, y del almacenamiento de audio, existe un creciente deseo de permitir la interacción del usuario en la reproducción de contenido de audio orientado a objeto y también una demanda para utilizar las posibilidades ampliadas de la reproducción de múltiples canales a
efectos de renderizar individualmente los contenidos de audio o partes de los mismos con el fin de mejorar la impresión de la audición. De esta manera el uso del contenido de audio multi-canal aporta significativas mejoras para el usuario. Por ejemplo, es posible obtener una impresión de audición tridimensional, lo que trae consigo una mejora de la satisfacción del usuario en aplicaciones de entretenimiento. Sin embargo, el contenido de audio multi-canal tambien es útil en entornos profesionales, por ejemplo, en aplicaciones de conferencias telefónicas, ya que es posible mejorar la comprensión del hablante mediante el uso de una reproducción de audio de múltiples canales. Otra aplicación posible consiste en ofrecer a un oyente de una pieza musical el ajuste individual del nivel de reproducción y/o la posición espacial de diferentes partes (también denominados "objetos de audio") o pistas, tales como una parte vocal o diferentes instrumentos. El usuario puede realizar este ajuste por razones de gusto personal, para facilitar la transcripción de una o más partes de la pieza musical, con fines educativos, karaoke, ensayo, etc.
La transmisión discreta sencilla de todos el contenido de audio digital de múltiples canales o de múltiples objetos, por ejemplo, en forma de datos de PCM (pulse code modulation, modulación por impulsos codificados) o aun de formatos de audio comprimidos, requiere velocidades o caudales de bits (bitrates) muy elevadas. Sin embargo, también es deseable transmitir y almacenar datos de audio de una manera eficiente en cuanto a la velocidad de bits. Por ello existe la predisposición de aceptar una solución de compromiso razonable entre la calidad
de audio y los requisitos en cuanto a velocidad de bits con el fin de evitar una carga excesiva sobre los recursos causada por aplicaciones de multicanal/multiobjeto.
Recientemente, en el campo de la codificación de audio, teenicas paramétricas para la transmisión/ almacenamiento eficiente desde el punto de vista de la velocidad de bits para señales de audio multicanal/multiaudio han sido introducidos mediante, por ejemplo, el MPEG (Moving Picture Experts Group, Grupo de Expertos de Imágenes en Movimiento). Un ejemplo es el MPS (MPEG Surround ) a título de enfoque orientado a los canales [MPS, BCC], o el SAOC (Spatial Audio Objeto Coding, Codificación de Objetos orientado a audio espacial) a título de enfoque orientado a objeto [JSC, SAOC, SAOC1 , SAOC2] Otro enfoque orientado a objeto lleva la denominación de “informed source separation (separación de fuente informada)” [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]. Estas técnicas apuntan a reconstruir una escena de audio con una salida deseada o un objeto de fuente de audio deseado sobre la base de un downmix de canales/objetos e información lateral adicional que describe la escena de audio transmitida/almacenada y/o los objetivos de fuente de audio en la escena de audio.
La estimación y la aplicación de información lateral relaciona da con canal/objeto en tales sistemas se realiza de manera selectiva en tiempo-frecuencia. Por lo tanto, tales sistemas emplean trasformadas de tiempo-frecuencia tales como la transformada discreta de Fourier (DFT, Discrete Fourier
Transform), la Transformada de Fourier de Tiempo Corto (STFT, Short Time Fourier Transform) o bancos de filtros tales como bancos QMF (Quadrature Mirror Filter, Filtro de espejo en Cuadratura), etc. El principio básico de estos sistemas se representa en la Figura 3, mediante el ejemplo de MPEG SAOC.
En el caso de STFT, la dimensión temporal está representada por la cantidad de bloque de tiempo y la dimensión espectral es capturada por el número de coeficientes espectrales ("bin"). En el caso de la QMF, la dimensión temporal está representada por la cantidad de ranura de tiempo y la dimensión espectral es capturada por la cantidad de subbanda. Si la resolución espectral de la QMF se mejora mediante la posterior aplicación de una segunda etapa de filtro, todo el banco de filtros lleva la denominación de QMF híbrido y las subbandas de resolución llevan la denominación de subbandas híbridas.
Como ya se ha mencionado en lo que precede, en SAOC se lleva a cabo el procesamiento general de una manera selectiva en tiempo-frecuencia y puede ser descrito de la siguiente manera dentro de cada banda de frecuencia, como se representa en la Figura 3:
- N señales de objeto de audio de entrada Si ... sN son sometidos a downmixing en P canales Xi ... xP como parte del procesamiento de codificador para lo cual se utiliza una matriz de downmix consistente en los elementos di 1 ... dNP. Además, el codificador extrae información lateral que describe las características de los objetos de audio ingresados (módulo de SIE (side-information-estimator, estimador de información lateral). Para el
MPEG SAOC, las relaciones de las potencias de objeto entre sí son la forma más básica de dicha información lateral.
- La(s) señal(es) de downmix y la información lateral son transmitidas/almacenadas. A tal efecto, la o las señales de audio de downmix pueden ser comprimidas, por ejemplo, mediante la utilización de codificadores de audio perceptuales bien conocidos tales como MPEG-1/2 Capa II o III (también conocido como .mp3), MPEG-2/4 AAC (Advanced Audio Coding, Codificación Avanzada de Audio), etc.
- En el extremo receptor, el decodificador intenta conceptualmente restaurar las señales objeto originales (“separación de objetos”) a partir de las señales de downmix (decodificadas) mediante el uso de la información lateral transmitida. Las señales objeto aproximadas §1 ... §N son seguidamente mezcladas en forma de una escena apuntada representada por M canales de salida de audio y? ... ya para lo cual se utiliza una matriz de renderización descrita por los coeficientes r1 1 ... rN M en la Figura 3. La escena objeto deseada puede ser, en el caso extremo, la renderización de solamente una señal fuente fuera de la mezcla (escenario de separación de fuente), pero también cualquier otra escena acústica arbitraria consistente en los objetivos transmitidos. Por ejemplo, la salida puede ser un canal simple, un estéreo de canales o una escena apuntada multicanal 5.1.
Los sistemas basados en tiempo-frecuencia pueden utilizar una transformada de tiempo-frecuencia (t/f) con resolución estática de tiempo y
frecuencia. La elección de una dada grilla resolución t/f fija típicamente implica un compromiso entre resolución de tiempo y de frecuencia.
El efecto de una -resolución t/f fija se puede demostrar con el ejemplo de señales de objeto típicas en una mezcla de señales de audio. Por ejemplo, los espectros de sonidos tonales presentan una estructura armónicamente relacionada con una frecuencia fundamental y varios matices. La energía de tales señales se concentra en determinadas regiones de frecuencia. Para este tipo de señales, una resolución de alta frecuencia de la representación de t/f utilizada es beneficiosa para la separación de las regiones espectrales tonales de banda estrecha a partir de una mezcla de señales. En cambio, las señales transitorias, tales como los sonidos de percusión, frecuentemente tienen una estructura temporal distinta: la energía sustancial se halla presente solamente durante cortos períodos de tiempo y se extiende sobre una amplia gama de frecuencias. Para estas señales, una elevada resolución temporal de la representación de t/f utilizada es ventajosa para separar la porción de señal transitoria de la mezcla de señales.
Los esquemas de codificación de objetos de audio actuales ofrecen solamente una limitada variabilidad del procesamiento por SAOC. Por ejemplo, el MPEG SAOC [SAOC] [SAOC1] [SAOC2] está limitado a la resolución en tiempo-frecuencia que puede obtenerse mediante el uso del denominado Hybrid-QMF (Hybrid Quadrature Mirror Filter Bank, Banco de Filtros Espejo de Cuadratura Híbrido) y su subsiguiente agrupación en bandas paramétricas. Por ello, la
restauración de los objetos en SAOC estándar (MPEG SAOC, estandarizado en [SAOC]) frecuentemente adolece de una resolución grosera de la frecuencia del Hybrid-QMF lo que conduce a una diafonía audible modulada debida a los otros objetos de audio (por ejemplo, artefactos de diafonía en artefactos groseros en el habla o auditivos en música).
Los esquemas de codificación de objetos de audio, tales como el BCC (Binaural Cue Coding, codificación de Cue binaural) y las fuentes de JSC (Parametric Joint-Coding of Audio Sources, Codificación parametrica conjunta) también se limitan al uso de un banco de filtros de resolución fija. La elección real de un banco de filtros de resolución fija o transformación siempre implica un compromiso predefinido en términos de carácter óptimo entre las propiedades temporales y espectrales del esquema de codificación.
En el campo de la separación de fuente informada (ISS, ), informed source separation) se ha sugerido adaptar dinámicamente la longitud de la transformada de tiempo frecuencia a las propiedades de la señal [ISS7] como es bien conocido a partir de los esquemas de codificación de audio perceptuales, por ejemplo, AAC (Advanced Audio Coding) [AAC]
El objeto de la presente invención es el de proveer conceptos mejorados para la codificación de objetos de audio. El objeto de la presente invención se logra mediante un decodificador de acuerdo con la reivindicación 1 , mediante un decodificador de acuerdo con la reivindicación 5, mediante un codificador de acuerdo con la reivindicación 6, mediante un codificador según la reivindicación
12, mediante un metodo para la decodificación de acuerdo con la reivindicación
13, mediante un método para la codificación de acuerdo con la reivindicación 14, mediante un método para la decodificación de acuerdo con la reivindicación 15, mediante un método para la codificación de acuerdo con la reivindicación 16 y mediante un programa de computadora de acuerdo con la reivindicación 17.
A diferencia del SAOC del estado de la téenica, se proveen formas de realización para adaptar dinámicamente la resolución de tiempo-frecuencia a la señal de una manera compatible en dirección inversa, de manera tal que
- las corrientes de bits de parámetro SAOC originadas desde un codificador SAOC estándar (MPEG SAOC, estandardizado en [SAOC]) todavía puedan ser decodificadas por un decodificador reforzado con una calidad de la percepción comparable con la obtenida mediante un decodificador estándar,
- las corrientes de bits de SAOC reforzadas pueden ser decodificadas con una calidad óptima con el decodificador reforzado; y
- las corrientes de bits de SAOC estándar y reforzadas pueden ser mezcladas, por ejemplo, en un escenario MCU (multi-point unidad de control, unidad de control de múltiples puntos), en forma de una corriente de bits en común que puede ser decodificada con un decodificador estándar o con un decodificador reforzado.
Para las propiedades mencionadas anteriormente, es útil para proveer una representación de banco de filtros en común/transformada que se pueda adaptar
dinámicamente en resolución de tiempo-frecuencia para sea soportar la decodificación de los novedosos datos de SAOC reforzados y al mismo tiempo, el mapeo inverso compatible de los datos de SAOC tradicionales estándar. La fusión de datos mejorados de SAOC con datos SAOC estándar es posible mediante una representación en común de este tipo.
Es posible obtener una calidad mejorada de la calidad de percepción de SAOC mediante la adaptación dinámica de la resolución en tiempo-frecuencia del banco de filtros o transformada que se emplea para estimación o que se utiliza para sintetizar las señales de los objetos de audio a las propiedades específicas del objeto de audio de entrada. Por ejemplo, si el objeto de audio es casi estacionario durante un cierto intervalo de tiempo, la estimación de los parámetros y la síntesis se llevan a cabo ventajosamente en una resolución grosera de tiempo gruesa y una resolución fina de la frecuencia. Si el objeto de audio contiene transitorios o no estacionarios durante un cierto intervalo de tiempo, la estimación de los parámetros y la síntesis se realizan de manera ventajosa con una resolución fina en tiempo fina y una resolución grosera en frecuencia. De este modo, la adaptación dinámica del banco de filtros o de transformada permite:
una elevada selectividad de la frecuencia en la separación espectral de las señales casi estacionarias a efectos de evitar la diafonía entre objetos, y una elevada precisión temporal para iniciaciones de objeto o para eventos transitorios a efectos de minimizar pre- y poseeos.
Al mismo tiempo, es posible obtener una la calidad SAOC tradicional mediante el mapeo de datos de SAOC estándar en la grilla de tiempo-frecuencia provista por transformada adaptativa de señales compatible inversamente de acuerdo con la invención que depende de información lateral que describe las características de la señal de objeto.
Tener la capacidad de decodificar tanto datos SAOC estándar como datos SAOC reforzados utilizando una transformación en común permite la compatibilidad directa inversa para aplicaciones que abarcan el mezclado de datos de SAOC estándar y mejorados.
Se provee un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de downmix que comprende una pluralidad de muestras de downmix en el dominio del tiempo. La señal de downmix codifica dos o más señales de objetos de audio.
El decodificador comprende un generador de secuencias de ventana para determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de downmix en el dominio del tiempo de la señal de downmix. Cada ventana de análisis de la pluralidad de ventanas de análisis tiene una longitud de ventana que designa la cantidad de las muestras de downmix en el dominio del tiempo de dicha ventana de análisis. El generador de secuencias de ventana está configurado para determinar la pluralidad de ventanas de análisis de modo que la longitud de la
ventana de cada una de las ventanas de análisis depende de una propiedad de señal de al menos una de las dos o más señales de objetos de audio.
Por otra parte, el decodificador comprende un módulo de análisis de t/f para transformar la pluralidad de muestras de downmix en el dominio del tiempo de cada ventana de análisis de la pluralidad de ventanas de análisis a partir de un dominio del tiempo a un dominio de tiempo-frecuencia en función de la longitud de la ventana de dicha ventana de análisis, de manera de obtener un downmix transformado.
Además, el decodificador comprende una unidad de desmezclado para desmezclar el downmix transformado en base a información lateral parametrica sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio.
De acuerdo con una forma de realización, el generador de secuencias de ventanas puede estar configurado para determinar la pluralidad de ventanas de análisis, de manera tal que un transitorio, que designa un cambio de señal de por lo menos uno de los dos o más señal de objeto de audio que se están codificando por medio de la señal de downmix, se halle comprendida por una primera ventana de análisis de la pluralidad de ventanas de análisis, en donde un centro ck de la primera ventana de análisis está definida por una ubicación t del transitorio de acuerdo con c = t - lb, y un centro ck+-\ de la primera ventana de análisis está definido por la ubicación t del transitorio de acuerdo con ck +1 = t + la, en donde la e lb son números.
En una forma de realización, el generador de secuencias de ventanas puede estar configurado para determinar la pluralidad de ventanas de análisis, de manera tal que un transitorio, que designa un cambio de señal de por lo menos uno de los dos o más señal de objeto de audio que se están codificando mediante la señal de downmix, se halle comprendida por una primera ventana de análisis de la pluralidad de ventanas de análisis, en donde un centro Ck de la primera ventana de análisis está definido por una ubicación t del transitorio de acuerdo con ck = t, en donde un centro Ck-\ de una segunda ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio de acuerdo con C - 1 = t - Ib, y en donde un centro C + -\ de una tercera ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio de acuerdo con Ck+ 1 = t + la, en donde la y Ib son números.
De acuerdo con una forma de realización, el generador de secuencias de ventanas puede estar configurado para determinar la pluralidad de ventanas de análisis, de manera tal que cada una de entre la pluralidad de ventanas de análisis sea comprende una primera cantidad de muestras de señales en el dominio del tiempo sea una segunda cantidad de muestras de señales en el dominio del tiempo, en donde la segunda cantidad de muestras de señales en el dominio del tiempo es mayor que la primera cantidad de muestras de señales en el dominio del tiempo, y en donde cada una de las ventanas de análisis de la pluralidad de ventanas de análisis comprende la primera cantidad de muestras de señales en el dominio del tiempo cuando dicha ventana de análisis comprende un transitorio,
que designa un cambio de señal de por lo menos uno de los dos o más señales de objeto de audio que se están codificando por medio de la señal de downmix.
En una forma de realización, el módulo de análisis de t/f puede estar configurado para transformar las muestras de downmix en el dominio del tiempo de cada una de las ventanas de análisis desde un dominio de tiempo a un dominio de tiempo-frecuencia mediante el empleo de un banco de filtros de QMF y de un banco de filtros de Nyquist, en donde la unidad de análisis de t/f (135) está configurada para transformar la pluralidad de muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis.
Además, se provee un codificador para codificar dos o más señales ingresadas de objeto de audio. Cada una de las dos o más señales ingresadas de objeto de audio comprende una pluralidad de muestras de señales en el dominio del tiempo. El codificador comprende una unidad de secuencias de ventana para determinar una pluralidad de ventanas de análisis. Cada una de las ventanas de análisis comprende una pluralidad de las muestras de señales en el dominio del tiempo de una de las señales ingresadas de objeto de audio, en donde cada una de las ventanas de análisis tiene una longitud de ventana que indica la cantidad de muestras de señales en el dominio del tiempo de dicha ventana de análisis. La unidad de secuencias de ventana está configurada para determinar la pluralidad de ventanas de análisis de manera tal que la longitud de ventana de cada una de
las ventanas de análisis dependa de una propiedad de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio.
Además, el codificador comprende una unidad de análisis de t/f para transformar las muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis a partir de un dominio del tiempo a un dominio de tiempo-frecuencia de manera de obtener muestras de señales transformadas. La unidad de análisis de t/f puede estar configurada para transformar la pluralidad de muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis.
Por otra parte, el codificador comprende una unidad para la estimación de
PSI para determinar información lateral paramétrica en función de las muestras de señales transformadas.
En una forma de realización, el codificador puede además comprender una unidad para la detección de transitorios que está configurada para determinar una pluralidad de diferencias de nivel de objeto de las dos o más señales ingresadas de objeto de audio, y que está configurada para determinar, si una diferencia entre una primera de las diferencias de nivel de objeto y una segunda de las diferencias de nivel de objeto es mayor que un valor umbral, para determinar para cada una de las ventanas de análisis, si dicha ventana de análisis comprende un transitorio, lo que designa un cambio de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio.
De acuerdo con una forma de realización, la unidad de detección de transitorios puede estar configurada para utilizar una función de detección d(n) para determinar si la diferencia entre una primera de las diferencias de nivel de objeto y la segunda de las diferencias de nivel de objeto es mayor que el valor umbral, en donde la función de detección d(n) se define como sigue:
d(n) = å | \og{OL D J (b, n - 1)) - log(0¿Z>, , «))|
ij
en donde n designa un índice, en donde i designa un primer objeto, en donde j designa un segundo objeto, en donde b designa una banda parametrica. OLD puede, por ejemplo, indicar una diferencia de nivel de objeto.
En una forma de realización, la unidad de secuencias de ventana puede estar configurada para determinar la pluralidad de ventanas de análisis, de manera tal que un transitorio, que indica un cambio de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio, está comprendida por una primera ventana de análisis de la pluralidad de ventanas de análisis y por una segunda ventana de análisis de la pluralidad de ventanas de análisis, en donde un centro ck de la primera ventana de análisis está definido por una ubicación t del transitorio de acuerdo con ck = t - , y un centro ck+ 1 de la primera ventana de análisis está definido por la ubicación t del transitorio de acuerdo con ck+-\ = t + la, en donde la y Ib son números.
De acuerdo con una forma de realización, la unidad de secuencias de ventana puede estar configurado para determinar la pluralidad de ventanas de
análisis, de manera tal que un transitorio, que indica un cambio de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio, está comprendido por una primera ventana de análisis de la pluralidad de ventanas de análisis, en donde un centro ck de la primera ventana de análisis está definido por una ubicación t del transitorio de acuerdo con ck = t, en donde un centro ck- 1 de una segunda ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio de acuerdo con ck- 1 = t - lb, y en donde un centro cfc+1 de una tercera ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio de acuerdo con ck+ 1 = t + la , en donde la y lb son números.
En una forma de realización, la unidad de secuencias de ventana puede estar configurada para determinar la pluralidad de ventanas de análisis, de manera tal que cada una de la pluralidad de ventanas de análisis sea comprende una primera cantidad de muestras de señales en el dominio del tiempo o una segunda cantidad de muestras de señales en el dominio del tiempo, en donde la segunda cantidad de muestras de señales en el dominio del tiempo es mayor que la primera cantidad de muestras de señales en el dominio del tiempo, y en donde cada una de las ventanas de análisis de la pluralidad de ventanas de análisis comprende la primera cantidad de muestras de señales en el dominio del tiempo cuando dicha ventana de análisis comprende un transitorio, que indica un cambio de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio.
De acuerdo con una forma de realización, la unidad de análisis de t/f puede estar configurada para transformar las muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis desde un dominio del tiempo a un dominio de tiempo-frecuencia mediante la utilización de un banco de filtros de QMF y de un banco de filtros de Nyquist, en donde la unidad de análisis de t/f puede estar configurada para transformar la pluralidad de muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis.
Además, se provee un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de downmix que comprende una pluralidad de muestras de downmix en el dominio del tiempo. La señal de downmix codifica dos o más señales de objeto de audio. El decodificador comprende un primer submódulo de análisis para transformar la pluralidad de muestras de downmix en el dominio del tiempo a efectos de obtener una pluralidad de subbandas que comprende una pluralidad de muestras de subbandas. Además, el decodificador comprende un generador de secuencias de ventanas para determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de subbandas de una de entre la pluralidad de subbandas, en donde cada ventana de análisis de la pluralidad de ventanas de análisis tiene una longitud de ventana que indica la cantidad de muestras de subbandas de dicha ventana de análisis, en donde el generador de secuencias de ventanas está configurado para determinar
la pluralidad de ventanas de análisis de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales de objeto de audio. Por otra parte, el decodificador comprende u segundo módulo de análisis para transformar la pluralidad de muestras de subbandas de cada ventana de análisis de la pluralidad de ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis a efectos de obtener una matriz transformada. Por otra parte, el decodificador comprende una unidad de desmezclado para desmezclar el downmix transformado en base a información lateral parametrica sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio.
Por otra parte, se provee un codificador para codificar dos o más señales ingresadas de objeto de audio. Cada una de las dos o más señales ingresadas de objeto de audio comprende una pluralidad de muestras de señales en el dominio del tiempo. El codificador comprende un primer submódulo de análisis para transformar la pluralidad de muestras de señales en el dominio del tiempo de manera de obtener una pluralidad de subbandas que comprende una pluralidad de muestras de subbandas. Además, el codificador comprende una unidad de secuencias de ventana para determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de subbandas de una de entre la pluralidad de subbandas, en donde cada una de las ventanas de análisis tiene una longitud de ventana que indica la cantidad de muestras de subbandas de dicha ventana de análisis, en donde la
unidad de secuencias de ventana está configurada para determinar la pluralidad de ventanas de análisis de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio. Por otra parte, el codificador comprende un módulo de análisis para transformar la pluralidad de muestras de subbandas de cada ventana de análisis de la pluralidad de ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis para obtener muestras de señal transformadas. Además, el codificador comprende una unidad para estimar PSI para determinar información lateral paramétrica en función de las muestras de señal transformadas.
Además, se provee un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de downmix. La señal de downmix codifica una o más señales de objeto de audio. El decodificador comprende una unidad de control para establecer una indicación de activación a un estado de activación en función de una propiedad de señal de por lo menos una de las una o más señales de objeto de audio. Además, el decodificador comprende un primer módulo de análisis para transformar la señal de downmix de manera de obtener un primer downmix transformado que comprende una pluralidad de primeros canales de subbandas. Por otra parte, el decodificador comprende un segundo módulo de análisis para generar, cuando la indicación de activación está colocada en el estado de activación, un segundo downmix transformado para lo cual se transforma por lo menos uno de los
primeros canales de subbandas de manera de obtener una pluralidad de segundos canales de subbandas, en donde el segundo downmix transformado comprende los primeros canales de subbandas que no ha sido transformados por el segundo módulo de análisis y los segundos canales de subbandas. Además, el decodificador comprende una unidad de desmezclado, en donde la unidad de desmezclado está configurada para desmezclar el segundo downmix transformado, cuando la indicación de activación está colocada en el estado de activación, en base a información parametrica lateral sobre la una o más señales de objeto de audio de manera de obtener la señal de salida de audio, y para desmezclar el primer downmix transformado, cuando la indicación de activación no está colocada en el estado de activación, en base a la información paramétrica lateral sobre la una o más señales de objeto de audio de manera de obtener la señal de salida de audio.
Por otra parte, se provee un codificador para codificar una señal ingresada de objeto de audio. El codificador comprende una unidad de control para establecer una indicación de activación a un estado de activación en función de una propiedad de señal de la señal ingresada de objeto de audio. Además, el codificador comprende un primer módulo de análisis para transformar la señal ingresada de objeto de audio a efectos de obtener una primera señal transformada de objeto de audio, en donde la primera señal transformada de objeto de audio comprende una pluralidad de primeros canales de subbandas. Por otra parte, el codificador comprende un segundo módulo de análisis para generar, cuando la
indicación de activación está colocada en el estado de activación, una segunda señal transformada de objeto de audio por medio de la transformación de por lo menos uno de entre la pluralidad de primeros canales de subbandas de manera de obtener una pluralidad de segundos canales de subbandas, en donde la segunda señal transformada de objeto de audio comprende los primeros canales de subbandas que no han sido transformados por el segundo módulo de análisis y los segundos canales de subbandas. Además, el codificador comprende una unidad de estimación de PSI, en donde la unidad de estimación de PSI está configurada para determinar información parametrica información lateral en base a la segunda señal transformada de señal de objeto de audio, cuando la indicación de activación está colocada en el estado de activación, y para determinar la información paramétrica lateral en base a la primera señal transformada de objeto de audio, cuando la indicación de activación no está colocada en el estado de activación.
Además, se provee un método de decodificación para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de downmix que comprende una pluralidad de muestras de downmix en el dominio del tiempo. La señal de downmix codifica dos o más señales de objeto de audio. El método comprende:
determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de downmix en el dominio del tiempo de la señal de downmix, en donde cada ventana de análisis de
la pluralidad de ventanas de análisis tiene una longitud de ventana que indica la cantidad de muestras de downmix en el dominio del tiempo de dicha ventana de análisis, en donde la determinación de la pluralidad de ventanas de análisis se lleva a cabo de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales de objeto de audio;
transformar la pluralidad de muestras de downmix en el dominio del tiempo de cada ventana de análisis de la pluralidad de ventanas de análisis desde un dominio del tiempo a un dominio de tiempo-frecuencia en función de la longitud de ventana de dicha ventana de análisis, a efectos de obtener un downmix transformado, y
desmezclar el downmix transformado en base a información parametrica lateral sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio.
Por otra parte, se provee un método para codificar dos o más señales ingresadas de objeto de audio. Cada una de las dos o más señales ingresadas de objeto de audio comprende una pluralidad de muestras de señales en el dominio del tiempo. El método comprende:
determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de las muestras de señales en el dominio del tiempo de una de las señales ingresadas de objeto de audio, en donde cada una de las ventanas de análisis tiene una longitud de ventana que
indica la cantidad de muestras de señales en el dominio del tiempo de dicha ventana de análisis, en donde la determinación de la pluralidad de ventanas de análisis se lleva a cabo de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio;
transformar las muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis desde un dominio del tiempo a un dominio de tiempo-frecuencia para obtener muestras de señales transformadas, en donde la transformación de la pluralidad de muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis depende de la longitud de ventana de dicha ventana de análisis. Y:
determinar información paramétrica lateral en función de las muestras de señales transformadas.
Además, se provee un método para decodificar mediante la generación de una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de downmix que comprende una pluralidad de muestras de downmix en el dominio del tiempo, en donde la señal de downmix codifica dos o más señales de objeto de audio. El método comprende:
Transformar la pluralidad de muestras de downmix en el dominio del tiempo para obtener una pluralidad de subbandas que comprende una pluralidad de muestras de subbandas;
determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de subbandas de una de entre la pluralidad de subbandas, en donde cada ventana de análisis de la pluralidad de ventanas de análisis tiene una longitud de ventana que indica la cantidad de muestras de subbandas de dicha ventana de análisis, en donde la determinación de la pluralidad de ventanas de análisis se lleva a cabo de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales de objeto de audio;
transformar la pluralidad de muestras de subbandas de cada ventana de análisis de la pluralidad de ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis para obtener un downmix transformado. Y: desmezclar el downmix transformado en base a información parametrica lateral sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio.
Por otra parte, se provee un método para codificar dos o más señales ingresadas de objeto de audio, en donde cada una de las dos o más señales ingresadas de objeto de audio comprende una pluralidad de muestras de señales en el dominio del tiempo. El método comprende:
transformar la pluralidad de muestras de señales en el dominio del tiempo para obtener una pluralidad de subbandas que comprende una pluralidad de muestras de subbandas;
determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de subbandas de una de entre la pluralidad de subbandas, en donde cada una de las ventanas de análisis tiene una longitud de ventana que indica la cantidad de muestras de subbandas de dicha ventana de análisis, en donde la determinación de la pluralidad de ventanas de análisis se lleva a cabo de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio;
transformar la pluralidad de muestras de subbandas de cada ventana de análisis de la pluralidad de ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis para obtener muestras de señales transformadas. Y:
determinar información paramétrica lateral en función de las muestras de señales transformadas.
Además, se provee un método para decodificar mediante la generación de una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de downmix, en donde la señal de downmix codifica dos o más señales de objeto de audio. El método comprende:
establecer una indicación de activación a un estado de activación en función de una propiedad de señal de por lo menos una de las dos o más señales de objeto de audio;
transformar la señal de downmix para obtener un primer downmix transformado que comprende una pluralidad de primeros canales de subbandas; generar, cuando la indicación de activación está colocada en el estado de activación, un segundo downmix transformado mediante la transformación de por lo menos uno de los primeros anales de subbandas de manera de obtener una pluralidad de segundos canales de subbandas, en donde el segundo downmix transformado comprende los primeros canales de subbandas que no ha sido transformados por el segundo módulo de análisis y los segundos canales de subbandas. Y:
desmezclar el segundo downmix transformado, cuando la indicación de activación está colocado en el estado de activación, en base a información paramétrica lateral sobre las dos o más señales de objeto de audio de manera de obtener la señal de salida de audio, y desmezclar el primer downmix transformado, cuando la indicación de activación no está puesta en el estado de activación, en base a la información paramétrica lateral sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio.
Por otra parte, se provee un método para codificar dos o más señales ingresadas de objeto de audio. El método comprende:
colocar una indicación de activación en un estado de activación en función de una propiedad de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio;
transformar cada una de las señales ingresadas de objeto de audio de manera de obtener una primera señal transformada de objeto de audio de dicha señal ingresada de objeto de audio, en donde dicha primera señal transformada de objeto de audio comprende una pluralidad de primeros canales de subbandas; generar para cada una de las señales ingresadas de objeto de audio, cuando la indicación de activación está colocada en el estado de activación, una segunda señal transformada de objeto de audio mediante la transformación de por lo menos de los primeros canales de subbandas de la primera señal transformada de objeto de audio de dicha señal ingresada de objeto de audio de manera de obtener una pluralidad de segundos canales de subbandas, en donde dicho segundo downmix transformado comprende dichos primeros canales de subbandas que no han sido transformados por el segundo módulo de análisis y dichos segundos canales de subbandas. Y:
determinar información paramétrica lateral en base a la segunda señal transformada de objeto de audio de cada una de las señales ingresadas de objeto de audio, cuando la indicación de activación está colocada en el estado de activación, y determinar la información paramétrica lateral en base a la primera señal transformada de objeto de audio de cada una de las señales ingresadas de objeto de audio, cuando la indicación de activación no está colocada en el estado de activación.
Además, se provee un programa de computadora para implementar uno de los métodos arriba descritos cuando se lo ejecuta en una computadora o en una procesadora de señal.
En las reivindicaciones secundarias proveerán formas de realización preferidas.
Seguidamente se describen con mayor detalle formas de realización de la presente invención con referencia a los dibujos en los que:
la Figura 1a ilustra un decodificador de acuerdo con una forma de realización;
la Figura 1b ilustra un decodificador de acuerdo con otra forma de realización;
la Figura 1c ilustra un decodificador de acuerdo con otra forma de realización más;
la Figura 2a ilustra un codificador para codificar señales ingresadas de objeto de audio de acuerdo con una forma de realización;
la Figura 2b ilustra un codificador para codificar señales ingresadas de objeto de audio de acuerdo con otra forma de realización;
la Figura 2c ilustra un codificador para codificar señales ingresadas de objeto de audio de acuerdo con otra forma de realización más;
la Figura 3 muestra un diagrama de bloques esquemático para una revisión conceptual de un sistema de SAOC;
la Figura 4 muestra un diagrama esquemático e ilustrativo de una representación temporal-espectral de una señal de audio de canal simple;
la Figura 5 muestra un diagrama de bloques esquemático de una computación selectiva en frecuencia, de información lateral dentro de un codificador de SAOC;
la Figura 6 ilustra un diagrama de bloques de un decodificador de SAOC reforzado da una forma de realización, que ilustra corrientes de bits de SAOC estándar;
la Figura 7 ilustra un diagrama de bloques de un decodificador de acuerdo con una forma de realización;
la Figura 8 ilustra un diagrama de bloques de un codificador de acuerdo con una forma de realización particular en la que se implementa una trayectoria paramétrica de un codificador;
la Figura 9 ilustra la adaptación de la secuencia de ventana normal para dar cabida a un punto de cruce de ventana en el transitorio;
la Figura 10 ilustra un esquema de conmutación de bloque de aislación de un transitorio de acuerdo con una forma de realización;
la Figura 11 ilustra una señal con un transitorio y la secuencia de ventana similar a AAC resultante de acuerdo con una forma de realización;
la Figura 12 ilustra filtración de híbrido QMF ampliado;
la Figura 13 ilustra un ejemplo en el que se utilizan ventanas cortas para la transformada;
la Figura 14 ilustra un ejemplo en el que para la transformada se utilizan ventanas más largas que en el ejemplo de la Figura 13;
la Figura 14 ilustra un ejemplo en el que se lleva a cabo una resolución de frecuencia muy alta y una resolución en tiempo bajo;
la Figura 16 ilustra un ejemplo en el que se lleva a cabo una resolución en tiempo elevado y una resolución en frecuencia baja;
la Figura 17 ilustra un primer ejemplo en el que se lleva a cabo una resolución en tiempo intermedio y una resolución en frecuencia intermedia; y
la Figura 18 ilustra un primer ejemplo en el que se lleva a cabo una resolución en tiempo intermedio y una resolución en frecuencia intermedia.
Antes de describir formas de realización de la presente invención, se provee mayor información sobre los sistemas de SAOC del estado de la téenica.
La Figura 3 muestra una disposición general de un codificador SAOC 10 y de un decodificador SAOC 11. El codificador SAOC recibe como una entrada N objetos, es decir, señales de audio s? a sN. En particular, el codificador 10 comprende un downmixer 16 que recibe las señales de audio Si a SN y efectúa un downmixing con los mismos de manera de obtener una señal de downmix 18. Como alternativa, el downmix puede ser provisto externamente (“downmix artístico”) y el sistema estima información adicional lateral para hacer que el downmix provisto concuerde con el downmix calculado. En la Figura 3, la señal de downmix mostrada es una señal de canal P. Por lo tanto, puede concebirse
cualquier configuración de downmix de canal mono (P= 1), canal estereo (P= 2) o canal múltiple (P> 2).
En el caso de un downmix estéreo, los canales de la señal de downmix 18 llevan la designación LO y RO, en el caso de un downmix mono la designación es simplemente LO. A efectos de permitir que el decodificador de SAOC 12 recupere los objetivos individuales Sj a sN, el estimador de información lateral 17 provee al decodificador de SAOC 12 información lateral inclusive los parámetros de SAOC. Por ejemplo, en el caso de un downmix estéreo, los parámetros de SAOC comprende diferencias de nivel de objeto (OLD), correlación inter-objeto (IOC) (parámetros de relación cruzada inter-objeto), valores de ganancia de downmix (DMG) y diferencias de nivel de canal de downmix (DCLD). La información 20, inclusive los parámetros de SAOC, junto con la señal de downmix 18, forma la corriente de datos de salida de SAOC recibida por el decodificador de SAOC 12.
El decodificador de SAOC 12 comprende un up-mixer que recibe la señal de downmix 18 así como también la información lateral 20 a efectos de recuperar y renderizar las señales de audio s* y §N sobre cualquier conjunto seleccionado por el usuario de canales yi a w, estando la renderización prescrita por la información de renderización 26 ingresada en el decodificador de SAOC 12.
Las señales de audio Si a SN pueden ser ingresadas en el codificador 10 en cualquier dominio de codificación, tal como, en el dominio de tiempo o de espectro. En el caso en que las señales de audio s? a SN son introducidas en el codificador 10 en el dominio de tiempo, tal como codificados por PCM, el
codificador 10 puede utilizar un banco de filtros, tal como un banco de QMF híbrido, a efectos de transferir las señales en un dominio espectral, en el que las señales de audio están representadas en varias subbandas asociadas con diferentes porciones espectrales, con una resolución específica del banco de filtros. Si las señales de audio Si a
ya se hallan en la representación prevista por el codificador 10, no es necesario que este lleve a cabo la descomposición espectral.
La Figura 4 muestra una señal de audio en el dominio espectral recién mencionado. Como puede observarse, la señal de audio ha sido representada como una pluralidad de señales de subbandas. Cada señal de subbanda 30i a 30K consiste en una secuencia temporal de valores de subbanda indicadas mediante bloques pequeños 32. Como puede observarse, los valores de subbanda 32 de las señal de subbanda 30i a 30K están sincronizados entre sí en el tiempo de manera tal que, para cada una de las ranuras de tiempo 34 consecutivas del banco de filtros, cada subbanda 30i a 30« comprende exactamente un valor de subbanda 32. Como se ilustra mediante el eje de las frecuencias, las señal de subbanda 30i a 30K están asociadas con diferentes regiones de frecuencia, y como se ¡lustra mediante el eje del tiempo, las ranuras de tiempo 34 del banco de filtros están dispuestas consecutivamente en el tiempo.
Como se señaló a grandes rasgos en lo que precede, el extractor de información lateral 17 de la Figura 3 calcula los parámetros de SAOC a partir de las señales ingresadas de audio s1 a sN de acuerdo con el estándar de SAOC
actualmente implementado, el codificador 10 lleva a cabo este cálculo con una resolución en tiempo/frecuencia que puede ser disminuida con respecto a la resolución en tiempo/frecuencia original como definen las ranuras de tiempo 34 del banco de filtros y la descomposición de subbanda, en una magnitud determinada, señalizándose esta magnitud determinada al lado decodificador dentro de la información lateral 20. Los grupos de ranuras de tiempo consecutivas 34 del banco de filtros pueden formar un marco de SAOC 41. Tambien la cantidad de bandas de parámetros dentro del marco de SAOC 41 es transportada dentro de la información lateral 20. Por ello el dominio de tiempo/frecuencia se divide en tiles de tiempo/frecuencia ejemplificados en la Figura 4 mediante líneas de trazos 42. En la Figura 4 las bandas de parámetros están distribuidas de la misma manera en los varios marcos de SAOC ilustrados 41 de manera tal que se obtiene una disposición regular de tiles de tiempo/frecuencia. Sin embargo, por lo general, las bandas de parámetros pueden variar de un marco de SAOC 41 al subsiguiente, en función de las diferentes necesidades de resolución espectral en los respectivos marcos de SAOC 41. Por otra parte, la longitud de los marcos de SAOC 41 también puede variar. El resultado de ello es que la disposición de los tiles de tiempo/frecuencia puede ser irregular. Sin embargo, los tiles de tiempo/frecuencia dentro de un marco de SAOC 41 en particular típicamente tienen la misma duración y están alineados en la dirección del tiempo, es decir, todos los tiles t/f en dicho marco de SAOC 41 empiezan en el inicio del marco de SAOC 41 dado y terminan al final de dicho marco de SAOC 41.
El extractor de información lateral 17 ilustrado en la Figura 3 calcula los parámetros de SAOC de acuerdo con las fórmulas siguientes. En particular, el extractor de información lateral 17 calcula las diferencias de nivel de objeto para cada objeto i como sigue
en donde las sumas y los índices n y k, respectivamente, abarcan todos los índices temporales 34, y todos los índices espectrales 30 que forman parte de un determinado tile de tiempo/frecuencia tile 42, referido mediante los índices / para el marco de SAOC (o ranura de tiempo de procesamiento) y m para la banda de parámetros. Por ello, las energías de todos los valores de subbanda x, de una señal de audio u objeto / se acumulan y se normalizan al valor de energía más elevado de dicho tile entre todos los objetivos o señales de audio. x”'k* designa el conjugado complejo de x"-k .
Además, el extractor de información lateral de SAOC 17 tiene la capacidad de calcular una medida de similitud de los correspondientes tiles de tiempo/frecuencia de pares de diferentes objetivos ingresados s? a sN. Si bien el extractor de información lateral de SAOC 17 puede calcular la medida de similitud entre todos los pares de objetos ingresados Si a SN, el extractor de información lateral también puede suprimir la señalización de las medidas de similitud o
restringir el cálculo de las medidas de similitud a objetivos de audio Si a Sw que forman canales izquierda o derecha de un canal estereo en común. En cualquier caso, la medida de similitud recibe la denominación de parámetros de relación cruzada Ínter objetos IOCil’” . El cálculo se efectúa como sigue:
, ' .
,
donde, nuevamente, los índices n y k pasan por todos los valores de subbanda pertenecientes a una determinado tile de tiempo/frecuencia 42; i y j designan un determinado par de objetos de audio Si a Sw, y Re{ } designa la operación de descartar la parte imaginaria del argumento complejo.
El downmixer 16 de la Figura 3 efectúa el downmixing a los objetos Si a sw mediante el uso de factores de ganancia aplicados a cada objeto si a s/ . Es decir, se aplica un factor de ganancia d¡ al objeto / y seguidamente todos los objetos así ponderados Si a sw son sumados de manera de obtener una monoseñal de downmix, que se ejemplifica en la Figura 3 si P= 1. En otro caso dado a título de ejemplo de una señal de downmix de dos canales, ilustrado en la Figura 3 si P= 2, se aplica un factor de ganancia di,¡ al objeto i y seguidamente todos estos objetos amplificados en ganancia son sumados a efectos de obtener el canal de downmix izquierdo LO, y los factores de ganancia <¾,, son aplicados al objeto i y
seguidamente los objetos así ampliados por ganancia son sumados de manera de obtener el canal de downmix derecho RO. Debe aplicarse un procesamiento análogo al descrito en el caso de un downmix de múltiples canales (P> 2).
Esta prescripción del downmix es señalada al lado decodificador mediante las ganancias de downmix DMG, y, en el caso de una señal estereo de downmix, diferencias de nivel de canal de downmix DCLD¡.
Las ganancias de downmix se calculan como sigue:
DMG = 201og10 ( di +£) , (downmix mono),
, (downmix estéreo) ,
donde e es un número pequeños tal como 10 9.
Para los DCLDs rige la siguiente fórmula:
En el modo normal, el downmixer 16 genera la señal de downmix de acuerdo con:
para un downmix mono, o
.
,
para un downmix estéreo, respectivamente.
Por lo tanto, en las fórmulas arriba mencionadas, los parámetros OLD y IOC son una función de las señales de audio y los parámetros DMG y DCLD son una función de d. Incidentalmente, se señala que d puede variar en tiempo y en frecuencia.
Por lo tanto, en el modo normal, el downmixer 16 mezcla todos los objetos Si a sw sin preferencias, es decir, se tratan todos los objetos Si a S de la misma manera.
En el lado decodificador, el upmixer lleva a cabo la inversión del procedimiento de downmix y la implementación de la “información de renderización” 26 representada mediante una matriz R (que en la bibliografía téenica lleva a veces también la deligación A) en un paso de cálculo, a saber, en el caso de un downmix de dos canales:
donde la matriz E es una función de los parámetros OLD y IOC, y la matriz D contiene los coeficientes de downmixing como:
La matriz E es una matriz de covarianza estimada de los objetos de audio Sj a SN . En las implementaciones de SAOC actuales, el cálculo de la matriz de
covarianza estimada E típicamente se lleva a cabo en la resolución espectral/temporal de los parámetros de SAOC, es decir, para cada ( l,m ), de manera tal que la matriz de covarianza estimada puede escribirse como El,m. La matriz de covarianza estimada El,m es de una magnitud h/ c L/ y sus coeficientes se definen como sigue
- Por lo tanto, la matriz El,m con
tiene a lo largo de su diagonal las diferencias de nivel de objeto, es decir, e¡'j’ - OLD m para i=j, ya que OLD‘m = OLDl m y lOC^1 = 1 para /=/. Fuera de esta diagonal la matriz de covarianza estimada E tiene coeficientes de matriz que representan la media geometrica de las diferencias de nivel de objeto de los objetos i y j, respectivamente ponderados con la medida de correlación inter objetos IOC' .
La Figura representa un posible principio para la implementación del ejemplo del estimador de información lateral (SIE, side-información estimator como parte de un codificador de SAOC 10. El codificador de SAOC 10 comprende el mezclador 16 y el estimador de información lateral (SIE) 17. El SIE consiste
conceptualmente en dos módulos: un módulo 45 para calcular una representación t/f basada en poco tiempo (por ejemplo, STFT o QMF) de cada señal. La representación de t/f en poco tiempo, calculada, es introducida en el segundo módulo, 46, el módulo de estimación de información lateral selectivo en t/f (t/f— SIE). El módulo t/f— S I E 46 calcula la información lateral para cada tile de t/f. En las implementaciones de SAOC actuales, la transformada de tiempo/frecuencia es fija e idéntica para todos los objetos de audio s-¡ a sN. Por otra parte, se determinan los parámetros de SAOC sobre marcos de SAOC que son los mismos para todos los audio y que tienen la misma resolución en tiempo/frecuencia para todos los objetos de audio s1 a S/v, por lo tanto independientemente de las necesidades específicas para la resolución temporal fina en algunos casos o resolución espectral fina en otros casos.
En lo que sigue se describen algunas formas de realización de la presente invención.
La Figura 1A-1C ilustra un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio de señal de downmix que comprende una pluralidad de muestras de downmix en el dominio del tiempo de acuerdo con una forma de realización. La señal de downmix codifica dos o más señales de objeto de audio.
El decodificador comprende un generador de secuencias de ventana 134 para determinar una pluralidad de ventanas de análisis (por ejemplo, en base a información paramétrica lateral, por ejemplo, diferencias de nivel de objeto), en
donde cada una de las ventanas de análisis comprende una pluralidad de muestras de downmix en el dominio del tiempo de la señal de downmix. Cada ventana de análisis de la pluralidad de ventanas de análisis tiene una longitud de ventana que indica la cantidad de las muestras de downmix en el dominio del tiempo de dicha ventana de análisis. El generador de secuencias de ventana 134 está configurado para determinar la pluralidad de ventanas de análisis de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales de objeto de audio. Por ejemplo, la longitud de ventana puede depender de si dicha ventana de análisis comprende un transitorio, que indica un cambio de señal de por lo menos una de las dos o más señales de objeto de audio que se están codificando por medio de la señal de downmix.
Para determinar la pluralidad de ventanas de análisis, el generador de secuencias de ventana 134 puede, por ejemplo, analizar información parametrica lateral, por ejemplo, diferencias transmitidas de nivel de objeto relacionadas con las dos o más señales de objeto de audio, para determinar la longitud de ventana de las ventanas de análisis, de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales de objeto de audio. O, por ejemplo, para determinar la pluralidad de ventanas de análisis, el generador de secuencias de ventana 134 puede analizar las formas de las ventanas o las ventanas de análisis como tales, en donde las formas de las ventanas o las ventanas de análisis pueden, por
ejemplo, ser transmitidas en la corriente de bits desde el codificador hacia el decodificador, y en donde la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales de objeto de audio.
Además, el decodificador comprende un módulo de análisis t/f 135 para transformar la pluralidad de muestras de downmix en el dominio del tiempo de cada ventana de análisis de la pluralidad de ventanas de análisis a partir de un dominio del tiempo a un dominio de tiempo-frecuencia en función de la longitud de ventana de dicha ventana de análisis, para obtener un downmix transformado.
Por otra parte, el decodificador comprende una unidad de desmezclado 136 para desmezclar el downmix transformado en base a información parametrica lateral sobre las dos o señales de objeto de audio para obtener la señal de salida de audio.
En las siguientes formas de realización se utiliza un mecanismo especial para la construcción de secuencias de ventanas. Se define un función de ventana prototipo f (n, Nw) para el índice 0 £ n £ Nw- 1 para una longitud de ventana Nw. Utilizando la notación wt(«) para una ventana individual, se necesitan tres puntos de control, a saber los centros de las ventana previa, actual y siguiente, ck_ ck , y
Mediante su uso se define la función de ventana como sigue:
_
_ — — _ _
La ubicación real de la ventana es entonces \ck_l~\ £m£\ ck+ \ siendo
n = m- ck_ ~\ (|~ ] designa la operación del redondeo del argumento en el número
entero próximo más elevado, y [_ J designa de manera correspondiente la operación del redondeo del argumento en el número entero próximo más bajo). La función de ventana prototipo utilizada en las ilustraciones es una sinusoidal y se define como sigue;
f(n,N) = sin
pero también es posible utilizar otras formas. La ubicación t del transitorio defines los centros para tres ventanas ck_ =t-lb , ck =t , y ck+l =t+la , en donde los números lb y la definen el intervalo de ventana deseado antes y después del transitorio.
Como se explica más adelante con respecto a la Figura 9, el generador de secuencias de ventana 134 puede, por ejemplo, estar configurado para determinar la pluralidad de ventanas de análisis, de manera tal que un transitorio está comprendido por una primera ventana de análisis de la pluralidad de ventanas de análisis y por una segunda ventana de análisis de la pluralidad de ventanas de análisis, en donde un centro ck de la primera ventana de análisis está definido por una ubicación t del transitorio de acuerdo con ck = t - lb, y un centro cfc+i de la primera ventana de análisis está definido por la ubicación t del transitorio de acuerdo con ck+ 1 = t+ la, en donde la y lb son números.
Como se explica más adelante con respecto a la Figura 10, el generador de secuencias de ventana 134 puede, por ejemplo, estar configurado para determinar la pluralidad de ventanas de análisis, de manera tal que un transitorio está comprendida por una primera ventana de análisis de la pluralidad de ventanas de análisis, en donde un centro ck de la primera ventana de análisis está definido por una ubicación t del transitorio de acuerdo con ck = t, en donde un centro ck-t de una segunda ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio de acuerdo con c*_i = t- lb, y en donde un centro <¾+i de una tercera ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio de acuerdo con c> <+1 = t + la, en donde !a y lb son números.
Como se explica más adelante con respecto a la Figura 11 , el generador de secuencias de ventana 134 puede, por ejemplo, estar configurado para determinar la pluralidad de ventanas de análisis, de manera tal que cada una de entre la de la pluralidad de ventanas de análisis sea comprende una primera cantidad de muestras de señales en el dominio del tiempo seda una segunda cantidad de muestras de señales en el dominio del tiempo, en donde la segunda cantidad de muestras de señales en el dominio del tiempo es mayor que la primera cantidad de muestras de señales en el dominio del tiempo, y en donde cada una de las ventanas de análisis de la pluralidad de ventanas de análisis comprende la primera cantidad de muestras de señales en el dominio del tiempo cuando dicha ventana de análisis comprende un transitorio.
En una forma de realización, el módulo de análisis t/f 135 está configurado para transformar las muestras de downmix en el dominio del tiempo de cada una de las ventanas de análisis desde un dominio del tiempo a un dominio de tiempo-frecuencia mediante la utilización de un banco de filtros de QMF y de un banco de filtros de Nyquist, en donde la unidad de análisis de t/f (135) está configurada para transformar la pluralidad de muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis.
La Figura 2a ilustra un codificador para codificar dos o más señales ingresadas de objeto de audio. Cada una de las dos o más señales ingresadas de objeto de audio comprende una pluralidad de muestras de señales en el dominio del tiempo.
El codificador comprende una unidad de secuencias de ventana 102 para determinar una pluralidad de ventanas de análisis. Cada una de las ventanas de análisis comprende una pluralidad de las muestras de señales en el dominio del tiempo de una de las señales ingresadas de objeto de audio, en donde cada una de las ventanas de análisis tiene una longitud de ventana que indica la cantidad de muestras de señales en el dominio del tiempo de dicha ventana de análisis. La unidad de secuencias de ventana 102 está configurada para determinar la pluralidad de ventanas de análisis de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio. Por
ejemplo, la longitud de ventana puede depender de si dicha ventana de análisis comprende un transitorio, que indica un cambio de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio.
Además, el codificador comprende una unidad de análisis de t/f 103 para transformar las muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis desde un dominio del tiempo a un dominio de tiempo-frecuencia para obtener muestras de señales transformadas. La unidad de análisis de t/f 103 puede estar configurada para transformar la pluralidad de muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis.
Por otra parte, el codificador comprende la unidad de estimación de PSI 104 para determinar información parametrica lateral en función de las muestras de señales transformadas.
En una forma de realización, el codificador puede, por ejemplo, además comprender una unidad de detección de transitorios 101 que se está configurando para determinar una pluralidad de diferencias de nivel de objeto de las dos o más señales ingresadas de objeto de audio, y que se está configurando para determinar, si una diferencia entre una primera de las diferencias de nivel de objeto y una segunda de las diferencias de nivel de objeto es mayor que un valor umbral, para determinar para cada una de las ventanas de análisis, si dicha ventana de análisis comprende un transitorio, que indica un cambio de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio.
De acuerdo con una forma de realización, la unidad de detección de transitorios 101 está configurada para emplear una función de detección d(n) para determinar si la diferencia entre la primera de las diferencias de nivel de objeto y la segunda de las diferencias de nivel de objeto es mayor que el valor umbral, en donde la función de detección d(n) se define como sigue:
d(n) = å\ log {OLD j {b,n- 1)) - log (OLDiJ ( b , «))|
hj
en donde n designa un índice temporal, en donde i designa un primer objeto, en donde j designa un segundo objeto, en donde b designa una banda paramétrica. OLD puede, por ejemplo, indicar una diferencia de niveles de objeto.
Como se explica más adelante con respecto a la Figura 9, la unidad de secuencias de ventana 102 puede, por ejemplo, estar configurada para determinar la pluralidad de ventanas de análisis, de manera tal que un transitorio, que indica un cambio de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio, está comprendida por una primera ventana de análisis de la pluralidad de ventanas de análisis y por una segunda ventana de análisis de la pluralidad de ventanas de análisis, en donde un centro ¾ de la primera ventana de análisis está definido por una ubicación t del transitorio de acuerdo con ck = t- lb, y un centro
de la primera ventana de análisis está definido por la ubicación t del transitorio de acuerdo con ck+i = t + la, en donde la y Ib son números.
Como se explica más adelante con respecto a la Figura 10, la unidad de secuencias de ventana 102 puede, por ejemplo, estar configurada para determinar
la pluralidad de ventanas de análisis, de manera tal que un transitorio, que indica un cambio de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio, está comprendido por una primera ventana de análisis de la pluralidad de ventanas de análisis, en donde un centro ck de la primera ventana de análisis está definido por una ubicación t del transitorio de acuerdo con ck = t, en donde un centro
de una segunda ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio de acuerdo con ck- 1 = t- Ib, y en donde un centro ck^ de una tercera ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio de acuerdo con c + 1 = t+ la, en donde la y lb son números.
Como se explica más adelante con respecto a la Figura 11, la unidad de secuencias de ventana 102 puede, por ejemplo, estar configurada para determinar la pluralidad de ventanas de análisis, de manera tal que cada una de entre la de la pluralidad de ventanas de análisis sea comprende una primera cantidad de muestras de señales en el dominio del tiempo o una segunda cantidad de muestras de señales en el dominio del tiempo, en donde la segunda cantidad de muestras de señales en el dominio del tiempo es mayor que la primera cantidad de muestras de señales en el dominio del tiempo, y en donde cada una de las ventanas de análisis de la pluralidad de ventanas de análisis comprende la primera cantidad de muestras de señales en el dominio del tiempo cuando dicha ventana de análisis comprende un transitorio, que indica un cambio de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio.
De acuerdo con una forma de realización, la unidad de análisis de t/f 103 está configurada para transformar las muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis desde un dominio del tiempo a un dominio de tiempo-frecuencia para lo cual se utiliza un banco de filtros de QMF y un banco de filtros de Nyquist, en donde la unidad de análisis de t/f 103 está configurada para transformar la pluralidad de muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis.
En lo que sigue se describe SAOC reforzado mediante el uso de bancos de filtros adaptativos inversos compatibles de acuerdo con formas de realización.
En primer lugar se explica la decodificación de corrientes de bits de SAOC estándar mediante un decodificador de SAOC reforzado.
El decodificador reforzado de SAOC está diseñado de manera tal que es capaz de decodificar con una buena calidad de corrientes de bits de codificadores SAOC estándar. La decodificación se limita a la reconstrucción parametrica solamente, y se ignoran posibles corrientes residuales.
La Figura 6 ilustra un diagrama de bloques de un decodificador reforzado de acuerdo con una forma de realización, ilustrándose la decodificación de corrientes de bits SAOC estándar. Los bloques funcionales en negrita (132, 133, 134, 135) indican el procesos de acuerdo con la invención. La información paramétrica lateral (PSI) consiste en conjuntos de diferencias de nivel de objeto (OLD), correlaciones interobjeto (IOC), y una matriz de downmix D utilizada para
crear la señal de downmix (audio de DMX) a partir de los objetivos individuales en el decodificador. Cada conjunto de parámetros está asociado con un borde de parámetros que define la región temporal a la cual los parámetros están asociados. En el SAOC estándar SAOC, los bins de frecuencia de la representación de tiempo/frecuencia subyacente están agrupados en bandas paramétricas. La separación entre las bandas se asemeja a la de las bandas en el sistema auditivo humano. Por otra parte, múltiples marcos de representación t/f pueden ser agrupados en un marco de parámetros. Estas dos operaciones proveen una reducción en la cantidad de información lateral requerida con el coto de las inexactitudes de la modelación.
Como se describe en la norma SAOC, se utilizan los OLDs e lOCs para calcular la matriz de desmezclado G = EDrJ , donde los elementos de E son
E (i,j)^ IOCi j^OLD, OLDj se aproxima a la matriz de correlación de objetos, i y
j son índices de objeto, J «
, y Dr es la transpuesta de D. Un
calculador de matriz de desmezclado 131 puede estar configurado para calcular la matriz de desmezclad de manera acorde.
La matriz de desmezclado se interpola seguidamente de manera lineal mediante un interpolador temporal 132 a partir de la matriz de desmezclado del marco precedente arriba del marco de los parámetros hasta límite de los parámetros sobre los cuales se logran los valores estimados, de acuerdo con la
norma SAOC. Esto tiene como resultado matrices de desmezclado para cada ventana de tiempo/frecuencia análisis y banda parametrica.
La resolución de la frecuencia de banda paramétrica de las matrices de desmezclado se expande hasta la resolución de la representación de tiempo-frecuencia en dicha ventana de análisis mediante una unidad de adaptación de la resolución de frecuencia de la ventana 133. Cuando la matriz de desmezclado interpolada para la banda paramétrica b en un marco de tiempo está definida as G(b) , se utilizan los mismos coeficientes de desmezclado para la totalidad de los bins de frecuencia situados dentro de dicha banda paramétrica.
Hay un generador de secuencias de ventana 134 configurado para utilizar la información de intervalo del conjunto de parámetros del PSI para determinar una adecuada secuencia de ventana para analizar la señal de audio de downmix ingresada. El principal requerimiento es que cuando hay un límite para el conjunto de parámetros en el PSI, el punto de cruce entre ventanas de análisis consecutivas debería coincidir con el mismo. La realización de las ventanas determina también la resolución de frecuencia de los datos dentro de cada ventana (utilizado en la expansión de los datos de desmezclado, como se describió anteriormente).
Los datos de ventana son seguidamente transformados por el módulo de análisis t/f 135 en una representación del dominio de frecuencias mediante la utilización de una adecuada transformada de tiempo-frecuencia, por ejemplo, Transformada Discreta de Fourier(DFT, Discrete Fourier Transform),
\
Transformada de Coseno Discreto Complejo Modificada (CMDCT, Complex Modified Discrete Cosine Transform), o Transformada Discreta de Fourier de Apilamiento (ODFT, Oddly stacked Discrete Fourier Transform).
Finalmente, una unidad de desmezclado 136 aplica las matrices de desmezclado por marco por frecuencia sobre la representación espectral de la señal de downmix X para obtener las reconstrucciones parametricas Y . El canal
de salida J es una combinación lineal de los canales de downmix
Para la mayoría de las utilizaciones, la calidad que puede obtenerse mediante este proceso no puede distinguirse de manera perceptible del resultado obtenido con un decodificador SAOC estándar.
Debe tenerse presente que el texto precedente describe la reconstrucción de objetos individuales, pero en el SAOC estándar la renderización se halla incluido en la matriz de desmezclado, es decir, se halla incluido en la interpolación paramétrica. Como una operación linear, el orden de las operaciones no interesa, pero vale la pena observar la diferencia.
Seguidamente se describe la decodificación de corrientes de bit de SAOC reforzado mediante un decodificador de SAOC reforzado.
La principal funcionalidad del decodificador reforzado de SAOC ya ha sido descrita anteriormente en la decodificación de corrientes de bit SAOC estándar. En este capítulo se describiera como los refuerzos de SAOC introducidos en el PSI pueden ser utilizados para obtener una mejor calidad de la percepción.
En la Figura 7, se ilustran los principales bloques funcionales del decodificador de acuerdo con una forma de realización de ¡lustran la decodificación de los refuerzos de resolución de frecuencia. Los bloques funcionales en negrita (132, 133, 134, 135) indican el procesamiento inventivo.
Inicialmente, una unidad de expandir valor sobre banda 141 adapta los valores de OLD y IOC para cada banda parametrica a la resolución de frecuencia utilizada en los refuerzos, por ejemplo a 1.024 bins. Esto se lleva a cabo replicando el valor sobre los bins de frecuencia que corresponden a la banda paramétrica. Esto tiene como resultado nuevos OLDs OLDe”h (/) = K(/ ,b)OLDi ( b )
y lOCs IOC‘ (f) = K(f,b)IOCI J b) . K (f,b) es una matriz núcleo que define la asignación de bins de frecuencia / en bandas paramétricas b mediante
1, if / e b
K (f,b)
0, otherwise
Paralelamente a esto, la unidad de recuperación de función delta 142 invierte la parametrización del factor de corrección para obtener la función delta C ™(/) de la misma magnitud que los OLD y IOC expandidos.
Seguidamente, la unidad de aplicación delta 143 aplica el delta sobre los valores OLD expandidos, y se obtienen los valores OLD de resolución fina mediante OLDfm{f) = C, (. f)OLD;nh{f ) .
En una forma de realización particular, el cálculo de las matrices de desmezclado puede efectuarse por ejemplo mediante el calculador 131 de la matriz de desmezclado como con la decodificación de la corriente de bits
estándar; G(/) = E(/)Dr(/)J(/), con E, /) = IOC^ {f)^OLDfm (f)OLDj‘"e (/) , y
J(/) -(D(/)E(/)Dr (/)) ' . Si se desea, es posible multiplicar la matriz de
renderización de manera de obtener la matriz de desmezclado G(/). La interpolación temporal por el interpolador temporal 132 sigue como para la norma SAOC.
Dado que la resolución de frecuencia en cada ventana puede ser diferente (por lo general es inferior) con respecto a la resolución nominal de alta frecuencia, la unidad de adaptación de resolución de frecuencia de ventana 133 debe adaptar las matrices de desmezclado para que coincidan con la resolución de los datos espectrales de audio a efectos de permitir su aplicación. Esto se puede hacer, por ejemplo, por remuestreo de los coeficientes sobre el eje de frecuencia hasta resolución correcta. O, si las resoluciones son múltiplos enteros, la simple promediación a partir de los datos de alta resolución con los índices que corresponden a un bin de frecuencia en la resolución más baja.
\
La información de la secuencia de ventana de la corriente de bits se puede utilizar para obtener un análisis de tiempo-frecuencia totalmente complementario con respecto a al utilizado en el codificador, o la secuencia de ventanas puede ser construido en base de una de las fronteras de los parámetros, como se hace en la decodificación de corrientes de bit SAOC estándar. Para ello es posible emplear un generador de secuencias de ventana 134.
El análisis en tiempo-frecuencia del audio de downmix se lleva seguidamente a cabo mediante un módulo de análisis t/f 135 para lo cual se utilizan las ventanas dadas.
Por último, las matrices de desmezclado temporalmente interpoladas y (posiblemente) espectralmente adaptadas se aplican mediante una unidad de desmezclado 136 en la representación tiempo-frecuencia de la entrada de audio, y el canal de salida j se puede obtener como una combinación lineal de los canales
de entrada
Seguidamente se describe la codificación SAOC reforzada inversa compatible.
Ahora se describe un codificador SAOC reforzado que produce una corriente de bits que contiene una porción lateral de información inversa compatible y refuerzos adicionales. Los decodificadores SAOC estándar existentes pueden decodificar la porción inversa compatible de PSI y producir reconstrucciones de los objetos. La información añadida utilizado por el decodificador de SAOC reforzado mejora la calidad de la percepción de las reconstrucciones en la mayoría de los casos. Además, si el decodificador de SAOC reforzado está ejecutándose con recursos limitados, es posible ignorar los refuerzos ya que se sigue obteniendo una reconstrucción de calidad básica. Cabe señalar que las reconstrucciones mediante los decodificadores de SAOC estándar y reforzado en los que se utiliza solamente el PSI compatible del SAOC estándar, difieren entre sí, pero se considera que perceptivamente son muy similares (la
diferencia es de una naturaleza similar que en la decodificación de corrientes de bit estándar con un decodificador de SAOC reforzado).
En la Figura 8 se ilustra un diagrama de bloques de codificador de acuerdo con una forma de realización particular en la que se implementa la trayectoria paramétrica del codificador arriba descrito. Los bloques funcionales en negrita (102, 103) indican el procesamiento inventivo. En particular, la Figura 8 ilustra un diagrama de bloques de dos etapas que produce una corriente de bits de etapa inversa compatible con refuerzos para decodificadores de mayor capacidad.
En primer lugar, se subdivide la señal en marcos de análisis, que luego se transforman en el dominio de la frecuencia. Múltiples marcos de análisis se agrupan en un marco de parámetros de longitud fija para lo cual se utiliza, por ejemplo, en MPEG SAOC, longitudes de 16 y 32 marcos de análisis que son comunes. Se supone que las propiedades de las señales siguen siendo casi-estacionarias durante el marco de los parámetros y que puede se puede caracterizar con un solo conjunto de parámetros. Si las características de la señal cambian dentro del marco de parámetros, hay un error de modelado, y sería beneficioso subdividir el marco de parámetros más largo en partes en las que se cumpla de nuevo el supuesto de casi estacionario. Para este fin, es necesaria la detección de los transitorios.
Los transitorios pueden ser detectados por la unidad de detección de transitorios 101 en todos los objetos ingresados por separado, y cuando hay un evento transitorio en sólo uno de los objetos esa ubicación se declara como una
ubicación global de transitorio. La información de las ubicaciones de los transitorios se utiliza para la construcción de una secuencia de ventanas apropiada. La construcción se basa, por ejemplo, en la siguiente lógica:
- establecer una longitud por defecto de la ventana, es decir, la longitud de un bloque de transformada de señal por default, por ejemplo, 2.048 muestras.
- establecer la longitud del marco de los parámetros, por ejemplo, 4.096 muestras, correspondiente a 4 ventanas por defecto con una superposición del 50%. Los marcos de parámetros en múltiples ventanas juntos y un único conjunto de descriptores de señal en lugar de tener descriptores para cada ventana por separado. Esto permite reducir la cantidad de PSI.
- si no se ha detectado ningún transitorio, utilizar las ventanas por defecto y la longitud completa del marco de parámetros.
- Si se detecta un transitorio, adaptar las ventanas a efectos de proveer una mejor resolución temporal en la ubicación del transitorio.
Mientras se construye la secuencia de ventanas, la unidad de secuencias de ventana 102 responsable de ello también crea submarcos de parámetros para una o más ventanas de análisis. Cada subconjunto se analiza como una entidad única y solamente un conjunto de parámetros PSI se transmiten para cada subbloque. Para proveer un PSI SAOC compatible estándar, la longitud de bloque de parámetros definida se utiliza como la principal longitud del bloque de parámetros, y los posibles transitorios situados dentro de este bloque definen subconjuntos de parámetros.
La secuencia de ventanas construida es emitida para el análisis en tiempo y frecuencia de las señales de audio ingresadas llevado a cabo por la unidad de análisis de t/f 103, y se transmite en la porción de refuerzo de SAOC reforzado del PSI.
Los datos espectrales de cada ventana de análisis son utilizados por la unidad de estimación de PSI 104 para estimar el PSI en cuanto a la parte SAOC inversa compatible (por ejemplo, MPEG). Esto se lleva a cabo agrupando los bins espectrales en forma de bandas parametricas de MPEG SAOC y estimando los lOCs, OLDs y energías absolutas de los objetos (NRG) en las bandas. Siguiendo aproximadamente la notación de MPEG SAOC, el producto normalizado de dos espectros de objeto s, (/,«) y S 7(/,«) en un tile de parametrización se define como;
—
— - -
donde la matriz K (b,f,n) -MBxF”xN define el mapeo de los bis de representación t/f de Fn t/f en el marco n (de los N marcos en este marco de parámetros) en forma de bandas paramétricas B mediante
1, if / e b
K(b,f,n) = y
0, otherwise
S* es el conjugado complejo de S. La resolución espectral puede variar entre los marcos dentro de un bloque paramédico individual, por lo que la matriz de mapeo
convierte los datos en forma de una base de resolución común. La máxima energía del objeto en este tile de parametrización es por definición la máxima energía de objeto NRG(b) = ma.x(nrgn(b)). Al tener este valor, los OLDs son
i '
entonces por definición las energías de objeto normalizadas
Y finalmente, es posible obtener el IOC a partir de las potencias cruzadas en forma de:
Con esto concluye la estimación de las partes compatibles SAOC estándar de la corriente de bits.
Se utiliza una unidad de reconstrucción grosera de potencial-espectro 105 para utilizar los OLDs y NRGs a efectos de reconstruir una estimación grosera de la envuelta espectral en el bloque de análisis de los parámetros. Se construye la envuelta en la máxima resolución de frecuencia utilizada en dicho bloque.
Se utiliza el espectro original de cada ventana de análisis mediante una unidad de estimación de potencial-espectro 106 para calcular el espectro de potencia en dicha ventana.
Los espectros de potencia obtenidos son transformados en una presentación de elevada frecuencia mediante una unidad de adaptación de frecuencia-resolución 107. Esto puede efectuarse por ejemplo interpolando los
valores espectrales de potencia. Seguidamente se calcula el perfil espectral de media potencia para lo cual se hace una promediación de los espectros dentro del bloque de parámetros. Esto corresponde aproximadamente a que en la estimación de OLD se omita la agregación de la banda parametrica. El perfil espectral obtenido se considera como OLD de resolución fina.
La unidad de estimación de delta 108 está configurada para estimar un factor de corrección, “delta”, por ejemplo, para lo cual se divide el OLD de resolución fina por la reconstrucción grosera del espectro de potencia. Como resultado de ello, esto provee para cada bin de frecuencia un factor de corrección (multiplicativo) que pueden utilizarse para aproximar el OLD de resolución fina dados los espectros groseros.
Finalmente, hay una unidad de modelación de delta 109 configurada para modelar el factor de correlación estimado de una manera eficiente para la transmisión.
Efectivamente, las modificaciones de SAOC reforzado en la corriente de bits consisten en la información de secuencias de ventana y en los parámetros para transmitir el “delta”.
En lo que sigue se describe la detección de los transitorios.
Cuando las características de la señal permanecen casi estacionarias, es posible obtener una ganancia en la codificación (con respecto a la cantidad de información lateral) para lo cual se combinan varios marcos temporales en forma de bloques de parámetros. Por ejemplo, en el SAOC estándar, entre los valores
frecuentemente utilizados y están los 16 y 32 marcos de QMF por cada uno de los bloques de parámetros. Los mismos corresponden a 1.024 y 2.048 muestras, respectivamente. La longitud del bloque de parámetros puede ser ajustada anticipadamente en un valor fijo. El único efecto indirecto que tiene, es el retardo codee (el codificador ha de tener un marco completo para poder codificarlo). Cuando se utilizan bloques parametritos largos, sería beneficioso detectar cambios significativos en las características de la señal, esencialmente cuando se infringe la suposición de casi estacionario. Despues de hallar una ubicación de un cambio significativo, el dominio de la señal de tiempo puede ser dividido allí y las partes pueden nuevamente asumir y de mejor manera la suposición de casi estacionario.
Aquí se describe un novedoso método para la detección de transitorios a ser utilizado con el SAOC. Visto de manera pedante, no tiene por objeto detectar los transitorios, sino más bien cambios en las parametrizaciones de las señales que pueden ser activados por ejemplo por un desplazamiento del sonido.
La señal ingresada es dividida en marcos breves superpuestos, y los marcos son transformados en el dominio de las frecuencias, por ejemplo, mediante la transformada discreta de Fourier (DFT, Discrete FourierTransform). El espectro complejo es transformado en espectro de potencia para lo cual se multiplican los valores con sus conjugados complejos (es decir, se elevan al cuadrado sus valores absolutos). Seguidamente se utiliza una agrupación de bandas paramétricas, similar al utilizado en SAOC estándar, y se calcula la
energía de cada banda paramétrica en cada marco de tiempo en cada objeto. En pocas palabras, las operaciones son como sigue:
donde S, (/,«) es el espectro de los complejos del objeto i en el marco de tiempo «. La suma abarca los bins de frecuencia / en la banda b . Para remover algún efecto de ruido de los datos, los valores son filtrados en paso bajo con un filtro IIR de primer orden:
-donde 0 < aLP < 1 es el coeficiente de retroalimentación del filtro, por ejemplo, aLP = 0.9.
La principal parametrización en el SAOC son las diferencias de nivel de objeto (OLDs). El método de detección propuesto intenta detectar cuando cambiarían los OLDs. Por lo tanto, todos los pares de objeto son inspeccionados con OLDj j(b,n) =PtLP(b,n)/PjP(b,n) . Los cambios en todos los pares de objeto únicos se suman en forma de una función de detección mediante
d(n) = å | log (OLDt J ( b , n - 1)) - log (OLD } (b, «)) | .
Se comparan los valores obtenidos con un umbral T para eliminar por filtrado pequeñas desviaciones de los niveles, y se implementa una distancia mínima L entre detecciones consecutivas. Por lo tanto la función de detección de la siguiente;
A continuación se describe una resolución de frecuencia en SAOC reforzado.
La resolución de frecuencia obtenida mediante el análisis de SAOC estándar se limita a la cantidad de bandas paramétricas, que tienen el valor máximo de 28 en el SAOC estándar. Se los obtiene a partir de un banco de filtros híbrido consistente en un análisis de QMF de 64 bandas seguido por una etapa de filtrado híbrido sólo bancos más bajos además de dividirlos en hasta cuatro subbandas complejas. Las bandas de frecuencia obtenidas son agrupadas en forma de bandas paramétricas que imitan la resolución de banda crítica del sistema de audición humano. La agrupación permite reducir la velocidad de los datos laterales portadores de la información requerida.
El sistema existente produce una calidad de separación razonable dada la velocidad razonablemente baja de los datos. El problema principal es la insuficiente resolución de frecuencia para una separación clara de los sonidos tonales. Esto se presenta como un “halo” de otros objetos que rodean los componentes tonales de un objeto. Desde el punto de vista de la percepción, esto se observa como rugosidad o como un artefacto similar a un vocoder. El efecto perjudicial de este halo puede reducirse incrementando la resolución de frecuencia paramétrica. Se ha observado que una resolución igual o superior a 512 bandas (con una velocidad de muestreo de 44,1 kHz) produce una separación perceptivamente buena en las señales de ensayo. Esta resolución podría
obtenerse ampliando la etapa de filtrado híbrido del sistema existente, pero sería necesario que los filtros híbridos fuesen de un orden bastante elevado para una separación suficiente, lo cual implica un elevado costo computacional.
Una manera simple de obtener la resolución de frecuencia requerida consiste en utilizar una transformada de tiempo-frecuencia basada DFT. Los mismos pueden incrementarse de manera eficiente mediante un algoritmo de transformada rápida de Fourier (FFT, Fast Fourier Transform). En lugar de un DFT normal, CMDCT u ODFT se consideran como alternativas. La diferencia es que estos dos últimos son impares, y el espectro obtenido contiene frecuencias positivas y negativas puras. En comparación con un DFT, los bins de frecuencia están desplazados en un ancho de 0,5 bin. En el DFT uno de los bins está centrado a 0 Hz y otro en la frecuencia Nyquist. La diferencia entre ODFT y CMDCT es que el CMDCT contiene una operación adicional de posmodulación que afecta el espectro de fase. El beneficio de esto es que el espectro de complejos resultante consiste en el MDCT (Modified Discrete Cosine Transform, transformada modificada de coseno discreto) y en MDST (Modified Discrete Sine Transform, transformada modificada de seno discreto).
Una transformada basada en DFT de longitud N produce un espectro de los complejos con N valores. Cuando la secuencia transformada tiene el valor real, solamente N/2 de estos valores son necesarios para una reconstrucción perfecta, los otros N/2 valores pueden obtenerse a partir de los dados mediante simples manipulaciones. El análisis opera normalmente tomando un marco de N
muestras del dominio del tiempo de la señal, aplicando una función de ventana sobre los valores, despues de lo cual se calcula la transformada actual sobre los datos de ventana. Los bloques consecutivos se superponen temporalmente en un 50% y las funciones de ventana están diseñadas de manera tal que los cuadrados de ventana consecutivas se sumarán en forma de una unidad. Esta asegura que cuando la función de ventana se aplica dos veces sobre los datos (una vez analizando la señal del dominio del tiempo, y una segunda vez después de la transformada de síntesis antes de su superposición/adición); la cadena de síntesis de análisis plus no tiene pérdida.
Dada una superposición de 50% entre marcos consecutivos y una longitud de marco de 2.048 muestras, la resolución temporal efectiva es de 1.024 muestras (lo que corresponde a 23,2 ms con una velocidad de muestreo de 44,1 kHz). Esto no es suficientemente pequeño por dos razones: en primer lugar sería deseable poder decodificar corrientes de bits producidas por un codificador SAOC estándar, y en segundo lugar, analizar señales en un codificador SAOC reforzado con una resolución temporal más fina, en caso de ser necesario.
En el SAOC, es posible agrupar múltiples bloques en forma de marcos de parámetros. Se supone que las propiedades de las señales permanecen suficientemente similares a lo largo del marco de parámetros para poder caracterizarlo con un único conjunto de parámetros. Las longitudes de parámetros normalmente encontrados en el SAOC estándar son 16 ó 32 marcos QMF (la norma permite longitudes de hasta 72 marcos). Pueden efectuarse agrupaciones
similares cuando se utiliza un banco de filtros con una elevada resolución de frecuencias. Si las propiedades de la señal no cambian durante un marco de parámetros, la agrupación provee una eficiencia de codificación sin degradaciones de la calidad. Sin embargo, si las propiedades de la señal cambian dentro del marco de parámetros, la agrupación induce errores. El SAOC permite definir una longitud de agrupación por default, se utiliza con señales casi estacionarias, pero que tambien define subbloques de parámetros. Los subbloques definen agrupaciones más cortas que la longitud por defecto, y la parametrización se efectuará sobre cada subbloque por separado. Debido a la resolución temporal del banco de QMF subyacente, la resolución temporal resultante es de 64 muestras en el dominio del tiempo, lo que es mucho más fino que la resolución que puede obtenerse mediante un banco de filtros fijo con una elevada resolución de frecuencias. Este requerimiento afecta el decodificador de SAOC reforzado.
La utilización de un banco de filtros con una gran longitud de transformada provee una buena resolución de frecuencias, pero al mismo tiempo se degrada la resolución temporal (el denominado principio de incertidumbre). Si las propiedades de la señal cambian dentro de un único marco de análisis, la resolución temporal baja puede ocasionar un borroneo en la salida de síntesis. Por ello, sería beneficioso obtener una resolución temporal submarco en los lugares en los que se presente considerables cambios de señal. La resolución temporal en submarco conduce naturalmente a una resolución más baja y frecuencia, pero eso supone que durante un cambio de señal la resolución temporal es el aspecto más
importante que debe ser capturado con exactitud. Este requerimiento de resolución submarco afecta principalmente al codificador de SAOC reforzado (y por lo tanto, tambien al decodificador).
Puede utilizarse el mismo principio de solución en ambos casos: la utilización de marcos de análisis largos si la señal es casi estacionaria (no se detectan transitorios) y si no hay fronteras de parámetros. Si alguna de estas dos condiciones no se cumple, se emplea el esquema de la conmutación de la longitud de los bloques. Una excepción a esta condición puede efectuarse sobre la frontera de los parámetros que reciben entre grupos de marcos no divididos y que coinciden con el punto de cruce entre dos ventanas largas (mientras se decodifica una corriente de bits de SAOC estándar). Eso supone que en un caso como éste las propiedades de la señal permanecen suficientemente estacionarías para el banco de filtros de alta resolución. Si se señala una frontera de parámetros (por la corriente de bits o por el detector de transitorios), se ajustan los marcos para que utilicen una longitud de marco más pequeña, y por lo tanto se mejora localmente la resolución temporalmente.
Las dos formas de realización utilizan el mismo mecanismo subyacente para la construcción de secuencias de ventana. Una función de ventana prototipo f(n,N) está definida por el índice 0 £ n < N-l para una longitud de ventana N .
Es necesario designar una ventana única wt(«) , ... de control, a saber los centros
de la ventana precedente, la actual y la siguiente, ck_x, ck , y ck+x.
Mediante su utilización, la función de ventana se define como sigue
_
- ~ - _ - La ubicación vial de la ventana es entonces \ck_l1\ £m £[ck^\ donde
n = m-\ck_l~\ . La función prototipo de ventana utilizada en las ilustraciones es una función sinusoidal como sigue;
p (2» + l)
f(n,N) = sin
2 N
pero tambien es posible utilizar otras formas.
Seguidamente se describe el cruce en un transitorio de acuerdo con una forma de realización.
La Figura 9 es una ilustración del principio del esquema de conmutación de bloques “cruce en el transitorio”. En particular, en la Figura 9 se ilustra la adaptación de la secuencia de ventana normal para dar cabida a un punto de cruce de ventana en el transitorio. La línea 111 representa las muestras de señales en el dominio del tiempo, la línea vertical 112 la ubicación t del transitorio detectado (o una frontera de parámetros con respecto a la corriente de bits), y las líneas 113 ilustran las funciones de ventana y sus intervalos temporales. Este esquema requiere decidir la cantidad de superposición entre las dos ventanas wk y wk+l alrededor del transitorio, definir la pendiente de la ventana. Si la longitud de superposición ha sido ajustada en un valor pequeño, las ventanas tienen sus puntos máximos cercanos al transitorio y las secciones que cruzan el transitorio decaen rápidamente. Las longitudes de superposición también pueden ser
diferentes antes y despues del transitorio. En este enfoque, las dos ventanas o marcos que rodean el transitorio serán ajustados en longitud. La ubicación del transitorio defines los centros de las ventanas circundantes como sigue ck = t-lb y
CM = t + ’ en donde lb y la son la longitud de superposición antes y después del transitorio, respectivamente. Habiéndose definido estos, puede utilizarse la invasión precedente.
Seguidamente se describe la aislación de los transitorios de acuerdo con una forma de realización.
La Figura 10 ilustra el principio del esquema de conmutación de bloques de anulación de transitorios de acuerdo con una forma de realización. Hay una ventana breve wk centrada sobre el transitorio, y las dos ventanas adyacentes wt_, Y wk+ 1 están ajustadas de manera de complementar la ventana corta. De manera efectiva las ventanas adyacentes se limitan a la ubicación del transitorio, por lo que la ventana precedente contiene solamente señales antes del transitorio, y la ventana siguiente contiene solamente señales después del transitorio. En este enfoque, el transitorio define los centros de tres ventanas ck_l =t-lb, ck =t , y ck+l =t+la , donde lb y la definen el intervalo de ventana deseado antes y después del transitorio. Habiéndose definido estos, puede utilizarse la ecuación precedente.
Lo que sigue se describe la formación de marcos similares a AAC de acuerdo con una forma de realización.
Es posible que no siempre sean necesarios los grados de libertad de los dos esquemas de ventana anteriormente descritos. Tambien se emplea un procesamiento diferente para los transitorios en el campo de la codificación perceptual de audio. En este caso el objetivo es el de reducir la dispersión temporal del transitorio que ocasionaría los denominados preecos. En el MPEG-2/4 AAC [AAC], se utilizan dos longitudes básicas para las ventanas: LONG (largo, con una longitud de 2.048 muestras), y SHORT (corto, con una longitud de 256 muestras). Además de estos dos, también se definen dos ventanas de transición a efectos de permitir la transición desde un LONG a SHORT e inversamente. A título de restricción adicional, se requiere que las ventanas SHORT-se presente en grupos de a ocho ventanas. De esta manera, el margen entre ventanas y grupos de ventana permanece en un valor constante de 1024 muestras.
Si el sistema SAOC emplea un codee basado en AAC para las señales de audio, el downmix, o los objetivos residuales, sería beneficioso tener un esquema de marcos que pueda ser sincronizado fácilmente con el codee. Por esta razón, se describe un esquema de conmutación de bloques en base a las ventanas AAC.
En la Figura 11 se ilustra un ejemplo de conmutación de bloques similar a AAC. En particular, en la Figura 11 se ilustra la misma señal con un transitorio y la resultante secuencia de ventana similar a AAC. Puede observarse que la ubicación temporal del transitorio está cubierta con ocho ventanas SHORT, que están rodeadas por ventanas de transición desde y hacia ventanas LONG. Puede apreciarse en la ilustración que el transitorio de por sí no está centrado en una
ventana única ni en el punto de cruce entre dos ventanas. Esto se debe a que las ubicaciones de las ventanas están fijadas en una grilla, pero esta grilla asegura el paso constante al mismo tiempo. Se supone que el error de redondeo resultante es lo suficientemente pequeño para ser porcentualmente irrelevante en comparación con los errores ocasionados por el uso de ventanas LONG-solamente.
Las ventanas se definen como sigue:
La ventana LONG: w L0NG(n) = /{n,NL0NG), donde NLom = 2048.
— La ventana SHORT. SH0RT(n)— f ( t^N SHORT') ' donde N HORT = 256.
- La ventana de transición de LONG a SHORTs
f(”,NLONG), for 0£n < N LONG
1 for N LONG n < 2N LONG + t7 'N ly SHORT
LONG
W STOP (w) W START (-^ LONG n
En lo que sigue se describen variantes de ¡mplementación de acuerdo con formas de realización.
Independientemente del esquema de conmutación de bloques, otra elección en cuanto a diseño es la longitud de la transformada real t/f real. Si el objetivo principal es el de seguir las siguientes operaciones en el dominio de las
frecuencias a traves de los marcos de análisis, puede utilizarse una longitud de transformada constante. Se ajusta la longitud a un valor grande adecuado, por ejemplo, correspondiente a la longitud del marco más largo permitido. Si el marco del dominio del tiempo es más breve que este valor, entonces se lo almohadilla en cero (zero-padding) a la longitud completa. Cabe observar que un después del almohadillado en cero el espectro tiene un mayor número de bits, la cantidad de información real no aumentado en comparación con una transformada más corta. En este caso, las matrices de núcleo K (£,/,«) tienen la misma dimensiones para todos los valores de n .
Otra alternativa es la de transformar el marco aventanado si el almohadillado en cero. Esto presenta una menor complejidad de cálculo que con una longitud de transformada constante. Sin embargo, las resoluciones de frecuencias diferentes entre marca consultivos deben ser tomadas en cuenta con las matrices de núcleo K (b,f,n) .
En lo que sigue se describe la filtración híbrida ampliada de acuerdo con una forma de realización.
Otra posibilidad de obtener una mayor resolución en frecuencia consistiría en modificar el banco de filtros híbrido utilizado en el SAOC estándar para lograr una resolución más fina. En el SAOC estándar, solamente las tres más bajas de las 64 bandas de QMF se hacen pasar a través del banco de filtros de Nyquist que subdividen el banco de filtros.
La Figura 12 ilustra la filtración híbrida de QMF ampliado. Los filtros de Nyquist se repiten para cada banda de QMF por separado, y las salidas son combinadas para lograr un único espectro de alta resolución. En particular, la Figura 12 muestra que obtener una resolución en frecuencia comparable al enfoque basado en DFT requerirá subdividir cada banda de QMF en, por ejemplo, 16 subbandas (lo que requiere una filtración compleja en 32 subbandas). El inconveniente de este enfoque es que los prototipos de filtros requeridos son largos debido a que las bandas son angostas. Esto ocasiona algún retardo en el procesamiento e incrementa la complicidad del cálculo.
Una manera alternativa consiste en implementar la filtración híbrida ampliada mediante el reemplazo de los conjuntos de filtros de Nyquist por bancos de filtrosbtransformadas eficientes (por ejemplo, DFT de “zoom”, transformada de coseno discreto, etc.). Por otra parte, la polarización contenida en los coeficientes espectrales de alta resolución resultantes, que es causada por los efectos de fuga de la primera etapa de grado (en este caso: QMF), pueden reducirse de manera sustancial mediante un posprocesamiento de anulación de polarización similar al bien conocido banco de filtros híbridos MPEG-1/2 Capa 3 [FB] [MPEG-1].
En la Figura 1b se ilustra un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio desde una señal de downmix que comprende una pluralidad de muestras de downmix en el dominio del tiempo de acuerdo con una correspondiente forma de realización. La señal de downmix codifica dos o más señales de objeto de audio.
El decodificador comprende u primer submódulo de análisis 161 para transformar la pluralidad de muestras de downmix en el dominio del tiempo de manera de obtener una pluralidad de subbandas que comprende una pluralidad de muestras de subbandas.
Además, el decodificador comprende un generador de secuencias de ventana 162 para determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de subbandas de una de entre la pluralidad de subbandas, en donde cada ventana de análisis de la pluralidad de ventanas de análisis tiene una longitud de ventana que indica la cantidad de muestras de subbandas de dicha ventana de análisis. El generador de secuencias de ventana 162 está configurado para determinar la pluralidad de ventanas de análisis, por ejemplo, en base a información parametrica lateral, de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales de objeto de audio.
Por otra parte, el decodificador comprende un segundo módulo de análisis 163 para transformar la pluralidad de muestras de subbandas de cada ventana de análisis de la pluralidad de ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis para obtener un downmix transformado.
Por otra parte, el decodificador comprende una unidad de desmezclado 164 para desmezclar el downmix transformado en base a información paramétrica
lateral sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio.
En otras palabras: la transformada se lleva a cabo en dos fases. En una primera fase de transformada, se crea una pluralidad de subbandas cada una de las cuales comprende una pluralidad de muestras de subbandas. Seguidamente, en una segunda fase, se lleva a cabo otra transformada. Entre otros, las ventanas de análisis utilizadas para la segunda fase determinan la resolución en tiempo y la resolución en frecuencia del downmix transformado resultante.
La Figura 13 ilustra un ejemplo en el que se utilizan ventanas corta para la transformada. La utilización de ventanas cortas permite obtener una baja resolución en frecuencia, pero una elevada resolución en tiempo. El empleo de ventanas cortas puede ser adecuado, por ejemplo cuando hay un transitorio presente en las señales codificadas de objetos de audio (El u¡j indica muestras de subbandas, y el vsr indica muestra del downmix transformado en un dominio de tiempo-frecuencia).
La Figura 14 ilustra un ejemplo en el que se utilizan ventanas más largas para la transformada que en el ejemplo de la Figura 13. La utilización de ventanas largas conduce a una resolución en frecuencia, pero a una baja resolución en tiempo. La utilización de ventanas largas puede ser adecuada por ejemplo cuando no hay un transitorio presente en las señales codificadas de objetos de audio (nuevamente, los u¡j indican las muestras de subbandas, y los vsr indican las muestras del downmix transformado en el dominio de tiempo-frecuencia.)
La Figura 2b ilustra un correspondiente codificador para codificar dos o más señales ingresadas de objeto de audio de acuerdo con una forma de realización. Cada una de las dos o más señales ingresadas de objeto de audio comprende una pluralidad de muestras de señales en el dominio del tiempo.
El codificador comprende un primer submódulo de análisis 171 para transformar la pluralidad de muestras de señales en el dominio del tiempo a efectos de obtener una pluralidad de subbandas que comprende una pluralidad de muestras de subbandas.
Además, el codificador comprende una unidad de secuencias de ventana 172 para determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de subbandas de una de entre la pluralidad de subbandas, en donde cada una de las ventanas de análisis tiene una longitud de ventana que indica la cantidad de muestras de subbandas de dicha ventana de análisis, en donde la unidad de secuencias de ventana 172 está configurada para determinar la pluralidad de ventanas de análisis, de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio. Por ejemplo, una unidad (opcional) de detección de transitorios 175 puede proveer información acerca de si hay un transitorio presente en una de las señales ingresadas de objeto de audio en la unidad de secuencias de ventana 172.
Por otra parte, el codificador comprende un segundo módulo de análisis 173 para transformar la pluralidad de muestras de subbandas de cada ventana de análisis de la pluralidad de ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis a efectos de obtener muestras de señales transformadas.
Además, el codificador comprende una unidad de estimación de PSI 174 para determinar información paramétrica lateral en función de las muestras de señales transformadas.
De acuerdo con otras formas de realización, puede haber dos módulos de análisis para llevar a cabo análisis en dos fases, pero el segundo módulo puede estar conectado o no en función de una propiedad de señal.
Por ejemplo, si se requiere una elevada resolución en frecuencia y es aceptable una baja resolución en tiempo, entonces se conecta el segundo módulo de análisis.
En cambio, si se requiere una elevada resolución en tiempo y es aceptable una baja resolución en frecuencia, entonces se desconecta el segundo módulo de análisis.
La Figura 1c ilustra un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de downmix de acuerdo con una forma de realización tal. La señal de downmix codifica una o más señales de objeto de audio.
El decodificador comprende una unidad de control 181 para establecer una indicación de activación en un estado de activación en función de una propiedad de señal de por lo menos una la una o más señales de objeto de audio.
Además, el decodificador comprende un primer módulo de análisis 182 para transformar la señal de downmix a efectos de obtener un primer downmix transformado que comprende una pluralidad de primeros canales de subbandas.
Por otra parte, el decodificador comprende un segundo módulo de análisis 183 para generar, cuando la indicación de activación está colocada en el estado de activación, un segundo downmix transformado mediante la transformación de por lo menos uno de los primeros canales de subbandas de manera de obtener una pluralidad de segundos canales de subbandas, en donde el segundo downmix transformado comprende los primeros canales de subbandas que no han sido transformados por el segundo módulo de análisis y los segundos canales de subbandas.
Además, el decodificador comprende una unidad de desmezclado 184, en donde la unidad de desmezclado 184 está configurada para desmezclar el segundo downmix transformado, cuando la indicación de activación está colocada en el estado de activación, en base a información parametrica lateral sobre la una o más señales de objeto de audio para obtener la señal de salida de audio, y para desmezclar el primer downmix transformado, cuando la indicación de activación no está colocada en el estado de activación, en base a la información paramétrica
lateral sobre la una o más señales de objeto de audio a efectos de obtener la señal de salida de audio.
La Figura 15 ilustra u ejemplo en el que se requiere una elevada resolución en frecuencia y una baja resolución en tiempo es aceptable. Por lo tanto, la unidad de control 181 conecta el segundo módulo de análisis colocando la indicación de activación en el estado de activación (por ejemplo colocando una “activation indication” booleana variable en “activationjndication = verdad”). La señal de downmix es transformada por el primer módulo de análisis 182 (no se muestra en la Figura 15) de manera de obtener un primer downmix transformado. En el ejemplo de la Figura 15, el downmix transformado tiene tres subbandas. En escenarios de aplicación más realistas, el downmix transformado puede tener, por ejemplo 32 ó 64 subbandas. Entonces, el primer downmix transformado es transformado por el segundo módulo de análisis 183 (no se muestra en la Figura 15) de manera de obtener un segundo downmix transformado. En el ejemplo de la Figura 15, el downmix transformado tiene nueve subbandas. En escenarios de aplicación más realistas, el downmix transformado puede tener por ejemplo 512, 1024 o 2048 subbandas. La unidad de desmezclado 184 entonces desmezclarará el segundo downmix transformado de manera de obtener la señal de salida de audio.
Por ejemplo, la unidad de desmezclado 184 puede recibir la indicación de activación procedente de la unidad de control 181. O, por ejemplo, cada vez que la unidad de desmezclado 184 reciba un segundo downmix transformado desde el
segundo módulo de análisis 183, la unidad de desmezclado 184 llega a la conclusión que el segundo downmix transformado ha de ser desmezclado; cada vez que la unidad de desmezclado 184 no reciba un segundo downmix transformado procedente del segundo módulo de análisis 183, la unidad de desmezclado 184 llega a la conclusión que el primer downmix transformado ha de ser desmezclado.
La Fig. 16 ilustra u ejemplo en el que se requiere una elevada resolución en tiempo y una baja resolución en frecuencia es aceptable. Por lo tanto, la unidad de control 181 desconecta el segundo módulo de análisis colocando la indicación de activación en un estado que es diferente del estado de activación (por ejemplo colocando “activationjndication" booleana variable en “activationjndication = falso”). La señal de downmix es transformada por el primer módulo de análisis 182 (no se muestra en Figura 16) de manera de obtener un primer downmix transformado. Seguidamente, y a diferencia con la Figura 15, el primer downmix transformado no es transformado una vez más por el segundo módulo de análisis 183. En cambio, la unidad de desmezclado 184 desmezclarará el primer segundo downmix transformado para obtener la señal de salida de audio.
De acuerdo con una forma de realización, la unidad de control 181 está configurado para colocar la indicación de activación en el estado de activación en función de si por lo menos una de las una o más señales de objeto de audio comprende un transitorio que indica un cambio de señal de la por lo menos una de las una o más señales de objeto de audio.
En otra forma de realización, se asigna una transforma de subbanda a cada uno de los primeros canales de subbandas. La unidad de control 181 está configurada para colocar la indicación de transformada de subbanda de cada uno de los primeros canales de subbandas en un estado de subbanda de transformada en función de la propiedad de señal de por lo menos una de la una o más señales de objeto de audio. Además, el segundo módulo de análisis 183 está configurado para transformar cada uno de los primeros canales de subbandas, cuya indicación de transformada de subbanda está colocada en el estado de subbanda de transformada, de manera de obtener la pluralidad de segundos canales de subbandas, y de no transformar cada uno de los segundos canales de subbandas, cuya indicación de transformada de subbanda no está colocada en el estado de subbanda de transformada.
La Figura 17 ilustra u ejemplo en el que la unidad de control 181 (no se muestra en la Figura 17) colocó efectivamente la indicación de transformada de subbanda de la segunda subbanda en el estado de subbanda de transformada (por ejemplo, colocando una “subband_transform_indication_2" booleana variable en “subband transform_indication_2 = verdad”). Por lo tanto, el segundo módulo de análisis 183 (no se muestra en la Figura 17) transforma la segunda subbanda para obtener tres “fine-resolution” nuevas. En el ejemplo de la Figura 17, la unidad de control 181 no colocó la indicación de transformada de subbanda de la primera y tercera subbanda en el estado de subbanda de transformada (por ejemplo, esto puede indicarse mediante la unidad de control 181 mediante la colocación de las
“subband ransformjndication 1” y “subband_transform_indication_3” booleanas variables en “subband transform_indication_1 = falso” y “subband transform_indication_3 = falso”). Por lo tanto, el segundo módulo de análisis 183 no transforma la primera y tercera subbanda. En cambio, la primera subbanda y la tercera subbanda son utilizadas como tales como subbandas del segundo downmix transformado.
La Figura 18 ilustra un ejemplo, en el que la unidad de control 181 (no se muestra en la Figura 18) colocó efectivamente la indicación de transformada de subbanda de la primera y segunda subbanda en el estado de subbanda de transformada (por ejemplo mediante la colocación de la variable booleana “subband_transform_indication_1” en “subband transform_¡ndication_1 = verdad” y, por ejemplo, mediante la colocación de la variable booleana “subband_transform_indication_2” en “subband transform_indication_2 = verdad”). Por lo tanto, el segundo módulo de análisis 183 (no se muestra en la Figura 18) transforma la primera y segunda subbandas de manera de obtener seis “fine-resolution” subbandas nuevas. En el ejemplo de la Figura 18, la unidad de control 181 no colocó la indicación de transformada de subbanda en el estado de subbanda de transformada (por ejemplo, esto puede indicarse mediante unidad de control 181 mediante la colocación de la variable booleana “subband_transform_indication_3” en “subband transform_indication_3 = falso”). Por lo tanto, el segundo módulo de análisis 183 no transforma la tercera
subbanda. En cambio, la tercera subbanda como tal se utiliza como una subbanda del segundo downmix transformado.
De acuerdo con una forma de realización, el primer módulo de análisis 182 está configurado para transformar la señal de downmix a efectos de obtener el primer downmix transformado que comprende la pluralidad de primeros canales de subbandas para lo cual se utiliza u QMF (Quadrature Mirror Filter, Filtro Espejo de Cuadratura).
En una forma de realización, el primer módulo de análisis 182 está configurado para transformar la señal de downmix en función de una primera longitud de ventana de análisis , en donde la primera longitud de ventana de análisis depende de dicha propiedad de señal, y/o el segundo módulo de análisis 183 está configurado para generar, cuando la indicación de activación está colocada en el estado de activación, el segundo downmix transformado mediante la transformación de por lo menos uno de los primeros canales de subbandas en función de una segunda longitud de ventana de análisis, en donde la segunda longitud de ventana de análisis depende de dicha propiedad de señal. En una forma de realización de este tipo se conecta y desconecta el segundo módulo de análisis 183, y se ajusta la longitud de una ventana de análisis.
En una forma de realización, el decodificador está configurado para generar la señal de salida de audio que comprende uno o más canales de salida de audio a partir de la señal de downmix, en donde la señal de downmix codifica dos o más señales de objeto de audio. La unidad de control 181 está configurada para
colocar la indicación de activación en el estado de activación en función de la propiedad de señal de por lo menos una de las dos o más señales de objeto de audio. Además, la unidad de desmezclado 184 está configurada para desmezclar el segundo downmix transformado, cuando la indicación de activación está colocada en el estado de activación, en base a información paramétrica lateral sobre la una o más señales de objeto de audio a efectos de obtener la señal de salida de audio, y para desmezclar el primer downmix transformado, cuando la indicación de activación no está colocada en el estado de activación, en base a la información paramétrica lateral sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio.
La Figura 2c ilustra un codificador para codificar una señal ingresada de objeto de audio de acuerdo con una forma de realización.
El codificador comprende una unidad de control 191 para establecer una indicación de activación en un estado de activación en función de una propiedad de señal de la señal ingresada de objeto de audio.
Además, el codificador comprende un primer módulo de análisis 192 para transformar la señal ingresada de objeto de audio para obtener una primera señal transformada de objeto de audio, en donde la primera señal transformada de objeto de audio comprende una pluralidad de primeros canales de subbandas.
Por otra parte, el codificador comprende un segundo módulo de análisis 193 para generar, cuando la indicación de activación está colocada en el estado de activación, una segunda señal transformada de objeto de audio mediante la
transformación de por lo menos uno de entre la pluralidad de primeros canales de subbandas para obtener una pluralidad de segundos canales de subbandas, en donde la segunda señal transformada de objeto de audio comprende los primeros canales de subbandas que no han sido transformados por el segundo módulo de análisis y los segundos canales de subbandas.
Además, el codificador comprende una unidad de estimación de PSI 194, en donde la unidad de estimación de PSI 194 está configurada para determinar información parametrica lateral en base a la segunda señal transformada de objeto de audio, cuando la indicación de activación está colocada en el estado de activación, y para determinar la información paramétrica lateral en base a la primera señal transformada de objeto de audio, cuando la indicación de activación no está colocada en el estado de activación.
De acuerdo con una forma de realización, la unidad de control 191 está configurada para colocar la indicación de activación en el estado de activación en función de si la señal ingresada de objeto de audio comprende un transitorio que indica un cambio de señal de la señal ingresada de objeto de audio.
En otra forma de realización, se asigna una indicación de transformada a cada uno de los primeros canales de subbandas. La unidad de control 191 está configurada para colocar la indicación de transformada de subbanda de cada uno de los primeros canales de subbandas en un estado de subbanda de transformada en función de la propiedad de señal de la señal ingresada de objeto de audio. El segundo módulo de análisis 193 está configurado para transformar cada uno de
los primeros canales de subbandas, cuya la indicación de transformada de subbanda está colocada en el estado de subbanda de transformada, de manera de obtener la pluralidad de segundos canales de subbandas, y no transformar cada uno de los segundos canales de subbandas, cuya indicación de transformada de subbanda no está colocada en el estado de subbanda de transformada.
De acuerdo con una forma de realización, el primer módulo de análisis 192 está configurado para transformar cada una de las señales ingresadas de objeto de audio, para lo cual se utiliza un filtro de espejo de cuadratura.
En otra forma de realización, el primer módulo de análisis 192 está configurado para transformar la señal ingresada de objeto de audio en función de una primera longitud de ventana de análisis, en donde la primera longitud de ventana de análisis depende de dicha propiedad de señal, y/o el segundo módulo de análisis 193 está configurado para generar, cuando la indicación de activación está colocada en el estado de activación, la segunda señal transformada de objeto de audio mediante la transformación de por lo menos uno de entre la pluralidad de primeros canales de subbandas en función de una segunda longitud de ventana de análisis, en donde la longitud de la segunda ventana de análisis depende de dicha propiedad de señal.
De acuerdo con otra forma de realización, el codificador está configurado para codificar la señal ingresada de objeto de audio y por lo menos otra señal ingresada de objeto de audio. La unidad de control 191 está configurada para
colocar la indicación de activación en el estado de activación en función de la propiedad de señal de la señal ingresada de objeto de audio y en función de una propiedad de señal de la por lo menos un señal ingresada más de objeto de audio. El primer módulo de análisis 192 está configurado para transformar por lo menos una señal ingresada más de objeto de audio para obtener por lo menos una primera señal transformada de objeto de audio, en donde cada una de las por lo menos o más primeras señal transformada de objeto de audio comprende una pluralidad de primeros canales de subbandas. El segundo módulo de análisis 193 está configurado para transformar, cuando la indicación de activación está colocada en el estado de activación, por lo menos uno de entre la pluralidad de primeros canales de subbandas de por lo menos una de entre las primeras señal transformadas de objeto de audio de manera de obtener una pluralidad de segundos canales de subbandas. Además, la unidad de estimación de PSI 194 está configurada para determinar la información parametrica lateral en base a la pluralidad de los segundos canales de subbandas, cuando la indicación de activación está colocada en el estado de activación.
El método y aparato de acuerdo con la invención alivian los inconvenientes arriba mencionados del procesamiento por SAOC del estado de la téenica en el que se utiliza un banco de filtros fijo o una transformada en tiempo-frecuencia. Es posible obtener un calidad de audio subjetivamente mejor mediante la adaptación dinámica de la resolución en tiempo/frecuencia de las transformadas o bancos de filtros empleados para analizar y sintetizar objetos de audio dentro del SAOC. Al
mismo tiempo, los artefactos tales como los pre y poseeos causados por falta de precisión temporal y los artefactos tales como la rugosidad auditiva y la diafonía causadas por insuficiente precisión espectral pueden minimizarse dentro del mismo sistema de SAOC. Y, lo que es más importante, el sistema SAOC reforzado equipado con la transformada adaptativa de la invención mantiene la compatibilidad inversa con el estándar sin dejar de proveer una buena calidad de la percepción comparable con la del SAOC estándar.
Las formas de realización proveen un codificador de audio o un metodo de audio que codifica o un programa de computadora arriba descrito. Además, las formas de realización proveen un codificador de audio o un método decodificación de audio o programa de computadora como arriba descrito. Por otra parte, las formas de realización proveen una señal codificada de audio o u medio de almacenamiento en el que se almacena la señal de audio codificada arriba descrita.
Si bien se han descrito algunos aspectos en el contexto de un aparato, es evidente que estos aspectos también representan una descripción del método correspondiente, en donde un bloque o dispositivo corresponde a una etapa de método o a un rasgo de una etapa de método. De manera análoga, los aspectos descritos en el contexto de una etapa del método también representan una descripción de un bloque, ítem o rasgo, correspondientes, de un aparato correspondiente.
La señal descompuesta inventiva puede ser almacenada en un medio de almacenamiento digital, o puede ser transmitida en un medio de transmisión tal como un medio de transmisión inalámbrica o un medio de transmisión alámbrica tal como Internet.
En función de determinados requerimientos de implementación, las formas de realización de la invención pueden ser implementadas en hardware o en software. La implementación puede llevarse a cabo mediante un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un CD, un ROM, un PROM, un EPROM, un EEPROM, o una memoria FLASH, que tenga almacenados en el señales de control electrónicamente legibles, que cooperan (o que son capaces de cooperar) con un sistema computadora programable de manera tal que se lleve a cabo el método respectivo.
Algunas formas de realización de acuerdo con la invención comprenden un portador de datos no transitorios que tiene señales de control electrónicamente legibles, que son capaces de cooperar con un sistema de computadora programable, de manera tal que se lleve al cabo uno de los métodos descritos en la presente.
En términos generales, las formas de realización de la presente invención pueden ser implementados como un producto programa de computadora con un código de programa, siendo el código del programa operativo para llevar a cabo uno de los métodos cuando el programa de computadora se ejecuta en una
computadora. El código del programa puede estar almacenado por ejemplo en un portador legible por máquina.
Otras formas de realización comprende el programa de computadora para llevar a cabo uno de los metodos descritos en la presente, almacenado en un portador legible por máquina.
En otras palabras, una forma de realización del método de acuerdo con la invención es por lo tanto un programa de computadora que tiene un código de programa para implementar uno de los métodos descritos en el presente, cuando el programa de computadora se ejecuta en una computadora.
Por ello, otra forma de realización más de los métodos de acuerdo con la invención consiste en un portador de datos (o en un medio para almacenamiento digital, o un medio legible por computadora), que comprende, grabado en él, el programa de computadora para llevar a cabo uno de los métodos descritos en la presente.
Otra forma de realización más del método de acuerdo con la invención es por lo tanto una corriente de datos o una secuencia de señales que representan el programa de computadora para llevar a cabo uno de los métodos descritos en el presente. La corriente de datos o la secuencia de señales pueden está configurados por ejemplo para ser transferidos por intermedio de una conexión de comunicación de datos, por ejemplo por intermedio de Internet.
Y otra forma de realización más comprende un medio de procesamiento, por ejemplo una computadora o un dispositivo lógico programable, configurado o adaptado para llevar a cabo uno de los métodos descritos en la presente.
Otra forma de realización de la invención comprende una computadora que tiene instalado en él el programa de computadora para llevar a cabo uno de los métodos descritos de la presente.
En algunas formas de realización, es posible utilizar un dispositivo lógico programable (por ejemplo, un gate array programable en el campo) para llevar a cabo algunas de las funcionalidades de los métodos descritos en la presente, o la totalidad de dichas funcionalidades. En algunas formas de realización un gate array programable en el campo puede cooperar con una microprocesador a efectos de llevar a cabo uno de los métodos descritos en el presente. Por lo general, los métodos son preferiblemente llevados a cabo mediante cualquier aparato de hardware.
Las formas de realización descritas en lo que precede son meramente ilustrativas de los principios de la presente invención. Se da por entendido que modificaciones y variaciones en las disposiciones y en los detalles descritos en la presente serán evidentes para personas con pericia en la especialidad. Por lo tanto, la intención es la quedar limitado solamente por los alcances de las reivindicaciones de patentes adjuntas y no por los detalles específicos presentados a título de descripción y explicación de las formas de realización de la presente.
Referencias
[BCC] C. Faller and F. Baumgarte, “Binaural Cue Coding - Parí II: Schemes and applications,” IEEE Trans. on Speech y Audio Proc., vol. 11, no.
6, Nov. 2003.
[JSC] C. Faller, “Parametric Joint-Coding of Audio Sources”, 120th AES
Convention, París, 2006.
[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd
Regional UK AES Conference, Cambridge, UK, April, 2007. [SAOC2] J. Engdegárd, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hólzer,
L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen:
"Spatial Audio Object Coding (SAOC) - The Upcoming MPEG
Standard on Parametric Audio Object Based Coding", 124th AES
Convention, Amsterdam, 2008.
[SAOC] ISO/IEC, “MPEG audio technologies - Part 2: Spatial Audio Object
Coding (SAOC),” ISO/IEC JTC1/SC29/WG11 (MPEG) International
Standard 23003-2:2010.
[AAC] Bosi, Marina; Brandenburg, Karlheinz; Quackenbush, Schuyler;
Fielder, Louis; Akagiri, Kenzo; Fuchs, Hendrik; Dietz, Martin,
“ISO/IEC MPEG-2 Advanced Audio Coding”, J. Audio Eng. Soc, vol
45, no 10, pp. 789-814, 1997.
[ISS1] M. Parvaix y L. Girin: “Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding”, IEEE ICASSP, 2010.
[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: “A watermarking-based method for informed source separation of audio signáis with a single sensor”, IEEE Transactions on Audio, Speech and Language Processing, 2010.
[ISS3] A. Liutkus and J. Pinel y R. Badeau y L. Girin y G. Richard: “Informed source separation through spectrogram coding and data embedding”, Signal Processing Journal, 2011.
[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: “Informed source separation: source coding meets source separation”, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.
[ISS5] Shuhua Zhang and Laurent Girin: “An Informed Source Separation
System for Speech Signáis”, INTERSPEECH, 2011.
[ISS6] L. Girin and J. Pinel: “Informed Audio Source Separation from
Compressed Linear Stereo Mixtures”, AES 42nd International Conference: Semantic Audio, 2011.
[ISS7] Andrew Nesbit, Emmanuel Vincent, y Mark D. Plumblcy:
“Benchmarking flexible adaptive time-frequency transforme for underdetermined audio source separation”, IEEE International
Conference on Acoustics, Speech y Signal Processing, pp. 37-40, 2009.
[FB] B. Edler, "Aliasing reduction in sub-bands of cascaded filterbanks with decimation", Electronic Letters, vol. 28, No. 12, pp. 1104-1106, June 1992.
[MPEG-1] ISO/IEC JTC1/SC29/WG11 MPEG, International Standard ISO/IEC
11172, Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s, 1993.
Claims (17)
1. Un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de downmix que comprende una pluralidad de muestras de downmix en el dominio del tiempo, en donde la señal de downmix codifica dos o más señales de objeto de audio, en donde el decodificador comprende: un generador de secuencias de ventana (134) para determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de downmix en el dominio del tiempo de la señal de downmix, en donde cada ventana de análisis de la pluralidad de ventanas de análisis tiene una longitud de ventana que indica la cantidad de las muestras de downmix en el dominio del tiempo de dicha ventana de análisis, en donde el generador de secuencias de ventana (134) está configurado para determinar la pluralidad de ventanas de análisis de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales de objeto de audio, un módulo de análisis t/f (135) para transformar la pluralidad de muestras de downmix en el dominio del tiempo de cada ventana de análisis de entre la pluralidad de ventanas de análisis desde un dominio del tiempo a un dominio de tiempo-frecuencia en función de la longitud de ventana de dicha ventana de análisis, para obtener un downmix transformado, y una unidad de desmezclado (136) para desmezclar el downmix transformado en base a información parametrica lateral sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio.
Un decodificador de acuerdo de acuerdo con la reivindicación 1, en donde el generador de secuencias de ventana (134) está configurado para determinar la pluralidad de ventanas de análisis, de manera tal que un transitorio, que indica un cambio de señal de por lo menos una de las dos o más señales de objeto de audio que se están codificando por medio de la señal de downmix, está comprendido por una primera ventana de análisis de entre la pluralidad de ventanas de análisis y por una segunda ventana de análisis de entre la pluralidad de ventanas de análisis, en donde un centro ck de la primera ventana de análisis está definido por una ubicación t del transitorio de acuerdo con ck = t - lb, y un centro ck+ 1 de la primera ventana de análisis está definido por la ubicación t del transitorio de acuerdo con ¾+i = t + /a, en donde la y lb son números.
Un decodificador de acuerdo con la reivindicación 1, en donde el generador de secuencias de ventana (134) está configurado para determinar la pluralidad de ventanas de análisis, de manera tal que un transitorio que Índica un cambio de señal de por lo menos una de las dos o más señales de objeto de audio que se están codificando por medio de la señal de downmix, está comprendido por una primera ventana de análisis de entre la pluralidad de ventanas de análisis, en donde un centro ck de la primera ventana de análisis está definido por una ubicación t del transitorio de acuerdo con ck = t, en donde un centro ck- 1 de una segunda ventana de análisis de entre la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio de acuerdo con ck- 1 = t- lb, y en donde un centro ck+ 1 de una tercera ventana de análisis de entre la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio de acuerdo con ck+ 1 = t + la, en donde la y lb son números.
Un decodificador de acuerdo con la reivindicación 1, en donde el generador de secuencias de ventana (134) está configurado para determinar la pluralidad de ventanas de análisis, de manera tal que cada una de entre la de la pluralidad de ventanas de análisis sea comprende una primera cantidad de muestras de señales en el dominio del tiempo sea una segunda cantidad de muestras de señales en el dominio del tiempo, en donde la segunda cantidad de muestras de señales en el dominio del tiempo es mayor que la primera cantidad de muestras de señales en el dominio del tiempo, y en donde cada una de las ventanas de análisis de la pluralidad de ventanas de análisis comprende la primera cantidad de muestras de señales en el dominio del tiempo si dicha ventana de análisis comprende un transitorio que indica un cambio de señal de por lo menos una de las dos o más señales de objeto de audio que se están codificando por medio de la señal de downmix.
5. Un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de downmix que comprende una pluralidad de muestras de downmix en el dominio del tiempo, en donde la señal de downmix codifica dos o más señales de objeto de audio, en donde el decodificador comprende: un primer submódulo de análisis (161) para transformar la pluralidad de muestras de downmix en el dominio del tiempo de manera de obtener una pluralidad de subbandas que comprende una pluralidad de muestras de subbandas, un generador de secuencias de ventana (162) para determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de subbandas de una de entre la pluralidad de subbandas, en donde cada ventana de análisis de la pluralidad de ventanas de análisis tiene una longitud de ventana que indica la cantidad de muestras de subbandas en dicha ventana de análisis, en donde el generador de secuencias de ventana (162) está configurado para determinar la pluralidad de ventanas de análisis de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales de objeto de audio, un segundo módulo de análisis (163) para transformar la pluralidad de muestras de subbandas de cada ventana de análisis de la pluralidad de ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis para obtener un downmix transformado, y una unidad de desmezclado (164) para desmezclar el downmix transformado en base a información parametrica lateral sobre dos o más señales de objeto de audio para obtener la señal de salida de audio.
Un codificador para codificar dos o más señales ingresadas de objeto de audio, en donde cada una de las dos o más señales ingresadas de objeto de audio comprende una pluralidad de muestras de señales en el dominio del tiempo, en donde el codificador comprende: una unidad de secuencias de ventana (102) para determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de las muestras de señales en el dominio del tiempo de una de las señales ingresadas de objeto de audio, en donde cada una de las ventanas de análisis tiene una longitud de ventana que indica la cantidad de muestras de señales en el dominio del tiempo de dicha ventana de análisis, en donde la unidad de secuencias de ventana (102) está configurada para determinar la pluralidad de ventanas de análisis de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio, una unidad de análisis de t/f (103) para transformar las muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis desde un dominio del tiempo a un dominio de tiempo-frecuencia para obtener muestras de señales transformadas, en donde la unidad de análisis de t/f (103) está configurada para transformar la pluralidad de muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis, and una unidad de estimación de PSI (104) para determinar información paramétrica lateral en función de las muestras de señales transformadas.
7. Un codificador de acuerdo con la reivindicación 6, en donde el codificador además comprende una unidad de detección de transitorios (101) que se configura para determinar una pluralidad de diferencias de nivel de objeto de las dos o más señales ingresadas de objeto de audio, y que se configura para determinar, si una diferencia entre una primera de las diferencias de nivel de objeto y una segunda de diferencias de nivel de objeto es mayor que un valor umbral, para determinar para cada una de las ventanas de análisis, si dicha ventana de análisis comprende un transitorio, que indica un cambio de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio.
8 Un codificador de acuerdo con la reivindicación 7, en donde la unidad de detección de transitorios (101) está configurada para emplear una función de detección d(n) para determinar si la diferencia entre la primera de las diferencias de nivel de objeto y la segunda de las diferencias de nivel de objeto es mayor que el valor umbral, en donde la función de detección d(n) se define como sigue: d{n) = å|log (OLD ^b, n - 1)) - log (OLD^b, n))| •J en donde n designa un índice, en donde / designa un primer objeto, en donde j designa un segundo objeto, y en donde b designa una banda paramétrica.
9. Un codificador de acuerdo con una de las reivindicaciones 6 a 8, en donde la unidad de secuencias de ventana (102) está configurada para determinar la pluralidad de ventanas de análisis, de manera tal que un transitorio, que indica un cambio de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio, está comprendido por una primera ventana de análisis de la pluralidad de ventanas de análisis y por una segunda ventana de análisis de la pluralidad de ventanas de análisis, en donde un centro ¾ de la primera ventana de análisis está definido por una ubicación t del transitorio de acuerdo con ¾ = f - /¾, y un centro ¾+ 1 de la primera ventana de análisis está definido por la ubicación t del transitorio de acuerdo con ck+-\ = t + la, en donde la y lb son números.
10. Un codificador de acuerdo con una de las reivindicaciones 6 a 8, en donde la unidad de secuencias de ventana (102) está configurada para determinar la pluralidad de ventanas de análisis, de manera tal que un transitorio, que indica un cambio de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio, está comprendido por una primera ventana de análisis de entre la pluralidad de ventanas de análisis, en donde un centro ¾ de la primera ventana de análisis está definido por una ubicación t del transitorio de acuerdo con C = t, en donde un centro ck- 1 de una segunda ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio de acuerdo con = t- lb, y en donde un centro ck+ 1 de una tercera ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio de acuerdo con C + 1 = t + la, en donde la y lb son números.
11. Un codificador de acuerdo de acuerdo con una de las reivindicaciones 6 a 8, en donde la unidad de secuencias de ventana (102) está configurada para determinar la pluralidad de ventanas de análisis, de manera tal que cada una de entre la pluralidad de ventanas de análisis sea comprende una primera cantidad de muestras de señales en el dominio del tiempo sea una segunda cantidad de muestras de señales en el dominio del tiempo, en donde la segunda cantidad de muestras de señales en el dominio del tiempo es mayor que la primera cantidad de muestras de señales en el dominio del tiempo, y en donde cada una de las ventanas de análisis de la pluralidad de ventanas de análisis comprende la primera cantidad de muestras de señales en el dominio del tiempo cuando dicha ventana de análisis comprende un transitorio, que indica un cambio de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio.
12. Un codificador para codificar dos o más señales ingresadas de objeto de audio, en donde cada una de las dos o más señales ingresadas de objeto de audio comprende una pluralidad de muestras de señales en el dominio del tiempo, en donde el codificador comprende: un primer submódulo de análisis (171) para transformar la pluralidad de muestras de señales en el dominio del tiempo de manera de obtener una pluralidad de subbandas que comprende una pluralidad de muestras de subbandas, una unidad de secuencias de ventana (172) para determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de subbandas de una de entre la pluralidad de subbandas, en donde cada una de las ventanas de análisis tiene una longitud de ventana que indica la cantidad de muestras de subbandas de dicha ventana de análisis, en donde la unidad de secuencias de ventana (172) está configurada para determinar la pluralidad de ventanas de análisis de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio, un segundo módulo de análisis (173) para transformar la pluralidad de muestras de subbandas de cada ventana de análisis de la pluralidad de ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis para obtener muestras de señales transformadas, y una unidad de estimación de PSI (174) para determinar información paramétrica lateral en función de las muestras de señales transformadas. 13. Un método para de decodificación para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de downmix que comprende una pluralidad de muestras de downmix en el dominio del tiempo, en donde la señal de downmix codifica dos o más señales de objeto de audio, en donde el método comprende:
Determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de downmix en el dominio del tiempo de la señal de downmix, en donde cada ventana de análisis de la pluralidad de ventanas de análisis tiene una longitud de ventana que indica la cantidad de las muestras de downmix en el dominio del tiempo de dicha ventana de análisis, en donde la determinación de la pluralidad de ventanas de análisis se lleva a cabo de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales de objeto de audio, transformar la pluralidad de muestras de downmix en el dominio del tiempo de cada ventana de análisis de la pluralidad de ventanas de análisis desde un dominio del tiempo a un dominio de tiempo-frecuencia en función de la longitud de ventana de dicha ventana de análisis, para obtener un downmix transformado, y desmezclar el downmix transformado en base a información parametrica lateral sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio.
Un método para codificar dos o más señales ingresadas de objeto de audio, en donde cada una de las dos o más señales ingresadas de objeto de audio comprende una pluralidad de muestras de señales en el dominio del tiempo, en donde el método comprende: determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de las muestras de señales en el dominio del tiempo de una de las señales ingresadas de objeto de audio, en donde cada una de las ventanas de análisis tiene una longitud de ventana que indica la cantidad de muestras de señales en el dominio del tiempo de dicha ventana de análisis, en donde la determinación de la pluralidad de ventanas de análisis se lleva a cabo de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio, transformar las muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis desde un dominio del tiempo a un dominio de tiempo-frecuencia para obtener muestras de señales transformadas, en donde la transformación de la pluralidad de muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis depende de la longitud de ventana de dicha ventana de análisis, determinar información parametrica lateral en función de las muestras de señales transformadas.
Un método para decodificar mediante la generación de una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de downmix que comprende una pluralidad de muestras de downmix en el dominio del tiempo, en donde la señal de downmix codifica dos o más señales de objeto de audio, en donde el método comprende: transformar la pluralidad de muestras de downmix en el dominio del tiempo para obtener una pluralidad de subbandas que comprende una pluralidad de muestras de subbandas, determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de subbandas de una de entre la pluralidad de subbandas, en donde cada ventana de análisis de la pluralidad de ventanas de análisis tiene una longitud de ventana que indica la cantidad de muestras de subbandas de dicha ventana de análisis, en donde la determinación de la pluralidad de ventanas de análisis se lleva a cabo de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales de objeto de audio, transformar la pluralidad de muestras de subbandas de cada ventana de análisis de la pluralidad de ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis a efectos de obtener un downmix transformado, y desmezclar el downmix transformado en base a información parametrica lateral sobre las dos o más señales de objeto de audio de manera de obtener la señal de salida de audio.
16. Un método para codificar dos o más señales ingresadas de objeto de audio, en donde cada una de las dos o más señales ingresadas de objeto de audio comprende una pluralidad de muestras de señales en el dominio del tiempo, en donde el método comprende: transformar la pluralidad de muestras de señales en el dominio del tiempo para obtener una pluralidad de subbandas que comprende una pluralidad de muestras de subbandas, determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de subbandas de una de entre la pluralidad de subbandas, en donde cada una de las ventanas de análisis tiene una longitud de ventana que indica la cantidad de muestras de subbandas de dicha ventana de análisis, en donde la determinación de pluralidad de ventanas de análisis se lleva a cabo de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales ingresadas de objeto de audio, transformar la pluralidad de muestras de subbandas de cada ventana de análisis de la pluralidad de ventanas de análisis en función de la longitud de ventana de dicha ventana de análisis para obtener muestras de señales transformadas, y determinar información paramétrica lateral en función de las muestras de señales transformadas.
17. Un programa de computadora para implementar uno de los métodos de acuerdo con las reivindicaciones 13 a 16 cuando se ejecutan en una computadora o en una procesadora de señales. RESUMEN Se provee un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de downmix que comprende una pluralidad de muestras de downmix en el dominio del tiempo. La señal de downmix codifica dos o más señales de objeto de audio. El decodificador comprende un generador de secuencias de ventana (134) para determinar una pluralidad de ventanas de análisis, en donde cada una de las ventanas de análisis comprende una pluralidad de muestras de downmix en el dominio del tiempo de la señal de downmix. Cada ventana de análisis de la pluralidad de ventanas de análisis tiene una longitud de ventana que indica la cantidad de las muestras de downmix en el dominio del tiempo de dicha ventana de análisis. El generador de secuencias de ventana (134) está configurado para determinar la pluralidad de ventanas de análisis de manera tal que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de por lo menos una de las dos o más señales de objeto de audio. Además, el decodificador comprende un módulo de análisis t/f (135) para transformar la pluralidad de muestras de downmix en el dominio del tiempo de cada ventana de análisis de la pluralidad de ventanas de análisis desde un dominio del tiempo a un dominio de tiempo-frecuencia en función de la longitud de ventana de dicha ventana de análisis, para obtener un downmix transformado. Por otra parte, el decodificador comprende una unidad de desmezclado (136) para desmezclar el downmix transformado en base a información parametrica lateral sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio. Además, se provee un codificador.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261710133P | 2012-10-05 | 2012-10-05 | |
EP13167481.4A EP2717265A1 (en) | 2012-10-05 | 2013-05-13 | Encoder, decoder and methods for backward compatible dynamic adaption of time/frequency resolution in spatial-audio-object-coding |
PCT/EP2013/070551 WO2014053548A1 (en) | 2012-10-05 | 2013-10-02 | Encoder, decoder and methods for backward compatible dynamic adaption of time/frequency resolution in spatial-audio-object-coding |
Publications (2)
Publication Number | Publication Date |
---|---|
MX2015004018A true MX2015004018A (es) | 2015-07-06 |
MX350691B MX350691B (es) | 2017-09-13 |
Family
ID=48325509
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
MX2015004019A MX351359B (es) | 2012-10-05 | 2013-10-02 | Codificador, decodificador y métodos para la transformación de amplicación por acercamiento dependiente de señales en la codificación espacial de objetos de audio. |
MX2015004018A MX350691B (es) | 2012-10-05 | 2013-10-02 | Codificador, decodificador y métodos para la adaptación dinámica inversa compatible de la resolución en tiempo/frecuencia en la codificación espacial de objetos de audio. |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
MX2015004019A MX351359B (es) | 2012-10-05 | 2013-10-02 | Codificador, decodificador y métodos para la transformación de amplicación por acercamiento dependiente de señales en la codificación espacial de objetos de audio. |
Country Status (17)
Country | Link |
---|---|
US (2) | US10152978B2 (es) |
EP (4) | EP2717262A1 (es) |
JP (2) | JP6268180B2 (es) |
KR (2) | KR101685860B1 (es) |
CN (2) | CN105190747B (es) |
AR (2) | AR092929A1 (es) |
AU (1) | AU2013326526B2 (es) |
BR (2) | BR112015007649B1 (es) |
CA (2) | CA2887028C (es) |
ES (2) | ES2880883T3 (es) |
HK (1) | HK1213361A1 (es) |
MX (2) | MX351359B (es) |
MY (1) | MY178697A (es) |
RU (2) | RU2639658C2 (es) |
SG (1) | SG11201502611TA (es) |
TW (2) | TWI541795B (es) |
WO (2) | WO2014053548A1 (es) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2717262A1 (en) | 2012-10-05 | 2014-04-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding |
EP2804176A1 (en) * | 2013-05-13 | 2014-11-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio object separation from mixture signal using object-specific time/frequency resolutions |
EP3005353B1 (en) * | 2013-05-24 | 2017-08-16 | Dolby International AB | Efficient coding of audio scenes comprising audio objects |
KR102243395B1 (ko) * | 2013-09-05 | 2021-04-22 | 한국전자통신연구원 | 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치 |
US20150100324A1 (en) * | 2013-10-04 | 2015-04-09 | Nvidia Corporation | Audio encoder performance for miracast |
CN106409303B (zh) | 2014-04-29 | 2019-09-20 | 华为技术有限公司 | 处理信号的方法及设备 |
CN105336335B (zh) | 2014-07-25 | 2020-12-08 | 杜比实验室特许公司 | 利用子带对象概率估计的音频对象提取 |
SG11201706101RA (en) * | 2015-02-02 | 2017-08-30 | Fraunhofer Ges Forschung | Apparatus and method for processing an encoded audio signal |
EP3067885A1 (en) | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding a multi-channel signal |
WO2017064264A1 (en) * | 2015-10-15 | 2017-04-20 | Huawei Technologies Co., Ltd. | Method and appratus for sinusoidal encoding and decoding |
GB2544083B (en) * | 2015-11-05 | 2020-05-20 | Advanced Risc Mach Ltd | Data stream assembly control |
US9711121B1 (en) * | 2015-12-28 | 2017-07-18 | Berggram Development Oy | Latency enhanced note recognition method in gaming |
US9640157B1 (en) * | 2015-12-28 | 2017-05-02 | Berggram Development Oy | Latency enhanced note recognition method |
US10269360B2 (en) * | 2016-02-03 | 2019-04-23 | Dolby International Ab | Efficient format conversion in audio coding |
US10210874B2 (en) * | 2017-02-03 | 2019-02-19 | Qualcomm Incorporated | Multi channel coding |
CN113242508B (zh) | 2017-03-06 | 2022-12-06 | 杜比国际公司 | 基于音频数据流渲染音频输出的方法、解码器系统和介质 |
CN108694955B (zh) * | 2017-04-12 | 2020-11-17 | 华为技术有限公司 | 多声道信号的编解码方法和编解码器 |
WO2018201112A1 (en) | 2017-04-28 | 2018-11-01 | Goodwin Michael M | Audio coder window sizes and time-frequency transformations |
CN109427337B (zh) * | 2017-08-23 | 2021-03-30 | 华为技术有限公司 | 立体声信号编码时重建信号的方法和装置 |
US10856755B2 (en) * | 2018-03-06 | 2020-12-08 | Ricoh Company, Ltd. | Intelligent parameterization of time-frequency analysis of encephalography signals |
TWI658458B (zh) * | 2018-05-17 | 2019-05-01 | 張智星 | 歌聲分離效能提升之方法、非暫態電腦可讀取媒體及電腦程式產品 |
GB2577885A (en) | 2018-10-08 | 2020-04-15 | Nokia Technologies Oy | Spatial audio augmentation and reproduction |
BR112021025265A2 (pt) * | 2019-06-14 | 2022-03-15 | Fraunhofer Ges Forschung | Sintetizador de áudio, codificador de áudio, sistema, método e unidade de armazenamento não transitória |
EP4229631A2 (en) * | 2020-10-13 | 2023-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding a plurality of audio objects and apparatus and method for decoding using two or more relevant audio objects |
CN113453114B (zh) * | 2021-06-30 | 2023-04-07 | Oppo广东移动通信有限公司 | 编码控制方法、装置、无线耳机及存储介质 |
CN114127844A (zh) * | 2021-10-21 | 2022-03-01 | 北京小米移动软件有限公司 | 一种信号编解码方法、装置、编码设备、解码设备及存储介质 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3175446B2 (ja) * | 1993-11-29 | 2001-06-11 | ソニー株式会社 | 情報圧縮方法及び装置、圧縮情報伸張方法及び装置、圧縮情報記録/伝送装置、圧縮情報再生装置、圧縮情報受信装置、並びに記録媒体 |
DE60326782D1 (de) * | 2002-04-22 | 2009-04-30 | Koninkl Philips Electronics Nv | Dekodiervorrichtung mit Dekorreliereinheit |
US7272567B2 (en) * | 2004-03-25 | 2007-09-18 | Zoran Fejzo | Scalable lossless audio codec and authoring tool |
KR100608062B1 (ko) * | 2004-08-04 | 2006-08-02 | 삼성전자주식회사 | 오디오 데이터의 고주파수 복원 방법 및 그 장치 |
CN101312041B (zh) * | 2004-09-17 | 2011-05-11 | 广州广晟数码技术有限公司 | 多声道数字音频编码设备及其方法 |
US7630902B2 (en) * | 2004-09-17 | 2009-12-08 | Digital Rise Technology Co., Ltd. | Apparatus and methods for digital audio coding using codebook application ranges |
US8081764B2 (en) * | 2005-07-15 | 2011-12-20 | Panasonic Corporation | Audio decoder |
US7917358B2 (en) | 2005-09-30 | 2011-03-29 | Apple Inc. | Transient detection by power weighted average |
TWI329462B (en) * | 2006-01-19 | 2010-08-21 | Lg Electronics Inc | Method and apparatus for processing a media signal |
EP1999747B1 (en) * | 2006-03-29 | 2016-10-12 | Koninklijke Philips N.V. | Audio decoding |
DE602007013415D1 (de) * | 2006-10-16 | 2011-05-05 | Dolby Sweden Ab | Erweiterte codierung und parameterrepräsentation einer mehrkanaligen heruntergemischten objektcodierung |
EP3288027B1 (en) | 2006-10-25 | 2021-04-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating complex-valued audio subband values |
KR101100213B1 (ko) * | 2007-03-16 | 2011-12-28 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
EP3712888B1 (en) * | 2007-03-30 | 2024-05-08 | Electronics and Telecommunications Research Institute | Apparatus and method for coding and decoding multi object audio signal with multi channel |
EP2278582B1 (en) * | 2007-06-08 | 2016-08-10 | LG Electronics Inc. | A method and an apparatus for processing an audio signal |
EP2144229A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Efficient use of phase information in audio encoding and decoding |
WO2010105695A1 (en) * | 2009-03-20 | 2010-09-23 | Nokia Corporation | Multi channel audio coding |
KR101387808B1 (ko) * | 2009-04-15 | 2014-04-21 | 한국전자통신연구원 | 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치 |
EP2249334A1 (en) * | 2009-05-08 | 2010-11-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio format transcoder |
JP5678048B2 (ja) * | 2009-06-24 | 2015-02-25 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | カスケード化されたオーディオオブジェクト処理ステージを用いたオーディオ信号デコーダ、オーディオ信号を復号化する方法、およびコンピュータプログラム |
ES2793958T3 (es) * | 2009-08-14 | 2020-11-17 | Dts Llc | Sistema para trasmitir adaptativamente objetos de audio |
KR20110018107A (ko) * | 2009-08-17 | 2011-02-23 | 삼성전자주식회사 | 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치 |
PL2491551T3 (pl) * | 2009-10-20 | 2015-06-30 | Fraunhofer Ges Forschung | Urządzenie do dostarczania reprezentacji sygnału upmixu w oparciu o reprezentację sygnału downmixu, urządzenie do dostarczania strumienia bitów reprezentującego wielokanałowy sygnał audio, sposoby, program komputerowy i strumień bitów wykorzystujący sygnalizację sterowania zniekształceniami |
AU2010321013B2 (en) * | 2009-11-20 | 2014-05-29 | Dolby International Ab | Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter |
US9332346B2 (en) * | 2010-02-17 | 2016-05-03 | Nokia Technologies Oy | Processing of multi-device audio capture |
CN102222505B (zh) * | 2010-04-13 | 2012-12-19 | 中兴通讯股份有限公司 | 可分层音频编解码方法系统及瞬态信号可分层编解码方法 |
EP2717262A1 (en) | 2012-10-05 | 2014-04-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding |
-
2013
- 2013-05-13 EP EP13167487.1A patent/EP2717262A1/en not_active Withdrawn
- 2013-05-13 EP EP13167481.4A patent/EP2717265A1/en not_active Withdrawn
- 2013-10-02 CA CA2887028A patent/CA2887028C/en active Active
- 2013-10-02 AU AU2013326526A patent/AU2013326526B2/en active Active
- 2013-10-02 CA CA2886999A patent/CA2886999C/en active Active
- 2013-10-02 MX MX2015004019A patent/MX351359B/es active IP Right Grant
- 2013-10-02 KR KR1020157011739A patent/KR101685860B1/ko active IP Right Grant
- 2013-10-02 BR BR112015007649-1A patent/BR112015007649B1/pt active IP Right Grant
- 2013-10-02 SG SG11201502611TA patent/SG11201502611TA/en unknown
- 2013-10-02 RU RU2015116287A patent/RU2639658C2/ru active
- 2013-10-02 WO PCT/EP2013/070551 patent/WO2014053548A1/en active Application Filing
- 2013-10-02 RU RU2015116645A patent/RU2625939C2/ru active
- 2013-10-02 JP JP2015535006A patent/JP6268180B2/ja active Active
- 2013-10-02 ES ES13774118T patent/ES2880883T3/es active Active
- 2013-10-02 CN CN201380052368.6A patent/CN105190747B/zh active Active
- 2013-10-02 BR BR112015007650-5A patent/BR112015007650B1/pt active IP Right Grant
- 2013-10-02 JP JP2015535005A patent/JP6185592B2/ja active Active
- 2013-10-02 WO PCT/EP2013/070550 patent/WO2014053547A1/en active Application Filing
- 2013-10-02 MY MYPI2015000807A patent/MY178697A/en unknown
- 2013-10-02 EP EP13774118.7A patent/EP2904611B1/en active Active
- 2013-10-02 KR KR1020157011782A patent/KR101689489B1/ko active IP Right Grant
- 2013-10-02 ES ES13776987T patent/ES2873977T3/es active Active
- 2013-10-02 CN CN201380052362.9A patent/CN104798131B/zh active Active
- 2013-10-02 MX MX2015004018A patent/MX350691B/es active IP Right Grant
- 2013-10-02 EP EP13776987.3A patent/EP2904610B1/en active Active
- 2013-10-04 TW TW102136014A patent/TWI541795B/zh active
- 2013-10-04 TW TW102136012A patent/TWI539444B/zh active
- 2013-10-07 AR ARP130103631A patent/AR092929A1/es active IP Right Grant
- 2013-10-07 AR ARP130103630A patent/AR092928A1/es active IP Right Grant
-
2015
- 2015-03-27 US US14/671,928 patent/US10152978B2/en active Active
- 2015-04-03 US US14/678,667 patent/US9734833B2/en active Active
-
2016
- 2016-02-05 HK HK16101374.6A patent/HK1213361A1/zh unknown
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
MX2015004018A (es) | Codificador, decodificador y metodos para la adaptacion dinamica inversa compatible de la resolucion en tiempo/frecuencia en la codificacion espacial de objetos de audio. | |
JP6285939B2 (ja) | 後方互換性のある多重分解能空間オーディオオブジェクト符号化のためのエンコーダ、デコーダおよび方法 | |
KR20160009631A (ko) | 객체 특정 시간/주파수 분해능들을 이용한 혼합 신호로부터의 오디오 객체 분리 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FG | Grant or registration |