MX2011010017A

MX2011010017A - Dispositivo y metodo para manipular una señal de audio.

Info

Publication number: MX2011010017A
Application number: MX2011010017A
Authority: MX
Inventors: Sascha Disch; Max Neuendorf; Frederik Nagel; Christian Helmrich; Dominik Zorn
Original assignee: Fraunhofer Ges Forschung
Priority date: 2009-03-26
Filing date: 2010-03-22
Publication date: 2011-10-10
Also published as: EP2411976B1; EP2234103A1; ZA201106971B; ES2478871T3; US8837750B2; AR075963A1; TW201040943A; TWI421859B; MY154667A; BRPI1006217A2; RU2011138839A; CA2755834C; EP2411976A1; HK1166415A1; RU2523173C2; KR101462416B1; KR20110139294A; JP2012521574A; EP2234103B1; ES2374486T3

Abstract

Un dispositivo y un método para manipular una señal de audio comprende un medio de ventaneo para generar una pluralidad de bloques consecutivos de muestras de audio, donde la pluralidad de bloques consecutivos comprende por lo menos un bloque rellenado de muestras de audio, donde el bloque rellenado tiene valores de relleno y valores de señal de audio, un primer convertidor para convertir el bloque rellenado den una representación espectral que tiene valores espectrales, un modificador de fase para modificar las fases de los valores espectrales para obtener una representación espectral modificada, y un segundo convertidor para convertir la representación espectral modificada en una señal de audio modificada en el dominio del tiempo.

Description

Dispositivo y Método para Manipular una Señal de Audio Descripción El presente invento se refiere a un esquema para manipular una señal de audio modificando fases de valores espectrales de la señal de audio tal como adentro de un esquema de extensión de ancho de banda (BWE) .

El almacenamiento y la transmisión de señales de audio con frecuencia están sometidos a estrictas restricciones de cantidad de bits transmitidos. En el pasado, los codificadores eran forzados a reducir drásticamente el ancho de banda de audio transmitido cuando sólo se disponía de una muy baja cantidad de bits transmitidos. Los modernos codificadores-decodificadores de audio de hoy en día son capaces de codificar señales de banda ancha usando métodos de extensión de ancho de banda, como se describe en M. Dietz, L. Liljeryd, K. Kjorling y O. Kunz, Replicación de Banda Espectral, un enfoque novedoso en codificación de audio" ("Spectral Band Replication, a novel approach in audio coding") en la 112a Convención AES, Munich, mayo de 2002; S. Meltzer, R. Bohm y F. Henn, " Codificadores-decodificadores de audio mejorados con SBR para radiodifusión digital tal como "Digital Radio Mondiale" (DRM) " ("SBR enhanced audio codees for digital broadeasting such as "Digital Radio Mondiale" (DRM),") en la 112s Convención AES, Munich, mayo de - - 2002; T. Ziegler, A. Ehret, P. Ekstrand and M. Lutzky, "Me oramiento de mp3 con SBR: Rasgos y Capacidades del nuevo Algoritmo mp3PRO" ("Enhancing mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm,") en la 1122 Convención AES , Munich, mayo de 2002; Norma Internacional ISO/IEC 14496-3: 2001/FPDAM 1 "Extensión de Ancho de Banda" ISO/IEC, 2002. (International Standard ISO/IEC 14496-3:2001/FPDAM 1, "Bandwidth Extensión" ISO/IEC, 2002.) "Método y Aparato de extensión de ancho de banda de voz" (Speech bandwidth extensión method and apparatus) Vasu Iyengar et al.; Larsen, R. M. Aarts, y M. Danessis. "Extensión de ancho de banda de alta frecuencia eficiente de música y voz" ("Efficient high-frequency bandwidth extensión of music and speech") en la convención 1122 AES, Munich, Alemania, mayo de 2002; R. M. Aarts, E. Larsen, y O. Ouweltjes. "Un enfoque unificado a la extensión de ancho de banda de baja y alta frecuencia" (A unified approach to low- and high frequency bandwidth extensión) . En la 115a Convención AES, New York, USA, octubre de 2003; K. Káyhkó. "Un Mejoramiento de Banda Ancha Robusto para Señal de Voz de Banda angosta" (A Robust Wideband Enhancement for Narrowband Speech Signal) . Informe de investigación, Universidad de Technología de Helsinki, Laboratorio de Acústica y Procesamiento de Señal de Audio (Research Report, Helsinki University of Technology, Laboratory of Acoustics and Audio Signal Processing), 2001; - - E. Larsen y R. M. Aarts . "Extensión de Ancho de Banda de Audio - Aplicación a Psxcoacustica, Procesamiento de Señal y Diseño de Altavoz" (Audio Bandwidth Extensión - Application to psychoacoustics , Signal Processing and Loudspeaker Design) . John Wiley & Sons, Ltd, 2004; Larsen, R. . Aarts, y M. Danessis "Extensión de ancho de banda de alta frecuencia eficiente de música y voz" ("Efficient high-frequency bandwidth extensión of music and speech" ) en la convención 112a AES, Munich, Alemania, mayo de 2002; J. Makhoul . "Análisis Espectral de Voz mediante Predicción Lineal" (Spectral Analysis of Speech by Linear Prediction) . IEEE "Transacciones de Audio y Electroacústica" (Transactions on Audio and Electroacoustics) , AU-21(3), junio de 1973; Solicitud de Patente de Estados Unidos Número 08/951.029, Ohmori, et al. "Sistema y método de extensión de ancho de banda de audio" ("Audio band width extending system and method") y Patente de Estados Unidos Na 6895375, Malah, D & Cox, R. V. : "Sistema para extensión de ancho de banda de vos de banda angosta" (System for bandwidth extensión of Narrow-band speech) . Estos algoritmos se basan en una representación paramétrica del contenido de alta frecuencia (HF) , que es generado a partir de la parte de baja frecuencia (LF) codificada por forma de onda de la señal decodificada mediante una transposición dentro de la región espectral de - - HF ( "parcheado" ) y aplicación de una post procesamiento impulsado por parámetros .

Desde hace poco, se utiliza un nuevo algoritmo que emplea vocoderes de fase, como se describe, por ejemplo, en M. Puckette. Vocoder de fase sincronizada. Congreso IEEE ASSP sobre Aplicaciones de Procesamiento de Señales en Audio y Acústica. (Phase-locked Vocoder. IEEE ASSP Conference on Applications of Signal Processing to Audio and Acoustics) , ohonk 1995.", A. Robel, "Detección y preservación de componentes transitorios en el vocoder de fase." ( "Transient detection and preservation in the phase vocoder,") citeseer.ist.psu.edu/679246.html; Laroche L., Dolson M. : "Modificación mejorada de escala de tiempo de vocoder de fase de audio ("Improved phase vocoder timescale modification of audio"), IEEE Trans, sobre procesamiento de voz y audio (IEEE Trans . Speech and Audio Processing), vol . 7, no. 3, pp. 323— 332 and Patente de Estados Unidos N2 6549884 Laroche, J. & Dolson, M. : Corrimiento de tono de vocoder de fase para la generación de parche. (Phase-vocoder pitch-shifting for the patch generation) , ha sido presentada en Frederik Nagel, Sascha Disch, "Un método de extensión de ancho de banda para codificadores-decodificadores de audio ("A harmonic bandwidth extensión method for audio codees"), ICASSP Congreso Internacional sobre Procesamiento de Acústica, Voz y Señal. (ICASSP International Conference on Acoustics, Speech and - - Signal Processing), IEEE CNF, Taipei, Taiwan, abril de 2009. Sin embargo, este método denominado " extensión de ancho de banda armónica" (HBE) tiende a degradaciones de calidad de componentes transitorios contenidos en la señal de audio como se describe en Frederik Nagel, Sascha Disch, Nikolaus Rettelbach, "Un método de extensión de ancho de banda impulsado por vocoder de fase con un manejo novedoso de componente transitorio para codificadores-decodificadores de audio" ("A phase vocoder driven bandwidth extensión method with novel transient handling for audio codees,") en el 116s Congreso de AES, Munich, Alemania, mayo de 2009, ya que no se garantiza que se preserve una coherencia vertical sobre las sub-bandas en el algoritmo de vocoder de fase estándar y, más aún, se debe realizar el re-cálculo de las fases de la transformación discreta de Fourier (DFT) sobre bloques de tiempo aislados de una transformada asumiendo implícitamente una periodicidad circular.

Es conocido que se pueden observar específicamente dos tipos de artefactos debido al procesamiento de vocoder de fase basado en bloques. Estos son, en particular, una dispersión de la forma de onda y una aliasing en el tiempo debido a efectos de convolución cíclica en el tiempo de la señal debido a la aplicación de las fases nuevamente calculados .

- - En otras palabras, debido a la aplicación de una modificación de fase sobre los valores espectrales de la señal de audio en el algoritmo de BWE, un componente transitorio contendido en un bloque de la señal de audio puede ser envuelto alrededor del bloque, es decir es convuelto cíclicamente de vuelta dentro del bloque. Eso da como resultado un .aliasing en el tiempo y, en consecuencia, conduce a una degradación de la señal de audio.

Por lo tanto, se deben emplear métodos para un tratamiento especial de las partes de señal que contienen componentes transitorios. Sin embargo, la complejidad computacional es un asunto serio, debido a que especialmente el algoritmo de BWE es realizado sobre el lado del decodificador de una cadena de codificador-decodificador . Por ende, medidas contra la recién mencionada degradación de señal de audio preferiblemente no deberían venir a costo de una complejidad computacional ampliamente incrementada.

El objetivo del presente invento es proveer un esquema para manipular una señal de audio modificando las fases de valores espectrales de la señal de audio, por ejemplo, en el contexto de un esquema de BWE que habilita la obtención de un mejor balance entre la reducción de la degradación recién mencionada y la complejidad computacional.

Este objetivo se logra mediante un dispositivo de acuerdo con la reivindicación 1 o un método de acuerdo con la - - reivindicación 19 o un programa de computadora de acuerdo con la reivindicación 20.

La idea básica en la cual se basa el presente invento es que el mejor balance arriba mencionado puede ser logrado cuando se genera por lo menos un bloque rellenado de muestras de audio que tienen valores de relleno y valores de señal de audio antes de modificar las fases de los valores espectrales del bloque rellenado . Con esta medida se puede evitar una deriva hacia los bordes debido a la modificación de fase y se debe evitar que ocurra o por lo menos que se haga menos probable un correspondiente aliasing en el tiempo, y por lo tanto se mantenga la calidad de audio con bajos esfuerzos.

El concepto inventivo para manipular una señal de audio es basado en la generación de una pluralidad de bloques consecutivos de muestras de audio, en lo cual la pluralidad de bloques consecutivos comprende por lo menos un bloque rellenado de muestras de audio, en lo cual el bloque rellenado tiene valores de relleno y valores de señal de audio. Luego se convierte el bloque rellenado en una representación espectral que tiene valores espectrales. Entonces se modifican los valores espectrales para obtener una representación espectral modificada. Finalmente, se convierte la representación espectral modificada en una señal de audio modificada en el dominio del tiempo. Luego se puede - - eliminar el rango de valores que se ha utilizado para el relleno .

De acuerdo con una realización del presente invento, el bloque rellenado es generado insertando valores de relleno, que consisten preferiblemente en valores cero, antes o después de un bloque de tiempo.

De acuerdo con una realización del presente invento, los bloques rellenados son restringidos a los que contiene un evento transitorio, restringiendo de ese modo la sobrecarga de complejidad computacional adicional a estos eventos. Más precisamente, un bloque es procesado, por ejemplo, en una manera avanzada por un algoritmo de BWE, cuando se detecta un evento transitorio en este bloque de la señal de audio, en la forma de un bloque rellenado, mientras otro bloque de la señal de audio es procesado como un bloque no rellenado, que tiene valores de señal de audio, en una manera estándar de un algoritmo de BWE, cuando no se detecta ningún evento transitorio en el bloque. Mediante una conmutación adaptiva entre procesamiento estándar y procesamiento avanzado, se puede reducir significativamente el esfuerzo computacional promedio, lo cual permite, por ejemplo, una velocidad y memoria de procesador reducidas .

De acuerdo con algunas realizaciones del presente invento, los valores de relleno están dispuestos delante y/o detrás de un bloque de tiempo en el cual se detectó un evento - - transitorio, de modo que el bloque rellenado es adaptado por un primer convertidor y un segundo convertidor para una conversión entre el domino del tiempo y el dominio de la frecuencia, por ejemplo, a través de un procesador de DFT y uno de IDFT, respectivamente. Una solución preferible sería disponer el relleno simétricamente alrededor del bloque de tiempo.

De acuerdo con una realización, el por lo menos un bloque rellenado es generado agregando valores de relleno tales como valores cero a un bloque de muestras de audio de la señal de audio. De manera alternativa, se utiliza una función de ventana de análisis que tiene por lo menos una zona de guardia agregada a la posición inicial de la función de ventana o a la posición final de la función de ventana para formar un bloque rellenado aplicando esta función de ventana de análisis a un bloque de muestras de audio de la señal de audio. La función de ventana puede comprender, por ejemplo, una ventana de Hann con zonas de guardia.

En lo que sigue se explican, unas realizaciones del presente invento haciendo referencia a los dibujos adjuntos, en los cuales : la Figura 1 muestra un diagrama de bloques de una realización para manipular la señal de audio; - - la Figura 2 muestra un diagrama de bloques de una realización para llevar a cabo una extensión de ancho de banda usando la señal de audio; la Figura 3 muestra un diagrama de bloques de una realización para llevar a cabo un algoritmo de extensión de ancho de banda usando distintos factores de BWE; la Figura 4 muestra un diagrama de bloques de otra realización para convertir un bloque rellenado o un bloque sin rellenado usando un detector de componente transitorio; la Figura 5 muestra un diagrama de bloque de una implementación de una realización de la Figura 4; la Figura 6 muestra un diagrama de bloque de otra implementación de una realización de la Figura 4; la Figura 7a muestra un gráfico de un bloque de señal ejemplar antes y después de una modificación de fase para ilustrar un efecto de una modificación de fase sobre una forma de onda de señal con un componente transitorio centrado en un bloque de tiempo; la Figura 7b muestra un gráfico de un bloque de señal ejemplar antes y después de una modificación de fase para ilustrar un efecto de una modificación de fase sobre una forma de onda de señal con un componente transitorio en la vecindad de una primera muestra de un bloque de tiempo; la Figura 8 muestra un diagrama de bloque de una vista global de otra realización del presente invento; - - la Figura 9a muestra un gráfico de una función de ventana de análisis ejemplar en forma de una ventana de Hann con zonas de guardia, en lo cual las zonas de guardia son caracterizadas por ceros constantes; la ventana debe ser utilizada en una realización alternativa del presente invento ; la Figura 9b muestra un gráfico de una función de ventana de análisis ejemplar en forma de una ventana de Hann con zonas de guardia, en lo cual las zonas de guardia son caracterizadas por oscilaciones de pequeña amplitud; la ventana debe ser utilizada en otra realización alternativa del presente invento,- la Figura 10 muestra una ilustración esquemática para una manipulación de una banda espectral de una señal de audio en un esquema de extensión de ancho de banda,- la Figura 11 muestra una ilustración esquemática para una operación de superposición y suma ene contexto de un esquema de extensión de ancho de banda; la Figura 12 muestra un diagrama de bloque y una ilustración esquemática para una implementación de una realización alternativa basada en la Figura 4; y la Figura 13 muestra un diagrama de bloques de una típica implementación de extensión de ancho de banda armónica (HBE) .

- - La Figura 1 ilustra un aparato para manipular una señal de audio, de acuerdo con una realización del presente invento. El aparato comprende un medio de ventaneo 102 que tiene una entrada 100 para una señal de audio. El medio de ventaneo 102 es implementado para generar una pluralidad de bloques consecutivos de muestras de audio, la cual comprende por lo menos un bloque rellenado. El bloque rellenado, en particular, tiene valores de relleno y valores de señal de audio. El bloque rellenado presente en una salida 103 del medio de ventaneo 102 es suministrado a un primer convertidor 104 que es implementado para convertir el bloque rellenado 103 en una representación espectral que tiene valores espectrales. Luego se suministran los valores espectrales en la salida 105 del primer convertidor 105 a un modificador de fase 106. El modificador de fase 106 es implementado para modificar fases de los valores espectrales 105 para obtener una representación espectral modificada en 107. Finalmente se suministrar la salida 107 a un segundo convertidor 108 que es implementado para convertir la representación espectral modificada 107 en una señal de audio modificada en el dominio del tiempo 109. La salida 109 del segundo convertidor 108 puede ser conectada además a un medio de diezmado que es requerido para un esquema de extensión de ancho de banda, como se discute en referencia a las Figuras 2, 3 y 8.

- - La Figura 2 muestra una ilustración esquemática de una realización para llevar a cabo un algoritmo de extensión de ancho de banda usando un factor de de extensión de ancho de banda (s) . Aquí, la señal de audio 100 se alimenta dentro del medio de ventaneo 102 que comprende un procesador de ventana de análisis 110 y un medio de rellenado subsiguiente 112. En una realización, el procesador de ventana de análisis 110 es implementado para generar una pluralidad de bloques consecutivos que tienen el mismo tamaño. La salida 111 del procesador de ventana de análisis 110 está conectada además con el medio de rellenado 112. En particular, el medio de rellenado 112 es implementado para rellenar un bloque de una pluralidad de bloques consecutivos en la salida 111 del procesador de ventana de análisis 110 para obtener el bloque rellenado en la salida 103 del medio de rellenado 112. Aquí, se obtiene el bloque rellenado insertando valores de relleno en posiciones de tiempo especificadas delante de una primera muestra de bloques consecutivos de muestras de audio o después de la última muestra de los bloques consecutivos de muestras de audio. El bloque rellenado 103 es convertido además por el primer convertidor 104 para obtener una representación espectral en la salida 105. Además, se utiliza un filtro pasa banda 114 que es implementado para extraer la señal pasa banda 113 desde la representación espectral 105 o la señal de audio 100. Se selecciona una característica pasa - - banda del filtro pasa banda 114 de modo que se restrinja la señal pasa banda 113 a un rango de frecuencia blanco apropiado. Aquí, el filtro pasa banda 114 recibe un factor de extensión de ancho de banda (s) que es presente también en la salida 115 de un modificador de fase corriente abajo 106. En una realización del presente invento, se utiliza un factor de extensión de ancho de banda (s) de 2.0 para llevar a cabo el algoritmo de extensión de ancho de banda. En el caso que la señal de audio 100 tiene, por ejemplo, un rango de frecuencia de 0 a 4 kHz, el filtro pasa banda 114 extraerá el rango de frecuencia de 2 a 4 kHz de modo que la señal pasa banda 113 será transformada por el subsiguiente algoritmo de B E a un rango de frecuencia blanco de 4 a 8 kHz, siempre y cuando, por ejemplo, se aplica el factor de extensión de ancho de banda (s) de 2.0 para seleccionar un filtro pasa banda apropiado 114 (ver la Figura 10) . La representación espectral de la señal pasa banda en la salida 113 del filtro pasa banda 114 comprende una información de amplitud y una información de fase que es procesada además en un medio de ajuste 116 y el modificador de fase 106, respectivamente. El medio de ajuste 116 es implementado para ajustar los valores espectrales 113 de la información de amplitud por un factor, en lo cual el factor depende de una característica de superposición y suma en la cual se cuenta una relación de una primera distancia de tiempo (a) para un proceso de - - superposición y suma aplicada por el medio de ventaneo 102 y una distancia diferente de tiempo (b) aplicada por un medio de superposición y suma 124.

Por ejemplo, si hay una característica de superposición y suma con un proceso de superposición y suma de seis pasos de bloques consecutivos de muestras de audio que tienen la primera distancia de tiempo (a) y un cociente de la segunda distancia de tiempo (b) a la primera distancia de tiempo (a) de b/a=2, entonces el factor de b/a x 1/6 será aplicado por el medio de ajuste 116 para ajustar los valores espectrales en la salida 113 (ver la Figura 11) asumiendo una ventana de análisis rectangular.

Sin embargo, este ajuste de amplitud específico puede ser aplicado sólo si se lleva a cabo un diezmado corriente abajo de manera subsiguiente al proceso de superposición y suma. Dado el case que se lleva a cabo el diezmado antes del proceso de superposición y suma, el diezmado puede tener un efecto sobre las amplitudes de los valores espectrales que en general se debe tener en cuenta en el medio de ajuste 116.

El modificador de fase 106 es configurado para ajustar o multiplicar, respectivamente, las fases de los valores espectrales 113 de la banda de la señal de audio con el factor de extensión de ancho de banda (s) , de modo que por lo menos una muestra de un bloque consecutivo de las muestras de audio es convuelto cíclicamente dentro del bloque.

- - El efecto de la convolución cíclica basada en una periodicidad circular, que es un efecto lateral no deseado de la conversión mediante el primer convertidor 104 y el segundo convertidor 108, es ilustrado en la Figura 7 por el ejemplo del componente transitorio 700 centrado en la ventana de análisis 704 (Figura 7a) y un componente transitorio en la vecindad de un borde de la ventana de análisis 704 (Figura 7b) .

La Figura 7a muestra el componente transitorio 700 centrado en la ventana de análisis 704, es decir dentro del bloque consecutivo de muestras de audio que tienen una longitud de muestras 706 que incluye, por ejemplo, 1001 muestras con una primera muestra 708 y una última muestra 710 del bloque consecutivo. La señal original 700 es indicada por una fina línea de trazos. Después de la conversión por el primer convertidor 104 y la subsiguiente aplicación de una modificación de fase, por ejemplo, mediante el uso de un vocoder de fase al espectro de la señal original, el componente transitorio 700 será desplazado y cíclicamente convuelto hacia atrás dentro de la ventana de análisis 704 después de la conversión por el segundo convertidor 108, es decir de modo que se ubique el componente transitorio cíclicamente convuelto 701 todavía dentro de la ventana de análisis 704. El componente transitorio cíclicamente - - convuelto 701 es indicado por la línea gruesa marcada como "sin guardia" .

La Figura 7b muestra la señal original que contiene un componente transitorio 702 cerca de la primera muestra 708 de la ventana de análisis 704. La señal original que tiene un componente transitorio 702 otra vez es indicada por una fina línea de trazos. En este caso, después de la conversión por el primer convertidor 104 y la subsiguiente aplicación de una modificación de fase, el componente transitorio 702 será desplazado y cíclicamente convuelto hacia atrás dentro de la ventana de análisis 704 después de la conversión por el segundo convertidor 108, de modo que se obtenga un componente transitorio cíclicamente convuelto 703 el cual es indicado por la línea gruesa marcada como "sin guardia". Aquí, el componente transitorio cíclicamente convuelto 703 es generado porque se desplaza por lo menos una porción del componente transitorio 702 delante de la primera muestra 708 de la ventana de análisis 704 debido a la modificación de fase que resulta en una envoltura circular del componente transitorio cíclicamente convuelto 703. En particular, tal como se puede ver en la Figura 7b, la porción del componente transitorio 702 que es desplazado fuera de la ventana de análisis 704 aparece de nuevo (porción 705) a la izquierda de la última muestra 710 de la ventana de análisis 704 debido al efecto de la periodicidad circular.

- - La representación espectral modificada, la cual comprende la información de amplitud modificada de la salida 117 del medio de ajuste 116 y la información de fase modificada de la salida 107 del modificador de fase 106, es suministrada al segundo convertidor 108 que es configurado para convertir la representación espectral modificada en la señal de audio modificada en el dominio del tiempo en la salida 109 del segundo convertidor 108. Luego se suministra la señal de audio modificada en el dominio del tiempo en la salida 109 del segundo convertidor 108 a un extractor de relleno 118. El extractor de relleno 118 es implementado para quitar aquellas muestras de la señal de audio modificada en el dominio del tiempo que corresponden a las muestras de los valores de relleno insertados para genera el bloque rellenado en la salida 103 del medio de ventaneo 102 antes que la modificación de fase es aplicada por el procesamiento corriente abajo del modificador de fase 106. Más precisamente, se quitan las muestras en aquellas posiciones de tiempo de la señal de audio modificada en el dominio del tiempo que corresponden a las posiciones de tiempo especificadas para las cuales se insertaron los valores de relleno antes de la modificación de fase.

En una realización del presente invento, los valores de relleno se insertaron simétricamente delante de la primera muestra 708 del bloque consecutivo y después de la última - - muestra 710 del bloque consecutivo de muestras de audio, tal como se muestra, por ejemplo, en la Figura 7, de modo que se forman dos zonas de guardia simétricas 712, 714, las cuales encierran el bloque consecutivo centrado que tiene la longitud de muestras 706) . En este caso simétrico, las zonas de guardia o los "intervalos de guardia" 412, 714, respectivamente, pueden ser quitados preferiblemente desde el bloque rellenado por el extractor de relleno 118 después de la modificación de fase de los valores espectrales y su subsiguiente conversión en la señal de audio modificada en el dominio del tiempo, a fin de obtener el bloque consecutivo sólo sin los valores de relleno en la salida 119 del extractor de relleno 118.

En una implementación alternativa, se puede no remover los intervalos de guardia mediante el extractor de relleno 118 desde la salida 109 del segundo convertidor 108 de modo que la señal de audio modificada en el dominio del tiempo del bloque rellenado tendrá la longitud de muestras 716 que incluye la longitud de muestras 706 del bloque consecutivo centrado y las longitudes de muestra 712, 714 de los intervalos de guardia. Esta señal puede ser procesada además en etapas subsiguientes de procesamiento hacia abajo hasta un medio de superposición y suma 124 tal como se muestra en el diagrama de bloques de la Figura 2. Ene le caso que el extractor de relleno 118 no es presente, este procesamiento, - - incluyendo la operación sobre los intervalos de guardia, puede ser interpretado como un sobremuestreo de la señal. A pesar de que el extractor de relleno 118 no se requiere en algunas realizaciones del presente invento, es ventajoso utilizarlo tal como se muestra en la Figura 2, porque la señal que es presente en la salida 119, ya tendrá la misma longitud de muestras como el bloque consecutivo original o el bloque no rellenado, respectivamente, que es presente en la salida 111 del procesador de ventana de análisis 110, antes del relleno mediante el medio de rellenado 112. De ese modo, se adaptarán fácilmente las etapas subsiguientes de procesamiento a la señal en la salida 119.

Preferiblemente, se suministra la señal de audio modificada en el dominio del tiempo en la salida 119 del extractor de relleno 118 a un medio de diezmado 120. El medio de diezmado 120 es implementado preferiblemente por un convertidor simple de frecuencia de muestreo que funciona usando el factor de extensión de ancho de banda (s) para obtener una señal diezmada en el dominio del tiempo en la salida 121 del medio de diezmado 120. Aquí; la característica del proceso de diezmado depende de la característica de modificación de fase provisto por el modificador de fase 106 en la salida 115. En una realización del presente invento, el factor de extensión de ancho de banda s=2 es suministrado por el modificador de fase 106 vía la salida 115 al medio de - - diezmado 120, de modo que se quitará cada segunda muestra desde la señal de audio modificada en el dominio del tiempo en la salida 119, lo cual da como resultado la señal diezmada en el dominio del tiempo que es presente en la salida 121.

La señal diezmada en el dominio del tiempo presente en la salida 121 del medio de diezmado 120 es alimentada subsiguientemente en un medio de ventaneo de síntesis 122, el cual es implementado para aplicar una función de ventana de síntesis a la señal diezmada en el dominio del tiempo, en lo cual la función de ventana de síntesis coincide con una función de análisis aplicada por el procesador de ventana de análisis 110 del medio de ventaneo 102. Aquí, la función de ventana de síntesis puede coincidir con la función de análisis en una manera tal que la aplicación de la función de síntesis compensa el efecto de la función de análisis. De manera alternativa, el medio de ventaneo de síntesis 122 puede ser implementado también para funcionar sobre la señal de audio modificada en el dominio del tiempo en la salida 109 del segundo convertidor 108.

Luego se suministra la señal diezmada y ventaneada en el dominio del tiempo de la salida 123 del medio de ventaneo de síntesis 122 a un medio de superposición y suma 124. Aquí, el medio de superposición y suma 124 recibe una información acerca de la primera distancia de tiempo para la operación se superposición y suma (a) aplicada por el medio de ventaneo - - 102 y del factor de extensión de ancho de banda (s) aplicado por el modificador de fase 106 en la salida 115. El medio de superposición y suma 124 aplica una distancia de tiempo diferente (b) que es más larga que la primera distancia de tiempo (a) a la señal diezmada y ventaneada en el dominio del tiempo.

En el caso, que se lleva a cabo un proceso de diezmado después del proceso de superposición y suma, la condición o=b/a puede ser cumplida de acuerdo con un esquema de extensión de ancho de banda. Sin embargo, en la realización tal como se muestra en la Figura 2, se lleva a cabo el proceso de diezmado antes del proceso de superposición y suma de modo que el proceso de diezmado puede tener un efecto sobre la condición arriba indicada, lo cual debe ser tenido en cuenta en general por el medio de superposición y suma 124.

Preferiblemente, el aparato mostrado en la Figura 2 es configurado para llevar a cabo un algoritmo de BWE que comprende un factor de extensión de ancho de banda (s) , en el cual el factor de extensión de ancho de banda (s) controla una expansión de frecuencia desde una banda de la señal de audio hacia una banda de frecuencia blanco. De esta manera, se puede obtener la señal en el rango de frecuencia blanco, la cual depende del factor de extensión de ancho de banda (s) , en la salida 125 del medio de superposición y suma 124.

- - En el contexto de un algoritmo de B E, un medio de superposición y suma 124 es implementado para inducir una expansión en el tiempo de la señal de audio mediante un mayor espaciamiento entre sí de los bloques consecutivos de una señal de entrada en el dominio del tiempo que él de los bloques consecutivos superpuestos originales de la señal de audio para obtener la señal expandida.

En el case que se lleva a cabo el proceso de diezmado después de proceso de superposición y suma, una expansión en el tiempo por el factor de 2,0, por ejemplo, conducirá a una señal expandida que el doble de duración que la señal de audio original 100. El proceso de diezmado subsiguiente con un correspondiente factor de diezmado de 2,0, por ejemplo, conducirá a una señal diezmada y extendida de ancho de banda, la cual tienen de vuelta la duración original de la señal de audio 100. Sin embargo, en caso que se ubica el medio de. diezmado 120 delante del medio de superposición y suma 124, tal como se muestra en la Figura 2, el medio de diezmado 120 puede ser configurado para operar sobre un factor de extensión de ancho de banda (s) de 2,0, de modo que, por ejemplo, se quita cada segunda muestra desde su señal de entrada en el dominio del tiempo, lo cual da como resultado una señal diezmada en el dominio del tiempo con la mitad de duración de la señal de audio original 100. Simultáneamente, una señal filtrado por pasa banda en el rango de frecuencia - - de, por ejemplo, 2 a 4 kHz será extendida en su ancho de banda por un factor 2,0, lo cual conduce a una señal 121 en el correspondiente rango de frecuencia blanco de, por ejemplo, 4 a 8 kHz después del proceso de diezmado. Subsiguientemente la señal diezmada y extendida de ancho de banda puede ser expandida en el tiempo a la duración original de la señal de audio 100 mediante el medio de superposición y suma corriente abajo 124. El procesamiento arriba mencionado hace referencia esencialmente al principio de funcionamiento de un vocoder de fase.

Subsiguientemente, se suministra la señal en el rango de frecuencia blanco obtenida desde la salida 125 del medio de superposición y suma 124 a un elemento de ajuste de envolvente 130. Sobre la base de los parámetros transmitidos, recibidos en la entrada 101 del elemento de ajuste de envolvente 130 derivados de la señal de audio 100, el elemento de ajuste de envolvente 130 es implementado para ajustar la envolvente de la señal en la salida 125 del medio de superposición y suma 124 en una manera determinada, de modo que se obtenga una señal corregida en la salida 129 del elemento de ajuste de envolvente 130, la cual comprende una envolvente ajustada y/o una tonalidad corregida.

La Figura 3 muestra un diagrama de bloques de una realización el presente invento, en la cual el aparato es configurado para llevar a cabo un algoritmo de extensión de - - ancho de banda usando distintos factores de BWE (s) tales como, por ejemplo, a-2 , 3, 4, .... Inicialmente, los parámetros del algoritmo de extensión de ancho de banda se avanzan vía la entrada 128 hacia todos los dispositivos que funcionan en conjunto sobre los factores de BWE (s) . Estos son, en particular, el primer convertidor 104, el modificador de fase 106, el segundo convertidor 108, el medio de diezmado 120 y el medio de superposición y suma 124, tal como se muestra en la Figura 3. Tal como se describe más arriba, los dispositivos de procesamiento consecutivos para llevar a cabo el algoritmo de extensión de ancho de banda son implementados para funcionar en una manera tal se obtengan para distintos factores de BWE (s) en la entrada 128 correspondientes señales de audio modificadas en el dominio del tiempo en las salidas 121-1, 121-2, 121-3, ... del medio de diezmado 120, las cuales se caracterizan por distintos rangos o bandas de frecuencia blanco, respectivamente. Entonces, las señales de audio modificadas en el dominio del tiempo son procesadas por el medio de superposición y suma 124 sobre la base de los distintos factores de BWE (s) , lo cual conduce a distintos resultados del proceso de superposición y suma en las salidas 125-1, 125-2, 125-3, ... del medio de superposición y suma 124. Estos resultados del proceso de superposición y suma finalmente son combinados por un medio de combinación 126 en - - su salida 127 para obtener una señal combinada que comprende las distintas bandas de frecuencia blanco.

Para una vista ilustrativa, el principio básico del algoritmo de extensión de ancho de banda es ilustrado en la Figura 10. En particular, la Figura 10 muestra esquemáticamente como el factor de BWE (s) controla, por ejemplo, el corrimiento de frecuencia entre una porción 113-1, 113-2, 113-3 de la banda de la señal de audio 100 y una banda de frecuencia blanco 125-1, 125-2 o 125-3, respectivamente.

Primero, en el caso de o=2, se extrae una señal filtrado por pasa banda 113-1 con un rango de frecuencia de, por ejemplo, 2 a 4 kHz desde una banda inicial de la señal de audio 100. Luego, se transforma la banda de la señal filtrado por pasa banda 113-1 a la primera salida 125-1 del medio de superposición y suma 124. La primera salida 125-1 tiene un rango de frecuencia de 4 a 8 kHz que corresponde a una extensión de ancho de banda de la banda inicial de la señal de audio 100 por un factor 2,0 (s=2). A esta banda superior para o=2, también se puede hacer referencia como la "primera banda parcheada" . Siguiente, en el caso de s=3 , se extrae una señal filtrado por pasa banda 113-2 con un rango de frecuencia de 8/3 a 4 kHz, la cual se transforma entonces a la segunda salida 125-2, después del medio de superposición y suma 124, caracterizada por un rango de frecuencia de 8 a 12 - - kHz . A la banda superior de la salida 125-2 que corresponde a una extensión de ancho de banda por el factor 3,0 (s=3), también se puede hacer referencia como la "segunda banda parcheada". Siguiente, en el caso de s=4, se extrae una señal filtrado por pasa banda 113-3 con un rango de frecuencia de 3 a 4 kHz, la cual se transforma entonces a la terca salida 125-3 con un rango de frecuencia de 12 a 16 kHz después del medio de superposición y suma 124. A la banda superior de la salida 125-3 que corresponde a una extensión de ancho de banda por el factor 4,0 (s=4), también se puede hacer referencia como la "tercera banda parcheada". Con eso, se obtienen las bandas parcheadas primera, segunda y tercera cubriendo bandas consecutivas de frecuencia hasta una frecuencia máxima de 16 kHz que se requiere preferiblemente para manipula una señal de audio 100 en el contexto de un algoritmo de extensión de ancho de banda de alta calidad. En principio, se puede llevar a cabo el algoritmo de extensión de ancho de banda también para valores más latos del factor de BWE s>4 , lo cual produce bandas de frecuencias aún más altas. Sin embargo, tomar en cuenta tales bandas de alta frecuencia, en general no da resultados para una mejora adicional de la calidad perceptiva de la señal de audio manip lada .

Tal como se muestra en la Figura 3 , los resultados del proceso de superposición y suma 125-1, 125-2, 125-3, - - basados sobre los distintos factores de BWE (s) son combinados además por un medio de combinación 126, de modo que se obtenga una señal en la salida 127 que comprende las distintas bandas de frecuencia (ver la Figura 10) . Aquí la señal combinada en la salida 127 consiste en la banda parcheada de lata frecuencia transformada, que está en el rango desde la frecuencia máxima (fmax) de la señal de audio 100 hasta s veces la frecuencia máxima (oxfmax ) , como, por ejemplo, desde 4 a 16 kHz (Figura 10) .

El elemento de ajuste de envolvente corriente abajo 130 es configurado, como arriba mencionado, para modificar la envolvente de lá señal combinada sobre la base de parámetros transmitidos desde la señal de audio presente en la entrada 101, lo cual conduce a una señal corregida en la salida 129 del elemento de ajuste de envolvente 130. La señal corregida suministrada por el elemento de ajuste de envolvente 130 en la salida 129 es combinada además con la señal de audio original 100 por otro medio de combinación 132 a fin de obtener finalmente una señal manipulada extendida en su ancho de banda en la salida 131 del otro medio de combinación 132. Tal como se muestra en la Figura 10, el rango de frecuencia de la señal extendida de ancho de banda en la salida 131 comprende la banda de la señal de audio 100 y las distintas bandas de frecuencia obtenidas de la transformación de acuerdo con el algoritmo de extensión de ancho de banda, - - teniendo un rango total, por ejemplo, desde 0 a 16 kHz (Figura 10) .

En una realización del presente invento de acuerdo con la Figura 2, el medio de ventaneo 102 es configurado para insertar valores de relleno en posiciones de tiempo especificados delante de una primera muestra de un bloque consecutivo de muestras de audio o detrás de una última muestra del bloque consecutivo de muestras de audio, en lo cual una suma de una cantidad de valores de relleno y de una cantidad de valores en el bloque consecutivo es por lo menos 1,4 veces la cantidad de valores en el bloque consecutivo de muestras de audio.

En particular con respecto a la Figura 7, se inserta una primera porción del bloque rellenado que tiene la longitud de muestras 712 delante de la primera muestra 708 del bloque consecutivo centrado 704 que tiene la longitud de muestras 706, mientras se inserta una segunda porción del bloque rellenado que tiene la longitud de muestras 714 detrás del bloque consecutivo centrado 704. Se debe tomar nota que en la Figura 7, el bloque consecutivo 704 o la ventana de análisis, respectivamente, son marcados por "región de interés" (ROI), en la cual las líneas verticales continuas que cruzan las muestras 0 y 1000 indican los bordes de la ventana de análisis 704, en la cual vale la condición d periodicidad circular.

- - Preferiblemente, la primera porción del bloque rellenado a la izquierda del bloque consecutivo 704 tiene el mismo tamaño que la segunda porción del bloque rellenado a la derecha del bloque consecutivo 704, en lo cual el tamaño total del bloque rellenado tiene una longitud de muestras 716 (por ejemplo, desde la muestra -500 hasta la muestra 1500), que es el doble de la longitud de muestras 706 del bloque consecutivo centrado 704. Se muestra en la Figura 7b, por ejemplo, que un componente transitorio 702 originalmente ubicado cerca del borde izquierdo de la ventana de análisis 704 será desplazado en el tiempo debido a una modificación de fase aplicada por el modificador de fase 106, de modo que se obtenga el componente transitorio desplazado 707 centrado alrededor de la primera muestra 708 del bloque consecutivo centrado 704. En este caso, se ubicará el componente transitorio desplazado 707 por completo dentro del bloque rellenado, el cual tiene la longitud de muestras 716, evitando de ese modo una convolución circular o envoltura circular causada por la modificación de fase aplicada.

Si, por ejemplo, la primera porción del bloque rellenado a la izquierda de la primera muestra 708 del bloque consecutivo centrado 704 no es suficientemente larga para acomodar completamente un posible corrimiento en el tiempo del componente transitorio, este último será convuelto cíclicamente, eso significa que por lo menos una parte del - - componente transitorio re-aparecerá en la segunda porción del bloque rellenado a la derecha de la última muestra 710 del bloque consecutivo 704. Sin embargo, esta parte del componente transitorio preferiblemente puede ser quitada por el extractor de relleno 118 después de aplicar el modificador de fase 106 en pasos posteriores del procesamiento. Sin embargo, la longitud de muestras 716 del bloque rellenado debe ser por lo menos 1,4 veces el tamaño de la longitud de muestras 706 del bloque consecutivo 704. Se toma en consideración que la modificación de fase aplicada por el modificador de fase 106 como, por ejemplo, realizado por un vocoder de fase, siempre conduce a una corrimiento en el tiempo hacia tiempos negativos, es decir a un corrimiento hacia la izquierda sobre el eje de tiempo y muestras.

En algunas realizaciones del presente invento, los convertidores primero y segundo 104, 108 son implementados para funcionar sobre una longitud de conversión que corresponde a la longitud de muestras del bloque rellenado. Por ejemplo, si el bloque consecutivo tiene una longitud de muestras N, mientras el bloque rellenado tiene una longitud de muestras de por lo menos 1,4 x N, tal como, por ejemplo, 2N, la longitud de conversión aplicada por los convertidores primero y segundo 104, 108 también será por lo menos de 1,4 x N, por ejemplo, 2N.

- - En principio, sin embargo, la longitud de conversión del primer convertidor y del segundo convertidor 104, 108 debería ser elegida en dependencia del factor de BWE (s) por el hecho de que cuanto más grande es el factor de BWE (s) , tanto más larga debería ser la longitud de conversión. Sin embargo, preferiblemente es suficiente utilizar una longitud de conversión que es tan larga como la longitud de muestras del bloque rellenado, aún si la longitud de conversión no es suficiente larga para evitar cualquier tipo de efectos de convolución cíclica para valores más grandes del factor de BWE, tales como, por ejemplo, s>4. Esto es porque en un semejante caso (s>4) el aliasing en el tiempo de los eventos transitorios debido, por ejemplo, a una convolución cíclica es insignificante en las bandas transformadas rellenadas de alta frecuencia y no tendrá ninguna influencia significativa sobre la calidad perceptiva.

En la Figura 4 se muestra una realización que comprende un detector de componente transitorio 134 que es implementado para detectar un evento transitorio en un bloque de la señal de audio 100, tal como, por ejemplo, en el bloque consecutivo 704 de muestras de audio que tiene la longitud de muestras 706 tal como se muestra en la Figura 7.

Específicamente, el detector de componente transitorio 134 es configurado para determinar si un bloque consecutivo de bloque de audio contiene un evento transitorio que es - - caracterizado por un cambio repentino de la energía de la señal de audio 100 en el tiempo, tal como, por ejemplo, un aumento o una disminución de energía por más de, por ejemplo, 50% desde una porción en el tiempo hacia la próxima porción en el tiempo.

La detección de componente transitorio puede ser basada, por ejemplo, sobre un procesamiento selectivo de frecuencias tal como una operación de cuadrado de partes de alta frecuencia de una representación espectral que representa una medida de la potencia contenida en la banda de alta frecuencia de la señal de audio 100 y una comparación subsiguiente del cambio en el tiempo de la potencia con un umbral predeterminado .

Además, por un lado, el primer convertidor 104 es configurado para convertir el bloque rellenado en la salida 103 del elemento de rellenado 112, cuando el evento transitorio, tal como, por ejemplo, el evento transitorio 702 de la Figura 7b es detectado por el detector de componente transitorio 134 en un cierto bloque 133-1 de la señal de audio 100 que corresponde al bloque rellenado. Por otro lado, el primer convertidor 104 es configurado para convertir un bloque no rellenado que tiene sólo valores de señal de audio en la salida 133-2 del detector de componente transitorio 134, en lo cual el bloque no rellenado corresponde al bloque - - de la señal de audio 100 cuando no se detecta el evento transitorio en el bloque.

Aquí, el bloque rellenado comprende valores de relleno tales como, por ejemplo, valores cero a la izquierda y a las derecha del bloque consecutivo centrado 704 de la Figura 7b y valores de señal de audio que residen dentro del bloque consecutivo centrado 704 de la Figura 7b. Sin embargo, el bloque no rellenado comprende sólo valores de señal de audio, tales como, por ejemplo, aquellos valores de muestras de audio que residen dentro del bloque consecutivo 704 de la Figura 7b.

En la realización arriba mencionada, en la cual la conversión mediante el primer convertidor 104 y, por lo tanto, también los pasos subsiguientes de procesamiento sobre la base de la salida 105 del primer convertidor 104 dependen de la detección del evento transitorio, el bloque rellenado en la salida 103 del elemento de rellenado 112 es generado sólo para ciertos bloques de tiempo seleccionados (es decir para bloques de tiempo que contienen un evento transitorio) para los cuales se anticipa el relleno antes de las manipulaciones adicionales de la señal de audio 100, lo cual es ventajoso en términos de la calidad perceptiva.

En otras realizaciones del presente invento, se hace la elección de las rutas de señal apropiada para el procesamiento subsiguiente, indicadas en la Figura 4 como - - "sin evento transitorio" o "evento transitorio", respectivamente, con el uso del conmutador 136 tal como se muestra en la Figura 5, el cual es controlado por la salida 135 del detector de componente transitorio 134 que contiene la información sobre la detección del evento transitorio incluyendo la información se detectó o no un evento transitorio en el bloque de la señal de audio 100. Esta información del detector de componente transitorio 134 es enviada por el conmutador 136 a la salida 135-1 del conmutador 136 denominado como "evento transitorio" o a la salida 135-2 del conmutador 136 denominado como "sin evento transitorio". Aquí, las salidas 135-1, 135-2 del conmutador 136 en la Figura 5 corresponden idénticamente a las salidas 133-1, 133-2 del detector de componente transitorio 134 en la Figura 4. Como se menciona arriba, el bloque rellenado en la salida 103 del elemento de rellenado 112 es generado desde el bloque 135-1 de la señal de audio 100 en la cual el evento transitorio es detectado por el detector de componente transitorio 134. Además, el conmutador 136 es configurado para alimentar el bloque rellenado generado por el elemento de rellenado 112 en la salida 103 a un primer sub-convertidor 138-1 cuando el evento transitorio es detectado por el detector de componente transitorio 134 y para alimentar el bloque no rellenado en la salida 135-2 a un segundo sub-convertidor 138-2 cuando no se detectó ningún evento - - transitorio mediante el detector de componente transitorio 134. Aquí, el primer sub-convertidor 138-1 es adaptado para llevar a cabo una conversión del bloque rellenado usando una primera longitud de conversión, tal como, por ejemplo, 2N, mientras el segundo sub-convertidor 138-2 es adaptado para llevar a cabo una conversión del bloque no rellenado usando una segunda longitud de conversión, tal como, por ejemplo, N. Debido a que el bloque rellenado tiene una longitud de muestras más larga que el bloque no rellenado, la segunda longitud de conversión es más corta que la primera longitud de conversión. Finalmente, se obtiene una primera representación espectral en la salida 137-1 del primer sub-convertidor 138-1 o una segunda representación espectral en la salida 137-2 del primer sub-convertidor 138-2, respectivamente, la cual puede ser procesada adicionalmente en el contexto del algoritmo de extensión de ancho de banda, como se ilustró más arriba.

En una realización alternativa del presente invento, el medio de ventaneo 102 comprende un procesador de ventana de análisis 140 que es configurado para aplicar una función de ventana de análisis a un bloque consecutivo de muestras de audio, tal como, por ejemplo, el bloque consecutivo 704 de la Figura 7. La función de ventana de análisis aplicada por el procesador de ventana de análisis 140 comprende en particular por lo menos una zona de guardia en una posición inicial de - - la función de ventana, tal como, por ejemplo, la porción de tiempo que comienza en la primera muestra 718 (es decir, la muestra -500) de la función de ventana 709 en el lado izquierdo del bloque consecutivo 704 de la Figura 7b, o en una posición final de la función de ventana, tal como, por ejemplo, la porción de tiempo que termina en la última muestra 718 (es decir, la muestra 1500) de la función de ventana 709 en el lado derecho del bloque consecutivo 704 de la Figura 7b.

La Figura 6 muestra una realización alternativa del presente invento que comprende además un conmutador de ventana de guardia 142 que es configurado para controlar el procesador de ventana de análisis 140 dependiendo de la información acerca de la detección de componente transitorio como es suministrada por la salida 135 del detector de componente transitorio 134. Además, el procesador de ventana de análisis 140 es controlado por el hecho de que se genera un primer bloque consecutivo en la salida 139-1 del conmutador de ventana de guardia 142, que tiene un primer tamaño de ventana, cuando el evento transitorio es detectado por el detector de componente transitorio 134 y se genera un bloque consecutivo adicional en la salida 139-2 del conmutador de ventana de guardia 142, que tiene un segundo tamaño de ventana, cuando no se detectó ningún evento transitorio mediante el detector de componente transitorio - - 134. Aquí, el procesador de ventana de análisis 140 es configurado para aplicar la función de ventana de análisis, tal como, por ejemplo, una ventana de Hann con una zona de guardia como se ilustra en la Figura 9a, al bloque consecutivo en la salida 139-1 o al bloque consecutivo adicional en la salida 139-2, de modo que se obtenga un bloque rellenado en la salida 141-1 o un bloque no rellenado en la salida 141-2, respectivamente.

En la Figura 9a, el bloque rellenado en la salida 141-1 comprende, por ejemplo, una primera zona de guardia 910 y una segunda zona de guardia 920, en lo cual se fijan los valores de las muestras de audio de las zonas de guardia 910, 920 en cero. Aquí, las zonas de guardia 910, 920 circundan una zona 930 que corresponde a la característica de la función de ventana, en este caso, por ejemplo, dada por la forma característica de la ventana de Hann. De manera alternativa, con respecto a la Figura 9b, los valores de las muestras de audio de las zonas de guardia 910, 920 también pueden oscilar con pequeña amplitud alrededor de cero. Las líneas verticales en la Figura 9 indican una primera muestra 905 y una última muestra 915 de la zona 930. Adicionalmente, las zonas de guardia 910, 940 comienzan con la primear muestra 901 de la función de ventana, mientras la zona de guardia 920, 950 termina con la última muestra 903 de la función de ventana. La longitud de muestras 900 de la ventana completa, que tiene - - una porción de ventana de Hann centrada, la cual incluye las zonas de guardia 910, 920 de la Figura 9a, por ejemplo, tiene el doble de longitud que la longitud de muestras de la zona 930.

En el caso que el evento transitorio es detectado por el detector de componente transitorio 134, el bloque consecutivo en la salida 139-1 es procesado por el hecho de que es ponderado con la forma característica de la función de ventana de análisis, tal como, por ejemplo, la ventana de Hann normalizada 901 con las zonas de guardia 910, 920 como se muestra en la Figura 9a, mientras en el caso que no se detecta ningún evento transitorio mediante el detector de componente transitorio 134, el bloque consecutivo en la salida 139-2 es procesado por el hecho de que es ponderado con la forma característica de la zona 930 de la ventana de Hann normalizada 901 de la Figura 9a.

En el caso que el bloque rellenado o el bloque no rellenado en las salidas 141-1, 141-2 son generados por el uso de la función de análisis de ventana que comprende la zona de guardia como recién mencionado, los valores de relleno o valores de señal de audio tienen su origen en la ponderación de las muestras de audio con la zona de guardia o la zona sin guardia (característica) de la función de ventana, respectivamente. Aquí, tanto los valores de relleno como los valores de señal de audio representan valores - - ponderados, en lo cual específicamente los valores de relleno son aproximadamente de cero.. Específicamente el bloque rellenado o el bloque no rellenado en las salidas 141-1, 141-2 pueden corresponder a aquellos en las salidas 103, 135-2 en la realización que se muestra en la Figura 5.

Por efecto de la ponderación debido a la aplicación de la función de ventana de análisis, el detector de componente transitorio 134 y el procesador de ventana de análisis 140 deben ser dispuestos preferiblemente en una manera tal, que la detección del evento transitorio mediante el detector de componente transitorio 134 se realice antes que la función de ventana de análisis sea aplicada por el procesador de ventana de análisis 140. De otra manera, se tendrá una influencia significativa en la detección del evento transitorio debido al proceso de ponderación, lo cual es especialmente el caso para un evento transitorio ubicado dentro de las zonas de guardia o cerca de los bordes de la zona sin guardia (característica) , porque en esta región los factores de ponderación, que corresponden a los valores de la función de ventana de análisis, son siempre muy cerca a cero.

Subsiguientemente, se convierten el bloque rellenado en la salida 114-1 y el bloque no rellenado en la salida 114-2 en sus representaciones espectrales en las salidas 143-1, 143-2 usando el primer sub-convertidor 138-1 con la primera longitud de conversión y el segundo sub-convertidor 138-2 con - - la segunda longitud de conversión, en lo cual las longitud primera y segunda de conversión corresponden a las longitudes de los bloques convertidos, respectivamente. Las representaciones espectrales en las salidas 143 -1 , 143 -2 pueden ser procesadas adicionalmente como en las realizaciones que se discuten más arriba.

La Figura 8 muestra una vista global de un a realización de la implementación de extensión de ancho de banda. En particular, la Figura 8 incluye el bloque 800 denotado por señal de audio o parámetros adicionales, el cual provee la señal de audio 100 denotado por el bloque de salida "datos de audio de baja frecuencia (LF) " . Además, el bloque 800 provee parámetros decodificados que pueden corresponder a la entrada 101 del elemento de ajuste de envolvente 130 en las Figuras 2 y 3 . Los parámetros en la salida 101 del bloque 800 pueden ser utilizados subsiguientemente para el elemento de ajuste de envolvente 130 y/o un corrector de tonalidad 150 . El elemento de ajuste de envolvente 130 y el corrector de tonalidad 150 son configurados para aplicar, por ejemplo, una distorsión predeterminada a la señal combinada 127 para obtener la señal distorsionada 151 , la cual puede corresponder a la señal corregida de las Figuras 2 y 3 .

El bloque 800 puede comprender información lateral sobre la detección de componente transitorio suministrado en el lado del codificador de la implementación de extensión de - - ancho de banda. En este caso, la información lateral es transmitida además por una transmisión de bits 810 como indicada por la línea de trazos al detector de componente transitorio 134 en el lado del decodificador .

Preferiblemente, sin embargo, se lleva a cabo la detección de componente transitorio sobre la pluralidad de bloques consecutivos de muestras de audio en la salida 111 del procesador de ventana de análisis 110 al cual aquí se hace referencia como "dispositivo de formación de cuadro" 102-1. En otras palabras, la información lateral del componente transitorio es detectada en el detector de componente transitorio 134 que representa al decodificador o es transmitida en la transmisión de bits 810 desde el codificador (línea de trazos) . La primera solución no aumenta la cantidad de bits a transmitir que debe ser transmitida, mientras la segunda solución facilita la detección, ya que la señal original todavía es disponible.

Específicamente, la Figura 8 muestra un diagrama de bloques de un aparato que está configurado para llevar a cabo una implementación de extensión de ancho de banda armónica (HBE) , tal como se muestra en la Figura 13, la cual es combinada con el conmutador 136 controlado por el detector de componente transitorio 134 para ejecutar un procesamiento adaptivo a la señal que depende de la información acerca de la ocurrencia de un evento transitorio en la salida 135.

- - En la Figura 8, se suministra la pluralidad de bloques consecutivos en la salida 111 del dispositivo de formación de cuadro 102-1 a un dispositivo de ventaneo de análisis 102-2 que es configurado para aplicar una función de ventana de análisis que tiene una forma de ventana predeterminada, tal como, por ejemplo, una ventana de coseno elevado que es caracterizada por flancos menos profundos en comparación con una forma de ventana rectangular que se aplica típicamente en una operación de formación de cuadro. Dependiendo de la decisión de conmutación denominado como "evento transitorio" o "sin evento transitorio" obtenida con el conmutador 136, se procesan adicionalmente el bloque 135-1 que incluye el evento transitorio o el bloque 135-2 que no incluye un evento transitorio, respectivamente, de la pluralidad de bloques consecutivos ventaneados (es decir formado de cuadro y ponderado) en la salida 811 del dispositivo de ventaneo de análisis 102-2 como detectado por el detector de componente transitorio 134, tal como se discutió en detalle más arriba. Especialmente, un dispositivo de rellenado con cero 102-3 que puede corresponder al medio de rellenado 112 de la ventana 102 en las Figuras 2, 3 y 5 es utilizado preferiblemente para insertar valores de cero fuera del bloque de tiempo 135-1, de modo que se obtenga un bloque rellenado con ceros 803, el cual puede corresponder al bloque rellenado 103, con la longitud de muestras 2N que tienen el doble de longitud que - - la longitud de muestras N del bloque de tiempo 135-2. Aquí, el detector de componente transitorio 134 es denominado como "detector de posición de componente transitorio", porque puede ser utilizado para determinar la "posición" (es decir, la ubicación en el tiempo) del bloque consecutivo 135-1 con respecto a la pluralidad de bloques consecutivos en la salida 811, es decir el respectivo bloque de tiempo que contienen el evento transitorio puede ser identificado desde la secuencia de bloques consecutivos en la salida 811.

En una realización, el bloque rellenado siempre es generado desde un bloque consecutivo específico, para el cual se detecta el evento transitorio independiente de su ubicación dentro del bloque. En este caso, el detector de componente transitorio 134 es simplemente configurado para determinar (identificar) el bloque que contiene el evento transitorio. En una realización alternativa, el detector de componente transitorio 134 puede ser configurado además para determinar la ubicación particular del evento transitorio con respecto al bloque. En la realización anterior, se puede utilizar una implementación más simple del detector de componente transitorio 134, mientras en la última realización la complejidad computacional del procesamiento puede ser reducida, porque el bloque rellenado será generado y procesado adicionalmente sólo si el evento transitorio es ubicado en una ubicación particular, preferiblemente cerca de - - un borde de bloque. En otras palabras, en la última realización el relleno con ceros o las zonas de guardia sólo serán necesarios si un evento transitorio es ubicado cerca de los bordes de bloque (es decir, si ocurren componentes transitorios fuera del centro) .

El aparato de la Figura 8 provee esencialmente un método para contrarrestar el efecto de convolución cíclica mediante la introducción de los tal denominados "intervalos de guardia" rellenando con ceros ambos extremos de cada bloque de tiempo antes de entrar al procesamiento de vocoder de fase. Aquí, el procesamiento de vocoder de fase empieza con el funcionamiento del primer o del segundo sub-convertidor 138-1, 138-2 que comprende, por ejemplo, un procesador de FFT que tienen una longitud de conversión de 2N o N, respectivamente.

Específicamente, el primer convertidor 104 puede ser implementado para llevar a cabo una transformación de Fourier de tiempo corto (STFT) del bloque rellenado 103, mientras el segundo convertidor 108 puede ser implementado para llevar a cabo una transformación inversa de STFT basada en la magnitud y fase de la representación espectral modificada en la salida 105.

Con respecto a la Figura 8, después de haber calculado las nuevas fases y, por ejemplo, llevada a cabo la síntesis de STFT inversa o de transformación inversa discreta de - - Fourier (IDFT) , se eliminan sencillamente los intervalos de guardia desde la parte central del bloque de tiempo, el cual es procesado adicionalmente en el paso de superposición y suma (OLA) del vocoder. De manera alternativa, los intervalos de guardia no se deben eliminar, pero serán procesados adicionalmente en el paso de OLA. Efectivamente, esta operación puede ser considerada también como un sobremúestreo .

Como un resultado de la implementación de acuerdo con la Figura 8, se obtienen una señal manipulada y extendida de ancho de banda en la salida 131 del otro medio de combinación 132. Subsiguientemente, se puede utilizar otro dispositivo de formación de cuadro 160 para modificar la formación dé cuadro (es decir el tamaño de ventana de la pluralidad de bloques de tiempo consecutivos) de la señal de audio manipulada en la salida 131, denominado como "señal de audio con alta frecuencia (HF)", en una manera predeterminada, por ejemplo, de modo que el bloque consecutivo de las muestras de audio en la salida 161 del otro dispositivo de formación de cuadro 160 tendrá el mismo tamaño de ventana como la señal de audio inicial 800.

La posible ventaja de utilizar intervalos de guardia en este contexto, mientras se procesan los componentes transitorios mediante un vocoder de fase como es delineado, por ejemplo, en la realización de la Figura 8, es visualizada - - de manera ejemplar en la Figura 7. El gráfico a) muestra el componente transitorio centrado en la ventana de análisis ("linea de trazos finos" indican la señal original). En este caso, el intervalo de guardia no tienen ningún efecto significativo sobre el procesamiento ya que la ventana puede acomodar también el componente transitorio modificado ("línea continua fina" usando intervalos de guardia; "línea continua gruesa" sin intervalos de guardia) . Sin embargo, tal como se muestra en el gráfico b) , si el componente transitorio es fuera del centro ("línea de trazos finos" indican la señal original) , será desplazado en el tiempo por la manipulación de fase durante el procesamiento de vocoder. Si este corrimiento no puede ser acomodado directamente por el lapso de tiempo cubierto por la ventana, ocurre una envoltura circular ("línea continua gruesa" sin intervalos de guardia) que posiblemente conduce a un mal emplazamiento (de partes) del componente transitorio, con lo cual a una degradación de la calidad de audio perceptiva. Sin embargo, el uso de intervalos de guardia evita los efectos de convolución circular mediante la acomodación de las partes desplazadas en la zona de guardia ("línea continua fina" usando intervalos de guardia .

Como una alternativa a la implementación de relleno con ceros arriba mencionada, se puede utilizar las ventanas con zonas de guardia (ver la Figura 9) tal como antes mencionado.

- - En el caso de las ventanas con zonas de guardia, los valores son aproximadamente de cero en uno o ambos lados . Pueden ser exactamente cero u oscilar con pequeña amplitud alrededor de cero con la posible ventaja de no desplazar ceros desde la zona de guardia hacia adentro de la ventana a través de la adaptación de fase, sino valores pequeños. La figura 9 muestra ambos tipos de ventanas. En particular en la Figura 9, la diferencia entre las funciones de ventana 901, 902 es que en la Figura 9a, la función de ventana 901 comprende las zonas de guardia 910, 920 cuyos valores de muestra son exactamente cero, mientras en la Figura 9b la función de ventana 902 comprende las zonas de guardia 940, 950 cuyos valores de muestra oscilan con pequeña amplitud cero. Por lo tanto, en el último caso se desplazan valores pequeños en lugar de valores cero a través de la adaptación de fase desde la zona de guardia 940 o 950 dentro de la zona 930 de la ventana .

Tal como se mencionó más arriba, la aplicación de los intervalos de guardia puede aumentar la complejidad computacional debido a sus equivalencias al sobremuestreo ya que las transformaciones de análisis y síntesis deben ser calculadas sobre bloques de longitudes sustancialmente extendidas (usualmente por un factor de 2) . Sobre un lado, eso asegura una calidad perceptiva mejorada de por lo menos los bloque de señal con componente transitorio, pero eso - - ocurre sólo en bloques seleccionados de cualquier señal de audio de música. Por otro lado, se incrementa constantemente la potencia de procesamiento por todo el procesamiento de la señal entera .

Algunas realizaciones del invento se basan sobre el hecho de que el sobremuestreo es ventajoso para ciertos bloques de señal seleccionados. Específicamente, estas realizaciones proveen un nuevo método de procesamiento adaptivo de señal que comprende un mecanismo e detección y aplica el sobremuestreo sólo a aquellos bloques de señal en los cuales mejora efectivamente la calidad perceptiva. Más aún, debido al procesamiento de señal que conmuta adaptivamente entre el procesamiento estándar y el procesamiento avanzado, se puede mejorar significativamente la eficiencia del procesamiento de señal en el contexto del presente invento, reduciendo de ese modo el esfuerzo computacional .

Para ilustrar la diferencia entre el procesamiento estándar y el procesamiento avanzado, se describe en lo que sigue una comparación de una típica implementación de extensión de ancho de banda armónica (HBE) (Figura 13) con la implementación de las Figura 8.

La Figura 13 ilustra una vista global de la HBE. Aquí, los múltiples pasos de vocoder de fase funcionan con la misma frecuencia de muestreo como el sistema entero. Sin embargo, - - la Figura 8 muestra una manera de procesamiento que aplica el rellenado con ceros o el sobremuestreo sólo a aquellas partes de la señal donde es realmente favorable y da como resultado una calidad perceptiva mejorada. Esto se logra mediante una decisión de conmutación que preferiblemente depende de una detección de ubicación de componente transitorio que elige la ruta de señal apropiada para el procesamiento subsiguiente. En comparación a la HBE, que se muestra en la Figura 13, se han agregado la detección de ubicación de componente transitorio 134 (desde la señal o la transmisión de bits), el conmutador 136 y la ruta de señal del lado derecho, que empieza con la operación de rellenado con ceros aplicado por el medio de rellenado con ceros 102-3 y que termina con la extracción de relleno (opcional) llevada a cabo por el extractor de relleno 118, a las realizaciones que se ilustran en la Figura 8.

En una realización del presente invento el medio de ventaneo 102 es configurado para generar una pluralidad 111 de bloques consecutivos de muestras de audio que forman una secuencia de tiempo que comprende por lo menos un primer par 145-1 de un bloque no rellenado 133-2, 141-2 y un bloque consecutivo rellenado 103, 141-1 y un segundo par 145-2 de un bloque rellenado 103, 141-1 y un bloque consecutivo no rellenado 133-2, 141-2 (ver la Figura 12) . Los pares primero y segundo de bloques consecutivos 145-1, 145-2 son procesados - - adicionalmente en el contexto de la implementación de extensión de ancho de banda, hasta que se obtienen sus correspondientes muestras de audio diezmadas en las salidas 147-1, 147-2 del medio de diezmado 120, respectivamente. Las muestras de audio diezmadas 147-1, 147-2 se alimentan subsiguientemente dentro del medio de superposición y suma 124, el cual es configurado para sumar bloques de superposición de las muestras de audio diezmadas 147-1, 147-2 del primer par 145-1 o del segundo par 145-2.

De manera alternativa, el medio de diezmado 120 también puede ser ubicada detrás del medio de superposición y suma 124, como se describió correspondientemente más arriba.

Entonces, para el primer par 145-1 una distancia de tiempo b', la cual puede coincidir con la distancia de tiempo b de la Figura 2, entre una primera muestra 151, 155 del bloque no rellenado 133-2, 141-2 y una primera muestra 153, 157 de los valores de señal de audio del bloque rellenado 103, 141-1, respectivamente, es suministrada por el medio de superposición y suma 124, de modo que se obtenga una señal en el rango de frecuencia blanco del algoritmo de extensión de ancho de banda en la salida 149-1 del medio de superposición y suma 124.

Para el primer par 145-2, la distancia de tiempo b' , entre una primera muestra 153, 157 de los valores de señal de audio del bloque rellenado 103, 141-1 y una primera muestra - - 151, 155 del bloque no rellenado 133-2, 141-2, respectivamente, es suministrada por el medio de superposición y suma 124, de modo que se obtenga una señal en el rango de frecuencia blanco del algoritmo de extensión de ancho de banda en la salida 149-2 del medio de superposición y suma 124.

Otra vez, en el caso que se ubique el medio de diezmado 120 delante del medio de superposición y suma 124 en la cadena de procesamiento tal como se muestra en la Figura 2, se debería tomar en cuenta un posible efecto del proceso de diezmado sobre la coincidencia con la distancia de tiempo b' .

Se debe tomar nota que, aunque el presente invento ha sido descrito en el contexto de diagramas de bloque, en lo cual los bloques representan componentes de hardware presentes o lógicos, el presente invento puede ser implementado también por un método implementado en computadora. En este último caso, los bloques representan las correspondientes etapas de método, en lo cual estas etapas representan las funcionalidades llevadas a cabo por los correspondientes bloques de hardware lógicos o físicos.

Las realizaciones que se describieron más arriba son puramente ilustrativas para los principios del presente invento. Se entiende que las modificaciones y variaciones posibles de las disposiciones y de los detalles descritos en la presente serán evidentes para los expertos en la materia.

- - Por lo tanto, es la intención que el invento esté limitado sólo por el alcance de las siguientes reivindicaciones de patente y no por los detalles específicos presentados por la descripción y la explicación de las realizaciones en la presente.

Dependiendo de ciertos requerimientos de implementación de los métodos inventivos , los métodos inventivos se pueden implementar en el hardware o en el software. Se puede llevar a cabo la implementación utilizando un medio de almacenamiento digital, en particular, un disco, un DVD o un CD, en el cual están guardadas unas señales de control electrónicamente legibles, las cuales cooperan con sistemas de computación programables de modo que se llevan a cabo los métodos inventivos. Por lo tanto, el presente invento puede ser implementado, en general, por un producto de programa de computación con el código de programa guardado sobre un portador legible por máquinas, este código de programa se usa para llevar a cabo los métodos inventivos, cuando se ejecuta el producto de programa de computación en una computadora. En otras palabras, los métodos inventivos son, por lo tanto, un programa de computación que tiene un código de programa para llevar a cabo por lo menos uno de los métodos inventivos cuando se ejecuta el programa de computación en una computadora. La señal de audio procesada inventiva puede ser - - guardada sobre cualquier medio de almacenamiento legible por máquinas, tal como un medio de almacenamiento digital.

Las ventajas del procesamiento novedoso son que las realizaciones arriba mencionadas, es decir los aparatos, métodos y programas de computadora descritos en la presente solicitud evitan un procesamiento computacional demasiado complejo costoso donde no es necesario. Este procedimiento utiliza una detección de ubicación de componente transitorio que identifica loa bloques de tiempo que contienen, por ejemplo, eventos transitorios fuera del centro y que conmuta a un procesamiento avanzado, por ejemplo un procesamiento de sobremúestreo que utiliza unos intervalos de guardia, sin embargo, sólo en aquellos caso en los cuales eso da un resultado de mejora en los términos de calidad perceptiva.

El procesamiento presentado es útil en cualquier aplicación de procesamiento de audio basado en bloques, por ejemplo con vocoderes de fase o aplicaciones paramétricas de sonido surround (Herré, J.; Faller, C; Ertel, C; Hilpert, J.; Hc-lzer, A.; Spenger, C, "MP3 Surround, Codificación Eficiente y Compatible de Audio de Múltiples Canales" ( "MP3 Surround: Efficient and Compatible Coding of Multi-Channel Audio,") 116° Congreso de la Sociedad de Ingenieros de Audio, Mayo de 2004 (116th Conv. Aud. Eng. Soc, May 2004)), donde los efectos de convolución circular en el tiempo conducen a - - un aliasing y, al mismo tiempo, la potencia de procesamiento es un recurso limitado.

La mayoría de las aplicaciones destacadas son decodificadores de audio que son implementados con frecuencia en dispositivos portátiles y, de ese modo, funcionan sobre una fuente de energía de batería.

Claims

REIVINDICACIONES Habiendo así especialmente descrito y determinado la naturaleza de la presente invención y la forma cómo la misma ha de ser llevada a la práctica se declara reivindicar como de propiedad y derecho exclusivo:

1. Un aparato para manipular una señal de audio (100) que comprende: un medio de ventaneo (102) para generar una pluralidad (111, 811) de bloques consecutivos de muestras de audio; donde la pluralidad (111, 811) de bloques consecutivos comprende por lo menos un bloque rellenado (103; 803; 141-1; 902) de muestras de audio, donde el bloque rellenado (103; 803; 141-1; 902) tiene valores de relleno y valores de señal de audio; un primer convertidor (104) para convertir el bloque rellenado (103; 803; 141-1; 902) en una representación espectral (105) que tiene valores espectrales; un modificador de fase (106) para modificara fases de los valores espectrales para obtener una representación espectral modificada (107);. y un segundo convertidor (108) para convertir la representación espectral modificada (107) en una señal de audio modificada en el dominio del tiempo (109).

2. El aparato de acuerdo con la reivindicación 1, que además comprende : un medio de diezmado (120) para diezmar la señal de audio modificada en el dominio del tiempo (109) o bloques sometidos a un proceso de superposición y suma de la señal de audio modificada en el dominio del tiempo para obtener una señal diezmada en el dominio del tiempo (121), en lo cual una característica del proceso de diezmado depende de una característica de modificación de fase aplicada por el modificador de fase (106) .

3. El aparato de acuerdo con la reivindicación 2, que es adaptado para llevar a cabo una extensión de ancho de banda usando la señal de audio (100), el cual además comprende: un filtro pasa banda (114) para extraer una señal pasa banda (113) desde la representación espectral (105) o desde la señal de audio (100) , en lo cual se selecciona una característica pasa banda del filtro pasa banda (114) en dependencia de una característica de modificación de fase aplicada por el modificador de fase (106), de modo que la señal pasa banda (113) sea transformada por un procesamiento subsiguiente a una rango de frecuencia blanco (125-1, 125-2, 125-3) no incluido en la señal de audio (100).

4. El aparato de acuerdo con la reivindicación 2, que además comprende : un medio de superposición y suma (124) para sumar bloques de superposición (121-1, 121-2, 121-3) de muestras de audio diezmadas para obtener una señal (125) en un rango de frecuencia blanco (125-1, 125-2, 125-3) de un algoritmo de extensión de ancho de banda.

5. El método de acuerdo con la reivindicación 4, que además comprende: un medio de ajuste (116) para ajustar los valores espectrales mediante un factor, en el cual el factor depende de una característica de superposición y suma en la cual se toma en cuenta una relación de la primera distancia de tiempo (a) para un proceso de superposición y suma aplicado por el medio de ventaneo (102) y una distancia de tiempo diferente (b) aplicada por el medio de superposición y suma (124) y las características de la ventana.

6. El aparato de acuerdo con la reivindicación 1, en el cual el medio de ventaneo (102) comprende: un procesador de ventana de análisis (110; 102-1, 102-2; 140) para generar una pluralidad (111; 811) de bloques consecutivos que tienen el mismo tamaño; y un medio de rellenado (112; 102-3) para rellenar un bloque (133-1; 135-1) de la pluralidad (111; 811) de bloques consecutivos de muestras de audio a fin de obtener el bloque rellenado (103; 803; 141-1; 902) mediante la inserción de valores de relleno en posiciones de tiempo especificadas delante de una primera muestra (708) de un bloque consecutivo (133-1; 135-1; 704) de muestras de audio o de detrás de la última muestra (710) del bloque consecutivo (133-1; 135-1; 704) de muestras de audio.

7. El aparato de acuerdo con la reivindicación 1, en el cual el medio de ventaneo (102) es configurado para insertar valores de relleno en posiciones de tiempo especificadas delante de una primera muestra (708) de un bloque consecutivo (133-1; 135-1; 704) de muestras de audio o de detrás de una última muestra (710) del bloque consecutivo (133-1; 135-1; 704) de muestras de audio, en el cual el aparato además comprende : un extractor de relleno (118) para quitar muestras desde posiciones de tiempo de la señal de audio modificada en el dominio del tiempo (109), en el cual las posiciones de tiempo corresponden a las posiciones de tiempo especificadas por el medio de ventaneo (102) .

8. El aparato de acuerdo con cualquier de las reivindicaciones 1 o 2, que además comprende: un medio de ventaneo de síntesis (122) para ventanear la señal diezmada en el dominio del tiempo (121) o la señal de audio modificada en el dominio del tiempo (109), el cual tiene una función de ventana de síntesis que coincide con una función de análisis aplicada por el medio de ventaneo (102) .

9. El aparato de acuerdo con la reivindicación 1, en el cual el medio de ventaneo (102) es configurado para insertar valores de relleno en posiciones de tiempo especificadas delante de una primera muestra (708) de un bloque consecutivo (133-1; 135-1; 704) de muestras de audio o detrás de una última muestra (710) del bloque consecutivo (133-1; 135-1; 704) de muestras de audio, en el cual una suma de una cantidad de valores de relleno y de una cantidad de valores en el bloque consecutivo (133-1; 135-1; 704) de muestras de audio es por lo menos 1,4 veces la cantidad de valores en el bloque consecutivo (133-1; 135-1; 704) de muestras de audio.

10. El aparato de acuerdo con la reivindicación 7, en el cual el medio de ventaneo (102) es configurado para insertar simétricamente los valores de relleno delante de la primera muestra (708) del bloque consecutivo (133-1; 135-1; 704) de muestras de audio o detrás de la última muestra (710) del bloque consecutivo centrado (133-1; 135-1; 704) de muestras de audio, de modo que el bloque rellenado (103; 803; 141-1; 902) es adaptado a una conversión por el primer convertidor (104) y el segundo convertidor (108) .

11. El aparato de acuerdo con la reivindicación 1, en el cual el medio de ventaneo (102) es configurado para aplicar una función de ventana (709; 902) que tiene por lo menos una zona de guardia (712, 714; 910, 920; 940, 950) en la posición inicial (718; 901) de la función de ventana (709; 902) o en la posición final (720; 903) de la función de ventana (709; 902) .

12. El aparato de acuerdo con la reivindicación 1, en el cual el aparato es configurado para llevar a cabo un algoritmo de extensión de ancho de banda, donde el algoritmo de extensión de ancho de banda comprende un factor de extensión de ancho de banda (s) , donde el factor de extensión de ancho de banda (s) controla un corrimiento de frecuencia entre una banda (113-1, 113-2, 113-3, ...) de la señal de audio (100) y una banda de frecuencia blanco (125-1, 125-2, 125-3, ...) , en el cual el modificador de fase (106) es configurado para ajustar las fases de los valores espectrales de la banda (113-1, 113-2, 113-3, ...) de la señal de audio (100) por el factor de extensión de ancho de banda (s) , de modo que por lo menos una muestra de un bloque consecutivo de las muestras de audio es convuelto cíclicamente dentro del bloque.

13. El aparato de acuerdo con la reivindicación 2 , en el cual el aparato' es configurado para llevar a cabo un algoritmo de extensión de ancho de banda, en el cual el algoritmo de extensión de ancho de banda comprende un factor de extensión de ancho de banda (s) , en el cual el factor de extensión de ancho de banda (s) controla un corrimiento de frecuencia entre una banda (113-1, 113-2, 113-3, ...) de la señal de audio (100) y una banda de frecuencia blanco (125-1, 125-2, 125-3, ...) , en el cual el primer convertidor (104) , el modificador de fase (106) , el segundo convertidor (108) y el medio de diezmado (120) son configurados para operar usando distintos factores de extensión de ancho de banda (s) , de modo que se obtengan distintas señales de audio modificadas (121-1, 121-2, 121-3, ...) que tienen distintas bandas de frecuencia blanco (125-1, 125-2, 125-3, ...) , donde el aparato comprende además un medio de superposición y suma (124) para llevar a cabo un proceso de superposición y suma basado en los distintos factores de extensión de ancho de banda (o) , y un medio de combinación (126) para combinar los resultados del proceso de superposición y suma (125-1, 125-2, 125-3, ...) a fin de obtener una señal combinada (127) que comprende las distintas bandas de frecuencia blanco (125-1, 125-2, 125-3, ...) .

14. El método de acuerdo con la reivindicación 1, que además comprende: un detector de componente transitorio (134) para determinar un evento transitorio no centrado (700, 701, 702, 703, 705, 707) en la señal de audio (100), en el cual el primer convertidor (104) es configurado para convertir el bloque rellenado (103; 803; 141-1; 902), cuando el detector de componente transitorio (134) detecta un evento transitorio (700, 701, 702, 703, 705, 707) en un bloque (133-1; 135-1) de la señal de audio (100) que corresponde al bloque rellenado (103; 803; 141-1; 902), y en el cual el primer convertidor (104) es configurado para convertir un bloque no rellenado (133-2; 135-2; 141-2; 930), que tiene sólo valores de la señal de audio (100), en el cual el bloque no rellenado (133-2; 135-2; 141-2; 930) corresponde a la señal de audio (100), cuando no se detecta ningún evento transitorio (700, 701, 702, 703, 705, 707) en el bloque.

15. El aparato de acuerdo con la reivindicación 14, en el cual el medio de ventaneo (102) comprende: un medio de rellenado (112; 102-3) para insertar valores de relleno en posiciones de tiempo especificadas delante de una primera muestra (708) de un bloque consecutivo (133-1; 135-1; 704) de muestras de audio o de detrás de una última muestra (710) del bloque consecutivo (133-1; 135-1; 704) de muestras de audio, en el cual el aparato además comprende: un conmutador (136) que es controlado por el detector de componente transitorio (134) , en el cual el conmutador (136) es configurado para controlar el medio de rellenado (112; 102-3), de modo que se genere un bloque rellenado (103; 803) cuando un evento transitorio (700, 701, 702, 703, 705, 707) es detectado por el detector de componente transitorio (134), en este caso el bloque rellenado (103; 803) tiene valores de relleno y valores de señal de audio, y para controlar el medio de rellenado (112; 102-3), de modo que se genere un bloque no rellenado (133-2; 135-2), cuando ningún evento transitorio (700, 701, 702, 703, 705, 707) es detectado por el detector de componente transitorio (134), en este caso el bloque no rellenado (133-2; 135-2) tiene sólo valores de señal de audio, en el cual el primer convertidor (1204) comprende un primer sub-convertidor (138-1) y un segundo sub-convertidor (138-2) , en el cual el conmutador (136) es configurado además para alimentar el bloque rellenado (103; 803) al primer sub-convertidor (138-1) para llevar a cabo una conversión que tiene una primera longitud de conversión cuando el evento transitorio (700, 701, 702, 703, 705, 707) es detectado por el detector de componente transitorio (134) , y para alimentar el bloque no rellenado (133-2; 135-2) al segundo sub-convertidor (138-2) para llevar a cabo una conversión que tiene una segunda longitud de conversión más corta que la primera longitud cuando ningún evento transitorio (700, 701, 702, 703, 705, 707) es detectado por el detector de componente transitorio (134).

16. El aparato de acuerdo con la reivindicación 14, en el cual el medio de ventaneo (102) comprende un procesador de ventana de análisis (110; 102-1, 102-2; 140) para aplicar una función de ventana de análisis a un bloque consecutivo (139- 1, 139-2) de muestras de audio, donde el procesador de ventana de análisis es controlable de modo que la función de ventana de análisis comprende una zona de guardia (712, 714; 910, 920; 940, 950) en la posición inicial (718; 901) de la función de ventana 709; 902) o una posición final (720; 903) de la función de ventana 709; 902), en el cual el aparato comprende además: un conmutador de ventana de guardia (142) que es controlado por el detector de componente transitorio (134) , en el cual el conmutador de ventana de guardia (142) es configurado para controlar el procesador de ventana de análisis (110; 102-1, 102-2; 140), de modo que un bloque rellenado (141-1; 902) es generado desde un bloque consecutivo de muestras de audio por el uso de la función de ventana de análisis que comprende la zona de guardia, donde el bloque rellenado (141-1; 902) tiene valores de relleno y valores de señal de audio cuando un evento transitorio (700, 701, 702, 703, 705, 707) es detectado por el detector de componente transitorio (134) , y para controlar el procesador de ventana de análisis (102-1, 102-2; 140), de modo que un bloque no rellenado (141-2; 930) es generado, donde el bloque no rellenado (141-2; 930) sólo tiene valores de señal de audio cuando ningún evento transitorio (700, 701, 702, 703, 705, 707) es detectado por el detector de componente transitorio (134), en el cual el primer convertidor (104) comprende un primer sub-convertidor (138-1) y un segundo sub-convertidor (138-2) , en el cual el conmutador de ventana de guardia (142) es configurado además para alimentar el bloque rellenado (141-1; 902) al primer sub-convertidor (138-1) para llevar a cabo una conversión que tiene una primera longitud de conversión cuando el evento transitorio (700, 701, 700, 701, 702, 703) es detectado por el detector de componente transitorio (134) , y para alimentar el bloque no rellenado (141-2; 930) al segundo sub-convertidor (138-2) para llevar a cabo una conversión que tiene una segunda longitud de conversión más corta que la primera longitud cuando ningún evento transitorio (700, 701, 702, 703, 705, 707) es detectado por el detector de componente transitorio (134).

17. El aparato de acuerdo con cualquier de las reivindicaciones 4 o 13 , que además comprende: un elemento de ajuste de envolvente (130) para ajustar el envolvente de la señal (125) en un rango de frecuencia blanco (125-1, 125-2, 125-3) o la señal combinada (129) basada en parámetros transmitidos (101) para obtener una señal corregida (129); y otro medio de combinación (132) para combinar la señal de audio (100; 102-1) y la señal corregida (129) para obtener la señal manipulada (131) que tiene un ancho de banda extendido .

18. El aparato de acuerdo con la reivindicación 14, en el cual el medio de ventaneo (102) es configurado para generar una pluralidad (111; .811) de bloques consecutivos de muestras de audio, donde la pluralidad (111; 811) de bloques consecutivos comprende por lo menos un primer par (145-1) de un bloque no rellenado (133-2; 135-2; 141-2; 930) y un bloque consecutivo rellenado (103; 803; 141-1; 902) y un segundo par (145-2) de un bloque rellenado (103; 803; 141-1; 902) y un bloque consecutivo no rellenado (133-2; 135-2; 141-2; 930), en el cual el aparato además comprende: un medio de diezmado (120) para diezmar las muestras de audio modificadas en el dominio del tiempo o los bloques sometidos al proceso de superposición y suma de las muestras de audio modificadas en el dominio del tiempo del primer par (145-1) para obtener las muestras de audio diezmadas (147-1) del primer par (145-1) o para diezmar las muestras de audio modificadas en el dominio del tiempo o los bloques sometidos al proceso de superposición y suma de las muestras de audio modificadas en el dominio del tiempo del primer segundo par (145-2) para obtener las muestras de audio diezmadas (147-2) del segundo par (145-2), y un medio de superposición y suma (124), en el cual el medio de superposición y suma (124) es configurado para sumar bloques de superposición de las muestras de audio diezmadas (147-1, 147-2) o muestras de audio modificadas en el dominio del tiempo del primer par (145-1) o del segundo par (145-2), en el cual para el primer par (145-1) la distancia de tiempo (b') entre una primera muestra (151) del bloque no rellenado (133-2; 135-2; 141-2; 930) y la primera muestra (153) de los valores de señal de audio del bloque rellenado (103; 803; 141-1; 902) es suministrado por el medio de superposición y suma (124), o en el cual para el segundo par (145-2) la distancia de tiempo (b') entre una primera muestra (153) de los valores de señal de audio del bloque rellenado (103; 803; 141-1; 902) y una primera muestra (157) del bloque no rellenado (133-2; 135-2; 141-2; 930) es suministrado por el medio de superposición y suma (124) , para obtener una señal en un rango de frecuencia blanco del algoritmo de extensión de ancho de banda.

19. Un método para manipular una señal de audio que comprende : generar (102) una pluralidad (111, 811) de bloques consecutivos de muestras de audio; donde la pluralidad (111, 811) de bloques consecutivos comprende por lo menos un bloque rellenado (103; 803) de muestras de audio, donde el bloque rellenado (103; 803) tiene valores de relleno y valores de señal de audio,· convertir (104) el bloque rellenado (103; 803) en una representación espectral que tiene valores espectrales; modificar (106) las fases de los valores espectrales para obtener una representación espectral modificada (107); y convertir (108) la representación espectral modificada (107) en una señal de audio modificada (105) en el dominio del tiempo (109) .

20. Un programa de computadora que tienen un código de programa para llevar a cabo el método de acuerdo con la reivindicación 19, cuando el programa de computadora se ejecuta en una computadora.