MÉTODO Y DISPOSITIVO PARA MEJORA DE LA VOZ EN PRESENCIA DE UN RUIDO DEL FONDO Campo de la Invención La presente invención se refiere a una técnica para mejorar las señales vocales para mejorar la comunicación en la presencia de un ruido del fondo. En particular pero no exclusivamente, la presente invención se refiere al diseño de un sistema de reducción del ruido que reduce el nivel del ruido del fondo en la señal vocal. ' Antecedentes de la Invención La reducción del nivel del ruido del fondo es muy importante en muchos sistemas de comunicaciones. Por ejemplo, los teléfonos móviles son utilizados en muchos medios ambientes en donde un alto nivel de ruido del fondo está presente. Tales medios ambientes son de uso en los automóviles (los cuales están llegando a ser crecientemente dispositivos para usarse sin las manos) , o en la calle, por lo cual el sistema de comunicación necesita operar en la presencia de altos niveles de ruido de automóviles o del ruido de la calle. En aplicaciones de oficina, tales como aplicaciones de conferencias de video y de Internet sin el uso de las manos, el sistema necesita tratar eficientemente el ruido de la oficina. Otros tipos de ruidos ambientales también pueden ser experimentados en la práctica. La reducción del ruido, también conocida como supresión del Ref .173884 ruido, o mejora de la voz, llega a ser importante para estas aplicaciones, frecuentemente necesarias para operar a relaciones bajas de la señal con respecto al ruido (SNR) . La reducción del ruido también es importante es sistemas de reconocimiento automático de la voz que son empleados crecientemente en una variedad de medios ambientes reales . La reducción del ruido mejora el funcionamiento de los algoritmos que codifican la voz o los algoritmos de reconocimiento de la voz utilizados usualmente en las aplicaciones mencionadas anteriormente. La sustracción espectral es una de las técnicas utilizadas más frecuentemente para la reducción del ruido
(véase S. F. Boíl, "Suppression of acoustic noise in speech using spectral subtraction" , IEEE Trans . Acoust . , Speech, Signal Processing, vol. ASSP-27, pp. 113-120, abril de 1979) . La substracción espectral intenta estimar la magnitud espectral a corto plazo de la voz por la substracción de una estimación del ruido de la voz ruidosa. La fase de la señal vocal ruidosa no es procesada, basado en la suposición de que la distorsión de fase no es percibida por el oído humano. En la práctica, la substracción espectral es implementada formando una función de ganancia basada en SNR a partir de los estimados del espectro del ruido y del espectro de la señal vocal ruidosa. Esta función de la ganancia es multiplicada por el espectro de entrada para suprimir los _ componentes de la frecuencia con bajo SNR. La desventaja principal utilizando los algoritmos de substracción espectral convencionales es el ruido residual musical resultante que consiste de los "tonos musicales" que perturban a la persona que escucha así como a los algoritmos de procesamiento de la señal subsiguientes (tales como la codificación de la señal vocal) . Los tonos musicales son principalmente debido a la varianza en los estimados del espectro. Para resolver este problema, una suavización espectral ha sido sugerida, conduciendo a una varianza y resolución reducidas . Otro método conocido para reducir los tonos musicales es utilizar un factor de sobre-substracción en combinación con una base espectral (véase M. Berouti, R. Schwartz, y J. Makhoul, "Enhancement of speech corrupted by acoustic noise", in Proc . IEEE ICASSP, Washington, DC, abril de 1979, pp . 208-211) . Este método tiene la desventaja de degradar la señal vocal cuando los tonos musicales son reducidos suficientemente. Otros métodos son la filtración de la supresión del ruido de resolución suave (véase R. J. McAulay y M. L. Malpass, "Speech enhancement using a soft decisión noise suppression filter", IEEE Trans . Acoust . , Speech, Signal Processing, vol. ASSP-28, pp. 137-145, abril de 1980) y la substracción espectral no lineal (véase P. Lockwood y J. Boudy, "Experimente with a nonlinear spectral substractor (NSS) , hidden Markov models and projection, for robust recognition in cars" , Speech Commun. , vol ., 11 , pp . 215-228 , j unio de
1992 ) . Breve Descri-pción de la Invención En un aspecto de esta invención, se proporciona un método para la supresión del ruido de una señal vocal, que comprende : efectuar el análisis de la frecuencia para producir una representación del dominio espectral de la señal vocal que comprende un número de intervalos de frecuencia; y agrupar los intervalos de frecuencia en un número de bandas de frecuencia, caracterizado porque cuando la actividad de la señal vocal armonizada es detectada en la señal vocal, la supresión del ruido es efectuada en una base por intervalo de frecuencia para un primer número de las bandas de frecuencia y la supresión del ruido es efectuada en una base por banda de frecuencia para un segundo número de las bandas de frecuencia. En otra modalidad de la invención, se proporciona un dispositivo para suprimir el ruido en una señal vocal, el dispositivo está arreglado para: efectuar el análisis de la frecuencia para producir una representación del dominio espectral de la señal vocal que comprende un número de intervalos de frecuencia; y agrupar los intervalos de frecuencia en un número de bandas de frecuencia, caracterizado porque el dispositivo está arreglado para detectar la actividad de la señal vocal armonizada y cuando la actividad de. la señal vocal armonizada es detectada en la señal vocal, efectuar la supresión del ruido sobre una base por intervalo de frecuencia para un primer número de bandas de frecuencia y efectuar la supresión del ruido sobre una base por banda de frecuencia para un segundo número de las bandas de frecuencia. En un aspecto adicional de esta invención, se proporciona un codificador de la voz, que comprende un dispositivo para la supresión del ruido, el dispositivo está arreglado para: efectuar el análisis de la frecuencia para producir una i representación del dominio espectral de la señal vocal que comprende un número de intervalos de frecuencia; y agrupar los intervalos de frecuencia en un número de bandas de frecuencia, caracterizado porque el dispositivo está arreglado para detectar la actividad de la señal vocal armonizada y cuando la actividad de la señal vocal armonizada sea detectada en la señal vocal, efectuar la supresión del ruido sobre una base por intervalo de frecuencia para un primer número de las bandas de frecuencia y efectuar la supresión del ruido sobre una base por banda de frecuencia para un segundo número de las bandas de frecuencia. En un aspecto todavía adicional de esta invención, se proporciona un sistema de reconocimiento de la voz, automático, que comprende un dispositivo para la supresión del ruido, el dispositivo está arreglado para: efectuar el análisis de la frecuencia para producir una representación del domino espectral de la señal vocal que comprende un número de intervalos de frecuencia; y agrupar los intervalos de frecuencia en un número de bandas de frecuencia, caracterizado porque el dispositivo está arreglado para detectar la actividad de la señal vocal armonizada y cuando la actividad de la señal vocal armonizada sea detectada en la señal vocal, efectuar la supresión del ruido sobre una base por intervalo de frecuencia para un primer número de las bandas de frecuencia y efectuar la supresión del ruido sobre una base por banda de frecuencia para un segundo número de las bandas de frecuencia. En una modalidad todavía adicional de esta invención, se proporciona un teléfono móvil que comprende un dispositivo para la supresión del ruido, el dispositivo está arreglado para: efectuar el análisis de la frecuencia para producir una representación del dominio espectral de la señal vocal que comprende un número de intervalos de frecuencia; y agrupar los intervalos de frecuencia en un número de bandas de frecuencia, caracterizado porque el dispositivo está arreglado para detectar la actividad de la señal vocal armonizada y cuando la actividad, de la señal vocal armonizada es detectada en la señal vocal, efectuar la supresión el ruido sobre una base por intervalo de frecuencia para un primer número de las bandas de frecuencia y efectuar la supresión del ruido sobre una base por banda de frecuencia para un segundo número de las bandas de frecuencia. Breve Descripción de las Figuras Los objetos, ventajas y características precedentes, y otros, de la presente invención, llegarán a ser más evidentes de la lectura de la siguiente descripción no restrictiva de una modalidad ilustrativa de la misma, dada a manera de ejemplo solamente con referencia a las figuras que se anexan. En las figuras anexas: La figura 1 es un diagrama de bloques esquemático del sistema de comunicaciones de la voz que incluye la reducción del ruido; la figura 2 muestra una ilustración de una selección de ventana en el análisis espectral; la figura 3 proporciona un resumen de una modalidad ilustrativa del algoritmo de reducción del ruido; y la figura 4 es un diagrama de bloques esquemático de una modalidad .ilustrativa de la reducción del ruido específica para una clase, en donde el algoritmo de reducción depende de la naturaleza de la señal vocal que es procesada. Descripción Detallada de la Invención En la presente especificación, se describen técnicas eficientes para la reducción del ruido. Las técnicas están basadas al menos en parte, en la división del espectro de amplitud en las bandas críticas y el cálculo de una función de la ganancia basada en SNR por banda crítica semejante al método -utilizado en el codificador-descodificador de la voz
EVRC (véase 3GPP2 C. S0014-0 "Enhanced Variable Rate Codee
(EVRC) Service Option for Wideband Spread Spectrum
Communication Systems", especificación técnica 3GPP2, diciembre de 1999) . Por ejemplo, se describen características que utilizan diferentes técnicas de procesamiento basadas en la naturaleza del ciclo de la voz que es procesado. En los ciclos sin una señal de la voz, el procesamiento por banda es utilizado en el espectro total. En los ciclos en donde la transmisión de la voz es detectada hasta una cierta frecuencia, se utiliza el procesamiento por intervalo en la porción inferior del espectro en donde la transmisión de la voz es detectada y el procesamiento por banda es utilizado en las bandas restantes . En el caso de los ciclos de ruido de fondo, una base del ruido constante es removida utilizando la misma ganancia de escalamiento en el espectro total. Además, se describe una técnica en la cual la suavización de la ganancia de escalamiento en cada banda o intervalo de frecuencia, es efectuada utilizando un factor de suavización el cual está relacionado inversamente con la ganancia de escalamiento real (la suavización es más fuerte para las ganancias más pequeñas) . Este método previene la distorsión en segmentos de la voz con alto contenido de SNR por los ciclos con bajo contenido de SNR, como es el caso para los inicios de la transmisión de la voz por ejemplo. Un aspecto no limitativo de esta invención es proporcionar métodos novedosos para la reducción del ruido basados en técnicas de substracción espectral, por lo cual el método de reducción del ruido depende de la naturaleza del ciclo de la voz que es procesado. Por ejemplo, en los ciclos con una señal vocal, el procesamiento puede ser efectuado en una base por intervalo abajo de una cierta frecuencia. En una modalidad ilustrativa, la reducción del ruido es efectuada dentro de un sistema de codificación de la voz para reducir el nivel del ruido de fondo en la señal vocal antes de la codificación. Las técnicas descritas pueden ser desplegadas ya sea con señales vocales de banda estrecha muestreadas a 8000 muestras/s o señales vocales de banda ancha muestreadas a 16000 muestras/s, o a cualquier otra frecuencia de muestreo. El codificador utilizado en esta modalidad ilustrativa está basado en el codificador-descodificador AMR-WB (véase S. F. Boíl, "Suppression of acoustic noise in speech using spectral subtraction" , IEEE Trans . Acoust . , Speech, Signal Processing, vol. ASSP-27, pp. 113-120, abril de 1979) , que utiliza una conversión de muestreo interno para convertir la frecuencia de muestro de la señal a 12800 muestras/s (que opera en un ancho de banda de 6.4 kHz) . Por consiguiente, la descripción de la técnica de reducción del ruido en esta modalidad ilustrativa opera sobre las señales ya sea de banda estrecha o de banda ancha después de la conversión del muestro a 12.8 kHz . En el caso de las entradas de banda ancha, la señal de entrada tiene que ser reducida desde 16 kHz hasta 12.8 kHz . La reducción es efectuada primero por el muestreo ascendente de 4, luego la filtración de la salida a través de un filtro de FIR de paso bajo que tiene la frecuencia de corte de 6.4 kHz. Luego, la señal es muestreada descendentemente en 5. El retardo de la filtración es de 15 muestras a una frecuencia de muestreo de 16 kHz. En el caso de entradas de banda estrecha, la señal tiene que ser muestreada ascendentemente desde 8 kHz hasta 12.8 kHz. Esto es efectuado primero por el muestreo ascendente de 8, luego la filtración de la salida a través del filtro de FIR de paso bajo que tiene la frecuencia de corte de 6.4 kHz. Luego, la señal es muestreada descendentemente en 5. El retardo de la filtración es de 8 muestras a la frecuencia de muestreo a 8 kHz. Después de la conversión- del muestreo, dos- -funciones del pre-procesamiento son aplicadas a la señal previo al proceso de codificación: filtración -de paso alto y poner énfasis previo. El filtro de paso alto sirve como una precaución contra los componentes de frecuencia baja indeseables. En esta modalidad ilustrativa, un filtro a una frecuencia de corte de 50 Hz es utilizado, y está dado por:
rr , , 0.982910156-1.965820313z-1 +0.982910156z-2 1-1.965820313.T1 +0.966308593.T2
Para poner énfasis previo, un filtro de primer orden de paso alto es utilizado para enfatizar las frecuencias más elevadas, y está dado por: Hpre-emph ( z ) = l-0.68z_1 Poner un énfasis previo es una operación que es utilizada en el codificador-descodificador AMR-WB para mejorar el funcionamiento del codificador-descodificador a frecuencias elevadas y mejorar la ponderación de percepción en el proceso de minimización de errores utilizado en el codificador. En el resto de esta modalidad ilustrativa, la señal en la entrada del algoritmo de reducción del ruido es convertida a la frecuencia de muestreo de 12.8 kHz y preprocesada como se describió anteriormente. Sin embargo, las técnicas descritas pueden ser aplicadas igualmente a las señales en otras frecuencias de muestro tales como 8 kHz o 16 kHz, con y sin pre-procesamiento . En lo que sigue, el algoritmo de reducción del ruido será descrito con detalle. El codificador de la voz en el cual el algoritmo de reducción del ruido es utilizado, opera sobre ciclos de 20 ms que contienen 256 muestras a una frecuencia de muestreo de 12.8 kHz. Además, el codificador utiliza un procedimiento de "preacceso" de 13 ms desde el ciclo futuro en su análisis. La reducción del ruido- sigue la misma estructura de formación del ciclo. Sin embargo, algún desplazamiento puede ser introducido entre la formación del ciclo del codificador del ciclo y la formación del ciclo de la reducción del ruido para maximizar el uso del procedimiento de "preacceso" . En esta descripción, los índices de las muestras reflejarán la formación del ciclo de reducción del ruido . La figura 1 muestra una resumen de un sistema de comunicación de la voz que incluye la reducción del ruido. En el bloque 101, el pre-procesamiento es efectuado como el ejemplo ilustrativo descrito anteriormente. En el bloque 102, son efectuados el análisis espectral y la detección de la actividad de la voz (VAD) . Dos análisis espectrales son efectuados en cada ciclo utilizando ventanas de 20 ms con una superposición del 50%. En el bloque 103, la reducción del ruido es aplicada a los parámetros espectrales y luego se utiliza DFT inverso para convertir la señal mejorada de regreso al dominio del tiempo . La operación de adición de la superposición es utilizada entonces para reconstruir la señal . En el bloque 104, el análisis de predicción lineal (LP) y el análisis del tono de circuito abierto son efectuados (usualmente como una parte del algoritmo de codificación de la voz) . En esta modalidad ilustrativa, los parámetros que resultan del bloque 104 son utilizados en la decisión para actualizar los estimados del ruido en las bandas críticas (bloque 105) . La decisión de VAD también puede ser utilizada como la decisión de actualización del ruido. Los estimados de energía del ruido actualizados en el bloque 105 son utilizados en el siguiente ciclo en el bloque de reducción del ruido 103 para calcular las ganancias de escalamiento. El bloque 106 efectúa la codificación de la voz sobre la señal vocal mejorada. En otras aplicaciones, el bloque 106 puede ser un sistema de reconocimiento de la voz automático. Nótese que las funciones en el bloque 104 pueden ser una parte integral del algoritmo de codificación de la voz .
Análisis espectral La Transformada de Fourier discreta es utilizada para efectuar el análisis espectral y la estimación de energía del espectro. El- análisis de la frecuencia se hace dos veces por ciclo utilizando la transformada de Fourier rápida de 256 puntos (FFT) con una superposición del 50 por ciento (como se ilustra en la figura 2) . Las ventanas de análisis son colocadas de modo que toda el procedimiento de "preacceso" sea explotado. El inicio de la primera ventana está colocado en 24 muestras después del inicio del ciclo actual del codificador de la voz. La segunda ventana está colocada en 128 muestras adicionales. Una raíz cuadrada de una ventana de Hanning (la cual" es equivalente "a una ventana del seno) ha sido utilizada para ponderar la señal de entrada para el análisis de la frecuencia. Esta ventana es particularmente muy adecuada para los métodos de adición de la superposición (por consiguiente este análisis espectral particular es utilizado en el algoritmo de supresión del ruido basado en la substracción espectral y el análisis/síntesis de adición de la superposición) . La raíz cuadrada de la ventana de Hanning está dada por:
(1) en donde FFt = 256 es el tamaño del análisis de FTT. Nótese que solamente la mitad de la ventana está calculada y almacenada puesto que la misma es simétrica (desde 0 hasta IFE I ) . Todavía s ' (n) denota la señal con el índice 0 que corresponde a la primera muestra en el ciclo de reducción del ruido (en esta modalidad ilustrativa, la misma es de 24 muestras más que el inicio del ciclo del codificador de la voz) . La señal con ventanas para ambos análisis espectrales es obtenida como
en donde s' (0) es la primera muestra en el presente ciclo de reducción del ruido. FFT es efectuado en ambas señales con ventanas para obtener dos conjuntos de parámetros espectrales por ciclo:
La salida de FFT proporciona las partes real e imaginaria del espectro denotadas con XR (k ) , k = 0 hasta 128, y Xi (k) , k=l hasta 127. Nótese que XR(0) corresponde al espectro a 0 Hz (DC) y XR(128) corresponde al espectro a 6400 Hz. El espectro en estos puntos es solo de valor real y usualmente es ignorado en el análisis subsiguiente. Después del análisis- de FFT, el espectro- resultante es dividido en bandas críticas utilizando los intervalos que tienen los siguientes límites superiores (20 bandas en el intervalo de frecuencia de 0-6400 Hz) : Bandas críticas = {100.0, 200.0, 300.0, 400.0, 510.0, 630.0, 770.0, 920.0, 1080.0, 1270.0, 1480.0, 1720.0, 2000.0, 2320.0, 2700.0, 3150.0, 3700.0, 4400.0, 5300.0, 6350.0} Hz. Véase D. Johnston, "Transfor coding of audio signal using perceptual noise criteria", IEEE J. Select . Áreas, Commun . , Vol. 6, pp. 314-323, febrero de 1988. El FFT de 256 puntos conduce a una resolución de la frecuencia de 50 Hz (6400/128) . Por consiguiente, después de ignorar el componente DC del espectro, el número de intervalos de frecuencia por banda crítica es M_. = {2, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 8, 9, 11, 14, 18, 21}, respectivamente. La energía promedio en una banda crítica es calculada como:
LFPT /2) MCBV) A=O (2) en donde XR(k) y X?(k) son, respectivamente, las partes real e imaginaria del intervalo de frecuencia kth y j__ es el índice del primer intervalo en la banda crítica iési a provista por ji = {1, 3, 5, 7, 9, 11, 13, 16, 19, 22, 26, 30, 35, 41, 47, 55, 64, 75, 89, 107}. El módulo del análisis espectral también calcula la energía por intervalo de frecuencia, EB?_.(k) , para las primeras 17 bandas críticas (74 intervalos excluyendo el componente de DC)
ZjwW XXfi+XXk), * = 0....,73 (3)
Finalmente, el módulo del análisis espectral calcula la energía total promedio para ambos análisis de FTT en un ciclo de 20 ms agregando las energías de la banda crítica promedio ECB - ES decir, la energía espectral para un cierto análisis espectral es calculada como,
19 (4) (=0 y la energía del ciclo total es calculada como el promedio de las energías del espectro de ambos análisis espectrales en un ciclo. Es decir:
JB/=101og(0.5(7ij5Bp.(0)+^hw,í(l)) , dB (5)
Los parámetros de salida del módulo de análisis espectral, es decir la energía promedio por banda crítica, la energía por intervalo de frecuencia, y la energía total, son utilizadas en los cálculos de VAD, la reducción del ruido, y los módulos de selección de la velocidad. Nótese que para las entradas de banda estrecha muestreadas a -8000 muestras/s, después de la conversión del muestreo a 12800 muestra/s, no existe contenido en ambos extremos del espectro, por consiguiente, la primera banda crítica de la frecuencia inferior así como las últimas tres bandas de frecuencia elevada no son consideradas en el cálculo de los parámetros de salida (solamente las bandas de i = 1 hasta 16 son consideradas) . Detección de la actividad de la voz El análisis espectral descrito anteriormente es efectuado dos veces por ciclo. Todavía Ecs( y EQJ(Í) denotan la energía por información de banda crítica para el primer y segundo análisis espectrales, respectivamente (como es calculado en la ecuación (2) ) . La energía promedio por banda crítica para el ciclo total y parte del ciclo previo es calculado co o:
Jw(0*o^(/)+o.««()+o^_ff«(? (6) en donde -?£_»(/) denota la energía por información de la banda crítica desde el segundo análisis del ciclo previo. La relación de la señal con respecto al ruido (SNR) por banda crítica es calculada entonces como: 3NRCB(i) = Em(i)/NCB(f) limitado ?r SNR^ =l. (7)
en donde NCs (i ) es la energía del ruido estimada por banda crítica como será explicado en la siguiente sección. La S?R promedio por ciclo es calculada entonces como:
SNRav (8) en donde bmip = 0 y bmax - 19 en el caso de las señales de banda ancha, y £>___.__ = 1 y bmaz =--16 en el caso de las señales de banda estrecha. La actividad de la voz es detectada comparando la
S?R promedio por ciclo con un cierto umbral que es una función de la S?R a largo plazo. La S?R a largo plazo está dada por:
SNRLT =?f -Ñf (9)
en donde g Y W son calculados utilizando las ecuaciones (12) y (13) respectivamente, las cuales serán descritas posteriormente. El valor inicial de -^y •' es de 45 dB. El umbral es una función lineal inteligente por piezas de la S?R a largo plazo. Dos funciones son utilizadas, una para la señal de la voz clara y una para la señal vocal ruidosa. Para la señales de banda ancha, si SNRLT < 35 (voz ruidosa) entonces thvAD = 0.4346 SNRLT + 13.9575 también (señal vocal clara) fchvAD = 1.0333 SNRLT - 7 Para las señales de banda estrecha, si SNRLT < 29.6 (señal vocal ruidosa) entonces" vAD = 0.313 SNRLT + 14.6 también (señal vocal clara) t?vAD = 1.0333 SNRLT - 7 Además, una histéresis en la decisión de VAD es agregada para prevenir el cambio frecuente en el extremo de un período de voz activa. La misma es aplicada en el caso de que el ciclo esté en un período de persistencia leve o si el último ciclo está en un ciclo de la señal vocal activa. El período de persistencia leve consiste de los primeros 10 ciclos después de cada incremento repentino de la señal vocal activa, más largo que 2 ciclos consecutivos. En el caso de la señal vocal ruidosa (SNRLT < 35) , la histéresis reduce el umbral de decisión de VAD en thvAD = 0.95 tÜvAD En el caso de la señal vocal clara, la histéresis reduce el umbral de decisión de VAD en t ívAD = fc- yñD - 11 Si la SNR promedio por ciclo es más grande que el umbral de decisión de VAD, es decir, si SNRAV >thVñD, entonces el ciclo es declarado como un ciclo de señal vocal activa y la bandera VAD y una bandera VAD local son fijadas en 1. De otra manera la bandera de VAD y la bandera de VAD local son fijadas en 0. Sin embargo, en el caso de la voz ruidosa, la bandera de VAD es forzada a 1 en ciclos de persistencia intensa, es decir uno o dos ciclos inactivos a continuación de un período de la voz más prolongado que 2 ciclos consecutivos (la bandera de VAD local es igual entonces a 0 pero la bandera de VAD es forzada a l). Primer nivel de la estimación y actualización del ruido En esta sección, la energía total del ruido, la energía relativa del ciclo, la actualización de energía del ruido promedio a largo plazo y la energía del ciclo promedio a largo plazo, la energía promedio por banda crítica, y un factor de corrección del ruido son calculados. Además, la iniciación de la energía del ruido y las actualizaciones descendentes son provistas. La energía total del ruido por ciclo está dada por:
en donde Nc__ (i) es la energía estimada del ruido por banda crítica. La energía relativa del ciclo está dada por la diferencia entre la energía del ciclo en dB y la energía promedio a largo plazo. La energía relativa del ciclo está dada por:
Enl =Et -Ef (11)
en donde Et está dado en la ecuación (5) . La. energía del ruido promedio a largo plazo o la energía del ciclo promedio a largo plazo son actualizadas en cada ciclo. En el caso de los ciclos de voz activa (bandera de VAD = 1) , la energía del ciclo promedio a largo plazo es actualizada utilizando la relación:
Éf =0.992? +0.012?, (12) con el valor inicial g =45_j___._ En el caso de los ciclos de voz inactivos (bandera de VAD = 0) , la energía del ruido promedio a largo plazo es actualizada por 2^=0.992^+0.012^, (13)
El valor inicial de / es fijado igual a Not para los primeros 4 ciclos. Además, en los primeros 4 ciclos, el valor de g . está limitado por = Ñ +10. Energía del ciclo por banda crítica, iniciación del ruido, y actualización descendente del ruido La energía del ciclo por banda crítica para el ciclo total es calculada promediando las energías de ambos análisis espectrales en el ciclo. Es decir,
^( =0.5^(0+0.5^ (14) La energía del ruido por banda crítica NCB (Í) es empezada inicialmente en 0.03. Sin embargo, en los primeros 5 subciclos, si la energía de la señal no es demasiado elevada o si la señal no tiene componentes de frecuencia elevada intensa, entonces la energía del ruido es iniciada utilizando la energía por banda crítica de modo que el algoritmo de la reducción del ruido puede ser eficiente desde el principio del procesamiento. Dos relaciones de frecuencia elevada son calculadas: r15f l 6 es la relación entre la energía promedio de las bandas críticas 15 y 16 y la energía promedio en las primeras 10 bandas (promedio de ambos análisis espectrales) , y i8,i9 es la misma pero para las bandas 18 y 19. En los primeros 5 ciclos, si Et < 49 y r__5,_,_r < 2 y Z?a,i9 < 1.5, entonces para los primeros 3 ciclos, Na,<t) = EaW> /=0,...,19 (15) y para los siguientes dos ciclos, NCB (Í) es actualizado por:
Para los siguientes ciclos, en esta etapa, solamente la actualización descendente de la energía del ruido es efectuada para las bandas críticas por lo cual la energía es menor que la energía del ruido del fondo. En primer lugar, la energía del ruido actualizada transitoria es calculada como:
2Vrto.(0= 0.9NCB(0+0.l(?.25^)( +0.75^cs( ) (17) en donde E¿¿(í corresponde al segundo análisis espectral del ciclo previo. Entonces para i=0 hasta 19, si Ntmp (í) < NCB (Í) r entonces NCB (í) = Ntmp (i) . Un segundo nivel de actualización de-1 ruido es efectuado posteriormente fijando NCB (Í) — ^tmp ( ) si el ciclo es declarado como un ciclo inactivo. La razón para la fragmentación de la actualización de la energía del ruido en dos partes es que la actualización del ruido puede ser ejecutada solamente durante los ciclos- de señal vocal inactivos y todos los parámetros necesarios para la decisión de la actividad de la señal vocal son necesarios por consiguiente. Estos parámetros son sin embargo, dependientes del análisis de predicción de LP y el análisis de los huecos de circuito abierto, ejecutados sobre la señal vocal sin ruido. Para que el algoritmo de reducción del ruido tenga un estimado del ruido tan exacto como sea posible, la actualización de la estimación del ruido es actualizada por consiguiente de manera descendente antes de la ejecución de la reducción del ruido, y hacia arriba posteriormente si el ciclo es inactivo. La actualización del ruido descendente es segura y se puede hacer independientemente de la actividad de la voz. Reducción del ruido La reducción del ruido es aplicada sobre el dominio de la señal y la señal sin ruido es reconstruida entonces utilizando superposición y adición. La reducción es efectuada por el escalamiento del espectro en cada banda crítica con una ganancia de escalamiento limitada entre gm?n y 1, y derivada de la relación de la señal con respecto al ruido (SNR) en esa banda crítica. Una nueva característica en la supresión del ruido es aquella para las frecuencias inferiores de una cierta frecuencia relacionada con la armonización de la señal, el procesamiento es efectuado con base en el intervalo de frecuencia y no con base en la banda crítica. Por consiguiente, una ganancia de escalamiento es aplicada sobre cada intervalo de la frecuencia derivada de la SNR en ese intervalo (la SNR es calculada utilizando la energía del intervalo dividida entre la energía del ruido de la banda crítica incluyendo ese intervalo) . Esta nueva característica permite la preservación de la energía a frecuencias cercanas a las armónicas previniendo la distorsión mientras que se reduce fuertemente el ruido entre las armónicas. Esta característica puede ser explotada solamente para las señales vocales y, dada la resolución de la frecuencia del análisis de la frecuencia utilizado, para las señales con un período del tono relativamente corto. Sin embargo, estas son precisamente las señales en donde el ruido entre las armónicas es más perceptible . La figura 3 muestra un resumen del procedimiento descrito. En~ el bloque 301, el análisis espectral es efectuado. El bloque 302 verifica si el número de bandas críticas vocalizadas es mayor que 0. Si este es el caso, entonces la reducción del ruido es efectuada en el bloque 304 en donde el procesamiento por intervalo es efectuado en las primeras bandas K vocalizadas y el procesamiento por banda es efectuado en las bandas -restantes. Si if = 0 entonces el procesamiento por banda es aplicado a todas las bandas críticas . Después de la reducción del ruido sobre el espectro, el bloque 305 efectúa un análisis de DFT inverso y la operación de adición de la superposición es utilizada para reconstruir la señal vocal mejorada como será descrito posteriormente . La ganancia de escalamiento mínimo gm±n es derivada de la máxima reducción del ruido permitida en dB, NRmax. La reducción permitida máxima tiene un valor de falla de 14 dB. Por consiguiente, la ganancia de escalamiento mínimo está dada por: f gmin = 10-NRmax 2° ( 18 ) y es igual a 0.19953 para el valor de falla de 14 dB. En el caso de ciclos inactivos con VAD = 0, el mismo escalamiento es aplicado sobre el espectro total y está provisto por gs = 0.9gm±n si la supresión del ruido es activada (si gm±n es inferior que 1) . Es decir, los componentes real e imaginario escalados del espectro están provistos por X'R (k) = geXR (k) , k = 1,...,128, y XX (k) = gBX1 (k) = g3 Xt (k) , k = 1, ... ,127. (19) Nótese que para las entradas de banda estrecha, los límites superiores en la ecuación (19) son fijados a 79 (hasta 3950 Hz) . Para los ciclos activos, la ganancia de escalamiento es calculada con relación a SNR por banda crítica o por intervalo para las primeras - bandas con la señal vocal . Si - o > 0 entonces la supresión del ruido por intervalo es efectuada sobre las primeras bandas de KVo?c- La supresión del ruido por banda es utilizada sobre el resto de las bandas. En el caso de K?oic = 0, la supresión del ruido por banda es utilizada sobre el espectro total. El valor de KVOJC es actualizado como será descrito posteriormente. El valor máximo de KVO?c es de 17, por lo tanto el procesamiento por intervalo puede ser aplicado solamente sobre las primeras 17 bandas críticas y corresponden a una frecuencia máxima de 3700 Hz . El número máximo de intervalos para los cuales el procesamiento por intervalo puede ser utilizado es de 74 (el número de intervalos en las primeras 17 bandas) . Se hace una excepción para los ciclos de persistencia intensa que serán descritos posteriormente en esta sección. En una implementación alternativa, el valor de KVO?C puede ser fijado. En este caso, en todos los tipos de ciclos de la voz, el procesamiento, por intervalo es efectuado hasta una cierta banda y el procesamiento por banda es aplicado a las otras bandas . La ganancia de escalamiento en una cierta banda crítica, o para un cierto intervalo de frecuencia, es calculada como una función de SNR y está dada por:
(gs)2 = k, SNR+c, , limitado por gt?k = gs = 1 (20)
Los valores de ks y cs son determinados tales como g_. = min para SNR = 1 y _?_. = 1 para- SNR = 45. Es decir, para S?Rs a 1 dB y valores inferiores, el escalamiento está limitado a gs y para S?Rs a 45 dB y valores más elevados, ninguna supresión del ruido es efectuada en la banda crítica dada ( gs = 1) . Por consiguiente, dados estos dos puntos de extremo, los valores de ks y cs en la ecuación 20 están dados por: ks = (1-gr.in2)/ 4 y cs = (45grfflin2-l) /44. (21) La SNR variable en la ecuación (20) es ya sea la S?R por banda crítica, SNRCB (Í) , o la S?R por intervalo de frecuencia, SNRBiN (k) , dependiendo del tipo de procesamiento. La S?R por banda crítica es calculada en el caso del primer análisis espectral en el ciclo como:
= SNRa (22)
y para el segundo análisis espectral, la S?R es calculada como:
SNRCB Q) 0,...,19 (23)
en donde -^cflW y Ecg (i) denotan la energía por información de la banda crítica para el primer y segundo análisis espectrales, respectivamente (como son calculados en la ecuación (2)), Ef!¡j(i) denota la energía por información de la banda crítica desde el segundo análisis del ciclo previo, y NCB (Í) denota la energía del ruido estimada por banda crítica. La SNR por intervalo crítico en una cierta banda crítica i es calculada en el caso del primer análisis espectral en el ciclo como: oN-K-w k = j[...../, + MCB(0-1 (24)
y para el segundo análisis espectral, la SNR es calculada como :
en donde E^(k) y Eßm denotan la energía por el intervalo de frecuencia para el primer y segundo análisis espectrales, respectivamente (como se calcula en la ecuación (3) ) , E k) denota la energía por intervalo de frecuencia del segundo análisis del ciclo previo, NCB (í) denota el estimado de energía del ruido por banda crítica, J± es el índice del primer intervalo en la banda crítica y MCB (Í) es el número de intervalos en la banda crítica (i) , definida anteriormente. En el caso del procesamiento por la banda crítica para una banda con el índice i , después de determinar la ganancia de escalamiento- como en la ecuación (22) , y utilizando SNR como se definió en las ecuaciones (24) o (25) , el escalamiento real es efectuado utilizando una ganancia de escalamiento suavizado, actualizada en cada análisis de la frecuencia como: <3CB, LP (Í ) = agsgCB, p (í ) +' (l -ags) gs (26) En esta invención, se describe una característica novedosa en donde el factor de suavización es adaptable y está relacionado inversamente con la propia ganancia. En esta modalidad ilustrativa el factor de suavización está dado por ags = l-gs - Es decir, la suavización es más fuerte para las ganancias más pequeñas g3. Este método previene la distorsión en los segmentos de la voz con SNR elevada precedido por los ciclos de SNR baja, como es el caso para los inicios con la señal vocal. Por ejemplo en los ciclos de señales vocales sin voz, la SNR es baja y por consiguiente una ganancia de escalamiento fuerte es utilizada para reducir el ruido en el espectro. Si un inicio con la señal vocal sigue al ciclo sin la voz, la SNR llega a ser más elevada, y si la suavización de la ganancia previene una actualización rápida de la ganancia de escalamiento, entonces es probable que un escalamiento fuerte será utilizado sobre el inicio con la señal vocal lo cual conducirá a un funcionamiento pobre. En el método propuesto, el procedimiento de suavización es capaz de adaptar y utilizar rápidamente las ganancias de escalamiento inferiores al inicio. El escalamiento en la banda crítica es efectuado como:
en donde j'__ es el índice del primer intervalo en la banda crítica i y MCB (i) es el número de intervalos en esa banda crítica. En el caso del procesamiento por intervalo en una banda con el índice i, después de la determinación de la ganancia de escalamiento como en la ecuación (20) y utilizando SNR como se definió en las ecuaciones (24) o (25), el escalamiento real es efectuado utilizando una ganancia de escalamiento suavizado, actualizada en cada análisis de la frecuencia como: gBiN,?,p (k) = g3gBINfLP (k) + (l -ags) gs (28) en donde g? = 1-g, semejante a la ecuación (26) . La suavización temporal de las ganancias previene las oscilaciones de energía audible al mismo tiempo que controlando la suavización utilizando agSr previene la distorsión en los segmentos de la voz con un nivel elevado de SNR precedido por los ciclos de SNR baja, como es el caso para los inicios con la voz por ejemplo. El escalamiento en la banda crítica i es efectuado como :
X?' k+jl) = gBpf?lP(k+j¡)XI(k+j¡)> (29) Ar=0,...J cs(0-l'
en donde j_¡ es el índice del primer intervalo en la banda crítica i y MCB (Í) es el número de intervalos en la banda crítica. Las ganancias de escalamiento suavizado gBiN,?,p (k) y gcB,Lp(i) son fijadas inicialmente en 1. Cada vez que un ciclo inactivo es procesado (VAD=0) , los valores de las ganancias suavizadas son reajustados a gm?n definido en la ecuación (18). Como se mencionó anteriormente, si KVO?c > 0 de la supresión del ruido por intervalo es efectuada sobre las primeras bandas de KVo?cr Y la supresión del ruido por banda es efectuada sobre las bandas restantes utilizando los procedimientos descritos anteriormente. Nótese que en cada análisis espectral, las ganancias de escalamiento suavizadas gcB, (í) son actualizadas para todas las bandas críticas (aún para las bandas con la voz procesadas con el procesamiento por intervalo - en este caso gcB,Lp d) es actualizado con un promedio de gBm,Lp (k) que pertenece a la banda i) . De manera semejante, las ganancias de escalamiento gBm,Lp (k) son actualizadas para todas los intervalos de frecuencia en las primeras 17 bandas (hasta el intervalo 74) . Para las bandas procesadas con el procesamiento por banda, las mismas son actualizadas fijándolas iguales a gcB. ( en estas 17 bandas específicas . Nótese que en el caso de la voz clara, la supresión del ruido no es efectuada en los ciclos con la voz activos
(VAD=1) . Esto es detectado encontrando la energía del ruido máximo en todas las bandas críticas, max (NCB (í) ) , i =0, ...,19, y si este valor es menor o igual que 15 entonces la supresión del ruido es efectuada. Como se mencionó anteriormente, para los ciclos inactivos (VAD=0) , un escalamiento de 0.9gm_.__ es aplicado sobre el espectro total, lo cual es equivalente a remover una base del ruido constante. Para los ciclos de persistencia corta de VAD (VAD=1 y local_VAD=0) , el procesamiento por banda es aplicado a las primeras 10 bandas como se describió anteriormente (que corresponde a 1700 Hz) , y para el resto del espectro, una base de ruido constante es substraída para el escalamiento del resto del espectro por un valor constante gmin - Esta medición reduce significativamente las oscilaciones de energía del ruido de frecuencia elevada. Para estas bandas arriba de la banda 10a., las ganancias de escalamiento suavizados gcß,Lp ( ) no son reajustadas sino que son actualizadas utilizando la ecuación (26) con gs = gm±m Y las ganancias de escalamiento suavizados por intervalo gBXN,Lp (k) son actualizadas ajusfándolas para que sean iguales a gcB,Lp(i) en las bandas críticas correspondientes. El procedimiento descrito anteriormente puede ser
- observado como una reducción del ruido específica para la clase en donde el algoritmo de reducción depende de la naturaleza del ciclo de la voz que es procesado. Esto es ilustrado en la figura 4. El bloque 401 verifica si la bandera de VAD es 0 (señal vocal inactiva) . Si este es el caso, entonces una base del ruido constante es removida del espectro aplicando la misma ganancia de escalamiento sobre el espectro completo (bloque 402) . De otra manera, el bloque 403 verifica si el ciclo es un ciclo de persistencia de VAD. Si este es el caso, entonces el procesamiento por banda es utilizado en las primeras 10 bandas y la misma ganancia de escalamiento es utilizada en las bandas restantes (bloque 406) . De otra manera, el bloque 405 verifica si la armonización es detectada en las primeras bandas en el espectro. Si este es el caso, entonces el procesamiento por intervalo es efectuado en las primeras bandas con armonizadas K y el procesamiento por banda es efectuado en las bandas restantes (bloque 406) . Si ninguna de las bandas con voz son detectadas, entonces el procesamiento por banda es efectuado en todas las bandas críticas (bloque 407) . En el caso del procesamiento, de las señales de banda estrecha (muestreado ascendente hasta 12800 Hz) , la supresión del ruido es efectuada sobre las primeras 17 bandas (hasta
3700 Hz) . Para los restantes 5 intervalos de frecuencia entre
3700 Hz y 4000 Hz, el espectro es escalado utilizando la última ganancia de escalamiento gs en el intervalo a 3700 Hz .
Para el resto del espectro (desde 4000 Hz hasta 6400 Hz) , el espectro se fija en cero. Reconstrucción de la señal sin ruido Después de la determinación de los componentes espectrales escalados, XrR (k) y X/ I (k) , la FFT inversa es aplicada sobre el espectro escalado para obtener la señal sin ruido con ventanas en el dominio del tiempo.
Esto es repetido para ambos análisis espectrales en el ciclo para obtener las señales con ventanas sin ruido x w®>d (n)
y xw¿{n) . Para cada mitad del ciclo, la señal es reconstruida utilizando una operación de adición de la superposición para las porciones de superposición del análisis. Puesto que una ventana de Hanning de la raíz cuadrada es utilizada sobre la señal original previo al análisis espectral, la misma ventana es aplicada en la salida de FFT inversa previo a la operación de adición de la superposición. Por consiguiente, la señal sin ruido, con ventanas, duplicada, está dada por:
S (") = w <fl??? (")> " = °'-' Lm ~ ! *£* (») = WFFT (»)*S (")» » = .....ÍOT- -1 (30) Para la primera mitad de la ventana de análisis, la operación de adición de la superposición para la construcción de la señal sin ruido es efectuada como:
5(n)=^?rf(»+Ií?t/2)+^?(.(»), «=0 Z^/2-l
y para la segunda mitad de la ventana del análisis, la operación de adición de la superposición para construir la señal sin ruido es efectuada como:
s( +Lm, /2) = x^d^+LFFT /2) + x^ta(n), n ^ O^L^ I2-1
en donde xjjü.,,.0 es la señal sin ruido, con ventanas dobles del segundo análisis en el ciclo previo. Nótese que con la operación de adición de la superposición, puesto que existe un desplazamiento de 24 muestras entre el ciclo del codificador de la señal vocal y el ciclo de reducción del ruido, la señal sin ruido puede ser reconstruida hasta 24 muestras desde el proceso de "preacceso" además del presente ciclo. Sin embargo, otras 128 muestras todavía son necesarias para complementar el proceso de "preacceso" necesario por el codificador de la voz para el análisis de predicción lineal (LP) y el análisis del tono de circuito abierto. Esta parte es obtenida temporalmente por la selección inversa de las ventanas de la segunda mitad de la señal con ventanas, sin ruido Xw,_j<2) (ni) sin efectuar la operación de adición de la superposición. Es decir:
s(n+LFFr) = x An+LFFT /2)/wFFT(n+LFFT /2), n=0 LFFr /2- 1
Nótese que esta porción de la señal se vuelve a calcular apropiadamente en el siguiente ciclo utilizando la operación de adición de la superposición. Actualización de los estimados de la energía del ruido Este módulo actualiza los estimados de la energía del ruido por banda crítica para la supresión del ruido. La actualización es efectuada durante los períodos de la voz inactivos. Sin embargo, la decisión de VAD efectuada anteriormente, la cual está basada en la SNR por banda crítica, no es utilizada para la determinación de si los estimados de la energía del ruido son actualizados. Otra decisión es efectuada con base en otros parámetros independientes de la SNR por banda crítica. Los parámetros utilizados para la decisión de actualización del ruido son: la estabilidad del tono, la característica no estacionaria de la señal, la armonización, y la relación entre las energías del error residual de LP de 2/o. orden y de 16/o. orden, y generalmente tienen una sensibilidad baja a las variaciones del nivel del ruido. La razón para no utilizar la decisión de VAD del codificador para la actualización del ruido es hacer la estimación robusta del ruido para cambiar rápidamente los niveles del ruido. Si la decisión de VAD del codificador fue utilizada para actualizar el ruido, un incremento repentino en el nivel del ruido podría provocar un incremento de SNR aún para los ciclos de la voz inactivos, previniendo la actualización del estimador del ruido, lo cual podría mantener a su vez la SNR elevada en los siguientes ciclos, y etcétera. En consecuencia, la actualización del ruido podría ser bloqueada y alguna otra lógica podría ser necesaria para reasumir la adaptación del ruido. En esta modalidad ilustrativa, el análisis del tono de circuito abierto es efectuado en el codificador para calcular tres estimados del tono de circuito abierto por ciclo: d0, di , y d?, que corresponden a la primera mitad del ciclo, la segunda mitad del ciclo, y la proceso de "preacceso", respectivamente. El contador de la estabilidad del tono es calculado como:
pc = d0 -d_1 \ + \ dl -d0 \ + \ d2 -d? \ (31)
en donde __ es el retardo de la segunda mitad del ciclo, del ciclo previo. En esta modalidad ilustrativa, para los retardos del tono mayores que 122, el módulo de búsqueda del tono de circuito abierto ajusta d2 = d± . Por consiguiente, para tales retardos, el valor de pe en la ecuación (31) es multiplicado por 3/2 para compensar la falta del tercer término en la ecuación. La estabilidad del tono es verdadera si el valor de pe es menor que 12. Además, para los ciclos con una armonización baja, pe es fijada en 12 para indicar la inestabilidad del tono. Es decir:
Si (Cnom(d0) + Cnom(d,)+C„Bm(d2))/3 + rß < 0.7 entras pc = 12, (32)
en donde cnorm (d) es la correlación de entrada normalizada y re es una corrección opcional agregada a la correlación normalizada para compensar la reducción de la correlación normalizada en la presencia del ruido del fondo. En esta modalidad ilustrativa, la correlación normalizada es calculada con base en la señal del tono ponderada, reducida, Swd (n) Y está dada por:
E'-wSta »-*) en donde el límite de la sumatoria depende del propio retardo. En esta modalidad ilustrativa, la señal ponderada utilizada en el análisis del tono del circuito abierto es reducida en 2 y los límites de la suma son proporcionados de acuerdo con: Lsec = 0 para d = 10 , ... , 16 LSec - 40 para d = 17, ... , 31 Lsec = 62 para d = 32, ... , 61 Lsec — H5 para d = 62,..., 115 La estimación no estacionaria de la señal es efectuada con base en el producto de las relaciones entre la energía por banda crítica y la energía a largo plazo promedio por banda crítica. La energía a largo plazo, promedio, por banda crítica es actualizada por:
Ea¿t(J = a*ECB¿t(t + (í-<?t)EcB !) > Para i=b i to ¿ , (33)
en donde bm?n = 0 y bmax = 19 en el caso de las señales de banda ancha, y min = 1 y bmax = 16 en el caso de las señales de banda estrecha, y -^csCO '- es la energía del ciclo por banda crítica definida en la ecuación (14) . El factor de actualización e es una función lineal de la energía del ciclo total, definida en la ecuación (5), y está dado como sigue: Para las señales de banda ancha: e = 0.0245£tot -0.235 limitado por 0.5 < ae < 0.99. Para señales de banda estrecha: e = 0.0009l£tot + 0.3185 limitado por 0.5 < ae < Ó.999. El ciclo no estacionario está dado por el producto de las relaciones entre la energía del ciclo y la energía a largo plazo, promedio, por banda crítica. Es decir: (34)
El factor de armonización para la actualización del ruido está dado por: armonización = ( Cnorm (d0) + Cnorm (dx) ) /2 + re. (35) Finalmente, la relación entre la energía residual de LP después del análisis de 2/o. orden y de 16/o. orden está dada por: resid_ratio = E(2) /E(16) (36) en donde E(2) y E(16) son las energías residuales de LP después del análisis de 2/o. orden y de 16/o. orden, y calculadas en la recurrencia de Levinson-Durbin como es bien conocido por una persona experta en el arte. Esta relación refleja el hecho de que representa una envoltura espectral de la señal, un orden más elevado de LP es necesario generalmente para la señal vocal que para el ruido. En otras palabras, la diferencia entre E(2) y E(16) se supone que va a ser inferior para el ruido que para la voz activa. La decisión actualizada es determinada con base en una noise_update variable que es fijada inicialmente en 6 y que es reducida en 1 si un ciclo inactivo es detectado e incrementada en 2 si un ciclo activo es detectado. Además, noise_update está limitada por 0 y 6. Las energías del ruido son actualizadas solamente cuando noise_update = 0. El valor de noise_update variable es actualizado en cada ciclo como sigue : Si (nonstat > th3tat) O (pe < 12) O (pe < 12) O (armonización > 85) 0 (resid_ratio > threSid) noise_update = noise_update + 2 También noise_update = noise_update - 1 en donde para las señales de banda ancha, thgtat = 350000 y thresid = 1.9, y para las señales de banda estrecha, th?tat = 500000 y thresid = 11. En otras palabras, los ciclos son declarados inactivos para la actualización del ruido cuando (nonstat < th3tat) Y (p > 12) Y (armonización < 0.85) Y (resid__ratío < thresí?) y una persistencia de 6 ciclos es utilizada antes que la actualización del ruido se lleve a cabo. Por consiguiente, si noise_update = 0 entonces para i = 0 hasta 19 NCB (Í ) = Nrwp (i) en donde Nmp (i) es la energía del ruido actualizada temporal ya calculada en la ecuación (17) . Actualización de la frecuencia de corte de la armonización : La frecuencia del corte abajo de la cual una señal se considera armonizada es actualizada. Esta frecuencia es utilizada para determinar el número de bandas críticas para las cuales la supresión del ruido es efectuada utilizando el procesamiento por intervalo . En primer lugar, una medición de la armonización es calculada como: Vg -= 0 . 4Cnorm ( d__) + 0 . 6Cnorm (d2) + re ( 37 ) y la frecuencia del corte de la armonización está dada por : fc= 0.00017118e17-9772vg limitado por 325 < fc < 3700 (38) Luego, el número de bandas críticas, kvoic, ue tiene une frecuencia superior que no excede fc es determinado. Los límites de 325 <_ fc < 3700 son fijados de tal modo que el procesamiento por intervalo sea efectuado sobre un mínimo de 3 bandas y un máximo de 17 bandas (refiriéndose a los límites superiores de las bandas críticas, descritos anteriormente) . Nótese que en el cálculo de la medición de la armonización, se proporciona un mayor peso a la correlación normalizada del proceso de "preacceso" puesto que el número determinado de bandas con la señal será utilizado en el siguiente ciclo. Por consiguiente, en el siguiente ciclo, para las primeras bandas críticas de Kvoxcr la supresión de ruido utilizará el procesamiento por intervalo como se describió anteriormente . Nótese que para los ciclos con armonización baja y para los retardos grandes del tono, solamente el procesamiento por banda crítica es utilizado y por consiguiente, KVO?c es fijado en 0. La siguiente condición es utilizada: Si ( 0 . 4: Cnorm (d1) + 0 . ßCnorm (d2) < 0.72) 0 (d_. > 116) 0 (d2 > 116 ) entonces KVO?c = 0 - Por supuesto, son posibles muchas otras modificaciones y variaciones. En vista de la descripción ilustrativa, detallada anteriormente, de las modalidades de esta invención y las figuras asociadas, tales otras modificaciones y variaciones llegarán a ser evidentes ahora para aquellos con experiencia ordinaria en el arte . También debe ser evidente que tales otras variaciones pueden ser efectuadas sin apartarse del espíritu y alcance de la presente invención. Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención.