MXPA06007234A - Metodo y dispositivo para mejora de la voz en presencia de un ruido del fondo. - Google Patents

Metodo y dispositivo para mejora de la voz en presencia de un ruido del fondo.

Info

Publication number
MXPA06007234A
MXPA06007234A MXPA06007234A MXPA06007234A MXPA06007234A MX PA06007234 A MXPA06007234 A MX PA06007234A MX PA06007234 A MXPA06007234 A MX PA06007234A MX PA06007234 A MXPA06007234 A MX PA06007234A MX PA06007234 A MXPA06007234 A MX PA06007234A
Authority
MX
Mexico
Prior art keywords
frequency
noise
speech signal
suppression
bands
Prior art date
Application number
MXPA06007234A
Other languages
English (en)
Inventor
Milan Jelinek
Original Assignee
Nokia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Corp filed Critical Nokia Corp
Publication of MXPA06007234A publication Critical patent/MXPA06007234A/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Telephone Function (AREA)
  • Devices For Executing Special Programs (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

En un aspecto de la misma, la invencion proporciona un metodo para la supresion del ruido de una senal vocal que incluye, para una senal vocal que tiene una representacion del dominio de la frecuencia que se pude dividir en una pluralidad de intervalos de frecuencia, determinar un valor de una ganancia de escalamiento para al menos algunos de los intervalos de frecuencia y calcular los valores de ganancia de escalamiento suavizados. El calculo de los valores de la ganancia de escalamiento suavizados incluye, para al menos algunos de los intervalos de la frecuencia, combinar un valor determinado actualmente de la ganancia de escalamiento y un valor determinado previamente de la ganancia de escalamiento suavizada. En otro aspecto un metodo divide la pluralidad de intervalos de la frecuencia en un primer conjunto de intervalos de frecuencia contiguos y un segundo conjunto de intervalos de frecuencia contiguos que tienen una frecuencia limite entre ellos, en donde la frecuencia limite es diferente entre las tecnicas de supresion del ruido, y cambiar un valor de la frecuencia limite como una funcion del contenido espectral de la senal vocal.

Description

MÉTODO Y DISPOSITIVO PARA MEJORA DE LA VOZ EN PRESENCIA DE UN RUIDO DEL FONDO Campo de la Invención La presente invención se refiere a una técnica para mejorar las señales vocales para mejorar la comunicación en la presencia de un ruido del fondo. En particular pero no exclusivamente, la presente invención se refiere al diseño de un sistema de reducción del ruido que reduce el nivel del ruido del fondo en la señal vocal. ' Antecedentes de la Invención La reducción del nivel del ruido del fondo es muy importante en muchos sistemas de comunicaciones. Por ejemplo, los teléfonos móviles son utilizados en muchos medios ambientes en donde un alto nivel de ruido del fondo está presente. Tales medios ambientes son de uso en los automóviles (los cuales están llegando a ser crecientemente dispositivos para usarse sin las manos) , o en la calle, por lo cual el sistema de comunicación necesita operar en la presencia de altos niveles de ruido de automóviles o del ruido de la calle. En aplicaciones de oficina, tales como aplicaciones de conferencias de video y de Internet sin el uso de las manos, el sistema necesita tratar eficientemente el ruido de la oficina. Otros tipos de ruidos ambientales también pueden ser experimentados en la práctica. La reducción del ruido, también conocida como supresión del Ref .173884 ruido, o mejora de la voz, llega a ser importante para estas aplicaciones, frecuentemente necesarias para operar a relaciones bajas de la señal con respecto al ruido (SNR) . La reducción del ruido también es importante es sistemas de reconocimiento automático de la voz que son empleados crecientemente en una variedad de medios ambientes reales . La reducción del ruido mejora el funcionamiento de los algoritmos que codifican la voz o los algoritmos de reconocimiento de la voz utilizados usualmente en las aplicaciones mencionadas anteriormente. La sustracción espectral es una de las técnicas utilizadas más frecuentemente para la reducción del ruido (véase S. F. Boíl, "Suppression of acoustic noise in speech using spectral subtraction" , IEEE Trans . Acoust . , Speech, Signal Processing, vol. ASSP-27, pp. 113-120, abril de 1979) . La substracción espectral intenta estimar la magnitud espectral a corto plazo de la voz por la substracción de una estimación del ruido de la voz ruidosa. La fase de la señal vocal ruidosa no es procesada, basado en la suposición de que la distorsión de fase no es percibida por el oído humano. En la práctica, la substracción espectral es implementada formando una función de ganancia basada en SNR a partir de los estimados del espectro del ruido y del espectro de la señal vocal ruidosa. Esta función de la ganancia es multiplicada por el espectro de entrada para suprimir los _ componentes de la frecuencia con bajo SNR. La desventaja principal utilizando los algoritmos de substracción espectral convencionales es el ruido residual musical resultante que consiste de los "tonos musicales" que perturban a la persona que escucha así como a los algoritmos de procesamiento de la señal subsiguientes (tales como la codificación de la señal vocal) . Los tonos musicales son principalmente debido a la varianza en los estimados del espectro. Para resolver este problema, una suavización espectral ha sido sugerida, conduciendo a una varianza y resolución reducidas . Otro método conocido para reducir los tonos musicales es utilizar un factor de sobre-substracción en combinación con una base espectral (véase M. Berouti, R. Schwartz, y J. Makhoul, "Enhancement of speech corrupted by acoustic noise", in Proc . IEEE ICASSP, Washington, DC, abril de 1979, pp . 208-211) . Este método tiene la desventaja de degradar la señal vocal cuando los tonos musicales son reducidos suficientemente. Otros métodos son la filtración de la supresión del ruido de resolución suave (véase R. J. McAulay y M. L. Malpass, "Speech enhancement using a soft decisión noise suppression filter", IEEE Trans . Acoust . , Speech, Signal Processing, vol. ASSP-28, pp. 137-145, abril de 1980) y la substracción espectral no lineal (véase P. Lockwood y J. Boudy, "Experimente with a nonlinear spectral substractor (NSS) , hidden Markov models and projection, for robust recognition in cars" , Speech Commun. , vol ., 11 , pp . 215-228 , j unio de 1992 ) . Breve Descri-pción de la Invención En un aspecto de esta invención, se proporciona un método para la supresión del ruido de una señal vocal, que comprende : efectuar el análisis de la frecuencia para producir una representación del dominio espectral de la señal vocal que comprende un número de intervalos de frecuencia; y agrupar los intervalos de frecuencia en un número de bandas de frecuencia, caracterizado porque cuando la actividad de la señal vocal armonizada es detectada en la señal vocal, la supresión del ruido es efectuada en una base por intervalo de frecuencia para un primer número de las bandas de frecuencia y la supresión del ruido es efectuada en una base por banda de frecuencia para un segundo número de las bandas de frecuencia. En otra modalidad de la invención, se proporciona un dispositivo para suprimir el ruido en una señal vocal, el dispositivo está arreglado para: efectuar el análisis de la frecuencia para producir una representación del dominio espectral de la señal vocal que comprende un número de intervalos de frecuencia; y agrupar los intervalos de frecuencia en un número de bandas de frecuencia, caracterizado porque el dispositivo está arreglado para detectar la actividad de la señal vocal armonizada y cuando la actividad de. la señal vocal armonizada es detectada en la señal vocal, efectuar la supresión del ruido sobre una base por intervalo de frecuencia para un primer número de bandas de frecuencia y efectuar la supresión del ruido sobre una base por banda de frecuencia para un segundo número de las bandas de frecuencia. En un aspecto adicional de esta invención, se proporciona un codificador de la voz, que comprende un dispositivo para la supresión del ruido, el dispositivo está arreglado para: efectuar el análisis de la frecuencia para producir una i representación del dominio espectral de la señal vocal que comprende un número de intervalos de frecuencia; y agrupar los intervalos de frecuencia en un número de bandas de frecuencia, caracterizado porque el dispositivo está arreglado para detectar la actividad de la señal vocal armonizada y cuando la actividad de la señal vocal armonizada sea detectada en la señal vocal, efectuar la supresión del ruido sobre una base por intervalo de frecuencia para un primer número de las bandas de frecuencia y efectuar la supresión del ruido sobre una base por banda de frecuencia para un segundo número de las bandas de frecuencia. En un aspecto todavía adicional de esta invención, se proporciona un sistema de reconocimiento de la voz, automático, que comprende un dispositivo para la supresión del ruido, el dispositivo está arreglado para: efectuar el análisis de la frecuencia para producir una representación del domino espectral de la señal vocal que comprende un número de intervalos de frecuencia; y agrupar los intervalos de frecuencia en un número de bandas de frecuencia, caracterizado porque el dispositivo está arreglado para detectar la actividad de la señal vocal armonizada y cuando la actividad de la señal vocal armonizada sea detectada en la señal vocal, efectuar la supresión del ruido sobre una base por intervalo de frecuencia para un primer número de las bandas de frecuencia y efectuar la supresión del ruido sobre una base por banda de frecuencia para un segundo número de las bandas de frecuencia. En una modalidad todavía adicional de esta invención, se proporciona un teléfono móvil que comprende un dispositivo para la supresión del ruido, el dispositivo está arreglado para: efectuar el análisis de la frecuencia para producir una representación del dominio espectral de la señal vocal que comprende un número de intervalos de frecuencia; y agrupar los intervalos de frecuencia en un número de bandas de frecuencia, caracterizado porque el dispositivo está arreglado para detectar la actividad de la señal vocal armonizada y cuando la actividad, de la señal vocal armonizada es detectada en la señal vocal, efectuar la supresión el ruido sobre una base por intervalo de frecuencia para un primer número de las bandas de frecuencia y efectuar la supresión del ruido sobre una base por banda de frecuencia para un segundo número de las bandas de frecuencia. Breve Descripción de las Figuras Los objetos, ventajas y características precedentes, y otros, de la presente invención, llegarán a ser más evidentes de la lectura de la siguiente descripción no restrictiva de una modalidad ilustrativa de la misma, dada a manera de ejemplo solamente con referencia a las figuras que se anexan. En las figuras anexas: La figura 1 es un diagrama de bloques esquemático del sistema de comunicaciones de la voz que incluye la reducción del ruido; la figura 2 muestra una ilustración de una selección de ventana en el análisis espectral; la figura 3 proporciona un resumen de una modalidad ilustrativa del algoritmo de reducción del ruido; y la figura 4 es un diagrama de bloques esquemático de una modalidad .ilustrativa de la reducción del ruido específica para una clase, en donde el algoritmo de reducción depende de la naturaleza de la señal vocal que es procesada. Descripción Detallada de la Invención En la presente especificación, se describen técnicas eficientes para la reducción del ruido. Las técnicas están basadas al menos en parte, en la división del espectro de amplitud en las bandas críticas y el cálculo de una función de la ganancia basada en SNR por banda crítica semejante al método -utilizado en el codificador-descodificador de la voz EVRC (véase 3GPP2 C. S0014-0 "Enhanced Variable Rate Codee (EVRC) Service Option for Wideband Spread Spectrum Communication Systems", especificación técnica 3GPP2, diciembre de 1999) . Por ejemplo, se describen características que utilizan diferentes técnicas de procesamiento basadas en la naturaleza del ciclo de la voz que es procesado. En los ciclos sin una señal de la voz, el procesamiento por banda es utilizado en el espectro total. En los ciclos en donde la transmisión de la voz es detectada hasta una cierta frecuencia, se utiliza el procesamiento por intervalo en la porción inferior del espectro en donde la transmisión de la voz es detectada y el procesamiento por banda es utilizado en las bandas restantes . En el caso de los ciclos de ruido de fondo, una base del ruido constante es removida utilizando la misma ganancia de escalamiento en el espectro total. Además, se describe una técnica en la cual la suavización de la ganancia de escalamiento en cada banda o intervalo de frecuencia, es efectuada utilizando un factor de suavización el cual está relacionado inversamente con la ganancia de escalamiento real (la suavización es más fuerte para las ganancias más pequeñas) . Este método previene la distorsión en segmentos de la voz con alto contenido de SNR por los ciclos con bajo contenido de SNR, como es el caso para los inicios de la transmisión de la voz por ejemplo. Un aspecto no limitativo de esta invención es proporcionar métodos novedosos para la reducción del ruido basados en técnicas de substracción espectral, por lo cual el método de reducción del ruido depende de la naturaleza del ciclo de la voz que es procesado. Por ejemplo, en los ciclos con una señal vocal, el procesamiento puede ser efectuado en una base por intervalo abajo de una cierta frecuencia. En una modalidad ilustrativa, la reducción del ruido es efectuada dentro de un sistema de codificación de la voz para reducir el nivel del ruido de fondo en la señal vocal antes de la codificación. Las técnicas descritas pueden ser desplegadas ya sea con señales vocales de banda estrecha muestreadas a 8000 muestras/s o señales vocales de banda ancha muestreadas a 16000 muestras/s, o a cualquier otra frecuencia de muestreo. El codificador utilizado en esta modalidad ilustrativa está basado en el codificador-descodificador AMR-WB (véase S. F. Boíl, "Suppression of acoustic noise in speech using spectral subtraction" , IEEE Trans . Acoust . , Speech, Signal Processing, vol. ASSP-27, pp. 113-120, abril de 1979) , que utiliza una conversión de muestreo interno para convertir la frecuencia de muestro de la señal a 12800 muestras/s (que opera en un ancho de banda de 6.4 kHz) . Por consiguiente, la descripción de la técnica de reducción del ruido en esta modalidad ilustrativa opera sobre las señales ya sea de banda estrecha o de banda ancha después de la conversión del muestro a 12.8 kHz . En el caso de las entradas de banda ancha, la señal de entrada tiene que ser reducida desde 16 kHz hasta 12.8 kHz . La reducción es efectuada primero por el muestreo ascendente de 4, luego la filtración de la salida a través de un filtro de FIR de paso bajo que tiene la frecuencia de corte de 6.4 kHz. Luego, la señal es muestreada descendentemente en 5. El retardo de la filtración es de 15 muestras a una frecuencia de muestreo de 16 kHz. En el caso de entradas de banda estrecha, la señal tiene que ser muestreada ascendentemente desde 8 kHz hasta 12.8 kHz. Esto es efectuado primero por el muestreo ascendente de 8, luego la filtración de la salida a través del filtro de FIR de paso bajo que tiene la frecuencia de corte de 6.4 kHz. Luego, la señal es muestreada descendentemente en 5. El retardo de la filtración es de 8 muestras a la frecuencia de muestreo a 8 kHz. Después de la conversión- del muestreo, dos- -funciones del pre-procesamiento son aplicadas a la señal previo al proceso de codificación: filtración -de paso alto y poner énfasis previo. El filtro de paso alto sirve como una precaución contra los componentes de frecuencia baja indeseables. En esta modalidad ilustrativa, un filtro a una frecuencia de corte de 50 Hz es utilizado, y está dado por: rr , , 0.982910156-1.965820313z-1 +0.982910156z-2 1-1.965820313.T1 +0.966308593.T2 Para poner énfasis previo, un filtro de primer orden de paso alto es utilizado para enfatizar las frecuencias más elevadas, y está dado por: Hpre-emph ( z ) = l-0.68z_1 Poner un énfasis previo es una operación que es utilizada en el codificador-descodificador AMR-WB para mejorar el funcionamiento del codificador-descodificador a frecuencias elevadas y mejorar la ponderación de percepción en el proceso de minimización de errores utilizado en el codificador. En el resto de esta modalidad ilustrativa, la señal en la entrada del algoritmo de reducción del ruido es convertida a la frecuencia de muestreo de 12.8 kHz y preprocesada como se describió anteriormente. Sin embargo, las técnicas descritas pueden ser aplicadas igualmente a las señales en otras frecuencias de muestro tales como 8 kHz o 16 kHz, con y sin pre-procesamiento . En lo que sigue, el algoritmo de reducción del ruido será descrito con detalle. El codificador de la voz en el cual el algoritmo de reducción del ruido es utilizado, opera sobre ciclos de 20 ms que contienen 256 muestras a una frecuencia de muestreo de 12.8 kHz. Además, el codificador utiliza un procedimiento de "preacceso" de 13 ms desde el ciclo futuro en su análisis. La reducción del ruido- sigue la misma estructura de formación del ciclo. Sin embargo, algún desplazamiento puede ser introducido entre la formación del ciclo del codificador del ciclo y la formación del ciclo de la reducción del ruido para maximizar el uso del procedimiento de "preacceso" . En esta descripción, los índices de las muestras reflejarán la formación del ciclo de reducción del ruido . La figura 1 muestra una resumen de un sistema de comunicación de la voz que incluye la reducción del ruido. En el bloque 101, el pre-procesamiento es efectuado como el ejemplo ilustrativo descrito anteriormente. En el bloque 102, son efectuados el análisis espectral y la detección de la actividad de la voz (VAD) . Dos análisis espectrales son efectuados en cada ciclo utilizando ventanas de 20 ms con una superposición del 50%. En el bloque 103, la reducción del ruido es aplicada a los parámetros espectrales y luego se utiliza DFT inverso para convertir la señal mejorada de regreso al dominio del tiempo . La operación de adición de la superposición es utilizada entonces para reconstruir la señal . En el bloque 104, el análisis de predicción lineal (LP) y el análisis del tono de circuito abierto son efectuados (usualmente como una parte del algoritmo de codificación de la voz) . En esta modalidad ilustrativa, los parámetros que resultan del bloque 104 son utilizados en la decisión para actualizar los estimados del ruido en las bandas críticas (bloque 105) . La decisión de VAD también puede ser utilizada como la decisión de actualización del ruido. Los estimados de energía del ruido actualizados en el bloque 105 son utilizados en el siguiente ciclo en el bloque de reducción del ruido 103 para calcular las ganancias de escalamiento. El bloque 106 efectúa la codificación de la voz sobre la señal vocal mejorada. En otras aplicaciones, el bloque 106 puede ser un sistema de reconocimiento de la voz automático. Nótese que las funciones en el bloque 104 pueden ser una parte integral del algoritmo de codificación de la voz .
Análisis espectral La Transformada de Fourier discreta es utilizada para efectuar el análisis espectral y la estimación de energía del espectro. El- análisis de la frecuencia se hace dos veces por ciclo utilizando la transformada de Fourier rápida de 256 puntos (FFT) con una superposición del 50 por ciento (como se ilustra en la figura 2) . Las ventanas de análisis son colocadas de modo que toda el procedimiento de "preacceso" sea explotado. El inicio de la primera ventana está colocado en 24 muestras después del inicio del ciclo actual del codificador de la voz. La segunda ventana está colocada en 128 muestras adicionales. Una raíz cuadrada de una ventana de Hanning (la cual" es equivalente "a una ventana del seno) ha sido utilizada para ponderar la señal de entrada para el análisis de la frecuencia. Esta ventana es particularmente muy adecuada para los métodos de adición de la superposición (por consiguiente este análisis espectral particular es utilizado en el algoritmo de supresión del ruido basado en la substracción espectral y el análisis/síntesis de adición de la superposición) . La raíz cuadrada de la ventana de Hanning está dada por: (1) en donde FFt = 256 es el tamaño del análisis de FTT. Nótese que solamente la mitad de la ventana está calculada y almacenada puesto que la misma es simétrica (desde 0 hasta IFE I ) . Todavía s ' (n) denota la señal con el índice 0 que corresponde a la primera muestra en el ciclo de reducción del ruido (en esta modalidad ilustrativa, la misma es de 24 muestras más que el inicio del ciclo del codificador de la voz) . La señal con ventanas para ambos análisis espectrales es obtenida como en donde s' (0) es la primera muestra en el presente ciclo de reducción del ruido. FFT es efectuado en ambas señales con ventanas para obtener dos conjuntos de parámetros espectrales por ciclo: La salida de FFT proporciona las partes real e imaginaria del espectro denotadas con XR (k ) , k = 0 hasta 128, y Xi (k) , k=l hasta 127. Nótese que XR(0) corresponde al espectro a 0 Hz (DC) y XR(128) corresponde al espectro a 6400 Hz. El espectro en estos puntos es solo de valor real y usualmente es ignorado en el análisis subsiguiente. Después del análisis- de FFT, el espectro- resultante es dividido en bandas críticas utilizando los intervalos que tienen los siguientes límites superiores (20 bandas en el intervalo de frecuencia de 0-6400 Hz) : Bandas críticas = {100.0, 200.0, 300.0, 400.0, 510.0, 630.0, 770.0, 920.0, 1080.0, 1270.0, 1480.0, 1720.0, 2000.0, 2320.0, 2700.0, 3150.0, 3700.0, 4400.0, 5300.0, 6350.0} Hz. Véase D. Johnston, "Transfor coding of audio signal using perceptual noise criteria", IEEE J. Select . Áreas, Commun . , Vol. 6, pp. 314-323, febrero de 1988. El FFT de 256 puntos conduce a una resolución de la frecuencia de 50 Hz (6400/128) . Por consiguiente, después de ignorar el componente DC del espectro, el número de intervalos de frecuencia por banda crítica es M_. = {2, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 8, 9, 11, 14, 18, 21}, respectivamente. La energía promedio en una banda crítica es calculada como: LFPT /2) MCBV) A=O (2) en donde XR(k) y X?(k) son, respectivamente, las partes real e imaginaria del intervalo de frecuencia kth y j__ es el índice del primer intervalo en la banda crítica iési a provista por ji = {1, 3, 5, 7, 9, 11, 13, 16, 19, 22, 26, 30, 35, 41, 47, 55, 64, 75, 89, 107}. El módulo del análisis espectral también calcula la energía por intervalo de frecuencia, EB?_.(k) , para las primeras 17 bandas críticas (74 intervalos excluyendo el componente de DC) ZjwW XXfi+XXk), * = 0....,73 (3) Finalmente, el módulo del análisis espectral calcula la energía total promedio para ambos análisis de FTT en un ciclo de 20 ms agregando las energías de la banda crítica promedio ECB - ES decir, la energía espectral para un cierto análisis espectral es calculada como, 19 (4) (=0 y la energía del ciclo total es calculada como el promedio de las energías del espectro de ambos análisis espectrales en un ciclo. Es decir: JB/=101og(0.5(7ij5Bp.(0)+^hw,í(l)) , dB (5) Los parámetros de salida del módulo de análisis espectral, es decir la energía promedio por banda crítica, la energía por intervalo de frecuencia, y la energía total, son utilizadas en los cálculos de VAD, la reducción del ruido, y los módulos de selección de la velocidad. Nótese que para las entradas de banda estrecha muestreadas a -8000 muestras/s, después de la conversión del muestreo a 12800 muestra/s, no existe contenido en ambos extremos del espectro, por consiguiente, la primera banda crítica de la frecuencia inferior así como las últimas tres bandas de frecuencia elevada no son consideradas en el cálculo de los parámetros de salida (solamente las bandas de i = 1 hasta 16 son consideradas) . Detección de la actividad de la voz El análisis espectral descrito anteriormente es efectuado dos veces por ciclo. Todavía Ecs( y EQJ(Í) denotan la energía por información de banda crítica para el primer y segundo análisis espectrales, respectivamente (como es calculado en la ecuación (2) ) . La energía promedio por banda crítica para el ciclo total y parte del ciclo previo es calculado co o: Jw(0*o^(/)+o.««()+o^_ff«(? (6) en donde -?£_»(/) denota la energía por información de la banda crítica desde el segundo análisis del ciclo previo. La relación de la señal con respecto al ruido (SNR) por banda crítica es calculada entonces como: 3NRCB(i) = Em(i)/NCB(f) limitado ?r SNR^ =l. (7) en donde NCs (i ) es la energía del ruido estimada por banda crítica como será explicado en la siguiente sección. La S?R promedio por ciclo es calculada entonces como: SNRav (8) en donde bmip = 0 y bmax - 19 en el caso de las señales de banda ancha, y £>___.__ = 1 y bmaz =--16 en el caso de las señales de banda estrecha. La actividad de la voz es detectada comparando la S?R promedio por ciclo con un cierto umbral que es una función de la S?R a largo plazo. La S?R a largo plazo está dada por: SNRLT =?f -Ñf (9) en donde g Y W son calculados utilizando las ecuaciones (12) y (13) respectivamente, las cuales serán descritas posteriormente. El valor inicial de -^y •' es de 45 dB. El umbral es una función lineal inteligente por piezas de la S?R a largo plazo. Dos funciones son utilizadas, una para la señal de la voz clara y una para la señal vocal ruidosa. Para la señales de banda ancha, si SNRLT < 35 (voz ruidosa) entonces thvAD = 0.4346 SNRLT + 13.9575 también (señal vocal clara) fchvAD = 1.0333 SNRLT - 7 Para las señales de banda estrecha, si SNRLT < 29.6 (señal vocal ruidosa) entonces" vAD = 0.313 SNRLT + 14.6 también (señal vocal clara) t?vAD = 1.0333 SNRLT - 7 Además, una histéresis en la decisión de VAD es agregada para prevenir el cambio frecuente en el extremo de un período de voz activa. La misma es aplicada en el caso de que el ciclo esté en un período de persistencia leve o si el último ciclo está en un ciclo de la señal vocal activa. El período de persistencia leve consiste de los primeros 10 ciclos después de cada incremento repentino de la señal vocal activa, más largo que 2 ciclos consecutivos. En el caso de la señal vocal ruidosa (SNRLT < 35) , la histéresis reduce el umbral de decisión de VAD en thvAD = 0.95 tÜvAD En el caso de la señal vocal clara, la histéresis reduce el umbral de decisión de VAD en t ívAD = fc- yñD - 11 Si la SNR promedio por ciclo es más grande que el umbral de decisión de VAD, es decir, si SNRAV >thVñD, entonces el ciclo es declarado como un ciclo de señal vocal activa y la bandera VAD y una bandera VAD local son fijadas en 1. De otra manera la bandera de VAD y la bandera de VAD local son fijadas en 0. Sin embargo, en el caso de la voz ruidosa, la bandera de VAD es forzada a 1 en ciclos de persistencia intensa, es decir uno o dos ciclos inactivos a continuación de un período de la voz más prolongado que 2 ciclos consecutivos (la bandera de VAD local es igual entonces a 0 pero la bandera de VAD es forzada a l). Primer nivel de la estimación y actualización del ruido En esta sección, la energía total del ruido, la energía relativa del ciclo, la actualización de energía del ruido promedio a largo plazo y la energía del ciclo promedio a largo plazo, la energía promedio por banda crítica, y un factor de corrección del ruido son calculados. Además, la iniciación de la energía del ruido y las actualizaciones descendentes son provistas. La energía total del ruido por ciclo está dada por: en donde Nc__ (i) es la energía estimada del ruido por banda crítica. La energía relativa del ciclo está dada por la diferencia entre la energía del ciclo en dB y la energía promedio a largo plazo. La energía relativa del ciclo está dada por: Enl =Et -Ef (11) en donde Et está dado en la ecuación (5) . La. energía del ruido promedio a largo plazo o la energía del ciclo promedio a largo plazo son actualizadas en cada ciclo. En el caso de los ciclos de voz activa (bandera de VAD = 1) , la energía del ciclo promedio a largo plazo es actualizada utilizando la relación: Éf =0.992? +0.012?, (12) con el valor inicial g =45_j___._ En el caso de los ciclos de voz inactivos (bandera de VAD = 0) , la energía del ruido promedio a largo plazo es actualizada por 2^=0.992^+0.012^, (13) El valor inicial de / es fijado igual a Not para los primeros 4 ciclos. Además, en los primeros 4 ciclos, el valor de g . está limitado por = Ñ +10. Energía del ciclo por banda crítica, iniciación del ruido, y actualización descendente del ruido La energía del ciclo por banda crítica para el ciclo total es calculada promediando las energías de ambos análisis espectrales en el ciclo. Es decir, ^( =0.5^(0+0.5^ (14) La energía del ruido por banda crítica NCB (Í) es empezada inicialmente en 0.03. Sin embargo, en los primeros 5 subciclos, si la energía de la señal no es demasiado elevada o si la señal no tiene componentes de frecuencia elevada intensa, entonces la energía del ruido es iniciada utilizando la energía por banda crítica de modo que el algoritmo de la reducción del ruido puede ser eficiente desde el principio del procesamiento. Dos relaciones de frecuencia elevada son calculadas: r15f l 6 es la relación entre la energía promedio de las bandas críticas 15 y 16 y la energía promedio en las primeras 10 bandas (promedio de ambos análisis espectrales) , y i8,i9 es la misma pero para las bandas 18 y 19. En los primeros 5 ciclos, si Et < 49 y r__5,_,_r < 2 y Z?a,i9 < 1.5, entonces para los primeros 3 ciclos, Na,<t) = EaW> /=0,...,19 (15) y para los siguientes dos ciclos, NCB (Í) es actualizado por: Para los siguientes ciclos, en esta etapa, solamente la actualización descendente de la energía del ruido es efectuada para las bandas críticas por lo cual la energía es menor que la energía del ruido del fondo. En primer lugar, la energía del ruido actualizada transitoria es calculada como: 2Vrto.(0= 0.9NCB(0+0.l(?.25^)( +0.75^cs( ) (17) en donde E¿¿(í corresponde al segundo análisis espectral del ciclo previo. Entonces para i=0 hasta 19, si Ntmp (í) < NCB (Í) r entonces NCB (í) = Ntmp (i) . Un segundo nivel de actualización de-1 ruido es efectuado posteriormente fijando NCB (Í) — ^tmp ( ) si el ciclo es declarado como un ciclo inactivo. La razón para la fragmentación de la actualización de la energía del ruido en dos partes es que la actualización del ruido puede ser ejecutada solamente durante los ciclos- de señal vocal inactivos y todos los parámetros necesarios para la decisión de la actividad de la señal vocal son necesarios por consiguiente. Estos parámetros son sin embargo, dependientes del análisis de predicción de LP y el análisis de los huecos de circuito abierto, ejecutados sobre la señal vocal sin ruido. Para que el algoritmo de reducción del ruido tenga un estimado del ruido tan exacto como sea posible, la actualización de la estimación del ruido es actualizada por consiguiente de manera descendente antes de la ejecución de la reducción del ruido, y hacia arriba posteriormente si el ciclo es inactivo. La actualización del ruido descendente es segura y se puede hacer independientemente de la actividad de la voz. Reducción del ruido La reducción del ruido es aplicada sobre el dominio de la señal y la señal sin ruido es reconstruida entonces utilizando superposición y adición. La reducción es efectuada por el escalamiento del espectro en cada banda crítica con una ganancia de escalamiento limitada entre gm?n y 1, y derivada de la relación de la señal con respecto al ruido (SNR) en esa banda crítica. Una nueva característica en la supresión del ruido es aquella para las frecuencias inferiores de una cierta frecuencia relacionada con la armonización de la señal, el procesamiento es efectuado con base en el intervalo de frecuencia y no con base en la banda crítica. Por consiguiente, una ganancia de escalamiento es aplicada sobre cada intervalo de la frecuencia derivada de la SNR en ese intervalo (la SNR es calculada utilizando la energía del intervalo dividida entre la energía del ruido de la banda crítica incluyendo ese intervalo) . Esta nueva característica permite la preservación de la energía a frecuencias cercanas a las armónicas previniendo la distorsión mientras que se reduce fuertemente el ruido entre las armónicas. Esta característica puede ser explotada solamente para las señales vocales y, dada la resolución de la frecuencia del análisis de la frecuencia utilizado, para las señales con un período del tono relativamente corto. Sin embargo, estas son precisamente las señales en donde el ruido entre las armónicas es más perceptible . La figura 3 muestra un resumen del procedimiento descrito. En~ el bloque 301, el análisis espectral es efectuado. El bloque 302 verifica si el número de bandas críticas vocalizadas es mayor que 0. Si este es el caso, entonces la reducción del ruido es efectuada en el bloque 304 en donde el procesamiento por intervalo es efectuado en las primeras bandas K vocalizadas y el procesamiento por banda es efectuado en las bandas -restantes. Si if = 0 entonces el procesamiento por banda es aplicado a todas las bandas críticas . Después de la reducción del ruido sobre el espectro, el bloque 305 efectúa un análisis de DFT inverso y la operación de adición de la superposición es utilizada para reconstruir la señal vocal mejorada como será descrito posteriormente . La ganancia de escalamiento mínimo gm±n es derivada de la máxima reducción del ruido permitida en dB, NRmax. La reducción permitida máxima tiene un valor de falla de 14 dB. Por consiguiente, la ganancia de escalamiento mínimo está dada por: f gmin = 10-NRmax 2° ( 18 ) y es igual a 0.19953 para el valor de falla de 14 dB. En el caso de ciclos inactivos con VAD = 0, el mismo escalamiento es aplicado sobre el espectro total y está provisto por gs = 0.9gm±n si la supresión del ruido es activada (si gm±n es inferior que 1) . Es decir, los componentes real e imaginario escalados del espectro están provistos por X'R (k) = geXR (k) , k = 1,...,128, y XX (k) = gBX1 (k) = g3 Xt (k) , k = 1, ... ,127. (19) Nótese que para las entradas de banda estrecha, los límites superiores en la ecuación (19) son fijados a 79 (hasta 3950 Hz) . Para los ciclos activos, la ganancia de escalamiento es calculada con relación a SNR por banda crítica o por intervalo para las primeras - bandas con la señal vocal . Si - o > 0 entonces la supresión del ruido por intervalo es efectuada sobre las primeras bandas de KVo?c- La supresión del ruido por banda es utilizada sobre el resto de las bandas. En el caso de K?oic = 0, la supresión del ruido por banda es utilizada sobre el espectro total. El valor de KVOJC es actualizado como será descrito posteriormente. El valor máximo de KVO?c es de 17, por lo tanto el procesamiento por intervalo puede ser aplicado solamente sobre las primeras 17 bandas críticas y corresponden a una frecuencia máxima de 3700 Hz . El número máximo de intervalos para los cuales el procesamiento por intervalo puede ser utilizado es de 74 (el número de intervalos en las primeras 17 bandas) . Se hace una excepción para los ciclos de persistencia intensa que serán descritos posteriormente en esta sección. En una implementación alternativa, el valor de KVO?C puede ser fijado. En este caso, en todos los tipos de ciclos de la voz, el procesamiento, por intervalo es efectuado hasta una cierta banda y el procesamiento por banda es aplicado a las otras bandas . La ganancia de escalamiento en una cierta banda crítica, o para un cierto intervalo de frecuencia, es calculada como una función de SNR y está dada por: (gs)2 = k, SNR+c, , limitado por gt?k = gs = 1 (20) Los valores de ks y cs son determinados tales como g_. = min para SNR = 1 y _?_. = 1 para- SNR = 45. Es decir, para S?Rs a 1 dB y valores inferiores, el escalamiento está limitado a gs y para S?Rs a 45 dB y valores más elevados, ninguna supresión del ruido es efectuada en la banda crítica dada ( gs = 1) . Por consiguiente, dados estos dos puntos de extremo, los valores de ks y cs en la ecuación 20 están dados por: ks = (1-gr.in2)/ 4 y cs = (45grfflin2-l) /44. (21) La SNR variable en la ecuación (20) es ya sea la S?R por banda crítica, SNRCB (Í) , o la S?R por intervalo de frecuencia, SNRBiN (k) , dependiendo del tipo de procesamiento. La S?R por banda crítica es calculada en el caso del primer análisis espectral en el ciclo como: = SNRa (22) y para el segundo análisis espectral, la S?R es calculada como: SNRCB Q) 0,...,19 (23) en donde -^cflW y Ecg (i) denotan la energía por información de la banda crítica para el primer y segundo análisis espectrales, respectivamente (como son calculados en la ecuación (2)), Ef!¡j(i) denota la energía por información de la banda crítica desde el segundo análisis del ciclo previo, y NCB (Í) denota la energía del ruido estimada por banda crítica. La SNR por intervalo crítico en una cierta banda crítica i es calculada en el caso del primer análisis espectral en el ciclo como: oN-K-w k = j[...../, + MCB(0-1 (24) y para el segundo análisis espectral, la SNR es calculada como : en donde E^(k) y Eßm denotan la energía por el intervalo de frecuencia para el primer y segundo análisis espectrales, respectivamente (como se calcula en la ecuación (3) ) , E k) denota la energía por intervalo de frecuencia del segundo análisis del ciclo previo, NCB (í) denota el estimado de energía del ruido por banda crítica, J± es el índice del primer intervalo en la banda crítica y MCB (Í) es el número de intervalos en la banda crítica (i) , definida anteriormente. En el caso del procesamiento por la banda crítica para una banda con el índice i , después de determinar la ganancia de escalamiento- como en la ecuación (22) , y utilizando SNR como se definió en las ecuaciones (24) o (25) , el escalamiento real es efectuado utilizando una ganancia de escalamiento suavizado, actualizada en cada análisis de la frecuencia como: <3CB, LP (Í ) = agsgCB, p (í ) +' (l -ags) gs (26) En esta invención, se describe una característica novedosa en donde el factor de suavización es adaptable y está relacionado inversamente con la propia ganancia. En esta modalidad ilustrativa el factor de suavización está dado por ags = l-gs - Es decir, la suavización es más fuerte para las ganancias más pequeñas g3. Este método previene la distorsión en los segmentos de la voz con SNR elevada precedido por los ciclos de SNR baja, como es el caso para los inicios con la señal vocal. Por ejemplo en los ciclos de señales vocales sin voz, la SNR es baja y por consiguiente una ganancia de escalamiento fuerte es utilizada para reducir el ruido en el espectro. Si un inicio con la señal vocal sigue al ciclo sin la voz, la SNR llega a ser más elevada, y si la suavización de la ganancia previene una actualización rápida de la ganancia de escalamiento, entonces es probable que un escalamiento fuerte será utilizado sobre el inicio con la señal vocal lo cual conducirá a un funcionamiento pobre. En el método propuesto, el procedimiento de suavización es capaz de adaptar y utilizar rápidamente las ganancias de escalamiento inferiores al inicio. El escalamiento en la banda crítica es efectuado como: en donde j'__ es el índice del primer intervalo en la banda crítica i y MCB (i) es el número de intervalos en esa banda crítica. En el caso del procesamiento por intervalo en una banda con el índice i, después de la determinación de la ganancia de escalamiento como en la ecuación (20) y utilizando SNR como se definió en las ecuaciones (24) o (25), el escalamiento real es efectuado utilizando una ganancia de escalamiento suavizado, actualizada en cada análisis de la frecuencia como: gBiN,?,p (k) = g3gBINfLP (k) + (l -ags) gs (28) en donde g? = 1-g, semejante a la ecuación (26) . La suavización temporal de las ganancias previene las oscilaciones de energía audible al mismo tiempo que controlando la suavización utilizando agSr previene la distorsión en los segmentos de la voz con un nivel elevado de SNR precedido por los ciclos de SNR baja, como es el caso para los inicios con la voz por ejemplo. El escalamiento en la banda crítica i es efectuado como : X?' k+jl) = gBpf?lP(k+j¡)XI(k+j¡)> (29) Ar=0,...J cs(0-l' en donde j_¡ es el índice del primer intervalo en la banda crítica i y MCB (Í) es el número de intervalos en la banda crítica. Las ganancias de escalamiento suavizado gBiN,?,p (k) y gcB,Lp(i) son fijadas inicialmente en 1. Cada vez que un ciclo inactivo es procesado (VAD=0) , los valores de las ganancias suavizadas son reajustados a gm?n definido en la ecuación (18). Como se mencionó anteriormente, si KVO?c > 0 de la supresión del ruido por intervalo es efectuada sobre las primeras bandas de KVo?cr Y la supresión del ruido por banda es efectuada sobre las bandas restantes utilizando los procedimientos descritos anteriormente. Nótese que en cada análisis espectral, las ganancias de escalamiento suavizadas gcB, (í) son actualizadas para todas las bandas críticas (aún para las bandas con la voz procesadas con el procesamiento por intervalo - en este caso gcB,Lp d) es actualizado con un promedio de gBm,Lp (k) que pertenece a la banda i) . De manera semejante, las ganancias de escalamiento gBm,Lp (k) son actualizadas para todas los intervalos de frecuencia en las primeras 17 bandas (hasta el intervalo 74) . Para las bandas procesadas con el procesamiento por banda, las mismas son actualizadas fijándolas iguales a gcB. ( en estas 17 bandas específicas . Nótese que en el caso de la voz clara, la supresión del ruido no es efectuada en los ciclos con la voz activos (VAD=1) . Esto es detectado encontrando la energía del ruido máximo en todas las bandas críticas, max (NCB (í) ) , i =0, ...,19, y si este valor es menor o igual que 15 entonces la supresión del ruido es efectuada. Como se mencionó anteriormente, para los ciclos inactivos (VAD=0) , un escalamiento de 0.9gm_.__ es aplicado sobre el espectro total, lo cual es equivalente a remover una base del ruido constante. Para los ciclos de persistencia corta de VAD (VAD=1 y local_VAD=0) , el procesamiento por banda es aplicado a las primeras 10 bandas como se describió anteriormente (que corresponde a 1700 Hz) , y para el resto del espectro, una base de ruido constante es substraída para el escalamiento del resto del espectro por un valor constante gmin - Esta medición reduce significativamente las oscilaciones de energía del ruido de frecuencia elevada. Para estas bandas arriba de la banda 10a., las ganancias de escalamiento suavizados gcß,Lp ( ) no son reajustadas sino que son actualizadas utilizando la ecuación (26) con gs = gm±m Y las ganancias de escalamiento suavizados por intervalo gBXN,Lp (k) son actualizadas ajusfándolas para que sean iguales a gcB,Lp(i) en las bandas críticas correspondientes. El procedimiento descrito anteriormente puede ser - observado como una reducción del ruido específica para la clase en donde el algoritmo de reducción depende de la naturaleza del ciclo de la voz que es procesado. Esto es ilustrado en la figura 4. El bloque 401 verifica si la bandera de VAD es 0 (señal vocal inactiva) . Si este es el caso, entonces una base del ruido constante es removida del espectro aplicando la misma ganancia de escalamiento sobre el espectro completo (bloque 402) . De otra manera, el bloque 403 verifica si el ciclo es un ciclo de persistencia de VAD. Si este es el caso, entonces el procesamiento por banda es utilizado en las primeras 10 bandas y la misma ganancia de escalamiento es utilizada en las bandas restantes (bloque 406) . De otra manera, el bloque 405 verifica si la armonización es detectada en las primeras bandas en el espectro. Si este es el caso, entonces el procesamiento por intervalo es efectuado en las primeras bandas con armonizadas K y el procesamiento por banda es efectuado en las bandas restantes (bloque 406) . Si ninguna de las bandas con voz son detectadas, entonces el procesamiento por banda es efectuado en todas las bandas críticas (bloque 407) . En el caso del procesamiento, de las señales de banda estrecha (muestreado ascendente hasta 12800 Hz) , la supresión del ruido es efectuada sobre las primeras 17 bandas (hasta 3700 Hz) . Para los restantes 5 intervalos de frecuencia entre 3700 Hz y 4000 Hz, el espectro es escalado utilizando la última ganancia de escalamiento gs en el intervalo a 3700 Hz .
Para el resto del espectro (desde 4000 Hz hasta 6400 Hz) , el espectro se fija en cero. Reconstrucción de la señal sin ruido Después de la determinación de los componentes espectrales escalados, XrR (k) y X/ I (k) , la FFT inversa es aplicada sobre el espectro escalado para obtener la señal sin ruido con ventanas en el dominio del tiempo.
Esto es repetido para ambos análisis espectrales en el ciclo para obtener las señales con ventanas sin ruido x w®>d (n) y xw¿{n) . Para cada mitad del ciclo, la señal es reconstruida utilizando una operación de adición de la superposición para las porciones de superposición del análisis. Puesto que una ventana de Hanning de la raíz cuadrada es utilizada sobre la señal original previo al análisis espectral, la misma ventana es aplicada en la salida de FFT inversa previo a la operación de adición de la superposición. Por consiguiente, la señal sin ruido, con ventanas, duplicada, está dada por: S (") = w <fl??? (")> " = °'-' Lm ~ ! *£* (») = WFFT (»)*S (")» » = .....ÍOT- -1 (30) Para la primera mitad de la ventana de análisis, la operación de adición de la superposición para la construcción de la señal sin ruido es efectuada como: 5(n)=^?rf(»+Ií?t/2)+^?(.(»), «=0 Z^/2-l y para la segunda mitad de la ventana del análisis, la operación de adición de la superposición para construir la señal sin ruido es efectuada como: s( +Lm, /2) = x^d^+LFFT /2) + x^ta(n), n ^ O^L^ I2-1 en donde xjjü.,,.0 es la señal sin ruido, con ventanas dobles del segundo análisis en el ciclo previo. Nótese que con la operación de adición de la superposición, puesto que existe un desplazamiento de 24 muestras entre el ciclo del codificador de la señal vocal y el ciclo de reducción del ruido, la señal sin ruido puede ser reconstruida hasta 24 muestras desde el proceso de "preacceso" además del presente ciclo. Sin embargo, otras 128 muestras todavía son necesarias para complementar el proceso de "preacceso" necesario por el codificador de la voz para el análisis de predicción lineal (LP) y el análisis del tono de circuito abierto. Esta parte es obtenida temporalmente por la selección inversa de las ventanas de la segunda mitad de la señal con ventanas, sin ruido Xw,_j<2) (ni) sin efectuar la operación de adición de la superposición. Es decir: s(n+LFFr) = x An+LFFT /2)/wFFT(n+LFFT /2), n=0 LFFr /2- 1 Nótese que esta porción de la señal se vuelve a calcular apropiadamente en el siguiente ciclo utilizando la operación de adición de la superposición. Actualización de los estimados de la energía del ruido Este módulo actualiza los estimados de la energía del ruido por banda crítica para la supresión del ruido. La actualización es efectuada durante los períodos de la voz inactivos. Sin embargo, la decisión de VAD efectuada anteriormente, la cual está basada en la SNR por banda crítica, no es utilizada para la determinación de si los estimados de la energía del ruido son actualizados. Otra decisión es efectuada con base en otros parámetros independientes de la SNR por banda crítica. Los parámetros utilizados para la decisión de actualización del ruido son: la estabilidad del tono, la característica no estacionaria de la señal, la armonización, y la relación entre las energías del error residual de LP de 2/o. orden y de 16/o. orden, y generalmente tienen una sensibilidad baja a las variaciones del nivel del ruido. La razón para no utilizar la decisión de VAD del codificador para la actualización del ruido es hacer la estimación robusta del ruido para cambiar rápidamente los niveles del ruido. Si la decisión de VAD del codificador fue utilizada para actualizar el ruido, un incremento repentino en el nivel del ruido podría provocar un incremento de SNR aún para los ciclos de la voz inactivos, previniendo la actualización del estimador del ruido, lo cual podría mantener a su vez la SNR elevada en los siguientes ciclos, y etcétera. En consecuencia, la actualización del ruido podría ser bloqueada y alguna otra lógica podría ser necesaria para reasumir la adaptación del ruido. En esta modalidad ilustrativa, el análisis del tono de circuito abierto es efectuado en el codificador para calcular tres estimados del tono de circuito abierto por ciclo: d0, di , y d?, que corresponden a la primera mitad del ciclo, la segunda mitad del ciclo, y la proceso de "preacceso", respectivamente. El contador de la estabilidad del tono es calculado como: pc = d0 -d_1 \ + \ dl -d0 \ + \ d2 -d? \ (31) en donde __ es el retardo de la segunda mitad del ciclo, del ciclo previo. En esta modalidad ilustrativa, para los retardos del tono mayores que 122, el módulo de búsqueda del tono de circuito abierto ajusta d2 = d± . Por consiguiente, para tales retardos, el valor de pe en la ecuación (31) es multiplicado por 3/2 para compensar la falta del tercer término en la ecuación. La estabilidad del tono es verdadera si el valor de pe es menor que 12. Además, para los ciclos con una armonización baja, pe es fijada en 12 para indicar la inestabilidad del tono. Es decir: Si (Cnom(d0) + Cnom(d,)+C„Bm(d2))/3 + rß < 0.7 entras pc = 12, (32) en donde cnorm (d) es la correlación de entrada normalizada y re es una corrección opcional agregada a la correlación normalizada para compensar la reducción de la correlación normalizada en la presencia del ruido del fondo. En esta modalidad ilustrativa, la correlación normalizada es calculada con base en la señal del tono ponderada, reducida, Swd (n) Y está dada por: E'-wSta »-*) en donde el límite de la sumatoria depende del propio retardo. En esta modalidad ilustrativa, la señal ponderada utilizada en el análisis del tono del circuito abierto es reducida en 2 y los límites de la suma son proporcionados de acuerdo con: Lsec = 0 para d = 10 , ... , 16 LSec - 40 para d = 17, ... , 31 Lsec = 62 para d = 32, ... , 61 Lsec — H5 para d = 62,..., 115 La estimación no estacionaria de la señal es efectuada con base en el producto de las relaciones entre la energía por banda crítica y la energía a largo plazo promedio por banda crítica. La energía a largo plazo, promedio, por banda crítica es actualizada por: Ea¿t(J = a*ECB¿t(t + (í-<?t)EcB !) > Para i=b i to ¿ , (33) en donde bm?n = 0 y bmax = 19 en el caso de las señales de banda ancha, y min = 1 y bmax = 16 en el caso de las señales de banda estrecha, y -^csCO '- es la energía del ciclo por banda crítica definida en la ecuación (14) . El factor de actualización e es una función lineal de la energía del ciclo total, definida en la ecuación (5), y está dado como sigue: Para las señales de banda ancha: e = 0.0245£tot -0.235 limitado por 0.5 < ae < 0.99. Para señales de banda estrecha: e = 0.0009l£tot + 0.3185 limitado por 0.5 < ae < Ó.999. El ciclo no estacionario está dado por el producto de las relaciones entre la energía del ciclo y la energía a largo plazo, promedio, por banda crítica. Es decir: (34) El factor de armonización para la actualización del ruido está dado por: armonización = ( Cnorm (d0) + Cnorm (dx) ) /2 + re. (35) Finalmente, la relación entre la energía residual de LP después del análisis de 2/o. orden y de 16/o. orden está dada por: resid_ratio = E(2) /E(16) (36) en donde E(2) y E(16) son las energías residuales de LP después del análisis de 2/o. orden y de 16/o. orden, y calculadas en la recurrencia de Levinson-Durbin como es bien conocido por una persona experta en el arte. Esta relación refleja el hecho de que representa una envoltura espectral de la señal, un orden más elevado de LP es necesario generalmente para la señal vocal que para el ruido. En otras palabras, la diferencia entre E(2) y E(16) se supone que va a ser inferior para el ruido que para la voz activa. La decisión actualizada es determinada con base en una noise_update variable que es fijada inicialmente en 6 y que es reducida en 1 si un ciclo inactivo es detectado e incrementada en 2 si un ciclo activo es detectado. Además, noise_update está limitada por 0 y 6. Las energías del ruido son actualizadas solamente cuando noise_update = 0. El valor de noise_update variable es actualizado en cada ciclo como sigue : Si (nonstat > th3tat) O (pe < 12) O (pe < 12) O (armonización > 85) 0 (resid_ratio > threSid) noise_update = noise_update + 2 También noise_update = noise_update - 1 en donde para las señales de banda ancha, thgtat = 350000 y thresid = 1.9, y para las señales de banda estrecha, th?tat = 500000 y thresid = 11. En otras palabras, los ciclos son declarados inactivos para la actualización del ruido cuando (nonstat < th3tat) Y (p > 12) Y (armonización < 0.85) Y (resid__ratío < thresí?) y una persistencia de 6 ciclos es utilizada antes que la actualización del ruido se lleve a cabo. Por consiguiente, si noise_update = 0 entonces para i = 0 hasta 19 NCB (Í ) = Nrwp (i) en donde Nmp (i) es la energía del ruido actualizada temporal ya calculada en la ecuación (17) . Actualización de la frecuencia de corte de la armonización : La frecuencia del corte abajo de la cual una señal se considera armonizada es actualizada. Esta frecuencia es utilizada para determinar el número de bandas críticas para las cuales la supresión del ruido es efectuada utilizando el procesamiento por intervalo . En primer lugar, una medición de la armonización es calculada como: Vg -= 0 . 4Cnorm ( d__) + 0 . 6Cnorm (d2) + re ( 37 ) y la frecuencia del corte de la armonización está dada por : fc= 0.00017118e17-9772vg limitado por 325 < fc < 3700 (38) Luego, el número de bandas críticas, kvoic, ue tiene une frecuencia superior que no excede fc es determinado. Los límites de 325 <_ fc < 3700 son fijados de tal modo que el procesamiento por intervalo sea efectuado sobre un mínimo de 3 bandas y un máximo de 17 bandas (refiriéndose a los límites superiores de las bandas críticas, descritos anteriormente) . Nótese que en el cálculo de la medición de la armonización, se proporciona un mayor peso a la correlación normalizada del proceso de "preacceso" puesto que el número determinado de bandas con la señal será utilizado en el siguiente ciclo. Por consiguiente, en el siguiente ciclo, para las primeras bandas críticas de Kvoxcr la supresión de ruido utilizará el procesamiento por intervalo como se describió anteriormente . Nótese que para los ciclos con armonización baja y para los retardos grandes del tono, solamente el procesamiento por banda crítica es utilizado y por consiguiente, KVO?c es fijado en 0. La siguiente condición es utilizada: Si ( 0 . 4: Cnorm (d1) + 0 . ßCnorm (d2) < 0.72) 0 (d_. > 116) 0 (d2 > 116 ) entonces KVO?c = 0 - Por supuesto, son posibles muchas otras modificaciones y variaciones. En vista de la descripción ilustrativa, detallada anteriormente, de las modalidades de esta invención y las figuras asociadas, tales otras modificaciones y variaciones llegarán a ser evidentes ahora para aquellos con experiencia ordinaria en el arte . También debe ser evidente que tales otras variaciones pueden ser efectuadas sin apartarse del espíritu y alcance de la presente invención. Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención.

Claims (1)

  1. REIVINDICACIONES Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes reivindicaciones . 1. Un método para" la supresión del ruido de una: señal vocal , que comprende : efectuar el análisis de la frecuencia para producir una representación del dominio espectral de la señal vocal que comprende un número de intervalos de frecuencia; y agrupar los intervalos de frecuencia en un número de bandas de frecuencia, caracterizado porque cuando la actividad de la voz armonizada es detectada en la señal vocal , la supresión del ruido es efectuada en una base por intervalo de frecuencia para un primer número de las bandas de frecuencia y la supresión del ruido es efectuada en una base por banda de frecuencia para un segundo número de las bandas de frecuencia. 2. Un método de conformidad con la reivindicación 1, caracterizado porque el primer número de bandas de frecuencia es determinado de acuerdo con el número de bandas de frecuencia que son armonizadas. 3. Un método de conformidad con la reivindicación 1, caracterizado porque el primer número de bandas de frecuencia es determinado con respecto a una frecuencia de corte de la armonización, la cual es una frecuencia abajo de la cual la señal vocal se considera armonizada. 4. Un método de conformidad con la reivindicación 3 , caracterizado porque el primer número de bandas de frecuencia incluye todas las bandas de frecuencia de la señal vocal que tiene una frecuencia superior que no excede la frecuencia de corte de la armonización. 5. Un método de conformidad con la reivindicación 1, caracterizado porque el primer número de bandas de frecuencia es un número fij o predeterminado . 6. Un método de conformidad con la reivindicación 1, caracterizado porque si ninguna banda de frecuencia de la señal vocal está armonizada, la supresión del ruido es efectuada en una base por banda de frecuencia para todas las bandas de f ecuencia . 7. Un método de conformidad con la reivindicación 1, caracterizado porque la señal vocal comprende ciclos de la señal vocal que comprenden un número de muestras y el método de conformidad con la reivindicación 1 es aplicado para suprimir el ruido en un ciclo de la señal vocal. 8. Un método de conformidad con la reivindicación 7, caracterizado porque comprende efectuar el análisis de la frecuencia de conformidad con la reivindicación 1, utilizando una ventana de análisis que está descentrada en m muestras con respecto a una primera muestra del ciclo de la señal vocal . 9. Un método de conformidad con la reivindicación 7, caracterizado porque comprende efectuar un primer análisis de la frecuencia utilizando una primera ventana de análisis que está - descentrada en m muestras con respecto a una primera muestra del ciclo de la señal vocal y una segunda ventana de análisis de la frecuencia que está descentrada en p muestras con respecto a la primera muestra del ciclo de la señal vocal . 10. Un método de conformidad con la reivindicación 9, caracterizado porque m = 24 y p = 128. 11. Un método de conformidad con la reivindicación 9, caracterizado porque la segunda ventana de análisis comprende una porción de un proceso de "preacceso" que se extiende desde el ciclo de la señal vocal hacia un ciclo de la señal vocal subsiguiente de la señal vocal . 12. Un método de conformidad con la reivindicación 1, caracterizado porque comprende efectuar la supresión del ruido aplicando una ganancia de escalamiento a los intervalos y/o bandas de frecuencia. 13. Un método de conformidad con la reivindicación 1, caracterizado porque cuando la supresión del ruido es efectuada sobre una base por intervalo de frecuencia, el método comprende además determinar una ganancia de escalamiento específica para el intervalo de frecuencia, para un intervalo de frecuencia dado. 14. Un método de conformidad con la reivindicación 1,- caracterizado porque cuando la supresión de ruido es efectuada sobre una base por banda de frecuencia, el método comprende además determinar una ganancia de escalamiento específica para la banda de frecuencia para una banda de frecuencia dada'. 15. Un método de conformidad con la reivindicación 6, caracterizado porque comprende efectuar la supresión del ruido por la aplicación de una ganancia de escalamiento constante para todas las bandas de frecuencia. 16. Un método de conformidad con la reivindicación 13, caracterizado porque comprende determinar un valor para la ganancia de escalamiento especifica para el intervalo de frecuencia para un intervalo de frecuencia con referencia a una relación de la señal con respecto al ruido (SNR) determinada por el intervalo de frecuencia. 17. Un método de conformidad con la reivindicación 14, caracterizado porque comprende determinar un valor para la ganancia de escalamiento específica para la banda de frecuencia, para una banda de frecuencia con referencia a una relación de la señal con respecto al ruido (SNR) determinada por la banda de frecuencia. 18. Un método de conformidad con la reivindicación 16, caracterizado porque comprende efectuar las etapas de la reivindicación 16 para cada uno del primer y segundo análisis de la frecuencia. 19. Un método de conformidad con la reivindicación 17, caracterizado porque comprende efectuar las etapas de la reivindicación 17 para cada uno del primer y segundo análisis de la frecuencia. 20. Un método de conformidad con cualquiera de las reivindicaciones 12, 13 ó 14, caracterizado porque la ganancia de escalamiento es una ganancia de escalamiento suavizada. 21. Un método de conformidad con cualquiera de las reivindicaciones 12, 13 o 14, caracterizado porque comprende calcular una ganancia de escalamiento suavizada que va a ser aplicada a un intervalo de frecuencia particular o a una banda de frecuencia particular utilizando un factor de suavización que tiene un valor que está relacionado inversamente con una ganancia de escalamiento para el intervalo de frecuencia particular o la banda particular. 22. Un método de conformidad con cualquiera de las reivindicaciones 12, 13 ó 14, caracterizado porque comprende calcular una ganancia de escalamiento suavizada que va a ser aplicada a un intervalo de frecuencia particular o una banda de frecuencia particular utilizando un factor de suavización que tiene un valor determinado de modo que la suavización sea más fuerte para los valores más pequeños de la ganancia de escalamiento. 23. Un método de conformidad con las reivindicaciones 13 ó 14, caracterizado porque la determinación del valor de la ganancia de escalamiento ocurre n veces por ciclo de. la señal vocal, en donde n es mayor que uno. 24. Un método de conformidad con la reivindicación 23, caracterizado porque n = 2. 25. Un método de conformidad con las reivindicaciones 13 ó 14, caracterizado porque comprende determinar el valor de la ganancia de escalamiento n veces por ciclo de la señal vocal, en donde n es más grande que uno, y en donde la frecuencia de corte de la armonización es al menos parcialmente una función de la señal vocal en un ciclo de la señal vocal previo . 26. Un método de conformidad con la reivindicación 13, caracterizado porque la supresión del ruido sobre la base por intervalo de frecuencia es efectuada sobre un máximo de 74 intervalos que corresponden a 17 bandas. 27. Un método de conformidad con la reivindicación 13, caracterizado porque la supresión del ruido sobre la base por intervalo de frecuencia es efectuado sobre un número máximo de intervalos de frecuencia que corresponde a una frecuencia de 3700 Hz . 28. Un método de conformidad con la reivindicación 16, caracterizado porque para un primer valor de SNR, el valor de la ganancia de escalamiento es fijado en un valor mínimo, y para un segundo valor de SNR mayor que el primer valor de SNR, el valor de la ganancia de escalamiento es fijado en la unidad. 5 29. Un método de conformidad con la reivindicación 28, caracterizado porque el primer valor de SNR es igual a aproximadamente 1 dB, y en donde el segundo valor de SNR es de aproximadamente 45 dB. 30. Un método de conformidad con la reivindicación 10 20, caracterizado porque además comprende detectar secciones de la señal vocal que no contienen la señal vocal activa. 31. Un método de conformidad con la reivindicación 30, caracterizado porque además comprende reajustar la ganancia de escalamiento suavizada a un valor mínimo en 15 respuesta a la detección de una sección de la señal vocal que no contiene la señal vocal activa. 32. Un método de conformidad con la reivindicación 7, caracterizado porque la supresión del ruido no es efectuada cuando una energía del ruido máximo en una 20. pluralidad de bandas de frecuencia está abajo de un valor de umbral . 33. Un método de conformidad con la reivindicación 7, caracterizado porque además comprende, en respuesta a una presentación de un ciclo de la señal vocal de persistencia 25 corta, efectuar la supresión del ruido aplicando una ganancia de escalamiento determinada sobre una base por banda de frecuencia para las primeras bandas de frecuencia x, para las bandas de frecuencia restantes, efectuar la supresión del ruido aplicando un valor único de la ganancia de escalamiento . 34. Un método de conformidad con la reivindicación 33, caracterizado porque las primeras bandas de frecuencia x corresponden a una frecuencia de hasta 1700 Hz. 35. Un método de conformidad con la reivindicación 20, caracterizado porque para una señal vocal de banda estrecha, el método comprende además efectuar la supresión del ruido por la aplicación de ganancias de escalamiento suavizadas determinadas sobre una base por banda de frecuencia para las primeras bandas de frecuencia x que corresponden a una frecuencia de hasta 3700 Hz, efectuando la supresión del ruido por la aplicación del valor de la ganancia de escalamiento en el intervalo de la frecuencia que corresponde a 3700 Hz hasta los intervalos de frecuencia entre 3700 Hz y 4000 Hz, y poner en cero las bandas de frecuencia restantes del espectro de frecuencia de la señal vocal . 36. Un método de conformidad con la reivindicación 35, caracterizado porque la señal vocal de banda estrecha es una que es muestreada ascendentemente hasta 12800 Hz . 37. Un método de conformidad con la reivindicación 3, caracterizado porque además comprende determinar la frecuencia de corte de armonización utilizando una medición de armonización calculada por computadora. 38. Un método de conformidad con la reivindicación 37, caracterizado porque además comprende determinar un número de bandas criticas que tienen una frecuencia superior que no excede la frecuencia de corte de armonización, en donde los limites son fijados de tal modo que la supresión del ruido sobre la base por intervalo de frecuencia sea efectuada sobre un mínimo de x bandas y un máximo de y bandas . 39. Un método de conformidad con la reivindicación 38, caracterizado prque x = 3 y y = 17. 40. Un método de conformidad con la reivindicación 37, caracterizado porque la frecuencia de corte de armonización está limitada para que sea igual a, o mayor que 325 Hz e igual a, o menor que 3700 Hz . 41. Un dispositivo para suprimir el ruido en una señal vocal, el dispositivo está arreglado para: efectuar el análisis de la frecuencia para producir una representación del dominio espectral de la señal vocal que comprende un número de intervalos de frecuencia; y agrupar los intervalos de frecuencia en un número de bandas de frecuencia, caracterizado porque el dispositivo está arreglado para detectar la actividad de la voz armonizada y cuando la actividad de la voz armonizada es detectada en la señal vocal, efectuar la supresión del ruido sobre una base por intervalo de frecuencia para un primer número de bandas de frecuencia y efectuar la supresión del ruido sobre una base por banda de frecuencia para un segundo número de las bandas de frecuencia . 42. Un dispositivo de conformidad con la reivindicación 41, caracterizado porque el primer número de bandas de frecuencia es determinado de conformidad con el número de las bandas de frecuencia que son armonizadas. 43. Un dispositivo de conformidad con la reivindicación 41, caracterizado porque está arreglado para determinar el . primer número de bandas de frecuencia con respecto a una frecuencia de corte de armonización, que es una frecuencia abajo de la cual la señal vocal es considerada armonizada. 4 . Un dispositivo de conformidad con la reivindicación 43, caracterizado porque el primer número de bandas de frecuencia incluye todas las bandas de frecuencia de la señal vocal que tiene una frecuencia superior que no excede la frecuencia del corte de armonización. 45. Un dispositivo de conformidad con la reivindicación 41, caracterizado porque el primer número de bandas de frecuencia es un número fijo predeterminado. 46. Un dispositivo de conformidad con la reivindicación 41, caracterizado porque está arreglado para efectuar la supresión del ruido sobre una base por banda de frecuencia para todas las bandas de frecuencia cuando ninguna banda de frecuencia de la señal vocal está armonizada. 47. Un dispositivo de conformidad con la reivindicación 41, caracterizado porque la señal vocal comprende ciclos de la señal vocal que comprenden un número de muestras y el dispositivo está arreglado para suprimir el ruido en un ciclo de la señal vocal . 48. Un dispositivo de conformidad con la reivindicación 47, caracterizado porque está arreglado para efectuar el análisis de la frecuencia utilizando una ventana de análisis que está descentrada en m muestras con respecto a una primera muestra del ciclo de la señal vocal. 49. Un dispositivo de conformidad con la reivindicación 47, caracterizado porque está arreglado para efectuar un primer análisis de la frecuencia que utiliza una primera ventana de análisis que está descentrada en m muestras con respecto a una primera muestra del ciclo de la señal vocal y una segunda ventana de análisis de la frecuencia que está descentrada en p muestras con respecto a una primera muestra del ciclo de la señal vocal. 50. Un dispositivo de conformidad con la reivindicación 49, caracterizado porque m = 24 y p = 128. 51. Un dispositivo de conformidad con la reivindicación 49, caracterizado porque la segunda ventana de análisis comprende una porción del proceso de "preacceso" que se extiende desde el ciclo de la señal vocal hacia un ciclo de la voz subsiguiente de la señal vocal . 52. Un dispositivo de conformidad con la reivindicación 41, caracterizado porque está arreglado para efectuar la supresión del ruido aplicando una ganancia de escalamiento a los intervalos y/o bandas de frecuencia. 53. Un dispositivo de conformidad con la reivindicación 41, caracterizado porque cuando el dispositivo está arreglado para efectuar la supresión del ruido sobre una base por intervalo de frecuencia y está arreglado además para determinar una ganancia de escalamiento especifica para el intervalo de la frecuencia para un intervalo de frecuencia dado. 54. Un dispositivo de conformidad con la reivindicación 41, caracterizado porque cuando el dispositivo está arreglado para efectuar la supresión del ruido sobre una base por banda de frecuencia y está arreglado además para determinar una ganancia de escalamiento específica para la banda de frecuencia para una banda de frecuencia dada. 55. Un dispositivo de conformidad con la reivindicación 46, caracterizado porque el dispositivo está arreglado para efectuar la supresión del ruido por la aplicación de una ganancia de escalamiento constante para todas las bandas de frecuencia. 56. Un dispositivo de conformidad con la reivindicación 53, caracterizado porque el dispositivo está arreglado para determinar un valor para la ganancia de escalamiento específica para el intervalo de frecuencia, para un intervalo de frecuencia con referencia a una relación de la señal con respecto al ruido (SNR) determinada para el intervalo de frecuencia . 57. Un dispositivo de conformidad con la reivindicación 54, caracterizado porque el dispositivo está arreglado para determinar un valor para la ganancia de escalamiento específica para la banda de frecuencia, para una banda de frecuencia con referencia a una relación de la señal con respecto al ruido (SNR) determinada para la banda de frecuencia . 58. Un dispositivo de conformidad con la reivindicación 56, caracterizado porque está arreglado para efectuar las etapas de la reivindicación 56 para cada uno del primer y segundo análisis de la frecuencia. 59. Un dispositivo de conformidad con la reivindicación 57, caracterizado porque el dispositivo está arreglado para efectuar las etapas de la reivindicación 57 para cada uno del primer y segundo análisis de la frecuencia. 60. Un dispositivo de conformidad con cualquiera de las reivindicaciones 52, 53 ó 54, caracterizado porque la ganancia de escalamiento es una ganancia de escalamiento suavizada. 61. Un dispositivo de conformidad con cualquiera de las reivindicaciones 52, 53 ó 54, caracterizado porque está arreglado para calcular una ganancia de escalamiento suavizada que va a ser aplicada a un intervalo de frecuencia particular o a una banda de frecuencia particular utilizando un factor de suavización que tiene un valor que está relacionado inversamente con la ganancia de escalamiento para el intervalo de frecuencia particular o la banda particular. 62. Un dispositivo de conformidad con cualquiera de las reivindicaciones 52, 53 ó 54, caracterizado porque el dispositivo está arreglado para calcular una ganancia de escalamiento suavizada que va a ser aplicada a un intervalo de frecuencia particular o a una banda de frecuencia particular utilizando un factor de suavización que tiene un valor determinado de modo que la suavización sea más fuerte para los valores más pequeños de la ganancia de escalamiento. 63. Un dispositivo de conformidad con las reivindicaciones 53 ó 54, caracterizado porque está arreglado para determinar el valor de la ganancia de escalamiento n veces por ciclo1 de la señal vocal, en donde n es mayor que uno. 64. Un dispositivo de conformidad con la reivindicación 63, caracterizado porque n = 2. 65. Un dispositivo de conformidad con las reivindicaciones 53 o 54, caracterizado porque está arreglado para determinar el valor de la ganancia de escalamiento n veces por ciclo de la señal vocal, en donde n es mayor que uno, y en donde la frecuencia de corte de la armonización es una función al menos parcialmente de la señal vocal en un ciclo de la voz previo. 66 . Un dispositivo de conformidad con la reivindicación 53, caracterizado porque el dispositivo está arreglado para efectuar la supresión del ruido sobre la base por intervalo de frecuencia sobre un máximo de 74 intervalos que corresponden a 17 bandas. 67. Un dispositivo de conformidad con la reivindicación 53, caracterizado porque está arreglado para efectuar la supresión del ruido sobre la base por intervalo de frecuencia sobre un número máximo de intervalos de frecuencia que corresponden a una frecuencia de 3700 Hz . 68. Un dispositivo de conformidad con la reivindicación 56, caracterizado porque el dispositivo está arreglado para fijar el valor de la ganancia de escalamiento a un valor mínimo para un primer valor de SNR, y para fijar el valor de la ganancia de escalamiento en la unidad para un segundo valor de SNR mayor que el primer valor de SNR. 69. Un dispositivo de conformidad con la reivindicación 68, caracterizado porque el primer, valor de SNR es igual a aproximadamente 1 dB, y en donde el segundo valor de SNR es de aproximadamente 45 dB. 70. Un dispositivo de conformidad con la reivindicación 60, caracterizado porque el dispositivo está arreglado para detectar las secciones de la señal vocal que no contienen la voz activa. 71. Un dispositivo de conformidad con la reivindicación 70, caracterizado porque el dispositivo está arreglado para reajustar la ganancia de escalamiento suavizada en un valor mínimo en respuesta a la detección de una sección de la señal vocal que no contiene la voz activa. 72. Un dispositivo de conformidad con la reivindicación 47, caracterizado porque está arreglado para no efectuar la supresión del ruido cuando una energía máxima del ruido, en una pluralidad de bandas de frecuencia, está abaj o de un valor de umbral . 73. Un dispositivo de conformidad con la reivindicación 47, caracterizado porque en respuesta a una presentación de un ciclo de la señal vocal de persistencia corta, el dispositivo está arreglado para efectuar la supresión del ruido aplicando una ganancia de escalamiento sobre una base por banda de frecuencia para las primeras bandas de frecuencia x y para efectuar la supresión del ruido aplicando un valor único de la ganancia de escalamiento para las bandas de frecuencia restantes . 74. Un dispositivo de conformidad con la reivindicación 73, caracterizado porque las primeras bandas de frecuencia x corresponden a una frecuencia de hasta 1700 Hz. 75. Un dispositivo de conformidad con la reivindicación 60, caracterizado porque para una señal vocal de banda estrecha, el dispositivo está arreglado para efectuar la supresión del ruido por la aplicación de ganancias de escalamiento suavizadas, determinada sobre una base por banda de- frecuencia para las primeras bandas de frecuencia x que corresponden a una frecuencia de hasta 3700 Hz, para efectuar la supresión del ruido por la aplicación del valor de la ganancia de escalamiento en el intervalo de la frecuencia que corresponde a 3700 Hz hasta los intervalos de frecuencia entre 3700 Hz y 4000 Hz, y para poner en cero las bandas de frecuencia restantes del espectro de frecuencia de la señal vocal . 76. Un dispositivo de conformidad con la reivindicación 75, caracterizado porque la señal vocal de banda estrecha es una que es muestreada ascendentemente hasta 12800 Hz. 77. Un dispositivo de conformidad con la reivindicación 43, caracterizado porque está arreglado para determinar la frecuencia del corte de armonización utilizando una medición de la armonización calculada por computadora. 78. Un dispositivo de conformidad con la reivindicación 77, caracterizado porque está arreglado para determinar un número de bandas criticas que tienen una frecuencia superior que no excede la frecuencia de corte de la armonización, en donde los limites son fijados de tal modo que la supresión del ruido sobre la base por intervalo de frecuencia sea efectuado sobre un mínimo x bandas y un máximo de y bandas . 79. Un dispositivo de conformidad con la reivindicación 78, caracterizado porque x =.3 y en donde y = 17. 80. Un dispositivo de conformidad con la reivindicación 77, caracterizado porque la frecuencia de corte de la armonización está limitada para que no sea igual a o mayor que 325 Hz e igual a o menor que 3700 Hz . 81. Un codificador de la voz, caracterizado porque comprende un dispositivo para la supresión del ruido, el dispositivo está arreglado para: efectuar el análisis de la frecuencia para producir una representación del dominio espectral de la señal vocal que comprende un número de intervalos de frecuencia; y agrupar los intervalos de frecuencia en un número de bandas de frecuencia, caracterizado porque el dispositivo está arreglado para detectar la actividad de la voz armonizada y cuando la actividad de la voz armonizada sea detectada en la señal .vocal, efectuar la supresión del ruido sobre una base por intervalo de frecuencia para un primer número de las bandas de frecuencia y efectuar la supresión del ruido sobre una base por banda de frecuencia para un ' segundo número de las bandas de frecuencia. 82. Un sistema de reconocimiento de la señal vocal, automático, que comprende un dispositivo para la supresión del ruido, el dispositivo está arreglado para: efectuar el análisis de la frecuencia para producir una representación del domino espectral de la señal vocal que comprende un número de intervalos de frecuencia; y agrupar los intervalos de frecuencia en un número de bandas de frecuencia, caracterizado porque el dispositivo está arreglado para detectar la actividad de la voz armonizada y cuando la actividad de la voz armonizada sea detectada en la señal vocal, efectuar la supresión del ruido sobre una base por intervalo de frecuencia para un primer número de las bandas de frecuencia y efectuar la supresión del ruido sobre una base por banda de frecuencia para un segundo número de las bandas de frecuencia. 83. Un teléfono móvil que comprende un dispositivo para la supresión del ruido, el dispositivo está arreglado para: efectuar el análisis de la frecuencia para producir una representación del dominio espectral de la señal vocal que comprende un número de intervalos de frecuencia; y agrupar los intervalos de frecuencia en un número de bandas de frecuencia, caracterizado porque el dispositivo está arreglado para detectar la actividad de la voz armonizada y cuando la actividad de la voz armonizada es detectada en la señal vocal, efectuar la supresión el ruido sobre una base por intervalo de frecuencia para un primer número de las bandas de frecuencia y efectuar la supresión del ruido sobre una base por banda de frecuencia para un segundo número de las bandas de frecuencia.
MXPA06007234A 2003-12-29 2004-12-29 Metodo y dispositivo para mejora de la voz en presencia de un ruido del fondo. MXPA06007234A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CA002454296A CA2454296A1 (en) 2003-12-29 2003-12-29 Method and device for speech enhancement in the presence of background noise
PCT/CA2004/002203 WO2005064595A1 (en) 2003-12-29 2004-12-29 Method and device for speech enhancement in the presence of background noise

Publications (1)

Publication Number Publication Date
MXPA06007234A true MXPA06007234A (es) 2006-08-18

Family

ID=34683070

Family Applications (1)

Application Number Title Priority Date Filing Date
MXPA06007234A MXPA06007234A (es) 2003-12-29 2004-12-29 Metodo y dispositivo para mejora de la voz en presencia de un ruido del fondo.

Country Status (19)

Country Link
US (1) US8577675B2 (es)
EP (1) EP1700294B1 (es)
JP (1) JP4440937B2 (es)
KR (1) KR100870502B1 (es)
CN (1) CN100510672C (es)
AT (1) ATE441177T1 (es)
AU (1) AU2004309431C1 (es)
BR (1) BRPI0418449A (es)
CA (2) CA2454296A1 (es)
DE (1) DE602004022862D1 (es)
ES (1) ES2329046T3 (es)
HK (1) HK1099946A1 (es)
MX (1) MXPA06007234A (es)
MY (1) MY141447A (es)
PT (1) PT1700294E (es)
RU (1) RU2329550C2 (es)
TW (1) TWI279776B (es)
WO (1) WO2005064595A1 (es)
ZA (1) ZA200606215B (es)

Families Citing this family (92)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7113580B1 (en) * 2004-02-17 2006-09-26 Excel Switching Corporation Method and apparatus for performing conferencing services and echo suppression
CN101014997B (zh) * 2004-02-18 2012-04-04 皇家飞利浦电子股份有限公司 用于生成用于自动语音识别器的训练数据的方法和系统
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
EP1864281A1 (en) * 2005-04-01 2007-12-12 QUALCOMM Incorporated Systems, methods, and apparatus for highband burst suppression
PL1875463T3 (pl) * 2005-04-22 2019-03-29 Qualcomm Incorporated Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia
JP4765461B2 (ja) * 2005-07-27 2011-09-07 日本電気株式会社 雑音抑圧システムと方法及びプログラム
US7366658B2 (en) * 2005-12-09 2008-04-29 Texas Instruments Incorporated Noise pre-processor for enhanced variable rate speech codec
US7930178B2 (en) * 2005-12-23 2011-04-19 Microsoft Corporation Speech modeling and enhancement based on magnitude-normalized spectra
US9185487B2 (en) * 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US7593535B2 (en) * 2006-08-01 2009-09-22 Dts, Inc. Neural network filtering techniques for compensating linear and non-linear distortion of an audio transducer
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、系统和装置
US8195454B2 (en) 2007-02-26 2012-06-05 Dolby Laboratories Licensing Corporation Speech enhancement in entertainment audio
TWI420509B (zh) * 2007-03-19 2013-12-21 Dolby Lab Licensing Corp 語音增強用雜訊變異量估計器
CN101320559B (zh) * 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
JP5395066B2 (ja) * 2007-06-22 2014-01-22 ヴォイスエイジ・コーポレーション 音声区間検出および音声信号分類ための方法および装置
JP2010539792A (ja) * 2007-09-12 2010-12-16 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スピーチ増強
US8892432B2 (en) * 2007-10-19 2014-11-18 Nec Corporation Signal processing system, apparatus and method used on the system, and program thereof
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8554550B2 (en) 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context processing using multi resolution analysis
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
WO2009109050A1 (en) * 2008-03-05 2009-09-11 Voiceage Corporation System and method for enhancing a decoded tonal sound signal
CN101483042B (zh) * 2008-03-20 2011-03-30 华为技术有限公司 一种噪声生成方法以及噪声生成装置
US8606573B2 (en) * 2008-03-28 2013-12-10 Alon Konchitsky Voice recognition improved accuracy in mobile environments
KR101317813B1 (ko) * 2008-03-31 2013-10-15 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
US9142221B2 (en) * 2008-04-07 2015-09-22 Cambridge Silicon Radio Limited Noise reduction
US9253568B2 (en) * 2008-07-25 2016-02-02 Broadcom Corporation Single-microphone wind noise suppression
US8515097B2 (en) * 2008-07-25 2013-08-20 Broadcom Corporation Single microphone wind noise suppression
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
EP2416315B1 (en) * 2009-04-02 2015-05-20 Mitsubishi Electric Corporation Noise suppression device
US8834386B2 (en) * 2009-07-07 2014-09-16 Koninklijke Philips N.V. Noise reduction of breathing signals
EP2491548A4 (en) * 2009-10-19 2013-10-30 Ericsson Telefon Ab L M VOICE ACTIVITY METHOD AND DETECTOR FOR SPEECH ENCODER
CA2778342C (en) * 2009-10-19 2017-08-22 Martin Sehlstedt Method and background estimator for voice activity detection
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
EP4120263B1 (en) 2010-01-19 2023-08-09 Dolby International AB Improved subband block based harmonic transposition
WO2011110496A1 (en) * 2010-03-09 2011-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for handling transient sound events in audio signals when changing the replay speed or pitch
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
KR101176207B1 (ko) * 2010-10-18 2012-08-28 (주)트란소노 음성통신 시스템 및 음성통신 방법
KR101173980B1 (ko) * 2010-10-18 2012-08-16 (주)트란소노 음성통신 기반 잡음 제거 시스템 및 그 방법
US8831937B2 (en) * 2010-11-12 2014-09-09 Audience, Inc. Post-noise suppression processing to improve voice quality
EP2458586A1 (en) * 2010-11-24 2012-05-30 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
DK3493205T3 (da) * 2010-12-24 2021-04-19 Huawei Tech Co Ltd Fremgangsmåde og indretning til adaptiv detektion af stemmeaktivitet i et lydindgangssignal
KR20120080409A (ko) * 2011-01-07 2012-07-17 삼성전자주식회사 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
US20130346460A1 (en) * 2011-01-11 2013-12-26 Thierry Bruneau Method and device for filtering a signal and control device for a process
US8650029B2 (en) * 2011-02-25 2014-02-11 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
US20140114653A1 (en) * 2011-05-06 2014-04-24 Nokia Corporation Pitch estimator
TWI459381B (zh) * 2011-09-14 2014-11-01 Ind Tech Res Inst 語音增強方法
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
EP3288033B1 (en) * 2012-02-23 2019-04-10 Dolby International AB Methods and systems for efficient recovery of high frequency audio content
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
EP2786376A1 (en) 2012-11-20 2014-10-08 Unify GmbH & Co. KG Method, device, and system for audio data processing
EP2936486B1 (en) 2012-12-21 2018-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Comfort noise addition for modeling background noise at low bit-rates
CN103886867B (zh) * 2012-12-21 2017-06-27 华为技术有限公司 一种噪声抑制装置及其方法
US9495951B2 (en) 2013-01-17 2016-11-15 Nvidia Corporation Real time audio echo and background noise reduction for a mobile device
RU2660605C2 (ru) 2013-01-29 2018-07-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Концепция заполнения шумом
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
JP6303340B2 (ja) 2013-08-30 2018-04-04 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
KR20150032390A (ko) * 2013-09-16 2015-03-26 삼성전자주식회사 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
DE102013111784B4 (de) 2013-10-25 2019-11-14 Intel IP Corporation Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
US9449615B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Externally estimated SNR based modifiers for internal MMSE calculators
US9449609B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Accurate forward SNR estimation based on MMSE speech probability presence
US9449610B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Speech probability presence modifier improving log-MMSE based noise suppression performance
CN104681034A (zh) 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
GB2523984B (en) * 2013-12-18 2017-07-26 Cirrus Logic Int Semiconductor Ltd Processing received speech data
CN104916292B (zh) * 2014-03-12 2017-05-24 华为技术有限公司 检测音频信号的方法和装置
US10176823B2 (en) * 2014-05-09 2019-01-08 Apple Inc. System and method for audio noise processing and noise reduction
KR20160000680A (ko) * 2014-06-25 2016-01-05 주식회사 더바인코퍼레이션 광대역 보코더용 휴대폰 명료도 향상장치와 이를 이용한 음성출력장치
RU2713852C2 (ru) 2014-07-29 2020-02-07 Телефонактиеболагет Лм Эрикссон (Пабл) Оценивание фонового шума в аудиосигналах
WO2016033364A1 (en) 2014-08-28 2016-03-03 Audience, Inc. Multi-sourced noise suppression
DE112015004185T5 (de) 2014-09-12 2017-06-01 Knowles Electronics, Llc Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten
US9947318B2 (en) * 2014-10-03 2018-04-17 2236008 Ontario Inc. System and method for processing an audio signal captured from a microphone
US9886966B2 (en) * 2014-11-07 2018-02-06 Apple Inc. System and method for improving noise suppression using logistic function and a suppression target value for automatic speech recognition
TWI569263B (zh) * 2015-04-30 2017-02-01 智原科技股份有限公司 聲頻訊號的訊號擷取方法與裝置
JP6289774B2 (ja) * 2015-12-01 2018-03-07 三菱電機株式会社 音声認識装置、音声強調装置、音声認識方法、音声強調方法およびナビゲーションシステム
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
CN108022595A (zh) * 2016-10-28 2018-05-11 电信科学技术研究院 一种语音信号降噪方法和用户终端
CN106782504B (zh) * 2016-12-29 2019-01-22 百度在线网络技术(北京)有限公司 语音识别方法和装置
US11450339B2 (en) * 2017-10-06 2022-09-20 Sony Europe B.V. Audio file envelope based on RMS power in sequences of sub-windows
US10771621B2 (en) * 2017-10-31 2020-09-08 Cisco Technology, Inc. Acoustic echo cancellation based sub band domain active speaker detection for audio and video conferencing applications
RU2701120C1 (ru) * 2018-05-14 2019-09-24 Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-Морского Флота "Военно-морская академия имени Адмирала флота Советского Союза Н.Г. Кузнецова" Устройство для обработки речевого сигнала
US10681458B2 (en) * 2018-06-11 2020-06-09 Cirrus Logic, Inc. Techniques for howling detection
KR102327441B1 (ko) * 2019-09-20 2021-11-17 엘지전자 주식회사 인공지능 장치
US11217262B2 (en) * 2019-11-18 2022-01-04 Google Llc Adaptive energy limiting for transient noise suppression
US11264015B2 (en) 2019-11-21 2022-03-01 Bose Corporation Variable-time smoothing for steady state noise estimation
US11374663B2 (en) * 2019-11-21 2022-06-28 Bose Corporation Variable-frequency smoothing
CN111429932A (zh) * 2020-06-10 2020-07-17 浙江远传信息技术股份有限公司 语音降噪方法、装置、设备及介质
CN112634929A (zh) * 2020-12-16 2021-04-09 普联国际有限公司 一种语音增强方法、装置及存储介质

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57161800A (en) * 1981-03-30 1982-10-05 Toshiyuki Sakai Voice information filter
AU633673B2 (en) * 1990-01-18 1993-02-04 Matsushita Electric Industrial Co., Ltd. Signal processing device
US5432859A (en) * 1993-02-23 1995-07-11 Novatel Communications Ltd. Noise-reduction system
JP3297307B2 (ja) * 1996-06-14 2002-07-02 沖電気工業株式会社 背景雑音消去装置
US6098038A (en) * 1996-09-27 2000-08-01 Oregon Graduate Institute Of Science & Technology Method and system for adaptive speech enhancement using frequency specific signal-to-noise ratio estimates
US6097820A (en) * 1996-12-23 2000-08-01 Lucent Technologies Inc. System and method for suppressing noise in digitally represented voice signals
US6456965B1 (en) * 1997-05-20 2002-09-24 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
US6044341A (en) * 1997-07-16 2000-03-28 Olympus Optical Co., Ltd. Noise suppression apparatus and recording medium recording processing program for performing noise removal from voice
US20020002455A1 (en) * 1998-01-09 2002-01-03 At&T Corporation Core estimator and adaptive gains from signal to noise ratio in a hybrid speech enhancement system
US6088668A (en) * 1998-06-22 2000-07-11 D.S.P.C. Technologies Ltd. Noise suppressor having weighted gain smoothing
US7209567B1 (en) * 1998-07-09 2007-04-24 Purdue Research Foundation Communication system with adaptive noise suppression
US6351731B1 (en) * 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6233549B1 (en) * 1998-11-23 2001-05-15 Qualcomm, Inc. Low frequency spectral enhancement system and method
US6363345B1 (en) * 1999-02-18 2002-03-26 Andrea Electronics Corporation System, method and apparatus for cancelling noise
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
JP4242516B2 (ja) 1999-07-26 2009-03-25 パナソニック株式会社 サブバンド符号化方式
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
CA2290037A1 (en) * 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
US6366880B1 (en) * 1999-11-30 2002-04-02 Motorola, Inc. Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies
US6704711B2 (en) * 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
US7058572B1 (en) * 2000-01-28 2006-06-06 Nortel Networks Limited Reducing acoustic noise in wireless and landline based telephony
US6898566B1 (en) * 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
US6862567B1 (en) * 2000-08-30 2005-03-01 Mindspeed Technologies, Inc. Noise suppression in the frequency domain by adjusting gain according to voicing parameters
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
US6925435B1 (en) 2000-11-27 2005-08-02 Mindspeed Technologies, Inc. Method and apparatus for improved noise reduction in a speech encoder
JP4282227B2 (ja) * 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
US7155385B2 (en) * 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions
US7492889B2 (en) * 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate

Also Published As

Publication number Publication date
CN100510672C (zh) 2009-07-08
US8577675B2 (en) 2013-11-05
AU2004309431C1 (en) 2009-03-19
KR20060128983A (ko) 2006-12-14
MY141447A (en) 2010-04-30
EP1700294B1 (en) 2009-08-26
US20050143989A1 (en) 2005-06-30
RU2329550C2 (ru) 2008-07-20
JP2007517249A (ja) 2007-06-28
DE602004022862D1 (de) 2009-10-08
RU2006126530A (ru) 2008-02-10
ATE441177T1 (de) 2009-09-15
AU2004309431A1 (en) 2005-07-14
CN1918461A (zh) 2007-02-21
BRPI0418449A (pt) 2007-05-22
HK1099946A1 (en) 2007-08-31
JP4440937B2 (ja) 2010-03-24
CA2550905A1 (en) 2005-07-14
PT1700294E (pt) 2009-09-28
EP1700294A4 (en) 2007-02-28
TW200531006A (en) 2005-09-16
EP1700294A1 (en) 2006-09-13
WO2005064595A1 (en) 2005-07-14
KR100870502B1 (ko) 2008-11-25
CA2454296A1 (en) 2005-06-29
ZA200606215B (en) 2007-11-28
CA2550905C (en) 2010-12-14
ES2329046T3 (es) 2009-11-20
AU2004309431B2 (en) 2008-10-02
TWI279776B (en) 2007-04-21

Similar Documents

Publication Publication Date Title
MXPA06007234A (es) Metodo y dispositivo para mejora de la voz en presencia de un ruido del fondo.
AU2009278263B2 (en) Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
US8930184B2 (en) Signal bandwidth extending apparatus
US20080059164A1 (en) Noise suppression device
WO2005114656A1 (en) Noise reduction for automatic speech recognition
CN114005457A (zh) 一种基于幅度估计与相位重构的单通道语音增强方法
CN114023348A (zh) 一种基于自适应谱底优化的多带谱减法的语音增强方法
US11183172B2 (en) Detection of fricatives in speech signals
Surendran et al. Variance normalized perceptual subspace speech enhancement
Bao et al. A novel speech enhancement method using power spectra smooth in wiener filtering
JP4173525B2 (ja) 雑音抑圧装置及び雑音抑圧方法
JP4098271B2 (ja) 雑音抑圧装置
Kim et al. Speech enhancement in non-stationary noise environments.
Ahmed et al. Adaptive noise estimation and reduction based on two-stage wiener filtering in MCLT domain
Ming et al. Weak speech recovery for single-channel speech enhancement
Zhang et al. A Computation-Efficient Parameter Adaptation Algorithm for the Generalized Spectral Subtraction Method
BRPI0911932B1 (pt) Equipamento e método para processamento de um sinal de áudio para intensificação de voz utilizando uma extração de característica

Legal Events

Date Code Title Description
FG Grant or registration