MXPA95001343A

MXPA95001343A - Reduccion de ruido transmitido en sistemas de comunicacion

Info

Publication number: MXPA95001343A
Application number: MXPA/A/1995/001343A
Authority: MX
Inventors: Dale Wynn Woodson
Original assignee: At&Ampt Corp
Filing date: 1995-03-14
Publication date: 2001-12-04

Abstract

Se describe un servicio de red de telecomunicaciones que supera los efectos del ruido transmitido, mediante un procesamiento de señales que filtra el ruido usando estimaciones iterativas de un modelo de voz de cobertura, predictivo lineal. El filtro de modelo de voz usa un estimado actualizado preciso de la densidad espectral de potencia de ruido, actual, con base en las muestras de bloques de señales de entrada, las cuales son determinadas mediante un detector de actividad de voz para hacer bloquesúnicamente de ruido. Un novedoso método de cálculo de la señal de entrada, que usa el modelo de recubrimiento predictivo lineal, proporciona la realización de iteraciones intrabloques del bloque presente, con base en un número seleccionado de bloques pasados recientes y hasta dosbloques futuros. El procesamiento es efectivo a pesar de que la señal de ruido no es averiguable a partir de su fuente.

Description

"REDUCCIÓN DE RUIDO TRANSMITIDO EN SISTEMAS DE COMUNICACIÓN" Inventor: WOODSON DALE WYNN, norteamericano, domiciliado en 56 Júpiter Way, Basking Ridge, New Jersey 07920, E.U.A.

Causahabiente : AT&T CORP., corporación del Estado de New York, E.U.A. domiciliada en 32 Avenue of the Americas, New York, New York 10013-2412, E.U.A. &^^^-iS^^^ s¿ sJ^á^^^. ?lA CAMPO DE LA INVENCIÓN Esta invención se refiere al mejoramiento de la calidad de voz en un canal o red de telecomunicaciones ruidoso y, particularmente, al aparato que mejora la voz o habla mediante la eliminación continua del contenido de ruido a través de un novedoso uso de codificación predictiva lineal. ^b ANTECEDENTES DE LA INVENCIÓN En todas las formas de sistemas de comunicaciones de voz, el ruido proveniente de una variedad de causas puede interferir con las comunicaciones del usuario. El ruido corruptor puede ocurrir con la voz o habla a la entrada de un sistema, en la vía o vías de transmisión, y en el extremo de recepción. La presencia de ruido molesta o distrae a los usuarios, puede afectar de manera adversa la calidad de la voz, y puede reducir el funcionamiento de la codificación de voz y el aparato de reconocimiento de voz. La tecnología de mejoramiento de voz es importante para los sistemas de radio-teléfono celular que están sujetos a ruido de automóviles y ruido del canal, a teléfonos públicos localizados en ambientes ruidosos, y ÜÜ^^j^?™^^ a comunicaciones a larga distancia sobre enlaces de radio ruidosos u otras vías y comunicaciones pobres, # a los sistemas de teleconferencia con ruido en la fuente de voz, y a los sistemas de comunicaciones aire-tierra donde el ruido de las cabinas ruidosas corrompe la conversación o voz piloto, y es fatigoso y peligroso. Además, como en el caso de un sistema de reconocimiento de voz para marcación automática, la precisión de reconocimiento puede deteriorarse en el ambiente ruidoso si el algoritmo reconocedor está basado en un modelo estadístico de voz limpia. El ruido en la vía de transmisiones es particularmente difícil de superar, siendo una razón que la señal de ruido no es averiguable desde su fuente. Por lo tanto, el suprimir éste no puede lograrse mediante la generación de una señal de "error" a partir de una medición directa del ruido y luego cancelando la señal de error mediante la inversión de fase. Han sido intentados diversos procedimientos para mejorar una señal de voz ruidosa cuando el componente de ruido no es directamente observable. Una revisión de esta técnica se encuentra en "Enhancement and Bandwidth Compresión of Noisy Speech", por J.S. Lim y A.V. Oppenheim, Proccedings of the IEEE, Vol. 67, No. 12, Diciembre 1979, Sección V, páginas 1586-1604.

Estos incluyen la sustracción espectral del espectro de amplitud de ruido estimado, a partir del espectro completo computado para la señal ruidosa disponible, y un filtro basado en modelo iterativo propuesto por Lim y Oppenheim, el cual intenta encontrar el mejor modelo de todos polos del componente de voz, dada la señal ruidosa total y un estimado del espectro de potencia del ruido. El procedimiento basado en el modelo se usó por J.H Hansen, en "constrained Iterative Speech Enhancement with Appliction to Speech Recognition", ^^^= por J.H.L. Hansen y M.A. Clements, IEEE Transactions On Signal Processing, Vol. 39, No. 4, Abril 1991, páginas 795-805, para desarrollar un filtrador o suavizador de voz de tiempo no real, donde los constreñimientos adicionales a través del tiempo fueron impuestos sobre el modelo de voz durante la iteraciones de Lim-Oppenheim para limitar el modelo a los cambios característicos Los efectos de los métodos anteriores en la referencia de Lim/Oppenheim son para mejorar la proporción señal-a-ruido después del procesamiento, pero con pobre mejoramiento de la calidad de voz debido a la introducción del ruido no estacionario en las salidas filtradas. Incluso el ruido no estacionario de » muy bajo nivel, puede ser objetable para el oído humano.

La ventaja del filtrado a través de los cuadros temporales o intervalos de tiempo en el filtrador de tiempo no real de Hansen es reducida adicionalmente el nivel de ruido no estacionario que permanece. El procedimiento de filtrado o suavizamiento de Hansen proporciona mejoramiento considerable en la calidad de voz, en comparación con los métodos en la referencia de Lim/Oppenheim , pero esta técnica no puede ser operada en tiempo real ya que ésta procesa todos los datos, pasados y futuros, en cada cuadro temporal. Entonces el mejoramiento no puede trabajar de manera efectiva en un ambiente de telecomunicaciones. Uno de los mejoramientos descritos más adelante es alterar el filtrador de Hansen para funcionar como un filtro que sea compatible con este 5 ambiente .

BREVE DESCRIPCIÓN DE LA INVENCIÓN La invención es un método de procesamiento 0 de señales para una red de comunicaciones, el cual filtra el ruido usando la estimación iterativa del modelo de voz LPC con la adición de la estimación continua de la operación de tiempo real del espectro de energía del ruido, la modificación de la señal filtrada de cada 5 iteración, y los constreñimientos de tiempo sobre el aBÉj sJ?S&ÉgÉ ¿2M&É5&¿AZ.'JÍS&: número de polos y sus movimientos a través de los cuadros temporales o intervalos de tiempo. La señal de voz i # de entrada, corrompida con ruido, es aplicada a un Filtro Wiener lineal, iterado, especial, el propósito del cual es enviar de salida en el tiempo real un estimado de la voz el cual es luego transmitido hacia la red. El filtro requiere un estimado preciso de la función de densidad espectral de la potencia de ruido actual. Esto es obtenido a partir de la estimación espectral de la entrada en las compuertas de ruido que * son típicas en la voz. La detección de estos cuadros o bloques únicamente de ruido es logrado mediante un Detector de Actividad de Voz (VAD). Cuando es" detectado únicamente el ruido en el VAD, la salida del filtro es atenuada de modo que la potencia de ruido completo no es propagada sobre la red. Cuando la voz mas el ruido es detectado en el cuadro temporal o intervalo de tiempo bajo consideración por el filtro, se realiza un estimado de si' la conver¬ sación es sonora o no sonora. El orden de modelo LPC asumido en el filtro iterado, es modificado de acuerdo al tipo de voz o habla detectado. Como una regla, el orden del modelo LPC es M=Fs+(4 ó 5) si es de conversación sonora y M=Fs si es de conversación no sonora el cuadro temporal, donde Fs es la anchura de banda Ctw-t . -.^^sa»,^^ , de la conversación o voz en KHz. Esta adaptación dinámica de la orden del modelo es usada para suprimir los polos del modelo de dispersión que pueden producir ruido en forma de tono modulado, dependiente del tiempo, en la voz o conversación filtrada. De acuerdo con otro aspecto más de la invención, un rastreo de los cambios en el espectro de ruido se proporciona mediante la actualización con nuevos bloques de ruido únicamente, a un grado que depende de una "distancia" entre el nuevo y viejo estimados de espectro de ruido. Los parámetros pueden ser establecidos sobre el número mínimo de bloques de ruido nuevos, contiguos, que deben de ser detectados antes de que sea estimada una actualización del nuevo espectro de ruido y sobre la ponderación que da la nueva actualización del espectro de ruido. Estos y otros mejoramientos de la invención a la técnica del uso de estimación iterativa de un filtro que incorpora un modelo de voz adaptativo y la estimación espectral de ruido, con actualizaciones para suprimir el ruido del tipo que no puede ser directamente medido, son más adelante en la presente detallados en la descripción siguiente de una nueva modalidad específica de la invención, usada en una red de telecomunicaciones. 25 DESCRIPCIÓN DE LOS DIBUJOS La FIGURA 1 es un diagrama de una red de telecomunicaciones ilustrativas que contiene la inven-ción ; La FIGURA ÍA es un recurso de procesamiento de señales ; La FIGURA 2 es un diagrama de una operación de suavizamiento o filtrado practicada a la invención; La FIGURA 3 es un diagrama de flujo que muestra el esquema de trabajo para el mejoramiento de voz; La FIGURA 4 es un diagrama del aparato que genera la secuencia de iteración para el mejoramiento de voz costreñido; La FIGURA 5 es un diagrama que describe la operación de filtrado interbloques para las raices LPC del modelo de voz; y la relajación de la matriz de autocorrelación de LPC interbloques de iteración a iteración; fss&s& senfri? &^^¿g¿^^^^^^^a^¿8^_^_gj_^ ^_^ifc_8 La FIGURA 6a és un diagrama que muestra un método para actualizar cada iteración del bloque actual; La FIGURA 6b es &jti? diagrama que muestra el método mejorado, usado para actualizar cada iteración al bloque o intervalo actual; La FIGURA 7 es una tabla de ponderaciones de filtrado para las raices de posición de LSP, para filtrar o suavi- sar a través de siete cuadros o bloques de voz alrededor del cuadro o bloque actual; Las FIGURAS 8 y 9 son trazas de señales que muestran los aspectos del estimador de ruido; y La FIGURA 10 es una descripción de los pasos usados para actualizar el espectro de ruido requerido, usado en el Filtro Wiener.

DESCRIPCIÓN DETALLADA DE UNA MODALIDAD ILUSTRATIVA La invención es esencialmente un proceso de mejoramiento para la filtración de voz-mas-ruido en canal, cuando no está disponible la referencia de ruido separada y la cual opera en tiempo real. La invención será descrita en conjunto con una red de telecomunicaciones, aunque se entiende que los principios de la invención son aplicables a muchas situaciones donde debe ser reducido el ruido en un medio de transmisión de voz electrónica. Una red de telecomunicaciones ejemplar se muestra en la FIGURA 1, que consiste de un conmutador 10 remotamente localizado, al cual están conectadas numerosas terminales de comunicaciones tales como el teléfono 11, sobre las líneas locales tales como 12, las cuales pueden ser par retorcido o trenzado. Los canales de salida tales como la vía 13 emanan de la oficina remota 10. La vía 13 puede cruzar un límite internacional 14. La vía 13 continúa a una oficina central 15 con base en los Estados Unidos con un conmutador 16, el cual puede ser un conmutador No. 4ESS que sirve a numerosas vías de entrada denotadas con el 17 incluyendo la vía 13. El conmutador 16 constituye una vía interna tal como la vía 18 la cual, en el ejemplo, une una llamada de entrada proveniente del canal 13 a un canal de transmisión 19 de salida, eventual, el cual es uno de un grupo 19 de canales de salida. Se asume que la llamada de entrada proveniente del canal 13 contiene ruido generado en cualquiera de los segmentos 10, 11, 12, 13 de la interconexión; la fuente de ruido, por lo tanto, _t_a_$___£i_! 1 no puede ser directamente medida. wjjL De acuerdo con la invención, se realiza una determinación en la unidad lógica 20 de si el ruido por arriba de un cierto umbral predeterminado está pre- senté en la salida del conmutador proveniente del canal 13. La unidad lógica 20 también determina si la llamada es voz, mediante la disposición de fax, modem y otras posibilidades. Además, la unidad lógica 20 determina si el número de originación es un cliente del servicio de reducción de ruido, transmitido. Si la unidad lógica 20 realiza las tres determinaciones, la llamada es encaminada a una unidad de procesamiento 21 por el conmutador 22; de otro modo la llamada es pasada directamente a través de un canal 19. Mientras que únicamente se muestra -*--> una unidad de procesamiento 21, todos los canales de salida, provenientes del conmutador 16 son conectables a otros procesadores 21 (no mostrados). ? La señal que entra proveniente del canal ruido- W so 13 puede ser procesada para tomar ventaja mediante un filtro analógico (no mostrado), el cual tiene una respuesta de frecuencia restringida a aquella de la señal telefónica de banda base. En el sistema discutido en la presente, la voz ruidosa presentada al procesador 21 es digitalizada a una proporción de 8 KHz, y las series de tiempo son procesadas en bloques o intervalos. El tamaño del bloque o intervalo usado es de 160 muestras (20 mseg) y un traslape del 50% es impuesto sobre estos bloques para asegurar la continuidad de la voz filtrada reconstruida. Con referencia ahora a la FIGURA ÍA, el procesador 21 consiste de un Filtro Wiener, donde el espectro de señales para este filtro es estimado al suponer que un modelo LPC de todos polos y la iteración de cada estructura obtienen los parámetros desconocidos. Este es el filtro 23 al cual es encaminada la llamada ruidosa. La llamada también es encaminada vía la desviación 24 hacia el Detector de Actividad de Voz (VAD) 25, el cual detecta de manera continua el ruido o los bloques de voz-mas-ruido y determina si un bloque de voz es sonoro o no es sonoro. El espectro de ruido requerido para ser usado en el Filtro Wiener es estimado a partir de los bloques o intervalos únicamente de ruido, detectados uando un bloque procesado es detectado como ruido únicamente, el VAD 25 señala un circuito de supresión de ruido 26 hacia el conmutador en un supresor 27. En este modo, la entrada únicamente de ruido hacia el filtro 23 es atenuada sustancialmente antes de su entrada a la vía de salida 19 al escuchador en el extremo lejano en la terminal 28. Además, cuando un cuadro o ^gg ^^g^^¿^j^"¿^^^ bloque de ruido únicamente, es detectado , e l V A D señala la función de actualización 29 en el filtro 23, para realizar un nuevo estimado espectral de rindo, con base en los bloques de ruido actuales y para ponderarlo con el estimado espectral de ruido, previo. Cuando la voz es detectada por el VAD, la salida hacia 26 es conmutada a 23, tal que la voz filtrada se hace pasar a la línea de salida 19. Además el orden del modelo de voz LPC para el Filtro Wiener iterado en 23 es ajustado al 10s orden si la voz sonora es detectada y al 4o. y 6o. orden para un bloque de voz no sonoro. La motivación para este orden adaptativo de modelo de voz es que la búsqueda iterativa para los polos LPC puede dar como resultado falsos formantes en partes de la banda de frecuencia, donde la proporción del espectro de potencia de señal al espectro de potencia de ruido es baja. Esto da como resultado tonos de ruido de frecuencia aleatoria y duración en la salida filtrada que pueden se objetables al oído humano, aunque éstos son de nivel muy bajo con relación a la amplitud de señal promedio. De aquí que, ya que el orden LPC típicamente necesario para la voz no sonora es únicamente la mitad de aquella de la voz sonora para la anchura de banda de interés, y ya que la voz no sonora es usualmente más débil que la voz sonora, es importante modular el orden LPC, tal que el modelo de voz no sea sobre- especifica o. Los procesos practicados en el filtro iterativo 23 están basados en el procedimiento de filtro disponible en la referencia de Lim/Oppenheim y en el filtrado inter- bloques e intra-bloques aplicado por J. H. L. Hansen, para mejorar la convergencia iterativa para su Filtrador AUTO-LSP de tiempo no real, discutido en la referencia de Hansen/Clements . Las variaciones realizadas por la presente invención se agregan a ésta. El filtro 23 opera en una señal de voz ruidosa, de entrada, para obtener el contenido de voz aproximado. La operación del filtro será ahora descrita.

FILTRADO DE MODELO DE SEÑALES A TRAVÉS DE CUADROS TEMPORALES 0 BLOQUES ADYACENTES Si la voz no está ya en forma digital, el filtro 21 contiene un convertidor 30 analógico-a-digital de señales de entrada, el cual genera bloques de intervalos de entrada muestreada. El tamaño del bloque o cuadro de 160 muestras, o 20 mseg., es una duración de tiempo suficiente para que la voz sea aproximada como un proceso estadísticamente estacionario para fines del modelo LPC. El Filtro Wiener iterado y el modelo __&_, '*^**-aaMtt>fc,! LPC del proceso de voz usado como un componente de filtro están basados en un presunto de proceso estacionario, * De aquí que, es significativo que los bloques o intervalos sean procesados en estos bloques de tiempo cortos. Con referencia ahora a la FIGURA 2, la señal de entrada mas el ruido pueden ser expresados por y [ n ] =s [ n ] +d [ n 1 , donde y es la muestra de entrada disponible, y s y d son las partes de señal y ruido. Las muestras son bloqueadas en estructuras que se traslapan sustancialmente, por ejemplo, por 50%. Los bloques de datos son cada uno ponderados por una ventana de tiempo, tal como la ventana Hanning, de modo que la suma de las estructuras o intervalos de ventanas traslapadas, separados correctamente en el tiempo, se agregarán para dar la serie de entrada original. El uso de una ventana reduce la variación en el m o d e 1 o- LPC estimado para un bloque de datos, y el traslape de bloques proporciona una continuidad en la señal filtrada, reconstruida, enviada de salida hacia 19 en la FIGURA ÍA. Como en el filtrador AUTO-LSP iterativo en la referencia de Hansen/Clements , existen dos tipos de constreñimientos para la presente invención, que son aplicados en cada iteración del Filtro Wiener durante el procesamiento del bloque actual de datos de entrada. _\-»»-_ ****-"• *-* &&*?é>~*~~. - Estos son el constreñimiento de la relajación de matriz de Autocorrelación LPC aplicado en cada iteración intra-bloques del bloque actual, y el filtrado inter- bloques de las posiciones del polo del modelo de voz LPC del bloque actual, a través de las posiciones de polo LPC realizadas en cada iteración para bloques pasados y futuros, adyacentes. Los constreñimientos del polo LPC no son aplicados directamente ya que éstos ocurren con números complejos en el plano Z, y la asociación adecuada para la realización de las posiciones de polo complejo para el filtrado inter-bloques , no es claro. Un procedimiento indirecto pero más simple es posible mediante el uso de una representación equivalente de los polos LPC llamados el Par Espectral de Línea (LSP), los detalles del cual se discuten en la referencia de Hansen/Clements y en Digital Speech Processing, Synthesis, and Recognition, por S. Fururi, Marcel Dekker, Inc. New York, NY, 1989, Capítulo V. Las posiciones de polo del modelo LPC de N-ésimo orden están equivalentemente representadas por un grupo de raices de "posición" de LSP N/2 y las raices de 'diferencia' de LSP N/2 que caen en un círculo unitario en el plano Z complejo. La utilidad de esta representación LSP equivalente de los polos LPC es que las posiciones formantes ligeramente amortiguadas en el espectro del altamente correlacionadas P, y las anchuras de banda del espectro LPC de están altamente relacionados con las rencia LSP. Para un modelo LPC estable, los dos tipos de raices LSP caerán exactamente en el Círculo Unitario y se alternarán alrededor de este círculo. El ordenamiento en la posición de las raíces LSP es obvio, y su filtrado a través de los cuadros temporales o intervalos de tiempo es mucho más simple que en el filtrado de raíces LPC complejas. En resumen, los polos LPC en cada iteración del bloque o cuadro actual que son filtrados, son suavizados a través de los polos LPC en la misma iteración en bloques adyacentes, mediante el filtrado de las raíces de posición LSP equivalentes, y mediante la aplicación de un límite inferior sobre la distancia mínima de una raiz de "diferencia" a la raiz "posición" adyacente. La última limitación constriñe la agudeza de cualesquiera formantes del modelo LPC que sean similares a la voz. La invención requiere la realización del filtrado de la posición LSP a través de cuadros temporales cercanamente contiguos, pero en el filtro implementado para la aplicación de tiempo real en una red de comunicaciones, únicamente unos pocos bloques o cuadros adelante del bloque o cuadro actual que se filtra, pueden se disponi- aaBfa¿^j^^f3g"3i.^ bles. Para bloques o cuadros de 20 mseg. con traslape del 50%, el retraso mínimo impuesto por el uso de dos bloques o cuadros futuros, como se indica en la FIGURA 2, es de 30 mseg. Incluso este pequeño retraso puede ser significativo en algunas redes de comunicaciones. El filtro discutido en la presente asume cuatro cuadros o bloques pasados y dos cuadros o bloques futuros para el filtrado. Aunque los cuadros pasados completos son disponibles, únicamente aquellos correlacionados con el cuadro actual deben de ser usados.

PROCESO DE ITERACIÓN Los pasos iterativos constreñidos realizados 15 para el cuadro o bloque actual K se muestran en la FIGURA 3 con los detalles de la iteración 1,...,J indicados en la FIGURA 4. El ciclo Filtro de Wiener-LSP es iniciado mediante la filtración del bloque de entrada • y[n] en el dominio de frecuencia, mediante el Filtro Wiener (WF)f donde los estimados espectrales de poder de señal y de ruido usados son C'S (f) y S,(f). Es decir, el espectro de señal del filtro inicial es el espectro de entrada total clasificado por C que tiene a potencia esperado de la señal: P señal = P total " P ruido. Des" 25 pues de la inicialización, la vuelta en la FIGURA 3 1 realiza los siguientes pasos para la filtración iterati-flpT va del bloque K; (1) Inicio de la vuelta de iteración mediante la estimación de los parámetros LPC de la señal de salida WF en el Dominio de Tiempo, donde el cálculo de la auto- correlación de LPC está sujeto a una relajación sobre los valores de autocorrelación de las iteraciones previas para el bloque o cuadro. Este paso de relajación intenta estabilizar adicionalmente la búsqueda iterativa del mejor modelo LPC de voz o conversación. Esto es discutido más adelante en conjunto con la FIGURA 5. (2) A partir del modelo LPC encontrado en (1) en la iteración j para el cuadro o bloque de voz K, resolver las raíces de posición LSP, P., y las raíces de diferencia Q.. Esto requiere la solución de la raíz J real de dos polinomiales, cada uno de un medio el orden (3) Filtrar o suavizar las raíces de posición LSP, P., para el bloque o cuadro actual K a través de los bloques o cuadros adyacentes como se muestra en la FIGURA 2 y en la FIGURA 5c, y constreñir las raíces de diferencia LSP, Q., lejos de las raices P. filtradas o suavizadas. Cada raíz de diferencia Q. está constreñida a más de una distancia mínima Dmi.n le-i*os de su raíz filtrada P., más cercana.- Esto previene que las posiciones de polo LPC filtradas sean empujadas al Círculo Unitario del plano Z complejo. Esta "divergencia" fue un problema en el filtro iterativo de Lim-Oppen ehim de la referencia de Lim/Oppenheim que se dirigió en el filtrador en la referencia de Hansen/Clements . El constreñimiento es deseable para la transmisión realista de voz. El valor D . = 0.086 radianes ha sido usado min en pruebas de telecomunicaciones, del método. ?^& (4) Convertir las .raíces LPS filtradas a parámetros LPC filtrados, computar el espectro de potencia del modelo de señal LPC, S (f)., a escala, s J tal que la potencia promed io iguala la potencia de señal est imada del K-és imo bl oque ac tual : 15 P = P - P señal total ruido* (5) Usar el espectro de señal del modelo LPC, filtrado, S (f)., y el estimado S,(f) del espectro de poder de ruido actual, para construir el Filtro Wiener H.(f) de la siguiente iteración, como se muestra en la FIGURA 3 y en la FIGURA 4. Se usa el término Filtro Wiener libremente en la presente ya que este filtro es el WF no-casual, usual, elevado a una potencia pow. Los valores para pow entre 0.6 y 1.0 han sido usados en pruebas de telecomunicaciones del método. Entre más grande sea el pow, mayor es el cambio que ocurre con cada iteración, pero con el pow más pequeño la búsqueda iterativa para el componente de señal debe de ser más estable . (6) Filtrar una combinación de las salidas S. ,[n] de la serie de tiempo WF, de las iteraciones previas, y el dato de entrada original y[n] con el H.(f) actual, para obtener la siguiente iteración del estimado de señal S.[n], La combinación lineal usada es J ( 1-B) . y [ n ]+B. S . _. [ n ] , donde 0 es menor igual a B menor igual a l. Si B = 0, el filtro se vuelve un filtro iterativo de Lim-Oppenheim no constreñido, y si B = 1 la entrada al siguiente WF es la salida WF previa, como se realizó en el filtro o suavizador AUTO-LSP de Hansen en la referencia de Hansen/Clements . Los valores de B entre 0.80 y 0.95 han sido usados en la mayoría de los experimentos sobre este filtro. Con estos valores de B, fueron combinadas algunas características deseables del filtro de Lim-Oppenheim y del filtrador o suavizador de Hansen. Este concepto de ponderación es nuevo en el presente método. Esto da control adicional de la cantidad de contenido de ruido final vs. el grado de filtración de alta frecuencia observado en la voz filtrada, iterada. La combinación de las características de los dos algoritmos iterativos modelados por señal, previos, en la referencia de Lim/Oppenheim y Hansen/Clements, específicamente la combinación ponderada del Filtro Wiener que introduce cada iteración, se ha encontrado subjetivamente que da como resultado un estimado de voz sonora, amortiguada, con un cambio de ruido residual ligeramente incrementado en la salida. La combinación es mostrada en las FIGURAS 2 y 3, donde se observa que la señal de entrada hacia el FILTRO en la j-ésima iteración es la ENTRADA TOTAL y[n] y la SALIDA del Filtro Wiener sfn]. . proveniente de la (j-l)-ésima iteración. (7) En la presente implementación del método, el número de iteraciones intra es un parámetro de entrada determinado por el experimento. Para los resultados en los experimentos, un valor de 4 a 7 iteraciones intra- bloque fueron usadas en combinaciones (Intra, pow] tal como [7,0.65], [5,0.8], y [4,1.0] donde los valores del factor B de retroalimentación estuvieron entre 0.80 y 0.95. Los mejores valores dependen de la clase de A ruido y del tipo de voz. Para ruido no ponderado de • banda amplia, intra = 6 puede ser típico mientras teóri¬ camente pueden ser suficientes 4 o 5 iteraciones cuando el es?ectro de potencia de ruido es altamente desviado por debajo de un KHz del espectro de banda de voz [0,4 KHz]. Un aspecto importante de la invención que se ilustra en la FIGURA ÍA, inciso 25, y también en la FIGURA 3, es la aplicación múltiple de una Detector |¡ |jg|¡¡ a__S___iÉt_Mfaja¡ fe fí--jaa«gt_^£S_fe_aiSte de Actividad de Voz (VAD), para detectar los bloques únicamente de ruido y para determinar el mejor orden de modelo para aplicar en cada bloque, mediante la dete-ción de la voz sonora o no sonora si está presente la voz. Como se anotó anteriormente, el mejor orden para un modelo de voz LPC difiere para los bloques de voz sonoros y no sonoros. También, como se anotó anteriormente, el espectro de ruido es actualizado únicamente cuando no se detecta ninguna señal de voz en un número suficiente de bloques contiguos. Durante un intervalo de tiempo cuando se detecta únicamente ruido, el supresor de ruido 27 en el conmutador 26 es activado para atenuar la señal de salida, y el filtro iterativo 23 es luego inactivo. Si, sin embargo, se detecta la voz, entonces 26 conmuta 30 a la salida 19. Y la clase de voz, sonora o no sonora, condiciona el orden del nivel de voz LPC a ser usado en las iteraciones. De igual modo, la detección, del cambio entre tres posibles estados, bloque de ruido, bloque sonoro y bloque no sonoro, µrovoca que la historia LSP para los bloques pasados K- , K-3, K-2, y K-l sea reiniciada antes de la aplicación de la filtración al K-ésimo bloque actual. Esto es necesario y lógico para la mejor filtración de voz, ya que el propósito de la suavización o filtración a través de los cuadros o bloques temporales pasados es prome- .--.^MHmr- ^^^^^^.^^,,^ á ¡lBg^^|ÉgÉ diar el ruido disparado mediante el impulso del corto término estacionario de voz a través de los bloques o cuadros promediados.

PROCESAMIENTO DE BLOQUES 0 CUADROS El método de procesamiento de bloques o cuadros para lograr la operación de tiempo real del filtro 23, se muestra en la FIGURA 6b. Se asume que el k-ésimo bloque o cuadro es el punto de referencia de tiempo presente con los bloques K-4, K-3, K-2, K-l los bloques o cuadros previamente procesados y archivados, mientras que los bloques o cuadros K + 1 y K + 2 son los cuadros o bloques futuros disponibles. Como en el procedimiento de filtración en la referencia en Hansen/Clements, el filtro 23 filtra o suaviza las raíces LSP del modelo de voz del K-ésimo bloque con aquellos de los bloques pasados y futuros en cada K-ésima iteración de bloque, mediante el uso de las pasadas historias de LSP de los bloques en el número de iteración en el proceso. Sin embargo, de manera contraria al filtrador de tiempo no real en la referencia de Hansen/Clements, la invención usa únicamente dos bloques futuros y también almacena las historias LSP de los bloques pasados, requeridas, durante las iteraciones realizadas para cada bloque, de modo que éste acumula e*stas historias para los cuatro bloques previos a ser filtrados con el bloque actual durante las iteraciones intra—bloques . Como en el método de Hansen/Clements, las ponderaciones son graduales a través de los bloques y la disminución progresiva de cada raíz LSP depende del SNR de los bloques actuales así como de la historia del SNR hasta este K-ésimo bloque o cuadro. Otro mejoramiento más en la invención es el uso de la tabla de búsqueda para que las ponderaciones LSP de bloques sean aplicadas a través de los bloques o cuadros. Las tablas de ponderación aplicadas en la invención son del tipo mostrado en la FIGURA 7, mientras que las ponderaciones requeridas en la referencia de Hansen/Clements son obtenidas mediante las computos de la fórmula de consumo de tiempo. Los valores aplicados en la tabla en la FIGURA 7 pueden ser fácil e independientemente ajustados, de manera contraria a los constreñimientos impuestos por la fórmula usada en la referencia de Hansen/Clements. Los umbrales de voz-bloque en los cuales se aplica un vector de ponderación para un raíz particular LSP que se conmuta de una tabla a otra, se seleccionan independientemente. La estrategia general en la construcción de vectores de filtración es aplicar más filtración a las posiciones LSP de mayor orden (por ejemplo las frecuencias formantes más altas) como se indica leyendo de izquierda a derecha estas tablas. Esto es debido a la mayor influencia del ruido al SNR dado, observado sobre las posiciones de voz LSP de más alto orden. Otra tendencia más, impuesta sobre los valores de la tabla, es que la filtración o suavizamiento es amplia y uniforme cuando el SNR de bloque es bajo, y disminuida conforme el SNR es incrementado al punto donde no se aplica filtración al SNR alto. Esta tendencia es debida al efecto de disminución de ruido sobre la voz filtrada conforme el SNR de bloque o cuadro que es mejorado. Los umbrales de SNR de bloque o cuadro, usados para conmutador de una tabla de vectores de ponderación a otra, son actualmente seleccionados como múltiplos del estimado de corrida ow del estimado de potencia de ruido en el VAD. Los umbrales en incremento usados son Thl = 2. Npow para el cambio de la tabla Winl a Win2, Th2 = 3. Npow de la tabla Win2 a Win3, § Th3 = 7. Npow de la tabla Win 3 a Win4, Th4 = 11. Npow de la tabla Win4 a Win5, con WinO impuesto si ocurre una corrida suficientemente larga de bloques SNR bajos.

USO DE LA DETECCIÓN DE ACTIVIDAD DE VOZ La estimación de la densidad espectral de la potencia de ruido S,(f) a partir de bloques o cuadros únicamente de ruido usando un detector de actividad de voz (VAD), de acuerdo con la invención, proporciona una ventaja. El proceso de filtración descrito en la FIGURA 3 está basado en el presunto de que el ruido presente durante la voz tiene el mismo espectro de potencia promedio que el estimado S,(f). Si el ruido es estadísticamente estacionario de amplio sentido, no sería necesario que los estimados de ruido se actualizaran. Sin embargo, para aplicaciones de mejoramiento de voz ilustradas en la presente, y también para muchas otras aplicaciones de reducción de ruido transmitido, la energía de ruido es únicamente aproximadamente estacionaria. En estos casos, un estimado de corrida S,(f). En consecuencia, un VAD tal como el detector 25 en la FIGURA ÍA, que tiene buena inmunidad al ruido en el SNR de operación, se usa para identificar cuando no está presente la voz. Los bloques o cuadros únicamente de ruido, detectados entre los segmentos de voz, se usan para actualizar el estimado del espectro de potencia de ruido, como se muestra en la FIGURA 10. Un VAD adecuado para el uso en la aplicación de la FIGURA ÍA se obtiene a partir del estándar VAD GSM 06.32, discutido en "The Voice Activity Detector for the PAN-EUROPEAN Digital Cellular Mobile Telephone Service," por D.K. Freeman *** **»'*^' **^ y colaboradores, en IEEE Conf. ICASSP. 1989, Sección * S7.6, páginas 369-372. Los ejemplos de y post-fil- trados mostrados en las ndican cómo se usa la detección de actividad de voz para impulsar la atenuación de la señal de salida cuando no se detecta la voz. Como se discutió en la referencia de Freeman y colaborados, la activación del VAD en un cuadro o bloque de ruido es un balance convolucionado de nivel /£ de entrada detectado y de las decisiones de bloque repetido de las propiedades de " no voz".

SALIDA MEJORADA QUE USA EL CLASIFICADOR DE VOZ Ventajosamente, una decisión del clasificador de voz VAD puede ser incorporada en el extremo frontal del paso del modelo LPC como se muestra en la FIGURA 3. Esto es debido a que el ajuste del parámetro tal como el orden del LPC en el algoritmo AUTO-LSP son mejor ajusta¬ dos de acuerdo a la clase de voz (sonora o no sonora) la cual está siendo filtrada en el bloque o cuadro actualmente procesado. Si la voz dentro del cuadro o bloque procesado puede ser clasificada confiablemente en presencia de ruido, el mejoramiento puede ser aumenta¬ do.

ESTIMACI0»|?fi_6 ESPECTRO DE RUIDO De acuerdo con otro aspecto más de la invención, y con referencia a la#¥lGURA 3 y la FIGURA 10, se proporcina una sensibilidad mejorada a los cambios en el espectro de señales de ruido, mediante el aparato que actualiza el espectro S,(f) con los nuevos bloques o cuadros de "ruido únicamente" a un grado que depende de qué tan diferente el nuevo estimado de espectro de ruido S,(f) sea del estimado anterior S,(f). Si d new d ^^ S,(f)t , denota el espectro de ruido previo, el espectro d L_ I actualizado es Sd(f)L=(l-A) Sd(f)L-l+A-Sd(f>new 15 donde 0<A<1 es un promedio normalizado del error Sd.(f),L- ,l-Sd.(f) new sobre la banda de frecuencia. Los valores típicos para p son 1 —* 2. Cuando un nuevo estimado de espectro de ruido está "cerca" de la forma esti¬ mada previa, A es cercano a 0, pero cuando las dos formas espectrales son muy diferentes, A estará cerca de 1 y los nuevos bloques de ruido serán pesadamente ponderados en S,(f) . Las decisiones de bloque de ruido se realizan mediante el VAD, el cual es un estimador relati¬ vamente conservador en el intervalo SNR adecuado, de 'íü£ aquí que la probabilidad de las decisiones de ruido correctas sean altas para el SNR por arriba de 10 dB.

El tiempo entre las actualiz ciones de ruido no es un parámetro en este procedimie-iflí) , únicamente la diferencia espectral promedio. Con el fin de disminuir la variación en la estimación del espectro Sd,(f) new es deseable reque- rir un número de decisiones de bloque de ruido, contiguas, del VAD antes que una actualización sea válida. En la prueba de mejoramiento, ~s~e requieren 5 o 6 bloques de ruido contiguos con el fin de actualizar el espectro.

# COMENTARIOS ADICIONALES SOBRE EL FILTRO ITERATIVO MEJ0- RADO AUTO-LSP Como se discutió previamente, se usan dos tipos de constreñimientos en el procedimiento de filtro AUTO-LSP para mejorar el filtro iterativo basado en el modelo de Lim-Oppenheim. Estas son la relajación de autocorrelación intra-bloques colocada en la matriz de autocorrelación, la cual es computada por el modelo LPC de cada iteración, y el filtrado inter-bloques sobre las raíces LSP que ocurrió en la iteración para los cuadros temporales alrededor del bloque o cuadro que se filtra. Las operaciones de constreñimiento, realiza¬ ron cada iteración, como se muestra en la FIGURA 5. ^gH^gu mn^ La Operación de Filtrado ^"muestra el orden en el cual __ los constreñimientos han de ser aplicados durante una iteración, para obtener ese estimado S (f). de la poten- s cia de señal del Filtro Wiener (WF) de la iteración, a partir del resultado S[n] . . de la señal de itera- J-1 ción previa. La secuencia iterativa de filtración de la Señal + Ruido y[n] completa, con la WF donde en cada iteración el nuevo estimado del espectro de señales se inserta dentro del modelo WF , convergirá, en teoría, ¿^ al "mejor" estimado de señal bajo los presuntos estadísticos impuestos en la referencia de Lim/Oppenheim. En las clases de interés de señal y ruido de voz, en el mundo real, los constreñimientos intra-bloque e inter- bloque de AUTO-LSP ayudan a la convergencia e imponen requerimientos similares a voz sobre el espectro de señal en el WF. La relajación de autocorrelación intra- bloque se muestra en la parte B de la FIGURA 5, donde ?» los parámetros deseados del modelo LPC son denotados como a, la matriz de autocorrelación del estimado s[n]. J es R y b. es el vector de correlación cruzada en el J método AR de Yule-Walker. El factor de relajación propuesto es c = 0.7. La relajación puede ser expandida para filtrar más de únicamente el bloque previo, pero no ha sido observada ventaja significativa al hacer 5 ésto. El proceso de filtrado se muestra en la FIGURA 5C. Cada círculo grande indica el Círculo Unitario ^^^__-_«*___M_^*___„-^^~.-T t , - -ftM____M________M__f^^ en el plano Z complejo. Para el K-ésimo bloque e itera- de diferen cia LSP y marca las raíces de posición ?? • • Para un modelo LPC que es Fase Mínima, los polos caen dentro del Círculo Unitario y el Pj . y Qg . se alternarán a lo largo de este circulo. El filtrado LSP es sobre los bloques pasados y futuros, donde el grupo presente es K-4, K-3, K-2, K-l, K, K+l , K+2. Únicamente las raíces de posición Pjj .. son filtradas directamente, y las raíces de diferencia Q y . son forzadas a rastrear el P v . filtrado. Un paso inverso da el espectro S (f). K v s 'j del modelo de señal LPC graduado. Las raíces complejas de una representación LSP equivalente son simplemente la solución de un par de polinomiales de raíz real, cada uno con la mitad del orden del polinomial LPC orginal, como se describe completamente en las referencias de Hansen/Clements y Furui. Existe una ventaja computacional clara en el filtrado de las raíces LSP en el procedimiento AUTO-LSP, en vez de filtrar directamente las raices de dominio complejo de los modelos autorregresivos de LSP. Aunque las representaciones del modelo LPC y LSP son equivalentes, una desventaja posible de filtrar las raíces - LSP a través de los bloques, es que existe una relación no lineal entre las localizaciones/anchuras de banda del formante del espectro LPC y las raíces * de posición/distancia del LSP, correspondientes. Específicamente, conforme las raíces LPC se mueven lejos del Circulo Unitario, las raíces de posición LSP no se identifican bien con las frecuencias o anchuras de banda del formante LPC. Sin embargo, este trazado no lineal no parece limitar la efectividad de las raices LSP constreñidas en la provisión de mejoramiento de voz aumentado. El proceso descrito es particularmente efectivo cuando el ruido es estacionario en el amplio sentido estadístico, durante el intervalo de tiempo desde el punto de estimación del espectro de potencia de ruido hasta el final del Voz + Ruido procesado usando este estimado de ruido. Este parece ser más efectivo para proporciones señal-a-ruido por arriba de lOdB SNR. Para casos de interferencia tales como ruido de automóviles y ruido en cabinas de aeronaves donde mucha de la energía espectral está en la parte inferior de la banda de audio, # éste puede funcionar de manera útil por debajo de 5dB SNR. Para ruido estacionario similar a tono tal como el zumbido En-Red, el filtro ha sido operado con éxito considerable para SNRs por debajo de 0 dB cuando el VAD da indicación clara de cuadros de ruido únicamente. 1 Se hace constar que con relación a esta fecha, JP" el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención. 5 Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes : * 1 5 atitíu*s&*d¡&J¿t¿& ib ^ ¡^ ^¡ &

Claims

REIVINDICACIONES

1. En una red de telecomunicaciones que comprende un nodo de conmutación, canales de transmisión de entrada que conectan a dicho nodo y que llevan transmisiones que comprenden señales y ruido desde sitios remotos, y los canales de transmisión de la señal de salida, un proceso para la filtración del ruido proveniente de las transmisiones de entrada, caracterizado el proceso porque comprende los pasos de: la conversión de las transmisiones de entrada para crear una señal de voz o habla mejorada en bloques o cuadros de información consecutivos, traslapados y con ventana de tiempo, cada bloque o cuadro comprende muestras digitales tomadas a una proporción suficiente para representar la señal de entrada por un modelo de voz de codificación predictiva lineal (LPC); el almacenamiento de ' cada bloque o cuadro en una memoria de un filtro de señales, el filtro incluye los medios para la realización de las estimaciones iterativas sobre el modelo de voz LPC; la realización de iteraciones intra-bloques , plurales, del presente bloque mediante: la realización en el filtro de señales de un estimado inicial del componente de señal de voz para el presente bloque, con base en el espectro de señal de entrada, total, y un estimado actual del espectro de ruido; la generación^ca partir del estimado inicial, de un grupo de raíces de posición LSP equivalentes para dicho bloque o cuadros presentes; para cada iteración intra-bloques de cada bloque presente, el filtrado o suavización de las raíces de posición del bloque presente con las raices de posición salvadas a partir de las correspondientes de las iteraciones de bloques pasados y las raíces de posición LSP, plurales, obtenidas a partir de la primera de dichas iteraciones sobre los bloques futuros plurales; y la repetición de los pasos de iteración intra-bloques de un número seleccionado de tiempos; la salida de la iteración final que comprende un bloque filtrado de un estimado de tiempo real de una señal de voz de entrada.

2.- El proceso de conformidad con la reivindicación 1 , caracterizado porque los bloques o cuadros pasados, seleccionados, consisten de hasta cuatro de los bloques más recientes; y los seleccionados de los bloques futuros consisten de los dos más próximos.

3. El proceso de conformidad con la reivindica¬ * ción 2, caracterizado porque comprende los pasos adicionales de : distinguir entreoíos bloque con el contenido únicamente de ruido vs. los bloques que tienen contenido de voz ; la generación de un estimado continuo del espectro de ruido, usando el contenido de los bloques de ruido únicamente; y en respuesta a la detección del bloque de ruido únicamente, la actualización del estimado del espectro de ruido.

4. El proceso de conformidad con la reivindica¬ 15 ción 3, caracterizado porque comprende el paso adicional de desconectar la salida del filtro desde el canal de transmisión de salida, en respuesta a la detección de un bloque únicamente de ruido; y la derivación de dichas transmisiones de entrada a través de un atenuador, y 20 de aquí directamente hacia el canal de transmisión de salida .

5. El proceso de conformidad con la reivindicación 4, caracterizado porque comprende los pasos adi- 25 cionales de: _ a?_¿» -.» la detección para cada bloque de voz, de si la voz es sonora o no sonora; en respuesta a la detección de dicho bloque de voz, el ajuste del orden del modelo de voz al 10o. orden LPC; y en respuesta a la detección del bloque de voz no sonoro, el ajuste del orden significativamente por abajo del 10o. orden.

6. El proceso de conformidad con la reivindica ción 5, caracterizado porque el ajuste de orden en respuesta a la detección de un bloque de voz no sonoro, está en el intervalo entre el cuarto orden al sexto orden . 15

7. El proceso de conformidad con la reivindicación 6, caracterizado por que el estimado actual - del bloque de ruido presente es derivado mediante un proceso que comprende los pasos de: 20 la determinación de cuántos bloques consecu ivos de ruido únicamente están actualmente almacenados en dicho filtro ; si el número de bloques consecutivos está por arriba de una cantidad predeterminada, y se calcula 25 el espectro de potencia de ruido promedio de los bloques "?F»ff- - *, consecutivos ; la medición de la diferencia entre el espectro de potencia de ruido, prometo, y el espectro de potencia de ruido, previamente calculado; y el ajuste de cada uno de los últimos dos espectros nombrados, mediante la ponderación de los factores relacionados a la medición de la diferencia, forzando el ajuste de la suma resultante del espectro, para conformarse a un nivel de espectro de potencia, predeterminado.

8. El proceso de conformidad con la reivindicación 7, caracterizado porque comprende los pasos adicionales de ajustar un umbral de ruido de entrada, transmitido, y la determinación del ruido por arriba de dicho umbral que está presente; la determinación de si la llamada de entrada incluye contenido de señal de voz; la determinación de si el número original es aquel de un cliente de un servicio de telecomunicaciones, que proporciona energía de ruido transmitida, reducida; y si todas las predeterminaciones nombradas al último están presentes, la activación del proceso en el nodo de conmutación.

9. El proceso de conformidad con la reivindicación 8, caracterizado además porque comprende el paso de aplicar la ponderación a los valores de raíz de posición LSP en cada bloque, en donde la ponderación es definida mediante la combinación selectiva del número de formante LSP, el valor de la potencia del bloque total, el umbral de la potencia del bloque, las faltas consecutivas de umbral de ruido P ^ , y si dicho umbral count' J de cuenta L es excedido por P max count

10. El proceso de conformidad con la reivindicación 9, caracterizado porque el número de iteraciones intra-bloque realizadas sobre cada bloque presente, está entre uno y siete.

11. El proceso de conformidad con la reivindicación 10, caracterizado porque comprende los pasos adicionales de repetir el proceso de iteración intra-bloques sobre cada bloque sucesivo; y la combinación de los resultados de los bloques traslapados en el tiempo, para crear una señal de salida. En testimonio de lo cual firmo la presente en esta Ciudad de México D.F., el 14 de Marzo de 1995. Apoderado . 3i__á__..-3=.__?_^___..lte__