MXPA04002919A

MXPA04002919A - Metodo de calculo de ruido mediante el uso del aprendizaje de bayes de incremento.

Info

Publication number: MXPA04002919A
Application number: MXPA04002919A
Authority: MX
Inventors: G Droppo James
Original assignee: Microsoft Corp
Priority date: 2003-03-31
Filing date: 2004-03-26
Publication date: 2005-06-17
Also published as: JP2004302470A; AU2004201076B2; EP1465160B1; EP1465160A3; KR101004495B1; RU2370831C2; ES2371548T3; CN1534598A; EP1465160A2; RU2004109571A; AU2004201076A1; US7165026B2; ATE526664T1; CA2461083A1; BRPI0400793A; CA2461083C; KR20040088360A; CN100336102C; US20040190732A1; JP4824286B2

Abstract

Un metodo y aparato calculan un ruido adicionado en una senal ruidosa mediante el uso del aprendizaje de Bayes de incremento, en donde se infiere una distribucion de variacion de tiempo en un ruido anterior y se actualizan en forma recursiva hiperparametros (media y varianza) mediante el uso de una aproximacion posterior calculada en el paso de tiempo anterior. El ruido adicionado en el dominio de tiempo se representa en el dominio de logaritmos de espectros o cepstrum antes de aplicar el aprendizaje de Bayes de incremento. Los resultados de los calculos de la media y varianza para el ruido para cada uno de los cuadros separados, se utilizan para llevar a cabo el mejoramiento de la caracteristica de discurso en el mismo dominio de logaritmos de espectros o cepstrum.

Description

MÉTODO DE CÁLCULO DE RUIDO MEDIANTE EL USO DEL APRENDIZAJE DE BAYES DE INCREMENTO CAMPO DE LA INVENCIÓN La presente invención se relaciona con el cálculo de ruido. En particular, la presente invención se relaciona con el cálculo de ruido en señales que se utilizan en reconocimiento de un patrón.

ANTECEDENTES DE LA INVENCIÓN Un sistema de reconocimiento de un patrón, como un sistema de reconocimiento de voz, toma una señal de entrada e intenta decodifícar la señal para encontrar un patrón representado por ia señal. Por ejemplo, en un sistema de reconocimiento de voz, una señal de discurso (con frecuencia referida como una señal de prueba) se recibe en el sistema de reconocimiento y se decodifica para identificar una cadena de palabras representadas por la señal de discurso. Las señales de entrada típicamente se corrompen debido a alguna forma de ruido. Para mejorar el desempeño del sistema de reconocimiento de patrón, con frecuencia es deseable calcular el ruido en la señal ruidosa. En años anteriores, se han utilizado algunas estructuras para calcular el ruido en una señal. En una estructura, se utilizan algoritmos en lotes para calcular el ruido en cada cuadro de la señal de entrada independiente del ruido encontrado en otros cuadros en la señal. Los cálculos individuales de ruidos entonces se promedian para formar un valor de consenso de ruido para todos los cuadros. En una segunda estructura, se utiliza un algoritmo recursivo que calcula el ruido en el cuadro actual con base en cálculos de ruido para uno o más cuadros anteriores o sucesivos. Tales técnicas recursivas permiten que el ruido cambie lentamente con el tiempo. En una técnica recursiva, una señal ruidosa se considera como una función no-lineal de una señal limpia y una señal de ruido. Para facilidad en computación, esta función no-lineal con frecuencia se aproxima por medio de una expansión truncada en serie de Taylor, la cual se calcula con relación a algún punto de expansión. En general, la expansión en serie de Taylor proporciona su mejor cálculo de la función en el punto de expansión. De este modo, la aproximación en serie de Taylor es prácticamente sólo la selección del punto de expansión. Sin embargo, de conformidad con la anterior técnica, el punto de expansión para la serie de Taylor no se optimiza para cada cuadro. Como resultado, el cálculo del ruido producido por los algoritmos recursivos no es el ideal. Las técnicas de Máxima-Probabilidad (ML) y Máxima a posteriori (MAP) se han utilizado para el cálculo en secuencia de puntos de ruidos no-estacionarios mediante un modelo no-lineal interactivamente lineal para el ambiente acústico. Por ló general, cuando se utiliza un modelo simple de Gaussian para la distribución de ruido, el cálculo MAP proporciona una mejor calidad del cálculo de ruido. Sin embargo, en la técnica MAP, los parámetros de media y varianza asociados con la técnica de ruido de Gaussian, están fijos en un segmento de cada palabra de prueba de libre discurso. Para el ruido no-estacionario, esta aproximación no puede reflejar en forma adecuada un ruido real antes de realizar las estadísticas. En vista de lo anterior, se necesita una técnica de cálculo de ruido que sea más efectiva para calcular el ruido en señales de patrones.

BREVE DESCRIPCIÓN DE LA INVENCIÓN Se proporciona un nuevo enfoque para calcular ruidos no-estacionarios mediante el uso del Aprendizaje de Bayes de incremento. En un aspecto, esta técnica se puede definir que infiere una distribución de variación de tiempo en un ruido anterior, en donde el cálculo de ruido, el cual se puede definir por hiperparámetros (media y varianza), se actualiza en forma recursiva mediante una aproximación posterior calculada en un tiempo anterior o paso de cuadro. En otro aspecto, esta técnica se puede definir que para cada cuadro se calcula en forma sucesiva el ruido en cada cuadro, de modo que el cálculo de ruido para un cuadro actual está basado una aproximación Gaussiana de probabilidad de datos para el cuadro actual y una aproximación Gaussiana de ruido en una secuencia de cuadros anteriores.

BREVE DESCRIPCIÓN DE LOS DIBUJOS La Figura 1 es un diagrama en bloque de un ambiente de computación en el cual se puede practicar la presente invención. La Figura 2 es un diagrama en bloque de un ambiente de computación alternativo en el cual se puede practicar la presente invención. La Figura 3 es un diagrama de flujo de un método para calcular el ruido de conformidad con una modalidad de la presente invención.

La Figura 4 es un diagrama en bloque de un sistema de reconocimiento de patrón en el cual se puede utilizar la presente invención.

DESCRIPCIÓN DETALLADA DE MODALIDADES ILUSTRATIVAS La Figura 1 ilustra un ejemplo de un ambiente 100 de sistema adecuado de computación, en el cual se puede implementar la invención. El ambiente 100 de sistema de computación es sólo un ejemplo de un ambiente adecuado de computación y no tiene el propósito de sugerir ninguna limitación conforme al alcance del uso o funcionalidad de la invención. El ambiente 100 de computación tampoco deberá interpretarse que es dependiente o tiene algún requerimiento con relación a cualquier combinación de los componentes ilustrados en el ambiente 100 ejemplificativo de operación. La invención funciona con diversos ambientes o configuraciones de sistemas de computación para propósitos generales o propósitos especiales. Ejemplos de sistemas, ambientes y/o configuraciones de computación bien conocidos que pueden ser adecuados para su uso con la invención incluyen de manera enunciativa pero no limitativa, computadoras personales, computadoras con servidor, dispositivos manuales o portátiles, sistemas con multiprocesadores, sistemas con base en microprocesadores, cajas sobrepuestas (transcodificadores), electrónicos que los consumidores pueden programar, PC en redes, mini-computadoras, computadoras centrales, sistemas de telefonía, ambientes distribuidos de computación que incluyen cualquiera de los sistemas o dispositivos mencionados, y sus semejantes. La invención se puede describir en el contexto general de instrucciones que se pueden ejecutar por computadora, como módulos de programas, y que se ejecutan por medio de una computadora. Por lo general, los módulos de programas incluyen rutinas, programas, objetos, componentes, estructuras de datos, etc, que llevan a cabo tareas particulares o implementan tipos particulares de datos abstractos. Las tareas que llevan a cabo los programas y módulos se describen más adelante con la ayuda de figuras. Las personas experimentadas en la técnica podrán implementar la descripción y/o figuras mencionadas en la presente, como instrucciones que se pueden ejecutar por computadora, las cuales se pueden incorporar en cualquier forma de un medio legible por computadora y que se menciona más adelante. La invención también se puede practicar en ambientes de computación distribuidos, en donde las tareas se lleven a cabo mediante dispositivos remotos de procesamiento que estén enlazados a través de una red de comunicaciones. En un ambiente de computación distribuido, los módulos de programas se pueden ubicar en medios de almacenamiento locales y remotos de computadora, incluyendo dispositivos de almacenamiento de memoria. Con referencia a la Figura 1, un sistema ejemplificativo para implementar la invención incluye un dispositivo de computación de propósitos generales en la forma de una computadora 110. Los componentes de la computadora 110 pueden incluir, de manera enunciativa pero no limitativa, una unidad 120 de procesamiento, una memoria 130 de sistema, y una barra colectora 121 de sistema que acopla diversos componentes de sistema incluyendo la memoria de sistema con la unidad 120 de procesamiento. La barra colectora 121 de sistema puede ser de diversos tipos de estructuras de barra colectora, incluyendo una barra colectora de memoria o controlador de memoria, una barra colectora periférica, y una barra colectora local que utiliza cualquier variedad de arquitecturas de barras colectoras. Como medio de ejemplo y no de manera limitativa, tales arquitecturas incluyen la barra colectora Industry Standard Architecture (ISA), barra colectora Micro Channel Architecture (MCA), barra colectora Enhanced ISA (EISA), barra colectora local Video Electronics Standards Association (VESA), y la barra colectora Peripheral Component Interconnect (PCI), también conocida como barra colectora ezanine. La computadora 110 típicamente incluye una variedad de medios legibles por computadora. Un medio legible por computadora puede ser cualquier medio disponible al que se pueda tener acceso mediante la computadora 110 e incluye medios volátiles y no-volátiles, medios retirables y no-retirables. Como medio de ejemplo, y no de limitación, un medio legible por computadora puede comprender un medio de almacenamiento de computadora y un medio de comunicación. El medio de almacenamiento de computadora incluye tanto medios volátiles como no volátiles y medios retirables como no-retirables que se pueden implementar en cualquier método o tecnología para almacenamiento de información, como instrucciones legibles por computadora, estructuras de datos, módulos de programas u otros datos. El medio de almacenamiento de computadora incluye de manera enunciativa pero no limitativa, RAM, ROM, EEPROM, memoria flash y otra tecnología de memoria, como CD-ROM, discos versátiles digitales (DVD) y otro almacenamiento de discos ópticos, cartuchos magnéticos, cintas magnéticas, almacenamiento de discos magnéticos y otros dispositivos magnéticos de almacenamiento, o cualquier otro medio que se pueda utilizar para almacenar la información deseada y a la cual se pueda tener acceso mediante la computadora 110. Un medio de comunicación típicamente incorpora instrucciones legibles por computadora, estructuras de datos, módulos de programas u otros datos en una señal modulada de datos, como una onda portadora u otro mecanismo de transporte e incluye cualquier medio de entrega de información. El término "señal modulada de datos" significa una señal que tiene una o más de sus características configuradas o cambiadas de tal manera que se codifique información en la señal. Como medio de ejemplo, y no de limitación, un medio de comunicación incluye un medio cableado, como una red cableada o conexión de cableado directo y medios inalámbricos, como un medio acústico, RF o infrarrojo u otro medio inalámbrico. También se deben incluir combinaciones de cualquiera de los medios mencionados dentro del alcance de medios legibles por computadora.

La memoria 130 de sistema incluye un medio de almacenamiento de computadora en la forma de memoria volátil y/o no volátil, como la memoria (ROM) 131 de sólo lectura y la memoria (RAM)132 de acceso aleatorio. Un sistema 133 básico de entrada/salida (BIOS), que contiene las rutinas básicas que ayudan a transferir información entre elementos dentro de la computadora 110, como durante el encendido, típicamente está almacenado en la ROM 131. La RAM 132 típicamente contiene datos y/o módulos de programas a los que se tienen acceso de forma inmediata a la unidad 120 de procesamiento y/o que están en proceso de operación por medio de la misma. Como medio de ejemplo y no de limitación, la Figura 1 ilustra el sistema 134 operativo, programas 135 de aplicación, otros módulos 136 de programas y datos 137 de programas. La computadora 110 también puede incluir otros medios de almacenamiento de computadora retirables/no-retirables y volátiles/no-volátiles. Como forma únicamente de ejemplo, la Figura 1 ilustra una unidad 141 de disco duro que lee o escribe en un medio magnético no-retirable y no-volátil, una unidad 151 de disco magnético que lee o escribe en un disco 152 magnético retirable y no-volátil y una unidad 155 de disco óptico que lee o escribe en un disco 156 óptico retirable y no-volátil, como un CD ROM u otro medio óptico. Otro medio de almacenamiento de computadora retirable/no-retirable, volátil/no-volátil que se puede utilizar en el ambiente ejemplificativo de operación incluye de manera enunciativa pero no limitativa, cartuchos de cinta magnética, tarjetas de memoria flash, discos versátiles digitales, cintas digitales de video, RAM de estado sólido, ROM de estado sólido y sus semejantes. La unidad 141 de disco duro típicamente se conecta con la barra colectora 121 de sistema a través de una interfaz de memoria no-retirable como la interfaz 140, y la unidad 151 de disco magnético y la unidad 155 de disco óptico típicamente se conectan con la barra colectora 121 de sistema mediante una interfaz de memoria retirable, como la interfaz 150. Las unidades y sus medios asociados de almacenamiento de computadora que se mencionaron con anterioridad y que se ilustran en la Figura 1, proporcionan el almacenamiento de instrucciones legibles por computadora, estructuras de datos, módulos de programa y otros datos para la computadora 110. En la Figura 1, por ejemplo, la unidad 141 de disco duro se ilustra como el sistema 144 operativo de almacenamiento, programas 145 de aplicación, otros módulos 146 de programas y datos 147 de programas. Debe observarse que estos componentes pueden ser los mismos o distintos de los del sistema 134 operativo, los programas 135 de aplicación, los módulos 136 de programas y los datos 137 de programas. El sistema 144 operativo, los programas 145 de aplicación, otros módulos 146 de programas, y los datos 147 de programas se proporcionan con diferentes números en la presente, para ilustrar que por lo menos son copias diferentes. Un usuario puede introducir instrucciones e información en la computadora 110 a través de dispositivos de entrada como un teclado 162, un micrófono 163 y un dispositivo puntero 161, como un ratón, bola de rastreo o pantalla de tacto. Otros dispositivos de entrada (no mostrados) pueden incluir una palanca para juegos, tapete para juegos, disco satelital, escáner, o sus semejantes. Estos y otros dispositivos con frecuencia se conectan con la unidad 120 de procesamiento a través de una interfaz 160 de entrada de usuario que está acoplada con la barra colectora de sistema, pero que se puede conectar con otra interfaz y estructuras de barras colectoras, como un puerto paralelo, puerto de juegos u otra barra colectora universal en serie (USB). Un monitor 191 u otro tipo de dispositivo de despliegue también está conectado con la barra colectora 121 de sistema por medio de una interfaz, como una interfaz 190 de video. Además del monitor, las computadoras también pueden incluir otros dispositivos periféricos de salida como las bocinas 197 y la impresora 196, las cuales se pueden conectar a través de una interfaz 190 periférica de salida. La computadora 10 puede operar en un ambiente de red mediante el uso de conexiones lógicas para una o más computadoras remotas, como una computadora 180 remota. La computadora 180 remota puede ser una computadora personal, un dispositivo manual, un servidor, un enrutador, una PC de red, un dispositivo adjunto u otro nodo común de red, y típicamente incluye muchos de los elementos descritos con anterioridad con relación a la computadora 110. Las conexiones lógicas ilustradas en la Figura 1, incluyen una red de área local (LAN) 171 y una red de área ancha (WAN) 173, pero también puede incluir otras redes. Tales ambientes de redes son de uso común en oficinas, redes amplias de computadoras de empresas, intranets y la Internet. Cuando la computadora 110 se utiliza en un ambiente de red LAN, la computadora 110 se conecta con la LAN 171 a través de una interfaz de red o adaptador 170. Cuando la computadora 110 se utiliza en un ambiente de red WAN, la computadora 110 típicamente incluye un módem 172 u otro medio para establecer comunicaciones sobre la LAN 173, como la Internet. El módem 172, el cual puede estar en forma interna o externa, se puede conectar con la barra colectora 121 de sistema por medio de la interfaz 160 de entrada del usuario, u otro mecanismo adecuado. En un ambiente de red, los módulos de programas ilustrados con relación a la computadora 110, o porciones de la misma, se pueden almacenar en el dispositivo remoto de almacenamiento de memoria. Como forma de ejemplo y no de limitación, la Figura 1 ilustra los programas 185 de aplicación remota incorporados en la computadora 180 remota. Se puede observar que las conexiones de red mostradas son ejemplificativas, y que se pueden utilizar otros medios para establecer un enlace de comunicación entre las computadoras. La Figura 2 es un diagrama en bloque de un dispositivo 200 móvil, el cual es un ambiente de computación ejemplificativo. El dispositivo 200 móvil incluye un microprocesador 202, una memoria 204, componentes 206 de entrada/salida (l/O), y una interfaz 208 de comunicación para comunicarse con las computadoras remotas u otros dispositivos móviles. En una modalidad, los componentes mencionados están acoplados para comunicarse entre si por medio de una barra colectora 210 adecuada. La memoria 204 está implementada como memoria electrónica no-volátil, como la memoria de acceso aleatorio (RAM), con un módulo de batería de respaldo (no mostrado) de modo que la información almacenada en la memoria 204 del dispositivo 200 móvil no se pierda cuando la energía general se corte. Una porción de la memoria 204 de preferencia se asigna como memoria dirigible para ejecución de programas, mientras que otra porción de la memoria 204 de preferencia se utiliza para almacenamiento, de modo que simule un almacenamiento en una unidad de disco. La memoria 204 incluye un sistema 212 operativo, programas 214 de aplicación, así como un almacenamiento 216 objeto. Durante ta operación, el sistema 212 operativo de preferencia se ejecuta por medio del procesador 202 de la memoria 204. En una modalidad preferida, el sistema 212 operativo, es un sistema operativo de la marca WINDOWS® CE, comercialmente disponible en Microsoft Corporation. El sistema 212 operativo de preferencia está diseñado para dispositivos móviles e implementa características de bases de datos que se pueden utilizar por las aplicaciones 214 a través de un grupo de interfaces y métodos de programación de aplicación expuestos. Los objetos en el almacenamiento 216 de objeto se mantienen por medio de las aplicaciones 214 y el sistema 212 operativo por lo menos en forma parcial en respuesta a las llamadas de las interfaces y métodos de programación de aplicación expuestos. La interfaz 208 de comunicación representa diversos dispositivos y tecnologías que permiten que el dispositivo 200 móvil envíe y reciba información. Los dispositivos incluyen módems con cableado e inalámbricos, receptores satelitales y sintonizadores de transmisión por nombrar algunos. El dispositivo 200 móvil también se puede conectar directamente con una computadora para intercambiar datos con la misma. En tales casos, la interfaz 208 de comunicación puede ser un transceptor infrarrojo o una conexión de comunicación en serie o paralela, todas las cuales con la capacidad para transmitir información mediante corrientes. Los componentes 206 de entrada/salida incluyen una variedad de dispositivos de entrada, como pantallas sensibles ai tacto, botones, rodillos y un micrófono, así como una variedad de dispositivos de salida, incluyendo un generador de audio, un dispositivo vibratorio y un despliegue. Los dispositivos mencionados con anterioridad son sólo como forma de ejemplo, y no necesitan estar presentes en el dispositivo 200 móvil. Además, se pueden adicionar o incluir otros dispositivos de entrada/salida en el dispositivo 200 dentro del alcance de la presente invención. De conformidad con un aspecto de la presente invención, se proporciona un sistema y método para calcular el ruido en señales de reconocimiento de patrón. Para llevar a cabo lo anterior, la presente invención utiliza un algoritmo recursivo para calcular el ruido en cada cuadro de una señal ruidosa con base en parte en un cálculo de ruido encontrado para por lo menos un cuadro contiguo. De conformidad con la presente invención, el cálculo de ruido para un único cuadro se efectúa mediante el uso del aprendizaje de Bayes de incremento, en donde se infiere una distribución de variación de tiempo en un ruido anterior y se actualiza un cálculo de ruido en forma recursiva mediante el uso de una aproximación para un ruido posterior calculado en un cuadro anterior. A través de este proceso recursivo, el cálculo de ruido puede rastrear un ruido no estacionario. Si yti=yi,y2,---,yr, yt es una secuencia de datos de observación de discurso ruidoso, expresados en el dominio de logaritmos (como logaritmo de espectros o cepstrum), entonces se infieren que son medidos a escala sin pérdida de generalidad. Los datos y*i se utilizan para calcular en forma secuencial la secuencia nt1=n1,n2l. nt de corrupción de ruido, con la misma longitud t de datos. Dentro de la estructura de aprendizaje Bayesiano, se supone que el conocimiento acerca del ruido n (tratado como un parámetro desconocido), se contiene un una distribución determinada a-priorí de p(n). En caso de que la secuencia de ruido sea estacionaria, es decir, las propiedades estadísticas del ruido no cambian con el tiempo, entonces la inferencia convencional de Bayes (es decir, calcular el posterior) en el parámetro n de ruido en cualquier tiempo, se puede llevar a cabo, mediante la regla de Bayes de "modo-en lote": en donde T es una región admisible del espacio de parámetro de ruido. Determinado p(n|yf , cualquier cálculo de ruido n es posible en un principio. Por ejemplo, un cálculo convencional de punto MAP en el ruido n se calcula como un máximo local o global del posterior pfnly'i). La media mínima del cálculo de error al cuadrado (MMSE) es la expectativa sobre la posterior Sin embargo, cuando la secuencia de ruido no es estacionaria y los datos de entrenamiento del discurso ruidoso se presentan en forma secuencial, como en la mayoría de las aplicaciones de mejoramiento de características de discurso ^ pr cticoi se necesitan realizar nuevas técnicas de cálculo de ruido con el fin de rastrear las estadísticas de ruido que cambian con el tiempo. En una aplicación interactiva, la regla de Bayes se escribe como sigue: donde Si se supone que la independencia condicional entre el discurso ruidoso yt y su anterior y '1 dada nt, o nt) = P(yt\r¡t), y se supone la uniformidad en la posterior: pf í/ly "1) = la ecuación anterior se puede escribir como: El aprendizaje de incremento de ruido no estacionario ahora se puede establecer por el uso repetido de la Ecuación 1 como sigue. En un principio, en ausencia de los datos y de discurso ruidoso, la posterior PDF viene de la conocida anterior p(n0\y0) = p(n0), en donde p(n0) se obtiene del análisis del ruido conocido únicamente para cuadros y suposiciones Gaussianas. Por lo tanto el uso de la Ecuación 1 para í=í da como resultado: & pM l.)pfa)i <2) y para f=2 da como resultado: utilizando la Ecuación 1 se convierte en: y así sucesivamente.. Este proceso de este modo genera en forma recursiva una secuencia de posteriores (en el supuesto que p(yt\nt) esté disponible): PMvi), ....pinrel), (3) ¡ lo cual proporciona una base para realizar la inferencia de Bayes de incremento en la secuencia p .de ruido no estacionario. El principio general de la inferencia de Bayes de incremento mencionada hasta ahora, se aplica a un modelo específico de distorsión acústica, el cual suministra los datos de tipo estructura PDF p(yi\nt) y de conformidad con el supuesto simplificado de que el ruido anterior tiene un comportamiento Gaussiano. Como se aplica al ruido, el aprendizaje de Bayes de incremento actualiza la distribución "anterior" actual sobre el ruido, mediante el uso del ruido posterior, dados los datos observados hasta el más reciente anterior, ya que el posterior es la información más completa sobre el parámetro que precede al tiempo actual. Este método se ilustra en la Figura 3 en donde en un primer paso una señal 300 ruidosa se divide en cuadros. En el paso 302, para cada cuadro se aplica el aprendizaje de Bayes de incremento, en donde un cálculo de ruido de cada cuadro infiere una distribución de variación de tiempo en un ruido anterior y el cálculo de ruido se actualiza en forma recursiva mediante el uso de una aproximación para un ruido posterior calculado en un cuadro de tiempo anterior. Por lo tanto, la secuencia posterior en la Ecuación 3 se convierte en una secuencia anterior de variación de tiempo (es decir, evolución anterior) para los parámetros de distribución de ruido de interés (con el cambio de tiempo de un cuadro en tamaño). En una modalidad, el paso 302 puede incluir calcular la probabilidad de datos para el cuadro actual, mientras que se utilice un cálculo de ruido en un cuadro anterior, de preferencia el cuadro inmediato anterior, el cual supone la uniformidad en el posterior como se indica en la Ecuación 1. Para la probabilidad de datos p(yt\nt), la cual no es Gaussiana (y que se describirá con brevedad), la posterior no es necesariamente Gaussiana. Una aplicación sucesiva de la Ecuación 1, da como resultado una combinación rápida de expansión de las posteriores previas y conduce a formas sin solución. Se necesitan aproximaciones para llegar a una solución. La aproximación que se utiliza es aplicar la expansión en serie de Taylor de primer orden para hacer lineal la relación no-lineal entre yt y nt. Esto conduce a una forma Gaussina de Por lo tanto, el PDF p(nt*i) anterior del ruido de variación de tiempo el cual es inherente del posterior para la historia anterior de datos se puede calcular por ia aproximación Gaussiana: en donde µ„? y o2„t son llamados los hiperparámetros (media y varianza) que caracterizan el PDF anterior. Entonces la secuencia posterior en la Ecuación 3 calculada por la regla de Bayes recursiva en la Ecuación 1, ofrece por principio una forma de determinar la evolución temporal de los hiperparámetros, la cual se describe más adelante. A continuación se proporcionan los modelos de distorsión acústica y discurso limpio para calcular la probabilidad de datos p(yt\nt). Primero, supóngase una invariable de tiempo del modelo de la mezcla de Gaussian para espectros de logaritmos de un discurso x limpio: (5) Un modelo simple de distorsión acústica no-lineal en el dominio de logaritmos de espectros entonces se puede utilizar como: expfe) = exp(x) + exp(n)? or y = x + g(n - a?)3 (6) en donde la función no-lineal es: ¦ I g(z) = l g[l + ex (^)]. j Con el fin de obtener una forma útil para la probabilidad de datos p(yt\nt), se utiliza una expansión en serie de Taylor para hacer lineal la g no-lineal en la Ecuación 6. Esto da como resultado el modelo lineal de V ~ a' - — -r g Q — µp(p??))(? - )f (7) en donde n0 es el punto de expansión en serie de Taylor y el coeficiente de expansión en serie de primer orden se puede calcular con facilidad como: " ' " " " . g(n0- µ?(p??)) = es foo) e p| iffl(77¾o)] -r-éxp(no) Al evaluar las funciones g y g' en la Ecuación 7, el valor x del discurso limpio se toma como la media (µ?(???)) del componente m0 de Gaussian de mezcla "óptima". La Ecuación 7 define una transformación lineal de variables x a y aleatorias (después de fijar n). Con base en esta transformación, se obtiene la PDF en "y" abajo del PDF en x (Ecuación 5) con una aproximación Lapiace: en donde el componente de mezcla óptima se determina por: y en donde la media y varianza con una aproximación Gaussiana es: µ? (mo, t) = µ*>(t?a) + gm<J + x (ni - no) J(mo,í) = a (mo) + 9 Qoit- ¦ (9) Como se muestra más adelante, se utiliza la estimación Gaussiana para p(t\nt) para desarrollar ese algoritmo. No obstante que en el anterior caso se utilizó una expansión en serie de Taylor y la aproximación de Lapiace para proporcionar una estimación Gaussiana para p(yt\nt), se debe entender que se pueden utilizar otras técnicas para proporcionar una estimación Gaussiana sin alejarse de la presente invención. Por ejemplo, además de utilizar una aproximación Laplace en la Ecuación 8, se pueden utilizar técnicas numéricas para la aproximación Gaussiana o un modelo de mezcla Gaussiano (con un pequeño número de componentes). Ahora se puede proporcionar un algoritmo para calcular la media y varianza de la variación de tiempo en el ruido anterior. Dada la forma de la aproximación Gaussiana para p(yt\nt) como en la Ecuación 8 y para como en la Ecuación 4, se puede proporcionar el algoritmo para determinar ia evolución de ruido anterior, expresada como estimaciones en secuencia de hiperparámetros de variación de tiempo de la media v„t y ia varianza a2nt- Al sustituir las Ecuaciones 4 y 8 en la Ecuación 1, se puede obtener lo siguiente: en donde µ1 = yt - x(m0)- 9mo + g'mon0, y se utilizó el supuesto de uniformidad de ruido. Las medias y varianzas de los lados derecho e izquierdo, respectivamente, se hacen coincidir en la Ecuación 10 para obtener las fórmulas anteriores de evolución: J _ en donde µ ? = yt - µ?(??0)- gm 0 + g'moVnt- t- En la Ecuación 1 1 se establece la media anterior del tiempo previo conforme el punto de expansión en serie de Taylor; es decir, se utiliza n0 = Vnt- i . En el resultado bien establecido en la estimación Gaussiana (ajustar a? = g 'm 0) también se utilizó: en donde Con base en un grupo de supuestos simplificados y efectivos, la coincidencia del término de segundo grado de la regla de aproximación de Bayes recursiva se utiliza para derivar con buen resultado las fórmulas de evolución de ruido anterior, como se resume en la Ecuación 1 1 . La estimación media de ruido ha demostrado que se puede medir con más exactitud a través de la reducción de error RMS, mientras que la información de varianza se puede utilizar para proporcionar una medida confiable. Las técnicas de cálculo de ruido descritas con anterioridad se pueden uti lizar en una técnica de normalización de ruido o retiro de ruido, como la descrita en una solicitud de patente titulada "METHOD OF NO I S E REDUCTION USI NG CORRECTION VECTORS BASED ON DYNAMIC ASPECTS OF SPEECH AND NOISE NORMALIZATION" (Método de Reducción de Ruid Mejdiante !,. ect r.es-dev' Corrección, con Base en Aspectos Dinámicos de Discurso y Normalización de Ruido"), con número de serie 10/117,142, presentada el 5 de abril de 2002. La invención también se puede utilizar de forma más directa como parte de un sistema de reducción de ruido en el cual el ruido estimado identificado para cada cuadro se retira de la señal ruidosa para producir una señal limpia, como se describe en la solicitud de patente titulada "NON-LINEAR OBSERVATION MODEL FOR REMOVING NOISE FROM CORRUPTED SIGNALS" (Modelo de Observación No-lineal para Retirar el Ruido de Señales Corrompidas), con número de serie 10/237,163, presentada el 6 de septiembre de 2002. En la Figura 4 se proporciona un diagrama de bloque de un ambiente en el cual se puede utilizar la técnica de cálculo de ruido de la presente invención para llevar a cabo la reducción de ruido. En particular, la Figura 4 muestra un sistema de reconocimiento de voz en el cual se puede utilizar la técnica de cálculo de ruido de la presente invención para reducir el ruido en una señal de entrenamiento que se utiliza para entrenar un modelo acústico y/o para reducir el ruido en una señal de prueba que se aplica contra un modelo acústico para identificar el contenido lingüístico de la señal de prueba. En la Figura 4 una persona hablante 400, ya sea un entrenador o un usuario, habla en un micrófono 404. El micrófono 404 también recibe un ruido adicionado de una o más fuentes 402 de ruido. Las señales de audio detectadas por el micrófono 404 se convierten en señales eléctricas que se proporcionan a un convertidor 406 análogo-a-digital. No obstante que el ruido 402 adicionado se muestra que entra a través de un micrófono 404 en la modalidad de la Figura 4, en otras modalidades, el ruido 402 adicionado se puede añadir a la señal de discurso de entrada como una señal digital después de la conversión del convertidor 406 A-a-D. El convertidor 406 A-a-D convierte la señal análoga del micrófono 404 en una serie de valores digitales. En diversas modalidades, el convertidor 406 A-a-D muestrea la señal análoga a 16kHz y 16 bits por muestra, y mediante esto crea 32 kilobytes de datos de discurso por segundo. Estos valores digitales se proporcionan a un constructor 407 de cuadros, en el cual, en una modalidad, agrupa los valores en cuadros por 25 milisegundos que inician a partir de 10 milisegundos. Los cuadros de datos creados por el constructor 407 de cuadros se proporcionan al extractor 408 de características, el cual extrae una característica de cada cuadro. Ejemplos de módulos de extracción de característica incluyen módulos para llevar a cabo la Codificación de Predicción Lineal (LPC), cepstrum derivado LPC, Predicción Perceptiva Lineal (PLP), extracción de característica del modelo Auditivo, y extracción de características de Coeficientes Cepstrum de Frecuencía-Mel (MFCC). Debe observarse que la invención no está limitada a esos módulos de extracción de características y que se pueden utilizar otros módulos dentro del contexto de la presente invención. El módulo de extracción de característica produce una corriente de vectores de características que están asociados con un cuadro de la señal de discurso. Esta corriente de vectores de características se proporciona al módulo 410 de reducción de ruido, el cual utiliza la técnica de cálculo de ruido de la presente invención para calcular el ruido en cada cuadro. La salida del módulo 410 de reducción de ruido es una serie de vectores "limpios" de características. En caso de que la señal de entrada sea una señal de entrenamiento, esta serie de vectores "limpios" de características se proporciona a un entrenador 424, el cual utiliza los vectores "limpios" de características y un texto 426 de entrenamiento para entrenar un modelo 418 acústico. Las técnicas para entrenar tales modelos son conocidas en el área y por lo tanto no se requiere una descripción de las mismas para el entendimiento de la presente invención En caso de que la señal de entrada sea una señal de prueba, los vectores "limpios" de características se proporcionan a un decodificador 412, el cual identifica la secuencia de palabras más probable, con base en la corriente de vectores de características, un léxico 414, un modelo 416 de lenguaje, y el modelo 418 acústico. El método particular que se utiliza para decodificar no es importante para la presente invención y se puede utilizar cualquiera de los diversos métodos conocidos para decodificación. La secuencia de palabras hipotéticas más probable se proporciona a un módulo 420 de medición de confianza. El módulo 420 de medición de confianza identifica cuáles son las palabras que tienen más probabilidad de que el reconocedor de discurso identifique en forma inadecuada, con base en parte en un modelo secundario acústico (no mostrado). El módulo 420 de medición de confianza entonces proporciona la secuencia de palabras hipotéticas para el módulo 422 de salida junto con los identificadores que identifican las palabras que pudieran haber sido identificadas en forma inadecuada. Las personas experimentadas en la técnica podrán reconocer que el módulo 420 de medición de confianza no es necesario para la práctica de la presente invención. Aunque la Figura 4 ilustra un sistema de reconocimiento de voz, la presente invención se puede utilizar en cualquier sistema de reconocimiento de patrón y no está limitada a un discurso. No obstante que la presente invención se describió con referencia a modalidades particulares, las personas experimentadas en la técnica podrán reconocer que se pueden realizar cambios en forma y detalle sin alejarse del espíritu y alcance de la invención.

Claims

REIVINDICACIONES 1. Un método para calcular un ruido en una señal ruidosa, el método caracterizado porque comprende: dividir la señal ruidosa en cuadros; y determinar un cálculo de ruido, incluyendo la media y varianza, para un cuadro que utiliza el aprendizaje de Bayes de incremento, en donde se infiere una distribución de variación de tiempo de un ruido anterior y se actualiza en forma recursiva un cálculo de ruido mediante el uso de una aproximación para el ruido posterior calculado en un cuadro anterior.
2. Ei método de conformidad con la reivindicación 1, caracterizado porque determinar un cálculo de ruido comprende: determinar un cálculo de ruido para un primer cuadro de la señal ruidosa mediante el uso de una aproximación para un ruido posterior calculado en un cuadro anterior; determinar un cálculo de probabilidad de datos para un segundo cuadro de la señal ruidosa; y utilizar el cálculo de probabilidad de datos para ei segundo cuadro y el cálculo de ruido para el primer cuadro para determinar un cálculo de ruido para el segundo cuadro.
3. El método de conformidad con la reivindicación 2, caracterizado porque determinar el cálculo de probabilidad de datos para el segundo cuadro comprende utilizar el cálculo de probabilidad de datos para el segundo cuadro en una ecuación que está basada en parte en una definición de la señal ruidosa como una función no- lineal de una señal limpia y una señal de ruido.
4. El método de conformidad con la reivindicación 3, caracterizado porque la ecuación está basada además en una aproximación para la función no-lineal.
5. El método de conformidad con las reivindicaciones 2, 3 o 4, caracterizado porque la aproximación se iguala a la función no-lineal en un punto definido en parte por el cálculo de ruido para el primer cuadro.
6. El método de conformidad con la reivindicación 5, caracterizado porque la aproximación es una expansión en serie de Taylor.
7. El método de conformidad con la reivindicación 6, caracterizado porque la aproximación además comprende tomar una aproximación Laplace.
8. El método de conformidad con las reivindicaciones 2, 3 ó 4, caracterizado porque utilizar el cálculo de probabilidad de datos para el segundo cuadro, comprende utilizar el cálculo de ruido para el primer cuadro como un punto de expansión para una expansión en serie de Taylor de una función no-lineal.
9. El método de conformidad con las reivindicaciones 1, 2, 3 ó 4, caracterizado porque utilizar una aproximación para el ruido posterior comprende utilizar una aproximación Gaussiana.
10. El método de conformidad con las reivindicaciones 1, 2, 3 ó 4 caracterizado porque cada cálculo de ruido está basado en una aproximación Gaussiana.
11. El método de conformidad con la reivindicación 10, caracterizado porque determinar el cálculo de ruido comprende determinar un cálculo de ruido para cada cuadro en forma sucesiva.
12. Un método para calcular el ruido en una señal ruidosa, el método caracterizado porque comprende: dividir una señal ruidosa en cuadros; y para cada cuadro sucesivamente, calcular el ruido en cada cuadro de modo que un cálculo de ruido para un cuadro actual esté basado en una aproximación Gaussiana de probabilidad de datos para el cuadro actual y una aproximación Gaussiana de ruido en una secuencia de cuadros anteriores.
13. El método de conformidad con la reivindicación 12, caracterizado porque calcular el ruido en cada cuadro comprende utilizar una ecuación que está basada en parte en una definición de la señal ruidosa como una función no-lineal de una señal limpia y una señal ruidosa para determinar la aproximación para probabilidad de datos en el cuadro actual.
14. El método de conformidad con la reivindicación 13, caracterizado porque la ecuación está basada además en una aproximación para la función no-lineal.
15. El método de conformidad con la reivindicación 14, caracterizado porque la aproximación se iguala a la función no-lineal en un punto definido en parte por el cálculo de ruido para el cuadro anterior.
16. El método de conformidad con la reivindicación 15, caracterizado porque la aproximación es una expansión en serie de Taylor.
17. El método de conformidad con la reivindicación 16, caracterizado porque la aproximación además incluye una aproximación de Laplace.
18. El método de conformidad con las reivindicaciones 12, 13, 14, 15, 16 ó 17, caracterizado porque el cálculo de ruido comprende un cálculo de media de ruido y un cálculo de varianza de ruido.
19. Un medio legible por computadora que incluye instrucciones legibles por computadora, el cual cuando se implementa, provoca que la computadora lleve a cabo cualquiera de los métodos de las reivindicaciones 1 a 18.
20. Un sistema adaptado para llevar a cabo cualquiera de los métodos de las reivindicaciones 1 a 18.