MXPA05008740A

MXPA05008740A - Metodo y aparato para el mejoramiento de lenguaje multi-sensorial.

Info

Publication number: MXPA05008740A
Application number: MXPA05008740A
Authority: MX
Inventors: Alejandro Acero; James G Droppo; Xuedong David Huang; Zhengyou Zhang; Zicheng Liu
Original assignee: Microsoft Corp
Priority date: 2004-09-17
Filing date: 2005-08-17
Publication date: 2007-12-11
Also published as: US7574008B2; CA2513195A1; JP4842583B2; DE602005017549D1; EP1638084B1; US20060072767A1; CN100583243C; ATE448541T1; EP1638084A1; RU2005127419A; RU2389086C2; CA2513195C; KR20060048954A; AU2005202858A1; JP2006087082A; KR101153093B1; CN1750123A

Abstract

Un metodo y aparato determinan una respuesta de canal para un sensor alternativo que utiliza una senal de sensor alternativa y una senal de microfono de conduccion de aire. La respuesta de canal despues de utilizada para estimar un valor de lenguaje limpio que utiliza al menos una porcion de la senal de sensor alternativa.

Description

MÉTODO Y APARATO PARA EL MEJORAMIENTO DE LENGUAJE MULTI-SENSORIAL ANTECEDENTES DE LA INVENCIÓN La presente invención se refiere a la reducción de ruido. En particular, la presente invención se refiere a remover ruido de señales de lenguaje. Un problema común en el reconocimiento de lenguaje y transmisión de lenguaje es la corrupción de la señal de lenguaje por ruido aditivo. En particular, la corrupción debido al lenguaje de otro hablante ha probado se, difícil para detectar y/o corregir. Recientemente, se ha desarrollado un sistema que intenta remover ruido al utilizar una combinación de un sensor alternativo, tal como un micrófono de conducción de hueso, y un micrófono de conducción de aire. Este sistema es entrenado utilizando tres canales de entrenamiento: una señal de entrenamiento de sensor alternativo de ruido, una señal de entrenamiento de micrófono de conducción de aire ruidoso, y una señal de entrenamiento de micrófono de conducción de aire limpio. Cada una de las señales es convertida en un dominio de característica. Las características para la señal de sensor alternativo ruidoso y la señal de micrófono de conducción de aire ruidoso son combinadas en un vector individual que representa una señal ruidosa. Las características para la señal de micrófono de conducción de aire limpio forman un vector limpio individual. Estos vectores después son utilizados para entrenar un delineado entre los vectores ruidosos y los vectores limpios. Una vez entrenados, los delineados con aplicados para un vector ruidoso formado de una combinación de una señal de prueba de sensor alternativo ruidoso y una señal de prueba de micrófono de conducción de aire ruidoso. Este delineado produce un vector de señal limpia. Este sistema es menos que óptimo cuando las condiciones de ruido de las señales de prueba no se ajustan a las condiciones de ruido de las señales de entrenamiento debido a que los delineados están designados para las condiciones de ruido de las señales de entrenamiento.

COMPENDIO DE LA INVENCIÓN Un método y aparato determinan una respuesta de canal para un sensor alternativo que utiliza una señal de sensor alternativa y una señal de micrófono de conducción de aire. La respuesta de canal después de utilizada para estimar un valor de lenguaje limpio que utiliza al menos una porción de la señal de sensor alternativa.

BREVE DESCRIPCIÓN DE LOS DIBUJOS La Figura 1 es un diagrama de bloque de un ambiente de cómputo en el que la presente invención puede ser practicada.

La Figura 2 es un diagrama de bloque de un ambiente de cómputo alternativo en el que la presente invención puede ser practicada. La Figura 3 es un diagrama de bloque de un sistema de procesamiento de lenguaje general de la presente invención. La Figura 4 es un diagrama de bloque de un sistema para el mejoramiento de lenguaje de una modalidad de la presente invención. La Figura 5 es un diagrama de flujo para el mejoramiento de lenguaje bajo una modalidad de la presente invención. La Figura 6 es un diagrama de flujo para el mejoramiento de lenguaje bajo otra modalidad de la presente invención. La Figura 7 es un diagrama de flujo para el mejoramiento de lenguaje bajo otra modalidad de la presente invención.

DESCRIPCIÓN DETALLADA DE LAS MODALIDADES ILUSTRATIVAS La Figura 1 ilustra un ejemplo de un ambiente de sistema de cómputo adecuado 100 en el que la invención puede ser implementada. El ambiente de sistema de cómputo 100 es sólo un ejemplo de un ambiente de cómputo adecuado y no se pretende sugerir cualquier limitación al alcance de uso o funcionalidad de la invención. El ambiente de cómputo 100 tampoco debe ser interpretado cono teniendo cualquier dependencia o requerimiento que se relaciona a cualquier componente o combinación de ellos ilustrados en el ambiente operativo ilustrativo 100. La invención es operacional con numerosos otros ambientes o configuraciones de sistema de cómputo de propósito general o propósito especial. Ejemplos de sistemas de cómputo, ambientes, y/o configuraciones bien conocidos que pueden ser adecuados para utilizarse con la invención incluyen, pero no se limitan a, computadoras personales, computadoras de servidor, dispositivos móviles o portátiles, sistemas de multiprocesador; sistemas basados en microprocesador, cajas de T.V. por cable, aparatos electrónicos programables para el consumidor, PCs de red, minicomputadoras, macrocomputadoras, sistemas de telefonía, ambientes de cómputo distribuidos que incluyen cualquiera de los sistemas o dispositivos anteriores, y similares. La invención puede ser descrita en el contexto general de instrucciones ejecutables de computadora, tal como módulos de programa, siendo ejecutados por una computadora. Generalmente, los módulos incluyen rutinas, programas, objetos, componentes, estructuras de datos, etc. que realizan tareas particulares o implementan tipos de datos abstractos particulares. La invención también está diseñada para ser practicada en ambientes de cómputo distribuidos en dónde las tareas son realizadas por dispositivos de procesamiento remotos que están conectados a través de una red de comunicaciones. En un ambiente de cómputo distribuido, los módulos de programa están localizados tanto en medios de almacenamiento de computadora locales y remotos que incluyen dispositivos de almacenamiento de memoria. Con referencia a la Figura 1, un sistema ilustrativo para implementar la invención incluye un dispositivo de cómputo de propósito general en la forma de una computadora 110. Los componentes de computadora 110 pueden incluir, pero no están limitados a, una unidad de procesamiento 120, una memoria de sistema 130, y un conductor común de sistema 121 que acopla varios componentes de sistema que incluyen la memoria de sistema a la unidad de procesamiento 120. El conductor común de sistema 121 puede ser cualquiera de varios tipos de estructuras de conductor común que incluyen un conductor común de memoria o controlador de memoria, un conductor común periférico, y un conductor común local que utiliza cualquiera de una variedad de arquitecturas de conductor común. Como ejemplo, y no limitación, tales arquitecturas incluyen conductor común de Arquitectura Estándar de Industria (ISA), conductor común de Arquitectura de Micro Canal (MCA), conductor común ISA Mejorado (EISA), conductor común local de Asociación de Estándares de Aparatos Electrónicos de Vídeo (VESA), y conductor común lnterconectado de Componente Periférico (PCI) también conocido como conductor común de Entrepiso. La computadora 110 típicamente incluye una variedad de medios legibles de computadora. Los medios legibles de computadora pueden ser cualquier medio disponible que puede ser accedido por la computadora 110 e incluye tanto medios volátiles como no volátiles, medios removibles y no removibles. Como ejemplo, y no limitación, los medios legibles de computadora pueden comprender medios de almacenamiento de computadora y medios de comunicación. Los medios de almacenamiento de computadora incluyen tanto medios volátiles y no volátiles, removibles y no removibles implementados en cualquier método o tecnología para almacenamiento de información tal como instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos. Los medios de almacenamiento de computadora incluyen, pero no se limitan a, RAM, ROM, EEPROM, memoria instantánea u otra tecnología de memoria, CD-ROM, discos versátiles digitales (DVD) u otro almacenamiento de disco óptico, cassettes magnéticos, cinta magnética, almacenamiento de disco magnético u otros dispositivos de almacenamiento magnético, o cualquier otro medio que puede ser utilizado para almacenar la infamación deseada y que puede ser accedido por la computadora 110. Los medios de comunicación típicamente representan instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos en una señal de datos modulada tal como onda de vehículo u otro mecanismo de transporte e incluye cualquier medio de entrega de información. El término "señal de datos modulada" significa una señal que tiene una o más de sus características establecidas o cambiadas de tal forma para codificar información en la señal. Como ejemplo, y no limitación, los medios de comunicación incluyen medios alámbricos tal como red alámbrica o conexión alámbrica directa, y medios inalámbricos tal como medios acústicos, RF, infrarrojos u otros inalámbricos. Combinaciones de cualquiera de los anteriores también deben estar incluidas dentro del alcance de medio legible por computadora. La memoria de sistema 130 incluye medios de almacenamiento de computadora en la forma de memoria volátil y/o no volátil tal como memoria sólo de lectura (ROM) 131 y memoria de acceso al aleatorio (RAM) 132. Un sistema de entrada/salida básico 133 (BIOS), que contiene las rutinas básicas que ayudan a transferir información entre elementos dentro de la computadora 110, tal como durante el arranque, está típicamente almacenado en ROM 131. RAM 132 típicamente contiene datos y/o módulos de programa que son inmediatamente accesibles y/o ahora están siendo operados por la unidad de procesamiento 120. Como ejemplo, y no limitación, la Figura 1 ilustra el sistema operativo 134, programas de aplicación 135, otros módulos de programa 136, y datos de programa 137. La computadora 110 también puede incluir otros medios de almacenamiento de computadora removibles/no removibles, volátiles/ no volátiles. Sólo como ejemplo, la Figura 1 ilustra una unidad de disco duro 141 que lee de o escribe a medios magnéticos no removibles, no volátiles, una unidad de disco magnético 151 que lee de o escribe a un disco magnético removible, no volátil 152, y una unidad de disco óptico 155 que lee de o escribe a un disco óptico removible, no volátil 156 tal como un CD ROM u otros medios ópticos. Otros medios de almacenamiento de computadora removibles/no removibies, volátiles/no volátiles que pueden ser utilizados en el ambiente operativo ilustrativo incluyen, pero no se limitan a, cassettes de cinta magnética, tarjetas de memoria instantánea, discos versátiles digitales, cinta de video digital, RAM de estado sólido, ROM de estado sólido, y similares. La unidad de disco duro 141 está típicamente conectada al conductor común de sistema 121 a través de una interfase de memoria no removible tal como interfase 140, y unidad de disco magnético 151 y unidad de disco óptico 155 están típicamente conectados al conductor común de sistema 121 a través de una interfase de memoria removible, tal como interfase 150. Las unidades y sus medios de almacenamiento de computadora asociados discutidos anteriormente e ¡lustrados en la Figura 1, proporcionan almacenamiento de instrucciones legibles por computadora, estructuras de datos, módulos de programa y otros datos para la computadora 110. En la Figura 1, por ejemplo, la unidad de disco duro 141 es ilustrada como sistema operativo de almacenamiento 144, programas de aplicación 145, otros módulos de programa 146, y datos de programa 147. Se debe notar que estos componentes ya sea que pueden ser iguales o diferentes al sistema operativo 134, programas de aplicación 135, otros módulos de programa 136, y datos de programa 137. El sistema operativo 144, programas de aplicación 145, otros módulos de programa 146, y datos de programa 147 aquí se les da números diferentes para ilustrar que, en un mínimo, son copias diferentes. Un usuario puede introducir órdenes e información en la computadora 110 a través de dispositivos de entrada tal como teclado 162, un micrófono 163, y un dispositivo de señalamiento 161, tal como un ratón, seguibola o almohadilla sensible al tacto. Otros dispositivos de entrada (no mostrados) pueden incluir una palanca de mandos, almohadilla para juegos, antena parabólica, escáner, o similares. Estos y otros dispositivos de entrada están conectados frecuentemente a la unidad de procesamiento 120 a través de una interfase de entrada de usuario 160 que está acoplada al conductor común de sistema, pero puede estar conectada a través de otra interfase y estructuras de conductor común, tal como un puerto paralelo, puerto de juego o un conductor común en serie universal (USB). Un monitor 191 u otro tipo de dispositivo de exhibición también está conectado al conductor común de sistema 121 por medio de una interfase, tal como una interfase de video 190. Además del monitor, las computadoras también pueden incluir otros dispositivos de salida periféricos tal como bocinas 197 e impresora 196, que pueden estar conectados a través de una interfase periférica de salida 195. La computadora 110 es operada en un ambiente en red que utiliza conexiones lógicas a una o más computadoras remotas, tal como computadora remote 180. La computadora remota 180 puede ser una computadora personal, un dispositivo portátil, un servidor, un enrutador, una PC de red, un dispositivo par u otro nodo de red común, y típicamente incluye muchos o todos los elementos descritos anteriormente relativos a la computadora 110. Las conexiones lógicas ilustradas en ia Figura 1 incluyen una red de área local (LAN) 171 y una red de área amplia (WAN) 173, pero también puede incluir otras redes. Tales ambientes en red están ubicados comúnmente en oficinas, redes de computadoras amplias de empresa, intranets e Internet. Cuando se utiliza en un ambiente en red de LAN, la computadora 110 está conectada al LAN 171 a través de una interfase de red o adaptador 170. Cuando se utiliza en un ambiente en red de WAN, la computadora 110 típicamente incluye un modem 172 u otros medios para establecer comunicación en el WAN 173, tal como Internet. El módem 172, que puede ser interno o externo, puede estar conectado al conductor común de sistema 121 por medio de la interfase de entrada de usuario 160, u otro mecanismo apropiado. En un ambiente en red, los módulos de programa ilustrados relativos a la computadora 110, o porciones de la misma, pueden ser almacenados en el dispositivo de almacenamiento de memoria remoto. Como ejemplo, y no limitación, la Figura 1 ilustra programas de aplicación remotos 185 como residentes en la computadora remota 180. Se apreciará que las conexiones de red mostradas son ilustrativas y otros medios de establecer una conexión de comunicaciones entre las computadoras pueden ser utilizados. La Figura 2 es un diagrama de bloque de un dispositivo móvil 200, que es un ambiente de cómputo ilustrativo. El dispositivo móvil 200 incluye un microprocesador 202, memoria 204, componentes de entrada/salida (l/O) 206, y una interfase de comunicación 208 para comunicarse con computadoras remotas u otros dispositivos móviles. En una modalidad, los componentes antes mencionados están acoplados para comunicación con otro en un conductor común adecuado 210. La memoria 204 es implementada como una memoria electrónica no volátil tal como una memoria de acceso aleatorio (RAM) con un módulo de soporte de batería (no mostrado) para que la información almacenada en la memoria 204 no se pierda cuando la fuente de energía general se cierre para el dispositivo móvil 200. Una porción de memoria 204 es preferiblemente distribuida como memoria dirigible para ejecución de programa, mientras otra porción de memoria 204 es preferiblemente utilizada para almacenamiento, tal como para simular almacenamiento en una unidad dura. La memoria 204 incluye un sistema operativo 212, programas de aplicación 214 así como un almacenamiento de objeto 216. Durante la operación, el sistema operativo 212 es preferiblemente ejecutado por el procesador 202 a partir de la memoria 204. El sistema operativo 212, en una modalidad preferida, es un sistema operativo de marca de WINDOWS® comercialmente disponible de la Corporación de Microsoft. El sistema operativo 212 es preferiblemente diseñado para dispositivos móviles, e implementa características de bases de datos que pueden ser utilizadas por aplicaciones 214 a través de un grupo de interfases y métodos de programación de aplicación expuesta. Los objetos en el almacenamiento de objeto 216 con mantenidos por aplicaciones 214 y el sistema operativo 212, al menos parcialmente en respuesta a llamados a las interfases y métodos de programación de aplicación expuesta. La interfase de comunicación 208 representa numerosos dispositivos y tecnologías que permiten al dispositivo móvil 200 enviar y recibir información. Los dispositivos incluyen módems alámbricos e inalámbricos, receptores de satélite y cambiador de emisión por nombrar algunos. El dispositivo móvil 200 también puede estar directamente conectado a una computadora para intercambiar datos con eso. En tales casos, la interfase de comunicación 208 puede ser un transmisor infrarrojo o una conexión de comunicación en serie o paralela, de los cuales todos son capaces de transmitir información de corriente. Los componentes de entrada/salida 206 incluyen una variedad de dispositivos de entrada tal como una pantalla sensible al tacto, botones, rodillos, y un micrófono así como una variedad de dispositivos de salida que ¡ncluyen un generador de audio, un dispositivo vibrados, y la presentación. Los dispositivos listados anteriormente son ejemplos y no necesitan estar todos presentes en el dispositivo móvil 200. Además, otros dispositivos de entrada/salida pueden estar unidos a o encontrarse con el dispositivo móvil 200 dentro del alcance de la presente invención. La Figura 3 proporciona un diagrama de bloque básico de modalidades de la presente invención. En la Figura 3, una bocina 300 genera una señal de lenguaje 302 (X) que es detectada por un micrófono de conducción de aire 304 y un sensor alternativo 306. Los ejemplos de sensores alternativos incluyen un micrófono de garganta que mide las vibraciones de garganta del usuario, un sensor de conducción de hueso que está localizado en o es adyacente a un hueso facial o de cráneo del usuario (tal como el hueso de la mandíbula) o en el oído del usuario y que siente las vibraciones del cráneo y mandíbula que corresponde al lenguaje generado por el usuario. El micrófono de conducción de aire 304 es el tipo de micrófono que es utilizado comúnmente para convertir ondas de aire de audio en señales eléctricas. El micrófono de conducción de aire 304 también recibe ruido de ambiente 308 (U) generado por una o más fuentes de ruido 310 y lenguaje de antecedente 312 (V) generado por bocina(s) de antecedente 314. Dependiendo en el tipo de sensor alternativo y el nivel del lenguaje de antecedente, el lenguaje de antecedente 312 también puede ser detectado por el sensor alternativo 306. Sin embargo, bajo las modalidades de la presente invención, el sensor alternativo 306 es típicamente menos sensitivo para ruido de ambiente y lenguaje de antecedente que el micrófono de conducción de aire 304. De esa forma, la señal de sensor alternativo 316 (B) generada por el sensor alternativo 306 generalmente incluye menos ruido que la señal de micrófono de conducción de aire 318 (Y) generada por el micrófono de conducción de aire 304. Aunque el sensor alternativo 306 es menos sensitivo para ruido de ambiente, no genera algún ruido de sensor 320 (W).

El camino de la bocina 300 a la señal de sensor alternativo 316 puede ser moldeado como un canal que tiene una respuesta de canal H. El camino de la bocina(s) de antecedente 314 a la señal de sensor alternativo 316 puede ser moldeada como un canal que tiene una respuesta de canal G. La señal de sensor alternativo 316 (B) y la señal de micrófono de conducción de aire 318 (Y) son proporcionadas para un estimador de señal limpia 322, que estima una señal limpia 324 y en algunas modalidades, estima una señal de lenguaje de antecedente 326. El estimado de señal limpia 324 es proporcionado para un procedimiento de lenguaje 328. El estimado de señal limpia 324 puede ser ya sea una señal de dominio de tiempo filtrado o un vector de Transformador de Fourier. Si el estimado de señal limpia 324 es una señal de dominio de tiempo, el procedimiento de lenguaje 328 toma la forma de un oyente, un sistema de codificación de lenguaje, o un sistema de reconocimiento de lenguaje. Si el estimado de señal limpia 324 es un vector de Transformación de Fourier, el procedimiento de lenguaje 328 típicamente será un sistema de reconocimiento de lenguaje, o contendrá una Transformación de Fourier Inversa para convertir el vector de Transformación de Fourier en formas de onda. Dentro del mejoramiento de filtrado directo 322, la señal de sensor alternativo 316 y señal de micrófono 318 son convertidas en el dominio de frecuencia siendo utilizado para estimar el lenguaje limpio. Como se muestra en la Figura 4, la señal de sensor alternativo 316 y la señal de micrófono de conducción de aire 318 son proporcionados a convertidores análogos a digitales 404 y 414, respectivamente, para generar una secuencia de valores digitales, que están agrupados en estructuras de valores por constructores de estructura 406 y 416, respectivamente. En una modalidad, los convertidores A a D 404 y 414 muestran las señales análogas en 16 kHz y 16 bits por muestreo, de esa forma creando 32 kilo bites de datos de lenguaje por segundo y constructores de estructura 406 y 416 crean una nueva estructura respectiva cada 10 milisegundos que incluye valor de 20 milisegundos de datos. Cada estructura respectiva de datos proporcionada por constructores de estructura 406 y 416 es convertida en el dominio de frecuencia que utiliza Transformaciones de Fourier Rápidas (FFT) 408 y 418, respectivamente. Los valores de dominio de frecuencia para la señal de sensor alternativa y la señal de micrófono de conducción de aire son proporcionadas para el estimador de señal limpia 420, que utiliza los valores de dominio de frecuencia para estimar la señal de lenguaje limpia 324 y en algunas modalidades la señal de lenguaje de antecedente 326. Bajo algunas modalidades, la señal de lenguaje limpio 324 y señal de lenguaje de antecedente 326 son convertidas otra vez al dominio de tiempo que utiliza las Transformaciones de Fourier Rápidas Inversas 422 y 424. Esto crea versiones de dominio de tiempo de señal de lenguaje limpia 324 y señal de lenguaje de antecedente 326. La presente invención proporciona técnicas de filtración directas para estimar la señal de lenguaje limpia 324. Bajo ia filtración directa, se determinan un estimado de probabilidad máxima de la respuesta(s) de canal para el sensor alternativo 306 al minimizar una función relativa a la respuesta(s) de canal. Estos estimados después son utilizados para determinar un estimado de probabilidad máxima de la señal de lenguaje limpia al minimizar una función relativa a la señal de lenguaje limpia. Bajo una modalidad de la presente invención, la respuesta de canal G que corresponde al lenguaje de antecedente siendo detectado por el sensor alternativo es considerado para ser cero y el lenguaje de antecedente y ruido de ambiente son combinados para formar un término de ruido individual. Estos resultados en un modelo entre la señal de lenguaje limpia y la señal de micrófono de conducción de aire y señal de sensor alternativo de: y(t) -- x(t) + z(t) Ec. 1 b(t) = h(t)*x(t) + w(t) Ec. 2 en donde y(t) es la señal de micrófono de conducción de aire, b(t) es la señal de sensor alternativo, x(t) es la señal de lenguaje limpia, z(t) es la señal de ruido combinada que incluye lenguaje de antecedente y ruido de ambiente, w(t) es el ruido de sensor alternativo, y h(t) es la respuesta de canal para la señal de lenguaje limpio asociado con el sensor alternativo. De esa forma, en la Ecuación 2, la señal de sensor alternativo es moldeada como una versión filtrada del lenguaje limpio, en donde el filtro tiene una respuesta de impulso de h(t). En el dominio de frecuencia, las Ecuaciones 1 y 2 pueden ser expresadas: Yt(k) = xt(k) . zt(k) Ec. 3 Bt(k) = Ht(k)*Xt(k) + Wt(k) Ec. 4 en donde la anotación Yt(k) representa el kvo componente de frecuencia de una estructura de una señal centrada alrededor del tiempo t. Esta anotación se aplica a Xt(k), Zt(k), Ht(k), Wt(k), y Bt(k). En la siguiente discusión, se omite la referencia al componente de frecuencia k por claridad. Sin embargo, aquellos expertos en la técnica reconocerán que los cálculos realizados más adelante son realizados en una base de componente por frecuencia Bajo esta modalidad, las partes reales e imaginarias del ruido Zt y Wt están moldeados como Gaussianos a cero independiente para que: Zf = N(0,s22) Ec. 5 Wt = N(0,s2w) Ec. 6 en donde s2z es la variante para ruido Zt y s2-, es la variante para ruido Wt. Ht también es moldeado como un Gaussiano para que Ht = N(H,s2H) Ec. 7 en donde H0 es el medio de la respuesta de canal y s2H es la variante de la respuesta de canal. Dado estos parámetros de modelo, la probabilidad de un valor de lenguaje limpio X, y un valor de respuesta de canal Hf, es descrito por la probabilidad condicional: p(Xt, Ht | Yt, Bu H0s' H) Ec. 8 que es proporcional a: p(Yt, Bt | Xu H t, s¿zs )P(Ht | Ho, s¿H)p(Xt) Ec. 9 que es igual a: p(Yt | X s2z)p(Bt | Xt, H s2w)p(Ht | H0, s2H)p(Xt) Ec. 10 En una modalidad, la prioridad anterior para la respuesta de canal, p(Ht \ H0, s2H), y la probabilidad anterior para la señal de lenguaje limpio, p(Xt), son ignorados y las probabilidades de permanecer son tratadas como distribuciones Gaussianas. Al utilizar estas simplificaciones, la Ecuación 10 se convierte: Ec. 11 De esa forma, el estimado de probabilidad máxima de Hi, Xt, para un lenguaje es determinado al minimizar el término de exponente de la Ecuación 11 a través de todas las estructuras de tiempo T en el lenguaje. De esa forma, el estimado de probabilidad máxima es proporcionado al minimizar: Ec. 12 Ya que la Ecuación 12 esta siendo minimizada con respecto a dos variables, Xt, Ht, el derivativo parcial con respecto a cada variable puede ser tomado para determinar el valor de esa variable que minimiza la función. Específicamente, 9F. = 0 da: 3Xt en donde H*t representa el conjugado completo de Ht y |Ht| representa la magnitud del valor complejo Ht. Al substituir este valor de X, en la Ecuación 12, que i- = o establece el Derivado parcial dH' y después asume que H es constante a través de todas las estructuras de tiempo T da una solución para H de: Ec. 14 En la Ecuación 14, el estimado de H requiere calcular varias sumas en la última de las estructuras de T en la forma de: Ec. 15 en donde st es (s2z|Bt|2 -s2w|Yt|2)_o Bt*Y Con esta fórmula, la primera estructura (t=1) es tan importante como la última estructura (t=T). Sin embargo, en otras modalidades se prefiere que las últimas estructuras contribuyan más al estimado de H más que las estructuras antiguas. Una técnica para lograr esto es "otra vez el exponente", en el que las sumas de la Ecuación 15 son reemplazadas con: T sm^'S, í=l Ec. 16 en donde c l. Si c = 1, entonces la Ecuación 16 es equivalente a la Ecuación 15. Si c < 1, entonces la última estructura es pesada por 1, la penúltima estructura es pesada por c (es decir, contribuye menos que la última estructura), y la primera estructura es pesada por ct"1 (es decir, contribuye significativamente menos que la última estructura). Tomar un ejemplo. Permitir c = 0.99 y T = 100, entonces el peso para la primera estructura es sólo 0.9999 = 0.37. Bajo una modalidad, la Ecuación 16 es estimada recursivamente como: S(T) = cS'(T-1) + st Ec. 17 Ya que la Ecuación 17 automáticamente pesa los datos antiguos menos, una longitud de ventana fija no necesita ser utilizada, y los datos de las últimas estructuras T no necesitan ser almacenadas en la memoria. En vez de eso, sólo el valor para S(T-1) en la estructura previa necesita ser almacenado. Al utilizar la Ecuación 17, la Ecuación 14 se convierte: Ec.18 en donde: J(T) = cJ(T-1) + (s2-\Bt\2-s2w\Yt\2) Ec. 19 K(T) = cK(T-1) + Bt*Yt Ec. 20 El valor de c en las ecuaciones 19 y 20 proporciona una longitud efectiva para el número de estructuras pasadas que son utilizadas para calcular el valor actual de j(T) y K(T). Específicamente, la longitud efectiva es proporcionada por: Ec. 21 La longitud efectiva asintótica es proporcionada por: Ec. 22 o equivalentemente, c = L - 1 Ec. 23 De esa forma, al utilizar la ecuación 23, c puede ser establecida para lograr diferentes longitudes efectivas en la ecuación 18. Por ejemplo, para lograr una longitud efectiva de 200 estructuras, c es establecida como: C= 199.= 0-995 Ec. 24 Una vez que H ha sido estimada utilizando la Ecuación 14, puede ser utilizada en lugar de todas las Ht de la Ecuación 13 para determinar un valor separado de Xt en cada estructura de tiempo t. Alternativamente, la ecuación 18 puede ser utilizada para estimar Ht en cada estructura de tiempo t. El valor de Ht en cada estructura después es utilizado en la Ecuación 13 para determinar Xt. La Figura 5 proporciona un diagrama de flujo de un método de la presente invención que utiliza las Ecuaciones 13 y 14 para estimar un valor de lenguaje limpio para una expresión. En el paso 500, los componentes de frecuencia de las estructuras de la señal de micrófono de conducción de aire y la señal de sensor alternativo son capturados a través de una expresión completa. En el paso 502 la variante para el ruido de micrófono de conducción de aire s2- y el ruido de sensor alternativo s2w es determinado de las estructuras de la señal de micrófono de conducción de aire y la señal de sensor alternativo, respectivamente, que son capturadas antes en el lenguaje durante períodos cuando el hablante no está hablando. El método determina cuando el hablante no está hablando al identificar porciones de energía baja de la señal de sensor alternativo, ya que la energía del ruido de sensor alternativo es mucho más pequeña que la señal de lenguaje capturada por la señal de sensor alternativo. En otras modalidades, las técnicas de detección de lenguaje conocidas pueden ser aplicadas a la señal de lenguaje de conducción de aire para identificar cuando el hablante está hablando. Durante los períodos cuando no se considera que el hablante no está hablando, se asume Xt que es cero y cualquier señal del micrófono de conducción de aire o el sensor alternativo es considerado para ser ruido. Las muestras de los valores de ruido son recolectadas de las estructuras de no lenguaje y son utilizadas para estimar la variante del ruido en la señal de conducción de aire y la señal de sensor alternativo. En el paso 504, los valores para la señal de sensor alternativo y la señal de micrófono de conducción de aire a través de todas las estructuras del lenguaje son utilizados para determinar un valor de H que utiliza la anterior Ecuación 14. En el paso 506, este valor de H es utilizado junto con los valores individuales de la señal de micrófono de conducción de aire y la señal de sensor alternativa en cada estructura de tiempo para determinar un valor de lenguaje mejorado o reducido de ruido para cada estructura de tiempo que utiliza la anterior Ecuación 13. En otras modalidades, en vez de utilizar todas las estructuras del lenguaje para determinar un valor individual de H que utiliza la Ecuación 14, Ht es determinada para cada estructura que utiliza la Ecuación 18. El valor de Ht después es utilizado para calcular Xt, para la estructura que utiliza la anterior Ecuación 13. En una segunda modalidad de la presente invención, la respuesta de canal del sensor alternativo para el lenguaje de antecedente es considerada para ser no cero. En esta modalidad, la señal de micrófono de conducción de aire y la señal de sensor alternativo son moldeadas como: Yt(k) = Xt(k) + Vt(k) + Ut(k) Ec. 25 Bt(k) = Ht(k)Xt(k) + Gt(k)Vt(k) + Wt(k) Ec. 26 en done el ruido Zt(k) ha sido separada en el lenguaje de antecedente Vt(k) y el ruido de ambiente (Ut(k), y la respuesta de canal de sensores alternativos para el lenguaje de antecedente es un valor de no cero de Gt(k). De acuerdo con esta modalidad, el conocimiento anterior del lenguaje limpio Xt continúa para ser ignorado. Al hacer esta suposición, la probabilidad máxima para ei lenguaje limpio Xt puede ser encontrada al minimizar la función objetivo: Ec. 27 Esto da como resultado en una ecuación para el lenguaje limpio de: Ec. 28 Con el fin de resolver la Ecuación 28, las variantes s2w, s2u y s2- así como los valores de respuesta de canal Ht y Gt deben ser conocidos. La Figura 6 proporciona un diagrama de flujo para identificar estos valores y para determinar valores de lenguaje mejorados para cada estructura. En el paso 600, las estructuras del lenguaje son identificadas en donde el usuario no está hablando y no existe lenguaje de antecedente. Estas estructuras después son utilizadas para determinar la variante s2w y s2u para el sensor alternativo y el micrófono de conducción de aire, respectivamente. Para identificar estructuras en donde el usuario no está hablando, la señal de sensor alternativo puede ser examinada. Ya que la señal de sensor alternativo producirán valores de señal mucho más pequeños para lenguaje de antecedente que para ruido, si la energía de la señal de sensor alternativo es baja, se puede asumir que el hablante no está hablando. Dentro de las estructuras basándose en la señal alternativa, un algoritmo de detección de lenguaje puede ser aplicado a la señal de micrófono de conducción de aire. Este sistema de detección de lenguaje detectará si existe el lenguaje de antecedente presente en la señal de micrófono de conducción de aire cuando el usuario no está hablando. Tales algoritmos de detección de lenguaje son bien conocidos en la técnica e incluyen sistemas tal como sistemas de rastreo de grado. Después de que se han determinado las variantes para el ruido asociado con el micrófono de conducción de aire y el sensor alternativo, el método de la Figura 6 continúa en el paso 602 en donde identifica estructuras en donde el usuario no está hablando pero hay lenguaje de antecedente presente. Las estructuras son identificadas utilizando la misma técnica descrita anteriormente pero selecciona aquellas estructuras que incluyen lenguaje de antecedente cuando el usuario no está hablando. Para aquellas estructuras que ¡ncluyen lenguaje de antecedente cuando el usuario no está hablando, se asume que el lenguaje de antecedente es mucho más grande que el ruido de ambiente. Como tal, cualquier variante en la señal de micrófono de conducción de aire durante aquellas estructuras es considerada para ser del lenguaje de antecedente. Como un resultado, la variante s2v puede ser establecida directamente de los valores de la señal de micrófono de conducción de aire durante aquellas estructuras cuando el usuario no está hablando pero existe lenguaje de antecedente. En el paso 604, las estructuras son identificadas en donde el usuario no está hablando pero existe lenguaje de antecedente son utilizadas para estimar la respuesta de canal G de sensor alternativo para lenguaje de antecedente. Específicamente, G es determinada como: Ec. 29 En donde D es el número de estructuras en las que el usuario no está hablando pero existe lenguaje de antecedente. En la Ecuación 29, se asume que G permanece constante a través de todas las estructuras del lenguaje y de esa forma ya no es dependiente en la estructura de tiempo t. En el paso 606, el valor de la respuesta de canal G del sensor alternativo para el lenguaje de antecedente es utilizado para determinar la respuesta de canal de sensor alternativo para la señal de lenguaje limpio. Específicamente, H es calculada como: Ec. 30 En la Ecuación 30, la suma en T puede ser reemplazada con el cálculo de disminución exponencial recursivo discutido anteriormente en conexión con las ecuaciones 15-24. Después de que H ha sido determinada en el paso 606, la Ecuación 28 puede ser utilizada para determinar un valor de lenguaje limpio para todas las estructuras. Al utilizar la Ecuación 28, Ht y Gt son reemplazadas con los valores independientes de tiempo H y G, respectivamente. Además, de acuerdo con algunas modalidades, el término Bt-GYt en la Ecuación 28 es reemplazado con (1-|GYL[) B, |B.| debido a que se ha encontrado para ser más difícil de determinar precisamente la diferencia de fase entre el lenguaje de antecedente y su escape en el sensor alternativo. Si el cálculo de disminución exponencial recursivo es utilizado en lugar de las sumas en la Ecuación 30, un valor separado de Ht puede ser separado para cada estructura de tiempo y puede ser utilizado como Ht en la ecuación 28. En otra extensión de la modalidad anterior, es posible proporcionar un estimado de la señal de lenguaje de antecedente en cada estructura de tiempo. En particular, una vez que el valor de lenguaje limpio ha sido determinado, el valor de lenguaje de antecedente en cada estructura puede ser determinado como: Ec. 31 El paso opcional es mostrado como paso 610 en la Figura 6. En las modalidades anteriores, el conocimiento anterior de la r'espuesta de canal del sensor alternativo para la señal de lenguaje limpio ha sido ignorado. En otra modalidad, el conocimiento anterior puede ser utilizado, si es proporcionado, para generar un estimado de la respuesta de canal en cada estructura de tiempo Ht y para determinar el valor de lenguaje limpio Xt. En esta modalidad, la respuesta de canal para el ruido de lenguaje de antecedente es una vez más asumido para ser cero. De esa forma, el modelo de la señal de conducción de aire y la señal de sensor alternativo es el mismo que el modelo mostrado en las anteriores Ecuaciones 3 y 4. Las ecuaciones para estimar el valor de lenguaje limpio y la respuesta de canal Ht en cada estructura de tiempo con determinados al minimizar la función de objetivo: Ec. 32 Esta función de objetivo es minimizada con respecto a Xt y Ht al tomar los derivativos parciales relativos a estas dos variables ¡ndependientemente y establecer los resultados ¡guales a cero. Esto proporciona las siguientes ecuaciones para Xt y Hf: X. (sw2Yt+slHtBt) <+<?; H.

Ec.33 Ec. 34 En donde ?0 y s2H son el medio y variante, respectivamente, del modelo anterior para la respuesta de canal del sensor alternativo para la señal de lenguaje limpia. Debido a que la ecuación para X incluye Ht y la ecuación para Ht incluye la variable Xt, las Ecuaciones 33 y 34 deben ser resueltas en una forma iterativa. La Figura 7 proporciona un diagrama de flujo para realizar tal iteración. En el paso 700 de la Figura 7, los parámetros para el modelo anterior para la respuesta de canal son determinados. En el paso 702, un estimado de Xt es determinado. Este estimado puede ser determinado utilizando cualquiera de las modalidades anteriores descritas anteriormente en las que el modelo anterior de la respuesta de canal fue ignorado. En el paso 704, los parámetros del modelo anterior y el estimado inicial de Xt son utilizados para determinar Ht utilizando la Ecuación 34. Ht después es utilizada para actualizar los valores de lenguaje limpio que utilizan la Ecuación 3 en el paso 706. En el paso 708, el procedimiento determina di más iteraciones son deseadas. Si se desean más iteraciones, el procedimiento regresa al paso 704 y actualiza el valor de Ht que utiliza los valores actualizados de Xt determinados en el paso 706. Los pasos 704 y 706 son repetidos hasta que no se desean más iteraciones en el paso 708, en ese punto el procedimiento termina en el paso 710. Aunque la presente invención ha sido descrita con referencia a modalidades particulares, los trabajadores expertos en la técnica reconocerán que se pueden hacer cambios en la forma y detalle sin apartarse del espíritu y alcance de la invención.

Claims

REIVINDICACIONES

1.- Un método para determinar un estimado para un valor de ruido reducido que representa una porción de una señal de lenguaje de ruido reducido, el método comprende: generar una señal de sensor alternativa que utiliza un sensor alternativo diferente a un micrófono de conducción de aire; generar una señal de micrófono de conducción de aire; utilizar la señal de sensor alternativa y la señal de micrófono de conducción de aire para estimar un valor para una respuesta de canal de la señal de sensor alternativa; y utilizar la respuesta de canal para estimar el valor de ruido reducido.

2.- El método de acuerdo con la reivindicación 1, en donde estimar un valor para una respuesta de canal comprende encontrar un extremo de una función de objetivo.

3.- El método de acuerdo con la reivindicación 1, en donde estimar una respuesta de canal comprende moldear una señal de sensor alternativa como una señal de lenguaje limpia envuelto con la respuesta de canal, con el resultado sumado con un término de ruido.

4.- El método de acuerdo con la reivindicación 1, en donde la respuesta de canal comprende una respuesta de canal para una señal de lenguaje limpia.

5.- El método de acuerdo con la reivindicación 4, que además comprende determinar una respuesta de canal del sensor alternativo para una señal de lenguaje de antecedente.

6.- El método de acuerdo con la reivindicación 5, en donde utilizar la respuesta de canal para estimar el valor reducido de ruido comprende utilizar la respuesta de canal para la señal de lenguaje limpia y la respuesta de canal para la señal de lenguaje de antecedente para estimar el valor reducido de ruido. 1.- El método de acuerdo con la reivindicación 1, que además comprende utilizar el estimado del valor reducido de ruido para estimar un valor para una señal de lenguaje de antecedente. 8.- El método de acuerdo con la reivindicación 1, en donde estimar un valor para una respuesta de canal comprende utilizar una secuencia de estructuras de la señal de sensor alternativa y la señal de micrófono de conducción de aire para estimar un valor de respuesta de canal individual para las estructuras en la secuencia de estructuras. 9.- El método de acuerdo con la reivindicación 8, en donde utilizar la respuesta de canal para estimar un valor reducido de ruido comprende estimar un valor reducido de ruido separado para cada estructura en la secuencia de estructuras. 10.- El método de acuerdo con la reivindicación 1, en donde estimar un valor para una respuesta de canal comprende estimar el valor para una estructura actual al pesar valores para la señal de sensor alternativa y la señal de micrófono de conducción de aire en la estructura actual de forma más pesada que los valores para la señal de sensor alternativa y la señal de micrófono de conducción de aire en una estructura previa. 11.- Un medio legible por computadora que tiene instrucciones ejecutables por computadora para realizar los pasos que comprenden: determinar una respuesta de canal para un sensor alternativo que utiliza una señal de sensor alternativa y una señal de micrófono de conducción de aire; y utilizar la respuesta de canal para estimar un valor de lenguaje limpio que utiliza al menos una porción de la señal de sensor alternativa. 12.- El medio legible por computadora de acuerdo con la reivindicación 11, en donde determinar una respuesta de canal comprende determinar una respuesta de canal individual para una secuencia de estructuras de la señal de sensor alternativa y la señal de micrófono de conducción de aire. 13.- El medio legible por computadora de acuerdo con la reivindicación 11, en donde la respuesta de canal comprende una respuesta de canal para una señal de lenguaje limpio. 14.- El medio legible por computadora de acuerdo con la reivindicación 13, que además comprende determinar una respuesta de canal para una señal de lenguaje de antecedente. 15.- El medio legible por computadora de acuerdo con la reivindicación 14, que además comprende utilizar la respuesta de canal a la señal de lenguaje de antecedente con la respuesta de canal para la señal de lenguaje limpia para estimar el valor de lenguaje limpio. 16.- El medio legible por computadora de acuerdo con la reivindicación 11, que además comprende utilizar el valor de lenguaje limpio para estimar un valor de lenguaje de antecedente. 1

7.- Un método para identificar una señal de'lenguaje limpia, el método que comprende: estimar parámetros de ruido que describen ruido en una señal de sensor alternativa; utilizar ios parámetros de ruido para estimar una respuesta de canal para un sensor alternativo; y utilizar la respuesta de canal para estimar un valor para la señal de lenguaje limpia. 1

8.- El método de acuerdo con la reivindicación 17, en donde estimar parámetros de ruido comprende utilizar la señal de sensor alternativa para identificar períodos cuando un usuario no está hablando. 1

9.- El método de acuerdo con la reivindicación 18, que además comprende realizar la detección de lenguaje en porciones de una señal de micrófono de conducción de aire asociada con los periodos cuando el usuario no está hablando para identificar periodos de no hablar y periodos de lenguaje de antecedente. 20.- El método de acuerdo con la reivindicación 19, que además comprende utilizar porciones de la señal de sensor alternativa asociada con los periodos de no hablar para estimar los parámetros de ruido. 21.- El método de acuerdo con la reivindicación 20, que además comprende utilizar los periodos de no hablar para estimar parámetros de ruido que describen ruido en la señal de micrófono de conducción de aire. 22.- El método de acuerdo con la reivindicación 20, que además comprende utilizar las porciones de la señal de sensor alternativa asociada con los períodos de lenguaje de antecedente para estimar una respuesta de canal para el lenguaje de antecedente. 23.- El método de acuerdo con la reivindicación 22, que además comprende utilizar la respuesta de canal para el lenguaje de antecedente para estimar el lenguaje limpio. 24.- El método de acuerdo con la reivindicación 17, que además comprende determinar un estimado de un valor de lenguaje de antecedente. 25.- El método de acuerdo con la reivindicación 24, en donde determinar un estimado de un valor de lenguaje de antecedente comprende utilizar el estimado del valor de lenguaje limpio para estimar el valor de lenguaje de antecedente. 26.- El método de acuerdo con la reivindicación 17, que además comprende utilizar un modelo anterior de la respuesta de canal para estimar el valor de lenguaje limpio.