MX2007015446A

MX2007015446A - Mejora de lenguaje multi-sensorial utilizando un modelo de estado de lenguaje.

Info

Publication number: MX2007015446A
Application number: MX2007015446A
Authority: MX
Inventors: James G Droppo; Zhengyou Zhang; Zicheng Liu; Alejandro Acero; Amarnag Subramanya
Original assignee: Microsoft Corp
Priority date: 2005-06-28
Filing date: 2006-06-13
Publication date: 2008-02-25
Also published as: RU2420813C2; EP1891624B1; KR20080019222A; ATE508454T1; DE602006021741D1; JP2009501940A; KR101224755B1; US20060293887A1; CN101606191A; WO2007001821A3; WO2007001821A2; CN101606191B; EP1891624A2; JP5452655B2; BRPI0612668A2; JP2012155339A; EP1891624A4; RU2007149546A; JP5000647B2; US7680656B2

Abstract

Se describen un metodo y aparato para determinar una probabilidad de un estado de lenguaje basandose en una senal de sensor alternativa y una senal de microfono de conduccion de aire. La probabilidad del estado de lenguaje se utiliza, junto con la senal de sensor alternativa y la senal de microfono de conduccion de aire, para estimar un valor de lenguaje limpio para una senal de lenguaje limpia.

Description

MEJORA DE LENGUAJE MU LTI-SENSORIAL UTILIZANDO UN MODELO DE ESTADO DE LENGUAJE ANTECEDENTES Un problema común en el reconocimiento de lenguaje y transmisión de lenguaje es la corrupción de la señal de lenguaje por el ruido aditivo. En particular, la corrupción debido al lenguaje de otra bocina ha probado ser difícil de detectar y/o corregir. Recientemente, se han desarrollado sistemas para intentar remover el ruido utilizando una combinación de un sensor alternativo, tal como un micrófono de conducción por hueso, y un micrófono de conducción por aire. Se han desarrollado varias técnicas que utilizan la señal de sensor alternativa y la señal de micrófono de conducción por aire para formar una señal de lenguaje mejorada que tiene menos ruido que la señal de micrófono de conducción por aire. Sin embargo, no se ha logrado un lenguaje perfectamente mejorado y se necesitan avaneces adicionales en la formación de señales de lenguaje, mejoradas.

BREVE DESCRIPCIÓN DE LA INVENCIÓN Un método y aparato determinan una probabilidad de un estado de lenguaje basándose en una señal de sensor alternativa y una señal de micrófono de conducción por aire. La probabilidad del estado de lenguaje se utiliza para estimar un valor de lenguaje limpio para una señal de lenguaje limpia.

BREVE DESCRIPCIÓN DE LOS DIBUJOS La Figura 1 es un diagrama de bloques de un ambiente de cómputo en el cual puede practicarse la presente invención. La Figura 2 es un diagrama de bloques de un ambiente de cómputo alternativo en el cual pueden practicarse modalidades de la presente invención. La Figura 3 es un diagrama de bloques de un sistema de procesamiento de lenguaje general de la presente invención. La Figura 4 es un diagrama de bloques de un sistema para mejorar el lenguaje bajo una modalidad de la presente invención. La Figura 5 es un modelo en el cual se basa una mejora de lenguaje bajo una modalidad de la presente invención. La Figura 6 es un diagrama de flujo para mejorar lenguaje bajo una modalidad de la presente invención.

DESCRIPCIÓN DETALLADA DE LAS MODALIDADES ILUSTRATIVAS La Figura 1 ilustra un ejemplo de un ambiente de sistema de cómputo adecuado 100 en el cual pueden implementarse las modalidades de la invención. El ambiente de sistema de cómputo 100 es solo un ejemplo de un ambiente de cómputo adecuado y no pretende sugerir ninguna limitación al alcance de uso o funcionalidad de la invención. El ambiente de cómputo 100 tampoco debe interpretarse como obteniendo ninguna dependencia o requerimiento que se relaciona con cualquiera o combinación de componentes ilustrados en el ambiente operativo ilustrativo 100. Las modalidades de la invención son operacionales con numerosos otros ambientes o configuraciones de sistemas de cómputo de propósito general o de propósito especial. Ejemplos de sistemas de cómputo bien conocidos, ambientes, y/o configuraciones que pueden hacer adecuados para uso con las modalidades de la invención incluyen, pero no se limitan a, computadoras personales, computadoras de servidor, dispositivos móviles o portátiles, sistemas de multiprocesador, sistemas a base de microprocesador, cajas de tv por cable, electrónica de consumidor programable, PCs de red, minicomputadoras, macrocomputadoras, sistemas de telefonía, ambientes de cómputo distribuido que incluyen cualquiera de los sistemas anteriores o dispositivos, y similares. Las modalidades de la invención pueden describirse en el contexto general de instrucciones ejecutables por computadora, tal como módulos de programa, que se ejecutan por una computadora. Generalmente, los módulos de programa incluyen rutinas, programas, objetos, componentes, estructuras de datos, etc. que realizan tareas particulares o implementan tipos de datos abstractos particulares. La invención se diseña para practicarse en ambientes de cómputo distribuidos en donde las tareas se realizan por dispositivos de procesamiento remotos que se enlazan a través de una red de comunicaciones. En un ambiente de cómputo distribuido, los módulos de programa se localizan tanto en medios de almacenamiento de computadora local y remota que incluyen dispositivos de almacenamiento de memoria. Con referencia a la Figura 1, un sistema ilustrativo para implementar la invención incluye un dispositivo de cómputo de propósito general en la forma de una computadora 110. Los componentes de la computadora 110 pueden incluir, pero no se limitan a, una unidad de procesamiento 120, una memoria de sistema 130, y un conductor común de sistema 121 que acopla varios componentes de sistema que incluyen la memoria de sistema a la unidad de procesamiento 120. El conductor común de sistema 121 puede ser cualquiera de varios tipos de estructuras de conductor común que incluyen un conductor común de memoria o controlador de memoria, un conductor común periférico, y un conductor común local que utiliza cualquiera de una variedad de arquitecturas de conductor común. A manera de ejemplo, y no de limitación, tales arquitecturas incluyen conductor común de Arquitectura de Estándar de Industria (ISA), Conductor Común de Arquitectura de MIcrocanal (MCA), Conductor común de de ISA mejorado (EISA), Conductor común Local de Asociación de Estándares Electrónicos de Video (VESA), y conductor común de Interconexión de componente Periférico (PCI) también conocido como conductor común de mezanine. La computadora 10 típicamente incluye una variedad dé medios legibles por computadora. Los medios legibles por computadora pueden ser cualquier medio disponible que puede accederse por la computadora 110 y que incluye tanto medios volátiles como no volátiles, medios removibles y no removibles. A manear de ejemplo, y no de limitación, los medios legibles por computadora pueden comprender medios de almacenamiento de computadora y medios de comunicación. Los medios de almacenamiento por computadora incluyen tanto medios volátiles y no volátiles, removibles y no removibles ¡mplementados en cualquier método y tecnología para almacenamiento de información tal como instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos. Los medios de almacenamiento de computadora incluyen, pero no se limitan a, RAM, ROM, EEPROM, memoria flash u otra tecnología de memoria, CD-ROM, discos versátiles digitales (DVD) u otro almacenamiento de disco óptico, cassettes magnéticos, cinta magnética, almacenamiento de disco magnético u otros dispositivos de almacenamiento magnético, o cualquier otro medio que puede utilizarse para almacenar la información deseada y que puede accederse por la computadora 110. Los medios de comunicación típicamente representan instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos en una señal de datos modulada tal como una onda portadora u otro mecanismo de transporte e incluye cualquier medio de entrega de información. El término "señal de datos modulada" significa una señal que tiene una o más características establecidas o cambiadas de tal forma para codificar información en la señal. A manera de ejemplo, y no de limitación, los medios de comunicación incluyen medios por cable tal como red por cable o conexión por cable directa, y medios inalámbricos tal como medios acústicos, . RF infrarrojos y otros medios inalámbricos. Las combinaciones de cualquiera de los anteriores también deben incluirse dentro del alcance de medios legibles por computadora. La memoria de sistema 130 incluye medios de almacenamiento de computadora en la forma de memoria volátil y/o no volátil tal como memoria solo de lectura (ROM) 131 y memoria de acceso aleatorio (RAM) 132. El sistema de entrada/salida básico 133 (BIOS), que contiene las rutinas básicas que ayudan a transferir información entre elementos de la computadora 110, tal como durante el arranque, típicamente se almacena en ROM 131. La RAM 132 típicamente contiene datos y/o módulos de programa que son inmediatamente accesibles a y/o actualmente están siendo operados por la unidad de procesamiento 120. A manear de ejemplo, y no de limitación, la Figura 1 ilustra el sistema operativo 134, programas de aplicación 135, otros módulos de programa 136, y datos de programa 137. Lá computadora 110 también puede incluir otros medios de almacenamiento de computadora removibles/no removibles volátiles/no volátiles. A manera de ejemplo solamente, la Figura 1 ¡lustra una unidad de disco duro 141 que lee de o escribe a medios magnéticos no removibles, no volátiles, una unidad de disco magnético 151 que lee de o escribe a un disco magnético removible, no volátil 152, y una unidad de disco óptico 155 que lee de o escribe a un disco óptico removible, no volátil 156 tal como un CD ROM u otro medio óptico. Otros medios de almacenamiento de computadora removibles/no removibles, volátiles/no volátiles que pueden utilizarse en el ambiente operativo ilustrativo incluyen, pero no se limitan a, cassettes de cinta magnética, tarjetas de memoria flash, discos versátiles digitales, cinta de video digital, RAM de estado sólido, ROM de estado de sólido, y similares. La unidad de disco duro 141 típicamente se conecta al conductor común de sistema 121 a través de una interfase de memoria no removible tal como interfase 140, y unidad de disco magnético 151 y unidad de disco óptico 155 típicamente se conectan al conductor común de sistema 121 a través de una interfase de memoria removible, tal como interfase 150. Las unidades y sus medios de almacenamiento de computadora asociados discutidos anteriormente e ilustrados en la Figura 1, proporcionan almacenamiento de instrucciones legibles por computadora, estructuras de datos, módulos de programa y otros datos para la computadora 110. En la Figura 1, por ejemplo, la unidad de disco duro 141 se ilustra como almacenando el sistema operativo 144, programas de aplicación 145, otros módulos de programa 146, y datos de programa 147. Se debe notar que estos componentes pueden ser los mismos que o diferentes al sistema operativo 134, programas de aplicación 135, otros módulos de programa 136, y datos de programa 137. El sistema operativo 144, programas de aplicación 145, otros módulos de programa 146, y datos de programa 147 aquí se les proporcionan números diferentes para ilustrar que, en un mínimo, son copias diferentes. Un usuario puede ingresar comandos de información en la computadora 110 a través de dispositivos de entrada tal como teclado 162, un micrófono 163, y un dispositivo de señalamiento 161, tal como un ratón, seguíbola o almohadilla sensible al tacto. Otros dispositivos de entrada (no mostrados) pueden incluir una palanca de mandos, almohadilla de juegos, antena parabólica, escáner, o similares. Estos y otros dispositivos de entrada frecuentemente se conectan a la unidad de procesamiento 120 a través de una interfase de entrada de usuario 160 que se acopla al conductor común de sistema, pero puede conectarse por otra interfase y estructuras de conductor común, tal como un puerto paralelo, o puerto de juegos o un conductor común en serie universal (USB). Un monitor 191 u otro tipo de dispositivo de presentación también se conecta al conductor común de sistema 121 a través de una interfase, tal como una interfase de video 190. Además del monitor, las computadoras también pueden ¡ncluir otros dispositivos de salida periféricos tal como bocinas 197 e impresoras 196, que pueden conectarse a través de una ¡nterfase periférica de salida 195. La computadora 110 se opera en un ambiente en red que utiliza conexiones lógicas a una o más computadoras remotas, tal como una computadora remota 180. La computadora remota 180 puede ser una computadora personal, un dispositivo portátil, un servido, un enrutador una PC de red, un dispositivo par u otro nodo de red común, y típicamente incluye muchos o todos los elementos descritos anteriormente relativos a la computadora 110. Las conexiones lógicas ilustradas en la Figura 1 incluyen una red de área local (LAN) 171 y una red de área ancha (WAN) 173, pero también pueden incluir otras redes. Tales ambientes en red están comúnmente ubicados en oficinas, redes de computadora de empresa, intranets e Internet. Cuando se utiliza en un ambiente en red de LAN, la computadora 1 i 0 se conecta a la LAN 171 a través de una ¡nterfase de red o adaptador 170. Cuando se utiliza en un ambiente en red de WAN, la computadora 110 típicamente incluye un modem 172 u otro medio para establecer comunicaciones en la WAN 173, tal como Internet. El módem 172, que puede ser interno o externo, puede conectarse a conductor común de sistema 121 a través de la interfase de entrada de usuario 160, u otro mecanismo apropiado. En un ambiente en red, los módulos de programa ilustrados relativos a la computadora 110, o porciones de la misma, pueden almacenarse en el dispositivo de almacenamiento de memoria remota. A manera de ejemplo, y no de limitación, la Figura 1 ilustra programas de aplicación remotos 185 como residentes en la computadora remota 180. Se apreciará que las conexiones en red mostradas son ilustrativas y pueden utilizarse otros medios para establecer un enlace de comunicaciones entre las computadoras. La Figura 2 es un diagrama de bloques de un dispositivo móvil 200, que es un ambiente de cómputo ilustrativo. El dispositivo móvil 200 incluye un microprocesador 202, memoria 204, componentes de entrada/salida (l/O) 206, una interfase de comunicación 208 para comunicarse con computadoras remotas u otros dispositivos móviles. En una modalidad, los componentes mencionados se acoplan para comunicación con otro en un conductor común adecuado 210. La memoria 204 se implementa como memoria electrónica no volátil tal como memoria de acceso aleatoria (RAM) con un módulo de recuperación de batería (no mostrado), para que la información almacenada en la memoria 204 no se pierda cuando la energía general para el dispositivo móvil 200 se cierre. Una porción de la memoria 204 preferiblemente se distribuye como memoria dirigible para ejecución de programa, mientras otra porción de la memoria 204 preferiblemente se utiliza para almacenamiento, tal como para simular almacenamiento en una unidad de disco. La memoria 204 incluye un sistema operativo 212, programas de aplicación 214 asi como un almacenamiento de objeto 216. Durante la operación, el sistema operativo 212 preferiblemente se ejecuta por el procesador 202 desde la, memoria 204. El sistema operativo 212, en una modalidad preferida, es un sistema operativo de marca WINDOWS® CE comercialmente disponible de Microsoft Corporation. El sistema operativo 212 preferiblemente se diseña para dispositivos móviles, e implementa características de base de datos que pueden utilizarse por aplicaciones 214 a través de un grupo de interfases de programación de aplicación expuestas y métodos. Los objetos en el almacenamiento de objeto 216 se mantienen por aplicaciones 214 y el sistema operativo 212, al menos parcialmente en respuesta a llamadas a las interfases y métodos de programación de aplicación expuestas. La interfase de comunicación 208 representa numerosos dispositivos y tecnologías que permiten al dispositivo móvil 200 enviar y recibir información. Los dispositivos incluyen módems por cable e inalámbricos, receptores por satélite y sintonizadores de difusión por nombrar algunos. El dispositivo móvil 200 también puede conectarse directamente a una computadora para intercambiar datos con ella. En tales casos, la interfase de comunicación 208 puede ser un transceptor infrarrojo o una conexión de comunicación en serie o paralela, todos de los cuales son capaces de transmitir información e corriente. Los componentes de entrada/salida 206 incluyen una variedad de dispositivos de entrada tal como una pantalla sensible al tacto, botones, rodillos, y un micrófono así como una variedad de • dispositivos de salida que ¡ncluyen un generador de audio, un dispositivo de vibración, y una pantalla. Los dispositivos enlistados anteriormente son a manera de ejemplo no todos están presentes en el dispositivo móvil 200. Además, otros dispositivos de entrada/salida puede unirse a o encontrarse con el dispositivo móvil 200 dentro del alcance de la presente invención. La Figura 3 proporciona un diagrama de bloques básico de las modalidades de la presente invención. En la Figura 3, una bocina 300 genera una señal de lenguaje 302 (X) que se detecta por un micrófono de conducción de aire 304 y un sensor alternativo 306. Ejemplos de sensores alternativos ¡ncluyen un micrófono de garganta que mide las vibraciones de la garganta del usuario, un sensor de conducción de hueso que se localiza en o adyacente a un hueso vaciado del cráneo del usuario (tal como el hueso de la mandíbula) o en el oído del usuario que percibe vibraciones del cráneo y la mandíbula que corresponden al lenguaje generado por el usuario. El micrófono de conducción de aire 304 es el tipo de micrófono que se utiliza comúnmente para convertir ondas de aire de audio en señales eléctricas. El micrófono de conducción de aire 304 recibe ruido ambiental 308. (V) generado por una o más fuentes de ruido 310 y genera su propio ruido de sensor 305 (U). Dependiendo del tipo de ruido ambiental y el nivel de ruido ambiental, ruido ambiental 308 puede detectarse por el sensor alternativo 306. Sin embargo, bajo las modalidades de la presente invención, el sensor alternativo 306 típicamente es menos sensible al ruido ambiental el micrófono de conducción de aire 304. De esa forma, la señal de sensor alternativa 316 (B) generada por el sensor alternativo 306 generalmente incluye menos ruido que la señal de micrófono de conducción de aire 318 (Y) generada por el micrófono de conducción de aire 304. Aunque el sensor alternativo 306 es menos sensible al ruido ambiental, genera el mismo ruido de sensor 320 (W). La ruta de la bocina 300 a la señal de sensor alternativa 316 puede moldearse como un canal que tiene una respuesta de canal H. la ruta de ruido ambiental 308 a la señal de sensor alternativa 316 puede moldearse como un canal que tiene una respuesta de canal G. La señal de sensor alternativa 316 (B) y la señal de micrófono de conducción de aire 318 (Y) se proporcionan a un estimado de señal limpia 322, que estima un señal limpia 324. El estimado de señal limpia 324 se proporciona un procedimiento de lenguaje 328. El estimado de señal limpio 324 puede ser una señal de dominio de tiempo o un vector de Transformación de Fourier. Si el estimador de señal limpia 324 es una señal de dominio de tiempo, el procedimiento de lenguaje 328 puede tomar la forma de un oyente, un sistema de codificación de lenguaje, o un sistema de reconocimiento de lenguaje. Si un estimado de señal limpia 324 es un vector de Transformación de Fourier, el procedimiento de lenguaje 328 típicamente será un sistema de reconocimiento de lenguaje, o contendrá una transformación de Fourier Inversa para convertir el vector de Transformación de Fourier en formas de ondas. Dentro del estimador de señal limpia 322, la señal de sensor alternativa 316 y la señal de micrófono 318 se convierten en el dominio de frecuencia que se utiliza para estimar el lenguaje limpio. Como se muestra en la Figura 4, la señal de sensor alternativa 316 y la señal de micrófono de conducción de aire 318 se proporcionan a convertidores analógicos a digitales 404 y 414, respectivamente, para generar una secuencia de valores digitales, que se agrupan en marcos de valores por constructores de marco 406 y 416, respectivamente. En una modalidad, los convertidores A-a-D 404 y 414 muestrean las señales analógicas en 16 kHz y 16 bits por muestra, por lo cual crean 32 kilobytes de datos de lenguaje por segundo y constructoras de marco 406 y 416 crean un nuevo marco respectivo cada 10 milisegundos que incluyen valor de 20 milisegundos de datos. Cada marco respectivo de datos proporcionado por los constructores de marco 406 y 416 se convierten en el dominio de frecuencia que utilizan las Transformaciones de Fourier rápidas (FFT) 408 y 418, respectivamente. Los valores de de dominio de frecuencia para la señal de sensor alternativa y la señal de micrófono de conducción de aire se proporcionan al estimado de señal limpia 420, que utiliza los' valores de dominio de frecuencia para estimar señal de lenguaje limpia 324.

Bajo algunas modalidades, la señal de lenguaje limpio 324 se convierte de nuevo al dominio de tiempo que utiliza Transformaciones de Fourier rápidas inversas 422. Esto crea una versión de dominio de tiempo de señal de lenguaje limpia 324. La presente invención incluye un modelo del sistema de la Figura 3 que incluye estados de lenguaje para el lenguaje limpio con el fin de producir una señal de lenguaje mejorada. La Figura 5 proporciona una representación gráfica del modelo. En el modelo de la Figura 5, el lenguaje limpio 500 depende del estado de lenguaje 502. La señal de micrófono de conducción 504 es dependiente del ruido del sensor 506, ruido ambiental 508 y señal de lenguaje limpia 500. La señal de sensor alternativa 510 depende del nodo de sensor 512, señal de lenguaje limpia 500 mientras pasa a través de una respuesta de canal 514 y ruido ambiental 508 mientras pasa a través de una respuesta de canal 516. El modelo de la Figura 5 se utiliza bajo la presente invención para estimar una señal de lenguaje limpia Xt de observaciones ruidosas Yt y Bt e identifica la probabilidad de una pluralidad de estados de lenguaje St. Bajo una modalidad de la presente invención, el estimado de señal de lenguaje limpio y las probabilidades de los estados para el estimado de señal de lenguaje limpio se forman al asumir primero distribuciones Gausianas para los componentes de ruido en el modelo de sistema. De esa forma: V~N(0,g2s2, EC. 1 U~N(0,s2u) EC. 2 W-N(0,s2w) EC. 3 en donde cada componente de ruido se modela como un Gausiana medio cero que tiene variaciones respectivas g2s2v, s2u, y s2w V es el ruido ambiental, U es ruido de sensor en el micrófono de conducción de aire, y W es el ruido de sensor en el sensor alternativo. En la ecuación 1, g es un parámetro de sintonización que permite la variación del ruido ambiental para sintonizarse. Además, esta modalidad de la presente invención modela la probabilidad de una señal de lenguaje o limpia dad a un estado como un Gausiano medio cero con una variación s2s de manera que: EC. 4 Bajo una modalidad de la presente invención, la probabilidad previa en un estado dado se asume para ser la probabilidad uniforma para que y todos los estados sean igualmente probables. Específicamente, la probabilidad previa se define como: N. EC. 5 en donde Ns es el número de estados de lenguaje disponibles en el modelo. En la descripción de las ecuaciones posteriores para determinar el estimado de la señal de lenguaje limpia y la probabilidad de los estados de lenguaje, programas variables se modelan en el dominio espectral completo. Cada componente de frecuencia (Bin) se trata independientemente de los otros componentes de frecuencia. Para facilidad de notación, el método se describe posteriormente para un componente de frecuencia individual. Aquellos expertos en la técnica reconocerán que los cálculos se realizan para cada componente de frecuencia en la versión espectral de las versiones de entrada. Para variables que varían con el tiempo, se agrega una a la variable. Para estimar la señal de lenguaje limpia Xt de las observaciones ruidosas Yt y Bt, la presente invención maximiza la probabilidad condicional p(Xt|Yt,Bt), que es la probabilidad de la señal de lenguaje limpia dada a la señal de micrófono de conducción de aire ambiental y la señal de sensor alternativa ruidosa. Ya que el estimado de la señal de lenguaje limpia depende del estado de lenguaje St bajo el modelo, esta probabilidad condicional se determina como: en donde {S} denota el grupo de estado de entre los estados de lenguaje, p(Xt|Yt,B,,St = s) es la probabilidad de Xt dadas las observaciones ruidosas actuales y el estado de lenguaje s, y p(St = s|Yt,Bt) es la probabilidad del estado de lenguaje s dadas las observaciones ruidosas. Cualquier número de estado de diálogos posibles pueden utilizarse bajo la presente invención, incluyendo estados de lenguaje para sonidos con voz, fricativos, sonidos nasales y sonidos de vocales. En algunas modalidades, el estado de lenguaje separado se proporciona para cada grupo de unidades fonéticas, tal como fonemas. Bajo una modalidad, sin embargo, solo se proporcionan dos estados de lenguaje, uno para lenguaje y uno para no lenguaje. Bajo algunas modalidades, un estado individual se utiliza para todos los componentes de frecuencia. Por lo tanto, cada marco tiene un estado de lenguaje individual variable. Los términos en el lado derecho de la ecuación 6 pueden calcularse como: p{Xt\Y,.B S,^s)^X^B'tS' -s)*p{X.,Y„B,.S, =s) p(Yl,Bl,Sl^S) EC. 7 p(S, =s \Y„B,) = ÍÍÍU ii)^^ [p(X„Y„B„S, = S)dX P(Y,?) EC 8 que indican que la probabilidad condicional de la señal de lenguaje limpia dadas las observaciones puede estimarse por la probabilidad de unión de la señal de lenguaje limpia, las observaciones y el estado y la probabilidad condicional del estado dadas las observaciones pueden aproximarse al integrar la probabilidad de unión de la señal de lenguaje limpia, las observaciones y el estado en todos los valores de lenguaje limpios posibles. Al utilizar las suposiciones Gausianas para leer distribuciones del ruido discutido anteriormente en las ecuaciones 1-3, la probabilidad de unión de la señal de lenguaje limpia, las observaciones y el estado pueden calcularse como: P{X„S„Y„B,) en donde p(Xt | S, = s) = N(Xt;0,s2s), p(St) es la probabilidad previa del estado que se da por la distribución de probabilidad uniforme en la Ecuación 5, G es la respuesta del canal del sensor alternativo al ruido ambiental, H si la respuesta de canal de la señal de sensor alternativa a la señal de lenguaje limpia, y términos complejos entre barras verticales tal como, |G|, indican la magnitud del valor complejo. La respuesta del canal del sensor alternativo G para lenguaje de fondo se estima para las señales del micrófono de aire Y y del sensor alternativo B a través de los últimos marcos D en los cuales el usuario no habla. Específicamente, G se determina como: en donde D es el número de marcos en el cual el usuario no habla pero al lenguaje de fondo. Aquí, asumimos que G es constante a través de todos los marcos de tiempo D. En otras modalidades, antes de utilizar todos los marcos D igualmente, utilizamos una técnica conocida como "envejecimiento exponencial" para que los últimos marcos contribuyan más al estimado de G que los marcos antiguos. Las respuestas de canal de sensor alternativo H para la señal de lenguaje limpia se estima de las señales del micrófono de aire Y y del sensor alternativo B a través de los últimos marcos T en los cuales sale el usuario. Significativamente, H se determina como: en donde T es el número de marcos en los cuales al usuario habla. Aquí, asumimos que H es constante a través de todos los marcos de tiempo T. en otras modalidades, en lugar de utilizar todos los marcos T igualmente como utilizamos una técnica conocida como "envejecimiento exponencial" para que los marcos más recientes contribuyan más al estimado de H que los marcos más antiguos. La probabilidad convencional del estado p(St = s|Yt,B,) se calcula al utilizar la aproximación de la ecuación 8 y cálculo de probabilidad de unión de la ecuación 9 como: p(S, | Y„B,) ¡N(Y?;X„st+g*s)- que puede simplificarse como: P(S,\Y„B,)* EC. 13 " s) + gsl + sl " sJ + g ? su+gs <?+s.+gs, N(Y,;Q,s]+sl+g v)p(S,) Una observación cercana en la Ecuación 13 revela que el primer término en algún sentido moldea la correlación entre canales de usuario alternativo y el canal de micrófono de conducción mientras el segundo término hace uso del modelo de estado y el modelo de ruido para explicar la observación en el canal de micrófono de aire. El tercer término simplemente es previo a| estado, que bajo una modalidad es una distribución uniforme. La probabilidad del estado dada la observación como se calcula en la ecuación 13 tiene dos aplicaciones posibles. Primero, puede utilizarse para construir un clasificador mezclado de lenguaje, que puede utilizarse para clasificar las observaciones al incluir lenguaje o al no incluir lenguaje, las variaciones de las fuentes de ruido que pueden determinarse de marco que no incluyen lenguaje. También se utiliza para proporcionar un peso "suave" cuando se estima la señal de lenguaje limpia como se mostrará posteriormente. Como se notó anteriormente, cada una de las variables en las ecuaciones anteriores se define para un componente de frecuencia particular en el dominio espectral complejo. De esa forma, la probabilidad de la Ecuación 13 es para un estado asociado con un componente de frecuencia particular. Sin embargo, ya que existe solo un estado individual disponible para cada marco, la probabilidad de un estado para un marco se forma al agregar la probabilidad a través de los componentes de frecuencia como sigue: en donde L(St(/)) = p(S,(/))|Yt(/),Bt(/)) es la probabilidad para el componente de frecuencia f como se definió en la ecuación 13. El producto se determina en todos los componentes de frecuencia excepto en las frecuencias DC y Nyquist. Se debe notar que si el cálculo de probabilidad se lleva a cabo en el dominio de probabilidad de logaritmo, entonces el producto en la ecuación anterior se reemplaza con una suma. La probabilidad anterior puede utilizarse para incluir un clasificador de lenguaje/no lenguaje, basándose en una prueba de relación de probabilidad para que: L(S, = lenguaje) r = log- - - L(S, => no-lenguaje) c ° - ' ° en donde un marco se considera para contener lenguaje si la relación r es mayor que 0 y se considera que no contiene lenguaje de otra forma. Al utilizar la probabilidad de los estados de lenguaje, un estimado de la señal de lenguaje limpia puede formarse. Bajo una modalidad, este estimado se forma al utilizar un estimado de cuadrado de medio mínimo (MMSE) basándose en la ecuación 6 para que: en donde E(Xt|Yt,Bt) es la excepción de la señal de lenguaje limpia dada la observación, y E(Xt|Yt,Bt,St = s) es la expectación de la señal de lenguaje limpia dada las observaciones y el estado de lenguaje. Al utilizar las ecuaciones 7 y 9, la probabilidad condicional p(X,|Yt,Bt,St=s) de la cual la expectación E(Xt|Yt,Bt,St=s) puede calcularse se determina como: p(X, \r„B„S,< s)«. N(Y,;X„su2^g sv)- s„2+ 2s? s„2+g 2 EC. 17 N{X,$,ss)PÍ.Sl =í) Esto produce una expectación de: EC.18 en donde M- = /*/- * ? EC. 20 s¡.+g2s,2 y M* es el conjugado complejo de M. De esa forma, el estimado de MMSE de la señal de lenguaje limpia X se da por: X, ?píE(Xl\YBl>Sl^¡') ..a(S) EC. 21 en donde ps es el posterior en el estado y se da por: L(S,=s) p, -• EC. 22 en donde L(St = s) se da por la ecuación 14. De esa forma, el estimado de la señal de lenguaje limpia se basa en parte en la probabilidad relativa de un estado de lenguaje particular y esta probabilidad relativa proporciona un peso suave para el estimado de la señal de lenguaje limpio. En los cálculos anteriores, se asume que H se conoce con fuerte precisión. Sin embargo, en la práctica, H solo es conocido con precisión limitada. Bajo una modalidad adicional de la presente invención, H se modela como una variable aleatoria Gausiana N(H;H0,sH2). Bajo tal modalidad, todos los cálculos anteriores se marginalizan en todos los valores posibles de H. Sin embargo, esto hace a las matemáticas inflexibles. Bajo una modalidad, un procedimiento interactivo se utiliza para superar esta inflexibilidad. Durante cada interacción, H se reemplazan ecuaciones 13 y 20 con Ho y s2w se reemplaza con en donde X, , es un estimado de la señal de lenguaje limpia determinada de una interacción previa. La señal de lenguaje limpia entonces se estima al utiliza la ecuación 21. Este nuevo estimado de la señal de lenguaje limpia entonces establece como nuevo valor de X, , y se realiza la siguiente interacción. Las interacciones terminan cuando el estimado de lenguaje limpia se vuelve estable. La Figura 6 proporciona un método para estimar una señal de lenguaje limpia que utiliza las ecuaciones anteriores. En el paso 600, los marcos de una pronunciación de entrada se identifican en donde el usuario no habla. Estos marcos entonces se utilizan para determinar la variación para el ruido ambiental s2v, la variación para el ruido de sensor alternativo s2w, y la variación para el ruido de micrófono de conducción de aire s2u. Para identificar marcos en donde el usuario no habla, la señal de sensor alternativa puede examinarse. Ya que la señal de sensor alternativo producirá valores de señal mucho más pequeños para lenguaje de fondo que para ruido, cuando la energía de la señal de sensor alternativa es baja, inicialmente puede asumirse que el locutor no habla. Los valores de la señal de micrófono de conducción de aire y la señal de sensor alternativo para marcos que no contiene diálogos se almacenan en una memoria intermedia que utilizan para calcular variaciones del ruido como: *?-- - ?\Y,\2 JV„ alltelf EC. 23 ¿l=~ ?IS.I2 Nv aiitev EC. 24 en donde Nv es el número de marcos de ruido en la pronunciación que se utiliza para formar las variaciones, V es el grupo de marcos de ruido en donde el usuario no habla, y B't se refiere a la señal de sensor alternativa después de que ha sido representada, que se calcula como: B't=Bt-GYt EC. 25 que, en algunas modalidades se calcula alternativamente como: *;=«-& EC. 26 Bajo algunas modalidades, la técnica de identificar marcos de no lenguaje basándose en niveles de energía inferior en la señal de sensor alternativa solo se realiza durante los marcos iniciales de entrenamiento. Después que se formaron valores iniciales para las variaciones de ruido, puede utilizarse para determinar que marcos contienen lenguaje y que marcos no contiene lenguaje al utilizar la relación de probabilidad de la ecuación 15. El valor de g, que s un parámetro de sintonización que puede utilizarse para amentar o disminuir la variación estimada s2v, se establece a 1 bajo una modalidad particular. Esto sugiere confianza completa en el procedimiento de estimado de ruido. Diferentes valores de g pueden utilizarse bajo diferentes modalidades de la presente invención. La variación del ruido para el micrófono de conducción de aire, s2u, se estima basándose en la observación que el micrófono de conducción de aire es menos propenso a ruido de sensor que el sensor alternativo. Como tal, la variación del micrófono de conducción de aire puede calcularse como: EC. 27 En el paso 602, la variación del lenguaje s2s se estima al utilizar un filtro de supresión de ruido con suavización temporal. El filtro de supresión es una generalización de substracción espectral. Específicamente, la variación de lenguaje se calcula como: en donde K V-oQrlY2 '/ Qrl<V(a+ß) EC. 29 [ßQ Y de otra manera con s„ Q- EC. 30 \T, en donde x¡-\ es el estimado de lenguaje limpio del marco precedente, t es un factor de suavización que en algunas modalidades se establece con .2, a controla la extensión de reducción de ruido para que si a>1 se reduzca más ruido en extensión de distorsión de lenguaje en aumento, y ß da el piso de ruido mínimo y proporciona un ruido medio para agregar ruido de fondo para enmascarar el ruido musical residual perseguido. Bajo algunas modalidades, ? 1 =2 y ?2 = 1/2. En algunas modalidades, ß se establece igual a 0.01 para reducción de ruido de 20 dB para marcos de ruido puro. De esa forma, en la ecuación 28, la variación se determina como una suma pesada de la señal de lenguaje limpia estimada del marco precedente y la energía de micrófono de conducción de aire filtrada por el filtro'de supresión de ruido en Ks. Bajo algunas modalidades, a se elige de acuerdo con una señal para la relación de ruido y un principio de enmascarado que se mostró la misma cantidad de ruido en una banda de energía de banda superior tiene un impacto más pequeño en percepción que en una banda de energía de lenguaje inferior y la presencia de energía de lenguaje superior en una frecuencia reducirá la percepción de ruido en una banda de frecuencia adyacente. Bajo esta modalidad, a se elige como: en donde SNR es la relación de señal a ruido en decibeles (dB), B es el nivel de relación de señal a'ruido deseado sobre el cual no debe realizarse la reducción de ruido y a0 es la cantidad de ruido que debe removerse en un valor de relación de señal a ruido de 0. Bajo algunas modalidades, B se establece igual a 20 dB. Al utilizar una definición de señal a relación de ruido de: el filtro de supresión de ruido de la ecuación 29 se vuelve: ? (l-a0l-SNR/B)/(l + lOm'>0)]U2 if Q2<\l +ß) £C 33 l[/3g ]"/2 de otra manera Este filtro de supresión de ruido proporciona supresión de ruido débil para relaciones de señal a ruido positivas .y supresión de ruido más fuerte para relaciones de señal a ruido negativas. De hecho, para relaciones de señal a ruido suficientemente negativas, toda la señal observada y el ruido se remueven y la única señal presente es un piso de ruido que se agrega de nuevo por la ramificación "de otra manera" del filtro de supresión de ruido de la ecuación 33. Bajo algunas modalidades, a0 se hace dependiente de frecuencia para que cantidades diferentes de ruido se remuevan en diferentes frecuencias. Bajo una modalidad, esta dependencia de frecuencia se forma al utilizar una interpolación lineal entre a0 a 30Hz y a0 a 8kHz para que: a0( )= aom,putos + (aoma?-a?m?n)k/225 EC. 34 en donde k es la cuenta del componente de frecuencia, s0m?n es el valor de a0 deseado en 30Hz, a0ma? es el a0 deseado a 8kHz y se asume que existen 256 componentes de frecuencia. Después que la variación de dialogo se determino en el paso 602, las variaciones se utilizan para determinar la probabilidad de cada estado de lenguaje en el paso 604 al utilizar ecuaciones 13 y 14 anteriores. La probabilidad de los estados de lenguaje entonces se utiliza en el paso 606 para determinar un estimado de lenguaje limpio para el marco actual. Como se notó anteriormente, en modalidades en las cuales se utiliza una distribución Gausiana para representar H, los pasos 604 y 606 se repiten al utilizar el último estimado de la señal de lenguaje limpia en cada repetición y al utilizar los cambios a las ecuaciones discutidas anteriormente para acomodar el modelo Gausiano para H. Aunque la presente invención se describió con referencia a modalidades particulares, los expertos en la técnica reconocerán que pueden hacerse cambios en la forma y detalles sin apartarse del espíritu y alcance de la invención.

Claims

REIVINDICACIONES

1.- Un método para determinar un estimado para un valor reducido de ruido que representa una porción de señal de lenguaje reducida de ruido, el método comprende: generar una señal de sensor alternativa utilizando un sensor alternativo; generar una señal de micrófono de conducción de aire; utilizar la señal de sensor alternativa y la señal de micrófono de conducción de aire para estimar una probabilidad de un estado de lenguaje; y utilizar la probabilidad del estado de lenguaje para estimar el valor reducido de ruido.

2.- El método de acuerdo con la reivindicación 1, en donde utilizar la probabilidad del estado de lenguaje para estimar el valor reducido de ruido comprende utilizar la probabilidad del estado de lenguaje y un valor de expectación para el valor reducido de ruido para estimar el valor reducido de ruido.

3.- El método de acuerdo con la reivindicación 2, en donde el valor de expectación para el valor reducido de ruido se basa en la señal de sensor alternativa y la señal de micrófono de conducción de aire.

4.- El método de acuerdo con la reivindicación 1, en donde estimar una probabilidad de un estado de lenguaje comprende estimar una probabilidad separada para cada uno de una pluralidad de estados de lenguaje y en donde utilizar la probabilidad del estado de lenguaje para estimar el valor reducido de ruido comprende utilizar las probabilidades para cada estado de lenguaje en la pluralidad de estados de lenguaje.

5.- El método de acuerdo con la reivindicación 4, en donde utilizar las probabilidades para cada estado de lenguaje en la pluralidad de estados de lenguaje comprende utilizar las probabilidades para cada estado de lenguaje para valores de expectación de peso para el valor reducido de ruido.

6.- El método de acuerdo con la reivindicación 1, en donde estimar una probabilidad de un estado de lenguaje comprende estimar un componente de probabilidad separada para cada uno de un grupo de componentes de frecuencia y combinar los componentes de probabilidad para formar el estimado de probabilidad del estado de lenguaje.

7.- El método de acuerdo con la reivindicación 1, que además comprende utilizar el estimado de la probabilidad de un estado de lenguaje para determinar si un marco de la señal de micrófono de conducción de aire contiene lenguaje.

8.- El método de acuerdo con la reivindicación 7, que además comprende utilizar un marco de la señal de micrófono de conducción de aire que se determina para no contener el lenguaje para determinar una variación para una fuente de ruido y utilizar la variación para la fuente de ruido para estimar el valor reducido de ruido.

9.- El método de acuerdo con la reivindicación 1, que además comprende modelar una probabilidad de un valor reducido de ruido dando un estado como una distribución que contiene una variación.

10.- El método de acuerdo con la reivindicación 9, que además comprende estimar la variación de la distribución como una combinación lineal de un estimado de un valor reducido de ruido para un marco precedente y una versión filtrada de la señal de micrófono de conducción de aire para un marco actual.

11.- El método de acuerdo con la reivindicación 10, en donde la versión filtrada de la señal de micrófono de conducción se forma al utilizar un filtro que es dependiente de frecuencia.

12.- El método de acuerdo con la reivindicación 10, en donde la versión filtrada de la señal de micrófono de conducción de aire se forma al utilizar un filtro que es dependiente en una relación de señal a ruido.

13.- El método de acuerdo con la reivindicación 1, que además comprende realizar una repetición utilizando el estimado del valor reducido de ruido para formar un nuevo estimado del valor reducido de ruido.

14.- Un medio legible por computadora que tiene instrucciones ejecutables por computadora para realizar los pasos que comprenden: determinar una probabilidad de un estado de lenguaje basándose en una señal de sensor alternativa y una señal de micrófono de conducción de aire; y utilizar la probabilidad del estado de lenguaje para estimar un valor de lenguaje limpio.

15.- El medio legible por computadora de acuerdo con la reivindicación 14, en donde la utilización de la probabilidad del estado de lenguaje para estimar un valor de lenguaje limpio comprende cargar un valor de expectación.

16.- El medio legible por computadora de acuerdo con la reivindicación 14, en donde la utilización de la probabilidad del estado de lenguaje para estimar un valor de lenguaje limpio comprende: utilizar la probabilidad del estado de lenguaje para identificar un marco de una señal como un marco de no lenguaje; utilizar el marco de no lenguaje para estimar una variación para un código; y utilizar la variación para el ruido para estimar el valor de lenguaje limpio.

17.- El medio legible por computadora de acuerdo con la reivindicación 14, en donde estimar una probabilidad para un estado de lenguaje comprende estimar una probabilidad separada para cada uno de una pluralidad de componentes de frecuencia, y combinar las probabilidades separadas para formar la probabilidad para el estado de lenguaje.

18.- Un método para identificar un valor de lenguaje limpio para una señal de lenguaje limpia, el método comprende: formar un modelo en donde la señal de lenguaje limpia depende de un estado de lenguaje, una señal de sensor alternativa es dependiente de la señal de lenguaje limpia, y una señal de micrófono de conducción de aire es dependiente de la señal de lenguaje limpia; y determinar un estimado del valor de lenguaje limpio basándose en el modelo, un valor para la señal de sensor alternativa, y un valor para en la señal de micrófono de conducción de aire.

19.- El método de acuerdo con la reivindicación 18, que además comprende determinar una probabilidad para un estado y en donde determinar un estimado del valor de lenguaje limpio además comprende utilizar la probabilidad para el estado.

20.- El método de acuerdo con la reivindicación 18, en donde formar el modelo comprende formar un modelo en donde la señal de sensor alternativa y la señal de micrófono de conducción de aire son dependientes en una fuente de ruido.