MXPA05008740A - Metodo y aparato para el mejoramiento de lenguaje multi-sensorial. - Google Patents

Metodo y aparato para el mejoramiento de lenguaje multi-sensorial.

Info

Publication number
MXPA05008740A
MXPA05008740A MXPA05008740A MXPA05008740A MXPA05008740A MX PA05008740 A MXPA05008740 A MX PA05008740A MX PA05008740 A MXPA05008740 A MX PA05008740A MX PA05008740 A MXPA05008740 A MX PA05008740A MX PA05008740 A MXPA05008740 A MX PA05008740A
Authority
MX
Mexico
Prior art keywords
language
signal
channel response
estimate
value
Prior art date
Application number
MXPA05008740A
Other languages
English (en)
Inventor
Alejandro Acero
James G Droppo
Xuedong David Huang
Zhengyou Zhang
Zicheng Liu
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of MXPA05008740A publication Critical patent/MXPA05008740A/es

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Otolaryngology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Machine Translation (AREA)

Abstract

Un metodo y aparato determinan una respuesta de canal para un sensor alternativo que utiliza una senal de sensor alternativa y una senal de microfono de conduccion de aire. La respuesta de canal despues de utilizada para estimar un valor de lenguaje limpio que utiliza al menos una porcion de la senal de sensor alternativa.

Description

MÉTODO Y APARATO PARA EL MEJORAMIENTO DE LENGUAJE MULTI-SENSORIAL ANTECEDENTES DE LA INVENCIÓN La presente invención se refiere a la reducción de ruido. En particular, la presente invención se refiere a remover ruido de señales de lenguaje. Un problema común en el reconocimiento de lenguaje y transmisión de lenguaje es la corrupción de la señal de lenguaje por ruido aditivo. En particular, la corrupción debido al lenguaje de otro hablante ha probado se, difícil para detectar y/o corregir. Recientemente, se ha desarrollado un sistema que intenta remover ruido al utilizar una combinación de un sensor alternativo, tal como un micrófono de conducción de hueso, y un micrófono de conducción de aire. Este sistema es entrenado utilizando tres canales de entrenamiento: una señal de entrenamiento de sensor alternativo de ruido, una señal de entrenamiento de micrófono de conducción de aire ruidoso, y una señal de entrenamiento de micrófono de conducción de aire limpio. Cada una de las señales es convertida en un dominio de característica. Las características para la señal de sensor alternativo ruidoso y la señal de micrófono de conducción de aire ruidoso son combinadas en un vector individual que representa una señal ruidosa. Las características para la señal de micrófono de conducción de aire limpio forman un vector limpio individual. Estos vectores después son utilizados para entrenar un delineado entre los vectores ruidosos y los vectores limpios. Una vez entrenados, los delineados con aplicados para un vector ruidoso formado de una combinación de una señal de prueba de sensor alternativo ruidoso y una señal de prueba de micrófono de conducción de aire ruidoso. Este delineado produce un vector de señal limpia. Este sistema es menos que óptimo cuando las condiciones de ruido de las señales de prueba no se ajustan a las condiciones de ruido de las señales de entrenamiento debido a que los delineados están designados para las condiciones de ruido de las señales de entrenamiento.
COMPENDIO DE LA INVENCIÓN Un método y aparato determinan una respuesta de canal para un sensor alternativo que utiliza una señal de sensor alternativa y una señal de micrófono de conducción de aire. La respuesta de canal después de utilizada para estimar un valor de lenguaje limpio que utiliza al menos una porción de la señal de sensor alternativa.
BREVE DESCRIPCIÓN DE LOS DIBUJOS La Figura 1 es un diagrama de bloque de un ambiente de cómputo en el que la presente invención puede ser practicada.
La Figura 2 es un diagrama de bloque de un ambiente de cómputo alternativo en el que la presente invención puede ser practicada. La Figura 3 es un diagrama de bloque de un sistema de procesamiento de lenguaje general de la presente invención. La Figura 4 es un diagrama de bloque de un sistema para el mejoramiento de lenguaje de una modalidad de la presente invención. La Figura 5 es un diagrama de flujo para el mejoramiento de lenguaje bajo una modalidad de la presente invención. La Figura 6 es un diagrama de flujo para el mejoramiento de lenguaje bajo otra modalidad de la presente invención. La Figura 7 es un diagrama de flujo para el mejoramiento de lenguaje bajo otra modalidad de la presente invención.
DESCRIPCIÓN DETALLADA DE LAS MODALIDADES ILUSTRATIVAS La Figura 1 ilustra un ejemplo de un ambiente de sistema de cómputo adecuado 100 en el que la invención puede ser implementada. El ambiente de sistema de cómputo 100 es sólo un ejemplo de un ambiente de cómputo adecuado y no se pretende sugerir cualquier limitación al alcance de uso o funcionalidad de la invención. El ambiente de cómputo 100 tampoco debe ser interpretado cono teniendo cualquier dependencia o requerimiento que se relaciona a cualquier componente o combinación de ellos ilustrados en el ambiente operativo ilustrativo 100. La invención es operacional con numerosos otros ambientes o configuraciones de sistema de cómputo de propósito general o propósito especial. Ejemplos de sistemas de cómputo, ambientes, y/o configuraciones bien conocidos que pueden ser adecuados para utilizarse con la invención incluyen, pero no se limitan a, computadoras personales, computadoras de servidor, dispositivos móviles o portátiles, sistemas de multiprocesador; sistemas basados en microprocesador, cajas de T.V. por cable, aparatos electrónicos programables para el consumidor, PCs de red, minicomputadoras, macrocomputadoras, sistemas de telefonía, ambientes de cómputo distribuidos que incluyen cualquiera de los sistemas o dispositivos anteriores, y similares. La invención puede ser descrita en el contexto general de instrucciones ejecutables de computadora, tal como módulos de programa, siendo ejecutados por una computadora. Generalmente, los módulos incluyen rutinas, programas, objetos, componentes, estructuras de datos, etc. que realizan tareas particulares o implementan tipos de datos abstractos particulares. La invención también está diseñada para ser practicada en ambientes de cómputo distribuidos en dónde las tareas son realizadas por dispositivos de procesamiento remotos que están conectados a través de una red de comunicaciones. En un ambiente de cómputo distribuido, los módulos de programa están localizados tanto en medios de almacenamiento de computadora locales y remotos que incluyen dispositivos de almacenamiento de memoria. Con referencia a la Figura 1, un sistema ilustrativo para implementar la invención incluye un dispositivo de cómputo de propósito general en la forma de una computadora 110. Los componentes de computadora 110 pueden incluir, pero no están limitados a, una unidad de procesamiento 120, una memoria de sistema 130, y un conductor común de sistema 121 que acopla varios componentes de sistema que incluyen la memoria de sistema a la unidad de procesamiento 120. El conductor común de sistema 121 puede ser cualquiera de varios tipos de estructuras de conductor común que incluyen un conductor común de memoria o controlador de memoria, un conductor común periférico, y un conductor común local que utiliza cualquiera de una variedad de arquitecturas de conductor común. Como ejemplo, y no limitación, tales arquitecturas incluyen conductor común de Arquitectura Estándar de Industria (ISA), conductor común de Arquitectura de Micro Canal (MCA), conductor común ISA Mejorado (EISA), conductor común local de Asociación de Estándares de Aparatos Electrónicos de Vídeo (VESA), y conductor común lnterconectado de Componente Periférico (PCI) también conocido como conductor común de Entrepiso. La computadora 110 típicamente incluye una variedad de medios legibles de computadora. Los medios legibles de computadora pueden ser cualquier medio disponible que puede ser accedido por la computadora 110 e incluye tanto medios volátiles como no volátiles, medios removibles y no removibles. Como ejemplo, y no limitación, los medios legibles de computadora pueden comprender medios de almacenamiento de computadora y medios de comunicación. Los medios de almacenamiento de computadora incluyen tanto medios volátiles y no volátiles, removibles y no removibles implementados en cualquier método o tecnología para almacenamiento de información tal como instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos. Los medios de almacenamiento de computadora incluyen, pero no se limitan a, RAM, ROM, EEPROM, memoria instantánea u otra tecnología de memoria, CD-ROM, discos versátiles digitales (DVD) u otro almacenamiento de disco óptico, cassettes magnéticos, cinta magnética, almacenamiento de disco magnético u otros dispositivos de almacenamiento magnético, o cualquier otro medio que puede ser utilizado para almacenar la infamación deseada y que puede ser accedido por la computadora 110. Los medios de comunicación típicamente representan instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos en una señal de datos modulada tal como onda de vehículo u otro mecanismo de transporte e incluye cualquier medio de entrega de información. El término "señal de datos modulada" significa una señal que tiene una o más de sus características establecidas o cambiadas de tal forma para codificar información en la señal. Como ejemplo, y no limitación, los medios de comunicación incluyen medios alámbricos tal como red alámbrica o conexión alámbrica directa, y medios inalámbricos tal como medios acústicos, RF, infrarrojos u otros inalámbricos. Combinaciones de cualquiera de los anteriores también deben estar incluidas dentro del alcance de medio legible por computadora. La memoria de sistema 130 incluye medios de almacenamiento de computadora en la forma de memoria volátil y/o no volátil tal como memoria sólo de lectura (ROM) 131 y memoria de acceso al aleatorio (RAM) 132. Un sistema de entrada/salida básico 133 (BIOS), que contiene las rutinas básicas que ayudan a transferir información entre elementos dentro de la computadora 110, tal como durante el arranque, está típicamente almacenado en ROM 131. RAM 132 típicamente contiene datos y/o módulos de programa que son inmediatamente accesibles y/o ahora están siendo operados por la unidad de procesamiento 120. Como ejemplo, y no limitación, la Figura 1 ilustra el sistema operativo 134, programas de aplicación 135, otros módulos de programa 136, y datos de programa 137. La computadora 110 también puede incluir otros medios de almacenamiento de computadora removibles/no removibles, volátiles/ no volátiles. Sólo como ejemplo, la Figura 1 ilustra una unidad de disco duro 141 que lee de o escribe a medios magnéticos no removibles, no volátiles, una unidad de disco magnético 151 que lee de o escribe a un disco magnético removible, no volátil 152, y una unidad de disco óptico 155 que lee de o escribe a un disco óptico removible, no volátil 156 tal como un CD ROM u otros medios ópticos. Otros medios de almacenamiento de computadora removibles/no removibies, volátiles/no volátiles que pueden ser utilizados en el ambiente operativo ilustrativo incluyen, pero no se limitan a, cassettes de cinta magnética, tarjetas de memoria instantánea, discos versátiles digitales, cinta de video digital, RAM de estado sólido, ROM de estado sólido, y similares. La unidad de disco duro 141 está típicamente conectada al conductor común de sistema 121 a través de una interfase de memoria no removible tal como interfase 140, y unidad de disco magnético 151 y unidad de disco óptico 155 están típicamente conectados al conductor común de sistema 121 a través de una interfase de memoria removible, tal como interfase 150. Las unidades y sus medios de almacenamiento de computadora asociados discutidos anteriormente e ¡lustrados en la Figura 1, proporcionan almacenamiento de instrucciones legibles por computadora, estructuras de datos, módulos de programa y otros datos para la computadora 110. En la Figura 1, por ejemplo, la unidad de disco duro 141 es ilustrada como sistema operativo de almacenamiento 144, programas de aplicación 145, otros módulos de programa 146, y datos de programa 147. Se debe notar que estos componentes ya sea que pueden ser iguales o diferentes al sistema operativo 134, programas de aplicación 135, otros módulos de programa 136, y datos de programa 137. El sistema operativo 144, programas de aplicación 145, otros módulos de programa 146, y datos de programa 147 aquí se les da números diferentes para ilustrar que, en un mínimo, son copias diferentes. Un usuario puede introducir órdenes e información en la computadora 110 a través de dispositivos de entrada tal como teclado 162, un micrófono 163, y un dispositivo de señalamiento 161, tal como un ratón, seguibola o almohadilla sensible al tacto. Otros dispositivos de entrada (no mostrados) pueden incluir una palanca de mandos, almohadilla para juegos, antena parabólica, escáner, o similares. Estos y otros dispositivos de entrada están conectados frecuentemente a la unidad de procesamiento 120 a través de una interfase de entrada de usuario 160 que está acoplada al conductor común de sistema, pero puede estar conectada a través de otra interfase y estructuras de conductor común, tal como un puerto paralelo, puerto de juego o un conductor común en serie universal (USB). Un monitor 191 u otro tipo de dispositivo de exhibición también está conectado al conductor común de sistema 121 por medio de una interfase, tal como una interfase de video 190. Además del monitor, las computadoras también pueden incluir otros dispositivos de salida periféricos tal como bocinas 197 e impresora 196, que pueden estar conectados a través de una interfase periférica de salida 195. La computadora 110 es operada en un ambiente en red que utiliza conexiones lógicas a una o más computadoras remotas, tal como computadora remote 180. La computadora remota 180 puede ser una computadora personal, un dispositivo portátil, un servidor, un enrutador, una PC de red, un dispositivo par u otro nodo de red común, y típicamente incluye muchos o todos los elementos descritos anteriormente relativos a la computadora 110. Las conexiones lógicas ilustradas en ia Figura 1 incluyen una red de área local (LAN) 171 y una red de área amplia (WAN) 173, pero también puede incluir otras redes. Tales ambientes en red están ubicados comúnmente en oficinas, redes de computadoras amplias de empresa, intranets e Internet. Cuando se utiliza en un ambiente en red de LAN, la computadora 110 está conectada al LAN 171 a través de una interfase de red o adaptador 170. Cuando se utiliza en un ambiente en red de WAN, la computadora 110 típicamente incluye un modem 172 u otros medios para establecer comunicación en el WAN 173, tal como Internet. El módem 172, que puede ser interno o externo, puede estar conectado al conductor común de sistema 121 por medio de la interfase de entrada de usuario 160, u otro mecanismo apropiado. En un ambiente en red, los módulos de programa ilustrados relativos a la computadora 110, o porciones de la misma, pueden ser almacenados en el dispositivo de almacenamiento de memoria remoto. Como ejemplo, y no limitación, la Figura 1 ilustra programas de aplicación remotos 185 como residentes en la computadora remota 180. Se apreciará que las conexiones de red mostradas son ilustrativas y otros medios de establecer una conexión de comunicaciones entre las computadoras pueden ser utilizados. La Figura 2 es un diagrama de bloque de un dispositivo móvil 200, que es un ambiente de cómputo ilustrativo. El dispositivo móvil 200 incluye un microprocesador 202, memoria 204, componentes de entrada/salida (l/O) 206, y una interfase de comunicación 208 para comunicarse con computadoras remotas u otros dispositivos móviles. En una modalidad, los componentes antes mencionados están acoplados para comunicación con otro en un conductor común adecuado 210. La memoria 204 es implementada como una memoria electrónica no volátil tal como una memoria de acceso aleatorio (RAM) con un módulo de soporte de batería (no mostrado) para que la información almacenada en la memoria 204 no se pierda cuando la fuente de energía general se cierre para el dispositivo móvil 200. Una porción de memoria 204 es preferiblemente distribuida como memoria dirigible para ejecución de programa, mientras otra porción de memoria 204 es preferiblemente utilizada para almacenamiento, tal como para simular almacenamiento en una unidad dura. La memoria 204 incluye un sistema operativo 212, programas de aplicación 214 así como un almacenamiento de objeto 216. Durante la operación, el sistema operativo 212 es preferiblemente ejecutado por el procesador 202 a partir de la memoria 204. El sistema operativo 212, en una modalidad preferida, es un sistema operativo de marca de WINDOWS® comercialmente disponible de la Corporación de Microsoft. El sistema operativo 212 es preferiblemente diseñado para dispositivos móviles, e implementa características de bases de datos que pueden ser utilizadas por aplicaciones 214 a través de un grupo de interfases y métodos de programación de aplicación expuesta. Los objetos en el almacenamiento de objeto 216 con mantenidos por aplicaciones 214 y el sistema operativo 212, al menos parcialmente en respuesta a llamados a las interfases y métodos de programación de aplicación expuesta. La interfase de comunicación 208 representa numerosos dispositivos y tecnologías que permiten al dispositivo móvil 200 enviar y recibir información. Los dispositivos incluyen módems alámbricos e inalámbricos, receptores de satélite y cambiador de emisión por nombrar algunos. El dispositivo móvil 200 también puede estar directamente conectado a una computadora para intercambiar datos con eso. En tales casos, la interfase de comunicación 208 puede ser un transmisor infrarrojo o una conexión de comunicación en serie o paralela, de los cuales todos son capaces de transmitir información de corriente. Los componentes de entrada/salida 206 incluyen una variedad de dispositivos de entrada tal como una pantalla sensible al tacto, botones, rodillos, y un micrófono así como una variedad de dispositivos de salida que ¡ncluyen un generador de audio, un dispositivo vibrados, y la presentación. Los dispositivos listados anteriormente son ejemplos y no necesitan estar todos presentes en el dispositivo móvil 200. Además, otros dispositivos de entrada/salida pueden estar unidos a o encontrarse con el dispositivo móvil 200 dentro del alcance de la presente invención. La Figura 3 proporciona un diagrama de bloque básico de modalidades de la presente invención. En la Figura 3, una bocina 300 genera una señal de lenguaje 302 (X) que es detectada por un micrófono de conducción de aire 304 y un sensor alternativo 306. Los ejemplos de sensores alternativos incluyen un micrófono de garganta que mide las vibraciones de garganta del usuario, un sensor de conducción de hueso que está localizado en o es adyacente a un hueso facial o de cráneo del usuario (tal como el hueso de la mandíbula) o en el oído del usuario y que siente las vibraciones del cráneo y mandíbula que corresponde al lenguaje generado por el usuario. El micrófono de conducción de aire 304 es el tipo de micrófono que es utilizado comúnmente para convertir ondas de aire de audio en señales eléctricas. El micrófono de conducción de aire 304 también recibe ruido de ambiente 308 (U) generado por una o más fuentes de ruido 310 y lenguaje de antecedente 312 (V) generado por bocina(s) de antecedente 314. Dependiendo en el tipo de sensor alternativo y el nivel del lenguaje de antecedente, el lenguaje de antecedente 312 también puede ser detectado por el sensor alternativo 306. Sin embargo, bajo las modalidades de la presente invención, el sensor alternativo 306 es típicamente menos sensitivo para ruido de ambiente y lenguaje de antecedente que el micrófono de conducción de aire 304. De esa forma, la señal de sensor alternativo 316 (B) generada por el sensor alternativo 306 generalmente incluye menos ruido que la señal de micrófono de conducción de aire 318 (Y) generada por el micrófono de conducción de aire 304. Aunque el sensor alternativo 306 es menos sensitivo para ruido de ambiente, no genera algún ruido de sensor 320 (W).
El camino de la bocina 300 a la señal de sensor alternativo 316 puede ser moldeado como un canal que tiene una respuesta de canal H. El camino de la bocina(s) de antecedente 314 a la señal de sensor alternativo 316 puede ser moldeada como un canal que tiene una respuesta de canal G. La señal de sensor alternativo 316 (B) y la señal de micrófono de conducción de aire 318 (Y) son proporcionadas para un estimador de señal limpia 322, que estima una señal limpia 324 y en algunas modalidades, estima una señal de lenguaje de antecedente 326. El estimado de señal limpia 324 es proporcionado para un procedimiento de lenguaje 328. El estimado de señal limpia 324 puede ser ya sea una señal de dominio de tiempo filtrado o un vector de Transformador de Fourier. Si el estimado de señal limpia 324 es una señal de dominio de tiempo, el procedimiento de lenguaje 328 toma la forma de un oyente, un sistema de codificación de lenguaje, o un sistema de reconocimiento de lenguaje. Si el estimado de señal limpia 324 es un vector de Transformación de Fourier, el procedimiento de lenguaje 328 típicamente será un sistema de reconocimiento de lenguaje, o contendrá una Transformación de Fourier Inversa para convertir el vector de Transformación de Fourier en formas de onda. Dentro del mejoramiento de filtrado directo 322, la señal de sensor alternativo 316 y señal de micrófono 318 son convertidas en el dominio de frecuencia siendo utilizado para estimar el lenguaje limpio. Como se muestra en la Figura 4, la señal de sensor alternativo 316 y la señal de micrófono de conducción de aire 318 son proporcionados a convertidores análogos a digitales 404 y 414, respectivamente, para generar una secuencia de valores digitales, que están agrupados en estructuras de valores por constructores de estructura 406 y 416, respectivamente. En una modalidad, los convertidores A a D 404 y 414 muestran las señales análogas en 16 kHz y 16 bits por muestreo, de esa forma creando 32 kilo bites de datos de lenguaje por segundo y constructores de estructura 406 y 416 crean una nueva estructura respectiva cada 10 milisegundos que incluye valor de 20 milisegundos de datos. Cada estructura respectiva de datos proporcionada por constructores de estructura 406 y 416 es convertida en el dominio de frecuencia que utiliza Transformaciones de Fourier Rápidas (FFT) 408 y 418, respectivamente. Los valores de dominio de frecuencia para la señal de sensor alternativa y la señal de micrófono de conducción de aire son proporcionadas para el estimador de señal limpia 420, que utiliza los valores de dominio de frecuencia para estimar la señal de lenguaje limpia 324 y en algunas modalidades la señal de lenguaje de antecedente 326. Bajo algunas modalidades, la señal de lenguaje limpio 324 y señal de lenguaje de antecedente 326 son convertidas otra vez al dominio de tiempo que utiliza las Transformaciones de Fourier Rápidas Inversas 422 y 424. Esto crea versiones de dominio de tiempo de señal de lenguaje limpia 324 y señal de lenguaje de antecedente 326. La presente invención proporciona técnicas de filtración directas para estimar la señal de lenguaje limpia 324. Bajo ia filtración directa, se determinan un estimado de probabilidad máxima de la respuesta(s) de canal para el sensor alternativo 306 al minimizar una función relativa a la respuesta(s) de canal. Estos estimados después son utilizados para determinar un estimado de probabilidad máxima de la señal de lenguaje limpia al minimizar una función relativa a la señal de lenguaje limpia. Bajo una modalidad de la presente invención, la respuesta de canal G que corresponde al lenguaje de antecedente siendo detectado por el sensor alternativo es considerado para ser cero y el lenguaje de antecedente y ruido de ambiente son combinados para formar un término de ruido individual. Estos resultados en un modelo entre la señal de lenguaje limpia y la señal de micrófono de conducción de aire y señal de sensor alternativo de: y(t) -- x(t) + z(t) Ec. 1 b(t) = h(t)*x(t) + w(t) Ec. 2 en donde y(t) es la señal de micrófono de conducción de aire, b(t) es la señal de sensor alternativo, x(t) es la señal de lenguaje limpia, z(t) es la señal de ruido combinada que incluye lenguaje de antecedente y ruido de ambiente, w(t) es el ruido de sensor alternativo, y h(t) es la respuesta de canal para la señal de lenguaje limpio asociado con el sensor alternativo. De esa forma, en la Ecuación 2, la señal de sensor alternativo es moldeada como una versión filtrada del lenguaje limpio, en donde el filtro tiene una respuesta de impulso de h(t). En el dominio de frecuencia, las Ecuaciones 1 y 2 pueden ser expresadas: Yt(k) = xt(k) . zt(k) Ec. 3 Bt(k) = Ht(k)*Xt(k) + Wt(k) Ec. 4 en donde la anotación Yt(k) representa el kvo componente de frecuencia de una estructura de una señal centrada alrededor del tiempo t. Esta anotación se aplica a Xt(k), Zt(k), Ht(k), Wt(k), y Bt(k). En la siguiente discusión, se omite la referencia al componente de frecuencia k por claridad. Sin embargo, aquellos expertos en la técnica reconocerán que los cálculos realizados más adelante son realizados en una base de componente por frecuencia Bajo esta modalidad, las partes reales e imaginarias del ruido Zt y Wt están moldeados como Gaussianos a cero independiente para que: Zf = N(0,s22) Ec. 5 Wt = N(0,s2w) Ec. 6 en donde s2z es la variante para ruido Zt y s2-, es la variante para ruido Wt. Ht también es moldeado como un Gaussiano para que Ht = N(H,s2H) Ec. 7 en donde H0 es el medio de la respuesta de canal y s2H es la variante de la respuesta de canal. Dado estos parámetros de modelo, la probabilidad de un valor de lenguaje limpio X, y un valor de respuesta de canal Hf, es descrito por la probabilidad condicional: p(Xt, Ht | Yt, Bu H0s' H) Ec. 8 que es proporcional a: p(Yt, Bt | Xu H t, s¿zs )P(Ht | Ho, s¿H)p(Xt) Ec. 9 que es igual a: p(Yt | X s2z)p(Bt | Xt, H s2w)p(Ht | H0, s2H)p(Xt) Ec. 10 En una modalidad, la prioridad anterior para la respuesta de canal, p(Ht \ H0, s2H), y la probabilidad anterior para la señal de lenguaje limpio, p(Xt), son ignorados y las probabilidades de permanecer son tratadas como distribuciones Gaussianas. Al utilizar estas simplificaciones, la Ecuación 10 se convierte: Ec. 11 De esa forma, el estimado de probabilidad máxima de Hi, Xt, para un lenguaje es determinado al minimizar el término de exponente de la Ecuación 11 a través de todas las estructuras de tiempo T en el lenguaje. De esa forma, el estimado de probabilidad máxima es proporcionado al minimizar: Ec. 12 Ya que la Ecuación 12 esta siendo minimizada con respecto a dos variables, Xt, Ht, el derivativo parcial con respecto a cada variable puede ser tomado para determinar el valor de esa variable que minimiza la función. Específicamente, 9F. = 0 da: 3Xt en donde H*t representa el conjugado completo de Ht y |Ht| representa la magnitud del valor complejo Ht. Al substituir este valor de X, en la Ecuación 12, que i- = o establece el Derivado parcial dH' y después asume que H es constante a través de todas las estructuras de tiempo T da una solución para H de: Ec. 14 En la Ecuación 14, el estimado de H requiere calcular varias sumas en la última de las estructuras de T en la forma de: Ec. 15 en donde st es (s2z|Bt|2 -s2w|Yt|2)_o Bt*Y Con esta fórmula, la primera estructura (t=1) es tan importante como la última estructura (t=T). Sin embargo, en otras modalidades se prefiere que las últimas estructuras contribuyan más al estimado de H más que las estructuras antiguas. Una técnica para lograr esto es "otra vez el exponente", en el que las sumas de la Ecuación 15 son reemplazadas con: T sm^'S, í=l Ec. 16 en donde c l. Si c = 1, entonces la Ecuación 16 es equivalente a la Ecuación 15. Si c < 1, entonces la última estructura es pesada por 1, la penúltima estructura es pesada por c (es decir, contribuye menos que la última estructura), y la primera estructura es pesada por ct"1 (es decir, contribuye significativamente menos que la última estructura). Tomar un ejemplo. Permitir c = 0.99 y T = 100, entonces el peso para la primera estructura es sólo 0.9999 = 0.37. Bajo una modalidad, la Ecuación 16 es estimada recursivamente como: S(T) = cS'(T-1) + st Ec. 17 Ya que la Ecuación 17 automáticamente pesa los datos antiguos menos, una longitud de ventana fija no necesita ser utilizada, y los datos de las últimas estructuras T no necesitan ser almacenadas en la memoria. En vez de eso, sólo el valor para S(T-1) en la estructura previa necesita ser almacenado. Al utilizar la Ecuación 17, la Ecuación 14 se convierte: Ec.18 en donde: J(T) = cJ(T-1) + (s2-\Bt\2-s2w\Yt\2) Ec. 19 K(T) = cK(T-1) + Bt*Yt Ec. 20 El valor de c en las ecuaciones 19 y 20 proporciona una longitud efectiva para el número de estructuras pasadas que son utilizadas para calcular el valor actual de j(T) y K(T). Específicamente, la longitud efectiva es proporcionada por: Ec. 21 La longitud efectiva asintótica es proporcionada por: Ec. 22 o equivalentemente, c = L - 1 Ec. 23 De esa forma, al utilizar la ecuación 23, c puede ser establecida para lograr diferentes longitudes efectivas en la ecuación 18. Por ejemplo, para lograr una longitud efectiva de 200 estructuras, c es establecida como: C= 199.= 0-995 Ec. 24 Una vez que H ha sido estimada utilizando la Ecuación 14, puede ser utilizada en lugar de todas las Ht de la Ecuación 13 para determinar un valor separado de Xt en cada estructura de tiempo t. Alternativamente, la ecuación 18 puede ser utilizada para estimar Ht en cada estructura de tiempo t. El valor de Ht en cada estructura después es utilizado en la Ecuación 13 para determinar Xt. La Figura 5 proporciona un diagrama de flujo de un método de la presente invención que utiliza las Ecuaciones 13 y 14 para estimar un valor de lenguaje limpio para una expresión. En el paso 500, los componentes de frecuencia de las estructuras de la señal de micrófono de conducción de aire y la señal de sensor alternativo son capturados a través de una expresión completa. En el paso 502 la variante para el ruido de micrófono de conducción de aire s2- y el ruido de sensor alternativo s2w es determinado de las estructuras de la señal de micrófono de conducción de aire y la señal de sensor alternativo, respectivamente, que son capturadas antes en el lenguaje durante períodos cuando el hablante no está hablando. El método determina cuando el hablante no está hablando al identificar porciones de energía baja de la señal de sensor alternativo, ya que la energía del ruido de sensor alternativo es mucho más pequeña que la señal de lenguaje capturada por la señal de sensor alternativo. En otras modalidades, las técnicas de detección de lenguaje conocidas pueden ser aplicadas a la señal de lenguaje de conducción de aire para identificar cuando el hablante está hablando. Durante los períodos cuando no se considera que el hablante no está hablando, se asume Xt que es cero y cualquier señal del micrófono de conducción de aire o el sensor alternativo es considerado para ser ruido. Las muestras de los valores de ruido son recolectadas de las estructuras de no lenguaje y son utilizadas para estimar la variante del ruido en la señal de conducción de aire y la señal de sensor alternativo. En el paso 504, los valores para la señal de sensor alternativo y la señal de micrófono de conducción de aire a través de todas las estructuras del lenguaje son utilizados para determinar un valor de H que utiliza la anterior Ecuación 14. En el paso 506, este valor de H es utilizado junto con los valores individuales de la señal de micrófono de conducción de aire y la señal de sensor alternativa en cada estructura de tiempo para determinar un valor de lenguaje mejorado o reducido de ruido para cada estructura de tiempo que utiliza la anterior Ecuación 13. En otras modalidades, en vez de utilizar todas las estructuras del lenguaje para determinar un valor individual de H que utiliza la Ecuación 14, Ht es determinada para cada estructura que utiliza la Ecuación 18. El valor de Ht después es utilizado para calcular Xt, para la estructura que utiliza la anterior Ecuación 13. En una segunda modalidad de la presente invención, la respuesta de canal del sensor alternativo para el lenguaje de antecedente es considerada para ser no cero. En esta modalidad, la señal de micrófono de conducción de aire y la señal de sensor alternativo son moldeadas como: Yt(k) = Xt(k) + Vt(k) + Ut(k) Ec. 25 Bt(k) = Ht(k)Xt(k) + Gt(k)Vt(k) + Wt(k) Ec. 26 en done el ruido Zt(k) ha sido separada en el lenguaje de antecedente Vt(k) y el ruido de ambiente (Ut(k), y la respuesta de canal de sensores alternativos para el lenguaje de antecedente es un valor de no cero de Gt(k). De acuerdo con esta modalidad, el conocimiento anterior del lenguaje limpio Xt continúa para ser ignorado. Al hacer esta suposición, la probabilidad máxima para ei lenguaje limpio Xt puede ser encontrada al minimizar la función objetivo: Ec. 27 Esto da como resultado en una ecuación para el lenguaje limpio de: Ec. 28 Con el fin de resolver la Ecuación 28, las variantes s2w, s2u y s2- así como los valores de respuesta de canal Ht y Gt deben ser conocidos. La Figura 6 proporciona un diagrama de flujo para identificar estos valores y para determinar valores de lenguaje mejorados para cada estructura. En el paso 600, las estructuras del lenguaje son identificadas en donde el usuario no está hablando y no existe lenguaje de antecedente. Estas estructuras después son utilizadas para determinar la variante s2w y s2u para el sensor alternativo y el micrófono de conducción de aire, respectivamente. Para identificar estructuras en donde el usuario no está hablando, la señal de sensor alternativo puede ser examinada. Ya que la señal de sensor alternativo producirán valores de señal mucho más pequeños para lenguaje de antecedente que para ruido, si la energía de la señal de sensor alternativo es baja, se puede asumir que el hablante no está hablando. Dentro de las estructuras basándose en la señal alternativa, un algoritmo de detección de lenguaje puede ser aplicado a la señal de micrófono de conducción de aire. Este sistema de detección de lenguaje detectará si existe el lenguaje de antecedente presente en la señal de micrófono de conducción de aire cuando el usuario no está hablando. Tales algoritmos de detección de lenguaje son bien conocidos en la técnica e incluyen sistemas tal como sistemas de rastreo de grado. Después de que se han determinado las variantes para el ruido asociado con el micrófono de conducción de aire y el sensor alternativo, el método de la Figura 6 continúa en el paso 602 en donde identifica estructuras en donde el usuario no está hablando pero hay lenguaje de antecedente presente. Las estructuras son identificadas utilizando la misma técnica descrita anteriormente pero selecciona aquellas estructuras que incluyen lenguaje de antecedente cuando el usuario no está hablando. Para aquellas estructuras que ¡ncluyen lenguaje de antecedente cuando el usuario no está hablando, se asume que el lenguaje de antecedente es mucho más grande que el ruido de ambiente. Como tal, cualquier variante en la señal de micrófono de conducción de aire durante aquellas estructuras es considerada para ser del lenguaje de antecedente. Como un resultado, la variante s2v puede ser establecida directamente de los valores de la señal de micrófono de conducción de aire durante aquellas estructuras cuando el usuario no está hablando pero existe lenguaje de antecedente. En el paso 604, las estructuras son identificadas en donde el usuario no está hablando pero existe lenguaje de antecedente son utilizadas para estimar la respuesta de canal G de sensor alternativo para lenguaje de antecedente. Específicamente, G es determinada como: Ec. 29 En donde D es el número de estructuras en las que el usuario no está hablando pero existe lenguaje de antecedente. En la Ecuación 29, se asume que G permanece constante a través de todas las estructuras del lenguaje y de esa forma ya no es dependiente en la estructura de tiempo t. En el paso 606, el valor de la respuesta de canal G del sensor alternativo para el lenguaje de antecedente es utilizado para determinar la respuesta de canal de sensor alternativo para la señal de lenguaje limpio. Específicamente, H es calculada como: Ec. 30 En la Ecuación 30, la suma en T puede ser reemplazada con el cálculo de disminución exponencial recursivo discutido anteriormente en conexión con las ecuaciones 15-24. Después de que H ha sido determinada en el paso 606, la Ecuación 28 puede ser utilizada para determinar un valor de lenguaje limpio para todas las estructuras. Al utilizar la Ecuación 28, Ht y Gt son reemplazadas con los valores independientes de tiempo H y G, respectivamente. Además, de acuerdo con algunas modalidades, el término Bt-GYt en la Ecuación 28 es reemplazado con (1-|GYL[) B, |B.| debido a que se ha encontrado para ser más difícil de determinar precisamente la diferencia de fase entre el lenguaje de antecedente y su escape en el sensor alternativo. Si el cálculo de disminución exponencial recursivo es utilizado en lugar de las sumas en la Ecuación 30, un valor separado de Ht puede ser separado para cada estructura de tiempo y puede ser utilizado como Ht en la ecuación 28. En otra extensión de la modalidad anterior, es posible proporcionar un estimado de la señal de lenguaje de antecedente en cada estructura de tiempo. En particular, una vez que el valor de lenguaje limpio ha sido determinado, el valor de lenguaje de antecedente en cada estructura puede ser determinado como: Ec. 31 El paso opcional es mostrado como paso 610 en la Figura 6. En las modalidades anteriores, el conocimiento anterior de la r'espuesta de canal del sensor alternativo para la señal de lenguaje limpio ha sido ignorado. En otra modalidad, el conocimiento anterior puede ser utilizado, si es proporcionado, para generar un estimado de la respuesta de canal en cada estructura de tiempo Ht y para determinar el valor de lenguaje limpio Xt. En esta modalidad, la respuesta de canal para el ruido de lenguaje de antecedente es una vez más asumido para ser cero. De esa forma, el modelo de la señal de conducción de aire y la señal de sensor alternativo es el mismo que el modelo mostrado en las anteriores Ecuaciones 3 y 4. Las ecuaciones para estimar el valor de lenguaje limpio y la respuesta de canal Ht en cada estructura de tiempo con determinados al minimizar la función de objetivo: Ec. 32 Esta función de objetivo es minimizada con respecto a Xt y Ht al tomar los derivativos parciales relativos a estas dos variables ¡ndependientemente y establecer los resultados ¡guales a cero. Esto proporciona las siguientes ecuaciones para Xt y Hf: X. (sw2Yt+slHtBt) <+<?; H.
Ec.33 Ec. 34 En donde ?0 y s2H son el medio y variante, respectivamente, del modelo anterior para la respuesta de canal del sensor alternativo para la señal de lenguaje limpia. Debido a que la ecuación para X incluye Ht y la ecuación para Ht incluye la variable Xt, las Ecuaciones 33 y 34 deben ser resueltas en una forma iterativa. La Figura 7 proporciona un diagrama de flujo para realizar tal iteración. En el paso 700 de la Figura 7, los parámetros para el modelo anterior para la respuesta de canal son determinados. En el paso 702, un estimado de Xt es determinado. Este estimado puede ser determinado utilizando cualquiera de las modalidades anteriores descritas anteriormente en las que el modelo anterior de la respuesta de canal fue ignorado. En el paso 704, los parámetros del modelo anterior y el estimado inicial de Xt son utilizados para determinar Ht utilizando la Ecuación 34. Ht después es utilizada para actualizar los valores de lenguaje limpio que utilizan la Ecuación 3 en el paso 706. En el paso 708, el procedimiento determina di más iteraciones son deseadas. Si se desean más iteraciones, el procedimiento regresa al paso 704 y actualiza el valor de Ht que utiliza los valores actualizados de Xt determinados en el paso 706. Los pasos 704 y 706 son repetidos hasta que no se desean más iteraciones en el paso 708, en ese punto el procedimiento termina en el paso 710. Aunque la presente invención ha sido descrita con referencia a modalidades particulares, los trabajadores expertos en la técnica reconocerán que se pueden hacer cambios en la forma y detalle sin apartarse del espíritu y alcance de la invención.

Claims (9)

REIVINDICACIONES
1.- Un método para determinar un estimado para un valor de ruido reducido que representa una porción de una señal de lenguaje de ruido reducido, el método comprende: generar una señal de sensor alternativa que utiliza un sensor alternativo diferente a un micrófono de conducción de aire; generar una señal de micrófono de conducción de aire; utilizar la señal de sensor alternativa y la señal de micrófono de conducción de aire para estimar un valor para una respuesta de canal de la señal de sensor alternativa; y utilizar la respuesta de canal para estimar el valor de ruido reducido.
2.- El método de acuerdo con la reivindicación 1, en donde estimar un valor para una respuesta de canal comprende encontrar un extremo de una función de objetivo.
3.- El método de acuerdo con la reivindicación 1, en donde estimar una respuesta de canal comprende moldear una señal de sensor alternativa como una señal de lenguaje limpia envuelto con la respuesta de canal, con el resultado sumado con un término de ruido.
4.- El método de acuerdo con la reivindicación 1, en donde la respuesta de canal comprende una respuesta de canal para una señal de lenguaje limpia.
5.- El método de acuerdo con la reivindicación 4, que además comprende determinar una respuesta de canal del sensor alternativo para una señal de lenguaje de antecedente.
6.- El método de acuerdo con la reivindicación 5, en donde utilizar la respuesta de canal para estimar el valor reducido de ruido comprende utilizar la respuesta de canal para la señal de lenguaje limpia y la respuesta de canal para la señal de lenguaje de antecedente para estimar el valor reducido de ruido. 1.- El método de acuerdo con la reivindicación 1, que además comprende utilizar el estimado del valor reducido de ruido para estimar un valor para una señal de lenguaje de antecedente. 8.- El método de acuerdo con la reivindicación 1, en donde estimar un valor para una respuesta de canal comprende utilizar una secuencia de estructuras de la señal de sensor alternativa y la señal de micrófono de conducción de aire para estimar un valor de respuesta de canal individual para las estructuras en la secuencia de estructuras. 9.- El método de acuerdo con la reivindicación 8, en donde utilizar la respuesta de canal para estimar un valor reducido de ruido comprende estimar un valor reducido de ruido separado para cada estructura en la secuencia de estructuras. 10.- El método de acuerdo con la reivindicación 1, en donde estimar un valor para una respuesta de canal comprende estimar el valor para una estructura actual al pesar valores para la señal de sensor alternativa y la señal de micrófono de conducción de aire en la estructura actual de forma más pesada que los valores para la señal de sensor alternativa y la señal de micrófono de conducción de aire en una estructura previa. 11.- Un medio legible por computadora que tiene instrucciones ejecutables por computadora para realizar los pasos que comprenden: determinar una respuesta de canal para un sensor alternativo que utiliza una señal de sensor alternativa y una señal de micrófono de conducción de aire; y utilizar la respuesta de canal para estimar un valor de lenguaje limpio que utiliza al menos una porción de la señal de sensor alternativa. 12.- El medio legible por computadora de acuerdo con la reivindicación 11, en donde determinar una respuesta de canal comprende determinar una respuesta de canal individual para una secuencia de estructuras de la señal de sensor alternativa y la señal de micrófono de conducción de aire. 13.- El medio legible por computadora de acuerdo con la reivindicación 11, en donde la respuesta de canal comprende una respuesta de canal para una señal de lenguaje limpio. 14.- El medio legible por computadora de acuerdo con la reivindicación 13, que además comprende determinar una respuesta de canal para una señal de lenguaje de antecedente. 15.- El medio legible por computadora de acuerdo con la reivindicación 14, que además comprende utilizar la respuesta de canal a la señal de lenguaje de antecedente con la respuesta de canal para la señal de lenguaje limpia para estimar el valor de lenguaje limpio. 16.- El medio legible por computadora de acuerdo con la reivindicación 11, que además comprende utilizar el valor de lenguaje limpio para estimar un valor de lenguaje de antecedente. 1
7.- Un método para identificar una señal de'lenguaje limpia, el método que comprende: estimar parámetros de ruido que describen ruido en una señal de sensor alternativa; utilizar ios parámetros de ruido para estimar una respuesta de canal para un sensor alternativo; y utilizar la respuesta de canal para estimar un valor para la señal de lenguaje limpia. 1
8.- El método de acuerdo con la reivindicación 17, en donde estimar parámetros de ruido comprende utilizar la señal de sensor alternativa para identificar períodos cuando un usuario no está hablando. 1
9.- El método de acuerdo con la reivindicación 18, que además comprende realizar la detección de lenguaje en porciones de una señal de micrófono de conducción de aire asociada con los periodos cuando el usuario no está hablando para identificar periodos de no hablar y periodos de lenguaje de antecedente. 20.- El método de acuerdo con la reivindicación 19, que además comprende utilizar porciones de la señal de sensor alternativa asociada con los periodos de no hablar para estimar los parámetros de ruido. 21.- El método de acuerdo con la reivindicación 20, que además comprende utilizar los periodos de no hablar para estimar parámetros de ruido que describen ruido en la señal de micrófono de conducción de aire. 22.- El método de acuerdo con la reivindicación 20, que además comprende utilizar las porciones de la señal de sensor alternativa asociada con los períodos de lenguaje de antecedente para estimar una respuesta de canal para el lenguaje de antecedente. 23.- El método de acuerdo con la reivindicación 22, que además comprende utilizar la respuesta de canal para el lenguaje de antecedente para estimar el lenguaje limpio. 24.- El método de acuerdo con la reivindicación 17, que además comprende determinar un estimado de un valor de lenguaje de antecedente. 25.- El método de acuerdo con la reivindicación 24, en donde determinar un estimado de un valor de lenguaje de antecedente comprende utilizar el estimado del valor de lenguaje limpio para estimar el valor de lenguaje de antecedente. 26.- El método de acuerdo con la reivindicación 17, que además comprende utilizar un modelo anterior de la respuesta de canal para estimar el valor de lenguaje limpio.
MXPA05008740A 2004-09-17 2005-08-17 Metodo y aparato para el mejoramiento de lenguaje multi-sensorial. MXPA05008740A (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/944,235 US7574008B2 (en) 2004-09-17 2004-09-17 Method and apparatus for multi-sensory speech enhancement

Publications (1)

Publication Number Publication Date
MXPA05008740A true MXPA05008740A (es) 2007-12-11

Family

ID=35430655

Family Applications (1)

Application Number Title Priority Date Filing Date
MXPA05008740A MXPA05008740A (es) 2004-09-17 2005-08-17 Metodo y aparato para el mejoramiento de lenguaje multi-sensorial.

Country Status (11)

Country Link
US (1) US7574008B2 (es)
EP (1) EP1638084B1 (es)
JP (1) JP4842583B2 (es)
KR (1) KR101153093B1 (es)
CN (1) CN100583243C (es)
AT (1) ATE448541T1 (es)
AU (1) AU2005202858A1 (es)
CA (1) CA2513195C (es)
DE (1) DE602005017549D1 (es)
MX (1) MXPA05008740A (es)
RU (1) RU2389086C2 (es)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6675027B1 (en) * 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
US20050033571A1 (en) * 2003-08-07 2005-02-10 Microsoft Corporation Head mounted multi-sensory audio input system
US7383181B2 (en) * 2003-07-29 2008-06-03 Microsoft Corporation Multi-sensory speech detection system
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7499686B2 (en) * 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US7574008B2 (en) 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7283850B2 (en) * 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US7346504B2 (en) * 2005-06-20 2008-03-18 Microsoft Corporation Multi-sensory speech enhancement using a clean speech prior
US7680656B2 (en) * 2005-06-28 2010-03-16 Microsoft Corporation Multi-sensory speech enhancement using a speech-state model
US7406303B2 (en) 2005-07-05 2008-07-29 Microsoft Corporation Multi-sensory speech enhancement using synthesized sensor signal
KR100738332B1 (ko) * 2005-10-28 2007-07-12 한국전자통신연구원 성대신호 인식 장치 및 그 방법
US7930178B2 (en) * 2005-12-23 2011-04-19 Microsoft Corporation Speech modeling and enhancement based on magnitude-normalized spectra
KR100857877B1 (ko) * 2006-09-14 2008-09-17 유메디칼 주식회사 자동차폐가 가능한 순음청력검사장치
US7925502B2 (en) * 2007-03-01 2011-04-12 Microsoft Corporation Pitch model for noise estimation
CA2721702C (en) * 2008-05-09 2016-09-27 Nokia Corporation Apparatus and methods for audio encoding reproduction
US9767817B2 (en) * 2008-05-14 2017-09-19 Sony Corporation Adaptively filtering a microphone signal responsive to vibration sensed in a user's face while speaking
US8639499B2 (en) * 2010-07-28 2014-01-28 Motorola Solutions, Inc. Formant aided noise cancellation using multiple microphones
EP2482566B1 (en) * 2011-01-28 2014-07-16 Sony Ericsson Mobile Communications AB Method for generating an audio signal
WO2012145709A2 (en) * 2011-04-20 2012-10-26 Aurenta Inc. A method for encoding multiple microphone signals into a source-separable audio signal for network transmission and an apparatus for directed source separation
US10067093B2 (en) 2013-07-01 2018-09-04 Richard S. Goldhor Decomposing data signals into independent additive terms using reference signals
US10540992B2 (en) 2012-06-29 2020-01-21 Richard S. Goldhor Deflation and decomposition of data signals using reference signals
US10473628B2 (en) * 2012-06-29 2019-11-12 Speech Technology & Applied Research Corporation Signal source separation partially based on non-sensor information
CN103871419B (zh) * 2012-12-11 2017-05-24 联想(北京)有限公司 一种信息处理方法及电子设备
JP6446913B2 (ja) * 2014-08-27 2019-01-09 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
US10726859B2 (en) 2015-11-09 2020-07-28 Invisio Communication A/S Method of and system for noise suppression
CN110085250B (zh) * 2016-01-14 2023-07-28 深圳市韶音科技有限公司 气导噪声统计模型的建立方法及应用方法
WO2018083511A1 (zh) * 2016-11-03 2018-05-11 北京金锐德路科技有限公司 一种音频播放装置及方法
US10062373B2 (en) * 2016-11-03 2018-08-28 Bragi GmbH Selective audio isolation from body generated sound system and method
CN106686494A (zh) * 2016-12-27 2017-05-17 广东小天才科技有限公司 一种可穿戴设备的语音输入控制方法及可穿戴设备
GB201713946D0 (en) * 2017-06-16 2017-10-18 Cirrus Logic Int Semiconductor Ltd Earbud speech estimation
CN107910011B (zh) * 2017-12-28 2021-05-04 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质
JP7419270B2 (ja) * 2018-06-21 2024-01-22 マジック リープ, インコーポレイテッド ウェアラブルシステム発話処理
JP2022522748A (ja) 2019-03-01 2022-04-20 マジック リープ, インコーポレイテッド 発話処理エンジンのための入力の決定
US11049509B2 (en) 2019-03-06 2021-06-29 Plantronics, Inc. Voice signal enhancement for head-worn audio devices
US11328740B2 (en) 2019-08-07 2022-05-10 Magic Leap, Inc. Voice onset detection
US11917384B2 (en) 2020-03-27 2024-02-27 Magic Leap, Inc. Method of waking a device using spoken voice commands
CN111696564B (zh) * 2020-06-05 2023-08-18 北京搜狗科技发展有限公司 语音处理方法、装置和介质
CN116098608B (zh) * 2021-11-10 2024-09-10 复旦大学 喉部运动信息捕获系统

Family Cites Families (109)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3383466A (en) * 1964-05-28 1968-05-14 Navy Usa Nonacoustic measures in automatic speech recognition
US3389391A (en) * 1967-05-05 1968-06-18 Miner S Keeler Vehicle identification responder
US3746789A (en) * 1971-10-20 1973-07-17 E Alcivar Tissue conduction microphone utilized to activate a voice operated switch
US3787641A (en) * 1972-06-05 1974-01-22 Setcom Corp Bone conduction microphone assembly
US4382164A (en) * 1980-01-25 1983-05-03 Bell Telephone Laboratories, Incorporated Signal stretcher for envelope generator
JPS62239231A (ja) * 1986-04-10 1987-10-20 Kiyarii Rabo:Kk 口唇画像入力による音声認識方法
JPH0755167B2 (ja) * 1988-09-21 1995-06-14 松下電器産業株式会社 移動体
JPH03160851A (ja) * 1989-11-20 1991-07-10 Fujitsu Ltd 携帯電話機
US5054079A (en) * 1990-01-25 1991-10-01 Stanton Magnetics, Inc. Bone conduction microphone with mounting means
US5404577A (en) * 1990-07-13 1995-04-04 Cairns & Brother Inc. Combination head-protective helmet & communications system
US5241692A (en) * 1991-02-19 1993-08-31 Motorola, Inc. Interference reduction system for a speech recognition device
US5295193A (en) * 1992-01-22 1994-03-15 Hiroshi Ono Device for picking up bone-conducted sound in external auditory meatus and communication device using the same
US5590241A (en) * 1993-04-30 1996-12-31 Motorola Inc. Speech processing system and method for enhancing a speech signal in a noisy environment
US5446789A (en) * 1993-11-10 1995-08-29 International Business Machines Corporation Electronic device having antenna for receiving soundwaves
AU684872B2 (en) * 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
US5828768A (en) * 1994-05-11 1998-10-27 Noise Cancellation Technologies, Inc. Multimedia personal computer with active noise reduction and piezo speakers
EP0683621B1 (en) * 1994-05-18 2002-03-27 Nippon Telegraph And Telephone Corporation Transmitter-receiver having ear-piece type acoustic transducing part
JP3189598B2 (ja) * 1994-10-28 2001-07-16 松下電器産業株式会社 信号合成方法および信号合成装置
JPH08186654A (ja) 1994-12-22 1996-07-16 Internatl Business Mach Corp <Ibm> 携帯端末装置
JPH08223677A (ja) * 1995-02-15 1996-08-30 Nippon Telegr & Teleph Corp <Ntt> 送話器
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
US5692059A (en) * 1995-02-24 1997-11-25 Kruger; Frederick M. Two active element in-the-ear microphone system
US5555449A (en) * 1995-03-07 1996-09-10 Ericsson Inc. Extendible antenna and microphone for portable communication unit
JP3264822B2 (ja) 1995-04-05 2002-03-11 三菱電機株式会社 移動体通信機器
US5651074A (en) 1995-05-11 1997-07-22 Lucent Technologies Inc. Noise canceling gradient microphone assembly
KR960042590A (ko) * 1995-05-23 1996-12-21 김광호 테이프 재생용 음량기기에서의 발음비교방법
JP3591068B2 (ja) * 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
US5647834A (en) * 1995-06-30 1997-07-15 Ron; Samuel Speech-based biofeedback method and system
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JPH09172479A (ja) * 1995-12-20 1997-06-30 Yokoi Kikaku:Kk 送受話器およびそれを用いた通話装置
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US6243596B1 (en) * 1996-04-10 2001-06-05 Lextron Systems, Inc. Method and apparatus for modifying and integrating a cellular phone with the capability to access and browse the internet
US5943627A (en) * 1996-09-12 1999-08-24 Kim; Seong-Soo Mobile cellular phone
JPH10261910A (ja) 1997-01-16 1998-09-29 Sony Corp 携帯無線装置およびアンテナ装置
JP2874679B2 (ja) * 1997-01-29 1999-03-24 日本電気株式会社 雑音消去方法及びその装置
JPH10224253A (ja) * 1997-02-10 1998-08-21 Sony Corp 携帯通信機
US6308062B1 (en) * 1997-03-06 2001-10-23 Ericsson Business Networks Ab Wireless telephony system enabling access to PC based functionalities
US5983073A (en) * 1997-04-04 1999-11-09 Ditzik; Richard J. Modular notebook and PDA computer systems for personal computing and wireless communications
US6175633B1 (en) * 1997-04-09 2001-01-16 Cavcom, Inc. Radio communications apparatus with attenuating ear pieces for high noise environments
US6151397A (en) * 1997-05-16 2000-11-21 Motorola, Inc. Method and system for reducing undesired signals in a communication environment
JP4216364B2 (ja) * 1997-08-29 2009-01-28 株式会社東芝 音声符号化/復号化方法および音声信号の成分分離方法
US6434239B1 (en) * 1997-10-03 2002-08-13 Deluca Michael Joseph Anti-sound beam method and apparatus
JPH11249692A (ja) 1998-02-27 1999-09-17 Nec Saitama Ltd 音声認識装置
JPH11265199A (ja) * 1998-03-18 1999-09-28 Nippon Telegr & Teleph Corp <Ntt> 送話器
DE69926290T2 (de) 1998-03-18 2006-04-13 Nippon Telegraph And Telephone Corp. Tragbares Kommunikationsgerät mit Anordnung zum Knochenleitungshören
CA2332833A1 (en) * 1998-05-19 1999-11-25 Spectrx, Inc. Apparatus and method for determining tissue characteristics
US6717991B1 (en) * 1998-05-27 2004-04-06 Telefonaktiebolaget Lm Ericsson (Publ) System and method for dual microphone signal noise reduction using spectral subtraction
US6052464A (en) * 1998-05-29 2000-04-18 Motorola, Inc. Telephone set having a microphone for receiving or an earpiece for generating an acoustic signal via a keypad
US6137883A (en) * 1998-05-30 2000-10-24 Motorola, Inc. Telephone set having a microphone for receiving an acoustic signal via keypad
JP3160714B2 (ja) * 1998-07-08 2001-04-25 株式会社シコー技研 携帯無線通信機
US6292674B1 (en) * 1998-08-05 2001-09-18 Ericsson, Inc. One-handed control for wireless telephone
JP3893763B2 (ja) * 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6760600B2 (en) * 1999-01-27 2004-07-06 Gateway, Inc. Portable communication apparatus
JP2000261534A (ja) * 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 送受話器
DE19917169A1 (de) 1999-04-16 2000-11-02 Kamecke Keller Orla Verfahren zur Speicherung und Wiedergabe von Audio-, Video- und Anwendungsprogrammdaten in Mobilfunkendgeräten
US6542721B2 (en) * 1999-10-11 2003-04-01 Peter V. Boesen Cellular telephone, personal digital assistant and pager unit
US6738485B1 (en) * 1999-05-10 2004-05-18 Peter V. Boesen Apparatus, method and system for ultra short range communication
US6094492A (en) * 1999-05-10 2000-07-25 Boesen; Peter V. Bone conduction voice transmission apparatus and system
US6952483B2 (en) * 1999-05-10 2005-10-04 Genisus Systems, Inc. Voice transmission apparatus with UWB
US20020057810A1 (en) * 1999-05-10 2002-05-16 Boesen Peter V. Computer and voice communication unit with handsfree device
US6560468B1 (en) * 1999-05-10 2003-05-06 Peter V. Boesen Cellular telephone, personal digital assistant, and pager unit with capability of short range radio frequency transmissions
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6594367B1 (en) * 1999-10-25 2003-07-15 Andrea Electronics Corporation Super directional beamforming design and implementation
US6603823B1 (en) * 1999-11-12 2003-08-05 Intel Corporation Channel estimator
US6339706B1 (en) * 1999-11-12 2002-01-15 Telefonaktiebolaget L M Ericsson (Publ) Wireless voice-activated remote control device
US6411933B1 (en) * 1999-11-22 2002-06-25 International Business Machines Corporation Methods and apparatus for correlating biometric attributes and biometric attribute production features
US6675027B1 (en) * 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
JP3736785B2 (ja) * 1999-12-15 2006-01-18 日本電信電話株式会社 通話装置
GB2357400A (en) * 1999-12-17 2001-06-20 Nokia Mobile Phones Ltd Controlling a terminal of a communication system
US6879952B2 (en) * 2000-04-26 2005-04-12 Microsoft Corporation Sound source separation using convolutional mixing and a priori sound source knowledge
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US20020039425A1 (en) * 2000-07-19 2002-04-04 Burnett Gregory C. Method and apparatus for removing noise from electronic signals
US7246058B2 (en) * 2001-05-30 2007-07-17 Aliph, Inc. Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
JP3339579B2 (ja) * 2000-10-04 2002-10-28 株式会社鷹山 電話装置
KR100394840B1 (ko) * 2000-11-30 2003-08-19 한국과학기술원 독립 성분 분석을 이용한 능동 잡음 제거방법
US6853850B2 (en) * 2000-12-04 2005-02-08 Mobigence, Inc. Automatic speaker volume and microphone gain control in a portable handheld radiotelephone with proximity sensors
US20020075306A1 (en) * 2000-12-18 2002-06-20 Christopher Thompson Method and system for initiating communications with dispersed team members from within a virtual team environment using personal identifiers
US6754623B2 (en) * 2001-01-31 2004-06-22 International Business Machines Corporation Methods and apparatus for ambient noise removal in speech recognition
US6985858B2 (en) * 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
WO2002098169A1 (en) * 2001-05-30 2002-12-05 Aliphcom Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
JP2002358089A (ja) * 2001-06-01 2002-12-13 Denso Corp 音声処理装置及び音声処理方法
US6987986B2 (en) * 2001-06-21 2006-01-17 Boesen Peter V Cellular telephone, personal digital assistant with dual lines for simultaneous uses
US20030128848A1 (en) * 2001-07-12 2003-07-10 Burnett Gregory C. Method and apparatus for removing noise from electronic signals
US7054423B2 (en) * 2001-09-24 2006-05-30 Nebiker Robert M Multi-media communication downloading
US6959276B2 (en) * 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US6952482B2 (en) * 2001-10-02 2005-10-04 Siemens Corporation Research, Inc. Method and apparatus for noise filtering
JP3532544B2 (ja) * 2001-10-30 2004-05-31 株式会社テムコジャパン 面体又は帽体のストラップ装着用送受話装置
US7162415B2 (en) * 2001-11-06 2007-01-09 The Regents Of The University Of California Ultra-narrow bandwidth voice coding
US6707921B2 (en) * 2001-11-26 2004-03-16 Hewlett-Packard Development Company, Lp. Use of mouth position and mouth movement to filter noise from speech in a hearing aid
DE10158583A1 (de) * 2001-11-29 2003-06-12 Philips Intellectual Property Verfahren zum Betrieb eines Barge-In-Dialogsystems
US6664713B2 (en) * 2001-12-04 2003-12-16 Peter V. Boesen Single chip device for voice communications
US7219062B2 (en) * 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
US9374451B2 (en) 2002-02-04 2016-06-21 Nokia Technologies Oy System and method for multimodal short-cuts to digital services
AU2003263733A1 (en) * 2002-03-05 2003-11-11 Aliphcom Voice activity detection (vad) devices and methods for use with noise suppression systems
JP2003264883A (ja) * 2002-03-08 2003-09-19 Denso Corp 音声処理装置および音声処理方法
US7117148B2 (en) * 2002-04-05 2006-10-03 Microsoft Corporation Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
JP4095348B2 (ja) * 2002-05-31 2008-06-04 学校法人明治大学 雑音除去システムおよびプログラム
US7190797B1 (en) * 2002-06-18 2007-03-13 Plantronics, Inc. Headset with foldable noise canceling and omnidirectional dual-mode boom
US7092529B2 (en) * 2002-11-01 2006-08-15 Nanyang Technological University Adaptive control system for noise cancellation
TW200425763A (en) * 2003-01-30 2004-11-16 Aliphcom Inc Acoustic vibration sensor
US7593851B2 (en) * 2003-03-21 2009-09-22 Intel Corporation Precision piecewise polynomial approximation for Ephraim-Malah filter
US20060008256A1 (en) * 2003-10-01 2006-01-12 Khedouri Robert K Audio visual player apparatus and system and method of content distribution using the same
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7499686B2 (en) 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US8095073B2 (en) * 2004-06-22 2012-01-10 Sony Ericsson Mobile Communications Ab Method and apparatus for improved mobile station and hearing aid compatibility
US7574008B2 (en) 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7283850B2 (en) * 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device

Also Published As

Publication number Publication date
US7574008B2 (en) 2009-08-11
CA2513195A1 (en) 2006-03-17
JP4842583B2 (ja) 2011-12-21
DE602005017549D1 (de) 2009-12-24
EP1638084B1 (en) 2009-11-11
US20060072767A1 (en) 2006-04-06
CN100583243C (zh) 2010-01-20
ATE448541T1 (de) 2009-11-15
EP1638084A1 (en) 2006-03-22
RU2005127419A (ru) 2007-03-10
RU2389086C2 (ru) 2010-05-10
CA2513195C (en) 2013-12-03
KR20060048954A (ko) 2006-05-18
AU2005202858A1 (en) 2006-04-06
JP2006087082A (ja) 2006-03-30
KR101153093B1 (ko) 2012-06-11
CN1750123A (zh) 2006-03-22

Similar Documents

Publication Publication Date Title
MXPA05008740A (es) Metodo y aparato para el mejoramiento de lenguaje multi-sensorial.
CN111161752B (zh) 回声消除方法和装置
RU2407074C2 (ru) Улучшение речи с помощью нескольких датчиков с использованием предшествующей чистой речи
RU2370831C2 (ru) Способ оценки шума с использованием пошагового байесовского изучения
JP5452655B2 (ja) 音声状態モデルを使用したマルチセンサ音声高品質化
JP4491210B2 (ja) 再帰的構成における反復ノイズ推定法
US7406303B2 (en) Multi-sensory speech enhancement using synthesized sensor signal
CN112767959A (zh) 语音增强方法、装置、设备及介质
JP6891144B2 (ja) 生成装置、生成方法及び生成プログラム
CN116524944A (zh) 音频降噪方法、介质、装置和计算设备
JP2010114552A (ja) エコーキャンセル装置、その方法、そのプログラム、およびその記録媒体

Legal Events

Date Code Title Description
FA Abandonment or withdrawal