MXPA05008740A - Metodo y aparato para el mejoramiento de lenguaje multi-sensorial. - Google Patents
Metodo y aparato para el mejoramiento de lenguaje multi-sensorial.Info
- Publication number
- MXPA05008740A MXPA05008740A MXPA05008740A MXPA05008740A MXPA05008740A MX PA05008740 A MXPA05008740 A MX PA05008740A MX PA05008740 A MXPA05008740 A MX PA05008740A MX PA05008740 A MXPA05008740 A MX PA05008740A MX PA05008740 A MXPA05008740 A MX PA05008740A
- Authority
- MX
- Mexico
- Prior art keywords
- language
- signal
- channel response
- estimate
- value
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000004044 response Effects 0.000 claims abstract description 57
- 230000006870 function Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 5
- 238000000465 moulding Methods 0.000 claims 1
- 238000005303 weighing Methods 0.000 claims 1
- 239000004020 conductor Substances 0.000 description 18
- 238000004891 communication Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 210000000988 bone and bone Anatomy 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 210000003625 skull Anatomy 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- CDFKCKUONRRKJD-UHFFFAOYSA-N 1-(3-chlorophenoxy)-3-[2-[[3-(3-chlorophenoxy)-2-hydroxypropyl]amino]ethylamino]propan-2-ol;methanesulfonic acid Chemical compound CS(O)(=O)=O.CS(O)(=O)=O.C=1C=CC(Cl)=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC(Cl)=C1 CDFKCKUONRRKJD-UHFFFAOYSA-N 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/13—Hearing devices using bone conduction transducers
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Otolaryngology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Machine Translation (AREA)
Abstract
Un metodo y aparato determinan una respuesta de canal para un sensor alternativo que utiliza una senal de sensor alternativa y una senal de microfono de conduccion de aire. La respuesta de canal despues de utilizada para estimar un valor de lenguaje limpio que utiliza al menos una porcion de la senal de sensor alternativa.
Description
MÉTODO Y APARATO PARA EL MEJORAMIENTO DE LENGUAJE MULTI-SENSORIAL ANTECEDENTES DE LA INVENCIÓN
La presente invención se refiere a la reducción de ruido. En particular, la presente invención se refiere a remover ruido de señales de lenguaje. Un problema común en el reconocimiento de lenguaje y transmisión de lenguaje es la corrupción de la señal de lenguaje por ruido aditivo. En particular, la corrupción debido al lenguaje de otro hablante ha probado se, difícil para detectar y/o corregir. Recientemente, se ha desarrollado un sistema que intenta remover ruido al utilizar una combinación de un sensor alternativo, tal como un micrófono de conducción de hueso, y un micrófono de conducción de aire. Este sistema es entrenado utilizando tres canales de entrenamiento: una señal de entrenamiento de sensor alternativo de ruido, una señal de entrenamiento de micrófono de conducción de aire ruidoso, y una señal de entrenamiento de micrófono de conducción de aire limpio. Cada una de las señales es convertida en un dominio de característica. Las características para la señal de sensor alternativo ruidoso y la señal de micrófono de conducción de aire ruidoso son combinadas en un vector individual que representa una señal ruidosa. Las características para la señal de micrófono de conducción de aire limpio forman un vector limpio individual. Estos vectores después son utilizados para entrenar un delineado entre los vectores ruidosos y los vectores limpios. Una vez entrenados, los delineados con aplicados para un vector ruidoso formado de una combinación de una señal de prueba de sensor alternativo ruidoso y una señal de prueba de micrófono de conducción de aire ruidoso. Este delineado produce un vector de señal limpia. Este sistema es menos que óptimo cuando las condiciones de ruido de las señales de prueba no se ajustan a las condiciones de ruido de las señales de entrenamiento debido a que los delineados están designados para las condiciones de ruido de las señales de entrenamiento.
COMPENDIO DE LA INVENCIÓN
Un método y aparato determinan una respuesta de canal para un sensor alternativo que utiliza una señal de sensor alternativa y una señal de micrófono de conducción de aire. La respuesta de canal después de utilizada para estimar un valor de lenguaje limpio que utiliza al menos una porción de la señal de sensor alternativa.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
La Figura 1 es un diagrama de bloque de un ambiente de cómputo en el que la presente invención puede ser practicada.
La Figura 2 es un diagrama de bloque de un ambiente de cómputo alternativo en el que la presente invención puede ser practicada. La Figura 3 es un diagrama de bloque de un sistema de procesamiento de lenguaje general de la presente invención. La Figura 4 es un diagrama de bloque de un sistema para el mejoramiento de lenguaje de una modalidad de la presente invención. La Figura 5 es un diagrama de flujo para el mejoramiento de lenguaje bajo una modalidad de la presente invención. La Figura 6 es un diagrama de flujo para el mejoramiento de lenguaje bajo otra modalidad de la presente invención. La Figura 7 es un diagrama de flujo para el mejoramiento de lenguaje bajo otra modalidad de la presente invención.
DESCRIPCIÓN DETALLADA DE LAS MODALIDADES ILUSTRATIVAS
La Figura 1 ilustra un ejemplo de un ambiente de sistema de cómputo adecuado 100 en el que la invención puede ser implementada. El ambiente de sistema de cómputo 100 es sólo un ejemplo de un ambiente de cómputo adecuado y no se pretende sugerir cualquier limitación al alcance de uso o funcionalidad de la invención. El ambiente de cómputo 100 tampoco debe ser interpretado cono teniendo cualquier dependencia o requerimiento que se relaciona a cualquier componente o combinación de ellos ilustrados en el ambiente operativo ilustrativo 100. La invención es operacional con numerosos otros ambientes o configuraciones de sistema de cómputo de propósito general o propósito especial. Ejemplos de sistemas de cómputo, ambientes, y/o configuraciones bien conocidos que pueden ser adecuados para utilizarse con la invención incluyen, pero no se limitan a, computadoras personales, computadoras de servidor, dispositivos móviles o portátiles, sistemas de multiprocesador; sistemas basados en microprocesador, cajas de T.V. por cable, aparatos electrónicos programables para el consumidor, PCs de red, minicomputadoras, macrocomputadoras, sistemas de telefonía, ambientes de cómputo distribuidos que incluyen cualquiera de los sistemas o dispositivos anteriores, y similares. La invención puede ser descrita en el contexto general de instrucciones ejecutables de computadora, tal como módulos de programa, siendo ejecutados por una computadora. Generalmente, los módulos incluyen rutinas, programas, objetos, componentes, estructuras de datos, etc. que realizan tareas particulares o implementan tipos de datos abstractos particulares. La invención también está diseñada para ser practicada en ambientes de cómputo distribuidos en dónde las tareas son realizadas por dispositivos de procesamiento remotos que están conectados a través de una red de comunicaciones. En un ambiente de cómputo distribuido, los módulos de programa están localizados tanto en medios de almacenamiento de computadora locales y remotos que incluyen dispositivos de almacenamiento de memoria. Con referencia a la Figura 1, un sistema ilustrativo para implementar la invención incluye un dispositivo de cómputo de propósito general en la forma de una computadora 110. Los componentes de computadora 110 pueden incluir, pero no están limitados a, una unidad de procesamiento 120, una memoria de sistema 130, y un conductor común de sistema 121 que acopla varios componentes de sistema que incluyen la memoria de sistema a la unidad de procesamiento 120. El conductor común de sistema 121 puede ser cualquiera de varios tipos de estructuras de conductor común que incluyen un conductor común de memoria o controlador de memoria, un conductor común periférico, y un conductor común local que utiliza cualquiera de una variedad de arquitecturas de conductor común. Como ejemplo, y no limitación, tales arquitecturas incluyen conductor común de Arquitectura Estándar de Industria (ISA), conductor común de Arquitectura de Micro Canal (MCA), conductor común ISA Mejorado (EISA), conductor común local de Asociación de Estándares de Aparatos Electrónicos de Vídeo (VESA), y conductor común lnterconectado de Componente Periférico (PCI) también conocido como conductor común de Entrepiso. La computadora 110 típicamente incluye una variedad de medios legibles de computadora. Los medios legibles de computadora pueden ser cualquier medio disponible que puede ser accedido por la computadora 110 e incluye tanto medios volátiles como no volátiles, medios removibles y no removibles. Como ejemplo, y no limitación, los medios legibles de computadora pueden comprender medios de almacenamiento de computadora y medios de comunicación. Los medios de almacenamiento de computadora incluyen tanto medios volátiles y no volátiles, removibles y no removibles implementados en cualquier método o tecnología para almacenamiento de información tal como instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos. Los medios de almacenamiento de computadora incluyen, pero no se limitan a, RAM, ROM, EEPROM, memoria instantánea u otra tecnología de memoria, CD-ROM, discos versátiles digitales (DVD) u otro almacenamiento de disco óptico, cassettes magnéticos, cinta magnética, almacenamiento de disco magnético u otros dispositivos de almacenamiento magnético, o cualquier otro medio que puede ser utilizado para almacenar la infamación deseada y que puede ser accedido por la computadora 110. Los medios de comunicación típicamente representan instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos en una señal de datos modulada tal como onda de vehículo u otro mecanismo de transporte e incluye cualquier medio de entrega de información. El término "señal de datos modulada" significa una señal que tiene una o más de sus características establecidas o cambiadas de tal forma para codificar información en la señal. Como ejemplo, y no limitación, los medios de comunicación incluyen medios alámbricos tal como red alámbrica o conexión alámbrica directa, y medios inalámbricos tal como medios acústicos, RF, infrarrojos u otros inalámbricos. Combinaciones de cualquiera de los anteriores también deben estar incluidas dentro del alcance de medio legible por computadora. La memoria de sistema 130 incluye medios de almacenamiento de computadora en la forma de memoria volátil y/o no volátil tal como memoria sólo de lectura (ROM) 131 y memoria de acceso al aleatorio (RAM) 132. Un sistema de entrada/salida básico 133 (BIOS), que contiene las rutinas básicas que ayudan a transferir información entre elementos dentro de la computadora 110, tal como durante el arranque, está típicamente almacenado en ROM 131. RAM 132 típicamente contiene datos y/o módulos de programa que son inmediatamente accesibles y/o ahora están siendo operados por la unidad de procesamiento 120. Como ejemplo, y no limitación, la Figura 1 ilustra el sistema operativo 134, programas de aplicación 135, otros módulos de programa 136, y datos de programa 137. La computadora 110 también puede incluir otros medios de almacenamiento de computadora removibles/no removibles, volátiles/ no volátiles. Sólo como ejemplo, la Figura 1 ilustra una unidad de disco duro 141 que lee de o escribe a medios magnéticos no removibles, no volátiles, una unidad de disco magnético 151 que lee de o escribe a un disco magnético removible, no volátil 152, y una unidad de disco óptico 155 que lee de o escribe a un disco óptico removible, no volátil 156 tal como un CD ROM u otros medios ópticos. Otros medios de almacenamiento de computadora removibles/no removibies, volátiles/no volátiles que pueden ser utilizados en el ambiente operativo ilustrativo incluyen, pero no se limitan a, cassettes de cinta magnética, tarjetas de memoria instantánea, discos versátiles digitales, cinta de video digital, RAM de estado sólido, ROM de estado sólido, y similares. La unidad de disco duro 141 está típicamente conectada al conductor común de sistema 121 a través de una interfase de memoria no removible tal como interfase 140, y unidad de disco magnético 151 y unidad de disco óptico 155 están típicamente conectados al conductor común de sistema 121 a través de una interfase de memoria removible, tal como interfase 150. Las unidades y sus medios de almacenamiento de computadora asociados discutidos anteriormente e ¡lustrados en la Figura 1, proporcionan almacenamiento de instrucciones legibles por computadora, estructuras de datos, módulos de programa y otros datos para la computadora 110. En la Figura 1, por ejemplo, la unidad de disco duro 141 es ilustrada como sistema operativo de almacenamiento 144, programas de aplicación 145, otros módulos de programa 146, y datos de programa 147. Se debe notar que estos componentes ya sea que pueden ser iguales o diferentes al sistema operativo 134, programas de aplicación 135, otros módulos de programa 136, y datos de programa 137. El sistema operativo 144, programas de aplicación 145, otros módulos de programa 146, y datos de programa 147 aquí se les da números diferentes para ilustrar que, en un mínimo, son copias diferentes. Un usuario puede introducir órdenes e información en la computadora 110 a través de dispositivos de entrada tal como teclado 162, un micrófono 163, y un dispositivo de señalamiento 161, tal como un ratón, seguibola o almohadilla sensible al tacto. Otros dispositivos de entrada (no mostrados) pueden incluir una palanca de mandos, almohadilla para juegos, antena parabólica, escáner, o similares. Estos y otros dispositivos de entrada están conectados frecuentemente a la unidad de procesamiento 120 a través de una interfase de entrada de usuario 160 que está acoplada al conductor común de sistema, pero puede estar conectada a través de otra interfase y estructuras de conductor común, tal como un puerto paralelo, puerto de juego o un conductor común en serie universal (USB). Un monitor 191 u otro tipo de dispositivo de exhibición también está conectado al conductor común de sistema 121 por medio de una interfase, tal como una interfase de video 190. Además del monitor, las computadoras también pueden incluir otros dispositivos de salida periféricos tal como bocinas 197 e impresora 196, que pueden estar conectados a través de una interfase periférica de salida 195. La computadora 110 es operada en un ambiente en red que utiliza conexiones lógicas a una o más computadoras remotas, tal como computadora remote 180. La computadora remota 180 puede ser una computadora personal, un dispositivo portátil, un servidor, un enrutador, una PC de red, un dispositivo par u otro nodo de red común, y típicamente incluye muchos o todos los elementos descritos anteriormente relativos a la computadora 110. Las conexiones lógicas ilustradas en ia Figura 1 incluyen una red de área local (LAN) 171 y una red de área amplia (WAN) 173, pero también puede incluir otras redes. Tales ambientes en red están ubicados comúnmente en oficinas, redes de computadoras amplias de empresa, intranets e Internet. Cuando se utiliza en un ambiente en red de LAN, la computadora 110 está conectada al LAN 171 a través de una interfase de red o adaptador 170. Cuando se utiliza en un ambiente en red de WAN, la computadora 110 típicamente incluye un modem 172 u otros medios para establecer comunicación en el WAN 173, tal como Internet. El módem 172, que puede ser interno o externo, puede estar conectado al conductor común de sistema 121 por medio de la interfase de entrada de usuario 160, u otro mecanismo apropiado. En un ambiente en red, los módulos de programa ilustrados relativos a la computadora 110, o porciones de la misma, pueden ser almacenados en el dispositivo de almacenamiento de memoria remoto. Como ejemplo, y no limitación, la Figura 1 ilustra programas de aplicación remotos 185 como residentes en la computadora remota 180. Se apreciará que las conexiones de red mostradas son ilustrativas y otros medios de establecer una conexión de comunicaciones entre las computadoras pueden ser utilizados. La Figura 2 es un diagrama de bloque de un dispositivo móvil 200, que es un ambiente de cómputo ilustrativo. El dispositivo móvil 200 incluye un microprocesador 202, memoria 204, componentes de entrada/salida (l/O) 206, y una interfase de comunicación 208 para comunicarse con computadoras remotas u otros dispositivos móviles. En una modalidad, los componentes antes mencionados están acoplados para comunicación con otro en un conductor común adecuado 210. La memoria 204 es implementada como una memoria electrónica no volátil tal como una memoria de acceso aleatorio (RAM) con un módulo de soporte de batería (no mostrado) para que la información almacenada en la memoria 204 no se pierda cuando la fuente de energía general se cierre para el dispositivo móvil 200. Una porción de memoria 204 es preferiblemente distribuida como memoria dirigible para ejecución de programa, mientras otra porción de memoria 204 es preferiblemente utilizada para almacenamiento, tal como para simular almacenamiento en una unidad dura. La memoria 204 incluye un sistema operativo 212, programas de aplicación 214 así como un almacenamiento de objeto 216. Durante la operación, el sistema operativo 212 es preferiblemente ejecutado por el procesador 202 a partir de la memoria 204. El sistema operativo 212, en una modalidad preferida, es un sistema operativo de marca de WINDOWS® comercialmente disponible de la Corporación de Microsoft. El sistema operativo 212 es preferiblemente diseñado para dispositivos móviles, e implementa características de bases de datos que pueden ser utilizadas por aplicaciones 214 a través de un grupo de interfases y métodos de programación de aplicación expuesta. Los objetos en el almacenamiento de objeto 216 con mantenidos por aplicaciones 214 y el sistema operativo 212, al menos parcialmente en respuesta a llamados a las interfases y métodos de programación de aplicación expuesta. La interfase de comunicación 208 representa numerosos dispositivos y tecnologías que permiten al dispositivo móvil 200 enviar y recibir información. Los dispositivos incluyen módems alámbricos e inalámbricos, receptores de satélite y cambiador de emisión por nombrar algunos. El dispositivo móvil 200 también puede estar directamente conectado a una computadora para intercambiar datos con eso. En tales casos, la interfase de comunicación 208 puede ser un transmisor infrarrojo o una conexión de comunicación en serie o paralela, de los cuales todos son capaces de transmitir información de corriente. Los componentes de entrada/salida 206 incluyen una variedad de dispositivos de entrada tal como una pantalla sensible al tacto, botones, rodillos, y un micrófono así como una variedad de dispositivos de salida que ¡ncluyen un generador de audio, un dispositivo vibrados, y la presentación. Los dispositivos listados anteriormente son ejemplos y no necesitan estar todos presentes en el dispositivo móvil 200. Además, otros dispositivos de entrada/salida pueden estar unidos a o encontrarse con el dispositivo móvil 200 dentro del alcance de la presente invención. La Figura 3 proporciona un diagrama de bloque básico de modalidades de la presente invención. En la Figura 3, una bocina 300 genera una señal de lenguaje 302 (X) que es detectada por un micrófono de conducción de aire 304 y un sensor alternativo 306. Los ejemplos de sensores alternativos incluyen un micrófono de garganta que mide las vibraciones de garganta del usuario, un sensor de conducción de hueso que está localizado en o es adyacente a un hueso facial o de cráneo del usuario (tal como el hueso de la mandíbula) o en el oído del usuario y que siente las vibraciones del cráneo y mandíbula que corresponde al lenguaje generado por el usuario. El micrófono de conducción de aire 304 es el tipo de micrófono que es utilizado comúnmente para convertir ondas de aire de audio en señales eléctricas. El micrófono de conducción de aire 304 también recibe ruido de ambiente 308 (U) generado por una o más fuentes de ruido 310 y lenguaje de antecedente 312 (V) generado por bocina(s) de antecedente 314. Dependiendo en el tipo de sensor alternativo y el nivel del lenguaje de antecedente, el lenguaje de antecedente 312 también puede ser detectado por el sensor alternativo 306. Sin embargo, bajo las modalidades de la presente invención, el sensor alternativo 306 es típicamente menos sensitivo para ruido de ambiente y lenguaje de antecedente que el micrófono de conducción de aire 304. De esa forma, la señal de sensor alternativo 316 (B) generada por el sensor alternativo 306 generalmente incluye menos ruido que la señal de micrófono de conducción de aire 318 (Y) generada por el micrófono de conducción de aire 304. Aunque el sensor alternativo 306 es menos sensitivo para ruido de ambiente, no genera algún ruido de sensor 320 (W).
El camino de la bocina 300 a la señal de sensor alternativo 316 puede ser moldeado como un canal que tiene una respuesta de canal
H. El camino de la bocina(s) de antecedente 314 a la señal de sensor alternativo 316 puede ser moldeada como un canal que tiene una respuesta de canal G. La señal de sensor alternativo 316 (B) y la señal de micrófono de conducción de aire 318 (Y) son proporcionadas para un estimador de señal limpia 322, que estima una señal limpia 324 y en algunas modalidades, estima una señal de lenguaje de antecedente 326. El estimado de señal limpia 324 es proporcionado para un procedimiento de lenguaje 328. El estimado de señal limpia 324 puede ser ya sea una señal de dominio de tiempo filtrado o un vector de Transformador de Fourier. Si el estimado de señal limpia 324 es una señal de dominio de tiempo, el procedimiento de lenguaje 328 toma la forma de un oyente, un sistema de codificación de lenguaje, o un sistema de reconocimiento de lenguaje. Si el estimado de señal limpia 324 es un vector de Transformación de Fourier, el procedimiento de lenguaje 328 típicamente será un sistema de reconocimiento de lenguaje, o contendrá una Transformación de Fourier Inversa para convertir el vector de Transformación de Fourier en formas de onda. Dentro del mejoramiento de filtrado directo 322, la señal de sensor alternativo 316 y señal de micrófono 318 son convertidas en el dominio de frecuencia siendo utilizado para estimar el lenguaje limpio. Como se muestra en la Figura 4, la señal de sensor alternativo 316 y la señal de micrófono de conducción de aire 318 son proporcionados a convertidores análogos a digitales 404 y 414, respectivamente, para generar una secuencia de valores digitales, que están agrupados en estructuras de valores por constructores de estructura 406 y 416, respectivamente. En una modalidad, los convertidores A a D 404 y 414 muestran las señales análogas en 16 kHz y 16 bits por muestreo, de esa forma creando 32 kilo bites de datos de lenguaje por segundo y constructores de estructura 406 y 416 crean una nueva estructura respectiva cada 10 milisegundos que incluye valor de 20 milisegundos de datos. Cada estructura respectiva de datos proporcionada por constructores de estructura 406 y 416 es convertida en el dominio de frecuencia que utiliza Transformaciones de Fourier Rápidas (FFT) 408 y 418, respectivamente. Los valores de dominio de frecuencia para la señal de sensor alternativa y la señal de micrófono de conducción de aire son proporcionadas para el estimador de señal limpia 420, que utiliza los valores de dominio de frecuencia para estimar la señal de lenguaje limpia 324 y en algunas modalidades la señal de lenguaje de antecedente 326. Bajo algunas modalidades, la señal de lenguaje limpio 324 y señal de lenguaje de antecedente 326 son convertidas otra vez al dominio de tiempo que utiliza las Transformaciones de Fourier Rápidas Inversas 422 y 424. Esto crea versiones de dominio de tiempo de señal de lenguaje limpia 324 y señal de lenguaje de antecedente 326. La presente invención proporciona técnicas de filtración directas para estimar la señal de lenguaje limpia 324. Bajo ia filtración directa, se determinan un estimado de probabilidad máxima de la respuesta(s) de canal para el sensor alternativo 306 al minimizar una función relativa a la respuesta(s) de canal. Estos estimados después son utilizados para determinar un estimado de probabilidad máxima de la señal de lenguaje limpia al minimizar una función relativa a la señal de lenguaje limpia. Bajo una modalidad de la presente invención, la respuesta de canal G que corresponde al lenguaje de antecedente siendo detectado por el sensor alternativo es considerado para ser cero y el lenguaje de antecedente y ruido de ambiente son combinados para formar un término de ruido individual. Estos resultados en un modelo entre la señal de lenguaje limpia y la señal de micrófono de conducción de aire y señal de sensor alternativo de:
y(t) -- x(t) + z(t) Ec. 1 b(t) = h(t)*x(t) + w(t) Ec. 2
en donde y(t) es la señal de micrófono de conducción de aire, b(t) es la señal de sensor alternativo, x(t) es la señal de lenguaje limpia, z(t) es la señal de ruido combinada que incluye lenguaje de antecedente y ruido de ambiente, w(t) es el ruido de sensor alternativo, y h(t) es la respuesta de canal para la señal de lenguaje limpio asociado con el sensor alternativo. De esa forma, en la Ecuación 2, la señal de sensor alternativo es moldeada como una versión filtrada del lenguaje limpio, en donde el filtro tiene una respuesta de impulso de h(t). En el dominio de frecuencia, las Ecuaciones 1 y 2 pueden ser expresadas:
Yt(k) = xt(k) . zt(k) Ec. 3 Bt(k) = Ht(k)*Xt(k) + Wt(k) Ec. 4
en donde la anotación Yt(k) representa el kvo componente de frecuencia de una estructura de una señal centrada alrededor del tiempo t. Esta anotación se aplica a Xt(k), Zt(k), Ht(k), Wt(k), y Bt(k). En la siguiente discusión, se omite la referencia al componente de frecuencia k por claridad. Sin embargo, aquellos expertos en la técnica reconocerán que los cálculos realizados más adelante son realizados en una base de componente por frecuencia Bajo esta modalidad, las partes reales e imaginarias del ruido Zt y Wt están moldeados como Gaussianos a cero independiente para que:
Zf = N(0,s22) Ec. 5 Wt = N(0,s2w) Ec. 6
en donde s2z es la variante para ruido Zt y s2-, es la variante para ruido Wt. Ht también es moldeado como un Gaussiano para que
Ht = N(H,s2H) Ec. 7
en donde H0 es el medio de la respuesta de canal y s2H es la variante de la respuesta de canal. Dado estos parámetros de modelo, la probabilidad de un valor de lenguaje limpio X, y un valor de respuesta de canal Hf, es descrito por la probabilidad condicional:
p(Xt, Ht | Yt, Bu H0s' H) Ec. 8
que es proporcional a:
p(Yt, Bt | Xu H t, s¿zs )P(Ht | Ho, s¿H)p(Xt) Ec. 9
que es igual a:
p(Yt | X s2z)p(Bt | Xt, H s2w)p(Ht | H0, s2H)p(Xt) Ec. 10
En una modalidad, la prioridad anterior para la respuesta de canal, p(Ht \ H0, s2H), y la probabilidad anterior para la señal de lenguaje limpio, p(Xt), son ignorados y las probabilidades de permanecer son tratadas como distribuciones Gaussianas. Al utilizar estas simplificaciones, la Ecuación 10 se convierte:
Ec. 11 De esa forma, el estimado de probabilidad máxima de Hi, Xt, para un lenguaje es determinado al minimizar el término de exponente de la Ecuación 11 a través de todas las estructuras de tiempo T en el lenguaje. De esa forma, el estimado de probabilidad máxima es proporcionado al minimizar:
Ec. 12 Ya que la Ecuación 12 esta siendo minimizada con respecto a dos variables, Xt, Ht, el derivativo parcial con respecto a cada variable puede ser tomado para determinar el valor de esa variable que minimiza la función. Específicamente, 9F. = 0 da: 3Xt
en donde H*t representa el conjugado completo de Ht y |Ht| representa la magnitud del valor complejo Ht. Al substituir este valor de X, en la Ecuación 12, que i- = o establece el Derivado parcial dH' y después asume que H es constante a través de todas las estructuras de tiempo T da una solución para H de:
Ec. 14 En la Ecuación 14, el estimado de H requiere calcular varias sumas en la última de las estructuras de T en la forma de:
Ec. 15 en donde st es (s2z|Bt|2 -s2w|Yt|2)_o Bt*Y Con esta fórmula, la primera estructura (t=1) es tan importante como la última estructura (t=T). Sin embargo, en otras modalidades se prefiere que las últimas estructuras contribuyan más al estimado de H más que las estructuras antiguas. Una técnica para lograr esto es "otra vez el exponente", en el que las sumas de la Ecuación 15 son reemplazadas con:
T sm^'S, í=l Ec. 16 en donde c l. Si c = 1, entonces la Ecuación 16 es equivalente a la Ecuación 15. Si c < 1, entonces la última estructura es pesada por 1, la penúltima estructura es pesada por c (es decir, contribuye menos que la última estructura), y la primera estructura es pesada por ct"1 (es decir, contribuye significativamente menos que la última estructura). Tomar un ejemplo. Permitir c = 0.99 y T = 100, entonces el peso para la primera estructura es sólo 0.9999 = 0.37. Bajo una modalidad, la Ecuación 16 es estimada recursivamente como:
S(T) = cS'(T-1) + st Ec. 17
Ya que la Ecuación 17 automáticamente pesa los datos antiguos menos, una longitud de ventana fija no necesita ser utilizada, y los datos de las últimas estructuras T no necesitan ser almacenadas en la memoria. En vez de eso, sólo el valor para S(T-1) en la estructura previa necesita ser almacenado. Al utilizar la Ecuación 17, la Ecuación 14 se convierte:
Ec.18
en donde: J(T) = cJ(T-1) + (s2-\Bt\2-s2w\Yt\2) Ec. 19 K(T) = cK(T-1) + Bt*Yt Ec. 20 El valor de c en las ecuaciones 19 y 20 proporciona una longitud efectiva para el número de estructuras pasadas que son utilizadas para calcular el valor actual de j(T) y K(T). Específicamente, la longitud efectiva es proporcionada por:
Ec. 21
La longitud efectiva asintótica es proporcionada por:
Ec. 22
o equivalentemente,
c = L - 1 Ec. 23
De esa forma, al utilizar la ecuación 23, c puede ser establecida para lograr diferentes longitudes efectivas en la ecuación 18. Por ejemplo, para lograr una longitud efectiva de 200 estructuras, c es establecida como:
C= 199.= 0-995 Ec. 24 Una vez que H ha sido estimada utilizando la Ecuación 14, puede ser utilizada en lugar de todas las Ht de la Ecuación 13 para determinar un valor separado de Xt en cada estructura de tiempo t. Alternativamente, la ecuación 18 puede ser utilizada para estimar Ht en cada estructura de tiempo t. El valor de Ht en cada estructura después es utilizado en la Ecuación 13 para determinar Xt. La Figura 5 proporciona un diagrama de flujo de un método de la presente invención que utiliza las Ecuaciones 13 y 14 para estimar un valor de lenguaje limpio para una expresión. En el paso 500, los componentes de frecuencia de las estructuras de la señal de micrófono de conducción de aire y la señal de sensor alternativo son capturados a través de una expresión completa. En el paso 502 la variante para el ruido de micrófono de conducción de aire s2- y el ruido de sensor alternativo s2w es determinado de las estructuras de la señal de micrófono de conducción de aire y la señal de sensor alternativo, respectivamente, que son capturadas antes en el lenguaje durante períodos cuando el hablante no está hablando. El método determina cuando el hablante no está hablando al identificar porciones de energía baja de la señal de sensor alternativo, ya que la energía del ruido de sensor alternativo es mucho más pequeña que la señal de lenguaje capturada por la señal de sensor alternativo. En otras modalidades, las técnicas de detección de lenguaje conocidas pueden ser aplicadas a la señal de lenguaje de conducción de aire para identificar cuando el hablante está hablando. Durante los períodos cuando no se considera que el hablante no está hablando, se asume Xt que es cero y cualquier señal del micrófono de conducción de aire o el sensor alternativo es considerado para ser ruido. Las muestras de los valores de ruido son recolectadas de las estructuras de no lenguaje y son utilizadas para estimar la variante del ruido en la señal de conducción de aire y la señal de sensor alternativo. En el paso 504, los valores para la señal de sensor alternativo y la señal de micrófono de conducción de aire a través de todas las estructuras del lenguaje son utilizados para determinar un valor de H que utiliza la anterior Ecuación 14. En el paso 506, este valor de H es utilizado junto con los valores individuales de la señal de micrófono de conducción de aire y la señal de sensor alternativa en cada estructura de tiempo para determinar un valor de lenguaje mejorado o reducido de ruido para cada estructura de tiempo que utiliza la anterior Ecuación 13. En otras modalidades, en vez de utilizar todas las estructuras del lenguaje para determinar un valor individual de H que utiliza la Ecuación 14, Ht es determinada para cada estructura que utiliza la Ecuación 18. El valor de Ht después es utilizado para calcular Xt, para la estructura que utiliza la anterior Ecuación 13. En una segunda modalidad de la presente invención, la respuesta de canal del sensor alternativo para el lenguaje de antecedente es considerada para ser no cero. En esta modalidad, la señal de micrófono de conducción de aire y la señal de sensor alternativo son moldeadas como:
Yt(k) = Xt(k) + Vt(k) + Ut(k) Ec. 25 Bt(k) = Ht(k)Xt(k) + Gt(k)Vt(k) + Wt(k) Ec. 26
en done el ruido Zt(k) ha sido separada en el lenguaje de antecedente Vt(k) y el ruido de ambiente (Ut(k), y la respuesta de canal de sensores alternativos para el lenguaje de antecedente es un valor de no cero de Gt(k). De acuerdo con esta modalidad, el conocimiento anterior del lenguaje limpio Xt continúa para ser ignorado. Al hacer esta suposición, la probabilidad máxima para ei lenguaje limpio Xt puede ser encontrada al minimizar la función objetivo:
Ec. 27 Esto da como resultado en una ecuación para el lenguaje limpio de:
Ec. 28 Con el fin de resolver la Ecuación 28, las variantes s2w, s2u y s2- así como los valores de respuesta de canal Ht y Gt deben ser conocidos. La Figura 6 proporciona un diagrama de flujo para identificar estos valores y para determinar valores de lenguaje mejorados para cada estructura. En el paso 600, las estructuras del lenguaje son identificadas en donde el usuario no está hablando y no existe lenguaje de antecedente. Estas estructuras después son utilizadas para determinar la variante s2w y s2u para el sensor alternativo y el micrófono de conducción de aire, respectivamente. Para identificar estructuras en donde el usuario no está hablando, la señal de sensor alternativo puede ser examinada. Ya que la señal de sensor alternativo producirán valores de señal mucho más pequeños para lenguaje de antecedente que para ruido, si la energía de la señal de sensor alternativo es baja, se puede asumir que el hablante no está hablando. Dentro de las estructuras basándose en la señal alternativa, un algoritmo de detección de lenguaje puede ser aplicado a la señal de micrófono de conducción de aire. Este sistema de detección de lenguaje detectará si existe el lenguaje de antecedente presente en la señal de micrófono de conducción de aire cuando el usuario no está hablando. Tales algoritmos de detección de lenguaje son bien conocidos en la técnica e incluyen sistemas tal como sistemas de rastreo de grado. Después de que se han determinado las variantes para el ruido asociado con el micrófono de conducción de aire y el sensor alternativo, el método de la Figura 6 continúa en el paso 602 en donde identifica estructuras en donde el usuario no está hablando pero hay lenguaje de antecedente presente. Las estructuras son identificadas utilizando la misma técnica descrita anteriormente pero selecciona aquellas estructuras que incluyen lenguaje de antecedente cuando el usuario no está hablando. Para aquellas estructuras que ¡ncluyen lenguaje de antecedente cuando el usuario no está hablando, se asume que el lenguaje de antecedente es mucho más grande que el ruido de ambiente. Como tal, cualquier variante en la señal de micrófono de conducción de aire durante aquellas estructuras es considerada para ser del lenguaje de antecedente. Como un resultado, la variante s2v puede ser establecida directamente de los valores de la señal de micrófono de conducción de aire durante aquellas estructuras cuando el usuario no está hablando pero existe lenguaje de antecedente. En el paso 604, las estructuras son identificadas en donde el usuario no está hablando pero existe lenguaje de antecedente son utilizadas para estimar la respuesta de canal G de sensor alternativo para lenguaje de antecedente. Específicamente, G es determinada como:
Ec. 29 En donde D es el número de estructuras en las que el usuario no está hablando pero existe lenguaje de antecedente. En la Ecuación 29, se asume que G permanece constante a través de todas las estructuras del lenguaje y de esa forma ya no es dependiente en la estructura de tiempo t. En el paso 606, el valor de la respuesta de canal G del sensor alternativo para el lenguaje de antecedente es utilizado para determinar la respuesta de canal de sensor alternativo para la señal de lenguaje limpio. Específicamente, H es calculada como:
Ec. 30 En la Ecuación 30, la suma en T puede ser reemplazada con el cálculo de disminución exponencial recursivo discutido anteriormente en conexión con las ecuaciones 15-24. Después de que H ha sido determinada en el paso 606, la
Ecuación 28 puede ser utilizada para determinar un valor de lenguaje limpio para todas las estructuras. Al utilizar la Ecuación 28, Ht y Gt son reemplazadas con los valores independientes de tiempo H y G, respectivamente. Además, de acuerdo con algunas modalidades, el término Bt-GYt en la Ecuación 28 es reemplazado con (1-|GYL[) B, |B.| debido a que se ha encontrado para ser más difícil de determinar precisamente la diferencia de fase entre el lenguaje de antecedente y su escape en el sensor alternativo. Si el cálculo de disminución exponencial recursivo es utilizado en lugar de las sumas en la Ecuación 30, un valor separado de Ht puede ser separado para cada estructura de tiempo y puede ser utilizado como Ht en la ecuación 28. En otra extensión de la modalidad anterior, es posible proporcionar un estimado de la señal de lenguaje de antecedente en cada estructura de tiempo. En particular, una vez que el valor de lenguaje limpio ha sido determinado, el valor de lenguaje de antecedente en cada estructura puede ser determinado como:
Ec. 31 El paso opcional es mostrado como paso 610 en la Figura 6. En las modalidades anteriores, el conocimiento anterior de la r'espuesta de canal del sensor alternativo para la señal de lenguaje limpio ha sido ignorado. En otra modalidad, el conocimiento anterior puede ser utilizado, si es proporcionado, para generar un estimado de la respuesta de canal en cada estructura de tiempo Ht y para determinar el valor de lenguaje limpio Xt. En esta modalidad, la respuesta de canal para el ruido de lenguaje de antecedente es una vez más asumido para ser cero. De esa forma, el modelo de la señal de conducción de aire y la señal de sensor alternativo es el mismo que el modelo mostrado en las anteriores Ecuaciones 3 y 4. Las ecuaciones para estimar el valor de lenguaje limpio y la respuesta de canal Ht en cada estructura de tiempo con determinados al minimizar la función de objetivo:
Ec. 32 Esta función de objetivo es minimizada con respecto a Xt y Ht al tomar los derivativos parciales relativos a estas dos variables ¡ndependientemente y establecer los resultados ¡guales a cero. Esto proporciona las siguientes ecuaciones para Xt y Hf:
X. (sw2Yt+slHtBt) <+<?; H.
Ec.33
Ec. 34 En donde ?0 y s2H son el medio y variante, respectivamente, del modelo anterior para la respuesta de canal del sensor alternativo para la señal de lenguaje limpia. Debido a que la ecuación para X incluye Ht y la ecuación para Ht incluye la variable Xt, las Ecuaciones 33 y 34 deben ser resueltas en una forma iterativa. La Figura 7 proporciona un diagrama de flujo para realizar tal iteración. En el paso 700 de la Figura 7, los parámetros para el modelo anterior para la respuesta de canal son determinados. En el paso 702, un estimado de Xt es determinado. Este estimado puede ser determinado utilizando cualquiera de las modalidades anteriores descritas anteriormente en las que el modelo anterior de la respuesta de canal fue ignorado. En el paso 704, los parámetros del modelo anterior y el estimado inicial de Xt son utilizados para determinar Ht utilizando la Ecuación 34. Ht después es utilizada para actualizar los valores de lenguaje limpio que utilizan la Ecuación 3 en el paso 706. En el paso 708, el procedimiento determina di más iteraciones son deseadas. Si se desean más iteraciones, el procedimiento regresa al paso 704 y actualiza el valor de Ht que utiliza los valores actualizados de Xt determinados en el paso 706. Los pasos 704 y 706 son repetidos hasta que no se desean más iteraciones en el paso 708, en ese punto el procedimiento termina en el paso 710. Aunque la presente invención ha sido descrita con referencia a modalidades particulares, los trabajadores expertos en la técnica reconocerán que se pueden hacer cambios en la forma y detalle sin apartarse del espíritu y alcance de la invención.
Claims (9)
1.- Un método para determinar un estimado para un valor de ruido reducido que representa una porción de una señal de lenguaje de ruido reducido, el método comprende: generar una señal de sensor alternativa que utiliza un sensor alternativo diferente a un micrófono de conducción de aire; generar una señal de micrófono de conducción de aire; utilizar la señal de sensor alternativa y la señal de micrófono de conducción de aire para estimar un valor para una respuesta de canal de la señal de sensor alternativa; y utilizar la respuesta de canal para estimar el valor de ruido reducido.
2.- El método de acuerdo con la reivindicación 1, en donde estimar un valor para una respuesta de canal comprende encontrar un extremo de una función de objetivo.
3.- El método de acuerdo con la reivindicación 1, en donde estimar una respuesta de canal comprende moldear una señal de sensor alternativa como una señal de lenguaje limpia envuelto con la respuesta de canal, con el resultado sumado con un término de ruido.
4.- El método de acuerdo con la reivindicación 1, en donde la respuesta de canal comprende una respuesta de canal para una señal de lenguaje limpia.
5.- El método de acuerdo con la reivindicación 4, que además comprende determinar una respuesta de canal del sensor alternativo para una señal de lenguaje de antecedente.
6.- El método de acuerdo con la reivindicación 5, en donde utilizar la respuesta de canal para estimar el valor reducido de ruido comprende utilizar la respuesta de canal para la señal de lenguaje limpia y la respuesta de canal para la señal de lenguaje de antecedente para estimar el valor reducido de ruido. 1.- El método de acuerdo con la reivindicación 1, que además comprende utilizar el estimado del valor reducido de ruido para estimar un valor para una señal de lenguaje de antecedente. 8.- El método de acuerdo con la reivindicación 1, en donde estimar un valor para una respuesta de canal comprende utilizar una secuencia de estructuras de la señal de sensor alternativa y la señal de micrófono de conducción de aire para estimar un valor de respuesta de canal individual para las estructuras en la secuencia de estructuras. 9.- El método de acuerdo con la reivindicación 8, en donde utilizar la respuesta de canal para estimar un valor reducido de ruido comprende estimar un valor reducido de ruido separado para cada estructura en la secuencia de estructuras. 10.- El método de acuerdo con la reivindicación 1, en donde estimar un valor para una respuesta de canal comprende estimar el valor para una estructura actual al pesar valores para la señal de sensor alternativa y la señal de micrófono de conducción de aire en la estructura actual de forma más pesada que los valores para la señal de sensor alternativa y la señal de micrófono de conducción de aire en una estructura previa. 11.- Un medio legible por computadora que tiene instrucciones ejecutables por computadora para realizar los pasos que comprenden: determinar una respuesta de canal para un sensor alternativo que utiliza una señal de sensor alternativa y una señal de micrófono de conducción de aire; y utilizar la respuesta de canal para estimar un valor de lenguaje limpio que utiliza al menos una porción de la señal de sensor alternativa. 12.- El medio legible por computadora de acuerdo con la reivindicación 11, en donde determinar una respuesta de canal comprende determinar una respuesta de canal individual para una secuencia de estructuras de la señal de sensor alternativa y la señal de micrófono de conducción de aire. 13.- El medio legible por computadora de acuerdo con la reivindicación 11, en donde la respuesta de canal comprende una respuesta de canal para una señal de lenguaje limpio. 14.- El medio legible por computadora de acuerdo con la reivindicación 13, que además comprende determinar una respuesta de canal para una señal de lenguaje de antecedente. 15.- El medio legible por computadora de acuerdo con la reivindicación 14, que además comprende utilizar la respuesta de canal a la señal de lenguaje de antecedente con la respuesta de canal para la señal de lenguaje limpia para estimar el valor de lenguaje limpio. 16.- El medio legible por computadora de acuerdo con la reivindicación 11, que además comprende utilizar el valor de lenguaje limpio para estimar un valor de lenguaje de antecedente. 1
7.- Un método para identificar una señal de'lenguaje limpia, el método que comprende: estimar parámetros de ruido que describen ruido en una señal de sensor alternativa; utilizar ios parámetros de ruido para estimar una respuesta de canal para un sensor alternativo; y utilizar la respuesta de canal para estimar un valor para la señal de lenguaje limpia. 1
8.- El método de acuerdo con la reivindicación 17, en donde estimar parámetros de ruido comprende utilizar la señal de sensor alternativa para identificar períodos cuando un usuario no está hablando. 1
9.- El método de acuerdo con la reivindicación 18, que además comprende realizar la detección de lenguaje en porciones de una señal de micrófono de conducción de aire asociada con los periodos cuando el usuario no está hablando para identificar periodos de no hablar y periodos de lenguaje de antecedente. 20.- El método de acuerdo con la reivindicación 19, que además comprende utilizar porciones de la señal de sensor alternativa asociada con los periodos de no hablar para estimar los parámetros de ruido. 21.- El método de acuerdo con la reivindicación 20, que además comprende utilizar los periodos de no hablar para estimar parámetros de ruido que describen ruido en la señal de micrófono de conducción de aire. 22.- El método de acuerdo con la reivindicación 20, que además comprende utilizar las porciones de la señal de sensor alternativa asociada con los períodos de lenguaje de antecedente para estimar una respuesta de canal para el lenguaje de antecedente. 23.- El método de acuerdo con la reivindicación 22, que además comprende utilizar la respuesta de canal para el lenguaje de antecedente para estimar el lenguaje limpio. 24.- El método de acuerdo con la reivindicación 17, que además comprende determinar un estimado de un valor de lenguaje de antecedente. 25.- El método de acuerdo con la reivindicación 24, en donde determinar un estimado de un valor de lenguaje de antecedente comprende utilizar el estimado del valor de lenguaje limpio para estimar el valor de lenguaje de antecedente. 26.- El método de acuerdo con la reivindicación 17, que además comprende utilizar un modelo anterior de la respuesta de canal para estimar el valor de lenguaje limpio.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/944,235 US7574008B2 (en) | 2004-09-17 | 2004-09-17 | Method and apparatus for multi-sensory speech enhancement |
Publications (1)
Publication Number | Publication Date |
---|---|
MXPA05008740A true MXPA05008740A (es) | 2007-12-11 |
Family
ID=35430655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
MXPA05008740A MXPA05008740A (es) | 2004-09-17 | 2005-08-17 | Metodo y aparato para el mejoramiento de lenguaje multi-sensorial. |
Country Status (11)
Country | Link |
---|---|
US (1) | US7574008B2 (es) |
EP (1) | EP1638084B1 (es) |
JP (1) | JP4842583B2 (es) |
KR (1) | KR101153093B1 (es) |
CN (1) | CN100583243C (es) |
AT (1) | ATE448541T1 (es) |
AU (1) | AU2005202858A1 (es) |
CA (1) | CA2513195C (es) |
DE (1) | DE602005017549D1 (es) |
MX (1) | MXPA05008740A (es) |
RU (1) | RU2389086C2 (es) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6675027B1 (en) * | 1999-11-22 | 2004-01-06 | Microsoft Corp | Personal mobile computing device having antenna microphone for improved speech recognition |
US20050033571A1 (en) * | 2003-08-07 | 2005-02-10 | Microsoft Corporation | Head mounted multi-sensory audio input system |
US7383181B2 (en) * | 2003-07-29 | 2008-06-03 | Microsoft Corporation | Multi-sensory speech detection system |
US7447630B2 (en) * | 2003-11-26 | 2008-11-04 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US7499686B2 (en) * | 2004-02-24 | 2009-03-03 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
US7574008B2 (en) | 2004-09-17 | 2009-08-11 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US7283850B2 (en) * | 2004-10-12 | 2007-10-16 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
US7346504B2 (en) * | 2005-06-20 | 2008-03-18 | Microsoft Corporation | Multi-sensory speech enhancement using a clean speech prior |
US7680656B2 (en) * | 2005-06-28 | 2010-03-16 | Microsoft Corporation | Multi-sensory speech enhancement using a speech-state model |
US7406303B2 (en) | 2005-07-05 | 2008-07-29 | Microsoft Corporation | Multi-sensory speech enhancement using synthesized sensor signal |
KR100738332B1 (ko) * | 2005-10-28 | 2007-07-12 | 한국전자통신연구원 | 성대신호 인식 장치 및 그 방법 |
US7930178B2 (en) * | 2005-12-23 | 2011-04-19 | Microsoft Corporation | Speech modeling and enhancement based on magnitude-normalized spectra |
KR100857877B1 (ko) * | 2006-09-14 | 2008-09-17 | 유메디칼 주식회사 | 자동차폐가 가능한 순음청력검사장치 |
US7925502B2 (en) * | 2007-03-01 | 2011-04-12 | Microsoft Corporation | Pitch model for noise estimation |
CA2721702C (en) * | 2008-05-09 | 2016-09-27 | Nokia Corporation | Apparatus and methods for audio encoding reproduction |
US9767817B2 (en) * | 2008-05-14 | 2017-09-19 | Sony Corporation | Adaptively filtering a microphone signal responsive to vibration sensed in a user's face while speaking |
US8639499B2 (en) * | 2010-07-28 | 2014-01-28 | Motorola Solutions, Inc. | Formant aided noise cancellation using multiple microphones |
EP2482566B1 (en) * | 2011-01-28 | 2014-07-16 | Sony Ericsson Mobile Communications AB | Method for generating an audio signal |
WO2012145709A2 (en) * | 2011-04-20 | 2012-10-26 | Aurenta Inc. | A method for encoding multiple microphone signals into a source-separable audio signal for network transmission and an apparatus for directed source separation |
US10067093B2 (en) | 2013-07-01 | 2018-09-04 | Richard S. Goldhor | Decomposing data signals into independent additive terms using reference signals |
US10540992B2 (en) | 2012-06-29 | 2020-01-21 | Richard S. Goldhor | Deflation and decomposition of data signals using reference signals |
US10473628B2 (en) * | 2012-06-29 | 2019-11-12 | Speech Technology & Applied Research Corporation | Signal source separation partially based on non-sensor information |
CN103871419B (zh) * | 2012-12-11 | 2017-05-24 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
JP6446913B2 (ja) * | 2014-08-27 | 2019-01-09 | 富士通株式会社 | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
US10726859B2 (en) | 2015-11-09 | 2020-07-28 | Invisio Communication A/S | Method of and system for noise suppression |
CN110085250B (zh) * | 2016-01-14 | 2023-07-28 | 深圳市韶音科技有限公司 | 气导噪声统计模型的建立方法及应用方法 |
WO2018083511A1 (zh) * | 2016-11-03 | 2018-05-11 | 北京金锐德路科技有限公司 | 一种音频播放装置及方法 |
US10062373B2 (en) * | 2016-11-03 | 2018-08-28 | Bragi GmbH | Selective audio isolation from body generated sound system and method |
CN106686494A (zh) * | 2016-12-27 | 2017-05-17 | 广东小天才科技有限公司 | 一种可穿戴设备的语音输入控制方法及可穿戴设备 |
GB201713946D0 (en) * | 2017-06-16 | 2017-10-18 | Cirrus Logic Int Semiconductor Ltd | Earbud speech estimation |
CN107910011B (zh) * | 2017-12-28 | 2021-05-04 | 科大讯飞股份有限公司 | 一种语音降噪方法、装置、服务器及存储介质 |
JP7419270B2 (ja) * | 2018-06-21 | 2024-01-22 | マジック リープ, インコーポレイテッド | ウェアラブルシステム発話処理 |
JP2022522748A (ja) | 2019-03-01 | 2022-04-20 | マジック リープ, インコーポレイテッド | 発話処理エンジンのための入力の決定 |
US11049509B2 (en) | 2019-03-06 | 2021-06-29 | Plantronics, Inc. | Voice signal enhancement for head-worn audio devices |
US11328740B2 (en) | 2019-08-07 | 2022-05-10 | Magic Leap, Inc. | Voice onset detection |
US11917384B2 (en) | 2020-03-27 | 2024-02-27 | Magic Leap, Inc. | Method of waking a device using spoken voice commands |
CN111696564B (zh) * | 2020-06-05 | 2023-08-18 | 北京搜狗科技发展有限公司 | 语音处理方法、装置和介质 |
CN116098608B (zh) * | 2021-11-10 | 2024-09-10 | 复旦大学 | 喉部运动信息捕获系统 |
Family Cites Families (109)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3383466A (en) * | 1964-05-28 | 1968-05-14 | Navy Usa | Nonacoustic measures in automatic speech recognition |
US3389391A (en) * | 1967-05-05 | 1968-06-18 | Miner S Keeler | Vehicle identification responder |
US3746789A (en) * | 1971-10-20 | 1973-07-17 | E Alcivar | Tissue conduction microphone utilized to activate a voice operated switch |
US3787641A (en) * | 1972-06-05 | 1974-01-22 | Setcom Corp | Bone conduction microphone assembly |
US4382164A (en) * | 1980-01-25 | 1983-05-03 | Bell Telephone Laboratories, Incorporated | Signal stretcher for envelope generator |
JPS62239231A (ja) * | 1986-04-10 | 1987-10-20 | Kiyarii Rabo:Kk | 口唇画像入力による音声認識方法 |
JPH0755167B2 (ja) * | 1988-09-21 | 1995-06-14 | 松下電器産業株式会社 | 移動体 |
JPH03160851A (ja) * | 1989-11-20 | 1991-07-10 | Fujitsu Ltd | 携帯電話機 |
US5054079A (en) * | 1990-01-25 | 1991-10-01 | Stanton Magnetics, Inc. | Bone conduction microphone with mounting means |
US5404577A (en) * | 1990-07-13 | 1995-04-04 | Cairns & Brother Inc. | Combination head-protective helmet & communications system |
US5241692A (en) * | 1991-02-19 | 1993-08-31 | Motorola, Inc. | Interference reduction system for a speech recognition device |
US5295193A (en) * | 1992-01-22 | 1994-03-15 | Hiroshi Ono | Device for picking up bone-conducted sound in external auditory meatus and communication device using the same |
US5590241A (en) * | 1993-04-30 | 1996-12-31 | Motorola Inc. | Speech processing system and method for enhancing a speech signal in a noisy environment |
US5446789A (en) * | 1993-11-10 | 1995-08-29 | International Business Machines Corporation | Electronic device having antenna for receiving soundwaves |
AU684872B2 (en) * | 1994-03-10 | 1998-01-08 | Cable And Wireless Plc | Communication system |
US5828768A (en) * | 1994-05-11 | 1998-10-27 | Noise Cancellation Technologies, Inc. | Multimedia personal computer with active noise reduction and piezo speakers |
EP0683621B1 (en) * | 1994-05-18 | 2002-03-27 | Nippon Telegraph And Telephone Corporation | Transmitter-receiver having ear-piece type acoustic transducing part |
JP3189598B2 (ja) * | 1994-10-28 | 2001-07-16 | 松下電器産業株式会社 | 信号合成方法および信号合成装置 |
JPH08186654A (ja) | 1994-12-22 | 1996-07-16 | Internatl Business Mach Corp <Ibm> | 携帯端末装置 |
JPH08223677A (ja) * | 1995-02-15 | 1996-08-30 | Nippon Telegr & Teleph Corp <Ntt> | 送話器 |
US5701390A (en) * | 1995-02-22 | 1997-12-23 | Digital Voice Systems, Inc. | Synthesis of MBE-based coded speech using regenerated phase information |
US5692059A (en) * | 1995-02-24 | 1997-11-25 | Kruger; Frederick M. | Two active element in-the-ear microphone system |
US5555449A (en) * | 1995-03-07 | 1996-09-10 | Ericsson Inc. | Extendible antenna and microphone for portable communication unit |
JP3264822B2 (ja) | 1995-04-05 | 2002-03-11 | 三菱電機株式会社 | 移動体通信機器 |
US5651074A (en) | 1995-05-11 | 1997-07-22 | Lucent Technologies Inc. | Noise canceling gradient microphone assembly |
KR960042590A (ko) * | 1995-05-23 | 1996-12-21 | 김광호 | 테이프 재생용 음량기기에서의 발음비교방법 |
JP3591068B2 (ja) * | 1995-06-30 | 2004-11-17 | ソニー株式会社 | 音声信号の雑音低減方法 |
US5647834A (en) * | 1995-06-30 | 1997-07-15 | Ron; Samuel | Speech-based biofeedback method and system |
JP3674990B2 (ja) * | 1995-08-21 | 2005-07-27 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
JPH09172479A (ja) * | 1995-12-20 | 1997-06-30 | Yokoi Kikaku:Kk | 送受話器およびそれを用いた通話装置 |
US6006175A (en) * | 1996-02-06 | 1999-12-21 | The Regents Of The University Of California | Methods and apparatus for non-acoustic speech characterization and recognition |
US6377919B1 (en) * | 1996-02-06 | 2002-04-23 | The Regents Of The University Of California | System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech |
US6243596B1 (en) * | 1996-04-10 | 2001-06-05 | Lextron Systems, Inc. | Method and apparatus for modifying and integrating a cellular phone with the capability to access and browse the internet |
US5943627A (en) * | 1996-09-12 | 1999-08-24 | Kim; Seong-Soo | Mobile cellular phone |
JPH10261910A (ja) | 1997-01-16 | 1998-09-29 | Sony Corp | 携帯無線装置およびアンテナ装置 |
JP2874679B2 (ja) * | 1997-01-29 | 1999-03-24 | 日本電気株式会社 | 雑音消去方法及びその装置 |
JPH10224253A (ja) * | 1997-02-10 | 1998-08-21 | Sony Corp | 携帯通信機 |
US6308062B1 (en) * | 1997-03-06 | 2001-10-23 | Ericsson Business Networks Ab | Wireless telephony system enabling access to PC based functionalities |
US5983073A (en) * | 1997-04-04 | 1999-11-09 | Ditzik; Richard J. | Modular notebook and PDA computer systems for personal computing and wireless communications |
US6175633B1 (en) * | 1997-04-09 | 2001-01-16 | Cavcom, Inc. | Radio communications apparatus with attenuating ear pieces for high noise environments |
US6151397A (en) * | 1997-05-16 | 2000-11-21 | Motorola, Inc. | Method and system for reducing undesired signals in a communication environment |
JP4216364B2 (ja) * | 1997-08-29 | 2009-01-28 | 株式会社東芝 | 音声符号化/復号化方法および音声信号の成分分離方法 |
US6434239B1 (en) * | 1997-10-03 | 2002-08-13 | Deluca Michael Joseph | Anti-sound beam method and apparatus |
JPH11249692A (ja) | 1998-02-27 | 1999-09-17 | Nec Saitama Ltd | 音声認識装置 |
JPH11265199A (ja) * | 1998-03-18 | 1999-09-28 | Nippon Telegr & Teleph Corp <Ntt> | 送話器 |
DE69926290T2 (de) | 1998-03-18 | 2006-04-13 | Nippon Telegraph And Telephone Corp. | Tragbares Kommunikationsgerät mit Anordnung zum Knochenleitungshören |
CA2332833A1 (en) * | 1998-05-19 | 1999-11-25 | Spectrx, Inc. | Apparatus and method for determining tissue characteristics |
US6717991B1 (en) * | 1998-05-27 | 2004-04-06 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for dual microphone signal noise reduction using spectral subtraction |
US6052464A (en) * | 1998-05-29 | 2000-04-18 | Motorola, Inc. | Telephone set having a microphone for receiving or an earpiece for generating an acoustic signal via a keypad |
US6137883A (en) * | 1998-05-30 | 2000-10-24 | Motorola, Inc. | Telephone set having a microphone for receiving an acoustic signal via keypad |
JP3160714B2 (ja) * | 1998-07-08 | 2001-04-25 | 株式会社シコー技研 | 携帯無線通信機 |
US6292674B1 (en) * | 1998-08-05 | 2001-09-18 | Ericsson, Inc. | One-handed control for wireless telephone |
JP3893763B2 (ja) * | 1998-08-17 | 2007-03-14 | 富士ゼロックス株式会社 | 音声検出装置 |
US6289309B1 (en) * | 1998-12-16 | 2001-09-11 | Sarnoff Corporation | Noise spectrum tracking for speech enhancement |
US6760600B2 (en) * | 1999-01-27 | 2004-07-06 | Gateway, Inc. | Portable communication apparatus |
JP2000261534A (ja) * | 1999-03-10 | 2000-09-22 | Nippon Telegr & Teleph Corp <Ntt> | 送受話器 |
DE19917169A1 (de) | 1999-04-16 | 2000-11-02 | Kamecke Keller Orla | Verfahren zur Speicherung und Wiedergabe von Audio-, Video- und Anwendungsprogrammdaten in Mobilfunkendgeräten |
US6542721B2 (en) * | 1999-10-11 | 2003-04-01 | Peter V. Boesen | Cellular telephone, personal digital assistant and pager unit |
US6738485B1 (en) * | 1999-05-10 | 2004-05-18 | Peter V. Boesen | Apparatus, method and system for ultra short range communication |
US6094492A (en) * | 1999-05-10 | 2000-07-25 | Boesen; Peter V. | Bone conduction voice transmission apparatus and system |
US6952483B2 (en) * | 1999-05-10 | 2005-10-04 | Genisus Systems, Inc. | Voice transmission apparatus with UWB |
US20020057810A1 (en) * | 1999-05-10 | 2002-05-16 | Boesen Peter V. | Computer and voice communication unit with handsfree device |
US6560468B1 (en) * | 1999-05-10 | 2003-05-06 | Peter V. Boesen | Cellular telephone, personal digital assistant, and pager unit with capability of short range radio frequency transmissions |
US6594629B1 (en) * | 1999-08-06 | 2003-07-15 | International Business Machines Corporation | Methods and apparatus for audio-visual speech detection and recognition |
US6594367B1 (en) * | 1999-10-25 | 2003-07-15 | Andrea Electronics Corporation | Super directional beamforming design and implementation |
US6603823B1 (en) * | 1999-11-12 | 2003-08-05 | Intel Corporation | Channel estimator |
US6339706B1 (en) * | 1999-11-12 | 2002-01-15 | Telefonaktiebolaget L M Ericsson (Publ) | Wireless voice-activated remote control device |
US6411933B1 (en) * | 1999-11-22 | 2002-06-25 | International Business Machines Corporation | Methods and apparatus for correlating biometric attributes and biometric attribute production features |
US6675027B1 (en) * | 1999-11-22 | 2004-01-06 | Microsoft Corp | Personal mobile computing device having antenna microphone for improved speech recognition |
JP3736785B2 (ja) * | 1999-12-15 | 2006-01-18 | 日本電信電話株式会社 | 通話装置 |
GB2357400A (en) * | 1999-12-17 | 2001-06-20 | Nokia Mobile Phones Ltd | Controlling a terminal of a communication system |
US6879952B2 (en) * | 2000-04-26 | 2005-04-12 | Microsoft Corporation | Sound source separation using convolutional mixing and a priori sound source knowledge |
US20030179888A1 (en) * | 2002-03-05 | 2003-09-25 | Burnett Gregory C. | Voice activity detection (VAD) devices and methods for use with noise suppression systems |
US20020039425A1 (en) * | 2000-07-19 | 2002-04-04 | Burnett Gregory C. | Method and apparatus for removing noise from electronic signals |
US7246058B2 (en) * | 2001-05-30 | 2007-07-17 | Aliph, Inc. | Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors |
JP3339579B2 (ja) * | 2000-10-04 | 2002-10-28 | 株式会社鷹山 | 電話装置 |
KR100394840B1 (ko) * | 2000-11-30 | 2003-08-19 | 한국과학기술원 | 독립 성분 분석을 이용한 능동 잡음 제거방법 |
US6853850B2 (en) * | 2000-12-04 | 2005-02-08 | Mobigence, Inc. | Automatic speaker volume and microphone gain control in a portable handheld radiotelephone with proximity sensors |
US20020075306A1 (en) * | 2000-12-18 | 2002-06-20 | Christopher Thompson | Method and system for initiating communications with dispersed team members from within a virtual team environment using personal identifiers |
US6754623B2 (en) * | 2001-01-31 | 2004-06-22 | International Business Machines Corporation | Methods and apparatus for ambient noise removal in speech recognition |
US6985858B2 (en) * | 2001-03-20 | 2006-01-10 | Microsoft Corporation | Method and apparatus for removing noise from feature vectors |
WO2002098169A1 (en) * | 2001-05-30 | 2002-12-05 | Aliphcom | Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors |
JP2002358089A (ja) * | 2001-06-01 | 2002-12-13 | Denso Corp | 音声処理装置及び音声処理方法 |
US6987986B2 (en) * | 2001-06-21 | 2006-01-17 | Boesen Peter V | Cellular telephone, personal digital assistant with dual lines for simultaneous uses |
US20030128848A1 (en) * | 2001-07-12 | 2003-07-10 | Burnett Gregory C. | Method and apparatus for removing noise from electronic signals |
US7054423B2 (en) * | 2001-09-24 | 2006-05-30 | Nebiker Robert M | Multi-media communication downloading |
US6959276B2 (en) * | 2001-09-27 | 2005-10-25 | Microsoft Corporation | Including the category of environmental noise when processing speech signals |
US6952482B2 (en) * | 2001-10-02 | 2005-10-04 | Siemens Corporation Research, Inc. | Method and apparatus for noise filtering |
JP3532544B2 (ja) * | 2001-10-30 | 2004-05-31 | 株式会社テムコジャパン | 面体又は帽体のストラップ装着用送受話装置 |
US7162415B2 (en) * | 2001-11-06 | 2007-01-09 | The Regents Of The University Of California | Ultra-narrow bandwidth voice coding |
US6707921B2 (en) * | 2001-11-26 | 2004-03-16 | Hewlett-Packard Development Company, Lp. | Use of mouth position and mouth movement to filter noise from speech in a hearing aid |
DE10158583A1 (de) * | 2001-11-29 | 2003-06-12 | Philips Intellectual Property | Verfahren zum Betrieb eines Barge-In-Dialogsystems |
US6664713B2 (en) * | 2001-12-04 | 2003-12-16 | Peter V. Boesen | Single chip device for voice communications |
US7219062B2 (en) * | 2002-01-30 | 2007-05-15 | Koninklijke Philips Electronics N.V. | Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system |
US9374451B2 (en) | 2002-02-04 | 2016-06-21 | Nokia Technologies Oy | System and method for multimodal short-cuts to digital services |
AU2003263733A1 (en) * | 2002-03-05 | 2003-11-11 | Aliphcom | Voice activity detection (vad) devices and methods for use with noise suppression systems |
JP2003264883A (ja) * | 2002-03-08 | 2003-09-19 | Denso Corp | 音声処理装置および音声処理方法 |
US7117148B2 (en) * | 2002-04-05 | 2006-10-03 | Microsoft Corporation | Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization |
JP4095348B2 (ja) * | 2002-05-31 | 2008-06-04 | 学校法人明治大学 | 雑音除去システムおよびプログラム |
US7190797B1 (en) * | 2002-06-18 | 2007-03-13 | Plantronics, Inc. | Headset with foldable noise canceling and omnidirectional dual-mode boom |
US7092529B2 (en) * | 2002-11-01 | 2006-08-15 | Nanyang Technological University | Adaptive control system for noise cancellation |
TW200425763A (en) * | 2003-01-30 | 2004-11-16 | Aliphcom Inc | Acoustic vibration sensor |
US7593851B2 (en) * | 2003-03-21 | 2009-09-22 | Intel Corporation | Precision piecewise polynomial approximation for Ephraim-Malah filter |
US20060008256A1 (en) * | 2003-10-01 | 2006-01-12 | Khedouri Robert K | Audio visual player apparatus and system and method of content distribution using the same |
US7447630B2 (en) * | 2003-11-26 | 2008-11-04 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US7499686B2 (en) | 2004-02-24 | 2009-03-03 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
US8095073B2 (en) * | 2004-06-22 | 2012-01-10 | Sony Ericsson Mobile Communications Ab | Method and apparatus for improved mobile station and hearing aid compatibility |
US7574008B2 (en) | 2004-09-17 | 2009-08-11 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US7283850B2 (en) * | 2004-10-12 | 2007-10-16 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
-
2004
- 2004-09-17 US US10/944,235 patent/US7574008B2/en not_active Expired - Fee Related
-
2005
- 2005-06-29 AU AU2005202858A patent/AU2005202858A1/en not_active Abandoned
- 2005-07-25 CA CA2513195A patent/CA2513195C/en not_active Expired - Fee Related
- 2005-07-29 KR KR1020050069632A patent/KR101153093B1/ko active IP Right Grant
- 2005-08-09 JP JP2005231246A patent/JP4842583B2/ja not_active Expired - Fee Related
- 2005-08-17 CN CN200510092458A patent/CN100583243C/zh not_active Expired - Fee Related
- 2005-08-17 MX MXPA05008740A patent/MXPA05008740A/es not_active Application Discontinuation
- 2005-08-30 EP EP05107921A patent/EP1638084B1/en not_active Not-in-force
- 2005-08-30 AT AT05107921T patent/ATE448541T1/de not_active IP Right Cessation
- 2005-08-30 DE DE602005017549T patent/DE602005017549D1/de active Active
- 2005-08-31 RU RU2005127419/09A patent/RU2389086C2/ru not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
US7574008B2 (en) | 2009-08-11 |
CA2513195A1 (en) | 2006-03-17 |
JP4842583B2 (ja) | 2011-12-21 |
DE602005017549D1 (de) | 2009-12-24 |
EP1638084B1 (en) | 2009-11-11 |
US20060072767A1 (en) | 2006-04-06 |
CN100583243C (zh) | 2010-01-20 |
ATE448541T1 (de) | 2009-11-15 |
EP1638084A1 (en) | 2006-03-22 |
RU2005127419A (ru) | 2007-03-10 |
RU2389086C2 (ru) | 2010-05-10 |
CA2513195C (en) | 2013-12-03 |
KR20060048954A (ko) | 2006-05-18 |
AU2005202858A1 (en) | 2006-04-06 |
JP2006087082A (ja) | 2006-03-30 |
KR101153093B1 (ko) | 2012-06-11 |
CN1750123A (zh) | 2006-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
MXPA05008740A (es) | Metodo y aparato para el mejoramiento de lenguaje multi-sensorial. | |
CN111161752B (zh) | 回声消除方法和装置 | |
RU2407074C2 (ru) | Улучшение речи с помощью нескольких датчиков с использованием предшествующей чистой речи | |
RU2370831C2 (ru) | Способ оценки шума с использованием пошагового байесовского изучения | |
JP5452655B2 (ja) | 音声状態モデルを使用したマルチセンサ音声高品質化 | |
JP4491210B2 (ja) | 再帰的構成における反復ノイズ推定法 | |
US7406303B2 (en) | Multi-sensory speech enhancement using synthesized sensor signal | |
CN112767959A (zh) | 语音增强方法、装置、设备及介质 | |
JP6891144B2 (ja) | 生成装置、生成方法及び生成プログラム | |
CN116524944A (zh) | 音频降噪方法、介质、装置和计算设备 | |
JP2010114552A (ja) | エコーキャンセル装置、その方法、そのプログラム、およびその記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FA | Abandonment or withdrawal |