MX2007014562A - Mejora de dialogo multisensorial utilizando un dialogo limpio previo. - Google Patents

Mejora de dialogo multisensorial utilizando un dialogo limpio previo.

Info

Publication number
MX2007014562A
MX2007014562A MX2007014562A MX2007014562A MX2007014562A MX 2007014562 A MX2007014562 A MX 2007014562A MX 2007014562 A MX2007014562 A MX 2007014562A MX 2007014562 A MX2007014562 A MX 2007014562A MX 2007014562 A MX2007014562 A MX 2007014562A
Authority
MX
Mexico
Prior art keywords
variation
signal
value
dialogue
determining
Prior art date
Application number
MX2007014562A
Other languages
English (en)
Inventor
Zhengyou Zhang
Zicheng Liu
Alejandro Acero
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of MX2007014562A publication Critical patent/MX2007014562A/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Meter Arrangements (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

Un metodo y aparato determinan una respuesta de canal para un sensor alternativo utilizando una senal de sensor alternativa, una senal de microfono de conduccion por aire. La respuesta de canal y una distribucion de probabilidad previa para valores de dialogo limpio entonces se utilizan para estimar un valor de dialogo limpio.

Description

EJORA DE DIALOGO MULT1SENSQR1AL UTILIZANDO UM DIALOGO LIMPIO PREVIO ANTECEDENTES ?Un problema en el reconocimiento de dialogo y transmisión de diálogo es la corrupción de la señal de diálogo por ruido aditivo En particular, la corrupción debido al diálogo de otro hablante probó ser difícil de detectar y/o corregir Recientemente, se desarrolló un sistema que intenta remover el ruido utilizando una combinación de un sensor alternativo, tal como un micrófono de conducción por hueso, y un micrófono de conducción por éi i re Este sistema se entrena utilizando tres canales de entrenamiento una señal de entrenamiento de sensor alternativo ruidosa, una señal de entrenamiento de micrófono de conducción por aire ruidosa, y una señal de entrenamiento de micrófono por aire limpia Cada una de las señales se convierte en un dominio de características Las características para la señal de sensor alternativo ruidosa y la señal de micrófono de conducción por aire ruidosa se combinan en vector individual que representa una señal ruidosa Las características para la señal por micrófono de conducción por aire limpia forman un vector limpio individual Estos vectorjes después se utilizan para entrenar un mapa entre los vectores de ruido y los vectores limpios Una vez entrenados, los mapa$ se aplican a un vector ruidoso formado de una combinación de una eñal de prueba de sensor alternativa ruidosa y una señal de prueba de micrófono de conducción por aire ruidosa. Este mapa produce un vector de señal limpio Este sistema es menos que óptimo cuando las condiciones de ruido ]de las señales de prueba no se acoplan con las condiciones de ruido de las señales de entrenamiento debido a que los mapas se diseñan para las condiciones ruidosas de las señales de entrenamiento BREVE DESCRIPCIÓN DE LA INVENC.ON Un método y aparato determinan una respuesta de canal para un sensor alternativo que utiliza una señal de sensor alternativa, una señal de micrófono de conducción por aire La respuesta de canal y una distribución de probabilidad previa para los valores de diálogo limpios después se utilizan para estimar un valor de diálogo limpio.
BREVE DESCRIPCIÓN DE LOS DIBUJOS La Figura 1 es un diagrama de bloques de un ambiente de cómputo en el cual pueden practicarse las modalidades de la presente invención La Figura 2 es un diagrama de bloques de un ambiente de cómputo alternativo en el cual pueden practicarse las modalidades de la presente invención.
La Figura 3 es un diagrama de bloques de un sistema de procesamiento de dialogo general de una modalidad de la presente invención i La Figura 4 es un diagrama de bloques de un sistema para mejo'ar el diálogo de acuerdo con una modalidad de la presente invención 'La Figura 5 es un diagrama de flujo para mejorar el diálogo de acuerdo con una modalidad de la presente invención La Figura 6 es un diagrama de flujo para mejorar el diálogo de acuerdo con otra modalidad de la presente invención DESCRIPCIÓN DETALLADA DE MQDLAi DADES ILUSTRATIVAS La Figura 1 ilustra un ejemplo de un ambiente de sistema de cómp uto adecuado 100 en el cual pueden implementarse las modalidades de la invención El ambiente de sistema de cómputo 100 solo es un ejemplo de un ambiente de cómputo adecuado y no p irreetteennde sugerir ninguna limitación al alcance de uso o funcionalidad de la invención El ambiente de cómputo 100 tampoco debe interpretarse como teniendo ninguna dependencia o requerimiento que se relaciona con cualquiera o combinación de los componentes ilustrados en el ambiente operativo ilustrativo 100 La invención es operacional con numeroso otros ambientes o confie uraciones de sistema de cómputo de propósito general o de propó sito especial Los ejemplos de sistemas de cómputo bien cono|c?dos, ambientes, y/o configuraciones que pueden ser adecuados para uso con la invención incluyen, pero no se limitan a las computadoras personales, computadoras de servidor, dispositivos móvi es o portátiles, sistemas de multiprocesador, sistema a base de micro procesador, cajas de tv por cable, electrónica de consumidor progr amable, PCs de red, minicomputadoras, macrocomputadoras, siste mas de telefonía, ambientes de cómputo distribuido que incluyen cualq uiera de los sistemas anteriores o dispositivos, y similares La invención puede describirse en el contexto general de instn cciones ejecutables por computadora, tal como módulos de progr ama, que se ejecutan por una computadora Generalmente, los módu los de programa incluyen rutinas, programas, objetos, companentes, estructuras de datos, etc que realizan tareas particulares o implementan tipos de datos abstractos particulares La invención se diseña para practicarse en ambientes de cómputo distribuidos en donde las tareas se realizan por dispositivos de procesamiento remotos que se enlazan a través de una red de comunicaciones En un ambiente de cómputo distribuido, los módulos de prl grama se localizan tanto en medios de almacenamiento de computadora locales como remotos que incluyen dispositivos de almacenamiento de memoria Con referencia a la Figura 1, un sistema ilustrativo para implementar las modalidades de la invención incluye un dispositivo de cómputo de propósito general en la forma de una computadora 110 Los componentes de la computadora 110 pueden incluir, pero no se limita a, una unidad de procesamiento 120, una memoria de sistema 130, y un conductor común de sistema 121 que acopla varios componentes de sistema que incluyen a la memoria de sistema la umdsid de procesamiento 120 El conductor común de sistema 121 puedb ser cualquiera de varios tipos de estructuras de conductor comújn que incluyen un conductor común de memoria o controlador de memfpa, un conductor común periférico, y un conductor común local i que utiliza cualquiera de una variedad de arquitecturas de conductor comu n A manera de ejemplo, y no de limitación, tales arquitecturas incluyen conductor común de Arquitectura de Estándar de Industria (ISA) Conductor común de Arquitectura de Micro Canal (MCA), conductor común de ISA mejorado (EISA), conductor común local de Asoc ación de Estándares de Electrónica de Video (VESA), y un Conductor Común de Interconexión de Componente Periférico (PCI) también conocido como conductor común de Mézanme ¡La computadora 110 típicamente incluye una variedad de medios legibles por computadora Los medios legibles por computadora pueden ser cualquier medio disponible que pueda accederse por la computadora 110 e incluyen tanto medios volátiles como no volátiles, medios removibles y no removibles A manera de ejempllo, y no de limitación, los medios legibles por computadora I puedein comprender medios de almacenamiento de computadora y medios de comunicación Los medios de almacenamiento de computadora incluyen tanto medios volátiles como no volátiles, remov bles y no removibles implementados en cualquier método o tecnología para almacenamiento de información tal como instrucción legible por computadora, estructuras de datos, módulos de programa u otros datos Los medios de almacenamiento de computadora incluyen, pero no se limita a, RAM, ROM, EEPROM, memoria flash u otra tecnología de memoria, CD-ROM, discos versátiles digitales (DVD) u otro almacenamiento de disco óptico, cassettes magnéticos, cinta magnética, almacenamiento de disco magnético u otros dispositivos de almacenamiento magnético, o cualquier otro medio que ?uede utilizarse para almacenar la información deseada y que pued¿ accederse por la computadora 110 Los medios de i comunicación típicamente representan instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos en una señal de datos modulada tal como una onda portadora u otro mecanismo de transporte e incluye cualquier medio de entrega de información El término "señal de datos modulada" significa una señalj que tiene una o más de sus características establecidas o cambjadas de tal forma para codificar información en la señal A maneja de ejemplo, y no limitación, los medios de comunicación incluyen medios por cables tal como red por cable o conexión por cable directa, y medios inalámbricos tal como medios acústicos, RF, infrar-ojos y otros medios inalámbricos Las combinaciones de cualquiera de los anteriores también deben incluirse dentro del alcance de medios legibles por computadora La memoria de sistema 130 incluye medios de almacenamiento por computadora en la forma de memoria volátil y/o no volátil tal como memorias sólo de lecturas (ROM) 131 y memoria de acceso aleatorio (RAM) 132 El sistema de entrada/salida básico 133 (BIOS), que contiene las rutinas básicas que ayudan a transferir información entre' elementos dentro de la computadora 110, tal como durante el arranque, típicamente se almacena en ROM 131 La RAM 132 típicéimente contiene datos y/o módulos de programa que son inmediatamente accesibles a y/o actualmente están siendo operados por una unidad de procesamiento 120 A manera de ejemplo, y no de limitación, la Figura 1 ilustra el sistema operativo 134, programas de aplicación 135, otros módulos de programa 136, y datos de programa 137 , i l La computadora 110 también puede incluir otros medios de I almacenamiento de computadora removibles/no removibles, i volátijles/no volátiles A manera de ejemplo solamente, la Figura 1 ilustra una unidad de disco duro 141 que lee de o escribe a medios magnéticos no removibles, no volátiles, una unidad de disco magnético 151 que lee de o escribe a un disco magnético removible, I no vof át 11 152, y una unidad de disco óptico 155 que lee de o escribe a un disco óptico removible, no volátil 156, tal como un CD-ROM u otro njiedio óptico Otros medios de almacenamiento de computadora remov??bles/no removibles, volátiles/no volátiles que pueden utilizarse en eljambiente operativo ilustrativo incluyen, pero no se limitan a, cassettes de cinta magnética, tarjeta de memoria flash, discos versátiles digitales, cinta de video digital RAM de estado sólido, ROM !de estado sólido y similares La unidad de disco duro 141 típicamente se conecta al conductor común de sistema 121 a través de uha interfase de memoria no removible tal como interfase 140, y unidad de disco magnético 151 y unidad de disco óptico 155 que típicamente se conectan al conductor común de sistema 121 a través de una interfase de memoria removible, tal como interfase 150 Las unidades y sus medios de almacenamiento de computadora asociados discutidos anteriormente ilustrados en la Figura 1 proporcionan almacenamiento de instrucciones legibles por computadora, estructuras de datos, módulos de programa y otros datos1 para la computadora 110 En la Figura 1, por ejemplo, la unidad de disco duro 141 se ilustra como almacenando el sistema operativo 144, programas de aplicación 145, otros módulos de programas 146, y datos de programa 147 Se debe notar que estos componentes pueden ser los mismos que o diferentes al sistema operativo 134, programas de aplicación 135, otros módulos de programa 136, y datos de programa 137 El sistema operativo 144, programas de aplicación 145, otros módulos de programa 146 y datos i de programa 147 se les proporcionan números diferentes aquí para i ilustrar que, en un mínimo, son copias diferentes Un usuario puede ingresar comandos e información en la computadora 110 a través de dispositivos de entrada tal como un teclado 162, micrófono 163, y dispositivo de señalamiento 161, tal como un ratón, seguibola o almohadilla sensible al tacto Otros dispositivos de entrada (no mostrados) pueden incluir una palanca de mano?, almohadilla de juegos, antena parabólica, escáner, o similares Estos y otros dispositivos de entrada frecuentemente se conectan a la unidad de procesamiento 120 a través de una interfase de entrada de usuario 160 que se acopla al conductor común de sistema, pero pueden conectarse a través de otra interfase y estructuras de conductor común, tal como un puerto paralelo, puerto de juegos o un conductor común en serie universal (USB) Un monror 191 u otro tipo de dispositivo de presentación también se cone ta al conductor común de sistema 121 a través de una inferíase, tal como una interfase de video 190 Además del monitor, las CDmputadoras también pueden incluir otros dispositivos de salida periféricos, tal como bocinas 197 e impresoras 196, que pueden cone?tarse a través de una interfase periférica de salida 195 La computadora 110 puede operar en un ambiente en red que utiliza conexiones lógicas a una o más computadoras remotas, tal comoj una computadora remota 180 La computadora remota 180 puede ser una computadora personal, un dispositivo móvil, un servidor, un enrutador, una PC de red, un dispositivo par, u otro nodo de red común, y típicamente incluye muchos o todos los elementos descritos anteriormente en relación a la computadora 110 Las conexiones lógicas ilustradas en la Figura 1 incluyen una red de área il oca I (LAN) 171 y una red de área ancha (WAN) 173, pero tambi'én pueden incluir otras redes Tales ambientes en red comúnmente están ubicados en oficinas, redes de computadora extendidos en empresa, intranets e Internet Cuando se utiliza en un ambiente en red LAN, la computadora 110 se conecta a la LAN 171 a través de una interfase en red o adaptador 170 Cuando se utiliza en un ambiente en red WAN, la computadora 110 típicamente incluye un módem 172 u otros medios para establecer comunicaciones en la WAN 173, tal como Internet El módem 172 que puede ser interno o externo, puede conectarse al conductor común de sistema 121 a través de interfase de entrada de usuario 160, u otro mecanismo apropiado. En un ambiente en red, los módulos de programa ilustrados relativos a la computadora 110, o porciones de la misma, pueden almacenarse en el dispositivo de almacenamiento de memoria remotos A manera de ejemplo, y no de limita ción, la Figura 1 ilustra programas de aplicación remotos 185 co o residentes en la computadora remota 180. Se apreciará que las conexiones en red mostradas son ilustrativas y pueden utilizarse otros medios para establecer un enlace de comunicación entre las computadoras La Figura 2 es un diagrama de bloques de un dispositivo móvil 210. ' La memoria 204 se implementa como memoria electrónica no volátil' tal como memoria de acceso aleatorio (RAM) con un módulo de recuperación de batería (no mostrado) para que la información almacenada en la memoria 204 no se pierda cuando se apaga la energía general para el dispositivo móvil 200 Una porción de la memoria 204 preferiblemente se distribuye como memoria dirigible para ejecución de programa, mientras otra porción de la memoria 204 preferiblemente se utiliza para almacenamiento, tal como para simular almacenamiento en una unidad de disco | La memoria 204 incluye un sistema operativo 212, programas de aplicación 214 asi como un almacenamiento de objeto 216 Durante operación, el sistema operativo 212 preferiblemente se ejecuta por el procesador 202 de la memoria 204 El sistema operativo 212, en una modalidad preferida, es un sistema operativo de la marca WINDOWS® CE comerclalmente disponible de Microsoft Corporation El sistema operativo 212 preferiblemente se diseña para dispo sitivos móviles, e implementa características de base de datos que pjueden utilizarse por aplicaciones 214 a través de un grupo de interfáses y métodos de programación de aplicación expuestos Los objetos en el almacenamiento 216 se mantienen por aplicaciones 214 I y el sistema operativo 212, al menos parcialmente en respuesta a las llamadas a las interfases y métodos de programación de aplicación expuestos La interfase de comunicación 208 representa numerosos dispositivos y tecnologías que permiten que el dispositivo móvil 200 envíe y reciba información El dispositivo incluye módems por cable e inalámbricos, receptores por satélite y sintonizadores de transmisión por nombrar alguno El dispositivo móvil 200 también puede conectarse directamente a una computadora para intercambiar datoíi con ésta. En tal caso, la ¡nterfase de comunicación 208 puede ser un transceptor infrarrojo o una conexión de comunicación en serie o paralela, todos que son capaces de transmitir información por corriente. ' LOS componentes de entrada/salida 206 ¡ncluyen una variedad de dispositivos de entrada tal como una pantalla sensible al tacto, botores, rodillos, y un micrófono así como una variedad de dispositivos de salida que incluyen un generador de audio, un dispositivo de vibración, y una pantalla. Los dispositivos listados anteriormente son a manera de ejemplo y no necesitan todos estar presentes en el dispositivo móvil 200. Además, pueden anexarse otros dispositivos de entrada/salida a o encontrarse con el dispositivo móvil 200 dentro del alcance de la presente invención. La Figura 3 proporciona un diagrama de bloques básico de modalidades de la presente invención. En la Figura 3, una bocina 300 genera una señal de diálogo 302 (X) que se detecta por un micro fono de conducción por aire 304 y un sensor alternativo 306. Los e jemplos de los sensores alternativos incluyen un micrófono de garga nta que mide las vibraciones de garganta del usuario, un senso r de conducción por hueso que se localiza en o adyacente a un hueso facial o cráneo del usuario (tal como el hueso de la mandíbula) o el oído del usuario que percibe vibraciones del cráneo y ma?díbula que corresponden al diálogo generado pro el usuario. El micrófono de conducción por aire 304 es el tipo de micrófono que se utiliza comúnmente para convertir indas den aire de audio en señales eléct -icas 'El micrófono de conducción por aire 304 también recibe ruido ambiental 308 (Z) generado por una o más fuentes de ruido Dependiendo del tipo de ruido ambiental y nivel del ruido ambiental, el ruido ambiental 308 también puede detectarse por el sensor alternativo 306 Sin embargo, bajo las modalidades de la presente ?nven|c?ón, el sensor alternativo 306 típicamente es menos sensible al ruido ambiental que el micrófono de conducción por aire 304 De esa forma, la señal de sensor alternativa 316 (B) generada por el sensor alterrativo 306 generalmente incluye menos ruido que la señal de micrófono de conducción por aire 318 (Y) generado por el micrófono de conducción por aire 304 Aunque el sensor alternativo 306 es menos sensible al ruido ambiental, no genera algún ruido de sensor 320 (ÍN) i JLa trayectoria de la bocina 300 a la señal de sensor alternativa I 316 puede modelarse como un canal que tiene una respuesta de canal H La trayectoria del ruido ambiental 308 a la señal de sensor altern lativa 316 puede modelarse como un canal que tiene una respuesta de canal G La señal de sensor alternativo 316 (B) y la señal de micrófono de conducción por aire 318 (Y) se proporcionan para un estimador de señal I limpia 322, que estima una señal limpia 324 El estimado de señal|l?mp?o 324 se proporciona popara un procedimiento de diálogo 328. El estimado de señal limpia 324 puede ser una señal de dominio de tiempo filtrada o un vector de Transformación de Fourier Si el estimado de señal limpia 324 es una señal de dominio de tiempo, el procedimiento de diálogo 328 puede tomar la forma de un oyente, un sistema de codificación de diálogo, o un sistema de reconocimiento de diálogo. Si el estimado de señal limpia 324 es un vector de Transformación Fourier, el procedimiento de diálogo 328 típicamente será un sistema de reconocimiento de diálogo, o contendrá una Transformación de Fourier Inversa para convertir el vector de Transformación de Fourier en formas de onda. Dentro de la mejora de filtrado directa 322, la señal de sensor altern ativa 316 y la señal de micrófono 318 se convierten en el dominio de frecuencia que se utiliza para estimar el diálogo limpio. Como se muestra en la Figura 4, la señal de sensor alternativa 316 y la señal de micrófono de conducción 318 se proporcionan a convertidores analógicos a digitales 404 y 414, respectivamente, para generar una secuencia de valores digitales, que se agrupan en marcojs de valores por conductores de marcos 406 y 416, respectivamente En una modalidad, los convertidores de A a B 404 y 414 muestrean las señales analógicas en 16 KHz y 16 bits por muestra, con ello crean 32 kilobytes de datos de diálogo por segundo y constructores de marco 406 y 416 crean un nuevo marco respectivo cada [10 mihsegundos que incluyen un valor de 20 milisegundos de datos. Cada marco respectivo de datos proporcionado por los const ructores de marco 406 y 416 se convierten en el dominio de frecuencia utilizando Transformaciones de Fourier Rápidas (FFT) 408 y 418, respectivamente. 'Los valores de dominio de frecuencia para las señales de sensor alternativa y la señal de micrófono de conducción por aire se proporcionan para el estimador de señal limpio 420, que utilizan los valor s de dominio de frecuencia para estimar la señal de diálogo limpici 324. Bajo algunas modalidades, la señal de diálogo limpia 324 se convierte de nuevo al dominio de tiempo utilizando Transformaciones de Fourier Rápidas Inversas 422. Esto crea una versión de dominio de tiempo de señal de diálogo limpia 324. Las modalidades de la presente invención proporcionan técnicas de filtrado directas para estimar señal de diálogo limpia 324. Bajo el filtrado directo, un estimado de probabilidad máxima de la respuesta(s) de canal para el sensor alternativo 306 se determinan al minimizar una función relativa a la respuesta(s) de canal. Estos estimados después se utilizan para determinar un estimado de probabilidad máximo de la señal de diálogo limpia al minimizar una función relativa a la señal de diálogo limpia. Bajo una modalidad de la presente invención, la respuesta de canal G que corresponde al diálogo de fondo que se detecta por el sensor alternativo se considera cero. Esto resulta en un modelo entre la señal de diálogo limpia y la señal de micrófono de condu cción por aire y la señal de sensor alternativa de: y(t) = x(t)+z(t) Ec 1 b(t) = h(t)*x(t) + w(t) Ec 2 en donde y(t) es la señal de micrófono de conducción por aire, b(t) es la señal de sensor alternativa, x(t) es la señal de diálogo limpia, z(t) es el ruido ambiental, w(t) es el ruido de sensor alternativo, y h(t) es la respuesta de canal a la señal de dialogo limpia asociada con el sensor alternativo De esa forma, en la ecuación 2, la señal de sensor alternativa se modela como una versión filtrada del diálogo limpio, en donde el filtro tiene una respuesta de impulso de h(t) En el dominio de frecuencia, las Ecuaciones 1 y 2 pueden expresarse como Y,(k)=Xt(k)--Zl(k) Ec 3 Bt(k) = Ht(k)Xt(k) + Wt(k) Ec 4 en onde la notación Y¡(k) representa el kvo componente de frecuencia de un marco de una señal centrada alrededor del tiempo t Esta ¡notación aplica a X,(k) Z,(k), Ht(k), Wt(k), y B,(k), En la i discusión posterior la referencia al componente de frecuencia k se omite para claridad Sin embargo, aquellos expertos en la técnica reconocerán que los cálculos realizados posteriormente se realizan en unja base de componente por frecuencia ¡Bajo esta modalidad, las partes reales e imaginarias del ruido Zt y Wt se modelan como Gausianos de media cero de manera que ZyN(0,s¡) Ec 5 en d nde es la variación para el ruido Zt y es la variación para ruido Wt Ht, también se moldea como un Gausiano para que Ec 7 H,->N(H-,sH2) en dpnde H0 es la media de la respuesta de canal y es la I variación de la respuesta del canal ¡Dado estos parámetros de modelo, la probabilidad de un valor de diálogo limpio X¡ y un valor de respuesta de canal H, se describe por la probabilidad condicional PÍXMY,-B--H-,< -s>-o*) Ec 8 que es proporcional a pP-,B.\X-tHt,si-sl)p{H.\Ht,sl)p(X,) Ec 9 que es igual a p{Yl\Xl,s )p(Bl\X„H sl)P(Hl\H„s{)p(Xl) Ec 10 'En una modalidad, la probabilidad anterior para el canal de i respuesta, ,se ignora y cada una de las probabilidades restantes se trata con una distribución Gausiana con la probabilidad previa del diálogo limpio p(Xt), que se trata como un Gausiano de media cero con una variación de manera que ?AI utilizar esta simplificación y la Ecuación 10, el estimado de probabilidad máximo de Xt, para el marco en t se determina al minimizar F, Ya que la Ecuación 12 se minimiza con respecto a Xt, el deri ativo parcial con respecto a X,, puede tomarse para determinar 1 dF • = o el val or de X, que minimiza la función Específicamente, ax, da en donde H*t representa el conjugado complejo de Ht y \H, representa la magnitud del valor complejo Ht I La respuesta de canal Ht se estima de la expresión completa al minimizar JM sustituir la expresión de Xt calculado en la Ecuación 13 en la Ecuación 14, establecer el derivativo parcial ~=o,y después asumir que H es constante a través de todos los marcos de tiempo T da una solución para H de ¡ Ec. 15 | En la Ecuación 15, el estimado de H requiere varias sumas de cálcullo en los últimos marcos T en la forma de: S(r) = 2 Ec. 16 en donde St es (s¡ \B, |2 -s2 \Y, |2)_or B]Y, Con esta formulación, el primer marco (t = 1) es tan importante comojel último marco (t = T). Sin embargo, en otras modalidades se prefiere que los últimos marcos contribuyan más al estimado de H que los antiguos marcos. Una técnica para lograr esto es "maduración exponencial", en la cual las sumas de la Ecuación 16 se reemplazan con: S(T) = ?c'-'s, Ec. 17 1=1 en donde c=1. Si c = 1, entonces la Ecuación 17 es equivalente a la Ecuación 16. Si c < 1, entonces el último marco se pesa por 1, el penúltimo marco se pesa por c (es decir, contribuye menos que el último! marco), y el primer marco se pesa por ct"1 (es decir, contribuye significativamente menos que el último marco). Tomando un ejemplo. Permitir c = 0.99 y T = 100, entonces el peso para el primé r marco sólo es 0.99ua = 0.37. Bajo una modalidad, la Ecuación 17 se estima recursivamente como! S(T) = cS(T-1) + sr Ec.18 ¡Ya que la Ecuación 18 automáticamente pesa datos antiguos menores, una longitud de ventana fija no necesita utilizarse, y los datos' de los últimos marcos T no necesitan almacenarse en la memoria. En vez de eso, sólo el valor para S(T-1) en el marco previo necesita almacenarse. Al utilizar la Ecuación 18, la Ecuación 15 se convierte en: ¡El valor de c en las ecuaciones 20 y 21 proporciona una longitud efectiva para el número de marcos pasados que se utilizan para ¡calcular el valor actual de J(T) y K(T). Específicamente, la longit bd efectiva se da por: T-l L(t)=Sy??c- = 1-c7 Ec. 22 1=1 I--0 \ — C La longitud asintótica se da por: ¿ = limI(-T) = Ec. 23 1-c o equivalentemente, c = • L-l Ec. 24 De esa forma, al utilizar la ecuación 24, c puede establecerse para lograr diferentes longitudes efectivas en la ecuación 19. Por ejem ilo, para lograr una longitud efectiva de 200 marcos, c se estab lece como: 199 c = — = 0.995 Ec. 25 200 Una vez que se estimó H al utilizar la Ecuación 15, puede utilizarse en lugar de todo Ht de la Ecuación 13 para determinar un i valor separado de Xt en cada marco de tiempo t. Alternativamente, la ecuación 19 puede utilizarse para estimar H, en cada marco de tiempjo t. El valor de H, en cada marco después se utiliza en la i Ecuación 13 para determinar Xt. La Figura 5 proporciona un diagrama de flujo de un método de la presente invención que utiliza las Ecuaciones 13 y 15 para estimar un valor de diálogo limpio para una expresión. En el paso 500, los componentes de frecuencia de los marcos de la señal de micrófono de conducción por aire y la señal defensor alternativa se capturan a través de la expresión completa.
En el paso 502 la variación para ruido ambiental z y el ruido de sensor alternativo " se determina de marcos de la señal de micró]fono de conducción por aire y la señal de sensor alternativa, respectivamente, que se capturan antes en la expresión durante periodos cuando el hablante no habla. 'El método determina cuando el hablante no habla al identificar porciones de energía baja de la señal de sensor alternativa, ya que la energía del ruido de sensor alternativo es mucho menor que la señal de diálogo capturada por la señal de sensor alternativa. En otras modalidades, las técnicas de detección de diálogo conocidas pueden aplicarse a la señal de diálogo de conducción por aire para identificar cuando el hablante habla. Durante periodos cuando se considera que el hablante está hablando, Xt, se asume para ser cero y cualquier señal del micrófono de conducción por aire o el sensor alternativo se considera como ruido. Las muestras de estos valores se recolectan de los marcos de no diálogo y se utilizan para estimar la variación del ruido en la señal de conducción por aire y la señal de sejnsor alternativa. ¡En el paso 504, se determina la variación de la distribución de X,l proba bilidad previa del diálogo limpio Bajo una modalidad, esta variación se calcula como: 1 -+m s = ^¡^)?Y -s en donde |Yd|2 es la energía de la señal de micrófono de conducción por aire y la suma se realiza en un grupo de marcos de diálogo que incluye los marcos de diálogo k antes del marco de diálogo actual y los marcos de diálogo m después del marco de diálogo actual. Para evita!- un valor negativo o un valor de cero para la variac s?,? algunjas modalidades de la presente invención utilizan (-01-c como el va or más bajo posible para s , . En una modalidad alternativa, una implementación de tiempo real e realiza al utilizar una técnica de suavización que confía sólo en la variación de la señal de diálogo limpia en el marco precedente de diálogo para que: Yd | (1- /> Ec. 27 en dc-nde c^es la variación del diálogo limpio previo a distribución de prjobabilidad del último marco que contuvo el diálogo, p es un factoi1 de suavización con una escala entre 0 y 1, a es una constante pequeña, y y a|Yd|2 se selecciona para asegurar valores positivos para sv . Bajo una I modalidad específica, el factor de suavización tiene un valor de .08, y a = 0 01 En el paso 506, los valores para la señal de sensor alternativa y la s¡eñal de micrófono de conducción de aire a través de todos los marcos de la expresión se utilizan para determinar un valor de H que utiliza^ la Ecuación 15 anterior. En el paso 508, este valor de H se utiliza junto con los valores individuales de la señal de micrófono de conducción por aire y la señal de sensor alternativa en cada marco de tiempo para determinar un valor de diálogo mejorado o reducido de ruido para cada marco de tiempo que utiliza la Ecuación 13 anterior. En otras modalidades, en lugar de utilizar todos los marcos de la expresión para determinar un valor individual de H que utiliza la Ecuación 15, H, se determina para cada marco que utiliza la Ecuación 19. El valor de H, después se utiliza para calcular X, para el marco que utiliza la Ecuación 13 anterior. En una segunda modalidad de la presente invención, la respuesta de canal del sensor alternativo para el ruido ambiental se considera para no ser cero. En esta modalidad, la señal de micrófono de ccnducción por aire y la señal de sensor alternativa se modelan como: Yt(k)=X,(k)+Zt(k) Ec. 28 Bt(k) = Ht(k)Xt(k) + Gt(k)Zt(k) + W,(K) Ec. 29 i i en donde la respuesta de canal de sensores alternativos al ruido ambiental es un valor de no cero de G,(k). La probabilidad máxima para el diálogo limpio Xt puede encortrarse al minimizar una función objetiva que resulta en una ecuacjión para el diálogo limpio de: Ec. 30 x, Con el fin de resolver la Ecuación 30, las variaciones s , así como los valores de respuesta de canal H y G deben conocerse. La Figura 6 proporciona un diagrama de flujo para ident ficar estos valores y para determinar valores de diálogo mejorados para cada marco. ¡En el paso 600, los marcos de la expresión se identifican en donde el usuario no habla. Estos marcos después se utilizan para determinar la variación cr,„ / para el sensor alternativo y el ruido ambiental, respectivamente. Para identificar marcos en donde el usuario no habla, la señal de sensor alternativa puede examinarse. Ya que la señal de sensor alterrativa producirá valores de señal mucho menores para diálogo de fondo que para el ruido, si la energía de la señal de sensor alternativa es baja, puede asumirse que el hablante no está hablando. Después que se determinaron variaciones para el ruido ambiental y el ruido de sensor, el método de la Figura 6 continúa en i el pajso 602 en donde determina la variación de la probabilidad previa de diálogo limpio, s?,? , utilizando ecuaciones 26 ó 27 anteriormente. Como se discutió anteriormente, sólo esos marcos que contienen diálogo se utilizan para determinar la variación del d i á loe o limpio previo. En el paso 604, los marcos identificados en donde el usuario no i habla I se utilizan para estimar la respuesta de canal del sensor altern ativo G para ruido ambiental. Específicamente, G se determina como! ?Y'B . — ,(gl Ec 31 ?y'y en donde D es el número de marcos en el cual el usuario no habla En lal Ecuación 31, se asume que G permanece constante a través de todosj los marcos de la expresión y de esa forma ya no es dependiente del marco de tiempo t En la ecuación 31, la suma en t puede reemplazarse con el cálculo de deterioro exponencial discutido anteriormente en conexión con las ecuaciones 16-25 En el paso 606, el valor de la respuesta de canal del sensor alternativo G al diálogo de fondo se utiliza para determinar la respu ¡sta de canal del sensor alternativo para la señal de diálogo limpia Específicamente, H se calcula como Ec 32 (En la Ecuación 32, la suma en T puede reemplazarse con el cálcu o de deterioro exponencial recursivo discutido anteriormente en conexión con ecuaciones 16-25 Después que se determinó H en el paso 606, la Ecuación 30 puede utilizarse para determinar un valor de diálogo limpio para todos! los marcos Al utilizar la Ecuación 30, bajo algunas I CY I modalidades, el término B,-GYt, se reemplaza con (í-i—d)^ debido i l#; I a que se encontró que es difícil determinar precisamente la diferencia de fase entre el diálogo de fondo y su escape en el sensor alternativo. ¡Si el cálculo de deterioro exponencial recursivo se utiliza en lugarjde las sumas en la Ecuación 32, un valor separado de Ht puede deterrninarse para cada marco y puede utilizarse como H en la ecuación 30. (Aunque la presente invención se describió con referencia a las moda idades particulares, los expertos en la técnica reconocerán que pueden hacerse cambios en la forma y detalle sin apartarse del e s p i r i tu y alcance de la invención.

Claims (1)

  1. REIVINDICACIONES ll - Un método para determinar un estimado para un valor reducido de ruido que representa una porción de una señal de diálogo reducida de ruido, el método comprende generar una señal de sensor alternativa utilizando un sensor alternativo diferente a un micrófono de conducción por aire, generar una señal de micrófono de conducción por aire utilizar la señal de sensor alternativa y la señal de micrófono de conducción por aire para estimar un valor para una respuesta de canal de la señal de sensor alternativa, y utilizar la respuesta de canal y una probabilidad previa del valor reducido de ruido para estimar el valor reducido de ruido 2 - El método de acuerdo con la reivindicación 1, en donde la probaoilidad previa del valor reducido de ruido tiene una distribución definida por una variación | 3 - El método de acuerdo con la reivindicación 2, que además i comprende determinar la variación de la distribución basándose en la señal de micrófono de conducción por aire 4 - El método de acuerdo con la reivindicación 3, en donde el determinar la variación basándose en la señal de micrófono de condupción por aire comprende formar una suma de valores de energía para marcos de la señal de micrófono de conducción por I aire i 5 - El método de acuerdo con la reivindicación 4, en donde los rrarcos de la señal de micrófono de conducción por aire todos contienen diálogo 6 - El método de acuerdo con la reivindicación 2, en donde el determinar la variación de la distribución además comprende deterlninar la variación basándose en una variación de ruido ambiental 7 - El método de acuerdo con la reivindicación 6, en donde el determinar la variación de la distribución además comprende determinar una variación asociada con un marco actual de la señal de diálogo reducida de ruido basándose en un marco actual de la señal de micrófono de conducción por aire y una variación de la distribución asociada con un marco precedente de la señal de diáloco reducida de ruido 8 - El método de acuerdo con la reivindicación 7, en donde el determinar la variación de la distribución además comprende limitar los valores de la variación para que la variación siempre exceda algún valor mínimo 9 - El método de acuerdo con la reivindicación 8, en donde el valor ¡mínimo es un porcentaje de la variación del ruido ambiental I ¡10 - Un medio legible por computadora que tiene instrucciones i ejecutables por computadora para realizar los pasos que comprenden determinar una respuesta de canal para un sensor alternativo utilizando una señal se sensor alternativa y una señal de micrófono de conducción por aire, y utilizar la respuesta de canal y una distribución de probabilidad previa para un valor de diálogo limpio para estimar un valor de diálogo limpio. I 11.- El medio legible por computadora de acuerdo con la reivindicación 10, en donde el utilizar una distribución de probabilidad previa comprende utilizar una variación para la distribución de probabilidad previa. ¡12.- El medio legible por computadora de acuerdo con la reivindicación 11, en donde los pasos además comprenden determinar la variación para la distribución de probabilidad previa basándose en la señal de micrófono de conducción por aire. 13.- El medio legible por computadora de acuerdo con la reivindicación 12, en donde el determinar la variación para la probabilidad previa además comprende la variación para la probabilidad previa basándose en una distribución de ruido ambiental. ?14.- El medio legible por computadora de acuerdo con la reivinjdicación 13, en donde el determinar la variación para la I probabilidad previa basándose en la señal de micrófono de condu cción por aire comprende formar una suma de valores de energía para marcos de la señal de micrófono de conducción por aire. [15.- El medio legible por computadora de acuerdo con la reivindicación 13, en donde el determinar la variación para la distribución de probabilidad previa además comprende determinar una variación para la distribución de probabilidad previa asociada con un valor de diálogo limpio actual basándose en una variación para una distribución de probabilidad previa asociada con un valor de diálogo limpio anterior 16 - El medio legible por computadora de acuerdo con la reivm dicación 15, en donde la determinación de la distribución de proba bi I idad previa además comprende tomar una suma pesada de la variación para una distribución de probabilidad previa asociada con un va or de diálogo limpio anterior y la diferencia entre la energía de un marco de la señal de micrófono de conducción por aire y la variación de la distribución de ruido ambiental 17 - El medio legible por computadora de acuerdo con la reivindicación 12, en donde el determinar la variación de la distribución de probabilidad previa además comprende establecer un valor mínimo para la variación de la distribución de probabilidad previa !18 - El medio legible por computadora de acuerdo con la reivindicación 17, en donde el valor mínimo para la variación es una función de una variación para una distribución de ruido ambiental 19 -Un método para identificar un valor de diálogo limpio para una señal de diálogo limpia, el método comprende eterminar una respuesta de canal de un sensor alternativo para rjuido ambiental, y utilizar la respuesta de canal y una distribución de probabilidad previa para valores de diálogo limpio para determinar un valor de diálocjo limpio. 20.- El método de acuerdo con la reivindicación 19, en donde un parámetro de la distribución de probabilidad previa se determina a partir de un valor de señal de micrófono de conducción de aire.
MX2007014562A 2005-06-20 2006-06-06 Mejora de dialogo multisensorial utilizando un dialogo limpio previo. MX2007014562A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/156,434 US7346504B2 (en) 2005-06-20 2005-06-20 Multi-sensory speech enhancement using a clean speech prior
PCT/US2006/022058 WO2007001768A2 (en) 2005-06-20 2006-06-06 Multi-sensory speech enhancement using a clean speech prior

Publications (1)

Publication Number Publication Date
MX2007014562A true MX2007014562A (es) 2008-01-16

Family

ID=37574502

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2007014562A MX2007014562A (es) 2005-06-20 2006-06-06 Mejora de dialogo multisensorial utilizando un dialogo limpio previo.

Country Status (14)

Country Link
US (1) US7346504B2 (es)
EP (1) EP1891627B1 (es)
JP (1) JP4975025B2 (es)
KR (1) KR101422844B1 (es)
CN (1) CN101199006B (es)
AT (1) ATE476734T1 (es)
AU (1) AU2006262706B2 (es)
BR (1) BRPI0611649B1 (es)
CA (1) CA2607981C (es)
DE (1) DE602006015954D1 (es)
MX (1) MX2007014562A (es)
NO (1) NO339834B1 (es)
RU (1) RU2407074C2 (es)
WO (1) WO2007001768A2 (es)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7115093B2 (en) 2001-11-21 2006-10-03 Ge Medical Systems Global Technology Company, Llc Method and system for PDA-based ultrasound system
WO2006033104A1 (en) * 2004-09-22 2006-03-30 Shalon Ventures Research, Llc Systems and methods for monitoring and modifying behavior
US9767817B2 (en) * 2008-05-14 2017-09-19 Sony Corporation Adaptively filtering a microphone signal responsive to vibration sensed in a user's face while speaking
CN102405463B (zh) * 2009-04-30 2015-07-29 三星电子株式会社 利用多模态信息的用户意图推理装置及方法
KR101581883B1 (ko) * 2009-04-30 2016-01-11 삼성전자주식회사 모션 정보를 이용하는 음성 검출 장치 및 방법
CN102340719B (zh) * 2010-07-19 2014-07-23 深圳市宇恒互动科技开发有限公司 一种基于传感器获取声音信号的方法及装置
EP2458586A1 (en) * 2010-11-24 2012-05-30 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
CN102436810A (zh) * 2011-10-26 2012-05-02 华南理工大学 一种基于信道模式噪声的录音回放攻击检测方法和系统
US9094749B2 (en) 2012-07-25 2015-07-28 Nokia Technologies Oy Head-mounted sound capture device
CN103871419B (zh) * 2012-12-11 2017-05-24 联想(北京)有限公司 一种信息处理方法及电子设备
CN103208291A (zh) * 2013-03-08 2013-07-17 华南理工大学 一种可用于强噪声环境的语音增强方法及装置
CN105611061A (zh) * 2015-12-31 2016-05-25 宇龙计算机通信科技(深圳)有限公司 一种语音传输的方法、装置及移动终端
CN110931031A (zh) * 2019-10-09 2020-03-27 大象声科(深圳)科技有限公司 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法

Family Cites Families (98)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US629278A (en) * 1898-07-23 1899-07-18 Stickerei Feldmuehle Shuttle for embroidering-machines.
US636176A (en) * 1899-01-10 1899-10-31 Theodore Mundorff Eyeglass-case.
US785768A (en) * 1904-06-27 1905-03-28 Charles B Sippel Collar-button.
US3383466A (en) 1964-05-28 1968-05-14 Navy Usa Nonacoustic measures in automatic speech recognition
US3746789A (en) * 1971-10-20 1973-07-17 E Alcivar Tissue conduction microphone utilized to activate a voice operated switch
US3787641A (en) * 1972-06-05 1974-01-22 Setcom Corp Bone conduction microphone assembly
US4382164A (en) * 1980-01-25 1983-05-03 Bell Telephone Laboratories, Incorporated Signal stretcher for envelope generator
JPS62239231A (ja) * 1986-04-10 1987-10-20 Kiyarii Rabo:Kk 口唇画像入力による音声認識方法
JPH0755167B2 (ja) * 1988-09-21 1995-06-14 松下電器産業株式会社 移動体
JPH03160851A (ja) * 1989-11-20 1991-07-10 Fujitsu Ltd 携帯電話機
US5054079A (en) * 1990-01-25 1991-10-01 Stanton Magnetics, Inc. Bone conduction microphone with mounting means
US5404577A (en) * 1990-07-13 1995-04-04 Cairns & Brother Inc. Combination head-protective helmet & communications system
US5295193A (en) * 1992-01-22 1994-03-15 Hiroshi Ono Device for picking up bone-conducted sound in external auditory meatus and communication device using the same
US5590241A (en) * 1993-04-30 1996-12-31 Motorola Inc. Speech processing system and method for enhancing a speech signal in a noisy environment
US5446789A (en) * 1993-11-10 1995-08-29 International Business Machines Corporation Electronic device having antenna for receiving soundwaves
AU684872B2 (en) * 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
US5828768A (en) * 1994-05-11 1998-10-27 Noise Cancellation Technologies, Inc. Multimedia personal computer with active noise reduction and piezo speakers
DE69527731T2 (de) * 1994-05-18 2003-04-03 Nippon Telegraph & Telephone Co., Tokio/Tokyo Sender-Empfänger mit einem akustischen Wandler vom Ohrpassstück-Typ
JPH08186654A (ja) 1994-12-22 1996-07-16 Internatl Business Mach Corp <Ibm> 携帯端末装置
US5701390A (en) 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
US5692059A (en) * 1995-02-24 1997-11-25 Kruger; Frederick M. Two active element in-the-ear microphone system
US5555449A (en) * 1995-03-07 1996-09-10 Ericsson Inc. Extendible antenna and microphone for portable communication unit
US5651074A (en) 1995-05-11 1997-07-22 Lucent Technologies Inc. Noise canceling gradient microphone assembly
KR960042590A (ko) * 1995-05-23 1996-12-21 김광호 테이프 재생용 음량기기에서의 발음비교방법
US5647834A (en) 1995-06-30 1997-07-15 Ron; Samuel Speech-based biofeedback method and system
JP3591068B2 (ja) * 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JPH09172479A (ja) * 1995-12-20 1997-06-30 Yokoi Kikaku:Kk 送受話器およびそれを用いた通話装置
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US6243596B1 (en) * 1996-04-10 2001-06-05 Lextron Systems, Inc. Method and apparatus for modifying and integrating a cellular phone with the capability to access and browse the internet
US5943627A (en) * 1996-09-12 1999-08-24 Kim; Seong-Soo Mobile cellular phone
JPH10261910A (ja) * 1997-01-16 1998-09-29 Sony Corp 携帯無線装置およびアンテナ装置
JP2874679B2 (ja) * 1997-01-29 1999-03-24 日本電気株式会社 雑音消去方法及びその装置
JPH10224253A (ja) * 1997-02-10 1998-08-21 Sony Corp 携帯通信機
US6308062B1 (en) * 1997-03-06 2001-10-23 Ericsson Business Networks Ab Wireless telephony system enabling access to PC based functionalities
FR2761800A1 (fr) 1997-04-02 1998-10-09 Scanera Sc Dispositif de transmission de voix et telephone le mettant en oeuvre
US5983073A (en) * 1997-04-04 1999-11-09 Ditzik; Richard J. Modular notebook and PDA computer systems for personal computing and wireless communications
US6175633B1 (en) * 1997-04-09 2001-01-16 Cavcom, Inc. Radio communications apparatus with attenuating ear pieces for high noise environments
US6151397A (en) * 1997-05-16 2000-11-21 Motorola, Inc. Method and system for reducing undesired signals in a communication environment
US6434239B1 (en) * 1997-10-03 2002-08-13 Deluca Michael Joseph Anti-sound beam method and apparatus
JPH11249692A (ja) 1998-02-27 1999-09-17 Nec Saitama Ltd 音声認識装置
DE69936476T2 (de) 1998-03-18 2007-11-08 Nippon Telegraph And Telephone Corp. Tragbares Kommunikationsgerät zur Eingabe von Befehlen durch Detektion der Fingeraufschläge oder Vibrationen der Fingerspitzen
CA2332833A1 (en) * 1998-05-19 1999-11-25 Spectrx, Inc. Apparatus and method for determining tissue characteristics
US6717991B1 (en) * 1998-05-27 2004-04-06 Telefonaktiebolaget Lm Ericsson (Publ) System and method for dual microphone signal noise reduction using spectral subtraction
US6052464A (en) * 1998-05-29 2000-04-18 Motorola, Inc. Telephone set having a microphone for receiving or an earpiece for generating an acoustic signal via a keypad
US6137883A (en) * 1998-05-30 2000-10-24 Motorola, Inc. Telephone set having a microphone for receiving an acoustic signal via keypad
JP3160714B2 (ja) * 1998-07-08 2001-04-25 株式会社シコー技研 携帯無線通信機
US6292674B1 (en) * 1998-08-05 2001-09-18 Ericsson, Inc. One-handed control for wireless telephone
JP3893763B2 (ja) 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
JP2000066691A (ja) * 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置
US6760600B2 (en) * 1999-01-27 2004-07-06 Gateway, Inc. Portable communication apparatus
DE19917169A1 (de) 1999-04-16 2000-11-02 Kamecke Keller Orla Verfahren zur Speicherung und Wiedergabe von Audio-, Video- und Anwendungsprogrammdaten in Mobilfunkendgeräten
US20020057810A1 (en) * 1999-05-10 2002-05-16 Boesen Peter V. Computer and voice communication unit with handsfree device
US6094492A (en) * 1999-05-10 2000-07-25 Boesen; Peter V. Bone conduction voice transmission apparatus and system
US6952483B2 (en) * 1999-05-10 2005-10-04 Genisus Systems, Inc. Voice transmission apparatus with UWB
US6738485B1 (en) * 1999-05-10 2004-05-18 Peter V. Boesen Apparatus, method and system for ultra short range communication
US6560468B1 (en) * 1999-05-10 2003-05-06 Peter V. Boesen Cellular telephone, personal digital assistant, and pager unit with capability of short range radio frequency transmissions
US6542721B2 (en) * 1999-10-11 2003-04-01 Peter V. Boesen Cellular telephone, personal digital assistant and pager unit
US6258734B1 (en) * 1999-07-16 2001-07-10 Vanguard International Semiconductor Corporation Method for patterning semiconductor devices on a silicon substrate using oxynitride film
US6594629B1 (en) 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6603823B1 (en) * 1999-11-12 2003-08-05 Intel Corporation Channel estimator
US6339706B1 (en) * 1999-11-12 2002-01-15 Telefonaktiebolaget L M Ericsson (Publ) Wireless voice-activated remote control device
US6675027B1 (en) * 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
US6411933B1 (en) * 1999-11-22 2002-06-25 International Business Machines Corporation Methods and apparatus for correlating biometric attributes and biometric attribute production features
GB2357400A (en) * 1999-12-17 2001-06-20 Nokia Mobile Phones Ltd Controlling a terminal of a communication system
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
JP3339579B2 (ja) * 2000-10-04 2002-10-28 株式会社鷹山 電話装置
KR100394840B1 (ko) * 2000-11-30 2003-08-19 한국과학기술원 독립 성분 분석을 이용한 능동 잡음 제거방법
US6853850B2 (en) * 2000-12-04 2005-02-08 Mobigence, Inc. Automatic speaker volume and microphone gain control in a portable handheld radiotelephone with proximity sensors
US20020075306A1 (en) * 2000-12-18 2002-06-20 Christopher Thompson Method and system for initiating communications with dispersed team members from within a virtual team environment using personal identifiers
US6985858B2 (en) 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
GB2375276B (en) 2001-05-03 2003-05-28 Motorola Inc Method and system of sound processing
WO2002098169A1 (en) * 2001-05-30 2002-12-05 Aliphcom Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US6701390B2 (en) * 2001-06-06 2004-03-02 Koninklijke Philips Electronics N.V. FIFO buffer that can read and/or write multiple and/or selectable number of data words per bus cycle
US6987986B2 (en) * 2001-06-21 2006-01-17 Boesen Peter V Cellular telephone, personal digital assistant with dual lines for simultaneous uses
US7054423B2 (en) * 2001-09-24 2006-05-30 Nebiker Robert M Multi-media communication downloading
US6959276B2 (en) * 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US6952482B2 (en) * 2001-10-02 2005-10-04 Siemens Corporation Research, Inc. Method and apparatus for noise filtering
JP3532544B2 (ja) * 2001-10-30 2004-05-31 株式会社テムコジャパン 面体又は帽体のストラップ装着用送受話装置
US7162415B2 (en) * 2001-11-06 2007-01-09 The Regents Of The University Of California Ultra-narrow bandwidth voice coding
US6707921B2 (en) * 2001-11-26 2004-03-16 Hewlett-Packard Development Company, Lp. Use of mouth position and mouth movement to filter noise from speech in a hearing aid
DE10158583A1 (de) * 2001-11-29 2003-06-12 Philips Intellectual Property Verfahren zum Betrieb eines Barge-In-Dialogsystems
US6664713B2 (en) * 2001-12-04 2003-12-16 Peter V. Boesen Single chip device for voice communications
US7219062B2 (en) * 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
US9374451B2 (en) 2002-02-04 2016-06-21 Nokia Technologies Oy System and method for multimodal short-cuts to digital services
US7117148B2 (en) * 2002-04-05 2006-10-03 Microsoft Corporation Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
US7190797B1 (en) * 2002-06-18 2007-03-13 Plantronics, Inc. Headset with foldable noise canceling and omnidirectional dual-mode boom
US7047047B2 (en) 2002-09-06 2006-05-16 Microsoft Corporation Non-linear observation model for removing noise from corrupted signals
US7092529B2 (en) * 2002-11-01 2006-08-15 Nanyang Technological University Adaptive control system for noise cancellation
WO2004068464A2 (en) * 2003-01-30 2004-08-12 Aliphcom, Inc. Acoustic vibration sensor
US7593851B2 (en) * 2003-03-21 2009-09-22 Intel Corporation Precision piecewise polynomial approximation for Ephraim-Malah filter
US20060008256A1 (en) * 2003-10-01 2006-01-12 Khedouri Robert K Audio visual player apparatus and system and method of content distribution using the same
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7499686B2 (en) 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US8095073B2 (en) * 2004-06-22 2012-01-10 Sony Ericsson Mobile Communications Ab Method and apparatus for improved mobile station and hearing aid compatibility
US7574008B2 (en) * 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7283850B2 (en) * 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device

Also Published As

Publication number Publication date
BRPI0611649A2 (pt) 2010-09-28
WO2007001768A3 (en) 2007-12-13
DE602006015954D1 (de) 2010-09-16
KR20080018163A (ko) 2008-02-27
RU2407074C2 (ru) 2010-12-20
EP1891627A4 (en) 2009-07-22
BRPI0611649B1 (pt) 2019-09-24
WO2007001768A2 (en) 2007-01-04
CA2607981A1 (en) 2007-01-04
RU2007147463A (ru) 2009-06-27
US7346504B2 (en) 2008-03-18
JP2008544328A (ja) 2008-12-04
NO20075732L (no) 2008-03-17
EP1891627A2 (en) 2008-02-27
CN101199006B (zh) 2011-08-24
EP1891627B1 (en) 2010-08-04
CA2607981C (en) 2014-08-19
AU2006262706B2 (en) 2010-11-25
ATE476734T1 (de) 2010-08-15
KR101422844B1 (ko) 2014-07-30
AU2006262706A1 (en) 2007-01-04
CN101199006A (zh) 2008-06-11
US20060287852A1 (en) 2006-12-21
JP4975025B2 (ja) 2012-07-11
NO339834B1 (no) 2017-02-06

Similar Documents

Publication Publication Date Title
MX2007014562A (es) Mejora de dialogo multisensorial utilizando un dialogo limpio previo.
JP5452655B2 (ja) 音声状態モデルを使用したマルチセンサ音声高品質化
RU2389086C2 (ru) Способ и устройство для улучшения речи с помощью нескольких датчиков
RU2370831C2 (ru) Способ оценки шума с использованием пошагового байесовского изучения
EP2920950B1 (en) Echo suppression
CN108615535A (zh) 语音增强方法、装置、智能语音设备和计算机设备
CN111048061A (zh) 回声消除滤波器的步长获取方法、装置及设备
CN117953912B (zh) 一种语音信号处理方法及相关设备
CN112151061B (zh) 信号排序方法和装置、计算机可读存储介质、电子设备
KR20150015990A (ko) 반향 환경에서의 음성특징 향상방법 및 장치

Legal Events

Date Code Title Description
FG Grant or registration