MX2007015446A - Mejora de lenguaje multi-sensorial utilizando un modelo de estado de lenguaje. - Google Patents

Mejora de lenguaje multi-sensorial utilizando un modelo de estado de lenguaje.

Info

Publication number
MX2007015446A
MX2007015446A MX2007015446A MX2007015446A MX2007015446A MX 2007015446 A MX2007015446 A MX 2007015446A MX 2007015446 A MX2007015446 A MX 2007015446A MX 2007015446 A MX2007015446 A MX 2007015446A MX 2007015446 A MX2007015446 A MX 2007015446A
Authority
MX
Mexico
Prior art keywords
language
probability
signal
estimate
value
Prior art date
Application number
MX2007015446A
Other languages
English (en)
Inventor
James G Droppo
Zhengyou Zhang
Zicheng Liu
Alejandro Acero
Amarnag Subramanya
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of MX2007015446A publication Critical patent/MX2007015446A/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephone Function (AREA)
  • Machine Translation (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

Se describen un metodo y aparato para determinar una probabilidad de un estado de lenguaje basandose en una senal de sensor alternativa y una senal de microfono de conduccion de aire. La probabilidad del estado de lenguaje se utiliza, junto con la senal de sensor alternativa y la senal de microfono de conduccion de aire, para estimar un valor de lenguaje limpio para una senal de lenguaje limpia.

Description

MEJORA DE LENGUAJE MU LTI-SENSORIAL UTILIZANDO UN MODELO DE ESTADO DE LENGUAJE ANTECEDENTES Un problema común en el reconocimiento de lenguaje y transmisión de lenguaje es la corrupción de la señal de lenguaje por el ruido aditivo. En particular, la corrupción debido al lenguaje de otra bocina ha probado ser difícil de detectar y/o corregir. Recientemente, se han desarrollado sistemas para intentar remover el ruido utilizando una combinación de un sensor alternativo, tal como un micrófono de conducción por hueso, y un micrófono de conducción por aire. Se han desarrollado varias técnicas que utilizan la señal de sensor alternativa y la señal de micrófono de conducción por aire para formar una señal de lenguaje mejorada que tiene menos ruido que la señal de micrófono de conducción por aire. Sin embargo, no se ha logrado un lenguaje perfectamente mejorado y se necesitan avaneces adicionales en la formación de señales de lenguaje, mejoradas.
BREVE DESCRIPCIÓN DE LA INVENCIÓN Un método y aparato determinan una probabilidad de un estado de lenguaje basándose en una señal de sensor alternativa y una señal de micrófono de conducción por aire. La probabilidad del estado de lenguaje se utiliza para estimar un valor de lenguaje limpio para una señal de lenguaje limpia.
BREVE DESCRIPCIÓN DE LOS DIBUJOS La Figura 1 es un diagrama de bloques de un ambiente de cómputo en el cual puede practicarse la presente invención. La Figura 2 es un diagrama de bloques de un ambiente de cómputo alternativo en el cual pueden practicarse modalidades de la presente invención. La Figura 3 es un diagrama de bloques de un sistema de procesamiento de lenguaje general de la presente invención. La Figura 4 es un diagrama de bloques de un sistema para mejorar el lenguaje bajo una modalidad de la presente invención. La Figura 5 es un modelo en el cual se basa una mejora de lenguaje bajo una modalidad de la presente invención. La Figura 6 es un diagrama de flujo para mejorar lenguaje bajo una modalidad de la presente invención.
DESCRIPCIÓN DETALLADA DE LAS MODALIDADES ILUSTRATIVAS La Figura 1 ilustra un ejemplo de un ambiente de sistema de cómputo adecuado 100 en el cual pueden implementarse las modalidades de la invención. El ambiente de sistema de cómputo 100 es solo un ejemplo de un ambiente de cómputo adecuado y no pretende sugerir ninguna limitación al alcance de uso o funcionalidad de la invención. El ambiente de cómputo 100 tampoco debe interpretarse como obteniendo ninguna dependencia o requerimiento que se relaciona con cualquiera o combinación de componentes ilustrados en el ambiente operativo ilustrativo 100. Las modalidades de la invención son operacionales con numerosos otros ambientes o configuraciones de sistemas de cómputo de propósito general o de propósito especial. Ejemplos de sistemas de cómputo bien conocidos, ambientes, y/o configuraciones que pueden hacer adecuados para uso con las modalidades de la invención incluyen, pero no se limitan a, computadoras personales, computadoras de servidor, dispositivos móviles o portátiles, sistemas de multiprocesador, sistemas a base de microprocesador, cajas de tv por cable, electrónica de consumidor programable, PCs de red, minicomputadoras, macrocomputadoras, sistemas de telefonía, ambientes de cómputo distribuido que incluyen cualquiera de los sistemas anteriores o dispositivos, y similares. Las modalidades de la invención pueden describirse en el contexto general de instrucciones ejecutables por computadora, tal como módulos de programa, que se ejecutan por una computadora. Generalmente, los módulos de programa incluyen rutinas, programas, objetos, componentes, estructuras de datos, etc. que realizan tareas particulares o implementan tipos de datos abstractos particulares. La invención se diseña para practicarse en ambientes de cómputo distribuidos en donde las tareas se realizan por dispositivos de procesamiento remotos que se enlazan a través de una red de comunicaciones. En un ambiente de cómputo distribuido, los módulos de programa se localizan tanto en medios de almacenamiento de computadora local y remota que incluyen dispositivos de almacenamiento de memoria. Con referencia a la Figura 1, un sistema ilustrativo para implementar la invención incluye un dispositivo de cómputo de propósito general en la forma de una computadora 110. Los componentes de la computadora 110 pueden incluir, pero no se limitan a, una unidad de procesamiento 120, una memoria de sistema 130, y un conductor común de sistema 121 que acopla varios componentes de sistema que incluyen la memoria de sistema a la unidad de procesamiento 120. El conductor común de sistema 121 puede ser cualquiera de varios tipos de estructuras de conductor común que incluyen un conductor común de memoria o controlador de memoria, un conductor común periférico, y un conductor común local que utiliza cualquiera de una variedad de arquitecturas de conductor común. A manera de ejemplo, y no de limitación, tales arquitecturas incluyen conductor común de Arquitectura de Estándar de Industria (ISA), Conductor Común de Arquitectura de MIcrocanal (MCA), Conductor común de de ISA mejorado (EISA), Conductor común Local de Asociación de Estándares Electrónicos de Video (VESA), y conductor común de Interconexión de componente Periférico (PCI) también conocido como conductor común de mezanine. La computadora 10 típicamente incluye una variedad dé medios legibles por computadora. Los medios legibles por computadora pueden ser cualquier medio disponible que puede accederse por la computadora 110 y que incluye tanto medios volátiles como no volátiles, medios removibles y no removibles. A manear de ejemplo, y no de limitación, los medios legibles por computadora pueden comprender medios de almacenamiento de computadora y medios de comunicación. Los medios de almacenamiento por computadora incluyen tanto medios volátiles y no volátiles, removibles y no removibles ¡mplementados en cualquier método y tecnología para almacenamiento de información tal como instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos. Los medios de almacenamiento de computadora incluyen, pero no se limitan a, RAM, ROM, EEPROM, memoria flash u otra tecnología de memoria, CD-ROM, discos versátiles digitales (DVD) u otro almacenamiento de disco óptico, cassettes magnéticos, cinta magnética, almacenamiento de disco magnético u otros dispositivos de almacenamiento magnético, o cualquier otro medio que puede utilizarse para almacenar la información deseada y que puede accederse por la computadora 110. Los medios de comunicación típicamente representan instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos en una señal de datos modulada tal como una onda portadora u otro mecanismo de transporte e incluye cualquier medio de entrega de información. El término "señal de datos modulada" significa una señal que tiene una o más características establecidas o cambiadas de tal forma para codificar información en la señal. A manera de ejemplo, y no de limitación, los medios de comunicación incluyen medios por cable tal como red por cable o conexión por cable directa, y medios inalámbricos tal como medios acústicos, . RF infrarrojos y otros medios inalámbricos. Las combinaciones de cualquiera de los anteriores también deben incluirse dentro del alcance de medios legibles por computadora. La memoria de sistema 130 incluye medios de almacenamiento de computadora en la forma de memoria volátil y/o no volátil tal como memoria solo de lectura (ROM) 131 y memoria de acceso aleatorio (RAM) 132. El sistema de entrada/salida básico 133 (BIOS), que contiene las rutinas básicas que ayudan a transferir información entre elementos de la computadora 110, tal como durante el arranque, típicamente se almacena en ROM 131. La RAM 132 típicamente contiene datos y/o módulos de programa que son inmediatamente accesibles a y/o actualmente están siendo operados por la unidad de procesamiento 120. A manear de ejemplo, y no de limitación, la Figura 1 ilustra el sistema operativo 134, programas de aplicación 135, otros módulos de programa 136, y datos de programa 137. Lá computadora 110 también puede incluir otros medios de almacenamiento de computadora removibles/no removibles volátiles/no volátiles. A manera de ejemplo solamente, la Figura 1 ¡lustra una unidad de disco duro 141 que lee de o escribe a medios magnéticos no removibles, no volátiles, una unidad de disco magnético 151 que lee de o escribe a un disco magnético removible, no volátil 152, y una unidad de disco óptico 155 que lee de o escribe a un disco óptico removible, no volátil 156 tal como un CD ROM u otro medio óptico. Otros medios de almacenamiento de computadora removibles/no removibles, volátiles/no volátiles que pueden utilizarse en el ambiente operativo ilustrativo incluyen, pero no se limitan a, cassettes de cinta magnética, tarjetas de memoria flash, discos versátiles digitales, cinta de video digital, RAM de estado sólido, ROM de estado de sólido, y similares. La unidad de disco duro 141 típicamente se conecta al conductor común de sistema 121 a través de una interfase de memoria no removible tal como interfase 140, y unidad de disco magnético 151 y unidad de disco óptico 155 típicamente se conectan al conductor común de sistema 121 a través de una interfase de memoria removible, tal como interfase 150. Las unidades y sus medios de almacenamiento de computadora asociados discutidos anteriormente e ilustrados en la Figura 1, proporcionan almacenamiento de instrucciones legibles por computadora, estructuras de datos, módulos de programa y otros datos para la computadora 110. En la Figura 1, por ejemplo, la unidad de disco duro 141 se ilustra como almacenando el sistema operativo 144, programas de aplicación 145, otros módulos de programa 146, y datos de programa 147. Se debe notar que estos componentes pueden ser los mismos que o diferentes al sistema operativo 134, programas de aplicación 135, otros módulos de programa 136, y datos de programa 137. El sistema operativo 144, programas de aplicación 145, otros módulos de programa 146, y datos de programa 147 aquí se les proporcionan números diferentes para ilustrar que, en un mínimo, son copias diferentes. Un usuario puede ingresar comandos de información en la computadora 110 a través de dispositivos de entrada tal como teclado 162, un micrófono 163, y un dispositivo de señalamiento 161, tal como un ratón, seguíbola o almohadilla sensible al tacto. Otros dispositivos de entrada (no mostrados) pueden incluir una palanca de mandos, almohadilla de juegos, antena parabólica, escáner, o similares. Estos y otros dispositivos de entrada frecuentemente se conectan a la unidad de procesamiento 120 a través de una interfase de entrada de usuario 160 que se acopla al conductor común de sistema, pero puede conectarse por otra interfase y estructuras de conductor común, tal como un puerto paralelo, o puerto de juegos o un conductor común en serie universal (USB). Un monitor 191 u otro tipo de dispositivo de presentación también se conecta al conductor común de sistema 121 a través de una interfase, tal como una interfase de video 190. Además del monitor, las computadoras también pueden ¡ncluir otros dispositivos de salida periféricos tal como bocinas 197 e impresoras 196, que pueden conectarse a través de una ¡nterfase periférica de salida 195. La computadora 110 se opera en un ambiente en red que utiliza conexiones lógicas a una o más computadoras remotas, tal como una computadora remota 180. La computadora remota 180 puede ser una computadora personal, un dispositivo portátil, un servido, un enrutador una PC de red, un dispositivo par u otro nodo de red común, y típicamente incluye muchos o todos los elementos descritos anteriormente relativos a la computadora 110. Las conexiones lógicas ilustradas en la Figura 1 incluyen una red de área local (LAN) 171 y una red de área ancha (WAN) 173, pero también pueden incluir otras redes. Tales ambientes en red están comúnmente ubicados en oficinas, redes de computadora de empresa, intranets e Internet. Cuando se utiliza en un ambiente en red de LAN, la computadora 1 i 0 se conecta a la LAN 171 a través de una ¡nterfase de red o adaptador 170. Cuando se utiliza en un ambiente en red de WAN, la computadora 110 típicamente incluye un modem 172 u otro medio para establecer comunicaciones en la WAN 173, tal como Internet. El módem 172, que puede ser interno o externo, puede conectarse a conductor común de sistema 121 a través de la interfase de entrada de usuario 160, u otro mecanismo apropiado. En un ambiente en red, los módulos de programa ilustrados relativos a la computadora 110, o porciones de la misma, pueden almacenarse en el dispositivo de almacenamiento de memoria remota. A manera de ejemplo, y no de limitación, la Figura 1 ilustra programas de aplicación remotos 185 como residentes en la computadora remota 180. Se apreciará que las conexiones en red mostradas son ilustrativas y pueden utilizarse otros medios para establecer un enlace de comunicaciones entre las computadoras. La Figura 2 es un diagrama de bloques de un dispositivo móvil 200, que es un ambiente de cómputo ilustrativo. El dispositivo móvil 200 incluye un microprocesador 202, memoria 204, componentes de entrada/salida (l/O) 206, una interfase de comunicación 208 para comunicarse con computadoras remotas u otros dispositivos móviles. En una modalidad, los componentes mencionados se acoplan para comunicación con otro en un conductor común adecuado 210. La memoria 204 se implementa como memoria electrónica no volátil tal como memoria de acceso aleatoria (RAM) con un módulo de recuperación de batería (no mostrado), para que la información almacenada en la memoria 204 no se pierda cuando la energía general para el dispositivo móvil 200 se cierre. Una porción de la memoria 204 preferiblemente se distribuye como memoria dirigible para ejecución de programa, mientras otra porción de la memoria 204 preferiblemente se utiliza para almacenamiento, tal como para simular almacenamiento en una unidad de disco. La memoria 204 incluye un sistema operativo 212, programas de aplicación 214 asi como un almacenamiento de objeto 216. Durante la operación, el sistema operativo 212 preferiblemente se ejecuta por el procesador 202 desde la, memoria 204. El sistema operativo 212, en una modalidad preferida, es un sistema operativo de marca WINDOWS® CE comercialmente disponible de Microsoft Corporation. El sistema operativo 212 preferiblemente se diseña para dispositivos móviles, e implementa características de base de datos que pueden utilizarse por aplicaciones 214 a través de un grupo de interfases de programación de aplicación expuestas y métodos. Los objetos en el almacenamiento de objeto 216 se mantienen por aplicaciones 214 y el sistema operativo 212, al menos parcialmente en respuesta a llamadas a las interfases y métodos de programación de aplicación expuestas. La interfase de comunicación 208 representa numerosos dispositivos y tecnologías que permiten al dispositivo móvil 200 enviar y recibir información. Los dispositivos incluyen módems por cable e inalámbricos, receptores por satélite y sintonizadores de difusión por nombrar algunos. El dispositivo móvil 200 también puede conectarse directamente a una computadora para intercambiar datos con ella. En tales casos, la interfase de comunicación 208 puede ser un transceptor infrarrojo o una conexión de comunicación en serie o paralela, todos de los cuales son capaces de transmitir información e corriente. Los componentes de entrada/salida 206 incluyen una variedad de dispositivos de entrada tal como una pantalla sensible al tacto, botones, rodillos, y un micrófono así como una variedad de • dispositivos de salida que ¡ncluyen un generador de audio, un dispositivo de vibración, y una pantalla. Los dispositivos enlistados anteriormente son a manera de ejemplo no todos están presentes en el dispositivo móvil 200. Además, otros dispositivos de entrada/salida puede unirse a o encontrarse con el dispositivo móvil 200 dentro del alcance de la presente invención. La Figura 3 proporciona un diagrama de bloques básico de las modalidades de la presente invención. En la Figura 3, una bocina 300 genera una señal de lenguaje 302 (X) que se detecta por un micrófono de conducción de aire 304 y un sensor alternativo 306. Ejemplos de sensores alternativos ¡ncluyen un micrófono de garganta que mide las vibraciones de la garganta del usuario, un sensor de conducción de hueso que se localiza en o adyacente a un hueso vaciado del cráneo del usuario (tal como el hueso de la mandíbula) o en el oído del usuario que percibe vibraciones del cráneo y la mandíbula que corresponden al lenguaje generado por el usuario. El micrófono de conducción de aire 304 es el tipo de micrófono que se utiliza comúnmente para convertir ondas de aire de audio en señales eléctricas. El micrófono de conducción de aire 304 recibe ruido ambiental 308. (V) generado por una o más fuentes de ruido 310 y genera su propio ruido de sensor 305 (U). Dependiendo del tipo de ruido ambiental y el nivel de ruido ambiental, ruido ambiental 308 puede detectarse por el sensor alternativo 306. Sin embargo, bajo las modalidades de la presente invención, el sensor alternativo 306 típicamente es menos sensible al ruido ambiental el micrófono de conducción de aire 304. De esa forma, la señal de sensor alternativa 316 (B) generada por el sensor alternativo 306 generalmente incluye menos ruido que la señal de micrófono de conducción de aire 318 (Y) generada por el micrófono de conducción de aire 304. Aunque el sensor alternativo 306 es menos sensible al ruido ambiental, genera el mismo ruido de sensor 320 (W). La ruta de la bocina 300 a la señal de sensor alternativa 316 puede moldearse como un canal que tiene una respuesta de canal H. la ruta de ruido ambiental 308 a la señal de sensor alternativa 316 puede moldearse como un canal que tiene una respuesta de canal G. La señal de sensor alternativa 316 (B) y la señal de micrófono de conducción de aire 318 (Y) se proporcionan a un estimado de señal limpia 322, que estima un señal limpia 324. El estimado de señal limpia 324 se proporciona un procedimiento de lenguaje 328. El estimado de señal limpio 324 puede ser una señal de dominio de tiempo o un vector de Transformación de Fourier. Si el estimador de señal limpia 324 es una señal de dominio de tiempo, el procedimiento de lenguaje 328 puede tomar la forma de un oyente, un sistema de codificación de lenguaje, o un sistema de reconocimiento de lenguaje. Si un estimado de señal limpia 324 es un vector de Transformación de Fourier, el procedimiento de lenguaje 328 típicamente será un sistema de reconocimiento de lenguaje, o contendrá una transformación de Fourier Inversa para convertir el vector de Transformación de Fourier en formas de ondas. Dentro del estimador de señal limpia 322, la señal de sensor alternativa 316 y la señal de micrófono 318 se convierten en el dominio de frecuencia que se utiliza para estimar el lenguaje limpio. Como se muestra en la Figura 4, la señal de sensor alternativa 316 y la señal de micrófono de conducción de aire 318 se proporcionan a convertidores analógicos a digitales 404 y 414, respectivamente, para generar una secuencia de valores digitales, que se agrupan en marcos de valores por constructores de marco 406 y 416, respectivamente. En una modalidad, los convertidores A-a-D 404 y 414 muestrean las señales analógicas en 16 kHz y 16 bits por muestra, por lo cual crean 32 kilobytes de datos de lenguaje por segundo y constructoras de marco 406 y 416 crean un nuevo marco respectivo cada 10 milisegundos que incluyen valor de 20 milisegundos de datos. Cada marco respectivo de datos proporcionado por los constructores de marco 406 y 416 se convierten en el dominio de frecuencia que utilizan las Transformaciones de Fourier rápidas (FFT) 408 y 418, respectivamente. Los valores de de dominio de frecuencia para la señal de sensor alternativa y la señal de micrófono de conducción de aire se proporcionan al estimado de señal limpia 420, que utiliza los' valores de dominio de frecuencia para estimar señal de lenguaje limpia 324.
Bajo algunas modalidades, la señal de lenguaje limpio 324 se convierte de nuevo al dominio de tiempo que utiliza Transformaciones de Fourier rápidas inversas 422. Esto crea una versión de dominio de tiempo de señal de lenguaje limpia 324. La presente invención incluye un modelo del sistema de la Figura 3 que incluye estados de lenguaje para el lenguaje limpio con el fin de producir una señal de lenguaje mejorada. La Figura 5 proporciona una representación gráfica del modelo. En el modelo de la Figura 5, el lenguaje limpio 500 depende del estado de lenguaje 502. La señal de micrófono de conducción 504 es dependiente del ruido del sensor 506, ruido ambiental 508 y señal de lenguaje limpia 500. La señal de sensor alternativa 510 depende del nodo de sensor 512, señal de lenguaje limpia 500 mientras pasa a través de una respuesta de canal 514 y ruido ambiental 508 mientras pasa a través de una respuesta de canal 516. El modelo de la Figura 5 se utiliza bajo la presente invención para estimar una señal de lenguaje limpia Xt de observaciones ruidosas Yt y Bt e identifica la probabilidad de una pluralidad de estados de lenguaje St. Bajo una modalidad de la presente invención, el estimado de señal de lenguaje limpio y las probabilidades de los estados para el estimado de señal de lenguaje limpio se forman al asumir primero distribuciones Gausianas para los componentes de ruido en el modelo de sistema. De esa forma: V~N(0,g2s2, EC. 1 U~N(0,s2u) EC. 2 W-N(0,s2w) EC. 3 en donde cada componente de ruido se modela como un Gausiana medio cero que tiene variaciones respectivas g2s2v, s2u, y s2w V es el ruido ambiental, U es ruido de sensor en el micrófono de conducción de aire, y W es el ruido de sensor en el sensor alternativo. En la ecuación 1, g es un parámetro de sintonización que permite la variación del ruido ambiental para sintonizarse. Además, esta modalidad de la presente invención modela la probabilidad de una señal de lenguaje o limpia dad a un estado como un Gausiano medio cero con una variación s2s de manera que: EC. 4 Bajo una modalidad de la presente invención, la probabilidad previa en un estado dado se asume para ser la probabilidad uniforma para que y todos los estados sean igualmente probables. Específicamente, la probabilidad previa se define como: N. EC. 5 en donde Ns es el número de estados de lenguaje disponibles en el modelo. En la descripción de las ecuaciones posteriores para determinar el estimado de la señal de lenguaje limpia y la probabilidad de los estados de lenguaje, programas variables se modelan en el dominio espectral completo. Cada componente de frecuencia (Bin) se trata independientemente de los otros componentes de frecuencia. Para facilidad de notación, el método se describe posteriormente para un componente de frecuencia individual. Aquellos expertos en la técnica reconocerán que los cálculos se realizan para cada componente de frecuencia en la versión espectral de las versiones de entrada. Para variables que varían con el tiempo, se agrega una a la variable. Para estimar la señal de lenguaje limpia Xt de las observaciones ruidosas Yt y Bt, la presente invención maximiza la probabilidad condicional p(Xt|Yt,Bt), que es la probabilidad de la señal de lenguaje limpia dada a la señal de micrófono de conducción de aire ambiental y la señal de sensor alternativa ruidosa. Ya que el estimado de la señal de lenguaje limpia depende del estado de lenguaje St bajo el modelo, esta probabilidad condicional se determina como: en donde {S} denota el grupo de estado de entre los estados de lenguaje, p(Xt|Yt,B,,St = s) es la probabilidad de Xt dadas las observaciones ruidosas actuales y el estado de lenguaje s, y p(St = s|Yt,Bt) es la probabilidad del estado de lenguaje s dadas las observaciones ruidosas. Cualquier número de estado de diálogos posibles pueden utilizarse bajo la presente invención, incluyendo estados de lenguaje para sonidos con voz, fricativos, sonidos nasales y sonidos de vocales. En algunas modalidades, el estado de lenguaje separado se proporciona para cada grupo de unidades fonéticas, tal como fonemas. Bajo una modalidad, sin embargo, solo se proporcionan dos estados de lenguaje, uno para lenguaje y uno para no lenguaje. Bajo algunas modalidades, un estado individual se utiliza para todos los componentes de frecuencia. Por lo tanto, cada marco tiene un estado de lenguaje individual variable. Los términos en el lado derecho de la ecuación 6 pueden calcularse como: p{Xt\Y,.B S,^s)^X^B'tS' -s)*p{X.,Y„B,.S, =s) p(Yl,Bl,Sl^S) EC. 7 p(S, =s \Y„B,) = ÍÍÍU ii)^^ [p(X„Y„B„S, = S)dX P(Y,?) EC 8 que indican que la probabilidad condicional de la señal de lenguaje limpia dadas las observaciones puede estimarse por la probabilidad de unión de la señal de lenguaje limpia, las observaciones y el estado y la probabilidad condicional del estado dadas las observaciones pueden aproximarse al integrar la probabilidad de unión de la señal de lenguaje limpia, las observaciones y el estado en todos los valores de lenguaje limpios posibles. Al utilizar las suposiciones Gausianas para leer distribuciones del ruido discutido anteriormente en las ecuaciones 1-3, la probabilidad de unión de la señal de lenguaje limpia, las observaciones y el estado pueden calcularse como: P{X„S„Y„B,) en donde p(Xt | S, = s) = N(Xt;0,s2s), p(St) es la probabilidad previa del estado que se da por la distribución de probabilidad uniforme en la Ecuación 5, G es la respuesta del canal del sensor alternativo al ruido ambiental, H si la respuesta de canal de la señal de sensor alternativa a la señal de lenguaje limpia, y términos complejos entre barras verticales tal como, |G|, indican la magnitud del valor complejo. La respuesta del canal del sensor alternativo G para lenguaje de fondo se estima para las señales del micrófono de aire Y y del sensor alternativo B a través de los últimos marcos D en los cuales el usuario no habla. Específicamente, G se determina como: en donde D es el número de marcos en el cual el usuario no habla pero al lenguaje de fondo. Aquí, asumimos que G es constante a través de todos los marcos de tiempo D. En otras modalidades, antes de utilizar todos los marcos D igualmente, utilizamos una técnica conocida como "envejecimiento exponencial" para que los últimos marcos contribuyan más al estimado de G que los marcos antiguos. Las respuestas de canal de sensor alternativo H para la señal de lenguaje limpia se estima de las señales del micrófono de aire Y y del sensor alternativo B a través de los últimos marcos T en los cuales sale el usuario. Significativamente, H se determina como: en donde T es el número de marcos en los cuales al usuario habla. Aquí, asumimos que H es constante a través de todos los marcos de tiempo T. en otras modalidades, en lugar de utilizar todos los marcos T igualmente como utilizamos una técnica conocida como "envejecimiento exponencial" para que los marcos más recientes contribuyan más al estimado de H que los marcos más antiguos. La probabilidad convencional del estado p(St = s|Yt,B,) se calcula al utilizar la aproximación de la ecuación 8 y cálculo de probabilidad de unión de la ecuación 9 como: p(S, | Y„B,) ¡N(Y?;X„st+g*s)- que puede simplificarse como: P(S,\Y„B,)* EC. 13 " s) + gsl + sl " sJ + g ? su+gs <?+s.+gs, N(Y,;Q,s]+sl+g v)p(S,) Una observación cercana en la Ecuación 13 revela que el primer término en algún sentido moldea la correlación entre canales de usuario alternativo y el canal de micrófono de conducción mientras el segundo término hace uso del modelo de estado y el modelo de ruido para explicar la observación en el canal de micrófono de aire. El tercer término simplemente es previo a| estado, que bajo una modalidad es una distribución uniforme. La probabilidad del estado dada la observación como se calcula en la ecuación 13 tiene dos aplicaciones posibles. Primero, puede utilizarse para construir un clasificador mezclado de lenguaje, que puede utilizarse para clasificar las observaciones al incluir lenguaje o al no incluir lenguaje, las variaciones de las fuentes de ruido que pueden determinarse de marco que no incluyen lenguaje. También se utiliza para proporcionar un peso "suave" cuando se estima la señal de lenguaje limpia como se mostrará posteriormente. Como se notó anteriormente, cada una de las variables en las ecuaciones anteriores se define para un componente de frecuencia particular en el dominio espectral complejo. De esa forma, la probabilidad de la Ecuación 13 es para un estado asociado con un componente de frecuencia particular. Sin embargo, ya que existe solo un estado individual disponible para cada marco, la probabilidad de un estado para un marco se forma al agregar la probabilidad a través de los componentes de frecuencia como sigue: en donde L(St(/)) = p(S,(/))|Yt(/),Bt(/)) es la probabilidad para el componente de frecuencia f como se definió en la ecuación 13. El producto se determina en todos los componentes de frecuencia excepto en las frecuencias DC y Nyquist. Se debe notar que si el cálculo de probabilidad se lleva a cabo en el dominio de probabilidad de logaritmo, entonces el producto en la ecuación anterior se reemplaza con una suma. La probabilidad anterior puede utilizarse para incluir un clasificador de lenguaje/no lenguaje, basándose en una prueba de relación de probabilidad para que: L(S, = lenguaje) r = log- - - L(S, => no-lenguaje) c ° - ' ° en donde un marco se considera para contener lenguaje si la relación r es mayor que 0 y se considera que no contiene lenguaje de otra forma. Al utilizar la probabilidad de los estados de lenguaje, un estimado de la señal de lenguaje limpia puede formarse. Bajo una modalidad, este estimado se forma al utilizar un estimado de cuadrado de medio mínimo (MMSE) basándose en la ecuación 6 para que: en donde E(Xt|Yt,Bt) es la excepción de la señal de lenguaje limpia dada la observación, y E(Xt|Yt,Bt,St = s) es la expectación de la señal de lenguaje limpia dada las observaciones y el estado de lenguaje. Al utilizar las ecuaciones 7 y 9, la probabilidad condicional p(X,|Yt,Bt,St=s) de la cual la expectación E(Xt|Yt,Bt,St=s) puede calcularse se determina como: p(X, \r„B„S,< s)«. N(Y,;X„su2^g sv)- s„2+ 2s? s„2+g 2 EC. 17 N{X,$,ss)PÍ.Sl =í) Esto produce una expectación de: EC.18 en donde M- = /*/- * ? EC. 20 s¡.+g2s,2 y M* es el conjugado complejo de M. De esa forma, el estimado de MMSE de la señal de lenguaje limpia X se da por: X, ?píE(Xl\YBl>Sl^¡') ..a(S) EC. 21 en donde ps es el posterior en el estado y se da por: L(S,=s) p, -• EC. 22 en donde L(St = s) se da por la ecuación 14. De esa forma, el estimado de la señal de lenguaje limpia se basa en parte en la probabilidad relativa de un estado de lenguaje particular y esta probabilidad relativa proporciona un peso suave para el estimado de la señal de lenguaje limpio. En los cálculos anteriores, se asume que H se conoce con fuerte precisión. Sin embargo, en la práctica, H solo es conocido con precisión limitada. Bajo una modalidad adicional de la presente invención, H se modela como una variable aleatoria Gausiana N(H;H0,sH2). Bajo tal modalidad, todos los cálculos anteriores se marginalizan en todos los valores posibles de H. Sin embargo, esto hace a las matemáticas inflexibles. Bajo una modalidad, un procedimiento interactivo se utiliza para superar esta inflexibilidad. Durante cada interacción, H se reemplazan ecuaciones 13 y 20 con Ho y s2w se reemplaza con en donde X, , es un estimado de la señal de lenguaje limpia determinada de una interacción previa. La señal de lenguaje limpia entonces se estima al utiliza la ecuación 21. Este nuevo estimado de la señal de lenguaje limpia entonces establece como nuevo valor de X, , y se realiza la siguiente interacción. Las interacciones terminan cuando el estimado de lenguaje limpia se vuelve estable. La Figura 6 proporciona un método para estimar una señal de lenguaje limpia que utiliza las ecuaciones anteriores. En el paso 600, los marcos de una pronunciación de entrada se identifican en donde el usuario no habla. Estos marcos entonces se utilizan para determinar la variación para el ruido ambiental s2v, la variación para el ruido de sensor alternativo s2w, y la variación para el ruido de micrófono de conducción de aire s2u. Para identificar marcos en donde el usuario no habla, la señal de sensor alternativa puede examinarse. Ya que la señal de sensor alternativo producirá valores de señal mucho más pequeños para lenguaje de fondo que para ruido, cuando la energía de la señal de sensor alternativa es baja, inicialmente puede asumirse que el locutor no habla. Los valores de la señal de micrófono de conducción de aire y la señal de sensor alternativo para marcos que no contiene diálogos se almacenan en una memoria intermedia que utilizan para calcular variaciones del ruido como: *?-- - ?\Y,\2 JV„ alltelf EC. 23 ¿l=~ ?IS.I2 Nv aiitev EC. 24 en donde Nv es el número de marcos de ruido en la pronunciación que se utiliza para formar las variaciones, V es el grupo de marcos de ruido en donde el usuario no habla, y B't se refiere a la señal de sensor alternativa después de que ha sido representada, que se calcula como: B't=Bt-GYt EC. 25 que, en algunas modalidades se calcula alternativamente como: *;=«-& EC. 26 Bajo algunas modalidades, la técnica de identificar marcos de no lenguaje basándose en niveles de energía inferior en la señal de sensor alternativa solo se realiza durante los marcos iniciales de entrenamiento. Después que se formaron valores iniciales para las variaciones de ruido, puede utilizarse para determinar que marcos contienen lenguaje y que marcos no contiene lenguaje al utilizar la relación de probabilidad de la ecuación 15. El valor de g, que s un parámetro de sintonización que puede utilizarse para amentar o disminuir la variación estimada s2v, se establece a 1 bajo una modalidad particular. Esto sugiere confianza completa en el procedimiento de estimado de ruido. Diferentes valores de g pueden utilizarse bajo diferentes modalidades de la presente invención. La variación del ruido para el micrófono de conducción de aire, s2u, se estima basándose en la observación que el micrófono de conducción de aire es menos propenso a ruido de sensor que el sensor alternativo. Como tal, la variación del micrófono de conducción de aire puede calcularse como: EC. 27 En el paso 602, la variación del lenguaje s2s se estima al utilizar un filtro de supresión de ruido con suavización temporal. El filtro de supresión es una generalización de substracción espectral. Específicamente, la variación de lenguaje se calcula como: en donde K V-oQrlY2 '/ Qrl<V(a+ß) EC. 29 [ßQ Y de otra manera con s„ Q- EC. 30 \T, en donde x¡-\ es el estimado de lenguaje limpio del marco precedente, t es un factor de suavización que en algunas modalidades se establece con .2, a controla la extensión de reducción de ruido para que si a>1 se reduzca más ruido en extensión de distorsión de lenguaje en aumento, y ß da el piso de ruido mínimo y proporciona un ruido medio para agregar ruido de fondo para enmascarar el ruido musical residual perseguido. Bajo algunas modalidades, ? 1 =2 y ?2 = 1/2. En algunas modalidades, ß se establece igual a 0.01 para reducción de ruido de 20 dB para marcos de ruido puro. De esa forma, en la ecuación 28, la variación se determina como una suma pesada de la señal de lenguaje limpia estimada del marco precedente y la energía de micrófono de conducción de aire filtrada por el filtro'de supresión de ruido en Ks. Bajo algunas modalidades, a se elige de acuerdo con una señal para la relación de ruido y un principio de enmascarado que se mostró la misma cantidad de ruido en una banda de energía de banda superior tiene un impacto más pequeño en percepción que en una banda de energía de lenguaje inferior y la presencia de energía de lenguaje superior en una frecuencia reducirá la percepción de ruido en una banda de frecuencia adyacente. Bajo esta modalidad, a se elige como: en donde SNR es la relación de señal a ruido en decibeles (dB), B es el nivel de relación de señal a'ruido deseado sobre el cual no debe realizarse la reducción de ruido y a0 es la cantidad de ruido que debe removerse en un valor de relación de señal a ruido de 0. Bajo algunas modalidades, B se establece igual a 20 dB. Al utilizar una definición de señal a relación de ruido de: el filtro de supresión de ruido de la ecuación 29 se vuelve: ? (l-a0l-SNR/B)/(l + lOm'>0)]U2 if Q2<\l +ß) £C 33 l[/3g ]"/2 de otra manera Este filtro de supresión de ruido proporciona supresión de ruido débil para relaciones de señal a ruido positivas .y supresión de ruido más fuerte para relaciones de señal a ruido negativas. De hecho, para relaciones de señal a ruido suficientemente negativas, toda la señal observada y el ruido se remueven y la única señal presente es un piso de ruido que se agrega de nuevo por la ramificación "de otra manera" del filtro de supresión de ruido de la ecuación 33. Bajo algunas modalidades, a0 se hace dependiente de frecuencia para que cantidades diferentes de ruido se remuevan en diferentes frecuencias. Bajo una modalidad, esta dependencia de frecuencia se forma al utilizar una interpolación lineal entre a0 a 30Hz y a0 a 8kHz para que: a0( )= aom,putos + (aoma?-a?m?n)k/225 EC. 34 en donde k es la cuenta del componente de frecuencia, s0m?n es el valor de a0 deseado en 30Hz, a0ma? es el a0 deseado a 8kHz y se asume que existen 256 componentes de frecuencia. Después que la variación de dialogo se determino en el paso 602, las variaciones se utilizan para determinar la probabilidad de cada estado de lenguaje en el paso 604 al utilizar ecuaciones 13 y 14 anteriores. La probabilidad de los estados de lenguaje entonces se utiliza en el paso 606 para determinar un estimado de lenguaje limpio para el marco actual. Como se notó anteriormente, en modalidades en las cuales se utiliza una distribución Gausiana para representar H, los pasos 604 y 606 se repiten al utilizar el último estimado de la señal de lenguaje limpia en cada repetición y al utilizar los cambios a las ecuaciones discutidas anteriormente para acomodar el modelo Gausiano para H. Aunque la presente invención se describió con referencia a modalidades particulares, los expertos en la técnica reconocerán que pueden hacerse cambios en la forma y detalles sin apartarse del espíritu y alcance de la invención.

Claims (20)

REIVINDICACIONES
1.- Un método para determinar un estimado para un valor reducido de ruido que representa una porción de señal de lenguaje reducida de ruido, el método comprende: generar una señal de sensor alternativa utilizando un sensor alternativo; generar una señal de micrófono de conducción de aire; utilizar la señal de sensor alternativa y la señal de micrófono de conducción de aire para estimar una probabilidad de un estado de lenguaje; y utilizar la probabilidad del estado de lenguaje para estimar el valor reducido de ruido.
2.- El método de acuerdo con la reivindicación 1, en donde utilizar la probabilidad del estado de lenguaje para estimar el valor reducido de ruido comprende utilizar la probabilidad del estado de lenguaje y un valor de expectación para el valor reducido de ruido para estimar el valor reducido de ruido.
3.- El método de acuerdo con la reivindicación 2, en donde el valor de expectación para el valor reducido de ruido se basa en la señal de sensor alternativa y la señal de micrófono de conducción de aire.
4.- El método de acuerdo con la reivindicación 1, en donde estimar una probabilidad de un estado de lenguaje comprende estimar una probabilidad separada para cada uno de una pluralidad de estados de lenguaje y en donde utilizar la probabilidad del estado de lenguaje para estimar el valor reducido de ruido comprende utilizar las probabilidades para cada estado de lenguaje en la pluralidad de estados de lenguaje.
5.- El método de acuerdo con la reivindicación 4, en donde utilizar las probabilidades para cada estado de lenguaje en la pluralidad de estados de lenguaje comprende utilizar las probabilidades para cada estado de lenguaje para valores de expectación de peso para el valor reducido de ruido.
6.- El método de acuerdo con la reivindicación 1, en donde estimar una probabilidad de un estado de lenguaje comprende estimar un componente de probabilidad separada para cada uno de un grupo de componentes de frecuencia y combinar los componentes de probabilidad para formar el estimado de probabilidad del estado de lenguaje.
7.- El método de acuerdo con la reivindicación 1, que además comprende utilizar el estimado de la probabilidad de un estado de lenguaje para determinar si un marco de la señal de micrófono de conducción de aire contiene lenguaje.
8.- El método de acuerdo con la reivindicación 7, que además comprende utilizar un marco de la señal de micrófono de conducción de aire que se determina para no contener el lenguaje para determinar una variación para una fuente de ruido y utilizar la variación para la fuente de ruido para estimar el valor reducido de ruido.
9.- El método de acuerdo con la reivindicación 1, que además comprende modelar una probabilidad de un valor reducido de ruido dando un estado como una distribución que contiene una variación.
10.- El método de acuerdo con la reivindicación 9, que además comprende estimar la variación de la distribución como una combinación lineal de un estimado de un valor reducido de ruido para un marco precedente y una versión filtrada de la señal de micrófono de conducción de aire para un marco actual.
11.- El método de acuerdo con la reivindicación 10, en donde la versión filtrada de la señal de micrófono de conducción se forma al utilizar un filtro que es dependiente de frecuencia.
12.- El método de acuerdo con la reivindicación 10, en donde la versión filtrada de la señal de micrófono de conducción de aire se forma al utilizar un filtro que es dependiente en una relación de señal a ruido.
13.- El método de acuerdo con la reivindicación 1, que además comprende realizar una repetición utilizando el estimado del valor reducido de ruido para formar un nuevo estimado del valor reducido de ruido.
14.- Un medio legible por computadora que tiene instrucciones ejecutables por computadora para realizar los pasos que comprenden: determinar una probabilidad de un estado de lenguaje basándose en una señal de sensor alternativa y una señal de micrófono de conducción de aire; y utilizar la probabilidad del estado de lenguaje para estimar un valor de lenguaje limpio.
15.- El medio legible por computadora de acuerdo con la reivindicación 14, en donde la utilización de la probabilidad del estado de lenguaje para estimar un valor de lenguaje limpio comprende cargar un valor de expectación.
16.- El medio legible por computadora de acuerdo con la reivindicación 14, en donde la utilización de la probabilidad del estado de lenguaje para estimar un valor de lenguaje limpio comprende: utilizar la probabilidad del estado de lenguaje para identificar un marco de una señal como un marco de no lenguaje; utilizar el marco de no lenguaje para estimar una variación para un código; y utilizar la variación para el ruido para estimar el valor de lenguaje limpio.
17.- El medio legible por computadora de acuerdo con la reivindicación 14, en donde estimar una probabilidad para un estado de lenguaje comprende estimar una probabilidad separada para cada uno de una pluralidad de componentes de frecuencia, y combinar las probabilidades separadas para formar la probabilidad para el estado de lenguaje.
18.- Un método para identificar un valor de lenguaje limpio para una señal de lenguaje limpia, el método comprende: formar un modelo en donde la señal de lenguaje limpia depende de un estado de lenguaje, una señal de sensor alternativa es dependiente de la señal de lenguaje limpia, y una señal de micrófono de conducción de aire es dependiente de la señal de lenguaje limpia; y determinar un estimado del valor de lenguaje limpio basándose en el modelo, un valor para la señal de sensor alternativa, y un valor para en la señal de micrófono de conducción de aire.
19.- El método de acuerdo con la reivindicación 18, que además comprende determinar una probabilidad para un estado y en donde determinar un estimado del valor de lenguaje limpio además comprende utilizar la probabilidad para el estado.
20.- El método de acuerdo con la reivindicación 18, en donde formar el modelo comprende formar un modelo en donde la señal de sensor alternativa y la señal de micrófono de conducción de aire son dependientes en una fuente de ruido.
MX2007015446A 2005-06-28 2006-06-13 Mejora de lenguaje multi-sensorial utilizando un modelo de estado de lenguaje. MX2007015446A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/168,770 US7680656B2 (en) 2005-06-28 2005-06-28 Multi-sensory speech enhancement using a speech-state model
PCT/US2006/022863 WO2007001821A2 (en) 2005-06-28 2006-06-13 Multi-sensory speech enhancement using a speech-state model

Publications (1)

Publication Number Publication Date
MX2007015446A true MX2007015446A (es) 2008-02-25

Family

ID=37568662

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2007015446A MX2007015446A (es) 2005-06-28 2006-06-13 Mejora de lenguaje multi-sensorial utilizando un modelo de estado de lenguaje.

Country Status (11)

Country Link
US (1) US7680656B2 (es)
EP (1) EP1891624B1 (es)
JP (2) JP5000647B2 (es)
KR (1) KR101224755B1 (es)
CN (1) CN101606191B (es)
AT (1) ATE508454T1 (es)
BR (1) BRPI0612668A2 (es)
DE (1) DE602006021741D1 (es)
MX (1) MX2007015446A (es)
RU (1) RU2420813C2 (es)
WO (1) WO2007001821A2 (es)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8139787B2 (en) * 2005-09-09 2012-03-20 Simon Haykin Method and device for binaural signal enhancement
KR100738332B1 (ko) * 2005-10-28 2007-07-12 한국전자통신연구원 성대신호 인식 장치 및 그 방법
US8364492B2 (en) * 2006-07-13 2013-01-29 Nec Corporation Apparatus, method and program for giving warning in connection with inputting of unvoiced speech
JP4940956B2 (ja) * 2007-01-10 2012-05-30 ヤマハ株式会社 音声伝送システム
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
US9159335B2 (en) * 2008-10-10 2015-10-13 Samsung Electronics Co., Ltd. Apparatus and method for noise estimation, and noise reduction apparatus employing the same
WO2012069020A1 (zh) * 2010-11-25 2012-05-31 歌尔声学股份有限公司 语音增强方法、装置及头戴式降噪通信耳机
US10418047B2 (en) * 2011-03-14 2019-09-17 Cochlear Limited Sound processing with increased noise suppression
US9589580B2 (en) * 2011-03-14 2017-03-07 Cochlear Limited Sound processing based on a confidence measure
US9094749B2 (en) 2012-07-25 2015-07-28 Nokia Technologies Oy Head-mounted sound capture device
TWI502583B (zh) * 2013-04-11 2015-10-01 Wistron Corp 語音處理裝置和語音處理方法
US9928851B2 (en) 2013-09-12 2018-03-27 Mediatek Inc. Voice verifying system and voice verifying method which can determine if voice signal is valid or not
US20150161999A1 (en) * 2013-12-09 2015-06-11 Ravi Kalluri Media content consumption with individualized acoustic speech recognition
TWM492015U (zh) * 2014-07-30 2014-12-11 Wen-Tsung Sun 電子式助發聲裝置
CN105448303B (zh) * 2015-11-27 2020-02-04 百度在线网络技术(北京)有限公司 语音信号的处理方法和装置
CN107045874B (zh) * 2016-02-05 2021-03-02 深圳市潮流网络技术有限公司 一种基于相关性的非线性语音增强方法
US10535364B1 (en) * 2016-09-08 2020-01-14 Amazon Technologies, Inc. Voice activity detection using air conduction and bone conduction microphones
CN110265056B (zh) * 2019-06-11 2021-09-17 安克创新科技股份有限公司 音源的控制方法以及扬声设备、装置
KR102788632B1 (ko) 2019-09-12 2025-04-01 썬전 샥 컴퍼니, 리미티드 오디오 신호 생성을 위한 시스템 및 방법
CN116778944A (zh) * 2023-07-10 2023-09-19 深圳百瑞互联技术有限公司 噪声估计方法、装置、介质和设备

Family Cites Families (108)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3383466A (en) 1964-05-28 1968-05-14 Navy Usa Nonacoustic measures in automatic speech recognition
US3746789A (en) 1971-10-20 1973-07-17 E Alcivar Tissue conduction microphone utilized to activate a voice operated switch
US3787641A (en) 1972-06-05 1974-01-22 Setcom Corp Bone conduction microphone assembly
US3838466A (en) * 1973-01-26 1974-10-01 White S Non-fogging face shield
US4025721A (en) * 1976-05-04 1977-05-24 Biocommunications Research Corporation Method of and means for adaptively filtering near-stationary noise from speech
JPH0755167B2 (ja) 1988-09-21 1995-06-14 松下電器産業株式会社 移動体
JPH03108997A (ja) 1989-09-22 1991-05-09 Temuko Japan:Kk 骨伝導マイク
US5148488A (en) * 1989-11-17 1992-09-15 Nynex Corporation Method and filter for enhancing a noisy speech signal
JPH03160851A (ja) 1989-11-20 1991-07-10 Fujitsu Ltd 携帯電話機
US5054079A (en) 1990-01-25 1991-10-01 Stanton Magnetics, Inc. Bone conduction microphone with mounting means
US5404577A (en) 1990-07-13 1995-04-04 Cairns & Brother Inc. Combination head-protective helmet & communications system
WO1993001664A1 (en) 1991-07-08 1993-01-21 Motorola, Inc. Remote voice control system
US5295193A (en) 1992-01-22 1994-03-15 Hiroshi Ono Device for picking up bone-conducted sound in external auditory meatus and communication device using the same
JPH05276587A (ja) 1992-03-30 1993-10-22 Retsutsu Corp:Kk イヤーマイクロフォン
US5590241A (en) 1993-04-30 1996-12-31 Motorola Inc. Speech processing system and method for enhancing a speech signal in a noisy environment
US5446789A (en) 1993-11-10 1995-08-29 International Business Machines Corporation Electronic device having antenna for receiving soundwaves
ZA948426B (en) 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
AU684872B2 (en) 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
US5828768A (en) 1994-05-11 1998-10-27 Noise Cancellation Technologies, Inc. Multimedia personal computer with active noise reduction and piezo speakers
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
JP3082825B2 (ja) 1994-08-29 2000-08-28 日本電信電話株式会社 通信装置
EP0984661B1 (en) 1994-05-18 2002-08-07 Nippon Telegraph and Telephone Corporation Transmitter-receiver having ear-piece type acoustic transducer part
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
JP3488749B2 (ja) 1994-08-23 2004-01-19 株式会社ダッド・ジャパン 骨伝導型マイクロホン
JP3306784B2 (ja) 1994-09-05 2002-07-24 日本電信電話株式会社 骨導マイクロホン出力信号再生装置
JPH08186654A (ja) 1994-12-22 1996-07-16 Internatl Business Mach Corp <Ibm> 携帯端末装置
US5692059A (en) 1995-02-24 1997-11-25 Kruger; Frederick M. Two active element in-the-ear microphone system
US5555449A (en) 1995-03-07 1996-09-10 Ericsson Inc. Extendible antenna and microphone for portable communication unit
KR960042590A (ko) 1995-05-23 1996-12-21 김광호 테이프 재생용 음량기기에서의 발음비교방법
US5647834A (en) 1995-06-30 1997-07-15 Ron; Samuel Speech-based biofeedback method and system
CN1121684C (zh) * 1995-09-14 2003-09-17 艾利森公司 用于选择性地改变一帧数字信号的方法和装置
JPH09172479A (ja) 1995-12-20 1997-06-30 Yokoi Kikaku:Kk 送受話器およびそれを用いた通話装置
US6243596B1 (en) 1996-04-10 2001-06-05 Lextron Systems, Inc. Method and apparatus for modifying and integrating a cellular phone with the capability to access and browse the internet
JP3097901B2 (ja) 1996-06-28 2000-10-10 日本電信電話株式会社 通話装置
JP3095214B2 (ja) 1996-06-28 2000-10-03 日本電信電話株式会社 通話装置
US5943627A (en) 1996-09-12 1999-08-24 Kim; Seong-Soo Mobile cellular phone
JPH10261910A (ja) 1997-01-16 1998-09-29 Sony Corp 携帯無線装置およびアンテナ装置
JPH10224253A (ja) 1997-02-10 1998-08-21 Sony Corp 携帯通信機
US6308062B1 (en) 1997-03-06 2001-10-23 Ericsson Business Networks Ab Wireless telephony system enabling access to PC based functionalities
JP3108997B2 (ja) 1997-03-31 2000-11-13 武田薬品工業株式会社 アゾール化合物、その製造法および用途
FR2761800A1 (fr) 1997-04-02 1998-10-09 Scanera Sc Dispositif de transmission de voix et telephone le mettant en oeuvre
US5983073A (en) 1997-04-04 1999-11-09 Ditzik; Richard J. Modular notebook and PDA computer systems for personal computing and wireless communications
US6175633B1 (en) 1997-04-09 2001-01-16 Cavcom, Inc. Radio communications apparatus with attenuating ear pieces for high noise environments
US5924065A (en) * 1997-06-16 1999-07-13 Digital Equipment Corporation Environmently compensated speech processing
JPH1115191A (ja) * 1997-06-20 1999-01-22 Fuji Xerox Co Ltd 静電荷像現像用トナー及びその製造方法
WO1999004500A1 (de) 1997-07-16 1999-01-28 Siemens Aktiengesellschaft Funktelefonhandgerät
JPH11249692A (ja) 1998-02-27 1999-09-17 Nec Saitama Ltd 音声認識装置
EP1586980B1 (en) 1998-03-18 2007-07-04 Nippon Telegraph and Telephone Corporation Wearable communication device for inputting commands via detection of tapping shocks or vibration of fingertips
JPH11265199A (ja) 1998-03-18 1999-09-28 Nippon Telegr & Teleph Corp <Ntt> 送話器
JP2000009688A (ja) 1998-04-22 2000-01-14 Tokyo Gas Co Ltd 一酸化炭素センサ
US6052464A (en) 1998-05-29 2000-04-18 Motorola, Inc. Telephone set having a microphone for receiving or an earpiece for generating an acoustic signal via a keypad
US6137883A (en) 1998-05-30 2000-10-24 Motorola, Inc. Telephone set having a microphone for receiving an acoustic signal via keypad
JP3160714B2 (ja) 1998-07-08 2001-04-25 株式会社シコー技研 携帯無線通信機
JP3893763B2 (ja) 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
WO2000021194A1 (en) 1998-10-08 2000-04-13 Resound Corporation Dual-sensor voice transmission system
JP2000196723A (ja) 1998-12-25 2000-07-14 Koichi Tamura 筒状アンテナ、マイク
JP2000209688A (ja) 1999-01-19 2000-07-28 Temuko Japan:Kk 骨導マイク
US6760600B2 (en) 1999-01-27 2004-07-06 Gateway, Inc. Portable communication apparatus
US6408269B1 (en) * 1999-03-03 2002-06-18 Industrial Technology Research Institute Frame-based subband Kalman filtering method and apparatus for speech enhancement
JP2000261534A (ja) 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 送受話器
JP2000261529A (ja) 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 通話装置
JP2000261530A (ja) 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 通話装置
DE19917169A1 (de) 1999-04-16 2000-11-02 Kamecke Keller Orla Verfahren zur Speicherung und Wiedergabe von Audio-, Video- und Anwendungsprogrammdaten in Mobilfunkendgeräten
US6542721B2 (en) 1999-10-11 2003-04-01 Peter V. Boesen Cellular telephone, personal digital assistant and pager unit
US6094492A (en) 1999-05-10 2000-07-25 Boesen; Peter V. Bone conduction voice transmission apparatus and system
US6560468B1 (en) 1999-05-10 2003-05-06 Peter V. Boesen Cellular telephone, personal digital assistant, and pager unit with capability of short range radio frequency transmissions
US20020057810A1 (en) 1999-05-10 2002-05-16 Boesen Peter V. Computer and voice communication unit with handsfree device
US6952483B2 (en) 1999-05-10 2005-10-04 Genisus Systems, Inc. Voice transmission apparatus with UWB
JP2000330597A (ja) * 1999-05-20 2000-11-30 Matsushita Electric Ind Co Ltd 雑音抑圧装置
JP2000354284A (ja) 1999-06-10 2000-12-19 Iwatsu Electric Co Ltd 送受一体形電気音響変換器を用いる送受話装置
US6594629B1 (en) 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
KR100304666B1 (ko) 1999-08-28 2001-11-01 윤종용 음성 향상 방법
JP2001119797A (ja) 1999-10-15 2001-04-27 Phone Or Ltd 携帯電話装置
US6339706B1 (en) 1999-11-12 2002-01-15 Telefonaktiebolaget L M Ericsson (Publ) Wireless voice-activated remote control device
US6411933B1 (en) 1999-11-22 2002-06-25 International Business Machines Corporation Methods and apparatus for correlating biometric attributes and biometric attribute production features
US6675027B1 (en) 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
JP3576915B2 (ja) 2000-02-28 2004-10-13 株式会社ケンウッド 携帯電話装置
JP2001292489A (ja) 2000-04-10 2001-10-19 Kubota Corp 骨伝導マイク付きヘッドホン
GB2363557A (en) * 2000-06-16 2001-12-19 At & T Lab Cambridge Ltd Method of extracting a signal from a contaminated signal
JP3339579B2 (ja) 2000-10-04 2002-10-28 株式会社鷹山 電話装置
JP2002125298A (ja) 2000-10-13 2002-04-26 Yamaha Corp マイク装置およびイヤホンマイク装置
US20020075306A1 (en) 2000-12-18 2002-06-20 Christopher Thompson Method and system for initiating communications with dispersed team members from within a virtual team environment using personal identifiers
US7617099B2 (en) 2001-02-12 2009-11-10 FortMedia Inc. Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile
US7082393B2 (en) 2001-03-27 2006-07-25 Rast Associates, Llc Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech
GB2375276B (en) 2001-05-03 2003-05-28 Motorola Inc Method and system of sound processing
WO2002098169A1 (en) 2001-05-30 2002-12-05 Aliphcom Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
JP2002358089A (ja) 2001-06-01 2002-12-13 Denso Corp 音声処理装置及び音声処理方法
US6987986B2 (en) 2001-06-21 2006-01-17 Boesen Peter V Cellular telephone, personal digital assistant with dual lines for simultaneous uses
US7054423B2 (en) 2001-09-24 2006-05-30 Nebiker Robert M Multi-media communication downloading
JP3532544B2 (ja) 2001-10-30 2004-05-31 株式会社テムコジャパン 面体又は帽体のストラップ装着用送受話装置
US6664713B2 (en) 2001-12-04 2003-12-16 Peter V. Boesen Single chip device for voice communications
US20050141730A1 (en) 2001-12-21 2005-06-30 Rti Tech Pte Ltd. Vibration-based talk-through method and apparatus
US7219062B2 (en) 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
US9374451B2 (en) 2002-02-04 2016-06-21 Nokia Technologies Oy System and method for multimodal short-cuts to digital services
GB2421668B (en) 2002-06-24 2007-01-03 Samsung Electronics Co Ltd Usage position detection
US7103541B2 (en) 2002-06-27 2006-09-05 Microsoft Corporation Microphone array signal enhancement using mixture models
US7146315B2 (en) * 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
US7047047B2 (en) 2002-09-06 2006-05-16 Microsoft Corporation Non-linear observation model for removing noise from corrupted signals
US7225124B2 (en) 2002-12-10 2007-05-29 International Business Machines Corporation Methods and apparatus for multiple source signal separation
US7269560B2 (en) * 2003-06-27 2007-09-11 Microsoft Corporation Speech detection and enhancement using audio/video fusion
US20060008256A1 (en) 2003-10-01 2006-01-12 Khedouri Robert K Audio visual player apparatus and system and method of content distribution using the same
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7499686B2 (en) 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
EP1600947A3 (en) * 2004-05-26 2005-12-21 Honda Research Institute Europe GmbH Subtractive cancellation of harmonic noise
US8095073B2 (en) 2004-06-22 2012-01-10 Sony Ericsson Mobile Communications Ab Method and apparatus for improved mobile station and hearing aid compatibility
US7574008B2 (en) 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7283850B2 (en) 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US7590529B2 (en) 2005-02-04 2009-09-15 Microsoft Corporation Method and apparatus for reducing noise corruption from an alternative sensor signal during multi-sensory speech enhancement

Also Published As

Publication number Publication date
RU2420813C2 (ru) 2011-06-10
EP1891624B1 (en) 2011-05-04
KR20080019222A (ko) 2008-03-03
ATE508454T1 (de) 2011-05-15
DE602006021741D1 (de) 2011-06-16
JP2009501940A (ja) 2009-01-22
KR101224755B1 (ko) 2013-01-21
US20060293887A1 (en) 2006-12-28
CN101606191A (zh) 2009-12-16
WO2007001821A3 (en) 2009-04-30
WO2007001821A2 (en) 2007-01-04
CN101606191B (zh) 2012-03-21
EP1891624A2 (en) 2008-02-27
JP5452655B2 (ja) 2014-03-26
BRPI0612668A2 (pt) 2010-11-30
JP2012155339A (ja) 2012-08-16
EP1891624A4 (en) 2009-11-04
RU2007149546A (ru) 2009-07-10
JP5000647B2 (ja) 2012-08-15
US7680656B2 (en) 2010-03-16

Similar Documents

Publication Publication Date Title
JP5452655B2 (ja) 音声状態モデルを使用したマルチセンサ音声高品質化
RU2373584C2 (ru) Способ и устройство для повышения разборчивости речи с использованием нескольких датчиков
US7698133B2 (en) Noise reduction device
JP4842583B2 (ja) 多感覚音声強調のための方法および装置
KR101201146B1 (ko) 최적의 추정을 위한 중요한 양으로서 순간적인 신호 대 잡음비를 사용하는 잡음 감소 방법
US7117148B2 (en) Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
US11488617B2 (en) Method and apparatus for sound processing
EP0807305A1 (en) Spectral subtraction noise suppression method
JP2005084253A (ja) 音響処理装置、方法、プログラム及び記憶媒体
JPH1115491A (ja) 環境的に補償されたスピーチ処理方法
JP2017506767A (ja) 話者辞書に基づく発話モデル化のためのシステムおよび方法
US20110246193A1 (en) Signal separation method, and communication system speech recognition system using the signal separation method
GB2560174A (en) A feature extraction system, an automatic speech recognition system, a feature extraction method, an automatic speech recognition method and a method of train
US7346504B2 (en) Multi-sensory speech enhancement using a clean speech prior
US7406303B2 (en) Multi-sensory speech enhancement using synthesized sensor signal
CN111326166A (zh) 语音处理方法及装置、计算机可读存储介质、电子设备
US7930178B2 (en) Speech modeling and enhancement based on magnitude-normalized spectra
Joshi Reverberant speech enhancement using linear prediction residual signal
GB2577997A (en) A feature extraction system, an automatic speech recognition system, a feature extraction method, an automatic speech recognition method and a method

Legal Events

Date Code Title Description
FA Abandonment or withdrawal