MX2007015446A - Mejora de lenguaje multi-sensorial utilizando un modelo de estado de lenguaje. - Google Patents
Mejora de lenguaje multi-sensorial utilizando un modelo de estado de lenguaje.Info
- Publication number
- MX2007015446A MX2007015446A MX2007015446A MX2007015446A MX2007015446A MX 2007015446 A MX2007015446 A MX 2007015446A MX 2007015446 A MX2007015446 A MX 2007015446A MX 2007015446 A MX2007015446 A MX 2007015446A MX 2007015446 A MX2007015446 A MX 2007015446A
- Authority
- MX
- Mexico
- Prior art keywords
- language
- probability
- signal
- estimate
- value
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 34
- 230000001419 dependent effect Effects 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 6
- 239000003570 air Substances 0.000 description 23
- 239000004020 conductor Substances 0.000 description 16
- 238000004891 communication Methods 0.000 description 9
- 230000004044 response Effects 0.000 description 9
- 230000001629 suppression Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 210000000988 bone and bone Anatomy 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000032683 aging Effects 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 210000003625 skull Anatomy 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- CDFKCKUONRRKJD-UHFFFAOYSA-N 1-(3-chlorophenoxy)-3-[2-[[3-(3-chlorophenoxy)-2-hydroxypropyl]amino]ethylamino]propan-2-ol;methanesulfonic acid Chemical compound CS(O)(=O)=O.CS(O)(=O)=O.C=1C=CC(Cl)=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC(Cl)=C1 CDFKCKUONRRKJD-UHFFFAOYSA-N 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 239000012080 ambient air Substances 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Telephone Function (AREA)
- Machine Translation (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
Se describen un metodo y aparato para determinar una probabilidad de un estado de lenguaje basandose en una senal de sensor alternativa y una senal de microfono de conduccion de aire. La probabilidad del estado de lenguaje se utiliza, junto con la senal de sensor alternativa y la senal de microfono de conduccion de aire, para estimar un valor de lenguaje limpio para una senal de lenguaje limpia.
Description
MEJORA DE LENGUAJE MU LTI-SENSORIAL UTILIZANDO UN MODELO DE ESTADO DE LENGUAJE
ANTECEDENTES
Un problema común en el reconocimiento de lenguaje y transmisión de lenguaje es la corrupción de la señal de lenguaje por el ruido aditivo. En particular, la corrupción debido al lenguaje de otra bocina ha probado ser difícil de detectar y/o corregir. Recientemente, se han desarrollado sistemas para intentar remover el ruido utilizando una combinación de un sensor alternativo, tal como un micrófono de conducción por hueso, y un micrófono de conducción por aire. Se han desarrollado varias técnicas que utilizan la señal de sensor alternativa y la señal de micrófono de conducción por aire para formar una señal de lenguaje mejorada que tiene menos ruido que la señal de micrófono de conducción por aire. Sin embargo, no se ha logrado un lenguaje perfectamente mejorado y se necesitan avaneces adicionales en la formación de señales de lenguaje, mejoradas.
BREVE DESCRIPCIÓN DE LA INVENCIÓN
Un método y aparato determinan una probabilidad de un estado de lenguaje basándose en una señal de sensor alternativa y una señal de micrófono de conducción por aire. La probabilidad del
estado de lenguaje se utiliza para estimar un valor de lenguaje limpio para una señal de lenguaje limpia.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
La Figura 1 es un diagrama de bloques de un ambiente de cómputo en el cual puede practicarse la presente invención. La Figura 2 es un diagrama de bloques de un ambiente de cómputo alternativo en el cual pueden practicarse modalidades de la presente invención. La Figura 3 es un diagrama de bloques de un sistema de procesamiento de lenguaje general de la presente invención. La Figura 4 es un diagrama de bloques de un sistema para mejorar el lenguaje bajo una modalidad de la presente invención. La Figura 5 es un modelo en el cual se basa una mejora de lenguaje bajo una modalidad de la presente invención. La Figura 6 es un diagrama de flujo para mejorar lenguaje bajo una modalidad de la presente invención.
DESCRIPCIÓN DETALLADA DE LAS MODALIDADES ILUSTRATIVAS
La Figura 1 ilustra un ejemplo de un ambiente de sistema de cómputo adecuado 100 en el cual pueden implementarse las modalidades de la invención. El ambiente de sistema de cómputo 100 es solo un ejemplo de un ambiente de cómputo adecuado y no
pretende sugerir ninguna limitación al alcance de uso o funcionalidad de la invención. El ambiente de cómputo 100 tampoco debe interpretarse como obteniendo ninguna dependencia o requerimiento que se relaciona con cualquiera o combinación de componentes ilustrados en el ambiente operativo ilustrativo 100. Las modalidades de la invención son operacionales con numerosos otros ambientes o configuraciones de sistemas de cómputo de propósito general o de propósito especial. Ejemplos de sistemas de cómputo bien conocidos, ambientes, y/o configuraciones que pueden hacer adecuados para uso con las modalidades de la invención incluyen, pero no se limitan a, computadoras personales, computadoras de servidor, dispositivos móviles o portátiles, sistemas de multiprocesador, sistemas a base de microprocesador, cajas de tv por cable, electrónica de consumidor programable, PCs de red, minicomputadoras, macrocomputadoras, sistemas de telefonía, ambientes de cómputo distribuido que incluyen cualquiera de los sistemas anteriores o dispositivos, y similares. Las modalidades de la invención pueden describirse en el contexto general de instrucciones ejecutables por computadora, tal como módulos de programa, que se ejecutan por una computadora. Generalmente, los módulos de programa incluyen rutinas, programas, objetos, componentes, estructuras de datos, etc. que realizan tareas particulares o implementan tipos de datos abstractos particulares. La invención se diseña para practicarse en ambientes de cómputo distribuidos en donde las tareas se realizan por dispositivos de
procesamiento remotos que se enlazan a través de una red de comunicaciones. En un ambiente de cómputo distribuido, los módulos de programa se localizan tanto en medios de almacenamiento de computadora local y remota que incluyen dispositivos de almacenamiento de memoria. Con referencia a la Figura 1, un sistema ilustrativo para implementar la invención incluye un dispositivo de cómputo de propósito general en la forma de una computadora 110. Los componentes de la computadora 110 pueden incluir, pero no se limitan a, una unidad de procesamiento 120, una memoria de sistema 130, y un conductor común de sistema 121 que acopla varios componentes de sistema que incluyen la memoria de sistema a la unidad de procesamiento 120. El conductor común de sistema 121 puede ser cualquiera de varios tipos de estructuras de conductor común que incluyen un conductor común de memoria o controlador de memoria, un conductor común periférico, y un conductor común local que utiliza cualquiera de una variedad de arquitecturas de conductor común. A manera de ejemplo, y no de limitación, tales arquitecturas incluyen conductor común de Arquitectura de Estándar de Industria (ISA), Conductor Común de Arquitectura de MIcrocanal (MCA), Conductor común de de ISA mejorado (EISA), Conductor común Local de Asociación de Estándares Electrónicos de Video (VESA), y conductor común de Interconexión de componente Periférico (PCI) también conocido como conductor común de mezanine. La computadora 10 típicamente incluye una variedad dé medios
legibles por computadora. Los medios legibles por computadora pueden ser cualquier medio disponible que puede accederse por la computadora 110 y que incluye tanto medios volátiles como no volátiles, medios removibles y no removibles. A manear de ejemplo, y no de limitación, los medios legibles por computadora pueden comprender medios de almacenamiento de computadora y medios de comunicación. Los medios de almacenamiento por computadora incluyen tanto medios volátiles y no volátiles, removibles y no removibles ¡mplementados en cualquier método y tecnología para almacenamiento de información tal como instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos. Los medios de almacenamiento de computadora incluyen, pero no se limitan a, RAM, ROM, EEPROM, memoria flash u otra tecnología de memoria, CD-ROM, discos versátiles digitales (DVD) u otro almacenamiento de disco óptico, cassettes magnéticos, cinta magnética, almacenamiento de disco magnético u otros dispositivos de almacenamiento magnético, o cualquier otro medio que puede utilizarse para almacenar la información deseada y que puede accederse por la computadora 110. Los medios de comunicación típicamente representan instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos en una señal de datos modulada tal como una onda portadora u otro mecanismo de transporte e incluye cualquier medio de entrega de información. El término "señal de datos modulada" significa una señal que tiene una o más características establecidas o cambiadas
de tal forma para codificar información en la señal. A manera de ejemplo, y no de limitación, los medios de comunicación incluyen medios por cable tal como red por cable o conexión por cable directa, y medios inalámbricos tal como medios acústicos, . RF infrarrojos y otros medios inalámbricos. Las combinaciones de cualquiera de los anteriores también deben incluirse dentro del alcance de medios legibles por computadora. La memoria de sistema 130 incluye medios de almacenamiento de computadora en la forma de memoria volátil y/o no volátil tal como memoria solo de lectura (ROM) 131 y memoria de acceso aleatorio (RAM) 132. El sistema de entrada/salida básico 133 (BIOS), que contiene las rutinas básicas que ayudan a transferir información entre elementos de la computadora 110, tal como durante el arranque, típicamente se almacena en ROM 131. La RAM 132 típicamente contiene datos y/o módulos de programa que son inmediatamente accesibles a y/o actualmente están siendo operados por la unidad de procesamiento 120. A manear de ejemplo, y no de limitación, la Figura 1 ilustra el sistema operativo 134, programas de aplicación 135, otros módulos de programa 136, y datos de programa 137. Lá computadora 110 también puede incluir otros medios de almacenamiento de computadora removibles/no removibles volátiles/no volátiles. A manera de ejemplo solamente, la Figura 1 ¡lustra una unidad de disco duro 141 que lee de o escribe a medios magnéticos no removibles, no volátiles, una unidad de disco
magnético 151 que lee de o escribe a un disco magnético removible, no volátil 152, y una unidad de disco óptico 155 que lee de o escribe a un disco óptico removible, no volátil 156 tal como un CD ROM u otro medio óptico. Otros medios de almacenamiento de computadora removibles/no removibles, volátiles/no volátiles que pueden utilizarse en el ambiente operativo ilustrativo incluyen, pero no se limitan a, cassettes de cinta magnética, tarjetas de memoria flash, discos versátiles digitales, cinta de video digital, RAM de estado sólido, ROM de estado de sólido, y similares. La unidad de disco duro 141 típicamente se conecta al conductor común de sistema 121 a través de una interfase de memoria no removible tal como interfase 140, y unidad de disco magnético 151 y unidad de disco óptico 155 típicamente se conectan al conductor común de sistema 121 a través de una interfase de memoria removible, tal como interfase 150. Las unidades y sus medios de almacenamiento de computadora asociados discutidos anteriormente e ilustrados en la Figura 1, proporcionan almacenamiento de instrucciones legibles por computadora, estructuras de datos, módulos de programa y otros datos para la computadora 110. En la Figura 1, por ejemplo, la unidad de disco duro 141 se ilustra como almacenando el sistema operativo 144, programas de aplicación 145, otros módulos de programa 146, y datos de programa 147. Se debe notar que estos componentes pueden ser los mismos que o diferentes al sistema operativo 134, programas de aplicación 135, otros módulos de programa 136, y datos de programa 137. El sistema operativo 144,
programas de aplicación 145, otros módulos de programa 146, y datos de programa 147 aquí se les proporcionan números diferentes para ilustrar que, en un mínimo, son copias diferentes. Un usuario puede ingresar comandos de información en la computadora 110 a través de dispositivos de entrada tal como teclado 162, un micrófono 163, y un dispositivo de señalamiento 161, tal como un ratón, seguíbola o almohadilla sensible al tacto. Otros dispositivos de entrada (no mostrados) pueden incluir una palanca de mandos, almohadilla de juegos, antena parabólica, escáner, o similares. Estos y otros dispositivos de entrada frecuentemente se conectan a la unidad de procesamiento 120 a través de una interfase de entrada de usuario 160 que se acopla al conductor común de sistema, pero puede conectarse por otra interfase y estructuras de conductor común, tal como un puerto paralelo, o puerto de juegos o un conductor común en serie universal (USB). Un monitor 191 u otro tipo de dispositivo de presentación también se conecta al conductor común de sistema 121 a través de una interfase, tal como una interfase de video 190. Además del monitor, las computadoras también pueden ¡ncluir otros dispositivos de salida periféricos tal como bocinas 197 e impresoras 196, que pueden conectarse a través de una ¡nterfase periférica de salida 195. La computadora 110 se opera en un ambiente en red que utiliza conexiones lógicas a una o más computadoras remotas, tal como una computadora remota 180. La computadora remota 180 puede ser una computadora personal, un dispositivo portátil, un servido, un
enrutador una PC de red, un dispositivo par u otro nodo de red común, y típicamente incluye muchos o todos los elementos descritos anteriormente relativos a la computadora 110. Las conexiones lógicas ilustradas en la Figura 1 incluyen una red de área local (LAN) 171 y una red de área ancha (WAN) 173, pero también pueden incluir otras redes. Tales ambientes en red están comúnmente ubicados en oficinas, redes de computadora de empresa, intranets e Internet. Cuando se utiliza en un ambiente en red de LAN, la computadora 1 i 0 se conecta a la LAN 171 a través de una ¡nterfase de red o adaptador 170. Cuando se utiliza en un ambiente en red de WAN, la computadora 110 típicamente incluye un modem 172 u otro medio para establecer comunicaciones en la WAN 173, tal como Internet. El módem 172, que puede ser interno o externo, puede conectarse a conductor común de sistema 121 a través de la interfase de entrada de usuario 160, u otro mecanismo apropiado. En un ambiente en red, los módulos de programa ilustrados relativos a la computadora 110, o porciones de la misma, pueden almacenarse en el dispositivo de almacenamiento de memoria remota. A manera de ejemplo, y no de limitación, la Figura 1 ilustra programas de aplicación remotos 185 como residentes en la computadora remota 180. Se apreciará que las conexiones en red mostradas son ilustrativas y pueden utilizarse otros medios para establecer un enlace de comunicaciones entre las computadoras. La Figura 2 es un diagrama de bloques de un dispositivo móvil 200, que es un ambiente de cómputo ilustrativo. El dispositivo móvil
200 incluye un microprocesador 202, memoria 204, componentes de entrada/salida (l/O) 206, una interfase de comunicación 208 para comunicarse con computadoras remotas u otros dispositivos móviles. En una modalidad, los componentes mencionados se acoplan para comunicación con otro en un conductor común adecuado 210. La memoria 204 se implementa como memoria electrónica no volátil tal como memoria de acceso aleatoria (RAM) con un módulo de recuperación de batería (no mostrado), para que la información almacenada en la memoria 204 no se pierda cuando la energía general para el dispositivo móvil 200 se cierre. Una porción de la memoria 204 preferiblemente se distribuye como memoria dirigible para ejecución de programa, mientras otra porción de la memoria 204 preferiblemente se utiliza para almacenamiento, tal como para simular almacenamiento en una unidad de disco. La memoria 204 incluye un sistema operativo 212, programas de aplicación 214 asi como un almacenamiento de objeto 216. Durante la operación, el sistema operativo 212 preferiblemente se ejecuta por el procesador 202 desde la, memoria 204. El sistema operativo 212, en una modalidad preferida, es un sistema operativo de marca WINDOWS® CE comercialmente disponible de Microsoft Corporation. El sistema operativo 212 preferiblemente se diseña para dispositivos móviles, e implementa características de base de datos que pueden utilizarse por aplicaciones 214 a través de un grupo de interfases de programación de aplicación expuestas y métodos. Los objetos en el almacenamiento de objeto 216 se mantienen por
aplicaciones 214 y el sistema operativo 212, al menos parcialmente en respuesta a llamadas a las interfases y métodos de programación de aplicación expuestas. La interfase de comunicación 208 representa numerosos dispositivos y tecnologías que permiten al dispositivo móvil 200 enviar y recibir información. Los dispositivos incluyen módems por cable e inalámbricos, receptores por satélite y sintonizadores de difusión por nombrar algunos. El dispositivo móvil 200 también puede conectarse directamente a una computadora para intercambiar datos con ella. En tales casos, la interfase de comunicación 208 puede ser un transceptor infrarrojo o una conexión de comunicación en serie o paralela, todos de los cuales son capaces de transmitir información e corriente. Los componentes de entrada/salida 206 incluyen una variedad de dispositivos de entrada tal como una pantalla sensible al tacto, botones, rodillos, y un micrófono así como una variedad de
• dispositivos de salida que ¡ncluyen un generador de audio, un dispositivo de vibración, y una pantalla. Los dispositivos enlistados anteriormente son a manera de ejemplo no todos están presentes en el dispositivo móvil 200. Además, otros dispositivos de entrada/salida puede unirse a o encontrarse con el dispositivo móvil 200 dentro del alcance de la presente invención. La Figura 3 proporciona un diagrama de bloques básico de las modalidades de la presente invención. En la Figura 3, una bocina 300 genera una señal de lenguaje 302 (X) que se detecta por un
micrófono de conducción de aire 304 y un sensor alternativo 306. Ejemplos de sensores alternativos ¡ncluyen un micrófono de garganta que mide las vibraciones de la garganta del usuario, un sensor de conducción de hueso que se localiza en o adyacente a un hueso vaciado del cráneo del usuario (tal como el hueso de la mandíbula) o en el oído del usuario que percibe vibraciones del cráneo y la mandíbula que corresponden al lenguaje generado por el usuario. El micrófono de conducción de aire 304 es el tipo de micrófono que se utiliza comúnmente para convertir ondas de aire de audio en señales eléctricas. El micrófono de conducción de aire 304 recibe ruido ambiental 308. (V) generado por una o más fuentes de ruido 310 y genera su propio ruido de sensor 305 (U). Dependiendo del tipo de ruido ambiental y el nivel de ruido ambiental, ruido ambiental 308 puede detectarse por el sensor alternativo 306. Sin embargo, bajo las modalidades de la presente invención, el sensor alternativo 306 típicamente es menos sensible al ruido ambiental el micrófono de conducción de aire 304. De esa forma, la señal de sensor alternativa 316 (B) generada por el sensor alternativo 306 generalmente incluye menos ruido que la señal de micrófono de conducción de aire 318 (Y) generada por el micrófono de conducción de aire 304. Aunque el sensor alternativo 306 es menos sensible al ruido ambiental, genera el mismo ruido de sensor 320 (W). La ruta de la bocina 300 a la señal de sensor alternativa 316 puede moldearse como un canal que tiene una respuesta de canal H.
la ruta de ruido ambiental 308 a la señal de sensor alternativa 316 puede moldearse como un canal que tiene una respuesta de canal G. La señal de sensor alternativa 316 (B) y la señal de micrófono de conducción de aire 318 (Y) se proporcionan a un estimado de señal limpia 322, que estima un señal limpia 324. El estimado de señal limpia 324 se proporciona un procedimiento de lenguaje 328. El estimado de señal limpio 324 puede ser una señal de dominio de tiempo o un vector de Transformación de Fourier. Si el estimador de señal limpia 324 es una señal de dominio de tiempo, el procedimiento de lenguaje 328 puede tomar la forma de un oyente, un sistema de codificación de lenguaje, o un sistema de reconocimiento de lenguaje. Si un estimado de señal limpia 324 es un vector de Transformación de Fourier, el procedimiento de lenguaje 328 típicamente será un sistema de reconocimiento de lenguaje, o contendrá una transformación de Fourier Inversa para convertir el vector de Transformación de Fourier en formas de ondas. Dentro del estimador de señal limpia 322, la señal de sensor alternativa 316 y la señal de micrófono 318 se convierten en el dominio de frecuencia que se utiliza para estimar el lenguaje limpio. Como se muestra en la Figura 4, la señal de sensor alternativa 316 y la señal de micrófono de conducción de aire 318 se proporcionan a convertidores analógicos a digitales 404 y 414, respectivamente, para generar una secuencia de valores digitales, que se agrupan en marcos de valores por constructores de marco 406 y 416, respectivamente. En una modalidad, los convertidores A-a-D 404 y
414 muestrean las señales analógicas en 16 kHz y 16 bits por muestra, por lo cual crean 32 kilobytes de datos de lenguaje por segundo y constructoras de marco 406 y 416 crean un nuevo marco respectivo cada 10 milisegundos que incluyen valor de 20 milisegundos de datos. Cada marco respectivo de datos proporcionado por los constructores de marco 406 y 416 se convierten en el dominio de frecuencia que utilizan las Transformaciones de Fourier rápidas (FFT) 408 y 418, respectivamente. Los valores de de dominio de frecuencia para la señal de sensor alternativa y la señal de micrófono de conducción de aire se proporcionan al estimado de señal limpia 420, que utiliza los' valores de dominio de frecuencia para estimar señal de lenguaje limpia 324.
Bajo algunas modalidades, la señal de lenguaje limpio 324 se convierte de nuevo al dominio de tiempo que utiliza Transformaciones de Fourier rápidas inversas 422. Esto crea una versión de dominio de tiempo de señal de lenguaje limpia 324. La presente invención incluye un modelo del sistema de la Figura 3 que incluye estados de lenguaje para el lenguaje limpio con el fin de producir una señal de lenguaje mejorada. La Figura 5 proporciona una representación gráfica del modelo. En el modelo de la Figura 5, el lenguaje limpio 500 depende del estado de lenguaje 502. La señal de micrófono de conducción 504 es dependiente del ruido del sensor 506, ruido ambiental 508 y señal de lenguaje limpia 500. La señal de sensor alternativa 510 depende del
nodo de sensor 512, señal de lenguaje limpia 500 mientras pasa a través de una respuesta de canal 514 y ruido ambiental 508 mientras pasa a través de una respuesta de canal 516. El modelo de la Figura 5 se utiliza bajo la presente invención para estimar una señal de lenguaje limpia Xt de observaciones ruidosas Yt y Bt e identifica la probabilidad de una pluralidad de estados de lenguaje St. Bajo una modalidad de la presente invención, el estimado de señal de lenguaje limpio y las probabilidades de los estados para el estimado de señal de lenguaje limpio se forman al asumir primero distribuciones Gausianas para los componentes de ruido en el modelo de sistema. De esa forma: V~N(0,g2s2, EC. 1 U~N(0,s2u) EC. 2 W-N(0,s2w) EC. 3 en donde cada componente de ruido se modela como un Gausiana medio cero que tiene variaciones respectivas g2s2v, s2u, y s2w V es el ruido ambiental, U es ruido de sensor en el micrófono de conducción de aire, y W es el ruido de sensor en el sensor alternativo. En la ecuación 1, g es un parámetro de sintonización que permite la variación del ruido ambiental para sintonizarse. Además, esta modalidad de la presente invención modela la probabilidad de una señal de lenguaje o limpia dad a un estado como un Gausiano medio cero con una variación s2s de manera que:
EC. 4 Bajo una modalidad de la presente invención, la probabilidad previa en un estado dado se asume para ser la probabilidad uniforma para que y todos los estados sean igualmente probables. Específicamente, la probabilidad previa se define como:
N. EC. 5
en donde Ns es el número de estados de lenguaje disponibles en el modelo. En la descripción de las ecuaciones posteriores para determinar el estimado de la señal de lenguaje limpia y la probabilidad de los estados de lenguaje, programas variables se modelan en el dominio espectral completo. Cada componente de frecuencia (Bin) se trata independientemente de los otros componentes de frecuencia. Para facilidad de notación, el método se describe posteriormente para un componente de frecuencia individual. Aquellos expertos en la técnica reconocerán que los cálculos se realizan para cada componente de frecuencia en la versión espectral de las versiones de entrada. Para variables que varían con el tiempo, se agrega una a la variable. Para estimar la señal de lenguaje limpia Xt de las observaciones ruidosas Yt y Bt, la presente invención maximiza la probabilidad condicional p(Xt|Yt,Bt), que es la probabilidad de la señal de lenguaje limpia dada a la señal de micrófono de conducción
de aire ambiental y la señal de sensor alternativa ruidosa. Ya que el estimado de la señal de lenguaje limpia depende del estado de lenguaje St bajo el modelo, esta probabilidad condicional se determina como:
en donde {S} denota el grupo de estado de entre los estados de lenguaje, p(Xt|Yt,B,,St = s) es la probabilidad de Xt dadas las observaciones ruidosas actuales y el estado de lenguaje s, y p(St = s|Yt,Bt) es la probabilidad del estado de lenguaje s dadas las observaciones ruidosas. Cualquier número de estado de diálogos posibles pueden utilizarse bajo la presente invención, incluyendo estados de lenguaje para sonidos con voz, fricativos, sonidos nasales y sonidos de vocales. En algunas modalidades, el estado de lenguaje separado se proporciona para cada grupo de unidades fonéticas, tal como fonemas. Bajo una modalidad, sin embargo, solo se proporcionan dos estados de lenguaje, uno para lenguaje y uno para no lenguaje. Bajo algunas modalidades, un estado individual se utiliza para todos los componentes de frecuencia. Por lo tanto, cada marco tiene un estado de lenguaje individual variable. Los términos en el lado derecho de la ecuación 6 pueden calcularse como:
p{Xt\Y,.B S,^s)^X^B'tS' -s)*p{X.,Y„B,.S, =s) p(Yl,Bl,Sl^S) EC. 7 p(S, =s \Y„B,) = ÍÍÍU ii)^^ [p(X„Y„B„S, = S)dX P(Y,?) EC 8
que indican que la probabilidad condicional de la señal de lenguaje limpia dadas las observaciones puede estimarse por la probabilidad de unión de la señal de lenguaje limpia, las observaciones y el estado y la probabilidad condicional del estado dadas las observaciones pueden aproximarse al integrar la probabilidad de unión de la señal de lenguaje limpia, las observaciones y el estado en todos los valores de lenguaje limpios posibles. Al utilizar las suposiciones Gausianas para leer distribuciones del ruido discutido anteriormente en las ecuaciones 1-3, la probabilidad de unión de la señal de lenguaje limpia, las observaciones y el estado pueden calcularse como:
P{X„S„Y„B,)
en donde p(Xt | S, = s) = N(Xt;0,s2s), p(St) es la probabilidad previa del estado que se da por la distribución de probabilidad uniforme en la Ecuación 5, G es la respuesta del canal del sensor alternativo al ruido ambiental, H si la respuesta de canal de la señal de sensor alternativa a la señal de lenguaje limpia, y términos complejos entre
barras verticales tal como, |G|, indican la magnitud del valor complejo. La respuesta del canal del sensor alternativo G para lenguaje de fondo se estima para las señales del micrófono de aire Y y del sensor alternativo B a través de los últimos marcos D en los cuales el usuario no habla. Específicamente, G se determina como:
en donde D es el número de marcos en el cual el usuario no habla pero al lenguaje de fondo. Aquí, asumimos que G es constante a través de todos los marcos de tiempo D. En otras modalidades, antes de utilizar todos los marcos D igualmente, utilizamos una técnica conocida como "envejecimiento exponencial" para que los últimos marcos contribuyan más al estimado de G que los marcos antiguos. Las respuestas de canal de sensor alternativo H para la señal de lenguaje limpia se estima de las señales del micrófono de aire Y y del sensor alternativo B a través de los últimos marcos T en los cuales sale el usuario. Significativamente, H se determina como:
en donde T es el número de marcos en los cuales al usuario habla. Aquí, asumimos que H es constante a través de todos los marcos de
tiempo T. en otras modalidades, en lugar de utilizar todos los marcos T igualmente como utilizamos una técnica conocida como "envejecimiento exponencial" para que los marcos más recientes contribuyan más al estimado de H que los marcos más antiguos. La probabilidad convencional del estado p(St = s|Yt,B,) se calcula al utilizar la aproximación de la ecuación 8 y cálculo de probabilidad de unión de la ecuación 9 como:
p(S, | Y„B,) ¡N(Y?;X„st+g*s)-
que puede simplificarse como:
P(S,\Y„B,)* EC. 13
" s) + gsl + sl " sJ + g ? su+gs <?+s.+gs, N(Y,;Q,s]+sl+g v)p(S,)
Una observación cercana en la Ecuación 13 revela que el primer término en algún sentido moldea la correlación entre canales de usuario alternativo y el canal de micrófono de conducción mientras el segundo término hace uso del modelo de estado y el modelo de ruido para explicar la observación en el canal de micrófono de aire. El tercer término simplemente es previo a| estado, que bajo una modalidad es una distribución uniforme. La probabilidad del estado dada la observación como se calcula en la ecuación 13 tiene dos aplicaciones posibles. Primero, puede
utilizarse para construir un clasificador mezclado de lenguaje, que puede utilizarse para clasificar las observaciones al incluir lenguaje o al no incluir lenguaje, las variaciones de las fuentes de ruido que pueden determinarse de marco que no incluyen lenguaje. También se utiliza para proporcionar un peso "suave" cuando se estima la señal de lenguaje limpia como se mostrará posteriormente. Como se notó anteriormente, cada una de las variables en las ecuaciones anteriores se define para un componente de frecuencia particular en el dominio espectral complejo. De esa forma, la probabilidad de la Ecuación 13 es para un estado asociado con un componente de frecuencia particular. Sin embargo, ya que existe solo un estado individual disponible para cada marco, la probabilidad de un estado para un marco se forma al agregar la probabilidad a través de los componentes de frecuencia como sigue:
en donde L(St(/)) = p(S,(/))|Yt(/),Bt(/)) es la probabilidad para el componente de frecuencia f como se definió en la ecuación 13. El producto se determina en todos los componentes de frecuencia excepto en las frecuencias DC y Nyquist. Se debe notar que si el cálculo de probabilidad se lleva a cabo en el dominio de probabilidad de logaritmo, entonces el producto en la ecuación anterior se reemplaza con una suma. La probabilidad anterior puede utilizarse para incluir un clasificador de lenguaje/no lenguaje, basándose en una prueba de
relación de probabilidad para que:
L(S, = lenguaje) r = log- - - L(S, => no-lenguaje) c ° - ' °
en donde un marco se considera para contener lenguaje si la relación r es mayor que 0 y se considera que no contiene lenguaje de otra forma. Al utilizar la probabilidad de los estados de lenguaje, un estimado de la señal de lenguaje limpia puede formarse. Bajo una modalidad, este estimado se forma al utilizar un estimado de cuadrado de medio mínimo (MMSE) basándose en la ecuación 6 para que:
en donde E(Xt|Yt,Bt) es la excepción de la señal de lenguaje limpia dada la observación, y E(Xt|Yt,Bt,St = s) es la expectación de la señal de lenguaje limpia dada las observaciones y el estado de lenguaje. Al utilizar las ecuaciones 7 y 9, la probabilidad condicional p(X,|Yt,Bt,St=s) de la cual la expectación E(Xt|Yt,Bt,St=s) puede calcularse se determina como:
p(X, \r„B„S,< s)«. N(Y,;X„su2^g sv)- s„2+ 2s? s„2+g 2 EC. 17 N{X,$,ss)PÍ.Sl =í)
Esto produce una expectación de:
EC.18
en donde
M- = /*/- * ? EC. 20 s¡.+g2s,2
y M* es el conjugado complejo de M. De esa forma, el estimado de MMSE de la señal de lenguaje limpia X se da por:
X, ?píE(Xl\YBl>Sl^¡') ..a(S) EC. 21 en donde ps es el posterior en el estado y se da por:
L(S,=s) p, -• EC. 22
en donde L(St = s) se da por la ecuación 14. De esa forma, el estimado de la señal de lenguaje limpia se basa en parte en la probabilidad relativa de un estado de lenguaje particular y esta probabilidad relativa proporciona un peso suave para el estimado de la señal de lenguaje limpio. En los cálculos anteriores, se asume que H se conoce con fuerte precisión. Sin embargo, en la práctica, H solo es conocido con
precisión limitada. Bajo una modalidad adicional de la presente invención, H se modela como una variable aleatoria Gausiana N(H;H0,sH2). Bajo tal modalidad, todos los cálculos anteriores se marginalizan en todos los valores posibles de H. Sin embargo, esto hace a las matemáticas inflexibles. Bajo una modalidad, un procedimiento interactivo se utiliza para superar esta inflexibilidad. Durante cada interacción, H se reemplazan ecuaciones 13 y 20 con Ho y s2w se reemplaza con
en donde X, , es un estimado de la señal de lenguaje limpia determinada de una interacción previa. La señal de lenguaje limpia entonces se estima al utiliza la ecuación 21. Este nuevo estimado de la señal de lenguaje limpia entonces establece como nuevo valor de X, , y se realiza la siguiente interacción. Las interacciones terminan cuando el estimado de lenguaje limpia se vuelve estable. La Figura 6 proporciona un método para estimar una señal de lenguaje limpia que utiliza las ecuaciones anteriores. En el paso 600, los marcos de una pronunciación de entrada se identifican en donde el usuario no habla. Estos marcos entonces se utilizan para determinar la variación para el ruido ambiental s2v, la variación para el ruido de sensor alternativo s2w, y la variación para el ruido de micrófono de conducción de aire s2u. Para identificar marcos en donde el usuario no habla, la señal de sensor alternativa puede examinarse. Ya que la señal de sensor alternativo producirá valores de señal mucho más pequeños para
lenguaje de fondo que para ruido, cuando la energía de la señal de sensor alternativa es baja, inicialmente puede asumirse que el locutor no habla. Los valores de la señal de micrófono de conducción de aire y la señal de sensor alternativo para marcos que no contiene diálogos se almacenan en una memoria intermedia que utilizan para calcular variaciones del ruido como:
*?-- - ?\Y,\2 JV„ alltelf EC. 23
¿l=~ ?IS.I2 Nv aiitev EC. 24 en donde Nv es el número de marcos de ruido en la pronunciación que se utiliza para formar las variaciones, V es el grupo de marcos de ruido en donde el usuario no habla, y B't se refiere a la señal de sensor alternativa después de que ha sido representada, que se calcula como: B't=Bt-GYt EC. 25 que, en algunas modalidades se calcula alternativamente como:
*;=«-& EC. 26
Bajo algunas modalidades, la técnica de identificar marcos de no lenguaje basándose en niveles de energía inferior en la señal de sensor alternativa solo se realiza durante los marcos iniciales de entrenamiento. Después que se formaron valores iniciales para las variaciones de ruido, puede utilizarse para determinar que marcos
contienen lenguaje y que marcos no contiene lenguaje al utilizar la relación de probabilidad de la ecuación 15. El valor de g, que s un parámetro de sintonización que puede utilizarse para amentar o disminuir la variación estimada s2v, se establece a 1 bajo una modalidad particular. Esto sugiere confianza completa en el procedimiento de estimado de ruido. Diferentes valores de g pueden utilizarse bajo diferentes modalidades de la presente invención. La variación del ruido para el micrófono de conducción de aire, s2u, se estima basándose en la observación que el micrófono de conducción de aire es menos propenso a ruido de sensor que el sensor alternativo. Como tal, la variación del micrófono de conducción de aire puede calcularse como:
EC. 27
En el paso 602, la variación del lenguaje s2s se estima al utilizar un filtro de supresión de ruido con suavización temporal. El filtro de supresión es una generalización de substracción espectral. Específicamente, la variación de lenguaje se calcula como:
en donde
K V-oQrlY2 '/ Qrl<V(a+ß) EC. 29 [ßQ Y de otra manera
con s„ Q- EC. 30 \T,
en donde x¡-\ es el estimado de lenguaje limpio del marco precedente, t es un factor de suavización que en algunas modalidades se establece con .2, a controla la extensión de reducción de ruido para que si a>1 se reduzca más ruido en extensión de distorsión de lenguaje en aumento, y ß da el piso de ruido mínimo y proporciona un ruido medio para agregar ruido de fondo para enmascarar el ruido musical residual perseguido. Bajo algunas modalidades, ? 1 =2 y ?2 = 1/2. En algunas modalidades, ß se establece igual a 0.01 para reducción de ruido de 20 dB para marcos de ruido puro. De esa forma, en la ecuación 28, la variación se determina como una suma pesada de la señal de lenguaje limpia estimada del marco precedente y la energía de micrófono de conducción de aire filtrada por el filtro'de supresión de ruido en Ks. Bajo algunas modalidades, a se elige de acuerdo con una señal para la relación de ruido y un principio de enmascarado que se mostró la misma cantidad de ruido en una banda de energía de banda superior tiene un impacto más pequeño en percepción que en una banda de energía de lenguaje inferior y la presencia de energía de lenguaje superior en una frecuencia reducirá la percepción de
ruido en una banda de frecuencia adyacente. Bajo esta modalidad, a se elige como:
en donde SNR es la relación de señal a ruido en decibeles (dB), B es el nivel de relación de señal a'ruido deseado sobre el cual no debe realizarse la reducción de ruido y a0 es la cantidad de ruido que debe removerse en un valor de relación de señal a ruido de 0. Bajo algunas modalidades, B se establece igual a 20 dB. Al utilizar una definición de señal a relación de ruido de:
el filtro de supresión de ruido de la ecuación 29 se vuelve:
? (l-a0l-SNR/B)/(l + lOm'>0)]U2 if Q2<\l +ß) £C 33 l[/3g ]"/2 de otra manera
Este filtro de supresión de ruido proporciona supresión de ruido débil para relaciones de señal a ruido positivas .y supresión de ruido más fuerte para relaciones de señal a ruido negativas. De hecho, para relaciones de señal a ruido suficientemente negativas, toda la señal observada y el ruido se remueven y la única señal presente es un piso de ruido que se agrega de nuevo por la ramificación "de otra manera" del filtro de supresión de ruido de la ecuación 33. Bajo algunas modalidades, a0 se hace dependiente de
frecuencia para que cantidades diferentes de ruido se remuevan en diferentes frecuencias. Bajo una modalidad, esta dependencia de frecuencia se forma al utilizar una interpolación lineal entre a0 a 30Hz y a0 a 8kHz para que: a0( )= aom,putos + (aoma?-a?m?n)k/225 EC. 34 en donde k es la cuenta del componente de frecuencia, s0m?n es el valor de a0 deseado en 30Hz, a0ma? es el a0 deseado a 8kHz y se asume que existen 256 componentes de frecuencia. Después que la variación de dialogo se determino en el paso 602, las variaciones se utilizan para determinar la probabilidad de cada estado de lenguaje en el paso 604 al utilizar ecuaciones 13 y 14 anteriores. La probabilidad de los estados de lenguaje entonces se utiliza en el paso 606 para determinar un estimado de lenguaje limpio para el marco actual. Como se notó anteriormente, en modalidades en las cuales se utiliza una distribución Gausiana para representar H, los pasos 604 y 606 se repiten al utilizar el último estimado de la señal de lenguaje limpia en cada repetición y al utilizar los cambios a las ecuaciones discutidas anteriormente para acomodar el modelo Gausiano para H. Aunque la presente invención se describió con referencia a modalidades particulares, los expertos en la técnica reconocerán que pueden hacerse cambios en la forma y detalles sin apartarse del espíritu y alcance de la invención.
Claims (20)
1.- Un método para determinar un estimado para un valor reducido de ruido que representa una porción de señal de lenguaje reducida de ruido, el método comprende: generar una señal de sensor alternativa utilizando un sensor alternativo; generar una señal de micrófono de conducción de aire; utilizar la señal de sensor alternativa y la señal de micrófono de conducción de aire para estimar una probabilidad de un estado de lenguaje; y utilizar la probabilidad del estado de lenguaje para estimar el valor reducido de ruido.
2.- El método de acuerdo con la reivindicación 1, en donde utilizar la probabilidad del estado de lenguaje para estimar el valor reducido de ruido comprende utilizar la probabilidad del estado de lenguaje y un valor de expectación para el valor reducido de ruido para estimar el valor reducido de ruido.
3.- El método de acuerdo con la reivindicación 2, en donde el valor de expectación para el valor reducido de ruido se basa en la señal de sensor alternativa y la señal de micrófono de conducción de aire.
4.- El método de acuerdo con la reivindicación 1, en donde estimar una probabilidad de un estado de lenguaje comprende estimar una probabilidad separada para cada uno de una pluralidad de estados de lenguaje y en donde utilizar la probabilidad del estado de lenguaje para estimar el valor reducido de ruido comprende utilizar las probabilidades para cada estado de lenguaje en la pluralidad de estados de lenguaje.
5.- El método de acuerdo con la reivindicación 4, en donde utilizar las probabilidades para cada estado de lenguaje en la pluralidad de estados de lenguaje comprende utilizar las probabilidades para cada estado de lenguaje para valores de expectación de peso para el valor reducido de ruido.
6.- El método de acuerdo con la reivindicación 1, en donde estimar una probabilidad de un estado de lenguaje comprende estimar un componente de probabilidad separada para cada uno de un grupo de componentes de frecuencia y combinar los componentes de probabilidad para formar el estimado de probabilidad del estado de lenguaje.
7.- El método de acuerdo con la reivindicación 1, que además comprende utilizar el estimado de la probabilidad de un estado de lenguaje para determinar si un marco de la señal de micrófono de conducción de aire contiene lenguaje.
8.- El método de acuerdo con la reivindicación 7, que además comprende utilizar un marco de la señal de micrófono de conducción de aire que se determina para no contener el lenguaje para determinar una variación para una fuente de ruido y utilizar la variación para la fuente de ruido para estimar el valor reducido de ruido.
9.- El método de acuerdo con la reivindicación 1, que además comprende modelar una probabilidad de un valor reducido de ruido dando un estado como una distribución que contiene una variación.
10.- El método de acuerdo con la reivindicación 9, que además comprende estimar la variación de la distribución como una combinación lineal de un estimado de un valor reducido de ruido para un marco precedente y una versión filtrada de la señal de micrófono de conducción de aire para un marco actual.
11.- El método de acuerdo con la reivindicación 10, en donde la versión filtrada de la señal de micrófono de conducción se forma al utilizar un filtro que es dependiente de frecuencia.
12.- El método de acuerdo con la reivindicación 10, en donde la versión filtrada de la señal de micrófono de conducción de aire se forma al utilizar un filtro que es dependiente en una relación de señal a ruido.
13.- El método de acuerdo con la reivindicación 1, que además comprende realizar una repetición utilizando el estimado del valor reducido de ruido para formar un nuevo estimado del valor reducido de ruido.
14.- Un medio legible por computadora que tiene instrucciones ejecutables por computadora para realizar los pasos que comprenden: determinar una probabilidad de un estado de lenguaje basándose en una señal de sensor alternativa y una señal de micrófono de conducción de aire; y utilizar la probabilidad del estado de lenguaje para estimar un valor de lenguaje limpio.
15.- El medio legible por computadora de acuerdo con la reivindicación 14, en donde la utilización de la probabilidad del estado de lenguaje para estimar un valor de lenguaje limpio comprende cargar un valor de expectación.
16.- El medio legible por computadora de acuerdo con la reivindicación 14, en donde la utilización de la probabilidad del estado de lenguaje para estimar un valor de lenguaje limpio comprende: utilizar la probabilidad del estado de lenguaje para identificar un marco de una señal como un marco de no lenguaje; utilizar el marco de no lenguaje para estimar una variación para un código; y utilizar la variación para el ruido para estimar el valor de lenguaje limpio.
17.- El medio legible por computadora de acuerdo con la reivindicación 14, en donde estimar una probabilidad para un estado de lenguaje comprende estimar una probabilidad separada para cada uno de una pluralidad de componentes de frecuencia, y combinar las probabilidades separadas para formar la probabilidad para el estado de lenguaje.
18.- Un método para identificar un valor de lenguaje limpio para una señal de lenguaje limpia, el método comprende: formar un modelo en donde la señal de lenguaje limpia depende de un estado de lenguaje, una señal de sensor alternativa es dependiente de la señal de lenguaje limpia, y una señal de micrófono de conducción de aire es dependiente de la señal de lenguaje limpia; y determinar un estimado del valor de lenguaje limpio basándose en el modelo, un valor para la señal de sensor alternativa, y un valor para en la señal de micrófono de conducción de aire.
19.- El método de acuerdo con la reivindicación 18, que además comprende determinar una probabilidad para un estado y en donde determinar un estimado del valor de lenguaje limpio además comprende utilizar la probabilidad para el estado.
20.- El método de acuerdo con la reivindicación 18, en donde formar el modelo comprende formar un modelo en donde la señal de sensor alternativa y la señal de micrófono de conducción de aire son dependientes en una fuente de ruido.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US11/168,770 US7680656B2 (en) | 2005-06-28 | 2005-06-28 | Multi-sensory speech enhancement using a speech-state model |
| PCT/US2006/022863 WO2007001821A2 (en) | 2005-06-28 | 2006-06-13 | Multi-sensory speech enhancement using a speech-state model |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| MX2007015446A true MX2007015446A (es) | 2008-02-25 |
Family
ID=37568662
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| MX2007015446A MX2007015446A (es) | 2005-06-28 | 2006-06-13 | Mejora de lenguaje multi-sensorial utilizando un modelo de estado de lenguaje. |
Country Status (11)
| Country | Link |
|---|---|
| US (1) | US7680656B2 (es) |
| EP (1) | EP1891624B1 (es) |
| JP (2) | JP5000647B2 (es) |
| KR (1) | KR101224755B1 (es) |
| CN (1) | CN101606191B (es) |
| AT (1) | ATE508454T1 (es) |
| BR (1) | BRPI0612668A2 (es) |
| DE (1) | DE602006021741D1 (es) |
| MX (1) | MX2007015446A (es) |
| RU (1) | RU2420813C2 (es) |
| WO (1) | WO2007001821A2 (es) |
Families Citing this family (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8139787B2 (en) * | 2005-09-09 | 2012-03-20 | Simon Haykin | Method and device for binaural signal enhancement |
| KR100738332B1 (ko) * | 2005-10-28 | 2007-07-12 | 한국전자통신연구원 | 성대신호 인식 장치 및 그 방법 |
| US8364492B2 (en) * | 2006-07-13 | 2013-01-29 | Nec Corporation | Apparatus, method and program for giving warning in connection with inputting of unvoiced speech |
| JP4940956B2 (ja) * | 2007-01-10 | 2012-05-30 | ヤマハ株式会社 | 音声伝送システム |
| JP4950930B2 (ja) * | 2008-04-03 | 2012-06-13 | 株式会社東芝 | 音声/非音声を判定する装置、方法およびプログラム |
| US9159335B2 (en) * | 2008-10-10 | 2015-10-13 | Samsung Electronics Co., Ltd. | Apparatus and method for noise estimation, and noise reduction apparatus employing the same |
| WO2012069020A1 (zh) * | 2010-11-25 | 2012-05-31 | 歌尔声学股份有限公司 | 语音增强方法、装置及头戴式降噪通信耳机 |
| US10418047B2 (en) * | 2011-03-14 | 2019-09-17 | Cochlear Limited | Sound processing with increased noise suppression |
| US9589580B2 (en) * | 2011-03-14 | 2017-03-07 | Cochlear Limited | Sound processing based on a confidence measure |
| US9094749B2 (en) | 2012-07-25 | 2015-07-28 | Nokia Technologies Oy | Head-mounted sound capture device |
| TWI502583B (zh) * | 2013-04-11 | 2015-10-01 | Wistron Corp | 語音處理裝置和語音處理方法 |
| US9928851B2 (en) | 2013-09-12 | 2018-03-27 | Mediatek Inc. | Voice verifying system and voice verifying method which can determine if voice signal is valid or not |
| US20150161999A1 (en) * | 2013-12-09 | 2015-06-11 | Ravi Kalluri | Media content consumption with individualized acoustic speech recognition |
| TWM492015U (zh) * | 2014-07-30 | 2014-12-11 | Wen-Tsung Sun | 電子式助發聲裝置 |
| CN105448303B (zh) * | 2015-11-27 | 2020-02-04 | 百度在线网络技术(北京)有限公司 | 语音信号的处理方法和装置 |
| CN107045874B (zh) * | 2016-02-05 | 2021-03-02 | 深圳市潮流网络技术有限公司 | 一种基于相关性的非线性语音增强方法 |
| US10535364B1 (en) * | 2016-09-08 | 2020-01-14 | Amazon Technologies, Inc. | Voice activity detection using air conduction and bone conduction microphones |
| CN110265056B (zh) * | 2019-06-11 | 2021-09-17 | 安克创新科技股份有限公司 | 音源的控制方法以及扬声设备、装置 |
| KR102788632B1 (ko) | 2019-09-12 | 2025-04-01 | 썬전 샥 컴퍼니, 리미티드 | 오디오 신호 생성을 위한 시스템 및 방법 |
| CN116778944A (zh) * | 2023-07-10 | 2023-09-19 | 深圳百瑞互联技术有限公司 | 噪声估计方法、装置、介质和设备 |
Family Cites Families (108)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US3383466A (en) | 1964-05-28 | 1968-05-14 | Navy Usa | Nonacoustic measures in automatic speech recognition |
| US3746789A (en) | 1971-10-20 | 1973-07-17 | E Alcivar | Tissue conduction microphone utilized to activate a voice operated switch |
| US3787641A (en) | 1972-06-05 | 1974-01-22 | Setcom Corp | Bone conduction microphone assembly |
| US3838466A (en) * | 1973-01-26 | 1974-10-01 | White S | Non-fogging face shield |
| US4025721A (en) * | 1976-05-04 | 1977-05-24 | Biocommunications Research Corporation | Method of and means for adaptively filtering near-stationary noise from speech |
| JPH0755167B2 (ja) | 1988-09-21 | 1995-06-14 | 松下電器産業株式会社 | 移動体 |
| JPH03108997A (ja) | 1989-09-22 | 1991-05-09 | Temuko Japan:Kk | 骨伝導マイク |
| US5148488A (en) * | 1989-11-17 | 1992-09-15 | Nynex Corporation | Method and filter for enhancing a noisy speech signal |
| JPH03160851A (ja) | 1989-11-20 | 1991-07-10 | Fujitsu Ltd | 携帯電話機 |
| US5054079A (en) | 1990-01-25 | 1991-10-01 | Stanton Magnetics, Inc. | Bone conduction microphone with mounting means |
| US5404577A (en) | 1990-07-13 | 1995-04-04 | Cairns & Brother Inc. | Combination head-protective helmet & communications system |
| WO1993001664A1 (en) | 1991-07-08 | 1993-01-21 | Motorola, Inc. | Remote voice control system |
| US5295193A (en) | 1992-01-22 | 1994-03-15 | Hiroshi Ono | Device for picking up bone-conducted sound in external auditory meatus and communication device using the same |
| JPH05276587A (ja) | 1992-03-30 | 1993-10-22 | Retsutsu Corp:Kk | イヤーマイクロフォン |
| US5590241A (en) | 1993-04-30 | 1996-12-31 | Motorola Inc. | Speech processing system and method for enhancing a speech signal in a noisy environment |
| US5446789A (en) | 1993-11-10 | 1995-08-29 | International Business Machines Corporation | Electronic device having antenna for receiving soundwaves |
| ZA948426B (en) | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
| AU684872B2 (en) | 1994-03-10 | 1998-01-08 | Cable And Wireless Plc | Communication system |
| US5828768A (en) | 1994-05-11 | 1998-10-27 | Noise Cancellation Technologies, Inc. | Multimedia personal computer with active noise reduction and piezo speakers |
| US6471420B1 (en) * | 1994-05-13 | 2002-10-29 | Matsushita Electric Industrial Co., Ltd. | Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections |
| JP3082825B2 (ja) | 1994-08-29 | 2000-08-28 | 日本電信電話株式会社 | 通信装置 |
| EP0984661B1 (en) | 1994-05-18 | 2002-08-07 | Nippon Telegraph and Telephone Corporation | Transmitter-receiver having ear-piece type acoustic transducer part |
| US5727124A (en) * | 1994-06-21 | 1998-03-10 | Lucent Technologies, Inc. | Method of and apparatus for signal recognition that compensates for mismatching |
| JP3488749B2 (ja) | 1994-08-23 | 2004-01-19 | 株式会社ダッド・ジャパン | 骨伝導型マイクロホン |
| JP3306784B2 (ja) | 1994-09-05 | 2002-07-24 | 日本電信電話株式会社 | 骨導マイクロホン出力信号再生装置 |
| JPH08186654A (ja) | 1994-12-22 | 1996-07-16 | Internatl Business Mach Corp <Ibm> | 携帯端末装置 |
| US5692059A (en) | 1995-02-24 | 1997-11-25 | Kruger; Frederick M. | Two active element in-the-ear microphone system |
| US5555449A (en) | 1995-03-07 | 1996-09-10 | Ericsson Inc. | Extendible antenna and microphone for portable communication unit |
| KR960042590A (ko) | 1995-05-23 | 1996-12-21 | 김광호 | 테이프 재생용 음량기기에서의 발음비교방법 |
| US5647834A (en) | 1995-06-30 | 1997-07-15 | Ron; Samuel | Speech-based biofeedback method and system |
| CN1121684C (zh) * | 1995-09-14 | 2003-09-17 | 艾利森公司 | 用于选择性地改变一帧数字信号的方法和装置 |
| JPH09172479A (ja) | 1995-12-20 | 1997-06-30 | Yokoi Kikaku:Kk | 送受話器およびそれを用いた通話装置 |
| US6243596B1 (en) | 1996-04-10 | 2001-06-05 | Lextron Systems, Inc. | Method and apparatus for modifying and integrating a cellular phone with the capability to access and browse the internet |
| JP3097901B2 (ja) | 1996-06-28 | 2000-10-10 | 日本電信電話株式会社 | 通話装置 |
| JP3095214B2 (ja) | 1996-06-28 | 2000-10-03 | 日本電信電話株式会社 | 通話装置 |
| US5943627A (en) | 1996-09-12 | 1999-08-24 | Kim; Seong-Soo | Mobile cellular phone |
| JPH10261910A (ja) | 1997-01-16 | 1998-09-29 | Sony Corp | 携帯無線装置およびアンテナ装置 |
| JPH10224253A (ja) | 1997-02-10 | 1998-08-21 | Sony Corp | 携帯通信機 |
| US6308062B1 (en) | 1997-03-06 | 2001-10-23 | Ericsson Business Networks Ab | Wireless telephony system enabling access to PC based functionalities |
| JP3108997B2 (ja) | 1997-03-31 | 2000-11-13 | 武田薬品工業株式会社 | アゾール化合物、その製造法および用途 |
| FR2761800A1 (fr) | 1997-04-02 | 1998-10-09 | Scanera Sc | Dispositif de transmission de voix et telephone le mettant en oeuvre |
| US5983073A (en) | 1997-04-04 | 1999-11-09 | Ditzik; Richard J. | Modular notebook and PDA computer systems for personal computing and wireless communications |
| US6175633B1 (en) | 1997-04-09 | 2001-01-16 | Cavcom, Inc. | Radio communications apparatus with attenuating ear pieces for high noise environments |
| US5924065A (en) * | 1997-06-16 | 1999-07-13 | Digital Equipment Corporation | Environmently compensated speech processing |
| JPH1115191A (ja) * | 1997-06-20 | 1999-01-22 | Fuji Xerox Co Ltd | 静電荷像現像用トナー及びその製造方法 |
| WO1999004500A1 (de) | 1997-07-16 | 1999-01-28 | Siemens Aktiengesellschaft | Funktelefonhandgerät |
| JPH11249692A (ja) | 1998-02-27 | 1999-09-17 | Nec Saitama Ltd | 音声認識装置 |
| EP1586980B1 (en) | 1998-03-18 | 2007-07-04 | Nippon Telegraph and Telephone Corporation | Wearable communication device for inputting commands via detection of tapping shocks or vibration of fingertips |
| JPH11265199A (ja) | 1998-03-18 | 1999-09-28 | Nippon Telegr & Teleph Corp <Ntt> | 送話器 |
| JP2000009688A (ja) | 1998-04-22 | 2000-01-14 | Tokyo Gas Co Ltd | 一酸化炭素センサ |
| US6052464A (en) | 1998-05-29 | 2000-04-18 | Motorola, Inc. | Telephone set having a microphone for receiving or an earpiece for generating an acoustic signal via a keypad |
| US6137883A (en) | 1998-05-30 | 2000-10-24 | Motorola, Inc. | Telephone set having a microphone for receiving an acoustic signal via keypad |
| JP3160714B2 (ja) | 1998-07-08 | 2001-04-25 | 株式会社シコー技研 | 携帯無線通信機 |
| JP3893763B2 (ja) | 1998-08-17 | 2007-03-14 | 富士ゼロックス株式会社 | 音声検出装置 |
| WO2000021194A1 (en) | 1998-10-08 | 2000-04-13 | Resound Corporation | Dual-sensor voice transmission system |
| JP2000196723A (ja) | 1998-12-25 | 2000-07-14 | Koichi Tamura | 筒状アンテナ、マイク |
| JP2000209688A (ja) | 1999-01-19 | 2000-07-28 | Temuko Japan:Kk | 骨導マイク |
| US6760600B2 (en) | 1999-01-27 | 2004-07-06 | Gateway, Inc. | Portable communication apparatus |
| US6408269B1 (en) * | 1999-03-03 | 2002-06-18 | Industrial Technology Research Institute | Frame-based subband Kalman filtering method and apparatus for speech enhancement |
| JP2000261534A (ja) | 1999-03-10 | 2000-09-22 | Nippon Telegr & Teleph Corp <Ntt> | 送受話器 |
| JP2000261529A (ja) | 1999-03-10 | 2000-09-22 | Nippon Telegr & Teleph Corp <Ntt> | 通話装置 |
| JP2000261530A (ja) | 1999-03-10 | 2000-09-22 | Nippon Telegr & Teleph Corp <Ntt> | 通話装置 |
| DE19917169A1 (de) | 1999-04-16 | 2000-11-02 | Kamecke Keller Orla | Verfahren zur Speicherung und Wiedergabe von Audio-, Video- und Anwendungsprogrammdaten in Mobilfunkendgeräten |
| US6542721B2 (en) | 1999-10-11 | 2003-04-01 | Peter V. Boesen | Cellular telephone, personal digital assistant and pager unit |
| US6094492A (en) | 1999-05-10 | 2000-07-25 | Boesen; Peter V. | Bone conduction voice transmission apparatus and system |
| US6560468B1 (en) | 1999-05-10 | 2003-05-06 | Peter V. Boesen | Cellular telephone, personal digital assistant, and pager unit with capability of short range radio frequency transmissions |
| US20020057810A1 (en) | 1999-05-10 | 2002-05-16 | Boesen Peter V. | Computer and voice communication unit with handsfree device |
| US6952483B2 (en) | 1999-05-10 | 2005-10-04 | Genisus Systems, Inc. | Voice transmission apparatus with UWB |
| JP2000330597A (ja) * | 1999-05-20 | 2000-11-30 | Matsushita Electric Ind Co Ltd | 雑音抑圧装置 |
| JP2000354284A (ja) | 1999-06-10 | 2000-12-19 | Iwatsu Electric Co Ltd | 送受一体形電気音響変換器を用いる送受話装置 |
| US6594629B1 (en) | 1999-08-06 | 2003-07-15 | International Business Machines Corporation | Methods and apparatus for audio-visual speech detection and recognition |
| KR100304666B1 (ko) | 1999-08-28 | 2001-11-01 | 윤종용 | 음성 향상 방법 |
| JP2001119797A (ja) | 1999-10-15 | 2001-04-27 | Phone Or Ltd | 携帯電話装置 |
| US6339706B1 (en) | 1999-11-12 | 2002-01-15 | Telefonaktiebolaget L M Ericsson (Publ) | Wireless voice-activated remote control device |
| US6411933B1 (en) | 1999-11-22 | 2002-06-25 | International Business Machines Corporation | Methods and apparatus for correlating biometric attributes and biometric attribute production features |
| US6675027B1 (en) | 1999-11-22 | 2004-01-06 | Microsoft Corp | Personal mobile computing device having antenna microphone for improved speech recognition |
| JP3576915B2 (ja) | 2000-02-28 | 2004-10-13 | 株式会社ケンウッド | 携帯電話装置 |
| JP2001292489A (ja) | 2000-04-10 | 2001-10-19 | Kubota Corp | 骨伝導マイク付きヘッドホン |
| GB2363557A (en) * | 2000-06-16 | 2001-12-19 | At & T Lab Cambridge Ltd | Method of extracting a signal from a contaminated signal |
| JP3339579B2 (ja) | 2000-10-04 | 2002-10-28 | 株式会社鷹山 | 電話装置 |
| JP2002125298A (ja) | 2000-10-13 | 2002-04-26 | Yamaha Corp | マイク装置およびイヤホンマイク装置 |
| US20020075306A1 (en) | 2000-12-18 | 2002-06-20 | Christopher Thompson | Method and system for initiating communications with dispersed team members from within a virtual team environment using personal identifiers |
| US7617099B2 (en) | 2001-02-12 | 2009-11-10 | FortMedia Inc. | Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile |
| US7082393B2 (en) | 2001-03-27 | 2006-07-25 | Rast Associates, Llc | Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech |
| GB2375276B (en) | 2001-05-03 | 2003-05-28 | Motorola Inc | Method and system of sound processing |
| WO2002098169A1 (en) | 2001-05-30 | 2002-12-05 | Aliphcom | Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors |
| JP2002358089A (ja) | 2001-06-01 | 2002-12-13 | Denso Corp | 音声処理装置及び音声処理方法 |
| US6987986B2 (en) | 2001-06-21 | 2006-01-17 | Boesen Peter V | Cellular telephone, personal digital assistant with dual lines for simultaneous uses |
| US7054423B2 (en) | 2001-09-24 | 2006-05-30 | Nebiker Robert M | Multi-media communication downloading |
| JP3532544B2 (ja) | 2001-10-30 | 2004-05-31 | 株式会社テムコジャパン | 面体又は帽体のストラップ装着用送受話装置 |
| US6664713B2 (en) | 2001-12-04 | 2003-12-16 | Peter V. Boesen | Single chip device for voice communications |
| US20050141730A1 (en) | 2001-12-21 | 2005-06-30 | Rti Tech Pte Ltd. | Vibration-based talk-through method and apparatus |
| US7219062B2 (en) | 2002-01-30 | 2007-05-15 | Koninklijke Philips Electronics N.V. | Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system |
| US9374451B2 (en) | 2002-02-04 | 2016-06-21 | Nokia Technologies Oy | System and method for multimodal short-cuts to digital services |
| GB2421668B (en) | 2002-06-24 | 2007-01-03 | Samsung Electronics Co Ltd | Usage position detection |
| US7103541B2 (en) | 2002-06-27 | 2006-09-05 | Microsoft Corporation | Microphone array signal enhancement using mixture models |
| US7146315B2 (en) * | 2002-08-30 | 2006-12-05 | Siemens Corporate Research, Inc. | Multichannel voice detection in adverse environments |
| US7047047B2 (en) | 2002-09-06 | 2006-05-16 | Microsoft Corporation | Non-linear observation model for removing noise from corrupted signals |
| US7225124B2 (en) | 2002-12-10 | 2007-05-29 | International Business Machines Corporation | Methods and apparatus for multiple source signal separation |
| US7269560B2 (en) * | 2003-06-27 | 2007-09-11 | Microsoft Corporation | Speech detection and enhancement using audio/video fusion |
| US20060008256A1 (en) | 2003-10-01 | 2006-01-12 | Khedouri Robert K | Audio visual player apparatus and system and method of content distribution using the same |
| US7447630B2 (en) * | 2003-11-26 | 2008-11-04 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
| US7499686B2 (en) | 2004-02-24 | 2009-03-03 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
| EP1600947A3 (en) * | 2004-05-26 | 2005-12-21 | Honda Research Institute Europe GmbH | Subtractive cancellation of harmonic noise |
| US8095073B2 (en) | 2004-06-22 | 2012-01-10 | Sony Ericsson Mobile Communications Ab | Method and apparatus for improved mobile station and hearing aid compatibility |
| US7574008B2 (en) | 2004-09-17 | 2009-08-11 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
| US7283850B2 (en) | 2004-10-12 | 2007-10-16 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
| US7590529B2 (en) | 2005-02-04 | 2009-09-15 | Microsoft Corporation | Method and apparatus for reducing noise corruption from an alternative sensor signal during multi-sensory speech enhancement |
-
2005
- 2005-06-28 US US11/168,770 patent/US7680656B2/en not_active Expired - Fee Related
-
2006
- 2006-06-13 JP JP2008519337A patent/JP5000647B2/ja not_active Expired - Fee Related
- 2006-06-13 DE DE602006021741T patent/DE602006021741D1/de active Active
- 2006-06-13 WO PCT/US2006/022863 patent/WO2007001821A2/en not_active Ceased
- 2006-06-13 CN CN2006800226393A patent/CN101606191B/zh not_active Expired - Fee Related
- 2006-06-13 BR BRPI0612668-5A patent/BRPI0612668A2/pt not_active IP Right Cessation
- 2006-06-13 EP EP06772956A patent/EP1891624B1/en not_active Not-in-force
- 2006-06-13 MX MX2007015446A patent/MX2007015446A/es not_active Application Discontinuation
- 2006-06-13 RU RU2007149546/09A patent/RU2420813C2/ru not_active IP Right Cessation
- 2006-06-13 AT AT06772956T patent/ATE508454T1/de not_active IP Right Cessation
- 2006-06-13 KR KR1020077029014A patent/KR101224755B1/ko not_active Expired - Fee Related
-
2012
- 2012-04-13 JP JP2012092031A patent/JP5452655B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| RU2420813C2 (ru) | 2011-06-10 |
| EP1891624B1 (en) | 2011-05-04 |
| KR20080019222A (ko) | 2008-03-03 |
| ATE508454T1 (de) | 2011-05-15 |
| DE602006021741D1 (de) | 2011-06-16 |
| JP2009501940A (ja) | 2009-01-22 |
| KR101224755B1 (ko) | 2013-01-21 |
| US20060293887A1 (en) | 2006-12-28 |
| CN101606191A (zh) | 2009-12-16 |
| WO2007001821A3 (en) | 2009-04-30 |
| WO2007001821A2 (en) | 2007-01-04 |
| CN101606191B (zh) | 2012-03-21 |
| EP1891624A2 (en) | 2008-02-27 |
| JP5452655B2 (ja) | 2014-03-26 |
| BRPI0612668A2 (pt) | 2010-11-30 |
| JP2012155339A (ja) | 2012-08-16 |
| EP1891624A4 (en) | 2009-11-04 |
| RU2007149546A (ru) | 2009-07-10 |
| JP5000647B2 (ja) | 2012-08-15 |
| US7680656B2 (en) | 2010-03-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5452655B2 (ja) | 音声状態モデルを使用したマルチセンサ音声高品質化 | |
| RU2373584C2 (ru) | Способ и устройство для повышения разборчивости речи с использованием нескольких датчиков | |
| US7698133B2 (en) | Noise reduction device | |
| JP4842583B2 (ja) | 多感覚音声強調のための方法および装置 | |
| KR101201146B1 (ko) | 최적의 추정을 위한 중요한 양으로서 순간적인 신호 대 잡음비를 사용하는 잡음 감소 방법 | |
| US7117148B2 (en) | Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization | |
| US11488617B2 (en) | Method and apparatus for sound processing | |
| EP0807305A1 (en) | Spectral subtraction noise suppression method | |
| JP2005084253A (ja) | 音響処理装置、方法、プログラム及び記憶媒体 | |
| JPH1115491A (ja) | 環境的に補償されたスピーチ処理方法 | |
| JP2017506767A (ja) | 話者辞書に基づく発話モデル化のためのシステムおよび方法 | |
| US20110246193A1 (en) | Signal separation method, and communication system speech recognition system using the signal separation method | |
| GB2560174A (en) | A feature extraction system, an automatic speech recognition system, a feature extraction method, an automatic speech recognition method and a method of train | |
| US7346504B2 (en) | Multi-sensory speech enhancement using a clean speech prior | |
| US7406303B2 (en) | Multi-sensory speech enhancement using synthesized sensor signal | |
| CN111326166A (zh) | 语音处理方法及装置、计算机可读存储介质、电子设备 | |
| US7930178B2 (en) | Speech modeling and enhancement based on magnitude-normalized spectra | |
| Joshi | Reverberant speech enhancement using linear prediction residual signal | |
| GB2577997A (en) | A feature extraction system, an automatic speech recognition system, a feature extraction method, an automatic speech recognition method and a method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FA | Abandonment or withdrawal |