MXPA04007313A

MXPA04007313A - Sistema de entrada de audio multi-sensorial montado en la cabeza.

Info

Publication number: MXPA04007313A
Application number: MXPA04007313A
Authority: MX
Inventors: Acero Alejandro
Original assignee: Microsoft Corp
Priority date: 2003-07-29
Filing date: 2004-07-28
Publication date: 2005-07-26
Also published as: MY138807A; CN100573664C; TWI383377B; KR101098601B1; HK1073010A1; CN1591568A; KR20050013969A; CA2473195C; TW200519834A; DE602004027687D1; CA2473195A1; RU2363994C2; EP1503368B1; AU2004203357A1; JP4703142B2; ATE471554T1; JP2005049876A; BRPI0403027A; AU2004203357B2; EP1503368A1

Abstract

La presente invencion combina con microfono convencional de audio con un sensor de habla, el cual proporcionar una senal sensora de habla con base en una entrada. La senal sensora de habla se genera con base en una accion tomada por el hablante durante el habla, como un movimiento facial, vibracion de huesos, vibracion de garganta, cambios en la impedancia de la garganta, etc. Un componente detector de habla recibe la senal de deteccion de habla indicativa de si el usuario esta hablando. El detector de habla genera la senal de deteccion de habla con base en la senal de microfono y la senal sensora de habla.

Description

SISTEMA DE ENTRADA DE AUDIO MULTI-SENSORIAL MONTADO EN LA CABEZA CAMPO DE LA INVENCIÓN La presente invención se relaciona con un sistema de entrada de audio. Más específicamente, la presente invención se relaciona con un procesamiento de habla en un sistema de entrada transductor multisensorial.

ANTECEDENTES DE LA INVENCIÓN En muchas aplicaciones diferentes de reconocimiento de habla, es muy importante y puede ser un punto crítico, tener una entrada de audio consistente y clara, que representa el habla a ser reconocida provista por el sistema de reconocimiento automático de habla. Las dos categorías de ruido que tienden a distorsionar la entrada de audio del sistema de reconocimiento de habla son el ruido ambiental y el ruido generado por el ruido ambiental. Se han hecho grandes esfuerzos para desarrollar técnicas de cancelación de ruido con el fin de cancelar el ruido ambiental de la entrada de audio. Algunas técnicas se encuentran disponibles a la venta en un software de procesamiento de audio o integradas en micrófonos digitales, como micrófonos de barra colectora universal en serie (USB). Al tratar con el ruido relacionado con el ruido ambiental es muy problemático. Esto puede dar como resultado una variedad de diferentes ambientes ruidosos. Por ejemplo, cuando el interlocutor habla delante de un grupo de personas, el micrófono convencional con frecuencia recoge el habla del grupo de personas, en lugar del habla del interlocutor. Básicamente, en un ambiente en donde otras personas están hablando, la señal de audio generada por el interlocutor se puede ver comprometida. Una solución anterior para tratar con el ruido ambiental es proporcionar un interruptor de apagado/encendido en el cordón de una diadema o de un equipo manual. El interruptor apagado/encendido ha sido llamado como botón "oprimir para hablar" y se requiere que el usuario oprima el botón antes de hablar. Cuando el usuario oprime el botón, genera una señal de botón. La señal de botón indica que el sistema de reconocimiento de habla que el interlocutor está hablando o está a punto de hablar. Sin embargo, algunos estudios de utilidad han mostrado que este tipo de sistema no es satisfactorio o no es deseado por los usuarios. Además, se han tomado medidas para intentar separar el ruido ambiental recogido por el micrófono del interlocutor (o el interlocutor principal). Esto ha funcionado bien en ambientes de oficina, pero han demostrado ser poco eficientes en ambientes altamente ruidosos. También, en otra técnica una señal desde el micrófono estándar se combina con una señal desde un micrófono de garganta. El micrófono de garganta registra el comportamiento laríngeo en forma indirecta al medir el cambio en la impedancia eléctrica a través de la garganta durante el habla. La señal generada por el micrófono de garganta se combina con el micrófono convencional y se generan modelos que modelaron el contenido espectral de las señales combinadas. Un algoritmo se utiliza para copiar las características de señal de micrófono de garganta y las características normales combinadas para limpiar la característica normal del micrófono. Esto se utiliza con un filtrado probabilístico óptimo. Sin embargo, mientras que el micrófono de garganta es un tanto inmune al ruido ambiental, el contenido espectral de la señal del micrófono de garganta está un tanto limitado. Por lo tanto, al utilizarlo para limpiar el vector de característica calculado no era muy exacto. Esta técnica se describe con más detalle en Fracko et al., COMBINING HETEROGENEOUS SENSORS WITH STANDARD MICROPHONES FOR NOISY ROBUST RECOGNITION, Presentación en el DARPA ROAR Workshop, Orlando, Fl. Además el desgaste del micrófono es otra inconveniencia para el usuario.

BREVE DESCRIPCIÓN DE LA INVENCIÓN La presente invención combina un micrófono convencional de audio con un sensor de habla adicional que proporciona una señal sensora de habla con base en una entrada adicional. La señal sensora de habla se genera con base en una acción llevada a cabo por el interlocutor durante el habla, tal como un movimiento facial, vibración de huesos, vibración de garganta, cambios en la impedancia de la garganta, etc. Un componente detector de habla recibe una entrada del sensor de habla y emite una señal de detección de habla indicativa de si el usuario está hablando. El detector de habla genera la señal de detección de habla con base en la señal de micrófono y la señal sensora de habla. En una modalidad, la señal de detección de habla es provista a un motor de reconocimiento de habla. El motor de reconocimiento de habla proporciona una salida de reconocimiento indicativa del habla representada por la señal del micrófono desde el micrófono de audio con base en la señal de micrófono y la señal de detección de habla del sensor adicional de habla. La presente invención también se puede incorporar como un método de detección de habla. El método incluye generar una primera señal indicativa de una entrada de audio con un micrófono de audio, generar una segunda señal indicativa de un movimiento facial del usuario, detectada por un sensor de movimientos faciales, y detectar si el usuario está hablando con base en la primera y segunda señales. En una modalidad, la segunda señal comprende un cambio en la vibración o impedancia en el cuello del usuario, o una vibración en el cráneo o mandíbula del usuario. En otra modalidad, la segunda señal comprende una imagen indicativa del movimiento de la boca del usuario. En otra modalidad, un sensor de temperatura como un termistor se coloca en la corriente de respiración, como en la pluma cerca del micrófono, y detecta el habla como un cambio en la temperatura.

BREVE DESCRIPCIÓN DE LOS DIBUJOS La Figura 1 es un diagrama en bloque de un ambiente en donde se puede utilizar la presente invención. La Figura 2 es un diagrama en bloque de un sistema de reconocimiento de habla con el cual se puede utilizar la presente invención. La Figura 3 es un diagrama en bloque de un sistema de detección de habla de conformidad con una modalidad de la presente invención. Las Figuras 4 y 5 ilustran dos diferentes modalidades de una porción del sistema mostrado en la Figura 3. La Figura 6 es un esquema de una magnitud de señal contra el tiempo para una señal de micrófono y una señal de sensor infrarrojo. La Figura 7 ilustra un diagrama esquemático de una modalidad de un micrófono convencional y un sensor de habla. La Figura 8 muestra una ilustración esquemática de un micrófono sensor de hueso (central) junto con un micrófono de audio convencional. La Figura 9 es un esquema de una magnitud de señal contra el tiempo para una señal de micrófono y una señal de micrófono de audio, respectivamente. La Figura 10 muestra una ilustración esquemática de un micrófono de garganta con un micrófono de audio convencional.

La Figura 11 muestra una ilustración esquemática de un micrófono de oreja junto con un micrófono de cancelación de ruido.

DESCRIPCIÓN DETALLADA DE LA INVENCIÓN La presente invención se relaciona con la detección de habla.

Más específicamente, la presente invención se relaciona con la captura de una entrada transductora multi-sensorial y generar una señal de salida indicativa de si el usuario está hablando, con base en la entrada multi-sensorial captada. Sin embargo, antes de describir la presente invención con más detalle, se describirá una modalidad ilustrativa del ambiente en donde se puede utilizar la presente invención. La Figura 1 ilustra un ejemplo de un ambiente 100 de un sistema de computación adecuado en donde se puede implementar la invención El ambiente 100 del sistema de computación es solamente un ejemplo de un sistema de computación y no tiene la intención de sugerir ninguna limitación al alcance de uso o funcionalidad de la invención. Tampoco, el ambiente 100 computación se debe interpretar como dependiente o con la necesidad de un requerimiento relacionado con cualquiera o una combinación de sus componentes ilustrados en el ambiente 100 operativo ejemplif ¡cativo. La invención opera con varios ambientes o configuraciones del sistema de computación de propósitos generales o de propósitos especiales. Los ejemplos de los sistemas de computación bien conocidos y/o configuraciones de computación y que pueden ser apropiados para usarse con la invención incluyen sin limitar computadoras personales, computadoras de servidor, dispositivos portátiles, sistemas multiprocesadores, sistemas con base de multiprocesadores, transcodif icadores (cajas sobrepuestas), electrónicos consumibles programables, PC en red, minicomputadoras, computadoras principales, ambiente de computación distribuida que incluyen cualquiera de los sistemas anteriores o dispositivos o sus semejantes. La invención se puede describir en el contexto general de instrucciones ejecutables por computadora, como módulos de programa, ejecutados por la computadora. En general, los módulos de programa incluyen pero no están limitados a rutinas, programas, objetos, componentes, y estructuras de datos que llevan a cabo tareas particulares o implementan tipos de datos abstractos. La invención también se puede practicar en ambientes de computación distribuida en donde las tareas se llevan a cabo por dispositivos de procesamiento remotos que están enlazados a través de una red de comunicaciones. En un ambiente de computación distribuida, los módulos de programa se pueden ubicar en un medio de almacenamiento de computación local o remoto, incluyendo dispositivos de almacenamiento de memoria. Con referencia a la Figura 1, un sistema ejemplificativo para implementar la invención incluye un dispositivo de computación del propósitos generales en forma de una computadora 110. Los componentes de la computadora 110 pueden incluir pero no se limitan a una unidad 120 de procesamiento, una memoria 130 del sistema y una barra colectora 121 del sistema que acopla los diferentes componentes del sistema incluyendo a la memoria del sistema con la unidad 120 de procesamiento. La barra colectora 121 del sistema puede ser de cualquier tipo de estructuras de barra colectora incluyendo una barra colectora de memoria o un controlador de memoria, una barra colectora periférica, y una barra colectora local que utiliza una variedad de arquitecturas de barra colectora. A manera de ejemplo, sin limitar, tales arquitecturas incluyen la barra colectora de Arquitectura de Norma Industrial (ISA), barra colectora de Arquitectura de Micro Canal (MCA), barra colectora de ISA Mejorada (EISA), barra colectora local de la Asociación de Normas electrónicas de Video (VESA), y barra colectora de Interconexión de Componentes Periféricos (PCI), también conocida como barra colectora Mezzanine. La computadora 110 típicamente incluye una variedad de medios legibles por computadora. El medio legible por computadora puede ser cualquier medio disponible que pueda tener acceso por medio de la computadora 110 e incluye medios volátiles y no volátiles, medios retirables y no retirables. A manera de ejemplo, sin limitar el medio legible por computadora puede comprender un medio de almacenamiento de computadora y un medio de comunicación. El medio de almacenamiento de la computadora incluye medios volátiles y no volátiles, medios retirables y no retirables i m plementados por cualquier método o tecnología para el almacenamiento de información como instrucciones legibles por computadora, estructuras de datos, módulos de programa y otros datos. El medio de almacenamiento de la computadora incluye, pero no se limita a RAM, ROM, EEPROM, memoria flash u otra tecnología de memorias, CD-ROM, discos versátiles digitales (DVD) u otro almacenamiento de disco óptico, cartuchos magnéticos, cintas magnéticas, almacenamiento de disco magnético, otros dispositivos de almacenamiento magnético, o cualquier otro medio que se pueda utilizar para almacenar la información deseada y que pueda tener acceso mediante la computadora 110. Los medios de comunicación típicamente incorporan instrucciones legibles por computadora, estructuras de datos, módulos de programa y otros datos en una señal de datos modulada como una onda portadora u otro mecanismo de transporte e incluye un medio de entrega de información. El término " señal de datos modulada" significa una señal que tiene una o más de sus características ajustadas o cambiadas de tal forma que pueda codificar la información de la señal. A manera de ejemplo, no limitante, el medio de comunicación incluye medios cableados como una red cableada o una conexión directa, y medios inalámbricos como un medio inalámbrico acústico, RF, infrarrojo, u otro medio inalámbrico. Las combinaciones de cualesquiera de los anteriores también debe estar incluida dentro del alcance de los medios legibles por computadora. La memoria 130 del sistema incluye un medio de almacenamiento de la computadora en forma de una memoria volátil o no volátil como una memoria de solamente lectura (ROM) 131, y una memoria de acceso aleatorio (RAM) 132. Un sistema de entrada/salida básico 133 (BIOS) que contiene las rutinas básicas que ayudan a la transferencia de información entre los elementos dentro de una computadora 110, como durante el inicio, se almacena en una ROM 131. La RAM 132 típicamente contiene datos y/o módulos de programa que tienen acceso inmediato y/o que se operan en la unidad 120 de procesamiento. A manera de ejemplo, sin limitar, la Figura 1 ilustra un sistema 134 operativo, los programas 135 de aplicación, otros módulos 136 de programa y datos 137 de programa. La computadora 110 también puede incluir otros medios de almacenamiento de computadora retirables/no retirables, volátiles/no volátiles. Solamente como ejemplo, la Figura 1 ilustra una unidad 141 de disco duro que lee y escribe sobre un medio magnético no-retirable, no-volátil, una unidad 151 de disco magnético que lee o escribe en un disco 152 retirable, no volátil, y una unidad 155 de disco óptico que lee y escribe en un disco 156 óptico retirable, no volátil, como un CDROOM u otro medio óptico. Otros medios de almacenamiento de computadora retirables/no retirables, volátiles/no volátiles que se pueden utilizar en el ambiente operativo ejemplificativo incluyen, pero no se limitan a, cartuchos de cinta magnética, tarjetas de memoria flash, discos versátiles digitales, cintas de video digital, RAM de estado sólido, ROM de estado sólido y sus semejantes. La unidad 141 de disco duro típicamente se conecta con la barra colectora 121 del sistema a través de una interfaz de memoria no retirable como la interfaz 140, y la unidad 151 de disco magnético y la unidad 155 de disco óptico se conectan típicamente, con la barra colectora 121 del sistema mediante una interfaz de memoria retirable, como la interfaz 150. Las unidades y sus medios de almacenamiento de computadora asociados, antes descritos e ilustrados en la Figura 1, proporcionan el almacenamiento de las instrucciones legibles por computadora, estructuras de datos, módulos de programa y otros datos para la computadora 110. En la Figura 1, por ejemplo, la unidad 141 de disco duro se ilustra almacenando al sistema 144 operativo, a los programas 145 de aplicación, otros módulos 146 de programa y los datos 147 del programa. Se debe observar que estos componentes pueden ser los mismos o diferentes al sistema 134 operativo, las aplicaciones 135 de programa, otros módulos 136 de programa, y datos 137 de programa. El sistema 144 operativo, los programas 145 de aplicación, otros módulos 146 de programa y los datos 147 de programa tienen diferentes números de referencia con el fin de ilustran son diferentes copias, como mínimo. Un usuario puede introducir instrucciones e información dentro de la computadora 110 a través de los dispositivos de entrada como un teclado 162, un micrófono 163, un dispositivo 161 puntero, comúnmente llamado mouse, una bola seguidora o una pantalla de tacto. Otros dispositivos de entrada (no mostrados) pueden incluir una palanca de comandos, un cojín de juegos, un disco satelital, un escáner o su semejante. Estos y otros dispositivos de entrada con frecuencia se conectan con la unidad 120 de procesamiento a través de una interfaz 160 de entrada del usuario que se acopla con la barra colectora del sistema, pero se puede conectar con otra interfaz y estructuras de barra colectora, como un puerto paralelo, un puerto de juegos o una barra colectora en serie universal (USB). Un monitor 191 u otro tipo de dispositivo de despliegue también se conecta con la barra colectora 121 del sistema a través de una interfaz, como una interfaz 190 de video. Además del monitor, las computadoras también pueden incluir otros dispositivos periféricos de salida como bocinas 197 e impresoras 196, que estarán conectadas a través de una interfaz 195 periférica de salida. La computadora 110 puede operar en un ambiente de redes con el uso de conexiones lógicas a una o más computadoras remotas, como una computadora 180 remota. La computadora 180 remota puede ser una computadora personal, un servidor, un enrutador, una PC en red, un dispositivo adjunto o un nodo común de red, e típicamente incluye muchos o todos los elementos descritos antes con relación a la computadora 110. Las conexiones lógicas ilustradas en la Figura 1 incluyen una red de área local (LAN) 171, y una red de área amplia (WAN) 173, pero también pueden incluir otras redes. Tales ambientes de redes son comunes en oficinas, redes de computación a nivel mundial, intranets y la Internet. Cuando se utiliza en una ambiente de red LAN, la computadora 110 se conecta con la LAN 171 a través de una interfaz o adaptador 170 de red. Cuando se utiliza en un ambiente de red WAN, la computadora 110 típicamente incluye un módem 172 u otro medio para establecer las comunicaciones sobre la WAN 173, como la Internet. El módem 172 que puede ser interno o externo, puede conectarse con la barra colectora 121 del sistema a través de una interfaz 160 de entrada del usuario, u otro mecanismo adecuado. En un ambiente de red, los módulos de programa ilustrados con relación a la computadora 110, o porciones de la misma se pueden almacenar en el dispositivo de almacenamiento de memoria remota. A manera de ejemplo y sin limitar, la Figura 1 ilustra programas 185 de aplicación remota residiendo en una computadora 180 remota. Se debe apreciar que las conexiones de red mostradas son ejemplificativas y se pueden utilizar otros medios para establecer un enlace de comunicaciones entre las computadoras. Se debe notar que la presente invención se puede llevar a cabo en un sistema de computadora como el descrito con respecto a la Figura 1. Sin embargo, la presente invención se puede llevar a cabo en un servidor, una computadora dedicada al manejo de mensajes, o en un sistema distribuido en donde se llevan a cabo las diferentes porciones en diferentes partes del sistema de computación distribuida. La Figura 2 ilustra un diagrama en bloque de un sistema de reconocimiento de habla ejemplificativo con el cual se puede utilizar la presente invención. En la Figura 2, un interlocutor 400 habla en el micrófono 404. Las señales de audio detectadas por el micrófono 404 se convierten en señales eléctricas que son provistas a un convertidor 406 análogo a digital (A a D). El convertidor 406 A-D convierta la señal análoga del micrófono 404 en una serie de valores digitales. En varias modalidades, el convertidor 406 A-D muestrea la señal análoga a 16 KHz y 16 bits por muestra, lo cual crea 32 kilobytes de datos de habla por segundo. Estos valores digitales son provistos a un constructor 407 de cuadros, que en una modalidad, agrupa los valores en cuadros de 25 milisegundos separados por 10 milisegundos Los cuadros de datos creados por el constructor 407 de cuadros son provistos a un extractor de característica 408, el cual extrae una característica de cada cuadro. Los ejemplos de los módulos de extracción de característica incluyen módulos para lleva a cabo una Codificación Pronosticada Lineal (LPC), cepstro derivado de LPC, Predicción Lineal Perceptiva (PLP), extracción de característica de modelo de auditorio, y extracción de característica de Coeficientes de cepstro de frecuencia Mel (MFCC). Se debe observar que la invención no está limitada a estos módulos de extracción de característica y que se pueden utilizar otros módulos dentro del contexto de la presente invención. El módulo de extracción de característica 408 produce una corriente de vectores de característica que están asociados con un cuadro de la señal de habla. Esta corriente de vectores de característica es provista a un decodificador 412, que identifica la secuencia más probable de palabras con base en la corriente de vectores de característica, un léxico 414, un modelo 416 de lenguaje, (por ejemplo, con base en N-grama, gramáticas libres de contexto, o híbridos de los mismos) y el modelo 416 acústico. El método particular utilizado para decodificar no es importante para la presente invención. Sin embargo, los aspectos de la presente invención incluyen modificaciones en el modelo 418 acústico y el uso del mismo. La secuencia más probable de palabras hipotéticas se puede proporcionar a un módulo 420 de medición de confidencia opcional. El módulo 420 de medición de confidencia identifica las palabras más probables para no haber sido identificadas correctamente por el reconocedor de habla. Esto puede estar con base, en parte, en un modelo acústico secundario (no mostrado). El módulo 420 de medición de confidencia entonces proporciona la secuencia de palabras hipotéticas a un módulo 422 de salida junto con los identif icadores para indicar las palabras que no fueron bien identificadas. Las personas experimentadas en la técnica podrán reconocer que el módulo 420 de medición de confidencia no es necesario para la práctica de la presente invención. Durante el entrenamiento, una señal de habla correspondiente a un texto 426 de entrenamiento se introduce dentro del decodificador 412, junto con una trascripción léxica del texto 426 de entrenamiento. El entrenador 424 entrena al modelo 418 acústico con base en las entradas de entrenamiento.

La Figura 3 ilustra un sistema 300 de detección de habla de conformidad con una modalidad de la presente invención. El sistema 300 de detección de habla incluye un sensor o transductor 301 de habla, un micrófono 303 de audio convencional, un componente 302 de captura de señal multisensorial, y un procesador 304 de señal multisensorial. El componente 302 de captura captura las señales desde el micrófono 303 en forma de una señal de audio. El componente 302 también captura una señal de entrada del transductor 301 de habla, la cual es indicativa de si el usuario está hablando. La señal generada del transductor se puede generar de una gran variedad de transductores. Por ejemplo, en una modalidad, el transductor es un sensor infrarrojo que generalmente está dirigido a la cara del usuario, en particular a la región de la boca, y genera una señal indicativa de un cambio en el movimiento facial del usuario que corresponde al habla. En otra modalidad, el sensor incluye una pluralidad de emisores infrarrojos y sensores dirigidos hacia diferentes porciones de la cara del usuario. En otras modalidades, el sensor o sensores 301 de habla pueden incluir un micrófono de garganta que mide la impedancia a través de la garganta del usuario o la vibración de garganta. En otras modalidades, el sensor es un micrófono sensor de vibración del hueso que está ubicado adyacente al hueso facial o craneal del usuario (como en su mandíbula) y detecta las vibraciones que corresponden al habla generada por el usuario. Este tipo de sensor también se puede colocar en contacto con la garganta o adyacente a la misma o dentro de la oreja del usuario. En otra modalidad, un sensor de temperatura como un termistor se coloca en el tracto respiratorio como en el mismo soporte que sostiene el micrófono normal. Conforme el usuario habla, las exhalaciones provocan un cambio en la temperatura en el sensor y por lo tanto se detecta el habla. Esto se puede mejorar al pasar una pequeña corriente de estado estable a través del termistor, calentándola un poco sobre la temperatura ambiental. La corriente respiratoria tenderá a enfriar el termistor que se puede detectar por un cambio en el voltaje a través del termistor. En cualquier caso, el transductor 301 es altamente insensible al habla ambiental pero indica bien si el usuario está hablando. En una modalidad, el componente 302 captura las señales de los transductores 301 y el micrófono 303 y las convierte en forma digital, como una series de tiempo sincronizado de muestras de señal. El componente 302 entonces proporciona una o más salidas al procesador 304 de señal multisensorial. El procesador 304 procesa las señales de entrada capturadas por el componente 302 y proporciona, como su salida, la señal 306 de detección de habla, la cual es indicativa de si el usuario está hablando. El procesador 304 también puede emitir señales 308 adicionales, como una señal de salida de audio o como señales de detección de habla que indican la probabilidad de que el usuario está hablando con base en las señales de una variedad de diferentes transductores. Otras salidas 308 variarán con base en la tarea a ser llevada a cabo. Sin embargo, en una modalidad, las salidas 308 incluyen una señal de audio mejorada que se utiliza en el sistema de reconocimiento de habla. La Figura 4 ilustra una modalidad de un procesador 304 de señal multisensorial con mayor detalle. En la modalidad mostrada en la Figura 4, el procesador 304 será descrito con referencia a la entrada del transductor del transductor 301 como una señal infrarroja generada por un sensor infrarrojo ubicado cerca de la cara del usuario. Por supuesto, se debe observar que la descripción de la Figura 4, al igual que la señal del transductor puede provenir de un sensor de garganta, un sensor de vibración, etc. En cualquier caso, la Figura 4 muestra que el procesador 304 incluye un detector 310 de habla con base en infrarrojos, un detector 312 de habla con base en el audio y un componente 314 de detección de habla combinado. El detector 310 de habla con base en IR recibe la señal IR emitida por un emisor IR y se refleja fuera del interlocutor y detecta si el usuario está hablando con base en la señal IR. El detector 312 de habla con base en audio recibe la señal de audio y detecta si el usuario está hablando con base en la señal de audio. La salida de los detectores 310 y 312 son provistas a un componente 314 de detección de habla combinado. El componente 314 recibe las señales y hace un cálculo total de si el usuario está hablando con base en las dos señales de entrada. La salida del componente 314 comprende la señal 306 de detección de habla. En una modalidad, la señal 306 de detección de habla es provista a un componente 316 de remoción de habla ambiental. La señal 306 de detección de habla se utiliza para indicar cuando en la señal de audio, el usuario está realmente hablando. Más específicamente, los dos detectores 310 y 312 independientes, en una modalidad, cada uno genera una descripción probabilística de que el usuario está hablando. En una modalidad, la salida del detector 310 de habla con base en IR es una probabilidad de que el usuario está hablando, con base en la señal de entrada IR. De manera similar, la señal de salida del detector 312 de habla con base en audio es una probabilidad de que el usuario está hablando con base en la señal de entrada de audio. Estas dos señales se consideran en el componente 314 para hacer, en un ejemplo, una decisión binaria de si el usuario está hablando. La señal 306 se puede utilizar para procesar la señal de audio en el componente 316 para remover el habla ambiental. En una modalidad, la señal 306 simplemente se utiliza para proporcionar la señal de habla con el motor de reconocimiento de habla a través del componente 316 cuando la señal 306 de detección de habla indica que el usuario está hablando. Cuando la señal 306 de detección de habla indica que el usuario no está hablando, entonces la señal de habla no es provista a través del componente 316 al motor de reconocimiento de habla. En otra modalidad, el componente 314 proporciona una señal 306 de detección de habla como una medición de probabilidad indicativa de la probabilidad de que el usuario está hablando. En esta modalidad, la señal de audio se multiplica en el componente 316 por la probabilidad incorporada en la señal 306 de detección de habla. Por lo tanto, cuando la probabilidad de que el usuario está hablando es muy alta, la señal de habla provista al motor de reconocimiento de habla a través del componente 316 tiene una magnitud muy alta. Sin embargo, cuando la probabilidad de que el usuario está hablando es muy baja, la señal de habla provista al montaje de reconocimiento de habla a través del componente 316 tiene una magnitud muy baja. Por supuesto, en otra modalidad, la señal 306 de detección de habla simplemente se puede proporcionar directamente al motor de reconocimiento de habla, que por si mismo, puede determinar si el usuario está hablando o la forma para procesar la señal de habla con base en esa determinación. La Figura 5 ilustra otra modalidad del procesador 304 multisensorial con más detalle. En lugar de contar con múltiples detectores para detectar si el usuario está hablando, la modalidad mostrada en la Figura 5 ilustra que el procesador 304 está formado de un solo detector 320 de habla fusionada. El detector 320 recibe tanto la señal IR como la señal de audio y hace una determinación, con base en ambas señales, si el usuario está hablando. En esta modalidad, las características primero se extraen en forma independiente de las señales de audio e infrarrojas. Con base en las características recibidas, el detector 320 detecta si el usuario está hablando y emite la señal 306 de detección de señal, de acuerdo con la misma.

Sin considerar el tipo de sistema utilizado (el sistema mostrado en la Figura 4 o el mostrado en la Figura 5), los detectores de habla se pueden generar y entrenar con el uso de datos de entrenamiento en donde se proporciona una señal de audio muy ruidosa, junto con la señal IR y también junto con una indicación manual (como una señal de oprimir para hablar) que indica específicamente si el usuario está hablando. Para describir mejor lo anterior, la Figura 6 muestra un esquema de una señal de audio 400 y una señal 402 infrarroja, en términos de magnitud contra tiempo. La Figura 6 también muestra una señal 404 de detección débala que indica cuando el usuario está hablando. Cuando en un estado lógico, la señal 404 es indicativa de una decisión por el detector de habla de que el usuario está hablando. Cuando en un estado lógico bajo, la señal 404 indica que el usuario no está hablando. Con el fin de determinar si el usuario está hablando, y generar la señal 404, con base en las señales 400 y 402, el promedio y variancia de las señales 400 y 402 se computa en forma periódica, como cada 100 milisegundos. Los cálculos de promedio y variancia se utilizan como valores de promedio y variancia de línea de base contra los cuales se realizan las decisiones de detección de habla. Se puede observar que tanto la señal 400 de audio como la señal 402 infrarroja, tienen una variancia más alta cuando el usuario está hablando, que cuando el usuario no está hablando. Por lo tanto, cuando se procesan las observaciones, como cada 5 a 10 milisegundos, el promedio y la variancia (o solamente la variancia) de la señal durante la observación se compara con el promedio de línea de base y la variancia (o solamente la variancia de línea de base). Cuando los valores observados sean mayores que los valores de línea de base, entonces se determina que el usuario está hablando. Cuando no es así, entonces se determina que el usuario no está hablando. En una modalidad ilustrativa la determinación de detección se hace con base en si los valores observados exceden los valores de línea de base por un umbral predeterminado. Por ejemplo, durante cada observación, cuando la señal infrarroja no está dentro de tres desviaciones estándar del promedio de la línea de base, entonces se considera que el usuario está hablando. Los mismo se puede utilizar para la señal de audio. De conformidad con otra modalidad de la presente invención, los detectores 310, 312, 314 ó 320 también se pueden adaptar durante el uso, como para adaptarse a cambios en las condiciones de luz ambiental o cambios en la posición de la cabeza del usuario, qlue puede provocar ligeros cambios que pueden afectar la señal IR. Los valores de promedio de línea de base y de variancia pueden volverse a calcular cada 5 a 10 segundos, por ejemplo, o con el uso de otra ventana de tiempo revolvente. Esto permite que los valores sean actualizados para reflejar los cambios con el tiempo. También, antes de actualizar la variancia y el promedio de línea de base con el uso de la ventana móvil, primero se puede determinar si las señales de entrada corresponden a que el usuario está hablando o no está hablando. El promedio y la variancia se pueden volver a calcular usando solamente las porciones de la señal que corresponden a cuando el usuario no está hablando. Además, a partir de la Figura 6, se puede observar que la señal IR por lo general puede preceder a la señal de audio. Esto se debe a que el usuario puede cambiar las posiciones de la boca o la cara antes de producir un sonido. Por lo tanto, esto permite que el sistema detecte el habla aun antes de que la señal de habla esté disponibles. La Figura 7 es una ilustración esquemática de una modalidad de un sensor IR y un micrófono de audio de conformidad con la presente invención. En la Figura 7 se proporciona un equipo para cabeza 420 con un par de audífonos 422 y 424, junto con una pluma. La pluma 426 tiene en su extremo distal un micrófono 428 convencional de audio, junto con un transceptor 430 infrarrojo. El transceptor 430 puede ilustrativamente ser un diodo emisor de luz infrarroja (LED) o un receptor infrarrojo. Conforme el usuario mueve su cara, en particular la boca, durante el habla, la luz reflejada desde la cara del usuario, especialmente de la boca y representada en la señal del sensor IR cambiará, como se ilustra en la Figura 6. De este modo, se puede determinar si el usuario está hablando con base en la señal del sensor IR. Se debe observar que mientras la modalidad de la Figura 7 muestra un solo transceptor infrarrojo, la presente invención contempla el uso de múltiples transceptores infrarrojos. En esa modalidad, las probabilidades asociadas con las señales IR generadas de cada transceptor infrarrojo se puede procesar en forma separada o en forma simultánea. Cuando se procesan por separado, se puede utilizar un lógico de indicación sencillo para determinar si las señales infrarrojas indican que el usuario está hablando. De manera alternativa, el modelo probabilístico puede ser utilizado para determinar si el usuario está hablando con base en las múltiples señales IR. Como se describe antes, el transductor 301 adicional pueden tomar varias formas, diferentes al transductor infrarrojo. La Figura 8 es una ilustración esquemática de un equipo de cabeza 450 que incluye un montaje 451 de cabeza con audífonos 452 y 454, así como un micrófono 456 convencional de audio, además un micrófono 458 sensible a los huesos. Ambos micrófonos 456 y 458 pueden conectarse en forma mecánica y rígida con el montaje 451 de cabeza. El micrófono 458 sensible al hueso convierte las vibraciones en los huesos faciales conforme viajan a través del cráneo del hablante en señales electrónicas de voz. Este tipo de micrófonos son bien conocidos y se encuentran disponibles a la venta en una variedad de formas y tamaños. El micrófono 458 sensible al hueso típicamente se forma como un micrófono de contacto que se usa en la parte superior de la cabeza o detrás del oído (para el contacto con la mastoideo). El micrófono de hueso conductor es sensible a las vibraciones de huesos y es mucho menos sensible a las fuentes de voz externas.

La Figura 9 ilustra una pluralidad de señales incluyendo la señal 460 del micrófono 458 sensible al hueso y una señal 464 de detección de habla binaria que corresponde a la salida de un detector de habla. Cuando la señal 464 está en un estado lógico alto, indica que el detector ha determinado que el usuario está hablando. Cuando está en un estado lógico bajo, corresponde a la decisión de que el usuario no está hablando. Las señales en la Figura 9 se capturaron de un ambiente en donde se recolectaron datos mientras el usuario usaba el sistema de micrófono mostrado en la Figura 8, con audio ambiental reproducido. De este modo, la señal 460 de audio muestra una actividad importante aun cuando el usuario no está hablando. Sin embargo, la señal 462 del micrófono sensible al hueso muestra una actividad de señal que se puede aceptar cuando el usuario está hablando. Por lo tanto, se puede observar que al considerar solamente la señal 460 de audio, es muy difícil determinar si el usuario está hablando. Sin embargo, cuando se utiliza la señal del micrófono sensible al hueso, ya sea sola o junto con la señal de audio, se vuelve más fácil determinar que el usuario está hablando. La Figura 10 muestra otra modalidad de la presente invención en donde un equipo para cabeza 500 incluye un montaje 501 de cabeza, un audífono 502 junto con un micrófono 504 convencional de audio y un micrófono 506 de garganta. Ambos micrófonos 504 y 506 se conectan en forma mecánica con el montaje 501 de cabeza, y se pueden conectar en forma rígida con el mismo. Existen una variedad de micrófonos de garganta que se pueden utilizar. Por ejemplo, existen diseños de un solo elemento o elementos dobles. Ambos funcionan al detectar las vibraciones de la garganta y convertir las vibraciones en señales de micrófono. Los micrófonos de garganta se usan alrededor del cuello y se mantienen en su lugar mediante una correa o banda elástica. Se desempeñan bien cuando los elementos sensores están colocado en cualquier lado de la "manzana de Adán" en la caja de voz. La Figura 11 muestra otra modalidad de la presente invención en donde un equipo para cabeza 550 incluye un micrófono de oreja 552 junto con un micrófono 554 convencional de audio. En la modalidad ilustrada en la Figura 11, el micrófono 552 de oreja se integra con un audífono 554. Sin embargo, se debe observar que el audífono puede formar un componente separado, o puede estar separado del micrófono 552 de oreja. La Figura 11 también muestra que el micrófono 554 convencional de audio está incorporado como un micrófono de cancelación de habla conectado con el micrófono de oreja 552 mediante una pluma 556. La pluma 566 puede ser rígida o flexible. Un equipo para cabeza 550, la porción de montaje de cabeza del equipo para cabeza comprende el micrófono 552 de oreja y un audífono 554 adicional, que se monta en el equipo 550 para cabeza con la cabeza del hablante mediante una conexión con fricción con el interior de la oreja del hablante. El micrófono 552 de oreja detecta las vibraciones de voz que se transmiten a través del canal auditivo del usuario, o a través de los huesos que rodean el canal auditivo del hablante o ambos. El sistema funciona en una forma muy similar a la del equipo con micrófono 458 sensible al hueso mostrado en la Figura 8. Las vibraciones de voz detectadas por el micrófono 552 de oreja se convierten en señales de micrófono que se utilizan en un procesamiento corriente abajo. Mientras se han descrito una variedad de modalidades de sensores o transductores 301 de habla, se debe apreciar que se pueden utilizar otros sensores o transductores de habla. Por ejemplo, dispositivos acoplados con carga (o cámaras digitales) que se pueden utilizar en una forma similar al sensor IR. Además, se pueden utilizar sensores laríngeos. Las modalidades anteriores se describen solamente como ejemplo. Ahora se describirá otra técnica para detectar habla con el uso de audio y/o señales sensoras de habla. En una modalidad ilustrativa, se mantiene un histograma de todas las variancias para los cuadros más recientes dentro de un tiempo especificado por el usuario (tal como un minuto, etc.). Para cada cuadro de observación, la variancia se computa para las señales de entrada y se compara con los valores del histograma para determinar si un cuadro presente representa que el usuario está hablando o no está hablando. El histograma entonces se actualiza. Se debe notar que cuando un cuadro actual simplemente se inserta dentro del histograma, el cuadro más antiguo se retira entonces el histograma solamente puede representar los cuadros de habla en situaciones cuando el usuario está hablando por un período de tiempo. Con el fin de manejar esta situación, se rastrean una serie de cuadros de habla y de no habla en el histograma, y el histograma se actualiza selectivamente. Cuando el cuadro actual se clasifica como habla, mientras el número de cuadros de habla en el histograma es más de la mitad del número total de cuadros, entonces el cuadro actual simplemente no se inserta en el histograma. Por supuesto, se pueden utilizar otras técnicas de actualización, y se dan únicamente como ejemplo. El presente sistema se puede utilizar en una amplia variedad de aplicaciones. Por ejemplo, muchos sistemas "oprimir para hablar" requieren que el usuario presiones y sostenga un actuador de entrada (tal como un botón) con el fin de interactuar con los modos de habla. Los estudios de uso han indicado que los usuario tienen dificultad al manejarlos. De manera similar, los usuarios empiezan a hablar al mismo tiempo que presionan los botones del equipo, lo que corta el inicio de la palabra. De este modo, el presente sistema no puede ser usado para el reconocimiento de habla, en lugar de los sistemas oprima para hablar. De manera similar, la presente invención puede ser utilizada para retirar el ruido ambiental. El ruido ambiental se identifica como una fuente muy común de ruido seguido por teléfonos sonando y aires acondicionados. Con el uso de la presente señal de detección de habla como se establece, se elimina gran parte de este ruido ambiental.

De manera similar, los sistemas de codificación de habla de proporción variable se pueden mejorar. Ya que la presente invención proporciona una salida indicativa de si el usuario está hablando o no, se puede emplear un sistema mucho más eficiente de codificación de habla. Tal sistema reduce los requerimientos de ancho de banda en una conferencia de audio ya que la codificación de habla solamente se lleva a cabo cuando el usuario está hablando.

El control de piso en una comunicación en tiempo real también se puede mejorar. Un aspecto importante que falta en una conferencia de audio convencional es la falta de un mecanismo que pueda ser usado para informar a otros que los participantes de la conferencia de audio desean hablar. Esto puede dar como resultado situaciones en donde un participante monopoliza la conferencia, simplemente porque no sabe que los otros participantes desean hablar. Con la presente invención el usuario solamente necesita accionar los sensores para indicar que el usuario desea hablar. Por ejemplo, cuando se utiliza un sensor infrarrojo, el usuario solamente necesita mover sus músculos faciales en una forma que se parezca al habla. Esto proporcionará la señal de detección de habla que indique que el usuario está hablando, o desea hablar. Con el uso de los micrófonos de garganta o de hueso, el usuario simplemente necesita murmura en un tono muy bajo que otra vez accionará el micrófono de garganta o de hueso para indicar que el usuario desea hablar.

En otra aplicación, se puede mejorar el manejo de energía para los asistentes digitales personales, o pequeños dispositivos de computación, como computadoras palm, computadoras de cuaderno u otros tipos de computadoras similares. La vida útil de la batería es una preocupación principal de los dispositivos portátiles. Al conocer si el usuario está hablando, los recursos alojados con el procesamiento de señal digital requeridos para llevar a cabo las funciones de computación convencionales, y los recursos requeridos para llevar a cabo el reconocimiento de habla, se pueden alojar en una forma mucho más eficiente. En otra aplicación, la señal de audio del micrófono convencional de audio y la señal del sensor de habla se pueden combinar en una forma de modo que se pueda eliminar el ruido ambiental de la señal de audio aun cuando el hablante secundario hable al mismo tiempo que el hablante principal. La capacidad para llevar a cabo tal mejora de habla puede ser altamente deseable en ciertas circunstancias. Aunque la presente invención ha sido descrita con referencia a las modalidades particulares, las personas experimentadas en la técnica reconocerán que se pueden hacer cambios en la forma y detalles sin apartarse del espíritu y alcance de la invención.

Claims

REIVINDICACIONES

1. Un sistema de detección de habla, caracterizado porque comprende: un micrófono de audio que emite una señal de micrófono con base en una entrada de audio detectada; un sensor de habla que emite una señal sensora con base en una entrada no audio generada por una acción de habla; y un componente detector de habla que emite una señal de detección de habla indicativa de si el usuario está hablando con base en la señal sensora.

2. El sistema de detección de habla de conformidad con la reivindicación 1, caracterizado porque el componente detector de habla emite la señal de detección de habla en una primera característica de la señal sensora y con base en la señal de micrófono.

3. El sistema de detección de habla de conformidad con la reivindicación 2, caracterizado porque la primera característica de la señal sensora tiene un primer nivel cuando el usuario está hablando y un segundo nivel cuando el usuario no está hablando y en donde el componente detector de habla emite la señal de detección de habla con base en el nivel de la primera característica de la señal sensora con relación a un nivel de línea de base de la primera característica que comprende uno predeterminado del primer y segundo niveles de la característica.

4. El sistema de detección de habla de conformidad con la reivindicación 3, caracterizado porque el nivel de línea de base se calcula con base en el nivel de la primera característica sobre un período de tiempo.

5. El sistema de detección de habla de conformidad con la reivindicación 4, caracterizado porque el nivel de línea de base se calcula al promediar el nivel de la primera característica sobre el período de tiempo.

6. El sistema de detección de habla de conformidad con la reivindicación 4, caracterizado porque el nivel de línea de base se vuelve a calcular en forma intermitente durante la operación del sistema de detección de habla.

7. El sistema de detección de habla de conformidad con la reivindicación 6, caracterizado porque el nivel de línea de base se vuelve a calcular periódicamente para representar el nivel de la primera característica sobre una ventana de tiempo revolvente.

8. El sistema de detección de habla de conformidad con la reivindicación 6, caracterizado porque el componente de detección de habla emite una señal de detección de habla con base en una comparación del nivel de la primera característica de la señal sensora con el nivel de línea de base, y en donde la comparación se lleva a cabo en forma periódica.

9. El sistema de detección de habla de conformidad con la reivindicación 8, caracterizado porque la comparación se lleva a cabo más frecuentemente que como se recalcula el nivel de línea de base.

10. El sistema de detección de habla de conformidad con la reivindicación 1, caracterizado porque el micrófono de audio y el sensor de habla se montan en un equipo para cabeza.

11. Un sistema de reconocimiento de habla, caracterizado porque comprende: un micrófono de audio que emite una señal de micrófono con base en la entrada de audio detectada; un sensor de habla que emite una señal sensora con base en una entrada no audio generada por la acción de habla; y un componente detector de habla que emite una señal de detección de habla indicativa de si el usuario está hablando en la señal de micrófono y la señal sensora; y un motor de reconocimiento de habla que proporciona una salida de reconocimiento indicativa del habla en la entrada de audio detectada, con base en la señal de micrófono y la señal de detección de habla.

12. El sistema de reconocimiento de habla de conformidad con la reivindicación 11, caracterizado porque el componente detector de habla calcula la señal de detección de habla como una medición de detección de habla, indicativa de la probabilidad de que el usuario está hablando.

13. El sistema de reconocimiento de habla de conformidad con la reivindicación 12, caracterizado porque el componente detector de habla combina la medición de detección de habla con la señal de micrófono para generar una señal combinada.

14. El sistema de reconocimiento de habla de conformidad con la reivindicación 13, caracterizado porque el motor de reconocimiento de habla genera la salida de reconocimiento con base en la señal combinada.

15. El sistema de reconocimiento de habla de conformidad con la reivindicación 14, caracterizado porque la medición de detección de habla comprende una probabilidad de que el usuario está hablando.

16. El sistema de reconocimiento de habla de conformidad con la reivindicación 15, caracterizado porque la señal combinada comprende un producto de la probabilidad y la señal del micrófono.

17. Un método para detectar habla, caracterizado porque comprende: generar una primera señal, indicativa de una entrada de audio, con un micrófono de audio; generar una segunda señal indicativa de un movimiento facial de un usuario, detectada por el sensor de movimiento facial; y detectar si el usuario está hablando con base en la primera y segunda señales.

18. El método de conformidad con la reivindicación 17, caracterizado porque generar la segunda señal comprende: detectar la vibración de uno de la mandíbula y el cuello del usuario.

19. El método de conformidad con la reivindicación 17, caracterizado porque generar la segunda señal comprende: detectar una imagen indicativa de movimiento de la boca del usuario.

20. El método de conformidad con la reivindicación 17, caracterizado porque además comprende: proporcionar una señal de detección de habla con base en la detección si el usuario está hablando.

21. El método de conformidad con la reivindicación 20, caracterizado porque además comprende: la señal de detección de habla.

22. El método de conformidad con la reivindicación 21, caracterizado porque el reconocer el habla comprende: aumentar la probabilidad de que el habla se reconoce cuando la señal de detección de habla indica que el usuario está hablando; disminuir la probabilidad de que el habla se reconoce cuando la señal de detección de habla indica que el usuario no está hablando.

23. Un equipo para cabeza, caracterizado porque comprende: un montaje de cabeza; un micrófono de audio conectado mecánicamente con el montaje de cabeza; y un transductor configurado para generar una señal eléctrica con base en una entrada indicativa del habla, conectado con el montaje de cabeza.

24. El equipo para cabeza de conformidad con la reivindicación 23, caracterizado porque además comprende: por lo menos un audífono conectado mecánicamente con el montaje de cabeza.

25. El equipo para cabeza de conformidad con la reivindicación 23, caracterizado porque el transductor comprende un sensor infrarrojo.

26. El equipo para cabeza de conformidad con la reivindicación 23, caracterizado porque el transductor comprende un micrófono de garganta.

27. El equipo para cabeza de conformidad con la reivindicación 23, caracterizado porque el transductor comprende un micrófono de hueso (o central).

28. El equipo para cabeza de conformidad con la reivindicación 23, caracterizado porque el transductor comprende un sensor de temperatura.

29. El equipo para cabeza de conformidad con la reivindicación 23, caracterizado porque el transductor se coloca dentro del oído del usuario.

30. El equipo para cabeza de conformidad con la reivindicación 23, caracterizado porque el transductor se coloca en contacto operativo con el cráneo o hueso facial del usuario.

31. El equipo para cabeza de conformidad con la reivindicación 23, caracterizado porque el transductor se coloca para estar en contacto con la garganta del usuario.

32. El equipo para cabeza de conformidad con la reivindicación 23, caracterizado porque el transductor se conecta en forma rígida con el montaje de cabeza.

33. El equipo para cabeza de conformidad con la reivindicación 32, caracterizado porque el micrófono de audio se conecta en forma rígida con el montaje de cabeza.

34. Un sistema de detección de habla, caracterizado porque comprende: un micrófono de audio que emite una señal de micrófono con base en una entrada de audio; un sensor de habla configurado para detectar el movimiento de la cara del usuario y emitir una señal sensora indicativa del movimiento; y un componente detector de habla configurado para recibir la señal sensora y emitir una señal de detección de habla indicativa de si el usuario está hablando con base en la señal sensora.

35. Un método para detectar si el usuario está hablando, caracterizado porque comprende: proporcionar una señal sensora indicativa de la radiación detectada reflejada de la cara del usuario; detectar si el usuario está hablando con base en la señal sensora.

36. Un sistema de entrada de audio, caracterizado porque comprende: un equipo para cabeza que incluye un micrófono de audio y un sensor configurado para detectar el movimiento de la cara del usuario y emitir una señal sensora indicativa del movimiento.

37. Un sistema de reconocimiento de habla, caracterizado porque comprende: un equipo para cabeza que incluye un micrófono de audio que emite una señal de micrófono con base en una entrada de audio, y un sensor de habla configurado para detectar una característica física indicativa de habla y emitir una señal sensora indicativa de la característica física detectada; y un motor de reconocimiento de habla que reconoce el habla con base en la señal de micrófono y la señal sensora.

38. Un sistema de entrada de audio, caracterizado porque comprende: un equipo para cabeza que incluye un micrófono de audio, y un sensor configurado para detectar una característica física de un usuario indicativa de que el usuario está hablando o está a punto de hablar.