MXPA05000311A - Pasarela de comunicacion controlable por voz para controlar multiples aparatos electronicos y de informacion. - Google Patents

Pasarela de comunicacion controlable por voz para controlar multiples aparatos electronicos y de informacion.

Info

Publication number
MXPA05000311A
MXPA05000311A MXPA05000311A MXPA05000311A MXPA05000311A MX PA05000311 A MXPA05000311 A MX PA05000311A MX PA05000311 A MXPA05000311 A MX PA05000311A MX PA05000311 A MXPA05000311 A MX PA05000311A MX PA05000311 A MXPA05000311 A MX PA05000311A
Authority
MX
Mexico
Prior art keywords
signal
communication gateway
command
voice
transmitter
Prior art date
Application number
MXPA05000311A
Other languages
English (en)
Inventor
Michael L Craner
Original Assignee
Gen Instrument Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gen Instrument Corp filed Critical Gen Instrument Corp
Publication of MXPA05000311A publication Critical patent/MXPA05000311A/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Selective Calling Equipment (AREA)

Abstract

Una pasarela (200) de comunicacion controlada por voz para facilitar las comunicaciones entre una pluralidad de entidades (14) exteriores y por lo menos un dispositivo (66) electronico incluye un receptor (210) para recibir comunicaciones de las entidades exteriores; un transmisor (215) para transmitir comunicaciones a las entidades exteriores; un microfono (63) para recibir senales audibles dentro de un ambiente; un modulo (240) de voz para recibir una entrada del microfono (63) y para traducir la entrada en un comando; un microprocesador (220) acoplado al receptor (210), al transmisor (215) y al modulo (240) de procesamiento de comandos de voz para recibir y ejecutar el comando; y una senal de salida de cada dispositivo (66) electronico que corresponde a la salida audible del dispositivo (66) electronico. El modulo (240) de procesamiento de comandos de voz sustrae la salida de senal de cada dispositivo (66) electronico de la senal audible para producir la senal compuesta de comando.

Description

PASARELA DE COMUNICACION CONTROLABLE POR VOZ PARA CONTROLAR MÚLTIPLES APARATOS ELECTRÓNICOS Y DE INFORMACIÓN ANTECEDENTES La presente generalmente se refiere a una pasarela de comunicación controlable por voz. Más particularmente, la presente invención se dirige a una pasarela de comunicación la cual permite el control de múltiples aparatos electrónicos y de información mediante comandos de voz de un usuario. El control de varios dispositivos electrónicos y aparatos de información en casa se ha vuelto más problemático en años recientes. Por el lado positivo, conforme ha caido el costo de estos dispositivos, consumidores han tenido que tener acceso a, y tomar ventaja de, las miles de opciones de entretenimiento disponibles para ellos. Por ejemplo, el centro de entretenimiento de una casa puede incluir no sólo dispositivos electrónicos tradicionales tales como una televisión y un VCR, sino también un reproductor de CD, un reproductor de DVD, una videograbadora personal y/o una computadora personal. Cada uno de estos dispositivos electrónicos típicamente se asocia con una interfaz infrarroja la cual permite el control del dispositivo sin requerir que el usuario haga contacto manualmente con los botones de control sobre el dispositivo. Aunque es conveniente el control remoto de un dispositivo electrónico, requerir un control remoto separado para cada dispositivo resulta en frustración para usuarios quienes tantean al azar, y quieren saber, cuál control remoto controla que dispositivo. Se han desarrollado controles remotos "universales" que permiten que un usuario controle muchos diferentes tipos de dispositivos de diferentes fabricantes utilizando un solo control remoto. Aunque esto ha proporcionado la primera etapa hacia simplificar el control de múltiples dispositivos electrónicos, los controles remotos universales generalmente proporcionan un margen limitado de comandos a un margen limitado de componentes electrónicos. Por ejemplo, la mayoría de los controles remotos universales permitirán que el usuario encienda o apague un dispositivo, y opere el dispositivo de acuerdo con un nivel básico dé f ncionalidad (tal como controlar el volumen y los canales de un televisor o controlar la reproducción de una película en un VCR o reproductor de DVD) . Al presionar una tecla seleccionada en un control remoto para un dispositivo electrónico designado, una señal de comando correspondiente se transmite por una señal infrarroja (IR) al dispositivo electrónico designado para invocar la operación en el dispositivo pretendido. El número limitado de teclas de funcionamiento predefinidas en un control remoto universal restringe el número de comandos que un usuario puede emitir de un control remoto universal. Por otro lado, aunque algunos controles remotos universales incluyen muchos botones diferentes para muchas funciones diferentes, un gran número de botones presentan un número confuso de opciones para un usuario: Los controles remotos universales tampoco se adaptan bien para dispositivos electrónicos más recientes los cuales no tienen un conjunto predefinido de comandos de entrada. Por ejemplo, el uso de una computadora personal, o navegación en red a través de una terminal del convertidor-descodificador presenta al usuario con un número ilimitado de selecciones y opciones. Los controles remotos universales actuales no se adaptan bien para funcionar en tal ambiente. Ya que la sociedad se ha vuelto más confiada en la tecnología de información, las terminales del convertidor-descodificador han evolucionado de dispositivos que proporcionan una interconexión entre el sistema de CATV y la casa para distribuir el contenido de audio y video, a las pasarelas de comunicación que proporcionan acceso de banda ancha mediante el propietario de una casa a la red de CATV, una red telefónica conmutada pública (PSTN) , o una red inalámbrica. Por lo tanto, las . pasarelas de comunicación se han convertido en un nodo principal entre las necesidades de información del propietario de una casa y la pluralidad de redes disponibles de comunicación exteriores . La Patente Norteamericana No. 5,138,649 (Krisbergh et al.), describe un control remoto para televisión y microaparato telefónico el cual permite la transmisión de señales de control de televisión mediante un enlace de comunicación infrarrojo (IR) y señales de control de teléfono mediante el enlace IR o de comunicación de radiofrecuencia (RF) separado. El sistema incluye un micrófono para generar señales de audio telefónicas que se transmiten mediante el enlace de comunicación de RF y un audífono para reproducir las señales de audio telefónicas. El audífono recibe las señales de audio telefónicas 'mediante el enlace de comunicación de RF. Aunque este sistema simplifica el control de la televisión y permite el uso del teléfono, es indicativo de aquellos sistemas de la técnica anterior que generalmente se limitan al control de un conjunto predefinido de instrucciones para componentes electrónicos particulares.
Puede ser deseable proporcionar una pasarela de comunicación la cual permita el control de una pluralidad de aparatos de información y dispositivos electrónicos en una forma simple y de fácil uso por el usuario.
SUMARIO La pasarela de comunicación de acuerdo con la presente invención incluye un procesador de comandos de voz que recibe los comandos de voz de un usuario, interpreta los comandos de voz y los convierte en comandos específicos del dispositivo electrónico equivalente para llevarse a cabo por el dispositivo electrónico designado. El procesador de comandos de voz recibe la salida audible de cada uno de uno o más aparatos de información o dispositivos electrónicos; estas señales audibles se designan en la presente como señales de ruidos "conocidos". El procesador de comandos de voz también recibe una señal de entrada audible de todos los sonidos audibles del' ambiente operativo (es decir, una "señal compuesta") . Las entradas de las fuentes de ruidos conocidos se borran de la señal compuesta. La señal resultante comprenderá principalmente el comando de voz del usuario.
BREVE DESCRIPCIÓN DE LOS DIBUJOS La Figura 1 es un diagrama de bloque de un sistema de comunicación de acuerdo con la presente invención que incluye una pasarela de comunicación. La Figura 2 es un diagrama de bloque funcional de una pasarela de comunicación de acuerdo con la presente invención. La Figura 3 es un diagrama de bloque del módulo de procesamiento de comandos de voz. La Figura 4 es una vista frontal de la pasarela de comunicación. La Figura 5 es un diagrama de flujo del método de cancelación de ruidos de acuerdo con la presente invención . La Figura 6 es un diagrama de flujo de un método alternativo de la presente invención. La Figura 7 es un teléfono inalámbrico que representa el método alternativo de la presente invención . La Figura 8 es un diagrama de flujo de un procedimiento que utiliza el teléfono inalámbrico de la Figura 7.
DESCRIPCIÓN DETALLADA DE LA MODALIDAD O MODALIDADES PREFERIDAS La presente invención permite el control de voz de cualquier tipo de aparato de información sin requerir el uso de un dispositivo de control remoto. La presente invención se describirá con referencia a las Figuras de los Dibujos donde números similares representan elementos similares a través de los mismos. Con referencia a la Figura 1, un sistema 10 de comunicación de acuerdo con la presente invención comprende una pasarela 12 de comunicación localizada dentro de la casa 16 de un usuario. La pasarela 12 de comunicación se acopla a las entidades 14 exteriores que incluyen un cabezal 18 de antena de CATV, una PSTN 20 y una red 22 inalámbrica. La pasarela 12 de comunicación de preferencia se acopla al cabezal 18 de antena de CATV mediante un enlace 24 de fibra óptica; a la PSTN 20 mediante una forma 26 de linea de 2 ó 4 hilos; y a la red 22 inalámbrica mediante una interfaz 28 de RF. Se debe reconocer por aquellos con experiencia en la técnica que el enlace 24 de fibra óptica, la forma 26 de linea y la interfaz 28 de RF generalmente se conocen como los enlaces de comunicación externos y pueden comprender otras manifestaciones de un enlace físico tal como un enlace satelital, enlace de microondas o cable coaxial. El tipo especifico de enlace de comunicación externo no es importante para la presente invención. Dentro de la casa 16, la pasarela 12 de comunicación se acopla a una pluralidad de dispositivos electrónicos y aparatos de información (de aquí en adelante "dispositivos 66 electrónicos") que incluyen, pero no se limitan a, una televisión 30, sistema 32 estereofónico, VCR 34, videograbadora 36 personal (PVR¿, reproductor 38 de CD-DVD, teléfonos 40 análogos, teléfonos 42 digitales, computadora 44 personal o teléfonos 46 de doble modo. También se debe observar que dispositivos electrónicos de "tipo sin información" pueden controlarse de acuerdo con la presente invención tales como un sistema de seguridad para casas, sistema de HVAC, sistema eléctrico o cualquier otro tipo de componente 48 eléctrico o electrónico localizado dentro, o en proximidad de, una casa 16. También se debe entender que cada dispositivo 66 electrónico tendrá un suministro de energía (no mostrado) y un enlace 50 de comunicación interno con la pasarela 12 de comunicación. El enlace 50 de comunicación interno puede ser un bus compartido o puede ser una línea dedicada. Adicionalmente, el enlace 50 de comunicación puede comprender una conexión de Ethernet, conexión de USB, RJ 11, una conexión en paralelo o en serie o cualquier otro tipo de conexión la cual sea apropiada o requerida por el dispositivo electrónico. Como se describirá en detalle después de esto, la pasarela 12 de comunicación es capaz de controlar cualquier dispositivo 66 electrónico y controlar el enlace entre cualquier dispositivo 66 electrónico y una entidad 14 exterior mediante los enlaces 24, 26, 28 de comunicación externos. La pasarela 12 de comunicación permite tal control sin requerir el uso de ningún tipo de aparato de control remoto; aunque una modalidad descrita en la presente incluye tal opción. Con referencia a la Figura 2, se muestra un diagrama de bloque funcional de una pasarela 200 de comunicación (CG) hecho de acuerdo con la presente invención. La CG 200 incluye un sintonizador ágil de frecuencia o múltiples receptores 210, por lo menos un transmisor 215 de datos/voz, un microprocesador 220, uno o más enlaces 50 de comunicación internos, uno o más enlaces 24, 26, 28 de comunicación externos, un módulo 240 de procesamiento de comandos de voz, una pantalla 61 frontal y un micrófono 63. El microprocesador 220 controla todas las funciones internas de la CG 200 que incluyen el procesamiento y enrutamiento del contenido de video, audio y datos para su salida mediante el enlace 50 de comunicación interno al dispositivo 66 electrónico adecuado. El microprocesador también controla el o los sintonizadores/receptores 210, el o los transmisores 215 de datos/voz y el módulo 240 de procesamiento de comandos de voz. El sintonizador/receptor 210 recibe toda la información entrante de los enlaces 24, 26, 28 de comunicación externos. Por ejemplo, si la información está entrando mediante el cabezal 18 de antena de CATV sobre un enlace 24 de fibra óptica, se incluye un sintonizador ágil de frecuencia. De igual manera, si la señal entrante se recibe de la red 22 inalámbrica sobre el enlace 28 inalámbrico, se incluye un receptor de RF. Finalmente, si la señal entrante se origina de la PSTM 20 y está entrando mediante la forma 26 de linea de 2 ó 4 hilos, se incluye un receptor telefónico. Por consiguiente, el tipo de sintonizador o receptor dependerá de la interconexión con la entidad 14 exterior. Además, la CG 200 puede incluir una pluralidad de cada tipo de sintonizador/receptor. El transmisor 215 de datos/voz comprende uno o más transmisores para transmitir información de la CG 200 a las entidades 14 exteriores. Como con el sintonizador/receptor 210, el tipo particular de transmisor dependerá del tipo de señal transmitida y el enlace 24, 26, 28 de comunicación que va a utilizarse. El módulo 240 de procesamiento de comandos de voz recibe los comandos 60 de voz de un usuario 62 y produce una señal 64 de control relacionada al microprocesador 220 como se describirá en detalle adicional después de esto. El módulo 240 de procesamiento de comandos de voz se describirá en mayor detalle en lo siguiente con referencia a la Figura 3. Aún con referencia a la Figura 2, generalmente la CG 200 es la interconexión entre las entidades 14 exteriores, los dispositivos 66 electrónicos y el usuario 62. La información (datos, voz, video, etc.), generalmente fluye entre las entidades 14 exteriores sobre los enlaces 24, 26, 28 de comunicación a la CG 200 mediante el micrófono 63. La información también fluye entre la CG 200 y una pantalla 61 frontal y entre la CG 200 y los dispositivos 66 electrónicos sobre el enlace 50 de comunicación. El usuario 62 produce comandos de voz a la CG 200 y recibe realimentación de cualquiera de la CG 200 o los dispositivos 66 electrónicos. Se debe entender por aquellos de experiencia en la técnica que los diagramas de bloque funcional mostrados en la Figura 2 se han simplificado grandemente para propósitos de explicación. Con referencia a la figura 3, el módulo 240 de procesamiento de comandos de voz se muestra en mayor detalle. El módulo 240 de procesamiento de comandos de voz incluye una unidad 242 de entrada de comandos, una unidad 244 de entrada de ruidos conocidos, un cancelador 246 de ruidos, un procesador 248 de reconocimiento del habla y una base de datos 250 de comandos (después de esto, la "entrada compuesta"). La unidad 242 de entrada de comandos recibe una salida del micrófono 63 el cual recibe un compuesto audible del ambiente circundante. Este compuesto audible no sólo incluye el comando 60 de voz, sino también todo el otro ""ruido" del ambiente en el cual se localiza el usuario 62. Por ejemplo, si el usuario 62 se sitúa en la sala de una casa, otros ruidos ambientales incluirán las voces de otras personas dentro de la sala y la salida de todos los dispositivos 66 electrónicos . La unidad 242 de entrada de comandos realiza la filtración preliminar de la entrada 241 compuesta y proporciona una primera entrada 245 para el cancelador 246 de ruidos. La filtración preliminar puede comprender cualquiera de un número de técnicas de filtración de ruidos que mejoran la calidad de la salida de señal. En un ambiente alternativo, la unidad 242 de entrada de comandos puede eliminarse y la salida 241 del micrófono 63 puede ser la entrada directamente en el cancelador 246 de ruidos. La unidad 244 de entrada de ruidos conocidos procesa todos los ruidos 243 "conocidos" de los dispositivos 66 electrónicos. Por ejemplo, si el usuario 62 está viendo la televisión 30, el ruido 243 "conocido" comprenderá la señal de ruido que se transmite en el canal al cual se sintoniza la televisión 30. De igual manera, cualquiera de las otras salidas de audio de cualquiera de los dispositivos 66 electrónicos comprenderá fuentes de ruidos "conocidos" que proporcionarán el ruido 243 conocido a la unidad 244 de entrada de ruidos conocidos. Preferiblemente, el ruido 243 conocido se detecta por la unidad 244 de entrada de ruidos conocidos antes de ser la salida de una bocina de un dispositivo 66 electrónico. Por ejemplo, en el caso de una señal de CATV, el microprocesador 220 envía una copia del programa de CATV, que incluye la porción de audio, a la televisión 30 y una copia de la porción de audio a la unidad 244 de entrada de ruidos conocidos. Esto facilitará una señal de ruido "limpio". Alternativamente, cada dispositivo 66 electrónico puede equiparse con un micrófono en la salida del dispositivo 66 electrónico que detecta el ruido 243 conocido y envía el ruido 243 conocido a la unidad 244 de entrada de ruidos conocidos por medio de la comunicación. La salida de la unidad 244 de entrada de ruidos conocidos proporciona una segunda entrada 247 al cancelador 246 de ruidos. El cancelador 246 de ruidos recibe las dos señales 245, 247 de entrada y procesa las señales de manera que se sustraen todas las señales de ruidos conocidos de la señal de ruido compuesta, por lo que resulta en una señal 247 de salida. Puesto que la primera entrada 245 se deriva de un compuesto de todas las señales audibles en el ambiente y la segunda entrada 247 se deriva de todos los ruidos conocidos en el ambiente, el cancelador 246 de ruidos sustrae todos los ruidos conocidos de la señal compuesta, por lo que resulta en una señal 247 de salida la cual comprende sólo señales audibles "desconocidas". Puesto que se conoce la mayor parte del ruido en un ambiente de entretenimiento, la señal 247 de salida del cancelador de ruidos principalmente comprenderá el comando 60 de voz del usuario 62 más otros ruidos desconocidos, tal como ruido de fondo y el ruido de otras personas en la habitación. Estos otros ruidos generalmente son mínimos. Esta señal 247 de salida puede procesarse y filtrarse adicionalmente de acuerdo con las técnicas de procesamiento del habla conocidas, para aislar adicionalmente el comando 60 de voz. La señal 247 de salida del cancelador de ruidos es la entrada en el procesador 248 de reconocimiento del habla el cual procesa la señal 247 para detectar palabras específicas. La tecnología de reconocimiento del habla es bien conocida por aquellos con experiencia en la técnica, y el tipo especifico de tecnología de reconocimiento del habla empleada por el procesador 248 de reconocimiento del habla no es central para la presente invención. El procesador 248 de reconocimiento del habla produce una señal 249 de voz de salida la cual comprende una o más palabras "identificadas" en un ASCII u otro tipo de formato . La señal 249 de voz de salida es la entrada en la base de datos 250 de comandos, la cual compara la señal 249 de voz de salida con una señal previamente almacenada dentro de la base de datos 250 de comandos. Cuando se encuentra una correlación entre la señal 249 de voz de salida y una señal almacenada dentro de la base de datos 250 de comandos, la base de datos 250 de comandos produce una señal 251 de control. Esta señal 251 de control se envía al microprocesador 220 mostrado en la Figura 2. El microprocesador 220 entonces utiliza ya sea el enlace 50 de comunicación interno o una salida de RF o IF (no mostrada) para controlar el dispositivo 66 electrónico destinado. El control de tal dispositivo 66 electrónico se conoce bien por aquellos con experiencia en la técnica y no se explicará adicionalmente en lo siguiente. El módulo 240 de procesamiento de comandos de voz presenta ventajas significantes sobre sistemas previos y métodos para controlar los aparatos de información . Con referencia a la Figura 4, se muestra la cara frontal de la CG 220. Esta modalidad de la pasarela 220 de comunicación incluye el micrófono 63 para recibir entradas audibles tales como comandos 60 de voz del usuario 62 y los otros ruidos ambientales. También se incluye una pluralidad de LED 67 y una pantalla 69 alfanumérica . Los LED 67 y la pantalla 69 alfanumérica proporcionan realimentación al usuario para que el usuario 62 pueda determinar el estado del CG 220. Otra realimentación para el usuario 62 puede recibirse a través de cualquiera de los aparatos 66 de información tal como realimentación visual de la televisión 30 o una realimentación audible del aparato 32 estereofónico . Con referencia a la Figura 5, se muestra un método 300 de cancelación de ruidos de acuerdo con la presente invención. El método 300 comienza con la unidad 242 de entrada de comandos que monitorea el ambiente para todos los sonidos audibles, y genera una señal de ruido compuesta (etapa 302) . La unidad 242 de entrada de comandos puede preprocesar opcionalmente la señal recibida para su mejora. Simultáneamente, la unidad 244 de entrada de ruidos conocidos recibe una o más entradas y genera una señal de ruido conocido (etapa 304). La señal de ruido conocido entonces se sustrae de la señal de ruido compuesta (etapa 306) en el cancelador 246 de ruidos y la señal resultante se procesa por el procesador 248 de reconocimiento del habla para producir una salida 249 del habla (etapa 308) . La señal 249 de voz de salida se compara con las señales almacenadas en la base de datos 250 de comandos (etapa 310) para determinar si la señal 249 de voz de salida concuerda con cualquiera de los comandos almacenados. Si es asi, se ejecuta el comando (etapa 314). La CG 200 también puede indicar al usuario que el comando se ha ejecutado (etapa 316) . La etapa 316 puede realizarse si es o no obvia la ejecución del comando para el usuario 62. Si la señal 249 de voz de salida no concuerda con ninguna señal en la base de datos de comandos como se determina por la etapa 310, se le indica al usuario que no se ha recibido ningún comando (etapa 312) . Para poder eliminar las indicaciones no deseadas y/o innecesarias cada vez que se forma un sonido en el ambiente, la indicación en la etapa 312 puede comprender iluminar uno o más de los LED 67 en la cara de la CG 200. Adicionalmente, se debe entender que la indicación referida en las etapas 312 y 316 puede ser audible, visual y/o una combinación de indicaciones audibles y visuales, ya sea directamente de la CG 200 o mediante uno de los dispositivos 66 electrónicos. En una modalidad alternativa de la presente invención, el método 300 como se muestra en la Figura 5 puede modificarse para el método 400 como se muestra en la Figura 6. Las etapas idénticas de los métodos 300, 400 se numeran en una forma similar y no se explicará adicionalmente con referencia a la Figura 6. Utilizando este método 400 alternativo, el usuario primero proporciona una "palabra de silenciar" que silencia todos los dispositivos 66 electrónicos de manera que puedan procesarse comandos de voz adicionales con un mínimo de ruido ambiente. En este método 400, las etapas 302-308 realizan el mismo procesamiento de señales. Sin embargo, la etapa 318 determina sólo si la señal de salida de voz concuerda con la señal de comando de "palabra de silenciar" en la base de datos de comandos (etapa 318) al buscar un comando sencillo predeterminado (es decir, la palabra de silenciar) , con lo cual simplifica grandemente los requerimientos de procesamiento de señales. Preferiblemente, el comando puede seleccionarse por el usuario o puede preestablecerse, de manera que no sea una palabra hablada que probablemente se presentará con frecuencia en la conversación diaria. Por ejemplo, el usuario puede invocar un nombre tal como "Bartolomé" para silenciar todos los dispositivos y comenzar el procedimiento de comandos de voz. Este comando también puede cambiarse cuando se desee por el usuario por un idioma diferente o simplemente por la preferencia del usuario para personalizar el comando. Una vez que se ha determinado que la señal de voz de salida concuerda con la palabra de silenciar en la base de datos de comandos (etapa 318), todos los dispositivos 66 electrónicos se silencian 320 y el sistema monitorea el ambiente para todos los sonidos audibles (etapa 322). La señal entonces se procesa por el procesador de reconocimiento del habla (etapa 326) . En esta porción del procedimiento 400, puesto que no existe ninguna fuente de ruido conocido presente, estas fuentes no tienen que vigilarse y una etapa de sustracción similar a la etapa 306 no se realiza. La señal 249 de voz de salida se compara con aquellas almacenadas en la base de datos 250 de comandos para cualesquier correlaciones (etapa 328). Si se encuentra una correlación, se ejecuta el comando (etapa 330) y se le indica al usuario (etapa 316) . La indicación en esta modalidad puede ser la liberación del silenciamiento de todos los dispositivos 66 electrónicos que se aplicó en la etapa 320. De esta forma, el usuario sabrá que el comando se ha ejecutado. Si no se encuentra ninguna correlación en la etapa 328, se le indica al usuario que no se ha recibido ningún comando (etapa 332) . La característica 334 de "intervalo" también se incluye con la cual si no se ha detectado ningún comando válido dentro de un cierto periodo de tiempo (tal como 10 segundos), el sistema se revertirá a la etapa 302. Una modalidad alternativa de la presente invención se explicará con referencia a la Figura 7. En esta modalidad, el sistema se acopla con un teléfono inalámbrico para lograr conflabilidad mejorada y conveniencia del usuario. Como con la mayoría de los teléfonos inalámbricos, el teléfono 600 inalámbrico de la presente invención comprende un microteléfono 602, una o más baterías 604, una bocina 605, un micrófono 608, un dispositivo 610 de indicación visual (tal como un LED) y un transceptor 612 con una antena 614. El teléfono 600 inalámbrico también incluye un teclado 616 que tiene teclas digitales de marcación telefónica estándares, un conmutador 618 de Encendido/Apagado (ON/OFF) y teclas 620 de volumen opcionales o una pluralidad de teclas F1-F4 622 de función. Un procesador 624 supervisa y controla todas las funciones del teléfono 600 inalámbrico. Todos los componentes en el teléfono 600 inalámbrico, como se muestra en la Figura 7, operan en una manera estándar como los teléfonos inalámbricos actuales. Sin embargo, de acuerdo con la presente invención, se proporciona funcionalidad mejorada como se describirá en detalle a continuación .
En esta modalidad, el micrófono 608 remplaza al micrófono 63 localizado en la CG 220. Ésta tiene la ventaja de tener al micrófono 608 inmediatamente adyacente a la boca del usuario 62 para que se reduzca una cantidad sustancial de ruidos de fondo. Por consiguiente, la función de la unidad 242 de entrada de comandos como se muestra en la Figura 3 se realiza por el microprocesador 624. La señal 245 de salida de la unidad 242 de entrada de comandos entonces se envía al transceptor 612 y se transmite mediante la antena 614 mediante un enlace inalámbrico a la CG 200. El enlace inalámbrico es de preferencia RF, pero puede ser de IR o una combinación de los mismos. En esta modalidad, se proporciona la misma funcionalidad como se muestra en la Figura 3, excepto que el procesamiento se divide entre el teléfono 600 inalámbrico y el módulo 240 de procesamiento de comandos de voz. Los métodos 300, 400 como se muestran en las Figuras 5 y 6 operarán de la misma forma que lo descrito anteriormente . También se debe entender por aquellos con experiencia en la técnica que la funcionalidad del sistema es superior, no el hardware específico. Ni es importante cuáles componentes específicos realizan qué etapas de procesamiento. Por ejemplo, la etapa 306 de sustracción de ruidos la cual se describió con referencia a las Figuras 5 y 6, puede realizarse solamente dentro del teléfono 600 inalámbrico, por lo que la unidad 244 de entrada de ruidos conocidos reside dentro de la CG 200 y la salida 247 de la unidad 244 de entrada de ruidos conocidos se transmite inalámbricamente (mediante RF o IR) desde la CG 200 al teléfono 600 inalámbrico. De igual manera, los recursos de red corriente arriba de la CG 200, tal como el cabezal 18 de antena de CATV, pueden ayudar a o soportar la carga de procesamiento para el reconocimiento del habla u otras funciones de procesamiento. Estos recursos de red son computadoras de red, aplicaciones automatizadas o inteligentes o incluso asistencia humana. En favor de la funcionalidad adicional, el teléfono 600 inalámbrico puede proporcionar funcionalidad de "doble modo". Con tal funcionalidad, el teléfono 600 inalámbrico procesará todas las señales telefónicas con la CG 200 para que cualquiera del cabezal 18 de antena de CATV, la PSTN 20 o la red 22 inalámbrica pueda ser el portador preferido. La CG 200 actuará como la estación base para el teléfono 600 inalámbrico cuando el teléfono 600 inalámbrico esté dentro de un margen predeterminado. Una vez que el teléfono 600 inalámbrico excede el margen predeterminado, se comunicará directamente con las estaciones base en la red de un portador inalámbrico. Un procedimiento que utiliza un teléfono 600 inalámbrico de acuerdo con esta modalidad de la presente invención se muestra en la Figura 8. En este método 700, se accede al teléfono inalámbrico (etapa 702) y el usuario determina si desea o no hacer una llamada (etapa 704) . Esta determinación puede ser un comando de voz o puede invocarse al presionar una de las teclas de función. En cualquier caso, si el usuario desea invocar una funcionalidad del sistema que no sea una llamada telefónica, se activa el modo de comando de voz (etapa 706) . Este comando de voz se procesa de acuerdo con uno de los procedimientos 300, 400 descritos en lo anterior que generalmente utilizan un comando de voz por el usuario (etapa 708), detectan las entradas audibles y eliminan el ruido conocido de la señal compuesta (etapa 710) y realizan el procesamiento de reconocimiento del habla (712) . Si se ha determinado que se ha recibido un comando de voz válido (etapa 714), el comando se ejecuta (etapa 718) . Si no se ha recibido ningún comando de voz válido, el proceso se repite. Si se ha determinado (etapa 704) que el usuario desea hacer una llamada telefónica, el sistema determina si el teléfono 600 inalámbrico está dentro del margen predeterminado (etapa 720) . Si es así, la red de CATV se selecciona como el portador para esa llamada telefónica (etapa 722). La conversación telefónica entonces se procesará mediante el cabezal 18 de antena de CATV. Desde luego, si el usuario asi lo desea, cualquiera de la PSTM 20 o la red 22 inalámbrica puede utilizarse para procesar tal llamada. Si se ha determinado que el teléfono 600 inalámbrico esté fuera del margen predeterminado (etapa 720) , se invoca el portador inalámbrico regular (etapa 724) para soportar la conversación telefónica. El usuario puede elegir de entre diferentes proveedores de servicio telefónico dependiendo de la confiabilidad en el servicio, los precios del servicio y otros factores. La selección puede realizarse por el usuario en una base de tiempo real o puede preestablecerse por el usuario para invocar un portador u otro dependiendo del dia de la semana, la hora del día u otros factores. Mientras la presente invención se ha descrito en términos de la modalidad preferida, otras variaciones que están dentro del alcance de la invención como se representan en las reivindicaciones siguientes serán aparentes para aquellos con experiencia en la técnica.

Claims (14)

  1. NOVEDAD DE LA INVENCIÓN Habiendo descrito la presente invención se considera como novedad y por lo tanto se reclama como propiedad lo descrito en las siguientes reivindicaciones. 1. Una pasarela de comunicación controlada por voz para facilitar las comunicaciones entre por lo menos una entidad exterior y por lo menos un dispositivo electrónico, el dispositivo electrónico produce una señal conocida que corresponde a la salida audible del dispositivo electrónico, la pasarela de comunicación está caracterizada porque comprende: un receptor para recibir comunicaciones de las entidades exteriores; un primer transmisor para transmitir comunicaciones a las entidades exteriores; un micrófono para recibir todas las señales audibles dentro de un ambiente, y para producir una señal compuesta ; un módulo de voz para recibir la señal compuesta y la señal conocida y para generar un comando; y un microprocesador, acoplado al receptor, al transmisor y al módulo de voz para recibir y ejecutar el comando .
  2. 2. La pasarela de comunicación de conformidad con la reivindicación 1, caracterizada porque el módulo de voz además comprende un cancelador de ruidos para sustraer la señal conocida de la señal compuesta para generar una señal de ruido desconocido.
  3. 3. La pasarela de comunicación de conformidad con la reivindicación 2, caracterizada porque además comprende un procesador de reconocimiento del habla para aceptar la señal de ruido desconocido y para producir una salida de señal de voz que comprende una o más palabras identificadas .
  4. 4. La pasarela de comunicación de conformidad con la reivindicación 3, caracterizada porque además comprende una base de datos de comandos la cual acepta una o más palabras identificadas y compara las palabras identificadas con los comandos almacenados en la memoria para producir el comando.
  5. 5. La pasarela de comunicación de conformidad con la reivindicación 1, caracterizada porque además comprende : una unidad remota que tiene un segundo transmisor; un segundo receptor, localizado en la pasarela de comunicación, para recibir señales del segundo transmisor; y por lo cual el micrófono se localiza en la unidad remota .
  6. 6. La pasarela de comunicación de conformidad con la reivindicación 5, caracterizada porque la unidad remota además incluye un teléfono, con lo que el segundo transmisor transmite las señales telefónicas de la unidad remota al segundo receptor.
  7. 7. La pasarela de comunicación de conformidad con la reivindicación 6, caracterizada porque la unidad remota además incluye un procesador para procesar, por lo menos en parte, la señal compuesta.
  8. 8. La pasarela de comunicación de conformidad con la reivindicación 7, caracterizada porque la señal compuesta procesada se transmite desde el segundo transmisor hasta el segundo receptor para su procesamiento adicional por el microprocesador.
  9. 9. Una pasarela de comunicación controlada por voz para controlar una pluralidad de dispositivos electrónicos, cada dispositivo electrónico produce una señal conocida que corresponde a la salida audible del dispositivo electrónico, la pasarela de comunicación caracterizada porque comprende: un micrófono para recibir todas las señales audibles dentro de un ambiente, y para producir una señal compuesta; un módulo de voz para sustraer cada una de las señales conocidas de la señal compuesta para producir una señal desconocida; y un microprocesador, para recibir la señal de ruido desconocido, para procesar la señal de ruido desconocido, para procesar la señal de ruido desconocido para determinar si comprende un comando y, si es asi, ejecutar el comando para controlar por lo menos uno de los dispositivos electrónicos.
  10. 10. La pasarela de comunicación de conformidad con la reivindicación 9, caracterizada porque además comprende un procesador de reconocimiento del habla para procesar la señal de ruido desconocido y para producir una salida de señal de voz que comprende una o más palabras identificadas.
  11. 11. La pasarela de comunicación de conformidad con la reivindicación 10, caracterizada porque además comprende una base de datos de comandos la cual acepta una o más palabras identificadas y compara las palabras identificadas con los comandos almacenados en la base de datos de comandos para producir él comando.
  12. 12. La pasarela de comunicación de conformidad con la reivindicación 9, caracterizada porque además comprende : una unidad remota que tiene un segundo transmisor; un segundo receptor, localizado en la pasarela de comunicación, para recibir las señales del segundo transmisor; y por lo cual el micrófono se localiza en la unidad remota.
  13. 13. La pasarela de comunicación de conformidad con la reivindicación 12, caracterizada porque la unidad remota además incluye un teléfono, con lo que el transmisor transmite las señales telefónicas de la unidad remota al segundo receptor.
  14. 14. Una pasarela de comunicación controlada por voz para controlar por lo menos un dispositivo electrónico, el dispositivo electrónico produce una salida audible; la pasarela de comunicación caracterizada porque comprende: una memoria, para almacenar por lo menos un comando ejecutable con una señal de voz asociada; un micrófono para recibir todas las señales audibles dentro de un ambiente, y para producir una señal compuesta; y un. microprocesador, para sustraer la señal audible de la señal compuesta para producir una señal de ruido desconocido, y para comparar la señal de ruido desconocido con la señal de voz almacenada; por lo que si la comparación es favorable, se ejecuta el comando ejecutable asociado con la señal de voz.
MXPA05000311A 2002-07-05 2003-07-02 Pasarela de comunicacion controlable por voz para controlar multiples aparatos electronicos y de informacion. MXPA05000311A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/190,255 US20040006477A1 (en) 2002-07-05 2002-07-05 Voice-controllable communication gateway for controlling multiple electronic and information appliances
PCT/US2003/020962 WO2004006223A2 (en) 2002-07-05 2003-07-02 Voice-controllable communication gateway for controlling multiple electronic and information appliances

Publications (1)

Publication Number Publication Date
MXPA05000311A true MXPA05000311A (es) 2005-03-31

Family

ID=29999835

Family Applications (1)

Application Number Title Priority Date Filing Date
MXPA05000311A MXPA05000311A (es) 2002-07-05 2003-07-02 Pasarela de comunicacion controlable por voz para controlar multiples aparatos electronicos y de informacion.

Country Status (5)

Country Link
US (1) US20040006477A1 (es)
AU (1) AU2003281433A1 (es)
CA (1) CA2491039A1 (es)
MX (1) MXPA05000311A (es)
WO (1) WO2004006223A2 (es)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6674562B1 (en) * 1994-05-05 2004-01-06 Iridigm Display Corporation Interferometric modulation of radiation
WO2005114666A1 (ja) * 2004-05-24 2005-12-01 Pioneer Corporation 情報再生装置及び情報再生方法等
US20060229881A1 (en) * 2005-04-11 2006-10-12 Global Target Enterprise Inc. Voice recognition gateway apparatus
US11783925B2 (en) 2006-12-29 2023-10-10 Kip Prod P1 Lp Multi-services application gateway and system employing the same
US9602880B2 (en) 2006-12-29 2017-03-21 Kip Prod P1 Lp Display inserts, overlays, and graphical user interfaces for multimedia systems
WO2008085207A2 (en) 2006-12-29 2008-07-17 Prodea Systems, Inc. Multi-services application gateway
US11316688B2 (en) 2006-12-29 2022-04-26 Kip Prod P1 Lp Multi-services application gateway and system employing the same
US20170344703A1 (en) 2006-12-29 2017-11-30 Kip Prod P1 Lp Multi-services application gateway and system employing the same
US9569587B2 (en) 2006-12-29 2017-02-14 Kip Prod Pi Lp Multi-services application gateway and system employing the same
US20120065972A1 (en) * 2010-09-12 2012-03-15 Var Systems Ltd. Wireless voice recognition control system for controlling a welder power supply by voice commands
US9386147B2 (en) * 2011-08-25 2016-07-05 Verizon Patent And Licensing Inc. Muting and un-muting user devices
US20130073293A1 (en) * 2011-09-20 2013-03-21 Lg Electronics Inc. Electronic device and method for controlling the same
CA2775700C (en) 2012-05-04 2013-07-23 Microsoft Corporation Determining a future portion of a currently presented media program
KR101330671B1 (ko) 2012-09-28 2013-11-15 삼성전자주식회사 전자장치, 서버 및 그 제어방법
KR102102246B1 (ko) * 2012-12-18 2020-04-22 삼성전자주식회사 홈 네트워크 시스템에서 홈 디바이스를 원격으로 제어하는 방법 및 장치
US9451394B2 (en) * 2012-12-31 2016-09-20 Elwha Llc Cost-effective mobile connectivity protocols
US9980114B2 (en) 2013-03-15 2018-05-22 Elwha Llc Systems and methods for communication management
US9781664B2 (en) 2012-12-31 2017-10-03 Elwha Llc Cost-effective mobile connectivity protocols
US9635605B2 (en) 2013-03-15 2017-04-25 Elwha Llc Protocols for facilitating broader access in wireless communications
US9876762B2 (en) 2012-12-31 2018-01-23 Elwha Llc Cost-effective mobile connectivity protocols
US9713013B2 (en) 2013-03-15 2017-07-18 Elwha Llc Protocols for providing wireless communications connectivity maps
US9832628B2 (en) 2012-12-31 2017-11-28 Elwha, Llc Cost-effective mobile connectivity protocols
CN103108235A (zh) * 2013-03-05 2013-05-15 北京车音网科技有限公司 电视控制方法、装置及系统
US9693214B2 (en) 2013-03-15 2017-06-27 Elwha Llc Protocols for facilitating broader access in wireless communications
US9706382B2 (en) 2013-03-15 2017-07-11 Elwha Llc Protocols for allocating communication services cost in wireless communications
US9706060B2 (en) 2013-03-15 2017-07-11 Elwha Llc Protocols for facilitating broader access in wireless communications
US9807582B2 (en) 2013-03-15 2017-10-31 Elwha Llc Protocols for facilitating broader access in wireless communications
US9596584B2 (en) 2013-03-15 2017-03-14 Elwha Llc Protocols for facilitating broader access in wireless communications by conditionally authorizing a charge to an account of a third party
US9866706B2 (en) 2013-03-15 2018-01-09 Elwha Llc Protocols for facilitating broader access in wireless communications
US9813887B2 (en) 2013-03-15 2017-11-07 Elwha Llc Protocols for facilitating broader access in wireless communications responsive to charge authorization statuses
US9843917B2 (en) 2013-03-15 2017-12-12 Elwha, Llc Protocols for facilitating charge-authorized connectivity in wireless communications
US10145579B2 (en) 2013-05-01 2018-12-04 Honeywell International Inc. Devices and methods for interacting with a control system that is connected to a network

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5128987A (en) * 1989-01-23 1992-07-07 John Sheridan Telephone-responsive device for muting the sound output of a television set
US5267323A (en) * 1989-12-29 1993-11-30 Pioneer Electronic Corporation Voice-operated remote control system
US5138649A (en) * 1990-11-16 1992-08-11 General Instrument Corporation Portable telephone handset with remote control
US5583965A (en) * 1994-09-12 1996-12-10 Sony Corporation Methods and apparatus for training and operating voice recognition systems
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US6185535B1 (en) * 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US6584439B1 (en) * 1999-05-21 2003-06-24 Winbond Electronics Corporation Method and apparatus for controlling voice controlled devices

Also Published As

Publication number Publication date
CA2491039A1 (en) 2004-01-15
WO2004006223A3 (en) 2004-02-26
WO2004006223A2 (en) 2004-01-15
US20040006477A1 (en) 2004-01-08
AU2003281433A1 (en) 2004-01-23

Similar Documents

Publication Publication Date Title
MXPA05000311A (es) Pasarela de comunicacion controlable por voz para controlar multiples aparatos electronicos y de informacion.
US20070277215A1 (en) Contact list for a hybrid communicator/remote control
US7016481B2 (en) Remote internet telephony device
EP1845615B1 (en) Muting device, liquid crystal display television, and muting method
WO2002096111A1 (en) Noise reduction for teleconferencing within an interactive television system
US20050270143A1 (en) Surveillance apparatus integrated with mobile phone
EP1307875B1 (en) System for controlling an apparatus with speech commands
JPH11220529A (ja) コードレス電話システム
JP7467513B2 (ja) 端末、音声連携再生システム及びコンテンツ表示装置
KR100426729B1 (ko) 음성인식 홈오토메이션 시스템
JP2004219728A (ja) 音声認識装置
KR101036842B1 (ko) 핸드폰의 이어폰 잭에 장착하여 사용되는 디지털기기 제어용 리모콘 모듈
KR100510122B1 (ko) 음성인식 홈 오토메이션 시스템 및 이를 이용한 가정용 기기 제어방법
JP2000165967A (ja) インターホンシステム
KR101919474B1 (ko) 마이크가 버튼 기능을 수행하는 이어폰 장치
JP3341365B2 (ja) 音声アダプタ
EP1079352B1 (en) Remote voice control system
KR101517232B1 (ko) 이동 통신 단말기를 이용한 음성 송신 시스템
KR20020088693A (ko) 음성인식 기능이 부가된 인터넷 tv용 셋톱박스
CN103489462B (zh) 影音播放装置与方法
KR100296507B1 (ko) 적외선리모콘 신호수신 기억형 제어장치와 이를 이용한 기기의 제어방법
KR20060084546A (ko) 원격 음성인식 제어 시스템
KR100368953B1 (ko) 착탈이동 가능한 가정용 무선 제어 시스템
CN113067755A (zh) 一种语音远程控制智能家居设备的方法与系统
KR19990081246A (ko) 음성 인식 기능을 내장한 가정 자동화 장치제어 방법