MX2014006001A - Igualacion de patron de audio para activacion de dispositivo. - Google Patents

Igualacion de patron de audio para activacion de dispositivo.

Info

Publication number
MX2014006001A
MX2014006001A MX2014006001A MX2014006001A MX2014006001A MX 2014006001 A MX2014006001 A MX 2014006001A MX 2014006001 A MX2014006001 A MX 2014006001A MX 2014006001 A MX2014006001 A MX 2014006001A MX 2014006001 A MX2014006001 A MX 2014006001A
Authority
MX
Mexico
Prior art keywords
activation
standby
power mode
pattern
audio
Prior art date
Application number
MX2014006001A
Other languages
English (en)
Other versions
MX344403B (es
Inventor
Raghu Murthi
Edward C Giaimo Iii
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of MX2014006001A publication Critical patent/MX2014006001A/es
Publication of MX344403B publication Critical patent/MX344403B/es

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Control Of Voltage And Current In General (AREA)
  • Transmitters (AREA)
  • Power Sources (AREA)
  • Direct Current Feeding And Distribution (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Selective Calling Equipment (AREA)

Abstract

Se describen un sistema y método para activar un dispositivo eléctrico desde un modo de energía en espera a un modo de energía completa. El sistema puede incluir uno o más micrófonos para verificar señales de audio en la cercanía del dispositivo eléctrico, y una unidad de activación de energía en espera que incluye un microprocesador de baja energía y una memoria no volátil. El audio capturado por el uno o más micrófonos se digitaliza y compara por el microprocesador contra un patrón(es) de activación predefinido almacenado en la memoria no volátil. Si se detecta una igualación de patrón entre el patrón de audio digital y un patrón de activación predefinido, se activa el dispositivo eléctrico.

Description

IGUALACION DE PATRON DE AUDIO PARA ACTIVACION DE DISPOSITIVO ANTECEDENTES Es una práctica común ejecutar dispositivos eléctricos inactivos o apagados en un modo de energía en espera, en donde el dispositivo consume una cantidad reducida de electricidad. El símbolo de espera típico de un dispositivo eléctrico puede ser por ejemplo de hasta 8 vatios. Sin embargo, tomado a través de los miles de millones de dispositivos eléctricos en uso, incluso esta p equeña cantidad se acumula a una fracción apreciable de consumo de electricidad mundial total. Iniciativas tales c orno la Iniciativa de Un Vatio por la Agencia Internacional de Energía (IEA) están intentando reducir energía en espera en dispositivos eléctricos a 0.5 vatios para el año 2013. Podría ser ventajoso permitir la activación simplificada de dispositivos eléctricos en modo de energía en espera, incluso cuando operan a 0.5 vatios.
BREVE DESCRIPCION DE LA INVENCION La presente tecnología en general se refiere a un sistema incluido en un dispositivo eléctrico para activar el dispositivo de un modo de energía en espera a un modo de energía completa. El sistema incluye uno o más micrófonos y una unidad de activación en espera. La unidad de activación en espera incluye un procesador tal como un microprocesador y una memoria no volátil asociada. Una o más frases de activación digitalizadas pueden almacenarse en la memoria no volátil, ya sean pre-grabadas antes del primer uso por un usuario, o seleccionadas e ingresadas por un usuario.
Cuando el dispositivo eléctrico se está ejecutando en un modo de energía en espera, el uno o más micrófonos se alimentan para detectar sonido en una cercanía del micrófono. Con el fin de activar el dispositivo eléctrico cuando está en modo de energía en espera, un usuario puede decir una frase de activación pre-grabada o seleccionada por usuario que coincida con una almacenada en la memoria no volátil. La corriente de audio se detecta por el uno o más micrófonos y se digitaliza en un patrón de audio. El patrón de audio entonces se compara por el procesador de la unidad de activación en espera contra las una o más frases de activación almacenadas en la memoria no volátil. Si la frase hablada coincide con una frase de activación almacenada, el procesador identificará una coincidencia, y enviará una señal al circuito de energía para activar el dispositivo eléctrico a modo de energía completa. Cuando no se identifica ninguna coincidencia por el procesador entre un patrón de audio recibido y la frase(s) de activación almacenada, el dispositivo eléctrico permanece en modo de energía en espera.
El micrófono y la unidad de activación en espera son capaces de recibir una corriente de audio, digitalizarla en un patrón de audio y realizar la operación de igualación para comparar patrones de audio entrantes con la frase(s) de activación almacenada, todo con la energía disponible en modo en espera. En un ejemplo, esta energía puede ser 0.5 vatios.
En modalidades, la presente tecnología se refiere a un método para activar un dispositivo eléctrico de un modo de energía en espera, que comprende: (a) recibir una corriente de audio en el dispositivo eléctrico cuando está en modo de energía en espera; (b) digitalizar la corriente de audio a un patrón de audio cuando está en modo de energía en espera; (c) comparar el patrón de audio digitalizado en dicho paso (b) a una frase de activación digitalizada almacenada en una memoria no volátil cuando está en modo de energía en espera; y (d) activar el dispositivo eléctrico en donde el patrón de audio coincide con la frase de activación para estar dentro de una tolerancia predefinida.
En otro ejemplo, la presente tecnología se refiere a un sistema de activación en espera para activar un dispositivo eléctrico de un modo de energía en espera, la unidad de activación en espera comprende: uno o más micrófonos para detectar una corriente de audio en una cercanía del uno o más micrófonos; y una unidad de activación en espera, que incluye: una memoria no volátil que incluye uno o más patrones de activación almacenados, y un procesador para comparar un patrón de audio digitalizado recibido del uno o más micrófonos con uno o más patrones de activación almacenados en la memoria no volátil utilizando energía disponible al dispositivo eléctrico en modo de energía en espera, el procesador activa el dispositivo si el patrón digitalizado coincide con una frase de activación de una o más frases de activación almacenadas en la memoria no volátil para estar dentro de una tolerancia predefinida.
En un ejemplo adicional, la presente tecnología se refiere a un medio de almacenamiento legible por computadora que tiene instrucciones ejecutables por computadora para programar un procesador para realizar un método para activar un dispositivo de cómputo de un sistema NUI de interfase de usuario natural de un modo de energía en espera, que comprende: (a) recibir una corriente de audio en uno o más micrófonos asociados con el sistema NUI cuando está en modo de energía en espera; (b) digitalizar la corriente de audio a un patrón de audio cuando está en modo de energía en espera; (c) procesar la corriente de audio digitalizada para facilitar la igualación en la corriente de audio digitalizada con una o más frases de activación digitalizadas almacenadas en una memoria no volátil del dispositivo de cómputo cuando está en modo de energía en espera; (d) comparar el patrón de audio procesado en dicho paso (c) con una o más frases de activación digitalizadas almacenadas en la memoria no volátil del dispositivo de cómputo cuando está en modo de energía en espera; y (e) activar el dispositivo de cómputo cuando el patrón de audio coincide con una frase de activación de la una o más frases de activación para estar dentro de una tolerancia predefinida.
Esta Breve Descripción se proporciona para introducir una selección de conceptos en una forma simplificada que además se describe a continuación en la Descripción Detallada. Esta Breve Descripción no pretende identificar características clave o características esenciales del tema reclamado, ni pretenden utilizarse como un auxiliar al determinar el alcance del tema reclamado. Además, el tema reclamado no está limitado a implementaciones que resuelvan cualquiera o todas I as desventajas observadas en cualquier parte de esta descripción.
BREVE DESCRIPCION DE LOS DIBUJOS Las Figuras 1A-1B muestran modalidades ilustrativas de un sistema de reconocimiento, análisis, y rastreo objetivo con un usuario que juega un juego.
La Figura 2 muestra una modalidad ilustrativa de un dispositivo de captura que puede utilizarse en un sistema de reconocimiento, análisis, y rastreo objetivo.
La Figura 3A muestra una modalidad ilustrativa de un ambiente de cómputo que puede utilizarse p ara interpretar uno o más gestos en un sistema de reconocimiento, análisis, y rastreo objetivo.
La Figura 3B muestra otra modalidad ilustrativa de un ambiente de cómputo que puede utilizarse p ara interpretar uno o más gestos en un sistema de reconocimiento, análisis, y rastreo objetivo.
La Figura 4 es un cuadro de flujo de una modalidad para enseñar y almacenar una frase de activación.
La Figura 5 es un patrón de activación digitalizado de muestra.
La Figura 6 es un cuadro de flujo de una modalidad para activar un dispositivo eléctrico cuando está en un modo de energía en espera.
La Figura 7 es un diagrama de bloques de una modalidad para activar un dispositivo eléctrico cuando está en u n modo de energía en espera.
DESCRIPCION DETALLADA Las modalidades de la presente tecnología se describirán con referencia a las Figuras 1A-7, que en general se refieren a un sistema incluido en un dispositivo eléctrico para activar el dispositivo de un modo de energía en espera a un modo energía completa. En un ejemplo, el dispositivo eléctrico puede ser un sistema NUI descrito a continuación como un sistema de reconocimiento, análisis, y rastreo objetivo 10. Un sistema NUI puede ser un sistema en donde se detectan gestos de usuario, interpretados y utilizados para controlar caracteres en pantalla u otros aspectos de una aplicación de software. Sin embargo, como se describe a continuación adicionalmente, el dispositivo eléctrico puede ser una variedad de otros dispositivos y aparatos de cómputo. En modalidades, el sistema de la presente descripción incluye uno o más micrófonos para verificar señales de audio en la cercanía del dispositivo eléctrico, y una unidad de activación de energía en espera que incluye un microprocesador de baja energía y una memoria no volátil.
Cuando el dispositivo está en un modo de energía en espera, el micrófono captura audio, y convierte el audio a un patrón de audio digital. Este patrón de audio entonces se compara por el microprocesador contra patrón(es) de activación predefinido almacenado en la memoria no volátil. Si se detecta una coincidencia de patrón entre el patrón de audio digital y un patrón de activación predefinido, se activa el dispositivo eléctrico.
El uno o más micrófonos, microprocesador y memoria no volátil juntos son capaces de obtener patrones de audio y comparar los contra patrones de activación almacenados utilizando una pequeña cantidad de energía, por ejemplo 0.5 vatios. De esa forma, el presente sistema puede utilizarse para activar el dispositivo eléctrico mientras el dispositivo eléctrico está en un modo de energía en espera, es decir, ya sea inactivo o apagado. Cuando está en el modo de energía en espera, el dispositivo eléctrico descrito a continuación recibe una energía en espera, que en ejemplos puede ser 0.5 vatios. Se entiende que la energía en espera puede ser superior o inferior a esto en modalidades adicionales, y que el presente sistema sería operable a tales configuraciones de energía en espera superiores o inferiores.
Al hacer referencia inicialmente a las Figuras 1A-2, el hardware para implementar un ejemplo de la presente tecnología incluye un sistema de reconocimiento, análisis, y rastreo objetivo 10 que puede utilizarse para reconocer, analizar, y/o rastrear a un objetivo humano tal como el usuario 18. Las modalidades del sistema de reconocimiento, análisis, y rastreo objetivo 10 incluyen un dispositivo de cómputo 12 para ejecutar un juego u otra aplicación. El dispositivo de cómputo 12 puede incluir componentes de hardware y/o componentes de software de manera que el dispositivo de cómputo 12 puede utilizarse para ejecutar aplicaciones tales como aplicaciones de juego y no juego. En una modalidad, el dispositivo de cómputo 12 puede incluir un procesador tal como un procesador estandarizado, un procesador especializado, un microprocesador, o similares que pueden ejecutar instrucciones almacenadas en un dispositivo de almacenamiento legible por procesador para realizar procedimientos del dispositivo 10 cuando está activo y se ejecuta en energía completa.
Como se describió aquí en lo sucesivo, el dispositivo de cómputo 12 además puede incluir un segundo procesador de baja energía o microprocesador que puede ejecutar instrucciones almacenadas en una memoria no volátil para realizar un procedimiento de activación del dispositivo 10 cuando se ejecuta en modo en espera.
El sistema 10 además incluye un dispositivo de captura 20 para capturar datos de imagen y audio que se refieren a uno o más usuarios y/u objetos detectados por el dispositivo de captura. En modalidades, el dispositivo de captura 20 puede utilizarse para capturar información que se refiere a movimientos de cuerpo y mano y/o gestos y diálogos de uno o más usuarios, cuya información se recibe por el ambiente de cómputo y se utiliza para presentar, ¡nteractuar con y/o controlar aspectos de un juego u otra aplicación. Ejemplos del dispositivo de cómputo 12 y dispositivo de captura 20 se explican con mayor detalle a continuación.
Las modalidades del sistema de reconocimiento, análisis y rastreo objetivo 10 pueden conectarse a un dispositivo de audio/visual (A/V) 16 que tiene una presentación 14. El dispositivo 16 por ejemplo puede ser una televisión, un monitor, una televisión de alta definición (HDTV), o similares que puede proporcionar juego o visuales y/o audio de aplicación a un usuario. Por ejemplo, el dispositivo de cómputo 12 puede incluir un adaptador de video tal como una tarjeta de gráficos y/o un adaptador de audio tal como una tarjeta de sonido que puede proporcionar señales de audio/visuales asociadas con el juego u otra aplicación. El dispositivo A/V 16 puede recibir las señales de audio/visuales del dispositivo de cómputo 12 y entonces puede e nviar los visuales y/o audio de juego o aplicación asociados con las señales audio/visuales al usuario 18. De acuerdo con u na m odalidad, e I dispositivo audio/visual 16 puede conectarse al dispositivo de cómputo 12 a través de, por ejemplo, un cable S-video, un cable coaxial, un cable HDMI, un cable DVI, un cable VGA, un cable de video de componente, o similares.
En modalidades, el dispositivo de cómputo 12, el dispositivo A/B 16 y el dispositivo de captura 20 pueden cooperar para presentar un avatar o personaje en pantalla 19 en la presentación 14. Por ejemplo, la Figura 1A muestra a un usuario 18 jugando una aplicación de juego de fútbol. Los movimientos del usuario se rastrean y utilizan para animar los movimientos del avatar 19. En modalidades, el avatar 19 imita los movimientos del usuario 18 en espacio de mundo real de manera que el usuario 18 pueda realizar movimientos y gestos que controlan los movimientos y acciones del avatar 19 e n la presentación 14. En la Figura 1B, el dispositivo de captura 20 se utiliza en un sistema NUI en donde, por ejemplo, un usuario 18 se está desplazando a través de y controlando una interfase de usuario 21 con una variedad de opciones de menú presentadas en la presentación 14. En la Figura 1B, el dispositivo de cómputo 12 y el dispositivo de captura 20 pueden utilizarse para reconocer y analizar movimientos y gestos del cuerpo de un usuario, y tales movimientos y gestos pueden interpretarse como controles para la interfase de usuario.
Ejemplos adecuados de un sistema 10 y componentes del mismo se encuentran en las siguientes solicitudes de patentes co-pendientes, de las cuales todas se incorporan aquí específicamente por referencia: Solicitud de Patente de los Estados Unidos Serie No. 12/475,094, titulada "Ambiente y/o Segmentación Objetivo", presentada el 29 mayo, 2009; Solicitud de Patente de los Estados Unidos Serie No. 12/511,850, titulada "Auto Generar una Representación Visual", presenta del 29 julio, 2009; Solicitud de Patente de los Estados Unidos Serie No. 12/474,655, titulada "Herramienta de Gesto", presentada el 29 de mayo, 2009; Solicitud de Patente de los Estados Unidos Serie No. 12/603,437, titulada "Tubería de Rastreo de Pose", presentada el 21 de octubre, 2009; Solicitud de Patente de los Estados Unidos Serie No. 12/475,308, titulada "Dispositivo para Identificar y Rastrear a Múltiples Humanos con el Tiempo", presenta el 29 mayo, 2009, Solicitud de Patente de los Estados Unidos Serie No. 12/575,388, titulada "Sistema de Rastreo Humano", presenta el 7 de octubre, 2009; Solicitud de Patente de los Estados Unidos Serie No. 12/422,661, titulada "Arquitectura de Sistema de Reconocedor de Gesto", presentada el 13 de abril, 2009; y Solicitud de Patente de los Estados Unidos Serie No. 12/391,150, titulada "Gestos Estándares", presentada el 23 de febrero, 2009.
La Figura 2 muestra una modalidad ilustrativa del dispositivo de captura 20 que puede utilizarse en el sistema de reconocimiento, análisis, y rastreo objetivo 10. En una modalidad ilustrativa, el dispositivo de captura 20 puede configurarse para capturar video que tiene una imagen de profundidad que puede incluir valores de profundidad a través de cualquier técnica adecuada que incluye, por ejemplo, tiempo de vuelo, luz estructurada, imagen estéreo, o similares. De acuerdo con una modalidad, el dispositivo de captura 20 puede organizar la información de profundidad calculada en "Z capas", o capas que pueden ser perpendiculares a un eje Z que se extiende desde la cámara de profundidad a lo largo de su línea de visión. Los ejes X e Y pueden definirse como siendo perpendiculares al eje Z. El eje Y puede ser vertical y el eje X puede ser horizontal. Juntos, los ejes X, Y y Z definen el espacio de mundo real 3-D capturado por el dispositivo de captura 20.
Como se muestra en la Figura 2, el dispositivo de captura 20 puede incluir un componente de cámara de imagen 22. De conformidad con una modalidad ilustrativa, el componente de cámara de imagen 22 puede ser una cámara de profundidad que puede capturar la imagen de profundidad de una escena. La imagen de profundidad puede incluir un área de pixel bidimensional (2-D) de la escena capturada en donde cada pixel en el área de pixel 2-D puede representar un valor de profundidad tal como una longitud o distancia, por ejemplo, en centímetros, milímetros, o similares de un objeto en la escena capturada de la cámara.
Como se muestra en la Figura 2, de acuerdo con una modalidad ilustrativa, el componente de cámara de imagen 22 puede incluir un componente de luz IR 24, una cámara tridimensional (3-D) 26, y una cámara RGB 28 que puede utilizarse para capturar la imagen de profundidad de una escena. Por ejemplo, en análisis de tiempo de vuelo, el componente de luz IR 24 del dispositivo de captura 20 puede emitir una luz infrarroja sobre la escena y entonces puede utilizar sensores (no mostrados) para detectar la luz retrodispersada desde la superficie de uno o más objetivos y objetos en la escena utilizando, por ejemplo, la cámara 3D 26 y/o la cámara RGB 28.
En algunas modalidades, la luz infrarroja pulsada puede utilizarse de manera que el tiempo entre un impulso de luz de salida y un impulso de luz de entrada correspondiente puede medirse y utilizarse para determinar una distancia física desde el dispositivo de captura 20 hacia una ubicación particular sobre los objetivos u objetos en la escena. Adicionalmente, en otras modalidades ilustrativas, la fase de la onda de luz de salida puede compararse con la fase de la onda de luz de entrada para determinar un desplazamiento de fase. El desplazamiento de fase entonces puede utilizarse para determinar una distancia física desde el dispositivo de captura 20 a una ubicación particular sobre los objetivos u objetos.
De acuerdo con otra modalidad ilustrativa, el análisis de tiempo de vuelo puede utilizarse para determinar indirectamente una distancia física desde el dispositivo de captura 20 a una ubicación particular sobre los objetivos u objetos al analizar la intensidad del haz de luz reflejado con el tiempo a través de varias técnicas incluyendo, por ejemplo, ¡magenología de impulso de luz cerrado.
En otra modalidad ilustrativa, el dispositivo de captura 20 puede utilizar una luz estructurada para capturar información de profundidad. En tal análisis, la luz en patrón (es decir, luz presentada como un patrón conocido tal como un patrón de cuadrícula o un patrón de tira) puede proyectarse sobre la escena a través de, por ejemplo, el componente de luz IR 24. Al golpear la superficie de uno o más objetivos u objetos en la escena, el patrón puede deformarse en respuesta. Tal deformación del patrón puede capturarse, por ejemplo, mediante la cámara 3D 26 y/o la cámara RGB 28 y entonces puede analizarse para determinar una distancia física desde el dispositivo de captura 20 a una u bícación particular sobre los objetivos u objetos.
De acuerdo con otra modalidad, el dispositivo de captura 20 puede incluir dos o más cámaras físicamente separadas que pueden ver una escena desde diferentes ángulos, para obtener datos estéreo visuales que pueden resolverse para generar información de profundidad. En otra modalidad ilustrativa, el dispositivo de captura 20 puede utilizar datos de nube de punto y técnicas de digitalizacion objetivo para detectar características del usuario.
El dispositivo de captura 20 además puede incluir un micrófono 30. El micrófono 30 puede incluir un transductor o sensor que puede recibir y convertir sonido en una señal eléctrica. De acuerdo con una modalidad, el micrófono 30 puede utilizarse para reducir retroalimentación entre el dispositivo de captura 20 y el dispositivo de cómputo 12 en el sistema de reconocimiento, análisis, y rastreo objetivo 10. Adicionalmente, el micrófono 30 puede utilizarse para recibir señales de audio que también pueden proporcionarse por el usuario para controlar aplicaciones tal como aplicaciones de juego, aplicaciones de no juego, o similares que pueden ejecutarse por el dispositivo de cómputo 12. En lugar de un micrófono individual 30, el presente sistema puede emplear dos o más micrófonos. Múltiples micrófonos permiten localización de fuente acústica para identificar la fuente de un sonido.
En una modalidad ilustrativa, el dispositivo de captura 20 además puede incluir un procesador 32 que puede estar en comunicación operativa con el componente de cámara de imagen 22. El procesador 32 puede incluir un procesador estandarizado, un procesador especializado, un microprocesador, o similares que pueden ejecutar instrucciones que pueden incluir instrucciones para recibir la imagen de profundidad, determinar si un objetivo adecuado puede incluirse en la imagen de profundidad, convertir el objetivo adecuado en una representación o modelo de esqueleto del objetivo, o cualquier instrucción adecuada.
El dispositivo de captura 20 además puede incluir un componente o memoria 34 que puede almacenar las instrucciones que pueden ejecutarse por el procesador 32, imágenes o cuadros de imágenes capturados por la cámara 3D o cámara RGB, o cualquier otra información adecuada, imágenes, o similares. De acuerdo con una modalidad ilustrativa, el componente de memoria 34 puede incluir memoria de acceso aleatorio (RAM), memoria de sólo lectura (ROM), memoria caché, memoria flash, un disco duro, o cualquier otro componente de almacenamiento adecuado. Como se muestra en la Figura 2, en una modalidad, el componente de memoria 34 puede ser un componente separado en comunicación con el componente de cámara de imagen 22 y el procesador 32. De acuerdo con otra modalidad, el componente de memoria 34 puede integrarse dentro del procesador 32 y/o el componente de cámara de imagen 22.
Como se muestra en la Figura 2, e I dispositivo de captura 20 puede estar en comunicación con el dispositivo de cómputo 12 a través de un enlace de comunicación 36. El enlace de comunicación 36 puede ser una conexión por cable que incluye, por ejemplo, una conexión USB, una conexión Firewire, una conexión de cable de Ethernet, o similares y/o una conexión inalámbrica tal como una conexión inalámbrica 802.11b, g, a, o n. De acuerdo con una modalidad, el dispositivo de cómputo 12 puede proporcionar un reloj al dispositivo de captura 20 que puede utilizarse para determinar cuando capturar, por ejemplo, una escena a través del enlace de comunicación 36.
Adicionalmente, el dispositivo de captura 20 puede proporcionar la información de profundidad de imágenes capturadas, por ejemplo, por la cámara 3-D 26 y/o la cámara RGB 28. Con la ayuda de estos dispositivos, puede desarrollarse un modelo de esqueleto parcial de acuerdo con la presente tecnología, con los datos resultantes proporcionados al dispositivo de cómputo 12 a través del enlace de comunicación 36.
El dispositivo de cómputo 12 además puede incluir un procesador de reconocimiento de gesto 190 para reconocer gestos. De acuerdo con el presente sistema, el dispositivo de cómputo 12 además puede incluir un procesador de igualación de patrón 192, y, en modalidades, un procesador de reconocimiento de voz 194, ambos se explican a continuación.
La Figura 3A muestra una modalidad ilustrativa de un ambiente de cómputo que puede ser utilizado para interpretar uno o más gestos en un sistema de reconocimiento, análisis y rastreo objetivo. El ambiente de cómputo tal como el dispositivo de cómputo 12 descrito anteriormente con respecto a las Figuras 1A-2 puede ser una consola multimedia 100, tal como una consola de juegos. Como se muestra en la Figura 3A, la consola multimedia 100 tiene una unidad de procesamiento central (CPU) 101 que tiene una memoria caché 102 nivel 1, una memoria caché 104 nivel 2, y una ROM flash 106. La memoria caché 102 nivel 1 y una memoria caché 104 nivel 2 temporalmente almacenan datos y por lo tanto reducen el número de ciclos de acceso de memoria, mejorando con ello velocidad y rendimiento de procesamiento. La CPU 101 puede proporcionarse teniendo más de un núcleo, y de esa forma, las memorias caché 102 y 104 nivel 1 y nivel 2 adicionales. La ROM flash 106 puede almacenar código ejecutable que es cargado durante una fase inicial de un procedimiento de arranque cuando la consola multimedia 100 está encendida.
Aunque no se muestra en la Figura 3A, la consola multimedia 100 además puede incluir un procesador tal como un microprocesador y una memoria no volátil para activar el sistema de un modo de energía en espera. En modalidades adicionales, el procesador y memoria para activar el sistema de modo de energía en espera puede ser la unidad de procesamiento 101 y ROM 106, respectivamente.
Una unidad de procesamiento de gráficos (GPU) 108 y un codificador de video/códec (codificador/descodificador) de video 114 forman una tubería de procesamiento de video para procesamientos de gráficos de alta velocidad y alta resolución. Los datos se transportan desde la GPU 108 al codificador de video/códec de video 114 a través de un conductor común. La tubería de procesamiento de video envía datos a un puerto A/V (audio/video) 140 para transmisión a una televisión u otra presentación. Un controlador en memoria 110 está conectado a la GPU 108 para facilitar que el procesador acceda a varios tipos de memoria 112, tal como, pero no limitado a, una RAM.
La consola multimedia 100 incluye un controlador l/O 120, un controlador de manejo de sistema 122, una unidad de procesamiento de audio 123, un controlador de interfase de red 124, un primer controlador anfitrión USB 126, un segundo controlador anfitrión USB 128 y un sub-ensamble l/O de panel frontal 130 que preferiblemente se implementan en un módulo 118. Los controladores USB 126 y 128 sirven como anfitriones para controladores periféricos 142(1 )-142(2), un adaptador inalámbrico 148, y un d ispositivo de memoria externa 146 (por ejemplo, memoria flash, unidad ROM de serie/DVD externa, medios removibles, etc.). La interfase de red 124 y/o adaptador inalámbrico 148 proporcionan acceso a una red (por ejemplo, Internet, red doméstica, etc., y puede ser cualquiera de una gran variedad de varios componentes de adaptador por cable o inalámbricos incluyendo una tarjeta de Ethernet, un módem, un módulo Bluetooth, un módem de cable, y similares.
La memoria de sistema 143 se proporciona para almacenar datos de aplicación que son cargados durante el procedimiento de arranque. Una unidad de medios 144 se proporciona y puede comprender una unidad DVD/CD, unidad dura, u otra unidad de medios removibles, etc. La unidad de medios 144 puede ser interna o externa a la consola multimedia 100. Los datos de aplicación pueden accederse a través de la unidad de medios 144 para ejecución, reproducción, etc., mediante la consola multimedia 100. La unidad de medios 144 está conectada al controlador l/O 120 a través de un conductor común, tal como un conductor común ATA en serie u otra conexión a alta velocidad (por ejemplo, IFEE 1394).
El controlador de manejo de sistema 122 proporciona una variedad de funciones de servicio relacionadas para asegurar disponibilidad de la consola multimedia 100. La unidad de procesamiento de audio 123 y un códec de audio 132 forman una tubería de procesamiento de audio correspondiente con procesamiento de alta fidelidad y estero. Se transportan datos de audio entre la unidad de procesamiento de audio 123 y el códec de audio 132 a través de un enlace de comunicación. La tubería de procesamiento de audio envía datos al puerto A/V 140 para reproducción por un reproductor de audio externo o d ispositivo que tenga capacidades de audio.
El sub-ensamble l/O de panel frontal 130 soporta la funcionalidad del botón de energía 150 y el botón de expulsión 152, así como cualquier LED (diodos emisores de luz) u otros indicadores expuestos sobre la superficie exterior de la consola multimedia 100. Un módulo de suministro de energía de sistema 136 proporciona energía a los componentes de la consola multimedia 100. Un ventilador 138 enfría el sistema de circuitos dentro de la consola multimedia 100.
La CPU 101, GPU 108, controlador de memoria 110, y varios otros componentes dentro de la consola multimedia 100 están interconectados a través de uno o más conductores comunes, incluyendo conductores comunes en serie y paralelos, un conductor común de memoria, un conductor común periférico, y un procesador o conductor común local utilizando cualquiera de una variedad de arquitecturas de conductor común. A manera de ejemplo, tales arquitecturas pueden incluir un conductor común de Interconexiones de Componente Periférico (PCI), conductor común PCI-Express, etc.
Cuando la consola multimedia 110 está encendida, pueden cargarse datos de aplicación desde la memoria de sistema 143 dentro de la memoria 112 y/o memorias caché 102, 104 y ejecutarse en la CPU 101. La aplicación puede presentar una interfase de usuario gráfica que proporciona una experiencia de usuario consistente cuando navega a diferentes tipos de medios disponibles en la consola multimedia 100. En operación, pueden iniciarse o reproducirse aplicaciones y/u otros medios contenido dentro de la unidad de medios 144 desde la unidad de medios 144 para proporcionar funcionalidades adicionales a la consola multimedia 100.
La consola multimedia 100 puede operar como un sistema independiente simplemente al conectar el sistema a una televisión u otra presentación. En este modo independiente, la consola multimedia 100 permite a uno o más usuarios interactuar con el sistema, ver películas, o escuchar música. Sin embargo, con la integración de conectividad de banda ancha puesta disponibilidad a través de la interfase de red 124 o el adaptador inalámbrico 148, la consola multimedia 100 además puede operar como un participante en una comunidad de red más grande.
Cuando la consola multimedia 100 está encendida, se reserva una cantidad establecida de recursos de hardware para uso de sistema por el sistema operativo de consola multimedia. Esto recursos pueden incluir una reservación de memoria (por ejemplo, 16 MB), ciclos CPU y GPU (por ejemplo, 5%), ancho de banda en red (por ejemplo, 8 kbs), etc. Debido a que estos recursos están reservados en tiempo de arranque de sistema, los recursos reservados no existen desde el punto de vista de la solicitud.
En particular, la reservación de memoria preferiblemente es suficientemente grande para contener el núcleo de arranque, aplicaciones de sistema concurrentes y controladores. La reservación de CPU preferiblemente es constante de manera que si el uso de CPU reservado no se utiliza por las aplicaciones del sistema, una secuencia inactiva consumirá cualquiera de los ciclos no utilizados.
Con respecto a la reservación de GPU, se presentan mensajes ligeros generados por las aplicaciones de sistema (por ejemplo, ventanas emergentes) al utilizar una interrupción de GPU para programar código para presentar la ventana emergente en una sobre-posición. La cantidad de memoria requerida para una sobre-posición depende del tamaño de la sobre-posición y la sobre-posición preferiblemente a escala con resolución de pantalla. En donde se utiliza una interfase de usuario completa por la aplicación de sistema concurrente, es preferible utilizar una resolución independiente de la resolución de aplicación. Puede utilizarse una balanza para establecer esta resolución de manera que se elimina la necesidad de cambiar frecuencia y causar una re-sincronización de televisión.
Después de que la consola multimedia 100 se reinicia y se reserva a recursos de sistema, se ejecutan aplicaciones de sistema concurrentes para proporcionar funcionalidades del sistema. Las funcionalidades de sistema son encapsuladas en un grupo de aplicaciones del sistema que se ejecutan dentro de los recursos del sistema reservado descritos anteriormente. El núcleo de sistema operativo identifica secuencias que son secuencias de aplicación de sistema contra secuencias de aplicación de juego. Las aplicaciones de sistema preferiblemente se programan para ejecutar la CPU 101 a tiempos predeterminados e intervalos con el fin de proporcionar una vista de recurso de sistema consistente a la aplicación. La programación es para minimizar la interrupción de memoria caché para la aplicación de juegos que corre en la consola.
Cuando una aplicación de sistema concurrente requiere audio, se programa procesamiento de audio asincrónicamente con la aplicación de juegos debido a sensibilidad de tiempo. Un administrador de aplicación de consola multimedia (descrito a continuación) controla el nivel de audio de aplicación de juego (por ejemplo, silenciar, atenuar) cuando las aplicaciones del sistema están activas.
Se comparten dispositivos de entrada (por ejemplo, controladores 142(1) y 142 (2)) mediante aplicaciones de juego y aplicaciones de sistema. Los dispositivos de entrada no son recursos reservados, sino se van a conmutar entre aplicaciones de sistema y la aplicación de juegos de manera que cada uno tendrá un enfoque del dispositivo. El administrador de aplicación preferiblemente controla la conmutación de corriente de entrada, sin conocimiento del conocimiento de la aplicación de juego y un controlador mantiene información de estado con respecto a conmutaciones de enfoque. Las cámaras 26, 28 y el dispositivo de captura 20 pueden definir dispositivos de entrada adicionales para la consola 100.
La Figura 3B muestra otra modalidad ilustrativa de un ambiente de cómputo 220 que puede ser el dispositivo de cómputo 12 mostrado en las Figuras 1A-2 utilizado para interpretar uno o más gestos en un sistema de reconocimiento, análisis, y rastreo objetivo. El ambiente de sistema de cómputo 220 es únicamente un ejemplo de un ambiente cómputo adecuado y no pretende sugerir ninguna limitación en cuanto al alcance de uso o funcionalidad del tema actualmente descrito. El ambiente de cómputo 220 tampoco debe interpretarse como teniendo ninguna depe-ndencia o requisito que se refiera a cualquier combinación de componentes ilustrados en el ambiente operativo ilustrativo 220. En algunas modalidades, los varios elementos de cómputo ilustrados pueden incluir sistemas de circuitos configurado para ejemplificar aspectos específicos de la presente descripción. Por ejemplo, el término sistema de circuitos utilizado en la descripción puede incluir componentes de hardware especializados configurados para realizar función(es) mediante firmware o interruptores. En otras modalidades ilustrativas, el término sistema de circuitos puede incluir una unidad de procesamiento de propósito general, memoria, e te. , configurado por instrucciones de software que representan lógica operable para realizar función(es). En modalidades ilustrativas en donde el sistema de circuitos incluye una combinación de hardware y software, un implementador puede escribir código de fuente que representa lógica y el código de fuente puede recopilarse en un código legible por máquina que puede procesarse por la unidad de procesamiento de propósito general. Ya que un experto en la técnica puede apreciar que el estado de la técnica ha evolucionado a un punto en donde existe poca diferencia entre hardware, software, o una combinación de hardware/software, la selección de hardware contra software para efectuar funciones específicas es una elección de diseño dejada a un implementador. Más específicamente, un experto en la técnica puede apreciar que un procedimiento de software puede transformarse en una estructura de hardware equivalente, y una estructura de hardware por si misma puede transformarse en un procedimiento de software equivalente. De esa forma, la selección de una implementación de hardware contra una ¡mplementación de software es uno de una elección de diseño y se deja al implementador.
En la Figura 3B, el ambiente de cómputo 220 comprende una computadora 241, que típicamente incluye una variedad de medios legibles por computadora. Los medios legibles por computadora puede ser cualquier medio disponible que puede accederse por la computadora 241 e incluye medios volátiles y no volátiles, medios removibles y no removibles. La memoria de sistema 222 incluye medios de almacenamiento por computadora en la forma de medios volátiles y/o no volátiles tales como ROM 223 y RAM 260. Un sistema de entrada/salida básico 224 (BIOS), que contiene las rutinas básicas que a yudan a transferir información entre elementos dentro de la computadora 241, tal como durante el arranque, típicamente se almacena en la ROM 223. La RAM 260 típicamente contiene datos y/o módulos de programa que son inmediatamente accesibles a y/o actualmente están siendo operados por una unidad de procesamiento central 259. A manera de ejemplo, y no de limitación, la Figura 3B ilustra el sistema operativo 225, programas de aplicación 226, otros módulos de programa 227, y datos de programa 228.
El ambiente de cómputo además puede incluir un procesador 468, que en modalidades puede ser un microprocesador, y una memoria no volátil 470 para activar el sistema desde un modo de energía en espera. La memoria 470 puede ser cualquiera de una variedad de memorias no volátiles, incluyendo por ejemplo ROM, PROM, EPROM, EEPROM y memoria flash. En modalidades, el procesador 468 y la memoria 470 para activar el sistema a partir de un modo energía en espera puede integrarse como parte de la unidad(es) de procesamiento central 259 y ROM 223, respectivamente. En modalidades adicionales, el procesador 468 y memoria 470 pueden ser integrados juntos en un denominado sistema en un chip o circuito integrado.
La computadora 241 también puede incluir otros medios de almacenamiento por computadora removibles/no removibles, volátiles/no volátiles. A manera de ejemplo únicamente, la Figura 3B ilustra una unidad de disco duro 238 que lee o escribe a medios magnéticos no removibles, no volátiles, una unidad de disco magnético 239 que lee de o escribe a un disco magnético removible, no volátil 254, y una unidad de disco óptico 240 que lee de o escribe a un disco óptico removible, no volátil 253 tal como un CD-ROM u otros medios ópticos. Otros medios de almacenamiento por computadora removibles/no removibles, volátiles/no volátiles que pueden utilizarse en el ambiente operativo ilustrativo incluyen, pero no están limitados a, casetes de cinta magnética, tarjetas de memoria flash, discos versátiles digitales, cinta de video digital, RAM de estado sólido, ROM de estado sólido, y similares. La unidad de disco duro 238 típicamente está conectado al conductor común de sistema 221 a t ravés de una i nterfase de memoria no removible tal como una interfase 234, y una unidad de disco magnético 239 y una unidad de disco óptico 240 típicamente están conectados al conductor común de sistema 221 mediante una interfase de memoria removible, tal como una interfase 235.
Las unidades y sus medios de almacenamiento por computadora asociados discutidos anteriormente e ilustrados en la Figura 3B, proporcionan almacenamiento de instrucciones legibles por computadora, estructuras de datos, módulos de programa y otros datos para la computadora 241. En la Figura 3B, por ejemplo, la unidad de disco duro 238 se ilustra como almacenando el sistema operativo 258, programas de aplicación 257, otros módulos de programa 256, y datos de programa 255. Observar que estos componentes pueden ser los mismos que o diferentes al sistema operativo 225, programas de aplicación 226, otros módulos de programa 227, y datos de programa 228. El sistema operativo 258, programas de aplicación 257, otros módulos de programa 256, y datos de programa 255 se proporcionan con diferentes números aquí para ilustrar que, en un mínimo, son copias diferentes. Un usuario puede ingresar comandos e información en la computadora 241 a través de dispositivos de entrada tal como un teclado 251 y un dispositivo de señalamiento 252, comúnmente indicado como un ratón, seguí bola o almohadilla táctil. Otros dispositivos de entrada (no mostrados) pueden incluir un micrófono, palanca de mandos, almohadilla de juegos, antena parabólica, escáner, o similares. Estos y otros dispositivos de entrada frecuentemente están conectados a la unidad de procesamiento central 259 y microprocesador 468 a través de una interfase de entrada de usuario 236 que está acoplada al conductor común de sistema, pero puede conectarse mediante otra interfase y estructuras de conductor común, tal como puerto paralelo, puerto de juegos o conductor común en serie universal (USB). Las cámaras 26, 28 y dispositivo de captura 20 pueden definir dispositivos de entrada adicionales para la consola 100. Un monitor 242 u otro tipo de dispositivo de presentación también está conectado al conductor común de sistema 221 a través de la interfase, tal como una interfase de video 232. Además del monitor, las computadoras también pueden incluir otros dispositivos de salida periféricos tales como bocinas 244 e impresora 243, que pueden conectarse a través de una interfase periférica de salida 233.
La computadora 241 p uede operar en un ambiente en red que utiliza conexiones lógicas a una o más computadoras remotas, tal como una computadora remota 246. La computadora remota 246 puede ser una computadora personal, un servidor, un enrutador, una PC de red, un dispositivo u otro nodo de red común, y típicamente incluye muchos o todos los elementos descritos anteriormente con relación a la computadora 241, aunque únicamente se ha ilustrado un dispositivo de almacenamiento de memoria 247 en la Figura 3B. Las conexiones lógicas ilustradas en la Figura 3B incluyen un área local (LAN) 245 y una red de área ancha (WAN) 249, pero también pueden incluir otras redes. Tales ambientes en red comúnmente están ubicados en oficinas, redes de computadora extendidas en empresa, intranets e Internet.
Cuando se utiliza en un ambiente en red LAN, la computadora 241 está conectada a la LAN 245 a través de una interfase de red o adaptador 237. Cuando se utiliza en un ambiente en red WAN, la computadora 241 típicamente incluye un módem 250 u otros medios para establecer comunicaciones sobre la WAN 249, tal como Internet. El módem 250, que puede ser interno o externo, puede conectarse al conductor común de sistema 221 a través de la interfase de entrada de usuario 236, u otro mecanismo apropiado. En un ambiente en red, los módulos de programa ilustrados relativos a la computadora 241, o porciones de la misma, pueden almacenarse en el dispositivo de almacenamiento de memoria remota. A manera de ejemplo, y no de limitación, la Figura 3B ilustra programas de aplicación remota 248 como residentes en el dispositivo de memoria 247. Se apreciará que las conexiones de red mostradas son ilustrativas y pueden utilizarse otros medios para establecer un enlace de comunicaciones entre las computadoras.
El dispositivo de cómputo 12 en conjunto con el dispositivo de captura 20 puede generar un modelo de computadora de una posición de cuerpo del usuario de cada cuadro. Un ejemplo de una tubería que genera un modelo de esqueleto de uno o más usuarios en el campo de visualización del dispositivo de captura 20 se describe por ejemplo en la Solicitud de Patente de los Estados Unidos Serie No. 12/876,418, titulada "Sistema para Rastreo de Esqueleto Probabilista Rápido", presentada el 7 septiembre, 2010, cuya aplicación se incorpora para referencia aquí en su totalidad.
El modelo de esqueleto entonces puede proporcionarse al dispositivo de cómputo 12 tal como el ambiente de manera que el ambiente de cómputo puede rastrear el modelo de esqueleto y presentar un avatar asociado con el modelo de esqueleto. El ambiente de cómputo además puede determinar qué controles realizar en una aplicación que se ejecuta en el ambiente de computadora basándose en, por ejemplo, gestos del usuario que han sido reconocidos del modo de esqueleto. Por ejemplo, como se muestra en la Figura 2, el dispositivo de cómputo 12 puede incluir un generador de reconocimiento de gesto 190. El generador de reconocimiento de gesto 190 puede incluir en general una colección de filtros de gesto, cada uno que comprende información concerniente a un gesto que puede realizarse por el modelo de esqueleto (a medida que se mueve el usuario).
Los datos capturados por las cámaras 26, 28 y el dispositivo 20 en la forma del modelo de esqueleto y movimientos asociados con este pueden compararse con los filtros de gesto en el generador de reconocimiento de gesto 190 para identificar cuando un usuario (como se representó por el modelo de esqueleto) ha realizado uno o más gestos. Estos gestos pueden asociarse con varios controles de una aplicación. De esa forma, el dispositivo de cómputo 12 puede utilizar el generador de reconocimiento de gesto 190 para interpretar movimientos del modelo de esqueleto y para controlar una aplicación con base en los movimientos.
Con el fin de conservar energía y hacer uso eficiente de la energía, el sistema 10 puede apagarse a un modo de energía en espera si se deja inactivo durante un periodo de tiempo predeterminado. Alternativamente, un usuario puede apagar manualmente el sistema 10 cuando se hace utilizándolo. Cuando se apaga, el sistema también se ejecuta en modo de energía en espera. Cuando el modo de energía espera, el suministro de energía 474 (Figura 6) suministra una energía en espera al dispositivo de cómputo 12. En modalidades esta energía en espera puede ser, por ejemplo, de 0.3 varios a 5.0 vatios, y en un ejemplo adicional, puede ser 0.5 vatios. Se entiende que la energía suministrada al sistema 10 en el modo de energía en espera puede ser superior o inferior a este rango en modalidades adicionales.
De acuerdo con el presente sistema, un usuario es capaz de activar el dispositivo de cómputo 12 del sistema 10 con una frase de activación audible. Con reconocimiento de la frase de activación, el dispositivo de cómputo 12 puede cambiar del modo de energía en espera al modo de energía completa en donde están disponibles todos los recursos de sistema. Lo siguiente describe la activación del dispositivo de cómputo 12 utilizando una unidad de activación en espera 464. Con respecto al dispositivo A/V 16 y el dispositivo de captura 20, al grado que estos dispositivos también pueden estar en un modo de energía en espera, pueden activarse al momento que se active el dispositivo de cómputo 12. El dispositivo A/V 16 y/o dispositivo de captura 20 pueden activarse al recibir una señal de "despertar" desde el dispositivo de cómputo 12. Alternativamente, el dispositivo A/V 16 y/o dispositivo de captura 20 también puede incluir una unidad de activación en espera 464 que los activa de la misma forma que el dispositivo de cómputo 12 descrito a continuación.
Es una característica del presente sistema que sea capaz de reconocer la frase de activación con componentes que operan únicamente en la energía en espera suministrada durante el modo de energía en espera. Estas características se explican a continuación, pero en general, utilizando únicamente la energía en espera, el procesador 468 y memoria 470 (Figuras 3B y 6) son capaces de recibir un patrón de audio digitalizado, y realizar un patrón limitado que coincide contra patrones de activación almacenados en memoria 470 para determinar si se dijo una frase de activación.
La frase de activación puede ser una frase simple de dos palabras tales como "activar sistema". En donde el sistema 10 es por ejemplo una consola de videojuegos Xbox® de Microsoft Corporation, la frase de activación puede ser por ejemplo "Xbox encendido". Estas frases pueden ser a manera de ejemplo, y la frase de activación puede ser cualquier frase predefinida almacenada en la memoria 470. La frase de activación puede ser más corta que dos palabras o más larga que dos palabras en modalidades adicionales. Frases más cortas pueden resultar en coincidencias positivas falsas más frecuentemente que frases más largas, pero frases más largas pueden requerir más energía de la energía en espera para el procesador 468 para realizar la operación de igualación. En modalidades, la frase de activación puede establecerse en una longitud que se optimiza para la energía en espera disponible. Es decir, la frase de activación puede ser suficientemente larga para minimizar coincidencias positivas falsas, pero lo suficientemente corta de manera que el procesador 468 y la memoria 470 sean capaces de determinar cuando se recibe una frase de activación utilizando la energía en espera disponible.
En modalidades, la frase de activación puede decirse por un usuario del sistema 10 con el fin de activar el sistema 10 del modo en espera. Sin embargo, se entiende que la frase de activación puede ser cualquier patrón de audio distintivo, hablado o generado por métodos diferentes al diálogo. Además, cuando se dice, la frase de activación no necesita s er palabras en un vocabulario conocido. La frase de activación puede ser un patrón de audio hecho de cualquier patrón distintivo de sonidos. En donde la frase de activación comprende una o más palabras tal como "activar sistema" o "Xbox encendido", la frase de activación puede almacenarse en un idioma individual o en múltiples idiomas.
En modalidades, las frases de activación pueden estar pre-programadas en la memoria 470 por el proveedor de sistema 10, es decir, antes de uso inicial del sistema 10 por un usuario final. Alternativamente, la frase de activación puede definirse por usuario. La Figura 4 es un cuadro de flujo que muestra una secuencia de pasos en donde cada uno de uno o más usuarios puede generar y almacenar una frase de activación. En el paso 400, mientras el sistema 10 está activo, un usuario puede realizar un gesto de control o selección para ingresar a un modo de aprendizaje de frase de activación. Una vez en el modo de aprendizaje, el usuario puede decir la frase de activación deseada en el paso 406. El usuario puede decir la frase de activación deseada una sola vez, o el sistema puede incitar al usuario a decir la frase múltiples veces en el paso 410.
En el paso 414, la frase de activación proporcionada por el usuario es procesada en un patrón de activación digital. En particular, uno o más casos recibidos de la frase de activación pueden pasar a través de un convertidor A a D (análogo a digital) para proporcionar una corriente digital de la frase. Por ejemplo, en donde se proporcionó la frase múltiples veces, pueden filtrarse frecuencias anómalas y/o pronunciaciones del resultado en un patrón de activación digital que se aproxima más a la frase de activación proporcionada por el usuario en los casos de aprendizaje múltiple. Alternativamente, cada expresión de la frase de activación de los múltiples casos de aprendizaje puede almacenarse separadamente y utilizarse posteriormente para comparación como se describe a continuación. Una vez que se ha procesado una frase de activación recibida en un patrón de activación digital, este patrón de activación se almacena en la memoria 470 en el paso 418.
Una representación esquemática de un patrón de activación digitalizado almacenado se muestra en la Figura 5. La representación esquemática mostrada en la Figura 5 es una representación digitalizada de una corriente de audio analógica que puede representarse como un gráfico del desplazamiento (D) de un diafragma de un micrófono que cambia en presión de aire causada por ondas de sonido con el tiempo (t). El patrón de activación digital mostrado en la Figura 5 es a manera de ejemplo únicamente y el patrón variará dependiendo de la frase de activación dicha y procesada como se describió anteriormente con respecto al cuadro de flujo de la Figura 4.
Puede generarse y almacenarse una frase de activación individual a través de los pasos de la Figura 4. Alternativamente, pueden generarse y almacenarse múltiples frases de activación. Como se observó, un usuario individual puede generar múltiples frases de activación digitalizadas que resultan de las múltiples expresiones de la misma frase. Alternativamente, diferentes usuarios pueden generar diferentes frases de activación. Por ejemplo, en donde miembros de una familia o grupo cada uno utiliza el sistema 10, cada usuario puede generar y almacenar su propia frase(s) de activación. La frase de activación generada y almacenada por cada usuario puede ser la misma entre sí o diferente entre sí.
En tal modalidad, cada usuario puede reconocerse basándose en su frase de activación particular. De esa forma, cuando el sistema se activa, el sistema NUI 10 puede personalizarse para el usuario identificado, tal como por ejemplo dando una bienvenida personalizada. Además, en tal modalidad, la unidad de activación en espera 464 puede tomar diferentes acciones, basándose en las cuales se Identifica el usuario de la frase de activación percibida. Como un ejemplo, el dispositivo de cómputo 12 podría establecerse para ignorar el comando de activación de un hijo en un tiempo particular del día cuando el padre no deseó que se utilizara el dispositivo de cómputo 12 por el hijo.
Después que una frase de activación ha sido pre-programada o almacenada por un usuario como un patrón de activación digital, un usuario puede utilizar la frase de activación para activar el dispositivo de cómputo 12 de un modo en espera a un modo activo. La Figura 6 es un cuadro de flujo que muestra una secuencia de pasos para activar un dispositivo de cómputo 12 utilizando la frase de activación, y la Figura 7 es un diagrama de bloques que muestra componentes para activar un dispositivo de cómputo 12 utilizando la frase de activación. La Figura 7 muestra el uno o más micrófonos 462 acoplados a la unidad de activación en espera 464 incluyendo un microprocesador 468 y memoria no volátil 470. Los micrófonos 462 pueden proporcionarse en el dispositivo de cómputo 12, o pueden ser el uno o más micrófonos 30 descritos anteriormente con respecto a la Figura 2. La Figura 7 además muestra un suministro de energía 474. El suministro de energía 474 suministra energía a todos los componentes del dispositivo de cómputo 12, incluyendo el uno o más micrófonos 462, la unidad de activación en espera 464 y la CPU 101/259 cuando el dispositivo de cómputo 12 está en modo activo. El suministro de energía 474 suministra energía a uno o más micrófonos 462 y la unidad de activación en espera 464 cuando el dispositivo de cómputo 12 está en el modo en espera.
Como se observó anteriormente, la unidad de activación en espera 464 puede implementarse en un sistema individual en un chip. Alternativamente, el microprocesador 468 y memoria 470 pueden ser componentes separados en comunicación entre si. En modalidades adicionales, puede omitirse un microprocesador separado 468, y a su vez en los procedimiento de activación en espera descritos a continuación se realizan por la CPU del sistema 10 (CPU 101 de la consola multimedia 100 de la Figura 3A, o CPU 259 del ambiente de cómputo 220 de la Figura 3B). En tales modalidades, la CPU 101/259 recibe la energía en espera de, por ejemplo, 0.5 vatios cuando el dispositivo de cómputo está en el modo de energía en espera. Cuando está en el modo de energía en espera, la CPU 101/259 habría limitado la capacidad de procesamiento. Entonces, cuando se activa el dispositivo de cómputo 12, la CPU 101/259 se ejecutaría a energía superior para proporcionar funcionalidad de sistema completa.
En modalidades adicionales, puede omitirse una memoria separada 470, y a su vez el almacenamiento de la frase de activación podría hacerse por otra memoria no volátil en el dispositivo de cómputo 12, tal como por ejemplo la ROM 106 de la consola multimedia 100, o la ROM 223 del ambiente de cómputo 220. En tales modalidades, la ROM 106/223 puede segmentarse de manera que únicamente se ponga a disponibilidad una pequeña porción de la memoria no volátil al procesador cuando opera en modo en espera.
Haciendo referencia ahora al cuadro de flujo de la Figura 6, en el paso 420, el uno o más micrófonos 462 verifican un ambiente circundante para escuchar una corriente de audio. Si se detecta sonido en el paso 424, se filtra el audio en el paso 430. Por ejemplo, pueden utilizarse técnicas de cancelación de canales múltiples para filtrar ruido de fondo de la corriente de audio recibida. Otras técnicas de filtración de ruido pueden utilizarse para filtrar la corriente de audio recibida en el paso 430.
En el paso 432, la corriente de audio recibida es digitalizada a través de un convertidor A a D en un patrón de audio digital. El patrón entonces se compara con el patrón(es) de activación almacenado e n la memoria 470. Esta comparación se realiza por el generador de igualación de patrón 192 que se ejecuta en el procesador 468. Si se encuentra una coincidencia de patrón dentro de alguna tolerancia predefinida entre cualquier porción del patrón de audio digitalizado de transmisión y el patrón de activación almacenado en el paso 440, el generador de igualación de patrón 192 envía una señal al suministro de energía 474 para proporcionar energía completa al dispositivo de cómputo 12 para activar el dispositivo.
Por otro lado, si no se encuentra ninguna coincidencia de patrón en el paso 440, el generador de igualación de patrón 192 puede intentar procesamiento adicional del patrón de audio digitalizado recibido en el paso 444. Si no se encuentra ninguna igualación de patrón (paso 440), el generador de igualación de patrón 192 no es capaz de procesar el patrón de audio adicionalmente (paso 444), el dispositivo de cómputo 12 permanece en el modo de energía en espera, y el flujo regresa al paso 420 para escuchar audio adicional. Si el generador de igualación de patrón 192 es capaz de procesar adicionalmente el patrón de audio digitalizado recibido e n el paso 444, se procese el patrón de audio en el paso 446, y de nuevo se compara con el patrón(es) de activación almacenado en el paso 440.
Como un ejemplo de procesamiento que puede realizarse en el patrón de audio digitalizado es recibido en el paso 446, el generador de igualación de patrón 192 puede estirar y/o encoger temporalmente el patrón de audio recibido para ver si entonces coincide con el patrón(es) de activación almacenado. También pueden aplicarse varias técnicas de filtros y cancelación de ruido aplicadas al patrón de audio para vez y entonces coincide con el patrón(es) de activación almacenado. Se contempla otro procesamiento de patrón de audio.
El procesalmente de patrón de audio como se describió con respecto al paso 446 puede ocurrir antes de la comparación del paso 436 del patrón de audio digital al patrón(es) de activación digital almacenado en lugar de o además del flujo descrito anteriormente (en donde se realiza el procesamiento en el paso 446 únicamente después de una comparación fallida en el paso 440). También se contempla que pueden omitirse los pasos 444 y 446. En esta modalidad, no se realiza ningún procesamiento del patrón de audio. Si no se encuentra ninguna coincidencia entre el patrón de audio digital recibido y la frase(s) de activación almacenada en el paso 440, no se activa el dispositivo 12.
Si se encuentra una coincidencia de patrón en el paso 440, se activa el dispositivo de cómputo 12 en el paso 450. En este punto, la unidad de activación en espera 464 señala la fuente de energía para suministrar energía completa al dispositivo de cómputo 12, y todos los recursos de dispositivo entonces se vuelven disponibles.
Se conocen sistemas de reconocimiento de voz ricos que son capaces de reconocer diálogo, por ejemplo una frase de activación. Sin embargo, sistemas de reconocimiento de voz requieren una mayor cantidad de energía de procesamiento que está disponible para el dispositivo de cómputo 12 en el modo de energía en espera. Por otro lado, una comparación limitada de un patrón de audio digitalizado recibido contra uno o más patrones de activación almacenados por la unidad de activación en espera 464 requiere una cantidad relativamente pequeña de energía de procesamiento, y puede realizarse el modo en espera, en donde por ejemplo están disponibles 0.5 vatios de energía.
La comparación de un patrón de audio recibido contra varios patrones de activación almacenados en el paso 436 puede consumir una gran cantidad de energía por el procesador 468. Similarmente, el procesamiento significativo del patrón de audio recibido en el paso 446 puede consumir una gran cantidad de energía por el procesador 468. En donde una implementación particular del presente sistema opera con un bajo nivel de energía en espera, puede no ser posible tener ambos patrones de activación almacenados y procedimiento significativo del patrón de audio recibido. En este caso, diferentes modalidades pueden distribuir recursos de manera diferente. Por ejemplo, una modalidad puede tener numerosos patrones de activación almacenados y relativamente poco procesamiento del patrón de audio digital recibido. De manera inversa, otra modalidad puede tener únicamente uno, o relativamente pocos, patrones de activación almacenados pero puede tener procesamiento más resistente del patrón de audio digítalizado recibido. El número y longitud de los patrones de activación almacenados y la cantidad de procesamiento disponible para el patrón de audio recibido puede establecerse basándose en la cantidad de energía disponible para estos procedimientos cuando el dispositivo de cómputo 12 está en modo de energía en espera.
Como se observó anteriormente, puede considerarse un patrón de audio recibido para coincidir con una frase de activación almacenada en donde los dos patrones digitales coinciden entre si para estar dentro de alguna tolerancia. La tolerancia aquí se refiere al grado al cual el patrón de audio digítalizado recibido necesita coincidir con el patrón de activación almacenado. La tolerancia puede medirse en pocas formas diferentes en diferentes modalidades. La tolerancia puede medirse entre cada punto de datos en el patrón de audio digítalizado y el patrón de activación almacenado, que requiere cada punto, o todos los puntos tomados juntos, para tener no menos de alguna diferencia de amplitud predefinida. Alternativamente, puede hacerse la comparación entre grupos de puntos de datos en el patrón de audio digítalizado y el patrón de activación almacenado.
En un ejemplo, se contempla que la coincidencia entre el patrón de audio digitalizado y el patrón de activación almacenado necesita ser perfecta, o casi perfecta. Sin embargo, ya que la misma persona puede expresar la misma frase de manera diferente en diferentes momentos, requerir una coincidencia perfecta puede resultar en que un usuario tenga dificultad al intentar activar el dispositivo de cómputo 12. De esa forma, en modalidades, la tolerancia puede ser relativamente baja. Esto puede resultar en activaciones positivas falsas. Es decir, la unidad de activación en espera 464 activa el dispositivo de cómputo 12 cuando no se proporciona ninguna frase de activación verdadera. Esto capturará casos en donde el usuario pretende activar el dispositivo de cómputo 12, pero también puede activar el sistema cuando no hay ningún usuario o el usuario no pretende activar el dispositivo de cómputo 12.
Cuando la tolerancia es baja de manera que ocurren activaciones positivas falsas, las modalidades del presente sistema además pueden incluir un procedimiento de confirmación de activación, un ejemplo de lo cual se muestra en los pasos 454 y 456 de la Figura 6. Como se observó anteriormente, un generador de reconocimiento de voz rico puede n o operar en la energía dispersa disponible en modo en espera. Sin embargo, una vez que se activa el sistema de cómputo 12 mediante la unidad de activación e n espera 464 como se describió anteriormente, un generador de reconocimiento de voz 194 (Figura 2) entonces puede confirmar en el paso 454 si el usuario de hecho dijo la frase de activación correcta.
Si es así, el dispositivo de cómputo puede permanecer activado. Si no es así, puede enviarse una señal a la fuente de energía 474 para revertirse al modo en espera en el paso 456. El modo entonces regresa al paso 420 para de nuevo escuchar posibles frases de activación.
En el paso 454, el generador de reconocimiento de voz 194 puede procesar la corriente de audio analógica recibida en el paso 420 para determinar si se dijo la frase de activación apropiada. Alternativamente, el dispositivo de cómputo activado 12 puede incitar al usuario a decir frases adicionales para análisis mediante el generador de reconocimiento de voz 194. El generador de reconocimiento de voz puede utilizar algoritmos más sofisticados que la igualación de patrón realizada por la unidad de activación en espera 464 para confirmar la activación con u n grado m uy superior de certeza.
Se entiende que el procedimiento de confirmación de activación puede utilizar componentes y/o generadores de software en lugar de o además del generador de reconocimiento de voz 194 en modalidades adicionales. Por ejemplo, una vez activado, se puede incitar a un usuario a realizar un gesto de confirmación de activación predefinido que se reconoce por el sistema NUI 10 para confirmar el deseo del usuario para activar el sistema de cómputo 12 y para interactuar con el sistema 10. Se contemplan otros procedimientos de confirmación de activación.
Además, se entiende que e I procedimiento de confirmación de los pasos 454 y 456 pueden omitirse del todo. En donde se omite el procedimiento de confirmación, el dispositivo de cómputo 12 puede activarse al detectar lo que se cree que es la recepción de la frase de activación. Entonces, si no se detecta ninguna interacción adicional con el sistema 10 dentro de un periodo de tiempo predeterminado, el dispositivo de cómputo 12 de nuevo puede ingresar al modo de energía en espera.
Las modalidades de muestra descritas anteriormente describen una unidad de activación en espera 464 incluida con un dispositivo de cómputo 12 del sistema NUI 10. Sin embargo, como se observó, la unidad de activación en espera 464 puede proporcionarse como parte de otros dispositivos eléctricos, incluyendo una consola de juegos de propósito general o ambiente de cómputo como se describió en las Figuras 3A y 3B, respectivamente. Tales sistemas pueden ser PC, laptops, teléfonos inteligentes, controladores y/u otros dispositivos de cómputo portátiles. En modalidades adicionales, la unidad de activación en espera 464 puede incluirse dentro de aparatos eléctricos, tales como, pero no limitados a lavadoras/secadoras, cafeteras, televisión y sistemas de estéreo y puertas de cochera eléctricas. Los dispositivos eléctricos que tienen la unidad de activación en espera además pueden incluir pero no están limitados a automóviles, sistemas de alarma contra robo y sistemas de iluminación. Se entiende que la unidad de activación en espera 464 que utiliza igualación de patrón puede utilizarse en una gran variedad de otros dispositivos eléctricos en modalidades adicionales.
Las modalidades descritas anteriormente describen uno o más micrófonos que detectan audio dentro de la cercanía del dispositivo de cómputo 12. Sin embargo, puede suceder que un dispositivo que incluye la unidad de activación en espera 464 también sea capaz de enviar y/o recibir transmisión de un sistema de datos cuando opera en un modo de energía en espera. En tales modalidades, se contempla que la fuente de audio puede ser remota del dispositivo de cómputo 12.
Por ejemplo, puede detectarse una fuente de audio en una primera ubicación, y entonces transmitirse a un dispositivo en una segunda ubicación, por ejemplo a través de una red tal como una red inalámbrica, una red de área local, una red de área ancha y/o Internet. La fuente de audio puede digitalizarse y/o procesarse mediante dispositivos en la primera o segunda ubicaciones. Después de eso, la unidad de activación en espera 464 en el dispositivo en la segunda ubicación puede realizar la comparación de igualación descrita anteriormente para determinar si el audio es recibido desde el dispositivo en la primera ubicación es la frase de activación apropiada. Si es así, el dispositivo en la segunda ubicación puede activarse. Alternativamente, el dispositivo en la segunda ubicación puede enviar una transmisión de regreso al dispositivo en la primera ubicación, o enviar una transmisión a un dispositivo en una tercera ubicación diferente de la primera o segunda ubicaciones, para activar el dispositivo en la primera o tercera ubicaciones.
La descripción detallada anterior del sistema inventivo ha sido presentada para propósitos de ilustración y descripción. No pretende ser exhaustiva o limitar el sistema inventivo a la forma precisa descrita. Son posibles muchas modificaciones y variaciones en vista de la enseñanza anterior. Las modalidades descritas se eligieron con el fin de explicar mejor los principios del sistema inventivo y su aplicación práctica para permitir con ello a otros expertos en la técnica utilizar mejor el sistema inventivo en varias modalidades y con varias modificaciones como sea adecuado para el uso particular contemplado. Se pretende que el alcance del sistema inventivo se defina por las reivindicaciones anexas a esto.

Claims (10)

REIVINDICACIONES
1.- Un método para activar un dispositivo eléctrico a partir de un modo de energía en espera, que comprende: (a) recibir una corriente de audio en el dispositivo eléctrico cuando está en un modo de energía en espera; (b) digitalizar la corriente de audio a un patrón de audio cuando está en un modo de energía en espera; (c) comparar el patrón de audio digitalizado en dicho paso (b) con una frase de activación digitalizada almacenada en una memoria no volátil cuando está en un modo de energía en espera; y (d) activar el dispositivo eléctrico en donde el patrón de audio coincide con la frase de activación para estar dentro de una tolerancia predefinida.
2.- El método de acuerdo con la reivindicación 1 , en donde un micrófono verifica continuamente un ambiente circundante para la corriente de audio de dicho paso (a).
3.- El método de acuerdo con la reivindicación 1 , que además comprende el paso de filtrar ruido de la corriente de audio recibida antes de la comparación del patrón de audio digitalizado con una frase de activación digitalizada.
A.- El método de acuerdo con la reivindicación 1 , en donde el patrón de activación digitalizado es almacenado en la memoria no volátil del dispositivo eléctrico antes del uso inicial del dispositivo eléctrico por un usuario.
5. - El método de acuerdo con la reivindicación 1, en donde el patrón de activación digitalizado es seleccionado por un usuario al incitar mediante el dispositivo eléctrico.
6. - Un sistema de activación en espera para activar un dispositivo eléctrico a partir de un modo de energía en espera, la unidad de activación en espera comprende: uno o más micrófonos para detectar una corriente de audio en una cercanía de uno o más micrófonos; y una unidad de activación en espera, que incluye: una memoria no volátil que incluye uno o más patrones de activación almacenados, y un procesador para comparar un patrón de audio digitalizado recibido de uno o más de los micrófonos de uno o más de los patrones de activación almacenados, almacenados en la memoria no volátil utilizando energía disponible para el dispositivo eléctrico en modo de energía en espera, el procesador activando el dispositivo si el patrón de audio digitalizado coincide con una frase de activación de la una o más frases de activación almacenadas en la memoria no volátil para estar dentro de una tolerancia predefinida.
7.- El sistema de activación en espera de acuerdo con la reivindicación 6, en donde el procesador para comparar el patrón de audio digitalizado con uno o más de los patrones de activación en modo de energía en espera es un primer procesador, el dispositivo eléctrico incluye un segundo procesador, separado del primer procesador, para controlar funciones del dispositivo eléctrico cuando el dispositivo está operando en un modo de energía activada, completa.
8.- El sistema de activación en espera de acuerdo con la reivindicación 6, en donde el la memoria no volátil que incluye uno o más patrones de activación almacenados es una primera memoria no volátil, el dispositivo eléctrico incluye una segunda memoria no volátil, separada de la primera memoria no volátil, para almacenar datos del dispositivo eléctrico utilizado cuando el dispositivo está operando en un modo de energía activada, completa.
9.- El sistema activación en espera de acuerdo con la reivindicación 6, en donde la energía disponible para el dispositivo eléctrico en modo de energía en espera es de 0.5 vatios.
10.- Un medio de almacenamiento legible por computadora que tiene instrucciones ejecutables por computadora para programar un procesador para realizar un método para activar un dispositivo de cómputo de un sistema NUI a partir de un modo de energía en espera, que comprende: (a) recibir una corriente de audio en uno o más micrófonos asociados con el sistema NUI cuando está en un modo de energía en espera; (b) digitalizar la corriente de audio a un patrón de audio cuando está en un modo de energía en espera; (c) procesar la corriente de audio digitalizada para facilitar I a igualación de la corriente de audio digitalizada con una o más frases de activación digitalizadas almacenadas en una memoria no volátil del dispositivo de cómputo cuando está en un modo de energía en espera; (d) comparar el patrón de audio procesado en dicho paso (c) con de las una o más frases de activación digitalizadas en la memoria no volátil del dispositivo de cómputo cuando está en un modo de energía en espera; y (e) activar el dispositivo de cómputo en donde el patrón de audio coincide con una frase de activación de la una o más frases de activación para estar dentro de una tolerancia predefinida.
MX2014006001A 2011-11-17 2012-11-14 Igualacion de patron de audio para activacion de dispositivo. MX344403B (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/299,218 US8666751B2 (en) 2011-11-17 2011-11-17 Audio pattern matching for device activation
PCT/US2012/064898 WO2013074552A1 (en) 2011-11-17 2012-11-14 Audio pattern matching for device activation

Publications (2)

Publication Number Publication Date
MX2014006001A true MX2014006001A (es) 2014-08-27
MX344403B MX344403B (es) 2016-12-14

Family

ID=47968057

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2014006001A MX344403B (es) 2011-11-17 2012-11-14 Igualacion de patron de audio para activacion de dispositivo.

Country Status (13)

Country Link
US (1) US8666751B2 (es)
EP (1) EP2780907A4 (es)
JP (1) JP2015508516A (es)
KR (1) KR20140097365A (es)
CN (1) CN103019373B (es)
AU (1) AU2012339717B8 (es)
BR (1) BR112014011718A8 (es)
CA (1) CA2855379A1 (es)
IN (1) IN2014CN03321A (es)
MX (1) MX344403B (es)
RU (1) RU2616553C2 (es)
TW (1) TWI571796B (es)
WO (1) WO2013074552A1 (es)

Families Citing this family (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9992745B2 (en) 2011-11-01 2018-06-05 Qualcomm Incorporated Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate
US9628843B2 (en) * 2011-11-21 2017-04-18 Microsoft Technology Licensing, Llc Methods for controlling electronic devices using gestures
EP3748631B1 (en) * 2011-12-07 2024-04-03 QUALCOMM Incorporated Low power integrated circuit to analyze a digitized audio stream
KR101889836B1 (ko) 2012-02-24 2018-08-20 삼성전자주식회사 음성인식을 통한 단말기의 잠금 상태 해제 및 조작 방법 및 장치
US9117449B2 (en) 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
US9112984B2 (en) 2013-03-12 2015-08-18 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9361885B2 (en) 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US11393461B2 (en) 2013-03-12 2022-07-19 Cerence Operating Company Methods and apparatus for detecting a voice command
US9467785B2 (en) 2013-03-28 2016-10-11 Knowles Electronics, Llc MEMS apparatus with increased back volume
US9503814B2 (en) 2013-04-10 2016-11-22 Knowles Electronics, Llc Differential outputs in multiple motor MEMS devices
US20160088206A1 (en) 2013-04-30 2016-03-24 Hewlett-Packard Development Company, L.P. Depth sensors
US9711166B2 (en) 2013-05-23 2017-07-18 Knowles Electronics, Llc Decimation synchronization in a microphone
US10020008B2 (en) 2013-05-23 2018-07-10 Knowles Electronics, Llc Microphone and corresponding digital interface
KR20160010606A (ko) 2013-05-23 2016-01-27 노우레스 일렉트로닉스, 엘엘시 Vad 탐지 마이크로폰 및 그 마이크로폰을 동작시키는 방법
US20180317019A1 (en) 2013-05-23 2018-11-01 Knowles Electronics, Llc Acoustic activity detecting microphone
US10028054B2 (en) 2013-10-21 2018-07-17 Knowles Electronics, Llc Apparatus and method for frequency detection
US9633655B1 (en) 2013-05-23 2017-04-25 Knowles Electronics, Llc Voice sensing and keyword analysis
US9697831B2 (en) * 2013-06-26 2017-07-04 Cirrus Logic, Inc. Speech recognition
US9386370B2 (en) 2013-09-04 2016-07-05 Knowles Electronics, Llc Slew rate control apparatus for digital microphones
US9502028B2 (en) 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
US9147397B2 (en) 2013-10-29 2015-09-29 Knowles Electronics, Llc VAD detection apparatus and method of operating the same
US10079019B2 (en) * 2013-11-12 2018-09-18 Apple Inc. Always-on audio control for mobile device
US8768712B1 (en) * 2013-12-04 2014-07-01 Google Inc. Initiating actions based on partial hotwords
CN105723451B (zh) * 2013-12-20 2020-02-28 英特尔公司 从低功率始终侦听模式到高功率语音识别模式的转换
US20150194187A1 (en) * 2014-01-09 2015-07-09 Microsoft Corporation Telestrator system
US20160055847A1 (en) * 2014-08-19 2016-02-25 Nuance Communications, Inc. System and method for speech validation
US9549273B2 (en) * 2014-08-28 2017-01-17 Qualcomm Incorporated Selective enabling of a component by a microphone circuit
US9831844B2 (en) 2014-09-19 2017-11-28 Knowles Electronics, Llc Digital microphone with adjustable gain control
US9712915B2 (en) 2014-11-25 2017-07-18 Knowles Electronics, Llc Reference microphone for non-linear and time variant echo cancellation
KR102299330B1 (ko) * 2014-11-26 2021-09-08 삼성전자주식회사 음성 인식 방법 및 그 전자 장치
CN104598192B (zh) * 2014-12-29 2018-08-07 联想(北京)有限公司 信息处理方法及电子设备
US10045140B2 (en) 2015-01-07 2018-08-07 Knowles Electronics, Llc Utilizing digital microphones for low power keyword detection and noise suppression
TW201640322A (zh) 2015-01-21 2016-11-16 諾爾斯電子公司 用於聲音設備之低功率語音觸發及方法
US10121472B2 (en) 2015-02-13 2018-11-06 Knowles Electronics, Llc Audio buffer catch-up apparatus and method with two microphones
KR102346302B1 (ko) 2015-02-16 2022-01-03 삼성전자 주식회사 전자 장치 및 음성 인식 기능 운용 방법
US9866938B2 (en) 2015-02-19 2018-01-09 Knowles Electronics, Llc Interface for microphone-to-microphone communications
US10291973B2 (en) 2015-05-14 2019-05-14 Knowles Electronics, Llc Sensor device with ingress protection
WO2016183494A1 (en) 2015-05-14 2016-11-17 Knowles Electronics, Llc Microphone with coined area
US9478234B1 (en) 2015-07-13 2016-10-25 Knowles Electronics, Llc Microphone apparatus and method with catch-up buffer
US10045104B2 (en) 2015-08-24 2018-08-07 Knowles Electronics, Llc Audio calibration using a microphone
JP2017117371A (ja) * 2015-12-25 2017-06-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御方法、制御装置およびプログラム
US9894437B2 (en) 2016-02-09 2018-02-13 Knowles Electronics, Llc Microphone assembly with pulse density modulated signal
EP3414759B1 (en) 2016-02-10 2020-07-01 Cerence Operating Company Techniques for spatially selective wake-up word recognition and related systems and methods
WO2017142112A1 (ko) * 2016-02-19 2017-08-24 주식회사 트리니티랩 가청 주파수 대역 오디오 신호의 저전력용 수신 방법
EP4351170A3 (en) * 2016-02-29 2024-07-03 Qualcomm Technologies, Inc. A piezoelectric mems device for producing a signal indicative of detection of an acoustic stimulus
WO2017184169A1 (en) * 2016-04-22 2017-10-26 Hewlett-Packard Development Company, L.P. Communications with trigger phrases
WO2017190803A1 (en) * 2016-05-06 2017-11-09 Arcelik Anonim Sirketi Ambient sound monitoring and visualizing system for hearing impaired persons
ES2806204T3 (es) 2016-06-15 2021-02-16 Cerence Operating Co Técnicas para reconomiento de voz para activación y sistemas y métodos relacionados
US10499150B2 (en) 2016-07-05 2019-12-03 Knowles Electronics, Llc Microphone assembly with digital feedback loop
US10257616B2 (en) 2016-07-22 2019-04-09 Knowles Electronics, Llc Digital microphone assembly with improved frequency response and noise characteristics
CN110024281B (zh) 2016-10-28 2024-05-07 三星电子株式会社 换能器组件和方法
EP3535751A4 (en) 2016-11-10 2020-05-20 Nuance Communications, Inc. METHOD FOR LANGUAGE-INDEPENDENT WAY RECOGNITION
US11003417B2 (en) * 2016-12-15 2021-05-11 Samsung Electronics Co., Ltd. Speech recognition method and apparatus with activation word based on operating environment of the apparatus
CN110100259A (zh) 2016-12-30 2019-08-06 美商楼氏电子有限公司 具有认证的麦克风组件
US20180224923A1 (en) * 2017-02-08 2018-08-09 Intel Corporation Low power key phrase detection
US10283117B2 (en) * 2017-06-19 2019-05-07 Lenovo (Singapore) Pte. Ltd. Systems and methods for identification of response cue at peripheral device
US10204624B1 (en) * 2017-08-14 2019-02-12 Lenovo (Singapore) Pte. Ltd. False positive wake word
KR102411766B1 (ko) * 2017-08-25 2022-06-22 삼성전자주식회사 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치
WO2019051218A1 (en) 2017-09-08 2019-03-14 Knowles Electronics, Llc CLOCK SYNCHRONIZATION IN A MASTER-ASSERTED COMMUNICATION SYSTEM
WO2019067334A1 (en) 2017-09-29 2019-04-04 Knowles Electronics, Llc MULTICORDER AUDIO PROCESSOR WITH FLEXIBLE MEMORY ALLOCATION
US10916252B2 (en) 2017-11-10 2021-02-09 Nvidia Corporation Accelerated data transfer for latency reduction and real-time processing
WO2019143336A1 (en) * 2018-01-18 2019-07-25 Hewlett-Packard Development Company, L.P. Learned quiet times for digital assistants
CA3093066A1 (en) 2018-03-08 2019-09-12 Frontive, Inc. Methods and systems for speech signal processing
DE102018207280A1 (de) * 2018-05-09 2019-11-14 Robert Bosch Gmbh Verfahren und Vorrichtung zur luftschallakustischen Überwachung eines Außen- und/oder eines Innenraums eines Fahrzeugs, Fahrzeug sowie computerlesbares Speichermedium
WO2020055923A1 (en) 2018-09-11 2020-03-19 Knowles Electronics, Llc Digital microphone with reduced processing noise
US10908880B2 (en) 2018-10-19 2021-02-02 Knowles Electronics, Llc Audio signal circuit with in-place bit-reversal
TWI699543B (zh) * 2018-11-09 2020-07-21 國立雲林科技大學 主動式打火機聲源辨識系統
US11151993B2 (en) * 2018-12-28 2021-10-19 Baidu Usa Llc Activating voice commands of a smart display device based on a vision-based mechanism
EP3939036A4 (en) 2019-03-14 2022-12-28 Vesper Technologies Inc. MICROPHONE WITH DETERMINED DIGITAL OUTPUT AT DIFFERENT LEVELS OF POWER CONSUMPTION
US11418882B2 (en) 2019-03-14 2022-08-16 Vesper Technologies Inc. Piezoelectric MEMS device with an adaptive threshold for detection of an acoustic stimulus
US11726105B2 (en) 2019-06-26 2023-08-15 Qualcomm Incorporated Piezoelectric accelerometer with wake function
RU2767962C2 (ru) 2020-04-13 2022-03-22 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для распознавания воспроизведенного речевого фрагмента
US11967319B2 (en) 2020-12-22 2024-04-23 Direct Cursus Technology L.L.C Method and electronic device for processing a spoken utterance
US11915711B2 (en) 2021-07-20 2024-02-27 Direct Cursus Technology L.L.C Method and system for augmenting audio signals

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0486799A (ja) * 1990-07-31 1992-03-19 Asahi Chem Ind Co Ltd 音声認識装置
US6070140A (en) * 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JPH10319991A (ja) * 1997-05-20 1998-12-04 Sony Corp 電子機器の音声認識起動方法及び装置
US6188986B1 (en) 1998-01-02 2001-02-13 Vos Systems, Inc. Voice activated switch method and apparatus
US20020116196A1 (en) * 1998-11-12 2002-08-22 Tran Bao Q. Speech recognizer
US6339706B1 (en) 1999-11-12 2002-01-15 Telefonaktiebolaget L M Ericsson (Publ) Wireless voice-activated remote control device
US6594630B1 (en) * 1999-11-19 2003-07-15 Voice Signal Technologies, Inc. Voice-activated control for electrical device
WO2002060057A1 (en) * 2001-01-23 2002-08-01 Koninklijke Philips Electronics N.V. Asymmetric multichannel filter
US6889191B2 (en) * 2001-12-03 2005-05-03 Scientific-Atlanta, Inc. Systems and methods for TV navigation with compressed voice-activated commands
US6756700B2 (en) 2002-03-13 2004-06-29 Kye Systems Corp. Sound-activated wake-up device for electronic input devices having a sleep-mode
GB0207732D0 (en) 2002-04-03 2002-05-15 Ttpcomm Ltd Wireless communication terminals
JP2004096520A (ja) * 2002-09-02 2004-03-25 Hosiden Corp 音声認識リモコン
RU2271578C2 (ru) * 2003-01-31 2006-03-10 Ооо "Центр Речевых Технологий" Способ распознавания речевых команд управления
JP2004294946A (ja) * 2003-03-28 2004-10-21 Toshiba Corp 携帯型電子機器
US20050041360A1 (en) * 2003-08-20 2005-02-24 E.G.O. North America, Inc. Systems and methods for achieving low power standby through interaction between a microcontroller and a switching mode power supply
US20060074658A1 (en) * 2004-10-01 2006-04-06 Siemens Information And Communication Mobile, Llc Systems and methods for hands-free voice-activated devices
KR101229574B1 (ko) 2005-03-02 2013-02-05 주식회사 팬택앤큐리텔 단말기 사용자의 음성을 인식하여 단말기 사용자의 감정상태에 따라 반응하는 통신 단말기 및 그 방법과, 상기 통신단말기에서의 마이크 위치 제어 방법
EP1884923A4 (en) 2005-05-27 2009-06-03 Panasonic Corp VOICE EDITING DEVICE, VOICE EDITING METHOD, AND VOICE EDITING PROGRAM
US20090222270A2 (en) 2006-02-14 2009-09-03 Ivc Inc. Voice command interface device
KR100744301B1 (ko) * 2006-06-01 2007-07-30 삼성전자주식회사 음성 인식을 이용하여 동작 모드를 전환하는 휴대 단말기및 그 방법
JP2008299477A (ja) * 2007-05-30 2008-12-11 Victor Co Of Japan Ltd 電子機器の制御方法、制御装置及び制御プログラム
EP2947592B1 (en) * 2007-09-24 2021-10-27 Apple Inc. Embedded authentication systems in an electronic device
US8359204B2 (en) * 2007-10-26 2013-01-22 Honda Motor Co., Ltd. Free-speech command classification for car navigation system
US8943326B2 (en) * 2008-01-29 2015-01-27 Qualcomm Incorporated Systems and methods for accessing a tamperproof storage device in a wireless communication device using biometric data
US8099289B2 (en) * 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
US8416584B2 (en) * 2009-10-30 2013-04-09 Intersil Americas Inc. Power supply with low power consumption hiccup standby operation

Also Published As

Publication number Publication date
CA2855379A1 (en) 2013-05-23
RU2014119876A (ru) 2015-11-27
BR112014011718A8 (pt) 2017-12-12
AU2012339717A1 (en) 2014-05-29
US8666751B2 (en) 2014-03-04
CN103019373B (zh) 2016-05-11
AU2012339717B8 (en) 2017-11-02
MX344403B (es) 2016-12-14
IN2014CN03321A (es) 2015-07-03
BR112014011718A2 (pt) 2017-05-09
EP2780907A4 (en) 2015-08-12
RU2616553C2 (ru) 2017-04-17
US20130132095A1 (en) 2013-05-23
AU2012339717A8 (en) 2017-11-02
WO2013074552A1 (en) 2013-05-23
TWI571796B (zh) 2017-02-21
AU2012339717B2 (en) 2017-09-28
TW201337729A (zh) 2013-09-16
CN103019373A (zh) 2013-04-03
EP2780907A1 (en) 2014-09-24
JP2015508516A (ja) 2015-03-19
KR20140097365A (ko) 2014-08-06

Similar Documents

Publication Publication Date Title
US8666751B2 (en) Audio pattern matching for device activation
US11347317B2 (en) Customized gesture interpretation
US10534438B2 (en) Compound gesture-speech commands
US9113190B2 (en) Controlling power levels of electronic devices through user interaction
JP6325626B2 (ja) ハイブリッド性能スケーリングまたは音声認識
US8781156B2 (en) Voice-body identity correlation
US8660847B2 (en) Integrated local and cloud based speech recognition
US20120089392A1 (en) Speech recognition user interface
CN109032345A (zh) 设备控制方法、装置、设备、服务端和存储介质

Legal Events

Date Code Title Description
GB Transfer or rights

Owner name: MICROSOFT TECHNOLOGY LICENSING, LLC

FG Grant or registration