KR20140097365A - 장치 활성화를 위한 오디오 패턴 정합 - Google Patents

장치 활성화를 위한 오디오 패턴 정합 Download PDF

Info

Publication number
KR20140097365A
KR20140097365A KR1020147016180A KR20147016180A KR20140097365A KR 20140097365 A KR20140097365 A KR 20140097365A KR 1020147016180 A KR1020147016180 A KR 1020147016180A KR 20147016180 A KR20147016180 A KR 20147016180A KR 20140097365 A KR20140097365 A KR 20140097365A
Authority
KR
South Korea
Prior art keywords
activation
power mode
standby power
electrical device
audio
Prior art date
Application number
KR1020147016180A
Other languages
English (en)
Inventor
라구 무르티
3세 에드워드 씨 지아이모
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20140097365A publication Critical patent/KR20140097365A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Power Sources (AREA)
  • Control Of Voltage And Current In General (AREA)
  • Transmitters (AREA)
  • Direct Current Feeding And Distribution (AREA)
  • Selective Calling Equipment (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

전기 장치를 스탠바이 전력 모드로부터 전체 전력 모드로 활성화시키는 시스템 및 방법이 개시된다. 이 시스템은 전기 장치의 근방에서 오디오 신호들을 모니터링하는 하나 이상의 마이크들, 및 저전력 마이크로프로세서 및 비휘발성 메모리를 포함하는 스탠바이 전력 활성화 유닛을 포함한다. 하나 이상의 마이크들에 의해 캡쳐된 오디오가 마이크로프로세서에 의해 디지털화되고, 비휘발성 메모리에 저장된 사전 정의된 활성화 패턴(들)과 비교된다. 디지털 오디오 패턴과 사전 정의된 활성화 패턴 사이에 패턴 정합이 검출되는 경우, 전기 장치가 활성화된다.

Description

장치 활성화를 위한 오디오 패턴 정합 {AUDIO PATTERN MATCHING FOR DEVICE ACTIVATION}
스탠바이 전력 모드(standby power mode)에서 전기 장치를 유휴 상태로 동작시키거나 스위치 오프시키는 것은 일반적인 관행이고, 이 경우 장치는 감소된 양의 전기를 소비한다. 전기 장치의 전형적인 스탠바이 전력은, 예를 들어, 최대 약 8 와트일 수 있다. 그러나, 사용 중인 수십억대의 전기 장치들을 살펴보면, 이 작은 양의 합계가 결국 전세계 총 전기 소비의 상당 부분이 된다. 국제 에너지 기구(International Energy Agency, IEA)에 의한 1 와트 운동(One Watt Initiative)과 같은 운동들은 전기 장치들에서의 스탠바이 전력을 2013년도까지 0.5 와트로 감소시키려고 시도하고 있다. 0.5 와트에서 동작하고 있을 때조차, 스탠바이 전력 모드에 있는 전기 장치들의 단순화된 활성화를 허용하는 것이 바람직할 것이다.
본 기술은 일반적으로 전기 장치를 스탠바이 전력 모드로부터 전체 전력 모드(full power mode)로 활성화시키기 위해 전기 장치에 포함되어 있는 시스템에 관한 것이다. 시스템은 하나 이상의 마이크 및 스탠바이 활성화 유닛(standby activation unit)을 포함한다. 스탠바이 활성화 유닛은 마이크로프로세서와 같은 프로세서 및 관련 비휘발성 메모리를 포함한다. 사용자에 의한 최초 사용 이전에 사전 기록되어 있거나 또는 사용자에 의해 선택되고 입력된, 하나 이상의 디지털화된 활성화 문구들(activation phrases)이 비휘발성 메모리에 저장될 수 있다.
전기 장치가 스탠바이 전력 모드에서 동작하고 있을 때, 마이크의 근방에서의 소리를 감지하기 위해 하나 이상의 마이크들에 전원이 공급된다. 스탠바이 전력 모드에 있을 때 전기 장치를 활성화시키기 위해, 사용자는 비휘발성 메모리에 저장된 것과 정합하는 사전 기록된 또는 사용자가 선택한 활성화 문구를 말할 수 있다. 오디오 스트림이 하나 이상의 마이크들에 의해 검출되고 오디오 패턴으로 디지털화된다. 오디오 패턴은 이어서, 스탠바이 활성화 유닛의 프로세서에 의해, 비휘발성 메모리에 저장된 하나 이상의 활성화 문구들과 비교된다. 말해진 문구가 저장된 활성화 문구와 정합하는 경우, 프로세서는 정합을 식별하고, 전기 장치를 전체 전력 모드로 활성화시키기 위한 신호를 전력 회로로 송신할 것이다. 수신된 오디오 패턴과 저장된 활성화 문구(들) 간의 어떤 정합도 프로세서에 의해 식별되지 않은 경우, 전기 장치는 스탠바이 전력 모드로 남아있다.
마이크 및 스탠바이 활성화 유닛은 오디오 스트림을 수신하고, 이를 오디오 패턴으로 디지털화하며, 들어오는 오디오 패턴들을 저장된 활성화 문구(들) ― 모두가 스탠바이 모드에서 이용가능한 전력을 가짐 ― 와 비교하기 위해 정합 동작(matching operation)을 수행할 수 있다. 일 예에서, 이 전력은 0.5 와트일 수 있다.
실시예들에서, 본 기술은 전기 장치를 스탠바이 전력 모드로부터 활성화시키기 위한 방법에 관한 것이고, 이 방법은 (a) 스탠바이 전력 모드에 있을 때 전기 장치에서 오디오 스트림을 수신하는 단계; (b) 스탠바이 전력 모드에 있을 때 오디오 스트림을 오디오 패턴으로 디지털화하는 단계; (c) 스탠바이 전력 모드에 있을 때 상기 단계 (b)에서 디지털화된 오디오 패턴을 비휘발성 메모리에 저장된 디지털화된 활성화 문구와 비교하는 단계; 및 (d) 오디오 패턴이 사전 정의된 공차(tolerance) 내에서 활성화 문구와 정합하는 경우 전기 장치를 활성화시키는 단계를 포함한다.
다른 예에서, 본 기술은 전기 장치를 스탠바이 전력 모드로부터 활성화시키기 위한 스탠바이 활성화 시스템(standby activation system)에 관한 것이고, 스탠바이 활성화 시스템은 하나 이상의 마이크들의 근방에서 오디오 스트림을 검출하기 위한 하나 이상의 마이크들; 및 스탠바이 활성화 유닛을 포함하고, 스탠바이 활성화 유닛은, 하나 이상의 저장된 활성화 패턴들을 포함하는 비휘발성 메모리, 및 스탠바이 전력 모드에서 전기 장치에 이용가능한 전력을 사용하여 하나 이상의 마이크들로부터 수신되는 디지털화된 오디오 패턴을 비휘발성 메모리에 저장된 하나 이상의 저장된 활성화 패턴들과 비교하기 위한 프로세서 ― 디지털화된 오디오 패턴이 사전 정의된 공차 내에서 비휘발성 메모리에 저장된 하나 이상의 활성화 문구들의 활성화 문구와 정합하는 경우, 프로세서는 장치를 활성화시킴 ― 를 포함한다.
추가적인 예에서, 본 기술은 내추럴 사용자 인터페이스(natural user interface, NUI) 시스템의 컴퓨팅 장치를 스탠바이 전력 모드로부터 활성화시키기 위한 방법을 수행하도록 프로세서를 프로그래밍하기 위한 컴퓨터 실행가능 명령어들을 가지는 컴퓨터 판독가능 저장 매체에 관한 것으로서, 이 방법은 (a) 스탠바이 전력 모드에 있을 때 NUI 시스템과 연관되는 하나 이상의 마이크들에서 오디오 스트림을 수신하는 단계; (b) 스탠바이 전력 모드에 있을 때 오디오 스트림을 오디오 패턴으로 디지털화하는 단계; (c) 스탠바이 전력 모드에 있을 때, 디지털화된 오디오 스트림을 컴퓨팅 장치의 비휘발성 메모리에 저장된 하나 이상의 디지털화된 활성화 문구들과 정합시키는 것을 용이하게 하기 위해, 디지털화된 오디오 스트림을 처리하는 단계; (d) 스탠바이 전력 모드에 있을 때 상기 단계 (c)에서 처리된 오디오 패턴을 컴퓨팅 장치의 비휘발성 메모리에 저장된 하나 이상의 디지털화된 활성화 문구들과 비교하는 단계; 및 (e) 오디오 패턴이 사전 정의된 공차 내에서 하나 이상의 활성화 문구들의 활성화 문구와 정합하는 경우, 컴퓨팅 장치를 활성화시키는 단계를 포함한다.
이 요약은 이하에서 상세한 설명에 추가적으로 설명되는 개념들의 모음을 간략화된 형태로 소개하기 위해 제공된다. 이 요약은 청구된 발명 요지의 주요 특징들 또는 필수적인 특징들을 식별하도록 의도된 것이 아니며, 청구된 발명 요지의 범주를 결정하는 데 보조 수단으로 사용되도록 의도된 것도 아니다. 게다가, 청구된 발명 요지가 본 개시 내용의 임의의 부분에서 논의된 임의의 또는 모든 단점들을 해결하는 구현예들로 제한되지 않는다.
도 1a 및 도 1b는 사용자가 게임을 플레이할 때의 타겟 인식, 분석 및 추적 시스템의 예시적인 실시예들을 예시한다.
도 2는 타겟 인식, 분석 및 추적 시스템에서 사용될 수 있는 캡쳐 장치(capture device)의 예시적인 실시예를 예시한다.
도 3a는 타겟 인식, 분석 및 추적 시스템에서 하나 이상의 제스처들을 해석하는 데 사용될 수 있는 컴퓨팅 환경의 예시적인 실시예를 예시한다.
도 3b는 타겟 인식, 분석 및 추적 시스템에서 하나 이상의 제스처들을 해석하는 데 사용될 수 있는 컴퓨팅 환경의 다른 예시적인 실시예를 예시한다.
도 4는 활성화 문구를 알려주고 저장하기 위한 일 실시예의 플로우차트이다.
도 5는 디지털화된 활성화 패턴의 샘플이다.
도 6은 스탠바이 전력 모드에 있을 때 전기 장치를 활성화시키기 위한 실시예의 플로우차트이다.
도 7은 스탠바이 전력 모드에 있을 때 전기 장치를 활성화시키기 위한 실시예의 블록도이다.
본 기술의 실시예들이 이제 도 1a 내지 도 7을 참조하여 기술될 것이며, 이들은 일반적으로 전기 장치를 스탠바이 전력 모드로부터 전체 전력 모드로 활성화시키기 위해 전기 장치에 포함되어 있는 시스템에 관한 것이다. 일 예에서, 전기 장치는 타겟 인식, 분석 및 추적 시스템(10)으로서 하기에 설명되는 NUI 시스템일 수 있다. NUI 시스템은 사용자 제스처들이 소프트웨어 애플리케이션의 화면 상의 캐릭터들 또는 기타 양상들을 제어하기 위해 검출되고 해석되며 사용되는 시스템일 수 있다. 그러나, 이하에서 추가로 기술하는 바와 같이, 전기 장치는 다양한 다른 컴퓨팅 장치들 및 기기들일 수 있다. 실시예들에서, 본 개시 내용의 시스템은 전기 장치의 근방에서의 오디오 신호들을 모니터링하기 위한 하나 이상의 마이크들, 및 저전력 마이크로프로세서 및 비휘발성 메모리를 포함하는 스탠바이 전력 활성화 유닛을 포함한다. 장치가 스탠바이 전력 모드에 있을 때, 마이크는 오디오를 캡쳐하고, 오디오를 디지털 오디오 패턴으로 변환한다. 이 오디오 패턴은 이어서 마이크로프로세서에 의하여, 비휘발성 메모리에 저장된 사전 정의된 활성화 패턴(들)과 비교된다. 디지털 오디오 패턴과 사전 정의된 활성화 패턴 사이에 패턴 정합이 검출되는 경우, 전기 장치가 활성화된다.
하나 이상의 마이크들, 마이크로프로세서 및 비휘발성 메모리는 함께, 작은 양의 전력(예를 들어, 0.5 와트)을 사용하여, 오디오 패턴들을 획득하고 이들을 저장된 활성화 패턴들과 비교할 수 있다. 따라서, 본 시스템은 전기 장치가 스탠바이 전력 모드(즉, 유휴 또는 셧다운)에 있는 동안 전기 장치를 활성화시키는 데 사용될 수 있다. 스탠바이 전력 모드에 있을 때, 이하에 설명되는 전기 장치는, 예들에서, 0.5 와트일 수 있는 스탠바이 전력을 수용한다. 추가의 실시예에서, 스탠바이 전력이 이것보다 더 높거나 더 낮을 수 있고, 본 시스템이 이러한 보다 높거나 보다 낮은 스탠바이 전력 설정들에서 동작가능할 것이라고 믿어진다.
먼저, 도 1a 내지 도 2를 참조하면, 본 기술의 하나의 예를 구현하는 하드웨어는 사용자(18)와 같은 사람 타겟을 인식, 분석 및/또는 추적하는 데 사용될 수 있는 타겟 인식, 분석 및 추적 시스템(10)을 포함한다. 타겟 인식, 분석 및 추적 시스템(10)의 실시예들은 게임 또는 기타 애플리케이션을 실행하기 위한 컴퓨팅 장치(12)를 포함한다. 컴퓨팅 장치(12)는 컴퓨팅 장치(12)가 게임 및 비게임 애플리케이션과 같은 애플리케이션들을 실행하는 데 사용될 수 있도록, 하드웨어 구성요소들 및/또는 소프트웨어 구성요소들을 포함할 수 있다. 일 실시예에서, 컴퓨팅 장치(12)는 활성이고 전체 전력으로 동작하고 있을 때 시스템(10)의 프로세스들을 수행하기 위한 프로세서 판독가능 저장 장치에 저장된 명령어들을 실행할 수 있는 표준화된 프로세서, 특수 프로세서, 마이크로프로세서 등과 같은 프로세서를 포함할 수 있다.
이후에 설명되는 바와 같이, 컴퓨팅 장치(12)는 스탠바이 모드에서 동작하고 있을 때 시스템(10)의 활성화 프로세스를 수행하기 위한 비휘발성 메모리에 저장된 명령어들을 실행할 수 있는 제2 저전력 프로세서 또는 마이크로프로세서를 추가로 포함할 수 있다.
시스템(10)은 캡쳐 장치에 의해 감지되는 하나 이상의 사용자들 및/또는 물체들에 관련된 영상 및 오디오 데이터를 캡쳐하기 위한 캡쳐 장치(20)를 추가로 포함한다. 실시예들에서, 캡쳐 장치(20)는 하나 이상의 사용자들의 신체 및 손 움직임들 및/또는 제스처들 및 음성에 관련된 정보를 캡쳐하는 데 사용될 수 있고, 이 정보는 컴퓨팅 환경에 의해 수신되고 게임 또는 기타 애플리케이션의 양상들을 렌더링하고, 이들과 상호작용하고/하거나 이들을 제어하는 데 사용된다. 컴퓨팅 장치(12) 및 캡쳐 장치(20)의 예들이 이하에서 더 상세히 설명된다.
타겟 인식, 분석 및 추적 시스템(10)의 실시예들이 디스플레이(14)를 가지는 오디오/비디오(A/V) 장치(16)에 연결될 수 있다. 장치(16)는, 예를 들어, 게임 또는 애플리케이션 비주얼 및/또는 오디오를 사용자에게 제공할 수 있는 텔레비전, 모니터, HDTV(high-definition television) 등일 수 있다. 예를 들어, 컴퓨팅 장치(12)는 게임 또는 기타 애플리케이션과 연관된 오디오/비주얼 신호들을 제공할 수 있는 그래픽 카드와 같은 비디오 어댑터 및/또는 사운드 카드와 같은 오디오 어댑터를 포함할 수 있다. A/V 장치(16)는 컴퓨팅 장치(12)로부터 오디오/비주얼 신호들을 수신할 수 있고, 이어서 오디오/비주얼 신호들와 연관되는 게임 또는 애플리케이션 비주얼 및/또는 오디오를 사용자(18)에게 출력할 수 있다. 일 실시예에 따르면, 오디오/비주얼 장치(16)는, 예를 들어, S-Video 케이블, 동축 케이블, HDMI 케이블, DVI 케이블, VGA 케이블, 컴포넌트 비디오 케이블 등을 통해 컴퓨팅 장치(12)에 연결될 수 있다.
실시예들에서, 컴퓨팅 장치(12), A/V 장치(16) 및 캡쳐 장치(20)는 아바타(avatar) 또는 화면 상의 캐릭터(19)를 디스플레이(14) 상에 렌더링하기 위해 협력할 수 있다. 예를 들어, 도 1a는 사용자(18)가 축구 게임 애플리케이션을 플레이하는 것을 나타내고 있다. 아바타(19)의 움직임들을 애니메이션화하기 위해 사용자의 움직임들이 추적되고 사용된다. 실시예들에서, 사용자(18)가 디스플레이(14) 상에서의 아바타(19)의 움직임들 및 동작들을 제어하는 움직임들 및 제스처들을 수행할 수 있도록, 아바타(19)는 현실 공간에 있는 사용자(18)의 움직임들을 흉내낸다. 도 1b에서, 예를 들어, 사용자(18)가 디스플레이(14) 상에 제시되는 다양한 메뉴 옵션들을 갖는 사용자 인터페이스(21)를 스크롤하여 제어하는 NUI 시스템에서 캡쳐 장치(20)가 사용된다. 도 1b에서, 사용자의 신체의 움직임들 및 제스처들을 인식하고 분석하기 위해 컴퓨팅 장치(12) 및 캡쳐 장치(20)가 사용될 수 있고, 이러한 움직임들 및 제스처들이 사용자 인터페이스에 대한 컨트롤들로서 해석될 수 있다.
시스템(10) 및 그의 구성요소들의 적절한 예들은 다음과 같은 동시 계류 중인 특허 출원들(이들 모두는 참조 문헌으로서 본 명세서에 명확히 포함됨)에서 발견된다: 2009년 5월 29일자로 출원된, 발명의 명칭이 "Environment and/or Target Segmentation"인 미국 특허 출원 제12/475,094호; 2009년 7월 29일자로 출원된, 발명의 명칭이 "Auto Generating a Visual Representation"인 미국 특허 출원 제12/511,850호; 2009년 5월 29일자로 출원된, 발명의 명칭이 "Gesture Tool"인 미국 특허 출원 제12/474,655호; 2009년 10월 21일자로 출원된, 발명의 명칭이 "Pose Tracking Pipeline"인 미국 특허 출원 제12/603,437호; 2009년 5월 29일자로 출원된, 발명의 명칭이 "Device for Identifying and Tracking Multiple Humans Over Time"인 미국 특허 출원 제12/475,308호, 2009년 10월 7일자로 출원된, 발명의 명칭이 "Human Tracking System"인 미국 특허 출원 제12/575,388호; 2009년 4월 13일자로 출원된, 발명의 명칭이 "Gesture Recognizer System Architecture"인 미국 특허 출원 제12/422,661호; 2009년 2월 23일자로 출원된, 발명의 명칭이 "Standard Gestures"인 미국 특허 출원 제12/391,150호.
도 2는 타겟 인식, 분석 및 추적 시스템(10)에서 사용될 수 있는 캡쳐 장치(20)의 예시적인 실시예를 나타낸 것이다. 예시적인 실시예에서, 캡쳐 장치(20)는, 예를 들어, 비행 시간(time-of-flight), 구조화된 광(structured light), 입체 영상 등을 포함하는 임의의 적절한 기법을 통해, 깊이 값들을 포함할 수 있는 깊이 영상을 가지는 비디오를 캡쳐하도록 구성될 수 있다. 일 실시예에 따르면, 캡쳐 장치(20)는 계산된 깊이 정보를 "Z층들", 또는 깊이 카메라로부터 그것의 시선(line of sight)을 따라 연장되는 Z축에 직각일 수 있는 층들로 구성할 수 있다. X축 및 Y축은 Z축에 직각인 것으로 정의될 수 있다. Y축은 수직일 수 있고, X축은 수평일 수 있다. X축, Y축 및 Z축은 다함께, 캡쳐 장치(20)에 의해 캡쳐되는 3D 현실 공간을 정의한다.
도 2에 도시된 바와 같이, 캡쳐 장치(20)는 영상 카메라 구성요소(22)를 포함할 수 있다. 예시적인 실시예에 따르면, 영상 카메라 구성요소(22)는 장면의 깊이 영상을 캡쳐할 수 있는 깊이 카메라일 수 있다. 깊이 영상은 캡쳐된 장면의 2차원(2D) 픽셀 영역을 포함할 수 있으며, 이 경우 2D 픽셀 영역 내의 각각의 픽셀은 캡쳐된 장면 내의 물체의 카메라로부터의 길이 또는 거리와 같은 깊이 값을 예를 들어, 센티미터, 밀리미터 등의 단위로 나타낼 수 있다.
도 2에 도시된 바와 같이, 예시적인 실시예에 따르면, 영상 카메라 구성요소(22)는 장면의 깊이 영상을 캡쳐하는 데 사용될 수 있는 IR 광 구성요소(24), 3차원(3D) 카메라(26) 및 RGB 카메라(28)를 포함할 수 있다. 예를 들어, 비행 시간 분석에서, 캡쳐 장치(20)의 IR 광 구성요소(24)는 장면 상으로 적외선 광을 방출할 수 있고, 이어서, 예를 들어, 3D 카메라(26) 및/또는 RGB 카메라(28)를 사용하여 장면 내의 하나 이상의 타겟들 및 물체들의 표면으로부터 후방 산란된 광을 검출하기 위해 센서들(미도시)을 사용할 수 있다.
몇몇 실시예들에서, 나가는(outgoing) 광 펄스와 대응하는 들어오는(incoming) 광 펄스 사이의 시간이 측정되고 캡쳐 장치(20)로부터 장면 내의 타겟들 또는 물체들 상의 특정의 위치까지의 물리적 거리를 결정하는 데 사용될 수 있도록 펄스형 적외선 광(pulsed infrared light)이 사용될 수 있다. 그에 부가하여, 다른 예시적인 실시예들에서, 위상 천이를 결정하기 위해, 나가는 광파의 위상이 들어오는 광파의 위상과 비교될 수 있다. 위상 천이는 이어서 캡쳐 장치(20)로부터 타겟들 또는 물체들 상의 특정의 위치까지의 물리적 거리를 결정하는 데 사용될 수 있다.
다른 예시적인 실시예에 따르면, 예를 들어, 셔터 방식의 광 펄스 영상화(shuttered light pulse imaging)를 포함하는 다양한 기법들을 통해 시간에 따라 반사된 광 빔의 세기를 분석함으로써, 캡쳐 장치(20)로부터 타겟들 또는 물체들 상의 특정의 위치까지의 물리적 거리를 간접적으로 결정하기 위해 비행 시간 분석이 사용될 수 있다.
다른 예시적인 실시예에서, 캡쳐 장치(20)는 깊이 정보를 캡쳐하기 위해 구조화된 광을 사용할 수 있다. 이러한 분석에서, 패턴화된 광(즉, 격자 패턴 또는 줄무늬 패턴과 같은 공지된 패턴으로서 디스플레이되는 광)이, 예를 들어, IR 광 구성요소(24)를 통해 장면 상에 투사될 수 있다. 장면 내의 하나 이상의 타겟들 또는 물체들의 표면에 부딪칠 때, 패턴이 그에 응답하여 변형될 수 있다. 패턴의 이러한 변형은, 예를 들어, 3D 카메라(26) 및/또는 RGB 카메라(28)에 의해 캡쳐될 수 있고, 이어서 캡쳐 장치(20)로부터 타겟들 또는 물체들 상의 특정의 위치까지의 물리적 거리를 결정하기 위해 분석될 수 있다.
다른 실시예에 따르면, 캡쳐 장치(20)는 깊이 정보를 발생시키기 위해 분석될 수 있는 시각적 입체 데이터를 획득하기 위해 상이한 각도들로부터 장면을 볼 수 있는 2개 이상의 물리적으로 분리된 카메라들을 포함할 수 있다. 다른 예시적인 실시예에서, 캡쳐 장치(20)는 사용자의 특징들을 검출하기 위해 점군 데이터(point cloud data) 및 타겟 디지털화 기법들을 사용할 수 있다.
캡쳐 장치(20)는 마이크(30)를 추가로 포함할 수 있다. 마이크(30)는 소리를 수신하여 전기 신호로 변환할 수 있는 트랜스듀서 또는 센서를 포함할 수 있다. 일 실시예에 따르면, 마이크(30)는 타겟 인식, 분석 및 추적 시스템(10)에서 캡쳐 장치(20)와 컴퓨팅 장치(12) 간의 피드백을 감소시키는 데 사용될 수 있다. 그에 부가하여, 마이크(30)는 컴퓨팅 장치(12)에 의해 실행될 수 있는 게임 애플리케이션, 비게임 애플리케이션 등과 같은 애플리케이션들을 제어하기 위해 사용자에 의해 또한 제공될 수 있는 오디오 신호들을 수신하는 데 사용될 수 있다. 단일의 마이크(30) 대신에, 본 시스템은 2개 이상의 마이크들을 이용할 수 있다. 다수의 마이크들은 음원 위치 판별(acoustic source localization)이 소리의 발신지를 식별할 수 있게 한다.
예시적인 실시예에서, 캡쳐 장치(20)는 영상 카메라 구성요소(22)와 통신 동작을 하고 있을 수 있는 프로세서(32)를 추가로 포함할 수 있다. 프로세서(32)는 깊이 영상을 수신하기 위한 명령어, 깊이 영상에 적합한 타겟이 포함될 수 있는지를 판정하는 명령어, 적절한 타겟을 타겟의 골격 표현 또는 모델로 변환하는 명령어, 또는 임의의 다른 적절한 명령어를 포함할 수 있는 명령어들을 실행할 수 있는, 표준화된 프로세서, 특수 프로세서, 마이크로프로세서 등을 포함할 수 있다.
캡쳐 장치(20)는 프로세서(32)에 의해 실행될 수 있는 명령어, 3D 카메라 또는 RGB 카메라에 의해 캡쳐된 영상들 또는 영상들의 프레임들, 또는 임의의 다른 적절한 정보, 영상들 등을 저장할 수 있는 메모리 구성요소(34)를 추가로 포함할 수 있다. 예시적인 실시예에 따르면, 메모리 구성요소(34)는 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 캐시, 플래시 메모리, 하드 디스크, 또는 임의의 다른 적절한 저장 구성요소를 포함할 수 있다. 도 2에 도시된 바와 같이, 일 실시예에서, 메모리 구성요소(34)는 영상 카메라 구성요소(22) 및 프로세서(32)와 통신하는 별개의 구성요소일 수 있다. 다른 실시예에 따르면, 메모리 구성요소(34)는 프로세서(32) 및/또는 영상 카메라 구성요소(22) 내에 통합될 수 있다.
도 2에 도시된 바와 같이, 캡쳐 장치(20)는 통신 링크(36)를 통해 컴퓨팅 장치(12)와 통신하고 있을 수 있다. 통신 링크(36)는, 예를 들어, USB 연결, 파이어와이어(Firewire) 연결, 이더넷 케이블 연결 등을 포함하는 유선 연결 및/또는 무선 802.11b, g, a, 또는 n 연결과 같은 무선 연결일 수 있다. 일 실시예에 따르면, 컴퓨팅 장치(12)는, 예를 들어, 통신 링크(36)를 통해 장면을 언제 캡쳐해야 하는지를 결정하는 데 사용될 수 있는 클럭을 캡쳐 장치(20)에 제공할 수 있다.
그에 부가하여, 캡쳐 장치(20)는, 예를 들어, 3D 카메라(26) 및/또는 RGB 카메라(28)에 의해 캡쳐된 깊이 정보 및 영상들을 제공할 수 있다. 이들 장치의 도움으로, 본 기술에 따라 부분 골격 모델이 개발될 수 있고, 결과 데이터가 통신 링크(36)를 통해 컴퓨팅 장치(12)에 제공된다.
컴퓨팅 장치(12)는 제스처들을 인식하기 위한 제스처 인식 엔진(190)을 추가로 포함할 수 있다. 본 시스템에 따르면, 컴퓨팅 장치(12)는 패턴 정합 엔진(192) 및 실시예들에서, 음성 인식 엔진(194)을 추가로 포함할 수 있으며, 이들 둘 다는 이하에서 설명된다.
도 3a는 타겟 인식, 분석 및 추적 시스템에서 하나 이상의 제스처들을 해석하는 데 사용될 수 있는 컴퓨팅 환경의 예시적인 실시예를 나타낸 것이다. 도 1a 내지 도 2와 관련하여 앞서 설명한 컴퓨팅 장치(12)와 같은 컴퓨팅 환경은 게임 콘솔 등의 멀티미디어 콘솔(100)일 수 있다. 도 3a에 도시된 바와 같이, 멀티미디어 콘솔(100)은 레벨 1 캐시(102), 레벨 2 캐시(104), 및 플래시 ROM(106)을 가지는 중앙 처리 장치(central processing unit, CPU)(101)를 가진다. 레벨 1 캐시(102) 및 레벨 2 캐시(104)는 데이터를 일시적으로 저장하고, 따라서 메모리 액세스 사이클의 수를 감소시킴으로써, 처리 속도 및 처리율(throughput)을 향상시킨다. 2개 이상의 코어, 그리고 따라서 부가의 레벨 1 및 레벨 2 캐시들(102, 104)을 가지는 CPU(101)가 제공될 수 있다. 플래시 ROM(106)은, 멀티미디어 콘솔(100)의 전원이 켜질 때, 부팅 프로세스의 초기 단계 동안에 로드되는 실행가능 코드를 저장할 수 있다.
비록 도 3a에 도시되어 있지는 않지만, 멀티미디어 콘솔(100)은 스탠바이 전력 모드로부터 시스템을 활성화시키기 위한 마이크로프로세서와 같은 프로세서 및 비휘발성 메모리를 추가로 포함할 수 있다. 추가의 실시예들에서, 스탠바이 전력 모드로부터 시스템을 활성화시키기 위한 프로세서 및 메모리는 각각 처리 장치(101) 및 ROM(106)일 수 있다.
그래픽 처리 장치(graphics processing unit, GPU)(108) 및 비디오 인코더/비디오 코덱(코더/디코더)(114)는 고속 및 고해상도 그래픽 처리를 위한 비디오 처리 파이프라인을 형성한다. 데이터는 버스를 통해 GPU(108)로부터 비디오 인코더/비디오 코덱(114)으로 전달된다. 비디오 처리 파이프라인은 텔레비전 또는 기타 디스플레이로 전송하기 위해 데이터를 A/V(오디오/비디오) 포트(140)로 출력한다. 메모리 제어기(110)는 RAM과 같은(그러나 이에 제한되지 않음) 다양한 유형의 메모리(112)에 대한 프로세서 액세스를 용이하게 하기 위해 GPU(108)에 연결된다.
멀티미디어 콘솔(100)은, 바람직하게는 모듈(118) 상에 구현되는, I/O 제어기(120), 시스템 관리 제어기(122), 오디오 처리 장치(123), 네트워크 인터페이스 제어기(124), 제1 USB 호스트 제어기(126), 제2 USB 호스트 제어기(128) 및 프런트 패널 I/O 서브어셈블리(130)를 포함한다. USB 제어기들(126, 128)은 주변장치 제어기들[142(1) 및 142(2)], 무선 어댑터(148), 및 외부 메모리 장치(146)(예컨대, 플래시 메모리, 외장형 CD/DVD ROM 드라이브, 이동식 매체, 기타)에 대한 호스트로서 역할한다. 네트워크 인터페이스(124) 및/또는 무선 어댑터(148)는 네트워크(예컨대, 인터넷, 홈 네트워크, 기타)에 대한 액세스를 제공하고, 이더넷 카드, 모뎀, 블루투스 모듈, 케이블 모뎀 등을 포함하는 광범위한 다양한 유선 또는 무선 어댑터 구성요소들 중 임의의 것일 수 있다.
시스템 메모리(143)는 부팅 프로세스 동안에 로드되는 애플리케이션 데이터를 저장하기 위해 제공된다. 매체 드라이브(144)가 제공되고, DVD/CD 드라이브, 하드 드라이브, 또는 기타 이동식 매체 드라이브 등을 포함할 수 있다. 매체 드라이브(144)는 멀티미디어 콘솔(100)에 대해 내장형이거나 외장형일 수 있다. 멀티미디어 콘솔(100)에 의한 실행, 재생 등을 위해, 애플리케이션 데이터가 매체 드라이브(144)를 통해 액세스될 수 있다. 매체 드라이브(144)는 직렬 ATA 버스 또는 기타 고속 연결(예를 들어, IEEE 1394)과 같은 버스를 통해 I/O 제어기(120)에 연결된다.
시스템 관리 제어기(122)는 멀티미디어 콘솔(100)의 이용가능성을 확인하는 것과 관련된 다양한 서비스 기능들을 제공한다. 오디오 처리 장치(123) 및 오디오 코덱(132)은 Hi-Fi(high fidelity) 및 스테레오 처리를 갖는 대응하는 오디오 처리 파이프라인을 형성한다. 오디오 데이터는 통신 링크를 통해 오디오 처리 장치(123)와 오디오 코덱(132) 사이에서 전달된다. 오디오 처리 파이프라인은 오디오 능력들을 가지는 외부 오디오 플레이어 또는 장치에 의한 재생을 위해 데이터를 A/V 포트(140)로 출력한다.
프런트 패널 I/O 서브어셈블리(130)는 전원 버튼(power button)(150) 및 이젝트 버튼(eject button)(152)의 기능 뿐 아니라, 멀티미디어 콘솔(100)의 외측 표면 상에 노출되어 있는 임의의 LED들(light emitting diodes) 또는 기타 표시자들도 지원한다. 시스템 전원 공급 장치 모듈(136)은 멀티미디어 콘솔(100)의 구성요소들에 전력을 제공한다. 팬(138)은 멀티미디어 콘솔(100) 내의 회로를 냉각시킨다.
멀티미디어 콘솔(100) 내의 CPU(101), GPU(108), 메모리 제어기(110) 및 다양한 기타 구성요소들은 다양한 버스 아키텍처들 중 임의의 것을 사용하여, 직렬 버스 및 병렬 버스, 메모리 버스, 주변 장치 버스, 및 프로세서 또는 로컬 버스를 포함하는 하나 이상의 버스들을 통해 상호연결된다. 예로서, 이러한 아키텍처들은 PCI(Peripheral Component Interconnects) 버스, PCI-Express 버스 등을 포함할 수 있다.
멀티미디어 콘솔(100)의 전원이 켜질 때, 애플리케이션 데이터가 시스템 메모리(143)로부터 메모리(112) 및/또는 캐시들(102, 104)로 로드되고, CPU(101) 상에서 실행될 수 있다. 애플리케이션은 멀티미디어 콘솔(100) 상에서 이용가능한 상이한 미디어 유형들을 탐색할 때 일관성있는 사용자 경험을 제공하는 그래픽 사용자 인터페이스를 제시할 수 있다. 동작 시, 멀티미디어 콘솔(100)에 부가의 기능들을 제공하기 위해, 매체 드라이브(144) 내에 포함된 애플리케이션들 및/또는 기타 미디어가 매체 드라이브(144)로부터 시작되거나 재생될 수 있다.
멀티미디어 콘솔(100)은 시스템을 텔레비전 또는 기타 디스플레이에 간단히 연결시킴으로써 독립형 시스템으로서 동작될 수 있다. 이 독립형 모드에서, 멀티미디어 콘솔(100)은 한명 이상의 사용자들이 시스템과 상호작용하거나, 영화를 시청하거나, 음악을 듣게 할 수 있다. 그러나, 광대역 연결의 통합이 네트워크 인터페이스(124) 또는 무선 어댑터(148)를 통해 이용가능하게 되는 경우, 멀티미디어 콘솔(100)은 또한 대규모 네트워크 커뮤니티에의 참가자로서 동작될 수 있다.
멀티미디어 콘솔(100)의 전원이 켜질 때, 설정된 양의 하드웨어 리소스들이 멀티미디어 콘솔 운영 체제에 의한 시스템 사용을 위해 예약된다. 이들 리소스는 메모리(예를 들어, 16 MB), CPU 및 GPU 사이클(예컨대, 5%), 네트워킹 대역폭(예컨대, 8 kbs) 등의 예약을 포함할 수 있다. 이들 리소스가 시스템 부팅 시에 예약되기 때문에, 예약된 리소스들은 애플리케이션의 관점에서 볼 때 존재하지 않는다.
상세하게는, 메모리 예약은 바람직하게는 시작 커널(launch kernel), 동시 시스템 애플리케이션들(concurrent system applications) 및 드라이버들을 포함할 정도로 충분히 크다. 예약된 CPU 사용량이 시스템 애플리케이션들에 의해 사용되지 않는 경우, 유휴 스레드(idle thread)가 임의의 미사용 사이클들을 소모하도록, CPU 예약은 바람직하게는 일정하다.
GPU 예약과 관련하여, GPU 인터럽트를 사용하여 코드가 팝업을 오버레이에 렌더링하도록 스케줄링함으로써 시스템 애플리케이션들에 의해 발생된 경량 메시지들(예컨대, 팝업들)이 디스플레이된다. 오버레이에 필요한 메모리의 양은 오버레이 영역 크기에 의존하며, 오버레이는 바람직하게는 화면 해상도에 따라 스케일링된다. 사용자 인터페이스 전체가 동시 시스템 애플리케이션에 의해 사용되는 경우, 애플리케이션 해상도에 무관한 해상도를 사용하는 것이 바람직하다. 주파수를 변경하고 TV를 재동기시킬 필요성이 제거되도록, 스케일러(scaler)가 이 해상도를 설정하는 데 사용될 수 있다.
멀티미디어 콘솔(100)이 부팅하고 시스템 리소스들이 예약된 후에, 시스템 기능들을 제공하기 위해 동시 시스템 애플리케이션들이 실행된다. 시스템 기능들은 앞서 설명한 예약된 시스템 리소스들 내에서 실행되는 시스템 애플리케이션들의 세트에 캡슐화된다. 운영 체제 커널은 시스템 애플리케이션 스레드들대 게임 애플리케이션 스레드들인 스레드를 식별한다. 시스템 애플리케이션들은 바람직하게는 애플리케이션에게 일관성있는 시스템 리소스 뷰를 제공하기 위해 미리 결정된 때에 그리고 미리 결정된 간격으로 CPU(101) 상에서 실행되도록 스케줄링된다. 스케줄링은 콘솔 상에서 실행 중인 게임 애플리케이션에 대한 캐시 방해(cache disruption)를 최소화하는 것이다.
동시 시스템 애플리케이션이 오디오를 필요로 할 때, 오디오 처리는 시간 민감도로 인해 게임 애플리케이션에 비동기식으로 스케줄링된다. 시스템 애플리케이션들이 활성일 때, 멀티미디어 콘솔 애플리케이션 관리자(이하에서 설명됨)는 게임 애플리케이션 오디오 레벨(예컨대, 음소거, 감쇠)을 제어한다.
입력 장치들[예컨대, 제어기들(142(1) 및 142(2))]은 게임 애플리케이션들 및 시스템 애플리케이션들에 의해 공유된다. 입력 장치들은 예약된 리소스들이 아니고, 각각이 장치의 포커스를 가지도록 시스템 애플리케이션들과 게임 애플리케이션 간에 전환될 것이다. 애플리케이션 관리자는 바람직하게는, 게임 애플리케이션의 정보를 모르는 상태에서, 입력 스트림의 전환을 제어하고, 드라이버는 포커스 전환(focus switch)에 관한 상태 정보를 유지한다. 카메라들(26, 28) 및 캡쳐 장치(20)는 콘솔(100)에 대한 부가의 입력 장치들을 정의할 수 있다.
도 3b는 타겟 인식, 분석 및 추적 시스템에서 하나 이상의 제스처들을 해석하는 데 사용되는 도 1a 내지 도 2에 도시된 컴퓨팅 장치(12)일 수 있는 컴퓨팅 환경(220)의 다른 예시적인 실시예를 나타낸 것이다. 컴퓨팅 시스템 환경(220)은 단지 적절한 컴퓨팅 환경의 하나의 예이며, 여기 개시된 발명 요지의 용도 또는 기능의 범주에 관한 어떤 제한도 암시하기 위한 것이 아니다. 컴퓨팅 환경(220)이 예시적인 운영 환경(220)에 예시된 구성요소들 중 어느 하나 또는 이들 구성요소의 임의의 조합에 관한 어떤 의존성 또는 요구조건도 갖는 것으로 해석되어서는 안된다. 몇몇 실시예들에서, 다양한 도시된 컴퓨팅 요소들은 본 개시 내용의 특정 양상들을 인스턴스화하도록 구성되어 있는 회로를 포함할 수 있다. 예를 들어, 본 개시 내용에서 사용되는 용어 회로(circuitry)는 펌웨어 또는 스위치들에 의해 기능(들)을 수행하도록 구성되어 있는 특수화된 하드웨어 구성요소들을 포함할 수 있다. 다른 예시적인 실시예들에서, 용어 회로는 기능(들)을 수행하도록 동작하는 로직을 구현하는 소프트웨어 명령어들에 의해 구성되는, 범용 처리 장치, 메모리 등을 포함할 수 있다. 회로가 하드웨어와 소프트웨어의 조합을 포함하는 예시적인 실시예들에서, 구현자는 로직을 구현하는 소스 코드를 작성할 수 있으며, 소스 코드는 범용 처리 장치에 의해 처리될 수 있는 기계 판독가능 코드로 컴파일될 수 있다. 기술 분야의 당업자라면 하드웨어, 소프트웨어, 또는 하드웨어/소프트웨어 조합 간에 거의 차이가 없는 수준까지 최신 기술이 발전했다는 것을 인식할 수 있기 때문에, 특정의 기능들을 실시하기 위해 하드웨어를 선택할지 소프트웨어를 선택할지는 구현자에게 맡겨진 설계 선택사항이다. 보다 구체적으로는, 기술 분야의 당업자라면 소프트웨어 프로세스가 동등한 하드웨어 구조로 변환될 수 있고, 하드웨어 구조 자체가 동등한 소프트웨어 프로세스로 변환될 수 있다는 것을 인식할 수 있다. 따라서, 하드웨어 구현을 선택할지 소프트웨어 구현을 선택할지는 설계 선택사항의 하나이며, 구현자에게 맡겨져 있다.
도 3b에서, 컴퓨팅 환경(220)은 통상적으로 다양한 컴퓨터 판독가능 매체를 포함하는 컴퓨터(241)를 포함한다. 컴퓨터 판독가능 매체는 컴퓨터(241)에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수 있고, 휘발성 및 비휘발성 매체, 이동식 및 비이동식 매체 모두를 포함한다. 시스템 메모리(222)는 ROM(223) 및 RAM(260)과 같은 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함한다. 예컨대 시동(start-up) 동안에, 컴퓨터(241) 내의 요소들 간의 정보 전송을 돕는 기본 루틴들이 들어 있는 기본 입출력 시스템(224)(basic input/output system, BIOS)은 통상적으로 ROM(223)에 저장된다. RAM(260)은 통상적으로 중앙 처리 장치(259)에 의해 즉각 액세스될 수 있고/있거나 현재 동작되고 있는 데이터 및/또는 프로그램 모듈들을 포함한다. 제한이 아닌 예로서, 도 3b는 운영 체제(225), 애플리케이션 프로그램들(226), 기타 프로그램 모듈들(227), 및 프로그램 데이터(228)를 예시한다.
컴퓨팅 환경은 스탠바이 전력 모드로부터 시스템을 활성화시키기 위한 프로세서(468)(실시예들에서, 마이크로프로세서일 수 있음) 및 비휘발성 메모리(470)를 추가로 포함할 수 있다. 메모리(470)는, 예를 들어, ROM, PROM, EPROM, EEPROM, 및 플래시 메모리를 포함하는, 다양한 비휘발성 메모리들 중 임의의 것일 수 있다. 실시예들에서, 스탠바이 전력 모드로부터 시스템을 활성화시키기 위한 프로세서(468) 및 메모리(470)는, 각각 중앙 처리 장치(들)(259) 및 ROM(223)의 일부로서 통합될 수 있다. 추가의 실시예들에서, 프로세서(468) 및 메모리(470)는 다함께 소위 시스템 온 칩(system on a chip)에 통합될 수 있다.
컴퓨터(241)는 또한 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 단지 예로서, 도 3b는 비이동식 비휘발성 자기 매체로부터 판독하거나 그에 기입하는 하드 디스크 드라이브(238), 이동식 비휘발성 자기 디스크(254)로부터 판독하거나 그에 기입하는 자기 디스크 드라이브(239), 및 CD-ROM 또는 기타 광 매체와 같은 이동식, 비휘발성 광 디스크(253)로부터 판독하거나 그에 기입하는 광 디스크 드라이브(240)를 예시한다. 예시적인 운영 환경에서 사용될 수 있는 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 저장 매체로는 자기 테이프 카세트, 플래시 메모리 카드, DVD(digital versatile disk), 디지털 비디오 테이프, 고상 RAM, 고상 ROM 등이 있지만, 이들로 제한되는 것은 아니다. 하드 디스크 드라이브(238)는 통상적으로 인터페이스(234)와 같은 비이동식 메모리 인터페이스를 통해 시스템 버스(221)에 연결되고, 자기 디스크 드라이브(239) 및 광 디스크 드라이브(240)는 통상적으로 인터페이스(235)와 같은 이동식 메모리 인터페이스에 의해 시스템 버스(221)에 연결된다.
이상에서 논의되고 도 3b에 예시되어 있는 드라이브들 및 이들의 관련 컴퓨터 저장 매체는 컴퓨터(241)에 대한 컴퓨터 판독가능 명령어들, 데이터 구조들, 프로그램 모듈들 및 기타 데이터의 저장을 제공한다. 도 3b에서, 예를 들어, 하드 디스크 드라이브(238)는 운영 체제(258), 애플리케이션 프로그램들(257), 기타 프로그램 모듈들(256), 및 프로그램 데이터(255)를 저장하는 것으로 예시된다. 유의할 점은 이들 구성요소가 운영 체제(225), 애플리케이션 프로그램들(226), 기타 프로그램 모듈들(227), 및 프로그램 데이터(228)와 동일하거나 상이할 수 있다는 것이다. 여기서 운영 체제(258), 애플리케이션 프로그램들(257), 기타 프로그램 모듈들(256), 및 프로그램 데이터(255)에 상이한 번호가 부여되는 것은 적어도 이들이 상이한 카피들임을 나타내기 위한 것이다. 사용자는 키보드(251) 및 포인팅 장치(252)(흔히 마우스, 트랙볼 또는 터치 패드로 지칭됨)와 같은 입력 장치들을 통해 컴퓨터(241)에 명령들 및 정보를 입력할 수 있다. 기타 입력 장치들(미도시)로는 마이크, 조이스틱, 게임 패드, 위성 안테나, 스캐너 등이 있을 수 있다. 이들 및 기타 입력 장치들은 종종 시스템 버스에 결합되어 있는 사용자 입력 인터페이스(236)를 통해 중앙 처리 장치(259) 및 마이크로프로세서(468)에 연결되어 있지만, 병렬 포트, 게임 포트 또는 USB(universal serial bus)와 같은 기타 인터페이스 및 버스 구조들에 의해 연결될 수도 있다. 카메라들(26, 28) 및 캡쳐 장치(20)는 콘솔(100)에 대한 부가의 입력 장치들을 정의할 수 있다. 모니터(242) 또는 기타 유형의 디스플레이 장치가 또한 비디오 인터페이스(232)와 같은 인터페이스를 통해 시스템 버스(221)에 연결된다. 모니터에 부가하여, 컴퓨터는 또한 출력 주변장치 인터페이스(233)를 통해 연결될 수 있는 스피커들(244) 및 프린터(243)와 같은 기타 주변 출력 장치들도 포함할 수 있다.
컴퓨터(241)는 원격 컴퓨터(246)와 같은 하나 이상의 원격 컴퓨터들에의 논리적 연결들을 사용하여 네트워킹된 환경에서 동작할 수 있다. 원격 컴퓨터(246)는 개인용 컴퓨터, 서버, 라우터, 네트워크 PC, 장치 또는 기타 통상의 네트워크 노드일 수 있고, 통상적으로 컴퓨터(241)와 관련하여 앞서 설명한 요소들 중 다수 또는 그 전부를 포함하지만, 도 3b에는 메모리 저장 장치(247)만이 예시되었다. 도 3b에 도시되어 있는 논리적 연결들은 LAN(local area network, 근거리 통신망)(245) 및 WAN(wide area network, 원거리 통신망)(249)을 포함하지만, 기타 네트워크들도 또한 포함할 수 있다. 이러한 네트워킹 환경은 사무실, 전사적(enterprise-wide) 컴퓨터 네트워크, 인트라넷 및 인터넷에서 흔한 것이다.
LAN 네트워킹 환경에서 사용될 때, 컴퓨터(241)는 네트워크 인터페이스 또는 어댑터(237)를 통해 LAN(245)에 연결된다. WAN 네트워킹 환경에서 사용될 때, 컴퓨터(241)는 통상적으로 인터넷과 같은 WAN(249)을 통해 통신을 설정하기 위한 모뎀(250) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(250)은 사용자 입력 인터페이스(236) 또는 기타 적절한 메카니즘을 통해 시스템 버스(221)에 연결될 수 있다. 네트워킹된 환경에서, 컴퓨터(241) 또는 그의 일부분과 관련하여 도시된 프로그램 모듈들은 원격 메모리 저장 장치에 저장될 수 있다. 제한이 아닌 예로서, 도 3b는 원격 애플리케이션 프로그램들(248)이 메모리 장치(247)에 존재하는 것으로 도시하고 있다. 도시된 네트워크 연결들은 예시적인 것이며, 컴퓨터들 간에 통신 링크를 설정하는 기타 수단이 사용될 수 있다는 것으로 생각될 것이다.
컴퓨팅 장치(12)는 캡쳐 장치(20)와 함께 프레임마다 사용자의 신체 위치의 컴퓨터 모델을 발생시킬 수 있다. 캡쳐 장치(20)의 시야에 있는 한명 이상의 사용자들의 골격 모델을 발생시키는 이러한 파이프라인의 하나의 예가 예를 들어, 2010년 9월 7일자로 출원된, 발명의 명칭이 "System For Fast, Probabilistic Skeletal Tracking"인 미국 특허 출원 제12/876,418호에 개시되며, 이 출원은 참조 문헌으로서 그 전체 내용이 본 명세서에 포함된다.
컴퓨팅 환경이 골격 모델을 추적하고 골격 모델과 연관되는 아바타를 렌더링할 수 있도록, 골격 모델은 그 후 컴퓨팅 장치(12)에 제공될 수 있다. 컴퓨팅 환경은 또한, 예를 들어, 골격 모델로부터 인식된 사용자의 제스처들에 기초하여, 컴퓨터 환경에서 실행 중인 애플리케이션에서 어느 제어들을 수행할지를 결정할 수 있다. 예를 들어, 도 2에 도시된 바와 같이, 컴퓨팅 장치(12)는 제스처 인식 엔진(190)을 포함할 수 있다. 제스처 인식 엔진(190)은 일반적으로 제스처 필터들의 모음을 포함할 수 있고, 각각의 제스처 필터는 (사용자가 움직임에 따라) 골격 모델에 의해 수행될 수 있는 제스처에 관한 정보를 포함한다.
사용자(골격 모델에 의해 표현됨)가 하나 이상의 제스처들을 수행했을 때를 식별하기 위해, 골격 모델 및 그와 연관되는 움직임들의 형태로 카메라들(26, 28) 및 장치(20)에 의해 캡쳐되는 데이터가 제스처 인식 엔진(190) 내의 제스처 필터들과 비교될 수 있다. 그 제스처들은 애플리케이션의 다양한 제어들과 연관될 수 있다. 따라서, 컴퓨팅 장치(12)는 제스처 인식 엔진(190)을 사용하여, 골격 모델의 움직임들을 해석하고 움직임들에 기초하여 애플리케이션을 제어할 수 있다.
전력을 절감하고 에너지를 효율적으로 사용하기 위해, 시스템(10)은 미리 결정된 기간 동안 유휴 상태로 있는 경우 스탠바이 전력 모드로 전력을 떨어뜨릴 수 있다. 대안적으로, 사용자는 시스템의 사용을 끝마쳤을 때, 시스템(10)을 수동으로 턴오프할 수 있다. 턴오프될 때, 시스템은 또한 스탠바이 전력 모드에서 동작할 수 있다. 스탠바이 전력 모드에 있을 때, 전원 공급 장치(474)(도 6)는 스탠바이 전력을 컴퓨팅 장치(12)에 공급한다. 실시예들에서, 이 스탠바이 전력은, 예를 들어, 0.3 와트 내지 5.0 와트일 수 있고, 추가적인 예에서, 0.5 와트일 수 있다. 추가의 실시예들에서, 스탠바이 전력 모드에서 시스템(10)에 공급되는 전력이 이 범위보다 더 높거나 더 낮을 수 있는 것으로 믿어질 것이다.
본 시스템에 따르면, 사용자는 가청 활성화 문구에 의해 시스템(10)의 컴퓨팅 장치(12)를 활성화시킬 수 있다. 활성화 문구의 인식 시에, 컴퓨팅 장치(12)는 스탠바이 전력 모드로부터 모든 시스템 리소스들이 이용가능한 전체 전력 모드로 전환할 수 있다. 이하에서는 스탠바이 활성화 유닛(464)을 사용하여 컴퓨팅 장치(12)를 활성화시키는 것을 설명한다. A/V 장치(16) 및 캡쳐 장치(20)와 관련하여, 이들 장치도 또한 스탠바이 전력 모드에 있을 수 있는 경우, 이들은 컴퓨팅 장치(12)가 활성화될 때 활성화될 수 있다. A/V 장치(16) 및/또는 캡쳐 장치(20)는 컴퓨팅 장치(12)로부터 "절전 모드 해제(wake-up)" 신호를 수신함으로써 활성화될 수 있다. 대안적으로, A/V 장치(16) 및/또는 캡쳐 장치(20)는 또한 이하에서 설명되는 컴퓨팅 장치(12)와 동일한 방식으로 이들을 활성화시키는 스탠바이 활성화 유닛(464)을 포함할 수 있다.
본 시스템의 특징은 스탠바이 전력 모드 동안 공급되는 스탠바이 전력만으로 동작하는 구성요소들로 활성화 문구를 인식할 수 있다는 것이다. 이들 특징이 이하에서 설명되지만, 일반적으로, 스탠바이 전력만을 사용하여, 프로세서(468) 및 메모리(470)(도 3b 및 도 6)은 디지털화된 오디오 패턴을 수신하고, 활성화 문구가 말해졌는지를 판정하기 위해, 메모리(470)에 저장된 활성화 패턴들에 대한 제한된 패턴 정합을 수행할 수 있다.
활성화 문구는 "시스템 활성화(activate system)"와 같은 간단한 두 단어 문구일 수 있다. 시스템(10)이, 예를 들어, Microsoft Corporation의 Xbox® 비디오 게임 콘솔인 경우, 활성화 문구는, 예를 들어, "Xbox 켜기(Xbox on)"일 수 있다. 이들 문구는 예이며, 활성화 문구는 메모리(470)에 저장된 임의의 사전 정의된 문구일 수 있다. 추가의 실시예들에서, 활성화 문구는 두 단어보다 더 짧거나 두 단어보다 더 길 수 있다. 더 짧은 문구들은 더 긴 문구들보다 종종 거짓 양성 정합(false positive match)을 더 초래할 수 있지만, 더 긴 문구들은 프로세서(468)가 정합 동작을 수행하기 위해 스탠바이 전력으로부터 더 많은 전력을 필요로 할 수 있다. 실시예들에서, 활성화 문구는 이용가능한 스탠바이 전력에 대해 최적화되는 길이로 설정될 수 있다. 즉, 활성화 문구는 거짓 양성 정합을 최소화하기에 충분히 길 수 있지만, 프로세서(468) 및 메모리(470)가 이용가능한 스탠바이 전력을 사용하여 활성화 문구가 수신될 때를 판정할 수 있도록, 충분히 짧을 수 있다.
실시예들에서, 시스템(10)을 스탠바이 모드로부터 활성화시키기 위해 시스템(10)의 사용자에 의해 활성화 문구가 말해질 수 있다. 그러나 활성화 문구는 음성 이외의 방법들에 의해 발생되거나 말하여지는, 임의의 독특한 오디오 패턴일 수 있는 것으로 믿어질 것이다. 더욱이, 말해지는 경우, 활성화 문구는 알려진 어휘 내의 단어일 필요는 없다. 활성화 문구는 임의의 독특한 소리 패턴으로 이루어져 있는 오디오 패턴일 수 있다. 활성화 문구가 "시스템 활성화" 또는 "Xbox 켜기"와 같이 하나 이상의 단어들을 포함하는 경우, 활성화 문구는 단일의 언어로 또는 다수의 언어들로 저장될 수 있다.
실시예들에서, 활성화 문구들은 시스템(10) 공급업체에 의해, 즉 최종 사용자가 시스템(10)을 처음으로 사용하기 전에, 메모리(470)에 사전 프로그램될 수 있다. 대안적으로, 활성화 문구는 사용자 정의(user-defined)될 수 있다. 도 4는 한명 이상의 사용자들 각각이 활성화 문구를 발생시키고 저장할 수 있는 경우의 단계들의 시퀀스를 보여주는 플로우차트이다. 단계(400)에서, 시스템(10)이 활성인 동안, 사용자는 활성화 문구 학습 모드에 들어가기 위해 제어 제스처 또는 선택을 수행할 수 있다. 일단 학습 모드에 있으면, 단계(406)에서, 사용자는 원하는 활성화 문구를 말할 수 있다. 단계(410)에서, 사용자는 원하는 활성화 문구를 한번 말할 수 있거나, 시스템이 사용자에게 문구를 여러번 말하도록 촉구할 수 있다.
단계(414)에서, 사용자에 의해 제공된 활성화 문구가 처리되어 디지털 활성화 패턴이 얻어진다. 특히, 하나 이상의 수신된 활성화 문구 인스턴스들이, 문구의 디지털 스트림을 제공하기 위해, A/D(디지털-아날로그) 변환기를 거칠 수 있다. 문구가 여러번 제공된 경우, 다수의 학습 인스턴스들에서 사용자에 의해 제공된 활성화 문구에 가장 근사한 디지털 활성화 패턴을 얻기 위해 변칙적인 주파수들 및/또는 발음들은 제거될 수 있다. 대안적으로, 이하에 설명되는 바와 같이, 다수의 학습 인스턴스들로부터의 활성화 문구의 각각의 발음(utterance)이 개별적으로 저장되고, 나중에 비교를 위해 사용될 수 있다. 일단 수신된 활성화 문구가 처리되어 디지털 활성화 패턴이 얻어지면, 단계(418)에서, 그 활성화 패턴은 메모리(470)에 저장된다.
저장된 디지털화된 활성화 패턴의 개략적인 표현이 도 5에 도시된다. 도 5에 도시된 개략적인 표현은 시간(t)의 경과에 따라 음파에 의해 야기되는 공기압(air pressure)의 변화에 따른 마이크의 진동판(diaphragm)의 변위(D)의 플롯으로서 표현될 수 있는 아날로그 오디오 스트림의 디지털화된 표현이다. 도 5에 도시되어 있는 디지털 활성화 패턴은 단지 예이며, 패턴은 도 4의 플로우차트와 관련하여 앞서 설명한 바와 같이, 말해지고 처리된 활성화 문구에 따라 달라질 것이다.
도 4의 단계들을 통해 단일의 활성화 문구가 발생되고 저장될 수 있다. 대안적으로, 다수의 활성화 문구들이 발생되고 저장될 수 있다. 살펴본 바와 같이, 단일의 사용자가 동일한 문구의 다수의 발음들로부터 얻어지는 다수의 디지털화된 활성화 문구들을 발생시킬 수 있다. 대안적으로, 상이한 사용자들이 상이한 활성화 문구들을 발생시킬 수 있다. 예를 들어, 가족 또는 그룹의 구성원들 각각이 시스템(10)을 사용하는 경우, 각각의 사용자는 그 자신의 활성화 문구(들)를 발생시키고 저장할 수 있다. 각각의 사용자에 의해 발생되고 저장된 활성화 문구는 서로 동일하거나 서로 상이할 수 있다.
이러한 실시예에서, 각각의 사용자는 그들의 특정 활성화 문구에 기초하여 인식될 수 있다. 따라서, 시스템이 활성화될 때, NUI 시스템(10)이 예를 들어, 개인화된 인사말을 제공하는 것과 같이, 식별된 사용자에 대해 개인화될 수 있다. 더욱이, 이러한 실시예에서, 스탠바이 활성화 유닛(464)은, 인지된 활성화 문구로부터 어느 사용자가 식별되는지에 기초하여, 상이한 조치들을 취할 수 있다. 일 예로서, 부모가 아이들이 컴퓨팅 장치(12)를 사용하는 것을 원하지 않는 하루 중 특정의 때에, 컴퓨팅 장치(12)는 아이들로부터의 활성화 명령을 무시하도록 설정될 수 있을 것이다.
활성화 문구가 디지털 활성화 패턴으로서 사용자에 의해 사전 프로그램되거나 저장된 후에, 사용자는 컴퓨팅 장치(12)를 스탠바이 모드로부터 활성 모드로 활성화시키기 위해 활성화 문구를 사용할 수 있다. 도 6은 활성화 문구를 사용하여 컴퓨팅 장치(12)를 활성화시키기 위한 단계들의 시퀀스를 나타낸 플로우차트이고, 도 7은 활성화 문구를 사용하여 컴퓨팅 장치(12)를 활성화시키기 위한 구성요소들을 나타낸 블록도이다. 도 7은 마이크로프로세서(468) 및 비휘발성 메모리(470)를 포함하는 스탠바이 활성화 유닛(464)에 결합되어 있는 하나 이상의 마이크들(462)을 나타내고 있다. 마이크들(462)은 컴퓨팅 장치(12)에 제공될 수 있거나, 이들은 도 2와 관련하여 앞서 설명한 하나 이상의 마이크들(30)일 수 있다. 도 7은 또한 전원 공급 장치(474)를 나타내고 있다. 전원 공급 장치(474)는, 컴퓨팅 장치(12)가 활성 모드에 있을 때, 하나 이상의 마이크들(462), 스탠바이 활성화 유닛(464) 및 CPU(101/259)를 포함하는 컴퓨팅 장치(12)의 모든 구성요소들에 전력을 공급한다. 전원 공급 장치(474)는, 컴퓨팅 장치(12)가 스탠바이 모드에 있을 때, 하나 이상의 마이크들(462) 및 스탠바이 활성화 유닛(464)에 전력을 공급한다.
앞서 살펴본 바와 같이, 스탠바이 활성화 유닛(464)은 단일의 시스템 온 칩 상에 구현될 수 있다. 대안적으로, 마이크로프로세서(468) 및 메모리(470)는 서로 통신하고 있는 별도의 구성요소들일 수 있다. 추가의 실시예들에서, 별도의 마이크로프로세서(468)는 생략될 수 있고, 대신에, 이하에서 설명되는 스탠바이 활성화 프로세스들이 시스템(10)의 CPU[도 3a의 멀티미디어 콘솔(100)의 CPU(101) 또는 도 3b의 컴퓨팅 환경(220)의 CPU(259)]에 의해 수행된다. 이러한 실시예들에서, 컴퓨팅 장치(12)가 스탠바이 전력 모드에 있을 때, CPU(101/259)는, 예를 들어, 0.5 와트의 스탠바이 전력을 수용한다. 스탠바이 전력 모드에 있을 때, CPU(101/259)는 제한된 처리 능력을 가질 것이다. 이어서, 컴퓨팅 장치(12)가 활성화될 때, CPU(101/259)는 전체 시스템 기능을 제공하기 위해 보다 높은 전력에서 동작할 것이다.
추가의 실시예들에서, 별도의 메모리(470)는 생략될 수 있고, 대신에, 활성화 문구의 저장이, 예를 들어, 멀티미디어 콘솔(100)의 ROM(106) 또는 컴퓨팅 환경(220)의 ROM(223)과 같은 컴퓨팅 장치(12) 내의 다른 비휘발성 메모리에 의해 행해질 수 있을 것이다. 이러한 실시예들에서, 스탠바이 모드에서 동작하고 있을 때 비휘발성 메모리의 작은 부분만이 프로세서에 이용가능하도록, ROM(106/223)이 세그먼트화될 수 있다.
이제 도 6의 플로우차트를 참조하면, 단계(420)에서, 하나 이상의 마이크들(462)은 오디오 스트림을 청취하기(listen to) 위해 주변 환경을 모니터링한다. 단계(424)에서, 소리가 검출되는 경우, 단계(430)에서, 오디오가 필터링된다. 예를 들어, 수신된 오디오 스트림으로부터 배경 잡음을 필터링하기 위해 다채널 에코 소거(multichannel echo cancellation) 기법들이 사용될 수 있다. 단계(430)에서 수신된 오디오 스트림을 필터링하기 위해 기타 잡음 필터링 기법들이 사용될 수 있다.
단계(432)에서, 수신된 오디오 스트림이 A/D 변환기를 통해 디지털 오디오 패턴으로 디지털화된다. 그 패턴은 이어서 메모리(470)에 저장된 활성화 패턴(들)과 비교된다. 이 비교는 프로세서(468)에서 실행 중인 패턴 정합 엔진(192)에 의해 수행된다. 단계(440)에서 어떤 사전 정의된 공차 내에서 스트리밍 디지털화된 오디오 패턴의 임의의 부분과 저장된 활성화 패턴 간의 패턴 정합이 발견되면, 패턴 정합 엔진(192)은 컴퓨팅 장치(12)를 활성화시키기 위해 컴퓨팅 장치(12)에 전체 전력을 제공하라는 신호를 전원 공급 장치(474)로 송신한다.
다른 한편으로, 단계(440)에서 패턴 정합이 발견되지 않은 경우, 패턴 정합 엔진(192)은, 단계(444)에서, 수신된 디지털화된 오디오 패턴의 추가적인 처리를 시도할 수 있다. 패턴 정합이 발견되지 않고[단계(440)], 패턴 정합 엔진(192)이 오디오 패턴을 추가적으로 처리할 수 없는 경우[단계(444)], 컴퓨팅 장치(12)는 여전히 스탠바이 전력 모드에 있고, 흐름은 추가적인 오디오를 청취하기 위해 단계(420)로 되돌아간다. 패턴 정합 엔진(192)이, 단계(444)에서, 수신된 디지털화된 오디오 패턴을 추가적으로 처리할 수 있는 경우, 오디오 패턴이 단계(446)에서 처리되고, 이는 단계(440)에서 저장된 활성화 패턴(들)과 다시 비교된다.
단계(446)에서, 수신된 디지털화된 오디오 패턴에 대해 수행될 수 있는 처리의 일 예로서, 패턴 정합 엔진(192)은, 수신된 오디오 패턴이 저장된 활성화 패턴(들)과 정합하는지를 알아보기 위해, 수신된 오디오 패턴을 일시적으로 늘리고(stretch)/늘리거나 줄일(shrink) 수 있다. 오디오 패턴이 저장된 활성화 패턴(들)과 정합하는지를 알아보기 위해, 다양한 필터들 및 잡음 소거 기법들이 또한 오디오 패턴에 적용될 수 있다. 오디오 패턴의 기타 처리가 고려된다.
앞서 설명한 흐름[단계(446)에서의 처리는 단계(440)에서의 비교 실패 이후에만 수행됨] 대신에 또는 그에 부가하여, 단계(436)에서의 디지털 오디오 패턴과 저장된 디지털 활성화 패턴(들) 간의 비교 이전에, 단계(446)와 관련하여 기술된 바와 같은 오디오 패턴의 처리가 일어날 수 있다. 또한, 단계들(444 및 446)은 생략될 수 있는 것으로 생각된다. 이 실시예에서, 오디오 패턴의 어떤 처리도 수행되지 않는다. 단계(440)에서 수신된 디지털 오디오 패턴과 저장된 활성화 문구(들) 간의 어떤 정합도 발견되지 않는 경우, 장치(12)는 활성화되지 않는다.
단계(440)에서 패턴 정합이 발견되는 경우, 단계(450)에서, 컴퓨팅 장치(12)가 활성화된다. 이 시점에서, 스탠바이 활성화 유닛(464)은 컴퓨팅 장치(12)에 전체 전력을 공급하라고 전원에 시그널링하고, 이어서 모든 장치 리소스들이 이용가능해진다.
음성(예를 들어, 활성화 문구)을 인식할 수 있는 다채로운 음성 인식 시스템들이 공지된다. 그러나, 음성 인식 시스템들은 스탠바이 전력 모드에서 컴퓨팅 장치(12)가 이용가능한 것보다 더 많은 양의 처리 전력을 필요로 한다. 다른 한편으로, 스탠바이 활성화 유닛(464)에 의한 수신된 디지털화된 오디오 패턴과 하나 이상의 저장된 활성화 패턴들 간의 제한된 비교는 비교적 작은 양의 처리 전력을 필요로 하고, 예를 들어, 0.5 와트의 전력이 이용가능한 스탠바이 모드에서 수행될 수 있다.
단계(436)에서의 수신된 오디오 패턴과 수 개의 저장된 활성화 패턴들 간의 비교는 프로세서(468)에 의해 많은 양의 전력을 소비할 수 있다. 유사하게, 단계(446)에서의 수신된 오디오 패턴의 상당한 처리는 프로세서(468)에 의해 많은 양의 전력을 소비할 수 있다. 본 시스템의 특정 구현이 낮은 스탠바이 전력 레벨로 동작하는 경우, 수 개의 저장된 활성화 패턴들 및 수신된 오디오 패턴의 상당한 처리 양자 모두를 갖는 것은 불가능할 수도 있다. 이 경우에, 다른 실시예들은 리소스들을 다른 방식으로 할당할 수 있다. 예를 들어, 한 실시예는 수많은 저장된 활성화 패턴들 및 수신된 디지털 오디오 패턴의 비교적 적은 처리를 가질 수 있다. 반대로, 다른 실시예는 단지 하나 또는 비교적 적은 저장된 활성화 패턴들을 갖지만, 수신된 디지털화된 오디오 패턴의 보다 강력한 처리를 가질 수 있다. 저장된 활성화 패턴들의 수 및 길이와 수신된 오디오 패턴에 대해 이용가능한 처리량은, 컴퓨팅 장치(12)가 스탠바이 전력 모드에 있을 때 이들 프로세스에 대해 이용가능한 전력의 양에 기초하여 설정될 수 있다.
앞서 살펴본 바와 같이, 2개의 디지털 패턴들이 어떤 공차 내에서 서로 정합하는 경우, 수신된 오디오 패턴은 저장된 활성화 문구와 정합하는 것으로 간주될 수 있다. 여기서 공차란 수신된 디지털화된 오디오 패턴이 저장된 활성화 패턴과 정합해야 하는 정도를 지칭한다. 상이한 실시예들에서 몇몇 상이한 방식들로 공차가 측정될 수 있다. 공차는 디지털화된 오디오 패턴과 저장된 활성화 패턴에서의 각각의 데이터 포인트 사이에서 측정될 수 있고, 각각의 포인트 또는 함께 고려된 모든 포인트들이 어떤 사전 정의된 진폭 차 이상을 갖도록 요구할 수 있다. 대안적으로, 디지털화된 오디오 패턴과 저장된 활성화 패턴에서의 데이터 포인트 그룹들 간에 비교가 행해질 수 있다.
일 예에서, 디지털화된 오디오 패턴과 저장된 활성화 패턴 간의 정합은 완벽하거나 거의 완벽할 필요가 있는 것으로 생각된다. 그러나, 동일한 사람이 동일한 문구를 상이한 때에 상이하게 발음할 수 있기 때문에, 완벽한 정합을 필요로 하는 것은 사용자가 컴퓨팅 장치(12)를 활성화시키려고 시도하는 데 어려움을 초래할 수 있다. 따라서, 실시예들에서 공차는 비교적 낮을 수 있다. 이것은 거짓 양성 활성화를 야기할 수 있다. 즉, 어떤 정확한 활성화 문구도 제공되지 않을 때 스탠바이 활성화 유닛(464)이 컴퓨팅 장치(12)를 활성화시킨다. 이것은 사용자가 컴퓨팅 장치(12)를 활성화시키려고 의도하는 경우를 캡쳐할 것이지만, 또한 어떤 사용자도 없거나 사용자가 컴퓨팅 장치(12)를 활성화시키려고 의도하지 않을 때에도 시스템을 활성화시킬 수 있다.
공차가 낮아서 거짓 양성 활성화가 일어나는 경우, 본 시스템의 실시예들은 활성화 확인 프로세스 ― 활성화 확인 프로세스의 일 예가 도 6의 단계들(454 및 456)에 도시되어 있음 ― 를 추가로 포함할 수 있다. 앞서 살펴본 바와 같이, 다채로운 음성 인식 엔진이 스탠바이 모드에서 이용가능한 희박한 전력으로는 동작하지 않을 수 있다. 그러나, 앞서 설명한 바와 같이 컴퓨팅 시스템(12)이 스탠바이 활성화 유닛(464)에 의해 활성화되면, 음성 인식 엔진(194)(도 2)은 이어서 단계(454)에서, 사용자가 실제로 올바른 활성화 문구를 말했는지를 확인할 수 있다. 올바른 활성화 문구를 말한 경우, 컴퓨팅 장치는 여전히 활성화된 채로 있을 수 있다. 그렇지 않은 경우, 단계(456)에서 스탠바이 모드로 다시 되돌아가라는 신호가 전원 공급 장치(474)로 송신될 수 있다. 흐름은 이어서 가능한 활성화 문구들을 다시 청취하기 위해 단계(420)로 되돌아간다.
단계(454)에서, 음성 인식 엔진(194)은, 적절한 활성화 문구가 말해졌는지를 판정하기 위해, 단계(420)에서 수신된 아날로그 오디오 스트림을 처리할 수 있다. 대안적으로, 활성화된 컴퓨팅 장치(12)는 음성 인식 엔진(194)에 의한 분석을 위해 부가의 문구들을 말하라고 사용자에게 프롬프트할 수 있다. 음성 인식 엔진은, 훨씬 더 높은 정도의 확실성으로 활성화를 확인하기 위해, 스탠바이 활성화 유닛(464)에 의해 수행되는 패턴 정합보다 더 복잡한 알고리즘들을 사용할 수 있다.
추가적인 실시예들에서, 활성화 확인 프로세스가 음성 인식 엔진(194) 대신에 또는 그에 부가하여, 구성요소들 및/또는 소프트웨어 엔진들을 사용할 수 있는 것으로 믿어질 것이다. 예를 들어, 일단 활성화되면, 사용자가 컴퓨팅 시스템(12)을 활성화시키고자 한다는 것을 확인하고 시스템(10)과 상호작용하기 위해, 사용자는 NUI 시스템(10)에 의해 인식되는 사전 정의된 활성화 확인 제스처를 수행하라고 촉구될 수 있다. 기타 활성화 확인 프로세스들이 고려된다.
또한, 단계들(454 및 456)의 확인 프로세스가 모두 생략될 수 있는 것으로 믿어질 것이다. 확인 프로세스가 생략되는 경우, 활성화 문구의 수신인 것으로 생각되는 것을 검출할 시에, 컴퓨팅 장치(12)가 활성화될 수 있다. 이어서, 미리 결정된 기간 내에 시스템(10)과의 어떤 추가적인 상호작용도 검출되지 않은 경우, 컴퓨팅 장치(12)는 다시 스탠바이 전력 모드에 들어갈 수 있다.
앞서 설명한 샘플 실시예들은 NUI 시스템(10)의 컴퓨팅 장치(12) 내에 포함되어 있는 스탠바이 활성화 유닛(464)을 설명한다. 그러나, 살펴본 바와 같이, 스탠바이 활성화 유닛(464)이, 도 3a 및 도 3b에 각각 설명되는 바와 같이, 범용 게임 콘솔 또는 컴퓨팅 환경을 포함하는 기타 전기 장치들의 일부로서 제공될 수 있다. 이러한 시스템들은 PC, 랩톱, 스마트폰, 제어기 및/또는 기타 핸드헬드 컴퓨팅 장치일 수 있다. 추가의 실시예들에서, 스탠바이 활성화 유닛(464)은 세탁기/건조기, 커피 메이커, 텔레비전 및 스테레오 시스템 및 전기식 차고 문과 같은(그러나 이들로 제한되는 것은 아님) 전기 기구들 내에 포함될 수 있다. 스탠바이 활성화 유닛을 가지는 전기 장치들은 자동차, 도난 경보 시스템 및 조명 시스템(그러나 이들로 제한되는 것은 아님)을 추가로 포함할 수 있다. 추가의 실시예들에서, 패턴 정합을 사용하는 스탠바이 활성화 유닛(464)이 광범위한 다른 전기 장치들에 사용될 수 있는 것으로 믿어진다.
앞서 설명한 실시예들은 하나 이상의 마이크들이 컴퓨팅 장치(12)의 근방에서 오디오를 검출하는 것을 개시한다. 그러나, 스탠바이 활성화 유닛(464)을 포함하는 장치가 또한 스탠바이 전력 모드에서 동작하고 있을 때 데이터 스트림의 전송을 송신하고/하거나 수신할 수 있을 수도 있다. 이러한 실시예들에서, 오디오 소스는 컴퓨팅 장치(12)로부터 원격지에 있을 수 있는 것으로 믿어진다.
예를 들어, 오디오 소스는 제1 위치에서 검출될 수 있고, 이어서, 예컨대 무선 네트워크, 근거리 네트워크, 광대역 네트워크 및/또는 인터넷과 같은 네트워크를 통해 제2 위치에 있는 장치로 전송될 수 있다. 오디오 소스가 제1 및 제2 위치들에 있는 장치들에 의해 디지털화되고/되거나 처리될 수 있다. 그 후에, 제2 위치에 있는 장치 내의 스탠바이 활성화 유닛(464)은, 제1 위치에 있는 장치로부터 수신된 오디오가 적절한 활성화 문구인지를 판정하기 위해, 앞서 설명한 정합 비교를 수행할 수 있다. 그러한 경우, 제2 위치에 있는 장치가 활성화될 수 있다. 대안적으로, 제1 위치 또는 제3 위치에 있는 장치를 활성화시키기 위하여, 제2 위치에 있는 장치는 제1 위치에 있는 장치로 전송을 다시 송신할 수 있거나, 또는 제1 또는 제2 위치와 상이한 제3 위치에 있는 장치로 전송을 송신할 수 있다.
본 발명의 시스템에 대한 이상의 상세한 설명은 예시 및 설명을 목적으로 제시되었다. 이것은 완전한 것으로 또는 본 발명의 시스템을 개시된 정확한 형태로 제한하려고 의도된 것이 아니다. 이상의 개시 내용을 고려하여 많은 수정들 및 변형들이 가능하다. 그에 따라 기술 분야의 당업자가 다양한 실시예들에서 생각되는 특정의 용도에 적합하게 다양하게 수정하여 본 발명의 시스템을 가장 잘 이용할 수 있게 하도록, 본 발명의 시스템의 원리들 및 그의 실제 응용을 가장 잘 설명하기 위해 상기한 실시예들이 선택되었다. 본 발명의 시스템의 범위는 본 명세서에 첨부된 특허청구범위에 의해 정의되도록 의도된다.

Claims (10)

  1. 전기 장치를 스탠바이 전력 모드(standby power mode)로부터 활성화시키기 위한 방법에 있어서,
    (a) 스탠바이 전력 모드에 있을 때, 상기 전기 장치에서 오디오 스트림을 수신하는 단계;
    (b) 스탠바이 전력 모드에 있을 때, 상기 오디오 스트림을 오디오 패턴으로 디지털화하는 단계;
    (c) 스탠바이 전력 모드에 있을 때, 상기 단계 (b)에서 디지털화된 상기 오디오 패턴을 비휘발성 메모리에 저장된 디지털화된 활성화 문구와 비교하는 단계; 및
    (d) 상기 오디오 패턴이 사전 정의된 공차(tolerance) 내에서 상기 활성화 문구와 정합하는 경우, 상기 전기 장치를 활성화시키는 단계
    를 포함하는, 전기 장치를 스탠바이 전력 모드로부터 활성화시키기 위한 방법.
  2. 제1항에 있어서,
    마이크가 상기 단계 (a)의 오디오 스트림이 있는지 주변 환경을 계속해서 모니터링하는 것인, 전기 장치를 스탠바이 전력 모드로부터 활성화시키기 위한 방법.
  3. 제1항에 있어서,
    상기 디지털화된 오디오 패턴을 디지털화된 활성화 문구와 비교하기 전에, 상기 수신된 오디오 스트림으로부터 잡음을 필터링 제거하는 단계(filtering out)를 더 포함하는, 전기 장치를 스탠바이 전력 모드로부터 활성화시키기 위한 방법.
  4. 제1항에 있어서,
    사용자에 의한 상기 전기 장치의 최초의 사용 이전에, 상기 디지털화된 활성화 패턴이 상기 전기 장치의 상기 비휘발성 메모리에 저장되는 것인, 전기 장치를 스탠바이 전력 모드로부터 활성화시키기 위한 방법.
  5. 제1항에 있어서,
    상기 전기 장치에 의한 프롬프팅(prompting) 시, 상기 디지털화된 활성화 패턴이 사용자에 의해 선택되는 것인, 전기 장치를 스탠바이 전력 모드로부터 활성화시키기 위한 방법.
  6. 전기 장치를 스탠바이 전력 모드(standby power mode)로부터 활성화시키기 위한 스탠바이 활성화 시스템에 있어서,
    하나 이상의 마이크들의 근방에서 오디오 스트림을 검출하기 위한 상기 하나 이상의 마이크들; 및
    스탠바이 활성화 유닛
    을 포함하고, 상기 스탠바이 활성화 유닛은,
    하나 이상의 저장된 활성화 패턴들을 포함하는 비휘발성 메모리; 및
    스탠바이 전력 모드에서 상기 전기 장치에 이용가능한 전력을 사용하여, 상기 하나 이상의 마이크들로부터 수신되는 디지털화된 오디오 패턴을 상기 비휘발성 메모리에 저장되는 상기 하나 이상의 저장된 활성화 패턴들과 비교하기 위한 프로세서 ― 상기 디지털화된 오디오 패턴이 사전 정의된 공차 내에서 상기 비휘발성 메모리에 저장되는 상기 하나 이상의 활성화 문구들의 활성화 문구와 정합하는 경우, 상기 프로세서는 상기 장치를 활성화시킴 ―
    를 포함하는, 스탠바이 활성화 시스템.
  7. 제6항에 있어서,
    스탠바이 전력 모드에서 상기 디지털화된 오디오 패턴을 상기 하나 이상의 저장된 활성화 패턴들과 비교하기 위한 상기 프로세서는 제1 프로세서이고, 상기 전기 장치는 상기 제1 프로세서와 별개인 제2 프로세서를 포함하며, 상기 제2 프로세서는 상기 전기 장치가 활성화된 전체 전력 모드에서 동작하고 있을 때 상기 전기 장치의 기능들을 제어하기 위한 것인, 스탠바이 활성화 시스템.
  8. 제6항에 있어서,
    하나 이상의 저장된 활성화 패턴들을 포함하는 상기 비휘발성 메모리는 제1 비휘발성 메모리이고, 상기 전기 장치는 상기 제1 비휘발성 메모리와 별개인 제2 비휘발성 메모리를 포함하며, 상기 제2 비휘발성 메모리는 상기 전기 장치가 활성화된 전체 전력 모드에서 동작하고 있을 때 사용되는 상기 전기 장치의 데이터를 저장하기 위한 것인, 스탠바이 활성화 시스템.
  9. 제6항에 있어서,
    스탠바이 전력 모드에서 상기 전기 장치에 이용가능한 전력은 0.5 와트인 것인, 스탠바이 활성화 시스템.
  10. NUI 시스템의 컴퓨팅 장치를 스탠바이 전력 모드로부터 활성화시키기 위한 방법을 수행하도록 프로세서를 프로그래밍하기 위한 컴퓨터 실행가능 명령어들을 가지는 컴퓨터 판독가능 저장 매체에 있어서,
    상기 방법은,
    (a) 스탠바이 전력 모드에 있을 때 상기 NUI 시스템과 연관되는 하나 이상의 마이크들에서 오디오 스트림을 수신하는 단계;
    (b) 스탠바이 전력 모드에 있을 때 상기 오디오 스트림을 오디오 패턴으로 디지털화하는 단계;
    (c) 스탠바이 전력 모드에 있을 때, 상기 디지털화된 오디오 스트림을 상기 컴퓨팅 장치의 비휘발성 메모리에 저장된 하나 이상의 디지털화된 활성화 문구들과 정합시키는 것을 용이하게 하기 위해, 상기 디지털화된 오디오 스트림을 처리하는 단계;
    (d) 스탠바이 전력 모드에 있을 때 상기 단계 (c)에서 처리된 상기 오디오 패턴을 상기 컴퓨팅 장치의 상기 비휘발성 메모리에 저장된 하나 이상의 디지털화된 활성화 문구들과 비교하는 단계; 및
    (e) 상기 오디오 패턴이 사전 정의된 공차 내에서 상기 하나 이상의 활성화 문구들의 활성화 문구와 정합하는 경우, 상기 컴퓨팅 장치를 활성화시키는 단계
    를 포함하는 것인, 컴퓨터 판독가능 저장 매체.
KR1020147016180A 2011-11-17 2012-11-14 장치 활성화를 위한 오디오 패턴 정합 KR20140097365A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/299,218 US8666751B2 (en) 2011-11-17 2011-11-17 Audio pattern matching for device activation
US13/299,218 2011-11-17
PCT/US2012/064898 WO2013074552A1 (en) 2011-11-17 2012-11-14 Audio pattern matching for device activation

Publications (1)

Publication Number Publication Date
KR20140097365A true KR20140097365A (ko) 2014-08-06

Family

ID=47968057

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147016180A KR20140097365A (ko) 2011-11-17 2012-11-14 장치 활성화를 위한 오디오 패턴 정합

Country Status (13)

Country Link
US (1) US8666751B2 (ko)
EP (1) EP2780907A4 (ko)
JP (1) JP2015508516A (ko)
KR (1) KR20140097365A (ko)
CN (1) CN103019373B (ko)
AU (1) AU2012339717B8 (ko)
BR (1) BR112014011718A8 (ko)
CA (1) CA2855379A1 (ko)
IN (1) IN2014CN03321A (ko)
MX (1) MX344403B (ko)
RU (1) RU2616553C2 (ko)
TW (1) TWI571796B (ko)
WO (1) WO2013074552A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190022109A (ko) * 2017-08-25 2019-03-06 삼성전자주식회사 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9992745B2 (en) 2011-11-01 2018-06-05 Qualcomm Incorporated Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate
US9628843B2 (en) * 2011-11-21 2017-04-18 Microsoft Technology Licensing, Llc Methods for controlling electronic devices using gestures
JP2015501106A (ja) * 2011-12-07 2015-01-08 クゥアルコム・インコーポレイテッドQualcomm Incorporated デジタル化された音声ストリームを分析するための低電力集積回路
KR101889836B1 (ko) 2012-02-24 2018-08-20 삼성전자주식회사 음성인식을 통한 단말기의 잠금 상태 해제 및 조작 방법 및 장치
US9117449B2 (en) 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
US11393461B2 (en) 2013-03-12 2022-07-19 Cerence Operating Company Methods and apparatus for detecting a voice command
US9112984B2 (en) 2013-03-12 2015-08-18 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9361885B2 (en) 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9467785B2 (en) 2013-03-28 2016-10-11 Knowles Electronics, Llc MEMS apparatus with increased back volume
US9503814B2 (en) 2013-04-10 2016-11-22 Knowles Electronics, Llc Differential outputs in multiple motor MEMS devices
EP2992403B1 (en) * 2013-04-30 2021-12-22 Hewlett-Packard Development Company, L.P. Depth sensors
US20180317019A1 (en) 2013-05-23 2018-11-01 Knowles Electronics, Llc Acoustic activity detecting microphone
US9633655B1 (en) 2013-05-23 2017-04-25 Knowles Electronics, Llc Voice sensing and keyword analysis
US9711166B2 (en) 2013-05-23 2017-07-18 Knowles Electronics, Llc Decimation synchronization in a microphone
US10020008B2 (en) 2013-05-23 2018-07-10 Knowles Electronics, Llc Microphone and corresponding digital interface
CN105379308B (zh) 2013-05-23 2019-06-25 美商楼氏电子有限公司 麦克风、麦克风系统及操作麦克风的方法
US10028054B2 (en) 2013-10-21 2018-07-17 Knowles Electronics, Llc Apparatus and method for frequency detection
US9697831B2 (en) * 2013-06-26 2017-07-04 Cirrus Logic, Inc. Speech recognition
US9386370B2 (en) 2013-09-04 2016-07-05 Knowles Electronics, Llc Slew rate control apparatus for digital microphones
US9502028B2 (en) 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
US9147397B2 (en) 2013-10-29 2015-09-29 Knowles Electronics, Llc VAD detection apparatus and method of operating the same
US10079019B2 (en) * 2013-11-12 2018-09-18 Apple Inc. Always-on audio control for mobile device
US8768712B1 (en) * 2013-12-04 2014-07-01 Google Inc. Initiating actions based on partial hotwords
WO2015094369A1 (en) * 2013-12-20 2015-06-25 Intel Corporation Transition from low power always listening mode to high power speech recognition mode
US20150194187A1 (en) * 2014-01-09 2015-07-09 Microsoft Corporation Telestrator system
US20160055847A1 (en) * 2014-08-19 2016-02-25 Nuance Communications, Inc. System and method for speech validation
US9549273B2 (en) * 2014-08-28 2017-01-17 Qualcomm Incorporated Selective enabling of a component by a microphone circuit
US9831844B2 (en) 2014-09-19 2017-11-28 Knowles Electronics, Llc Digital microphone with adjustable gain control
US9712915B2 (en) 2014-11-25 2017-07-18 Knowles Electronics, Llc Reference microphone for non-linear and time variant echo cancellation
KR102299330B1 (ko) * 2014-11-26 2021-09-08 삼성전자주식회사 음성 인식 방법 및 그 전자 장치
CN104598192B (zh) * 2014-12-29 2018-08-07 联想(北京)有限公司 信息处理方法及电子设备
WO2016112113A1 (en) 2015-01-07 2016-07-14 Knowles Electronics, Llc Utilizing digital microphones for low power keyword detection and noise suppression
TW201640322A (zh) 2015-01-21 2016-11-16 諾爾斯電子公司 用於聲音設備之低功率語音觸發及方法
US10121472B2 (en) 2015-02-13 2018-11-06 Knowles Electronics, Llc Audio buffer catch-up apparatus and method with two microphones
KR102346302B1 (ko) 2015-02-16 2022-01-03 삼성전자 주식회사 전자 장치 및 음성 인식 기능 운용 방법
US9866938B2 (en) 2015-02-19 2018-01-09 Knowles Electronics, Llc Interface for microphone-to-microphone communications
CN107534818B (zh) 2015-05-14 2020-06-23 美商楼氏电子有限公司 麦克风
US10291973B2 (en) 2015-05-14 2019-05-14 Knowles Electronics, Llc Sensor device with ingress protection
US9478234B1 (en) 2015-07-13 2016-10-25 Knowles Electronics, Llc Microphone apparatus and method with catch-up buffer
US10045104B2 (en) 2015-08-24 2018-08-07 Knowles Electronics, Llc Audio calibration using a microphone
JP2017117371A (ja) * 2015-12-25 2017-06-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御方法、制御装置およびプログラム
US9894437B2 (en) 2016-02-09 2018-02-13 Knowles Electronics, Llc Microphone assembly with pulse density modulated signal
WO2017138934A1 (en) 2016-02-10 2017-08-17 Nuance Communications, Inc. Techniques for spatially selective wake-up word recognition and related systems and methods
WO2017142112A1 (ko) * 2016-02-19 2017-08-24 주식회사 트리니티랩 가청 주파수 대역 오디오 신호의 저전력용 수신 방법
EP3424228B1 (en) * 2016-02-29 2024-03-27 Qualcomm Technologies, Inc. A piezoelectric mems device for producing a signal indicative of detection of an acoustic stimulus
US10854199B2 (en) * 2016-04-22 2020-12-01 Hewlett-Packard Development Company, L.P. Communications with trigger phrases
WO2017190803A1 (en) * 2016-05-06 2017-11-09 Arcelik Anonim Sirketi Ambient sound monitoring and visualizing system for hearing impaired persons
ES2806204T3 (es) 2016-06-15 2021-02-16 Cerence Operating Co Técnicas para reconomiento de voz para activación y sistemas y métodos relacionados
US10499150B2 (en) 2016-07-05 2019-12-03 Knowles Electronics, Llc Microphone assembly with digital feedback loop
US10257616B2 (en) 2016-07-22 2019-04-09 Knowles Electronics, Llc Digital microphone assembly with improved frequency response and noise characteristics
WO2018081278A1 (en) 2016-10-28 2018-05-03 Knowles Electronics, Llc Transducer assemblies and methods
US11545146B2 (en) 2016-11-10 2023-01-03 Cerence Operating Company Techniques for language independent wake-up word detection
US11003417B2 (en) 2016-12-15 2021-05-11 Samsung Electronics Co., Ltd. Speech recognition method and apparatus with activation word based on operating environment of the apparatus
CN110100259A (zh) 2016-12-30 2019-08-06 美商楼氏电子有限公司 具有认证的麦克风组件
US20180224923A1 (en) * 2017-02-08 2018-08-09 Intel Corporation Low power key phrase detection
US10283117B2 (en) * 2017-06-19 2019-05-07 Lenovo (Singapore) Pte. Ltd. Systems and methods for identification of response cue at peripheral device
US10204624B1 (en) * 2017-08-14 2019-02-12 Lenovo (Singapore) Pte. Ltd. False positive wake word
WO2019051218A1 (en) 2017-09-08 2019-03-14 Knowles Electronics, Llc CLOCK SYNCHRONIZATION IN A MASTER-ASSERTED COMMUNICATION SYSTEM
US11061642B2 (en) 2017-09-29 2021-07-13 Knowles Electronics, Llc Multi-core audio processor with flexible memory allocation
US10916252B2 (en) 2017-11-10 2021-02-09 Nvidia Corporation Accelerated data transfer for latency reduction and real-time processing
WO2019143336A1 (en) * 2018-01-18 2019-07-25 Hewlett-Packard Development Company, L.P. Learned quiet times for digital assistants
WO2019173045A1 (en) 2018-03-08 2019-09-12 Frontive, Inc. Methods and systems for speech signal processing
DE102018207280A1 (de) * 2018-05-09 2019-11-14 Robert Bosch Gmbh Verfahren und Vorrichtung zur luftschallakustischen Überwachung eines Außen- und/oder eines Innenraums eines Fahrzeugs, Fahrzeug sowie computerlesbares Speichermedium
WO2020055923A1 (en) 2018-09-11 2020-03-19 Knowles Electronics, Llc Digital microphone with reduced processing noise
US10908880B2 (en) 2018-10-19 2021-02-02 Knowles Electronics, Llc Audio signal circuit with in-place bit-reversal
TWI699543B (zh) * 2018-11-09 2020-07-21 國立雲林科技大學 主動式打火機聲源辨識系統
US11151993B2 (en) * 2018-12-28 2021-10-19 Baidu Usa Llc Activating voice commands of a smart display device based on a vision-based mechanism
EP3939036A4 (en) 2019-03-14 2022-12-28 Vesper Technologies Inc. MICROPHONE WITH DETERMINED DIGITAL OUTPUT AT DIFFERENT LEVELS OF POWER CONSUMPTION
WO2020186260A1 (en) 2019-03-14 2020-09-17 Vesper Technologies Inc. A piezoelectric mems device with an adaptive threshold for detection of an acoustic stimulus
US11726105B2 (en) 2019-06-26 2023-08-15 Qualcomm Incorporated Piezoelectric accelerometer with wake function
RU2767962C2 (ru) 2020-04-13 2022-03-22 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для распознавания воспроизведенного речевого фрагмента
US11967319B2 (en) 2020-12-22 2024-04-23 Direct Cursus Technology L.L.C Method and electronic device for processing a spoken utterance
US11915711B2 (en) 2021-07-20 2024-02-27 Direct Cursus Technology L.L.C Method and system for augmenting audio signals

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0486799A (ja) * 1990-07-31 1992-03-19 Asahi Chem Ind Co Ltd 音声認識装置
US6070140A (en) * 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JPH10319991A (ja) * 1997-05-20 1998-12-04 Sony Corp 電子機器の音声認識起動方法及び装置
US6188986B1 (en) 1998-01-02 2001-02-13 Vos Systems, Inc. Voice activated switch method and apparatus
US20020116196A1 (en) * 1998-11-12 2002-08-22 Tran Bao Q. Speech recognizer
US6339706B1 (en) 1999-11-12 2002-01-15 Telefonaktiebolaget L M Ericsson (Publ) Wireless voice-activated remote control device
US6594630B1 (en) * 1999-11-19 2003-07-15 Voice Signal Technologies, Inc. Voice-activated control for electrical device
JP4221222B2 (ja) * 2001-01-23 2009-02-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 非対称マルチチャンネルフィルタ
US6889191B2 (en) 2001-12-03 2005-05-03 Scientific-Atlanta, Inc. Systems and methods for TV navigation with compressed voice-activated commands
US6756700B2 (en) 2002-03-13 2004-06-29 Kye Systems Corp. Sound-activated wake-up device for electronic input devices having a sleep-mode
GB0207732D0 (en) 2002-04-03 2002-05-15 Ttpcomm Ltd Wireless communication terminals
JP2004096520A (ja) * 2002-09-02 2004-03-25 Hosiden Corp 音声認識リモコン
RU2271578C2 (ru) * 2003-01-31 2006-03-10 Ооо "Центр Речевых Технологий" Способ распознавания речевых команд управления
JP2004294946A (ja) * 2003-03-28 2004-10-21 Toshiba Corp 携帯型電子機器
US20050041360A1 (en) * 2003-08-20 2005-02-24 E.G.O. North America, Inc. Systems and methods for achieving low power standby through interaction between a microcontroller and a switching mode power supply
US20060074658A1 (en) * 2004-10-01 2006-04-06 Siemens Information And Communication Mobile, Llc Systems and methods for hands-free voice-activated devices
KR101229574B1 (ko) 2005-03-02 2013-02-05 주식회사 팬택앤큐리텔 단말기 사용자의 음성을 인식하여 단말기 사용자의 감정상태에 따라 반응하는 통신 단말기 및 그 방법과, 상기 통신단말기에서의 마이크 위치 제어 방법
WO2006126649A1 (ja) 2005-05-27 2006-11-30 Matsushita Electric Industrial Co., Ltd. 音声編集装置、音声編集方法、および、音声編集プログラム
US20090222270A2 (en) 2006-02-14 2009-09-03 Ivc Inc. Voice command interface device
KR100744301B1 (ko) * 2006-06-01 2007-07-30 삼성전자주식회사 음성 인식을 이용하여 동작 모드를 전환하는 휴대 단말기및 그 방법
JP2008299477A (ja) * 2007-05-30 2008-12-11 Victor Co Of Japan Ltd 電子機器の制御方法、制御装置及び制御プログラム
KR101961052B1 (ko) * 2007-09-24 2019-03-21 애플 인크. 전자 장치 내의 내장형 인증 시스템들
US8359204B2 (en) * 2007-10-26 2013-01-22 Honda Motor Co., Ltd. Free-speech command classification for car navigation system
US8943326B2 (en) * 2008-01-29 2015-01-27 Qualcomm Incorporated Systems and methods for accessing a tamperproof storage device in a wireless communication device using biometric data
US8099289B2 (en) * 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
US8416553B2 (en) * 2009-10-30 2013-04-09 Intersil Americas Inc. Bias and discharge system for low power loss start up and input capacitance discharge

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190022109A (ko) * 2017-08-25 2019-03-06 삼성전자주식회사 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치

Also Published As

Publication number Publication date
MX344403B (es) 2016-12-14
AU2012339717B2 (en) 2017-09-28
BR112014011718A8 (pt) 2017-12-12
IN2014CN03321A (ko) 2015-07-03
EP2780907A4 (en) 2015-08-12
AU2012339717A1 (en) 2014-05-29
EP2780907A1 (en) 2014-09-24
CA2855379A1 (en) 2013-05-23
US8666751B2 (en) 2014-03-04
CN103019373A (zh) 2013-04-03
AU2012339717A8 (en) 2017-11-02
AU2012339717B8 (en) 2017-11-02
MX2014006001A (es) 2014-08-27
RU2014119876A (ru) 2015-11-27
CN103019373B (zh) 2016-05-11
BR112014011718A2 (pt) 2017-05-09
WO2013074552A1 (en) 2013-05-23
TW201337729A (zh) 2013-09-16
RU2616553C2 (ru) 2017-04-17
TWI571796B (zh) 2017-02-21
US20130132095A1 (en) 2013-05-23
JP2015508516A (ja) 2015-03-19

Similar Documents

Publication Publication Date Title
US8666751B2 (en) Audio pattern matching for device activation
US10534438B2 (en) Compound gesture-speech commands
US9113190B2 (en) Controlling power levels of electronic devices through user interaction
US8660847B2 (en) Integrated local and cloud based speech recognition
KR101838312B1 (ko) 인터랙티브한 스토리를 구동하기 위한 내츄럴 사용자 입력
CA2786681C (en) Voice-body identity correlation
US9563955B1 (en) Object tracking techniques
US20110311144A1 (en) Rgb/depth camera for improving speech recognition
US20120089392A1 (en) Speech recognition user interface
US8605205B2 (en) Display as lighting for photos or video
CN111492426A (zh) 注视启动的语音控制
CN115206306A (zh) 语音交互方法、装置、设备及系统

Legal Events

Date Code Title Description
N231 Notification of change of applicant
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E601 Decision to refuse application