KR20190039777A

KR20190039777A - 제스처로 활성화되는 원격 제어기

Info

Publication number: KR20190039777A
Application number: KR1020197007601A
Authority: KR
Inventors: 지안 웨이 레옹
Original assignee: 구글 엘엘씨
Priority date: 2016-08-16
Filing date: 2017-08-11
Publication date: 2019-04-15
Also published as: KR102258710B1; EP3482278B1; CN109564474B; EP3482278A1; DE202017104587U1; JP2019528526A; US10506192B2; US20180054586A1; WO2018034980A1; CN109564474A; JP6913745B2

Abstract

텔레비전에 대한 제스처 기반 제어기가 제공되는데, 이 제어기는 텔레비전으로부터 멀리 떨어진 컴퓨팅 장치의 백그라운드에서 실행되며, 제어기는 제스처에 의해 활성화된다. 유리하게도, 사용자는 텔레비전을 제어하기 위해 임의의 태스크를 방해할 필요가 없다. 제스처 기반 제어기는 텔레비전에서 발생하는 잡음 및 상충 음성이 있는 경우에도 견고하게 작동할 음성 제어를 활성화하도록 구성될 수 있다.

Description

제스처로 활성화되는 원격 제어기

본 명세서는 원격 제어기에 관한 것이다.

사람들은 일반적으로 텔레비전의 다양한 양태(예: 채널, 볼륨, 디스플레이되는 장치 등)를 제어하기 위해 근처에 있는 원격 제어기(remote control)로 텔레비전을 시청한다. 일부 리모컨은 랩톱 컴퓨터 또는 태블릿 컴퓨터와 같은 전자 장치에 내장되어 있다. 이러한 원격 제어기는 사용자가 표준 입력(예를 들어, 키보드 및 마우스/트랙 패드)을 통해 텔레비전을 제어할 수 있게 하는 이들 전자 장치상에서 실행되는 소프트웨어로서 실현될 수 있다.

하나의 일반적인 양태에서, 방법은 제1 전자 장치의 카메라로부터 비디오 스트림을 수신하는 단계를 포함하며, 상기 카메라는 상기 제1 전자 장치의 사용자의 방향으로 향하게 되며, 상기 제1 전자 장치는 제2 전자 장치로부터 이격되어 그 부근에 위치되고, 제2 전자 장치는 감각(sensory) 출력을 생성하도록 구성된다. 상기 방법은 또한 비디오 스트림의 프레임 세트를 통해 사용자에 의한 제스처를 검출하는 단계를 포함할 수 있다. 상기 방법은 제스처를 검출하는 것에 응답하여, 상기 제1 전자 장치 내에서 원격 제어기를 활성화하여 상기 원격 제어기를 비활성 상태로부터 활성 상태로 전환시키는 단계를 포함하며, 상기 원격 제어기는 상기 원격 제어기가 활성상태에 있는 동안 상기 제2 전자 장치에 의해 생성된 감각 출력으로의 변화를 트리거하도록 구성된다.

하나 이상의 구현예의 세부 사항은 첨부 도면 및 이하의 설명에서 설명된다. 다른 특징들은 상세한 설명 및 도면들 및 청구항들로부터 명백할 것이다.

도 1은 제스처 기반 원격 제어기가 구현될 수 있는 예시적인 전자 환경을 나타내는 도면이다.
도 2는 도 1에 도시된 제스쳐 기반 원격 제어기를 구현하는 예시적인 방법을 도시하는 흐름도이다.
도 3은, 도 1에 도시된 예시적인 원격 제어기를 도시하는 다이어그램이다.
도 4는 도 1에 도시된 원격 제어기에서 음성 기반 명령을 사용하는 예시적인 프로세스를 도시한 흐름도이다.
도 5는 도 1에 도시된 원격 제어기에서 제스처 기반 명령을 사용하는 예시적인 프로세스를 도시하는 흐름도이다.
도 6은 여기에 설명된 회로들과 함께 사용될 수 있는 컴퓨터 장치 및 이동 컴퓨터 장치의 예를 도시한다.

많은 경우, 사용자는 멀티태스킹을 수행하고, 텔레비전을 시청하면서 다른 태스크를 수행한다. 이 경우 사용자는 원격 제어기(원격 제어) 소프트웨어에 액세스하기 위해 다른 태스크를 중단해야 한다.

본 명세서에 설명된 실시 예에 따르면, 텔레비전에 대한 제스처 기반 제어가 텔레비전으로부터 원격인 컴퓨팅 장치의 백그라운드에서 실행되며, 그 제어는 제스처에 의해 활성화된다. 유리하게도, 사용자는 텔레비전을 제어하기 위해 임의의 태스크를 방해할 필요가 없다. 제스처 기반 제어는 텔레비전에서 나오는 소리와 같이 잡음과 상충(competing)하는 음성이 있을 때에도 견고하게 작동하는 음성 제어를 활성화하도록 구성될 수 있다.

도 1은 상술한 제스처 기반 원격 제어기가 구현될 수 있는 예시적인 전자 환경(100)을 도시하는 다이어그램이다. 도 1에 도시된 바와 같이, 전자 환경(100)은 실내(110), 사용자 장치(120), 텔레비전(160) 및 네트워크(170)를 포함한다.

실내(110)는 벽(114)의 적어도 일부 또는 음파가 반사될 수 있는 다른 장애물을 포함하는 임의의 실내일 수 있다. 실내(110)는 사용자 장치(120) 및 텔레비전(160)을 모두 포함한다. 그러나, 일부 구현 예에서, 실내(110)는 벽을 갖지 않을 수도 있고 오픈 영역으로서 더 잘 기술될 수도 있다.

사용자 장치(120)는 네트워크(170)를 통해 텔레비전(160)을 제어하는 동시에 사용자(112)에 의한 사용을 위해 임의의 수의 애플리케이션을 실행하도록 구성된다. 일부 구현 예에서, 사용자 장치(120)는 랩톱 컴퓨터일 수 있지만, 데스크톱 컴퓨터, 태블릿 컴퓨터, 스마트폰 등일 수도 있다. 사용자 장치(120)는 또한 사용자(112)에 의해 만들어진 하나 이상의 제스처에 의해 활성화되는 백그라운드에서 원격 제어기(원격 제어) 애플리케이션을 실행하도록 구성된다.

사용자 장치(120)는 네트워크 인터페이스(122), 하나 이상의 프로세싱 유닛(124), 메모리(126), 카메라(132) 및 마이크로폰(134)을 포함한다. 도 1에 도시된 바와 같이, 메모리(126)는 제스처 분류기(140), 활성화 상태(142), 기록된 프레임들(144), 미리 정의된 명령들(146), 명령 분류기(148) 및 기록된 명령들(150)을 포함하는 다양한 데이터를 저장하도록 구성된다.

원격 제어기(130)는 텔레비전(160)에 의해 생성된 감각 출력에 대한 변경을 트리거하도록 구성된다. 예를 들어, 원격 제어기(130)에 의해 변경된 감각 출력은 텔레비전(160)의 전원을 켜거나 끄는 것, 텔레비전(160)에 의해 출력되는 사운드의 음량을 증가 또는 감소시키는 것, 텔레비전(160)에 의해 출력되는 방송국 방송 콘텐츠를 변경하는 것 등을 포함할 수 있다. 원격 제어기(130)는 또한 원격 제어기(130)가 활성 상태에 있을 때 그러한 변경을 트리거하고 비활성 상태에서 변경을 트리거하지 않도록 구성된다.

원격 제어기(130)는 사용자(112)의 제스처를 통해 액티브 상태와 비 액티브 상태를 토글한다. 예를 들어, 원격 제어기(130)가 음성 제어된 것으로 가정한다. 그 다음, 사용자(112)가 할 수 있는 제스처는 사용자(112)의 입을 향해 이동된 손 형태를 취할 것이다(즉, 사용자(112)가 말하는 마이크로폰을 시뮬레이팅한다).

제스처 분류기(140)는 기록된 프레임들(144)을 트리거 제스처 또는 트리거 제스처가 아닌 것으로 분류하도록 구성된다. 제스처 분류기(140)는 기계 학습 프로세스를 이용하여 구성될 수 있다. 활성화 상태(142)는 원격 제어기(130)가 활성(ACTIVE) 상태인지 비활성("INACTIVE") 상태인지 여부를 나타내는 2진 값이다.

기록된 프레임들(144)은 사용자(112)의 이미지들을 포함하는 카메라(132)에 의해 기록된 프레임들의 세트이다. 이 프레임들은 전형적으로 예를 들어, 10초와 동일한 시간 윈도우 상에 기록된 가장 최근의 프레임들이다. 그 다음, 이 프레임들은 제스처 분류기(140)에 의해 트리거 제스처를 포함하거나 트리거 제스처를 포함하지 않는 것으로 분류된다. 사용자 장치(120)가 트리거 제스처가 있다고 판단하면, 사용자 장치(120)는 활성화 상태(142)를 활성화 "ACTIVE"로 설정한다. 사용자 장치(120)가 트리거 제스처가 아닌 것으로 판단하면, 사용자 장치(120)는 활성화 상태(142)를 비활성화 "INACTIVE"로 설정한다. 따라서, 구현 예에서, 사용자(112)가 그 또는 그녀의 입으로부터 그의 손(fist)을 제거하면, 사용자 장치는 활성화 상태를 비활성으로 설정한다.

미리 정의된 명령들(146)은 텔레비전(160)의 출력에 대한 변경을 트리거하는 명령들의 정의를 제공하도록 구성된다. 미리 정의된 명령들의 예에는 "전원 켜기(POWER ON)", "전원 끄기(POWER OFF)", "볼륨 증가(INCREMENT VOLUME)", "볼륨 감소(DECREMENT VOLUME)", "방송국 번호 올림(INCREMENT STATION NUMBER)" 및 "방송국 번호 내림(DECREMENT STATION NUMBER)"가 있다. 이러한 명령들(146)은 텔레비전에 의해 처리(예를 들어, 인식 가능)될 수 있는 형태로 네트워크(170)를 통해 텔레비전에 전송되도록 구성된다.

명령 분류기(148)는 사용자(112)로부터의 통신을 미리 정의된 명령으로 분류하도록 구성된다. 예를 들어, 원격 제어기(130)가 음성 조작되면, 사용자 입력은 기록된 음성 또는 그 음성의 주파수 스펙트럼의 형태를 취할 수 있다. 이 경우, 각 음성 명령은 파싱되거나 특정 명령으로 분류될 수 있다. 이들 라인을 따라, 명령 분류기(148)는 음성 명령 "크게(Louder)"를 명령(INCREMENT VOLUME) 등으로 분류할 수 있다.

기록된 명령들(150)은 가장 최근의 사용자 제공 명령들을 나타낸다. 상기 예에서, 이 명령들(150)은 기록된 음성 또는 그의 주파수 스펙트럼의 형태를 취할 수 있다.

카메라(132)는 사용자(112)에 의해 만들어진 제스처를 기록하도록 구성된다. 마이크로폰(134)은 원격 제어기(130)가 음성 명령들을 사용할 때 사용자(112)에 의해 만들어진 음성 명령들을 기록하도록 구성된다.

텔레비전(160)은 임의의 수의 채널들(예컨대, 방송국들) 중 하나로부터의 비디오 및 오디오 출력을 사용자(112)에 제공하도록 구성된다. 텔레비전(160)은 (네트워크 인터페이스(122)와 유사할 수 있는) 네트워크 인터페이스(162), 명령 해석기(164) 및 스피커들(166)을 포함한다.

명령 해석기(164)는 네트워크 인터페이스(162)를 통해 수신된 명령들을 취하여 이들을 프로세싱하여 텔레비전(160)에 물리적 효과를 유발하도록 구성된다. 예를 들어, 네트워크 인터페이스(162)를 통해 명령(INCREMENT VOLUME)이 수신되면, 명령 해석기(164)는 고정된 양, 예컨대 고정된 양의 데시벨만큼 텔레비전의 볼륨을 높인다.

스피커들(166)은 텔레비전(160)에 의해 생성된 오디오를 사용자(112)를 위한 실내(114)를 통해 무선으로 전송하도록 구성된다. 스피커들(166)은 특징적인 사운드 스펙트럼을 생성하는 전기적 입력에 대한 알려진 응답을 갖는다. 또한, 스피커들(166)은 사용자 장치(120)로부터 (알려지지 않은) 일정 거리 떨어져 있다.

네트워크(170)는 사용자 장치(120)와 텔레비전(160) 사이에 네트워크 접속(연결)을 제공하도록 구성되고 배열된다. 네트워크(170)는 인터넷 또는 다른 네트워크를 통한 통신을 위해 공통적으로 사용되는 다양한 프로토콜 및 토폴로지 중 임의의 것을 구현할 수 있다. 또한, 네트워크(170)는 이러한 통신에 사용되는 다양한 컴포넌트(예: 케이블, 스위치/라우터, 게이트웨이/브리지 등)를 포함할 수 있다.

네트워크 인터페이스(122)는 네트워크(170)로부터 수신된 전자 및/또는 광 신호를 사용자 장치(120)에 의한 사용을 위해 전자 형태로 변환하기 위한, 예를 들어 이더넷 어댑터, 토큰 링 어댑터 등을 포함한다. 프로세싱 유닛 세트(124)는 하나 이상의 프로세싱 칩 및/또는 어셈블리를 포함한다. 메모리(126)는 하나 이상의 ROM, 디스크 드라이브, 솔리드 스테이트 드라이브 등과 같은 휘발성 메모리(예를 들어, RAM) 및 비휘발성 메모리 모두를 포함한다. 프로세싱 유닛 세트(124) 및 메모리(126)는 함께 설명된 바와 같이 다양한 방법 및 기능을 수행하도록 구성되고 배열된 제어 회로를 형성한다.

사용자 장치(120)의 컴포넌트들(예를 들어, 모듈들, 프로세싱 유닛들(124))은 하나 이상의 유형의 하드웨어, 소프트웨어, 펌웨어, 운영 체제, 런타임 라이브러리 및/또는 기타 등을 포함할 수 있는 하나 이상의 플랫폼(예를 들어, 하나 이상의 유사하거나 상이한 플랫폼)에 기초하여 동작하도록 구성될 수 있다. 일부 구현 예에서, 사용자 장치(120)의 컴포넌트는 디바이스 클러스터(예를 들어, 서버 팜) 내에서 동작하도록 구성될 수 있다. 이러한 구현 예에서, 사용자 장치(120)의 컴포넌트들의 기능 및 프로세싱은 디바이스 클러스터의 일부 디바이스들에 분배될 수 있다.

사용자 장치(120)의 컴포넌트는 속성을 처리하도록 구성된 임의의 유형의 하드웨어 및/또는 소프트웨어일 수 있거나 포함할 수 있다. 일부 구현 예에서, 도 1의 사용자 장치(120)의 컴포넌트들에 도시된 컴포넌트들의 하나 이상의 부분들은, 하드웨어 기반 모듈(예를 들어, 디지털 신호 프로세서(DSP), FPGA(field programmable gate array), 메모리), 펌웨어 모듈 및/또는 소프트웨어 기반 모듈(예를 들어, 예를 들어, 컴퓨터 코드 모듈, 컴퓨터에서 실행될 수 있는 컴퓨터 판독 가능 명령 세트)이거나 이들을 포함할 수 있다. 예를 들어, 일부 구현 예에서, 사용자 장치(120)의 컴포넌트의 하나 이상의 부분들은 적어도 하나의 프로세서(도시되지 않음)에 의해 실행되도록 구성된 소프트웨어 모듈일 수 있거나 이를 포함할 수 있다. 일부 구현 예에서, 컴포넌트의 기능은 도 1에 도시된 것들과 상이한 모듈 및/또는 상이한 컴포넌트에 포함될 수 있다.

도시되지는 않았지만, 일부 구현 예에서, 사용자 장치(120) (또는 그 일부)의 컴포넌트는, 예를 들어 데이터 센터(예를 들어, 클라우드 컴퓨팅 환경), 컴퓨터 시스템, 또는 더 많은 서버/호스트 장치 및/또는 기타 등등 내에서 동작하도록 구성될 수 있다. 일부 구현 예에서, 사용자 장치(120)(또는 그 일부)의 컴포넌트들은 네트워크 내에서 동작하도록 구성될 수 있다. 따라서, 사용자 장치(120) (또는 그 일부)의 컴포넌트는 하나 이상의 장치(디바이스) 및/또는 하나 이상의 서버 장치(디바이스)를 포함할 수 있는 다양한 유형의 네트워크 환경 내에서 기능하도록 구성될 수 있다. 예를 들어, 네트워크는 근거리 통신망(LAN), 광역 통신망(WAN) 등일 수 있거나 포함할 수 있다. 네트워크는 예를 들어 게이트웨이 장치, 브리지, 스위치 등을 사용하여 구현된 무선 네트워크 및/또는 무선 네트워크일 수 있거나 이를 포함할 수 있다. 네트워크는 하나 이상의 세그먼트를 포함할 수 있고 및/또는 인터넷 프로토콜(IP) 및/또는 독점 프로토콜과 같은 다양한 프로토콜에 기초한 부분들을 가질 수 있다. 네트워크는 인터넷의 적어도 일부를 포함할 수 있다.

일부 실시 예에서, 사용자 장치(120)의 하나 이상의 컴포넌트는 메모리에 저장된 명령어들을 처리하도록 구성된 프로세서일 수 있거나 이를 포함할 수 있다. 예를 들어, 원격 제어기(130)(및/또는 그 일부)는 하나 이상의 기능을 구현하기 위한 프로세스와 관련된 명령어들을 실행하도록 구성된 프로세서와 메모리의 조합일수 있다.

일부 구현 예에서, 메모리(126)는 랜덤 액세스 메모리, 디스크 드라이브 메모리, 플래시 메모리 등과 같은 임의의 유형의 메모리일 수 있다. 일부 구현 예에서, 메모리(126)는 사용자 장치(120)의 컴포넌트와 관련된 하나 이상의 메모리 컴포넌트(예를 들어, 하나 이상의 RAM 컴포넌트 또는 디스크 드라이브 메모리)로서 구현될 수 있다. 일부 구현 예에서, 메모리(126)는 데이터베이스 메모리일 수 있다. 일부 구현 예에서, 메모리(126)는 비-로컬 메모리일 수 있거나 이를 포함할 수 있다. 예를 들어, 메모리(126)는 다수의 장치들(도시되지 않음)에 의해 공유되는 메모리일 수 있거나 이를 포함할 수 있다. 일부 구현 예에서, 메모리(126)는 네트워크 내의 서버 장치(도시되지 않음)와 관련될 수 있고, 사용자 장치(120)의 컴포넌트를 서비스하도록 구성될 수 있다.

도 2는 도 1에 도시된 제스처 기반 원격 제어기를 구현하는 방법(200)을 도시하는 흐름도이다. 방법(200)은 도 1과 관련하여 기술된 소프트웨어 구성들에 의해 수행될 수 있으며, 이는 사용자 장치(120)의 메모리(126)에 상주하며 프로세싱 유닛 세트(124)에 의해 실행될 수 있다.

202 단계에서, 제1 전자 장치는 제1 전자 장치의 카메라로부터 비디오 스트림을 수신하고, 상기 카메라는 상기 제1 전자 장치의 사용자의 방향으로 조준(예를 들어, 타겟팅)되고, 상기 제1 전자 장치는 제2 전자 장치로부터 이격되어 그 부근에 위치되고, 제2 전자 장치는 감각 출력을 생성하도록 구성된다. 예를 들어, 사용자 장치(120)는 사용자(112)에 의해 만들어진 제스처를 기록하는 카메라(132)를 갖는다. 카메라(132)는 이들 제스처의 이미지를 사용자 장치(120)에 의해 수신된 비디오 스트림의 프레임에 기록한다.

204 단계에서, 제1 전자 장치는 비디오 스트림의 프레임들의 세트를 통해 사용자에 의해 만들어진 제스처를 검출한다. 제스처 분류기(140)가 제스처를 활성화 제스처로 분류하면, 사용자 장치(120)는 사용자가 활성화 제스처를 만든 것으로 결정한다.

206 단계에서, 제스처를 검출하는 것에 응답하여, 상기 제1 전자 장치는 상기 제1 전자 장치 내의 원격 제어기를 활성화하여 상기 원격 제어기를 비활성 상태에서 활성 상태로 변환시키고, 상기 원격 제어기는 상기 원격 제어기가 활성 상태에 있는 동안 상기 제2 전자 장치에 의해 생성된 감각 출력으로의 변경을 트리거하도록 구성된다. 이러한 방법으로, 사용자 장치(120)는 제스처(예를 들어, 사용자가 그의 손을 자신의 입에 넣는)를 검출할 때 활성화 상태(120)를 활성화 "ACTIVE"로 설정한다. 원격 제어기(130)는 사용자가 음성 명령들을 내릴 때 텔레비전에 명령들을 전송할 준비가 된다. 원격 제어기가 음성 명령을 텔레비전(160)에 의해 인식된 명령으로 변환하는 방법에 대한 세부 사항은 도 3 및 도 4와 관련하여 설명된다.

도 3은 예시적인 원격 제어기(130)를 도시하는 도면이다. 도 3에 도시된 바와 같이, 원격 제어기(130)는 마이크로폰(134)(도 1)에 기록된 사운드를 텔레비전(160)에 의해 인식된 명령들로 변환하도록 구성된 복수의 컴포넌트들, 즉 사운드 추출 관리자(310), 주파수 분석 관리자(320), 필터링 관리자(330) 및 명령 관리자(340)를 포함한다.

사운드 추출 관리자(310)는 마이크로폰(134)으로부터 사운드를 획득하도록 구성된다. 사운드 추출 관리자(310)에 의해 그렇게 획득된 사운드는 반드시 사용자(112)에 의해 말하는 순수한 음성일 필요는 없다는 것을 알아야 한다. 오히려, 사운드는 또한 텔레비전(160)의 스피커(166)로부터 방출된 음성 및 실내(110)로부터 방출된 잡음(예를 들어, 벽(114)으로부터의 반사 및 실내(110) 내의 가열, 냉각 및 전기 장치로부터의 저주파 잡음)을 포함할 수 있다.

따라서, 원격 제어기(310)는 원격 제어(130)가 텔레비전(160)에 명령을 정확하게 송신할 수 있도록 사용자(112)에 의해 발언된 음성을 격리하도록 구성된다. 이러한 격리를 수행하는 한 방법은 획득된 사운드의 주파수 분석을 수행하고 사용자(112)의 음성의 일부가 아닌 것으로 알려진 주파수를 필터링하는 것이다.

주파수 분석 관리자(320)는 사운드 추출 관리자(310)에 의해 획득된 사운드로부터 주파수 스펙트럼을 생성하도록 구성된다. 이 단계는 원격 제어기가 활성 상태에 있을 때 발생할 수 있다. 사운드 데이터는 지정된 시간 동안 기록되어 주파수 세트를 획득한다. 일 구현 예에서, 주파수 분석 관리자(320)는 획득된 사운드의 시간-윈도우의 연속적인 푸리에 변환(예를 들어, 고속 푸리에 변환을 통해)을 수행함으로써 주파수 스펙트럼을 생성하도록 구성된다. 예를 들어, 주파수 분석 관리자(320)는 기록된 사운드의 20 초 세그먼트를 4초, 5초 세그먼트로 분할할 수 있다. 이 경우, 주파수 분석 관리자(320)는 4개의 주파수 스펙트럼을 생성하기 위해 각각의 5초 세그먼트에 대해 푸리에 변환을 수행할 것이다. 이어서, 주파수 분석 관리자(320)는 시간의 함수로서 상기 획득된 사운드의 주파수 스펙트럼을 나타내는 스펙트로그램(spectrogram)을 생성하기 위해 시간에 따라 이들 4개의 주파수 스펙트럼을 정렬할 수 있다.

다른 구현예들에서, 주파수 분석 관리자(320)는 푸리에 변환들 이외의 변환들, 예컨대 특정 유형의 웨이브렛 변환(wavelet transformation)들을 사용하여 스펙트로그램을 생성하도록 구성될 수 있음에 유의해야 한다. 일부의 경우, 이러한 웨이브렛 변환은 푸리에 변환보다 주파수 스펙트럼의 보다 컴팩트한 표현을 제공할 수 있다.

필터링 관리자(330)는 사용자(112)에 의해 제공된 임의의 음성의 일부가 아닌 주파수 성분들을 억제하도록 구성된다. 이들 방법에 따라, 필터링 관리자(330)는 사용자(112)의 음성없이 실내에 존재하는 주파수를 결정한 다음 주파수 분석 관리자(320)에 의해 생성된 스펙트로그램으로부터 이들 주파수를 억제한다. 필터링 관리자(330)가 그러한 주파수를 어떻게 결정하는지에 대한 더 상세한 설명이 도 4와 관련하여 제공되지만, 여기에 일부 세부 사항이 제공된다.

텔레비전(160)은 스피커(166)를 통해 사용자 장치(120)로부터 분리된 위치로부터 사운드를 출력한다. 그 다음, 필터링 관리자(330)는

텔레비전(160)과 사용자 장치(120) 간의 직접 연결을 통해 전송된 데이터 패킷에 대한 RTT(roundtrip time)를 결정함으로써 텔레비전(160) 또는 스피커(166)와 사용자 장치(120) 사이의 거리를 결정할 수 있다. 또한, 필터링 관리자(330)는 출발 장치의 각도/도래각(AOA, angle of arrival)을 결정하여 사용자 장치(120)에 대한 스피커의 위치 좌표를 결정할 수 있다. 이러한 좌표들로부터, 필터링 관리자(330)는 특정 주파수 성분들의 위상을 결정할 수 있다.

사용자 장치(120)에 대한 스피커(166)의 배치에 의해 결정되는 것과 같은 위상을 갖는 주파수 성분은 사용자(112)가 아닌 텔레비젼(160)에 의해 생성된 것으로 억제될 수 있다. 즉, 제2 전자 장치에 의해 생성된 발성된 사운드의 주파수 세트의 주파수의 진폭 및 위상에 충분히 근접한 진폭 및 위상을 갖는 사운드 데이터 입력의 주파수 세트의 주파수가 식별된다. 이러한 방식으로, 사용자에 의해 생성된 사운드와 스피커(166)에 의해 생성된 사운드의 분리가 개선될 수 있어서, 사용자에 의해 생성된 사운드는 스피커에 의해 생성된 실질적인 사운드의 존재에도 불구하고, 신뢰성 있게 음성 명령으로서 인식될 수 있다.

또한, 필터링 관리자(330)는 예를 들어 전기, 냉각 및 가열 시스템과 같은, 실내(110)로부터의 저주파수 험(예를 들어, 60Hz)을 필터링(filter out)할 수 있다. 그럼에도 불구하고 인간의 언어가 60Hz보다 낮은 주파수를 가지기 때문에 주의를 기울여야 한다. 그러나 이 경우, 시간이 지남에 따라 험(hum)이 대략 일정하기 때문에 시간 경과에 따라 일정한 스펙트로그램의 저주파 스파이크가 억제될 수 있다.

명령 관리자(340)는 필터링된 스펙트로그램을 명령 분류기(148)에 의해 분류될 명령 또는 명령 세트로 파싱하도록 구성된다. 이 방법에 따라, 명령 관리자(340)는 특정 명령에 대응하는 것으로 스펙트로그램을 분류한다. 일부 구현 예에서, 명령 관리자(340)는 역 푸리에 변환을 수행하여 매핑을 수행하기 전에 사용자(112)로부터 음성을 복원한다.

도 4는 원격 제어기(130)에서 음성 기반 명령을 사용하는 프로세스(400)를 도시하는 흐름도이다. 프로세스(400)는 사용자 장치(120)의 메모리(126)에 상주하며 프로세싱 유닛 세트(124)에 의해 실행되는 도 3과 관련하여 기술된 소프트웨어 구성들(software constructs)에 의해 수행될 수 있다.

402 단계에서, 사용자 장치(120)는 실내(110)의 주파수 응답을 생성한다. 주파수 응답은 텔레비전(160)에 의해 생성된 사운드의 각 주파수에서 진폭 및 위상을 포함한다. 하나의 다른 구현 예에서, 네트워크를 통한 접속을 설정할 때 주파수 스위프(예를 들어, 챠프(chirp))를 수행하고, 수신된 신호를 측정함으로써 실내의 주파수 응답을 획득할 수 있다. 또 다른 실시 예에서, 하나는 원격 제어기(130)가 비활성 상태에 있는 동안 텔레비전(160)에 의해 생성될 때 주파수를 샘플링한다. 이 경우에, 프라이버시 문제를 해결하기 위해, 연속적인 기록은 필요하지 않으며, 미리 생성된 신호가 알려지므로, 사용자 장치(120)는 관찰되지 않은 주파수가 재생 될 때만 기록할 수 있다.

404 단계에서, 사용자 장치(120)는 마이크로폰(134)으로부터 결합된 사운드 입력을 수신한다. 또한, 사운드 입력은 실내(110)로부터의 집음뿐만 아니라 텔레비전(160)으로부터의 사운드와 결합된 사용자(112) 음성으로부터의 사운드를 포함한다.

406 단계에서, 사용자 장치(120)는 결합된 사운드 입력으로부터의 스펙트로그램 (연속적인 시간 윈도우에 걸친 주파수 스펙트럼)을 생성한다. 일부 구현 예에서, 스펙트로그램은 특정 시간 동안 사운드 데이터의 기록을 반복하고, 원격 제어기가 활성 상태에 있는 동안 한 세트의 주파수를 획득함으로써 얻어진다.

408 단계에서, 사용자 장치(120)는 네트워크(170)를 통해 텔레비전(160)으로부터 입력된 사운드를 수신한다. 네트워크(170)를 통해 수신된 사운드 입력은 실내(110)로부터의 왜곡 및 잡음을 포함하기 때문에, 실내(110)에서 공기(무선)를 통해 수신된 사운드와 동일하지 않다는 것을 유의해야 한다. 사용자 장치(120)는 신호의 진폭 및 위상을 근사화하기 위하여 텔레비전(160)으로부터의 신호가 전송되는 네트워크(170)의 WiFi 신호의 AoD(angle of departure) 또는 AoA(angle of arrival) 및 RTT(roundtrip time)를 측정할 수 있음을 알아야 한다. 일부 경우에는, 그러한 위상은 사용자(112)의 인간 음성으로부터 텔레비전(160)으로부터의 사운드의 인간 음성을 식별하기 위해 필요할 수 있다. 이러한 방식으로, 인간의 음성은 보다 정확하게 검출될 수 있으며, 따라서 음성으로부터, 전술한 바와 같이 예를 들어, 텔레비전(160)에 송신을 위한 명령을 생성하는 것을 향상시킨다.

412 단계에서, 사용자 장치(120)는 주파수 응답을 사용하여 결합된 사운드 입력으로부터 실내의 공기를 통해 수신된 사운드의 잡음을 필터링하고, 이렇게 함으로써, 스펙트로그램으로부터 음성에 대응하는 주파수를 선택한다. 일 실시 예에서, 사용자 장치(120)는 스펙트로그램의 각 윈도우로부터 주파수 응답-필터링된 주파수를 감산한다.

414 단계에서, 사용자 장치(120)는 스펙트로그램의 선택된 주파수들로부터 명령을 생성한다.

416 단계에서, 사용자 장치(120)는 네트워크(170)를 통해 텔레비전(160)에 명령을 전송한다.

상기 프로세스(400)는 사용자(112)가 명령을 말하는 동안 텔레비전(160)이 스피커(166)를 통해 사운드를 생성한다고 가정한다. 단순화된 프로세스는 원격 제어기가 활성 상태에 있을 때 텔레비전(160)에 음소거 명령을 전송하는 것을 포함한다. 또 다른 구현 예에서, 프로세스는 음소거 명령보다는 볼륨 다운 명령을 전송하는 것을 포함할 수 있다. 이러한 볼륨 다운 명령은 더 부드러운 사용자 경험을 제공할 수 있다.

대안적으로, 사용자 장치(120)가 스마트폰, 태블릿 컴퓨터 또는 다른 경량 디바이스일 때, 원격 제어기(130)는 사용자 장치(120)의 움직임을 통해 동작될 수 있다. 그러한 경우에, 사용자 장치(120)는 그러한 움직임을 측정하는 가속도계를 가질 수 있다. 그 후, 사용자 장치(120)는 원격 제어기(130)가 텔레비전(160)에 전송할 명령들에 이러한 움직임들을 매핑할 수 있다.

도 5는 원격 제어기(130)에서 제스처 기반 명령을 사용하는 프로세스(500)를 도시하는 흐름도이다. 프로세스(500)는 사용자 장치(120)의 메모리(126)에 상주하며 프로세싱 유닛 세트(124)에 의해 실행되는 도 3과 관련하여 기술된 소프트웨어 구성들에 의해 수행될 수 있다. 또한, 프로세스(500)는 원격 제어기(130)가 활성 상태에 있을 때 발생한다. 사용자 장치(120) 내의 원격 제어기를 활성화 및 비활성화하는 것은 전술한 바와 같이, 예를 들어 도 2에 도시된 방법에 따라 발생할 수 있다.

502 단계에서, 사용자 장치(120)는 원격 제어기(130)가 활성 상태인 동안 사용자 장치(120)의 움직임을 검출한다. 예를 들어, 일 구현예에서, 사용자(112)는 텔레비전(160)의 볼륨이 증가되도록 사용자 장치(112)를 상향 방향으로 이동시킨다.

504 단계에서, 사용자 장치(120)는 파서/분류기(148)를 통해 명령을 생성하기 위해 상기 검출된 움직임을 분류한다. 상기 예에 계속해서, 사용자 장치(120)의 상향 이동은 명령 분류기(148)를 통해 "INCREMENT VOLUME" 명령으로 분류된다.

506 단계에서, 사용자 장치(120)는 네트워크(170)를 통해 텔레비전(160)에 명령을 전송한다.

도 6은 일반적인 컴퓨터 장치(600) 및 일반적인 모바일 컴퓨터 장치(650)의 예를 도시하며, 여기에 기술된 기술들과 함께 사용될 수 있다.

도 6에 도시된 바와 같이, 컴퓨팅 장치(600)는 랩톱, 데스크톱, 워크스테이션, 개인 휴대 정보 단말기(PDA), 서버, 블레이드 서버, 메인프레임 및 다른 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내기 위한 것이다. 컴퓨팅 장치(650)는 개인 휴대 정보 단말기, 셀룰러 전화, 스마트폰 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타내기 위한 것이다. 여기에 나타낸 컴포넌트들, 이들의 접속 및 관계, 및 그 기능은 단지 예시적인 것으로 의도되며, 본 명세서에 기재된 및/또는 청구된 본 발명의 구현을 제한하지 않는다.

컴퓨팅 장치(600)는 프로세서(602), 메모리(604), 저장 장치(606), 메모리(604) 및 고속 확장 포트(610)에 연결되는 고속 인터페이스(608) 및 저속 버스(614) 및 저장 장치(606)에 연결되는 저속 인터페이스(612)를 포함한다. 컴포넌트들(602, 604, 606, 608, 610, 및 612) 각각은 다양한 버스들을 사용하여 상호 접속되고, 공통 마더보드 상에 또는 적절한 다른 방식으로 장착될 수 있다.

프로세서(602)는 메모리(604) 또는 저장 장치(606)에 저장된 명령어들을 포함하는 컴퓨팅 장치(600) 내에서 실행하기 위한 명령어들을 처리하여, 고속 인터페이스(608)에 결합된 디스플레이(616)와 같은 외부 입/출력 장치상에 GUI에 대한 그래픽 정보를 디스플레이할 수 있다. 다른 구현 예에서, 다수의 메모리 및 유형들의 메모리와 함께, 적절하게, 다수의 프로세서 및/또는 다수의 버스가 사용될 수 있다. 또한, 다수의 컴퓨팅 장치(600)가 연결될 수 있으며, 각 장치는 필요한 동작 (예: 서버 뱅크, 블레이드 서버 그룹 또는 멀티 프로세서 시스템)의 일부를 제공한다.

메모리(604)는 컴퓨팅 장치(600) 내의 정보를 저장한다. 일 구현 예에서, 메모리(604)는 휘발성 메모리 유닛(들)이다. 또 다른 구현 예에서, 메모리(604)는 비 휘발성 메모리 유닛(들)이다. 메모리(604)는 또한 자기 또는 광학 디스크와 같은 컴퓨터 판독 가능 매체의 다른 형태일 수 있다.

저장 장치(606)는 컴퓨팅 장치(600)에 대용량 저장 장치를 제공할 수 있다. 일 실시 예에서, 저장 장치(606)는 저장 영역 네트워크 또는 기타 구성의 장치들을 포함하는, 플로피 디스크 장치, 하드 디스크 장치, 광학 디스크 장치 또는 테이프 장치, 플래시 메모리 또는 다른 유사한 고체 상태 메모리 장치 또는 어레이와 같은 컴퓨터 판독 가능 매체이거나 이에 포함될 수 있다. 컴퓨터 프로그램 제품은 정보 매체에 유형적으로 구현될 수 있다. 상기 컴퓨터 프로그램 제품은 또한 실행될 때 상술한 바와 같은 하나 이상의 방법을 수행하는 명령어들을 포함할 수 있다. 정보 매체는 메모리(604), 저장 장치(606) 또는 프로세서(602)상의 메모리와 같은 컴퓨터 또는 기계 판독 가능 매체이다.

고속 제어기(608)는 컴퓨팅 장치(600)에 대한 대역폭 집중적인 동작을 관리하고, 저속 제어기(612)는 낮은 대역폭의 집중적인 동작을 관리한다. 이러한 기능 할당은 단지 예시적인 것이다. 일 실시 예에서, 고속 제어기(608)는 (예를 들어, 그래픽 프로세서 또는 가속기를 통해) 메모리(604), 디스플레이(616) 및 다양한 확장 카드(도시되지 않음)를 수용할 수 있는 고속 확장 포트(610)에 결합된다. 구현시, 저속 제어기(612)는 저장 장치(606) 및 저속 확장 포트(614)에 결합된다. USB, 블루투스, 이더넷, 무선 이더넷과 같은 다양한 통신 포트를 포함할 수 있는 저속 확장 포트는 키보드, 포인팅 장치, 스캐너 또는 스위치 또는 라우터와 같은 네트워킹 장치와 같은 하나 이상의 입력/출력 장치에, 예를 들어 네트워크 어댑터를 통해 결합될 수 있다.

컴퓨팅 장치(600)는 도면에 도시된 바와 같이 다수의 상이한 형태로 구현될 수 있다. 예를 들어, 표준 서버(620)로서 구현되거나, 또는 그러한 서버들의 그룹에서 여러 번 구현될 수 있다. 또한, 랙 서버 시스템(624)의 일부로서 구현될 수도 있다. 또한, 이는 랩톱 컴퓨터(622)와 같은 퍼스널 컴퓨터에서 구현될 수도 있다. 대안적으로, 컴퓨팅 장치(600)로부터의 구성 요소(컴포넌트)는 장치(650)와 같은 모바일 디바이스(도시되지 않음)의 다른 구성 요소와 결합될 수 있다. 이러한 장치 각각은 컴퓨팅 장치(600, 650) 중 하나 이상을 포함할 수 있고, 전체 시스템은 서로 통신하는 다수의 컴퓨팅 장치(600, 650)로 구성될 수 있다.

컴퓨팅 장치(650)는 다른 구성 요소들 중에서 디스플레이(654), 통신 인터페이스(666) 및 송수신기(668)와 같은 입/출력 장치, 프로세서(652), 메모리(664)를 포함한다. 장치(650)는 또한 추가 저장 장치를 제공하기 위해 마이크로 드라이브 또는 다른 장치와 같은 저장 장치를 구비할 수 있다. 구성 요소들(650, 652, 664, 654, 666 및 668) 각각은 다양한 버스를 사용하여 상호 접속되며, 일부 구성 요소는 공통 마더보드 상에 또는 적절하게 다른 방식으로 탑재될 수 있다.

프로세서(652)는 메모리(664)에 저장된 명령어들을 포함하여 컴퓨팅 장치(650) 내의 명령어들을 실행할 수 있다. 프로세서는 개별 및 다중 아날로그 및 디지털 프로세서를 포함하는 칩들의 칩셋으로서 구현될 수 있다. 상기 프로세서는 예를 들어 사용자 인터페이스의 제어, 장치(650)에 의해 실행되는 애플리케이션 및 장치(650)에 의한 무선 통신과 같은 장치(650)의 다른 구성 요소들의 조정을 제공할 수 있다.

프로세서(652)는 제어 인터페이스(658) 및 디스플레이(654)에 연결된 디스플레이 인터페이스(656)를 통해 사용자와 통신할 수 있다. 디스플레이(654)는 예를 들어, TFT LCD(Thin-Film-Transistor Liquid Crystal Display) 또는 OLED(Organic Light Emitting Diode) 디스플레이, 또는 다른 적절한 디스플레이 기술일 수 있다. 디스플레이 인터페이스(656)는 사용자에게 그래픽 및 다른 정보를 제공하기 위해 디스플레이(654)를 구동하기 위한 적절한 회로를 포함할 수 있다. 제어 인터페이스(658)는 사용자로부터 명령들을 수신하여 이를 프로세서(652)에 제출하기 위해 변환할 수 있다. 또한, 외부 인터페이스(662)는 프로세서(652)와 통신하여 제공되어, 장치(650)의 다른 장치와의 근거리 통신을 가능하게 할 수 있다. 외부 인터페이스(662)는 예를 들어, 일부 구현 예에서 유선 통신용으로 또는 다른 구현 예에서 무선 통신용으로 제공할 수 있으며, 다중 인터페이스가 또한 사용될 수 있다.

메모리(664)는 컴퓨팅 장치(650) 내의 정보를 저장한다. 메모리(664)는 컴퓨터 판독 가능 매체 또는 미디어, 휘발성 메모리 유닛(들) 또는 비휘발성 메모리 유닛(들) 중 하나 이상으로서 구현될 수 있다. 확장 메모리(674)는 또한 예를 들어 SIMM(Single In Line Memory Module) 카드 인터페이스를 포함할 수 있는 확장 인터페이스(672)를 통해 장치(650)에 제공되고 접속될 수 있다. 이러한 확장 메모리(674)는 장치(650)를 위한 여분의 저장 공간을 제공하거나 장치(650)에 대한 애플리케이션 또는 다른 정보를 저장할 수도 있다. 특히, 확장 메모리(674)는 전술한 프로세스를 수행하거나 보충하기 위한 명령어들을 포함할 수 있으며, 또한 보안 정보를 포함할 수 있다. 따라서, 예를 들어, 확장 메모리(674)는 장치(650)에 대한 보안 모듈로서 제공될 수 있고, 장치(650)의 안전한 사용을 허용하는 명령어들로 프로그램될 수 있다. 또한, 보안 애플리케이션은 SIMM 카드에 식별 정보를 해킹할 수 없는 방식으로 배치하는 것과 같은 추가 정보와 함께 SIMM 카드를 통해 제공될 수 있다.

상기 메모리는 예를 들어, 후술되는 바와 같이, 플래시 메모리 및/또는 NVRAM 메모리를 포함할 수 있다. 일 구현 예에서, 컴퓨터 프로그램 제품은 정보 매체에 유형적으로 구현된다. 컴퓨터 프로그램 제품은 실행될 때, 상술한 바와 같은 하나 이상의 방법을 수행하는 명령어들을 포함한다. 상기 정보 매체는 예를 들어 송수신기(668) 또는 외부 인터페이스(662)를 통해 수신될 수 있는 메모리(664), 확장 메모리(674) 또는 프로세서(652)상의 메모리와 같은 컴퓨터 또는 기계 판독 가능 매체이다.

장치(650)는 필요한 경우 디지털 신호 처리 회로를 포함할 수 있는 통신 인터페이스(666)를 통해 무선으로 통신할 수 있다. 통신 인터페이스(666)는 GSM 음성 호출, SMS, EMS 또는 MMS 메시징, CDMA, TDMA, PDC, WCDMA, CDMA2000 또는 GPRS와 같은 다양한 모드 또는 프로토콜 하에서 통신을 제공할 수 있다. 이러한 통신은, 예를 들어 무선 주파수 송수신기(668)를 통해 발생할 수 있다. 또한, 블루투스, Wi-Fi 또는 다른 송수신기(도시되지 않음)를 사용하는 것과 같은 단거리 통신이 발생할 수 있다. 또한, GPS(Global Positioning System) 수신기 모듈(670)은 장치(650)상에서 실행되는 애플리케이션에 의해 적절하게 사용될 수 있는 추가의 내비게이션 및 위치 관련 무선 데이터를 장치(650)에 제공할 수 있다.

장치(650)는 또한 사용자로부터 음성 정보를 수신하고 이를 이용 가능한 디지털 정보로 변환할 수 있는 오디오 코덱(660)을 사용하여 가청 통신할 수 있다. 오디오 코덱(660)은 마찬가지로, 예를 들어 장치(650)의 핸드셋에 있는 스피커를 통해, 사용자를 위한 가청 사운드를 생성할 수 있다. 이러한 사운드는 음성 전화 호출로부터의 사운드를 포함할 수 있고, 녹음된 사운드(예를 들어, 음성 메시지, 음악 파일 등)를 포함할 수 있으며, 또한 장치(650)상에서 동작하는 애플리케이션에 의해 생성된 사운드를 포함할 수 있다.

컴퓨팅 장치(650)는 도면에 도시된 바와 같이 다수의 상이한 형태로 구현될 수 있다. 예를 들어, 이는 셀룰러 전화기(680)로서 구현될 수 있다. 이는 또한 스마트폰(682), PDA(personal digital assistant) 또는 다른 유사한 모바일 디바이스의 일부로서 구현될 수도 있다.

여기에 설명된 시스템 및 방법의 다양한 구현 예는 디지털 전자 회로, 집적 회로, 특별히 설계된 ASIC(application specific integrated circuits), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 그러한 구현예들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 저장 시스템, 적어도 하나의 입력 장치, 적어도 하나의 출력 장치와의 데이터 및 명령어들을 송수신하도록 결합된, 특수 또는 범용일 수 있는 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템상에서 실행 가능하고 및/또는 해석 가능한 하나 이상의 컴퓨터 프로그램에서의 구현을 포함할 수 있다.

이러한 컴퓨터 프로그램들(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로도 알려짐)은 프로그램 가능 프로세서에 대한 기계 명령어를 포함하며, 높은 수준의 절차 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/ 기계어로 구현될 수 있다. 여기에서 사용되는 "기계 판독 가능 매체", "컴퓨터 판독 가능 매체"라는 용어는 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD)와 같은 임의의 컴퓨터 프로그램 제품, 장치 및/또는 디바이스를 나타내며, 기계 판독 가능 신호로서 기계 명령을 수신하는 기계 판독 가능 매체를 포함하여, 프로그램 가능 프로세서에 기계 명령어 및/또는 데이터를 제공하는데 사용된다. "기계 판독 가능 신호"라는 용어는 기계 명령어 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위해 사용되는 모든 신호를 의미한다.

사용자와의 상호 작용을 제공하기 위해, 여기에 기술된 시스템 및 기술은 정보를 사용자에게 디스플레이하기 위한 CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터와 같은 디스플레이 장치와, 사용자가 컴퓨터에 입력을 제공할 수 있는 마우스 또는 트랙볼과 같은 포인팅 디바이스 및 키보드를 갖는 컴퓨터상에서 구현될 수 있다. 다른 종류의 장치들이 사용자와의 상호 작용을 제공하는 데 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각 피드백일 수 있으며, 사용자로부터의 입력은 어쿠스틱, 스피치 또는 촉각 입력을 포함하는 임의의 형태로 수신 될 수 있다.

여기에 설명된 시스템 및 기술은 예를 들어 데이터 서버와 같은 백엔드 구성 요소 또는 애플리케이션 서버와 같은 미들웨어 구성 요소를 포함하거나 프론트 엔드 구성 요소를 포함하는 컴퓨팅 시스템에서 구현될 수 있으며, 예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 갖는 클라이언트 컴퓨터로서, 여기서 사용자는 여기서 설명된 시스템 및 기술의 구현, 또는 이러한 백 엔드, 미들웨어 또는 프론트 엔드 구성 요소의 임의의 조합과 상호 작용할 수 있다. 시스템의 컴포넌트는 디지털 데이터 통신의 임의의 형태 또는 매체, 예를 들어 통신 네트워크에 의해 상호 접속될 수 있다. 통신 네트워크의 예는 근거리 통신망("LAN"), 광역 통신망("WAN") 및 인터넷을 포함한다.

컴퓨팅 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며 일반적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터에서 실행되고 클라이언트-서버의 서로의 관계를 갖는 컴퓨터 프로그램으로 발생한다.

다수의 실시 예가 설명되었다. 그럼에도 불구하고, 본 명세서의 사상과 범위를 벗어나지 않고 다양한 변형이 이루어질 수 있음을 이해할 것이다.

또한, 구성요소가 다른 구성요소 상에 존재하거나, 접속되거나, 전기적으로 접속되거나, 결합되거나 또는 전기적으로 결합된 것으로 언급될 때, 다른 구성요소에 직접 연결되거나, 연결되거나, 결합될 수 있거나, 또는 하나 이상의 개입되는 구성요소가 존재할 수 있다. 대조적으로, 구성요소가 직접적으로 또는 다른 구성요소에 직접 연결되거나 직접 연결되는 것으로 언급될 때, 개입되는 구성요소가 존재하지 않는다. 직접적으로, 직접적으로 또는 직접 결합된 용어는 상세한 설명 전체에 걸쳐 사용되지 않을 수도 있지만, 직접적으로, 직접적으로 또는 직접적으로 결합된 것으로서 나타나는 구성요소는 이와 같이 언급될 수 있다. 출원서의 청구 범위는 명세서에서 설명되거나 도면에 도시된 예시적인 관계를 암시하도록 수정 될 수 있다.

설명된 구현예들의 특정 특징들이 본 명세서에 설명된 바와 같이 도시되었지만, 많은 수정, 대체, 변경 및 균등물이 이제 당업자에게 발생할 것이다. 그러므로, 첨부된 청구 범위는 구현예의 범위 내에 있는 그러한 모든 수정 및 변경을 포함하도록 의도된 것으로 이해되어야 한다. 이들 실시 예는 제한적인 것이 아닌 예일 뿐이며, 형태 및 세부 사항의 다양한 변경이 이루어질 수 있음을 알아야 한다. 여기서 설명된 장치 및/또는 방법의 임의의 부분은 상호 배타적인 조합을 제외하고는 임의의 조합으로 결합될 수 있다. 본 명세서에서 설명된 구현 예들은 기재된 다른 구현 예들의 기능, 구성 요소 및/또는 특징들의 다양한 조합 및/또는 서브 조합을 포함할 수 있다.

또한, 도면들에 도시된 논리 흐름들은 바람직한 결과를 달성하기 위해 도시된 특정 순서 또는 순차 순서를 요구하지 않는다. 또한, 설명된 흐름들로부터 다른 단계들이 제공되거나 단계들이 제거될 수 있으며, 설명된 시스템들에 다른 컴포넌트들이 추가되거나 제거될 수 있다. 따라서, 다른 실시 예들은 다음의 청구항들의 범위 내에 있다.

Claims

비전송 저장 매체를 포함하는 컴퓨터 프로그램 제품으로서, 상기 컴퓨터 프로그램 제품은, 프로세싱 회로에 의해 실행될 때, 상기 프로세싱 회로로 하여금 방법을 수행하도록 하는 코드를 포함하며, 상기 방법은,
상기 프로세싱 회로를 포함하는 제1 전자 장치의 카메라로부터 비디오 스트림을 수신하는 단계 -상기 카메라는 상기 제1 전자 장치의 사용자의 방향으로 조준되고, 상기 제1 전자 장치는 제2 전자 장치로부터 이격되어 인접하게 위치되고, 상기 제2 전자 장치는 감각(sensory) 출력을 생성하도록 구성됨-;
상기 비디오 스트림의 프레임들의 세트를 통해, 사용자에 의해 만들어진 제스처를 검출하는 단계; 그리고
상기 제스처를 검출하는 것에 응답하여, 상기 제1 전자 장치 내의 원격 제어기를 활성화시켜 상기 원격 제어기를 비활성화 상태로부터 활성화 상태로 전환시키는 단계를 포함하며, 상기 원격 제어기는 상기 원격 제어기가 활성화 상태에 있는 동안 상기 제2 전자 장치에 의해 생성된 상기 감각 출력에 대한 변경들을 트리거하도록 구성되는 것을 특징으로 하는 비전송 저장 매체를 포함하는 컴퓨터 프로그램 제품.
제1항에 있어서, 상기 방법은,
상기 원격 제어기가 활성화 상태에 있는 동안 사용자에 의해 만들어진 제2 제스처를 상기 비디오 스트림의 다른 프레임들의 세트를 통해 검출하는 단계; 그리고
상기 제2 제스처를 검출하는 것에 응답하여, 상기 원격 제어기를 상기 비활성화 상태로 전환하도록 상기 원격 제어기를 비활성화시키는 단계를 더 포함하는 것을 특징으로 하는 비전송 저장 매체를 포함하는 컴퓨터 프로그램 제품.
제1항에 있어서,
상기 제1 전자 장치는 마이크로폰에 입사하는 음파를 상기 제1 전자 장치의 메모리에 저장된 사운드 데이터로 변환하도록 구성된 상기 마이크로폰을 더 포함하며,
상기 원격 제어기가 활성화 상태에 있는 것에 응답하여, 상기 방법은,
상기 제2 전자 장치의 감각 출력에 대해 변경하기 위해 미리 정의된 명령으로서 상기 사운드 데이터를 식별하는 단계;
상기 사운드 데이터를 상기 제2 전자 장치에 의해 수신될 때 상기 제2 전자 장치로 하여금 상기 제2 전자 장치에 의해 생성된 상기 감각 출력에 대한 변경들을 트리거하게 하는 원격 제어기 데이터로 변환하는 단계; 그리고
상기 원격 제어기 데이터를 상기 제2 전자 장치로 전송하는 단계를 더 포함하는 것을 특징으로 하는 비전송 저장 매체를 포함하는 컴퓨터 프로그램 제품.
제3항에 있어서,
상기 제2 전자 장치에 의해 생성된 감각 출력은 발성된 사운드를 포함하며;
상기 제2 전자 장치의 감각 출력에 대해 변경하기 위해 미리 정의된 명령으로서 상기 사운드 데이터를 식별하는 단계는 필터링 동작을 수행하는 단계를 포함하며, 상기 필터링 동작은 상기 마이크로폰에 입사하는 음파로부터 상기 발성된 사운드를 필터링하도록 구성되는 것을 특징으로 하는 비전송 저장 매체를 포함하는 컴퓨터 프로그램 제품.
제4항에 있어서, 상기 필터링 동작을 수행하는 단계는,
상기 원격 제어기가 상기 활성화 상태로 전환하는 것에 응답하여, 볼륨 다운 명령을 상기 제2 전자 장치에 전송하는 것을 포함하며, 상기 볼륨 다운 명령은 제2 전자 장치에 의해 수신될 때, 제2 전자 장치로 하여금 더 작은 진폭으로 상기 발성된 사운드를 생성하게 하며,
상기 방법은,
상기 원격 제어기가 비활성 상태로 전환하는 것에 응답하여, 볼륨 업 명령을 제2 전자 장치에 전송하는 단계를 더 포함하며, 상기 볼륨 업 명령은 제2 전자 장치에 의해 수신될 때 제2 전자 장치로 하여금 더 큰 진폭으로 상기 발성된 사운드를 생성하게 하는 것을 특징으로 하는 비전송 저장 매체를 포함하는 컴퓨터 프로그램 제품.
제4항에 있어서, 상기 방법은,
상기 제2 전자 장치에 의해 생성된 발성된 사운드의 주파수 세트를 획득하는 단계를 더 포함하며,
상기 필터링 동작을 수행하는 단계는,
상기 마이크로폰에 입력된 상기 사운드 데이터의 주파수 세트를 획득하는 단계;
필터링된 주파수 세트를 형성하기 위해 상기 사운드 데이터의 주파수 세트로부터 상기 제2 전자 장치에 의해 생성된 상기 발성된 사운드의 주파수 세트의 주파수를 억제하는 단계; 그리고
필터링된 주파수 세트로부터 원격 제어기 데이터가 생성되는 필터링된 사운드 데이터를 형성하는 단계를 포함하는 것을 특징으로 하는 비전송 저장 매체를 포함하는 컴퓨터 프로그램 제품.
제6항에 있어서, 상기 마이크로폰에 입력된 상기 사운드 데이터의 상기 주파수 세트를 획득하는 단계는,
지정된 시간 량 동안 입력된 상기 사운드 데이터를 기록하여 사운드의 시간 윈도우를 생성하는 단계;
주파수의 시간 윈도우를 형성하기 위해 사운드의 시간 윈도우로부터 주파수 세트를 획득하는 단계;
상기 지정된 시간 동안 사운드 데이터의 기록을 반복하고, 상기 기록된 사운드 데이터의 스펙트로그램을 형성하도록 상기 원격 제어기가 상기 활성화 상태에 있는 동안 주파수 세트를 획득하는 단계를 포함하는 것을 특징으로 하는 비전송 저장 매체를 포함하는 컴퓨터 프로그램 제품.
제6항에 있어서, 상기 마이크로폰에 입력된 상기 사운드 데이터의 상기 주파수 세트를 획득하는 단계는 상기 마이크로폰에 입력된 상기 사운드 데이터에 대해 푸리에 변환 동작을 수행하는 단계를 포함하는 것을 특징으로 하는 비전송 저장 매체를 포함하는 컴퓨터 프로그램 제품.
제6항에 있어서,
상기 제2 전자 장치에 의해 생성된 상기 발성된 사운드의 주파수 세트의 주파수를 억제하는 단계는,
상기 제1 전자 장치와 상기 제2 전자 장치 사이의 거리를 생성하는 단계;
상기 제2 전자 장치로부터의 발성된 사운드가 전송되는 네트워크 신호의 도래각(angle of arrival)을 생성하는 단계;
상기 거리 및 상기 도래각에 기초하여, 상기 제2 전자 장치에 의해 생성된 상기 발성된 사운드의 주파수 세트의 주파수의 진폭 및 위상을 생성하는 단계; 그리고
제2 전자 장치에 의해 생성된 상기 발성된 사운드의 주파수 세트의 주파수의 진폭 및 위상에 충분히 근접한 진폭 및 위상을 갖는 상기 입력된 사운드 데이터의 주파수 세트의 주파수를 식별하는 단계를 포함하는 것을 특징으로 하는 비전송 저장 매체를 포함하는 컴퓨터 프로그램 제품.
제3항에 있어서,
상기 필터링 동작은 상기 마이크로폰에 입사하는 상기 음파로부터 상기 제1 전자 장치 및 상기 제2 전자 장치가 위치하는 실내에 의해 생성된 오디오 잡음을 필터링하도록 더 구성되는 것을 특징으로 하는 비전송 저장 매체를 포함하는 컴퓨터 프로그램 제품.
제10항에 있어서,
상기 필터링 동작을 수행하는 단계는 상기 마이크로폰에 입력된 상기 사운드 데이터로부터 잡음 주파수 임계치보다 작은 주파수를 필터링하는 단계를 포함하는 것을 특징으로 하는 비전송 저장 매체를 포함하는 컴퓨터 프로그램 제품.
제1항에 있어서,
상기 제1 전자 장치는 상기 제1 전자 장치의 움직임을 검출 및 기록하도록 구성된 움직임 검출기를 더 포함하며,
상기 원격 제어기가 활성화 상태에 있는 것에 응답하여, 상기 방법은,
미리 정의된 제스처로서 상기 제1 전자 장치의 움직임을 식별하는 단계;
상기 제2 전자 장치의 감각 출력을 변경하도록 상기 미리 정의된 제스처를 각각의 명령에 매핑하는 단계; 그리고
원격 제어기 데이터로서 상기 각각의 명령을 제2 전자 장치에 전송하는 단계를 더 포함하며,
상기 원격 제어기 데이터는 제2 전자 장치에 의해 수신될 때 제2 전자 장치로 하여금 상기 각각의 명령에 의해 지시된 바와 같이 제2 전자 장치에 의해 생성된 감각 출력에 대한 변경들을 트리거하게 하는 것을 특징으로 하는 비전송 저장 매체를 포함하는 컴퓨터 프로그램 제품.
방법으로서,
제1 전자 장치의 카메라로부터 비디오 스트림을 수신하는 단계 -상기 카메라는 상기 제1 전자 장치의 사용자의 방향으로 조준되고, 상기 제1 전자 장치는 제2 전자 장치로부터 이격되어 인접하게 위치되고, 상기 제2 전자 장치는 감각(sensory) 출력을 생성하도록 구성됨-;
상기 비디오 스트림의 프레임들의 세트를 통해, 사용자에 의해 만들어진 제스처를 검출하는 단계; 그리고
상기 제스처를 검출하는 것에 응답하여, 상기 제1 전자 장치 내의 원격 제어기를 활성화시켜 상기 원격 제어기를 비활성화 상태로부터 활성화 상태로 전환시키는 단계를 포함하며, 상기 원격 제어기는 상기 원격 제어기가 활성화 상태에 있는 동안 상기 제2 전자 장치에 의해 생성된 상기 감각 출력에 대한 변경들을 트리거하도록 구성되는 것을 특징으로 하는 방법.
제13항에 있어서,
상기 원격 제어기가 활성화 상태에 있는 동안 사용자에 의해 만들어진 제2 제스처를 상기 비디오 스트림의 다른 프레임들의 세트를 통해 검출하는 단계; 그리고
상기 제2 제스처를 검출하는 것에 응답하여, 상기 원격 제어기를 상기 비활성화 상태로 전환하도록 상기 원격 제어기를 비활성화시키는 단계를 더 포함하는 것을 특징으로 하는 방법.
제13항에 있어서,
상기 제1 전자 장치는 마이크로폰에 입사하는 음파를 상기 제1 전자 장치의 메모리에 저장된 사운드 데이터로 변환하도록 구성된 상기 마이크로폰을 더 포함하며,
상기 원격 제어기가 활성화 상태에 있는 것에 응답하여, 상기 방법은,
상기 제2 전자 장치의 감각 출력에 대해 변경하기 위해 미리 정의된 명령으로서 상기 사운드 데이터를 식별하는 단계;
상기 사운드 데이터를 상기 제2 전자 장치에 의해 수신될 때 상기 제2 전자 장치로 하여금 상기 제2 전자 장치에 의해 생성된 상기 감각 출력에 대한 변경들을 트리거하게 하는 원격 제어기 데이터로 변환하는 단계; 그리고
상기 원격 제어기 데이터를 상기 제2 전자 장치로 전송하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제15항에 있어서,
상기 제2 전자 장치에 의해 생성된 감각 출력은 발성된 사운드를 포함하며;
상기 제2 전자 장치의 감각 출력에 대해 변경하기 위해 미리 정의된 명령으로서 상기 사운드 데이터를 식별하는 단계는 필터링 동작을 수행하는 단계를 포함하며, 상기 필터링 동작은 상기 마이크로폰에 입사하는 음파로부터 상기 발성된 사운드를 필터링하도록 구성되는 것을 특징으로 하는 방법.
제16항에 있어서, 상기 필터링 동작을 수행하는 단계는,
상기 원격 제어기가 상기 활성화 상태로 전환하는 것에 응답하여, 볼륨 다운 명령을 상기 제2 전자 장치에 전송하는 것을 포함하며, 상기 볼륨 다운 명령은 제2 전자 장치에 의해 수신될 때, 제2 전자 장치로 하여금 더 작은 진폭으로 상기 발성된 사운드를 생성하게 하며,
상기 방법은,
상기 원격 제어기가 비활성 상태로 전환하는 것에 응답하여, 볼륨 업 명령을 제2 전자 장치에 전송하는 단계를 더 포함하며, 상기 볼륨 업 명령은 제2 전자 장치에 의해 수신될 때 제2 전자 장치로 하여금 더 큰 진폭으로 상기 발성된 사운드를 생성하게 하는 것을 특징으로 하는 방법.
제16항에 있어서, 상기 방법은,
상기 제2 전자 장치에 의해 생성된 상기 발성된 사운드의 주파수 세트를 획득하는 단계를 더 포함하며,
상기 필터링 동작을 수행하는 단계는,
상기 마이크로폰에 입력된 상기 사운드 데이터의 주파수 세트를 획득하는 단계;
필터링된 주파수 세트를 형성하기 위해 상기 사운드 데이터의 주파수 세트로부터 상기 제2 전자 장치에 의해 생성된 상기 발성된 사운드의 주파수 세트의 주파수를 억제하는 단계; 그리고
필터링된 주파수 세트로부터 원격 제어기 데이터가 생성되는 필터링된 사운드 데이터를 형성하는 단계를 포함하는 것을 특징으로 하는 방법.
제13항에 있어서,
상기 제1 전자 장치는 상기 제1 전자 장치의 움직임을 검출 및 기록하도록 구성된 움직임 검출기를 더 포함하며,
상기 원격 제어기가 활성화 상태에 있는 것에 응답하여, 상기 방법은,
미리 정의된 제스처로서 상기 제1 전자 장치의 움직임을 식별하는 단계;
상기 제2 전자 장치의 감각 출력을 변경하도록 상기 미리 정의된 제스처를 각각의 명령에 매핑하는 단계; 그리고
원격 제어기 데이터로서 상기 각각의 명령을 제2 전자 장치에 전송하는 단계를 더 포함하며,
상기 원격 제어기 데이터는 제2 전자 장치에 의해 수신될 때 제2 전자 장치로 하여금 상기 각각의 명령에 의해 지시된 바와 같이 제2 전자 장치에 의해 생성된 감각 출력에 대한 변경들을 트리거하게 하는 것을 특징으로 하는 방법.
시스템으로서,
제1 전자 장치 및 제2 전자 장치를 포함하며, 상기 제1 전자 장치는 제2 전자 장치로부터 이격되어 인접하게 위치되고, 상기 제2 전자 장치는 감각(sensory) 출력을 생성하도록 구성되고, 상기 제1 전자 장치는 네트워크 인터페이스, 카메라, 메모리, 및 상기 메모리에 결합된 프로세싱 회로를 포함하며,
상기 프로세싱 회로는,
상기 카메라로부터 비디오 스트림을 수신하고 -상기 카메라는 상기 제1 전자 장치의 사용자의 방향으로 조준됨-;
상기 비디오 스트림의 프레임들의 세트를 통해, 사용자에 의해 만들어진 제스처를 검출하고; 그리고
상기 제스처를 검출하는 것에 응답하여, 상기 제1 전자 장치 내의 원격 제어기를 활성화시켜 상기 원격 제어기를 비활성화 상태로부터 활성화 상태로 전환시키도록 구성되며,
상기 원격 제어기는 상기 원격 제어기가 활성화 상태에 있는 동안 상기 제2 전자 장치에 의해 생성된 상기 감각 출력에 대한 변경들을 트리거하도록 구성되는 것을 특징으로 하는 시스템.