KR102242917B1

KR102242917B1 - 음성 인터페이스 디바이스에서의 포커스 세션

Info

Publication number: KR102242917B1
Application number: KR1020197015360A
Authority: KR
Inventors: 케네스 믹스터; 토머 쉬켈; 투안 안 응우옌
Original assignee: 구글 엘엘씨
Priority date: 2016-11-03
Filing date: 2017-11-03
Publication date: 2021-04-20
Also published as: US10783883B2; US11990128B2; CN108022590B; EP3535753B1; JP2022174099A; US11527246B2; EP3940694A1; CN117351953A; GB2558066A; DE102017125745A1; WO2018085671A1; US20180122378A1; EP3535753A1; US20210005202A1; JP7130637B2; DE202017106668U1; JP2020500330A; US20230046924A1; GB201718184D0; GB2558066B

Abstract

접속된 전자 디바이스들의 로컬 그룹의 제1 전자 디바이스에서의 방법은 제1 동작에 대한 요청을 포함하는 제1 음성 커맨드를 수신하는 단계; 로컬 그룹 중 제1 동작에 대한 제1 타겟 디바이스를 결정하는 단계; 제1 타겟 디바이스에 대한 포커스 세션을 수립하는 단계; 제1 동작이 제1 타겟 디바이스에 의해 수행되게 하는 단계; 제2 동작에 대한 요청을 포함하는 제2 음성 커맨드를 수신하는 단계; 제2 음성 커맨드가 제2 타겟 디바이스의 명시적 지정을 포함하지 않는다고 결정하는 단계; 제2 동작이 제1 타겟 디바이스에 의해 수행될 수 있다고 결정하는 단계; 제2 음성 커맨드가 하나 이상의 포커스 세션 유지 기준들을 충족하는지 여부를 결정하는 단계; 및 제2 음성 커맨드가 포커스 세션 유지 기준들을 충족하면, 제2 동작이 제1 타겟 디바이스에 의해 수행되게 하는 단계를 포함한다.

Description

음성 인터페이스 디바이스에서의 포커스 세션

[0001] 개시된 구현들은 일반적으로, 타겟 디바이스가 음성 커맨드 자체로부터 미지이거나 모호할 때, 음성 커맨드를 타겟 디바이스에 지향시키기 위한 방법들 및 시스템들을 포함하는(그러나 이에 제한되는 것은 아님) 음성 인터페이스들 및 관련된 디바이스들에 관한 것이다.

[0002] 음성 인터페이스들을 갖는 전자 디바이스들은 사용자들로부터 음성 입력들을 수집하고 음성 입력들에 따라 상이한 음성-활성화 기능들을 수행하기 위해 널리 사용되어 왔다. 이러한 음성-활성화 기능들은 동작을 수행하도록 타겟 디바이스에 지시 또는 명령하는 것을 포함할 수 있다. 예를 들어, 사용자는 턴 온 또는 오프하도록 타겟 디바이스에 지시하거나 또는 타겟 디바이스에서 미디어 재생을 제어하기 위해 음성 인터페이스 디바이스에 음성 입력을 말할 수 있다.

[0003] 통상적으로, 사용자가 동작을 수행하도록 타겟 디바이스에 지시하는 음성 입력을 행하기를 원하면, 사용자는 음성 입력에서 타겟 디바이스를 특정할 것이다. 그러나, 모든 이러한 음성 입력들에 대해 타겟 디바이스를 명시적으로 특정해야 하는 것은 사용자에게 지겹고 귀찮은 것이다. 음성 입력이 타겟을 특정하지 않거나 모호한 타겟을 특정하는 경우에도 음성 인터페이스 디바이스가 음성 입력에 대한 타겟 디바이스를 갖는 것이 바람직하다.

[0004] 따라서, 음성 입력에서 타겟 디바이스의 특정이 없거나 모호할 때 음성 입력에 대한 타겟 디바이스를 결정 또는 할당하기 위한 방법들 및 시스템들을 통합하는 음성 어시스턴트 시스템 및/또는 음성 어시스턴트 서버 시스템을 갖는 전자 디바이스가 필요하다. 본 출원에서 설명되는 다양한 구현들에서, 동작 환경은, 음성 어시스턴트 서비스에 대한 인터페이스를 제공하는 음성-활성화 전자 디바이스 및 음성 어시스턴트 서비스를 통해 음성 입력에 의해 제어될 수 있는 다수의 디바이스들(예를 들어, 캐스트 디바이스, 스마트 홈 디바이스)을 포함한다. 음성-활성화 전자 디바이스는 음성 입력을 기록하도록 구성되고, 그로부터 음성 어시스턴스 서비스(예를 들어, 음성 어시스턴스 서버 시스템)는 사용자 음성 요청(예를 들어, 미디어 재생 요청, 전력 상태 변경 요청)을 결정한다. 그 다음, 음성 어시스턴스 서버 시스템은 사용자 음성 요청을, 그 음성 입력에 의해 표시된 바와 같은 타겟 디바이스에 지향시킨다. 음성-활성화 전자 디바이스는 타겟 디바이스의 표시가 없거나 모호한 후속 음성 입력을 기록하도록 구성된다. 전자 디바이스 또는 음성 어시스턴스 서버 시스템은 이러한 음성 입력에 대한 타겟 디바이스를 할당하고, 이러한 음성 입력에 포함된 사용자 음성 요청을 결정하고, 사용자 음성 요청을 할당된 타겟 디바이스에 지향시킨다.

[0005] 일부 구현들에 따르면, 방법은 하나 이상의 마이크로폰들, 스피커, 하나 이상의 프로세서들 및 하나 이상의 프로세서들에 의한 실행을 위해 하나 이상의 프로그램들을 저장하는 메모리를 갖는 제1 전자 디바이스에서 수행된다. 제1 전자 디바이스는 공통 네트워크 서비스에 통신가능하게 커플링되는 접속된 전자 디바이스들의 로컬 그룹의 멤버이다. 방법은 제1 동작에 대한 요청을 포함하는 제1 음성 커맨드를 수신하는 단계; 접속된 전자 디바이스들의 로컬 그룹 중 제1 동작에 대한 제1 타겟 디바이스를 결정하는 단계; 제1 타겟 디바이스에 대한 포커스 세션을 수립하는 단계; 공통 네트워크 서비스의 동작을 통해 제1 동작이 제1 타겟 디바이스에 의해 수행되게 하는 단계; 제2 동작에 대한 요청을 포함하는 제2 음성 커맨드를 수신하는 단계; 제2 음성 커맨드가 제2 타겟 디바이스의 명시적 지정을 포함하지 않는다고 결정하는 단계; 제2 동작이 제1 타겟 디바이스에 의해 수행될 수 있다고 결정하는 단계; 제2 음성 커맨드가 하나 이상의 포커스 세션 유지 기준들을 충족하는지 여부를 결정하는 단계; 및 제2 음성 커맨드가 포커스 세션 유지 기준들을 충족한다는 결정에 따라, 공통 네트워크 서비스의 동작을 통해 제2 동작이 제1 타겟 디바이스에 의해 수행되게 하는 단계를 포함한다.

[0006] 일부 구현들에 따르면, 전자 디바이스는 하나 이상의 마이크로폰들, 스피커, 하나 이상의 프로세서들 및 하나 이상의 프로세서들에 의해 실행될 하나 이상의 프로그램들을 저장하는 메모리를 포함한다. 하나 이상의 프로그램들은 앞서 설명된 방법을 수행하기 위한 명령들을 포함한다.

[0007] 일부 구현들에 따르면, 비일시적 컴퓨터 판독가능 저장 매체는 하나 이상의 프로그램들을 저장한다. 하나 이상의 프로그램들은, 하나 이상의 마이크로폰들, 스피커 및 하나 이상의 프로세서들을 갖는 전자 디바이스에 의해 실행되는 경우, 전자 디바이스로 하여금 앞서 설명된 방법의 동작들을 수행하게 하는 명령들을 포함한다.

[0008] 다양한 설명된 구현들의 더 양호한 이해를 위해, 유사한 참조 부호들이 도면들 전반에 걸쳐 대응하는 부분들을 지칭하는 하기 도면들과 함께 아래의 구현들의 설명이 참조되어야 한다.
[0009] 도 1은 일부 구현들에 따른 예시적인 동작 환경을 예시한다.
[0010] 도 2는 일부 구현들에 따른 예시적인 음성-활성화 전자 디바이스를 예시한다.
[0011] 도 3a 및 도 3b는 일부 구현들에 따른 예시적인 음성 어시스턴스 서버 시스템을 예시한다.
[0012] 도 4a 내지 도 4d는 일부 구현들에 따른 포커스 세션의 예를 예시한다.
[0013] 도 5는 일부 구현들에 따라, 포커스 세션을 수립하고 포커스 세션에 따라 음성 입력들에 응답하는 예시적인 프로세스의 흐름도를 예시한다.
[0014] 도 6a 및 도 6b는 일부 구현들에 따른 음성-활성화 전자 디바이스의 정면도 및 후면도이다.
[0015] 도 6c는 일부 구현들에 따른 개방 구성에서 전자 디바이스(190)의 베이스에 포함된 스피커들을 도시하는 음성-활성화 전자 디바이스(190)의 사시도이다.
[0016] 도 6d는 일부 구현들에 따라 내부에 포함된 전자 컴포넌트들을 도시하는 음성-활성화 전자 디바이스의 측면도이다.
[0017] 도 6e(1) 내지 도 6e(4)는 일부 구현들에 따른 음성-활성화 전자 디바이스의 터치 감지 어레이 상에서 검출된 4개의 터치 이벤트들을 도시한다.
[0018] 도 6e(5)는 일부 구현들에 따른 음성-활성화 전자 디바이스의 후면 상의 버튼에 대한 사용자 누름을 도시한다.
[0019] 도 6f는 일부 구현들에 따른 음성-활성화 전자 디바이스의 상면도를 예시한다.
[0020] 도 6g는 일부 구현들에 따른 음성 프로세싱 상태들을 표시하기 위한 풀 컬러 LED들의 어레이에 의해 디스플레이되는 예시적인 시각적 패턴들을 도시한다.
[0021] 동일한 참조 부호들은 도면들의 몇몇 뷰들 전반에 걸쳐 대응하는 부분들을 지칭한다.

[0022] 공개적으로 정보를 공유하는 것에서부터 글로벌 커뮤니티 관점에 이르기까지 디지털 혁명이 많은 이익들을 제공해 온 반면, 등장하는 새로운 기술은 종종 소비자들 사이에 혼동, 회의주의 및 공포심을 유발하여, 소비자들이 기술을 활용하지 못하게 한다. 전자 디바이스들은 음성 인터페이스들로서 편리하게 사용되어 사용자들로부터 음성 입력들을 수신하고 음성-활성화 기능들을 개시함으로써, 기존의 및 등장하는 기술 둘 모두에 접근하는 아이(eye)-프리 및 핸즈-프리 솔루션들을 제공한다. 구체적으로, 전자 디바이스에서 수신된 음성 입력들은, 사용자의 시선이 방해되고 그의 손이 자유롭지 않은 경우에도 명령들 및 정보를 전달할 수 있다. 핸즈-프리 및 아이-프리 경험을 가능하게 하기 위해, 음성-활성화 전자 디바이스는 연속적으로(즉, 주변으로부터 수집된 오디오 신호들을 연속적으로 프로세싱함) 또는 오직 트리거링된 경우에만 주변을 청취한다. 한편, 사용자 아이덴티티들은 사용자의 음성 및 사용자에 의해 사용되는 언어와 링크된다. 사용자 아이덴티티들을 보호하기 위해, 이러한 음성-활성화 전자 디바이스들은 통상적으로, 보호되고, 제어되고 친숙한 공간들(예를 들어, 집 및 차)인 비공개 장소들에서 사용된다.

[0023] 일부 구현들에 따르면, 음성-활성화 전자 디바이스는, 음성 커맨드에서 타겟 디바이스의 표시가 없거나 모호할 때, 음성 커맨드에서 행해진 요청에 대한 타겟 디바이스를 결정 또는 할당한다. 음성-활성화 전자 디바이스는 음성 커맨드에서 명시적으로 특정 또는 표시된 타겟 디바이스에 대한 포커스 세션들을 수립한다. 타겟 디바이스의 특정 또는 표시가 없거나 모호한 후속 음성 커맨드를 음성-활성화 전자 디바이스가 수신할 때, 음성 커맨드가 하나 이상의 기준들을 충족하면, 전자 디바이스는 포커스 세션의 타겟 디바이스를 음성 커맨드에 할당한다.

[0024] 일부 구현들에서, 사용자가 다른 디바이스를 제어하기 위해 음성 인터페이스 디바이스에 말할 때, 음성 인터페이스 디바이스는 어느 디바이스가 사용자에 의해 타겟팅되었는지를 (예를 들어, 포커스 세션에) 저장한다. 그 후 소정 기간 동안, 제어에 대한 디폴트 타겟 디바이스는 저장된 디바이스이다. 예를 들어, 사용자가 먼저 "주방 조명을 켜"라는 음성 커맨드를 말하고, 그 다음, "불을 켜"라고 말하면, 제2 음성 커맨드에 대한 타겟 디바이스는, 제2 커맨드가 제1 커맨드 직후에 수신된 경우, "주방 조명"으로 디폴트된다. 다른 예로서, 제1 커맨드가 "거실 스피커에서 음악을 재생해"이고, 후속 커맨드가 "음악을 멈춰"이면, 제2 음성 커맨드에 대한 타겟 디바이스는, 제2 커맨드가 제1 커맨드 직후에 수신된 경우, "거실 스피커"로 디폴트된다.

[0025] 추가적으로, 일부 구현들에서, 음성 입력들 사이에 더 긴 시간 갭이 존재하면, 마지막으로 사용된 타겟 디바이스가 의도된 타겟 디바이스인 것을 확인 또는 검증하도록 사용자에게 문의될 수 있다. 예를 들어, 제1 음성 커맨드가 "거실 스피커에서 음악을 재생해"이고, 제1 음성 커맨드로부터 더 긴 시간 갭 이후 수신된 후속 커맨드가 "음악을 멈춰"이면, 음성 인터페이스 디바이스는 타겟 디바이스가 "거실 스피커"인 것을 확인하기 위해, "거실 스피커에서 음악을 멈추기를 원하세요?"라고 사용자에게 문의할 수 있다.

[0026] 이러한 방식으로, 사용자는 각각의 및 모든 음성 입력에서 자신의 요청의 전체 콘텍스트를 특정해야 하는 부담에서 벗어날 수 있다(예를 들어, 수행될 동작을 요청하는 각각의 및 모든 음성 입력에 타겟 디바이스의 특정을 포함시켜야 하는 것으로부터 벗어날 수 있다).

음성 어시스턴트 동작 환경

[0027] 도 1은 일부 구현들에 따른 예시적인 동작 환경이다. 동작 환경(100)은 하나 이상의 음성-활성화 전자 디바이스들(104)(예를 들어, 음성 활성화 전자 디바이스들(104-1 내지 104-N, 이하 "음성-활성화 디바이스(들)")을 포함한다. 하나 이상의 음성-활성화 디바이스들(104)은 하나 이상의 위치들에(예를 들어, 모두 방에 또는 일 구조물의 공간에, 구조물 내의 다수의 공간들 전반에 걸쳐 또는 다수의 구조물들 전반에 걸쳐 확산되어(예를 들어, 집에 하나 및 사용자의 차에 하나)) 위치될 수 있다.

[0028] 환경(100)은 또한 하나 이상의 제어가능한 전자 디바이스들(106)(예를 들어, 전자 디바이스(106-1 내지 106-N), 이하, "제어가능한 디바이스(들)")을 포함한다. 제어가능한 디바이스들(106)의 예들은 미디어 디바이스들(스마트 텔레비전들, 스피커 시스템들, 무선 스피커들, 셋탑 박스들, 미디어 스트리밍 디바이스들, 캐스트 디바이스들) 및 스마트 홈 디바이스들(예를 들어, 스마트 카메라, 스마트 써모스탯, 스마트 조명, 스마트 위험 검출기, 스마트 도어 락)을 포함한다.

[0029] 음성-활성화 디바이스들(104) 및 제어가능한 디바이스들(106)은 통신 네트워크들(110)을 통해 음성 어시스턴트 서비스(140)에(예를 들어, 음성 어시스턴트 서비스(140)의 음성 어시스턴스 서버 시스템(112)에) 통신가능하게 커플링된다. 일부 구현들에서, 음성-활성화 디바이스들(104) 및 제어가능한 디바이스들(106) 중 하나 이상은 로컬 네트워크(108)에 통신가능하게 커플링되고, 이는 통신 네트워크들(110)에 통신가능하게 커플링되며; 음성-활성화 디바이스(들)(104) 및/또는 제어가능한 디바이스(들)(106)은 로컬 네트워크(108)를 통해 통신 네트워크(들)(110)에 (그리고 통신 네트워크들(110)을 통해 음성 어시스턴스 서버 시스템(112)에) 통신가능하게 커플링된다. 일부 구현들에서, 로컬 네트워크(108)는 네트워크 인터페이스(예를 들어, 라우터)에서 구현되는 로컬 영역 네트워크이다. 로컬 네트워크(108)에 통신가능하게 커플링되는 음성-활성화 디바이스들(104) 및 제어가능한 디바이스들(106)은 또한 로컬 네트워크(108)를 통해 서로 통신할 수 있다.

[0030] 선택적으로, 음성-활성화된 디바이스들(104) 중 하나 이상은 통신 네트워크들(110)에 통신가능하게 커플링되고 로컬 네트워크(108) 상에 없다. 예를 들어, 이러한 음성-활성화 디바이스들은 로컬 네트워크(108)에 대응하는 Wi-Fi 네트워크 상에 없지만 셀룰러 접속을 통해 통신 네트워크들(110)에 접속된다. 일부 구현들에서, 로컬 네트워크(108) 상에 있는 음성-활성화 디바이스들(104)과 로컬 네트워크(108) 상에 없는 음성-활성화 디바이스들(104) 사이의 통신은 음성 어시스턴스 서버 시스템(112)을 통해 행해진다. 음성-활성화 디바이스들(104)은 (로컬 네트워크(108) 상에 있든 또는 네트워크(110) 상에 있든) 음성 어시스턴트 서비스(140)의 디바이스 레지스트리(118)에 등록되고 따라서 음성 어시스턴스 서버 시스템(112)에 공지된다. 유사하게, 로컬 네트워크(108) 상에 없는 음성-활성화 디바이스들(104)은 음성 어시스턴트 서버 시스템(112)을 통해 제어가능한 디바이스들(106)과 통신할 수 있다. 제어가능한 디바이스들(106)은 (로컬 네트워크(108) 상에 있든 또는 네트워크(110) 상에 있든) 또한 디바이스 레지스트리(118)에 등록된다. 일부 구현들에서, 음성-활성화 디바이스들(104)과 제어가능한 디바이스들(106) 사이의 통신들은 음성 어시스턴스 서버 시스템(112)을 통과한다.

[0031] 일부 구현들에서, 환경(100)은 또한 하나 이상의 콘텐츠 호스트들(114)을 포함한다. 콘텐츠 호스트(114)는 원격 콘텐츠 소스일 수 있고, 그로부터 콘텐츠가 스트리밍되거나 달리 사용자 음성 입력 또는 커맨드에 포함된 요청에 따라 획득된다. 콘텐츠 호스트(114)는 정보 소스일 수 있고, 그로부터 음성 어시스턴스 서버 시스템(112)이 사용자 음성 요청에 따라 정보를 리트리브한다.

[0032] 일부 구현들에서, 제어가능한 디바이스들(106)은 특정 동작들을 수행하거나 또는 (예를 들어, 음성-활성화 디바이스(104) 및/또는 음성 어시스턴스 서버 시스템(112)으로부터) 특정 상태들로 전환하도록 하고 수신된 커맨드들 또는 요청들에 따라 동작들을 수행하거나 또는 상태들 전환하도록 하는 커맨드들 또는 요청들을 수신할 수 있다.

[0033] 일부 구현들에서, 제어가능한 디바이스들(106) 중 하나 이상은 하나 이상의 사용자들에게 미디어 콘텐츠, 뉴스 및/또는 다른 정보를 제공하기 위해 동작 환경(100)에 배치된 미디어 디바이스들이다. 일부 구현들에서, 미디어 디바이스들에 의해 제공된 콘텐츠는 로컬 콘텐츠 소스에 저장되거나, 원격 콘텐츠 소스(예를 들어, 콘텐츠 호스트(들)(114))로부터 스트리밍되거나 또는 로컬로(예를 들어, 로컬 텍스트를 통해, 동작 환경(100)의 하나 이상의 점유자들에게 커스터마이징된 뉴스 브리핑, 이메일들, 텍스트들, 로컬 날씨 보고 등을 판독하는 음성 프로세서에) 생성된다. 일부 구현들에서, 미디어 디바이스들은 청중(예를 들어, 하나 이상의 사용자들)에게 미디어 콘텐츠를 직접 출력하는 미디어 출력 디바이스들 및 미디어 출력 디바이스들에 미디어 콘텐츠를 스트리밍하기 위해 네트워킹된 캐스트 디바이스들을 포함한다. 미디어 출력 디바이스들의 예들은 텔레비전(TV) 디스플레이 디바이스들 및 뮤직 플레이어들을 포함한다(그러나, 이에 제한되는 것은 아님). 캐스트 디바이스들의 예들은 STB(set-top box)들, DVD 플레이어들, TV 박스들 및 미디어 스트리밍 디바이스들, 예를 들어, 구글의 Chromecast™ 미디어 스트리밍 디바이스를 포함한다(그러나, 이에 제한되는 것은 아님).

[0034] 일부 구현들에서, 제어가능한 디바이스(106)는 또한 음성-활성화 디바이스(104)이다. 일부 구현들에서, 음성-활성화 디바이스(104)는 또한 제어가능한 디바이스(106)이다. 예를 들어, 제어가능한 디바이스(106)는 음성 어시스턴스 서비스(140)에 대한 음성 인터페이스(예를 들어, 또한 사용자 음성 입력들을 수신하고, 프로세싱하고 그에 응답할 수 있는 미디어 디바이스)를 포함할 수 있다. 다른 예로서, 음성-활성화 디바이스(104)는 또한 음성 입력들의 요청들 또는 커맨드들에 따라 특정 동작들을 수행하고 특정 상태들로 전환할 수 있다(예를 들어, 또한 스트리밍 음악을 재생할 수 있는 음성 인터페이스 디바이스).

[0035] 일부 구현들에서, 음성-활성화 디바이스들(104) 및 제어가능한 디바이스들(106)은 사용자 도메인에서 각각의 계정을 갖는 사용자와 또는 각각의 사용자 계정들을 갖는 다수의 사용자들(예를 들어, 가족 또는 조직의 사용자들과 같은 관련된 사용자들의 그룹; 더 일반적으로는 주 사용자 및 하나 이상의 인가된 추가적인 사용자들)과 연관된다. 사용자는 음성-활성화 디바이스(104)에 대한 음성 입력들 또는 음성 커맨드들을 행할 수 있다. 음성-활성화 디바이스(104)는 사용자(예를 들어, 사용자(102))로부터 이러한 음성 입력들을 수신하고, 음성-활성화 디바이스(104) 및/또는 음성 어시스턴스 서버 시스템(112)은 음성 입력에서 요청을 결정하고 요청에 대한 응답을 생성하도록 진행한다.

[0036] 일부 구현들에서, 음성 입력에 포함된 요청은 동작을 수행(예를 들어, 미디어를 재생, 미디어를 일시정지, 미디어를 빨리감기 또는 되감기, 볼륨 변경, 스크린 밝기를 변경, 조명 밝기를 변경)하거나 또는 다른 상태로 전환(예를 들어, 동작 모드를 변경, 턴 온 또는 오프, 수면 모드로 이동 또는 수면 모드로부터 웨이크)하도록 하는 제어가능한 디바이스(106)에 대한 커맨드 또는 요청이다.

[0037] 일부 구현들에서, 음성-활성화 전자 디바이스(104)는, 음성 커맨드에 대해 발화된 응답을 생성 및 제공하는 것(예를 들어, "지금 몇시지"라는 질문에 대한 응답으로 현재 시간을 말함); 사용자에 의해 요청된(예를 들어, " 비치 보이스 노래를 재생해") 미디어 콘텐츠를 스트리밍하는 것; 사용자를 위해 준비된 뉴스 스토리 또는 매일 뉴스 브리핑을 판독하는 것; 개인용 어시스턴트 디바이스 또는 로컬 네트워크 상에 저장된 미디어 항목을 재생하는 것; 상태를 변경하는 것 또는 동작 환경(100) 내에서 하나 이상의 다른 접속된 디바이스들을 동작시키는 것(예를 들어, 조명들, 가전기기들 또는 미디어 디바이스들을 턴 온/오프하는 것, 락(lock)을 잠금/잠금해제하는 것, 창문을 여는 것 등); 또는 네트워크(110)를 통해 대응하는 요청을 서버에 발송하는 것에 의해 음성 입력들에 대해 응답한다.

[0038] 일부 구현들에서, 하나 이상의 음성-활성화 디바이스들(104)은 다양한 기능들(예를 들어, 미디어 디바이스들의 미디어 재생 기능들)을 개시하기 위한 오디오 입력들을 수집하기 위해 동작 환경(100)에 배치된다. 일부 구현들에서, 이러한 음성-활성화 디바이스들(104)(예를 들어, 디바이스들(104-1 내지 104-N))은 예를 들어, 캐스트 디바이스들 및 미디어 출력 디바이스들을 갖는 동일한 방에서, 제어가능한 디바이스(104)(예를 들어, 미디어 디바이스)에 근접하게 배치된다. 대안적으로, 일부 구현들에서, 음성-활성화 디바이스(104)는 하나 이상의 스마트 홈 디바이스들을 갖지만 어떠한 미디어 디바이스도 갖지 않는 구조에 배치된다. 대안적으로, 일부 구현들에서, 음성-활성화 디바이스(104)는 하나 이상의 스마트 홈 디바이스들 및 하나 이상의 미디어 디바이스들을 갖는 구조에 배치된다. 대안적으로, 일부 구현들에서, 음성-활성화 디바이스(104)는 어떠한 네트워킹된 전자 디바이스도 갖지 않는 위치에 배치된다. 추가로, 일부 구현들에서, 구조 내의 방 또는 공간은 다수의 음성-활성화 디바이스들(104)을 가질 수 있다.

[0039] 일부 구현들에서, 음성-활성화 디바이스(104)는 적어도 하나 이상의 마이크로폰들, 스피커, 프로세서 및 프로세서에 의한 실행을 위해 적어도 하나의 프로그램을 저장하는 메모리를 포함한다. 스피커는, 음성-활성화 디바이스(104)가 음성 메시지들 및 다른 오디오(예를 들어, 가청 톤들)를, 음성-활성화 디바이스(104)가 동작 환경(100)에 위치된 위치로 전달하게 하여, 음악을 브로드캐스트하고, 오디오 입력 프로세싱의 상태를 보고하고, 음성-활성화 디바이스(104)의 사용자와 대화하거나 그에게 명령들을 제공하도록 구성된다. 음성 메시지들에 대한 대안으로, 시각적 신호들은 또한 오디오 입력 프로세싱의 상태에 관한 피드백을 음성-활성화 디바이스(104)의 사용자에게 제공하기 위해 사용될 수 잇다. 음성-활성화 디바이스(104)가 모바일 디바이스(예를 들어, 모바일 폰 또는 태블릿 컴퓨터)일 때, 그 디스플레이 스크린은 오디오 입력 프로세싱의 상태에 관한 통지를 디스플레이하도록 구성된다.

[0040] 일부 구현들에서, 음성-활성화 디바이스(104)는 음성 어시스턴스 서버 시스템(112)의 보조로 음성 인식 기능들을 제공하도록 네트워크-접속된 음성 인터페이스 디바이스이다. 예를 들어, 음성-활성화 디바이스(104)는 사용자에게 음악을 제공하고 음성 어시스턴트 서비스(예를 들어, 구글 어시스턴트)에 대한 아이-프리 및 핸즈-프리 액세스를 허용하는 스마트 스피커를 포함한다. 선택적으로, 음성-활성화 디바이스(104)는, 데스크탑 또는 랩탑 컴퓨터, 태블릿, 마이크로폰을 포함하는 모바일 폰, 마이크로폰 및 선택적으로 스피커를 포함하는 캐스트 디바이스, 마이크로폰 및 스피커를 포함하는 오디오 시스템(예를 들어, 스테레오 시스템, 스피커 시스템, 휴대용 스피커), 마이크로폰 및 스피커를 포함하는 텔레비전, 및 마이크로폰 및 스피커 및 선택적으로 디스플레이를 포함하는 자동차의 사용자 인터페이스 시스템 중 하나이다. 선택적으로, 음성-활성화 디바이스(104)는 간단하고 낮은 비용의 음성 인터페이스 디바이스이다. 일반적으로, 음성-활성화 디바이스(104)는, 네트워크 접속이 가능하고, 마이크로폰, 스피커, 및 음성 어시스턴트 서비스와 상호작용하기 위한 프로그램들, 모듈들 및 데이터를 포함하는 임의의 디바이스일 수 있다. 음성-활성화 디바이스(104)의 단순성 및 낮은 비용이 주어지면, 음성-활성화 디바이스(104)는 풀 디스플레이 스크린보다는 발광 다이오드들(LED들)의 어레이를 포함하고, 오디오 입력 프로세싱의 상태를 표시하기 위해 LED들 상에 시각적 패턴을 디스플레이한다. 일부 구현들에서, LED들은 풀 컬러 LED들이고, LED들의 컬러들은 LED들 상에 디스플레이될 시각적 패턴의 일부로서 이용될 수 있다. 예를 들어, 정보 또는 디바이스 상태(예를 들어, 포커스 세션이 개시된 것, 활성인 것, 연장된 것 및/또는 복수의 사용자들 중 어느 개별적 사용자들이 특정 포커스 세션과 연관되는지 여부를 표시하는 것과 관련된 상태)를 전달하기 위해 시각적 패턴들을 디스플레이하는 LED들을 사용하는 다수의 예들은 도 6을 참조하여 아래에서 설명된다. 일부 구현들에서, 음성 프로세싱 동작들의 상태를 표시하는 시각적 패턴들은, 음성 프로세싱 동작들을 수행하고 있는 음성-활성화 디바이스들과 연관된 종래의 디스플레이들 상에 도시된 특성 이미지들을 사용하여 디스플레이된다.

[0041] 일부 구현들에서, LED들 또는 다른 시각적 디스플레이들은 다수의 참여 전자 디바이스들의 총괄적 음성 프로세싱 상태를 전달하기 위해 사용된다. 예를 들어, 다수의 음성 프로세싱 또는 음성 인터페이스 디바이스들(예를 들어, 도 6a에 도시된 바와 같은 다수의 전자 디바이스들(104); 도 1의 다수의 음성-활성화 디바이스들(104))이 존재하는 동작 환경에서, 각각의 전자 디바이스들과 연관된 컬러 LED들의 그룹들(예를 들어, 도 6에 도시된 바와 같은 LED들(604))은 전자 디바이스들 중 어느 것이 사용자를 청취하고 있는지 및 청취 디바이스들 중 어느 것이 리더인지를 전달하기 위해 사용될 수 있다(여기서 "리더" 디바이스는 일반적으로 사용자에 의해 발행된 발화된 요청에 대해 응답할 때 리드를 취한다).

[0042] 더 일반적으로, 도 6을 참조한 아래의 논의는, 핫 워드 검출 상태, 청취 상태, 생각 모드, 작동 모드, 응답 모드 및/또는 스피킹 모드와 같은 전자 디바이스의 다양한 음성 프로세싱 상태들을, LED들의 집합을 사용하여 시각적으로 표시하기 위한 "LED 설계 언어"를 설명한다. 일부 구현들에서, 본원에 설명된 음성 프로세싱 동작들의 고유의 상태들은 "LED 설계 언어"의 하나 이상의 양상들에 따라 LED들의 그룹을 사용하여 표현된다. 이러한 시각적 표시자들은 또한 음성 프로세싱 동작들을 수행하고 있는 전자 디바이스들에 의해 생성된 하나 이상의 가청 표시자들과 조합될 수 있다. 결과적 오디오 및/또는 시각적 표시자들은 음성-대화형 환경 내의 사용자들이 환경 내의 다양한 음성 프로세싱 전자 디바이스들의 상태를 이해하고, 그러한 디바이스들과 자연스러운 직관적 방식으로 효과적으로 상호작용할 수 있게 할 것이다.

[0043] 일부 구현들에서, 캐스트 디바이스들을 통해 미디어 출력 디바이스들을 제어하기 위해 음성-활성화 디바이스(104)에 대한 음성 입력들이 사용될 때, 음성-활성화 디바이스(104)는 캐스트-인에이블 미디어 디바이스들에 대한 새로운 레벨의 제어를 효과적으로 가능하게 한다. 특정 예에서, 음성-활성화 디바이스(104)는 원거리 음성 액세스를 갖는 캐주얼 향유 스피커를 포함하고 음성 어시스턴트 서비스에 대한 음성 인터페이스 디바이스로서 기능한다. 음성-활성화 디바이스(104)는 동작 환경(100)의 임의의 영역에 배치될 수 있다. 다수의 음성-활성화 디바이스들(104)이 다수의 방들에 분산되는 경우, 이들은 이러한 방들로부터 음성 입력들을 제공하도록 동기화되는 캐스트 오디오 수신기들이 된다.

[0044] 구체적으로, 일부 구현들에서, 음성-활성화 디바이스(104)는 음성-활성화 음성 어시스턴트 서비스(예를 들어, 구글 어시스턴트)에 접속된 마이크로폰을 갖는 Wi-Fi 스피커를 포함한다. 사용자는 음성-활성화 디바이스(104)의 마이크로폰을 통해 미디어 재생 요청을 발행하고, 음성-활성화 디바이스(104) 자체 상에서 또는 다른 접속된 미디어 출력 디바이스 상에서 미디어 콘텐츠를 재생하도록 음성 어시스턴트 서비스에 문의할 수 있다. 예를 들어, 사용자는 "OK 구글, 내 거실 TV에서 고양이 비디오를 재생해"라고 Wi-Fi 스피커에 말함으로써 미디어 재생 요청을 발행할 수 있다. 그 다음, 음성 어시스턴트 서비스는 디폴트 또는 지정된 미디어 애플리케이션을 사용하여 요청된 디바이스 상에 요청된 미디어 콘텐츠를 재생함으로써 미디어 재생 요청을 달성한다.

[0045] 일부 구현들에서, 사용자는 음성-활성화 디바이스(104)의 마이크로폰을 통해, 이미 재생되었거나 디스플레이 디바이스 상에 재생되고 있는 미디어 콘텐츠에 관한 음성 요청을 발행할 수 있다(예를 들어, 사용자는 미디어 콘텐츠에 대한 정보를 문의하거나, 온라인 상점을 통해 미디어 콘텐츠를 구매하거나, 미디어 콘텐츠에 대한 소셜 포스트를 작성 및 발행할 수 있다).

[0046] 일부 구현들에서, 사용자는, 집을 통과하여 이동할 때 자신과의 현재 미디어 세션을 취하기를 원할 수 있고, 이러한 서비스를 음성-활성화 디바이스들(104) 중 하나 이상으로부터 요청할 수 있다. 이는, 음성 어시스턴트 서비스(140)가 현재의 미디어 세션을 제1 캐스트 디바이스로부터, 제1 캐스트 디바이스에 직접 접속되지 않거나 제1 캐스트 디바이스의 존재에 대한 어떠한 지식도 없는 제2 캐스트 디바이스에 전송하도록 요구한다. 미디어 콘텐츠 전송에 후속하여, 제2 캐스트 디바이스에 커플링된 제2 출력 디바이스는, 제1 출력 디바이스 상에서 미디어 콘텐츠의 재생이 선행되었던 음악 트랙 또는 비디오 클립 내의 정확한 포인트로부터 제1 캐스트 디바이스에 커플링된 제1 출력 디바이스에서 이전의 미디어 콘텐츠를 재생하는 것을 계속한다. 일부 구현들에서, 미디어 세션을 전송하라는 요청을 수신하는 음성-활성화 디바이스(104)는 요청을 충족할 수 있다. 일부 구현들에서, 미디어 세션을 전송하라는 요청을 수신하는 음성-활성화 디바이스(104)는 그 요청을 처리를 위해 다른 디바이스 또는 시스템(예를 들어, 음성 어시스턴스 서버 시스템(112))에 중계한다.

[0047] 추가로, 일부 구현들에서, 사용자는 음성-활성화 디바이스(104)의 마이크로폰을 통해, 정보에 대한 또는 액션 또는 동작의 수행에 대한 요청을 발행할 수 있다. 요청된 정보는 개인적(예를 들어, 사용자의 이메일들, 사용자의 캘린더 이벤트들, 사용자의 비행 정보 등)이거나 비-개인적(예를 들어, 스포츠 점수, 뉴스 스토리들 등)이거나, 그 중간(예를 들어, 사용자가 선호하는 팀들 또는 스포츠들에 대한 점수, 사용자가 선호하는 소스들로부터의 뉴스 스토리들 등)일 수 있다. 요청된 정보 또는 액션/동작은 개인적 정보에 대한 액세스(예를 들어, 사용자에 의해 제공된 지불 정보로 디지털 미디어 항목을 구매하는 것, 물리적 상품을 구매하는 것)를 수반할 수 있다. 음성-활성화 디바이스(104)는 사용자에 대한 음성 메시지 응답들로 요청에 응답하고, 응답은, 예를 들어, 요청을 이행하기 위한 추가적인 정보에 대한 요청들, 요청이 이행되었다는 확인, 요청이 이행될 수 없다는 통지 등을 포함할 수 있다.

[0048] 일부 구현들에서, 제어가능한 디바이스들(106) 중 음성-활성화 디바이스들(104) 및 미디어 디바이스들에 추가로, 동작 환경(100)은 또한 제어가능한 디바이스들(106) 중 하나 이상의 스마트 홈 디바이스들을 포함할 수 있다. 통합된 스마트 홈 디바이스들은 다양한 유용한 스마트 홈 기능들을 제공하기 위해 스마트 홈 네트워크에서 서로 및/또는 중앙 서버 또는 클라우드-컴퓨팅 시스템과 끊김없이 통합하는 지능형 멀티-감지 네트워크-접속된 디바이스들을 포함한다. 일부 구현들에서, 스마트 홈 디바이스는 캐스트 디바이스 및/또는 출력 디바이스로서 동작 환경(100)의 동일한 위치에 배치되고, 따라서, 캐스트 디바이스 및 출력 디바이스에 근접하여 또는 그에 대해 공지된 거리에 위치된다.

[0049] 동작 환경(100)의 스마트 홈 디바이스들은 하나 이상의 지능형 멀티-감지 네트워크-접속된 써모스탯들, 하나 이상의 지능형 네트워크-접속된 멀티-감지 위험 검출기들, 하나 이상의 지능형 멀티-감지 네트워크-접속된 현관 인터페이스 디바이스들(이하, "스마트 도어벨들" 및 "스마트 도어 락들"로 지칭됨) 및 하나 이상의 지능형 멀티-감지 네트워크-접속된 경보 시스템들, 하나 이상의 지능형 멀티-감지 네트워크-접속된 카메라 시스템들, 하나 이상의 지능형 멀티-감지 네트워크-접속된 벽 스위치들, 하나 이상의 지능형 멀티-감지 네트워크-접속된 전력 소켓들, 및 하나 이상의 지능형 멀티-감지 네트워크-접속된 조명들을 포함할 수 있다(그러나 이에 제한되는 것은 아니다). 일부 구현들에서, 도 1의 동작 환경(100)의 스마트 홈 디바이스들은 복수의 지능형 멀티-감지 네트워크-접속된 가전기기들(이하 "스마트 가전기기들"로 지칭됨), 예를 들어, 냉장고들, 스토브들, 오븐들, 텔레비전들, 세탁기들, 건조기들, 조명들, 스테레오들, 인터콤 시스템들, 차고문 개방기들, 바닥 팬들, 천장 팬들, 벽 에어 컨디셔너들, 풀 히터들, 관개 시스템들, 보안 시스템들, 공간 히터들, 창문 AC 유닛들, 전동 통풍기들 등을 포함한다. 일부 구현들에서, 이러한 스마트 홈 디바이스 타입들 중 임의의 하나는, 전체적으로 또는 부분적으로 점유자 또는 사용자로부터의 음성 요청들에 응답하기 위해 본원에 설명된 바와 같이 마이크로폰들 및 하나 이상의 음성 프로세싱 능력들과 아웃피트(outfit)될 수 있다.

[0050] 일부 구현들에서, 제어가능한 디바이스들(104) 및 음성-활성화 디바이스들(104) 각각은 제어가능한 디바이스들(106), 음성-활성화 전자 디바이스들(104), 중앙 서버 또는 클라우드-컴퓨팅 시스템, 및/또는 네트워크-접속된 다른 디바이스들(예를 들어, 클라이언트 디바이스)과 데이터 통신 및 정보 공유할 수 있다. 데이터 통신들은 임의의 다양한 커스텀 또는 표준 무선 프로토콜들(예를 들어, IEEE 802.15.4, Wi-Fi, ZigBee, 6LoWPAN, Thread, Z-Wave, Bluetooth Smart, ISA100.11a, WirelessHART, MiWi, 등) 및/또는 임의의 다양한 커스텀 또는 표준 유선 프로토콜들(예를 들어, Ethernet, HomePlug 등) 또는 본 문헌의 출원일에 아직 개발되지 않은 통신 프로토콜을 포함하는 임의의 다른 적절한 통신 프로토콜을 사용하여 수행될 수 있다.

[0051] 통신 네트워크들(예를 들어, 인터넷)(110)을 통해, 제어가능한 디바이스들(106) 및 음성-활성화 디바이스들(104)은 서버 시스템(또한 본원에서 중앙 서버 시스템 및/또는 클라우드-컴퓨팅 시스템으로 지칭됨)과 통신할 수 있다. 임의적으로, 서버 시스템은 제조자, 지원 엔티티, 또는 제어가능한 디바이스들 및 사용자에게 디스플레이되는 미디어 콘텐츠와 연관된 서비스 제공자와 연관될 수 있다. 따라서, 서버 시스템은 음성-활성화 디바이스들(104)에 의해 수집된 오디오 입력들을 프로세싱하는 음성 어시스턴스 서버(112), 디스플레이된 미디어 콘텐츠를 제공하는 하나 이상의 콘텐츠 호스트들(114), 선택적으로, 분산된 디바이스 단말들에 기초하여 가상 사용자 도메인을 생성하는 클라우드 캐스트 서비스 서버 및 가상 사용자 환경의 분산된 디바이스 단말들의 기록을 유지하는 디바이스 레지스트리(118)를 포함한다. 분산된 디바이스 단말들의 예들은 제어가능한 디바이스들(106), 음성-활성화된 디바이스들(104) 및 미디어 출력 디바이스들을 포함한다(그러나, 이에 제한되는 것은 아님). 일부 구현들에서, 이러한 분산된 디바이스 단말들은 가상 사용자 도메인에서 사용자 계정(예를 들어, 구글 사용자 계정)에 링크된다. 음성-활성화 디바이스들(104)에 의해 수집된 오디오 입력들에 대한 응답들의 생성을 포함하는 그러한 입력들의 프로세싱은 음성-활성화 디바이스(104), 음성 어시스턴스 서버(112), 다른 스마트 홈 디바이스(예를 들어, 허브 디바이스 또는 제어가능한 디바이스(106)) 또는 상기의 것들의 모두 또는 서브세트의 일부 조합에서 로컬로 수행될 수 있음을 인식해야 한다.

[0052] 일부 구현들에서, 음성-활성화 디바이스(들)(104)는 또한 스마트 홈 디바이스들이 없는 환경에서 기능함을 인식할 것이다. 예를 들어, 음성-활성화 디바이스(104)는 심지어 스마트 홈 디바이스들의 부재 시에도, 정보 또는 액션의 성능에 대한 사용자 요청들에 응답하고 그리고/또는 다양한 미디어 재생 기능들을 개시 또는 제어할 수 있다. 음성-활성화 디바이스(104)는 또한 제한없이, 차량, 배, 비지니스 또는 제조 환경을 포함하는 광범위한 환경들에서 기능할 수 있다.

[0053] 일부 구현들에서, 음성-활성화 디바이스(104)는 (예를 들어, 음성-활성화 디바이스(104) 상의 음성 어시스턴트 서비스에 대한 인터페이스를 활성화시키기 위해, 음성-활성화 디바이스(104)를, 음성-활성화 디바이스(104)가 음성 어시스턴트 서비스에 대한 음성 요청들을 수신할 준비가 된 상태가 되게 하기 위해) 핫워드(또한 "웨이크 워드"로 지칭됨)를 포함하는 음성 입력에 의해 "어웨이큰"된다. 일부 구현들에서, 음성-활성화된 디바이스(104)는, 음성-활성화 디바이스(104)가 적어도 미리 정의된 양의 시간(예를 들어, 5 분) 동안 음성 입력들의 수신에 대해 유휴이면 어웨이큰을 요구하며; 미리 정의된 양의 시간은 음성 인터페이스 세션 또는 대화가 타임 아웃되기 전에 허용되는 유휴 시간의 양에 대응한다. 핫워드는 워드 또는 구문일 수 있고, 미리 정의된 디폴트일 수 있고 그리고/또는 사용자에 의해 커스터마이징될 수 있다(예를 들어, 사용자는 특정 음성-활성화 디바이스(104)에 대한 닉네임을 디바이스의 핫워드로서 설정할 수 있다). 일부 구현들에서, 음성-활성화된 디바이스(104)를 어웨이큰할 수 있는 다수의 핫워드들이 존재할 수 있다. 사용자는 핫워드를 말할 수 있고, 음성-활성화 디바이스(104)로부터 확인응답 응답(예를 들어, 음성-활성화 디바이스(104)가 인사를 출력함)을 대기할 수 있고, 그 다음, 제1 음성 요청을 행할 수 있다. 대안적으로, 사용자는 핫워드 및 제1 음성 요청을 하나의 음성에 조합할 수 있다(예를 들어, 음성 입력은 핫워드 및 후속하는 음성 요청을 포함한다).

[0054] 일부 구현들에서, 음성-활성화 디바이스(104)는 일부 구현들에 따라 동작 환경(100)의 제어가능한 디바이스(106)(예를 들어, 미디어 디바이스, 스마트 홈 디바이스), 클라이언트 디바이스 또는 서버 시스템과 상호작용한다. 음성-활성화 디바이스(104)는 음성-활성화 디바이스(104)에 근접한 환경으로부터 오디오 입력들을 수신하도록 구성된다. 선택적으로, 음성-활성화 디바이스(104)는 오디오 입력들을 저장하고, 적어도 부분적으로 오디오 입력들을 로컬로 프로세싱한다. 선택적으로, 음성-활성화 디바이스(104)는 수신된 오디오 입력들 또는 부분적으로 프로세싱된 오디오 입력들을 추가적 프로세싱을 위해 통신 네트워크들(110)을 통해 음성 어시스턴스 서버 시스템(112)에 송신한다. 음성-활성화 디바이스(104) 또는 음성 어시스턴스 서버 시스템(112)은, 오디오 입력에 요청이 존재하는지 여부 및 요청이 어떤 것인지를 결정하고, 요청에 대한 응답을 결정 및 생성하고, 요청을 하나 이상의 제어가능한 디바이스(들)(106)에 송신한다. 응답을 수신하는 제어가능한 디바이스(들)(106)는 응답에 따라 동작들을 수행하도록 또는 상태들을 변경하도록 구성된다. 예를 들어, 미디어 디바이스는 오디오 입력의 요청에 대한 응답에 따라, 미디어 디바이스에 커플링된 출력 디바이스 상에 디스플레이하기 위해 하나 이상의 콘텐츠 호스트들(114)로부터 미디어 콘텐츠 또는 인터넷 콘텐츠를 획득하도록 구성된다.

[0055] 일부 구현들에서, 제어가능한 디바이스(들)(106) 및 음성-활성화된 디바이스(들)(104)는 사용자 도메인에서 서로 링크되고, 더 구체적으로는, 사용자 도메인의 사용자 계정을 통해 서로 연관된다. 제어가능한 디바이스(106)(로컬 네트워크(108)이든 또는 네트워크(110)이든) 및 음성-활성화 디바이스(104)(로컬 네트워크(108)이든 또는 네트워크(110)이든)에 대한 정보는 사용자 계정과 관련하여 디바이스 레지스트리(118)에 저장된다. 일부 구현들에서, 제어가능한 디바이스들(106)에 대한 디바이스 레지스트리 및 음성-활성화 디바이스들(104)에 대한 디바이스 레지스트리가 존재한다. 제어가능한 디바이스 레지스트리는 사용자 도메인에서 연관된 음성-활성화된 디바이스 레지스트리의 디바이스를 참조할 수 있고, 그 반대일 수 있다.

[0056] 일부 구현들에서, 음성-활성화 디바이스들(104)(및 하나 이상의 캐스트 디바이스들) 중 하나 이상 및 제어가능한 디바이스들(106) 중 하나 이상은 클라이언트 디바이스(103)를 통해 음성 어시스턴트 서비스(140)에 커미셔닝된다. 일부 구현들에서, 음성-활성화 디바이스(104)는 임의의 디스플레이 스크린을 포함하지 않고, 커미셔닝 프로세스 동안 및 또한 유사하게 제어가능한 디바이스(106)에 대해 사용자 인터페이스를 제공하기 위해 클라이언트 디바이스(103)에 의존한다. 구체적으로, 클라이언트 디바이스(103)에는, 사용자 인터페이스가 클라이언트 디바이스에 근접하게 배치된 새로운 음성-활성화 디바이스(104) 및/또는 제어가능한 디바이스(106)의 커미셔닝을 용이하게 할 수 있게 하는 애플리케이션이 설치된다. 사용자는 커미셔닝될 필요가 있는 새로운 전자 디바이스(104/106)에 대한 커미셔닝 프로세스를 개시하기 위해 클라이언트 디바이스(103)의 사용자 인터페이스 상에 요청을 전송할 수 있다. 커미셔닝 요청을 수신한 후, 클라이언트 디바이스(103)는 커미셔닝될 필요가 있는 새로운 전자 디바이스(104/103)와 단거리 통신 링크를 수립한다. 선택적으로, 단거리 통신 링크는 NFC(near field communication), 블루투스, BLE(Bluetooth Low Energy) 등에 기반하여 수립된다. 그 다음, 클라이언트 디바이스(103)는 WLAN(wireless local area network)(예를 들어, 로컬 네트워크(108))과 연관된 무선 구성 데이터를 새로운 또는 전자 디바이스(104/106)에 전달한다. 무선 구성 데이터는 적어도 WLAN 보안 코드(즉, SSID(service set identifier) 패스워드)를 포함하고, 선택적으로 SSID, IP(Internet protocol) 어드레스, 프록시 구성 및 게이트웨이 구성을 포함한다. 단거리 통신 링크를 통해 무선 구성 데이터를 수신한 후, 새로운 전자 디바이스(104/106)는 무선 구성 데이터를 디코딩 및 복원하고, 무선 구성 데이터에 기초하여 WLAN에 참여한다.

[0057] 일부 구현들에서, 추가적인 사용자 도메인 정보는 클라이언트 디바이스(103) 상에 디스플레이되는 사용자 인터페이스 상에 입력되고, 새로운 전자 디바이스(104/106)를 사용자 도메인의 계정에 링크시키기 위해 사용된다. 선택적으로, 추가적인 사용자 도메인 정보는 단거리 통신 링크를 통해 무선 통신 데이터와 함께 새로운 전자 디바이스(104/106)에 전달된다. 선택적으로, 추가적인 사용자 도메인 정보는 새로운 디바이스가 WLAN에 참여한 후 WLAN을 통해 새로운 전자 디바이스(104/106)에 전달된다.

[0058] 전자 디바이스(104/106)가 사용자 도메인에 커미셔닝되면, 다른 디바이스들 및 이들의 연관된 활동들은 다수의 제어 경로들을 통해 제어될 수 있다. 하나의 제어 경로에 따르면, 클라이언트 디바이스(103) 상에 설치된 애플리케이션은 다른 디바이스 및 이의 연관된 활동들(예를 들어, 미디어 재생 활동들)을 제어하기 위해 사용된다. 대안적으로, 다른 제어 경로에 따르면, 전자 디바이스(104/106)는 다른 디바이스 및 이의 연관된 활동들의 아이-프리 및 핸즈-프리 제어를 가능하게 하기 위해 사용된다.

[0059] 일부 구현들에서, 음성-활성화 디바이스들(104) 및 제어가능한 디바이스들(106)에는 사용자에 의한(예를 들어, 사용자 도메인에서 디바이스들이 연관된 1차 사용자에 의한) 닉네임들이 할당될 수 있다. 예를 들어, 거실의 스피커 디바이스에는 닉네임 "거실 스피커"가 할당될 수 있다. 이러한 방식으로, 사용자는 디바이스의 닉네임을 말함으로써 음성 입력의 디바이스를 더 쉽게 참조할 수 있다. 일부 구현들에서, 디바이스 닉네임들 및 대응하는 디바이스들에 대한 매핑들은 음성-활성화 디바이스(104)(음성-활성화 디바이스와 동일한 사용자와 연관된 디바이스들의 닉네임들을 저장할 것임) 및/또는 음성 어시스턴스 서버 시스템(112)(상이한 사용자들과 연관된 디바이스들의 디바이스 닉네임들을 저장할 것임)에 저장된다. 예를 들어, 음성 어시스턴스 서버 시스템(112)은 상이한 디바이스들 및 사용자들에 걸친 많은 디바이스 닉네임들 및 매핑들을 저장하고, 특정 사용자와 연관된 음성-활성화 디바이스들(104)은 로컬 저장을 위해 특정 사용자와 연관된 디바이스들에 대한 닉네임들 및 매핑들을 다운로드한다.

[0060] 일부 구현들에서, 사용자는 음성-활성화 디바이스들(104) 및/또는 제어가능한 디바이스들(106) 중 하나 이상을 사용자에 의해 생성된 디바이스들의 그룹으로 그룹화할 수 있다. 그룹에는 이름이 주어질 수 있고, 디바이스들의 그룹은 닉네임으로 개별적인 디바이스들을 지칭하는 것과 유사하게, 그룹 이름으로 지칭될 수 있다. 디바이스 닉네임들과 유사하게, 디바이스 그룹들 및 그룹 이름들은 음성-활성화 디바이스(104) 및/또는 음성 어시스턴스 서버 시스템(112)에 저장될 수 있다.

[0061] 사용자로부터의 음성 입력은 음성 입력의 요청에 대한 타겟 제어가능한 디바이스(106) 또는 디바이스들의 타겟 그룹을 명시적으로 특정할 수 있다. 예를 들어, 사용자는 "거실 스피커에서 클래식 음악을 재생해"라는 음성 입력을 말할 수 있다. 음성 입력의 타겟 디바이스는 "거실 스피커"이고; 음성 입력의 요청은 "거실 스피커"가 클래식 음악을 재생하게 하라는 요청이다. 다른 예로, 사용자는 "집 스피커들에서 클래식 음악을 재생해"라는 음성 입력을 말할 수 있고, 여기서 "집 스피커들"은 디바이스들의 그룹의 이름이다. 음성 입력의 타겟 디바이스 그룹은 "집 스피커들"이고; 음성 입력의 요청은 "집 스피커들" 그룹의 디바이스들이 클래식 음악을 재생하게 하라는 요청이다.

[0062] 사용자로부터의 음성 입력은 타겟 디바이스 또는 디바이스 그룹의 명시적 특정을 갖지 않을 수 있고; 이름에 의한 타겟 디바이스 또는 디바이스 그룹에 대한 참조가 음성 입력에는 없다. 예를 들어, 상기 "거실 스피커에 클래식 음악을 재생해"라는 예시적인 음성 입력 이후, 사용자는 "일시정지"라는 후속 음성 입력을 말할 수 있다. 음성 입력은 일시정지를 위한 요청에 대한 타겟 디바이스 특정을 포함하지 않는다. 일부 구현들에서, 음성 입력에서 타겟 디바이스 특정은 모호할 수 있다. 예를 들어, 사용자는 디바이스 이름을 불완전하게 말했을 수 있다. 일부 구현들에서, 타겟 디바이스 또는 디바이스 그룹은, 아래에 설명된 바와 같이, 명시적 타겟 디바이스 특정이 없거나 타겟 디바이스 특정이 모호한 음성 입력에 할당될 수 있다.

[0063] 일부 구현들에서, 음성-활성화 디바이스(104)가 타겟 디바이스 또는 디바이스 그룹의 명시적 특정을 갖는 음성 입력을 수신하는 경우, 음성-활성화 디바이스(104)는 특정된 타겟 디바이스 또는 디바이스 그룹에 대해 포커스 세션을 수립한다. 일부 구현들에서, 음성-활성화 디바이스(104)는 포커스 세션에 대해, 세션 시작 시간(예를 들어, 포커스 세션이 언제 시작되었는지에 기초한 음성 입력의 타임스탬프)을 그리고 포커스 세션에 대한 포커스-내 디바이스로서, 특정된 타겟 디바이스 또는 디바이스 그룹을 저장한다. 일부 구현들에서, 음성-활성화 디바이스(104)는 또한 포커스 세션의 후속 음성 입력들을 로그(log)한다. 음성-활성화 디바이스(104)는 포커스 세션의 적어도 가장 최근의 음성 입력을 로그하고, 선택적으로 또한 포커스 세션 내의 선행 음성 입력들을 로그 및 유지한다. 일부 구현들에서, 음성 어시스턴스 서버 시스템(112)은 포커스 세션을 수립한다. 일부 구현들에서, 포커스 세션은 상이한 타겟 디바이스 또는 디바이스 그룹을 명시적으로 특정하는 음성 입력에 의해 종료될 수 있다.

[0064] 디바이스에 대한 포커스 세션이 활성이고 음성-활성화 디바이스가 음성 입력을 수신하는 동안, 음성-활성화 디바이스(104)는 음성 입력에 대한 하나 이상의 결정들을 행한다. 일부 구현들에서, 결정들은, 음성 입력들이 명시적 타겟 디바이스 특정을 포함하는지 여부, 음성 입력 내의 요청이 포커스-내 디바이스에 의해 이행될 수 있는 것인지 여부, 포커스 세션 내의 마지막 음성 입력의 시간 및/또는 세션 시작 시간에 비교된 음성 입력의 시간을 포함한다. 음성 입력이 명시적 타겟 디바이스 특정을 포함하지 않고, 포커스-내 디바이스에 의해 이행될 수 있는 요청을 포함하고, 포커스 세션 내의 마지막 음성 입력의 시간 및/또는 세션 시작 시간에 대한 미리 정의된 시간 기준들을 충족하면, 포커스-내 디바이스는 음성 입력에 대한 타겟 디바이스로서 할당된다. 포커스 세션에 관한 추가적인 세부사항들이 아래에서 설명된다.

동작 환경 내의 디바이스들

[0065] 도 2는 일부 구현들에 따른 동작 환경(예를 들어, 동작 환경(100))에서 사용자 음성 커맨드들을 수집하기 위해 음성 인터페이스로서 적용되는 예시적인 음성-활성화 디바이스(104)를 예시하는 블록도이다. 음성-활성화 디바이스(104)는 통상적으로 하나 이상의 프로세싱 유닛들(CPU들)(202), 하나 이상의 네트워크 인터페이스들(204), 메모리(206), 및 이러한 컴포넌트들을 상호접속시키는 하나 이상의 통신 버스들(208)을 포함한다(때때로 칩셋으로 지칭됨). 음성-활성화 디바이스(104)는 버튼(212), 터치 감지 어레이(214) 및 하나 이상의 마이크로폰들(216)과 같이, 사용자 입력을 용이하게 하는 하나 이상의 입력 디바이스들(210)을 포함한다. 음성-활성화 디바이스(104)는 또한 하나 이상의 스피커들(220), 선택적으로 LED들(222)의 어레이 및 선택적으로 디스플레이(224)를 포함하는 하나 이상의 출력 디바이스들(218)을 포함한다. 일부 구현들에서, LED들(222)의 어레이는 풀 컬러 LED들의 어레이이다. 일부 구현들에서, 디바이스의 타입에 따라, 음성-활성화 디바이스(104)는 LED들(222)의 어레이 또는 디스플레이(224) 중 어느 하나 또는 둘 모두를 갖는다. 일부 구현들에서, 음성-활성화 디바이스(104)는 또한 위치 검출 디바이스(226)(예를 들어, GPS 모듈) 및 하나 이상의 센서들(228)(예를 들어, 가속도계, 자이로스코프, 광 센서 등)을 포함한다.

[0066] 메모리(206)는 고속 랜덤 액세스 메모리, 예를 들어, DRAM, SRAM, DDR RAM, 또는 다른 랜덤 액세스 솔리드 스테이트 메모리 디바이스들을 포함하고; 선택적으로, 비휘발성 메모리, 예를 들어, 하나 이상의 자기 디스크 저장 디바이스들, 하나 이상의 광 디스크 저장 디바이스들, 하나 이상의 플래시 메모리 디바이스들 또는 하나 이상의 다른 비휘발성 솔리드 스테이트 저장 디바이스들을 포함한다. 메모리(206)는 선택적으로, 하나 이상의 프로세싱 유닛들(202)로부터 원격 위치된 하나 이상의 저장 디바이스들을 포함한다. 메모리(206) 또는 선택적으로 메모리(206) 내의 비휘발성 메모리는 비일시적 컴퓨터 판독가능 저장 매체를 포함한다. 일부 구현들에서, 메모리(206) 또는 메모리(206)의 비휘발성 컴퓨터 판독가능 저장 매체는 하기 프로그램들, 모듈들 및 데이터 구조들 또는 이들의 서브세트 또는 수퍼세트를 저장한다:

· 다양한 기본 시스템 서비스들을 처리하고 하드웨어 의존적 작업들을 수행하기 위한 절차들을 포함하는 운영 시스템(232);

· 음성-활성화 디바이스(104)를, 하나 이상의 네트워크 인터페이스들(204)(유선 또는 무선) 및 하나 이상의 네트워크들(110), 예를 들어, 인터넷, 다른 광역 네트워크들, 로컬 영역 네트워크들(예를 들어, 로컬 네트워크(108)), 대도시 영역 네트워크들 등을 통해 다른 디바이스들(예를 들어, 음성 어시스턴스 서비스(140), 하나 이상의 제어가능한 디바이스들(106), 하나 이상의 클라이언트 디바이스들(103) 및 다른 음성-활성화 디바이스(들)(104))에 접속시키기 위한 네트워크 통신 모듈(234);

· 하나 이상의 입력 디바이스들을 통해 입력들을 수신하고, 하나 이상의 출력 디바이스들(218)을 통해 음성-활성화 디바이스(104)에서 정보의 프리젠테이션을 가능하게 하며, 다음을 포함하는 입력/출력 제어 모듈(236);

o 음성-활성화 디바이스(104)를 둘러싸는 환경에서 수집된 오디오 입력들 또는 음성 메시지들을 프로세싱하기 위한 또는 음성 어시스턴스 서버 시스템(112)에서 프로세싱하기 위한 오디오 입력들 또는 음성 메시지들을 준비하기 위한 음성 프로세싱 모듈(238);

o 음성-활성화 디바이스(104)의 디바이스 상태들에 따라 LED들(222) 상에 시각적 패턴들을 생성하기 위한 LED 제어 모듈(240); 및

o 음성-활성화 디바이스(104)의 최상부 표면 상에서(예를 들어, 터치 센서 어레이(214) 상에서) 터치 이벤트들을 감지하기 위한 터치 감지 모듈(242);

· 적어도 음성-활성화 디바이스(104)와 연관된 데이터를 저장하기 위한 것이며 다음을 포함하는 음성 활성화 디바이스 데이터(244);

o 공통 디바이스 세팅들(예를 들어, 서비스 티어(tier), 디바이스 모델, 저장 용량, 프로세싱 능력들, 통신 능력들 등), 사용자 도메인에서 하나 이상의 사용자 계정들의 정보, 디바이스 닉네임들 및 디바이스 그룹들, 미등록된 사용자를 처리할 때의 제한들에 관한 세팅들, 및 LED들(222)에 의해 디스플레이되는 하나 이상의 시각적 패턴들과 연관된 디스플레이 규격들을 포함하는 음성-활성화 디바이스(104) 자체와 연관된 정보를 저장하기 위한 음성 디바이스 세팅들(246); 및

o 오디오 신호들, 음성 메시지들, 응답 메시지들 및 음성-활성화 디바이스(104)의 음성 인터페이스 기능들에 관한 다른 데이터를 저장하기 위한 음성 제어 데이터(248);

· 음성 어시스턴스 서버 시스템(112)에 의해 생성된 음성 요청 응답들에 포함된 명령들을 수행하고, 일부 구현들에서는 특정 음성 입력들에 대한 응답들을 생성하기 위한 응답 모듈(250); 및

· 디바이스들에 대한 포커스 세션들을 수립, 관리 및 종료하기 위한 포커스 세션 모듈(252).

[0067] 일부 구현들에서, 음성 프로세싱 모듈(238)은 하기 모듈들(미도시)을 포함한다:

· 음성-활성화 디바이스(104)에 대한 음성 입력들을 제공하는 사용자들을 식별하고 명확히 하기 위한 사용자 식별 모듈;

· 음성 입력들이 음성-활성화 디바이스(104)를 웨이크 업하기 위한 핫워드를 포함하는지 여부를 결정하고 음성 입력들에서 이를 인식하기 위한 핫워드 인식 모듈; 및

· 음성 입력에 포함된 사용자 요청을 결정하기 위한 요청 인식 모듈.

[0068] 일부 구현들에서, 메모리(206)는 또한 미처리 포커스 세션에 대한 포커스 세션 데이터(254)를 저장하며, 다음을 포함한다:

· 미처리 포커스 세션 내의 포커스에서 디바이스 또는 디바이스 그룹의 식별자(예를 들어, 디바이스(들)의 디바이스 닉네임, 디바이스 그룹 이름, MAC 어드레스(들))를 저장하기 위한 세션 포커스-내 디바이스(들)(256);

· 미처리 포커스 세션의 시작에 대한 타임스탬프를 저장하기 위한 세션 시작 시간(258); 및

· 적어도 가장 최근의 요청/커맨드를 포함하는, 포커스 세션 내의 이전 요청들 또는 커맨드들의 로그를 저장하기 위한 세션 커맨드 이력(260). 로그는 적어도, 로그된 이전 요청(들)/커맨드(들)의 타임스탬프(들)를 포함한다.

[0069] 상기 식별된 엘리먼트들 각각은 이전에 언급된 메모리 디바이스들 중 하나 이상에 저장될 수 있고, 앞서 설명된 함수를 수행하기 위한 명령들의 세트에 대응한다. 상기 식별된 모듈들 또는 프로그램들(즉, 명령들의 세트)은 별개의 소프트웨어 프로그램들, 절차들, 모듈들 또는 데이터 구조들로서 구현될 필요가 없고, 따라서 이러한 모듈들의 다양한 서브세트들은 다양한 구현들에서 조합되거나 달리 재배열될 수 있다. 일부 구현들에서, 메모리(206)는 선택적으로 앞서 식별된 모듈들 및 데이터 구조들의 서브세트를 저장한다. 또한, 메모리(206)는 선택적으로 앞서 설명되지 않은 추가적인 모듈들 및 데이터 구조들을 저장한다. 일부 구현들에서, 메모리(206)에 저장된 프로그램들, 모듈들 및/또는 데이터의 서브세트는 음성 어시스턴스 서버 시스템(112) 상에 저장되고 그리고/또는 그에 의해 실행될 수 있다.

[0070] 일부 구현들에서, 앞서 설명된 메모리(206)의 모듈들 중 하나 이상은 모듈들의 음성 프로세싱 라이브러리의 일부이다. 음성 프로세싱 라이브러리는 매우 다양한 디바이스들 상에 구현 또는 임베딩될 수 있다.

[0071] 도 3a 및 도 3b는 일부 구현들에 따른 동작 환경(예를 들어, 동작 환경(100))의 음성 어시스턴트 서비스(140)의 예시적인 음성 어시스턴스 서버 시스템(112)을 예시하는 블록도들이다. 서버 시스템(112)은 통상적으로 하나 이상의 프로세싱 유닛들(CPU들)(302), 하나 이상의 네트워크 인터페이스들(304), 메모리(306), 및 이러한 컴포넌트들을 상호접속시키는 하나 이상의 통신 버스들(308)을 포함한다(때때로 칩셋으로 지칭됨). 서버 시스템(112)은 키보드, 마우스, 음성-커맨드 입력 유닛 또는 마이크로폰, 터치 스크린 디스플레이, 터치-감응 입력 패드, 제스처 캡처 카메라 또는 다른 입력 버튼들 또는 제어들과 같이, 사용자 입력을 용이하게 하는 하나 이상의 입력 디바이스들(310)을 포함할 수 있다. 또한, 서버 시스템(112)은 키보드를 보완하거나 대체하기 위해 마이크로폰 및 음성 인식 또는 카메라 및 제스처를 사용할 수 있다. 일부 구현들에서, 서버 시스템(112)은 예를 들어, 전자 디바이스들 상에 인쇄된 그래픽 직렬 코드들의 이미지들을 캡처하기 위한 하나 이상의 카메라들, 스캐너들 또는 사진 센서 유닛들을 포함한다. 서버 시스템(112)은 또한 하나 이상의 스피커들 및/또는 하나 이상의 시각적 디스플레이들을 포함하는 사용자 인터페이스들 및 디스플레이 콘텐츠의 프리젠테이션을 가능하게 하는 하나 이상의 출력 디바이스들(312)을 포함할 수 있다.

[0072] 메모리(306)는 고속 랜덤 액세스 메모리, 예를 들어, DRAM, SRAM, DDR RAM, 또는 다른 랜덤 액세스 솔리드 스테이트 메모리 디바이스들을 포함하고; 선택적으로, 비휘발성 메모리, 예를 들어, 하나 이상의 자기 디스크 저장 디바이스들, 하나 이상의 광 디스크 저장 디바이스들, 하나 이상의 플래시 메모리 디바이스들 또는 하나 이상의 다른 비휘발성 솔리드 스테이트 저장 디바이스들을 포함한다. 메모리(306)는 선택적으로, 하나 이상의 프로세싱 유닛들(302)로부터 원격 위치된 하나 이상의 저장 디바이스들을 포함한다. 메모리(306) 또는 선택적으로 메모리(306) 내의 비휘발성 메모리는 비일시적 컴퓨터 판독가능 저장 매체를 포함한다. 일부 구현들에서, 메모리(306) 또는 메모리(306)의 비휘발성 컴퓨터 판독가능 저장 매체는 하기 프로그램들, 모듈들 및 데이터 구조들 또는 이들의 서브세트 또는 수퍼세트를 저장한다:

· 다양한 기본 시스템 서비스들을 처리하고 하드웨어 의존적 작업들을 수행하기 위한 절차들을 포함하는 운영 시스템(316);

· 서버 시스템(112)을, 하나 이상의 네트워크 인터페이스들(304)(유선 또는 무선) 및 하나 이상의 네트워크들(110), 예를 들어, 인터넷, 다른 광역 네트워크들, 로컬 영역 네트워크들, 대도시 영역 네트워크들 등을 통해 다른 디바이스들(예를 들어, 클라이언트 디바이스들(103), 제어가능한 디바이스들(106), 음성-활성화 디바이스들(104))에 접속시키기 위한 네트워크 통신 모듈(318);

· 클라이언트 디바이스에서 정보(예를 들어, 애플리케이션(들)(322-328), 위젯들, 웹사이트들 및 이들의 웹 페이지들, 및/또는 게임들, 오디오 및/또는 비디오 콘텐츠, 텍스트 등을 제시하기 위한 그래픽 사용자 인터페이스)의 프리젠테이션을 가능하게 하기 위한 사용자 인터페이스 모듈(320);

· 서버 측에서의 실행을 위한 것(예를 들어, 게임들, 소셜 네트워크 애플리케이션들, 스마트 홈 애플리케이션들, 및/또는 클라이언트 디바이스(103), 제어가능한 디바이스(106), 음성-활성화 디바이스(104) 및 스마트 홈 디바이스들을 제어하고 이러한 디바이스들에 의해 캡처된 데이터를 검토하기 위한 다른 웹 또는 넌-웹 기반 애플리케이션들)이며 다음 중 하나 이상을 포함하는 커맨드 실행 모듈(321);

o 디바이스 프로비저닝, 디바이스 제어 및 캐스트 디바이스(들)와 연관된 사용자 계정 관리를 위한 서버-측 기능들을 제공하도록 실행되는 캐스트 디바이스 애플리케이션(322);

o 대응하는 미디어 소스들과 연관된 미디어 디스플레이 및 사용자 계정 관리를 위한 서버-측 기능들을 제공하도록 실행되는 하나 이상의 미디어 플레이어 애플리케이션들(324);

o 대응하는 스마트 홈 디바이스들의 디바이스 프로비저닝, 디바이스 제어, 데이터 프로세싱 및 데이터 검토를 위한 서버-측 기능들을 제공하도록 실행되는 하나 이상의 스마트 홈 디바이스 애플리케이션들(326); 및

o 음성-활성화 디바이스(104)로부터 수신된 음성 메시지의 음성 프로세싱을 배열하거나 또는 사용자 음성 커맨드 및 사용자 음성 커맨드에 대한 하나 이상의 파라미터들(예를 들어, 캐스트 디바이스 또는 다른 음성-활성화 디바이스(104)의 목적지)을 추출하기 위해 음성 메시지를 직접 프로세싱하도록 실행되는 음성 어시스턴스 애플리케이션(328); 및

· 적어도 미디어 디스플레이의 자동 제어와 연관된 데이터(예를 들어, 자동 미디어 출력 모드 및 후속 모드) 및 다른 데이터를 저장하고 다음 중 하나 이상을 포함하는 서버 시스템 데이터(330);

o 공통 디바이스 세팅들(예를 들어, 서비스 티어, 디바이스 모델, 저장 용량, 프로세싱 능력들, 통신 능력들 등) 및 자동 미디어 디스플레이 제어에 대한 정보를 포함하는 하나 이상의 클라이언트 디바이스와 연관된 정보를 저장하기 위한 클라이언트 디바이스 세팅들(332);

o 계정 액세스 정보, 디바이스 세팅들에 대한 정보(예를 들어, 서비스 티어, 디바이스 모델, 저장 용량, 프로세싱 능력들, 통신 능력들 등) 및 자동 미디어 디스플레이 제어에 대한 정보를 중 하나 이상을 포함하는 캐스트 디바이스 애플리케이션(322)의 사용자 계정들과 연관된 정보를 저장하기 위한 캐스트 디바이스 세팅들(334);

o 계정 액세스 정보, 미디어 콘텐츠 타입들의 사용자 선호도들, 검토 이력 데이터 및 자동 미디어 디스플레이 제어에 대한 정보 중 하나 이상을 포함하는, 하나 이상의 미디어 플레이어 애플리케이션들(324)의 사용자 계정들과 연관된 정보를 저장하기 위한 미디어 플레이어 애플리케이션 세팅들(336);

o 계정 액세스 정보, 하나 이상의 스마트 홈 디바이스들에 대한 정보(예를 들어, 서비스 티어, 디바이스 모델, 저장 용량, 프로세싱 능력들, 통신 능력들 등) 중 하나 이상을 포함하는, 스마트 홈 애플리케이션들(326)의 사용자 계정들과 연관된 정보를 저장하기 위한 스마트 홈 디바이스 세팅들(338);

o 계정 액세스 정보, 하나 이상의 음성-활성화 디바이스들(104)에 대한 정보(예를 들어, 서비스 티어, 디바이스 모델, 저장 용량, 프로세싱 능력들, 통신 능력들 등) 중 하나 이상을 포함하는, 음성 어시스턴스 애플리케이션(328)의 사용자 계정들과 연관된 정보를 저장하기 위한 음성 어시스턴스 데이터(340);

o 사용자들의 가입들(예를 들어, 음악 스트리밍 서비스 가입들, 비디오 스트리밍 서비스 가입들, 뉴스레터 가입들), 사용자 디바이스들(예를 들어, 각각의 사용자들, 디바이스 닉네임들, 디바이스 그룹들과 연관된 디바이스 레지스트리(118)에 등록된 디바이스들), 사용자 계정들(예를 들어, 사용자들의 이메일 계정들, 캘린더 계정들, 금융 계정들) 및 다른 사용자 데이터를 포함하는, 사용자 도메인에서 사용자들과 연관된 정보를 저장하기 위한 사용자 데이터(342);

o 예를 들어, 사용자들의 음성 모델들 또는 음성 지문들 및 사용자들의 편안한 볼륨 레벨 임계치들을 포함하는, 사용자 도메인에서 사용자들의 음성 프로파일들을 저장하기 위한 사용자 음성 프로파일들(344); 및

o 다수의 디바이스들에 대한 포커스 세션 데이터를 저장하기 위한 포커스 세션 데이터(346).

· 디바이스 레지스트리(118)를 관리하기 위한 디바이스 등록 모듈(348);

· 전자 디바이스(104)를 둘러싸는 환경에서 수집된 오디오 입력들 또는 음성 메시지들을 프로세싱하기 위한 음성 프로세싱 모듈(350); 및

· 디바이스들에 대한 포커스 세션들을 수립, 관리 및 종료하기 위한 포커스 세션 모듈(352).

[0073] 도 3b를 참조하면, 일부 구현들에서, 메모리(306)는 또한 하나 이상의 미처리 포커스 세션들(3462-1 내지 3462-M)에 대한 포커스 세션 데이터(346)를 저장하며, 다음을 포함한다:

· 포커스 세션이 수립되는 디바이스의 식별자를 저장하기 위한 세션 소스 디바이스(3464);

· 미처리 포커스 세션 내의 포커스에서 디바이스 또는 디바이스 그룹의 식별자(예를 들어, 디바이스(들)의 디바이스 닉네임, 디바이스 그룹 이름, MAC 어드레스(들))를 저장하기 위한 세션 포커스-내 디바이스(들)(3466);

· 미처리 포커스 세션의 시작에 대한 타임스탬프를 저장하기 위한 세션 시작 시간(3468); 및

· 적어도 가장 최근의 요청/커맨드를 포함하는, 포커스 세션 내의 이전 요청들 또는 커맨드들의 로그를 저장하기 위한 세션 커맨드 이력(3470).

[0074] 일부 구현들에서, 음성 어시스턴스 서버 시스템(112)은 주로 음성 입력들의 프로세싱을 담당하며, 따라서 도 2를 참조하여 앞서 설명된 메모리(206)의 프로그램들, 모듈들 및 데이터 구조들 중 하나 이상은 메모리(306) 내의 각각의 모듈들에 포함된다(예를 들어, 음성 프로세싱 모듈(238)에 포함된 프로그램들, 모듈들 및 데이터 구조들은 음성 프로세싱 모듈(350)에 포함된다). 음성-활성화 디바이스(104)는 캡처된 음성 입력들을 프로세싱을 위해 음성 어시스턴스 서버 시스템(112)에 송신하거나, 또는 음성 입력들을 먼저 프리-프로세싱하고, 프리-프로세싱된 음성 입력들을 프로세싱을 위해 음성 어시스턴스 서버 시스템(112)에 송신한다. 일부 구현들에서, 음성 어시스턴스 서버 시스템(112) 및 음성-활성화 디바이스(104)는 음성 입력들의 프로세싱에 관해 일부 공유되고 일부 분할된 책임들을 가지며, 도 2에 도시된 프로그램들, 모듈들 및 데이터 구조들은 둘 모두에 포함되거나, 또는 음성 어시스턴스 서버 시스템(112) 및 음성-활성화 디바이스(104) 사이에 분할될 수 있다. 도 2에 도시된 다른 프로그램들, 모듈들 및 데이터 구조들 또는 이들의 유사한 것들은 또한 음성 어시스턴스 서버 시스템(112)에 포함될 수 있다.

[0075] 상기 식별된 엘리먼트들 각각은 이전에 언급된 메모리 디바이스들 중 하나 이상에 저장될 수 있고, 앞서 설명된 함수를 수행하기 위한 명령들의 세트에 대응한다. 상기 식별된 모듈들 또는 프로그램들(즉, 명령들의 세트)은 별개의 소프트웨어 프로그램들, 절차들, 모듈들 또는 데이터 구조들로서 구현될 필요가 없고, 따라서 이러한 모듈들의 다양한 서브세트들은 다양한 구현들에서 조합되거나 달리 재배열될 수 있다. 일부 구현들에서, 메모리(306)는 선택적으로 앞서 식별된 모듈들 및 데이터 구조들의 서브세트를 저장한다. 또한, 메모리(306)는 선택적으로 앞서 설명되지 않은 추가적인 모듈들 및 데이터 구조들을 저장한다.

예시적인 포커스 세션

[0076] 도 4a 내지 도 4d는 일부 구현들에 따른 포커스 세션의 예를 예시한다. 음성-활성화 디바이스(104)(예를 들어, 동작 환경(100)) 및 다수의 제어가능한 디바이스들(106)을 갖는 동작 환경에서, 환경 내의 사용자가 제어가능한 디바이스들(106) 중 하나를 타겟 디바이스로서 특정하는 음성 입력을 행하는 경우, 포커스-내 디바이스로서의 타겟 디바이스와 포커스 세션이 수립될 수 있다.

[0077] 도 4a는 동작 환경(예를 들어, 동작 환경(100))에서 음성-활성화 디바이스(404)(예를 들어, 음성-활성화 디바이스(104)) 및 3개의 제어가능한 디바이스들(406, 408 및 410)(예를 들어, 제어가능한 디바이스들(106))을 도시한다. 디바이스들은 사용자(402)와 동일한 공간에(예를 들어, 동일한 방에) 일 수 있거나 또는 사용자가 위치된 구조 전반에 걸쳐 확산될 수 있다. 디바이스(406)는 "마스터 침실 스피커"라는 닉네임의 스피커 시스템이다. 디바이스(408)는 "거실 TV"라는 닉네임의 미디어 디바이스이다. 디바이스(410)는 "게임 방 TV"라는 닉네임의 미디어 디바이스이다. 그 순간에 어떠한 포커스 세션도 없고; 포커스 세션(418)은 비어 있다.

[0078] 사용자(402)는 "게임 방 TV에서 고양이 비디오를 재생해"라는 음성 입력(403)을 말하고, 음성-활성화 디바이스(404)는 음성 입력을 수신한다. 음성-활성화 디바이스(404)는, 음성 입력(403) 내의 요청이 고양이 비디오들을 재생하라는 요청이고, 타겟 디바이스는 음성 입력(403)에서 명시적으로 특정된 "게임 방 TV" 디바이스(410)라고 결정한다. "게임 방 TV" 디바이스(410)인 포커스-내 디바이스와의 세션(418)은 도 4b에 도시된 바와 같이 음성-활성화 디바이스(404)에서 수립된다. 고양이 비디오들을 재생하라는 커맨드는 (디바이스(404) 또는 음성 어시스턴스 서버 시스템(112)에 의해) "게임 방 TV" 디바이스(410)에 전송되고, 디바이스(410)는 동작(416)을 수행한다.

[0079] 도 4c를 참조하면, 후속적으로, 포커스 내의 "게임 방 TV"(410)와의 세션(418)이 활성이고 동작(416)이 디바이스(410)에 의해 수행되고 있는 동안, 사용자(402)는 다른 음성 입력 "일시정지"(420)를 말한다. 음성-활성화 디바이스(404)는 음성 입력(420)이 타겟 디바이스의 특정을 포함하는지 여부, 및 음성 입력(420) 내의 요청이 포커스-내 디바이스(410)에 의해 수행될 수 있는지 여부를 결정한다. 특정 음성 입력(420) "일시정지"의 경우, 음성-활성화 디바이스(404)는, 음성 입력(420)이 타겟 디바이스의 특정을 포함하지 않고, 음성 입력 내의 요청(재생되고 있는 것의 "일시정지")이 포커스-내 디바이스에 의해 수행될 수 있다고 결정한다. 일부 구현들에서, 음성 입력(420)이 타겟 디바이스의 특정을 포함하는지 여부를 결정하는 것은 음성 입력 내의 디바이스 닉네임들에 대한 매칭을 찾는 것(예를 들어, 음성 입력에 대한 스피치-대-텍스트 인식을 수행하고 디바이스 닉네임들을 찾기 위해 텍스트를 파싱하는 것)을 포함한다. 일부 구현들에서, 음성 입력 내의 요청이 포커스-내 디바이스에 의해 수행될 수 있는지 여부를 결정하는 것은, 음성 입력 내의 요청이 무엇인지 결정하는 것 및 세션 내의 마지막 커맨드와의 일관성에 대해 요청을 현재 포커스 세션(418)의 커맨드 이력(예를 들어, 이력(260))과 비교하는 것(예를 들어, "음악 일시정지" 요청은 "음악 일시정지"인 가장 최근의 커맨드와 불일치함) 뿐만 아니라 포커스-내 디바이스의 능력들과의 일관성을 위해 요청을 비교하는 것(예를 들어, "음악 일시정지" 요청은 스마트 조명의 능력들과 불일치함)을 포함한다.

[0080] 일부 구현들에서, 음성-활성화 디바이스(404)는 또한 음성 입력(420)이 하나 이상의 포커스 세션 유지 기준들을 충족하는지 여부를 결정한다. 일부 구현들에서, 포커스 세션 유지 기준은, 음성 입력(420)의 타임스탬프가 활성 세션 내의 마지막 음성 입력(403)의 타임스탬프로부터 특정 시간 내에 있는 것(예를 들어, 제2 음성 입력이 선행 제1 음성 입력의 특정 시간 내에 수신되는 것)이다. 일부 구현들에서, 이러한 기준에 대한 다수의 시간 임계치들이 존재한다. 예를 들어, 제1의 더 짧은 시간 임계치(예를 들어, 20 분) 및 제2의 더 긴 시간 임계치(예를 들어, 4 시간)가 존재할 수 있다. 음성 입력(420)이 마지막 음성 입력(403)의 제1의 더 짧은 임계치 내에 수신되고, 상기 다른 기준들이 충족되면, 포커스-내 디바이스는 음성 입력(420)에 대한 타겟 디바이스로서 설정된다(그리고, 일부 구현에서, 음성 입력(420)을 프로세싱을 위해 음성 어시스턴스 서버 시스템(112)에 송신할 때 이러한 타겟 디바이스 세팅을 또한 송신한다). 예를 들어, 음성 입력(420)은 타겟 디바이스 특정을 포함하지 않고, 요청 "일시정지"는 마지막 커맨드 "고양이 비디오를 재생해"와 일치하는 것으로 결정된다. 음성 입력(420)이 음성 입력(403)의 더 짧은 시간 임계치 내에 수신되면, 도 4d에 도시된 바와 같이, 포커스-내 디바이스 "게임 방 TV" 디바이스(410)가 음성 입력(420)에 대한 타겟 디바이스로서 설정되고, "게임 방 TV" 디바이스(410)에서 수행되고 있는 동작(416)은 음성 입력(420)에 따라 고양이 비디오들을 일시정지하는 것이다.

[0081] 음성 입력(420)이 제1의 더 짧은 임계치 이후 및 마지막 음성 입력(403)의 제2의 더 긴 임계치 내에 수신되고, 상기 다른 기준들이 충족되면, 음성-활성화 디바이스(404)는 포커스-내 디바이스가 음성 입력(420)에 대한 원하는 타겟 디바이스라는 사용자로부터의 확인을 요청하기 위한 음성 프롬프트를 출력한다. 음성-활성화 디바이스(404)는 포커스-내 디바이스가 원하는 타겟 디바이스라는 확인을 수신하면, 세션(418)을 유지하고, 포커스-내 디바이스를 음성 입력(420)에 대한 타겟 디바이스로서 설정한다(그리고, 일부 구현에서, 음성 입력(420)을 프로세싱을 위해 음성 어시스턴스 서버 시스템(112)에 송신할 때 이러한 타겟 디바이스 세팅을 또한 송신한다). 사용자가 타겟 디바이스를 확인하지 않으면, 음성-활성화 디바이스(404)는, 사용자가 타겟 디바이스 특정을 제공하도록 요청하고, 사용자가 음성 입력을 다시 말하면서 타겟 디바이스 특정을 포함하도록 요청하고, 그리고/또는 세션(418)을 종료할 수 있다. 일부 구현들에서, 음성 입력(420)이 마지막 음성 입력(403)으로부터 제2의 더 긴 임계치 이후 수신되거나, 앞서 설명된 다른 기준들이 충족되지 않으면, 세션(418)은 종료된다. 일부 구현들에서, 이러한 시간 임계치들의 값들은 메모리(206) 및/또는 메모리(306)에 저장된다. 음성 입력들 사이에서 경과된 시간은 이러한 임계치들과 비교된다.

[0082] 일부 구현들에서, 음성 입력 내에서 명시적으로 특정된 타겟 디바이스 및 음성 입력 내의 요청과 마지막 음성 입력과의 및 포커스-내 디바이스의 능력들과의 일관성의 결핍이 또한 포커스 세션 유지 기준들로 고려된다.

예시적인 프로세스

[0083] 도 5는 일부 구현들에 따른 사용자의 음성 입력에 대응하는 방법(500)을 예시하는 흐름도이다. 일부 구현들에서, 방법(500)은 하나 이상의 마이크로폰들, 스피커, 하나 이상의 프로세서들 및 하나 이상의 프로세서들에 의한 실행을 위해 하나 이상의 프로그램들을 저장하는 메모리를 갖는 제1 전자 디바이스(예를 들어, 음성-활성화 디바이스(104))에서 구현된다. 이러한 제1 전자 디바이스는 공통 네트워크 서비스(예를 들어, 음성 어시스턴스 서비스(140))에 (예를 들어, 네트워크들(110)을 통해) 통신가능하게 커플링되는 접속된 전자 디바이스들(예를 들어, 사용자 계정과 연관된 음성-활성화 디바이스들(104) 및 제어가능한 디바이스들(106); 특정 음성-활성화 디바이스(104)와 연관된 제어가능한 디바이스들(106))의 로컬 그룹의 멤버이다.

[0084] 제1 전자 디바이스는 제1 동작에 대한 요청을 포함하는 제1 음성 커맨드를 수신한다(502). 예를 들어, 음성-활성화 디바이스(404)는 제1 음성 입력(403)을 수신한다.

[0085] 제1 전자 디바이스는 접속된 전자 디바이스들의 로컬 그룹 중 제1 동작에 대한 제1 타겟 디바이스를 결정한다(504). 음성-활성화 디바이스(404)는 (예를 들어, 음성 프로세싱 모듈(238)에 의한 프로세싱에 기초하여) 디바이스들(406, 408 및 410) 중 음성 입력(403)에 대한 타겟 디바이스(또는 디바이스 그룹)를 결정한다. 음성-활성화 디바이스(404)는 음성 입력(403) 내의 타겟 디바이스 특정 "게임 방 TV"를 "게임 방 TV" 디바이스(410)로서 인식한다.

[0086] 제1 전자 디바이스는 제1 타겟 디바이스(또는 디바이스 그룹)에 대한 포커스 세션을 수립한다(506). 음성-활성화 디바이스(404)(예를 들어, 포커스 세션 모듈(252))는 포커스-내 디바이스로서 "게임 방 TV" 디바이스(410)와 포커스 세션(418)을 수립한다.

[0087] 제1 전자 디바이스는 공통 네트워크 서비스의 동작을 통해 제1 동작이 제1 타겟 디바이스(또는 디바이스 그룹)에 의해 수행되게 한다(508). 음성-활성화 디바이스(404) 또는 음성 어시스턴스 서버 시스템(112)는 음성 어시스턴스 서비스(140)를 통해, 음성 입력(403)에서 요청된 동작을 수행하라는 커맨드를 디바이스(410)에 송신한다.

[0088] 제1 전자 디바이스는 제2 동작에 대한 요청을 포함하는 제2 음성 커맨드를 수신한다(510). 음성-활성화 디바이스(404)는 제2 음성 입력(420)을 수신한다.

[0089] 제1 전자 디바이스는 제2 음성 커맨드가 제2 타겟 디바이스(또는 디바이스 그룹)의 명시적 지정을 포함하지 않는다고 결정한다(512). 음성-활성화 디바이스(404)는 (예를 들어, 음성 프로세싱 모듈(238)에 의한 프로세싱에 기초하여) 음성 입력(420)에 대한 타겟 디바이스를 결정하고, 음성 입력(420)이 타겟 디바이스 특정을 포함하지 않는다고 인식한다.

[0090] 제1 전자 디바이스는 제2 동작이 제1 타겟 디바이스(또는 디바이스 그룹)에 의해 수행될 수 있다고 결정한다(514). 음성-활성화 디바이스(404)는, 음성 입력(420)에서 요청된 동작이 포커스-내 디바이스(410)에 의해 수행될 수 있고, 음성 입력(403)에서 요청되고 포커스-내 디바이스(410)에 의해 수행되고 있는 마지막 동작과 일치한다고 결정한다.

[0091] 제1 전자 디바이스는 제2 음성 커맨드가 하나 이상의 포커스 세션 유지 기준들을 충족하는지 여부를 결정한다(516). 음성-활성화 디바이스(404)는 음성 입력(420)이 음성 입력(403)의 특정 시간 내에서 수신되는지 여부를 결정한다.

[0092] 제2 음성 커맨드가 포커스 세션 유지 기준들을 충족한다는 결정에 따라, 제1 전자 디바이스는 공통 네트워크 서비스의 동작을 통해 제2 동작이 제1 타겟 디바이스(또는 디바이스 그룹)에 의해 수행되게 한다(518). 음성-활성화 디바이스(404)는, 음성 입력(420)이 음성 입력(403)의 제1의 더 짧은 시간 임계치 내에 수신된다고 결정하고, 그 결정에 따라 음성 입력(420)에 대한 타겟 디바이스를 포커스-내 디바이스(410)인 것으로 설정한다. 음성-활성화 디바이스(404) 또는 음성 어시스턴스 서버 시스템(112)는 음성 어시스턴스 서비스(140)를 통해, 음성 입력(420)에서 요청된 동작을 수행하라는 커맨드를 디바이스(410)에 송신한다.

[0093] 일부 구현들에서, 접속된 전자 디바이스들의 로컬 그룹 중 제1 동작에 대한 제1 타겟 디바이스를 결정하는 것은 제1 음성 커맨드로부터 제1 타겟 디바이스의 명시적 지정을 획득하는 것을 포함한다. 음성-활성화 디바이스(404)는, 음성 입력(403)이 타겟 디바이스의 명시적 특정을 포함하는지 여부를 결정하기 위해 음성 입력(403)을 프리-프로세싱한다. 음성-활성화 디바이스(404)는 대안적으로, 음성 입력(403)을 프로세싱한 음성 어시스턴스 서버 시스템(112)으로부터 타겟 디바이스의 명시적 특정을 수신할 수 있다.

[0094] 일부 구현들에서, 접속된 전자 디바이스들의 로컬 그룹 중 제1 동작에 대한 제1 타겟 디바이스를 결정하는 것은, 제1 음성 커맨드가 제1 타겟 디바이스의 명시적 지정을 포함하지 않는다고 결정하는 것, 제1 동작이 접속된 전자 디바이스들의 로컬 그룹 중 제2 전자 디바이스에 의해 수행될 수 있다고 결정하는 것, 및 제2 전자 디바이스를 제1 타겟 디바이스로 선택하는 것을 포함한다. 제1 음성 입력이 타겟의 명시적 특정을 포함하지 않지만, 제1 음성 입력 내에 포함된 요청이 그룹 내의 단일 디바이스에 의해 수행될 수 있는 것(예를 들어, 비디오-관련 커맨드 및 그룹 내에 단지 하나의 비디오-가능 디바이스만이 존재하는 것)이면, 그 단일 디바이스가 제1 음성 입력에 대한 타겟 디바이스로서 설정된다. 추가로, 일부 구현들에서, 음성-활성화 디바이스 이외에, 단지 하나의 제어가능한 디바이스가 존재하면, 그 제어가능한 디바이스는, 타겟 디바이스를 명시적으로 특정하지 않고 그 제어가능한 디바이스에 의해 수행될 수 있는 요청된 동작들을 갖는 음성 입력들에 대한 디폴트 타겟 디바이스이다.

[0095] 일부 구현들에서, 사용자의 음성 입력 이력(예를 들어, 음성 어시스턴스 서버 시스템(112)에 의해 수집되고 메모리(306)에 저장되고, 음성-활성화 디바이스(104)에 의해 수집되고 메모리(206)에 저장됨)은, 특정 음성-활성화 디바이스(104)가 특정 제어가능한 디바이스(106)를 제어하기 위해 빈번하게 사용되는 것으로 이력이 나타내는지 여부를 결정하기 위해 (예를 들어, 음성 어시스턴스 서버 시스템(112) 또는 음성-활성화 디바이스(104)에 의해) 분석될 수 있다. 이력이 이러한 관계를 나타내면, 특정 제어가능한 디바이스가 음성 활성화 디바이스에 대한 음성 입력들에 대한 디폴트 타겟 디바이스로서 설정될 수 있다.

[0096] 일부 구현들에서, 디폴트 타겟 디바이스의 특정(예를 들어, 식별자)은 음성-활성화 디바이스(104) 및/또는 음성 어시스턴스 서버 시스템(112)에 저장된다.

[0097] 일부 구현들에서, 제2 음성 커맨드가 포커스 세션 유지 기준들을 충족한다는 결정에 따라, 제1 타겟 디바이스에 대한 포커스 세션을 연장한다. 일부 구현들에서, 포커스 세션은 특정양의 시간 이후 타임 아웃(즉, 종료)된다. 포커스 세션(418)은, 제2 음성 입력(420)이 포커스 세션 유지 기준들을 충족하면, 시간에서 연장될 수 있다(예를 들어, 타임아웃 타이머를 리셋할 수 있다).

[0098] 일부 구현들에서, 제1 타겟 디바이스에 대한 포커스 세션을 수립하는 것은 제1 음성 커맨드의 타임스탬프를 저장하는 것 및 제1 타겟 디바이스의 식별자를 저장하는 것을 포함한다. 음성 입력(403)을 수신한 후 포커스 세션이 수립되는 경우, 음성-활성화 디바이스(404)는 (예를 들어, 세션 커맨드 이력(260)에) 음성 입력(403)의 시간 및 (예를 들어, 세션 포커스-내 디바이스(256)에) 포커스-내 디바이스(410)의 식별자를 저장한다.

[0099] 일부 구현들에서, 포커스 세션 유지 기준들은, 제1 음성 커맨드를 수신하는 것에 대해 미리 정의된 제1 시간 인터벌 내에 제2 음성 커맨드가 제1 전자 디바이스에 의해 수신되거나, 또는 제1 음성 커맨드를 수신하는 것에 대한 미리 정의된 제2 시간 인터벌에 제2 음성 커맨드가 제1 전자 디바이스에 의해 수신된다는 기준을 포함하고 ― 미리 정의된 제2 시간 인터벌은 미리 정의된 제1 시간 인터벌에 후속함 ―; 제2 음성 커맨드가 하나 이상의 포커스 세션 유지 기준들을 충족하는지 여부를 결정하는 것은 제2 음성 커맨드가 미리 정의된 제1 시간 인터벌 또는 미리 정의된 제2 시간 인터벌 중 어느 하나 내에 수신되는지 여부를 결정하는 것을 포함한다. 음성-활성화 디바이스(404)는, 음성 입력(420)이 음성 입력(403)의 제1 시간 임계치 또는 제2 시간 임계치 내에 수신되는지 여부를 포함하여, 음성 입력(420)이 하나 이상의 포커스 세션 유지 기준들을 충족하는 여부를 결정한다.

[00100] 일부 구현들에서, 제2 음성 커맨드가 미리 정의된 제1 시간 인터벌 내에 수신된다는 결정에 따라, 제1 전자 디바이스는 제1 타겟 디바이스를 제2 음성 커맨드에 대한 타겟 디바이스로서 선택한다. 음성 입력(420)이 음성 입력(403)으로부터 제1의 더 짧은 시간 임계치 내에 수신되는 것으로 결정되면, 포커스-내 디바이스(410)는 음성 입력(420)에 대한 타겟 디바이스로 설정된다.

[00101] 일부 구현들에서, 제2 음성 커맨드가 미리 정의된 제2 시간 인터벌 내에 수신된다는 결정에 따라, 제1 전자 디바이스는 제1 타겟 디바이스를 제2 음성 커맨드에 대한 타겟 디바이스로서 확인하기 위한 요청을 출력하고; 확인하기 위한 요청에 대한 응답으로 제1 타겟 디바이스를 긍정적으로 확인함에 따라, 제1 타겟 디바이스를 제2 음성 커맨드에 대한 타겟 디바이스로 선택한다. 음성 입력(420)이 제1의 더 짧은 시간 임계치 외부에서, 그러나 제2의 더 긴 시간 임계치 내에서 음성 입력(403)으로부터 수신되는 것으로 결정되면, 음성-활성화 디바이스는 타겟 디바이스의 확인을 위해 사용자에게 프롬프트한다(예를 들어, 포커스-내 디바이스(410)가 의도된 타겟 디바이스인지 여부를 사용자에게 문의한다). 포커스-내 디바이스(410)가 의도된 타겟 디바이스임을 사용자가 확인하면, 포커스-내 디바이스(410)는 음성 입력(420)에 대한 타겟 디바이스로서 설정된다.

[00102] 일부 구현들에서, 제1 전자 디바이스는 제3 동작에 대한 요청 및 접속된 전자 디바이스들의 로컬 그룹 중 제3 타겟 디바이스의 명시적 지정을 포함하는 제3 음성 커맨드를 수신하고, 제1 타겟 디바이스에 대한 포커스 세션을 종료하고, 제3 타겟 디바이스에 대한 포커스 세션을 수립하고, 공통 네트워크 서비스의 동작을 통해 제3 동작이 제3 타겟 디바이스에 의해 수행되게 한다. 음성-활성화 디바이스(404)는 음성 입력(420) 이후, 디바이스(410) 이외의 타겟 디바이스(예를 들어, 디바이스(406 또는 408))의 명시적 특정을 포함하는 새로운 음성 입력을 수신할 수 있다. 그 음성 입력의 수신에 따라, 포커스 내의 디바이스(410)와의 포커스 세션(418)은 종료되고, 포커스 내의 새로운 타겟 디바이스와의 새로운 세션이 수립된다. 음성-활성화 디바이스(404) 또는 음성 어시스턴스 서버 시스템(112)는 음성 어시스턴스 서비스(140)를 통해, 새로운 음성 입력에서 요청된 동작을 수행하라는 커맨드를 새로운 타겟 디바이스에 송신한다.

[00103] 일부 구현들에서, 제1 타겟 디바이스는 제1 전자 디바이스이다. 제1 전자 디바이스는 제4 동작에 대한 요청 및 접속된 전자 디바이스들의 로컬 그룹 중 제4 타겟 디바이스의 명시적 지정을 포함하는 제4 음성 커맨드를 수신하고, ― 제4 타겟 디바이스는 접속된 전자 디바이스들의 로컬 그룹의 제3 전자 디바이스 멤버이고, 제3 전자 디바이스는 제1 전자 디바이스와 상이함 ―; 제1 타겟 디바이스에 대한 포커스 세션을 유지하고; 공통 네트워크 서비스의 동작을 통해 제4 동작이 제4 타겟 디바이스에 의해 수행되게 한다. 음성-활성화 디바이스(404)에서 활성 포커스 세션(418)에 대한 포커스-내 디바이스가 음성-활성 디바이스(404) 자체이면, 상이한 디바이스를 타겟으로 특정하는 새로운 음성 입력이 음성 입력(420) 이후 수신되고, 그 다음, 음성-활성화 디바이스(404) 또는 음성 어시스턴스 서버 시스템(112)이 음성 어시스턴스 서비스(140)를 통해, 새로운 음성 입력에서 요청된 동작을 수행하라는 커맨드를 상이한 타겟 디바이스에 송신하지만, 포커스 세션은 포커스 내의 음성-활성화 디바이스(404)와 유지된다.

[00104] 일부 구현들에서, 제2 음성 커맨드는, 제4 동작이 제4 타겟 디바이스에 의해 수행되게 된 후 수신되고, 제1 동작은 미디어 재생 동작이고, 제2 동작은 미디어 정지 동작이다. 제1 전자 디바이스는 제5 동작에 대한 요청 및 접속된 전자 디바이스들의 로컬 그룹 중 제5 타겟 디바이스의 명시적 지정을 포함하는 제5 음성 커맨드를 수신하고 ― 제5 타겟 디바이스는 제3 전자 디바이스임 ―, 제1 타겟 디바이스에 대한 포커스 세션을 종료하고, 제5 타겟 디바이스에 대한 포커스 세션을 수립하고, 공통 네트워크 서비스의 동작을 통해 제5 동작이 제5 타겟 디바이스에 의해 수행되게 한다. 음성-활성화 디바이스(404)에서 활성 포커스 세션(418)에 대한 포커스-내 디바이스가 음성-활성 디바이스(404) 자체이고, 미디어 재생을 개시하라는 요청을 포함한 음성 입력(403) 및 음성 입력(403)의 결과로서 미디어 재생을 일시정지하라는 요청을 포함한 음성 입력(403) 및 상이한 디바이스를 타겟으로 특정하는 새로운 음성 입력이 음성 입력(420) 이후 수신되면, 음성-활성화 디바이스(404) 또는 음성 어시스턴스 서버 시스템(112)은 음성 어시스턴스 서비스(140)를 통해, 새로운 음성 입력에서 요청된 동작을 수행하라는 커맨드를 상이한 타겟 디바이스에 송신하고, 포커스 내의 음성-활성화 디바이스와의 포커스 세션은 종료되고, 포커스 내의 새로운 타겟 디바이스와의 새로운 포커스 세션이 수립된다.

[00105] 일부 구현들에서, 제1 전자 디바이스는 미리 정의된 동작 종료 요청을 포함하는 제5 음성 커맨드를 수신하고, 제5 음성 커맨드를 수신하는 것에 따라, 제1 동작이 제1 타겟 디바이스에 의해 수행되는 것을 종료시키고, 제1 타겟 디바이스에 대한 포커스 세션을 종료한다. 음성-활성화 디바이스(404)가 미리 정의된 종료 커맨드(예를 들어, "중단")을 수신하면, 음성-활성화 디바이스(404) 또는 음성 어시스턴스 서버 시스템(112)은 음성 어시스턴스 서비스(140)를 통해, 동작(416)을 수행하는 것을 종료하라는 커맨드를 디바이스(410)에 송신하고, 포커스 세션(418)은 종료된다.

[00106] 일부 구현들에서, 제1 동작은 미디어 재생 동작이고, 제2 동작은, 미디어 중지 동작, 미디어 되감기 동작, 미디어 빨리감기 동작, 볼륨 업 동작 및 볼륨 다운 동작 중 하나이다. 음성 입력(403) 내의 요청은 미디어 콘텐츠(예를 들어, 비디오, 음악)의 재생을 개시하라는 요청일 수 있고, 음성 입력(420) 내의 요청은 재생을 제어하라는 요청(예를 들어, 일시정지, 되감기, 빨리감기, 볼륨 업/다운 변경, 다음 항목/트랙, 이전 항목/트랙 등)일 수 있다.

[00107] 일부 구현들에서, 제1 동작은 복수의 디바이스 상태들 중 제1 상태로의 디바이스 상태 변경 동작이고, 제2 동작은 복수의 디바이스 상태들 중 제2 상태로의 디바이스 상태 변경 동작이다. 음성 입력(403) 내의 요청은 제1 상태로 전환하라는 요청(예를 들어, 조명 또는 디바이스를 턴 온, 수면 모드로 이동)일 수 있고, 음성 입력(420) 내의 요청은 제2 상태로 전환하라는 요청(예를 들어, 조명 또는 디바이스를 턴 오프, 수면 모드로부터 웨이크)일 수 있다.

[00108] 일부 구현들에서, 제1 동작은 크기 스케일에서 제1 방향으로의 크기 변경 동작이고, 제2 동작은 크기 스케일에서 제1 방향의 반대인 제2 방향으로의 크기 변경 동작이다. 음성 입력(403) 내의 요청은 일 방향으로 크기를 변경하라는 요청(예를 들어, 조명을 밝게 하는 것, 볼륨 업 변경)일 수 있고, 음성 입력(420) 내의 요청은 반대 방향으로 크기를 변경하라는 요청(예를 들어, 조명을 어둡게 하는 것, 볼륨 다운 변경)일 수 있다.

[00109] 일부 구현들에서, 제1 전자 디바이스는 하나 이상의 LED들의 어레이를 포함한다. 제1 전자 디바이스는 LED들의 어레이의 LED들 중 하나 이상을 조명함으로써 포커스 세션의 상태를 표시한다. 음성-활성화 디바이스(404)는, LED 어레이 상에 패턴들을 디스플레이함으로써, 활성 포커스 세션, 또는 포커스 세션과 연관된 다른 상태들 및 다른 정보(예를 들어, 포커스 세션이 얼마나 오래 활성이었는지 또는 마지막 음성 입력 이후 얼마나 많은 시간이 경과되었는지의 표시)가 존재함을 표시할 수 있다.

[00110] 일부 구현들에서, 포커스 세션들은 식별된 사용자마다 수립될 수 있다. 예를 들어, 사용자가 타겟 디바이스를 특정하는 음성 입력을 말하면, 사용자가 식별되고 식별된 사용자에 대해 포커스 세션이 수립되고, 음성 입력에서 특정된 타겟 디바이스는 포커스 내에 있다. 상이한 사용자가 음성 입력을 말하고 상이한 타겟 디바이스를 특정하면, 상이한 사용자가 식별되고, 식별된 상이한 사용자에 대해 다른 포커스 세션이 수립되고, 상이한 타겟 디바이스는 포커스 내에 있다. 상이한 사용자들에 의해 발화되며 타겟 디바이스를 특정하지 않은 음성 입력들에는 각각의 식별된 사용자에 대응하는 활성 포커스 세션에 기초하여 상이한 타겟 디바이스들이 할당된다.

포커스 세션들의 추가적인 예들

[00111] 하기 구현들은 미디어 디바이스들인 하나 이상의 제어가능한 디바이스들(106)과 동일한 방 내의 음성-활성화 디바이스(104)의 상황에서 구현들을 설명한다. 아래에서 설명되는 구현들은 다른 타입들의 제어가능한 디바이스들(106)(예를 들어, 스마트 홈 디바이스들) 및 다른 디바이스 배치 셋업들에 적응될 수 있음을 인식해야 한다.

[00112] 일부 구현들에서, 음성-활성화 디바이스 상에서 미리 재생되는 어떠한 미디어도 없으면, 음성-활성화 디바이스 이외의 제어가능한 디바이스인 포커스-내 디바이스와의 포커스 세션이 시작될 수 있다. 일부 구현들에서, 음성-활성화 디바이스 상에서 재생되는 미디어가 일시정지되면, 포커스-내 디바이스로서 음성-활성화 디바이스 이외의 제어가능한 디바이스와의 포커스 세션이 시작될 수 있다.

[00113] 일부 구현들에서, 사용자가 음성-활성화 디바이스와 연관된 (및 선택적으로 음성-활성화 디바이스와 동일한 WiFi 네트워크 상에서) 디바이스 또는 디바이스 그룹으로 지향되는 명시적 타겟 디바이스를 갖는 임의의 유효 요청을 발행하면 포커스 세션이 시작된다. 이러한 유효 요청들의 예들은 "내 거실 스피커에서 어떤 음악을 재생해", "침실 tv에서 볼륨을 높여", "내 홈 그룹에서 다음 노래", 및 "거실 스피커를 일시정지해"를 포함한다. 명시적 타겟 디바이스는 포커스 세션에 대한 포커스-내 디바이스가 된다.

[00114] 일부 구현들에서, 요청이 명백하게 비디오와 연관된 요청이고, 연관된 제어가능한 디바이스들 중 단일 비디오-가능 디바이스가 존재하면, 포커스 세션은 포커스-내 디바이스로서 비디오-가능 디바이스와 수립될 수 있다.

[00115] 일부 구현들에서, 음성-활성화 디바이스가 활성으로 미디어를 재생하고 있는 동안 타겟 디바이스로서 다른 디바이스를 갖는 요청이 수신되면, 포커스는 음성-활성화 디바이스에 대해 유지될 것이지만, 일단 음성-활성화 디바이스가 자신의 세션을 중지 또는 일시정지하면, 다른 디바이스 상에서 미디어를 재생 또는 제어하라는 임의의 새로운 요청이 포커스를 그 다른 디바이스로 이동시킨다.

[00116] 예를 들어, 사용자가 "레이디 가가를 재생해"를 요청하고, 음성-활성화 디바이스가 레이디 가가 음악을 재생하기 시작하고, 포커스 내의 음성-활성화 디바이스와 포커스 세션을 시작한다. 그 다음 사용자는 "일시정지"를 요청하고, 음성-활성화 디바이스는 레이디 가가 음악을 일시정지한다(그리고 말하자면, 2 시간 동안 포커스 세션을 유지한다). 1 시간이 지난 후, 사용자는 "내 TV에 고양이 비디오를 재생해"를 요청한다. 포커스는 TV로 이동하고, TV는 고양이 비디오들을 재생하기 시작한다.

[00117] 다른 예로서, 사용자가 "레이디 가가를 재생해"를 요청하고, 음성-활성화 디바이스가 레이디 가가 음악을 재생하기 시작하고, 포커스 내의 음성-활성화 디바이스와 포커스 세션을 시작한다. 그 다음, 사용자는 "내 TV에서 고양이 비디오를 보여줘"를 요청하고, 고양이 비디오가 TV 상에 나타나기 시작하지만, 포커스는 음성-활성화 디바이스 상에서 유지된다. 그 다음, 사용자가 "다음"을 요청하고, 음성-활성화 디바이스는 요청에 따라 레이디 가가 음악의 다음 트랙으로 진행한다. 그 다음, 사용자는 "일시정지"를 요청하고, 음성-활성화 디바이스의 음악은 일시정지된다. 그 다음, 사용자는 "내 TV에서 다음 슬라이드"를 요청하고, 다음 슬라이드가 TV에서 시작하고, 포커스는 TV로 전달된다.

[00118] 일부 구현들에서, 유효 요청들은 음악을 개시하는 것, 비디오를 개시하는 것, 뉴스 읽기를 개시하는 것(예를 들어, 뉴스 기사들 판독), 팟캐스트를 개시하는 것, 사진들을 개시하는 것(예를 들어, 사진 디스플레이 또는 슬라이드쇼) 및 임의의 미디어 제어 커맨드(임의의 현재 포커스 세션을 종료하는 미리 정의된 중지 커맨드 이외)를 포함한다.

[00119] 일부 구현들에서, 포커스 세션은 다음 중 임의의 것이 발생하는 경우 종료된다:

· 포커스 세션이 (음성 입력, 예를 들어, 상이한 디바이스를 명시적으로 특정하는 음성 입력을 통해) 상이한 디바이스로 전달되고, 이러한 경우 상이한 디바이스와의 포커스 세션이 시작된다;

· 음성 입력 또는 다른 디바이스로부터의 캐스팅을 통해(예를 들어, 음성: "<음성-인터페이스 디바이스의 닉네임>에서 레이디 가가를 재생해", "가까이에서 레이디 가가를 재생해" 등을 통해; 캐스팅: 사용자가 클라이언트 디바이스 상의 애플리케이션을 통해 음성-활성화 디바이스에 콘텐츠를 캐스팅함을 통해) 음성-활성화 디바이스 상에서 포커스 세션이 시작하거나 (일시정지 상태 밖으로) 재개됨;

o 그러나, 음성-활성화 디바이스가 미디어를 재생하려는 그룹의 멤버(팔로워 또는 리더)이면, (재생중인 경우에도) 포커스를 중지하지 않을 것이다. 따라서 포커스는 그룹의 리더(다른 음성-활성화 디바이스일 수 있음)에서 유지될 것이다;

· 요청이 포커스-내인 제어가능한 디바이스에 대한 미리 정의된 "중지" 커맨드(모든 관련 문법을 포함함)인 경우;

· 타임아웃 관련 커맨드들;

o 타임아웃들은, 제어가능한 디바이스가 명시적으로 특정되든, 또는 미리 정의된 "중지" 커맨드 이외에, 포커스 세션의 포커스-내 디바이스에 기초하여 설정되든, 제어가능한 디바이스에 주어진 마지막 요청 또는 커맨드로부터 측정될 수 있다;

o 타임아웃은 다양한 가능한 커맨드들에 걸쳐 240 분일 수 있다;

· 사용자가 일시정지/재생에 대해 사용되는 음성-활성화 디바이스 상의 버튼을 누르는 경우(또한, 이는 음성-활성화 디바이스 상에서 임의의 일시정지된 콘텐츠를 로컬로 또한 재개할 것이다).

[00120] 일부 구현들에서, 음성-활성화 디바이스는 타겟 디바이스의 사용자 확인을 요청한다. 사용자는 다음과 같이 제어가능한 디바이스 상에서 미디어를 재생하기를 원하는지에 대한 확인을 위해 프롬프트된다:

· 프롬프트는 미디어 개시(예를 들어, 아무것도 재생되고 있지 않은 경우 음악을 시작)(대 빨리감기 또는 다음 트랙과 같은 미디어 제어)에 대해 트리거링된다;

· 프롬프트는 포커스 세션이 활성인 경우 트리거링된다;

· 프롬프트는, 제어가능한 디바이스가 명시적으로 특정되든, 또는 미리 정의된 "중지" 커맨드 이외에, 포커스 세션의 포커스-내 디바이스에 기초하여 설정되든, 제어가능한 디바이스에 주어진 현재 음성-활성화 디바이스로부터의 마지막 음성 커맨드로부터 어떤 시간(예를 들어, 20 분)이 지난 후 트리거링된다.

[00121] 확인하기 위한 프롬프트는, 예를 들어, 다음과 같을 수 있다:

· 음성-활성화 디바이스가 "<제어가능한 디바이스 이름>에서 재생하기를 원하세요?"를 출력한다.

o 사용자가 "응"으로 응답한다. 그 다음, 요청된 미디어가 포커스-내 제어가능한 디바이스 상에서 재생되고, 포커스가 그 디바이스에 대해 유지된다.

o 사용자가 "아니"로 응답한다. 그 다음, 요청된 미디어는 음성-활성화 디바이스 상에서 재생되고 포커스 세션은 종료된다.

o 기타; 예를 들어, 사용자의 응답이 불명확하면, 음성-활성화 디바이스는 "죄송해요. 당신의 응답을 이해할 수 없어요"를 출력할 수 있다.

[00122] 일부 구현들에서, 포커스 세션이 개시되는 경우, 미디어 개시 및 음성 기반 제어 커맨드들이 포커스-내 제어가능한 디바이스에 적용된다. 음성-활성화 디바이스에 의해 넌-미디어 요청들(예를 들어, 검색들, 질문들)이 답신되고, 넌-미디어 요청들은 포커스 세션을 종료시키지 않는다.

[00123] 일부 구현들에서, 포커스 세션이 시작된 경우에도, 물리적 상호작용들이 여전히 음성-활성화 디바이스를 제어할 것이어서, 볼륨을 변경하고 일시정지/재생하기 위한 음성-활성화 디바이스와의 물리적 상호작용(예를 들어, 버튼을 누르는 것, 터치-감응 영역을 터치하는 것)은 음성-활성화 디바이스에 영향을 미치며, 제어가능한 디바이스에 반드시 영향을 미치지는 않는다.

[00124] 일부 구현들에서, 음성-활성화 디바이스 상에서 재생되는 타이머들/경보들/텍스트-투-스피치에 대해 발행되는 요청들 또는 커맨드들은 포커스-내 제어가능한 디바이스에 대한 유사한 요청들 또는 커맨드들보다 높은 우선순위를 갖는다. 예를 들어, 음성-활성화 디바이스가 타이머 또는 경보를 울리고 있고 사용자가 "중지"를 말하면, 음성-활성화 디바이스는 타이머 또는 경보 울리기를 중지한다. 그 다음, 사용자가 "볼륨 <업/다운>"을 말하면, 타이머 또는 경보 울리기는 여전히 중지되고, 제어가능한 디바이스 상의 볼륨은 업 또는 다운으로 변경된다.

[00125] 다른 예로서, 음성-활성화 디바이스가 텍스트-투-스피치를 재생(예를 들어, 사용자의 이메일들을 판독)하고 있고, 사용자가 "중지"를 말하면, 음성-활성화 디바이스는 텍스트-투-스피치 판독을 중지한다. 그 다음, 사용자가 "볼륨 <업/다운>"을 말하면, 음성-활성화 디바이스 상의 볼륨은 업 또는 다운으로 변경된다.

[00126] 또 다른 예로서, 음성-활성화 디바이스가 유휴, 일시정지 또는 앱-로딩 중고, 사용자가 "중지"를 말하면, 제어가능한 디바이스에서 재생되는 미디어는 중지되고 포커스 세션은 종료된다. 그 다음, 사용자가 "볼륨 <업/다운>"을 말하면, 제어가능한 디바이스 상의 볼륨은 업 또는 다운으로 변경된다.

음성-활성화 전자 디바이스의 물리적 특징들

[00127] 도 6a 및 도 6b는 일부 구현들에 따른 음성-활성화 전자 디바이스(104)(도 1)의 정면도(600) 및 후면도(620)이다. 전자 디바이스(104)는 하나 이상의 마이크로폰들(602) 및 풀 컬러 LED들(604)의 어레이를 포함한다. 풀 컬러 LED들(604)은 전자 디바이스(104)의 최상부 표면 아래에 은닉될 수 있고, 조명되는 경우 사용자에게 비가시적일 수 있다. 일부 구현들에서, 풀 컬러 LED들(604)의 어레이는 물리적으로 링으로 배열된다. 추가로, 전자 디바이스(104)의 후방 측은 선택적으로 전원에 커플링하도록 구성된 전원 커넥터(608)를 포함한다.

[00128] 일부 구현들에서, 전자 디바이스(104)는 어떠한 가시적 버튼도 없이 클린(clean)한 외관을 나타내고, 전자 디바이스(104)와의 상호작용은 음성 및 터치 제스처들에 기초한다. 대안적으로, 일부 구현들에서, 전자 디바이스(104)는 제한된 수의 물리적 버튼들(예를 들어, 그 후방 측 상의 버튼(606))을 포함하고, 전자 디바이스(104)와의 상호작용은 음성 및 터치 제스처들에 추가로 버튼을 누르는 것에 추가로 기초한다.

[00129] 하나 이상의 스피커들이 전자 디바이스(104)에 배치된다. 도 6c는 일부 구현들에 따른 개방 구성에서 전자 디바이스(104)의 베이스(610)에 포함된 스피커들(622)을 도시하는 음성-활성화 전자 디바이스(104)의 사시도(660)이다. 전자 디바이스(104)는 풀 컬러 LED들(604)의 어레이, 하나 이상의 마이크로폰들(602), 스피커(622), 듀얼-밴드 WiFi 802.11ac 라디오(들), 블루투스 LE 라디오, 주변 광 센서, USB 포트, 프로세서 및 프로세서에 의한 실행을 위한 적어도 하나의 프로그램을 저장하는 메모리를 포함한다.

[00130] 도 6d를 참조하면, 전자 디바이스(104)는 전자 디바이스(104)의 최상부 표면 상에서 터치 이벤트들을 검출하도록 구성되는 터치 감지 어레이(624)를 더 포함한다. 터치 감지 어레이(624)는 전자 디바이스(104)의 최상부 표면 아래에 배치되고 은닉될 수 있다. 일부 구현들에서, 비아 홀들의 어레이를 포함하는 회로 보드의 최상부 표면 상에 배열되는 터치 감지 어레이, 및 풀 컬러 LED들(604)은 회로 보드의 비아 홀들 내에 배치된다. 회로 보드가 전자 디바이스(104)의 최상부 표면의 바로 아래에 위치되는 경우, 풀 컬러 LED들(604) 및 터치 감지 어레이(624) 둘 모두는 또한 전자 디바이스(104)의 최상부 표면 바로 아래에 배치된다.

[00131] 도 6e(1) 내지 도 6e(4)는 일부 구현들에 따른 음성-활성화 전자 디바이스(104)의 터치 감지 어레이(624) 상에서 검출된 4개의 터치 이벤트들을 도시한다. 도 6e(1) 및 도 6e(2)를 참조하면, 터치 감지 어레이(624)는 음성 활성화 일렉트로닉(104)의 최상부 표면 상에서 회전 스와이프(swipe)를 검출한다. 시계방향 스와이프의 검출에 대한 응답으로, 음성 활성화 일렉트로닉(104)은 자신의 오디오 출력들의 볼륨을 증가시키고, 반시계방향 스와이프의 검출에 대한 응답으로, 음성 활성화 일렉트로닉(104)은 자신의 오디오 출력들의 볼륨을 감소시킨다. 도 6e(3)을 참조하면, 터치 감지 어레이(624)는 음성 활성화 일렉트로닉(104)의 최상부 표면 상에서 단일 탭 터치를 검출한다. 제1 탭 터치의 검출에 대한 응답으로, 음성 활성화 일렉트로닉(104)은 제1 미디어 제어 동작을 구현하고(예를 들어, 특정 미디어 콘텐츠를 재생하고), 제2 탭 터치의 검출에 대한 응답으로, 음성 활성화 일렉트로닉(104)은 제2 미디어 제어 동작을 구현한다(예를 들어, 현재 재생되고 있는 특정 미디어 콘텐츠를 일시정지한다). 도 6e(4)를 참조하면, 터치 감지 어레이(624)는 음성 활성화 일렉트로닉(104)의 최상부 표면 상에서 더블 탭 터치(예를 들어, 2개의 연속적인 터치들)를 검출한다. 2개의 연속적인 터치들은 미리 결정된 길이 미만의 시간 지속기간만큼 분리된다. 그러나, 이들이 미리 결정된 길이보다 큰 시간 지속기간만큼 분리되는 경우, 2개의 연속적인 터치들은 2개의 단일 탭 터치들로 간주된다. 일부 구현들에서, 더블 탭 터치의 검출에 대한 응답으로, 음성 활성화 전자 디바이스(104)는, 전자 디바이스(104)가 하나 이상의 핫 워드들(예를 들어, 미리 정의된 키 워드들)을 청취하고 인식하는 핫 워드 검출 상태를 개시한다. 전자 디바이스(104)가 핫 워드들을 인식할 때까지, 전자 디바이스(104)는 음성 어시스턴스 서버(112) 또는 클라우드 캐스트 서비스 서버(118)에 어떠한 오디오 입력들도 전송하지 않는다. 일부 구현들에서, 포커스 세션은 하나 이상의 핫 워드들의 검출에 대한 응답으로 개시된다.

[00132] 일부 구현들에서, 풀 컬러 LED들(604)의 어레이는 LED 설계 언어에 따라 시각적 패턴들의 세트를 디스플레이하여, 음성 활성화 일렉트로닉(104)의 최상부 표면 상에서 시계방향 스와이프, 반시계방향 스와이프, 단일 탭 또는 더블 탭의 검출을 표시하도록 구성된다. 예를 들어, 풀 컬러 LED들(604)의 어레이는 도 6e(1) 및 도 6e(2)에 각각 도시된 바와 같이 시계방향 또는 반시계방향 스와이프를 추적하기 위해 순차적으로 점등될 수 있다. 전자 디바이스(104)의 음성 프로세싱 상태들과 연관된 시각적 패턴들의 추가의 세부사항들은 도 6f 및 도 6g(1) 내지 도 6g(8)을 참조하여 아래에서 설명된다.

[00133] 도 6e(5)는 일부 구현들에 따른 음성-활성화 전자 디바이스(104)의 후면 상의 버튼(606)에 대한 예시적인 사용자 터치 또는 누름을 도시한다. 버튼(606)에 대한 제1 사용자 터치 또는 누름에 대한 응답으로, 전자 디바이스(104)의 마이크로폰들은 뮤트되고, 버튼(606)에 대한 제2 사용자 터치 또는 누름에 대한 응답으로, 전자 디바이스(104)의 마이크로폰들이 활성화된다.

음성 사용자 인터페이스의 시각적 어포던스(affordance)에 대한 LED 설계 언어

[00134] 일부 구현들에서, 전자 디바이스(104)는 풀 디스플레이 스크린보다 풀 컬러 LED(light emitting diode)들의 어레이를 포함한다. LED 설계 언어는 풀 컬러 LED들의 어레이의 조명을 구성하고, 전자 디바이스(104)의 상이한 음성 프로세싱 상태를 표시하는 상이한 시각적 패턴들을 가능하게 하도록 채택된다. LED 설계 언어는 컬러들의 문법, 패턴들, 및 풀 컬러 LED들의 고정된 세트에 적용되는 특정 모션으로 구성된다. 언어의 엘리먼트들은 조합되어 전자 디바이스(104)의 사용 동안 특정 디바이스 상태들을 시각적으로 표시한다. 일부 구현들에서, 풀 컬러 LED들의 조명은 다른 중요한 상태들 중에서도 전자 디바이스(104)의 수동적 청취 및 능동적 청취 상태들을 명확하게 한정하는 것을 목적으로 한다. 유사한 LED 설계 언어 엘리먼트들을 사용하여 LED들(예를 들어, LED들(604))에 의해 시각적으로 표시될 수 있는 상태들은 하나 이상의 포커스 세션들의 상태, 하나 이상의 특정 포커스 세션들과 연관된 하나 이상의 사용자들의 아이덴티티들 및/또는 하나 이상의 활성 포커스 세션들의 지속기간을 포함한다. 예를 들어, 일부 구현들에서, LED들(604)의 상이한 조명 패턴들, 컬러 조합들 및/또는 특정 모션은, 포커스 세션이 활성이고, 제2 음성 입력의 검출로 인해 연장되었고 그리고/또는 전자 디바이스(104)와 사용자 음성 상호작용의 결핍으로 인해 최근에 경과되었음을 표시하기 위해 사용될 수 있다. 특정 포커스 세션들과 연관된 하나 이상의 사용자들의 하나 이상의 아이덴티티들은 또한 특정 사용자들을 시각적으로 식별하는 LED들(604)의 상이한 조명 패턴들, 컬러 조합들 및/또는 특정 모션으로 표시될 수 있다. 풀 컬러 LED들의 배치는 전자 디바이스(104)의 물리적 제약들을 준수하고, 풀 컬러 LED들의 어레이는 특정 기술(예를 들어, 구글 어시스턴트)에 기초한 제3자 OEM(original equipment manufacturer)에 의해 제조된 스피커에서 사용될 수 있다.

[00135] 음성-활성화 전자 디바이스(104)에서, 수동적 청취는, 전자 디바이스(104)가 자신의 주위 환경으로부터 수집된 오디오 입력들을 프로세싱하지만 오디오 입력들을 저장하거나 임의의 원격 서버에 오디오 입력들을 송신하지는 않는 경우 발생한다. 반대로, 능동적 청취는, 전자 디바이스(104)가 자신의 주위 환경으로부터 수집된 오디오 입력들을 저장하고 그리고/또는 오디오 입력들을 원격 서버와 공유하는 경우 발생한다. 본 출원의 일부 구현들에 따르면, 전자 디바이스(104)는 전자 디바이스(104)의 사용자들의 프라이버시를 침범하지 않으면서 자신의 주위 환경에서 오디오 입력들을 오직 수동적으로만 청취한다.

[00136] 도 6g는 일부 구현들에 따른 음성-활성화 전자 디바이스(104)의 상면도이고, 도 6h는 일부 구현들에 따라 음성 프로세싱 상태들을 표시하기 위한 풀 컬러 LED들의 어레이에 의해 디스플레이되는 6개의 예시적인 시각적 패턴들을 도시한다. 일부 구현들에서, 전자 디바이스(104)는 임의의 디스플레이 스크린을 포함하지 않고, 풀 컬러 LED들(604)은 풀 디스플레이 스크린에 비해 간단하고 낮은 비용의 시각적 사용자 인터페이스를 제공한다. 풀 컬러 LED들은 전자 디바이스의 최상부 표면 아래에 은닉될 수 있고, 조명되는 경우 사용자에게 비가시적일 수 있다. 도 6g 및 도 6h를 참조하면, 일부 구현들에서, 풀 컬러 LED들(604)의 어레이는 물리적으로 링으로 배열된다. 예를 들어, 도 6h(6)에 도시된 바와 같이, 풀 컬러 LED들(604)의 어레이는 도 6f(1) 및 도 6f(2)에 각각 도시된 바와 같이 시계방향 또는 반시계방향 스와이프를 추적하기 위해 순차적으로 점등될 수 있다.

[00137] 음성 프로세싱 상태를 시각적으로 표시하기 위한 방법이 전자 디바이스(104)에서 구현된다. 전자 디바이스(104)는 하나 이상의 마이크로폰들(602)을 통해, 전자 디바이스에 근접한 환경으로부터 오디오 입력들을 수집하고, 오디오 입력들을 프로세싱한다. 프로세싱은 환경에서 사용자로부터의 음성 입력들을 식별하는 것 및 그에 응답하는 것 중 하나 이상을 포함한다. 전자 디바이스(104)는 복수의 미리 정의된 음성 프로세싱 상태들 중 프로세싱의 상태를 결정한다. 풀 컬러 LED들(604) 각각에 대해, 전자 디바이스(104)는 결정된 음성 프로세싱 상태와 연관된 각각의 미리 결정된 LED 조명 규격을 식별한다. 조명 규격은 LED 조명 지속기간, 펄스 레이트, 듀티 사이클, 컬러 시퀀스 및 밝기 중 하나 이상을 포함한다. 일부 구현들에서, 전자 디바이스(104)는, 음성 프로세싱 상태(일부 구현들에서 포커스 세션의 상태를 포함함)가 복수의 사용자들 중 하나와 연관된다고 결정하고, 복수의 사용자들 중 하나의 아이덴티티에 따라 풀 컬러 LED들(604)의 미리 결정된 LED 조명 규격들(예를 들어, 컬러 시퀀스) 중 적어도 하나를 커스터마이징함으로써 풀 컬러 LED들(604)의 미리 결정된 LED 조명 규격들을 식별한다.

[00138] 추가로, 일부 구현들에서, 결정된 음성 프로세싱 상태에 따라, 풀 컬러 LED들의 컬러들은 미리 결정된 세트의 컬러들을 포함한다. 예를 들어, 도 6g(2) 도 6g(4) 및 도 6g(7)-(10)을 참조하면, 미리 결정된 세트의 컬러들은 청색, 녹색, 황색 및 적색을 포함하는 구글 브랜드 컬러들을 포함하고, 풀 컬러 LED들의 어레이는 구글 브랜드 컬러들 중 하나와 각각 연관된 4개의 사분면들로 분할된다.

[00139] 풀 컬러 LED들의 식별된 LED 조명 규격들에 따르면, 전자 디바이스(104)는 결정된 음성 프로세싱 상태(일부 구현들에서 포커스 세션의 상태를 포함함)를 표시하는 시각적 패턴을 제공하기 위해 풀 컬러 LED들의 어레이의 조명을 동기화한다. 일부 구현들에서, 음성 프로세싱 상태를 표시하는 시각적 패턴은 복수의 이산적 LED 조명 픽셀들을 포함한다. 일부 구현들에서, 시각적 패턴은 시작 세그먼트, 루프 세그먼트 및 종료 세그먼트를 포함한다. 루프 세그먼트는 풀 컬러 LED들의 LED 조명 지속기간들과 연관된 시간 길이 동안 지속되고, 음성 프로세싱 상태(예를 들어, 활성 포커스 세션의 지속기간)의 길이에 매칭하도록 구성된다.

[00140] 일부 구현들에서, 전자 디바이스(104)는 LED 설계 언어에 의해 표현되는 20개 초과의 상이한 디바이스 상태들(복수의 미리 정의된 음성 프로세싱 상태들을 포함함)을 갖는다. 선택적으로, 복수의 미리 정의된 음성 프로세싱 상태들은 핫 워드 검출 상태, 청취 상태, 생각 상태 및 응답 상태 중 하나 이상을 포함한다. 일부 구현들에서, 앞서 설명된 바와 같이, 복수의 미리 정의된 음성 프로세싱 상태들은 하나 이상의 포커스 세션 상태들을 포함한다.

[00141] 구현들이 상세히 참조되었으며, 그 예들은 첨부된 도면들에 예시되어 있다. 상기 상세한 설명에서, 다양한 설명된 구현들의 철저한 이해를 제공하기 위해 다수의 특정 세부사항들이 기술되었다. 그러나, 이러한 특정 세부사항들 없이도 다양한 설명된 구현들이 실시될 수 있음은 당업자에게 자명할 것이다. 다른 경우들에서, 널리 공지된 방법들, 절차들, 컴포넌트들, 회로들 및 네트워크들은 구현들의 양상들을 불필요하게 모호하게 하지 않도록 상세히 설명되지 않았다.

[00142] 일부 경우들에서, 제1, 제2 등의 용어들이 본 명세서에서 다양한 엘리먼트들을 설명하기 위해 사용되지만, 이러한 엘리먼트들은 이러한 용어들에 의해 제한되어서는 안됨을 또한 이해할 것이다. 이러한 용어들은 하나의 엘리먼트를 다른 엘리먼트로부터 구별하기 위해서만 사용된다. 예를 들어, 다양한 설명된 구현들의 범위를 벗어남이 없이, 제1 디바이스는 제2 디바이스로 지칭될 수 있고, 유사하게, 제2 디바이스는 제1 디바이스로 지칭될 수 있다. 제1 디바이스 및 제2 디바이스는 둘 모두 디바이스들의 타입이지만 동일한 디바이스가 아니다.

[00143] 본 명세서에서 다양한 설명된 구현들의 설명에서 사용된 용어는 단지 특정 구현들을 설명하기 위한 것이지 제한하려는 의도가 아니다. 다양한 설명된 구현들 및 첨부된 청구항들의 설명에서 사용된 바와 같이, 단수형 형태들은, 문맥상 명확하게 달리 표시되지 않으면, 복수형 형태들을 또한 포함하도록 의도된다. 본 명세서에서 사용된 바와 같은 "및/또는"이라는 용어는 연관된 나열된 항목들 중 하나 이상의 임의의 및 모든 가능한 조합들을 지칭하고 포함함을 또한 이해할 것이다. 본 명세서에서 사용되는 경우, "포함하다", "포함하는", "구비하다" 및/또는 "구비하는"이라는 용어들은, 언급된 특징들, 정수들, 단계들, 오퍼레이션들, 엘리먼트들 및/또는 컴포넌트들의 존재를 특정하지만, 다른 특징들, 정수들, 단계들, 오퍼레이션들, 엘리먼트들, 컴포넌트들 및/또는 이들의 그룹들 중 하나 이상의 존재 또는 추가를 배제하지는 않음을 추가로 이해할 것이다.

[00144] 본 명세서에서 사용되는 바와 같이, "~라면"이라는 용어는 선택적으로, 문맥에 따라, "경우" 또는 "때" 또는 "결정하는 것에 대한 응답으로" 또는 "검출하는 것에 대한 응답으로" 또는 "결정에 따라"를 의미하는 것으로 해석된다. 유사하게, "결정되면" 또는 "[언급된 조건 또는 이벤트]가 검출되면"이라는 구문은, 선택적으로, 문맥에 따라, "결정할 때" 또는 "결정하는 것에 대한 응답으로" 또는 "[언급된 조건 또는 이벤트]를 검출할 때" 또는 "[언급된 조건 또는 이벤트]를 검출하는 것에 대한 응답으로" 또는 "[언급된 조건 또는 이벤트]가 검출된다는 결정에 따라"를 의미하는 것으로 해석된다.

[00145] 위에서 논의된 시스템들이 사용자들에 대한 정보를 수집하는 상황들의 경우, 사용자들에게는 개인 정보(예를 들어, 사용자의 선호도들 또는 스마트 디바이스의 사용에 대한 정보)를 수집할 수 있는 프로그램들 또는 특징들을 옵트 인/아웃할 기회가 제공된다. 또한, 일부 구현들에서, 특정 데이터는 저장 또는 사용되기 전에 하나 이상의 방식들로 익명화되어, 개인적으로 식별가능한 정보가 제거될 수 있다. 예를 들어, 사용자의 아이덴티티가 익명화될 수 있어서, 개인적으로 식별가능한 정보가 사용자에 대해 결정되거나 사용자와 연관될 수 없고, 사용자 선호도들 또는 사용자 상호작용들은 특정 사용자와 연관되기 보다는 일반화된다(예를 들어, 사용자 인구통계학에 기초하여 일반화된다).

[00146] 다양한 도면들 중 일부는 특정 순서로 다수의 로직 스테이지들을 예시하지만, 순서 의존적이 아닌 스테이지들은 재순서화될 수 있고 다른 스테이지들이 조합되거나 분리될 수 있다. 일부 재순서화 또는 다른 그룹화들이 구체적으로 언급되지만, 다른 것들이 당업자들에게 자명할 것이어서, 본 명세서에 제시된 순서화 및 그룹화들은 대안들에 대해 총망라하는 리스트가 아니다. 또한, 스테이지들은 하드웨어, 펌웨어, 소프트웨어 또는 이들의 임의의 조합으로 구현될 수 있음을 인식해야 한다.

[00147] 상기 설명은 설명의 목적을 위해 특정 구현들을 참조하여 설명되었다. 그러나, 상기 예시적인 논의들은, 포괄적인 것으로, 또는 본 청구항들의 범위를 개시된 바로 그 형태들로 제한하는 것으로 의도되지 않는다. 상기 교시들의 관점에서 많은 변형들 및 변화들이 가능하다. 구현들은 청구항들 및 이들의 실제 적용들에 내재하는 원리들을 가장 잘 설명하기 위해 선택되었고, 따라서 당업자들이 구현들을 고려된 특정 사용들에 적합하도록 다양한 수정들로 가장 잘 사용할 수 있게 한다.

Claims

하나 이상의 마이크로폰들, 스피커, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의한 실행을 위한 하나 이상의 프로그램들을 저장하는 메모리를 갖는 제1 전자 디바이스에서 ― 상기 제1 전자 디바이스는 공통 네트워크 서비스에 통신가능하게 커플링되는 접속된 전자 디바이스들의 로컬 그룹의 멤버임 ―:
제1 동작에 대한 요청을 포함하는 제1 음성 커맨드를 수신하는 단계;
상기 접속된 전자 디바이스들의 로컬 그룹 중 상기 제1 동작에 대한 제1 타겟 디바이스를 결정하는 단계 ― 상기 제1 타겟 디바이스는 상기 제1 전자 디바이스임 ―;
상기 제1 타겟 디바이스에 대한 포커스 세션을 수립하는 단계;
상기 공통 네트워크 서비스의 동작을 통해 상기 제1 동작이 상기 제1 타겟 디바이스에 의해 수행되게 하는 단계;
제2 동작에 대한 요청을 포함하는 제2 음성 커맨드를 수신하는 단계;
상기 제2 음성 커맨드가 제2 타겟 디바이스의 명시적 지정을 포함하지 않는다고 결정하는 단계;
상기 제2 동작이 상기 제1 타겟 디바이스에 의해 수행될 수 있다고 결정하는 단계;
상기 공통 네트워크 서비스의 동작을 통해 상기 제2 동작이 상기 제1 타겟 디바이스에 의해 수행되게 하는 단계;
제3 동작에 대한 요청 및 상기 접속된 전자 디바이스들의 로컬 그룹 중 제3 타겟 디바이스의 명시적 지정을 포함하는 제3 음성 커맨드를 수신하는 단계 ― 상기 제3 타겟 디바이스는 상기 접속된 전자 디바이스들의 로컬 그룹의 멤버인 제2 전자 디바이스이고, 상기 제2 전자 디바이스는 상기 제1 전자 디바이스와 상이함 ―;
상기 제1 타겟 디바이스에 대한 포커스 세션을 유지하는 단계;
상기 공통 네트워크 서비스의 동작을 통해 상기 제3 동작이 상기 제3 타겟 디바이스에 의해 수행되게 하는 단계
를 포함하는,
방법.
제1항에 있어서,
상기 접속된 전자 디바이스들의 로컬 그룹 중 상기 제1 동작에 대한 제1 타겟 디바이스를 결정하는 단계는, 상기 제1 음성 커맨드로부터 상기 제1 타겟 디바이스의 명시적 지정을 획득하는 단계를 포함하는,
방법.
제1항에 있어서,
상기 제2 음성 커맨드가 하나 이상의 포커스 세션 유지 기준들을 충족하는지 여부를 결정하는 단계; 및
상기 제2 음성 커맨드가 상기 포커스 세션 유지 기준들을 충족한다는 결정에 따라, 상기 제1 타겟 디바이스에 대한 포커스 세션을 연장하는 단계를 더 포함하는,
방법.
제1항에 있어서,
상기 제1 타겟 디바이스에 대한 포커스 세션을 수립하는 단계는,
상기 제1 음성 커맨드의 시간스탬프를 저장하는 단계; 및
상기 제1 타겟 디바이스의 식별자를 저장하는 단계를 포함하는,
방법.
제3항에 있어서,
상기 포커스 세션 유지 기준들은, 상기 제1 음성 커맨드를 수신하는 것에 대해 미리 정의된 제1 시간 인터벌 내에 상기 제2 음성 커맨드가 상기 제1 전자 디바이스에 의해 수신되거나, 또는 상기 제1 음성 커맨드를 수신하는 것에 대해 미리 정의된 제2 시간 인터벌 내에 상기 제2 음성 커맨드가 상기 제1 전자 디바이스에 의해 수신된다는 기준을 포함하고 ― 상기 미리 정의된 제2 시간 인터벌은 상기 미리 정의된 제1 시간 인터벌에 후속함 ―;
상기 제2 음성 커맨드가 하나 이상의 포커스 세션 유지 기준들을 충족하는지 여부를 결정하는 단계는, 상기 제2 음성 커맨드가 상기 미리 정의된 제1 시간 인터벌 또는 상기 미리 정의된 제2 시간 인터벌 중 어느 하나 내에 수신되는지 여부를 결정하는 단계를 포함하는,
방법.
제5항에 있어서,
상기 제2 음성 커맨드가 상기 미리 정의된 제1 시간 인터벌 내에 수신된다는 결정에 따라, 상기 제1 타겟 디바이스를 상기 제2 음성 커맨드에 대한 타겟 디바이스로서 선택하는 단계를 더 포함하는,
방법.
제5항에 있어서,
상기 제2 음성 커맨드가 상기 미리 정의된 제2 시간 인터벌 내에 수신된다는 결정에 따라, 상기 제1 타겟 디바이스를 상기 제2 음성 커맨드에 대한 타겟 디바이스로서 확인하기 위한 요청을 출력하는 단계; 및
상기 확인하기 위한 요청에 대한 응답으로 상기 제1 타겟 디바이스를 긍정적으로 확인함에 따라, 상기 제1 타겟 디바이스를 상기 제2 음성 커맨드에 대한 타겟 디바이스로 선택하는 단계를 더 포함하는,
방법.
제1항에 있어서,
상기 제2 음성 커맨드는 상기 제3 동작이 상기 제3 타겟 디바이스에 의해 수행되게 된 후 수신되고;
상기 제1 동작은 미디어 재생 동작이고;
상기 제2 동작은 미디어 중지 동작이고;
상기 방법은,
제4 동작에 대한 요청 및 상기 접속된 전자 디바이스들의 로컬 그룹 중 제4 타겟 디바이스의 명시적 지정을 포함하는 제4 음성 커맨드를 수신하는 단계 ― 상기 제4 타겟 디바이스는 상기 제2 전자 디바이스임 ―;
상기 제1 타겟 디바이스에 대한 포커스 세션을 종료하는 단계;
상기 제4 타겟 디바이스에 대한 포커스 세션을 수립하는 단계; 및
상기 공통 네트워크 서비스의 동작을 통해 상기 제4 동작이 상기 제4 타겟 디바이스에 의해 수행되게 하는 단계를 더 포함하는,
방법.
제1항에 있어서,
미리 정의된 동작 종료 요청을 포함하는 제4 음성 커맨드를 수신하는 단계; 및
상기 제4 음성 커맨드를 수신함에 따라,
상기 제1 동작이 상기 제1 타겟 디바이스에 의해 수행되는 것을 종료시키는 단계; 및
상기 제1 타겟 디바이스에 대한 포커스 세션을 종료하는 단계를 더 포함하는,
방법.
제1항에 있어서,
상기 제1 동작은 미디어 재생 동작이고;
상기 제2 동작은, 미디어 중지 동작, 미디어 되감기 동작, 미디어 빨리감기 동작, 볼륨 업 동작 및 볼륨 다운 동작 중 하나인,
방법.
제1항에 있어서,
상기 제1 동작은 복수의 디바이스 상태들 중 제1 상태로의 디바이스 상태 변경 동작이고;
상기 제2 동작은 상기 복수의 디바이스 상태들 중 제2 상태로의 디바이스 상태 변경 동작인,
방법.
제1항에 있어서,
상기 제1 동작은 크기 스케일(scale)에서 제1 방향으로의 크기 변경 동작이고;
상기 제2 동작은 상기 크기 스케일에서 상기 제1 방향과 반대인 제2 방향으로의 크기 변경 동작인,
방법.
제1항에 있어서,
상기 제1 전자 디바이스는 하나 이상의 LED들의 어레이를 포함하고;
상기 방법은, 상기 LED들의 어레이의 LED들 중 하나 이상을 조명함으로써 상기 포커스 세션의 상태를 표시하는 단계를 더 포함하는,
방법.
하나 이상의 마이크로폰들;
스피커;
하나 이상의 프로세서들; 및
상기 하나 이상의 프로세서들에 의해 실행될 하나 이상의 프로그램들을 저장하는 메모리를 포함하고, 상기 하나 이상의 프로그램들은 제1항 내지 제13항 중 어느 한 항의 방법을 수행하기 위한 명령들을 포함하는,
전자 디바이스.
하나 이상의 프로그램들을 저장하는 비일시적 컴퓨터 판독가능 저장 매체로서,
상기 하나 이상의 프로그램들은, 하나 이상의 마이크로폰들, 스피커 및 하나 이상의 프로세서들을 갖는 전자 디바이스에 의해 실행되는 경우, 상기 전자 디바이스로 하여금 제1항 내지 제13항 중 어느 한 항의 방법의 동작들을 수행하게 하는 명령들을 포함하는,
비일시적 컴퓨터 판독가능 저장 매체.
삭제
삭제
삭제