KR101752119B1

KR101752119B1 - 다수의 디바이스에서의 핫워드 검출

Info

Publication number: KR101752119B1
Application number: KR1020167021778A
Authority: KR
Inventors: 매튜 샤리피
Original assignee: 구글 인코포레이티드
Priority date: 2014-10-09
Filing date: 2015-09-29
Publication date: 2017-06-28
Also published as: KR101832648B1; JP7022733B2; US10134398B2; US10909987B2; US20240169992A1; US20160104480A1; KR20160101198A; US9318107B1; CN106030699B; EP3139378B1; DE202015010012U1; US11557299B2; US20190130914A1; US9514752B2; JP2020034952A; EP3627503A1; US20200058306A1; US20210118448A1; CN111028826A; JP6427549B2

Abstract

다수의 디바이스에서의 핫워드 검출을 위한, 컴퓨터 저장 매체에 인코딩된 컴퓨터 프로그램들을 포함하는, 방법들, 시스템들, 및 장치들이 개시된다. 일 양태에서, 방법은, 제1 컴퓨팅 디바이스에 의해, 발성에 대응하는 오디오 데이터를 수신하는 단계의 액션들을 포함한다. 이 액션들은 발성이 핫워드를 포함할 가능성에 대응하는 제1 값을 결정하는 단계를 더 포함한다. 이 액션들은 발성이 핫워드를 포함할 가능성에 대응하는 제2 값을 수신하는 단계 - 제2 값은 제2 컴퓨팅 디바이스에 의해 결정됨 - 를 더 포함한다. 이 액션들은 제1 값과 제2 값을 비교하는 단계를 더 포함한다. 이 액션들은 제1 값과 제2 값을 비교하는 것에 기초하여, 오디오 데이터에 대한 음성 인식 처리를 개시하는 단계를 더 포함한다.

Description

다수의 디바이스에서의 핫워드 검출{HOTWORD DETECTION ON MULTIPLE DEVICES}

이 명세서는 일반적으로 사람이 말하고 있는 단어들을 인식하는 것, 다르게는 음성 인식이라고 불리는 것에 대한 시스템들 및 기법들에 관한 것이다.

음성-사용가능(speech-enabled) 집 또는 다른 환경 - 즉, 사용자가 큰 소리로 쿼리(query) 또는 명령(command)을 말하기만 하면 되고 컴퓨터 기반 시스템이 쿼리를 처리하고 그에 응답하는 그리고/또는 명령이 수행되게 하는 것 - 의 현실이 우리 앞에 있다. 음성-사용가능 환경(예컨대, 집, 직장, 학교 등)은 환경의 다양한 방들 또는 구역들의 도처에 분포된 연결된 마이크 디바이스들의 네트워크를 이용하여 구현될 수 있다. 그러한 마이크들의 네트워크를 통하여, 사용자는 그의 앞에 또는 심지어 근처에 컴퓨터 또는 다른 디바이스를 가질 필요 없이 환경 내의 본질적으로 어느 곳으로부터든 구두로 시스템에 쿼리하는 능력을 가진다. 예를 들어, 주방에서 요리하는 동안, 사용자는 시스템에 "3개의 컵에 몇 밀리리터인가(how many milliliters in three cups)?"를 물어볼 수 있고, 이에 응답하여, 시스템으로부터, 예컨대, 합성된 음성 출력의 형태로, 응답을 받을 수 있다. 대안적으로, 사용자는 시스템에, "가장 가까운 주유소가 언제 문을 닫는가(when does my nearest gas station close)" 또는 외출을 준비하면서 "오늘 코트를 입어야 하는가(should I wear a coat today)?"와 같은 질문들을 물어볼 수 있다.

또한, 사용자는 사용자의 개인 정보와 관련 있는, 쿼리를 시스템에 물어보고/물어보거나 명령을 내릴 수 있다. 예를 들어, 사용자는 시스템에 "John과의 미팅이 언제인가(when is my meeting with John)?"를 물어보거나 시스템에 "내가 집에 돌아왔을 때 John에게 통화하는 것을 상기시켜 달라(remind me to call John when I get back home)"고 명령할 수 있다.

음성-사용가능 시스템에 대해, 사용자가 시스템과 상호 작용하는 방식은, 전적으로 그런 것은 아닐지라도, 주로 음성 입력을 이용하도록 설계된다. 따라서, 시스템을 향하고 있지 않은 것들을 포함하여 주위 환경에서 이루어진 모든 발성들을 잠재적으로 포착하는, 시스템은 임의의 주어진 발성이, 예컨대, 환경에 존재하는 개인을 향하고 있는 것이 아니라 시스템을 향하고 있는 때를 판별하는 어떤 방법을 가져야만 한다. 이를 달성하는 한 가지 방법은, 환경 내의 사용자들 사이의 합의에 의해, 시스템의 주의를 환기시키기 위해 말해지는 미리 결정된 단어로서 예약되는, 핫워드(hotword)를 이용하는 것이다. 예시적인 환경에서, 시스템의 주의를 환기시키기 위해 사용되는 핫워드는 "OK 컴퓨터"라는 단어들이다. 따라서, "OK 컴퓨터"라는 단어들이 말해질 때마다, 그것은 마이크에 의해 포착되어, 시스템에 전달되고, 시스템은 음성 인식 기법들을 수행하여 핫워드가 말해졌는지를 결정하고, 그렇다면, 뒤이은 명령 또는 쿼리를 기다린다. 따라서, 시스템을 향하는 발성들은 [핫워드] [쿼리]의 일반적인 형태를 가지며, 이 예에서 "핫워드"는 "OK 컴퓨터"이고 "쿼리"는 시스템에 의해, 단독으로 또는 네트워크를 통해 서버와 함께, 음성 인식되고, 구문 분석되고, 작용될 수 있는 임의의 질문, 명령, 선언, 또는 다른 요청일 수 있다.

이 명세서에 기술된 주제의 하나의 혁신적인 양태에 따르면, 사용자 디바이스가 사용자에 의해 말해지는 발성을 수신한다. 상기 사용자 디바이스는 상기 발성이 핫워드를 포함하는지를 결정하고 상기 발성이 상기 핫워드를 포함할 가능성을 나타내는 핫워드 신뢰도 점수를 계산한다. 상기 사용자 디바이스는 이 점수를 근처에 있는 다른 사용자 디바이스들에 송신한다. 상기 다른 사용자 디바이스들은 동일한 발성을 수신했을 가능성이 있다. 상기 다른 사용자 디바이스들은 핫워드 신뢰도 점수를 계산하고 그들의 점수들을 상기 사용자 디바이스에 송신한다. 상기 사용자 디바이스는 상기 핫워드 신뢰도 점수들을 비교한다. 상기 사용자 디바이스가 가장 높은 핫워드 신뢰도 점수를 가진다면, 상기 사용자 디바이스는 활성으로 남아 있고 부가 오디오를 처리하기 위해 준비한다. 상기 사용자 디바이스가 가장 높은 핫워드 신뢰도 점수를 갖지 않는다면, 상기 사용자 디바이스는 상기 부가 오디오를 처리하지 않는다.

일반적으로, 이 명세서에 기술된 주제의 또 다른 혁신적인 양태는, 제1 컴퓨팅 디바이스에 의해, 발성에 대응하는 오디오 데이터를 수신하는 단계; 상기 발성이 핫워드를 포함할 가능성에 대응하는 제1 값을 결정하는 단계; 상기 발성이 핫워드를 포함할 가능성에 대응하는 제2 값을 수신하는 단계 - 상기 제2 값은 제2 컴퓨팅 디바이스에 의해 결정됨 -; 상기 제1 값과 상기 제2 값을 비교하는 단계; 및 상기 제1 값과 상기 제2 값을 비교하는 것에 기초하여, 상기 오디오 데이터에 대한 음성 인식 처리를 개시하는 단계의 액션들을 포함하는 방법들에서 구현될 수 있다.

이들 및 다른 실시예들은 각각 임의로 다음의 특징들 중 하나 이상을 포함할 수 있다. 상기 액션들은 상기 제1 값이 핫워드 점수 임계치를 만족시키는 것을 결정하는 단계를 더 포함한다. 상기 액션들은 상기 제1 값을 상기 제2 컴퓨팅 디바이스에 송신하는 단계를 더 포함한다. 상기 액션들은 상기 제1 값과 상기 제2 값을 비교하는 것에 기초하여 상기 제1 컴퓨팅 디바이스의 활성화 상태를 결정하는 단계를 더 포함한다. 상기 제1 값과 상기 제2 값을 비교하는 것에 기초하여 상기 제1 컴퓨팅 디바이스의 활성화 상태를 결정하는 단계의 액션은 상기 활성화 상태가 활성 상태인 것을 결정하는 단계를 더 포함한다. 상기 액션들은, 상기 제1 컴퓨팅 디바이스에 의해, 부가 발성에 대응하는 부가 오디오 데이터를 수신하는 단계; 상기 부가 발성이 상기 핫워드를 포함할 가능성에 대응하는 제3 값을 결정하는 단계; 상기 발성이 상기 핫워드를 포함할 가능성에 대응하는 제4 값을 수신하는 단계 - 상기 제4 값은 제3 컴퓨팅 디바이스에 의해 결정됨 -; 상기 제1 값과 상기 제2 값을 비교하는 단계; 및 상기 제1 값과 상기 제2 값을 비교하는 것에 기초하여, 상기 제1 컴퓨팅 디바이스의 상기 활성화 상태가 비활성 상태인 것을 결정하는 단계를 더 포함한다.

상기 제1 값을 상기 제2 컴퓨팅 디바이스에 송신하는 단계의 액션은 서버에, 로컬 네트워크를 통하여, 또는 단거리 무선(short range radio)을 통하여, 상기 제1 값을 송신하는 단계를 더 포함한다. 상기 발성이 상기 핫워드를 포함할 가능성에 대응하는 제2 값을 수신하는 단계 - 상기 제2 값은 제2 컴퓨팅 디바이스에 의해 결정됨 - 의 액션은 상기 서버로부터, 상기 로컬 네트워크를 통하여, 또는 상기 단거리 무선을 통하여, 제2 컴퓨팅 디바이스에 의해 결정된 제2 값을 수신하는 단계를 더 포함한다. 상기 액션들은 상기 제2 컴퓨팅 디바이스를 식별하는 단계; 및 상기 제2 컴퓨팅 디바이스가 상기 핫워드를 포함하는 발성들에 응답하도록 구성된 것을 결정하는 단계를 더 포함한다. 상기 제1 값을 상기 제2 컴퓨팅 디바이스에 송신하는 단계의 액션은 상기 제1 컴퓨팅 디바이스에 대한 제1 식별자를 송신하는 단계를 더 포함한다. 상기 발성이 상기 핫워드를 포함할 가능성에 대응하는 제2 값을 수신하는 단계 - 상기 제2 값은 제2 컴퓨팅 디바이스에 의해 결정됨 - 의 액션은 상기 제2 컴퓨팅 디바이스에 대한 제2 식별자를 수신하는 단계를 더 포함한다. 상기 활성화 상태가 활성 상태인 것을 결정하는 단계의 액션은 상기 발성에 대응하는 상기 오디오 데이터를 수신하는 단계 이후 특정량의 시간이 경과한 것을 결정하는 단계를 더 포함한다. 상기 액션들은 상기 활성화 상태가 활성 상태인 것을 결정하는 것에 기초하여, 특정량의 시간 동안, 상기 제1 값을 계속 송신하는 단계를 더 포함한다.

이 양태의 다른 실시예들은, 상기 방법들의 동작들을 수행하도록 각각 구성된, 대응하는 시스템들, 장치, 및 컴퓨터 저장 디바이스들에 기록된 컴퓨터 프로그램들을 포함한다.

이 명세서에 기술된 주제의 특정 실시예들은 다음의 이점들 중 하나 이상을 실현하도록 구현될 수 있다. 다수의 디바이스들이 핫워드를 검출할 수 있고 하나의 디바이스만이 상기 핫워드에 응답할 것이다.

이 명세서에 기술된 주제의 하나 이상의 실시예들의 세부 사항들이 첨부 도면들 및 하기의 설명에서 제시된다. 이 주제의 다른 특징들, 양태들, 및 이점들은 설명, 도면들, 및 청구항들로부터 명백해질 것이다.

도 1은 핫워드 검출을 위한 예시적인 시스템의 도면이다.
도 2는 핫워드 검출을 위한 예시적인 프로세스의 도면이다.
도 3은 컴퓨팅 디바이스 및 모바일 컴퓨팅 디바이스의 예를 보여준다.
다양한 도면들에서 동일한 참조 번호들 및 명칭들은 동일한 요소들을 나타낸다.

너무 멀지 않은 미래에, 많은 디바이스들이 계속해서 핫워드들을 청취하고 있을 수 있는 것이 가능하다. 단일 사용자가 그들의 음성에 응답하도록 훈련된 다수의 디바이스들(예컨대, 전화, 태블릿, TV 등)을 가지는 경우, 사용자가 어드레싱하려고 의도하는 것들일 가능성이 없는 디바이스들에서 핫워드들에 응답하는 것을 억제하는 것이 바람직할 수 있다. 예를 들어, 사용자가 하나의 디바이스를 향하여 핫워드를 말할 때, 그들의 다른 디바이스들 중 임의의 것이 근처에 있다면, 그것들도 음성 검색을 트리거할 가능성이 있다. 많은 경우에, 이것은 사용자의 의도가 아니다. 따라서, 단일 디바이스, 구체적으로 사용자가 말하고 있는 대상인 디바이스만이 트리거한다면 유리할 수 있다. 본 명세서는 핫워드에 반응하기 위한 정확한 디바이스를 선택하고, 다른 디바이스들에서의 상기 핫워드에 대한 반응을 억제하는 문제를 다룬다.

도 1은 핫워드 검출을 위한 예시적인 시스템(100)의 도면이다. 일반적으로, 시스템(100)은 사용자(102)가 컴퓨팅 디바이스들(106, 108, 및 110)의 마이크들에 의해 검출되는 발성(104)을 말하는 것을 보여준다. 컴퓨팅 디바이스들(106, 108, 및 110)은 상기 발성(104)을 처리하여 상기 발성(104)이 핫워드를 포함할 가능성을 결정한다. 컴퓨팅 디바이스들(106, 108, 및 110)은 각각 상기 발성(104)이 핫워드를 포함할 가능성을 나타내는 데이터를 서로에게 송신한다. 컴퓨팅 디바이스들(106, 108, 및 110)은 각각 그 데이터를 비교하고, 상기 발성(104)이 핫워드를 포함할 가장 높은 가능성을 계산한 컴퓨팅 디바이스는 상기 발성(104)에 대한 음성 인식을 개시한다. 상기 발성(104)이 핫워드를 포함할 가장 높은 가능성을 계산하지 않은 컴퓨팅 디바이스들은 상기 발성(104) 이후의 음성에 대한 음성 인식을 개시하지 않는다.

상기 발성(104)이 핫워드에 대응할 가능성을 나타내는 데이터를, 다른 컴퓨팅 디바이스에 송신하기 전에, 서로의 근처에 위치하는 컴퓨팅 디바이스들은 서로를 식별한다. 일부 구현들에서, 컴퓨팅 디바이스들은 핫워드에 응답하도록 구성된 다른 디바이스들을 찾아 로컬 네트워크를 검색하는 것에 의해 서로를 식별한다. 예를 들어, 컴퓨팅 디바이스(106)는 핫워드에 응답하도록 구성된 다른 디바이스들을 찾아 로컬 영역 네트워크를 검색하고 컴퓨팅 디바이스(108) 및 컴퓨팅 디바이스(110)를 식별할 수 있다.

일부 구현들에서, 컴퓨팅 디바이스들은 각각의 디바이스에 로그인되어 있는 사용자를 식별하는 것에 의해 핫워드에 응답하도록 구성된 다른 근처의 컴퓨팅 디바이스들을 식별한다. 예를 들어, 사용자(102)가 컴퓨팅 디바이스들(106, 108, 및 110)에 로그인되어 있다. 사용자(102)는 그 사용자의 손에 컴퓨팅 디바이스(106)를 가진다. 컴퓨팅 디바이스(108)는 테이블에 놓여 있고, 컴퓨팅 디바이스(110)는 근처의 벽에 위치하고 있다. 컴퓨팅 디바이스(106)는 컴퓨팅 디바이스들(108 및 110)을 검출하고, 각각의 컴퓨팅 디바이스는 사용자 식별자와 같은, 컴퓨팅 디바이스에 로그인되어 있는 사용자와 관련 있는 정보를 공유한다. 일부 구현들에서, 컴퓨팅 디바이스들은 화자 식별(speaker identification)을 통하여 동일한 사용자에 의해 핫워드가 말해질 때 응답하도록 구성된 컴퓨팅 디바이스들을 식별하는 것에 의해 핫워드에 응답하도록 구성된 다른 근처의 컴퓨팅 디바이스들을 식별할 수 있다. 예를 들어, 사용자(102)는 컴퓨팅 디바이스들(106, 108, 및 110)을 각각, 사용자(102)가 핫워드를 말할 때 사용자(102)의 음성에 응답하도록 구성하였다. 컴퓨팅 디바이스들은 사용자(102)에 대한 사용자 식별자를 각각의 다른 컴퓨팅 디바이스에 제공하는 것에 의해 화자 식별 정보를 공유한다. 일부 구현들에서, 컴퓨팅 디바이스들은 단거리 무선을 통하여 핫워드에 응답하도록 구성된 다른 컴퓨팅 디바이스들을 식별할 수 있다. 예를 들어, 컴퓨팅 디바이스(106)는 핫워드에 응답하도록 구성된 다른 컴퓨팅 디바이스들을 검색하는 신호를 단거리 무선을 통하여 송신할 수 있다. 컴퓨팅 디바이스들은 이러한 기법들 중 하나 또는 이들의 조합을 이용하여 핫워드에 응답하도록 구성된 다른 컴퓨팅 디바이스들을 식별할 수 있다

컴퓨팅 디바이스들(106, 108, 및 110)이 핫워드에 응답하도록 구성된 다른 컴퓨팅 디바이스들을 식별하면, 컴퓨팅 디바이스들(106, 108, 및 110)은 식별된 컴퓨팅 디바이스들에 대한 디바이스 식별자들을 공유 및 저장한다. 식별자들은 디바이스의 타입, 디바이스의 IP 주소, MAC 주소, 사용자에 의해 디바이스에 주어진 이름, 또는 임의의 유사한 고유 식별자에 기초할 수 있다. 예를 들어, 컴퓨팅 디바이스(106)에 대한 디바이스 식별자(112)는 "전화(phone)"일 수 있다. 컴퓨팅 디바이스(108)에 대한 디바이스 식별자(114)는 "태블릿(tablet)"일 수 있다. 컴퓨팅 디바이스(110)에 대한 디바이스 식별자(116)는 "온도조절장치(thermostat)"일 수 있다. 컴퓨팅 디바이스들(106, 108, 및 110)은 핫워드에 응답하도록 구성된 다른 컴퓨팅 디바이스들에 대한 디바이스 식별자를 저장한다. 각각의 컴퓨팅 디바이스는 디바이스 그룹을 가지며 거기에 컴퓨팅 디바이스는 디바이스 식별자들을 저장한다. 예를 들어, 컴퓨팅 디바이스(106)는 컴퓨팅 디바이스(106)에 의해 계산된, 오디오 데이터가 핫워드를 포함할 가능성을 수신할 2개의 디바이스로서 "태블릿"과 "온도조절장치"를 열거하는 디바이스 그룹(118)을 가진다. 컴퓨팅 디바이스(108)는 컴퓨팅 디바이스(108)에 의해 계산된, 오디오 데이터가 핫워드를 포함할 가능성을 수신할 2개의 디바이스로서 "전화"와 "온도조절장치"를 열거하는 디바이스 그룹(120)을 가진다. 컴퓨팅 디바이스(110)는 컴퓨팅 디바이스(110)에 의해 계산된, 오디오 데이터가 핫워드를 포함할 가능성을 수신할 2개의 디바이스로서 "전화"와 "태블릿"을 열거하는 디바이스 그룹(122)을 가진다.

사용자(102)가 "OK 컴퓨터"라는 발성(104)을 말할 때, 사용자(102)의 근처에 마이크를 가진 각각의 컴퓨팅 디바이스는 발성(104)을 검출하고 처리한다. 각각의 컴퓨팅 디바이스는 마이크와 같은 오디오 입력 디바이스를 통하여 발성(104)을 검출한다. 각각의 마이크는 오디오 데이터를 각자의 오디오 서브시스템에 제공한다. 각자의 오디오 서브시스템은 오디오 데이터를 버퍼링하고, 필터링하고, 디지털화한다. 일부 구현들에서, 각각의 컴퓨팅 디바이스는 또한 오디오 데이터에 대한 엔드포인팅 및 화자 식별을 수행할 수 있다. 오디오 서브시스템은 처리된 오디오 데이터를 핫워더(hotworder)에 제공한다. 핫워더는 처리된 오디오 데이터를 알려진 핫워드 데이터와 비교하고 발성(104)이 핫워드에 대응할 가능성을 나타내는 신뢰도 점수를 계산한다. 핫워더는 처리된 오디오 데이터로부터, 필터뱅크 에너지(filterbank energy) 또는 멜 주파수 켑스트럼 계수(mel-frequency cepstral coefficient)와 같은 오디오 특징들을 추출할 수 있다. 핫워더는 분류 윈도우(classifying window)들을 이용하여, 예를 들어 서포트 벡터 머신(support vector machine) 또는 신경망(neural network)을 이용하는 것에 의해 이러한 오디오 특징들을 처리할 수 있다. 오디오 특징들의 처리에 기초하여, 핫워더(124)는 0.85의 신뢰도 점수를 계산하고, 핫워더(126)는 0.6의 신뢰도 점수를 계산하고, 핫워더(128)는 0.45의 신뢰도 점수를 계산한다. 일부 구현들에서, 신뢰도 점수는 0 내지 1의 스케일로 정규화될 수 있고, 더 높은 숫자는 발성(104)이 핫워드를 포함할 더 큰 신뢰도를 나타낸다.

각각의 컴퓨팅 디바이스는 각자의 신뢰도 점수 데이터 패킷을 디바이스 그룹 내의 다른 컴퓨팅 디바이스들에 송신한다. 각각의 신뢰도 점수 데이터 패킷은 각자의 신뢰도 점수 및 컴퓨팅 디바이스에 대한 각자의 디바이스 식별자를 포함한다. 예를 들어, 컴퓨팅 디바이스(106)는 0.85의 신뢰도 점수 및 디바이스 식별자 "전화"를 포함하는 신뢰도 점수 데이터 패킷(130)을 디바이스 그룹(118) 내의 컴퓨팅 디바이스들인, 컴퓨팅 디바이스들(108 및 110)에 송신한다. 컴퓨팅 디바이스(108)는 0.6의 신뢰도 점수 및 디바이스 식별자 "태블릿"을 포함하는 신뢰도 점수 데이터 패킷(132)을 디바이스 그룹(120) 내의 컴퓨팅 디바이스들인, 컴퓨팅 디바이스들(106 및 110)에 송신한다. 컴퓨팅 디바이스(110)는 0.45의 신뢰도 점수 및 디바이스 식별자 "온도조절장치"를 포함하는 신뢰도 점수 데이터 패킷(134)을 디바이스 그룹(118) 내의 컴퓨팅 디바이스들인, 컴퓨팅 디바이스들(106 및 108)에 송신한다.

일부 구현들에서, 컴퓨팅 디바이스는 신뢰도 점수가 핫워드 점수 임계치를 만족시키면 신뢰도 점수 데이터 패킷을 송신할 수 있다. 예를 들어, 핫워드 점수 임계치가 0.5이면, 컴퓨팅 디바이스(110)는 신뢰도 점수 데이터 패킷(134)을 디바이스 그룹(122) 내의 다른 컴퓨팅 디바이스들에 송신하지 않을 것이다. 컴퓨팅 디바이스들(106 및 108)은 여전히 신뢰도 점수 데이터 패킷들(130 및 132)을, 각각, 디바이스 그룹들(118 및 120) 내의 컴퓨팅 디바이스들에 송신할 것이다.

일부 구현들에서, 신뢰도 점수 데이터 패킷을 송신하는 컴퓨팅 디바이스는 신뢰도 점수 데이터 패킷을 다른 컴퓨팅 디바이스들에 직접 송신할 수 있다. 예를 들어, 컴퓨팅 디바이스(106)는 신뢰도 점수 데이터 패킷(130)을 컴퓨팅 디바이스들(108 및 110)에 단거리 무선을 통하여 송신할 수 있다. 2개의 컴퓨팅 디바이스 사이에 사용되는 통신 프로토콜은 유니버설 플러그 앤 플레이(universal plug and play)일 수 있다. 일부 구현들에서, 신뢰도 점수 데이터 패킷을 송신하는 컴퓨팅 디바이스는 신뢰도 점수 데이터 패킷을 브로드캐스트할 수 있다. 이 경우, 신뢰도 점수 데이터 패킷은 디바이스 그룹 내의 컴퓨팅 디바이스들에 의해 그리고 다른 컴퓨팅 디바이스들에 의해 수신될 수 있다. 일부 구현들에서, 신뢰도 점수 데이터 패킷을 송신하는 컴퓨팅 디바이스는 신뢰도 점수 데이터 패킷을 서버에 송신할 수 있고, 그 후 서버는 신뢰도 점수 데이터 패킷을 디바이스 그룹 내의 컴퓨팅 디바이스들에 송신한다. 서버는 컴퓨팅 디바이스들의 로컬 영역 네트워크 내에 위치하거나 인터넷을 통하여 액세스 가능할 수 있다. 예를 들어, 컴퓨팅 디바이스(108)는 신뢰도 점수 데이터 패킷(132) 및 디바이스 그룹(120) 내의 컴퓨팅 디바이스들의 목록을 서버에 송신한다. 서버는 신뢰도 점수 데이터 패킷(132)을 컴퓨팅 디바이스(106 및 110)에 송신한다. 컴퓨팅 디바이스가 신뢰도 점수 데이터 패킷을 다른 컴퓨팅 디바이스에 송신하는 경우에, 수신 컴퓨팅 디바이스는 수신 컴퓨팅 디바이스가 신뢰도 점수 데이터 패킷을 수신했다는 확인을 회신할 수 있다.

각각의 컴퓨팅 디바이스는 점수 비교기를 이용하여 컴퓨팅 디바이스가 수신한 핫워드 신뢰도 점수들을 비교한다. 예를 들어, 컴퓨팅 디바이스(106)는 0.85의 핫워드 신뢰도 점수를 계산하였고 0.6 및 0.45의 핫워드 신뢰도 점수들을 수신하였다. 이 경우, 점수 비교기(136)는 3개의 점수를 비교하고 0.85의 점수를 가장 높은 것으로 식별한다. 컴퓨팅 디바이스들(108 및 110)에 대해, 점수 비교기들(138 및 140)은 컴퓨팅 디바이스(106)에 대응하는 0.85의 점수를 가장 높은 것으로 식별하는, 유사한 결론들에 도달한다.

그 자신의 핫워드 신뢰도 점수가 가장 높은 것을 결정하는 컴퓨팅 디바이스는 핫워드 발성 이후의 음성 데이터에 대한 음성 인식을 개시한다. 예를 들어, 사용자는 "OK 컴퓨터"를 말할 수 있고, 컴퓨팅 디바이스(106)는 그것이 가장 높은 핫워드 신뢰도 점수를 가지는 것을 결정할 수 있다. 컴퓨팅 디바이스(106)는 핫워드 이후에 수신된 오디오 데이터에 대한 음성 인식을 개시할 것이다. 사용자가 "Alice 호출(call Alice)"을 말하면, 컴퓨팅 디바이스(106)는 발성을 처리하고 적절한 명령을 실행할 것이다. 일부 구현들에서, 핫워드를 수신하는 것은 핫워드를 수신하는 컴퓨팅 디바이스들로 하여금 슬립(sleep) 상태로부터 활성화하게 할 수 있다. 이 경우, 가장 높은 핫워드 신뢰도 점수를 가진 컴퓨팅 디바이스는 어웨이크(awake) 상태에 남아 있는 반면 가장 높은 핫워드 신뢰도 점수를 갖지 않는 다른 컴퓨팅 디바이스들은 핫워드 발성 이후의 음성 데이터를 처리하지 않고 슬립 상태에 들어간다.

도 1에 예시된 바와 같이, 점수 비교기(136)는 컴퓨팅 디바이스(106)에 대응하는 핫워드 신뢰도 점수를 가장 높은 것으로 식별하였다. 그러므로, 디바이스 상태(142)는 "어웨이크"이다. 점수 비교기들(138 및 140)도 컴퓨팅 디바이스(106)에 대응하는 핫워드 신뢰도 점수를 가장 높은 것으로 식별하였다. 그러므로, 디바이스 상태들(144 및 146)은 "슬립(asleep)"이다. 일부 구현들에서, 컴퓨팅 디바이스의 활성화 상태는 영향을 받지 않을 수 있다. 예를 들어, 사용자(102)는 컴퓨팅 디바이스(108)에서 영화를 시청중이고 사용자의 손에 컴퓨팅 디바이스(106)를 가질 수 있다. 사용자(102)가 "OK 컴퓨터"를 말할 때, 컴퓨팅 디바이스(106)는, 가장 높은 핫워드 신뢰도 점수를 가지고 있기 때문에, 핫워드 이후의 오디오 데이터에 대한 음성 인식을 개시한다. 컴퓨팅 디바이스(108)는 핫워드 이후의 오디오 데이터에 대한 음성 인식을 개시하지 않고, 계속 영화를 재생한다.

일부 구현들에서, 그것이 가장 높은 핫워드 신뢰도 점수를 가지는 것을 결정하는 컴퓨팅 디바이스는 핫워드 이후의 음성에 대한 음성 인식의 수행을 시작하기 전에 특정량의 시간 동안 기다린다. 이렇게 하는 것은 가장 높은 핫워드 신뢰도 점수를 계산한 컴퓨팅 디바이스가 더 높은 핫워드 신뢰도 점수를 기다리지 않고 핫워드 이후의 음성에 대한 음성 인식의 수행을 시작하는 것을 허용한다. 예시하자면, 컴퓨팅 디바이스(106)의 점수 비교기(136)는 컴퓨팅 디바이스(108 및 110)로부터, 각각, 0.6 및 0.45의 핫워드 신뢰도 점수들뿐만 아니라, 핫워더(124)로부터 0.85의 핫워드 신뢰도 점수를 수신하였다. 핫워더(124)가 "Ok 컴퓨터" 오디오 데이터의 핫워드 신뢰도 점수를 계산하는 때로부터, 컴퓨팅 디바이스(106)는 핫워드 이후의 음성에 대한 음성 인식을 수행하기 전에 500 밀리초를 기다린다. 점수 비교기가 더 높은 점수를 수신하는 경우에, 컴퓨팅 디바이스는 디바이스 상태를 "슬립"으로 설정하기 전에 특정량의 시간 동안 기다리지 않을 수 있다. 예를 들어, 컴퓨팅 디바이스(108)의 핫워더(126)는 0.6의 핫워드 신뢰도 점수를 계산하고 0.85 및 0.45의 핫워드 신뢰도 점수들을 수신한다. 컴퓨팅 디바이스(108)가 0.85의 핫워드 신뢰도 점수를 수신하면, 컴퓨팅 디바이스(108)는 디바이스 상태(144)를 "슬립"으로 설정할 수 있다. 이것은 컴퓨팅 디바이스(108)가 핫워더(126)가 0.6의 핫워드 신뢰도 점수를 계산한 후에 특정량의 시간 내에 0.85의 핫워드 신뢰도 점수를 수신하는 것을 가정한다.

일부 구현들에서, 컴퓨팅 디바이스가 가장 높은 핫워드 신뢰도 점수를 가지는 경우, 컴퓨팅 디바이스는 다른 컴퓨팅 디바이스들이 신뢰도 점수 데이터 패킷을 수신하는 것을 보장하기 위해 특정량의 시간 동안 계속 신뢰도 점수 데이터 패킷을 브로드캐스트할 수 있다. 이 전략은 컴퓨팅 디바이스가 다른 컴퓨팅 디바이스로부터 신뢰도 점수 데이터 패킷을 수신하면 확인을 회신하는 경우에 가장 적용 가능할 것이다. 그러므로, 컴퓨팅 디바이스(106)가 신뢰도 점수 데이터 패킷(130)을 디바이스 그룹(118) 내의 컴퓨팅 디바이스들에 송신하고 500 밀리초와 같은 특정량의 시간 전에 확인을 수신하면, 컴퓨팅 디바이스(106)는 핫워드 이후의 음성에 대한 음성 인식의 수행을 시작할 수 있다. 컴퓨팅 디바이스들이 그들의 신뢰도 점수 데이터 패킷들을 브로드캐스트하고 확인을 기대하지 않는 경우에, 컴퓨팅 디바이스는 그들의 핫워드 신뢰도 점수들을, 500 밀리초와 같은 특정량의 시간 동안, 또는 컴퓨팅 디바이스가 어떤 것이든 맨 먼저 오는 더 높은 핫워드 신뢰도 점수를 수신할 때까지, 계속 브로드캐스트할 수 있다. 예를 들어, 컴퓨팅 디바이스(110)는 0.45의 핫워드 신뢰도 점수를 계산하고 신뢰도 점수 데이터 패킷(134)을 브로드캐스트하기 시작한다. 300 밀리초 후에, 컴퓨팅 디바이스(110)는 신뢰도 점수 데이터 패킷(130)을 수신하고 신뢰도 점수 데이터 패킷(134)의 브로드캐스트를 중지하는데, 그 이유는 신뢰도 점수 데이터 패킷(130)으로부터의 0.85의 핫워드 신뢰도 점수가 45의 핫워드 신뢰도 점수보다 높기 때문이다. 또 다른 브로드캐스트 예로서, 컴퓨팅 디바이스(106)는 0.45의 핫워드 신뢰도 점수를 계산하고 신뢰도 점수 데이터 패킷(130)을 브로드캐스트하기 시작한다. 500 밀리초 후에, 컴퓨팅 디바이스(106)는 신뢰도 점수 데이터 패킷(130)의 브로드캐스트를 중지하고 핫워드 이후의 음성에 대한 음성 인식의 수행을 시작한다. 컴퓨팅 디바이스(106)는 500 밀리초가 경과하기 전에 신뢰도 점수 데이터 패킷들(132 및 134)을 수신할 수 있지만, 신뢰도 점수 데이터 패킷들(132 및 134) 내의 핫워드 신뢰도 점수들이 0.85보다 낮기 때문에, 컴퓨팅 디바이스 500 밀리초가 경과한 후까지 계속 기다린다.

일부 구현들에서, 컴퓨팅 디바이스가 더 높은 핫워드 신뢰도 점수를 수신할 때까지 컴퓨팅 디바이스는 핫워드 이후의 음성에 대한 음성 인식의 수행을 시작할 수 있다. 핫워더는 핫워드 신뢰도 점수를 계산하고, 핫워드 신뢰도 점수가 임계치를 만족시키면, 컴퓨팅 디바이스는 핫워드 이후의 음성에 대한 음성 인식을 수행한다. 컴퓨팅 디바이스는 음성 인식에 대한 어떤 지시도 사용자에 표시하지 않고 음성 인식을 수행할 수 있다. 이것은 그렇게 하는 것이 컴퓨팅 디바이스가 가장 높은 핫워드 점수를 계산한 것을 확인할 때까지 컴퓨팅 디바이스가 기다리는 경우보다 더 빠르게 컴퓨팅 디바이스가 음성 인식에 기초한 결과들을 사용자에게 표시하는 것을 허용하면서도 컴퓨팅 디바이스가 활성이 아니라는 인상을 사용자에 주기 때문에 바람직할 수 있다. 예로서, 컴퓨팅 디바이스(106)는 0.85의 핫워드 신뢰도 점수를 계산하고 핫워드 이후의 음성에 대한 음성 인식의 수행을 시작한다. 컴퓨팅 디바이스(106)는 신뢰도 점수 데이터 패킷들(132 및 134)을 수신하고 0.85의 핫워드 신뢰도 점수가 가장 높다는 것을 결정한다. 컴퓨팅 디바이스(106)는 핫워드 이후의 음성에 대한 음성 인식을 계속 수행하고 그 결과들을 사용자에 제시한다. 컴퓨팅 디바이스(108)에 대해, 핫워더(126)는 0.6의 핫워드 신뢰도 점수를 계산하고, 컴퓨팅 디바이스(108)는 사용자에 데이터를 표시하지 않고 핫워드 이후의 음성에 대한 음성 인식의 수행을 시작한다. 컴퓨팅 디바이스(108)가 0.85의 핫워드 신뢰도를 포함하는 신뢰도 점수 데이터 패킷(130)을 수신하면, 컴퓨팅 디바이스는 음성 인식의 수행을 중지한다. 어떤 데이터도 사용자에 표시되지 않고, 사용자는 컴퓨팅 디바이스(108)가 "슬립" 상태에 남아 있었다는 인상을 받을 가능성이 있다.

일부 구현들에서, 핫워드가 말해진 후에 어떤 대기 시간도 피하기 위해, 핫워드의 끝 전에, 예컨대, 부분적인 핫워드에 대해 핫워더로부터 점수들이 보고될 수 있다. 예를 들어, 사용자가 "Ok 컴퓨터"를 말하고 있을 때, 컴퓨팅 디바이스는 사용자가 "OK 컴(OK comp)"을 말하는 것을 완료하면 부분적인 핫워드 신뢰도 점수를 계산할 수 있다. 그 후 컴퓨팅 디바이스는 부분적인 핫워드 신뢰도 점수를 다른 컴퓨팅 디바이스들과 공유할 수 있다. 가장 높은 부분적인 핫워드 신뢰도 점수를 가진 컴퓨팅 디바이스는 사용자의 음성을 계속 처리할 수 있다.

일부 구현들에서, 컴퓨팅 디바이스가 핫워드 신뢰도 점수가 임계치를 만족시키는 것을 결정할 때 컴퓨팅 디바이스는, 예컨대, 특정 주파수 또는 주파수 패턴의, 가청음 또는 불가청음을 낼 수 있다. 그 음은 다른 컴퓨팅 디바이스들에게, 컴퓨팅 디바이스가 핫워드 이후의 오디오 데이터를 계속 처리할 것임을 신호할 것이다. 다른 컴퓨팅 디바이스들은 이 음을 수신하고 오디오 데이터의 처리를 중단할 것이다. 예를 들어, 사용자는 "Ok 컴퓨터"를 말한다. 컴퓨팅 디바이스들 중 하나가 임계치 이상인 핫워드 신뢰도 점수를 계산한다. 컴퓨팅 디바이스가 핫워드 신뢰도 점수가 임계치 이상인 것을 결정하면, 컴퓨팅 디바이스는 18 킬로헤르츠의 음을 낸다. 사용자 근처에 있는 다른 컴퓨팅 디바이스들도 핫워드 신뢰도 점수를 계산중일 수 있고 다른 컴퓨팅 디바이스들이 음을 수신할 때 핫워드 신뢰도 점수를 계산하는 도중일 수 있다. 다른 컴퓨팅 디바이스들이 음을 수신할 때, 다른 컴퓨팅 디바이스들은 사용자의 음성의 처리를 중단한다. 일부 구현들에서, 컴퓨팅 디바이스는 가청음 또는 불가청음에 핫워드 신뢰도 점수를 인코딩할 수 있다. 예를 들어, 핫워드 신뢰도 점수가 0.5이면, 컴퓨팅 디바이스는 0.5의 점수를 인코딩하는 주파수 패턴을 포함하는 가청음 또는 불가청음을 생성할 수 있다.

일부 구현들에서, 컴퓨팅 디바이스들은 상이한 오디오 메트릭들을 이용하여, 사용자의 음성의 처리를 계속할 컴퓨팅 디바이스를 선택할 수 있다. 예를 들어, 컴퓨팅 디바이스들은 소리 세기(loudness)를 이용하여, 어느 컴퓨팅 디바이스가 사용자의 음성을 계속 처리할 것인지를 결정할 수 있다. 가장 큰 음성을 검출하는 컴퓨팅 디바이스는 사용자의 음성을 계속 처리할 수 있다. 또 다른 예로서, 현재 사용중인 또는 활성 디스플레이를 가진 컴퓨팅 디바이스는 다른 컴퓨팅 디바이스들에게, 그것이 핫워드를 검출하면 사용자의 음성의 계속 처리할 것임을 통지할 수 있다.

일부 구현들에서, 사용자가 말하고 있는 동안 사용자의 근처에 있는 각각의 컴퓨팅 디바이스는 오디오 데이터를 수신하고 음성 인식을 개선하기 위해 그 오디오 데이터를 서버에 송신한다. 각각의 컴퓨팅 디바이스는 사용자의 음성에 대응하는 오디오 데이터를 수신할 수 있다. 하나의 컴퓨팅 디바이스만이 사용자에게 사용자의 음성을 처리하고 있는 것으로 보이겠지만, 각각의 컴퓨팅 디바이스가 오디오 데이터를 서버에 송신할 수 있다. 그 후 서버는 각각의 컴퓨팅 디바이스로부터 수신되는 오디오 데이터를 이용하여 음성 인식을 개선할 수 있는데, 그 이유는 서버가 동일한 발성에 대응하는 상이한 오디오 샘플들을 비교할 수 있기 때문이다. 예를 들어, 사용자가 "Ok 컴퓨터, 우유를 사는 것을 상기시켜달라(Ok computer, remind me to buy milk)"고 말한다. 사용자가 "Ok 컴퓨터"를 말하는 것을 완료하면, 근처의 컴퓨팅 디바이스들은 어느 컴퓨팅 디바이스가 가장 높은 핫워드 신뢰도 점수를 가지는지를 결정했을 가능성이 있을 것이고, 해당 컴퓨팅 디바이스는 사용자가 "우유를 사는 것을 상기시켜달라"는 단어들을 말할 때 그 단어들을 처리하고 그에 응답할 것이다. 다른 컴퓨팅 디바이스들도 "우유를 사는 것을 상기시켜달라"를 수신할 것이다. 다른 컴퓨팅 디바이스는 "우유를 사는 것을 상기시켜달라"는 발성에 응답하지 않겠지만, 다른 컴퓨팅 디바이스들은 "우유를 사는 것을 상기시켜달라"에 대응하는 오디오 데이터를 서버에 송신할 수 있다. "우유를 사는 것을 상기시켜달라"에 응답하는 컴퓨팅 디바이스들도 그것의 오디오 데이터를 서버에 송신할 수 있다. 서버는 그 오디오 데이터를 처리하여 음성 인식을 개선할 수 있는데, 그 이유는 서버가 동일한 "우유를 사는 것을 상기시켜달라" 발성에 대응하는 상이한 컴퓨팅 디바이스들로부터의 상이한 오디오 샘플들을 가지기 때문이다.

도 2는 핫워드 검출을 위한 예시적인 프로세스(200)의 도면이다. 프로세스(200)는 도 1로부터의 컴퓨팅 디바이스(108)와 같은 컴퓨팅 디바이스에 의해 수행될 수 있다. 프로세스(200)는 발성이 핫워드를 포함할 가능성에 대응하는 값을 계산하고 그 값을 다른 컴퓨팅 디바이스들에 의해 계산된 다른 값들과 비교하여 핫워드 이후의 발성의 부분에 대한 음성 인식을 수행할지 여부를 결정한다.

컴퓨팅 디바이스는 발성에 대응하는 오디오 데이터를 수신한다(210). 사용자가 발성을 말하고 컴퓨팅 디바이스의 마이크가 그 발성의 오디오 데이터를 수신한다. 컴퓨팅 디바이스는 오디오 데이터를 버터링, 필터링, 엔드포인팅, 및 디지털화하는 것에 의해 오디오 데이터를 처리한다. 예로서, 사용자는 "Ok, 컴퓨터"를 발성할 수 있고, 컴퓨팅 디바이스의 마이크는 "Ok, 컴퓨터"에 대응하는 오디오 데이터를 수신할 것이다. 컴퓨팅 디바이스의 오디오 서브시스템이 컴퓨팅 디바이스에 의한 추가 처리를 위해 오디오 데이터를 샘플링, 버퍼링, 필터링, 및 엔드포인팅할 것이다.

컴퓨팅 디바이스는 발성이 핫워드를 포함할 가능성에 대응하는 제1 값을 결정한다(220). 컴퓨팅 디바이스는 발성의 오디오 데이터를 핫워드를 포함하는 오디오 샘플들의 그룹과 비교하는 것에 의해 또는 발성의 오디오 데이터의 오디오 특성들을 분석하는 것에 의해, 핫워드 신뢰도 점수라고 불릴 수 있는, 제1 값을 결정한다. 제1 값은 0 내지 1의 스케일로 정규화될 수 있고, 여기서 1은 발성이 핫워드를 포함할 가장 높은 가능성을 나타낸다. 일부 구현들에서, 컴퓨팅 디바이스는 제2 컴퓨팅 디바이스를 식별하고 제2 컴퓨팅 디바이스가 핫워드를 포함하는 발성들에 응답하도록 구성되고 핫워드에 응답하도록 사용자에 의해 구성된 것을 결정한다. 사용자는 컴퓨팅 디바이스와 제2 컴퓨팅 디바이스 양쪽 모두에 로그인되어 있을 수 있다. 컴퓨팅 디바이스와 제2 컴퓨팅 디바이스 양쪽 모두가 사용자의 음성에 응답하도록 구성될 수 있다. 컴퓨팅 디바이스와 제2 컴퓨팅 디바이스는 동일한 로컬 영역 네트워크에 연결될 수 있다. 컴퓨팅 디바이스와 제2 컴퓨팅 디바이스는 양쪽 모두가, GPS 또는 신호 세기에 의해 결정된 바와 같이, 10 미터와 같은, 서로의 특정 거리 이내에 위치할 수 있다. 예를 들어, 이 컴퓨팅 디바이스들은 단거리 무선에 의해 통신할 수 있다. 컴퓨팅 디바이스는 제2 컴퓨팅 디바이스에 의해 송신되는 신호의 세기를 5 dBm으로서 검출하고 그것을 5 미터와 같은 대응하는 거리로 번역할 수 있다.

컴퓨팅 디바이스는 발성이 핫워드를 포함할 가능성에 대응하는 제2 값 - 제2 값은 제2 컴퓨팅 디바이스에 의해 결정됨 - 을 수신한다(230). 제2 컴퓨팅 디바이스는 제2 컴퓨팅 디바이스의 마이크를 통하여 발성을 수신한다. 제2 컴퓨팅 디바이스는 발성에 대응하는 수신된 오디오 데이터를 처리하고 제2 값 또는 제2 핫워드 신뢰도 점수를 결정한다. 제2 핫워드 신뢰도 점수는 제2 컴퓨팅 디바이스에 의해 계산된, 발성이 핫워드를 포함할 가능성을 반영한다. 일부 구현들에서, 컴퓨팅 디바이스는 다음의 기법들 중 하나 이상을 이용하여 제1 값을 제2 컴퓨팅 디바이스에 송신한다. 컴퓨팅 디바이스는 인터넷을 통하여 액세스 가능한 서버를 통하여, 로컬 영역 네트워크에 위치하는 서버를 통하여, 또는 로컬 영역 네트워크 또는 단거리 무선을 통하여 직접, 제1 값을 제2 컴퓨팅 디바이스에 송신할 수 있다. 컴퓨팅 디바이스는 제1 값을 제2 컴퓨팅 디바이스에게만 송신할 수 있거나, 컴퓨팅 디바이스는 다른 컴퓨팅 디바이스들도 제1 값을 수신할 수 있도록 제1 값을 브로드캐스트할 수 있다. 컴퓨팅 디바이스는 컴퓨팅 디바이스가 제1 값을 송신한 것과 동일한 또는 상이한 기법을 이용하여 제2 컴퓨팅 디바이스로부터 제2 값을 수신할 수 있다.

일부 구현들에서, 컴퓨팅 디바이스는 발성에 대한 소리 세기 점수 또는 발성에 대한 신호 대 잡음비를 계산할 수 있다. 컴퓨팅 디바이스는 소리 세기 점수, 신호 대 잡음비, 및 핫워드 신뢰도 점수를 조합하여, 다른 컴퓨팅 디바이스들로부터의 유사한 값들과 비교하기 위한 새로운 값을 결정할 수 있다. 예를 들어, 컴퓨팅 디바이스는 핫워드 신뢰도 점수 및 신호 대 잡음비를 계산할 수 있다. 그 후 컴퓨팅 디바이스는 그 2개의 점수를 조합하고 다른 컴퓨팅 디바이스들로부터의 유사하게 계산된 점수들과 비교할 수 있다. 일부 구현들에서, 컴퓨팅 디바이스는 상이한 점수들을 계산하고 각각의 점수를 비교를 위해 다른 컴퓨팅 디바이스들에 송신할 수 있다. 예를 들어, 컴퓨팅 디바이스는 발성에 대한 소리 세기 점수 및 핫워드 신뢰도 점수를 계산할 수 있다. 그 후 컴퓨팅 디바이스는 그 점수들을 비교를 위해 다른 컴퓨팅 디바이스들에 송신할 수 있다.

일부 구현들에서, 컴퓨팅 디바이스는 제1 값과 함께 제1 식별자를 송신할 수 있다. 이 식별자는 컴퓨팅 디바이스의 주소, 사용자에 의해 주어진 컴퓨팅 디바이스의 이름, 또는 컴퓨팅 디바이스의 위치 중 하나 이상에 기초할 수 있다. 예를 들어, 식별자는 "69.123.132.43" 또는 "전화"일 수 있다. 유사하게, 제2 컴퓨팅 디바이스는 제2 값과 함께 제2 식별자를 송신할 수 있다. 일부 구현들에서, 컴퓨팅 디바이스는 제1 식별자를, 컴퓨팅 디바이스가 핫워드에 응답하도록 구성된 것으로 이전에 식별한 특정 컴퓨팅 디바이스들에 송신할 수 있다. 예를 들어, 컴퓨팅 디바이스는, 핫워드에 응답할 수 있는 것에 더하여, 컴퓨팅 디바이스와 동일한 사용자가 제2 컴퓨팅 디바이스에 로그인되었기 때문에, 제2 컴퓨팅 디바이스를 핫워드에 응답하도록 구성된 것으로 이전에 식별했을 수 있다.

컴퓨팅 디바이스는 제1 값과 제2 값을 비교한다(240). 그 후 컴퓨팅 디바이스는, 비교의 결과에 기초하여, 오디오 데이터에 대한 음성 인식 처리를 개시한다(250). 일부 구현들에서, 예를 들어, 컴퓨팅 디바이스는 제1 값이 제2 값 이상일 때 음성 인식을 개시한다. 사용자가 "ok 컴퓨터, Carol 호출"을 말하면, 컴퓨팅 디바이스는 제1 값이 제2 값 이상이기 때문에, "Carol 호출"에 대한 음성 인식을 수행하는 것에 의해 "Carol 호출"을 처리하기 시작할 것이다. 일부 구현들에서, 컴퓨팅 디바이스는 활성화 상태를 설정한다. 제1 값이 제2 값 이상인 경우에, 컴퓨팅 디바이스는 활성화 상태를 활성 또는 "어웨이크"로서 설정한다. "어웨이크" 상태에서, 컴퓨팅 디바이스는 음성 인식으로부터의 결과들을 표시한다.

일부 구현들에서, 컴퓨팅 디바이스는 제1 값과 제2 값을 비교하고 제1 값이 제2 값 미만인 것을 결정한다. 컴퓨팅 디바이스는, 제1 값이 제2 값 미만이라는 결정에 기초하여, 활성화 상태를 비활성 또는 "슬립"으로서 설정한다. "슬립" 상태에서, 컴퓨팅 디바이스는 사용자에게, 활성이거나 오디오 데이터를 처리하는 것으로 보이지 않는다.

일부 구현들에서, 컴퓨팅 디바이스가 제1 값이 제2 값 이상인 것을 결정할 때, 컴퓨팅 디바이스는 활성화 상태를 활성으로 설정하기 전에 특정량의 시간 동안 기다릴 수 있다. 컴퓨팅 디바이스는 컴퓨팅 디바이스가 다른 컴퓨팅 디바이스로부터 더 높은 값을 수신하지 않을 가능성을 증가시키기 위해 특정량의 시간 동안 기다릴 수 있다. 특정량의 시간은 고정될 수 있거나, 컴퓨팅 디바이스들이 값들을 송수신하는 기법에 따라서 달라질 수 있다. 일부 구현들에서, 컴퓨팅 디바이스가 제1 값이 제2 값 이상인 것을 결정할 때, 컴퓨팅 디바이스는 특정량의 시간 동안 제1 값을 계속 송신할 수 있다. 특정량의 시간 동안 제1 값을 계속 송신하는 것에 의해, 컴퓨팅 디바이스는 제1 값이 다른 컴퓨팅 디바이스들에 의해 수신되는 가능성을 증가시킨다. 컴퓨팅 디바이스가 제1 값이 제2 값 미만인 것을 결정하는 경우에, 컴퓨팅 디바이스는 제1 값의 송신을 중지할 수 있다.

일부 구현들에서, 컴퓨팅 디바이스는 핫워드 이후의 명령을 실행할지를 결정할 때 부가 정보를 고려할 수 있다. 부가 정보의 일 예는 핫워드 이후의 발성의 부분일 수 있다. 전형적으로, 핫워드 이후의 오디오 데이터는 "Sally 호출", "할로윈 영화 재생(play Halloween Movie)", 또는 "70도로 난방 설정(set heat to 70 degrees)"과 같은 컴퓨팅 디바이스에 대한 명령에 대응한다. 컴퓨팅 디바이스는 요청의 타입을 핸들링하는 또는 요청을 핸들링할 수 있는 전형적인 디바이스를 식별할 수 있다. 사람을 호출하는 요청은 전형적으로 미리 프로그램된 전형적인 사용들에 기초하여 또는 디바이스의 사용자의 사용 패턴들에 기초하여 전화에 의해 핸들링될 것이다. 사용자가 전형적으로 태블릿에서 영화를 시청한다면, 태블릿은 영화를 재생하는 요청을 핸들링할 수 있다. 온도조절장치가 온도를 조절할 수 있다면, 온도조절장치는 온도 조절들을 핸들링할 수 있다.

컴퓨팅 디바이스가 핫워드 이후의 발성의 부분을 고려하기 위해, 컴퓨팅 디바이스는 핫워드를 식별할 가능성이 있다면 오디오 데이터에 대한 음성 인식을 개시해야 할 것이다. 컴퓨팅 디바이스는 발성의 명령 부분을 분류하고 해당 분류에서 명령들의 빈도를 계산할 수 있다. 컴퓨팅 디바이스는 그 빈도를 핫워드 신뢰도 점수와 함께 다른 컴퓨팅 디바이스들에 송신할 수 있다. 각각의 컴퓨팅 디바이스는 그 빈도들 및 핫워드 신뢰도 점수들을 이용하여, 핫워드 이후의 명령을 실행할지를 결정할 수 있다.

예를 들어, 사용자가 "OK 컴퓨터, 마이클 잭슨 재생(play Michael Jackson)"을 발성하면, 컴퓨팅 디바이스가 사용자가 시간의 20%를 음악을 청취하는 데 사용하는 전화라면, 컴퓨팅 디바이스는 해당 정보를 핫워드 신뢰도 점수와 함께 송신할 수 있다. 사용자가 시간의 5%를 음악을 청취하는 데 사용하는 태블릿과 같은 컴퓨팅 디바이스는 해당 정보를 핫워드 신뢰도 점수와 함께 다른 컴퓨팅 디바이스들에 송신할 수 있다. 컴퓨팅 디바이스들은 핫워드 신뢰도 점수와 음악 재생 시간의 백분율의 조합을 이용하여, 명령을 실행할지를 결정할 수 있다.

도 3은 본 명세서에 기술된 기법들을 구현하기 위해 이용될 수 있는 컴퓨팅 디바이스(300) 및 모바일 컴퓨팅 디바이스(350)의 예를 보여준다. 컴퓨팅 디바이스(300)는 랩톱, 데스크톱, 워크스테이션, 개인 휴대 정보 단말기, 서버, 블레이드 서버, 메인프레임, 및 다른 적절한 컴퓨터와 같은, 다양한 형태의 디지털 컴퓨터들을 나타내기 위해 의도된 것이다. 모바일 컴퓨팅 디바이스(350)는 개인 휴대 정보 단말기, 휴대 전화, 스마트폰, 및 다른 유사한 컴퓨팅 디바이스들과 같은, 다양한 형태의 모바일 디바이스들을 나타내기 위해 의도된 것이다. 여기에 도시된 컴포넌트들, 그들의 연결들 및 관계들, 및 그들의 기능들은 단지 예들로 의도된 것이고, 제한적인 것으로 의도된 것은 아니다.

컴퓨팅 디바이스(300)는 프로세서(302), 메모리(304), 저장 디바이스(306), 메모리(304) 및 다수의 고속 확장 포트들(310)에 연결되는 고속 인터페이스(308), 및 저속 확장 포트(314) 및 저장 디바이스(306)에 연결되는 저속 인터페이스(312)를 포함한다. 프로세서(302), 메모리(304), 저장 디바이스(306), 고속 인터페이스(308), 고속 확장 포트들(310), 및 저속 인터페이스(312) 각각은 다양한 버스들을 이용하여 상호 연결되고, 공통의 마더보드 상에 또는 적절하게 다른 방식들로 장착될 수 있다. 프로세서(302)는 고속 인터페이스(308)에 결합된 디스플레이(316)와 같은, 외부 입출력 디바이스에서 GUI에 대한 그래픽 정보를 표시하기 위해 메모리(304)에 또는 저장 디바이스(306)에 저장된 명령어들을 포함하는, 컴퓨팅 디바이스(300) 내에서 실행하기 위한 명령어들을 처리할 수 있다. 다른 구현들에서는, 다수의 프로세서들 및/또는 버스들이, 적절하게, 다수의 메모리들 및 메모리 타입들과 함께 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스들이 연결될 수 있고, 각각의 디바이스는 필요한 동작들의 부분들을 제공한다(예컨대, 서버 뱅크, 블레이드 서버들의 그룹, 또는 멀티-프로세서 시스템으로서).

메모리(304)는 컴퓨팅 디바이스(300) 내의 정보를 저장한다. 일부 구현들에서, 메모리(304)는 휘발성 메모리 유닛 또는 유닛들이다. 일부 구현들에서, 메모리(304)는 비휘발성 메모리 유닛 또는 유닛들이다. 메모리(304)는 또한 자기 또는 광 디스크와 같은, 다른 형태의 컴퓨터-판독가능 매체일 수 있다.

저장 디바이스(306)는 컴퓨팅 디바이스(300)를 위한 대용량 저장을 제공할 수 있다. 일부 구현들에서, 저장 디바이스(306)는 플로피 디스크 디바이스, 하드 디스크 디바이스, 광 디스크 디바이스, 또는 테이프 디바이스, 플래시 메모리 또는 다른 유사한 솔리드 스테이트 메모리 디바이스, 또는 저장 영역 네트워크 또는 다른 구성들에서의 디바이스들을 포함하는, 디바이스들의 어레이와 같은, 컴퓨터-판독가능 매체이거나 이를 포함할 수 있다. 명령어들은 정보 캐리어에 저장될 수 있다. 명령어들은, 하나 이상의 처리 디바이스들(예를 들어, 프로세서(302))에 의해 실행될 때, 전술한 것들과 같은 하나 이상의 방법을 수행한다. 명령어들은 또한 컴퓨터- 또는 머신-판독가능 매체들(예를 들어, 메모리(304), 저장 디바이스(306), 또는 프로세서(302)의 메모리)과 같은 하나 이상의 저장 디바이스에 의해 저장될 수 있다.

고속 인터페이스(308)는 컴퓨팅 디바이스(300)를 위한 대역폭 집중적인 동작들을 관리하는 반면, 저속 인터페이스(312)는 저대역폭 집중적인 동작들을 관리한다. 이러한 기능들의 할당은 단지 예이다. 일부 구현들에서, 고속 인터페이스(308)는 메모리(304), 디스플레이(316)에(예컨대, 그래픽 프로세서 또는 가속기를 통하여), 그리고 다양한 확장 카드들(미도시)을 수용할 수 있는, 고속 확장 포트들(310)에 결합된다. 구현에서, 저속 인터페이스(312)는 저장 디바이스(306) 및 저속 확장 포트(314)에 결합된다. 다양한 통신 포트들(예컨대, USB, 블루투스, 이더넷, 무선 이더넷)을 포함할 수 있는, 저속 확장 포트(314)는 키보드, 포인팅 디바이스, 스캐너와 같은 하나 이상의 입출력 디바이스에, 또는 스위치 또는 라우터와 같은 네트워킹 디바이스에(예컨대, 네트워크 어댑터를 통하여) 결합될 수 있다.

컴퓨팅 디바이스(300)는 도면에 도시된 바와 같이, 다수의 상이한 형태들로 구현될 수 있다. 예를 들어, 그것은 표준 서버(320)로서, 또는 그러한 서버들의 그룹에서 여러 번 구현될 수 있다. 게다가, 그것은 랩톱 컴퓨터(322)와 같은 개인용 컴퓨터로 구현될 수 있다. 그것은 또한 랙 서버 시스템(324)의 일부로서 구현될 수 있다. 대안적으로, 컴퓨팅 디바이스(300)로부터의 컴포넌트들은 모바일 컴퓨팅 디바이스(350)와 같은, 모바일 디바이스 내의 다른 컴포넌트들(미도시)과 조합될 수 있다. 그러한 디바이스들 각각은 컴퓨팅 디바이스(300)와 모바일 컴퓨팅 디바이스(350) 중 하나 이상을 포함할 수 있고, 전체 시스템은 서로 통신하는 다수의 컴퓨팅 디바이스들로 구성될 수 있다.

모바일 컴퓨팅 디바이스(350)은, 여러 컴포넌트들 중에서, 프로세서(352), 메모리(364), 디스플레이(354)와 같은 입출력 디바이스, 통신 인터페이스(366), 및 트랜시버(368)를 포함한다. 모바일 컴퓨팅 디바이스(350)는 또한 부가 저장을 제공하기 위해, 마이크로-드라이브 또는 다른 디바이스와 같은 저장 디바이스를 구비할 수 있다. 프로세서(352), 메모리(364), 디스플레이(354), 통신 인터페이스(366), 및 트랜시버(368) 각각은 다양한 버스들을 이용하여 상호 연결되고, 컴포넌트들 중 여러 개가 공통 마더보드 상에 또는 적절하게 다른 방식들로 장착될 수 있다.

프로세서(352)는 메모리(364)에 저장된 명령어들을 포함하는, 모바일 컴퓨팅 디바이스(350) 내의 명령어들을 실행할 수 있다. 프로세서(352)는 개별적인 다수의 아날로그 및 디지털 프로세서들을 포함하는 칩들의 칩셋으로 구현될 수 있다. 프로세서(352)는, 예를 들어, 사용자 인터페이스들의 제어, 모바일 컴퓨팅 디바이스(350)에 의해 실행되는 애플리케이션들, 및 모바일 컴퓨팅 디바이스(350)에 의한 무선 통신과 같은, 모바일 컴퓨팅 디바이스(350)의 다른 컴포넌트들의 코디네이션(coordination)을 제공할 수 있다.

프로세서(352)는 디스플레이(354)에 결합된 제어 인터페이스(358) 및 디스플레이 인터페이스(356)를 통하여 사용자와 통신할 수 있다. 디스플레이(354)는, 예를 들어, TFT(Thin-Film-Transistor Liquid Crystal Display) 디스플레이 또는 OLED(Organic Light Emitting Diode) 디스플레이, 또는 다른 적절한 디스플레이 기술일 수 있다. 디스플레이 인터페이스(356)는 그래픽 및 다른 정보를 사용자에 제시하도록 디스플레이(354)를 구동하기 위한 적절한 회로를 포함할 수 있다. 제어 인터페이스(358)는 사용자로부터 명령들을 수신하고 이들을 프로세서(352)에 제출하기 위해 변환할 수 있다. 게다가, 모바일 컴퓨팅 디바이스(350)와 다른 디바이스들의 근거리 통신을 가능하게 하기 위해, 외부 인터페이스(362)가 프로세서(352)와의 통신을 제공할 수 있다. 외부 인터페이스(362)는, 예를 들어, 일부 구현들에서 유선 통신을, 또는 다른 구현들에서 무선 통신을 제공할 수 있고, 다수의 인터페이스들이 또한 사용될 수 있다.

메모리(364)는 모바일 컴퓨팅 디바이스(350) 내의 정보를 저장한다. 메모리(364)는 컴퓨터-판독가능 매체 또는 매체들, 휘발성 메모리 유닛 또는 유닛들, 또는 비휘발성 메모리 유닛 또는 유닛들 중 하나 이상으로 구현될 수 있다. 확장 메모리(374)가 또한 제공되고, 예를 들어, SIMM(Single In Line Memory Module) 카드 인터페이스를 포함할 수 있는, 확장 인터페이스(372)를 통하여 모바일 컴퓨팅 디바이스(350)에 연결될 수 있다. 확장 메모리(374)는 모바일 컴퓨팅 디바이스(350)를 위한 추가 저장 공간을 제공할 수 있고, 또는 모바일 컴퓨팅 디바이스(350)를 위한 애플리케이션들 또는 다른 정보를 또한 저장할 수 있다. 구체적으로, 확장 메모리(374)는 전술한 프로세스들을 수행하는 또는 보충하는 명령어들을 포함할 수 있고, 보안 정보를 또한 포함할 수 있다. 따라서, 예를 들어, 확장 메모리(374)는 모바일 컴퓨팅 디바이스(350)를 위한 보안 모듈로서 제공될 수 있고, 모바일 컴퓨팅 디바이스(350)의 안전한 사용을 허용하는 명령어들로 프로그램될 수 있다. 게다가, 식별 정보를 SIMM 카드에 해킹 불가능한 방식으로 두는 것과 같은, 부가 정보와 함께, SIMM 카드들을 통해 안전한 애플리케이션들이 제공될 수 있다.

메모리는, 아래 논의된 바와 같이, 예를 들어, 플래시 메모리 및/또는 NVRAM 메모리(비휘발성 랜덤 액세스 메모리)를 포함할 수 있다. 일부 구현들에서, 명령어들은 정보 캐리어에 저장될 수 있다. 명령어들은, 하나 이상의 처리 디바이스들(예를 들어, 프로세서(352))에 의해 실행될 때, 전술한 것들과 같은 하나 이상의 방법을 수행한다. 명령어들은 또한 하나 이상의 컴퓨터- 또는 머신-판독가능 매체들(예를 들어, 메모리(364), 확장 메모리(374), 또는 프로세서(352)의 메모리)과 같은 하나 이상의 저장 디바이스에 의해 저장될 수 있다. 일부 구현들에서, 명령어들은 전파된 신호에서, 예를 들어, 트랜시버(368) 또는 외부 인터페이스(362)를 통하여 수신될 수 있다.

모바일 컴퓨팅 디바이스(350)는 필요할 경우 디지털 신호 처리 회로를 포함할 수 있는, 통신 인터페이스(366)를 통하여 무선 통신할 수 있다. 통신 인터페이스(366)는, 특히, GSM 음성 통화(Global System for Mobile communications), SMS(Short Message Service), EMS(Enhanced Messaging Service), 또는 MMS 메시징(Multimedia Messaging Service), CDMA(code division multiple access), TDMA(time division multiple access), PDC(Personal Digital Cellular), WCDMA(Wideband Code Division Multiple Access), CDMA2000, 또는 GPRS(General Packet Radio Service)와 같은, 다양한 모드들 또는 프로토콜들에서의 통신들을 제공할 수 있다. 그러한 통신은, 예를 들어, 무선 주파수를 이용하여 트랜시버(368)를 통하여 발생할 수 있다. 게다가, 예를 들어, 블루투스, WiFi, 또는 다른 그러한 트랜시버(미도시)를 이용하여 단거리 통신이 발생할 수 있다. 게다가, GPS(Global Positioning System) 수신기 모듈(370)은 부가 내비게이션- 및 위치-관련 무선 데이터를 모바일 컴퓨팅 디바이스(350)에 제공할 수 있고, 그 데이터는 모바일 컴퓨팅 디바이스(350)에서 실행중인 애플리케이션들에 의해 적절하게 사용될 수 있다.

모바일 컴퓨팅 디바이스(350)는 또한 사용자로부터의 구두 정보를 수신하고 이를 사용 가능한 디지털 정보로 변환할 수 있는, 오디오 코덱(360)을 이용하여 들을 수 있게 통신할 수 있다. 오디오 코덱(360)은 마찬가지로, 예를 들어 스피커를 통하여, 예컨대, 모바일 컴퓨팅 디바이스(350)의 핸드세트에서, 사용자를 위한 가청음을 생성할 수 있다. 그러한 음은 음성 전화 통화들로부터의 음을 포함할 수 있고, 녹음된 음(예컨대, 음성 메시지, 음악 파일 등)을 포함할 수 있고, 또한 모바일 컴퓨팅 디바이스(350)에서 동작하는 애플리케이션들에 의해 실행된 음을 포함할 수 있다.

모바일 컴퓨팅 디바이스(350)는 도면에 도시된 바와 같이, 다수의 상이한 형태들로 구현될 수 있다. 예를 들어, 그것은 휴대 전화(380)로서 구현될 수 있다. 그것은 또한 스마트폰(382), 개인 휴대 정보 단말기, 또는 다른 유사한 모바일 디바이스의 일부로서 구현될 수 있다.

본 명세서에 기술된 시스템들 및 기법들의 다양한 구현들은 디지털 전자 회로, 집적 회로, 특수하게 설계된 ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합들로 실현될 수 있다. 이 다양한 구현들은 저장 시스템, 적어도 하나의 입력 디바이스, 및 적어도 하나의 출력 디바이스로부터 데이터 및 명령어들을 수신하도록 그리고 이들에 데이터 및 명령어들을 송신하도록 결합된, 특수 또는 범용일 수 있는, 적어도 하나의 프로그램가능 프로세서를 포함하는 프로그램가능 시스템에서 실행 가능한 그리고/또는 해석 가능한 하나 이상의 컴퓨터 프로그램에서의 구현을 포함할 수 있다.

이 컴퓨터 프로그램들(프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 또는 코드라고도 알려짐)은 프로그램가능 프로세서를 위한 머신 명령어들을 포함하고, 고급 절차 및/또는 개체 지향 프로그래밍 언어로, 그리고/또는 어셈블리/기계어로 구현될 수 있다. 본 명세서에서 사용될 때, 머신-판독가능 매체 및 컴퓨터-판독가능 매체라는 용어들은 머신-판독가능 신호로서 머신 명령어들을 수신하는 머신-판독가능 저장 매체를 포함하여, 프로그램가능 프로세서에 머신 명령어들 및/또는 데이터를 제공하기 위해 이용되는 장치 및/또는 디바이스(예컨대, 자기 디스크들, 광 디스크들, 메모리, 프로그램가능 논리 디바이스들(PLD들))를 포함하는 임의의 저장 매체를 지칭한다. 머신-판독가능 신호라는 용어는 머신 명령어들 및/또는 데이터를 프로그램가능 프로세서에 제공하기 위해 사용되는 임의의 신호를 지칭한다.

사용자와의 상호 작용을 제공하기 위해, 본 명세서에 기술된 시스템들 및 기법들은 사용자에 정보를 표시하기 위한 디스플레이 디바이스(예컨대, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터) 및 사용자가 컴퓨터에 입력을 제공하기 위해 이용할 수 있는 키보드 및 포인팅 디바이스(예컨대, 마우스 또는 트랙볼)를 가진 컴퓨터에서 구현될 수 있다. 다른 종류의 디바이스들도 사용자와의 상호 작용을 제공하기 위해 사용될 수 있다; 예를 들어, 사용자에 제공되는 피드백은 임의의 형태의 감각 피드백(예컨대, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 사용자로부터의 입력은, 음향, 음성, 또는 촉각 입력을 포함하여, 임의의 형태로 수신될 수 있다.

본 명세서에 기술된 시스템들 및 기법들은 백 엔드 컴포넌트를 포함하는(예컨대, 데이터 서버로서), 또는 미들웨어 컴포넌트(예컨대, 애플리케이션 서버)를 포함하는, 또는 프런트 엔드 컴포넌트(예컨대, 사용자가 본 명세서에 기술된 시스템들 및 기법들의 구현과 상호 작용하기 위해 이용할 수 있는 그래픽 사용자 인터페이스 또는 웹 브라우저를 가진 클라이언트 컴퓨터), 또는 그러한 백 엔드, 미들웨어, 또는 프런트 엔드 컴포넌트들의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트들은 임의의 형태 또는 매체의 디지털 데이터 통신(예컨대, 통신 네트워크)에 의해 상호 연결될 수 있다. 통신 네트워크들의 예들은 로컬 영역 네트워크(LAN), 광역 네트워크(WAN), 및 인터넷을 포함한다.

컴퓨팅 시스템은 클라이언트들 및 서버들을 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있고 전형적으로 통신 네트워크를 통하여 상호 작용한다. 클라이언트와 서버의 관계는 각자의 컴퓨터들에서 실행되고 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램들에 의하여 발생한다.

비록 소수의 구현들이 위에 상세히 기술되었지만, 다른 수정들이 가능하다. 예를 들어, 클라이언트 애플리케이션이 대리자(delegate)(들)에 액세스하는 것으로 기술되지만, 다른 구현들에서 대리자(들)는 하나 이상의 서버에서 실행되는 애플리케이션과 같은, 하나 이상의 프로세서에 의해 구현되는 다른 애플리케이션들에 의해 이용될 수 있다. 게다가, 도면들에 묘사된 논리 흐름들은 바람직한 결과들을 달성하기 위해, 도시된 특정 순서, 또는 순차적인 순서를 요구하지 않는다. 게다가, 다른 액션들이 제공될 수 있고, 기술된 흐름들로부터, 액션들이 제거될 수 있고, 기술된 시스템들에, 다른 컴포넌트들이 추가되거나, 그로부터 제거될 수 있다. 따라서, 다른 구현들이 다음의 청구항들의 범위 안에 있다.

Claims

복수의 컴퓨팅 디바이스 중 어느 컴퓨팅 디바이스가 자동 음성 인식을 수행할지를 결정하기 위한 컴퓨터 구현 방법으로서,
제1 컴퓨팅 디바이스에 의해, 발성(utterance)에 대응하는 오디오 데이터를 수신하는 단계;
상기 오디오 데이터에 대한 자동 음성 인식 처리(automated speech recognition processing)를 시작하기 전에, 오디오 데이터를 특정 핫워드를 포함하는 것으로 또는 상기 특정 핫워드를 포함하지 않는 것으로 분류하는 분류기(classifier)를 이용하여 상기 오디오 데이터를 처리하는 단계;
오디오 데이터를 특정 핫워드를 포함하는 것으로 또는 상기 특정 핫워드를 포함하지 않는 것으로 분류하는 상기 분류기를 이용하여 상기 오디오 데이터를 처리하는 것에 기초하여, 상기 발성이 상기 특정 핫워드를 포함할 제1 가능성을 반영하는 제1 값을 결정하는 단계;
제2 컴퓨팅 디바이스에 의해 결정된, 상기 발성이 상기 특정 핫워드를 포함할 제2 가능성을 반영하는 제2 값을 수신하는 단계;
상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 단계; 및
상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 것에 기초하여, 상기 오디오 데이터에 대한 자동 음성 인식 처리의 수행을 시작할지를 결정하는 단계
를 포함하는 방법.
제1항에 있어서,
상기 제1 값이 핫워드 점수(hotword score)를 만족시키는 것을 결정하는 단계; 및
상기 제1 값이 상기 핫워드 점수를 만족시키는 것을 결정하는 것에 기초하여, 상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값을 상기 제2 컴퓨팅 디바이스에 송신하는 단계
를 포함하는 방법.
제1항에 있어서,
상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 것에 기초하여, 상기 제1 컴퓨팅 디바이스의 활성화 상태를 결정하는 단계를 포함하는 방법.
제3항에 있어서, 상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 것에 기초하여, 상기 제1 컴퓨팅 디바이스의 활성화 상태를 결정하는 단계는:
상기 제1 컴퓨팅 디바이스의 상기 활성화 상태가 활성 상태인 것을 결정하는 단계를 포함하는 방법.
제1항에 있어서,
상기 제1 컴퓨팅 디바이스에 의해, 부가 발성에 대응하는 부가 오디오 데이터를 수신하는 단계;
상기 부가 오디오 데이터에 대한 자동 음성 인식 처리를 시작하기 전에, 오디오 데이터를 특정 핫워드를 포함하는 것으로 또는 상기 특정 핫워드를 포함하지 않는 것으로 분류하는 분류기를 이용하여 상기 부가 오디오 데이터를 처리하는 단계;
오디오 데이터를 특정 핫워드를 포함하는 것으로 또는 상기 특정 핫워드를 포함하지 않는 것으로 분류하는 상기 분류기를 이용하여 상기 부가 오디오 데이터를 처리하는 것에 기초하여, 상기 부가 발성이 상기 특정 핫워드를 포함할 제3 가능성을 반영하는 제3 값을 결정하는 단계;
제3 컴퓨팅 디바이스에 의해 결정된, 상기 부가 발성이 상기 특정 핫워드를 포함할 제4 가능성을 반영하는 제4 값을 수신하는 단계;
상기 부가 발성이 상기 특정 핫워드를 포함할 상기 제3 가능성을 반영하는 상기 제3 값과 상기 부가 발성이 상기 특정 핫워드를 포함할 상기 제4 가능성을 반영하는 상기 제4 값을 비교하는 단계; 및
상기 부가 발성이 상기 특정 핫워드를 포함할 상기 제3 가능성을 반영하는 상기 제3 값과 상기 부가 발성이 상기 특정 핫워드를 포함할 상기 제4 가능성을 반영하는 상기 제4 값을 비교하는 것에 기초하여, 상기 부가 오디오 데이터에 대한 자동 음성 인식 처리의 수행을 시작할지를 결정하는 단계
를 포함하는 방법.
제1항에 있어서,
제2 컴퓨팅 디바이스에 의해 결정된, 상기 발성이 상기 특정 핫워드를 포함할 제2 가능성을 반영하는 제2 값을 수신하는 단계는:
서버로부터, 로컬 네트워크를 통하여, 또는 단거리 무선 통신 채널을 통하여, 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 제2 값을 수신하는 단계를 포함하는 방법.
제1항에 있어서,
상기 제2 컴퓨팅 디바이스가 상기 특정 핫워드를 포함하는 발성들에 응답하도록 구성된 것을 결정하는 단계를 포함하고,
상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 단계는 상기 제2 컴퓨팅 디바이스가 상기 특정 핫워드를 포함하는 발성들에 응답하도록 구성된 것을 결정하는 것에 응답하여 수행되는 방법.
제1항에 있어서,
제2 컴퓨팅 디바이스에 의해 결정된, 상기 발성이 상기 특정 핫워드를 포함할 제2 가능성을 반영하는 제2 값을 수신하는 단계는:
상기 제2 컴퓨팅 디바이스의 제2 식별자를 수신하는 단계를 포함하는 방법.
제4항에 있어서, 상기 오디오 데이터에 대한 자동 음성 인식 처리의 수행을 시작할지를 결정하는 단계는 또한, 상기 발성에 대응하는 상기 오디오 데이터를 수신하는 단계 이후 특정량의 시간이 경과한 것을 결정하는 단계에 기초하는 방법.
제4항에 있어서,
상기 활성화 상태가 활성 상태인 것을 결정하는 것에 기초하여, 특정량의 시간 동안, 상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값을 송신하는 단계를 포함하는 방법.
제1항에 있어서,
상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 것에 기초하여, 상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값이 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값보다 큰 것을 결정하는 단계를 포함하고,
상기 오디오 데이터에 대한 자동 음성 인식 처리를 수행할지를 결정하는 단계는:
상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값이 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값보다 큰 것을 결정하는 것에 기초하여, 상기 오디오 데이터에 대한 자동 음성 인식 처리의 수행을 시작하기로 결정하는 단계를 포함하는 방법.
제1항에 있어서,
상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 것에 기초하여, 상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값이 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값보다 작은 것을 결정하는 단계를 포함하고,
상기 오디오 데이터에 대한 자동 음성 인식 처리를 수행할지를 결정하는 단계는:
상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값이 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값보다 작은 것을 결정하는 것에 기초하여, 상기 오디오 데이터에 대한 자동 음성 인식 처리의 수행을 시작하지 않기로 결정하는 단계를 포함하는 방법.
제1항에 있어서, 오디오 데이터를 특정 핫워드를 포함하는 것으로 또는 상기 특정 핫워드를 포함하지 않는 것으로 분류하는 분류기를 이용하여 상기 오디오 데이터를 처리하는 단계는:
상기 오디오 데이터로부터 필터뱅크 에너지(filterbank energy)들 또는 멜 주파수 켑스트럼 계수(mel-frequency cepstral coefficient)들을 추출하는 단계를 포함하는 방법.
제1항에 있어서, 오디오 데이터를 특정 핫워드를 포함하는 것으로 또는 상기 특정 핫워드를 포함하지 않는 것으로 분류하는 분류기를 이용하여 상기 오디오 데이터를 처리하는 단계는:
서포트 벡터 머신(support vector machine) 또는 신경망(neural network)을 이용하여 상기 오디오 데이터를 처리하는 단계를 포함하는 방법.
컴퓨팅 디바이스로서,
상기 컴퓨팅 디바이스에 의해 실행될 때, 상기 컴퓨팅 디바이스로 하여금 복수의 컴퓨팅 디바이스 중 어느 컴퓨팅 디바이스가 자동 음성 인식을 수행할지를 결정하기 위한 동작들을 수행하게 하도록 동작 가능한 명령어들을 저장하는 하나 이상의 저장 디바이스를 포함하고, 상기 동작들은:
제1 컴퓨팅 디바이스에 의해, 발성에 대응하는 오디오 데이터를 수신하는 동작;
상기 오디오 데이터에 대한 자동 음성 인식 처리를 시작하기 전에, 오디오 데이터를 특정 핫워드를 포함하는 것으로 또는 상기 특정 핫워드를 포함하지 않는 것으로 분류하는 분류기를 이용하여 상기 오디오 데이터를 처리하는 동작;
오디오 데이터를 특정 핫워드를 포함하는 것으로 또는 상기 특정 핫워드를 포함하지 않는 것으로 분류하는 상기 분류기를 이용하여 상기 오디오 데이터를 처리하는 것에 기초하여, 상기 발성이 상기 특정 핫워드를 포함할 제1 가능성을 반영하는 제1 값을 결정하는 동작;
제2 컴퓨팅 디바이스에 의해 결정된, 상기 발성이 상기 특정 핫워드를 포함할 제2 가능성을 반영하는 제2 값을 수신하는 동작;
상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 동작; 및
상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 것에 기초하여, 상기 오디오 데이터에 대한 자동 음성 인식 처리의 수행을 시작할지를 결정하는 동작
을 포함하는, 컴퓨팅 디바이스.
제15항에 있어서, 상기 동작들은:
상기 제1 값이 핫워드 점수를 만족시키는 것을 결정하는 동작; 및
상기 제1 값이 상기 핫워드 점수를 만족시키는 것을 결정하는 것에 기초하여, 상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값을 상기 제2 컴퓨팅 디바이스에 송신하는 동작
을 더 포함하는 컴퓨팅 디바이스.
제15항에 있어서, 상기 동작들은:
상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 것에 기초하여, 상기 제1 컴퓨팅 디바이스의 활성화 상태를 결정하는 동작을 더 포함하는 컴퓨팅 디바이스.
제17항에 있어서, 상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 것에 기초하여, 상기 제1 컴퓨팅 디바이스의 활성화 상태를 결정하는 동작은:
상기 제1 컴퓨팅 디바이스의 상기 활성화 상태가 활성 상태인 것을 결정하는 동작을 포함하는 컴퓨팅 디바이스.
제15항에 있어서, 상기 동작들은:
상기 제1 컴퓨팅 디바이스에 의해, 부가 발성에 대응하는 부가 오디오 데이터를 수신하는 동작;
상기 부가 오디오 데이터에 대한 자동 음성 인식 처리를 시작하기 전에, 오디오 데이터를 특정 핫워드를 포함하는 것으로 또는 상기 특정 핫워드를 포함하지 않는 것으로 분류하는 분류기를 이용하여 상기 부가 오디오 데이터를 처리하는 동작;
오디오 데이터를 특정 핫워드를 포함하는 것으로 또는 상기 특정 핫워드를 포함하지 않는 것으로 분류하는 상기 분류기를 이용하여 상기 부가 오디오 데이터를 처리하는 것에 기초하여, 상기 부가 발성이 상기 특정 핫워드를 포함할 제3 가능성을 반영하는 제3 값을 결정하는 동작;
제3 컴퓨팅 디바이스에 의해 결정된, 상기 부가 발성이 상기 특정 핫워드를 포함할 제4 가능성을 반영하는 제4 값을 수신하는 동작;
상기 부가 발성이 상기 특정 핫워드를 포함할 상기 제3 가능성을 반영하는 상기 제3 값과 상기 부가 발성이 상기 특정 핫워드를 포함할 상기 제4 가능성을 반영하는 상기 제4 값을 비교하는 동작; 및
상기 부가 발성이 상기 특정 핫워드를 포함할 상기 제3 가능성을 반영하는 상기 제3 값과 상기 부가 발성이 상기 특정 핫워드를 포함할 상기 제4 가능성을 반영하는 상기 제4 값을 비교하는 것에 기초하여, 상기 부가 오디오 데이터에 대한 자동 음성 인식 처리의 수행을 시작할지를 결정하는 동작
을 더 포함하는 컴퓨팅 디바이스.
제15항에 있어서,
제2 컴퓨팅 디바이스에 의해 결정된, 상기 발성이 상기 특정 핫워드를 포함할 제2 가능성을 반영하는 제2 값을 수신하는 동작은:
서버로부터, 로컬 네트워크를 통하여, 또는 단거리 무선 통신 채널을 통하여, 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 제2 값을 수신하는 동작을 포함하는 컴퓨팅 디바이스.
제15항에 있어서, 상기 동작들은:
상기 제2 컴퓨팅 디바이스가 상기 특정 핫워드를 포함하는 발성들에 응답하도록 구성된 것을 결정하는 동작을 더 포함하고,
상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 것은 상기 제2 컴퓨팅 디바이스가 상기 특정 핫워드를 포함하는 발성들에 응답하도록 구성된 것을 결정하는 것에 응답하여 수행되는 컴퓨팅 디바이스.
하나 이상의 컴퓨터에 의해 실행 가능한 명령어들을 포함하는 소프트웨어를 저장하는 컴퓨터 판독가능 저장 매체로서,
상기 명령어들은, 실행시에, 상기 하나 이상의 컴퓨터로 하여금 복수의 컴퓨팅 디바이스 중 어느 컴퓨팅 디바이스가 자동 음성 인식을 수행할지를 결정하기 위한 동작들을 수행하게 하고, 상기 동작들은:
제1 컴퓨팅 디바이스에 의해, 발성에 대응하는 오디오 데이터를 수신하는 동작;
상기 오디오 데이터에 대한 자동 음성 인식 처리를 시작하기 전에, 오디오 데이터를 특정 핫워드를 포함하는 것으로 또는 상기 특정 핫워드를 포함하지 않는 것으로 분류하는 분류기를 이용하여 상기 오디오 데이터를 처리하는 동작;
오디오 데이터를 특정 핫워드를 포함하는 것으로 또는 상기 특정 핫워드를 포함하지 않는 것으로 분류하는 상기 분류기를 이용하여 상기 오디오 데이터를 처리하는 것에 기초하여, 상기 발성이 상기 특정 핫워드를 포함할 제1 가능성을 반영하는 제1 값을 결정하는 동작;
제2 컴퓨팅 디바이스에 의해 결정된, 상기 발성이 상기 특정 핫워드를 포함할 제2 가능성을 반영하는 제2 값을 수신하는 동작;
상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 동작; 및
상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 것에 기초하여, 상기 오디오 데이터에 대한 자동 음성 인식 처리의 수행을 시작할지를 결정하는 동작
을 포함하는, 컴퓨터 판독가능 저장 매체.