KR101819681B1

KR101819681B1 - 다수의 디바이스들 상에서 핫워드 검출

Info

Publication number: KR101819681B1
Application number: KR1020167020950A
Authority: KR
Inventors: 야콥 니콜라우스 푀르스터; 알렉산더 에이치. 그루엔스테인
Original assignee: 구글 엘엘씨
Priority date: 2014-10-09
Filing date: 2015-09-29
Publication date: 2018-01-17
Also published as: CN111105784A; US11024313B2; US20200258522A1; JP2017513037A; US11955121B2; CN111105784B; CN105960673A; JP6251343B2; US20240233727A1; KR20160121585A; US10347253B2; EP3483877A1; CN105960673B; US20160300571A1; US20160104483A1; US10665239B2; EP3100260B1; US20190385604A1; US9424841B2; JP6261751B2

Abstract

다수의 디바이스들 상에서 핫워드 검출을 위한, 컴퓨터 저장 매체 상에서 인코딩된 컴퓨터 프로그램들을 포함하는 방법들, 시스템들 및 장치들이 개시된다. 일 양태에서, 방법은 컴퓨팅 디바이스에 의해, 발언에 대응하는 오디오 데이터를 수신하는 것의 동작들을 포함한다. 상기 동작들은 발언이 핫워드를 포함할 가능성을 결정하는 것을 더 포함한다. 상기 동작들은 오디오 데이터에 대해 음량 스코어를 결정하는 것을 더 포함한다. 상기 동작들은 음량 스코어에 기초하여, 지연 시간의 양을 결정하는 것을 더 포함한다. 상기 동작들은 지연 시간의 양이 경과한 후, 컴퓨팅 디바이스가 오디오 데이터에 대한 음성 인식 프로세싱을 개시할 것임을 표시하는 신호를 전송하는 것을 더 포함한다.

Description

다수의 디바이스들 상에서 핫워드 검출{HOTWORD DETECTION ON MULTIPLE DEVICES}

본 발명은 일반적으로 사람이 말하는 단어들을 인식하기 위한 시스템들 및 기술들에 관한 것이며, 음성 인식(speech recognition)으로 달리 지칭된다.

음성-가능(enabled) 집 또는 다른 환경의 현실이 -즉, 사용자는 단지 쿼리(query)를 말하거나 또는 큰 소리로 명령하고, 컴퓨터-기반 시스템이 상기 쿼리를 프로세싱하고 대답할 것이고 그리고/또는 명령이 수행되게 하는 것- 다가오고 있다. 음성-가능 환경(예를 들어, 집, 직장, 학교 등)은, 환경의 다양한 공간들 또는 지역들에 걸쳐 분산된 연결된 마이크로폰 디바이스들의 네트워크를 이용하여 구현될 수 있다. 사용자는, 이러한 마이크로폰들의 네트워크를 통해, 그/그녀 앞에 또는 심지어 근처에 컴퓨터 또는 다른 디바이스를 가지고 있을 필요없이, 상기 환경에서 기본적으로 어디에서든, 시스템에 구두로 쿼리할 수 있는 능력(power)을 갖는다. 예를 들면, 부엌에서 요리를 하고 있는 중에, 사용자는 시스템에게 "세 컵에 몇 밀리리터니?"라고 물어볼 수 있고, 이에 응답하여, 상기 시스템으로부터 예를 들어, 합성된 음성 출력의 형태로, 대답을 수신할 수 있다. 대안적으로, 사용자는 시스템에게 "나의 가까운 주유소가 언제 문을 닫는지"와 같은 질문을 물어볼 수 있거나, 또한 집을 나갈 준비를 하는 중에, "오늘 내가 코트를 입어야 하니?"와 같은 질문을 물어볼 수 있다.

추가로, 사용자는 사용자의 개인적인 정보와 관련된 시스템의 쿼리를 물어보고/보거나 명령을 내릴 수 있다. 예를 들면, 사용자는 시스템에게 "존과 미팅이 언제니"라고 물어보거나, 또는 시스템에게 "내가 집에 돌아왔을 때, 존에게 전화할 것을 상기시켜줘"라고 명령할 수 있다.

음성-이용가능 시스템에 대해, 상기 시스템과 인터렉션하는 사용자의 방식이 전적으로는 아니지만, 음성 입력에 의해 주로 구성된다. 결과적으로, 시스템으로 향하지 않는 발언들을 포함하는 주변 환경에서 이루어진 모든 발언들을 잠재적으로 픽업할 수 있는(pick up) 시스템은, 반대로, 임의의 주어진 발언이 시스템을 향하는 때, 예를 들면, 상기 환경에 존재하는 개별기기를 향하는 때를 구별하는 어떤 방식을 가져야 한다. 이를 달성하기 위한 한 방식은 핫워드를 사용하는 것이며, 상기 핫워드는 환경 내 사용자들 사이의 동의에 의해, 시스템의 주의를 불러 일으키기 위해 말해진 미리 결정된 단어로서 지정된다. 예시적인 환경에서, 시스템의 주의를 불러 일으키기 위해 사용되는 상기 핫워드는 단어들 "OK computer"이다. 결과적으로, 상기 단어들 "OK computer"가 말해지는 때마다, 이는 마이크로폰에 의해 픽업되고, 시스템에 전달되며, 상기 시스템은 핫워드가 말해졌는지 여부와, 만일 그렇다면, 확실한 명령 또는 쿼리를 기다릴지 여부를 결정하기 위한 음성 인식 기법들을 수행한다. 따라서, 시스템으로 향하는 발언들은 일반적인 형태 [HOTWORD][QUERY]를 가지고, 본 예시에서, "HOTWORD"는 "OK computer"이고, "QUERY"는 임의의 질문, 명령, 선언 또는, 단독으로 또는 네트워크를 통해 서버와 함께, 시스템에 의해 인식되고, 파싱(parse)되고, 그리고 동작(act)되는 음성일 수 있는 다른 요청이 될 수 있다.

본 명세서에 기술된 본 발명의 혁신적인 양태에 따르면, 컴퓨팅 디바이스는 사용자에 의해 말해진 발언을 수신한다. 컴퓨팅 디바이스는 상기 발언이 핫워드를 포함할 가능성을 결정하고, 상기 발언의 음량 스코어(loudness score)를 계산한다. 가까운 부근 내 다른 컴퓨팅 디바이스는 또한 상기 발언을 수신하고, 상기 발언이 핫워드를 포함할 가능성을 결정하고, 상기 발언의 음량 스코어를 계산한다. 또한, 각 컴퓨팅 디바이스는 상기 음량 스코어에 기초하여 지연을 계산하며, 지연의 길이(length of delay)가 음량 스코어에 반비례하도록 한다. 발언의 소스(scource)에 가까운 컴퓨팅 디바이스는 일반적으로 가장 큰 음량 스코어를 가질 것이므로, 가장 가까이 있는 디바이스는 결국 가장 짧은 지연을 가져야 한다. 해당 컴퓨팅 디바이스와 관련된 지연이 경과한 후, 상기 지연 기간 동안 통지 신호를 수신하지 않는 한, 각각의 컴퓨팅 디바이스는 통지 신호를 다른 컴퓨팅 디바이스들에 전송할 것이다. 그러므로, 가장 작은 지연을 가진 컴퓨팅 디바이스(및 결국 사용자와 가장 가까울 가능성이 있는)는, 상기 컴퓨팅 디바이스가 핫워드에 후속하는 추가적인 오디오를 프로세싱할 것임을 표시하기 위해, 다른 컴퓨팅 디바이스들에 신호를 전송한다. 이 예에서, 전송하는 컴퓨팅 디바이스는 상기 핫워드에 후속하는 추가적인 오디오를 프로세싱한다. 만일, 지연 동안, 컴퓨팅 디바이스들이, 다른 디바이스들 중의 하나로부터 다른 디바이스가 상기 핫워드에 후속하는 추가적인 오디오를 프로세싱할 것임을 표시하는 신호를 수신한다면, 상기 컴퓨팅 디바이스는 오디오를 프로세싱하는 것을 중단한다.

일반적으로, 본 명세서에 기술된 본 발명의 다른 혁신적인 양태는 컴퓨팅 디바이스에 의해, 발언에 대응하는 오디오 데이터를 수신하는 것; 발언이 핫워드를 포함할 가능성을 결정하는 것; 상기 오디오 데이터에 대한 음량 스코어를 결정하는 것; 상기 음량 스코어에 기초하여, 지연 시간의 양을 결정하는 것; 상기 지연 시간의 양이 경과한 후, 컴퓨팅 디바이스가 오디오 데이터에 대한 음성 인식 프로세싱을 개시할 것임을 표시하는 신호를 전송하는 것의 동작들을 포함하는 방법들로 구현된다.

이 들 및 다른 실시예들은 각각 임의로 후술하는 구성 중 하나 이상을 포함할 수 있다. 상기 동작들은 상기 컴퓨팅 디바이스에 의해, 추가적인 발언에 대응하는 추가적인 오디오 데이터를 수신하는 것; 상기 추가적인 발언이 상기 핫워드를 포함할 제2 가능성을 결정하는 것; 상기 추가적인 오디오 데이터에 대한 제2 음량 스코어를 결정하는 것; 상기 제2 음량 스코어에 기초하여, 제2 지연 시간의 양을 결정하는 것; 그리고 상기 지연 시간의 양이 경과하기 전에, (ⅰ) 제2 컴퓨팅 디바이스가 추가적인 오디오 데이터에 대한 음성 인식 프로세싱을 개시할 것임 및 (ⅱ) 상기 컴퓨팅 디바이스는 상기 추가적인 오디오 데이터에 대한 음성 인식 프로세싱을 개시하면 안됨을 표시하는 제2 신호를 수신하는 것을 더 포함한다. 상기 동작들은 제2 신호를 수신하는 것에 기초하여, 상기 컴퓨팅 디바이스의 활성 상태는 비활성화 상태임을 결정하는 것을 더 포함한다.

상기 동작들은 전송하는 신호에 기초하여, 컴퓨팅 디바이스의 활성 상태는 활성화 상태임을 결정하는 것을 더 포함한다. 상기 신호는 초음파 신호 또는 단거리 라디오 신호를 포함한다. 상기 신호는 다른 컴퓨팅 디바이스에 의해 수신되고, 오디오 데이터에 대한 음성 인식 프로세싱을 개시하지 않기 위해, 다른 컴퓨팅 디바이스에 표시한다. 상기 동작들은 발언이 핫워드를 포함할 가능성을 결정하는 것에 기초하여, 다른 컴퓨팅 디바이스가 오디오 데이터에 대한 음성 인식 프로세싱을 개시할 것임을 표시하는 신호를 수신할 준비하는 것을 더 포함한다. 음량 스코어는 지연 시간의 양에 비례한다. 음량 스코어가 임계치(threshold)를 만족하는 경우, 지연 시간은 0이다. 오디오 데이터에 대한 음량 스코어를 결정하는 것의 동작은 발언이 핫워드를 포함할 가능성이 가능성 임계치(likelihood threshold)를 만족함을 결정하는 것을 더 포함한다.

본 양태의 다른 실시예들은 대응하는 시스템들, 장치들 및 상기 방법들의 동작들을 수행하도록 각각 설정된 컴퓨터 저장 장치들에 기록된 컴퓨터 프로그램들을 포함한다.

본 명세서에 기술된 본 발명의 특정 실시예들은 하나 이상의 후속하는 이점들을 실현하기 위해 구현될 수 있다. 다수의 디바이스들은 핫워드를 검출할 수 있고, 단지 하나의 디바이스만이 상기 핫워드에 응답할 것이다.

본 명세서에 기술된 본 발명의 하나 이상의 실시예들의 세부사항들은 첨부 도면들 및 아래의 설명에서 기술된다. 다른 특징들, 양태들 및 본 발명의 이점들은 서술들, 도면들 및 청구범위들로부터 명확해질 것이다.

도 1은 핫워드 검출을 위한 예시적인 시스템의 다이어그램이다.
도 2는 핫워드 검출을 위한 예시적인 프로세스의 다이어그램이다.
도 3은 컴퓨팅 컴퓨팅 디바이스 및 모바일 컴퓨팅 디바이스의 예시를 나타낸다.
여러 도면들에서 동일한 참조 번호들 및 명칭들은 동일한 요소들을 나타낸다.

본 명세서는 음량에 기초한 프로토콜을 기술하며, 상기 프로토콜은 핫워드를 듣는(listen for) 다수의 컴퓨팅 디바이스로 하여금 어떤 디바이스가 응답해야 하는지를 결정한다. 바람직하게는, 상기 프로토콜은, 예를 들면, 오디오 신호들 또는 단거리 라디오 신호들을 사용하는, 로컬 인터렉션들에 기초하여 구현될 수 있고, 임의의 서버측 통신을 필요로 하지 않는다. 로컬 인터렉션들을 사용하는 것은 서버와의 통신의 지연을 발생시키지 않고, 응답의 조정을 허용할 수 있기 때문에, 유리할 수 있다.

도 1은 핫워드 검출을 위한 예시적인 시스템(100)의 다이어그램이다. 일반적으로, 시스템(100)은 컴퓨팅 디바이스들(106, 108 및 110)의 마이크로폰들에 의해 검출되는 발언(104)을 말하는 사용자(102)를 도시한다. 컴퓨팅 디바이스들(106, 108 및 110)은 발언에 대한 음량 스코어를 결정하는 것뿐만 아니라, 발언(104)이 핫워드를 포함할 가능성을 결정하기 위해 발언(104)을 프로세싱한다. 컴퓨팅 디바이스들(106, 108 및 110)은 음량 스코어에 비례하는 지연 시간을 계산한다. 일단, 컴퓨팅 디바이스에 대한 지연 시간들 중 하나가 경과하면, 그 컴퓨팅 디바이스는 다른 컴퓨팅 디바이스들에게 신호를 전송한다. 상기 신호는 다른 컴퓨팅 디바이스들에게, 상기 전송하는 컴퓨팅 디바이스가 발언에 대응하는 오디오 데이터에 대한 음성 인식을 수행할 것임을 표시한다.

더욱 상세하게는, 사용자(102)는 발언(104) "OK computer"를 말하고, 컴퓨팅 디바이스들(106, 108 및 110)은 마이크로폰과 같은, 각각의 오디오 입력 디바이스를 통해 상기 발언(104)을 수신한다. 컴퓨팅 디바이스(106)는 사용자의 손에 사용자(102)가 들고 있는 폰(phone)이다. 컴퓨팅 디바이스(108)는 테이블에 위치한 테블릿(tablet)이다. 컴퓨팅 디바이스(110)은 벽에 위치한 온도조절장치(thermostat)이다. 컴퓨팅 디바이스(106)가 사용자에 가장 가깝고, 그 다음 컴퓨팅 디바이스(108)가 그 다음으로 가까우며, 마지막으로 컴퓨팅 디바이스(110)가 사용자로부터 가장 멀다. 각 컴퓨팅 디바이스(106, 108 및 110)는 마이크로폰(114, 116 또는 118)을 포함한다. 각 마이크로폰은 오디오 데이터를 각각의 오디오 서브시스템에 제공한다. 상기 오디오 서브시스템은 마이크로폰에 의해 수신된 오디오 데이터를 버퍼(buffer)하고, 필터링(filter)하고, 디지털화(digitize)한다. 일부 구현들에서, 또한 각 컴퓨팅 디바이스는 엔드포인팅 및 오디오 데이터에 대한 화자 식별을 수행할 수 있다. 일부 구현들에서, 컴퓨팅 디바이스(106, 108 및 110)는, 예컨데, 도 3을 참조하여 후술된 디바이스와 같은, 오디오 데이터를 수신하고 프로세싱하는 임의의 디바이스일 수 있다.

각 오디오 서브시스템은 프로세싱된 오디오 데이터를 핫워더(hotworder) (120, 122 또는 124)와 같은 핫워더에 제공한다. 각각의 핫워더는 알려진 핫워드의 발언들을 사용하여, 통보되거나 트레이닝(train)된 프로세싱된 오디오 데이터에 대한 분류 프로세스를 수행한다. 각각의 핫워더는 발언(104)이 핫워드를 포함할 가능성을 계산한다. 각각의 핫워더는 프로세싱된 오디오 데이터로부터 예컨데, 필터뱅크 에너지(filterbank energe)들 또는 멜-프리퀀시 켑스트랄 계수(mel-frequency cepstral coefficient)들과 같은, 오디오 구성들을 추출할 수 있다. 각각의 핫워더는 예컨데, 서포트 벡터 머신(support vector machine) 또는 뉴럴 네트워크(neural network)를 사용하는 것과 같이, 이런 오디오 구성들을 프로세싱하기 위해 분류하는 창(window)들을 사용할 수 있다. 상기 오디오 구성들의 프로세싱에 기초하여, 각각의 핫워더는 발언(104)이 핫워드를 포함할 가능성을 계산한다. 일부 구현들에서, 상기 가능성은 신뢰 스코어에 의해 반영된다. 신뢰 스코어는 발언(104)이 핫워드를 포함하는 더 높은 신뢰를 표시하는 더 높은 숫자와 함께, 1에서 100 단위로 정규화될 수 있다.

일부 구현들에서, 각각의 핫워더는 임계치에 대한 신뢰 스코어를 계산한다. 만일 신뢰 스코어가 임계치를 만족하면, 컴퓨팅 디바이스는 오디오 데이터를 프로세싱하는 것을 계속한다. 만일 신뢰 스코어가 임계치를 만족하지 않는다면, 컴퓨팅 디바이스는 오디오 데이터의 프로세싱를 중단한다. 예를 들면, 만일 신뢰 스코어가 0.8이고, 임계치가 0.7이면, 컴퓨팅 디바이스는 오디오 데이터를 프로세싱하는 것을 계속할 것이다. 오디오 데이터가 "OK, computer"에 대응하는 경우, 신뢰 스코어는 0.8일 수 있다. 만일 신뢰 스코어가 0.5이고, 임계치가 0.7이면, 컴퓨팅 디바이스는 오디오 데이터를 프로세싱하는 것을 중단할 것이다. 오디오 데이터가 "dinner time"에 대응하는 경우, 신뢰 스코어는 0.5일 수 있다.

핫워더는 오디오 데이터를 음량 스코어링기(loudness scorer)에 제공한다. 음량 스코어링기는 오디오 데이터에 대한 음량 스코어를 계산한다. 일반적으로 음량 스코어링기는 사용자가 각 컴퓨팅 디바이스로부터의 거리의 반영일 것이다. 예를 들면, 컴퓨팅 디바이스(106)의 음량 스코어링기(126)에 의해 계산된 음량 스코어는 0.9일 수 있다. 컴퓨팅 디바이스(108)의 음량 스코어링기(128)에 의해 계산된 음량 스코어는 0.6일 수 있다. 컴퓨팅 디바이스(110)의 음량 스코어링기(130)에 의해 계산된 음량 스코어는 0.5일 수 있다. 일부 구현들에서, 오디오 서브시스템은 오디오 데이터를 음량 스코어링기에 제공한다. 이 예에서, 핫워더는 음량 스코어를 계산하는 음량 스코어링기와 병행하여, 발언(104)이 핫워드를 포함할 가능성을 계산한다.

음량 스코어링기는, 음량에 비례하는 값(value)을 생성하는 임의의 적절한 기법, 예를 들면, 후술하는 기법들 중 하나 또는 조합을 사용하여, 오디오 데이터의 음량을 계산한다. 첫 번째 기법은 사용자가 발언을 말할 때 마이크로폰에 의해 수신된 것으로서, 최대 또는 평균 음압(sound pressure) 또는 음압 레벨을 계산하는 것이다. 음압 또는 음압레벨이 높을수록, 음량은 크다. 두 번째 기법은 오디오 데이터의 실효값(root mean square)을 계산하는 것이다. 오디오 데이터의 실효값이 높을수록, 음량은 크다. 세 번째 기법은 오디오 데이터의 소리 강도(sound intensity)를 계산하는 것이다. 오디오 데이터의 소리 강도가 높을수록, 음량은 크다. 네 번째 기법은 오디오 데이터의 소리 파워(sound power)를 계산하는 것이다. 소리 파워가 높을수록, 음량은 크다.

음량 스코어링기는 음량 스코어를 지연 계산 모듈에 제공한다. 상기 음량 스코어에 기초하여, 상기 모듈은 오디오 데이터를 추가적 프로세싱하고, 상기 컴퓨팅 디바이스가 다른 컴퓨팅 디바이스들에게 오디오 데이터를 프로세싱할 것임을 통지하기 전에, 컴퓨팅 디바이스가 기다려야 하는 지연 시간을 계산한다. 예를 들면, 음량 스코어링기(126)는 0.9의 음량 스코어를 지연 계산 모듈(132)에 제공하고, 상기 모듈(132)은 50밀리초의 지연 시간을 계산한다. 음량 스코어링기(128)는 0.6의 음량 스코어를 지연 계산 모듈(134)에 제공하고, 상기 모듈(134)은 200밀리초의 지연 시간을 계산한다. 음량 스코어링기(130)는 0.5의 음량 스코어를 지연 계산 모듈(136)에 제공하고, 상기 모듈(136)은 200밀리초의 지연 시간을 계산한다.

타이머는 그 후 지연 시간을 카운트 다운(count down)하고, 일단 지연 시간이 경과하면, 타이머는 통지신호를 방출하기 위해, 컴퓨팅 디바이스로 하여금 화자에 대한 컴퓨팅 디바이스의 화자에게 신호를 전송하게 한다. 상기 타이머는 지연 계산 모듈에 포함될 수 있거나, 또는 상기 타이머는 지연 계산 모듈로부터 분리될 수 있다. 상기 통지신호는, 예를 들면, 초음파 또는 가청 오디오 신호 또는 블루투스와 같은 단거리 라디오 신호일 수 있다. 상기 통지신호는 다른 컴퓨팅 디바이스들에 의해 수신되고, 다른 컴퓨팅 디바이스들에게 통지신호를 방출했던 컴퓨팅 디바이스가 오디오 데이터를 프로세싱하는 것을 다룰 것임을 표시한다. 예를 들면, 지연 계산 모듈(132)은 화자(138)를 지시하기 전에 통지신호를 방출하기 위해, 50밀리초를 기다린다. 컴퓨팅 디바이스들(108 및 110)의 타이머들이 그들 각각의 지연 시간을 카운트 다운하는 것을 끝내기 전에, 컴퓨팅 디바이스들(108 및 110)이 통지신호를 수신하기 때문에, 컴퓨팅 디바이스(108 및 110)는 오디오 데이터의 프로세싱을 중단하고, 화자들(140 및 142)은 통지신호를 방출하지 않는다. 일부 구현들에서, 통지신호는 특정 주파수 및/또는 패턴을 포함할 수 있다. 예를 들면, 통지신호는 컴퓨팅 디바이스가 오디오 데이터에 대한 음성 인식을 수행할 것임을 표시하기 위해, 20khz일 수 있다.

일부 구현들에서, 통지신호를 방출함에 따라, 또한 컴퓨팅 디바이스(106)는 그것의 디바이스 상태(138)를 설정할 수 있다. 컴퓨팅 디바이스(106)는 오디오 데이터를 프로세싱하는 것이기 때문에, 디바이스 상태(138)는 활성화 또는 "웨이크"(awake)로 설정된다. 컴퓨팅 디바이스들(108 및 110)의 디바이스 상태들(140 및 142)은 디바이스들 모두 오디오 데이터를 추가적 프로세싱하는 것을 수행하지 않기 때문에, 비활성화 또는 "슬립"(sleep)으로 설정된다.

일부 구현들에서, 컴퓨팅 디바이스들의 디바이스 상태들은 영향을 받지 않을 수 있다. 가장 큰 오디오 데이터를 측정하고 차례로, 가장 빨리 통지신호를 방출하는 컴퓨팅 디바이스는, 다른 컴퓨팅 디바이스들이 웨이크로 있게 되거나 웨이크 상태로 들어가는 동안, 오디오 데이터를 추가적 프로세싱하는 것을 시작한다. 예를 들면, 사용자(102)는 컴퓨팅 디바이스(108)상에서 영화를 보고 있을 수 있고, 사용자의 손에 컴퓨팅 디바이스(106)을 가지고 있을 수 있다. 사용자(102)가 "OK computer"를 말하는 경우, 컴퓨팅 디바이스(106)는 상기 오디오 데이터를 검출하고, 50밀리초 후에, 컴퓨팅 디바이스(106)는 컴퓨팅 디바이스(106)가 상기 오디오 데이터를 추가적 프로세싱할 것임을 알리기 위해 통지신호를 방출한다. 컴퓨팅 디바이스(108)는 상기 통지신호를 수신하고, 영화 재생을 계속한다.

일부 구현들에서, 컴퓨팅 디바이스는, 통지신호를 방출 또는 수신하기 전에, 오디오 데이터에 대한 음성 인식을 수행하는 것을 시작할 수 있다. 통지신호를 방출 또는 수신하기 전에 인식을 수행하는 것은 컴퓨팅 디바이스로 하여금 발언의 음성 인식을 빨리 완료하게 한다. 예를 들면, 만일 발언이 "OK, computer, call Alice"라면, 컴퓨팅 디바이스는, 만일 컴퓨팅 디바이스가 활성화 상태로 있게 되는 경우 컴퓨팅 디바이스는 더 빨리 응답하기 위해, 사용자가 "call Alice"를 말함을 인식하는 것을 시작할 수 있다. 만일 컴퓨팅 디바이스의 디바이스 상태가 비활성화인경우, 컴퓨팅 디바이스는 컴퓨팅 디바이스가 "call Alice"에 대한 음성 인식을 수행하였다는 표시를 디스플레이(display)하지 않을 수 있다. 도 1에서, 이러한 기술을 사용하는 것은 컴퓨팅 디바이스들(106, 108 및 110)로 하여금 오디오 데이터 및 상기 오디오 데이터에 후속하는 임의의 오디오 데이터에 대한 음성 인식을 수행하게 한다. 화자(138)가 통지신호를 전송할 때, 그 후 컴퓨팅 디바이스(106)는 음성 인식을 수행하는 것을 계속하고 결과들을 디스플레이 할 것이다. 마이크로폰들(116 및 118)이 통지신호를 수신할 때, 그 후 컴퓨팅 디바이스들(106 및 108)은 음성 인식을 수행하는 것을 중단하고 결과들을 디스플레이 하지 않을 것이다. 컴퓨팅 디바이스들(106 및 108)은 비활성화 상태로 유지되는 것으로서 사용자(102)에게 나타난다.

도 2는 핫워드 검출을 위한 예시적인 프로세스(200)의 다이어그램이다. 프로세스(200)는 도 1에서의 컴퓨팅 디바이스와 같은, 컴퓨팅 디바이스에 의해 수행될 수 있다. 프로세스(200)는 (ⅰ) 발언이 핫워드를 포함할 가능성 및 (ⅱ) 발언에 대응하는 오디오 데이터에 대한 음량 스코어를 계산한다. 프로세스(200)는, 다른 컴퓨팅 디바이스들에게 상기 컴퓨팅 디바이스가 오디오 데이터를 프로세싱하는 중임을 통지하기 전에, 컴퓨팅 디바이스가 기다리는 지연 시간을 계산한다.

컴퓨팅 디바이스는 발언에 대응하는 오디오 데이터를 수신(210)한다. 사용자는 발언을 말하고, 컴퓨팅 디바이스의 마이크로폰은 상기 발언의 오디오 데이터를 수신한다. 컴퓨팅 디바이스는 오디오 데이터를 버퍼링, 필터링, 엔드포인팅(endpointing) 및 디지털화함으로써, 오디오 데이터를 프로세싱한다. 예를 들어, 사용자는 "Ok, computer"라고 발언할 수 있고, 컴퓨팅 디바이스의 마이크로폰은 "Ok, computer"에 대응하는 오디오 데이터를 수신할 것이다. 컴퓨팅 디바이스의 오디오 서브시스템은 컴퓨팅 디바이스에 의한 추가적 프로세싱를 위해 오디오 데이터를 샘플(sample), 버퍼, 필터링 및 엔트포인트 할 것이다.

컴퓨팅 디바이스는 발언이 핫워드를 포함할 가능성을 결정(220)한다. 컴퓨팅 디바이스는, 발언의 오디오 데이터와 핫워드를 포함하는 오디오 샘플들의 그룹을 비교함으로써 그리고/또는 발언의 오디오 데이터의 오디오 특성들을 분석함으로써, 발언이 핫워드를 포함할 가능성을 결정한다. 일부 구현들에서, 발언이 핫워드를 포함할 가능성은 신뢰 스코어에 의해 나타날 수 있다. 신뢰 스코어는 100이 발언이 핫워드를 포함하는 가장 높은 가능성을 표시하는, 1에서 100단위로 정규화 될 수 있다. 컴퓨팅 디바이스는 신뢰 스코어와 임계치를 비교한다. 만일 신뢰 스코어가 임계치를 만족하면, 컴퓨팅 디바이스는 오디오 데이터를 프로세싱하는 것을 계속할 것이다. 만일 신뢰 스코어가 임계치를 만족하지 않는다면, 컴퓨팅 디바이스는 오디오 데이터의 프로세싱를 중단할 것이다. 일부 구현들에서, 컴퓨팅 디바이스가 프로세싱를 계속하기 위해, 신뢰 스코어는 임계치보다 높아야 한다. 예를 들면, 만일 신뢰 스코어가 0.9이고, 임계치가 0.7이라면, 컴퓨팅 디바이스는 오디오 데이터를 프로세싱하는 것을 계속할 것이다.

일부 구현들에서, 컴퓨팅 디바이스는 다른 컴퓨팅 디바이스가 오디오 데이터에 대한 음성 인식 프로세싱을 개시할 것임을 표시하는 신호를 수신할 준비를 한다. 신호를 수신하기 위해, 컴퓨팅 디바이스는 컴퓨팅 디바이스의 마이크로폰이 활성화 된 상태로 있게 되는 것, 단거리 라디오 수신기가 활성화되는 것, 또는 근거리 무선 라디오와 같은, 다른 라디오가 활성화되는 것을 보장할 수 있다. 다른 컴퓨팅 디바이스가 결과들을 디스플레이 하는 경우, 오디오 데이터의 음성 인식으로 인해 컴퓨팅 디바이스가 디스플레이 하지 않기 위해, 컴퓨팅 디바이스가 신호를 수신할 준비를 하는 것이 필요할 수 있다.

컴퓨팅 디바이스는 오디오 데이터에 대한 음량 스코어를 결정(230)한다. 컴퓨팅 디바이스는 오디오 데이터에 대한 음량 스코어를 계산하기 위해, 후술하는 기법들의 하나 또는 조합을 사용할 수 있다. 첫 번째 기법은 사용자가 발언을 말할 때 마이크로폰에 의해 수신된 것으로서, 음압 또는 음압 레벨을 계산하는 것이다. 음압 또는 음압 레벨이 높을수록, 음량은 높다. 두 번째 기법은 오디오 데이터의 실효값을 계산하는 것이다. 오디오 데이터의 실효값이 높을수록, 음량은 높다. 세 번째 기법은 오디오 데이터의 소리 강도를 계산하는 것이다. 오디오 데이터의 소리 강도가 높을수록, 음량은 높다. 네 번째 기법은 오디오 데이터의 소리 파워를 계산하는 것이다. 소리 파워가 높을수록, 음량은 높다. 컴퓨팅 디바이스에 의해 수신된 오디오 데이터의 음량은 컴퓨팅 디바이스와 오디오 소스 사이의 거리를 반영한다. 직접 경로 신호 전파(direct path signal propagation)에 대해, 음량은 대략 소스와 수신기 사이의 거리의 제곱에 반비례한다. 일부 구현들에서, 컴퓨팅 디바이스는 만일 발언이 핫워드를 포함할 가능성이 임계치를 만족한다면, 단지 음량 스코어만을 계산한다. 만일 발언이 핫워드를 포함할 가능성이 없다면, 컴퓨팅 디바이스는 음량 스코어를 계산하지 않는다.

음량 스코어에 기초하여, 컴퓨팅 디바이스는 지연 시간의 양을 결정(240)한다. 일부 구현들에서, 지연 시간은 음량 스코어와 반비례한다. 예를 들면, 90의 음량 스코어는 50밀리초의 지연 시간에 대응하고, 0.6의 음량 스코어는 200밀리초의 지연 시간에 대응한다. 일부 구현들에서, 만일 음량 스코어가 임계치를 만족하지 않는다면, 지연 시간은 없다. 즉, 컴퓨팅 디바이스는 오디오 신호를 프로세싱하는 것을 중단하고, 언제든지 통지를 전송하지 않을 것이다. 일부 구현들에서, 만일 음량이 임계치를 초과하였다면, 지연 시간이 0이 될 것이고, 이는 대응하는 컴퓨팅 디바이스는 오디오 신호를 프로세싱하는 것을 계속하고 다른 디바이스들에게 통지신호를 즉시 보내는 것을 의미한다. 이러한 임계치들은 예컨데, 경험적으로 실험에 의한 것과 같은, 임의의 적합한 방법을 사용함으로써 결정된다.

지연 시간의 양이 경과한 후, 컴퓨팅 디바이스는, 상기 컴퓨팅 디바이스가 오디오 데이터에 대한 음성 인식 프로세싱을 개시할 것임을 표시하는 통지신호를 전송(250)한다. 일단 컴퓨팅 디바이스가 지연 시간을 계산하면, 컴퓨팅 디바이스의 타이머는 지연 시간을 카운트 다운한다. 지연 시간이 경과한 때, 컴퓨팅 디바이스는 컴퓨팅 디바이스가 오디오 데이터에 대한 음성 인식 프로세싱을 개시하고 있음을 표시하기 위해, 예컨데, 초음파, 단거리 라디오 신호 또는 근거리 무선 신호와 같은, 신호를 근처의 다른 컴퓨팅 디바이스들에게 전송한다. 예를 들면, 컴퓨팅 디바이스는 오디오 데이터를 수신한 후 활성화 또는 "웨이크"상태이고 다른 컴퓨팅 디바이스들은 상기 신호를 수신한 후 비활성화 또는 "슬립"상태이다.

일부 구현들에서, 컴퓨팅 디바이스는 다른 컴퓨팅 디바이스로부터, 다른 컴퓨팅 디바이스가 오디오 데이터에 대한 음성 인식 프로세싱을 개시할 것임을 표시하는 신호를 수신한다. 이 예에서, 타이머가 지연 시간을 카운트다운 하는 동안, 컴퓨팅 디바이스는 신호를 수신한다. 컴퓨팅 디바이스가 신호를 수신할 때, 상기 컴퓨팅 디바이스는 오디오 데이터에 대한 음성 인식을 수행하지 않거나, 수행하는 것을 계속하지 않을 것이다. 예를 들면, 만일 컴퓨팅 디바이스가 200밀리초의 지연 시간을 계산하고, 컴퓨팅 디바이스의 타이머가 200밀리초를 카운트 다운하는 동안 컴퓨팅 디바이스가 다른 컴퓨팅 디바이스로부터 통지신호를 수신한다면, 상기 컴퓨팅 디바이스는 오디오 데이터에 대한 음성 인식을 수행하지 않을 것이다. 컴퓨팅 디바이스는 신호를 수신한 후, 지금 비활성화 또는 "슬립"상태일 수 있다.

일부 구현들에서, 컴퓨팅 디바이스는 근처에 있고 핫워드에 응답할 수 있는 다른 컴퓨팅 디바이스들을 검출한다. 컴퓨팅 디바이스는 주기적으로 응답을 요청하는 초음파 또는 라디오 신호를 전송한다. 예를 들면, 컴퓨팅 디바이스는 핫워드들을 인식하는 근처의 컴퓨팅 디바이스들을 검색할 때, 20.5khz인 초음파를 전송할 수 있다. 이에 응답하여, 20.5khz 초음파를 수신한 컴퓨팅 디바이스들은 21khz 초음파에 응답할 수 있다. 컴퓨팅 디바이스가 핫워드들을 인식하는 근처의 컴퓨팅 디바이스들을 검출하지 못한 경우, 컴퓨팅 디바이스는 오디오 데이터에 대한 음성 인식을 수행하기 전에, 음량 스코어 및 지연 시간을 계산하지 않는다.

일부 구현들에서, 컴퓨팅 디바이스는 동일한 사용자에 속하는 다른 컴퓨팅 디바이스들을 식별한다. 새로운 컴퓨팅 디바이스를 설정하는 동안, 상기 설정 절차의 일부는 동일한 사용자에 속하는 다른 컴퓨팅 디바이스들을 식별하는 것이다. 이는 사용자가 로그인 된 다른 장치들을 검출함으로써 달성될 수 있다. 일단 컴퓨팅 디바이스가 다른 컴퓨팅 디바이스를 식별하면, 컴퓨팅 디바이스들은 핫워드를 식별할 때 컴퓨팅 디바이스들이 교환할 수 있는 초음파 주파수 패턴 또는 비트 스트림을 의미하는 데이터를 교환한다. 초음파 주파수 패턴은 화자를 통해 전송될 수 있고, 비트 스트림은 라디오를 통해 전송될 수 있다. 예를 들면, 사용자는 온도조절장치를 설치할 수 있고, 설치 프로세스의 일부는 근처의 핫워드에 응답하는 다른 컴퓨팅 디바이스를 검색하는 것이다. 상기 온도조절장치는 사용자가 로그인 된 폰 및 테블릿을 식별할 수 있다. 예를 들어, 온도조절장치, 폰 및 테블릿은 20.5khz에 1밀리초, 21khz에 1밀리초, 21.5khz에 1밀리초의 램프(ramp)된 주파수 패턴을 사용하여, 데이터를 교환할 수 있다. 상기 패턴은 오디오 데이터에 대한 음성 인식 프로세싱을 개시하는 컴퓨터 디바이스로 하여금, 사용자에 속하고 다른 사용자에 속하는 다른 디바이스들에서의 음성 인식을 억제하지 않는 다른 컴퓨팅 디바이스에게 통지하게 한다.

도 3은 컴퓨팅 디바이스(300)의 예시 및 여기에 기술된 기법들을 구현하기 위해 사용될 수 있는 모바일 컴퓨팅 디바이스(350)를 도시한다. 컴퓨팅 디바이스(300)는 다양한 형태들의 디지털 컴퓨터들, 예를 들어, 랩탑들, 데스크탑들, 워크스테이션들, PDA들, 서버들, 블레이드 서버들, 메인 프레임들 및 다른 적합한 컴퓨터들을 나타내도록 의도된다. 모바일 컴퓨팅 디바이스(350)는 모바일 디바이스들의 다양한 형태들, 예를 들어, PDA들, 셀룰러 폰들, 스마트 폰들 및 다른 유사한 컴퓨팅 디바이스들을 나타내도록 의도된다. 여기에 도시된 컴포넌트들, 그 것들의 접속들 및 관계들, 그리고 그것들의 기능들은, 단지 예시적인 것을 의미하고, 제한하는 것을 의미하지 않는다.

컴퓨팅 디바이스(300)는 프로세서(302), 메모리(304), 저장 디바이스(306), 상기 메모리(304) 및 다수의 고속 확장 포트들(310)과 연결되는 고속 인터페이스(308) 및 저속 확장 포트(314) 및 상기 저장 디바이스(306)와 연결되는 저속 인터페이스(312)를 포함한다. 상기 프로세서(302), 메모리(304), 저장 디바이스(306), 고속 인터페이스(308), 고속 확장 포트들(310) 및 저속 인터페이스(312) 각각은 다양한 버스들을 사용하여 상호접속되고, 공통의 마더보드 상에 또는 적합한 다른 방식들로 장착될 수 있다. 상기 프로세서(302)는 외부 입력/출력 디바이스, 예를 들어, 고속 인터페이스(308)에 연결된 디스플레이(316) 상의 GUI 에 대한 그래픽 정보를 디스플레이 하기 위해 메모리(304) 내에 저장되거나 또는 저장 디바이스(306) 상에 저장된 명령어들을 포함하는, 컴퓨팅 디바이스(300) 내에서 실행을 위한 명령어들을 프로세싱할 수 있다. 다른 구현들에서, 다수의 프로세서들 및/또는 다수의 버스들은, 다수의 메모리들 및 메모리의 타입들에 따라, 적합하게 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스들은 필요한 동작들의 부분들을 제공하는 각 디바이스(예를 들어, 서버 뱅크, 블레이드 서버들의 그룹 또는 멀티-프로세서 시스템으로서)와 연결될 수 있다.

메모리(304)는 컴퓨팅 디바이스(300) 내에 정보를 저장한다. 일부 구현들에서, 메모리(304)는 휘발성 메모리 또는 유닛들이다. 일부 구현들에서, 메모리(304)는 비-휘발성 메모리 유닛 또는 유닛들이다. 상기 메모리(304)는 또한 컴퓨터-판독가능한 매체, 예를 들어, 자기 또는 광 디스크의 다른 형태일 수 있다.

저장 디바이스(306)는 컴퓨팅 디바이스(300)에 대량 스토리지(storage)를 제공할 수 있다. 일부 구현들에서, 저장 디바이스(306)는 컴퓨터-판독가능한 매체, 예를 들어, 플로피 디스크 디바이스, 하드 디스크 디바이스, 광 디스크 디바이스 또는 테이프 디바이스, 플래시 메모리 또는 다른 유사한 고체 상태 메모리 디바이스 또는 디바이스들의 어레이(저장 영역 네트워크 또는 다른 구성들 내의 디바이스를 포함)일 수 있거나 상기 컴퓨터-판독가능한 매체를 포함할 수 있다. 명령어들은 정보 캐리어 내에 저장될 수 있다. 상기 명령어들은, 하나 이상의 프로세싱 디바이스들(예를 들면, 프로세서(302))에 의해 실행될 때, 예를 들어, 상기 기술된 것들과 같은, 하나 이상의 방법들을 수행한다. 상기 명령어들은 또한, 예를 들어, 컴퓨터-판독가능한 매체 또는 기계-판독가능한 매체와 같은, 하나 이상의 저장 디바이스들(예를 들어, 메모리(304), 저장 디바이스(306) 또는 상기 프로세서(302)상의 메모리)에 의해 저장될 수 있다.

고속 인터페이스(308)는 컴퓨팅 디바이스(300)에 대한 대역폭-집약적인 동작들을 관리하는 반면에, 저속 인터페이스(312)는 더 낮은 대역폭-집약적인 동작들을 관리한다. 이와 같은 기능들의 할당은 단지 예시적이다. 일부 구현들에서, 고속 인터페이스(308)는 메모리(304), 디스플레이(316) 및 고속 확장 포트들(310)에 연결 (예를 들면, 그래픽 프로세서 또는 엑셀레이터를 통해) 되고, 상기 고속 확장 포트들(310)은 여러 확장 카드들(미도시)을 수용할 수 있다. 상기 구현에서, 저속 인터페이스(312)는 저장 디바이스(306) 및 저속 확장 포트(314)에 연결된다. 여러 통신 포트들(예를 들어, USB, 블루투스, 이더넷, 무선 이더넷)을 포함할 수 있는, 저속 확장 포트(314)는, 하나 이상의 입력/출력 디바이스들, 예를 들어, 키보드, 포인팅 디바이스, 스위치 또는 네트워크 어댑터를 통한 스위치 또는 라우터와 같은, 네트워킹 디바이스에 연결될 수 있다.

컴퓨팅 디바이스(300)는, 도면에서 도시된 것처럼, 복수의 서로 다른 형태들로 구현될 수 있다. 예를 들면, 표준 서버(320)로서, 또는 그와 같은 서버들의 그룹으로 여러 번 구현될 수 있다. 또한, 컴퓨팅 디바이스(300)는 랩탑 컴퓨터(322)와 같은 개인용 컴퓨터로 구현될 수 있다. 컴퓨팅 디바이스(300)는 또한 랙 서버 시스템(324)의 부분으로서 구현될 수 있다. 대안적으로, 컴퓨팅 디바이스(300)로부터의 컴포넌트들은, 모바일 컴퓨팅 디바이스(350)와 같은 모바일 컴퓨팅 디바이스(미도시) 내의 다른 컴포넌트들과 결합될 수 있다. 그와 같은 디바이스들 각각은, 하나 이상의 컴퓨팅 디바이스(300) 및 모바일 컴퓨팅 디바이스(350)를 포함할 수 있고, 전체 시스템은 서로 통신하는 다수의 컴퓨팅 디바이스들로 구성될 수 있다.

모바일 컴퓨팅 디바이스(350)는, 다른 컴포넌트들 사이에서, 프로세서(352), 메모리(364), 디스플레이(354)와 같은 입력/출력 디바이스, 통신 인터페이스(366) 및 트랜시버(368)를 포함한다. 모바일 컴퓨팅 디바이스(350)는 또한 추가적인 저장을 제공하기 위해, 마이크로-드라이브와 같은 저장 디바이스 또는 다른 디바이스가 제공될 수 있다. 상기 프로세서(352), 메모리(364), 디스플레이(354), 통신 인터페이스(366) 및 트랜시버(368) 각각은 여러 버스들을 사용하여 상호접속되고, 상기 컴포넌트들 중 다수는 공통의 마더보드 상에 또는 적합한 다른 방식들로 장착될 수 있다.

프로세서(352)는 메모리(364) 내에 저장되는 명령어들을 포함하는, 모바일 컴퓨팅 디바이스(350) 내의 명령어들을 실행할 수 있다. 상기 프로세서는 독립된 다수의 아날로그 및 디지털 프로세서들을 포함하는 칩들의 칩셋으로 구현될 수 있다. 상기 프로세서는, 예를 들면, 사용자 인터페이스들의 제어와 같은, 모바일 컴퓨팅 디바이스(350)의 다른 컴포넌트들의 조정을 위해, 모바일 컴퓨팅 디바이스(350)에 의해 구동되는 어플리케이션들 및 모바일 컴퓨팅 디바이스(350)에 의한 무선 통신을 제공할 수 있다.

프로세서(352)는 디스플레이(354)와 연결된 제어 인터페이스(358) 및 디스플레이 인터페이스(356)를 통해, 사용자와 통신할 수 있다. 디스플레이(354)는, 예를 들면, TFT(Thin-Film-Transistor Liquid Crystal Display) 디스플레이 또는 OLED(Organic Light Emitting Diode) 디스플레이 또는 다른 적합한 디스플레이 기술일 수 있다. 디스플레이 인터페이스(356)는 그래픽 및 다른 정보를 사용자에게 제공하기 위해, 디스플레이(354)를 구동하는 적합한 회로를 포함할 수 있다. 상기 제어 인터페이스(358)는 사용자로부터 명령어들을 수신할 수 있고, 프로세서(352)로의 제공을 위해 명령어들을 변환할 수 있다, 또한, 외부 인터페이스(362)는 다른 디바이스들과 모바일 컴퓨팅 디바이스(350)의 근거리 통신을 가능하게 하도록, 프로세서(352)와의 통신에 제공될 수 있다. 외부 인터페이스(362)는, 예를 들면, 일부 구현들에서 유선 통신을 제공할 수 있거나, 또는 구현들에서 무선 통신을 제공할 수 있으며, 다수의 인터페이스들이 또한 사용될 수 있다.

메모리(364)는 모바일 컴퓨팅 디바이스(350) 내에 정보를 저장한다. 상기 메모리(364)는 하나 이상의 컴퓨터-판독가능한 매체 또는 매체들, 휘발성 메모리 유닛 또는 유닛들, 또는 비-휘발성 메모리 유닛 또는 유닛들로서 구현될 수 있다. 확장 인터페이스(374)는 또한 확장 인터페이스(372)를 통해 디바이스(350)에 제공될 수 있거나 접속될 수 있고, 상기 확장 인터페이스(372)는, 예를 들면, SIMM(Single In Line Memory Module) 카드 인터페이스를 포함할 수 있다. 상기 확장 메모리(374)는 모바일 컴퓨팅 디바이스(350)를 위한 여분의 저장 공간을 제공할 수 있거나, 또는 모바일 컴퓨팅 디바이스(350)를 위한 어플리케이션 또는 다른 정보를 저장할 수 있다. 특히, 상기 확장 메모리(374)는 상기 기술된 프로세스들을 실행하거나 보충하기 위한 명령어들을 포함할 수 있고, 그리고 또한 보안 정보를 포함할 수 있다. 따라서, 예를 들면, 확장 메모리(374)는 모바일 컴퓨팅 디바이스(350)에 대한 보안 모듈로서 제공될 수 있고, 모바일 컴퓨팅 디바이스(350)의 안전한 사용을 허용하는 명령어들로 프로그래밍 될 수 있다. 부가적으로, 보안 어플리케이션들은, 해킹할 수 없는 방식으로 SIMM 카드 상의 정보를 식별하는 것을 배치하는 것처럼, 추가 정보에 따라, SIMM 카드들을 통해 제공될 수 있다.

상기 메모리는, 예를 들면, 하기에서 논의된 것처럼, 플래시 메모리 및/또는 NVRAM 메모리(non-volatile random access memory)를 포함할 수 있다. 일부 구현들에서, 상기 기술된 것들과 같이, 명령어들은 정보 캐리어 내에 저장되며, 상기 정보 캐리어는 명령어들이, 하나 이상의 프로세싱 디바이스들(예를 들면, 프로세서(352))에 의해 실행될 때, 하나 이상의 방법들을 수행한다. 명령어들은 또한, 예를 들어, 하나 이상의 컴퓨터-판독가능한 매체 또는 기계-판독가능한 매체들(예를 들면, 메모리(364), 확장 메모리(374) 또는 프로세서(352)상의 메모리)과 같은, 하나 이상의 저장 디바이스들에 의해 저장될 수 있다. 일부 구현들에서, 상기 명령어들은, 예를 들면, 트랜시버(368) 또는 외부 인터페이스(362)를 통해, 전파된 신호 내에서 수신될 수 있다.

모바일 컴퓨팅 디바이스(350)는 통신 인터페이스(366)을 통해 무선으로 통신할 수 있고, 상기 통신 인터페이스(366)는 필요한 디지털 신호 프로세싱 회로를 포함할 수 있다. 통신 인터페이스(366)는 다른 것들 중에서, GSM 음성 호출들(Global System for Mobile communications), SMS(Short Message Service), EMS(Enhanced Messaging Service) 또는 MMS 메시징(Multimedia Messaging Service), CDMA(code division multiple access), TDMA(time division multiple access), PDC(Personal Digital Celluar), WCDMA(Wideband Code Division Multiple Access)m CDMA2000 또는 GPRS(General Packet Radio Service)와 같은, 여러 모드들 또는 프로토콜들 하에서 통신들을 제공할 수 있다. 이러한 통신은, 예를 들면, 무선-주파수를 사용하는 트랜시버(368)를 통해 발생할 수 있다. 부가적으로, 단거리 통신은, 예를 들어 블루투스, WiFi 또는 다른 이러한 트랜시버(미도시)를 사용하여, 발생할 수 있다. 부가적으로, GPS(Global Positioning System) 수신기 모듈(370)은 모바일 컴퓨팅 디바이스(350)에 추가적인 내비게이션-관련 무선 데이터 및 위치-관련 무선 데이터를 제공할 수 있고, 상기 모바일 컴퓨팅 디바이스(350)는 모바일 컴퓨팅 디바이스(350) 상에서 구동하는 어플리케이션들에 의해 적합하게 사용될 수 있다.

모바일 컴퓨팅 디바이스(350)는 또한 오디오 코덱(360)을 사용하여 오디오적으로 통신할 수 있고, 상기 오디오 코덱(360)은 사용자로부터 음성 정보를 수신할 수 있고, 상기 음성 정보를 사용가능한 디지털 정보로 변환한다. 오디오 코덱(360)은 또한, 예를 들어, 모바일 컴퓨팅 디바이스(350)의 핸드세트(hand set) 내에서, 스피커를 통해, 사용자를 위한 들을 수 있는 소리를 발생시킬 수 있다. 이러한 소리는 음성 전화 호출들로부터 소리를 포함할 수 있고, 기록된 소리(예를 들면, 음성 메시지들, 음악 파일들, 등)를 포함할 수 있으며, 또한 모바일 컴퓨팅 디바이스(350) 상에서 동작하는 어플리케이션들에 의해 발생된 소리를 포함할 수 있다.

모바일 컴퓨팅 디바이스(350)는, 도면에서 도시된 것처럼, 다수의 서로 다른 형태들로 구현될 수 있다. 예를 들면, 상기 모바일 컴퓨팅 디바이스(350)는 셀룰러 텔레폰(380)으로서 구현될 수 있다. 모바일 컴퓨팅 디바이스(350)는 또한 스마트-폰(382), PDA 또는 다른 유사한 모바일 컴퓨팅 디바이스의 일부로서 구현될 수 있다.

본 명세서에서 기술되는 시스템들 및 기술들의 여러 구현들은, 디지털 전자 회로, 집적 회로, 특정하게 설계된 ASIC(application specific integrated circuits)들, 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 그것들의 조합으로 구현될 수 있다. 이러한 여러 구현들은, 적어도 하나의 프로그래밍 가능한 프로세서를 포함하는 프로그래밍 가능한 시스템 상에서 실행가능하고 및/또는 해석가능한 하나 이상의 컴퓨터 프로그램들 내의 구현을 포함할 수 있고, 상기 적어도 하나의 프로그래밍 가능한 프로세서는, 저장 시스템, 적어도 하나의 입력 디바이스, 및 적어도 하나의 출력 디바이스로부터 데이터 및 명령어들을 수신하고, 상기 저장 시스템, 적어도 하나의 입력 디바이스, 및 적어도 하나의 출력 디바이스에 명령어들을 전송하기 위해 연결된, 특수용 또는 범용인 프로세서일 수 있다.

컴퓨터 프로그램(또한 프로그램, 소프트웨어, 소프트웨어 어플리케이션 또는 코드로 알려짐)은, 프로그래밍 가능한 프로세서를 위한 기계 명령어들을 포함하고, 하이-레벨 절차 및/또는 객체-지향 프로그래밍 언어 및/또는 어셈블리/기계 언어로 구현될 수 있다. 여기에서 사용된 것처럼, 용어 기계-판독가능한 매체 및 컴퓨터-판독가능한 매체는 기계 명령어들 및/또는 데이터를 프로그래밍 가능한 프로세서에 제공하기 위해 사용되는 임의의 컴퓨터 프로그램 제품, 장치 및/또는 디바이스(예를 들어, 자기 디스크들, 광학 디스크들, 메모리, 프로그래밍 가능한 로직 디바이스들(PLDs))을 언급하고, 기계-판독가능한 신호로서 기계 명령어들을 수신하는 기계-판독가능한 매체를 포함한다. 용어 기계-판독가능한 신호는 기계 명령어들 및/또는 데이터를 프로그래밍 가능한 프로세서에 제공하기 위해 사용되는 임의의 신호를 언급한다.

사용자와의 상호대화를 제공하기 위해, 본 명세서에서 기술되는 시스템들 및 기술들은, 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스(예를 들어, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터) 및 사용자가 입력을 컴퓨터에 제공할 수 있는 키보드 및 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)를 가지는 컴퓨터상에 구현될 수 있다. 다른 종류의 디바이스들은 또한 사용자에게 인터렉션을 제공하기 위해 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 감각 피드백(예를 들어, 시각 피드백, 청각 피드백 또는 촉각 피드백)일 수 있고; 그리고 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다.

본 명세서에서 기술되는 시스템들 및 기술들은, 백 엔트 컴포넌트(예를 들어, 데이터 서버)를 포함하거나 또는 미들웨어 컴포넌트(예를 들어, 어플리케이션 서버)를 포함하거나 또는 프론트 엔트 컴포넌트(예를 들어, 사용자가 본 명세서에서 서술되는 시스템들 및 기술들의 구현과 상호대화할 수 있는 그래픽 사용자 인터페이스 또는 웹 브라우저를 가지는 클라이언트 컴퓨터) 또는 그와 같은 백 엔트, 미들웨어 또는 프론트 엔트 컴포넌트들의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트들은 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)에 의해 상호접속 될 수 있다. 통신 네트워크의 예들은 LAN(local area network), WAN(wide area network) 및 인터넷을 포함한다.

컴퓨팅 시스템은 클라이언트들 및 서버들을 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로로부터 원격이며 보통 통신 네트워크를 통해 인터렉션한다. 클라이언트와 서버의 관계는 각각의 컴퓨터들 상에서 동작하고 각각에 대하여 클라이언트-서버 관계를 가지는 컴퓨터 프로그램들에 의해 발생한다.

비록 약간의 구현들이 상기에 상세히 기술되었지만, 다른 변형들이 가능하다. 예를 들면, 클라이언트 어플리케이션이 델리게이트(delegate)(들)에 접근하는 것으로서 기술된 반면에, 다른 구현들에서는, 델리게이트(들)은 예컨데, 하나 이상의 서버들 상에서 실행하는 어플리케이션과 같은, 하나 이상의 프로세서들에 의해 구현되는 다른 어플리케이션들에 의해 이용될 수 있다. 추가적으로, 도면들에 도시된 논리 흐름들은 원하는 결과들을 얻기 위해, 도시된 특정 순서 또는 순차적인 순서를 요구하지 않는다. 추가적으로, 다른 단계들은, 기술된 흐름들로부터 제공될 수 있거나 제거될 수 있으며, 다른 컴포넌트들은 기술된 시스템들에 추가될 수 있거나 기술된 시스템들로부터 제거될 수 있다. 따라서, 다른 구현들은 후술하는 청구 범위 내에 있다.

Claims

컴퓨터로 구현되는 방법에 있어서,
컴퓨팅 디바이스의 하나 이상의 프로세서들에 의해, 발언(utterance)에 대응하는 오디오 데이터를 수신하는 단계와;
상기 발언이 특정한 미리 정의된 핫워드(particular, predefined hotword)를 포함할 가능성이 있음을 결정하는 단계와;
상기 발언이 상기 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 것에 응답하여, 상기 오디오 데이터의 음량(loudness)을 반영하는 스코어(score)를 결정하는 단계와;
지연 기간의 지속시간(duration of delay period)을 결정하는 단계와, 상기 지연 기간의 지속시간은 상기 오디오 데이터의 음량에 반비례하며;
다른 컴퓨팅 디바이스가 상기 오디오 데이터에 대한 음성 인식 프로세싱을 시작(commence)함을 표시하는 미리 결정된 오디오 신호(predetermined audio signal)를, 상기 지연 기간의 지속시간 동안, 상기 컴퓨팅 디바이스가 일시적으로 리스닝 하는(listen) 모드를 활성화(activate)하는 단계와;
다른 컴퓨팅 디바이스로부터 상기 미리 결정된 오디오 신호를 듣는 것(hear) 없이 상기 지연 기간의 지속시간이 경과한 후, 상기 모드를 비활성화(deactivate)하고, 상기 컴퓨팅 디바이스가 상기 오디오 데이터에 대한 음성 인식 프로세싱을 시작하고 있음을 표시하는 상기 미리 결정된 오디오 신호를 전송하는 단계와; 그리고
상기 미리 결정된 오디오 신호를 전송한 후에, 상기 컴퓨팅 디바이스 상에서 자동화된 음성 인식기(automated speech recognizer)를 사용하여 상기 오디오 데이터의 적어도 일부분을 프로세싱하는 단계를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제 1항에 있어서,
상기 컴퓨팅 디바이스의 하나 이상의 프로세서들에 의해, 추가적인 발언에 대응하는 추가적인 오디오 데이터를 수신하는 단계와;
상기 추가적인 발언이 상기 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 단계와;
상기 추가적인 발언이 상기 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 것에 응답하여, 상기 추가적인 오디오 데이터의 제2 음량을 반영하는 제2 스코어를 결정하는 단계와;
제2 지연 기간의 제2 지속시간을 결정하는 단계와, 상기 제2 지연 기간의 제2 지속시간은 상기 추가적인 오디오 데이터의 상기 제2 음량에 반비례하며;
상기 제2 지연 기간의 제2 지속시간 동안, 상기 다른 컴퓨팅 디바이스가 상기 추가적인 오디오 데이터에 대한 음성 인식 프로세싱을 시작하고 있음을 표시하는 상기 미리 결정된 오디오 신호를 상기 컴퓨팅 디바이스가, 일시적으로 리스닝 하는 모드를 활성화하는 단계와;
상기 제2 지연 기간의 제2 지속시간이 경과하기 전에, 상기 다른 컴퓨팅 디바이스가 상기 추가적인 오디오 데이터에 대한 음성 인식 프로세싱을 시작하고 있음을 표시하는 상기 미리 결정된 오디오 신호를 수신하는 단계와; 그리고
상기 미리 결정된 오디오 신호를 수신하는 것에 응답하여, 상기 추가적인 오디오 데이터의 프로세싱을 비활성화하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제 2항에 있어서,
상기 미리 결정된 오디오 신호를 수신하는 단계에 기초하여, 상기 컴퓨팅 디바이스의 활성 상태는 비활성화 상태임을 결정하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제 1항에 있어서,
상기 미리 결정된 오디오 신호를 전송하는 단계 이후에, 상기 컴퓨팅 디바이스의 활성 상태는 활성화 상태임을 결정하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제 1항에 있어서,
상기 미리 결정된 오디오 신호는 초음파 신호(ultrasonic signal)를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제 1항에 있어서,
상기 미리 결정된 오디오 신호는 다른 컴퓨팅 디바이스에 의해 수신되고, 상기 다른 컴퓨팅 디바이스에게 상기 오디오 데이터에 대한 음성 인식 프로세싱을 시작하지 않는 것을 표시하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제 1항에 있어서,
상기 발언이 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 단계에 기초하여,
다른 컴퓨팅 디바이스가 상기 오디오 데이터에 대한 음성 인식 프로세싱을 시작할 것임을 표시하는 상기 미리 결정된 오디오 신호를 수신할 준비하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
삭제
제 1항에 있어서,
상기 지연 기간의 지속시간은 상기 오디오 데이터의 음량을 반영하는 스코어가 임계치(threshold)를 만족할 때, 0(zero)인 것을 특징으로 하는 컴퓨터로 구현되는 방법.
삭제
시스템에 있어서,
하나 이상의 컴퓨터들 및 동작 가능한 명령어들을 저장하는 하나 이상의 저장 디바이스들을 포함하며, 상기 명령어들은 상기 하나 이상의 컴퓨터에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 동작들을 수행하게 하며,
상기 동작들은:
컴퓨팅 디바이스에 의해, 발언에 대응하는 오디오 데이터를 수신하는 동작과;
상기 발언이 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 동작과;
상기 발언이 상기 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 것에 응답하여, 상기 오디오 데이터의 음량을 반영하는 스코어를 결정하는 동작과;
지연 기간의 지속시간을 결정하는 동작과, 상기 지연 기간의 지속시간은 상기 오디오 데이터의 음량에 반비례하며;
다른 컴퓨팅 디바이스가 상기 오디오 데이터에 대한 음성 인식 프로세싱을 시작함을 표시하는 미리 결정된 오디오 신호를, 상기 지연 기간의 지속시간 동안, 상기 컴퓨팅 디바이스가 일시적으로 리스닝 하는 모드를 활성화하는 동작과;
다른 컴퓨팅 디바이스로부터 상기 미리 결정된 오디오 신호를 듣는 것 없이 상기 지연 기간의 지속시간이 경과한 후, 상기 모드를 비활성화하고, 상기 컴퓨팅 디바이스가 상기 오디오 데이터에 대한 음성 인식 프로세싱을 시작하고 있음을 표시하는 상기 미리 결정된 오디오 신호를 전송하는 동작과; 그리고
상기 미리 결정된 오디오 신호를 전송한 후에, 상기 컴퓨팅 디바이스 상에서 자동화된 음성 인식기를 사용하여 상기 오디오 데이터의 적어도 일부분을 프로세싱하는 동작을 포함하는 것을 특징으로 하는 시스템.
제 11항에 있어서,
상기 컴퓨팅 디바이스의 하나 이상의 프로세서들에 의해, 추가적인 발언에 대응하는 추가적인 오디오 데이터를 수신하는 동작과;
상기 추가적인 발언이 상기 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 동작과;
상기 추가적인 발언이 상기 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 것에 응답하여, 상기 추가적인 오디오 데이터의 제2 음량을 반영하는 제2 스코어를 결정하는 동작과;
제2 지연 기간의 제2 지속시간을 결정하는 동작과, 상기 제2 지연 기간의 제2 지속시간은 상기 추가적인 오디오 데이터의 상기 제2 음량에 반비례하며;
상기 제2 지연 기간의 제2 지속시간 동안, 상기 다른 컴퓨팅 디바이스가 상기 추가적인 오디오 데이터에 대한 음성 인식 프로세싱을 시작하고 있음을 표시하는 상기 미리 결정된 오디오 신호를 상기 컴퓨팅 디바이스가, 일시적으로 리스닝 하는 모드를 활성화하는 동작과;
상기 제2 지연 기간의 제2 지속시간이 경과하기 전에, 상기 다른 컴퓨팅 디바이스가 상기 추가적인 오디오 데이터에 대한 음성 인식 프로세싱을 시작하고 있음을 표시하는 상기 미리 결정된 오디오 신호를 수신하는 동작과; 그리고
상기 미리 결정된 오디오 신호를 수신하는 것에 응답하여, 상기 추가적인 오디오 데이터의 프로세싱을 비활성화하는 동작을 더 포함하는 것을 특징으로 하는 시스템.
제 11항에 있어서,
상기 미리 결정된 오디오 신호를 수신하는 동작에 기초하여, 상기 컴퓨팅 디바이스의 활성 상태는 비활성화 상태임을 결정하는 동작을 더 포함하는 것을 특징으로 하는 시스템.
제 11항에 있어서,
상기 미리 결정된 오디오 신호는 초음파 신호를 포함하는 것을 특징으로 하는 시스템.
제 11항에 있어서,
상기 미리 결정된 오디오 신호는 다른 컴퓨팅 디바이스에 의해 수신되고, 상기 다른 컴퓨팅 디바이스에게 상기 오디오 데이터에 대한 음성 인식 프로세싱을 시작하지 않는 것을 표시하는 것을 특징으로 하는 시스템.
제 11항에 있어서,
상기 발언이 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 동작에 기초하여,
다른 컴퓨팅 디바이스가 상기 오디오 데이터에 대한 음성 인식 프로세싱을 시작할 것임을 표시하는 상기 미리 결정된 오디오 신호를 수신할 준비하는 동작을 더 포함하는 것을 특징으로 하는 시스템.
삭제
제 11항에 있어서,
상기 지연 기간의 지속시간은 상기 오디오 데이터의 음량을 반영하는 스코어가 임계치를 만족할 때, 0인 것을 특징으로 하는 시스템.
삭제
하나 이상의 컴퓨터들에 의해 실행가능한 명령어들을 포함하는 비-일시적인 컴퓨터-판독가능한 매체로서, 상기 명령어들은 실행 시, 상기 하나 이상의 컴퓨터들로 하여금 동작들을 실행하게 하며,
상기 동작들은:
컴퓨팅 디바이스에 의해, 발언에 대응하는 오디오 데이터를 수신하는 동작과;
상기 발언이 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 동작과;
상기 발언이 상기 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 것에 응답하여, 상기 오디오 데이터의 음량을 반영하는 스코어를 결정하는 동작과;
지연 기간의 지속시간을 결정하는 동작과, 상기 지연 기간의 지속시간은 상기 오디오 데이터의 음량에 반비례하며;
다른 컴퓨팅 디바이스가 상기 오디오 데이터에 대한 음성 인식 프로세싱을 시작함을 표시하는 미리 결정된 오디오 신호를, 상기 지연 기간의 지속시간 동안, 상기 컴퓨팅 디바이스가 일시적으로 리스닝 하는 모드를 활성화하는 동작과;
다른 컴퓨팅 디바이스로부터 상기 미리 결정된 오디오 신호를 듣는 것 없이 상기 지연 기간의 지속시간이 경과한 후, 상기 모드를 비활성화하고, 상기 컴퓨팅 디바이스가 상기 오디오 데이터에 대한 음성 인식 프로세싱을 시작하고 있음을 표시하는 상기 미리 결정된 오디오 신호를 전송하는 동작과; 그리고
상기 미리 결정된 오디오 신호를 전송한 후에, 상기 컴퓨팅 디바이스 상에서 자동화된 음성 인식기를 사용하여 상기 오디오 데이터의 적어도 일부분을 프로세싱하는 동작을 포함하는 것을 특징으로 하는 컴퓨터-판독가능한 매체.
제 20항에 있어서,
상기 컴퓨팅 디바이스의 하나 이상의 프로세서들에 의해, 추가적인 발언에 대응하는 추가적인 오디오 데이터를 수신하는 동작과;
상기 추가적인 발언이 상기 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 동작과;
상기 추가적인 발언이 상기 특정한 미리 정의된 핫워드를 포함할 가능성이 있음을 결정하는 것에 응답하여, 상기 추가적인 오디오 데이터의 제2 음량을 반영하는 제2 스코어를 결정하는 동작과;
제2 지연 기간의 제2 지속시간을 결정하는 동작과, 상기 제2 지연 기간의 제2 지속시간은 상기 추가적인 오디오 데이터의 상기 제2 음량에 반비례하며;
상기 제2 지연 기간의 제2 지속시간 동안, 상기 다른 컴퓨팅 디바이스가 상기 추가적인 오디오 데이터에 대한 음성 인식 프로세싱을 시작하고 있음을 표시하는 상기 미리 결정된 오디오 신호를 상기 컴퓨팅 디바이스가, 일시적으로 리스닝 하는 모드를 활성화하는 동작과;
상기 제2 지연 기간의 제2 지속시간이 경과하기 전에, 상기 다른 컴퓨팅 디바이스가 상기 추가적인 오디오 데이터에 대한 음성 인식 프로세싱을 시작하고 있음을 표시하는 상기 미리 결정된 오디오 신호를 수신하는 동작과; 그리고
상기 미리 결정된 오디오 신호를 수신하는 것에 응답하여, 상기 추가적인 오디오 데이터의 프로세싱을 비활성화하는 동작을 더 포함하는 것을 특징으로 하는 컴퓨터-판독가능한 매체.
제 20항에 있어서,
상기 미리 결정된 오디오 신호는 초음파 신호를 포함하는 것을 특징으로 하는 컴퓨터-판독가능한 매체.
제 20항에 있어서,
상기 지연 기간의 지속시간은 상기 오디오 데이터의 음량을 반영하는 스코어가 임계치를 만족할 때, 0인 것을 특징으로 하는 컴퓨터-판독가능한 매체.
제 20항에 있어서,
상기 미리 결정된 오디오 신호는 다른 컴퓨팅 디바이스에 의해 수신되고, 상기 다른 컴퓨팅 디바이스에게 상기 오디오 데이터에 대한 음성 인식 프로세싱을 시작하지 않는 것을 표시하는 것을 특징으로 하는 컴퓨터-판독가능한 매체.