KR101752119B1 - 다수의 디바이스에서의 핫워드 검출 - Google Patents

다수의 디바이스에서의 핫워드 검출 Download PDF

Info

Publication number
KR101752119B1
KR101752119B1 KR1020167021778A KR20167021778A KR101752119B1 KR 101752119 B1 KR101752119 B1 KR 101752119B1 KR 1020167021778 A KR1020167021778 A KR 1020167021778A KR 20167021778 A KR20167021778 A KR 20167021778A KR 101752119 B1 KR101752119 B1 KR 101752119B1
Authority
KR
South Korea
Prior art keywords
hot word
value
computing device
possibility
audio data
Prior art date
Application number
KR1020167021778A
Other languages
English (en)
Other versions
KR20160101198A (ko
Inventor
매튜 샤리피
Original Assignee
구글 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=54330874&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR101752119(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 구글 인코포레이티드 filed Critical 구글 인코포레이티드
Publication of KR20160101198A publication Critical patent/KR20160101198A/ko
Application granted granted Critical
Publication of KR101752119B1 publication Critical patent/KR101752119B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

다수의 디바이스에서의 핫워드 검출을 위한, 컴퓨터 저장 매체에 인코딩된 컴퓨터 프로그램들을 포함하는, 방법들, 시스템들, 및 장치들이 개시된다. 일 양태에서, 방법은, 제1 컴퓨팅 디바이스에 의해, 발성에 대응하는 오디오 데이터를 수신하는 단계의 액션들을 포함한다. 이 액션들은 발성이 핫워드를 포함할 가능성에 대응하는 제1 값을 결정하는 단계를 더 포함한다. 이 액션들은 발성이 핫워드를 포함할 가능성에 대응하는 제2 값을 수신하는 단계 - 제2 값은 제2 컴퓨팅 디바이스에 의해 결정됨 - 를 더 포함한다. 이 액션들은 제1 값과 제2 값을 비교하는 단계를 더 포함한다. 이 액션들은 제1 값과 제2 값을 비교하는 것에 기초하여, 오디오 데이터에 대한 음성 인식 처리를 개시하는 단계를 더 포함한다.

Description

다수의 디바이스에서의 핫워드 검출{HOTWORD DETECTION ON MULTIPLE DEVICES}
이 명세서는 일반적으로 사람이 말하고 있는 단어들을 인식하는 것, 다르게는 음성 인식이라고 불리는 것에 대한 시스템들 및 기법들에 관한 것이다.
음성-사용가능(speech-enabled) 집 또는 다른 환경 - 즉, 사용자가 큰 소리로 쿼리(query) 또는 명령(command)을 말하기만 하면 되고 컴퓨터 기반 시스템이 쿼리를 처리하고 그에 응답하는 그리고/또는 명령이 수행되게 하는 것 - 의 현실이 우리 앞에 있다. 음성-사용가능 환경(예컨대, 집, 직장, 학교 등)은 환경의 다양한 방들 또는 구역들의 도처에 분포된 연결된 마이크 디바이스들의 네트워크를 이용하여 구현될 수 있다. 그러한 마이크들의 네트워크를 통하여, 사용자는 그의 앞에 또는 심지어 근처에 컴퓨터 또는 다른 디바이스를 가질 필요 없이 환경 내의 본질적으로 어느 곳으로부터든 구두로 시스템에 쿼리하는 능력을 가진다. 예를 들어, 주방에서 요리하는 동안, 사용자는 시스템에 "3개의 컵에 몇 밀리리터인가(how many milliliters in three cups)?"를 물어볼 수 있고, 이에 응답하여, 시스템으로부터, 예컨대, 합성된 음성 출력의 형태로, 응답을 받을 수 있다. 대안적으로, 사용자는 시스템에, "가장 가까운 주유소가 언제 문을 닫는가(when does my nearest gas station close)" 또는 외출을 준비하면서 "오늘 코트를 입어야 하는가(should I wear a coat today)?"와 같은 질문들을 물어볼 수 있다.
또한, 사용자는 사용자의 개인 정보와 관련 있는, 쿼리를 시스템에 물어보고/물어보거나 명령을 내릴 수 있다. 예를 들어, 사용자는 시스템에 "John과의 미팅이 언제인가(when is my meeting with John)?"를 물어보거나 시스템에 "내가 집에 돌아왔을 때 John에게 통화하는 것을 상기시켜 달라(remind me to call John when I get back home)"고 명령할 수 있다.
음성-사용가능 시스템에 대해, 사용자가 시스템과 상호 작용하는 방식은, 전적으로 그런 것은 아닐지라도, 주로 음성 입력을 이용하도록 설계된다. 따라서, 시스템을 향하고 있지 않은 것들을 포함하여 주위 환경에서 이루어진 모든 발성들을 잠재적으로 포착하는, 시스템은 임의의 주어진 발성이, 예컨대, 환경에 존재하는 개인을 향하고 있는 것이 아니라 시스템을 향하고 있는 때를 판별하는 어떤 방법을 가져야만 한다. 이를 달성하는 한 가지 방법은, 환경 내의 사용자들 사이의 합의에 의해, 시스템의 주의를 환기시키기 위해 말해지는 미리 결정된 단어로서 예약되는, 핫워드(hotword)를 이용하는 것이다. 예시적인 환경에서, 시스템의 주의를 환기시키기 위해 사용되는 핫워드는 "OK 컴퓨터"라는 단어들이다. 따라서, "OK 컴퓨터"라는 단어들이 말해질 때마다, 그것은 마이크에 의해 포착되어, 시스템에 전달되고, 시스템은 음성 인식 기법들을 수행하여 핫워드가 말해졌는지를 결정하고, 그렇다면, 뒤이은 명령 또는 쿼리를 기다린다. 따라서, 시스템을 향하는 발성들은 [핫워드] [쿼리]의 일반적인 형태를 가지며, 이 예에서 "핫워드"는 "OK 컴퓨터"이고 "쿼리"는 시스템에 의해, 단독으로 또는 네트워크를 통해 서버와 함께, 음성 인식되고, 구문 분석되고, 작용될 수 있는 임의의 질문, 명령, 선언, 또는 다른 요청일 수 있다.
이 명세서에 기술된 주제의 하나의 혁신적인 양태에 따르면, 사용자 디바이스가 사용자에 의해 말해지는 발성을 수신한다. 상기 사용자 디바이스는 상기 발성이 핫워드를 포함하는지를 결정하고 상기 발성이 상기 핫워드를 포함할 가능성을 나타내는 핫워드 신뢰도 점수를 계산한다. 상기 사용자 디바이스는 이 점수를 근처에 있는 다른 사용자 디바이스들에 송신한다. 상기 다른 사용자 디바이스들은 동일한 발성을 수신했을 가능성이 있다. 상기 다른 사용자 디바이스들은 핫워드 신뢰도 점수를 계산하고 그들의 점수들을 상기 사용자 디바이스에 송신한다. 상기 사용자 디바이스는 상기 핫워드 신뢰도 점수들을 비교한다. 상기 사용자 디바이스가 가장 높은 핫워드 신뢰도 점수를 가진다면, 상기 사용자 디바이스는 활성으로 남아 있고 부가 오디오를 처리하기 위해 준비한다. 상기 사용자 디바이스가 가장 높은 핫워드 신뢰도 점수를 갖지 않는다면, 상기 사용자 디바이스는 상기 부가 오디오를 처리하지 않는다.
일반적으로, 이 명세서에 기술된 주제의 또 다른 혁신적인 양태는, 제1 컴퓨팅 디바이스에 의해, 발성에 대응하는 오디오 데이터를 수신하는 단계; 상기 발성이 핫워드를 포함할 가능성에 대응하는 제1 값을 결정하는 단계; 상기 발성이 핫워드를 포함할 가능성에 대응하는 제2 값을 수신하는 단계 - 상기 제2 값은 제2 컴퓨팅 디바이스에 의해 결정됨 -; 상기 제1 값과 상기 제2 값을 비교하는 단계; 및 상기 제1 값과 상기 제2 값을 비교하는 것에 기초하여, 상기 오디오 데이터에 대한 음성 인식 처리를 개시하는 단계의 액션들을 포함하는 방법들에서 구현될 수 있다.
이들 및 다른 실시예들은 각각 임의로 다음의 특징들 중 하나 이상을 포함할 수 있다. 상기 액션들은 상기 제1 값이 핫워드 점수 임계치를 만족시키는 것을 결정하는 단계를 더 포함한다. 상기 액션들은 상기 제1 값을 상기 제2 컴퓨팅 디바이스에 송신하는 단계를 더 포함한다. 상기 액션들은 상기 제1 값과 상기 제2 값을 비교하는 것에 기초하여 상기 제1 컴퓨팅 디바이스의 활성화 상태를 결정하는 단계를 더 포함한다. 상기 제1 값과 상기 제2 값을 비교하는 것에 기초하여 상기 제1 컴퓨팅 디바이스의 활성화 상태를 결정하는 단계의 액션은 상기 활성화 상태가 활성 상태인 것을 결정하는 단계를 더 포함한다. 상기 액션들은, 상기 제1 컴퓨팅 디바이스에 의해, 부가 발성에 대응하는 부가 오디오 데이터를 수신하는 단계; 상기 부가 발성이 상기 핫워드를 포함할 가능성에 대응하는 제3 값을 결정하는 단계; 상기 발성이 상기 핫워드를 포함할 가능성에 대응하는 제4 값을 수신하는 단계 - 상기 제4 값은 제3 컴퓨팅 디바이스에 의해 결정됨 -; 상기 제1 값과 상기 제2 값을 비교하는 단계; 및 상기 제1 값과 상기 제2 값을 비교하는 것에 기초하여, 상기 제1 컴퓨팅 디바이스의 상기 활성화 상태가 비활성 상태인 것을 결정하는 단계를 더 포함한다.
상기 제1 값을 상기 제2 컴퓨팅 디바이스에 송신하는 단계의 액션은 서버에, 로컬 네트워크를 통하여, 또는 단거리 무선(short range radio)을 통하여, 상기 제1 값을 송신하는 단계를 더 포함한다. 상기 발성이 상기 핫워드를 포함할 가능성에 대응하는 제2 값을 수신하는 단계 - 상기 제2 값은 제2 컴퓨팅 디바이스에 의해 결정됨 - 의 액션은 상기 서버로부터, 상기 로컬 네트워크를 통하여, 또는 상기 단거리 무선을 통하여, 제2 컴퓨팅 디바이스에 의해 결정된 제2 값을 수신하는 단계를 더 포함한다. 상기 액션들은 상기 제2 컴퓨팅 디바이스를 식별하는 단계; 및 상기 제2 컴퓨팅 디바이스가 상기 핫워드를 포함하는 발성들에 응답하도록 구성된 것을 결정하는 단계를 더 포함한다. 상기 제1 값을 상기 제2 컴퓨팅 디바이스에 송신하는 단계의 액션은 상기 제1 컴퓨팅 디바이스에 대한 제1 식별자를 송신하는 단계를 더 포함한다. 상기 발성이 상기 핫워드를 포함할 가능성에 대응하는 제2 값을 수신하는 단계 - 상기 제2 값은 제2 컴퓨팅 디바이스에 의해 결정됨 - 의 액션은 상기 제2 컴퓨팅 디바이스에 대한 제2 식별자를 수신하는 단계를 더 포함한다. 상기 활성화 상태가 활성 상태인 것을 결정하는 단계의 액션은 상기 발성에 대응하는 상기 오디오 데이터를 수신하는 단계 이후 특정량의 시간이 경과한 것을 결정하는 단계를 더 포함한다. 상기 액션들은 상기 활성화 상태가 활성 상태인 것을 결정하는 것에 기초하여, 특정량의 시간 동안, 상기 제1 값을 계속 송신하는 단계를 더 포함한다.
이 양태의 다른 실시예들은, 상기 방법들의 동작들을 수행하도록 각각 구성된, 대응하는 시스템들, 장치, 및 컴퓨터 저장 디바이스들에 기록된 컴퓨터 프로그램들을 포함한다.
이 명세서에 기술된 주제의 특정 실시예들은 다음의 이점들 중 하나 이상을 실현하도록 구현될 수 있다. 다수의 디바이스들이 핫워드를 검출할 수 있고 하나의 디바이스만이 상기 핫워드에 응답할 것이다.
이 명세서에 기술된 주제의 하나 이상의 실시예들의 세부 사항들이 첨부 도면들 및 하기의 설명에서 제시된다. 이 주제의 다른 특징들, 양태들, 및 이점들은 설명, 도면들, 및 청구항들로부터 명백해질 것이다.
도 1은 핫워드 검출을 위한 예시적인 시스템의 도면이다.
도 2는 핫워드 검출을 위한 예시적인 프로세스의 도면이다.
도 3은 컴퓨팅 디바이스 및 모바일 컴퓨팅 디바이스의 예를 보여준다.
다양한 도면들에서 동일한 참조 번호들 및 명칭들은 동일한 요소들을 나타낸다.
너무 멀지 않은 미래에, 많은 디바이스들이 계속해서 핫워드들을 청취하고 있을 수 있는 것이 가능하다. 단일 사용자가 그들의 음성에 응답하도록 훈련된 다수의 디바이스들(예컨대, 전화, 태블릿, TV 등)을 가지는 경우, 사용자가 어드레싱하려고 의도하는 것들일 가능성이 없는 디바이스들에서 핫워드들에 응답하는 것을 억제하는 것이 바람직할 수 있다. 예를 들어, 사용자가 하나의 디바이스를 향하여 핫워드를 말할 때, 그들의 다른 디바이스들 중 임의의 것이 근처에 있다면, 그것들도 음성 검색을 트리거할 가능성이 있다. 많은 경우에, 이것은 사용자의 의도가 아니다. 따라서, 단일 디바이스, 구체적으로 사용자가 말하고 있는 대상인 디바이스만이 트리거한다면 유리할 수 있다. 본 명세서는 핫워드에 반응하기 위한 정확한 디바이스를 선택하고, 다른 디바이스들에서의 상기 핫워드에 대한 반응을 억제하는 문제를 다룬다.
도 1은 핫워드 검출을 위한 예시적인 시스템(100)의 도면이다. 일반적으로, 시스템(100)은 사용자(102)가 컴퓨팅 디바이스들(106, 108, 및 110)의 마이크들에 의해 검출되는 발성(104)을 말하는 것을 보여준다. 컴퓨팅 디바이스들(106, 108, 및 110)은 상기 발성(104)을 처리하여 상기 발성(104)이 핫워드를 포함할 가능성을 결정한다. 컴퓨팅 디바이스들(106, 108, 및 110)은 각각 상기 발성(104)이 핫워드를 포함할 가능성을 나타내는 데이터를 서로에게 송신한다. 컴퓨팅 디바이스들(106, 108, 및 110)은 각각 그 데이터를 비교하고, 상기 발성(104)이 핫워드를 포함할 가장 높은 가능성을 계산한 컴퓨팅 디바이스는 상기 발성(104)에 대한 음성 인식을 개시한다. 상기 발성(104)이 핫워드를 포함할 가장 높은 가능성을 계산하지 않은 컴퓨팅 디바이스들은 상기 발성(104) 이후의 음성에 대한 음성 인식을 개시하지 않는다.
상기 발성(104)이 핫워드에 대응할 가능성을 나타내는 데이터를, 다른 컴퓨팅 디바이스에 송신하기 전에, 서로의 근처에 위치하는 컴퓨팅 디바이스들은 서로를 식별한다. 일부 구현들에서, 컴퓨팅 디바이스들은 핫워드에 응답하도록 구성된 다른 디바이스들을 찾아 로컬 네트워크를 검색하는 것에 의해 서로를 식별한다. 예를 들어, 컴퓨팅 디바이스(106)는 핫워드에 응답하도록 구성된 다른 디바이스들을 찾아 로컬 영역 네트워크를 검색하고 컴퓨팅 디바이스(108) 및 컴퓨팅 디바이스(110)를 식별할 수 있다.
일부 구현들에서, 컴퓨팅 디바이스들은 각각의 디바이스에 로그인되어 있는 사용자를 식별하는 것에 의해 핫워드에 응답하도록 구성된 다른 근처의 컴퓨팅 디바이스들을 식별한다. 예를 들어, 사용자(102)가 컴퓨팅 디바이스들(106, 108, 및 110)에 로그인되어 있다. 사용자(102)는 그 사용자의 손에 컴퓨팅 디바이스(106)를 가진다. 컴퓨팅 디바이스(108)는 테이블에 놓여 있고, 컴퓨팅 디바이스(110)는 근처의 벽에 위치하고 있다. 컴퓨팅 디바이스(106)는 컴퓨팅 디바이스들(108 및 110)을 검출하고, 각각의 컴퓨팅 디바이스는 사용자 식별자와 같은, 컴퓨팅 디바이스에 로그인되어 있는 사용자와 관련 있는 정보를 공유한다. 일부 구현들에서, 컴퓨팅 디바이스들은 화자 식별(speaker identification)을 통하여 동일한 사용자에 의해 핫워드가 말해질 때 응답하도록 구성된 컴퓨팅 디바이스들을 식별하는 것에 의해 핫워드에 응답하도록 구성된 다른 근처의 컴퓨팅 디바이스들을 식별할 수 있다. 예를 들어, 사용자(102)는 컴퓨팅 디바이스들(106, 108, 및 110)을 각각, 사용자(102)가 핫워드를 말할 때 사용자(102)의 음성에 응답하도록 구성하였다. 컴퓨팅 디바이스들은 사용자(102)에 대한 사용자 식별자를 각각의 다른 컴퓨팅 디바이스에 제공하는 것에 의해 화자 식별 정보를 공유한다. 일부 구현들에서, 컴퓨팅 디바이스들은 단거리 무선을 통하여 핫워드에 응답하도록 구성된 다른 컴퓨팅 디바이스들을 식별할 수 있다. 예를 들어, 컴퓨팅 디바이스(106)는 핫워드에 응답하도록 구성된 다른 컴퓨팅 디바이스들을 검색하는 신호를 단거리 무선을 통하여 송신할 수 있다. 컴퓨팅 디바이스들은 이러한 기법들 중 하나 또는 이들의 조합을 이용하여 핫워드에 응답하도록 구성된 다른 컴퓨팅 디바이스들을 식별할 수 있다
컴퓨팅 디바이스들(106, 108, 및 110)이 핫워드에 응답하도록 구성된 다른 컴퓨팅 디바이스들을 식별하면, 컴퓨팅 디바이스들(106, 108, 및 110)은 식별된 컴퓨팅 디바이스들에 대한 디바이스 식별자들을 공유 및 저장한다. 식별자들은 디바이스의 타입, 디바이스의 IP 주소, MAC 주소, 사용자에 의해 디바이스에 주어진 이름, 또는 임의의 유사한 고유 식별자에 기초할 수 있다. 예를 들어, 컴퓨팅 디바이스(106)에 대한 디바이스 식별자(112)는 "전화(phone)"일 수 있다. 컴퓨팅 디바이스(108)에 대한 디바이스 식별자(114)는 "태블릿(tablet)"일 수 있다. 컴퓨팅 디바이스(110)에 대한 디바이스 식별자(116)는 "온도조절장치(thermostat)"일 수 있다. 컴퓨팅 디바이스들(106, 108, 및 110)은 핫워드에 응답하도록 구성된 다른 컴퓨팅 디바이스들에 대한 디바이스 식별자를 저장한다. 각각의 컴퓨팅 디바이스는 디바이스 그룹을 가지며 거기에 컴퓨팅 디바이스는 디바이스 식별자들을 저장한다. 예를 들어, 컴퓨팅 디바이스(106)는 컴퓨팅 디바이스(106)에 의해 계산된, 오디오 데이터가 핫워드를 포함할 가능성을 수신할 2개의 디바이스로서 "태블릿"과 "온도조절장치"를 열거하는 디바이스 그룹(118)을 가진다. 컴퓨팅 디바이스(108)는 컴퓨팅 디바이스(108)에 의해 계산된, 오디오 데이터가 핫워드를 포함할 가능성을 수신할 2개의 디바이스로서 "전화"와 "온도조절장치"를 열거하는 디바이스 그룹(120)을 가진다. 컴퓨팅 디바이스(110)는 컴퓨팅 디바이스(110)에 의해 계산된, 오디오 데이터가 핫워드를 포함할 가능성을 수신할 2개의 디바이스로서 "전화"와 "태블릿"을 열거하는 디바이스 그룹(122)을 가진다.
사용자(102)가 "OK 컴퓨터"라는 발성(104)을 말할 때, 사용자(102)의 근처에 마이크를 가진 각각의 컴퓨팅 디바이스는 발성(104)을 검출하고 처리한다. 각각의 컴퓨팅 디바이스는 마이크와 같은 오디오 입력 디바이스를 통하여 발성(104)을 검출한다. 각각의 마이크는 오디오 데이터를 각자의 오디오 서브시스템에 제공한다. 각자의 오디오 서브시스템은 오디오 데이터를 버퍼링하고, 필터링하고, 디지털화한다. 일부 구현들에서, 각각의 컴퓨팅 디바이스는 또한 오디오 데이터에 대한 엔드포인팅 및 화자 식별을 수행할 수 있다. 오디오 서브시스템은 처리된 오디오 데이터를 핫워더(hotworder)에 제공한다. 핫워더는 처리된 오디오 데이터를 알려진 핫워드 데이터와 비교하고 발성(104)이 핫워드에 대응할 가능성을 나타내는 신뢰도 점수를 계산한다. 핫워더는 처리된 오디오 데이터로부터, 필터뱅크 에너지(filterbank energy) 또는 멜 주파수 켑스트럼 계수(mel-frequency cepstral coefficient)와 같은 오디오 특징들을 추출할 수 있다. 핫워더는 분류 윈도우(classifying window)들을 이용하여, 예를 들어 서포트 벡터 머신(support vector machine) 또는 신경망(neural network)을 이용하는 것에 의해 이러한 오디오 특징들을 처리할 수 있다. 오디오 특징들의 처리에 기초하여, 핫워더(124)는 0.85의 신뢰도 점수를 계산하고, 핫워더(126)는 0.6의 신뢰도 점수를 계산하고, 핫워더(128)는 0.45의 신뢰도 점수를 계산한다. 일부 구현들에서, 신뢰도 점수는 0 내지 1의 스케일로 정규화될 수 있고, 더 높은 숫자는 발성(104)이 핫워드를 포함할 더 큰 신뢰도를 나타낸다.
각각의 컴퓨팅 디바이스는 각자의 신뢰도 점수 데이터 패킷을 디바이스 그룹 내의 다른 컴퓨팅 디바이스들에 송신한다. 각각의 신뢰도 점수 데이터 패킷은 각자의 신뢰도 점수 및 컴퓨팅 디바이스에 대한 각자의 디바이스 식별자를 포함한다. 예를 들어, 컴퓨팅 디바이스(106)는 0.85의 신뢰도 점수 및 디바이스 식별자 "전화"를 포함하는 신뢰도 점수 데이터 패킷(130)을 디바이스 그룹(118) 내의 컴퓨팅 디바이스들인, 컴퓨팅 디바이스들(108 및 110)에 송신한다. 컴퓨팅 디바이스(108)는 0.6의 신뢰도 점수 및 디바이스 식별자 "태블릿"을 포함하는 신뢰도 점수 데이터 패킷(132)을 디바이스 그룹(120) 내의 컴퓨팅 디바이스들인, 컴퓨팅 디바이스들(106 및 110)에 송신한다. 컴퓨팅 디바이스(110)는 0.45의 신뢰도 점수 및 디바이스 식별자 "온도조절장치"를 포함하는 신뢰도 점수 데이터 패킷(134)을 디바이스 그룹(118) 내의 컴퓨팅 디바이스들인, 컴퓨팅 디바이스들(106 및 108)에 송신한다.
일부 구현들에서, 컴퓨팅 디바이스는 신뢰도 점수가 핫워드 점수 임계치를 만족시키면 신뢰도 점수 데이터 패킷을 송신할 수 있다. 예를 들어, 핫워드 점수 임계치가 0.5이면, 컴퓨팅 디바이스(110)는 신뢰도 점수 데이터 패킷(134)을 디바이스 그룹(122) 내의 다른 컴퓨팅 디바이스들에 송신하지 않을 것이다. 컴퓨팅 디바이스들(106 및 108)은 여전히 신뢰도 점수 데이터 패킷들(130 및 132)을, 각각, 디바이스 그룹들(118 및 120) 내의 컴퓨팅 디바이스들에 송신할 것이다.
일부 구현들에서, 신뢰도 점수 데이터 패킷을 송신하는 컴퓨팅 디바이스는 신뢰도 점수 데이터 패킷을 다른 컴퓨팅 디바이스들에 직접 송신할 수 있다. 예를 들어, 컴퓨팅 디바이스(106)는 신뢰도 점수 데이터 패킷(130)을 컴퓨팅 디바이스들(108 및 110)에 단거리 무선을 통하여 송신할 수 있다. 2개의 컴퓨팅 디바이스 사이에 사용되는 통신 프로토콜은 유니버설 플러그 앤 플레이(universal plug and play)일 수 있다. 일부 구현들에서, 신뢰도 점수 데이터 패킷을 송신하는 컴퓨팅 디바이스는 신뢰도 점수 데이터 패킷을 브로드캐스트할 수 있다. 이 경우, 신뢰도 점수 데이터 패킷은 디바이스 그룹 내의 컴퓨팅 디바이스들에 의해 그리고 다른 컴퓨팅 디바이스들에 의해 수신될 수 있다. 일부 구현들에서, 신뢰도 점수 데이터 패킷을 송신하는 컴퓨팅 디바이스는 신뢰도 점수 데이터 패킷을 서버에 송신할 수 있고, 그 후 서버는 신뢰도 점수 데이터 패킷을 디바이스 그룹 내의 컴퓨팅 디바이스들에 송신한다. 서버는 컴퓨팅 디바이스들의 로컬 영역 네트워크 내에 위치하거나 인터넷을 통하여 액세스 가능할 수 있다. 예를 들어, 컴퓨팅 디바이스(108)는 신뢰도 점수 데이터 패킷(132) 및 디바이스 그룹(120) 내의 컴퓨팅 디바이스들의 목록을 서버에 송신한다. 서버는 신뢰도 점수 데이터 패킷(132)을 컴퓨팅 디바이스(106 및 110)에 송신한다. 컴퓨팅 디바이스가 신뢰도 점수 데이터 패킷을 다른 컴퓨팅 디바이스에 송신하는 경우에, 수신 컴퓨팅 디바이스는 수신 컴퓨팅 디바이스가 신뢰도 점수 데이터 패킷을 수신했다는 확인을 회신할 수 있다.
각각의 컴퓨팅 디바이스는 점수 비교기를 이용하여 컴퓨팅 디바이스가 수신한 핫워드 신뢰도 점수들을 비교한다. 예를 들어, 컴퓨팅 디바이스(106)는 0.85의 핫워드 신뢰도 점수를 계산하였고 0.6 및 0.45의 핫워드 신뢰도 점수들을 수신하였다. 이 경우, 점수 비교기(136)는 3개의 점수를 비교하고 0.85의 점수를 가장 높은 것으로 식별한다. 컴퓨팅 디바이스들(108 및 110)에 대해, 점수 비교기들(138 및 140)은 컴퓨팅 디바이스(106)에 대응하는 0.85의 점수를 가장 높은 것으로 식별하는, 유사한 결론들에 도달한다.
그 자신의 핫워드 신뢰도 점수가 가장 높은 것을 결정하는 컴퓨팅 디바이스는 핫워드 발성 이후의 음성 데이터에 대한 음성 인식을 개시한다. 예를 들어, 사용자는 "OK 컴퓨터"를 말할 수 있고, 컴퓨팅 디바이스(106)는 그것이 가장 높은 핫워드 신뢰도 점수를 가지는 것을 결정할 수 있다. 컴퓨팅 디바이스(106)는 핫워드 이후에 수신된 오디오 데이터에 대한 음성 인식을 개시할 것이다. 사용자가 "Alice 호출(call Alice)"을 말하면, 컴퓨팅 디바이스(106)는 발성을 처리하고 적절한 명령을 실행할 것이다. 일부 구현들에서, 핫워드를 수신하는 것은 핫워드를 수신하는 컴퓨팅 디바이스들로 하여금 슬립(sleep) 상태로부터 활성화하게 할 수 있다. 이 경우, 가장 높은 핫워드 신뢰도 점수를 가진 컴퓨팅 디바이스는 어웨이크(awake) 상태에 남아 있는 반면 가장 높은 핫워드 신뢰도 점수를 갖지 않는 다른 컴퓨팅 디바이스들은 핫워드 발성 이후의 음성 데이터를 처리하지 않고 슬립 상태에 들어간다.
도 1에 예시된 바와 같이, 점수 비교기(136)는 컴퓨팅 디바이스(106)에 대응하는 핫워드 신뢰도 점수를 가장 높은 것으로 식별하였다. 그러므로, 디바이스 상태(142)는 "어웨이크"이다. 점수 비교기들(138 및 140)도 컴퓨팅 디바이스(106)에 대응하는 핫워드 신뢰도 점수를 가장 높은 것으로 식별하였다. 그러므로, 디바이스 상태들(144 및 146)은 "슬립(asleep)"이다. 일부 구현들에서, 컴퓨팅 디바이스의 활성화 상태는 영향을 받지 않을 수 있다. 예를 들어, 사용자(102)는 컴퓨팅 디바이스(108)에서 영화를 시청중이고 사용자의 손에 컴퓨팅 디바이스(106)를 가질 수 있다. 사용자(102)가 "OK 컴퓨터"를 말할 때, 컴퓨팅 디바이스(106)는, 가장 높은 핫워드 신뢰도 점수를 가지고 있기 때문에, 핫워드 이후의 오디오 데이터에 대한 음성 인식을 개시한다. 컴퓨팅 디바이스(108)는 핫워드 이후의 오디오 데이터에 대한 음성 인식을 개시하지 않고, 계속 영화를 재생한다.
일부 구현들에서, 그것이 가장 높은 핫워드 신뢰도 점수를 가지는 것을 결정하는 컴퓨팅 디바이스는 핫워드 이후의 음성에 대한 음성 인식의 수행을 시작하기 전에 특정량의 시간 동안 기다린다. 이렇게 하는 것은 가장 높은 핫워드 신뢰도 점수를 계산한 컴퓨팅 디바이스가 더 높은 핫워드 신뢰도 점수를 기다리지 않고 핫워드 이후의 음성에 대한 음성 인식의 수행을 시작하는 것을 허용한다. 예시하자면, 컴퓨팅 디바이스(106)의 점수 비교기(136)는 컴퓨팅 디바이스(108 및 110)로부터, 각각, 0.6 및 0.45의 핫워드 신뢰도 점수들뿐만 아니라, 핫워더(124)로부터 0.85의 핫워드 신뢰도 점수를 수신하였다. 핫워더(124)가 "Ok 컴퓨터" 오디오 데이터의 핫워드 신뢰도 점수를 계산하는 때로부터, 컴퓨팅 디바이스(106)는 핫워드 이후의 음성에 대한 음성 인식을 수행하기 전에 500 밀리초를 기다린다. 점수 비교기가 더 높은 점수를 수신하는 경우에, 컴퓨팅 디바이스는 디바이스 상태를 "슬립"으로 설정하기 전에 특정량의 시간 동안 기다리지 않을 수 있다. 예를 들어, 컴퓨팅 디바이스(108)의 핫워더(126)는 0.6의 핫워드 신뢰도 점수를 계산하고 0.85 및 0.45의 핫워드 신뢰도 점수들을 수신한다. 컴퓨팅 디바이스(108)가 0.85의 핫워드 신뢰도 점수를 수신하면, 컴퓨팅 디바이스(108)는 디바이스 상태(144)를 "슬립"으로 설정할 수 있다. 이것은 컴퓨팅 디바이스(108)가 핫워더(126)가 0.6의 핫워드 신뢰도 점수를 계산한 후에 특정량의 시간 내에 0.85의 핫워드 신뢰도 점수를 수신하는 것을 가정한다.
일부 구현들에서, 컴퓨팅 디바이스가 가장 높은 핫워드 신뢰도 점수를 가지는 경우, 컴퓨팅 디바이스는 다른 컴퓨팅 디바이스들이 신뢰도 점수 데이터 패킷을 수신하는 것을 보장하기 위해 특정량의 시간 동안 계속 신뢰도 점수 데이터 패킷을 브로드캐스트할 수 있다. 이 전략은 컴퓨팅 디바이스가 다른 컴퓨팅 디바이스로부터 신뢰도 점수 데이터 패킷을 수신하면 확인을 회신하는 경우에 가장 적용 가능할 것이다. 그러므로, 컴퓨팅 디바이스(106)가 신뢰도 점수 데이터 패킷(130)을 디바이스 그룹(118) 내의 컴퓨팅 디바이스들에 송신하고 500 밀리초와 같은 특정량의 시간 전에 확인을 수신하면, 컴퓨팅 디바이스(106)는 핫워드 이후의 음성에 대한 음성 인식의 수행을 시작할 수 있다. 컴퓨팅 디바이스들이 그들의 신뢰도 점수 데이터 패킷들을 브로드캐스트하고 확인을 기대하지 않는 경우에, 컴퓨팅 디바이스는 그들의 핫워드 신뢰도 점수들을, 500 밀리초와 같은 특정량의 시간 동안, 또는 컴퓨팅 디바이스가 어떤 것이든 맨 먼저 오는 더 높은 핫워드 신뢰도 점수를 수신할 때까지, 계속 브로드캐스트할 수 있다. 예를 들어, 컴퓨팅 디바이스(110)는 0.45의 핫워드 신뢰도 점수를 계산하고 신뢰도 점수 데이터 패킷(134)을 브로드캐스트하기 시작한다. 300 밀리초 후에, 컴퓨팅 디바이스(110)는 신뢰도 점수 데이터 패킷(130)을 수신하고 신뢰도 점수 데이터 패킷(134)의 브로드캐스트를 중지하는데, 그 이유는 신뢰도 점수 데이터 패킷(130)으로부터의 0.85의 핫워드 신뢰도 점수가 45의 핫워드 신뢰도 점수보다 높기 때문이다. 또 다른 브로드캐스트 예로서, 컴퓨팅 디바이스(106)는 0.45의 핫워드 신뢰도 점수를 계산하고 신뢰도 점수 데이터 패킷(130)을 브로드캐스트하기 시작한다. 500 밀리초 후에, 컴퓨팅 디바이스(106)는 신뢰도 점수 데이터 패킷(130)의 브로드캐스트를 중지하고 핫워드 이후의 음성에 대한 음성 인식의 수행을 시작한다. 컴퓨팅 디바이스(106)는 500 밀리초가 경과하기 전에 신뢰도 점수 데이터 패킷들(132 및 134)을 수신할 수 있지만, 신뢰도 점수 데이터 패킷들(132 및 134) 내의 핫워드 신뢰도 점수들이 0.85보다 낮기 때문에, 컴퓨팅 디바이스 500 밀리초가 경과한 후까지 계속 기다린다.
일부 구현들에서, 컴퓨팅 디바이스가 더 높은 핫워드 신뢰도 점수를 수신할 때까지 컴퓨팅 디바이스는 핫워드 이후의 음성에 대한 음성 인식의 수행을 시작할 수 있다. 핫워더는 핫워드 신뢰도 점수를 계산하고, 핫워드 신뢰도 점수가 임계치를 만족시키면, 컴퓨팅 디바이스는 핫워드 이후의 음성에 대한 음성 인식을 수행한다. 컴퓨팅 디바이스는 음성 인식에 대한 어떤 지시도 사용자에 표시하지 않고 음성 인식을 수행할 수 있다. 이것은 그렇게 하는 것이 컴퓨팅 디바이스가 가장 높은 핫워드 점수를 계산한 것을 확인할 때까지 컴퓨팅 디바이스가 기다리는 경우보다 더 빠르게 컴퓨팅 디바이스가 음성 인식에 기초한 결과들을 사용자에게 표시하는 것을 허용하면서도 컴퓨팅 디바이스가 활성이 아니라는 인상을 사용자에 주기 때문에 바람직할 수 있다. 예로서, 컴퓨팅 디바이스(106)는 0.85의 핫워드 신뢰도 점수를 계산하고 핫워드 이후의 음성에 대한 음성 인식의 수행을 시작한다. 컴퓨팅 디바이스(106)는 신뢰도 점수 데이터 패킷들(132 및 134)을 수신하고 0.85의 핫워드 신뢰도 점수가 가장 높다는 것을 결정한다. 컴퓨팅 디바이스(106)는 핫워드 이후의 음성에 대한 음성 인식을 계속 수행하고 그 결과들을 사용자에 제시한다. 컴퓨팅 디바이스(108)에 대해, 핫워더(126)는 0.6의 핫워드 신뢰도 점수를 계산하고, 컴퓨팅 디바이스(108)는 사용자에 데이터를 표시하지 않고 핫워드 이후의 음성에 대한 음성 인식의 수행을 시작한다. 컴퓨팅 디바이스(108)가 0.85의 핫워드 신뢰도를 포함하는 신뢰도 점수 데이터 패킷(130)을 수신하면, 컴퓨팅 디바이스는 음성 인식의 수행을 중지한다. 어떤 데이터도 사용자에 표시되지 않고, 사용자는 컴퓨팅 디바이스(108)가 "슬립" 상태에 남아 있었다는 인상을 받을 가능성이 있다.
일부 구현들에서, 핫워드가 말해진 후에 어떤 대기 시간도 피하기 위해, 핫워드의 끝 전에, 예컨대, 부분적인 핫워드에 대해 핫워더로부터 점수들이 보고될 수 있다. 예를 들어, 사용자가 "Ok 컴퓨터"를 말하고 있을 때, 컴퓨팅 디바이스는 사용자가 "OK 컴(OK comp)"을 말하는 것을 완료하면 부분적인 핫워드 신뢰도 점수를 계산할 수 있다. 그 후 컴퓨팅 디바이스는 부분적인 핫워드 신뢰도 점수를 다른 컴퓨팅 디바이스들과 공유할 수 있다. 가장 높은 부분적인 핫워드 신뢰도 점수를 가진 컴퓨팅 디바이스는 사용자의 음성을 계속 처리할 수 있다.
일부 구현들에서, 컴퓨팅 디바이스가 핫워드 신뢰도 점수가 임계치를 만족시키는 것을 결정할 때 컴퓨팅 디바이스는, 예컨대, 특정 주파수 또는 주파수 패턴의, 가청음 또는 불가청음을 낼 수 있다. 그 음은 다른 컴퓨팅 디바이스들에게, 컴퓨팅 디바이스가 핫워드 이후의 오디오 데이터를 계속 처리할 것임을 신호할 것이다. 다른 컴퓨팅 디바이스들은 이 음을 수신하고 오디오 데이터의 처리를 중단할 것이다. 예를 들어, 사용자는 "Ok 컴퓨터"를 말한다. 컴퓨팅 디바이스들 중 하나가 임계치 이상인 핫워드 신뢰도 점수를 계산한다. 컴퓨팅 디바이스가 핫워드 신뢰도 점수가 임계치 이상인 것을 결정하면, 컴퓨팅 디바이스는 18 킬로헤르츠의 음을 낸다. 사용자 근처에 있는 다른 컴퓨팅 디바이스들도 핫워드 신뢰도 점수를 계산중일 수 있고 다른 컴퓨팅 디바이스들이 음을 수신할 때 핫워드 신뢰도 점수를 계산하는 도중일 수 있다. 다른 컴퓨팅 디바이스들이 음을 수신할 때, 다른 컴퓨팅 디바이스들은 사용자의 음성의 처리를 중단한다. 일부 구현들에서, 컴퓨팅 디바이스는 가청음 또는 불가청음에 핫워드 신뢰도 점수를 인코딩할 수 있다. 예를 들어, 핫워드 신뢰도 점수가 0.5이면, 컴퓨팅 디바이스는 0.5의 점수를 인코딩하는 주파수 패턴을 포함하는 가청음 또는 불가청음을 생성할 수 있다.
일부 구현들에서, 컴퓨팅 디바이스들은 상이한 오디오 메트릭들을 이용하여, 사용자의 음성의 처리를 계속할 컴퓨팅 디바이스를 선택할 수 있다. 예를 들어, 컴퓨팅 디바이스들은 소리 세기(loudness)를 이용하여, 어느 컴퓨팅 디바이스가 사용자의 음성을 계속 처리할 것인지를 결정할 수 있다. 가장 큰 음성을 검출하는 컴퓨팅 디바이스는 사용자의 음성을 계속 처리할 수 있다. 또 다른 예로서, 현재 사용중인 또는 활성 디스플레이를 가진 컴퓨팅 디바이스는 다른 컴퓨팅 디바이스들에게, 그것이 핫워드를 검출하면 사용자의 음성의 계속 처리할 것임을 통지할 수 있다.
일부 구현들에서, 사용자가 말하고 있는 동안 사용자의 근처에 있는 각각의 컴퓨팅 디바이스는 오디오 데이터를 수신하고 음성 인식을 개선하기 위해 그 오디오 데이터를 서버에 송신한다. 각각의 컴퓨팅 디바이스는 사용자의 음성에 대응하는 오디오 데이터를 수신할 수 있다. 하나의 컴퓨팅 디바이스만이 사용자에게 사용자의 음성을 처리하고 있는 것으로 보이겠지만, 각각의 컴퓨팅 디바이스가 오디오 데이터를 서버에 송신할 수 있다. 그 후 서버는 각각의 컴퓨팅 디바이스로부터 수신되는 오디오 데이터를 이용하여 음성 인식을 개선할 수 있는데, 그 이유는 서버가 동일한 발성에 대응하는 상이한 오디오 샘플들을 비교할 수 있기 때문이다. 예를 들어, 사용자가 "Ok 컴퓨터, 우유를 사는 것을 상기시켜달라(Ok computer, remind me to buy milk)"고 말한다. 사용자가 "Ok 컴퓨터"를 말하는 것을 완료하면, 근처의 컴퓨팅 디바이스들은 어느 컴퓨팅 디바이스가 가장 높은 핫워드 신뢰도 점수를 가지는지를 결정했을 가능성이 있을 것이고, 해당 컴퓨팅 디바이스는 사용자가 "우유를 사는 것을 상기시켜달라"는 단어들을 말할 때 그 단어들을 처리하고 그에 응답할 것이다. 다른 컴퓨팅 디바이스들도 "우유를 사는 것을 상기시켜달라"를 수신할 것이다. 다른 컴퓨팅 디바이스는 "우유를 사는 것을 상기시켜달라"는 발성에 응답하지 않겠지만, 다른 컴퓨팅 디바이스들은 "우유를 사는 것을 상기시켜달라"에 대응하는 오디오 데이터를 서버에 송신할 수 있다. "우유를 사는 것을 상기시켜달라"에 응답하는 컴퓨팅 디바이스들도 그것의 오디오 데이터를 서버에 송신할 수 있다. 서버는 그 오디오 데이터를 처리하여 음성 인식을 개선할 수 있는데, 그 이유는 서버가 동일한 "우유를 사는 것을 상기시켜달라" 발성에 대응하는 상이한 컴퓨팅 디바이스들로부터의 상이한 오디오 샘플들을 가지기 때문이다.
도 2는 핫워드 검출을 위한 예시적인 프로세스(200)의 도면이다. 프로세스(200)는 도 1로부터의 컴퓨팅 디바이스(108)와 같은 컴퓨팅 디바이스에 의해 수행될 수 있다. 프로세스(200)는 발성이 핫워드를 포함할 가능성에 대응하는 값을 계산하고 그 값을 다른 컴퓨팅 디바이스들에 의해 계산된 다른 값들과 비교하여 핫워드 이후의 발성의 부분에 대한 음성 인식을 수행할지 여부를 결정한다.
컴퓨팅 디바이스는 발성에 대응하는 오디오 데이터를 수신한다(210). 사용자가 발성을 말하고 컴퓨팅 디바이스의 마이크가 그 발성의 오디오 데이터를 수신한다. 컴퓨팅 디바이스는 오디오 데이터를 버터링, 필터링, 엔드포인팅, 및 디지털화하는 것에 의해 오디오 데이터를 처리한다. 예로서, 사용자는 "Ok, 컴퓨터"를 발성할 수 있고, 컴퓨팅 디바이스의 마이크는 "Ok, 컴퓨터"에 대응하는 오디오 데이터를 수신할 것이다. 컴퓨팅 디바이스의 오디오 서브시스템이 컴퓨팅 디바이스에 의한 추가 처리를 위해 오디오 데이터를 샘플링, 버퍼링, 필터링, 및 엔드포인팅할 것이다.
컴퓨팅 디바이스는 발성이 핫워드를 포함할 가능성에 대응하는 제1 값을 결정한다(220). 컴퓨팅 디바이스는 발성의 오디오 데이터를 핫워드를 포함하는 오디오 샘플들의 그룹과 비교하는 것에 의해 또는 발성의 오디오 데이터의 오디오 특성들을 분석하는 것에 의해, 핫워드 신뢰도 점수라고 불릴 수 있는, 제1 값을 결정한다. 제1 값은 0 내지 1의 스케일로 정규화될 수 있고, 여기서 1은 발성이 핫워드를 포함할 가장 높은 가능성을 나타낸다. 일부 구현들에서, 컴퓨팅 디바이스는 제2 컴퓨팅 디바이스를 식별하고 제2 컴퓨팅 디바이스가 핫워드를 포함하는 발성들에 응답하도록 구성되고 핫워드에 응답하도록 사용자에 의해 구성된 것을 결정한다. 사용자는 컴퓨팅 디바이스와 제2 컴퓨팅 디바이스 양쪽 모두에 로그인되어 있을 수 있다. 컴퓨팅 디바이스와 제2 컴퓨팅 디바이스 양쪽 모두가 사용자의 음성에 응답하도록 구성될 수 있다. 컴퓨팅 디바이스와 제2 컴퓨팅 디바이스는 동일한 로컬 영역 네트워크에 연결될 수 있다. 컴퓨팅 디바이스와 제2 컴퓨팅 디바이스는 양쪽 모두가, GPS 또는 신호 세기에 의해 결정된 바와 같이, 10 미터와 같은, 서로의 특정 거리 이내에 위치할 수 있다. 예를 들어, 이 컴퓨팅 디바이스들은 단거리 무선에 의해 통신할 수 있다. 컴퓨팅 디바이스는 제2 컴퓨팅 디바이스에 의해 송신되는 신호의 세기를 5 dBm으로서 검출하고 그것을 5 미터와 같은 대응하는 거리로 번역할 수 있다.
컴퓨팅 디바이스는 발성이 핫워드를 포함할 가능성에 대응하는 제2 값 - 제2 값은 제2 컴퓨팅 디바이스에 의해 결정됨 - 을 수신한다(230). 제2 컴퓨팅 디바이스는 제2 컴퓨팅 디바이스의 마이크를 통하여 발성을 수신한다. 제2 컴퓨팅 디바이스는 발성에 대응하는 수신된 오디오 데이터를 처리하고 제2 값 또는 제2 핫워드 신뢰도 점수를 결정한다. 제2 핫워드 신뢰도 점수는 제2 컴퓨팅 디바이스에 의해 계산된, 발성이 핫워드를 포함할 가능성을 반영한다. 일부 구현들에서, 컴퓨팅 디바이스는 다음의 기법들 중 하나 이상을 이용하여 제1 값을 제2 컴퓨팅 디바이스에 송신한다. 컴퓨팅 디바이스는 인터넷을 통하여 액세스 가능한 서버를 통하여, 로컬 영역 네트워크에 위치하는 서버를 통하여, 또는 로컬 영역 네트워크 또는 단거리 무선을 통하여 직접, 제1 값을 제2 컴퓨팅 디바이스에 송신할 수 있다. 컴퓨팅 디바이스는 제1 값을 제2 컴퓨팅 디바이스에게만 송신할 수 있거나, 컴퓨팅 디바이스는 다른 컴퓨팅 디바이스들도 제1 값을 수신할 수 있도록 제1 값을 브로드캐스트할 수 있다. 컴퓨팅 디바이스는 컴퓨팅 디바이스가 제1 값을 송신한 것과 동일한 또는 상이한 기법을 이용하여 제2 컴퓨팅 디바이스로부터 제2 값을 수신할 수 있다.
일부 구현들에서, 컴퓨팅 디바이스는 발성에 대한 소리 세기 점수 또는 발성에 대한 신호 대 잡음비를 계산할 수 있다. 컴퓨팅 디바이스는 소리 세기 점수, 신호 대 잡음비, 및 핫워드 신뢰도 점수를 조합하여, 다른 컴퓨팅 디바이스들로부터의 유사한 값들과 비교하기 위한 새로운 값을 결정할 수 있다. 예를 들어, 컴퓨팅 디바이스는 핫워드 신뢰도 점수 및 신호 대 잡음비를 계산할 수 있다. 그 후 컴퓨팅 디바이스는 그 2개의 점수를 조합하고 다른 컴퓨팅 디바이스들로부터의 유사하게 계산된 점수들과 비교할 수 있다. 일부 구현들에서, 컴퓨팅 디바이스는 상이한 점수들을 계산하고 각각의 점수를 비교를 위해 다른 컴퓨팅 디바이스들에 송신할 수 있다. 예를 들어, 컴퓨팅 디바이스는 발성에 대한 소리 세기 점수 및 핫워드 신뢰도 점수를 계산할 수 있다. 그 후 컴퓨팅 디바이스는 그 점수들을 비교를 위해 다른 컴퓨팅 디바이스들에 송신할 수 있다.
일부 구현들에서, 컴퓨팅 디바이스는 제1 값과 함께 제1 식별자를 송신할 수 있다. 이 식별자는 컴퓨팅 디바이스의 주소, 사용자에 의해 주어진 컴퓨팅 디바이스의 이름, 또는 컴퓨팅 디바이스의 위치 중 하나 이상에 기초할 수 있다. 예를 들어, 식별자는 "69.123.132.43" 또는 "전화"일 수 있다. 유사하게, 제2 컴퓨팅 디바이스는 제2 값과 함께 제2 식별자를 송신할 수 있다. 일부 구현들에서, 컴퓨팅 디바이스는 제1 식별자를, 컴퓨팅 디바이스가 핫워드에 응답하도록 구성된 것으로 이전에 식별한 특정 컴퓨팅 디바이스들에 송신할 수 있다. 예를 들어, 컴퓨팅 디바이스는, 핫워드에 응답할 수 있는 것에 더하여, 컴퓨팅 디바이스와 동일한 사용자가 제2 컴퓨팅 디바이스에 로그인되었기 때문에, 제2 컴퓨팅 디바이스를 핫워드에 응답하도록 구성된 것으로 이전에 식별했을 수 있다.
컴퓨팅 디바이스는 제1 값과 제2 값을 비교한다(240). 그 후 컴퓨팅 디바이스는, 비교의 결과에 기초하여, 오디오 데이터에 대한 음성 인식 처리를 개시한다(250). 일부 구현들에서, 예를 들어, 컴퓨팅 디바이스는 제1 값이 제2 값 이상일 때 음성 인식을 개시한다. 사용자가 "ok 컴퓨터, Carol 호출"을 말하면, 컴퓨팅 디바이스는 제1 값이 제2 값 이상이기 때문에, "Carol 호출"에 대한 음성 인식을 수행하는 것에 의해 "Carol 호출"을 처리하기 시작할 것이다. 일부 구현들에서, 컴퓨팅 디바이스는 활성화 상태를 설정한다. 제1 값이 제2 값 이상인 경우에, 컴퓨팅 디바이스는 활성화 상태를 활성 또는 "어웨이크"로서 설정한다. "어웨이크" 상태에서, 컴퓨팅 디바이스는 음성 인식으로부터의 결과들을 표시한다.
일부 구현들에서, 컴퓨팅 디바이스는 제1 값과 제2 값을 비교하고 제1 값이 제2 값 미만인 것을 결정한다. 컴퓨팅 디바이스는, 제1 값이 제2 값 미만이라는 결정에 기초하여, 활성화 상태를 비활성 또는 "슬립"으로서 설정한다. "슬립" 상태에서, 컴퓨팅 디바이스는 사용자에게, 활성이거나 오디오 데이터를 처리하는 것으로 보이지 않는다.
일부 구현들에서, 컴퓨팅 디바이스가 제1 값이 제2 값 이상인 것을 결정할 때, 컴퓨팅 디바이스는 활성화 상태를 활성으로 설정하기 전에 특정량의 시간 동안 기다릴 수 있다. 컴퓨팅 디바이스는 컴퓨팅 디바이스가 다른 컴퓨팅 디바이스로부터 더 높은 값을 수신하지 않을 가능성을 증가시키기 위해 특정량의 시간 동안 기다릴 수 있다. 특정량의 시간은 고정될 수 있거나, 컴퓨팅 디바이스들이 값들을 송수신하는 기법에 따라서 달라질 수 있다. 일부 구현들에서, 컴퓨팅 디바이스가 제1 값이 제2 값 이상인 것을 결정할 때, 컴퓨팅 디바이스는 특정량의 시간 동안 제1 값을 계속 송신할 수 있다. 특정량의 시간 동안 제1 값을 계속 송신하는 것에 의해, 컴퓨팅 디바이스는 제1 값이 다른 컴퓨팅 디바이스들에 의해 수신되는 가능성을 증가시킨다. 컴퓨팅 디바이스가 제1 값이 제2 값 미만인 것을 결정하는 경우에, 컴퓨팅 디바이스는 제1 값의 송신을 중지할 수 있다.
일부 구현들에서, 컴퓨팅 디바이스는 핫워드 이후의 명령을 실행할지를 결정할 때 부가 정보를 고려할 수 있다. 부가 정보의 일 예는 핫워드 이후의 발성의 부분일 수 있다. 전형적으로, 핫워드 이후의 오디오 데이터는 "Sally 호출", "할로윈 영화 재생(play Halloween Movie)", 또는 "70도로 난방 설정(set heat to 70 degrees)"과 같은 컴퓨팅 디바이스에 대한 명령에 대응한다. 컴퓨팅 디바이스는 요청의 타입을 핸들링하는 또는 요청을 핸들링할 수 있는 전형적인 디바이스를 식별할 수 있다. 사람을 호출하는 요청은 전형적으로 미리 프로그램된 전형적인 사용들에 기초하여 또는 디바이스의 사용자의 사용 패턴들에 기초하여 전화에 의해 핸들링될 것이다. 사용자가 전형적으로 태블릿에서 영화를 시청한다면, 태블릿은 영화를 재생하는 요청을 핸들링할 수 있다. 온도조절장치가 온도를 조절할 수 있다면, 온도조절장치는 온도 조절들을 핸들링할 수 있다.
컴퓨팅 디바이스가 핫워드 이후의 발성의 부분을 고려하기 위해, 컴퓨팅 디바이스는 핫워드를 식별할 가능성이 있다면 오디오 데이터에 대한 음성 인식을 개시해야 할 것이다. 컴퓨팅 디바이스는 발성의 명령 부분을 분류하고 해당 분류에서 명령들의 빈도를 계산할 수 있다. 컴퓨팅 디바이스는 그 빈도를 핫워드 신뢰도 점수와 함께 다른 컴퓨팅 디바이스들에 송신할 수 있다. 각각의 컴퓨팅 디바이스는 그 빈도들 및 핫워드 신뢰도 점수들을 이용하여, 핫워드 이후의 명령을 실행할지를 결정할 수 있다.
예를 들어, 사용자가 "OK 컴퓨터, 마이클 잭슨 재생(play Michael Jackson)"을 발성하면, 컴퓨팅 디바이스가 사용자가 시간의 20%를 음악을 청취하는 데 사용하는 전화라면, 컴퓨팅 디바이스는 해당 정보를 핫워드 신뢰도 점수와 함께 송신할 수 있다. 사용자가 시간의 5%를 음악을 청취하는 데 사용하는 태블릿과 같은 컴퓨팅 디바이스는 해당 정보를 핫워드 신뢰도 점수와 함께 다른 컴퓨팅 디바이스들에 송신할 수 있다. 컴퓨팅 디바이스들은 핫워드 신뢰도 점수와 음악 재생 시간의 백분율의 조합을 이용하여, 명령을 실행할지를 결정할 수 있다.
도 3은 본 명세서에 기술된 기법들을 구현하기 위해 이용될 수 있는 컴퓨팅 디바이스(300) 및 모바일 컴퓨팅 디바이스(350)의 예를 보여준다. 컴퓨팅 디바이스(300)는 랩톱, 데스크톱, 워크스테이션, 개인 휴대 정보 단말기, 서버, 블레이드 서버, 메인프레임, 및 다른 적절한 컴퓨터와 같은, 다양한 형태의 디지털 컴퓨터들을 나타내기 위해 의도된 것이다. 모바일 컴퓨팅 디바이스(350)는 개인 휴대 정보 단말기, 휴대 전화, 스마트폰, 및 다른 유사한 컴퓨팅 디바이스들과 같은, 다양한 형태의 모바일 디바이스들을 나타내기 위해 의도된 것이다. 여기에 도시된 컴포넌트들, 그들의 연결들 및 관계들, 및 그들의 기능들은 단지 예들로 의도된 것이고, 제한적인 것으로 의도된 것은 아니다.
컴퓨팅 디바이스(300)는 프로세서(302), 메모리(304), 저장 디바이스(306), 메모리(304) 및 다수의 고속 확장 포트들(310)에 연결되는 고속 인터페이스(308), 및 저속 확장 포트(314) 및 저장 디바이스(306)에 연결되는 저속 인터페이스(312)를 포함한다. 프로세서(302), 메모리(304), 저장 디바이스(306), 고속 인터페이스(308), 고속 확장 포트들(310), 및 저속 인터페이스(312) 각각은 다양한 버스들을 이용하여 상호 연결되고, 공통의 마더보드 상에 또는 적절하게 다른 방식들로 장착될 수 있다. 프로세서(302)는 고속 인터페이스(308)에 결합된 디스플레이(316)와 같은, 외부 입출력 디바이스에서 GUI에 대한 그래픽 정보를 표시하기 위해 메모리(304)에 또는 저장 디바이스(306)에 저장된 명령어들을 포함하는, 컴퓨팅 디바이스(300) 내에서 실행하기 위한 명령어들을 처리할 수 있다. 다른 구현들에서는, 다수의 프로세서들 및/또는 버스들이, 적절하게, 다수의 메모리들 및 메모리 타입들과 함께 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스들이 연결될 수 있고, 각각의 디바이스는 필요한 동작들의 부분들을 제공한다(예컨대, 서버 뱅크, 블레이드 서버들의 그룹, 또는 멀티-프로세서 시스템으로서).
메모리(304)는 컴퓨팅 디바이스(300) 내의 정보를 저장한다. 일부 구현들에서, 메모리(304)는 휘발성 메모리 유닛 또는 유닛들이다. 일부 구현들에서, 메모리(304)는 비휘발성 메모리 유닛 또는 유닛들이다. 메모리(304)는 또한 자기 또는 광 디스크와 같은, 다른 형태의 컴퓨터-판독가능 매체일 수 있다.
저장 디바이스(306)는 컴퓨팅 디바이스(300)를 위한 대용량 저장을 제공할 수 있다. 일부 구현들에서, 저장 디바이스(306)는 플로피 디스크 디바이스, 하드 디스크 디바이스, 광 디스크 디바이스, 또는 테이프 디바이스, 플래시 메모리 또는 다른 유사한 솔리드 스테이트 메모리 디바이스, 또는 저장 영역 네트워크 또는 다른 구성들에서의 디바이스들을 포함하는, 디바이스들의 어레이와 같은, 컴퓨터-판독가능 매체이거나 이를 포함할 수 있다. 명령어들은 정보 캐리어에 저장될 수 있다. 명령어들은, 하나 이상의 처리 디바이스들(예를 들어, 프로세서(302))에 의해 실행될 때, 전술한 것들과 같은 하나 이상의 방법을 수행한다. 명령어들은 또한 컴퓨터- 또는 머신-판독가능 매체들(예를 들어, 메모리(304), 저장 디바이스(306), 또는 프로세서(302)의 메모리)과 같은 하나 이상의 저장 디바이스에 의해 저장될 수 있다.
고속 인터페이스(308)는 컴퓨팅 디바이스(300)를 위한 대역폭 집중적인 동작들을 관리하는 반면, 저속 인터페이스(312)는 저대역폭 집중적인 동작들을 관리한다. 이러한 기능들의 할당은 단지 예이다. 일부 구현들에서, 고속 인터페이스(308)는 메모리(304), 디스플레이(316)에(예컨대, 그래픽 프로세서 또는 가속기를 통하여), 그리고 다양한 확장 카드들(미도시)을 수용할 수 있는, 고속 확장 포트들(310)에 결합된다. 구현에서, 저속 인터페이스(312)는 저장 디바이스(306) 및 저속 확장 포트(314)에 결합된다. 다양한 통신 포트들(예컨대, USB, 블루투스, 이더넷, 무선 이더넷)을 포함할 수 있는, 저속 확장 포트(314)는 키보드, 포인팅 디바이스, 스캐너와 같은 하나 이상의 입출력 디바이스에, 또는 스위치 또는 라우터와 같은 네트워킹 디바이스에(예컨대, 네트워크 어댑터를 통하여) 결합될 수 있다.
컴퓨팅 디바이스(300)는 도면에 도시된 바와 같이, 다수의 상이한 형태들로 구현될 수 있다. 예를 들어, 그것은 표준 서버(320)로서, 또는 그러한 서버들의 그룹에서 여러 번 구현될 수 있다. 게다가, 그것은 랩톱 컴퓨터(322)와 같은 개인용 컴퓨터로 구현될 수 있다. 그것은 또한 랙 서버 시스템(324)의 일부로서 구현될 수 있다. 대안적으로, 컴퓨팅 디바이스(300)로부터의 컴포넌트들은 모바일 컴퓨팅 디바이스(350)와 같은, 모바일 디바이스 내의 다른 컴포넌트들(미도시)과 조합될 수 있다. 그러한 디바이스들 각각은 컴퓨팅 디바이스(300)와 모바일 컴퓨팅 디바이스(350) 중 하나 이상을 포함할 수 있고, 전체 시스템은 서로 통신하는 다수의 컴퓨팅 디바이스들로 구성될 수 있다.
모바일 컴퓨팅 디바이스(350)은, 여러 컴포넌트들 중에서, 프로세서(352), 메모리(364), 디스플레이(354)와 같은 입출력 디바이스, 통신 인터페이스(366), 및 트랜시버(368)를 포함한다. 모바일 컴퓨팅 디바이스(350)는 또한 부가 저장을 제공하기 위해, 마이크로-드라이브 또는 다른 디바이스와 같은 저장 디바이스를 구비할 수 있다. 프로세서(352), 메모리(364), 디스플레이(354), 통신 인터페이스(366), 및 트랜시버(368) 각각은 다양한 버스들을 이용하여 상호 연결되고, 컴포넌트들 중 여러 개가 공통 마더보드 상에 또는 적절하게 다른 방식들로 장착될 수 있다.
프로세서(352)는 메모리(364)에 저장된 명령어들을 포함하는, 모바일 컴퓨팅 디바이스(350) 내의 명령어들을 실행할 수 있다. 프로세서(352)는 개별적인 다수의 아날로그 및 디지털 프로세서들을 포함하는 칩들의 칩셋으로 구현될 수 있다. 프로세서(352)는, 예를 들어, 사용자 인터페이스들의 제어, 모바일 컴퓨팅 디바이스(350)에 의해 실행되는 애플리케이션들, 및 모바일 컴퓨팅 디바이스(350)에 의한 무선 통신과 같은, 모바일 컴퓨팅 디바이스(350)의 다른 컴포넌트들의 코디네이션(coordination)을 제공할 수 있다.
프로세서(352)는 디스플레이(354)에 결합된 제어 인터페이스(358) 및 디스플레이 인터페이스(356)를 통하여 사용자와 통신할 수 있다. 디스플레이(354)는, 예를 들어, TFT(Thin-Film-Transistor Liquid Crystal Display) 디스플레이 또는 OLED(Organic Light Emitting Diode) 디스플레이, 또는 다른 적절한 디스플레이 기술일 수 있다. 디스플레이 인터페이스(356)는 그래픽 및 다른 정보를 사용자에 제시하도록 디스플레이(354)를 구동하기 위한 적절한 회로를 포함할 수 있다. 제어 인터페이스(358)는 사용자로부터 명령들을 수신하고 이들을 프로세서(352)에 제출하기 위해 변환할 수 있다. 게다가, 모바일 컴퓨팅 디바이스(350)와 다른 디바이스들의 근거리 통신을 가능하게 하기 위해, 외부 인터페이스(362)가 프로세서(352)와의 통신을 제공할 수 있다. 외부 인터페이스(362)는, 예를 들어, 일부 구현들에서 유선 통신을, 또는 다른 구현들에서 무선 통신을 제공할 수 있고, 다수의 인터페이스들이 또한 사용될 수 있다.
메모리(364)는 모바일 컴퓨팅 디바이스(350) 내의 정보를 저장한다. 메모리(364)는 컴퓨터-판독가능 매체 또는 매체들, 휘발성 메모리 유닛 또는 유닛들, 또는 비휘발성 메모리 유닛 또는 유닛들 중 하나 이상으로 구현될 수 있다. 확장 메모리(374)가 또한 제공되고, 예를 들어, SIMM(Single In Line Memory Module) 카드 인터페이스를 포함할 수 있는, 확장 인터페이스(372)를 통하여 모바일 컴퓨팅 디바이스(350)에 연결될 수 있다. 확장 메모리(374)는 모바일 컴퓨팅 디바이스(350)를 위한 추가 저장 공간을 제공할 수 있고, 또는 모바일 컴퓨팅 디바이스(350)를 위한 애플리케이션들 또는 다른 정보를 또한 저장할 수 있다. 구체적으로, 확장 메모리(374)는 전술한 프로세스들을 수행하는 또는 보충하는 명령어들을 포함할 수 있고, 보안 정보를 또한 포함할 수 있다. 따라서, 예를 들어, 확장 메모리(374)는 모바일 컴퓨팅 디바이스(350)를 위한 보안 모듈로서 제공될 수 있고, 모바일 컴퓨팅 디바이스(350)의 안전한 사용을 허용하는 명령어들로 프로그램될 수 있다. 게다가, 식별 정보를 SIMM 카드에 해킹 불가능한 방식으로 두는 것과 같은, 부가 정보와 함께, SIMM 카드들을 통해 안전한 애플리케이션들이 제공될 수 있다.
메모리는, 아래 논의된 바와 같이, 예를 들어, 플래시 메모리 및/또는 NVRAM 메모리(비휘발성 랜덤 액세스 메모리)를 포함할 수 있다. 일부 구현들에서, 명령어들은 정보 캐리어에 저장될 수 있다. 명령어들은, 하나 이상의 처리 디바이스들(예를 들어, 프로세서(352))에 의해 실행될 때, 전술한 것들과 같은 하나 이상의 방법을 수행한다. 명령어들은 또한 하나 이상의 컴퓨터- 또는 머신-판독가능 매체들(예를 들어, 메모리(364), 확장 메모리(374), 또는 프로세서(352)의 메모리)과 같은 하나 이상의 저장 디바이스에 의해 저장될 수 있다. 일부 구현들에서, 명령어들은 전파된 신호에서, 예를 들어, 트랜시버(368) 또는 외부 인터페이스(362)를 통하여 수신될 수 있다.
모바일 컴퓨팅 디바이스(350)는 필요할 경우 디지털 신호 처리 회로를 포함할 수 있는, 통신 인터페이스(366)를 통하여 무선 통신할 수 있다. 통신 인터페이스(366)는, 특히, GSM 음성 통화(Global System for Mobile communications), SMS(Short Message Service), EMS(Enhanced Messaging Service), 또는 MMS 메시징(Multimedia Messaging Service), CDMA(code division multiple access), TDMA(time division multiple access), PDC(Personal Digital Cellular), WCDMA(Wideband Code Division Multiple Access), CDMA2000, 또는 GPRS(General Packet Radio Service)와 같은, 다양한 모드들 또는 프로토콜들에서의 통신들을 제공할 수 있다. 그러한 통신은, 예를 들어, 무선 주파수를 이용하여 트랜시버(368)를 통하여 발생할 수 있다. 게다가, 예를 들어, 블루투스, WiFi, 또는 다른 그러한 트랜시버(미도시)를 이용하여 단거리 통신이 발생할 수 있다. 게다가, GPS(Global Positioning System) 수신기 모듈(370)은 부가 내비게이션- 및 위치-관련 무선 데이터를 모바일 컴퓨팅 디바이스(350)에 제공할 수 있고, 그 데이터는 모바일 컴퓨팅 디바이스(350)에서 실행중인 애플리케이션들에 의해 적절하게 사용될 수 있다.
모바일 컴퓨팅 디바이스(350)는 또한 사용자로부터의 구두 정보를 수신하고 이를 사용 가능한 디지털 정보로 변환할 수 있는, 오디오 코덱(360)을 이용하여 들을 수 있게 통신할 수 있다. 오디오 코덱(360)은 마찬가지로, 예를 들어 스피커를 통하여, 예컨대, 모바일 컴퓨팅 디바이스(350)의 핸드세트에서, 사용자를 위한 가청음을 생성할 수 있다. 그러한 음은 음성 전화 통화들로부터의 음을 포함할 수 있고, 녹음된 음(예컨대, 음성 메시지, 음악 파일 등)을 포함할 수 있고, 또한 모바일 컴퓨팅 디바이스(350)에서 동작하는 애플리케이션들에 의해 실행된 음을 포함할 수 있다.
모바일 컴퓨팅 디바이스(350)는 도면에 도시된 바와 같이, 다수의 상이한 형태들로 구현될 수 있다. 예를 들어, 그것은 휴대 전화(380)로서 구현될 수 있다. 그것은 또한 스마트폰(382), 개인 휴대 정보 단말기, 또는 다른 유사한 모바일 디바이스의 일부로서 구현될 수 있다.
본 명세서에 기술된 시스템들 및 기법들의 다양한 구현들은 디지털 전자 회로, 집적 회로, 특수하게 설계된 ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합들로 실현될 수 있다. 이 다양한 구현들은 저장 시스템, 적어도 하나의 입력 디바이스, 및 적어도 하나의 출력 디바이스로부터 데이터 및 명령어들을 수신하도록 그리고 이들에 데이터 및 명령어들을 송신하도록 결합된, 특수 또는 범용일 수 있는, 적어도 하나의 프로그램가능 프로세서를 포함하는 프로그램가능 시스템에서 실행 가능한 그리고/또는 해석 가능한 하나 이상의 컴퓨터 프로그램에서의 구현을 포함할 수 있다.
이 컴퓨터 프로그램들(프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 또는 코드라고도 알려짐)은 프로그램가능 프로세서를 위한 머신 명령어들을 포함하고, 고급 절차 및/또는 개체 지향 프로그래밍 언어로, 그리고/또는 어셈블리/기계어로 구현될 수 있다. 본 명세서에서 사용될 때, 머신-판독가능 매체 및 컴퓨터-판독가능 매체라는 용어들은 머신-판독가능 신호로서 머신 명령어들을 수신하는 머신-판독가능 저장 매체를 포함하여, 프로그램가능 프로세서에 머신 명령어들 및/또는 데이터를 제공하기 위해 이용되는 장치 및/또는 디바이스(예컨대, 자기 디스크들, 광 디스크들, 메모리, 프로그램가능 논리 디바이스들(PLD들))를 포함하는 임의의 저장 매체를 지칭한다. 머신-판독가능 신호라는 용어는 머신 명령어들 및/또는 데이터를 프로그램가능 프로세서에 제공하기 위해 사용되는 임의의 신호를 지칭한다.
사용자와의 상호 작용을 제공하기 위해, 본 명세서에 기술된 시스템들 및 기법들은 사용자에 정보를 표시하기 위한 디스플레이 디바이스(예컨대, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터) 및 사용자가 컴퓨터에 입력을 제공하기 위해 이용할 수 있는 키보드 및 포인팅 디바이스(예컨대, 마우스 또는 트랙볼)를 가진 컴퓨터에서 구현될 수 있다. 다른 종류의 디바이스들도 사용자와의 상호 작용을 제공하기 위해 사용될 수 있다; 예를 들어, 사용자에 제공되는 피드백은 임의의 형태의 감각 피드백(예컨대, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 사용자로부터의 입력은, 음향, 음성, 또는 촉각 입력을 포함하여, 임의의 형태로 수신될 수 있다.
본 명세서에 기술된 시스템들 및 기법들은 백 엔드 컴포넌트를 포함하는(예컨대, 데이터 서버로서), 또는 미들웨어 컴포넌트(예컨대, 애플리케이션 서버)를 포함하는, 또는 프런트 엔드 컴포넌트(예컨대, 사용자가 본 명세서에 기술된 시스템들 및 기법들의 구현과 상호 작용하기 위해 이용할 수 있는 그래픽 사용자 인터페이스 또는 웹 브라우저를 가진 클라이언트 컴퓨터), 또는 그러한 백 엔드, 미들웨어, 또는 프런트 엔드 컴포넌트들의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트들은 임의의 형태 또는 매체의 디지털 데이터 통신(예컨대, 통신 네트워크)에 의해 상호 연결될 수 있다. 통신 네트워크들의 예들은 로컬 영역 네트워크(LAN), 광역 네트워크(WAN), 및 인터넷을 포함한다.
컴퓨팅 시스템은 클라이언트들 및 서버들을 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있고 전형적으로 통신 네트워크를 통하여 상호 작용한다. 클라이언트와 서버의 관계는 각자의 컴퓨터들에서 실행되고 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램들에 의하여 발생한다.
비록 소수의 구현들이 위에 상세히 기술되었지만, 다른 수정들이 가능하다. 예를 들어, 클라이언트 애플리케이션이 대리자(delegate)(들)에 액세스하는 것으로 기술되지만, 다른 구현들에서 대리자(들)는 하나 이상의 서버에서 실행되는 애플리케이션과 같은, 하나 이상의 프로세서에 의해 구현되는 다른 애플리케이션들에 의해 이용될 수 있다. 게다가, 도면들에 묘사된 논리 흐름들은 바람직한 결과들을 달성하기 위해, 도시된 특정 순서, 또는 순차적인 순서를 요구하지 않는다. 게다가, 다른 액션들이 제공될 수 있고, 기술된 흐름들로부터, 액션들이 제거될 수 있고, 기술된 시스템들에, 다른 컴포넌트들이 추가되거나, 그로부터 제거될 수 있다. 따라서, 다른 구현들이 다음의 청구항들의 범위 안에 있다.

Claims (22)

  1. 복수의 컴퓨팅 디바이스 중 어느 컴퓨팅 디바이스가 자동 음성 인식을 수행할지를 결정하기 위한 컴퓨터 구현 방법으로서,
    제1 컴퓨팅 디바이스에 의해, 발성(utterance)에 대응하는 오디오 데이터를 수신하는 단계;
    상기 오디오 데이터에 대한 자동 음성 인식 처리(automated speech recognition processing)를 시작하기 전에, 오디오 데이터를 특정 핫워드를 포함하는 것으로 또는 상기 특정 핫워드를 포함하지 않는 것으로 분류하는 분류기(classifier)를 이용하여 상기 오디오 데이터를 처리하는 단계;
    오디오 데이터를 특정 핫워드를 포함하는 것으로 또는 상기 특정 핫워드를 포함하지 않는 것으로 분류하는 상기 분류기를 이용하여 상기 오디오 데이터를 처리하는 것에 기초하여, 상기 발성이 상기 특정 핫워드를 포함할 제1 가능성을 반영하는 제1 값을 결정하는 단계;
    제2 컴퓨팅 디바이스에 의해 결정된, 상기 발성이 상기 특정 핫워드를 포함할 제2 가능성을 반영하는 제2 값을 수신하는 단계;
    상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 단계; 및
    상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 것에 기초하여, 상기 오디오 데이터에 대한 자동 음성 인식 처리의 수행을 시작할지를 결정하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 제1 값이 핫워드 점수(hotword score)를 만족시키는 것을 결정하는 단계; 및
    상기 제1 값이 상기 핫워드 점수를 만족시키는 것을 결정하는 것에 기초하여, 상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값을 상기 제2 컴퓨팅 디바이스에 송신하는 단계
    를 포함하는 방법.
  3. 제1항에 있어서,
    상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 것에 기초하여, 상기 제1 컴퓨팅 디바이스의 활성화 상태를 결정하는 단계를 포함하는 방법.
  4. 제3항에 있어서, 상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 것에 기초하여, 상기 제1 컴퓨팅 디바이스의 활성화 상태를 결정하는 단계는:
    상기 제1 컴퓨팅 디바이스의 상기 활성화 상태가 활성 상태인 것을 결정하는 단계를 포함하는 방법.
  5. 제1항에 있어서,
    상기 제1 컴퓨팅 디바이스에 의해, 부가 발성에 대응하는 부가 오디오 데이터를 수신하는 단계;
    상기 부가 오디오 데이터에 대한 자동 음성 인식 처리를 시작하기 전에, 오디오 데이터를 특정 핫워드를 포함하는 것으로 또는 상기 특정 핫워드를 포함하지 않는 것으로 분류하는 분류기를 이용하여 상기 부가 오디오 데이터를 처리하는 단계;
    오디오 데이터를 특정 핫워드를 포함하는 것으로 또는 상기 특정 핫워드를 포함하지 않는 것으로 분류하는 상기 분류기를 이용하여 상기 부가 오디오 데이터를 처리하는 것에 기초하여, 상기 부가 발성이 상기 특정 핫워드를 포함할 제3 가능성을 반영하는 제3 값을 결정하는 단계;
    제3 컴퓨팅 디바이스에 의해 결정된, 상기 부가 발성이 상기 특정 핫워드를 포함할 제4 가능성을 반영하는 제4 값을 수신하는 단계;
    상기 부가 발성이 상기 특정 핫워드를 포함할 상기 제3 가능성을 반영하는 상기 제3 값과 상기 부가 발성이 상기 특정 핫워드를 포함할 상기 제4 가능성을 반영하는 상기 제4 값을 비교하는 단계; 및
    상기 부가 발성이 상기 특정 핫워드를 포함할 상기 제3 가능성을 반영하는 상기 제3 값과 상기 부가 발성이 상기 특정 핫워드를 포함할 상기 제4 가능성을 반영하는 상기 제4 값을 비교하는 것에 기초하여, 상기 부가 오디오 데이터에 대한 자동 음성 인식 처리의 수행을 시작할지를 결정하는 단계
    를 포함하는 방법.
  6. 제1항에 있어서,
    제2 컴퓨팅 디바이스에 의해 결정된, 상기 발성이 상기 특정 핫워드를 포함할 제2 가능성을 반영하는 제2 값을 수신하는 단계는:
    서버로부터, 로컬 네트워크를 통하여, 또는 단거리 무선 통신 채널을 통하여, 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 제2 값을 수신하는 단계를 포함하는 방법.
  7. 제1항에 있어서,
    상기 제2 컴퓨팅 디바이스가 상기 특정 핫워드를 포함하는 발성들에 응답하도록 구성된 것을 결정하는 단계를 포함하고,
    상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 단계는 상기 제2 컴퓨팅 디바이스가 상기 특정 핫워드를 포함하는 발성들에 응답하도록 구성된 것을 결정하는 것에 응답하여 수행되는 방법.
  8. 제1항에 있어서,
    제2 컴퓨팅 디바이스에 의해 결정된, 상기 발성이 상기 특정 핫워드를 포함할 제2 가능성을 반영하는 제2 값을 수신하는 단계는:
    상기 제2 컴퓨팅 디바이스의 제2 식별자를 수신하는 단계를 포함하는 방법.
  9. 제4항에 있어서, 상기 오디오 데이터에 대한 자동 음성 인식 처리의 수행을 시작할지를 결정하는 단계는 또한, 상기 발성에 대응하는 상기 오디오 데이터를 수신하는 단계 이후 특정량의 시간이 경과한 것을 결정하는 단계에 기초하는 방법.
  10. 제4항에 있어서,
    상기 활성화 상태가 활성 상태인 것을 결정하는 것에 기초하여, 특정량의 시간 동안, 상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값을 송신하는 단계를 포함하는 방법.
  11. 제1항에 있어서,
    상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 것에 기초하여, 상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값이 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값보다 큰 것을 결정하는 단계를 포함하고,
    상기 오디오 데이터에 대한 자동 음성 인식 처리를 수행할지를 결정하는 단계는:
    상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값이 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값보다 큰 것을 결정하는 것에 기초하여, 상기 오디오 데이터에 대한 자동 음성 인식 처리의 수행을 시작하기로 결정하는 단계를 포함하는 방법.
  12. 제1항에 있어서,
    상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 것에 기초하여, 상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값이 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값보다 작은 것을 결정하는 단계를 포함하고,
    상기 오디오 데이터에 대한 자동 음성 인식 처리를 수행할지를 결정하는 단계는:
    상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값이 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값보다 작은 것을 결정하는 것에 기초하여, 상기 오디오 데이터에 대한 자동 음성 인식 처리의 수행을 시작하지 않기로 결정하는 단계를 포함하는 방법.
  13. 제1항에 있어서, 오디오 데이터를 특정 핫워드를 포함하는 것으로 또는 상기 특정 핫워드를 포함하지 않는 것으로 분류하는 분류기를 이용하여 상기 오디오 데이터를 처리하는 단계는:
    상기 오디오 데이터로부터 필터뱅크 에너지(filterbank energy)들 또는 멜 주파수 켑스트럼 계수(mel-frequency cepstral coefficient)들을 추출하는 단계를 포함하는 방법.
  14. 제1항에 있어서, 오디오 데이터를 특정 핫워드를 포함하는 것으로 또는 상기 특정 핫워드를 포함하지 않는 것으로 분류하는 분류기를 이용하여 상기 오디오 데이터를 처리하는 단계는:
    서포트 벡터 머신(support vector machine) 또는 신경망(neural network)을 이용하여 상기 오디오 데이터를 처리하는 단계를 포함하는 방법.
  15. 컴퓨팅 디바이스로서,
    상기 컴퓨팅 디바이스에 의해 실행될 때, 상기 컴퓨팅 디바이스로 하여금 복수의 컴퓨팅 디바이스 중 어느 컴퓨팅 디바이스가 자동 음성 인식을 수행할지를 결정하기 위한 동작들을 수행하게 하도록 동작 가능한 명령어들을 저장하는 하나 이상의 저장 디바이스를 포함하고, 상기 동작들은:
    제1 컴퓨팅 디바이스에 의해, 발성에 대응하는 오디오 데이터를 수신하는 동작;
    상기 오디오 데이터에 대한 자동 음성 인식 처리를 시작하기 전에, 오디오 데이터를 특정 핫워드를 포함하는 것으로 또는 상기 특정 핫워드를 포함하지 않는 것으로 분류하는 분류기를 이용하여 상기 오디오 데이터를 처리하는 동작;
    오디오 데이터를 특정 핫워드를 포함하는 것으로 또는 상기 특정 핫워드를 포함하지 않는 것으로 분류하는 상기 분류기를 이용하여 상기 오디오 데이터를 처리하는 것에 기초하여, 상기 발성이 상기 특정 핫워드를 포함할 제1 가능성을 반영하는 제1 값을 결정하는 동작;
    제2 컴퓨팅 디바이스에 의해 결정된, 상기 발성이 상기 특정 핫워드를 포함할 제2 가능성을 반영하는 제2 값을 수신하는 동작;
    상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 동작; 및
    상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 것에 기초하여, 상기 오디오 데이터에 대한 자동 음성 인식 처리의 수행을 시작할지를 결정하는 동작
    을 포함하는, 컴퓨팅 디바이스.
  16. 제15항에 있어서, 상기 동작들은:
    상기 제1 값이 핫워드 점수를 만족시키는 것을 결정하는 동작; 및
    상기 제1 값이 상기 핫워드 점수를 만족시키는 것을 결정하는 것에 기초하여, 상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값을 상기 제2 컴퓨팅 디바이스에 송신하는 동작
    을 더 포함하는 컴퓨팅 디바이스.
  17. 제15항에 있어서, 상기 동작들은:
    상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 것에 기초하여, 상기 제1 컴퓨팅 디바이스의 활성화 상태를 결정하는 동작을 더 포함하는 컴퓨팅 디바이스.
  18. 제17항에 있어서, 상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 것에 기초하여, 상기 제1 컴퓨팅 디바이스의 활성화 상태를 결정하는 동작은:
    상기 제1 컴퓨팅 디바이스의 상기 활성화 상태가 활성 상태인 것을 결정하는 동작을 포함하는 컴퓨팅 디바이스.
  19. 제15항에 있어서, 상기 동작들은:
    상기 제1 컴퓨팅 디바이스에 의해, 부가 발성에 대응하는 부가 오디오 데이터를 수신하는 동작;
    상기 부가 오디오 데이터에 대한 자동 음성 인식 처리를 시작하기 전에, 오디오 데이터를 특정 핫워드를 포함하는 것으로 또는 상기 특정 핫워드를 포함하지 않는 것으로 분류하는 분류기를 이용하여 상기 부가 오디오 데이터를 처리하는 동작;
    오디오 데이터를 특정 핫워드를 포함하는 것으로 또는 상기 특정 핫워드를 포함하지 않는 것으로 분류하는 상기 분류기를 이용하여 상기 부가 오디오 데이터를 처리하는 것에 기초하여, 상기 부가 발성이 상기 특정 핫워드를 포함할 제3 가능성을 반영하는 제3 값을 결정하는 동작;
    제3 컴퓨팅 디바이스에 의해 결정된, 상기 부가 발성이 상기 특정 핫워드를 포함할 제4 가능성을 반영하는 제4 값을 수신하는 동작;
    상기 부가 발성이 상기 특정 핫워드를 포함할 상기 제3 가능성을 반영하는 상기 제3 값과 상기 부가 발성이 상기 특정 핫워드를 포함할 상기 제4 가능성을 반영하는 상기 제4 값을 비교하는 동작; 및
    상기 부가 발성이 상기 특정 핫워드를 포함할 상기 제3 가능성을 반영하는 상기 제3 값과 상기 부가 발성이 상기 특정 핫워드를 포함할 상기 제4 가능성을 반영하는 상기 제4 값을 비교하는 것에 기초하여, 상기 부가 오디오 데이터에 대한 자동 음성 인식 처리의 수행을 시작할지를 결정하는 동작
    을 더 포함하는 컴퓨팅 디바이스.
  20. 제15항에 있어서,
    제2 컴퓨팅 디바이스에 의해 결정된, 상기 발성이 상기 특정 핫워드를 포함할 제2 가능성을 반영하는 제2 값을 수신하는 동작은:
    서버로부터, 로컬 네트워크를 통하여, 또는 단거리 무선 통신 채널을 통하여, 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 제2 값을 수신하는 동작을 포함하는 컴퓨팅 디바이스.
  21. 제15항에 있어서, 상기 동작들은:
    상기 제2 컴퓨팅 디바이스가 상기 특정 핫워드를 포함하는 발성들에 응답하도록 구성된 것을 결정하는 동작을 더 포함하고,
    상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 것은 상기 제2 컴퓨팅 디바이스가 상기 특정 핫워드를 포함하는 발성들에 응답하도록 구성된 것을 결정하는 것에 응답하여 수행되는 컴퓨팅 디바이스.
  22. 하나 이상의 컴퓨터에 의해 실행 가능한 명령어들을 포함하는 소프트웨어를 저장하는 컴퓨터 판독가능 저장 매체로서,
    상기 명령어들은, 실행시에, 상기 하나 이상의 컴퓨터로 하여금 복수의 컴퓨팅 디바이스 중 어느 컴퓨팅 디바이스가 자동 음성 인식을 수행할지를 결정하기 위한 동작들을 수행하게 하고, 상기 동작들은:
    제1 컴퓨팅 디바이스에 의해, 발성에 대응하는 오디오 데이터를 수신하는 동작;
    상기 오디오 데이터에 대한 자동 음성 인식 처리를 시작하기 전에, 오디오 데이터를 특정 핫워드를 포함하는 것으로 또는 상기 특정 핫워드를 포함하지 않는 것으로 분류하는 분류기를 이용하여 상기 오디오 데이터를 처리하는 동작;
    오디오 데이터를 특정 핫워드를 포함하는 것으로 또는 상기 특정 핫워드를 포함하지 않는 것으로 분류하는 상기 분류기를 이용하여 상기 오디오 데이터를 처리하는 것에 기초하여, 상기 발성이 상기 특정 핫워드를 포함할 제1 가능성을 반영하는 제1 값을 결정하는 동작;
    제2 컴퓨팅 디바이스에 의해 결정된, 상기 발성이 상기 특정 핫워드를 포함할 제2 가능성을 반영하는 제2 값을 수신하는 동작;
    상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 동작; 및
    상기 발성이 상기 특정 핫워드를 포함할 상기 제1 가능성을 반영하는 상기 제1 값과 상기 발성이 상기 특정 핫워드를 포함할 상기 제2 가능성을 반영하는 상기 제2 값을 비교하는 것에 기초하여, 상기 오디오 데이터에 대한 자동 음성 인식 처리의 수행을 시작할지를 결정하는 동작
    을 포함하는, 컴퓨터 판독가능 저장 매체.
KR1020167021778A 2014-10-09 2015-09-29 다수의 디바이스에서의 핫워드 검출 KR101752119B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462061830P 2014-10-09 2014-10-09
US62/061,830 2014-10-09
US14/675,932 2015-04-01
US14/675,932 US9318107B1 (en) 2014-10-09 2015-04-01 Hotword detection on multiple devices
PCT/US2015/052860 WO2016057268A1 (en) 2014-10-09 2015-09-29 Hotword detection on multiple devices

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020167022701A Division KR101832648B1 (ko) 2014-10-09 2015-09-29 다수의 디바이스에서의 핫워드 검출

Publications (2)

Publication Number Publication Date
KR20160101198A KR20160101198A (ko) 2016-08-24
KR101752119B1 true KR101752119B1 (ko) 2017-06-28

Family

ID=54330874

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020167021778A KR101752119B1 (ko) 2014-10-09 2015-09-29 다수의 디바이스에서의 핫워드 검출
KR1020167022701A KR101832648B1 (ko) 2014-10-09 2015-09-29 다수의 디바이스에서의 핫워드 검출

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020167022701A KR101832648B1 (ko) 2014-10-09 2015-09-29 다수의 디바이스에서의 핫워드 검출

Country Status (7)

Country Link
US (8) US9318107B1 (ko)
EP (5) EP4280210A3 (ko)
JP (7) JP6208376B2 (ko)
KR (2) KR101752119B1 (ko)
CN (2) CN111028826B (ko)
DE (1) DE202015010012U1 (ko)
WO (1) WO2016057268A1 (ko)

Families Citing this family (359)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10032452B1 (en) * 2016-12-30 2018-07-24 Google Llc Multimodal transmission of packetized data
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US10013986B1 (en) * 2016-12-30 2018-07-03 Google Llc Data structure pooling of voice activated data packets
US11017428B2 (en) 2008-02-21 2021-05-25 Google Llc System and method of data transmission rate adjustment
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10776830B2 (en) 2012-05-23 2020-09-15 Google Llc Methods and systems for identifying new computers and providing matching services
US10152723B2 (en) 2012-05-23 2018-12-11 Google Llc Methods and systems for identifying new computers and providing matching services
US10735552B2 (en) 2013-01-31 2020-08-04 Google Llc Secondary transmissions of packetized data
US10650066B2 (en) 2013-01-31 2020-05-12 Google Llc Enhancing sitelinks with creative content
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9589564B2 (en) 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9257120B1 (en) 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
KR20160023089A (ko) * 2014-08-21 2016-03-03 엘지전자 주식회사 디지털 디바이스 및 그 제어 방법
US10204622B2 (en) * 2015-09-10 2019-02-12 Crestron Electronics, Inc. Acoustic sensory network
US10748539B2 (en) * 2014-09-10 2020-08-18 Crestron Electronics, Inc. Acoustic sensory network
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US9812128B2 (en) 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
KR102505347B1 (ko) * 2015-07-16 2023-03-03 삼성전자주식회사 사용자 관심 음성 알림 장치 및 방법
CN106469040B (zh) * 2015-08-19 2019-06-21 华为终端有限公司 通信方法、服务器及设备
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10783888B2 (en) * 2015-09-10 2020-09-22 Crestron Electronics Inc. System and method for determining recipient of spoken command in a control system
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US9542941B1 (en) * 2015-10-01 2017-01-10 Lenovo (Singapore) Pte. Ltd. Situationally suspending wakeup word to enable voice command input
US9691378B1 (en) * 2015-11-05 2017-06-27 Amazon Technologies, Inc. Methods and devices for selectively ignoring captured audio data
US9653075B1 (en) 2015-11-06 2017-05-16 Google Inc. Voice commands across devices
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10127906B1 (en) 2015-12-28 2018-11-13 Amazon Technologies, Inc. Naming devices via voice commands
US10026401B1 (en) 2015-12-28 2018-07-17 Amazon Technologies, Inc. Naming devices via voice commands
US10185544B1 (en) * 2015-12-28 2019-01-22 Amazon Technologies, Inc. Naming devices via voice commands
US10453460B1 (en) * 2016-02-02 2019-10-22 Amazon Technologies, Inc. Post-speech recognition request surplus detection and prevention
JP2017138476A (ja) * 2016-02-03 2017-08-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10142754B2 (en) 2016-02-22 2018-11-27 Sonos, Inc. Sensor on moving component of transducer
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9779735B2 (en) * 2016-02-24 2017-10-03 Google Inc. Methods and systems for detecting and processing speech signals
US10229687B2 (en) * 2016-03-10 2019-03-12 Microsoft Technology Licensing, Llc Scalable endpoint-dependent natural language understanding
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
US9948479B2 (en) * 2016-04-05 2018-04-17 Vivint, Inc. Identification graph theory
US20170330564A1 (en) * 2016-05-13 2017-11-16 Bose Corporation Processing Simultaneous Speech from Distributed Microphones
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) * 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10438583B2 (en) * 2016-07-20 2019-10-08 Lenovo (Singapore) Pte. Ltd. Natural language voice assistant
US10621992B2 (en) * 2016-07-22 2020-04-14 Lenovo (Singapore) Pte. Ltd. Activating voice assistant based on at least one of user proximity and context
KR102575634B1 (ko) * 2016-07-26 2023-09-06 삼성전자주식회사 전자 장치 및 전자 장치의 동작 방법
US10810212B2 (en) * 2016-07-29 2020-10-20 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Validating provided information in a conversation
US9693164B1 (en) 2016-08-05 2017-06-27 Sonos, Inc. Determining direction of networked microphone device relative to audio playback device
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9972320B2 (en) 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US9824692B1 (en) * 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
WO2018053537A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Improvements of speaker recognition in the call center
CA3179080A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US9794720B1 (en) 2016-09-22 2017-10-17 Sonos, Inc. Acoustic position measurement
TWI606390B (zh) * 2016-09-23 2017-11-21 元鼎音訊股份有限公司 可自動調整聲音輸出之方法及電子裝置
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
WO2018067528A1 (en) * 2016-10-03 2018-04-12 Google Llc Device leadership negotiation among voice interface devices
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10592611B2 (en) * 2016-10-24 2020-03-17 Conduent Business Services, Llc System for automatic extraction of structure from spoken conversation using lexical and acoustic features
US10783883B2 (en) * 2016-11-03 2020-09-22 Google Llc Focus session at a voice interface device
KR102241970B1 (ko) * 2016-11-07 2021-04-20 구글 엘엘씨 기록된 미디어 핫워드 트리거 억제
US10332523B2 (en) 2016-11-18 2019-06-25 Google Llc Virtual assistant identification of nearby computing devices
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10079015B1 (en) * 2016-12-06 2018-09-18 Amazon Technologies, Inc. Multi-layer keyword detection
US10559309B2 (en) * 2016-12-22 2020-02-11 Google Llc Collaborative voice controlled devices
US10311875B2 (en) * 2016-12-22 2019-06-04 Soundhound, Inc. Full-duplex utterance processing in a natural language virtual assistant
US10276161B2 (en) 2016-12-27 2019-04-30 Google Llc Contextual hotwords
US10593329B2 (en) * 2016-12-30 2020-03-17 Google Llc Multimodal transmission of packetized data
US10708313B2 (en) 2016-12-30 2020-07-07 Google Llc Multimodal transmission of packetized data
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
KR20180083587A (ko) * 2017-01-13 2018-07-23 삼성전자주식회사 전자 장치 및 그의 동작 방법
CN114067794A (zh) * 2017-02-07 2022-02-18 路创技术有限责任公司 基于音频的负载控制系统
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
US10757058B2 (en) 2017-02-17 2020-08-25 International Business Machines Corporation Outgoing communication scam prevention
US10102868B2 (en) * 2017-02-17 2018-10-16 International Business Machines Corporation Bot-based honeypot poison resilient data collection
US10810510B2 (en) 2017-02-17 2020-10-20 International Business Machines Corporation Conversation and context aware fraud and abuse prevention agent
US9990926B1 (en) * 2017-03-13 2018-06-05 Intel Corporation Passive enrollment method for speaker identification systems
US11183181B2 (en) * 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
WO2018195185A1 (en) 2017-04-20 2018-10-25 Google Llc Multi-user authentication on a device
KR20180118470A (ko) * 2017-04-21 2018-10-31 엘지전자 주식회사 음성 인식 장치 및 음성 인식 방법
IL252071A0 (en) * 2017-05-03 2017-07-31 Google Inc Contextual language translation
WO2018205083A1 (zh) * 2017-05-08 2018-11-15 深圳前海达闼云端智能科技有限公司 机器人唤醒方法、装置和机器人
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) * 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10664533B2 (en) 2017-05-24 2020-05-26 Lenovo (Singapore) Pte. Ltd. Systems and methods to determine response cue for digital assistant based on context
US10665232B2 (en) * 2017-05-24 2020-05-26 Harman International Industries, Inc. Coordination among multiple voice recognition devices
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10395650B2 (en) 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
US10283117B2 (en) * 2017-06-19 2019-05-07 Lenovo (Singapore) Pte. Ltd. Systems and methods for identification of response cue at peripheral device
CN109213777A (zh) * 2017-06-29 2019-01-15 杭州九阳小家电有限公司 一种基于语音的食谱处理方法及系统
US10599377B2 (en) 2017-07-11 2020-03-24 Roku, Inc. Controlling visual indicators in an audio responsive electronic device, and capturing and providing audio using an API, by native and non-native computing devices and services
KR102052510B1 (ko) * 2017-08-03 2019-12-05 에스케이브로드밴드주식회사 음성브리지장치 및 음성인식처리장치, 그리고 그 동작 방법
US10475449B2 (en) * 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
JP6513749B2 (ja) * 2017-08-09 2019-05-15 レノボ・シンガポール・プライベート・リミテッド 音声アシストシステム、サーバ装置、その音声アシスト方法、及びコンピュータが実行するためのプログラム
KR102486912B1 (ko) * 2017-08-10 2023-01-11 에스케이텔레콤 주식회사 음성 처리 장치의 구동 제어 시스템 및 구동 제어 서버
US11062710B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Local and cloud speech recognition
US11062702B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Media system with multiple digital assistants
US10777197B2 (en) 2017-08-28 2020-09-15 Roku, Inc. Audio responsive device with play/stop and tell me something buttons
US20190065608A1 (en) * 2017-08-29 2019-02-28 Lenovo (Singapore) Pte. Ltd. Query input received at more than one device
US10546583B2 (en) * 2017-08-30 2020-01-28 Amazon Technologies, Inc. Context-based device arbitration
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10403288B2 (en) * 2017-10-17 2019-09-03 Google Llc Speaker diarization
US10916252B2 (en) 2017-11-10 2021-02-09 Nvidia Corporation Accelerated data transfer for latency reduction and real-time processing
US10999733B2 (en) 2017-11-14 2021-05-04 Thomas STACHURA Information security/privacy via a decoupled security accessory to an always listening device
US10867623B2 (en) * 2017-11-14 2020-12-15 Thomas STACHURA Secure and private processing of gestures via video input
CN107919119A (zh) 2017-11-16 2018-04-17 百度在线网络技术(北京)有限公司 多设备交互协同的方法、装置、设备及计算机可读介质
US10276175B1 (en) * 2017-11-28 2019-04-30 Google Llc Key phrase detection with audio watermarking
US10102858B1 (en) * 2017-11-29 2018-10-16 International Business Machines Corporation Dynamically changing audio keywords
US10482878B2 (en) * 2017-11-29 2019-11-19 Nuance Communications, Inc. System and method for speech enhancement in multisource environments
US10157611B1 (en) * 2017-11-29 2018-12-18 Nuance Communications, Inc. System and method for speech enhancement in multisource environments
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
WO2019112625A1 (en) * 2017-12-08 2019-06-13 Google Llc Signal processing coordination among digital voice assistant computing devices
EP3519936B1 (en) * 2017-12-08 2020-04-08 Google LLC Isolating a device, from multiple devices in an environment, for being responsive to spoken assistant invocation(s)
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US10672380B2 (en) * 2017-12-27 2020-06-02 Intel IP Corporation Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system
CN111512365B (zh) * 2017-12-31 2023-06-13 美的集团股份有限公司 对多个家庭装置进行控制的方法和系统
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11145298B2 (en) * 2018-02-13 2021-10-12 Roku, Inc. Trigger word detection with multiple digital assistants
KR102679107B1 (ko) * 2018-02-23 2024-06-27 삼성전자주식회사 세탁 기기 및 그의 제어 방법
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
WO2019172948A1 (en) 2018-03-07 2019-09-12 Google Llc Systems and methods for voice-based initiation of custom device actions
US11183182B2 (en) * 2018-03-07 2021-11-23 Google Llc Systems and methods for voice-based initiation of custom device actions
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US11240057B2 (en) * 2018-03-15 2022-02-01 Lenovo (Singapore) Pte. Ltd. Alternative output response based on context
US11163377B2 (en) * 2018-03-22 2021-11-02 Adobe Inc. Remote generation of executable code for a client application based on natural language commands captured at a client device
US10755706B2 (en) * 2018-03-26 2020-08-25 Midea Group Co., Ltd. Voice-based user interface with dynamically switchable endpoints
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11151991B2 (en) * 2018-03-30 2021-10-19 Verizon Media Inc. Electronic message transmission
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
WO2019198132A1 (ja) * 2018-04-09 2019-10-17 マクセル株式会社 音声認識デバイス、音声認識デバイスの連携システム、及び音声認識デバイスの連携方法
CN108538291A (zh) * 2018-04-11 2018-09-14 百度在线网络技术(北京)有限公司 语音控制方法、终端设备、云端服务器及系统
WO2019203794A1 (en) 2018-04-16 2019-10-24 Google Llc Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
CN116959420A (zh) * 2018-04-16 2023-10-27 谷歌有限责任公司 自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言
EP3561806B1 (en) * 2018-04-23 2020-04-22 Spotify AB Activation trigger processing
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
CN108615526B (zh) * 2018-05-08 2020-07-07 腾讯科技(深圳)有限公司 语音信号中关键词的检测方法、装置、终端及存储介质
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10692496B2 (en) 2018-05-22 2020-06-23 Google Llc Hotword suppression
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
WO2019227370A1 (zh) * 2018-05-31 2019-12-05 Dong Xuezhang 一种多语音助手控制方法、装置、系统及计算机可读存储介质
US10892996B2 (en) * 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US10803865B2 (en) * 2018-06-05 2020-10-13 Voicify, LLC Voice application platform
US10636425B2 (en) 2018-06-05 2020-04-28 Voicify, LLC Voice application platform
US10235999B1 (en) 2018-06-05 2019-03-19 Voicify, LLC Voice application platform
US11437029B2 (en) 2018-06-05 2022-09-06 Voicify, LLC Voice application platform
GB2574803B (en) * 2018-06-11 2022-12-07 Xmos Ltd Communication between audio devices
US10783886B2 (en) * 2018-06-12 2020-09-22 International Business Machines Corporation Cognitive agent disambiguation
US11348586B2 (en) * 2018-06-21 2022-05-31 Dell Products L.P. Systems and methods for extending and enhancing voice assistant and/or telecommunication software functions to a remote endpoint device
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
CN108922528B (zh) 2018-06-29 2020-10-23 百度在线网络技术(北京)有限公司 用于处理语音的方法和装置
US11373640B1 (en) * 2018-08-01 2022-06-28 Amazon Technologies, Inc. Intelligent device grouping
KR102570301B1 (ko) * 2018-08-02 2023-08-25 삼성전자주식회사 전자 장치 및 그 제어 방법
JP7250900B2 (ja) * 2018-08-09 2023-04-03 グーグル エルエルシー ホットワード認識および受動的支援
JP7018850B2 (ja) * 2018-08-20 2022-02-14 ヤフー株式会社 端末装置、決定方法、決定プログラム及び決定装置
KR102523982B1 (ko) 2018-08-21 2023-04-20 구글 엘엘씨 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드
WO2020040745A1 (en) 2018-08-21 2020-02-27 Google Llc Dynamic and/or context-specific hot words to invoke automated assistant
EP3642837B1 (en) 2018-08-23 2024-03-13 Google LLC Regulating assistant responsiveness according to characteristics of a multi-assistant environment
KR20200024068A (ko) * 2018-08-27 2020-03-06 삼성전자주식회사 인텔리전트 서비스를 위해, 복수의 음성 데이터 수신 장치들을 선택적으로 이용하는 방법, 장치, 및 시스템
US11514917B2 (en) * 2018-08-27 2022-11-29 Samsung Electronics Co., Ltd. Method, device, and system of selectively using multiple voice data receiving devices for intelligent service
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
CN109391528A (zh) * 2018-08-31 2019-02-26 百度在线网络技术(北京)有限公司 语音智能设备的唤醒方法、装置、设备及存储介质
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
KR102146524B1 (ko) * 2018-09-19 2020-08-20 주식회사 포티투마루 음성 인식 학습 데이터 생성 시스템, 방법 및 컴퓨터 프로그램
US11315553B2 (en) 2018-09-20 2022-04-26 Samsung Electronics Co., Ltd. Electronic device and method for providing or obtaining data for training thereof
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11152003B2 (en) * 2018-09-27 2021-10-19 International Business Machines Corporation Routing voice commands to virtual assistants
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11119725B2 (en) * 2018-09-27 2021-09-14 Abl Ip Holding Llc Customizable embedded vocal command sets for a lighting and/or other environmental controller
US11100923B2 (en) * 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US10777186B1 (en) * 2018-11-13 2020-09-15 Amazon Technolgies, Inc. Streaming real-time automatic speech recognition service
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
KR20200074690A (ko) * 2018-12-17 2020-06-25 삼성전자주식회사 전자 장치 및 이의 제어 방법
KR20200074680A (ko) 2018-12-17 2020-06-25 삼성전자주식회사 단말 장치 및 이의 제어 방법
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN111415657A (zh) * 2019-01-07 2020-07-14 成都启英泰伦科技有限公司 一种去中心化设备、多设备系统及其语音控制方法
US11019201B2 (en) 2019-02-06 2021-05-25 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
EP3921830A4 (en) 2019-02-07 2022-11-02 Thomas Stachura PRIVACY DEVICE FOR SMART SPEAKERS
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11195518B2 (en) 2019-03-27 2021-12-07 Sonova Ag Hearing device user communicating with a wireless communication device
US12015637B2 (en) 2019-04-08 2024-06-18 Pindrop Security, Inc. Systems and methods for end-to-end architectures for voice spoofing detection
KR20210143953A (ko) * 2019-04-19 2021-11-30 엘지전자 주식회사 다중 디바이스 제어 시스템과 방법 및 이를 실행하기 위한 컴포넌트가 저장된 비 일시적 컴퓨터 판독 가능 매체
CN110136707B (zh) * 2019-04-22 2021-03-02 云知声智能科技股份有限公司 一种用于进行多设备自主决策的人机交互系统
WO2020218634A1 (ko) * 2019-04-23 2020-10-29 엘지전자 주식회사 응답 기기 결정 방법 및 장치
WO2020222539A1 (en) * 2019-05-02 2020-11-05 Samsung Electronics Co., Ltd. Hub device, multi-device system including the hub device and plurality of devices, and method of operating the same
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
WO2020241920A1 (ko) * 2019-05-29 2020-12-03 엘지전자 주식회사 장치 정보에 기반하여, 다른 장치를 제어할 수 있는 인공 지능 장치
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
CN110288999B (zh) * 2019-07-02 2020-12-11 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN112712803B (zh) * 2019-07-15 2022-02-25 华为技术有限公司 一种语音唤醒的方法和电子设备
EP3977445B1 (en) * 2019-07-29 2023-06-07 Samsung Electronics Co., Ltd. System and method for registering device for voice assistant service
US11659332B2 (en) 2019-07-30 2023-05-23 Dolby Laboratories Licensing Corporation Estimating user location in a system including smart audio devices
US20220351724A1 (en) * 2019-07-30 2022-11-03 Dolby Laboratories Licensing Corporation Multi-device wakeword detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
CN110415705B (zh) * 2019-08-01 2022-03-01 苏州奇梦者网络科技有限公司 一种热词识别方法、系统、装置及存储介质
KR102243325B1 (ko) * 2019-09-11 2021-04-22 넷마블 주식회사 시동어 인식 기술을 제공하기 위한 컴퓨터 프로그램
CN110660390B (zh) * 2019-09-17 2022-05-03 百度在线网络技术(北京)有限公司 智能设备唤醒方法、智能设备及计算机可读存储介质
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
DE102019215099B4 (de) * 2019-10-01 2022-09-29 Audi Ag Verfahren zum Bereitstellen einer aktuellen lokalen Umgebungszustandskarte für ein Kraftfahrzeug sowie Kraftfahrzeug zum Durchführen eines derartigen Verfahrens
KR102629796B1 (ko) * 2019-10-15 2024-01-26 삼성전자 주식회사 음성 인식의 향상을 지원하는 전자 장치
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
CN110890092B (zh) * 2019-11-07 2022-08-05 北京小米移动软件有限公司 唤醒控制方法及装置、计算机存储介质
US11315551B2 (en) * 2019-11-07 2022-04-26 Accent Global Solutions Limited System and method for intent discovery from multimedia conversation
US11061958B2 (en) 2019-11-14 2021-07-13 Jetblue Airways Corporation Systems and method of generating custom messages based on rule-based database queries in a cloud platform
US11450325B1 (en) 2019-12-12 2022-09-20 Amazon Technologies, Inc. Natural language processing
US11380308B1 (en) 2019-12-13 2022-07-05 Amazon Technologies, Inc. Natural language processing
US11551681B1 (en) * 2019-12-13 2023-01-10 Amazon Technologies, Inc. Natural language processing routing
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
CN111048086B (zh) * 2019-12-24 2022-10-21 思必驰科技股份有限公司 多设备间的语音唤醒方法、和自协商的语音唤醒方法、装置及系统
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
KR20210098250A (ko) * 2020-01-31 2021-08-10 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
EP3866157B1 (de) * 2020-02-13 2024-04-03 Deutsche Telekom AG Elektronische assistenzvorrichtung und betriebsverfahren
CN115151891A (zh) 2020-02-26 2022-10-04 谷歌有限责任公司 使用不可听音调或其它渲染输出来抢先限制环境中的各种助理设备的响应性
EP4447046A2 (en) * 2020-04-08 2024-10-16 Google LLC Cascade architecture for noise-robust keyword spotting
KR20210136463A (ko) 2020-05-07 2021-11-17 삼성전자주식회사 전자 장치 및 그 제어 방법
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11887589B1 (en) * 2020-06-17 2024-01-30 Amazon Technologies, Inc. Voice-based interactions with a graphical user interface
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11670293B2 (en) * 2020-09-02 2023-06-06 Google Llc Arbitrating between multiple potentially-responsive electronic devices
US11727925B2 (en) * 2020-10-13 2023-08-15 Google Llc Cross-device data synchronization based on simultaneous hotword triggers
US11798530B2 (en) 2020-10-30 2023-10-24 Google Llc Simultaneous acoustic event detection across multiple assistant devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
CN112652310B (zh) * 2020-12-31 2024-08-09 乐鑫信息科技(上海)股份有限公司 分布式语音处理系统及方法
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
US20220284883A1 (en) * 2021-03-05 2022-09-08 Comcast Cable Communications, Llc Keyword Detection
US12014734B2 (en) * 2021-07-22 2024-06-18 International Business Machines Corporation Dynamic boundary creation for voice command authentication
US12039267B2 (en) * 2021-09-30 2024-07-16 Intuit Inc. Automated categorization of data by generating unity and reliability metrics
CN115547337B (zh) * 2022-11-25 2023-03-03 深圳市人马互动科技有限公司 语音识别方法及相关产品
KR20240092249A (ko) * 2022-12-14 2024-06-24 삼성전자주식회사 전자 장치 및 이의 동작 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014008194A1 (en) * 2012-07-03 2014-01-09 Google Inc. Determining hotword suitability

Family Cites Families (122)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4363102A (en) 1981-03-27 1982-12-07 Bell Telephone Laboratories, Incorporated Speaker identification system using word recognition templates
JPS59180599A (ja) * 1983-03-31 1984-10-13 日本電気ホームエレクトロニクス株式会社 車載用音声認識制御装置
US5659665A (en) * 1994-12-08 1997-08-19 Lucent Technologies Inc. Method and apparatus for including speech recognition capabilities in a computer system
JP3674990B2 (ja) 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JP3522421B2 (ja) 1995-10-31 2004-04-26 株式会社リコー 話者認識システムおよび話者認識方法
US5895448A (en) 1996-02-29 1999-04-20 Nynex Science And Technology, Inc. Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose
US6023676A (en) * 1996-12-12 2000-02-08 Dspc Israel, Ltd. Keyword recognition system and method
SE511418C2 (sv) 1997-03-13 1999-09-27 Telia Ab Metod för talarverifiering/identifiering via modellering av typiska icke-typiska egenskaper.
US6076055A (en) 1997-05-27 2000-06-13 Ameritech Speaker verification method
US5897616A (en) 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
JPH1152976A (ja) * 1997-07-29 1999-02-26 Nec Home Electron Ltd 音声認識装置
JP3524370B2 (ja) * 1998-02-19 2004-05-10 富士通テン株式会社 音声起動システム
JP2000075954A (ja) 1998-09-02 2000-03-14 Sony Corp 電子機器制御装置
US6141644A (en) 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US6744860B1 (en) * 1998-12-31 2004-06-01 Bell Atlantic Network Services Methods and apparatus for initiating a voice-dialing operation
US6671672B1 (en) * 1999-03-30 2003-12-30 Nuance Communications Voice authentication system having cognitive recall mechanism for password verification
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
JP3357629B2 (ja) * 1999-04-26 2002-12-16 旭化成株式会社 設備制御システム
US6438524B1 (en) * 1999-11-23 2002-08-20 Qualcomm, Incorporated Method and apparatus for a voice controlled foreign language translation device
DE10015960C2 (de) * 2000-03-30 2003-01-16 Micronas Munich Gmbh Spracherkennungsverfahren und Spracherkennungsvorrichtung
US6567775B1 (en) 2000-04-26 2003-05-20 International Business Machines Corporation Fusion of audio and video based speaker identification for multimedia information access
US6826159B1 (en) 2000-05-24 2004-11-30 Cisco Technology, Inc. System and method for providing speaker identification in a conference call
EP1168736A1 (en) * 2000-06-30 2002-01-02 Alcatel Telecommunication system and method with a speech recognizer
US7016833B2 (en) 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
US6973426B1 (en) 2000-12-29 2005-12-06 Cisco Technology, Inc. Method and apparatus for performing speaker verification based on speaker independent recognition of commands
US6701293B2 (en) * 2001-06-13 2004-03-02 Intel Corporation Combining N-best lists from multiple speech recognizers
JP4086280B2 (ja) 2002-01-29 2008-05-14 株式会社東芝 音声入力システム、音声入力方法及び音声入力プログラム
JP4224250B2 (ja) * 2002-04-17 2009-02-12 パイオニア株式会社 音声認識装置、音声認識方法および音声認識プログラム
JP2003345391A (ja) 2002-05-23 2003-12-03 Denso Corp 端末、音声認識サーバ、音声認識システムおよびコンピュータプログラム
US20030231746A1 (en) 2002-06-14 2003-12-18 Hunter Karla Rae Teleconference speaker identification
TW200409525A (en) * 2002-11-26 2004-06-01 Lite On Technology Corp Voice identification method for cellular phone and cellular phone with voiceprint password
EP1429314A1 (en) 2002-12-13 2004-06-16 Sony International (Europe) GmbH Correction of energy as input feature for speech processing
US7222072B2 (en) * 2003-02-13 2007-05-22 Sbc Properties, L.P. Bio-phonetic multi-phrase speaker identity verification
US7571014B1 (en) 2004-04-01 2009-08-04 Sonos, Inc. Method and apparatus for controlling multimedia players in a multi-zone system
US8290603B1 (en) 2004-06-05 2012-10-16 Sonos, Inc. User interfaces for controlling and manipulating groupings in a multi-zone media system
US20070198262A1 (en) 2003-08-20 2007-08-23 Mindlin Bernardo G Topological voiceprints for speaker identification
US20050165607A1 (en) * 2004-01-22 2005-07-28 At&T Corp. System and method to disambiguate and clarify user intention in a spoken dialog system
US8214447B2 (en) 2004-06-08 2012-07-03 Bose Corporation Managing an audio network
US7720012B1 (en) 2004-07-09 2010-05-18 Arrowhead Center, Inc. Speaker identification in the presence of packet losses
US8412521B2 (en) * 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US8521529B2 (en) 2004-10-18 2013-08-27 Creative Technology Ltd Method for segmenting audio signals
KR100679043B1 (ko) * 2005-02-15 2007-02-05 삼성전자주식회사 음성 대화 인터페이스 장치 및 방법
US8041570B2 (en) * 2005-05-31 2011-10-18 Robert Bosch Corporation Dialogue management using scripts
US7603275B2 (en) * 2005-10-31 2009-10-13 Hitachi, Ltd. System, method and computer program product for verifying an identity using voiced to unvoiced classifiers
JP2006227634A (ja) * 2006-03-29 2006-08-31 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体
CN1996847B (zh) 2006-12-27 2010-05-19 中国科学院上海技术物理研究所 基于协作网格的图像及多媒体数据通信与存储系统
US8099288B2 (en) 2007-02-12 2012-01-17 Microsoft Corp. Text-dependent speaker verification
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US8352264B2 (en) 2008-03-19 2013-01-08 Canyon IP Holdings, LLC Corrective feedback loop for automated speech recognition
US8503686B2 (en) * 2007-05-25 2013-08-06 Aliphcom Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems
US8385233B2 (en) 2007-06-12 2013-02-26 Microsoft Corporation Active speaker identification
GB2450886B (en) * 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
JP2009104020A (ja) 2007-10-25 2009-05-14 Panasonic Electric Works Co Ltd 音声認識装置
GB2458461A (en) * 2008-03-17 2009-09-23 Kai Yu Spoken language learning system
US8504365B2 (en) * 2008-04-11 2013-08-06 At&T Intellectual Property I, L.P. System and method for detecting synthetic speaker verification
CA2665014C (en) * 2008-05-23 2020-05-26 Accenture Global Services Gmbh Recognition processing of a plurality of streaming voice signals for determination of responsive action thereto
US8145482B2 (en) * 2008-05-25 2012-03-27 Ezra Daya Enhancing analysis of test key phrases from acoustic sources with key phrase training models
KR101056511B1 (ko) * 2008-05-28 2011-08-11 (주)파워보이스 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
US8676586B2 (en) * 2008-09-16 2014-03-18 Nice Systems Ltd Method and apparatus for interaction or discourse analytics
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9922640B2 (en) * 2008-10-17 2018-03-20 Ashwin P Rao System and method for multimodal utterance detection
KR101519104B1 (ko) * 2008-10-30 2015-05-11 삼성전자 주식회사 목적음 검출 장치 및 방법
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8209174B2 (en) 2009-04-17 2012-06-26 Saudi Arabian Oil Company Speaker verification system
US9858925B2 (en) * 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
CN101923853B (zh) 2009-06-12 2013-01-23 华为技术有限公司 说话人识别方法、设备和系统
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8626511B2 (en) 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
JP2011232521A (ja) 2010-04-27 2011-11-17 On Semiconductor Trading Ltd 音声認識装置
KR101672212B1 (ko) 2010-06-15 2016-11-04 엘지전자 주식회사 휴대 단말기 및 그 동작 방법
US8719018B2 (en) 2010-10-25 2014-05-06 Lockheed Martin Corporation Biometric speaker identification
US8874773B2 (en) 2010-11-30 2014-10-28 Gary W. Grube Obtaining group and individual emergency preparedness communication information
EP2494545A4 (en) * 2010-12-24 2012-11-21 Huawei Tech Co Ltd METHOD AND DEVICE FOR DETECTING LANGUAGE ACTIVITIES
US8296142B2 (en) * 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9159324B2 (en) 2011-07-01 2015-10-13 Qualcomm Incorporated Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context
US8660847B2 (en) * 2011-09-02 2014-02-25 Microsoft Corporation Integrated local and cloud based speech recognition
US8340975B1 (en) * 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
ES2409530B1 (es) * 2011-10-14 2014-05-14 Telefónica, S.A. Método para gestionar el reconocimiento del habla de llamadas de audio
US9031847B2 (en) 2011-11-15 2015-05-12 Microsoft Technology Licensing, Llc Voice-controlled camera operations
EP2783365B1 (en) * 2011-11-21 2018-02-21 Robert Bosch GmbH Method and system for adapting grammars in hybrid speech recognition engines for enhancing local speech recognition performance
US8825020B2 (en) * 2012-01-12 2014-09-02 Sensory, Incorporated Information access and device control using mobile phones and audio in the home environment
US9117449B2 (en) 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
US9093076B2 (en) * 2012-04-30 2015-07-28 2236008 Ontario Inc. Multipass ASR controlling multiple applications
US20140006825A1 (en) 2012-06-30 2014-01-02 David Shenhav Systems and methods to wake up a device from a power conservation state
JP6131537B2 (ja) 2012-07-04 2017-05-24 セイコーエプソン株式会社 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法
TWI474317B (zh) * 2012-07-06 2015-02-21 Realtek Semiconductor Corp 訊號處理裝置以及訊號處理方法
US8983836B2 (en) * 2012-09-26 2015-03-17 International Business Machines Corporation Captioning using socially derived acoustic profiles
CN103729388A (zh) * 2012-10-16 2014-04-16 北京千橡网景科技发展有限公司 用于网络用户发表状态的实时热点检测方法
WO2014064324A1 (en) 2012-10-26 2014-05-01 Nokia Corporation Multi-device speech recognition
US8996372B1 (en) * 2012-10-30 2015-03-31 Amazon Technologies, Inc. Using adaptation data with cloud-based speech recognition
JP2014092777A (ja) 2012-11-06 2014-05-19 Magic Hand:Kk モバイル通信機器の音声による起動
US20140156281A1 (en) * 2012-12-03 2014-06-05 Qualcomm Incorporated Voice-controlled configuration of an automation system
US9704486B2 (en) 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
JP2014130445A (ja) * 2012-12-28 2014-07-10 Toshiba Corp 情報抽出サーバ、情報抽出クライアント、情報抽出方法、及び、情報抽出プログラム
CN103971685B (zh) * 2013-01-30 2015-06-10 腾讯科技(深圳)有限公司 语音命令识别方法和系统
US9842489B2 (en) * 2013-02-14 2017-12-12 Google Llc Waking other devices for additional data
US9256269B2 (en) 2013-02-20 2016-02-09 Sony Computer Entertainment Inc. Speech recognition system for performing analysis to a non-tactile inputs and generating confidence scores and based on the confidence scores transitioning the system from a first power state to a second power state
US9349386B2 (en) * 2013-03-07 2016-05-24 Analog Device Global System and method for processor wake-up based on sensor data
US9361885B2 (en) * 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9312826B2 (en) * 2013-03-13 2016-04-12 Kopin Corporation Apparatuses and methods for acoustic channel auto-balancing during multi-channel signal extraction
US8768687B1 (en) * 2013-04-29 2014-07-01 Google Inc. Machine translation of indirect speech
US9380654B2 (en) 2013-07-11 2016-06-28 General Electric Company Light emitting diode (LED) lamp replacement driver for linear fluorescent lamps
US20150032238A1 (en) * 2013-07-23 2015-01-29 Motorola Mobility Llc Method and Device for Audio Input Routing
WO2015025330A1 (en) 2013-08-21 2015-02-26 Kale Aaditya Kishore A system to enable user to interact with an electronic processing device using voice of the user
JP6502249B2 (ja) * 2013-08-29 2019-04-17 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識方法及び音声認識装置
US9343068B2 (en) 2013-09-16 2016-05-17 Qualcomm Incorporated Method and apparatus for controlling access to applications having different security levels
US8775191B1 (en) 2013-11-13 2014-07-08 Google Inc. Efficient utterance-specific endpointer triggering for always-on hotwording
US9373321B2 (en) * 2013-12-02 2016-06-21 Cypress Semiconductor Corporation Generation of wake-up words
CN103745731B (zh) * 2013-12-31 2016-10-19 科大讯飞股份有限公司 一种语音识别效果自动化测试系统及测试方法
US8938394B1 (en) 2014-01-09 2015-01-20 Google Inc. Audio triggers based on context
US9639854B2 (en) 2014-06-26 2017-05-02 Nuance Communications, Inc. Voice-controlled information exchange platform, such as for providing information to supplement advertising
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US9424841B2 (en) 2014-10-09 2016-08-23 Google Inc. Hotword detection on multiple devices
US9812126B2 (en) 2014-11-28 2017-11-07 Microsoft Technology Licensing, Llc Device arbitration for listening devices
JP6754184B2 (ja) 2014-12-26 2020-09-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識装置及び音声認識方法
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10506068B2 (en) 2015-04-06 2019-12-10 Microsoft Technology Licensing, Llc Cloud-based cross-device digital pen pairing
US9875081B2 (en) 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
JP6943656B2 (ja) 2017-07-12 2021-10-06 日立造船株式会社 コイン形電池およびその製造方法
JP2021184030A (ja) 2020-05-21 2021-12-02 キヤノン株式会社 単焦点レンズおよび撮像装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014008194A1 (en) * 2012-07-03 2014-01-09 Google Inc. Determining hotword suitability

Also Published As

Publication number Publication date
KR101832648B1 (ko) 2018-02-26
JP7022733B2 (ja) 2022-02-18
US10134398B2 (en) 2018-11-20
US10909987B2 (en) 2021-02-02
US20240169992A1 (en) 2024-05-23
US20160104480A1 (en) 2016-04-14
KR20160101198A (ko) 2016-08-24
US9318107B1 (en) 2016-04-19
CN106030699B (zh) 2019-12-10
EP3139378B1 (en) 2019-12-04
DE202015010012U1 (de) 2023-03-01
US11557299B2 (en) 2023-01-17
US20190130914A1 (en) 2019-05-02
US9514752B2 (en) 2016-12-06
JP2020034952A (ja) 2020-03-05
EP3627503A1 (en) 2020-03-25
US20200058306A1 (en) 2020-02-20
US20210118448A1 (en) 2021-04-22
CN111028826A (zh) 2020-04-17
JP6427549B2 (ja) 2018-11-21
EP3084759B1 (en) 2019-08-14
JP6893951B2 (ja) 2021-06-23
JP6530023B2 (ja) 2019-06-12
JP2017072857A (ja) 2017-04-13
JP2022017569A (ja) 2022-01-25
US20170084277A1 (en) 2017-03-23
EP3171359A1 (en) 2017-05-24
KR20170004956A (ko) 2017-01-11
JP7354210B2 (ja) 2023-10-02
US20230147222A1 (en) 2023-05-11
EP3171359B1 (en) 2020-07-01
EP3627503B1 (en) 2024-01-10
JP2017520008A (ja) 2017-07-20
EP4280210A3 (en) 2024-01-10
US20160217790A1 (en) 2016-07-28
CN106030699A (zh) 2016-10-12
JP6208376B2 (ja) 2017-10-04
JP2019133198A (ja) 2019-08-08
EP3139378A1 (en) 2017-03-08
EP3084759A1 (en) 2016-10-26
WO2016057268A1 (en) 2016-04-14
US11915706B2 (en) 2024-02-27
US10593330B2 (en) 2020-03-17
CN111028826B (zh) 2024-02-06
JP2023174674A (ja) 2023-12-08
EP4280210A2 (en) 2023-11-22
JP2017227912A (ja) 2017-12-28

Similar Documents

Publication Publication Date Title
KR101752119B1 (ko) 다수의 디바이스에서의 핫워드 검출
CN111105784B (zh) 多个设备上的热词检测

Legal Events

Date Code Title Description
A201 Request for examination
A107 Divisional application of patent
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant