KR20170004956A - 다수의 디바이스에서의 핫워드 검출 - Google Patents
다수의 디바이스에서의 핫워드 검출 Download PDFInfo
- Publication number
- KR20170004956A KR20170004956A KR1020167022701A KR20167022701A KR20170004956A KR 20170004956 A KR20170004956 A KR 20170004956A KR 1020167022701 A KR1020167022701 A KR 1020167022701A KR 20167022701 A KR20167022701 A KR 20167022701A KR 20170004956 A KR20170004956 A KR 20170004956A
- Authority
- KR
- South Korea
- Prior art keywords
- hot word
- computing device
- utterance
- determining
- message
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title abstract description 6
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000004891 communication Methods 0.000 claims description 22
- 230000004044 response Effects 0.000 claims description 5
- 230000000153 supplemental effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 21
- 230000009471 action Effects 0.000 abstract description 14
- 238000004590 computer program Methods 0.000 abstract description 6
- 230000000977 initiatory effect Effects 0.000 abstract description 2
- 230000015654 memory Effects 0.000 description 35
- 238000012545 processing Methods 0.000 description 14
- 230000004913 activation Effects 0.000 description 10
- 239000008267 milk Substances 0.000 description 7
- 210000004080 milk Anatomy 0.000 description 7
- 235000013336 milk Nutrition 0.000 description 7
- HEFNNWSXXWATRW-UHFFFAOYSA-N Ibuprofen Chemical compound CC(C)CC1=CC=C(C(C)C(O)=O)C=C1 HEFNNWSXXWATRW-UHFFFAOYSA-N 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000000872 buffer Substances 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
Abstract
다수의 디바이스에서의 핫워드 검출을 위한, 컴퓨터 저장 매체에 인코딩된 컴퓨터 프로그램들을 포함하는, 방법들, 시스템들, 및 장치들이 개시된다. 일 양태에서, 방법은, 제1 컴퓨팅 디바이스에 의해, 발성에 대응하는 오디오 데이터를 수신하는 단계의 액션들을 포함한다. 이 액션들은 발성이 핫워드를 포함할 가능성에 대응하는 제1 값을 결정하는 단계를 더 포함한다. 이 액션들은 발성이 핫워드를 포함할 가능성에 대응하는 제2 값을 수신하는 단계 - 제2 값은 제2 컴퓨팅 디바이스에 의해 결정됨 - 를 더 포함한다. 이 액션들은 제1 값과 제2 값을 비교하는 단계를 더 포함한다. 이 액션들은 제1 값과 제2 값을 비교하는 것에 기초하여, 오디오 데이터에 대한 음성 인식 처리를 개시하는 단계를 더 포함한다.
Description
이 명세서는 일반적으로 사람이 말하고 있는 단어들을 인식하는 것, 다르게는 음성 인식이라고 불리는 것에 대한 시스템들 및 기법들에 관한 것이다.
음성-사용가능(speech-enabled) 집 또는 다른 환경 - 즉, 사용자가 큰 소리로 쿼리(query) 또는 명령(command)을 말하기만 하면 되고 컴퓨터 기반 시스템이 쿼리를 처리하고 그에 응답하는 그리고/또는 명령이 수행되게 하는 것 - 의 현실이 우리 앞에 있다. 음성-사용가능 환경(예컨대, 집, 직장, 학교 등)은 환경의 다양한 방들 또는 구역들의 도처에 분포된 연결된 마이크 디바이스들의 네트워크를 이용하여 구현될 수 있다. 그러한 마이크들의 네트워크를 통하여, 사용자는 그의 앞에 또는 심지어 근처에 컴퓨터 또는 다른 디바이스를 가질 필요 없이 환경 내의 본질적으로 어느 곳으로부터든 구두로 시스템에 쿼리하는 능력을 가진다. 예를 들어, 주방에서 요리하는 동안, 사용자는 시스템에 "3개의 컵에 몇 밀리리터인가(how many milliliters in three cups)?"를 물어볼 수 있고, 이에 응답하여, 시스템으로부터, 예컨대, 합성된 음성 출력의 형태로, 응답을 받을 수 있다. 대안적으로, 사용자는 시스템에, "가장 가까운 주유소가 언제 문을 닫는가(when does my nearest gas station close)" 또는 외출을 준비하면서 "오늘 코트를 입어야 하는가(should I wear a coat today)?"와 같은 질문들을 물어볼 수 있다.
또한, 사용자는 사용자의 개인 정보와 관련 있는, 쿼리를 시스템에 물어보고/물어보거나 명령을 내릴 수 있다. 예를 들어, 사용자는 시스템에 "John과의 미팅이 언제인가(when is my meeting with John)?"를 물어보거나 시스템에 "내가 집에 돌아왔을 때 John에게 통화하는 것을 상기시켜 달라(remind me to call John when I get back home)"고 명령할 수 있다.
음성-사용가능 시스템에 대해, 사용자가 시스템과 상호 작용하는 방식은, 전적으로 그런 것은 아닐지라도, 주로 음성 입력을 이용하도록 설계된다. 따라서, 시스템을 향하고 있지 않은 것들을 포함하여 주위 환경에서 이루어진 모든 발성들을 잠재적으로 포착하는, 시스템은 임의의 주어진 발성이, 예컨대, 환경에 존재하는 개인을 향하고 있는 것이 아니라 시스템을 향하고 있는 때를 판별하는 어떤 방법을 가져야만 한다. 이를 달성하는 한 가지 방법은, 환경 내의 사용자들 사이의 합의에 의해, 시스템의 주의를 환기시키기 위해 말해지는 미리 결정된 단어로서 예약되는, 핫워드(hotword)를 이용하는 것이다. 예시적인 환경에서, 시스템의 주의를 환기시키기 위해 사용되는 핫워드는 "OK 컴퓨터"라는 단어들이다. 따라서, "OK 컴퓨터"라는 단어들이 말해질 때마다, 그것은 마이크에 의해 포착되어, 시스템에 전달되고, 시스템은 음성 인식 기법들을 수행하여 핫워드가 말해졌는지를 결정하고, 그렇다면, 뒤이은 명령 또는 쿼리를 기다린다. 따라서, 시스템을 향하는 발성들은 [핫워드] [쿼리]의 일반적인 형태를 가지며, 이 예에서 "핫워드"는 "OK 컴퓨터"이고 "쿼리"는 시스템에 의해, 단독으로 또는 네트워크를 통해 서버와 함께, 음성 인식되고, 구문 분석되고, 작용될 수 있는 임의의 질문, 명령, 선언, 또는 다른 요청일 수 있다.
이 명세서에 기술된 주제의 하나의 혁신적인 양태에 따르면, 사용자 디바이스가 사용자에 의해 말해지는 발성을 수신한다. 상기 사용자 디바이스는 상기 발성이 핫워드를 포함하는지를 결정하고 상기 발성이 상기 핫워드를 포함할 가능성을 나타내는 핫워드 신뢰도 점수를 계산한다. 상기 사용자 디바이스는 이 점수를 근처에 있는 다른 사용자 디바이스들에 송신한다. 상기 다른 사용자 디바이스들은 동일한 발성을 수신했을 가능성이 있다. 상기 다른 사용자 디바이스들은 핫워드 신뢰도 점수를 계산하고 그들의 점수들을 상기 사용자 디바이스에 송신한다. 상기 사용자 디바이스는 상기 핫워드 신뢰도 점수들을 비교한다. 상기 사용자 디바이스가 가장 높은 핫워드 신뢰도 점수를 가진다면, 상기 사용자 디바이스는 활성으로 남아 있고 부가 오디오를 처리하기 위해 준비한다. 상기 사용자 디바이스가 가장 높은 핫워드 신뢰도 점수를 갖지 않는다면, 상기 사용자 디바이스는 상기 부가 오디오를 처리하지 않는다.
일반적으로, 이 명세서에 기술된 주제의 또 다른 혁신적인 양태는, 제1 컴퓨팅 디바이스에 의해, 발성에 대응하는 오디오 데이터를 수신하는 단계; 상기 발성이 핫워드를 포함할 가능성에 대응하는 제1 값을 결정하는 단계; 상기 발성이 핫워드를 포함할 가능성에 대응하는 제2 값을 수신하는 단계 - 상기 제2 값은 제2 컴퓨팅 디바이스에 의해 결정됨 -; 상기 제1 값과 상기 제2 값을 비교하는 단계; 및 상기 제1 값과 상기 제2 값을 비교하는 것에 기초하여, 상기 오디오 데이터에 대한 음성 인식 처리를 개시하는 단계의 액션들을 포함하는 방법들에서 구현될 수 있다.
이들 및 다른 실시예들은 각각 임의로 다음의 특징들 중 하나 이상을 포함할 수 있다. 상기 액션들은 상기 제1 값이 핫워드 점수 임계치를 만족시키는 것을 결정하는 단계를 더 포함한다. 상기 액션들은 상기 제1 값을 상기 제2 컴퓨팅 디바이스에 송신하는 단계를 더 포함한다. 상기 액션들은 상기 제1 값과 상기 제2 값을 비교하는 것에 기초하여 상기 제1 컴퓨팅 디바이스의 활성화 상태를 결정하는 단계를 더 포함한다. 상기 제1 값과 상기 제2 값을 비교하는 것에 기초하여 상기 제1 컴퓨팅 디바이스의 활성화 상태를 결정하는 단계의 액션은 상기 활성화 상태가 활성 상태인 것을 결정하는 단계를 더 포함한다. 상기 액션들은, 상기 제1 컴퓨팅 디바이스에 의해, 부가 발성에 대응하는 부가 오디오 데이터를 수신하는 단계; 상기 부가 발성이 상기 핫워드를 포함할 가능성에 대응하는 제3 값을 결정하는 단계; 상기 발성이 상기 핫워드를 포함할 가능성에 대응하는 제4 값을 수신하는 단계 - 상기 제4 값은 제3 컴퓨팅 디바이스에 의해 결정됨 -; 상기 제1 값과 상기 제2 값을 비교하는 단계; 및 상기 제1 값과 상기 제2 값을 비교하는 것에 기초하여, 상기 제1 컴퓨팅 디바이스의 상기 활성화 상태가 비활성 상태인 것을 결정하는 단계를 더 포함한다.
상기 제1 값을 상기 제2 컴퓨팅 디바이스에 송신하는 단계의 액션은 서버에, 로컬 네트워크를 통하여, 또는 단거리 무선(short range radio)을 통하여, 상기 제1 값을 송신하는 단계를 더 포함한다. 상기 발성이 상기 핫워드를 포함할 가능성에 대응하는 제2 값을 수신하는 단계 - 상기 제2 값은 제2 컴퓨팅 디바이스에 의해 결정됨 - 의 액션은 상기 서버로부터, 상기 로컬 네트워크를 통하여, 또는 상기 단거리 무선을 통하여, 제2 컴퓨팅 디바이스에 의해 결정된 제2 값을 수신하는 단계를 더 포함한다. 상기 액션들은 상기 제2 컴퓨팅 디바이스를 식별하는 단계; 및 상기 제2 컴퓨팅 디바이스가 상기 핫워드를 포함하는 발성들에 응답하도록 구성된 것을 결정하는 단계를 더 포함한다. 상기 제1 값을 상기 제2 컴퓨팅 디바이스에 송신하는 단계의 액션은 상기 제1 컴퓨팅 디바이스에 대한 제1 식별자를 송신하는 단계를 더 포함한다. 상기 발성이 상기 핫워드를 포함할 가능성에 대응하는 제2 값을 수신하는 단계 - 상기 제2 값은 제2 컴퓨팅 디바이스에 의해 결정됨 - 의 액션은 상기 제2 컴퓨팅 디바이스에 대한 제2 식별자를 수신하는 단계를 더 포함한다. 상기 활성화 상태가 활성 상태인 것을 결정하는 단계의 액션은 상기 발성에 대응하는 상기 오디오 데이터를 수신하는 단계 이후 특정량의 시간이 경과한 것을 결정하는 단계를 더 포함한다. 상기 액션들은 상기 활성화 상태가 활성 상태인 것을 결정하는 것에 기초하여, 특정량의 시간 동안, 상기 제1 값을 계속 송신하는 단계를 더 포함한다.
이 양태의 다른 실시예들은, 상기 방법들의 동작들을 수행하도록 각각 구성된, 대응하는 시스템들, 장치, 및 컴퓨터 저장 디바이스들에 기록된 컴퓨터 프로그램들을 포함한다.
이 명세서에 기술된 주제의 특정 실시예들은 다음의 이점들 중 하나 이상을 실현하도록 구현될 수 있다. 다수의 디바이스들이 핫워드를 검출할 수 있고 하나의 디바이스만이 상기 핫워드에 응답할 것이다.
이 명세서에 기술된 주제의 하나 이상의 실시예들의 세부 사항들이 첨부 도면들 및 하기의 설명에서 제시된다. 이 주제의 다른 특징들, 양태들, 및 이점들은 설명, 도면들, 및 청구항들로부터 명백해질 것이다.
도 1은 핫워드 검출을 위한 예시적인 시스템의 도면이다.
도 2는 핫워드 검출을 위한 예시적인 프로세스의 도면이다.
도 3은 컴퓨팅 디바이스 및 모바일 컴퓨팅 디바이스의 예를 보여준다.
다양한 도면들에서 동일한 참조 번호들 및 명칭들은 동일한 요소들을 나타낸다.
도 2는 핫워드 검출을 위한 예시적인 프로세스의 도면이다.
도 3은 컴퓨팅 디바이스 및 모바일 컴퓨팅 디바이스의 예를 보여준다.
다양한 도면들에서 동일한 참조 번호들 및 명칭들은 동일한 요소들을 나타낸다.
너무 멀지 않은 미래에, 많은 디바이스들이 계속해서 핫워드들을 청취하고 있을 수 있는 것이 가능하다. 단일 사용자가 그들의 음성에 응답하도록 훈련된 다수의 디바이스들(예컨대, 전화, 태블릿, TV 등)을 가지는 경우, 사용자가 어드레싱하려고 의도하는 것들일 가능성이 없는 디바이스들에서 핫워드들에 응답하는 것을 억제하는 것이 바람직할 수 있다. 예를 들어, 사용자가 하나의 디바이스를 향하여 핫워드를 말할 때, 그들의 다른 디바이스들 중 임의의 것이 근처에 있다면, 그것들도 음성 검색을 트리거할 가능성이 있다. 많은 경우에, 이것은 사용자의 의도가 아니다. 따라서, 단일 디바이스, 구체적으로 사용자가 말하고 있는 대상인 디바이스만이 트리거한다면 유리할 수 있다. 본 명세서는 핫워드에 반응하기 위한 정확한 디바이스를 선택하고, 다른 디바이스들에서의 상기 핫워드에 대한 반응을 억제하는 문제를 다룬다.
도 1은 핫워드 검출을 위한 예시적인 시스템(100)의 도면이다. 일반적으로, 시스템(100)은 사용자(102)가 컴퓨팅 디바이스들(106, 108, 및 110)의 마이크들에 의해 검출되는 발성(104)을 말하는 것을 보여준다. 컴퓨팅 디바이스들(106, 108, 및 110)은 상기 발성(104)을 처리하여 상기 발성(104)이 핫워드를 포함할 가능성을 결정한다. 컴퓨팅 디바이스들(106, 108, 및 110)은 각각 상기 발성(104)이 핫워드를 포함할 가능성을 나타내는 데이터를 서로에게 송신한다. 컴퓨팅 디바이스들(106, 108, 및 110)은 각각 그 데이터를 비교하고, 상기 발성(104)이 핫워드를 포함할 가장 높은 가능성을 계산한 컴퓨팅 디바이스는 상기 발성(104)에 대한 음성 인식을 개시한다. 상기 발성(104)이 핫워드를 포함할 가장 높은 가능성을 계산하지 않은 컴퓨팅 디바이스들은 상기 발성(104) 이후의 음성에 대한 음성 인식을 개시하지 않는다.
상기 발성(104)이 핫워드에 대응할 가능성을 나타내는 데이터를, 다른 컴퓨팅 디바이스에 송신하기 전에, 서로의 근처에 위치하는 컴퓨팅 디바이스들은 서로를 식별한다. 일부 구현들에서, 컴퓨팅 디바이스들은 핫워드에 응답하도록 구성된 다른 디바이스들을 찾아 로컬 네트워크를 검색하는 것에 의해 서로를 식별한다. 예를 들어, 컴퓨팅 디바이스(106)는 핫워드에 응답하도록 구성된 다른 디바이스들을 찾아 로컬 영역 네트워크를 검색하고 컴퓨팅 디바이스(108) 및 컴퓨팅 디바이스(110)를 식별할 수 있다.
일부 구현들에서, 컴퓨팅 디바이스들은 각각의 디바이스에 로그인되어 있는 사용자를 식별하는 것에 의해 핫워드에 응답하도록 구성된 다른 근처의 컴퓨팅 디바이스들을 식별한다. 예를 들어, 사용자(102)가 컴퓨팅 디바이스들(106, 108, 및 110)에 로그인되어 있다. 사용자(102)는 그 사용자의 손에 컴퓨팅 디바이스(106)를 가진다. 컴퓨팅 디바이스(108)는 테이블에 놓여 있고, 컴퓨팅 디바이스(110)는 근처의 벽에 위치하고 있다. 컴퓨팅 디바이스(106)는 컴퓨팅 디바이스들(108 및 110)을 검출하고, 각각의 컴퓨팅 디바이스는 사용자 식별자와 같은, 컴퓨팅 디바이스에 로그인되어 있는 사용자와 관련 있는 정보를 공유한다. 일부 구현들에서, 컴퓨팅 디바이스들은 화자 식별(speaker identification)을 통하여 동일한 사용자에 의해 핫워드가 말해질 때 응답하도록 구성된 컴퓨팅 디바이스들을 식별하는 것에 의해 핫워드에 응답하도록 구성된 다른 근처의 컴퓨팅 디바이스들을 식별할 수 있다. 예를 들어, 사용자(102)는 컴퓨팅 디바이스들(106, 108, 및 110)을 각각, 사용자(102)가 핫워드를 말할 때 사용자(102)의 음성에 응답하도록 구성하였다. 컴퓨팅 디바이스들은 사용자(102)에 대한 사용자 식별자를 각각의 다른 컴퓨팅 디바이스에 제공하는 것에 의해 화자 식별 정보를 공유한다. 일부 구현들에서, 컴퓨팅 디바이스들은 단거리 무선을 통하여 핫워드에 응답하도록 구성된 다른 컴퓨팅 디바이스들을 식별할 수 있다. 예를 들어, 컴퓨팅 디바이스(106)는 핫워드에 응답하도록 구성된 다른 컴퓨팅 디바이스들을 검색하는 신호를 단거리 무선을 통하여 송신할 수 있다. 컴퓨팅 디바이스들은 이러한 기법들 중 하나 또는 이들의 조합을 이용하여 핫워드에 응답하도록 구성된 다른 컴퓨팅 디바이스들을 식별할 수 있다
컴퓨팅 디바이스들(106, 108, 및 110)이 핫워드에 응답하도록 구성된 다른 컴퓨팅 디바이스들을 식별하면, 컴퓨팅 디바이스들(106, 108, 및 110)은 식별된 컴퓨팅 디바이스들에 대한 디바이스 식별자들을 공유 및 저장한다. 식별자들은 디바이스의 타입, 디바이스의 IP 주소, MAC 주소, 사용자에 의해 디바이스에 주어진 이름, 또는 임의의 유사한 고유 식별자에 기초할 수 있다. 예를 들어, 컴퓨팅 디바이스(106)에 대한 디바이스 식별자(112)는 "전화(phone)"일 수 있다. 컴퓨팅 디바이스(108)에 대한 디바이스 식별자(114)는 "태블릿(tablet)"일 수 있다. 컴퓨팅 디바이스(110)에 대한 디바이스 식별자(116)는 "온도조절장치(thermostat)"일 수 있다. 컴퓨팅 디바이스들(106, 108, 및 110)은 핫워드에 응답하도록 구성된 다른 컴퓨팅 디바이스들에 대한 디바이스 식별자를 저장한다. 각각의 컴퓨팅 디바이스는 디바이스 그룹을 가지며 거기에 컴퓨팅 디바이스는 디바이스 식별자들을 저장한다. 예를 들어, 컴퓨팅 디바이스(106)는 컴퓨팅 디바이스(106)에 의해 계산된, 오디오 데이터가 핫워드를 포함할 가능성을 수신할 2개의 디바이스로서 "태블릿"과 "온도조절장치"를 열거하는 디바이스 그룹(118)을 가진다. 컴퓨팅 디바이스(108)는 컴퓨팅 디바이스(108)에 의해 계산된, 오디오 데이터가 핫워드를 포함할 가능성을 수신할 2개의 디바이스로서 "전화"와 "온도조절장치"를 열거하는 디바이스 그룹(120)을 가진다. 컴퓨팅 디바이스(110)는 컴퓨팅 디바이스(110)에 의해 계산된, 오디오 데이터가 핫워드를 포함할 가능성을 수신할 2개의 디바이스로서 "전화"와 "태블릿"을 열거하는 디바이스 그룹(122)을 가진다.
사용자(102)가 "OK 컴퓨터"라는 발성(104)을 말할 때, 사용자(102)의 근처에 마이크를 가진 각각의 컴퓨팅 디바이스는 발성(104)을 검출하고 처리한다. 각각의 컴퓨팅 디바이스는 마이크와 같은 오디오 입력 디바이스를 통하여 발성(104)을 검출한다. 각각의 마이크는 오디오 데이터를 각자의 오디오 서브시스템에 제공한다. 각자의 오디오 서브시스템은 오디오 데이터를 버퍼링하고, 필터링하고, 디지털화한다. 일부 구현들에서, 각각의 컴퓨팅 디바이스는 또한 오디오 데이터에 대한 엔드포인팅 및 화자 식별을 수행할 수 있다. 오디오 서브시스템은 처리된 오디오 데이터를 핫워더(hotworder)에 제공한다. 핫워더는 처리된 오디오 데이터를 알려진 핫워드 데이터와 비교하고 발성(104)이 핫워드에 대응할 가능성을 나타내는 신뢰도 점수를 계산한다. 핫워더는 처리된 오디오 데이터로부터, 필터뱅크 에너지(filterbank energy) 또는 멜 주파수 켑스트럼 계수(mel-frequency cepstral coefficient)와 같은 오디오 특징들을 추출할 수 있다. 핫워더는 분류 윈도우(classifying window)들을 이용하여, 예를 들어 서포트 벡터 머신(support vector machine) 또는 신경망(neural network)을 이용하는 것에 의해 이러한 오디오 특징들을 처리할 수 있다. 오디오 특징들의 처리에 기초하여, 핫워더(124)는 0.85의 신뢰도 점수를 계산하고, 핫워더(126)는 0.6의 신뢰도 점수를 계산하고, 핫워더(128)는 0.45의 신뢰도 점수를 계산한다. 일부 구현들에서, 신뢰도 점수는 0 내지 1의 스케일로 정규화될 수 있고, 더 높은 숫자는 발성(104)이 핫워드를 포함할 더 큰 신뢰도를 나타낸다.
각각의 컴퓨팅 디바이스는 각자의 신뢰도 점수 데이터 패킷을 디바이스 그룹 내의 다른 컴퓨팅 디바이스들에 송신한다. 각각의 신뢰도 점수 데이터 패킷은 각자의 신뢰도 점수 및 컴퓨팅 디바이스에 대한 각자의 디바이스 식별자를 포함한다. 예를 들어, 컴퓨팅 디바이스(106)는 0.85의 신뢰도 점수 및 디바이스 식별자 "전화"를 포함하는 신뢰도 점수 데이터 패킷(130)을 디바이스 그룹(118) 내의 컴퓨팅 디바이스들인, 컴퓨팅 디바이스들(108 및 110)에 송신한다. 컴퓨팅 디바이스(108)는 0.6의 신뢰도 점수 및 디바이스 식별자 "태블릿"을 포함하는 신뢰도 점수 데이터 패킷(132)을 디바이스 그룹(120) 내의 컴퓨팅 디바이스들인, 컴퓨팅 디바이스들(106 및 110)에 송신한다. 컴퓨팅 디바이스(110)는 0.45의 신뢰도 점수 및 디바이스 식별자 "온도조절장치"를 포함하는 신뢰도 점수 데이터 패킷(134)을 디바이스 그룹(118) 내의 컴퓨팅 디바이스들인, 컴퓨팅 디바이스들(106 및 108)에 송신한다.
일부 구현들에서, 컴퓨팅 디바이스는 신뢰도 점수가 핫워드 점수 임계치를 만족시키면 신뢰도 점수 데이터 패킷을 송신할 수 있다. 예를 들어, 핫워드 점수 임계치가 0.5이면, 컴퓨팅 디바이스(110)는 신뢰도 점수 데이터 패킷(134)을 디바이스 그룹(122) 내의 다른 컴퓨팅 디바이스들에 송신하지 않을 것이다. 컴퓨팅 디바이스들(106 및 108)은 여전히 신뢰도 점수 데이터 패킷들(130 및 132)을, 각각, 디바이스 그룹들(118 및 120) 내의 컴퓨팅 디바이스들에 송신할 것이다.
일부 구현들에서, 신뢰도 점수 데이터 패킷을 송신하는 컴퓨팅 디바이스는 신뢰도 점수 데이터 패킷을 다른 컴퓨팅 디바이스들에 직접 송신할 수 있다. 예를 들어, 컴퓨팅 디바이스(106)는 신뢰도 점수 데이터 패킷(130)을 컴퓨팅 디바이스들(108 및 110)에 단거리 무선을 통하여 송신할 수 있다. 2개의 컴퓨팅 디바이스 사이에 사용되는 통신 프로토콜은 유니버설 플러그 앤 플레이(universal plug and play)일 수 있다. 일부 구현들에서, 신뢰도 점수 데이터 패킷을 송신하는 컴퓨팅 디바이스는 신뢰도 점수 데이터 패킷을 브로드캐스트할 수 있다. 이 경우, 신뢰도 점수 데이터 패킷은 디바이스 그룹 내의 컴퓨팅 디바이스들에 의해 그리고 다른 컴퓨팅 디바이스들에 의해 수신될 수 있다. 일부 구현들에서, 신뢰도 점수 데이터 패킷을 송신하는 컴퓨팅 디바이스는 신뢰도 점수 데이터 패킷을 서버에 송신할 수 있고, 그 후 서버는 신뢰도 점수 데이터 패킷을 디바이스 그룹 내의 컴퓨팅 디바이스들에 송신한다. 서버는 컴퓨팅 디바이스들의 로컬 영역 네트워크 내에 위치하거나 인터넷을 통하여 액세스 가능할 수 있다. 예를 들어, 컴퓨팅 디바이스(108)는 신뢰도 점수 데이터 패킷(132) 및 디바이스 그룹(120) 내의 컴퓨팅 디바이스들의 목록을 서버에 송신한다. 서버는 신뢰도 점수 데이터 패킷(132)을 컴퓨팅 디바이스(106 및 110)에 송신한다. 컴퓨팅 디바이스가 신뢰도 점수 데이터 패킷을 다른 컴퓨팅 디바이스에 송신하는 경우에, 수신 컴퓨팅 디바이스는 수신 컴퓨팅 디바이스가 신뢰도 점수 데이터 패킷을 수신했다는 확인을 회신할 수 있다.
각각의 컴퓨팅 디바이스는 점수 비교기를 이용하여 컴퓨팅 디바이스가 수신한 핫워드 신뢰도 점수들을 비교한다. 예를 들어, 컴퓨팅 디바이스(106)는 0.85의 핫워드 신뢰도 점수를 계산하였고 0.6 및 0.45의 핫워드 신뢰도 점수들을 수신하였다. 이 경우, 점수 비교기(136)는 3개의 점수를 비교하고 0.85의 점수를 가장 높은 것으로 식별한다. 컴퓨팅 디바이스들(108 및 110)에 대해, 점수 비교기들(138 및 140)은 컴퓨팅 디바이스(106)에 대응하는 0.85의 점수를 가장 높은 것으로 식별하는, 유사한 결론들에 도달한다.
그 자신의 핫워드 신뢰도 점수가 가장 높은 것을 결정하는 컴퓨팅 디바이스는 핫워드 발성 이후의 음성 데이터에 대한 음성 인식을 개시한다. 예를 들어, 사용자는 "OK 컴퓨터"를 말할 수 있고, 컴퓨팅 디바이스(106)는 그것이 가장 높은 핫워드 신뢰도 점수를 가지는 것을 결정할 수 있다. 컴퓨팅 디바이스(106)는 핫워드 이후에 수신된 오디오 데이터에 대한 음성 인식을 개시할 것이다. 사용자가 "Alice 호출(call Alice)"을 말하면, 컴퓨팅 디바이스(106)는 발성을 처리하고 적절한 명령을 실행할 것이다. 일부 구현들에서, 핫워드를 수신하는 것은 핫워드를 수신하는 컴퓨팅 디바이스들로 하여금 슬립(sleep) 상태로부터 활성화하게 할 수 있다. 이 경우, 가장 높은 핫워드 신뢰도 점수를 가진 컴퓨팅 디바이스는 어웨이크(awake) 상태에 남아 있는 반면 가장 높은 핫워드 신뢰도 점수를 갖지 않는 다른 컴퓨팅 디바이스들은 핫워드 발성 이후의 음성 데이터를 처리하지 않고 슬립 상태에 들어간다.
도 1에 예시된 바와 같이, 점수 비교기(136)는 컴퓨팅 디바이스(106)에 대응하는 핫워드 신뢰도 점수를 가장 높은 것으로 식별하였다. 그러므로, 디바이스 상태(142)는 "어웨이크"이다. 점수 비교기들(138 및 140)도 컴퓨팅 디바이스(106)에 대응하는 핫워드 신뢰도 점수를 가장 높은 것으로 식별하였다. 그러므로, 디바이스 상태들(144 및 146)은 "슬립(asleep)"이다. 일부 구현들에서, 컴퓨팅 디바이스의 활성화 상태는 영향을 받지 않을 수 있다. 예를 들어, 사용자(102)는 컴퓨팅 디바이스(108)에서 영화를 시청중이고 사용자의 손에 컴퓨팅 디바이스(106)를 가질 수 있다. 사용자(102)가 "OK 컴퓨터"를 말할 때, 컴퓨팅 디바이스(106)는, 가장 높은 핫워드 신뢰도 점수를 가지고 있기 때문에, 핫워드 이후의 오디오 데이터에 대한 음성 인식을 개시한다. 컴퓨팅 디바이스(108)는 핫워드 이후의 오디오 데이터에 대한 음성 인식을 개시하지 않고, 계속 영화를 재생한다.
일부 구현들에서, 그것이 가장 높은 핫워드 신뢰도 점수를 가지는 것을 결정하는 컴퓨팅 디바이스는 핫워드 이후의 음성에 대한 음성 인식의 수행을 시작하기 전에 특정량의 시간 동안 기다린다. 이렇게 하는 것은 가장 높은 핫워드 신뢰도 점수를 계산한 컴퓨팅 디바이스가 더 높은 핫워드 신뢰도 점수를 기다리지 않고 핫워드 이후의 음성에 대한 음성 인식의 수행을 시작하는 것을 허용한다. 예시하자면, 컴퓨팅 디바이스(106)의 점수 비교기(136)는 컴퓨팅 디바이스(108 및 110)로부터, 각각, 0.6 및 0.45의 핫워드 신뢰도 점수들뿐만 아니라, 핫워더(124)로부터 0.85의 핫워드 신뢰도 점수를 수신하였다. 핫워더(124)가 "Ok 컴퓨터" 오디오 데이터의 핫워드 신뢰도 점수를 계산하는 때로부터, 컴퓨팅 디바이스(106)는 핫워드 이후의 음성에 대한 음성 인식을 수행하기 전에 500 밀리초를 기다린다. 점수 비교기가 더 높은 점수를 수신하는 경우에, 컴퓨팅 디바이스는 디바이스 상태를 "슬립"으로 설정하기 전에 특정량의 시간 동안 기다리지 않을 수 있다. 예를 들어, 컴퓨팅 디바이스(108)의 핫워더(126)는 0.6의 핫워드 신뢰도 점수를 계산하고 0.85 및 0.45의 핫워드 신뢰도 점수들을 수신한다. 컴퓨팅 디바이스(108)가 0.85의 핫워드 신뢰도 점수를 수신하면, 컴퓨팅 디바이스(108)는 디바이스 상태(144)를 "슬립"으로 설정할 수 있다. 이것은 컴퓨팅 디바이스(108)가 핫워더(126)가 0.6의 핫워드 신뢰도 점수를 계산한 후에 특정량의 시간 내에 0.85의 핫워드 신뢰도 점수를 수신하는 것을 가정한다.
일부 구현들에서, 컴퓨팅 디바이스가 가장 높은 핫워드 신뢰도 점수를 가지는 경우, 컴퓨팅 디바이스는 다른 컴퓨팅 디바이스들이 신뢰도 점수 데이터 패킷을 수신하는 것을 보장하기 위해 특정량의 시간 동안 계속 신뢰도 점수 데이터 패킷을 브로드캐스트할 수 있다. 이 전략은 컴퓨팅 디바이스가 다른 컴퓨팅 디바이스로부터 신뢰도 점수 데이터 패킷을 수신하면 확인을 회신하는 경우에 가장 적용 가능할 것이다. 그러므로, 컴퓨팅 디바이스(106)가 신뢰도 점수 데이터 패킷(130)을 디바이스 그룹(118) 내의 컴퓨팅 디바이스들에 송신하고 500 밀리초와 같은 특정량의 시간 전에 확인을 수신하면, 컴퓨팅 디바이스(106)는 핫워드 이후의 음성에 대한 음성 인식의 수행을 시작할 수 있다. 컴퓨팅 디바이스들이 그들의 신뢰도 점수 데이터 패킷들을 브로드캐스트하고 확인을 기대하지 않는 경우에, 컴퓨팅 디바이스는 그들의 핫워드 신뢰도 점수들을, 500 밀리초와 같은 특정량의 시간 동안, 또는 컴퓨팅 디바이스가 어떤 것이든 맨 먼저 오는 더 높은 핫워드 신뢰도 점수를 수신할 때까지, 계속 브로드캐스트할 수 있다. 예를 들어, 컴퓨팅 디바이스(110)는 0.45의 핫워드 신뢰도 점수를 계산하고 신뢰도 점수 데이터 패킷(134)을 브로드캐스트하기 시작한다. 300 밀리초 후에, 컴퓨팅 디바이스(110)는 신뢰도 점수 데이터 패킷(130)을 수신하고 신뢰도 점수 데이터 패킷(134)의 브로드캐스트를 중지하는데, 그 이유는 신뢰도 점수 데이터 패킷(130)으로부터의 0.85의 핫워드 신뢰도 점수가 45의 핫워드 신뢰도 점수보다 높기 때문이다. 또 다른 브로드캐스트 예로서, 컴퓨팅 디바이스(106)는 0.45의 핫워드 신뢰도 점수를 계산하고 신뢰도 점수 데이터 패킷(130)을 브로드캐스트하기 시작한다. 500 밀리초 후에, 컴퓨팅 디바이스(106)는 신뢰도 점수 데이터 패킷(130)의 브로드캐스트를 중지하고 핫워드 이후의 음성에 대한 음성 인식의 수행을 시작한다. 컴퓨팅 디바이스(106)는 500 밀리초가 경과하기 전에 신뢰도 점수 데이터 패킷들(132 및 134)을 수신할 수 있지만, 신뢰도 점수 데이터 패킷들(132 및 134) 내의 핫워드 신뢰도 점수들이 0.85보다 낮기 때문에, 컴퓨팅 디바이스 500 밀리초가 경과한 후까지 계속 기다린다.
일부 구현들에서, 컴퓨팅 디바이스가 더 높은 핫워드 신뢰도 점수를 수신할 때까지 컴퓨팅 디바이스는 핫워드 이후의 음성에 대한 음성 인식의 수행을 시작할 수 있다. 핫워더는 핫워드 신뢰도 점수를 계산하고, 핫워드 신뢰도 점수가 임계치를 만족시키면, 컴퓨팅 디바이스는 핫워드 이후의 음성에 대한 음성 인식을 수행한다. 컴퓨팅 디바이스는 음성 인식에 대한 어떤 지시도 사용자에 표시하지 않고 음성 인식을 수행할 수 있다. 이것은 그렇게 하는 것이 컴퓨팅 디바이스가 가장 높은 핫워드 점수를 계산한 것을 확인할 때까지 컴퓨팅 디바이스가 기다리는 경우보다 더 빠르게 컴퓨팅 디바이스가 음성 인식에 기초한 결과들을 사용자에게 표시하는 것을 허용하면서도 컴퓨팅 디바이스가 활성이 아니라는 인상을 사용자에 주기 때문에 바람직할 수 있다. 예로서, 컴퓨팅 디바이스(106)는 0.85의 핫워드 신뢰도 점수를 계산하고 핫워드 이후의 음성에 대한 음성 인식의 수행을 시작한다. 컴퓨팅 디바이스(106)는 신뢰도 점수 데이터 패킷들(132 및 134)을 수신하고 0.85의 핫워드 신뢰도 점수가 가장 높다는 것을 결정한다. 컴퓨팅 디바이스(106)는 핫워드 이후의 음성에 대한 음성 인식을 계속 수행하고 그 결과들을 사용자에 제시한다. 컴퓨팅 디바이스(108)에 대해, 핫워더(126)는 0.6의 핫워드 신뢰도 점수를 계산하고, 컴퓨팅 디바이스(108)는 사용자에 데이터를 표시하지 않고 핫워드 이후의 음성에 대한 음성 인식의 수행을 시작한다. 컴퓨팅 디바이스(108)가 0.85의 핫워드 신뢰도를 포함하는 신뢰도 점수 데이터 패킷(130)을 수신하면, 컴퓨팅 디바이스는 음성 인식의 수행을 중지한다. 어떤 데이터도 사용자에 표시되지 않고, 사용자는 컴퓨팅 디바이스(108)가 "슬립" 상태에 남아 있었다는 인상을 받을 가능성이 있다.
일부 구현들에서, 핫워드가 말해진 후에 어떤 대기 시간도 피하기 위해, 핫워드의 끝 전에, 예컨대, 부분적인 핫워드에 대해 핫워더로부터 점수들이 보고될 수 있다. 예를 들어, 사용자가 "Ok 컴퓨터"를 말하고 있을 때, 컴퓨팅 디바이스는 사용자가 "OK 컴(OK comp)"을 말하는 것을 완료하면 부분적인 핫워드 신뢰도 점수를 계산할 수 있다. 그 후 컴퓨팅 디바이스는 부분적인 핫워드 신뢰도 점수를 다른 컴퓨팅 디바이스들과 공유할 수 있다. 가장 높은 부분적인 핫워드 신뢰도 점수를 가진 컴퓨팅 디바이스는 사용자의 음성을 계속 처리할 수 있다.
일부 구현들에서, 컴퓨팅 디바이스가 핫워드 신뢰도 점수가 임계치를 만족시키는 것을 결정할 때 컴퓨팅 디바이스는, 예컨대, 특정 주파수 또는 주파수 패턴의, 가청음 또는 불가청음을 낼 수 있다. 그 음은 다른 컴퓨팅 디바이스들에게, 컴퓨팅 디바이스가 핫워드 이후의 오디오 데이터를 계속 처리할 것임을 신호할 것이다. 다른 컴퓨팅 디바이스들은 이 음을 수신하고 오디오 데이터의 처리를 중단할 것이다. 예를 들어, 사용자는 "Ok 컴퓨터"를 말한다. 컴퓨팅 디바이스들 중 하나가 임계치 이상인 핫워드 신뢰도 점수를 계산한다. 컴퓨팅 디바이스가 핫워드 신뢰도 점수가 임계치 이상인 것을 결정하면, 컴퓨팅 디바이스는 18 킬로헤르츠의 음을 낸다. 사용자 근처에 있는 다른 컴퓨팅 디바이스들도 핫워드 신뢰도 점수를 계산중일 수 있고 다른 컴퓨팅 디바이스들이 음을 수신할 때 핫워드 신뢰도 점수를 계산하는 도중일 수 있다. 다른 컴퓨팅 디바이스들이 음을 수신할 때, 다른 컴퓨팅 디바이스들은 사용자의 음성의 처리를 중단한다. 일부 구현들에서, 컴퓨팅 디바이스는 가청음 또는 불가청음에 핫워드 신뢰도 점수를 인코딩할 수 있다. 예를 들어, 핫워드 신뢰도 점수가 0.5이면, 컴퓨팅 디바이스는 0.5의 점수를 인코딩하는 주파수 패턴을 포함하는 가청음 또는 불가청음을 생성할 수 있다.
일부 구현들에서, 컴퓨팅 디바이스들은 상이한 오디오 메트릭들을 이용하여, 사용자의 음성의 처리를 계속할 컴퓨팅 디바이스를 선택할 수 있다. 예를 들어, 컴퓨팅 디바이스들은 소리 세기(loudness)를 이용하여, 어느 컴퓨팅 디바이스가 사용자의 음성을 계속 처리할 것인지를 결정할 수 있다. 가장 큰 음성을 검출하는 컴퓨팅 디바이스는 사용자의 음성을 계속 처리할 수 있다. 또 다른 예로서, 현재 사용중인 또는 활성 디스플레이를 가진 컴퓨팅 디바이스는 다른 컴퓨팅 디바이스들에게, 그것이 핫워드를 검출하면 사용자의 음성의 계속 처리할 것임을 통지할 수 있다.
일부 구현들에서, 사용자가 말하고 있는 동안 사용자의 근처에 있는 각각의 컴퓨팅 디바이스는 오디오 데이터를 수신하고 음성 인식을 개선하기 위해 그 오디오 데이터를 서버에 송신한다. 각각의 컴퓨팅 디바이스는 사용자의 음성에 대응하는 오디오 데이터를 수신할 수 있다. 하나의 컴퓨팅 디바이스만이 사용자에게 사용자의 음성을 처리하고 있는 것으로 보이겠지만, 각각의 컴퓨팅 디바이스가 오디오 데이터를 서버에 송신할 수 있다. 그 후 서버는 각각의 컴퓨팅 디바이스로부터 수신되는 오디오 데이터를 이용하여 음성 인식을 개선할 수 있는데, 그 이유는 서버가 동일한 발성에 대응하는 상이한 오디오 샘플들을 비교할 수 있기 때문이다. 예를 들어, 사용자가 "Ok 컴퓨터, 우유를 사는 것을 상기시켜달라(Ok computer, remind me to buy milk)"고 말한다. 사용자가 "Ok 컴퓨터"를 말하는 것을 완료하면, 근처의 컴퓨팅 디바이스들은 어느 컴퓨팅 디바이스가 가장 높은 핫워드 신뢰도 점수를 가지는지를 결정했을 가능성이 있을 것이고, 해당 컴퓨팅 디바이스는 사용자가 "우유를 사는 것을 상기시켜달라"는 단어들을 말할 때 그 단어들을 처리하고 그에 응답할 것이다. 다른 컴퓨팅 디바이스들도 "우유를 사는 것을 상기시켜달라"를 수신할 것이다. 다른 컴퓨팅 디바이스는 "우유를 사는 것을 상기시켜달라"는 발성에 응답하지 않겠지만, 다른 컴퓨팅 디바이스들은 "우유를 사는 것을 상기시켜달라"에 대응하는 오디오 데이터를 서버에 송신할 수 있다. "우유를 사는 것을 상기시켜달라"에 응답하는 컴퓨팅 디바이스들도 그것의 오디오 데이터를 서버에 송신할 수 있다. 서버는 그 오디오 데이터를 처리하여 음성 인식을 개선할 수 있는데, 그 이유는 서버가 동일한 "우유를 사는 것을 상기시켜달라" 발성에 대응하는 상이한 컴퓨팅 디바이스들로부터의 상이한 오디오 샘플들을 가지기 때문이다.
도 2는 핫워드 검출을 위한 예시적인 프로세스(200)의 도면이다. 프로세스(200)는 도 1로부터의 컴퓨팅 디바이스(108)와 같은 컴퓨팅 디바이스에 의해 수행될 수 있다. 프로세스(200)는 발성이 핫워드를 포함할 가능성에 대응하는 값을 계산하고 그 값을 다른 컴퓨팅 디바이스들에 의해 계산된 다른 값들과 비교하여 핫워드 이후의 발성의 부분에 대한 음성 인식을 수행할지 여부를 결정한다.
컴퓨팅 디바이스는 발성에 대응하는 오디오 데이터를 수신한다(210). 사용자가 발성을 말하고 컴퓨팅 디바이스의 마이크가 그 발성의 오디오 데이터를 수신한다. 컴퓨팅 디바이스는 오디오 데이터를 버터링, 필터링, 엔드포인팅, 및 디지털화하는 것에 의해 오디오 데이터를 처리한다. 예로서, 사용자는 "Ok, 컴퓨터"를 발성할 수 있고, 컴퓨팅 디바이스의 마이크는 "Ok, 컴퓨터"에 대응하는 오디오 데이터를 수신할 것이다. 컴퓨팅 디바이스의 오디오 서브시스템이 컴퓨팅 디바이스에 의한 추가 처리를 위해 오디오 데이터를 샘플링, 버퍼링, 필터링, 및 엔드포인팅할 것이다.
컴퓨팅 디바이스는 발성이 핫워드를 포함할 가능성에 대응하는 제1 값을 결정한다(220). 컴퓨팅 디바이스는 발성의 오디오 데이터를 핫워드를 포함하는 오디오 샘플들의 그룹과 비교하는 것에 의해 또는 발성의 오디오 데이터의 오디오 특성들을 분석하는 것에 의해, 핫워드 신뢰도 점수라고 불릴 수 있는, 제1 값을 결정한다. 제1 값은 0 내지 1의 스케일로 정규화될 수 있고, 여기서 1은 발성이 핫워드를 포함할 가장 높은 가능성을 나타낸다. 일부 구현들에서, 컴퓨팅 디바이스는 제2 컴퓨팅 디바이스를 식별하고 제2 컴퓨팅 디바이스가 핫워드를 포함하는 발성들에 응답하도록 구성되고 핫워드에 응답하도록 사용자에 의해 구성된 것을 결정한다. 사용자는 컴퓨팅 디바이스와 제2 컴퓨팅 디바이스 양쪽 모두에 로그인되어 있을 수 있다. 컴퓨팅 디바이스와 제2 컴퓨팅 디바이스 양쪽 모두가 사용자의 음성에 응답하도록 구성될 수 있다. 컴퓨팅 디바이스와 제2 컴퓨팅 디바이스는 동일한 로컬 영역 네트워크에 연결될 수 있다. 컴퓨팅 디바이스와 제2 컴퓨팅 디바이스는 양쪽 모두가, GPS 또는 신호 세기에 의해 결정된 바와 같이, 10 미터와 같은, 서로의 특정 거리 이내에 위치할 수 있다. 예를 들어, 이 컴퓨팅 디바이스들은 단거리 무선에 의해 통신할 수 있다. 컴퓨팅 디바이스는 제2 컴퓨팅 디바이스에 의해 송신되는 신호의 세기를 5 dBm으로서 검출하고 그것을 5 미터와 같은 대응하는 거리로 번역할 수 있다.
컴퓨팅 디바이스는 발성이 핫워드를 포함할 가능성에 대응하는 제2 값 - 제2 값은 제2 컴퓨팅 디바이스에 의해 결정됨 - 을 수신한다(230). 제2 컴퓨팅 디바이스는 제2 컴퓨팅 디바이스의 마이크를 통하여 발성을 수신한다. 제2 컴퓨팅 디바이스는 발성에 대응하는 수신된 오디오 데이터를 처리하고 제2 값 또는 제2 핫워드 신뢰도 점수를 결정한다. 제2 핫워드 신뢰도 점수는 제2 컴퓨팅 디바이스에 의해 계산된, 발성이 핫워드를 포함할 가능성을 반영한다. 일부 구현들에서, 컴퓨팅 디바이스는 다음의 기법들 중 하나 이상을 이용하여 제1 값을 제2 컴퓨팅 디바이스에 송신한다. 컴퓨팅 디바이스는 인터넷을 통하여 액세스 가능한 서버를 통하여, 로컬 영역 네트워크에 위치하는 서버를 통하여, 또는 로컬 영역 네트워크 또는 단거리 무선을 통하여 직접, 제1 값을 제2 컴퓨팅 디바이스에 송신할 수 있다. 컴퓨팅 디바이스는 제1 값을 제2 컴퓨팅 디바이스에게만 송신할 수 있거나, 컴퓨팅 디바이스는 다른 컴퓨팅 디바이스들도 제1 값을 수신할 수 있도록 제1 값을 브로드캐스트할 수 있다. 컴퓨팅 디바이스는 컴퓨팅 디바이스가 제1 값을 송신한 것과 동일한 또는 상이한 기법을 이용하여 제2 컴퓨팅 디바이스로부터 제2 값을 수신할 수 있다.
일부 구현들에서, 컴퓨팅 디바이스는 발성에 대한 소리 세기 점수 또는 발성에 대한 신호 대 잡음비를 계산할 수 있다. 컴퓨팅 디바이스는 소리 세기 점수, 신호 대 잡음비, 및 핫워드 신뢰도 점수를 조합하여, 다른 컴퓨팅 디바이스들로부터의 유사한 값들과 비교하기 위한 새로운 값을 결정할 수 있다. 예를 들어, 컴퓨팅 디바이스는 핫워드 신뢰도 점수 및 신호 대 잡음비를 계산할 수 있다. 그 후 컴퓨팅 디바이스는 그 2개의 점수를 조합하고 다른 컴퓨팅 디바이스들로부터의 유사하게 계산된 점수들과 비교할 수 있다. 일부 구현들에서, 컴퓨팅 디바이스는 상이한 점수들을 계산하고 각각의 점수를 비교를 위해 다른 컴퓨팅 디바이스들에 송신할 수 있다. 예를 들어, 컴퓨팅 디바이스는 발성에 대한 소리 세기 점수 및 핫워드 신뢰도 점수를 계산할 수 있다. 그 후 컴퓨팅 디바이스는 그 점수들을 비교를 위해 다른 컴퓨팅 디바이스들에 송신할 수 있다.
일부 구현들에서, 컴퓨팅 디바이스는 제1 값과 함께 제1 식별자를 송신할 수 있다. 이 식별자는 컴퓨팅 디바이스의 주소, 사용자에 의해 주어진 컴퓨팅 디바이스의 이름, 또는 컴퓨팅 디바이스의 위치 중 하나 이상에 기초할 수 있다. 예를 들어, 식별자는 "69.123.132.43" 또는 "전화"일 수 있다. 유사하게, 제2 컴퓨팅 디바이스는 제2 값과 함께 제2 식별자를 송신할 수 있다. 일부 구현들에서, 컴퓨팅 디바이스는 제1 식별자를, 컴퓨팅 디바이스가 핫워드에 응답하도록 구성된 것으로 이전에 식별한 특정 컴퓨팅 디바이스들에 송신할 수 있다. 예를 들어, 컴퓨팅 디바이스는, 핫워드에 응답할 수 있는 것에 더하여, 컴퓨팅 디바이스와 동일한 사용자가 제2 컴퓨팅 디바이스에 로그인되었기 때문에, 제2 컴퓨팅 디바이스를 핫워드에 응답하도록 구성된 것으로 이전에 식별했을 수 있다.
컴퓨팅 디바이스는 제1 값과 제2 값을 비교한다(240). 그 후 컴퓨팅 디바이스는, 비교의 결과에 기초하여, 오디오 데이터에 대한 음성 인식 처리를 개시한다(250). 일부 구현들에서, 예를 들어, 컴퓨팅 디바이스는 제1 값이 제2 값 이상일 때 음성 인식을 개시한다. 사용자가 "ok 컴퓨터, Carol 호출"을 말하면, 컴퓨팅 디바이스는 제1 값이 제2 값 이상이기 때문에, "Carol 호출"에 대한 음성 인식을 수행하는 것에 의해 "Carol 호출"을 처리하기 시작할 것이다. 일부 구현들에서, 컴퓨팅 디바이스는 활성화 상태를 설정한다. 제1 값이 제2 값 이상인 경우에, 컴퓨팅 디바이스는 활성화 상태를 활성 또는 "어웨이크"로서 설정한다. "어웨이크" 상태에서, 컴퓨팅 디바이스는 음성 인식으로부터의 결과들을 표시한다.
일부 구현들에서, 컴퓨팅 디바이스는 제1 값과 제2 값을 비교하고 제1 값이 제2 값 미만인 것을 결정한다. 컴퓨팅 디바이스는, 제1 값이 제2 값 미만이라는 결정에 기초하여, 활성화 상태를 비활성 또는 "슬립"으로서 설정한다. "슬립" 상태에서, 컴퓨팅 디바이스는 사용자에게, 활성이거나 오디오 데이터를 처리하는 것으로 보이지 않는다.
일부 구현들에서, 컴퓨팅 디바이스가 제1 값이 제2 값 이상인 것을 결정할 때, 컴퓨팅 디바이스는 활성화 상태를 활성으로 설정하기 전에 특정량의 시간 동안 기다릴 수 있다. 컴퓨팅 디바이스는 컴퓨팅 디바이스가 다른 컴퓨팅 디바이스로부터 더 높은 값을 수신하지 않을 가능성을 증가시키기 위해 특정량의 시간 동안 기다릴 수 있다. 특정량의 시간은 고정될 수 있거나, 컴퓨팅 디바이스들이 값들을 송수신하는 기법에 따라서 달라질 수 있다. 일부 구현들에서, 컴퓨팅 디바이스가 제1 값이 제2 값 이상인 것을 결정할 때, 컴퓨팅 디바이스는 특정량의 시간 동안 제1 값을 계속 송신할 수 있다. 특정량의 시간 동안 제1 값을 계속 송신하는 것에 의해, 컴퓨팅 디바이스는 제1 값이 다른 컴퓨팅 디바이스들에 의해 수신되는 가능성을 증가시킨다. 컴퓨팅 디바이스가 제1 값이 제2 값 미만인 것을 결정하는 경우에, 컴퓨팅 디바이스는 제1 값의 송신을 중지할 수 있다.
일부 구현들에서, 컴퓨팅 디바이스는 핫워드 이후의 명령을 실행할지를 결정할 때 부가 정보를 고려할 수 있다. 부가 정보의 일 예는 핫워드 이후의 발성의 부분일 수 있다. 전형적으로, 핫워드 이후의 오디오 데이터는 "Sally 호출", "할로윈 영화 재생(play Halloween Movie)", 또는 "70도로 난방 설정(set heat to 70 degrees)"과 같은 컴퓨팅 디바이스에 대한 명령에 대응한다. 컴퓨팅 디바이스는 요청의 타입을 핸들링하는 또는 요청을 핸들링할 수 있는 전형적인 디바이스를 식별할 수 있다. 사람을 호출하는 요청은 전형적으로 미리 프로그램된 전형적인 사용들에 기초하여 또는 디바이스의 사용자의 사용 패턴들에 기초하여 전화에 의해 핸들링될 것이다. 사용자가 전형적으로 태블릿에서 영화를 시청한다면, 태블릿은 영화를 재생하는 요청을 핸들링할 수 있다. 온도조절장치가 온도를 조절할 수 있다면, 온도조절장치는 온도 조절들을 핸들링할 수 있다.
컴퓨팅 디바이스가 핫워드 이후의 발성의 부분을 고려하기 위해, 컴퓨팅 디바이스는 핫워드를 식별할 가능성이 있다면 오디오 데이터에 대한 음성 인식을 개시해야 할 것이다. 컴퓨팅 디바이스는 발성의 명령 부분을 분류하고 해당 분류에서 명령들의 빈도를 계산할 수 있다. 컴퓨팅 디바이스는 그 빈도를 핫워드 신뢰도 점수와 함께 다른 컴퓨팅 디바이스들에 송신할 수 있다. 각각의 컴퓨팅 디바이스는 그 빈도들 및 핫워드 신뢰도 점수들을 이용하여, 핫워드 이후의 명령을 실행할지를 결정할 수 있다.
예를 들어, 사용자가 "OK 컴퓨터, 마이클 잭슨 재생(play Michael Jackson)"을 발성하면, 컴퓨팅 디바이스가 사용자가 시간의 20%를 음악을 청취하는 데 사용하는 전화라면, 컴퓨팅 디바이스는 해당 정보를 핫워드 신뢰도 점수와 함께 송신할 수 있다. 사용자가 시간의 5%를 음악을 청취하는 데 사용하는 태블릿과 같은 컴퓨팅 디바이스는 해당 정보를 핫워드 신뢰도 점수와 함께 다른 컴퓨팅 디바이스들에 송신할 수 있다. 컴퓨팅 디바이스들은 핫워드 신뢰도 점수와 음악 재생 시간의 백분율의 조합을 이용하여, 명령을 실행할지를 결정할 수 있다.
도 3은 본 명세서에 기술된 기법들을 구현하기 위해 이용될 수 있는 컴퓨팅 디바이스(300) 및 모바일 컴퓨팅 디바이스(350)의 예를 보여준다. 컴퓨팅 디바이스(300)는 랩톱, 데스크톱, 워크스테이션, 개인 휴대 정보 단말기, 서버, 블레이드 서버, 메인프레임, 및 다른 적절한 컴퓨터와 같은, 다양한 형태의 디지털 컴퓨터들을 나타내기 위해 의도된 것이다. 모바일 컴퓨팅 디바이스(350)는 개인 휴대 정보 단말기, 휴대 전화, 스마트폰, 및 다른 유사한 컴퓨팅 디바이스들과 같은, 다양한 형태의 모바일 디바이스들을 나타내기 위해 의도된 것이다. 여기에 도시된 컴포넌트들, 그들의 연결들 및 관계들, 및 그들의 기능들은 단지 예들로 의도된 것이고, 제한적인 것으로 의도된 것은 아니다.
컴퓨팅 디바이스(300)는 프로세서(302), 메모리(304), 저장 디바이스(306), 메모리(304) 및 다수의 고속 확장 포트들(310)에 연결되는 고속 인터페이스(308), 및 저속 확장 포트(314) 및 저장 디바이스(306)에 연결되는 저속 인터페이스(312)를 포함한다. 프로세서(302), 메모리(304), 저장 디바이스(306), 고속 인터페이스(308), 고속 확장 포트들(310), 및 저속 인터페이스(312) 각각은 다양한 버스들을 이용하여 상호 연결되고, 공통의 마더보드 상에 또는 적절하게 다른 방식들로 장착될 수 있다. 프로세서(302)는 고속 인터페이스(308)에 결합된 디스플레이(316)와 같은, 외부 입출력 디바이스에서 GUI에 대한 그래픽 정보를 표시하기 위해 메모리(304)에 또는 저장 디바이스(306)에 저장된 명령어들을 포함하는, 컴퓨팅 디바이스(300) 내에서 실행하기 위한 명령어들을 처리할 수 있다. 다른 구현들에서는, 다수의 프로세서들 및/또는 버스들이, 적절하게, 다수의 메모리들 및 메모리 타입들과 함께 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스들이 연결될 수 있고, 각각의 디바이스는 필요한 동작들의 부분들을 제공한다(예컨대, 서버 뱅크, 블레이드 서버들의 그룹, 또는 멀티-프로세서 시스템으로서).
메모리(304)는 컴퓨팅 디바이스(300) 내의 정보를 저장한다. 일부 구현들에서, 메모리(304)는 휘발성 메모리 유닛 또는 유닛들이다. 일부 구현들에서, 메모리(304)는 비휘발성 메모리 유닛 또는 유닛들이다. 메모리(304)는 또한 자기 또는 광 디스크와 같은, 다른 형태의 컴퓨터-판독가능 매체일 수 있다.
저장 디바이스(306)는 컴퓨팅 디바이스(300)를 위한 대용량 저장을 제공할 수 있다. 일부 구현들에서, 저장 디바이스(306)는 플로피 디스크 디바이스, 하드 디스크 디바이스, 광 디스크 디바이스, 또는 테이프 디바이스, 플래시 메모리 또는 다른 유사한 솔리드 스테이트 메모리 디바이스, 또는 저장 영역 네트워크 또는 다른 구성들에서의 디바이스들을 포함하는, 디바이스들의 어레이와 같은, 컴퓨터-판독가능 매체이거나 이를 포함할 수 있다. 명령어들은 정보 캐리어에 저장될 수 있다. 명령어들은, 하나 이상의 처리 디바이스들(예를 들어, 프로세서(302))에 의해 실행될 때, 전술한 것들과 같은 하나 이상의 방법을 수행한다. 명령어들은 또한 컴퓨터- 또는 머신-판독가능 매체들(예를 들어, 메모리(304), 저장 디바이스(306), 또는 프로세서(302)의 메모리)과 같은 하나 이상의 저장 디바이스에 의해 저장될 수 있다.
고속 인터페이스(308)는 컴퓨팅 디바이스(300)를 위한 대역폭 집중적인 동작들을 관리하는 반면, 저속 인터페이스(312)는 저대역폭 집중적인 동작들을 관리한다. 이러한 기능들의 할당은 단지 예이다. 일부 구현들에서, 고속 인터페이스(308)는 메모리(304), 디스플레이(316)에(예컨대, 그래픽 프로세서 또는 가속기를 통하여), 그리고 다양한 확장 카드들(미도시)을 수용할 수 있는, 고속 확장 포트들(310)에 결합된다. 구현에서, 저속 인터페이스(312)는 저장 디바이스(306) 및 저속 확장 포트(314)에 결합된다. 다양한 통신 포트들(예컨대, USB, 블루투스, 이더넷, 무선 이더넷)을 포함할 수 있는, 저속 확장 포트(314)는 키보드, 포인팅 디바이스, 스캐너와 같은 하나 이상의 입출력 디바이스에, 또는 스위치 또는 라우터와 같은 네트워킹 디바이스에(예컨대, 네트워크 어댑터를 통하여) 결합될 수 있다.
컴퓨팅 디바이스(300)는 도면에 도시된 바와 같이, 다수의 상이한 형태들로 구현될 수 있다. 예를 들어, 그것은 표준 서버(320)로서, 또는 그러한 서버들의 그룹에서 여러 번 구현될 수 있다. 게다가, 그것은 랩톱 컴퓨터(322)와 같은 개인용 컴퓨터로 구현될 수 있다. 그것은 또한 랙 서버 시스템(324)의 일부로서 구현될 수 있다. 대안적으로, 컴퓨팅 디바이스(300)로부터의 컴포넌트들은 모바일 컴퓨팅 디바이스(350)와 같은, 모바일 디바이스 내의 다른 컴포넌트들(미도시)과 조합될 수 있다. 그러한 디바이스들 각각은 컴퓨팅 디바이스(300)와 모바일 컴퓨팅 디바이스(350) 중 하나 이상을 포함할 수 있고, 전체 시스템은 서로 통신하는 다수의 컴퓨팅 디바이스들로 구성될 수 있다.
모바일 컴퓨팅 디바이스(350)은, 여러 컴포넌트들 중에서, 프로세서(352), 메모리(364), 디스플레이(354)와 같은 입출력 디바이스, 통신 인터페이스(366), 및 트랜시버(368)를 포함한다. 모바일 컴퓨팅 디바이스(350)는 또한 부가 저장을 제공하기 위해, 마이크로-드라이브 또는 다른 디바이스와 같은 저장 디바이스를 구비할 수 있다. 프로세서(352), 메모리(364), 디스플레이(354), 통신 인터페이스(366), 및 트랜시버(368) 각각은 다양한 버스들을 이용하여 상호 연결되고, 컴포넌트들 중 여러 개가 공통 마더보드 상에 또는 적절하게 다른 방식들로 장착될 수 있다.
프로세서(352)는 메모리(364)에 저장된 명령어들을 포함하는, 모바일 컴퓨팅 디바이스(350) 내의 명령어들을 실행할 수 있다. 프로세서(352)는 개별적인 다수의 아날로그 및 디지털 프로세서들을 포함하는 칩들의 칩셋으로 구현될 수 있다. 프로세서(352)는, 예를 들어, 사용자 인터페이스들의 제어, 모바일 컴퓨팅 디바이스(350)에 의해 실행되는 애플리케이션들, 및 모바일 컴퓨팅 디바이스(350)에 의한 무선 통신과 같은, 모바일 컴퓨팅 디바이스(350)의 다른 컴포넌트들의 코디네이션(coordination)을 제공할 수 있다.
프로세서(352)는 디스플레이(354)에 결합된 제어 인터페이스(358) 및 디스플레이 인터페이스(356)를 통하여 사용자와 통신할 수 있다. 디스플레이(354)는, 예를 들어, TFT(Thin-Film-Transistor Liquid Crystal Display) 디스플레이 또는 OLED(Organic Light Emitting Diode) 디스플레이, 또는 다른 적절한 디스플레이 기술일 수 있다. 디스플레이 인터페이스(356)는 그래픽 및 다른 정보를 사용자에 제시하도록 디스플레이(354)를 구동하기 위한 적절한 회로를 포함할 수 있다. 제어 인터페이스(358)는 사용자로부터 명령들을 수신하고 이들을 프로세서(352)에 제출하기 위해 변환할 수 있다. 게다가, 모바일 컴퓨팅 디바이스(350)와 다른 디바이스들의 근거리 통신을 가능하게 하기 위해, 외부 인터페이스(362)가 프로세서(352)와의 통신을 제공할 수 있다. 외부 인터페이스(362)는, 예를 들어, 일부 구현들에서 유선 통신을, 또는 다른 구현들에서 무선 통신을 제공할 수 있고, 다수의 인터페이스들이 또한 사용될 수 있다.
메모리(364)는 모바일 컴퓨팅 디바이스(350) 내의 정보를 저장한다. 메모리(364)는 컴퓨터-판독가능 매체 또는 매체들, 휘발성 메모리 유닛 또는 유닛들, 또는 비휘발성 메모리 유닛 또는 유닛들 중 하나 이상으로 구현될 수 있다. 확장 메모리(374)가 또한 제공되고, 예를 들어, SIMM(Single In Line Memory Module) 카드 인터페이스를 포함할 수 있는, 확장 인터페이스(372)를 통하여 모바일 컴퓨팅 디바이스(350)에 연결될 수 있다. 확장 메모리(374)는 모바일 컴퓨팅 디바이스(350)를 위한 추가 저장 공간을 제공할 수 있고, 또는 모바일 컴퓨팅 디바이스(350)를 위한 애플리케이션들 또는 다른 정보를 또한 저장할 수 있다. 구체적으로, 확장 메모리(374)는 전술한 프로세스들을 수행하는 또는 보충하는 명령어들을 포함할 수 있고, 보안 정보를 또한 포함할 수 있다. 따라서, 예를 들어, 확장 메모리(374)는 모바일 컴퓨팅 디바이스(350)를 위한 보안 모듈로서 제공될 수 있고, 모바일 컴퓨팅 디바이스(350)의 안전한 사용을 허용하는 명령어들로 프로그램될 수 있다. 게다가, 식별 정보를 SIMM 카드에 해킹 불가능한 방식으로 두는 것과 같은, 부가 정보와 함께, SIMM 카드들을 통해 안전한 애플리케이션들이 제공될 수 있다.
메모리는, 아래 논의된 바와 같이, 예를 들어, 플래시 메모리 및/또는 NVRAM 메모리(비휘발성 랜덤 액세스 메모리)를 포함할 수 있다. 일부 구현들에서, 명령어들은 정보 캐리어에 저장될 수 있다. 명령어들은, 하나 이상의 처리 디바이스들(예를 들어, 프로세서(352))에 의해 실행될 때, 전술한 것들과 같은 하나 이상의 방법을 수행한다. 명령어들은 또한 하나 이상의 컴퓨터- 또는 머신-판독가능 매체들(예를 들어, 메모리(364), 확장 메모리(374), 또는 프로세서(352)의 메모리)과 같은 하나 이상의 저장 디바이스에 의해 저장될 수 있다. 일부 구현들에서, 명령어들은 전파된 신호에서, 예를 들어, 트랜시버(368) 또는 외부 인터페이스(362)를 통하여 수신될 수 있다.
모바일 컴퓨팅 디바이스(350)는 필요할 경우 디지털 신호 처리 회로를 포함할 수 있는, 통신 인터페이스(366)를 통하여 무선 통신할 수 있다. 통신 인터페이스(366)는, 특히, GSM 음성 통화(Global System for Mobile communications), SMS(Short Message Service), EMS(Enhanced Messaging Service), 또는 MMS 메시징(Multimedia Messaging Service), CDMA(code division multiple access), TDMA(time division multiple access), PDC(Personal Digital Cellular), WCDMA(Wideband Code Division Multiple Access), CDMA2000, 또는 GPRS(General Packet Radio Service)와 같은, 다양한 모드들 또는 프로토콜들에서의 통신들을 제공할 수 있다. 그러한 통신은, 예를 들어, 무선 주파수를 이용하여 트랜시버(368)를 통하여 발생할 수 있다. 게다가, 예를 들어, 블루투스, WiFi, 또는 다른 그러한 트랜시버(미도시)를 이용하여 단거리 통신이 발생할 수 있다. 게다가, GPS(Global Positioning System) 수신기 모듈(370)은 부가 내비게이션- 및 위치-관련 무선 데이터를 모바일 컴퓨팅 디바이스(350)에 제공할 수 있고, 그 데이터는 모바일 컴퓨팅 디바이스(350)에서 실행중인 애플리케이션들에 의해 적절하게 사용될 수 있다.
모바일 컴퓨팅 디바이스(350)는 또한 사용자로부터의 구두 정보를 수신하고 이를 사용 가능한 디지털 정보로 변환할 수 있는, 오디오 코덱(360)을 이용하여 들을 수 있게 통신할 수 있다. 오디오 코덱(360)은 마찬가지로, 예를 들어 스피커를 통하여, 예컨대, 모바일 컴퓨팅 디바이스(350)의 핸드세트에서, 사용자를 위한 가청음을 생성할 수 있다. 그러한 음은 음성 전화 통화들로부터의 음을 포함할 수 있고, 녹음된 음(예컨대, 음성 메시지, 음악 파일 등)을 포함할 수 있고, 또한 모바일 컴퓨팅 디바이스(350)에서 동작하는 애플리케이션들에 의해 실행된 음을 포함할 수 있다.
모바일 컴퓨팅 디바이스(350)는 도면에 도시된 바와 같이, 다수의 상이한 형태들로 구현될 수 있다. 예를 들어, 그것은 휴대 전화(380)로서 구현될 수 있다. 그것은 또한 스마트폰(382), 개인 휴대 정보 단말기, 또는 다른 유사한 모바일 디바이스의 일부로서 구현될 수 있다.
본 명세서에 기술된 시스템들 및 기법들의 다양한 구현들은 디지털 전자 회로, 집적 회로, 특수하게 설계된 ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합들로 실현될 수 있다. 이 다양한 구현들은 저장 시스템, 적어도 하나의 입력 디바이스, 및 적어도 하나의 출력 디바이스로부터 데이터 및 명령어들을 수신하도록 그리고 이들에 데이터 및 명령어들을 송신하도록 결합된, 특수 또는 범용일 수 있는, 적어도 하나의 프로그램가능 프로세서를 포함하는 프로그램가능 시스템에서 실행 가능한 그리고/또는 해석 가능한 하나 이상의 컴퓨터 프로그램에서의 구현을 포함할 수 있다.
이 컴퓨터 프로그램들(프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 또는 코드라고도 알려짐)은 프로그램가능 프로세서를 위한 머신 명령어들을 포함하고, 고급 절차 및/또는 개체 지향 프로그래밍 언어로, 그리고/또는 어셈블리/기계어로 구현될 수 있다. 본 명세서에서 사용될 때, 머신-판독가능 매체 및 컴퓨터-판독가능 매체라는 용어들은 머신-판독가능 신호로서 머신 명령어들을 수신하는 머신-판독가능 매체를 포함하여, 프로그램가능 프로세서에 머신 명령어들 및/또는 데이터를 제공하기 위해 이용되는 임의의 컴퓨터 프로그램 제품, 장치 및/또는 디바이스(예컨대, 자기 디스크들, 광 디스크들, 메모리, 프로그램가능 논리 디바이스들(PLD들))를 지칭한다. 머신-판독가능 신호라는 용어는 머신 명령어들 및/또는 데이터를 프로그램가능 프로세서에 제공하기 위해 사용되는 임의의 신호를 지칭한다.
사용자와의 상호 작용을 제공하기 위해, 본 명세서에 기술된 시스템들 및 기법들은 사용자에 정보를 표시하기 위한 디스플레이 디바이스(예컨대, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터) 및 사용자가 컴퓨터에 입력을 제공하기 위해 이용할 수 있는 키보드 및 포인팅 디바이스(예컨대, 마우스 또는 트랙볼)를 가진 컴퓨터에서 구현될 수 있다. 다른 종류의 디바이스들도 사용자와의 상호 작용을 제공하기 위해 사용될 수 있다; 예를 들어, 사용자에 제공되는 피드백은 임의의 형태의 감각 피드백(예컨대, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 사용자로부터의 입력은, 음향, 음성, 또는 촉각 입력을 포함하여, 임의의 형태로 수신될 수 있다.
본 명세서에 기술된 시스템들 및 기법들은 백 엔드 컴포넌트를 포함하는(예컨대, 데이터 서버로서), 또는 미들웨어 컴포넌트(예컨대, 애플리케이션 서버)를 포함하는, 또는 프런트 엔드 컴포넌트(예컨대, 사용자가 본 명세서에 기술된 시스템들 및 기법들의 구현과 상호 작용하기 위해 이용할 수 있는 그래픽 사용자 인터페이스 또는 웹 브라우저를 가진 클라이언트 컴퓨터), 또는 그러한 백 엔드, 미들웨어, 또는 프런트 엔드 컴포넌트들의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트들은 임의의 형태 또는 매체의 디지털 데이터 통신(예컨대, 통신 네트워크)에 의해 상호 연결될 수 있다. 통신 네트워크들의 예들은 로컬 영역 네트워크(LAN), 광역 네트워크(WAN), 및 인터넷을 포함한다.
컴퓨팅 시스템은 클라이언트들 및 서버들을 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있고 전형적으로 통신 네트워크를 통하여 상호 작용한다. 클라이언트와 서버의 관계는 각자의 컴퓨터들에서 실행되고 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램들에 의하여 발생한다.
비록 소수의 구현들이 위에 상세히 기술되었지만, 다른 수정들이 가능하다. 예를 들어, 클라이언트 애플리케이션이 대리자(delegate)(들)에 액세스하는 것으로 기술되지만, 다른 구현들에서 대리자(들)는 하나 이상의 서버에서 실행되는 애플리케이션과 같은, 하나 이상의 프로세서에 의해 구현되는 다른 애플리케이션들에 의해 이용될 수 있다. 게다가, 도면들에 묘사된 논리 흐름들은 바람직한 결과들을 달성하기 위해, 도시된 특정 순서, 또는 순차적인 순서를 요구하지 않는다. 게다가, 다른 액션들이 제공될 수 있고, 기술된 흐름들로부터, 액션들이 제거될 수 있고, 기술된 시스템들에, 다른 컴포넌트들이 추가되거나, 그로부터 제거될 수 있다. 따라서, 다른 구현들이 다음의 청구항들의 범위 안에 있다.
Claims (20)
- 컴퓨터 구현 방법으로서,
(i) 슬립 모드(sleep mode)에 있고 (ii) 특정한 미리 정의된 핫워드(a particular, predefined hotword)를 수신하면 상기 슬립 모드를 디스에이블(disable)하고 음성 쿼리들(voice queries)에 응답하도록 구성된 제1 컴퓨팅 디바이스에 의해, 상기 특정한 미리 정의된 핫워드에 후속하는 음성 명령의 발성에 대응하는 오디오 데이터를 수신하는 단계;
상기 제1 컴퓨팅 디바이스가 상기 슬립 모드에 남아 있는 동안, 그리고 상기 특정한 미리 정의된 핫워드에 후속하는 음성 명령의 상기 발성에 대응하는 상기 오디오 데이터를 수신하는 것에 응답하여, 상기 제1 컴퓨팅 디바이스에 의해, (i) 상기 제1 컴퓨팅 디바이스와 단거리 전자 통신하고, (ii) 또한 상기 특정한 미리 정의된 핫워드에 후속하는 음성 쿼리들에 응답하도록 구성된 제2 컴퓨팅 디바이스에 메시지를 송신하는 단계; 및
상기 제1 컴퓨팅 디바이스에 의해, 상기 메시지를 송신하는 단계에 적어도 기초하여, 상기 특정한 미리 정의된 핫워드에 후속하는 상기 음성 명령의 상기 발성에 대응하는 상기 오디오 데이터를 수신하는 것에도 불구하고 상기 슬립 모드에 남아 있기로 결정하는 단계
를 포함하는 방법. - 제1항에 있어서,
상기 제2 디바이스로부터 부가 메시지를 수신하는 단계를 포함하고,
상기 슬립 모드에 남아 있기로 결정하는 단계는 상기 제2 디바이스로부터의 상기 부가 메시지에 적어도 부분적으로 기초하는 방법. - 제1항에 있어서,
상기 특정한 미리 정의된 핫워드에 후속하는 음성 명령의 발성에 대응하는 상기 오디오 데이터에 기초하는 핫워드 점수를 결정하는 단계를 포함하고,
상기 메시지는 상기 핫워드 점수를 포함하는 방법. - 제1항에 있어서,
상기 특정한 미리 정의된 핫워드에 후속하는 음성 명령의 발성에 대응하는 상기 오디오 데이터에 기초하는 핫워드 점수를 결정하는 단계; 및
상기 핫워드 점수가 임계치를 만족시키는 것을 결정하는 단계
를 포함하고,
상기 메시지를 송신하는 단계는 상기 핫워드 점수가 상기 임계치를 만족시키는 것을 결정하는 것에 기초하는 방법. - 제1항에 있어서, 상기 제1 컴퓨팅 디바이스는 상기 특정한 미리 정의된 핫워드에 후속하는 음성 명령의 발성에 대응하는 상기 오디오 데이터에 대한 음성 인식을 수행하지 않고 상기 메시지를 송신하는 방법.
- 제1항에 있어서,
상기 제2 디바이스가 상기 특정한 미리 정의된 핫워드에 후속하는 음성 쿼리들에 응답하도록 구성된 것을 결정하는 단계를 포함하고,
상기 메시지를 송신하는 단계는 상기 제2 디바이스가 상기 특정한 미리 정의된 핫워드에 후속하는 음성 쿼리들에 응답하도록 구성된 것을 결정하는 것에 기초하는 방법. - 제1항에 있어서, 상기 제1 컴퓨팅 디바이스는 특정량의 시간 동안 상기 메시지를 송신하는 방법.
- 제1항에 있어서,
상기 특정한 미리 정의된 핫워드에 후속하는 음성 명령의 발성에 대응하는 상기 오디오 데이터에 기초하는 핫워드 점수를 결정하는 단계;
상기 제2 디바이스로부터, 상기 제2 디바이스에 의해 결정되는 부가 핫워드 점수를 포함하는 부가 메시지를 수신하는 단계; 및
상기 핫워드 점수와 상기 부가 핫워드 점수를 비교하는 단계
를 포함하고,
상기 슬립 모드에 남아 있기로 결정하는 단계는 상기 핫워드 점수와 상기 부가 핫워드 점수를 비교하는 것에 기초하는 방법. - 시스템으로서,
하나 이상의 컴퓨터 및 하나 이상의 저장 디바이스를 포함하고,
상기 하나 이상의 저장 디바이스는, 상기 하나 이상의 컴퓨터에 의해 실행될 때, 상기 하나 이상의 컴퓨터로 하여금:
(i) 슬립 모드에 있고 (ii) 특정한 미리 정의된 핫워드를 수신하면 상기 슬립 모드를 디스에이블하고 음성 쿼리들에 응답하도록 구성된 제1 컴퓨팅 디바이스에 의해, 상기 특정한 미리 정의된 핫워드에 후속하는 음성 명령의 발성에 대응하는 오디오 데이터를 수신하는 동작;
상기 제1 컴퓨팅 디바이스가 상기 슬립 모드에 남아 있는 동안, 그리고 상기 특정한 미리 정의된 핫워드에 후속하는 음성 명령의 상기 발성에 대응하는 상기 오디오 데이터를 수신하는 것에 응답하여, 상기 제1 컴퓨팅 디바이스에 의해, (i) 상기 제1 컴퓨팅 디바이스와 단거리 전자 통신하고, (ii) 또한 상기 특정한 미리 정의된 핫워드에 후속하는 음성 쿼리들에 응답하도록 구성된 제2 컴퓨팅 디바이스에 메시지를 송신하는 동작; 및
상기 제1 컴퓨팅 디바이스에 의해, 상기 메시지를 송신하는 것에 적어도 기초하여, 상기 특정한 미리 정의된 핫워드에 후속하는 상기 음성 명령의 상기 발성에 대응하는 상기 오디오 데이터를 수신하는 것에도 불구하고 상기 슬립 모드에 남아 있기로 결정하는 동작
을 포함하는 동작들을 수행하게 하도록 동작 가능한 명령어들을 저장하는 시스템. - 제9항에 있어서, 상기 동작들은:
상기 제2 디바이스로부터 부가 메시지를 수신하는 동작을 더 포함하고,
상기 슬립 모드에 남아 있기로 결정하는 동작은 상기 제2 디바이스로부터의 상기 부가 메시지에 적어도 부분적으로 기초하는 시스템. - 제9항에 있어서, 상기 동작들은:
상기 특정한 미리 정의된 핫워드에 후속하는 음성 명령의 발성에 대응하는 상기 오디오 데이터에 기초하는 핫워드 점수를 결정하는 동작을 더 포함하고,
상기 메시지는 상기 핫워드 점수를 포함하는 시스템. - 제9항에 있어서, 상기 동작들은:
상기 특정한 미리 정의된 핫워드에 후속하는 음성 명령의 발성에 대응하는 상기 오디오 데이터에 기초하는 핫워드 점수를 결정하는 동작; 및
상기 핫워드 점수가 임계치를 만족시키는 것을 결정하는 동작
을 더 포함하고,
상기 메시지를 송신하는 동작은 상기 핫워드 점수가 상기 임계치를 만족시키는 것을 결정하는 것에 기초하는 시스템. - 제9항에 있어서, 상기 제1 컴퓨팅 디바이스는 상기 특정한 미리 정의된 핫워드에 후속하는 음성 명령의 발성에 대응하는 상기 오디오 데이터에 대한 음성 인식을 수행하지 않고 상기 메시지를 송신하는 시스템.
- 제9항에 있어서, 상기 동작들은:
상기 제2 디바이스가 상기 특정한 미리 정의된 핫워드에 후속하는 음성 쿼리들에 응답하도록 구성된 것을 결정하는 동작을 더 포함하고,
상기 메시지를 송신하는 동작은 상기 제2 디바이스가 상기 특정한 미리 정의된 핫워드에 후속하는 음성 쿼리들에 응답하도록 구성된 것을 결정하는 것에 기초하는 시스템. - 제9항에 있어서, 상기 제1 컴퓨팅 디바이스는 특정량의 시간 동안 상기 메시지를 송신하는 시스템.
- 제9항에 있어서, 상기 동작들은:
상기 특정한 미리 정의된 핫워드에 후속하는 음성 명령의 발성에 대응하는 상기 오디오 데이터에 기초하는 핫워드 점수를 결정하는 동작;
상기 제2 디바이스로부터, 상기 제2 디바이스에 의해 결정되는 부가 핫워드 점수를 포함하는 부가 메시지를 수신하는 동작; 및
상기 핫워드 점수와 상기 부가 핫워드 점수를 비교하는 동작
을 더 포함하고,
상기 슬립 모드에 남아 있기로 결정하는 동작은 상기 핫워드 점수와 상기 부가 핫워드 점수를 비교하는 것에 기초하는 시스템. - 하나 이상의 컴퓨터에 의해 실행 가능한 명령어들을 포함하는 소프트웨어를 저장하는 컴퓨터 판독가능 매체로서,
상기 명령어들은, 실행시에, 상기 하나 이상의 컴퓨터로 하여금:
(i) 슬립 모드에 있고 (ii) 특정한 미리 정의된 핫워드를 수신하면 상기 슬립 모드를 디스에이블하고 음성 쿼리들에 응답하도록 구성된 제1 컴퓨팅 디바이스에 의해, 상기 특정한 미리 정의된 핫워드에 후속하는 음성 명령의 발성에 대응하는 오디오 데이터를 수신하는 동작;
상기 제1 컴퓨팅 디바이스가 상기 슬립 모드에 남아 있는 동안, 그리고 상기 특정한 미리 정의된 핫워드에 후속하는 음성 명령의 상기 발성에 대응하는 상기 오디오 데이터를 수신하는 것에 응답하여, 상기 제1 컴퓨팅 디바이스에 의해, (i) 상기 제1 컴퓨팅 디바이스와 단거리 전자 통신하고, (ii) 또한 상기 특정한 미리 정의된 핫워드에 후속하는 음성 쿼리들에 응답하도록 구성된 제2 컴퓨팅 디바이스에 메시지를 송신하는 동작; 및
상기 제1 컴퓨팅 디바이스에 의해, 상기 메시지를 송신하는 동작에 적어도 기초하여, 상기 특정한 미리 정의된 핫워드에 후속하는 상기 음성 명령의 상기 발성에 대응하는 상기 오디오 데이터를 수신하는 것에도 불구하고 상기 슬립 모드에 남아 있기로 결정하는 동작
을 포함하는 동작들을 수행하게 하는 컴퓨터 판독가능 매체. - 제17항에 있어서, 상기 동작들은:
상기 제2 디바이스로부터 부가 메시지를 수신하는 동작을 더 포함하고,
상기 슬립 모드에 남아 있기로 결정하는 동작은 상기 제2 디바이스로부터의 상기 부가 메시지에 적어도 부분적으로 기초하는 컴퓨터 판독가능 매체. - 제17항에 있어서, 상기 동작들은:
상기 특정한 미리 정의된 핫워드에 후속하는 음성 명령의 발성에 대응하는 상기 오디오 데이터에 기초하는 핫워드 점수를 결정하는 동작을 더 포함하고,
상기 메시지는 상기 핫워드 점수를 포함하는 컴퓨터 판독가능 매체. - 제17항에 있어서, 상기 동작들은:
상기 특정한 미리 정의된 핫워드에 후속하는 음성 명령의 발성에 대응하는 상기 오디오 데이터에 기초하는 핫워드 점수를 결정하는 동작; 및
상기 핫워드 점수가 임계치를 만족시키는 것을 결정하는 동작
을 더 포함하고,
상기 메시지를 송신하는 동작은 상기 핫워드 점수가 상기 임계치를 만족시키는 것을 결정하는 것에 기초하는 컴퓨터 판독가능 매체.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462061830P | 2014-10-09 | 2014-10-09 | |
US62/061,830 | 2014-10-09 | ||
US14/675,932 | 2015-04-01 | ||
US14/675,932 US9318107B1 (en) | 2014-10-09 | 2015-04-01 | Hotword detection on multiple devices |
PCT/US2015/052860 WO2016057268A1 (en) | 2014-10-09 | 2015-09-29 | Hotword detection on multiple devices |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020167021778A Division KR101752119B1 (ko) | 2014-10-09 | 2015-09-29 | 다수의 디바이스에서의 핫워드 검출 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20170004956A true KR20170004956A (ko) | 2017-01-11 |
KR101832648B1 KR101832648B1 (ko) | 2018-02-26 |
Family
ID=54330874
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020167022701A KR101832648B1 (ko) | 2014-10-09 | 2015-09-29 | 다수의 디바이스에서의 핫워드 검출 |
KR1020167021778A KR101752119B1 (ko) | 2014-10-09 | 2015-09-29 | 다수의 디바이스에서의 핫워드 검출 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020167021778A KR101752119B1 (ko) | 2014-10-09 | 2015-09-29 | 다수의 디바이스에서의 핫워드 검출 |
Country Status (7)
Country | Link |
---|---|
US (8) | US9318107B1 (ko) |
EP (5) | EP3139378B1 (ko) |
JP (7) | JP6208376B2 (ko) |
KR (2) | KR101832648B1 (ko) |
CN (2) | CN111028826B (ko) |
DE (1) | DE202015010012U1 (ko) |
WO (1) | WO2016057268A1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190141767A (ko) * | 2017-11-28 | 2019-12-24 | 구글 엘엘씨 | 오디오 워터 마킹을 이용한 키 구문 검출 |
KR20210028688A (ko) * | 2018-08-09 | 2021-03-12 | 구글 엘엘씨 | 핫워드 인식 및 수동 어시스턴스 |
KR20210134821A (ko) * | 2017-04-20 | 2021-11-10 | 구글 엘엘씨 | 장치에 대한 다중 사용자 인증 |
Families Citing this family (356)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10032452B1 (en) * | 2016-12-30 | 2018-07-24 | Google Llc | Multimodal transmission of packetized data |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US10013986B1 (en) | 2016-12-30 | 2018-07-03 | Google Llc | Data structure pooling of voice activated data packets |
US11017428B2 (en) | 2008-02-21 | 2021-05-25 | Google Llc | System and method of data transmission rate adjustment |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US10776830B2 (en) | 2012-05-23 | 2020-09-15 | Google Llc | Methods and systems for identifying new computers and providing matching services |
US10152723B2 (en) | 2012-05-23 | 2018-12-11 | Google Llc | Methods and systems for identifying new computers and providing matching services |
US10735552B2 (en) | 2013-01-31 | 2020-08-04 | Google Llc | Secondary transmissions of packetized data |
US10650066B2 (en) | 2013-01-31 | 2020-05-12 | Google Llc | Enhancing sitelinks with creative content |
CN113470641B (zh) | 2013-02-07 | 2023-12-15 | 苹果公司 | 数字助理的语音触发器 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9589564B2 (en) | 2014-02-05 | 2017-03-07 | Google Inc. | Multiple speech locale-specific hotword classifiers for selection of a speech locale |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11942095B2 (en) | 2014-07-18 | 2024-03-26 | Google Llc | Speaker verification using co-location information |
US11676608B2 (en) | 2021-04-02 | 2023-06-13 | Google Llc | Speaker verification using co-location information |
US9257120B1 (en) | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
KR20160023089A (ko) * | 2014-08-21 | 2016-03-03 | 엘지전자 주식회사 | 디지털 디바이스 및 그 제어 방법 |
US10748539B2 (en) * | 2014-09-10 | 2020-08-18 | Crestron Electronics, Inc. | Acoustic sensory network |
US10204622B2 (en) | 2015-09-10 | 2019-02-12 | Crestron Electronics, Inc. | Acoustic sensory network |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9812128B2 (en) | 2014-10-09 | 2017-11-07 | Google Inc. | Device leadership negotiation among voice interface devices |
US9318107B1 (en) | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
KR102505347B1 (ko) * | 2015-07-16 | 2023-03-03 | 삼성전자주식회사 | 사용자 관심 음성 알림 장치 및 방법 |
CN106469040B (zh) * | 2015-08-19 | 2019-06-21 | 华为终端有限公司 | 通信方法、服务器及设备 |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10783888B2 (en) * | 2015-09-10 | 2020-09-22 | Crestron Electronics Inc. | System and method for determining recipient of spoken command in a control system |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US9542941B1 (en) * | 2015-10-01 | 2017-01-10 | Lenovo (Singapore) Pte. Ltd. | Situationally suspending wakeup word to enable voice command input |
US9691378B1 (en) * | 2015-11-05 | 2017-06-27 | Amazon Technologies, Inc. | Methods and devices for selectively ignoring captured audio data |
US9653075B1 (en) * | 2015-11-06 | 2017-05-16 | Google Inc. | Voice commands across devices |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10026401B1 (en) | 2015-12-28 | 2018-07-17 | Amazon Technologies, Inc. | Naming devices via voice commands |
US10185544B1 (en) * | 2015-12-28 | 2019-01-22 | Amazon Technologies, Inc. | Naming devices via voice commands |
US10127906B1 (en) | 2015-12-28 | 2018-11-13 | Amazon Technologies, Inc. | Naming devices via voice commands |
US10453460B1 (en) * | 2016-02-02 | 2019-10-22 | Amazon Technologies, Inc. | Post-speech recognition request surplus detection and prevention |
JP2017138476A (ja) * | 2016-02-03 | 2017-08-10 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US10097939B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Compensation for speaker nonlinearities |
US10743101B2 (en) | 2016-02-22 | 2020-08-11 | Sonos, Inc. | Content mixing |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9779735B2 (en) * | 2016-02-24 | 2017-10-03 | Google Inc. | Methods and systems for detecting and processing speech signals |
US10229687B2 (en) * | 2016-03-10 | 2019-03-12 | Microsoft Technology Licensing, Llc | Scalable endpoint-dependent natural language understanding |
US10373612B2 (en) * | 2016-03-21 | 2019-08-06 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
US9948479B2 (en) * | 2016-04-05 | 2018-04-17 | Vivint, Inc. | Identification graph theory |
JP2019518985A (ja) * | 2016-05-13 | 2019-07-04 | ボーズ・コーポレーションBose Corporation | 分散したマイクロホンからの音声の処理 |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) * | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10438583B2 (en) * | 2016-07-20 | 2019-10-08 | Lenovo (Singapore) Pte. Ltd. | Natural language voice assistant |
US10621992B2 (en) * | 2016-07-22 | 2020-04-14 | Lenovo (Singapore) Pte. Ltd. | Activating voice assistant based on at least one of user proximity and context |
KR102575634B1 (ko) * | 2016-07-26 | 2023-09-06 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 동작 방법 |
US10810212B2 (en) * | 2016-07-29 | 2020-10-20 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Validating provided information in a conversation |
US9693164B1 (en) | 2016-08-05 | 2017-06-27 | Sonos, Inc. | Determining direction of networked microphone device relative to audio playback device |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9972320B2 (en) | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US9824692B1 (en) * | 2016-09-12 | 2017-11-21 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
CA3117645C (en) | 2016-09-19 | 2023-01-03 | Pindrop Security, Inc. | Channel-compensated low-level features for speaker recognition |
US10325601B2 (en) | 2016-09-19 | 2019-06-18 | Pindrop Security, Inc. | Speaker recognition in the call center |
US9794720B1 (en) | 2016-09-22 | 2017-10-17 | Sonos, Inc. | Acoustic position measurement |
TWI606390B (zh) * | 2016-09-23 | 2017-11-21 | 元鼎音訊股份有限公司 | 可自動調整聲音輸出之方法及電子裝置 |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
WO2018067528A1 (en) * | 2016-10-03 | 2018-04-12 | Google Llc | Device leadership negotiation among voice interface devices |
US10181323B2 (en) * | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10592611B2 (en) * | 2016-10-24 | 2020-03-17 | Conduent Business Services, Llc | System for automatic extraction of structure from spoken conversation using lexical and acoustic features |
US10783883B2 (en) * | 2016-11-03 | 2020-09-22 | Google Llc | Focus session at a voice interface device |
EP3637414B1 (en) * | 2016-11-07 | 2024-01-03 | Google LLC | Recorded media hotword trigger suppression |
US10332523B2 (en) | 2016-11-18 | 2019-06-25 | Google Llc | Virtual assistant identification of nearby computing devices |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10079015B1 (en) * | 2016-12-06 | 2018-09-18 | Amazon Technologies, Inc. | Multi-layer keyword detection |
US10311875B2 (en) * | 2016-12-22 | 2019-06-04 | Soundhound, Inc. | Full-duplex utterance processing in a natural language virtual assistant |
US10559309B2 (en) * | 2016-12-22 | 2020-02-11 | Google Llc | Collaborative voice controlled devices |
US10276161B2 (en) * | 2016-12-27 | 2019-04-30 | Google Llc | Contextual hotwords |
US10708313B2 (en) | 2016-12-30 | 2020-07-07 | Google Llc | Multimodal transmission of packetized data |
US10593329B2 (en) | 2016-12-30 | 2020-03-17 | Google Llc | Multimodal transmission of packetized data |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
KR20180083587A (ko) * | 2017-01-13 | 2018-07-23 | 삼성전자주식회사 | 전자 장치 및 그의 동작 방법 |
EP3580999B1 (en) * | 2017-02-07 | 2021-03-17 | Lutron Technology Company LLC | Audio-based load control system |
US10467509B2 (en) * | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Computationally-efficient human-identifying smart assistant computer |
US10810510B2 (en) | 2017-02-17 | 2020-10-20 | International Business Machines Corporation | Conversation and context aware fraud and abuse prevention agent |
US10102868B2 (en) * | 2017-02-17 | 2018-10-16 | International Business Machines Corporation | Bot-based honeypot poison resilient data collection |
US10757058B2 (en) | 2017-02-17 | 2020-08-25 | International Business Machines Corporation | Outgoing communication scam prevention |
US9990926B1 (en) * | 2017-03-13 | 2018-06-05 | Intel Corporation | Passive enrollment method for speaker identification systems |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
US10748531B2 (en) * | 2017-04-13 | 2020-08-18 | Harman International Industries, Incorporated | Management layer for multiple intelligent personal assistant services |
KR20180118470A (ko) * | 2017-04-21 | 2018-10-31 | 엘지전자 주식회사 | 음성 인식 장치 및 음성 인식 방법 |
IL252071A0 (en) * | 2017-05-03 | 2017-07-31 | Google Inc | Contextual language translation |
CN108235745B (zh) * | 2017-05-08 | 2021-01-08 | 深圳前海达闼云端智能科技有限公司 | 机器人唤醒方法、装置和机器人 |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336892A1 (en) * | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10665232B2 (en) * | 2017-05-24 | 2020-05-26 | Harman International Industries, Inc. | Coordination among multiple voice recognition devices |
US10664533B2 (en) | 2017-05-24 | 2020-05-26 | Lenovo (Singapore) Pte. Ltd. | Systems and methods to determine response cue for digital assistant based on context |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10395650B2 (en) | 2017-06-05 | 2019-08-27 | Google Llc | Recorded media hotword trigger suppression |
US10283117B2 (en) * | 2017-06-19 | 2019-05-07 | Lenovo (Singapore) Pte. Ltd. | Systems and methods for identification of response cue at peripheral device |
CN109213777A (zh) * | 2017-06-29 | 2019-01-15 | 杭州九阳小家电有限公司 | 一种基于语音的食谱处理方法及系统 |
US10599377B2 (en) | 2017-07-11 | 2020-03-24 | Roku, Inc. | Controlling visual indicators in an audio responsive electronic device, and capturing and providing audio using an API, by native and non-native computing devices and services |
KR102052510B1 (ko) * | 2017-08-03 | 2019-12-05 | 에스케이브로드밴드주식회사 | 음성브리지장치 및 음성인식처리장치, 그리고 그 동작 방법 |
US10475449B2 (en) * | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
JP6513749B2 (ja) * | 2017-08-09 | 2019-05-15 | レノボ・シンガポール・プライベート・リミテッド | 音声アシストシステム、サーバ装置、その音声アシスト方法、及びコンピュータが実行するためのプログラム |
KR102486912B1 (ko) * | 2017-08-10 | 2023-01-11 | 에스케이텔레콤 주식회사 | 음성 처리 장치의 구동 제어 시스템 및 구동 제어 서버 |
US11062702B2 (en) | 2017-08-28 | 2021-07-13 | Roku, Inc. | Media system with multiple digital assistants |
US11062710B2 (en) | 2017-08-28 | 2021-07-13 | Roku, Inc. | Local and cloud speech recognition |
US10777197B2 (en) | 2017-08-28 | 2020-09-15 | Roku, Inc. | Audio responsive device with play/stop and tell me something buttons |
US20190065608A1 (en) * | 2017-08-29 | 2019-02-28 | Lenovo (Singapore) Pte. Ltd. | Query input received at more than one device |
US10546583B2 (en) * | 2017-08-30 | 2020-01-28 | Amazon Technologies, Inc. | Context-based device arbitration |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10403288B2 (en) | 2017-10-17 | 2019-09-03 | Google Llc | Speaker diarization |
US10916252B2 (en) | 2017-11-10 | 2021-02-09 | Nvidia Corporation | Accelerated data transfer for latency reduction and real-time processing |
US10867623B2 (en) * | 2017-11-14 | 2020-12-15 | Thomas STACHURA | Secure and private processing of gestures via video input |
US10999733B2 (en) | 2017-11-14 | 2021-05-04 | Thomas STACHURA | Information security/privacy via a decoupled security accessory to an always listening device |
CN107919119A (zh) * | 2017-11-16 | 2018-04-17 | 百度在线网络技术(北京)有限公司 | 多设备交互协同的方法、装置、设备及计算机可读介质 |
US10157611B1 (en) * | 2017-11-29 | 2018-12-18 | Nuance Communications, Inc. | System and method for speech enhancement in multisource environments |
US10482878B2 (en) * | 2017-11-29 | 2019-11-19 | Nuance Communications, Inc. | System and method for speech enhancement in multisource environments |
US10102858B1 (en) * | 2017-11-29 | 2018-10-16 | International Business Machines Corporation | Dynamically changing audio keywords |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
WO2019112625A1 (en) * | 2017-12-08 | 2019-06-13 | Google Llc | Signal processing coordination among digital voice assistant computing devices |
CN116705020A (zh) * | 2017-12-08 | 2023-09-05 | 谷歌有限责任公司 | 使设备与环境中的多个设备隔离以响应口头助理调用 |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
US10672380B2 (en) * | 2017-12-27 | 2020-06-02 | Intel IP Corporation | Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system |
CN111512365B (zh) * | 2017-12-31 | 2023-06-13 | 美的集团股份有限公司 | 对多个家庭装置进行控制的方法和系统 |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US11145298B2 (en) | 2018-02-13 | 2021-10-12 | Roku, Inc. | Trigger word detection with multiple digital assistants |
KR102679107B1 (ko) * | 2018-02-23 | 2024-06-27 | 삼성전자주식회사 | 세탁 기기 및 그의 제어 방법 |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
CN110574105B (zh) | 2018-03-07 | 2024-01-23 | 谷歌有限责任公司 | 用于基于语音发起定制装置动作的系统和方法 |
US11087752B2 (en) * | 2018-03-07 | 2021-08-10 | Google Llc | Systems and methods for voice-based initiation of custom device actions |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US11240057B2 (en) * | 2018-03-15 | 2022-02-01 | Lenovo (Singapore) Pte. Ltd. | Alternative output response based on context |
US11163377B2 (en) * | 2018-03-22 | 2021-11-02 | Adobe Inc. | Remote generation of executable code for a client application based on natural language commands captured at a client device |
US10755706B2 (en) * | 2018-03-26 | 2020-08-25 | Midea Group Co., Ltd. | Voice-based user interface with dynamically switchable endpoints |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11151991B2 (en) * | 2018-03-30 | 2021-10-19 | Verizon Media Inc. | Electronic message transmission |
WO2019198132A1 (ja) * | 2018-04-09 | 2019-10-17 | マクセル株式会社 | 音声認識デバイス、音声認識デバイスの連携システム、及び音声認識デバイスの連携方法 |
CN108538291A (zh) * | 2018-04-11 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 语音控制方法、终端设备、云端服务器及系统 |
SG11201912053XA (en) * | 2018-04-16 | 2020-01-30 | Google Llc | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface |
EP4254402A3 (en) | 2018-04-16 | 2023-12-20 | Google LLC | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface |
EP3564949A1 (en) * | 2018-04-23 | 2019-11-06 | Spotify AB | Activation trigger processing |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
CN108615526B (zh) * | 2018-05-08 | 2020-07-07 | 腾讯科技(深圳)有限公司 | 语音信号中关键词的检测方法、装置、终端及存储介质 |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10692496B2 (en) * | 2018-05-22 | 2020-06-23 | Google Llc | Hotword suppression |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
CN111954868A (zh) * | 2018-05-31 | 2020-11-17 | 江苏树实科技有限公司 | 一种多语音助手控制方法、装置、系统及计算机可读存储介质 |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US10235999B1 (en) | 2018-06-05 | 2019-03-19 | Voicify, LLC | Voice application platform |
US10636425B2 (en) | 2018-06-05 | 2020-04-28 | Voicify, LLC | Voice application platform |
US11437029B2 (en) | 2018-06-05 | 2022-09-06 | Voicify, LLC | Voice application platform |
US10803865B2 (en) | 2018-06-05 | 2020-10-13 | Voicify, LLC | Voice application platform |
GB2574803B (en) * | 2018-06-11 | 2022-12-07 | Xmos Ltd | Communication between audio devices |
US10783886B2 (en) * | 2018-06-12 | 2020-09-22 | International Business Machines Corporation | Cognitive agent disambiguation |
US11348586B2 (en) * | 2018-06-21 | 2022-05-31 | Dell Products L.P. | Systems and methods for extending and enhancing voice assistant and/or telecommunication software functions to a remote endpoint device |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
CN108922528B (zh) * | 2018-06-29 | 2020-10-23 | 百度在线网络技术(北京)有限公司 | 用于处理语音的方法和装置 |
US11373640B1 (en) * | 2018-08-01 | 2022-06-28 | Amazon Technologies, Inc. | Intelligent device grouping |
KR102570301B1 (ko) * | 2018-08-02 | 2023-08-25 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
JP7018850B2 (ja) * | 2018-08-20 | 2022-02-14 | ヤフー株式会社 | 端末装置、決定方法、決定プログラム及び決定装置 |
CN112292724A (zh) | 2018-08-21 | 2021-01-29 | 谷歌有限责任公司 | 用于调用自动助理的动态和/或场境特定热词 |
CN112272846A (zh) | 2018-08-21 | 2021-01-26 | 谷歌有限责任公司 | 用于调用自动助理的动态的和/或特定于场境的热词 |
KR20230145521A (ko) | 2018-08-23 | 2023-10-17 | 구글 엘엘씨 | 멀티-어시스턴트 환경의 특성에 따른 어시스턴트 응답성 규정하기 |
KR20200024068A (ko) * | 2018-08-27 | 2020-03-06 | 삼성전자주식회사 | 인텔리전트 서비스를 위해, 복수의 음성 데이터 수신 장치들을 선택적으로 이용하는 방법, 장치, 및 시스템 |
US11514917B2 (en) * | 2018-08-27 | 2022-11-29 | Samsung Electronics Co., Ltd. | Method, device, and system of selectively using multiple voice data receiving devices for intelligent service |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
CN109391528A (zh) * | 2018-08-31 | 2019-02-26 | 百度在线网络技术(北京)有限公司 | 语音智能设备的唤醒方法、装置、设备及存储介质 |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
KR102146524B1 (ko) * | 2018-09-19 | 2020-08-20 | 주식회사 포티투마루 | 음성 인식 학습 데이터 생성 시스템, 방법 및 컴퓨터 프로그램 |
WO2020060311A1 (en) | 2018-09-20 | 2020-03-26 | Samsung Electronics Co., Ltd. | Electronic device and method for providing or obtaining data for training thereof |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11119725B2 (en) * | 2018-09-27 | 2021-09-14 | Abl Ip Holding Llc | Customizable embedded vocal command sets for a lighting and/or other environmental controller |
US11152003B2 (en) * | 2018-09-27 | 2021-10-19 | International Business Machines Corporation | Routing voice commands to virtual assistants |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11100923B2 (en) * | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US10777186B1 (en) * | 2018-11-13 | 2020-09-15 | Amazon Technolgies, Inc. | Streaming real-time automatic speech recognition service |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
KR20200074680A (ko) * | 2018-12-17 | 2020-06-25 | 삼성전자주식회사 | 단말 장치 및 이의 제어 방법 |
KR20200074690A (ko) * | 2018-12-17 | 2020-06-25 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
CN111415657A (zh) * | 2019-01-07 | 2020-07-14 | 成都启英泰伦科技有限公司 | 一种去中心化设备、多设备系统及其语音控制方法 |
WO2020163624A1 (en) | 2019-02-06 | 2020-08-13 | Pindrop Security, Inc. | Systems and methods of gateway detection in a telephone network |
CN113728380A (zh) | 2019-02-07 | 2021-11-30 | 托马斯·斯塔胡拉 | 用于智能扬声器的隐私装置 |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11195518B2 (en) | 2019-03-27 | 2021-12-07 | Sonova Ag | Hearing device user communicating with a wireless communication device |
US12015637B2 (en) | 2019-04-08 | 2024-06-18 | Pindrop Security, Inc. | Systems and methods for end-to-end architectures for voice spoofing detection |
US11361765B2 (en) * | 2019-04-19 | 2022-06-14 | Lg Electronics Inc. | Multi-device control system and method and non-transitory computer-readable medium storing component for executing the same |
CN110136707B (zh) * | 2019-04-22 | 2021-03-02 | 云知声智能科技股份有限公司 | 一种用于进行多设备自主决策的人机交互系统 |
WO2020218634A1 (ko) * | 2019-04-23 | 2020-10-29 | 엘지전자 주식회사 | 응답 기기 결정 방법 및 장치 |
WO2020222539A1 (en) * | 2019-05-02 | 2020-11-05 | Samsung Electronics Co., Ltd. | Hub device, multi-device system including the hub device and plurality of devices, and method of operating the same |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
KR20220001522A (ko) | 2019-05-29 | 2022-01-06 | 엘지전자 주식회사 | 장치 정보에 기반하여, 다른 장치를 제어할 수 있는 인공 지능 장치 |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
CN110148401B (zh) * | 2019-07-02 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN110364151B (zh) * | 2019-07-15 | 2024-01-30 | 华为技术有限公司 | 一种语音唤醒的方法和电子设备 |
EP4220631B1 (en) * | 2019-07-29 | 2024-02-28 | Samsung Electronics Co., Ltd. | System and method for registering device for voice assistant service |
US11659332B2 (en) | 2019-07-30 | 2023-05-23 | Dolby Laboratories Licensing Corporation | Estimating user location in a system including smart audio devices |
JP2022542113A (ja) * | 2019-07-30 | 2022-09-29 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 複数装置の起動ワード検出 |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
CN110415705B (zh) * | 2019-08-01 | 2022-03-01 | 苏州奇梦者网络科技有限公司 | 一种热词识别方法、系统、装置及存储介质 |
KR102243325B1 (ko) * | 2019-09-11 | 2021-04-22 | 넷마블 주식회사 | 시동어 인식 기술을 제공하기 위한 컴퓨터 프로그램 |
CN110660390B (zh) * | 2019-09-17 | 2022-05-03 | 百度在线网络技术(北京)有限公司 | 智能设备唤醒方法、智能设备及计算机可读存储介质 |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
DE102019215099B4 (de) * | 2019-10-01 | 2022-09-29 | Audi Ag | Verfahren zum Bereitstellen einer aktuellen lokalen Umgebungszustandskarte für ein Kraftfahrzeug sowie Kraftfahrzeug zum Durchführen eines derartigen Verfahrens |
KR102629796B1 (ko) * | 2019-10-15 | 2024-01-26 | 삼성전자 주식회사 | 음성 인식의 향상을 지원하는 전자 장치 |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
CN110890092B (zh) * | 2019-11-07 | 2022-08-05 | 北京小米移动软件有限公司 | 唤醒控制方法及装置、计算机存储介质 |
US11315551B2 (en) * | 2019-11-07 | 2022-04-26 | Accent Global Solutions Limited | System and method for intent discovery from multimedia conversation |
US11061958B2 (en) | 2019-11-14 | 2021-07-13 | Jetblue Airways Corporation | Systems and method of generating custom messages based on rule-based database queries in a cloud platform |
US11450325B1 (en) | 2019-12-12 | 2022-09-20 | Amazon Technologies, Inc. | Natural language processing |
US11551681B1 (en) * | 2019-12-13 | 2023-01-10 | Amazon Technologies, Inc. | Natural language processing routing |
US11380308B1 (en) | 2019-12-13 | 2022-07-05 | Amazon Technologies, Inc. | Natural language processing |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
CN111048086B (zh) * | 2019-12-24 | 2022-10-21 | 思必驰科技股份有限公司 | 多设备间的语音唤醒方法、和自协商的语音唤醒方法、装置及系统 |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
KR20210098250A (ko) * | 2020-01-31 | 2021-08-10 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
EP3866157B1 (de) | 2020-02-13 | 2024-04-03 | Deutsche Telekom AG | Elektronische assistenzvorrichtung und betriebsverfahren |
US12073827B2 (en) | 2020-02-26 | 2024-08-27 | Google Llc | Pre-emptively limiting responsiveness of various assistant devices in an environment using an inaudible tone or other rendered output |
JP7460794B2 (ja) * | 2020-04-08 | 2024-04-02 | グーグル エルエルシー | ノイズロバストなキーワードスポッティングのためのカスケードアーキテクチャ |
KR20210136463A (ko) | 2020-05-07 | 2021-11-17 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US11183193B1 (en) | 2020-05-11 | 2021-11-23 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11887589B1 (en) * | 2020-06-17 | 2024-01-30 | Amazon Technologies, Inc. | Voice-based interactions with a graphical user interface |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11670293B2 (en) | 2020-09-02 | 2023-06-06 | Google Llc | Arbitrating between multiple potentially-responsive electronic devices |
US11727925B2 (en) * | 2020-10-13 | 2023-08-15 | Google Llc | Cross-device data synchronization based on simultaneous hotword triggers |
US11798530B2 (en) | 2020-10-30 | 2023-10-24 | Google Llc | Simultaneous acoustic event detection across multiple assistant devices |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
CN112652310B (zh) * | 2020-12-31 | 2024-08-09 | 乐鑫信息科技(上海)股份有限公司 | 分布式语音处理系统及方法 |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
US20220284883A1 (en) * | 2021-03-05 | 2022-09-08 | Comcast Cable Communications, Llc | Keyword Detection |
US12014734B2 (en) * | 2021-07-22 | 2024-06-18 | International Business Machines Corporation | Dynamic boundary creation for voice command authentication |
US12039267B2 (en) * | 2021-09-30 | 2024-07-16 | Intuit Inc. | Automated categorization of data by generating unity and reliability metrics |
CN115547337B (zh) * | 2022-11-25 | 2023-03-03 | 深圳市人马互动科技有限公司 | 语音识别方法及相关产品 |
KR20240092249A (ko) * | 2022-12-14 | 2024-06-24 | 삼성전자주식회사 | 전자 장치 및 이의 동작 방법 |
Family Cites Families (123)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4363102A (en) | 1981-03-27 | 1982-12-07 | Bell Telephone Laboratories, Incorporated | Speaker identification system using word recognition templates |
JPS59180599A (ja) * | 1983-03-31 | 1984-10-13 | 日本電気ホームエレクトロニクス株式会社 | 車載用音声認識制御装置 |
US5659665A (en) * | 1994-12-08 | 1997-08-19 | Lucent Technologies Inc. | Method and apparatus for including speech recognition capabilities in a computer system |
JP3674990B2 (ja) | 1995-08-21 | 2005-07-27 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
JP3522421B2 (ja) | 1995-10-31 | 2004-04-26 | 株式会社リコー | 話者認識システムおよび話者認識方法 |
US5895448A (en) | 1996-02-29 | 1999-04-20 | Nynex Science And Technology, Inc. | Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose |
US6023676A (en) * | 1996-12-12 | 2000-02-08 | Dspc Israel, Ltd. | Keyword recognition system and method |
SE511418C2 (sv) | 1997-03-13 | 1999-09-27 | Telia Ab | Metod för talarverifiering/identifiering via modellering av typiska icke-typiska egenskaper. |
US6076055A (en) | 1997-05-27 | 2000-06-13 | Ameritech | Speaker verification method |
US5897616A (en) | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
JPH1152976A (ja) * | 1997-07-29 | 1999-02-26 | Nec Home Electron Ltd | 音声認識装置 |
JP3524370B2 (ja) * | 1998-02-19 | 2004-05-10 | 富士通テン株式会社 | 音声起動システム |
JP2000075954A (ja) | 1998-09-02 | 2000-03-14 | Sony Corp | 電子機器制御装置 |
US6141644A (en) | 1998-09-04 | 2000-10-31 | Matsushita Electric Industrial Co., Ltd. | Speaker verification and speaker identification based on eigenvoices |
US6744860B1 (en) * | 1998-12-31 | 2004-06-01 | Bell Atlantic Network Services | Methods and apparatus for initiating a voice-dialing operation |
US6671672B1 (en) * | 1999-03-30 | 2003-12-30 | Nuance Communications | Voice authentication system having cognitive recall mechanism for password verification |
US6408272B1 (en) * | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
JP3357629B2 (ja) * | 1999-04-26 | 2002-12-16 | 旭化成株式会社 | 設備制御システム |
US6438524B1 (en) * | 1999-11-23 | 2002-08-20 | Qualcomm, Incorporated | Method and apparatus for a voice controlled foreign language translation device |
DE10015960C2 (de) * | 2000-03-30 | 2003-01-16 | Micronas Munich Gmbh | Spracherkennungsverfahren und Spracherkennungsvorrichtung |
US6567775B1 (en) | 2000-04-26 | 2003-05-20 | International Business Machines Corporation | Fusion of audio and video based speaker identification for multimedia information access |
US6826159B1 (en) | 2000-05-24 | 2004-11-30 | Cisco Technology, Inc. | System and method for providing speaker identification in a conference call |
EP1168736A1 (en) * | 2000-06-30 | 2002-01-02 | Alcatel | Telecommunication system and method with a speech recognizer |
US7016833B2 (en) | 2000-11-21 | 2006-03-21 | The Regents Of The University Of California | Speaker verification system using acoustic data and non-acoustic data |
US6973426B1 (en) | 2000-12-29 | 2005-12-06 | Cisco Technology, Inc. | Method and apparatus for performing speaker verification based on speaker independent recognition of commands |
US6701293B2 (en) * | 2001-06-13 | 2004-03-02 | Intel Corporation | Combining N-best lists from multiple speech recognizers |
JP4086280B2 (ja) | 2002-01-29 | 2008-05-14 | 株式会社東芝 | 音声入力システム、音声入力方法及び音声入力プログラム |
JP4224250B2 (ja) * | 2002-04-17 | 2009-02-12 | パイオニア株式会社 | 音声認識装置、音声認識方法および音声認識プログラム |
JP2003345391A (ja) | 2002-05-23 | 2003-12-03 | Denso Corp | 端末、音声認識サーバ、音声認識システムおよびコンピュータプログラム |
US20030231746A1 (en) | 2002-06-14 | 2003-12-18 | Hunter Karla Rae | Teleconference speaker identification |
TW200409525A (en) * | 2002-11-26 | 2004-06-01 | Lite On Technology Corp | Voice identification method for cellular phone and cellular phone with voiceprint password |
EP1429314A1 (en) | 2002-12-13 | 2004-06-16 | Sony International (Europe) GmbH | Correction of energy as input feature for speech processing |
US7222072B2 (en) * | 2003-02-13 | 2007-05-22 | Sbc Properties, L.P. | Bio-phonetic multi-phrase speaker identity verification |
US7571014B1 (en) | 2004-04-01 | 2009-08-04 | Sonos, Inc. | Method and apparatus for controlling multimedia players in a multi-zone system |
US8290603B1 (en) | 2004-06-05 | 2012-10-16 | Sonos, Inc. | User interfaces for controlling and manipulating groupings in a multi-zone media system |
US20070198262A1 (en) | 2003-08-20 | 2007-08-23 | Mindlin Bernardo G | Topological voiceprints for speaker identification |
US20050165607A1 (en) * | 2004-01-22 | 2005-07-28 | At&T Corp. | System and method to disambiguate and clarify user intention in a spoken dialog system |
US8214447B2 (en) | 2004-06-08 | 2012-07-03 | Bose Corporation | Managing an audio network |
US7720012B1 (en) | 2004-07-09 | 2010-05-18 | Arrowhead Center, Inc. | Speaker identification in the presence of packet losses |
US8412521B2 (en) * | 2004-08-20 | 2013-04-02 | Multimodal Technologies, Llc | Discriminative training of document transcription system |
US8521529B2 (en) | 2004-10-18 | 2013-08-27 | Creative Technology Ltd | Method for segmenting audio signals |
KR100679043B1 (ko) * | 2005-02-15 | 2007-02-05 | 삼성전자주식회사 | 음성 대화 인터페이스 장치 및 방법 |
US8041570B2 (en) * | 2005-05-31 | 2011-10-18 | Robert Bosch Corporation | Dialogue management using scripts |
US7603275B2 (en) * | 2005-10-31 | 2009-10-13 | Hitachi, Ltd. | System, method and computer program product for verifying an identity using voiced to unvoiced classifiers |
JP2006227634A (ja) * | 2006-03-29 | 2006-08-31 | Seiko Epson Corp | 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体 |
CN1996847B (zh) | 2006-12-27 | 2010-05-19 | 中国科学院上海技术物理研究所 | 基于协作网格的图像及多媒体数据通信与存储系统 |
US8099288B2 (en) | 2007-02-12 | 2012-01-17 | Microsoft Corp. | Text-dependent speaker verification |
US8838457B2 (en) | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US20110060587A1 (en) * | 2007-03-07 | 2011-03-10 | Phillips Michael S | Command and control utilizing ancillary information in a mobile voice-to-speech application |
US8352264B2 (en) | 2008-03-19 | 2013-01-08 | Canyon IP Holdings, LLC | Corrective feedback loop for automated speech recognition |
US8503686B2 (en) * | 2007-05-25 | 2013-08-06 | Aliphcom | Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems |
US8385233B2 (en) | 2007-06-12 | 2013-02-26 | Microsoft Corporation | Active speaker identification |
GB2450886B (en) * | 2007-07-10 | 2009-12-16 | Motorola Inc | Voice activity detector and a method of operation |
JP2009104020A (ja) | 2007-10-25 | 2009-05-14 | Panasonic Electric Works Co Ltd | 音声認識装置 |
GB2458461A (en) * | 2008-03-17 | 2009-09-23 | Kai Yu | Spoken language learning system |
US8504365B2 (en) * | 2008-04-11 | 2013-08-06 | At&T Intellectual Property I, L.P. | System and method for detecting synthetic speaker verification |
CA2665014C (en) * | 2008-05-23 | 2020-05-26 | Accenture Global Services Gmbh | Recognition processing of a plurality of streaming voice signals for determination of responsive action thereto |
US8145482B2 (en) * | 2008-05-25 | 2012-03-27 | Ezra Daya | Enhancing analysis of test key phrases from acoustic sources with key phrase training models |
KR101056511B1 (ko) * | 2008-05-28 | 2011-08-11 | (주)파워보이스 | 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 |
US8676586B2 (en) * | 2008-09-16 | 2014-03-18 | Nice Systems Ltd | Method and apparatus for interaction or discourse analytics |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9922640B2 (en) * | 2008-10-17 | 2018-03-20 | Ashwin P Rao | System and method for multimodal utterance detection |
KR101519104B1 (ko) * | 2008-10-30 | 2015-05-11 | 삼성전자 주식회사 | 목적음 검출 장치 및 방법 |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US8209174B2 (en) | 2009-04-17 | 2012-06-26 | Saudi Arabian Oil Company | Speaker verification system |
US9858925B2 (en) * | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
CN101923853B (zh) | 2009-06-12 | 2013-01-23 | 华为技术有限公司 | 说话人识别方法、设备和系统 |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8626511B2 (en) | 2010-01-22 | 2014-01-07 | Google Inc. | Multi-dimensional disambiguation of voice commands |
JP2011232521A (ja) | 2010-04-27 | 2011-11-17 | On Semiconductor Trading Ltd | 音声認識装置 |
KR101672212B1 (ko) | 2010-06-15 | 2016-11-04 | 엘지전자 주식회사 | 휴대 단말기 및 그 동작 방법 |
US8719018B2 (en) | 2010-10-25 | 2014-05-06 | Lockheed Martin Corporation | Biometric speaker identification |
US8874773B2 (en) | 2010-11-30 | 2014-10-28 | Gary W. Grube | Obtaining group and individual emergency preparedness communication information |
WO2012083552A1 (en) * | 2010-12-24 | 2012-06-28 | Huawei Technologies Co., Ltd. | Method and apparatus for voice activity detection |
US8296142B2 (en) * | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9159324B2 (en) | 2011-07-01 | 2015-10-13 | Qualcomm Incorporated | Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context |
US8660847B2 (en) * | 2011-09-02 | 2014-02-25 | Microsoft Corporation | Integrated local and cloud based speech recognition |
US8340975B1 (en) * | 2011-10-04 | 2012-12-25 | Theodore Alfred Rosenberger | Interactive speech recognition device and system for hands-free building control |
ES2409530B1 (es) * | 2011-10-14 | 2014-05-14 | Telefónica, S.A. | Método para gestionar el reconocimiento del habla de llamadas de audio |
US9031847B2 (en) | 2011-11-15 | 2015-05-12 | Microsoft Technology Licensing, Llc | Voice-controlled camera operations |
WO2013078388A1 (en) * | 2011-11-21 | 2013-05-30 | Robert Bosch Gmbh | Methods and systems for adapting grammars in hybrid speech recognition engines for enhancing local sr performance |
US8825020B2 (en) * | 2012-01-12 | 2014-09-02 | Sensory, Incorporated | Information access and device control using mobile phones and audio in the home environment |
US9117449B2 (en) | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
US9093076B2 (en) * | 2012-04-30 | 2015-07-28 | 2236008 Ontario Inc. | Multipass ASR controlling multiple applications |
US20140006825A1 (en) | 2012-06-30 | 2014-01-02 | David Shenhav | Systems and methods to wake up a device from a power conservation state |
US9536528B2 (en) * | 2012-07-03 | 2017-01-03 | Google Inc. | Determining hotword suitability |
JP6131537B2 (ja) | 2012-07-04 | 2017-05-24 | セイコーエプソン株式会社 | 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法 |
TWI474317B (zh) * | 2012-07-06 | 2015-02-21 | Realtek Semiconductor Corp | 訊號處理裝置以及訊號處理方法 |
US8983836B2 (en) * | 2012-09-26 | 2015-03-17 | International Business Machines Corporation | Captioning using socially derived acoustic profiles |
CN103729388A (zh) * | 2012-10-16 | 2014-04-16 | 北京千橡网景科技发展有限公司 | 用于网络用户发表状态的实时热点检测方法 |
WO2014064324A1 (en) | 2012-10-26 | 2014-05-01 | Nokia Corporation | Multi-device speech recognition |
US8996372B1 (en) * | 2012-10-30 | 2015-03-31 | Amazon Technologies, Inc. | Using adaptation data with cloud-based speech recognition |
JP2014092777A (ja) | 2012-11-06 | 2014-05-19 | Magic Hand:Kk | モバイル通信機器の音声による起動 |
US20140156281A1 (en) * | 2012-12-03 | 2014-06-05 | Qualcomm Incorporated | Voice-controlled configuration of an automation system |
US9704486B2 (en) | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
JP2014130445A (ja) * | 2012-12-28 | 2014-07-10 | Toshiba Corp | 情報抽出サーバ、情報抽出クライアント、情報抽出方法、及び、情報抽出プログラム |
CN103971685B (zh) * | 2013-01-30 | 2015-06-10 | 腾讯科技(深圳)有限公司 | 语音命令识别方法和系统 |
US9842489B2 (en) * | 2013-02-14 | 2017-12-12 | Google Llc | Waking other devices for additional data |
US9256269B2 (en) | 2013-02-20 | 2016-02-09 | Sony Computer Entertainment Inc. | Speech recognition system for performing analysis to a non-tactile inputs and generating confidence scores and based on the confidence scores transitioning the system from a first power state to a second power state |
US9349386B2 (en) * | 2013-03-07 | 2016-05-24 | Analog Device Global | System and method for processor wake-up based on sensor data |
US9361885B2 (en) * | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US9312826B2 (en) * | 2013-03-13 | 2016-04-12 | Kopin Corporation | Apparatuses and methods for acoustic channel auto-balancing during multi-channel signal extraction |
US8768687B1 (en) * | 2013-04-29 | 2014-07-01 | Google Inc. | Machine translation of indirect speech |
US9380654B2 (en) | 2013-07-11 | 2016-06-28 | General Electric Company | Light emitting diode (LED) lamp replacement driver for linear fluorescent lamps |
US20150032238A1 (en) * | 2013-07-23 | 2015-01-29 | Motorola Mobility Llc | Method and Device for Audio Input Routing |
WO2015025330A1 (en) | 2013-08-21 | 2015-02-26 | Kale Aaditya Kishore | A system to enable user to interact with an electronic processing device using voice of the user |
US9865255B2 (en) * | 2013-08-29 | 2018-01-09 | Panasonic Intellectual Property Corporation Of America | Speech recognition method and speech recognition apparatus |
US9343068B2 (en) | 2013-09-16 | 2016-05-17 | Qualcomm Incorporated | Method and apparatus for controlling access to applications having different security levels |
US8775191B1 (en) | 2013-11-13 | 2014-07-08 | Google Inc. | Efficient utterance-specific endpointer triggering for always-on hotwording |
US9373321B2 (en) * | 2013-12-02 | 2016-06-21 | Cypress Semiconductor Corporation | Generation of wake-up words |
CN103745731B (zh) * | 2013-12-31 | 2016-10-19 | 科大讯飞股份有限公司 | 一种语音识别效果自动化测试系统及测试方法 |
US8938394B1 (en) | 2014-01-09 | 2015-01-20 | Google Inc. | Audio triggers based on context |
US9639854B2 (en) | 2014-06-26 | 2017-05-02 | Nuance Communications, Inc. | Voice-controlled information exchange platform, such as for providing information to supplement advertising |
US9318107B1 (en) * | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US9424841B2 (en) | 2014-10-09 | 2016-08-23 | Google Inc. | Hotword detection on multiple devices |
US9812126B2 (en) | 2014-11-28 | 2017-11-07 | Microsoft Technology Licensing, Llc | Device arbitration for listening devices |
JP6754184B2 (ja) | 2014-12-26 | 2020-09-09 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声認識装置及び音声認識方法 |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10506068B2 (en) | 2015-04-06 | 2019-12-10 | Microsoft Technology Licensing, Llc | Cloud-based cross-device digital pen pairing |
US9875081B2 (en) | 2015-09-21 | 2018-01-23 | Amazon Technologies, Inc. | Device selection for providing a response |
JP6943656B2 (ja) | 2017-07-12 | 2021-10-06 | 日立造船株式会社 | コイン形電池およびその製造方法 |
JP2021184030A (ja) | 2020-05-21 | 2021-12-02 | キヤノン株式会社 | 単焦点レンズおよび撮像装置 |
-
2015
- 2015-04-01 US US14/675,932 patent/US9318107B1/en active Active
- 2015-09-29 CN CN201911100052.5A patent/CN111028826B/zh active Active
- 2015-09-29 EP EP16195834.3A patent/EP3139378B1/en active Active
- 2015-09-29 EP EP15781811.3A patent/EP3084759B1/en active Active
- 2015-09-29 JP JP2016551250A patent/JP6208376B2/ja active Active
- 2015-09-29 WO PCT/US2015/052860 patent/WO2016057268A1/en active Application Filing
- 2015-09-29 DE DE202015010012.0U patent/DE202015010012U1/de active Active
- 2015-09-29 CN CN201580008549.8A patent/CN106030699B/zh active Active
- 2015-09-29 KR KR1020167022701A patent/KR101832648B1/ko active IP Right Grant
- 2015-09-29 KR KR1020167021778A patent/KR101752119B1/ko active IP Right Grant
- 2015-09-29 EP EP23199925.1A patent/EP4280210A3/en active Pending
- 2015-09-29 EP EP16207288.8A patent/EP3171359B1/en active Active
- 2015-09-29 EP EP19201158.3A patent/EP3627503B1/en active Active
-
2016
- 2016-04-01 US US15/088,477 patent/US9514752B2/en active Active
- 2016-11-09 US US15/346,914 patent/US10134398B2/en active Active
- 2016-12-26 JP JP2016250670A patent/JP6427549B2/ja active Active
-
2017
- 2017-09-05 JP JP2017170185A patent/JP6530023B2/ja active Active
-
2018
- 2018-10-26 US US16/171,495 patent/US10593330B2/en active Active
-
2019
- 2019-05-14 JP JP2019091428A patent/JP6893951B2/ja active Active
- 2019-08-28 US US16/553,883 patent/US10909987B2/en active Active
- 2019-11-29 JP JP2019216761A patent/JP7022733B2/ja active Active
-
2020
- 2020-12-29 US US17/137,157 patent/US11557299B2/en active Active
-
2021
- 2021-11-11 JP JP2021184030A patent/JP7354210B2/ja active Active
-
2023
- 2023-01-05 US US18/150,561 patent/US11915706B2/en active Active
- 2023-09-20 JP JP2023153929A patent/JP2023174674A/ja active Pending
-
2024
- 2024-01-24 US US18/421,254 patent/US20240169992A1/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210134821A (ko) * | 2017-04-20 | 2021-11-10 | 구글 엘엘씨 | 장치에 대한 다중 사용자 인증 |
US11721326B2 (en) | 2017-04-20 | 2023-08-08 | Google Llc | Multi-user authentication on a device |
US11727918B2 (en) | 2017-04-20 | 2023-08-15 | Google Llc | Multi-user authentication on a device |
KR20190141767A (ko) * | 2017-11-28 | 2019-12-24 | 구글 엘엘씨 | 오디오 워터 마킹을 이용한 키 구문 검출 |
KR20220027251A (ko) * | 2017-11-28 | 2022-03-07 | 구글 엘엘씨 | 오디오 워터 마킹을 이용한 키 구문 검출 |
KR20210028688A (ko) * | 2018-08-09 | 2021-03-12 | 구글 엘엘씨 | 핫워드 인식 및 수동 어시스턴스 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101832648B1 (ko) | 다수의 디바이스에서의 핫워드 검출 | |
KR101819681B1 (ko) | 다수의 디바이스들 상에서 핫워드 검출 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |