KR102196400B1 - 핫워드 적합성을 결정하는 방법 및 장치 - Google Patents
핫워드 적합성을 결정하는 방법 및 장치 Download PDFInfo
- Publication number
- KR102196400B1 KR102196400B1 KR1020167027283A KR20167027283A KR102196400B1 KR 102196400 B1 KR102196400 B1 KR 102196400B1 KR 1020167027283 A KR1020167027283 A KR 1020167027283A KR 20167027283 A KR20167027283 A KR 20167027283A KR 102196400 B1 KR102196400 B1 KR 102196400B1
- Authority
- KR
- South Korea
- Prior art keywords
- hotword
- candidate
- determining
- specific
- candidate hotword
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 67
- 238000012549 training Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 8
- 230000002618 waking effect Effects 0.000 claims description 2
- 238000004590 computer program Methods 0.000 abstract description 10
- 235000013550 pizza Nutrition 0.000 description 42
- 238000011156 evaluation Methods 0.000 description 37
- 230000015654 memory Effects 0.000 description 33
- 238000004891 communication Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 14
- 230000008859 change Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 229920001690 polydopamine Polymers 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 235000016068 Berberis vulgaris Nutrition 0.000 description 2
- 241000335053 Beta vulgaris Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 206010028916 Neologism Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/45—Structures or tools for the administration of authentication
- G06F21/46—Structures or tools for the administration of authentication by designing passwords or checking the strength of passwords
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
핫워드 적합성을 결정하는, 컴퓨터 저장 매체 상에 인코딩된 컴퓨터 프로그램들을 포함하는, 방법들, 시스템들 및 장치들이 개시된다. 일 양상에서, 방법은 사용자에 의해 말해지는 후보 핫워드를 인코딩하는 스피치 데이터를 수신하는 단계와; 하나 이상의 미리결정된 기준을 사용하여, 상기 스피치 데이터, 또는 상기 후보 핫워드의 표기를 평가하는 단계와; 하나 이상의 미리결정된 기준을 사용하여, 상기 스피치 데이터, 또는 상기 후보 핫워드의 표기를 평가하는 단계에 기초하여, 상기 후보 핫워드에 대한 핫워드 적합성 스코어를 발생시키는 단계와; 그리고 상기 사용자에게 디스플레이하기 위해 상기 핫워드 적합성 스코어의 표현을 제공하는 단계를 포함한다.
Description
출원에 관련된 크로스-레퍼런스
본 출원은, 2012년 7월 3일에 출원된 미국 가출원 번호 61/667,817 및 2012년 8월 6일에 출원된 미국 출원 번호 13/567,572의 이익을 청구하고, 상기 출원 모두 그 전체 내용이 참조로서 본 명세서에 포함된다.
본 발명은 핫워드 적합성의 결정에 관한 것이다.
때때로 "어텐션 워드들(attention words)" 또는 "웨이크-업 워드들(wake-up words)"로 언급되는 핫워드(hotword)들은, 사용자가 스피치-인에이블된 컴퓨팅 디바이스와 상호대화를 시작하게 하는 핸즈-프리 어프로치를 제공한다. 상기 컴퓨팅 디바이스가, 상기 사용자가 핫워드를 말한 것을 검출할 때, 상기 디바이스는 추가의 사용자 명령어들을 수신하는 준비 상태로 진입한다. 디바이스 제조자들 및 소프트웨어 작성자들은, 일반적으로, 자신들의 디바이스들 또는 소프트웨어 애플리케이션들과 상호대화하기 위해 사용자들에 의해 이용되는 미리결정된 핫워드들을 제공한다.
본 명세서에 서술되는 주제의 하나의 혁신적인 양상에 따르면, 컴퓨팅 디바이스의 사용자는 상기 컴퓨팅 디바이스에 의해 사용되는 그들 자신의 핫워드를 정의할 수 있다. 후보 핫워드는, 예를 들어, 상기 후보 핫워드가 다른 워드와 상기 디바이스와 쉽게 혼동될 수 있는지를, 또는 상기 후보 핫워드가 핫워드로서 사용하는데 적합하지 않을 수 있는지를 결정하기 위해 평가될 수 있다. 이러한 평가들의 결과는 상기 사용자에게 디스플레이되고, 사용자는, 그때, 상기 후보 핫워드를 상기 핫워드로서 실제로 지정하기 원하는지 또는 평가를 위해 상이한 후보 핫워드를 제출하기를 원하는지를 확인할 수 있다.
본 명세서에서 서술되는 주제의 다른 혁신적인 양상으로서, 프로세스는 사용자에 의해 말해지는 후보 핫워드를 인코딩하는 스피치 데이터를 수신하는 단계와; 하나 이상의 미리결정된 기준을 사용하여, 상기 스피치 데이터, 또는 상기 후보 핫워드의 표기를 평가하는 단계와; 하나 이상의 미리결정된 기준을 사용하여, 상기 스피치 데이터, 또는 상기 후보 핫워드의 표기를 평가하는 단계에 기초하여, 상기 후보 핫워드에 대한 핫워드 적합성 스코어를 발생시키는 단계와; 그리고 상기 사용자에게 디스플레이하기 위해 상기 핫워드 적합성 스코어의 표현을 제공하는 단계를 포함한다.
이러한 양상들의 다른 실시예들은, 대응하는 시스템들, 장치들, 및 상기 방법들의 액션들을 수행하도록 구성되고, 컴퓨터 저장 디바이스들에 인코딩된 컴퓨터 프로그램들을 포함한다.
이러한 그리고 다른 실시예들은, 각각, 하나 이상의 다음의 피처들을 선택적으로 포함할 수 있다. 예를 들어, 상기 핫워드 스코어는, 핫워드로서 사용을 위해 상기 후보 핫워드의 적합성을 반영하고; 핫워드는, 디바이스를 웨이크 업(wake up)하는 키워드 또는 키 어구(key phrase)이고; 핫워드는, 디바이스를 언로킹하는 키워드 또는 키 어구이고; 핫워드는, 음성 패스워드이고; 상기 스피치 데이터는, 상기 사용자에 의해 동작되는 컴퓨팅 디바이스로부터 수신되고; 핫워드 적합성 스코어를 발생시키는 단계는, 상기 미리결정된 기준을 사용하여, 상기 스피치 데이터의 평가 또는 상기 후보 핫워드의 표기의 평가에 기초하여 피처 스코어를, 2개 이상의 미리결정된 범위 각각에 대하여 발생시키는 단계와; 상기 피처 스코어들을 합하는(aggregate) 단계와; 그리고 상기 핫워드 적합성 스코어로서, 상기 합해진 피처 스코어들을 출력하는 단계를 포함하고; 상기 스피치 데이터, 또는 상기 후보 핫워드의 표기를 평가하는 단계는, 상기 스피치 데이터의, 프레임들 내의 워드 길이(word length)를 평가하는 단계를 포함하고, 더 긴 워드 길이들은 더 높은 적합성 스코어들과 관련되고; 상기 스피치 데이터, 또는 상기 후보 핫워드의 표기를 평가하는 단계는, 상기 후보 핫워드와 관련된 음절(syllable)들 또는 단음(phone)들의 양을 결정하는 단계를 포함하고, 더 큰 양의 음절들 또는 단음들은 더 높은 핫워드 스코어와 관련되고; 상기 스피치 데이터, 또는 상기 후보 핫워드의 표기를 평가하는 단계는, 상기 후보 핫워드의 표기와 상기 후보 핫워드와 동일한 언어를 공유하는 하나 이상의 다른 워드들 간의 편집 거리(edit distance)를 결정하는 단계를 포함하고, 더 적은 편집 거리들은 더 낮은 적합성 스코어들과 관련되고; 상기 스피치 데이터, 또는 상기 후보 핫워드의 표기를 평가하는 단계는, 상기 후보 핫워드에 대해 특정된 발음(pronunciation)들의 양을 결정하는 단계를 포함하고, 더 적은 양의 발음들은 더 높은 핫워드 적합성 스코어들과 관련되고; 상기 스피치 데이터, 또는 상기 후보 핫워드의 표기를 평가하는 단계는, 하나 이상의 특정 단음들이 상기 후보 핫워드의 표기에서 발생하는 지를 결정하는 단계를 포함하고; 상기 표기 내의 특정 단음들의 발생은, 더 높은 적합성 스코어와 관련되고; 상기 표기 내의 특정 단음들의 발생은, 더 낮은 적합성 스코어와 관련되고; 상기 스피치 데이터, 또는 상기 후보 핫워드의 표기를 평가하는 단계는, 스피치 인식기(speech recognizer)에 이용가능한 상기 핫워드의 트레이닝 예들의 양을 결정하는 단계를 포함하고, 더 적은 양의 트레이닝 예들은 더 낮은 핫워드 적합성 스코어와 관련되고; 상기 스피치 데이터, 또는 상기 후보 핫워드의 표기를 평가하는 단계는, 상기 후보 핫워드의 발음이 상기 사용자에 의한 상기 후보 핫워드의 다수의 발언(utterance)들 사이에서 변하는 정도(extent)를 결정하는 단계를 포함하고, 더 큰 정도는 더 낮은 핫워드 적합성 스코어와 관련되고; 상기 핫워드 적합성 스코어의 표현은, 상기 후보 핫워드가 핫워드로서 적합한지를 나타내는 데이터를 포함하고; 상기 핫워드 적합성 스코어의 표현은, 상기 후보 핫워드가 핫워드로서 수용되었는지를 나타내는 데이터를 포함하고; 상기 핫워드 적합성 스코어의 표현은, 상기 핫워드 적합성 스코어의 컬러-코딩된 표현을 포함하고; 그리고/또는 상기 핫워드 적합성 스코어의 표현은, 바(bar), 게이지(gauge) 또는 미터(meter)를 포함한다.
유리한 구현들은 하나 이상의 하기의 피처들을 포함할 수 있다. 후보 핫워드 및 특정 화자(즉, 디바이스 사용자)와 관련된 기준은, 상기 핫워드를 평가할 때 고려될 수 있다. 여러 핫워드 적합성 기준은, 각 기준이 고려되고 특정 기준이 핫워드 평가 프로세스동안 중요한 특징이되지 않도록 스코어링되고 합해질 수 있다. 디바이스 사용자들은, 자신들의 디바이스들에 대한 핫워드들을 선택할 때 숙고된 결정들을 하는 핫워드 적합성 스코어들을 수신할 수 있다. 적합한 핫워드들의 사용은 핫워드 검출을 수행하도록 디바이스의 능력을 향상시킬 수 있고, 따라서, 디바이스의 성능 및 사용자 경험을 향상시킨다. 더욱이, 적합한 핫워드들의 사용은, 디바이스를 잘못되게 활성화하는 "긍정 오류(false positive)"에 대한 잠재성을 제한할 수 있고, 그 결과, 디바이스 자원들을 보전한다.
하나 이상의 구현들의 세부사항들은, 첨부된 도면들 및 아래의 서술로 설명된다. 다른 잠재적인 피처들 및 이점들은, 서술, 도면들 및 청구 범위들로부터 명확해질 것이다.
도 1 및 2는 음성 핫워드의 적합성을 결정할 수 있는 예시적인 시스템들의 다이어그램들이다.
도 3은 음성 핫워드의 적합성을 결정하고, 상기 적합성의 표현을 제공하는 예시적인 프로세스를 나타내는 흐름도이다.
도 4는 일반적인 컴퓨터 디바이스 및 일반적인 모바일 컴퓨터 디바이스의 예를 도시한다.
여러 도면들에서 동일한 참조 번호들 및 명칭들은 동일한 요소들을 나타낸다.
도 3은 음성 핫워드의 적합성을 결정하고, 상기 적합성의 표현을 제공하는 예시적인 프로세스를 나타내는 흐름도이다.
도 4는 일반적인 컴퓨터 디바이스 및 일반적인 모바일 컴퓨터 디바이스의 예를 도시한다.
여러 도면들에서 동일한 참조 번호들 및 명칭들은 동일한 요소들을 나타낸다.
도 1은 음성 핫워드(spoken hotword)의 적합성을 결정할 수 있는 예시적인 시스템(100)의 다이어그램이다. 도 1은, 또한, 단계들 (A) 내지 (H)에서 도시된, 데이터의 예시적인 흐름을 도시한다. 단계들 (A) 내지 (H)는 도시된 시퀀스로 발생될 수 있거나 상기 도시된 시퀀스와 상이한 시퀀스로 발생할 수 있다.
일반적으로, 핫워드 적합성은 핫워드 지정 프로세스의 부분으로서 시스템(100)에 의해 결정될 수 있다. 핫워드들은, 고정 컴퓨팅 디바이스, 휴대용 컴퓨팅 디바이스 또는 이동 컴퓨팅 디바이스와 상호작용하거나 고정 컴퓨팅 디바이스, 휴대용 컴퓨팅 디바이스 또는 이동 컴퓨팅 디바이스를 제어하기 위해 사용자들이 말하는 키워드들 도는 키 어구(key phrase)들을 포함할 수 있다. 예를 들어, 핫워드는 컴퓨팅 디바이스와의 통신을 개시하도록 사용자에 의해 말해질 수 있고, 상기 컴퓨팅 디바이스는 일반적으로 다른 음성 명령어들을 수신할 수 있는 상태로 놓여진다. 음성 핫워드를 검출할 때, 예를 들어, 컴퓨팅 디바이스는, 활성화(즉, 휴지(dormant) 또는 아이들(idle) 상태로부터의 "웨이킹 업(waking up)"), 언로킹(unlocking), 디바이스 애플리케이션(예를 들어, 서치 애플리케이션, 맵 애플리케이션 등)의 런칭(launching), 선호된 사용자 설정들을 로딩, 및/또는 다른 적합한 액션들을 포함하는 여러 액션들을 수행할 수 있다.
디바이스 사용자들은, 자신들의 컴퓨팅 디바이스들에 대한 핫워드들을 제공하기 위해 특정 워드들 또는 어구들을 선택하기 원할 수 있다. 예를 들어, 개인적으로 의미있는 단어 또는 어구는, 디바이스를 커스터마이즈(customize)하기 위해 제공될 수 있고, 유머러스한 방식으로 상기 디바이스를 개인화할 수 있고, 그리고 디바이스의 제조자에 의해 제공된 단어 또는 어구보다 사용자가 기억하거나 발음하는 것을 용이하게 할 수 있다. 더욱이, 사용자-선택된 핫워드들은, 기본적으로 패스워드로서 기능하는, 보안 조치를 제공할 수 있다. 하지만, 일부 단어들 또는 어구들은, 다른 것들보다 컴퓨팅 디바이스에 의해 더 용이하게 검출될 수 있고, 따라서, 더 양호한 핫워드들을 제공할 수 있다. 아래에서 예들로서 서술되는 것처럼, 핫워드 검출성(hotword detectability)은, 특정 단어 또는 어구에 관련되고 특정 화자(speaker)에 관련된 여러 범주, 예를 들어, 단어 또는 어구의 길이, 상기 단어 또는 어구에 포함되는 음절들 또는 단음(phone)들의 양, 특정 단음들의 발생, 상기 단어 또는 어구에 대한 식별된 발음들의 양, 상기 화자에 의한 단어 또는 어구 발음의 변화, 여러 다른 화자들로부터의 단어 또는 어구에 대한 예들을 트레이닝 예들의 유효성, 및 말해진 단어 또는 어구와 공유된 다른 언어들 또는 어구들 사이의 편집 거리에 의존할 수 있다. 상기 범주 각각은 점수화되고, 집계되며, 그리고 사용자에게 출력될 수 있고, 따라서, 후보 핫워드의 적합성의 전체 표시를 제공한다. 예를 들어, 핫워드 적합성 스코어들에 기초하여, 사용자들은, 그들의 디바이스들에 대한 핫워드들을 선택할 때 현명한 결정을 할 수 있다.
더 상세하게, 시스템(100)은 사용자에게 디스플레이하기 위한 인터페이스(104)(여기에서, 인터페이스들(104a, 104b 및 104c)처럼 여러 동작 상태들로 도시됨)를 표시할 수 있는 컴퓨팅 디바이스(102)(여기에서, 컴퓨팅 디바이스들(102a, 102b 및 102c)처럼 여러 동작 상태들로 도시됨)를 포함한다. 상기 컴퓨팅 디바이스(102)는, 컴퓨터 판독가능한 매체에 의해 저장된 명령어들을 실행하기 위해 구성된 하나 이상의 프로세서들을 포함하고, 상기 컴퓨터 판독가능한 매체는 입력/출력, 통신, 데이터 프로세싱 등과 같은 여러 디바이스 동작들을 수행한다. 예를 들어, 상기 컴퓨팅 디바이스(102)는 하나 이상의 클라이언트 컴퓨팅 디바이스들(예를 들어, 데스크 컴퓨터들, 랩톱 컴퓨터들, 노트북 컴퓨터들, 내비게이션 시스템들, 스마트폰들, 또는 다른 적합한 컴퓨팅 디바이스들) 그리고/또는 하나 이상의 서버들(예를 들어, 백엔드 서버 팜)을 포함할 수 있다. 예를 들어, 클라이언트 컴퓨팅 디바이스에 의해 수신된 입력은, 국부적으로 처리될 수 있거나 또는 처리를 위해 백엔드 시스템(예를 들어, 클라우드)에 제공될 수 있다. 다른 예로서, 프로세싱은, (예를 들어, 피어-투-피어 구성인) 하나 이상의 클라이언트 컴퓨팅 디바이스들 그리고/또는 서버들 사이에서 분배될 수 있다.
예시적인 데이터 플로우를 참조하면, 단계 (A)동안, 사용자는 후보 핫워드를 말하거나 타이핑하도록 촉구받는다. 예를 들어, 컴퓨팅 디바이스(102)(여기에서, 디바이스(102a)로 도시됨)는, 인터페이스(104)(여기에서, 인터페이스(104a)로 도시됨)를 통해 사용자에게 "당신의 원하는 핫워드를 말하세요(Please say your desired hotword)". 현재의 예에서, 사용자는 후보 핫워드 "피자(pizza)"를 말할 수 있고, 컴퓨팅 디바이스(102)는 상기 발언에 기초하여 스피치 데이터(110)를 캡처하고, 인코딩하고 그리고/또는 발생시킨다.
예를 들어, 스피치 데이터(110)는, 오디오 소스 데이터(112)(예를 들어, 오디오 스트림, 디지털적으로 샘플링된 오디오 파일, 또는 다른 적합한 데이터 포맷), 단음들의 대응하는 세트(114)(언어음들(speech sounds)), 및 선택적으로, 표기(transcription)(116)를 포함할 수 있다. 예를 들어, 단음들의 세트(114)(예를 들어, "피자"의 사용자의 발언에서 검출된 언어음들)를 식별하기 위해, 컴퓨팅 디바이스(102) 및/또는 백엔드 컴퓨팅 디바이스들은, 오디오 소스 데이터(112)에 포함된 음향 신호들을 분석할 수 있고, 상기 분석에 기초하여 음성 피처들을 분류할 수 있다. 또한, 표기(116)(예를 들어, 표기된 단어 "피자")를 발생시키기 위해, 상기 컴퓨팅 디바이스(102) 그리고/또는 백엔드 컴퓨팅 디바이스들은, 단음들의 세트(114)를 단어 또는 어구와 관련시키도록 음성 인식 기술들(예를 들어, 히든 마르코프 모델(Hidden Markov models), 신경망(neural networks), 또는 다른 적합한 기술들)을 사용할 수 있다. 예를 들어, 음성 데이터(110)를 캡처하고, 인코딩하고 그리고/또는 발생시킬 때, 상기 데이터는 하나 이상의 핫워드 세기 평가 엔진들(120)에 제공될 수 있다.
단계 (B)동안, 스피치 데이터는 처리되고 평가된다. 현재의 예에서, 상기 핫워드 세기 평가 엔진들(120)은 스피치 데이터(110)를 처리하고 평가할 수 있다. 예를 들어, 핫워드 세기 평가 엔진들(120)은, 스피치 데이터를 처리하고 평가하도록 구성된 하나 이상의 하드웨어 그리고/또는 소프트웨어 컴포넌트들(예를 들어, 모듈들, 객체들, 라이브러리들 등)을 포함할 수 있고, 상기 컴퓨팅 디바이스(102) 그리고/또는 다른 관련된 디바이스들(예를 들어, 백엔드 서버들, 피어 디바이스들 등)의 하나 이상의 프로세서들에 의해 실행될 수 있다.
일반적으로, 여러 기준들은 스피치 데이터를 평가하기 위해 사용될 수 있다. 예를 들어, 상기 여러 기준들 각각은 서로 상이한 핫워드 세기 평가 엔진과 관련될 수 있고, 상기 서로 상이한 핫워드 세기 평가 엔진은 이후 특정 기준에 기초한 피처 스코어를 생성할 수 있다. 예를 들어, 상기 서로 상이한 핫워드 세기 평가 엔진들 각각은, 오디오 소스 데이터, 단음들의 도출된 세트, 표기들 그리고/또는 후보 핫워드에 관련된 다른 적합한 음성 데이터를 평가할 수 있다. 더욱이, 일부 구현들에서, 트레이닝 예들(상기 스피커에 의한 그리고/또는 다른 스피커들에 의한 후보 핫워드의 과거 발언들과 관련된 스피치 데이터)이 평가될 수 있다. 예를 들어, 트레이닝 예들은, 트레이닝 예들 데이터 스토어(122)에 의해 유지될 수 있다. 트레이닝 예들 데이터 스토어(122)는, 시스템(100)에 의해 사용되는 데이터를 추가하고, 제거하며 그리고 유지하기 위해, 데이터베이스들, 데이터 서비스들, 파일 시스템들 등을 구현할 수 있다.
현재의 예에서, 하나 이상의 핫워드 세기 평가 엔진들(210)은 프레임들(즉, 오디오의 시간-기반 섹션) 내의 워드 길이를 결정하기 위해 상기 오디오 소스 데이터(112)를 평가할 수 있다. 예를 들어, 상기 후보 핫워드 "피자"는 다른 워드들과 비교하여 비교적 짧은 것으로 고려될 수 있거나, 특정 화자는 다른 워드들 또는 다른 화자들과 비교하여 비교적 빠르게 상기 단어 "피자"를 말할 수 있다. 예를 들어, 워드 길이 기준에 기초하여, 상기 핫워드 세기 평가 엔진들(120) 중 하나는 대응하는 피처 스코어(124a)(예를 들어, 낮은 스코어)를 생성할 수 있다.
현재의 예들에 계속하여, 상기 핫워드 세기 평가 엔진들(210) 중 하나는, 편집 거리 또는 음성 혼란(phonetic confusability)을 식별하기 위해, 후보 핫워드의 단음들의 세트(114) 그리고/또는 표기(116)를 화자의 언어로 된 다른 단어들 또는 어구들을 평가할 수 있다. 상기 편집 거리를 식별하기 위해, 예를 들어, 유한 상태 변환기(finite state transducer)들, 단음-대-단음 변환기들, 그리고/또는 언어 모델들은 상기 후보 핫워드와 혼동될 수 있는 가장 가능성이 높은 단어들 또는 어구들을 결정하기 위해 사용될 수 있다. 현재의 예에서, (여러 개들 중에서) "비자(visa)", "피스 오프(piece of)" 및 "비트 소(beet saw)"과 같은 여러 단어들 또는 어구들은, 후보 핫워드 "피자"와 혼동될 가능성이 높은 것으로 결정될 수 있다. 예를 들어, 편집 거리 기준에 기초하여, 핫워드 세기 평가 엔진들(120) 중 하나는, 적당한 양의 단어들 또는 어구들이 후보 단어 "피자"로부터 작은 편집 거리를 가지는지를 결정할 수 있고, 따라서, 대응하는 피처 스코어(142b)(예를 들어, 중간 또는 낮은 스코어)를 생성할 수 있다.
또한, 현재의 예에서, 상기 핫워드 세기 평가 엔진들(120) 중 하나는, 상기 후보 핫워드에 대해 특정된 발음들의 양을 식별하기 위해, 트레이닝 예들 데이터 스토어(122)에 의해 제공된 표기(116) 그리고/또는 데이터를 평가할 수 있다. 예를 들어, 단어 "피자"의 가능한 발음들을 식별하기 위해, 상기 핫워드 세기 평가 엔진은, 표기(116)에 기초하여 사전 또는 발음 가이드에서 상기 단어를 참조할 수 있다. 다른 예에서, 상기 핫워드 세기 평가 엔진은, 트레이닝 예들 데이터 스토어(122)에서 단어 "피자"를 참조할 수 있고, 상기 단어가 여러 화자들에 의해 어떻게 발음될 수 있는지에 대해 가능한 변화들을 식별할 수 있다. 현재의 예에서, 상기 단어 "피자"의 단지 하나의 공식적인 미국식 영어가 사전 또는 발음 가이드에서 발견되지만, 상기 단어 "피자"가 미국인인 화자에 의해 발음되는 방법에 여러 변형들이 존재한다. 예를 들어, 일부 미국인인 화자들은, 상기 단어 "피자"의 이탈리아 본토인의 발음을 사용할 것이다. 예를 들어, 발음 기준의 양에 기초하여, 상기 핫워드 세기 평가 엔진들(120) 중 하나는, 낮은 양에서 중간 양의 발음들이 상기 후보 핫워드 "피자"에 대해 존재하는지를 결정할 수 있고, 따라서 대응하는 피처 스코어(124c)(예를 들어, 높은 또는 중간 스코어)를 생성할 수 있다.
단계 (C)동안, 핫워드 적합성 스코어가 발생된다. 피처 스코어들(124a, 124b 및 124c) 각각을 발생시킬 때, 예를 들어, 피처 스코어들(126)의 세트는 핫워드 스코어 발생기(128)에 제공될 수 있다. 핫워드 스코어 발생기(128)는, 예를 들어, 상기 스코어들(124a, 124b 및 124c)을 수집할 수 있고, 핫워드 적합성 스코어로서 수집된 피처 스코어들을 제공할 수 있다. 핫워드 적합성 스코어를 발생시키기 위해, 예를 들어, 핫워드 스코어 발생기(128)는, 상기 후보 핫워드(예를 들어, 단어 "피자")에 대한 확신 값을 추정하는 모델을 트레이닝하도록 로지스틱 회귀분석(logistic regression) 또는 대안의 분류자(alternative classifier)를 사용할 수 있다. 일반적으로, 높은 확신 값은 잠재적으로 적합한 핫워드에 관련될 수 있다. 다른 예로서, 상기 핫워드 발생기는 (예를 들어, 경험적 분석에 기초하여) 상기 피처 스코어들(124a, 124b 및 124c) 각각에 적합한 가중치들에 할당할 수 있고 수집 동작을 수행할 수 있다.
단계(D)동안, 상기 핫워드 적합성 스코어의 표시는 상기 사용자에게 디스플레이하기 위해 제공된다. 예를 들어, 컴퓨팅 디바이스(102)(여기에서, 디바이스(102b)로 표시됨)는 핫워드 적합성의 하나 이상의 표시들(예를 들어, 시각 그리고/또는 청각)을 인터페이스(104)(여기서 인터페이스(104b)로 표시됨)를 통해 상기 사용자에게 제공할 수 있다. 현재의 예에서, 상기 인터페이스(104b)는, 상기 사용자에게 메시지(예를 들어, 상기 후보 핫워드 "피자"는 상대적으로 "약하다") 및 피처의 하나 이상의 텍스처 또는 그래픽 표시들(예를 들어, 선 그래프들, 바 그래프들, 사분면 차트들 등) 그리고/또는 다양한 핫워드 스코어링 기준에 관련된 합계 스코어들(예를 들어, 12/100의 합계 핫워드 적합성 스코어)를 제시할 수 있다. 더욱이, 현재의 예에서, 사용자는 다른 후보 핫워드(예를 들어, "다시 시도하세요(try again)")를 제공하라는 제안을 받을 수 있다. 상기 제안은, 예를 들어, 상기 핫워드 적합성 스코어가 미리결정된 임계치 아래라면 제공될 수 있다.
예시적인 데이터 플로우를 다시 참조하면, 단계 (A)와 유사하게, 단계 (E) 동안, 상기 사용자는 후보 핫워드를 제공하라는 제안을 받는다. 현재의 예에서, 상기 사용자는 후보 핫워드 "스모가스보드(smorgasboard)"를 말할 수 있고, 상기 컴퓨팅 디바이스(102)는 상기 발언에 기초하여 스피치 데이터(130)를 캡처하고, 인코딩하며, 그리고 발생시킬 수 있다. 상기 스피치 데이터(110)와 유사하게, 예를 들어, 스피치 데이터(130)는, 오디오 소스 데이터(132), 대응하는 단음들(134)의 세트, 및 선택적으로, 표기(136)를 포함할 수 있다. 스피치 데이터(130)를 캡처하고, 인코딩하며, 발생시킬 때, 예를 들어, 상기 데이터는 하나 이상의 핫워드 세기 평가 엔진들(120)에 제공될 수 있다.
단계 (B)와 유사하게, 단계 (F)동안, 스피치 데이터는 처리되고 평가된다. 현재의 예에서, 상기 핫워드 세기 평가 엔진들(120)은 스피치 데이터(130)를 처리하고 평가할 수 있다. 상기 핫워드 세기 평가 엔진들(120)은, 예를 들어, 오디오 소스 데이터(132), 단음들(132)의 세트, 표기(136) 및 상기 후보 핫워드 "스모가스보드"와 연관된 다른 적합한 스피치 데이터를 평가할 수 있다.
현재의 예에서, 핫워드 세기 평가 엔진들(120) 중 하나는 프레임들 내의 워드 길이를 결정하기 위해 오디오 소스 데이터(132)를 평가할 수 있다. 예를 들어, 상기 후보 핫워드 "스모가스보드"는 (예를 들어, 평균 워드 길이에 기초한) 다른 워드들에 비교하여 상대적으로 길거나, 특정한 화자가 다른 워드들 또는 다른 화자들과 비교하여 상대적으로 느리게 단어 "피자"를 언급할 수 있다. 워드 길이 기준에 기초하여, 예를 들어, 핫워드 길이 평가 엔진들(120) 중 하나는 대응하는 피처 스코어(124a)(예를 들어, 하이 스코어)를 생성할 수 있다.
현재의 예에 계속하여, 상기 핫워드 세기 평가 엔진들(120) 중 하나는, 화자의 언어 내의 다른 단어들 또는 어구들에 대해 상기 후보 핫워드의 편집 거리를 식별하도록 단음들(134)의 세트 그리고/또는 표기(136)를 평가할 수 있다. 현재의 예에서, 단어 "하프시코드(harpsichord)"는 상기 후보 핫워드 "스모가스보드"와 혼동될 가능성이 먼 것으로 결정될 수 있다. 편집 거리 기준에 기초하여, 예를 들어, 상기 핫워드 세기 평가 엔진들(120) 중 하나는, 적응 양의 단어들 또는 어구들은 후보 단어 "스모가스보드"로부터 보통의 편집 거리를 가지고, 따라서 대응하는 피처 스코어(124b)(예를 들어, 높은 스코어)를 생성할 수 있는 것이 결정될 수 있다.
또한, 현재의 예에서, 핫워드 세기 평가 엔진들(120) 중 하나는, 후보 핫워드에 대해 특정된 발음들의 양을 식별하도록, 트레이닝 예들 데이터 스토어(122)에 의해 제공된 표기(136)를 평가할 수 있다. 상기 단어 "피자"와 마찬가지로, 상기 단어 "스모가스보드"의 유일한 미국식 영어 발음이 사전 또는 발음 가이드에서 발견되지만, 상기 단어가 미국인인 화자에 의해 발음되는 방법은 몇가지 변형이 존재하는 것으로 결정될 수 있다. 예를 들어, 일부 미국인인 화자들은 단어 "스모가스보드"의 스웨덴식 발음을 사용할 수 있다. 발음 기준의 양에 기초하여, 예를 들어, 핫워드 세기 평가 엔진들(120) 중 하나는, 작은 양에서 중간 정도의 양의 발음들이 후보 핫워드 "스모가스보드"에 대해 존재하는 것으로 결정할 수 있고, 따라서, 대응하는 피처 스코어(124c)(예를 들어, 높은 또는 중간 스코어)를 생성할 수 있다.
단계 (C)와 유사하게, 단계 (G)동안, 핫워드 적합성 스코어가 발생된다. 스피치 데이터(130)에 대한 피처 스코어들(124a, 124b 및 124c) 각각을 발생시킬 때, 예를 들어, 피처 스코어들(126)의 세트가 핫워드 스코어 발생기(128)에 제공될 수 있다. 또한, 스테이지 (D)와 유사하게, 스테이지 (H) 동안, 상기 핫워드 적합성 스코어의 표시는 상기 사용자에게 디스플레이하기 위해 제공된다. 현재의 예에서, 인터페이스(104)(여기에서, 디바이스(104c)로 표시됨)는, 상기 사용자에게 메시지(예를 들어, 상기 후보 핫워드 "스모가스보드"는 상대적으로 "강하다") 및 피처의 하나 이상의 텍스처 또는 그래픽 표시들 그리고/또는 다양한 핫워드 스코어링 기준에 관련된 합계 스코어들(예를 들어, 93/100의 합계 핫워드 적합성 스코어)를 제시할 수 있다. 더욱이, 현재의 예에서, 사용자는, 후보 핫워드가 디바이스 핫워드로 지정되는 메시지를 받을 수 있다(예를 들어, 상기 핫워드가 "받아들여졌습니다"). 상기 메시지는, 예를 들어, 상기 핫워드 적합성 스코어가 미리결정된 임계치를 넘으면 제공될 수 있다.
이전의 예들에서 기술된 것처럼, 후보 핫워드에 관련되고 특정한 화자에 관련된 모든 기준이 핫워드를 평가할 때 고려될 수 있다. 상기 디바이스 사용자는, 핫워드를 선택하도록 컴퓨팅 디바이스(102)에 의해 제공된 핫워드 적합성 정보를 리뷰할 수 있다. 상기 적합한 핫워드들의 사용은 상기 디바이스에 의한 핫워드 검출을 향상시킬 수 있고, 따라서, 디바이스 성능을 향상시키고 디바이스 자원들을 보존한다. 스피치 데이터를 평가하고 핫워드 적합성 스코어들을 발생시키는 여러 기준은 이전의 예들에서 기술되고 있다. 하지만, 아래의 추가적인 예들에서 기술되는 거처럼, 추가적인 기준, 더 적은 기준 그리고/또는 서로 다른 기준이 고려될 수 있다.
도 2는 음성 핫워드의 적합성을 결정할 수 있는 예시적인 시스템(200)의 다이어그램이다. 상기 시스템은, 예를 들어, 하나 이상의 클라이언트 컴퓨팅 디바이스들 및/또는 백엔드 서버들의 하드웨어 및/또는 소프트웨어 컴포넌트들을 포함할 수 있다. 일반적으로, 상기 시스템(200)은, 사용자에 의해 말해진 후보 핫워드를 인코딩하는 스피치 데이터를 수신할 수 있고, 상기 스피치 데이터를 평가하고 표기할 수 있고, 상기 후보 핫워드에 대한 핫워드 적합성 스코어를 발생시킬 수 있으며, 그리고 상기 사용자에게 디스플레이를 위해 상기 핫워드 적합성 스코어의 표시를 제공할 수 있다.
시스템(200)은, 여기에서 기술된 프로세스들을 수행하는 명령어들(예를 들어, 애플리케이션 프로그램 코드)를 저장하는 컴퓨터-판독가능한 매체(202)(예를 들어, 하나 이상의 플로피 디스크 디바이스들, 하드 디스크 디바이스들, 광 디스크 디바이스들, 테잎 디바이스들, 플래시 메모리 디바이스들 또는 다른 유사한 고체 상태 메모리 디바이스, 또는 디바이스들의 어레이)를 포함할 수 있다. 추가로, 시스템(200)은, 상기 명령어들을 실행하도록 구성되고, 여러 디바이스 동작들(예를 들어, 입력/출력), 통신, 데이터 프로세싱 등을 수행하도록 구성되는 하나 이상의 프로세서들(204)을 포함할 수 있다.
상기 시스템(200)은, 시스템(200)과 사용자 사이의 인터페이스(예를 들어, 그래픽, 오디오 그리고/또는 촉각)를 제공하는 사용자 인터페이스 발생기(206)를 포함할 수 있다. 예를 들어, 사용자 인터페이스 발생기(206)는, 사용자에게 핫워드 적합성의 촉구들, 메시지들 및 표시들을 제공하는 인터페이스들(124a, 124b 및 124c)(도 1에 도시됨)을 제공할 수 있다. 추가로, 상기 시스템(200)은 오디오 인터페이스(208)를 포함할 수 있다. 오디오 인터페이스(208)는, 예를 들어, 상기 사용자로부터 말해진 단어들 및 어구들을 수신하는 하나 이상의 마이크로폰들 및 사용자에게 오디오 촉구들 및 피드백(예를 들어, 톤(tone)들, 기록들, 컴퓨터로 생성된 스피치 등)을 제공하는 하나 이상의 스피커들을 포함할 수 있다. 더욱이, 오디오 인터페이스(208)는, 디지털 샘플링 및 인코딩을 위해 프로세서들(204)에 음성 워드들 및 어구들과 관련된 오디오 신호들을 제공할 수 있다.
상기 시스템(200)은 n-그램/단음 발생기(phone generator)(210)를 포함할 수 있다. 예를 들어, n-그램/단음 발생기(phone generator)(210)는 오디오 인터페이스(208) 및 프로세서들(204)을 통해 제공된 인코딩된 스피치 데이터를 분석할 수 있고, 대응하는 일련의 n-그램들 그리고/또는 단음들을 식별할 수 있다. 상기 n-그램들 그리고/또는 단음들은, 예를 들어, 기계 번역 및 표기를 수행하도록 스피치 인식 엔진(212)에 의해 사용될 수 있다.
시스템(200)은 복수의 핫워드 세기 평가 엔진들(214)을 포함할 수 있다. 여러 미리 결정된 기준은 스피치 데이터를 평가하기 위해 핫워드 세기 평가 엔진들(214)에 의해 고려될 수 있다. 예를 들어, 기준은 단어 또는 어구의 길이, 상기 단어 또는 어구에 포함된 음절들 또는 단음들의 양, 특별한 단음들의 발생, 상기 단어 또는 어구에 대한 식별된 발음들의 양, 화자에 의한 단어 또는 어구의 발음의 변화, 여러 화자들로부터의 단어 또는 어구에 대한 트레이닝 예들의 유효성, 그리고/또는 말하여진 단어 또는 어구과 공유된 언어의 다른 단어들 또는 어구들 사이의 편집 거리를 포함할 수 있다. 핫워드 세기 평가 엔진들(214) 각각은, 예를 들어, 하나 이상의 상기 기준을 사용하는 스피치 데이터를 평가할 수 있다.
상기 시스템(200)은 스코어 발생기(216)를 포함할 수 있다. 예를 들어, 피처 스코어는 핫워드 세기 평가 엔진들(214) 각각에 대한 스코어 발생기(216)에 의해 결정될 수 있고, 전체 핫워드 적합성 스코어는 상기 피처 스코어들을 합함으로써 결정될 수 있다. 상기 핫워드 적합성 스코어의 표현은, 예를 들어, 사용자 인터페이스 발생기(206)에 의해 발생된 인터페이스를 통해, 상기 사용자에게 제공될 수 있다.
도 3은 음성 핫워드의 적합성을 결정하고 그리고 상기 적합성의 표시를 제공하는 예시적인 프로세스(300)를 나타내는 흐름도이다. 일부 구현들에서, 프로세스(300)는 시스템들(100 및/또는 200)에 의해 수행될 수 있고, 그리고, 예를 들어, 명확함을 위해 기술될 것이다. 간략하게, 프로세스(300)는 음성 핫워드를 수신하는 것, 상기 핫워드를 평가하는 것, 상기 핫워드를 스코어링하는 것, 그리고 상기 핫워드의 적합성의 표시를 제공하는 것을 포함한다.
더욱 상세하게, 프로세스(300)이 시작할 때(302), 사용자에 의해 말해진 후보 핫워드를 인코딩하는 스피치 데이터가 수신된다(304). 상기 사용자는, 예를 들어, 자신의 고정 디바이스(예를 들어, 홈 자동 시스템) 또는 컴퓨팅 디바이스(예를 들어, 스마트폰)을 웨이킹 업 그리고/또는 언로킹하는 키워드 또는 키 어구를 제공하기 원할 수 있다. 현재의 예에서, 상기 사용자는 상기 사용자에 대해서 기억가능하나, 다른 사람들에 의해 수용될 가능성이 낮은 어구(예를 들어, 음성 패스워드)를 제공하도록 선택할 수 있다. 따라서, 현재의 예에서, 상기 사용자는 어구 "피자 스모가스보드"를 언급한다.
도 2를 참조하면, 예를 들어, 오디오 인터페이스(208)는 상기 사용자에 의해 언급된 상기 후보 핫워드를 수신할 수 있고, 디지털 샘플링 및 인코딩을 위해 프로세서들(204)에게 수신된 언급에 관련된 오디오 신호들을 제공할 수 있다. 추가로, 상기 샘플링된 그리고 인코딩된 오디오 신호들은, 상기 n-그램/단음 발생기(210)에 의해 일련의 n-그램들 및 단음들로 분해될 수 있고, 스피치 인식 엔진(212)에 의해 표기될 수 있다. 스피치 데이터 및 표기는, 예를 들어, 핫워드 세기 평가 엔진들(214)에 제공될 수 있다.
스피치 데이터, 또는 후보 핫워드의 표기는 하나 이상의 미리결정된 기준을 사용하여 평가된다(306). 예를 들어, 핫워드 세기 평가 엔진들(214) 각각은, 특정 기준 또는 관련된 기준의 세트에 기초하여 상기 스피치 데이터 그리고/또는 상기 표기를 평가하도록 구성될 수 있다. 일반적으로, 핫워드 검출 행위에 관련될 수 있는 핫워드 피처들 또는 특성들은 추출될 수 있고 평가될 수 있다.
일부 구현들에서, 스피치 데이터 그리고/또는 상기 후보 핫워드의 표기를 평가하는 것은, 상기 스피치 데이터의 (예를 들어, 프레임들 내의) 워드 세기를 결정하는 것을 포함할 수 있다. 예를 들어, 프레이밍 프로세스는, 후보 핫워드에 관련된 스피치 신호를 더 짧은 스피치 신호들로 분할하도록 사용될 수 있고, 그 결과 상대적으로 안정된 주파수 특성들을 식별한다. 일반적으로, 더 긴 단어 길이들(예를 들어, 더 많은 양의 프레임들)은 더 높은 핫워드 적합성 스코어들과 관련될 수 있다. 현재의 예에서, 상기 후보 핫워드 "피자 스모가스보드"는 통상적인 핫워드와 비교하면 상대적으로 길 수 있고, 워드 길이 피처를 고려할 때 상대적으로 높은 핫워드 적합성 스코어와 관련될 수 있다.
일부 구현들에서, 스피치 데이터 그리고/또는 상기 후보 핫워드의 표기를 평가하는 것은, 상기 후보 핫워드에 관련된 음절들 또는 단음들의 양을 결정하는 것을 포함할 수 있다. 예를 들어, 후보 핫워드와 관련된 음절들의 양은, 여러 단어들의 음절 카운트들을 포함하는 사전을 참조하도록, 스피치 인식 엔진(212)에 의해 발생된 상기 핫워드의 표기를 사용함으로써 결정될 수 있다. 다른 예로서, 후보 핫워드와 관련된 음절들의 양은, n-그램/음절 발생기(210)에 의해 상기 핫워드에 대해 식별된 음절들의 세트를 평가함으로써 결정될 수 있다. 현재의 예에서, 상기 후보 핫워드 "피자 스모가스보드"는 총 5개의 음절들(예를 들어, 상기 개별 단어 "피자"에 대한 2개의 음절들 및 상기 단어 "스모가스보드"에 대한 3개의 음절들)을 포함하도록 식별될 수 있고, 총 10개의 단음들(예를 들어, 상기 개별 단어 "피자"에 대해 3개의 단음들 및 상기 단어 "스모가스보드"에 대해 7개의 단음들)을 포함하도록 식별될 수 있다. 일반적으로, 더 큰 양의 음절들 또는 단음들은 더 높은 핫워드 적합성 스코어에 관련될 수 있다. 현재의 예에서 후보 핫워드 "피자 스모가스보드"는 통상의 핫워드와 비교하여 상대적으로 많은 양의 음절들 그리고/또는 단음들을 가질 수 있고, 음절 그리고/또는 단음 양 피처를 고려할 때 상대적으로 높은 핫워드 적합성 스코어와 관련될 수 있다.
일부 구현들에서, 스피치 데이터 그리고/또는 상기 후보 핫워드의 표기를 평가하는 것은, 상기 후보 핫워드와 동일한 언어를 공유하는 하나 이상의 다른 단어들과 상기 후보 핫워드의 표기 사이의 편집 거리를 결정하는 것을 포함할 수 있다. 서로 간의 작은 편집 거리를 갖는 단어들 또는 어구들은, 예를 들어, 일반적으로 서로 혼동될 수 있지만, 이에 반해 서로 간의 넓은 편집 거리를 갖는 단어들 또는 어구들은 일반적으로 더 용이하게 구별될 수 있다. 현재의 예에서, 어구 "피스 오브 하프시코드"는 후보 핫워드 "피자 스모가스보드"와 중간 정도의 편집 거리를 가질 수 있다(즉, 약간 혼동될 수 있다). 일반적으로, 더 짧은 편집 거리들은 더 낮은 핫워드 적합성 스코어들과 관련될 수 있다. 따라서, 현재의 예에서, 어구들 "피스 오브 하프시코드"와 "피자 스모가스보드"가 그것들 사이에 중간 정도의 편집 거리를 가지기에, 상기 후보 핫워드는 편집 거리 피처를 고려할 때 중간 정도의 적합성 스코어와 관련될 수 있다.
상기 후보 핫워드의 미리결정된 편집 거리 범위 내에 있는 하나 이상의 단어들 또는 어구들을 식별할 때, 일부 구현들에서, 그와 같은 단어들의 양은 편집 거리 피처 스코어를 결정할 때 고려될 수 있다. 예를 들어, 어구 "피스 오브 하프시코드"는 후보 핫워드 "피자 스모가스보드"로부터 미리결정된 편집 거리 내에 있는 것으로 식별될 수 있지만, 몇 개(존재한다면)의 다른 어구들만이 상기 편집 거리 범위 내에 있는 것으로 또한 식별될 수 있다. 따라서, 현재의 예에서, 상기 후보 핫워드는 더 높은 피처 스코어와 관련될 수 있다. 또한, 일부 구현들에서, 후보 핫워드 그리고/또는 일반적인 대화에서 사용되는 상기 후보 핫워드의 미리결정된 편집 거리 범위 내에 있는 단어들 또는 어구들(즉, 잠재적으로 혼동가능한 단어들 또는 어구들) 각각의 가능성들은, 핫워드 적합성 스코어를 결정할 때 고려될 수 있다. 예를 들어, 하나 이상의 후보 평가 엔진들(214)은, 상기 후보 핫워드 "피자 스모가스보드" 그리고/또는 (예를 들어, 디바이스 사용자에 의해 그리고/또는 일반적으로 사람들에 의해) 일반적인 대화에서 말해지는 잠재적으로 혼동가능한 어구 "피스 오브 하프시코드"의 가능성이 비교적 낮고, 그리고 상기 후보 핫워드가 훨씬 더 높은 피처 스코어에 관련될 수 있도록 결정될 수 있다.
일부 구현들에서, 스피치 데이터 그리고/또는 상기 후보 핫워드의 표기를 평가하는 것은 상기 후보 핫워드에 대해 특정된 양의 발음들을 결정하는 것을 포함할 수 있다. 예를 들어, 후보 핫워드와 관련된 발음들의 양은, 상기 핫워드의 일반적인 또는 수용된 발음들을 포함하는 사전을 참조하기 위해 스피치 인식 엔진(212)에 의해 생성된 상기 핫워드의 표기를 사용하여 결정될 수 있다. 다른 예로서, 상기 후보 핫워드를 말한 상기 사용자 그리고/또는 다른 사용자들의 기록된 인스턴스들이 평가될 수 있다. 일반적으로, 더 적은 양들의 발음들이 더 높은 핫워드 적합성 스코어들에 관련될 수 있다. 예를 들어, 상기 핫워드 세기 평가 엔진들(214) 중 하하는 사전 소스로부터 어구 "피자 스모가스보드"의 하나의 공식적인 발음을 식별할 수 있지만, 스피커들의 집단에 의한 적은 양으로부터 중간 양의 상기 어구의 서로 다른 발음들을 식별할 수 있다. 따라서, 현재의 예에서, 일정 양의 발음들의 피처를 고려할 때, 후보 핫워드 "피자 스모가스보드"는 상대적으로 높은 정도로부터 중간 정도의 핫워드 적합성 스코어와 관련될 수 있다.
일부 구현들에서, 스피치 데이터 그리고/또는 상기 후보 핫워드의 표기를 평가하는 것은, 하나 이상의 특정 단음들 또는 음절들이 상기 후보 핫워드의 표기에서 발생함을 결정하는 것을 포함할 수 있다. 특정 음절들을 식별하기 위해, 예를 들어, 상기 후보 핫워드의 표기는 사전 또는 발음 가이드를 참조하여 사용될 수 있고, 상기 핫워드에 관련된 정의된 음절들은 식별될 수 있다. 다른 예로서, 상기 핫워드 세기 평가 엔진들(214)의 하나는, n-그램/단음 발생기(210)에 의해 말해진 후보 핫워드에 대해 식별된 단음들을 평가할 수 있다. 일반적으로, 상기 표기에서 특정 단음들 또는 음절들의 발생은, 더 높은 핫워드 적합성 스코어와 관련될 수 있다. 예를 들어, 상기 어구 "피자 스모가스보드"에 포함되는 단어 "피자"의 제2 음절(즉, "저흐(suh)")은 높은 검출성 신뢰 수준 및 상대적으로 높은 핫워드 적합성과 관련될 수 있다. 하지만, 상기 표기에서 특정 다른 단음들의 발생은 일반적으로 더 낮은 핫워드 적합성 스코어와 관련될 수 있다. 예를 들어, 상기 단어 "피자"의 제1 음절(즉, "핏(peet)")은 낮은 검출성 신뢰 수준과 관련될 수 있고(예를 들어, 음절 "빗(beet)"과 혼동될 수 있고), 상대적으로 낮은 핫워드 적합성으로 관련될 수 있다. 후보 핫워드에서 발생하는 특정 단음들 또는 음절들을 결정하고 평가할 때, 예를 들어, 각 단음 또는 음절과 관련된 구성요소 스코어들은 합계 스코어를 결정하기 위해 사용될 수 있다. 예를 들어, 상기 후보 핫워드 "피자 스모가스보드"는 낮은, 중간의 그리고 높은 스코어들과 관련된 특정 단음들 또는 음절들을 포함할 수 있다. 따라서, 현재의 예에서의 후보 핫워드는, 특정 단음 그리고/또는 음절 피처들을 고려할 때 중간 핫워드 적합성 스코어과 관련될 수 있다.
일부 구현들에서, 스피치 데이터 그리고/또는 상기 후보 핫워드의 표기를 평가하는 것은, 스피치 인식기에 이용가능한 상기 핫워드의 일정 양의 트레이닝 예들을 결정하는 것을 포함할 수 있다. 도 1을 참조하여, 예를 들어, 여러 단어들 및 어구들을 말하는 여러 개인들(예를 들어, 디바이스 사용자 그리고/또는 다른 사용자들)의 기록된 인스턴스들은 트레이닝 예들 데이터 스토어(122)에 의해 유지될 수 있다. 더욱이, 예를 들어, 특정 단어들 및/또는 어구들의 기록된 인스턴스들이 참조되고 분석될 수 있도록, 트레이닝 예들 데이터 스토어(122)는 표기 그리고/또는 인덱스 데이터를 포함할 수 있다. 일반적으로, 더 적은 양의 트레이닝 예들은 더 낮은 핫워드 적합성 스코어와 관련될 수 있다. 현재의 예에서, 후보 핫워드 "피자 스모가스보드"는 통상적인 핫워드와 비교하여 상대적으로 적은 양의 트레이닝 예들을 가질 수 있고, 트레이닝 예들 피처의 양을 고려할 때 상대적으로 낮은 핫워드 적합성 스코어와 관련될 수 있다.
어떤 트레이닝 예들도 특정 후보 핫워드에 대해 발견되지 않으면, 일부 구현들에서, 가장 가까운 이웃하는 핫워드(예를 들어, 유사한 단음들, 음절들 또는 다른 적합한 피처들과 관련된 단어 또는 어구)가 평가될 수 있다. 예를 들어, 사용자는 후보 핫워드로서 신조어(즉, 사전에 존재하지 않은 단어)를 제공하도록 선택할 수 있다. 현재의 예에서, 트레이닝 예들은 새로 만들어진 후보 핫워드에 대해 이용가능할 수 없기 때문에, 상기 핫워드에 대한 트레이닝 예들 피처 스코어는 낮을 수 있지만, 다른 피처 스코어들은 상대적으로 높을 수 있어, 합쳐진 핫워드 적합성 스코어를 결정할 때 낮은 피처 스코어를 오프세팅(offsetting)한다. 예를 들어, 특정 신조어는 높은 피처 스코어들과 관련된 하나 이상의 음절들 또는 단음들을 포함할 수 있고, 편집 거리 피처를 고려할 때 높은 스코어와 관련될 수 있다.
일부 구현들에서, 스피치 데이터 그리고/또는 상기 후보 핫워드의 표기를 평가하는 것은, 상기 후보 핫워드의 발음이 상기 사용자에 의한 후보 핫워드의 다수의 언급들 사이에서 변하는 정도를 결정하는 것을 포함할 수 있다. 도 1을 참조하면, 예를 들어, "당신의 원하는 핫워드를 말하세요"가 여러 번 컴퓨팅 디바이스(102a)에 의해 상기 사용자에게 촉구될 수 있고, 음성 핫워드(예를 들어, 관련된 오디오 신호들)의 여러 인스턴스들이 하나 이상의 핫워드 세기 평가 엔진들(120)에 의해, 일관성을 위해 서로 비교될 수 있다. 현재의 예에서, 사용자는 후보 핫워드 "피자 스모가스보드"를 발음할 때 다소 일치하지 않을 수 있고 - 상기 어구 "피자 스모가스보드"는 특정 화자가 일관적으로 발음하기 어려울 수 있다. 일반적으로, 더 큰 발음 변화의 정도는 더 낮은 핫워드 적합성 스코어와 관련될 수 있다. 따라서, 현재의 예에서, 후보 핫워드 "피자 스모가스보드"는 발음의 변화 피처를 고려할 때, 상대적으로 낮은 핫워드 적합성 스코어와 관련될 수 있다.
여러 가능한 핫워드 피처들, 스피치 데이터를 평가하는 기준, 그리고 핫워드 적합성 스코어들을 발생시키는 기술들은, 이전의 예들에서 기술되고 있다. 하지만, 추가의, 더 적은 그리고/또는 서로 다른 피처들, 기준, 그리고/또는 기술들이 이용될 수 있다. 일반적으로, 분류자(classifier)들은 잠재적으로 영향력이 큰 피처들 및 스피치 데이터와 관련된 기준을 식별하고 고려하도록 트레이닝될 수 있다. 더욱이, 핫워드 적합성 스코어들을 발생시키는 기술들은, 추가 스피치 데이터(예를 들어, 트레이닝 예들)이 고려되기에 시간에 걸쳐 변할 수 있다.
후보 핫워드에 대한 핫워드 적합성 스코어가, 하나 이상의 미리결정된 기준(예를 들어, 이전의 예들에서 기술된 기준)을 사용하여, 스피치 데이터 또는 상기 후보 핫워드의 표기를 평가하는 것에 기초하여 발생된다(308). 상기 핫워드 적합성 스코어는 핫워드로서 사용을 위해 상기 후보 핫워드의 적합성을 반영할 수 있다. 예를 들어, 높은 핫워드 적합성 스코어는 컴퓨팅 디바이스를 활성화하기 위해 사용될 때 양호하게 수행할 가능성이 높은 후보 핫워드와 관련될 수 있는 반면에, 낮은 핫워드 적합성 스코어는 저조하게 수행할 가능성이 높은 후보 핫워드와 관련될 수 있다. 핫워드들을 양호하게 수행하는 것은, 예를 들어, 용이하게 검출가능할 수 있고, 자연 언어 변환과 혼동될 가능성이 낮을 수 있다. 핫워드들을 저조하게 수행하는 것은, 예를 들어, 컴퓨팅 디바이스가 검출하기 어려울 수 있고, 다른 언어들 및 어구들과 혼동될 가능성이 있을 수 있다.
일부 구현들에서, 핫워드 적합성 스코어를 발생시키는 것은, 2개 이상의 미리결정된 범위 각각에 대해, 상기 미리결정된 범위를 사용하여 스피치 데이터(또는 상기 후보 핫워드의 표기)의 평가에 기초하여 피처 스코어를 발생시키는 것, 상기 피처 스코어들을 합하는 것, 그리고 상기 핫워드 적합성 스코어로서, 상기 합해진 피처 스코어들을 출력하는 것을 포함할 수 있다. 현재의 예에서, 상기 후보 핫워드 "피자 스모가스보드"는 워드 길이 기준, 일정한 양의 음절들 또는 단음들 기준, 편집 거리 기준, 일정한 양의 발음들의 기준, 및 특정 단음들 또는 음절들 기준에 대한 높은 또는 중간의 피처 스코어들과 관련될 수 있다. 하지만, 현재의 예에서 후보 핫워드 "피자 스모가스보드"는 또한 일정 양의 트레이닝 예들 기준에 대한 그리고 발음 변화 기준에 대한 낮은 피처 스코어들에 관련될 수 있다. 합계 핫워드 적합성 스코어는, 예를 들어, 웨이트들이 여러 피처 스코어드에 적용될 수 있는 방법, 그리고/또는 상기 스코어들을 발생시키는 분류자들이 트레이닝되는 방법들에 의존할 수 있다. 현재의 예에서, 후보 핫워드 "피자 스모가스보드"는 중간 정도에서 높은 정도의 핫워드 적합성 스코어와 관련될 수 있다.
상기 핫워드 적합성 스코어의 표현은 사용자에게 디스플레이를 위해 제공되고(310), 그 결과 프로세스는 종료된다(312). 도 1을 참조하면, 예를 들어, 인터페이스들(104b 및 104c)은 사용자들에게 핫워드 적합성 스코어들의 표현들을 디스플레이하기 위해 도시된다. 인터페이스(104b)는, 예를 들어, 핫워드 적합성 스코어의 표현을 나타내고, 여기서, 상기 표현은 상기 후보 핫워드가 핫워드로서 적합하지 않음과 상기 후보 핫워드가 거절되었음을 나타내는 데이터를 포함한다. 상기 인터페이스(104c)는, 예를 들어, 핫워드 적합성 스코어의 표현을 나타내고, 여기서, 상기 표현은 상기 후보 핫워드가 핫워드로서 적합함과 상기 후보 핫워드가 받아들여졌음을 나타내는 데이터를 포함한다. 하지만, 일부 구현들에서, 핫워드 적합성 스코어들은, 양호한 핫워드들이 컴퓨팅 디바이스 상에서 수행되도록 예측되는 방법에 관한 정보를 제공할 수 있고, 사용자는 상기 정보에 의거하여 행동하거나 상기 정보를 무시하도록 선택할 수 있다.
핫워드 적합성 스코어의 여러 표현들(예를 들어, 시각 그리고/또는 청각)은 상기 사용자에게 제공될 수 있다. 일부 구현들에서, 텍스트 스코어(예를 들어, 10점 만점 방식, 100점 만점 방식, 문자 등급 방식 등)가 제공될 수 있다. 예를 들어, 인터페이스는 상기 후보 핫워드 "피자 스모가스보드"에 대해 문자 등급 "B+"를 디스플레이할 수 있다. 일부 구현들에서, 핫워드 적합성 스코어의 표현은 상기 스코어의 컬러-코딩된 표현을 포함할 수 있다. 교통 신호등과 유사하게, 예를 들어, 녹색은 높은 적합성 스코어와 관련될 수 있고, 노란색은 중간 정도 적합성 스코어와 관련될 수 있고, 붉은색은 낮은 적합성 스코어와 관련될 수 있다. 일부 구현들에서, 핫워드 적합성 스코어의 표현은, 바, 게이지 또는 미터를 포함할 수 있다.
높은 전체 적합성 스코어는, 예를 들어, 잠재적으로 높은 (또는 긴) 바 표시기(bar indicator)로 표시될 수 있다. 다른 예로서, 합계 핫워드 적합성 스코어에 포함된 개별 피처 스코어들 각각은, 개별 바, 게이지 또는 미터에 의해 표시될 수 있다. 따라서, 현재의 예에서, 후보 핫워드 "피자 스모가스보드"가 트레이닝 예 기준 및 발음 변화 기준을 제외하곤, 대부분의 피처들에 대해 상대적으로 높은 스코어를 수신하면, 사용자는 (예를 들어, 더 많은 트레이닝 예들 그리고/또는 명확한 발음을 제공함으로써) 후보 핫워드를 개선하기 위해, 또는 서로 다른 후보 핫워드를 선택하기 위해 상기 정보를 사용할 수 있다.
도 4는 일반적인 컴퓨터 디바이스(400) 및 일반적인 모바일 컴퓨터 디바이스(450)의 예를 도시하고, 이들은 여기에서 서술된 기술들로 사용될 수 있다. 컴퓨팅 디바이스(400)는 다양한 형태들의 디지털 컴퓨터들, 예를 들어, 랩톱들, 데스크톱들, 워크스테이션들, PDA들, 서버들, 블레이드 서버들, 메인 프레임들 및 다른 적합한 컴퓨터들을 나타내도록 의도된다. 컴퓨팅 디바이스(450)는, 여러 형태들의 컴퓨팅 디바이스들, 예를 들어, PDA들, 셀룰러 폰들, 스마트 폰들 및 다른 적합한 컴퓨팅 디바이스들을 나타내도록 의도된다. 여기에서 도시된 컴포넌트들, 그것들의 접속들 및 관계들, 그리고 그것들의 피처들은, 단지 예시적인 것을 의미하고, 본 문서에서 기술되고 그리고/또는 청구된 본 발명들의 실시예들을 제한하는 것을 의미하지 않는다.
컴퓨팅 디바이스(400)는 프로세서(402), 메모리(404), 스토리지 디바이스(406), 메모리(404) 및 고속 확장 포트들(410)과 연결되는 고속 인터페이스(408), 그리고 저속 버스(414) 및 스토리지 디바이스(406)와 연결되는 저속 인터페이스(412)를 포함한다. 컴포넌트들(402, 404, 406, 408, 410 및 412) 각각은 다양한 버스들을 사용하여 상호접속되고, 공통의 마더보드 상에 또는 적합한 다른 방식들로 장착될 수 있다. 프로세서(402)는, 외부 입력/출력 디바이스, 예를 들어, 고속 인터페이스(408)에 연결된 디스플레이(416) 상의 GUI에 대한 그래픽 정보를 디스플레이하기 위해 메모리(404) 내에 저장되거나 또는 저장 디바이스(406) 상에 저장된 명령어들을 포함하는, 컴퓨팅 디바이스(400) 내에서 실행을 위한 명령어들을 처리할 수 있다. 다른 실시예들에서, 다수의 프로세서들 그리고/또는 다수의 버스들은, 다수의 메모리들 및 메모리의 타입들에 따라, 적합하게 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스들(400)은, 필요한 동작들의 부분들을 제공하는 각 디바이스(예를 들어, 서버 뱅크, 블레이드 서버들의 그룹 또는 멀티-프로세서 시스템으로서)와 연결될 수 있다.
메모리(404)는 컴퓨팅 디바이스(400) 내에 정보를 저장한다. 일 실시예에서, 메모리(404)는 휘발성 메모리 유닛 또는 유닛들이다. 다른 실시예에서, 메모리(404)는 비-휘발성 메모리 유닛 또는 유닛들이다. 메모리(404)는, 또한, 컴퓨터 판독가능한 매체, 예를 들어, 자기 또는 광 디스크의 다른 형태일 수 있다.
저장 디바이스(406)는 컴퓨팅 디바이스(400)에 대량 정보를 제공할 수 있다. 일 실시예에서, 저장 디바이스(406)는, 컴퓨터-판독가능한 매체, 예를 들어, 플로피 디스크 디바이스, 하드 디스크 디바이스, 광 디스크 디바이스, 또는 테이프 디바이스, 플래시 메모리 또는 다른 유사한 고체 상태 메모리 디바이스, 또는 디바이스들의 어레이(저장 영역 네트워크 또는 다른 구성들 내의 디바이스를 포함)일 수 있거나 상기 컴퓨터-판독가능한 매체를 포함할 수 있다. 컴퓨터 프로그램 제품은 정보 캐리어 내에서 실제적으로 구현될 수 있다. 컴퓨터 프로그램 제품은, 또한, 실행될 때, 상기에서 언급한 것과 같은 하나 이상의 방법들을 수행하는 명령어들을 포함할 수 있다. 상기 정보 캐리어는, 컴퓨터 판독가능한 매체 또는 기계 판독가능한 매체, 예를 들어, 메모리(404), 저장 디바이스(406), 프로세서(402) 상의 메모리, 또는 전파된 신호이다.
고속 제어기(408)는 컴퓨팅 디바이스(400)에 대한 대역폭-집약적인 동작들을 관리하는 반면에, 저속 제어기(412)는 더 낮은 대역폭-집약적인 동작들을 관리한다. 그와 같은 기능들의 할당은 단지 예시적이다. 일 실시예에서, 고속 제어기(408)는 메모리(404), (예를 들어, 그래픽 프로세서 또는 액셀레이터를 통한) 디스플레이(416) 그리고 고속 확장 포트들(410)에 연결되고, 고속 확장 포트들(410)은 여러 확장 카드들(도시되지 않음)을 수용할 수 있다. 상기 실시예에서, 저속 제어기(412)는 저장 디바이스(406) 및 저속 확장 포트(414)에 연결된다. 여러 통신 포트들(예를 들어, USB, 블루투스, 이더넷, 무선 이더넷)을 포함할 수 있는, 저속 확장 포트는, 하나 이상의 입력/출력 디바이스들, 예를 들어, 키보드, 포인팅 디바이스, 스캐너, 또는 네트워크 어댑터를 통한 스위치 또는 라우터와 같은 네트워킹 디바이스에 연결될 수 있다.
컴퓨팅 디바이스(400)는, 도면에서 도시된 것처럼, 복수의 서로 다른 형태들로 구현될 수 있다. 예를 들어, 표준 서버(420)로서, 또는 그와 같은 서버들의 그룹으로 여러 번 구현될 수 있다. 컴퓨팅 디바이스(400)는, 또한, 랙 서버 시스템(424)의 일부분으로서 구현될 수 있다. 또한, 컴퓨팅 디바이스(400)는, 랩톱 컴퓨터(422)와 같은 개인용 컴퓨터로 구현될 수 있다. 대안으로, 컴퓨팅 디바이스(400)로부터의 컴포넌트들은, 디바이스(450)와 같은 컴퓨팅 디바이스(도시되지 않음) 내의 다른 컴포넌트들과 결합될 수 있다. 그와 같은 디바이스들 각각은, 하나 이상의 컴퓨팅 디바이스(400, 450)를 포함할 수 있고, 전체 시스템은 서로 통신하는 다수의 통신 디바이스들(400, 450)로 구성될 수 있다.
컴퓨팅 디바이스(400)는, 다른 컴포넌트들 사이에서, 프로세서(452), 메모리(464), 디스플레이(454)와 같은 입력/출력 디바이스, 통신 인터페이스(466) 및 트랜시버(468)를 포함한다. 디바이스(450)는, 또한, 추가적인 저장을 제공하기 위해, 마이크로드라이브와 같은 저장 디바이스, 또는 다른 디바이스가 제공될 수 있다. 컴포넌트들(450, 452, 464, 454, 466 및 468) 각각은, 여러 버스들을 사용하여 상호접속되고, 상기 컴포넌트들 중 여러 개는 공통의 마더보드 상에 또는 적합한 다른 방식들로 장착될 수 있다.
프로세서(452)는, 메모리(464) 내에 저장되는 명령어들을 포함하는, 컴퓨팅 디바이스(450) 내의 명령어들을 실행할 수 있다. 상기 프로세서는, 개별 및 다수의 아날로그 및 디지털 프로세서들을 포함하는 칩들의 칩셋으로 구현될 수 있다. 상기 프로세서는, 예를 들어, 프로세서는, 예를 들어, 사용자 인터페이스들의 제어와 같은 디바이스(450)의 다른 컴포넌트들의 조정을 위해, 디바이스(450)에 의해 구동되는 애플리케이션들, 및 디바이스(450)에 의한 무선 통신을 제공할 수 있다.
프로세서(452)는, 디스플레이(454)와 연결된 제어 인터페이스(458) 및 디스플레이 인터페이스(456)를 통해 사용자와 통신할 수 있다. 디스플레이(454)는, 예를 들어, TFT LCD(Thin-Film-Transistor Liquid Crystal Display) 또는 OLED(Organic Light Emtting Diode) 디스플레이, 또는 다른 적합한 디스플레이 기술일 수 있다. 디스플레이 인터페이스(456)는, 그래픽 및 다른 정보를 사용자에게 제공하기 위해 디스플레이(454)를 구동하는 적합한 회로를 포함할 수 있다. 상기 제어 인터페이스(458)는 사용자로부터 명령어들을 수신할 수 있고, 상기 프로세서(452)로의 제공을 위해 명령어들을 변환한다. 또한, 외부 인터페이스(462)는, 다른 디바이스들과 디바이스(450)의 근거리 통신을 가능하게 하도록, 프로세서(452)와의 통신에 제공될 수 있다. 외부 인터페이스(462)는, 예를 들어, 일부 실시예들에서 유선 통신을 제공할 수 있거나, 또는 다른 실시예들에서 무선 통신을 제공할 수 있으며, 다수의 인터페이스들이 또한 사용될 수 있다.
메모리(464)는 컴퓨팅 디바이스(450) 내에 정보를 저장한다. 메모리(464)는, 하나 이상의 컴퓨터-판독가능한 매체 또는 매체들, 휘발성 메모리 유닛 또는 유닛들, 또는 비-휘발성 메모리 유닛 또는 유닛들로서 구현될 수 있다. 확장 메모리(474)는, 또한, 확장 인터페이스(472)를 통해 디바이스(450)에 제공될 수 있거나 접속될 수 있고, 상기 확장 인터페이스(472)는, 예를 들어, SIMM(Single In Line Memory Module) 카드 인터페이스를 포함할 수 있다. 그와 같은 확장 메모리(474)는 디바이스(450)를 위한 여분의 저장 공간을 제공할 수 있거나, 또는 디바이스(450)을 위한 애플리케이션들 또는 다른 정보를 저장할 수 있다. 구체적으로, 확장 메모리(474)는 상기에서 기술된 프로세스들을 실행하거나 보충하기 위한 명령어들을 포함할 수 있고, 그리고 또한 보안 정보를 포함할 수 있다. 따라서, 예를 들어, 확장 메모리(474)는 디바이스(450)에 대한 보안 모듈로서 제공될 수 있고, 디바이스(450)의 안전한 사용을 허용하는 명령어들로 프로그래밍될 수 있다. 또한, 보안 애플리케이션들은, 해킹할 수 없는 방식으로 SIMM 카드상의 정보를 식별하는 것을 배치하는 것처럼, 추가 정보에 따라, SIMM 카드들을 통해 제공될 수 있다.
상기 메모리는, 예를 들어, 아래에서 논의된 것처럼, 플래시 메모리 그리고/또는 NVRAM 메모리를 포함할 수 있다. 일 실시예에서, 컴퓨터 프로그램 제품은 정보 캐리어 내에서 확실히 구현된다. 상기 컴퓨터 프로그램 제품은, 실행될 때, 상기에서 서술된 것처럼, 하나 이상의 방법들을 수행하는 명령어들을 포함한다. 상기 정보 캐리어는, 컴퓨터 판독가능한 매체 또는 기계 판독가능한 매체, 예를 들어, 메모리(464), 확장 메모리(474), 프로세서(402) 상의 메모리, 또는 전파된 신호이고, 상기 전파된 신호는, 예를 들어, 트랜시버(468) 또는 외부 인터페이스(462)를 통해 수신될 수 있다.
디바이스(450)는 통신 인터페이스(466)를 통해 무선으로 통신할 수 있고, 통신 인터페이스(466)는 필요한 디지털 신호 처리 회로를 포함할 수 있다. 통신 인터페이스(466)는, 다른 것들 중에서, GSM 음성 호들, SMS, EMS 또는 MMS 메시징, CDMA, TDMA, PDC, WCDMA, CDMA2000, 또는 GPRS와 같은 여러 모드들 또는 프로토콜 하에서 통신들을 제공할 수 있다. 그와 같은 통신은, 예를 들어, 무선-주파수 트랜시버(468)를 통해 발생할 수 있다. 또한, 단거리 통신은, 블루투스, WiFi 또는 다른 그와 같은 트랜시버(도시되지 않음)를 사용하여, 발생할 수 있다. 또한, GPS(Global Positioning System) 수신기 모듈(470)은 디바이스(450)에 추가적인 내비게이션-관련 무선 데이터 및 위치-관련 무선 데이터를 제공할 수 있고, 디바이스(450)는 디바이스(450) 상에서 구동하는 애플리케이션들에 의해 적합하게 사용될수 있다.
디바이스(450)는 또한 오디오 코덱(460)을 사용하여 오디오적으로 통신할 수 있고, 오디오 코덱(460)은 사용자로부터 음성 정보를 수신할 수 있고, 상기 음성 정보를 사용가능한 디지털 정보로 변환한다. 오디오 코텍(460)은, 예를 들어, 디바이스(450) 내의 스피커를 통해, 사용자를 위한 들을 수 있는 사운드를 또한 발생시킬 수 있다. 그와 같은 사운드는 음성 전화 호들로부터의 사운드를 포함할 수 있고, 기록된 사운드(예를 들어, 음성 메시지들, 음악 파일들 등)를 기록할 수 있고, 또한 디바이스(450) 상에서 동작하는 애플리케이션들에 의해 발생된 사운드를 포함할 수 있다.
컴퓨팅 디바이스(450)는, 도면에서 도시된 것처럼, 다수의 다른 형태들로 구현될 수 있다. 예를 들어, 컴퓨팅 디바이스(450)는 세룰러 폰(480)으로서 구현될 수 있다. 컴퓨팅 디바이스(450)는 또한 스마트폰(482), PDA 또는 다른 유사한 컴퓨팅 디바이스의 일부로서 구현될 수 있다.
본 명세서에서 서술되는 시스템들 및 기술들의 여러 구현들은, 디지털 전자 회로, 집적 회로, 특정하게 설계된 ASIC(Application Specific Integrated Circuit)들, 컴퓨터 하드웨어, 펌웨어, 소프트웨어 그리고/또는 그것들의 조합으로 구현될 수 있다. 이러한 여러 구현들은, 적어도 하나의 프로그래밍가능한 프로세서를 포함하는 프로그래밍가능한 시스템 상에서 실행가능하고 그리고/또는 해석가능한 하나 이상의 컴퓨터 프로그램들 내의 구현을 포함할 수 있고, 상기 적어도 하나의 프로그래밍 가능한 프로세서는, 저장 시스템, 적어도 하나의 입력 디바이스, 및 적어도 하나의 출력 디바이스로부터 데이터 및 명령어들을 수신하고, 상기 저장 시스템, 적어도 하나의 입력 디바이스, 및 적어도 하나의 출력 디바이스에 명령어들을 전송하기 위해 연결된, 특수용 또는 범용인 프로세서일 수 있다.
컴퓨터 프로그램(또한 프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드로 알려짐)은, 프로그래밍 가능한 프로세서를 위한 기게 명령어들을 포함하고, 하이-레벨 절차 그리고/또는 객체-지향 프로그래밍 언어, 그리고/또는 어셈블리/기계 언어로 구현될 수 있다. 여기에서 사용된 것처럼, 용어 "기계-판독가능한 매체" "컴퓨터-판독가능한 매체"는, 기계 명령어들 그리고/또는 데이터를 프로그래밍가능한 프로세서에 제공하기 위해 사용되는 임의의 컴퓨터 프로그램 제품, 장치 그리고/또는 디바이스(예를 들어, 자기 디스크들, 광 디스크들, 메모리, 프로그래밍가능한 로직 디바이스들(PLDs)을 언급할 수 있고, 기계-판독가능한 신호로서 기계 명령어들을 수신하는 기계-판독가능한 매체를 포함한다. 용어 "기계-판독가능한 신호"는 기계 명령어들 그리고/또는 데이터를 프로그래밍가능한 프로세서에 제공하기 위해 사용되는 임의의 신호를 언급할 수 있다.
사용자와의 상호대화를 제공하기 위해, 본 명세서에서 서술되는 시스템들 및 기술들은, 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스(예를 들어, CRT(cathod ray tube) 또는 LCD(liquid crytal display) 모니터), 및 사용자가 입력을 컴퓨터에 제공할 수 있는 키보드 및 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)를 갖는 컴퓨터상에 구현될 수 있다. 다른 종류의 디바이스들은 또한 사용자에게 상호작용을 제공하기 위해 사용될 수 있다; 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 감각 피드백(예를 들어, 시각 피드백, 청각 피드백 또는 촉각 피드백)일 수 있고; 그리고 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다.
본 명세서에 서술되는 시스템들 및 기술들은, 백-엔드 컴포넌트(예를 들어, 데이터 서버)를 포함하거나, 또는 미들웨어 컴포넌트(예를 들어, 애플리케이션 서버)를 포함하거나, 또는 프론트-엔드 컴포넌트(예를 들어, 사용자가 본 명세서에서 서술되는 시스템들 및 기술들의 구현과 상호대화할 수 있는 그래픽 사용자 인터페이스 또는 웹 브라우저를 갖는 클라이언트 컴퓨터), 또는 그와 같은 백 엔드, 미들웨어 또는 프론트 엔드 컴포넌트들의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트들은 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)에 의해 상호접속될 수 있다. 통신 네트워크들의 예들은, LAN(local area network), WAN(wide area network) 및 인터넷을 포함한다.
컴퓨팅 시스템은 클라이언트들 및 서버들을 포함할 수 있다. 클라이언트 및 서버는 일반적으로는 서로 원격이고, 통상적으로 통신 네트워크를 통해 상호대화한다. 클라이언트 및 서버의 관계는, 각 컴퓨터들 상에서 구동하고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램들 관점에서 발생한다.
다수의 실시예들이 기술된다. 그럼에도 불구하고, 여러 변형들이 본 발명의 정신 및 범위에서 벗어나지 않고 실시될 수 있음이 이해될 것이다. 추가로, 도면들에 도시된 로직 흐름들은, 원하는 결과들을 얻기 위해, 도시된 특정 순서 또는 순차적인 순서를 요구하지 않는다. 추가로, 다른 단계들은, 기술된 흐름들로부터 제공될 수 있거나 제거될 수 있으며, 다른 컴포넌트들은 기술된 시스템들에 추가될 수 있거나 기술된 시스템들로부터 제거될 수 있다. 따라서, 다른 실시예들은 하기의 청구범위 내에 존재한다.
Claims (32)
- 컴퓨터로 구현되는 방법에 있어서,
출력을 위해 커스텀 핫워드(custom hotword)로서 지정될 후보 핫워드(candidate hotword)을 사용자에게 말하도록 하는 촉구(prompt)를, 컴퓨팅 디바이스의 디스플레이 또는 스피커를 사용하여, 제공하는 단계 - 핫워드는 상기 핫워드 바로 후에 발언되는 하나 이상의 말들이 음성 명령들로서 처리될 것임을 상기 컴퓨팅 디바이스의 음성 명령 처리 서브시스템에 표시하는 단어 또는 어구이며 - 와;
상기 촉구에 응답하여, 후보 핫워드의 하나 이상의 발언들을, 상기 컴퓨팅 디바이스의 마이크로폰을 사용하여 수신하는 단계와;
상기 후보 핫워드의 하나 이상의 발언들의 수신에 응답하여, 상기 후보 핫워드가 커스텀 핫워드로서 받아들여졌다는 표시를, 상기 컴퓨팅 디바이스의 디스플레이 상에 또는 상기 컴퓨팅 디바이스의 스피커를 사용하여 제공하는 단계와;
상기 표시를 제공한 후, 상기 커스텀 핫워드의 발언을, 상기 컴퓨팅 디바이스의 마이크로폰을 사용하여 검출하는 단계와; 그리고
상기 커스텀 핫워드의 발언을 검출한 것에 기초하여, 상기 컴퓨팅 디바이스로 하여금 상기 커스텀 핫워드의 발언 후 음성 명령들을 수신하고 처리하기 위한 준비 상태로 들어가게 하는 단계를 포함하고,
상기 후보 핫워드의 하나 이상의 발언들의 수신에 응답하여, 상기 후보 핫워드가 핫워드로서 받아들여졌다는 표시를 제공하는 단계는 상기 후보 핫워드의 하나 이상의 발언에 응답하여, 적합한 핫워드를 나타내는 상기 후보 핫워드에서의 신뢰도 레벨을 반영하는 신뢰도 값이 미리 결정된 임계값을 만족하였다는 표시를 제공하는 것을 포함하는 것을 특징으로 하는 방법. - 제 1 항에 있어서,
상기 후보 핫워드가 핫워드로서 받아들여졌다는 표시를 제공한 후, 상기 방법은:
(i) 상기 후보 핫워드가 핫워드로서 받아졌음을 나타내며 (ii) 특정 세트의 하나 이상의 말들이 바로 뒤따르는 발언을 수신하는 단계와; 그리고
상기 후보 핫워드가 핫워드로서 받아들여진 직후 발언된 상기 특정 세트의 하나 이상의 말들이 하나 이상의 음성 명령으로서 처리될 것임을 결정하는 단계를 더 포함하는 것을 특징으로 하는 방법. - 제 2 항에 있어서,
상기 촉구에 응답하여, 상기 후보 핫워드의 하나 이상의 발언들을 수신하는 단계는 상기 컴퓨팅 디바이스가 활성 상태일 때 상기 촉구에 응답하여 상기 후보 핫워드의 하나 이상의 발언들을 수신하는 것을 포함하고,
(i) 상기 후보 핫워드가 핫워드로서 받아졌음을 나타내며 (ii) 특정 세트의 하나 이상의 말들이 바로 뒤따르는 상기 발언을 수신하는 단계는, 상기 컴퓨팅 디바이스가 휴면 또는 아이들 상태일 때, (i) 상기 후보 핫워드가 핫워드로서 받아졌음을 나타내며 (ii) 특정 세트의 하나 이상의 말들이 바로 뒤따르는 상기 발언을 수신하는 것을 포함하는 것을 특징으로 하는 방법. - 제 2 항에 있어서,
상기 촉구에 응답하여, 후보 핫워드의 하나 이상의 발언들을 수신하는 단계는 상기 컴퓨팅 디바이스가 언록킹 상태일 때 상기 촉구에 응답하여 상기 후보 핫워드의 하나 이상의 발언들을 수신하는 것을 포함하고,
(i) 상기 후보 핫워드가 핫워드로서 받아졌음을 나타내며 (ii) 특정 세트의 하나 이상의 말들이 바로 뒤따르는 발언을 수신하는 단계는, 상기 컴퓨팅 디바이스가 록킹 상태일 때, (i) 상기 후보 핫워드가 핫워드로서 받아졌음을 나타내며 (ii) 특정 세트의 하나 이상의 말들이 바로 뒤따르는 발언을 수신하는 것을 포함하는 것을 특징으로 하는 방법. - 제 2 항에 있어서,
상기 후보 핫워드가 핫워드로서 받아들여졌다는 표시를 제공한 후, 상기 후보 핫워드가 커스텀 핫워드로서 지정될 것임을 확인해주는 데이터를 수신하는 단계를 더 포함하며,
(i) 상기 후보 핫워드가 핫워드로서 받아졌음을 나타내며 (ii) 특정 세트의 하나 이상의 말들이 바로 뒤따르는 발언을 수신하는 단계는 상기 후보 핫워드가 커스텀 핫워드로서 지정될 것임을 확인해주는 데이터를 수신한 후, (i) 상기 후보 핫워드가 핫워드로서 받아졌음을 나타내는 상기 발언을 수신하는 것을 포함하고; 그리고
상기 후보 핫워드가 핫워드로서 받아들여진 직후 상기 특정 세트의 하나 이상의 말들이 하나 이상의 음성 명령으로서 처리될 것임을 결정하는 단계는 상기 후보 핫워드가 커스텀 핫워드로서 지정될 것임을 확인해주는 데이터를 수신함에 기초하여, 상기 후보 핫워드가 핫워드로서 받아들여진 직후 상기 특정 세트의 하나 이상의 말들이 하나 이상의 음성 명령으로서 처리될 것임을 결정하는 것을 포함하는 것을 특징으로 하는 방법. - 제 5 항에 있어서,
상기 후보 핫워드가 커스텀 핫워드로서 지정될 것임을 확인해주는 데이터를 수신하는 단계는 상기 표시에 응답하여 상기 컴퓨팅 디바이스에 제공되는 사용자 입력을 표시하는 데이터를 수신하는 것을 포함하는 것을 특징으로 하는 방법. - 제 1 항에 있어서,
상기 후보 핫워드의 하나 이상의 발언들의 수신에 응답하여, 상기 후보 핫워드가 핫워드로서 받아들여졌다는 표시를 제공하는 단계는, (i) 상기 후보 핫워드가 핫워드로서 받아들여지지 않았다는 표시 및 (ii) 사용자에게 커스텀 핫워드로서 지정될 또 하나의 다른 후보 말을 말하도록 하는 촉구를 제공하는 것을 포함하는 것을 특징으로 하는 방법. - 제 1 항에 있어서,
상기 출력을 위해 커스텀 핫워드로서 지정될 후보 말을 사용자에게 말하도록 하는 촉구를 제공하는 단계는 상기 컴퓨팅 디바이스에 의한 출력을 위해 커스텀 핫워드로서 지정될 후보 말을 사용자에게 말하도록 하는 촉구를 제공하는 것을 포함하고, 그리고
상기 후보 핫워드의 하나 이상의 발언들의 수신에 응답하여, 상기 후보 핫워드가 핫워드로서 받아들여졌다는 표시를 제공하는 단계는 상기 후보 핫워드의 하나 이상의 발언에 응답하여 상기 후보 핫워드가 상기 컴퓨팅 디바이스에 의한 출력을 위해 핫워드로서 받아들여졌다는 표시를 제공하는 것을 포함하는 것을 특징으로 하는 방법. - 삭제
- 제 1 항에 있어서,
상기 후보 핫워드의 하나 이상의 발언들의 수신에 응답하여, 상기 컴퓨팅 디바이스 상에서의 디스플레이를 위한 신뢰도 값의 하나 이상의 그래픽 또는 텍스트 표시를 제공하는 단계를 더 포함하는 것을 특징으로 하는 방법. - 하나 이상의 컴퓨터에 의한 실행시, 상기 하나 이상의 컴퓨터로 하여금 청구항 1항 내지 8항 및 10항 중 어느 한 항에 따른 방법을 수행하도록 하는 명령어들을 저장하는 비 일시적인 컴퓨터 판독가능 저장 매체.
- 컴퓨터로 구현되는 방법에 있어서,
핫워드로서 현재 지정되지 않은 특정 후보 핫워드를 핫워드로 지정하도록 하는 요청을, 컴퓨팅 디바이스의 마이크로폰을 사용하여 수신하는 단계와;
상기 특정 후보 핫워드가 하나 이상의 핫워드 적합성 기준을 만족함을 판단하는 단계와;
상기 특정 후보 핫워드가 하나 이상의 핫워드 적합성 기준을 만족한다는 결정함에 응답하여, 상기 특정 후보 핫워드를 커스텀 핫워드로서 지정하는 단계와;
상기 특정 후보 핫워드를 커스텀 핫워드로서 지정한 후, 상기 컴퓨팅 디바이스의 마이크로폰을 사용하여 후속 수신된(subsequently received) 오디오 데이터가 상기 커스텀 핫워드의 발언의 특징을 나타내는 사운드를 포함한다고 결정하는 단계와;
상기 컴퓨팅 디바이스로 하여금 상기 커스텀 핫워드의 발언 후 음성 명령들을 수신하고 처리하기 위한 준비 상태로 들어가게 하는 단계와; 그리고
적합한 핫워드를 나타내는 상기 특정 후보 핫워드의 신뢰도 레벨을 반영하는 신뢰도 값을 결정하는 단계를 포함하며,
상기 특정 후보 핫워드가 하나 이상의 핫워드 적합성 기준을 만족함을 판단하는 단계는 적어도 상기 신뢰도 값에 기초하여, 상기 특정 후보 핫워드가 하나 이상의 핫워드 적합성 기준을 만족함을 결정하는 것을 포함하는 것을 특징으로 하는 방법. - 제 12 항에 있어서,
상기 특정 후보 핫워드가 특정 량의 음절(syllables) 또는 단음(phones)을 포함함을 판단하는 단계를 더 포함하며,
상기 특정 후보 핫워드가 하나 이상의 핫워드 적합성 기준을 만족함을 판단하는 단계는 적어도 상기 특정 량의 음절 또는 단음에 기초하여 상기 특정 후보 핫워드가 하나 이상의 핫워드 적합성 기준을 만족함을 판단하는 것을 포함하는 것을 특징으로 하는 방법. - 제 12 항에 있어서,
상기 특정 후보 핫워드가 하나 이상의 특정 단음(phones)을 포함함을 판단하는 단계를 더 포함하며,
상기 특정 후보 핫워드가 하나 이상의 핫워드 적합성 기준을 만족함을 판단하는 단계는 적어도 상기 특정 후보 핫워드에 포함된 상기 하나 이상의 특정 단음에 기초하여 상기 특정 후보 핫워드가 하나 이상의 핫워드 적합성 기준을 만족함을 판단하는 것을 포함하는 것을 특징으로 하는 방법. - 제 12 항에 있어서,
상기 특정 후보 핫워드가 하나 이상의 말로부터 특정 편집 거리(edit distance)임을 판단하는 단계를 더 포함하며,
상기 특정 후보 핫워드가 하나 이상의 핫워드 적합성 기준을 만족함을 판단하는 단계는 적어도 상기 특정 후보 핫워드와 상기 하나 이상의 말 사이의 상기 특정 편집 거리에 기초하여 상기 특정 후보 핫워드가 하나 이상의 핫워드 적합성 기준을 만족함을 판단하는 것을 포함하는 것을 특징으로 하는 방법. - 제 12 항에 있어서,
핫워드로서 현재 지정되지 않은 제2 후보 핫워드를 핫워드로 지정하도록 하는 요청을, 상기 컴퓨팅 디바이스의 마이크로폰을 사용하여 수신하는 단계와;
상기 제2 후보 핫워드가 하나 이상의 핫워드 적합성 기준을 만족하지 않음을 판단하는 단계와; 그리고
상기 제2 후보 핫워드가 커스텀 핫워드로 받아들여지지 않았다는 표시를, 사기 컴퓨팅 디바이스의 디스플레이 상에 또는 상기 컴퓨팅 디바이스의 스피커를 사용하여 제공하는 단계를 더 포함하는 것을 특징으로 하는 방법. - 제 12 항에 있어서,
상기 특정 후보 핫워드가 하나 이상의 핫워드 적합성 기준을 만족함을 판단하는 단계에 앞서, 하나 이상의 단어의 발언을 인코딩한 오디오 데이터를 수신하는 단계를 더 포함하고, 상기 하나 이상의 단어의 적어도 일부는 상기 특정 후보 핫워드를 나타내는 것을 특징으로 하는 방법. - 제 17 항에 있어서,
상기 하나 이상의 단어들의 발언을 인코딩한 상기 오디오 데이터의 특정 량의 프레임에 상기 특정 후보 핫워드가 인코딩됨을 판단하는 단계를 더 포함하며,
상기 특정 후보 핫워드가 하나 이상의 핫워드 적합성 기준을 만족함을 판단하는 단계는 적어도 상기 특정 량의 프레임에 기초하여 상기 특정 후보 핫워드가 하나 이상의 핫워드 적합성 기준을 만족함을 판단하는 것을 포함하는 것을 특징으로 하는 방법. - 제 17 항에 있어서,
상기 하나 이상의 단어의 발언을 인코딩한 오디오 데이터를 수신하는 단계는 클라이언트 디바이스의 사용자가 말한 하나 이상의 단어의 발언을 인코딩한 오디오 데이터를 포함하는 것을 특징으로 하는 방법. - 제 19 항에 있어서,
후속적으로 수신된 오디오 데이터가 상기 특정 후보 핫워드의 발언의 특징을 나타내는 사운드를 포함한다는 결정에 응답하여, 상기 클라이언트 디바이스에서 실행되는 애플리케이션에 상기 클라이언트 디바이스를 웨이크업 하기 위한 하나 이상의 명령을 제공하는 단계를 더 포함하는 것을 특징으로 하는 방법. - 제 19 항에 있어서,
후속적으로 수신된 오디오 데이터가 상기 특정 후보 핫워드의 발언의 특징을 나타내는 사운드를 포함한다는 결정에 응답하여, 상기 클라이언트 디바이스를 언록킹하기 위한 하나 이상의 명령을 상기 클라이언트 디바이스에서 실행되는 애플리케이션에 제공하는 단계를 더 포함하는 것을 특징으로 하는 방법. - 제 19 항에 있어서,
후속적으로 수신된 오디오 데이터가 상기 특정 후보 핫워드의 발언의 특징을 나타내는 사운드를 포함한다는 결정에 응답하여, 상기 사용자의 선호의 설정들을 적용하기 위한 하나 이상의 명령을 상기 클라이언트 디바이스에서 실행되는 애플리케이션에 제공하는 단계를 더 포함하는 것을 특징으로 하는 방법. - 제 19 항에 있어서,
상기 특정 후보 핫워드가 하나 이상의 핫워드 적합성 기준을 만족하다는 결정에 응답하여, 상기 특정 후보 핫워드가 하나 이상의 핫워드 적합성 기준을 만족하다는 표시를 상기 클라이언트 디바이스에서의 출력을 위해 제공하는 것을 더 포함하는 것을 특징으로 하는 방법. - 제 19 항에 있어서,
상기 클라이언트 디바이스의 사용자가 말한 상기 특정 후보 핫워드의 하나 이상의 발언을 인코딩한 추가적인 오디오 데이터를 획득하는 단계와;
상기 수신된 오디오 데이터 및 상기 추가적인 오디오 데이터에 기초하여, 상기 특정 후보 핫워드의 사용자의 발음이 발언마다 특정한 정도로 변화함을 판단하는 단계를 더 포함하며,
상기 특정 후보 핫워드가 하나 이상의 핫워드 적합성 기준을 만족함을 판단하는 단계는 적어도 상기 특정 후보 핫워드의 사용자의 발음이 발언마다 변화하는 특정한 정도에 기초하여, 상기 특정 후보 핫워드가 하나 이상의 핫워드 적합성 기준을 만족함을 결정하는 것을 포함하는 것을 특징으로 하는 방법. - 삭제
- 제 12 항에 있어서,
적합한 핫워드를 나타내는 상기 특정 후보 핫워드의 신뢰도 레벨을 반영하는 신뢰도 값의 하나 이상의 텍스트 혹은 그래픽 표현을 발생하는 단계와; 그리고
상기 하나 이상의 텍스트 혹은 그래픽 표현을 하나 이상의 컴퓨팅 디바이스에서의 출력을 위해 제공하는 단계를 더 포함하는 것을 특징으로 하는 방법. - 제 26 항에 있어서,
상기 특정 후보 핫워드가 하나 이상의 핫워드 적합성 기준을 만족한다는 텍스트 혹은 그래픽 표시를 발생하는 단계와; 그리고
상기 텍스트 또는 그래픽 표현을 하나 이상의 컴퓨팅 디바이스에서의 출력을 위해 제공하는 단계를 더 포함하는 것을 특징으로 하는 방법. - 제 12 항에 있어서,
후속적으로 수신된 오디오 데이터가 상기 특정 후보 핫워드의 발언의 특징을 나타내는 사운드를 포함한다고 결정하는 단계는 스피치 인식기를 이용하여 후속적으로 수신된 오디오 데이터가 상기 특정 후보 핫워드의 발언의 특징을 나타내는 사운드를 포함한다고 결정하는 것을 포함하는 것을 특징으로 하는 방법. - 제 28 항에 있어서,
상기 특정 후보 핫워드의 트레이닝 예들의 특정 량이 상기 스피치 인식기에 이용가능함을 결정하는 단계를 더 포함하며,
상기 특정 후보 핫워드가 하나 이상의 핫워드 적합성 기준을 만족함을 결정하는 단계는 적어도 상기 트레이닝 예들의 특정 량에 기초하여 상기 특정 후보 핫워드가 하나 이상의 핫워드 적합성 기준을 만족함을 결정하는 것을 포함하는 것을 특징으로 하는 방법. - 하나 이상의 컴퓨터에 의한 실행시 상기 하나 이상의 컴퓨터로 하여금 청구항 12항 내지 24항 및 26항 내지 29항 중 어느 한 항에 따른 방법을 수행하도록 하는 명령어들을 저장하는 비 일시적인 컴퓨터 판독가능 저장 매체.
- 제1항에 있어서,
상기 후보 핫워드가 하나 이상의 핫워드 적합성 기준을 만족함을 판단하는 단계와;
상기 후보 핫워드가 하나 이상의 핫워드 적합성 기준을 만족한다는 결정함에 응답하여, 상기 후보 핫워드를 커스텀 핫워드로서 지정하는 단계와; 그리고
상기 후보 핫워드가 커스텀 핫워드로서 지정되었다는 표시를, 상기 컴퓨팅 디바이스의 디스플레이 상에 또는 상기 컴퓨팅 디바이스의 스피커를 사용하여 제공하는 단계를 더 포함하는 것을 특징으로 하는 방법. - 제12항에 있어서,
상기 후속 수신된 오디오 데이터가 상기 커스텀 핫워드의 발언의 특징을 나타내는 사운드를 포함한다고 결정하는 것에 기초하여 사용자 인터페이스를 생성하는 단계와; 그리고
상기 후속 수신된 오디오 데이터가 상기 커스텀 핫워드의 발언의 특징인 사운드를 포함한다고 결정하는 것에 기초하여 생성된 상기 사용자 인터페이스를, 상기 컴퓨팅 디바이스의 디스플레이 상에 또는 상기 컴퓨팅 디바이스의 스피커를 사용하여 제공하는 단계를 더 포함하는 것을 특징으로 하는 방법.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261667817P | 2012-07-03 | 2012-07-03 | |
US61/667,817 | 2012-07-03 | ||
US13/567,572 US9536528B2 (en) | 2012-07-03 | 2012-08-06 | Determining hotword suitability |
US13/567,572 | 2012-08-06 | ||
PCT/US2013/048945 WO2014008194A1 (en) | 2012-07-03 | 2013-07-01 | Determining hotword suitability |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020157002936A Division KR102072730B1 (ko) | 2012-07-03 | 2013-07-01 | 핫워드 적합성을 결정하는 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20160119274A KR20160119274A (ko) | 2016-10-12 |
KR102196400B1 true KR102196400B1 (ko) | 2020-12-29 |
Family
ID=49879192
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020167027283A KR102196400B1 (ko) | 2012-07-03 | 2013-07-01 | 핫워드 적합성을 결정하는 방법 및 장치 |
KR1020157002936A KR102072730B1 (ko) | 2012-07-03 | 2013-07-01 | 핫워드 적합성을 결정하는 방법 및 장치 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020157002936A KR102072730B1 (ko) | 2012-07-03 | 2013-07-01 | 핫워드 적합성을 결정하는 방법 및 장치 |
Country Status (5)
Country | Link |
---|---|
US (5) | US9536528B2 (ko) |
EP (5) | EP4239628A3 (ko) |
KR (2) | KR102196400B1 (ko) |
CN (2) | CN106782607B (ko) |
WO (1) | WO2014008194A1 (ko) |
Families Citing this family (287)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
GB2489527B (en) * | 2011-04-01 | 2014-01-01 | Voicevault Ltd | Voice verification system |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
KR20130133629A (ko) | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9536528B2 (en) | 2012-07-03 | 2017-01-03 | Google Inc. | Determining hotword suitability |
RU2530268C2 (ru) | 2012-11-28 | 2014-10-10 | Общество с ограниченной ответственностью "Спиктуит" | Способ обучения информационной диалоговой системы пользователем |
US9818407B1 (en) * | 2013-02-07 | 2017-11-14 | Amazon Technologies, Inc. | Distributed endpointing for speech recognition |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US11393461B2 (en) | 2013-03-12 | 2022-07-19 | Cerence Operating Company | Methods and apparatus for detecting a voice command |
US9112984B2 (en) | 2013-03-12 | 2015-08-18 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US9361885B2 (en) | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9703350B2 (en) * | 2013-03-15 | 2017-07-11 | Maxim Integrated Products, Inc. | Always-on low-power keyword spotting |
US9336779B1 (en) * | 2013-04-10 | 2016-05-10 | Google Inc. | Dynamic image-based voice entry of unlock sequence |
US9892729B2 (en) * | 2013-05-07 | 2018-02-13 | Qualcomm Incorporated | Method and apparatus for controlling voice activation |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US9548047B2 (en) | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US9373321B2 (en) * | 2013-12-02 | 2016-06-21 | Cypress Semiconductor Corporation | Generation of wake-up words |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US10157272B2 (en) * | 2014-02-04 | 2018-12-18 | Qualcomm Incorporated | Systems and methods for evaluating strength of an audio password |
US10102848B2 (en) | 2014-02-28 | 2018-10-16 | Google Llc | Hotwords presentation framework |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11942095B2 (en) | 2014-07-18 | 2024-03-26 | Google Llc | Speaker verification using co-location information |
US9257120B1 (en) | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
US11676608B2 (en) | 2021-04-02 | 2023-06-13 | Google Llc | Speaker verification using co-location information |
US9263042B1 (en) * | 2014-07-25 | 2016-02-16 | Google Inc. | Providing pre-computed hotword models |
US20160055847A1 (en) * | 2014-08-19 | 2016-02-25 | Nuance Communications, Inc. | System and method for speech validation |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9354687B2 (en) * | 2014-09-11 | 2016-05-31 | Nuance Communications, Inc. | Methods and apparatus for unsupervised wakeup with time-correlated acoustic events |
US9335966B2 (en) * | 2014-09-11 | 2016-05-10 | Nuance Communications, Inc. | Methods and apparatus for unsupervised wakeup |
US10008208B2 (en) | 2014-09-18 | 2018-06-26 | Nuance Communications, Inc. | Method and apparatus for performing speaker recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) * | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9318107B1 (en) | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US9812128B2 (en) | 2014-10-09 | 2017-11-07 | Google Inc. | Device leadership negotiation among voice interface devices |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10055767B2 (en) | 2015-05-13 | 2018-08-21 | Google Llc | Speech recognition for keywords |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US9911410B2 (en) * | 2015-08-19 | 2018-03-06 | International Business Machines Corporation | Adaptation of speech recognition |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
EP3414759B1 (en) | 2016-02-10 | 2020-07-01 | Cerence Operating Company | Techniques for spatially selective wake-up word recognition and related systems and methods |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US9779735B2 (en) | 2016-02-24 | 2017-10-03 | Google Inc. | Methods and systems for detecting and processing speech signals |
JP6495850B2 (ja) * | 2016-03-14 | 2019-04-03 | 株式会社東芝 | 情報処理装置、情報処理方法、プログラムおよび認識システム |
US10510350B2 (en) * | 2016-03-30 | 2019-12-17 | Lenovo (Singapore) Pte. Ltd. | Increasing activation cue uniqueness |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
ES2806204T3 (es) | 2016-06-15 | 2021-02-16 | Cerence Operating Co | Técnicas para reconomiento de voz para activación y sistemas y métodos relacionados |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9972320B2 (en) | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
EP3287921B1 (en) * | 2016-08-26 | 2020-11-04 | Nxp B.V. | Spoken pass-phrase suitability determination |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10217458B2 (en) * | 2016-09-23 | 2019-02-26 | Intel Corporation | Technologies for improved keyword spotting |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10217453B2 (en) * | 2016-10-14 | 2019-02-26 | Soundhound, Inc. | Virtual assistant configured by selection of wake-up phrase |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
KR102584324B1 (ko) * | 2016-10-26 | 2023-09-27 | 에스케이텔레콤 주식회사 | 음성 인식 서비스 제공 방법 및 이를 위한 장치 |
US10237268B2 (en) * | 2016-11-02 | 2019-03-19 | Google Llc | Secure passcode processing device |
KR102241970B1 (ko) | 2016-11-07 | 2021-04-20 | 구글 엘엘씨 | 기록된 미디어 핫워드 트리거 억제 |
EP3535751A4 (en) | 2016-11-10 | 2020-05-20 | Nuance Communications, Inc. | METHOD FOR LANGUAGE-INDEPENDENT WAY RECOGNITION |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
CN106782529B (zh) * | 2016-12-23 | 2020-03-10 | 北京云知声信息技术有限公司 | 语音识别的唤醒词选择方法及装置 |
CN106847273B (zh) * | 2016-12-23 | 2020-05-05 | 北京云知声信息技术有限公司 | 语音识别的唤醒词选择方法及装置 |
US10276161B2 (en) * | 2016-12-27 | 2019-04-30 | Google Llc | Contextual hotwords |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10102856B2 (en) * | 2017-01-20 | 2018-10-16 | Essential Products, Inc. | Assistant device with active and passive experience modes |
US10741174B2 (en) * | 2017-01-24 | 2020-08-11 | Lenovo (Singapore) Pte. Ltd. | Automatic language identification for speech |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
US10847152B2 (en) * | 2017-03-28 | 2020-11-24 | Samsung Electronics Co., Ltd. | Method for operating speech recognition service, electronic device and system supporting the same |
US11250844B2 (en) * | 2017-04-12 | 2022-02-15 | Soundhound, Inc. | Managing agent engagement in a man-machine dialog |
WO2018195185A1 (en) | 2017-04-20 | 2018-10-25 | Google Llc | Multi-user authentication on a device |
US10511585B1 (en) * | 2017-04-27 | 2019-12-17 | EMC IP Holding Company LLC | Smoothing of discretized values using a transition matrix |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10607601B2 (en) * | 2017-05-11 | 2020-03-31 | International Business Machines Corporation | Speech recognition by selecting and refining hot words |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
KR102592677B1 (ko) * | 2017-05-23 | 2023-10-23 | 구글 엘엘씨 | 어텐션-기반의 시퀀스 변환 신경망 |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10395650B2 (en) | 2017-06-05 | 2019-08-27 | Google Llc | Recorded media hotword trigger suppression |
US10964315B1 (en) * | 2017-06-30 | 2021-03-30 | Amazon Technologies, Inc. | Monophone-based background modeling for wakeword detection |
US10504511B2 (en) * | 2017-07-24 | 2019-12-10 | Midea Group Co., Ltd. | Customizable wake-up voice commands |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
JP6844472B2 (ja) * | 2017-08-24 | 2021-03-17 | トヨタ自動車株式会社 | 情報処理装置 |
KR102067973B1 (ko) * | 2017-08-28 | 2020-02-11 | 에스케이텔레콤 주식회사 | 음소열의 편집 거리를 이용한 웨이크업 단어 선정 방법 |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
CN109542545B (zh) * | 2017-09-22 | 2022-07-29 | 北京国双科技有限公司 | 热词展示方法和装置 |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
US11295735B1 (en) * | 2017-12-13 | 2022-04-05 | Amazon Technologies, Inc. | Customizing voice-control for developer devices |
CN109935228B (zh) * | 2017-12-15 | 2021-06-22 | 富泰华工业(深圳)有限公司 | 身份信息关联系统与方法、计算机存储介质及用户设备 |
KR102438784B1 (ko) | 2018-01-05 | 2022-09-02 | 삼성전자주식회사 | 데이터를 난독화 및 복호화 하는 전자 장치 및 그의 제어 방법 |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US20190237069A1 (en) * | 2018-01-31 | 2019-08-01 | GM Global Technology Operations LLC | Multilingual voice assistance support |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
CN108536668B (zh) * | 2018-02-26 | 2022-06-07 | 科大讯飞股份有限公司 | 唤醒词评估方法及装置、存储介质、电子设备 |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10930278B2 (en) | 2018-04-09 | 2021-02-23 | Google Llc | Trigger sound detection in ambient audio to provide related functionality on a user interface |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10692496B2 (en) | 2018-05-22 | 2020-06-23 | Google Llc | Hotword suppression |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
KR102523982B1 (ko) | 2018-08-21 | 2023-04-20 | 구글 엘엘씨 | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드 |
WO2020040745A1 (en) | 2018-08-21 | 2020-02-27 | Google Llc | Dynamic and/or context-specific hot words to invoke automated assistant |
US11062703B2 (en) | 2018-08-21 | 2021-07-13 | Intel Corporation | Automatic speech recognition with filler model processing |
KR20200023088A (ko) * | 2018-08-24 | 2020-03-04 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
CN109767763B (zh) * | 2018-12-25 | 2021-01-26 | 苏州思必驰信息科技有限公司 | 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
JP6749705B2 (ja) * | 2019-01-25 | 2020-09-02 | 株式会社インタラクティブソリューションズ | プレゼンテーション支援システム |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN109887507B (zh) * | 2019-04-22 | 2021-03-12 | 成都启英泰伦科技有限公司 | 一种降低相似语音命令词误识别率的方法 |
WO2020218634A1 (ko) * | 2019-04-23 | 2020-10-29 | 엘지전자 주식회사 | 응답 기기 결정 방법 및 장치 |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11158305B2 (en) * | 2019-05-05 | 2021-10-26 | Microsoft Technology Licensing, Llc | Online verification of custom wake word |
US11132992B2 (en) | 2019-05-05 | 2021-09-28 | Microsoft Technology Licensing, Llc | On-device custom wake word detection |
US11222622B2 (en) * | 2019-05-05 | 2022-01-11 | Microsoft Technology Licensing, Llc | Wake word selection assistance architectures and methods |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
KR20200132613A (ko) | 2019-05-16 | 2020-11-25 | 삼성전자주식회사 | 웨이크 언 보이스(Wake on Voice, WoV) 기술을 이용한 음성 인식 수행 방법 및 장치 |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
CN110277097B (zh) * | 2019-06-24 | 2022-04-26 | 北京声智科技有限公司 | 数据处理方法及相关设备 |
CN112712803B (zh) * | 2019-07-15 | 2022-02-25 | 华为技术有限公司 | 一种语音唤醒的方法和电子设备 |
US11282500B2 (en) * | 2019-07-19 | 2022-03-22 | Cisco Technology, Inc. | Generating and training new wake words |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
CN110415705B (zh) * | 2019-08-01 | 2022-03-01 | 苏州奇梦者网络科技有限公司 | 一种热词识别方法、系统、装置及存储介质 |
US20210050003A1 (en) * | 2019-08-15 | 2021-02-18 | Sameer Syed Zaheer | Custom Wake Phrase Training |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11948556B2 (en) | 2019-10-15 | 2024-04-02 | Google Llc | Detection and/or enrollment of hot commands to trigger responsive action by automated assistant |
KR102577589B1 (ko) * | 2019-10-22 | 2023-09-12 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
CN111090720B (zh) * | 2019-11-22 | 2023-09-12 | 北京捷通华声科技股份有限公司 | 一种热词的添加方法和装置 |
JP7248564B2 (ja) * | 2019-12-05 | 2023-03-29 | Tvs Regza株式会社 | 情報処理装置及びプログラム |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) * | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
CN111341317B (zh) * | 2020-02-19 | 2023-09-01 | Oppo广东移动通信有限公司 | 唤醒音频数据的评价方法、装置、电子设备及介质 |
US11482222B2 (en) * | 2020-03-12 | 2022-10-25 | Motorola Solutions, Inc. | Dynamically assigning wake words |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
KR102392992B1 (ko) * | 2020-06-04 | 2022-05-02 | 주식회사 카카오엔터프라이즈 | 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법 |
JP7171911B2 (ja) * | 2020-06-09 | 2022-11-15 | グーグル エルエルシー | ビジュアルコンテンツからのインタラクティブなオーディオトラックの生成 |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11521604B2 (en) * | 2020-09-03 | 2022-12-06 | Google Llc | User mediation for hotword/keyword detection |
US11657814B2 (en) * | 2020-10-08 | 2023-05-23 | Harman International Industries, Incorporated | Techniques for dynamic auditory phrase completion |
US11315575B1 (en) * | 2020-10-13 | 2022-04-26 | Google Llc | Automatic generation and/or use of text-dependent speaker verification features |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11620990B2 (en) * | 2020-12-11 | 2023-04-04 | Google Llc | Adapting automated speech recognition parameters based on hotword properties |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
US11620993B2 (en) * | 2021-06-09 | 2023-04-04 | Merlyn Mind, Inc. | Multimodal intent entity resolver |
US12014727B2 (en) | 2021-07-14 | 2024-06-18 | Google Llc | Hotwording by degree |
US11423071B1 (en) * | 2021-08-31 | 2022-08-23 | On Time Staffing, Inc. | Candidate data ranking method using previously selected candidate data |
CN113724688B (zh) * | 2021-11-04 | 2022-03-29 | 深圳市友杰智新科技有限公司 | 语音识别的后处理方法、装置和计算机设备 |
US11907652B2 (en) | 2022-06-02 | 2024-02-20 | On Time Staffing, Inc. | User interface and systems for document creation |
CN115497463B (zh) * | 2022-09-15 | 2024-08-16 | 思必驰科技股份有限公司 | 用于语音识别的热词替换方法、电子设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001042891A (ja) * | 1999-07-27 | 2001-02-16 | Suzuki Motor Corp | 音声認識装置、音声認識搭載装置、音声認識搭載システム、音声認識方法、及び記憶媒体 |
US20050033582A1 (en) * | 2001-02-28 | 2005-02-10 | Michael Gadd | Spoken language interface |
Family Cites Families (135)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2119397C (en) | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
US5754977A (en) * | 1996-03-06 | 1998-05-19 | Intervoice Limited Partnership | System and method for preventing enrollment of confusable patterns in a reference database |
DE69822296T2 (de) | 1997-10-20 | 2005-02-24 | Koninklijke Philips Electronics N.V. | Mustererkennungsregistrierung in einem verteilten system |
US5987411A (en) * | 1997-12-17 | 1999-11-16 | Northern Telecom Limited | Recognition system for determining whether speech is confusing or inconsistent |
US20010047263A1 (en) * | 1997-12-18 | 2001-11-29 | Colin Donald Smith | Multimodal user interface |
US6134527A (en) | 1998-01-30 | 2000-10-17 | Motorola, Inc. | Method of testing a vocabulary word being enrolled in a speech recognition system |
US6073096A (en) | 1998-02-04 | 2000-06-06 | International Business Machines Corporation | Speaker adaptation system and method based on class-specific pre-clustering training speakers |
US6205261B1 (en) * | 1998-02-05 | 2001-03-20 | At&T Corp. | Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique |
US6289140B1 (en) * | 1998-02-19 | 2001-09-11 | Hewlett-Packard Company | Voice control input for portable capture devices |
US6295391B1 (en) * | 1998-02-19 | 2001-09-25 | Hewlett-Packard Company | Automatic data routing via voice command annotation |
US20020116196A1 (en) * | 1998-11-12 | 2002-08-22 | Tran Bao Q. | Speech recognizer |
US20020193989A1 (en) | 1999-05-21 | 2002-12-19 | Michael Geilhufe | Method and apparatus for identifying voice controlled devices |
EP1054387A3 (en) * | 1999-05-21 | 2001-11-14 | Winbond Electronics Corporation | Method and apparatus for activating voice controlled devices |
US6978238B2 (en) | 1999-07-12 | 2005-12-20 | Charles Schwab & Co., Inc. | Method and system for identifying a user by voice |
US6415257B1 (en) * | 1999-08-26 | 2002-07-02 | Matsushita Electric Industrial Co., Ltd. | System for identifying and adapting a TV-user profile by means of speech technology |
JP5118280B2 (ja) * | 1999-10-19 | 2013-01-16 | ソニー エレクトロニクス インク | 自然言語インターフェースコントロールシステム |
US6748361B1 (en) | 1999-12-14 | 2004-06-08 | International Business Machines Corporation | Personal speech assistant supporting a dialog manager |
US6757362B1 (en) * | 2000-03-06 | 2004-06-29 | Avaya Technology Corp. | Personal virtual assistant |
US6654734B1 (en) | 2000-08-30 | 2003-11-25 | International Business Machines Corporation | System and method for query processing and optimization for XML repositories |
AU2002303825A1 (en) | 2001-05-22 | 2002-12-03 | Teltone Corporation | Pbx control system via remote telephone |
US7013276B2 (en) * | 2001-10-05 | 2006-03-14 | Comverse, Inc. | Method of assessing degree of acoustic confusability, and system therefor |
US7167831B2 (en) | 2002-02-04 | 2007-01-23 | Microsoft Corporation | Systems and methods for managing multiple grammars in a speech recognition system |
US7099825B1 (en) * | 2002-03-15 | 2006-08-29 | Sprint Communications Company L.P. | User mobility in a voice recognition environment |
US20030212562A1 (en) | 2002-05-13 | 2003-11-13 | General Motors Corporation | Manual barge-in for server-based in-vehicle voice recognition systems |
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7502737B2 (en) | 2002-06-24 | 2009-03-10 | Intel Corporation | Multi-pass recognition of spoken dialogue |
AU2002950336A0 (en) | 2002-07-24 | 2002-09-12 | Telstra New Wave Pty Ltd | System and process for developing a voice application |
US6886009B2 (en) | 2002-07-31 | 2005-04-26 | International Business Machines Corporation | Query routing based on feature learning of data sources |
US6965786B2 (en) * | 2002-08-13 | 2005-11-15 | Qualcomm Incorporated | Annunciators for voice and data applications in wireless communication devices |
US7027842B2 (en) | 2002-09-24 | 2006-04-11 | Bellsouth Intellectual Property Corporation | Apparatus and method for providing hands-free operation of a device |
US7899500B2 (en) | 2002-09-24 | 2011-03-01 | At&T Intellectual Property I, L. P. | Apparatus and method for providing hands-free operation of a device |
US7013282B2 (en) | 2003-04-18 | 2006-03-14 | At&T Corp. | System and method for text-to-speech processing in a portable device |
US7299359B2 (en) | 2003-04-23 | 2007-11-20 | Apple Inc. | Apparatus and method for indicating password quality and variety |
US7363228B2 (en) | 2003-09-18 | 2008-04-22 | Interactive Intelligence, Inc. | Speech recognition system and method |
US7212613B2 (en) | 2003-09-18 | 2007-05-01 | International Business Machines Corporation | System and method for telephonic voice authentication |
US7240049B2 (en) | 2003-11-12 | 2007-07-03 | Yahoo! Inc. | Systems and methods for search query processing using trend analysis |
US7624018B2 (en) | 2004-03-12 | 2009-11-24 | Microsoft Corporation | Speech recognition using categories and speech prefixing |
US7934101B2 (en) * | 2004-04-16 | 2011-04-26 | Cisco Technology, Inc. | Dynamically mitigating a noncompliant password |
US20050283764A1 (en) * | 2004-04-28 | 2005-12-22 | Leo Chiu | Method and apparatus for validating a voice application |
US7386448B1 (en) | 2004-06-24 | 2008-06-10 | T-Netix, Inc. | Biometric voice authentication |
US8407239B2 (en) | 2004-08-13 | 2013-03-26 | Google Inc. | Multi-stage query processing system and method for use with tokenspace repository |
US20060064177A1 (en) | 2004-09-17 | 2006-03-23 | Nokia Corporation | System and method for measuring confusion among words in an adaptive speech recognition system |
US20060085183A1 (en) * | 2004-10-19 | 2006-04-20 | Yogendra Jain | System and method for increasing recognition accuracy and modifying the behavior of a device in response to the detection of different levels of speech |
JP3984988B2 (ja) | 2004-11-26 | 2007-10-03 | キヤノン株式会社 | ユーザインタフェース設計装置およびその制御方法 |
GB0426347D0 (en) * | 2004-12-01 | 2005-01-05 | Ibm | Methods, apparatus and computer programs for automatic speech recognition |
US7349896B2 (en) | 2004-12-29 | 2008-03-25 | Aol Llc | Query routing |
US7558529B2 (en) * | 2005-01-24 | 2009-07-07 | Broadcom Corporation | Earpiece/microphone (headset) servicing multiple incoming audio streams |
US7343177B2 (en) * | 2005-05-03 | 2008-03-11 | Broadcom Corporation | Modular ear-piece/microphone (headset) operable to service voice activated commands |
EP1884923A4 (en) | 2005-05-27 | 2009-06-03 | Panasonic Corp | VOICE EDITING DEVICE, VOICE EDITING METHOD, AND VOICE EDITING PROGRAM |
US7640160B2 (en) | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US8503624B2 (en) | 2005-09-28 | 2013-08-06 | Cisco Technology, Inc. | Method and apparatus to process an incoming message |
JP4260788B2 (ja) | 2005-10-20 | 2009-04-30 | 本田技研工業株式会社 | 音声認識機器制御装置 |
JP4878471B2 (ja) | 2005-11-02 | 2012-02-15 | キヤノン株式会社 | 情報処理装置およびその制御方法 |
US20070143117A1 (en) * | 2005-12-21 | 2007-06-21 | Conley Kevin M | Voice controlled portable memory storage device |
US9245526B2 (en) * | 2006-04-25 | 2016-01-26 | General Motors Llc | Dynamic clustering of nametags in an automated speech recognition system |
US7949536B2 (en) | 2006-08-31 | 2011-05-24 | Microsoft Corporation | Intelligent speech recognition of incomplete phrases |
US20080133245A1 (en) | 2006-12-04 | 2008-06-05 | Sehda, Inc. | Methods for speech-to-speech translation |
US20080130699A1 (en) * | 2006-12-05 | 2008-06-05 | Motorola, Inc. | Content selection using speech recognition |
US8099287B2 (en) * | 2006-12-05 | 2012-01-17 | Nuance Communications, Inc. | Automatically providing a user with substitutes for potentially ambiguous user-defined speech commands |
US20080140397A1 (en) * | 2006-12-07 | 2008-06-12 | Jonathan Travis Millman | Sequencing for location determination |
US8731146B2 (en) | 2007-01-04 | 2014-05-20 | At&T Intellectual Property I, L.P. | Call re-directed based on voice command |
US7840409B2 (en) | 2007-02-27 | 2010-11-23 | Nuance Communications, Inc. | Ordering recognition results produced by an automatic speech recognition engine for a multimodal application |
US20080215577A1 (en) * | 2007-03-01 | 2008-09-04 | Sony Corporation | Information processing apparatus and method, program, and storage medium |
US20110060587A1 (en) * | 2007-03-07 | 2011-03-10 | Phillips Michael S | Command and control utilizing ancillary information in a mobile voice-to-speech application |
US8635243B2 (en) | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US7877258B1 (en) | 2007-03-29 | 2011-01-25 | Google Inc. | Representing n-gram language models for compact storage and fast retrieval |
US8396713B2 (en) | 2007-04-30 | 2013-03-12 | Nuance Communications, Inc. | Method and system for using a statistical language model and an action classifier in parallel with grammar for better handling of out-of-grammar utterances |
WO2008144638A2 (en) | 2007-05-17 | 2008-11-27 | Redstart Systems Inc. | Systems and methods of a structured grammar for a speech recognition command system |
US9122867B2 (en) * | 2007-06-08 | 2015-09-01 | International Business Machines Corporation | Techniques for presenting password feedback to a computer system user |
US9092781B2 (en) | 2007-06-27 | 2015-07-28 | Verizon Patent And Licensing Inc. | Methods and systems for secure voice-authenticated electronic payment |
US8060366B1 (en) | 2007-07-17 | 2011-11-15 | West Corporation | System, method, and computer-readable medium for verbal control of a conference call |
US20090143057A1 (en) * | 2007-11-30 | 2009-06-04 | Verizon Services Organization Inc. | Method and apparatus for distinctive alert activation |
CN101452701B (zh) * | 2007-12-05 | 2011-09-07 | 株式会社东芝 | 基于反模型的置信度估计方法及装置 |
US8370160B2 (en) | 2007-12-31 | 2013-02-05 | Motorola Mobility Llc | Methods and apparatus for implementing distributed multi-modal applications |
US20090171663A1 (en) | 2008-01-02 | 2009-07-02 | International Business Machines Corporation | Reducing a size of a compiled speech recognition grammar |
US20090210233A1 (en) * | 2008-02-15 | 2009-08-20 | Microsoft Corporation | Cognitive offloading: interface for storing and composing searches on and navigating unconstrained input patterns |
US7917368B2 (en) | 2008-02-25 | 2011-03-29 | Mitsubishi Electric Research Laboratories, Inc. | Method for interacting with users of speech recognition systems |
CN101315770B (zh) * | 2008-05-27 | 2012-01-25 | 北京承芯卓越科技有限公司 | 语音识别片上系统及采用其的语音识别方法 |
KR101631496B1 (ko) * | 2008-06-03 | 2016-06-17 | 삼성전자주식회사 | 로봇 장치 및 그 단축 명령 등록 방법 |
US8489399B2 (en) | 2008-06-23 | 2013-07-16 | John Nicholas and Kristin Gross Trust | System and method for verifying origin of input through spoken language analysis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US8332223B2 (en) | 2008-10-24 | 2012-12-11 | Nuance Communications, Inc. | Speaker verification methods and apparatus |
US8177643B2 (en) * | 2008-12-05 | 2012-05-15 | Microsoft Corporation | Out-of-band voice communication with interactive voice response services during gameplay |
KR101068122B1 (ko) * | 2008-12-15 | 2011-09-28 | 한국전자통신연구원 | 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법 |
US8548812B2 (en) | 2008-12-22 | 2013-10-01 | Avaya Inc. | Method and system for detecting a relevant utterance in a voice session |
US8447609B2 (en) * | 2008-12-31 | 2013-05-21 | Intel Corporation | Adjustment of temporal acoustical characteristics |
US9059991B2 (en) * | 2008-12-31 | 2015-06-16 | Bce Inc. | System and method for unlocking a device |
CN101510222B (zh) * | 2009-02-20 | 2012-05-30 | 北京大学 | 一种多层索引语音文档检索方法 |
US9684741B2 (en) | 2009-06-05 | 2017-06-20 | Microsoft Technology Licensing, Llc | Presenting search results according to query domains |
US8639513B2 (en) | 2009-08-05 | 2014-01-28 | Verizon Patent And Licensing Inc. | Automated communication integrator |
US8374868B2 (en) * | 2009-08-21 | 2013-02-12 | General Motors Llc | Method of recognizing speech |
US20110099507A1 (en) | 2009-10-28 | 2011-04-28 | Google Inc. | Displaying a collection of interactive elements that trigger actions directed to an item |
US8515734B2 (en) | 2010-02-08 | 2013-08-20 | Adacel Systems, Inc. | Integrated language model, related systems and methods |
US8560318B2 (en) * | 2010-05-14 | 2013-10-15 | Sony Computer Entertainment Inc. | Methods and system for evaluating potential confusion within grammar structure for set of statements to be used in speech recognition during computing event |
US9037615B2 (en) * | 2010-05-14 | 2015-05-19 | International Business Machines Corporation | Querying and integrating structured and unstructured data |
US8682661B1 (en) | 2010-08-31 | 2014-03-25 | Google Inc. | Robust speech recognition |
CN102324233B (zh) * | 2011-08-03 | 2014-05-07 | 中国科学院计算技术研究所 | 汉语语音识别中重复出现词识别错误的自动修正方法 |
US8924219B1 (en) | 2011-09-30 | 2014-12-30 | Google Inc. | Multi hotword robust continuous voice command detection in mobile devices |
ES2409530B1 (es) | 2011-10-14 | 2014-05-14 | Telefónica, S.A. | Método para gestionar el reconocimiento del habla de llamadas de audio |
US9031847B2 (en) | 2011-11-15 | 2015-05-12 | Microsoft Technology Licensing, Llc | Voice-controlled camera operations |
US8818810B2 (en) | 2011-12-29 | 2014-08-26 | Robert Bosch Gmbh | Speaker verification in a health monitoring system |
US8699677B2 (en) * | 2012-01-09 | 2014-04-15 | Comcast Cable Communications, Llc | Voice transcription |
GB2514943A (en) | 2012-01-24 | 2014-12-10 | Auraya Pty Ltd | Voice authentication and speech recognition system and method |
US9323912B2 (en) | 2012-02-28 | 2016-04-26 | Verizon Patent And Licensing Inc. | Method and system for multi-factor biometric authentication |
US9117449B2 (en) * | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
US20140006825A1 (en) | 2012-06-30 | 2014-01-02 | David Shenhav | Systems and methods to wake up a device from a power conservation state |
US9536528B2 (en) | 2012-07-03 | 2017-01-03 | Google Inc. | Determining hotword suitability |
US9459176B2 (en) | 2012-10-26 | 2016-10-04 | Azima Holdings, Inc. | Voice controlled vibration data analyzer systems and methods |
US9646610B2 (en) | 2012-10-30 | 2017-05-09 | Motorola Solutions, Inc. | Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition |
US9275637B1 (en) * | 2012-11-06 | 2016-03-01 | Amazon Technologies, Inc. | Wake word evaluation |
US20150279351A1 (en) | 2012-12-19 | 2015-10-01 | Google Inc. | Keyword detection based on acoustic alignment |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US9361885B2 (en) | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US9123330B1 (en) | 2013-05-01 | 2015-09-01 | Google Inc. | Large-scale speaker identification |
US9620123B2 (en) | 2013-05-02 | 2017-04-11 | Nice Ltd. | Seamless authentication and enrollment |
JP2014232258A (ja) | 2013-05-30 | 2014-12-11 | 株式会社東芝 | 連携業務支援装置、方法およびプログラム |
US9548047B2 (en) | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
US9202462B2 (en) * | 2013-09-30 | 2015-12-01 | Google Inc. | Key phrase detection |
US9336781B2 (en) | 2013-10-17 | 2016-05-10 | Sri International | Content-aware speaker recognition |
US10019985B2 (en) | 2013-11-04 | 2018-07-10 | Google Llc | Asynchronous optimization for sequence training of neural networks |
US9715660B2 (en) * | 2013-11-04 | 2017-07-25 | Google Inc. | Transfer learning for deep neural network based hotword detection |
US8768712B1 (en) | 2013-12-04 | 2014-07-01 | Google Inc. | Initiating actions based on partial hotwords |
US8719039B1 (en) | 2013-12-05 | 2014-05-06 | Google Inc. | Promoting voice actions to hotwords |
US9396202B1 (en) | 2013-12-27 | 2016-07-19 | Google Inc. | Weakly synchronized garbage collection and compaction for aggregated, replicated object stores |
US9495959B2 (en) | 2014-02-27 | 2016-11-15 | Ford Global Technologies, Llc | Disambiguation of dynamic commands |
US9542948B2 (en) | 2014-04-09 | 2017-01-10 | Google Inc. | Text-dependent speaker identification |
US10540979B2 (en) | 2014-04-17 | 2020-01-21 | Qualcomm Incorporated | User interface for secure access to a device using speaker verification |
US9484022B2 (en) * | 2014-05-23 | 2016-11-01 | Google Inc. | Training multiple neural networks with different accuracy |
US9817750B2 (en) | 2014-07-03 | 2017-11-14 | Pure Storage, Inc. | Profile-dependent write placement of data into a non-volatile solid-state storage |
US9263042B1 (en) | 2014-07-25 | 2016-02-16 | Google Inc. | Providing pre-computed hotword models |
KR102245747B1 (ko) * | 2014-11-20 | 2021-04-28 | 삼성전자주식회사 | 사용자 명령어 등록을 위한 디스플레이 장치 및 방법 |
US20160189730A1 (en) | 2014-12-30 | 2016-06-30 | Iflytek Co., Ltd. | Speech separation method and system |
US10580401B2 (en) * | 2015-01-27 | 2020-03-03 | Google Llc | Sub-matrix input for neural network layers |
TWI525532B (zh) * | 2015-03-30 | 2016-03-11 | Yu-Wei Chen | Set the name of the person to wake up the name for voice manipulation |
US20190043500A1 (en) * | 2017-08-03 | 2019-02-07 | Nowsportz Llc | Voice based realtime event logging |
-
2012
- 2012-08-06 US US13/567,572 patent/US9536528B2/en active Active
-
2013
- 2013-07-01 EP EP23187389.4A patent/EP4239628A3/en active Pending
- 2013-07-01 CN CN201611132499.7A patent/CN106782607B/zh active Active
- 2013-07-01 EP EP17198918.9A patent/EP3321930B1/en active Active
- 2013-07-01 EP EP17198899.1A patent/EP3301671B1/en active Active
- 2013-07-01 CN CN201380043134.5A patent/CN104584119B/zh active Active
- 2013-07-01 EP EP20191805.9A patent/EP3761310B1/en active Active
- 2013-07-01 WO PCT/US2013/048945 patent/WO2014008194A1/en active Application Filing
- 2013-07-01 KR KR1020167027283A patent/KR102196400B1/ko active IP Right Grant
- 2013-07-01 EP EP13739887.1A patent/EP2870602B1/en active Active
- 2013-07-01 KR KR1020157002936A patent/KR102072730B1/ko active IP Right Grant
-
2016
- 2016-01-20 US US15/002,044 patent/US10002613B2/en active Active
-
2018
- 2018-05-16 US US15/981,376 patent/US10714096B2/en active Active
-
2020
- 2020-06-03 US US16/891,444 patent/US11227611B2/en active Active
-
2022
- 2022-01-06 US US17/570,246 patent/US11741970B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001042891A (ja) * | 1999-07-27 | 2001-02-16 | Suzuki Motor Corp | 音声認識装置、音声認識搭載装置、音声認識搭載システム、音声認識方法、及び記憶媒体 |
US20050033582A1 (en) * | 2001-02-28 | 2005-02-10 | Michael Gadd | Spoken language interface |
Also Published As
Publication number | Publication date |
---|---|
CN104584119B (zh) | 2017-10-17 |
US10714096B2 (en) | 2020-07-14 |
EP3321930B1 (en) | 2020-09-30 |
US9536528B2 (en) | 2017-01-03 |
CN106782607A (zh) | 2017-05-31 |
KR20150037986A (ko) | 2015-04-08 |
US11227611B2 (en) | 2022-01-18 |
CN104584119A (zh) | 2015-04-29 |
EP2870602B1 (en) | 2020-04-22 |
WO2014008194A1 (en) | 2014-01-09 |
KR102072730B1 (ko) | 2020-02-03 |
US20180336906A1 (en) | 2018-11-22 |
US10002613B2 (en) | 2018-06-19 |
EP3321930A1 (en) | 2018-05-16 |
EP3761310A1 (en) | 2021-01-06 |
EP4239628A2 (en) | 2023-09-06 |
US11741970B2 (en) | 2023-08-29 |
US20140012586A1 (en) | 2014-01-09 |
KR20160119274A (ko) | 2016-10-12 |
EP3761310B1 (en) | 2023-02-01 |
EP3301671A1 (en) | 2018-04-04 |
US20160133259A1 (en) | 2016-05-12 |
EP2870602A1 (en) | 2015-05-13 |
US20200302941A1 (en) | 2020-09-24 |
CN106782607B (zh) | 2021-02-05 |
US20220130399A1 (en) | 2022-04-28 |
EP3301671B1 (en) | 2023-09-06 |
EP4239628A3 (en) | 2023-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102196400B1 (ko) | 핫워드 적합성을 결정하는 방법 및 장치 | |
US11514886B2 (en) | Emotion classification information-based text-to-speech (TTS) method and apparatus | |
US9558743B2 (en) | Integration of semantic context information | |
US9293136B2 (en) | Multiple recognizer speech recognition | |
CN110110319B (zh) | 语音输入的字词级纠正 | |
GB2557714A (en) | Determining phonetic relationships | |
CN112334979B (zh) | 通过计算设备检测持续对话 | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
US20200219487A1 (en) | Information processing apparatus and information processing method | |
JP6347939B2 (ja) | 発話内重要語抽出装置とその装置を用いた発話内重要語抽出システムと、それらの方法とプログラム | |
US11632345B1 (en) | Message management for communal account | |
US11563708B1 (en) | Message grouping | |
JP6183147B2 (ja) | 情報処理装置、プログラム、及び方法 | |
KR20220116660A (ko) | 인공지능 스피커 기능을 탑재한 텀블러 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |