KR20160055915A - 음성 보조 기능을 활성화하는 검출 임계값을 조정하는 방법 및 장치 - Google Patents
음성 보조 기능을 활성화하는 검출 임계값을 조정하는 방법 및 장치 Download PDFInfo
- Publication number
- KR20160055915A KR20160055915A KR1020167009988A KR20167009988A KR20160055915A KR 20160055915 A KR20160055915 A KR 20160055915A KR 1020167009988 A KR1020167009988 A KR 1020167009988A KR 20167009988 A KR20167009988 A KR 20167009988A KR 20160055915 A KR20160055915 A KR 20160055915A
- Authority
- KR
- South Korea
- Prior art keywords
- mobile device
- context
- threshold
- input sound
- sensor
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 230000003213 activating effect Effects 0.000 title claims abstract description 42
- 238000001514 detection method Methods 0.000 title description 107
- 230000001133 acceleration Effects 0.000 claims abstract description 12
- 230000004913 activation Effects 0.000 claims description 42
- 230000004044 response Effects 0.000 claims description 19
- 230000008859 change Effects 0.000 claims description 11
- 238000005286 illumination Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 description 55
- 238000010586 diagram Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 12
- 230000006854 communication Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 6
- 230000007704 transition Effects 0.000 description 5
- 101000574648 Homo sapiens Retinoid-inducible serine carboxypeptidase Proteins 0.000 description 3
- 102100025483 Retinoid-inducible serine carboxypeptidase Human genes 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000007958 sleep Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
Abstract
이동 디바이스에서 음성 보조 기능을 활성화하는 방법이 개시된다. 그 방법은 사운드 센서에 의해 입력 사운드 스트림을 수신하는 단계 및 이동 디바이스의 콘텍스트를 결정하는 단계를 포함한다. 방법은 입력 사운드 스트림에 기초하여 콘텍스트를 결정할 수도 있다. 콘텍스트를 결정하기 위해, 방법은 또한 이동 디바이스 내의 가속도 센서, 로케이션 센서, 조명 센서, 근접 센서, 시계 유닛, 및 칼렌더 유닛 중 적어도 하나로부터 상기 이동 디바이스의 콘텍스트를 나타내는 데이터를 획득할 수도 있다. 이러한 방법에서, 음성 보조 기능을 활성화하기 위한 임계값은 콘텍스트에 기초하여 조정된다. 방법은 조정된 임계값에 기초하여 상기 입력 사운드 스트림으로부터 목표 키워드를 검출한다. 목표 키워드가 검출되는 경우, 방법은 음성 보조 기능을 활성화한다.
Description
본 출원은 2013년 9월 17일자로 출원된 공동으로 소유된 미국 비잠정적 특허 출원 제 14/029,131 호로부터 우선권을 주장하며, 그것의 내용들이 그것의 전체로서 참조에 의해 여기에 명백히 포함된다.
본 개시는 일반적으로 이동 디바이스 내의 음성 보조 기능을 활성화하는 방법에 관한 것이다. 특히, 본 개시는 이동 디바이스에서 목표 키워드를 검출하기 위한 임계값을 조정하는 것에 관한 것이다.
최근에, 스마트폰들 및 태블릿 컴퓨터들과 같은 이동 디바이스들의 사용이 널리퍼지게 되었다. 그러한 이동 디바이스들은 일반적으로 무선 네트워크들을 통한 음성 및 데이터 통신들을 허용한다. 통상, 이들 디바이스들은 사용자 편리성을 강화하도록 설계된 다양한 기능들을 제공하는 추가적인 특징들 또는 애플리케이션들을 포함한다.
그러한 애플리케이션들 또는 특징들 중에서, 음성 보조 애플리케이션은 이동 디바이스가 음성 커맨드에 응답하여 여러 기능들 또는 다른 애플리케이션들을 동작시키기 위해 사용자로부터 음성 커맨드를 수신하는 것을 가능하게 한다. 예를 들어, 음성 보조 애플리케이션은 손으로 이동 디바이스를 물리적으로 동작시키지 않고 원하는 전화 번호로 전화를 걸거나, 오디오 파일을 플레이하거나, 사진을 촬영하거나, 인터넷 검색을 하거나, 날씨 정보를 획득하기 위해 사용자가 음성 커맨드를 말하는 것을 허용할 수도 있다. 이에 따라, 사용자는 사용자가 이동 디바이스를 물리적으로 동작시키기 원하지 않을 수도 있거나 동작시킬 수 없는 다양한 상황들에서 이동 디바이스의 여러 동작들을 제어하기 위해 음성 커맨드를 사용하기를 선택할 수도 있다.
종래의 음성 보조 애플리케이션들은 종종 사용자에 의한 (예를 들어, 손에 의한) 물리적 입력에 응답하여 활성화된다. 그러나, 음성 보조 애플리케이션을 사용하는 목적들 중 하나는 물리적 입력 없이 이동 디바이스를 동작시키는 것일 수도 있기 때문에, 사용자는 음성 보조 애플리케이션을 물리적으로 활성화하는 것이 불편하거나 곤란하다는 것을 발견할 수도 있다. 따라서, 일부 이동 디바이스들은 사용자가 음성 커맨드를 말함으로써 음성 보조 애플리케이션을 활성화하는 것을 허용한다.
그러나, 그러한 이동 디바이스들은 종종 그 디바이스들에 의해 캡쳐된 여러 입력 사운드들에 응답하여 잘못 활성화되며, 적절한 음성 커맨드에 응답하여 활성화되는 것을 실패한다. 예를 들어, 이동 디바이스는 다른 사람의 발언을 적절한 음성 커맨드로서 잘못 인식하고 음성 보조 애플리케이션을 활성화할 수도 있다. 한편, 이동 디바이스가 소리가 큰 환경에 있는 경우, 그 이동 디바이스는 배경 노이즈에 기인하여 적절한 음성 커맨드를 인식하지 않고 따라서 음성 보조 애플리케이션을 활성화하는 것을 실패할 수도 있다.
본 개시는 디바이스들의 콘텍스트들에 따라 조정될 수도 있는 임계값에 기초하여 입력 사운드 스트림 내의 목표 키워드를 검출함으로써 음성 보조 기능을 활성화하는 방법들 및 디바이스들을 제공한다.
본 개시의 하나의 양태에 따르면, 이동 디바이스에서의 음성 보조 기능을 활성화하는 방법이 개시된다. 방법은 사운드 센서에 의해 입력 사운드 스트림을 수신하고 이동 디바이스의 콘텍스트를 결정하는 단계를 포함한다. 이 방법에서, 음성 보조 기능을 활성화하는 임계값은 콘텍스트에 기초하여 조정된다. 방법은 조정된 임계값에 기초하여 입력 사운트 스트림으로부터 목표 키워드를 검출한다. 목표 키워드가 검출되는 경우, 방법은 음성 보조 기능을 활성화한다. 본 개시는 또한 이러한 방법에 관련된 장치, 디바이스, 수단의 조합, 및 컴퓨터 판독가능 매체를 기술한다.
본 개시의 다른 양태에 따르면, 음성 보조 기능을 활성화하는 이동 디바이스는 사운드 센서, 임계값 조정 유닛, 및 음성 활성화 유닛을 포함한다. 사운드 센서는 입력 사운드 스트림을 수신하돌 구성된다. 임계값 조정 유닛은 이동 디바이스의 콘텍스트를 결정함으로써 음성 보조 기능을 활성화하기 위한 임계값을 조정하도록 구성된다. 음성 활성화 유닛은 목표 키워드가 조정된 임계값에 기초하여 입력 사운드 스트림으로부터 검출되는 경우 음성 보조 기능을 활성화하도록 구성된다.
본 개시의 발명적 양태들의 실시형태들은 첨부하는 도면들과 함께 읽혀지는 경우 다음의 상세한 설명을 참조하여 이해될 것이다.
도 1 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트가 차량 내에 있는 것으로 결정되는 경우 음성 보조 기능을 활성화하기 위한 검출 임계값을 조정하도록 구성된 이동 디바이스를 도시한다.
도 2 는 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트가 사용자가 깨어났을 것 같은 아침인 것으로 결정되는 경우 음성 보조 기능을 활성화하기 위한 검출 임계값을 조정하도록 구성된 이동 디바이스를 도시한다.
도 3 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트가 사용자가 잠들어 있을 것 같은 밤인 것으로 결정되는 경우 음성 보조 기능을 활성화하기 위한 검출 임계값을 조정하도록 구성된 이동 디바이스를 도시한다.
도 4 는 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트가 가방 내에 있는 것으로 결정되는 경우 음성 보조 기능을 활성화하기 위한 검출 임계값을 조정하도록 구성된 이동 디바이스를 도시한다.
도 5 는 본 개시의 하나의 실시형태에 따라, 텍스트 메시지를 수신하는 콘텍스트에서 음성 보조 기능을 활성화하기 위한 검출 임계값을 조정하도록 구성된 이동 디바이스를 도시한다.
도 6 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트에 기초하여 목표 키워드를 검출하기 위한 임계값을 조정함으로써 입력 사운드 스트림으로부터 목표 키워드를 검출하도록 구성된 이동 디바이스의 블록도를 도시한다.
도 7 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트를 결정함에 있어서 사용하기 위한 사운드 스트림 및 센서 데이터를 출력하도록 구성된 이동 디바이스 내의 센서 유닛의 블록도이다.
도 8 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트를 추론함으로써 음성 보조 기능을 활성화하기 위한 검출 임계값을 결정하도록 구성된 이동 디바이스 내의 임계값 조정 유닛의 블록도를 도시한다.
도 9 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트를 추론함으로써 음성 보조 기능을 활성화하기 위한 검출 임계값을 결정하기 위한, 이동 디바이스에서 수행되는 방법의 플로우챠트이다.
도 10 은 본 개시의 하나의 실시형태에 따라, 조정된 검출 임계값을 생성하고, 그 검출 임계값을 특정된 시간 주기 후에 미리 결정된 검출 임계값으로 재설정하기 위한, 이동 디바이스에서 수행되는 방법의 플로우챠트이다.
도 11 은 본 개시의 하나의 실시형태에 따라, 조정된 검출 임계값에 기초하여 입력 사운드 스트림 내의 목표 키워드를 검출함으로써 음성 보조 기능을 활성하도록 구성된 이동 디바이스 내의 음성 활성화 유닛의 블록도를 도시한다.
도 12 는 본 개시의 하나의 실시형태에 따라, 조정된 검출 임계값에 기초하여 입력 사운드 스트림 내의 목표 키워드를 검출함으로써 음성 보조 기능을 활성하기 위한, 이동 디바이스에서 수행되는 방법의 플로우챠트이다.
도 13 은 무선 통신 시스템 내의 이동 디바이스의 블록도를 도시하며, 여기서 방법들 및 장치는 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트에 따라 조정되는 검출 임계값에 기초하여 입력 사운드 스트림 내의 목표 키워드를 검출한다.
도 1 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트가 차량 내에 있는 것으로 결정되는 경우 음성 보조 기능을 활성화하기 위한 검출 임계값을 조정하도록 구성된 이동 디바이스를 도시한다.
도 2 는 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트가 사용자가 깨어났을 것 같은 아침인 것으로 결정되는 경우 음성 보조 기능을 활성화하기 위한 검출 임계값을 조정하도록 구성된 이동 디바이스를 도시한다.
도 3 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트가 사용자가 잠들어 있을 것 같은 밤인 것으로 결정되는 경우 음성 보조 기능을 활성화하기 위한 검출 임계값을 조정하도록 구성된 이동 디바이스를 도시한다.
도 4 는 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트가 가방 내에 있는 것으로 결정되는 경우 음성 보조 기능을 활성화하기 위한 검출 임계값을 조정하도록 구성된 이동 디바이스를 도시한다.
도 5 는 본 개시의 하나의 실시형태에 따라, 텍스트 메시지를 수신하는 콘텍스트에서 음성 보조 기능을 활성화하기 위한 검출 임계값을 조정하도록 구성된 이동 디바이스를 도시한다.
도 6 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트에 기초하여 목표 키워드를 검출하기 위한 임계값을 조정함으로써 입력 사운드 스트림으로부터 목표 키워드를 검출하도록 구성된 이동 디바이스의 블록도를 도시한다.
도 7 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트를 결정함에 있어서 사용하기 위한 사운드 스트림 및 센서 데이터를 출력하도록 구성된 이동 디바이스 내의 센서 유닛의 블록도이다.
도 8 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트를 추론함으로써 음성 보조 기능을 활성화하기 위한 검출 임계값을 결정하도록 구성된 이동 디바이스 내의 임계값 조정 유닛의 블록도를 도시한다.
도 9 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트를 추론함으로써 음성 보조 기능을 활성화하기 위한 검출 임계값을 결정하기 위한, 이동 디바이스에서 수행되는 방법의 플로우챠트이다.
도 10 은 본 개시의 하나의 실시형태에 따라, 조정된 검출 임계값을 생성하고, 그 검출 임계값을 특정된 시간 주기 후에 미리 결정된 검출 임계값으로 재설정하기 위한, 이동 디바이스에서 수행되는 방법의 플로우챠트이다.
도 11 은 본 개시의 하나의 실시형태에 따라, 조정된 검출 임계값에 기초하여 입력 사운드 스트림 내의 목표 키워드를 검출함으로써 음성 보조 기능을 활성하도록 구성된 이동 디바이스 내의 음성 활성화 유닛의 블록도를 도시한다.
도 12 는 본 개시의 하나의 실시형태에 따라, 조정된 검출 임계값에 기초하여 입력 사운드 스트림 내의 목표 키워드를 검출함으로써 음성 보조 기능을 활성하기 위한, 이동 디바이스에서 수행되는 방법의 플로우챠트이다.
도 13 은 무선 통신 시스템 내의 이동 디바이스의 블록도를 도시하며, 여기서 방법들 및 장치는 본 개시의 하나의 실시형태에 따라, 이동 디바이스의 콘텍스트에 따라 조정되는 검출 임계값에 기초하여 입력 사운드 스트림 내의 목표 키워드를 검출한다.
이제 여러 실시형태들에 대해 상세히 언급될 것이며, 그의 예시들이 첨부하는 도면들에서 도시된다. 다음의 상세한 설명에서, 다수의 특정의 상세들은 본 주제의 철저한 이해를 제공하기 위해 진술된다. 그러나, 본 주제가 이들 특정의 상세들 없이 실시될 수도 있다는 것이 본 기술에서 통상의 지식을 가진자에게 명백할 것이다. 다른 예들에서, 잘 알려진 방법들, 절차들, 시스템들, 및 컴포넌트들은 여러 실시형태들의 양태들을 불필요하게 모호하게 하지 않도록 상세하게 기술되지 않았다.
도 1 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스 (110) 의 콘텍스트가 차량 (130) 내에 있는 것으로 결정되는 경우 음성 보조 기능을 활성화하기 위한 검출 임계값을 조정하도록 구성된 이동 디바이스 (110) 를 도시한다. 이러한 도시된 실시형태에서, 이동 디바이스 (110) 의 사용자 (120) 는 이동 디바이스 (110) 가 차량 (130) 의 승객 좌석에 배치되어 있는 동안 차량 (130) 을 운전 중이다. 도 1 의 이동 디바이스 (110) 는 입력 사운드 내의 사용자의 스피치를 인식하는 스피치 인식 기능이 구비된 스마트폰일 수도 있다.
이동 디바이스 (110) 에서의 음성 보조 기능이 활성화되는 경우, 이동 디바이스 (110) 는 스피치 인식 기능을 사용하여 사용자 (120) 로부터의 여러 구두의 요청들, 명령들, 커맨드들 등에 응답할 수 있다. 예를 들어, 사용자 (120) 는 음성 보조 기능이 활성화된 경우 "수잔에게 전화해" 와 같은 명령을 말할 수도 있다. 응답으로, 이동 디바이스 (110) 는 그 명령을 인식하고 인식된 이름과 연관된 전화 번호를 사용하여 수잔에게 전화한다. 이동 디바이스 (110) 내의 음성 보조 기능은 이동 디바이스 (110) 의 버튼 또는 터치 스크린을 통한 입력에 응답하여 활성화될 수도 있다.
일부 실시형태들에서, 이동 디바이스 (110) 는 목표 키워드가 사용자 (120) 로부터의 입력 사운드에서 검출되는 경우 음성 보조 기능을 활성화하기 위한 미리 결정된 목표 키워드를 저장한다. 여기서 사용된 바와 같이, 용어 "목표 키워드" 는 이동 디바이스 (110) 내의 기능 또는 애플리케이션을 활성화하기 위해 사용될 수 있는 하나 이상의 단어들 또는 사운드의 임의의 디지털 또는 아날로그 표현을 지칭한다. 예를 들어, "어이 음성 보조" 또는 "음성 보조 시작" 과 같은 미리결정된 키워드는 음성 보조 기능을 활성화하기 위한 목표 키워드로서 이동 디바이스 (110) 내에 저장될 수도 있다. 입력 사운드가 사용자 (120) 로부터 수신되는 경우, 이동 디바이스 (110) 는 수신된 입력 사운드에 대해 스피치 인식 기능을 수행함으로써 입력 사운드 내의 목표 키워드를 검출할 수도 있다.
이동 디바이스 (110) 는 원하는 신뢰 레벨을 보장하기 위해 검출 임계값에 기초하여 목표 키워드를 검출하도록 구성될 수도 있다. 하나의 실시형태에서, 이동 디바이스 (110) 는 입력 사운드와 목표 키워드 사이의 유사도 (또는 키워드 매칭 스코어) 를 계산하고, 그 유사도를 검출 임계값과 비교한다. 유사도를 계산함에 있어서, 목표 키워드에 대한 미리 설정된 사운드 모델이 사용될 수도 있다. 입력 사운드와 목표 키워드 (또는 사운드 모델) 사이의 유사도가 검출 임계값을 초과하면, 이동 디바이스 (110) 는 입력 사운드 내의 목표 키워드를 검출하고 음성 보조 기능을 활성화한다. 한편, 유사도가 검출 임계값을 초과하지 않으면, 이동 디바이스 (110) 는 목표 키워드가 입력 사운드에서 검출되지 않는다고 결정한다.
검출 임계값은 입력 사운드 내의 목표 키워드를 검출하는 데 있어서의 정확성에 영향을 준다. 예를 들어, 검출 임계값이 너무 높으면, 이동 디바이스 (110) 는 목표 키워드를 포함하는 입력 사운드로부터 목표 키워드를 검출하지 않을 수도 있다. 그러한 경우에, 이동 디바이스 (110) 는 입력 사운드 내의 목표 키워드를 "미싱"하고, 목표 키워드에 대한 증가된 미스 (miss) 레이트를 초래할 수도 있다. 한편, 검출 임계값이 너무 낮으면, 이동 디바이스 (110) 는 목표 키워드를 포함하지 않는 입력 사운드에서 목표 키워드를 잘못 검출할 수도 있다. 그러한 경우에, 이동 디바이스는 음성 보조 기능을 잘못 활성화하고 (즉, "거짓 (false) 활성화"), 음성 보조 기능에 대한 증가된 거짓 활성화 레이트를 야기할 수도 있다.
일부 실시형태들에서, 검출 임계값은 미리결정된 값 (예를 들어, 디폴트 값) 으로 초기에 설정되고, 그 후 이동 디바이스 (110) 의 콘텍스트에서의 변경에 기초하여 조정된다. 도 1 을 참조하면, 이동 디바이스 (110) 는 사운드 센서, 글로벌 포지셔닝 시스템 (GPS), 및 가속도계와 같은 여러 센서들로부터의 콘텍스트 데이터에 기초하여 콘텍스트를 결정하도록 구성된다. 예를 들어, 이동 디바이스 (110) 의 사운드 센서는 입력 사운드로서 엔진 소리 및 도로 잡음을 포함하는 환경적 교통 잡음들을 캡쳐할 수도 있다. 또, GPS 및 가속도계는 이동 디바이스 (110) 의 로케이션, 속도, 및/또는 가속도를 모니터할 수도 있다. 센서들로부터의 콘텍스트 데이터에 기초하여, 이동 디바이스 (110) 는 챠량 내에 있는 것으로서 이동 디바이스 (110) 의 콘텍스트를 식별할 수도 있다.
이동 디바이스 (110) 의 콘텍스트가 차량 내에 있는 것으로 결정되는 경우, 도 1 의 이동 디바이스 (110) 의 사용자 (120) 는 손으로 이동 디바이스 (110) 를 물리적으로 동작시키는 것보다 음성 보조 기능을 사용하기가 더 쉽다는 것이 가정될 수도 있다. 이에 따라, 이동 디바이스 (110) 는 정상적이거나 식별되지 않은 콘텍스트들을 위해 미리 결정되는 디폴트 검출 임계값보다 낮은 값으로 검출 임계값을 조정할 수도 있다. 감소된 검출 임계값은 목표 키워드를 검출하는 가능성을 증가시켜 (예를 들어, 감소된 미스 레이트), 사용자가 손으로 이동 디바이스 (110) 를 동작시켜야 하는 가능성을 감소시킨다.
음성 보조 기능을 사용하는 가능성은 또한 일부 다른 콘텍스트들에서 높은 것으로 가정될 수도 있다. 도 2 는 본 개시의 하나의 실시형태에 따라, 이동 디바이스 (110) 의 콘텍스트가 사용자 (210) 가 깨어났을 것 같은 아침인 것으로 결정되는 경우 음성 보조 기능을 활성화하기 위한 검출 임계값을 조정하도록 구성된 이동 디바이스 (110) 를 도시한다. 이동 디바이스 (110) 는 사용자 (210) 근처에 배치되며, 예를 들어 도 2 에 도시된 바와 같이 침대 (220) 근처의 테이블 (230) 위에 놓여 있다.
이러한 예에서, 사용자 (210) 는 아침에 깨어났지만 여전히 침대 (220) 위에 앉아있다. 이 경우에, 이동 디바이스 (110) 내의 조명 센서는 이동 디바이스 (110) 의 밝은 환경을 나타내는 콘텍스트 데이터를 생성할 수도 있다. 또한, 이동 디바이스 (110) 내의 시계 유닛은 또한 콘텍스트 데이터로서 현재의 시간 (예를 들어, 7:00AM) 을 제공할 수도 있다. 일부 실시형태들에서, 현재의 시간은 그 또는 그녀가 통상 깨어나는 때를 나타내는 사용자 (210) 에 의해 이동 디바이스 (110) 에 설정된 시간과 비교될 수 있다. 또, 이동 디바이스 (110) 내의 사운드 센서는 또한 입력 사운드로서 작은 강도를 갖는 조용한 환경 사운드를 캡쳐하며, 이것이 콘텍스트 데이터로서 제공된다. 또한, 이동 디바이스 (110) 내의 GPS 유닛은 이동 디바이스 (110) 가 사용자 (210) 의 집에 있다고 결정할 수도 있고, 이것이 또한 콘텍스트 데이터로서 사용된다.
위에서 생성된 바와 같은 콘텍스트 데이터에 기초하여, 이동 디바이스 (110) 는 이동 디바이스 (110) 의 콘텍스트가 사용자 (210) 가 깨어났을 것 같은 아침인 것으로 결정할 수도 있다. 이러한 경우에, 이동 디바이스 (110) 의 사용자 (210) 는 손으로 이동 디바이스 (110) 를 물리적으로 동작시키는 것보다 음성 보조 기능을 사용하기가 더 쉽다고 가정될 수도 있다. 예를 들어, 사용자 (210) 는 침대 (220) 위에 앉아 있는 동안 이동 디바이스 (110) 의 음성 보조 기능을 사용하여 그 날의 날씨나 스케쥴을 체크하기를 원할 수도 있다. 이에 따라, 이동 디바이스 (110) 는 디폴트 검출 임계값보다 낮은 값으로 검출 임계값을 조정하여, 목표 키워드를 검출하는 가능성을 증가시키는 것 (예를 들어, 감소된 미스 레이트) 을 야기할 수도 있다.
대조적으로, 음성 보조 기능을 사용하는 가능성이 낮은 것으로 가정될 수도 있다. 도 3 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스 (110) 의 콘텍스트가 사용자 (310) 가 잠들어 있을 것 같은 밤인 것으로 결정되는 경우 (즉, 슬리핑 콘텍스트) 음성 보조 기능을 활성화하기 위한 검출 임계값을 조정하도록 구성된 이동 디바이스 (110) 를 도시한다. 도 3 에서, 이동 디바이스 (110) 는 사용자 (310) 근처에 배치되며, 예를 들어 침대 (320) 근처의 테이블 (330) 위에 놓여 있다.
도 3 의 예에서, 사용자 (310) 는 밤에 침대 (320) 에서 잠자고 있는 중이다. 이러한 경우에, 이동 디바이스 (110) 의 조명 센서는 이동 디바이스 (110) 의 어두운 환경을 검출하고 그 어두운 환경을 나타내는 콘텍스트 데이터를 제공할 수도 있다. 또한, 이동 디바이스 (110) 의 시계 유닛은 또한 콘텍스트 데이터로서 현재의 시간 (예를 들어, 3:00AM) 을 제공할 수도 있다. 일부 실시형태들에서, 현재의 시간은 사용자 (310) 가 통상적으로 잠들고 잠에서 깨어나는 때를 나타내는, 그 또는 그녀에 의해 이동 디바이스 (110) 에 설정된 시간 범위와 비교될 수 있다. 또, 이동 디바이스 (110) 의 사운드 센서는 또한 입력 사운드로서 작은 세기를 갖는 조용한 환경 사운드를 캡쳐하고 그것을 콘텍스트 데이터로서 제공할 수도 있다. 또한, 이동 디바이스 (110) 의 로케이션은 이동 디바이스 (110) 의 GPS 유닛에 의해 결정되고 (예를 들어, 사용자 (310) 의 집인) 콘텍스트 데이터로서 사용될 수 있다.
위에서 생성된 바와 같은 콘텍스트 데이터에 기초하여, 이동 디바이스 (110) 는 이동 디바이스 (110) 의 콘텍스트를 사용자 (310) 가 잠들었을 것 같은 밤인 것으로 결정할 수도 있다. 이러한 경우에, 이동 디바이스 (110) 의 사용자 (310) 는 사용자 (310) 가 낮 시간에 깨어 있을 때보다 음성 보조 기능을 덜 사용하기 쉽다는 것이 가정될 수도 있다. 이에 따라서, 이동 디바이스 (110) 는 검출 임계값을 디폴트 검출 임계값보다 높은 값으로 조정할 수도 있다. 증가된 검출 임계값은 음성 보조 기능을 잘못 활성화하는 가능성을 감소시키는 것 (예를 들어, 감소된 거짓 활성화 레이트) 을 야기한다.
음성 보조 기능을 사용하는 가능성은 또한 일부 다른 콘텍스트들에서 낮은 것으로 가정될 수도 있다. 도 4 는 본 개시의 하나의 실시형태에 따라, 이동 디바이스 (110) 의 콘텍스트가 가방 (410) 내인 것으로 결정되는 경우 음성 보조 기능을 활성화하기 위한 검출 임계값을 조정하도록 구성된 이동 디바이스 (110) 를 도시한다. 도시된 예에서, 이동 디바이스 (110) 는 (점선 원으로 표시된 바와 같이) 가방 (410) 내에 놓여 있지만, 옷 주머니, 지갑 등과 같은 임의의 다른 종류의 컨테이너들 (containers) 내에 놓여 있을 수도 있다.
도 4 의 예에서, 여러 센서들이 이동 디바이스 (110) 의 콘텍스트를 나타내는 콘텍스트 데이터를 생성하기 위해 사용된다. 예를 들어, 이동 디바이스 (110) 의 조명 세서는 가방 (410) 내의 이동 디바이스 (110) 의 어두운 환경을 검출하고 그 어두운 환경을 나타내는 콘텍스트 데이터를 생성할 수도 있다. 또한, 근접 센서에 대해 가깝게 위치된 물체들을 감지하도록 구성되는, 이동 디바이스 (110) 의 근접 센서는 물체가 이동 디바이스 (110) 에 대해 가깝게 존재하는 것을 나타내는 콘텍스트 데이터를 생성하기 위해 사용될 수도 있다. 이러한 예에서, 근접 센서는 가까운 물체들, 예를 들어 가방 (410) 의 내부 표면의 존재를 검출할 수도 있다. 또한, 이동 디바이스 (110) 의 사운드 센서는 입력으로서 이동 디바이스 (110) 와 가방 (410) 의 둘러싼 내부 표면 사이의 마찰에 의해 야기될 수도 있는 스치는 소리나 두드리는 소리를 캡쳐할 수도 있다. 캡쳐된 입력 사운드는 또한 이동 디바이스 (110) 의 콘텍스트를 결정하는데 있어서 콘텍스트 데이터로서 사용된다.
위에서 생성된 콘텍스트 데이터에 기초하여, 이동 디바이스 (110) 는 콘텍스트를 가방 (410) 과 같은 컨테이너 내인 것으로서 결정할 수도 있다. 이러한 콘텍스트에서, 도 4 의 이동 디바이스 (110) 의 사용자는 이동 디바이스 (110) 가 그러한 컨테이너 (예를 들어, 가방 (410)) 밖에 배치되는 것보다 음성 보조 기능을 덜 사용하기 쉽다고 가정될 수도 있다. 이에 따라, 이동 디바이스 (110) 는 디폴트 검출 임계값보다 높은 값으로 검출 임계값을 조정할 수도 있다. 증가된 검출 임계값은 음성 보조 기능을 잘못 활성화하는 가능성을 감소시키는 것 (예를 들어, 감소된 거짓 활성화 레이트) 을 야기한다.
일부 실시형태들에서, 이동 디바이스 (110) 는 이동 디바이스 (110) 의 동작 상태가 아이들 상태로부터 활성 상태로 변경되는 콘텍스트를 검출할 수도 있다. 도 5 는 본 개시의 하나의 실시형태에 따라, 텍스트 메시지를 수신하는 콘텍스트에서 음성 보조 기능을 활성화하기 위한 검출 임계값을 조정하도록 구성된 이동 디바이스 (110) 를 도시한다. 초기에, 이동 디바이스 (110) 는 애플리케이션 프로세서가 이동 디바이스 (110) 를 위해 전력을 보존하는 비활성 상태에 있을 수도 있는 아이들 상태에 있을 수도 있다. 이동 디바이스 (110) 가 아이들 상태 동안 외부 네트워크로부터 텍스트 메시지를 수신하는 경우, 애플리케이션 프로세서가 활성화되어 메시지 애플리케이션을 실행하고 이동 디바이스 (110) 의 디스플레이 스크린 (510) 상에 전송자 (즉, "존 도우") 및 텍스트 메시지 (즉, "안녕, 지금 통화할 수 있니?") 에 대한 통지를 출력할 수도 있다.
이동 디바이스 (110) 의 동작 상태는 또한 이동 디바이스 (110) 가 이메일 메시지, 멀티미디어 메시지, 푸시 통지 등을 수신하는 경우 아이들 상태로부터 활성 상태로 변경될 수도 있다. 또, 이동 디바이스 (110) 는 또한 경보 이벤트 (예를 들어, 타이머 알람) 에 응답하여 아이들 상태로부터 활성 상태로 변경될 수도 있다.
이동 디바이스 (110) 또는 애플리케이션 프로세서의 동작 상태가 아이들 상태로부터 활성 상태로 변경되는 경우, 이동 디바이스 (110) 의 사용자는 동작을 수행하기 위해 음성 보조 기능을 사용하기가 더 쉽다. 도 5 의 예에서, 사용자는 음성 보조 기능을 통해 텍스트 메시지의 전송자에게 전화하기 위해 이동 디바이스 (110) 를 사용할 수도 있다. 이에 따라, 음성 보조 기능을 사용하는 가능성은 이동 디바이스 (110) 가 아이들 상태에 있을 때보다 높은 것으로 가정될 수도 있다. 따라서, 이동 디바이스 (110) 가 아이들 상태로부터 활성 상태로의 동작 상태 변경을 검출하는 경우, 그것은 검출 임계값을 디폴트 검출 임계값보다 낮게 w조정한다. 감소된 검출 임계값은 목표 키워드를 검출하는 가능성을 증가시킨다 (예를 들어, 감소된 미스 레이트).
도 6 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스 (110) 의 콘텍스트에 기초하여 목표 키워드를 검출하기 위한 임계값을 조정함으로써 입력 사운드 스트림으로부터 목표 키워드를 검출하도록 구성된 이동 디바이스 (110) 의 블록도를 도시한다. 여기서 사용된 바와 같이, 용어 "사운드 스트림" 은 하나 이상의 사운드 신호들 또는 사운드 데이터의 시퀀스를 지칭한다. 도 6 에 도시된 바와 같이, 이동 디바이스 (110) 는 센서 유닛 (610), I/O (입력/출력) 유닛 (620), 저장 유닛 (630), 통신 유닛 (640), 및 프로세서 (650) 를 포함할 수도 있다. 이동 디바이스 (110) 는 셀룰러 전화, 스마트폰, 랩톱 컴퓨터, 태블릿 개인용 컴퓨터, 게이밍 디바이스, 멀티미디어 플레이어 등과 같은 사운드 캡쳐 및 프로세싱 능력이 구비된 임의의 적합한 디바이스일 수도 있다.
프로세서 (650) 는 디지털 신호 프로세서 (DSP) (680), 음성 보조 유닛 (688), 시계 유닛 (690), 및 스케쥴 유닛 (692) 를 포함할 수도 있고, 이동 디바이스 (110) 를 관리하고 동작시키기 위한 애플리케이션 프로세서 또는 중앙 프로세싱 유닛 (CPU) 일 수도 있다. 시계 유닛 (690) 은 시계 기능, 타이머 기능 등을 구현한다. 예를 들어, 시계 유닛 (690) 은 이동 디바이스 (110) 의 사용자에게 현재의 시간을 출력하거나 I/O 유닛 (620) 의 디스플레이 유닛 및/또는 스피커 유닛을 통해 설정된 시간이 도달되면 사용자에게 통지할 수도 있다. 또한, 스케쥴 유닛 (692) 은 사용자에 의해 입력되는 스케쥴들 (예를 들어, 약속들, 이베트들 등) 을 저장 및 관리한다. 스케쥴 유닛 (692) 은 저장된 스케쥴들의 시간들의 추적을 계속하고 I/O 유닛 (620) 을 통해 사용자에게 연관된 통지들을 제공할 수도 있다.
DSP (680) 는 스피치 검출기 (682), 임계값 조정 유닛 (684), 및 음성 활성화 유닛 (686) 을 포함할 수도 있다. 하나의 실시형태에서, DSP (680) 는 사운드 스트림을 프로세싱하는데 있어서 전력 소비를 감소시키는 저전력 프로세서이다. 이러한 구성에서, 임계값 조정 유닛 (684) 은 이동 디바이스 (110) 의 콘텍스트에 기초하여 검출 임계값을 조정하도록 구성된다. 음성 활성화 유닛 (686) 은 조정된 검출 임계값에 기초하여 목표 키워드가 사운드 스트림에서 검출되는 경우 음성 활성화 유닛 (686) 을 활성화하도록 구성된다.
센서 유닛 (610) 은 사운드 센서 (660) 및 콘텍스트 센서 (670) 을 포함할 수도 있다. 사운드 센서 (660) 는 입력 사운드 스트림을 수신하고 DSP (680) 내의 스피치 검출기 (682) 및 임계값 조정 유닛 (684) 로 제공하도록 구성된다. 일부 실시형태들에서, 사운드 센서 (660) 는 수신된 입력 사운드 스트림이 임계 사운드 세기보다 세기가 큰 경우 DSP (680) 내의 스피치 검출기 (682) 및 임계값 조정 유닛 (684) 을 활성화한다. 활성화 시, 입력 사운드 스트림은 또한 사운드 센서 (660) 로부터 스피치 검출기 (682) 및 임계값 조정 유닛 (684) 으로 제공된다.
센서 유닛 (610) 내의 콘텍스트 센서 (670) 는 이동 디바이스 (110) 의 콘텍스트를 나타내는 센서 데이터를 생성하는 다양한 센서들을 포함할 수도 있다. 센서 데이터는 그 후 임계값 조정 유닛 (684) 으로 제공된다. 하나의 실시형태에서, 콘텍스트 센서 (670) 는 또한 센서 데이터가 제공되기 전에 임계값 조정 유닛 (684) 을 활성화할 수도 있다. 사운드 센서 (660) 및 콘텍스트 센서 (670) 는 이하에 도 7 을 참조하여 더욱 상세히 기술될 것이다. 이하에 도 8 을 참조하여 더욱 상세히 기술되는 바와 같이, 통신 유닛 (640), 시계 유닛 (690), 및 스케쥴 유닛 (692) 은 임계값 조정 유닛 (684) 에게 아이들 상테로부터 활성 상태로의 프로세서 (650) 의 동작 상태에서의 변경을 나타내는 통지를 제공하도록 구성될 수도 있다.
임계값 조정 유닛 (684) 은 집합적으로 콘텍스트 데이터로서 지칭될 수도 있는 수신된 입력 사운드 스트림, 센서 데이터, 및/또는 하나 이상의 통지들에 기초하여 이동 디바이스 (110) 의 콘텍스트를 결정하도록 구성된다. 이동 디바이스 (110) 의 콘텍스트를 결정한 후, 임계값 조정 유닛 (684) 은 결정된 콘텍스트에 따라 검출 임계값을 조정한다. 예를 들어, 이동 디바이스 (110) 의 콘텍스트가 음성 보조 유닛 (688) 이 (예를 들어, 도 1, 도 2, 및 도 5 를 참조하여 위에 기술된 바와 같은 콘텍스트들에서) 사용될 것 같다고 나타내는 경우, 임계값 조정 유닛 (684) 은 검출 임계값을 낮게, 예를 들어 디폴트 검출 임계값보다 낮게 조정한다. 한편, 이동 디바이스 (110) 의 콘텍스트는 음성 보조 유닛 (688) 이 (예를 들어, 도 3 및 도 4 를 참조하여 위에 기술된 바와 같은 콘텍스트들에서) 사용될 것 같지 않다고 나타내는 경우, 임계값 조정 유닛 (684) 은 검출 임계값을 높게, 예를 들어 디폴트 검출 임계값보다 높게 조정한다.
일부 실시형태들에서, 검출 임계값은 상이한 콘텍스트들에 대해 미리 결정되고 이동 디바이스 (110) 의 저장 유닛 (630) 에 저장될 수도 있다. 예를 들어, 콘텍스트들 및 연관된 검출 임계값들은 룩업 테이블 또는 데이터베이스 구조로서 저장될 수도 있다. 룩업 테이블의 경우에, 임계값 조정 유닛 (684) 은 연관된 검출 임계값을 획득하기 위해 인덱스로서 결정된 콘텍스트를 사용하는 테이블을 액세스할 수도 있다. 임계값 조정 유닛 (684) 은 그 후 음성 활성화 유닛 (686) 으로 조정된 검출 임계값으로서 획득된 검출 임계값을 제공한다. 이동 디바이스 (110) 의 저장 유닛 (630) 은 RAM (랜덤 액세스 메모리), ROM (리드 온리 메모리), EEPROM (전기적으로 소거가능 프로그램가능 리드 온리 메모리), 플래시 메모리, 또는 SSD (고체 상태 드라이브) 와 같은 임의의 적합한 기억장치 또는 메모리 디바이스들을 사용하여 구현될 수도 있다.
목표 키워드를 검출하는데 사용하기 위해, 저장 유닛 (630) 은 또한 목표 키워드를 저장할 수도 있다. 하나의 실시형태에서, 목표 키워드는 단음들 (phones), 음소들, 또는 이들의 서브 유닛들과 같은 복수의 기본 사운드 유닛들로 분할될 수도 있고, 목표 키워드를 표현하는 복수의 부분들은 기본 사운드 유닛들에 기초하여 생성될 수도 있다. 목표 키워드의 각 부분은 그 후 은닉된 마르코프 모델 (HMM), 세미-마르코프 모델 (SMM), 또는 이들의 조합과 같은 마르코프 체인 모델 하의 상태와 연관된다. 이러한 경우에, 저장 유닛 (630) 은 목표 키워드의 복수의 부분들과 연관된 복수의 상태들에 대한 상태 정보를 저장할 수도 있고, 이것은 그 자신을 포함하는 상태들 각각으로부터 다음의 상태로의 천이 정보를 포함한다.
DSP (680) 내의 스피치 검출기 (682) 는, 활성화될 때, 사운드 센서 (660) 로부터 입력 사운드 스트림을 수신한다. 하나의 실시형태에서, 스피치 검출기 (682) 는 수신된 입력 사운드 스트림으로부터 복수의 사운드 특징들을 추출하고, 그 추출된 사운드 특징들이 가우시안 혼합 모델 (GMM) 기반 분류기, 인공 신경망, HMM, 그래픽 모델, 및 서포트 벡터 머신 (SVM) 과 같은 임의의 적합한 사운드 분류 방법을 사용하여 인간 스피치와 같은 관심의 사운드를 나타내는지 여부를 결정한다. 수신된 입력 사운드 스트림이 관심의 사운드인 것으로 결정되는 경우, 스피치 검출기 (682) 는 음성 활성화 유닛 (686) 을 활성화하고 수신된 입력 사운드 스트림은 음성 활성화 유닛 (686) 으로 제공된다. 일부 다른 실시형태들에서, 스피치 검출기 (682) 는 DSP (680) 에서 생략될 수도 있다. 이러한 경우, 수신된 입력 사운드 스트림이 임계 세기보다 세기가 큰 경우, 사운드 센서 (660) 는 음성 활성화 유닛 (686) 을 활성화하고, 음성 활성화 유닛 (686) 으로 직접 수신된 입력 사운드 스트림을 제공한다.
상술된 바와 같이, 음성 활성화 유닛 (686) 은 임계값 조정 유닛 (684) 및 스피치 검출기 (682) 로부터 조정된 검출 임계값 및 입력 사운드 스트림이 제공된다. 조정된 검출 임계값 및 입력 사운드 스트림을 수신했을 때, 음성 활성화 유닛 (686) 은 검출 임계값에 기초하여 입력 사운드 스트림으로부터 목표 키워드를 검출한다. 입력 사운드 스트림이 수신되자 마자, 음성 활성화 유닛 (686) 은 입력 사운드 스트림으로부터 복수의 사운드 특징들을 순차적으로 추출할 수도 있다. 또한, 음성 활성화 유닛 (686) 은 복수의 추출된 사운드 특징들 각각을 프로세싱하고, 저장 유닛 (630) 으로부터 목표 키워드에 대한 천이 정보 및 복수의 상태들을 포함하는 상태 정보를 획득할 수도 있다. 각각의 프로세싱된 사운드 특징에 대해, GMM, 신경망, 및 SVM 과 같은 임의의 적합한 확률 모델을 사용함으로써 상태들 각각에 대해 관찰 스코어가 결정될 수도 있다.
천이 정보로부터, 음성 활성화 유닛 (686) 은 목표 키워드에 대해 가능한 복수의 상태 시퀀스들에서 상태들 각각으로부터 다음의 상태로의 천이 스코어들을 획득할 수도 있다. 관찰 스코어들을 결정하고 천이 스코어들을 획득한 후, 음성 활성화 유닛 (686) 은 가능한 상태 시퀀스들에 대한 스코어들을 결정한다. 하나의 실시형태에서, 결정된 스코어들 중 가장 큰 스코어가 프로세싱된 사운드 특징에 대해 키워드 스코어로서 사용될 수도 있다. 프로세싱된 사운드 특징에 대한 키워드 스코어가 (임계 키워드 스코어로서도 지칭될 수도 있는) 검출 임계값보다 큰 경우, 음성 활성화 유닛 (686) 은 목표 키워드로서 입력 사운드 스트림을 검출한다. 목표 키워드를 검출했을 때, 음성 활성화 유닛 (686) 은 목표 키워드와 연관되는, 음성 보조 유닛 (688) 을 턴 온하는 활성화 신호를 생성 및 송신한다.
음성 보조 유닛 (688) 은 음성 활성화 유닛 (686) 으로부터의 활성화 신호에 응답하여 활성화된다. 일단 활성화되면, 음성 보조 유닛 (688) 은 I/O 유닛 (620) 의 디스플레이 유닛 상에 및/또는 스피커 유닛을 통해 "무엇을 도와드릴까요?" 와 같은 메시지를 출력할 수도 있다. 응답으로, 사용자는 이동 디바이스 (110) 의 여러 연관된 기능들을 활성화하기 위해 음성 커맨드들을 말할 수도 있다. 예를 들어, 인터넷 검색을 위한 음성 커맨드가 수신되는 경우, 음성 보조 유닛 (688) 은 그 음성 커맨드를 검색 커맨드로서 인식하고, 외부 네트워크 (694) 를 통해 통신 유닛 (640) 을 통해 웹 검색을 수행할 수도 있다. 도시된 실시형태는 목표 키워드를 검출하는 것에 응답하여 음성 보조 유닛 (688) 을 활성화하지만, 그것은 또한 연관된 목표 키워드를 검출하는 것에 응답하여 임의의 다른 애플리케이션들 또는 기능들을 활성화할 수도 있다.
도 7 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스 (110) 의 콘텍스트를 결정함에 있어서 사용하기 위한 사운드 스트림 및 센서 데이터를 출력하도록 구성된 센서 유닛 (610) 의 더욱 상세한 블록도를 도시한다. 사운드 센서 (660) 는 입력 사운드 스트림을 수신하고, 그것은 그 후 DSP (680) 내의 스피치 검출기 (682) 로 제공된다. 수신된 입력 사운드 스트림은 또한 콘텍스트 데이터로서 DSP (680) 내의 임계값 조정 유닛 (684) 으로 제공된다. 사운드 센서 (660) 는 입력 사운드 스트림을 수신, 캡쳐, 감지, 및/또는 검출하기 위해 사용될 수 있는 하나 이상의 마이크로폰들 또는 임의의 다른 타입들의 사운드 센서들을 포함할 수도 있다. 또한, 사운드 센서 (660) 는 그러한 기능들을 수행하는 임의의 적합한 소프트웨어 및/또는 하드웨어를 채용할 수도 있다. 하나의 실시형태에서, 사운드 센서 (660) 는 듀티 사이클에 따라 주기적으로 입력 사운드 스트림을 수신하도록 구성될 수도 있다.
도 7 에 도시된 바와 같이, 콘텍스트 센서 (670) 는 로케이션 센서 (710), 가속도계 (720), 근접 센서 (730), 및 조명 센서 (740) 을 포함할 수도 있다. GPS 디바이스에 의해 구현될 수도 있는 로케이션 센서 (710) 는 로케이션, 방향, 이동 디바이스 (110) 가 이동하고 있는 속도 등과 같은 이동 디바이스 (110) 와 연관된 센서 데이터를 생성하도록 구성된다. 가속도계 (720) 는 이동 디바이스 (110) 의 가속도, 배향 등을 나타내는 센서 데이터를 생성한다.
근접 센서 (730) 는 예를 들어 자기적, 광학적, 용량적 기술들을 사용하여 이동 디바이스 (110) 에 대해 가깝게 위치된 물체를 검출하도록 구성된다. 하나의 근접 센서 (730) 가 도 7 에서 도시되지만, 콘텍스트 센서 (670) 는 (예를 들어, 이동 디바이스 (110) 의 전방, 후방, 우측 및 좌측에서) 이동 디바이스 (110) 의 다수의 로케이션들에서 물체들을 검출하기 위해 임의의 적합한 수의 근접 센서들을 포함할 수도 있다. 조명 센서 (740) 는 이동 디바이스 (110) 의 주변의 조명 조건, 즉 밝기를 감지하도록 구성된 광 검출기이다. 로케이션 센서 (710), 가속도계 (720), 근접 센서 (730), 및 조명 센서 (740) 에 의해 생성된 센서 데이터는 임계값 조정 유닛 (684) 으로 제공되고 이동 디바이스 (110) 의 콘텍스트를 결정하는데 있어서 콘텍스트 데이터로서 사용된다.
도 8 은 본 개시의 하나의 실시형태에 따라, 이동 디바이스 (110) 의 콘텍스트를 결정함으로써 음성 보조 유닛 (688) 을 활성화하기 위한 검출 임계값을 조정하도록 구성된 임계값 조정 유닛 (684) 의 블록도를 도시한다. 임계값 조정 유닛 (684) 은 콘텍스트 추론 유닛 (810) 및 임계값 결정 유닛 (820) 을 포함할 수도 있다. 콘텍스트 추론 유닛 (810) 은 이동 디바이스 (110) 의 콘텍스트를 결정하고, 임계값 결정 유닛 (820) 은 이동 디바이스 (110) 의 콘텍스트에 기초하여 검출 임계값을 조정한다. 조정된 검출 임계값은 그 후 입력 사운드 스트림으로부터 목표 키워드를 검출하는데 사용하기 위해 음성 활성화 유닛 (686) 으로 제공된다.
이동 디바이스 (110) 의 콘텍스트를 결정하는 것을 위해, 콘텍스트 추론 유닛 (810) 은 사운드 센서 (660) 로부터 입력 사운드 스트림을 그리고 콘텍스트 센서 (670) 로부터 센서 데이터를 수신한다. 콘텍스트 추론 유닛 (810) 은 또한 시계 유닛 (690), 스케쥴 유닛 (692), 및 통신 유닛 (640) 으로부터 하나 이상의 통지들을 수신하도록 구성된다. 또한, 시계 유닛 (690) 은 콘텍스트 추론 유닛 (810) 으로 현재의 시간을 제공할 수도 있다. 입력 사운드 스트림, 센서 데이터, 통지들, 및 현재의 시간은 이동 디바이스 (110) 의 콘텍스트를 결정하는데 있어서 콘텍스트 데이터로서 콘텍스트 추론 유닛 (810) 에 의해 사용된다.
위에서 도 6 을 참조하여 기술된 바와 같이, 콘텍스트 추론 유닛 (810) 으로 제공된 통지들은 아이들 상태로부터 활성 상태로의 프로세서 (650) 의 동작 상태에서의 변경과 같은, 이동 디바이스의 상태 정보를 나타낼 수도 있다. 예를 들어, 통신 유닛 (640) 은 도 6 의 네트워크 (694) 를 통해 전자 메시지를 수신할 때 그러한 통지를 제공할 수도 있다. 전자 메시지는 이메일 메시지, 텍스트 메시지, 멀티미디어 메시지, 푸시 통지 등과 같은 네트워크 (694) 를 통해 수신된 임의의 메시지 또는 통지를 포함할 수도 있다. 시계 유닛 (690) 은 특정된 시간에 사용자에게 경보를 발하도록 구성될 수도 있다 (예를 들어, 알람). 그 특정된 시간이 도달되면, 시계 유닛 (690) 은 프로세서 (650) 를 활성화하고, 프로세서 (650) 의 동작 상태에서의 변경의 통지가 콘텍스트 추론 유닛 (810) 으로 제공된다. 또한, 스케쥴 유닛 (692) 은 이동 디바이스 (110) 에 저장된 스케듈들 또는 이벤트들의 시간들의 추적을 계속하고, 그러한 시간들에 또는 그러한 시간들의 미리 결정된 시간 전에 콘텍스트 추론 유닛 (810) 에게 통지를 제공할 수도 있다.
콘텍스트 추론 유닛 (810) 은 수신된 콘텍스트 데이터를 분석하고, 이동 디바이스 (110) 의 콘텍스트를 결정한다. 이동 디바이스 (110) 의 콘텍스트를 결정함에 있어서, 콘텍스트 추론 유닛 (810) 은 입력 사운드, 센서 데이터, 통지들, 현재의 시간, 또는 이들의 임의의 조합으로부터 콘텍스트를 추론할 수도 있다. 예를 들어, 이동 디바이스 (110) 의 콘텍스트는 위에서 도 1 을 참조하여 기술된 바와 같이, 이동 디바이스 (110) 의 로케이션, 속도, 및/또는 가속도를 포함할 수도 있는 입력 사운드 스트림 및 센서 데이터에 기초하여 차량 내에 있는 것으로 추론될 수도 있다.
일부 실시형태들에서, 이동 디바이스 (110) 의 여러 콘텍스트들은 그 콘텍스트들을 콘텍스트 추론 유닛 (810) 에 의해 수신될 수 있는 콘텍스트 데이터와 연관시키는 콘텍스트 데이터베이스에 따라 미리 결정되고 저장될 수도 있다. 콘텍스트 데이터베이스 내의 미리 결정된 콘텍스트들 중에서, 콘텍스트 추론 유닛 (810) 은 이동 디바이스 (110) 의 현재의 콘텍스트로서 수신된 콘텍스트 데이터에 대응하는 콘텍스트를 선택할 수도 있다. 콘텍스트 추론 유닛 (810) 은 그 후 선택된 콘텍스트에 대한 콘텍스트 표시자를 생성하고, 임계값 결정 유닛 (820) 으로 그 콘텍스트 표시자를 제공한다.
콘텍스트 추론 유닛 (810) 으로부터 콘텍스트 표시자를 수신했을 때, 임계값 결정 유닛 (820) 은 그 수신된 콘텍스트 표시자에 기초하여 검출 임계값을 조정한다. 일부 실시형태들에서, 검출 임계값에 대한 값들은 미리 결정된 콘텍스트들에 대해 미리 설정되고, 저장 유닛 (630) 에 저장될 수도 있다. 임계값 결정 유닛 (820) 은 콘텍스트 표시자에 의해 식별된 콘텍스트와 연관된 검출 임계값을 획득하기 위해 저장 유닛 (630) 에 액세스할 수도 있다.
하나의 실시형태에서, 검출 임계값은 콘텍스트들 각각에서 음성 보조 유닛 (688) 을 사용하는 가능성에 기초하여 설정될 수도 있다. 예를 들어, 음성 보조 유닛 (688) 을 사용하는 가능성이 (예를 들어 도 1, 도 2 및 도 5 를 참조하여 상술된 바와 같은 콘텍스트들에서) 높으면, 임계값 조정 유닛 (684) 은 (예를 들어 정상적이거나 식별되지 않은 콘텍스트들에 대해 미리 결정되는 디폴트 검출 임계값보다 낮도록) 검출 임계값을 감소시킬 수도 있다. 한편, 음성 보조 유닛 (688) 을 사용하는 가능성이 (예를 들어, 도 3 및 도 4 를 참조하여 상술된 바와 같은 콘텍스트들에서) 낮으면, 임계값 조정 유닛 (684) 은 (예를 들어 디폴트 검출 임계값보다 높도록) 검출 임계값을 증가시킬 수도 있다. 결과로서, 검출 임계값은 이동 디바이스 (110) 의 결정된 콘텍스트에서 음성 보조 유닛 (688) 을 사용하는 가능성과 연관하여 조정될 수 있다. 조정된 검출 임계값은 그 후 음성 보조 유닛 (688) 을 활성화하기 위한 목표 키워드를 검출하는데 사용되기 위해 음성 보조 유닛 (688) 으로 제공된다.
도 9 는 본 개시의 하나의 실시형태에 따라, 이동 디바이스 (110) 의 콘텍스트를 추론함으로써 음성 보조 유닛 (688) 을 활성화하기 위한 검출 임계값을 결정하기 위한, 이동 디바이스 (110) 의 임계값 조정 유닛 (684) 에서 수행되는 방법 (900) 의 플로우챠트이다. 910 에서, 임계값 조정 유닛 (684) 내의 콘텍스트 추론 유닛 (810) 은 콘텍스트 데이터를 수신한다. 920 에서, 수신된 콘텍스트 데이터에 기초하여, 이동 디바이스 (110) 의 콘텍스트가 콘텍스트 추론 유닛 (810) 에서 결정될 수도 있다. 콘텍스트 추론 유닛 (810) 은 또한 결정된 콘텍스트와 연관된 콘텍스트 표지자를 생성할 수도 있고, 그것은 임계값 결정 유닛 (820) 으로 제공된다.
임계값 결정 유닛 (820) 은, 930 에서, 콘텍스트 추론 유닛 (810) 으로부터 수신된 콘텍스트 표시자에 의해 식별되는 이동 디바이스 (110) 의 콘텍스트에 따라 검출 임계값을 조정한다. 검출 임계값을 조정하기 위해, 임계값 결정 유닛 (820) 은 이동 디바이스 (110) 의 콘텍스트와 연관된 검출 임계값을 획득하기 위해 저장 유닛 (630) 에 액세스할 수도 있다. 일단 검출 임계값이 조정되면, 임계값 결정 유닛 (820) 은 940 에서 음성 활성화 유닛 (686) 으로 조정된 검출 임계값을 제공할 수도 있다. 조정된 검출 임계값은 음성 활성화 유닛 (686) 에 의해 목표 키워드를 검출하는데 있어서 사용된다.
일부 실시형태들에서, 조정된 검출 임계값은 디폴트 검출 임계값으로 재설정될 수도 있다. 도 10 은 본 개시의 하나의 실시형태에 따라, 조정된 검출 임계값을 생성하고, 그 검출 임계값을 특정된 시간 주기 후에 미리 결정된 검출 임계값으로 재설정하기 위한, 이동 디바이스 (110) 의 임계값 조정 유닛 (684) 에서 수행되는 방법 (1000) 의 플로우챠트이다. 도 9 를 참조하여 기술된 바와 동일한 방식으로, 콘텍스트 추론 유닛 (810) 은 910 에서 콘텍스트 데이터를 수신하고, 920 에서 이동 디바이스 (110) 의 콘텍스트를 결정한다. 임계값 결정 유닛 (820) 은 930 에서 그 콘텍스트에 기초하여 검출 임계값을 조정하고, 940 에서 음성 활성화 유닛 (686) 으로 조정된 검출 임계값을 제공한다.
특정된 시간 주기에 대한 타이머가, 1010 에서, 예를 들어 프로세서 (650) 내의 시계 유닛 (690) 을 사용함으로써 설정될 수도 있다. 그 시간 주기는 미리 결정될 수도 있다. 임계값 조정 유닛 (684) 은 1020 에서 그 타이머를 모니터하고 특정된 시간 주기가 경과했는지 여부를 결정한다. 대안적으로, 시계 유닛 (690) 은 특정되 시간 주기가 경과했는지 여부를 검출하고 임계값 조정 유닛 (684) 에게 그 시간 주기가 경과한 때를 통지할 수도 있다. 특정된 시간 주기가 경과한 경우, 임계값 조정 유닛 (684) 은 1030 에서 검출 임계값을 미리 결정된 검출 임계값 (예를 들어, 디폴트 검출 임계값) 으로 재설정할 수도 있다. 다르게는, 특정된 시간 주기가 경과하지 않은 경우, 방법 (1000) 은 특정된 시간 주기가 경과했는지 여부를 결정하기 위해 1020 으로 리턴할 수도 있다.
도 11 은 본 개시의 하나의 실시형태에 따라, 조정된 검출 임계값에 기초하여 입력 사운드 스트림 내의 목표 키워드를 검출함으로써 음성 보조 유닛 (688) 을 활성하도록 구성된 음성 활성화 유닛 (686) 의 블록도를 도시한다. 음성 활성화 유닛 (686) 은 특징 추출기 (1110), 키워드 스코어 계산 유닛 (1120), 및 키워드 검출 유닛 (1130) 을 포함할 수도 있다. 음성 활성화 유닛 (686) 내의 키워드 검출 유닛 (1130) 이 입력 사운드 스트림으로부터 목표 키워드를 겸출하는 경우, 그것은 음성 보조 유닛 (688) 을 턴 온하기 위해 활성화 신호를 생성한다.
스피치 검출기 (682) 가 입력 사운드 스트림이 인간 스피치인 것으로서 결정하는 경우, 특징 추출기 (1110) 는 입력 사운드 스트림을 수신하고, 입력 사운드 스트림으로부터 하나 이상의 사운드 특징들을 추출한다. 일부 실시형태들에서, 특징 추출기 (1110) 는 동일한 시간 주기의 복수의 순차적인 프레임들로 입력 사운드 스트림을 세그멘팅한다. 예를 들어, 입력 사운드 스트림은 수신되고 10 ms 의 프레임들로 순차적으로 세그멘팅될 수도 있다. 이러한 경우에, 특징 추출기 (1110) 는 프레임들 각각으로부터 사운드 특징을 추출한다. 하나의 실시형태에서, 특징 추출기 (1110) 는 MFCC (Mel-frequency cepstral coefficients) 방법과 같은 임의의 적합한 특징 추출을 사용하여 프레임들로부터 사운드 특징들을 추출할 수도 있다. 예를 들어, MFCC 방법의 경우에, n-차원 벡터의 성분들은 세그멘팅된 프레임들 각각으로부터 계산되고, 그 벡터가 사운드 특징으로서 사용된다.
추출된 사운드 특징들은 특징 추출기 (1110) 로부터 키워드 스코어 계산 유닛 (1120) 으로 제공된다. 각각의 사운드 특징을 수신했을 때, 키워드 스코어 계산 유닛 (1120) 은 사운드 특징에 대한 키워드 스코어를 결정한다. 키워드 스코어는 도 6 을 참조하여 상술된 바와 같은 방식으로 결정될 수도 있다. 결정된 키워드 스코어는 키워드 검출 유닛 (1130) 으로 제공된다.
키워드 검출 유닛 (1130) 은 키워드 스코어 계산 유닛 (1120) 으로부터 키워드 스코어를 수신한다. 키워드 검출 유닛 (1130) 은 또한 임계값 조정 유닛 (684) 으로부터 조정된 검출 임계값을 수신한다. 수신된 키워드 스코어는 그 후 조정된 검출 임계값과 비교된다. 키워드 스코어가 조정된 임계값 스코어를 초과하는 경우, 키워드 검출 유닛 (1130) 은 음성 보조 유닛 (688) 을 턴온하기 위해 활성화 신호를 생성한다. 이러한 경우, 키워드 검출 유닛 (1130) 은 다음의 추출된 사운드 특징을 위해 키워드 스코어 계산 유닛 (1120) 에 의해 결정되는 후속적인 키워드 스코어를 수신하고, 그 후속적인 키워드 스코어가 조정된 검출 임계값을 초과하는지 여부를 결정할 수도 있다.
도 12 는 본 개시의 하나의 실시형태에 따라, 조정된 검출 임계값에 기초하여 입력 사운드 스트림 내의 목표 키워드를 검출함으로써 음성 보조 유닛 (688) 을 활성하기 위한, 음성 활성화 유닛 (686) 에서 수행되는 방법 (1200) 의 플로우챠트이다. 방법 (1200) 은 1210 에서 시작하고, 음성 활성화 유닛 (686) 내의 특징 추출기 (1110) 가 스피치 검출기 (682) 로부터 입력 사운드 스트림을 수신하는 1220 으로 진행한다. 특징 추출기 (1110) 는 1230 에서 입력 사운드 스트림으로부터 사운드 특징을 추출할 수도 있다. 추출된 사운드 특징은 음성 활성화 유닛 (686) 내의 키워드 스코어 계산 유닛 (1120) 으로 제공된다.
하나의 실시형태에서, 입력 사운드 스트림은 복수의 프레임들로 순차적으로 세그멘팅되고, 그것들로부터 복수의 사운드 특징들이 추출된다. 이러한 경우에, 복수의 사운드 특징들은 키워드 스코어 계산 유닛 (1120) 으로 순차적으로 제공된다. 특징 추출기 (1110) 로부터 각 사운드 특징을 수신했을 때, 키워드 스코어 계산 유닛 (1120) 은 1240 에서 그 사운드 특징에 대해 키워드 스코어를 결정할 수도 있다. 도 6 을 참조하여 상술된 바와 같이, 키워드 스코어는 마르코프 체인 모델과 같은 임의의 적합한 스피치 인식 기술을 사용하여 결정될 수도 있다.
도시된 방법 (1200) 에서, 키워드 검출 유닛 (1130) 은 1250 에서 임계값 조정 유닛 (684) 으로부터 조정된 검출 임계값을 수신한다. 하나의 실시형태에서, 조정된 검출 임계값은 1250 에서 수신될 수도 있는 반면, 입력 사운드 스트림은 1220 에서 수신되고, 사운드 특징은 1230 에서 추출되거나, 키워드 스코어는 1240 에서 결정된다. 다른 실시형태에서, 키워드 검출 유닛 (1130) 은 특징 추출기 (1110) 가 1220 에서 입력 사운드 스트림을 수신하기 전 또는 키워드 스코어 계산 유닛 (1120) 이 1240 에서 키워드 스코어를 결정한 후에 조정된 검출 임계값을 수신할 수도 있다.
키워드 검출 유닛 (1130) 은 1260 에서 키워드 스코어가 수신된 검출 임계값을 초과하는지 여부를 결정할 수도 있다. 키워드 스코어가 1260 에서 검출 임계값을 초과하지 않는 것으로 결정되면, 방법은 1270 으로 진행하여 특징 추출기 (1110) 에 의해 추출된 다음의 사운드 특징을 수신하고 1240 에서 다음의 사운드 특징에 대해 키워드 스코어를 결정한다. 한편, 키워드 스코어가 1260 에서 검출 임계값을 초과하는 것으로 결정되면, 키워드 검출 유닛 (1130) 은 1280 에서 음성 보조 유닛 (688) 을 턴 온하기 위해 활성화 신호를 생성 및 송신할 수도 있다. 방법은 그 후 1290 에서 종료할 수도 있다.
도 13 은 무선 통신 시스템 내의 이동 디바이스 (1300) 의 블록도를 도시하며, 여기서 방법들 및 장치는 본 개시의 하나의 실시형태에 따라, 이동 디바이스 (1300) 의 콘텍스트에 따라 조정되는 검출 임계값에 기초하여 입력 사운드 스트림 내의 목표 키워드를 검출한다. 이동 디바이스 (1300) 는 셀룰러 전화, 단말기, 핸드셋, 개인용 휴대정보단말기 (PDA), 무선 모뎀, 코드리스 전화 등일 수도 있다. 무선 통신 시스템은 코드 분할 다중 액세스 (CDMA) 시스템, 이동 통신을 위한 글로벌 시스템 (GSM) 시스템, 광대역 CDMA (W-CDMA) 시스템, 롱 텀 에볼루션 (LTE) 시스템, LTE Advanced 시스템 등일 수도 있다.
이동 디바이스 (1300) 는 수신 경로 및 송신 경로를 통해 양방향 통신을 제공할 수 있을 수도 있다. 수신 경로 상에서, 기지국들에 의해 송신된 신호들은 안테나 (1312) 에 의해 수신되고 수신기 (RCVR) (1314) 로 제공된다. 수신기 (1314) 는 수신된 신호를 커디셔닝 및 디지털화하고 추가의 프로세싱을 위해 디지털 섹션 (1320) 으로 컨티셔닝 및 디지털화된 신호를 제공한다. 송신 경로 상에서, 송신기 (TMTR) 는 디지털 섹션 (1320) 으로부터 송신될 데이터를 수신하고, 그 데이터를 프로세싱 및 컨디셔닝하며, 변조된 신호를 생성하고, 그것은 안테나 (1312) 를 통해 기지국들로 송신된다. 수신기 (1314) 및 송신기 (1316) 는 CDMA, GSM, W-CDMA, LTE, LTE Advanced 등을 지원하는 송수신기의 부분이다.
디지털 섹션 (1320) 은 예를 들어 모뎀 프로세서 (1322), 감소된 명령 세트 컴퓨터/디지털 신호 프로세서 (RISC/DSP) (1324), 제어기/프로세서 (1326), 내부 메모리 (1328), 일반화된 오디오 인코더 (1332), 일반화된 오디오 디코더 (1334), 그래픽/디스플레이 프로세서 (1336), 및/또는 외부 버스 인터페이스 (EBI) (1338) 과 같은 여러 프로세싱, 인터페이스, 및 메모리 유닛들을 포함한다. 모뎀 프로세서 (1322) 는 데이터 송신 및 수신을 위한 프로세싱, 예를 들어 인코딩, 변조, 복조, 및 디코딩을 수행한다. RISC/DSP (1324) 는 무선 디바이스 (1300) 에 대한 일반적인 및 특수화된 프로세싱을 수행한다. 제어기/프로세서 (1326) 는 디지털 섹션 (1320) 내의 여러 프로세싱 및 인터페이스 유닛들의 동작을 제어한다. 내부 메모리 (1328) 는 디지털 섹션 (1320) 내의 여러 유닛들에 대한 데이터 및/또는 명령들을 저장한다.
일반화된 오디오 인코더 (1332) 는 오디오 소스 (1342), 마이크로폰 (1343) 등으로부터의 입력 신호들에 대해 인코딩을 수행한다. 일반화된 오디오 디코더 (1334) 는 코딩된 오디오 데이터에 대해 디코딩을 수행하고 스피커/헤드셋 (1344) 으로 출력 신호들을 제공한다. 일반화된 오디오 인코더 (1332) 및 일반화된 오디오 디코더 (1334) 는 오디오 소스, 마이크로폰 (1343), 및 스피커/헤드셋 (1344) 과의 인터페이스를 반드시 요구되지는 않으며, 따라서 이동 디바이스 (1300) 내에 도시되지 않는다는 것을 유의해야 한다. 그래픽/디스플레이 프로세서 (1336) 는 그래픽들, 비디오들, 이미지들, 및 텍스트에 대한 프로세싱을 수행하며, 이것은 디스플레이 유닛 (1346) 으로 제시된다. EBI (1338) 는 디지털 섹션 (1320) 과 메인 메모리 (1348) 사이의 데이터의 전송을 용이하게 한다.
디지털 섹션 (1320) 은 하나 이상의 프로세서들, DSP 들, 마이크로프로세서들, RISC 들 등으로 구현된다. 디지털 섹션 (1320) 은 또한 하나 이상의 사용자 주문형 반도체들 (ASICs), 및/또는 일부 다른 타입의 집적회로들 (ICs) 상에서 제조된다.
일반적으로, 여기에 기술된 임의의 디바이스는 무선 전화, 셀룰러 전화, 랩톱 컴퓨터, 무선 멀티미디어 디바이스, 무선 통신 개인용 컴퓨터 (PC) 카드, PDA, 외부 또는 내부 모뎀, 무선 채널을 통해 통신하는 디바이스 등과 같은 여러 타입들의 디바이스들을 나타낸다. 디바이스는 액세스 단말기 (AT), 액세스 유닛, 가입자 유닛, 이동국, 클라이언트 디바이스, 이동 유닛, 이동 전화, 모바일, 원격국, 원격 단말기, 원격 유닛, 사용자 디바이스, 사용자 장비, 핸드헬드 디바이스 등과 같은 여러 이름들을 가질 수도 있다. 여기에 기술된 임의의 디바이스는 명령들 및 데이터를 저장하는 메모리 뿐아니라 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 조합을 가질 수도 있다.
여기에 기술된 기법들은 여러 수단들에 의해 구현된다. 예를 들어, 이들 기법들은 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 조합들로 구현된다. 본 기술에서 통상의 지식을 가진 자들은 또한 여기의 개시와 관련하여 기술된 여러 예시적인 로지컬 블록들, 모듈들, 회로들, 및 알고리즘 단계들이 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양자의 조합으로서 구현될 수도 있다는 것을 인정할 것이다. 하드웨어 및 소프트웨어의 이러한 교환가능성을 명확히 설명하기 위해, 여러 예시적 컴포넌트들, 블록들, 모듈들, 회로들 및 단계들은 일반적으로 그들의 기능성에 의해 상술되었다. 그러한 기능성이 하드웨어로서 또는 소프트웨어로서 구현되는지 여부는 특정의 애플리케이션 및 전체 시스템에 부과된 설계 제약들에 달려있다. 통상의 기술자들은 각각의 특정의 애플리케이션에 대해 다양한 방식들로 기술된 기능성을 구현할 수도 있지만, 그러한 구현 결정들은 본 개시의 범위로부터 일탈을 야기하는 것으로서 해석되지 않아야 한다.
하드웨어 구현의 경우, 기법들을 수행하기 위해 사용되는 프로세싱 유닛들은 하나 이상의 ASIC 들, DSP 들, 디지털 신호 프로세싱 디바이스들 (DSPDs), 프로그램가능 로직 디바이스들 (PLDs), 필드 프로그램가능 게이트 어레이들 (FPGAs), 프로세서들, 제어기들, 마이크로-제어기들, 마이크로프로세서들, 전자 디바이스들, 여기에 기술된 기능들을 수행하도록 설계된 다른 전자 유닛들, 컴퓨터, 또는 이들의 조합 내에서 구현된다.
따라서, 여기의 개시와 관련하여 기술된 여러 예시적인 로지컬 블록들, 모듈들, 및 회로들은 범용 프로세서, DSP, ASIC, FPGA 또는 다른 프로그램가능 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 여기에 기술된 기능들을 수행하도록 설계된 이들의 임의의 조합으로 구현되거나 수행된다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안적으로, 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 프로세서는 또한 컴퓨팅 디바이스들의 조합, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들, DSP 코어와 결합한 하나 이상의 마이크로프로세서들, 또는 임의의 다른 그러한 구성으로서 구현될 수도 있다.
소프트웨어로 구현되는 경우, 그 기능들은 컴퓨터 판독가능 매체 상에서 하나 이상의 명령들 또는 코드로서 저장 또는 송신될 수도 있다. 컴퓨터 판독가능 매체는 한 곳에서 다른 곳으로 컴퓨터 프로그램의 이송을 용이하게 하는 임의의 매체를 포함하는 컴퓨터 저장 매체들 및 통신 매체들 양자를 포함한다. 저장 매체들은 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 매체들일 수도 있다. 제한이 아닌 예시로서, 그러한 컴퓨터 판독가능 매체는 RAM, ROM, EEPROM, CD-ROM, 또는 다른 광 디스크 스토리지, 자기 디스크 스토리지, 또는 다른 자기 저장 디바이스들, 또는 컴퓨터에 의해 액세스될 수 있고 명령들 또는 데이터 구조들의 형태로 원하는 프로그램 코드를 반송 또는 저장하는데 사용될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 연결은 컴퓨터 판독가능 매체로 적절하게 칭해질 수도 있다. 예를 들어, 소프트웨어가 동축 케이블, 광섬유 케이블, 트위스티드 페어, 디지털 가입자 라인 (DSL), 또는 적외선, 라디오, 및 마이크로웨이브와 같은 무선 기술들을 사용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 송신되는 경우, 동축 케이블, 광섬유 케이블, 트위스티드 페어, DSL, 또는 적외선, 라디오, 및 마이크로웨이브와 같은 무선 기술들은 매체의 정의에 포함된다. 디스크 (disk 및 disc) 는 본원에서 사용되는 바와 같이, 콤팩트 디스크 (compact disc, CD), 레이저 디스크, 광 디스크, 디지털 다용도 디스크 (DVD), 플로피 디스크 (floppy disk) 및 블루레이 디스크를 포함하는데, disk들은 보통 데이터를 자기적으로 재생하지만, disc들은 레이저들로써 광학적으로 데이터를 재생한다. 상기한 것들의 조합들은 또한 컴퓨터 판독가능 매체들의 범위 내에 포함된다.
본 개시의 이전의 설명은 본 기술에서 임의의 통상의 기술자가 본 개시를 실시하거나 사용하는 것을 가능하게 하도록 제공된다. 본 개시에 대한 여러 변경들은 본 기술에서의 통상의 기술자에게 용이하게 명백할 것이고, 여기에 정의된 일반 원리들은 본 개시의 사상 또는 범위로부터 일탈하지 않고 다른 변형들에 적용될 수도 있다. 따라서, 본 개시는 여기에 기술된 예시들 및 설계들에 제한되는 것으로 의도되지 않고, 여기에 개시된 원리들 및 신규한 특징들과 일관성 있는 가장 넓은 범위에 따라야 한다.
예시적인 구현들은 하나 이상의 스탠드-얼론 컴퓨터 시스템들의 콘텍스트에서 현재 개시된 주제의 양태들을 이용하는 것으로 참조되지만, 이들 주제는 그렇게 제한되지 않고, 오히려 네트워크 또는 분포된 컴퓨팅 환경과 같은 임의의 컴퓨팅 환경과 관련하여 구현될 수도 있다. 또한, 현재 개시된 주제의 양태들은 복수의 프로세싱 칩들 또는 디바이스들에서 또는 그것들에 걸쳐 구현될 수도 있고, 저장은 복수의 디바이스들에 걸쳐 유사하게 시행될 수도 있다. 그러한 디바이스들은 PC 들, 네트워크 서버들, 및 핸드헬드 디바이스들을 포함할 수도 있다.
청구물이 구조적 특징들 및/또는 방법론적 액션들에 특정한 언어로 기술되었지만, 첨부된 청구범위에 정의된 청구물은 상술된 특정의 특징들 또는 액션들에 반드시 제한되지는 않는다는 것이 이해되어야 한다. 오히려, 상술된 특정의 특징들 및 액션들은 청구범위를 구현하는 예시의 형태들로서 개시된다.
Claims (50)
- 이동 디바이스에서 음성 보조 기능을 활성화하는 방법으로서,
사운드 센서에 의해 입력 사운드 스트림을 수신하는 단계;
상기 이동 디바이스의 콘텍스트를 결정하는 단계;
상기 콘텍스트에 기초하여 상기 음성 보조 기능을 활성화하기 위한 임계값을 조정하는 단계;
상기 조정된 임계값에 기초하여 상기 입력 사운드 스트림으로부터 목표 키워드를 검출하는 단계; 및
상기 목표 키워드가 검출되는 경우, 상기 음성 보조 기능을 활성화하는 단계를 포함하는, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법. - 제 1 항에 있어서,
상기 이동 디바이스의 콘텍스트를 결정하는 단계는 상기 입력 사운드 스트림에 기초하여 상기 이동 디바이스의 콘텍스트를 식별하는 단계를 포함하는, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법. - 제 1 항에 있어서,
상기 이동 디바이스의 콘텍스트를 결정하는 단계는,
상기 이동 디바이스 내의 가속도 센서, 로케이션 센서, 조명 센서, 근접 센서, 시계 유닛, 및 칼렌더 유닛 중 적어도 하나로부터 상기 이동 디바이스의 콘텍스트를 나타내는 데이터를 획득하는 단계; 및
상기 데이터에 기초하여 상기 이동 디바이스의 콘텍스트를 식별하는 단계를 포함하는, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법. - 제 1 항에 있어서,
상기 이동 디바이스의 콘텍스트를 결정하는 단계는,
상기 이동 디바이스 내의 가속도 센서 및 로케이션 센서 중 적어도 하나로부터 상기 이동 디바이스의 콘텍스트를 나타내는 데이터를 획득하는 단계; 및
상기 입력 사운드 스트림 및 상기 데이터에 기초하여 상기 이동 디바이스의 콘텍스트를 챠량 내인 것으로서 식별하는 단계를 포함하는, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법. - 제 1 항에 있어서,
상기 이동 디바이스의 콘텍스트를 결정하는 단계는,
상기 이동 디바이스 내의 조명 센서 및 근접 센서 중 적어도 하나로부터 상기 이동 디바이스의 콘텍스트를 나타내는 데이터를 획득하는 단계; 및
상기 입력 사운드 스트림 및 상기 데이터에 기초하여 상기 이동 디바이스의 콘텍스트를 컨테이너 (container) 내인 것으로서 식별하는 단계를 포함하는, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법. - 제 1 항에 있어서,
상기 이동 디바이스의 콘텍스트를 결정하는 단계는,
상기 이동 디바이스의 상태 정보를 획득하는 단계; 및
상기 상태 정보에 기초하여 상기 이동 디바이스의 콘텍스트를 식별하는 단계를 포함하는, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법. - 제 6 항에 있어서,
상기 상태 정보는 아이들 상태로부터 활성 상태로의 상기 이동 디바이스 내의 프로세서의 동작 상태에서의 변경을 나타내는, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법. - 제 7 항에 있어서,
상기 프로세서의 상기 동작 상태는 전자 메시지를 수신하는 것에 응답하여 상기 아이들 상태로부터 상기 활성 상태로 변경되는, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법. - 제 7 항에 있어서,
상기 프로세서의 상기 동작 상태는 상기 이동 디바이스에서의 경보 이벤트에 응답하여 상기 아이들 상태로부터 상기 활성 상태로 변경되는, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법. - 제 1 항에 있어서,
상기 임계값을 조정한 후에 미리 결정된 시간 주기가 경과한 경우 상기 임계값을 미리 결정된 임계값으로 설정하는 단계를 더 포함하는, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법. - 제 1 항에 있어서,
상기 임계값을 조정하는 단계는 상기 이동 디바이스의 콘텍스트에서 상기 음성 보조 기능을 사용하는 가능성에 기초하여 상기 임계값을 조정하는 단계를 포함하는, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법. - 제 11 항에 있어서,
상기 가능성은 상기 콘텍스트가 상기 이동 디바이스가 차량 내에 있다는 것을 나타내는 경우에 높은, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법. - 제 11 항에 있어서,
상기 가능성은 상기 콘텍스트가 슬리핑 콘텍스트를 나타내는 경우에 낮은, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법. - 제 1 항에 있어서,
상기 입력 사운드 스트림으로부터 목표 키워드를 검출하는 단계는,
상기 입력 사운드 스트림과 상기 목표 키워드의 사운드 모델 사이의 유사도를 계산하는 단계;
상기 유사도를 상기 임계값과 비교하는 단계; 및
상기 유사도가 상기 임계값을 초과하는 경우 상기 입력 사운드 스트림으로부터 상기 목표 키워드를 검출하는 단계를 포함하는, 이동 디바이스에서 음성 보조 기능을 활성화하는 방법. - 음성 보조 기능을 활성화하는 이동 디바이스로서,
입력 사운드 스트림을 수신하도록 구성된 사운드 센서;
상기 이동 디바이스의 콘텍스트를 결정함으로써 상기 음성 보조 기능을 활성화하기 위한 임계값을 조정하도록 구성된 임계값 조정 유닛;
상기 조정된 임계값에 기초하여 상기 입력 사운드 스트림으로부터 목표 키워드가 검출되는 경우, 상기 음성 보조 기능을 활성화하도록 구성된 음성 활성화 유닛을 포함하는, 음성 보조 기능을 활성화하는 이동 디바이스. - 제 15 항에 있어서,
상기 임계값 조정 유닛은 상기 입력 사운드 스트림에 기초하여 상기 이동 디바이스의 콘텍스트를 식별하도록 구성된 콘텍스트 추론 유닛을 포함하는, 음성 보조 기능을 활성화하는 이동 디바이스. - 제 15 항에 있어서,
상기 임계값 조정 유닛은 상기 이동 디바이스 내의 가속도 센서, 로케이션 센서, 조명 센서, 근접 센서, 시계 유닛, 및 칼렌더 유닛 중 적어도 하나로부터 상기 이동 디바이스의 콘텍스트를 나타내는 데이터를 획득하고, 상기 데이터에 기초하여 상기 이동 디바이스의 콘텍스트를 식별하도록 구성된 콘텍스트 결정 유닛을 포함하는, 음성 보조 기능을 활성화하는 이동 디바이스. - 제 15 항에 있어서,
상기 임계값 조정 유닛은 상기 이동 디바이스 내의 가속도 센서 및 로케이션 센서 중 적어도 하나로부터 상기 이동 디바이스의 콘텍스트를 나타내는 데이터를 획득하고, 상기 입력 사운드 스트림 및 상기 데이터에 기초하여 상기 이동 디바이스의 콘텍스트를 챠량 내인 것으로서 식별하도록 구성된 콘텍스트 결정 유닛을 포함하는, 음성 보조 기능을 활성화하는 이동 디바이스. - 제 15 항에 있어서,
상기 임계값 조정 유닛은 상기 이동 디바이스 내의 조명 센서 및 근접 센서 중 적어도 하나로부터 상기 이동 디바이스의 콘텍스트를 나타내는 데이터를 획득하고, 상기 입력 사운드 스트림 및 상기 데이터에 기초하여 상기 이동 디바이스의 콘텍스트를 컨테이너 (container) 내인 것으로서 식별하도록 구성된 콘텍스트 결정 유닛을 포함하는, 음성 보조 기능을 활성화하는 이동 디바이스. - 제 15 항에 있어서,
상기 임계값 조정 유닛은 상기 이동 디바이스의 상태 정보를 획득하고, 상기 상태 정보에 기초하여 상기 이동 디바이스의 콘텍스트를 식별하도록 구성된 콘텍스트 결정 유닛을 포함하는, 음성 보조 기능을 활성화하는 이동 디바이스. - 제 20 항에 있어서,
상기 상태 정보는 아이들 상태로부터 활성 상태로의 상기 이동 디바이스 내의 프로세서의 동작 상태에서의 변경을 나타내는, 음성 보조 기능을 활성화하는 이동 디바이스. - 제 21 항에 있어서,
상기 프로세서의 상기 동작 상태는 전자 메시지를 수신하는 것에 응답하여 상기 아이들 상태로부터 상기 활성 상태로 변경되는, 음성 보조 기능을 활성화하는 이동 디바이스. - 제 21 항에 있어서,
상기 프로세서의 상기 동작 상태는 상기 이동 디바이스에서의 경보 이벤트에 응답하여 상기 아이들 상태로부터 상기 활성 상태로 변경되는, 음성 보조 기능을 활성화하는 이동 디바이스. - 제 15 항에 있어서,
상기 임계값 조정 유닛은 또한 상기 임계값을 조정한 후에 미리 결정된 시간 주기가 경과한 경우 상기 임계값을 미리 결정된 임계값으로 설정하도록 구성되는, 음성 보조 기능을 활성화하는 이동 디바이스. - 제 15 항에 있어서,
상기 임계값 조정 유닛은 또한 상기 이동 디바이스의 콘텍스트에서 상기 음성 보조 기능을 사용하는 가능성에 기초하여 상기 임계값을 조정하도록 구성되는, 음성 보조 기능을 활성화하는 이동 디바이스. - 제 25 항에 있어서,
상기 가능성은 상기 콘텍스트가 상기 이동 디바이스가 차량 내에 있다는 것을 나타내는 경우에 높은, 음성 보조 기능을 활성화하는 이동 디바이스. - 제 25 항에 있어서,
상기 가능성은 상기 콘텍스트가 슬리핑 콘텍스트를 나타내는 경우에 낮은, 음성 보조 기능을 활성화하는 이동 디바이스. - 제 15 항에 있어서,
상기 음성 활성화 유닛은 또한 상기 입력 사운드 스트림과 상기 목표 키워드의 사운드 모델 사이의 유사도를 계산하고, 상기 유사도를 상기 임계값과 비교하며, 상기 유사도가 상기 임계값을 초과하는 경우 상기 입력 사운드 스트림으로부터 상기 목표 키워드를 검출하도록 구성되는, 음성 보조 기능을 활성화하는 이동 디바이스. - 음성 보조 기능을 활성화하는 이동 디바이스로서,
입력 사운드 스트림을 수신하는 수단;
상기 이동 디바이스의 콘텍스트를 결정함으로써 상기 음성 보조 기능을 활성화하기 위한 임계값을 조정하는 수단; 및
상기 조정된 임계값에 기초하여 상기 입력 사운드 스트림으로부터 목표 키워드가 검출되는 경우, 상기 음성 보조 기능을 활성화하는 수단을 포함하는, 음성 보조 기능을 활성화하는 이동 디바이스. - 제 29 항에 있어서,
상기 임계값을 조정하는 수단은 상기 입력 사운드 스트림에 기초하여 상기 이동 디바이스의 콘텍스트를 식별하는 수단을 포함하는, 음성 보조 기능을 활성화하는 이동 디바이스. - 제 29 항에 있어서,
상기 임계값을 조정하는 수단은 상기 이동 디바이스 내의 가속도 센서, 로케이션 센서, 조명 센서, 근접 센서, 시계 유닛, 및 칼렌더 유닛 중 적어도 하나로부터 상기 이동 디바이스의 콘텍스트를 나타내는 데이터를 획득하고, 상기 데이터에 기초하여 상기 이동 디바이스의 콘텍스트를 식별하는 수단을 포함하는, 음성 보조 기능을 활성화하는 이동 디바이스. - 제 29 항에 있어서,
상기 임계값을 조정하는 수단은 상기 이동 디바이스 내의 가속도 센서 및 로케이션 센서 중 적어도 하나로부터 상기 이동 디바이스의 콘텍스트를 나타내는 데이터를 획득하고, 상기 입력 사운드 스트림 및 상기 데이터에 기초하여 상기 이동 디바이스의 콘텍스트를 챠량 내인 것으로서 식별하는 수단을 포함하는, 음성 보조 기능을 활성화하는 이동 디바이스. - 제 29 항에 있어서,
상기 임계값을 조정하는 수단은 상기 이동 디바이스의 상태 정보를 획득하고, 상기 상태 정보에 기초하여 상기 이동 디바이스의 콘텍스트를 식별하는 수단을 포함하는, 음성 보조 기능을 활성화하는 이동 디바이스. - 제 33 항에 있어서,
상기 상태 정보는 아이들 상태로부터 활성 상태로의 상기 이동 디바이스 내의 프로세서의 동작 상태에서의 변경을 나타내는, 음성 보조 기능을 활성화하는 이동 디바이스. - 제 34 항에 있어서,
상기 프로세서의 상기 동작 상태는 전자 메시지를 수신하는 것에 응답하여 상기 아이들 상태로부터 상기 활성 상태로 변경되는, 음성 보조 기능을 활성화하는 이동 디바이스. - 제 34 항에 있어서,
상기 프로세서의 상기 동작 상태는 상기 이동 디바이스에서의 경보 이벤트에 응답하여 상기 아이들 상태로부터 상기 활성 상태로 변경되는, 음성 보조 기능을 활성화하는 이동 디바이스. - 제 29 항에 있어서,
상기 임계값을 조정하는 수단은 상기 임계값을 조정한 후에 미리 결정된 시간 주기가 경과한 경우 상기 임계값을 미리 결정된 임계값으로 설정하도록 구성되는, 음성 보조 기능을 활성화하는 이동 디바이스. - 제 29 항에 있어서,
상기 임계값을 조정하는 수단은 상기 이동 디바이스의 콘텍스트에서 상기 음성 보조 기능을 사용하는 가능성에 기초하여 상기 임계값을 조정하도록 구성되는, 음성 보조 기능을 활성화하는 이동 디바이스. - 제 38 항에 있어서,
상기 가능성은 상기 콘텍스트가 상기 이동 디바이스가 차량 내에 있다는 것을 나타내는 경우에 높은, 음성 보조 기능을 활성화하는 이동 디바이스. - 이동 디바이스에서 음성 보조 기능을 활성화하기 위한 명령들을 포함하는 비일시적 컴퓨터 판독가능 저장 매체로서,
상기 명령들은, 상기 이동 디바이스의 프로세서로 하여금,
사운드 센서에 의해 입력 사운드 스트림을 수신하는 것;
상기 이동 디바이스의 콘텍스트를 결정하는 것;
상기 콘텍스트에 기초하여 상기 음성 보조 기능을 활성화하기 위한 임계값을 조정하는 것;
상기 조정된 임계값에 기초하여 상기 입력 사운드 스트림으로부터 목표 키워드를 검출하는 것; 및
상기 목표 키워드가 검출되는 경우, 상기 음성 보조 기능을 활성화하는 것
의 동작들을 수행하게 하는, 비일시적 컴퓨터 판독가능 저장 매체. - 제 40 항에 있어서,
상기 이동 디바이스의 콘텍스트를 결정하는 것은 상기 입력 사운드 스트림에 기초하여 상기 이동 디바이스의 콘텍스트를 식별하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체. - 제 40 항에 있어서,
상기 이동 디바이스의 콘텍스트를 결정하는 것은,
상기 이동 디바이스 내의 가속도 센서, 로케이션 센서, 조명 센서, 근접 센서, 시계 유닛, 및 칼렌더 유닛 중 적어도 하나로부터 상기 이동 디바이스의 콘텍스트를 나타내는 데이터를 획득하는 것; 및
상기 데이터에 기초하여 상기 이동 디바이스의 콘텍스트를 식별하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체. - 제 40 항에 있어서,
상기 이동 디바이스의 콘텍스트를 결정하는 것은,
상기 이동 디바이스 내의 가속도 센서 및 로케이션 센서 중 적어도 하나로부터 상기 이동 디바이스의 콘텍스트를 나타내는 데이터를 획득하는 것; 및
상기 입력 사운드 스트림 및 상기 데이터에 기초하여 상기 이동 디바이스의 콘텍스트를 챠량 내인 것으로서 식별하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체. - 제 40 항에 있어서,
상기 이동 디바이스의 콘텍스트를 결정하는 것은,
상기 이동 디바이스의 상태 정보를 획득하는 것; 및
상기 상태 정보에 기초하여 상기 이동 디바이스의 콘텍스트를 식별하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체. - 제 44 항에 있어서,
상기 상태 정보는 아이들 상태로부터 활성 상태로의 상기 이동 디바이스의 프로세서의 동작 상태에서의 변경을 나타내는, 비일시적 컴퓨터 판독가능 저장 매체. - 제 45 항에 있어서,
상기 프로세서의 상기 동작 상태는 전자 메시지를 수신하는 것에 응답하여 상기 아이들 상태로부터 상기 활성 상태로 변경되는, 비일시적 컴퓨터 판독가능 저장 매체. - 제 45 항에 있어서,
상기 프로세서의 상기 동작 상태는 상기 이동 디바이스에서의 경보 이벤트에 응답하여 상기 아이들 상태로부터 상기 활성 상태로 변경되는, 비일시적 컴퓨터 판독가능 저장 매체. - 제 40 항에 있어서,
상기 동작들은 상기 임계값을 조정한 후에 미리 결정된 시간 주기가 경과한 경우 상기 임계값을 미리 결정된 임계값으로 설정하는 것을 더 포함하는, 비일시적 컴퓨터 판독가능 저장 매체. - 제 40 항에 있어서,
상기 임계값을 조정하는 것은 상기 이동 디바이스의 콘텍스트에서 상기 음성 보조 기능을 사용하는 가능성에 기초하여 상기 임계값을 조정하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체. - 제 49 항에 있어서,
상기 가능성은 상기 콘텍스트가 상기 이동 디바이스가 차량 내에 있다는 것을 나타내는 경우에 높은, 비일시적 컴퓨터 판독가능 저장 매체.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/029,131 | 2013-09-17 | ||
US14/029,131 US9240182B2 (en) | 2013-09-17 | 2013-09-17 | Method and apparatus for adjusting detection threshold for activating voice assistant function |
PCT/US2014/054540 WO2015041882A1 (en) | 2013-09-17 | 2014-09-08 | Method and apparatus for adjusting detection threshold for activating voice assistant function |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20160055915A true KR20160055915A (ko) | 2016-05-18 |
KR102317608B1 KR102317608B1 (ko) | 2021-10-25 |
Family
ID=51703378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020167009988A KR102317608B1 (ko) | 2013-09-17 | 2014-09-08 | 음성 보조 기능을 활성화하는 검출 임계값을 조정하는 방법 및 장치 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9240182B2 (ko) |
EP (2) | EP3754652B1 (ko) |
JP (1) | JP6538060B2 (ko) |
KR (1) | KR102317608B1 (ko) |
CN (1) | CN105556595B (ko) |
ES (1) | ES2817841T3 (ko) |
WO (1) | WO2015041882A1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021141330A1 (ko) * | 2020-01-06 | 2021-07-15 | 삼성전자(주) | 전자장치 및 그 제어방법 |
WO2022169039A1 (ko) * | 2021-02-02 | 2022-08-11 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
Families Citing this family (126)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US9772815B1 (en) | 2013-11-14 | 2017-09-26 | Knowles Electronics, Llc | Personalized operation of a mobile device using acoustic and non-acoustic information |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
CN113470641B (zh) | 2013-02-07 | 2023-12-15 | 苹果公司 | 数字助理的语音触发器 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9892729B2 (en) * | 2013-05-07 | 2018-02-13 | Qualcomm Incorporated | Method and apparatus for controlling voice activation |
US20140337031A1 (en) * | 2013-05-07 | 2014-11-13 | Qualcomm Incorporated | Method and apparatus for detecting a target keyword |
US9026176B2 (en) * | 2013-05-12 | 2015-05-05 | Shyh-Jye Wang | Message-triggered voice command interface in portable electronic devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US20150053779A1 (en) | 2013-08-21 | 2015-02-26 | Honeywell International Inc. | Devices and methods for interacting with an hvac controller |
US9508345B1 (en) | 2013-09-24 | 2016-11-29 | Knowles Electronics, Llc | Continuous voice sensing |
US9781106B1 (en) | 2013-11-20 | 2017-10-03 | Knowles Electronics, Llc | Method for modeling user possession of mobile device for user authentication framework |
US9953634B1 (en) | 2013-12-17 | 2018-04-24 | Knowles Electronics, Llc | Passive training for automatic speech recognition |
US9741343B1 (en) * | 2013-12-19 | 2017-08-22 | Amazon Technologies, Inc. | Voice interaction application selection |
US9899021B1 (en) * | 2013-12-20 | 2018-02-20 | Amazon Technologies, Inc. | Stochastic modeling of user interactions with a detection system |
US9437188B1 (en) | 2014-03-28 | 2016-09-06 | Knowles Electronics, Llc | Buffered reprocessing for multi-microphone automatic speech recognition assist |
US9500739B2 (en) | 2014-03-28 | 2016-11-22 | Knowles Electronics, Llc | Estimating and tracking multiple attributes of multiple objects from multi-sensor data |
CN106062661B (zh) * | 2014-03-31 | 2021-09-07 | 英特尔公司 | 用于常开常听的语音识别系统的位置感知功率管理方案 |
US10770075B2 (en) * | 2014-04-21 | 2020-09-08 | Qualcomm Incorporated | Method and apparatus for activating application by speech input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
KR102338899B1 (ko) * | 2015-01-02 | 2021-12-13 | 삼성전자주식회사 | 홈 디바이스를 제어하는 방법 및 디바이스 |
CN104657072B (zh) * | 2015-01-15 | 2018-06-12 | 小米科技有限责任公司 | 一种触发执行操作指令的方法和装置 |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
CN106469040B (zh) | 2015-08-19 | 2019-06-21 | 华为终端有限公司 | 通信方法、服务器及设备 |
CN106486127A (zh) * | 2015-08-25 | 2017-03-08 | 中兴通讯股份有限公司 | 一种语音识别参数自动调整的方法、装置及移动终端 |
CN105261368B (zh) * | 2015-08-31 | 2019-05-21 | 华为技术有限公司 | 一种语音唤醒方法及装置 |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
JP6227209B2 (ja) * | 2015-09-09 | 2017-11-08 | 三菱電機株式会社 | 車載用音声認識装置および車載機器 |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US9792907B2 (en) | 2015-11-24 | 2017-10-17 | Intel IP Corporation | Low resource key phrase detection for wake on voice |
US9946862B2 (en) * | 2015-12-01 | 2018-04-17 | Qualcomm Incorporated | Electronic device generating notification based on context data in response to speech phrase from user |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
KR102501083B1 (ko) * | 2016-02-05 | 2023-02-17 | 삼성전자 주식회사 | 음성 인식 방법 및 이를 사용하는 전자 장치 |
US9972313B2 (en) * | 2016-03-01 | 2018-05-15 | Intel Corporation | Intermediate scoring and rejection loopback for improved key phrase detection |
EP3455719A1 (en) | 2016-05-10 | 2019-03-20 | Google LLC | Implementations for voice assistant on devices |
CN114758655A (zh) | 2016-05-13 | 2022-07-15 | 谷歌有限责任公司 | 语音控制的隐藏字幕显示 |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10102732B2 (en) | 2016-06-28 | 2018-10-16 | Infinite Designs, LLC | Danger monitoring system |
US10043521B2 (en) | 2016-07-01 | 2018-08-07 | Intel IP Corporation | User defined key phrase detection by user dependent sequence modeling |
US10621992B2 (en) * | 2016-07-22 | 2020-04-14 | Lenovo (Singapore) Pte. Ltd. | Activating voice assistant based on at least one of user proximity and context |
US10291975B2 (en) * | 2016-09-06 | 2019-05-14 | Apple Inc. | Wireless ear buds |
WO2018118744A1 (en) * | 2016-12-19 | 2018-06-28 | Knowles Electronics, Llc | Methods and systems for reducing false alarms in keyword detection |
US10083689B2 (en) * | 2016-12-23 | 2018-09-25 | Intel Corporation | Linear scoring for low power wake on voice |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10664533B2 (en) | 2017-05-24 | 2020-05-26 | Lenovo (Singapore) Pte. Ltd. | Systems and methods to determine response cue for digital assistant based on context |
US10204624B1 (en) * | 2017-08-14 | 2019-02-12 | Lenovo (Singapore) Pte. Ltd. | False positive wake word |
EP3484176A1 (en) * | 2017-11-10 | 2019-05-15 | Nxp B.V. | Vehicle audio presentation controller |
KR102492727B1 (ko) * | 2017-12-04 | 2023-02-01 | 삼성전자주식회사 | 전자장치 및 그 제어방법 |
US10524046B2 (en) | 2017-12-06 | 2019-12-31 | Ademco Inc. | Systems and methods for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10948563B2 (en) * | 2018-03-27 | 2021-03-16 | Infineon Technologies Ag | Radar enabled location based keyword activation for voice assistants |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
JP2019204025A (ja) * | 2018-05-24 | 2019-11-28 | レノボ・シンガポール・プライベート・リミテッド | 電子機器、制御方法、及びプログラム |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
JP2019211599A (ja) * | 2018-06-04 | 2019-12-12 | 本田技研工業株式会社 | 音声認識装置、音声認識方法およびプログラム |
CN112243526A (zh) | 2018-06-05 | 2021-01-19 | 三星电子株式会社 | 语音辅助设备及其方法 |
CN112272819B (zh) * | 2018-06-05 | 2024-04-26 | 三星电子株式会社 | 被动唤醒用户交互设备的方法和系统 |
US10714122B2 (en) | 2018-06-06 | 2020-07-14 | Intel Corporation | Speech classification of audio for wake on voice |
CN112272846A (zh) * | 2018-08-21 | 2021-01-26 | 谷歌有限责任公司 | 用于调用自动助理的动态的和/或特定于场境的热词 |
TWI683306B (zh) * | 2018-08-28 | 2020-01-21 | 仁寶電腦工業股份有限公司 | 多語音助理之控制方法 |
CN110867182B (zh) * | 2018-08-28 | 2022-04-12 | 仁宝电脑工业股份有限公司 | 多语音助理的控制方法 |
US10650807B2 (en) | 2018-09-18 | 2020-05-12 | Intel Corporation | Method and system of neural network keyphrase detection |
CN109346071A (zh) * | 2018-09-26 | 2019-02-15 | 出门问问信息科技有限公司 | 唤醒处理方法、装置及电子设备 |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11562135B2 (en) | 2018-10-16 | 2023-01-24 | Oracle International Corporation | Constructing conclusive answers for autonomous agents |
JP7407580B2 (ja) | 2018-12-06 | 2024-01-04 | シナプティクス インコーポレイテッド | システム、及び、方法 |
US11232788B2 (en) * | 2018-12-10 | 2022-01-25 | Amazon Technologies, Inc. | Wakeword detection |
US11321536B2 (en) * | 2019-02-13 | 2022-05-03 | Oracle International Corporation | Chatbot conducting a virtual social dialogue |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11127394B2 (en) | 2019-03-29 | 2021-09-21 | Intel Corporation | Method and system of high accuracy keyphrase detection for low resource devices |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
CN110022427A (zh) * | 2019-05-22 | 2019-07-16 | 乐山师范学院 | 汽车使用智能辅助系统 |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
CN110047487B (zh) * | 2019-06-05 | 2022-03-18 | 广州小鹏汽车科技有限公司 | 车载语音设备的唤醒方法、装置、车辆以及机器可读介质 |
KR20200141860A (ko) * | 2019-06-11 | 2020-12-21 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN112104901A (zh) * | 2019-06-17 | 2020-12-18 | 深圳市同行者科技有限公司 | 一种车载设备的自销售方法及系统 |
CN110797051A (zh) * | 2019-10-28 | 2020-02-14 | 星络智能科技有限公司 | 一种唤醒门限设置方法、装置、智能音箱及存储介质 |
CN110942768A (zh) * | 2019-11-20 | 2020-03-31 | Oppo广东移动通信有限公司 | 设备唤醒的测试方法、装置、移动终端和存储介质 |
US11064294B1 (en) | 2020-01-10 | 2021-07-13 | Synaptics Incorporated | Multiple-source tracking and voice activity detections for planar microphone arrays |
US11183193B1 (en) | 2020-05-11 | 2021-11-23 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11610578B2 (en) | 2020-06-10 | 2023-03-21 | Google Llc | Automatic hotword threshold tuning |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11721338B2 (en) * | 2020-08-26 | 2023-08-08 | International Business Machines Corporation | Context-based dynamic tolerance of virtual assistant |
EP4220628A4 (en) | 2021-02-19 | 2024-05-22 | Samsung Electronics Co., Ltd. | ELECTRONIC SERVICE SUPPORT DEVICE FOR ARTIFICIAL INTELLIGENCE (AI) AGENT TALKING WITH USER |
CN113470657B (zh) * | 2021-05-18 | 2023-12-01 | 翱捷科技(深圳)有限公司 | 一种语音唤醒阈值调整方法及系统 |
US11823707B2 (en) * | 2022-01-10 | 2023-11-21 | Synaptics Incorporated | Sensitivity mode for an audio spotting system |
US12057138B2 (en) | 2022-01-10 | 2024-08-06 | Synaptics Incorporated | Cascade audio spotting system |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6138094A (en) * | 1997-02-03 | 2000-10-24 | U.S. Philips Corporation | Speech recognition method and system in which said method is implemented |
KR20020060975A (ko) * | 1999-11-23 | 2002-07-19 | 스티븐 제이. 커우 | 특정의 인간 음성을 템플릿하기 위한 시스템 및 방법 |
US20120034904A1 (en) * | 2010-08-06 | 2012-02-09 | Google Inc. | Automatically Monitoring for Voice Input Based on Context |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3079006B2 (ja) * | 1995-03-22 | 2000-08-21 | シャープ株式会社 | 音声認識制御装置 |
JP2004294946A (ja) * | 2003-03-28 | 2004-10-21 | Toshiba Corp | 携帯型電子機器 |
EP1679867A1 (en) * | 2005-01-06 | 2006-07-12 | Orange SA | Customisation of VoiceXML Application |
JP4660299B2 (ja) * | 2005-06-29 | 2011-03-30 | 三菱電機株式会社 | 移動体用情報装置 |
US20070263805A1 (en) | 2006-05-01 | 2007-11-15 | Mcdonald Christopher F | Method to alert participant on a conference call |
US20080147411A1 (en) * | 2006-12-19 | 2008-06-19 | International Business Machines Corporation | Adaptation of a speech processing system from external input that is not directly related to sounds in an operational acoustic environment |
JP5229217B2 (ja) | 2007-02-27 | 2013-07-03 | 日本電気株式会社 | 音声認識システム、方法およびプログラム |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US20080300025A1 (en) * | 2007-05-31 | 2008-12-04 | Motorola, Inc. | Method and system to configure audio processing paths for voice recognition |
JP4973722B2 (ja) | 2009-02-03 | 2012-07-11 | 株式会社デンソー | 音声認識装置、音声認識方法、及びナビゲーション装置 |
JP2010281855A (ja) * | 2009-06-02 | 2010-12-16 | Nissan Motor Co Ltd | 音声対話装置および音声対話方法 |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US20120264091A1 (en) * | 2009-08-17 | 2012-10-18 | Purdue Research Foundation | Method and system for training voice patterns |
US8270954B1 (en) | 2010-02-02 | 2012-09-18 | Sprint Communications Company L.P. | Concierge for portable electronic device |
JP2012216057A (ja) * | 2011-03-31 | 2012-11-08 | Toshiba Corp | 音声処理装置、及び音声処理方法 |
JP5797009B2 (ja) * | 2011-05-19 | 2015-10-21 | 三菱重工業株式会社 | 音声認識装置、ロボット、及び音声認識方法 |
CA2791277C (en) * | 2011-09-30 | 2019-01-15 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
KR101590332B1 (ko) * | 2012-01-09 | 2016-02-18 | 삼성전자주식회사 | 영상장치 및 그 제어방법 |
US9349366B2 (en) * | 2012-06-13 | 2016-05-24 | Wearsafe Labs Llc | Systems and methods for managing an emergency situation |
CN102999161B (zh) * | 2012-11-13 | 2016-03-02 | 科大讯飞股份有限公司 | 一种语音唤醒模块的实现方法及应用 |
CN103065631B (zh) * | 2013-01-24 | 2015-07-29 | 华为终端有限公司 | 一种语音识别的方法、装置 |
-
2013
- 2013-09-17 US US14/029,131 patent/US9240182B2/en active Active
-
2014
- 2014-09-08 JP JP2016542030A patent/JP6538060B2/ja active Active
- 2014-09-08 EP EP20171531.5A patent/EP3754652B1/en active Active
- 2014-09-08 EP EP14784130.8A patent/EP3047482B1/en active Active
- 2014-09-08 CN CN201480051050.0A patent/CN105556595B/zh active Active
- 2014-09-08 KR KR1020167009988A patent/KR102317608B1/ko active IP Right Grant
- 2014-09-08 ES ES14784130T patent/ES2817841T3/es active Active
- 2014-09-08 WO PCT/US2014/054540 patent/WO2015041882A1/en active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6138094A (en) * | 1997-02-03 | 2000-10-24 | U.S. Philips Corporation | Speech recognition method and system in which said method is implemented |
KR20020060975A (ko) * | 1999-11-23 | 2002-07-19 | 스티븐 제이. 커우 | 특정의 인간 음성을 템플릿하기 위한 시스템 및 방법 |
US20120034904A1 (en) * | 2010-08-06 | 2012-02-09 | Google Inc. | Automatically Monitoring for Voice Input Based on Context |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021141330A1 (ko) * | 2020-01-06 | 2021-07-15 | 삼성전자(주) | 전자장치 및 그 제어방법 |
WO2022169039A1 (ko) * | 2021-02-02 | 2022-08-11 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US11929081B2 (en) | 2021-02-02 | 2024-03-12 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
Also Published As
Publication number | Publication date |
---|---|
US20150081296A1 (en) | 2015-03-19 |
WO2015041882A1 (en) | 2015-03-26 |
JP6538060B2 (ja) | 2019-07-03 |
EP3047482B1 (en) | 2020-06-10 |
EP3754652A1 (en) | 2020-12-23 |
JP2016536648A (ja) | 2016-11-24 |
CN105556595A (zh) | 2016-05-04 |
ES2817841T3 (es) | 2021-04-08 |
CN105556595B (zh) | 2019-11-01 |
KR102317608B1 (ko) | 2021-10-25 |
US9240182B2 (en) | 2016-01-19 |
EP3754652B1 (en) | 2023-09-06 |
EP3047482A1 (en) | 2016-07-27 |
EP3754652C0 (en) | 2023-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102317608B1 (ko) | 음성 보조 기능을 활성화하는 검출 임계값을 조정하는 방법 및 장치 | |
US9892729B2 (en) | Method and apparatus for controlling voice activation | |
KR101921037B1 (ko) | 사용자로부터의 스피치 구문에 응답하여 컨텍스트 데이터에 기초하여 통지를 생성하는 전자 디바이스 | |
EP3134896B1 (en) | Method and apparatus for activating application by speech input | |
KR101981878B1 (ko) | 스피치의 방향에 기초한 전자 디바이스의 제어 | |
EP2829087B1 (en) | Controlling applications in a mobile device based on the environmental context | |
US9747894B2 (en) | System and associated method for speech keyword detection enhanced by detecting user activity | |
EP2994911B1 (en) | Adaptive audio frame processing for keyword detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |