KR102293063B1 - 사용자 정의 가능한 웨이크업 음성 명령 - Google Patents

사용자 정의 가능한 웨이크업 음성 명령 Download PDF

Info

Publication number
KR102293063B1
KR102293063B1 KR1020197038378A KR20197038378A KR102293063B1 KR 102293063 B1 KR102293063 B1 KR 102293063B1 KR 1020197038378 A KR1020197038378 A KR 1020197038378A KR 20197038378 A KR20197038378 A KR 20197038378A KR 102293063 B1 KR102293063 B1 KR 102293063B1
Authority
KR
South Korea
Prior art keywords
command
phrase
user
wake
wakeup
Prior art date
Application number
KR1020197038378A
Other languages
English (en)
Other versions
KR20200012928A (ko
Inventor
둥옌 왕
하이쑹 구
Original Assignee
미디어 그룹 코 엘티디
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 미디어 그룹 코 엘티디 filed Critical 미디어 그룹 코 엘티디
Publication of KR20200012928A publication Critical patent/KR20200012928A/ko
Application granted granted Critical
Publication of KR102293063B1 publication Critical patent/KR102293063B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Abstract

음성 명령 모듈은 다수의 홈 디바이스가 포함되는 생활 환경 중에서 음성 명령을 실행하기 위한 것이다. 음성 명령 모듈에는 음성 식별 모듈과 명령 로직이 포함된다. 음성 식별 모듈은 사용자로부터 문구를 수신하고 또한 문구를 예정 명령 어휘로부터 온 명령으로 전환시키는 바, 어휘에는 새로운 웨이크업 문구를 웨이크업 명령에 대응되는 것으로 정의하기 위한 사용자 정의 명령을 포함한다. 명령 로직은 명령을 실행한다. 사용자 정의 명령을 수신하였을 때, 명령 로직이 음성 명령 모듈을 변경시켜, 새로운 웨이크업 문구를 탐지하였을 때 웨이크업 명령을 실행하도록 한다.

Description

사용자 정의 가능한 웨이크업 음성 명령
본 개시는 대체적으로 음성 제어 디바이스에 관한 것이다.
음성을 기반으로 하는 사용자 인터페이스는 갈수록 보편화되고 있다. 음성 기반의 사용자 인터페이스는 사람과 디바이스 간에 음성 명령을 통하여 자연적인 의사소통이 이루어지도록 한다. 음성 명령을 사용시 한 가지 과제는, 탐지된 음성이 디바이스를 위한 음성 명령인지를 반드시 디바이스가 판단하여야 한다는 것이다. 전통적으로, 음성 명령을 전달하기 전에, 사용자는 우선 디바이스를 가동시켜 음성 명령을 수신할 수 있게 한다. 예를 들면, 사용자가 버튼을 누르거나 또는 아이콘을 클릭하여 디바이스를 촉발시켜 디바이스가 음성 명령을 수신하도록 준비시킨다. 하지만, 이런 틀에 박힌 비-음성 상호 작용의 사용은 사용자의 경험을 방해한다. 그렇지 않으면, 반드시 디바이스가 항상 음성 명령을 수신하도록 준비하고 있어야 하므로, 효율적이지 않다.
웨이크업 문구를 사용자 정의하는 기능을 제공하는 것을 통하여, 본 개시는 종래 기술의 한계를 극복한다.
일 실시예에서, 음성 명령 모듈은 다수의 홈 디바이스가 포함되는 생활 환경 중에서 음성 명령을 실행하기 위한 것이다. 음성 명령 모듈에는 음성 식별 모듈과 명령 로직이 포함된다. 음성 식별 모듈은 사용자로부터 문구를 수신하고 또한 문구를 예정 명령 어휘로부터 유래된 명령으로 전환시키는바, 어휘에는 웨이크업 명령에 대응하는 새로운 웨이크업 문구를 정의하기 위한 사용자 정의 명령이 포함된다. 명령 로직은 명령을 실행한다. 사용자 정의 명령을 수신하였을 때, 명령 로직이 음성 명령 모듈을 변경시켜, 새로운 웨이크업 문구를 탐지하였을 때 웨이크업 명령을 실행하도록 한다. 음성 명령 모듈에는 의도 식별 모듈이 더 포함될 수 있다. 의도 식별 모듈은 사용자 의도를 식별하고, 또한 식별된 의도를 기반으로 명령을 생성한다. 명령이 홈 디바이스 및/또는 명령 중추(commend hub)를 촉발시켜, 식별된 의도에 적당하게 응답하도록 한다. 홈 디바이스 및/또는 명령 중추는 마치 사용자가 이미 명령을 내린 것처럼 응답할 수 있다.
기타 방면에는 부품, 디바이스, 시스템. 개선, 방법, 과정, 적용, 컴퓨터 판독가능 매체와 상기 중의 어느 하나와 관련된 기타 기술이 포함된다.
본 개시의 실시예는 기타 장점과 특징을 갖고 있고, 도면을 참조할 때, 이러한 기타 장점과 특징은 하기 내용 중의 구체적인 실시 방식과 첨부된 청구범위에서 명백하여 질 것이다.
상기 도면에서,
도 1은 일 실시예에 따른 음성으로 생활 환경을 제어하는 예시를 도시한다.
도 2는 일 실시예에 따른 사용자 정의 가능한 웨이크업 명령을 설정하는 예시적 과정을 도시한다.
도 3은 일 실시예에 따른, 본 명세서에서의 상기 사용자 정의된 웨이크업 문구를 사용하여 음성을 활성화시켜 홈 디바이스를 제어하는 것을 도시한다.
도 4는 일 실시예에 따른, 도 1 에 도시된 실체 중의 하나 또는 다수의 예시적 홈 디바이스에 사용되는 고급(high-level) 블럭도를 도시한다.
도면은 단지 설명의 목적으로 여러 가지 실시예를 표시한다. 본 발명이 속하는 기술분야의 기술자들은 이하 논의된 바로부터, 본문에 기술된 원리에 벗어나지 않는 상황 하에서, 본문에 도시된 구조와 방법의 대체 실시예를 용이하게 실시할 수 있음을 알 수 있을 것이다.
도면 및 하기 설명은 단지 예시적인 설명의 방식으로 바람직한 실시예에 관한 것이다. 하기 설명에서, 본문에 개시된 구조와 방법의 대체 실시예는 권리를 주장하는 원리를 벗어나지 않는 상황 하에서 채택할 수 있는 가능한 대체품으로 용이하게 간주될 수 있음을 유의하여야 할 것이다.
웨이크업 문구는 디바이스를 촉발시켜 디바이스로 하여금 명령을 실행할 준비를 하도록 하는 고유의 단어 또는 문장이다. 웨이크업 문구는 웨이크업 명령에 대응된다. 예를 들면, 사용자가 웨이크업 문구와 다른 하나의 음성 명령을 함께 말하면, 디바이스가 웨이크업하고(즉, 웨이크업 명령 실행) 또한 음성 명령을 실행하는 것을 통하여 응답한다. 통상적으로, 구체적인 디바이스 설정(예를 들면, 하드 코딩)에는 예정 웨이크업 문구가 존재하여, 디바이스를 촉발시켜 디바이스가 웨이크업되도록 한다. 이는 예정 웨이크업 명령을 사용하면 디바이스가 예측할 수 없게 응답하는 것을 방지할 수 있기 때문이다. 하지만 이로 인하여, 사용자는 사용자 고유의 웨이크업 문구를 선택할 수 없다. 아래의 내용에서 추가적으로 설명하는 바와 같이, 본문에 기술된 실시예는 사용자가 웨이크업 문구를 사용자 정의(customizing)하는 것을 허용한다.
도 1은 일 실시예에 의하여 음성으로 생활 환경을 제어하는 예시를 도시한다. 도시된 예시에서, 개인(102)이 "Gort, 전자레인지 켜고, 센 불로 60 초"라고 말하여 명령 중추(104)에게 전자레인지(110)를 켜도록 지시한다. 웨이크업 문구 "Gort"는 이미 개인(102)을 통하여 사용자 정의되었고, 또한 명령 중추(104)를 활성화시켜 개인의 음성 입력을 처리하고, 또한 개인의 음성 명령에 응답한다. 음성 "Gort"를 탐지한 후, 명령 중추(104)는 음성 입력을 해석하여, 명령 "전자레인지 켜고"를 식별하고, 또한 전자레인지(110)을 켜서 명령에 응답한다. "명령 중추"는 본문에서 "중추"라고도 칭한다.
중추(104)는 항상 활성화 상태에 있는 것은 아니다. 저전력 모드(또한 대기 모드 또는 휴면 모드라 칭함)에서, 중추(104)의 하나 또는 다수의 모듈과 기타 홈 디바이스가 오프(off) 상태에 있다. 일 예시로서, 저전력 모드에서, 웨이크업 문구를 탐지 및/또는 사용자의 의도를 식별하는 것 외에, 중추(104)는 음성 입력을 해석하거나 또는 명령에 응답할 수 없다. 본문에 기술된 바와 같이, 활성화 상태에 있다는 것은 중추(104)가 음성 입력을 명령 어휘로부터 유래된 명령으로 전환시키고 또한 그 후 명령을 실행하는 상태에 있는 것을 가리킨다. 명령에 응답할 때, 예를 들면, 해당 예시 중의 "센 불 60 초"의 명령 시, 중추(104)는 사용자로부터 오는 추가의 입력을 요구할 수 있다.
도시된 예시에서, 중추(104)는 홈 디바이스 네트워크를 통하여 다른 홈 디바이스로 연결된다. 다른 홈 디바이스의 예시로는 조명(105), TV(106) 및 기타 오디오/비디오와 오락 디바이스, 전동 문/창문 용품(107), 전기 가구 또는 비품, 서모 스탯과 기타 환경 제어기와 난방 환기 공기 조절 디바이스, 냉장고(109), 전자레인지(110)와 기타 주방 디바이스, 욕실 디바이스와 가정용 로봇 디바이스가 포함된다. 해당 예시에서, 중추(104)는 디바이스 중의 하나 또는 다수와 분리되고, 또한 네트워크(미도시)를 통하여 통신적으로 디바이스 중의 하나 또는 다수에 연결될 수 있다. 네트워크는 여러 가지 기술을 사용하여 실시하는 무선 또는 유선 네트워크일 수 있다.
명령 중추(104)에는 마이크(1040), 음성 명령 모듈(150), 스피커(160)가 포함된다. 음성 명령 모듈(150)에는 웨이크업 탐지 모듈(152), 음성 식별 모듈(154), 명령 로직(156), 명령 메모리(158), 의도 식별 모듈(162)과 의도 메모리(164)가 포함되고, 모든 이런 것들은 하기 내용에서 추가로 설명하도록 한다. 명령 중추(104)에는 하나 또는 다수의 센서(미도시), 예를 들면 운동 센서, 카메라, CO2 센서, 지문 스캐너 및/또는 판독기, 홍채 스캐너 및/또는 판독기 등이 더 포함될 수 있다. 센서는 명령 중추(104)와 분리되고, 또한 흠 디바이스 네트워크를 통하여 명령 중추(104)에 연결될 수 있다.
마이크(140)는 예를 들면 사용자의 음성 입력의 오디오 입력을 수신하고, 또한 수신된 오디오 입력을 전기 신호로 전환시킨다. 사용자가 중추(104)에게 말하고, 또한 마이크(140)가 사용자의 문구를 수집한다. 휴면 모드에서, 마이크(140)는 여전히 켜 있고, 또한 중추(104) 주위의 소리를 수집한다. 수집된 소리는 일정한 시간 동안 보류된다. 중추(104)에는 사용자로부터 입력을 수신하는 기타 입력 부품, 예를 들면 버튼, 키보드, 터치스크린, 터치패드, 운동 센서 또는 카메라가 더 포함될 수 있다.
웨이크업 탐지 모듈(152)은 웨이크업 문구를 식별한다. 웨이크업 탐지 모듈(152)은 음성 또는 문장 식별 기술을 사용하여 음성 입력을 해석하여 웨이크업 문구를 탐지하도록 한다. 예를 들면, 웨이크업 탐지 모듈(152)은 웨이크업 문구를 나타내는 모델을 사용할 수 있다. 일부 실시예에서, 모델은 사운드 스펙트로그램을 기반으로 한다. 기타 실시예에서, 모델은 사용자가 말하는 일련의 싱글 톤을 나타내는 싱글 톤 모델이다. 사용자의 웨이크업 문구의 문구 개발 모델을 사용할 수 있다. 그밖에, 모델은 범용 모델을 기반으로 할 수 있는바, 해당 범용 모델은 사용자가 예를 들면 웨이크업 문구의 문구의 훈련 데이터를 사용하여 훈련을 진행한다. 웨이크업 탐지 모듈(152)은 모델을 참조하여 사용자의 음성 입력을 분석하여, 사용자가 이미 웨이크업 문구를 말하였는지를 탐지한다. 웨이크업 탐지 모듈(152)이 웨이크업 문구를 탐지하였을 때, 웨이크업 탐지 모듈(152)은 명령 중추(104)를 촉발시켜, 저전력 모드에서 오프된 하나 또는 다수의 모듈을 온(on)시키는 것을 통하여 저전력 모드를 벗어난다.
일부 실시예에서, 웨이크업 탐지 모듈(152)이 사용자 신분을 확인한다. 명령 중추(104)는 단지 인정된 사용자에게만 응답한다. 다시 말하면, 신분을 알 수 없는 사용자가 인정된 사용자가 중추(104)를 활성화시키는 웨이크업 문구를 이미 말했다 할지라도, 명령 중추(104)는 해당 신분을 알 수 없는 사용자에게 응답하지 않는다. 일 예시로서, 구체적인 웨이크업 명령에 있어서, 단지 하나 또는 다수의 인정된 사용자가 웨이크업 명령을 말할 때만 명령 중추(104)가 응답한다. 기타 실시예에서, 명령 중추(104)는 특정 웨이크업 문구를 말하는 누구에게든 응답한다.
웨이크업 탐지 모듈(152)은 예를 들면 음성 입력의 특성을 사용하여 사용자의 신분을 확인한다. 일 예시로서, 웨이크업 탐지 모듈(152)이 마이크를 통하여 출력되는 오디오 신호의 성문을 결정하고, 또한 결정된 성문과 인정된 사용자와 연관된 성문을 비교함으로써 사용자의 신분을 확인한다. 성문에는 개인의 음성과 문구의 특성을 나타내는 특징이 포함된다. 특징은 순간적 특징 또는 음향 스펙트럼 특징일 수 있다. 음향학적 특징(예를 들면, 음조, 주파수 또는 말투) 및/또는 음성 패턴(예를 들면, 특정 싱글 톤 또는 음절을 강조 또는 생략, 싱글 톤 또는 음절 사이의 정지 시간 등)은 예시적 특징이다. 웨이크업 탐지 모듈(152)을 예로 들면, 주파수 추정 은닉 마코프 모델, 가우시안 혼합 모델, 모드 매칭 알고리즘, 신경망, 매트릭스표시, 벡터 정량화와 판단 트리의 기술을 사용하여 성문을 결정 및 비교한다.
일부 실시예에서, 웨이크업 탐지 모듈(152)은 생활 환경의 영역에 위치하고, 또한 개인(102)이 해당 영역에 위치하거나 또는 해당 영역에 근접하여 있는지를 결정한다. 만일 개인(102)이 해당 영역에 있다면, 웨이크업 탐지 모듈(152)이 중추(104)를 웨이크업시킨다. 일부 실시예에서, 웨이크업 탐지 모듈(152)이 역시 해당 영역에 있는 홈 디바이스의 그룹을 웨이크업시킨다. 영역은 물리 구역에 대응되고, 또한 물리적으로 해당 물리 구역에 위치하는 디바이스를 포함한다. 도시된 예시에서, 집(100)은 주방, 침실과 객실에 해당하는 세 개의 영역(120, 122 및 124)으로 구분된다. 주방 영역(120)에는 냉장고(109)와 전자레인지(110)가 포함된다. 객실 영역(122)에는 전동 문/창문 용품(107)이 포함된다. 객실 영역(124)에는 등(105)과 TV(106)가 포함된다. 웨이크업 탐지 모듈(152)이 개인(102)의 명령 중추(104)에 대한 위치를 결정하고, 또한 해당 위치와 물리 구역을 비교하여 개인(102)이 특정 영역에 있는지를 판단한다. 웨이크업 탐지 모듈(152)은 예를 들면 빔 포밍 기술 및/또는 비행 시간 기술의 여러 가지 기술을 사용하여 개인의 위치를 결정할 수 있다.
사용자가 어떤 동작을 하기 전에, 의도 식별 모듈(162)이 사용자의 의도를 식별하여 이러한 동작을 한다. 본 명세서에 기술된 바와 같이, 사용자의 의도는 사용자가 소정 시간 동안에 할 가능성이 큰 동작이다. 예를 들면, 만일 사용자가 웨이크업 문구를 사용자 정의하고자 의도한다면, 사용자가 웨이크업 문구의 사용자 정의를 청구하기 전, 의도 식별 모듈(162)이 사용자의 의도를 식별한다. 다른 일 예시로서, 만일 사용자가 명령 중추(104)와 상호 작용하고자 의도한다면, 사용자가 명령 중추(104)에 지시하여 웨이크업되기 전, 의도 식별 모듈(162)이 사용자의 의도를 식별한다. 또 다른 일 예시로서, 만일 사용자가 온도를 조절하고자 의도한다면, 사용자가 온도를 조절하기 전에 의도 식별 모듈(162)이 사용자의 의도를 식별한다.
사용자의 의도는 여러 가지 센서로부터 수신한 데이터를 사용하여 결정할 수 있는바, 그 중에서, 여러 가지 센서는 음성 명령 모듈(150)에 포함되거나 또는 음성 명령 모듈(150)에 연결된다. 의도 식별 모듈(162)가 데이터를 분석하여 사용자의 의도를 결정한다. 일부 실시예에서, 데이터는 분석되어 이벤트를 탐지하고, 또한 사용자의 의도는 탐지된 이벤트로부터 결정할 수 있다. 일부 실시예에서, 사용자의 의도는 사용 의도와 이벤트의 연관성 및/또는 센서로부터 수신한 데이터의 연관성에 의하여 결정할 수 있다. 이벤트는 사용 이벤트와 센서로부터 수신한 데이터의 연관성에 의하여 결정할 수 있다. 연관성에는 모든 사용자에 적용될 수 있는 일반적 연관성 및 하나 또는 다수의 특정 사용자에 적용될 수 있는 사용자 고유의 연관성이 포함된다. 사용자의 신분은 센서가 수신한 데이터로부터 결정할 수 있다. 사용자의 신분은 카메라가 수집한 이미지 또는 비디오, 예를 들면 이미지 또는 얼굴 식별 기술을 사용하는 것을 통하여 결정할 수 있다. 사용자의 신분도 위의 내용에 기술된 바와 같은 성문으로부터 결정할 수 있다. 사용자의 신분은 또한 이의 지문 및/또는 홍채로부터 결정할 수 있다. 연관성은 의도 메모리(164)에 저장된다. 사용자 고유의 연관성은 사용자와 함께 저장된다.
예를 들면, 사용자가 손을 내밀어 버튼을 눌러 새로운 웨이크업 문구를 설정하려고 하는 것을 탐지할 때, 의도 식별 모듈(162)이 사용자가 새로운 웨이크업 문구를 설정할 가능성이 크다고 판단한다. 예를 들면 카메라 및/또는 운동 센서가 출력하는 데이터가 사용자의 의도를 식별하는 데에 사용될 수 있다. 다른 일 예시로서, 사용자가 이미 한 빈 집에 들어갔다고 탐지할 때, 의도 식별 모듈(162)이 사용자가 명령 중추(104)와 상호 작용할 가능성이 크다고 판단한다. 예를 들면 입구에 위치한 카메라, 문에 근접한 운동 센서 및/또는 마이크가 출력하는 데이터가 사용자의 의도를 식별하는 데에 사용된다. 또 다른 일 예시로서, 특정 사용자가 방 안에서 15 분 동안 머무를 때, 의도 식별 모듈(162)이 방 안의 온도와 빛을 조절하고자 의도할 가능성이 있다고 식별한다. 예를 들면, 방 안의 운동 센서, CO2 센서, 마이크 및/또는 카메라가 출력한 데이터가 사용자의 신분과 사용자의 의도를 결정하는 데에 사용될 수 있다. 또 다른 일 예시로서, 특정 사용자가 예를 들면 에어컨 등 홈 디바이스에 접근할 때, 의도 식별 모듈(162)이 사용자가 에어컨과 상호 작용할 가능성이 크다고 판단한다. 예를 들면, 에어컨과 동일한 방 안에 있는 카메라, CO2 센서, 마이크 및/또는 카메라가 출력한 데이터가 사용자의 신분과 사용자의 의도를 결정하는 데에 사용될 수 있다.
의도 식별 모듈(162)이 결정된 의도를 기반으로 명령을 생성한다. 명령이 명령 중추(104) 및/또는 홈 디바이스를 촉발시켜, 예정된 동작에 대응되게 응답을 한다. 만일 사용자가 예정된 동작을 하면, 명령을 생성한다. 상응하게, 사용자가 예정된 동작을 하기 전, 명령 중추(104) 및/또는 홈 디바이스가 마치 사용자가 이미 예정된 동작을 한 것처럼 응답을 한다. 명령도 사용자와 결정된 의도를 확인하는 것을 통하여 명령 중추(104) 및/또는 홈 디바이스를 촉발시켜 응답을 한다. 예를 들면, 만일 사용자가 새로운 웨이크업 문구를 설정할 가능성이 아주 크다면, 의도 식별 모듈(162)이 명령을 생성하여 명령 중추(104)를 촉발시켜, 사용자에게 새로운 웨이크업 문구를 설정하기 원하는지 문의한다. 다른 일 예시로서, 만일 사용자가 명령 중추(104)와 상호 작용하고자 할 가능성이 아주 크다면, 의도 식별 모듈(162)이 웨이크업 명령을 생성한다. 그러므로, 만일 사용자가 명령을 말하고 웨이크업 문구를 말하지 않는다면, 명령 중추(104)는 사용자에게 응답한다. 또 다른 일 예시로서, 만일 사용자가 온도를 조절하고자 할 가능성이 아주 크다면, 의도 식별 모듈(162)이 명령을 생성하여 사용자의 기호에 의하여 온도를 조절한다. 또 다른 일 예시로서, 만일 사용자가 에어컨과 상호 작용하고자 할 가능성이 아주 크다면, 의도 식별 모듈(162)이 명령을 생성하여 사용자 인터페이스를 표시하고, 해당 사용자 인터페이스는 사용자에게 관련 옵션을 표시하여, 사용자가 수동으로 에어컨을 촉발시킬 필요가 없이 응답을 하도록 한다.
음성 식별 모듈(154)은 사용자의 문구를 해석하여 명령을 식별한다. 이는 통상적으로 문구를 예정 명령 어휘의 명령으로 전환시킨다. 일 예시에서, 음성 식별 모듈(154)이 사용자의 문구 중의 단어를 식별하여 명령을 식별한다. 명령 메모리(158)가 문구와 명령 간의 연관성을 저장한다. 음성 식별 모듈(154)은 많은 어휘량 음성 식별 기술을 사용하여 사용자의 문구를 해석할 수 있다. 단지 특정 웨이크업 명령을 식별하는 웨이크업 탐지 모듈(152)과 비교하면, 음성 식별 모듈(154)은 계산이 더욱 밀집된 조작을 실행한다. 일부 실시예에서, 디바이스가 휴면 모드일 때, 음성 식별 모듈(154)이 오프되고, 또한 음성 식별 모듈(154)은 단지 중추(104)가 활성화될 때만 명령을 식별한다. 웨이크업 명령이 명령 전 또는 후에 출현될 수 있기 때문에, 명령 중추(104)가 휴면 모드로부터 활성화될 때, 음성 식별 모듈(154)이 전에 보류된 사용자의 문구 및 현재 수집되고 있는 문구를 처리한다. 일부 실시예에서, 음성 식별 모듈(154)의 기능은 전부 또는 일부 클라우드 서비스를 통하여 제공될 수 있다. 중추(104)가 사용자의 문구를 클라우드 서비스를 제공하는 하나 또는 다수의 서버로 제공하여 처리한다.
명령 로직(156)이 음성 식별 모듈(154) 및/또는 의도 식별 모듈(162)로부터 명령을 수신하고 또한 명령을 실행한다. 가능한 명령 중의 하나는 새로운 웨이크업 문구를 웨이크업 명령으로 정의하는 사용자 정의 명령이다. 기본 웨이크업 문구는 "컴퓨터"일 수 있고, 또한 현재 사용자가 문구를 "Gort"로 바꾸고자 한다. 명령 로직(156)이 사용자를 위한 사용자 정의 명령을 실행한다. 사용자가 중추(104)를 위한 웨이크업 문구를 사용자 정의할 것을 청구할 때, 사용자가 사용자 정의 명령을 말하고, 그 후 웨이크업 명령에 대응하는 새로운 웨이크업 문구를 말한다. 명령 중추(104)가 사용자의 문구를 수집한다. 일부 실시예에서, 명령 로직(156)이 사용자의 문구로부터 새로운 웨이크업 문구를 식별하고, 또한 새로운 웨이크업 문구의 표시를 명령 메모리(158)에 저장하여 향후의 웨이크업 탐지에 사용한다.
웨이크업 문구는 서로 다른 방식으로 사용자 정의될 수 있다. 예를 들면, 다른 사용자는 명령 중추(104)를 사용자에 대하여 다른 웨이크업 문구를 사용하도록 설정할 수 있다. 일부 실시예에서, 명령 로직(156)이 식별된 웨이크업 문구를 단지 설정을 실행하여 해당 웨이크업 문구를 사용하는 사용자와 연관시킨다. 예를 들면, 에드먼드와 하리 두 사람은 모두 "Gort"를 사용하여 웨이크업 명령을 촉발시키는 문구로 하고, 마이클은 "Dolores"를 사용하여 웨이크업 명령을 촉발시킨다. 명령 로직(156)이 웨이크업 문구"Gort"를 에드먼드와 하리와 연관시키고, 웨이크업 문구 "Dolores"를 마이클과 연관시킨다. 사용자 고유의 사용자 ID 를 통하여 사용자를 표시한다. 선택적으로, 명령 중추(104)를 모든 사용자가 동일한 (다수의) 웨이크업 문구를 사용하도록 설정할 수 있다. 예를 들면, 만일 마이클이 최근에 중추를 설정하였다면, 모든 사용자에 있어서, 웨이크업 문구는 "Dolores"이다. 선택적으로, "Gort"와 "Dolores" 두 개는 모두 웨이크업 문구로 탐지될 수 있다.
명령 로직(156)은 웨이크업 명령을 나타내는 문구의 모델을 생성할 수 있고, 이는 웨이크업 탐지 모델(152)에 의하여 웨이크업 명령을 식별하는 데에 사용될 수 있다. 명령 로직(156)은 웨이크업 문구를 나타내는 모델을 취득할 수 있고, 해당 모델은 예를 들면 클라우드 서비스로부터 온 훈련 데이터를 사용하여 오프라인 훈련된다. 일부 실시예에서, 모델에는 사용자의 웨이크업 명령 문구를 나타내는 문구 모델이 포함된다. 웨이크업 문구 모델에는 사용자의 웨이크업 명령 문구의 특성을 나타내는 특징, 예를 들면 싱글 톤, 싱글 톤 시퀀스, 음성 거리, 음소, 음소 간의 과도, 투 톤, 쓰리 톤과 음절 등이 포함된다. 특징에는 하기 내용에서 추가적으로 기술되는 사용자의 음성의 특성을 나타내는 특징이 포함될 수 있다. 명령 로직(156)은 사용자의 추가 웨이크업 명령 문구 및/또는 업데이트 훈련 데이터를 사용하여 모델을 업데이트시킬 수 있다. 모델은 사용자와 연관되고 또한 명령 메모리(158)에 저장된다.
일부 실시예에서, 명령 로직(156)은 나아가 사용자를 위한 성문을 개발한다. 사용자가 말할 때, 명령 로직(156)이 사용자를 위한 성문을 생성한다. 예를 들면, 명령 로직(156)이 사용자로 하여금 자유롭게 말하게 하거나(텍스트에 상관없이) 또는 지정하여 말하여(텍스트에 의거하여), 사용자의 음성과 문구의 특성을 수집한다. 일부 실시예에서, 이미 사용자를 위하여 문성을 설정한 후, 명령 로직(156)이 추가적으로 사용자와 명령 중추(104)가 상호 작용할 때 사용할 수 있는 추가의 샘플을 사용하여 성문을 업데이트한다.
일부 예시에서, 명령 로직(156)이 새로운 웨이크업 문구가 혼란을 일으킬지를 평가한다. 만일 명령 중추(104)가 무의식 중에 웨이크업될 가능성이 크거나 또는 사용자가 원하는 대로 웨이크업될 수 없다면, 웨이크업 문구는 혼란을 일으킬 가능성이 크다. 예를 들면, 경상적으로 사용되거나, 듣기에 기타 단어와 유사하거나 또는 이미 다른 명령을 나타내는 데에 사용된 웨이크업 문구는 혼란을 일으킬 가능성이 크다. 일 방법에서, 명령 로직(156)이 예를 들면 예정 사용, 사용 빈도 또는 음성 유사도 중의 하나 또는 다수의 요소를 기반으로 점수를 계산하여 혼란을 일으킬 가능성을 평가한다.
종래의 명령을 검열하는 것을 통하여 예정 사용을 확인할 수 있다. 예를 들면, 만일 "Gort"가 이미 전자레인지를 켜는 명령으로 코딩되었다면, 이를 명령 중추(104)를 위한 웨이크업 문구로 사용하면 혼란을 일으킬 가능성이 높다. 영어 또는 기타 언어의 말뭉치로부터 또는 특정 사용자의 사용을 모니터링하는 것을 통하여 사용 주파수를 결정할 수 있다. 단어의 일부 음절의 발음을 포함하는 단어 발음과 일부 발음을 포함하는 기타 단어의 발음을 비교하는 것을 통하여 음성 유사도를 결정할 수 있다. 만일 웨이크업 문구가 혼란을 일으킬 가능성이 크다면, 명령 로직(156)이 사용자에게 경고하고 또한 웨이크업 문구를 사용하기 전에 사용자와 확인하도록 설정한다. 선택적으로, 만일 웨이크업 문구가 혼란을 일으킬 가능성이 크다면, 명령 로직(156)이 사용자에게 다른 웨이크업 문구를 사용하도록 알린다. 사용자가 웨이크업 문구를 업데이트시킬 것을 청구할 때, 명령 로직(156)이 명령 메모리(158)에 저장된 웨이크업 문구를 업데이트시킨다. 웨이크업 문구를 업데이트시키는 과정은 상기의 내용에 기술된 웨이크업 문구를 생성하는 과정과 유사하다.
일부 실시예에서, 명령 로직(156)이 입력된 단어가 부정적 단어 또는 기타 금지 단어인지 검사하고, 그리고 사용자에게 다른 웨이크업 문구를 사용하여 대체할 것을 알린다.
일부 실시예에서, 특정된 명령 중추와 특정 웨이크업 문구가 연관된다. 명령 로직(156)이 특정 사용자의 웨이크업 문구를 명령 메모리(158)에 저장한다. 일부 실시예에서, 특정된 명령 중추에 있어서, 다른 사용자는 다른 웨이크업 문구를 사용하도록 설정될 수 있다. 명령 로직(156)이 웨이크업 문구와 대응하는 사용자를 연관시키고, 또한 웨이크업 문구와 연관성을 명령 메모리(158)에 저장한다.
일부 실시예에서, 사용자가 디바이스 그룹이 동일한 웨이크업 명령에 의하여 활성화되도록 설정할 수 있다. 사용자는 위의 내용에 기술된 바와 같은 과정을 사용하여 디바이스 그룹 중의 한 디바이스를 설정한다. 일부 실시예에서, 명령 로직(156)이 웨이크업 명령과 디바이스 그룹을 연관시킨다. 중추(104) 자체가 웨이크업될 때, 중추(104)가 촉발되어 디바이스 그룹 중의 기타 디바이스를 웨이크업시키는바, 그 중에서, 예를 들면 기타 디바이스를 웨이크업시키는 신호를 송신하는 것을 통하여 기타 디바이스를 웨이크업시킬 수 있다. 일부 실시예에서, 명령 로직(156)이 웨이크업 문구를 디바이스 그룹으로 할당시킨다. 디바이스 그룹은 동일한 구역에 있을 수 있다. 사용자는 웨이크업 그룹 중의 하나의 디바이스가 그룹 중의 모든 디바이스를 웨이크업시키도록 설정할 수 있다. 사용자가 그룹을 새로운 디바이스를 포함하거나 또는 종래의 디바이스를 제거하도록 업데이트시킬 때, 명령 로직(156)이 웨이크업 문구를 새로운 디바이스까지 확장시키거나 또는 제거된 디바이스로부터 웨이크업 문구 설정을 제거한다.
다시 도 1을 참조하면, 스피커(160)가 소리를 사용자에게 출력함으로써, 예를 들면 경고, 경보, 확인, 명령 등 다른 뜻을 지시한다. 그러므로 사용자는 음성을 통하여 음성 제어 중추(104)와 상호 작용한다.
명령 중추(104)에는 예를 들면 디스플레이 또는 진동 소자의 추가 또는 대체 출력 인터페이스가 포함될 수 있다.
도시된 예시에서, 음성 명령 모듈(150)은 독립 디바이스의 명령 중추(104)에서 실시된 것이다. 음성 명령 모듈(150) 및 그 부품은 또한 이동 디바이스(예를 들면, 스마트폰, 태블릿 PC 또는 휴대용 컴퓨터), 데스크톱 또는 가상 비서에서 실시될 수 있다. 이는 또한 예를 들면 위의 내용에 기술된 홈 디바이스와 집적되거나 또는 예를 들면 위의 내용에 기술된 홈 디바이스로 실시될 수 있다.
도 2는 일 실시예에 의하여 사용자 정의 가능한 웨이크업 명령을 설정하는 예시적 과정을 도시한다. 에드먼드(102)가 명령 중추(104)를 위한 웨이크업 문구를 설정 또는 변경시킬 것을 청구한다(202). 디바이스의 능력과 설정에 따라, 사용자는 여러 가지 방식으로 웨이크업 문구를 설정하도록 청구할 수 있다. 예를 들면, 사용자가 음성 명령 "웨이크업 명령 설정"을 발행하는 것은, 버튼을 누르거나 또는 사용자의 핸드폰에 표시된 "웨이크업 명령 설정"을 클릭한다. 중추(104)가 에드먼드(102)로부터 청구를 수신한다(204). 일부 실시예에서, 중추(104)는 최초에 웨이크업 명령 설정을 준비하는 상태에 있다. 예를 들면, 중추(104)가 클라우드 서비스(200) 연결되었는지 검사하고, 만일 연결되지 않았다면, 사용자의 신분을 이미 알고 있는지를 식별하고, 또한 만일 사용자를 알 수 없다면, 사용자를 위하여 사용자 ID를 지정한다. 중추(104)가 에드먼드로 응답을 송신하여(206), 중추(104)가 웨이크업 명령을 설정하도록 준비하게 할 것을 지시한다. 응답은 소리, 빛 지시, 진동, 시각 표시와 중추(104)의 설정에 의하여 결정되는 기타 형식일 수 있다. 에드먼드(102)가 "Gort"라 말한다(208). 일부 실시에서, 중추(104)가 사용자를 지도하여 웨이크업 문구를 여러 차례 반복하도록 한다. 중추(104)가 에드먼드의 문구인 음성 입력을 수신한다(210).
디바이스가 수신된 음성 입력을 클라우드 서비스(200)로 송신한다(212). 아래의 내용에서 더 설명하는 바와 같이, 클라우드 서비스(200)가 수신된 음성 입력을 처리한다. 해당 예시에서, 클라우드 서비스(200)가 예를 들면 많은 어휘량 음성 식별 기술을 사용함으로써 (다수의) 단어(예를 들면, "Gort")를 식별한다(214).
클라우드 서비스(200)는 예를 들면 은닉 마코프 모델, 딥 순방향 신경망 또는 기타 많은 어휘량 음성 식별 모델의 기술을 사용하여 사용자가 말한 하나 또는 다수의 단어를 식별할 수 있다. 클라우드 서비스(200)가 임의의 단어가 식별되었는지를 검사한다(216).
이미 식별된 단어에 대하여, 클라우드 서비스(200)가 혼란의 가능성을 계산하는 바(218), 혼란은 명령 중추(104)가 예상 밖으로 활성화되거나 또는 사용자가 예상대로 활성화할 수 없는 가능성을 반영한다. 만일 웨이크업 문구가 이미 기타 명령에 사용되도록 코딩되었거나, 또는 일상적인 회화에 정상적으로 사용된다면, 해당 웨이크업 문구를 사용하면 예상 밖으로 명령 중추(104)를 활성화시킬 수 있다. 만일 웨이크업 문구가 듣기에 기타 단어와 유사하다면, 해당 웨이크업 문구를 사용하면 명령 중추(104)가 예상대로 활성화되지 않을 가능성이 크다. 클라우드 서비스(200)가 산출된 가능성과 한계점을 비교하여(220), 사용자의 선택이 혼란을 초래할 가능성이 큰지를 결정한다. 만일 해당 선택이 혼란을 초래할 가능성이 적다고 판단되면, 클라우드 서비스(200)가 해당 단어를 나타내는 사용자 문구의 모델을 생성한다(222). 모델은 범용 모델일 수 있고, 또한 예를 들면 대량의 말하는 자의 웨이크업 명령 문구의 훈련 데이터를 통하여 개발한다는 것을 사용한다. 모델은 특정 사용자의 문구를 나타낼 수 있다. 클라우드 서비스(200)가 명령 중추(104)를 위하여 식별된 문구와 모델을 제공한다(224). 명령 중추(104)가 문구와 모델을 저장한다(226). 명령 중추(104)가 해당 모델을 사용하여 웨이크업 문구를 식별한다. 일부 실시예에서, 클라우드 서비스(200)가 단지 명령 중추(104)까지만 모델을 제공한다. 중추(104)가 사용자(102)에게 확인을 송신하여(228), 웨이크업 명령이 성공적으로 설정되었음을 지시한다. 확인은 소리, 빛 지시, 진동, 시각 표시와 중추(104)의 설정에 의하여 결정되는 기타 형식일 수 있다.
일부 실시에서, 클라우드 서비스(200)가 식별된 문구와 사용자 및 명령 중추(104)를 연관시키고, 또한 해당 연관성을 저장한다. 클라우드 서비스(200)가 나아가 사용자를 위하여 생성한 모델을 저장한다.
만일 클라우드 서비스(200)가 식별된 단어가 없거나, 또는 식별된 단어가 혼란을 초래할 가능성이 한계점을 초과한다고 판단하면, 클라우드 서비스(200)가 명령 중추(104)로 경고를 송신한다(230). 기타 실시에서, 클라우드 서비스(200)가 식별된 단어가 없다고 판단한다 할지라도, 클라우드 서비스(200)가 사용자의 음성 입력을 기반으로 문구 모델(222)을 생성한다. 중추(104)가 에드먼드(102)에게 경고를 송신하여(232), 설정에 성공하지 못하였음을 지시한다.
해당 예시에서, 클라우드 서비스(200)가 단어를 식별하고, 또한 단어가 식별되었는지 결정하고, 혼란의 가능성을 계산하며, 또한 단어가 혼란을 초래할 가능성이 큰지를 판단하고, 단어 및/또는 단어의 문구를 나타내는 모델을 생성한다. 이러한 조작 중의 하나 또는 다수는 명령 중추(104)에 의하여 실행될 수 있다.
도 3은 일 실시예에 의하여 본문에서의 상기 사용자 정의된 웨이크업 문구를 사용하여 명령 중추(104)를 활성화시키는 과정을 도시한다. 도 3 에 관한 검토에 있어서, 명령 중추(104)는 초기에 휴면 모드에 있고, 또한 음성 명령을 실행할 준비가 되어 있지 않다. 사용자가 일부 문구를 말한다(302). 중추(104)가 저전력 모드에 있으나, 주위 환경 중의 소리를 탐지한다. 중추(104)가 음성 입력을 수신한다(304). 음성 입력이 보류된다. 중추(104)가 사용자(102)가 인정된 사용자인지를 결정한다(306). 예를 들면, 중추(104)가 수신된 음성 입력을 사용하여 성문을 결정하고, 또한 사용자의 성문과 중추(104)를 사용하도록 인정된 사용자의 성문을 매칭한다. 매칭된 것을 식별할 때, 중추(104)가 해당 사용자를 인정된 사용자로 결정한다. 만일 사용자가 인정된 사용자가 아니면, 중추(104)가 계속하여 주위 환경 중의 소리 입력을 탐지한다. 일부 실시예에서, 중추(104)가 사용자의 신분을 기반으로 웨이크업 명령을 식별한다. 중추(104)가 사용자에 대응하는 웨이크업 문구를 검색한다.
만일 사용자(102)가 인정된 사용자이면, 중추(104)가 사용자의 음성 입력에 웨이크업 문구가 포함되었는지를 결정한다(308). 한 가지 또는 여러 가지 음성 식별 기술을 사용하여 웨이크업 명령 식별을 실행할 수 있다. 저전력 모드의 일부 실시예에서, 명령 중추(104)는 단지 중추(104)를 사용하도록 인정된 사용자가 설정한 하나 또는 다수의 웨이크업 문구를 식별하도록 설정된다. 예를 들면, 명령 중추(104)가 웨이크업 명령을 나타내는 명령 문구 및/또는 사용자 문구의 하나 또는 다수의 모델을 사용하여 웨이크업 문구를 식별하는바, 모델에는 예를 들면 은닉 마코프 모델, 가우시안 혼합 모델, 대사전 및/또는 자연 언어 처리 알고리즘이 있다. 만일 웨이크업 문구가 식별된 것이 없다면, 명령 중추가 계속하여 주위 환경 중의 소리 입력을 탐지한다.
만일 사용자(102)를 위한 웨이크업 명령을 식별하였다면, 명령 중추(104)가 저전력 모드에서 웨이크업되어(310) 활성화되도록 한다. 명령 중추(104)는 명령 중추(104)가 이미 활성화되었다는 것을 사용자(102)에게 지시할 수 있다. 웨이크업 명령을 탐지한 후, 명령 중추(104)는 사용자(102)를 통하여 말한 추가 음성 입력을 수신할 수 있다(312). 명령 중추(104)가 음성 입력을 클라우드 서비스(200)로 송신하여(314), 하나 또는 다수의 명령의 식별에 사용한다. 송신된 음성 입력에는 사용자(102)가 웨이크업 명령을 말한 후부터의 시간 동안 내에 말한 음성 입력이 포함된다. 예를 들면, 사용자(102)가 "Gort, 지금 몇시지? 나의 다음 약속이 몇시지?"라고 말하면, 음성 입력 "지금 몇시지"가 클라우드 서비스(200)로 송신되어 분석을 진행하는바, 이는 웨이크업 명령 "Gort"를 말한 후 시작한 일정한 시간 동안 내에 말한 것이기 때문이다. 중추(104)가 음성 입력 "지금 몇시지"와 "나의 다음 약속이 몇시지"를 클라우드 서비스(200)로 송신하여 분석한다.
클라우드 서비스(200)가 수신된 음성 입력으로부터 유래된 명령을 식별한다(316). 클라우드 서비스(200)는 사용자의 음성 입력을 해석할 수 있는 예를 들면 음향학 모델 또는 언어 모델의 음성 식별 기술 또는 자연 언어 처리 기술을 사용한다. 위의 예시를 계속하면, 클라우드 서비스(200)가 음성 입력 "지금 몇시지"와 "나의 다음 약속이 몇시지"로부터 명령 "시간"과 "캘린더"를 식별한다. 클라우드 서비스(200)가 식별된 (다수의) 명령을 중추(104)로 송신한다(318). 중추(104)가 수신된 명령을 실행한다(320). 중추(104)가 사용자(102)에게 청구한 결과 또는 확인을 지시하는 응답을 송신한다(322). 예를 들면, 중추(104)가 현재 시간과 캘린더 중의 다음 이벤트를 사용자(102)에게 리턴한다. 만일 식별된 명령이 없거나 또는 중추(104)가 식별된 명령을 실행할 수 없다면, 중추(104)가 상응하게 사용자를 경고한다.
도 4는 고급 블럭도로서, 이는 도 1에 도시된 부품을 실시하기 위한 예시적 디바이스(400)를 도시한다. 디바이스(400)에는 칩/칩셋(404)이 포함되고, 해당 칩/칩셋(404)에는 적어도 하나의 프로세서(402), 메모리 제어 중추(420)와 입력/출력(I/O) 제어 중추(422)가 포함된다. 메모리(406)는 메모리 제어 중추(420)에 연결된다. 저장 디바이스(408), I/O 인터페이스(414)와 네트워크 어댑터(416)는 I/O 제어 중추(422)에 연결된다. 디바이스(400)의 기타 실시예는 다른 프레임을 구비한다.
저장 디바이스(408)는 비 순간적 컴퓨터 판독 가능 저장 매체, 예를 들면 하드웨어 드라이버, 시디롬(CD-ROM), DVD 또는 고체 저장 디바이스이다. 메모리(406)는 프로세서(402)에 의해 사용되는 지령과 데이터를 유지한다. I/O 인터페이스(414)는 예를 들면 마이크, 터치스크린 인터페이스, 마우스, 트랙볼 또는 기타 유형의 클릭 디바이스, 키보드 또는 일부 조합된 디바이스를 지지할 수 있고, 또한 데이터를 디바이스(400)로 입력한다. 일부 실시예에서, 디바이스(400)는 사용자로부터의 제스처(gestures)를 통하여 I/O 인터페이스로부터 입력(예를 들면, 명령)을 수신한다. I/O 인터페이스도 출력, 예를 들면 디스플레이와 스피커를 지지할 수 있다. 네트워크 어댑터(416)가 디바이스(400)를 하나 또는 다수의 컴퓨터 네트워크에 연결한다.
디바이스(400)는 본문에 기술된 기능을 제공하는 컴퓨터 프로그램 모듈을 실행하기 적합하다.
본문에 사용된 바와 같이, 용어 "모듈"은 규정된 기능을 제공하기 위한 컴퓨터 프로그램 로직을 가리킨다. 그러므로, 모듈은 하드웨어, 펨웨어 및/또는 소프트웨어 중에서 실시될 수 있다. 일 실시예에서, 프로그램 모듈은 저장 디바이스(408)에 저장되고, 메모리(406)에 로딩되고 또한 프로세서(402)를 통하여 실행된다.
도 1의 실체에 사용되는 디바이스(400)의 유형은 실시예와 실체가 요구하는 처리 전력에 따라 다를 수 있다. 예를 들면, 클라우드 서비스는 단일 디바이스(400) 또는 예를 들면 서버 팜의 네트워크를 통하여 서로 통신하는 다수의 컴퓨터(400) 중에서 실행될 수 있다. 컴퓨터(400)는 상기에 기술된 부품 중의 일부가 포함되지 않을 수 있다.
본 개시의 특정 실시예와 응용을 도시 및 기술하였지만 실시예는 본문에 개시된 정확한 구조와 부품에 제한되지 않고, 또한 본 개시의 사상과 범위를 벗어나지 않는 상황 하에서, 본문에 개시된 본 개시의 방법과 디바이스의 배치, 조작과 세부 사항은 다양한 수정, 변경과 변형을 진행할 수 있다. 예를 들면, 음성 명령 모듈(150)은 각각 단일 홈 디바이스 중에서 단독으로 실시되고, 중심 명령 중추(104)에서 실시하는 것이 아니다. 다른 일 예시로서, 웨이크업 탐지 모듈(152)은 총 음성 식별 모듈(154)과 명령 로직(156)의 일부로 실시되고, 독립적인 부품이 아닐 수 있다.
상기 기술 중의 일부는 알고리즘 과정과 조작 방면에서 실시예를 기술하였다. 이러한 알고리즘 기술과 표시는 데이터 처리 분야의 기술자들에게 일반적으로 이들의 작업의 기본 내용을 효과적으로 본 발명이 속하는 기술분야의 기타 기술자들에게 전달할 때 사용된다. 기능, 계산 또는 로직 방면에서 이러한 조작을 기술하였지만, 이러한 조작은 프로세서 또는 등가 회로에 의하여 실행되는 명령, 마이크로 명령 등을 포함하는 컴퓨터 프로그램을 통하여 실시되는 것으로 이해되어야 한다. 그밖에, 일반성을 잃지 않는 상황 하에서, 어떤 때는 기능 조작의 이러한 배치를 모듈이라 지칭하는 것도 편리하다. 기술된 조작 및 그 연관 모듈은 소프트웨어, 펨웨어, 하드웨어 또는 그 임의의 조합을 통하여 구현될 수 있다.
본문에서 사용된 바와 같이, "일 실시예" 또는 "실시예"의 임의의 인용은 실시예에 기술된 특정 소자, 특징, 구조 또는 특성을 참조하여 적어도 하나의 실시예에 포함되었다는 것을 뜻한다. 명세서 각 부분에 나타난 문구 "일 실시예에서"는 동일한 실시예를 뜻하는 것이 아니다.
본문에서 사용된 바와 같이, 용어 "포괄하다", "포함되다", "구비되다" 또는 그 임의 기타 변형은 비 배타적인 포함을 포함하도록 의도한다. 예를 들면, 일련의 소자를 포함하는 과정, 방법, 물품 또는 디바이스는 단지 이러한 소자에 제한될 필요가 없고, 명확하게 나열되지 않거나 이러한 유형의 과정, 방법, 물품 또는 디바이스의 고유의 기타 소자를 포함할 수 있다. 그리고, 명확하게 반대되는 뜻을 가리키지 않는 한, "또는"은 포함적인 "또는"을 뜻하고 배타적인 "또는"을 뜻하는 것이 아니다. 예를 들면, 조건 A 와 B는 하기 중의 어느 한 항을 통하여 만족되는바, A가 진짜(또는 존재함)이고 또한 B가 가짜(또는 존재하지 않은), A가 가짜(또는 존재하지 않음)이고 또한 B가 진짜(또는 존재함)이며, 및 A와 B가 모두 진짜(또는 존재함)이다.
그리고, "하나" 또는 "한 가지"의 사용은 본문 중에 실시예의 소자와 부품을 기술하기 위한 것이다. 이는 단지 편의를 위한 것이고, 또한 본 개시의 일반적인 의미를 나타낸다. 해당 기술은 하나 또는 적어도 하나를 포함한다는 것으로 이해해야 하고, 또한 뚜렷하게 다른 뜻이 존재하지 않는 한, 단수도 복수를 포함한다.

Claims (23)

  1. 적어도 하나의 프로세서를 포함하는 전자 디바이스 상에서 실행하는 방법으로서,
    사용자로부터 문구를 수신하여 상기 문구를 예정 명령 어휘로부터 유래된 명령으로 전환시키는 단계 - 상기 예정 명령 어휘는 웨이크업 명령에 대응하는 새로운 웨이크업 문구를 정의하기 위한 사용자 정의 명령을 포함함 -;
    한 사용자로부터 수신된 제1 문구가 사용자 정의 명령에 대응된다고 결정함에 응답하는 단계;
    상기 사용자로부터 제2 문구를 수신하는 단계;
    상기 제2 문구가 상기 웨이크업 명령에 대응하는 새로운 웨이크업 문구로 사용되어 혼란을 초래할 가능성을 결정하는 단계; 및
    상기 혼란을 초래할 가능성이 한계점보다 낮다고 결정하는 것에 응답하여, 상기 제2 문구를 상기 웨이크업 명령에 대응하는 새로운 웨이크업 문구로 설정하는 단계
    를 포함하되,
    상기 웨이크업 명령은 제1 영역에 대응하는 홈 디바이스 그룹을 웨이크업하고, 상기 홈 디바이스 그룹은 첫 번째로 상기 웨이크업 명령에 의하여 웨이크업된 제1 홈 디바이스 및 상기 제1 영역에도 위치하고 상기 제1 홈 디바이스로부터 상기 웨이크업 명령을 수신한 하나 또는 다수의 제2 홈 디바이스를 포함하는 것을 특징으로 하는, 방법.
  2. 제1항에 있어서,
    상기 제2 문구가 상기 웨이크업 명령에 대응하는 새로운 웨이크업 문구로 사용되어 혼란을 초래할 가능성을 결정하는 단계는,
    상기 제2 문구가 제1 선정된 말뭉치 중에서 사용되는 빈도에 적어도 부분적으로 기반하여 혼란을 초래할 가능성을 결정하는 것을 포함하는 것을 특징으로 하는, 방법.
  3. 제1항에 있어서,
    상기 혼란을 초래할 가능성이 상기 한계점을 초과한다고 결정하는 것에 응답하여, 상기 사용자를 위하여 경고를 생성하는 단계를 더 포함하는 것을 특징으로 하는, 방법.
  4. 제1항에 있어서,
    하나 또는 다수의 센서로부터 데이터를 수신하는 단계;
    수신된 데이터를 사용하여 사용자의 의도를 식별하는 단계 - 상기 사용자의 의도는 상기 사용자가 수행할 가능성이 큰 동작에 대응됨 - ; 및
    상기 사용자의 의도에 대응하는 명령을 생성하는 단계 - 상기 명령은 적어도 하나의 홈 디바이스가 상기 동작에 대응하는 응답을 진행하는 것을 유발함 - 를 더 포함하는 것을 특징으로 하는, 방법.
  5. 제1항에 있어서,
    상기 전자 디바이스는 홈 디바이스 네트워크에 사용하는 중추로서, 상기 중추는 하나 또는 다수의 홈 디바이스의 명령을 실행하며, 또한, 상기 웨이크업 명령은 상기 중추를 웨이크업시키는 것을 특징으로 하는, 방법.
  6. 제1항에 있어서,
    다른 사용자로부터 수신되는 다른 웨이크업 문구를 동일한 웨이크업 명령으로 전환하는 단계를 더 포함하는 것을 특징으로 하는, 방법.
  7. 제6항에 있어서,
    상기 다른 사용자의 다른 웨이크업 문구는 상기 사용자에 의하여 정의한 제1 웨이크업 문구와 다른 사용자에 의하여 정의한 제2 웨이크업 문구를 포함하고, 또한
    상기 제1 웨이크업 문구와 상기 제2 웨이크업 문구는 다른 테스트에 대응하는 것을 특징으로 하는, 방법.
  8. 제1항에 있어서,
    상기 제1 영역에 대응하는 홈 디바이스 그룹에 새로운 홈 디바이스를 첨가하는 사용자 입력을 탐지하는 단계; 및
    상기 제1 영역에 대응하는 홈 디바이스 그룹에 새로운 홈 디바이스를 첨가하는 사용자 입력을 탐지한 후, 상기 제1 영역에 대응하는 홈 디바이스 그룹 중의 하나의 홈 디바이스가 상기 웨이크업 명령을 수신한 것으로 결정함에 따라, 상기 웨이크업 명령을 자동으로 확장하여 상기 홈 디바이스 그룹에 첨가된 새로운 홈 디바이스를 웨이크업시키도록 하는 단계를 더 포함하는 것을 특징으로 하는, 방법.
  9. 제1항에 있어서,
    입력 보류 중에 기록한 음성 입력을 웨이크업 탐지 모듈에 송신하는 단계;
    상기 음성 입력 중에서 상기 새로운 웨이크업 문구를 탐지하는 단계; 및
    상기 새로운 웨이크업 문구 전에 상기 입력 보류 중에 녹음된 음성 입력 단락을, 사용자의 의도를 결정하기 위한 서버로 전송하는 단계를 더 포함하는 것을 특징으로 하는, 방법.
  10. 제1항에 있어서,
    상기 제2 문구가 현재 상기 예정 명령 어휘 중의 하나로 사용되는지 여부에 기반하여 상기 제2 문구가 상기 웨이크업 명령에 대응하는 새로운 웨이크업 문구로 사용되어 혼란을 초래할 가능성을 결정하는 것을 특징으로 하는, 방법.
  11. 제1항에 있어서,
    상기 제2 문구와 기타 문구의 발음이 유사한 정도에 기반하여 상기 제2 문구가 상기 웨이크업 명령에 대응하는 새로운 웨이크업 문구로 사용되어 혼란을 초래할 가능성을 결정하는 것을 특징으로 하는, 방법.
  12. 제1항에 있어서,
    상기 새로운 웨이크업 문구를 상기 제2 문구를 말하는 사용자와 관련시키는 단계를 더 포함하는 것을 특징으로 하는, 방법.
  13. 전자 디바이스로서,
    메모리와 프로세서를 포함하되,
    상기 메모리에는 프로그램 명령어가 저장되고, 상기 프로세서는 상기 프로그램 명령어를 실행하여 제1항 내지 제12항 중 어느 한 항의 방법을 실행하도록 하는 것을 특징으로 하는, 전자 디바이스.
  14. 생활 환경 중의 홈 디바이스 네트워크로서,
    홈 디바이스 네트워크를 통하여 연결된 다수의 홈 디바이스; 및
    제13항에 따른 전자 디바이스를 포함하는 것을 특징으로 하는, 생활 환경 중의 홈 디바이스 네트워크.
  15. 명령어가 포함되는 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 명령어가 컴퓨터에 의하여 실행될 때, 상기 컴퓨터는 제1항 내지 제12항 중 어느 한 항의 방법을 실행시키는 것을 특징으로 하는, 컴퓨터 판독 가능 저장 매체.
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
KR1020197038378A 2017-07-24 2018-06-06 사용자 정의 가능한 웨이크업 음성 명령 KR102293063B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/658,357 2017-07-24
US15/658,357 US10504511B2 (en) 2017-07-24 2017-07-24 Customizable wake-up voice commands
PCT/CN2018/090062 WO2019019812A1 (en) 2017-07-24 2018-06-06 CUSTOMIZABLE VOICE ALARM CONTROLS

Publications (2)

Publication Number Publication Date
KR20200012928A KR20200012928A (ko) 2020-02-05
KR102293063B1 true KR102293063B1 (ko) 2021-08-23

Family

ID=65023109

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197038378A KR102293063B1 (ko) 2017-07-24 2018-06-06 사용자 정의 가능한 웨이크업 음성 명령

Country Status (6)

Country Link
US (1) US10504511B2 (ko)
EP (1) EP3619707B1 (ko)
JP (1) JP6887031B2 (ko)
KR (1) KR102293063B1 (ko)
CN (1) CN110832578B (ko)
WO (1) WO2019019812A1 (ko)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10854199B2 (en) * 2016-04-22 2020-12-01 Hewlett-Packard Development Company, L.P. Communications with trigger phrases
CN107623614B (zh) * 2017-09-19 2020-12-08 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN107919119A (zh) * 2017-11-16 2018-04-17 百度在线网络技术(北京)有限公司 多设备交互协同的方法、装置、设备及计算机可读介质
US10482878B2 (en) * 2017-11-29 2019-11-19 Nuance Communications, Inc. System and method for speech enhancement in multisource environments
US10586537B2 (en) * 2017-11-30 2020-03-10 International Business Machines Corporation Filtering directive invoking vocal utterances
US10672380B2 (en) * 2017-12-27 2020-06-02 Intel IP Corporation Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system
US10885919B2 (en) * 2018-01-05 2021-01-05 Nuance Communications, Inc. Routing system and method
US20190295541A1 (en) * 2018-03-23 2019-09-26 Polycom, Inc. Modifying spoken commands
EP3756087A4 (en) * 2018-06-05 2021-04-21 Samsung Electronics Co., Ltd. PASSIVE WAKE-UP PROCESSES AND SYSTEMS OF A USER INTERACTION DEVICE
US10825451B1 (en) * 2018-06-25 2020-11-03 Amazon Technologies, Inc. Wakeword detection
US10762896B1 (en) 2018-06-25 2020-09-01 Amazon Technologies, Inc. Wakeword detection
KR20200050235A (ko) * 2018-11-01 2020-05-11 삼성전자주식회사 전자 장치 및 그의 지능형 인터랙션 방법
US11232788B2 (en) 2018-12-10 2022-01-25 Amazon Technologies, Inc. Wakeword detection
CN109887505A (zh) * 2019-03-11 2019-06-14 百度在线网络技术(北京)有限公司 用于唤醒设备的方法和装置
US11482215B2 (en) 2019-03-27 2022-10-25 Samsung Electronics Co., Ltd. Multi-modal interaction with intelligent assistants in voice command devices
US11132992B2 (en) 2019-05-05 2021-09-28 Microsoft Technology Licensing, Llc On-device custom wake word detection
US11222622B2 (en) * 2019-05-05 2022-01-11 Microsoft Technology Licensing, Llc Wake word selection assistance architectures and methods
US11158305B2 (en) 2019-05-05 2021-10-26 Microsoft Technology Licensing, Llc Online verification of custom wake word
KR20210044606A (ko) * 2019-10-15 2021-04-23 삼성전자주식회사 웨이크업 모델 생성 방법 및 이를 위한 전자 장치
US11295741B2 (en) * 2019-12-05 2022-04-05 Soundhound, Inc. Dynamic wakewords for speech-enabled devices
CN111312222B (zh) * 2020-02-13 2023-09-12 北京声智科技有限公司 一种唤醒、语音识别模型训练方法及装置
US20210287681A1 (en) * 2020-03-16 2021-09-16 Fidelity Information Services, Llc Systems and methods for contactless authentication using voice recognition
CN111599350B (zh) * 2020-04-07 2023-02-28 云知声智能科技股份有限公司 一种命令词定制识别方法及系统
CN112435663A (zh) * 2020-11-11 2021-03-02 青岛歌尔智能传感器有限公司 命令语音管理方法、装置、设备及介质
US11862155B2 (en) 2020-12-11 2024-01-02 Google Llc Group hotwords
TWI765485B (zh) * 2020-12-21 2022-05-21 矽統科技股份有限公司 外接式語音喚醒裝置及其控制方法
KR20220099003A (ko) * 2021-01-05 2022-07-12 삼성전자주식회사 전자 장치 및 이의 제어 방법
KR20220141137A (ko) * 2021-04-12 2022-10-19 삼성전자주식회사 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법
KR102378895B1 (ko) * 2021-09-29 2022-03-28 주식회사 인피닉 음성 인식을 위한 호출어 학습 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
CN114189401A (zh) * 2021-11-22 2022-03-15 珠海格力电器股份有限公司 一种语音家电控制方法、装置及系统
KR20240000245A (ko) 2022-06-23 2024-01-02 고려대학교 산학협력단 전류 기반의 아날로그 연산과 시간 기반의 아날로그-디지털 변환을 지원하는 컴퓨팅 인 메모리 전자 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001005485A (ja) * 1999-05-21 2001-01-12 Inf Storage Devices Inc 音声制御デバイスの活動化を向上させる方法および装置
JP2002120177A (ja) * 2000-10-11 2002-04-23 Sony Corp ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2002318843A (ja) * 2001-04-20 2002-10-31 Misawa Homes Co Ltd 設備機器遠隔管理システム、設備機器遠隔管理装置、設備機器遠隔管理方法および記憶媒体
JP2005110218A (ja) * 2003-09-10 2005-04-21 Matsushita Electric Ind Co Ltd 機器連携装置
US20140012586A1 (en) * 2012-07-03 2014-01-09 Google Inc. Determining hotword suitability

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6963759B1 (en) 1999-10-05 2005-11-08 Fastmobile, Inc. Speech recognition technique based on local interrupt detection
JP4662861B2 (ja) * 2006-02-07 2011-03-30 日本電気株式会社 モニタリング装置、評価データ選別装置、応対者評価装置、応対者評価システムおよびプログラム
US8234120B2 (en) * 2006-07-26 2012-07-31 Nuance Communications, Inc. Performing a safety analysis for user-defined voice commands to ensure that the voice commands do not cause speech recognition ambiguities
JP5753769B2 (ja) * 2011-11-18 2015-07-22 株式会社日立製作所 音声データ検索システムおよびそのためのプログラム
KR101889836B1 (ko) * 2012-02-24 2018-08-20 삼성전자주식회사 음성인식을 통한 단말기의 잠금 상태 해제 및 조작 방법 및 장치
US9117449B2 (en) * 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
KR20130133629A (ko) 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
WO2015005927A1 (en) 2013-07-11 2015-01-15 Intel Corporation Device wake and speaker verification using the same audio input
CN103646646B (zh) * 2013-11-27 2018-08-31 联想(北京)有限公司 一种语音控制方法及电子设备
US9698999B2 (en) * 2013-12-02 2017-07-04 Amazon Technologies, Inc. Natural language control of secondary device
US9373321B2 (en) * 2013-12-02 2016-06-21 Cypress Semiconductor Corporation Generation of wake-up words
CN104866465B (zh) * 2014-02-25 2017-11-03 腾讯科技(深圳)有限公司 敏感文本检测方法及装置
US9196243B2 (en) * 2014-03-31 2015-11-24 International Business Machines Corporation Method and system for efficient spoken term detection using confusion networks
US20150301795A1 (en) 2014-04-16 2015-10-22 Facebook, Inc. Crowd sourced based training for natural language interface systems
JP2016024212A (ja) * 2014-07-16 2016-02-08 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
CN105575395A (zh) * 2014-10-14 2016-05-11 中兴通讯股份有限公司 语音唤醒方法及装置、终端及其处理方法
CN105677004A (zh) 2014-11-18 2016-06-15 中兴通讯股份有限公司 一种终端的处理方法和终端
KR102245747B1 (ko) * 2014-11-20 2021-04-28 삼성전자주식회사 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
US9812126B2 (en) * 2014-11-28 2017-11-07 Microsoft Technology Licensing, Llc Device arbitration for listening devices
CN104538030A (zh) 2014-12-11 2015-04-22 科大讯飞股份有限公司 一种可以通过语音控制家电的控制系统与方法
CN105845135A (zh) * 2015-01-12 2016-08-10 芋头科技(杭州)有限公司 一种机器人系统的声音识别系统及方法
CN104715754A (zh) 2015-03-05 2015-06-17 北京华丰亨通科贸有限公司 一种快速响应语音命令的方法及装置
US10438593B2 (en) * 2015-07-22 2019-10-08 Google Llc Individualized hotword detection models
US9965247B2 (en) * 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
KR20170132622A (ko) * 2016-05-24 2017-12-04 삼성전자주식회사 음성 인식 기능을 갖는 전자 장치 및 전자 장치의 동작 방법
WO2018006372A1 (zh) 2016-07-07 2018-01-11 深圳狗尾草智能科技有限公司 一种基于意图识别控制家电的方法、系统及机器人
US10115400B2 (en) * 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
CN106448664A (zh) 2016-10-28 2017-02-22 魏朝正 一种通过语音控制智能家居设备的系统及方法
CN106611597B (zh) * 2016-12-02 2019-11-08 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
CN106782526B (zh) * 2016-12-12 2020-12-29 深圳Tcl数字技术有限公司 语音控制方法和装置
US20180174581A1 (en) * 2016-12-19 2018-06-21 Pilot, Inc. Voice-activated vehicle lighting control hub
US20180177029A1 (en) * 2016-12-19 2018-06-21 Pilot, Inc. Voice-controlled light bulb
US10074371B1 (en) * 2017-03-14 2018-09-11 Amazon Technologies, Inc. Voice control of remote device by disabling wakeword detection
US10521512B2 (en) * 2017-05-26 2019-12-31 Bose Corporation Dynamic text-to-speech response from a smart speaker
US20180350360A1 (en) * 2017-05-31 2018-12-06 Lenovo (Singapore) Pte. Ltd. Provide non-obtrusive output
US11489691B2 (en) * 2017-07-12 2022-11-01 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001005485A (ja) * 1999-05-21 2001-01-12 Inf Storage Devices Inc 音声制御デバイスの活動化を向上させる方法および装置
JP2002120177A (ja) * 2000-10-11 2002-04-23 Sony Corp ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2002318843A (ja) * 2001-04-20 2002-10-31 Misawa Homes Co Ltd 設備機器遠隔管理システム、設備機器遠隔管理装置、設備機器遠隔管理方法および記憶媒体
JP2005110218A (ja) * 2003-09-10 2005-04-21 Matsushita Electric Ind Co Ltd 機器連携装置
US20140012586A1 (en) * 2012-07-03 2014-01-09 Google Inc. Determining hotword suitability

Also Published As

Publication number Publication date
US10504511B2 (en) 2019-12-10
KR20200012928A (ko) 2020-02-05
CN110832578A (zh) 2020-02-21
CN110832578B (zh) 2022-04-26
EP3619707B1 (en) 2024-02-21
EP3619707A4 (en) 2020-04-29
WO2019019812A1 (en) 2019-01-31
EP3619707A1 (en) 2020-03-11
US20190027138A1 (en) 2019-01-24
JP6887031B2 (ja) 2021-06-16
JP2020525850A (ja) 2020-08-27

Similar Documents

Publication Publication Date Title
KR102293063B1 (ko) 사용자 정의 가능한 웨이크업 음성 명령
US11854527B2 (en) Electronic device and method of controlling speech recognition by electronic device
US11600265B2 (en) Systems and methods for determining whether to trigger a voice capable device based on speaking cadence
US11756563B1 (en) Multi-path calculations for device energy levels
US10978048B2 (en) Electronic apparatus for recognizing keyword included in your utterance to change to operating state and controlling method thereof
KR101726945B1 (ko) 수동 시작/종료 포인팅 및 트리거 구문들에 대한 필요성의 저감
CN111512365A (zh) 对多个家庭装置进行控制的方法和系统
US9466286B1 (en) Transitioning an electronic device between device states
KR102563817B1 (ko) 사용자 음성 입력 처리 방법 및 이를 지원하는 전자 장치
KR102592769B1 (ko) 전자 장치 및 그의 동작 방법
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
US20200349947A1 (en) Method for responding to user utterance and electronic device for supporting same
JP2023553451A (ja) 検出のシーケンスに基づいたホットフレーズトリガ
US20240071408A1 (en) Acoustic event detection
JP2022544066A (ja) マルチモーダルスマートオーディオデバイスシステムのアテンティブネス表現
KR20230118643A (ko) 화자 의존적인 후속 액션들 및 웜 워드들
EP3839719B1 (en) Computing device and method of operating the same
KR20240033006A (ko) 소프트 핫워드로 자동 스피치 인식
KR20200092763A (ko) 사용자 음성을 처리하는 전자장치 및 그 제어 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant