KR20230145553A - 음성 명령 디바이스들에서 지능형 어시스턴트들과 멀티-모달 상호 작용 - Google Patents

음성 명령 디바이스들에서 지능형 어시스턴트들과 멀티-모달 상호 작용 Download PDF

Info

Publication number
KR20230145553A
KR20230145553A KR1020237034829A KR20237034829A KR20230145553A KR 20230145553 A KR20230145553 A KR 20230145553A KR 1020237034829 A KR1020237034829 A KR 1020237034829A KR 20237034829 A KR20237034829 A KR 20237034829A KR 20230145553 A KR20230145553 A KR 20230145553A
Authority
KR
South Korea
Prior art keywords
voice
user
smart
electronic device
feedback
Prior art date
Application number
KR1020237034829A
Other languages
English (en)
Inventor
헨리 알. 홀츠만
제프리 씨. 올손
진-데이비드 슈
제프리 에이. 모르간
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20230145553A publication Critical patent/KR20230145553A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3228Monitoring task completion, e.g. by use of idle timers, stop commands or wait commands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • User Interface Of Digital Computer (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

방법은 전자 디바이스에서 지능형 어시스턴트(intelligent assistant)의 활성화를 검출하는 동작, 상기 활성화에 응답하여 상기 지능형 어시스턴트를 슬립 모드로부터 웨이크 업 하는 동작, 및 상기 활성화의 타입에 기반하여 청취 모드 동안 상기 지능형 어시스턴트가 작용하는 어휘의 양을 결정하는 동작을 포함한다.

Description

음성 명령 디바이스들에서 지능형 어시스턴트들과 멀티-모달 상호 작용{MULTI-MODAL INTERACTION WITH INTELLIGENT ASSISTANTS IN VOICE COMMAND DEVICES}
본 개시는 일반적으로 음성 명령 디바이스들, 특히 음성 명령 디바이스들에서 지능형 어시스턴트(assistant)들과의 긴급 멀티-모달 상호 작용(multi-modal interaction)을 위한 방법 및 시스템에 관한 것이다.
음성 사용자 인터페이스(voice user interface)는 음성 명령 디바이스에서 동작하는 지능형 개인 어시스턴트(intelligent personal assistant: IPA) 또는 가상 어시스턴트(virtual assistant: VA)와 상호 작용하는 방식을 제공한다. 구어체로, IPA 또는 VA는 "지능형 어시스턴트(intelligent assistant)"라고 칭해진다. 음성 명령 디바이스는 음성 사용자 인터페이스로 제어 가능한 디바이스(즉, 음성 제어 디바이스)이다. 음성 사용자 인터페이스는 음성 인식(speech recognition)을 사용하여 음성 명령(voice command)들(즉, 발화된 명령(spoken command)들) 및 질문들을 이해하고 텍스트 대 음성(text-to-speech)을 사용하여 응답들을 출력함으로써 발화한 인간과 디바이스들간의 상호 작용을 가능하게 한다. 자동 음성 인식(automatic speech recognition: ASR) 및 자연어 이해(natural language understanding: NLU)의 발전으로, 음성 사용자 인터페이스들은 자동차들, 이동 디바이스들(예를 들어, 스마트폰들, 태블릿들, 워치들, 등), 가전 제품들(예를 들어, 세탁기들, 건조기들, 등), 엔터테인먼트 디바이스들(예를 들면, 텔레비전들, 스마트 스피커들, 등), 등과 같은, 그렇다고 이로 제한되지는 않는, 디바이스들에서 점점 더 대중화되고 있다.
본 개시의 실시 예들은 지능형 어시스턴트들과의 멀티-모달 상호 작용을 위한 방법 및 장치(시스템)를 제공한다.
일 실시 예는 전자 디바이스에서 지능형 어시스턴트(intelligent assistant)의 활성화를 검출하는 동작, 상기 활성화에 응답하여 상기 지능형 어시스턴트를 슬립 모드로부터 웨이크 업 하는 동작, 및 상기 활성화의 타입에 기반하여 청취 모드 동안 상기 지능형 어시스턴트가 작용하는 어휘의 양을 결정하는 동작을 포함하는 방법을 제공한다.
다른 실시 예는 적어도 하나의 센서 유닛, 적어도 하나의 입/출력(input/output: I/O) 유닛, 적어도 하나의 프로세서, 및 상기 적어도 하나의 프로세서에 의해 실행될 때 상기 적어도 하나의 프로세서가 동작들을 수행하도록 하는 인스트럭션(instruction)들을 저장하는 비-일시적 프로세서-리드 기능 메모리 디바이스를 포함하는 전자 디바이스를 제공한다. 상기 동작들은 상기 적어도 하나의 센서 유닛을 통해 상기 전자 디바이스와의 물리 상호 작용을 검출하는 동작, 및 상기 물리 상호 작용에 응답하여 슬립 모드로부터 상기 전자 디바이스에서 지능형 어시스턴트(intelligent assistant)를 활성화하는 동작을 포함한다.
일 실시 예는 프로세서에 의해 실행될 때 전자 디바이스에서 지능형 어시스턴트(intelligent assistant)의 활성화를 검출하는 동작, 상기 활성화에 응답하여 상기 지능형 어시스턴트를 슬립 모드로부터 웨이크 업 하는 동작, 및 상기 활성화의 타입에 기반하여 청취 모드 동안 상기 지능형 어시스턴트가 작용하는 어휘의 양을 결정하는 동작을 포함하는 방법을 수행하는 프로그램을 포함하는 비-일시적 프로세서-리드 가능 매체를 제공한다.
하나 또는 다수의 실시 예들의 이러한 및 다른 측면들과 이점들은, 도면과 결부하여 이루어지는, 상기한 하나 또는 다수의 실시 예들의 원리들을 예시하는 다음의 상세한 설명으로부터 명백하게 이해될 것이다.
본 문서의 다양한 실시예들에 따르면, 지능형 어시스턴트들과의 멀티-모달 상호 작용을 위한 방법 및 장치(시스템)이 제공될 수 있다.
다양한 실시예들에 따른 효과는 상기 기술된 효과로 제한되지 아니하며, 다양한 효과가 본 개시 상에 내재되어 있음은 통상의 기술자에게 자명하다.
바람직한 사용 모드 뿐만 아니라 상기 실시 예들의 본질 및 이점들에 대한 보다 완전한 이해를 위해서는 첨부된 도면들과 결부하여 하기의 구체적인 설명을 참조하여야만 할 것이다:
도 1은 하나 또는 그 이상의 실시 예들에서 전자 디바이스(50)에서 구현되는 지능형 어시스턴트(intelligent assistant)와의 긴급 멀티-모달 상호 작용(emergent multi-modal interaction)을 구현하기 위한 예제 컴퓨팅 아키텍처를 도시하고 있다;
도 2는 하나 또는 그 이상의 실시 예들에서, 전자 디바이스들의 예제 클러스터를 도시하고 있다;
도 3은 하나 또는 그 이상의 실시 예들에서, 전자 디바이스에서 구현되는 예제 음성 사용자 인터페이스 시스템을 도시하고 있다;
도 4는 하나 또는 그 이상의 실시 예들에서, 다수의 전자 디바이스들에서 구현되는 지능형 어시스턴트와의 멀티-모달 상호 작용을 포함하는 제1 예제 시나리오를 도시하고 있다;
도 5는 하나 또는 그 이상의 실시 예들에서, 다수의 전자 디바이스들에서 구현되는 지능형 어시스턴트와의 멀티-모달 상호 작용을 포함하는 제2 예제 시나리오를 도시하고 있다;
도 6은 하나 또는 그 이상의 실시 예들에서, 다수의 전자 디바이스들에서 구현되는 지능형 어시스턴트와의 멀티-모달 상호 작용을 포함하는 제3 예제 시나리오를 도시하고 있다;
도 7은 하나 또는 그 이상의 실시 예들에서, 다수의 전자 디바이스들에서 구현되는 지능형 어시스턴트와의 멀티-모달 상호 작용을 포함하는 제4 예제 시나리오를 도시하고 있다;
도 8은 하나 또는 그 이상의 실시 예들에서, 다수의 전자 디바이스들에서 구현되는 지능형 어시스턴트와의 멀티-모달 상호 작용을 포함하는 제5 예제 시나리오를 도시하고 있다;
도 9는 하나 또는 그 이상의 실시 예들에서, 다수의 전자 디바이스들에서 구현되는 지능형 어시스턴트와의 멀티-모달 상호 작용을 포함하는 제6 예제 시나리오를 도시하고 있다;
도 10은 하나 또는 그 이상의 실시 예들에서, 다수의 전자 디바이스들에서 구현되는 지능형 어시스턴트와의 멀티-모달 상호 작용을 포함하는 제7 예제 시나리오를 도시하고 있다;
도 11은 하나 또는 그 이상의 실시 예들에서, 전자 디바이스에서 지능형 어시스턴트와의 멀티-모달 상호 작용을 구현하는 예제 프로세스의 플로우차트이다;
도 12는 하나 또는 그 이상의 실시 예들에서, 전자 디바이스에서 지능형 어시스턴트의 물리 이벤트 활성화를 구현하는 예제 프로세스(910)의 플로우차트이다; 및
도 13은 개시된 실시 예들은 구현하는데 유용한 컴퓨터 시스템을 포함하는 정보 프로세싱 시스템을 도시하고 있는 상위-레벨 블록 다이아그램이다.
하기의 설명은 하나 또는 그 이상의 실시 예들의 일반적인 원리들을 설명하기 위한 목적으로 이루어지며, 본 명세서에서 청구되는 발명의 개념들을 제한하는 것을 의미하는 것은 아니다. 또한, 본 명세서에서 개시되는 특정 특징들은 다양한 가능한 조합들 및 순열들의 각각에서 다른 개시된 특징들과 조합하여 사용될 수 있다. 본 명세서에서 달리 구체적으로 정의되지 않는 한, 모든 용어들에 대해서는 당해 기술 분야의 당업자들에 의해 이해되고 및/또는 사전들, 논문들 등에 정의되어 있는 의미들 뿐만 아니라 본 상세한 설명으로부터의 암묵적인 의미들을 포함하여 가능한 가장 넓은 해석이 주어질 것이다.
하나 또는 그 이상의 실시 예들은 일반적으로 음성 명령 디바이스들에 관한 것으로서, 특히 음성 명령 디바이스들에서 지능형 어시스턴트와의 긴급 멀티-모달 상호 작용을 위한 방법 및 시스템에 관한 것이다. 일 실시 예는 전자 디바이스에서 지능형 어시스턴트(intelligent assistant)의 활성화를 검출하는 동작, 상기 활성화에 응답하여 상기 지능형 어시스턴트를 슬립 모드로부터 웨이크 업 하는 동작, 및 상기 활성화의 타입에 기반하여 청취 모드 동안 상기 지능형 어시스턴트가 작용하는 어휘의 양을 결정하는 동작을 포함하는 방법을 제공한다.
다른 실시 예는 적어도 하나의 센서 유닛, 적어도 하나의 입/출력(input/output: I/O) 유닛, 적어도 하나의 프로세서, 및 상기 적어도 하나의 프로세서에 의해 실행될 때 상기 적어도 하나의 프로세서가 동작들을 수행하도록 하는 인스트럭션(instruction)들을 저장하는 비-일시적 프로세서-리드 기능 메모리 디바이스를 포함하는 전자 디바이스를 제공한다. 상기 동작들은 상기 적어도 하나의 센서 유닛을 통해 상기 전자 디바이스와의 물리 상호 작용을 검출하는 동작, 및 상기 물리 상호 작용에 응답하여 슬립 모드로부터 상기 전자 디바이스에서 지능형 어시스턴트(intelligent assistant)를 활성화하는 동작을 포함한다.
일 실시 예는 프로세서에 의해 실행될 때 전자 디바이스에서 지능형 어시스턴트(intelligent assistant)의 활성화를 검출하는 동작, 상기 활성화에 응답하여 상기 지능형 어시스턴트를 슬립 모드로부터 웨이크 업 하는 동작, 및 상기 활성화의 타입에 기반하여 청취 모드 동안 상기 지능형 어시스턴트가 작용하는 어휘의 양을 결정하는 동작을 포함하는 방법을 수행하는 프로그램을 포함하는 비-일시적 프로세서-리드 가능 매체를 제공한다.
음성이 일반적으로 하나 또는 그 이상의 음성 명령 디바이스들이 존재하고 상기 음성의 작은 부분만이 특정 음성 명령 디바이스를 위한 것인 환경에 존재하면, 음성 명령 디바이스가 직면하는 도전 과제들 중 하나는 어떤 음성이 상기 디바이스에 대해 의도된 것인지를 결정하는 것이다.
통상적으로, 사용자는 음성 입력 버튼과 상호 작용함으로써 상기 사용자로부터의 발화(utterance)(즉, 음성 명령)가 특정 음성 명령 디바이스에 대해 의도되는 것임을 지시할 수 있다. 예를 들어, 상기 음성 입력 버튼은 전용 물리 버튼 또는 상기 디바이스에 연결되거나 또는 상기 디바이스와 통합되는 다른 타입의 I/O 컴포넌트일 수 있다. 다른 예를 들면, 상기 음성 입력 버튼은 상기 디바이스에 연결되거나 또는 상기 디바이스와 통합되는 디스플레이 상에 디스플레이되는 그래픽 사용자 인터페이스(graphical user interface: GUI)의 소프트웨어 컴포넌트일 수 있다.
다른 통상적인 솔루션(solution)은 특정 음성 명령 디바이스가 특정 발화에 이어 음성 명령에 주의하도록 명령하는 상기 특정 발화(예를 들어, 워드(word) 또는 구문(phrase))를 생성하는 사용자이다. 구어체로, 상기 특정 발화는 "웨이크 워드(wake word)"라고 칭해진다. 예를 들어, Samsung®의 GALAXY® Note9?? 스마트 폰으로, 사용자는 상기 폰의 측면에 존재하는 전용 물리 버튼을 누르고 음성 명령을 내릴 수 있다. 이와는 달리, 상기 사용자는 "Hi Bixby®"와 같은 특정 발화를 먼저 말하고 음성 명령으로 상기 특정 발화를 따를 수 있다(follow up).
하나 또는 그 이상의 실시 예들은 사용자가 전자 디바이스를 사용할 때 일반적으로 수행하는 상기 디바이스와의 하나 또는 그 이상의 물리 상호 작용들에 기반하여 상기 디바이스에서 동작하는 음성 에이전트(voice agent)(즉, 지능형 어시스턴트)를 활성화하기 위한 음성 사용자 인터페이스 시스템을 제공한다. 일 실시 예에서, 상기 음성 사용자 인터페이스 시스템은, 적절할 때, 상기 디바이스가 물리적으로 어떻게 조작되고 있는 지와 함께 의미가 있는 음성 상호 작용들에 대해 청취하도록 구성된다. (예를 들어, 음성 입력 버튼과의 상호 작용 또는 특정 발화를 말하는 것을 통한) 사용자로부터의 명시적인 활성화와는 달리, 이 음성 사용자 인터페이스 시스템은 웨이크 업(wake up)이 암묵적인(즉, 사용자로부터의 명시적 활성화를 필요로 하지 않는) 상기 음성 에이전트의 자동 웨이크 업을 제공한다.
도 1은 하나 또는 그 이상의 실시 예들에서, 전자 디바이스(50)에서 구현되는 지능형 어시스턴트(intelligent assistant)와의 긴급 멀티-모달 상호 작용(emergent multi-modal interaction)을 구현하기 위한 예제 컴퓨팅 아키텍처(10)를 도시하고 있다. 상기 컴퓨팅 아키텍처(10)는 하나 또는 그 이상의 프로세서 유닛들(55) 및 하나 또는 그 이상의 저장 유닛들(60)과 같은 자원들을 포함하는 전자 디바이스(50)를 포함한다. 하나 또는 그 이상의 어플리케이션들은 상기 전자 디바이스(50)의 자원들을 사용하여 상기 전자 디바이스(50) 상에서 실행/동작할 수 있다.
전자 디바이스(50)의 예제들은 데스크톱 컴퓨터, 이동 전자 디바이스(예를 들어, 태블릿, 스마트 폰, 랩톱, 등), 웨어러블 디바이스(예를 들어, 스마트 워치, 등), 사물 인터넷(Internet of Things: IoT) 디바이스, 스마트 텔레비전, 스마트 오븐, 스마트 세탁기, 스마트 조명, 등과 같은 스마트 가전을 포함하며, 그렇다고 이로 제한되는 것은 아니다.
일 실시 예에서, 상기 전자 디바이스(50)는 카메라, 마이크로폰, GPS, 모션 센서, 등과 같이 상기 전자 디바이스(50)에 통합되거나 또는 상기 전자 디바이스(50)에 연결되는 하나 또는 그 이상의 센서 유닛들(70)을 포함한다. 센서 유닛(70)은 컨텐트(content) 및/또는 센서-기반 컨텍스트 정보(sensor-based contextual information)를 캡처(capture)하기 위해 사용될 수 있다. 예를 들어, 상기 전자 디바이스(50) 상의 어플리케이션은 오디오 데이터(예를 들어, 음성 명령들, 주변 소음, 등)를 위한 마이크로폰, 이미지 데이터(예를 들어, 상기 전자 디바이스(50) 주변 환경의 스틸(still) 및/또는 비디오 이미지들 등)를 위한 카메라, 위치 데이터(예를 들어, 위치 좌표)를 위한 GPS, 근접/모션 데이터(예를 들어, 상기 전자 디바이스(50)에 근접한 사용자(30)를 지시하는 데이터)를 위한 모션 센서, 등과 같은 적어도 하나의 센서 유닛(70)을 사용하여 컨텐트 및/또는 센서-기반 컨텍스트 정보를 캡처할 수 있다.
일 실시 예에서, 상기 전자 디바이스(50)는 상기 전자 디바이스(50)에 통합되거나 또는 상기 전자 디바이스(50)에 연결되는 하나 또는 그 이상의 I/O 유닛들(65)을 포함한다. 일 실시 예에서, 상기 하나 또는 그 이상의 I/O 유닛들(65)은 키보드, 키패드, 터치 인터페이스, 터치 스크린, 노브(knob), 버튼, 디스플레이 스크린, 등과 같은 물리 사용자 인터페이스(physical user interface: PUI) 및/또는 GUI를 포함하며, 그렇다고 이에 제한되는 것은 아니다. 일 실시 예에서, 사용자(30)는 적어도 하나의 I/O 유닛(65)을 사용하여 하나 또는 그 이상의 사용자 설정(user preference)들을 구성하고, 하나 또는 그 이상의 파라미터들(예를 들어, 사용자 허가(user permission)들)을 구성하고, 입력(예를 들어, 검색 쿼리)을 제공하는 등을 할 수 있다.
일 실시 예에서, 상기 전자 디바이스(50)는 음성 명령 디바이스다. 상기 전자 디바이스(50) 상의 상기 하나 또는 그 이상의 어플리케이션들은 상기 전자 디바이스(50)와의 핸즈프리 사용자 상호 작용을 용이하게 하도록 구성되는 음성 사용자 인터페이스 시스템(200)을 포함하며, 그렇다고 이로 제한되는 것은 아니다. 일 실시 예에서, 상기 시스템(200)은 음성 에이전트(voice agent)(205)를 제공하며, 여기서, 상기 음성 에이전트(205)는 사용자(30)가 음성을 통해 상기 전자 디바이스(50)를 제어하는 것을 허락하도록 구성되는 지능형 어시스턴트이다.
일 실시 예에서, 상기 음성 에이전트(205)는 적어도 2개의 다른 동작 모드들: 상기 음성 에이전트(205)가 슬립 상태인(asleep)(즉, 액티브(active) 상태가 아니거나 전원이 꺼진 상태에 존재하는) 슬립 모드(sleep mode), 및 상기 음성 에이전트(205)가 어웨이크 상태이고(awake)(즉, 액티브 상태이거나 전원이 켜진 상태에 존재하는) 사용자(30)로부터의 음성 명령(예를 들어, 적어도 하나의 센서 유닛(70)을 통해 캡처되는 음성 명령)을 청취하고 있는 청취 모드를 가진다.
본 명세서에서 이후에 상세히 설명되는 바와 같이, 일 실시 예에서, 상기 시스템(200)은 (1) 상기 음성 에이전트(205)를 상기 슬립 모드로부터 웨이크업(즉, 활성화)하기 위한 하나 또는 그 이상의 활성화 조건들을 검출하고; (2) 상기 검출된 하나 또는 그 이상의 활성화 조건들에 응답하여 상기 음성 에이전트(205)가 상기 슬립 모드에서 상기 청취 모드로 천이하도록 트리거하도록 구성되는 청취 에이전트(250)(도 3)를 포함한다.
일 실시 예에서, 상기 음성 에이전트(205)는 다른 타입들의 활성화 방법들을 통해 활성화될 수 있다. 예를 들어, 일 실시 예에서, 상기 음성 에이전트(205)는 웨이크 워드 활성화를 통해 명시적으로 활성화된다. 웨이크 워드 활성화는 상기 전자 디바이스(50)에 대한 특정 웨이크 워드의 사용자(30)로부터의 명시적인 발화("사용자 발화")를 요구하는 예제 활성화 조건이다. 일 실시 예에서, 상기 음성 에이전트(205)는 상기 시스템(200)이 (예를 들어, 상기 청취 에이전트(250) 및 적어도 하나의 센서 유닛(70)을 통해) 상기 웨이크 워드의 사용자 발화를 검출하는 것에 응답하여 상기 슬립 모드로부터 웨이크 업 하도록 구성된다. 예를 들어, 상기 음성 에이전트(205)는 마이크로폰이 상기 웨이크 워드의 사용자 발화를 캡처하는 것에 응답하여 상기 슬립 모드로부터 웨이크 업된다.
다른 예로서, 일 실시 예에서, 상기 음성 에이전트(205)는 사용자 발화를 요구하지 않고 물리 이벤트 활성화를 통해 자동으로 활성화된다. 물리 이벤트 활성화는 상기 전자 디바이스(50)를 사용하는 사용자(30)의 전형적인 물리 상호 작용을 필요로 하는 예제 활성화 조건이다. 일 실시 예에서, 상기 음성 에이전트(205)는 상기 시스템(200)이 (예를 들어, 상기 청취 에이전트(250) 및 적어도 하나의 센서 유닛(70) 및/또는 적어도 하나의 I/O 유닛(65)을 통해) 상기 전자 디바이스(50)와의 물리 상호 작용을 검출하는 것에 응답하여 상기 슬립 모드로부터 자동으로 웨이크 업 하도록 구성된다. 상기 음성 에이전트(205)를 상기 슬립 모드로부터 자동으로 웨이크 업할 수 있는 다른 물리 상호 작용들의 예제들은 도어 클로저 활성화(door closure activation)(예를 들어, 사용자(30)가 상기 전자 디바이스(50)의 도어를 닫는 것)과 같은 상기 전자 디바이스(50)의 이동/회전/조절 가능한 멤버(member)와의 기계적 상호작용(즉, 기계적 작동(mechanical actuation)), 근접 상호 작용(예를 들어, 사용자(30)가 상기 전자 디바이스(50)의 물리 근접 거리 내에 있음, 사용자(30)가 상기 전자 디바이스(50)를 포함하는 룸에 들어감), PUI의 활성화(예를 들어, 사용자(30)가 노브, 버튼 및/또는 다른 하드웨어 I/O 유닛(65)와 상호 작용하는 것) 또는 GUI(예를 들어, 사용자(30)가 터치 스크린 및/또는 다른 소프트웨어 I/O 유닛(65)과 상호 작용하는 것)의 작동과 같은 사용자 인터페이스(user interface: UI) 활성화를 포함하지만, 그렇다고 이에 제한되는 것은 아니다.
예를 들어, 상기 전자 디바이스(50)가 스마트 세탁기를 포함하는 경우, 적어도 하나의 센서 유닛(70)이 상기 세탁기의 세탁실 도어가 닫히는 것을 검출하는 것에 응답하여 상기 음성 에이전트(205)가 자동으로 상기 슬립 모드에서 웨이크 업되고, 따라서 상기 전자 디바이스(50)가 상기 음성 에이전트(205)를 웨이크 업시키기 위해 사용자(30)가 웨이크 워드를 명시적으로 발화해야 하는 것을 방지할 수 있다.
일 실시 예에서, 상기 시스템(200)은 상기 음성 에이전트(205)를 활성화하는 데 사용되는 활성화 방법의 타입에 기반하여 사용자(30)에게 피드백(예를 들어, 상기 음성 에이전트(205)의 현재 모드를 지시하는 시각적 및/또는 음성 피드백 및/또는 응답, 등)을 제공하기 위한 다른 상호 작용 피드백 방법들을 사용하도록 구성된다.
일 실시 예에서, 상기 시스템(200)은 사용자(30)의 컨텍스트, 현재 상태(즉, 현재 구성), 시간, 요일, 온도, 날씨, 주변 조명, 위치, 등과 같은 상기 사용자(30) 및/또는 상기 전자 디바이스(50)의 환경과 같은 상기 전자 디바이스(50)의 컨텍스트와 같은, 그렇다고 이로 제한되는 것은 아닌, 컨텍스트 정보에 기반하여 음성 명령들을 통해 수행하도록 상기 전자 디바이스(50)가 호출/트리거될 수 있는 액션(action)들의 개수 및 타입을 제어하도록 구성된다.
일 실시 예에서, 상기 시스템(200)은 음성 식별(identification: ID)에 기반하여 상기 청취 에이전트(250)를 통해 검출되는 사용자 발화를 생성하는 사용자(30)의 신원을 결정하고, 상기 사용자(30)가 상기 사용자(30)의 신원에 기반하여 음성을 통해 상기 전자 디바이스(50)가 수행하도록 요청할 수 있는 액션들을 제어하도록 구성된다. 일 실시 예에서, 음성 ID는 상기 사용자 발화에 기반하여 상기 사용자(30)의 음성 패턴들/특성들(voice patterns/qualities)(예를 들어, 사운드, 리듬, 방언, 피치(pitch), 등)을 결정하고, 상기 음성 패턴들/특성들을 (예를 들어, 상기 하나 또는 그 이상의 저장 유닛들(60)에 유지되어 있는) 인식된/식별된 음성 녹음들의 음성 패턴들/특성들과 비교하는 것을 포함한다. 예를 들어, 상기 전자 디바이스(50)가 스마트 세탁기를 포함하는 경우, 상기 시스템(200)은 상기 시스템(200)이 상기 세탁기의 도어 닫힘을 검출한 후 물리 UI 또는 GUI를 작동시킬 필요 없이 가정의 성인들과 같은 특정한 승인된 사용자들(30)만이 음성을 통해 상기 세탁기를 시작시키도록 허가할 수 있다. 상기 세탁기의 도어가 닫힘을 검출한 후 상기 세탁기의 시작을 성인으로부터의 음성 명령으로만 제한하는 것은 상기 세탁기의 안전한 동작을 보장한다. 예를 들어, 그와 같은 제한들은 어린이와 같은 권한이 없는 사용자(30)가 상기 세탁기를 시작시키는 것(예를 들어, 상기 어린이가 상기 세탁기에 들어가 상기 세탁기의 도어를 닫은 후 음성으로 상기 세탁기를 턴 온하는 것을 시도할 수 있다)을 방지할 수 있다.
일 실시 예에서, 상기 시스템(200)은 상기 음성 에이전트(205) 및 음성 ID를 활성화하기 위해 사용되는 활성화 방법의 타입에 기반하여, 상기 청취 에이전트(250)에 의해 검출되는 하나 또는 그 이상의 사용자 발화들이 상기 전자 디바이스(50)에 대해 의도되지 않는다는 것을 인식하도록 구성되고, 따라서 사용자 음성이 상기 전자 디바이스(50)에서 의도하지 않거나 또는 원하지 않는 동작을 활성화하는 가능성을 감소시킬 수 있다.
일 실시 예에서, 상기 시스템(200)은 상기 시스템(200)이 상기 음성 에이전트(205)를 활성화하기 위해 사용되는 활성화 방법의 타입 및/또는 상기 전자 디바이스(50) 현재 상태에 기반하여 문맥상(contextually) 관련된 것으로만 사용자 발화를 해석하는 데 필요로 되는 어휘의 양을 조정하도록 구성되고, 따라서 상기 전자 디바이스(50)의 현재 상태에 적합한 음성 명령들만 작동하도록 하는 것을 보장할 수 있다.
일 실시 예에서, 상기 전자 디바이스(50) 상의 상기 하나 또는 그 이상의 어플리케이션들은 카메라 어플리케이션, 소셜 미디어 어플리케이션(social media application), 등과 같은 상기 전자 디바이스(50) 상에 로드되거나 또는 다운로드되는 하나 또는 그 이상의 소프트웨어 모바일 어플리케이션(software mobile application)들(90)을 더 포함할 수 있다. 상기 전자 디바이스(50) 상의 소프트웨어 모바일 어플리케이션(90)은 상기 시스템(200)과 데이터를 교환할 수 있다.
일 실시 예에서, 상기 전자 디바이스(50)는 통신들 네트워크/연결(40)(예를 들어, Wi-Fi 연결 또는 셀룰러 데이터 연결, 유선 연결, 또는 그 둘의 조합과 같은 무선 연결)을 통해 하나 또는 그 이상의 원격 디바이스들(20) 및/또는 하나 또는 그 이상의 다른 전자 디바이스들(50)과 데이터를 교환하도록 구성되는 통신들 유닛(80)을 포함한다. 상기 통신들 유닛(80)은 통신들 네트워크(예를 들어, 통신들 네트워크(40))에 연결하고 상기 전자 디바이스(50)로부터 상기 통신들 네트워크(40)에 연결되어 있는 다른 디바이스들로 통신들 동작들 및 미디어를 교환하도록 동작하는 임의의 적합한 통신들 회로를 포함할 수 있다. 상기 통신들 유닛(80)은 예를 들어 Wi-Fi(예를 들어, IEEE 802.11 프로토콜), Bluetooth®, 고주파 시스템들(예를 들어, 900MHz, 2.4GHz 및 5.6 GHz 통신 시스템들), 적외선, GSM, GSM 플러스 EDGE(GSM plus EDGE), CDMA, 쿼드밴드(quadband) 및 다른 셀룰러 프로토콜들, VOIP, TCP-IP, 또는 임의의 다른 적합한 프로토콜과 같은 임의의 적합한 통신들 프로토콜을 사용하여 상기 통신들 네트워크(40)와 인터페이스하도록 동작할 수 있다.
예를 들어, 원격 디바이스(20)는 하나 또는 그 이상의 온라인 서비스들(예를 들어, 온라인 소셜 미디어 서비스, 온라인 데이터 소스, 등)을 호스트(host)하고, 및/또는 하나 또는 그 이상의 소프트웨어 모바일 어플리케이션들(90)을 배포하는 온라인 플랫폼(platform)을 제공하는 원격 서버(예를 들어, 네트워크 자원들, 등을 관리하는 컴퓨터, 디바이스 또는 프로그램)을 포함할 수 있다. 다른 예로서, 상기 시스템(200)은 상기 시스템(200)에 대한 업데이트들을 유지하고 배포하는 원격 디바이스(20)로부터 상기 전자 디바이스(50)에 로드되거나 또는 다운로드될 수 있다. 또 다른 예로서, 원격 디바이스(20)는 구성 가능한 컴퓨팅 시스템 자원들 및 상위 레벨 서비스들의 공유 풀(pool)들을 제공하는 클라우드 컴퓨팅 환경을 포함할 수 있다.
도 2는 하나 또는 그 이상의 실시 예들에서, 전자 디바이스들(50)의 예제 클러스터(100)를 도시하고 있다. 상기 클러스터(100)는 사용자(30)가 음성을 통해 제어할 수 있는, 전자 디바이스 1, 전자 디바이스 2, ?? , 및 전자 디바이스 n과 같은 다른 전자 디바이스들(50)의 조합을 포함하며, 여기서 n은 양의 정수이다.
일 실시 예에서, 상기 다른 전자 디바이스(50)의 클러스터(100)는 서로의 근접 내에 (예를 들어, 가정에서의 하나 또는 그 이상의 방들 내에) 위치될 수 있다. 예를 들어, 상기 클러스터(100)는 주방에 위치되어 있는 다음과 같은 전자 디바이스들(50): 스마트 전자레인지, 스마트 레인지, 스마트 오븐, 스마트 식기 세척기, 패밀리 허브, 등 중 적어도 하나를 포함한다. 다른 예로, 상기 클러스터(100)는 세탁실에 위치되어 있는 다음과 같은 전자 디바이스들(50): 스마트 세탁기, 스마트 건조기, 등 중 적어도 하나를 포함한다.
일 실시 예에서, 상기 클러스터(100)의 각 전자 디바이스(50)는 통신들 네트워크/연결(예를 들어, WiFi 연결 또는 셀룰러 데이터 연결과 같은 무선 연결, 유선 연결, 또는 그 둘의 조합)을 통해 상기 클러스터(100)의 하나 또는 그 이상의 다른 전자 디바이스들(50)과 데이터를 교환하도록 구성된다.
일 실시 예에서, 사용자(30)는 웨이크 워드 활성화를 통해 상기 클러스터(100)의 모든 전자 디바이스들(50)의 모든 음성 에이전트들(205)을 동시에 활성화시킬 수 있다.
일 실시 예에서, 사용자(30)는 상기 전자 디바이스(50)만을 포함하는 물리 이벤트 활성화를 통해 상기 클러스터(100)의 하나의 전자 디바이스(50)의 하나의 음성 에이전트(205)만을 자동으로 활성화시킬 수 있다. 대중적인 음성 사용자 인터페이스들은 일반적으로 다수의 전자 디바이스들(50)에 걸쳐 동일한 웨이크 워드를 공유하기 때문에(예를 들어, 상기 웨이크 워드 "Alexa®"는 다른 Amazon® 음성 명령 디바이스들을 활성화시키기 위해 사용되고, 상기 웨이크 워드 "Siri®"는 다른 Apple® 음성 명령 디바이스들을 활성화시키기 위해 사용되며, 상기 웨이크 구문 "Hey Google®"은 다른 Android® 음성 명령 디바이스들을 활성화시키기 위해 사용된다, 등), 물리 이벤트 활성화는 어떤 특정 전자 디바이스(50)가 웨이크 워드에 의해 활성화되고 있는 중인지 아는 문제를 제거하고, 따라서 다수의 전자 디바이스들(50)이 동시에 활성화되는 가능성을 감소시킬 수 있다. 물리 이벤트 활성화는 사용자(30)가 웨이크 워드를 말해야만 하는 것을 경감시키고, 또한 상기 사용자(30)가 어떤 특정 전자 디바이스(50)가 음성 명령에 주의를 기울여야만 하는 지를 명시해야만 하는 것을 방지한다.
일 실시 예에서, 상기 클러스터(100)의 전자 디바이스(50)는 상기 클러스터(100)의 하나 또는 그 이상의 다른 전자 디바이스들(50)을 제어하는 (예를 들어, 하나 또는 그 이상의 음성 명령들에 응답하여 하나 또는 그 이상의 액션들을 수행하도록 상기 하나 또는 그 이상의 다른 전자 디바이스들(50)을 트리거/호출하는) 마스터 디바이스(master device)로서 동작할 수 있다.
일 실시 예에서, 상기 클러스터(100)의 하나의 전자 디바이스(50)에서 수행되는 액션은 상기 클러스터(100)의 다른 전자 디바이스(50)의 음성 에이전트(205)를 트리거하여 상기 슬립 모드로부터 웨이크업하도록 할 수 있다. 예를 들어, 상기 클러스터(100)의 제1 전자 디바이스(50)에서 수행되는 액션은 마스터 디바이스로 동작하는 상기 클러스터(100)의 제2 전자 디바이스(50)의 음성 에이전트(205)를 트리거하여 상기 슬립 모드에서 웨이크 업하여 상기 제1 전자 디바이스(50)에 대해 의도되는 음성 명령들을 청취하도록 할 수 있다.
일 실시 예에서, 스마트 AI 스피커 또는 스마트 폰과 같은 휴대용 또는 이동 가능한 전자 디바이스(50)는 상기 클러스터(100)에 추가되거나 또는 상기 클러스터(100)로부터 제거될 수 있다.
도 3은 하나 또는 그 이상의 실시 예들에서, 전자 디바이스(50)에서 구현되는 예제 음성 사용자 인터페이스 시스템(200)을 도시하고 있다. 전자 디바이스(50)에서 동작하는 음성 에이전트(205)는 상기 음성 사용자 인터페이스 시스템(200)의 하나 또는 그 이상의 컴포넌트들에 의해 구현된다.
일 실시 예에서, 상기 시스템(200)은: (1) 적어도 하나의 I/O 유닛(65) 및/또는 적어도 하나의 센서 유닛(70)에 의해 캡처되는 UI & 센서 데이터를 수신하고, 여기서 상기 UI & 센서 데이터는 상기 전자 디바이스(50)와의 하나 또는 그 이상의 물리 상호 작용들을 지시하고, (2) 상기 검출된 하나 또는 그 이상의 물리 상호 작용들에 응답하여 하나 또는 그 이상의 활성화 신호들을 생성하고, 여기서 상기 하나 또는 그 이상의 활성화 신호들은 상기 음성 에이전트(205)를 트리거하여 자동으로 상기 슬립 모드로부터 웨이크 업하도록 하고, 및 (3) 상기 전자 디바이스(50)의 현재 상태에 대한 하나 또는 그 이상의 조정들/업데이트들을 지시하는 제어 데이터를 생성하도록 구성되는 UI & 센서들 로직 유닛(UI & sensors logic unit)(210)을 포함한다.
일 실시 예에서, 상기 시스템(200)은: (1) 적어도 하나의 센서 유닛(70)(예를 들어, 마이크로폰)에 의해 캡처되는 오디오 데이터(즉, 데이터에서 사운드)를 수신하고, 여기서 상기 오디오 데이터는 주변 잡음 및/또는 하나 또는 그 이상의 사용자 발화들을 포함한다, (2) 상기 오디오 데이터가 상기 전자 디바이스(50)에 대한 웨이크 워드의 명시적 사용자 발화를 포함하는지 여부를 결정하고, 및 (3) 상기 오디오 데이터가 상기 웨이크 워드의 명시적 사용자 발화를 포함한다고 결정하는 것에 응답하여 하나 또는 그 이상의 활성화 신호들을 생성하도록 구성된 웨이크 워드 검출 유닛(240)을 포함하며, 여기서 상기 하나 또는 그 이상의 활성화 신호들은 상기 음성 에이전트(205)를 트리거하여 상기 슬립 모드에서 웨이크 업하도록 한다.
일 실시 예에서, 상기 시스템(200)은 상기 전자 디바이스(50)의 하나 또는 그 이상의 기계 파트들("디바이스 미캐닉스(device mechanics)")(230)과 통신하기 위한 전자 기계 어플리케이션 프로그래밍 인터페이스(application programming interface: API)를 제공하도록 구성되는 디바이스 제어 및 상태 논리 유닛(220)을 포함한다. 상기 디바이스 제어 및 상태 로직 유닛(220)은 (예를 들어, 상기 UI & 센서들 로직 유닛(210) 및/또는 디바이스 액션 개시기(274)로부터의) 제어 데이터에 기반하여 상기 전기 기계 API를 통해 상기 하나 또는 그 이상의 디바이스 미캐닉스(230)가 제어되는 것을 허락한다.
일 실시 예에서, 상기 디바이스 제어 및 상태 로직 유닛(220)은 다음들: 상기 전자 디바이스(50)의 현재 상태, 또는 상기 전자 디바이스(50)에 의해 수행되는 하나 또는 그 이상의 최근 액션들 중 적어도 하나를 지시하는 상태 데이터를 생성하도록 구성된다.
일 실시 예에서, 상기 시스템(200)은 청취 에이전트(250)를 포함한다. 상기 음성 에이전트(205)가 상기 슬리핑 모드에 존재할 때, 상기 청취 에이전트(250)는 (1) 상기 UI & 센서들 로직 유닛(210) 및/또는 상기 웨이크 워드 검출 유닛(240)으로부터 하나 또는 그 이상의 활성화 신호들을 수신하고, 및 (2) 상기 하나 또는 그 이상의 활성화 신호들에 응답하여 상기 음성 에이전트(205)를 상기 슬립 모드로부터 깨우고 상기 음성 에이전트(205)를 상기 청취 모드에 존재하도록 구성된다. 상기에서 언급한 바와 같이, 상기 음성 에이전트(205)는 웨이크 워드 활성화를 통해 명시적으로 또는 물리 이벤트 활성화를 통해 자동으로 웨이크 업 될 수 있다.
상기 음성 에이전트(205)가 상기 청취 모드에 존재할 때, 상기 청취 에이전트(250)는 사용자(30)로부터 하나 또는 그 이상의 음성 명령들을 청취하도록 구성된다. 구체적으로, 상기 청취 에이전트(250)는: (1) 적어도 하나의 센서 유닛(70)(예를 들어, 마이크로폰)에 의해 캡처되는 오디오 데이터를 수신하고, 여기서 상기 오디오 데이터는 주변 잡음 및/또는 하나 또는 그 이상의 사용자 발화들을 포함하고, 및 (2) 상기 오디오 데이터를 분석하도록 구성된다.
상기 청취 에이전트(250)는 오디오 데이터를 분석하기 위한 하나 또는 그 이상의 컴포넌트들을 포함한다. 일 실시 예에서, 상기 청취 에이전트(250)는 오디오 데이터를 분석하여 상기 오디오 데이터가 주변 잡음을 포함하는지 여부를 결정하도록 구성되는 주변 잡음 분석 유닛(252)을 포함한다. 일 실시 예에서, 상기 청취 에이전트(250)는 (1) 오디오 데이터를 분석하여 상기 오디오 데이터가 사용자 발화를 포함하는지 여부를 결정하고, (2) 상기 오디오 데이터가 사용자 발화를 포함한다고 결정하는 것에 응답하여, 상기 오디오 데이터에서의 사용자 발화를 음성 데이터 (즉, 구어(spoken language)를 포함하는 데이터)로서 캡처/추출하도록 구성되는 발화 캡처 유닛(253)을 포함한다. 본 명세서에서 이후에 상세히 설명되는 바와 같이, 상기 음성 데이터는 자동 음성 인식(automatic speech recognition: ASR)을 위한 상기 시스템(200)의 다른 컴포넌트로 포워드될 수 있다.
일 실시 예에서, 상기 청취 에이전트(250)는 음성 ID에 기반하여 오디오 데이터에 포함되어 있는 사용자 발화를 생성한 사용자(30)의 신원을 지시하는 사용자 ID를 결정하도록 구성되는 음성 ID 분석 유닛(255)을 포함한다. 본 명세서에서 이후에 상세히 설명되는 바와 같이, 상기 사용자 ID는 상기 사용자(30)에 대한 하나 또는 그 이상의 사용자 허가들을 결정하기 위해 상기 시스템(200)의 다른 컴포넌트로 포워드될 수 있다.
일 실시 예에서, 상기 청취 에이전트(250)는 (1) 미리 결정되어 있는 양의 시간(즉, 타이밍 윈도우(timing window)) 동안 사용자 발화를 대기 및 청취하고, 및 (2) 상기 미리 결정되어 있는 양의 시간이 경과하고 완전한 사용자 발화가 유용하지 않을 때 타임아웃(timeout)을 생성/발행하도록 구성되는 음성 시작 중단(speech start stop) 유닛(254)을 포함한다. 일 실시 예에서, 상기 청취 에이전트(250)는 다른 타입들의 타임아웃들을 생성하도록 구성되며, 타임아웃의 각 타입은 그 고유의 상응하는 타이밍 윈도우를 가진다. 예를 들어, 일 실시 예에서, 상기 청취 에이전트(250)는 no-speak timeout에 대한 상응하는 시간 윈도우가 경과한 후(즉, 상기 청취 에이전트(250)가 상기 시간 윈도우 동안 음성 명령들의 부재를 검출한 후) 사용자 발화가 검출되지 않았음을 지시하는 상기 no-speak timeout을 생성한다. 다른 예로서, 일 실시 예에서, 상기 청취 에이전트(250)는 command-too-long timeout에 대한 상응하는 시간 윈도우가 경과된 후 검출된 사용자 발화가 너무 길다는(즉, 상기 사용자 발화가 완전하지 않다는) 것을 지시하는 상기 command-too-long timeout을 생성한다.
일 실시 예에서, 상기 시스템(200)은 상기 음성 에이전트(205)를 활성화하는 데 사용되는 활성화 방법의 타입(예를 들어, 웨이크 워드 활성화 또는 물리 이벤트 활성화)에 기반하여 상기 전자 디바이스(50)의 하나 또는 그 이상의 동작들을 제어하는 하나 또는 그 이상의 알고리즘들을 채택하는 하나 또는 그 이상의 활성화 규칙들을 유지한다. 예를 들어, 일 실시 예에서, 상기 청취 에이전트(250)의 하나 또는 그 이상의 동작들을 제어하는 하나 또는 그 이상의 파라미터들은 상기 음성 에이전트(205)를 활성화하는 데 사용되는 활성화 방법의 타입에 기반하여 선택적으로 조정/튜닝된다(tuned).
일 실시 예에서, 상기 청취 에이전트(250)는 상기 음성 에이전트(205)를 활성화시키기 위해 사용되는 활성화 방법의 타입에 기반하여 상기 청취 에이전트(250)의 하나 또는 그 이상의 동작들을 제어하는 하나 또는 그 이상의 파라미터들을 채택하기 위한 하나 또는 그 이상의 활성화 규칙들을 유지하도록 구성되는 활성화 튜닝 테이블(activation tuning table)(251)을 포함한다. 예를 들어, 일 실시 예에서, no-speak timeout에 대한 타이밍 윈도우를 제어하는 파라미터에 대해서, 상기 타이밍 윈도우는 상기 음성 에이전트(205)가 물리 이벤트 활성화(예를 들어, 도어 닫힘)를 통해 활성화될 경우 더 짧고 (예를 들어, 1.5초), 이에 반해 상기 음성 에이전트(205)가 웨이크 워드 활성화를 통해 활성화되는 경우 상기 타이밍 윈도우는 더 길다(예를 들어, 10초).
아래의 표 1은 하나 또는 그 이상의 실시 예들에서, 활성화 튜닝 테이블(251)에서 유지되는 활성화 규칙들의 예제 집합을 제공한다.
파라미터 웨이크 워드 활성화에 대한 파라미터 값 물리 이벤트 활성화에 대한 파라미터 값
No-speak timeout 10초 1.5초
Command-too-long timeout 15초 5초
일 실시 예에서, 상기 시스템(200)은 사용자 발화에 포함되어 있는 구어를 해석하도록 구성되는 언어 해석기(260)를 포함한다. 일 실시 예에서, 상기 언어 해석기(260)는 상기 발화 캡처 유닛(253)으로부터 음성 데이터를 수신하고, ASR에 기반하여 상기 음성 데이터에 포함되어 있는 구어를 인식하여 텍스트(text)로 번역하도록 구성되는 ASR 유닛(262)을 포함한다.
일 실시 예에서, 상기 언어 해석기(260)는 상기 ASR 유닛(262)으로부터 텍스트를 수신하고, 상기 텍스트 및 NLU에 기반하여 사용자(30)로부터의 음성 명령의 의도를 결정하도록 구성되는 자연어 이해(natural language understanding: NLU) 유닛(263)을 포함한다. 예를 들어, 일 실시 예에서, 상기 의도는 상기 사용자(30)가 상기 전자 디바이스(50)가 현재 또는 미래의 언젠가 수행하기를 원하는 액션을 지시한다. 일 실시 예에서, 상기 언어 해석기(260)는 사용자(30)로부터의 음성 명령의 의도를 지시하는 의도 데이터를 생성하여 상기 시스템(200)의 다른 컴포넌트로 포워드할 수 있다. 일 실시 예에서, 상기 언어 해석기(260)는 사용자 발화에 포함되어 있는 구어를 해석하는데 사용 가능한 다른 어휘들을 유지한다. 일 실시 예에서, 상기 언어 해석기(260)는 상기 음성 에이전트(205)를 활성화시키는데 사용되는 활성화 방법의 타입 및/또는 상기 전자 디바이스(50)의 현재 상태에 기반하여 상기 유용한 다른 어휘들로부터 사용할 특정 어휘를 선택하도록 구성된다. 예를 들어, 일 실시 예에서, 상기 시스템(200)은 상기 음성 에이전트가 물리 이벤트 활성화를 통해 활성화될 때 상기 전자 디바이스(50)에 대해 의도되지 않은 사용자 음성을 검출하도록 구성된다. 일 실시 예에서, 상기 음성 에이전트가 물리 이벤트 활성화를 통해 활성화되는 경우, 상기 전자 디바이스(50)가 사용자 음성에 기반하여 바람직하지 않거나 또는 의도되지 않은 액션을 수행할 가능성을 감소시키기 위해, 상기 언어 해석기(260)는 유용한 하나 또는 그 이상의 다른 어휘들과 비교하여 감소되는/더 작은, 사용할 어휘를 선택하도록 구성된다. 일 실시 예에서, 상기 언어 해석기(260)는 상기 전자 디바이스(50)의 현재 상태에 기반하여 유용한 음성 명령들만을 해석하는 데 사용하기에 적합한, 사용할 어휘를 선택하도록 구성되며, 따라서 상기 전자 디바이스(50)는 사용자(30)가 상기 전자 디바이스(50)가 수행하기를 의도하거나 또는 원하는 액션을 수행할 것을 보장할 수 있다.
다른 예로서, 상기 전자 디바이스(50)가 방에 스마트 조명을 포함하고 상기 음성 에이전트(205)가 (예를 들어, 모센 센서와 같은 적어도 하나의 센서 유닛(70)을 통해 검출되는) 사용자(30)가 방에 막 들어 갔음을 지시하는 센서-기반 컨텍스트 정보에 응답하여 활성화될 경우, 상기 언어 해석기(260)는 하나 혹은 그 이상의 다른 유용한 어휘들에 비해 감소된/더 작은 청취 윈도우 동안 (예를 들어, 상기 사용자(30)가 상기 방에 들어간 후의 짧은 시간 구간 동안) 사용할 어휘를 선택하도록 구성되고, 여기서 상기 선택된 어휘는 상기 사용자(30)가 생성하도록 허가되는 음성 명령들의 제한된/감소된 집합만을 포함한다. 예를 들어, 상기 스마트 조명은 상기 사용자(30)가 "Lights on"이라는 상기 음성 명령을 발행하는 경우에만 턴 온될 것이다. 이 제한은 상기 사용자(30)가 취침 시간 이후에 상기 방에 들어올 때 상기 스마트 조명이 자동으로 턴 온되는 것을 방지하고 상기 방에서 잠자는 입주자들을 방해할 가능성을 감소시킨다. 그에 비해, 상기 음성 에이전트(205)가 대신에 웨이크 워드 활성화에 응답하여 활성화되는 경우, 상기 언어 해석기(260)는 물리 이벤트 활성화에 응답하여 사용되는 어휘에 비해 더 큰 청취 기간 동안 사용할 어휘를 선택하도록 구성된다.
일 실시 예에서, 상기 언어 해석기(260)는 상기 음성 에이전트(205)를 활성화하는데 사용되는 활성화 방법의 타입 및/또는 상기 전자 디바이스(50)의 현재 상태에 기반하여 상기 언어 해석기(260)가 선택하고 사용하는 것에 유용한 다른 어휘들을 유지하는 어휘 선택기 테이블(vocabulary chooser table)(261)을 포함한다. 예를 들어, 일 실시 예에서, 상기 전자 디바이스(50)가 현재 정지되어 있는 스마트 세탁기를 포함하고 상기 음성 에이전트(205)가 상기 세탁기의 세척실의 도어를 닫거나 또는 물리 UI/GUI를 작동시키는 것을 통해 활성화될 경우, 상기 언어 해석기(260)는 상기 워드 "Start"를 포함하는 어휘를 상기 어휘 선택기 테이블(261)로부터 선택하고, 따라서 사용자(30)가 간단히 상기 워드 "Start"를 발화함으로써 상기 세탁기를 시작하는 것을 가능하게 할 수 있다 (즉, 상기 사용자(30)가 상기 전자 디바이스(50)에 대한 웨이크 워드를 명시적으로 발화할 필요가 없다).
아래의 표 2는 하나 또는 그 이상의 실시 예들에서, 어휘 선택기 테이블(261)에서 유지되는 다른 어휘들의 예제 집합을 제공한다.
워드 도어 닫힘을 통해 활성화에서 유용한가? (Available on activation via door closure?) 물리 UI/GUI를 활성화시키는 것을 통해 활성화에서 유용한가? (Available on activation via actuating a physical UI/GUI?) 전자 디바이스의 현재 상태
"Start" 중단된
"Stop" 아니오 실행중 (예를 들어, 상기 전자 디바이스가 세탁기를 포함할 경우 세탁 사이클들을 실행중)
시간, 날씨, Q&A, 등과 같은 특정 네트워크 서비스들 또는 정보를 요청하는 워드들 아니오 아니오 N/A
일 실시 예에서, 상기 시스템(200)은 다음들: (1) 상기 언어 해석기(260)로부터의 의도 데이터, 및 (2) 상기 음성 ID 분석 유닛(255)으로부터의 사용자 ID 중 적어도 하나를 수신하도록 구성되는 액션 플래너(action planner)(270)를 포함한다. 일 실시 예에서, 상기 액션 플래너(270)는 의도 데이터 및/또는 사용자 ID에 기반하여 상기 전자 디바이스(50)가 현재 또는 미래에 수행할 하나 또는 그 이상의 액션들을 계획/스케줄링하도록 구성되는 디바이스 액션 개시기(device action initiator)(274)를 포함한다. 상기 디바이스 동작 개시기(274)는 디바이스 제어 및 상태 로직 유닛(220)과 통신하기 위한 액션 API를 제공한다. 상기 디바이스 동작 개시기(274)는 상기 액션 API를 통해 상기 전자 장치(50)의 현재 상태에 대한 하나 또는 그 이상의 조정들/업데이트들을 수행하여 상기 하나 또는 그 이상의 액션들을 수행하는 것을 허락한다.
일 실시 예에서, 상기 시스템(200)은 상기 음성 에이전트(205)를 활성화시키기 위해 사용되는 활성화 방법의 타입에 기반하여 사용자(30)에게 피드백을 제공하기 위해 다른 상호 작용 피드백 방법들을 사용하도록 구성된다. 일 실시 예에서, 상기 시스템(200)은 상기 음성 에이전트(205)가 청취 중인지(즉, 사용자 발화를 대기하고 청취하고 있는 중인지) 여부, 상기 음성 에이전트(205)가 생각하고 있는 중인지(즉, 사용자 발화를 해석하고 있는 중인지) 여부, 상기 음성 에이전트(205)가 응답하고 있는 중인지(즉, 피드백을 제공하고 있는 중인지) 여부, 상기 음성 에이전트(205)가 슬립 모드에 존재하는지 여부, 등과 같은 상기 음성 에이전드(205)의 현재 모드를 지시하는 시각적 피드백을 디스플레이하기 위한 하나 또는 그 이상의 I/O 유닛들(65)을 포함하는 음성 인터페이스 시각적 피드백 컴포넌트(280)를 포함한다. 예를 들어, 지시등(indicator light)은 상기 음성 에이전트(205)의 현재 모드에 기반하여 다른 색상들을 선택적으로 플래쉬(flash)하고, 및/또는 강도/밝기를 조정할 수 있고(예를 들어, 상기 음성 에이전트(205)가 청취중인 경우 녹색을 플래쉬하고, 상기 음성 에이전트(205)가 생각 중일 경우 노란색을 플래쉬하고, 상기 음성 에이전트(205)가 응답 중일 경우 빨간색을 플래쉬하고, 상기 음성 에이전트(205)가 슬립 모드에 존재할 경우 어둡게(dim) 할 수 있다), 디스플레이 스크린은 상기 음성 에이전트(205)의 현재 모드에 기반하여 다른 구문들을 선택적으로 디스플레이할 수 있다(예를 들어, 상기 음성 에이전트(205)가 청취 중일 경우 "Listening??" 를 드시플레이하고, 상기 음성 에이전트(205)가 생각 중일 경우 "Thinking??" 를 디스플레이하고, 상기 음성 에이전트(205)가 응답 중일 경우 "Responding??"를 디스플레이할 수 있다).
일 실시 예에서, 상기 시스템(200)은 상기 음성 에이전트(205)의 현재 모드, 에러(예를 들어, 타임아웃), 및/또는 승인/확인을 지시하는 음성 응답(예를 들어, 텍스트-대 음성을 통해) 생성하도록 구성되는 음성 합성기 유닛(290)을 포함한다. 일 실시 예에서, 상기 시스템(200)은 상기 음성 합성기 유닛(290)으로부터 수신되는 음성 응답을 출력하기 위한 하나 또는 그 이상의 I/O 유닛들(65)(예를 들어, 스피커, 등)을 포함하는 음성 출력 컴포넌트(285)를 포함한다. 예를 들어, 상기 시스템(200)은 상기 음성 에이전트(205)의 현재 모드에 기반하여 다른 음성 응답들을 선택적으로 생성 및 출력할 수 있다(예를 들어, 상기 음성 에이전트가 청취 중일 경우 "Listening..." 를 출력하고, 상기 음성 에이전트가 생각 중일 경우 "Thinking..." 를 출력하고, 상기 음성 에이전트가 응답 중일 경우 "Responding..."를 출력할 수 있다).
일 실시 예에서, 상기 액션 플래너(270)는 의도 데이터 및/또는 사용자 ID에 기반하여 상기 음성 인터페이스 시각적 피드백 컴포넌트(280)를 트리거하여 특정 시각적 피드백을 디스플레이하도록 구성되는 시각적 피드백 유닛(272)을 포함한다. 일 실시 예에서, 상기 액션 플래너(270)는 의도 데이터 및/또는 사용자 ID에 기반하여 상기 음성 합성기 컴포넌트(290)를 트리거하여 특정 음성 응답을 생성하도록 구성되는 음성 피드백 유닛(273)을 포함한다.
일 실시 예에서, 상기 시스템(200)은 상기 음성 에이전트(205)를 활성화하는데 사용되는 활성화 방법의 타입에 기반하여 음성 응답을 선택적으로 생성 및 출력하도록 구성된다. 예를 들어, 일 실시 예에서, 상기 음성 에이전트(205)가 웨이크 워드 활성화를 통해 활성화되고, 상기 시스템(200)이 에러(예를 들어, 음성 명령이 상기 언어 해석기(260)에 의해 사용되는 어휘에 포함되지 않은 워드, 타임아웃을 포함하고, 사용자(30)가 음성을 통해 상기 전자 디바이스(50)를 제어하는 사용자 허가들을 가지지 않고, 등)에 직면할 경우, 상기 시스템(200)은 수신된 음성 명령이 알려져 있지 않음을 지시하는 음성 응답을 생성 및 출력하도록 구성된다. 다른 예로서, 일 실시 예에서, 상기 음성 에이전트(205)가 물리 이벤트 활성화를 통해 활성화되고 상기 시스템(200)이 에러에 직면할 경우, 상기 시스템(200)은 음성 명령이 수신되지 않았음을 지시하는 음성 응답을 생성 및 출력하지 않도록 구성된다.
일 실시 예에서, 상기 액션 플래너(270)는 상기 음성 에이전트(205)를 활성화하는 데 사용되는 활성화 방법의 타입에 기반하여 언제 음성 응답이 상기 시스템(200)에 의해 생성 및 출력되는지를 제어하는 데 사용하기 위한 하나 또는 그 이상의 에러 피드백 규칙들을 유지하는 에러 피드백 테이블(275)을 포함한다.
아래의 표 3은 하나 또는 그 이상의 실시 예들에서 에러 피드백 테이블(275)에서 유지되는 에러 피드백 규칙들의 예제 집합을 제공한다.
활성화 방법의 타입 에러 타입 음성 응답 생성?
웨이크 워드 활성화 수신된 음성 명령 없음(No voice command received)
물리 이벤트 활성화 수신된 음성 명령 없음 아니오
웨이크 워드 활성화 미싱 요구 파라미터(Missing required parameter)
물리 이벤트 활성화 미싱 요구 파라미터
일 실시 예에서, 상기 액션 플래너(270)는 하나 또는 그 이상의 사용자들(30)에 상응하는 하나 또는 그 이상의 사용자 허가들 테이블(271)을 포함하고, 여기서 각 사용자 허가 테이블(271)은 상응하는 사용자(30)에 대한 하나 또는 그 이상의 사용자 허가들을 유지한다. 상기 액션 플래너(270)는 사용자(30)에 상응하는 사용자 허가들 테이블(271)을 사용하여 상기 사용자(30)에 대한 사용자 ID 및/또는 상기 음성 에이전트(205)를 활성화하기 위해 사용되는 활성화 방법의 타입에 기반하여 상기 사용자(30)가 음성을 통해 상기 전자 디바이스(30)를 제어할 권한이 존재하는지 여부를 결정한다. 아래의 표 4는 하나 또는 그 이상의 실시 예들에서, 사용자(30)에 상응하는 사용자 허가들 테이블(271)에서 유지되는 사용자 허가들의 예제 집합을 제공한다.
활성화 방법의 타입 음성 명령 사용자 ID를 기반으로 하는 사용자 허가들이 요구되는가? (User Permissions Based on User ID Required?)
웨이크 워드 활성화 Start
UI 활성화 Start 아니오
도어 닫힘 활성화 Start
도 4는 하나 또는 그 이상의 실시 예들에서, 다수의 전자 디바이스들(50)에서 구현되는 지능형 어시스턴트와의 멀티-모달 상호 작용을 포함하는 제1 예제 시나리오를 도시하고 있다. 일 실시 예에서, 사용자(30)는 상기 사용자(30)에 가장 가까운 전자 디바이스(50) 또는 상기 사용자(30)에 가장 가까운 전자 디바이스들(50)의 클러스터의 일부에서 동작하는 음성 에이전트(205)를 활성화시킬 수 있다. 도 4에 도시되어 있는 바와 같이, 세탁실에 위치하고 있는 사용자(30)는 웨이크 워드 활성화를 통해 스마트 세탁기 W의 음성 에이전트(205)와 스마트 건조기 D의 음성 에이전트(205)를 활성화시킬 수 있으며, 여기서 상기 스마트 세탁기 W와 스마트 건조기 D 는 상기 사용자(30)에 가장 가까운 세탁실에서 전자 디바이스들(50)의 클러스터를 생성한다. 예를 들어, 상기 사용자(30)는 웨이크 워드의 명시적 발화를 통해 상기 스마트 세탁기 W의 음성 에이전트(205)와 스마트 건조기 D의 음성 에이전트를 활성화시킨다.도 4에 도시되어 있는 바와 같이, 상기 스마트 세탁기 W의 음성 에이전트(205)와 상기 스마트 건조기 D의 음성 에이전트(205) 둘 다는 상기 웨이크 워드에 응답하여 웨이크 업한다. 일 실시 예에서, 전자 디바이스(50)의 음성 에이전트(205)가 사용자(30)가 (예를 들어, 적어도 하나의 센서 유닛(70)을 통해) 근접하지 않은 것을 검출할 경우, 상기 음성 에이전트(205)는 상기 전자 디바이스(50)가 상기 사용자(30)에 가장 가까이 존재하지 않고, 또한 상기 사용자(30)에 가장 가까이 존재하는 전자 디바이스들(50)의 클러스터의 일부도 아니라고 결정하고, 상기 사용자(30)로부터의 웨이크 워드 활성화를 무시한다. 예를 들어, 주방에 존재하는 스마트 냉장고 (패밀리 허브(family hub)로 동작하는)의 음성 에이전트(205) 및 상기 주방에 존재하는 스마트 식기 세척기 DW의 음성 에이전트(205) 둘 다는 상기 사용자(30)가 상기 스마트 냉장고 FH 및 상기 스마트 식기 세척기 DW의 근처에 존재하지 않기 때문에 상기 웨이크 워드에 의해 활성화되지 않는다.
도 4에 도시되어 있는 바와 같이, 상기 사용자(30)는 상기 웨이크 워드 다음에 상기 스마트 건조기 D 상에 얼마나 많은 시간이 남아 있는지에 대한 질문(inquiry)을 포함하는 음성 명령을 한다. 상기 스마트 세탁기 W의 음성 에이전트(205)는 상기 질문이 상기 스마트 세탁기 W에 대해 의도되는 것이 아니라고 결정하고, 상기 질문을 거절하고, 상기 음성 에이전트(205)가 상기 슬립 모드로 다시 천이하고 있는 중임을 지시하는 시각적 피드백을 상기 사용자(30)에게 디스플레이한다 (예를 들어, 상기 스마트 세탁기 W의 지시등이 어두워진다). 상기 스마트 건조기 D의 음성 에이전트(205)는 상기 질문이 상기 스마트 건조기 D에 대해 의도되는 것으로 결정하고, 상기 음성 에이전트(205)가 상기 생각 모드(thinking mode)에 존재함을 지시하는 시각적 피드백을 상기 사용자(30)에게 디스플레이하고, 상기 스마트 건조기 D에서 남아 있는 시간을 지시하는 음성 응답을 생성하여 상기 사용자(30)에게 출력한다.
도 5는 하나 또는 그 이상의 실시 예들에서, 다수의 전자 디바이스들(50)에서 구현되는 지능형 어시스턴트와의 멀티-모달 상호 작용을 포함하는 제2 예제 시나리오를 도시하고 있다. 일 실시 예에서, 사용자(30)는 물리 이벤트 활성화를 포함하는 다른 타입들의 활성화 방법들을 통해 전자 디바이스(50)에서 동작하고, 멀티-모달 상호 작용을 제공하는 음성 에이전트(205)를 활성화시킬 수 있다. 도 5에 도시되어 있는 바와 같이, 세탁실에 위치하고 있는 사용자(30)는 물리 이벤트 활성화를 통해, 스마트 세탁기 W와 같은 상기 세탁실 내의 특정 전자 디바이스(50)의 음성 에이전트(205)를 자동으로 활성화시킬 수 있다. 예를 들어, 상기 사용자(30)는 상기 스마트 세탁기 W의 세탁실의 도어를 닫는 것을 통해 상기 스마트 세탁기 W의 음성 에이전트(205)를 자동으로 활성화시킨다. 상기 스마트 세탁기 W와의 이런 물리 상호 작용은 상기 사용자(30)가 상기 스마트 세탁기 W의 음성 에이전트(205)를 웨이크 업시키기 위해 웨이크 워드를 명시적으로 발화해야만 하는 것을 방지한다. 또한, 이런 물리 상호 작용은 상기 스마트 세탁기 W만을 포함하기 때문에, 상기 스마트 세탁기 W의 음성 에이전트(205)만이 웨이크 업되고; 그것은 스마트 건조기 D와 같은 상기 세탁실에 있는 다른 전자 디바이스(50)의 음성 에이전트(205)를 활성화시키지는 않는다.
도 5에 도시되어 있는 바와 같이, 상기 사용자(30)는 시작하는 것에 대한 요청을 포함하는 음성 명령을 통해 상기 스마트 세탁기 W를 시작시킨다. 상기 음성 명령은 간단하고, 상기 사용자(30)가 상기 스마트 세탁기 W를 시작시키기 위해 웨이크 워드를 명시적으로 발화할 필요를 제거한다. 상기 스마트 세탁기 W의 음성 에이전트(205)는 상기 요청이 상기 스마트 세탁기 W에 대해 의도되는 것으로 결정하고, 상기 스마트 세탁기 W를 트리거/호출하여 세탁 사이클을 시작하도록 한다.
일 실시 예에서, 전자 디바이스(50)에서 동작하는 음성 에이전트(205)는 상기 전자 디바이스(50)가 조합되어 사용될 수 있는 적어도 하나의 다른 전자 디바이스(50)를 결정하도록 구성된다. 예를 들어, 상기 스마트 세탁기 W와 스마트 건조기 D에 의해 수행되는 최근의 액션들(예를 들어, 사용자들(30)이 상기 스마트 세탁기 W를 통해 먼저 의류를 세탁하고, 그리고 나서 상기 스마트 건조기 D를 통해 상기 세탁된 의류를 건조하는 것)에 기반하여, 상기 스마트 세탁기 W의 음성 에이전트(205)는 상기 스마트 세탁기 W 및 상기 스마트 건조기 D가 조합하여 사용될 수 있다고 결정한다. 일 실시 예에서, 상기 스마트 세탁기 W의 음성 에이전트(205)는 상기 스마트 세탁기 W의 현재 세탁 사이클이 종료되기 전에 상기 스마트 건조기 D의 음성 에이전트(205)를 트리거하여 상기 슬립 모드로부터 웨이크 업 하도록 한다. 일 실시 예에서, 상기 스마트 세탁기 W의 음성 에이전트(205) 또는 상기 스마트 건조기 D의 음성 에이전트(205)는 상기 스마트 세탁기 W의 현재 세탁 사이클이 언제 종료될 지를 지시하는 피드백(예를 들어, 음성 및/또는 시각적 피드백)을 상기 사용자(30)에게 제공한다. 이런 피드백은 상기 사용자(30)에게 상기 스마트 세탁기 W에서 세탁된 의류를 언제 꺼낼 수 있는지를 알려준다.
일 실시 예에서, 상기 사용자(30)는 상기 사용자(30)가 상기 스마트 세탁기 W에서 세탁된 의류를 꺼내서 상기 세탁된 의류를 상기 스마트 건조기 D의 건조실에 넣은 후 상기 스마트 건조기 D의 건조실의 도어를 닫는 것을 통해 상기 스마트 건조기 D의 음성 에이전트(205)를 자동으로 활성화시킨다.
도 6은 하나 또는 그 이상의 실시 예들에서, 다수의 전자 디바이스들(50)에서 구현되는 지능형 어시스턴트와의 멀티-모달 상호 작용을 포함하는 제3 예제 시나리오를 도시하고 있다. 일 실시 예에서, 다수의 전자 디바이스들(50)에서 동작하는 음성 에이전트(205)는 상기 다수의 전자 디바이스들(50) 중 어느 것이 음성 명령에 응답하기에 가장 적합한지를 결정하도록 구성된다. 도 6에 도시되어 있는 바와 같이, 세탁실에 위치하고 있는 사용자(30)는 웨이크 워드 활성화를 통해, 스마트 세탁기 W 및/또는 스마트 건조기 D와 같은, 상기 세탁실에서 각 전자 디바이스(50)의 각 음성 에이전트(205)를 활성화시킬 수 있다. 예를 들어, 상기 사용자(30)는 웨이크 워드로 시작하고 세제를 주문하는 것에 대한 제1 요청이 뒤따르는 제1 음성 명령을 통해 상기 스마트 세탁기 W의 음성 에이전트(205)와 상기 스마트 건조기 D의 음성 에이전트(205) 둘 다를 활성화시킨다.
도 6에 도시되어 있는 바와 같이, 상기 스마트 세탁기 W의 음성 에이전트(205) 및 상기 스마트 건조기 D의 음성 에이전트(205)는 둘 다 상기 웨이크 워드에 응답하여 웨이크 업한다. 일 실시 예에서, 상기 스마트 건조기 D의 음성 에이전트(205)는 상기 제1 요청이 상기 스마트 건조기 D에 대해 의도되는 것이 아니라고 결정하고, 상기 제1 요청을 거절하고, 상기 음성 에이전트(205)가 다시 상기 슬립 모드로 천이하고 있는 중이라는 시각적 피드백을 상기 사용자(30)에게 디스플레이 한다(예를 들어, 상기 스마트 건조기 D의 지시등이 어두워진다). 상기 스마트 세탁기 W의 음성 에이전트(205)는 상기 제1 요청이 상기 스마트 세탁기 W에 대해 의도되는 것이라고 결정하고, 상기 음성 에이전트(205)가 상기 생각 모드(thinking mode)에 존재한다는 시각적 피드백을 상기 사용자(30)에게 디스플레이한다.
도 6에 도시되어 있는 바와 같이, 상기 스마트 세탁기 W의 음성 에이전트(205)는 상기 사용자(30)가 이전에 진행한 세제의 구매 및 세제에 대한 거래 가능성을 식별하는 음성 응답을 생성하여 상기 사용자(30)에게 출력한다. 상기 사용자(30)는 상기 거래를 확인하기 위한 제2 요청을 포함하는 제2 음성 명령을 통해 상기 음성 에이전트(205)에 응답한다. 일 실시 예에서, 상기 스마트 세탁기 W의 음성 에이전트(205)는 상기 제2 요청에 응답하기에 가장 적합한 다른 전자 디바이스(50)가 상기 사용자(30)의 근접 내에 존재하는지 여부를 결정하도록 구성된다. 예를 들어, 상기 스마트 세탁기 W의 음성 에이전트(205)는 주방에 존재하는 스마트 냉장고 FH가 상기 제2 요청에 응답하기에 가장 적합하다고 결정하고, 상기 스마트 냉장고 FH를 트리거/호출하여 상기 스마트 냉장고 FH의 터치 스크린에 상기 거래를 디스플레이하도록 하고, 상기 스마트 냉장고 FH에 상기 거래가 디스플레이됨을 지시하는 음성 응답을 상기 세탁실에서 상기 사용자(30)에게 출력한다. 상기 스마트 세탁기 W의 음성 에이전트(205)는 상기 제2 요청에 응답하기 위해 더 유능한 근처의 전자 디바이스(50)를 사용하고, 음성 상호 작용(상기 음성 명령들을 통해)에서 터치 상호 작용(상기 터치 스크린을 통해)으로 자연스러운 모드 스위치를 가능하게 한다.
도 6에 도시되어 있는 바와 같이, 상기 사용자(30)가 상기 스마트 냉장고 FH 상에 디스플레이 되어 있는 거래를 보기 위해 주방으로 이동할 때, 상기 스마트 세탁기 W의 음성 에이전트(205)는 상기 음성 에이전트(205)가 다시 상기 슬립 모드로 천이하고 있는 중이라는 시작적 피드백(예를 들어, 상기 스마트 세탁기 W의 지시 등이 어두워진다)을 디스플레이한다.
도 7은 하나 또는 그 이상의 실시 예들에서, 다수의 전자 디바이스들(50)에서 구현되는 지능형 어시스턴트와의 멀티-모달 상호 작용을 포함하는 제4 예제 시나리오를 도시하고 있다. 일 실시 예에서, 사용자(30)는 물리 이벤트 활성화를 포함하는 다른 타입들의 활성화 방법들을 통해 전자 디바이스들(50)에서 동작하는 음성 에이전트(205)를 활성화할 수 있으며, 사용자(30) 및/또는 전자 디바이스들(50)는 멀티-모달 상호 작용을 제공할 수 있다. 도 7에 도시되어 있는 바와 같이, 주방에 위치하고 있는 사용자(30)는 물리 이벤트 활성화를 통해, 스마트 오븐 O과 같은 상기 주방에서의 특정 전자 디바이스(50)의 음성 에이전트(205)를 자동으로 활성화시킬 수 있다. 예를 들어, 상기 사용자(30)는 상기 스마트 오븐 O의 오븐 챔버(oven chamber)의 문을 닫는 것을 통해 상기 스마트 오븐 O의 음성 에이전트(205)를 자동으로 활성화시킨다. 상기 스마트 오븐 O과의 이런 물리 상호 작용은 상기 사용자(30)가 상기 스마트 오븐 O의 음성 에이전트(205)를 웨이크 업 시키기 위해 웨이크 워드를 명시적으로 발화해야만 하는 것을 방지한다. 또한, 이러한 물리 상호 작용은 상기 스마트 오븐 O만을 포함하기 때문에, 상기 스마트 오븐 O의 음성 에이전트(205)만 웨이크 업되고; 그것은 스마트 전자 레인지 M, 스마트 레인지 R, 스마트 식기 세척기 DW, 및/또는 스마트 냉장고 FH와 같은 상기 주방에 있는 다른 전자 디바이스(50)의 음성 에이전트(205)를 활성화시키지 않는다.
도 7에 도시되어 있는 바와 같이, 상기 사용자(30)는 특정 설정들(예를 들어, 1시간 동안 450도, 그 다음 따뜻하게 유지)에서 굽기 위한 요청을 포함하는 음성 명령을 통해 상기 스마트 오븐 O을 시작시킨다. 상기 음성 명령은 간단하여, 상기 사용자(30)가 상기 스마트 오븐 O을 시작시키기 위해 웨이크 워드를 명시적으로 발화할 필요를 제거한다. 상기 스마트 오븐 O의 음성 에이전트(205)는 상기 요청이 상기 스마트 오븐 O에 대해 의도되는 것이라고 결정하고, 상기 스마트 오븐 O을 트리거/호출하여 상기 요청을 수행하도록 하고, 상기 스마트 오븐 O의 제어 표면(control surface)을 통해 상기 사용자(30)에게 시각적 피드백을 디스플레이하고, 여기서 상기 시각적 피드백은 상기 설정들을 지시한다. 상기 스마트 오븐 O의 음성 에이전트(205)가 여전히 상기 청취 모드에 존재할 경우(즉, 상기 음성 에이전트(205)에 대한 청취 윈도우가 아직 경과되지 않은 경우), 상기 사용자(30)는 상기 설정들을 조정하는 것에 대한 요청을 포함하는 다른 음성 명령을 내릴 수 있다.
물리 이벤트 활성화들의 다른 예들은, 상기 사용자(30)가 (예를 들어, 전자 레인지에 요리를 하기 위해 상기 스마트 전자 레인지 M에 식품을 넣은 후) 상기 스마트 전자 레인지 M의 도어를 닫음으로써 상기 스마트 전자 레인지 M의 음성 에이전트(205)를 자동으로 활성화하는 것, 상기 사용자(30)가 (예를 들어, 냉장을 위해 상기 스마트 냉장고 FH에 식품을 넣은 후) 상기 스마트 냉장고 FH의 도어를 닫는 것을 통해 상기 스마트 냉장고 FH의 음성 에이전트(205)를 자동으로 활성화시키는 것, 상기 사용자(30)가 (예를 들어, 세척을 위해 식기 세척실에 접시들을 넣은 후) 상기 스마트 식기 세척기 DW의 식기 세척실의 도어를 닫는 것을 통해 상기 스마트 식기 세척기 DW의 음성 에이전트(205)를 자동으로 활성화시키는 것, 등을 포함하며, 그렇다고 이로 제한되는 것은 아니다.
일 실시 예에서, 전자 디바이스들(50)의 클러스터의 하나의 전자 디바이스(50)에 의해 수행되는 액티비티(activity)는 상기 클러스터의 하나 또는 그 이상의 다른 전자 디바이스들(50)의 음성 에이전트(205)를 활성화시킬 수 있다. 도 7에 도시되어 있는 바와 같이, 상기 스마트 오븐 O, 상기 스마트 전자 레인지 M, 상기 스마트 레인지 R, 상기 스마트 식기 세척기 DW 및 상기 스마트 냉장고 FH는 상기 주방에서 전자 디바이스들(50)의 클러스터를 형성한다. 상기 사용자(30)가 상기 스마트 냉장고 FH의 터치 스크린 상에 디스플레이되어 있는 치킨 파마산에 대한 레시피를 보고 있는 중이라고 가정하기로 한다. 상기 사용자(30)가 상기 레시피를 요리하기를 원할 경우, 상기 사용자(30)는 웨이크 워드 활성화 또는 물리 이벤트 활성화(예를 들어, 상기 터치 스크린 상에서 상기 레시피를 선택하는 것과 같은 UI 활성화, 도어 닫힘 활성화, 등)를 통해 상기 클러스터에서 동작하는 음성 에이전트(205)를 깨울 수 있다.
예를 들어, 상기 사용자(30)가 상기 스마트 냉장고 FH에서 냉동 닭고기를 꺼내어 해동을 위해 상기 스마트 전자 레인지 M에 상기 냉동 닭고기를 넣은 후 상기 스마트 전자 레인지 M의 도어를 닫는다고 가정하기로 한다. 상기 스마트 전자 레인지(M)의 음성 에이전트(205)는 상기 스마트 전자레인지(M)의 도어 닫힘에 응답하여 활성화된다. 상기 사용자(30)가 음성 명령 "시작(Start)"을 내릴 때, 상기 음성 에이전트(205)는 상기 음성 명령을 수행하는 데 필요한 전자 레인지 설정들과 같은, 상기 음성 명령과 관련되는 컨텍스트 정보(contextual information)를 결정한다. 예를 들어, 상기 레시피 및/또는 하나 또는 그 이상의 온라인 데이터 소스들에 기반하여, 상기 음성 에이전트(205)는 상기 냉동 닭고기를 해동하는데 필요로 되는 온도 및 시간의 양과 같은 전자 레인지 설정들을 결정하고, 상기 스마트 전자레인지 M를 트리거/호출하여 상기 전자 레인지 설정들에 따라 시작하고, 상기 스마트 전자레인지 M의 제어 표면을 통해 시작적 피드백을 디스플레이하도록 하고, 여기서 상기 시각적 피드백은 상기 전자 레인지 설정들을 지시한다. 상기 사용자(30)는 상기 디스플레이되는 전자 레인지 설정들을 보고, 필요할 경우 음성 상호 작용(예를 들어, 음성 명령을 내림) 또는 터치 상호 작용(예를 들어, 상기 제어 표면과 상호 작용함)을 통해 조정할 수 있다.
상기 레시피가 상기 닭고기를 시어링하는(seared) 것을 필요로 할 경우, 상기 스마트 전자레인지 M이 상기 닭고기를 해동하는 것을 완료하기 전에 상기 스마트 레인즈 R의 음성 에이전트(205)가 활성화될 수 있다. 예를 들어, 상기 스마트 전자 레인지 M의 음성 에이전트(205) 또는 상기 클러스터의 마스터 디바이스가 상기 스마트 전자 레인지 M가 상기 해동을 완료하기 1분 전 또는 몇 초 전에 상기 스마트 레인지 R의 음성 에이전트(205)를 트리거하여 웨이크 업 하도록 한다고 가정하기로 한다. 상기 사용자(30)가 (상기 스마트 전자 레인지 M에서 상기 닭고기를 꺼낸 후) 상기 해동된 닭고기가 담겨 있는 팬을 상기 스마트 레인지 R에 올려 놓고, 음성 명령 "시작"을 내릴 때, 상기 스마트 레인지 R의 음성 에이전트(205)는 상기 음성 명령을 수행하는 데 필요한 레인지 설정들과 같은, 상기 음성 명령과 관련된 컨텍스트 정보를 결정한다. 예를 들어, 상기 레시피 및/또는 하나 또는 그 이상의 온라인 데이터 소스들에 기반하여, 상기 음성 에이전트(205)는 상기 닭고기를 시어링하는데 필요한 온도 및 시간의 양과 같은 레인지 설정들을 결정하고, 상기 스마트 레인지 R을 트리거/호출하여 상기 레인지 설정들에 따라 시작하고, 상기 스마트 레인지 R의 제어 표면을 통해 시각적 피드백을 디스플레이하도록 하고, 여기서 상기 시각적 피드백은 상기 레인지 설정들을 지시한다. 상기 사용자(30)는 상기 디스플레이되는 레인지 설정들을 보고, 필요할 경우 음성 상호 작용(예를 들어, 음성 명령을 내리는 것) 또는 터치 상호 작용(예를 들어, 상기 제어 표면과 상호 작용을 하는 것)을 통해 조정할 수 있다.
상기 레시피가 상기 닭고기가 그슬려진 후 상기 닭고기가 구워지는 것을 필요로 할 경우, 상기 스마트 레인지 R이 상기 닭고기를 그슬리는 것을 완료하기 전에 상기 스마트 오븐 O의 음성 에이전트(205)가 활성화될 수 있다. 예를 들어, 상기 스마트 레인지 R의 음성 에이전트(205) 또는 상기 클러스터의 마스터 디바이스가 상기 스마트 오븐 O의 음성 에이전트(205)를 트리거하여 상기 스마트 레인지 R이 상기 시어링(searing)을 완료하기 몇 분 전에 웨이크 업하고 상기 스마트 오븐 O를 예열(pre-heating)하는 것을 시작하도록 한다고 가정하기로 한다. 상기 음성 에이전트(205)는 상기 스마트 오븐 O를 예열하는 데 필요한 오븐 설정들과 같은, 상기 스마트 오븐 O을 예열하는 것과 관련된 컨텍스트 정보를 결정한다. 예를 들어, 상기 음성 에이전트(205)는 상기 닭고기를 굽는 데 필요한 온도 및 시간의 양과 같은 오븐 설정들을 결정하고, 상기 스마트 오븐 O를 트리거/호출하여 상기 온도에 따라 사전 예열을 시작하도록 한다. 상기 사용자(30)가 상기 시어링된 닭고기가 담긴 팬을 상기 스마트 오븐 O에 넣고 음성 명령 "시작"을 내릴 때, 상기 스마트 오븐 O의 음성 에이전트(205)는 상기 스마트 오븐 O을 트리거/호출하여 상기 오븐 설정들에 따라 굽기를 시작하고 상기 스마트 오븐 O의 제어 표면을 통해 시각적 피드백을 디스플레이하도록 하며, 여기서 상기 시각적 피드백은 상기 오븐 설정들을 지시한다. 상기 사용자(30)는 디스플레이되는 상기 오븐 설정들을 보고, 필요할 경우 음성 상호 작용(예를 들어, 음성 명령을 내리는 것) 또는 터치 상호 작용(예를 들어, 상기 제어 표면과 상호 작용을 하는 것)을 통해 조정할 수 있다.
상기 사용자(30)에 관련되는 컨텍스트 정보(예를 들어, 적어도 하나의 센서 유닛(70)을 통해 캡처되는 센서-기반 컨텍스트 정보, 상기 사용자(30)에 대한 달력 정보, 미래에 스케줄된 음성 명령, 등)에 기반하여, 상기 클러스터(예를 들어, 마스터 디바이스)에서 동작하는 음성 에이전트(205)는, 상기 닭고기가 상기 스마트 오븐 O에서 구워지고 있는 동안, 상기 사용자(30)가 (예를 들어, 학교에서 아이들을 픽업하기 위해) 집을 떠날 것인지 또는 집에 머물 건인지를 결정하고, 상기 스마트 오븐 O를 트리거/호출하여 상기 사용자(30)가 없는 동안 상기 굽기를 중지할 수 있다. 상기 음성 에이전트(205)는 상기 사용자(30)가 상기 집으로 돌아온 것을 검출할 경우 상기 스마트 오븐 O을 트리거/호출하여 상기 굽기를 재개할 수 있다.
도 8은 하나 또는 그 이상의 실시 예들에서, 다수의 전자 디바이스들(50)에서 구현되는 지능형 어시스턴트와의 멀티-모달 상호 작용을 포함하는 제5 예제 시나리오를 도시하고 있다. 일 실시 예에서, 다수의 위치들(예를 들어, 다른 방들)에 있는 다수의 전자 디바이스들(50)에서 동작하는 음성 에이전트(205)는 다중-디바이스 모호성 해소(multi-device disambiguation)를 해결하기 위해 컨텍스트 정보, 확인(confirmation)들, 및 명확화(clarification)들을 사용한다. 도 8에 도시되어 있는 바와 같이, 주방에 위치하는 사용자(30)는 스마트 전자 레인지 M, 스마트 레인지 R, 스마트 오븐 O, 및/또는 스마트 AI 스피커를 포함하는 스마트 홈 디바이스 H와 같은, 상기 주방에 있는 다수의 전자 디바이스들(50)에서 동작하는 음성 에이전트(205)를 웨이크 워드 활성화를 통해 활성화시킬 수 있다. 예를 들어, 상기 사용자(30)는 웨이크 워드로 시작하고 그것이 너무 뜨겁다는 말(statement)이 뒤따르는 제1 음성 명령을 통해 상기 음성 에이전트(205)를 활성화시킨다.
일 실시 예에서, 상기 스마트 홈 디바이스 H는 다른 방들에 있는 다수의 전자 디바이스들(50)을 제어하는 마스터 디바이스(master device)로서 동작한다. 일 실시 예에서, 상기 스마트 홈 디바이스 H의 음성 에이전트(205)가 상기 웨이크 워드에 응답하여 웨이크 업할 때, 상기 음성 에이전트(205)는 상기 다수의 전자 디바이스들(50) 각각의 현재 상태에 기반하여 상기 말과 관련된 컨텍스트 정보를 (예를 들어, 상기 다수의 전자 디바이스들(50) 중 어느 것이 상기 말에 대한 원인 요소(contributing factor)인지) 결정하도록 구성된다. 예를 들어, 도 8에 도시되어 있는 바와 같이, 상기 스마트 오븐 O의 현재 상태가 상기 스마트 오븐 O이 굽기 중인 것일 경우, 상기 스마트 홈 디바이스 H의 음성 에이전트(205)는 상기 스마트 오븐 O의 현재 상태가 상기 말과 관련이 있다고 결정하고, 상기 주방에서 상기 사용자(30)를 위해 상기 스마트 오븐 O의 온도를 낮춰야만 하는지를 질의하는 음성 응답을 생성하여 출력함으로써 상기 사용자(30)에게 명확화(clarification)를 요청한다.
도 8에 도시되어 있는 바와 같이, 상기 사용자(30)는 상기 사용자(30)가 너무 덥게 느껴진다는 것을 명확히 하는 제2 음성 명령을 통해 상기 음성 에이전트(205)에 응답한다. 상기 사용자(30)의 이런 명확화에 응답하여, 상기 스마트 홈 디바이스 H의 음성 에이전트(205)는 상기 스마트 오븐 O 이외의 상기 다수의 전자 디바이스들(50) 각각의 현재 상태에 기반하여 상기 명확화에 관련되는 컨텍스트 정보를 결정하도록 구성된다 (예를 들어, 상기 스마트 오븐 O 이외의 상기 다수의 전자 디바이스들(50) 어느 하나가 상기 명확화에 대한 원인 요소인지). 예를 들어, 도 8에 도시되어 있는 바와 같이, 거실에 있는 스마트 에어 컨디셔너 AC의 현재 상태가 상기 스마트 에어 컨디셔너 AC의 온도가 너무 높게 설정되어 있는 것일 경우, 상기 스마트 홈 디바이스 H의 음성 에이전트(205)는 상기 스마트 에어 컨디셔너 AC의 현재 상태를 상기 말과 관련된다고 결정하고, 상기 사용자(30)를 위해 상기 주방에서 상기 스마트 에어 컨디셔너 AC의 온도를 낮춰야만 하는지를 질의하는 음성 응답을 생성하여 출력함으로써 상기 사용자(30)에게 명확화(clarification)를 요청한다.
도 8에 도시되어 있는 바와 같이, 상기 사용자(30)는 상기 사용자(30)가 상기 음성 에이전트(205)가 상기 스마트 에어 컨디셔너 AC의 온도를 낮추기를 원하는 것을 확인하는 제3 음성 명령을 통해 상기 음성 에이전트(205)에 응답한다. 상기 사용자(30)로부터의 이런 확인에 응답하여, 상기 스마트 홈 디바이스 H의 음성 에이전트(205)는 상기 스마트 에어 컨디셔너 AC를 트리거/호출하여 상기 스마트 에어 컨디셔너 AC가 설정되어 있는 온도를 낮추도록 한다.
도 9는 하나 또는 그 이상의 실시 예들에서, 다수의 전자 디바이스들(50)에서 구현되는 지능형 어시스턴트와의 멀티-모달 상호 작용을 포함하는 제6 예제 시나리오를 도시하고 있다. 일 실시 예에서, 사용자(30)는 다수의 위치들(예를 들어, 다른 방들)에 있는 다수의 전자 디바이스들(50)에서 동작하고, 연속적이고 크로스-디바이스(cross-device)인 대화형 NLU(conversational NLU)를 제공하는 음성 에이전트(205)를 활성화시킬 수 있다. 도 9에 도시되어 있는 바와 같이, 거실에 위치하고 있는 사용자(30)는 스마트 에어 컨디셔너 AC, 스마트 텔레비전 T, 및/또는 스마트 AI 스피커를 포함하는 스마트 홈 미니 디바이스 HM과 같은, 상기 거실에 있는 또는 상기 거실 근처에 있는, 다수의 전자 디바이스들(50)에서 동작하는 음성 에이전트(205)를 웨이크 워드 활성화를 통해 활성화시킬 수 있다. 예를 들어, 상기 사용자(30)는 웨이크 워드로 시작하고 Y 게임(예를 들어, Y 팀이 관련되는 농구 게임)이 방송되는 것에 대한 요청이 뒤따르는 제1 음성 명령을 통해 상기 음성 에이전트(205)를 활성화시킨다.
일 실시 예에서, 상기 스마트 홈 미니 디바이스 HM는 다른 방들에 있는 다수의 전자 디바이스들(50)을 제어하는 마스터 디바이스로서 동작한다. 일 실시 예에서, 상기 스마트 홈 미니 디바이스 HM의 음성 에이전트(205)가 상기 웨이크 워드에 응답하여 웨이크 업 할 때, 상기 음성 에이전트(205)는 상기 다수의 전자 디바이스들(50) 중 어느 것에 대해 상기 요청이 의도되는 지(예를 들어, 상기 전자 디바이스들(50) 중 어느 것이 상기 요청을 수행하는 데 가장 적합한지) 결정하고, 상기 요청이 의도되는 상기 전자 디바이스(50)를 트리거/호출하여 상기 요청을 수행하도록 구성된다. 예를 들어, 도 9에 도시되어 있는 바와 같이, 상기 스마트 홈 미니 디바이스 HM의 음성 에이전트(205)는 상기 요청이 상기 스마트 텔레비전 T에 대해 의도되는 것이라고 결정하고, 상기 스마트 텔레비전 T를 트리거/호출하여 상기 Y 게임을 턴 온하도록 한다.
일 실시 예에서, 상기 사용자(30)가 상기 거실에서 주방으로 이동할 때, 상기 사용자(30)는 스마트 전자 레인지 M, 스마트 레인지 R, 스마트 오븐 O, 및/또는 스마트 홈 디바이스 H와 같은, 상기 주방에 있는 다수의 전자 디바이스들(50)에서 동작하는 음성 에이전트(205)를 웨이크 워드 활성화를 통해 활성화시킬 수 있다. 예를 들어, 도 9에 도시되어 있는 바와 같이, 상기 사용자(30)는 웨이크 워드로 시작하고 스코어(score)에 대한 문의가 뒤따르는 제2 음성 명령을 통해 상기 음성 에이전트(205)를 활성화시킨다.
일 실시 예에서, 상기 스마트 홈 디바이스 H는 다른 방에 있는 다수의 전자 디바이스들(50)을 제어하는 마스터 디바이스로서 동작한다. 일 실시 예에서, 상기 스마트 홈 디바이스 H의 음성 에이전트(205)가 상기 웨이크 워드에 응답하여 웨이크 업 할 때, 상기 음성 에이전트(205)는 상기 다수의 전자 디바이스들(50) 각각의 현재 상태에 기반하여 상기 문의와 관련되는 컨텍스트 정보를 결정하도록 구성된다. 예를 들어, 도 9에 도시되어 있는 바와 같이, 상기 스마트 홈 디바이스 H의 음성 에이전트(205)는 상기 스마트 텔레비전 T에서 상기 Y 게임이 상기 질의와 관련되는 컨텍스트 정보라고 결정하고, 어플리케이션(예를 들어, 소프트웨어 모바일 어플리케이션(90))을 호출하여 상기 Y게임의 현재 스코어에 대해 문의하도록 하고, 상기 사용자(30)를 위해 상기 주방에서 상기 Y 게임의 현재 스코어를 제공하는 음성 응답을 생성하여 출력한다.
도 10은 하나 또는 그 이상의 실시 예들에서, 다수의 전자 디바이스들(50)에서 구현되는 지능형 어시스턴트와의 멀티-모달 상호 작용을 포함하는 제7 예제 시나리오를 도시하고 있다. 일 실시 예에서, 다수의 사용자들(30)은 다수의 위치들(예를 들어, 다른 방들)에 있는 다수의 전자 디바이스들(50)에서 동작하고, 연속적이고, 크로스-디바이스이고, 사용자 인식인 대화형 NLU를 제공하는 음성 에이전트(205)를 활성화시킬 수 있다. 도 10에 도시되어 있는 바와 같이, 거실에 위치하고 있는 제1 사용자 A는 스마트 에어 컨디셔너 AC, 스마트 텔레비전 T, 및/또는 스마트 홈 미니 디바이스 HM과 같은, 상기 거실에 있는 또는 상기 거실 근처에 있는, 다수의 전자 디바이스들(50)에서 동작하는 음성 에이전트(205)를 웨이크 워드 활성화를 통해 활성화시킬 수 있다. 예를 들어, 상기 제1 사용자 A는 웨이크 워드로 시작하고 상기 거실을 청소하는 것에 대한 제1 요청이 뒤따르는 제1 음성 명령을 통해 상기 음성 에이전트(205)를 활성화시킨다.
일 실시 예에서, 상기 스마트 홈 미니 디바이스 HM는 다른 방들에 있는 다수의 전자 디바이스들(50)을 제어하는 마스터 디바이스로서 동작한다. 일 실시 예에서, 상기 스마트 홈 미니 디바이스 HM의 음성 에이전트(205)가 상기 웨이크 워드에 응답하여 웨이크 업 할 때, 상기 음성 에이전트(205)는 상기 다수의 전자 디바이스들 (50) 중 어느 것이 상기 제1 요청이 의도되는 것인지 결정하고, 상기 제1 요청이 의도되는 상기 전자 디바이스(50)를 트리거/호출하여 상기 제1 요청을 수행하도록 구성된다. 예를 들어, 도 10에 도시되어 있는 바와 같이, 상기 스마트 홈 미니 디바이스 HM의 음성 에이전트(205)는 상기 제1 요청이 세탁실에 위치되어 있는 스마트 진공 청소기 V에 대해 의도된다고 결정하고, 상기 스마트 진공 청소기 V를 트리거/호출하여 시작하고 상기 거실로 이동함으로써 상기 제1 요청을 수행하도록 하고, 및 상기 제1 사용자 A를 위해 상기 거실에서 상기 제1 요청을 인지(acknowledge)/확인하는 음성 응답을 생성하여 출력한다.
도 10에 도시되어 있는 바와 같이, 주방에 위치하고 있는 제2 사용자 B는 웨이크 워드 활성화를 통해, 스마트 전자 레인지 M, 스마트 레인지 R, 스마트 오븐 O, 스마트 홈 미니 디바이스 HM, 및/또는 스마트 냉장고 FH와 같은 상기 주방에 있는 또는 상기 주방의 근처에 있는 다수의 전자 디바이스들(50)에서 동작하는 음성 에이전트(205)를 활성시킬 수 있다. 예를 들어, 상기 제2 사용자 B는 웨이크 워드로 시작하고 상기 청소를 중단하는 것에 대한 제2 요청이 뒤따르는 제2 음성 명령을 통해 상기 음성 에이전트(205)를 활성화시킨다.
일 실시 예에서, 상기 스마트 냉장고 FH는 다른 방들에 있는 다수의 전자 디바이스들(50)을 제어하는 마스터 디바이스로 동작한다. 일 실시 예에서, 상기 스마트 냉장고 FH의 음성 에이전트(205)가 상기 웨이크 워드에 응답하여 웨이크 업 할 때, 상기 음성 에이전트(205)는 상기 다수의 전자 디바이스들(50) 각각의 현재 상태에 기반하여 상기 다수의 전자 디바이스들(50)들 중 어떤 것이 상기 제2 요청이 의도되는 지 결정하도록 구성된다. 예를 들어, 도 10에 도시되어 있는 바와 같이, 상기 스마트 냉장고 FH의 음성 에이전트(205)는 상기 제2 요청이 상기 스마트 진공 청소기 V에 대해 의도된다고 결정하고, 상기 세탁실로 다시 이동한 후 정지하여 상기 스마트 진공 청소기 V를 트리거/호출하여 상기 제2 요청을 수행하도록 하고, 상기 제2 사용자 B를 위해 상기 주방에서 상기 제2 요청을 인지/확인하는 음성 응답을 생성 및 출력한다.
일 실시 예에서, 다수의 위치들(예를 들어, 다른 방들)에 있는 다수의 전자 디바이스들(50)에서 동작하는 음성 에이전트(205)가 다수의 사용자들(30)로부터 충돌하는 음성 명령들을 수신하는 경우, 상기 음성 에이전트(205)는 상기 다수의 사용자들(30) 중 적어도 한 명에게 상기 충돌(conflict)을 알리도록 구성된다. 예를 들어, 도 10에 도시되어 있는 바와 같이, 상기 스마트 냉장고 FH의 음성 에이전트(205)는 상기 제1 요청과 제2 요청이 충돌하는 음성 명령들이라고 결정하고, 상기 제1 사용자 A가 상기 제1 요청을 내렸을 때 상기 거실에 위치하고 있던 상기 제1 사용자 A를 리콜(recall)하고, 상기 제1 사용자 A를 위해 상기 거실에서 상기 제2 사용자 B가 상기 제2 요청을 내림을 알리는 음성 응답을 생성하여 출력한다.
도 11은 하나 또는 그 이상의 실시 예들에서, 전자 디바이스에서 지능형 어시스턴트와의 멀티-모달 상호 작용을 구현하는 예제 프로세스(900)의 플로우차트이다. 프로세스 블록(901)은 전자 디바이스(예를 들어, 전자 디바이스(50)) 상에서 지능형 어시스턴트(예를 들어, 음성 에이전트(205))의 활성화를 검출하는 것을 포함한다. 프로세스 블록(902)은 상기 활성화에 응답하여 상기 지능형 어시스턴트를 슬립 모드로부터 웨이크 업하는 것을 포함한다. 프로세스 블록(903)은 상기 활성화의 타입에 기반하여 청취 모드 동안 상기 지능형 어시스턴트가 작용하는 어휘의 양을 결정하는 것을 포함한다.
일 실시 예에서, 프로세스 블록들(901-903)은 상기 음성 사용자 인터페이스 시스템(200)의 하나 또는 그 이상의 컴포넌트들에 의해 수행될 수 있다.
도 12는 하나 또는 그 이상의 실시 예들에서, 전자 디바이스에서 지능형 어시스턴트의 물리 이벤트 활성화를 구현하는 예제 프로세스(910)의 플로우차트이다. 프로세스 블록(911)은 전자 디바이스(예를 들어, 전자 디바이스(50))와의 물리 상호 작용을 검출하는 것을 포함한다. 프로세스 블록(912)은 상기 물리 상호 작용에 응답하여 슬립 모드로부터 상기 전자 디바이스 상에서 지능형 어시스턴트(예를 들어, 음성 에이전트(205))를 활성화시키는 것을 포함한다.
일 실시 예에서, 프로세스 블록들(911-912)은 상기 음성 사용자 인터페이스 시스템(200)의 하나 또는 그 이상의 컴포넌트들에 의해 수행될 수 있다.
도 13은 개시된 실시 예들은 구현하는데 유용한 컴퓨터 시스템(600)을 포함하는 정보 프로세싱 시스템을 도시하고 있는 상위-레벨 블록 다이아그램이다. 상기 시스템(200)은 상기 컴퓨터 시스템(600)에 통합될 수 있다. 상기 컴퓨터 시스템(600)은 하나 또는 그 이상의 프로세서들(601)을 포함하고, (비디오, 그래픽들, 텍스트 및 다른 데이터를 디스플레이하기 위한) 전자 디스플레이 디바이스(602), 메인 메모리(603)(예를 들어, 랜덤 억세스 메모리(random access memory: RAM), 저장 디바이스(604)(예를 들어, 하드 디스크 드라이브), 제거 가능 저장 디바이스(605)(예를 들어, 제거 가능 저장 드라이브, 제거 가능 메모리 모듈, 자기 테이프 드라이브, 광 디스크 드라이브, 컴퓨터 소프트웨어 및/또는 데이터를 저장하고 있는 컴퓨터 리드 가능 매체), 뷰어 인터페이스 디바이스(viewer interface device)(606)(예를 들어, 키보드, 터치 스크린, 키패드, 포인팅 디바이스), 및 통신 인터페이스(607)(예를 들어, 모뎀, (이더넷 카드와 같은) 네트워크 인터페이스, 통신들 포트, 또는 PCMCIA 슬롯 및 카드)를 더 포함할 수 있다. 상기 통신 인터페이스(607)는 소프트웨어 및 데이터가 상기 컴퓨터 시스템과 외부 디바이스들 간에 전달되는 것을 허락한다.
상기 시스템(600)은 전술한 디바이스들/모듈들(601 내지 607)이 연결되는 통신들 인프라스트럭쳐(infrastructure)(608)(예를 들어, 통신 버스, 크로스-오버 바(cross-over bar), 또는 네트워크)를 더 포함한다.
통신들 인터페이스(607)를 통해 전달되는 정보는, 신호들을 전송하고, 유선 또는 케이블, 광섬유, 전화 라인, 셀룰라 통신 링크, 무선 주파수(radio frequency: RF) 링크, 및/또는 다른 통신 채널들을 사용하여 구현될 수 있는 통신 링크를 통해, 통신들 인터페이스(607)에 의해 수신될 수 있는 전자, 전자기, 광, 또는 다른 신호들과 같은 신호들의 형태일 수 있다. 본 명세서의 블록 다이아그램 및/또는 플로우차트들을 나타내는 컴퓨터 프로그램 인스트럭션(instruction)들은 컴퓨터, 프로그램 가능 데이터 프로세싱 장치, 또는 프로세싱 디바이스들에 로드되어 그에서 대해 수행되는 일련의 동작들이 컴퓨터 구현 프로세스를 생성하게 할 수 있다. 일 실시 예에서, 프로세스(900)(도 11) 및 프로세스(910)(도 12)에 대한 프로세싱 인스트럭션들은 상기 프로세서(601)에 의한 실행을 위해 상기 메모리(603), 저장 디바이스(604), 및/또는 상기 제거 가능 저장 디바이스(605)에 프로그램 인스트럭션들로서 저장될 수 있다.
방법들, 장치(시스템들) 및 컴퓨터 프로그램 제품들의 플로우차트 예시들 및/또는 블록 다이아그램들을 참조하여 실시 예들이 설명되었다. 이러한 예시들/도면들의 각 블록, 또는 그 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 구현될 수 있다. 프로세서로 제공될 때 상기 컴퓨터 프로그램 인스트럭션들은 머신(machine)을 생성하며, 따라서 상기 프로세서를 통해 실행되는 상기 인스트럭션들은 상기 플로우차트 및/또는 블록도에 명시되어 있는 기능들/동작들을 구현하기 위한 수단을 생성한다. 상기 플로우차트/블록 다이아그램들에서의 각 블록은 하드웨어 및/또는 소프트웨어 모듈 또는 로직을 나타낼 수 있다. 대안적인 구현들에서, 상기 블록들에서 언급된 기능들은 상기 도면들에 언급된 순서를 벗어나서, 동시에, 등으로 발생할 수 있다. 또는 기타 순서로 발생할 수도 있다. 본 개시의 실시 예들에 따른 방법(또는 상기 방법의 일부 동작들, 액션들, 행위들, 블록들, 단계들)은 적어도 하나의 프로세서(예를 들어, 상기 프로세서(55)) 또는 전자 디바이스(예를 들어, 상기 전자 디바이스(50)) 중 하나에 의해 수행될 수 있다.
용어들 "컴퓨터 프로그램 매체", "컴퓨터 사용 가능한 매체", "컴퓨터 리드 가능 매체" 및 "컴퓨터 프로그램 제품"은 일반적으로 메인 메모리, 보조 메모리, 제거 가능 저장 드라이브, 하드 디스크 드라이브에 설치된 하드 디스크, 및 신호들과 같은 매체들을 나타내기 위해 사용된다. 이러한 컴퓨터 프로그램 제품들은 상기 컴퓨터 시스템에 소프트웨어를 제공하기 위한 수단이다. 상기 컴퓨터 리드 가능 매체는 상기 컴퓨터 시스템이 상기 컴퓨터 리드 가능 매체로부터 데이터, 인스트럭션들, 메시지들 또는 메시지 패킷들, 및 다른 컴퓨터 리드 가능 정보를 리드하는 것을 허락한다. 상기 컴퓨터 리드 가능 매체는, 예를 들어, 플로피 디스크, ROM, 플래시 메모리, 디스크 드라이브 메모리, CD-ROM 및 다른 영구 저장 디바이스와 같은 비-휘발성 메모리를 포함할 수 있다. 예를 들어, 그것은 컴퓨터 시스템들 간에 데이터 및 컴퓨터 인스트럭션들과 같은 정보를 전송하는 데 유용하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터, 다른 프로그램 가능 데이터 프로세싱 장치, 또는 다른 디바이스들이 특정 방식으로 기능하도록 지시할 수 있는 컴퓨터 리드 가능 매체에 저장될 수 있으며, 따라서 상기 컴퓨터 리드 가능 매체에 저장되어 있는 상기 인스트럭션들이 상기 플로우차트 및/또는 블록 다이아그램 또는 블록들에 명시되어 있는 상기 기능/행위를 구현하는 인스트럭션들을 포함하는 제조 물품을 생성하도록 한다.
해당 기술 분야의 당업자에 의해 이해될 것과 같이, 상기 실시 예들의 측면들은 시스템, 방법 또는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 따라서, 상기 실시 예들의 측면들은 전체 하드웨어 실시 예, 전체 소프트웨어 실시 예(펌웨어, 상주 소프트웨어, 마이크로-코드, 등을 포함하는) 또는 모두 일반적으로 본 명세서에서 "회로", "모듈", 또는 "시스템"으로 칭해질 수 있는 소프트웨어 및 하드웨어 측면들을 결합하는 실시 예의 형태를 취할 수 있다. 또한, 상기 실시 예들의 측면들은 컴퓨터 리드 가능 프로그램 코드가 구현되어 있는 하나 또는 그 이상의 컴퓨터 리드 가능 매체(들)에 구현되어 있는 컴퓨터 프로그램 제품의 형태를 취할 수 있다.
하나 또는 그 이상의 컴퓨터 리드 가능 매체(들)의 임의의 조합이 사용될 수 있다. 상기 컴퓨터 리드 가능 매체는 컴퓨터 리드 가능 저장 매체일 수 있다. 상기 컴퓨터 리드 가능 저장 매체는, 예를 들어 전자, 자기, 광, 전자기, 적외선, 또는 반도체 시스템, 장치 또는 디바이스, 또는 전술한 바들의 임의의 적합한 조합일 수 있으며, 그렇다고 이로 제한되는 것은 아니다. 상기 컴퓨터 리드 가능 저장 매체의 더 구체적인 예제들(불완전 리스트(non-exhaustive list))는 다음을 포함할 것이다: 하나 또는 그 이상의 전선들을 가지는 전기 연결, 휴대용 컴퓨터 디스켓, 하드 디스크, 랜덤 억세스 메모리(random access memory: RAM), 리드-온니 메모리(read-only memory: ROM), 소거 가능 프로그램 가능 리드-온니 메모리( EPROM (erasable programmable read-only memory) 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 리드-온니 메모리(compact disc read-only memory: CD-ROM), 광 저장 디바이스, 자기 저장 디바이스, 또는 상술한 것들의 임의의 적절한 조합. 이 문서의 컨텍스트에서, 컴퓨터 리드 가능 저장 매체는 인스트럭션 실행 시스템, 장치, 또는 디바이스에 의해 또는 이와 연결되어 사용하기 위한 프로그램을 포함하거나, 또는 저장할 수 있는 임의의 유형의(tangible) 매체일 수 있다.
하나 또는 그 이상의 실시 예들의 측면들에 대한 동작들을 수행하기 위한 컴퓨터 프로그램 코드는 Java, Smalltalk, C++, 등과 같은 객체 지향 프로그래밍 언어 및 상기 "C" 프로그래밍 언어 또는 유사한 프로그래밍 언어들과 같은 종래의 절차적 프로그래밍 언어들을 포함하는, 하나 또는 그 이상의 프로그래밍 언어들의 임의의 조합으로 라이트 될(written) 수 있다. 상기 프로그램 코드는 상기 사용자의 컴퓨터에서 완전하게, 스탠드-얼론 소프트웨어 패키지(stand-alone software package)로서, 상기 사용자의 컴퓨터에서 부분적으로, 상기 사용자의 컴퓨터에서 부분적으로 및 원격 컴퓨터에서 부분적으로 또는 상기 원격 컴퓨터 또는 서버에서 완전하게 실행될 수 있다. 상기 후자의 시나리오에서, 상기 원격 컴퓨터는 근거리 통신 네트워크(local area network: LAN) 또는 광역 네트워크(wide area network: WAN)을 포함하는 임의의 타입의 네트워크를 통해 상기 사용자의 컴퓨터에 연결될 수 있거나, 또는 상기 연결은 외부 컴퓨터(예를 들어, 인터넷 서비스 공급자를 사용하여 상기 인터넷을 통해)에 대해 이루어질 수 있다.
하나 또는 그 이상의 실시 예들의 측면들은 방법, 장치(시스템들) 및 컴퓨터 프로그램 제품의 플로우차트 예시들 및/또는 블록 다이아그램들을 참조하여 상기에서 설명되고 있다. 상기 플로우차트 예시들 및/또는 블록 다이아그램들에서의 각 블록, 및 상기 플로우차트 예시들 및/또는 블록 다이아그램들에서의 블록들의 조합은 컴퓨터 프로그램 인스트럭션들에 의해 구현될 수 있음이 이해될 것이다. 이러한 컴퓨터 프로그램 인스트럭션들은 특정 목적 컴퓨터 또는 다른 프로그램 가능 데이터 프로세싱 장치로 제공되어, 상기 컴퓨터 또는 다른 프로그램 가능 데이터 프로세싱 장치의 프로세서에 의해 실행되는 상기 인스트럭션들이 상기 플로우차트 및/또는 블록 다이아그램 블록 또는 블록들에서 명시되어 있는 상기 기능들/액트(act)들을 구현하기 위한 수단을 생성하도록, 머신을 생성할 수 있다.
이러한 컴퓨터 프로그램 인스트럭션들은 또한, 컴퓨터 리드 가능 매체에 저장되어 있는 인스트럭션들이 상기 플로우차트 및/또는 블록 다이아그램 블록 또는 블록들에 명시되어 있는 상기 기능/액트를 구현하는 인스트럭션들을 포함하는 제조 물품을 생성하도록, 컴퓨터, 다른 프로그램 가능 데이터 프로세싱 장치, 또는 다른 디바이스들이 특정 방식으로 기능하도록 지시할 수 있는 컴퓨터 리드 가능 매체에 저장될 수 있다.
상기 컴퓨터 프로그램 인스트럭션들은 또한 컴퓨터, 다른 프로그램 가능 데이터 프로세싱 장치, 또는 다른 디바이스들에 로드되어, 상기 컴퓨터 또는 다른 프로그램 가능 장치에서 실행되는 상기 인스트럭션들이 상기 플로우차트 및/또는 블록 다이아그램 블록 또는 블록들에서 명시되어 있는 상기 기능들/액티들을 실행하기 위한 프로세스들을 제공하도록, 상기 컴퓨터, 다른 프로그램 가능 장치 또는 다른 디바이스들에서 일련의 동작 단계들이 수행되어 컴퓨터 구현 프로세스를 생성하도록 할 수 있다.
상기 도면들에서 플로우차트 및 블록 다이아그램들은 다양한 실시 예에 따른 시스템들, 방법들, 및 컴퓨터 프로그램 제품들의 가능한 구현들의 아키텍처, 기능성, 및 동작을 도시하고 있다. 이와 관련하여, 상기 플로우차트 또는 블록 다이아그램들에서의 각 블록은 모듈, 세그먼트, 또는 상기 명시된 논리 기능(들)을 구현하기 위한 하나 또는 그 이상의 실행 가능한 인스트럭션들을 포함하는 인스트럭션들의 일부를 나타낼 수 있다. 일부 대안적인 구현들에서, 상기 블록에서 언급된 기능들은 상기 도면들에 언급된 순서와 다르게 발생할 수 있다. 예를 들어, 연속적으로 도시되어 있는 2개의 블록들은 실제로 실질적으로 동시에 실행될 수 있거나, 또는 관련되는 기능성에 의존하여, 상기 블록들이 때때로 역순으로 실행될 수 있다. 또한, 상기 블록 다이어그램들 및/또는 플로우차트 예시에서의 각 블록과 상기 블록 다이어그램들 및/또는 플로우차트 예시에서의 블록들의 조합들은 상기 명시된 기능들 또는 액트들을 수행하거나, 또는 특정 목적의 하드웨어 또는 컴퓨터 인스트럭션들의 조합들을 수행하는 특정 목적 하드웨어-기반 시스템들에 의해 구현될 수 있다는 것에 유의하여야 할 것이다.
단수 형태의 엘리먼트에 대한 청구항들에서의 언급은 명시적으로 언급되지 않는 한, "하나 및 오직"을 의미하는 것이 아니라 "하나 또는 그 이상"을 의미하는 것으로 의도되는 것이다. 현재 알려져 있거나, 또는 이후에 해당 기술 분야의 당업자들에게 알려지게 되는 전술한 예시적인 실시 예의 엘리먼트들에 대한 모든 구조적 및 기능적 균등물들은 본 청구항들에 포함되는 것으로 의도된다. 여기에서의 어떠한 청구 엘리먼트도 상기 엘리먼트가 구문 "means for" 또는 "step for"를 사용하여 명시적으로 언급되지 않는 한 35 U.S.C. 섹션 112, 제6 단락의 조항에 따라 해석되어서는 안될 것이다.
본 명세서에서 사용되는 용어는 단지 특정한 실시 예들을 설명하기 위한 목적이며, 본 발명을 한정하려는 의도가 아니다. 본 명세서에 사용되는 바와 같이, 단수 형태들 "a", "an" 및 "the"는 상기 컨텍스트가 명백하게 다르게 지시하지 않는 한 복수 형태들도 포함하는 것으로 의도된다. 본 명세서에서 사용될 때 용어들 "포함하다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 특징들, 정수들, 단계들, 동작들, 엘리먼트들, 및/또는 컴포넌트들의 존재를 명시하지만, 그렇다고 하나 혹은 그 이상의 다른 특징들, 정수들, 단계들, 동작들, 엘리먼트들, 컴포넌트들, 및/또는 그 그룹들의 존재 또는 추가를 배제하는 것은 아니라는 것이 더 이해될 것이다.
하기의 청구항들에서 모든 수단들 또는 단계 플러스 기능 엘리먼트(step plus function element)들의 상응하는 구조들, 재료들, 액트들, 및 균등물들은 구체적으로 청구되는 다른 청구된 엘리먼트들과 조합하여 상기 기능을 수행하기 위한 임의의 구조, 재료, 또는 액트를 포함하도록 의도된다. 상기 실시 예들의 설명은 예시 및 설명의 목적들로 제시되었지만, 개시된 형태의 실시 예들을 완전하게 하거나 제한하려는 의도를 가지는 것은 아니다. 많은 수정들 및 변형들이 본 발명의 범위 및 사상을 벗어남이 없이 해당 기술 분야의 당업자들에게 명백할 것이다.
상기 실시 예들이 그 특정 버전들을 참조하여 설명되었지만, 다른 버전들도 가능하다. 따라서, 첨부된 청구항들의 사상과 범위는 본 명세서에 포함되어 있는 바람직한 버전들의 설명에만 한정되어서는 안 될 것이다.

Claims (20)

  1. 디스플레이, 마이크로폰, 스피커, 및 적어도 하나의 센서를 포함하는 전자 장치의 동작 방법에 있어서,
    제 1 이벤트의 제 1 발생에 기반하여, 상기 디스플레이 또는 상기 스피커 중 적어도 하나를 통하여, 제 1 피드백을 제공하는 동작-상기 제 1 이벤트는, 상기 마이크로폰을 통하여 획득되는 제 1 음성 신호(speech signal)로부터 웨이크 단어(wake word)를 식별함을 포함함-;
    상기 제 1 피드백을 제공한 이후 제 1 시간 기간 이내에 상기 마이크로폰을 통하여 음성 신호가 획득되지 않음에 기반하여 제 1 타임아웃(timeout)을 생성하는 동작;
    제 2 이벤트의 제 1 발생에 기반하여, 상기 디스플레이 또는 상기 스피커 중 적어도 하나를 통하여 제 2 피드백을 제공하는 동작-상기 제 2 이벤트는, 상기 적어도 하나의 센서를 통하여, 상기 전자 장치로부터 근접 거리 이내에서 외부 객체를 검출함을 포함하고, 상기 제 2 피드백은 상기 제 1 피드백과 상이함-; 및
    상기 제 2 피드백을 제공한 이후 제 2 시간 기간 이내에 상기 마이크로폰을 통하여 음성 신호가 획득되지 않음에 기반하여 제 2 타임아웃을 생성하는 동작;
    을 포함하고,
    상기 동작 방법은,
    상기 제 1 이벤트의 제 2 발생 이후 제 3 시간 기간 이내에 상기 마이크로폰을 통하여 획득되는 제 2 음성 신호로부터 음성 명령이 확인되지 않음에 기반하여 제 3 타임아웃을 생성하는 동작; 및
    상기 제 2 이벤트의 제 2 발생 이후 제 4 시간 기간 이내에 상기 마이크로폰을 통하여 획득되는 제 3 음성 신호로부터 음성 명령이 확인되지 않음에 기반하여 제 4 타임아웃을 생성하는 동작
    을 포함하는 동작 방법.
  2. 제 1 항에 있어서,
    상기 제 1 피드백은, 상기 스피커를 통하여 제공되는 사운드 또는 상기 디스플레이를 통하여 제공되는 시각적 인디케이션(visual indication) 중 적어도 하나를 포함하고,
    상기 제 2 피드백은, 상기 디스플레이를 통하여 제공되는 시각적 인디케이션을 포함하는 동작 방법.
  3. 제 1 항에 있어서,
    상기 제 1 시간 기간은 상기 제 3 시간 기간과 상이하고, 상기 제 2 시간 기간은 상기 제 4 시간 기간과 상이한 동작 방법.
  4. 제 1 항에 있어서,
    상기 제 1 타임 아웃을 생성함에 기반하여, 슬립 모드(sleep mode)로의 전환을 나타내는 시각적 인디케이션을 제공하는 동작;
    을 더 포함하는 동작 방법.
  5. 제 1 항에 있어서,
    상기 제 2 타임 아웃을 생성함에 기반하여, 슬립 모드로의 전환을 알리는 시각적 인디케이션을 제공하는 동작;
    을 더 포함하는 동작 방법.
  6. 제 1 항에 있어서,
    상기 제 3 타임아웃을 발생시키기 이전에 상기 제 2 음성 신호가 상기 마이크로폰을 통하여 획득됨에 기반하여, 상기 디스플레이를 통하여, 청취 모드(listening mode)로의 전환을 나타내는 텍스트 문구를 표시하는 동작;
    을 더 포함하는 동작 방법.
  7. 제 1 항에 있어서,
    상기 제 4 타임아웃을 발생시키기 이전에 상기 제 3 음성 신호가 상기 마이크로폰을 통하여 획득됨에 기반하여, 청취 모드로의 전환을 나타내는 텍스트 문구를 표시하는 동작;
    을 더 포함하는 동작 방법.
  8. 제 1 항에 있어서,
    상기 제 3 타임아웃의 생성은, 상기 스피커를 통하여, 상기 제 2 음성 신호로부터 음성 명령이 확인되지 않음을 나타내는 음성 응답을 제공하는 동작을 포함하는 동작 방법.
  9. 제 1 항에 있어서,
    상기 제 4 타임아웃의 생성은, 상기 디스플레이를 통하여, 상기 제 3 음성 신호로부터 음성 명령이 확인되지 않음을 나타내는 시각적 피드백을 제공하는 동작을 포함하는 동작 방법.
  10. 제 3항에 있어서,
    상기 제 1 시간 기간은 상기 제 2 시간 기간보다 길며, 상기 제 3 시간 기간은 상기 제 4 시간 기간보다 긴 동작 방법.
  11. 전자 장치에 있어서,
    디스플레이;
    마이크로폰;
    스피커;
    적어도 하나의 센서; 및
    상기 디스플레이, 상기 마이크로폰, 상기 스피커, 및 상기 적어도 하나의 센서에 연결되는 적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 프로세서는:
    제 1 이벤트의 제 1 발생에 기반하여, 상기 디스플레이 또는 상기 스피커 중 적어도 하나를 통하여, 제 1 피드백을 제공하고-상기 제 1 이벤트는, 상기 마이크로폰을 통하여 획득되는 제 1 음성 신호(speech signal)로부터 웨이크 단어(wake word)를 식별함을 포함함-,
    상기 제 1 피드백을 제공한 이후 제 1 시간 기간 이내에 상기 마이크로폰을 통하여 음성 신호가 획득되지 않음에 기반하여 제 1 타임아웃(timeout)을 생성하고,
    제 2 이벤트의 제 1 발생에 기반하여, 상기 디스플레이 또는 상기 스피커 중 적어도 하나를 통하여 제 2 피드백을 제공하고-상기 제 2 이벤트는, 상기 적어도 하나의 센서를 통하여, 상기 전자 장치로부터 근접 거리 이내에서 외부 객체를 검출함을 포함하고, 상기 제 2 피드백은 상기 제 1 피드백과 상이함-, 및
    상기 제 2 피드백을 제공한 이후 제 2 시간 기간 이내에 상기 마이크로폰을 통하여 음성 신호가 획득되지 않음에 기반하여 제 2 타임아웃을 생성하도록 설정되고,
    상기 적어도 하나의 프로세서는:
    상기 제 1 이벤트의 제 2 발생 이후 제 3 시간 기간 이내에 상기 마이크로폰을 통하여 획득되는 제 2 음성 신호로부터 음성 명령이 확인되지 않음에 기반하여 제 3 타임아웃을 생성하고, 및
    상기 제 2 이벤트의 제 2 발생 이후 제 4 시간 기간 이내에 상기 마이크로폰을 통하여 획득되는 제 3 음성 신호로부터 음성 명령이 확인되지 않음에 기반하여 제 4 타임아웃을 생성하도록 더 설정된 전자 장치.
  12. 제 11 항에 있어서,
    상기 제 1 피드백은, 상기 스피커를 통하여 제공되는 사운드 또는 상기 디스플레이를 통하여 제공되는 시각적 인디케이션(visual indication) 중 적어도 하나를 포함하고,
    상기 제 2 피드백은, 상기 디스플레이를 통하여 제공되는 시각적 인디케이션을 포함하는 전자 장치.
  13. 제 11 항에 있어서,
    상기 제 1 시간 기간은 상기 제 3 시간 기간과 상이하고, 상기 제 2 시간 기간은 상기 제 4 시간 기간과 상이한 전자 장치.
  14. 제 11 항에 있어서,
    상기 적어도 하나의 프로세서는:
    상기 제 1 타임 아웃을 생성함에 기반하여, 슬립 모드(sleep mode)로의 전환을 나타내는 시각적 인디케이션을 제공하도록 더 설정된 전자 장치.
  15. 제 11 항에 있어서,
    상기 적어도 하나의 프로세서는:
    상기 제 2 타임 아웃을 생성함에 기반하여, 슬립 모드로의 전환을 알리는 시각적 인디케이션을 제공하도록 더 설정된 전자 장치.
  16. 제 11 항에 있어서,
    상기 적어도 하나의 프로세서는:
    상기 제 3 타임아웃을 발생시키기 이전에 상기 제 2 음성 신호가 상기 마이크로폰을 통하여 획득됨에 기반하여, 청취 모드(listening mode)로의 전환을 나타내는 텍스트 문구를 표시하도록 상기 디스플레이를 제어하도록 더 설정된 전자 장치.
  17. 제 11 항에 있어서,
    상기 적어도 하나의 프로세서는:
    상기 제 4 타임아웃을 발생시키기 이전에 상기 제 3 음성 신호가 상기 마이크로폰을 통하여 획득됨에 기반하여, 청취 모드로의 전환을 나타내는 텍스트 문구를 표시하도록 상기 디스플레이를 제어하도록 더 설정된 전자 장치.
  18. 제 11 항에 있어서,
    상기 적어도 하나의 프로세서는:
    상기 제 3 타임아웃을 생성하는 동작으로, 상기 스피커를 통하여, 상기 제 2 음성 신호로부터 음성 명령이 확인되지 않음을 나타내는 음성 응답을 제공하도록 설정된 전자 장치.
  19. 제 11 항에 있어서,
    상기 적어도 하나의 프로세서는:
    상기 제 4 타임아웃을 생성하는 동작으로, 상기 디스플레이를 통하여, 상기 제 3 음성 신호로부터 음성 명령이 확인되지 않음을 나타내는 시각적 피드백을 제공하도록 설정된 전자 장치.
  20. 제 13항에 있어서,
    상기 제 1 시간 기간은 상기 제 2 시간 기간보다 길며, 상기 제 3 시간 기간은 상기 제 4 시간 기간보다 긴 전자 장치.
KR1020237034829A 2019-03-27 2020-01-10 음성 명령 디바이스들에서 지능형 어시스턴트들과 멀티-모달 상호 작용 KR20230145553A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US16/367,063 US11482215B2 (en) 2019-03-27 2019-03-27 Multi-modal interaction with intelligent assistants in voice command devices
US16/367,063 2019-03-27
PCT/KR2020/000447 WO2020197062A1 (en) 2019-03-27 2020-01-10 Multi-modal interaction with intelligent assistants in voice command devices
KR1020217033845A KR102590047B1 (ko) 2019-03-27 2020-01-10 음성 명령 디바이스들에서 지능형 어시스턴트들과 멀티-모달 상호 작용

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020217033845A Division KR102590047B1 (ko) 2019-03-27 2020-01-10 음성 명령 디바이스들에서 지능형 어시스턴트들과 멀티-모달 상호 작용

Publications (1)

Publication Number Publication Date
KR20230145553A true KR20230145553A (ko) 2023-10-17

Family

ID=72603679

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020217033845A KR102590047B1 (ko) 2019-03-27 2020-01-10 음성 명령 디바이스들에서 지능형 어시스턴트들과 멀티-모달 상호 작용
KR1020237034829A KR20230145553A (ko) 2019-03-27 2020-01-10 음성 명령 디바이스들에서 지능형 어시스턴트들과 멀티-모달 상호 작용

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020217033845A KR102590047B1 (ko) 2019-03-27 2020-01-10 음성 명령 디바이스들에서 지능형 어시스턴트들과 멀티-모달 상호 작용

Country Status (5)

Country Link
US (5) US11482215B2 (ko)
EP (1) EP3906550A4 (ko)
KR (2) KR102590047B1 (ko)
CN (1) CN113614826A (ko)
WO (1) WO2020197062A1 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019216874A1 (en) * 2018-05-07 2019-11-14 Google Llc Methods, systems, and apparatus for providing composite graphical assistant interfaces for controlling connected devices
US11482215B2 (en) * 2019-03-27 2022-10-25 Samsung Electronics Co., Ltd. Multi-modal interaction with intelligent assistants in voice command devices
US11715467B2 (en) * 2019-04-17 2023-08-01 Tempus Labs, Inc. Collaborative artificial intelligence method and system
US11657800B2 (en) * 2019-04-26 2023-05-23 Lg Electronics Inc. Electronic device with wakeup word determined multi-mode operation
EP3797363A1 (en) 2019-05-06 2021-03-31 Rovi Guides, Inc. Systems and methods for leveraging acoustic information of voice queries
DE102019134874A1 (de) 2019-06-25 2020-12-31 Miele & Cie. Kg Verfahren zur Bedienung eines Geräts durch einen Benutzer mittels einer Sprachsteuerung
EP3757990A1 (de) * 2019-06-25 2020-12-30 Miele & Cie. KG Verfahren zur bedienung eines geräts durch einen benutzer mittels einer sprachsteuerung
US11675996B2 (en) * 2019-09-13 2023-06-13 Microsoft Technology Licensing, Llc Artificial intelligence assisted wearable
DE102019126830A1 (de) 2019-10-07 2021-04-08 Miele & Cie. Kg Aufstellgerät für ein Kochfeld mit einem Griff
US11430447B2 (en) * 2019-11-15 2022-08-30 Qualcomm Incorporated Voice activation based on user recognition
US12002458B1 (en) * 2020-09-04 2024-06-04 Amazon Technologies, Inc. Autonomously motile device with command processing
WO2022100283A1 (zh) * 2020-11-13 2022-05-19 海信视像科技股份有限公司 显示设备、控件触发方法及滚动文本检测方法
US11862155B2 (en) * 2020-12-11 2024-01-02 Google Llc Group hotwords
CN113568318A (zh) * 2021-05-31 2021-10-29 舌尖科技(北京)有限公司 一种多功能舱及相应计算机可读存储介质

Family Cites Families (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070049363A1 (en) 2005-08-23 2007-03-01 Green Howard D System and method for remotely controlling a device or system with voice commands
KR20080004822A (ko) * 2006-07-06 2008-01-10 엘지전자 주식회사 냉장고의 자동표시장치
US20080047287A1 (en) * 2006-08-24 2008-02-28 Jonathan Paul Ruppert Refrigerator based audio-visual presentation and communication system
US8700392B1 (en) * 2010-09-10 2014-04-15 Amazon Technologies, Inc. Speech-inclusive device interfaces
US9262612B2 (en) * 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
KR20120116207A (ko) * 2011-04-12 2012-10-22 엘지전자 주식회사 디스플레이 장치 및 이를 구비하는 냉장고
US9704484B2 (en) 2012-08-10 2017-07-11 Honda Access Corp. Speech recognition method and speech recognition device
KR102003938B1 (ko) * 2012-08-10 2019-07-25 엘지전자 주식회사 이동 단말기 및 그것의 제어 방법
CN103712410B (zh) * 2012-09-28 2017-05-17 Lg电子株式会社 电器产品
KR101984090B1 (ko) 2012-10-23 2019-05-30 엘지전자 주식회사 이동 단말기 및 그것의 제어방법
CN103811003B (zh) * 2012-11-13 2019-09-24 联想(北京)有限公司 一种语音识别方法以及电子设备
US9959865B2 (en) 2012-11-13 2018-05-01 Beijing Lenovo Software Ltd. Information processing method with voice recognition
US9721587B2 (en) 2013-01-24 2017-08-01 Microsoft Technology Licensing, Llc Visual feedback for speech recognition system
US9112984B2 (en) 2013-03-12 2015-08-18 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9530410B1 (en) * 2013-04-09 2016-12-27 Google Inc. Multi-mode guard for voice commands
US9305554B2 (en) * 2013-07-17 2016-04-05 Samsung Electronics Co., Ltd. Multi-level speech recognition
US9812130B1 (en) 2014-03-11 2017-11-07 Nvoq Incorporated Apparatus and methods for dynamically changing a language model based on recognized text
KR102216048B1 (ko) 2014-05-20 2021-02-15 삼성전자주식회사 음성 명령 인식 장치 및 방법
DE102014107163A1 (de) 2014-05-21 2015-11-26 Vorwerk & Co. Interholding Gmbh Elektrisch betriebenes Haushaltsgerät
US10127911B2 (en) * 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10089520B2 (en) * 2015-03-26 2018-10-02 Krishna V Motukuri System for displaying the contents of a refrigerator
DE102015009157A1 (de) * 2015-07-14 2017-01-19 Liebherr-Hausgeräte Ochsenhausen GmbH Kühl- und/oder Gefriergerät
KR20170010494A (ko) * 2015-07-20 2017-02-01 엘지전자 주식회사 이동 단말기 및 그 제어 방법
KR102223627B1 (ko) 2015-09-03 2021-03-05 삼성전자주식회사 냉장고
US20170069324A1 (en) * 2015-09-08 2017-03-09 General Electric Company Voice controlled electronic kitchen assistance
US9875081B2 (en) 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
US9484030B1 (en) * 2015-12-02 2016-11-01 Amazon Technologies, Inc. Audio triggered commands
US9610476B1 (en) * 2016-05-02 2017-04-04 Bao Tran Smart sport device
KR102642666B1 (ko) * 2016-02-05 2024-03-05 삼성전자주식회사 음성인식 장치 및 방법, 음성인식시스템
US10022614B1 (en) * 2016-05-02 2018-07-17 Bao Tran Smart device
WO2017223298A2 (en) * 2016-06-24 2017-12-28 Amazon Technologies, Inc. Speech-based storage tracking
US20180075218A1 (en) 2016-09-12 2018-03-15 International Business Machines Corporation Wellness data management
US10733989B2 (en) 2016-11-30 2020-08-04 Dsp Group Ltd. Proximity based voice activation
US10192553B1 (en) * 2016-12-20 2019-01-29 Amazon Technologes, Inc. Initiating device speech activity monitoring for communication sessions
KR102412202B1 (ko) * 2017-01-03 2022-06-27 삼성전자주식회사 냉장고 및 이의 정보 표시 방법
KR101889279B1 (ko) * 2017-01-16 2018-08-21 주식회사 케이티 음성 명령에 기반하여 서비스를 제공하는 시스템 및 방법
KR20180084392A (ko) 2017-01-17 2018-07-25 삼성전자주식회사 전자 장치 및 그의 동작 방법
US11164570B2 (en) 2017-01-17 2021-11-02 Ford Global Technologies, Llc Voice assistant tracking and activation
US10102855B1 (en) * 2017-03-30 2018-10-16 Amazon Technologies, Inc. Embedded instructions for voice user interface
EP3459076B1 (en) 2017-05-16 2020-07-22 Apple Inc. Far-field extension for digital assistant services
KR101957169B1 (ko) 2017-05-29 2019-03-12 엘지전자 주식회사 음성 서버의 동작 방법
US10504511B2 (en) 2017-07-24 2019-12-10 Midea Group Co., Ltd. Customizable wake-up voice commands
US10923101B2 (en) * 2017-12-26 2021-02-16 International Business Machines Corporation Pausing synthesized speech output from a voice-controlled device
KR102428782B1 (ko) 2017-12-29 2022-08-03 엘지전자 주식회사 세탁기 및 세탁기의 동작방법
US10614805B2 (en) * 2018-03-09 2020-04-07 Midea Group Co., Ltd. Voice-assisted restocking method and system
US20190295540A1 (en) * 2018-03-23 2019-09-26 Cirrus Logic International Semiconductor Ltd. Voice trigger validator
US10325596B1 (en) * 2018-05-25 2019-06-18 Bao Tran Voice control of appliances
US11501781B2 (en) * 2018-06-05 2022-11-15 Samsung Electronics Co., Ltd. Methods and systems for passive wakeup of a user interaction device
US11017217B2 (en) * 2018-10-09 2021-05-25 Midea Group Co., Ltd. System and method for controlling appliances using motion gestures
US10650819B2 (en) * 2018-10-15 2020-05-12 Midea Group Co., Ltd. System and method for providing portable natural language processing interface across multiple appliances
US10978046B2 (en) * 2018-10-15 2021-04-13 Midea Group Co., Ltd. System and method for customizing portable natural language processing interface for appliances
KR102211191B1 (ko) * 2018-12-07 2021-02-03 엘지전자 주식회사 냉장고 및 냉장고의 제어 방법
US11482215B2 (en) * 2019-03-27 2022-10-25 Samsung Electronics Co., Ltd. Multi-modal interaction with intelligent assistants in voice command devices
WO2020226213A1 (ko) * 2019-05-09 2020-11-12 엘지전자 주식회사 음성 인식 기능을 제공하는 인공 지능 기기, 인공 지능 기기의 동작 방법
US11379016B2 (en) * 2019-05-23 2022-07-05 Intel Corporation Methods and apparatus to operate closed-lid portable computers
KR20190092333A (ko) * 2019-07-19 2019-08-07 엘지전자 주식회사 음성 인식 디바이스와 통신하는 장치, 음성 인식 능력을 가진 장치 및 음성 인식 능력을 가진 장치를 제어하는 방법

Also Published As

Publication number Publication date
US11721342B2 (en) 2023-08-08
US11482215B2 (en) 2022-10-25
EP3906550A4 (en) 2022-03-09
US20220093100A1 (en) 2022-03-24
CN113614826A (zh) 2021-11-05
KR102590047B1 (ko) 2023-10-18
US20210295843A1 (en) 2021-09-23
EP3906550A1 (en) 2021-11-10
US20230335133A1 (en) 2023-10-19
KR20210130832A (ko) 2021-11-01
US20200312318A1 (en) 2020-10-01
US11217250B2 (en) 2022-01-04
US20230027433A1 (en) 2023-01-26
WO2020197062A1 (en) 2020-10-01

Similar Documents

Publication Publication Date Title
KR102590047B1 (ko) 음성 명령 디바이스들에서 지능형 어시스턴트들과 멀티-모달 상호 작용
US11422772B1 (en) Creating scenes from voice-controllable devices
US9698999B2 (en) Natural language control of secondary device
CN107483721B (zh) 基于黑屏手势的控制方法、装置、存储介质及移动终端
CN108600059B (zh) 设备控制方法及相关产品
CN108022590A (zh) 语音接口设备处的聚焦会话
WO2019184300A1 (zh) 一种ai控制件、智能家居控制系统及控制方法
KR102371752B1 (ko) 가전 기기 및 그의 제어방법
US20160034117A1 (en) Electronic device operating in idle mode and method thereof
WO2014190886A1 (zh) 智能交互系统及其软件系统
KR20200098856A (ko) 전자 장치에서 스케줄 관리 방법 및 장치
US20210241600A1 (en) Electronic device for supporting task management service and operating method thereof
CN108006918A (zh) 空气净化器控制方法及装置
CN115718433A (zh) 智能设备的控制方法、装置、智能系统和存储介质
CN112233673A (zh) 厨房系统的控制方法、厨房系统和计算机可读存储介质
CN110164426A (zh) 语音控制方法和计算机存储介质
US11818820B2 (en) Adapting a lighting control interface based on an analysis of conversational input
KR20210132936A (ko) 인공지능 홈오토메이션 시스템
US20230100194A1 (en) Method and apparatus for controlling a remote device in an internet of things (iot) environment
WO2023221995A1 (zh) 智能设备控制方法及电子设备
CN117155728B (zh) 设备控制方法、装置、系统及计算机可读存储介质
WO2023142764A1 (zh) 操作系统的唤醒方法及装置、电子设备、存储介质
KR20230132324A (ko) 외부 장치를 제어하기 위한 인터페이스 제공 방법 및 장치
CN117170254A (zh) 家居设备的控制方法、装置、存储介质及家居设备
CN116182215A (zh) 智能化吸油烟机控制方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal