KR20200013173A - 전자 장치 및 그의 동작 방법 - Google Patents

전자 장치 및 그의 동작 방법 Download PDF

Info

Publication number
KR20200013173A
KR20200013173A KR1020180084901A KR20180084901A KR20200013173A KR 20200013173 A KR20200013173 A KR 20200013173A KR 1020180084901 A KR1020180084901 A KR 1020180084901A KR 20180084901 A KR20180084901 A KR 20180084901A KR 20200013173 A KR20200013173 A KR 20200013173A
Authority
KR
South Korea
Prior art keywords
session
processor
electronic device
indication
control device
Prior art date
Application number
KR1020180084901A
Other languages
English (en)
Other versions
KR102592769B1 (ko
Inventor
권우업
우경구
박상용
이종범
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020180084901A priority Critical patent/KR102592769B1/ko
Priority to US17/260,294 priority patent/US11804224B2/en
Priority to PCT/KR2019/006385 priority patent/WO2020017754A1/ko
Publication of KR20200013173A publication Critical patent/KR20200013173A/ko
Application granted granted Critical
Publication of KR102592769B1 publication Critical patent/KR102592769B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • H04L67/146Markers for unambiguous identification of a particular session, e.g. session cookie or URL-encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명의 다양한 실시 예는 인텔리전트 어시스턴스 서비스를 제공하기 위한 방법 및 이를 수행하는 전자 장치에 관한 것이다. 일 실시예에 따르면, 전자 장치는, 적어도 하나의 통신 회로; 적어도 하나의 마이크; 적어도 하나의 스피커; 상기 통신 회로, 상기 마이크, 및 상기 스피커에 작동적으로 연결된 적어도 하나의 프로세서; 및 상기 프로세서에 전기적으로 연결된 적어도 하나의 메모리를 포함하고, 상기 메모리는, 실행 시에, 상기 프로세서로 하여금, 음성 기반 인텔리전트 어시스턴스 서비스를 호출하는 웨이크업 발화를 수신하고, 상기 웨이크업 발화에 응답하여, 상기 음성 기반 인텔리전트 어시스턴스 서비스에 의해 진행 중인 세션을 확인하고, 제어 명령어 수신 시, 상기 세션에 기반하여 상기 세션을 통해 외부 장치로 상기 제어 명령어를 제공하도록 하는 인스트럭션들을 저장할 수 있다. 다른 실시 예들도 가능할 수 있다.

Description

전자 장치 및 그의 동작 방법{ELECTRONIC DEVICE AND OPERATING METHOD THEREOF}
본 발명의 다양한 실시 예들은 인텔리전트 어시스턴스 서비스(intelligent assistance service)를 제공하기 위한 방법 및 이를 수행하는 전자 장치에 관한 것이다.
최근 사용자들과 전자 장치들 사이의 직관적인 인터페이스를 제공할 수 있는 인텔리전트 어시스턴스 서비스가 개발되고 있다. 인텔리전트 어시스턴스 서비스는 사용자의 발화(utterance)에 대한 자연 언어 처리를 수행하여 사용자의 의도를 추론하고, 추론된 사용자의 의도를 기초로 하여 제어 장치가 제어되도록 처리할 수 있다.
인텔리전트 어시스턴스 서비스를 제공하는 전자 장치는 발화에 대한 자연 언어 처리 결과에 기초하여 제어 대상을 확인할 수 있다. 다시 말해서, 인텔리전트 어시스턴스 서비스를 이용하기 위해서, 사용자는 제어 대상인 제어 장치를 명시적으로 발화에 포함시켜야 한다.
하지만, 사용자가 동일한 제어 장치를 연속하여 제어하더라도 제어 장치를 반복적으로 발화에 포함시켜야 하는 문제점이 발생된다.
본 발명의 다양한 실시예는 전자 장치에서, 제어 장치에 대한 정보가 포함되지 않은 발화를 처리하기 위한 장치 및 방법을 제공할 수 있다.
본 발명의 다양한 실시예는 전자 장치에서, 제어 장치에 대한 정보가 포함되지 않은 발화를, 이전 발화를 처리한 제어 장치에서 처리하도록 제어하기 위한 장치 및 방법을 제공할 수 있다.
본 발명의 다양한 실시예는, 전자 장치에서, 웨이크-업 발화를 수신하는 것에 대응하여, 이전 발화를 처리한 제어 장치에 대한 인디케이션을 제공하기 위한 장치 및 방법을 제공할 수 있다.
본 발명의 다양한 실시 예들에 따른 전자 장치는, 유저 인터페이스; 적어도 하나의 통신 회로; 적어도 하나의 마이크; 적어도 하나의 스피커; 상기 인터페이스, 상기 통신 회로, 상기 마이크, 및 상기 스피커에 작동적으로 연결된 적어도 하나의 프로세서; 및 상기 프로세서에 전기적으로 연결된 적어도 하나의 메모리를 포함하고, 상기 메모리는, 실행 시에, 상기 프로세서로 하여금, 제 1 오퍼레이션에서, 상기 마이크를 통해, 음성 기반 인텔리전트 어시스턴스 서비스를 호출하는 웨이크업(wake-up) 발화(utterance)를 수신하고, 상기 웨이크업 발화에 응답하여, 상기 유저 인터페이스 또는 스피커 중 적어도 하나를 이용하여, 제 1 인디케이션을 제공하고, 제 2 오퍼레이션에서, 상기 음성 기반 인텔리전트 어시스턴스 서비스의 선택된 세션 진행 중에, 상기 마이크를 통해, 상기 웨이크업(wake-up) 발화(utterance)를 수신하고, 상기 웨이크업 발화에 응답하여 상기 유저 인터페이스 또는 스피커 중 적어도 하나를 이용하여, 제 1 인디케이션과 상이한 제 2 인디케이션을 제공하도록 하는 인스트럭션들을 저장할 수 있다.
본 발명의 다양한 실시 예들에 따른 시스템은, 통신 인터페이스; 상기 통신 인터페이스와 작동적으로 연결된 프로세서; 및 상기 프로세서에 전기적으로 연결된 적어도 하나의 메모리를 포함하고, 상기 메모리는, 실행 시에, 상기 프로세서로 하여금, 유저 인터페이스, 스피커, 및 마이크를 포함하는 전자 장치로부터, 상기 통신 인터페이스를 통해, 음성 기반 인텔리전트 어시스턴스 서비스의 세션(session)에 대한 정보 요청을 수신하고, 상기 음성 기반 인텔리전트 어시스턴스 서비스의 세션(session) 정보를 확인(confirm)하고, 상기 음성 기반 인텔리전트 어시스턴스 서비스가 선택된 세션 진행 중에 있으면, 상기 선택된 세션에 관련된 정보를 상기 전자 장치로 송신하도록 하는 인스트럭션들을 저장할 수 있다.
본 발명의 다양한 실시 예들에 따른 전자 장치의 발화 처리 방법은, 음성 기반 인텔리전트 어시스턴스 서비스를 호출하는 웨이크업(wake-up) 발화(utterance)를 수신하는 동작; 상기 웨이크업 발화에 응답하여, 상기 음성 기반 인텔리전트 어시스턴스 서비스에 의해 진행 중인 세션을 확인하는 동작; 및 제어 명령어 수신 시, 상기 세션에 기반하여 상기 세션을 통해 외부 제어 장치로 상기 제어 명령어를 제공하는 동작을 포함할 수 있다.
다양한 실시 예에 따르면, 전자 장치의 동작 및 장치는, 인텔리전트 어시스턴스 서비스를 호출하는 웨이크-업(wake-up) 발화(utterance)에 응답하여 음성 기반 인텔리전트 어시스턴스 서비스에 의해 진행 중인 세션을 확인하고, 수신되는 제어 메시지(또는 제어 명령어)를 세션을 통해 제어 장치로 제공하도록 함으로써, 사용자가 발화할 때마다 제어 장치를 반복적으로 발화에 포함시켜야 하는 문제점을 해결할 수 있다. 또한, 다양한 실시 예에 따르면, 전자 장치의 동작 및 장치는 웨이크-업 발화를 수신하는 것에 대응하여, 이전 발화를 처리한 제어 장치에 대한 인디케이션을 제공함으로써, 사용자가 발화를 처리한 제어 장치를 쉽게 파악할 수 있도록 할 수 있다.
도 1은 다양한 실시예들에 따른, 네트워크 환경 내의 전자 장치의 블럭도이다.
도 2는 본 발명의 다양한 실시 예들에 따른 원격 제어 시스템의 예시를 도시한 도면이다.
도 3은 본 발명의 다양한 실시 예들에 따른 서버의 구성을 도시한 도면이다.
도 4는 다양한 실시예에 따른 전자 장치에서 세션 형성 정보를 제공하기 위한 흐름도이다.
도 5는 다양한 실시예에 따라 인디케이션이 제공되는 상황을 설명하기 위한 도면이다.
도 6은 다양한 실시예에 따른 전자 장치에서 형성된 세션의 존재 여부에 대응되는 인디케이션을 제공하기 위한 흐름도이다.
도 7은 다양한 실시예에 따른 전자 장치에서 형성된 세션의 존재 여부에 대응되는 인디케이션을 제공하기 위한 다른 흐름도이다.
도 8은 다양한 실시예에 따른 전자 장치에서 형성된 세션의 존재 여부에 대응되는 인디케이션을 제공하기 위한 다른 흐름도이다.
도 9는 다양한 실시 예들에 따른 시스템에서 발화를 처리하는 동작을 도시한 도면이다.
도 10은 다양한 실시 예들에 따른 시스템에서 인디케이션을 제공하는 동작을 도시한 도면이다.
도 11은 다양한 실시 예들에 따른 시스템에서 인디케이션을 제공하는 다른 동작을 도시한 도면이다.
도 12는 다양한 실시 예들에 따른 시스템에서 인디케이션을 제공하는 또 다른 동작을 도시한 도면이다.
도 13은 다양한 실시예에 따른 전자 장치에서 제어 발화를 처리하기 위한 흐름도이다.
도 14는 다양한 실시예에 따른 전자 장치에서 제어 명령어를 전송하기 위한 흐름도이다.
도 15는 다양한 실시예에 따른 전자 장치에서 제어 명령어를 획득하기 위한 흐름도이다.
이하 본 발명의 다양한 실시 예를 첨부된 도면을 참조하여 상세히 설명한다. 그리고, 본 발명의 실시 예를 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단된 경우 그 상세한 설명은 생략한다. 그리고 후술되는 용어들은 본 발명의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은, 다양한 실시예들에 따른, 네트워크 환경(100) 내의 전자 장치(101)의 블럭도이다. 도 1을 참조하면, 네트워크 환경(100)에서 전자 장치(101)는 제 1 네트워크(198)(예: 근거리 무선 통신 네트워크)를 통하여 전자 장치(102)와 통신하거나, 또는 제 2 네트워크(199)(예: 원거리 무선 통신 네트워크)를 통하여 전자 장치(104) 또는 서버(108)와 통신할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 서버(108)를 통하여 전자 장치(104)와 통신할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 프로세서(120), 메모리(130), 입력 장치(150), 음향 출력 장치(155), 표시 장치(160), 오디오 모듈(170), 센서 모듈(176), 인터페이스(177), 햅틱 모듈(179), 카메라 모듈(180), 전력 관리 모듈(188), 배터리(189), 통신 모듈(190), 가입자 식별 모듈(196), 또는 안테나 모듈(197)을 포함할 수 있다. 어떤 실시예에서는, 전자 장치(101)에는, 이 구성요소들 중 적어도 하나(예: 표시 장치(160) 또는 카메라 모듈(180))가 생략되거나, 하나 이상의 다른 구성 요소가 추가될 수 있다. 어떤 실시예에서는, 이 구성요소들 중 일부들은 하나의 통합된 회로로 구현될 수 있다. 예를 들면, 센서 모듈(176)(예: 지문 센서, 홍채 센서, 또는 조도 센서)은 표시 장치(160)(예: 디스플레이)에 임베디드된 채 구현될 수 있다
프로세서(120)는, 예를 들면, 소프트웨어(예: 프로그램(140))를 실행하여 프로세서(120)에 연결된 전자 장치(101)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)을 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다. 일 실시예에 따르면, 데이터 처리 또는 연산의 적어도 일부로서, 프로세서(120)는 다른 구성요소(예: 센서 모듈(176) 또는 통신 모듈(190))로부터 수신된 명령 또는 데이터를 휘발성 메모리(132)에 로드하고, 휘발성 메모리(132)에 저장된 명령 또는 데이터를 처리하고, 결과 데이터를 비휘발성 메모리(134)에 저장할 수 있다. 일 실시예에 따르면, 프로세서(120)는 메인 프로세서(121)(예: 중앙 처리 장치 또는 어플리케이션 프로세서), 및 이와는 독립적으로 또는 함께 운영 가능한 보조 프로세서(123)(예: 그래픽 처리 장치, 이미지 시그널 프로세서, 센서 허브 프로세서, 또는 커뮤니케이션 프로세서)를 포함할 수 있다. 추가적으로 또는 대체적으로, 보조 프로세서(123)은 메인 프로세서(121)보다 저전력을 사용하거나, 또는 지정된 기능에 특화되도록 설정될 수 있다. 보조 프로세서(123)는 메인 프로세서(121)와 별개로, 또는 그 일부로서 구현될 수 있다.
보조 프로세서(123)는, 예를 들면, 메인 프로세서(121)가 인액티브(예: 슬립) 상태에 있는 동안 메인 프로세서(121)를 대신하여, 또는 메인 프로세서(121)가 액티브(예: 어플리케이션 실행) 상태에 있는 동안 메인 프로세서(121)와 함께, 전자 장치(101)의 구성요소들 중 적어도 하나의 구성요소(예: 표시 장치(160), 센서 모듈(176), 또는 통신 모듈(190))와 관련된 기능 또는 상태들의 적어도 일부를 제어할 수 있다. 일 실시예에 따르면, 보조 프로세서(123)(예: 이미지 시그널 프로세서 또는 커뮤니케이션 프로세서)는 기능적으로 관련 있는 다른 구성 요소(예: 카메라 모듈(180) 또는 통신 모듈(190))의 일부로서 구현될 수 있다.
메모리(130)는, 전자 장치(101)의 적어도 하나의 구성요소(예: 프로세서(120) 또는 센서모듈(176))에 의해 사용되는 다양한 데이터를 저장할 수 있다. 데이터는, 예를 들어, 소프트웨어(예: 프로그램(140)) 및, 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 메모리(130)는, 휘발성 메모리(132) 또는 비휘발성 메모리(134)를 포함할 수 있다.
프로그램(140)은 메모리(130)에 소프트웨어로서 저장될 수 있으며, 예를 들면, 운영 체제(142), 미들 웨어(144) 또는 어플리케이션(146)을 포함할 수 있다.
입력 장치(150)는, 전자 장치(101)의 구성요소(예: 프로세서(120))에 사용될 명령 또는 데이터를 전자 장치(101)의 외부(예: 사용자)로부터 수신할 수 있다. 입력 장치(150)은, 예를 들면, 마이크, 마우스, 또는 키보드를 포함할 수 있다.
음향 출력 장치(155)는 음향 신호를 전자 장치(101)의 외부로 출력할 수 있다. 음향 출력 장치(155)는, 예를 들면, 스피커 또는 리시버를 포함할 수 있다. 스피커는 멀티미디어 재생 또는 녹음 재생과 같이 일반적인 용도로 사용될 수 있고, 리시버는 착신 전화를 수신하기 위해 사용될 수 있다. 일 실시예에 따르면, 리시버는 스피커와 별개로, 또는 그 일부로서 구현될 수 있다.
표시 장치(160)는 전자 장치(101)의 외부(예: 사용자)로 정보를 시각적으로 제공할 수 있다. 표시 장치(160)은, 예를 들면, 디스플레이, 홀로그램 장치, 또는 프로젝터 및 해당 장치를 제어하기 위한 제어 회로를 포함할 수 있다. 일 실시예에 따르면, 표시 장치(160)는 터치를 감지하도록 설정된 터치 회로(touch circuitry), 또는 상기 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 센서 회로(예: 압력 센서)를 포함할 수 있다.
오디오 모듈(170)은 소리를 전기 신호로 변환시키거나, 반대로 전기 신호를 소리로 변환시킬 수 있다. 일 실시예에 따르면, 오디오 모듈(170)은, 입력 장치(150)를 통해 소리를 획득하거나, 음향 출력 장치(155), 또는 전자 장치(101)와 직접 또는 무선으로 연결된 외부 전자 장치(예: 전자 장치(102)) (예: 스피커 또는 헤드폰))를 통해 소리를 출력할 수 있다.
센서 모듈(176)은 전자 장치(101)의 작동 상태(예: 전력 또는 온도), 또는 외부의 환경 상태(예: 사용자 상태)를 감지하고, 감지된 상태에 대응하는 전기 신호 또는 데이터 값을 생성할 수 있다. 일 실시예에 따르면, 센서 모듈(176)은, 예를 들면, 제스처 센서, 자이로 센서, 기압 센서, 마그네틱 센서, 가속도 센서, 그립 센서, 근접 센서, 컬러 센서, IR(infrared) 센서, 생체 센서, 온도 센서, 습도 센서, 또는 조도 센서를 포함할 수 있다.
인터페이스(177)는 전자 장치(101)이 외부 전자 장치(예: 전자 장치(102))와 직접 또는 무선으로 연결되기 위해 사용될 수 있는 하나 이상의 지정된 프로토콜들을 지원할 수 있다. 일 실시예에 따르면, 인터페이스(177)는, 예를 들면, HDMI(high definition multimedia interface), USB(universal serial bus) 인터페이스, SD카드 인터페이스, 또는 오디오 인터페이스를 포함할 수 있다.
연결 단자(178)는, 그를 통해서 전자 장치(101)가 외부 전자 장치(예: 전자 장치(102))와 물리적으로 연결될 수 있는 커넥터를 포함할 수 있다. 일 실시예에 따르면, 연결 단자(178)은, 예를 들면, HDMI 커넥터, USB 커넥터, SD 카드 커넥터, 또는 오디오 커넥터(예: 헤드폰 커넥터)를 포함할 수 있다.
햅틱 모듈(179)은 전기적 신호를 사용자가 촉각 또는 운동 감각을 통해서 인지할 수 있는 기계적인 자극(예: 진동 또는 움직임) 또는 전기적인 자극으로 변환할 수 있다. 일 실시예에 따르면, 햅틱 모듈(179)은, 예를 들면, 모터, 압전 소자, 또는 전기 자극 장치를 포함할 수 있다.
카메라 모듈(180)은 정지 영상 및 동영상을 촬영할 수 있다. 일 실시예에 따르면, 카메라 모듈(180)은 하나 이상의 렌즈들, 이미지 센서들, 이미지 시그널 프로세서들, 또는 플래시들을 포함할 수 있다.
전력 관리 모듈(188)은 전자 장치(101)에 공급되는 전력을 관리할 수 있다. 일 실시예에 따르면, 전력 관리 모듈(388)은, 예를 들면, PMIC(power management integrated circuit)의 적어도 일부로서 구현될 수 있다.
배터리(189)는 전자 장치(101)의 적어도 하나의 구성 요소에 전력을 공급할 수 있다. 일 실시예에 따르면, 배터리(189)는, 예를 들면, 재충전 불가능한 1차 전지, 재충전 가능한 2차 전지 또는 연료 전지를 포함할 수 있다.
통신 모듈(190)은 전자 장치(101)와 외부 전자 장치(예: 전자 장치(102), 전자 장치(104), 또는 서버(108))간의 직접(예: 유선) 통신 채널 또는 무선 통신 채널의 수립, 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다. 통신 모듈(190)은 프로세서(120)(예: 어플리케이션 프로세서)와 독립적으로 운영되고, 직접(예: 유선) 통신 또는 무선 통신을 지원하는 하나 이상의 커뮤니케이션 프로세서를 포함할 수 있다. 일 실시예에 따르면, 통신 모듈(190)은 무선 통신 모듈(192)(예: 셀룰러 통신 모듈, 근거리 무선 통신 모듈, 또는 GNSS(global navigation satellite system) 통신 모듈) 또는 유선 통신 모듈(194)(예: LAN(local area network) 통신 모듈, 또는 전력선 통신 모듈)을 포함할 수 있다. 이들 통신 모듈 중 해당하는 통신 모듈은 제 1 네트워크(198)(예: 블루투스, WiFi direct 또는 IrDA(infrared data association) 같은 근거리 통신 네트워크) 또는 제 2 네트워크(199)(예: 셀룰러 네트워크, 인터넷, 또는 컴퓨터 네트워크(예: LAN 또는 WAN)와 같은 원거리 통신 네트워크)를 통하여 외부 전자 장치와 통신할 수 있다. 이런 여러 종류의 통신 모듈들은 하나의 구성 요소(예: 단일 칩)으로 통합되거나, 또는 서로 별도의 복수의 구성 요소들(예: 복수 칩들)로 구현될 수 있다. 무선 통신 모듈(192)은 가입자 식별 모듈(196)에 저장된 가입자 정보(예: 국제 모바일 가입자 식별자(IMSI))를 이용하여 제 1 네트워크(198) 또는 제 2 네트워크(199)와 같은 통신 네트워크 내에서 전자 장치(101)를 확인 및 인증할 수 있다.
안테나 모듈(197)은 신호 또는 전력을 외부(예: 외부 전자 장치)로 송신하거나 외부로부터 수신할 수 있다. 일 실시예에 따르면, 안테나 모듈(197)은 하나 이상의 안테나들을 포함할 수 있고, 이로부터, 제 1 네트워크 198 또는 제 2 네트워크 199와 같은 통신 네트워크에서 사용되는 통신 방식에 적합한 적어도 하나의 안테나가, 예를 들면, 통신 모듈(190)에 의하여 선택될 수 있다. 신호 또는 전력은 상기 선택된 적어도 하나의 안테나를 통하여 통신 모듈(190)과 외부 전자 장치 간에 송신되거나 수신될 수 있다.
상기 구성요소들 중 적어도 일부는 주변 기기들간 통신 방식(예: 버스, GPIO(general purpose input and output), SPI(serial peripheral interface), 또는 MIPI(mobile industry processor interface))를 통해 서로 연결되고 신호(예: 명령 또는 데이터)를 상호간에 교환할 수 있다.
일 실시예에 따르면, 명령 또는 데이터는 제 2 네트워크(199)에 연결된 서버(108)를 통해서 전자 장치(101)와 외부의 전자 장치(104)간에 송신 또는 수신될 수 있다. 전자 장치(102, 104) 각각은 전자 장치(101)와 동일한 또는 다른 종류의 장치일 수 있다. 일 실시예에 따르면, 전자 장치(101)에서 실행되는 동작들의 전부 또는 일부는 외부 전자 장치들(102, 104, 또는 108) 중 하나 이상의 외부 장치들에서 실행될 수 있다. 예를 들면, 전자 장치(101)가 어떤 기능이나 서비스를 자동으로, 또는 사용자 또는 다른 장치로부터의 요청에 반응하여 수행해야 할 경우에, 전자 장치(101)는 기능 또는 서비스를 자체적으로 실행시키는 대신에 또는 추가적으로, 하나 이상의 외부 전자 장치들에게 그 기능 또는 그 서비스의 적어도 일부를 수행하라고 요청할 수 있다. 상기 요청을 수신한 하나 이상의 외부 전자 장치들은 요청된 기능 또는 서비스의 적어도 일부, 또는 상기 요청과 관련된 추가 기능 또는 서비스를 실행하고, 그 실행의 결과를 전자 장치(101)로 전달할 수 있다. 전자 장치(101)는 상기 결과를, 그대로 또는 추가적으로 처리하여, 상기 요청에 대한 응답의 적어도 일부로서 제공할 수 있다. 이를 위하여, 예를 들면, 클라우드 컴퓨팅, 분산 컴퓨팅, 또는 클라이언트-서버 컴퓨팅 기술이 이용될 수 있다.
본 문서에 개시된 다양한 실시예들에 따른 전자 장치는 다양한 형태의 장치가 될 수 있다. 전자 장치는, 예를 들면, 휴대용 통신 장치 (예: 스마트폰), 컴퓨터 장치, 휴대용 멀티미디어 장치, 휴대용 의료 기기, 카메라, 웨어러블 장치, 또는 가전 장치를 포함할 수 있다. 본 문서의 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않는다.
본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술적 특징들을 특정한 실시예들로 한정하려는 것이 아니며, 해당 실시예의 다양한 변경, 균등물, 또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 또는 관련된 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 아이템에 대응하는 명사의 단수 형은 관련된 문맥상 명백하게 다르게 지시하지 않는 한, 상기 아이템 한 개 또는 복수 개를 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나", “A 또는 B 중 적어도 하나,”"A, B 또는 C," "A, B 및 C 중 적어도 하나,”및 “A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", 또는 "첫째" 또는 "둘째"와 같은 용어들은 단순히 해당 구성요소를 다른 해당 구성요소와 구분하기 위해 사용될 수 있으며, 해당 구성요소들을 다른 측면(예: 중요성 또는 순서)에서 한정하지 않는다. 어떤(예: 제 1) 구성요소가 다른(예: 제 2) 구성요소에, “기능적으로” 또는 “통신적으로”라는 용어와 함께 또는 이런 용어 없이, “커플드” 또는 “커넥티드”라고 언급된 경우, 그것은 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로(예: 유선으로), 무선으로, 또는 제 3 구성요소를 통하여 연결될 수 있다는 것을 의미한다.
본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구현된 유닛을 포함할 수 있으며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는, 상기 부품의 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 일 실시예에 따르면, 모듈은 ASIC(application-specific integrated circuit)의 형태로 구현될 수 있다.
본 문서의 다양한 실시예들은 기기(machine)(예: 전자 장치(101)) 의해 읽을 수 있는 저장 매체(storage medium)(예: 내장 메모리(136) 또는 외장 메모리(138))에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어(예: 프로그램(140))로서 구현될 수 있다. 예를 들면, 기기(예: 전자 장치(101))의 프로세서(예: 프로세서(120))는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 상기 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 상기 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체 는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 저장매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두 개의 사용자 장치들(예: 스마트폰 들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
다양한 실시예들에 따르면, 상기 기술한 구성요소들의 각각의 구성요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있다. 다양한 실시예들에 따르면, 전술한 해당 구성요소들 중 하나 이상의 구성요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성요소들(예: 모듈 또는 프로그램)은 하나의 구성요소로 통합될 수 있다. 이런 경우, 통합된 구성요소는 상기 복수의 구성요소들 각각의 구성요소의 하나 이상의 기능들을 상기 통합 이전에 상기 복수의 구성요소들 중 해당 구성요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 상기 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.
도 2는 본 발명의 다양한 실시 예들에 따른 원격 제어 시스템(200)의 예시를 도시한 도면이다.
도 2를 참조하면, 다양한 실시 예들에서, 원격 제어 시스템(200)은 전자 장치(220), 서버(230) 및 복수의 제어 장치들(240)로 구성될 수 있다.
일 실시예에 따르면, 전자 장치(220)는, 음성 인식과 관련된 구성 및 음성 입력 장치(예: 마이크)를 포함하는 다양한 장치를 포함할 수 있다. 예를 들어, 전자 장치(220)는 도 1의 전자 장치(101)을 포함할 수 있다. 전자 장치(220)는 음성 입력 장치를 통하여 사용자(210)로부터 음성 발화(utterance)를 획득할 수 있다. 음성 발화는 인텔리전트 어시스턴스 서비스를 활성화 또는 호출을 지시하는 웨이크-업 발화 및/또는 복수의 제어 장치에 포함된 하드웨어/소프트웨어 구성의 동작(예: 전원 제어, 볼륨 제어)을 지시하는 제어 발화를 포함할 수 있다. 제어 발화는 웨이크-업 발화에 의해 인텔리전트 어시스턴스 서비스가 활성화 또는 호출된 상태에서 획득될 수 있다. 웨이크-업 발화는 “하이(hi)”, “헬로(hello),“하이 ABC” 등과 같이 미리 설정된 키워드일 수 있다. 예컨대, ABC는, 갤럭시(galaxy)등과 같이, 전자 장치(220)(또는 전자 장치의 음성 인식 에이전트(agent)(또는 인공 지능(AI, artificial intelligence))에 부여되는 이름(name)일 수 있다.
일 실시예에 따르면, 전자 장치(220)는, 웨이크-업 발화에 응답하여 인텔리전트 어시스턴스 서비스에 의해 형성된 세션의 존재 여부를 나타내는 인디케이션을 제공할 수 있다. 예를 들어, 전자 장치(220)는, 전자 장치(220)(예: 도 1의 메모리(130))에 저장된 세션 정보 또는 서버(230)로부터 수신하는 세션 정보에 기반하여 인디케이션을 제공할 수 있다. 형성된 세션이 존재한다는 것은 제어 발화에 대응되는 동작을 수행하도록 지정된 타겟 제어 장치가 존재한다는 의미일 수 있다. 예를 들어, 전자 장치(220)는 세션이 존재하지 않음을 나타내는 제 1 인디케이션을 제공하는 제 1 오퍼레이션을 수행할 수 있다. 또한, 전자 장치(220)는 세션이 존재함을 나타내는 제 1 인디케이션과 상이한 제 2 인디케이션을 제공하는 제 2 오퍼레이션을 수행할 수 있다. 세션의 존재 여부를 나타내는 인디케이션(예: 제 1 인디케이션 및 제 2 인디케이션)은 인텔리전트 어시스턴스 서비스의 활성화가 됨과 동시에 제공되거나 인텔리전트 어시스턴스 서비스가 활성화된 이후에 제공될 수 있다. 또한, 세션의 존재 여부를 나타내는 인디케이션은 색(예: 발광 색), 소리, 진동, 이미지 등 적어도 하나를 이용하여 제공될 수 있다.
일 실시예에 따르면, 전자 장치(220)는, 제어 발화에 응답하여 제어 발화에 대응되는 발화 데이터를 서버(230)로 제공할 수 있다. 발화 데이터는 보다 정확한 음성 인식을 위해 전처리(pre-processing)되어 서버(230)로 전송될 수도 있다.
일 실시예에 따르면, 전자 장치(220)는, 발화 데이터를 전송한 것에 대한 응답의 일환으로, 발화 데이터 처리 결과를 서버(230)로부터 수신할 수 있다. 예를 들어, 발화 데이터 처리 결과는 발화 데이터에 대한 자연어 이해 결과일 수 있다. 자연어 이해 결과는 발화 데이터 분석에 의해 획득되는 도메인(domain), 의도(intent) 및/또는 슬롯(slot)에 관한 정보일 수 있다. 다른 예로, 발화 데이터 처리 결과는 제어 발화에 대응되는 제어 동작이 제어 장치(240)에 의해 수행되었는지 여부를 나타내는 실행 결과를 포함할 수 있다. 발화 데이터 처리 결과는 전자 장치(220)(예: 도 1의 표시 장치(160), 음향 출력 장치(155) 등)를 통해서 출력될 수 있다.
일 실시예에 따르면, 서버(230)는 전자 장치(220)로부터 네트워크를 통해 제공되는 발화 데이터의 적어도 일부에 기초하여 제어 메시지(또는 제어 명령어)를 생성하고 생성된 제어 메시지를 타겟 제어 장치로 전송할 수 있다. 제어 메시지는 발화 데이터에 대한 분석 결과에 기초하여 생성될 수 있다. 발화 데이터에 대한 분석은, 도 3을 통해서 후술하는 바와 같이, 자연어 처리를 통해서 수행될 수 있다.
일 실시예에 따르면, 서버(230)는, 제어 메시지를 전송하는 것에 대응하여, 타겟 제어 장치와 세션을 형성할 수 있다. 세션 형성은 발화 데이터를 처리한 타겟 제어 장치가 지정된 시간 동안 제어 대상으로 지정(또는 유지)되는 것을 의미할 수 있다. 또한, 서버(230)는, 세션 형성에 대응하여, 도 3을 통해서 후술하는 바와 같이, 지정된 시간 동안 제어 대상으로 지정된 타겟 제어 장치가 존재함을 알리는 세션 정보를 생성할 수 있다.
일 실시예에 따르면, 서버(230)는, 세션이 형성되는 동안, 전자 장치로부터 제공되는 후속 제어 발화에 대응되는 후속 발화 데이터의 적어도 일부에 기초하여 후속 제어 메시지를 생성하고 생성된 후속 제어 메시지를 타겟 제어 장치로 전송할 수 있다. 후속 제어 메시지를 수신하는 타겟 제어 장치는 후속 발화 데이터의 분석 결과에 기초하여 결정될 수 있다. 후속 발화 데이터에 타겟 제어 장치를 특정하는 정보가 포함되는 경우, 서버(230)는 후속 제어 메시지를 후속 발화 데이터를 통해 특정되는 타겟 제어 장치로 전송할 수 있다. 또한, 후속 발화 데이터에 타겟 제어 장치를 특정하는 정보가 포함되지 않은 경우, 서버(230)는, 세션 정보에 기반하여, 후속 제어 메시지를 세션이 형성된 타겟 제어 장치로 전송할 수 있다.
일 실시 예에 따르면, 복수의 제어 장치들(240)은 스마트폰(242), 컴퓨터(244)(예: 개인용 컴퓨터, 노트북 등), 텔레비전(246), 조명 장치(248) 또는 냉장고(249) 등을 포함할 수 있다. 도시 하지 않았으나, 다양한 실시예에 따른 제어 장치들(240)은, 에어컨, 온도 조절 장치, 방범 장치, 가스 밸브 제어 장치, 도어락 장치 등을 더 포함할 수 있다.
일 실시예에 따르면, 복수의 제어 장치(240)들 각각은 통신 회로를 구비함으로써, 지정된 프로토콜(예: 블루투스, Wi-Fi, Zigbee 등)를 이용하여, 서버(230)와 통신을 형성하여 다양한 정보를 송수신할 수 있다. 예를 들어, 복수의 제어 장치들(240)은 자신의 동작 상태에 관한 정보(예: 장치의 온/오프 정보)를 서버(230)로 전송할 수 있다. 또한, 복수의 제어 장치들(240)은 서버(230)로부터 제어 메시지(예: 장치의 온/오프 제어 명령, 장치의 기타 동작 제어 명령 등)를 수신하여, 상기 제어 메시지에 대응되는 동작을 실행할 수 있다. 일 실시예에 따르면, 제어 장치는, 제어 메시지에 대응되는 동작의 실행 결과를 서버(230)로 전송할 수 있다.
도 3은 본 발명의 다양한 실시 예들에 따른 서버(230)의 구성을 도시한 도면(300)이다.
도 3을 참조하면, 서버(230)의 일부 구성요소는 전자 장치(220)와 대응될 수 있다. 예를 들어, 서버(230)는 프로세서(310), 메모리(320), 통신 모듈(330) 등을 포함할 수 있다. 일 실시 예에 따라, 서버(230)는 음성 처리 모듈(340), 세션 정보 관리 모듈(350) 등과 같은 구성을 더 포함할 수 있다.
일 실시예에 따르면, 프로세서(310)는 자연어 처리를 수행하기 위한 기능을 제어할 수 있다. 예를 들어, 프로세서(310)는 음성 처리 모듈(340), 세션 정보 관리 모듈(350) 등과 연결될 수 있다. 프로세서(310)는, 전자 장치(220)로부터 수신한 발화 데이터에 대하여 자연어 처리가 수행되도록 음성 처리 모듈(340)을 제어할 수 있다. 또한, 프로세서(310)는, 음성 처리 모듈(340)의 자연어 처리 결과에 기반하여, 제어 메시지를 생성하여 타겟 제어 장치로 전송할 수 있다. 또한, 프로세서(310)는, 제어 메시지를 전송하는 것에 대응하여, 지정된 시간 동안 제어 대상으로 지정된 타겟 제어 장치가 존재함을 알리는 세션 정보를 생성하도록 세션 정보 관리 모듈(350)을 제어할 수 있다.
음성 처리 모듈(340)은 전자 장치(220)로부터 수신한 발화 데이터에 대하여 자연어 처리를 수행하여, 사용자 입력에 대한 의도(intent) 및/또는 도메인(domain)을 파악할 수 있다. 또한, 음성 처리 모듈(340)은 사용자 입력에 대하여 자연어 이해 등에 의해 자연어 처리 결과를 생성할 수 있다. 일 실시예에 따르면, 음성 처리 모듈은, 음성 인식부(ASR: automatic speech recognition)(341), 자연어 이해부(NLU: natural language understanding)(343), 자연어 생성부(NLG: Natural Language Generation)(345) 및 음성 변환(TTS: text to speech)(347) 등을 포함할 수 있다.
일 실시예에 따르면, 음성 인식부(341)는 전자 장치(220)로부터 수신한 발화 데이터에 포함된 사용자의 발화를 추출하고, 추출된 발화를 지정된 언어로 표현한 텍스트 데이터로 생성할 수 있다. 음성 인식부(341)는 음향(acoustic) 모델 및 언어(language) 모델을 이용하여 텍스트 데이터를 생성할 수 있다. 음향 모델은 발성에 관련된 정보를 포함할 수 있으며, 언어 모델은 단위 음소 정보 및 단위 음소 정보의 조합에 대한 정보를 포함할 수 있다. 예를 들어, 음성 인식부(341)는 발성에 관련된 정보 및 단위 음소 정보에 대한 정보를 이용하여 사용자 발화를 텍스트 데이터로 변환할 수 있다.
일 실시예에 따르면, 자연어 이해부(343)는, 음성 인식부(341)에 의해 생성된 텍스트 데이터에 대하여, 자연어 처리 모델을 이용하여 사용자 입력에 대한 의도(intent)를 파악하거나 매칭되는 도메인(domain)를 파악할 수 있으며, 사용자의 의도를 표현하는데 필요한 구성요소(예: 슬롯, 태스크 파라미터(task parameter))를 획득할 수 있다. 예를 들어, 자연어 이해부(343)는 발화 데이터에 대하여 문법적 분석(syntactic analyze) 및 의미적 분석(semantic analyze)을 수행할 수 있다. 분석 결과에 의해, 해당 발화에 해당되는 도메인(domain)이나 의도가 판단되며, 사용자의 의도를 표현하는데 필요한 구성요소가 획득될 수 있다. 일 실시예에 따르면, 자연어 이해부(343)는 복수의 자연어 이해 모듈을 포함할 수 있다. 복수의 자연어 이해 모듈 각각은, 복수의 제어 장치들(240) 각각에 대응될 수 있다. 예를 들어, 각각의 자연어 이해 모듈은, 각각의 제어 장치(242, 244, 246, 248, 249)에 대응되는 자연어 인식 데이터베이스(natural language understanding database)를 참조하여 사용자 입력에 대한 의도(intent)를 파악하거나 매칭되는 도메인(domain)를 파악할 수 있다. 일 실시예에 따르면, 자연어 이해부(340)는, 세션이 형성된 제어 장치가 존재하는 경우, 세션이 형성된 제어 장치에 대응되는 자연어 이해 모듈을 선택하여 수신하는 발화 데이터를 처리할 수도 있다.
일 실시예에 따르면, 자연어 생성부(345)는 자연어 처리 수행 중 발생되는 데이터를 자연어 형태로 생성할 수 있다. 자연어 형태로 생성되는 데이터는 자연어 이해 결과일 수 있다. 또한, 자연어 생성부(345)는, 제어 발화에 대응되는 제어 동작이 제어 장치에 의해 수행되었는지 여부를 나타내는 실행 결과를 자연어 형태로 생성할 수도 있다. 자연어 형태로 생성되는 정보는 통신 모듈(330)을 통해 전자 장치(220)로 제공될 수 있다.
일 실시예에 따르면, 음성 변환부(347)는, 자연어 생성부(345)에 의해 생성된 텍스트 형태의 데이터를 음성 형태로 제공하도록 처리할 수 있다. 음성 형태로 제공되는 데이터는 통신 모듈(330)을 통해 전자 장치(200)로 제공될 수 있다.
세션 정보 관리 모듈(350)은 프로세서(310)에 의해 제어 메시지가 타겟 제어 장치로 전송되는 것에 대응하여, 제어 메시지를 수신하는 타겟 제어 장치와 연관된 세션 정보를 생성할 수 있다. 세션 정보는, 지정된 시간 동안 제어 대상으로 지정(또는 유지)되는 타겟 제어 장치가 존재함을 알리는 정보로, 발화를 입력받은 기기(예: 전자 장치(220))의 정보, 제어 메시지를 처리한 타겟 제어 장치의 정보, 세션 유지 시간(예: 타겟 제어 장치로 지정(또는 유지)되는 시간)에 대한 정보를 포함할 수 있다. 이는 예시적일 뿐, 본 발명의 실시예가 이에 한정되는 것이 아니다. 예를 들어, 세션 정보는 발화자의 식별 정보, 타겟 제어 장치의 동작 상태(예: on/off 상태) 등과 같은 다양한 정보를 포함할 수 있다. 생성된 세션 정보는 서버(230)(예: 메모리(320))에 저장되거나 통신 모듈(330)을 통해 전자 장치(220)로 제공될 수 있다.
전술한 바와 같이, 도 2 내지 도 3에 도시된 전자 장치(220) 또는 서버(230)의 구성은 다양한 변형이 가능하다. 예를 들어, 발화 데이터에 포함된 사용자의 발화를 추출하고, 추출된 발화를 지정된 언어로 표현한 텍스트 데이터로 생성하는 서버(230)(예: 음성 인식부(341))의 동작이 전자 장치(220)에 의해 수행될 수도 있다. 다른 예로, 자연어 처리를 이용하여 발화 데이터를 분석하는 서버(230)(예: 음성 처리 모듈(340))의 동작이 전자 장치(220)에 의해 수행될 수도 있다.
다양한 실시예에 따른 전자 장치는, 유저 인터페이스; 적어도 하나의 통신 회로; 적어도 하나의 마이크; 적어도 하나의 스피커; 상기 인터페이스, 상기 통신 회로, 상기 마이크, 및 상기 스피커에 작동적으로 연결된 적어도 하나의 프로세서; 및 상기 프로세서에 전기적으로 연결된 적어도 하나의 메모리를 포함할 수 있다. 일 실시예에 따르면, 상기 메모리는, 실행 시에, 상기 프로세서로 하여금, 제 1 오퍼레이션에서, 상기 마이크를 통해, 음성 기반 인텔리전트 어시스턴스 서비스를 호출하는 웨이크업(wake-up) 발화(utterance)를 수신하고, 상기 웨이크업 발화에 응답하여, 상기 유저 인터페이스 또는 스피커 중 적어도 하나를 이용하여, 제 1 인디케이션을 제공하도록 하는 인스트럭션들을 저장할 수 있다. 일 실시예에 따르면, 상기 메모리는, 실행 시에, 상기 프로세서로 하여금, 제 2 오퍼레이션에서, 상기 음성 기반 인텔리전트 어시스턴스 서비스의 선택된 세션 진행 중에, 상기 마이크를 통해, 상기 웨이크업(wake-up) 발화(utterance)를 수신하고, 상기 웨이크업 발화에 응답하여 상기 유저 인터페이스 또는 스피커 중 적어도 하나를 이용하여, 제 1 인디케이션과 상이한 제 2 인디케이션을 제공하도록 하는 인스트럭션들을 저장할 수 있다.
다양한 실시예에 따르면, 상기 인스트럭션들은, 상기 프로세서로 하여금, 상기 제 1 오퍼레이션에서, 상기 수신된 웨이크업(wake-up) 발화(utterance)에 대응되는 발화자를 확인하고, 발화자에 대응되는 상기 제 2 인디케이션을 제공하도록 하는 인스트럭션을 포함할 수 있다.
다양한 실시예에 따르면, 상기 인스트럭션들은, 상기 프로세서로 하여금, 상기 제 1 오퍼레이션에서, 상기 수신된 웨이크업(wake-up) 발화(utterance)에 대응되는 웹이크업 시간을 확인하고, 상기 웨이크업 발화자에 대응되는 상기 제 2 인디케이션을 제공하도록 하는 인스트럭션을 포함할 수 있다.
다양한 실시예에 따르면, 상기 제 1 인디케이션 및 상기 제 2 인디케이션은, 색, 소리, 진동, 또는 이미지 중 적어도 하나를 포함할 수 있다.
다양한 실시예에 따르면, 상기 제 1 인디케이션은 상기 음성 기반 인텔리전트 어시스턴스 서비스의 선택된 세션이 존재하지 않음을 나타내고, 상기 제 2 인디케이션은 상기 음성 기반 인텔리전트 어시스턴스 서비스의 선택된 세션의 존재를 나타낼 수 있다.
다양한 실시예에 따른 시스템은, 통신 인터페이스; 상기 통신 인터페이스와 작동적으로 연결된 프로세서; 및 상기 프로세서에 전기적으로 연결된 적어도 하나의 메모리를 포함할 수 있다. 일 실시예에 따르면, 상기 메모리는, 실행 시에, 상기 프로세서로 하여금, 유저 인터페이스, 스피커, 및 마이크를 포함하는 전자 장치로부터, 상기 통신 인터페이스를 통해, 음성 기반 인텔리전트 어시스턴스 서비스의 세션(session)에 대한 정보 요청을 수신하고, 상기 음성 기반 인텔리전트 어시스턴스 서비스의 세션(session) 정보를 확인(confirm)하고, 상기 음성 기반 인텔리전트 어시스턴스 서비스가 선택된 세션 진행 중에 있으면, 상기 선택된 세션에 관련된 정보를 상기 전자 장치로 송신하도록 하는 인스트럭션들을 저장할 수 있다.
다양한 실시예에 따르면, 상기 인스트럭션들은, 상기 프로세서가, 상기 선택된 세션에서, 상기 전자 장치로부터 발화 데이터를 수신하고, 상기 수신된 발화 데이터를 상기 세션을 통해 제어 장치로 전송하도록 하는 인스트럭션들을 저장할 수 있다.
다양한 실시예에 따르면, 상기 발화 데이터는 상기 제어 장치가 특정되지 않은 데이터를 포함할 수 있다.
다양한 실시예에 따르면, 상기 인스트럭션들은, 상기 프로세서가, 상기 선택된 세션에서, 상기 전자 장치로부터 발화 데이터를 수신하고, 상기 발화 데이터를 상기 선택된 세션에 관련된 자연어 이해(Natural Language Understanding) 모듈을 이용하여 처리하도록 하는 인스트럭션들을 저장할 수 있다.
다양한 실시예에 따르면, 상기 인스트럭션들은, 상기 프로세서가, 상기 발화 데이터에 대한 처리 신뢰도가 미리 지정된 범위를 벗어나는 경우, 다른 자연어 이해 모듈을 이용하여 상기 발화 데이터를 처리하도록 하는 인스트럭션들을 저장할 수 있다.
다양한 실시예에 따르면, 상기 선택된 세션에 관련된 정보는, 발화 데이터를 처리할 제어 장치의 정보, 세션 유지 시간, 제어 장치의 동작 상태와 관련된 정보 중 적어도 하나를 포함할 수 있다.
도 4는 다양한 실시예에 따른 전자 장치에서 세션 형성 정보를 제공하기 위한 흐름도(400)이다. 도 5는 다양한 실시예에 따라 인디케이션이 제공되는 상황(500)을 설명하기 위한 도면이다. 이하 실시예에서 각 동작들은 순차적으로 수행될 수도 있으나, 반드시 순차적으로 수행되는 것은 아니다. 예를 들어, 각 동작들의 순서가 변경될 수도 있으며, 적어도 두 동작들이 병렬적으로 수행될 수도 있다. 도 4의 전자 장치는 도 1의 전자 장치(101)일 수 있다.
도 4를 참조하면, 다양한 실시예에 따른, 전자 장치(예: 도 1의 프로세서(120))는 동작 410에서, 웨이크-업 발화를 수신할 수 있다. 웨이크-업 발화는 전자 장치가 저전력 모드로 동작하는 상황에서 수신될 수 있다. 저전력 모드로 동작하는 상황은 웨이크-업 발화를 수신하기 위한 제 1 프로세서(예: 도 1의 보조 프로세서(123))가 활성화되고, 인텔리전트 어시스턴스 서비스를 제어하기 위한 제 2 프로세서(예: 도 1의 메인 프로세서(121))가 비활성화되는 상황일 수 있다. 예컨대, 제 1 프로세서(예: 보조 프로세서(123)는 제 2 프로세서(예: 메인 프로세서(121)보다 전력 소모가 적다. 그러나 이는 예시적일 뿐, 본 발명이 이에 한정되는 것이 아니다. 예를 들어, 제 1 프로세서와 제 2 프로세서는 하나의 프로세서에 의해 구현될 수도 있다.
다양한 실시예에 따르면, 전자 장치(예: 프로세서(120))는 동작 420에서, 웨이크-업 발화에 응답하여, 세션 형성 여부를 확인할 수 있다. 세션 형성은, 다수의 제어 장치 중 적어도 하나의 제어 장치가 제어 대상인 타겟 제어 장치로 지정된다는 의미일 수 있다. 일 실시예에 따르면, 프로세서(120)는 제어 장치에 포함된 하드웨어/소프트웨어 구성의 동작을 지시하는 제어 발화가 수신된 후 지정된 시간 안에 후속 발화(예를 들어, 제어 발화 및/또는 웨이크-업 발화)를 수신하는 경우, 세션이 이미 세션이 형성된 상태임을 확인할 수 있다. 세션 형성 여부는 제 2 프로세서(예: 도 1의 메인 프로세서(121))에 의해 확인될 수 있다. 제 2 프로세서(예: 메인 프로세서(121))는 제 1 프로세서(예: 보조 프로세서(123))가 웨이크-업 발화를 감지하는 것에 대응하여 웨이크-업 될 수 있다.
다양한 실시예에 따르면, 전자 장치(예: 프로세서(120))는, 동작 430에서, 세션 형성 여부에 기반하여 인디케이션을 제공할 수 있다. 일 실시예에 따르면, 프로세서(120)는 세션이 형성되지 않은 상태에서 웨이크-업 발화가 수신되는 경우, 제 1 오퍼레이션을 수행할 수 있다. 프로세서(120)는 제 1 오퍼레이션을 통해, 형성된 세션이 존재하지 않음을 나타내는 제 1 인디케이션을 제공할 수 있다. 다른 실시예에 따르면, 프로세서(120)는 세션이 형성된 상태에서 웨이크-업 발화가 수신되는 경우, 제 2 오퍼레이션을 수행할 수 있다. 프로세서(120)는 제 2 오퍼레이션을 통해, 형성된 세션이 존재함을 제 2 인디케이션을 제공할 수 있다. 일 실시예에 따르면, 프로세서(120)는 색, 소리, 진동, 또는 이미지 중 적어도 하나를 이용하여 제 1 인디케이션 및 제 2 인디케이션을 제공할 수 있다. 예를 들어, 도 5에 도시된 바와 같이, 프로세서(120)는 제 1 색상(예: 파란색)으로 발광(512)하도록 발광부를 제어함으로써 제 1 인디케이션을 제공(510)하고, 제 2 색상(예: 빨간색)으로 발광(522)하도록 발광부를 제어함으로써 제 2 인디케이션을 제공(520)할 수 있다. 그러나 이는 예시적일 뿐, 본 발명이 이에 한정되는 것이 아니다. 예컨대, 프로세서(120)는 발광 패턴, 밝기 또는 이들의 조합을 이용하여 형성된 세션의 존재 여부를 나타내는 인디케이션을 제공할 수 있다. 다른 예로, 프로세서(120)는 서로 다른 종류의 소리(또는 진동), 서로 다른 세기를 가지는 소리(또는 진동)을 이용하여 제 1 인디케이션 및 제 2 인디케이션을 제공할 수 있다. 또 다른 예로, 프로세서(120)는 서로 다른 종류의 이미지, 서로 다른 크기를 가지는 이미지 등을 이용하여 제 1 인디케이션 및 제 2 인디케이션을 제공할 수도 있다. 또한, 프로세서(120)는 제 2 인디케이션을 제공하는 경우, 전자 장치와 세션을 형성하고 있는 타겟 제어 장치와 관련된 정보도 추가로 제공할 수도 있다. 예를 들어, 세션을 형성하는 타겟 제어 장치의 종류에 따라 제 2 인디케이션의 발광 패턴 또는 발광 밝기가 조절될 수도 있다.
상술한 실시예에서는, 인텔리전트 어시스턴스 서비스를 활성화 또는 호출하기 위한 명령어로 웨이크-업 발화로 설명하였다. 하지만, 이는 예시적일 뿐, 본 발명의 실시예가 이에 한정되는 것이 아니다. 예를 들어, 전자 장치(100)에 구비된 버튼 방식의 키(예: 전원 키, 볼륨 키, 홈 키 등) 또는 터치 키(예: 메뉴 키, 취소 키 등)와 같은 물리적 하드 키 또는 소프트 키 등의 입력, 압력 센서 또는 모션 센서를 통해 감지되는 특정 모션 등이 인텔리전트 어시스턴스 서비스를 활성화 또는 호출하기 위한 명령어로 사용될 수도 있다.
도 6은 다양한 실시예에 따른 전자 장치에서 형성된 세션의 존재 여부에 대응되는 인디케이션을 제공하기 위한 흐름도(600)이다. 이하 설명되는 도 6의 동작들은, 도 4의 동작 420 및 동작 430의 다양한 실시예를 나타낸 것이다. 이하 실시예에서 각 동작들은 순차적으로 수행될 수도 있으나, 반드시 순차적으로 수행되는 것은 아니다. 예를 들어, 각 동작들의 순서가 변경될 수도 있으며, 적어도 두 동작들이 병렬적으로 수행될 수도 있다. 도 6의 전자 장치는 도 1의 전자 장치(101)일 수 있다.
도 6을 참조하면, 다양한 실시예에 따른 전자 장치(예: 도 1의 프로세서(120))는 동작 610에서, 세션 정보가 저장되어 있는지 여부를 확인할 수 있다. 세션 정보는, 지정된 시간 동안 제어 대상으로 지정된 타겟 제어 장치가 존재함을 알리는 정보로, 발화를 입력받은 기기(예: 전자 장치)의 정보, 제어 메시지를 처리한 타겟 제어 장치의 정보, 세션 유지 시간(예: 타겟 제어 장치로 지정되는 시간)에 대한 정보를 포함할 수 있다. 이는 예시적일 뿐, 본 발명의 실시예가 이에 한정되는 것이 아니다. 예를 들어, 세션 정보는 세션을 형성한 발화자 식별 정보, 타겟 제어 장치의 동작 상태(예: on/off 상태) 등과 같은 다양한 정보를 포함할 수 있다.
다양한 실시예에 따르면, 세션 정보가 전자 장치(예: 메모리(예: 130))에 저장되어 있음이 확인되면, 전자 장치(예: 프로세서(120))는 동작 620에서, 제 2 오퍼레이션을 수행할 수 있다. 프로세서(120)는 제 2 오퍼레이션을 통해, 세션 정보를 획득하고, 획득된 세션 정보에 대응되는 인디케이션(예: 제 2 인디케이션)을 제공할 수 있다. 일 실시예에 따르면, 프로세서(120)는 아래 <표 1>의 예시와 같이, 세션 정보에 대응되는 다양한 인디케이션을 제공할 수 있다.
세션 존재 여부
(제 1 정보)
타겟 장치
(제 2 정보)
인디케이션 제공 방식
존재 - 제 2 색상 발광
존재 텔레비젼 제 2 색상 발광 + 제 3색상
예를 들어, 형성된 세션의 존재를 나타내는 제 1 정보만 포함된 세션 정보가 획득되면, 프로세서(120)는 발광부를 지정된 제 2 색상(예: 빨간색)으로 발광시킴으로써 인디케이션을 제공할 수 있다. 또한, 제 1 정보와 전자 장치와 세션을 형성하고 있는 타겟 제어 장치(예: 텔레비젼)와 관련된 제 2 정보가 포함된 세션 정보가 획득되면, 프로세서(120)는 발광부를 제 2 색상과 제 3 색상(예: 초록색)으로 순차적으로 발광시킴으로써 인디케이션을 제공할 수 있다.
다양한 실시예에 따르면, 세션 정보가 전자 장치에 저장되어 있지 않음이 확인되면, 전자 장치(예: 프로세서(120))는 동작 630에서, 서버 또는 다른 전자 장치로 세션 정보를 요청할 수 있다. 일 실시예에 따르면, 전자 장치(예: 프로세서(120))는 동작 640에서, 서버 또는 다른 전자 장치로부터 세션 정보를 수신하는지 여부를 판단할 수 있다. 예를 들어, 프로세서(120)는 미리 설정된 일정 시간 동안 세션 정보 수신을 위한 대기 상태로 존재할 수 있다.
다양한 실시예에 따르면, 세션 정보의 수신이 확인되면, 전자 장치(예: 프로세서(120))는 동작 620과 같이, 획득된 세션 정보에 대응되는 인디케이션을 제공할 수 있다.
다양한 실시예에 따르면, 세션 정보의 수신이 확인되지 않으면, 전자 장치(예: 프로세서(120))는 동작 650에서, 전자 장치 및 서버에 세션 정보가 존재하지 않음을 판단함에 따라, 제 1 오퍼레이션을 수행할 수 있다. 프로세서(120)는 제 1 오퍼레이션을 통해, 세션이 존재하지 않음을 알리는 인디케이션(예: 제 1 인디케이션)을 제공할 수 있다. 일 실시예에 따르면, 프로세서(120)는 제 1 색상(예: 파란색)을 발광시키는 인디케이션을 제공할 수 있다.
다양한 실시예에 따르면, 전자 장치(예: 프로세서(120))는, 도 6의 동작 610 내지 650 중 적어도 하나의 동작을 생략할 수 있다. 예를 들어, 프로세서(120)는 동작 630 및 동작 640을 생략하고, 세션 정보가 전자 장치에 저장되어 있지 않음이 확인되면, 제 1 오퍼레이션을 수행할 수도 있다.
도 7은 다양한 실시예에 따른 전자 장치에서 형성된 세션의 존재 여부에 대응되는 인디케이션을 제공하기 위한 다른 흐름도(700)이다. 이하 설명되는 도 7의 동작들은, 도 4의 동작 420 및 동작 430의 다양한 실시예를 나타낸 것이다. 이하 실시예에서 각 동작들은 순차적으로 수행될 수도 있으나, 반드시 순차적으로 수행되는 것은 아니다. 예를 들어, 각 동작들의 순서가 변경될 수도 있으며, 적어도 두 동작들이 병렬적으로 수행될 수도 있다. 도 7의 전자 장치는 도 1의 전자 장치(101)일 수 있다.
도 7을 참조하면, 다양한 실시예에 따른 전자 장치(예: 도 1의 프로세서(120))는 동작 710에서, 발화 정보를 획득할 수 있다. 발화 정보는 발화자를 식별하기 위해 사용되는 성문 데이터를 생성하기 위한 다양한 정보일 수 있다. 예를 들어, 발화의 톤, 속도(템포), 성량, 억양 등이 발화 정보로 획득될 수 있다. 발화 정보의 종류는 예시적일 뿐, 본 발명의 실시예가 이에 한정되는 것이 아니다. 예를 들어, 프로세서(120)는 발음 등과 같이, 발화 습관을 구분할 수 있는 다양한 정보를 발화 정보로 획득할 수도 있다.
다양한 실시예에 따른 전자 장치(예: 프로세서(120))는 동작 720에서, 획득된 발화 정보에 기반하여 발화자를 확인할 수 있다. 예를 들어, 프로세서(120)는 획득된 발화 정보에 기반하여 성문 데이터를 생성할 수 있으며, 소정의 등록 동작(예: 계정 등록)을 통해서 전자 장치에 등록된 사용자 중 생성된 성문 데이터에 대응되는 사용자를 발화자로 확인할 수 있다.
다양한 실시예에 따른 전자 장치(예: 프로세서(120))는 동작 730에서, 발화자에 대응되는 세션 정보가 저장되어 있는지 여부를 확인할 수 있다.
다양한 실시예에 따르면, 발화자에 대응되는 세션 정보의 저장이 확인되면, 전자 장치(예: 프로세서(120))는 동작 740에서, 제 2 오퍼레이션을 수행할 수 있다. 프로세서(120)는 제 2 오퍼레이션을 통해, 세션 정보에 대응되는 인디케이션(예: 제 2 인디케이션)을 제공할 수 있다. 일 실시예에 따르면, 프로세서(120)는 아래 <표 2>의 예시와 같이, 세션 정보에 대응되는 다양한 인디케이션을 제공할 수 있다.
발화자 인디케이션 제공 방식
발화자A 제 2 색상 발광
발화자B 제 3 색상 발광
예를 들어, 발화자 A에 대한 세션 정보가 획득되면, 프로세서(120)는 발광부를 지정된 제 2 색상(예: 빨간색)으로 발광시킴으로써 인디케이션을 제공할 수 있다. 또한, 발화자 B에 대한 세션 정보가 획득되면, 프로세서(120)는 발광부를 지정된 제 3 색상(예: 초록색)으로 발광시킴으로써 인디케이션을 제공할 수 있다.
다양한 실시예에 따르면, 발화자에 대응되는 세션 정보의 저장이 확인되지 않으면, 전자 장치(예: 프로세서(120))는 동작 750에서, 제 1 오퍼레이션을 수행할 수 있다. 프로세서(120)는 제 1 오퍼레이션을 통해, 세션이 존재하지 않음을 알리는 인디케이션(예: 제 1 인디케이션)을 제공할 수 있다. 예를 들어, 프로세서(120)는 제 1 색상(예: 파란색)을 발광시킴으로써 인디케이션을 제공할 수 있다. 다른 실시예에 따르면, 프로세서(120)는 발화자에 대응되는 세션 정보가 존재하지 않으나, 과거에 발화자가 형성한 세션 이력에 기반하여, 확인된 발화자에 의해 제어될 가능성이 상대적으로 많은 제어 장치를 확인할 수 있다. 이러한 경우, 프로세서(120)는 확인된 제어 장치에 대응되는 인디케이션을 제공할 수도 있다.
다양한 실시예에 따르면, 전자 장치(예: 프로세서(120))는, 도 7의 동작 710 내지 750 외에 다른 동작을 추가로 수행할 수 있다. 예를 들어, 프로세서(120)는 발화자에 대응되는 세션 정보의 저장이 확인되지 않으면, 서버 또는 다른 전자 장치로 발화자에 대응되는 세션 정보를 요청할 수 있다. 또한, 프로세서(120)는 서버 또는 다른 전자 장치로부터 세션 정보를 수신하는지 여부에 기초하여 제 1 오퍼레이션 또는 제 2 오퍼레이션을 수행할 수도 있다.
도 8은 다양한 실시예에 따른 전자 장치에서 형성된 세션의 존재 여부에 대응되는 인디케이션을 제공하기 위한 다른 흐름도(800)이다. 이하 설명되는 도 8의 동작들은, 도 4의 동작 420 및 동작 430의 다양한 실시예를 나타낸 것이다. 이하 실시예에서 각 동작들은 순차적으로 수행될 수도 있으나, 반드시 순차적으로 수행되는 것은 아니다. 예를 들어, 각 동작들의 순서가 변경될 수도 있으며, 적어도 두 동작들이 병렬적으로 수행될 수도 있다. 도 8의 전자 장치는 도 1의 전자 장치(101)일 수 있다.
도 8을 참조하면, 다양한 실시예에 따른 전자 장치(예: 도 1의 프로세서(120))는 동작 810에서, 웨이크-업 시간을 확인할 수 있다. 웨이크-업 시간은 음성 기반 인텔리전트 어시스턴스 서비스의 활성화 시간 또는 호출 시간과 연관될 수 있다. 일 실시예에 따르면, 프로세서(120)는 웨이크-업 발화가 감지된 시간을 웨이크-업 시간으로 확인할 수 있다.
다양한 실시예에 따르면, 전자 장치(예: 프로세서(120))는 동작 820에서, 웨이크-업 시간에 대응되는 세션 정보가 저장되었는지 여부를 판단할 수 있다.
다양한 실시예에 따르면, 웨이크-업 시간에 대응되는 세션 정보의 저장이 확인되면, 전자 장치(예: 프로세서(120))는 동작 830에서, 제 2 오퍼레이션을 수행할 수 있다. 프로세서(120)는 제 2 오퍼레이션을 통해, 세션 정보에 대응되는 인디케이션(예: 제 2 인디케이션)을 제공할 수 있다. 일 실시예에 따르면, 프로세서(120)는 아래 <표 3>의 예시와 같이, 세션 정보에 대응되는 다양한 인디케이션을 제공할 수 있다.
웨이크-업 시간 인디케이션 제공 방식
오전 제 2 색상 발광
오후 제 3 색상 발광
예를 들어, 제 1 시간대(예: 오전)에 대응되는 세션 정보가 획득되면, 프로세서(120)는 발광부를 지정된 제 2 색상(예: 빨간색)으로 발광시킴으로써 인디케이션을 제공할 수 있다. 또한, 제 2 시간대(예: 오후)에 대응되는 세션 정보가 획득되면, 프로세서(120)는 발광부를 지정된 제 3 색상(예: 초록색)으로 발광시킴으로써 인디케이션을 제공할 수 있다.
다양한 실시예에 따르면, 발화자에 대응되는 세션 정보의 저장이 확인되지 않으면, 전자 장치(예: 프로세서(120))는 동작 840에서, 제 1 오퍼레이션을 수행할 수 있다. 프로세서(120)는 제 1 오퍼레이션을 통해, 세션이 존재하지 않음을 알리는 인디케이션(예: 제 1 인디케이션)을 제공할 수 있다. 예를 들어, 프로세서(120)는 제 1 색상(예: 파란색)을 발광시킴으로써 인디케이션을 제공할 수 있다. 다른 실시예에 따르면, 프로세서(120)는 웨이크-업 시간에 대응되는 세션 정보가 존재하지 않으나, 과거에 세션이 형성된 시간 정보에 기반하여, 현재 시간대에서 발화자에 의해 제어될 가능성이 상대적으로 많은 제어 장치를 확인할 수 있다. 이러한 경우, 프로세서(120)는 확인된 제어 장치에 대응되는 인디케이션을 제공할 수도 있다.
도 9는 다양한 실시 예들에 따른 시스템에서 발화를 처리하는 동작(900)을 도시한 도면이다.
도 9에 도시한 바와 같이, 다양한 실시예에 따른 시스템은 전자 장치(902), 음성 처리 장치(904) 및 타겟 제어 장치(906)로 구성될 수 있으며, 음성 처리 장치(904)는 도 2 내지 도 3에 도시된 서버(230)에 대응될 수 있다.
도 9를 참조하면, 동작 910에서, 전자 장치(902)는 사용자가 발화한 웨이크-업 발화를 수신할 수 있다. 일 실시예에 따르면, 전자 장치(902)는 저전력 모드로 동작하는 상황에서 웨이크-업 발화를 수신할 수 있다. 저전력 모드로 동작하는 상황은 웨이크-업 발화를 수신하기 위한 제 1 프로세서(예: 도 1의 보조 프로세서(123))가 활성화되고, 인텔리전트 어시스턴스 서비스를 제어하기 위한 제 2 프로세서(예: 도 1의 메인 프로세서(121))가 비활성화되는 상황일 수 있다. 예를 들어, 웨이크-업 발화는 제 1 프로세서를 통해 수신될 수 있다.
동작 912에서, 전자 장치(902)는 웨이크-업 발화에 기반하여 웨이크-업 할 수 있다. 웨이크-업은 비활성화 상태인 제 2 프로세서가 활성화되는 것을 포함할 수 있다. 일 실시예에 따르면, 웨이크-업 발화에 기반하여, 음성 처리 장치(904) 및/또는 타겟 제어 장치(906)도 웨이크-업 할 수 있다. 이러한 경우, 전자 장치(902), 음성 처리 장치(904), 타겟 제어 장치(906)는 음성 호출 명령어를 인식하는 시점에서, 순차적으로 또는 병렬적으로 일정 시간 범위 내에서 동시에 웨이크-업 될 수 있다.
동작 914에서, 전자 장치(902)는, 웨이크-업에 기반하여, 형성된 세션이 존재하는지 여부를 나타내는 인디케이션을 제공할 수 있다. 인디케이션은, 전자 장치(902) 주변에 존재하는 다수의 제어 장치(906)들 중 제어 발화에 대응되는 동작을 수행하도록 지정된 제어 장치(예: 타겟 제어 장치)의 존재 여부를 나타낼 수 있다. 일 실시예에 따르면, 전자 장치(902)는 타겟 제어 장치(906)의 서비스 제공을 지시하는 사용자의 제어 발화가 감지되기 전까지 인디케이션을 제공할 수 있다. 이로 인하여, 사용자는 전자 장치(902)에 의해 제공되는 인디케이션을 통해서, 제어 발화를 처리할 수 있는 제어 장치에 대한 정보를 직관적으로 확인할 수 있다.
동작 916에서, 전자 장치(902)는 타겟 제어 장치(906)를 제어하기 위한 제어 발화를 수신할 수 있다. 일 실시예에 따르면, 전자 장치(902)는 수신된 제어 발화를 전기적 신호로 변환할 수 있다.
동작 918에서, 전자 장치(902)는 제어 발화에 대한 발화 데이터를 음성 처리 장치로 전송할 수 있다. 발화 데이터는 보다 정확한 음성 인식을 위해 전처리(pre-processing)되어 전송될 수도 있다.
동작 920에서, 음성 처리 장치(904)는, 전자 장치(902)로부터 수신한 발화 데이터에 기반하여 제어 메시지를 생성하고, 생성된 제어 메시지를 타겟 제어 장치(906)로 전송할 수 있다. 일 실시예에 따르면, 음성 처리 장치(904)는 전자 장치(902)로부터 수신된 발화 데이터를 분석하여 주변에 존재하는 다수의 제어 장치 중 제어 발화를 처리할 타겟 제어 장치(906)를 결정할 수 있다. 있다. 제어 메시지는 발화 데이터에 대한 분석 결과에 기초하여 생성될 수 있다. 발화 데이터에 대한 분석은, 자연어 처리를 통해서 수행될 수 있다
동작 922에서, 타겟 제어 장치(906)는, 음성 처리 장치로부터 수신한 제어 메시지에 기반하여, 제어 발화에 대응되는 제어 동작을 실행하고, 그 실행에 대한 결과(예: 처리 결과)를 포함하는 피드백을 생성할 수 있다. 피드백은, 동작 924 및 동작 926을 통해서, 타겟 제어 장치(906) 및 음성 처리 장치(904)에 의해 전자 장치(902)로 제공될 수 있다.
동작 928에서, 전자 장치(902)는 수신된 피드백에 기반하여, 제어 발화에 대한 처리 결과를 제공할 수 있다. 처리 결과는 색(예: 발광 색), 소리, 진동, 이미지 등 적어도 하나를 이용하여 제공될 수 있다. 도시 하지 않았지만, 전자 장치(902)의 처리 결과 제공과 함께, 타겟 제어 장치(906)에서도 제어 발화에 대한 처리 결과를 제공할 수 있다.
도 10은 다양한 실시 예들에 따른 시스템에서 인디케이션을 제공하는 동작(1000)을 도시한 도면이다.
도 10에 도시한 바와 같이, 다양한 실시예에 따른 시스템은 전자 장치(1002), 음성 처리 장치(1004) 및 타겟 제어 장치(1006)로 구성될 수 있으며, 음성 처리 장치(1004)는 도 2 내지 도 3에 도시된 서버에 대응될 수 있다.
도 10를 참조하면, 동작 1010 및 동작 1012에서, 전자 장치(1002)는 웨이크-업 발화를 수신하는 것에 대응하여, 웨이크-업 상태로 동작할 수 있다. 예를 들어, 전자 장치(1002)는 도 9의 동작 910 및 동작 912와 동일하거나 유사한 동작을 수행할 수 있다.
동작 1014에서, 전자 장치(1002)는 음성 처리 장치(1004)로 세션 정보를 요청할 수 있다. 세션 정보는 제어 발화에 대응되는 동작을 수행하도록 지정된 타겟 제어 장치(1006)에 대한 정보를 포함할 수 있다. 도 3을 통해 전술한 바와 같이, 세션 정보는 제어 발화를 입력받은 기기(예: 전자 장치)(1002)의 정보, 제어 메시지를 처리한 타겟 제어 장치(1006)의 정보, 세션 유지 시간(예: 타겟 제어 장치로 지정되는 시간)에 대한 정보를 포함할 수 있다. 추가적으로, 음성 처리 장치(1004)는 타겟 제어 장치(1006)의 동작 상태(예: on/off 상태)와 관련된 정보를 세션 정보에 추가시킬 수 있다. 이러한 세션 정보를 생성하기 위해서, 동작 1016에서, 음성 처리 장치(1004)는 타겟 제어 장치(1006)로 상태 정보를 요청할 수 있다. 또한, 동작 1018에서, 타겟 제어 장치(1006)는, 상태 정보 요청에 대응하여, 자신의 상태를 확인하고 이에 대한 정보를 음성 처리 장치(1004)로 제공할 수 있다.
동작 1020에서, 타겟 제어 장치(1006)로부터 상태 정보를 수신한 음성 처리 장치(1004)는 타겟 제어 장치(1006)에 대응되는 세션 정보를 생성하고, 생성된 세션 정보를 전자 장치(1002)로 제공할 수 있다.
동작 1022에서, 전자 장치(1002)는 음성 처리 장치(1004)로부터 수신된 세션 정보에 기반하여, 형성된 세션의 존재를 나타내는 인디케이션을 제공할 수 있다.
도 11은 다양한 실시 예들에 따른 시스템에서 인디케이션을 제공하는 다른 동작(1100)을 도시한 도면이다.
도 11를 참조하면, 다양한 실시예에 따른 시스템은 도 10을 통해 전술한 인디케이션을 제공하는 시스템과 유사하게 구성될 수 있다.
다만, 도 11을 통해 설명하고자 하는 인디케이션 제공 방법은, 전자 장치(1102)의 세션 정보 요청이 수신되기 전에 음성 처리 장치가 세션 정보를 생성하는 면에서 전술한 도 10의 인디케이션 제공 방법과 차이가 있다.
도 11을 참조하면, 동작 1110 및 동작 1112에서, 음성 처리 장치(1104)는 타겟 제어 장치(1106)의 상태 정보를 획득하여 세션 정보를 생성할 수 있다. 세션 정보는 전자 장치(1102)의 요청과 상관없이 일정 시간을 주기로 음성 처리 장치(1104)에 의해 생성될 수 있다. 예를 들어, 음성 처리 장치(1104)는 도 10의 동작 1016 및 동작 1018과 동일하거나 유사한 동작을 수행함으로써 타겟 제어 장치(1106)에 대응되는 세션 정보를 생성할 수 있다.
동작 1114 및 동작 1116에서, 전자 장치(1102)는 웨이크-업 발화를 수신하는 것에 대응하여, 웨이크-업 상태로 동작할 수 있다. 예를 들어, 전자 장치(1102)는 도 10의 동작 1010 및 동작 1012와 동일하거나 유사한 동작을 수행할 수 있다.
동작 1018 내지 동작 1122에서, 전자 장치(1102)는 음성 처리 장치(1104)로 세션 정보를 요청하고, 음성 처리 장치(1104)로부터 수신되는 세션 정보에 기반하여 형성된 세션의 존재를 나타내는 인디케이션을 제공할 수 있다. 예를 들어, 전자 장치(1102)는 도 10의 동작 1014, 동작 1020 및 동작 1022와 동일하거나 유사한 동작을 수행할 수 있다.
도 11을 통해서 설명한 인디케이션 제공 방법은, 전술한 도 10의 인디케이션 제공 방법 대비, 전자 장치(1102)에서 세션 정보를 빠르게 획득할 수 있는 장점이 있다.
도 12는 다양한 실시 예들에 따른 시스템에서 인디케이션을 제공하는 또 다른 동작(1200)을 도시한 도면이다.
도 12를 참조하면, 다양한 실시예에 따른 시스템은 도 11을 통해 전술한 인디케이션을 제공하는 시스템과 유사하게 구성될 수 있다.
다만, 도 12을 통해 설명하고자 하는 인디케이션 제공 방법은, 전자 장치(1202)가 웨이크-업 발화를 감지하기 전에 미리 세션 정보를 저장하는 면에서 전술한 도 11의 인디케이션 제공 방법과 차이가 있다.
도 12를 참조하면, 동작 1210 및 동작 1212에서, 음성 처리 장치(1204)는 타겟 제어 장치(1206)의 상태 정보를 획득하여 세션 정보를 생성할 수 있다. 세션 정보는 전자 장치(1202)의 요청과 상관없이 일정 시간을 주기로 음성 처리 장치(1204)에 의해 생성될 수 있다. 예를 들어, 음성 처리 장치(1204)는 도 11의 동작 1110 및 동작 1112과 동일하거나 유사한 동작을 수행함으로써 타겟 제어 장치에 대응되는 세션 정보를 생성할 수 있다.
동작 1214 내지 동작 1213에서, 전자 장치(1202)는 음성 처리 장치(1204)로 세션 정보를 요청하고, 음성 처리 장치(1204)로부터 세션 정보를 수신할 수 있다. 예를 들어, 전자 장치(1202)는 도 11의 동작 1118 및 동작 1120과 동일하거나 유사한 동작을 수행할 수 있다.
동작 1218 및 동작 1220에서, 전자 장치(1202)는 웨이크-업 발화를 수신하는 것에 대응하여, 웨이크-업 상태로 동작할 수 있다. 예를 들어, 전자 장치(1202)는 도 11의 동작 1118 및 동작 1120과 동일하거나 유사한 동작을 수행할 수 있다.
동작 1222에서, 전자 장치(1202)는 웨이크-업 발화에 대한 응답으로, 저장된 세션 정보에 기반하여 세션의 존재를 나타내는 인디케이션을 제공할 수 있다. 예를 들어, 전자 장치(1202)는 도 11의 동작 1122와 동일하거나 유사한 동작을 수행할 수 있다.
도 12를 통해서 설명한 인디케이션 제공 방법은, 전술한 도 11의 인디케이션 제공 방법 대비, 전자 장치(1202)에서 인디케이션 정보를 빠르게 제공할 수 있는 장점이 있다.
도 13은 다양한 실시예에 따른 전자 장치에서 제어 발화를 처리하기 위한 흐름도(1300)이다. 이하 실시예에서 각 동작들은 순차적으로 수행될 수도 있으나, 반드시 순차적으로 수행되는 것은 아니다. 예를 들어, 각 동작들의 순서가 변경될 수도 있으며, 적어도 두 동작들이 병렬적으로 수행될 수도 있다. 도 13의 전자 장치는 도 1의 전자 장치(101)일 수 있다.
도 13을 참조하면, 다양한 실시예에 따른, 전자 장치(예: 도 1의 프로세서(120))는 동작 1310에서, 웨이크-업 발화를 수신할 수 있다. 웨이크-업 발화는 인텔리전트 어시스턴스 서비스를 활성화 또는 호출을 지시하는 발화일 수 있다. 일 실시예에 따르면, 프로세서(120)는 웨이크-업 발화를 인식하기 위한 제 1 프로세서(예: 도 1의 보조 프로세서(123))에 기반하여, 웨이크-업 발화를 수신할 수 있다.
다양한 실시예에 따르면, 전자 장치(예: 프로세서(120))는 동작 1320에서, 웨이크-업 발화에 응답하여, 세션 형성 여부를 확인할 수 있다. 세션 형성은, 다수의 제어 장치 중 적어도 하나의 제어 장치가 제어 대상인 타겟 제어 장치로 지정된다는 의미일 수 있다. 세션 형성 여부는 인텔리전트 어시스턴스 서비스를 제어하는 제 2 프로세서(예: 도 1의 메인 프로세서(121))에 의해 확인될 수 있다. 제 2 프로세서(예: 메인 프로세서(121))는 제 1 프로세서(예: 보조 프로세서(123))가 웨이크-업 발화를 감지하는 것에 대응하여 웨이크-업 될 수 있다. 제 1 프로세서(예: 보조 프로세서(123))는 제 2 프로세서(예: 메인 프로세서(121))보다 상대적으로 전력이 적게 소모될 수 있다.
다양한 실시예에 따르면, 전자 장치(예: 프로세서(120))는, 동작 1330에서, 제어 발화를 수신할 수 있다. 제어 발화는 타겟 제어 장치의 서비스 제공을 지시하는 제어 명령어를 포함할 수 있다.
다양한 실시예에 따르면, 전자 장치(예: 프로세서(120))는, 동작 1340에서, 세션을 통해 제어 명령어를 타겟 제어 장치로 전송할 수 있다. 일 실시예에 따르면, 프로세서(120)는 제어 발화를 분석하여 사용자 입력에 대한 의도(intent) 및/또는 도메인(domain)을 파악할 수 있으며, 분석 결과에 기반하여 제어 기기 제어를 위한 제어 명령어를 생성할 수 있다. 또한, 프로세서(120)는 이전 발화를 처리한 제어 장치를 타겟 제어 장치로 결정하고, 생성된 제어 명령어를 결정된 타겟 제어 장치로 전송할 수 있다.
도 14는 다양한 실시예에 따른 전자 장치에서 제어 명령어를 전송하기 위한 흐름도(1400)이다. 이하 설명되는 도 14의 동작들은, 도 13의 동작 1340의 다양한 실시예를 나타낸 것이다. 이하 실시예에서 각 동작들은 순차적으로 수행될 수도 있으나, 반드시 순차적으로 수행되는 것은 아니다. 예를 들어, 각 동작들의 순서가 변경될 수도 있으며, 적어도 두 동작들이 병렬적으로 수행될 수도 있다. 도 14의 전자 장치는 도 1의 전자 장치(101)일 수 있다.
도 14를 참조하면, 다양한 실시예에 따른, 전자 장치(예: 도 1의 프로세서(120))는 동작 1410에서, 제어 발화를 분석할 수 있다. 제어 발화는 제어 장치의 서비스 제공을 지시하는 제어 명령어를 포함할 수 있다. 또한, 제어 발화는 타겟 제어 장치를 특정하는 정보를 포함하거나 타겟 제어 장치를 특정하는 정보를 포함하지 않을 수 있다. 일 실시예에 따르면, 프로세서(120)는 제어 발화를 분석할 수 있는 다수의 음성 인식 모델 중 세션이 형성된 타겟 제어 장치와 관련된 음성 인식 모델 및/또는 자연어 이해(Natural Language Understanding) 모델을 이용하여 제어 발화를 분석할 수 있다. 타겟 제어 장치와 관련된 음성 인식 모델 및/또는 자연어 이해 모델은 타겟 제어 장치에 대응되는 도메인(domain), 의도(intent) 및/또는 슬롯(slot)에 대한 데이터 베이스를 사용하는 모델일 수 있다.
다양한 실시예에 따르면, 전자 장치(예: 프로세서(120))는 동작 1420에서, 타겟 제어 장치를 특정하는 정보가 제어 발화에 포함되어 있는지를 확인할 수 있다.
다양한 실시예에 따르면, 타겟 제어 장치를 특정하는 정보가 제어 발화에 포함되어 있는 경우, 전자 장치(예: 프로세서(120))는 동작 1420에서, 제어 발화를 통해 특정된 타겟 제어 장치로 제어 명령어를 제공할 수 있다. 제어 발화를 통해 특정된 타겟 제어 장치는 이전 발화를 처리한 타겟 제어 장치와 동일하거나 동일하지 않을 수 있다. 다양한 실시예에 따르면, 전자 장치(예: 프로세서(120))는 동작 1440에서, 제어 명령어를 제공하는 것에 대응하여, 타겟 제어 장치에 대한 세션을 갱신할 수 있다. 세션 갱신은 타겟 제어 장치에 대한 새로운 세션 정보를 생성하는 것을 포함할 수 있다.
다양한 실시예에 따르면, 타겟 제어 장치를 특정하는 정보가 제어 발화에 포함되어 있지 않은 경우, 전자 장치(예: 프로세서(120))는 동작 1450에서, 세션이 형성된 타겟 제어 장치에서 제어 명령어의 처리가 가능한지를 판단할 수 있다. 제어 명령어의 처리 가능성은, 세션 정보에 기초하여 판단될 수 있다.
다양한 실시예에 따르면, 세션 정보를 통해서 제어 명령어의 처리가 불가한 타겟 제어 장치의 상태(예: 전원 off)가 확인되면, 전자 장치(예: 프로세서(120))는 동작 1480에서, 미리 형성된 세션을 해제할 수 있다. 예컨대, 프로세서(120)는 타겟 제어 장치를 특정하는 정보를 포함하는 제어 발화를 유도하는 가이드 정보를 출력하고, 사용자로부터 새로운 제어 발화를 입력받을 수 있다.
다양한 실시예에 따르면, 세션 정보를 통해서 제어 명령어의 처리가 가능한 타겟 제어 장치의 상태(예: 전원 on)가 확인되면, 전자 장치(예: 프로세서(120))는 동작 1460에서, 세션이 형성된 타겟 제어 장치로 제어 명령어를 제공할 수 있다. 예를 들어, 프로세서(120)는 타겟 제어 장치에 대한 정보가 포함되지 않은 발화를, 이전 발화를 처리한 제어 장치에서 처리하도록 미리 형성된 세션을 통해 제어 명령어를 전송할 수 있다. 다양한 실시예에 따르면, 전자 장치(예: 프로세서(120))는 동작 1470에서, 제어 명령어를 제공하는 것에 대응하여, 타겟 제어 장치에 대한 세션 정보를 변경할 수 있다. 세션 정보 변경은 세션 정보에 포함된 세션 유지 시간(예: 타겟 제어 장치로 지정되는 시간)을 일정 시간 연장시키는 것을 포함할 수 있다.
도 15는 다양한 실시예에 따른 전자 장치에서 제어 명령어를 획득하기 위한 흐름도(1500)이다. 이하 설명되는 도 15의 동작들은, 도 13의 동작 1340의 다양한 실시예를 나타낸 것이다. 이하 실시예에서 각 동작들은 순차적으로 수행될 수도 있으나, 반드시 순차적으로 수행되는 것은 아니다. 예를 들어, 각 동작들의 순서가 변경될 수도 있으며, 적어도 두 동작들이 병렬적으로 수행될 수도 있다. 도 15의 전자 장치는 도 1의 전자 장치(101)일 수 있다.
도 15를 참조하면, 다양한 실시예에 따른, 전자 장치(예: 도 1의 프로세서(120))는 동작 1510에서, 제어 명령어 획득 결과에 대한 신뢰도를 확인할 수 있다. 제어 명령어는 제어 발화에 대한 자연어 처리를 통해서 획득될 수 있다. 신뢰도는 자연어 처리 결과에 대한 피드백을 통해 산출될 수 있다. 예를 들어, 프로세서(120)는 자연어 처리 결과를 사용자에게 제공할 수 있으며, 처리 결과에 대한 응답으로 처리 오류를 나타내는 입력이 감지되는 경우(예: 제어 발화가 다시 입력되는 경우), 신뢰도가 낮다고 판단할 수 있다.
다양한 실시예에 따르면, 전자 장치(프로세서(120))는, 동작 1520에서, 확인된 신뢰도가 미리 지정된 범위 내에 포함되지는 여부를 판단할 수 있다. 예를 들어, 프로세서(120)는 제어 발화가 다시 입력되지 않는 경우 제어 명령어 획득 결과에 대한 신뢰도가 미리 지정된 범위에 포함된다고 판단할 수 있다.
다양한 실시예에 따르면, 전자 장치(프로세서(120))는 확인된 신뢰도가 미리 지정된 범위 내에 포함되는 경우, 획득된 제어 명령어를 타겟 제어 장치로 전송할 수 있다.
다양한 실시예에 따르면, 전자 장치(프로세서(120))는 확인된 신뢰도가 미리 지정된 범위 내에 포함되지 않는 경우, 동작 1530에서, 미리 형성된 세션을 해제할 수 있다. 예컨대, 프로세서(120)는 타겟 제어 장치를 특정하는 정보를 포함하는 제어 발화를 유도하는 가이드 정보를 출력하고, 사용자로부터 새로운 제어 발화를 입력받을 수 있다. 다른 예로, 프로세서(120)는 미리 정의된 음성 인식 모델 및/또는 자연어 이해(Natural Language Understanding) 모델을 이용하여 제어 명령어를 획득할 수 있다. 예를 들어, 프로세서(120)는 현재 사용되는 음성 인식 모델 및/또는 자연어 이해(Natural Language Understanding) 모델 보다 더 많은 데이터 베이스를 이용하는 음성 인식 모델 및/또는 자연어 이해(Natural Language Understanding) 모델로 변경하여 높은 신뢰도를 가지는 제어 명령어의 획득을 시도할 수 있다.
다양한 실시예에 따른 전자 장치의 발화 처리 방법은, 음성 기반 인텔리전트 어시스턴스 서비스를 호출하는 웨이크업(wake-up) 발화(utterance)를 수신하는 동작; 상기 웨이크업 발화에 응답하여, 상기 음성 기반 인텔리전트 어시스턴스 서비스에 의해 진행 중인 세션을 확인하는 동작; 및 제어 명령어 수신 시, 상기 세션에 기반하여 상기 세션을 통해 외부 제어 장치로 상기 제어 명령어를 제공하는 동작을 포함할 수 있다.
다양한 실시예에 따르면, 상기 제어 명령어를 제공하는 동작은, 상기 제어 명령어가 제어 장치를 특정하는 경우, 상기 특정된 제어 장치와 세션을 형성하는 동작; 및 상기 형성된 세션을 통해, 상기 특정된 제어 장치로 상기 제어 명령어를 제공하는 동작을 포함할 수 있다. 일 실시예에 따르면, 상기 특정된 제어 장치로 상기 제어 명령어를 제공하는 동작은, 상기 특정된 제어 장치에 대응되는 세션에 관련된 정보를 생성하는 동작을 포함할 수 있다.
다양한 실시예에 따르면, 상기 제어 명령어를 제공하는 동작은, 상기 제어 명령어가 제어 장치를 특정하지 않는 경우, 상기 진행중인 세션을 통해, 상기 제어 명령어를 제공하는 동작을 포함할 수 있다. 일 실시예에 따르면, 상기 진행중인 세션을 통해, 상기 제어 명령어를 제공하는 동작은, 상기 진행중인 세션에 관련된 정보를 갱신하는 동작을 포함할 수 있다.
다양한 실시예에 따르면, 상기 진행중인 세션을 통해, 상기 제어 명령어를 제공하는 동작은, 상기 세션이 진행 중인 외부 제어 장치의 동작 상태를 확인하는 동작; 상기 제어 명령어의 처리가 불가한 동작 상태가 확인되면, 세션을 해제하는 동작; 및 상기 제어 장치를 특정하는 제어 명령어를 수신하는 동작을 포함할 수 있다. 일 실시예에 따르면, 상기 제어 장치를 특정하는 제어 명령어를 수신하는 동작은, 상기 제어 명령어의 처리가 불가한 동작 상태를 알리는 가이드 정보를 제공하는 동작을 포함할 수 있다.
다양한 실시예에 따르면, 전자 장치의 발화 처리 방법은 상기 웨이크업 발화를 수신하기 위하여 제 1 프로세서를 활성화시키는 동작; 및 상기 제어 명령어를 수신하기 위하여, 상기 제 1 프로세서 보다 상대적으로 전력 소모가 적은 제 2 프로세서를 활성화시키는 동작을 포함할 수 있다.
한편, 본 발명의 다양한 실시 예에 관해 설명하였으나, 본 발명의 다양한 실시 예의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능하다. 그러므로 본 발명의 다양한 실시 예의 범위는 설명된 실시 예에 국한되어 정해져서는 아니되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

Claims (19)

  1. 전자 장치에 있어서,
    유저 인터페이스;
    적어도 하나의 통신 회로;
    적어도 하나의 마이크;
    적어도 하나의 스피커;
    상기 인터페이스, 상기 통신 회로, 상기 마이크, 및 상기 스피커에 작동적으로 연결된 적어도 하나의 프로세서; 및
    상기 프로세서에 전기적으로 연결된 적어도 하나의 메모리를 포함하고,
    상기 메모리는, 실행 시에, 상기 프로세서로 하여금,
    제 1 오퍼레이션에서,
    상기 마이크를 통해, 음성 기반 인텔리전트 어시스턴스 서비스를 호출하는 웨이크업(wake-up) 발화(utterance)를 수신하고,
    상기 웨이크업 발화에 응답하여, 상기 유저 인터페이스 또는 스피커 중 적어도 하나를 이용하여, 제 1 인디케이션을 제공하고,
    제 2 오퍼레이션에서,
    상기 음성 기반 인텔리전트 어시스턴스 서비스의 선택된 세션 진행 중에, 상기 마이크를 통해, 상기 웨이크업(wake-up) 발화(utterance)를 수신하고,
    상기 웨이크업 발화에 응답하여 상기 유저 인터페이스 또는 스피커 중 적어도 하나를 이용하여, 제 1 인디케이션과 상이한 제 2 인디케이션을 제공하도록 하는 인스트럭션들을 저장하는 전자 장치.
  2. 제 1항에 있어서,
    상기 인스트럭션들은, 상기 프로세서로 하여금,
    상기 제 1 오퍼레이션에서,
    상기 수신된 웨이크업(wake-up) 발화(utterance)에 대응되는 발화자를 확인하고, 발화자에 대응되는 상기 제 2 인디케이션을 제공하도록 하는 인스트럭션을 포함하는 전자 장치.
  3. 제 1항에 있어서,
    상기 인스트럭션들은, 상기 프로세서로 하여금,
    상기 제 1 오퍼레이션에서,
    상기 수신된 웨이크업(wake-up) 발화(utterance)에 대응되는 웹이크업 시간을 확인하고, 상기 웨이크업 발화자에 대응되는 상기 제 2 인디케이션을 제공하도록 하는 인스트럭션을 포함하는 전자 장치.
  4. 제 1항에 있어서,
    상기 제 1 인디케이션 및 상기 제 2 인디케이션은, 색, 소리, 진동, 또는 이미지 중 적어도 하나를 포함하는 전자 장치.
  5. 제 1항에 있어서,
    상기 제 1 인디케이션은 상기 음성 기반 인텔리전트 어시스턴스 서비스의 선택된 세션이 존재하지 않음을 나타내고, 상기 제 2 인디케이션은 상기 음성 기반 인텔리전트 어시스턴스 서비스의 선택된 세션의 존재를 나타내는 것을 특징으로 하는 전자 장치.
  6. 시스템에 있어서,
    통신 인터페이스;
    상기 통신 인터페이스와 작동적으로 연결된 프로세서; 및
    상기 프로세서에 전기적으로 연결된 적어도 하나의 메모리를 포함하고,
    상기 메모리는, 실행 시에, 상기 프로세서로 하여금,
    유저 인터페이스, 스피커, 및 마이크를 포함하는 전자 장치로부터, 상기 통신 인터페이스를 통해, 음성 기반 인텔리전트 어시스턴스 서비스의 세션(session)에 대한 정보 요청을 수신하고,
    상기 음성 기반 인텔리전트 어시스턴스 서비스의 세션(session) 정보를 확인(confirm)하고,
    상기 음성 기반 인텔리전트 어시스턴스 서비스가 선택된 세션 진행 중에 있으면, 상기 선택된 세션에 관련된 정보를 상기 전자 장치로 송신하도록 하는 인스트럭션들을 저장하는 시스템.
  7. 제 6항에 있어서,
    상기 인스트럭션들은, 상기 프로세서가,
    상기 선택된 세션에서,
    상기 전자 장치로부터 발화 데이터를 수신하고,
    상기 수신된 발화 데이터를 상기 세션을 통해 제어 장치로 전송하도록 하는 인스트럭션들을 저장하는 시스템.
  8. 제 7항에 있어서,
    상기 발화 데이터는
    상기 제어 장치가 특정되지 않은 데이터를 포함하는 시스템.
  9. 제 6항에 있어서,
    상기 인스트럭션들은, 상기 프로세서가,
    상기 선택된 세션에서,
    상기 전자 장치로부터 발화 데이터를 수신하고,
    상기 발화 데이터를 상기 선택된 세션에 관련된 자연어 이해(Natural Language Understanding) 모듈을 이용하여 처리하도록 하는 인스트럭션들을 저장하는 시스템.
  10. 제 9항에 있어서,
    상기 인스트럭션들은, 상기 프로세서가,
    상기 발화 데이터에 대한 처리 신뢰도가 미리 지정된 범위를 벗어나는 경우, 다른 자연어 이해 모듈을 이용하여 상기 발화 데이터를 처리하도록 하는 인스트럭션들을 저장하는 시스템.
  11. 제 6항에 있어서,
    상기 선택된 세션에 관련된 정보는, 발화 데이터를 처리할 제어 장치의 정보, 세션 유지 시간, 제어 장치의 동작 상태와 관련된 정보 중 적어도 하나를 포함하는 시스템.
  12. 전자 장치의 발화 처리 방법에 있어서,
    음성 기반 인텔리전트 어시스턴스 서비스를 호출하는 웨이크업(wake-up) 발화(utterance)를 수신하는 동작;
    상기 웨이크업 발화에 응답하여, 상기 음성 기반 인텔리전트 어시스턴스 서비스에 의해 진행 중인 세션을 확인하는 동작; 및
    제어 명령어 수신 시, 상기 세션에 기반하여 상기 세션을 통해 외부 제어 장치로 상기 제어 명령어를 제공하는 동작을 포함하는 방법.
  13. 제 12항에 있어서,
    상기 제어 명령어가 제어 장치를 특정하는 경우, 상기 특정된 제어 장치와 세션을 형성하는 동작; 및
    상기 형성된 세션을 통해, 상기 특정된 제어 장치로 상기 제어 명령어를 제공하는 동작을 포함하는 방법.
  14. 제 13항에 있어서,
    상기 특정된 제어 장치에 대응되는 세션에 관련된 정보를 생성하는 동작을 포함하는 방법.
  15. 제 12항에 있어서,
    상기 제어 명령어가 제어 장치를 특정하지 않는 경우, 상기 진행중인 세션을 통해, 상기 제어 명령어를 제공하는 동작을 포함하는 방법.
  16. 제 15항에 있어서,
    상기 진행중인 세션에 관련된 정보를 갱신하는 동작을 포함하는 방법.
  17. 제 15항에 있어서,
    상기 세션이 진행 중인 외부 제어 장치의 동작 상태를 확인하는 동작;
    상기 제어 명령어의 처리가 불가한 동작 상태가 확인되면, 세션을 해제하는 동작; 및
    상기 제어 장치를 특정하는 제어 명령어를 수신하는 동작을 포함하는 방법.
  18. 제 17항에 있어서,
    상기 제어 명령어의 처리가 불가한 동작 상태를 알리는 가이드 정보를 제공하는 동작을 포함하는 방법.
  19. 제 12항에 있어서,
    상기 웨이크업 발화를 수신하기 위하여 제 1 프로세서를 활성화시키는 동작; 및
    상기 제어 명령어를 수신하기 위하여, 상기 제 1 프로세서 보다 상대적으로 전력 소모가 적은 제 2 프로세서를 활성화시키는 동작을 포함하는 방법.
KR1020180084901A 2018-07-20 2018-07-20 전자 장치 및 그의 동작 방법 KR102592769B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020180084901A KR102592769B1 (ko) 2018-07-20 2018-07-20 전자 장치 및 그의 동작 방법
US17/260,294 US11804224B2 (en) 2018-07-20 2019-05-28 Electronic device and method for operation thereof
PCT/KR2019/006385 WO2020017754A1 (ko) 2018-07-20 2019-05-28 전자 장치 및 그의 동작 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180084901A KR102592769B1 (ko) 2018-07-20 2018-07-20 전자 장치 및 그의 동작 방법

Publications (2)

Publication Number Publication Date
KR20200013173A true KR20200013173A (ko) 2020-02-06
KR102592769B1 KR102592769B1 (ko) 2023-10-24

Family

ID=69164686

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180084901A KR102592769B1 (ko) 2018-07-20 2018-07-20 전자 장치 및 그의 동작 방법

Country Status (3)

Country Link
US (1) US11804224B2 (ko)
KR (1) KR102592769B1 (ko)
WO (1) WO2020017754A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021201429A1 (ko) * 2020-04-01 2021-10-07 삼성전자 주식회사 전자 장치 및 그의 오디오 출력을 제어하는 방법
WO2022119121A1 (ko) * 2020-12-03 2022-06-09 삼성전자 주식회사 전자 장치 및 전자 장치의 동작 방법

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102592769B1 (ko) * 2018-07-20 2023-10-24 삼성전자주식회사 전자 장치 및 그의 동작 방법
US11870862B2 (en) * 2018-09-17 2024-01-09 Amazon Technologies, Inc. State prediction of devices
EP3866157B1 (de) * 2020-02-13 2024-04-03 Deutsche Telekom AG Elektronische assistenzvorrichtung und betriebsverfahren
CN113810802B (zh) * 2021-08-27 2023-09-29 青岛歌尔智能传感器有限公司 智能麦克风及电子装置
CN115208859B (zh) * 2022-06-23 2023-12-15 阿波罗智联(北京)科技有限公司 一种信息交互方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140334645A1 (en) * 2013-05-07 2014-11-13 Qualcomm Incorporated Method and apparatus for controlling voice activation
KR20160055162A (ko) * 2013-08-26 2016-05-17 삼성전자주식회사 음성 인식을 위한 전자 장치 및 방법
WO2018005334A1 (en) * 2016-06-27 2018-01-04 Amazon Technologies, Inc. Systems and methods for routing content to an associated output device
US20180096690A1 (en) * 2016-10-03 2018-04-05 Google Inc. Multi-User Personalization at a Voice Interface Device

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014115446A (ja) 2012-12-10 2014-06-26 Nippon Seiki Co Ltd 音声認識リモコン
US9026659B2 (en) 2013-02-05 2015-05-05 Nuance Communications, Inc. Method and apparatus for supporting scalable multi-modal dialog application sessions
DE112014000709B4 (de) * 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US9721566B2 (en) * 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
KR20170081390A (ko) 2016-01-04 2017-07-12 삼성전자주식회사 원격 제어 방법 및 이를 수행하는 전자 장치
WO2017210368A1 (en) 2016-06-01 2017-12-07 Onvocal, Inc. System and method for voice authentication
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
KR102398649B1 (ko) * 2017-03-28 2022-05-17 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 그 동작 방법
KR102347208B1 (ko) * 2017-09-07 2022-01-05 삼성전자주식회사 외부 장치를 이용한 태스크 수행 방법 및 이를 지원하는 전자 장치, 서버 및 저장 매체
KR102592769B1 (ko) * 2018-07-20 2023-10-24 삼성전자주식회사 전자 장치 및 그의 동작 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140334645A1 (en) * 2013-05-07 2014-11-13 Qualcomm Incorporated Method and apparatus for controlling voice activation
KR20160055162A (ko) * 2013-08-26 2016-05-17 삼성전자주식회사 음성 인식을 위한 전자 장치 및 방법
WO2018005334A1 (en) * 2016-06-27 2018-01-04 Amazon Technologies, Inc. Systems and methods for routing content to an associated output device
US20180096690A1 (en) * 2016-10-03 2018-04-05 Google Inc. Multi-User Personalization at a Voice Interface Device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021201429A1 (ko) * 2020-04-01 2021-10-07 삼성전자 주식회사 전자 장치 및 그의 오디오 출력을 제어하는 방법
WO2022119121A1 (ko) * 2020-12-03 2022-06-09 삼성전자 주식회사 전자 장치 및 전자 장치의 동작 방법

Also Published As

Publication number Publication date
WO2020017754A1 (ko) 2020-01-23
US20210295838A1 (en) 2021-09-23
KR102592769B1 (ko) 2023-10-24
US11804224B2 (en) 2023-10-31

Similar Documents

Publication Publication Date Title
KR102592769B1 (ko) 전자 장치 및 그의 동작 방법
US11393474B2 (en) Electronic device managing plurality of intelligent agents and operation method thereof
KR20200109954A (ko) IoT 기기의 위치 추론 방법, 이를 지원하는 서버 및 전자 장치
KR102421824B1 (ko) 외부 장치를 이용하여 음성 기반 서비스를 제공하기 위한 전자 장치, 외부 장치 및 그의 동작 방법
KR102406718B1 (ko) 컨텍스트 정보에 기반하여 음성 입력을 수신하는 지속 기간을 결정하는 전자 장치 및 시스템
KR20190114326A (ko) 챗봇을 이용한 서비스 제공 방법 및 그 장치
KR20200052612A (ko) 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법
KR20190130376A (ko) 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법
US11817082B2 (en) Electronic device for performing voice recognition using microphones selected on basis of operation state, and operation method of same
KR20210045241A (ko) 전자 장치 및 전자 장치의 음성 명령어 공유 방법
US20210383806A1 (en) User input processing method and electronic device supporting same
US11749271B2 (en) Method for controlling external device based on voice and electronic device thereof
KR20210036527A (ko) 사용자 발화를 처리하는 전자 장치 및 그 작동 방법
KR20210044509A (ko) 음성 인식의 향상을 지원하는 전자 장치
CN111640429A (zh) 提供语音识别服务的方法和用于该方法的电子装置
KR20200045851A (ko) 음성 인식 서비스를 제공하는 전자 장치 및 시스템
KR20200027753A (ko) 전자 장치 및 단축 명령어에 대응하는 태스크 수행 방법
KR20190139489A (ko) 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치
US10976997B2 (en) Electronic device outputting hints in an offline state for providing service according to user context
US11557285B2 (en) Electronic device for providing intelligent assistance service and operating method thereof
KR20200057426A (ko) 음성 인식 기반 이미지를 표시하는 전자 장치
KR20200107058A (ko) 복수 개의 엔드 포인트가 포함된 플랜들을 처리하는 방법 및 그 방법을 적용한 전자 장치
CN112542171A (zh) 使用语音识别功能执行动作的电子装置及其方法
KR20210044606A (ko) 웨이크업 모델 생성 방법 및 이를 위한 전자 장치
KR20200041005A (ko) 전자 장치 및 그의 동작 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant