KR102453603B1 - 전자 장치 및 그 제어 방법 - Google Patents

전자 장치 및 그 제어 방법 Download PDF

Info

Publication number
KR102453603B1
KR102453603B1 KR1020150157196A KR20150157196A KR102453603B1 KR 102453603 B1 KR102453603 B1 KR 102453603B1 KR 1020150157196 A KR1020150157196 A KR 1020150157196A KR 20150157196 A KR20150157196 A KR 20150157196A KR 102453603 B1 KR102453603 B1 KR 102453603B1
Authority
KR
South Korea
Prior art keywords
user
electronic device
voice
response level
keyword
Prior art date
Application number
KR1020150157196A
Other languages
English (en)
Other versions
KR20170054707A (ko
Inventor
조치현
손동일
김경태
이지민
허창룡
천재봉
최규철
강창택
이창수
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020150157196A priority Critical patent/KR102453603B1/ko
Priority to PCT/KR2016/011546 priority patent/WO2017082543A1/en
Priority to CN201680065490.0A priority patent/CN108369808B/zh
Priority to EP16864469.8A priority patent/EP3341934B1/en
Priority to US15/341,454 priority patent/US10811002B2/en
Publication of KR20170054707A publication Critical patent/KR20170054707A/ko
Application granted granted Critical
Publication of KR102453603B1 publication Critical patent/KR102453603B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Abstract

전자 장치는, 메모리 및 상기 메모리에 전기적으로 연결된 프로세서를 포함하고, 상기 메모리는, 실행시에 상기 프로세서가, 사용자 음성을 획득하고, 상기 사용자 음성의 응답 레벨을 판단하고, 상기 사용자 음성의 응답 레벨이 제 1 응답 레벨인 경우에는, 상기 사용자 음성에 대응하는 동작을 상기 사용자 음성의 획득 시점에 대응하여 수행하고, 상기 사용자 음성의 응답 레벨이 제 2 응답 레벨인 경우에는, 상기 사용자 음성에 대응하는 동작을 추가 이벤트가 검출된 시점에 대응하여 수행하는 인스트럭션을 저장할 수 있다.

Description

전자 장치 및 그 제어 방법{ELECTRONIC DEVICE AND METHOD FOR CONTROLLING THEREOF}
본 발명은 전자 장치 및 그 제어 방법에 관한 것으로, 더욱 상세하게는 사용자 명령에 대응하는 동작을 수행하는 전자 장치 및 그 제어 방법에 관한 것이다.
종래의 음성 명령 인식 기술은 크게 2가지 형태로 구현되고 있다. 첫 번째는 어휘 수준 문장 분석 방법이다. 종래의 전자 장치는, 명령에 대한 단어의 조합을 데이터베이스에 미리 저장할 수 있으며, 입력된 사용자의 음성을 텍스트로 변환하고, 변환된 텍스트가 데이터베이스에 미리 저장된 조합에 일치하는지 여부를 판단하는 방식으로 음성 명령 인식을 수행하였다. 종래의 전자 장치는, 변환된 텍스트와 데이터베이스의 단어 사이의 유사도가 일정 기준 이상인 경우, 데이터베이스의 기저장된 명령을 수행하였다.
두 번째는 의미 수준 문장 분석 방법이다. 종래의 전자 장치는, 일반적으로 온톨로지(Ontology) 또는 시맨틱 파싱(Semantic Parsing)을 활용하여 음성 인식을 수행하여 의미 수준의 분석을 수행할 수 있다. 종래의 전자 장치는, 변환된 텍스트의 문장을 구성하는 단어들 간의 상관 관계에 대한 맵(map)을 구성하고, 이를 활용하여 인식된 문장의 동사, 주어, 목적어, 형용사 등 각 구성요소들을 식별하며, 식별된 구성 요소로부터 실제 의미를 추출하여 특정 명령에 맵핑시키는 방식으로 음성 명령 인식을 수행할 수 있다.
종래 음성 명령 인식 기술은, 입력된 음성이 특정 명령에 대응된다고 판단되면 대응되는 특정 명령을 수행하고, 대응되지 않는다고 판단되면 아무런 동작을 수행하지 않을 수 있다. 즉, 종래의 음성 명령 기술은 2분법 적으로 음성에 대응하는 명령을 수행하거나 수행하지 않을 수 있다. 따라서 사용자가 발화한 말이 특정 반응을 기대하는 것이 아님에도 불구하고, 종래의 전자 장치는 사용자의 음성에 대응하는 명령을 수행함에 따라서, 사용자가 원하지 않는 서비스 또는 피드백이 제공될 수 있다.
본 발명의 다양한 실시예에 의한 전자 장치는, 사용자의 음성에 대응하는 명령을 즉각적으로 수행하거나 또는 추가적인 이벤트를 검출한 경우까지 유보하였다가 수행하는 등의, 수행 시점을 사용자의 의도에 부합하도록 조정할 수 있다.
본 발명의 다양한 실시예에 의한 전자 장치는, 디스플레이, 마이크로폰, 메모리 및 상기 메모리에 전기적으로 연결된 적어도 하나의 프로세서를 포함하고, 상기 메모리는, 실행시에 상기 프로세서가, 상기 마이크로폰을 통해 제1 사용자의 사용자 음성을 획득하고, 상기 사용자 음성을 인식한 텍스트를 획득하고, 상기 텍스트에 포함된 적어도 하나의 키워드를 획득하고, 상기 사용자 음성으로부터 획득된 상기 적어도 하나의 키워드가 미리 지정된 규칙을 만족하는지 여부에 기초하여 상기 사용자 음성의 응답 레벨을 식별하고, 상기 사용자 음성의 상기 응답 레벨이 제 1 응답 레벨인 경우에는, 상기 사용자 음성에 대한 응답으로서 상기 사용자 음성에 대응하는 제1 동작을 수행하고, 상기 사용자 음성의 상기 응답 레벨이 상기 제1 응답 레벨과 다른 제 2 응답 레벨인 경우에는, 상기 적어도 하나의 키워드에 기반하여 하나 이상의 동작 후보를 포함하는 사용자 인터페이스를 표시하도록 상기 디스플레이를 제어하고, 상기 사용자의 음성의 상기 응답 레벨이 상기 제2 응답 레벨이고, 상기 제1 사용자의 상기 사용자 음성을 획득한 후 미리 지정된 시간 내에 상기 제1 사용자와 관련된 이벤트가 감지되는 경우에는, 상기 사용자 음성에 대한 응답으로 상기 하나 이상의 동작 후보들 중 적어도 하나의 동작 후보에 대응하는 제2 동작을 수행하기 시작하는 인스트럭션을 저장할 수 있다.
본 발명의 다양한 실시예에 의한 전자 장치의 제어 방법은, 사용자 음성을 획득하는 동작; 상기 사용자 음성의 응답 레벨을 판단하는 동작; 상기 사용자 음성의 응답 레벨이 제 1 응답 레벨인 경우에는, 상기 사용자 음성에 대응하는 동작을 상기 사용자 음성의 획득 시점에 대응하여 수행하는 동작; 및 상기 사용자 음성의 응답 레벨이 제 2 응답 레벨인 경우에는, 상기 사용자 음성에 대응하는 동작을 추가 이벤트가 검출된 시점에 대응하여 수행하는 동작을 포함할 수 있다.
본 발명의 다양한 실시예에 의한 전자 장치는, 메모리; 및 상기 메모리에 전기적으로 연결된 프로세서를 포함하고, 상기 메모리는, 실행시에 상기 프로세서가,
제 1 동작을 실행하도록 설정된 제 1 이벤트를 검출하고, 상기 제 1 동작의 수행에 대한 제한 조건이 만족되는지 여부를 판단하고, 상기 제 1 동작의 수행에 대한 제한 조건이 만족되지 않으면, 상기 제 1 동작을 상기 제 1 이벤트 검출 시점에 대응하여 수행하고, 상기 제 1 동작의 수행에 대한 제한 조건이 만족되면, 상기 제 1 동작을 상기 제 1 이벤트와 상이한 제 2 이벤트 검출 시점에 대응하여 수행하는 인스트럭션을 저장할 수 있다.
본 발명의 다양한 실시예에 의한 전자 장치의 제어 방법은, 제 1 동작을 실행하도록 설정된 제 1 이벤트를 검출하는 동작; 상기 제 1 동작의 수행에 대한 제한 조건이 만족되는지 여부를 판단하는 동작; 상기 제 1 동작의 수행에 대한 제한 조건이 만족되지 않으면, 상기 제 1 동작을 상기 제 1 이벤트 검출 시점에 대응하여 수행하는 동작; 및 상기 제 1 동작의 수행에 대한 제한 조건이 만족되면, 상기 제 1 동작을 상기 제 1 이벤트와 상이한 제 2 이벤트 검출 시점에 대응하여 수행하는 동작을 포함할 수 있다.
본 발명의 다양한 실시예에 의한 전자 장치는, 메모리; 및 상기 메모리에 전기적으로 연결된 프로세서를 포함하고, 상기 메모리는, 실행시에 상기 프로세서가, 사용자 모션을 획득하고, 상기 사용자 모션의 응답 레벨이 제 1 응답 레벨인 경우에는, 상기 사용자 모션에 대응하는 동작을 상기 사용자 음성의 획득 시점에 대응하여 수행하고, 상기 사용자 모션의 응답 레벨이 제 2 응답 레벨인 경우에는, 상기 사용자 모션에 대응하는 동작을 추가 이벤트가 검출된 시점에 대응하여 수행하는 인스트럭션을 저장할 수 있다.
본 발명의 다양한 실시예에 의한 전자 장치의 제어 방법은, 사용자 모션을 획득하는 동작; 상기 사용자 모션의 응답 레벨을 판단하는 동작; 상기 사용자 모션의 응답 레벨이 제 1 응답 레벨인 경우에는, 상기 사용자 모션에 대응하는 동작을 상기 사용자 음성의 획득 시점에 대응하여 수행하는 동작; 및 상기 사용자 모션의 응답 레벨이 제 2 응답 레벨인 경우에는, 상기 사용자 모션에 대응하는 동작을 추가 이벤트가 검출된 시점에 대응하여 수행하는 동작을 포함할 수 있다.
본 발명의 다양한 실시예에 따라서, 사용자의 음성에 대응하는 명령을 즉각적으로 수행하거나 또는 추가적인 이벤트를 검출한 경우까지 유보하였다가 수행하는 등의, 수행 시점을 사용자의 의도에 부합하도록 조정할 수 있는 전자 장치 및 그 제어 방법이 제공될 수 있다. 이에 따라, 사용자의 의도에 보다 부합하도록 동작할 수 있는 전자 장치 및 그 제어 방법이 제공될 수 있다.
도 1a는 본 발명의 다양한 실시예에 따른 전자 장치 및 네트워크의 블록도를 도시한다.
도 1b는 본 발명의 다양한 실시예에 따른 구현예를 설명하기 위한 개념도를 도시한다.
도 2a는 다양한 실시예에 따른 전자 장치의 블록도이다.
도 2b는 본 발명의 다양한 실시예에 따른 전자 장치의 블록도를 도시한다.
도 3은 다양한 실시예에 따른 프로그램 모듈의 블록도이다.
도 4는 본 발명의 다양한 실시예에 따른 전자 장치가 이용하는 소프트웨어를 설명하기 위한 블록도를 도시한다.
도 5는 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도를 도시한다.
도 6은 본 발명의 다양한 실시예에 따른 전자 장치의 동작을 설명하기 위한 흐름도를 도시한다.
도 7a 내지 7f는 본 발명의 다양한 실시예에 따른 전자 장치의 동작을 설명하기 위한 개념도들을 도시한다.
도 8은 본 발명의 다양한 실시예에 따른 응답 레벨을 결정하는 방법을 설명하기 위한 흐름도를 도시한다.
도 9는 본 발명의 다양한 실시예에 따른 키워드 분석을 통한 응답 레벨 판단 과정을 설명하기 위한 개념도를 도시한다.
도 10a 내지 10c는 본 발명의 다양한 실시예에 따른 제 1 응답 레벨로 분류되는 키워드 데이터베이스의 종류를 설명하기 위한 개념도들을 도시한다.
도 11a 내지 11b는 본 발명의 다양한 실시예에 따른 제 2 응답 레벨로 분류되는 과정을 설명하기 위한 개념도들을 도시한다.
도 12는 본 발명의 다양한 실시예에 따른 온톨로지(ontology)를 설명하기 위한 개념도를 도시한다.
도 13은 본 발명의 다양한 실시예에 따른 응답 레벨 결정 과정을 설명하기 위한 흐름도를 도시한다.
도 14a 및 14b는 본 발명의 다양한 실시예에 따른 스코어 부여 및 합산을 설명하기 위한 개념도들을 도시한다.
도 15a 및 15b는 본 발명의 다양한 실시예에 따른 응답 레벨 판단 과정을 설명하기 위한 개념도들을 도시한다.
도 16은 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도를 도시한다.
도 17은 사용자 식별 정보를 이용하여 응답 레벨별 동작을 수행하는 방법을 설명하기 위한 흐름도를 도시한다.
도 18a 및 18b는 본 발명의 다양한 실시예에 따른 사용자 식별 정보를 고려하여 동작을 수행하는 전자 장치를 설명하기 위한 개념도들을 도시한다.
도 19a 및 19b는 본 발명의 다양한 실시예에 따른 시간 정보를 이용한 응답 레벨별 동작을 수행하는 방법을 설명하기 위한 흐름도를 도시한다.
도 20은 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도를 도시한다.
도 21은 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도를 도시한다.
도 22는 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법을 설명하는 흐름도를 도시한다.
도 23a 및 23b는 본 발명의 다양한 실시예에 따른 전자 장치의 동작을 설명하기 위한 개념도를 도시한다.
도 24는 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법을 설명하는 흐름도를 도시한다.
도 25a 내지 25c는 본 발명의 다양한 실시예에 따른 온톨로지를 설명하기 위한 개념도를 도시한다.
도 26은 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법의 흐름도를 도시한다.
도 27은 본 발명의 다양한 실시예에 따른 전자 장치의 동작을 설명하기 위한 개념도를 도시한다.
도 28은 본 발명의 다양한 실시예에 따른 전자 장치의 동작을 설명하기 위한 개념도를 도시한다.
도 29는 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도를 도시한다.
도 30a 내지 30c는 본 발명의 다양한 실시예에 따른 하드웨어 선택을 설명하기 위한 개념도를 도시한다.
도 31은 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도를 도시한다.
도 32는 본 발명의 다양한 실시예에 따른 전자 장치의 동작을 설명하기 위한 개념도를 도시한다.
도 33은 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법의 흐름도를 도시한다.
도 34a 내지 34c는 본 발명의 다양한 실시예에 따른 전자 장치의 동작을 설명하기 위한 개념도들을 도시한다.
도 35는 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도를 도시한다.
도 36a 및 36b는 본 발명의 다양한 실시예에 따른 전자 장치의 동작을 설명하기 위한 개념도들을 도시한다.
도 37은 본 발명의 다양한 실시예에 따른 전자 장치의 동작 환경을 설명하기 위한 개념도를 도시한다.
도 38은 본 발명의 다양한 실시예에 따른 IoT 환경에서의 전자 장치의 동작을 설명하기 위한 흐름도를 도시한다.
도 39는 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도를 도시한다.
도 40은 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도를 도시한다.
도 41a 및 41b는 본 발명의 다양한 실시예에 따른 전자 장치의 동작을 설명하기 위한 개념도들을 도시한다.
도 42는 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도를 도시한다.
도 43a 및 43b는 본 발명의 다양한 실시예에 따른 전자 장치의 동작을 설명하기 위한 개념도들을 도시한다.
도 44a 및 44b는 본 발명의 다양한 실시예에 따른 전자 장치의 동작을 설명하기 위한 개념도들을 도시한다.
이하, 본 문서의 다양한 실시예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 문서의 실시예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
본 문서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
본 문서에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.
본 문서에서 사용된 "제 1," "제 2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 예를 들면, 제 1 사용자 기기와 제 2 사용자 기기는, 순서 또는 중요도와 무관하게, 서로 다른 사용자 기기를 나타낼 수 있다. 예를 들면, 본 문서에 기재된 권리 범위를 벗어나지 않으면서 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 바꾸어 명명될 수 있다.
어떤 구성요소(예: 제 1 구성요소)가 다른 구성요소(예: 제 2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제 3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제 1 구성요소)가 다른 구성요소(예: 제 2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제 3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.
본 문서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
본 문서에서 사용된 용어들은 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 다른 실시예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 문서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 본 문서에 사용된 용어들 중 일반적인 사전에 정의된 용어들은, 관련 기술의 문맥상 가지는 의미와 동일 또는 유사한 의미로 해석될 수 있으며, 본 문서에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 문서에서 정의된 용어일지라도 본 문서의 실시예들을 배제하도록 해석될 수 없다.
본 문서의 다양한 실시예들에 따른 전자 장치는, 예를 들면, 스마트폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 영상 전화기, 전자책 리더기(e-book reader), 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), 워크스테이션(workstation), 서버, PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라(camera), 또는 웨어러블 장치(wearable device) 중 적어도 하나를 포함할 수 있다. 다양한 실시예에 따르면, 웨어러블 장치는 액세서리형(예: 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형(예: 전자 의복), 신체 부착형(예: 스킨 패드(skin pad) 또는 문신), 또는 생체 이식형(예: implantable circuit) 중 적어도 하나를 포함할 수 있다.
어떤 실시예들에서, 전자 장치는 가전 제품(home appliance)일 수 있다. 가전 제품은, 예를 들면, 텔레비전, DVD(digital video disk) 플레이어, 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스(set-top box), 홈 오토매이션 컨트롤 패널(home automation control panel), 보안 컨트롤 패널(security control panel), TV 박스(예: 삼성 HomeSyncTM, 애플TVTM, 또는 구글 TVTM), 게임 콘솔(예: XboxTM, PlayStationTM), 전자 사전, 전자 키, 캠코더(camcorder), 또는 전자 액자 중 적어도 하나를 포함할 수 있다.
다른 실시예에서, 전자 장치는, 각종 의료기기(예: 각종 휴대용 의료측정기기(혈당 측정기, 심박 측정기, 혈압 측정기, 또는 체온 측정기 등), MRA(magnetic resonance angiography), MRI(magnetic resonance imaging), CT(computed tomography), 촬영기, 또는 초음파기 등), 네비게이션(navigation) 장치, 위성 항법 시스템(GNSS(global navigation satellite system)), EDR(event data recorder), FDR(flight data recorder), 자동차 인포테인먼트(infotainment) 장치, 선박용 전자 장비(예: 선박용 항법 장치, 자이로 콤파스 등), 항공 전자기기(avionics), 보안 기기, 차량용 헤드 유닛(head unit), 산업용 또는 가정용 로봇, 금융 기관의 ATM(automatic teller's machine), 상점의 POS(point of sales), 또는 사물 인터넷 장치(internet of things)(예: 전구, 각종 센서, 전기 또는 가스 미터기, 스프링클러 장치, 화재경보기, 온도조절기(thermostat), 가로등, 토스터(toaster), 운동기구, 온수탱크, 히터, 보일러 등) 중 적어도 하나를 포함할 수 있다.
어떤 실시예에 따르면, 전자 장치는 가구(furniture) 또는 건물/구조물의 일부, 전자 보드(electronic board), 전자 사인 수신 장치(electronic signature receiving device), 프로젝터(projector), 또는 각종 계측 기기(예: 수도, 전기, 가스, 또는 전파 계측 기기 등) 중 적어도 하나를 포함할 수 있다. 다양한 실시예에서, 전자 장치는 전술한 다양한 장치들 중 하나 또는 그 이상의 조합일 수 있다. 어떤 실시예에 따른 전자 장치는 플렉서블 전자 장치일 수 있다. 또한, 본 문서의 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않으며, 기술 발전에 따른 새로운 전자 장치를 포함할 수 있다.
이하, 첨부 도면을 참조하여, 다양한 실시예에 따른 전자 장치가 설명된다. 본 문서에서, 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공지능 전자 장치)를 지칭할 수 있다.
도 1a을 참조하여, 다양한 실시예에서의, 네트워크 환경(100) 내의 전자 장치(101)가 기재된다. 전자 장치(101)는 버스(110), 프로세서(120), 메모리(130), 입출력 인터페이스(150), 디스플레이(160), 및 통신 모듈(170)을 포함할 수 있다. 어떤 실시예에서는, 전자 장치(101)는, 구성요소들 중 적어도 하나를 생략하거나 다른 구성요소를 추가적으로 구비할 수 있다.
버스(110)는, 예를 들면, 구성요소들(110-170)을 서로 연결하고, 구성요소들 간의 통신(예: 제어 메시지 및/또는 데이터)을 전달하는 회로를 포함할 수 있다.
프로세서(120)는, 중앙처리장치(central processing unit(CPU)), 어플리케이션 프로세서(application processor(AP)), 커뮤니케이션 프로세서(communication processor(CP)) 그래픽 프로세서(graphicprocessor(GP), 멀티 칩 패키지(multi chip package(MCP)) 또는 이미지 프로세서(image processor(IP))중 하나 또는 그 이상을 포함할 수 있다. 프로세서(120)는, 예를 들면, 전자 장치(101)의 적어도 하나의 다른 구성요소들의 제어 및/또는 통신에 관한 연산이나 데이터 처리를 실행할 수 있다.
메모리(130)는, 휘발성 및/또는 비휘발성 메모리를 포함할 수 있다. 메모리(130)는, 예를 들면, 전자 장치(101)의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 저장할 수 있다. 한 실시예에 따르면, 메모리(130)는 소프트웨어 및/또는 프로그램(140)을 저장할 수 있다. 프로그램(140)은, 예를 들면, 커널(141), 미들웨어(143), 어플리케이션 프로그래밍 인터페이스(application programming interface(API))(145), 및/또는 어플리케이션 프로그램(또는 "어플리케이션")(147) 등을 포함할 수 있다. 커널(141), 미들웨어(143), 또는 API(145)의 적어도 일부는, 운영 시스템(operating system(OS))으로 지칭될 수 있다.
커널(141)은, 예를 들면, 다른 프로그램들(예: 미들웨어(143), API(145), 또는 어플리케이션 프로그램(147))에 구현된 동작 또는 기능을 실행하는 데 사용되는 시스템 리소스들(예: 버스(110), 프로세서(120), 또는 메모리(130) 등)을 제어 또는 관리할 수 있다. 또한, 커널(141)은 미들웨어(143), API(145), 또는 어플리케이션 프로그램(147)에서 전자 장치(101)의 개별 구성요소에 접근함으로써, 시스템 리소스들을 제어 또는 관리할 수 있는 인터페이스를 제공할 수 있다.
미들웨어(143)는, 예를 들면, API(145) 또는 어플리케이션 프로그램(147)이 커널(141)과 통신하여 데이터를 주고받을 수 있도록 중개 역할을 수행할 수 있다.
또한, 미들웨어(143)는 어플리케이션 프로그램(147)으로부터 수신된 하나 이상의 작업 요청들을 우선 순위에 따라 처리할 수 있다. 예를 들면, 미들웨어(143)는 어플리케이션 프로그램(147) 중 적어도 하나에 전자 장치(101)의 시스템 리소스(예: 버스(110), 프로세서(120), 또는 메모리(130) 등)를 사용할 수 있는 우선 순위를 부여할 수 있다. 예컨대, 미들웨어(143)는 상기 적어도 하나에 부여된 우선 순위에 따라 상기 하나 이상의 작업 요청들을 처리함으로써, 상기 하나 이상의 작업 요청들에 대한 스케쥴링 또는 로드 밸런싱 등을 수행할 수 있다.
API(145)는, 예를 들면, 어플리케이션(147)이 커널(141) 또는 미들웨어(143)에서 제공되는 기능을 제어하기 위한 인터페이스로, 예를 들면, 파일 제어, 창 제어, 영상 처리, 또는 문자 제어 등을 위한 적어도 하나의 인터페이스 또는 함수(예: 명령어)를 포함할 수 있다.
입출력 인터페이스(150)는, 예를 들면, 사용자 또는 다른 외부 기기로부터 입력된 명령 또는 데이터를 전자 장치(101)의 다른 구성요소(들)에 전달할 수 있는 인터페이스의 역할을 할 수 있다. 또한, 입출력 인터페이스(150)는 전자 장치(101)의 다른 구성요소(들)로부터 수신된 명령 또는 데이터를 사용자 또는 다른 외부 기기로 출력할 수 있다. 입출력 인터페이스(150)는 터치 입력 장치, 음성 입력부, 다양한 원격 제어 장치 등을 포함할 수 있다. 입출력 인터페이스(150)는 사용자에게 특정 서비스를 제공하기 위한 적어도 하나 이상의 수단일 수 있다. 예를 들어 전달해야 하는 정보가 소리인 경우에는 해당 입출력 인터페이스(150)는 스피커가 될 수 있으며, 텍스트 또는 영상 컨텐츠인 경우에는 디스플레이 장치가 될 수 있다. 또한 사용자가 전자 장치(101)에 근접하지 않은 상황에서 서비스를 제공하기 위하여 출력해야 하는 데이터는 통신 모듈 통하여 적어도 하나 이상의 다른 전자 장치로 전달되어 출력될 수 있으며, 이때 다른 전자 장치는 스피커 또는 다른 디스플레이 장치가 될 수 있다.
디스플레이(160)는, 예를 들면, 액정 디스플레이(liquid crystal display(LCD)), 발광 다이오드(light-emitting diode(LED)) 디스플레이, 유기 발광 다이오드(organic light-emitting diode(OLED)) 디스플레이, 또는 마이크로 전자기계 시스템(microelectromechanical systems(MEMS)) 디스플레이, 또는 전자종이(electronic paper) 디스플레이를 포함할 수 있다. 디스플레이(160)는, 예를 들면, 사용자에게 각종 콘텐츠(예: 텍스트, 이미지, 비디오, 아이콘, 또는 심볼 등)을 표시할 수 있다. 디스플레이(160)는, 터치 스크린을 포함할 수 있으며, 예를 들면, 전자 펜 또는 사용자의 신체의 일부를 이용한 터치, 제스쳐, 근접, 또는 호버링 입력을 수신할 수 있다.
통신 모듈(170)은, 예를 들면, 전자 장치(101)와 외부 장치(예: 제 1 외부 전자 장치(102), 제 2 외부 전자 장치(104), 또는 서버(106)) 간의 통신을 설정할 수 있다. 예를 들면, 통신 모듈(170)은 무선 통신 또는 유선 통신을 통해서 네트워크(162)에 연결되어 외부 장치(예: 제 2 외부 전자 장치(104) 또는 서버(106))와 통신할 수 있다. 상기 통신 모듈(170)은 다른 전자 장치와 적어도 하나 이상의 데이터를 송,수신할 수 있는 수단으로 적어도 하나 이상의 (통신표준),WIFI, Zigbee, Bluetooth, LTE, 3G, IR 등의 프로토콜을 통하여 다른 전자 장치와 통신할 수 있다
무선 통신은, 예를 들면, 셀룰러 통신 프로토콜로서, 예를 들면, LTE(long-term evolution), LTE-A(LTE Advance), CDMA(code division multiple access), WCDMA(wideband CDMA), UMTS(universal mobile telecommunications system), WiBro(Wireless Broadband), 또는 GSM(Global System for Mobile Communications) 등 중 적어도 하나를 사용할 수 있다. 또한, 무선 통신은, 예를 들면, 근거리 통신(164)을 포함할 수 있다. 근거리 통신(164)은, 예를 들면, WiFi(wireless fidelity), 블루투스(Bluetooth), NFC(near field communication), 또는 GNSS(global navigation satellite system) 등 중 적어도 하나를 포함할 수 있다. GNSS는 사용 지역 또는 대역폭 등에 따라, 예를 들면, GPS(Global Positioning System), Glonass(Global Navigation Satellite System), Beidou Navigation Satellite System(이하 “Beidou”) 또는 Galileo, the European global satellite-based navigation system 중 적어도 하나를 포함할 수 있다. 이하, 본 문서에서는, “GPS”는 “GNSS”와 혼용되어 사용(interchangeably used)될 수 있다. 유선 통신은, 예를 들면, USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard232), 또는 POTS(plain old telephone service) 등 중 적어도 하나를 포함할 수 있다. 네트워크(162)는 통신 네트워크(telecommunications network), 예를 들면, 컴퓨터 네트워크(computer network)(예: LAN 또는 WAN), 인터넷, 또는 전화 망(telephone network) 중 적어도 하나를 포함할 수 있다.
제 1 및 제 2 외부 전자 장치(102, 104) 각각은 전자 장치(101)와 동일한 또는 다른 종류의 장치일 수 있다. 한 실시예에 따르면, 서버(106)는 하나 또는 그 이상의 서버들의 그룹을 포함할 수 있다. 다양한 실시예에 따르면, 전자 장치(101)에서 실행되는 동작들의 전부 또는 일부는 다른 하나 또는 복수의 전자 장치(예: 전자 장치(102,104), 또는 서버(106)에서 실행될 수 있다. 한 실시예에 따르면, 전자 장치(101)가 어떤 기능이나 서비스를 자동으로 또는 요청에 의하여 수행해야 할 경우에, 전자 장치(101)는 기능 또는 서비스를 자체적으로 실행시키는 대신에 또는 추가적으로, 그와 연관된 적어도 일부 기능을 다른 장치(예: 전자 장치(102, 104), 또는 서버(106))에게 요청할 수 있다. 다른 전자 장치(예: 전자 장치(102, 104), 또는 서버(106))는 요청된 기능 또는 추가 기능을 실행하고, 그 결과를 전자 장치(101)로 전달할 수 있다. 전자 장치(101)는 수신된 결과를 그대로 또는 추가적으로 처리하여 요청된 기능이나 서비스를 제공할 수 있다. 이를 위하여, 예를 들면, 클라우드 컴퓨팅, 분산 컴퓨팅, 또는 클라이언트-서버 컴퓨팅 기술이 이용될 수 있다.
도 1b는 본 발명의 다양한 실시예에 따른 구현예를 설명하기 위한 개념도를 도시한다.
도 1b에 도시된 바와 같이, 전자 장치(101)는 로봇의 형태로 구현될 수 있다. 전자 장치(101)는 헤드(head)부(190) 및 바디(body)부(193)를 포함할 수 있다. 헤드부(190)는 바디부(193)의 상측에 배치될 수 있다. 헤드부(190) 및 바디부(193)는, 하나의 실시예에서 사람의 헤드와 바디에 대응되는 형상으로 구현될 수 있다. 예를 들어, 헤드부(190)는 사람의 얼굴의 형상에 대응되도록 하는 전면 커버(161)를 포함할 수 있다. 전자 장치(101)는 전면 커버(161)에 대응되는 위치에 배치되는 디스플레이(160)를 포함할 수 있다. 예를 들어, 디스플레이(160)는 전면 커버(161)의 내측에 배치될 수 있으며, 이 경우에 전면 커버(161)는 투명 재질 또는 반투명 재질로 구성될 수 있다. 또는, 전면 커버(161)는 임의의 화면을 디스플레이할 수 있는 소자일 수도 있으며, 이 경우에 전면 커버(161) 및 디스플레이(160)는 하나의 하드웨어로 구현될 수도 있다. 전면 커버(161)는 사용자와 인터랙션하는 방향을 나타내는 곳으로 이미지 센싱을 위한 적어도 하나이상의 다양한 센서와, 음성을 취득하기 위한 적어도 하나 이상의 마이크, 기구적인 눈 구조, 화면 출력을 위한 디스플레이 일 수 있으며, 방향 구분이 되지 않는 형태에서는 불빛 또는 일시적인 기구 변경을 통하여 표시 할 수도 있으며, 사용자와 인터랙션 할 때 사용자 방향으로 향하는 적어도 하나 이상의 H/W 또는 기구 구조를 포함할 수 있다.
헤드부(190)는 통신 모듈(170) 및 센서(171)를 더 포함할 수도 있다. 통신 모듈(170)은 송신 장치로부터 메시지를 수신할 수 있으며, 수신 장치로 변환된 메시지를 송신할 수도 있다. 다른 실시예에서는, 통신 모듈(170)이 마이크로 구현될 수도 있으며, 이 경우에는 사용자로부터의 음성을 수신할 수도 있다. 또 다른 실시예에서는, 통신 모듈(170)은 스피커로 구현될 수도 있으며, 이 경우에는 변환된 메시지를 음성으로 출력할 수도 있다.
센서(171)는 외부 환경에 대한 적어도 하나의 정보를 획득할 수 있다. 예를 들어, 센서(171)는 카메라로 구현될 수도 있으며, 이 경우에는 외부 환경을 촬영할 수 있다. 전자 장치(101)는 촬영 결과에 따라 수신자를 식별할 수도 있다. 센서(171)는 전자 장치(101)에 수신자가 근접함을 센싱할 수 있다. 센서(171)는 근접 정보에 따라 수신자의 근접을 센싱할 수도 있으며, 또는 수신자가 이용하는 전자 장치로부터의 신호에 기초하여 수신자의 근접을 센싱할 수도 있다. 뿐만 아니라, 센서(171)는 사용자의 행동, 위치를 센싱할 수도 있다.
구동부(191)는 헤드부(190)를 움직이게 할 수 있는 적어도 하나의 모터를 포함할 수 있으며, 예를 들어 헤드부(190)의 방향을 변경할 수 있다. 이동 및 다른 구성 요소를 기구적으로 변경하기 위하여 사용될 수 있다. 또한 구동부(191)의 형태는 적어도 하나 이상의 축을 중심으로 하여 상,하 또는 좌,우의 움직임이 가능한 형태일 수 있으며, 그 형태는 다양하게 구현될 수 있다. 전원부(192)는 전자 장치(101)가 이용하는 전원을 공급할 수 있다.
메모리(130)는 사용자에게 서비스를 제공하는 것과 관련된 정보를 영속적 또는 일시적으로 저장할 수 있는 저장소로, 상기 전자 장치의 내부에 존재할 수 있으며, 또는 네트워크를 통하여, 클라우드 또는 다른 서버에 존재할 수 있다. 상기 메모리(130)에는 사용자 인증을 위한 개인 정보 또는 사용자에게 서비스를 제공하는 방식에 관련된 속성 관련 정보 또는 전자 장치(101)와 인터랙션 할 수 있는 다양한 수단들 간에 관계를 파악할 수 있는 정보가 저장될 수 있다. 이때의 관계 정보는 전자 장치(101)의 사용에 따라 정보가 갱신 또는 학습되어 변경될 수도 있다. 프로세서(120)는 전자 장치(101)의 통제를 담당하며, 센서(171), 입출력 인터페이스(150), 통신 모듈(170) 및 메모리(130)를 기능적으로 제어하여 사용자에게 서비스를 제공할 수 있게 한다. 또한 상기 프로세서(120) 또는 메모리(130)의 적어도 일부분에 전자 장치(101)가 획득할 수 있는 정보를 판단할 수 있는 정보 판단부가 포함될 수 있으며, 이 때 정보 판단부는 센서(171) 또는 통신 모듈(170)을 통하여 획득한 정보에서 서비스를 위한 적어도 하나 이상의 데이터를 추출할 수도 있다.
한편, 전자 장치(101)가 로봇 형태로 구현된다는 것은 단순히 예시적인 것이며, 그 구현 형태에는 제한이 없다. 예를 들어, 전자 장치(101)는 로봇 하나의 개체로 형성되는 스탠드얼론(Standalone) 타입으로 구현될 수 있다. 전자 장치(101)는 태블릿 PC 또는 스마트폰을 고정시키는 도킹 스테이션(docking station) 타입으로 구현될 수도 있다. 또한, 전자 장치(101)는 이동성 여부에 따라서 고정/이동형 타입으로 구분될 수도 있으며, 이동형 타입에는 바퀴(wheel)를 이용한 이동형 타입, 캐터필러(caterpillar)를 이용한 이동형 타입, 다리 움직임(leg moving)을 이용한 이동형 타입(2족, 4족 모두 포함), 날아다니는(flying) 이동형 타입이 있을 수 있다.
본 발명의 다양한 실시예에서, 상기 메모리(130)는, 실행시에 상기 프로세서(120)가, 사용자 음성을 획득하고, 상기 사용자 음성의 응답 레벨을 판단하고, 상기 사용자 음성의 응답 레벨이 제 1 응답 레벨인 경우에는, 상기 사용자 음성에 대응하는 동작을 상기 사용자 음성의 획득 시점에 대응하여 수행하고, 상기 사용자 음성의 응답 레벨이 제 2 응답 레벨인 경우에는, 상기 사용자 음성에 대응하는 동작을 추가 이벤트가 검출된 시점에 대응하여 수행하는 인스트럭션을 저장할 수 있다.
본 발명의 다양한 실시예에서, 상기 메모리(130)는, 실행시에 상기 프로세서(120)가, 상기 사용자 음성을 인식한 텍스트를 획득하고, 상기 텍스트에 포함된 키워드가 기 지정된 규칙을 만족하는지 여부에 기초하여 상기 사용자 음성의 응답 레벨을 판단하는 인스트럭션을 저장할 수 있다.
본 발명의 다양한 실시예에서, 상기 메모리(130)는, 실행시에 상기 프로세서(120)가, 상기 텍스트에 포함된 키워드가 제 1 응답 레벨에 대응하는 규칙을 만족하는 경우에는, 상기 사용자 음성의 응답 레벨을 상기 제 1 응답 레벨로 판단하는 인스트럭션을 저장할 수 있다. 제 1 응답 레벨에 대응하는 규칙은, 전자 장치의 제어를 지시하는 제어 키워드, 동작을 수행하는 전자 장치를 지시하는 키워드, 동작을 수행하는 장소를 지시하는 키워드 또는 동작을 수행할 시간을 지시하는 키워드 중 적어도 하나를 검출하는 것을 포함할 수 있다.
본 발명의 다양한 실시예에서, 상기 메모리(130)는, 실행시에 상기 프로세서(120)가, 상기 텍스트에 포함된 키워드가 제 2 응답 레벨에 대응하는 규칙을 만족하는 경우에는, 상기 사용자 음성의 응답 레벨을 상기 제 2 응답 레벨로 판단하는 인스트럭션을 저장할 수 있다. 상기 제 2 응답 레벨에 대응하는 규칙은, 대응하는 키워드 데이터베이스는, 사용자의 감정 또는 상태를 지시하는 키워드, 환경의 상태를 지시하는 키워드, 상기 전자 장치의 히스토리를 지시하는 키워드, 동작을 수행하는 전자 장치의 동작의 컨텐츠를 지시하는 키워드 또는 동작을 수행하는 전자 장치의 작동 상태를 지시하는 키워드 중 적어도 하나를 검출하는 것을 포함할 수 있다.
본 발명의 다양한 실시예에서, 상기 규칙은, 명령의 의도를 파악하기 위한 정확도와 관련된 추상화 레벨에 따라 계층이 분류되고, 포함하는 키워드의 계층 또는 포함하는 키워드 사이의 연관 정보를 포함하는 온톨로지(ontology)를 포함할 수 있다.
본 발명의 다양한 실시예에서, 상기 메모리(130)는, 실행시에 상기 프로세서(120)가, 상기 텍스트에 포함된 키워드를 상기 온톨로지와 비교하고, 기 지정된 규칙을 만족하는지 여부에 따라 상기 텍스트에 포함된 키워드 각각에 스코어를 부여하고, 상기 부여된 스코어의 합계를 기설정된 임계치와 비교하여 상기 사용자 음성의 응답 레벨을 판단하는 인스트럭션을 저장할 수 있다.
본 발명의 다양한 실시예에서, 상기 메모리(130)는, 실행시에 상기 프로세서(120)가, 상기 부여된 스코어의 합계가 제 1 임계치를 초과하면, 상기 사용자 음성의 응답 레벨을 상기 제 1 응답 레벨로 판단하고, 상기 부여된 스코어의 합계가 제 2 임계치를 초과하고 상기 제 1 임계치 이하이면, 상기 사용자 음성의 응답 레벨을 상기 제 2 응답 레벨로 판단하는 인스트럭션을 저장할 수 있다.
본 발명의 다양한 실시예에서, 상기 메모리(130)는, 실행시에 상기 프로세서(120)가, 획득된 정보에 기초하여 상기 규칙을 확장하거나 또는 업데이트하는 인스트럭션을 저장할 수 있다.
본 발명의 다양한 실시예에서, 상기 메모리(130)는, 실행시에 상기 프로세서(120)가, 상기 텍스트를 자연어 해석하고, 상기 자연어 해석 결과 동사로 분류된 키워드를 우선적으로 상기 규칙에 만족하는지를 판단하는 인스트럭션을 저장할 수 있다.
본 발명의 다양한 실시예에서, 상기 메모리(130)는, 실행시에 상기 프로세서(120)가, 상기 사용자 음성의 분석 결과를 이용하거나 또는 다른 전자 장치로부터의 추가 정보를 이용하여 사용자 감정을 획득하고, 상기 사용자 감정 및 상기 기 지정된 규칙을 만족하는지 여부를 이용하여 상기 사용자 음성의 응답 레벨을 판단하는 인스트럭션을 저장할 수 있다.
본 발명의 다양한 실시예에서, 상기 메모리(130)는, 실행시에 상기 프로세서(120)가, 상기 사용자 음성의 응답 레벨이 상기 제 2 응답 레벨인 경우에는, 상기 사용자 음성에 대응하는 동작 후보를 판단하는 동작을 저장하는 전자 장치.
본 발명의 다양한 실시예에서, 상기 메모리(130)는, 실행시에 상기 프로세서(120)가, 상기 판단된 동작 후보를 출력하고, 상기 동작 후보 중 어느 하나가 선택되는 상기 추가 이벤트가 검출되면, 선택된 동작을 수행하는 인스트럭션을 저장할 수 있다.
본 발명의 다양한 실시예에서, 상기 메모리(130)는, 실행시에 상기 프로세서(120)가, 다른 추가 이벤트가 검출되면, 상기 판단된 동작 후보를 출력하는 인스트럭션을 저장할 수 있다.
본 발명의 다양한 실시예에서, 상기 메모리는, 명령의 의도를 파악하기 위한 정확도와 관련된 추상화 레벨에 따라 계층이 분류되고, 포함하는 키워드의 계층 또는 포함하는 키워드 사이의 연관 정보를 포함하는 온톨로지(ontology)를 저장하고, 상기 메모리(130)는, 실행시에 상기 프로세서(120)가, 상기 메모리는, 실행시에 상기 프로세서가, 상기 사용자 음성을 인식한 텍스트를 획득하고, 상기 텍스트에 포함된 키워드와 상기 온톨로지 상에서 연관된 키워드를 조합하여 상기 동작 후보를 판단하는 인스트럭션을 저장할 수 있다.
본 발명의 다양한 실시예에서, 상기 메모리(130)는, 실행시에 상기 프로세서(120)가, 상기 사용자 음성에 대응하는 사용자 식별 정보를 획득하고, 상기 사용자 음성의 응답 레벨이 상기 제 2 응답 레벨인 경우, 상기 추가 이벤트에 대응하는 사용자가 상기 사용자 음성에 대응하는 사용자 식별 정보와 동일한지 여부에 따라 상기 사용자 음성에 대응하는 동작을 수행하는 인스트럭션을 저장할 수 있다.
본 발명의 다양한 실시예에서, 상기 메모리(130)는, 실행시에 상기 프로세서(120)가, 상기 사용자 음성이 획득된 제 1 시점을 판단하고, 상기 사용자 음성의 응답 레벨이 상기 제 2 응답 레벨인 경우, 상기 추가 이벤트가 검출된 제 2 시점과 상기 제 1 시점 사이의 차이가 기설정된 임계치 미만인지 여부에 따라 상기 사용자 음성에 대응하는 동작을 수행하는 인스트럭션을 저장할 수 있다.
본 발명의 다양한 실시예에서, 상기 메모리(130)는, 실행시에 상기 프로세서(120)가, 다른 사용자 음성을 획득하고, 상기 다른 사용자 음성의 응답 레벨과 상기 사용자 음성의 응답 레벨을 비교하여, 상기 다른 사용자 음성에 대응하는 동작 또는 상기 사용자 음성에 대응하는 동작 중 하나를 수행하는 인스트럭션을 저장할 수 있다.
본 발명의 다양한 실시예에서, 상기 메모리(130)는, 실행시에 상기 프로세서(120)가, 상기 사용자 음성에 대응하는 제 1 사용자와 상기 다른 사용자 음성에 대응하는 제 2 사용자 사이의 관계 정보를 이용하여, 상기 다른 사용자 음성에 대응하는 동작 또는 상기 사용자 음성에 대응하는 동작 중 하나를 수행하는 인스트럭션을 저장할 수 있다.
본 발명의 다양한 실시예에서, 상기 메모리(130)는, 실행시에 상기 프로세서(120)가, 상기 동작을 수행하기 위한 제어 신호를 상기 제 1 응답 레벨 및 상기 제 2 응답 레벨별로 상이한 하드웨어로 출력하는 인스트럭션을 저장할 수 있다.
본 발명의 다양한 실시예에서, 상기 메모리(130)는, 실행시에 상기 프로세서(120)가, 상기 사용자 음성의 응답 레벨이 제 3 응답 레벨인 경우에는, 상기 사용자 음성을 무시하는 인스트럭션을 저장할 수 있다.
본 발명의 다양한 실시예에서, 상기 메모리(130)는, 실행시에 상기 프로세서(120)가, 제 1 동작을 실행하도록 설정된 제 1 이벤트를 검출하고, 상기 제 1 동작의 수행에 대한 제한 조건이 만족되는지 여부를 판단하고, 상기 제 1 동작의 수행에 대한 제한 조건이 만족되지 않으면, 상기 제 1 동작을 상기 제 1 이벤트 검출 시점에 대응하여 수행하고, 상기 제 1 동작의 수행에 대한 제한 조건이 만족되면, 상기 제 1 동작을 상기 제 1 이벤트와 상이한 제 2 이벤트 검출 시점에 대응하여 수행하는 인스트럭션을 저장할 수 있다.
본 발명의 다양한 실시예에서, 상기 메모리(130)는, 실행시에 상기 프로세서(120)가, 사용자 모션을 획득하고, 상기 사용자 모션의 응답 레벨이 제 1 응답 레벨인 경우에는, 상기 사용자 모션에 대응하는 동작을 상기 사용자 음성의 획득 시점에 대응하여 수행하고, 상기 사용자 모션의 응답 레벨이 제 2 응답 레벨인 경우에는, 상기 사용자 모션에 대응하는 동작을 추가 이벤트가 검출된 시점에 대응하여 수행하는 인스트럭션을 저장할 수 있다.
도 2a는 다양한 실시예에 따른 전자 장치(201)의 블록도이다. 전자 장치(201)는, 예를 들면, 도 1에 도시된 전자 장치(101)의 전체 또는 일부를 포함할 수 있다. 전자 장치(201)는 하나 이상의 프로세서(예: AP(application processor))(210), 통신 모듈(220), (가입자 식별 모듈(224), 메모리(230), 센서 모듈(240), 입력 장치(250), 디스플레이(260), 인터페이스(270), 오디오 모듈(280), 카메라 모듈(291), 전력 관리 모듈(295), 배터리(296), 인디케이터(297), 및 모터(298) 를 포함할 수 있다.
프로세서(210)는, 예를 들면, 운영 체제 또는 응용 프로그램을 구동하여 프로세서(210)에 연결된 다수의 하드웨어 또는 소프트웨어 구성요소들을 제어할 수 있고, 각종 데이터 처리 및 연산을 수행할 수 있다. 프로세서(210)는, 예를 들면, SoC(system on chip) 로 구현될 수 있다. 한 실시예에 따르면, 프로세서(210)는 GPU(graphic processing unit) 및/또는 이미지 신호 프로세서(image signal processor)를 더 포함할 수 있다. 프로세서(210)는 도 2a에 도시된 구성요소들 중 적어도 일부(예: 셀룰러 모듈(221))를 포함할 수도 있다. 프로세서(210) 는 다른 구성요소들(예: 비휘발성 메모리) 중 적어도 하나로부터 수신된 명령 또는 데이터를 휘발성 메모리에 로드(load)하여 처리하고, 다양한 데이터를 비휘발성 메모리에 저장(store)할 수 있다.
통신 모듈(220)은, 도 1의 통신 인터페이스(170)와 동일 또는 유사한 구성을 가질 수 있다. 통신 모듈(220)은, 예를 들면, 셀룰러 모듈(221), WiFi 모듈(223), 블루투스 모듈(225), GNSS 모듈(227)(예: GPS 모듈, Glonass 모듈, Beidou 모듈, 또는 Galileo 모듈), NFC 모듈(228) 및 RF(radio frequency) 모듈(229)를 포함할 수 있다.
셀룰러 모듈(221)은, 예를 들면, 통신망을 통해서 음성 통화, 영상 통화, 문자 서비스, 또는 인터넷 서비스 등을 제공할 수 있다. 한 실시예에 따르면, 셀룰러 모듈(221)은 가입자 식별 모듈(예: SIM 카드)(224)을 이용하여 통신 네트워크 내에서 전자 장치(201)의 구별 및 인증을 수행할 수 있다. 한 실시예에 따르면, 셀룰러 모듈(221)은 프로세서(210)가 제공할 수 있는 기능 중 적어도 일부 기능을 수행할 수 있다. 한 실시예에 따르면, 셀룰러 모듈(221)은 커뮤니케이션 프로세서(CP: communication processor)를 포함할 수 있다.
WiFi 모듈(223), 블루투스 모듈(225), GNSS 모듈(227) 또는 NFC 모듈(228) 각각은, 예를 들면, 해당하는 모듈을 통해서 송수신되는 데이터를 처리하기 위한 프로세서를 포함할 수 있다. 어떤 실시예에 따르면, 셀룰러 모듈(221), WiFi 모듈(223), 블루투스 모듈(225), GNSS 모듈(227) 또는 NFC 모듈(228) 중 적어도 일부(예: 두 개 이상)는 하나의 integrated chip(IC) 또는 IC 패키지 내에 포함될 수 있다.
RF 모듈(229)은, 예를 들면, 통신 신호(예: RF 신호)를 송수신할 수 있다. RF 모듈(229)은, 예를 들면, 트랜시버(transceiver), PAM(power amp module), 주파수 필터(frequency filter), LNA(low noise amplifier), 또는 안테나 등을 포함할 수 있다. 다른 실시예에 따르면, 셀룰러 모듈(221), WiFi 모듈(223), 블루투스 모듈(225), GNSS 모듈(227) 또는 NFC 모듈(228) 중 적어도 하나는 별개의 RF 모듈을 통하여 RF 신호를 송수신할 수 있다.
가입자 식별 모듈(224)은, 예를 들면, 가입자 식별 모듈을 포함하는 카드 및/또는 내장 SIM(embedded SIM)을 포함할 수 있으며, 고유한 식별 정보(예: ICCID(integrated circuit card identifier)) 또는 가입자 정보(예: IMSI(international mobile subscriber identity))를 포함할 수 있다.
메모리(230)(예: 메모리(130))는, 예를 들면, 내장 메모리(232) 또는 외장 메모리(234)를 포함할 수 있다. 내장 메모리(232)는, 예를 들면, 휘발성 메모리(예: DRAM(dynamic RAM), SRAM(static RAM), 또는 SDRAM(synchronous dynamic RAM) 등), 비휘발성 메모리(non-volatile Memory)(예: OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, 플래시 메모리(예: NAND flash 또는 NOR flash 등), 하드 드라이브, 또는 솔리드 스테이트 드라이브(solid state drive(SSD)) 중 적어도 하나를 포함할 수 있다.
외장 메모리(234)는 플래시 드라이브(flash drive), 예를 들면, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital), MMC(multi-media card) 또는 메모리 스틱(memory stick) 등을 더 포함할 수 있다. 외장 메모리(234)는 다양한 인터페이스를 통하여 전자 장치(201)와 기능적으로 및/또는 물리적으로 연결될 수 있다.
센서 모듈(240)은, 예를 들면, 물리량을 계측하거나 전자 장치(201)의 작동 상태를 감지하여, 계측 또는 감지된 정보를 전기 신호로 변환할 수 있다. 센서 모듈(240)은, 예를 들면, 제스처 센서(240A), 자이로 센서(240B), 기압 센서(240C), 마그네틱 센서(240D), 가속도 센서(240E), 그립 센서(240F), 근접 센서(240G), 컬러(color) 센서(240H)(예: RGB(red, green, blue) 센서), 생체 센서(240I), 온/습도 센서(240J), 조도 센서(240K), 또는 UV(ultra violet) 센서(240M) 중의 적어도 하나를 포함할 수 있다. 추가적으로 또는 대체적으로(additionally or alternatively), 센서 모듈(240)은, 예를 들면, 후각 센서(E-nose sensor), EMG 센서(electromyography sensor), EEG 센서(electroencephalogram sensor), ECG 센서(electrocardiogram sensor), IR(infrared) 센서, 홍채 센서 및/또는 지문 센서를 포함할 수 있다. 센서 모듈(240)은 그 안에 속한 적어도 하나 이상의 센서들을 제어하기 위한 제어 회로를 더 포함할 수 있다. 어떤 실시예에서는, 전자 장치(201)는 프로세서(210)의 일부로서 또는 별도로, 센서 모듈(240)을 제어하도록 구성된 프로세서를 더 포함하여, 프로세서(210)가 슬립(sleep) 상태에 있는 동안, 센서 모듈(240)을 제어할 수 있다.
입력 장치(250)는, 예를 들면, 터치 패널(touch panel)(252),(디지털) 펜 센서(pen sensor)(254), 키(key)(256), 또는 초음파(ultrasonic) 입력 장치(258)를 포함할 수 있다. 터치 패널(252)은, 예를 들면, 정전식, 감압식, 적외선 방식, 또는 초음파 방식 중 적어도 하나의 방식을 사용할 수 있다. 또한, 터치 패널(252)은 제어 회로를 더 포함할 수도 있다. 터치 패널(252)은 택타일 레이어(tactile layer)를 더 포함하여, 사용자에게 촉각 반응을 제공할 수 있다.
(디지털) 펜 센서(254)는, 예를 들면, 터치 패널의 일부이거나, 별도의 인식용 쉬트(sheet)를 포함할 수 있다. 키(256)는, 예를 들면, 물리적인 버튼, 광학식 키, 또는 키패드를 포함할 수 있다. 초음파 입력 장치(258)는 마이크(예: 마이크(288))를 통해, 입력 도구에서 발생된 초음파를 감지하여, 상기 감지된 초음파에 대응하는 데이터를 확인할 수 있다.
디스플레이(260)(예: 디스플레이(160))는 패널(262), 홀로그램 장치(264), 또는 프로젝터(266)를 포함할 수 있다. 패널(262)은, 도 1의 디스플레이(160)와 동일 또는 유사한 구성을 포함할 수 있다. 패널(262)은, 예를 들면, 유연하게(flexible), 투명하게(transparent), 또는 착용할 수 있게(wearable) 구현될 수 있다. 패널(262)은 터치 패널(252)과 하나의 모듈로 구성될 수도 있다. 홀로그램 장치(264)는 빛의 간섭을 이용하여 입체 영상을 허공에 보여줄 수 있다. 프로젝터(266)는 스크린에 빛을 투사하여 영상을 표시할 수 있다. 스크린은, 예를 들면, 전자 장치(201)의 내부 또는 외부에 위치할 수 있다. 한 실시예에 따르면, 디스플레이(260)는 패널(262), 홀로그램 장치(264), 또는 프로젝터(266)를 제어하기 위한 제어 회로를 더 포함할 수 있다.
인터페이스(270)는, 예를 들면, HDMI(high-definition multimedia interface)(272), USB(universal serial bus)(274), 광 인터페이스(optical interface)(276), 또는 D-sub(D-subminiature)(278)를 포함할 수 있다. 인터페이스(270)는, 예를 들면, 도 1에 도시된 통신 인터페이스(170)에 포함될 수 있다. 추가적으로 또는 대체적으로(additionally and alternatively), 인터페이스(270)는, 예를 들면, MHL(mobile high-definition link) 인터페이스, SD(secure digital) 카드/MMC(multi-media card) 인터페이스, 또는 IrDA(infrared data association) 규격 인터페이스를 포함할 수 있다.
오디오 모듈(280)은, 예를 들면, 소리(sound)와 전기 신호를 쌍방향으로 변환시킬 수 있다. 오디오 모듈(280)의 적어도 일부 구성요소는, 예를 들면, 도 1 에 도시된 입출력 인터페이스(150)에 포함될 수 있다. 오디오 모듈(280)은, 예를 들면, 스피커(282), 리시버(284), 이어폰(286), 또는 마이크(288) 등을 통해 입력 또는 출력되는 소리 정보를 처리할 수 있다.
카메라 모듈(291)은, 예를 들면, 정지 영상 및 동영상을 촬영할 수 있는 장치로서, 한 실시예에 따르면, 하나 이상의 이미지 센서(예: 전면 센서 또는 후면 센서), 렌즈, ISP(image signal processor), 또는 플래시(flash)(예: LED 또는 xenon lamp 등)를 포함할 수 있다.
전력 관리 모듈(295)은, 예를 들면, 전자 장치(201)의 전력을 관리할 수 있다. 한 실시예에 따르면, 전력 관리 모듈(295)은 PMIC(power management integrated circuit), 충전 IC(charger integrated circuit), 또는 배터리 또는 연료 게이지(battery or fuel gauge)를 포함할 수 있다. PMIC는, 유선 및/또는 무선 충전 방식을 가질 수 있다. 무선 충전 방식은, 예를 들면, 자기공명 방식, 자기유도 방식 또는 전자기파 방식 등을 포함하며, 무선 충전을 위한 부가적인 회로, 예를 들면, 코일 루프, 공진 회로, 또는 정류기 등을 더 포함할 수 있다. 배터리 게이지는, 예를 들면, 배터리(296)의 잔량, 충전 중 전압, 전류, 또는 온도를 측정할 수 있다. 배터리(296)는, 예를 들면, 충전식 전지(rechargeable battery) 및/또는 태양 전지(solar battery)를 포함할 수 있다.
인디케이터(297)는 전자 장치(201) 또는 그 일부(예: 프로세서(210))의 특정 상태, 예를 들면, 부팅 상태, 메시지 상태 또는 충전 상태 등을 표시할 수 있다. 모터(298)는 전기적 신호를 기계적 진동으로 변환할 수 있고, 진동(vibration), 또는 햅틱(haptic) 효과 등을 발생시킬 수 있다. 도시되지는 않았으나, 전자 장치(201)는 모바일 TV 지원을 위한 처리 장치(예: GPU)를 포함할 수 있다. 모바일 TV 지원을 위한 처리 장치는, 예를 들면, DMB(digital multimedia broadcasting), DVB(digital video broadcasting), 또는 미디어플로(mediaFloTM) 등의 규격에 따른 미디어 데이터를 처리할 수 있다.
본 문서에서 기술된 구성요소들 각각은 하나 또는 그 이상의 부품(component)으로 구성될 수 있으며, 해당 구성요소의 명칭은 전자 장치의 종류에 따라서 달라질 수 있다. 다양한 실시예에서, 전자 장치는 본 문서에서 기술된 구성요소 중 적어도 하나를 포함하여 구성될 수 있으며, 일부 구성요소가 생략되거나 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 또한, 다양한 실시예에 따른 전자 장치의 구성요소들 중 일부가 결합되어 하나의 개체(entity)로 구성됨으로써, 결합되기 이전의 해당 구성요소들의 기능을 동일하게 수행할 수 있다.
도 2b는 본 발명의 다양한 실시예에 따른 전자 장치의 블록도를 도시한다. 도 2b에 도시된 바와 같이, 프로세서(210)는 영상인식 모듈(241)과 연결될 수 있다. 아울러, 프로세서는 행동 모듈(244)과 연결될 수 있다. 영상인식 모듈(241)은 2차원 카메라(242) 및 뎁스 카메라(243) 중 적어도 하나를 포함할 수 있다. 영상 인식 모듈(241)은 촬영 결과를 기초로 인식을 수행할 수 있으며, 인식 결과를 프로세서(210)에게 전달할 수 있다. 행동 모듈(244)는 얼굴 표정 모터(245), 바디 포즈 모터(245) 및 이동 모터(247) 중 적어도 하나를 포함할 수 있다. 프로세서(210)는 얼굴 표정 모터(245), 바디 포즈 모터(246) 및 이동 모터(247) 중 적어도 하나를 제어하여, 로봇 형태로 구현된 전자 장치(101)의 움직임을 제어할 수 있다. 전자 장치(101)는 도 2a의 구성 요소에 추가적으로 도 2b의 구성 요소를 포함할 수도 있다.
도 3은 다양한 실시예에 따른 프로그램 모듈의 블록도이다. 한 실시예에 따르면, 프로그램 모듈(310)(예: 프로그램(140))은 전자 장치(예: 전자 장치(101))에 관련된 자원을 제어하는 운영 체제(operating system(OS)) 및/또는 운영 체제 상에서 구동되는 다양한 어플리케이션(예: 어플리케이션 프로그램(147))을 포함할 수 있다. 운영 체제는, 예를 들면, 안드로이드(android), iOS, 윈도우즈(windows), 심비안(symbian), 타이젠(tizen), 또는 바다(bada) 등이 될 수 있다.
프로그램 모듈(310)은 커널(320), 미들웨어(330), 어플리케이션 프로그래밍 인터페이스(application programming interface (API))(360), 및/또는 어플리케이션(370)을 포함할 수 있다. 프로그램 모듈(310)의 적어도 일부는 전자 장치 상에 프리로드(preload) 되거나, 외부 전자 장치(예: 전자 장치(102, 104), 서버(106) 등)로부터 다운로드(download) 가능하다.
커널(320)(예: 커널(141))은, 예를 들면, 시스템 리소스 매니저(321) 및/또는 디바이스 드라이버(323)를 포함할 수 있다. 시스템 리소스 매니저(321)는 시스템 리소스의 제어, 할당, 또는 회수 등을 수행할 수 있다. 한 실시예에 따르면, 시스템 리소스 매니저(321)는 프로세스 관리부, 메모리 관리부, 또는 파일 시스템 관리부 등을 포함할 수 있다. 디바이스 드라이버(323)는, 예를 들면, 디스플레이 드라이버, 카메라 드라이버, 블루투스 드라이버, 공유 메모리 드라이버, USB 드라이버, 키패드 드라이버, WiFi 드라이버, 오디오 드라이버, 또는 IPC(inter-process communication) 드라이버를 포함할 수 있다.
미들웨어(330)는, 예를 들면, 어플리케이션(370)이 공통적으로 필요로 하는 기능을 제공하거나, 어플리케이션(370)이 전자 장치 내부의 제한된 시스템 자원을 효율적으로 사용할 수 있도록 API(360)를 통해 다양한 기능들을 어플리케이션(370)으로 제공할 수 있다. 한 실시예에 따르면, 미들웨어(330)(예: 미들웨어(143))는 런타임 라이브러리(335), 어플리케이션 매니저(application manager)(341), 윈도우 매니저(window manager)(342), 멀티미디어 매니저(multimedia manager)(343), 리소스 매니저(resource manager)(344), 파워 매니저(power manager)(345), 데이터베이스 매니저(database manager)(346), 패키지 매니저(package manager)(347), 연결 매니저(connectivity manager)(348), 통지 매니저(notification manager)(349), 위치 매니저(location manager)(350), 그래픽 매니저(graphic manager)(351), 또는 보안 매니저(security manager)(352) 중 적어도 하나를 포함할 수 있다.
런타임 라이브러리(335)는, 예를 들면, 어플리케이션(370)이 실행되는 동안에 프로그래밍 언어를 통해 새로운 기능을 추가하기 위해 컴파일러가 사용하는 라이브러리 모듈을 포함할 수 있다. 런타임 라이브러리(335)는 입출력 관리, 메모리 관리, 또는 산술 함수에 대한 기능 등을 수행할 수 있다.
어플리케이션 매니저(341)는, 예를 들면, 어플리케이션(370) 중 적어도 하나의 어플리케이션의 생명 주기(life cycle)를 관리할 수 있다. 윈도우 매니저(342)는 화면에서 사용하는 GUI 자원을 관리할 수 있다. 멀티미디어 매니저(343)는 다양한 미디어 파일들의 재생에 필요한 포맷을 파악하고, 해당 포맷에 맞는 코덱(codec)을 이용하여 미디어 파일의 인코딩(encoding) 또는 디코딩(decoding)을 수행할 수 있다. 리소스 매니저(344)는 어플리케이션(370) 중 적어도 어느 하나의 어플리케이션의 소스 코드, 메모리 또는 저장 공간 등의 자원을 관리할 수 있다.
파워 매니저(345)는, 예를 들면, 바이오스(BIOS: basic input/output system) 등과 함께 동작하여 배터리(battery) 또는 전원을 관리하고, 전자 장치의 동작에 필요한 전력 정보 등을 제공할 수 있다. 데이터베이스 매니저(346)는 어플리케이션(370) 중 적어도 하나의 어플리케이션에서 사용할 데이터베이스를 생성, 검색, 또는 변경할 수 있다. 패키지 매니저(347)는 패키지 파일의 형태로 배포되는 어플리케이션의 설치 또는 업데이트를 관리할 수 있다.
연결 매니저(348)는, 예를 들면, WiFi 또는 블루투스 등의 무선 연결을 관리할 수 있다. 통지 매니저(349)는 도착 메시지, 약속, 근접성 알림 등의 사건(event)을 사용자에게 방해되지 않는 방식으로 표시 또는 통지할 수 있다. 위치 매니저(350)는 전자 장치의 위치 정보를 관리할 수 있다. 그래픽 매니저(351)는 사용자에게 제공될 그래픽 효과 또는 이와 관련된 사용자 인터페이스를 관리할 수 있다. 보안 매니저(352)는 시스템 보안 또는 사용자 인증 등에 필요한 제반 보안 기능을 제공할 수 있다. 한 실시예에 따르면, 전자 장치(예: 전자 장치(101))가 전화 기능을 포함한 경우, 미들웨어(330)는 전자 장치의 음성 또는 영상 통화 기능을 관리하기 위한 통화 매니저(telephony manager)를 더 포함할 수 있다.
미들웨어(330)는 전술한 구성요소들의 다양한 기능의 조합을 형성하는 미들웨어 모듈을 포함할 수 있다. 미들웨어(330)는 차별화된 기능을 제공하기 위해 운영 체제의 종류 별로 특화된 모듈을 제공할 수 있다. 또한, 미들웨어(330)는 동적으로 기존의 구성요소를 일부 삭제하거나 새로운 구성요소들을 추가할 수 있다.
API(360)(예: API(145))는, 예를 들면, API 프로그래밍 함수들의 집합으로, 운영 체제에 따라 다른 구성으로 제공될 수 있다. 예를 들면, 안드로이드 또는 iOS의 경우, 플랫폼 별로 하나의 API 셋을 제공할 수 있으며, 타이젠(tizen)의 경우, 플랫폼 별로 두 개 이상의 API 셋을 제공할 수 있다.
어플리케이션(370)(예: 어플리케이션 프로그램(147))은, 예를 들면, 홈(371), 다이얼러(372), SMS/MMS(373), IM(instant message)(374), 브라우저(375), 카메라(376), 알람(377), 컨택트(378), 음성 다이얼(379), 이메일(380), 달력(381), 미디어 플레이어(382), 앨범(383), 또는 시계(384), 건강 관리(health care)(예: 운동량 또는 혈당 등을 측정), 또는 환경 정보 제공(예: 기압, 습도, 또는 온도 정보 등을 제공) 등의 기능을 수행할 수 있는 하나 이상의 어플리케이션을 포함할 수 있다.
한 실시예에 따르면, 어플리케이션(370)은 전자 장치(예: 전자 장치(101))와 외부 전자 장치(예: 전자 장치(102, 104)) 사이의 정보 교환을 지원하는 어플리케이션(이하, 설명의 편의 상, "정보 교환 어플리케이션")을 포함할 수 있다. 정보 교환 어플리케이션은, 예를 들면, 외부 전자 장치에 특정 정보를 전달하기 위한 알림 전달(notification relay) 어플리케이션, 또는 외부 전자 장치를 관리하기 위한 장치 관리(device management) 어플리케이션을 포함할 수 있다.
예를 들면, 알림 전달 어플리케이션은 전자 장치의 다른 어플리케이션(예: SMS/MMS 어플리케이션, 이메일 어플리케이션, 건강 관리 어플리케이션, 또는 환경 정보 어플리케이션 등)에서 발생된 알림 정보를 외부 전자 장치(예: 전자 장치(102, 104))로 전달하는 기능을 포함할 수 있다. 또한, 알림 전달 어플리케이션은, 예를 들면, 외부 전자 장치로부터 알림 정보를 수신하여 사용자에게 제공할 수 있다.
장치 관리 어플리케이션은, 예를 들면, 전자 장치와 통신하는 외부 전자 장치(예: 전자 장치(102, 104))의 적어도 하나의 기능(예: 외부 전자 장치 자체(또는, 일부 구성 부품)의 턴-온/턴-오프 또는 디스플레이의 밝기(또는, 해상도) 조절), 외부 전자 장치에서 동작하는 어플리케이션 또는 외부 전자 장치에서 제공되는 서비스(예: 통화 서비스 또는 메시지 서비스 등)를 관리(예: 설치, 삭제, 또는 업데이트)할 수 있다.
한 실시예에 따르면, 어플리케이션(370)은 외부 전자 장치(예: 전자 장치(102, 104))의 속성(에 따라 지정된 어플리케이션(예: 모바일 의료 기기의 건강 관리 어플리케이션 등)을 포함할 수 있다. 한 실시예에 따르면, 어플리케이션(370)은 외부 전자 장치(예: 서버(106) 또는 전자 장치(102, 104))로부터 수신된 어플리케이션을 포함할 수 있다. 한 실시예에 따르면, 어플리케이션(370)은 프리로드 어플리케이션(preloaded application) 또는 서버로부터 다운로드 가능한 제3자 어플리케이션(third party application)을 포함할 수 있다. 도시된 실시예에 따른 프로그램 모듈(310)의 구성요소들의 명칭은 운영 체제의 종류에 따라서 달라질 수 있다.
도 4는 본 발명의 다양한 실시예에 따른 전자 장치가 이용하는 소프트웨어를 설명하기 위한 블록도를 도시한다.
운영체제(410)는 전자 장치(101)의 리소스 분배 및 잡스케쥴링 프로세스 처리 등 일반적인 운영체제의 역할을 함과 동시에 다양한 하드웨어 장치(402,403,404,405,406)들을 제어하고 하드웨어 장치(402,403,404,405,406)에서 입력된 신호들을 처리할 수 있다.
미들웨어(430)는 신호 처리된 데이터를 이용하여, 사용자의 3D 제스처 인식 (431), 사용자의 얼굴 위치를 검출하고 추적하거나 얼굴 인식을 통한 인증을 수행(432), 센서 정보 처리(433), 대화 엔진 구동(434), 음성 합성(435), 오디오 신호에 대한 입력 위치 추적(DOA, Direct of Arrival)(436), 음성 인식(437)를 수행할 수 있다.
지능 프레임 워크(450)는 멀티모달 융합 블록(451), 사용자 패턴학습 블록(452), 행동제어블록(453)을 포함할 수 있다. 멀티모달 융합 블록(451)은 미들웨어(430)에서 처리된 각종 정보를 취합하고 관리할 수 있다. 사용자 패턴 학습 블록(452)은 멀티 모달 융합 모듈 정보를 이용하여 사용자의 생활 패턴, 선호도 등의 유의미한 정보를 추출하고 학습할 수 있다. 행동제어블록(453)은 전자장치(101)가 사용자에게 피드백할 정보를 전자장치의 움직임(movement), 그래픽(graphics), 빛(Lighting), 음성, 응답, 소리(speech,audio) 등으로 표현할 수 있다. 모터(460)는 움직임을 표현하며, 디스플레이(470)는 그래픽, 빛을 표현하며, 스피커(480)는 음성, 응답, 소리를 표현할 수 있다.
데이터베이스(420)는 지능 프레임 워크(450)에서 학습한 정보를 사용자에 따라 저장할 수 있다. 데이터베이스(420)는 사용자 모델 데이터베이스와 전자 장치의 행동제어를 위한 모션 데이터 데이터베이스 및 기타 정보를 저장하는 저장소로 구성될 수 있다. 데이터베이스(420)내의 정보들은 다른 전자 장치(401)와 공유될 수 있다.
도 5는 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도를 도시한다.
510 동작에서, 전자 장치(101)는 사용자 음성을 획득할 수 있다. 본 발명의 다양한 실시예에서, 전자 장치(101)는 포함하고 있는 마이크를 통하여 사용자 음성을 획득할 수 있다. 마이크는 입력된 외부 음성을 전기적인 신호로 변환하여 변환된 전기적인 신호로 출력할 수 있는 전자 장치일 수 있으며, 그 구현 형태에는 제한이 없다. 이 경우, 전자 장치(101)는 사용자 음성을 획득 및 처리할 수 있으며, 이에 대응하는 동작을 수행할 수 있는 독립적인 전자 장치의 형태로 구현될 수 있다. 또 다른 실시예에서, 전자 장치(101)는 마이크를 포함한 다른 전자 장치로부터 사용자 음성을 획득할 수도 있다. 마이크를 포함한 다른 전자 장치는 외부 음성을 획득할 수 있으며, 획득된 음성을 전기적인 신호로 변환하여 변환된 전기적인 신호를 전자 장치(101)로 송신할 수 있다. 이 경우, 전자 장치(101)는 다른 전자 장치로부터 수신된 전기적인 신호를 이용하여, 사용자의 음성에 대응하는 명령을 수행할 수 있으며, 예를 들어 IoT(internet of things) 환경을 구성하는 전자 장치로 구현될 수도 있다. 또는, 전자 장치(101)는 다른 전자 장치로부터 수신된 전기적인 신호를 이용하여, 사용자의 음성에 대응하는 명령을 또 다른 전자 장치로 송신할 수도 있다. 이 경우, 전자 장치(101)는 IoT 또는 네트워크(network)를 관장하는 서버의 형태로 구현될 수도 있다.
520 동작에서, 전자 장치(101)는 획득된 사용자 음성을 분석하고, 분석 결과를 이용하여 응답 레벨(response level)을 판단할 수 있다. 본 발명의 다양한 실시예에서, 전자 장치(101)는 사용자 음성에 다양한 음성 인식 알고리즘을 적용할 수 있다. 음성 인식 알고리즘은, 입력값인 음성을 처리하여 음성에 대응하는 텍스트(text)의 출력값을 출력할 수 있는 알고리즘일 수 있으며, 그 종류에는 제한이 없다.
전자 장치(101)는 음성 인식 알고리즘의 출력값인 텍스트를 분석하여, 사용자 음성에 대응하는 응답 레벨을 판단할 수 있다. 여기에서, 응답 레벨은 사용자 응답에 대응하는 명령을 수행하는 시점에 대한 것일 수 있다. 본 발명의 다양한 실시예에서, 전자 장치(101)가 제 1 사용자 음성의 응답 레벨을 제 1 응답 레벨로 판단한 경우에는, 제 1 사용자 음성에 대응하는 제 1 동작을 제 1 사용자 음성의 획득 시점에 대응하여 처리할 수 있다. 전자 장치(101)가 제 2 사용자 음성의 응답 레벨을 제 2 응답 레벨로 판단한 경우에는, 제 2 사용자 음성에 대응하는 제 2 동작을 제 2 사용자 음성의 획득 시점에 처리하지 않고 유보할 수 있다. 전자 장치(101)는 제 2 사용자 음성과 관련된 추가적인 이벤트를 모니터링할 수 있으며, 제 2 사용자 음성과 관련된 추가적인 이벤트가 검출되면, 이벤트의 검출 시점에 대응하여 제 2 사용자 음성에 대응하는 제 2 동작을 수행할 수 있다. 또는, 전자 장치(101)는 제 2 사용자 음성과 관련된 문의 피드백을 제공할 수 있으며, 사용자로부터 문의 피드백에 대한 응답이 검출되면, 사용자의 응답이 검출된 시점에 대응하여 제 2 동작을 수행할 수도 있다. 전자 장치(101)가 제 3 사용자 음성의 응답 레벨을 제 3 응답 레벨로 판단한 경우에는, 전자 장치(101)는 제 3 사용자 음성의 응답 레벨을 무시할 수 있다. 상술한 바에서는, 전자 장치(101)가 3개의 응답 레벨을 설정한 경우에 대하여 설명하였지만, 이는 단순히 예시적인 것이다. 전자 장치(101)가 응답 시점, 즉 명령 수행 시점을 차등적으로 설정한 것이라면, 응답 레벨의 구현 예는 제한이 없음을 당업자는 용이하게 이해할 수 있을 것이다. 전자 장치(101)는 텍스트 내에 특정한 단어가 포함되는지 여부에 따라 응답 레벨을 결정할 수 있다. 또는, 전자 장치(101)는 텍스트 내의 단어 각각에 대한 스코어를 부여하고, 스코어의 합산 결과 등에 기초하여 응답 레벨을 결정할 수도 있다. 전자 장치(101)가 응답 레벨을 결정하는 과정에 대하여서는 더욱 상세하게 후술하도록 한다.
530 동작에서, 전자 장치(101)는 판단된 응답 레벨 별로 설정된 동작을 수행할 수 있다. 전자 장치(101)는 입력된 사용자 음성과 설정된 동작 사이의 연관 정보를 미리 저장할 수 있다. 예를 들어, 전자 장치(101)는 "turn on the TV"라는 사용자 음성 및 "TV로 턴 온 신호 송신"이라는 동작을 매핑시킨 연관 정보를 미리 저장할 수 있다. 한편, 본 발명의 다양한 실시예에 의한 전자 장치(101)는 연관 정보에 명시적으로 저장되지 않은 사용자 음성 또한 처리할 수 있다. 더욱 상세하게, 전자 장치(101)는 사용자 음성을 인식한 텍스트가 미리 저장된 연관 정보에 등록되지 않음을 확인할 수 있다. 이 경우, 전자 장치(101)는 텍스트의 구성 요소를 미리 저장된 사용자 음성과 비교할 수 있으며, 유사도에 기초하여 사용자 음성에 대응하는 동작을 결정할 수도 있다. 예를 들어, 전자 장치(101)는 사용자 음성의 인식 결과로 "What is on TV?"라는 텍스트를 획득한 경우를 상정하도록 한다. 전자 장치(101)는 텍스트를 구성하는 구성 요소인 "TV"를 포함하는 미리 저장된 사용자 음성인 "turn on the TV"를 확인할 수 있으며, 사용자 음성에 대응하는 동작으로 "TV로 턴 온 신호 송신"을 확인할 수 있다. 또는, 전자 장치(101)는 온톨로지(ontology) 등을 이용하여 사용자 음성에 대응하는 동작을 유추할 수도 있다. 예를 들어, 전자 장치(101)는 사용자 음성의 인식 결과로 "Let's watch movie"라는 텍스트를 획득한 경우를 상정하도록 한다. 전자 장치(101)는 텍스트를 구성하는 구성 요소인 "watch" 및 "movie"와 연관된 단어로 "TV"를 확인할 수 있으며, 이와 연관된 "turn on the TV" 및 TV로 턴 온 신호 송신"의 동작을 확인할 수 있다. 전자 장치(101)는 추가 정보 또는 사용자 피드백을 추가적으로 이용하여 동작을 확인할 수도 있다. 상술한 전자 장치(101)의 동작 결정 과정에 대하여서는 더욱 상세하게 설명하도록 한다.
전자 장치(101)는 동작 레벨별로 설정된 동작을 수행할 수 있다. 상술한 바와 같이, 예를 들어 사용자 음성의 응답 레벨이 제 1 응답 레벨인 경우에는, 전자 장치(101)는 사용자 음성에 대하여 설정된 동작을 수행할 수 있다. 예를 들어 사용자 음성의 응답 레벨이 제 2 응답 레벨인 경우에는, 전자 장치(101)는 추가 이벤트를 모니터링하고, 추가 이벤트가 검출되면 사용자 음성에 대하여 설정된 동작을 수행할 수 있다. 또는, 사용자 음성의 응답 레벨이 제 2 응답 레벨인 경우에는, 전자 장치(101)는 동작 후보 등을 제공하는 피드백을 제공할 수 있으며, 사용자로부터 선택된 동작을 수행할 수도 있다. 예를 들어 사용자 음성의 응답 레벨이 제 3 응답 레벨인 경우에는, 전자 장치(101)는 사용자 음성을 무시할 수 있다.
상술한 바와 같이, 본 발명의 다양한 실시예에 따른 전자 장치(101)는 사용자 음성에 대응하는 응답 레벨별로 설정된 동작을 수행할 수 있어, 사용자 의도에 부합하는 명령 수행 기능을 제공할 수 있다.
도 6은 본 발명의 다양한 실시예에 따른 전자 장치의 동작을 설명하기 위한 흐름도를 도시한다.
610 동작에서, 전자 장치(101)는 사용자 음성을 획득할 수 있다. 상술한 바와 같이, 본 발명의 다양한 실시예에 의한 전자 장치(101)는 마이크를 통하여 사용자 음성을 획득하거나 또는 다른 전자 장치로부터 사용자 음성을 수신할 수 있다.
620 동작에서, 전자 장치(101)는 획득된 사용자 음성을 분석할 수 있다. 전자 장치(101)는 획득된 사용자 음성을 인식하여 텍스트를 획득할 수 있다. 전자 장치(101)는 텍스트에 대응하는 응답 레벨을 확인할 수 있다. 전자 장치(101)는 텍스트 내에 특정한 단어가 포함되는지 여부에 따라 응답 레벨을 결정할 수 있다. 또는, 전자 장치(101)는 텍스트 내의 단어 각각에 대한 스코어를 부여하고, 스코어의 합산 결과 등에 기초하여 응답 레벨을 결정할 수도 있다. 전자 장치(101)가 응답 레벨을 결정하는 과정에 대하여서는 더욱 상세하게 후술하도록 한다.
630 동작에서, 전자 장치(101)는 사용자 음성이 제 1 응답 레벨인지 여부를 판단할 수 있다. 640 동작에서, 전자 장치(101)는 사용자 음성에 대응하는 동작을 수행할 수 있다. 전자 장치(101)는 사용자 음성이 획득된 시점에 대응하여 사용자 음성에 대응하는 동작을 수행할 수 있다. 예를 들어, 전자 장치(101)는 사용자 음성의 획득에 즉각적으로 동작을 수행할 수 있다. 전자 장치(101)는 "turn on the TV"의 사용자 음성을 제 1 응답 레벨로 결정하고, 이에 대응하는 "TV로 턴 온 신호 송신"의 동작을 즉각적으로 수행할 수 있다. 또는, 전자 장치(101)는 "turn on the TV at 6 o'clock"의 사용자 음성을 제 1 응답 레벨로 결정하고, 이에 대응하는 "TV로 턴 온 신호 송신"의 동작을 사용자 음성에 대응하여 6시에 수행할 수도 있다.
650 동작에서, 전자 장치(101)는 사용자 음성이 제 2 응답 레벨인지를 판단할 수 있다. 660 동작에서, 전자 장치(101)는 기설정된 시간 내에 추가 이벤트가 검출되는지 여부를 모니터링할 수 있다. 670 동작에서, 추가 이벤트가 검출되면, 전자 장치(101)는 사용자 음성에 대응하는 동작을 수행할 수 있다. 추가 이벤트의 종류에는 제한이 없으며, 하나의 실시예에서 전자 장치(101)는 동작 후보들을 표시하고, 사용자 선택에 의한 동작을 수행할 수도 있다.
추가 이벤트가 검출되지 않으면, 680 동작에서, 전자 장치(101)는 사용자 음성이 제 3 응답 레벨인 것으로 판단하고, 동작을 수행하지 않을 수 있다. 예를 들어, 전자 장치(101)는 사용자 음성의 응답 레벨을 제 2 응답 레벨로부터 제 3 응답 레벨로 조정할 수 있다. 또는, 전자 장치(101)는 사용자 음성이 제 1 또는 제 2 응답 레벨로 판단되지 않으면, 사용자 음성의 응답 레벨로 제 3 응답 레벨로 결정하고, 680 동작에서 동작을 수행하지 않을 수 있다.
한편, 도 6의 실시예에서는, 응답 레벨의 종류가 3개인 것과 같이 도시되어 있지만, 이는 단순히 예시적인 것으로 본 발명의 다양한 실시예에 의한 전자 장치(101)는 개수의 제한이 없도록 복수 개의 응답 레벨을 설정하고, 각 응답 레벨별로 상이한 동작을 설정할 수 있다.
도 7a 내지 7f는 본 발명의 다양한 실시예에 따른 전자 장치의 동작을 설명하기 위한 개념도들을 도시한다.
도 7a를 참조하면, 전자 장치(101)는 사용자(701)와 d1의 거리만큼 떨어져 배치될 수 있다. 전자 장치(101)는 사용자(701)로부터의 사용자 음성(702)을 획득할 수 있다. 도 7a의 실시예에서, 전자 장치(101)는 로봇 형태로 구현될 수 있으며, 홈 네트워크를 관장할 수 있다. 더욱 상세하게, 전자 장치(101)는 홈 내에 배치된 각종 전자 장치를 제어하는 제어 신호를 송신하거나, 또는 각종 전자 장치로부터의 신호를 수신하여 처리할 수 있다. 한편, 도 7a의 실시예에서는, 전자 장치(101)가 홈 네트워크를 관장하는 것과 같이 도시되어 있지만, 이는 단순히 예시적인 것으로 전자 장치(101)는 사무실 환경 등의 다양한 환경을 관장할 수 있다. 또는, 전자 장치(101)는 다른 전자 장치와의 인터랙션(interaction) 없이 독립적으로 동작할 수도 있다.
전자 장치(101)는 예를 들어 "turn on the air-conditioner"라는 사용자 음성(702)을 획득한 경우를 상정하도록 한다. 전자 장치(101)는 사용자 음성(702)의 응답 레벨을 제 1 응답 레벨로 판단할 수 있다. 예를 들어, 전자 장치(101)는 사용자 음성(702)을 인식한 텍스트에 "turn on"이라는 제어 키워드가 포함된 것에 기초하여 사용자 음성(702)의 응답 레벨을 제 1 응답 레벨로 판단할 수 있다. 한편, 전자 장치(101)가 특정 키워드가 포함되는지 여부로 사용자 음성의 응답 레벨을 결정하는 것은 단순히 예시적인 것으로, 응답 레벨을 결정하는 다양한 실시예들에 대하여서는 더욱 상세하게 후술하도록 한다.
사용자 음성(702)의 응답 레벨이 제 1 응답 레벨로 결정된 경우에는, 전자 장치(101)는 사용자 음성(702)에 대응하는 동작을 즉각적으로 수행할 수 있다. 예를 들어, 전자 장치(101)는 "turn on the air-conditioner"라는 사용자 음성과 "에어컨으로 turn on 신호 송신"이라는 동작을 연관하여 저장할 수 있다. 전자 장치(101)는 연관 정보를 이용하여, 사용자 음성(702)에 대응하여 턴 온 신호(720)를 에어컨(710)으로 송신할 수 있다. 여기에서, "즉각적으로 수행한다"의 표현은 특정 시점으로부터 기설정된 임계치의 시간 이내에 수행한다는 의미를 포함할 수 있으며, 또는 별도의 추가적인 개입 없이도 특정 동작을 수행한다는 의미를 포함할 수도 있다.
한편, 도 7a의 실시예에서는, 전자 장치(101)가 사용자 음성(702)을 처리하여 에어컨(710)으로 턴 온 신호(720)를 송신하는 구성을 개시하였지만, 이는 단순히 예시적인 것이다. 본 발명의 다양한 실시예에서, 에어컨(710)이 사용자 음성(702)을 직접 획득하고, 사용자 음성(702)을 제 1 응답 레벨로 처리함으로써, 즉각적으로 턴 온을 수행할 수도 있다.
도 7b 내지 7f는 본 발명의 다양한 실시예에 따른 제 2 응답 레벨 처리를 설명하기 위한 개념도들을 도시한다.
우선, 도 7b를 참조하면, 전자 장치(101)는 "It's hot"이라는 사용자 음성(703)을 획득할 수 있다. 전자 장치(101)는 사용자 음성(703)의 응답 레벨을 제 2 응답 레벨로 판단할 수 있다. 예를 들어, 전자 장치(101)는 사용자 음성(703) 인식 결과의 텍스트의 구성 요소인 "hot"이 감정 또는 상태를 나타내는 키워드인 점에 기초하여, 사용자 음성(703)의 응답 레벨을 제 2 응답 레벨로 판단할 수 있다. 전자 장치(101)는 사용자 음성(703)이 제 2 응답 레벨이라는 점에 기초하여, 사용자 음성(703)에 대응하는 동작의 수행을 유보할 수 있다. 아울러, 전자 장치(101)는 사용자 음성(703)에 대응하는 동작 후보를 판단할 수 있다. 예를 들어, 전자 장치(101)는 "hot"이라는 텍스트와 연관된 "에어컨으로 턴 온 신호 송신", "선풍기로 턴 온 신호 송신" 또는 "창문 개폐 장치로 개방 신호 송신" 등의 동작 후보를 판단할 수 있다. 전자 장치(101)는 "hot"이라는 상태 관련 키워드와 "에어컨", "선풍기", "창문 개폐 장치" 등의 장치를 지시하는 키워드를 미리 연관하여 저장할 수 있다. 전자 장치(101)는 키워드와 관련된 동작 후보를 판단할 수 있다. 또는, 전자 장치(101)는 "hot"이라는 상태 관련 키워드와 "에어컨으로 턴 온 신호 송신", "선풍기로 턴 온 신호 송신" 또는 "창문 개폐 장치로 개방 신호 송신" 등의 동작 후보를 연관하여 저장할 수 있으며, 연관 정보에 따라 동작 후보를 판단할 수도 있다.
전자 장치(101)는 동작 후보를 판단한 이후에, 추가 이벤트를 모니터링할 수 있다. 도 7c를 참조하면, 전자 장치(101)는 사용자(701)가 전자 장치(101)로 d2의 거리로 접근하는 것을 검출할 수 있다. 예를 들어, 전자 장치(101)는 "사용자의 접근"을 추가 이벤트로서 미리 저장할 수 있다. 전자 장치(101)는 사용자(702)와 전자 장치(101) 사이의 거리를 근접 센서 또는 뎁스 카메라를 이용하여 획득할 수 있다. 전자 장치(101)는 사용자(702)와 전자 장치(101) 사이의 거리가 기설정된 임계치 미만인 경우에 "사용자의 접근"의 추가 이벤트가 검출된 것으로 판단할 수 있다. 전자 장치(101)는 추가 이벤트 검출에 대응하여 설정된 동작을 수행할 수 있다. 예를 들어, 도 7c에서와 같이, 전자 장치(101)는 동작 후보를 포함하는 음성 출력(704)을 제공할 수 있다. 예를 들어, 전자 장치(101)는 "에어컨, 선풍기 또는 창문 개폐 장치 중 하나를 턴 온 할까요" 등의 음성 출력(704)을 제공할 수 있다. 전자 장치(101)는 다양한 방식, 예를 들어 디스플레이의 표시 등으로 동작 후보를 출력할 수 있다.
사용자(701)는 전자 장치(101)로 동작 후보 중 하나를 선택하는 사용자 음성(705)을 발화할 수 있다. 예를 들어, 도 7d에서와 같이, 사용자(701)는 "선풍기를 턴 온"하는 사용자 음성(705)을 발화할 수 있다. 전자 장치(101)는 사용자 음성(705)을 획득하고, 이를 인식하여 선풍기를 턴 온하는 제어 신호(721)를 선풍기(711)로 송신할 수 있다. 본 발명의 다양한 실시예에서, 전자 장치(101)는 사용자 음성(705)을 추가 이벤트로 처리하여 제어 신호(721) 송신의 동작을 수행할 수 있다. 또 다른 실시예에서, 전자 장치(101)는 사용자 음성(705)을 제 1 응답 레벨로 처리하여, 제어 신호(721) 송신의 동작을 수행할 수도 있다.
본 발명의 다양한 실시예에서, 전자 장치(101)는 동작 후보를 사용자가 착용하거나 소지하는 전자 장치로 송신할 수도 있다. 사용자는 착용하거나 소지한 전자 장치를 통하여, 동작 후보 중 하나를 선택할 수도 있다. 사용자가 착용하거나 소지한 전자 장치는, 선택된 정보를 전자 장치(101)로 송신할 수 있으며, 전자 장치(101)는 수신된 선택된 정보를 이용하여 동작 후보 중 적어도 하나를 수행할 수 있다.
한편, 본 발명의 다양한 실시예에서, 전자 장치(101)는 "사용자와 다른 전자 장치와의 근접"을 추가 이벤트로 저장할 수도 있다. 예를 들어, 도 7e에서와 같이, 사용자(701)는 창문 개폐 장치(712)로 d3의 거리로 접근할 수 있다. 전자 장치(101)는 사용자(701)와 창문 개폐 장치(712) 사이의 거리(d3)가 기설정된 임계치 미만으로 판단된 경우에, "사용자와 다른 전자 장치와의 근접"의 추가 이벤트가 검출된 것으로 판단할 수 있다. 전자 장치(101)는 사용자(701)를 추적 촬영할 수 있으며, 촬영된 이미지 분석 결과에 기초하여 사용자(701)와 창문 개폐 장치(712)의 근접의 추가 이벤트를 검출할 수 있다. 또는, 전자 장치(101)는 창문 개폐 장치(712)로부터 사용자(701)의 근접 정보를 수신함으로써 추가 이벤트를 검출할 수도 있다. 또는, 전자 장치(101)는 홈 네트워크를 촬영하는 전자 장치(예를 들어, 카메라)로부터의 오브젝트 사이의 근접 정보를 수신함으로써 추가 이벤트를 검출할 수도 있다.
전자 장치(101)는 추가 이벤트 검출에 대응하여 창문 개폐 장치(712)를 개방하는 제어 신호(722)를 창문 개폐 장치(712)로 송신할 수 있다. 이에 따라, 사용자(701)가 직접 창문을 개방하지 않더라도, 전자 장치(101)가 사용자의 의도에 부합하도록 동작을 수행할 수 있다.
도 7f를 참조하면, 본 발명의 다양한 실시예에서, 전자 장치(101)는 이동을 위한 구동 수단, 예를 들어 모터를 포함할 수도 있다. 전자 장치(101)는 사용자 음성에 대응하는 응답 레벨이 제2응답 레벨로 판단된 경우, 이동(740)할 수 있다. 전자 장치(101)는 사용자(701)를 향하여 이동(740)할 수 있으며, 이에 따라 사용자(701)와 전자 장치(101) 사이의 거리는 d1에서 d2로 감소될 수 있다. 전자 장치(101)는 사용자(701)와 전자 장치(101) 사이의 거리가 d2가 되는 것으로 판단되면, 동작 후보를 포함하는 음성(741)을 출력하거나 또는 동작 후보를 포함하는 화면을 표시할 수도 있다. 전자 장치(101)는 사용자(701)로부터 동작 후보 중 하나를 선택하는 것이 검출되면, 선택에 대응하는 동작을 수행할 수도 있다.
상술한 바와 같이, 본 발명의 다양한 실시예에 따른 전자 장치(101)는 응답 레벨별로 상이하게 설정된 동작을 수행할 수 있다. 특히, 사용자(101)가 목적이 불분명한 명령을 발화한 경우에도, 사용자의 의도에 부합하도록 설정된 동작을 수행할 수 있다.
도 8은 본 발명의 다양한 실시예에 따른 응답 레벨을 결정하는 방법을 설명하기 위한 흐름도를 도시한다.
810 동작에서, 전자 장치(101)는 사용자 음성을 획득할 수 있다. 820 동작에서, 전자 장치(101)는 사용자 음성을 분석할 수 있다. 예를 들어, 전자 장치(101)는 사용자 음성에 음성 인식 알고리즘을 적용하여, 텍스트를 획득할 수 있다.
830 동작에서, 전자 장치(101)는 사용자 음성에 제어 키워드가 포함되어 있는지 여부를 판단할 수 있다. 사용자 음성에 제어 키워드가 포함된 경우에는, 840 동작에서, 전자 장치(101)는 사용자 음성을 제 1 응답 레벨로 판단할 수 있다. 전자 장치(101)는 제어 키워드를 미리 저장할 수 있다. 예를 들어, 전자 장치(101)는 "turn on", "go", "start" 등의 제어 키워드를 미리 저장할 수 있다. 전자 장치(101)는 사용자 음성에 제어 키워드가 포함된 경우에는, 사용자 음성의 응답 레벨을 제 1 응답 레벨로 결정할 수 있다.
850 동작에서, 전자 장치(101)는 사용자 음성에 감정 또는 상태를 지시하는 키워드가 포함되는지 여부를 판단할 수 있다. 사용자 음성에 감정 또는 상태를 지시하는 키워드가 포함되는 것으로 판단되면, 860 동작에서, 전자 장치(101)는 사용자 음성의 응답 레벨을 제 2 응답 레벨로 판단할 수 있다. 전자 장치(101)는 감정 또는 상태 키워드를 미리 저장할 수 있다. 예를 들어, 전자 장치(101)는 "boring", "awesome", "happy" 등의 사용자의 감정을 지시하는 키워드와 "hot", "cold", "freezing" 등의 환경의 상태를 지시하는 키워드 등을 저장할 수 있다. 전자 장치(101)가 제 2 응답 레벨로 판단을 위하여 저장하는 키워드는 사용자가 원하는 바를 달성하기 위한 전자 장치의 동작이 요구되는 키워드라면 제한이 없음을 당업자는 용이하게 이해할 수 있을 것이다.
한편, 제어 키워드 또는 감정 또는 상태를 지시하는 키워드가 포함되지 않은 경우에는, 870 동작에서, 전자 장치(101)는 사용자 음성을 제 3 응답 레벨로 판단할 수 있다.
도 9는 본 발명의 다양한 실시예에 따른 키워드 분석을 통한 응답 레벨 판단 과정을 설명하기 위한 개념도를 도시한다.
도 9를 참조하면, 전자 장치(101)는 키워드 데이터베이스(1010)를 미리 저장할 수 있다. 전자 장치(101)는 키워드 데이터베이스(1010) 내에 제어 키워드(1020)를 저장할 수 있다. 제어 키워드(1020)는 "turn on"(1021), "start"(1022), "go"(1023)와 같은 전자 장치의 제어를 의미하는 키워드를 포함할 수 있다. 도 9a의 실시예에서는, 전자 장치를 턴 온하는 제어 키워드에 대하여 개시되어 있지만 이는 단순히 예시적인 것이다. 제어 키워드(1020)는 턴 오프, 채널 변경, 온도 변경 등의 전자 장치의 동작을 유도할 수 있는 키워드라면 제한이 없다. 본 발명의 다양한 실시예에서, 전자 장치(101)는 기설정된 규칙을 저장할 수 있다. 여기에서, 기설정된 규칙은 키워드가 키워드 데이터베이스(1010)에 포함되는지 여부와 관련될 수도 있다.
전자 장치(101)는 사용자 음성(1030)을 수신하여 포함된 구성 요소(1031)를 제어 키워드(1020)와 비교할 수 있으며, 매핑되는 제어 키워드(1021)를 판단할 수 있다. 전자 장치(101)는 키워드 데이터베이스(1010)에 미리 저장된 제어 키워드(1020)와 대응(1040)되는 키워드가 존재하는 사용자 음성(1030)을 제 1 응답 레벨(1051)로 분류할 수 있다. 본 발명의 다양한 실시예에서, 전자 장치(101)는 포함된 구성 요소가 기설정된 규칙을 만족하는지 여부를 판단할 수 있다. 예를 들어, 전자 장치(101)는 제 1 응답 레벨에 대응하는 규칙으로, 제어 키워드가 검출되는 것을 저장할 수 있다. 아울러, 전자 장치(101)는 제 2 응답 레벨에 대응하는 규칙으로, 상태 키워드가 검출되는 것을 저장할 수 있다. 전자 장치(101)는 사용자 음성에서 제어 키워드를 검출함에 따라, 제 1 응답 레벨에 대응하는 규칙이 만족하는 것으로 판단하여, 사용자 음성(1030)을 제 1 응답 레벨(1051)로 분류할 수 있다.
도 10a 내지 10c는 본 발명의 다양한 실시예에 따른 제 1 응답 레벨로 분류되는 키워드 데이터베이스의 종류를 설명하기 위한 개념도들을 도시한다.
도 10a를 참조하면, 전자 장치(101)는 키워드 데이터베이스(1010) 내에 "TV"(1061), "television" (1062), "display"(1063) 등의 전자 장치를 지시하는 키워드(1060)를 저장할 수 있다. 전자 장치(101)는 전자 장치를 지시하는 키워드(1060)에 대응되는 구성 요소를 포함하는 사용자 음성을 제 1 응답 레벨(1051)로 분류할 수 있다. 한편, 전자 장치(101)는 전자 장치를 지시하는 키워드(1060)와 연관하여 컨텐츠(contents)(1064), 작동 상태(working status)(1065), 히스토리(history)(1066) 및 사용자 상태(user status)(1067)를 저장할 수 있다. 여기에서, 컨텐츠(1064)는 영화, 드라마 등을 지시하는 것으로, 컨텐츠와 관련된 하위 키워드가 포함될 수 있다. 작동 상태(1065)는 전자 장치의 작동과 관련된 키워드를 포함될 수 있다. 히스토리(1066)는 전자 장치의 사용 이력과 같은 정보를 지시하는 키워드를 포함할 수 있다. 사용자 상태(1067)는 사용자의 상태를 나타내는 다양한 키워드를 포함할 수 있다.
전자 장치(101)는 연관되어 저장된 키워드(1064 내지 1067)를 이용하여 사용자 음성에 대응하는 동작 또는 동작 후보를 결정할 수 있다. 한편, 전자 장치(101)는 연관되어 저장된 키워드(1064 내지 1067)가 포함된 키워드를 포함한 사용자 음성을 제 2 응답 레벨(1062)로 분류할 수도 있다.
도 10b를 참조하면, 전자 장치(101)는 키워드 데이터베이스(1010) 내에 "부엌"(1071), "요리실"(1072), "거실 옆"(1073) 등의 장소를 지시하는 키워드(1070)를 저장할 수 있다. 전자 장치(101)는 장소를 지시하는 키워드(1070)에 대응되는 구성 요소를 포함하는 사용자 음성을 제 1 응답 레벨(1051)로 분류할 수 있다. 한편, 전자 장치(101)는 장소를 지시하는 키워드(1070)와 연관하여 장소 관련 동작(1074), 장소 관련 객체(1075), 히스토리(1076) 또는 사용자 상태(1077)를 저장할 수 있다. 장소 관련 동작(1074)은 부엌, 요리실, 거실 옆 등의 다양한 장소에서 수행될 수 있는 동작의 키워드들을 포함할 수 있다. 장소 관련 객체(1075)는 장소에 배치되는 객체의 키워드들을 포함할 수 있다. 히스토리(1076)는 장소에서 수행된 히스토리와 관련된 키워드들을 포함할 수 있다. 사용자 상태(1077)는 사용자 상태를 지시하는 키워드들을 포함할 수 있다.
전자 장치(101)는 연관되어 저장된 키워드(1074 내지 1077)를 이용하여 사용자 음성에 대응하는 동작 또는 동작 후보를 결정할 수 있다. 한편, 전자 장치(101)는 연관되어 저장된 키워드(1074 내지 1077)가 포함된 키워드를 포함한 사용자 음성을 제 2 응답 레벨(1062)로 분류할 수도 있다.
도 10c를 참조하면, 전자 장치(101)는 키워드 데이터베이스(1010) 내에 "9시에"(1081), "21시에"(1082), "3시간 이후"(1083) 등의 시간을 지시하는 키워드(1080)를 저장할 수 있다. 전자 장치(101)는 시간을 지시하는 키워드(1080)에 대응되는 구성 요소를 포함하는 사용자 음성을 제 1 응답 레벨(1051)로 분류할 수 있다. 한편, 전자 장치(101)는 시간을 지시하는 키워드(1080)와 연관하여 환경 정보(1084), 작동 상태(1085), 히스토리(1086) 또는 사용자 상태(1087) 등의 키워드를 저장할 수 있다. 환경 정보(1084)는 주위 환경을 지시하는 키워드들을 포함할 수 있다. 동작 상태(working status)(1085)는 전자 장치의 동작을 지시하는 키워드들을 포함할 수 있다. 히스토리(1086)는 전자 장치의 동작 이력을 지시하는 키워드들을 포함할 수 있다. 사용자 상태(1087)는 사용자의 상태를 지시하는 키워드들을 포함할 수 있다.
전자 장치(101)는 연관되어 저장된 키워드(1084 내지 1087)를 이용하여 사용자 음성에 대응하는 동작 또는 동작 후보를 결정할 수 있다. 한편, 전자 장치(101)는 연관되어 저장된 키워드(1084 내지 1087)가 포함된 키워드를 포함한 사용자 음성을 제 2 응답 레벨(1062)로 분류할 수도 있다.
본 발명의 다양한 실시예에서, 다양한 종류의 키워드가 혼재된 경우에는, 각각의 키워드에 대한 가중치를 부여할 수 있으며, 가중치 합에 따라 응답 레벨을 판단할 수도 있다.
도 11a 내지 11b는 본 발명의 다양한 실시예에 따른 제 2 응답 레벨로 분류되는 과정을 설명하기 위한 개념도들을 도시한다.
본 발명의 다양한 실시예에 의한 전자 장치(101)는 키워드 데이터베이스(1010) 내에 제어 키워드(1020)를 저장할 수 있으며, 이와 연관하여 사용자 감정 또는 상태(1131), 작동 상태(1132), 히스토리(1133) 또는 사용자 응답(1034)의 키워드를 저장할 수 있다. 전자 장치(101)는 제어 키워드(1020)와 연관되어 저장된 키워드(1131 내지 1134)에 대응되는 구성 요소를 포함한 사용자 음성을 제 2 응답 레벨(1052)로 분류할 수 있다. 예를 들어, 도 11b에서와 같이, 전자 장치(101)는 "It's so hot"이라는 사용자 음성(1140)을 획득할 수 있다. 전자 장치(101)는 키워드 데이터베이스(1020) 내에 장치를 지시하는 키워드(1120)를 저장할 수 있다. 장치를 지시하는 키워드(1120)에는 에어컨(1121), 선풍기(1122) 또는 창문 개폐 장치(1123) 등의 키워드가 포함될 수 있다. 전자 장치(101)는 장치를 지시하는 키워드(1120)와 연관하여 상태를 지시하는 키워드(1130)를 포함할 수 있으며, 상태를 지시하는 키워드(1130)에는 "hot"(1131) 또는 "temperature"(1132) 등이 포함될 수 있다. 전자 장치(101)는 상태를 지시하는 키워드(1130)와 대응(1150)되는 구성 요소가 포함된 사용자 음성(1140)을 제 2 응답 레벨(1052)로 분류할 수 있다. 뿐만 아니라, 전자 장치(101)는 사용자 음성(1140)에 대응하는 동작을 상태를 지시하는 키워드(1130)와 연관된 전자 장치(1120)와 연관된 동작 중 적어도 하나로 판단할 수 있다.
도 12는 본 발명의 다양한 실시예에 따른 온톨로지(ontology)를 설명하기 위한 개념도를 도시한다.
도 12에 도시된 바와 같이, 본 발명의 다양한 실시예에 따른 전자 장치(101)는 1차 의미의 키워드(1201)를 저장할 수 있으며, 1차 의미와 연관된 2차 의미의 키워드(1211 내지 1214)를 저장할 수 있다. 아울러, 전자 장치(101)는 2차 의미의 키워드(1211)와 연관하여 3차 의미의 키워드(1221 내지 1224)를 저장할 수 있다. 예를 들어, 상술한 예시에서와 같이, 1차 의미의 키워드(1201)는 전자 장치를 지시하는 "에어컨"과 같은 키워드일 수 있다. 2차 의미의 키워드(1211)는 해당 전자 장치의 동작 조건과 연관된 상태를 지시하는 "hot"과 같은 키워드일 수 있다. 3차 의미의 키워드(1221)는 상태와 연관된 "temperature"과 같은 키워드일 수 있다. 전자 장치(101)는 온톨로지를 이용하여 사용자 음성의 응답 레벨을 결정할 수도 있으며, 사용자 음성에 대응하는 동작 또는 동작 후보를 결정할 수도 있다. 전자 장치(101)는 온톨로지를 학습(learn)하거나 또는 업데이트할 수 있다. 전자 장치(101)는 딥 러닝(deep learning) 방식 또는 머신 러닝(machine learning) 방식에 기초하여 키워드 간의 연관 관계를 확장시킴으로써 다양한 온톨로지를 학습 및 업데이트할 수 있다. 전자 장치(101)는 예를 들어 1차 의미의 키워드(1201)를 포함하는 사용자 음성을 제 1 응답 레벨로 분류하고, 2차 의미의 키워드(1211 내지 1214) 또는 3차 의미의 키워드(1221 내지 1224)를 포함하는 사용자 음성을 제 2 응답 레벨로 분류할 수 있다. 아울러, 전자 장치(101)는 2차 의미의 키워드(1211)를 포함하는 사용자 음성에 대응하는 동작 또는 동작 후보를 1차 의미(1201), 2차 의미(1211 내지 1214) 또는 3차 의미(1221 내지 1224) 중 적어도 하나를 포함하는 동작으로 판단할 수 있다. 전자 장치(101)가 사용자 음성에 대응하는 동작 또는 동작 후보를 결정하는 구성에 대하여서는 더욱 상세하게 후술하도록 한다. 온톨로지의 1, 2, 3차 의미 키워드는 추상화(abstract) 정도에 따라 분류될 수 있다. 여기에서, 추상화 정도는 명령의 의도가 명확한지 여부와 반비례하여 설정된 정도일 수 있다. 예를 들어, 전자 장치의 식별자, 동작, 동작 시간, 동작 장소 등은 비교적 명령의 의도를 명확하게 지시할 수 있는 키워드일 수 있으며, 상대적으로 낮은 추상화 정도를 가질 수 있다. 전자 장치의 동작이 수행될 조건, 예를 들어 사용자의 감정, 사용자의 상태, 주변 환경과 관련된 정보 등을 지시하는 키워드는 의도를 명확하게 지시하기 어려운 키워드일 수 있으며, 상대적으로 높은 추상화 정도를 가질 수 있다. 상술한 바와 같이, 전자 장치(101)는 온톨로지를 미리 저장할 수도 있으며, 학습 결과에 따라 확장 또는 업데이트시킬 수도 있다. 온톨로지는 키워드 매핑에 이용될 수도 있으나, 스코어 부여에도 이용될 수 있으며, 이는 도 14a 및 14b를 참조하여 더욱 상세하게 설명하도록 한다.
상술한 바와 같이, 본 발명의 다양한 실시예에 따른 전자 장치는 사용자 음성내에 키워드 데이터베이스에 포함된 구성 요소가 존재하는지 여부에 기초하여 응답 레벨을 결정할 수 있다.
도 13은 본 발명의 다양한 실시예에 따른 응답 레벨 결정 과정을 설명하기 위한 흐름도를 도시한다. 도 13의 실시예는 도 14a 및 14b를 참조하여 더욱 상세하게 설명하도록 한다. 도 14a 및 14b는 본 발명의 다양한 실시예에 따른 스코어 부여 및 합산을 설명하기 위한 개념도들을 도시한다.
1310 동작에서, 전자 장치(101)는 사용자 음성을 획득할 수 있다. 1320 동작에서, 전자 장치(101)는 사용자 음성을 분석할 수 있다. 1330 동작에서, 전자 장치(101)는 사용자 음성에서 인식된 단어에 대응하는 스코어를 판단할 수 있다. 더욱 상세하게, 전자 장치(101)는 사용자 음성에 음성 인식 알고리즘을 적용하여 텍스트를 획득할 수 있다. 한편, 전자 장치(101)는 스코어 부여를 위한 온톨로지를 미리 저장할 수 있다. 예를 들어, 도 14a에서와 같이 전자 장치(101)는 1차 의미의 키워드인 "TV"(1420)와 "action"(1450)과 관련된 키워드(1451 내지 1453)를 온톨로지 상에 저장할 수 있다. 온톨로지의 계층에서는 "TV"(1420)가 "action"(1450)보다 상위에 배치된 것과 같이 개시되어 있지만, 이는 단순히 연관 관계를 설명하기 위한 것일 뿐, 직접적인 계층을 설명하는 것이 아닐 수도 있다. 전자 장치(101)는 1차 의미의 키워드인 "TV"(1420)에 b의 스코어를 미리 설정할 수 있다. 전자 장치(101)는 1차 의미의 키워드인 "action"(1450)에 a의 스코어를 미리 설정할 수 있다. 하나의 예시에서, d의 스코어는 a보다 높게 설정될 수도 있다. 전자 장치(101)는 2차 의미인 키워드인 "content"(1430)와 관련된 키워드(1431 내지 1433), "state"(1440)와 관련된 키워드(1441 내지 1443) 각각에도 c 및 d의 스코어를 설정할 수 있다. 하나의 예시에서, 전자 장치(101)는 c 및 d는 b보다 상대적으로 낮게 설정할 수 있다.
전자 장치(101)는 사용자 음성(1410)에 포함된 구성 요소 중 온톨로지에 대응되는 구성 요소(1411,1412)를 확인할 수 있으며, 대응되는 구성 요소(1411,1412) 각각에 c 및 d의 스코어를 부여할 수 있다. 1340 동작에서, 전자 장치(101)는 스코어의 합계를 산출할 수 있다. 1350 동작에서, 전자 장치(101)는 산출된 스코어의 합계에 따라 사용자 음성의 응답 레벨을 판단할 수 있다. 본 발명의 다양한 실시예에서, 전자 장치(101)는 스코어의 합계가 제 1 임계치를 초과하는 범위를 제 1 응답 레벨에 대응시키고, 스코어의 합계가 제 2 임계치 초과 제 1 임계치 이하인 범위를 제 2 응답 레벨에 대응시키고, 스코어의 합계가 제 2 임계치 이하인 범위를 제 3 응답 레벨에 대응시킬 수 있다. 제 1 임계치는 제 2 임계치보다 클 수 있다. 예를 들어, 전자 장치(101)는 도 14a의 실시예에서의 스코어의 합계인 c+d가 제 2 임계치를 초과하지만 제 1 임계치 미만인 것으로 판단할 수 있으며, 사용자 음성(1410)의 응답 레벨을 제 2 응답 레벨로 판단할 수 있다. 아울러, 전자 장치(101)는 온톨로지를 이용하여 사용자 음성(1410)에 대응하는 동작 또는 동작 후보를 판단할 수 있다. 본 발명의 다양한 실시예에서, 전자 장치(101)는 도 14a에서의 온톨로지에 대응되는 구성 요소(1411,1412)와 연관된 온톨로지 상의 다른 키워드 중 적어도 하나를 이용하여 동작 또는 동작 후보를 판단할 수 있다. 예를 들어, 전자 장치(101)는 연관된 키워드를 이용하여, "Turn on TV", "change TV" 등의 동작 또는 동작 후보를 판단할 수 있다.
도 14b를 참조하면, 전자 장치(101)는 "change the TV channel"의 사용자 음성(1460)을 획득할 수 있다. 전자 장치(101)는 온톨로지를 이용하여 사용자 음성(1460)의 구성 요소(1461)에 a의 스코어를 부여하고, 구성 요소(1462)에 b의 스코어를 부여할 수 있다. 전자 장치(101)는 스코어의 합계 a+b가 제 1 임계치를 초과하는 것에 기초하여, 사용자 음성(1460)의 응답 레벨을 제 1 응답 레벨로 판단할 수 있다. 아울러, 전자 장치(101)는 제 1 응답 레벨에 대응하는 사용자 음성(1460)의 동작인 채널 변경을 즉각적으로 수행할 수 있다.
상술한 바와 같이, 본 발명의 다양한 실시예에 따른 전자 장치(101)는 키워드에 따른 스코어 부여 및 합계 방식으로 사용자 음성의 응답 레벨을 판단할 수도 있다.
도 15a 및 15b는 본 발명의 다양한 실시예에 따른 응답 레벨 판단 과정을 설명하기 위한 개념도들을 도시한다.
도 15a를 참조하면, 전자 장치(101)는 사용자 음성(1501)을 전처리(1502)하여 텍스트로 변경할 수 있으며, 이를 자연어 해석(1503)을 수행한 결과를 출력할 수 있다. 전자 장치(101)는 자연어 해석(1503)을 수행하여 텍스트내의 구성 요소의 역할 또는 구성 요소간의 관계를 판단할 수 있다. 예를 들어, 전자 장치(101)는 "HEY, TV 좀 켜줘" 라는 사용자 음성(1501)에 대하여 자연어 해석(1503)을 수행한 결과로, 'HEY'는 호칭어에 해당하고, 'TV'는 사물 또는 대상을 지칭하며, '좀'은 부사, '켜줘'는 동사임을 판단할 수 있다.
더욱 상세하게, 전자 장치(101) 내에는 ASR(ACOUSTIC SOUND RECOGNITION) 기능을 이용하여 사용자의 음성을 텍스트로 변환할 수 있다. 아울러, 전자 장치(101)는 NLU(NATURAL LANGUAGE UNIT) 기능 또는 DM(DIALOG MANAGEMENT) 기능을 이용하여 텍스트의 키워드들의 역할 및 다른 키워드와의 관계를 분석할 수 있다.
전자 장치(101)는 자연어 해석(1503) 결과를 키워드 데이터베이스와 비교할 수 있다. 본 발명의 다양한 실시예에서, 전자 장치(101)는 자연어 해석 결과에서 판단된 동사 또는 명령에 대응하는 단어에 대하여 비교를 우선 수행할 수 있으며, 비교 결과를 이용하여 사용자 음성(1501)의 응답 레벨을 판단할 수 있다. 도 15a의 실시예에서, 전자 장치(101)는 추상화 정도가 작은 순서대로 제어 키워드(1511,1512,1513), 대상 키워드(1521,1522,1523), 장소 키워드(1531,1532,1533) 및 시간 키워드(1541,1542,1543)를 저장할 수 있다.
다양한 실시예에서, 전자 장치(101)는 사용자 음성(1501)에서의 '켜줘'의 동사가 제 1 추상화 정도의 제어 키워드(1511)와 대응됨을 판단할 수 있다. 전자 장치(101)는 제 1 추상화 정도의 제어 키워드(1511)에서 사용자 음성(1501)의 동사가 대응되는 것을 확인한 것에 기초하여, 사용자 음성(1501)의 응답 레벨은 제 1 응답 레벨로 판단할 수 있다. 전자 장치(101)는 추가적으로 대상 키워드, 장소 키워드, 시간 키워드에 대응되는 구성 요소가 사용자 음성(1501)에 포함되는지를 판단할 수 있으며, 이에 따라 제어 키워드(1511)의 하측의 판단 경로에 따라 데이터베이스와의 비교를 수행할 수 있다. 전자 장치(101)는 제어 키워드(1511)의 하측의 판단 경로에 따른 비교 결과에 따라 사용자 음성(1501)에 대응되는 동작 또는 동작 후보를 판단할 수 있다. 전술한 바와 같이, 전자 장치(101)는 동작 후보를 출력한 후, 사용자의 추가 선택을 검출하여 동작을 결정할 수도 있다. 아울러, 전자 장치(101)는 제어 키워드(1511)의 하측의 판단 경로에 따른 판단 영역(1550)을 제 1 응답 레벨로 설정할 수 있다.
도 15b는 사용자 음성(1501)의 응답 레벨이 제 2 응답 레벨로 판단된 경우를 도시한다. 도 15b에서, 사용자 음성(1501)은 예를 들어 "The movie is boring"인 경우를 상정하도록 한다. 전자 장치(101)는 사용자 음성(1501)의 자연어 해석(1503) 결과로 판단된 동사인 "is"가 제 3 추상화 정도의 제어 키워드(1513)에 대응됨을 판단할 수 있으며, 제어 키워드(1513)의 하측의 판단 경로를 통하여 응답 레벨과 동작 또는 동작 후보를 판단할 수 있다. 전자 장치(101)는 제 3 추상화 정도의 제어 키워드(1513)에서 동사가 대응된다는 점에 기초하여 사용자 음성(1501)의 응답 레벨을 제 2 응답 레벨로 판단할 수 있다. 전자 장치(101)는 제어 키워드(1513)의 하측의 판단 영역(1560)을 제 2 응답 레벨로 설정할 수 있다.
도 16은 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도를 도시한다.
1610 동작에서, 전자 장치(101)는 사용자 음성을 획득할 수 있다. 1620 동작에서, 전자 장치(101)는 획득된 사용자 음성을 분석할 수 있다. 1630 동작에서, 전자 장치(101)는 분석 결과를 이용하여 응답 레벨을 판단할 수 있다. 1640 동작에서, 전자 장치(101)는 사용자 식별 정보 또는 시간 정보 중 적어도 하나를 고려하여 응답 레벨에 대응하는 동작을 수행할 수 있다. 더욱 상세하게, 전자 장치(101)는 사용자 음성의 분석 결과에 기초하여 응답 레벨을 판단할 수 있으며, 상술한 바와 같이 전자 장치(101)는 응답 레벨별로 대응하는 동작을 설정할 수 있다. 전자 장치(101)는 응답 레벨별로 대응하는 동작 수행시에 사용자 식별 정보 또는 시간 정보 중 적어도 하나를 더 고려하여 동작을 수행할 수 있다.
도 17은 사용자 식별 정보를 이용하여 응답 레벨별 동작을 수행하는 방법을 설명하기 위한 흐름도를 도시한다. 도 17의 실시예는, 도 18a 및 18b를 참조하여 더욱 상세하게 설명하도록 한다. 도 18a 및 18b는 본 발명의 다양한 실시예에 따른 사용자 식별 정보를 고려하여 동작을 수행하는 전자 장치를 설명하기 위한 개념도들을 도시한다.
1710 동작에서, 전자 장치(101)는 사용자 음성을 획득할 수 있다. 1720 동작에서, 전자 장치(101)는 획득된 사용자 음성을 분석하고, 사용자를 식별할 수 있다. 전자 장치(101)는 사용자 음성의 분석 결과를 이용하여 목소리 지문(voice print)를 기저장된 목소리 지문과 비교할 수 있으며, 비교 결과에 기초하여 사용자를 식별할 수 있다. 또는, 전자 장치(101)는 이미지 분석, 입력된 사용자 식별 정보 등 다양한 방식으로 사용자 음성을 발화한 사용자를 식별할 수 있다.
1730 동작에서, 전자 장치(101)는 사용자 음성 분석 결과를 이용하여 응답 레벨(response level)을 제 2 응답 레벨로 판단할 수 있다. 예를 들어, 사용자 음성 분석 결과 상태 또는 감정을 지시하는 키워드가 포함된 경우나, 사용자 음성에 부여된 스코어 합계가 기설정된 임계치 미만인 경우를 상정하도록 한다.
1740 동작에서, 전자 장치(101)는 즉각적인 동작을 유보하면서 추가 이벤트를 모니터링하고, 차후에 추가 이벤트를 검출할 수 있다. 예를 들어, 추가 이벤트가 "사용자와 다른 전자 장치의 근접"으로 설정된 경우를 상정하도록 한다. 예를 들어, 도 18a에서와 같이, 사용자(1801)는 창문 개폐 장치(1812)로 d3의 거리로 접근할 수 있다. 전자 장치(101)는 사용자(1801)와 창문 개폐 장치(1812) 사이의 거리(d3)가 기설정된 임계치 미만으로 판단된 경우에, "사용자와 다른 전자 장치와의 근접"의 추가 이벤트가 검출된 것으로 판단할 수 있다. 전자 장치(101)는 사용자(1801)를 추적 촬영할 수 있으며, 촬영된 이미지 분석 결과에 기초하여 사용자(1801)와 창문 개폐 장치(1812)의 근접의 추가 이벤트를 검출할 수 있다. 또는, 전자 장치(101)는 창문 개폐 장치(1812)로부터 사용자(1801)의 근접 정보를 수신함으로써 추가 이벤트를 검출할 수도 있다. 또는, 전자 장치(101)는 홈 네트워크를 촬영하는 전자 장치(예를 들어, 카메라)로부터의 오브젝트 사이의 근접 정보를 수신함으로써 추가 이벤트를 검출할 수도 있다.
1750 동작에서, 전자 장치(101)는 추가 이벤트에 대응하는 사용자가 식별된 사용자와 동일한지 여부를 판단할 수 있다. 예를 들어, 도 18a의 실시예에서는, 전자 장치(101)가 창문 개폐 장치(1812)로 접근하는 사용자(1801)가 사용자 음성을 발화한 사용자(1801)와 동일한 것으로 판단할 수 있다. 추가 이벤트에 대응하는 사용자가 식별된 사용자와 동일한 것으로 판단되면, 1760 동작에서, 전자 장치(101)는 사용자 음성과 관련된 동작을 수행할 수 있다. 전자 장치(101)는 추가 이벤트 검출에 대응하여 창문 개폐 장치(1812)를 개방하는 제어 신호(1822)를 창문 개폐 장치(1812)로 송신할 수 있다. 이에 따라, 사용자(1801)가 직접 창문을 개방하지 않더라도, 전자 장치(101)가 사용자의 의도에 부합하도록 동작을 수행할 수 있다.
한편, 도 18b에서와 같이, 전자 장치(101)는, 추가 이벤트에 대응하는 사용자, 즉 창문 개폐 장치(1812)로 접근하는 사용자(1831)와 식별된 사용자(1801)와 상이한 것으로 판단할 수도 있다. 추가 이벤트에 대응하는 사용자가 식별된 사용자와 상이한 것으로 판단되면, 전자 장치(101)는 추가 이벤트를 지속적으로 모니터링하거나 또는 사용자 음성을 무시할 수도 있다.
상술한 바와 같이, 본 발명의 다양한 실시예에 따른 전자 장치(101)는 응답 레벨별로 설정된 동작을 수행하는 과정에서, 사용자 식별 정보를 이용하여 동작을 수행할 수 있다.
도 19a 및 19b는 본 발명의 다양한 실시예에 따른 시간 정보를 이용한 응답 레벨별 동작을 수행하는 방법을 설명하기 위한 흐름도를 도시한다.
도 19a를 참조하면, 1910 동작에서, 전자 장치(101)는 사용자 음성을 획득할 수 있다. 1920 동작에서, 전자 장치(101)는 획득된 사용자 음성을 분석하고, 획득 시간을 저장할 수 있다.
1930 동작에서, 전자 장치(101)는 분석 결과를 이용하여 응답 레벨(response level)을 제 2 응답 레벨로 판단할 수 있다. 예를 들어, 사용자 음성 분석 결과 상태 또는 감정을 지시하는 키워드가 포함된 경우나, 사용자 음성에 부여된 스코어 합계가 기설정된 임계치 미만인 경우를 상정하도록 한다.
1940 동작에서, 전자 장치(101)는 추가 이벤트를 검출할 수 있다. 1950 동작에서, 전자 장치(101)는 추가 이벤트 검출 시간과 사용자 음성 획득 시간이 기설정된 시간 이내인지 여부를 판단할 수 있다. 추가 이벤트 검출 시간과 사용자 음성 획득 시간이 기설정된 시간 이내인 것으로 판단되면, 1960 동작에서, 전자 장치(101)는 사용자 음성과 관련된 동작을 수행할 수 있다. 추가 이벤트 검출 시간과 사용자 음성 획득 시간이 기설정된 시간 이상인 것으로 판단되면, 1955 동작에서, 전자 장치(101)는 사용자 음성과 관련된 동작을 수행할지 여부를 사용자에게 문의한 이후에 사용자 확인이 검출되면 사용자 음성과 관련된 동작을 수행할 수 있다. 예를 들어, 사용자가 "It's so hot"이라는 사용자 음성을 발화한 후, 상대적으로 긴 시간이 지난 후에 창문 개폐 장치로 접근한 경우에도, 추가 이벤트 검출에 기초하여 창문을 개방하지 않고, 추가적으로 창문을 개방할지 여부를 문의한 이후에 확인을 받으면 창문을 개방할 수 있다. 이에 따라, 사용자 의도에 부합할 수 있는 음성 명령 기능이 제공될 수 있다.
도 19b를 참조하면, 1910 동작에서, 전자 장치(101)는 사용자 음성을 획득할 수 있다. 1920 동작에서, 전자 장치(101)는 획득된 사용자 음성을 분석하고, 획득 시간을 저장할 수 있다.
1931 동작에서, 전자 장치(101)는 분석 결과를 이용하여 응답 레벨(response level)을 결정할 수 있다. 1941 동작에서, 전자 장치(101)는 기설정된 시간 이내에 추가 이벤트가 검출된지 여부를 판단할 수 있다. 기설정된 시간은 응답 레벨별로 상이하게 설정될 수도 있다.
기설정된 시간 이내에 추가 이벤트가 검출된 것으로 판단되지 않으면, 1951 동작에서, 전자 장치(101)는 응답 레벨을 조정할 수 있다. 예를 들어, 전자 장치(101)는 사용자 음성의 응답 레벨을 제 2 응답 레벨을 제 3 응답 레벨로 하향하여, 사용자 음성 처리를 무시할 수 있다. 기설정된 시간 이내에 추가 이벤트가 검출된 것으로 판단된 것으로 판단되면, 1960 동작에서, 전자 장치(101)는 사용자 음성과 관련된 동작을 수행할 수 있다.
도 20은 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도를 도시한다.
2010 동작에서, 전자 장치(101)는 제 1 사용자 음성을 획득할 수 있다. 2020 동작에서, 전자 장치(101)는 제 1 사용자 음성을 분석할 수 있다. 2030 동작에서, 전자 장치(101)는 제 1 사용자 음성에 대응하는 응답 레벨을 결정할 수 있다. 2040 동작에서, 전자 장치(101)는 제 2 사용자 음성을 획득할 수 있다. 2050 동작에서, 전자 장치(101)는 제 2 사용자 음성을 분석할 수 있다. 2060 동작에서, 전자 장치(101)는 제 2 사용자 음성에 대응하는 응답 레벨을 결정할 수 있다.
2070 동작에서, 전자 장치(101)는 제 1 사용자 음성에 대응하는 응답 레벨 및 제 2 사용자 음성에 대응하는 응답 레벨을 비교할 수 있다. 2080 동작에서, 전자 장치(101)는 비교 결과에 기초하여 동작을 수행할 수 있다. 예를 들어, 제 1 사용자는 "open the window"라는 제 1 사용자 음성을 발화하고, 제 2 사용자는 "it's so cold"라는 제 2 사용자 음성을 발화할 수 있다. 전자 장치(101)는 제 1 사용자 음성의 응답 레벨을 제 1 응답 레벨로 판단할 수 있고, 제 2 사용자 음성의 응답 레벨을 제 2 응답 레벨로 판단할 수 있다. 전자 장치(101)는 상대적으로 응답 레벨에 대응하는 동작인 "창문 개방 신호 송신"을 수행할 수 있다.
도 21은 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도를 도시한다.
2110 동작에서, 전자 장치(101)는 제 1 사용자 음성을 획득할 수 있다. 2120 동작에서, 전자 장치(101)는 제 1 사용자 음성을 분석할 수 있다. 2130 동작에서, 전자 장치(101)는 제 1 사용자 음성에 대응하는 응답 레벨을 결정할 수 있다. 2135 동작에서, 전자 장치(101)는 제 1 사용자를 식별할 수 있다. 상술한 바와 같이, 전자 장치(101)는 목소리 지문, 촬영 이미지 분석, 입력된 사용자 식별 정보 등 다양한 정보를 이용하여 제 1 사용자를 식별할 수 있다. 2140 동작에서, 전자 장치(101)는 제 2 사용자 음성을 획득할 수 있다. 2150 동작에서, 전자 장치(101)는 제 2 사용자 음성을 분석할 수 있다. 2160 동작에서, 전자 장치(101)는 제 2 사용자 음성에 대응하는 응답 레벨을 결정할 수 있다. 2165 동작에서, 전자 장치(!01)는 제 2 사용자를 식별할 수 있다.
2170 동작에서, 전자 장치(101)는 제 1 사용자 음성에 대응하는 응답 레벨 및 제 2 사용자 음성에 대응하는 응답 레벨을 비교할 수 있다. 2175 동작에서, 전자 장치(101)는 제 1 사용자 및 제 2 사용자 사이의 관계 정보를 확인할 수 있다. 2180 동작에서, 전자 장치(101)는 비교 결과 및 관계 정보에 기초하여 동작을 수행할 수 있다. 본 발명의 다양한 실시예에서, 전자 장치(101)는 응답 레벨이 더 높은 사용자 음성에 대응하는 동작을 수행할 수 있다. 한편, 응답 레벨이 동일한 경우에는, 전자 장치(101)는 미리 설정된 사용자 사이의 관계 정보에 기초하여 우선 순위가 높은 사용자가 발화한 사용자 음성에 대응하는 동작을 수행할 수 있다. 예를 들어, 제 1 사용자는 "It's so cold"라는 제 1 사용자 음성을 발화할 수 있으며, 제 2 사용자는 "It's so hot"이라는 제 2 사용자 음성을 발화한 경우를 상정하도록 한다. 전자 장치(101)는 제 1 사용자 음성 및 제 2 사용자 음성의 응답 레벨을 제 2 응답 레벨로 판단할 수 있다. 이 경우, 전자 장치(101)는 제 1 사용자 및 제 2 사용자 사이의 관계 정보를 판단할 수 있다. 예를 들어, 제 1 사용자에 대한 우선 순위는 제 2 사용자에 대한 우선 순위보다 높을 수 있다. 전자 장치(101)는 제 1 사용자 음성 및 응답 레벨에 대응하여 동작할 수 있다. 전자 장치(101)는 제 1 사용자 음성에 대응하는 추가 이벤트를 모니터링하고, 추가 이벤트 검출시에 제 1 사용자 음성에 대응하는 동작을 수행할 수 있다.
상술한 바에 따라서, 복수 사용자로부터 상이한 명령이 수신된 경우에도, 전자 장치(101)는 사용자의 의도에 부합하도록 명령을 수행할 수 있다. 한편, 본 발명의 다양한 실시예에서, 전자 장치(101)는 사용자와 전자 장치(101) 사이의 관계 정보에 기초하여서 동작을 수행할 수도 있다. 본 발명의 다양한 실시예에서, 전자 장치(101)는 전자 장치(101)와 사용자별 친밀도 등을 미리 저장할 수 있으며, 이를 이용하여 복수 사용자로부터 사용자 음성이 수신된 경우 어느 하나의 사용자의 사용자 음성에 대응하는 동작을 수행할 수 있다.
도 22는 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법을 설명하는 흐름도를 도시한다. 도 22의 실시예는, 도 23a 및 23b를 참조하여 더욱 상세하게 설명하도록 한다. 도 23a 및 23b는 본 발명의 다양한 실시예에 따른 전자 장치의 동작을 설명하기 위한 개념도를 도시한다.
2210 동작에서, 전자 장치(101)는 사용자 음성을 획득할 수 있다. 2220 동작에서, 전자 장치(101)는 획득된 사용자 음성을 분석할 수 있다. 2230 동작에서, 전자 장치(101)는 분석 결과를 이용하여 응답 레벨(response level)을 제 2 응답 레벨로 판단할 수 있다. 예를 들어, 사용자 음성 분석 결과 상태 또는 감정을 지시하는 키워드가 포함된 경우나, 사용자 음성에 부여된 스코어 합계가 기설정된 임계치 미만인 경우를 상정하도록 한다.
2240 동작에서, 전자 장치(101)는 사용자 음성에 대응하는 동작 후보를 결정할 수 있다. 2250 동작에서, 전자 장치(101)는 동작 후보 중 하나에 대응하는 이벤트를 검출할 수 있다. 2260 동작에서, 전자 장치(101)는 검출된 이벤트에 대응하여 동작 후보 중 하나를 수행할 수 있다. 예를 들어, 도 23a에서와 같이, 전자 장치(101)는 사용자(2301)로부터 사용자 음성(2302)을 획득할 수 있다. 사용자 음성(2302)은 예를 들어 "It's so hot"일 수 있다. 전자 장치(101)는 사용자 음성(2302)을 분석하여, 사용자 음성(2302)의 응답 레벨을 제 2 응답 레벨로 판단할 수 있다. 전자 장치(101)는 상태에 대응하는 "hot"이라는 키워드를 검출하거나 또는 "hot"에 대응하는 스코어 등을 이용하여 사용자 음성(2302)의 응답 레벨을 제 2 응답 레벨로 판단할 수 있다. 전자 장치(101)는 사용자 음성(2302)의 분석 결과에 기초하여 동작 후보를 결정할 수 있다. 예를 들어, 전자 장치(101)는 사용자 음성(2302)에 포함된 키워드와 연관된 단어를 조합하여 동작 후보를 결정할 수 있다. 예를 들어, 전자 장치(101)는 "hot"이라는 키워드와 "창문 개폐 장치", "에어컨", "선풍기"를 연관하여 저장할 수 있으며, "turn on", 등의 제어 키워드를 연관하여 저장할 수 있다. 전자 장치(101)는 연관 저장된 단어의 조합을 이용하여 "에어컨으로 턴 온 신호 송신하기", "에어컨으로 턴 온 신호 송신하기", "선풍기로 턴 온 신호 송신하기", "창문 개방 신호 송신하기" 등의 동작 후보를 판단할 수 있다. 전자 장치(101)는 동작 후보를 표시하는 그래픽 유저 인터페이스(2310)를 표시할 수 있다. 도 23b에서와 같이, 전자 장치(101)는 사용자(2301)로부터 동작 후보 중 하나를 선택하는 피드백(2322)을 검출할 수 있다. 피드백(2322)은 예를 들어 사용자 음성으로 "에어컨을 켜"일 수 있다. 전자 장치(101)는 피드백(2322)에 대응하여 동작 후보 중 하나를 실행할 수 있다. 이에 따라, 전자 장치(101)는 "에어컨으로 턴 온 신호 송신하기"의 동작을 수행하여, 에어컨(2341)으로 턴 온 신호를 송신할 수 있다. 아울러, 전자 장치(101)는 피드백(2322)을 확인하는 그래픽 유저 인터페이스(2330)를 표시할 수도 있다.
도 24는 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법을 설명하는 흐름도를 도시한다. 도 24의 실시예는, 도 25a 내지 25c를 참조하여 더욱 상세하게 설명하도록 한다. 도 25a 내지 25c는 본 발명의 다양한 실시예에 따른 온톨로지를 설명하기 위한 개념도를 도시한다.
2410 동작에서, 전자 장치(101)는 사용자 음성을 획득할 수 있다. 2420 동작에서, 전자 장치(101)는 획득된 사용자 음성을 분석할 수 있다. 2430 동작에서, 전자 장치(101)는 분석 결과를 이용하여 응답 레벨(response level)을 제 2 응답 레벨로 판단할 수 있다.
2440 동작에서, 전자 장치(101)는 사용자 음성 중 키워드를 추출할 수 있다. 예를 들어, 전자 장치(101)는 예를 들어, "The TV makes me angry"의 사용자 음성으로부터 "TV" 및 "angry"의 키워드를 추출할 수 있다. 2450 동작에서, 전자 장치(101)는 추출된 키워드와 연관된 단어를 조합하여 동작 후보를 생성할 수 있다. 예를 들어, 전자 장치(101)는 도 25a와 같은 동작 또는 동작 후보 생성을 위한 온톨로지를 저장할 수 있다. 도 25a를 참조하면, 감정을 지시하는 키워드(happiness,anger,sadness,surprise)는 nonaction의 카테고리에 포함될 수 있다. 아울러, 감정을 지시하는 키워드는 오브젝트인 TV의 단어와 연관될 수 있다. 한편, 오브젝트인 TV는 action의 카테고리와 연관되어 저장되며, action의 카테고리에는 up, down, on, off 등의 제어 키워드가 포함되며, up의 제어 키워드에는 channel, volume의 키워드가 포함될 수 있다.
전자 장치(101)는 도 25a와 같은 온톨로지를 이용하여, TV 및 angry와 연관된 키워드들을 조합함으로써, 예를 들어 channel up, volume up, channel down, volume down 등의 동작 후보들을 판단할 수 있다. 한편, 도 25a의 실시예에서는 키워드별 매칭되는 키워드와의 대응 가능성을 수치로써 부여할 수도 있다. 예를 들어, 도 25a의 실시예에서는, happiness의 키워드와 volume의 키워드의 대응 가능성이 70%으로 설정되고, anger의 키워드와 channel의 대응 가능성이 90%로 설정될 수 있다. 전자 장치(101)는 anger의 키워드와 대응 가능성이 상대적으로 높은 channel의 키워드를 선택하여, channel up, channel down 등을 동작 후보들로 판단할 수 있다. 이 경우, 대응 가능성이 상대적으로 낮게 설정된 동작은 동작 후보들에서 제외될 수도 있다.
도 25b 및 25c는 본 발명의 다양한 실시예에 따른 온톨로지를 도시한다.
도 25b를 참조하면, 전자 장치(101)는 키워드의 추상화 정도에 따라 추상화 레벨을 가지며 직접적인 의미에서 모호한 의미로 확장될수록 계층적인 레벨을 가진 데이터베이스를 구성할 수 있다. 전자 장치(101)는 레벨에 따라 응답 레벨을 결정할 수도 있으며 또는 동작을 결정할 수도 있다.
도 25b에 따르면 가장 상위 레벨인 TV단어는 추상화된 다음 레벨로 TV를 통하여 디스플레이 될 수 있는 드라마, 영화등을 하위 단어로 연결될 수 있으며, TV의 브랜드, TV와 관련된 객체 등과 연결될 수 있다. 그리고 해당 2단계의 객체들 역시 하위 추상화 키워드를 가질 수 있다. 따라서 전자 장치는 인식된 음성 명령의 KEYWORD의 추상화 레벨을 비교하고 음성 명령의 각 구성요소들의 레벨에 따라 ACTIVITY 레벨을 결정할 수 있다. 예를 들어 대상, 시간, 장소 키워드의 추상화 레벨이 2단계 이내인 경우 사용자에 의한 경우의 수가 적으므로, 음성으로 해당 요소에 대한 컨펌을 요청하며, 추상화 레벨이 3단계 이상인 경우 경우의 수가 많으므로 터치 입력을 통하여 선택을 할 수 있는 등의 다른 인터페이스를 제공할 수 있다.
예를 들어, 전자 장치(101)는 "HEY! 드라마 하면 그거 좀 켜봐"라는 사용자 음성을 획득할 수 있다. 전자 장치(101)는 드라마라는 키워드를 인식하고, 획득된 사용자 음성 중 대상 키워드의 레벨을 데이터 베이스의 추상화 레벨을 참고하여 스코어를 합산할 수 있다. 이때, 전자 장치는 전체 자연어 문장에서 요소별 레벨의 총합의 기준에 따라 응답 레벨을 결정할 수 있다. 아울러, 키워드 연관 정보에 기초하여, 동작을 "TV 턴 온"으로 결정할 수 있다. 아울러, 전자 장치(101)는 사용자 히스토리를 참조할 수 있으며, 이를 동작에 반영하여 "지금 계신 거실에 TV를 어제 보시던 드라마 시작하는 7시에 켜드릴까요?"와 같은 피드백을 제공할 수 있다.
도 25c를 참조하면, 전자 장치(101)는 턴 온의 제어 키워드 하위에, 제어 키워드 실행 조건에 대한 키워드를 연관하는 온톨로지를 저장할 수 있다. 아울러, 실행 조건에 대한 키워드의 하위에는 실행 조건을 설명하기 위한 키워드를 연관하여 저장할 수 있다. 예를 들어, 전자 장치(101)가 "드라마 시작할 시간이네"라는 사용자 음성을 획득할 수 있다. 전자 장치(101)는 "시간이네"라는 키워드로서 "턴 온"의 제어 키워드를 추출할 수 있다. 아울러, 전자 장치(101)는 도 25b의 온톨로지를 활용하여, "드라마"의 키워드로부터 "TV"의 키워드를 추출할 수 있다. 이에 따라, 전자 장치(101)는 "TV를 턴 온"한다는 사용자 음성에 대응하는 동작을 판단할 수 있다. 즉, 전자 장치(101)는 복수 개의 온톨로지를 이용하여 사용자 음성에 대응하는 동작을 판단할 수도 있다. 전자 장치(101)는 "TV를 켤까요?" 등의 피드백을 제공할 수 있으며, 사용자로부터 추가 확인이 검출되면, TV에 턴 온 신호를 송신할 수 있다.
상술한 바와 같이, 본 발명의 다양한 실시예에 따른 전자 장치(101)는 하나 또는 복수의 온톨로지를 이용하여 사용자 음성의 응답 레벨을 결정할 수 있으며, 또한 사용자 음성에 대응하는 동작 또는 동작 후보를 결정할 수도 있다. 상술한 바와 같이, 전자 장치(101)는 다양한 온톨로지를 입력받거나 다른 전자 장치로부터 수신할 수 있다. 아울러, 전자 장치(101)는 다른 전자 장치로부터의 정보 또는 스스로 획득한 정보를 이용하여 온톨로지를 학습하여 확장 또는 업데이트할 수 있다.
도 26은 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법의 흐름도를 도시한다. 도 26의 실시예는 도 27을 참고하여 더욱 상세하게 설명하도록 한다. 도 27은 본 발명의 다양한 실시예에 따른 전자 장치의 동작을 설명하기 위한 개념도를 도시한다.
2610 동작에서, 전자 장치(101)는 사용자 음성을 획득할 수 있다. 2620 동작에서, 전자 장치(101)는 획득된 사용자 음성을 분석할 수 있다. 2630 동작에서, 전자 장치(101)는 분석 결과를 이용하여 응답 레벨(response level)을 제 2 응답 레벨로 판단할 수 있다. 2640 동작에서, 전자 장치(101)는 사용자 음성에 대응하는 동작 후보를 결정할 수 있다. 전자 장치(101)는 예를 들어 사용자 음성에 포함된 키워드와 연관되어 저장된 단어의 조합을 이용하여 동작 후보를 결정할 수 있다.
2650 동작에서, 전자 장치(101)는 추가 이벤트를 검출할 수 있다. 여기에서, 추가 이벤트는 사용자의 접근으로 설정된 경우를 상정하도록 한다. 예를 들어, 도 27에서와 같이, 전자 장치(101)는 사용자(2301)의 접근을 검출할 수 있다. 전자 장치(101)는 촬영된 이미지 분석 또는 근접 센서로부터의 정보에 기초하여 사용자(2301)까지의 거리(d4)를 판단할 수 있다. 전자 장치(101)는 사용자(2301)와의 거리(d4)가 기설정된 임계치 미만인 경우에 사용자의 접근으로 설정된 추가 이벤트가 검출된 것으로 판단할 수 있다.
2660 동작에서, 전자 장치(101)는 동작 후보를 표시할 수 있다. 전자 장치(101)는 도 27에서와 같이, 동작 후보를 포함하는 사용자 그래픽 인터페이스(2310)를 표시할 수 있다. 한편, 전자 장치(101)는 동작 후보를 포함하는 문의형 문장을 생성하고, 이를 TTS하여 음성으로 출력할 수도 있다. 2670 동작에서, 전자 장치(101)는 동작 후보 중 하나에 대응하는 이벤트 검출할 수 있다. 예를 들어, 전자 장치(101)는 동작 후보 중 하나를 지정하는 사용자 음성 또는 터치를 검출할 수 있다. 2680 동작에서, 전자 장치(101)는 동작 후보 중 하나를 수행할 수 있다.
도 28은 본 발명의 다양한 실시예에 따른 전자 장치의 동작을 설명하기 위한 개념도를 도시한다.
도 28을 참조하면, 전자 장치(101)는, 사용자 음성에 대응하는 동작을 결정할 수 있는 요소(factor)를 전자 장치에 의한 요소(2801) 및 사용자에 의한 요소(2802)로 분류할 수 있다. 전자 장치(101)는 응답 레벨이 높을수록 전자 장치에 의한 요소(2801)가 상대적으로 많은 부분을 차지할 수 있고, 사용자에 의한 요소(2802)가 상대적으로 적은 부분을 차지할 수 있다. 한편, 응답 레벨이 상대적으로 낮은 경우에는, 전자 장치에 의한 요소(2811)가 상대적으로 적은 부분을 차지할 수 있고, 사용자에 의한 요소(2812)가 상대적으로 많은 부분을 차지할 수 있다. 이는, 응답 레벨이 상대적으로 낮은 경우에는, 전자 장치(101)가 동작을 결정 및 수행하기 위하여 사용자로부터 획득하여야하는 정보가 상대적으로 많다는 것을 의미할 수 있다.
도 29는 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도를 도시한다. 도 29의 실시예는 도 30a 내지 30c를 참조하여 더욱 상세하게 설명하도록 한다. 도 30a 내지 30c는 본 발명의 다양한 실시예에 따른 하드웨어 선택을 설명하기 위한 개념도를 도시한다.
2910 동작에서, 전자 장치(101)는 사용자 음성을 획득할 수 있다. 2920 동작에서, 전자 장치(101)는 획득된 사용자 음성을 분석하고, 분석 결과를 이용하여 응답 레벨(response level)을 판단할 수 있다. 예를 들어, 도 30a에서와 같이, 전자 장치(101)는 마이크(3001)를 통하여 사용자 음성을 획득할 수 있다. 프로세서(3010)의 자연어 인식부(3011) 및 응답 레벨 판단부(3012)는 사용자 음성을 자연어 인식하고 응답 레벨을 판단할 수 있다.
2930 동작에서, 전자 장치(101)는 판단된 응답 레벨별로 동작을 수행할 하드웨어를 결정할 수 있다. 예를 들어, 전자 장치(101)는 도 30b에서와 같이, 사용자 음성의 응답 레벨이 제 1 응답 레벨인 경우에는, 스피커(3020) 및 통신 네트워크(3050)를 사용할 하드웨어로 결정할 수 있다. 아울러, 도 30c에서와 같이, 사용자 음성의 응답 레벨이 제 2 응답 레벨인 경우에는, 전자 장치(101)는 스피커(3020), 디스플레이(3030), 구동부(3040) 및 통신 네트워크(3050)를 사용할 하드웨어로 결정할 수 있다. 즉, 본 발명의 다양한 실시예에서, 전자 장치(101)는 상이한 응답 레벨별로 상이한 하드웨어를 사용할 하드웨어로 결정할 수 있다.
2940 동작에서, 전자 장치(101)는 결정된 하드웨어를 이용하여 동작을 수행할 수 있다.
도 31은 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도를 도시한다. 도 31의 실시예는 도 32를 참조하여 더욱 상세하게 설명하도록 한다. 도 32는 본 발명의 다양한 실시예에 따른 전자 장치의 동작을 설명하기 위한 개념도를 도시한다.
3110 동작에서, 전자 장치(101)는 사용자 음성을 획득할 수 있다. 3120 동작에서, 전자 장치(101)는 획득된 사용자 음성을 분석할 수 있다. 3130 동작에서, 전자 장치(101)는 사용자 감정을 분석할 수 있다. 본 발명의 다양한 실시예에서, 전자 장치(101)는 사용자 음성의 분석 결과로부터 사용자 감정을 분석할 수 있다. 예를 들어, 전자 장치(101)는 사용자의 감정 상태에 대응하여 변경되는 목소리 특징에 대한 정보를 미리 저장할 수 있다. 목소리 특징에 대한 정보는, 목소리의 파형, 주파수, 파우즈(pause), 키워드 등 다양한 정보를 포함할 수 있다. 전자 장치(101)는 획득된 사용자 음성의 목소리 특징을 감정별로 저장된 목소리 특징과 비교할 수 있으며, 비교 결과에 기초하여 사용자의 감정 상태를 분석할 수 있다.
3140 동작에서, 전자 장치(101)는 사용자 음성 분석 결과 및 사용자 감정 분석 결과를 이용하여 응답 레벨(response level)을 판단할 수 있다. 예를 들어, 전자 장치(101)는 "What is on the TV"이라는 사용자 음성을 획득할 수 있다. 전자 장치(101)는 사용자 음성을 분석하여 "TV"의 키워드를 추출할 수 있다. 예를 들어, 전자 장치(101)는 사용자 음성을 분석하여 사용자의 감정이 지루함을 판단할 수 있다. 전자 장치(101)는 사용자의 감정이 지루한 경우와 전자 장치의 식별 정보가 함께 검출된 경우에는, 해당 사용자 음성을 제 1 응답 레벨로 분류하도록 미리 설정될 수 있다. 전자 장치(101)는 제 1 응답 레벨의 사용자 음성에 대응하여, 턴 온하는 제어 신호를 TV로 즉각적으로 송신할 수 있다. 한편, 전자 장치(101)는 사용자 음성을 분석하여 사용자의 감정이 행복함을 판단할 수 있다. 전자 장치(101)는 사용자의 감정이 행복한 경우와 전자 장치의 식별 정보가 함께 검출된 경우에는, 해당 사용자 음성을 제 2 응답 레벨로 분류하도록 미리 설정될 수 있다. 전자 장치(101)는 제 2 응답 레벨의 사용자 음성에 대응하여, TV를 턴 온 할지 여부를 문의하는 피드백을 제공한 후에, 피드백에 대한 사용자의 확인이 검출되면, 턴 온하는 제어 신호를 TV로 송신할 수 있다. 즉, 상술한 바와 같이, 전자 장치(101)는 동일한 사용자 음성에 대하여서도, 사용자 감정별로 상이한 응답 레벨을 부여할 수도 있다.
뿐만 아니라, 전자 장치(101)는 사용자 음성에 대응하는 동작을 사용자 감정 분석 결과를 이용하여 결정할 수도 있다. 예를 들어, 전자 장치(101)는 사용자 감정이 지루한 경우에는, 동작 또는 동작 후보로서 "TV 턴 온 후 쇼 채널을 선택하는 제어 신호를 TV로 송신"으로 결정할 수 있다. 전자 장치(101)는 사용자 감정이 행복한 경우에는, 동작 또는 동작 후보로서, "TV 턴 온 후 스포츠 채널을 선택하는 제어 신호를 TV로 송신"으로 결정할 수도 있다. 즉, 전자 장치(101)는 동일한 사용자 음성에 대하여서도, 사용자 감정별로 상이한 동작을 수행할 수도 있다.
본 발명의 다양한 실시예에서, 전자 장치(101)는 도 32에서와 같이, 다른 전자 장치(3210)로부터 송신되는 정보(3211)를 기초로 사용자 감정을 판단할 수도 있다. 즉, 전자 장치(101)는 사용자(3201)로부터 발화되는 사용자 음성(3202)을 분석할 수 있으며, 이와는 독립적으로 다른 전자 장치(3210)로부터 송신되는 정보(3211)를 기초로 사용자 감정을 판단할 수 있다. 다른 전자 장치(3210)는 생체 정보를 획득할 수 있으며, 이를 이용하여 사용자 감정을 획득할 수 있다. 다른 전자 장치(3210)는 생체 정보를 획득할 수 있다. 생체 정보는, 뇌파 신호, EEG(electroencephalogram) 신호, ECG(Electrocardiogram) 신호, EMG(electromyograph) 신호, EOG(electrooculogram) 신호, 혈압 및 체온 중 적어도 하나를 포함할 수 있으며, 생체의 상태를 나타낼 수 있는 정보라면 제한이 없다. 전자 장치(101)는 다른 전자 장치(3210)로부터 생체 정보를 수신하거나 또는 생체 정보를 이용하여 분석된 사용자 감정을 수신할 수도 있다.
도 33은 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법의 흐름도를 도시한다. 도 33의 실시예는 도 34a 내지 34c를 참조하여 더욱 상세하게 설명하도록 한다. 도 34a 내지 34c는 본 발명의 다양한 실시예에 따른 전자 장치의 동작을 설명하기 위한 개념도들을 도시한다.
3310 동작에서, 전자 장치(101)는 사용자 모션을 획득할 수 있다. 본 발명의 다양한 실시예에서, 전자 장치(101)는 사용자 모션을 획득할 수 있는 카메라, 뎁스 카메라 또는 사용자 모션 센서 등을 포함할 수 있다. 전자 장치(101)는 카메라로 촬영된 2차원 이미지 분석 결과, 뎁스 카메라로 촬영된 3차원 이미지 분석 결과 또는 사용자 모션 센서로부터의 출력 등을 이용하여 사용자 모션을 획득할 수 있다.
3320 동작에서, 전자 장치(101)는 획득된 사용자 모션을 분석할 수 있다. 본 발명의 다양한 실시예에서, 전자 장치(101)는 사용자 모션과 전자 장치(101)의 동작을 연관시켜 저장할 수 있다. 예를 들어, 전자 장치(101)는 사용자가 손가락으로 가리키는 모션을 획득한 경우, 손가락으로 가리키는 방향에 배치된 전자 장치를 동작시키는 신호를 송신하는 동작을 수행하도록 설정될 수 있다. 예를 들어, 도 34a에서와 같이, 전자 장치(101)는 사용자(3401)를 촬영(3410)할 수 있으며, 사용자 모션을 획득할 수 있다. 예를 들어, 전자 장치(101)는 사용자가 오른손을 들어 에어컨(3420)을 가리키는 모션(3402)을 획득할 수 있다. 전자 장치(101)는 사용자 모션(3402)이 가리키는 방향에 배치된 전자 장치가 에어컨(3420)인 것을 판단할 수 있다. 전자 장치(101)는 네트워크 내의 전자 장치 배치 환경을 미리 저장할 수 있으며, 사용자의 위치 및 사용자 모션 등을 이용하여 사용자 모션(3402)에 대응되는 전자 장치를 확인할 수 있다. 전자 장치(101)는 에어컨(3420)에 턴 온 신호(3430)를 송신할 수 있다.
3330 동작에서, 전자 장치(101)는 사용자 모션 분석 결과를 이용하여 응답 레벨(response level)을 판단할 수 있다. 3340 동작에서, 전자 장치(101)는 응답 레벨에 따라 동작을 수행할 수 있다. 전자 장치(101)는 의도가 불명확한 사용자 모션을 획득할 수도 있다. 전자 장치(101)는 의도가 비교적 명확한 사용자 모션, 즉 기저장된 사용자 모션과 유사도가 임계치를 초과하는 사용자 모션에 대하여서는 상대적으로 높은 응답 레벨, 예를 들어 제 1 응답 레벨을 부여할 수 있다. 이 경우, 전자 장치(101)는 제 1 응답 레벨의 사용자 모션에 대응하는 동작을 즉각적으로 수행할 수 있다. 아울러, 의도가 비교적 불명확한 사용자 모션, 즉 기저장된 사용자 모션과 유사도가 임계치 이하인 사용자 모션에 대하여서는 상대적으로 낮은 응답 레벨, 예를 들어 제 2 응답 레벨을 부여할 수 있다. 이 경우, 전자 장치(101)는 제 2 응답 레벨의 사용자 모션에 대응하는 동작을 유보한 이후에, 추가적인 이벤트가 검출되면 유보되었던 동작을 수행할 수 있다. 본 발명의 다양한 실시예에서, 전자 장치(101)는 동작 후보를 표시하고, 사용자 확인이 검출되는 경우 선택된 동작을 수행할 수도 있다.
본 발명의 다양한 실시예에서, 전자 장치(101)는 사용자 모션 및 전자 장치의 동작 사이의 연관 정보를 미리 저장할 수 있으며, 추후 학습을 통하여 연관 정보를 확장 또는 업데이트할 수 있다. 예를 들어, 도 34b에서와 같은 사용자(3401)가 목 주위의 옷을 붙잡고 흔드는 모션(3403) 이후에 에어컨 또는 선풍기가 동작하였다는 히스토리를 전자 장치(101)는 학습할 수 있으며, 이에 따라 목 주위의 옷을 붙잡고 흔드는 모션(3403)과 에어컨 또는 선풍기가가 동작하였다는 연관 정보를 저장할 수 있다. 한편, 전자 장치(101)는 목 주위의 옷을 붙잡고 흔드는 모션(3403)이 에어컨 또는 선풍기 중 어떤 하나의 특정 전자 장치를 지시하는지는 명확하지 않다는 정보를 저장할 수 있다. 이에 따라, 목 주위의 옷을 붙잡고 흔드는 모션(3403)이 획득된 경우, 전자 장치(101)는 목 주위의 옷을 붙잡고 흔드는 모션(3403)의 응답 레벨을 제 2 응답 레벨로 판단할 수 있다. 아울러, 목 주위의 옷을 붙잡고 흔드는 모션(3403)에 대응하는 동작 후보를, 에어컨으로 턴 온 신호 송신 또는 선풍기로 턴 온 신호 송신으로 판단할 수 있다. 도 34b에서와 같이, 전자 장치(101)는 동작 후보를 출력(3411)할 수 있다. 도 34c에서, 전자 장치(101)는 동작 후보 중 하나를 선택하는 사용자 피드백(3404)을 획득할 수 있으며, 선택된 동작을 수행할 수 있다. 전자 장치(101)는 에어컨(3420)으로 턴 온 신호(3430)를 송신할 수 있다.
상술한 바와 같이, 본 발명의 다양한 실시예에 의한 전자 장치(101)는 사용자 음성에 의한 명령뿐만 아니라, 사용자 모션에 의한 명령에 대하여서도 응답 레벨을 결정할 수 있으며, 응답 레벨별로 동작을 수행할 수 있다. 전자 장치(101)는 제 1 응답 레벨을 가지는 사용자 모션에 대하여서는 대응하는 동작을 즉각적으로 수행할 수 있으며, 제 2 응답 레벨을 가지는 사용자 모션에 대하여서는 대응하는 동작을 추가 이벤트가 검출된 경우에 수행할 수 있다.
도 35는 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도를 도시한다. 도 35의 실시예는 도 36a 및 36b를 참조하여 더욱 상세하게 설명하도록 한다. 도 36a 및 36b는 본 발명의 다양한 실시예에 따른 전자 장치의 동작을 설명하기 위한 개념도들을 도시한다.
3510 동작에서, 전자 장치(101)는 사용자 음성을 획득할 수 있다. 3520 동작에서, 전자 장치(101)는 사용자 모션을 획득할 수 있다. 3530 동작에서, 전자 장치(101)는 사용자 음성 분석 결과 및 사용자 모션 분석 결과를 이용하여 응답 레벨을 판단할 수 있다. 3540 동작에서, 전자 장치(101)는 응답 레벨에 따라 동작을 수행할 수 있다. 즉, 전자 장치(101)는 사용자 음성 및 사용자 모션 양자를 모두 이용하여 응답 레벨을 판단할 수 있다.
예를 들어, 도 36a에서와 같이, 전자 장치(101)는 사용자(3601)로부터 발화되는 사용자 음성(3602)을 획득할 수 있다. 전자 장치(101)는 사용자 모션을 획득하지 않을 수 있다. 전자 장치(101)는 "hhu~"의 사용자 음성(3602)을 획득할 수 있으며, 사용자 음성(3602)의 응답 레벨을 제 3 응답 레벨로 판단할 수 있다.
도 36b에서와 같이, 전자 장치(101)는 사용자(3601)로부터 발화되는 사용자 음성(3602)을 획득할 수 있다. 전자 장치(101)는 목 주위의 옷을 붙잡고 흔드는 모션(3603)을 획득(3610)할 수 있다. 전자 장치(101)는 사용자 음성(3602) 및 사용자 모션(3603) 양자에 대하여 제 2 응답 레벨을 설정할 수 있으며, 이에 대응하여 동작 후보를 출력(3611)할 수 있다. 전자 장치(101)는 학습을 통하여 사용자 음성(3602) 및 동작 후보를 연관하여 저장할 수 있으며, 추후에 도 36a와 같은 "hhu~"와 같은 사용자 음성(3602)이 단독 검출된 경우에도, 제 2 응답 레벨을 설정할 수 있다.
도 37은 본 발명의 다양한 실시예에 따른 전자 장치의 동작 환경을 설명하기 위한 개념도를 도시한다.
도 37에 도시된 바와 같이, 본 발명의 다양한 실시예에 따른 전자 장치(3701,3702,3703,3704,3705,3706)는 사무실 환경을 구성하는 전자 장치들일 수 있다. 아울러, 전자 장치(3701,3702,3703,3704,3705,3706)는 서로 정보(3711,3712,3713,3714,3715,3716,3717)를 송수신할 수 있다. 전자 장치(3701,3702,3703,3704,3705,3706)는 IoT 환경을 구성하는 엔티티로 구현될 수 있으며, 특정 이벤트가 발생하거나 또는 주기적으로 정보(3711,3712,3713,3714,3715,3716,3717)를 송수신할 수 있다. 전자 장치(3701,3702,3703,3704,3705,3706)는 다양한 통신 방식에 기초하여 서로 정보(3711,3712,3713,3714,3715,3716,3717)를 송수신할 수 있으며, 통신 방식에는 제한이 없다.
도 38은 본 발명의 다양한 실시예에 따른 IoT 환경에서의 전자 장치의 동작을 설명하기 위한 흐름도를 도시한다.
3810 동작에서, 제 2 전자 장치(101-2)는 제 1 전자 장치(101-1)로부터의 제 1 정보를 수신할 수 있다. 3820 동작에서, 제 2 전자 장치(101-2)는 제 3 전자 장치(101-3)로부터의 제 2 정보를 수신할 수 있다.
3830 동작에서, 제 2 전자 장치(101-2) 제 1 정보 및 제 2 정보를 이용하여 사용자 명령을 검출할 수 있다. 예를 들어, 도 37과 같은 사무실 환경에서, 제 2 전자 장치(101-2)는 에어컨일 수 있으며, 제 1 전자 장치(101-1)는 마이크일 수 있으며, 제 3 전자 장치(101-3)는 카메라일 수 있다. 이 경우, 제 2 전자 장치(101-2)는 제 1 전자 장치(101-1)로부터 사용자 음성을 수신할 수 있으며, 제 3 전자 장치(101-3)로부터 사용자 모션을 수신할 수 있다. 제 2 전자 장치(101-2)는 사용자 음성 및 사용자 모션을 이용하여 사용자 명령을 판단할 수 있다.
3840 동작에서, 제 2 전자 장치(101-2)는 사용자 명령에 대한 응답 레벨을 판단할 수 있다. 3850 동작에서, 제 2 전자 장치(101-2)는 응답 레벨에 따라 동작을 수행할 수 있다. 도 34a 내지 34c에서 상술한 바와 같이, 제 2 전자 장치(101-2)는 "hhu~"의 사용자 음성을 제 1 전자 장치(101-1)로부터 수신하고, 사용자가 정지하고 있다는 사용자 모션을 제 3 전자 장치(101-3)로부터 수신할 수 있다. 이 경우, 제 2 전자 장치(101-2)는 사용자 음성 및 사용자 모션에 의한 사용자 명령의 응답 레벨을 제 3 응답 레벨로 판단하고, 사용자 명령을 무시할 수 있다. 또는, 제 2 전자 장치(101-2)는 "huu~"의 사용자 음성을 제 1 전자 장치(101-1)로부터 수신하고, 사용자가 에어컨, 즉 제 2 전자 장치(101-2)를 가리킨다는 사용자 모션을 제 3 전자 장치(101-3)로부터 수신할 수 있다. 이 경우, 제 2 전자 장치(101-2)는 사용자 음성 및 사용자 모션에 의한 사용자 명령의 응답 레벨을 제 2 응답 레벨로 판단하고, 동작 후보를 출력할 수 있다. 예를 들어, 제 2 전자 장치(101-2)는 사용자와 근접하다고 판단되는 전자 장치, 예를 들어 도 37의 사무실 환경에서의 데스크탑과 같은 전자 장치로 동작 후보를 송신할 수 있다. 사용자와 근접하다고 판단되는 전자 장치는, 예를 들어 카메라와 같은 전자 장치로부터 수집된 정보에 의하여 판단될 수 있다. 만약, 사용자가 프린터 근처에 위치하는 것으로 판단되면, 에어컨은 동작 후보를 프린터로 송신할 수 있으며, 프린터는 동작 후보를 포함하는 인쇄물을 인쇄할 수 있다. 데스크탑은 수신된 동작 후보를 표시할 수 있으며, 사용자로부터 동작 후보 중 하나를 선택받을 수 있다. 예를 들어, 동작 후보는, 에어컨을 턴 온 하는 것 또는 전등을 턴 오프하는 것 등일 수 있다. 사용자가 전등을 턴 오프하는 동작을 선택한 경우에는, 데스크탑은 전등 턴 오프 신호를 전등으로 송신할 수 있다. 상술한 바와 같이, IoT 환경에서의 전자 장치는 다양한 전자 장치로부터 수집된 정보에 의하여 사용자 명령을 획득할 수 있으며, 획득된 사용자 명령의 응답 레벨을 판단할 수 있다. 아울러, 사용자 명령에 대응하는 동작 또한 전자 장치 자신이 수행하지 않고 다른 전자 장치를 제어하는 신호를 송신할 수도 있다. 뿐만 아니라, 동작 후보를 표시하는 주체 또한 사용자 명령을 검출하고 응답 레벨을 판단한 전자 장치가 아닌 다른 전자 장치가 될 수도 있으며, 선택된 동작을 수행하는 전자 장치는 동작 후보를 표시하는 주체 및 사용자 명령을 검출한 주체가 아닌 또 다른 전자 장치가 될 수도 있다.
도 39는 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도를 도시한다.
3910 동작에서, 전자 장치(101)는 제 1 동작을 수행하기 위한 제 1 이벤트를 검출할 수 있다. 3920 동작에서, 전자 장치(101)는 제 1 이벤트 검출 시점에서 제 1 동작을 수행할지 또는 제 1 이벤트와 상이한 제 2 이벤트 검출 시점에서 제 1 동작을 수행할지 여부를 결정할 수 있다. 즉, 본 발명의 다양한 실시예에서, 전자 장치(101)는 제 1 동작을 제 1 이벤트 검출에 대응하여 즉각적으로 수행할 수 있거나 또는 제 1 동작 수행을 유보하였다가 추후 제 2 이벤트가 검출되면 수행할 수 있다.
제 1 이벤트 검출 시점에서 제 1 동작을 수행하기로 결정되면, 3930 동작에서, 전자 장치(101)는 제 1 이벤트를 수행할 수 있다. 제 2 이벤트 검출 시점에서 제 1 동작을 수행하기로 결정되면, 3940 동작에서, 전자 장치(101)는 제 2 이벤트를 검출할 수 있으며, 3950 동작에서 제 2 이벤트의 검출 시점에서 제 1 동작을 수행할 수 있다.
도 40은 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도를 도시한다. 도 40의 실시에는 도 41a 및 41b를 참조하여 더욱 상세하게 설명하도록 한다. 도 41a 및 41b는 본 발명의 다양한 실시예에 따른 전자 장치의 동작을 설명하기 위한 개념도들을 도시한다.
4010 동작에서, 전자 장치(101)는 제 1 동작을 수행하기 위한 제 1 이벤트를 검출할 수 있다. 예를 들어, 도 41a에서와 같이, 전자 장치(101)는 문자 메시지(text message)가 수신되는 제 1 이벤트를 검출할 수 있다. 전자 장치(101)는 문자 메시지 수신시에 문자 메시지가 수신되었음을 알리는 출력(4110)을 제공하도록 설정될 수 있다. 즉, 제 1 동작은 문자 메시지 수신 알림일 수 있다.
4020 동작에서, 전자 장치(101)는 제 1 동작을 수행에 대한 제한 조건을 판단할 수 있다. 예를 들어, 전자 장치(101)는 제 1 동작인 문자 메시지 수신 알림 수행에 대한 제한 조건으로 회의 환경을 설정할 수 있다.
4030 동작에서, 전자 장치(101)는 제한 조건이 해소되는지 여부를 판단할 수 있다. 4040 동작에서, 전자 장치(101)는 제한 조건이 해소되는 시점에서 제 1 동작을 수행할 수 있다. 즉, 전자 장치(101)는 제한 조건이 만족되는 동안에는 제 1 동작의 수행을 유보할 수 있다. 예를 들어, 도 41a에서, 전자 장치(101)는 제한 조건이 만족되지 않는 것으로 판단될 수 있다. 전자 장치(101)는 TV(4102)로부터 턴 온 상태라는 신호를 수신할 수 있으며, 이에 대응하여 회의 환경이 아닌 것으로 판단할 수 있어, 제한 조건이 만족되지 않은 것으로 판단할 수 있다. 이 경우, 전자 장치(101)는 제 1 이벤트 검출 시점에서 제 1 동작을 수행하여, 문자 메시지 수신을 알리는 출력(4110)을 제공할 수 있다.
한편, 도 41b에서, 전자 장치(101)는 제한 조건이 만족된 것으로 판단할 수 있다. 예를 들어, 전자 장치(101)는 내장된 일정 관리 어플리케이션과 현재 시간을 비교함에 따라서, 현재 시간에 대응되는 일정이 회의 시간인 것을 판단할 수 있으며, 이에 따라 회의 환경의 제한 조건이 만족된 것으로 판단할 수 있다. 또는, 전자 장치(101)는 카메라(4120)와 같은 외부 전자 장치로부터 수신되는 정보를 이용하여 현재 환경이 회의 환경인 것으로 판단할 수도 있다. 예를 들어, 전자 장치(101)는 사용자(4101) 이외의 타인(4102)이 일정시간 이상 동일한 장소에 착석하여 대화를 나누는 환경을 회의 환경인 것으로 판단하는 환경 판단 알고리즘을 미리 저장할 수 있으며, 알고리즘 적용 결과에 기초하여 회의 환경을 판단할 수 있다.
전자 장치(101)는 제한 조건이 만족되는 동안에는 제 1 동작, 즉 문자 메시지 알림의 출력을 유보할 수 있다. 전자 장치(101)는 제한 조건이 해소된 것으로 판단되면, 제 1 동작을 수행할 수 있다. 예를 들어, 전자 장치(101)는 일정 관리 어플리케이션으로부터의 데이터를 이용하여 회의 환경이 종료된 것을 판단하거나 또는 외부 전자 장치(1420)로부터의 데이터를 이용하여 회의 환경이 종료된 것을 판단할 수 있다. 전자 장치(101)는 문자 메시지 알림의 출력(4140)을 제공할 수 있다.
즉, 본 발명의 다양한 실시예에 의한 전자 장치는, 사용자의 명령이 아닌 이벤트에 의한 동작을 처리하는 경우에 있어서도, 이벤트에 의한 동작을 즉각적으로 수행하거나 또는 추가 이벤트, 예를 들어 제한 조건의 해소 등을 검출한 경우에 수행할 수 있다.
도 42는 본 발명의 다양한 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도를 도시한다.
4210 동작에서, 전자 장치(101)는 사용자 음성을 획득할 수 있다. 4220 동작에서, 전자 장치(101)는 획득된 사용자 음성을 분석할 수 있다. 4230 동작에서, 전자 장치(101)는 추가 검출 정보를 획득할 수 있다. 예를 들어, 전자 장치(101)는 외부를 촬영한 이미지를 추가 검출 정보로서 획득할 수 있다. 또는, 전자 장치(101)는 외부 온도를 추가 검출 정보로서 획득할 수 있다. 전자 장치(101)는 포함하고 있는 하드웨어로부터 추가 검출 정보를 획득할 수 있거나 또는 다른 전자 장치로부터 송신된 추가 검출 정보를 획득할 수 있다.
4240 동작에서, 전자 장치(101)는 사용자 음성 분석 결과 및 추가 검출 정보에 기초하여 응답 레벨을 결정할 수 있다. 4250 동작에서, 전자 장치(101)는 응답 레벨 별로 설정된 동작을 수행할 수 있다. 상술한 실시예를, 도 43a 및 43b와 도 44a 및 44b를 참조하여 더욱 상세하게 설명하도록 한다.
도 43a를 참조하면, 전자 장치(101)는 사용자(4301)로부터의 사용자 음성(4302)을 획득할 수 있다. 전자 장치(101)는 사용자(4301)를 촬영(4305)한 추가 검출 정보를 획득할 수 있다. 예를 들어, 전자 장치(101)는 사용자(4301)가 전자 장치(101)를 응시하지 않는다는 정보를, 촬영(4305) 결과로부터 획득할 수 있다. 전자 장치(101)는 사용자 음성(4302)으로 "It's hot"을 획득할 수 있다. 전자 장치(101)는 "It's hot"이라는 사용자 음성의 분석을 통하여 응답 레벨을 제 2 응답 레벨로 판단할 수 있다. 아울러, 전자 장치(101)는 전자 장치(101)가 사용자(4301)가 전자 장치(101)를 응시하지 않는다는 정보를 이용하여, 응답 레벨을 제 2 응답 레벨로 유지할 수 있다. 예를 들어, 전자 장치(101)는, 사용자(4301)가 전자 장치(101)를 응시하는 추가 검출 정보를 응답 레벨 증가 조건으로 설정할 수 있다.
도 43b를 참조하면, 전자 장치(101)는 사용자(4301)로부터의 사용자 음성(4303)을 획득할 수 있다. 전자 장치(101)는 사용자(4301)를 촬영(4305)한 추가 검출 정보를 획득할 수 있다. 예를 들어, 전자 장치(101)는 사용자(4301)가 전자 장치(101)를 응시하는 정보를, 촬영(4305) 결과로부터 획득할 수 있다. 전자 장치(101)는 사용자 음성(4303)으로 "It's hot"을 획득할 수 있다. 전자 장치(101)는 "It's hot"이라는 사용자 음성의 분석을 통하여 응답 레벨을 제 2 응답 레벨로 판단할 수 있다. 아울러, 전자 장치(101)는 전자 장치(101)가 사용자(4301)가 전자 장치(101)를 응시하는 정보를 이용하여, 응답 레벨을 제 1 응답 레벨로 조정할 수 있다. 예를 들어, 전자 장치(101)는, 사용자(4301)가 전자 장치(101)를 응시하는 추가 검출 정보를 응답 레벨 증가 조건으로 설정할 수 있으며, 설정된 조건의 만족에 대응하여 응답 레벨을 조정할 수 있다. 전자 장치(101)는 제 1 응답 레벨에 기초하여, 에어컨(4310)으로 구동 신호(4320)를 송신할 수 있다.
상술한 바와 같이, 전자 장치(101)는 동일한 사용자 음성에 대하여서도, 상이한 추가 검출 정보에 따라, 사용자 음성의 응답 레벨을 상이하게 판단할 수 있다.
도 44a를 참조하면, 전자 장치(101)는 사용자(4401)로부터의 사용자 음성(4402)을 획득할 수 있다. 전자 장치(101)는 온도계(4420)로부터 현재 기온을 포함하는 추가 검출 정보(4421)를 수신할 수 있다. 예를 들어, 전자 장치(101)는 현재 기온이 14도라는 추가 검출 정보(4421)를 수신할 수 있다. 전자 장치(101)는 사용자 음성(4402)으로 "It's hot"을 획득할 수 있다. 전자 장치(101)는 "It's hot"이라는 사용자 음성의 분석을 통하여 응답 레벨을 제 2 응답 레벨로 판단할 수 있다. 아울러, 전자 장치(101)는 현재 기온이 14도라는 추가 검출 정보(4421)를 이용하여, 응답 레벨을 제 2 응답 레벨로 유지할 수 있다. 예를 들어, 전자 장치(101)는, 현재 기온이 28도 이상인 추가 검출 정보를 응답 레벨 증가 조건으로 설정할 수 있다.
도 44b를 참조하면, 전자 장치(101)는 사용자(4401)로부터의 사용자 음성(4403)을 획득할 수 있다. 전자 장치(101)는 사용자(4401)를 촬영(4305)한 추가 검출 정보를 획득할 수 있다. 전자 장치(101)는 온도계(4420)로부터 현재 기온을 포함하는 추가 검출 정보(4422)를 수신할 수 있다. 예를 들어, 전자 장치(101)는 현재 기온이 30도라는 추가 검출 정보(4422)를 수신할 수 있다. 전자 장치(101)는 사용자 음성(4403)으로 "It's hot"을 획득할 수 있다. 전자 장치(101)는 "It's hot"이라는 사용자 음성의 분석을 통하여 응답 레벨을 제 2 응답 레벨로 판단할 수 있다. 아울러, 전자 장치(101)는 현재 기온이 30도라는 추가 검출 정보(4422)를 이용하여, 응답 레벨을 제 1 응답 레벨로 조정할 수 있다. 예를 들어, 전자 장치(101)는, 현재 기온이 28도 이상인 추가 검출 정보를 응답 레벨 증가 조건으로 설정할 수 있으며, 설정된 조건의 만족에 대응하여 응답 레벨을 조정할 수 있다. 전자 장치(101)는 제 1 응답 레벨에 기초하여, 에어컨(4410)으로 구동 신호(4420)를 송신할 수 있다.
상술한 바와 같이, 전자 장치(101)는 동일한 사용자 음성에 대하여서도, 상이한 추가 검출 정보에 따라, 사용자 음성의 응답 레벨을 상이하게 판단할 수 있다.
본 발명의 다양한 실시예에서, 전자 장치의 제어 방법은, 사용자 음성을 획득하는 동작; 상기 사용자 음성의 응답 레벨을 판단하는 동작; 상기 사용자 음성의 응답 레벨이 제 1 응답 레벨인 경우에는, 상기 사용자 음성에 대응하는 동작을 상기 사용자 음성의 획득 시점에 대응하여 수행하는 동작; 및 상기 사용자 음성의 응답 레벨이 제 2 응답 레벨인 경우에는, 상기 사용자 음성에 대응하는 동작을 추가 이벤트가 검출된 시점에 대응하여 수행하는 동작을 포함할 수 있다.
본 발명의 다양한 실시예에서, 상기 사용자 음성의 응답 레벨을 판단하는 동작은, 상기 사용자 음성을 인식한 텍스트를 획득하는 동작; 및 상기 텍스트에 포함된 키워드가 기 기정된 규칙을 만족하는지 여부에 기초하여 상기 사용자 음성의 응답 레벨을 판단하는 동작을 포함할 수 있다.
본 발명의 다양한 실시예에서, 상기 사용자 음성의 응답 레벨을 판단하는 동작은, 상기 텍스트에 포함된 키워드가 제 1 응답 레벨에 대응하는 규칙을 만족하는 경우에는, 상기 사용자 음성의 응답 레벨을 상기 제 1 응답 레벨로 판단하는 동작을 포함할 수 있다.
본 발명의 다양한 실시예에서, 제 1 응답 레벨에 대응하는 규칙은, 전자 장치의 제어를 지시하는 제어 키워드, 동작을 수행하는 전자 장치를 지시하는 키워드, 동작을 수행하는 장소를 지시하는 키워드 또는 동작을 수행할 시간을 지시하는 키워드 중 적어도 하나를 검출하는 것을 포함할 수 있다.
본 발명의 다양한 실시예에서, 상기 사용자 음성의 응답 레벨을 판단하는 동작은, 상기 텍스트에 포함된 키워드가 제 2 응답 레벨에 대응하는 규칙을 만족하는 경우에는, 상기 사용자 음성의 응답 레벨을 상기 제 2 응답 레벨로 판단하는 동작을 포함할 수 있다.
본 발명의 다양한 실시예에서, 상기 제 2 응답 레벨에 대응하는 규칙은, 사용자의 감정 또는 상태를 지시하는 키워드, 환경의 상태를 지시하는 키워드, 상기 전자 장치의 히스토리를 지시하는 키워드, 동작을 수행하는 전자 장치의 동작의 컨텐츠를 지시하는 키워드 또는 동작을 수행하는 전자 장치의 작동 상태를 지시하는 키워드 중 적어도 하나를 검출하는 것을 포함할 수 있다.
본 발명의 다양한 실시예에서, 상기 규칙은, 명령의 의도를 파악하기 위한 정확도와 관련된 추상화 레벨에 따라 계층이 분류되고, 포함하는 키워드의 계층 또는 포함하는 키워드 사이의 연관 정보를 포함하는 온톨로지(ontology)를 포함할 수 있다.
본 발명의 다양한 실시예에서, 상기 사용자 음성의 응답 레벨을 판단하는 동작은, 상기 텍스트에 포함된 키워드를 상기 온톨로지와 비교하는 동작; 비교 결과에 따라 상기 텍스트에 포함된 키워드 각각에 스코어를 부여하는 동작; 및 상기 부여된 스코어의 합계를 기설정된 임계치와 비교하여 상기 사용자 음성의 응답 레벨을 판단하는 동작을 포함할 수 있다.
본 발명의 다양한 실시예에서, 상기 사용자 음성의 응답 레벨을 판단하는 동작은, 상기 부여된 스코어의 합계가 제 1 임계치를 초과하면, 상기 사용자 음성의 응답 레벨을 상기 제 1 응답 레벨로 판단하는 동작; 및 상기 부여된 스코어의 합계가 제 2 임계치를 초과하고 상기 제 1 임계치 이하이면, 상기 사용자 음성의 응답 레벨을 상기 제 2 응답 레벨로 판단하는 동작을 포함할 수 있다.
본 발명의 다양한 실시예에서, 전자 장치의 제어 방법은, 획득된 정보에 기초하여 상기 규칙을 확장하거나 또는 업데이트하는 동작을 더 포함할 수 있다.
본 발명의 다양한 실시예에서, 상기 사용자 음성의 응답 레벨을 판단하는 동작은, 상기 텍스트를 자연어 해석하고, 상기 자연어 해석 결과 동사로 분류된 키워드를 우선적으로 상기 규칙을 만족하는지를 판단하는 동작을 포함할 수 있다.
본 발명의 다양한 실시예에서, 상기 사용자 음성의 응답 레벨을 판단하는 동작은, 상기 사용자 음성의 분석 결과를 이용하거나 또는 다른 전자 장치로부터의 추가 정보를 이용하여 사용자 감정을 획득하는 동작; 및 상기 사용자 감정 및 상기 기 지정된 규칙을 만족하는지 여부를 이용하여 상기 사용자 음성의 응답 레벨을 판단하는 동작을 포함할 수 있다.
본 발명의 다양한 실시예에서, 전자 장치의 제어 방법은, 상기 사용자 음성의 응답 레벨이 상기 제 2 응답 레벨인 경우에는, 상기 사용자 음성에 대응하는 동작 후보를 판단하는 동작을 더 포함할 수 있다.
본 발명의 다양한 실시예에서, 전자 장치의 제어 방법은, 상기 판단된 동작 후보를 출력하는 동작; 및 상기 동작 후보 중 어느 하나가 선택되는 상기 추가 이벤트가 검출되면, 선택된 동작을 수행하는 동작을 더 포함할 수 있다.
본 발명의 다양한 실시예에서, 전자 장치의 제어 방법은, 다른 추가 이벤트가 검출되면, 상기 판단된 동작 후보를 출력하는 동작을 더 포함할 수 있다.
본 발명의 다양한 실시예에서, 전자 장치의 제어 방법은, 상기 사용자 음성을 인식한 텍스트를 획득하는 동작; 및 상기 텍스트에 포함된 키워드와 온톨로지 상에서 연관된 키워드를 조합하여 상기 동작 후보를 판단하는 동작을 더 포함하며, 상기 온톨로지는, 명령의 의도를 파악하기 위한 정확도와 관련된 추상화 레벨에 따라 계층이 분류되고, 포함하는 키워드의 계층 또는 포함하는 키워드 사이의 연관 정보를 포함할 수 있다.
본 발명의 다양한 실시예에서, 상기 사용자 음성의 응답 레벨이 제 2 응답 레벨인 경우에는, 상기 사용자 음성에 대응하는 동작을 추가 이벤트가 검출된 시점에 대응하여 수행하는 동작은, 상기 사용자 음성에 대응하는 사용자 식별 정보를 획득하는 동작; 및 상기 사용자 음성의 응답 레벨이 상기 제 2 응답 레벨인 경우, 상기 추가 이벤트에 대응하는 사용자가 상기 사용자 음성에 대응하는 사용자 식별 정보와 동일한지 여부에 따라 상기 사용자 음성에 대응하는 동작을 수행하는 동작을 포함할 수 있다.
본 발명의 다양한 실시예에서, 상기 사용자 음성의 응답 레벨이 제 2 응답 레벨인 경우에는, 상기 사용자 음성에 대응하는 동작을 추가 이벤트가 검출된 시점에 대응하여 수행하는 동작은, 상기 사용자 음성이 획득된 제 1 시점을 판단하는 동작; 및 상기 사용자 음성의 응답 레벨이 상기 제 2 응답 레벨인 경우, 상기 추가 이벤트가 검출된 제 2 시점과 상기 제 1 시점 사이의 차이가 기설정된 임계치 미만인지 여부에 따라 상기 사용자 음성에 대응하는 동작을 수행하는 동작을 포함할 수 있다.
본 발명의 다양한 실시예에서, 전자 장치의 제어 방법은, 다른 사용자 음성을 획득하는 동작; 및 상기 다른 사용자 음성의 응답 레벨과 상기 사용자 음성의 응답 레벨을 비교하여, 상기 다른 사용자 음성에 대응하는 동작 또는 상기 사용자 음성에 대응하는 동작 중 하나를 수행하는 동작을 더 포함할 수 있다.
본 발명의 다양한 실시예에서, 전자 장치의 제어 방법은, 상기 사용자 음성에 대응하는 제 1 사용자와 상기 다른 사용자 음성에 대응하는 제 2 사용자 사이의 관계 정보를 이용하여, 상기 다른 사용자 음성에 대응하는 동작 또는 상기 사용자 음성에 대응하는 동작 중 하나를 수행하는 동작을 더 포함할 수 있다.
본 발명의 다양한 실시예에서, 전자 장치의 제어 방법은, 상기 동작을 수행하기 위한 제어 신호를 상기 제 1 응답 레벨 및 상기 제 2 응답 레벨별로 상이한 하드웨어로 출력하는 동작을 더 포함할 수 있다.
본 발명의 다양한 실시예에서, 전자 장치의 제어 방법은, 상기 사용자 음성의 응답 레벨이 제 3 응답 레벨인 경우에는, 상기 사용자 음성을 무시하는 동작을 더 포함할 수 있다.
본 발명의 다양한 실시예에서, 전자 장치의 제어 방법은, 제 1 동작을 실행하도록 설정된 제 1 이벤트를 검출하는 동작; 상기 제 1 동작의 수행에 대한 제한 조건이 만족되는지 여부를 판단하는 동작; 상기 제 1 동작의 수행에 대한 제한 조건이 만족되지 않으면, 상기 제 1 동작을 상기 제 1 이벤트 검출 시점에 대응하여 수행하는 동작; 및 상기 제 1 동작의 수행에 대한 제한 조건이 만족되면, 상기 제 1 동작을 상기 제 1 이벤트와 상이한 제 2 이벤트 검출 시점에 대응하여 수행하는 동작을 포함할 수 있다.
본 발명의 다양한 실시예에서, 전자 장치의 제어 방법은, 상기 제 2 이벤트는 상기 제한 조건이 해제되는 이벤트일 수 있다.
본 발명의 다양한 실시예에서, 전자 장치의 제어 방법은, 사용자 모션을 획득하는 동작; 상기 사용자 모션의 응답 레벨을 판단하는 동작; 상기 사용자 모션의 응답 레벨이 제 1 응답 레벨인 경우에는, 상기 사용자 모션에 대응하는 동작을 상기 사용자 음성의 획득 시점에 대응하여 수행하는 동작; 및 상기 사용자 모션의 응답 레벨이 제 2 응답 레벨인 경우에는, 상기 사용자 모션에 대응하는 동작을 추가 이벤트가 검출된 시점에 대응하여 수행하는 동작을 포함할 수 있다.
상기 전자 장치의 전술한 구성요소들 각각은 하나 또는 그 이상의 부품(component)으로 구성될 수 있으며, 해당 구성 요소의 명칭은 전자 장치의 종류에 따라서 달라질 수 있다. 다양한 실시예에서, 전자 장치는 전술한 구성요소 중 적어도 하나를 포함하여 구성될 수 있으며, 일부 구성요소가 생략되거나 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 또한, 다양한 실시예에 따른 전자 장치의 구성 요소들 중 일부가 결합되어 하나의 개체(entity)로 구성됨으로써, 결합되기 이전의 해당 구성 요소들의 기능을 동일하게 수행할 수 있다.
본 문서에서 사용된 용어 “모듈”은, 예를 들면, 하드웨어, 소프트웨어 또는 펌웨어(firmware) 중 하나 또는 둘 이상의 조합을 포함하는 단위(unit)를 의미할 수 있다. “모듈”은, 예를 들면, 유닛(unit), 로직(logic), 논리 블록(logical block), 부품(component), 또는 회로(circuit) 등의 용어와 바꾸어 사용(interchangeably use)될 수 있다. “모듈”은, 일체로 구성된 부품의 최소 단위 또는 그 일부가 될 수 있다. “모듈”은 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수도 있다. “모듈”은 기계적으로 또는 전자적으로 구현될 수 있다. 예를 들면,“모듈”은, 알려졌거나 앞으로 개발될, 어떤 동작들을 수행하는 ASIC(application-specific integrated circuit) 칩, FPGAs(field-programmable gate arrays) 또는 프로그램 가능 논리 장치(programmable-logic device) 중 적어도 하나를 포함할 수 있다.
다양한 실시예에 따른 장치(예: 모듈들 또는 그 기능들) 또는 방법(예: 동작들)의 적어도 일부는, 예컨대, 프로그램 모듈의 형태로 컴퓨터로 읽을 수 있는 저장매체(computer-readable storage media)에 저장된 명령어로 구현될 수 있다. 상기 명령어는, 프로세서(예: 프로세서(120))에 의해 실행될 경우, 상기 하나 이상의 프로세서가 상기 명령어에 해당하는 기능을 수행할 수 있다. 컴퓨터로 읽을 수 있는 저장매체는, 예를 들면, 상기 메모리(130)가 될 수 있다.
상기 컴퓨터로 판독 가능한 기록 매체는, 하드디스크, 플로피디스크, 마그네틱 매체(magnetic media)(예: 자기테이프), 광기록 매체(optical media)(예: CD-ROM(compact disc read only memory), DVD(digital versatile disc), 자기-광 매체(magneto-optical media)(예: 플롭티컬 디스크(floptical disk)), 하드웨어 장치(예: ROM(read only memory), RAM(random access memory), 또는 플래시 메모리 등) 등을 포함할 수 있다. 또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한 하드웨어 장치는 다양한 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지다.
다양한 실시예에 따른 모듈 또는 프로그램 모듈은 전술한 구성요소들 중 적어도 하나 이상을 포함하거나, 일부가 생략되거나, 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 다양한 실시예에 따른 모듈, 프로그램 모듈 또는 다른 구성요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱(heuristic)한 방법으로 실행될 수 있다. 또한, 일부 동작은 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.
본 발명의 다양한 실시예에 따르면, 명령들을 저장하고 있는 저장 매체에 있어서, 상기 명령들은 적어도 하나의 프로세서에 의하여 실행될 때에 상기 적어도 하나의 프로세서로 하여금 적어도 하나의 동작을 수행하도록 설정된 것으로서, 상기 적어도 하나의 동작은, 사용자 음성을 획득하는 동작, 상기 사용자 음성의 응답 레벨을 판단하는 동작, 상기 사용자 음성의 응답 레벨이 제 1 응답 레벨인 경우에는, 상기 사용자 음성에 대응하는 동작을 상기 사용자 음성의 획득 시점에 대응하여 수행하는 동작 및 상기 사용자 음성의 응답 레벨이 제 2 응답 레벨인 경우에는, 상기 사용자 음성에 대응하는 동작을 추가 이벤트가 검출된 시점에 대응하여 수행하는 동작을 포함할 수 있다.
그리고 본 문서에 개시된 실시예는 개시된, 기술 내용의 설명 및 이해를 위해 제시된 것이며, 본 개시의 범위를 한정하는 것은 아니다. 따라서, 본 개시의 범위는, 본 개시의 기술적 사상에 근거한 모든 변경 또는 다양한 다른 실시예를 포함하는 것으로 해석되어야 한다.

Claims (50)

  1. 전자 장치에 있어서,
    디스플레이;
    마이크로폰;
    메모리; 및
    상기 메모리에 전기적으로 연결된 적어도 하나의 프로세서
    를 포함하고,
    상기 메모리는, 실행시에 상기 프로세서가,
    상기 마이크로폰을 통해 제1 사용자의 사용자 음성을 획득하고,
    상기 사용자 음성을 인식한 텍스트를 획득하고,
    상기 텍스트에 포함된 적어도 하나의 키워드를 획득하고,
    상기 사용자 음성으로부터 획득된 상기 적어도 하나의 키워드가 미리 지정된 규칙을 만족하는지 여부에 기초하여 상기 사용자 음성의 응답 레벨을 식별하고,
    상기 사용자 음성의 상기 응답 레벨이 제 1 응답 레벨인 경우에는, 상기 사용자 음성에 대한 응답으로서 상기 사용자 음성에 대응하는 제1 동작을 수행하고,
    상기 사용자 음성의 상기 응답 레벨이 상기 제1 응답 레벨과 다른 제 2 응답 레벨인 경우에는, 상기 적어도 하나의 키워드에 기반하여 하나 이상의 동작 후보를 포함하는 사용자 인터페이스를 표시하도록 상기 디스플레이를 제어하고,
    상기 사용자의 음성의 상기 응답 레벨이 상기 제2 응답 레벨이고, 상기 제1 사용자의 상기 사용자 음성을 획득한 후 미리 지정된 시간 내에 상기 제1 사용자와 관련된 이벤트가 감지되는 경우에는, 상기 사용자 음성에 대한 응답으로 상기 하나 이상의 동작 후보들 중 적어도 하나의 동작 후보에 대응하는 제2 동작을 수행하기 시작하는 인스트럭션을 저장하는 전자 장치.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 메모리는, 실행시에 상기 프로세서가,
    상기 텍스트에 포함된 상기 적어도 하나의 키워드가 상기 제 1 응답 레벨에 대응하는 규칙을 만족하는 경우에는, 상기 사용자 음성의 상기 응답 레벨을 상기 제 1 응답 레벨로 식별하는 인스트럭션을 저장하는 전자 장치.
  4. 제 3 항에 있어서,
    상기 제 1 응답 레벨에 대응하는 상기 규칙은 상기 전자 장치의 제어를 지시하는 제어 키워드, 동작을 수행하는 상기 전자 장치를 지시하는 키워드, 동작을 수행하는 장소를 지시하는 키워드 또는 동작을 수행할 시간을 지시하는 키워드 중 적어도 하나를 검출하는 것을 포함하는 전자 장치.
  5. 제 1 항에 있어서,
    상기 메모리는, 실행시에 상기 프로세서가,
    상기 텍스트에 포함된 상기 적어도 하나의 키워드가 상기 제 2 응답 레벨에 대응하는 규칙을 만족하는 경우에는, 상기 사용자 음성의 상기 응답 레벨을 상기 제 2 응답 레벨로 식별하는 인스트럭션을 저장하는 전자 장치.
  6. 제 5 항에 있어서,
    상기 제 2 응답 레벨에 대응하는 상기 규칙은, 사용자의 감정 또는 상태를 지시하는 키워드, 환경의 상태를 지시하는 키워드, 상기 전자 장치의 히스토리를 지시하는 키워드, 동작을 수행하는 상기 전자 장치의 동작의 컨텐츠를 지시하는 키워드 또는 동작을 수행하는 상기 전자 장치의 작동 상태를 지시하는 키워드 중 적어도 하나를 검출하는 것을 포함하는 전자 장치.
  7. 제 1 항에 있어서,
    상기 미리 지정된 규칙은, 명령의 의도를 파악하기 위한 정확도와 관련된 추상화 레벨에 따라 계층이 분류되고, 포함하는 키워드의 계층 또는 포함하는 키워드 사이의 연관 정보를 포함하는 온톨로지(ontology)를 포함하는 전자 장치.
  8. 제 7 항에 있어서,
    상기 메모리는, 실행시에 상기 프로세서가,
    상기 텍스트에 포함된 상기 적어도 하나의 키워드를 상기 온톨로지와 비교하고,
    비교 결과에 따라 상기 텍스트에 포함된 키워드 각각에 스코어를 부여하고,
    상기 부여된 스코어의 합계를 기설정된 임계치와 비교하여 상기 사용자 음성의 상기 응답 레벨을 식별하는 인스트럭션을 저장하는 전자 장치.
  9. 제 8 항에 있어서,
    상기 메모리는, 실행시에 상기 프로세서가,
    상기 부여된 스코어의 합계가 제 1 임계치를 초과하면, 상기 사용자 음성의 상기 응답 레벨을 상기 제 1 응답 레벨로 식별하고,
    상기 부여된 스코어의 합계가 제 2 임계치를 초과하고 상기 제 1 임계치 이하이면, 상기 사용자 음성의 상기 응답 레벨을 상기 제 2 응답 레벨로 식별하는 인스트럭션을 저장하는 전자 장치.
  10. 제 1 항에 있어서,
    상기 메모리는, 실행시에 상기 프로세서가,
    획득된 정보에 기초하여 상기 미리 지정된 규칙을 확장하거나 또는 업데이트하는 인스트럭션을 저장하는 전자 장치.
  11. 제 1 항에 있어서,
    상기 메모리는, 실행시에 상기 프로세서가,
    상기 텍스트를 자연어 해석하고, 상기 자연어 해석 결과 동사로 분류된 키워드를 우선적으로 상기 규칙을 만족하는지를 판단하는 인스트럭션을 저장하며,
    상기 제1 응답 레벨은 명령을 직접 수행하기 위한 명령문이고,
    상기 제2 응답 레벨은 명령을 간접적으로 수행하기 위한 명령문인, 전자 장치.
  12. 제 1 항에 있어서,
    상기 메모리는, 실행시에 상기 프로세서가,
    상기 사용자 음성의 분석 결과를 이용하거나 또는 다른 전자 장치로부터의 추가 정보를 이용하여 사용자 감정을 획득하고,
    상기 사용자 감정 및 상기 미리 지정된 규칙의 만족 여부를 이용하여 상기 사용자 음성의 상기 응답 레벨을 판단하는 인스트럭션을 저장하는 전자 장치.
  13. 삭제
  14. 제 1 항에 있어서,
    상기 메모리는, 실행시에 상기 프로세서가,
    상기 전자 장치의 스피커를 통해 상기 적어도 하나의 동작 후보를 포함하는 음성 출력을 출력하고,
    상기 사용자 음성을 획득한 후 상기 미리 지정된 시간 내에 상기 이벤트를 검출하면, 상기 적어도 하나의 동작 후보 중 어느 하나를 선택하고,
    상기 제1 사용자와 연관된 다른 추가 이벤트가 검출되면, 상기 적어도 하나의 동작 후보를 출력하는 인스트럭션을 저장하며,
    상기 선택된 적어도 하나의 동작 후보에 대응하는 상기 제2 동작은 상기 이벤트를 검출한 시점에 기반하여 수행되는 전자 장치.
  15. 삭제
  16. 제 1 항에 있어서,
    상기 메모리는, 명령의 의도를 파악하기 위한 정확도와 관련된 추상화 레벨에 따라 계층이 분류되고, 포함하는 키워드의 계층 또는 포함하는 키워드 사이의 연관 정보를 포함하는 온톨로지(ontology)를 저장하고,
    상기 메모리는, 실행시에 상기 프로세서가,
    상기 사용자 음성을 인식한 텍스트를 획득하고,
    상기 텍스트에 포함된 상기 적어도 하나의 키워드와 상기 온톨로지 상에서 연관된 키워드를 조합하여 상기 동작 후보를 식별하는 인스트럭션을 저장하는 전자 장치.
  17. 제 1 항에 있어서,
    상기 메모리는, 실행시에 상기 프로세서가,
    상기 사용자 음성에 대응하는 사용자 식별 정보를 획득하고,
    상기 사용자 음성의 상기 응답 레벨이 상기 제 2 응답 레벨인 경우, 추가 이벤트에 대응하는 사용자가 상기 사용자 음성에 대응하는 사용자 식별 정보와 동일한지 여부에 따라 상기 사용자 음성에 대응하는 동작을 수행하는 인스트럭션을 저장하는 전자 장치.
  18. 제 1 항에 있어서,
    상기 메모리는, 실행시에 상기 프로세서가,
    상기 사용자 음성이 획득된 제 1 시점을 판단하고,
    상기 사용자 음성의 상기 응답 레벨이 상기 제 2 응답 레벨인 경우, 추가 이벤트가 검출된 제 2 시점과 상기 제 1 시점 사이의 차이가 미리 설정된 임계치 미만인지 여부에 따라 상기 사용자 음성에 대응하는 동작을 수행하는 인스트럭션을 저장하는 전자 장치.
  19. 제 1 항에 있어서,
    상기 메모리는, 실행시에 상기 프로세서가,
    다른 사용자 음성을 획득하고,
    상기 다른 사용자 음성의 응답 레벨과 상기 사용자 음성의 상기 응답 레벨을 비교하여, 상기 다른 사용자 음성에 대응하는 동작 또는 상기 사용자 음성에 대응하는 동작 중 하나를 수행하는 전자 장치.
  20. 제 19 항에 있어서,
    상기 메모리는, 실행시에 상기 프로세서가,
    상기 사용자 음성에 대응하는 상기 제 1 사용자와 상기 다른 사용자 음성에 대응하는 제 2 사용자 사이의 관계 정보를 이용하여, 상기 다른 사용자 음성에 대응하는 동작 또는 상기 사용자 음성에 대응하는 동작 중 하나를 수행하는 인스트럭션을 저장하는 전자 장치.
  21. 제 1 항에 있어서,
    상기 메모리는, 실행시에 상기 프로세서가,
    상기 사용자 음성에 대응하는 동작을 수행하기 위한 제어 신호를 상기 제 1 응답 레벨 및 상기 제 2 응답 레벨별로 상이한 하드웨어로 출력하는 인스트럭션을 저장하는 전자 장치.
  22. 제 1 항에 있어서,
    상기 메모리는, 실행시에 상기 프로세서가,
    상기 사용자 음성의 응답 레벨이 제 3 응답 레벨인 경우에는, 상기 사용자 음성을 무시하는 인스트럭션을 저장하며,
    상기 하나 이상의 동작 후보를 포함하는 상기 사용자 인터페이스는 상기 제2 응답 레벨의 식별 후 디스플레이되는 전자 장치.
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
  46. 삭제
  47. 삭제
  48. 삭제
  49. 삭제
  50. 삭제
KR1020150157196A 2015-11-10 2015-11-10 전자 장치 및 그 제어 방법 KR102453603B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020150157196A KR102453603B1 (ko) 2015-11-10 2015-11-10 전자 장치 및 그 제어 방법
PCT/KR2016/011546 WO2017082543A1 (en) 2015-11-10 2016-10-14 Electronic device and method for controlling the same
CN201680065490.0A CN108369808B (zh) 2015-11-10 2016-10-14 电子设备和用于控制该电子设备的方法
EP16864469.8A EP3341934B1 (en) 2015-11-10 2016-10-14 Electronic device
US15/341,454 US10811002B2 (en) 2015-11-10 2016-11-02 Electronic device and method for controlling the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150157196A KR102453603B1 (ko) 2015-11-10 2015-11-10 전자 장치 및 그 제어 방법

Publications (2)

Publication Number Publication Date
KR20170054707A KR20170054707A (ko) 2017-05-18
KR102453603B1 true KR102453603B1 (ko) 2022-10-12

Family

ID=58663601

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150157196A KR102453603B1 (ko) 2015-11-10 2015-11-10 전자 장치 및 그 제어 방법

Country Status (5)

Country Link
US (1) US10811002B2 (ko)
EP (1) EP3341934B1 (ko)
KR (1) KR102453603B1 (ko)
CN (1) CN108369808B (ko)
WO (1) WO2017082543A1 (ko)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016045735A1 (en) * 2014-09-25 2016-03-31 Siemens Aktiengesellschaft Method and system for performing a configuration of an automation system
US20180358021A1 (en) * 2015-12-23 2018-12-13 Intel Corporation Biometric information for dialog system
KR102591413B1 (ko) * 2016-11-16 2023-10-19 엘지전자 주식회사 이동단말기 및 그 제어방법
KR20180060328A (ko) 2016-11-28 2018-06-07 삼성전자주식회사 멀티 모달 입력을 처리하는 전자 장치, 멀티 모달 입력을 처리하는 방법 및 멀티 모달 입력을 처리하는 서버
US10593328B1 (en) * 2016-12-27 2020-03-17 Amazon Technologies, Inc. Voice control of remote device
KR20180098079A (ko) 2017-02-24 2018-09-03 삼성전자주식회사 비전 기반의 사물 인식 장치 및 그 제어 방법
KR101893768B1 (ko) * 2017-02-27 2018-09-04 주식회사 브이터치 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
JP7073640B2 (ja) * 2017-06-23 2022-05-24 カシオ計算機株式会社 電子機器、感情情報取得システム、プログラム及び感情情報取得方法
KR20190008663A (ko) * 2017-07-17 2019-01-25 삼성전자주식회사 음성 데이터 처리 방법 및 이를 지원하는 시스템
KR102426171B1 (ko) * 2017-10-13 2022-07-29 현대자동차주식회사 대화 시스템, 이를 포함하는 차량 및 대화 서비스 처리 방법
KR102455199B1 (ko) * 2017-10-27 2022-10-18 엘지전자 주식회사 인공지능 디바이스
KR101978372B1 (ko) * 2017-12-15 2019-05-14 동의대학교 산학협력단 음성인식을 이용한 rc카 제어 시스템 및 이를 이용한 rc카 제어방법
KR102458336B1 (ko) * 2018-05-18 2022-10-25 삼성전자주식회사 공기 조화 장치 및 이의 제어 방법
JP7224116B2 (ja) * 2018-06-15 2023-02-17 シャープ株式会社 空気調和機
KR20200013152A (ko) 2018-07-18 2020-02-06 삼성전자주식회사 이전에 대화를 수집한 결과를 기반으로 인공 지능 서비스를 제공하는 전자 장치 및 방법
TWI719337B (zh) * 2018-08-17 2021-02-21 崑山科技大學 基於深度學習之數位控制器的控制方法
CN109065035A (zh) * 2018-09-06 2018-12-21 珠海格力电器股份有限公司 信息交互方法及装置
JP2020043471A (ja) * 2018-09-11 2020-03-19 本田技研工業株式会社 遠隔操作装置、及び遠隔操作システム
US11597085B2 (en) 2018-09-13 2023-03-07 The Charles Stark Draper Laboratory, Inc. Locating and attaching interchangeable tools in-situ
KR20200040625A (ko) * 2018-10-10 2020-04-20 삼성전자주식회사 사용자의 발화를 처리하는 사용자 단말 및 그 제어 방법
US20220046310A1 (en) * 2018-10-15 2022-02-10 Sony Corporation Information processing device, information processing method, and computer program
KR20200047205A (ko) * 2018-10-26 2020-05-07 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN109841216B (zh) * 2018-12-26 2020-12-15 珠海格力电器股份有限公司 语音数据的处理方法、装置和智能终端
CN109378006B (zh) * 2018-12-28 2022-09-16 三星电子(中国)研发中心 一种跨设备声纹识别方法及系统
KR20200093094A (ko) * 2019-01-10 2020-08-05 삼성전자주식회사 전자 장치 및 그 제어 방법
US11482218B2 (en) * 2019-01-22 2022-10-25 Beijing Boe Technology Development Co., Ltd. Voice control method, voice control device, and computer-executable non-volatile storage medium
KR20210134741A (ko) 2019-03-01 2021-11-10 구글 엘엘씨 어시스턴트 응답을 동적으로 적응시키는 방법, 시스템 및 매체
CN111724797A (zh) * 2019-03-22 2020-09-29 比亚迪股份有限公司 基于图像和声纹识别的语音控制方法、系统和车辆
US11786694B2 (en) 2019-05-24 2023-10-17 NeuroLight, Inc. Device, method, and app for facilitating sleep
KR20190089125A (ko) * 2019-07-09 2019-07-30 엘지전자 주식회사 커뮤니케이션 로봇 및 그의 구동 방법
CN112652301B (zh) * 2019-10-12 2023-05-12 阿里巴巴集团控股有限公司 语音处理方法和分布式系统、及语音交互设备和方法
CN110970022B (zh) * 2019-10-14 2022-06-10 珠海格力电器股份有限公司 一种终端控制方法、装置、设备以及可读介质
US11587564B2 (en) 2020-04-20 2023-02-21 Rovi Guides, Inc. Enhancing signature word detection in voice assistants
US11257471B2 (en) * 2020-05-11 2022-02-22 Samsung Electronics Company, Ltd. Learning progression for intelligence based music generation and creation
US20210398524A1 (en) * 2020-06-22 2021-12-23 Amazon Technologies, Inc. Natural language processing
CN112151026A (zh) * 2020-08-20 2020-12-29 未来穿戴技术有限公司 语音控制方法、装置、服务器和计算机可读存储介质
KR20230039423A (ko) * 2021-09-14 2023-03-21 삼성전자주식회사 전자 장치 및 전자 장치의 동작 방법
WO2023106862A1 (ko) * 2021-12-08 2023-06-15 삼성전자 주식회사 전자 장치 및 전자 장치의 동작 방법
WO2023177051A1 (ko) * 2022-03-18 2023-09-21 삼성전자주식회사 증강된 문장 후보에 기반하여 사용자 발화를 처리하는 방법 및 전자 장치
US11804215B1 (en) * 2022-04-29 2023-10-31 Apple Inc. Sonic responses

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005062293A1 (ja) * 2003-12-05 2005-07-07 Kabushikikaisha Kenwood オーディオ機器制御装置、オーディオ機器制御方法及びプログラム

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3677833B2 (ja) * 1995-10-16 2005-08-03 ソニー株式会社 ナビゲーション装置,ナビゲート方法及び自動車
US5799279A (en) 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
JP3842497B2 (ja) * 1999-10-22 2006-11-08 アルパイン株式会社 音声処理装置
US7120234B1 (en) * 1999-12-29 2006-10-10 Bellsouth Intellectual Property Corp. Integrated tone-based and voice-based telephone user interface
US6895380B2 (en) * 2000-03-02 2005-05-17 Electro Standards Laboratories Voice actuation with contextual learning for intelligent machine control
US20030191629A1 (en) * 2002-02-04 2003-10-09 Shinichi Yoshizawa Interface apparatus and task control method for assisting in the operation of a device using recognition technology
US7464035B2 (en) * 2002-07-24 2008-12-09 Robert Bosch Corporation Voice control of home automation systems via telephone
CN1906661B (zh) * 2003-12-05 2011-06-29 株式会社建伍 设备控制装置和设备控制方法
JP2006285522A (ja) * 2005-03-31 2006-10-19 Ntt Docomo Inc タスク選択支援装置、及び、タスク選択支援方法
US7587308B2 (en) * 2005-11-21 2009-09-08 Hewlett-Packard Development Company, L.P. Word recognition using ontologies
JP2008233345A (ja) * 2007-03-19 2008-10-02 Toshiba Corp インタフェース装置及びインタフェース処理方法
US8620652B2 (en) * 2007-05-17 2013-12-31 Microsoft Corporation Speech recognition macro runtime
US8010369B2 (en) * 2007-10-30 2011-08-30 At&T Intellectual Property I, L.P. System and method for controlling devices that are connected to a network
US20110087670A1 (en) * 2008-08-05 2011-04-14 Gregory Jorstad Systems and methods for concept mapping
US8676904B2 (en) * 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
KR20100081587A (ko) 2009-01-06 2010-07-15 삼성전자주식회사 로봇의 소리 인식 장치 및 그 제어 방법
US8600763B2 (en) * 2010-06-04 2013-12-03 Microsoft Corporation System-initiated speech interaction
KR20120024247A (ko) * 2010-09-06 2012-03-14 삼성전자주식회사 사용자의 제스처를 인식하여 이동 장치를 동작하는 방법 및 그 이동 장치
US20130268687A1 (en) * 2012-04-09 2013-10-10 Mcafee, Inc. Wireless token device
KR101987255B1 (ko) * 2012-08-20 2019-06-11 엘지이노텍 주식회사 음성 인식 장치 및 이의 음성 인식 방법
KR102081925B1 (ko) * 2012-08-29 2020-02-26 엘지전자 주식회사 디스플레이 디바이스 및 스피치 검색 방법
US9576574B2 (en) * 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9230560B2 (en) * 2012-10-08 2016-01-05 Nant Holdings Ip, Llc Smart home automation systems and methods
US20150286204A1 (en) * 2012-11-22 2015-10-08 Mitsubishi Electric Corporation Program-creation supporting device, method, and recording medium
KR20140093303A (ko) * 2013-01-07 2014-07-28 삼성전자주식회사 디스플레이 장치 및 그의 제어 방법
CN113470640B (zh) * 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US9119069B1 (en) * 2013-03-14 2015-08-25 Emc Corporation Near field communication based authentication
US9782075B2 (en) * 2013-03-15 2017-10-10 I2Dx, Inc. Electronic delivery of information in personalized medicine
US9275211B2 (en) * 2013-03-15 2016-03-01 Telesign Corporation System and method for utilizing behavioral characteristics in authentication and fraud prevention
JP2014191029A (ja) * 2013-03-26 2014-10-06 Fuji Soft Inc 音声認識システムおよび音声認識システムの制御方法
EP3014610B1 (en) * 2013-06-28 2023-10-04 Harman International Industries, Incorporated Wireless control of linked devices
US9336781B2 (en) * 2013-10-17 2016-05-10 Sri International Content-aware speaker recognition
US10055681B2 (en) * 2013-10-31 2018-08-21 Verint Americas Inc. Mapping actions and objects to tasks
JP6236303B2 (ja) * 2013-11-26 2017-11-22 株式会社デンソーアイティーラボラトリ 制御装置、制御方法およびプログラム
KR102188090B1 (ko) * 2013-12-11 2020-12-04 엘지전자 주식회사 스마트 가전제품, 그 작동방법 및 스마트 가전제품을 이용한 음성인식 시스템
EP2930716B1 (en) * 2014-04-07 2018-10-31 Samsung Electronics Co., Ltd Speech recognition using electronic device and server
US10170123B2 (en) * 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
KR102281178B1 (ko) * 2014-07-09 2021-07-23 삼성전자주식회사 멀티-레벨 음성 인식 방법 및 장치
US9911415B2 (en) * 2014-12-19 2018-03-06 Lenovo (Singapore) Pte. Ltd. Executing a voice command during voice input
US9294476B1 (en) * 2015-02-18 2016-03-22 Keeper Security, Inc. User-defined identity verification system
US9685156B2 (en) * 2015-03-12 2017-06-20 Sony Mobile Communications Inc. Low-power voice command detector
US10079012B2 (en) * 2015-04-21 2018-09-18 Google Llc Customizing speech-recognition dictionaries in a smart-home environment
US10453325B2 (en) * 2015-06-01 2019-10-22 Apple Inc. Creation of reminders using activity state of an application
US20160379638A1 (en) * 2015-06-26 2016-12-29 Amazon Technologies, Inc. Input speech quality matching
US9922476B2 (en) * 2015-08-11 2018-03-20 Schweitzer Engineering Laboratories, Inc. Local access control system management using domain information updates

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005062293A1 (ja) * 2003-12-05 2005-07-07 Kabushikikaisha Kenwood オーディオ機器制御装置、オーディオ機器制御方法及びプログラム

Also Published As

Publication number Publication date
CN108369808A (zh) 2018-08-03
US20170133009A1 (en) 2017-05-11
EP3341934B1 (en) 2020-03-11
KR20170054707A (ko) 2017-05-18
US10811002B2 (en) 2020-10-20
EP3341934A4 (en) 2018-07-11
CN108369808B (zh) 2022-08-16
WO2017082543A1 (en) 2017-05-18
EP3341934A1 (en) 2018-07-04

Similar Documents

Publication Publication Date Title
KR102453603B1 (ko) 전자 장치 및 그 제어 방법
KR102414122B1 (ko) 사용자 발화를 처리하는 전자 장치 및 그 동작 방법
CN107637025B (zh) 用于输出消息的电子装置及其控制方法
CN108292317B (zh) 问题和答案处理方法以及支持该方法的电子设备
CN108023934B (zh) 电子装置及其控制方法
US10825453B2 (en) Electronic device for providing speech recognition service and method thereof
US10217349B2 (en) Electronic device and method for controlling the electronic device
KR20180083587A (ko) 전자 장치 및 그의 동작 방법
KR102389996B1 (ko) 전자 장치 및 이를 이용한 사용자 입력을 처리하기 위한 화면 제어 방법
US20170147919A1 (en) Electronic device and operating method thereof
KR20160071732A (ko) 음성 입력을 처리하는 방법 및 장치
KR20170110967A (ko) 전자 장치 및 전자 장치에서의 정보 제공 방법
KR20170097519A (ko) 음성 처리 방법 및 장치
US10345924B2 (en) Method for utilizing sensor and electronic device implementing same
KR102356889B1 (ko) 음성 인식을 수행하는 방법 및 이를 사용하는 전자 장치
US10311613B2 (en) Electronic device for processing image and method for controlling thereof
KR102431817B1 (ko) 사용자 발화를 처리하는 전자 장치 및 서버
KR20160027640A (ko) 전자 장치 및 전자 장치에서의 개체명 인식 방법
KR20170052976A (ko) 모션을 수행하는 전자 장치 및 그 제어 방법
KR20170027589A (ko) 기능 제어 방법 및 그 방법을 처리하는 전자 장치
KR20170060567A (ko) 전자 장치 및 그 제어 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant