KR20190133579A - Intelligent personal assistant system based on the inner state of user - Google Patents

Intelligent personal assistant system based on the inner state of user Download PDF

Info

Publication number
KR20190133579A
KR20190133579A KR1020180071384A KR20180071384A KR20190133579A KR 20190133579 A KR20190133579 A KR 20190133579A KR 1020180071384 A KR1020180071384 A KR 1020180071384A KR 20180071384 A KR20180071384 A KR 20180071384A KR 20190133579 A KR20190133579 A KR 20190133579A
Authority
KR
South Korea
Prior art keywords
user
state
personal assistant
tts
lifelog
Prior art date
Application number
KR1020180071384A
Other languages
Korean (ko)
Other versions
KR102139855B1 (en
Inventor
이수영
김준우
김태호
신영훈
채명수
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of KR20190133579A publication Critical patent/KR20190133579A/en
Application granted granted Critical
Publication of KR102139855B1 publication Critical patent/KR102139855B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Abstract

Disclosed is an emotional intelligent personal assistant system capable of communicating with a user, understanding an internal state, and keeping close ties with a user. According to one embodiment of the present invention, a personal assistant method performed by the personal assistant system may comprise the steps of: identifying a lifelog from which a voice, facial expression, or emotion of a user is triggered; inferring an internal state of the user through machine learning for identified lifelog; and outputting dialogue data generated in response to the inferred internal state of the user through text to speech (TTS).

Description

사용자와 대화하며 내면 상태를 이해하고 긴밀한 관계를 맺을 수 있는 감성지능형 개인비서 시스템{INTELLIGENT PERSONAL ASSISTANT SYSTEM BASED ON THE INNER STATE OF USER}INTELLIGENT PERSONAL ASSISTANT SYSTEM BASED ON THE INNER STATE OF USER} to communicate with users, understand their inner state and build close relationships

아래의 설명은 인공지능 기술에 관한 것으로, 사용자와 대화하며 내면 상태를 이해하고 긴밀한 관계를 맺을 수 있는 감성지능형 개인비서 시스템에 관한 것이다. The following description relates to artificial intelligence technology, and to an emotional personal assistant system that can communicate with users, understand their internal state, and establish close relationships.

앞으로의 인공지능은 인간을 얼마나 잘 이해하고 도울 수 있는지가 중요한 문제로 대두될 것이나, 현재의 인공지능은 디바이스는 스피커로서 대표된다. 기능 중심적인 디바이스로서 단순한 지식 전달의 역할 혹은 질문-응답(Q&A)을 잘하나 인간의 감성과 정서를 이해하지 못하여 실용화에 한계로 작용한다.Future AI will emerge as an important issue of how well we can understand and help humans, but current AI is represented as a speaker. As a function-oriented device, it plays a simple role of knowledge transfer or Q & A, but does not understand human emotions and emotions, limiting its practical use.

현재 출시된 인공지능 스피커 디바이스 경우 사용자가 어떤 감정으로 대하든 음성 인식 후 사용자의 질문 및 요구에 대해 대응한다. 하지만 인간은 현재 처한 상황과 감정, 심리상태 및 발화자가 누군지에 따라 같은 말이라도 다르게 느낄 수 있다. 그러므로 인간의 상황에 상관없이 항상 똑같이 대하는 인공지능은 인간의 비서로서 욕구를 충족시키기에는 어려운 상황이다. The AI speaker device currently on the market responds to user's questions and needs after voice recognition, regardless of how the user feels. However, humans can feel the same words differently depending on their present situation, feelings, psychological state, and who the speaker is. Therefore, AI, which always treats the same regardless of the human situation, is a difficult situation to satisfy the desire as a human secretary.

알고리즘 설계 시 사용자가 원하는 대답을 지정하여 인공지능 디바이스가 들려줄 수 있도록 할 수 있으나, 반려동물과는 다르게 감정 교류와 공감 능력이 없는 인공지능 디바이스는 정해진 상황에 대하여 똑같은 행동을 취하고 주인을 남들과 같이 대하므로 쉽게 인간의 흥미를 잃을 수 있다. When designing the algorithm, the user can specify the desired answer so that the AI device can be heard.However, unlike the companion animal, the AI device that has no emotional exchange and empathy ability does the same for a given situation, Treating them together can easily distract human interest.

사용자의 라이프로그에 대한 기계학습을 통하여 사용자의 말과 감정을 포함하는 내면 상태를 추론 및 예측하여 대화에 대응하는 시스템 및 방법을 제공할 수 있다.Through machine learning of a user's lifelog, a system and method for responding to a conversation may be provided by inferring and predicting an inner state including a user's words and emotions.

개인비서 시스템에 의해 수행되는 개인비서 방법은, 사용자의 음성, 표정 또는 감정이 유발되는 라이프로그를 파악하는 단계; 상기 파악된 라이프로그에 대한 기계학습을 통하여 사용자의 내면 상태를 추론하는 단계; 및 상기 추론된 사용자의 내면 상태에 대응하여 생성된 대화 데이터를 TTS(Text To Speech)를 통해 출력하는 단계를 포함할 수 있다. The personal assistant method performed by the personal assistant system includes: identifying a lifelog from which a voice, facial expression, or emotion of a user is induced; Inferring the inner state of the user through machine learning on the identified lifelog; And outputting the dialogue data generated in response to the inferred state of the user through text to speech (TTS).

상기 추론된 사용자의 내면 상태에 대응하여 생성된 대화 데이터를 TTS(Text To Speech)를 통해 출력하는 단계는, 상기 추론된 사용자의 내면 상태에 대응하여 생성된 대화 내용의 텍스트 데이터를 음성 데이터로 변환하고, 상기 변환된 음성 데이터를 출력하여 상기 사용자와 대화하는 단계를 포함할 수 있다. The step of outputting the dialogue data generated in response to the inferred user's inner state through text to speech (TTS) may include converting text data of the conversation content generated in response to the inferred user's inner state to voice data. And outputting the converted voice data to communicate with the user.

상기 추론된 사용자의 내면 상태에 대응하여 생성된 대화 데이터를 TTS(Text To Speech)를 통해 출력하는 단계는, 상기 변환된 음성 데이터를 상기 사용자의 내면 상태에 기초하여 감정, 나이 또는 성별 중 어느 하나 이상의 음성 출력 정보를 변경시키는 단계를 포함할 수 있다. The step of outputting the dialogue data generated in response to the inferred user's internal state through text to speech (TTS) may include: converting the voice data based on the inner state of the user to any one of emotion, age, and gender; And changing the voice output information.

상기 추론된 사용자의 내면 상태에 대응하여 생성된 대화 데이터를 TTS(Text To Speech)를 통해 출력하는 단계는, 1)성별, 2)상기 성별에 따른 나이대 및 3)기쁨, 슬픔 또는 분노를 포함하는 감정 표현 중 적어도 하나 이상의 구분 가능한 TTS를 생성하는 단계를 포함할 수 있다. Outputting the dialogue data generated in response to the inferred user's internal state through text to speech (TTS) may include 1) sex, 2) age according to the gender, and 3) joy, sadness, or anger. Generating at least one distinguishable TTS among the emotional expressions.

상기 파악된 라이프로그를 기계학습을 통하여 사용자의 내면 상태를 추론하는 단계는, 상기 사용자의 얼굴, 상기 사용자의 표정, 상기 사용자와 대화하는 문장의 구문 분석을 통하여 감정, 연령 또는 성별을 포함하는 내면 상태를 인식하는 단계를 포함할 수 있다. Inferring the internal state of the user through machine learning of the identified lifelog may include an inner surface including emotion, age or gender through syntax analysis of the user's face, the facial expression of the user, and the sentence in dialogue with the user. Recognizing a state may include.

상기 파악된 라이프로그를 기계학습을 통하여 사용자의 내면 상태를 추론하는 단계는, 상기 사용자의 대화 내용, 상기 사용자의 대화 억양 및 상기 사용자의 표정 변화 중 어느 하나 이상의 라이프로그를 융합하여 상기 사용자의 내면 상태를 인식하고, 상기 인식된 사용자의 내면 상태를 학습시키는 단계를 포함할 수 있다. Inferring the internal state of the user through machine learning of the identified lifelog may include fusing any one or more lifelogs of the contents of the user's conversation, the user's conversation intonation, and the user's facial expression change. Recognizing a state, and learning the internal state of the recognized user.

상기 파악된 라이프로그를 기계학습을 통하여 사용자의 내면 상태를 추론하는 단계는, 상기 사용자의 정서적 불안, 상기 사용자의 스트레스 정도 또는 상기 사용자의 정신상태 중 어느 하나 이상의 포함하는 라이프로그를 학습시키는 단계를 포함할 수 있다. Inferring the internal state of the user through machine learning using the identified lifelog may include learning a lifelog including at least one of the emotional anxiety of the user, the degree of stress of the user, or the mental state of the user. It may include.

개인비서 시스템은, 사용자의 음성, 표정 또는 감정이 유발되는 라이프로그를 파악하는 인식부; 상기 파악된 라이프로그에 대한 기계학습을 통하여 사용자의 내면 상태를 추론하는 분석부; 및 상기 추론된 사용자의 내면 상태에 대응하여 생성된 대화 데이터를 TTS(Text To Speech)를 통해 출력하는 TTS 대화부를 포함할 수 있다. The personal assistant system may include: a recognizer configured to identify a lifelog from which a voice, facial expression, or emotion of a user is induced; An analysis unit for inferring an inner state of a user through machine learning on the identified lifelog; And a TTS conversation unit configured to output conversation data generated in response to the inferred state of the user through text to speech (TTS).

인공지능이 사용자의 내면 상태인 친밀성, 성격, 감정을 이해하는 감성지능 기술을 바탕으로 사용자와 대화하며 도우미의 역할을 수행할 뿐 아니라, 마치 반려동물처럼 인공지능이 사용자를 주인 혹은 가족으로 알아보고 남들과 다르게 대할 수 있는 긴밀한 관계를 맺을 수 있도록 감정적 교류가 가능하고 공감을 할 수 있는 인공지능 개인비서 시스템 및 방법을 제공할 수 있다.Based on emotional intelligence technology that understands the user's inner state of intimacy, personality, and emotions, AI not only communicates with the user, but also acts as a helper. It is possible to provide an AI personal assistant system and method that enables emotional exchange and empathy so as to establish a close relationship with others.

도 1은 일 실시예에 따른 네트워크 환경의 예를 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 개인비서 시스템의 구성을 설명하기 위한 블록도이다.
도 3은 일 실시예에 따른 개인비서 시스템의 따른 사용자와 대화하여 사용자의 내면 상태를 이해하고 긴밀한 관계를 맺을 수 있는 감성지능형 개인비서 방법을 설명하기 위한 흐름도이다.
도 4는 일 실시예에 따른 개인비서 시스템에서 사용자와 대화하여 사용자의 내면 상태를 이해하고 긴밀한 관계를 맺을 수 있는 감성지능형 개인비서 서비스 동작을 설명하기 위한 도면이다.
1 is a diagram illustrating an example of a network environment according to an exemplary embodiment.
2 is a block diagram illustrating a configuration of a personal assistant system according to an embodiment.
3 is a flowchart illustrating an emotional intelligent personal assistant method capable of understanding a user's internal state and forming a close relationship by talking with a user of the personal assistant system according to an embodiment.
FIG. 4 is a diagram for describing an emotional intelligent personal assistant service operation that enables a personal assistant system to communicate with a user, understand an internal state of a user, and establish a close relationship.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.Hereinafter, exemplary embodiments will be described in detail with reference to the accompanying drawings.

도 1은 일 실시예에 따른 네트워크 환경의 예를 설명하기 위한 도면이다.1 is a diagram illustrating an example of a network environment according to an exemplary embodiment.

도 1의 네트워크 환경은 전자 기기(110), 개인비서 시스템(100) 및 네트워크(120)를 포함하는 예를 나타내고 있다. 이러한 도 1은 발명의 설명을 위한 일례로 전자 기기의 수나 시스템의 수가 도 1과 같이 한정되는 것은 아니다. The network environment of FIG. 1 illustrates an example including an electronic device 110, a personal assistant system 100, and a network 120. 1 is an example for describing the present invention, and the number of electronic devices or the number of systems is not limited as shown in FIG. 1.

전자 기기(110)는 컴퓨터 장치로 구현되는 고정형 단말이거나 이동형 단말일 수 있다. 전자 기기(110)의 예를 들면, 스마트폰(smart phone), 휴대폰, 네비게이션, 컴퓨터, 노트북, 디지털방송용 단말, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 태블릿 PC 등이 있다. 일례로 전자 기기(110)는 무선 또는 유선 통신 방식을 이용하여 네트워크(120)를 통해 다른 전자 기기 및/또는 개인비서 시스템(100)과 통신할 수 있다. The electronic device 110 may be a fixed terminal implemented as a computer device or a mobile terminal. Examples of the electronic device 110 include a smart phone, a mobile phone, a navigation, a computer, a notebook computer, a digital broadcasting terminal, a personal digital assistant (PDA), a portable multimedia player (PMP), a tablet PC, and the like. For example, the electronic device 110 may communicate with other electronic devices and / or personal assistant system 100 through the network 120 using a wireless or wired communication scheme.

통신 방식은 제한되지 않으며, 네트워크(120)가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들간의 근거리 무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(120)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(120)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.The communication method is not limited and may include not only a communication method using a communication network (eg, a mobile communication network, a wired internet, a wireless internet, a broadcasting network) that the network 120 may include, but also a short range wireless communication between devices. For example, the network 120 may include a personal area network (PAN), a local area network (LAN), a campus area network (CAN), a metropolitan area network (MAN), a wide area network (WAN), and a broadband network (BBN). And one or more of networks such as the Internet. In addition, the network 120 may include any one or more of network topologies including a bus network, a star network, a ring network, a mesh network, a star-bus network, a tree, or a hierarchical network. It is not limited.

개인비서 시스템(100)은 전자 기기(110)와 네트워크(120)를 통해 통신하여 명령, 코드, 파일, 컨텐츠, 서비스 등을 제공하는 컴퓨터 장치 또는 복수의 컴퓨터 장치들로 구현될 수 있다. 일례로, 개인비서 시스템(100)은 네트워크(120)를 통해 접속한 전자 기기(110)로 어플리케이션의 설치를 위한 파일을 제공할 수 있다. 이 경우 전자 기기(110)는 개인비서 시스템(100)으로부터 제공된 파일을 이용하여 어플리케이션을 설치할 수 있다. 또한 전자 기기(110)가 포함하는 운영체제(Operating System, OS) 및 적어도 하나의 프로그램(일례로 브라우저나 상기 설치된 어플리케이션)의 제어에 따라 개인비서 시스템(100)에 접속하여 개인비서 시스템(100)이 제공하는 서비스나 컨텐츠를 제공받을 수 있다. 예를 들어, 전자 기기(110)가 어플리케이션의 제어에 따라 네트워크(120)를 통해 서비스 요청 메시지를 개인비서 시스템(100)으로 전송하면, 개인비서 시스템(100)은 서비스 요청 메시지에 대응하는 코드를 전자 기기(110)로 전송할 수 있고, 전자 기기(110)는 어플리케이션의 제어에 따라 코드에 따른 화면을 구성하여 표시함으로써 사용자에게 컨텐츠를 제공할 수 있다. 또한, 개인비서 시스템(100)은 서버일 수 있으며, 사용자와 대화하며 내면 상태를 이해하고 긴밀한 관계를 맺을 수 있는 감성지능형 개인비서 서비스를 제공할 수 있다. The personal assistant system 100 may be implemented as a computer device or a plurality of computer devices that communicate with the electronic device 110 through a network 120 to provide commands, codes, files, contents, services, and the like. For example, the personal assistant system 100 may provide a file for installing an application to the electronic device 110 connected through the network 120. In this case, the electronic device 110 may install an application using a file provided from the personal assistant system 100. In addition, the personal assistant system 100 is connected to the personal assistant system 100 under the control of an operating system (OS) included in the electronic device 110 and at least one program (for example, a browser or the installed application). You can receive the services or content provided. For example, when the electronic device 110 transmits a service request message to the personal assistant system 100 through the network 120 under the control of an application, the personal assistant system 100 may transmit a code corresponding to the service request message. The electronic device 110 may transmit the content to the electronic device 110. The electronic device 110 may provide content to the user by configuring and displaying a screen according to a code according to the control of an application. In addition, the personal assistant system 100 may be a server, and may provide an intelligent personal assistant service that can communicate with a user, understand an internal state, and establish a close relationship.

아래의 실시예에서는 개인비서 시스템은 인공지능에 기반하여 사용자로부터 파악된 라이프로그와 관련된 다양한 응대를 제공하고, 사용자의 감정 및 내면 상태에 맞춘 다양한 응대를 제공하고, 반려동물처럼 사용자를 주인으로 알아보고 남들과 다르게 대할 수 있는 긴밀한 관계를 유지할 수 있다. 개인비서 시스템은 감정 데이터를 수집, 사용자(화자) 또는 사용자의 감정을 인식, 사용자의 감정에 대응하는 표현을 제공, 사용자의 감성에 대한 학습에 기반한 지능 서비스 및 사회윤리 학습을 포함하는 핵심 기술을 구성할 수 있다. 구체적으로, 개인비서 시스템은 방대한 텍스트 데이터 기반의 감정 데이터 수집 및 DB 기술, 대화 문장의 구문 분석에 기반한 감정 인식, 학습, 추론 방법 기술, 실세계 잡음(음성 및 영상) 제거 및 대규모 학습 기술, 딥러닝 기반 사용자의 음성/얼굴 표정 기반 감정/연령/성별 인식 기술 및 대화 상대의 남/녀/노/소 등 나이, 성별에 따른 성별과 나이가 구분되는 TTS(Text to Speech)생성 기술, 인공비서 목소리에 사용자의 내면 상태에 따라 감정과 나이, 성별을 변화시킬 수 있는 TTS 생성 기술, 대화억양 생성 시, 감정 상태에 따라 기쁨, 슬픔, 분노 등을 포함하는 6가지 이상의 감정 표현이 가능한 TTS 생성 기술, 대화 내용, 대화 억양 및 표정변화 등을 융합하여 사용자의 감정을 종합적으로 인식, 학습 및 추론 기술, 얼굴 인식/화자 인식에 기반한 대화 상대의 지속적 인식 기술, 대화 상대의 지속적인 라이프로그 정보 획득 및 유지관리 기술, 대화 상대의 정서적 불안, 스트레스 정도, 정신상태 감정 등을 인식하고 학습 및 추론 기술, 적은 학습 데이터로부터 사람들이 사용할 수 있는 임계 성능을 넘겨서 베타 서비스로 방대한 데이터를 수집할 수 있게 하는 기술을 제공할 수 있다. In the example below, the personal assistant system provides various responses related to the lifelog identified by the user based on artificial intelligence, provides various responses according to the user's emotions and internal condition, and recognizes the user as the owner as a pet. You can maintain a close relationship with others. Personal assistant system collects emotion data, recognizes user (speaker) or user's feelings, provides expressions corresponding to user's feelings, and provides core services including intelligent services and social ethics learning based on learning about user's emotions. Can be configured. Specifically, personal assistant system is based on extensive text data based emotion data collection and DB technology, emotion recognition based on syntax analysis of conversation sentence, learning, reasoning method technology, real world noise (voice and video) removal and large-scale learning technology, deep learning Emotion / Age / Gender Recognition Technology based on Voice / Facial Expression of User-Based User, TTS (Text to Speech) Generation Technology that Distinguish Gender and Age by Age, Gender, etc. TTS generation technology that can change emotion, age and gender according to the user's internal state, TTS generation technology that can express 6 or more emotions including joy, sadness, anger, etc. Convergence of conversation contents, dialogue intonation and facial expressions, etc. Recognizes and maintains a person's ongoing lifelog information, maintains a person's emotional anxiety, stress level, and mental state feelings, and uses critical performance available to people from learning and reasoning skills and less learning data. You can then pass on and provide a technology that allows you to collect vast amounts of data into beta services.

도 2는 일 실시예에 따른 개인비서 시스템의 구성을 설명하기 위한 블록도이고, 도 3은 일 실시예에 따른 개인비서 시스템의 사용자와 대화하여 사용자의 내면 상태를 이해하고 긴밀한 관계를 맺을 수 있는 감성지능형 개인비서 방법을 설명하기 위한 흐름도이다.FIG. 2 is a block diagram illustrating a configuration of a personal assistant system according to an embodiment, and FIG. 3 illustrates an internal state of a user by interacting with a user of the personal assistant system according to an embodiment. This is a flowchart for explaining an emotional intelligent personal assistant method.

개인비서 시스템(100)의 프로세서는 인식부(210), 분석부(220) 및 TTS 대화부(230)를 포함할 수 있다. 이러한 프로세서의 구성요소들은 개인비서 시스템에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 프로세서 및 프로세서의 구성요소들은 도 3의 사용자와 대화하여 사용자의 내면 상태를 이해하고 긴밀한 관계를 맺을 수 있는 감성지능형 개인비서 방법이 포함하는 단계들(310 내지 330)을 수행하도록 개인비서 시스템을 제어할 수 있다. 이때, 프로세서 및 프로세서의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.The processor of the personal assistant system 100 may include a recognizer 210, an analyzer 220, and a TTS conversation unit 230. The components of such a processor may be representations of different functions performed by the processor in accordance with control instructions provided by program code stored in the personal assistant system. The processor and the components of the processor control the personal assistant system to perform the steps 310 to 330 included in the emotional intelligence personal assistant method, which can interact with the user of FIG. 3 to understand the internal state of the user and form a close relationship. can do. In this case, the processor and the components of the processor may be implemented to execute instructions according to code of an operating system included in the memory and code of at least one program.

프로세서는 사용자와 대화하여 사용자의 내면 상태를 이해하고 긴밀한 관계를 맺을 수 있는 감성지능형 개인비서 방법을 위한 프로그램의 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다. 예를 들면, 개인비서 시스템에서 프로그램이 실행되면, 프로세서는 운영체제의 제어에 따라 프로그램의 파일로부터 프로그램 코드를 메모리에 로딩하도록 개인비서 시스템을 제어할 수 있다. 이때, 프로세서 및 프로세서가 포함하는 인식부(210), 분석부(220) 및 TTS 대화부(230) 각각은 메모리에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(310 내지 330)을 실행하기 위한 프로세서의 서로 다른 기능적 표현들일 수 있다. The processor may load into the memory program code stored in a file of a program for an emotional intelligent personal assistant method that can communicate with the user to understand the internal state of the user and form a close relationship. For example, when a program is executed in the personal assistant system, the processor may control the personal assistant system to load program code from a file of the program into memory under control of the operating system. At this time, each of the processor 210, the processor 210, the analyzer 220, and the TTS dialog 230 included in the processor executes a command of a corresponding part of the program code loaded in the memory, and then executes steps 310 to 330. May be different functional representations of a processor for executing < RTI ID = 0.0 >

단계(310)에서 인식부(210)는 사용자의 음성, 표정 또는 감정이 유발되는 라이프로그를 파악할 수 있다. In operation 310, the recognizer 210 may determine a lifelog from which a user's voice, facial expression, or emotion is caused.

단계(320)에서 분석부(220)는 파악된 라이프로그에 대한 기계학습을 통하여 사용자의 내면 상태를 추론할 수 있다. 분석부(220)는 사용자의 얼굴, 사용자의 표정, 사용자와 대화하는 문장의 구문 분석을 통하여 감정, 연령 또는 성별을 포함하는 내면 상태를 인식할 수 있다. 분석부(220)는 사용자의 대화 내용, 사용자의 대화 억양 및 사용자의 표정 변화 중 어느 하나 이상의 라이프로그를 융합하여 사용자의 내면 상태를 인식하고, 인식된 사용자의 내면 상태를 학습시킬 수 있다. 분석부(220)는 사용자의 정서적 불안, 사용자의 스트레스 정도 또는 사용자의 정신상태 중 어느 하나 이상의 포함하는 라이프로그를 학습시킬 수 있다. In operation 320, the analyzer 220 may infer an internal state of the user through machine learning on the identified lifelog. The analyzer 220 may recognize an internal state including an emotion, an age, or a gender by analyzing a face of a user, a facial expression of a user, and a sentence that communicates with a user. The analysis unit 220 may fuse one or more lifelogs of the user's conversation contents, the user's conversation intonation, and the user's facial expression change to recognize the user's internal state and learn the recognized user's internal state. The analyzer 220 may learn a lifelog including any one or more of an emotional anxiety of the user, a degree of stress of the user, or a mental state of the user.

단계(330)에서 TTS 대화부(230)는 추론된 사용자의 내면 상태에 대응하여 생성된 대화 데이터를 TTS를 통해 출력할 수 있다. TTS 대화부(230)는 추론된 사용자의 내면 상태에 대응하여 생성된 대화 내용의 텍스트 데이터를 음성 데이터로 변환하고, 변환된 음성 데이터를 출력하여 사용자와 대화할 수 있다. TTS 대화부(230)는 변환된 음성 데이터를 사용자의 내면 상태에 기초하여 감정, 나이 또는 성별 중 어느 하나 이상의 음성 출력 정보를 변경시킬 수 있다. TTS 대화부(230)는 성별, 성별에 따른 나이대 및 기쁨, 슬픔 또는 분노를 포함하는 감정 표현 중 적어도 하나 이상의 구분 가능한 TTS를 생성할 수 있다. In operation 330, the TTS conversation unit 230 may output conversation data generated corresponding to the inferred state of the user through the TTS. The TTS conversation unit 230 may convert the text data of the conversation contents generated in response to the inferred user's inner state into voice data, and output the converted voice data to talk with the user. The TTS conversation unit 230 may change the voice output information of one or more of emotion, age or gender based on the converted voice data. The TTS conversation unit 230 may generate at least one or more distinguishable TTSs among the emotional expressions including gender, age group according to gender, and joy, sadness, or anger.

도 4는 일 실시예에 따른 개인비서 시스템에서 사용자와 대화하여 사용자의 내면 상태를 이해하고 긴밀한 관계를 맺을 수 있는 감성지능형 개인비서 서비스 동작을 설명하기 위한 도면이다. FIG. 4 is a diagram for describing an emotional intelligent personal assistant service operation that enables a personal assistant system to communicate with a user, understand an internal state of a user, and establish a close relationship.

도 4에서는 사용자(400)가 전자 기기(110)을 통하여 개인비서 서비스 동작을 설명하기로 한다. 이때, 전자 기기(110)에 플랫폼 또는 애플리케이션 형태로 개인비서 시스템에서 제공하는 서비스가 실행되어 동작될 수 있고, 또는, 서버와의 통신을 통하여 서비스가 실행되어 동작될 수 있다. 예를 들면, 전자 기기(110)에 상기 서비스를 위한 기능이 셋팅될 수 있다. 전자 기기(110)에 사용자(400)의 얼굴, 표정 등의 화상 데이터를 인식할 수 있는 센서 및 카메라가 장착되어 있을 수 있고, 사용자의 음성 데이터를 인식할 수 있는 마이크, 스피커 등이 장착되어 있을 수 있다. In FIG. 4, an operation of a personal assistant service by the user 400 through the electronic device 110 will be described. In this case, a service provided by the personal assistant system in the form of a platform or an application may be executed and operated in the electronic device 110, or the service may be executed and operated through communication with a server. For example, a function for the service may be set in the electronic device 110. The electronic device 110 may be equipped with a sensor and a camera capable of recognizing image data such as a face and an expression of the user 400, and a microphone, a speaker, etc. capable of recognizing a user's voice data. Can be.

개인비서 시스템은 전자 기기(110)를 통하여 사용자의 음성, 표정 또는 감정이 유발되는 라이프로그를 파악할 수 있다. 이때, 라이프로그란 사용자로부터 유발되는 사용자와 관련된 모든 데이터를 의미할 수 있다. 개인비서 시스템은 전자 기기(110)를 통하여 사용자와 대화를 수행함에 따라 대화 구문에 포함된 감정, 억양, 대화 중에 나타나는 표정 등을 지속적으로 수집할 수 있다. 이때, 개인비서 시스템은 사용자와 대화를 수행할 수 있으며, 사용자와의 대화를 통하여 사용자의 라이프로그를 파악할 뿐만 아니라 사용자의 내면 상태를 추론할 수 있다. 일례로, 개인비서 시스템은 처음 사용자와 대화를 수행할 경우, 사용자와 관련된 정보가 존재하지 않기 때문에 기본적으로 설정된 질의-응답으로 대화를 시작할 수 있다. 개인비서 시스템은 사용자와 대화를 수행함에 따라 사용자와 관련된 정보(예를 들면, 사용자의 식별 정보, 사용자의 선호 정보 등)이 수집됨에 따라 사용자가 흥미를 가질만한 질문을 포함하는 대화를 진행할 수 있다. 또한, 개인비서 시스템은 사용자와 대화를 수행한 적이 있을 경우, 기 저장된 사용자의 정보에 기초하여 사용자와 대화를 진행할 수 있다. 개인비서 시스템은 사용자와 대화를 진행하면서 사용자와 관련된 라이프로그를 인식 및 파악할 수 있다. 개인비서 시스템은 대화 내용, 대화 억양 및 표정 변화 등을 융합하여 사용자의 감정을 종합적으로 인식할 수 있다. 또한, 개인비서 시스템은 사용자의 라이프로그를 지속적으로 수집하여 데이터베이스에 저장해놓을 수 있다. The personal assistant system may determine the lifelog from which the user's voice, facial expression or emotion is induced through the electronic device 110. In this case, the lifelog may mean all data related to the user induced from the user. As the personal assistant system performs a conversation with the user through the electronic device 110, the personal assistant system may continuously collect emotions, intonations, and facial expressions that appear in the conversation. In this case, the personal assistant system may conduct a conversation with the user, and not only grasp the user's lifelog through the conversation with the user, but also infer the inner state of the user. For example, the personal assistant system may start a conversation with a query-response set by default since the information related to the user does not exist when the conversation is performed for the first time with the user. As the personal assistant system conducts a conversation with the user, information related to the user (for example, the user's identification information, the user's preference information, etc.) may be collected, and the conversation may include a question that may be of interest to the user. . In addition, when the personal assistant system has had a conversation with the user, the personal assistant system may proceed with the user's conversation based on information stored in advance. The personal assistant system can recognize and understand the lifelog associated with the user while talking to the user. The personal assistant system can comprehensively recognize the emotions of the user by fusing the contents of conversation, conversation intonation and facial expression change. In addition, the personal assistant system can continuously collect the user's lifelog and store it in the database.

개인비서 시스템은 라이프로그에 대한 기계학습을 통하여 사용자의 내면 상태를 추론할 수 있다. 일례로, 기계학습은 인공지능의 한 분야로 새로운 정보를 학습하고, 학습을 수행함에 따라 습득된 정보를 효율적으로 사용할 수 있는 능력과 결부시키는 지식을 습득할 수 있고, 작업을 반복적으로 수행함으로써 결과를 획득하는 기술의 개선 과정이다. 예를 들면, 개인비서 시스템은 컴퓨터가 여러 데이터를 이용하여 마치 사람처럼 스스로 학습할 수 있게 하기 위하여 인공 신경망을 기반으로 구축한 기계 학습 기술인 딥 러닝을 통하여 사용자의 내면 상태를 추론할 수 있다. 이러한 딥 러닝은 인간의 두뇌가 수많은 데이터 속에서 패턴을 발견한 뒤 사물을 구분하는 정보처리 방식을 모방하여 컴퓨터가 사물을 분별할 수 있도록 기계 학습시킨다. 딥 러닝 기술을 적용하여 사람이 모든 판단 기준을 정해주지 않아도 컴퓨터가 스스로 인지, 추론 및 판단할 수 있게 된다. 이에, 개인비서 시스템은 딥러닝의 예로 CNN, RNN, DNN 등의 인공 신경망을 이용하여 사용자의 내면 상태를 추론할 수 있다. The personal assistant system can infer the inner state of the user through machine learning of the lifelog. Machine learning, for example, is a field of artificial intelligence that learns new information, acquires knowledge that is tied to the ability to use the information efficiently as it learns, and iterates on tasks The process of improvement of the technology to obtain. For example, a personal assistant system can infer a user's internal state through deep learning, a machine learning technology built on artificial neural networks to enable a computer to learn on its own like a human being. Such deep learning mimics the information processing method that separates objects after the human brain discovers patterns in a lot of data and machine-machines the computer to distinguish things. By applying deep learning technology, a computer can recognize, reason, and judge on its own, even if a person does not set all the criteria. Accordingly, the personal assistant system may infer the inner state of the user by using artificial neural networks such as CNN, RNN, DNN as an example of deep learning.

구체적으로, 개인비서 시스템은 사용자의 얼굴, 사용자의 표정, 사용자와 대화하는 문장의 구문 분석을 통하여 감정, 연령 또는 성별을 포함하는 내면 상태를 인식할 수 있다. 개인비서 시스템은 사용자의 대화 내용, 사용자의 대화 억양 및 사용자의 표정 변화 중 어느 하나 이상의 라이프로그를 융합하여 사용자의 내면 상태를 인식하고, 인식된 사용자의 내면 상태를 학습시킬 수 있다. 예를 들면, 개인비서 시스템은 사용자의 대화 내용, 대화 억양, 표정 변화 등 복합적인 데이터에 기반하여 사용자로부터 겉으로 드러나는 상태뿐만 아니라 사용자로부터 겉으로 드러나지 않는 내면 상태를 판단할 수 있다. 개인비서 시스템은 사용자의 정서적 불안, 사용자의 스트레스 정도 또는 사용자의 정신상태 중 어느 하나 이상의 포함하는 라이프로그를 학습시킬 수 있다. 또한, 개인비서 시스템은 사용자의 얼굴 또는 사용자의 얼굴의 표정을 인식함에 따라 전처리 과정을 수행하여 노이즈를 제거한 후, 학습시킴으로써 보다 정확하게 사용자의 얼굴, 표정을 인식할 수 있다. 예를 들면, 개인비서 시스템은 얼굴, 얼굴의 표정을 통하여 사용자를 식별할 수 있다. 개인비서 시스템은 사용자로부터 추출된 얼굴의 특징점을 이용하여 기 저장된 데이터와 매칭하여 사용자를 식별할 수 있고, 사용자의 감정을 판단할 수도 있다. 또는, 개인비서 시스템은 사용자로부터 수집된 라이프로그를 각각의 카테고리에 기초하여 학습시킬 수 있다. 예를 들면, 개인비서 시스템은 사용자로부터 수집된 라이프로그에서 얼굴 표정, 음성 데이터를 포함하는 카테고리 각각을 분류하여 학습시킬 수 있다. 또한, 사용자로부터 수집된 라이프로그를 한번에 또는 동시에 학습시킬 수 있고, 또는, 라이프로그의 카테고리 각각에 해당하는 데이터를 시간차를 두고 학습시킬 수 있다. In detail, the personal assistant system may recognize an internal state including emotion, age, or gender by analyzing a face of a user, a facial expression of a user, and a sentence that communicates with a user. The personal assistant system may fuse one or more lifelogs of the user's conversation contents, the user's conversation intonation, and the user's facial expression change to recognize the user's internal state and learn the recognized user's internal state. For example, the personal assistant system may determine not only the state visible from the user but also the internal state not visible from the user, based on complex data such as the user's conversation contents, conversation intonation, facial expression change, and the like. The personal assistant system can learn a lifelog including any one or more of the user's emotional anxiety, the user's stress level or the user's mental state. In addition, the personal assistant system may recognize the user's face or facial expression by performing the preprocessing process to remove noise, and then learning the user's face or facial expression of the user's face. For example, the personal assistant system may identify the user through facial expressions. The personal assistant system may identify the user by matching the pre-stored data using feature points of the face extracted from the user, and may determine the emotion of the user. Alternatively, the personal assistant system may learn the lifelog collected from the user based on each category. For example, the personal assistant system may classify and learn each category including facial expressions and voice data in the lifelog collected from the user. In addition, the lifelog collected from the user can be learned at once or simultaneously, or data corresponding to each category of the lifelog can be learned with a time difference.

개인비서 시스템은 라이프로그를 학습시킴에 따라 추론 및 분석된 사용자의 내면 상태에 대응하여 대화 데이터를 생성할 수 있다. 개인비서 시스템은 대화 데이터를 텍스트 데이터로 생성할 수 있고, 생성된 텍스트 데이터를 TTS를 통하여 음성 데이터로 변환할 수 있다. 예를 들면, 개인비서 시스템은 사용자의 내면 상태에 대응하는 대화 데이터를 데이터 베이스에서 추출하거나, 사용자의 내면 상태와 관련된 인터넷 서비스의 검색을 통하여 컨텐츠/데이터들을 수집할 수 있다. 이와 같이 수집 또는 추출된 데이터에 기반하여 대화 데이터를 생성할 수 있다. 개인비서 시스템은 성별, 성별에 따른 연령대(나이대) 및 기쁨, 슬픔 또는 분노를 포함하는 복수 개(예를 들면, 6가지 이상)의 감정 표현 중 적어도 하나 이상의 구분 가능한 TTS를 생성할 수 있다. 이러한 음성 데이터를 출력하여 사용자와 대화가 수행될 수 있다. 이때, 개인비서 시스템은 변환된 음성 데이터를 사용자의 내면 상태에 기초하여 감정, 나이 또는 성별 중 어느 하나 이상의 음성 출력 정보를 변경시킬 수 있다. 예를 들면, 개인비서 시스템은 전자 기기(110)에 음성 출력 정보를 변경하는 유저 인터페이스를 제공할 수 있고, 사용자로부터 유저 인터페이스를 통하여 입력 또는 선택된 음성 출력 정보로 변경될 수 있다. 또는, 개인비서 시스템은 사용자의 내면 상태에 대응하는 아바타를 통하여 사용자의 감정에 공감할 수 있는 음성 데이터, 표정을 반영시킬 수 있다. 또한, 개인비서 시스템은 마치 반려동물처럼 인공지능이 사용자를 주인 혹은 가족으로 알아보고 긴밀한 관계를 맺을 수 있도록 감정적 교류가 가능하다. 또한, 개인비서 시스템은 사용자의 성별, 나이 등에 대응하는 TTS를 생성할 수 있다. 일례로, 개인비서 시스템은 사용자의 내면 상태와 동일한 또는 유사한 나이, 성별 감정을 가지고 있는 음성 출력 정보를 통하여 사용자와 대화를 수행할 수 있다. As the personal assistant system learns the lifelog, the personal assistant system may generate the dialogue data in response to the internal state of the inferred and analyzed user. The personal assistant system may generate the dialogue data as text data and convert the generated text data into voice data through the TTS. For example, the personal assistant system may extract the conversation data corresponding to the internal state of the user from the database, or collect content / data through a search of an Internet service related to the internal state of the user. In this way, the conversation data may be generated based on the collected or extracted data. The personal assistant system may generate at least one or more distinguishable TTSs among a plurality of expressions (eg, six or more) of emotions including gender, age group according to gender, and joy, sadness, or anger. The voice data may be output to communicate with the user. In this case, the personal assistant system may change the voice output information of any one or more of emotion, age or gender based on the converted voice data based on the inner state of the user. For example, the personal assistant system may provide the electronic device 110 with a user interface for changing the voice output information, and may be changed into input or selected voice output information from the user through the user interface. Alternatively, the personal assistant system may reflect voice data and facial expressions that can sympathize with the emotions of the user through the avatar corresponding to the inner state of the user. In addition, the personal assistant system is capable of emotional exchange so that AI can recognize the user as the owner or the family and make a close relationship like a pet. In addition, the personal assistant system may generate a TTS corresponding to the gender, age, and the like of the user. In one example, the personal assistant system may communicate with the user through voice output information having the same age or gender emotion as the inner state of the user.

개인비서 시스템은 TTS를 통하여 사용자와 대화를 수행함에 따라 다음 대화의 내용을 예측하여 사용자의 대화에 대응하는 대화 데이터를 생성할 수 있다. 이에 따라, 개인비서 시스템은 대화 데이터가 음성으로 출력됨에 따라 사용자와 연속적으로 대화를 수행할 수 있게 된다. 개인비서 시스템은 사용자로부터 발화되는 대화 내용과 감정 상태 등을 수집함에 따라 텍스트 데이터로 변환하여 저장할 수 있다. 개인비서 시스템은 대화 데이터 및 사용자와의 대화 내용을 학습시킴으로써 다음 대화를 예측 및 대응할 수 있다. 예를 들면, 개인비서 시스템은 사용자와 대화를 수행함에 따라 획득된 사용자의 라이프로그 또는 내면 상태를 학습시킴에 따라 계속적으로 다음의 대화 데이터를 업데이트/변경할 수 있다. As the personal assistant system performs a conversation with the user through the TTS, the personal assistant system may generate the conversation data corresponding to the conversation of the user by predicting the contents of the next conversation. Accordingly, the personal assistant system can continuously talk with the user as the conversation data is output as voice. The personal assistant system may convert and store the conversation contents and the emotional state spoken by the user into text data. The personal assistant system can predict and respond to the next conversation by learning the conversation data and the conversation content with the user. For example, the personal assistant system may continuously update / change the following conversation data as it learns the user's lifelog or internal state obtained as the conversation with the user occurs.

다시 말해서, 개인비서 시스템은 사용자의 말, 억양, 얼굴 표정 등을 분석하여 사용자의 감정을 인식하고 지속적으로 대응 가능한 대화 데이터를 생성하여 TTS로 출력할 수 있다. 이에 따라, 개인비서 시스템은 사용자로부터 획득된 라이프로그에 기반하여 학습된 학습 데이터로부터 사용자들이 사용할 수 있는 임계 성능을 통과시킴에 따라 베타 서비스로 방대한 데이터를 수집할 수 있도록 한다. In other words, the personal assistant system may analyze the user's words, intonation, facial expressions, and the like to recognize the user's emotions, and continuously generate corresponding dialogue data and output the same to the TTS. Accordingly, the personal assistant system can collect a large amount of data with the beta service as it passes the critical performance available to users from the learned training data based on the lifelog obtained from the user.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components. For example, the devices and components described in the embodiments are, for example, processors, controllers, arithmetic logic units (ALUs), digital signal processors, microcomputers, field programmable gate arrays (FPGAs). Can be implemented using one or more general purpose or special purpose computers, such as a programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. The processing device may also access, store, manipulate, process, and generate data in response to the execution of the software. For convenience of explanation, one processing device may be described as being used, but one of ordinary skill in the art will appreciate that the processing device includes a plurality of processing elements and / or a plurality of types of processing elements. It can be seen that it may include. For example, the processing device may include a plurality of processors or one processor and one controller. In addition, other processing configurations are possible, such as parallel processors.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of the above, and configure the processing device to operate as desired, or process it independently or collectively. You can command the device. Software and / or data may be any type of machine, component, physical device, virtual equipment, computer storage medium or device in order to be interpreted by or to provide instructions or data to the processing device. It can be embodied in. The software may be distributed over networked computer systems so that they are stored or executed in a distributed manner. Software and data may be stored on one or more computer readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. The method according to the embodiment may be embodied in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium. The computer readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions recorded on the media may be those specially designed and constructed for the purposes of the embodiments, or they may be of the kind well-known and available to those having skill in the computer software arts. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks. Magneto-optical media, and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine code, such as produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.Although the embodiments have been described by the limited embodiments and the drawings as described above, various modifications and variations are possible to those skilled in the art from the above description. For example, the described techniques may be performed in a different order than the described method, and / or components of the described systems, structures, devices, circuits, etc. may be combined or combined in a different form than the described method, or other components. Or even if replaced or substituted by equivalents, an appropriate result can be achieved.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are within the scope of the claims that follow.

Claims (14)

개인비서 시스템에 의해 수행되는 개인비서 방법에 있어서,
사용자의 음성, 표정 또는 감정이 유발되는 라이프로그를 파악하는 단계;
상기 파악된 라이프로그에 대한 기계학습을 통하여 사용자의 내면 상태를 추론하는 단계; 및
상기 추론된 사용자의 내면 상태에 대응하여 생성된 대화 데이터를 TTS(Text To Speech)를 통해 출력하는 단계
를 포함하는 방법.
In the personal assistant method performed by the personal assistant system,
Identifying a lifelog from which a user's voice, facial expression, or emotion is triggered;
Inferring the inner state of the user through machine learning on the identified lifelog; And
Outputting the dialogue data generated in response to the inferred state of the user through text to speech (TTS);
How to include.
제1항에 있어서,
상기 추론된 사용자의 내면 상태에 대응하여 생성된 대화 데이터를 TTS(Text To Speech)를 통해 출력하는 단계는,
상기 추론된 사용자의 내면 상태에 대응하여 생성된 대화 내용의 텍스트 데이터를 음성 데이터로 변환하고, 상기 변환된 음성 데이터를 출력하여 상기 사용자와 대화하는 단계
를 포함하는 인지 방법.
The method of claim 1,
The step of outputting the dialogue data generated in response to the inferred state of the user through the text to speech (TTS),
Converting text data of a conversation content corresponding to the inferred user's inner state into voice data, and outputting the converted voice data to communicate with the user
Cognitive method comprising a.
제2항에 있어서,
상기 추론된 사용자의 내면 상태에 대응하여 생성된 대화 데이터를 TTS(Text To Speech)를 통해 출력하는 단계는,
상기 변환된 음성 데이터를 상기 사용자의 내면 상태에 기초하여 감정, 나이 또는 성별 중 어느 하나 이상의 음성 출력 정보를 변경시키는 단계
를 포함하는 인지 방법.
The method of claim 2,
The step of outputting the dialogue data generated in response to the inferred state of the user through the text to speech (TTS),
Changing the voice output information of at least one of emotion, age or gender based on the converted voice data based on an inner state of the user
Cognitive method comprising a.
제1항에 있어서,
상기 추론된 사용자의 내면 상태에 대응하여 생성된 대화 데이터를 TTS(Text To Speech)를 통해 출력하는 단계는,
1)성별, 2)상기 성별에 따른 나이대 및 3)기쁨, 슬픔 또는 분노를 포함하는 감정 표현 중 적어도 하나 이상의 구분 가능한 TTS를 생성하는 단계
를 포함하는 인지 방법.
The method of claim 1,
The step of outputting the dialogue data generated in response to the inferred state of the user through the text to speech (TTS),
Generating at least one distinguishable TTS among 1) gender, 2) age group according to the gender, and 3) emotional expression including joy, sadness or anger
Cognitive method comprising a.
제1항에 있어서,
상기 파악된 라이프로그를 기계학습을 통하여 사용자의 내면 상태를 추론하는 단계는,
상기 사용자의 얼굴, 상기 사용자의 표정, 상기 사용자와 대화하는 문장의 구문 분석을 통하여 감정, 연령 또는 성별을 포함하는 내면 상태를 인식하는 단계
를 포함하는 인지 방법.
The method of claim 1,
Inferring the internal state of the user through machine learning the identified lifelog,
Recognizing an inner state including emotion, age, or gender by analyzing a face of the user, an expression of the user, and a sentence that communicates with the user;
Cognitive method comprising a.
제5항에 있어서,
상기 파악된 라이프로그를 기계학습을 통하여 사용자의 내면 상태를 추론하는 단계는,
상기 사용자의 대화 내용, 상기 사용자의 대화 억양 및 상기 사용자의 표정 변화 중 어느 하나 이상의 라이프로그를 융합하여 상기 사용자의 내면 상태를 인식하고, 상기 인식된 사용자의 내면 상태를 학습시키는 단계
를 포함하는 인지 방법.
The method of claim 5,
Inferring the internal state of the user through machine learning the identified lifelog,
Fusing the one or more lifelogs of the conversation contents of the user, the conversation intonation of the user, and the change of the facial expression of the user to recognize an inner state of the user, and learning the inner state of the recognized user;
Cognitive method comprising a.
제5항에 있어서,
상기 파악된 라이프로그를 기계학습을 통하여 사용자의 내면 상태를 추론하는 단계는,
상기 사용자의 정서적 불안, 상기 사용자의 스트레스 정도 또는 상기 사용자의 정신상태 중 어느 하나 이상의 포함하는 라이프로그를 학습시키는 단계
를 포함하는 인지 방법.
The method of claim 5,
Inferring the internal state of the user through machine learning the identified lifelog,
Learning a lifelog including one or more of the emotional anxiety of the user, the degree of stress of the user, or the mental state of the user;
Cognitive method comprising a.
개인비서 시스템에 있어서,
사용자의 음성, 표정 또는 감정이 유발되는 라이프로그를 파악하는 인식부;
상기 파악된 라이프로그에 대한 기계학습을 통하여 사용자의 내면 상태를 추론하는 분석부; 및
상기 추론된 사용자의 내면 상태에 대응하여 생성된 대화 데이터를 TTS(Text To Speech)를 통해 출력하는 TTS 대화부
를 포함하는 시스템.
In the personal assistant system,
A recognition unit for identifying a lifelog from which a user's voice, facial expression, or emotion is induced;
An analysis unit for inferring an inner state of a user through machine learning on the identified lifelog; And
TTS conversation unit for outputting the dialogue data generated in response to the inferred state of the user through the text to speech (TTS)
System comprising.
제8항에 있어서,
상기 TTS(Text To Speech) 대화부는,
상기 추론된 사용자의 내면 상태에 대응하여 생성된 대화 내용의 텍스트 데이터를 음성 데이터로 변환하고, 상기 변환된 음성 데이터를 출력하여 상기 사용자와 대화하는
것을 특징으로 하는 시스템.
The method of claim 8,
The TTS (Text To Speech) dialog unit,
Converting the text data of the conversation contents generated in response to the inferred state of the user into voice data, and outputting the converted voice data to communicate with the user.
System characterized in that.
제9항에 있어서,
상기 TTS(Text To Speech) 대화부는,
상기 변환된 음성 데이터를 상기 사용자의 내면 상태에 기초하여 감정, 나이 또는 성별 중 어느 하나 이상의 음성 출력 정보를 변경시키는
것을 특징으로 하는 시스템.
The method of claim 9,
The TTS (Text To Speech) dialog unit,
Changing the voice output information of at least one of emotion, age or gender based on the converted voice data based on an inner state of the user
System characterized in that.
제8항에 있어서,
상기 TTS(Text To Speech) 대화부는,
1)성별, 2)상기 성별에 따른 나이대 및 3)기쁨, 슬픔 또는 분노를 포함하는 감정 표현 중 적어도 하나 이상의 구분 가능한 TTS를 생성하는
것을 특징으로 하는 시스템.
The method of claim 8,
The TTS (Text To Speech) dialog unit,
1) generating at least one distinguishable TTS of gender, 2) age group according to the gender, and 3) emotional expression including joy, sadness or anger
System characterized in that.
제8항에 있어서,
상기 분석부는,
상기 사용자의 얼굴, 상기 사용자의 표정, 상기 사용자와 대화하는 문장의 구문 분석을 통하여 감정, 연령 또는 성별을 포함하는 내면 상태를 인식하는
것을 특징으로 하는 시스템.
The method of claim 8,
The analysis unit,
Recognizing an internal state including emotion, age, or gender by analyzing the face of the user, the expression of the user, and the sentence that communicates with the user
System characterized in that.
제12항에 있어서,
상기 분석부는,
상기 사용자의 대화 내용, 상기 사용자의 대화 억양 및 상기 사용자의 표정 변화 중 어느 하나 이상의 라이프로그를 융합하여 상기 사용자의 내면 상태를 인식하고, 상기 인식된 사용자의 내면 상태를 학습시키는
것을 특징으로 하는 시스템.
The method of claim 12,
The analysis unit,
Converging one or more lifelogs of the conversation contents of the user, the conversation intonation of the user, and the change of facial expression of the user to recognize the inner state of the user and to learn the inner state of the recognized user.
System characterized in that.
제13항에 있어서,
상기 분석부는,
상기 사용자의 정서적 불안, 상기 사용자의 스트레스 정도 또는 상기 사용자의 정신상태 중 어느 하나 이상의 포함하는 라이프로그를 학습시키는
것을 특징으로 하는 시스템.
The method of claim 13,
The analysis unit,
Learning a lifelog including at least one of the emotional anxiety of the user, the degree of stress of the user or the mental state of the user
System characterized in that.
KR1020180071384A 2018-05-23 2018-06-21 Intelligent personal assistant system based on the inner state of user KR102139855B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20180058146 2018-05-23
KR1020180058146 2018-05-23

Publications (2)

Publication Number Publication Date
KR20190133579A true KR20190133579A (en) 2019-12-03
KR102139855B1 KR102139855B1 (en) 2020-07-30

Family

ID=68838182

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180071384A KR102139855B1 (en) 2018-05-23 2018-06-21 Intelligent personal assistant system based on the inner state of user

Country Status (1)

Country Link
KR (1) KR102139855B1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535920A (en) * 2021-07-19 2021-10-22 安徽淘云科技股份有限公司 Guiding learning method, guiding learning robot, storage medium, and electronic device
WO2022060050A1 (en) * 2020-09-17 2022-03-24 고려대학교 산학협력단 System, device, and method for conducting conversation
KR102458666B1 (en) * 2021-05-28 2022-10-26 주식회사 대도테크윈 An AI character service system, or it's method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160224803A1 (en) * 2015-01-29 2016-08-04 Affectomatics Ltd. Privacy-guided disclosure of crowd-based scores computed based on measurements of affective response
KR20160125599A (en) * 2015-04-21 2016-11-01 한국과학기술원 Apparatus and methodology for an emotion event extraction and an emotion sketch based retrieval
KR101854431B1 (en) * 2016-11-15 2018-05-03 주식회사 로보러스 Concierge robot

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160224803A1 (en) * 2015-01-29 2016-08-04 Affectomatics Ltd. Privacy-guided disclosure of crowd-based scores computed based on measurements of affective response
KR20160125599A (en) * 2015-04-21 2016-11-01 한국과학기술원 Apparatus and methodology for an emotion event extraction and an emotion sketch based retrieval
KR101854431B1 (en) * 2016-11-15 2018-05-03 주식회사 로보러스 Concierge robot

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022060050A1 (en) * 2020-09-17 2022-03-24 고려대학교 산학협력단 System, device, and method for conducting conversation
KR102458666B1 (en) * 2021-05-28 2022-10-26 주식회사 대도테크윈 An AI character service system, or it's method
CN113535920A (en) * 2021-07-19 2021-10-22 安徽淘云科技股份有限公司 Guiding learning method, guiding learning robot, storage medium, and electronic device

Also Published As

Publication number Publication date
KR102139855B1 (en) 2020-07-30

Similar Documents

Publication Publication Date Title
Dharwadkar et al. A medical chatbot
US11769492B2 (en) Voice conversation analysis method and apparatus using artificial intelligence
Wanner et al. Kristina: A knowledge-based virtual conversation agent
CN106502382B (en) Active interaction method and system for intelligent robot
KR20190140801A (en) A multimodal system for simultaneous emotion, age and gender recognition
EP4125029A1 (en) Electronic apparatus, controlling method of thereof and non-transitory computer readable recording medium
WO2020073533A1 (en) Automatic question answering method and device
KR101984283B1 (en) Automated Target Analysis System Using Machine Learning Model, Method, and Computer-Readable Medium Thereof
KR20190133579A (en) Intelligent personal assistant system based on the inner state of user
Recchiuto et al. A feasibility study of culture-aware cloud services for conversational robots
US10770072B2 (en) Cognitive triggering of human interaction strategies to facilitate collaboration, productivity, and learning
CN109871807A (en) Face image processing process and device
WO2018212584A2 (en) Method and apparatus for classifying class, to which sentence belongs, using deep neural network
Brinkschulte et al. The EMPATHIC project: building an expressive, advanced virtual coach to improve independent healthy-life-years of the elderly
KR20190109651A (en) Voice imitation conversation service providing method and sytem based on artificial intelligence
US20220139245A1 (en) Using personalized knowledge patterns to generate personalized learning-based guidance
Augello et al. Social practices for social driven conversations in serious games
Justo et al. Exploring ontologies to improve the empathy of interactive bots
Pineda et al. Dialogue model specification and interpretation for intelligent multimodal HCI
KR102319013B1 (en) Method and system for personality recognition from dialogues
CN114399821B (en) Policy recommendation method, device and storage medium
US11706492B1 (en) Method, server and computer-readable medium for recommending nodes of interactive content
KR102635031B1 (en) Method, device, and system for providing speaker separation real-time interpretation service based on semantic unit visualization
KR102646654B1 (en) Apparatus and method for analyzing space through semantic analysis of user-generated voice
KR102462144B1 (en) AI Chatbot System with MR Content for Tutoring

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right