KR20140067678A - Method for supplying consulting communication and apparatus using the method - Google Patents

Method for supplying consulting communication and apparatus using the method Download PDF

Info

Publication number
KR20140067678A
KR20140067678A KR1020120135236A KR20120135236A KR20140067678A KR 20140067678 A KR20140067678 A KR 20140067678A KR 1020120135236 A KR1020120135236 A KR 1020120135236A KR 20120135236 A KR20120135236 A KR 20120135236A KR 20140067678 A KR20140067678 A KR 20140067678A
Authority
KR
South Korea
Prior art keywords
user
emotion
module
strategy
conversation
Prior art date
Application number
KR1020120135236A
Other languages
Korean (ko)
Other versions
KR101423258B1 (en
Inventor
이근배
이규송
한상도
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to KR1020120135236A priority Critical patent/KR101423258B1/en
Publication of KR20140067678A publication Critical patent/KR20140067678A/en
Application granted granted Critical
Publication of KR101423258B1 publication Critical patent/KR101423258B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Abstract

Disclosed are a method for supplying a consultation conversation and an apparatus using the same. According to the present invention, the consultation conversation apparatus is configured to comprise a voice recognition module for recognizing and converting the utterance voice to a text; an emotion detection module for analyzing the emotion of a user from an image of the user or the text of the user′s voice outputted by the voice recognition module; and a utterance understanding module for analyzing the intent of the utterance by grasping the travel of the user utterance from the utterance text of the user and analyzing a fact which causes the emotion of the user with five Ws and one H; and a conversation processing module for selecting the analyzed travel by the user utterance and a conversation strategy of the user by the five Ws and one H. Therefore, the present invention can provide a conversation consultation to understand emotions.

Description

상담 대화 제공 방법 및 이를 이용하는 장치{METHOD FOR SUPPLYING CONSULTING COMMUNICATION AND APPARATUS USING THE METHOD} TECHNICAL FIELD [0001] The present invention relates to a method and apparatus for providing a consultation dialogue,

본 발명은 감정을 이해하는 상담 대화 제공에 관한 것으로, 더욱 상세하게는 감정을 인식하는 가상 인간 상담 대화를 통한 상담 대화 제공 방법 및 이를 이용하는 장치에 관한 것이다.More particularly, the present invention relates to a method for providing a consultation dialogue through a virtual human consultation dialogue for recognizing emotions and an apparatus using the same.

가상인간 청자 시스템이란 사용자의 발화를 잘 들어주는 시스템을 말한다. 가상인간 청자 시스템은 사람의 발화, 억양, 표정, 몸짓 등을 분석하여 사용자의 감정을 분석하고, 분석한 결과에 따라 적절한 반응과 몸짓, 표정 등을 가상인간으로 출력하도록 개발되었다. A virtual human listener system is a system that listens to user utterances. The virtual human celadon system was developed to analyze human emotions by analyzing human speech, intonation, facial expressions, and gestures, and output appropriate responses, gestures, and facial expressions according to the results of analysis.

가상인간 청자 시스템은 하지만, 대화를 나누기 보다는 사용자에게 적절한 반응을 보여주고 계속 대화하도록 유도하는 발화 이외의 대화를 나누지는 못한다. 이러한 시스템의 예로 SEMAINE 시스템이 있다.The virtual human listener system, however, does not share conversations other than utterances that encourage the user to respond appropriately and continue conversation, rather than talking. An example of such a system is the SEMAINE system.

하지만, 기존의 청자 시스템의 경우에는 적절한 반응과 호응을 제공하지만 이는 사용자의 감정에 따른 출력만이 지정되었을 뿐, 어떠한 상황에 어떠한 질문을 하고 발화로써 사용자의 이야기를 이해하고 따르고 있음을 알리기에는 부족하다.However, the existing celadon system provides appropriate response and response, but it is not enough to report only the output according to the user's emotion, Do.

기존의 대화 시스템 또한, 감성적인 대화가 아닌 질답의 형식 혹은 명령 위주의 대화이다. 또한, 대화의 대부분이 특정 디바이스를 핸들링하거나 잡담 형식의 대화가 주를 이루고 있어 인간 생활에 실질적인 도움을 주지 못한다는 문제가 있다. The existing dialogue system is also a form of dialogue or command-oriented dialogue, not an emotional dialogue. In addition, most of the conversations are handled by specific devices, or conversations in the form of chats are the main part, which does not really help human life.

기존의 청자 시스템은 대화가 아닌 적절한 반응을 내는 것에 초점이 맞추어져 있기 때문에 사용자의 이야기를 이해하고 따라가고 있다고 보기 힘들다. The existing celadon system is not focused on understanding the user's story because it focuses on responding appropriately rather than conversationally.

상술한 문제점을 극복하기 위한 본 발명의 목적은 사용자의 감정을 이해하고 그 감정의 원인이 무엇인지에 대한 대화를 사용자에게 제공하는 상담 대화 제공 방법을 제공하는 데 있다.It is an object of the present invention to overcome the above-described problems and provide a method of providing a consultation dialogue that provides a user with an understanding of a user's feelings and a dialogue about what causes the feelings.

본 발명의 다른 목적은 상기 방법을 이용하여 상담 대화를 제공하는 상담 대화 제공 장치를 제공하는 데 있다. Another object of the present invention is to provide a consultation dialogue providing apparatus which provides consultation dialogue using the above method.

상술한 본 발명의 목적을 달성하기 위한 본 발명의 일 측면에 따른 상담 대화 장치는, 발화된 음성을 인식하여 텍스트로 변환하는 음성 인식 모듈, 사용자의 영상 또는 상기 음성 인식 모듈이 출력하는 사용자 음성 텍스트 로부터 사용자의 감정을 분석하는 감정 탐지 모듈, 사용자의 발화 텍스트로부터 사용자 발화의 주행을 파악하여 발화 의도를 분석하고, 사용자의 감정의 원인이 되는 요인을 6하 원칙으로 분석하는 발화 이해 모듈, 및 사용자 발화에서 분석한 주행과 6하 원칙 정보로부터 사용자에 대한 대화 전략을 선택하는 대화 처리 모듈을 포함할 수 있다.According to an aspect of the present invention, there is provided a consultation dialogue apparatus including a speech recognition module for recognizing a speech and converting the speech into text, a user's voice, An emotion detection module for analyzing the user's emotions, a speech recognition module for analyzing the utterance intention by grasping the running of the user utterance from the utterance text of the user, analyzing the factors causing the emotions of the user as six principle, And a conversation processing module for selecting a conversation strategy for the user from the running and 6-principle information analyzed in the speech.

상기 상담 대화 장치는, 상기 대화 처리 모듈에 의해 선택된 대화 전략 및 상기 감정 탐지 모듈이 출력하는 사용자의 감정을 이용해 사용자에 대한 응답을 생성하는 응답 생성 모듈을 더 포함할 수 있다. The consultation dialogue apparatus may further include a response generation module for generating a response to the user by using the conversation strategy selected by the conversation processing module and the emotion of the user output by the emotion detection module.

상기 응답 생성 모듈은, 상기 대화 처리 모듈이 선택한 대화 전략과 상기 감정 탐지 모듈에 의해 분석된 사용자의 감정을 이용해 사용자에게 발화할 대화 템플릿을 선택하고 발화 태도를 생성할 수 있다. The response generation module may select a conversation template selected by the conversation processing module and a conversation template to be uttered to the user using the emotion of the user analyzed by the emotion detection module, and generate a speaking attitude.

또한, 상기 상담 대화 장치는, 상기 응답 생성 모듈에 의해 생성된 적어도 하나의 대화 템플릿 데이터를 저장하는 대화 템플릿 데이터베이스를 더 포함한다.The consultation dialogue apparatus further includes a dialog template database for storing at least one conversation template data generated by the response generation module.

여기에서, 상기 상담 대화 장치는, 상기 응답 생성 모듈이 출력하는 결과를 이용해 가상 인간을 표현해 출력하는 가상인간 출력 모듈을 더 포함한다.Here, the consultation dialogue apparatus further includes a virtual human output module for expressing and outputting a virtual human using the result output by the response generation module.

여기에서, 상기 감정 탐지 모듈은, 사용자의 감정을 감지하는 데 필요한 데이터를 추출하는 특징 추출 모듈과 상기 특징 추출 모듈이 출력하는 데이터를 이용해 사용자의 행동을 분석하는 특징 분석 모듈, 상기 특징 분석 모듈의 출력을 이용해 사용자의 감정을 감정 좌표 상에 표시하는 특징 합성 모듈 및 상기 특징 합성 모듈이 출력하는 감정 좌표상의 데이터 및 음성 인식 모듈의 결과값을 이용해 감정을 분석하는 감정 분석 모듈을 포함한다.Here, the emotion detection module may include a feature extraction module for extracting data necessary to sense a user's emotion, a feature analysis module for analyzing user behavior using data output from the feature extraction module, And an emotion analysis module for analyzing the emotion using the resultant values of the data on the emotion coordinates and the voice recognition module outputted by the feature synthesis module.

한편, 상기 감정 탐지 모듈은 또한, 사용자의 발화 텍스트 내에 존재하는 감정 키워드를 추출하여 사용자의 감정을 판단할 수 있다. Meanwhile, the emotion detection module may also extract the emotion keyword existing in the user's utterance text to determine the emotion of the user.

상기 대화 처리 모듈은, 상기 6하 원칙 관련 데이터를 저장하는 슬롯들 중 채워지지 않은 슬롯이 있는 경우, 추가 질문을 통해 사용자의 응답을 유도하고 사용자의 음성 응답을 분석하여 대화 전략을 선택할 수 있다.The dialog processing module may select a conversation strategy by deriving a user's response through an additional question and analyzing a user's voice response if there is an unfulfilled slot among the slots storing data related to the sixth principle.

상기 대화 전략은, 잘 들어주기 전략, 질문하기 전략, 따라 말하기 전략, 감정 확인하기 전략 중 하나 이상을 포함할 수 있다.
The conversation strategy may include one or more of a listening strategy, a questioning strategy, a follow-up strategy, and an empathizing strategy.

상술한 본 발명의 다른 목적을 달성하기 위한 본 발명의 일 측면에 따른 상담 대화 제공 방법은, 발화된 음성을 인식하여 텍스트로 변환하는 음성 인식 단계, 사용자의 영상 또는 상기 음성 인식 모듈이 출력하는 사용자 음성 텍스트 로부터 사용자의 감정을 분석하는 감정 탐지 단계, 사용자의 발화 텍스트로부터 사용자 발화의 주행을 파악하여 발화 의도를 분석하고, 사용자의 감정의 원인이 되는 요인을 6하 원칙으로 분석하는 발화 이해 단계, 및 사용자 발화에서 분석한 주행과 6하 원칙 정보로부터 사용자에 대한 대화 전략을 선택하는 대화 처리 단계를 포함할 수 있다. According to another aspect of the present invention, there is provided a method for providing a consultation dialogue comprising: a speech recognition step of recognizing a speech and converting the speech into text; An emotion detection step of analyzing the user's emotions from the spoken text, an utterance understanding step of analyzing the utterance intention by grasping the running of the user utterance from the utterance text of the user, and analyzing the factors that cause the emotions of the user, And a dialogue processing step of selecting a dialogue strategy for the user from the running and the six-way information analyzed in the user utterance.

상기 상담 대화 제공 방법은 또한, 상기 대화 처리 모듈에 의해 선택된 대화 전략 및 상기 감정 탐지 모듈이 출력하는 사용자의 감정을 이용해 사용자에 대한 응답을 생성하는 단계를 더 포함할 수 있다.The consultation dialogue providing method may further include generating a response to the user using the conversation strategy selected by the dialogue processing module and the emotion of the user output by the emotion detection module.

상술한 바와 같은 본 발명에 따른 상담 대화 장치에 따르면, 사용자에게 적절한 반응뿐 아니라 적절한 질문과 모방발화, 그리고 감정 확인을 하여 사용자로 하여금 시스템이 자신을 이해하고 있다는 인식을 줄 수 있다.According to the consultation dialogue apparatus of the present invention as described above, not only a proper response but also appropriate questions, emotional verbalization, and emotional confirmation can be provided to the user, thereby giving the user a feeling that the system understands himself.

또한, 발화 혹은 텍스트만으로는 표현할 수 없었던 감정들을 복합적으로 시스템이 판단하므로 더욱 자연스럽고 복합적인 감성 대화가 가능하다.In addition, the system judges the complex emotions that could not be expressed by speech or text alone, so that a more natural and complex emotional conversation is possible.

뿐만 아니라, 가상인간을 이용하여 적절한 태도와 몸짓을 이용하여 마치 다른 인격체와 대화하는 듯한 경험을 제공할 수 있으며, 이러한 경험은 시스템을 심리적으로 가깝게 느끼게 하여 사용자가 더 많은 발화를 하도록 유도할 수 있다.In addition, using virtual human beings can provide an experience that seems to converse with other personality by using appropriate attitudes and gestures, and this experience can induce the user to feel more psychological by making the system more speech .

도 1은 본 발명에 따른 상담 대화 시스템의 블록 구성도이다.
도 2는 본 발명에 따른 대화 처리 모듈의 동작 순서를 도시한다.
도 3은 본 발명의 일 실시예에 따른 감정 탐지 모듈의 블록 구성도이다.
1 is a block diagram of a consultation dialog system according to the present invention.
Fig. 2 shows an operation sequence of the dialog processing module according to the present invention.
3 is a block diagram of an emotion detection module according to an embodiment of the present invention.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.While the invention is susceptible to various modifications and alternative forms, specific embodiments thereof are shown by way of example in the drawings and will herein be described in detail.

그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. It should be understood, however, that the invention is not intended to be limited to the particular embodiments, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used in this application is used only to describe a specific embodiment and is not intended to limit the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise. In the present application, the terms "comprises" or "having" and the like are used to specify that there is a feature, a number, a step, an operation, an element, a component or a combination thereof described in the specification, But do not preclude the presence or addition of one or more other features, integers, steps, operations, elements, components, or combinations thereof.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the relevant art and are to be interpreted in an ideal or overly formal sense unless explicitly defined in the present application Do not.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In order to facilitate the understanding of the present invention, the same reference numerals are used for the same constituent elements in the drawings and redundant explanations for the same constituent elements are omitted.

본 발명은 인간과 자연스러운 상담을 나눌 수 있는 가상인간 상담 대화 시스템을 제공하는 방법에 관한 것으로, 사용자의 음성 대화에서의 내용으로 사용자가 어떤 상황인지를 파악하고, 표정, 몸짓, 억양 등에서도 감정을 분석하며 적절한 질문으로 사용자를 이해한다. 본 발명은 또한 이러한 이해를 기반으로 사용자에게 감정을 이해해 주는 상담을 해주는 상담 대화 시스템에 대한 것이다.The present invention relates to a method for providing a virtual human counseling dialog system capable of natural consultation with a human being. The present invention relates to a method for providing a virtual human counseling conversation system in which a user can grasp the situation of a user, Analyze and understand users with appropriate questions. The present invention also relates to a consultation dialogue system that provides consultation for understanding the emotion to the user based on this understanding.

본 발명에 따른 상담 대화 시스템은, 사용자의 표정, 몸짓, 억양, 단어 선택 등을 통해 사용자의 감정을 파악하며, 발화를 통해 감정의 원인이 무엇인지 이해할 수 있다. 이를 위해 본 발명에 따른 상담 대화 시스템은, 음성, 표정 등의 데이터로부터 특징을 추출하고, 추출한 데이터를 이용하여 사용자가 어떤 감정 상태인지 판단한다. 상담 대화 시스템은 또한, 대화 중간중간에 주요한 질문을 통해 감정의 원인을 구체화할 수 있도록 적절한 질문을 하며, 추가로 적절한 질문을 하면서 그에 따른 사용자의 대답을 확인하는 발화를 출력하여 공감을 유도하고 발화를 확인하도록 한다.The consultation dialog system according to the present invention grasps the user's emotions through facial expressions, gestures, intonation, and word selection of the user, and can understand what causes the emotions through utterance. To this end, the consultation dialogue system according to the present invention extracts features from data such as voice, facial expression, and the like, and determines the user's emotional state using the extracted data. The consultation dialogue system also provides appropriate questions in order to specify the cause of the emotions through the main questions in the middle of the conversation, outputs the utterance confirming the user 's answer according to the appropriate questions, induces sympathy, .

상담 대화 시스템은 사용자로부터 공감을 얻기 위해서 "응, 그래" 혹은 "정말? 계속 말해봐" 등의 표현을 통해 중간중간 발화를 유도하거나 동조하는 형식의 반응도 필요하다. 또한 분석된 사용자의 감정과 원인을 이용하여 동감하거나 이해하였다는 형식의 발화를 최종으로 출력함으로써 사용자가 공감을 느끼게 함과 동시에 제대로 상황과 감정을 파악하였음을 표현한다.
The counseling dialogue system needs a response in the form of inducing or synchronizing the midterm utterance by expressing "Yes, yes" or "Really? Also, by outputting the utterance in the form that the emotions and causes of the analyzed user are sympathetic or comprehended, the emotions are expressed by the user, and the emotion is grasped properly.

도 1은 본 발명에 따른 상담 대화 장치의 블록 구성도이다. 1 is a block diagram of a consultation dialogue apparatus according to the present invention.

본 발명에 따른 상담 대화 장치는, 현재 사용자의 감정과 발화를 인식하여 현재 사용자의 감정을 사용자가 원하는 방향으로 전환하도록 대화를 이끄는 상담 대화 장치의 블록 구성을 나타낸다.The consultation dialogue apparatus according to the present invention shows a block configuration of a consultation dialogue apparatus which recognizes the emotion and speech of the current user and leads a dialogue so as to switch the emotion of the current user to a direction desired by the user.

도 1에 도시된 상담 대화 장치는, 음성 인식 모듈(200), 발화 이해 모듈(210), 대화 처리 모듈(220), 감정 탐지 모듈(100), 응답 생성 모듈(300), 가상인간 출력 모듈(310), 대화 템플릿 데이터베이스(400)를 포함하여 구성될 수 있다. 1 includes a speech recognition module 200, a speech understanding module 210, a dialog processing module 220, an emotion detection module 100, a response generation module 300, a virtual human output module 310, and a dialog template database 400. [

음성 인식 모듈(200)은 사용자의 발화를 소리에서 문자 데이터로 해석한다. 즉, 음성 인식 모듈은 사용자의 음성을 텍스트로 바꾸어 주는 모듈이다.The speech recognition module 200 interprets the user's utterance as sound data. That is, the voice recognition module is a module that converts the voice of the user into text.

발화 이해 모듈(210)은 사용자의 발화의 주행을 파악하여 발화 의도를 분석한다. 주행은 발화를 인식하기 전에 정의하며, 감정을 표현하는 발화인지, 원인을 설명하기 위한 발화인지 등을 분류한다. 또한, 사용자의 발화 내에서 사용자의 감정의 원인이 되는 요인을 6하 원칙으로 분석하여 6하 원칙 슬롯에 데이터를 적절히 저장한다.The ignition comprehension module 210 analyzes the intention of the user by grasping the running of the user's utterance. Driving defines the utterance before recognizing it, and classifies the utterance expressing the emotion or utterance to explain the cause. Also, the factor that causes the user 's emotions in the user' s utterance is analyzed by the six - principle, and the data is appropriately stored in the six - principle slot.

여기서, 6하 원칙 슬롯은 "누가", "언제", "어디서", "무엇을", "어떻게", "왜"의 6개의 슬롯이다. 예를 들어 "강아지가 차에 치여 죽었어" 라는 발화가 들어온다면, '누가'는 '강아지', '어떻게' 은 '죽었다' 그리고 '왜' 는 '차에 치이다'가 된다.Here, the six sub-slots are six slots: "who", "when", "where", "what", "how", and "why". For example, if the word "puppy is hit by a car and die" comes in, "Luke" becomes "puppy", "how" is "dead" and "why" is "hit by car".

6하 원칙에 맞게 분석하는 방법으로는, 6하 원칙을 발화에 맞게 태깅한 말뭉치를 훈련하여 분석하는 방법이 사용될 수 있으며, 그 외에도 구문 분석기와 의미역 결정(semantic role labeling) 기술을 이용하여 분석할 수 있다.The method of analysis according to the sixth principle can be a method of training and analyzing corpus tagged with utterance according to the sixth principle. In addition, analysis using semantic role labeling technique can do.

감정 탐지 모듈(100)은 사용자의 음성, 영상 데이터를 수신하여 사용자의 감정이 어떤 상태인지 분석하는 모듈로, 사용자의 발화 내용 또는 단어, 억양, 표정, 몸짓 등을 분석하여 획득한 감정 좌표 값을 이용하여 사용자의 감정을 판단한다. 여기서 판단된 감정은 대화 처리 모듈의 결과와 함께 응답 생성 모듈의 동작에 영향을 준다. 감정 탐지 모듈(100)의 상세 구성에 대해서는 이하 도 3를 통해 자세히 설명한다. The emotion detection module 100 is a module for analyzing the state of the user's emotions by receiving voice and image data of the user. The emotion detection module 100 analyzes emotion coordinates obtained by analyzing the user's utterance contents, words, intonation, facial expression, gesture, To determine the user's feelings. The emotion determined here affects the operation of the response generation module together with the result of the dialog processing module. The detailed configuration of the emotion detection module 100 will be described in detail with reference to FIG.

대화 처리 모듈(220)은 발화 이해 모듈의 결과를 이용하여 어떠한 대화 전략을 선택할지 결정한다. 본 발명의 일 실시예에 따른 대화 처리 모듈(220)에서 생성하는 대화 전략은 크게 4가지를 가질 수 있다. 제1 전략은 잘 들어주기, 제2 전략은 질문하기, 제3 전략은 따라 말하기, 제4 전략은 감정 확인하기이다. 대화 처리 모듈(220)은 아래 도 2와 관련한 설명을 통해 더 자세히 설명될 것이다. The dialog processing module 220 uses the results of the speech understanding module to determine what conversation strategy to select. The conversation strategy generated by the conversation processing module 220 according to an embodiment of the present invention may have four types. The first strategy is listening, the second strategy is asking, the third strategy is speaking along, and the fourth strategy is emotional confirmation. The dialog processing module 220 will be described in more detail below with reference to FIG. 2.

응답 생성 모듈(300)에서는 대화 전략과 사용자 감정을 이용하여 적절한 발화를 생성하고 가상인간의 태도를 어떻게 설정할지 결정한다. 구체적으로, 응답 생성 모듈(300)은 생성된 대화 처리 모듈의 결과 값과 감정 결과 값을 이용하여 발화와 태도를 생성한다. 생성된 발화와 태도는 태도 형성 모듈인 가상 인간 출력 모듈(310)을 통해 발화와 표정, 몸짓 등의 형태로 출력된다.The response generation module 300 generates an appropriate speech using the conversation strategy and the user's emotions, and determines how to set the attitude of the virtual human. Specifically, the response generation module 300 generates utterances and attitudes using the result of the generated dialog processing module and the emotion result value. The generated utterances and attitudes are output through the virtual human output module 310, which is an attitude formation module, in the form of utterance, facial expression, and gesture.

응답 생성 모듈(300)은 상술한 동작 과정에서 획득한 데이터를 저장함으로써 대화 템플릿 데이터베이스를 생성한다. The response generation module 300 generates a dialogue template database by storing data acquired in the above-described operation process.

대화 템플릿 데이터베이스(400)에 저장되는 대화 템플릿 데이터는 적절한 질문과 적절한 따라 말하기, 혹은 감정 확인하기를 위한 템플릿 대화를 의미한다. 대화 템플릿의 예를 들자면, '<who>가 언제 <how> 했는데?'가 그 예가 될 수 있다. Conversation template data stored in the conversation template database 400 means a template conversation for appropriate questions, appropriate follow-up, or emotional confirmation. An example of a conversation template is "When did <who> <how> did?".

이러한 대화 템플릿 데이터베이스를 생성하는 방법은 사용자의 감정과 시스템 발화 전략, 그리고 6하 원칙 슬롯을 이용하여 생성할 수 있다. 어떠한 슬롯에 데이터가 존재하는지, 어떠한 슬롯에 존재하지 않는지를 분석하고, 어떤 조합으로 어떠한 질문을 할지를 분석한 뒤에 대화 템플릿을 만들 수 있다.The method of generating the dialogue template database can be generated by using the emotion of the user, the system utterance strategy, and the six lower principle slots. After analyzing which slot exists in which slot, which slot is not present, and what combination of questions to ask, a conversation template can be created.

예를 들어 <who>와 <how>가 존재하고 <when>을 알고 싶다면 위와 같이 '<who>가 언제 <how> 했는데?'라는 질문을 템플릿으로 만들 수 있다. 또한, 예를 들어 <who>와 <what>을 아는 상황에서 사용자에게 <where> 슬롯의 정보를 질문하려는 발화 전략을 선택하고, 사용자의 감정이 화남이면, '도대체 <who>랑 어디에서 <what> 했길래 화가 난 거야?' 라는 질문을 템플릿으로 만들 수 있다.For example, if you have <who> and <how> and you want to know <when>, you can create a template with the question <when> <how> did?>. Also, for example, in a situation where knowing <who> and <what>, a user selects a speech strategy for asking information of a <where> slot, and if the user's feelings are anxious, > Did you get angry? You can create a template as a question.

응답 생성 모듈(300)은 대화 처리 모듈에서 출력된 대화 전략과 사용자의 감정을 입력으로 수신하여 적절한 발화 및 태도를 생성하는 모듈이다. The response generation module 300 is a module for receiving the conversation strategy output from the conversation processing module and the user's emotion as inputs and generating appropriate utterances and attitudes.

대화 처리 모듈(220)이 잘 들어주기의 전략을 선택할 경우에는, 저장된 맞장구 말뭉치를 이용하여 출력하고, 이 경우의 시스템의 태도는 눈을 맞추고, 몸을 앞으로 숙여 사용자를 바라보는 등의 '사용자에게 집중'하는 느낌을 주는 태도이다.When the dialog processing module 220 selects a well-known strategy, it outputs the stored coincidence corpus. In this case, the attitude of the system may be changed according to the user's attitude, such as eye contact, It is an attitude that gives a feeling of concentration.

질문하기의 경우에는 대화 템플릿 데이터베이스를 참조한다. 어떠한 6하 원칙 슬롯 값을 가지고 있는지, 어떠한 값이 없는지를 파악하고 그에 맞는 대화 템플릿을 선택하여야 한다. 예를 들어 '강아지가 죽었다' 라는 사용자의 발화를 들을 경우에는 '누가' 는 강아지, '어떻게' 는 죽었다 가 될 것이고, 이때 '왜' 라는 슬롯을 채우기 위해서는 "<who>가 왜 <how> 했는데?" 형식의 템플릿과 6하 원칙의 채워진 슬롯 데이터를 이용하여 발화를 생성한다. 어떤 템플릿을 선택할지는 대화 처리 모듈(220)의 결과값을 이용한다. 이 전략을 취할 때에는 질문의 위치에 있으므로 시스템의 태도는 호기심, 혹은 궁금한 태도를 취한다. 예를 들면, 고개를 갸우뚱한다던가, 혹은 질문 형태로 말 끝을 올리는 것 등이 포함된다.In the case of a question, refer to the dialog template database. It is necessary to determine which 6 sub-principle slot values have no value and select a dialogue template corresponding to them. For example, if you hear the user's utterance of "the puppy is dead", "Luke" will be the puppy, "how" will die, and to fill the slot "why" ? " Type template and the filled-in slot data of the 6th principle. Which template is selected uses the result value of the dialog processing module 220. When taking this strategy, the attitude of the system is curiosity or anxious attitude because it is in the position of the question. This includes, for example, glaring at the head or raising the end of a question.

따라 말하기의 경우는 6하 원칙 슬롯의 조합으로 발화가 형성되며, 어떤 조합으로 발화를 할 지에 대해서는 대화 처리 모듈에서 정보를 받아온다. 따라 말하기의 경우 질문하기와 비슷하게 대화 템플릿을 가져와서 발화한다. 예를 들어 '<who>가 <how> 했다는 말이지?' 형식의 템플릿을 이용하여 발화를 생성한다.In the case of speaking, the utterance is formed by a combination of the six hypothesis slots, and the dialog processing module receives information on which combination is to be uttered. In conversation, take a conversation template similar to a question and speak. For example, "How did <who>"? The template is used to generate the utterance.

감정 확인하기의 전략은 채워진 6하 원칙 슬롯의 데이터와 감지된 사용자의 감정, 그리고 대화 템플릿을 이용하여 사용자의 감정을 이해하는 발화를 생성하는 전략이다. 예를 들면 "아, 그러니까 <who>가 <why>해서 <when> <where>에서 <what>을 <how>한 것 때문에 <emotion> 하신 거군요…" 라는 템플릿을 이용할 수 있다. 이 때의 시스템의 태도는 사용자의 감정에 따라 바뀌어야 한다. 사용자의 감정이 '즐거움' 이라면 같이 '즐거움'을 표현하여야 하며, '화남' 이라면 '맞장구'를 치는 태도를, '기쁨' 이라면 함께 '기쁨'을 표현하여야 하며 사용자가 '공포'의 상황에 놓였다면 '온화' 한 태도로 사용자를 안심시켜야 한다. The strategy for identifying emotions is a strategy for generating utterances that understand the user 's emotions using the data of the filled six hypothetical slots, sensed user emotions, and dialogue templates. For example, "Oh, so you can use the template <emotion> because <who> is <why> and <when> <how> <where> in <where>. The attitude of the system at this time should be changed according to the user's feelings. If the user 's feelings are' joy ', they should express' joy'. If they are 'joy', they should express' joy 'and if they are' joy 'they should express joy. If you are in a 'gentle' position, you should reassure the user.

응답 생성 모듈(300)에서는 시스템의 발화뿐 아니라 표정, 고갯짓, 태도, 손짓, 억양 등도 함께 출력한다. 응답 생성 모듈(300)의 출력은 이후 가상인간 출력 모듈(310)에서 사용된다.The response generation module 300 also outputs facial expressions, beeps, attitudes, hand gestures, and intonation as well as the system utterance. The output of the response generation module 300 is then used in the virtual human output module 310.

가상인간 출력 모듈(310)은 응답 생성 모듈(300)이 결정한 태도와 발화를 기반으로 가상인간의 음성, 입모양, 몸짓 등을 출력한다. The virtual human output module 310 outputs the voice, mouth shape, gesture, etc. of the virtual human on the basis of the attitude and utterance determined by the response generation module 300.

구체적으로 가상인간 출력 모듈(310)에서는, 응답 생성 모듈에서 출력한 결과를 이용하여 가상인간을 표현하는데, 텍스트 형식의 발화를 음성 출력으로 출력하며, 음성 출력에 상응하는 입 모양 등을 영상으로 출력한다. Specifically, the virtual human output module 310 expresses a virtual human using the result output from the response generation module. The virtual human output module 310 outputs a textual utterance as a voice output, and outputs a mouth shape corresponding to the voice output as an image do.

가상인간 출력 모듈(310)은 또한, 효과적인 감정 표현을 위해 눈, 눈썹, 입 모양, 고갯짓, 손 동작 등을 출력하며, 음성으로 감정을 표현하기 위해 억양 또한 표현 가능한다.The virtual human output module 310 may also output an eye, an eyebrow, a mouth, a beep, a hand motion, etc. for effective emotional expression, and may also express an accent to express emotion by voice.

이와 같은 구성으로 이루어지는 본 발명에 따른 가상인간 상담 대화 장치는, 사용자에게 적절한 질문을 하고 사용자의 발화를 잘 이해하고 있음을 발화함으로써 확인받기도 한다. 또한 최종적으로 사용자의 감정이 어디서 어떻게 비롯되었는지를 이해하는 발화를 함으로써 사용자에게 감정적으로 이해를 받았다는 느낌을 준다.
The virtual human counseling dialogue apparatus according to the present invention constructed as described above is also confirmed by uttering an appropriate question to the user and understanding that the user's utterance is well understood. Finally, the emotion of the user is emotionally understood by making a speech that understands how and where the emotion of the user originated.

도 2는 본 발명에 따른 대화 처리 모듈의 동작 순서를 도시한다. Fig. 2 shows an operation sequence of the dialog processing module according to the present invention.

대화 처리 모듈(220)에서는 발화 이해 모듈의 출력을 이용해 대화 전략을 선택한다. 대화 처리 모듈이 생성하는 대화 전략은 크게 4가지이다. 제1 전략은 잘 들어주기, 제2 전략은 질문하기, 제3 전략은 따라 말하기, 제4 전략은 감정 확인하기이다. The dialog processing module 220 selects the conversation strategy using the output of the speech understanding module. There are four types of conversation strategies that the conversation processing module generates. The first strategy is listening, the second strategy is asking, the third strategy is speaking along, and the fourth strategy is emotional confirmation.

제1 전략인 잘 들어주기는 사용자와 눈을 맞추고, 사용자의 발화에 집중하고 있다는 인상을 주며 "응응 계속 얘기해봐", 혹은 "오 흥미롭다" 등의 반응을 하여 사용자에게 '듣고 있다' 혹은 '집중하고 있다' 라는 인상을 심어주기 위한 전략이다. 이러한 제1 전략은 대화 중간중간에 발현된다. The first strategy is to listen to the user and give the impression that he or she is focusing on the user's utterance and he / she is listening to the user by "responding" or " It is a strategy to instill the impression that 'I am concentrating.' This first strategy is expressed in the middle of the conversation.

제 2 전략인 질문하기는 6하 원칙 슬롯에 얼마나 내용이 저장되어 있느냐에 따라 발현된다. 6하 원칙 슬롯은 사용자와의 상담을 통해 채워지는데, 만일 슬롯이 모두 차지 않아 빈 슬롯이 존재하는 경우, 그 슬롯에 대한 정보를 얻기 위한 질문을 한다. 이러한 질문은 응답 생성 모듈에서 생성되지만, 어떠한 슬롯에 대해 질문할지는 대화 처리 모듈에서 처리된다. The second strategy, Queries, is based on how much content is stored in the Sixth Principles Slot. The sub-slots are populated by consultation with the user. If an empty slot is found because the slot is not full, a question is asked to obtain information about the slot. These questions are generated in the response generation module, but which slots are to be queried are handled in the dialog processing module.

예를 들어, 강아지가 왜 죽었는지를 알기 위해서는 ask_why 식의 결과가 나올 것이다. 사용자가 어떠한 6하 원칙 슬롯의 정보를 포함하지 않는 발화, 예를 들어 '슬퍼' 등의 발화를 했을 경우에는 어떠한 6하 원칙 슬롯의 정보를 발화하도록 유도하기 위해 '무슨 일 있니?' 식의 질문을 선택한다.For example, to see why a puppy died, the answer would be ask_why. If the user has uttered an utterance that does not contain information for any of the six hypothetical slots, such as "sad," then what would happen if the "what happened" to induce the utterance of any six hypothetical slots? Select the question of the expression.

제3 전략인 따라 말하기는 사용자로부터 시스템이 '듣고 있다', 혹은 '이야기를 잘 따라가고 있다' 라는 인식을 심어줌과 동시에 잘못 이해할 경우 사용자로부터 수정을 받기 위해 존재하는 전략이다. 따라 말하기 전략은 질문하기 이후에 사용자의 발화의 내용을 가지고 따라 말하는 발화를 생성한다. 대화 처리 모듈에서는 어떠한 슬롯 정보들을 조합하여 따라 말할 것인지에 대한 전략 또한 정보로 포함하여 출력한다. 예를 들어 '강아지가 교통사고로 죽었다'의 경우 '강아지가 죽었어?' 혹은 '교통사고로 죽었어?' 등의 슬롯의 조합에 따른 다양한 전략이 가능하기 때문이다.The third strategy is to introduce the user to the system as 'listening' or 'following the story', and at the same time, as a strategy to receive modification from the user if they misunderstand. The following speaking strategy generates a talking utterance with the contents of the user utterance after the question. In the dialog processing module, a strategy of what slot information is to be combined and output is also included as information. For example, if a dog is killed in a traffic accident, the dog is dead? Or 'Was it a traffic accident?' And a variety of strategies depending on the combination of slots.

제4 전략인 감정 확인하기 전략은 사용자의 발화 내 감정표현, 혹은 목소리, 몸짓, 표정 등을 통해 사용자의 감정을 파악하고, 6하 원칙 슬롯의 데이터를 이용하여 발화함으로서 사용자에게 공감을 얻어내기 위한 전략이다. 이는 또한, 사용자의 발화를 잘 이해했는지를 확인할 수 있는 전략이다. 이러한 전략은 6하 원칙 슬롯이 모두 데이터로 저장되어 있는 경우에 발현된다.The fourth strategy, emotional confirmation strategy, is to grasp the emotions of the user through emotional expressions in the user's utterances, voices, gestures, facial expressions, etc., and to empathize with the users by using the data of the six hypothetical slots Strategy. It is also a strategy to ensure that you understand your utterances well. This strategy is expressed when all 6 sub-prime slots are stored as data.

아래에서는, 상술한 바와 같은 전략을 토대로 대화 처리 모듈의 동작 순서를 도 2를 참조하여 설명한다.Hereinafter, an operation procedure of the dialog processing module based on the strategy described above will be described with reference to FIG.

대화 처리 모듈은 우선 발화 이해 모듈의 출력을 이용해 6하 원칙 중 빈 슬롯에 대해 감정을 유도하는 질문을 한다(S210). 이때의 질문은 예를 들어, "오늘 기분이 어때?" 등의 질문이 될 수 있다. 질문에 대한 사용자 입력을 수신하면(S220), 사용자의 감정을 탐지한 후 상황에 적절한 질문을 한다(S230). 예를 들어, '슬퍼'라고 사용자가 답한 경우 "무슨 일 있어?" 등의 질문을 통해 사용자로부터 추가 정보를 얻어내도록 한다.The conversation processing module uses the output of the ignition comprehension module to inquire about inducing emotion for an empty slot among the six principle (S210). For example, "How are you feeling today?" It can be a question. Upon receiving the user input for the question (S220), the user's emotion is detected and then an appropriate question is given to the situation (S230). For example, if the user says "sad", "What's up?" Etc., to obtain additional information from the user.

다시. 질문에 대한 사용자 입력을 수신하면(S240), 사용자 입력이 6하 원칙에 잘 부합하는지 판단한다(S250). again. Upon receipt of the user input for the question (S240), it is determined whether the user input satisfies the six principle (S250).

사용자의 입력은 주로 사용자로부터의 발화의 형태로 나타나며, 이러한 사용자의 발화에 대해서는 제1 전략인 잘 들어주기(S200)와 같은 전략이 사용될 수 있다. 예를 들어, "응응, 계속해봐" 등의 추임새로 사용자가 추가적으로 말을 할 수 있는 분위기를 조성한다. 잘 들어주기 전략은 대화 전반에 걸쳐 사용자의 발화가 있을 때마다 수행될 수 있다.The input of the user mainly appears in the form of an utterance from the user, and a strategy such as the first strategy (S200) can be used for the utterance of the user. For example, you can create an atmosphere in which the user can additionally speak with "chanting, continue" and so on. A listening strategy can be performed whenever there is a user utterance throughout the conversation.

한편, 사용자의 입력이 6하 원칙에 잘 부합하는 것으로 나타난 경우에는 따라 말하기(S260)를 수행한다. 예를 들어, 사용의 발화에 대해 "슬프구나", "어제 죽었구나"등의 형태로 따라 말함으로써 사용자에게 잘 이해하고 있음을 표현해 준다.On the other hand, if the input of the user is found to be in accordance with the sixth principle, the speech is performed (S260). For example, it speaks to the utterance of use by saying "I am sad" or "I am dead yesterday" to express the understanding to the user.

사용자의 입력이 6하 원칙에 잘 부합하지 않는 것으로 나타난 경우에는 추가 질문(S251)을 통해 추가로 사용자의 입력을 유도한다. 즉, 사용자가 6하 원칙에 어긋나게 "아, 슬퍼"라고 답한 경우, "강아지가 언제 죽었는데" 등의 추가 질문을 통해 사용자가 추가로 감정 표현을 할 수 있도록 유도한다. If the input of the user is found to be incompatible with the sixth principle, the user further inputs the input through the additional question (S251). That is, when the user answers "Oh, sad" in contradiction with the sixth principle, he or she can induce the user to further emotional expression through an additional question such as "when the dog died".

이후, 사용자의 입력들을 토대로 6하 원칙 슬롯이 모두 찼는지 아직 비어 있는 슬롯이 있는지 확인한다(S270). 슬롯이 모두 차 있지 않은 경우에는, 빈 원칙과 관련하여 추가적으로 사용자에게 질문을 한다(S271). 예를 들어, "강아지가 언제 죽었는데?" 등으로 6하 원칙에 맞는 내용으로 답할 수 있도록 사용자를 유도한다.Thereafter, it is determined whether there are any empty slots based on the user's inputs (S270). If the slots are not full, the user is further questioned regarding the empty principle (S271). For example, "When did the puppy die?" Etc. to guide the user to answer the contents according to the six principles.

한편, 6하 원칙 슬롯이 모두 찬 경우에는 최종적으로 사용자의 감정을 확인한다(S280). 예를 들어, "강아지가 차에 치여 죽어서 슬프겠구나" 등의 표현을 통해 사용자의 감정을 잘 이해했음을 정리하여 표현해 준다. On the other hand, if all six sub-slots are full, the user's emotions are finally confirmed (S280). For example, he expresses that he understands the emotion of the user through expressions such as "I am sad because the dog is hit by a car".

도 2의 각 단계에서 사용자에 의해 입력된 데이터 중 6하 원칙에 해당하는 정보, 예를 들어, "어제","강아지가", "횡단보도에서", "차에 치여", "죽었다", "운전자가 못 봤기 때문에" 등의 정보는, 해당 정보가 획득될 시마다 6하 원칙 슬롯에 저장된다.
2, the information corresponding to the sixth principle of data input by the user, for example, "yesterday", "puppy", "crosswalk", "hit by car", " The information such as "because the driver has not seen it" is stored in the 6th principle slot every time the information is acquired.

도 3은 본 발명의 일 실시예에 따른 감정 탐지 모듈의 블록 구성도이다. 3 is a block diagram of an emotion detection module according to an embodiment of the present invention.

본 발명에 따른 감정 탐지 모듈(100)은 특징 추출 모듈(110), 특징 분석 모듈(120), 특징 합성 모듈(130), 감정 분석 모듈(140)을 포함하여 구성될 수 있다.The emotion detection module 100 according to the present invention may include a feature extraction module 110, a feature analysis module 120, a feature synthesis module 130, and an emotion analysis module 140.

특징 추출 모듈(110)은 사용자의 비디오, 오디오 데이터에서 감정을 감지하는 데 도움이 될만한 특징을 데이터 값으로 추출해 낸다. 여기서 특징은, 예를 들어, 사람 얼굴의 좌표, 목소리의 주파수 등이 될 수 있다.The feature extraction module 110 extracts features that may be helpful in detecting emotion in the user's video and audio data as data values. Here, the characteristic may be, for example, the coordinates of a human face, the frequency of a voice, and the like.

특징 분석 모듈(120)에서는 특징 추출 모듈(110)로부터 출력된 데이터 값을 이용하여 사용자가 어떠한 행동을 취했는지 분석한다. 예를 들어, 사람의 얼굴 위치의 좌표 값이 좌에서 우로 움직임이 포착되었다면 '고개를 좌우로 움직였다'로 분석한다.The feature analysis module 120 analyzes the behavior of the user using the data value output from the feature extraction module 110. For example, if the coordinate value of the face position of a person is captured from left to right, analyze 'moving the head to the left or right'.

특징 합성 모듈(130)은 특징 분석 모듈의 결과값을 이용하여 사용자의 감정을 감정 좌표 상에 표시하는 모듈이다. 사람의 감정을 좌표로 나타내었을 때, 현재 사용자의 감정이 어느 좌표에 위치하는지를 출력한다.The feature synthesis module 130 is a module for displaying the user's emotions on the emotion coordinates using the result of the feature analysis module. When the emotion of a person is expressed in coordinates, it is outputted to which coordinates the emotion of the current user is located.

감정 분석 모듈(140)에서는 특징 합성 모듈에서 나온 감정의 좌표상의 데이터 및 음성 인식 모듈(200)로부터 출력되는 값을 이용하여 감정을 분석한다. 감정 분석 모듈(140)은 기준 감정들을 기준 좌표로 설정하고, 기준 좌표와 특징 합성 모듈에서 감지된 좌표와의 거리 중 가장 가까운 기준 감정으로 사용자의 감정을 분석하는 방법을 선택한다.The emotion analysis module 140 analyzes the emotion using the data on the coordinates of the emotion from the feature combination module and the value output from the voice recognition module 200. The emotion analysis module 140 sets the reference emotions as reference coordinates and selects a method of analyzing the emotion of the user with the nearest reference emotion among the distances between the reference coordinates and the coordinates detected by the feature synthesis module.

하지만, 감정 탐지 모듈(100)의 다른 실시예에 따르면, 사용자가 "슬퍼", 혹은 "화나" 등의 감정 키워드와 관련한 발화를 할 경우, 키워드만으로 감정 인식을 분명하게 할 수 있기 때문에 사용자의 발화에 감정적인 키워드가 있는지를 분석하고 사용자의 감정을 최종 결정할 수 있다.
However, according to another embodiment of the emotion detection module 100, when the user utters the emotional keyword such as "sad" or " To analyze whether there is an emotional keyword in the user and to finally determine the emotion of the user.

이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
It will be understood by those skilled in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined in the appended claims. It will be possible.

100: 감정 탐지 모듈 110: 특징 추출 모듈
120: 특징 분석 모듈 130: 특징 합성 모듈
140: 감정 분석 모듈 200: 음성 인식 모듈
210: 발화 이해 모듈 220: 대화 처리 모듈
300: 응답 생성 모듈 310: 가상 인간 출력 모듈
400: 대화 템플릿 데이터 베이스
100: Emotion detection module 110: Feature extraction module
120: Feature analysis module 130: Feature synthesis module
140: Emotion analysis module 200: Voice recognition module
210: ignition understanding module 220: dialog processing module
300: response generation module 310: virtual human output module
400: Conversation Template Database

Claims (20)

발화된 음성을 인식하여 텍스트로 변환하는 음성 인식 모듈;
사용자의 영상 또는 상기 음성 인식 모듈이 출력하는 사용자 음성 텍스트 로부터 사용자의 감정을 분석하는 감정 탐지 모듈;
사용자의 발화 텍스트로부터 사용자 발화의 주행을 파악하여 발화 의도를 분석하고, 사용자의 감정의 원인이 되는 요인을 6하 원칙으로 분석하는 발화 이해 모듈; 및
사용자 발화에서 분석한 주행과 6하 원칙 정보로부터 사용자에 대한 대화 전략을 선택하는 대화 처리 모듈을 포함하는, 상담 대화 장치.
A speech recognition module for recognizing the uttered speech and converting it into text;
An emotion detection module for analyzing a user's emotion from a user's image or a user's voice text output by the voice recognition module;
A spoken understanding module for analyzing the intention of the user by grasping the running of the user's utterance from the user's utterance text and analyzing the factors causing the user's emotions based on the six principle; And
And a dialogue processing module for selecting a dialogue strategy for the user from the running and analyzed information from the user's utterance.
청구항 1에 있어서,
상기 대화 처리 모듈에 의해 선택된 대화 전략 및 상기 감정 탐지 모듈이 출력하는 사용자의 감정을 이용해 사용자에 대한 응답을 생성하는 응답 생성 모듈을 더 포함하는, 상담 대화 장치.
The method according to claim 1,
Further comprising a response generation module for generating a response to the user using the conversation strategy selected by the conversation processing module and the emotion of the user output by the emotion detection module.
청구항 2에 있어서,
상기 응답 생성 모듈은,
상기 대화 처리 모듈이 선택한 대화 전략과 상기 감정 탐지 모듈에 의해 분석된 사용자의 감정을 이용해 사용자에게 발화할 대화 템플릿을 선택하고 발화 태도를 생성하는, 상담 대화 장치.
The method of claim 2,
The response generation module includes:
Wherein the conversation processing module selects a conversation template to be uttered to the user using the conversation strategy selected by the conversation processing module and the emotion of the user analyzed by the emotion detection module, and generates a speaking attitude.
청구항 2에 있어서,
상기 응답 생성 모듈에 의해 생성된 적어도 하나의 대화 템플릿 데이터를 저장하는 대화 템플릿 데이터베이스를 더 포함하는, 상담 대화 장치.
The method of claim 2,
And a dialog template database for storing at least one dialog template data generated by the response generation module.
청구항 2에 있어서,
상기 응답 생성 모듈이 출력하는 결과를 이용해 가상 인간을 표현해 출력하는 가상인간 출력 모듈을 더 포함하는, 상담 대화 장치.
The method of claim 2,
And a virtual human output module for outputting a virtual human using the result output from the response generation module.
청구항 1에 있어서,
상기 감정 탐지 모듈은,
사용자의 감정을 감지하는 데 필요한 데이터를 추출하는 특징 추출 모듈;
상기 특징 추출 모듈이 출력하는 데이터를 이용해 사용자의 행동을 분석하는 특징 분석 모듈;
상기 특징 분석 모듈의 출력을 이용해 사용자의 감정을 감정 좌표 상에 표시하는 특징 합성 모듈; 및
상기 특징 합성 모듈이 출력하는 감정 좌표상의 데이터를 이용해 감정을 분석하는 감정 분석 모듈을 포함하는, 상담 대화 장치.
The method according to claim 1,
Wherein the emotion detection module comprises:
A feature extraction module for extracting data necessary for sensing the user's feelings;
A feature analysis module for analyzing a user's behavior using data output from the feature extraction module;
A feature synthesis module for displaying the emotion of the user on the emotional coordinates using the output of the feature analysis module; And
And an emotion analysis module for analyzing emotion using data on emotion coordinates output by said feature synthesis module.
청구항 6에 있어서,
상기 감정 분석 모듈은,
하나 이상의 기준 감정들에 대한 기준 좌표를 설정하고, 상기 특징 합성 모듈이 출력하는 좌표 및 상기 기준 좌표의 거리 중 가장 가까운 기준 감정으로 사용자의 감정을 분석하는, 상담 대화 장치.
The method of claim 6,
The emotion analysis module includes:
And sets the reference coordinates for the one or more reference emotions and analyzes the emotion of the user with the closest reference emotion among the coordinates outputted by the feature synthesizing module and the distance between the reference coordinates.
청구항 1에 있어서,
상기 감정 탐지 모듈은,
사용자의 발화 텍스트 내에 존재하는 감정 키워드를 추출하여 사용자의 감정을 판단하는, 상담 대화 장치.
The method according to claim 1,
Wherein the emotion detection module comprises:
And extracting emotional keywords present in the user's utterance text to determine emotions of the user.
청구항 1에 있어서,
상기 대화 처리 모듈은,
상기 6하 원칙 관련 데이터를 저장하는 슬롯들 중 채워지지 않은 슬롯이 있는 경우, 추가 질문을 통해 사용자의 응답을 유도하고 사용자의 음성 응답을 분석하여 대화 전략을 선택하는 것을 특징으로 하는, 상담 대화 장치.
The method according to claim 1,
Wherein the dialog processing module comprises:
Wherein if there is an unfulfilled slot among the slots for storing the data related to the sixth principle, the user selects a conversation strategy by deriving a response from the user through the additional question and analyzing the voice response of the user. .
청구항 8에 있어서,
상기 대화 전략은,
잘 들어주기 전략, 질문하기 전략, 따라 말하기 전략, 감정 확인하기 전략 중 하나 이상을 포함하는, 상담 대화 장치.
The method of claim 8,
The conversation strategy,
A counselor dialog, comprising one or more of a listener strategy, a questioning strategy, a follow-up strategy, and an empathizing strategy.
발화된 음성을 인식하여 텍스트로 변환하는 음성 인식 단계;
사용자의 영상 또는 상기 음성 인식 모듈이 출력하는 사용자 음성 텍스트 로부터 사용자의 감정을 분석하는 감정 탐지 단계;
사용자의 발화 텍스트로부터 사용자 발화의 주행을 파악하여 발화 의도를 분석하고, 사용자의 감정의 원인이 되는 요인을 6하 원칙으로 분석하는 발화 이해 단계; 및
사용자 발화에서 분석한 주행과 6하 원칙 정보로부터 사용자에 대한 대화 전략을 선택하는 대화 처리 단계를 포함하는, 상담 대화 제공 방법.
A voice recognition step of recognizing the uttered voice and converting it into text;
An emotion detecting step of analyzing a user's emotion from a user's image or a user's voice text output by the voice recognition module;
An ignition understanding step for analyzing the intention of the user by grasping the running of the user utterance from the user's utterance text and analyzing the factors causing the user's emotion by the six principle; And
And a dialogue processing step of selecting a dialogue strategy for the user from the running and analyzed information of the six lower principles analyzed by the user utterance.
청구항 11에 있어서,
상기 대화 처리 모듈에 의해 선택된 대화 전략 및 상기 감정 탐지 모듈이 출력하는 사용자의 감정을 이용해 사용자에 대한 응답을 생성하는 단계를 더 포함하는, 상담 대화 제공 방법.
The method of claim 11,
Further comprising generating a response to the user using the conversation strategy selected by the conversation processing module and the emotion of the user output by the emotion detection module.
청구항 12에 있어서,
상기 사용자에 대한 응답을 생성하는 단계는,
선택된 대화 전략과 분석된 사용자의 감정을 이용해 사용자에게 발화할 대화 템플릿을 선택하고 발화 태도를 생성하는 단계를 포함하는, 상담 대화 제공 방법.
The method of claim 12,
Wherein generating a response to the user comprises:
Selecting a conversation template to be uttered to the user using the selected conversation strategy and the emotions of the analyzed user and generating a speaking attitude.
청구항 13에 있어서,
적어도 하나의 대화 템플릿 데이터를 저장하여 대화 템플릿 데이터베이스를 생성하는 단계를 더 포함하는, 상담 대화 제공 방법.
14. The method of claim 13,
Further comprising storing at least one dialog template data to create a dialog template database.
청구항 12에 있어서,
상기 사용자에 대한 응답을 이용해 가상 인간을 표현해 출력하는 단계를 더 포함하는, 상담 대화 제공 방법.
The method of claim 12,
Further comprising the step of outputting a virtual human using a response to the user.
청구항 11에 있어서,
상기 감정 탐지 단계는,
사용자의 감정을 감지하는 데 필요한 특징 데이터를 추출하는 단계;
상기 추출된 특징 데이터를 이용해 사용자의 행동을 분석하는 단계;
상기 사용자 행동 분석을 이용해, 사용자의 감정을 감정 좌표 상에 표시하는 단계; 및
상기 감정 좌표상의 데이터를 이용해 감정을 분석하는 단계를 포함하는, 상담 대화 제공 방법.
The method of claim 11,
Wherein the emotion detecting step comprises:
Extracting characteristic data necessary for sensing the user's emotion;
Analyzing a user's behavior using the extracted feature data;
Displaying the user's emotions on the emotional coordinates using the user behavior analysis; And
And analyzing emotions using data on the emotional coordinates.
청구항 11에 있어서,
상기 감정 탐지 단계는,
상기 하나 이상의 기준 감정들에 대한 기준 좌표를 설정하고, 상기 사용자의 감정에 관한 좌표와 상기 기준 좌표 간의 거리 중 가장 가까운 기준 감정으로 사용자의 감정을 분석하는 단계를 포함하는, 상담 대화 제공 방법.
The method of claim 11,
Wherein the emotion detecting step comprises:
Setting reference coordinates for the one or more reference emotions and analyzing the user's emotions with a reference emotion that is closest to a distance between coordinates of the user's emotions and the reference coordinates.
청구항 11에 있어서,
상기 감정 탐지 단계는,
사용자의 발화 텍스트 내에 존재하는 감정 키워드를 추출하여 사용자의 감정을 판단하는 단계를 포함하는, 상담 대화 제공 방법.
The method of claim 11,
Wherein the emotion detecting step comprises:
And extracting a feeling keyword existing in the user's utterance text to judge the emotion of the user.
청구항 11에 있어서,
상기 대화 처리 단계는,
상기 6하 원칙 관련 데이터를 저장하는 슬롯들 중 채워지지 않은 슬롯이 있는 경우, 추가 질문을 통해 사용자의 응답을 유도하고 사용자의 음성 응답을 분석하여 대화 전략을 선택하는 단계를 포함하는, 상담 대화 제공 방법.
The method of claim 11,
Wherein, in the dialog processing step,
Selecting a conversation strategy by analyzing a user's voice response and inducing a user's response via an additional question if there is an unfulfilled slot among the slots storing data related to the sixth principle; Way.
청구항 11에 있어서,
상기 대화 전략은,
잘 들어주기 전략, 질문하기 전략, 따라 말하기 전략, 감정 확인하기 전략 중 하나 이상을 포함하는, 상담 대화 제공 방법.
The method of claim 11,
The conversation strategy,
A method of providing a consultation dialogue comprising at least one of a listening strategy, a questioning strategy, a follow-up strategy, and an emotional verification strategy.
KR1020120135236A 2012-11-27 2012-11-27 Method for supplying consulting communication and apparatus using the method KR101423258B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120135236A KR101423258B1 (en) 2012-11-27 2012-11-27 Method for supplying consulting communication and apparatus using the method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120135236A KR101423258B1 (en) 2012-11-27 2012-11-27 Method for supplying consulting communication and apparatus using the method

Publications (2)

Publication Number Publication Date
KR20140067678A true KR20140067678A (en) 2014-06-05
KR101423258B1 KR101423258B1 (en) 2014-07-24

Family

ID=51123861

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120135236A KR101423258B1 (en) 2012-11-27 2012-11-27 Method for supplying consulting communication and apparatus using the method

Country Status (1)

Country Link
KR (1) KR101423258B1 (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160084748A (en) * 2015-01-06 2016-07-14 포항공과대학교 산학협력단 Dialogue system and dialogue method
WO2016195324A1 (en) * 2015-06-01 2016-12-08 라인 가부시키가이샤 Device for providing messenger-based service and method using same
CN109003624A (en) * 2018-06-29 2018-12-14 北京百度网讯科技有限公司 Emotion identification method, apparatus, computer equipment and storage medium
KR20190002067A (en) * 2017-06-29 2019-01-08 네이버 주식회사 Method and system for human-machine emotional communication
WO2019088383A1 (en) * 2017-11-03 2019-05-09 주식회사 머니브레인 Method and computer device for providing natural language conversation by providing interjection response in timely manner, and computer-readable recording medium
KR20190106890A (en) * 2019-08-28 2019-09-18 엘지전자 주식회사 Speech synthesis method based on emotion information and apparatus therefor
KR20190116041A (en) * 2018-03-23 2019-10-14 주식회사 포지큐브 System and method for providing interactive customer response service using virtual host character based on artificial intelligence
KR20200080585A (en) * 2018-12-27 2020-07-07 효성아이티엑스(주) Computing device and system for serving smart contact center of using the same
CN111788621A (en) * 2018-02-27 2020-10-16 微软技术许可有限责任公司 Personal virtual digital assistant
CN113326359A (en) * 2020-02-28 2021-08-31 浙江大搜车软件技术有限公司 Training method and device for dialogue response and response strategy matching model
KR102310714B1 (en) * 2021-04-27 2021-10-08 주식회사 레코더즈 Method, apparatus and computer program for creating customized profile image for user

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106373569B (en) * 2016-09-06 2019-12-20 北京地平线机器人技术研发有限公司 Voice interaction device and method
KR102199928B1 (en) * 2019-03-26 2021-01-08 한국과학기술원 Interactive agent apparatus and method considering user persona

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101006491B1 (en) * 2003-06-10 2011-01-10 윤재민 Natural Language Based Emotion Recognition , Emotion Expression System and its Method
JP2004118856A (en) * 2003-10-20 2004-04-15 Matsushita Electric Ind Co Ltd Information retrieval method and information retrieval system using agent

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160084748A (en) * 2015-01-06 2016-07-14 포항공과대학교 산학협력단 Dialogue system and dialogue method
WO2016195324A1 (en) * 2015-06-01 2016-12-08 라인 가부시키가이샤 Device for providing messenger-based service and method using same
US10984187B2 (en) 2015-06-01 2021-04-20 Line Corporation Device for providing messenger-based service and method using same
KR20190002067A (en) * 2017-06-29 2019-01-08 네이버 주식회사 Method and system for human-machine emotional communication
WO2019088383A1 (en) * 2017-11-03 2019-05-09 주식회사 머니브레인 Method and computer device for providing natural language conversation by providing interjection response in timely manner, and computer-readable recording medium
US11481443B2 (en) 2017-11-03 2022-10-25 Deepbrain Ai Inc. Method and computer device for providing natural language conversation by providing interjection response in timely manner, and computer-readable recording medium
CN111788621A (en) * 2018-02-27 2020-10-16 微软技术许可有限责任公司 Personal virtual digital assistant
CN111788621B (en) * 2018-02-27 2022-06-03 微软技术许可有限责任公司 Personal virtual digital assistant
KR20190116041A (en) * 2018-03-23 2019-10-14 주식회사 포지큐브 System and method for providing interactive customer response service using virtual host character based on artificial intelligence
CN109003624A (en) * 2018-06-29 2018-12-14 北京百度网讯科技有限公司 Emotion identification method, apparatus, computer equipment and storage medium
CN109003624B (en) * 2018-06-29 2022-02-15 北京百度网讯科技有限公司 Emotion recognition method and device, computer equipment and storage medium
KR20200080585A (en) * 2018-12-27 2020-07-07 효성아이티엑스(주) Computing device and system for serving smart contact center of using the same
KR20190106890A (en) * 2019-08-28 2019-09-18 엘지전자 주식회사 Speech synthesis method based on emotion information and apparatus therefor
CN113326359A (en) * 2020-02-28 2021-08-31 浙江大搜车软件技术有限公司 Training method and device for dialogue response and response strategy matching model
KR102310714B1 (en) * 2021-04-27 2021-10-08 주식회사 레코더즈 Method, apparatus and computer program for creating customized profile image for user

Also Published As

Publication number Publication date
KR101423258B1 (en) 2014-07-24

Similar Documents

Publication Publication Date Title
KR101423258B1 (en) Method for supplying consulting communication and apparatus using the method
CN113454708A (en) Linguistic style matching agent
EP3489950B1 (en) Response sentence generation apparatus, method and program
JP2019528512A (en) Human-machine interaction method and apparatus based on artificial intelligence
JP2018124425A (en) Voice dialog device and voice dialog method
JP6172417B1 (en) Language learning system and language learning program
US11501768B2 (en) Dialogue method, dialogue system, dialogue apparatus and program
KR101534413B1 (en) Method and apparatus for providing counseling dialogue using counseling information
KR20200056261A (en) Electronic apparatus and method for controlling thereof
CN109543021B (en) Intelligent robot-oriented story data processing method and system
WO2018230345A1 (en) Dialogue robot, dialogue system, and dialogue program
JP2011504624A (en) Automatic simultaneous interpretation system
CN109461435A (en) A kind of phoneme synthesizing method and device towards intelligent robot
Sakai et al. Online speech-driven head motion generating system and evaluation on a tele-operated robot
KR20160149488A (en) Apparatus and method for turn-taking management using conversation situation and themes
GB2578766A (en) Apparatus and method for controlling vehicle system operation
CN109065019A (en) A kind of narration data processing method and system towards intelligent robot
CN113314104A (en) Interactive object driving and phoneme processing method, device, equipment and storage medium
CN109616116B (en) Communication system and communication method thereof
KR20210123545A (en) Method and apparatus for conversation service based on user feedback
KR20190140803A (en) Interactive system using emotion embedding and recurrent neural network and method thereof
JPH09269889A (en) Interactive device
KR20180028980A (en) Device and Method of real-time Speech Translation based on the extraction of translation unit
JP2007286376A (en) Voice guide system
KR102181583B1 (en) System for voice recognition of interactive robot and the method therof

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170629

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee