KR102199928B1 - 사용자 페르소나를 고려한 대화형 에이전트 장치 및 방법 - Google Patents

사용자 페르소나를 고려한 대화형 에이전트 장치 및 방법 Download PDF

Info

Publication number
KR102199928B1
KR102199928B1 KR1020190034460A KR20190034460A KR102199928B1 KR 102199928 B1 KR102199928 B1 KR 102199928B1 KR 1020190034460 A KR1020190034460 A KR 1020190034460A KR 20190034460 A KR20190034460 A KR 20190034460A KR 102199928 B1 KR102199928 B1 KR 102199928B1
Authority
KR
South Korea
Prior art keywords
user
persona
emotional
processor
conversation mode
Prior art date
Application number
KR1020190034460A
Other languages
English (en)
Other versions
KR20200113775A (ko
Inventor
이수영
김태훈
김태호
신영훈
최신국
박성진
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020190034460A priority Critical patent/KR102199928B1/ko
Priority to PCT/KR2019/004267 priority patent/WO2020196977A1/ko
Publication of KR20200113775A publication Critical patent/KR20200113775A/ko
Application granted granted Critical
Publication of KR102199928B1 publication Critical patent/KR102199928B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

다양한 실시예들에 따른 사용자 페르소나를 고려한 대화형 에이전트 장치 및 방법은, 사용자의 페르소나를 파악하고, 파악된 페르소나에 대응하는 페르소나를 설정하고, 설정된 페르소나를 기반으로, 사용자와 감성적 대화 모드를 실행하도록 구성될 수 있다.

Description

사용자 페르소나를 고려한 대화형 에이전트 장치 및 방법{INTERACTIVE AGENT APPARATUS AND METHOD CONSIDERING USER PERSONA}
다양한 실시예들은 사용자 페르소나를 고려한 대화형 에이전트 장치 및 방법에 관한 것이다.
오늘날 대화형 에이전트 장치가 사용자와 자연스럽게 대화하고 있다. 이 때 대화형 에이전트 장치는 사용자의 질의에 응답하여, 각종 정보를 제공한다. 이러한 대화형 에이전트 장치는 익명성과 비밀성이 보장되는 특성을 갖는다. 그런데, 상기와 같은 대화형 에이전트 장치는 지식 기반 대화(knowledge-based conversation)를 수행할 뿐이다. 이로 인하여, 대화형 에이전트 장치와 감성적으로 대화를 나누고자 하는 수요가 있다.
다양한 실시예들은 사용자와 감성적으로 대화할 수 있는 대화형 에이전트 장치 및 방법을 제공한다.
다양한 실시예들은 사용자의 페르소나에 대응하는 페르소나를 설정함으로써, 사용자와 감성적으로 대화할 수 있는 대화형 에이전트 장치 및 방법을 제공한다.
다양한 실시예들에 따른 대화형 에이전트 장치의 동작 방법은, 사용자의 페르소나를 파악하는 동작, 상기 파악된 페르소나에 대응하는 페르소나를 설정하는 동작, 및 상기 설정된 페르소나를 기반으로, 상기 사용자와 감성적 대화 모드를 실행하는 동작을 포함할 수 있다.
다양한 실시예들에 따른 대화형 에이전트 장치는, 입력 모듈, 및 상기 입력 모듈과 연결되며, 사용자와 감성적 대화 모드를 수행하도록 구성되는 프로세서를 포함할 수 있다. 다양한 실시예들에 따르면, 상기 프로세서는, 상기 사용자의 페르소나를 파악하고, 상기 파악된 페르소나에 대응하는 페르소나를 설정하고, 상기 설정된 페르소나를 기반으로, 상기 사용자와 감성적 대화 모드를 실행하도록 구성될 수 있다.
다양한 실시예들에 따르면, 대화형 에이전트 장치가 다양한 페르소나들 중 사용자의 페르소나에 대응하는 페르소나에 기반하여, 사용자와 감성적 대화 모드를 실행할 수 있다. 즉 대화형 에이전트 장치는 다양한 페르소나들로부터 사용자에 적합한 페르소나를 선택할 수 있다. 이 때 대화형 에이전트 장치는 사용자의 발화 데이터로부터 사용자의 감정 상태를 인식할 수 있기 때문에, 사용자와 감성적 대화 모드를 실행할 수 있다. 아울러, 대화형 에이전트 장치는 사용자의 감정 상태를 긍정적인 방향으로 유도하면서 대화 모드를 실행할 수 있다. 즉 대화형 에이전트 장치는 사용자에 개인화된 감성적 대화 모드를 실행함으로써, 사용자의 감정 상태를 긍정적인 방향으로 유도할 수 있다.
도 1은 다양한 실시예들에 따른 대화형 에이전트 장치를 도시하는 도면이다.
도 2는 다양한 실시예들에 따른 대화형 에이전트 장치의 동작 방법을 도시하는 도면이다.
도 3은 도 2의 감성적 대화 모드 실행 동작을 도시하는 도면이다.
이하, 본 문서의 다양한 실시예들이 첨부된 도면을 참조하여 설명된다.
도 1은 다양한 실시예들에 따른 감성 대화형 에이전트 장치(100)를 도시하는 도면이다.
도 1을 참조하면, 다양한 실시예들에 따른 대화형 에이전트 장치(100)는, 입력 모듈(110), 출력 모듈(120), 메모리(130) 또는 프로세서(140) 중 적어도 어느 하나를 포함할 수 있다.
입력 모듈(110)은 대화형 에이전트 장치(100)의 구성 요소에 사용될 명령 또는 데이터를 대화형 에이전트 장치(100)의 외부로부터 수신할 수 있다. 입력 모듈(110)은, 사용자가 대화형 에이전트 장치(100)에 직접적으로 명령 또는 데이터를 입력하도록 구성되는 입력 장치 또는 외부 전자 장치와 유선 또는 무선으로 통신하여 명령 또는 데이터를 수신하도록 구성되는 통신 장치 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 입력 장치는 마이크로폰(microphone), 마우스(mouse), 키보드(keyboard) 또는 카메라(camera) 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 통신 장치는 유선 통신 장치 또는 무선 통신 장치 중 적어도 어느 하나를 포함하며, 무선 통신 장치는 근거리 통신 장치 또는 원거리 통신 장치 중 적어도 어느 하나를 포함할 수 있다. 다양한 실시예들에 따르면, 입력 모듈(110)은 사용자의 발화 데이터(utterance data)를 입력할 수 있다.
출력 모듈(120)은 대화형 에이전트 장치(100)의 외부로 정보를 제공할 수 있다. 출력 모듈(120)은 정보를 청각적으로 출력하도록 구성되는 오디오 출력 장치, 정보를 시각적으로 출력하도록 구성되는 표시 장치 또는 외부 전자 장치와 유선 또는 무선으로 통신하여 정보를 전송하도록 구성되는 통신 장치 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 통신 장치는 유선 통신 장치 또는 무선 통신 장치 중 적어도 어느 하나를 포함하며, 무선 통신 장치는 근거리 통신 장치 또는 원거리 통신 장치 중 적어도 어느 하나를 포함할 수 있다.
메모리(130)는 대화형 에이전트 장치(100)의 구성 요소에 의해 사용되는 데이터를 저장할 수 있다. 데이터는 프로그램 또는 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 예를 들면, 메모리(130)는 휘발성 메모리 또는 비휘발성 메모리 중 적어도 어느 하나를 포함할 수 있다. 다양한 실시예들에 따르면, 메모리(130)는 사용자와 대화 모드를 실행하기 위한 프로그램을 저장할 수 있으며, 대화 모드와 관련된 다양한 페르소나들을 저장할 수 있다.
프로세서(140)는 메모리(130)의 프로그램을 실행하여, 대화형 에이전트 장치(100)의 구성 요소를 제어할 수 있고, 데이터 처리 또는 연산을 수행할 수 있다. 다양한 실시예들에 따르면, 프로세서(140)는 인공 신경망 구조를 사용하여, 사용자와 대화 모드를 실행할 수 있다. 예를 들면, 프로세서(140)는 페르소나들 중 어느 하나를 설정하고, 설정된 페르소나를 기반으로 사용자와 감성적 대화 모드를 실행할 수 있다. 이를 위해, 프로세서(140)는 사용자의 페르소나를 파악하고, 페르소나들로부터 사용자의 페르소나에 대응하는 어느 하나를 선택할 수 있다. 프로세서(140)는 입력 모듈(110)을 통하여 입력되는 사용자의 발화 데이터에 기반하여, 사용자의 페르소나를 파악할 수 있다. 예를 들면, 감성적 대화 모드는 사용자의 심리 상담을 위한 대화 모드를 포함할 수 있다. 프로세서(140)는 사용자의 심리 상담을 위한 페르소나를 기반으로, 사용자와 감성적 대화 모드를 실행할 수 있다. 프로세서(140)는 사용자와 감성적 대화 모드를 실행하는 중에, 입력 모듈(110)을 통하여 입력되는 사용자의 발화 데이터에 기반하여, 사용자의 감정 상태 변화를 추적할 수 있다. 프로세서(140)는 사용자와 대화 모드를 실행하는 중에, 사용자의 감정 상태 변화에 대한 영향력을 평가할 수 있다. 이를 통해, 프로세서(140)는, 사용자의 감정 상태를 긍정적인 방향으로 유도하면서, 사용자와 대화 모드를 진행할 수 있다.
다양한 실시예들에 따른 대화형 에이전트 장치(100)는, 입력 모듈(110), 및 입력 모듈(110)과 연결되며, 사용자와 감성적 대화 모드를 수행하도록 구성되는 프로세서(140)를 포함할 수 있다.
다양한 실시예들에 따르면, 프로세서(140)는, 사용자의 페르소나를 파악하고, 파악된 페르소나에 대응하는 페르소나를 설정하고, 설정된 페르소나를 기반으로, 사용자와 감성적 대화 모드를 실행하도록 구성될 수 있다.
다양한 실시예들에 따르면, 프로세서(140)는, 사용자의 발화 데이터를 분석하여, 사용자의 발화 의도, 사용자의 감정 상태 또는 사용자와 관련된 특성 정보 중 적어도 어느 하나를 확인하고, 발화 의도, 감정 상태 또는 특성 정보 중 적어도 어느 하나에 기반하여, 페르소나를 파악하도록 구성될 수 있다.
다양한 실시예들에 따르면, 프로세서(140)는, 감성적 대화 모드를 실행하는 중에, 사용자의 발화 데이터에 기반하여, 사용자의 감정 상태의 변화를 추적하도록 구성될 수 있다.
다양한 실시예들에 따르면, 프로세서(140)는, 감성적 대화 모드를 실행하는 중에, 감정 상태의 변화에 대한 영향력을 평가하도록 구성될 수 있다.
다양한 실시예들에 따르면, 프로세서(140)는, 감성적 대화 모드를 실행하는 중에, 사용자의 발화 데이터로부터 발화 컨텍스트를 획득하고, 발화 컨텍스트에 대응하는 응답 데이터를 출력하도록 구성될 수 있다.
다양한 실시예들에 따르면, 프로세서(140)는, 발화 컨텍스트 및 영향력을 기반으로, 응답 데이터를 출력하도록 구성될 수 있다.
다양한 실시예들에 따르면, 감성적 대화 모드는 심리 상담을 위한 대화 모드를 포함할 수 있다.
다양한 실시예들에 따르면, 특성 정보는 사용자의 연령 또는 성별 중 적어도 어느 하나를 포함할 수 있다.
도 2는 다양한 실시예들에 따른 대화형 에이전트 장치(100)의 동작 방법을 도시하는 도면이다.
도 2를 참조하면, 대화형 에이전트 장치(100)는 210 동작에서 입력 데이터를 검출할 수 있다. 프로세서(140)는 입력 모듈(110)을 통하여 사용자의 입력 데이터를 검출할 수 있다. 일 실시예에 따르면, 프로세서(140)는 입력 장치를 통하여 직접적으로 입력 데이터를 검출할 수 있다. 다른 실시예에 따르면, 프로세서(140)는 통신 장치를 통하여 외부 전자 장치로부터 수신되는 입력 데이터를 검출할 수 있다. 예를 들면, 입력 데이터는 사용자의 발화 데이터를 포함할 수 있다.
대화형 에이전트 장치(100)는 220 동작에서 사용자의 페르소나를 파악할 수 있다. 프로세서(140)는 사용자의 입력 데이터에 기반하여, 사용자의 페르소나를 파악할 수 있다. 프로세서(140)는 입력 데이터를 분석하여, 사용자의 음성, 영상 또는 텍스트 중 적어도 어느 하나와 관련된 적어도 하나의 특징점을 추출할 수 있다. 이를 통해, 프로세서(140)는 입력 데이터의 특징점에 기반하여, 사용자의 의도, 사용자의 감정 상태 또는 사용자와 관련된 특성 정보 중 적어도 어느 하나를 확인할 수 있다. 일 예로, 프로세서(140)는 텍스트의 문장 분류(sentence classification)를 수행하여, 사용자의 의도를 확인할 수 있다. 예를 들면, 특성 정보는 사용자의 연령 또는 성별 중 적어도 어느 하나를 포함할 수 있다. 이를 통해, 프로세서(140)는 사용자의 의도, 사용자의 감정 상태 또는 사용자와 관련된 특성 정보 중 적어도 어느 하나에 기반하여, 사용자의 페르소나를 파악할 수 있다.
일 실시예에 따르면, 대화형 에이전트 장치(100)는 사용자와 임의의 대화 모드를 실행하면서, 사용자의 입력 데이터를 검출할 수 있다. 이 때 대화형 에이전트 장치(100)도 다양한 페르소나들 중 미리 설정된 페르소나를 기반으로, 사용자와 감성적 대화 모드를 실행하고 있을 수 있다. 대화형 에이전트 장치(100)는 사용자와 감성적 대화 모드를 실행하는 중에, sentence embedding 기법을 사용할 수 있다. 예를 들면, sentence embedding 기법은 self-attentive sentence embedding 기법을 포함할 수 있다. 그리고 대화형 에이전트 장치(100)는 입력 데이터를 기반으로 dialog embedding을 통해, 사용자의 페르소나를 파악할 수 있다. 여기서, 대화형 에이전트 장치(100)는 입력 데이터와 관련하여 미리 정해진 페르소나 레이블이 존재하면, 해당 페르소나에 가중치를 부여할 수 있다.
대화형 에이전트 장치(100)는 230 동작에서 사용자의 페르소나에 대응하는 페르소나를 설정할 수 있다. 이 때 프로세서(140)는 다양한 페르소나들 중 사용자의 페르소나에 대응하는 어느 하나를 선택하여, 이를 설정할 수 있다. 즉 프로세서(140)는 다양한 페르소나들로부터 사용자에 적합한 페르소나를 선택하여, 설정할 수 있다. 일 실시예에 따르면, 프로세서(140)는 심리 상담을 위한 페르소나를 선택할 수 있다.
대화형 에이전트 장치(100)는 240 동작에서 설정된 페르소나에 기반하여, 사용자와 감성적 대화 모드를 실행할 수 있다. 이를 위해, 프로세서(140)는 사용자와 감성적 대화 모드를 위한 그래픽 유저 인터페이스(graphic user interface; GUI)를 제공할 수 있다. 이 때 메모리(130)가 실제 상담 전문의들로부터 수집된 대화 데이터를 저장하고 있을 수 있다. 이를 통해, 프로세서(140)가 대화 데이터를 이용하여, 사용자와 감성적 대화 모드를 실행할 수 있다. 일 실시예에 따르면, 감성적 대화 모드는 심리 상담을 위한 대화 모드를 포함할 수 있다. 여기서, 프로세서(140)는 입력 모듈(110)을 통하여 입력되는 입력 데이터에 대응하여, 출력 모듈(120)을 통하여 대화 데이터를 기반으로 하는 응답 데이터를 출력할 수 있다. 입력 데이터는 사용자의 발화 데이터를 포함할 수 있다. 예를 들면, 프로세서(140)는 오디오 출력 장치, 표시 장치 또는 통신 장치 중 적어도 어느 하나를 통하여 응답 데이터를 출력할 수 있다. 그리고, 프로세서(140)는 입력 데이터와 응답 데이터를 계층적으로 연관시켜, 대화 기록으로서 메모리(130)에 저장하고, 이를 이용하여 감성적 대화 모드를 진행할 수 있다. 이를 통해, 프로세서(140)는 맥락 이해 기반으로 감성적 대화 모드를 진행할 수 있다. 이 때 프로세서(140)는, 사용자의 감정 상태를 긍정적인 방향으로 유도하면서, 사용자와 감성적 대화 모드를 진행할 수 있다.
도 3은 도 2의 감성적 대화 모드 실행 동작을 도시하는 도면이다.
도 3을 참조하면, 대화형 에이전트 장치(100)는 310 동작에서 발화 데이터를 검출할 수 있다. 사용자와 감성적 대화 모드를 실행하는 중에, 프로세서(140)가 입력 모듈(110)을 통하여 입력되는 발화 데이터를 검출할 수 있다. 일 실시예에 따르면, 프로세서(140)는 마이크로폰을 통하여 직접적으로 입력되는 발화 데이터를 검출할 수 있다. 다른 실시예에 따르면, 프로세서(140)는 통신 장치를 통하여 외부 전자 장치로부터 수신되는 발화 데이터를 검출할 수 있다.
대화형 에이전트 장치(100)는 320 동작에서 발화 데이터를 분석할 수 있다. 프로세서(140)는 발화 데이터를 분석하여, 사용자의 음성 또는 텍스트 중 적어도 어느 하나와 관련된 적어도 하나의 특징점을 추출할 수 있다. 프로세서(140)는 발화 데이터로부터 발화 컨텍스트를 획득할 수 있다. 예를 들면, 프로세서(140)는 발화 데이터의 텍스트 또는 텍스트와 관련된 특징점에 기반하여, 발화 컨텍스트를 획득할 수 있다. 일 예로, 프로세서(140)는 텍스트 데이터의 문장 분류(sentence classification)를 수행하여, 발화 컨텍스트를 획득할 수 있다. 그리고 프로세서(140)는 발화 데이터로부터 사용자의 감정 상태를 인식할 수 있다. 예를 들면, 프로세서(140)는 사용자의 음성 또는 텍스트 중 적어도 어느 하나와 관련된 특징점에 기반하여, 사용자의 감정 상태를 인식할 수 있다.
대화형 에이전트 장치(100)는 330 동작에서 발화 데이터에 대응하여 응답 데이터를 출력할 수 있다. 프로세서(140)는 발화 컨텍스트에 대응하는 응답 데이터를 출력할 수 있다. 이 때 메모리(130)가 실제 상담 전문의들로부터 수집된 대화 데이터를 저장하고 있을 수 있다. 이를 통해, 프로세서(140)가 대화 데이터로부터, 발화 컨텍스트에 대응하는 응답 데이터를 결정할 수 있다. 여기서, 프로세서(140)는 메모리(130)에 저장된 이전의 대화 기록에 기반하여, 응답 데이터를 결정할 수 있다. 그리고 프로세서(140)는 출력 모듈(120)을 통하여 응답 데이터를 출력할 수 있다.
330 동작에서 응답 데이터를 출력한 후에, 대화형 에이전트 장치(100)는 340 동작에서 발화 데이터를 검출할 수 있다. 사용자와 감성적 대화 모드를 실행하는 중에, 프로세서(140)가 입력 모듈(110)을 통하여 입력되는 발화 데이터를 검출할 수 있다. 일 실시예에 따르면, 프로세서(140)는 마이크로폰을 통하여 직접적으로 입력되는 발화 데이터를 검출할 수 있다. 다른 실시예에 따르면, 프로세서(140)는 통신 장치를 통하여 외부 전자 장치로부터 수신되는 발화 데이터를 검출할 수 있다.
대화형 에이전트 장치(100)는 350 동작에서 발화 데이터를 분석할 수 있다. 프로세서(140)는 발화 데이터를 분석하여, 사용자의 음성 또는 텍스트 중 적어도 어느 하나와 관련된 적어도 하나의 특징점을 추출할 수 있다. 프로세서(140)는 발화 데이터로부터 발화 컨텍스트를 획득할 수 있다. 예를 들면, 프로세서(140)는 발화 데이터의 텍스트 또는 텍스트와 관련된 특징점에 기반하여, 발화 컨텍스트를 획득할 수 있다. 일 예로, 프로세서(140)는 텍스트 데이터의 문장 분류(sentence classification)를 수행하여, 발화 컨텍스트를 획득할 수 있다. 그리고 프로세서(140)는 발화 데이터로부터 사용자의 감정 상태를 인식할 수 있다. 예를 들면, 프로세서(140)는 사용자의 음성 또는 텍스트 중 적어도 어느 하나와 관련된 특징점에 기반하여, 사용자의 감정 상태를 인식할 수 있다. 이를 통해, 대화형 에이전트 장치(100)는 사용자의 감정 상태 변화를 추적할 수 있다. 프로세서(140)는 이전에 인식된 감정 상태로부터 현재 인식된 감정 상태로의 변화를 확인할 수 있다. 이 때 프로세서(140)는, 사용자의 감정 상태 변화가 긍정적인 방향으로 진행되고 있는 지의 여부를 확인할 수 있다.
대화형 에이전트 장치(100)는 360 동작에서 사용자의 감정 상태 변화에 대한 영향력을 평가할 수 있다. 일 실시예에 따르면, 프로세서(140)는 심리 상담에 대한 영향력을 평가할 수 있다. 이 때 프로세서(140)는 사용자의 감정 상태 변화를 330 동작에서 출력된 응답 데이터에 따른 것으로 결정하고, 사용자의 감정 상태 변화에 대한 영향력을 응답 데이터에 따른 영향력으로 평가할 수 있다. 이를 통해, 프로세서(140)는 영향력을 기반으로, 페르소나의 적합도를 평가할 수 있다. 이 때 프로세서(140)는 330 동작에서 출력된 응답 데이터에 대한 적합도를 평가할 수 있다.
370 동작에서 감성적 대화 모드가 종료되지 않으면, 대화형 에이전트 장치(100)는 330 동작으로 복귀할 수 있다. 이 때 프로세서(140)는 330 동작에서 발화 데이터에 대응하여 응답 데이터를 출력할 수 있다. 프로세서(140)는 발화 데이터의 발화 컨텍스트에 대응하는 응답 데이터를 출력할 수 있다. 이 때 프로세서(140)가 대화 데이터로부터, 발화 컨텍스트에 대응하는 응답 데이터를 결정할 수 있다. 프로세서(140)는 사용자의 감정 상태 변화가 긍정적인 방향으로 유도할 수 있도록, 응답 데이터를 결정할 수 있다. 여기서, 프로세서(140)는 이전에 출력된 응답 데이터에 대한 적합도를 고려하여, 응답 데이터를 결정할 수 있다. 그리고 프로세서(140)는 출력 모듈(120)을 통하여 응답 데이터를 출력할 수 있다. 이 후 대화형 에이전트(100)는 370 동작에서 감성적 대화 모드가 종료될 때까지, 330 동작 내지 370 동작을 반복하여 수행할 수 있다. 일 실시예에 따르면, 프로세서(140)는 우울 영역 및 심각도 판단 -> 우울 촉발 자극 탐색 -> 대처전력 탐색 및 구축 -> 치료적 기법 활용 및 정보/조언 제공 -> 내담자 격려로 이어지는 실제 상담 전문의들의 심리 상담 프로세스를 따라, 심리 상담을 위한 대화 모드를 진행할 수 있다.
한편, 370 동작에서 감성적 대화 모드를 종료하기 위한 이벤트가 감지되면, 대화형 에이전트 장치(100)는 감성적 대화 모드를 종료할 수 있다. 예를 들면, 입력 모듈(110)을 통하여 감성적 대화 모드를 종료하기 위한 요청이 수신되면, 프로세서(140)가 감성적 대화 모드를 종료할 수 있다.
다양한 실시예들에 따른 대화형 에이전트 장치(100)의 동작 방법은, 사용자의 페르소나를 파악하는 동작, 파악된 페르소나에 대응하는 페르소나를 설정하는 동작, 및 설정된 페르소나를 기반으로, 사용자와 감성적 대화 모드를 실행하는 동작을 포함할 수 있다.
다양한 실시예들에 따르면, 페르소나를 파악하는 동작은, 사용자의 발화 데이터를 분석하여, 사용자의 발화 의도, 사용자의 감정 상태 또는 사용자와 관련된 특성 정보 중 적어도 어느 하나를 확인하는 동작, 및 발화 의도, 감정 상태 또는 특성 정보 중 적어도 어느 하나에 기반하여, 페르소나를 파악하는 동작을 포함할 수 있다.
다양한 실시예들에 따르면, 감성적 대화 모드를 실행하는 동작은, 사용자의 발화 데이터에 기반하여, 사용자의 감정 상태의 변화를 추적하는 동작을 포함할 수 있다.
다양한 실시예들에 따르면, 감성적 대화 모드를 실행하는 동작은, 감정 상태의 변화에 대한 영향력을 평가하는 동작을 더 포함할 수 있다.
다양한 실시예들에 따르면, 감성적 대화 모드를 실행하는 동작은, 발화 데이터로부터 발화 컨텍스트를 획득하는 동작, 및 발화 컨텍스트 에 대응하는 응답 데이터를 출력하는 동작을 포함할 수 있다.
다양한 실시예들에 따르면, 응답 데이터 출력 동작은, 발화 컨텍스트 및 영향력을 기반으로, 응답 데이터를 출력하는 동작을 포함할 수 있다.
다양한 실시예들에 따르면, 감성적 대화 모드는 심리 상담을 위한 대화 모드를 포함할 수 있다.
다양한 실시예들에 따르면, 특성 정보는 사용자의 연령 또는 성별 중 적어도 어느 하나를 포함할 수 있다.
다양한 실시예들에 따르면, 대화형 에이전트 장치(100)가 다양한 페르소나들 중 사용자의 페르소나에 대응하는 페르소나에 기반하여, 사용자와 감성적 대화 모드를 실행할 수 있다. 즉 대화형 에이전트 장치(100)는 다양한 페르소나들로부터 사용자에 적합한 페르소나를 선택할 수 있다. 이 때 대화형 에이전트 장치(100)는 사용자의 발화 데이터로부터 사용자의 감정 상태를 인식할 수 있기 때문에, 사용자와 감성적 대화 모드를 실행할 수 있다. 아울러, 대화형 에이전트 장치(100)는 사용자의 감정 상태를 긍정적인 방향으로 유도하면서 대화 모드를 실행할 수 있다. 즉 대화형 에이전트 장치(100)는 사용자에 개인화된 감성적 대화 모드를 실행함으로써, 사용자의 감정 상태를 긍정적인 방향으로 유도할 수 있다.
본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", "첫째" 또는 "둘째" 등의 표현들은 해당 구성요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 어떤(예: 제 1) 구성요소가 다른(예: 제 2) 구성요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제 3 구성요소)를 통하여 연결될 수 있다.
본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.
본 문서의 다양한 실시예들은 기기(machine)(예: 대화형 에이전트 장치(100))에 의해 읽을 수 있는 저장 매체(storage medium)(예: 메모리(130))에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어로서 구현될 수 있다. 예를 들면, 기기의 프로세서(예: 프로세서(140))는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체 는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 저장매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.
다양한 실시예들에 따르면, 기술한 구성요소들의 각각의 구성요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있다. 다양한 실시예들에 따르면, 전술한 해당 구성요소들 중 하나 이상의 구성요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성요소들(예: 모듈 또는 프로그램)은 하나의 구성요소로 통합될 수 있다. 이런 경우, 통합된 구성요소는 복수의 구성요소들 각각의 구성요소의 하나 이상의 기능들을 통합 이전에 복수의 구성요소들 중 해당 구성요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.

Claims (14)

  1. 대화형 에이전트 장치의 동작 방법에 있어서,
    사용자의 페르소나를 파악하는 동작;
    상기 파악된 페르소나에 대응하는 페르소나를 설정하는 동작; 및
    상기 설정된 페르소나를 기반으로, 상기 사용자와 감성적 대화 모드를 실행하는 동작을 포함하고,
    상기 감성적 대화 모드를 실행하는 동작은,
    상기 사용자의 발화 데이터에 기반하여, 상기 사용자의 감정 상태를 인식하는 동작;
    상기 발화 데이터에 대응하는 응답 데이터를 출력하는 동작;
    상기 응답 데이터를 출력한 후에 검출되는 상기 사용자의 다른 발화 데이터에 기반하여, 상기 사용자의 감정 상태 변화를 추적하는 동작;
    상기 감정 상태 변화에 기반하여, 상기 응답 데이터에 대한 적합도를 평가하는 동작; 및
    상기 적합도를 기반으로, 상기 다른 발화 데이터에 대응하는 응답 데이터를 출력하는 동작을 포함하는 방법.
  2. 제 1 항에 있어서, 상기 페르소나를 파악하는 동작은,
    상기 사용자의 발화 데이터를 분석하여, 상기 사용자의 발화 의도, 상기 사용자의 감정 상태 또는 상기 사용자와 관련된 특성 정보 중 적어도 어느 하나를 확인하는 동작; 및
    상기 발화 의도, 감정 상태 또는 특성 정보 중 적어도 어느 하나에 기반하여, 상기 페르소나를 파악하는 동작을 포함하는 방법.
  3. 삭제
  4. 삭제
  5. 삭제
  6. 제 1 항에 있어서,
    상기 감성적 대화 모드는 심리 상담을 위한 대화 모드를 포함하는 방법.
  7. 제 2 항에 있어서,
    상기 특성 정보는 상기 사용자의 연령 또는 성별 중 적어도 어느 하나를 포함하는 방법.
  8. 대화형 에이전트 장치에 있어서,
    입력 모듈; 및
    상기 입력 모듈과 연결되며, 사용자와 감성적 대화 모드를 수행하도록 구성되는 프로세서를 포함하며,
    상기 프로세서는,
    상기 사용자의 페르소나를 파악하고,
    상기 파악된 페르소나에 대응하는 페르소나를 설정하고,
    상기 설정된 페르소나를 기반으로, 상기 사용자와 상기 감성적 대화 모드를 실행하도록 구성되고,
    상기 프로세서는, 상기 감성적 대화 모드를 실행하는 중에,
    상기 사용자의 발화 데이터에 기반하여, 상기 사용자의 감정 상태를 인식하고,
    상기 발화 데이터에 대응하는 응답 데이터를 출력하고,
    상기 응답 데이터를 출력한 후에 검출되는 상기 사용자의 다른 발화 데이터에 기반하여, 상기 사용자의 감정 상태 변화를 추적하고,
    상기 감정 상태 변화에 기반하여, 상기 응답 데이터에 대한 적합도를 평가하고,
    상기 적합도를 기반으로, 상기 다른 발화 데이터에 대응하는 응답 데이터를 출력하도록 구성되는 장치.
  9. 제 8 항에 있어서, 상기 프로세서는,
    상기 사용자의 발화 데이터를 분석하여, 상기 사용자의 발화 의도, 상기 사용자의 감정 상태 또는 상기 사용자와 관련된 특성 정보 중 적어도 어느 하나를 확인하고,
    상기 발화 의도, 감정 상태 또는 특성 정보 중 적어도 어느 하나에 기반하여, 상기 페르소나를 파악하도록 구성되는 장치.
  10. 삭제
  11. 삭제
  12. 삭제
  13. 제 8 항에 있어서,
    상기 감성적 대화 모드는 심리 상담을 위한 대화 모드를 포함하는 장치.
  14. 제 9 항에 있어서,
    상기 특성 정보는 상기 사용자의 연령 또는 성별 중 적어도 어느 하나를 포함하는 장치.
KR1020190034460A 2019-03-26 2019-03-26 사용자 페르소나를 고려한 대화형 에이전트 장치 및 방법 KR102199928B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190034460A KR102199928B1 (ko) 2019-03-26 2019-03-26 사용자 페르소나를 고려한 대화형 에이전트 장치 및 방법
PCT/KR2019/004267 WO2020196977A1 (ko) 2019-03-26 2019-04-10 사용자 페르소나를 고려한 대화형 에이전트 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190034460A KR102199928B1 (ko) 2019-03-26 2019-03-26 사용자 페르소나를 고려한 대화형 에이전트 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20200113775A KR20200113775A (ko) 2020-10-07
KR102199928B1 true KR102199928B1 (ko) 2021-01-08

Family

ID=72608940

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190034460A KR102199928B1 (ko) 2019-03-26 2019-03-26 사용자 페르소나를 고려한 대화형 에이전트 장치 및 방법

Country Status (2)

Country Link
KR (1) KR102199928B1 (ko)
WO (1) WO2020196977A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102319651B1 (ko) * 2021-02-19 2021-11-01 (주)아와소프트 사용자 페르소나 기반의 감정교류를 이용한 챗봇 서비스 제공 시스템 및 그 방법
KR102385176B1 (ko) 2021-11-16 2022-04-14 주식회사 하이 심리 상담 장치 및 그 방법
KR102584773B1 (ko) * 2021-12-28 2023-10-05 동서대학교 산학협력단 아동 감정 기반 대화형 아동용 애착인형
KR102481216B1 (ko) 2022-03-25 2022-12-28 주식회사 하이 자기 대화 장치 및 방법
KR102495725B1 (ko) 2022-03-25 2023-02-07 주식회사 하이 자기 대화 장치 및 그 방법
KR102507809B1 (ko) * 2022-10-28 2023-03-10 주식회사 닥터송 공감대 형성을 통한 심리 치료용 인공지능 대화 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101891492B1 (ko) * 2017-11-03 2018-08-24 주식회사 머니브레인 답변을 변형하여 상황에 맞는 자연어 대화를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
KR20140028336A (ko) * 2012-08-28 2014-03-10 삼성전자주식회사 음성 변환 장치 및 이의 음성 변환 방법
KR101423258B1 (ko) * 2012-11-27 2014-07-24 포항공과대학교 산학협력단 상담 대화 제공 방법 및 이를 이용하는 장치
JP6150077B2 (ja) * 2014-10-31 2017-06-21 マツダ株式会社 車両用音声対話装置
KR102034255B1 (ko) * 2017-06-29 2019-10-18 네이버 주식회사 사람-기계 간 감정 대화를 위한 방법 및 시스템
KR102289917B1 (ko) * 2017-06-30 2021-08-12 삼성에스디에스 주식회사 화행 정보를 이용한 대화 처리 방법 및 그 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101891492B1 (ko) * 2017-11-03 2018-08-24 주식회사 머니브레인 답변을 변형하여 상황에 맞는 자연어 대화를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체

Also Published As

Publication number Publication date
WO2020196977A1 (ko) 2020-10-01
KR20200113775A (ko) 2020-10-07

Similar Documents

Publication Publication Date Title
KR102199928B1 (ko) 사용자 페르소나를 고려한 대화형 에이전트 장치 및 방법
US11900939B2 (en) Display apparatus and method for registration of user command
US11145292B2 (en) Method and device for updating language model and performing speech recognition based on language model
US11769492B2 (en) Voice conversation analysis method and apparatus using artificial intelligence
EP3770905A1 (en) Speech recognition method, apparatus and device, and storage medium
KR102426717B1 (ko) 발화 인식 모델을 선택하는 시스템 및 전자 장치
CN108630231B (zh) 信息处理装置、感情识别方法以及存储介质
CN111145733B (zh) 语音识别方法、装置、计算机设备和计算机可读存储介质
KR102485342B1 (ko) 차량의 환경에 기반한 추천 신뢰도 판단 장치 및 방법
KR20080086791A (ko) 음성 기반 감정 인식 시스템
US10836044B2 (en) Robot control device and robot control method
CN111209380B (zh) 对话机器人的控制方法、装置、计算机设备和存储介质
CN110442515B (zh) 应用测试方法、装置、设备及可读存储介质
KR102421745B1 (ko) Tts 모델을 생성하는 시스템 및 전자 장치
KR102163862B1 (ko) 멀티스케일 음성 감정 인식을 위한 전자 장치 및 그의 동작 방법
KR20190101100A (ko) 음성 입력 처리 방법 및 이를 지원하는 전자 장치
CN110556098B (zh) 语音识别结果测试方法、装置、计算机设备和介质
KR20210042520A (ko) 전자 장치 및 이의 제어 방법
JP2020187262A (ja) 感情推定装置、感情推定システム、及び感情推定方法
CN113077793B (zh) 一种语音识别方法、装置、设备及存储介质
CN111522937B (zh) 话术推荐方法、装置和电子设备
KR102221260B1 (ko) 특징 제어 가능 음성 모사를 위한 전자 장치 및 그의 동작 방법
KR102383043B1 (ko) 생략 복원 학습 방법과 인식 방법 및 이를 수행하기 위한 장치
KR102334580B1 (ko) 사용자 음성 및 그래프 신경망 기반의 감정인식 장치 및 그 방법
US11862167B2 (en) Voice dialogue system, model generation device, barge-in speech determination model, and voice dialogue program

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant