KR102199928B1

KR102199928B1 - 사용자 페르소나를 고려한 대화형 에이전트 장치 및 방법

Info

Publication number: KR102199928B1
Application number: KR1020190034460A
Authority: KR
Inventors: 이수영; 김태훈; 김태호; 신영훈; 최신국; 박성진
Original assignee: 한국과학기술원
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2021-01-08
Also published as: WO2020196977A1; KR20200113775A

Abstract

다양한 실시예들에 따른 사용자 페르소나를 고려한 대화형 에이전트 장치 및 방법은, 사용자의 페르소나를 파악하고, 파악된 페르소나에 대응하는 페르소나를 설정하고, 설정된 페르소나를 기반으로, 사용자와 감성적 대화 모드를 실행하도록 구성될 수 있다.

Description

사용자 페르소나를 고려한 대화형 에이전트 장치 및 방법{INTERACTIVE AGENT APPARATUS AND METHOD CONSIDERING USER PERSONA}

다양한 실시예들은 사용자 페르소나를 고려한 대화형 에이전트 장치 및 방법에 관한 것이다.

오늘날 대화형 에이전트 장치가 사용자와 자연스럽게 대화하고 있다. 이 때 대화형 에이전트 장치는 사용자의 질의에 응답하여, 각종 정보를 제공한다. 이러한 대화형 에이전트 장치는 익명성과 비밀성이 보장되는 특성을 갖는다. 그런데, 상기와 같은 대화형 에이전트 장치는 지식 기반 대화(knowledge-based conversation)를 수행할 뿐이다. 이로 인하여, 대화형 에이전트 장치와 감성적으로 대화를 나누고자 하는 수요가 있다.

다양한 실시예들은 사용자와 감성적으로 대화할 수 있는 대화형 에이전트 장치 및 방법을 제공한다.

다양한 실시예들은 사용자의 페르소나에 대응하는 페르소나를 설정함으로써, 사용자와 감성적으로 대화할 수 있는 대화형 에이전트 장치 및 방법을 제공한다.

다양한 실시예들에 따른 대화형 에이전트 장치의 동작 방법은, 사용자의 페르소나를 파악하는 동작, 상기 파악된 페르소나에 대응하는 페르소나를 설정하는 동작, 및 상기 설정된 페르소나를 기반으로, 상기 사용자와 감성적 대화 모드를 실행하는 동작을 포함할 수 있다.

다양한 실시예들에 따른 대화형 에이전트 장치는, 입력 모듈, 및 상기 입력 모듈과 연결되며, 사용자와 감성적 대화 모드를 수행하도록 구성되는 프로세서를 포함할 수 있다. 다양한 실시예들에 따르면, 상기 프로세서는, 상기 사용자의 페르소나를 파악하고, 상기 파악된 페르소나에 대응하는 페르소나를 설정하고, 상기 설정된 페르소나를 기반으로, 상기 사용자와 감성적 대화 모드를 실행하도록 구성될 수 있다.

다양한 실시예들에 따르면, 대화형 에이전트 장치가 다양한 페르소나들 중 사용자의 페르소나에 대응하는 페르소나에 기반하여, 사용자와 감성적 대화 모드를 실행할 수 있다. 즉 대화형 에이전트 장치는 다양한 페르소나들로부터 사용자에 적합한 페르소나를 선택할 수 있다. 이 때 대화형 에이전트 장치는 사용자의 발화 데이터로부터 사용자의 감정 상태를 인식할 수 있기 때문에, 사용자와 감성적 대화 모드를 실행할 수 있다. 아울러, 대화형 에이전트 장치는 사용자의 감정 상태를 긍정적인 방향으로 유도하면서 대화 모드를 실행할 수 있다. 즉 대화형 에이전트 장치는 사용자에 개인화된 감성적 대화 모드를 실행함으로써, 사용자의 감정 상태를 긍정적인 방향으로 유도할 수 있다.

도 1은 다양한 실시예들에 따른 대화형 에이전트 장치를 도시하는 도면이다.
도 2는 다양한 실시예들에 따른 대화형 에이전트 장치의 동작 방법을 도시하는 도면이다.
도 3은 도 2의 감성적 대화 모드 실행 동작을 도시하는 도면이다.

이하, 본 문서의 다양한 실시예들이 첨부된 도면을 참조하여 설명된다.

도 1은 다양한 실시예들에 따른 감성 대화형 에이전트 장치(100)를 도시하는 도면이다.

도 1을 참조하면, 다양한 실시예들에 따른 대화형 에이전트 장치(100)는, 입력 모듈(110), 출력 모듈(120), 메모리(130) 또는 프로세서(140) 중 적어도 어느 하나를 포함할 수 있다.

입력 모듈(110)은 대화형 에이전트 장치(100)의 구성 요소에 사용될 명령 또는 데이터를 대화형 에이전트 장치(100)의 외부로부터 수신할 수 있다. 입력 모듈(110)은, 사용자가 대화형 에이전트 장치(100)에 직접적으로 명령 또는 데이터를 입력하도록 구성되는 입력 장치 또는 외부 전자 장치와 유선 또는 무선으로 통신하여 명령 또는 데이터를 수신하도록 구성되는 통신 장치 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 입력 장치는 마이크로폰(microphone), 마우스(mouse), 키보드(keyboard) 또는 카메라(camera) 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 통신 장치는 유선 통신 장치 또는 무선 통신 장치 중 적어도 어느 하나를 포함하며, 무선 통신 장치는 근거리 통신 장치 또는 원거리 통신 장치 중 적어도 어느 하나를 포함할 수 있다. 다양한 실시예들에 따르면, 입력 모듈(110)은 사용자의 발화 데이터(utterance data)를 입력할 수 있다.

출력 모듈(120)은 대화형 에이전트 장치(100)의 외부로 정보를 제공할 수 있다. 출력 모듈(120)은 정보를 청각적으로 출력하도록 구성되는 오디오 출력 장치, 정보를 시각적으로 출력하도록 구성되는 표시 장치 또는 외부 전자 장치와 유선 또는 무선으로 통신하여 정보를 전송하도록 구성되는 통신 장치 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 통신 장치는 유선 통신 장치 또는 무선 통신 장치 중 적어도 어느 하나를 포함하며, 무선 통신 장치는 근거리 통신 장치 또는 원거리 통신 장치 중 적어도 어느 하나를 포함할 수 있다.

메모리(130)는 대화형 에이전트 장치(100)의 구성 요소에 의해 사용되는 데이터를 저장할 수 있다. 데이터는 프로그램 또는 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 예를 들면, 메모리(130)는 휘발성 메모리 또는 비휘발성 메모리 중 적어도 어느 하나를 포함할 수 있다. 다양한 실시예들에 따르면, 메모리(130)는 사용자와 대화 모드를 실행하기 위한 프로그램을 저장할 수 있으며, 대화 모드와 관련된 다양한 페르소나들을 저장할 수 있다.

프로세서(140)는 메모리(130)의 프로그램을 실행하여, 대화형 에이전트 장치(100)의 구성 요소를 제어할 수 있고, 데이터 처리 또는 연산을 수행할 수 있다. 다양한 실시예들에 따르면, 프로세서(140)는 인공 신경망 구조를 사용하여, 사용자와 대화 모드를 실행할 수 있다. 예를 들면, 프로세서(140)는 페르소나들 중 어느 하나를 설정하고, 설정된 페르소나를 기반으로 사용자와 감성적 대화 모드를 실행할 수 있다. 이를 위해, 프로세서(140)는 사용자의 페르소나를 파악하고, 페르소나들로부터 사용자의 페르소나에 대응하는 어느 하나를 선택할 수 있다. 프로세서(140)는 입력 모듈(110)을 통하여 입력되는 사용자의 발화 데이터에 기반하여, 사용자의 페르소나를 파악할 수 있다. 예를 들면, 감성적 대화 모드는 사용자의 심리 상담을 위한 대화 모드를 포함할 수 있다. 프로세서(140)는 사용자의 심리 상담을 위한 페르소나를 기반으로, 사용자와 감성적 대화 모드를 실행할 수 있다. 프로세서(140)는 사용자와 감성적 대화 모드를 실행하는 중에, 입력 모듈(110)을 통하여 입력되는 사용자의 발화 데이터에 기반하여, 사용자의 감정 상태 변화를 추적할 수 있다. 프로세서(140)는 사용자와 대화 모드를 실행하는 중에, 사용자의 감정 상태 변화에 대한 영향력을 평가할 수 있다. 이를 통해, 프로세서(140)는, 사용자의 감정 상태를 긍정적인 방향으로 유도하면서, 사용자와 대화 모드를 진행할 수 있다.

다양한 실시예들에 따른 대화형 에이전트 장치(100)는, 입력 모듈(110), 및 입력 모듈(110)과 연결되며, 사용자와 감성적 대화 모드를 수행하도록 구성되는 프로세서(140)를 포함할 수 있다.

다양한 실시예들에 따르면, 프로세서(140)는, 사용자의 페르소나를 파악하고, 파악된 페르소나에 대응하는 페르소나를 설정하고, 설정된 페르소나를 기반으로, 사용자와 감성적 대화 모드를 실행하도록 구성될 수 있다.

다양한 실시예들에 따르면, 프로세서(140)는, 사용자의 발화 데이터를 분석하여, 사용자의 발화 의도, 사용자의 감정 상태 또는 사용자와 관련된 특성 정보 중 적어도 어느 하나를 확인하고, 발화 의도, 감정 상태 또는 특성 정보 중 적어도 어느 하나에 기반하여, 페르소나를 파악하도록 구성될 수 있다.

다양한 실시예들에 따르면, 프로세서(140)는, 감성적 대화 모드를 실행하는 중에, 사용자의 발화 데이터에 기반하여, 사용자의 감정 상태의 변화를 추적하도록 구성될 수 있다.

다양한 실시예들에 따르면, 프로세서(140)는, 감성적 대화 모드를 실행하는 중에, 감정 상태의 변화에 대한 영향력을 평가하도록 구성될 수 있다.

다양한 실시예들에 따르면, 프로세서(140)는, 감성적 대화 모드를 실행하는 중에, 사용자의 발화 데이터로부터 발화 컨텍스트를 획득하고, 발화 컨텍스트에 대응하는 응답 데이터를 출력하도록 구성될 수 있다.

다양한 실시예들에 따르면, 프로세서(140)는, 발화 컨텍스트 및 영향력을 기반으로, 응답 데이터를 출력하도록 구성될 수 있다.

다양한 실시예들에 따르면, 감성적 대화 모드는 심리 상담을 위한 대화 모드를 포함할 수 있다.

다양한 실시예들에 따르면, 특성 정보는 사용자의 연령 또는 성별 중 적어도 어느 하나를 포함할 수 있다.

도 2는 다양한 실시예들에 따른 대화형 에이전트 장치(100)의 동작 방법을 도시하는 도면이다.

도 2를 참조하면, 대화형 에이전트 장치(100)는 210 동작에서 입력 데이터를 검출할 수 있다. 프로세서(140)는 입력 모듈(110)을 통하여 사용자의 입력 데이터를 검출할 수 있다. 일 실시예에 따르면, 프로세서(140)는 입력 장치를 통하여 직접적으로 입력 데이터를 검출할 수 있다. 다른 실시예에 따르면, 프로세서(140)는 통신 장치를 통하여 외부 전자 장치로부터 수신되는 입력 데이터를 검출할 수 있다. 예를 들면, 입력 데이터는 사용자의 발화 데이터를 포함할 수 있다.

대화형 에이전트 장치(100)는 220 동작에서 사용자의 페르소나를 파악할 수 있다. 프로세서(140)는 사용자의 입력 데이터에 기반하여, 사용자의 페르소나를 파악할 수 있다. 프로세서(140)는 입력 데이터를 분석하여, 사용자의 음성, 영상 또는 텍스트 중 적어도 어느 하나와 관련된 적어도 하나의 특징점을 추출할 수 있다. 이를 통해, 프로세서(140)는 입력 데이터의 특징점에 기반하여, 사용자의 의도, 사용자의 감정 상태 또는 사용자와 관련된 특성 정보 중 적어도 어느 하나를 확인할 수 있다. 일 예로, 프로세서(140)는 텍스트의 문장 분류(sentence classification)를 수행하여, 사용자의 의도를 확인할 수 있다. 예를 들면, 특성 정보는 사용자의 연령 또는 성별 중 적어도 어느 하나를 포함할 수 있다. 이를 통해, 프로세서(140)는 사용자의 의도, 사용자의 감정 상태 또는 사용자와 관련된 특성 정보 중 적어도 어느 하나에 기반하여, 사용자의 페르소나를 파악할 수 있다.

일 실시예에 따르면, 대화형 에이전트 장치(100)는 사용자와 임의의 대화 모드를 실행하면서, 사용자의 입력 데이터를 검출할 수 있다. 이 때 대화형 에이전트 장치(100)도 다양한 페르소나들 중 미리 설정된 페르소나를 기반으로, 사용자와 감성적 대화 모드를 실행하고 있을 수 있다. 대화형 에이전트 장치(100)는 사용자와 감성적 대화 모드를 실행하는 중에, sentence embedding 기법을 사용할 수 있다. 예를 들면, sentence embedding 기법은 self-attentive sentence embedding 기법을 포함할 수 있다. 그리고 대화형 에이전트 장치(100)는 입력 데이터를 기반으로 dialog embedding을 통해, 사용자의 페르소나를 파악할 수 있다. 여기서, 대화형 에이전트 장치(100)는 입력 데이터와 관련하여 미리 정해진 페르소나 레이블이 존재하면, 해당 페르소나에 가중치를 부여할 수 있다.

대화형 에이전트 장치(100)는 230 동작에서 사용자의 페르소나에 대응하는 페르소나를 설정할 수 있다. 이 때 프로세서(140)는 다양한 페르소나들 중 사용자의 페르소나에 대응하는 어느 하나를 선택하여, 이를 설정할 수 있다. 즉 프로세서(140)는 다양한 페르소나들로부터 사용자에 적합한 페르소나를 선택하여, 설정할 수 있다. 일 실시예에 따르면, 프로세서(140)는 심리 상담을 위한 페르소나를 선택할 수 있다.

대화형 에이전트 장치(100)는 240 동작에서 설정된 페르소나에 기반하여, 사용자와 감성적 대화 모드를 실행할 수 있다. 이를 위해, 프로세서(140)는 사용자와 감성적 대화 모드를 위한 그래픽 유저 인터페이스(graphic user interface; GUI)를 제공할 수 있다. 이 때 메모리(130)가 실제 상담 전문의들로부터 수집된 대화 데이터를 저장하고 있을 수 있다. 이를 통해, 프로세서(140)가 대화 데이터를 이용하여, 사용자와 감성적 대화 모드를 실행할 수 있다. 일 실시예에 따르면, 감성적 대화 모드는 심리 상담을 위한 대화 모드를 포함할 수 있다. 여기서, 프로세서(140)는 입력 모듈(110)을 통하여 입력되는 입력 데이터에 대응하여, 출력 모듈(120)을 통하여 대화 데이터를 기반으로 하는 응답 데이터를 출력할 수 있다. 입력 데이터는 사용자의 발화 데이터를 포함할 수 있다. 예를 들면, 프로세서(140)는 오디오 출력 장치, 표시 장치 또는 통신 장치 중 적어도 어느 하나를 통하여 응답 데이터를 출력할 수 있다. 그리고, 프로세서(140)는 입력 데이터와 응답 데이터를 계층적으로 연관시켜, 대화 기록으로서 메모리(130)에 저장하고, 이를 이용하여 감성적 대화 모드를 진행할 수 있다. 이를 통해, 프로세서(140)는 맥락 이해 기반으로 감성적 대화 모드를 진행할 수 있다. 이 때 프로세서(140)는, 사용자의 감정 상태를 긍정적인 방향으로 유도하면서, 사용자와 감성적 대화 모드를 진행할 수 있다.

도 3은 도 2의 감성적 대화 모드 실행 동작을 도시하는 도면이다.

도 3을 참조하면, 대화형 에이전트 장치(100)는 310 동작에서 발화 데이터를 검출할 수 있다. 사용자와 감성적 대화 모드를 실행하는 중에, 프로세서(140)가 입력 모듈(110)을 통하여 입력되는 발화 데이터를 검출할 수 있다. 일 실시예에 따르면, 프로세서(140)는 마이크로폰을 통하여 직접적으로 입력되는 발화 데이터를 검출할 수 있다. 다른 실시예에 따르면, 프로세서(140)는 통신 장치를 통하여 외부 전자 장치로부터 수신되는 발화 데이터를 검출할 수 있다.

대화형 에이전트 장치(100)는 320 동작에서 발화 데이터를 분석할 수 있다. 프로세서(140)는 발화 데이터를 분석하여, 사용자의 음성 또는 텍스트 중 적어도 어느 하나와 관련된 적어도 하나의 특징점을 추출할 수 있다. 프로세서(140)는 발화 데이터로부터 발화 컨텍스트를 획득할 수 있다. 예를 들면, 프로세서(140)는 발화 데이터의 텍스트 또는 텍스트와 관련된 특징점에 기반하여, 발화 컨텍스트를 획득할 수 있다. 일 예로, 프로세서(140)는 텍스트 데이터의 문장 분류(sentence classification)를 수행하여, 발화 컨텍스트를 획득할 수 있다. 그리고 프로세서(140)는 발화 데이터로부터 사용자의 감정 상태를 인식할 수 있다. 예를 들면, 프로세서(140)는 사용자의 음성 또는 텍스트 중 적어도 어느 하나와 관련된 특징점에 기반하여, 사용자의 감정 상태를 인식할 수 있다.

대화형 에이전트 장치(100)는 330 동작에서 발화 데이터에 대응하여 응답 데이터를 출력할 수 있다. 프로세서(140)는 발화 컨텍스트에 대응하는 응답 데이터를 출력할 수 있다. 이 때 메모리(130)가 실제 상담 전문의들로부터 수집된 대화 데이터를 저장하고 있을 수 있다. 이를 통해, 프로세서(140)가 대화 데이터로부터, 발화 컨텍스트에 대응하는 응답 데이터를 결정할 수 있다. 여기서, 프로세서(140)는 메모리(130)에 저장된 이전의 대화 기록에 기반하여, 응답 데이터를 결정할 수 있다. 그리고 프로세서(140)는 출력 모듈(120)을 통하여 응답 데이터를 출력할 수 있다.

330 동작에서 응답 데이터를 출력한 후에, 대화형 에이전트 장치(100)는 340 동작에서 발화 데이터를 검출할 수 있다. 사용자와 감성적 대화 모드를 실행하는 중에, 프로세서(140)가 입력 모듈(110)을 통하여 입력되는 발화 데이터를 검출할 수 있다. 일 실시예에 따르면, 프로세서(140)는 마이크로폰을 통하여 직접적으로 입력되는 발화 데이터를 검출할 수 있다. 다른 실시예에 따르면, 프로세서(140)는 통신 장치를 통하여 외부 전자 장치로부터 수신되는 발화 데이터를 검출할 수 있다.

대화형 에이전트 장치(100)는 350 동작에서 발화 데이터를 분석할 수 있다. 프로세서(140)는 발화 데이터를 분석하여, 사용자의 음성 또는 텍스트 중 적어도 어느 하나와 관련된 적어도 하나의 특징점을 추출할 수 있다. 프로세서(140)는 발화 데이터로부터 발화 컨텍스트를 획득할 수 있다. 예를 들면, 프로세서(140)는 발화 데이터의 텍스트 또는 텍스트와 관련된 특징점에 기반하여, 발화 컨텍스트를 획득할 수 있다. 일 예로, 프로세서(140)는 텍스트 데이터의 문장 분류(sentence classification)를 수행하여, 발화 컨텍스트를 획득할 수 있다. 그리고 프로세서(140)는 발화 데이터로부터 사용자의 감정 상태를 인식할 수 있다. 예를 들면, 프로세서(140)는 사용자의 음성 또는 텍스트 중 적어도 어느 하나와 관련된 특징점에 기반하여, 사용자의 감정 상태를 인식할 수 있다. 이를 통해, 대화형 에이전트 장치(100)는 사용자의 감정 상태 변화를 추적할 수 있다. 프로세서(140)는 이전에 인식된 감정 상태로부터 현재 인식된 감정 상태로의 변화를 확인할 수 있다. 이 때 프로세서(140)는, 사용자의 감정 상태 변화가 긍정적인 방향으로 진행되고 있는 지의 여부를 확인할 수 있다.

대화형 에이전트 장치(100)는 360 동작에서 사용자의 감정 상태 변화에 대한 영향력을 평가할 수 있다. 일 실시예에 따르면, 프로세서(140)는 심리 상담에 대한 영향력을 평가할 수 있다. 이 때 프로세서(140)는 사용자의 감정 상태 변화를 330 동작에서 출력된 응답 데이터에 따른 것으로 결정하고, 사용자의 감정 상태 변화에 대한 영향력을 응답 데이터에 따른 영향력으로 평가할 수 있다. 이를 통해, 프로세서(140)는 영향력을 기반으로, 페르소나의 적합도를 평가할 수 있다. 이 때 프로세서(140)는 330 동작에서 출력된 응답 데이터에 대한 적합도를 평가할 수 있다.

370 동작에서 감성적 대화 모드가 종료되지 않으면, 대화형 에이전트 장치(100)는 330 동작으로 복귀할 수 있다. 이 때 프로세서(140)는 330 동작에서 발화 데이터에 대응하여 응답 데이터를 출력할 수 있다. 프로세서(140)는 발화 데이터의 발화 컨텍스트에 대응하는 응답 데이터를 출력할 수 있다. 이 때 프로세서(140)가 대화 데이터로부터, 발화 컨텍스트에 대응하는 응답 데이터를 결정할 수 있다. 프로세서(140)는 사용자의 감정 상태 변화가 긍정적인 방향으로 유도할 수 있도록, 응답 데이터를 결정할 수 있다. 여기서, 프로세서(140)는 이전에 출력된 응답 데이터에 대한 적합도를 고려하여, 응답 데이터를 결정할 수 있다. 그리고 프로세서(140)는 출력 모듈(120)을 통하여 응답 데이터를 출력할 수 있다. 이 후 대화형 에이전트(100)는 370 동작에서 감성적 대화 모드가 종료될 때까지, 330 동작 내지 370 동작을 반복하여 수행할 수 있다. 일 실시예에 따르면, 프로세서(140)는 우울 영역 및 심각도 판단 -> 우울 촉발 자극 탐색 -> 대처전력 탐색 및 구축 -> 치료적 기법 활용 및 정보/조언 제공 -> 내담자 격려로 이어지는 실제 상담 전문의들의 심리 상담 프로세스를 따라, 심리 상담을 위한 대화 모드를 진행할 수 있다.

한편, 370 동작에서 감성적 대화 모드를 종료하기 위한 이벤트가 감지되면, 대화형 에이전트 장치(100)는 감성적 대화 모드를 종료할 수 있다. 예를 들면, 입력 모듈(110)을 통하여 감성적 대화 모드를 종료하기 위한 요청이 수신되면, 프로세서(140)가 감성적 대화 모드를 종료할 수 있다.

다양한 실시예들에 따른 대화형 에이전트 장치(100)의 동작 방법은, 사용자의 페르소나를 파악하는 동작, 파악된 페르소나에 대응하는 페르소나를 설정하는 동작, 및 설정된 페르소나를 기반으로, 사용자와 감성적 대화 모드를 실행하는 동작을 포함할 수 있다.

다양한 실시예들에 따르면, 페르소나를 파악하는 동작은, 사용자의 발화 데이터를 분석하여, 사용자의 발화 의도, 사용자의 감정 상태 또는 사용자와 관련된 특성 정보 중 적어도 어느 하나를 확인하는 동작, 및 발화 의도, 감정 상태 또는 특성 정보 중 적어도 어느 하나에 기반하여, 페르소나를 파악하는 동작을 포함할 수 있다.

다양한 실시예들에 따르면, 감성적 대화 모드를 실행하는 동작은, 사용자의 발화 데이터에 기반하여, 사용자의 감정 상태의 변화를 추적하는 동작을 포함할 수 있다.

다양한 실시예들에 따르면, 감성적 대화 모드를 실행하는 동작은, 감정 상태의 변화에 대한 영향력을 평가하는 동작을 더 포함할 수 있다.

다양한 실시예들에 따르면, 감성적 대화 모드를 실행하는 동작은, 발화 데이터로부터 발화 컨텍스트를 획득하는 동작, 및 발화 컨텍스트 에 대응하는 응답 데이터를 출력하는 동작을 포함할 수 있다.

다양한 실시예들에 따르면, 응답 데이터 출력 동작은, 발화 컨텍스트 및 영향력을 기반으로, 응답 데이터를 출력하는 동작을 포함할 수 있다.

다양한 실시예들에 따르면, 대화형 에이전트 장치(100)가 다양한 페르소나들 중 사용자의 페르소나에 대응하는 페르소나에 기반하여, 사용자와 감성적 대화 모드를 실행할 수 있다. 즉 대화형 에이전트 장치(100)는 다양한 페르소나들로부터 사용자에 적합한 페르소나를 선택할 수 있다. 이 때 대화형 에이전트 장치(100)는 사용자의 발화 데이터로부터 사용자의 감정 상태를 인식할 수 있기 때문에, 사용자와 감성적 대화 모드를 실행할 수 있다. 아울러, 대화형 에이전트 장치(100)는 사용자의 감정 상태를 긍정적인 방향으로 유도하면서 대화 모드를 실행할 수 있다. 즉 대화형 에이전트 장치(100)는 사용자에 개인화된 감성적 대화 모드를 실행함으로써, 사용자의 감정 상태를 긍정적인 방향으로 유도할 수 있다.

본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", "첫째" 또는 "둘째" 등의 표현들은 해당 구성요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 어떤(예: 제 1) 구성요소가 다른(예: 제 2) 구성요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제 3 구성요소)를 통하여 연결될 수 있다.

본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.

본 문서의 다양한 실시예들은 기기(machine)(예: 대화형 에이전트 장치(100))에 의해 읽을 수 있는 저장 매체(storage medium)(예: 메모리(130))에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어로서 구현될 수 있다. 예를 들면, 기기의 프로세서(예: 프로세서(140))는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체 는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 저장매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.

다양한 실시예들에 따르면, 기술한 구성요소들의 각각의 구성요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있다. 다양한 실시예들에 따르면, 전술한 해당 구성요소들 중 하나 이상의 구성요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성요소들(예: 모듈 또는 프로그램)은 하나의 구성요소로 통합될 수 있다. 이런 경우, 통합된 구성요소는 복수의 구성요소들 각각의 구성요소의 하나 이상의 기능들을 통합 이전에 복수의 구성요소들 중 해당 구성요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.

Claims

대화형 에이전트 장치의 동작 방법에 있어서,
사용자의 페르소나를 파악하는 동작;
상기 파악된 페르소나에 대응하는 페르소나를 설정하는 동작; 및
상기 설정된 페르소나를 기반으로, 상기 사용자와 감성적 대화 모드를 실행하는 동작을 포함하고,
상기 감성적 대화 모드를 실행하는 동작은,
상기 사용자의 발화 데이터에 기반하여, 상기 사용자의 감정 상태를 인식하는 동작;
상기 발화 데이터에 대응하는 응답 데이터를 출력하는 동작;
상기 응답 데이터를 출력한 후에 검출되는 상기 사용자의 다른 발화 데이터에 기반하여, 상기 사용자의 감정 상태 변화를 추적하는 동작;
상기 감정 상태 변화에 기반하여, 상기 응답 데이터에 대한 적합도를 평가하는 동작; 및
상기 적합도를 기반으로, 상기 다른 발화 데이터에 대응하는 응답 데이터를 출력하는 동작을 포함하는 방법.
제 1 항에 있어서, 상기 페르소나를 파악하는 동작은,
상기 사용자의 발화 데이터를 분석하여, 상기 사용자의 발화 의도, 상기 사용자의 감정 상태 또는 상기 사용자와 관련된 특성 정보 중 적어도 어느 하나를 확인하는 동작; 및
상기 발화 의도, 감정 상태 또는 특성 정보 중 적어도 어느 하나에 기반하여, 상기 페르소나를 파악하는 동작을 포함하는 방법.
삭제
삭제
삭제
제 1 항에 있어서,
상기 감성적 대화 모드는 심리 상담을 위한 대화 모드를 포함하는 방법.
제 2 항에 있어서,
상기 특성 정보는 상기 사용자의 연령 또는 성별 중 적어도 어느 하나를 포함하는 방법.
대화형 에이전트 장치에 있어서,
입력 모듈; 및
상기 입력 모듈과 연결되며, 사용자와 감성적 대화 모드를 수행하도록 구성되는 프로세서를 포함하며,
상기 프로세서는,
상기 사용자의 페르소나를 파악하고,
상기 파악된 페르소나에 대응하는 페르소나를 설정하고,
상기 설정된 페르소나를 기반으로, 상기 사용자와 상기 감성적 대화 모드를 실행하도록 구성되고,
상기 프로세서는, 상기 감성적 대화 모드를 실행하는 중에,
상기 사용자의 발화 데이터에 기반하여, 상기 사용자의 감정 상태를 인식하고,
상기 발화 데이터에 대응하는 응답 데이터를 출력하고,
상기 응답 데이터를 출력한 후에 검출되는 상기 사용자의 다른 발화 데이터에 기반하여, 상기 사용자의 감정 상태 변화를 추적하고,
상기 감정 상태 변화에 기반하여, 상기 응답 데이터에 대한 적합도를 평가하고,
상기 적합도를 기반으로, 상기 다른 발화 데이터에 대응하는 응답 데이터를 출력하도록 구성되는 장치.
제 8 항에 있어서, 상기 프로세서는,
상기 사용자의 발화 데이터를 분석하여, 상기 사용자의 발화 의도, 상기 사용자의 감정 상태 또는 상기 사용자와 관련된 특성 정보 중 적어도 어느 하나를 확인하고,
상기 발화 의도, 감정 상태 또는 특성 정보 중 적어도 어느 하나에 기반하여, 상기 페르소나를 파악하도록 구성되는 장치.
삭제
삭제
삭제
제 8 항에 있어서,
상기 감성적 대화 모드는 심리 상담을 위한 대화 모드를 포함하는 장치.
제 9 항에 있어서,
상기 특성 정보는 상기 사용자의 연령 또는 성별 중 적어도 어느 하나를 포함하는 장치.