KR20210078863A

KR20210078863A - 아바타 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램

Info

Publication number: KR20210078863A
Application number: KR1020190170760A
Authority: KR
Inventors: 조지은; 천왕성
Original assignee: 주식회사 케이티
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2021-06-29

Abstract

아바타 서비스를 제공하는 서버는 영상에 포함된 영상 데이터 및 음성 데이터 각각으로부터 감정 데이터를 추출하는 추출부, 기설정된 복수의 감정 속성에 대한 벡터에 기초하여 영상 데이터로부터 추출된 영상 기반의 감정 데이터 및 음성 데이터로부터 추출된 음성 기반의 감정 데이터를 분석하는 감정 데이터 분석부, 분석된 영상 기반의 감정 데이터 및 음성 기반의 감정 데이터에 기초하여 감정 전환 시점을 결정하는 감정 전환 시점 결정부, 결정된 감정 전환 시점 및 기저장된 매핑테이블에 기초하여 아바타의 동작을 결정하고, 결정된 감정 전환 시점에서의 아바타의 표정을 결정하여 아바타 감정 스케쥴링 정보를 생성하는 아바타 감정 스케쥴링 정보 생성부 및 생성된 아바타 감정 스케쥴링 정보에 기초하여 아바타 서비스를 사용자 단말로 제공하는 아바타 서비스 제공부를 포함할 수 있다.

Description

아바타 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램{SERVER, METHOD AND COMPUTER PROGRAM FOR PROVIDING AVATAR SERVICE}

본 발명은 아바타 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램에 관한 것이다.

종래에는 영상에 포함된 사용자의 표정을 분석함으로써 추출된 표정 기반의 감정 데이터 및 사용자의 음성을 분석함으로써 추출된 음성 기반의 감정 데이터를 이용하여 이모티콘을 추천하거나 입력 영상에 2D 이미지를 오버레이하여 제공해왔다.

그러나, 최근에는 아바타나 이모지를 이용한 메시징 서비스가 상용화 됨에 따라 사용자가 입력한 감정을 복합적으로 분석하여 아바타에 자동으로 적용시키고자 하는 요구가 있다.

종래의 아바타 메시징 기술에 사용되는 얼굴 리타게팅 기술은 입력된 영상으로부터 획득된 얼굴 특징 정보를 활용하여 아바타의 얼굴을 사람의 표정과 같이 표현하는 기술이다.

그러나, 종래의 얼굴 리타게팅 기술은 사용자가 표출하고자 하는 감정을 고려하지 않아 아바타의 얼굴 표정을 통해 강조 사용자의 감정을 정확하게 표출할 수 없고, 아바타에 바디 애니메이션, 효과 등을 추가적으로 반영하지는 못한다.

또한, 종래의 얼굴 리타게팅 기술로는 아바타를 통해 사용자가 원하는 의사 전달 범위를 확장하지 못한다.

한국공개특허공보 제2012-0018479호 (2012.03.05. 공개)

본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 영상 데이터 및 음성 데이터로부터 추출된 각 감정 데이터를 분석하고, 분석된 각 감정 데이터에 기초하여 감정 전환 시점을 결정하고자 한다. 또한, 본 발명은 결정된 감정 전환 시점 및 기저장된 매핑 테이블을 이용하여 아바타 감정 스케쥴링 정보를 생성하고, 아바타 감정 스케쥴링 정보에 기초하여 아바타 서비스를 제공하고자 한다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 아바타 서비스를 제공하는 서버는 영상에 포함된 영상 데이터 및 음성 데이터 각각으로부터 감정 데이터를 추출하는 추출부; 기설정된 복수의 감정 속성에 대한 벡터에 기초하여 상기 영상 데이터로부터 추출된 영상 기반의 감정 데이터 및 상기 음성 데이터로부터 추출된 음성 기반의 감정 데이터를 분석하는 감정 데이터 분석부; 상기 분석된 영상 기반의 감정 데이터 및 음성 기반의 감정 데이터에 기초하여 감정 전환 시점을 결정하는 감정 전환 시점 결정부; 상기 결정된 감정 전환 시점 및 기저장된 매핑테이블에 기초하여 아바타의 동작을 결정하고, 상기 결정된 감정 전환 시점에서의 상기 아바타의 표정을 결정하여 아바타 감정 스케쥴링 정보를 생성하는 아바타 감정 스케쥴링 정보 생성부; 및 상기 생성된 아바타 감정 스케쥴링 정보에 기초하여 아바타 서비스를 사용자 단말로 제공하는 아바타 서비스 제공부를 포함할 수 있다.

본 발명의 제 2 측면에 따른 아바타 서비스 제공 서버를 통해 아바타 서비스를 제공하는 방법은 영상에 포함된 영상 데이터 및 음성 데이터 각각으로부터 감정 데이터를 추출하는 단계; 기설정된 복수의 감정 속성에 대한 벡터에 기초하여 상기 영상 데이터로부터 추출된 영상 기반의 감정 데이터 및 상기 음성 데이터로부터 추출된 음성 기반의 감정 데이터를 분석하는 단계; 상기 분석된 영상 기반의 감정 데이터 및 음성 기반의 감정 데이터에 기초하여 감정 전환 시점을 결정하는 단계; 상기 결정된 감정 전환 시점 및 기저장된 매핑테이블에 기초하여 아바타의 동작을 결정하는 단계; 상기 결정된 감정 전환 시점에서의 상기 아바타의 표정을 결정하여 아바타 감정 스케쥴링 정보를 생성하는 단계; 및 상기 생성된 아바타 감정 스케쥴링 정보에 기초하여 아바타 서비스를 사용자 단말로 제공하는 단계를 포함할 수 있다.

본 발명의 제 3 측면에 따른 아바타 서비스를 제공하는 명령어들의 시퀀스를 포함하는 매체에 저장된 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우, 영상에 포함된 영상 데이터 및 음성 데이터 각각으로부터 감정 데이터를 추출하고, 기설정된 복수의 감정 속성에 대한 벡터에 기초하여 상기 영상 데이터로부터 추출된 영상 기반의 감정 데이터 및 상기 음성 데이터로부터 추출된 음성 기반의 감정 데이터를 분석하고, 상기 분석된 영상 기반의 감정 데이터 및 음성 기반의 감정 데이터에 기초하여 감정 전환 시점을 결정하고, 상기 결정된 감정 전환 시점 및 기저장된 매핑테이블에 기초하여 아바타의 동작을 결정하고, 상기 결정된 감정 전환 시점에서의 상기 아바타의 표정을 결정하여 아바타 감정 스케쥴링 정보를 생성하고, 상기 생성된 아바타 감정 스케쥴링 정보에 기초하여 아바타 서비스를 사용자 단말로 제공하는 명령어들의 시퀀스를 포함할 수 있다.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 본 발명은 영상 데이터 및 음성 데이터로부터 추출된 각 감정 데이터를 분석하고 이를 통해, 영상 데이터 및 음성 데이터 각각으로부터 추출된 감정 데이터를 종합적으로 분석함에 따라 감정 분석의 정확도를 높일 수 있다.

또한, 본 발명은 사용자의 감정 전환 시점에 대응하는 감정을 다양한 방식으로 아바타에 매핑하여 반영할 수 있다.

또한, 본 발명은 사용자의 감정 변화를 아바타를 통해 실시간으로 반영할 수 있고, 이를 통해, 사용자가 원하는 의사 전달 범위를 확장시킬 수 있다.

도 1은 본 발명의 일 실시예에 따른, 아바타 서비스 제공 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른, 도 1에 도시된 아바타 서비스 제공 서버의 블록도이다.
도 3a 내지 3d는 본 발명의 일 실시예에 따른, 감정 전환 시점을 결정하기 위한 방법을 설명하기 위한 도면이다.
도 4a 내지 4b는 본 발명의 일 실시예에 따른, 아바타 감정 스케쥴링 정보를 생성하는 방법을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른, 아바타 서비스를 제공하는 방법을 나타낸 흐름도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.

본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.

이하, 첨부된 구성도 또는 처리 흐름도를 참고하여, 본 발명의 실시를 위한 구체적인 내용을 설명하도록 한다.

도 1은 본 발명의 일 실시예에 따른, 아바타 서비스 제공 시스템의 구성도이다.

도 1을 참조하면, 아바타 서비스 제공 시스템은 아바타 서비스 제공 서버(100) 및 사용자 단말(110)을 포함할 수 있다. 다만, 이러한 도 1의 아바타 서비스 제공 시스템은 본 발명의 일 실시예에 불과하므로 도 1을 통해 본 발명이 한정 해석되는 것은 아니며, 본 발명의 다양한 실시예들에 따라 도 1과 다르게 구성될 수도 있다.

일반적으로, 도 1의 아바타 서비스 제공 시스템의 각 구성요소들은 네트워크(미도시)를 통해 연결된다. 네트워크는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. 무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다.

사용자 단말(110)은 사용자 단말(110)의 카메라에 의해 촬영된 사용자의 영상 데이터 및 사용자 단말(110)의 마이크를 통해 입력된 사용자의 음성 데이터를 포함하는 영상을 아바타 서비스 제공 서버(100)에게 전송할 수 있다.

아바타 서비스 제공 서버(100)는 사용자 단말(110)로부터 영상 데이터 및 음성 데이터가 포함된 영상을 수신할 수 있다.

아바타 서비스 제공 서버(100)는 영상에 포함된 영상 데이터 및 음성 데이터 각각으로부터 감정 데이터를 추출하고, 기설정된 복수의 감정 속성에 대한 벡터에 기초하여 영상 기반의 감정 데이터 및 음성 기반의 감정 데이터를 분석할 수 있다.

아바타 서비스 제공 서버(100)는 분석된 영상 기반의 감정 데이터 및 음성 기반의 감정 데이터에 기초하여 감정 전환 시점을 결정할 수 있다.

아바타 서비스 제공 서버(100)는 결정된 감정 전환 시점 및 기저장된 매핑테이블에 기초하여 아바타의 동작을 결정하고, 결정된 감정 전환 시점에서의 아바타의 표정을 결정하여 아바타 감정 스케쥴링 정보를 생성할 수 있다.

아바타 서비스 제공 서버(100)는 생성된 아바타 감정 스케쥴링 정보에 기초하여 아바타 서비스를 사용자 단말(110)에게 제공할 수 있다.

사용자 단말(110)은 예를 들면, 유무선 통신이 가능한 모바일 단말을 포함할 수 있다. 모바일 단말은 휴대성과 이동성이 보장되는 무선 통신 장치로서, 스마트폰(smartphone), 태블릿 PC, 웨어러블 디바이스뿐만 아니라, 블루투스(BLE, Bluetooth Low Energy), NFC, RFID, 초음파(Ultrasonic), 적외선, 와이파이(WiFi), 라이파이(LiFi) 등의 통신 모듈을 탑재한 각종 디바이스를 포함할 수 있다. 다만, 사용자 단말(110)은 앞서 예시된 것들로 한정 해석되는 것은 아니다.

이하에서는 도 1의 아바타 서비스 제공 시스템의 각 구성요소의 동작에 대해 보다 구체적으로 설명한다.

도 2는 본 발명의 일 실시예에 따른, 도 1에 도시된 아바타 서비스 제공 서버(100)의 블록도이다.

도 2를 참조하면, 아바타 서비스 제공 서버(100)는 추출부(200), 감정 데이터 분석부(210), 배열부(220), 감정 전환 시점 결정부(230), 아바타 감정 스케쥴링 정보 생성부(230) 및 아바타 서비스 제공부(250)를 포함할 수 있다. 여기서, 감정 전환 시점 결정부(230)는 스코어 산출부(232)를 포함할 수 있다.

다만, 도 2에 도시된 아바타 서비스 제공 서버(100)는 본 발명의 하나의 구현 예에 불과하며, 도 2에 도시된 구성요소들을 기초로 하여 여러 가지 변형이 가능하다.

이하에서는 도 3a 내지 5b를 함께 참조하여 도 2를 설명하기로 한다.

추출부(200)는 영상에 포함된 영상 데이터 및 음성 데이터 각각으로부터 감정 데이터를 추출할 수 있다. 예를 들어, 추출부(200)는 영상 데이터로부터 사용자의 표정과 관련된 감정 데이터를 추출하고, 음성 데이터에 포함된 사용자의 감정을 표현하는 단어(키워드) 또는 문장으로부터 감정 데이터를 추출할 수 있다.

감정 데이터 분석부(210)는 기설정된 복수의 감정 속성에 대한 벡터에 기초하여 영상 데이터로부터 추출된 영상 기반의 감정 데이터(표정 기반의 감정 데이터) 및 음성 데이터로부터 추출된 음성 기반의 감정 데이터(문장 기반의 감정 데이터 및 감정 키워드 기반의 감정 데이터)를 분석할 수 있다. 예를 들어, 감정 데이터 분석부(210)는 '중립' 감정 속성, '행복' 감정 속성, '놀람' 감정 속성, '화남' 감정 속성 및 '슬픔' 감정 속성 각각에 대한 벡터에 기초하여 영상 데이터로부터 추출된 영상 기반의 감정 데이터를 분석하고, 음성 데이터로부터 추출된 음성 기반의 감정 데이터를 분석할 수 있다.

여기서, 분석된 영상 기반의 감정 데이터 및 음성 기반의 감정 데이터는 동일한 프레임 레이트(Frame rate)에 맞게 샘플링 과정을 거치게 된다.

도 3a를 참조하면, 배열부(220)는 분석된 영상 기반의 감정 데이터 및 음성 기반의 감정 데이터 각각을 시간 시퀀스에 배열할 수 있다. 여기서, 시간 시퀀스는 기설정된 조건 단위(예컨대, 시간 단위, 프레임 단위 등)로 정해진 시간 순서를 의미할 수 있다.

이렇게 시간 시퀀스 별로 배열된 영상 기반의 감정 데이터 및 음성 기반의 감정 데이터 각각은 서로 비교 가능하도록 배열된다. 이 때, 분석된 영상 기반의 감정 데이터에 포함된 복수의 감정('중립' 감정 속성, '행복' 감정 속성, '놀람' 감정 속성, '화남' 감정 속성 및 '슬픔' 감정 속성)은 5차원 벡터로 정의되고, 음성 기반의 감정 데이터 중 문장 별 감정 결과에 속한 복수의 감정('중립' 감정 속성, '행복' 감정 속성, '놀람' 감정 속성, '화남' 감정 속성 및 '슬픔' 감정 속성) 역시 5차원 벡터로 정의될 수 있다. 또한, 음성 기반의 감정 데이터 중 감정 키워드에 포함된 감정('두려움' 감정 속성)은 1차원 벡터로 정의될 수 있다.

배열부(220)는 영상 기반의 감정 데이터에서 표정으로 분석된 복수의 감정 속성을 5차원 벡터로 시간 시퀀스에 배열하고, 음성 기반의 감정 데이터 중 발화 시점으로부터 입력된 문장의 감정을 분석하여 복수의 감정 속성을 5차원 벡터로 시간 시퀀스에 배열할 수 있다. 또한, 배열부(220)는 음성 기반의 감정 데이터 중 감정 키워드가 추출된 시점에 감정 키워드에 해당하는 감정 속성을 시간 시퀀스에 배열할 수 있다.

스코어 산출부(232)는 기설정된 프레임 레이트에 기초하여 각 시간 시퀀스마다 감정 벡터값을 할당할 수 있다. 예를 들어, 스코어 산출부(232)는 프레임 레이트를 25fps로 가정할 경우, 25fps의 프레임 레이트에 맞게 각 시간 시퀀스마다 감정 벡터값을 할당할 수 있다.

감정 전환 시점 결정부(230)는 분석된 영상 기반의 감정 데이터 및 음성 기반의 감정 데이터에 기초하여 감정 전환 시점을 결정할 수 있다.

감정 전환 시점 결정부(230)는 분석된 영상 기반의 감정 데이터 및 음성 기반의 감정 데이터 각각이 위치한 시간 시퀀스에 할당된 감정 벡터값에 기초하여 각각의 스코어를 산출하고, 산출된 각각의 스코어에 기초하여 감정 그래프를 생성할 수 있다. 예를 들어, 감정 전환 시점 결정부(230)는 이전 시간 시퀀스에 할당된 영상 기반의 감정 벡터값과 현 시간 시퀀스에 할당된 영상 기반의 감정 벡터값에 기초하여 영상 기반의 감정 데이터에 대한 스코어(즉, 벡터의 변화량)을 산출할 수 있다. 예를 들어, 감정 전환 시점 결정부(230)는 음성 기반의 디폴트(default) 벡터값과 현 시간 시퀀스에 할당된 음성 기반의 감정 벡터값에 기초하여 음성 기반의 감정 데이터에 대한 스코어(즉, 벡터의 변화량)을 산출할 수 있다. 예를 들어, 감정 전환 시점 결정부(230)는 현 시간 시퀀스에 할당된 음성 기반의 감정 벡터값과 영상 기반의 감정 벡터값 간의 차이(즉, 스코어)를 산출할 수 있다.

도 3b를 참조하면, 감정 전환 시점 결정부(230)는 영상 기반의 감정 데이터가 위치한 시간 시퀀스에 할당된 감정 벡터값에 기초하여 산출된 영상 기반의 감정 데이터에 대한 스코어에 기초하여 영상에 대한 감정 변화 그래프(305)를 생성할 수 있다. 여기서, 영상에 대한 감정 변화 그래프(305)는 이전 시간 시퀀스와 현 시간 시퀀스의 영상 기반의 감정 데이터에 대한 벡터(즉, 영상 감정 벡터)의 변화량을 나타낸 그래프이다.

또한, 감정 전환 시점 결정부(230)는 음성 기반의 감정 데이터가 위치한 시간 시퀀스에 할당된 감정 벡터값에 기초하여 산출된 음성 기반의 감정 데이터에 대한 스코어에 기초하여 음성에 대한 감정 변화 그래프(303)를 생성할 수 있다. 여기서, 음성에 대한 감정 변화 그래프(303)는 음성 감정의 디폴트(default) 벡터와 현 시간 시퀀스의 음성 기반의 감정 데이터에 대한 벡터(즉, 음성 감정 벡터)의 변화량을 나타낸 그래프이다.

또한, 감정 전환 시점 결정부(230)는 산출된 각각의 스코어에 따라 음성 기반의 감정 데이터에 대한 벡터와 영상 기반의 감정 데이터에 대한 벡터 간의 유사도를 나타내는 음성-영상 감정 유사도 그래프(301)를 생성할 수 있다. 여기서, 음성-영상 감정 유사도 그래프(301)는 현 시간 시퀀스의 음성 감정 벡터와 영상 감정 벡터 간의 유사도를 나타낸 그래프이다. 음성 감정 벡터와 영상 감정 벡터 간의 유사도는 기설정된 복수의 감정에 대한 음성 감정 벡터 및 영상 감정 벡터 간의 내적에 대한 코사인 값이다. 여기서, 내적에 대한 코사인 값은 이론 상 음성 감정 벡터 및 영상 감정 벡터 각각의 크기와 음성 감정 벡터 및 영상 감정 벡터 간의 각도를 코사인한 값을 서로 곱한 값으로, 기설정된 복수의 감정에 대한 음성 감정 벡터 및 영상 감정 벡터를 행렬로 내적 연산하고, 각 행렬의 크기로 나눔으로써 산출될 수 있다.

한편, 음성-영상 감정 유사도 그래프(301)와 영상에 대한 감정 변화 그래프(305)는 시간 시퀀스 단위로 추정된 스코어에 따라 생성된 그래프이기 때문에 그대로 사용할 경우, 그래프의 값이 불안정할 수 있다. 따라서, 도 3c와 같이, 음성-영상 감정 유사도 그래프와 영상에 대한 감정 변화 그래프 각각에 가우시안 필터링을 적용하여 각 그래프의 값을 안정화시킬 수 있다.

다시 도 2로 돌아오면, 감정 전환 시점 결정부(230)는 영상에 대한 감정 변화 그래프 및 음성에 대한 감정 변화 그래프에 기초하여 감정 전환 시점을 결정할 수 있다.

감정 전환 시점 결정부(230)는 음성에 대한 감정 변화 그래프에서 발화 구간 및 비발화 구간을 판단할 수 있다.

음성에 대한 감정 변화 그래프는 음성 감정의 디폴트(default) 벡터와 현 시간 시퀀스의 음성 감정 벡터 간의 변화량이므로 발화 시 변화량값이 높게 계산되고, 비발화 시 변화량값이 낮게 계산되게 된다. 따라서, 감정 전환 시점 결정부(230)는 음성에 대한 감정 변화 그래프 중 변화량 값이 높은 구간(발화 구간)에서의 문장 기반의 감정 데이터로부터 기저 감정을 선정할 수 있다. 여기서, 기저 감정은 감정 전환이 이루어지기 전에 유지되는 감정일 수 있다.

감정 전환 시점 결정부(230)는 기저 감정을 유지하면서 시간 시퀀스의 흐름에 따라 음성-영상 감정 유사도 그래프와 음성에 대한 감정 변화 그래프를 이용하여 감정 전환 시점을 결정할 수 있다. 이 때, 발화 구간에서의 감정 전환 시점을 결정하기 위하여 음성-영상 감정 유사도 그래프와 음성에 대한 감정 변화 그래프가 이용될 수 있다. 즉, 감정 전환 시점 결정부(230)는 음성에 대한 감정 변화 그래프에서 발화 구간에 해당되는 구간의 경우, 음성-영상 감정 유사도 그래프를 이용하여 감정 전환 시점을 결정할 수 있다.

감정 전환 시점 결정부(230)는 음성-영상 감정 유사도 그래프에서 영상 감정 벡터와 음성 감정 벡터의 유사도가 높으면, 기저 감정을 유지하고, 유사도가 낮으면, 유사도가 낮은 시점을 감정 전환 시점으로 판단할 수 있다. 이에 따라, 감정 전환 시점 결정부(230)는 음성에 기반한 감정 데이터와 영상에 기반한 감정 데이터가 동시에 입력되었을 때, 어떠한 입력에 따라 감정을 선택할지를 결정할 수 있다.

감정 전환 시점 결정부(230)는 발화 구간에 해당하는 음성-영상 감정 유사도 그래프의 값이 음성-영상 감정 유사도 그래프에 대한 임계점을 초과하는지 또는 임계점 이하인지 여부에 따라 감정 전환 시점을 결정할 수 있다.

감정 전환 시점 결정부(230)는 발화 구간에 해당하는 음성-영상 감정 유사도 그래프의 값이 음성-영상 감정 유사도 그래프에 대한 임계점 이하이면, 감정의 전환 여부를 판단하기 위해 영상에 대한 감정 변화 그래프를 확인할 수 있다. 여기서, 영상에 대한 감정 변화 그래프는 직전 시간 시퀀스와 현 시간 시퀀스의 영상 감정 벡터의 변화량을 나타낸 그래프이므로, 감정의 변화가 클수록 영상에 대한 감정 변화 그래프의 값도 높아지게 된다. 따라서, 영상에 대한 감정 변화 그래프에서 값이 높게 계산된 구간은 사용자 표정이 급격하게 변화된 구간일 수 있다.

이 때, 감정 전환 시점 결정부(230)는 영상에 대한 감정 변화 그래프의 값이 영상에 대한 감정 변화 그래프에 대한 임계점을 초과하는지 또는 임계점 이하인지 여부를 판단하여 감정 전환 시점을 결정할 수 있다. 예를 들어, 감정 전환 시점 결정부(230)는 영상에 대한 감정 변화 그래프의 값이 영상에 대한 감정 변화 그래프에 대한 임계점을 초과하는 경우, 감정에 변화가 발생하였다고 판단하고, 기존의 기저 감정을 변화된 감정 속성으로 변경할 수 있다.

반면, 감정 전환 시점 결정부(230)는 음성에 대한 감정 변화 그래프 중 변화량 값이 낮은 구간(즉, 비발화 구간)에서 직전에 입력된 문장 기반의 감정 데이터로부터 기저 감정을 선정할 수 있다. 이 때, 감정 전환 시점 결정부(230)는 음성에 대한 감정 변화 그래프에서 비발화 구간에 해당되는 구간의 경우, 영상에 대한 감정 변화 그래프를 이용하여 감정 전환 시점을 결정할 수 있다. 여기서, 영상에 대한 감정 변화 그래프는 전 구간에 대하여 급격한 감정 변화가 발생한 경우, 감정을 전환해 주는 도구로 이용될 수 있다.

감정 전환 시점 결정부(230)는 비발화 구간에서 직전에 확인된 문장 기반의 감정 데이터에 포함된 감정 속성으로 기저 감정을 유지하되, 영상에 대한 감정 변화 그래프의 값이 영상에 대한 감정 변화 그래프에 대한 임계점을 초과하는 구간에서 기존의 기저 감정을 임계점을 초과한 표정 기반의 감정으로 전환할 수 있다.

예를 들어, 도 3d는 감정 전환 시점의 도출 결과를 설명하기 위한 도면이다. 도 3d를 참조하면, 영상이 입력되고 25초까지 디폴트(default)를 유지하다가, 사용자의 발화가 시작되는 25초에서 추출된 문장 기반의 감정 데이터를 참조하여 기설정된 복수의 감정 속성 중 가장 높은 벡터값을 갖는 감정 속성을 결과로서 출력할 수 있다. 이 때, 문장 기반의 감정 데이터로부터 추출된 감정 속성은 기저 감정으로서 등록될 수 있다.

이 후, 약 30초에서 음성-영상 감정 유사도 그래프(301)의 값이 음성-영상 감정 유사도 그래프에 대한 임계점(309)에 도달하여 음성 기반의 감정 데이터와 영상 기반의 감정 데이터 간의 차이가 발생하게 되면, 30초에 해당하는 감정 전환 시점에서는 가장 높은 값을 갖는 벡터에 대응하는 감정 속성으로 전환될 수 있다.

이 후, 약 35초에서 영상에 대한 감정 변화 그래프(305)의 값이 영상에 대한 감정 변화 그래프에 대한 임계점(307)에 도달하게 되면, 이는 사용자의 표정에 급격한 변화가 생겼다는 것을 의미하며, 35초에 해당하는 감정 전환 시점에서는 표정 기반으로 추출된 복수의 감정 속성의 벡터 중 가장 높은 값을 갖는 벡터에 대응하는 감정 속성으로 전환될 수 있다.

이 후, 약 55초에서 영상에 대한 감정 변화 그래프(303)의 값이 영상에 대한 감정 변화 그래프에 대한 임계점(307) 이하로 낮아지면 35초 이전까지 참조되었던 감정 속성으로 전환되고, 90초에서의 음성-영상 감정 유사도 그래프(301)의 값이 음성-영상 감정 유사도 그래프에 대한 임계점(309) 이하로 낮아지면 30초 이전까지 참조되었던 기저 감정인 감정 속성으로 전환될 수 있다. 100초 이후의 구간은 발화되지 않은 구간으로 이전에 참조되었던 기저 감정인 감정 속성을 유지하되, 135초경에 영상에 대한 감정 변화 그래프(303)의 값이 영상에 대한 감정 변화 그래프에 대한 임계점(307) 이상으로 높아지면 135초에 해당하는 감정 전환 시점에서 높은 값을 갖는 벡터에 대응하는 감정 속성으로 전환되고, 음성-영상 감정 유사도 그래프(301)의 값이 음성-영상 감정 유사도 그래프에 대한 임계점(309) 이하로 낮아진 145초경 이전에 참조하던 기저 감정인 감정 속성으로 전환될 수 있다.

다시 도 2로 돌아오면, 아바타 감정 스케쥴링 정보 생성부(240)는 결정된 감정 전환 시점 및 기저장된 매핑테이블에 기초하여 아바타의 동작을 결정할 수 있다. 여기서, 도 4a를 참조하면, 매핑테이블은 감정 표현(아바타의 표정, 바디 애니메이션 및 효과 정보)에 대한 출력 항목을 복수의 감정 속성(예컨대, '중립', '행복함', '놀라움', '화남', '슬픔') 별로 정의한 테이블일 수 있다.

아바타 감정 스케쥴링 정보 생성부(240)는 결정된 감정 전환 시점에서의 아바타의 표정을 결정하여 아바타 감정 스케쥴링 정보를 생성할 수 있다.

결정된 감정 전환 시점에서 선택된 감정 데이터는 음성 데이터로부터 추출된 문장 기반의 감정 데이터 및 영상 데이터로부터 추출된 표정 기반의 감정 데이터에 대응될 수 있다.

표정 기반의 감정 데이터의 경우, 음성-영상 감정 유사도 그래프와 영상에 대한 감정 변화 그래프를 통해 변화를 줄 수 있기 때문에 아바타 감정 스케쥴링 정보 생성부(240)는 기설정된 복수의 감정 속성에 대한 벡터 중 결정된 감정 전환 시점에서 높은 감정 속성에 대한 벡터를 선택하고, 선택된 감정 속성에 대한 벡터에 기초하여 아바타의 표정, 바디 애니메이션 및 효과 정보를 결정할 수 있다.

예를 들어, 도 4a를 참조하면, '표정'에 해당하는 감정 표현의 경우 프레임 별로 순차적으로 감정 속성('중립', '행복함', '놀라움', '화남', '슬픔')과 감정 속성의 크기(value) 값이 함께 스케쥴링 되기 때문에, 도 3d에서 추정된 감정 전환 시점에서 매핑 결과가 변동될 수 있고, 감정 속성의 감정 크기도 변동될 수 있다.

아바타 감정 스케쥴링 정보로서, 제 1 프레임에서 '행복함' 속성의 감정 크기가 50%이고, 제 2 프레임에서 '행복함' 속성의 감정 크기가 55%이고, 제 3 프레임에서 음성-영상 감정 유사도 그래프의 값이 임계점 이상이 되어 제 3 프레임이 감정 전환 시점으로 판단된 경우, 제 3 프레임에서의 '놀람' 속성의 감정 크기가 40%이고 '행복함' 속성의 감정 크기가 35%이 되었다면 해당 제 3 프레임에서 '놀람' 속성의 감정 크기 40%가 출력될 수 있다.

따라서, 매핑 테이블에 기초하여 제 1 프레임에서 '행복함' 속성의 감정 크기가 50%(FH(50%)가 출력되고, 제 2 프레임에서 '행복함' 속성의 감정 크기가 55%(FH(55%)가 출력되고, 제 3 프레임에서 '놀람' 속성의 감정 크기가 40%( FS(40%)가 출력될 수 있다.

이 때, 각 감정 속성의 감정 크기를 참조하여 아바타에 적용하게 되면, 아바타의 얼굴 표정이 자연스럽게 연속되어 표현될 수 있다.

'바디 애니메이션'과 '효과 정보'의 경우, 프레임 별로 순차적인 감정 데이터가 주어지지 않기 때문에 평가 기준을 두어 다양한 표현이 가능하도록 할 수 있다. 여기서, 평가 기준은 평균감정, 증폭감정, 키워드로 정의된다.

이 때, 평균 감정 및 증폭 감정은 도 3d에서 정해진 감정 전환 시점을 따라 표현된다. 예를 들어, 아바타 감정 스케쥴링 정보가 제 1 프레임에서는 발화가 시작되지 않아 감정이 '중립' 상태였다가 제 2 프레임부터 발화가 시작되어 음성 기반의 감정 데이터가 임계점을 초과함에 따라 '행복함' 속성으로 변경되고, 이 때, 영상 기반의 감정 데이터도 '행복함' 속성이며 영상에 대한 감정 변화 그래프의 값이 임계점보다 작기 때문에 매핑 테이블로부터 'BH_1'가 추출될 수 있다.

제 3 프레임에서 음성 기반의 감정 데이터가 여전히 '행복함' 속성이나, 영상 기반의 감정 데이터가 '놀라움' 속성으로 판단되어, 음성-영상 간의 감정 데이터 차이가 커지기 때문에 음성-영상 감정 유사도 그래프의 변화량이 임계점 이상이 되어 감정 전환 시점으로 판단될 수 있다. 따라서, 매핑 테이블로부터 추출된 'BS_1'로 변경될 수 있다.

제 4 프레임에서 영상 기반의 감정 데이터가 5개의 감정 속성 벡터 중 가장 큰 값이 '놀라움' 속성이나, 직전 프레임인 제 3 프레임에서의 감정 벡터 크기나 현 프레임에서의 감정 벡터의 크기를 비교한 값 즉, 영상에 대한 감정 변화 그래프의 값이 임계점 이상이 되어 이전 프레임보다 높은 '놀라움' 속성으로 판단하였을 때, 증폭 감정으로 판단하고, 매핑 테이블 결과는 BS_2로 변경될 수 있다. 결과적으로 스케쥴링 정보는 "BN_1, BH_1, BS_1, BS_2… "로 표현될 수 있다.

추가적으로, 아바타 감정 스케쥴링 정보 생성부(240)는 음성 데이터로부터 추출된 감정 키워드 및 기저장된 매핑테이블에 기초하여 해당 감정 키워드에 따른 아바타의 표정, 바디 애니메이션, 효과 정보를 추출하여 아바타 감정 스케쥴링 정보를 생성할 수 있다. '감정 키워드'의 경우 기설정된 복수의 감정 속성 외에 영상의 음성 데이터에서 추출된 문장 내에서 강조하고자 하는 표현이 있을 때, 추가적으로 스케쥴링되어 사용될 수 있다. 이는 기설정된 복수의 감정 속성 이외에도 아바타가 풍부한 표현을 할 수 있도록 감정 속성이 추가될 수 있다. 예를 들어, 도 4a를 참조하면, 제 2 프레임에서 키워드로 '퀴즈'라는 단어가 인식되어 제 2 프레임에 퀴즈와 관련된 바디 애니메이션과 효과 정보를 표현하고자 한다면, 기존의 스케쥴링 정보인 "BN_1, BH_1, BS_1, BS_2… "가 "BN_1, QUIZ, BS_1, BS_2… "로 변경되어 최종 스케쥴링될 수 있다.

아바타 서비스 제공부(250)는 생성된 아바타 감정 스케쥴링 정보에 기초하여 아바타 서비스를 사용자 단말(110)에게 제공할 수 있다.

도 4b는 아바타 감정 스케쥴링 정보에 기초하여 아바타의 표정, 바디 애니메이션 및 효과 정보가 아바타에 적용된 결과를 도시한 도면이다.

도 4b를 참조하면, 아바타 감정 스케쥴링 정보에 기초하여 제공되는 아바타 서비스의 결과는 입력된 영상에 포함된 음성 데이터 및 영상 데이터의 싱크와 맞게 동기화되어 시간에 따른 아바타의 감정이 스케쥴링될 수 있다.

예를 들어, 영상에서 사용자의 행복한 감정이 입력되었을 경우, 아바타는 '행복함' 감정 속성에 대응되는 표정과, '행복함' 감정 속성과 관련된 바디 애니메이션 및 효과 정보가 아바타에 반영될 수 있다. 또한, 다른 감정 속성들에 대해서도 각 다른 감정 속성과 맵핑된 표정 및 바디 애니메이션 및 효과 정보를 아바타에 적용한 아바타 서비스를 제공할 수 있다. 이를 통해 입력된 영상에 포함된 음성 데이터 및 영상 데이터를 기반으로 분석된 감정을 스케쥴링함으로써 아바타가 사용자의 감정을 대신 표현해 주는 것과 같은 효과를 제공할 수 있다.

한편, 당업자라면, 추출부(200), 감정 데이터 분석부(210), 배열부(220), 감정 전환 시점 결정부(230), 스코어 산출부(232), 아바타 감정 스케쥴링 정보 생성부(240) 및 아바타 서비스 제공부(250) 각각이 분리되어 구현되거나, 이 중 하나 이상이 통합되어 구현될 수 있음을 충분히 이해할 것이다.

도 5는 본 발명의 일 실시예에 따른, 아바타 서비스를 제공하는 방법을 나타낸 흐름도이다.

도 5를 참조하면, 단계 S501에서 아바타 서비스 제공 서버(100)는 영상에 포함된 영상 데이터 및 음성 데이터 각각으로부터 감정 데이터를 추출할 수 있다.

단계 S503에서 아바타 서비스 제공 서버(100)는 기설정된 복수의 감정 속성에 대한 벡터에 기초하여 영상 데이터로부터 추출된 영상 기반의 감정 데이터 및 음성 데이터로부터 추출된 음성 기반의 감정 데이터를 분석할 수 있다.

단계 S505에서 아바타 서비스 제공 서버(100)는 분석된 영상 기반의 감정 데이터 및 음성 기반의 감정 데이터에 기초하여 감정 전환 시점을 결정할 수 있다.

단계 S507에서 아바타 서비스 제공 서버(100)는 결정된 감정 전환 시점 및 기저장된 매핑테이블에 기초하여 아바타의 동작을 결정할 수 있다.

단계 S509에서 아바타 서비스 제공 서버(100)는 결정된 감정 전환 시점에서의 아바타의 표정을 결정하여 아바타 감정 스케쥴링 정보를 생성할 수 있다.

단계 S511에서 아바타 서비스 제공 서버(100)는 생성된 아바타 감정 스케쥴링 정보에 기초하여 아바타 서비스를 사용자 단말(110)에게 제공할 수 있다.

상술한 설명에서, 단계 S501 내지 S511은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 아바타 서비스 제공 서버
110: 사용자 단말
200: 추출부
210: 감정 데이터 분석부
220: 배열부
230 감정 전환 시점 결정부
232: 스코어 산출부
240: 아바타 감정 스케쥴링 정보 생성부
250: 아바타 서비스 제공부

Claims

아바타 서비스를 제공하는 서버에 있어서,
영상에 포함된 영상 데이터 및 음성 데이터 각각으로부터 감정 데이터를 추출하는 추출부;
기설정된 복수의 감정 속성에 대한 벡터에 기초하여 상기 영상 데이터로부터 추출된 영상 기반의 감정 데이터 및 상기 음성 데이터로부터 추출된 음성 기반의 감정 데이터를 분석하는 감정 데이터 분석부;
상기 분석된 영상 기반의 감정 데이터 및 음성 기반의 감정 데이터에 기초하여 감정 전환 시점을 결정하는 감정 전환 시점 결정부;
상기 결정된 감정 전환 시점 및 기저장된 매핑테이블에 기초하여 아바타의 동작을 결정하고, 상기 결정된 감정 전환 시점에서의 상기 아바타의 표정을 결정하여 아바타 감정 스케쥴링 정보를 생성하는 아바타 감정 스케쥴링 정보 생성부; 및
상기 생성된 아바타 감정 스케쥴링 정보에 기초하여 아바타 서비스를 사용자 단말로 제공하는 아바타 서비스 제공부
를 포함하는 아바타 서비스 제공 서버.
제 1 항에 있어서,
상기 분석된 영상 기반의 감정 데이터 및 음성 기반의 감정 데이터 각각을 시간 시퀀스에 배열하는 배열부를 더 포함하고,
상기 감정 전환 시점 결정부는
기설정된 프레임 레이트(Frame rate)에 기초하여 각 시간 시퀀스마다 감정 벡터값을 할당하는 스코어 산출부를 포함하는 것인, 아바타 서비스 제공 서버.
제 2 항에 있어서,
상기 감정 전환 시점 결정부는
상기 분석된 영상 기반의 감정 데이터 및 음성 기반의 감정 데이터 각각이 위치한 시간 시퀀스에 할당된 상기 감정 벡터값에 기초하여 스코어를 각각 산출하고,
상기 산출된 각각의 스코어에 기초하여 감정 그래프를 생성하는 것인, 아바타 서비스 제공 서버.
제 3 항에 있어서,
상기 감정 전환 시점 결정부는
상기 산출된 영상 기반의 감정 데이터에 대한 스코어에 기초하여 영상에 대한 감정 변화 그래프를 생성하고,
상기 산출된 음성 기반의 감정 데이터에 대한 스코어에 기초하여 음성에 대한 감정 변화 그래프를 생성하는 것인, 아바타 서비스 제공 서버.
제 4 항에 있어서,
상기 감정 전환 시점 결정부는
상기 산출된 각각의 스코어에 따라 상기 음성 기반의 감정 데이터에 대한 벡터와 상기 영상 기반의 감정 데이터에 대한 벡터 간의 유사도를 나타내는 음성-영상 감정 유사도 그래프를 생성하는 것인, 아바타 서비스 제공 서버.
제 5 항에 있어서,
상기 감정 전환 시점 결정부는
상기 영상에 대한 감정 변화 그래프 및 상기 음성에 대한 감정 변화 그래프에 기초하여 상기 감정 전환 시점을 결정하는 것인, 아바타 서비스 제공 서버.
제 6 항에 있어서,
상기 감정 전환 시점 결정부는
상기 음성에 대한 감정 변화 그래프에서 발화 구간 및 비발화 구간을 판단하고,
상기 음성에 대한 감정 변화 그래프에서 상기 비발화 구간에 해당되는 구간의 경우, 상기 영상에 대한 감정 변화 그래프를 이용하여 상기 감정 전환 시점을 결정하는 것인, 아바타 서비스 제공 서버.
제 7 항에 있어서,
상기 감정 전환 시점 결정부는
상기 음성에 대한 감정 변화 그래프에서 상기 발화 구간에 해당되는 구간의 경우, 상기 음성-영상 감정 유사도 그래프를 이용하여 상기 감정 전환 시점을 결정하는 것인, 아바타 서비스 제공 서버.
제 1 항에 있어서,
상기 아바타 감정 스케쥴링 정보 생성부는
기설정된 복수의 감정 속성에 대한 벡터 중 상기 결정된 감정 전환 시점에서 높은 감정 속성에 대한 벡터를 선택하고,
선택된 감정 속성에 대한 벡터에 기초하여 상기 아바타의 표정, 바디 애니메이션 및 효과 정보를 결정하는 것인, 아바타 서비스 제공 서버.
아바타 서비스 제공 서버를 통해 아바타 서비스를 제공하는 방법에 있어서,
영상에 포함된 영상 데이터 및 음성 데이터 각각으로부터 감정 데이터를 추출하는 단계;
기설정된 복수의 감정 속성에 대한 벡터에 기초하여 상기 영상 데이터로부터 추출된 영상 기반의 감정 데이터 및 상기 음성 데이터로부터 추출된 음성 기반의 감정 데이터를 분석하는 단계;
상기 분석된 영상 기반의 감정 데이터 및 음성 기반의 감정 데이터에 기초하여 감정 전환 시점을 결정하는 단계;
상기 결정된 감정 전환 시점 및 기저장된 매핑테이블에 기초하여 아바타의 동작을 결정하는 단계;
상기 결정된 감정 전환 시점에서의 상기 아바타의 표정을 결정하여 아바타 감정 스케쥴링 정보를 생성하는 단계; 및
상기 생성된 아바타 감정 스케쥴링 정보에 기초하여 아바타 서비스를 사용자 단말로 제공하는 단계를 포함하는 아바타 서비스 제공 방법.
제 10 항에 있어서,
상기 감정 데이터를 분석하는 단계 이후에
상기 분석된 영상 기반의 감정 데이터 및 음성 기반의 감정 데이터 각각을 시간 시퀀스에 배열하는 단계를 더 포함하고,
상기 감정 전환 시점을 결정하는 단계는
기설정된 프레임 레이트(Frame rate)에 기초하여 각 시간 시퀀스마다 스코어를 할당하는 단계를 포함하는 것인, 아바타 서비스 제공 방법.
제 11 항에 있어서,
상기 감정 전환 시점을 결정하는 단계는
상기 분석된 영상 기반의 감정 데이터 및 음성 기반의 감정 데이터 각각이 위치한 시간 시퀀스에 할당된 감정 벡터값에 기초하여 스코어를 각각 산출하는 단계 및
상기 산출된 각각의 스코어에 기초하여 감정 그래프를 생성하는 단계를 포함하는 것인, 아바타 서비스 제공 방법.
제 12 항에 있어서,
상기 감정 전환 시점을 결정하는 단계는
상기 산출된 영상 기반의 감정 데이터에 대한 스코어에 기초하여 영상에 대한 감정 변화 그래프를 생성하는 단계 및
상기 산출된 음성 기반의 감정 데이터에 대한 스코어에 기초하여 음성에 대한 감정 변화 그래프를 생성하는 단계를 포함하는 것인, 아바타 서비스 제공 방법.
제 13 항에 있어서,
상기 감정 전환 시점을 결정하는 단계는
상기 산출된 각각의 스코어에 따라 상기 음성 기반의 감정 데이터에 대한 벡터와 상기 영상 기반의 감정 데이터에 대한 벡터 간의 유사도를 나타내는 음성-영상 감정 유사도 그래프를 생성하는 단계를 포함하는 것인, 아바타 서비스 제공 방법.
제 14 항에 있어서,
상기 감정 전환 시점을 결정하는 단계는
상기 영상에 대한 감정 변화 그래프 및 상기 음성에 대한 감정 변화 그래프에 기초하여 상기 감정 전환 시점을 결정하는 단계를 포함하는 것인, 아바타 서비스 제공 방법.
제 15 항에 있어서,
상기 감정 전환 시점을 결정하는 단계는
상기 음성에 대한 감정 변화 그래프에서 발화 구간 및 비발화 구간을 판단하는 단계 및
상기 음성에 대한 감정 변화 그래프에서 상기 비발화 구간에 해당되는 구간의 경우, 상기 영상에 대한 감정 변화 그래프를 이용하여 상기 감정 전환 시점을 결정하는 단계를 포함하는 것인, 아바타 서비스 제공 방법.
제 16 항에 있어서,
상기 감정 전환 시점을 결정하는 단계는
상기 음성에 대한 감정 변화 그래프에서 상기 발화 구간에 해당되는 구간의 경우, 상기 음성-영상 감정 유사도 그래프를 이용하여 상기 감정 전환 시점을 결정하는 단계를 포함하는 것인, 아바타 서비스 제공 방법.
제 10 항에 있어서,
상기 아바타 감정 스케쥴링 정보를 생성하는 단계는
기설정된 복수의 감정 속성에 대한 벡터 중 상기 결정된 감정 전환 시점에서 높은 감정 속성에 대한 벡터를 선택하는 단계 및
선택된 감정 속성에 대한 벡터에 기초하여 상기 아바타의 표정, 바디 애니메이션 및 효과 정보를 결정하는 단계를 포함하는 것인, 아바타 서비스 제공 방법.
아바타 서비스를 제공하는 명령어들의 시퀀스를 포함하는 매체에 저장된 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우,
영상에 포함된 영상 데이터 및 음성 데이터 각각으로부터 감정 데이터를 추출하고,
기설정된 복수의 감정 속성에 대한 벡터에 기초하여 상기 영상 데이터로부터 추출된 영상 기반의 감정 데이터 및 상기 음성 데이터로부터 추출된 음성 기반의 감정 데이터를 분석하고,
상기 분석된 영상 기반의 감정 데이터 및 음성 기반의 감정 데이터에 기초하여 감정 전환 시점을 결정하고,
상기 결정된 감정 전환 시점 및 기저장된 매핑테이블에 기초하여 아바타의 동작을 결정하고, 상기 결정된 감정 전환 시점에서의 상기 아바타의 표정을 결정하여 아바타 감정 스케쥴링 정보를 생성하고,
상기 생성된 아바타 감정 스케쥴링 정보에 기초하여 아바타 서비스를 사용자 단말로 제공하는 명령어들의 시퀀스를 포함하는, 매체에 저장된 컴퓨터 프로그램.