KR102601159B1

KR102601159B1 - 버추얼 휴먼 인터렉션 생성 장치 및 그에 대한 방법

Info

Publication number: KR102601159B1
Application number: KR1020220125579A
Authority: KR
Inventors: 채수응
Original assignee: 주식회사 아리아스튜디오
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2023-11-13

Abstract

버추얼 휴먼 인터렉션 생성 장치 및 그에 대한 방법이 제공된다. 본 개시의 기술적 사상에 따른 사용자 단말과 통신하여 버추얼 휴먼 인터렉션 정보를 생성하는 버추얼 휴먼 생성 장치에 있어서, 상기 사용자 단말로부터 음성 데이터 및 상기 텍스트 데이터를 수신하여, 상기 음성 데이터를 상기 텍스트 데이터로 변환하고, 상기 텍스트 데이터를 분석하는 데이터 처리 모듈, 상기 분석된 텍스트 데이터를 이용하여, 인터렉션 시나리오를 생성하고, 생성된 인터렉션 시나리오로부터 표정 지문 및 행동 지문을 포함하는 입력 데이터를 생성하는 스토리라인 생성 모듈, 상기 입력 데이터를 가공하여 표정 데이터 및 행동 데이터를 생성하고, 상기 생성된 표정 데이터 및 행동 데이터를 이용하여 버추얼 휴먼 인터렉션 정보를 생성하는 극사실 디지털 휴먼 모듈을 포함할 수 있다.

Description

버추얼 휴먼 인터렉션 생성 장치 및 그에 대한 방법{VIRTUAL HUMAN INTERACTION GENERATING DEVICE AND METHOD THEROF}

본 개시의 기술적 사상은 인공지능 기반의 버추얼 휴먼 인터렉션 생성 장치 및 그에 대한 방법에 관한 것으로, 구체적으로는 시나리오를 기반으로 인터렉티브(interactive)한 버추얼 휴먼을 생성하고, 버추얼 휴먼이 상황에 맞게 변화하는 버추얼 휴먼 인터렉션 생성 장치 및 방법에 관한 것이다.

일반적인 화보집은 책자 형태의 2차원적인 간행물 또는 디지털화된 디지털 화보집을 애플리케이션으로 지원하는 형태가 대부분이다. 한편, 스마트폰이 보급되면서 배우, 모델 등과 같은 연예인의 디지털 화보집뿐만 아니라, 소셜 네트워킹 서비스(SNS)를 통해 공유되는 크리에이터 또는 인플루언서의 컨텐츠의 인기가 높아지고 있다.

일반적으로 인플루언서는 사회 또는 대중에게 영향력을 크게 미치는 사람으로서, 특히 유튜브, 인스타그램, 페이스북 등과 같은 SNS에서 활동하면서 팬덤 또는 다수의 팔로워를 가지고 있는 사람을 지칭한다. 인플루언서는, SNS 플랫폼 상에서 얻은 인기 또는 대중적인 영향력에 기반하여, 동영상 등과 같은 다양한 컨텐츠를 제작, 공유 및 판매함으로써 금전적인 수익을 창출하기도 한다. 하지만, 이러한 인플루언서에 대한 인기에 기반하여 공유되는 컨텐츠는 인플루언서가 직접 제작한 이미지 또는 동영상에 제한될 수 있다.

최근 인공지능 기술의 발달로 인공지능을 이용한 자연어 처리 기술, 음성 처리 기술과 그래픽 처리 기술을 이용한 버추얼 휴먼이 콘텐츠 시장에서 각광을 받고 있다. 이때, 이러한 버추얼 휴먼 기술에서 그래픽 처리 기술은 Style Transfer, StyleGAN, ObamaNet과 같은 GAN 기술의 발달로 버추얼 휴먼의 그래픽을 상당히 자연스럽게 서비스할 수 있게 되었고, 음성 처리 기술은 Tacotron, Attention is all you need 등의 딥러닝 음성 합성 기술의 발달로 버추얼 휴먼의 음성을 자연스럽게 서비스할 수 있게 되었다. 하지만, 버추얼 휴먼의 인터렉션과 관련된 기술은 그래픽 처리 기술이나 음성 처리 기술에 비해 그 진보가 미약한 상황이다.

본 개시의 기술적 사상은 인터렉티브 시나리오를 바탕으로 버추얼 휴먼을 생성하고, 생성된 버추얼 휴먼이 실제 사람과 같이 표정 변화 또는 행동 변화 등을 수행하는데 있다.

본 개시의 기술적 사상에 따른 사용자 단말과 통신하여 버추얼 휴먼 인터렉션 정보를 생성하는 버추얼 휴먼 생성 장치에 있어서, 상기 사용자 단말로부터 음성 데이터 및 상기 텍스트 데이터를 수신하여, 상기 음성 데이터를 상기 텍스트 데이터로 변환하고, 상기 텍스트 데이터를 분석하는 데이터 처리 모듈; 상기 분석된 텍스트 데이터를 이용하여, 인터렉션 시나리오를 생성하고, 생성된 인터렉션 시나리오로부터 표정 지문 및 행동 지문을 포함하는 입력 데이터를 생성하는 스토리라인 생성 모듈; 상기 입력 데이터를 가공하여 표정 데이터 및 행동 데이터를 생성하고, 상기 생성된 표정 데이터 및 행동 데이터를 이용하여 버추얼 휴먼 인터렉션 정보를 생성하는 극사실 디지털 휴먼 모듈을 포함할 수 있다.

본 개시의 기술적 사상에 따른 버추얼 휴먼 생성 장치는 상기 표정 지문 및 상기 행동 지문을 이용하여 얼굴영역 및 행동영역을 인식하고, 상기 얼굴영역으로부터 추출한 특징점들로부터 벡터 정보를 생성하여, 상기 벡터 정보를 이용하여, 버추얼 휴먼 인터렉션 정보를 생성할 수 있다.

본 개시의 기술적 사상에 따른 버추얼 휴먼 생성 장치의 상기 표정 데이터는 상기 특징점들의 3차원 공간상 위치를 나타내는 제1 텍스트 정보 및 상기 얼굴영역의 3차원 공간상 회전량 및 이동량을 나타내는 제2 텍스트 정보를 포함하는 벡터 정보를 포함할 수 있고, 상기 벡터 정보를 제어하여, 상기 얼굴영역의 표정을 변형한 버추얼 휴먼 인터렉션 정보를 생성할 수 있다.

본 개시의 기술적 사상에 따른 버추얼 휴먼 생성 장치의 상기 행동 데이터는, 상기 행동영역의 3차원 공간상 위치를 나타내는 인물 인디케이터 및 목소리를 나타내는 감정 표현 대사값을 포함할 수 있고, 상기 인물 인디케이터 및 상기 감정 표현 대사값을 제어하여, 상기 행동영역의 행동을 변형한 버추얼 휴먼 인터렉션 정보를 생성할 수 있다.

본 개시의 기술적 사상에 따른 버추얼 휴먼 생성 장치의 상기 인터렉션 시나리오는 지시문 및 대사를 포함할 수 있고, 상기 표정 지문은 지시문이고, 상기 행동 지문은 대사이고, 상기 제1 텍스트 정보는 직접 감정 표시값이고, 상기 제2 텍스트 정보는 간접 감정 표시값일 수 있다.

본 개시의 기술적 사상에 따른 사용자 단말과 통신하여 버추얼 휴먼 인터렉션 정보를 생성하는 버추얼 휴먼 생성 방법에 있어서, 상기 사용자 단말로부터 음성 데이터 및 상기 텍스트 데이터를 수신하는 단계; 상기 음성 데이터를 상기 텍스트 데이터로 변환하고, 상기 텍스트 데이터를 분석하는 단계; 상기 분석된 텍스트 데이터를 이용하여, 인터렉션 시나리오를 생성하는 단계; 상기 생성된 인터렉션 시나리오로부터 표정 지문 및 행동 지문을 포함하는 입력 데이터를 생성하는 단계; 상기 입력 데이터를 가공하여 표정 데이터 및 행동 데이터를 포함하는 입력 값을 생성하는 단계; 및 상기 입력값을 이용하여 버추얼 휴먼 인터렉션 정보를 생성하는 단계를 포함할 수 있다.

본 개시의 기술적 사상에 따른 버추얼 휴먼 생성 방법은 상기 표정 지문 및 상기 행동 지문을 이용하여 얼굴영역 및 행동영역을 인식하는 단계; 상기 얼굴영역으로부터 추출한 특징점들로부터 벡터 정보를 생성하는 단계; 상기 벡터 정보를 이용하여, 버추얼 휴먼 인터렉션 정보를 생성하는 단계를 더 포함할 수 있다.

본 개시의 기술적 사상에 따른 버추얼 휴먼 생성 방법의 상기 표정 지문을 이용하여 얼굴영역을 인식하는 단계는, 상기 특징점들의 3차원 공간상 위치를 나타내는 제1 텍스트 정보를 인식하는 단계; 상기 얼굴영역의 3차원 공간상 회전량 및 이동량을 나타내는 제2 텍스트 정보를 인식하는 단계; 상기 제1 텍스트 정보 및 상기 제2 텍스트 정보를 이용하여 벡터 정보를 생성하는 단계; 상기 벡터 정보를 제어하여, 상기 얼굴영역의 표정을 변형한 버추얼 휴먼 인터렉션 정보를 생성하는 단계를 포함할 수 있다.

본 개시의 기술적 사상에 따른 버추얼 휴먼 생성 방법의 상기 행동 지문을 이용하여 행동 영역을 인식하는 단계는, 상기 행동영역의 3차원 공간상 위치를 나타내는 인물 인디케이터를 인식하는 단계; 상기 행동영역의 목소리를 나타내는 감정 표현 대사값을 인식하는 단계; 상기 인물 인디케이터 및 상기 감정 표현 대사값을 제어하여, 상기 행동영역의 행동을 변형한 버추얼 휴먼 인터렉션 정보를 생성하는 단계를 포함할 수 있다.

본 개시의 기술적 사상에 따른 버추얼 휴먼 생성 방법은 상기 인터렉션 시나리오는 지시문 및 대사를 포함하고, 상기 표정 지문은 지시문이고, 상기 행동 지문은 대사이고, 상기 제1 텍스트 정보는 직접 감정 표시값이고, 상기 제2 텍스트 정보는 간접 감정 표시값일 수 있다.

본 개시의 기술적 사상에 따른 버추얼 휴먼 인터렉션 생성 장치 및 그에 대한 방법은 인터렉티브 시나리오를 바탕으로 버추얼 휴먼을 생성하고, 생성된 버추얼 휴먼이 실제 사람과 같이 표정 변화 또는 행동 변화 등을 수행할 수 있다.

본 개시의 기술적 사상에 따른 버추얼 휴먼 인터렉션 생성 장치 및 그에 대한 방법은 실시간으로 버추얼 휴면의 표정 변화 또는 행동 변화를 제공하는 것이 가능하다.

도 1은 본 개시의 예시적인 실시예에 따른 버추얼 휴먼 인터렉션 생성 시스템을 나타내는 블록도이다.
도 2는 본 개시의 예시적인 실시예에 따른 버추얼 휴먼 생성 장치를 나타내는 블록도이다.
도 3은 본 개시의 예시적인 실시예에 따른 버추얼 휴먼 생성 방법을 나타내는 순서도이다.
도 4는 본 개시의 예시적인 실시예에 따른 인터렉티브 시나리오를 나타내는 도면이다.
도 5 및 도 6은 본 개시의 예시적인 실시예에 따른 버추얼 휴먼 생성 장치에 의한 표정 변화를 나타내는 순서도이다.
도 7 및 도 8은 본 개시의 예시적인 실시예에 따른 버추얼 휴먼 생성 장치에 의한 행동 변화를 나타내는 순서도이다.

이하, 첨부한 도면을 참조하여 본 개시의 실시예에 대해 상세히 설명한다.

덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 '연결'되어 있다고 할 때, 이는 '직접적으로 연결'되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 '간접적으로 연결'되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 '포함'한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 또한, 명세서에 기재된 "~부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

도 1은 본 개시의 예시적인 실시예에 따른 버추얼 휴먼 인터렉션 생성 시스템을 나타내는 블록도이다.

도 1을 참조하면, 버추얼 휴먼 인터렉션 생성 시스템(10)은 사용자 단말(200) 및 버추얼 휴먼 생성 장치(100)를 포함할 수 있다. 버추얼 휴먼 생성 장치(100)는 데이터 처리 모듈(110), 스토리라인 생성 모듈(120) 및 극사실 디지털 휴먼 생성 모듈(130)을 포함할 수 있다.

사용자 단말(200)은 유선 또는 무선 네트워크를 통하여 음성 데이터 및 텍스트 데이터를 버추얼 휴먼 생성 장치(100)에 제공할 수 있다. 유선 또는 무선 네트워크는 설치 환경에 따라, 예를 들어, 이더넷(Ethernet), 유선 홈 네트워크(Power Line Communication), 전화선 통신 장치 및 RS-serial 통신 등의 유선 네트워크, 이동통신망, WLAN(Wireless LAN), Wi-Fi, Bluetooth 및 ZigBee, TCP/IP 5G 등과 같은 무선 네트워크 또는 그 조합으로 구성될 수 있다. 통신 방식은 제한되지 않으며, 네트워크가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망, 위성망 등)을 활용하는 통신 방식뿐만 아니라 사용자 단말(200) 사이의 근거리 무선 통신 역시 포함될 수 있다. 일 예로, 사용자 단말(200)은 시나리오를 취급하는 작가 또는 프로듀서에 의해 제어될 수 있고, 다른 예로, 사용자 단말(200)은 관객에 의해 제어될 수도 있다.

일 예로, 버추얼 휴먼 생성 장치(100)에 제공되는 텍스트 데이터는 시나리오 작가, 연출가, 프로듀서 등 버추얼 휴먼을 생성하기를 의도하는 자에 의해 작성된 초안 형태의 텍스트 데이터일 수 있다. 다른 예로 버추얼 휴먼 생성 장치(100)에 제공되는 음성 데이터 및 텍스트 데이터는 예를들어, 관객 리액션 등과 같은 음성 데이터, 디스플레이에 표시되는 댓글, 채팅, SNS 등과 같은 텍스트 데이터를 포함할 수 있다. 음성 데이터 및 텍스트 데이터는 제한되지 않으며 모든 음성 데이터 및 텍스트 데이터 등을 포함할 수 있다. 예컨대, 버추얼 휴먼 생성 장치(100)는 서버 장치로 구현될 수 있다.

여기서, 사용자 단말(200)은 이동 통신 단말일 수 있다. 즉, 사용자 단말(200)은 정보의 송수신을 위한 통신모듈, 프로그램 및 프로토콜을 저장하는 메모리, 각종 프로그램을 실행하여 연산 및 제어하기 위한 마이크로프로세서 등을 구비할 수 있다. 예를 들어, 사용자 단말(200)은 스마트 폰(smart phone), 태블릿 PC(Tablet PC), 노트북, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), MP3 Player, 웨어러블 디바이스(wearable device, 예를 들어, 워치형 단말기 (smartwatch), 글래스형 단말기 (smart glass), HMD(head mounted display)), 디지털 카메라, 캠코더 등이 포함될 수 있으며, 일부 실시예에 따라서는 PC, IPTV, 스마트 TV 등과 같이 휴대하기 어려운 디지털 기기 등도 해당할 수 있다. 또한, 도 1에서는 1개의 사용자 단말(200)이 도시되어 있으나, 이에 한정되지 않고, 복수의 사용자 단말(200)이 유선 또는 무선 네트워크를 통해 버추얼 휴먼 생성 장치(100)와 통신하도록 구성될 수 있다.

도 2는 본 개시의 예시적인 실시예에 따른 버추얼 휴먼 생성 장치를 나타내는 블록도이다.

도 1 및 도 2를 함께 참조하면, 데이터 처리 모듈(110)은 STT(Speech-to-Text) 모듈(111), 텍스트 마이닝 모듈(112), DB 적재/분석 모듈(113)을 포함할 수 있다. 데이터 처리 모듈(110)은 데이터 처리 모듈이라 지칭될 수 있다. 데이터 처리 모듈(110)은 사용자 단말(200)로부터 제공받은 음성 데이터 데이터를 수신하여, 음성 데이터를 텍스트 데이터로 변환할 수 있고, 텍스트 데이터로부터 의미 있는 텍스트, 감정 등을 추출할 수 있고, 텍스트 데이터를 적재 및/또는 분석할 수 있다.

STT 모듈(111)은 사용자 단말(200)로부터 수신한 음성 데이터를 텍스트 데이터로 변환할 수 있다. STT 모듈(111)은 음성 데이터에 대응하는 텍스트 데이터를 생성할 수 있다. 텍스트 마이닝 모듈(112)은 텍스트 데이터 중 의미 있는 텍스트 데이터를 추출할 수 있다. 여기서 의미 있는 텍스트 데이터란 버추얼 휴먼의 표정, 감정 및/또는 행동을 변화시킬 수 있는 텍스트 데이터일 수 있다. 또는 의미 있는 텍스트 데이터란 인터렉션 시나리오에 포함될 수 있는 텍스트 데이터일 수 있다. 텍스트 마이닝 모듈(112)은 텍스트 데이터 중 감정이 포함된 및/또는 드러난 텍스트 데이터를 추출할 수 있다. DB 적재/분석 모듈(113)은 텍스트 데이터를 저장 및/또는 분석할 수 있다. DB 적재/분석 모듈(113)은 STT 모듈(111)에서 변환 및/또는 생성된 텍스트 데이터, 텍스트 마이닝 모듈(112)에서 추출된 텍스트 데이터 등 모두를 포함할 수 있다.

도 1 및 도 2를 함께 참조하면, 스토리라인 생성 모듈(120)은 시나리오 생성 모듈(121), 태그 생성 모듈(122), 시퀀스 분기점 관리 모듈(123)을 포함할 수 있다. 스토리라인 생성 모듈(120)은 데이터 처리 모듈(110)에서 제공된 분석된 텍스트 데이터를 이용하여, 인터렉션(interaction) 시나리오를 생성하고, 생성된 인터렉션 시나리오로부터 표정 지문 및 행동 지문을 포함하는 입력 데이터를 생성할 수 있다.

시나리오 생성 모듈(121)은 데이터 처리 모듈(110)에서 제공된 텍스트 데이터를 이용하여 인터렉션 시나리오를 생성할 수 있다. 예컨대, 인터렉션 시나리오를 기반으로 극사실 디지털 휴먼 생성 모듈(130)은 데이터 태그를 기반으로 표정 지문과 감정 지문 각각을 구별할 수 있다. 태그 생성 모듈(122)은 인터렉션 시나리오로부터 씬별, 상황별, 감정별 등의 대사 및 행동 지문의 태그를 생성할 수 있다. 태그를 생성하는 것은 표정 지문 및 행동 지문을 포함하는 입력 데이터를 생성할 수 있는 것을 포함할 수 있다. 시퀀스 분기점 관리 모듈(123)은 영화를 포함하는 디지털 영상물에서의 시간 단위인 시퀀스 각각에 대해 분기점을 생성하여 이전 시퀀스와 현재 시퀀스를 인터렉션 시나리오 상에서 구분짓고, 버추얼 휴먼은 구분된 시퀀스 마다 새로운 인터렉션을 생성할 수 있다.

시나리오 생성 모듈(121)은 인터렉션 시나리오로부터 표정, 감정 및 행동의 지문 각각에 대해 태그를 생성하여 표정, 감정 및 행동의 지문 각각에 할당할 수 있으며, 복수의 시퀀스들을 할당함으로써 입력 데이터를 생성할 수 있고, 버추얼 휴먼은 생성된 입력 데이터를 기반으로 행동 또는 연기를 할 수 있다.

도 1 및 도 2를 함께 참조하면, 극사실 디지털 휴먼 생성 모듈(130)은 3D 촬영 모듈(131), 딥페이크(Deep Fake) 모듈(132), 대역 배우 촬영 모듈(133), 합성 블렌딩 모듈(134), TTS(Text-to-Speech) 모듈(135)을 포함할 수 있다. 극사실 디지털 휴먼 생성 모듈(130)은 스토리라인 생성 모듈(120)에서 생성된 입력 데이터를 가공하여 표정 데이터 및 행동 데이터를 생성할 수 있고, 생성된 표정 데이터 및 행동 데이터를 이용하여 버추얼 휴먼 인터렉션 정보를 생성할 수 있다.

3D 촬영 모듈(131)은 인물의 얼굴, 몸 이미지를 3D로 촬영할 수 있다. 딥페이크 모듈(132)은 컴퓨터 그래픽 또는 인공지능 기술에 의해 만들어진 실제로는 존재하지 않는 원본(source) 이미지를 목표(target) 이미지로 바꾸어 가짜 이미지를 생성 할 수 있다. 대역 배우 촬영 모듈(133)은 대역 배우의 얼굴, 몸 이미지를 촬영할 수 있다. 합성 블렌딩 모듈(134)은 대역 배우의 얼굴에 원하는 배우의 얼굴을 합성할 수있다. 합성 기법에는 블랜드 쉐입(blend-shape) 기법과 직접 변형 기법(direct deformation)을 하이브리드(hybride)하는 방식으로 버추얼 휴먼의 표정을 변형할 수 있다. 여기서, 블랜드 쉐입 기법은 버추얼 휴먼의 샘플 표정들을 미리 정의하여 표정셋으로 미리 설정한 후, 샘플 표정들을 합성하여 실제 표정과 유사한 새로운 표정을 생성하는 기법에 해당한다. 또한, 직접 변형 기법은 실제 3차원 모션 정보를 버추얼 휴먼에 직접 적용하여, 버추얼 휴먼의 표정을 표현하는 기법에 해당한다. TTS(Text-to-Speech) 모듈(135)은 텍스트 데이터를 음성 데이터로 변환할 수 있다. TSS 모듈(135)은 텍스트 데이터에 대응하는 음성 데이터를 생성할 수 있다.

이하 도면을 참조하여, 버추얼 휴먼을 생성하는 방법 및 버추얼 휴먼 인턱렉션 정보를 생성하는 방법에 대해 구체적으로 후술하도록 한다.

도 3은 본 개시의 예시적인 실시예에 따른 버추얼 휴먼 생성 방법을 나타내는 순서도이다.

도 3을 참조하면, 사용자 단말(200)은 버추얼 휴먼 생성 장치(100)에 음성 데이터 및 텍스트 데이터를 제공 또는 전송할 수 있다(S101). 예를 들어, 도 1 및 도 2에 도시된 버추얼 휴먼 생성 장치(100)의 데이터 처리 모듈(110)이 음성 데이터 및 텍스트 데이터를 수신할 수 있다.

버추얼 휴먼 생성 장치(100)는 음성 데이터를 텍스트 데이터로 변환할 수 있다(S102). 예를 들어, 도 2에 도시된 STT 모듈(111)은 사용자 단말(200)로부터 수신한 음성 데이터를 텍스트 데이터로 변환할 수 있다. STT 모듈(111)은 음성 데이터에 대응하는 텍스트 데이터를 생성할 수 있다.

버추얼 휴먼 생성 장치(100)는 텍스트 데이터를 저장 및 분석할 수 있다(S103). 예를 들어, 도 2에 도시된 DB 적재/분석 모듈(113)은 텍스트 데이터를 저장 및/또는 분석할 수 있다. DB 적재/분석 모듈(113)은 STT 모듈(111)에서 변환 및/또는 생성된 텍스트 데이터, 텍스트 마이닝 모듈(112)에서 추출된 텍스트 데이터 등 모두를 포함할 수 있다.

버추얼 휴먼 생성 장치(100)는 인터렉티브 시나리오를 생성할 수 있다(S104). 예를 들어, 도 2에 도시된 시나리오 생성 모듈(121)은 데이터 처리 모듈(110)에서 제공된 텍스트 데이터를 이용하여 인터렉션 시나리오를 생성할 수 있다. 여기서 인터렉션 시나리오란 영화, 드라마 등의 시나리오와 같이 표정, 감정 및 행동의 지문이 모두 포함되어 있는 시나리오를 지칭할 수 있고, 표정, 행동 등이 혼합된 실감나는 시나리오를 포함할 수 있다.

버추얼 휴먼 생성 장치(100)는 입력 데이터를 생성할 수 있다(S105). 예를 들어, 도 2에 도시된 태그 생성 모듈(122)은 인터렉션 시나리오로부터 씬별, 상황별, 감정별 등의 대사 및 행동 지문의 태그를 생성할 수 있다. 태그를 생성하는 것은 표정 지문 및 행동 지문을 포함하는 입력 데이터를 생성할 수 있는 것을 포함할 수 있다.

버추얼 휴먼 생성 장치(100)는 정보값(입력값)을 생성할 수 있다(S106). 예를 들어, 도 2에 도시된 극사실 디지털 휴먼 생성 모듈(130)은 스토리라인 생성 모듈(120)에서 생성된 입력 데이터를 가공하여 표정 데이터 및 행동 데이터를 생성할 수 있고, 생성된 표정 데이터 및 행동 데이터를 이용하여 버추얼 휴먼 인터렉션 정보를 생성할 수 있다.

버추얼 휴먼 생성 장치(100)는 버추얼 휴먼을 생성할 수 있다(S107). 예를 들어, 도 2에 도시된 극사실 디지털 휴먼 생성 모듈(130)은 가공된 입력값을 기초로 하여 버추얼 휴먼을 생성할 수 있고, 버추얼 휴먼의 표정 및 행동을 변화시킬 수 있다.

버추얼 휴먼 생성 장치(100)는 생성한 버추얼 휴먼을 사용자 단말(200)에 전송할 수 있다(S108).

여기서, 버추얼 휴먼을 생성하는 방법은 상기 순서에 제한되지 않는다. 또한, 버추얼 휴먼의 표정 및 행동을 변화시키는 구체적인 방법에 대해서는 이하의 도면을 참조하여 후술하기로 한다.

도 4는 본 개시의 예시적인 실시예에 따른 인터렉티브 시나리오를 나타내는 도면이다.

도 4를 참조하면, 인터렉션 시나리오는 지시문 및 대사를 포함할 수 있다. 지시문은 표정 지문일 수 있고, 행동 지문은 대사일 수 있다. 버추얼 휴먼 생성 장치(100)는 표정 지문 및 행동 지문을 이용하여 얼굴 영역 및 행동 영역을 인식할 수 있다. 버추얼 휴먼 생성 장치(100)는 얼굴 영역으로부터 추출한 특징점들로부터 벡터값(벡터 정보)를 생성할 수 있다. 버추얼 휴먼 생성 장치(100)는 벡터 정보를 이용하여 버추얼 휴먼 인터렉션 정보를 생성할 수 있다. 버추얼 휴먼 생성 장치(100)는 행동 영역으로부터 추출한 특징점들로부터 인물 인디케이터 및 감정 표현 대사값을 생성할 수 있다. 버추얼 휴먼 생성 장치(100)는 인물 인디케이터 및 감정 표현 대사값을 이용하여 버추얼 휴먼 인터렉션 정보를 생성할 수 있다.

또한, 인터렉션 시나리오는 표정 데이터 및 행동 데이터를 포함할 수 있다. 표정 데이터는 얼굴 영역으로부터 추출한 특징점들을 추출한 텍스트 정보를 포함할 수 있다. 예를 들어, 표정 데이터는 3차원 공간상 위치를 나타내는 제1 텍스트 정보 및 3차원 공간상 회전량 및 이동량을 나타내는 제2 텍스트 정보를 포함할 수 있다. 예를 들어, 제1 텍스트 정보는 직접 감정 표시값일 수 있고, 제2 텍스트 정보는 간접 감정 표시값일 수 있다. 제1 텍스트 정보는 얼굴 영역의 특징점들을 변화시킬 수 있다.

벡터 정보는 제1 텍스트 정보 및 제2 텍스트 정보를 포함할 수 있다. 버추얼 휴먼 생성 장치(100)는 제1 텍스트 정보를 포함하는 벡터 정보를 제어함으로써 얼굴 영역의 표정을 변형한 버추얼 휴먼을 생성할 수 있고, 버추얼 휴먼 인터렉션 정보를 생성할 수 있다. 벡터 정보를 제어함으로써 실시간으로 버추얼 휴먼의 표정 변화 또는 행동 변화를 제공할 수 있다. 표정 지문 또는 표정 데이터를 이용하여 버추얼 휴먼의 표정을 변화시키는 방법은 이하 도 5 및 도 6을 참조하여 후술하기로 한다.

다시 도 4를 참조하면, 행동 데이터는 행동 영역의 3차원 공간상 위치를 나타내는 인물 인디케이터 및 목소리를 나타내는 감정 표현 대사값을 포함할 수 있다. 예를 들어, 행동 데이터는 대사에 포함된 인물(객체)인 인물 인디케이터 및 목소리의 주파수, 높낮이, 크기, 떨림 등을 포함하는 감정 표현 대사값을 포함할 수 있다.

버추얼 휴먼 생성 장치(100)는 인물 인디케이터 및 감정 표현 대사값을 제어할 수 있다. 버추얼 휴먼 생성 장치(100)는 인물 인디케이터 및 감정 표현 대사값을 제어함으로써 행동 영역의 행동을 변형한 버추얼 휴먼을 생성할 수 있고, 버추얼 휴먼 인터렉션 정보를 생성할 수 있다. 인물 인디케이터 및 감정 표현 대사값을 제어함으로써 실시간으로 버추얼 휴먼의 표정 변화 또는 행동 변화를 제공할 수 있다. 행동 지문 또는 행동 데이터를 이용하여 버추얼 휴먼의 행동을 변화시키는 방법은 이하 도 7 및 도 8을 참조하여 후술하기로 한다.

즉, 버추얼 휴먼 생성 장치(100)는 표정 지문 및 행동 지문을 이용하여 얼굴 영역 및 행동 영역을 인식하고, 상기 얼굴 영역으로부터 추출한 특징점들로부터 벡터 정보를 생성할 수 있다. 버추얼 휴먼 생성 장치(100)는 벡터 정보를 이용하여 버추얼 휴먼 인터렉션 정보를 생성할 수 있다.

도 5 및 도 6은 본 개시의 예시적인 실시예에 따른 버추얼 휴먼 생성 장치에 의한 표정 변화를 나타내는 순서도이다.

도 5를 참조하면, 버추얼 휴먼 생성 장치(100)는 특징점들을 추출하고, 특징점을 이용하여 벡터 값을 생성할 수 있다(S200). 예를 들어, 버추얼 휴먼 생성 장치(100)는 얼굴 영역으로부터 추출한 특징점들로부터 벡터값(벡터 정보)를 생성할 수 있다. 버추얼 휴먼 생성 장치(100)는 벡터 정보를 이용하여 버추얼 휴먼 인터렉션 정보를 생성할 수 있다. 또한, 인터렉션 시나리오는 표정 데이터를 포함할 수 있다. 표정 데이터는 얼굴 영역으로부터 추출한 특징점들을 추출한 텍스트 정보를 포함할 수 있다. 예를 들어, 표정 데이터는 3차원 공간상 위치를 나타내는 제1 텍스트 정보 및 3차원 공간상 회전량 및 이동량을 나타내는 제2 텍스트 정보를 포함할 수 있다. 예를 들어, 제1 텍스트 정보는 직접 감정 표시값일 수 있고, 제2 텍스트 정보는 간접 감정 표시값일 수 있다. 제1 텍스트 정보는 얼굴 영역의 특징점들을 변화시킬 수 있다.

버추얼 휴먼 생성 장치(100)는 벡터 값을 이용하여 표정 및 포즈를 모사하도록, 버추얼 휴먼의 얼굴 영역의 표정을 변형할 수 있다(S300). 예를 들어, 벡터 정보는 제1 텍스트 정보 및 제2 텍스트 정보를 포함할 수 있다. 버추얼 휴먼 생성 장치(100)벡터 정보를 제어함으로써 얼굴 영역의 표정을 변형한 버추얼 휴먼을 생성할 수 있고, 버추얼 휴먼 인터렉션 정보를 생성할 수 있다. 벡터 정보를 제어함으로써 실시간으로 버추얼 휴먼의 표정 변화 또는 행동 변화를 제공할 수 있다.

도 6을 참조하면, 버추얼 휴먼 생성 장치(100)는 얼굴 이미지로부터 얼굴 영역 검출하고, 얼굴 영역으로부터 특징점들 추출할 수 있다(S210).

버추얼 휴먼 생성 장치(100)는 특징점들의 3차원 공간상의 위치를 나타내는 위치 정보를 나타내는 제1 텍스트 정보 및 3차원 공간상의 회전량 및 이동량을 나타내는 제2 텍스트 정보를 포함하는 벡터 값을 생성할 수 있다(S220).

버추얼 휴먼 생성 장치(100)는 벡터 값을 이용하여, 특징점들을 3차원으로 복원한 3차원 특징점을 생성할 수 있다(S230).

버추얼 휴먼 생성 장치(100)는 표정셋과 샘플 표정을 합성한 3차원 특징점에 해당하는 합성 표정 생성할 수 있다(S240).

버추얼 휴먼 생성 장치(100)는 직접 변형 기법으로 버추얼 휴먼 최종 표정 생성할 수 있다(S250). 여기서, 버추얼 휴먼을 생성하는 방법은 상기 순서에 제한되지 않는다.

도 7 및 도 8은 본 개시의 예시적인 실시예에 따른 버추얼 휴먼 생성 장치에 의한 행동 변화를 나타내는 순서도이다.

도 7을 참조하면, 버추얼 휴먼 생성 장치(100)는 텍스트를 추출하여, 인물 인디케이터 및 감정 표현 대사값 생성할 수 있다(S400). 예를 들어, 버추얼 휴먼 생성 장치(100)는 행동 지문을 이용하여 행동 영역을 인식할 수 있다. 버추얼 휴먼 생성 장치(100)는 행동 영역으로부터 추출한 특징점들로부터 인물 인디케이터 및 감정 표현 대사값을 생성할 수 있다. 버추얼 휴먼 생성 장치(100)는 인물 인디케이터 및 감정 표현 대사값을 이용하여 버추얼 휴먼 인터렉션 정보를 생성할 수 있다. 또한, 인터렉션 시나리오는 행동 데이터를 포함할 수 있다. 행동 데이터는 행동 영역의 3차원 공간상 위치를 나타내는 인물 인디케이터 및 목소리를 나타내는 감정 표현 대사값을 포함할 수 있다. 예를 들어, 행동 데이터는 대사에 포함된 인물(객체)인 인물 인디케이터 및 목소리의 주파수, 높낮이, 크기, 떨림 등을 포함하는 감정 표현 대사값을 포함할 수 있다.

버추얼 휴먼 생성 장치(100)는 인물 인디케이터 및 감정 표현 대사값을 이용하여 버추얼 휴먼의 행동 영역의 행동 변형할 수 있다(S500). 예를 들어, 버추얼 휴먼 생성 장치(100)는 인물 인디케이터 및 감정 표현 대사값을 제어할 수 있다. 버추얼 휴먼 생성 장치(100)는 인물 인디케이터 및 감정 표현 대사값을 제어함으로써 행동 영역의 행동을 변형한 버추얼 휴먼을 생성할 수 있고, 버추얼 휴먼 인터렉션 정보를 생성할 수 있다. 인물 인디케이터 및 감정 표현 대사값을 제어함으로써 실시간으로 버추얼 휴먼의 표정 변화 또는 행동 변화를 제공할 수 있다.

도 8을 참조하면, 버추얼 휴먼 생성 장치(100)는 행동 영역(시나리오) 검출하고, 행동 영역으로부터 텍스트 추출할 수 있다(S410).

버추얼 휴먼 생성 장치(100)는 행동 영역의 3차원 공간상 위치를 나타내는 인물 인디케이터 및 목소리를 나타내는 감정 표현 대사값을 생성할 수 있다(S420).

버추얼 휴먼 생성 장치(100)는 인물 인디케이터 및 목소리를 나타내는 감정 표현 대사값을 이용하여 3차원으로 복원한 3차원 행동 특징점들을 생성할 수 있다(S430).

버추얼 휴먼 생성 장치(100)는 행동셋과 샘플 행동을 합성한 3차원 행동 특징점에 해당하는 합성 행동 생성할 수 있다(S440).

버추얼 휴먼 생성 장치(100)는 직접 변형 기법으로 버추얼 휴먼 최종 행동 생성할 수 있다(S450). 여기서, 버추얼 휴먼을 생성하는 방법은 상기 순서에 제한되지 않는다.

본 개시의 실시예들은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함할 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

이상에서와 같이 도면과 명세서에서 예시적인 실시예들이 개시되었다. 본 명세서에서 특정한 용어를 사용하여 실시예들을 설명되었으나, 이는 단지 본 개시의 기술적 사상을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 개시의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 개시의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

사용자 단말과 통신하여 버추얼 휴먼 인터렉션 정보를 생성하는 버추얼 휴먼 생성 장치에 있어서,
상기 사용자 단말로부터 텍스트 데이터를 수신하여, 상기 텍스트 데이터를 분석하는 데이터 처리 모듈;
상기 분석된 텍스트 데이터를 이용하여, 인터렉션 시나리오를 생성하고, 생성된 인터렉션 시나리오의 지시문에 대응되는 표정 지문 및 상기 생성된 인터렉션 시나리오의 대사에 대응되는 행동 지문을 포함하는 입력 데이터를 생성하는 스토리라인 생성 모듈; 및
상기 입력 데이터를 가공하여 표정 데이터 및 행동 데이터를 생성하고, 상기 생성된 표정 데이터 및 행동 데이터를 이용하여 버추얼 휴먼 인터렉션 정보를 생성하는 극사실 디지털 휴먼 모듈을 포함하고,
상기 극사실 디지털 휴먼 모듈은,
상기 표정 지문을 이용하여 얼굴영역을 식별하며, 상기 행동 지문을 이용하여 행동 영역을 인식하고, 상기 대사에 포함된 인물을 나타내는 인물 인디케이터를 생성하며, 상기 대사에 포함된 텍스트로부터 감정표현 대사값 및 감정표현 인디케이터를 생성하고, 상기 인물 인디케이터 및 상기 감정 표현 대사값을 이용하여 3차원 행동 특징점들을 생성하고, 행동셋과 샘플 행동을 합성하여 상기 3차원 행동 특징점에 해당하는 합성 행동을 생성함으로써 버추얼 휴먼의 행동 변화를 제공하며, 상기 감정표현 인디케이터에 기초하여 상기 감정 표현 대사값에 대응하는 목소리의 주파수, 높낮이, 크기, 및 떨림을 제어하고, 상기 지시문을 구성하는 제1 텍스트 및 제2 텍스트로부터 각각 직접 감정 표시값 및 간접 감정 표시값을 식별하여, 상기 직접 감정 표시값으로부터 신체 부위를 식별하고, 상기 식별된 신체 부위를 구성하는 특징점의 일부 벡터 값을 조정하며, 상기 간접 감정 표시값에 기반하여 상기 3차원 행동 특징점을 조절하는 것을 특징으로 하는, 버추얼 휴먼 생성 장치.
제1 항에 있어서,
상기 버추얼 휴먼 생성 장치는,
상기 얼굴영역으로부터 추출한 특징점들로부터 벡터 정보를 생성하여, 상기 벡터 정보를 이용하여, 버추얼 휴먼 인터렉션 정보를 생성하는 버추얼 휴먼 생성 장치.
제2 항에 있어서,
상기 표정 데이터는,
상기 특징점들의 3차원 공간상 위치를 나타내는 상기 제1 텍스트 정보 및 상기 얼굴영역의 3차원 공간상 회전량 및 이동량을 나타내는 상기 제2 텍스트 정보를 포함하는 벡터 정보를 포함하고,
상기 벡터 정보를 제어하여, 상기 얼굴영역의 표정을 변형한 버추얼 휴먼 인터렉션 정보를 생성하는 것을 특징으로 하는 버추얼 휴먼 생성 장치.
제2 항에 있어서,
상기 극사실 디지털 휴먼 모듈은,
상기 인물 인디케이터 및 상기 감정 표현 대사값을 제어하여, 상기 행동영역의 행동을 변형한 버추얼 휴먼 인터렉션 정보를 생성하는 것을 특징으로 하는 버추얼 휴먼 생성 장치.
삭제
버추얼 휴먼 인터렉션 정보를 생성하는 버추얼 휴먼 생성 방법에 있어서,
텍스트 데이터를 수신하는 단계;
상기 텍스트 데이터를 분석하는 단계;
상기 분석된 텍스트 데이터를 이용하여, 인터렉션 시나리오를 생성하는 단계;
상기 생성된 인터렉션 시나리오의 지시문에 대응되는 표정 지문 및 상기 생성된 인터렉션 시나리오의 대사에 대응되는 행동 지문을 포함하는 입력 데이터를 생성하는 단계;
상기 입력 데이터를 가공하여 표정 데이터 및 행동 데이터를 포함하는 입력 값을 생성하는 단계; 및
상기 입력값을 이용하여 버추얼 휴먼 인터렉션 정보를 생성하는 단계를 포함하고,
상기 입력 값을 생성하는 단계는,
상기 표정 지문을 이용하여 얼굴 영역을 식별하는 단계;
상기 행동 지문을 이용하여 행동 영역을 식별하는 단계;
상기 대사에 포함된 인물을 나타내는 인물 인디케이터를 생성하는 단계;
상기 대사에 포함된 텍스트로부터 감정표현 대사값 및 감정표현 인디케이터를 생성하는 단계;
상기 인물 인디케이터 및 상기 감정표현 대사값을 이용하여 3차원 행동 특징점들을 생성하는 단계;
상기 지시문을 구성하는 제1 텍스트 및 제2 텍스트로부터 각각 직접 감정 표시값 및 간접 감정 표시값을 식별하는 단계;
상기 직접 감정 표시값으로부터 신체 부위를 식별하는 단계
를 포함하고,
상기 버추얼 휴먼 인터렉션 정보를 생성하는 단계는,
행동 셋과 샘플 행동을 합성하여 상기 3차원 행동 특징점에 해당하는 합성 행동을 생성함으로써 버추얼 휴면의 행동 변화를 제공하는 단계;
상기 감정표현 인디케이터에 기초하여 상기 감정 표현 대사값에 대응하는 목소리의 주파수, 높낮이, 크기, 및 떨림을 제어하는 단계;
상기 식별된 신체 부위를 구성하는 특징점의 일부 벡터 값을 조정하는 단계; 및
상기 간접 감정 표시값에 기반하여 상기 3차원 행동 특징점을 조절하는 단계
를 포함하는 것을 특징으로 하는 버추얼 휴먼 생성 방법.
제6 항에 있어서,
상기 버추얼 휴먼 생성 방법은,
상기 표정 지문 및 상기 행동 지문을 이용하여 얼굴영역 및 행동영역을 인식하는 단계;
상기 얼굴영역으로부터 추출한 특징점들로부터 벡터 정보를 생성하는 단계;
상기 벡터 정보를 이용하여, 버추얼 휴먼 인터렉션 정보를 생성하는 단계를 더 포함하는 버추얼 휴먼 생성 방법.