KR102601159B1 - 버추얼 휴먼 인터렉션 생성 장치 및 그에 대한 방법 - Google Patents

버추얼 휴먼 인터렉션 생성 장치 및 그에 대한 방법 Download PDF

Info

Publication number
KR102601159B1
KR102601159B1 KR1020220125579A KR20220125579A KR102601159B1 KR 102601159 B1 KR102601159 B1 KR 102601159B1 KR 1020220125579 A KR1020220125579 A KR 1020220125579A KR 20220125579 A KR20220125579 A KR 20220125579A KR 102601159 B1 KR102601159 B1 KR 102601159B1
Authority
KR
South Korea
Prior art keywords
virtual human
data
text
behavioral
behavior
Prior art date
Application number
KR1020220125579A
Other languages
English (en)
Inventor
채수응
Original Assignee
주식회사 아리아스튜디오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 아리아스튜디오 filed Critical 주식회사 아리아스튜디오
Priority to KR1020220125579A priority Critical patent/KR102601159B1/ko
Application granted granted Critical
Publication of KR102601159B1 publication Critical patent/KR102601159B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8541Content authoring involving branching, e.g. to different story endings
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8545Content authoring for generating interactive applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Telephone Function (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

버추얼 휴먼 인터렉션 생성 장치 및 그에 대한 방법이 제공된다. 본 개시의 기술적 사상에 따른 사용자 단말과 통신하여 버추얼 휴먼 인터렉션 정보를 생성하는 버추얼 휴먼 생성 장치에 있어서, 상기 사용자 단말로부터 음성 데이터 및 상기 텍스트 데이터를 수신하여, 상기 음성 데이터를 상기 텍스트 데이터로 변환하고, 상기 텍스트 데이터를 분석하는 데이터 처리 모듈, 상기 분석된 텍스트 데이터를 이용하여, 인터렉션 시나리오를 생성하고, 생성된 인터렉션 시나리오로부터 표정 지문 및 행동 지문을 포함하는 입력 데이터를 생성하는 스토리라인 생성 모듈, 상기 입력 데이터를 가공하여 표정 데이터 및 행동 데이터를 생성하고, 상기 생성된 표정 데이터 및 행동 데이터를 이용하여 버추얼 휴먼 인터렉션 정보를 생성하는 극사실 디지털 휴먼 모듈을 포함할 수 있다.

Description

버추얼 휴먼 인터렉션 생성 장치 및 그에 대한 방법{VIRTUAL HUMAN INTERACTION GENERATING DEVICE AND METHOD THEROF}
본 개시의 기술적 사상은 인공지능 기반의 버추얼 휴먼 인터렉션 생성 장치 및 그에 대한 방법에 관한 것으로, 구체적으로는 시나리오를 기반으로 인터렉티브(interactive)한 버추얼 휴먼을 생성하고, 버추얼 휴먼이 상황에 맞게 변화하는 버추얼 휴먼 인터렉션 생성 장치 및 방법에 관한 것이다.
일반적인 화보집은 책자 형태의 2차원적인 간행물 또는 디지털화된 디지털 화보집을 애플리케이션으로 지원하는 형태가 대부분이다. 한편, 스마트폰이 보급되면서 배우, 모델 등과 같은 연예인의 디지털 화보집뿐만 아니라, 소셜 네트워킹 서비스(SNS)를 통해 공유되는 크리에이터 또는 인플루언서의 컨텐츠의 인기가 높아지고 있다.
일반적으로 인플루언서는 사회 또는 대중에게 영향력을 크게 미치는 사람으로서, 특히 유튜브, 인스타그램, 페이스북 등과 같은 SNS에서 활동하면서 팬덤 또는 다수의 팔로워를 가지고 있는 사람을 지칭한다. 인플루언서는, SNS 플랫폼 상에서 얻은 인기 또는 대중적인 영향력에 기반하여, 동영상 등과 같은 다양한 컨텐츠를 제작, 공유 및 판매함으로써 금전적인 수익을 창출하기도 한다. 하지만, 이러한 인플루언서에 대한 인기에 기반하여 공유되는 컨텐츠는 인플루언서가 직접 제작한 이미지 또는 동영상에 제한될 수 있다.
최근 인공지능 기술의 발달로 인공지능을 이용한 자연어 처리 기술, 음성 처리 기술과 그래픽 처리 기술을 이용한 버추얼 휴먼이 콘텐츠 시장에서 각광을 받고 있다. 이때, 이러한 버추얼 휴먼 기술에서 그래픽 처리 기술은 Style Transfer, StyleGAN, ObamaNet과 같은 GAN 기술의 발달로 버추얼 휴먼의 그래픽을 상당히 자연스럽게 서비스할 수 있게 되었고, 음성 처리 기술은 Tacotron, Attention is all you need 등의 딥러닝 음성 합성 기술의 발달로 버추얼 휴먼의 음성을 자연스럽게 서비스할 수 있게 되었다. 하지만, 버추얼 휴먼의 인터렉션과 관련된 기술은 그래픽 처리 기술이나 음성 처리 기술에 비해 그 진보가 미약한 상황이다.
본 개시의 기술적 사상은 인터렉티브 시나리오를 바탕으로 버추얼 휴먼을 생성하고, 생성된 버추얼 휴먼이 실제 사람과 같이 표정 변화 또는 행동 변화 등을 수행하는데 있다.
본 개시의 기술적 사상에 따른 사용자 단말과 통신하여 버추얼 휴먼 인터렉션 정보를 생성하는 버추얼 휴먼 생성 장치에 있어서, 상기 사용자 단말로부터 음성 데이터 및 상기 텍스트 데이터를 수신하여, 상기 음성 데이터를 상기 텍스트 데이터로 변환하고, 상기 텍스트 데이터를 분석하는 데이터 처리 모듈; 상기 분석된 텍스트 데이터를 이용하여, 인터렉션 시나리오를 생성하고, 생성된 인터렉션 시나리오로부터 표정 지문 및 행동 지문을 포함하는 입력 데이터를 생성하는 스토리라인 생성 모듈; 상기 입력 데이터를 가공하여 표정 데이터 및 행동 데이터를 생성하고, 상기 생성된 표정 데이터 및 행동 데이터를 이용하여 버추얼 휴먼 인터렉션 정보를 생성하는 극사실 디지털 휴먼 모듈을 포함할 수 있다.
본 개시의 기술적 사상에 따른 버추얼 휴먼 생성 장치는 상기 표정 지문 및 상기 행동 지문을 이용하여 얼굴영역 및 행동영역을 인식하고, 상기 얼굴영역으로부터 추출한 특징점들로부터 벡터 정보를 생성하여, 상기 벡터 정보를 이용하여, 버추얼 휴먼 인터렉션 정보를 생성할 수 있다.
본 개시의 기술적 사상에 따른 버추얼 휴먼 생성 장치의 상기 표정 데이터는 상기 특징점들의 3차원 공간상 위치를 나타내는 제1 텍스트 정보 및 상기 얼굴영역의 3차원 공간상 회전량 및 이동량을 나타내는 제2 텍스트 정보를 포함하는 벡터 정보를 포함할 수 있고, 상기 벡터 정보를 제어하여, 상기 얼굴영역의 표정을 변형한 버추얼 휴먼 인터렉션 정보를 생성할 수 있다.
본 개시의 기술적 사상에 따른 버추얼 휴먼 생성 장치의 상기 행동 데이터는, 상기 행동영역의 3차원 공간상 위치를 나타내는 인물 인디케이터 및 목소리를 나타내는 감정 표현 대사값을 포함할 수 있고, 상기 인물 인디케이터 및 상기 감정 표현 대사값을 제어하여, 상기 행동영역의 행동을 변형한 버추얼 휴먼 인터렉션 정보를 생성할 수 있다.
본 개시의 기술적 사상에 따른 버추얼 휴먼 생성 장치의 상기 인터렉션 시나리오는 지시문 및 대사를 포함할 수 있고, 상기 표정 지문은 지시문이고, 상기 행동 지문은 대사이고, 상기 제1 텍스트 정보는 직접 감정 표시값이고, 상기 제2 텍스트 정보는 간접 감정 표시값일 수 있다.
본 개시의 기술적 사상에 따른 사용자 단말과 통신하여 버추얼 휴먼 인터렉션 정보를 생성하는 버추얼 휴먼 생성 방법에 있어서, 상기 사용자 단말로부터 음성 데이터 및 상기 텍스트 데이터를 수신하는 단계; 상기 음성 데이터를 상기 텍스트 데이터로 변환하고, 상기 텍스트 데이터를 분석하는 단계; 상기 분석된 텍스트 데이터를 이용하여, 인터렉션 시나리오를 생성하는 단계; 상기 생성된 인터렉션 시나리오로부터 표정 지문 및 행동 지문을 포함하는 입력 데이터를 생성하는 단계; 상기 입력 데이터를 가공하여 표정 데이터 및 행동 데이터를 포함하는 입력 값을 생성하는 단계; 및 상기 입력값을 이용하여 버추얼 휴먼 인터렉션 정보를 생성하는 단계를 포함할 수 있다.
본 개시의 기술적 사상에 따른 버추얼 휴먼 생성 방법은 상기 표정 지문 및 상기 행동 지문을 이용하여 얼굴영역 및 행동영역을 인식하는 단계; 상기 얼굴영역으로부터 추출한 특징점들로부터 벡터 정보를 생성하는 단계; 상기 벡터 정보를 이용하여, 버추얼 휴먼 인터렉션 정보를 생성하는 단계를 더 포함할 수 있다.
본 개시의 기술적 사상에 따른 버추얼 휴먼 생성 방법의 상기 표정 지문을 이용하여 얼굴영역을 인식하는 단계는, 상기 특징점들의 3차원 공간상 위치를 나타내는 제1 텍스트 정보를 인식하는 단계; 상기 얼굴영역의 3차원 공간상 회전량 및 이동량을 나타내는 제2 텍스트 정보를 인식하는 단계; 상기 제1 텍스트 정보 및 상기 제2 텍스트 정보를 이용하여 벡터 정보를 생성하는 단계; 상기 벡터 정보를 제어하여, 상기 얼굴영역의 표정을 변형한 버추얼 휴먼 인터렉션 정보를 생성하는 단계를 포함할 수 있다.
본 개시의 기술적 사상에 따른 버추얼 휴먼 생성 방법의 상기 행동 지문을 이용하여 행동 영역을 인식하는 단계는, 상기 행동영역의 3차원 공간상 위치를 나타내는 인물 인디케이터를 인식하는 단계; 상기 행동영역의 목소리를 나타내는 감정 표현 대사값을 인식하는 단계; 상기 인물 인디케이터 및 상기 감정 표현 대사값을 제어하여, 상기 행동영역의 행동을 변형한 버추얼 휴먼 인터렉션 정보를 생성하는 단계를 포함할 수 있다.
본 개시의 기술적 사상에 따른 버추얼 휴먼 생성 방법은 상기 인터렉션 시나리오는 지시문 및 대사를 포함하고, 상기 표정 지문은 지시문이고, 상기 행동 지문은 대사이고, 상기 제1 텍스트 정보는 직접 감정 표시값이고, 상기 제2 텍스트 정보는 간접 감정 표시값일 수 있다.
본 개시의 기술적 사상에 따른 버추얼 휴먼 인터렉션 생성 장치 및 그에 대한 방법은 인터렉티브 시나리오를 바탕으로 버추얼 휴먼을 생성하고, 생성된 버추얼 휴먼이 실제 사람과 같이 표정 변화 또는 행동 변화 등을 수행할 수 있다.
본 개시의 기술적 사상에 따른 버추얼 휴먼 인터렉션 생성 장치 및 그에 대한 방법은 실시간으로 버추얼 휴면의 표정 변화 또는 행동 변화를 제공하는 것이 가능하다.
도 1은 본 개시의 예시적인 실시예에 따른 버추얼 휴먼 인터렉션 생성 시스템을 나타내는 블록도이다.
도 2는 본 개시의 예시적인 실시예에 따른 버추얼 휴먼 생성 장치를 나타내는 블록도이다.
도 3은 본 개시의 예시적인 실시예에 따른 버추얼 휴먼 생성 방법을 나타내는 순서도이다.
도 4는 본 개시의 예시적인 실시예에 따른 인터렉티브 시나리오를 나타내는 도면이다.
도 5 및 도 6은 본 개시의 예시적인 실시예에 따른 버추얼 휴먼 생성 장치에 의한 표정 변화를 나타내는 순서도이다.
도 7 및 도 8은 본 개시의 예시적인 실시예에 따른 버추얼 휴먼 생성 장치에 의한 행동 변화를 나타내는 순서도이다.
이하, 첨부한 도면을 참조하여 본 개시의 실시예에 대해 상세히 설명한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 '연결'되어 있다고 할 때, 이는 '직접적으로 연결'되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 '간접적으로 연결'되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 '포함'한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 또한, 명세서에 기재된 "~부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 개시의 예시적인 실시예에 따른 버추얼 휴먼 인터렉션 생성 시스템을 나타내는 블록도이다.
도 1을 참조하면, 버추얼 휴먼 인터렉션 생성 시스템(10)은 사용자 단말(200) 및 버추얼 휴먼 생성 장치(100)를 포함할 수 있다. 버추얼 휴먼 생성 장치(100)는 데이터 처리 모듈(110), 스토리라인 생성 모듈(120) 및 극사실 디지털 휴먼 생성 모듈(130)을 포함할 수 있다.
사용자 단말(200)은 유선 또는 무선 네트워크를 통하여 음성 데이터 및 텍스트 데이터를 버추얼 휴먼 생성 장치(100)에 제공할 수 있다. 유선 또는 무선 네트워크는 설치 환경에 따라, 예를 들어, 이더넷(Ethernet), 유선 홈 네트워크(Power Line Communication), 전화선 통신 장치 및 RS-serial 통신 등의 유선 네트워크, 이동통신망, WLAN(Wireless LAN), Wi-Fi, Bluetooth 및 ZigBee, TCP/IP 5G 등과 같은 무선 네트워크 또는 그 조합으로 구성될 수 있다. 통신 방식은 제한되지 않으며, 네트워크가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망, 위성망 등)을 활용하는 통신 방식뿐만 아니라 사용자 단말(200) 사이의 근거리 무선 통신 역시 포함될 수 있다. 일 예로, 사용자 단말(200)은 시나리오를 취급하는 작가 또는 프로듀서에 의해 제어될 수 있고, 다른 예로, 사용자 단말(200)은 관객에 의해 제어될 수도 있다.
일 예로, 버추얼 휴먼 생성 장치(100)에 제공되는 텍스트 데이터는 시나리오 작가, 연출가, 프로듀서 등 버추얼 휴먼을 생성하기를 의도하는 자에 의해 작성된 초안 형태의 텍스트 데이터일 수 있다. 다른 예로 버추얼 휴먼 생성 장치(100)에 제공되는 음성 데이터 및 텍스트 데이터는 예를들어, 관객 리액션 등과 같은 음성 데이터, 디스플레이에 표시되는 댓글, 채팅, SNS 등과 같은 텍스트 데이터를 포함할 수 있다. 음성 데이터 및 텍스트 데이터는 제한되지 않으며 모든 음성 데이터 및 텍스트 데이터 등을 포함할 수 있다. 예컨대, 버추얼 휴먼 생성 장치(100)는 서버 장치로 구현될 수 있다.
여기서, 사용자 단말(200)은 이동 통신 단말일 수 있다. 즉, 사용자 단말(200)은 정보의 송수신을 위한 통신모듈, 프로그램 및 프로토콜을 저장하는 메모리, 각종 프로그램을 실행하여 연산 및 제어하기 위한 마이크로프로세서 등을 구비할 수 있다. 예를 들어, 사용자 단말(200)은 스마트 폰(smart phone), 태블릿 PC(Tablet PC), 노트북, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), MP3 Player, 웨어러블 디바이스(wearable device, 예를 들어, 워치형 단말기 (smartwatch), 글래스형 단말기 (smart glass), HMD(head mounted display)), 디지털 카메라, 캠코더 등이 포함될 수 있으며, 일부 실시예에 따라서는 PC, IPTV, 스마트 TV 등과 같이 휴대하기 어려운 디지털 기기 등도 해당할 수 있다. 또한, 도 1에서는 1개의 사용자 단말(200)이 도시되어 있으나, 이에 한정되지 않고, 복수의 사용자 단말(200)이 유선 또는 무선 네트워크를 통해 버추얼 휴먼 생성 장치(100)와 통신하도록 구성될 수 있다.
도 2는 본 개시의 예시적인 실시예에 따른 버추얼 휴먼 생성 장치를 나타내는 블록도이다.
도 1 및 도 2를 함께 참조하면, 데이터 처리 모듈(110)은 STT(Speech-to-Text) 모듈(111), 텍스트 마이닝 모듈(112), DB 적재/분석 모듈(113)을 포함할 수 있다. 데이터 처리 모듈(110)은 데이터 처리 모듈이라 지칭될 수 있다. 데이터 처리 모듈(110)은 사용자 단말(200)로부터 제공받은 음성 데이터 데이터를 수신하여, 음성 데이터를 텍스트 데이터로 변환할 수 있고, 텍스트 데이터로부터 의미 있는 텍스트, 감정 등을 추출할 수 있고, 텍스트 데이터를 적재 및/또는 분석할 수 있다.
STT 모듈(111)은 사용자 단말(200)로부터 수신한 음성 데이터를 텍스트 데이터로 변환할 수 있다. STT 모듈(111)은 음성 데이터에 대응하는 텍스트 데이터를 생성할 수 있다. 텍스트 마이닝 모듈(112)은 텍스트 데이터 중 의미 있는 텍스트 데이터를 추출할 수 있다. 여기서 의미 있는 텍스트 데이터란 버추얼 휴먼의 표정, 감정 및/또는 행동을 변화시킬 수 있는 텍스트 데이터일 수 있다. 또는 의미 있는 텍스트 데이터란 인터렉션 시나리오에 포함될 수 있는 텍스트 데이터일 수 있다. 텍스트 마이닝 모듈(112)은 텍스트 데이터 중 감정이 포함된 및/또는 드러난 텍스트 데이터를 추출할 수 있다. DB 적재/분석 모듈(113)은 텍스트 데이터를 저장 및/또는 분석할 수 있다. DB 적재/분석 모듈(113)은 STT 모듈(111)에서 변환 및/또는 생성된 텍스트 데이터, 텍스트 마이닝 모듈(112)에서 추출된 텍스트 데이터 등 모두를 포함할 수 있다.
도 1 및 도 2를 함께 참조하면, 스토리라인 생성 모듈(120)은 시나리오 생성 모듈(121), 태그 생성 모듈(122), 시퀀스 분기점 관리 모듈(123)을 포함할 수 있다. 스토리라인 생성 모듈(120)은 데이터 처리 모듈(110)에서 제공된 분석된 텍스트 데이터를 이용하여, 인터렉션(interaction) 시나리오를 생성하고, 생성된 인터렉션 시나리오로부터 표정 지문 및 행동 지문을 포함하는 입력 데이터를 생성할 수 있다.
시나리오 생성 모듈(121)은 데이터 처리 모듈(110)에서 제공된 텍스트 데이터를 이용하여 인터렉션 시나리오를 생성할 수 있다. 예컨대, 인터렉션 시나리오를 기반으로 극사실 디지털 휴먼 생성 모듈(130)은 데이터 태그를 기반으로 표정 지문과 감정 지문 각각을 구별할 수 있다. 태그 생성 모듈(122)은 인터렉션 시나리오로부터 씬별, 상황별, 감정별 등의 대사 및 행동 지문의 태그를 생성할 수 있다. 태그를 생성하는 것은 표정 지문 및 행동 지문을 포함하는 입력 데이터를 생성할 수 있는 것을 포함할 수 있다. 시퀀스 분기점 관리 모듈(123)은 영화를 포함하는 디지털 영상물에서의 시간 단위인 시퀀스 각각에 대해 분기점을 생성하여 이전 시퀀스와 현재 시퀀스를 인터렉션 시나리오 상에서 구분짓고, 버추얼 휴먼은 구분된 시퀀스 마다 새로운 인터렉션을 생성할 수 있다.
시나리오 생성 모듈(121)은 인터렉션 시나리오로부터 표정, 감정 및 행동의 지문 각각에 대해 태그를 생성하여 표정, 감정 및 행동의 지문 각각에 할당할 수 있으며, 복수의 시퀀스들을 할당함으로써 입력 데이터를 생성할 수 있고, 버추얼 휴먼은 생성된 입력 데이터를 기반으로 행동 또는 연기를 할 수 있다.
도 1 및 도 2를 함께 참조하면, 극사실 디지털 휴먼 생성 모듈(130)은 3D 촬영 모듈(131), 딥페이크(Deep Fake) 모듈(132), 대역 배우 촬영 모듈(133), 합성 블렌딩 모듈(134), TTS(Text-to-Speech) 모듈(135)을 포함할 수 있다. 극사실 디지털 휴먼 생성 모듈(130)은 스토리라인 생성 모듈(120)에서 생성된 입력 데이터를 가공하여 표정 데이터 및 행동 데이터를 생성할 수 있고, 생성된 표정 데이터 및 행동 데이터를 이용하여 버추얼 휴먼 인터렉션 정보를 생성할 수 있다.
3D 촬영 모듈(131)은 인물의 얼굴, 몸 이미지를 3D로 촬영할 수 있다. 딥페이크 모듈(132)은 컴퓨터 그래픽 또는 인공지능 기술에 의해 만들어진 실제로는 존재하지 않는 원본(source) 이미지를 목표(target) 이미지로 바꾸어 가짜 이미지를 생성 할 수 있다. 대역 배우 촬영 모듈(133)은 대역 배우의 얼굴, 몸 이미지를 촬영할 수 있다. 합성 블렌딩 모듈(134)은 대역 배우의 얼굴에 원하는 배우의 얼굴을 합성할 수있다. 합성 기법에는 블랜드 쉐입(blend-shape) 기법과 직접 변형 기법(direct deformation)을 하이브리드(hybride)하는 방식으로 버추얼 휴먼의 표정을 변형할 수 있다. 여기서, 블랜드 쉐입 기법은 버추얼 휴먼의 샘플 표정들을 미리 정의하여 표정셋으로 미리 설정한 후, 샘플 표정들을 합성하여 실제 표정과 유사한 새로운 표정을 생성하는 기법에 해당한다. 또한, 직접 변형 기법은 실제 3차원 모션 정보를 버추얼 휴먼에 직접 적용하여, 버추얼 휴먼의 표정을 표현하는 기법에 해당한다. TTS(Text-to-Speech) 모듈(135)은 텍스트 데이터를 음성 데이터로 변환할 수 있다. TSS 모듈(135)은 텍스트 데이터에 대응하는 음성 데이터를 생성할 수 있다.
이하 도면을 참조하여, 버추얼 휴먼을 생성하는 방법 및 버추얼 휴먼 인턱렉션 정보를 생성하는 방법에 대해 구체적으로 후술하도록 한다.
도 3은 본 개시의 예시적인 실시예에 따른 버추얼 휴먼 생성 방법을 나타내는 순서도이다.
도 3을 참조하면, 사용자 단말(200)은 버추얼 휴먼 생성 장치(100)에 음성 데이터 및 텍스트 데이터를 제공 또는 전송할 수 있다(S101). 예를 들어, 도 1 및 도 2에 도시된 버추얼 휴먼 생성 장치(100)의 데이터 처리 모듈(110)이 음성 데이터 및 텍스트 데이터를 수신할 수 있다.
버추얼 휴먼 생성 장치(100)는 음성 데이터를 텍스트 데이터로 변환할 수 있다(S102). 예를 들어, 도 2에 도시된 STT 모듈(111)은 사용자 단말(200)로부터 수신한 음성 데이터를 텍스트 데이터로 변환할 수 있다. STT 모듈(111)은 음성 데이터에 대응하는 텍스트 데이터를 생성할 수 있다.
버추얼 휴먼 생성 장치(100)는 텍스트 데이터를 저장 및 분석할 수 있다(S103). 예를 들어, 도 2에 도시된 DB 적재/분석 모듈(113)은 텍스트 데이터를 저장 및/또는 분석할 수 있다. DB 적재/분석 모듈(113)은 STT 모듈(111)에서 변환 및/또는 생성된 텍스트 데이터, 텍스트 마이닝 모듈(112)에서 추출된 텍스트 데이터 등 모두를 포함할 수 있다.
버추얼 휴먼 생성 장치(100)는 인터렉티브 시나리오를 생성할 수 있다(S104). 예를 들어, 도 2에 도시된 시나리오 생성 모듈(121)은 데이터 처리 모듈(110)에서 제공된 텍스트 데이터를 이용하여 인터렉션 시나리오를 생성할 수 있다. 여기서 인터렉션 시나리오란 영화, 드라마 등의 시나리오와 같이 표정, 감정 및 행동의 지문이 모두 포함되어 있는 시나리오를 지칭할 수 있고, 표정, 행동 등이 혼합된 실감나는 시나리오를 포함할 수 있다.
버추얼 휴먼 생성 장치(100)는 입력 데이터를 생성할 수 있다(S105). 예를 들어, 도 2에 도시된 태그 생성 모듈(122)은 인터렉션 시나리오로부터 씬별, 상황별, 감정별 등의 대사 및 행동 지문의 태그를 생성할 수 있다. 태그를 생성하는 것은 표정 지문 및 행동 지문을 포함하는 입력 데이터를 생성할 수 있는 것을 포함할 수 있다.
버추얼 휴먼 생성 장치(100)는 정보값(입력값)을 생성할 수 있다(S106). 예를 들어, 도 2에 도시된 극사실 디지털 휴먼 생성 모듈(130)은 스토리라인 생성 모듈(120)에서 생성된 입력 데이터를 가공하여 표정 데이터 및 행동 데이터를 생성할 수 있고, 생성된 표정 데이터 및 행동 데이터를 이용하여 버추얼 휴먼 인터렉션 정보를 생성할 수 있다.
버추얼 휴먼 생성 장치(100)는 버추얼 휴먼을 생성할 수 있다(S107). 예를 들어, 도 2에 도시된 극사실 디지털 휴먼 생성 모듈(130)은 가공된 입력값을 기초로 하여 버추얼 휴먼을 생성할 수 있고, 버추얼 휴먼의 표정 및 행동을 변화시킬 수 있다.
버추얼 휴먼 생성 장치(100)는 생성한 버추얼 휴먼을 사용자 단말(200)에 전송할 수 있다(S108).
여기서, 버추얼 휴먼을 생성하는 방법은 상기 순서에 제한되지 않는다. 또한, 버추얼 휴먼의 표정 및 행동을 변화시키는 구체적인 방법에 대해서는 이하의 도면을 참조하여 후술하기로 한다.
도 4는 본 개시의 예시적인 실시예에 따른 인터렉티브 시나리오를 나타내는 도면이다.
도 4를 참조하면, 인터렉션 시나리오는 지시문 및 대사를 포함할 수 있다. 지시문은 표정 지문일 수 있고, 행동 지문은 대사일 수 있다. 버추얼 휴먼 생성 장치(100)는 표정 지문 및 행동 지문을 이용하여 얼굴 영역 및 행동 영역을 인식할 수 있다. 버추얼 휴먼 생성 장치(100)는 얼굴 영역으로부터 추출한 특징점들로부터 벡터값(벡터 정보)를 생성할 수 있다. 버추얼 휴먼 생성 장치(100)는 벡터 정보를 이용하여 버추얼 휴먼 인터렉션 정보를 생성할 수 있다. 버추얼 휴먼 생성 장치(100)는 행동 영역으로부터 추출한 특징점들로부터 인물 인디케이터 및 감정 표현 대사값을 생성할 수 있다. 버추얼 휴먼 생성 장치(100)는 인물 인디케이터 및 감정 표현 대사값을 이용하여 버추얼 휴먼 인터렉션 정보를 생성할 수 있다.
또한, 인터렉션 시나리오는 표정 데이터 및 행동 데이터를 포함할 수 있다. 표정 데이터는 얼굴 영역으로부터 추출한 특징점들을 추출한 텍스트 정보를 포함할 수 있다. 예를 들어, 표정 데이터는 3차원 공간상 위치를 나타내는 제1 텍스트 정보 및 3차원 공간상 회전량 및 이동량을 나타내는 제2 텍스트 정보를 포함할 수 있다. 예를 들어, 제1 텍스트 정보는 직접 감정 표시값일 수 있고, 제2 텍스트 정보는 간접 감정 표시값일 수 있다. 제1 텍스트 정보는 얼굴 영역의 특징점들을 변화시킬 수 있다.
벡터 정보는 제1 텍스트 정보 및 제2 텍스트 정보를 포함할 수 있다. 버추얼 휴먼 생성 장치(100)는 제1 텍스트 정보를 포함하는 벡터 정보를 제어함으로써 얼굴 영역의 표정을 변형한 버추얼 휴먼을 생성할 수 있고, 버추얼 휴먼 인터렉션 정보를 생성할 수 있다. 벡터 정보를 제어함으로써 실시간으로 버추얼 휴먼의 표정 변화 또는 행동 변화를 제공할 수 있다. 표정 지문 또는 표정 데이터를 이용하여 버추얼 휴먼의 표정을 변화시키는 방법은 이하 도 5 및 도 6을 참조하여 후술하기로 한다.
다시 도 4를 참조하면, 행동 데이터는 행동 영역의 3차원 공간상 위치를 나타내는 인물 인디케이터 및 목소리를 나타내는 감정 표현 대사값을 포함할 수 있다. 예를 들어, 행동 데이터는 대사에 포함된 인물(객체)인 인물 인디케이터 및 목소리의 주파수, 높낮이, 크기, 떨림 등을 포함하는 감정 표현 대사값을 포함할 수 있다.
버추얼 휴먼 생성 장치(100)는 인물 인디케이터 및 감정 표현 대사값을 제어할 수 있다. 버추얼 휴먼 생성 장치(100)는 인물 인디케이터 및 감정 표현 대사값을 제어함으로써 행동 영역의 행동을 변형한 버추얼 휴먼을 생성할 수 있고, 버추얼 휴먼 인터렉션 정보를 생성할 수 있다. 인물 인디케이터 및 감정 표현 대사값을 제어함으로써 실시간으로 버추얼 휴먼의 표정 변화 또는 행동 변화를 제공할 수 있다. 행동 지문 또는 행동 데이터를 이용하여 버추얼 휴먼의 행동을 변화시키는 방법은 이하 도 7 및 도 8을 참조하여 후술하기로 한다.
즉, 버추얼 휴먼 생성 장치(100)는 표정 지문 및 행동 지문을 이용하여 얼굴 영역 및 행동 영역을 인식하고, 상기 얼굴 영역으로부터 추출한 특징점들로부터 벡터 정보를 생성할 수 있다. 버추얼 휴먼 생성 장치(100)는 벡터 정보를 이용하여 버추얼 휴먼 인터렉션 정보를 생성할 수 있다.
도 5 및 도 6은 본 개시의 예시적인 실시예에 따른 버추얼 휴먼 생성 장치에 의한 표정 변화를 나타내는 순서도이다.
도 5를 참조하면, 버추얼 휴먼 생성 장치(100)는 특징점들을 추출하고, 특징점을 이용하여 벡터 값을 생성할 수 있다(S200). 예를 들어, 버추얼 휴먼 생성 장치(100)는 얼굴 영역으로부터 추출한 특징점들로부터 벡터값(벡터 정보)를 생성할 수 있다. 버추얼 휴먼 생성 장치(100)는 벡터 정보를 이용하여 버추얼 휴먼 인터렉션 정보를 생성할 수 있다. 또한, 인터렉션 시나리오는 표정 데이터를 포함할 수 있다. 표정 데이터는 얼굴 영역으로부터 추출한 특징점들을 추출한 텍스트 정보를 포함할 수 있다. 예를 들어, 표정 데이터는 3차원 공간상 위치를 나타내는 제1 텍스트 정보 및 3차원 공간상 회전량 및 이동량을 나타내는 제2 텍스트 정보를 포함할 수 있다. 예를 들어, 제1 텍스트 정보는 직접 감정 표시값일 수 있고, 제2 텍스트 정보는 간접 감정 표시값일 수 있다. 제1 텍스트 정보는 얼굴 영역의 특징점들을 변화시킬 수 있다.
버추얼 휴먼 생성 장치(100)는 벡터 값을 이용하여 표정 및 포즈를 모사하도록, 버추얼 휴먼의 얼굴 영역의 표정을 변형할 수 있다(S300). 예를 들어, 벡터 정보는 제1 텍스트 정보 및 제2 텍스트 정보를 포함할 수 있다. 버추얼 휴먼 생성 장치(100)벡터 정보를 제어함으로써 얼굴 영역의 표정을 변형한 버추얼 휴먼을 생성할 수 있고, 버추얼 휴먼 인터렉션 정보를 생성할 수 있다. 벡터 정보를 제어함으로써 실시간으로 버추얼 휴먼의 표정 변화 또는 행동 변화를 제공할 수 있다.
도 6을 참조하면, 버추얼 휴먼 생성 장치(100)는 얼굴 이미지로부터 얼굴 영역 검출하고, 얼굴 영역으로부터 특징점들 추출할 수 있다(S210).
버추얼 휴먼 생성 장치(100)는 특징점들의 3차원 공간상의 위치를 나타내는 위치 정보를 나타내는 제1 텍스트 정보 및 3차원 공간상의 회전량 및 이동량을 나타내는 제2 텍스트 정보를 포함하는 벡터 값을 생성할 수 있다(S220).
버추얼 휴먼 생성 장치(100)는 벡터 값을 이용하여, 특징점들을 3차원으로 복원한 3차원 특징점을 생성할 수 있다(S230).
버추얼 휴먼 생성 장치(100)는 표정셋과 샘플 표정을 합성한 3차원 특징점에 해당하는 합성 표정 생성할 수 있다(S240).
버추얼 휴먼 생성 장치(100)는 직접 변형 기법으로 버추얼 휴먼 최종 표정 생성할 수 있다(S250). 여기서, 버추얼 휴먼을 생성하는 방법은 상기 순서에 제한되지 않는다.
즉, 버추얼 휴먼 생성 장치(100)는 표정 지문 및 행동 지문을 이용하여 얼굴 영역 및 행동 영역을 인식하고, 상기 얼굴 영역으로부터 추출한 특징점들로부터 벡터 정보를 생성할 수 있다. 버추얼 휴먼 생성 장치(100)는 벡터 정보를 이용하여 버추얼 휴먼 인터렉션 정보를 생성할 수 있다.
도 7 및 도 8은 본 개시의 예시적인 실시예에 따른 버추얼 휴먼 생성 장치에 의한 행동 변화를 나타내는 순서도이다.
도 7을 참조하면, 버추얼 휴먼 생성 장치(100)는 텍스트를 추출하여, 인물 인디케이터 및 감정 표현 대사값 생성할 수 있다(S400). 예를 들어, 버추얼 휴먼 생성 장치(100)는 행동 지문을 이용하여 행동 영역을 인식할 수 있다. 버추얼 휴먼 생성 장치(100)는 행동 영역으로부터 추출한 특징점들로부터 인물 인디케이터 및 감정 표현 대사값을 생성할 수 있다. 버추얼 휴먼 생성 장치(100)는 인물 인디케이터 및 감정 표현 대사값을 이용하여 버추얼 휴먼 인터렉션 정보를 생성할 수 있다. 또한, 인터렉션 시나리오는 행동 데이터를 포함할 수 있다. 행동 데이터는 행동 영역의 3차원 공간상 위치를 나타내는 인물 인디케이터 및 목소리를 나타내는 감정 표현 대사값을 포함할 수 있다. 예를 들어, 행동 데이터는 대사에 포함된 인물(객체)인 인물 인디케이터 및 목소리의 주파수, 높낮이, 크기, 떨림 등을 포함하는 감정 표현 대사값을 포함할 수 있다.
버추얼 휴먼 생성 장치(100)는 인물 인디케이터 및 감정 표현 대사값을 이용하여 버추얼 휴먼의 행동 영역의 행동 변형할 수 있다(S500). 예를 들어, 버추얼 휴먼 생성 장치(100)는 인물 인디케이터 및 감정 표현 대사값을 제어할 수 있다. 버추얼 휴먼 생성 장치(100)는 인물 인디케이터 및 감정 표현 대사값을 제어함으로써 행동 영역의 행동을 변형한 버추얼 휴먼을 생성할 수 있고, 버추얼 휴먼 인터렉션 정보를 생성할 수 있다. 인물 인디케이터 및 감정 표현 대사값을 제어함으로써 실시간으로 버추얼 휴먼의 표정 변화 또는 행동 변화를 제공할 수 있다.
도 8을 참조하면, 버추얼 휴먼 생성 장치(100)는 행동 영역(시나리오) 검출하고, 행동 영역으로부터 텍스트 추출할 수 있다(S410).
버추얼 휴먼 생성 장치(100)는 행동 영역의 3차원 공간상 위치를 나타내는 인물 인디케이터 및 목소리를 나타내는 감정 표현 대사값을 생성할 수 있다(S420).
버추얼 휴먼 생성 장치(100)는 인물 인디케이터 및 목소리를 나타내는 감정 표현 대사값을 이용하여 3차원으로 복원한 3차원 행동 특징점들을 생성할 수 있다(S430).
버추얼 휴먼 생성 장치(100)는 행동셋과 샘플 행동을 합성한 3차원 행동 특징점에 해당하는 합성 행동 생성할 수 있다(S440).
버추얼 휴먼 생성 장치(100)는 직접 변형 기법으로 버추얼 휴먼 최종 행동 생성할 수 있다(S450). 여기서, 버추얼 휴먼을 생성하는 방법은 상기 순서에 제한되지 않는다.
즉, 버추얼 휴먼 생성 장치(100)는 표정 지문 및 행동 지문을 이용하여 얼굴 영역 및 행동 영역을 인식하고, 상기 얼굴 영역으로부터 추출한 특징점들로부터 벡터 정보를 생성할 수 있다. 버추얼 휴먼 생성 장치(100)는 벡터 정보를 이용하여 버추얼 휴먼 인터렉션 정보를 생성할 수 있다.
본 개시의 실시예들은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함할 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
본 개시의 기술적 사상에 따른 버추얼 휴먼 인터렉션 생성 장치 및 그에 대한 방법은 인터렉티브 시나리오를 바탕으로 버추얼 휴먼을 생성하고, 생성된 버추얼 휴먼이 실제 사람과 같이 표정 변화 또는 행동 변화 등을 수행할 수 있다.
본 개시의 기술적 사상에 따른 버추얼 휴먼 인터렉션 생성 장치 및 그에 대한 방법은 실시간으로 버추얼 휴면의 표정 변화 또는 행동 변화를 제공하는 것이 가능하다.
이상에서와 같이 도면과 명세서에서 예시적인 실시예들이 개시되었다. 본 명세서에서 특정한 용어를 사용하여 실시예들을 설명되었으나, 이는 단지 본 개시의 기술적 사상을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 개시의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 개시의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (7)

  1. 사용자 단말과 통신하여 버추얼 휴먼 인터렉션 정보를 생성하는 버추얼 휴먼 생성 장치에 있어서,
    상기 사용자 단말로부터 텍스트 데이터를 수신하여, 상기 텍스트 데이터를 분석하는 데이터 처리 모듈;
    상기 분석된 텍스트 데이터를 이용하여, 인터렉션 시나리오를 생성하고, 생성된 인터렉션 시나리오의 지시문에 대응되는 표정 지문 및 상기 생성된 인터렉션 시나리오의 대사에 대응되는 행동 지문을 포함하는 입력 데이터를 생성하는 스토리라인 생성 모듈; 및
    상기 입력 데이터를 가공하여 표정 데이터 및 행동 데이터를 생성하고, 상기 생성된 표정 데이터 및 행동 데이터를 이용하여 버추얼 휴먼 인터렉션 정보를 생성하는 극사실 디지털 휴먼 모듈을 포함하고,
    상기 극사실 디지털 휴먼 모듈은,
    상기 표정 지문을 이용하여 얼굴영역을 식별하며, 상기 행동 지문을 이용하여 행동 영역을 인식하고, 상기 대사에 포함된 인물을 나타내는 인물 인디케이터를 생성하며, 상기 대사에 포함된 텍스트로부터 감정표현 대사값 및 감정표현 인디케이터를 생성하고, 상기 인물 인디케이터 및 상기 감정 표현 대사값을 이용하여 3차원 행동 특징점들을 생성하고, 행동셋과 샘플 행동을 합성하여 상기 3차원 행동 특징점에 해당하는 합성 행동을 생성함으로써 버추얼 휴먼의 행동 변화를 제공하며, 상기 감정표현 인디케이터에 기초하여 상기 감정 표현 대사값에 대응하는 목소리의 주파수, 높낮이, 크기, 및 떨림을 제어하고, 상기 지시문을 구성하는 제1 텍스트 및 제2 텍스트로부터 각각 직접 감정 표시값 및 간접 감정 표시값을 식별하여, 상기 직접 감정 표시값으로부터 신체 부위를 식별하고, 상기 식별된 신체 부위를 구성하는 특징점의 일부 벡터 값을 조정하며, 상기 간접 감정 표시값에 기반하여 상기 3차원 행동 특징점을 조절하는 것을 특징으로 하는, 버추얼 휴먼 생성 장치.
  2. 제1 항에 있어서,
    상기 버추얼 휴먼 생성 장치는,
    상기 얼굴영역으로부터 추출한 특징점들로부터 벡터 정보를 생성하여, 상기 벡터 정보를 이용하여, 버추얼 휴먼 인터렉션 정보를 생성하는 버추얼 휴먼 생성 장치.
  3. 제2 항에 있어서,
    상기 표정 데이터는,
    상기 특징점들의 3차원 공간상 위치를 나타내는 상기 제1 텍스트 정보 및 상기 얼굴영역의 3차원 공간상 회전량 및 이동량을 나타내는 상기 제2 텍스트 정보를 포함하는 벡터 정보를 포함하고,
    상기 벡터 정보를 제어하여, 상기 얼굴영역의 표정을 변형한 버추얼 휴먼 인터렉션 정보를 생성하는 것을 특징으로 하는 버추얼 휴먼 생성 장치.
  4. 제2 항에 있어서,
    상기 극사실 디지털 휴먼 모듈은,
    상기 인물 인디케이터 및 상기 감정 표현 대사값을 제어하여, 상기 행동영역의 행동을 변형한 버추얼 휴먼 인터렉션 정보를 생성하는 것을 특징으로 하는 버추얼 휴먼 생성 장치.
  5. 삭제
  6. 버추얼 휴먼 인터렉션 정보를 생성하는 버추얼 휴먼 생성 방법에 있어서,
    텍스트 데이터를 수신하는 단계;
    상기 텍스트 데이터를 분석하는 단계;
    상기 분석된 텍스트 데이터를 이용하여, 인터렉션 시나리오를 생성하는 단계;
    상기 생성된 인터렉션 시나리오의 지시문에 대응되는 표정 지문 및 상기 생성된 인터렉션 시나리오의 대사에 대응되는 행동 지문을 포함하는 입력 데이터를 생성하는 단계;
    상기 입력 데이터를 가공하여 표정 데이터 및 행동 데이터를 포함하는 입력 값을 생성하는 단계; 및
    상기 입력값을 이용하여 버추얼 휴먼 인터렉션 정보를 생성하는 단계를 포함하고,
    상기 입력 값을 생성하는 단계는,
    상기 표정 지문을 이용하여 얼굴 영역을 식별하는 단계;
    상기 행동 지문을 이용하여 행동 영역을 식별하는 단계;
    상기 대사에 포함된 인물을 나타내는 인물 인디케이터를 생성하는 단계;
    상기 대사에 포함된 텍스트로부터 감정표현 대사값 및 감정표현 인디케이터를 생성하는 단계;
    상기 인물 인디케이터 및 상기 감정표현 대사값을 이용하여 3차원 행동 특징점들을 생성하는 단계;
    상기 지시문을 구성하는 제1 텍스트 및 제2 텍스트로부터 각각 직접 감정 표시값 및 간접 감정 표시값을 식별하는 단계;
    상기 직접 감정 표시값으로부터 신체 부위를 식별하는 단계
    를 포함하고,
    상기 버추얼 휴먼 인터렉션 정보를 생성하는 단계는,
    행동 셋과 샘플 행동을 합성하여 상기 3차원 행동 특징점에 해당하는 합성 행동을 생성함으로써 버추얼 휴면의 행동 변화를 제공하는 단계;
    상기 감정표현 인디케이터에 기초하여 상기 감정 표현 대사값에 대응하는 목소리의 주파수, 높낮이, 크기, 및 떨림을 제어하는 단계;
    상기 식별된 신체 부위를 구성하는 특징점의 일부 벡터 값을 조정하는 단계; 및
    상기 간접 감정 표시값에 기반하여 상기 3차원 행동 특징점을 조절하는 단계
    를 포함하는 것을 특징으로 하는 버추얼 휴먼 생성 방법.
  7. 제6 항에 있어서,
    상기 버추얼 휴먼 생성 방법은,
    상기 표정 지문 및 상기 행동 지문을 이용하여 얼굴영역 및 행동영역을 인식하는 단계;
    상기 얼굴영역으로부터 추출한 특징점들로부터 벡터 정보를 생성하는 단계;
    상기 벡터 정보를 이용하여, 버추얼 휴먼 인터렉션 정보를 생성하는 단계를 더 포함하는 버추얼 휴먼 생성 방법.
KR1020220125579A 2022-09-30 2022-09-30 버추얼 휴먼 인터렉션 생성 장치 및 그에 대한 방법 KR102601159B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220125579A KR102601159B1 (ko) 2022-09-30 2022-09-30 버추얼 휴먼 인터렉션 생성 장치 및 그에 대한 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220125579A KR102601159B1 (ko) 2022-09-30 2022-09-30 버추얼 휴먼 인터렉션 생성 장치 및 그에 대한 방법

Publications (1)

Publication Number Publication Date
KR102601159B1 true KR102601159B1 (ko) 2023-11-13

Family

ID=88746639

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220125579A KR102601159B1 (ko) 2022-09-30 2022-09-30 버추얼 휴먼 인터렉션 생성 장치 및 그에 대한 방법

Country Status (1)

Country Link
KR (1) KR102601159B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200019297A (ko) * 2018-08-09 2020-02-24 에스케이텔레콤 주식회사 표정 인식 모델 생성 장치 및 방법, 및 이를 이용한 표정 인식 장치 및 방법
KR20210124307A (ko) * 2020-03-31 2021-10-14 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 인터랙티브 대상의 구동 방법, 장치, 디바이스 및 기록 매체
KR102345729B1 (ko) * 2021-04-08 2022-01-03 주식회사 닫닫닫 영상 생성 방법 및 장치
KR102368300B1 (ko) * 2020-09-08 2022-03-02 박일호 음성 및 표정에 기반한 캐릭터의 동작 및 감정 표현 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200019297A (ko) * 2018-08-09 2020-02-24 에스케이텔레콤 주식회사 표정 인식 모델 생성 장치 및 방법, 및 이를 이용한 표정 인식 장치 및 방법
KR20210124307A (ko) * 2020-03-31 2021-10-14 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 인터랙티브 대상의 구동 방법, 장치, 디바이스 및 기록 매체
KR102368300B1 (ko) * 2020-09-08 2022-03-02 박일호 음성 및 표정에 기반한 캐릭터의 동작 및 감정 표현 시스템
KR102345729B1 (ko) * 2021-04-08 2022-01-03 주식회사 닫닫닫 영상 생성 방법 및 장치

Similar Documents

Publication Publication Date Title
US11410457B2 (en) Face reenactment
US11410364B2 (en) Systems and methods for realistic head turns and face animation synthesis on mobile device
KR102605077B1 (ko) 모바일 디바이스에서 사실적인 머리 회전들 및 얼굴 애니메이션 합성을 위한 방법들 및 시스템들
US9747495B2 (en) Systems and methods for creating and distributing modifiable animated video messages
KR102488530B1 (ko) 동영상을 생성하기 위한 방법 및 장치
EP3912159B1 (en) Text and audio-based real-time face reenactment
CN111383307A (zh) 基于人像的视频生成方法及设备、存储介质
US11915355B2 (en) Realistic head turns and face animation synthesis on mobile device
CN111401101A (zh) 基于人像的视频生成系统
US11581020B1 (en) Facial synchronization utilizing deferred neural rendering
US11582519B1 (en) Person replacement utilizing deferred neural rendering
KR20220094008A (ko) 인공지능을 이용한 디지털 휴먼 기반 콘텐츠 생성 장치 및 방법
CN112819933A (zh) 一种数据处理方法、装置、电子设备及存储介质
KR102601159B1 (ko) 버추얼 휴먼 인터렉션 생성 장치 및 그에 대한 방법
WO2024066549A1 (zh) 一种数据处理方法及相关设备
CN117152843B (zh) 数字人的动作控制方法及其系统
KR20230106807A (ko) 인공지능 학습 기반의 타깃 콘텐츠 변환을 이용한 가상 인물의 얼굴 이미지 생성 서비스 제공 장치 및 그 동작 방법
KR20230106809A (ko) 얼굴 이미지를 합성하여 가상 인물의 얼굴 이미지를 생성하는 서비스 제공 방법
CN117523046A (zh) 口型动画生成方法、装置、电子设备以及存储介质
KR20230106810A (ko) 페이스 스왑 영상 생성 알고리즘을 이용한 가상 인물 얼굴 이미지 생성 서비스 제공 프로그램
KR20230106808A (ko) 가상 인물의 얼굴 이미지 생성 서비스 제공 장치
KR20240112370A (ko) 모바일 디바이스에서 사실적인 머리 회전들 및 얼굴 애니메이션 합성을 위한 방법들 및 시스템들
KR20240047779A (ko) 아바타 생성 방법 및 그 시스템
KR20220080035A (ko) Dcgan 및 facs를 결합한 가상 아바타 영상 제작 방법 및 장치
CN118015393A (zh) 自动数据生成

Legal Events

Date Code Title Description
GRNT Written decision to grant