KR102509449B1 - 인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 방법 및 서버 - Google Patents

인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 방법 및 서버 Download PDF

Info

Publication number
KR102509449B1
KR102509449B1 KR1020220064028A KR20220064028A KR102509449B1 KR 102509449 B1 KR102509449 B1 KR 102509449B1 KR 1020220064028 A KR1020220064028 A KR 1020220064028A KR 20220064028 A KR20220064028 A KR 20220064028A KR 102509449 B1 KR102509449 B1 KR 102509449B1
Authority
KR
South Korea
Prior art keywords
character
user
information
voice
motion
Prior art date
Application number
KR1020220064028A
Other languages
English (en)
Inventor
임기택
윤태영
Original Assignee
주식회사 투바앤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 투바앤 filed Critical 주식회사 투바앤
Priority to KR1020220064028A priority Critical patent/KR102509449B1/ko
Application granted granted Critical
Publication of KR102509449B1 publication Critical patent/KR102509449B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information

Abstract

인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 방법 및 서버가 제공된다. 실시예에 따른 본 발명의 몇몇 실시예에 따른 인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 방법 및 서버는, 사용자의 움직임 및 음성에 대응하도록 캐릭터를 제어하되, 디지털 컨텐츠를 함께 이용하는 상대방 사용자의 선호 정보를 반영하여 사용자의 캐릭터를 제어하여 상대방 사용자의 관심과 흥미를 유발할 수 있어, 디지털 컨텐츠에서의 상호 작용 효과를 극대화할 수 있다. 또한, 인공 지능 기반의 감정 분석 모델을 통해 사용자를 촬영한 사용자 영상을 분석하여 사용자의 선호 정보를 용이하게 출력할 수 있다. 또한, 출력된 사용자의 선호 정보에 기초하여 사용자의 움직임에 대한 인공 지능 기반의 보정 모델을 구축할 수 있으며, 인공 지능 기반의 보정 모델을 통해 입력된 사용자 캐릭터의 동작에 대한 보정을 수행할 수 있다.

Description

인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 방법 및 서버{Digital content providing method and server including counterpart custom character control}
본 발명은 인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 방법 및 서버에 관한 것이다. 구체적으로, 본 발명은 사용자의 움직임 및 음성에 대응하도록 캐릭터를 제어하되, 디지털 컨텐츠를 함께 이용하는 상대방 사용자의 선호 정보를 반영하여 사용자의 캐릭터를 제어하여 상대방 사용자의 관심과 흥미를 유발할 수 있는 인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 방법 및 서버에 관한 것이다.
4차 산업 혁명과 함께 디지털 기술이 더욱 발전되어, 소비자들은 더욱 다양한 컨텐츠를 디지털 수단을 통해 즐길 수 있게 되었다. 예전에는 오락, 게임, 놀이 컨텐츠가 디지털 컨텐츠의 대부분을 차지하였으나, 현재는 공연과 같은 문화 컨텐츠를 온라인으로 관람하거나, 학교 수업을 온라인으로 진행하는 등 점차 오프라인 체험 컨텐츠가 온라인으로 이동하는 추세가 점점 늘어가고 있는 실정이다. 이러한 디지털 컨텐츠의 영역 확장은 3차원 가상 공간, 특히, 메타버스(meta-verse)와 같은 혼합 현실 환경을 통해 더욱 확대될 전망이다.
이러한 메타버스 또는 디지털 컨텐츠가 제공되는 가상 공간에서, 사용자들은 본인의 캐릭터를 통해 다른 캐릭터와 상호 작용을 하게 된다. 가상 공간에서의 상호 작용은 오프라인보다 더욱 적극적이고 확장된 형태로 수행될 수 있다. 즉, 오프라인에서 수행될 수 없는 과장된 포즈, 표정을 가상 공간의 캐릭터를 통해 상대방에게 전달할 수 있으며, 상대방의 흥미, 관심을 더욱 유발하여 상대방이 상호 작용에 더욱 집중하도록 유도할 수 있다. 이러한 상대방의 흥미, 관심 유발은 보육자와 아동 사이의 교육을 가상 공간에서 수행하는 경우, 매우 중요한 요소에 해당한다.
즉, 가상 공간은 오프라인보다 더욱 자유도가 높은 공간으로, 아동이 교육 활동에 집중하지 못하고 관심이 분산되는 경우, 교육의 효과가 더욱 떨어지게 되는 문제가 발생하게 된다. 따라서, 상호 작용(교육)이 진행되는 동안 아동의 관심과 흥미를 유발할 수 있도록 부모 캐릭터가 동작, 표정 등을 적절히 수행하여 아동을 교육 활동에 집중시킬 수 있어야 한다.
공개특허공보 제10-2004-0096799호
본 발명의 과제는, 사용자의 움직임 및 음성에 대응하도록 캐릭터를 제어하되, 디지털 컨텐츠를 함께 이용하는 상대방 사용자의 선호 정보를 반영하여 사용자의 캐릭터를 제어하여 상대방 사용자의 관심과 흥미를 유발할 수 있는 인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 방법 및 서버를 제공하는 것이다.
또한, 본 발명의 다른 과제는, 인공 지능 기반의 감정 분석 모델을 통해 사용자를 촬영한 사용자 영상을 분석하여 사용자의 선호 정보를 출력할 수 있는 인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 방법 및 서버를 제공하는 것이다.
또한, 본 발명의 다른 과제는, 출력된 사용자의 선호 정보에 기초하여 사용자의 움직임에 대한 인공 지능 기반의 보정 모델을 구축할 수 있는 인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 방법 및 서버를 제공하는 것이다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상기 과제를 해결하기 위한 본 발명의 몇몇 실시예에 따른 인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 서버는 제1 사용자에 대응하는 제1 캐릭터와 제2 사용자에 대응하는 제2 캐릭터가 가상 공간에서 상호 작용하는 디지털 컨텐츠를 제공하는 서버로, 상기 제1 사용자의 제1 사용자 움직임 정보, 제1 사용자 음성 정보를 수신하는 사용자 데이터 수집부; 상기 제1 캐릭터의 제1 캐릭터 정보를 저장하는 캐릭터 데이터 베이스; 상기 제1 사용자 움직임 정보를 상기 제1 캐릭터 움직임 정보를 변환하는 움직임 정보 변환부; 상기 제1 사용자 음성 정보를 상기 제1 캐릭터 음성 정보로 변환하는 음성 정보 변환부; 상기 제1 캐릭터를 포함하는 제1 디지털 컨텐츠에 대한 제2 사용자의 피드백 데이터를 수집하고, 상기 수집된 피드백 데이터에 기초하여 상기 제2 사용자의 제1 캐릭터 선호 움직임 정보 및 상기 제2 사용자의 제1 캐릭터 선호 음성 정보를 생성하는 선호 정보 수집부; 상기 제1 캐릭터 움직임 정보가 상기 제2 사용자의 제1 캐릭터 선호 움직임 정보를 추종하도록 미리 학습된 딥러닝 기반의 제1 움직임 보정 모델을 통해 상기 제1 캐릭터 움직임 정보를 보정하여 제1 캐릭터 보정 움직임 정보를 출력하는 움직임 보정부; 상기 제1 캐릭터 음성 정보가 상기 제2 사용자의 제1 캐릭터 선호 음성 정보를 추종하도록 미리 학습된 딥러닝 기반의 제1 음성 보정 모델을 통해 상기 제1 캐릭터 음성 정보를 보정하여 제1 캐릭터 보정 음성 정보를 출력하는 음성 보정부; 및 상기 제1 캐릭터 보정 움직임 정보 및 상기 제1 캐릭터 보정 음성 정보에 기초하여 상기 제1 캐릭터의 움직임과 음성을 제어하는 컨텐츠 생성부를 포함한다.
또한, 상기 선호 정보 수집부는 상기 제1 디지털 컨텐츠를 이용하는 제2 사용자가 촬영된 제2 사용자 영상을 상기 피드백 데이터로 수집하는 사용자 영상 수집 모듈; 상기 제2 사용자 영상에서 상기 제2 사용자의 감정 정보를 딥러닝 기반의 미리 학습된 감정 분석 모델을 이용하여 생성하는 사용자 감정 분석 모듈; 상기 제2 사용자의 감정 정보에서 적어도 하나의 분석 이미지를 결정하는 분석 이미지 결정 모듈; 상기 분석 이미지의 출력 시점에 대응되는 제1 디지털 컨텐츠에서 제1 캐릭터의 움직임 정보를 수집하여 상기 제2 사용자의 제1 캐릭터 선호 움직임 정보를 생성하는 캐릭터 선호 움직임 결정 모듈; 및 상기 분석 이미지의 출력 시점에 대응되는 제1 디지털 컨텐츠에서 제1 캐릭터의 음성 정보를 수집하여 상기 제2 사용자의 제1 캐릭터 선호 음성 정보를 생성하는 캐릭터 선호 음성 결정 모듈을 포함할 수 있다.
또한, 상기 감정 분석 모델은 상기 제2 사용자 영상에서 상기 제2 사용자의 움직임 변화를 프레임별로 분석하여 상기 제2 사용자의 감정 클래스를 프레임 이미지별로 결정하도록 학습된 컨볼루션 신경망 기반의 분류 모델이며, 상기 감정 클래스는 긍정 감정 또는 부정 감정일 수 있다.
또한, 상기 감정 분석 모델은 Yolo(You Only Look Once) 네트워크로 구성되며, 상기 감정 분석 모델은 상기 제2 사용자 영상에서 제2 사용자 얼굴의 주요 부위 및 신체의 주요 부위 중 적어도 하나를 식별하고, 상기 식별된 얼굴의 주요 부위 및 신체 주요 부위 중 적어도 하나의 변화에 기초하여 제2 사용자의 감정 클래스를 긍정 감정 또는 부정 감정으로 결정하고, 결정된 클래스에 대한 확신값(confidence)을 함께 출력하며, 상기 분석 이미지 결정 모듈은 긍정 감정으로 클래스가 판단된 프레임 이미지를 먼저 추출하고, 추출된 프레임 이미지에서 미리 설정된 임계값 이상의 확신값이 부여된 프레임 이미지를 추출하여 상기 적어도 하나의 분석 이미지를 결정할 수 있다.
또한, 상기 제1 움직임 보정 모델과 상기 제1 음성 보정 모델을 학습하기 위한 보정 모델 학습부를 더 포함하고, 상기 보정 모델 학습부는 인공 지능 모듈을 포함할 수 있다.
상기 보정 모델 학습부는 상기 제1 디지털 컨텐츠를 구성하는 제1 캐릭터의 움직임 정보와 상기 제2 사용자의 제1 캐릭터 선호 움직임 정보를 움직임 학습 데이터 세트로 구성하며, 상기 움직임 학습 데이터 세트를 이용하여 상기 인공 지능 모듈을 학습시켜 상기 제1 움직임 보정 모델을 구축하고, 상기 제1 디지털 컨텐츠를 구성하는 제1 캐릭터의 음성 정보와 상기 제2 사용자의 제1 캐릭터 선호 음성 정보를 음성 학습 데이터 세트로 구성하며, 상기 음성 학습 데이터 세트를 이용하여 상기 인공 지능 모듈을 학습시켜 상기 제1 음성 보정 모델을 구축할 수 있다.
또한, 상기 컨텐츠 생성부는 상기 제1 캐릭터 보정 움직임 정보 및 상기 제1 캐릭터 정보에 기초하여 제1 캐릭터 모션 시퀀스를 생성하고, 상기 제1 캐릭터 정보, 상기 제1 캐릭터 보정 움직임 정보 및 배경 정보를 고려하여 제1 캐릭터 셰이딩 시퀀스를 생성하며, 상기 제1 캐릭터 모션 시퀀스, 상기 제1 캐릭터 셰이딩 시퀀스 및 상기 제1 캐릭터 보정 음성 정보에 기초하여 상기 제1 캐릭터를 제어할 수 있다.
본 발명의 몇몇 실시예에 따른 인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 방법은 제1 사용자에 대응하는 제1 캐릭터와 제2 사용자에 대응하는 제2 캐릭터가 가상 공간에서 상호 작용하는 디지털 컨텐츠를 제공하는 방법으로, 상기 방법은: 상기 제1 사용자의 제1 사용자 움직임 정보, 제1 사용자 음성 정보를 수신하는 단계; 상기 제1 사용자 움직임 정보를 상기 제1 캐릭터 움직임 정보를 변환하고, 상기 제1 사용자 음성 정보를 상기 제1 캐릭터 음성 정보로 변환하는 단계; 상기 제1 캐릭터 움직임 정보가 상기 제2 사용자의 제1 캐릭터 선호 움직임 정보를 추종하도록 미리 학습된 딥러닝 기반의 제1 움직임 보정 모델을 통해 상기 제1 캐릭터 움직임 정보를 보정하여 제1 캐릭터 보정 움직임 정보를 출력하는 단계; 상기 제1 캐릭터 음성 정보가 상기 제2 사용자의 제1 캐릭터 선호 음성 정보를 추종하도록 미리 학습된 딥러닝 기반의 제1 음성 보정 모델을 통해 상기 제1 캐릭터 음성 정보를 보정하여 제1 캐릭터 보정 음성 정보를 출력하는 단계; 및 상기 제1 캐릭터 보정 움직임 정보 및 상기 제1 캐릭터 보정 음성 정보에 기초하여 상기 제1 캐릭터의 움직임과 음성을 제어하는 단계를 포함한다.
본 발명의 몇몇 실시예에 따른 인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 시스템은 제1 사용자의 제1 사용자 움직임 정보 및 상기 제1 사용자의 제1 사용자 음성 정보를 생성하는 제1 사용자 장치; 제2 사용자의 제2 사용자 움직임 정보 및 상기 제2 사용자의 제2 사용자 음성 정보를 생성하는 제2 사용자 장치; 및 상기 제1 사용자에 대응하는 제1 캐릭터와 상기 제2 사용자에 대응하는 제2 캐릭터가 가상 공간에서 상호 작용하는 디지털 컨텐츠를 생성하는 서버를 포함하되, 상기 서버는 상기 제1 사용자의 제1 사용자 움직임 정보, 제1 사용자 음성 정보를 수신하고; 상기 제1 사용자 움직임 정보를 상기 제1 캐릭터 움직임 정보를 변환하고, 상기 제1 사용자 음성 정보를 상기 제1 캐릭터 음성 정보로 변환하며; 상기 제1 캐릭터 움직임 정보가 상기 제2 사용자의 제1 캐릭터 선호 움직임 정보를 추종하도록 미리 학습된 딥러닝 기반의 제1 움직임 보정 모델을 통해 상기 제1 캐릭터 움직임 정보를 보정하여 제1 캐릭터 보정 움직임 정보를 출력하고; 상기 제1 캐릭터 음성 정보가 상기 제2 사용자의 제1 캐릭터 선호 음성 정보를 추종하도록 미리 학습된 딥러닝 기반의 제1 음성 보정 모델을 통해 상기 제1 캐릭터 음성 정보를 보정하여 제1 캐릭터 보정 음성 정보를 출력하며; 상기 제1 캐릭터 보정 움직임 정보 및 상기 제1 캐릭터 보정 음성 정보에 기초하여 상기 제1 캐릭터의 움직임과 음성을 제어하도록 구성된다.
또한, 상기 서버는 상기 제2 사용자의 제2 사용자 움직임 정보, 제2 사용자 음성 정보를 수신하고; 상기 제2 사용자 움직임 정보를 상기 제2 캐릭터 움직임 정보를 변환하고, 상기 제2 사용자 음성 정보를 상기 제2 캐릭터 음성 정보로 변환하며; 상기 제2 캐릭터 움직임 정보가 상기 제1 사용자의 제2 캐릭터 선호 움직임 정보를 추종하도록 미리 학습된 딥러닝 기반의 제2 움직임 보정 모델을 통해 상기 제2 캐릭터 움직임 정보를 보정하여 제2 캐릭터 보정 움직임 정보를 출력하고; 상기 제2 캐릭터 음성 정보가 상기 제1 사용자의 제2 캐릭터 선호 음성 정보를 추종하도록 미리 학습된 딥러닝 기반의 제2 음성 보정 모델을 통해 상기 제2 캐릭터 음성 정보를 보정하여 제2 캐릭터 보정 음성 정보를 출력하며; 상기 제2 캐릭터 보정 움직임 정보 및 상기 제2 캐릭터 보정 음성 정보에 기초하여 상기 제2 캐릭터의 움직임과 음성을 제어하도록 구성될 수 있다.
본 발명의 몇몇 실시예에 따른 인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 방법 및 서버는, 사용자의 움직임 및 음성에 대응하도록 캐릭터를 제어하되, 디지털 컨텐츠를 함께 이용하는 상대방 사용자의 선호 정보를 반영하여 사용자의 캐릭터를 제어하여 상대방 사용자의 관심과 흥미를 유발할 수 있어, 디지털 컨텐츠에서의 상호 작용 효과를 극대화할 수 있다.
또한, 인공 지능 기반의 감정 분석 모델을 통해 사용자를 촬영한 사용자 영상을 분석하여 사용자의 선호 정보를 용이하게 출력할 수 있다.
또한, 출력된 사용자의 선호 정보에 기초하여 사용자의 움직임에 대한 인공 지능 기반의 보정 모델을 구축할 수 있으며, 인공 지능 기반의 보정 모델을 통해 입력된 사용자 캐릭터의 동작에 대한 보정을 수행할 수 있다.
상술한 내용과 더불어 본 발명의 구체적인 효과는 이하 발명을 실시하기 위한 구체적인 사항을 설명하면서 함께 기술한다.
도 1은 본 발명의 몇몇 실시예들에 따른 인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 시스템을 설명하기 위한 개념도이다.
도 2는 센싱 장치가 사용자의 정보를 센싱하는 상황을 예시적으로 나타낸다.
도 3 및 도 4는 이미지 센서를 통해 센싱된 정보가 캐릭터에 반영되어 출력되는 화면을 예시적으로 나타낸다.
도 5는 제1 사용자의 제1 캐릭터의 움직임 제어를 설명하기 위한 예시도이다.
도 6은 본 발명의 몇몇 실시예에 따른 서버의 구성을 도시한다.
도 7은 실시예에 따른 선호 정보 수집부의 주요 구성을 도시하는 블록도이다.
도 8은 디지털 컨텐츠를 이용하는 제2 사용자를 촬영하는 제2 사용자 영상을 생성하는 상황을 예시적으로 나타낸다.
도 9는 감정 분석 모델의 입력 데이터와 출력 데이터를 예시적으로 나타낸다.
도 10은 제2 사용자의 감정 정보에 따라 결정된 분석 이미지를 예시적으로 나타낸다.
도 11은 보정 모델 학습부에 수신되는 데이터를 설명하기 위한 예시도이다.
도 12는 제2 사용자의 제1 움직임 보정 모델이 구축되는 과정을 예시적으로 나타낸다.
도 13은 제2 사용자의 제1 음성 보정 모델이 구축되는 과정을 예시적으로 나타낸다.
도 14는 본 발명의 몇몇 실시예들에 따른 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 방법의 순서도이다.
도 15는 선호 정보 수집 단계의 세부 단계를 나타내는 순서도이다.
도 16은 제1 움직임 보정 모델을 구축하는 단계의 세부 단계를 나타내는 순서도이다.
도 17은 제1 음성 보정 모델을 구축하는 단계의 세부 단계를 나타내는 순서도이다.
도 18은 도 14의 단계(S140)의 세부 단계를 나타내는 순서도이다.
본 명세서 및 특허청구범위에서 사용된 용어나 단어는 일반적이거나 사전적인 의미로 한정하여 해석되어서는 아니된다. 발명자가 그 자신의 발명을 최선의 방법으로 설명하기 위해 용어나 단어의 개념을 정의할 수 있다는 원칙에 따라, 본 발명의 기술적 사상과 부합하는 의미와 개념으로 해석되어야 한다. 또한, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명이 실현되는 하나의 실시예에 불과하고, 본 발명의 기술적 사상을 전부 대변하는 것이 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 및 응용 가능한 예들이 있을 수 있음을 이해하여야 한다.
본 명세서 및 특허청구범위에서 사용된 제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. '및/또는' 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 명세서 및 특허청구범위에서 사용된 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서 "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해서 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.
일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 본 발명의 각 실시예에 포함된 각 구성, 과정, 공정 또는 방법 등은 기술적으로 상호 간 모순되지 않는 범위 내에서 공유될 수 있다.
이하, 도 1 내지 도 18을 참조하여, 본 발명의 몇몇 실시예들에 따른 인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 시스템을 설명한다.
도 1은 본 발명의 몇몇 실시예들에 따른 인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 시스템을 설명하기 위한 개념도이다. 도 2는 센싱 장치가 사용자의 정보를 센싱하는 상황을 예시적으로 나타낸다. 도 3 및 도 4는 이미지 센서를 통해 센싱된 정보가 캐릭터에 반영되어 출력되는 화면을 예시적으로 나타낸다. 도 5는 제1 사용자의 제1 캐릭터의 움직임 제어를 설명하기 위한 예시도이다.
디지털 컨텐츠 제공 시스템(10)은 복수의 사용자에게 디지털 컨텐츠를 제공할 수 있다. 여기서, 디지털 컨텐츠는 3차원 가상 공간에 구현된 가상의 캐릭터 및 가상의 배경을 포함하는 컨텐츠를 의미한다. 복수의 사용자는 각자의 캐릭터를 생성하여 생성된 캐릭터를 통해 디지털 컨텐츠에 참여할 수 있으며, 캐릭터를 통해 서로 상호작용을 할 수 있다. 디지털 컨텐츠는 복수의 사용자가 가상 공간에서 특정 목적을 달성하기 위해 함께 참여하는 컨텐츠일 수 있다. 예를 들어, 디지털 컨텐츠는 가상 공간에서 아동의 학습 및 교육을 위해 교육자와 아동이 함께 참여하는 컨텐츠일 수 있다. 또한, 디지털 컨텐츠는 가상 공간에서 가수가 관객에게 공연을 제공하고, 관객이 가수의 공연을 즐기는 컨텐츠일 수 있다. 디지털 컨텐츠는 메타 버스(metaverse) 형태로 구성되어 둘 이상의 사용자가 생성한 캐릭터들이 참여할 수 있으며, 현실 세계와 같은 사회, 경제, 문화 활동을 수행할 수 있는 3차원 가상 세계를 복수의 사용자에게 제공하도록 구성될 수 있다.
도 1을 참조하면, 본 발명의 몇몇 실시예에 따른 디지털 컨텐츠 제공 시스템(10)은 서버(100), 복수의 사용자 장치(200)를 포함한다.
서버(100)는 디지털 컨텐츠를 이용할 수 있는 서비스 환경을 복수의 사용자 장치(200)에 제공할 수 있다. 서버(100)와 복수의 사용자 장치(200)는 서버-클라이언트 시스템으로 구현될 수 있다. 실시예에서, 서버(100)는 복수의 사용자 장치(200) 각각에 설치된 서비스 어플리케이션을 통해 서비스 환경을 사용자에게 제공할 수 있다. 여기에서, 서비스 어플리케이션은 서비스 환경을 제공하기 위한 전용 어플리케이션이거나, 웹 페이지를 통해 제공하기 위한 웹 브라우징 어플리케이션일 수 있다.
사용자 장치(200)는 유무선 통신 환경에서 서비스 어플리케이션을 동작 시킬 수 있는 사용자 단말(210)을 포함한다. 예시적인 실시예에서, 사용자 단말(210)은 퍼스널 컴퓨터(PC)일 수 있지만, 본 발명이 이에 제한되는 것은 아니며, 상술한 바와 같이 서비스 어플리케이션을 탑재할 수 있는 장치에 제한없이 적용될 수 있다. 예를 들어, 사용자 단말(210)은 스마트폰(smart phone), 노트북, 태블릿, 휴대폰, 스마트폰, 웨어러블 디바이스(예를 들어, 워치형 단말기) 등의 다양한 형태의 전자 장치를 포함할 수 있다.
사용자 단말(210)은 디지털 컨텐츠를 서버(100)로부터 수신하는 통신부, 수신된 디지털 컨텐츠가 저장되는 저장부, 수신된 디지털 컨텐츠를 표시하는 표시부, 사용자 입력을 입력받는 입력부, 상기 구성을 제어하는 제어부를 각각 포함할 수 있다.
서버(100)는 워크스테이션(workstation), 데이터 센터, 인터넷 데이터 센터(internet data center(IDC)), DAS(direct attached storage) 시스템, SAN(storage area network) 시스템, NAS(network attached storage) 시스템 및 RAID(redundant array of inexpensive disks, or redundant array of independent disks) 시스템 중 적어도 하나로 구현될 수 있으나, 본 실시예가 이에 제한되는 것은 아니다.
한편, 통신망(300)은 서버(100)와 사용자 단말(210)를 연결하는 역할을 수행한다. 즉, 통신망(300)은 사용자 단말(210)들이 서버(100)에 접속한 후 데이터를 송수신할 수 있도록 접속 경로를 제공하는 네트워크를 의미한다. 네트워크는 유선 인터넷 기술, 무선 인터넷 기술 및 근거리 통신 기술에 의한 네트워크를 포함할 수 있다. 유선 인터넷 기술은 예를 들어, 근거리 통신망(LAN, Local area network) 및 광역 통신망(WAN, wide area network) 중 적어도 하나를 포함할 수 있다.
무선 인터넷 기술은 예를 들어, 무선랜(Wireless LAN: WLAN), DLNA(Digital Living Network Alliance), 와이브로(Wireless Broadband: Wibro), 와이맥스(World Interoperability for Microwave Access: Wimax), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), IEEE 802.16, 롱 텀 에볼루션(Long Term Evolution: LTE), LTE-A(Long Term Evolution-Advanced), 광대역 무선 이동 통신 서비스(Wireless Mobile Broadband Service: WMBS) 및 5G NR(New Radio) 기술 중 적어도 하나를 포함할 수 있다. 단, 본 실시예가 이에 제한되는 것은 아니다.
근거리 통신 기술은 예를 들어, 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association: IrDA), UWB(Ultra-Wideband), 지그비(ZigBee), 인접 자장 통신(Near Field Communication: NFC), 초음파 통신(Ultra Sound Communication: USC), 가시광 통신(Visible Light Communication: VLC), 와이 파이(Wi-Fi), 와이 파이 다이렉트(Wi-Fi Direct), 5G NR (New Radio) 중 적어도 하나를 포함할 수 있다. 단, 본 실시예가 이에 제한되는 것은 아니다.
네트워크를 통해서 통신하는 서버(100) 및 사용자 단말(210)은 이동통신을 위한 기술표준 및 표준 통신 방식을 준수할 수 있다. 예를 들어, 표준 통신 방식은 GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), CDMA2000(Code Division Multi Access 2000), EV-DO(Enhanced Voice-Data Optimized or Enhanced Voice-Data Only), WCDMA(Wideband CDMA), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTEA(Long Term Evolution-Advanced) 및 5G NR(New Radio) 중 적어도 하나를 포함할 수 있다. 단, 본 실시예가 이에 제한되는 것은 아니다.
디지털 컨텐츠에서, 캐릭터의 움직임은 사용자의 움직임이 반영되어 구현될 수 있다. 사용자 장치(200)는 사용자의 움직임을 감지하는 센싱 장치(220)를 포함할 수 있다. 센싱 장치(220)는 사용자의 움직임 정보를 생성할 수 있다. 센싱 장치(220)는 사용자의 표정 변화 및 사용자의 포즈 변화를 감지할 수 있다. 센싱 장치(220)는 사용자의 신체의 적어도 일부를 실시간으로 촬영하는 카메라와 같은 이미지 센서(220A) 및 사용자의 신체의 적어도 일부에 부착된 자이로 센서와 같은 위치 센서(220B)를 포함할 수 있다.
도 2를 참조하면, 이미지 센서(220A)는 제1 사용자의 얼굴의 움직임이나 표정 변화를 수집할 수 있는 표정 변화 정보를 생성할 수 있다. 이미지 센서(220A)는 제1 사용자의 얼굴을 실시간으로 촬영하고, 촬영된 영상에서 제1 사용자의 얼굴 영역을 인식하며, 인식된 얼굴 영역을 복수의 포인트과 매핑할 수 있다. 제1 사용자의 얼굴의 움직임 또는 표정 변화에 따라 변화되는 포인트가 변화될 수 있으며, 이미지 센서(220A)는 포인트 변화를 추적하여 표정 변화 정보를 생성할 수 있다. 즉, 시간에 따른 눈 깜박임이나 입 모양 변화와 같은 얼굴의 주요 부위의 변화를 확인할 수 있는 시계열 정보인 표정 변화 정보가 이미지 센서(220A)를 통해 수집될 수 있다.
또한, 도 2에 도시된 바와 같이, 위치 센서(220B)는 제1 사용자의 신체의 일부에 부착될 수 있다. 즉, 위치 센서(220B)는 제1 사용자의 주요 신체 부위, 팔, 발목, 골반, 가슴 등에 부착될 수 있으며, 제1 사용자의 신체의 위치 변화를 인식하여 사용자의 포즈 변화 정보를 생성할 수 있다. 즉, 시간에 따른 신체의 주요 부위의 위치 변화를 확인할 수 있는 시계열 정보인 포즈 변화 정보가 위치 센서(220B)를 통해 수집될 수 있다.
또한, 센싱 장치(220)는 음성 녹음 장치(220C)를 더 포함할 수 있다. 음성 녹음 장치(220C)는 제1 사용자의 음성을 녹음하도록 구성될 수 있다. 즉, 디지털 컨텐츠를 통해 상호 작용을 하면서 발화하는 제1 사용자의 음성 정보가 음성 녹음 장치(220C)를 통해 생성될 수 있다.
센싱 장치(220)와 사용자 단말(210)은 데이터의 교환이 가능하도록 연결될 수 있다. 실시예에서, 센싱 장치(220)와 사용자 단말(210)은 근거리 무선 통신을 통해 데이터를 교환하도록 구성될 수 있으나, 이에 한정되는 것은 아니다. 센싱 장치(220)를 통해 생성되는 표정 변화 정보 및 포즈 변화 정보는 움직임 정보로 사용자 단말(210)을 통해 서버(100)로 제공될 수 있다. 서버(100)는 움직임 정보를 통해 대응되는 캐릭터의 움직임을 생성할 수 있다. 즉, 표정 변화 정보에 기초하여 캐릭터의 표정이 변화되고, 포즈 변화 정보에 기초하여 캐릭터의 포즈가 변화될 수 있다. 도 3 및 도 4를 참조하면, 실시간으로 수집되는 사용자의 움직임 정보에 기초하여 캐릭터의 표정이 구현되는 것을 알 수 있으며, 사용자의 움직임 정보의 변화에 따라 캐릭터의 표정도 변화하는 것을 알 수 있다.
또한, 센싱 장치(220)를 통해 생성되는 사용자의 음성 정보도 사용자 단말(210)을 통해 서버(100)로 제공될 수 있다. 서버(100)는 음성 정보에 기초하여 대응되는 캐릭터의 음성을 생성할 수 있다.
본 발명의 실시예에 따른 서버(100)는 사용자의 움직임에 따라 사용자에 대응되는 캐릭터를 동작 시킬 수 있으며, 사용자의 발화 내용을 추출하여 캐릭터의 음성으로 출력할 수 있다. 따라서, 가상 공간에서 복수의 캐릭터 사이의 상호 작용은 현실 세계의 사용자들의 움직임 및 음성에 기초하여 수행되게 된다.
여기서, 서버(100)는 사용자에 대응하는 캐릭터의 움직임을 가상 공간에서 상호 작용을 수행하는 상대방의 선호 정보를 더 고려하여 제어할 수 있다.
도 5를 참조하면, 교육자(부모)에 해당하는 제1 사용자의 제1 캐릭터와 학생(아동)에 해당하는 제2 사용자의 제2 캐릭터가 디지털 컨텐츠 내에서 상호 작용, 학습을 진행할 수 있다. 제1 사용자와 제2 사용자는 각각 제1 캐릭터와 제2 캐릭터를 생성할 수 있다. 제1 사용자는 제2 사용자가 학습 활동에 관심과 흥미를 더 가질 수 있도록 제2 사용자와 심리적인 상호 신뢰 관계(라포, rapport)가 형성된 캐릭터를 제1 캐릭터로 선택할 수 있다.
여기서, 제1 캐릭터는 제1 사용자의 움직임에 기초하여 움직이되, 제2 사용자가 선호하는 움직임 특성이 반영되도록 제어될 수 있다. 즉, 서버(100)는 제2 사용자가 선호하는 동작, 표정을 제1 캐릭터가 더 자연스럽게 표현하도록 제어할 수 있으며, 제2 사용자가 제1 캐릭터에 더욱 몰입하고 집중하도록 유도하여, 가상 공간에서의 상호 작용의 효과가 더욱 극대화되는 것을 지원할 수 있다.
이하, 서버(100)에서 수행되는 캐릭터의 제어 과정에 대해 더욱 상세히 설명하도록 한다. 또한, 이하의 설명은 교육자(부모)에 해당하는 제1 사용자와 학생(아동)에 해당하는 제2 사용자 사이의 상호 작용에서 제1 사용자의 제1 캐릭터의 제어에 제2 사용자의 선호 정보가 반영되는 과정 및 이를 위한 데이터 처리 과정을 설명하도록 한다. 다만, 이는 단지 예시에 불과하며, 본 발명의 사용자, 사용자의 수 및 사용자 사이의 상호 작용에 따른 데이터 처리 과정이 이에 한정되는 것은 아니다.
도 6은 본 발명의 몇몇 실시예에 따른 서버의 구성을 도시한다.
도 6을 참조하면, 서버(100)는 사용자 데이터 수집부(110), 캐릭터 데이터베이스(120), 움직임 정보 변환부(130), 음성 정보 변환부(140), 움직임 보정부(150), 음성 보정부(160), 선호 정보 수집부(170), 컨텐츠 생성부(180) 및 보정 모델 학습부(190)를 포함한다.
사용자 데이터 수집부(110)는 복수의 사용자 장치(200)로부터 사용자 데이터를 각각 수신할 수 있다. 실시예에서, 사용자 데이터는 각 사용자 장치에서 수집된 움직임 정보 및 음성 정보를 포함할 수 있다. 여기서, 움직임 정보는 표정 변화 정보와 포즈 변화 정보를 포함할 수 있다. 사용자 데이터 수집부(110)는 제1 사용자 장치로부터 제1 움직임 정보 및 제1 음성 정보를 수신할 수 있다.
여기에서, 사용자 데이터 수집부(110)는 수신된 사용자 데이터의 정규화를 수행할 수 있다. 정규화란 다양한 센서 장치에서 수집되어 다양한 포맷으로 전송되는 데이터를 하나의 일관된 포맷으로 일치시키는 작업을 의미할 수 있다. 사용자 데이터 수집부(110)는 제1 움직임 정보 및 제1 음성 정보에 대한 정규화를 각각 수행할 수 있다
사용자 데이터 수집부(110)에서 각 사용자에 대응하여 수집되고, 정규화된 움직임 정보 및 음성 정보는 각 사용자에 대응되는 캐릭터의 생성에 활용되게 된다. 즉, 제1 움직임 정보 및 제1 음성 정보에 기초하여 제1 캐릭터가 생성되고 제어되게 된다.
캐릭터 데이터베이스(120)는 캐릭터에 대한 정보 즉, 캐릭터 정보를 저장할 수 있다. 실시예에 따른 디지털 컨텐츠는 복수의 캐릭터를 제공할 수 있다. 복수의 사용자 각각은 캐릭터의 성별, 나이, 외형, 사이즈, 피부색, 의상, 기본 움직임, 음성 프로파일 등 캐릭터에 대한 세부적인 사항을 결정하여 각각 캐릭터를 생성한 상태일 수 있다. 복수의 사용자에 대응하는 캐릭터 각각에 대한 캐릭터 정보가 캐릭터 데이터베이스(120)에 저장될 수 있다. 즉, 제1 사용자의 제1 캐릭터 정보, 제2 사용자의 제2 캐릭터 정보가 캐릭터 데이터베이스(120)에 각각 저장될 수 있다. 여기서, 캐릭터는 다양한 종류로 준비될 수 있다. 예시적으로 캐릭터는 인간을 묘사하는 캐릭터일 수 있으나, 이에 한정되는 것은 아니며, 동물 캐릭터 또는 재미있는 형상을 가진 창작 캐릭터일 수 있다. 또한, 캐릭터는 적어도 가상 공간을 이동할 수 있는 신체와 캐릭터의 감정이 표시될 수 있는 얼굴을 가지도록 구성될 수 있다. 실시예에서, 사용자의 표정 변화 및 포즈 변화는 대응되는 캐릭터의 얼굴 변화 및 신체 변화에 반영될 수 있다.
움직임 정보 변환부(130)는 사용자별로 사용자 움직임 정보 및 캐릭터 정보를 수신하고, 각 사용자에 대응하는 캐릭터의 캐릭터 움직임 정보를 생성할 수 있다. 캐릭터 움직임 정보는 캐릭터의 움직임에 대한 데이터로, 사용자의 움직임 정보를 캐릭터의 특성을 반영하여 변환한 데이터일 수 있다. 캐릭터 움직임 정보는 복수의 사용자별로, 즉, 복수의 사용자 각각에 대응하는 캐릭터별로 생성될 수 있다. 예시적으로, 움직임 정보 변환부(130)는 제1 사용자 움직임 정보 및 제1 캐릭터 정보를 수신하고, 제1 캐릭터의 움직임을 나타낸 제1 캐릭터 움직임 정보를 생성할 수 있다.
음성 정보 변환부(140)는 사용자별로 사용자 음성 정보 및 캐릭터 정보를 수신하고, 각 사용자에 대응하는 캐릭터의 캐릭터 음성 정보를 생성할 수 있다. 사용자 음성 정보는 사용자의 발화 내용이 사용자의 음성 특성이 반영되어 출력되는 상태일 수 있다. 캐릭터 음성 정보는 캐릭터의 음성에 대한 데이터로, 사용자 음성 정보를 캐릭터의 특성을 반영하여 생성될 수 있다.
음성 정보 변환부(140)는 캐릭터 정보에 포함된 음성 프로파일을 사용자 음성 정보에 적용하여 사용자 음성 특성을 튜닝할 수 있다. 이에 따라, 사용자가 발화 내용이 캐릭터의 음성 특성이 반영되어 출력되는 캐릭터 음성 정보가 생성되게 된다. 캐릭터 음성 정보는 복수의 사용자별로, 즉, 복수의 사용자 각각에 대응하는 캐릭터별로 생성될 수 있다. 예시적으로, 음성 정보 변환부(130)는 제1 사용자 음성 정보 및 제1 캐릭터 정보를 수신하고, 제1 캐릭터의 음성을 출력하는 제1 캐릭터 음성 정보를 생성할 수 있다. 음성 정보 변환부(130)는 제2 사용자 음성 정보 및 제2 캐릭터 정보를 수신하고, 제2 캐릭터의 음성을 나타낸 제2 캐릭터 음성 정보를 생성할 수 있다.
움직임 보정부(150)는 움직임 보정 모델을 통해 캐릭터 움직임 정보를 보정하도록 구성된다. 움직임 보정 모델은 사용자의 캐릭터의 움직임이 상대방 사용자가 선호하는 움직임 특성이 반영되도록 사용자의 캐릭터 움직임 정보를 보정할 수 있다. 움직임 보정부(150)는 캐릭터 움직임 정보를 움직임 보정 모델을 통해 보정하여 캐릭터 보정 움직임 정보를 생성할 수 있다. 예를 들어, 제1 움직임 보정 모델은 제1 사용자에 대응하는 제1 캐릭터의 움직임이 상대방 사용자인 제2 사용자가 선호하는 움직임 특성이 반영되도록 제1 캐릭터 움직임 정보를 보정하여 제1 캐릭터 보정 움직임 정보를 생성할 수 있다. 움직임 보정 모델의 구축 과정 및 선호 정보 수집부(170)에서 상대방 사용자의 선호 정보를 수집하는 과정에 대해서는 더욱 상세히 후술하도록 한다.
음성 보정부(160)는 음성 보정 모델을 통해 캐릭터 음성 정보를 보정하도록 구성된다. 음성 보정 모델은 사용자의 캐릭터의 음성이 상대방 사용자가 선호하는 음성 특성이 반영되도록 사용자의 캐릭터 음성 정보를 보정할 수 있다. 음성 보정부(150)는 캐릭터 음성 정보를 음성 보정 모델을 통해 보정하여 캐릭터 보정 음성 정보를 생성할 수 있다. 예를 들어, 제1 음성 보정 모델은 제1 사용자에 대응하는 제1 캐릭터의 음성이 상대방 사용자인 제2 사용자가 선호하는 음성 특성이 반영되도록 제1 캐릭터 음성 정보를 보정하여 제1 캐릭터 보정 음성 정보를 생성할 수 있다. 음성 보정 모델의 구축 과정 및 선호 정보 수집부(170)에서 상대방 사용자의 선호 정보를 수집하는 과정에 대해서는 더욱 상세히 후술하도록 한다.
컨텐츠 생성부(180)는 캐릭터 보정 움직임 정보 및 캐릭터 정보에 기초하여 캐릭터 모션 시퀀스를 생성할 수 있다. 여기서, 캐릭터 정보는 캐릭터의 성별, 나이, 외형, 사이즈, 피부색, 의상 등에 해당하며, 이러한 캐릭터 정보와 캐릭터 보정 움직임 정보를 통해 캐릭터의 모션 시퀀스를 생성한다.
또한, 컨텐츠 생성부(180)는 캐릭터 정보와 캐릭터 보정 움직임 정보, 배경 정보를 고려하여 캐릭터 셰이딩 시퀀스를 생성하게 된다. 배경 정보는 미리 설정된 캐릭터가 움직이게 되는 가상 공간의 배경을 구성하기 위한 정보를 의미한다. 컨텐츠 생성부(180)는 배경 정보에 포함된 가상 공간에 관한 정보(예를 들어, 일조량, 날씨, 구름량 등)를 기초로 미리 정해진 계산식을 통하여 광원 정보를 도출할 수 있으며, 도출된 광원 정보에 기초하여 셰이딩 시퀀스가 생성될 수 있다.
여기에서, 셰이딩(Shading)은 물체와 광원 간의 거리 및 각도에 따라 물체 표면의 조도를 변화시키는 작업을 의미한다. 셰이딩(Shading) 시퀀스에서 캐릭터를 구성하는 각각의 폴리곤의 표면은 배경 정보에 따른 광원의 위치 및 밝기, 색깔에 따라 음영이 부가됨으로써 물체에 대한 입체감과 사실감이 표현되게 된다.
상술한 과정과 같이 캐릭터의 움직임과 캐릭터의 외형에 대한 그래픽 처리가 수행된 캐릭터는 캐릭터 보정 음성 정보에 따른 음성을 출력하도록 구성되게 된다. 컨텐츠 생성부(180)는 캐릭터의 모션 시퀀스, 캐릭터 셰이딩 시퀀스 및 캐릭터 보정 음성 정보에 기초하여 캐릭터를 생성하고, 디지털 컨텐츠를 생성할 수 있다. 즉, 컨텐츠 생성부(180)는 상대방 사용자의 선호 정보에 기초하여 보정된 움직임과 음성을 가진 캐릭터를 가상 공간 상에 구현하며, 캐릭터 보정 움직임 정보와 캐릭터 보정 음성 정보에 대응하여 상기 캐릭터를 제어할 수 있다. 예를 들어, 컨텐츠 생성부(180)는 제1 캐릭터 보정 움직임 정보, 제1 캐릭터 보정 음성 정보, 제1 캐릭터 정보 및 배경 정보에 기초하여 제2 사용자의 선호 정보에 기초하여 보정된 움직임과 음성을 가진 제1 캐릭터를 생성하고, 제1 캐릭터를 가상 공간 내에서 제어할 수 있다.
선호 정보 수집부(170)는 사용자별로 사용자의 캐릭터 선호 정보를 수집할 수 있다. 보정 모델 학습부(190)는 수집된 사용자의 캐릭터 선호 정보에 기초하여 움직임 보정부와 음성 보정부에서 각각 이용되는 보정 모델을 생성할 수 있다.
이하, 선호 정보 수집부에서 수행되는 캐릭터 선호 정보의 수집 과정과 및 보정 모델 학습부에서의 수행되는 보정 모델을 학습 과정에 대해 상세히 설명하도록 한다. 특히, 이하의 설명은 제2 사용자의 제1 캐릭터 선호 정보를 수집하고, 제1 캐릭터에 대한 보정 모델을 생성되는 과정이 포함되나, 본 발명의 실시예가 이에 한정되는 것은 아니며, 다른 사용자 및 캐릭터에 물론 동일하게 적용될 수 있다.
도 7은 실시예에 따른 선호 정보 수집부의 주요 구성을 도시하는 블록도이다. 도 8은 디지털 컨텐츠를 이용하는 제2 사용자를 촬영하는 제2 사용자 영상을 생성하는 상황을 예시적으로 나타낸다. 도 9는 감정 분석 모델의 입력 데이터와 출력 데이터를 예시적으로 나타낸다. 도 10은 제2 사용자의 감정 정보에 따라 결정된 분석 이미지를 예시적으로 나타낸다. 도 11은 보정 모델 학습부에 수신되는 데이터를 설명하기 위한 예시도이다. 도 12는 제2 사용자의 제1 움직임 보정 모델이 구축되는 과정을 예시적으로 나타낸다. 도 13은 제2 사용자의 제1 음성 보정 모델이 구축되는 과정을 예시적으로 나타낸다.
도 7을 참조하면, 선호 정보 수집부(170)는 사용자 영상 수집 모듈(171), 사용자 감정 분석 모듈(172), 분석 이미지 결정 모듈(173), 캐릭터 선호 움직임 결정 모듈(174), 캐릭터 선호 음성 결정 모듈(175)을 포함한다.
사용자 영상 수집 모듈(171)는 디지털 컨텐츠를 이용하는 사용자가 촬영된 사용자 영상을 수집할 수 있다. 이러한 사용자 영상은 사용자의 선호 정보를 분석하기 위한 사용자의 피드백 데이터에 해당한다.
실시예에서, 디지털 컨텐츠가 출력되는 상황에서 사용자 장치(200)는 디지털 컨텐츠를 이용하는 사용자를 실시간으로 모니터링할 수 있으며, 이미지 센서(220A)를 통해 사용자를 촬영하여 사용자 영상을 생성할 수 있다. 다만, 이에 한정되는 것은 아니며, 몇몇 실시예에서, 서버(100)는 사용자의 캐릭터 선호 정보를 수집하기 위한 캐릭터별 디지털 컨텐츠를 포함할 수 있으며, 사용자의 캐릭터 선호 정보 수집을 위해 해당 디지털 컨텐츠를 사용자에게 제공하여, 사용자의 피드백 데이터인 사용자 영상을 생성할 수 있다. 사용자 영상 수집 모듈(171)은 복수의 사용자의 사용자 장치(200)로부터 사용자 영상을 제공받을 수 있다.
도 8을 참조하면, 제2 사용자는 표시부를 통해 출력되는 제1 디지털 컨텐츠를 이용할 수 있다. 여기서, 제1 디지털 컨텐츠는 제1 캐릭터가 포함되는 디지털 컨텐츠에 해당하며, 제1 캐릭터에 대한 제2 사용자의 선호 정보를 수집하기 위해 준비된 컨텐츠일 수 있다. 제2 사용자는 제1 디지털 컨텐츠에 출력되는 내용에 따라 다양한 감정 변화가 나타날 수 있다. 기쁨, 사랑, 자신감, 존중 또는 안정과 같은 긍정 감정, 수치, 두려움, 분노, 증오, 슬픔 또는 불안과 같은 부정 감정이 나타날 수 있다. 이러한 제2 사용자의 감정의 변화는 제1 디지털 컨텐츠 특히, 제1 캐릭터의 변화에 의해 발생한 것으로, 제2 사용자의 표정 변화 및 포즈 변화가 동반되어 나타날 수 있다. 사용자 장치(200)의 이미지 센서(220A)를 통해 생성된 제2 사용자 영상은 제2 사용자의 표정 변화 및 포즈 변화를 포함할 수 있다. 즉, 제2 사용자 영상을 통해 확인되는 제2 사용자의 감정을 통해 사용자가 선호하는 움직임 정보가 판단될 수 있다.
사용자 감정 분석 모듈(172)은 디지털 컨텐츠를 이용하는 사용자 영상에서 사용자의 감정 변화를 분석하여 사용자의 감정 클래스를 결정할 수 있다. 사용자 감정 분석 모듈(172)은 미리 학습된 감정 분석 모델을 포함할 수 있으며, 감정 분석 모델을 통해 사용자 영상을 분석할 수 있다.
도 9를 참조하면, 감정 분석 모델은 제2 사용자 영상에서 제2 사용자의 표정 변화 및 포즈 변화를 프레임 이미지 별로 분석하여 제2 사용자의 감정 클래스를 결정할 수 있다. 제2 사용자 영상은 프레임에 따라 복수의 프레임 이미지로 분할될 수 있으며, 순차적으로 감정 분석 모델에 입력될 수 있다. 순차적으로 입력되는 프레임 이미지 각각에 대응하여 제2 사용자의 감정 클래스가 결정되게 된다. 감정 클래스가 결정된 프레임 이미지들이 취합되어 감정 정보를 구성하게 된다.
여기서, 감정 클래스는 긍정 감정 또는 부정 감정에 해당한다. 실시예에서, 긍정 감정은 사용자가 기쁨, 사랑, 자신감, 존중 또는 안정 상태인 것을 의미할 수 있으며, 부정 감정은 사용자가 수치, 두려움, 분노, 증오, 슬픔 또는 불안 상태인 것을 의미할 수 있다. 프레임 이미지별로 디지털 컨텐츠를 이용하는 사용자의 감정이 긍정 감정인지 또는 부정 감정인지 여부가 판단되게 된다.
실시예에서, 감정 분석 모델은 딥러닝 기반의 학습 모델을 통해 구축될 수 있다. 예를 들어, 감정 분석 모델은 DFN(Deep Feedforward Network), CNN(Convolutional Neural Network), GNN(Graph Neural Network), DNN(Deep Neural Network), RNN(Recurrent Neural Network), SVM(Support vector machine), ANN(Artificial Neural Network), LSTM(Long Short-Term Memory), GRU(Gated Recurrent Units), DRN(Deep Residual Network), GAN(Generative Adversarial Network), GCN(Graph Convolutional Network) 및 SNN(Spiking Neural Network) 중 적어도 하나를 이용하여 구축될 수 있으나, 이에 한정되는 것은 아니다.
몇몇 실시예에서, 감정 분석 모델은 컨볼루션 신경망(Convolutional Neural Network) 기반의 영상 분석 모델로 구성될 수 있다. 특히, 감정 분석 모델은 컨볼루션 신경망(Convolutional Neural Network) 기반의 기계 학습 모델 중 객체 검출에 적합한 one-stage 검출 네트워크로 구성될 수 있다. 여기서, one-stage 검출 네트워크는 사물 검출(Regional Proposal)과 클래스 분류(Classification)가 동시에 수행되는 검출 네트워크를 의미한다. 즉, 네트워크의 최종 출력단에서 객체 경계 박스를 찾는 작업과 클래스를 분류하는 작업이 동시에 수행될 수 있다.
예시적으로, 감정 분석 모델은 Yolo(You Only Look Once) 네트워크 또는 CenterNet과 같은 one-stage 검출 네트워크로 구성될 수 있으나, 이에 한정되는 것은 아니다. 실시예에서, 감정 분석 모델은 Yolo 네트워크로 구성되어 사용자의 신체 주요 부위 및 얼굴의 주요 부위 중 적어도 하나를 검출하도록 학습되며, 검출된 신체 주요 부위 및 얼굴의 주요 부위의 변화에 기반하여 사용자의 감정 클래스를 판별할 수 있다. 예시적으로, 감정 분석 모델은 눈, 입, 얼굴 전체, 머리, 손, 다리, 어깨, 신체 전체 중 적어도 하나를 검출하도록 학습되며, 검출된 부위의 변화에 따라 사용자의 감정 클래스를 분류할 수 있다.
바람직한 실시예에서, 감정 분석 모델은 실시간 사물 검출 인식 모델인 YOLO(You only look once)에 이용하여 제2 사용자 영상에서 제2 사용자의 얼굴의 주요 부위 및 신체의 주요 부위 중 적어도 하나를 식별하고, 식별된 얼굴의 주요 부위 및 신체 주요 부위 중 적어도 하나의 변화에 기초하여 제2 사용자의 감정 클래스를 긍정 감정 또는 부정 감정으로 결정하고, 결정된 클래스에 대한 확신값(confidence)을 결정된 클래스와 함께 출력하도록 구성될 수 있다. 도 10과 같이, 제2 사용자의 감정 분석을 통해 결정된 긍정 감정 클래스와 확신값(confidence)이 부여될 수 있다.
사용자 감정 분석 모듈(172)은 프레임 이미지별로 제2 사용자의 감정 클래스를 판단하게 되며, 프레임 이미지별로 감정 클래스와 확신값이 부여된 복수의 프레임 이미지를 취합하여 제2 사용자의 감정 정보를 구성할 수 있다.
분석 이미지 결정 모듈(173)은 사용자의 감정 정보에서 분석 이미지를 결정할 수 있다. 사용자의 감정 정보는 긍정 감정 클래스로 판단된 복수의 프레임 이미지와 부정 감정 클래스로 판단된 나머지 프레임 이미지로 구성될 수 있다. 예시적으로, 분석 이미지 결정 모듈(173)은 제2 사용자의 감정 정보에서 분석 이미지를 선별할 수 있다. 분석 이미지 결정 모듈(173)은 제2 사용자의 감정 정보에서 긍정 감정으로 클래스가 판단된 프레임 이미지를 1차적으로 추출할 수 있으며, 미리 설정된 임계값 이상의 확신값이 부여된 프레임 이미지를 2차적으로 추출하여 적어도 하나의 분석 이미지를 결정할 수 있다. 도 10의 이미지에 포함된 제2 사용자는 긍정 감정에 대한 확신값이 95로, 해당 이미지는 분석 이미지로 결정될 수 있다.
캐릭터 선호 움직임 결정 모듈(174)은 분석 이미지의 출력 시점에 대응되는 제1 디지털 컨텐츠에서 제1 캐릭터의 움직임 정보를 판단할 수 있다. 캐릭터 선호 움직임 결정 모듈(174)은 분석 이미지의 출력 시점에 대응되는 제1 디지털 컨텐츠에서 제1 캐릭터의 움직임 정보를 수집하여 상기 제2 사용자의 제1 캐릭터 선호 움직임 정보를 생성할 수 있다. 분석 이미지 결정 모듈(173)에서 분석 이미지가 복수로 결정되는 경우, 캐릭터 선호 움직임 결정 모듈(174)은 복수의 분석 이미지 각각에 대응하는 제1 캐릭터의 움직임 정보를 수집하게 된다.
캐릭터 선호 음성 결정 모듈(175)은 분석 이미지의 출력 시점에 대응되는 제1 디지털 컨텐츠에서 제1 캐릭터의 음성 정보를 판단할 수 있다. 캐릭터 선호 음성 결정 모듈(175)은 분석 이미지의 출력 시점에 대응되는 제1 디지털 컨텐츠에서 제1 캐릭터의 음성 정보를 수집하여 상기 제2 사용자의 제1 캐릭터 선호 음성 정보를 생성할 수 있다. 분석 이미지 결정 모듈(173)에서 분석 이미지가 복수로 결정되는 경우, 캐릭터 선호 음성 결정 모듈(175)은 복수의 분석 이미지 각각에 대응하는 제1 캐릭터의 음성 정보를 수집하게 된다.
제2 사용자는 상호 작용하는 제1 캐릭터의 움직임 및 음성에 의해 감정 변화가 나타날 수 있다. 따라서, 캐릭터 선호 움직임 결정 모듈(174), 캐릭터 선호 음성 결정 모듈(175)에서 각각 수집되는 제1 캐릭터의 움직임 정보, 음성 정보는 제2 사용자가 긍정 감정을 표현하게 된 요인일 수 있다. 즉, 제1 캐릭터의 움직임(포즈 및 표정)와 제1 캐릭터의 음성은 제2 사용자의 긍정 감정을 이끌어내는 선호 대상에 해당하는 것으로 판단될 수 있다.
캐릭터 선호 움직임 결정 모듈(174)은 수집된 제1 캐릭터의 움직임 정보를 제2 사용자의 제1 캐릭터 선호 움직임 정보로 생성하며, 캐릭터 선호 음성 결정 모듈(175)은 수집된 제1 캐릭터의 음성 정보를 제2 사용자의 제1 캐릭터 선호 음성 정보로 생성할 수 있다.
생성된 제2 사용자의 제1 캐릭터 선호 움직임 정보에 기초하여 제1 움직임 보정 모델이 학습되고, 생성된 제2 사용자의 제1 캐릭터 선호 음성 정보에 기초하여 제1 음성 보정 모델이 학습되어 구축될 수 있다.
보정 모델 학습부(190)는 움직임 보정 모델과 음성 보정 모델을 학습할 수 있다.
도 11을 참조하면, 보정 모델 학습부(190)는 캐릭터 선호 움직임 결정 모듈(174)에서 제2 사용자의 제1 캐릭터 선호 움직임 정보(FM1)를 수신하며, 캐릭터 선호 음성 결정 모듈(175)에서 제2 사용자의 제1 캐릭터 선호 음성 정보(FS1)를 수신할 수 있다. 또한, 보정 모델 학습부(190)는 제1 디지털 컨텐츠를 구성하는 제1 캐릭터 움직임 정보(DM1)를 컨텐츠 생성부(180)로부터 수신하고, 제1 디지털 컨텐츠를 구성하는 제1 캐릭터 음성 정보(DS1)를 컨텐츠 생성부(180)로부터 수신할 수 있다.
보정 모델 학습부(190)는 수신된 데이터를 기초로 학습을 위한 데이터 세트를 구성할 수 있다. 예를 들어, 보정 모델 학습(190)는 제1 디지털 컨텐츠를 구성하는 제1 캐릭터 움직임 정보와 제2 사용자의 제1 캐릭터 선호 움직임 정보를 학습 데이터 세트로 구성할 수 있다.
보정 모델 학습부(190)는 보정 모델 구축을 위한 인공지능 모듈을 포함할 수 있다. 인공지능 모듈은 딥러닝 모듈일 수 있다. 인공지능 모듈은 예를 들어, DFN(Deep Feedforward Network), CNN(Convolutional Neural Network), GNN(Graph Neural Network), DNN(Deep Neural Network), RNN(Recurrent Neural Network), SVM(Support vector machine), ANN(Artificial Neural Network), LSTM(Long Short-Term Memory), GRU(Gated Recurrent Units), DRN(Deep Residual Network), GAN(Generative Adversarial Network), GCN(Graph Convolutional Network) 및 SNN(Spiking Neural Network) 중 적어도 하나를 포함할 수 있다. 단, 본 실시예가 이에 제한되는 것은 아니다. 즉, 본 발명에서 제1 움직임 보정 모델은 입력 데이터의 종류에 따라 다양한 딥러닝 모듈이 이용될 수 있다.
보정 모델 학습부(190)은 인공지능 모듈을 학습시켜 움직임 보정 모델과 음성 보정 모델을 구축할 수 있다. 보정 모델 학습부(190)은 입력 데이터를 파라미터화 시켜 가공하는 전처리 과정을 거쳐 딥러닝 모듈에 인가하는 동작을 추가적으로 수행할 수 있음은 물론이다.
한편, 딥러닝 모듈의 인공신경망 학습은 주어진 입력에 대하여 원하는 출력이 나오도록 노드간 연결선의 웨이트(weight)를 조정(필요한 경우 바이어스(bias) 값도 조정)함으로써 이루어질 수 있다. 또한, 인공신경망은 학습에 의해 웨이트(weight) 값을 지속적으로 업데이트 시킬 수 있다. 또한, 인공신경망의 학습에는 역전파(Back Propagation) 등의 방법이 사용될 수 있다.
딥러닝 모듈은 도출된 파라미터에 대한 모델링 데이터를 입력 데이터로 하는 머신 러닝(machine learning) 기반의 개선 프로세스 추천 동작을 수행할 수 있다. 이때, 인공신경망의 머신 러닝 방법으로는 준지도학습(semi-supervised learning)과 지도학습(supervised learning)이 모두 사용될 수 있다. 또한, 딥러닝 모듈은 설정에 따라 학습 후 신용도를 출력하기 위한 인공신경망 구조를 자동 업데이트하도록 제어될 수 있다.
도 12를 참조하면, 제1 디지털 컨텐츠를 구성하는 제1 캐릭터의 움직임 정보(DM1)가 입력 데이터로 구성되며, 제2 사용자의 제1 캐릭터 선호 움직임 정보(FM1)가 출력 데이터로 구성될 수 있다. 구성된 학습 데이터 세트를 통해 보정 모델 학습부(190)는 제1 움직임 보정 모델을 구축할 수 있다.
제1 움직임 보정 모델은 제1 디지털 컨텐츠를 구성하는 제1 캐릭터 움직임 정보를 입력 노드로 하는 입력 레이어(input)와, 제2 사용자의 제1 캐릭터 선호 움직임 정보를 출력 노드로 하는 출력 레이어(Output)와, 입력 레이어와 출력 레이어 사이에 배치되는 적어도 하나의 히든 레이어를 포함한다. 여기서, 각 레이어들의 노드를 연결하는 엣지(edge)에는 가중치가 설정될 수 있다. 이러한 가중치 혹은 엣지의 유무는 학습 과정에서 추가, 제거, 또는 업데이트 될 수 있다. 따라서, 학습 과정을 통하여, 복수의 입력 노드와 출력 노드 사이에 배치되는 노드들 및 엣지들의 가중치는 업데이트될 수 있다. 즉, 딥러닝 모듈이 학습을 수행하기 전에는 모든 노드와 엣지는 초기값으로 설정될 수 있다. 그러나, 누적하여 정보가 입력될 경우, 노드 및 엣지들의 가중치는 변환되고, 이 과정에서 학습인자로 입력되는 파라미터들(제1 디지털 컨텐츠를 구성하는 제1 캐릭터 움직임 정보)과 출력 노드로 할당되는 값(제2 사용자의 제1 캐릭터 선호 움직임 정보) 사이의 매칭이 이루어질 수 있다.
상술한 학습 과정에 따라 구축된 제1 움직임 보정 모델은 입력된 제1 캐릭터 움직임 정보가 상기 제2 사용자의 제1 캐릭터 선호 움직임 정보를 추종하도록 상기 제1 캐릭터 움직임 정보를 보정하여 제1 캐릭터 보정 움직임 정보를 출력할 수 있다.
도 13을 참조하면, 제1 디지털 컨텐츠를 구성하는 제1 캐릭터의 음성 정보가 입력 데이터로 구성되며, 제2 사용자의 제1 캐릭터 선호 음성 정보가 출력 데이터로 구성될 수 있다. 구성된 학습 데이터 세트를 통해 보정 모델 학습부(190)는 제1 음성 보정 모델을 구축할 수 있다.
제1 음성 보정 모델은 제1 디지털 컨텐츠를 구성하는 제1 캐릭터 음성 정보를 입력 노드로 하는 입력 레이어(input)와, 제2 사용자의 제1 캐릭터 선호 음성 정보를 출력 노드로 하는 출력 레이어(Output)와, 입력 레이어와 출력 레이어 사이에 배치되는 적어도 하나의 히든 레이어를 포함한다. 여기서, 각 레이어들의 노드를 연결하는 엣지(edge)에는 가중치가 설정될 수 있다. 이러한 가중치 혹은 엣지의 유무는 학습 과정에서 추가, 제거, 또는 업데이트 될 수 있다. 따라서, 학습 과정을 통하여, 복수의 입력 노드와 출력 노드 사이에 배치되는 노드들 및 엣지들의 가중치는 업데이트될 수 있다. 즉, 딥러닝 모듈이 학습을 수행하기 전에는 모든 노드와 엣지는 초기값으로 설정될 수 있다. 그러나, 누적하여 정보가 입력될 경우, 노드 및 엣지들의 가중치는 변환되고, 이 과정에서 학습인자로 입력되는 파라미터들(제1 디지털 컨텐츠를 구성하는 제1 캐릭터 음성 정보)과 출력 노드로 할당되는 값(제2 사용자의 제1 캐릭터 선호 음성 정보) 사이의 매칭이 이루어질 수 있다.
상술한 학습 과정에 따라 구축된 제1 음성 보정 모델은 입력된 제1 캐릭터 음성 정보가 상기 제2 사용자의 제1 캐릭터 선호 음성 정보를 추종하도록 상기 제1 캐릭터 음성 정보를 보정하여 제1 캐릭터 보정 음성 정보를 출력할 수 있다.
상술한 제1 캐릭터의 제어에 제2 사용자의 선호 정보가 반영되는 과정은 제2 캐릭터의 제어에 동일한 방식으로 수행될 수 있다. 즉, 서버(100)는 제2 캐릭터를 제1 사용자의 선호 정보를 반영하여 제어할 수 있다. 구체적으로, 서버(100)는 상기 제2 사용자의 제2 사용자 움직임 정보, 제2 사용자 음성 정보를 수신하고; 상기 제2 사용자 움직임 정보를 상기 제2 캐릭터 움직임 정보를 변환하고, 상기 제2 사용자 음성 정보를 상기 제2 캐릭터 음성 정보로 변환하며; 상기 제2 캐릭터 움직임 정보가 상기 제1 사용자의 제2 캐릭터 선호 움직임 정보를 추종하도록 미리 학습된 딥러닝 기반의 제2 움직임 보정 모델을 통해 상기 제2 캐릭터 움직임 정보를 보정하여 제2 캐릭터 보정 움직임 정보를 출력하고; 상기 제2 캐릭터 음성 정보가 상기 제1 사용자의 제2 캐릭터 선호 음성 정보를 추종하도록 미리 학습된 딥러닝 기반의 제2 음성 보정 모델을 통해 상기 제2 캐릭터 음성 정보를 보정하여 제2 캐릭터 보정 음성 정보를 출력하며; 상기 제2 캐릭터 보정 움직임 정보 및 상기 제2 캐릭터 보정 음성 정보에 기초하여 상기 제2 캐릭터의 움직임과 음성을 제어하도록 구성될 수 있다.
본 발명의 몇몇 실시예에 따른 인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 시스템은, 사용자의 움직임 및 음성에 대응하도록 캐릭터를 제어하되, 디지털 컨텐츠를 함께 이용하는 상대방 사용자의 선호 정보를 반영하여 사용자의 캐릭터를 제어하여 상대방 사용자의 관심과 흥미를 유발할 수 있어, 디지털 컨텐츠에서의 상호 작용 효과를 극대화할 수 있다.
또한, 인공 지능 기반의 감정 분석 모델을 통해 사용자를 촬영한 사용자 영상을 분석하여 사용자의 선호 정보를 용이하게 출력할 수 있다.
또한, 출력된 사용자의 선호 정보에 기초하여 사용자의 움직임에 대한 인공 지능 기반의 보정 모델을 구축할 수 있으며, 인공 지능 기반의 보정 모델을 통해 입력된 사용자 캐릭터의 동작에 대한 보정을 수행할 수 있다.
이하, 도 14 내지 도 18을 참조하여, 본 발명의 몇몇 실시예들에 따른 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 방법을 설명한다. 실시예에 따른 디지털 컨텐츠 제공 방법은 도 1 내지 도 13에 따른 시스템의 서버에서 수행되는 방법으로, 상술한 실시예와 중복되는 부분은 간략히 하거나 생략하도록 한다.
도 14는 본 발명의 몇몇 실시예들에 따른 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 방법의 순서도이다. 도 15는 선호 정보 수집 단계의 세부 단계를 나타내는 순서도이다. 도 16은 제1 움직임 보정 모델을 구축하는 단계의 세부 단계를 나타내는 순서도이다. 도 17은 제1 음성 보정 모델을 구축하는 단계의 세부 단계를 나타내는 순서도이다. 도 18은 도 14의 단계(S140)의 세부 단계를 나타내는 순서도이다.
도 14를 참조하면, 본 발명의 몇몇 실시예들에 따른 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 방법은 제1 사용자 움직임 정보, 제1 사용자 음성 정보를 수신하는 단계(S100), 제1 사용자 움직임 정보를 상기 제1 캐릭터 움직임 정보를 변환하고, 제1 사용자 음성 정보를 상기 제1 캐릭터 음성 정보로 변환하는 단계(S110), 제1 움직임 보정 모델을 통해 상기 제1 캐릭터 움직임 정보를 보정하여 제1 캐릭터 보정 움직임 정보를 출력하는 단계(S120), 제1 음성 보정 모델을 통해 상기 제1 캐릭터 음성 정보를 보정하여 제1 캐릭터 보정 음성 정보를 출력하는 단계(S130) 및 제1 캐릭터 보정 움직임 정보 및 상기 제1 캐릭터 보정 음성 정보에 기초하여 상기 제1 캐릭터의 움직임과 음성을 제어하는 단계(S140)를 포함한다.
먼저, 제1 사용자 움직임 정보, 제1 사용자 음성 정보를 수신한다(S100).
서버(100)는 제1 사용자 장치로부터 제1 움직임 정보 및 제1 음성 정보를 수신할 수 있다. 제1 움직임 정보는 제1 사용자의 표정 변화 및 사용자의 포즈 변화에 대한 정보일 수 있다. 또한, 제1 사용자 음성 정보는 제1 사용자가 디지털 컨텐츠 내에서 상호 작용함에 따라 발화한 내용을 녹음하여 생성된 음성 정보일 수 있다. 제1 사용자 음성 정보는 제1 사용자의 발화 내용이 제1 사용자의 음성 특성이 반영되어 생성될 수 있다.
여기서, 본 단계(S100)는 움직임 정보 및 음성 정보에 대한 정규화를 수행하는 것을 포함할 수 있다. 이에 따라, 다양한 센서 장치에서 수집되어 다양한 포맷으로 전송되는 데이터를 하나의 일관된 포맷으로 일치될 수 있다.
다음으로, 제1 사용자 움직임 정보를 상기 제1 캐릭터 움직임 정보를 변환하고, 제1 사용자 음성 정보를 상기 제1 캐릭터 음성 정보로 변환한다(S110).
캐릭터 움직임 정보는 캐릭터의 움직임에 대한 데이터로, 사용자의 움직임 정보를 캐릭터의 특성을 반영하여 변환한 데이터일 수 있다. 본 단계(S100)에서, 서버(100)는 제1 사용자 움직임 정보 및 제1 캐릭터 정보를 수신하고, 제1 캐릭터의 움직임을 나타낸 제1 캐릭터 움직임 정보를 생성할 수 있다.
또한, 캐릭터 음성 정보는 캐릭터의 음성에 대한 데이터로, 사용자 음성 정보를 캐릭터의 특성을 반영하여 생성될 수 있다. 본 단계(S100)에서, 서버(100)는 캐릭터 정보에 포함된 음성 프로파일을 사용자 음성 정보에 적용하여 사용자 음성 특성을 튜닝할 수 있다. 본 단계(S100)에서, 서버(100)는 제1 사용자 음성 정보 및 제1 캐릭터 정보를 수신하고, 제1 캐릭터의 음성을 출력하는 제1 캐릭터 음성 정보를 생성할 수 있다.
다음으로, 제1 움직임 보정 모델을 통해 상기 제1 캐릭터 움직임 정보를 보정하여 제1 캐릭터 보정 움직임 정보를 출력하고(S120), 제1 음성 보정 모델을 통해 상기 제1 캐릭터 음성 정보를 보정하여 제1 캐릭터 보정 음성 정보를 출력한다(S130).
단계(S120)에서, 제1 움직임 보정 모델은 제1 사용자에 대응하는 제1 캐릭터의 움직임이 상대방 사용자인 제2 사용자가 선호하는 움직임 특성이 반영되도록 제1 캐릭터 움직임 정보를 보정하여 제1 캐릭터 보정 움직임 정보를 생성할 수 있다. 즉, 단계(S120)에서, 서버(100)는 제1 캐릭터 움직임 정보가 상기 제2 사용자의 제1 캐릭터 선호 움직임 정보를 추종하도록 미리 학습된 딥러닝 기반의 제1 움직임 보정 모델을 통해 상기 제1 캐릭터 움직임 정보를 보정하여 제1 캐릭터 보정 움직임 정보를 출력할 수 있다.
단계(S130)에서, 제1 음성 보정 모델은 제1 사용자에 대응하는 제1 캐릭터의 음성이 상대방 사용자인 제2 사용자가 선호하는 음성 특성이 반영되도록 제1 캐릭터 음성 정보를 보정하여 제1 캐릭터 보정 음성 정보를 생성할 수 있다. 즉, 단계(S130)에서, 서버(100)는 제1 캐릭터 음성 정보가 상기 제2 사용자의 제1 캐릭터 선호 음성 정보를 추종하도록 미리 학습된 딥러닝 기반의 제1 음성 보정 모델을 통해 상기 제1 캐릭터 음성 정보를 보정하여 제1 캐릭터 보정 음성 정보를 출력할 수 있다.
여기서, 제1 캐릭터 보정 움직임 정보를 출력하는 단계(S120)와 제1 캐릭터 보정 음성 정보를 출력하는 단계(S130)를 순차적으로 설명하였으나, 이는 설명의 편의를 위한 것으로 상기 단계(S120, S130)의 수행 순서가 설명된 순서에 따라 시계열적으로 수행되는 것은 아니다. 실시예에서, 단계(S130)는 단계(S120)보다 이전에 수행될 수도 있으며, 단계(S120)과 단계(S130)이 동시에 수행될 수도 있다.
여기서, 제2 사용자의 제1 캐릭터 선호 움직임 정보와 제1 캐릭터 선호 음성 정보는 상술한 단계들 이전에 미리 수집되고, 수집된 정보에 기초하여 제1 움직임 보정 모델과 제1 음성 보정 모델이 미리 각각 구축될 수 있다.
도 15를 참조하면, 본 발명의 몇몇 실시예에 따른 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 방법은 제1 디지털 컨텐츠를 이용하는 제2 사용자가 촬영된 제2 사용자 영상을 수집하는 단계(S10), 제2 사용자 영상에서 상기 제2 사용자의 감정 정보를 감정 분석 모델을 이용하여 생성하는 단계(S20), 제2 사용자의 감정 정보에서 분석 이미지를 결정하는 단계(S30), 분석 이미지의 출력 시점에 대응되는 제1 디지털 컨텐츠에서 제1 캐릭터의 움직임 정보를 수집하여 제2 사용자의 제1 캐릭터 선호 움직임 정보를 생성하는 단계(S40) 및 분석 이미지의 출력 시점에 대응되는 제1 디지털 컨텐츠에서 제1 캐릭터의 음성 정보를 수집하여 제2 사용자의 제1 캐릭터 선호 음성 정보를 생성하는 단계(S50)를 포함한다.
먼저, 제1 디지털 컨텐츠를 이용하는 제2 사용자가 촬영된 제2 사용자 영상을 상기 피드백 데이터로 수집된다(S10).
단계(S10)에서, 제2 사용자 영상을 기초로 제2 사용자의 제1 캐릭터 선호 움직임 정보와 제1 캐릭터 선호 음성 정보가 생성되게 되며, 제2 사용자 영상은 피드백 데이터로 기능하게 된다. 제1 디지털 컨텐츠는 제1 캐릭터가 포함되는 디지털 컨텐츠에 해당하며, 제1 캐릭터에 대한 제2 사용자의 선호 정보를 수집하기 위해 준비된 컨텐츠일 수 있다. 제1 디지털 컨텐츠를 이용하는 도중에 다양한 감정 변화가 나타날 수 있다. 제2 사용자의 감정의 변화는 제2 사용자의 표정 변화 및 포즈 변화가 동반되어 나타날 수 있으며, 제2 사용자 영상을 통해 확인되는 제2 사용자의 감정을 통해 사용자가 선호하는 움직임 정보가 판단될 수 있다.
제2 사용자 영상에서 상기 제2 사용자의 감정 정보를 감정 분석 모델을 이용하여 생성한다(S20).
단계(S20)에서, 감정 분석 모델은 제2 사용자 영상에서 제2 사용자의 표정 변화 및 포즈 변화를 프레임 이미지 별로 분석하여 제2 사용자의 감정 클래스를 결정할 수 있다. 상기 감정 분석 모델은 상기 제2 사용자 영상에서 상기 제2 사용자의 움직임 변화를 프레임별로 분석하여 상기 제2 사용자의 감정 클래스를 프레임 이미지별로 결정하도록 학습된 컨볼루션 신경망 기반의 분류 모델이며, 상기 감정 클래스는 긍정 감정 또는 부정 감정에 해당한다.
제2 사용자 영상은 프레임에 따라 복수의 프레임 이미지로 분할될 수 있으며, 순차적으로 감정 분석 모델에 입력될 수 있다. 순차적으로 입력되는 프레임 이미지 각각에 대응하여 제2 사용자의 감정 클래스가 결정되게 된다. 상기 감정 분석 모델은 Yolo(You Only Look Once) 네트워크로 구성되며, 상기 제2 사용자 영상에서 제2 사용자 얼굴의 주요 부위 및 신체의 주요 부위 중 적어도 하나를 식별하고, 상기 식별된 얼굴의 주요 부위 및 신체 주요 부위 중 적어도 하나의 변화에 기초하여 제2 사용자의 감정 클래스를 긍정 감정 또는 부정 감정으로 결정하고, 결정된 클래스에 대한 확신값(confidence)을 함께 출력할 수 있다.
감정 클래스가 결정된 프레임 이미지들이 취합되어 감정 정보를 구성하게 된다.
다음으로, 제2 사용자의 감정 정보에서 분석 이미지를 결정한다(S30).
단계(S30)에서, 긍정 감정으로 클래스가 판단된 프레임 이미지를 먼저 추출하고, 추출된 프레임 이미지에서 미리 설정된 임계값 이상의 확신값이 부여된 프레임 이미지를 추출하여 상기 적어도 하나의 분석 이미지를 결정할 수 있다.
다음으로, 분석 이미지의 출력 시점에 대응되는 제1 디지털 컨텐츠에서 제1 캐릭터의 움직임 정보를 수집하여 제2 사용자의 제1 캐릭터 선호 움직임 정보를 생성하고(S40), 분석 이미지의 출력 시점에 대응되는 제1 디지털 컨텐츠에서 제1 캐릭터의 음성 정보를 수집하여 제2 사용자의 제1 캐릭터 선호 음성 정보를 생성한다(S50).
제2 사용자는 상호 작용하는 제1 캐릭터의 움직임 및 음성에 의해 감정 변화가 나타날 수 있다. 따라서, 단계(S40) 및 단계(S50)에서 각각 수집되는 제1 캐릭터의 움직임 정보, 음성 정보는 제2 사용자가 긍정 감정을 표현하게 된 요인일 수 있다. 즉, 제1 캐릭터의 움직임(포즈 및 표정)와 제1 캐릭터의 음성은 제2 사용자의 긍정 감정을 이끌어내는 선호 대상에 해당하는 것으로 판단될 수 있다.
생성된 제2 사용자의 제1 캐릭터 선호 움직임 정보에 기초하여 제1 움직임 보정 모델이 인공지능 모듈을 통해 학습되어 구축되고, 생성된 제2 사용자의 제1 캐릭터 선호 음성 정보에 기초하여 제1 음성 보정 모델이 인공지능 모듈을 통해 학습되어 구축될 수 있다. 인공지능 모듈은 딥러닝 모듈일 수 있다. 딥러닝 모듈의 인공신경망 학습은 주어진 입력에 대하여 원하는 출력이 나오도록 노드간 연결선의 웨이트(weight)를 조정(필요한 경우 바이어스(bias) 값도 조정)함으로써 이루어질 수 있다. 또한, 인공신경망은 학습에 의해 웨이트(weight) 값을 지속적으로 업데이트 시킬 수 있다. 또한, 인공신경망의 학습에는 역전파(Back Propagation) 등의 방법이 사용될 수 있다.
도 16을 참조하면, 실시예에 따른 방법은 제1 디지털 컨텐츠를 구성하는 제1 캐릭터의 움직임 정보와 제2 사용자의 제1 캐릭터 선호 움직임 정보를 움직임 학습 데이터 세트로 구성하는 단계(S60)와, 움직임 학습 데이터 세트를 이용하여 인공 지능 모듈을 학습시켜 제1 움직임 보정 모델을 구축하는 단계(S70)를 포함한다.
움직임 학습 데이터 세트는 제1 디지털 컨텐츠를 구성하는 제1 캐릭터의 움직임 정보가 입력 데이터로 구성되며, 제2 사용자의 제1 캐릭터 선호 움직임 정보가 출력 데이터로 구성될 수 있다. 서버(100)는 구성된 움직임 학습 데이터 세트를 통해 제1 움직임 보정 모델을 구축할 수 있다.
도 17을 참조하면, 실시예에 따른 방법은 제1 디지털 컨텐츠를 구성하는 제1 캐릭터의 음성 정보와 제2 사용자의 제1 캐릭터 선호 음성 정보를 음성 학습 데이터 세트로 구성하는 단계(S80)와, 음성 학습 데이터 세트를 이용하여 인공 지능 모듈을 학습시켜 제1 음성 보정 모델을 구축하는 단계(S90)를 포함한다.
음성 학습 데이터 세트는 제1 디지털 컨텐츠를 구성하는 제1 캐릭터의 음성 정보가 입력 데이터로 구성되며, 제2 사용자의 제1 캐릭터 선호 음성 정보가 출력 데이터로 구성될 수 있다. 서버(100)는 구성된 음성 학습 데이터 세트를 통해 제1 음성 보정 모델을 구축할 수 있다.
상술한 단계들을 통해 미리 구축된 제1 움직임 보정 모델과 제1 음성 보정 모델을 통해 상술한 단계들(S120, S130)이 수행될 수 있다. 또한, 제1 움직임 보정 모델을 생성하는 단계(S60, S70)와 제1 음성 보정 모델을 생성하는 단계(S80, S90)는 순차적으로 설명되었으나, 이는 설명의 편의를 위한 것으로 상기 단계들의 수행 순서가 설명된 순서에 따라 시계열적으로 수행되는 것은 아니다. 실시예에서, 단계(S80, S90)는 단계(S60, S70)보다 이전에 수행될 수도 있으며, 단계(S80, S90)과 단계(S60, S70)이 동시에 수행될 수도 있다.
다시, 도 14를 참조하면, 제1 캐릭터 보정 움직임 정보 및 상기 제1 캐릭터 보정 음성 정보에 기초하여 상기 제1 캐릭터의 움직임과 음성을 제어한다(S140).
즉, 제2 사용자의 선호 정보가 반영된 제1 캐릭터의 보정 움직임 정보와 제1 캐릭터의 보정 음성 정보에 기초하여 제1 캐릭터가 움직이고, 음성을 출력하는 디지털 컨텐츠가 본 단계(S140)에서 생성된다.
구체적으로, 도 18을 참조하면, 본 단계(S140)는 제1 캐릭터 보정 움직임 정보 및 제1 캐릭터 정보에 기초하여 제1 캐릭터 모션 시퀀스를 생성하는 단계(S142), 제1 캐릭터 정보, 제1 캐릭터 보정 움직임 정보 및 배경 정보를 고려하여 제1 캐릭터 셰이딩 시퀀스를 생성하는 단계(S144), 및 제1 캐릭터 모션 시퀀스, 제1 캐릭터 셰이딩 시퀀스 및 제1 캐릭터 보정 음성 정보에 기초하여 제1 캐릭터를 제어하는 단계(S146)를 포함한다.
즉, 상대방 사용자의 선호 정보에 기초하여 보정된 움직임과 음성을 가진 제1 캐릭터가 가상 공간 상에 구현되며, 제1 캐릭터 보정 움직임 정보와 제1 캐릭터 보정 음성 정보에 대응하여 제1 캐릭터가 제어되게 된다.
실시예에 따른 인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 방법은 컴퓨터에 의해 실행 가능한 명령어 및 데이터를 저장하는, 컴퓨터로 판독 가능한 매체의 형태로도 구현될 수 있다. 이때, 명령어 및 데이터는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 소정의 프로그램 모듈을 생성하여 소정의 동작을 수행할 수 있다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터 기록 매체일 수 있는데, 컴퓨터 기록 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 예를 들어, 컴퓨터 기록 매체는 HDD 및 SSD 등과 같은 마그네틱 저장 매체, CD, DVD 및 블루레이 디스크 등과 같은 광학적 기록 매체, 또는 네트워크를 통해 접근 가능한 서버에 포함되는 메모리일 수 있다.
또한 실시예에 따른 인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 방법은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 컴퓨터 프로그램(또는 컴퓨터 프로그램 제품)으로 구현될 수도 있다. 컴퓨터 프로그램은 프로세서에 의해 처리되는 프로그래밍 가능한 기계 명령어를 포함하고, 고레벨 프로그래밍 언어(High-level Programming Language), 객체 지향 프로그래밍 언어(Object-oriented Programming Language), 어셈블리 언어 또는 기계 언어 등으로 구현될 수 있다. 또한 컴퓨터 프로그램은 유형의 컴퓨터 판독가능 기록매체(예를 들어, 메모리, 하드디스크, 자기/광학 매체 또는 SSD(Solid-State Drive) 등)에 기록될 수 있다.
따라서 실시예에 따른 인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 방법은 상술한 바와 같은 컴퓨터 프로그램이 컴퓨팅 장치에 의해 실행됨으로써 구현될 수 있다. 컴퓨팅 장치는 프로세서와, 메모리와, 저장 장치와, 메모리 및 고속 확장포트에 접속하고 있는 고속 인터페이스와, 저속 버스와 저장 장치에 접속하고 있는 저속 인터페이스 중 적어도 일부를 포함할 수 있다. 이러한 성분들 각각은 다양한 버스를 이용하여 서로 접속되어 있으며, 공통 머더보드에 탑재되거나 다른 적절한 방식으로 장착될 수 있다.
여기서 프로세서는 컴퓨팅 장치 내에서 명령어를 처리할 수 있는데, 이런 명령어로는, 예컨대 고속 인터페이스에 접속된 디스플레이처럼 외부 입력, 출력 장치상에 GUI(Graphic User Interface)를 제공하기 위한 그래픽 정보를 표시하기 위해 메모리나 저장 장치에 저장된 명령어를 들 수 있다. 다른 실시예로서, 다수의 프로세서 및(또는) 다수의 버스가 적절히 다수의 메모리 및 메모리 형태와 함께 이용될 수 있다. 또한 프로세서는 독립적인 다수의 아날로그 및(또는) 디지털 프로세서를 포함하는 칩들이 이루는 칩셋으로 구현될 수 있다.
또한 메모리는 컴퓨팅 장치 내에서 정보를 저장한다. 일례로, 메모리는 휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 다른 예로, 메모리는 비휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 또한 메모리는 예컨대, 자기 혹은 광 디스크와 같이 다른 형태의 컴퓨터 판독 가능한 매체일 수도 있다.
그리고 저장장치는 컴퓨팅 장치에게 대용량의 저장공간을 제공할 수 있다. 저장 장치는 컴퓨터 판독 가능한 매체이거나 이런 매체를 포함하는 구성일 수 있으며, 예를 들어 SAN(Storage Area Network) 내의 장치들이나 다른 구성도 포함할 수 있고, 플로피 디스크 장치, 하드 디스크 장치, 광 디스크 장치, 혹은 테이프 장치, 플래시 메모리, 그와 유사한 다른 반도체 메모리 장치 혹은 장치 어레이일 수 있다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (10)

  1. 제1 사용자에 대응하는 제1 캐릭터와 제2 사용자에 대응하는 제2 캐릭터가 가상 공간에서 상호 작용하는 디지털 컨텐츠를 제공하는 서버로,
    상기 제1 사용자의 제1 사용자 움직임 정보, 제1 사용자 음성 정보를 수신하는 사용자 데이터 수집부;
    상기 제1 캐릭터의 제1 캐릭터 정보를 저장하는 캐릭터 데이터 베이스;
    상기 제1 사용자 움직임 정보를 상기 제1 캐릭터 움직임 정보로 변환하는 움직임 정보 변환부;
    상기 제1 사용자 음성 정보를 상기 제1 캐릭터 음성 정보로 변환하는 음성 정보 변환부;
    상기 제1 캐릭터를 포함하는 제1 디지털 컨텐츠에 대한 제2 사용자의 피드백 데이터를 수집하고, 상기 수집된 피드백 데이터에 기초하여 상기 제2 사용자의 제1 캐릭터 선호 움직임 정보 및 상기 제2 사용자의 제1 캐릭터 선호 음성 정보를 생성하는 선호 정보 수집부;
    상기 제1 캐릭터 움직임 정보가 상기 제2 사용자의 제1 캐릭터 선호 움직임 정보를 추종하도록 미리 학습된 딥러닝 기반의 제1 움직임 보정 모델을 통해 상기 제1 캐릭터 움직임 정보를 보정하여 제1 캐릭터 보정 움직임 정보를 출력하는 움직임 보정부;
    상기 제1 캐릭터 음성 정보가 상기 제2 사용자의 제1 캐릭터 선호 음성 정보를 추종하도록 미리 학습된 딥러닝 기반의 제1 음성 보정 모델을 통해 상기 제1 캐릭터 음성 정보를 보정하여 제1 캐릭터 보정 음성 정보를 출력하는 음성 보정부; 및
    상기 제1 캐릭터 보정 움직임 정보 및 상기 제1 캐릭터 보정 음성 정보에 기초하여 상기 제1 캐릭터의 움직임과 음성을 제어하는 컨텐츠 생성부를 포함하고,
    상기 선호 정보 수집부는
    상기 제1 디지털 컨텐츠를 이용하는 제2 사용자가 촬영된 제2 사용자 영상을 상기 피드백 데이터로 수집하는 사용자 영상 수집 모듈;
    상기 제2 사용자 영상에서 상기 제2 사용자의 감정 정보를 딥러닝 기반의 미리 학습된 감정 분석 모델을 이용하여 생성하는 사용자 감정 분석 모듈;
    상기 제2 사용자의 감정 정보에서 적어도 하나의 분석 이미지를 결정하는 분석 이미지 결정 모듈;
    상기 분석 이미지의 출력 시점에 대응되는 제1 디지털 컨텐츠에서 제1 캐릭터의 움직임 정보를 수집하여 상기 제2 사용자의 제1 캐릭터 선호 움직임 정보를 생성하는 캐릭터 선호 움직임 결정 모듈; 및
    상기 분석 이미지의 출력 시점에 대응되는 제1 디지털 컨텐츠에서 제1 캐릭터의 음성 정보를 수집하여 상기 제2 사용자의 제1 캐릭터 선호 음성 정보를 생성하는 캐릭터 선호 음성 결정 모듈을 포함하는,
    인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 서버.
  2. 삭제
  3. 제1 항에 있어서,
    상기 감정 분석 모델은 상기 제2 사용자 영상에서 상기 제2 사용자의 움직임 변화를 프레임별로 분석하여 상기 제2 사용자의 감정 클래스를 프레임 이미지별로 결정하도록 학습된 컨볼루션 신경망 기반의 분류 모델이며,
    상기 감정 클래스는 긍정 감정 또는 부정 감정에 해당하는
    인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 서버.
  4. 제3 항에 있어서,
    상기 감정 분석 모델은 Yolo(You Only Look Once) 네트워크로 구성되며,
    상기 감정 분석 모델은,
    상기 제2 사용자 영상에서 제2 사용자 얼굴의 주요 부위 및 신체의 주요 부위 중 적어도 하나를 식별하고, 상기 식별된 얼굴의 주요 부위 및 신체 주요 부위 중 적어도 하나의 변화에 기초하여 제2 사용자의 감정 클래스를 긍정 감정 또는 부정 감정으로 결정하고, 결정된 클래스에 대한 확신값(confidence)을 함께 출력하며,
    상기 분석 이미지 결정 모듈은 긍정 감정으로 클래스가 판단된 프레임 이미지를 먼저 추출하고, 추출된 프레임 이미지에서 미리 설정된 임계값 이상의 확신값이 부여된 프레임 이미지를 추출하여 상기 적어도 하나의 분석 이미지를 결정하는
    인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 서버.
  5. 제1 항에 있어서,
    상기 제1 움직임 보정 모델과 상기 제1 음성 보정 모델을 학습하기 위한 보정 모델 학습부를 더 포함하고,
    상기 보정 모델 학습부는 인공 지능 모듈을 포함하는
    인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 서버.
  6. 제5 항에 있어서,
    상기 보정 모델 학습부는
    상기 제1 디지털 컨텐츠를 구성하는 제1 캐릭터의 움직임 정보와 상기 제2 사용자의 제1 캐릭터 선호 움직임 정보를 움직임 학습 데이터 세트로 구성하며, 상기 움직임 학습 데이터 세트를 이용하여 상기 인공 지능 모듈을 학습시켜 상기 제1 움직임 보정 모델을 구축하고,
    상기 제1 디지털 컨텐츠를 구성하는 제1 캐릭터의 음성 정보와 상기 제2 사용자의 제1 캐릭터 선호 음성 정보를 음성 학습 데이터 세트로 구성하며, 상기 음성 학습 데이터 세트를 이용하여 상기 인공 지능 모듈을 학습시켜 상기 제1 음성 보정 모델을 구축하는
    인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 서버.
  7. 제1 항에 있어서,
    상기 컨텐츠 생성부는
    상기 제1 캐릭터 보정 움직임 정보 및 상기 제1 캐릭터 정보에 기초하여 제1 캐릭터 모션 시퀀스를 생성하고,
    상기 제1 캐릭터 정보, 상기 제1 캐릭터 보정 움직임 정보 및 배경 정보를 고려하여 제1 캐릭터 셰이딩 시퀀스를 생성하며,
    상기 제1 캐릭터 모션 시퀀스, 상기 제1 캐릭터 셰이딩 시퀀스 및 상기 제1 캐릭터 보정 음성 정보에 기초하여 상기 제1 캐릭터를 제어하는
    인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 서버.
  8. 삭제
  9. 제1 사용자의 제1 사용자 움직임 정보 및 상기 제1 사용자의 제1 사용자 음성 정보를 생성하는 제1 사용자 장치;
    제2 사용자의 제2 사용자 움직임 정보 및 상기 제2 사용자의 제2 사용자 음성 정보를 생성하는 제2 사용자 장치; 및
    상기 제1 사용자에 대응하는 제1 캐릭터와 상기 제2 사용자에 대응하는 제2 캐릭터가 가상 공간에서 상호 작용하는 디지털 컨텐츠를 생성하는 서버를 포함하되,
    상기 서버는,
    상기 제1 사용자의 제1 사용자 움직임 정보, 제1 사용자 음성 정보를 수신하고;
    상기 제1 사용자 움직임 정보를 상기 제1 캐릭터 움직임 정보로 변환하고, 상기 제1 사용자 음성 정보를 상기 제1 캐릭터 음성 정보로 변환하며;
    상기 제1 캐릭터 움직임 정보가 상기 제2 사용자의 제1 캐릭터 선호 움직임 정보를 추종하도록 미리 학습된 딥러닝 기반의 제1 움직임 보정 모델을 통해 상기 제1 캐릭터 움직임 정보를 보정하여 제1 캐릭터 보정 움직임 정보를 출력하고;
    상기 제1 캐릭터 음성 정보가 상기 제2 사용자의 제1 캐릭터 선호 음성 정보를 추종하도록 미리 학습된 딥러닝 기반의 제1 음성 보정 모델을 통해 상기 제1 캐릭터 음성 정보를 보정하여 제1 캐릭터 보정 음성 정보를 출력하며;
    상기 제1 캐릭터 보정 움직임 정보 및 상기 제1 캐릭터 보정 음성 정보에 기초하여 상기 제1 캐릭터의 움직임과 음성을 제어하도록 구성되고,
    상기 서버는,
    상기 제2 사용자의 제2 사용자 움직임 정보, 제2 사용자 음성 정보를 수신하고;
    상기 제2 사용자 움직임 정보를 상기 제2 캐릭터 움직임 정보를 변환하고, 상기 제2 사용자 음성 정보를 상기 제2 캐릭터 음성 정보로 변환하며;
    상기 제2 캐릭터 움직임 정보가 상기 제1 사용자의 제2 캐릭터 선호 움직임 정보를 추종하도록 미리 학습된 딥러닝 기반의 제2 움직임 보정 모델을 통해 상기 제2 캐릭터 움직임 정보를 보정하여 제2 캐릭터 보정 움직임 정보를 출력하고;
    상기 제2 캐릭터 음성 정보가 상기 제1 사용자의 제2 캐릭터 선호 음성 정보를 추종하도록 미리 학습된 딥러닝 기반의 제2 음성 보정 모델을 통해 상기 제2 캐릭터 음성 정보를 보정하여 제2 캐릭터 보정 음성 정보를 출력하며;
    상기 제2 캐릭터 보정 움직임 정보 및 상기 제2 캐릭터 보정 음성 정보에 기초하여 상기 제2 캐릭터의 움직임과 음성을 제어하도록 구성되는
    인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 시스템.
  10. 삭제
KR1020220064028A 2022-05-25 2022-05-25 인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 방법 및 서버 KR102509449B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220064028A KR102509449B1 (ko) 2022-05-25 2022-05-25 인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 방법 및 서버

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220064028A KR102509449B1 (ko) 2022-05-25 2022-05-25 인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 방법 및 서버

Publications (1)

Publication Number Publication Date
KR102509449B1 true KR102509449B1 (ko) 2023-03-14

Family

ID=85502862

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220064028A KR102509449B1 (ko) 2022-05-25 2022-05-25 인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 방법 및 서버

Country Status (1)

Country Link
KR (1) KR102509449B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040096799A (ko) 2004-06-30 2004-11-17 주식회사 연세교육미디어 인터랙티브 출판물을 이용한 온/오프라인 통합교육 시스템및 그 구현방법
JP2009536406A (ja) * 2006-05-07 2009-10-08 株式会社ソニー・コンピュータエンタテインメント ゲームプレイ中にコンピュータ生成アバターに感情的特徴を与える方法
KR102341866B1 (ko) * 2021-08-31 2021-12-22 주식회사 에스에이엠지엔터테인먼트 메타버스 디지털아이돌을 구현하는 인공지능 기반 플랫폼 제공 시스템 및 그 방법
KR20220038959A (ko) * 2020-09-21 2022-03-29 그루브웍스 주식회사 개인 맞춤형 인공지능 키오스크 장치 및 이를 이용한 서비스 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040096799A (ko) 2004-06-30 2004-11-17 주식회사 연세교육미디어 인터랙티브 출판물을 이용한 온/오프라인 통합교육 시스템및 그 구현방법
JP2009536406A (ja) * 2006-05-07 2009-10-08 株式会社ソニー・コンピュータエンタテインメント ゲームプレイ中にコンピュータ生成アバターに感情的特徴を与える方法
KR20220038959A (ko) * 2020-09-21 2022-03-29 그루브웍스 주식회사 개인 맞춤형 인공지능 키오스크 장치 및 이를 이용한 서비스 방법
KR102341866B1 (ko) * 2021-08-31 2021-12-22 주식회사 에스에이엠지엔터테인먼트 메타버스 디지털아이돌을 구현하는 인공지능 기반 플랫폼 제공 시스템 및 그 방법

Similar Documents

Publication Publication Date Title
US11393206B2 (en) Image recognition method and apparatus, terminal, and storage medium
US11210836B2 (en) Applying artificial intelligence to generate motion information
US10922866B2 (en) Multi-dimensional puppet with photorealistic movement
US20210174072A1 (en) Microexpression-based image recognition method and apparatus, and related device
US11798261B2 (en) Image face manipulation
US9875445B2 (en) Dynamic hybrid models for multimodal analysis
US20170046568A1 (en) Systems and methods of identifying a gesture using gesture data compressed by principal joint variable analysis
WO2017161233A1 (en) Deep multi-task representation learning
WO2022052530A1 (zh) 人脸矫正模型的训练方法、装置、电子设备及存储介质
CN109711356B (zh) 一种表情识别方法和系统
CN108491808B (zh) 用于获取信息的方法及装置
Lu Application of wireless network and machine learning algorithm in entrepreneurship education of remote intelligent classroom
Gatti et al. Design and Implementation of Vision Module for Visually Impaired People
Murugesan et al. Design and Implementation of Intelligent Classroom Framework Through Light-Weight Neural Networks Based on Multimodal Sensor Data Fusion Approach.
KR102509449B1 (ko) 인공 지능 기반의 상대방 맞춤형 캐릭터 제어를 포함하는 디지털 컨텐츠 제공 방법 및 서버
KR20210019182A (ko) 나이 변환된 얼굴을 갖는 직업영상 생성 장치 및 방법
KR102120936B1 (ko) 스마트 단말의 기능을 탑재한 캐릭터 인형 제작 서비스 제공 시스템
KR20240005419A (ko) 상대방 맞춤형 캐릭터 움직임 제어를 지원하는 디지털 컨텐츠 제공 방법 및 서버
KR102555968B1 (ko) 텍스트로부터 디지털 컨텐츠를 생성하는 인공지능 기반 디지털 컨텐츠 생성 방법 및 장치
Gogineni et al. Gesture and speech recognizing helper bot
Zhang et al. Expression recognition algorithm based on CM-PFLD key point detection
KR102630872B1 (ko) 표정 인식 학습 장치 및 방법
KR102338217B1 (ko) 언어학습 시스템의 제어 방법
KR102552915B1 (ko) 가상 모델을 이용한 광고 서비스를 제공하는 방법 및 시스템
KR102203786B1 (ko) 스마트 토이를 이용한 인터렉션 서비스 제공방법 및 시스템

Legal Events

Date Code Title Description
GRNT Written decision to grant