WO2024117616A1 - System and method for providing metaverse service using digital human capable of real-time synchronization and interaction using camera and motion capture recognition - Google Patents

System and method for providing metaverse service using digital human capable of real-time synchronization and interaction using camera and motion capture recognition Download PDF

Info

Publication number
WO2024117616A1
WO2024117616A1 PCT/KR2023/018290 KR2023018290W WO2024117616A1 WO 2024117616 A1 WO2024117616 A1 WO 2024117616A1 KR 2023018290 W KR2023018290 W KR 2023018290W WO 2024117616 A1 WO2024117616 A1 WO 2024117616A1
Authority
WO
WIPO (PCT)
Prior art keywords
digital
cloud server
user
real
metaverse
Prior art date
Application number
PCT/KR2023/018290
Other languages
French (fr)
Korean (ko)
Inventor
고기훈
조풍연
Original Assignee
메타빌드주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020230032382A external-priority patent/KR20240082144A/en
Application filed by 메타빌드주식회사 filed Critical 메타빌드주식회사
Publication of WO2024117616A1 publication Critical patent/WO2024117616A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs

Definitions

  • the cloud server displays a user interface to enable selection of at least one of skin texture, skin tone, hairstyle, eye color, background image, clothing, accessory, motion, and voice on the user terminal.
  • the step of generating the rendered image further includes, if there is information input through the user interface, rendering the image to the digital human in real time according to the input information.
  • the cloud server streams the rendered image of the digital human in real time to preset terminals through web real-time communication (WebRTC).
  • WebRTC web real-time communication
  • the cloud server extracts all of the wrinkle map, the plurality of normal maps, and the plurality of displacement maps according to the tracking information.
  • the camera includes a TrueDepth camera.
  • the metaverse service method using digital humans capable of real-time synchronization and interaction is that when an application provided by the cloud server is executed on a user terminal, a camera provided in the user terminal detects the user's face. Recognizing facial expressions and motions and transmitting tracking information according to facial expression and motion changes to the cloud server; The cloud server checks the tracking information and creates a plurality of wrinkle maps, a plurality of normal maps, and a plurality of displacement maps that are each differently pre-generated according to the plurality of facial expressions.
  • the cloud server connects the tracking information according to the user's motion change with the digital human's bone and renders the digital human's body in real time to generate animation, thereby generating a rendered image of the digital human. and; A step of the cloud server transmitting a rendered image of the digital human to the user terminal in real time, and when a voice recognizer provided in the user terminal transmits voice data recognizing the user's voice to the cloud server in real time.
  • the cloud server learns the voice data through deep learning, and further includes a process of synchronizing the user's voice with the digital human's voice in real time.
  • the present invention includes a system that provides a metaverse service using digital humans capable of real-time synchronization and interaction as described above.
  • the present invention recognizes the user's facial expressions and motions in real time using a camera provided in the user terminal, and can reflect the user's facial expression and motion changes in real time on the face and body of the digital human, thereby providing the digital human's natural appearance. It is possible to express facial expressions and muscle movements more realistically.
  • hyper-realistic digital humans can be created in real time even if the user terminal is not a high-end computer, allowing more users to more easily create digital humans on various platforms. It can be applied to .
  • Figure 1 is a diagram schematically showing a system that provides a metaverse service using digital humans according to an embodiment of the present invention.
  • Figure 2 is a flowchart schematically showing a metaverse service method using digital humans according to an embodiment of the present invention.
  • Figure 3 shows an example of a screen for creating a basic character appearance of a digital human in the metaverse service method using a digital human according to an embodiment of the present invention.
  • Figure 4 shows the structure of a skin shader node in the metaverse service method using digital humans according to an embodiment of the present invention.
  • Figure 5 shows an example of recognizing a user's facial expression and rendering it on the face of a digital human in real time in the metaverse service method using a digital human according to an embodiment of the present invention.
  • Figure 6 shows an example of recognizing a user's motion and rendering it in real time on the body of a digital human in the metaverse service method using a digital human according to an embodiment of the present invention.
  • Figure 7 shows an example of an SVS model for high-performance AI vocal voice synthesis technology in the metaverse service method using digital humans according to an embodiment of the present invention.
  • Figure 8 shows an example of reflecting the clothing selected by the user on the digital human in real time in the metaverse service method using a digital human according to an embodiment of the present invention.
  • Figure 9 shows a configuration diagram of video streaming network connection middleware according to an embodiment of the present invention.
  • Figure 10 shows an example of real-time interaction with digital humans in the metaverse service method using digital humans according to an embodiment of the present invention.
  • the present invention relates to a system and method for providing a metaverse service using digital humans capable of real-time synchronization and interaction using cameras and motion capture recognition.
  • the present invention performs node structure/interface development to enable hyper-realistic expression of digital humans and customization of the user's desired form in real time in an Unreal-based real-time rendering environment, and pixel streaming This is about a system and method that allows free interaction/utilization of hyper-realistic digital humans through cloud rendering based on WebRTC.
  • Figure 1 is a diagram schematically showing a system that provides a metaverse service using digital humans according to an embodiment of the present invention.
  • a system that provides a metaverse service using digital humans includes a cloud server and a user terminal.
  • the cloud server is a service server for providing and performing metaverse services using digital humans, and provides applications.
  • the user terminal is a personal terminal possessed by the user and includes, for example, a smart phone capable of wired or wireless communication, a tablet PC, a computer, etc.
  • the application provided by the cloud server is installed on the user terminal.
  • the user terminal is equipped with a camera and a voice recognizer.
  • the camera recognizes the user's facial expression and body motion and generates tracking information according to the change in facial expression and motion.
  • the camera recognizes not only the user's facial expression but also the motion and generates motion data.
  • the camera may be a TrueDepth camera, an RGB camera, or the like. However, it is not limited to this, and of course, it is also possible to additionally use motion capture equipment to recognize the user's motion separately from the camera.
  • the voice recognizer is explained as an example of a microphone that recognizes the user's voice.
  • Middleware and an interface are provided between the cloud server and the user terminal.
  • Figure 2 is a flowchart schematically showing a metaverse service method using digital humans according to an embodiment of the present invention.
  • the camera provided in the user terminal recognizes the user's facial expressions and body motions, generates tracking information based on facial expression changes and motion changes, and transmits it to the cloud server.
  • the tracking information includes change values detected by the camera at a number of preset tracking points according to facial expression changes and motion changes when the camera recognizes the user's face.
  • different wrinkle maps, normal maps, and displacement maps are generated and stored in advance according to a plurality of facial expressions. That is, a plurality of wrinkle maps are generated in advance, different from each other according to a plurality of facial expressions.
  • a plurality of normal maps are also generated in advance depending on the plurality of facial expressions.
  • a plurality of displacement maps are also generated in advance depending on the plurality of facial expressions.
  • the wrinkle map is created to express wrinkles that appear or disappear according to changes in facial expression, and includes a number of dynamic nodes. For example, this is a map to express the wrinkles that appear on the forehead when you raise your eyes.
  • the normal map is created to express changes in the height of the face that occur when facial expressions change, and includes a number of dynamic nodes.
  • the displacement map is created to express deformation that occurs when facial expression changes, and includes a number of dynamic nodes.
  • the cloud server extracts the plurality of wrinkle maps, the plurality of normal maps, and the plurality of displacement maps, changes them according to the tracking information received from the user terminal, and renders them on the face of the digital human in real time.
  • the cloud server extracts the most similar wrinkle map among the plurality of wrinkle maps according to the tracking information and synchronizes the tracking information to each point of the wrinkle maps.
  • the cloud server can express the digital human's skin texture, etc. using a pre-built skin shader. (S4)
  • the cloud server renders a skin texture in conjunction with the dynamic nodes of the map extracted through the skin shader.
  • the basic appearance of the digital human is pre-stored in the cloud server, and the user's face is rendered on the basic appearance in real time, thereby creating a rendered image of the digital human in which changes in the user's facial expression are reflected in real time. can be created.
  • the skin shader is a shader that reflects scattering under the skin surface and enables ultra-realistic expressions such as regular reflection, multiple scattering, and single scattering for each skin layer.
  • Figure 5 shows an example of linking a camera and a digital human in real time in the metaverse service method using a digital human according to an embodiment of the present invention.
  • the digital human's natural facial expression or muscle movement can be expressed in a real-time rendering environment.
  • Figure 6 shows an example of recognizing a user's motion and rendering it in real time on the body of a digital human in the metaverse service method using a digital human according to an embodiment of the present invention.
  • the cloud server connects the user's motions with the digital human's bone based on the tracking information according to the motion change of the user's body recognized by the camera to create the digital human's body.
  • An animation is created by rendering in real time.
  • a rendered image of the digital human that reflects the user's facial expression and motion changes in real time can be generated.
  • the user's motion is explained as an example using a camera provided in the user terminal, but it is not limited to this and can of course be captured in real time using motion capture equipment provided separately from the user terminal. And, of course, it is also possible to use both the camera and the motion capture equipment.
  • the motion data recognized by the motion capture equipment is transmitted to the cloud server, and the cloud server collects, blends, transforms, and corrects the motion data to match the motion of the digital human in real time. It can be linked.
  • the cloud server can of course display a number of motion samples created in advance through the application and allow the user to select and input them.
  • the user's voice is explained as an example in which a voice recognizer provided in the user terminal recognizes it.
  • the present invention is not limited to this, and the voice recognizer may of course be provided separately from the user terminal.
  • Voice data recognized by the voice recognizer is transmitted to the cloud server.
  • the cloud server When the cloud server receives the voice data, it learns the voice data through deep learning and synthesizes the user's voice into the digital human's voice in real time.
  • the cloud server can synthesize the user's voice or a singing voice of various tones, generate a vocal voice according to lyrics, notes, and duration, and reflect it as the digital human's vocal voice.
  • Figure 7 shows an example of a SVS (Singing Voice Synthesis) model for high-performance AI vocal voice synthesis technology in the metaverse service method using digital humans according to an embodiment of the present invention.
  • the cloud server provides a user interface that allows the user to input or change at least one of skin texture, skin tone, hairstyle, eye color, background image, clothing, accessories, motion, and voice to the user terminal.
  • Customizing information entered through the user interface is transmitted to the cloud server.
  • the cloud server can reflect the customized information to the digital human in real time.
  • Figure 8 shows an example of simulating pattern-based costume production and animation changes in the metaverse service method using digital humans according to an embodiment of the present invention.
  • the cloud server can reflect the user's facial expression, motion, voice, etc. to the digital human in real time, expressing the digital human more realistically and generating a rendered image.
  • the cloud server transmits the rendered image of the digital human to the user's terminal in real time. (S6)
  • Figure 9 shows a configuration diagram of video streaming network connection middleware according to an embodiment of the present invention.
  • the cloud server supports displaying HTML5-based real-time video web pages through the Web Real-Time Communication (WebRTC) protocol.
  • WebRTC Web Real-Time Communication
  • the cloud server can transmit the rendered image to the user terminal through the web real-time communication protocol.
  • the cloud server can stream the rendered image in real time to a plurality of preset client terminals through the web real-time communication.
  • Figure 10 shows an example of real-time interaction with digital humans in the metaverse service method using digital humans according to an embodiment of the present invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Computer Graphics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Signal Processing (AREA)
  • Geometry (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Processing Or Creating Images (AREA)

Abstract

In the present invention, the facial expression and motion of the user may be recognized in real time by using a camera provided in a user terminal, and the change in facial expression and motion of the user may be reflected in the face and body of a digital human in real time, so that a natural facial expression, muscle movement, or the like of the digital human may be expressed more realistically. In addition, because customization of a user's desired form may be reflected in real time, there are advantages in that real-time interaction with the user is possible and the digital human with maximized reality may be used for a wider variety of metaverse services, such as music performances and live broadcasting services. In addition, a rendered image of the digital human is generated in a cloud server so that a hyperrealistic digital human may be generated in real time even if the user terminal is not a high-end computer, and thus, more users may more easily generate digital humans and apply the generated digital humans to various platforms.

Description

카메라와 모션캡쳐 인식을 활용한 실시간 동기화 및 인터랙션이 가능한 디지털 휴먼을 활용한 메타버스 서비스를 제공하는 시스템 및 방법A system and method for providing a metaverse service using digital humans capable of real-time synchronization and interaction using cameras and motion capture recognition
본 발명은 카메라와 모션캡쳐 인식을 활용한 실시간 동기화 및 인터랙션이 가능한 디지털 휴먼을 활용한 메타버스 서비스를 제공하는 시스템 및 방법에 관한 것으로서, 보다 상세하게는 카메라와 모션캡쳐 인식을 활용하여, 실시간 랜더링 환경에서 사용자의 표정 변화나 모션 변화를 반영하여 디지털 휴먼을 극사실적으로 표현하고, 사용자가 원하는 형태의 커스터마이징을 실시간으로 반영이 가능한 것이다.The present invention relates to a system and method for providing a metaverse service using digital humans capable of real-time synchronization and interaction using cameras and motion capture recognition. More specifically, real-time rendering using cameras and motion capture recognition. By reflecting changes in the user's facial expression or motion in the environment, digital humans can be expressed in a hyper-realistic manner, and customization in the form desired by the user can be reflected in real time.
일반적으로 메타버스(Metaverse)는 가공, 추상을 의미하는 메타(Meta)와 현실 세계를 의미하는 유니버스(Universe)의 합성어이며, 3차원 가상세계를 의미한다. 메타버스는 아바타(avatar)를 통해 실제 현실과 같은 사회, 경제, 교육, 문화, 과학 기술 활동을 할 수 있는 3차원 공간 플랫폼이다.In general, Metaverse is a compound word of Meta, meaning processing and abstraction, and Universe, meaning the real world, and refers to a three-dimensional virtual world. Metaverse is a three-dimensional space platform that allows users to engage in social, economic, educational, cultural, scientific and technological activities similar to actual reality through avatars.
이러한 메타버스에 대한 관심과 활용이 증가함에 따라 가상 세계의 아바타는 문자로만 이루어진 ID로부터 2차원 또는 3차원 사이버 캐릭터로 발전되고 있다. 더욱이 최근에는 캐릭터의 이미지 뿐만 아니라 움직임과 목소리까지 활용한 3차원 디지털 휴먼에 대한 관심이 높아지고 있다. As interest in and use of the metaverse increases, avatars in the virtual world are evolving from IDs made up of text only to two-dimensional or three-dimensional cyber characters. Moreover, recently, interest in 3D digital humans that utilize not only character images but also movements and voices is increasing.
본 발명의 목적은, 보다 사실적인 디지털 휴먼을 제작하여 실시간 인터랙션이 필요한 다양한 분야에 활용이 가능한 디지털 휴먼을 활용한 메타버스 서비스를 제공하는 시스템 및 방법을 제공하는 데 있다. The purpose of the present invention is to provide a system and method for producing more realistic digital humans and providing a metaverse service using digital humans that can be used in various fields requiring real-time interaction.
본 발명에 따른 실시간 동기화 및 인터랙션이 가능한 디지털 휴먼을 활용한 메타버스 서비스 방법은, 사용자 단말기에서 상기 클라우드 서버가 제공한 어플리케이션을 실행되면, 상기 사용자 단말기에 구비된 카메라가 사용자의 얼굴의 표정과 모션을 인식하고, 표정 변화와 모션 변화에 따른 트래킹 정보를 상기 클라우드 서버로 전송하는 단계와; 상기 클라우드 서버가 상기 트래킹 정보를 확인하고, 복수의 표정들에 따라 각각 다르게 미리 생성된 복수의 주름 맵(Wrinkle map), 복수의 노멀 맵(Normal map) 및 복수의 디스플레이스먼트 맵(Displacement map) 중 적어도 하나를 추출하고 사용자의 표정에 따른 상기 트래킹 정보에 따라 변경하여 디지털 휴먼의 얼굴에 실시간으로 랜더링하는 단계와; 상기 클라우드 서버가 사용자의 모션 변화에 따른 상기 트래킹 정보를 상기 디지털 휴먼의 뼈대(Bone)와 연결하여 상기 디지털 휴먼의 몸에 실시간으로 랜더링하여 애니메이션을 생성하여, 상기 디지털 휴먼의 랜더링 영상을 생성하는 단계와; 상기 클라우드 서버가 상기 디지털 휴먼의 랜더링 영상을 상기 사용자 단말기로 실시간으로 전송하는 단계를 포함한다.In the metaverse service method using digital humans capable of real-time synchronization and interaction according to the present invention, when an application provided by the cloud server is executed on a user terminal, a camera provided in the user terminal detects the expression and motion of the user's face. Recognizing and transmitting tracking information according to facial expression changes and motion changes to the cloud server; The cloud server checks the tracking information and creates a plurality of wrinkle maps, a plurality of normal maps, and a plurality of displacement maps that are each differently pre-generated according to the plurality of facial expressions. extracting at least one of the following, changing it according to the tracking information according to the user's facial expression, and rendering it on the face of a digital human in real time; The cloud server connects the tracking information according to the user's motion change with the digital human's bone and renders the digital human's body in real time to generate animation, thereby generating a rendered image of the digital human. and; and transmitting, by the cloud server, a rendered image of the digital human to the user terminal in real time.
상기 사용자 단말기에 구비된 음성 인식기가 사용자의 음성을 인식한 음성 데이터를 상기 클라우드 서버로 실시간으로 전송하는 단계를 더 포함한다.It further includes transmitting voice data in which the voice recognizer provided in the user terminal recognizes the user's voice to the cloud server in real time.
상기 랜더링 영상을 생성하는 단계는, 상기 클라우드 서버가 상기 음성 데이터를 딥러닝을 통해 학습하여, 사용자의 음성을 상기 디지털 휴먼의 음성으로 실시간으로 동기화하는 과정을 더 포함한다.The step of generating the rendered image further includes a process in which the cloud server learns the voice data through deep learning and synchronizes the user's voice with the digital human's voice in real time.
상기 클라우드 서버는, 상기 사용자 단말기에 피부 질감, 피부 톤, 헤어 스타일, 눈동자 색, 배경 이미지, 의상, 액세서리, 모션, 음성 중 적어도 하나를 선택 가능하도록 사용자 인터페이스를 표시한다.The cloud server displays a user interface to enable selection of at least one of skin texture, skin tone, hairstyle, eye color, background image, clothing, accessory, motion, and voice on the user terminal.
상기 랜더링 영상을 생성하는 단계는, 상기 사용자 인터페이스를 통해 입력된 정보가 있으면, 입력된 정보에 따라 상기 디지털 휴먼에 실시간으로 랜더링하는 과정을 더 포함한다.The step of generating the rendered image further includes, if there is information input through the user interface, rendering the image to the digital human in real time according to the input information.
상기 클라우드 서버는, 상기 디지털 휴먼의 랜더링 영상을 웹 실시간 통신(WebRTC)을 통해 미리 설정된 단말기들에 실시간 스트리밍한다.The cloud server streams the rendered image of the digital human in real time to preset terminals through web real-time communication (WebRTC).
상기 클라우드 서버는, 상기 트래킹 정보에 따라 상기 주름 맵(Wrinkle map), 상기 복수의 노멀 맵(Normal map) 및 상기 복수의 디스플레이스먼트 맵(Displacement map)을 모두 추출한다. The cloud server extracts all of the wrinkle map, the plurality of normal maps, and the plurality of displacement maps according to the tracking information.
상기 카메라는 트루뎁스 카메라를 포함한다.The camera includes a TrueDepth camera.
상기 트래킹 정보는, 뎁스 정보이다.The tracking information is depth information.
본 발명의 다른 측면에 따른 실시간 동기화 및 인터랙션이 가능한 디지털 휴먼을 활용한 메타버스 서비스 방법은, 사용자 단말기에서 상기 클라우드 서버가 제공한 어플리케이션을 실행되면, 상기 사용자 단말기에 구비된 카메라가 사용자의 얼굴의 표정과 모션을 인식하고, 표정 변화와 모션 변화에 따른 트래킹 정보를 상기 클라우드 서버로 전송하는 단계와; 상기 클라우드 서버가 상기 트래킹 정보를 확인하고, 복수의 표정들에 따라 각각 다르게 미리 생성된 복수의 주름 맵(Wrinkle map), 복수의 노멀 맵(Normal map) 및 복수의 디스플레이스먼트 맵(Displacement map) 중 적어도 하나를 추출하고 사용자의 표정에 따른 상기 트래킹 정보에 따라 변경하여 디지털 휴먼의 얼굴에 실시간으로 랜더링하는 단계와; 상기 클라우드 서버가 사용자의 모션 변화에 따른 상기 트래킹 정보를 상기 디지털 휴먼의 뼈대(Bone)와 연결하여 상기 디지털 휴먼의 몸에 실시간으로 랜더링하여 애니메이션을 생성하여, 상기 디지털 휴먼의 랜더링 영상을 생성하는 단계와; 상기 클라우드 서버가 상기 디지털 휴먼의 랜더링 영상을 상기 사용자 단말기로 실시간으로 전송하는 단계를 포함하고, 상기 사용자 단말기에 구비된 음성 인식기가 사용자의 음성을 인식한 음성 데이터를 상기 클라우드 서버로 실시간으로 전송하면, 상기 클라우드 서버가 상기 음성 데이터를 딥러닝을 통해 학습하여, 사용자의 음성을 상기 디지털 휴먼의 음성으로 실시간으로 동기화하는 과정을 더 포함한다.The metaverse service method using digital humans capable of real-time synchronization and interaction according to another aspect of the present invention is that when an application provided by the cloud server is executed on a user terminal, a camera provided in the user terminal detects the user's face. Recognizing facial expressions and motions and transmitting tracking information according to facial expression and motion changes to the cloud server; The cloud server checks the tracking information and creates a plurality of wrinkle maps, a plurality of normal maps, and a plurality of displacement maps that are each differently pre-generated according to the plurality of facial expressions. extracting at least one of the following, changing it according to the tracking information according to the user's facial expression, and rendering it on the face of a digital human in real time; The cloud server connects the tracking information according to the user's motion change with the digital human's bone and renders the digital human's body in real time to generate animation, thereby generating a rendered image of the digital human. and; A step of the cloud server transmitting a rendered image of the digital human to the user terminal in real time, and when a voice recognizer provided in the user terminal transmits voice data recognizing the user's voice to the cloud server in real time. , The cloud server learns the voice data through deep learning, and further includes a process of synchronizing the user's voice with the digital human's voice in real time.
본 발명은, 상기와 같은 실시간 동기화 및 인터랙션이 가능한 디지털 휴먼을 활용한 메타버스 서비스를 제공하는 시스템을 포함한다.The present invention includes a system that provides a metaverse service using digital humans capable of real-time synchronization and interaction as described above.
본 발명은, 사용자 단말기에 구비된 카메라를 이용하여 사용자의 표정과 모션을 실시간으로 인식하고, 사용자의 표정 변화와 모션 변화를 디지털 휴먼의 얼굴과 몸에 실시간으로 반영할 수 있으므로, 디지털 휴먼의 자연스러운 표정이나 근육 움직임 등을 보다 사실적으로 표현이 가능하다. The present invention recognizes the user's facial expressions and motions in real time using a camera provided in the user terminal, and can reflect the user's facial expression and motion changes in real time on the face and body of the digital human, thereby providing the digital human's natural appearance. It is possible to express facial expressions and muscle movements more realistically.
또한, 클라우드 서버에 다양한 표정에 따른 주름 맵, 노멀 맵, 디스플레이스 맵이 각각 다르게 미리 생성되어, 카메라에서 인식한 트래킹 정보에 따라 적합한 맵을 추출하여 적용시킬 수 있으므로, 사용자의 표정 변화와 모션 변화를 실시간으로 반영할 수 있다. In addition, different wrinkle maps, normal maps, and displacement maps according to various facial expressions are created in advance on the cloud server, and the appropriate map can be extracted and applied according to the tracking information recognized by the camera, so that changes in the user's facial expression and motion are possible. can be reflected in real time.
또한, 사용자가 원하는 형태의 커스터마이징을 실시간으로 반영이 가능하여, 사용자와 실시간 인터랙션이 가능하고 사실감이 극대화된 디지털 휴먼을 음악 공연, 라이브 방송 서비스 등 보다 다양한 메타버스 서비스에 활용이 가능한 이점이 있다. In addition, it is possible to reflect the user's desired customization in real time, which has the advantage of enabling real-time interaction with the user and utilizing digital humans with maximized realism in a wider variety of metaverse services such as music performances and live broadcasting services.
또한, 클라우드 서버에서 디지털 휴먼의 랜더링 영상이 생성됨으로써, 상기 사용자 단말기가 고 사양의 컴퓨터가 아니더라도 극사실적인 디지털 휴먼을 실시간으로 생성할 수 있으므로, 보다 많은 사용자들이 보다 쉽게 디지털 휴먼을 생성하여 다양한 플랫폼에 적용시킬 수 있다. In addition, by creating a rendering image of a digital human on a cloud server, hyper-realistic digital humans can be created in real time even if the user terminal is not a high-end computer, allowing more users to more easily create digital humans on various platforms. It can be applied to .
도 1은 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스를 제공하는 시스템을 개략적으로 도시한 도면이다. Figure 1 is a diagram schematically showing a system that provides a metaverse service using digital humans according to an embodiment of the present invention.
도 2는 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법을 개략적으로 나타낸 순서도이다.Figure 2 is a flowchart schematically showing a metaverse service method using digital humans according to an embodiment of the present invention.
도 3은 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법에서 디지털 휴먼의 캐릭터 기초 외형을 제작하는 화면의 일 예를 나타낸다.Figure 3 shows an example of a screen for creating a basic character appearance of a digital human in the metaverse service method using a digital human according to an embodiment of the present invention.
도 4는 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법에서 스킨 셰이더 노드의 구조를 나타낸다.Figure 4 shows the structure of a skin shader node in the metaverse service method using digital humans according to an embodiment of the present invention.
도 5는 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법에서 사용자의 표정을 인식하여 디지털 휴먼의 얼굴에 실시간으로 랜더링하는 예를 나타낸다.Figure 5 shows an example of recognizing a user's facial expression and rendering it on the face of a digital human in real time in the metaverse service method using a digital human according to an embodiment of the present invention.
도 6은 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법에서 사용자의 모션을 인식하여 디지털 휴먼의 몸에 실시간으로 랜더링하는 예를 나타낸다.Figure 6 shows an example of recognizing a user's motion and rendering it in real time on the body of a digital human in the metaverse service method using a digital human according to an embodiment of the present invention.
도 7은 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법에서 고성능 AI 보컬 음성 합성 기술을 위한 SVS모델의 예를 나타낸다.Figure 7 shows an example of an SVS model for high-performance AI vocal voice synthesis technology in the metaverse service method using digital humans according to an embodiment of the present invention.
도 8은 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법에서 사용자가 선택한 의상을 디지털 휴먼에 실시간으로 반영하는 예를 나타낸다. Figure 8 shows an example of reflecting the clothing selected by the user on the digital human in real time in the metaverse service method using a digital human according to an embodiment of the present invention.
도 9는 본 발명의 실시예에 따른 영상 스트리밍 네트워크 연계 미들웨어의 구성도를 나타낸다.Figure 9 shows a configuration diagram of video streaming network connection middleware according to an embodiment of the present invention.
도 10은 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법에서 디지털 휴먼을 실시간 인터랙션하는 예를 나타낸다.Figure 10 shows an example of real-time interaction with digital humans in the metaverse service method using digital humans according to an embodiment of the present invention.
이하, 첨부된 도면을 참조하여 본 발명의 실시예에 대해 설명하면 다음과 같다. Hereinafter, embodiments of the present invention will be described with reference to the attached drawings.
본 발명은 카메라와 모션캡쳐 인식을 활용한 실시간 동기화 및 인터랙션이 가능한 디지털 휴먼을 활용한 메타버스 서비스를 제공하는 시스템 및 방법에 대한 것이다. The present invention relates to a system and method for providing a metaverse service using digital humans capable of real-time synchronization and interaction using cameras and motion capture recognition.
도 1 내지 도 10을 참조하면, 본 발명은 언리얼 기반 실시간 렌더링 환경에서 디지털 휴먼의 극사실적인 표현과 사용자가 원하는 형태의 커스터마이징을 실시간으로 반영이 가능하도록 노드 구조/인터페이스 개발을 수행하고, 픽셀스트리밍을 활용하여 WebRTC 기반으로 클라우드 렌더링 방식을 통해 극사실적인 디지털 휴먼을 자유롭게 인터랙션/활용할 수 있도록 시스템 및 방법에 대한 것이다. Referring to Figures 1 to 10, the present invention performs node structure/interface development to enable hyper-realistic expression of digital humans and customization of the user's desired form in real time in an Unreal-based real-time rendering environment, and pixel streaming This is about a system and method that allows free interaction/utilization of hyper-realistic digital humans through cloud rendering based on WebRTC.
도 1은 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스를 제공하는 시스템을 개략적으로 도시한 도면이다. Figure 1 is a diagram schematically showing a system that provides a metaverse service using digital humans according to an embodiment of the present invention.
도 1을 참조하면, 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스를 제공하는 시스템은, 클라우드 서버와 사용자 단말기를 포함한다.Referring to FIG. 1, a system that provides a metaverse service using digital humans according to an embodiment of the present invention includes a cloud server and a user terminal.
상기 클라우드 서버는, 디지털 휴먼을 활용한 메타버스 서비스를 제공하고 수행하기 위한 서비스 서버이고, 어플리케이션을 제공한다.The cloud server is a service server for providing and performing metaverse services using digital humans, and provides applications.
상기 사용자 단말기는, 사용자가 소지하고 있는 개인 단말기이며, 예를 들어 유,무선 통신이 가능한 스마트 폰, 태블릿 PC, 컴퓨터 등을 포함한다. The user terminal is a personal terminal possessed by the user and includes, for example, a smart phone capable of wired or wireless communication, a tablet PC, a computer, etc.
상기 사용자 단말기에는 상기 클라우드 서버가 제공하는 어플리케이션이 설치된다. The application provided by the cloud server is installed on the user terminal.
상기 사용자 단말기는, 카메라와 음성 인식기 등이 구비된다. The user terminal is equipped with a camera and a voice recognizer.
상기 카메라는, 사용자의 얼굴의 표정과 몸의 모션을 인식하여 표정 변화와 모션 변화에 따른 트래킹 정보를 생성한다. 본 실시예에서는, 상기 카메라가 사용자의 표정 뿐만 아니라 모션도 인식하여, 모션 데이터를 생성하는 것으로 예를 들어 설명한다. 상기 카메라는 트루뎁스 카메라, RGB 카메라 등이 사용될 수 있다. 다만, 이에 한정되지 않고, 상기 카메라와 별도로 사용자의 모션을 인식하기 위한 모션 캡쳐 장비를 추가로 사용하는 것도 물론 가능하다. The camera recognizes the user's facial expression and body motion and generates tracking information according to the change in facial expression and motion. In this embodiment, the camera recognizes not only the user's facial expression but also the motion and generates motion data. The camera may be a TrueDepth camera, an RGB camera, or the like. However, it is not limited to this, and of course, it is also possible to additionally use motion capture equipment to recognize the user's motion separately from the camera.
상기 음성 인식기는, 사용자의 음성을 인식하는 마이크인 것으로 예를 들어 설명한다. The voice recognizer is explained as an example of a microphone that recognizes the user's voice.
상기 클라우드 서버와 상기 사용자 단말기 사이에는 미들웨어 및 인터페이스가 구비된다.Middleware and an interface are provided between the cloud server and the user terminal.
상기 클라우드 서버와 상기 사용자 단말기는 웹 실시간 통신(WebRTC) 기반으로 통신한다. The cloud server and the user terminal communicate based on web real-time communication (WebRTC).
도 2는 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법을 개략적으로 나타낸 순서도이다.Figure 2 is a flowchart schematically showing a metaverse service method using digital humans according to an embodiment of the present invention.
도 2를 참조하여, 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법을 설명하면 다음과 같다.With reference to FIG. 2, a metaverse service method using digital humans according to an embodiment of the present invention will be described as follows.
먼저, 사용자 단말기에서 상기 클라우드 서버가 제공한 어플리케이션을 실행한다.(S1)First, run the application provided by the cloud server on the user terminal (S1).
상기 어플리케이션을 실행하면, 상기 사용자 단말기에 구비된 상기 카메라가 사용자의 얼굴의 표정과 몸의 모션을 인식하여, 표정 변화와 모션 변화에 트래킹 정보를 생성하여 상기 클라우드 서버로 전송한다.(S2)When the application is executed, the camera provided in the user terminal recognizes the user's facial expressions and body motions, generates tracking information based on facial expression changes and motion changes, and transmits it to the cloud server. (S2)
상기 트래킹 정보는, 상기 카메라가 사용자의 얼굴을 인식하고 표정 변화와 모션 변화에 따라 미리 설정된 다수의 트래킹 포인트에서 검출한 변화값을 포함한다. The tracking information includes change values detected by the camera at a number of preset tracking points according to facial expression changes and motion changes when the camera recognizes the user's face.
상기 클라우드 서버에는 복수의 표정들에 따라 주름 맵(Wrinkle map), 노멀 맵(Normal map), 디스플레이스먼트 맵(Displacement map)이 각각 다르게 생성되어 미리 저장된다. 즉, 상기 주름 맵은 복수의 표정들에 따라 다르게 복수개가 미리 생성된다. 상기 노멀 맵도 복수의 표정들에 따라 다르게 복수개가 미리 생성된다. 상기 디스플레이스먼트 맵도 복수의 표정들에 따라 다르게 복수개가 미리 생성된다. In the cloud server, different wrinkle maps, normal maps, and displacement maps are generated and stored in advance according to a plurality of facial expressions. That is, a plurality of wrinkle maps are generated in advance, different from each other according to a plurality of facial expressions. A plurality of normal maps are also generated in advance depending on the plurality of facial expressions. A plurality of displacement maps are also generated in advance depending on the plurality of facial expressions.
여기서, 상기 주름 맵은, 표정 변화에 따라 발생 또는 소멸되는 주름을 표현하기 위해 만들어지고, 다수의 동적 노드들을 포함한다. 예를 들어, 눈을 치켜뜰 때 이마에 발생하는 주름을 표현하기 위한 맵이다. Here, the wrinkle map is created to express wrinkles that appear or disappear according to changes in facial expression, and includes a number of dynamic nodes. For example, this is a map to express the wrinkles that appear on the forehead when you raise your eyes.
상기 노멀 맵은, 표정 변화시 발생되는 얼굴의 높낮이 변화 등을 표현하기 위해 만들어지고, 다수의 동적 노드들을 포함한다. The normal map is created to express changes in the height of the face that occur when facial expressions change, and includes a number of dynamic nodes.
상기 디스플레이스먼트 맵은, 표정 변화시 발생되는 변형 등을 표현하기 위해 만들어지고, 다수의 동적 노드들을 포함한다. The displacement map is created to express deformation that occurs when facial expression changes, and includes a number of dynamic nodes.
상기 클라우드 서버는, 상기 복수의 주름 맵들, 복수의 노멀 맵들, 복수의 디스플레이스먼트 맵들을 각각 추출하여, 상기 사용자 단말기로부터 수신한 트래킹 정보에 따라 변경하여 디지털 휴먼의 얼굴에 실시간으로 랜더링한다.(S3)The cloud server extracts the plurality of wrinkle maps, the plurality of normal maps, and the plurality of displacement maps, changes them according to the tracking information received from the user terminal, and renders them on the face of the digital human in real time. ( S3)
예를 들어, 상기 클라우드 서버는, 상기 트래킹 정보에 따라 상기 복수의 주름 맵들 중에서 가장 유사한 하나의 주름 맵을 추출하고 상기 주름 맵들의 각 포인트들에 상기 트래킹 정보를 동기화시킨다.For example, the cloud server extracts the most similar wrinkle map among the plurality of wrinkle maps according to the tracking information and synchronizes the tracking information to each point of the wrinkle maps.
또한, 상기 클라우드 서버는 미리 구축된 스킨 셰이더(Skin shader)를 이용하여, 상기 디지털 휴먼의 피부 텍스쳐 등을 표현할 수 있다.(S4)Additionally, the cloud server can express the digital human's skin texture, etc. using a pre-built skin shader. (S4)
상기 클라우드 서버는 상기 스킨 셰이더를 통해 상기에서 추출된 맵의 동적 노드와 연동하여 피부 텍스쳐를 랜더링한다. The cloud server renders a skin texture in conjunction with the dynamic nodes of the map extracted through the skin shader.
도 3을 참조하면, 상기 클라우드 서버에는 디지털 휴먼의 기초 외형이 미리 저장되어 있으며, 상기 기초 외형에 상기 사용자의 얼굴을 실시간으로 랜더링함으로써, 사용자의 표정 변화가 실시간으로 반영되는 디지털 휴먼의 랜더링 영상을 생성할 수 있다. Referring to FIG. 3, the basic appearance of the digital human is pre-stored in the cloud server, and the user's face is rendered on the basic appearance in real time, thereby creating a rendered image of the digital human in which changes in the user's facial expression are reflected in real time. can be created.
도 4를 참조하면, 상기 스킨 셰이더는 피부 표면 하 산란을 반영하여 피부층별 정반사, 다중산란, 단일산란 등 극사실적인 표현이 가능한 셰이더이다. Referring to FIG. 4, the skin shader is a shader that reflects scattering under the skin surface and enables ultra-realistic expressions such as regular reflection, multiple scattering, and single scattering for each skin layer.
도 5는 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법에서 카메라와 디지털 휴먼을 실시간으로 연동하는 예를 나타낸다.Figure 5 shows an example of linking a camera and a digital human in real time in the metaverse service method using a digital human according to an embodiment of the present invention.
따라서, 상기 카메라에서 인식한 사용자의 표정 변화에 따른 상기 트래킹 정보를 기반으로 상기 스킨 셰이더와 상기 복수의 맵들을 적용시켜, 실시간 랜더링 환경에서 상기 디지털 휴먼의 자연스러운 표정이나 근육 움직임 등이 표현될 수 있다. Therefore, by applying the skin shader and the plurality of maps based on the tracking information according to the change in the user's facial expression recognized by the camera, the digital human's natural facial expression or muscle movement can be expressed in a real-time rendering environment. .
도 6은 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법에서 사용자의 모션을 인식하여 디지털 휴먼의 몸에 실시간으로 랜더링하는 예를 나타낸다.Figure 6 shows an example of recognizing a user's motion and rendering it in real time on the body of a digital human in the metaverse service method using a digital human according to an embodiment of the present invention.
도 6을 참조하면, 상기 클라우드 서버는, 상기 카메라에서 인식한 사용자의 몸의 모션 변화에 따른 상기 트래킹 정보를 기반으로 사용자의 모션들을 상기 디지털 휴먼의 뼈대(Bone)와 연결하여 상기 디지털 휴먼의 몸에 실시간으로 랜더링하여 애니메이션을 생성한다.(S5)Referring to FIG. 6, the cloud server connects the user's motions with the digital human's bone based on the tracking information according to the motion change of the user's body recognized by the camera to create the digital human's body. An animation is created by rendering in real time. (S5)
따라서, 사용자의 표정 변화와 모션 변화가 실시간으로 반영된 상기 디지털 휴먼의 랜더링 영상이 생성될 수 있다.Accordingly, a rendered image of the digital human that reflects the user's facial expression and motion changes in real time can be generated.
본 실시예에서는, 상기 사용자의 모션은 상기 사용자 단말기에 구비된 카메라를 이용하는 것으로 예를 들어 설명하였으나, 이에 한정되지 않고 상기 사용자 단말기와 별도로 구비된 모션 캡쳐 장비를 이용하여 실시간으로 캡쳐하는 것도 물론 가능하고, 상기 카메라와 상기 모션 캡쳐 장비를 모두 사용하는 것도 물론 가능하다. 상기 모션 캡쳐 장비를 사용할 경우, 상기 모션 캡쳐 장비가 인식한 모션 데이터는 상기 클라우드 서버로 전송되고, 상기 클라우드 서버는 상기 모션 데이터를 수집, 블랜딩, 변형 및 보정하여, 상기 디지털 휴먼의 모션으로 실시간으로 연동할 수 있다. In this embodiment, the user's motion is explained as an example using a camera provided in the user terminal, but it is not limited to this and can of course be captured in real time using motion capture equipment provided separately from the user terminal. And, of course, it is also possible to use both the camera and the motion capture equipment. When using the motion capture equipment, the motion data recognized by the motion capture equipment is transmitted to the cloud server, and the cloud server collects, blends, transforms, and corrects the motion data to match the motion of the digital human in real time. It can be linked.
또한, 상기 클라우드 서버는 상기 어플리케이션을 통해 미리 생성된 다수의 모션 샘플들을 표시하여 사용자가 선택하여 입력하도록 하는 것도 물론 가능하다. In addition, the cloud server can of course display a number of motion samples created in advance through the application and allow the user to select and input them.
또한, 사용자의 표정과 모션 뿐만 아니라 음성도 인식하여, 상기 디지털 휴먼의 음성으로 실시간 동기화하는 것도 물론 가능하다. In addition, it is also possible to recognize not only the user's facial expressions and motions but also the voice, and synchronize real-time with the digital human's voice.
한편, 사용자의 음성은 상기 사용자 단말기에 구비된 음성 인식기가 인식하는 것으로 예를 들어 설명한다. 다만, 이에 한정되지 않고, 상기 음성 인식기는 상기 사용자 단말기와 별도로 구비된 것도 물론 가능하다. Meanwhile, the user's voice is explained as an example in which a voice recognizer provided in the user terminal recognizes it. However, the present invention is not limited to this, and the voice recognizer may of course be provided separately from the user terminal.
상기 음성 인식기가 인식한 음성 데이터는 상기 클라우드 서버로 전송된다. Voice data recognized by the voice recognizer is transmitted to the cloud server.
상기 클라우드 서버가 상기 음성 데이터를 수신하면, 상기 음성 데이터를 딥러닝을 통해 학습하여, 사용자의 음성을 상기 디지털 휴먼의 음성으로 실시간으로 합성한다. When the cloud server receives the voice data, it learns the voice data through deep learning and synthesizes the user's voice into the digital human's voice in real time.
또한, 상기 클라우드 서버는 사용자의 음성 또는 다양한 음색의 노래 목소리를 합성하여, 가사, 음표, 지속시간에 따른 보컬 음성을 생성하여 상기 디지털 휴먼의 보컬 음성으로 반영할 수 있다.Additionally, the cloud server can synthesize the user's voice or a singing voice of various tones, generate a vocal voice according to lyrics, notes, and duration, and reflect it as the digital human's vocal voice.
도 7은 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법에서 고성능 AI 보컬 음성 합성 기술을 위한 SVS(Singing Voice Synthesis) 모델의 예를 나타낸다.Figure 7 shows an example of a SVS (Singing Voice Synthesis) model for high-performance AI vocal voice synthesis technology in the metaverse service method using digital humans according to an embodiment of the present invention.
또한, 상기 클라우드 서버는, 상기 사용자 단말기에 피부 질감, 피부 톤, 헤어 스타일, 눈동자 색, 배경 이미지, 의상, 액세서리, 모션, 음성 중 적어도 하나를 사용자가 입력하거나 변경가능하도록 사용자 인터페이스를 제공한다. Additionally, the cloud server provides a user interface that allows the user to input or change at least one of skin texture, skin tone, hairstyle, eye color, background image, clothing, accessories, motion, and voice to the user terminal.
상기 사용자 인터페이스를 통해 입력된 커스터마이징 정보는 상기 클라우드 서버로 전송된다. Customizing information entered through the user interface is transmitted to the cloud server.
상기 클라우드 서버는 상기 커스터마이징 정보에 따라 상기 디지털 휴먼에 실시간으로 반영할 수 있다. The cloud server can reflect the customized information to the digital human in real time.
따라서, 사용자의 실시간 인터랙션이 가능하다. Therefore, real-time user interaction is possible.
도 8은 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법에서 패턴 기반 복식 제작 및 애니메이션 변화에 따른 시뮬레이션하는 예를 나타낸다. Figure 8 shows an example of simulating pattern-based costume production and animation changes in the metaverse service method using digital humans according to an embodiment of the present invention.
상기와 같이, 상기 클라우드 서버는 사용자의 표정, 모션, 음성 등을 디지털 휴먼에 실시간으로 반영하여, 상기 디지털 휴먼을 보다 극사실적으로 표현하여 랜더링 영상을 생성할 수 있다. As described above, the cloud server can reflect the user's facial expression, motion, voice, etc. to the digital human in real time, expressing the digital human more realistically and generating a rendered image.
상기 클라우드 서버는 상기 디지털 휴먼의 랜더링 영상을 상기 사용자의 단말기로 실시간으로 전송한다.(S6)The cloud server transmits the rendered image of the digital human to the user's terminal in real time. (S6)
도 9는 본 발명의 실시예에 따른 영상 스트리밍 네트워크 연계 미들웨어의 구성도를 나타낸다.Figure 9 shows a configuration diagram of video streaming network connection middleware according to an embodiment of the present invention.
상기 클라우드 서버는 웹 실시간 통신(WebRTC) 프로토콜을 통해 HTML5 기반 실시간 영상 웹페이지 표출을 지원한다. The cloud server supports displaying HTML5-based real-time video web pages through the Web Real-Time Communication (WebRTC) protocol.
따라서, 상기 클라우드 서버는, 상기 웹 실시간 통신 프로토콜을 통해 상기 사용자 단말기에 상기 랜더링 영상을 송출해줄 수 있다. Accordingly, the cloud server can transmit the rendered image to the user terminal through the web real-time communication protocol.
또한, 상기 클라우드 서버는, 미리 설정된 다수의 클라이언트 단말기들에 상기 웹 실시간 통신을 통해 상기 랜더링 영상을 실시간으로 스트리밍할 수 있다. Additionally, the cloud server can stream the rendered image in real time to a plurality of preset client terminals through the web real-time communication.
도 10은 본 발명의 실시예에 따른 디지털 휴먼을 활용한 메타버스 서비스 방법에서 디지털 휴먼을 실시간 인터랙션하는 예를 나타낸다.Figure 10 shows an example of real-time interaction with digital humans in the metaverse service method using digital humans according to an embodiment of the present invention.
상기와 같이 상기 클라우드 서버에서 상기 디지털 휴먼의 랜더링 영상이 생성됨으로써, 상기 사용자 단말기가 고 사양의 컴퓨터가 아니더라도 극사실적인 디지털 휴먼을 실시간으로 인터랙션할 수 있다. As a rendered image of the digital human is generated in the cloud server as described above, it is possible to interact with a hyper-realistic digital human in real time even if the user terminal is not a high-end computer.
또한, 개개인이 디지털 휴먼을 생성하여 다양한 플랫폼에 이용하는 것이 보다 용이해질 수 있다. Additionally, it may become easier for individuals to create digital humans and use them on various platforms.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.The present invention has been described with reference to the embodiments shown in the drawings, but these are merely exemplary, and those skilled in the art will understand that various modifications and equivalent other embodiments are possible therefrom. Therefore, the true scope of technical protection of the present invention should be determined by the technical spirit of the attached patent claims.
본 발명에 따르면, 사용자의 표정 변화와 모션 변화를 실시간으로 반영한 디지털 휴먼을 활용한 메타버스 서비스를 제공할 수 있다. According to the present invention, it is possible to provide a metaverse service using a digital human that reflects the user's facial expression and motion changes in real time.

Claims (12)

  1. 사용자 단말기에서 상기 클라우드 서버가 제공한 어플리케이션을 실행되면, 상기 사용자 단말기에 구비된 카메라가 사용자의 얼굴의 표정과 모션을 인식하고, 표정 변화와 모션 변화에 따른 트래킹 정보를 상기 클라우드 서버로 전송하는 단계와;When the application provided by the cloud server is executed on the user terminal, the camera provided in the user terminal recognizes the expression and motion of the user's face, and transmits tracking information according to the change in expression and motion to the cloud server. and;
    상기 클라우드 서버가 상기 트래킹 정보를 확인하고, 복수의 표정들에 따라 각각 다르게 미리 생성된 복수의 주름 맵(Wrinkle map), 복수의 노멀 맵(Normal map) 및 복수의 디스플레이스먼트 맵(Displacement map) 중 적어도 하나를 추출하고 사용자의 표정에 따른 상기 트래킹 정보에 따라 변경하여 디지털 휴먼의 얼굴에 실시간으로 랜더링하는 단계와;The cloud server checks the tracking information and creates a plurality of wrinkle maps, a plurality of normal maps, and a plurality of displacement maps that are each differently pre-generated according to the plurality of facial expressions. extracting at least one of the following, changing it according to the tracking information according to the user's facial expression, and rendering it on the face of a digital human in real time;
    상기 클라우드 서버가 사용자의 모션 변화에 따른 상기 트래킹 정보를 상기 디지털 휴먼의 뼈대(Bone)와 연결하여 상기 디지털 휴먼의 몸에 실시간으로 랜더링하여 애니메이션을 생성하여, 상기 디지털 휴먼의 랜더링 영상을 생성하는 단계와;The cloud server connects the tracking information according to the user's motion change with the digital human's bone and renders the digital human's body in real time to generate animation, thereby generating a rendered image of the digital human. and;
    상기 클라우드 서버가 상기 디지털 휴먼의 랜더링 영상을 상기 사용자 단말기로 실시간으로 전송하는 단계를 포함하는,Comprising the step of the cloud server transmitting the rendered image of the digital human to the user terminal in real time,
    실시간 동기화 및 인터랙션이 가능한 디지털 휴먼을 활용한 메타버스 서비스 방법.Metaverse service method using digital humans capable of real-time synchronization and interaction.
  2. 청구항 1에 있어서,In claim 1,
    상기 사용자 단말기에 구비된 음성 인식기가 사용자의 음성을 인식한 음성 데이터를 상기 클라우드 서버로 실시간으로 전송하는 단계를 더 포함하는,Further comprising transmitting voice data in which the voice recognizer provided in the user terminal recognizes the user's voice to the cloud server in real time,
    실시간 동기화 및 인터랙션이 가능한 디지털 휴먼을 활용한 메타버스 서비스 방법.Metaverse service method using digital humans capable of real-time synchronization and interaction.
  3. 청구항 2에 있어서,In claim 2,
    상기 랜더링 영상을 생성하는 단계는,The step of generating the rendered image is,
    상기 클라우드 서버가 상기 음성 데이터를 딥러닝을 통해 학습하여, 사용자의 음성을 상기 디지털 휴먼의 음성으로 실시간으로 동기화하는 과정을 더 포함하는,Further comprising the process of the cloud server learning the voice data through deep learning and synchronizing the user's voice with the digital human's voice in real time,
    실시간 동기화 및 인터랙션이 가능한 디지털 휴먼을 활용한 메타버스 서비스 방법.Metaverse service method using digital humans capable of real-time synchronization and interaction.
  4. 청구항 1에 있어서,In claim 1,
    상기 클라우드 서버는,The cloud server is,
    상기 사용자 단말기에 피부 질감, 피부 톤, 헤어 스타일, 눈동자 색, 배경 이미지, 의상, 액세서리, 모션, 음성 중 적어도 하나를 선택 가능하도록 사용자 인터페이스를 표시하는,Displaying a user interface to enable selection of at least one of skin texture, skin tone, hairstyle, eye color, background image, costume, accessory, motion, and voice on the user terminal,
    실시간 동기화 및 인터랙션이 가능한 디지털 휴먼을 활용한 메타버스 서비스 방법.Metaverse service method using digital humans capable of real-time synchronization and interaction.
  5. 청구항 4에 있어서,In claim 4,
    상기 랜더링 영상을 생성하는 단계는,The step of generating the rendered image is,
    상기 사용자 인터페이스를 통해 입력된 정보가 있으면, 입력된 정보에 따라 상기 디지털 휴먼에 실시간으로 랜더링하는 과정을 더 포함하는,If there is information input through the user interface, further comprising rendering in real time to the digital human according to the input information,
    실시간 동기화 및 인터랙션이 가능한 디지털 휴먼을 활용한 메타버스 서비스 방법.Metaverse service method using digital humans capable of real-time synchronization and interaction.
  6. 청구항 1에 있어서,In claim 1,
    상기 클라우드 서버는,The cloud server is,
    상기 디지털 휴먼의 랜더링 영상을 웹 실시간 통신(WebRTC)을 통해 미리 설정된 단말기들에 실시간 스트리밍하는, Streaming the rendered video of the digital human in real time to preset terminals through web real-time communication (WebRTC),
    실시간 동기화 및 인터랙션이 가능한 디지털 휴먼을 활용한 메타버스 서비스 방법.Metaverse service method using digital humans capable of real-time synchronization and interaction.
  7. 청구항 1에 있어서,In claim 1,
    상기 클라우드 서버는,The cloud server is,
    상기 트래킹 정보에 따라 상기 주름 맵(Wrinkle map), 상기 복수의 노멀 맵(Normal map) 및 상기 복수의 디스플레이스먼트 맵(Displacement map)을 모두 추출하는,Extracting all of the wrinkle map, the plurality of normal maps, and the plurality of displacement maps according to the tracking information,
    실시간 동기화 및 인터랙션이 가능한 디지털 휴먼을 활용한 메타버스 서비스 방법.Metaverse service method using digital humans capable of real-time synchronization and interaction.
  8. 청구항 1에 있어서,In claim 1,
    상기 카메라는 트루뎁스 카메라를 포함하는,The camera includes a TrueDepth camera,
    실시간 동기화 및 인터랙션이 가능한 디지털 휴먼을 활용한 메타버스 서비스 방법.Metaverse service method using digital humans capable of real-time synchronization and interaction.
  9. 청구항 8에 있어서,In claim 8,
    상기 트래킹 정보는, 뎁스 정보인,The tracking information is depth information,
    실시간 동기화 및 인터랙션이 가능한 디지털 휴먼을 활용한 메타버스 서비스 방법.Metaverse service method using digital humans capable of real-time synchronization and interaction.
  10. 사용자 단말기에서 상기 클라우드 서버가 제공한 어플리케이션을 실행되면, 상기 사용자 단말기에 구비된 카메라가 사용자의 얼굴의 표정과 모션을 인식하고, 표정 변화와 모션 변화에 따른 트래킹 정보를 상기 클라우드 서버로 전송하는 단계와;When the application provided by the cloud server is executed on the user terminal, the camera provided in the user terminal recognizes the expression and motion of the user's face, and transmits tracking information according to the change in expression and motion to the cloud server. and;
    상기 클라우드 서버가 상기 트래킹 정보를 확인하고, 복수의 표정들에 따라 각각 다르게 미리 생성된 복수의 주름 맵(Wrinkle map), 복수의 노멀 맵(Normal map) 및 복수의 디스플레이스먼트 맵(Displacement map) 중 적어도 하나를 추출하고 사용자의 표정에 따른 상기 트래킹 정보에 따라 변경하여 디지털 휴먼의 얼굴에 실시간으로 랜더링하는 단계와;The cloud server checks the tracking information and creates a plurality of wrinkle maps, a plurality of normal maps, and a plurality of displacement maps that are each differently pre-generated according to the plurality of facial expressions. extracting at least one of the following, changing it according to the tracking information according to the user's facial expression, and rendering it on the face of a digital human in real time;
    상기 클라우드 서버가 사용자의 모션 변화에 따른 상기 트래킹 정보를 상기 디지털 휴먼의 뼈대(Bone)와 연결하여 상기 디지털 휴먼의 몸에 실시간으로 랜더링하여 애니메이션을 생성하여, 상기 디지털 휴먼의 랜더링 영상을 생성하는 단계와;The cloud server connects the tracking information according to the user's motion change with the digital human's bone and renders the digital human's body in real time to generate animation, thereby generating a rendered image of the digital human. and;
    상기 클라우드 서버가 상기 디지털 휴먼의 랜더링 영상을 상기 사용자 단말기로 실시간으로 전송하는 단계를 포함하고,The cloud server transmits the rendered image of the digital human to the user terminal in real time,
    상기 사용자 단말기에 구비된 음성 인식기가 사용자의 음성을 인식한 음성 데이터를 상기 클라우드 서버로 실시간으로 전송하면,When the voice recognizer provided in the user terminal transmits voice data that recognizes the user's voice to the cloud server in real time,
    상기 클라우드 서버가 상기 음성 데이터를 딥러닝을 통해 학습하여, 사용자의 음성을 상기 디지털 휴먼의 음성으로 실시간으로 동기화하는 과정을 더 포함하는,Further comprising the process of the cloud server learning the voice data through deep learning and synchronizing the user's voice with the digital human's voice in real time,
    실시간 동기화 및 인터랙션이 가능한 디지털 휴먼을 활용한 메타버스 서비스 방법.Metaverse service method using digital humans capable of real-time synchronization and interaction.
  11. 청구항 1의 디지털 휴먼을 활용한 메타버스 서비스를 제공하는 시스템. A system that provides metaverse services using digital humans of claim 1.
  12. 청구항 10의 디지털 휴먼을 활용한 메타버스 서비스를 제공하는 시스템. A system that provides metaverse services using digital humans of claim 10.
PCT/KR2023/018290 2022-11-30 2023-11-14 System and method for providing metaverse service using digital human capable of real-time synchronization and interaction using camera and motion capture recognition WO2024117616A1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20220163844 2022-11-30
KR10-2022-0163844 2022-11-30
KR10-2023-0032382 2023-03-13
KR1020230032382A KR20240082144A (en) 2022-11-30 2023-03-13 System and method for providing metaverse services using digital human capable of real-time synchronization and interaction using true depth camera and motion capture recognition

Publications (1)

Publication Number Publication Date
WO2024117616A1 true WO2024117616A1 (en) 2024-06-06

Family

ID=91324224

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/018290 WO2024117616A1 (en) 2022-11-30 2023-11-14 System and method for providing metaverse service using digital human capable of real-time synchronization and interaction using camera and motion capture recognition

Country Status (1)

Country Link
WO (1) WO2024117616A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101738142B1 (en) * 2016-04-11 2017-05-22 한국과학기술원 System for generating digital life based on emotion and controlling method therefore
KR20170127354A (en) * 2016-05-11 2017-11-21 강미연 Apparatus and method for providing video conversation using face conversion based on facial motion capture
KR20200069264A (en) * 2020-03-23 2020-06-16 최현희 System for outputing User-Customizable voice and Driving Method thereof
KR102373608B1 (en) * 2021-06-21 2022-03-14 주식회사 쓰리디팩토리 Electronic apparatus and method for digital human image formation, and program stored in computer readable medium performing the same

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101738142B1 (en) * 2016-04-11 2017-05-22 한국과학기술원 System for generating digital life based on emotion and controlling method therefore
KR20170127354A (en) * 2016-05-11 2017-11-21 강미연 Apparatus and method for providing video conversation using face conversion based on facial motion capture
KR20200069264A (en) * 2020-03-23 2020-06-16 최현희 System for outputing User-Customizable voice and Driving Method thereof
KR102373608B1 (en) * 2021-06-21 2022-03-14 주식회사 쓰리디팩토리 Electronic apparatus and method for digital human image formation, and program stored in computer readable medium performing the same

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ELECTRONIC NEWSPAPER ETNEWS: "Full body 3D! More realistic through real-time synchronization ️ 'R2Mix'", YOUTUBE, XP093188959, Retrieved from the Internet <URL:https://www.youtube.com/watch?v=D10P388Utz8> *

Similar Documents

Publication Publication Date Title
WO2020204000A1 (en) Communication assistance system, communication assistance method, communication assistance program, and image control program
JP2021192222A (en) Video image interactive method and apparatus, electronic device, computer readable storage medium, and computer program
US6909453B2 (en) Virtual television phone apparatus
WO2013154377A1 (en) Apparatus and method for processing stage performance using digital characters
WO2013027893A1 (en) Apparatus and method for emotional content services on telecommunication devices, apparatus and method for emotion recognition therefor, and apparatus and method for generating and matching the emotional content using same
CN107463248A (en) A kind of remote interaction method caught based on dynamic with line holographic projections
KR20220027187A (en) Scene interaction method and apparatus, electronic device and computer storage medium
WO2022196880A1 (en) Avatar-based interaction service method and device
WO2021006538A1 (en) Avatar visual transformation device expressing text message as v-moji and message transformation method
WO2016117962A1 (en) Method and user terminal for providing hologram image-based message service, and hologram image display device
WO2017222258A1 (en) Multilateral video communication system and method using 3d depth camera
CN108322474A (en) Virtual reality system, relevant apparatus based on share desktop and method
CN112884906A (en) System and method for realizing multi-person mixed virtual and augmented reality interaction
WO2024117616A1 (en) System and method for providing metaverse service using digital human capable of real-time synchronization and interaction using camera and motion capture recognition
WO2022092439A1 (en) Speech image provision method, and computing device for performing same
WO2021187647A1 (en) Method and system for expressing avatar imitating user&#39;s motion in virtual space
WO2021025279A1 (en) System, method, and computer-readable storage medium for optimizing expression of virtual character through ai-based expression classification and retargeting
WO2019124850A1 (en) Method and system for personifying and interacting with object
WO2021085708A1 (en) Two-way communication service system based on 3d holographic display device
Shindo et al. Design and implementation of scenario language for cyber teaching assistant
CN116449958A (en) Virtual office system based on meta universe
WO2018199724A1 (en) Virtual reality system enabling bi-directional communication
KR20240082144A (en) System and method for providing metaverse services using digital human capable of real-time synchronization and interaction using true depth camera and motion capture recognition
KR102411974B1 (en) System for image synthesis using virtual markers
WO2023090960A1 (en) Three-dimensional character substitution system and method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23898148

Country of ref document: EP

Kind code of ref document: A1