WO2024106565A1 - 2d 얼굴 이미지로부터 3d 얼굴 모델을 생성하는 시스템 및 방법 - Google Patents

2d 얼굴 이미지로부터 3d 얼굴 모델을 생성하는 시스템 및 방법 Download PDF

Info

Publication number
WO2024106565A1
WO2024106565A1 PCT/KR2022/018158 KR2022018158W WO2024106565A1 WO 2024106565 A1 WO2024106565 A1 WO 2024106565A1 KR 2022018158 W KR2022018158 W KR 2022018158W WO 2024106565 A1 WO2024106565 A1 WO 2024106565A1
Authority
WO
WIPO (PCT)
Prior art keywords
face model
loss
face
unit
model
Prior art date
Application number
PCT/KR2022/018158
Other languages
English (en)
French (fr)
Inventor
전준혁
Original Assignee
전준혁
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전준혁 filed Critical 전준혁
Publication of WO2024106565A1 publication Critical patent/WO2024106565A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/06Topological mapping of higher dimensional structures onto lower dimensional surfaces
    • G06T3/067Reshaping or unfolding 3D tree structures onto 2D planes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Definitions

  • the present invention relates to a system and method for generating a 3D face model, and more specifically, to a system and method for generating a 3D face model from a 2D face image based on artificial intelligence (AI) technology.
  • AI artificial intelligence
  • the conventional technology still has problems in that it is unnatural and cannot properly express facial features and detailed facial textures. Additionally, there is a problem that the internal calculation process for creating a 3D model is complex and takes a long time.
  • the present invention is intended to solve the problems described above, and its purpose is to provide a system and method for generating a 3D face model from a 2D face image based on artificial intelligence (AI) technology.
  • AI artificial intelligence
  • the present invention is a system for generating a 3D face model from a 2D face image, comprising: a 2D face image acquisition unit for acquiring a 2D face image of a user; a 3D base template selection unit that selects a 3D base template corresponding to the acquired 2D face image of the user; a basic 3D face model generator that generates a basic 3D face model based on the acquired 2D face image and the selected 3D base template; a parameter estimation unit that estimates parameters for rendering on a basic 3D face model; and a 3D face model generation unit that renders a 3D face model and calculates a loss based on the parameters estimated by the parameter estimation unit, and generates a final 3D face model by reflecting the calculated loss. to provide.
  • the parameter estimation unit includes a shape parameter estimation unit that estimates shape parameters for each facial part of the user; an albedo parameter estimation unit that estimates an albedo parameter indicating the degree to which light is reflected from the 3D face model; A light source parameter estimation unit that estimates a light source parameter indicating from which direction the light irradiated to the 3D face model comes from; and a camera parameter estimation unit that estimates camera parameters indicating where the camera, which is an observer observing the 3D face model, is looking.
  • the 3D face model generator is a rendering unit that generates a 3D face model by performing rendering (redering) on the basic 3D face model generated by the 3D face model generator based on the parameters estimated by the parameter estimation unit. ; a loss calculation unit that converts the 3D face model rendered by the rendering unit into a 2D face image and calculates a loss; and a final 3D face model output unit that outputs a final 3D face model finally generated by learning the rendering model of the rendering performing unit to minimize the loss calculated by the loss calculating unit.
  • the rendering unit may generate a rendered 3D face model by applying parameters including the shape parameter, albedo parameter, light source parameter, and camera parameter to a differentiable rendering model.
  • the loss calculation unit includes landmark loss (L lmk ), eye loss (L eye ), pixel loss (L pix ), identity loss (L id ), and content loss.
  • a loss including at least one of (content loss, L con ) can be calculated, and the sum of the product of each of these losses and the weight of each loss can be calculated as the loss.
  • the final 3D model output unit may output a final 3D face model by generating a high-frequency map, calculating pixel loss based on it, and training the rendering unit to minimize it.
  • a method of generating a 3D face model from a 2D face image comprising: acquiring a 2D face image of a user; selecting a 3D base template corresponding to the acquired 2D face image of the user; generating a basic 3D face model using the acquired 2D face image and the selected 3D base template; estimating parameters for performing rendering on a basic 3D face model; and rendering a 3D face model based on the estimated parameters, calculating a loss, and generating a final 3D face model by reflecting the calculated loss.
  • Figure 1 is a diagram showing the overall configuration of a system 100 for generating a 3D face model from a 2D face image according to the present invention.
  • Figure 2 is a diagram showing the configuration of the parameter estimation unit 40.
  • Figure 3 is a diagram showing the configuration of the 3D face model generator 50.
  • Figure 4 is a diagram showing the configuration of the loss calculation unit 52.
  • Figure 5 shows an example of the configuration of the final 3D face model output unit 53.
  • Figure 6 is a flowchart showing an example of a method for generating a 3D face model from a 2D face image performed by the system 100 according to the present invention.
  • FIG. 1 is a diagram showing the overall configuration of a system 100 (hereinafter simply referred to as “system 100”) for generating a 3D face model from a 2D face image according to the present invention.
  • system 100 for generating a 3D face model from a 2D face image according to the present invention.
  • the system 100 includes a 2D face image acquisition unit 10, a 3D base template selection unit 20, a basic 3D face model creation unit 30, a parameter estimation unit 40, and a 3D face model. Includes a generating unit 50.
  • the 2D face image acquisition unit 10 is a means of acquiring a 2D face image of a user.
  • the 2D facial image may be acquired by a user terminal, such as a smartphone, and transmitted to the system 100.
  • the 3D base template selection unit 20 is a means for selecting a 3D base template corresponding to the acquired 2D face image of the user.
  • the actual size of the user's face is estimated from the user's 2D face image, and racial information is estimated based on this, so that a 3D base template corresponding to the racial information and actual size is selected from a plurality of 3D templates pre-stored according to race. You can choose.
  • the actual size of the user's face can be estimated by, for example, distance data between the user's face and a user terminal, such as a smartphone that took a picture of the user's face. For example, when the user's face is photographed with a smartphone, data on the distance to the user's face can be collected from the smartphone, and the actual size of the user's face can be estimated by estimating the width between the eyebrows and the entire face.
  • a user terminal such as a smartphone that took a picture of the user's face.
  • data on the distance to the user's face can be collected from the smartphone, and the actual size of the user's face can be estimated by estimating the width between the eyebrows and the entire face.
  • other methods other than the above method may be used to estimate racial information.
  • the basic 3D face model generator 30 performs a function of generating a basic 3D face model using the acquired 2D face image and the selected 3D base template.
  • the basic 3D face model generator 30 distinguishes only the parts corresponding to the face from the acquired 2D face image through, for example, face segmentation, and removes errors due to hair, glasses, and pose. After correcting for occlusion, if any, create a converted 2D face image by removing the expression from the 2D face image and converting it to a front-facing form, then based on the converted 2D face image and the selected 3D base template. This creates a basic 3D face model.
  • the basic 3D face model can be created by a face generation model implemented as a deep learning-based neural network model.
  • the basic 3D face model generator 30 may generate a basic 3D face model by combining a 2D face image and a 3D base template using a pre-trained deep learning-based neural network model. Since this neural network model itself is not a direct object of the present invention and one known in the prior art can be used, a detailed description is omitted.
  • the parameter estimation unit 40 performs a function of estimating parameters for performing rendering on a basic 3D face model.
  • Figure 2 is a diagram showing the configuration of the parameter estimation unit 40.
  • the parameter estimation unit 40 may include a shape parameter estimation unit 41, an albedo parameter estimation unit 42, a light source parameter estimation unit 43, and a camera parameter estimation unit 44. .
  • the shape parameter estimation unit 41 performs a function of estimating shape parameters for each part of the user's face. For example, half of the user's face is segmented into lips (6), cheeks (4), nose (7), eyes (8), chin (5), and neck (3). , the parameters corresponding to the ears (4) and forehead (3) can be estimated.
  • the albedo parameter estimation unit 42, the light source parameter estimation unit 43, and the camera parameter estimation unit 44 estimate albedo parameters, light source parameters, and camera parameters, respectively.
  • the albedo parameter is a parameter that indicates the degree to which light is reflected from the 3D face model
  • the light source parameter is a parameter that indicates from which direction the light irradiated to the 3D face model comes from.
  • An albedo map can be created based on the albedo parameter.
  • the camera parameter is a parameter that indicates where the camera, which is an observer observing the 3D face model, is looking. This can be viewed as a parameter representing the pose.
  • a texture map and a displacement map can be created using these parameters.
  • the 3D face model generator 50 has a function of rendering a 3D face model based on the parameters estimated by the parameter estimation unit 40, calculating a loss, and generating a final 3D face model by reflecting the calculated loss. Perform.
  • Figure 3 is a diagram showing the configuration of the 3D face model generator 50.
  • the 3D face model generator 50 includes a rendering unit 51, a loss calculation unit 52, and a final 3D face model output unit 53.
  • the rendering unit 51 performs rendering on the basic 3D face model generated by the basic 3D face model generator 30 based on the parameters estimated by the above-described parameter estimation unit 40 to create a 3D face model. It is a means of creating.
  • the rendering unit 51 can be implemented with a learnable rendering model called a differentiable renderer, and the 3D model (image) rendered by the rendering unit 51 can be expressed by the following equation.
  • the rendering unit 51 generates a rendered 3D face model by applying parameters including the shape parameter, albedo parameter, light source parameter, and camera parameter to a differentiable rendering model.
  • the rendering unit 51 reflects the loss calculated in the loss calculation unit 52 to the rendering model, for example, by backpropagation, and optimizes the parameters to minimize the loss to create the final 3D face.
  • the final 3D face model can be output from the model output unit 53.
  • the loss calculation unit 52 converts the 3D face model rendered by the rendering unit 51 into a 2D face image and performs a function of calculating loss.
  • the losses used for calculation in the loss calculation unit 52 include landmark loss (L lmk ), eye loss (L eye ), pixel loss (L pix ), and identity loss. , L id ), and content loss (L con ).
  • the loss calculation unit 52 calculates the sum of each of these losses multiplied by the weight of each loss.
  • the combined value is passed to the final 3D model output unit 53 and backpropagated to the rendering unit 51 to minimize the sum of each loss and the weight of each loss.
  • the final 3D face model can be output. This can be expressed by the following formula:
  • represents the weight of each loss.
  • Figure 4 is a diagram showing the configuration of the loss calculation unit 52.
  • the loss calculation unit 52 includes a landmark loss calculation unit 521, an eye loss calculation unit 522, and a pixel loss calculation unit 523. It may include an identity loss calculation unit 524, a content loss calculation unit 525, and a loss summation unit 526.
  • the landmark loss calculation unit 521 is a means for calculating landmark loss, and projects the 3D face model rendered by the rendering unit 51 onto a 2D face image to create a preset number of facial images. Sort by landmark.
  • the landmark loss calculation unit 521 can project the 3D model into a 2D image and calculate the landmark location through a deep learning-based face alignment model in order to consider shape, camera, and light source parameters. This can be expressed, for example, by the following formula:
  • F lmk is a deep learning-based face alignment model
  • I 0 is the input image
  • the eye loss calculation unit 522 is a means for calculating eye-related loss, and calculates eye loss (L eye ) among the landmarks considered in the landmark loss calculation unit 521 . Since the eyes and the area around the eyes well represent the characteristics of the person, it is desirable to calculate the loss separately for these areas. This can be expressed with the following formula:
  • k i each landmark.
  • the pixel loss calculation unit 523 is a means for calculating pixel loss, and calculates the pixel loss of the 2D face image after the input 2D face image is face segmented and the rendered 3D face model.
  • L pix is calculated to perform a function that reflects information about the color, light, and light source of the image. This can be expressed with the following formula:
  • the identity loss calculation unit 524 is a means of calculating identity loss.
  • the input image and the rendered 3D face model acquire identity information that can represent the same person and calculate the posture, brightness, and expression. , allows people to be distinguished even if the image changes due to occlusion, etc., and calculates the loss for the unique characteristics of the input image.
  • Identity information can be obtained by a pre-trained face recognition network, and the identity loss (L id ) resulting from this can be expressed with the following formula.
  • F n is the face recognition network.
  • the content loss calculation unit 525 is a means for calculating content loss.
  • Features storing information are extracted from the hidden layer of the face recognition network described above so that the features can be used later. This can be expressed with the following formula:
  • the loss summation unit 526 is a means for combining and fitting the losses described above. As described above, the loss summation unit 526 performs fitting by summing the values obtained by multiplying each loss by the weight of each loss. That is, the parameters of the rendering model are optimized by backpropagating to the rendering unit 51 so that the sum of each loss multiplied by the weight of each loss is minimized. This can be expressed by the following formula:
  • represents the weight of each loss.
  • the final 3D face model output unit 53 learns the rendering model of the rendering unit 51 to minimize the loss calculated in the loss calculation unit 52 as described above, thereby outputting the final 3D face model generated. It is a means of doing it.
  • the final 3D face model output unit 53 can output the final 3D face model through a process to minimize loss as described above, but for more accurate modeling, a high frequency map is generated and pixel unit loss is calculated based on this. Then, the rendering unit 51 can be trained again to minimize this, and then the final 3D face model can be output.
  • Figure 5 shows an example of the configuration of the final 3D face model output unit 53.
  • the final 3D face model output unit 53 may further include a high-frequency map generator 531 and a high-frequency pixel loss calculator 532.
  • the high-frequency map generator 531 is a means for generating a high-frequency map, and the high-frequency map is a map that reflects detailed information in the high-frequency region.
  • the high frequency map can be implemented as a high frequency network, a neural network model that extracts features in the high frequency region. This can be expressed with the following formula:
  • F h is the high-frequency network and H represents the high-frequency map.
  • the high-frequency pixel loss calculation unit 533 is a means for calculating high-frequency pixel loss, which represents the pixel-unit loss of the image rendered by the high-frequency map generated by the high-frequency map generator 531.
  • High-frequency pixel loss can be expressed with the following formula:
  • the high-frequency pixel loss calculation unit 533 optimizes the parameters of the rendering model by backpropagating them to the rendering unit 51 to minimize the pixel loss.
  • the final 3D face model can be output.
  • the final 3D face model output unit 53 may enable more specific expression by generating a normal map, calculating it with a high frequency map, and reflecting it on the 3D face model. This can be expressed with the following formula:
  • M is the 3D face model described above
  • N is the normal map
  • H represents the high frequency map.
  • the final 3D face model output unit 53 may additionally calculate a hidden loss (L hid ) representing information in feature patch level units in the hidden layer. This can be expressed with the following formula:
  • the final 3D face model output unit 53 may additionally consider symmetry loss (L sym ) to correct the symmetry of the 3D face model. This can be expressed with the following formula:
  • the final 3D face model output unit 53 can additionally calculate the high frequency loss (L high ) by combining these losses. This can be expressed with the following formula:
  • the final 3D face model output unit 53 outputs the final 3D face model by optimizing the parameters of the rendering model through backpropagation to the rendering performing unit 51 to minimize the above-mentioned high frequency loss (L hid ). You can do it.
  • Figure 6 is a flowchart showing an example of a method for generating a 3D face model from a 2D face image performed by the system 100 according to the present invention.
  • the 2D face image acquisition unit 10 acquires the 2D face image of the user (S100).
  • a 3D base template corresponding to the obtained 2D face image is selected by the 3D base template selection unit 20 (S110).
  • the basic 3D face model generator 30 When a 3D base template is selected, the basic 3D face model generator 30 generates a basic 3D face model using the acquired 2D face image and the selected 3D base template (S120).
  • parameters estimation unit 40 estimates parameters for rendering on the basic 3D face model (S130).
  • parameters may include shape parameters, albedo parameters, light source parameters, and camera parameters.
  • the 3D face model generator 50 When the parameters are estimated, the 3D face model generator 50 renders a 3D face model based on the parameters estimated by the parameter estimation unit 40, calculates the loss, and reflects the loss to generate a final 3D face model. (S140).
  • the 3D face model generator 50 renders the 3D face model using a differentiable rendering model and optimizes the parameters by learning the rendering model so that the loss calculated by the loss calculation unit 52 is minimized.
  • the final 3D face model can be created.
  • the final 3D model can be output by optimizing the parameters of the rendering model by learning the rendering unit 51 to minimize the high-frequency loss by reflecting the high-frequency loss (S150).

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명은, 사용자의 2D 얼굴 이미지를 획득하는 2D 얼굴 이미지 획득부; 상기 획득된 사용자의 2D 얼굴 이미지에 상응하는 3D 베이스 템플릿을 선택하는 3D 베이스 템플릿 선택부; 상기 획득된 2D 얼굴 이미지와 상기 선택된 3D 베이스 템플릿에 의해 기본 3D 얼굴 모델을 생성하는 기본 3D 얼굴 모델 생성부; 기본 3D 얼굴 모델에 렌더링을 수행하기 위한 파라미터를 추정하는 파라미터 추정부; 및 상기 파라미터 추정부에서 추정된 파라미터에 기초하여 3D 얼굴 모델을 렌더링하고 손실을 계산하며, 상기 계산된 손실을 반영하여 최종 3D 얼굴 모델을 생성하는 3D 얼굴 모델 생성부를 포함하는 3D 얼굴 모델 생성 시스템 및 이에 의해 3D 얼굴 모델을 생성하는 방법을 제공한다.

Description

2D 얼굴 이미지로부터 3D 얼굴 모델을 생성하는 시스템 및 방법
본 발명은 3D 얼굴 모델을 생성하는 시스템 및 방법에 관한 것으로서, 보다 상세하게는 인공 지능(AI) 기술에 기반하여 2D 얼굴 이미지로부터 3D 얼굴 모델을 생성할 수 있는 시스템 및 방법에 관한 것이다.
최근 스마트폰의 보급에 따라 카메라로 얼굴을 촬영하여 아바타(avartar)를 생성하여 다양한 부가 서비스를 제공하는 기술이 제안되고 있다. 또한, 2차원의 촬영 이미지를 3차원 모델로 생성할 수 있도록 하는 서비스도 알려져 있다. 특히, 최근 메타버스와 같은 공간에서의 관심이 증가하고 있어서 향후 이러한 추세는 더욱 늘어날 것으로 예상된다.
그러나, 종래의 기술은, 아직까지 부자연스럽고 얼굴의 특징을 제대로 표현하지 못하고 얼굴의 세밀한 질감을 표현하지 못한다는 문제점이 있다. 또한, 3차원 모델을 생성하는 내부 연산 과정이 복잡하고 시간이 오래 걸린다는 문제도 있다.
[선행기술문헌]
대한민국 등록특허공보 제10-2433646호(2022.08.18.공고)
본 발명은 상기한 바와 같은 문제점을 해결하기 위한 것으로서, 인공 지능(AI) 기술에 기반하여 2D 얼굴 이미지로부터 3D 얼굴 모델을 생성할 수 있는 시스템 및 방법을 제공하는 것을 목적으로 한다.
상기한 바와 같은 과제를 해결하기 위하여 본 발명은, 2D 얼굴 이미지로부터 3D 얼굴 모델을 생성하는 시스템으로서, 사용자의 2D 얼굴 이미지를 획득하는 2D 얼굴 이미지 획득부; 상기 획득된 사용자의 2D 얼굴 이미지에 상응하는 3D 베이스 템플릿을 선택하는 3D 베이스 템플릿 선택부; 상기 획득된 2D 얼굴 이미지와 상기 선택된 3D 베이스 템플릿에 의해 기본 3D 얼굴 모델을 생성하는 기본 3D 얼굴 모델 생성부; 기본 3D 얼굴 모델에 렌더링을 수행하기 위한 파라미터(parameter)를 추정하는 파라미터 추정부; 및 상기 파라미터 추정부에서 추정된 파라미터에 기초하여 3D 얼굴 모델을 렌더링하고 손실을 계산하며, 상기 계산된 손실을 반영하여 최종 3D 얼굴 모델을 생성하는 3D 얼굴 모델 생성부를 포함하는 3D 얼굴 모델 생성 시스템을 제공한다.
여기에서, 상기 파라미터 추정부는, 사용자의 얼굴 부위별 형상 파라미터를 추정하는 형상 파라미터 추정부; 3D 얼굴 모델에서 빛이 반사되는 정도를 나타내는 알베도 파라미터를 추정하는 알베도 파라미터 추정부; 3D 얼굴 모델로 조사되는 빛이 어느 방향으로부터 오는지를 나타내는 광원 파라미터를 추정하는 광원 파라미터 추정부; 및 3D 얼굴 모델을 관측하는 관측자인 카메라가 어디를 바라보고 있는지를 나타내는 카메라 파라미터를 추정하는 카메라 파라미터 추정부를 포함할 수 있다.
또한, 상기 3D 얼굴 모델 생성부는, 상기 파라미터 추정부에서 추정된 파라미터에 기초하여 상기 3D 얼굴 모델 생성부에서 생성된 기본 3D 얼굴 모델에 렌더링(redering)을 수행함으로써 3D 얼굴 모델을 생성하는 렌더링 수행부; 상기 렌더링 수행부에 의해 렌더링된 3D 얼굴 모델을 2D 얼굴 이미지로 변환하고 손실을 계산하는 손실 계산부; 및 상기 손실 계산부에 계산된 손실을 최소화하도록 상기 렌더링 수행부의 렌더링 모델을 학습시킴으로써 최종적으로 생성된 최종 3D 얼굴 모델을 출력하는 최종 3D 얼굴 모델 출력부를 포함할 수 있다.
또한, 상기 렌더링 수행부는, 상기 형상 파라미터, 알베도 파라미터, 광원 파라미터, 카메라 파라미터를 포함하는 파라미터를 미분 가능한 렌더링 모델에 적용시킴으로써 렌더링된 3D 얼굴 모델을 생성할 수 있다.
또한, 상기 손실 계산부는, 랜드마크 손실(landmark loss, Llmk), 눈 손실(eye loss, Leye), 픽셀 손실(pixel loss, Lpix), 아이덴티티 손실(identity loss, Lid), 콘텐츠 손실(content loss, Lcon) 중 적어도 어느 하나 이상을 포함하는 손실을 계산하고, 이들 각각의 손실과 각각의 손실의 가중치를 곱한 값을 합한 값을 손실로서 계산할 수 있다.
또한, 상기 최종 3D 모델 출력부는, 고주파 맵을 생성하고 이에 기초하여 픽셀 단위 손실을 계산하고 이를 최소화하도록 렌더링 수행부를 학습시킴으로써 최종 3D 얼굴 모델을 출력하도록 할 수 있다.
본 발명의 다른 측면에 의하면, 2D 얼굴 이미지로부터 3D 얼굴 모델을 생성하는 방법으로서, 사용자의 2D 얼굴 이미지를 획득하는 단계; 상기 획득된 사용자의 2D 얼굴 이미지에 상응하는 3D 베이스 템플릿을 선택하는 단계; 상기 획득된 2D 얼굴 이미지와 상기 선택된 3D 베이스 템플릿에 의해 기본 3D 얼굴 모델을 생성하는 단계; 기본 3D 얼굴 모델에 렌더링을 수행하기 위한 파라미터를 추정하는 단계; 및 상기 추정된 파라미터에 기초하여 3D 얼굴 모델을 렌더링하고 손실을 계산하며, 상기 계산된 손실을 반영하여 최종 3D 얼굴 모델을 생성하는 단계를 포함하는 3D 얼굴 모델 생성 방법을 제공한다.
본 발명에 의하면, 인공 지능(AI) 기술에 기반하여 2D 얼굴 이미지로부터 3D 얼굴 모델을 생성할 수 있는 시스템 및 방법을 제공할 수 있다.
도 1은 본 발명에 의한 2D 얼굴 이미지로부터 3D 얼굴 모델을 생성하는 시스템(100)의 전체적인 구성을 나타낸 도면이다.
도 2는 파라미터 추정부(40)의 구성을 나타낸 도면이다.
도 3은 3D 얼굴 모델 생성부(50)의 구성을 나타낸 도면이다.
도 4는 손실 계산부(52)의 구성을 나타낸 도면이다.
도 5는 최종 3D 얼굴 모델 출력부(53)의 구성의 일예를 나타낸 것이다.
도 6은 본 발명에 의한 시스템(100)에 의해 수행되는 2D 얼굴 이미지로부터 3D 얼굴 모델을 생성하는 방법의 일실시예를 나타낸 흐름도이다.
이하, 첨부 도면을 참조하여 본 발명에 의한 실시예를 상세하게 설명하기로 한다.
도 1은 본 발명에 의한 2D 얼굴 이미지로부터 3D 얼굴 모델을 생성하는 시스템(100, 이하, 간단히 "시스템(100)"이라 한다)의 전체적인 구성을 나타낸 도면이다.
도 1을 참조하면, 시스템(100)은, 2D 얼굴 이미지 획득부(10), 3D 베이스 템플릿 선택부(20), 기본 3D 얼굴 모델 생성부(30), 파라미터 추정부(40) 및 3D 얼굴 모델 생성부(50)를 포함한다.
2D 얼굴 이미지 획득부(10)는 사용자의 2D 얼굴 이미지를 획득하는 수단이다. 2D 얼굴 이미지는 예컨대 스마트폰과 같은 사용자 단말기에 의해 획득되어 시스템(100)으로 전송될 수 있다.
3D 베이스 템플릿 선택부(20)는 상기 획득된 사용자의 2D 얼굴 이미지에 상응하는 3D 베이스 템플릿(3D base template)을 선택하는 수단이다.
이는 다음과 같은 방식으로 이루어질 수 있다. 우선 사용자의 2D 얼굴 이미지로부터 사용자의 얼굴의 실제 크기를 추정하고, 이에 기초하여 인종 정보를 추정함으로써 인종에 따라 미리 저장되어 있는 복수개의 3D 템플릿 중에서 해당 인종 정보 및 실제 크기에 상응하는 3D 베이스 템플릿을 선택할 수 있다.
사용자의 얼굴의 실제 크기는, 예컨대 사용자의 얼굴을 촬영한 스마트폰과 같은 사용자 단말기와 사용자의 얼굴 사이의 거리 데이터에 의해 추정할 수 있다. 예컨대, 사용자의 얼굴이 스마트폰으로 촬영된 경우, 스마트폰으로부터 사용자의 얼굴과의 거리 데이터를 수집하고, 이에 의해 미간과 얼굴의 전체 폭을 추정하여 사용자의 얼굴의 실제 크기를 추정할 수 있다. 인종 정보를 추정하는 것은 상기 방법 이외에도 기타 다른 방법을 사용할 수도 있음은 물론이다.
기본 3D 얼굴 모델 생성부(30)는, 상기 획득된 2D 얼굴 이미지와 상기 선택된 3D 베이스 템플릿에 의해 기본 3D 얼굴 모델을 생성하는 기능을 수행한다.
기본 3D 얼굴 모델 생성부(30)는, 상기 획득된 2D 얼굴 이미지로부터 예컨대 얼굴 세그멘테이션(face segmentation) 등의 방법을 통해 얼굴에 해당하는 부분만을 구분하고, 머리카락, 안경, 포즈(pose)에 따른 오클루전(occlusion)이 있는 경우 이를 보정한 후, 2D 얼굴 이미지에서 표정을 제거하고 정면을 바라보는 형태로 변환함으로써 변환 2D 얼굴 이미지를 생성한 후, 변환 2D 얼굴 이미지와 상기 선택된 3D 베이스 템플릿에 기초하여 기본 3D 얼굴 모델을 생성한다.
기본 3D 얼굴 모델은 딥러닝 기반의 신경망 모델로 구현된 얼굴 생성 모델에 의해 생성될 수 있다. 예컨대, 기본 3D 얼굴 모델 생성부(30)는 미리 학습되어 있는 딥러닝 기반의 신경망 모델에 의해 2D 얼굴 이미지와 3D 베이스 템플릿을 합성하여 기본 3D 얼굴 모델을 생성할 수 있다. 이러한 신경망 모델 자체는 본 발명의 직접적인 목적이 아니고 종래 기술에 의해 알려져 있는 것을 사용할 수 있으므로 상세 설명은 생략한다.
파라미터 추정부(40)는, 기본 3D 얼굴 모델에 렌더링을 수행하기 위한 파라미터(parameter)를 추정하는 기능을 수행한다.
도 2는 파라미터 추정부(40)의 구성을 나타낸 도면이다.
도 2를 참조하면, 파라미터 추정부(40)는, 형상 파라미터 추정부(41), 알베도 파라미터 추정부(42), 광원 파라미터 추정부(43) 및 카메라 파라미터 추정부(44)를 포함할 수 있다.
형상 파라미터 추정부(41)는 사용자의 얼굴 부위별 형상 파라미터를 추정하는 기능을 수행한다. 예컨대, 사용자의 얼굴 절반을 세분화하여 입술(6개), 광대(4개), 볼(4개), 코(7개), 눈(8개), 턱(5개), 목(3개), 귀(4개), 이마(3개)에 해당하는 파라미터를 추정할 수 있다.
알베도 파라미터 추정부(42), 광원 파라미터 추정부(43) 및 카메라 파라미터 추정부(44)는 각각 알베도 파라미터, 광원 파라미터 및 카메라 파라미터를 추정한다. 알베도(albedo) 파라미터는 3D 얼굴 모델에서 빛이 반사되는 정도를 나타내는 파라미터이고, 광원 파라미터는 3D 얼굴 모델로 조사되는 빛(light)이 어느 방향으로부터 오는지를 나타내는 파라미터이다. 알베도 파라미터에 의해 알베도 맵(map)이 생성될 수 있다. 또한, 카메라 파라미터는 3D 얼굴 모델을 관측하는 관측자인 카메라가 어디를 바라보고 있는지를 나타내는 파라미터이다. 이는 포즈(pose)를 나타내는 파라미터로 볼 수 있다. 이들 파라미터들에 의해 텍스처 맵(texture map), 변위 맵(displacement map)이 생성될 수 있다.
3D 얼굴 모델 생성부(50)는, 상기 파라미터 추정부(40)에서 추정된 파라미터에 기초하여 3D 얼굴 모델을 렌더링하고 손실을 계산하며 상기 계산된 손실을 반영하여 최종 3D 얼굴 모델을 생성하는 기능을 수행한다.
도 3은 3D 얼굴 모델 생성부(50)의 구성을 나타낸 도면이다.
도 3을 참조하면, 3D 얼굴 모델 생성부(50)는, 렌더링 수행부(51), 손실 계산부(52) 및 최종 3D 얼굴 모델 출력부(53)를 포함한다.
렌더링 수행부(51)는 전술한 파라미터 추정부(40)에서 추정된 파라미터에 기초하여 상기 기본 3D 얼굴 모델 생성부(30)에서 생성된 기본 3D 얼굴 모델에 렌더링(redering)을 수행함으로써 3D 얼굴 모델을 생성하는 수단이다.
렌더링 수행부(51)는 미분 가능한 렌더러(differentiable rendere)라는 학습 가능한 렌더링 모델로 구현될 수 있으며, 렌더링 수행부(51)에 의해 렌더링되는 3D 모델(이미지)는 아래와 같은 수식으로 표현할 수 있다.
Figure PCTKR2022018158-appb-img-000001
Ir :렌더링된 이미지
R : 미분가능한 렌더링 모델
S : 형상 생성 모델
ps : 형상 파라미터
G : 생성 모델
Pt : 텍스쳐 파라미터
α : 알베도 파라미터
Pc : 카메라 파라미터
Pl : 광원 파라미터
즉, 렌더링 수행부(51)는, 상기 형상 파라미터, 알베도 파라미터, 광원 파라미터, 카메라 파라미터를 포함하는 파라미터를 미분 가능한 렌더링 모델에 적용시킴으로써 렌더링된 3D 얼굴 모델을 생성한다. 또한, 렌더링 수행부(51)는 후술하는 바와 같이 손실 계산부(52)에서 계산된 손실을 렌더링 모델에 예컨대 역전파(backpropagation)하는 방식으로 반영하여 손실이 최소화도록 상기 파라미터들을 최적화함으로써 최종 3D 얼굴 모델 출력부(53)에서 최종 3D 얼굴 모델을 출력하도록 할 수 있다.
손실 계산부(52)는, 상기 렌더링 수행부(51)에 의해 렌더링된 3D 얼굴 모델을 2D 얼굴 이미지로 변환하고, 손실(loss)을 계산하는 기능을 수행한다.
손실 계산부(52)에서 계산에 사용되는 손실은, 랜드마크 손실(landmark loss, Llmk), 눈 손실(eye loss, Leye), 픽셀 손실(pixel loss, Lpix), 아이덴티티 손실(identity loss, Lid), 콘텐츠 손실(content loss, Lcon) 중 적어도 어느 하나 이상을 포함할 수 있다. 손실 계산부(52)는 이들 각각의 손실과 각각의 손실의 가중치를 곱한 값을 합한 값을 계산한다. 합한 값은 최종 3D 모델 출력부(53)로 전달되어 각각의 손실과 각각의 손실의 가중치를 곱한 값을 합한 값을 최소화하도록 렌더링 수행부(51)로 역전파(backpropagation)하는 방식으로 렌더링 모델의 파라미터들을 최적화함으로써 최종 3D 얼굴 모델을 출력하도록 할 수 있다. 이는 다음 수식으로 나타낼 수 있다.
Figure PCTKR2022018158-appb-img-000002
여기에서, λ는 각각의 손실의 가중치를 나타낸다.
도 4는 손실 계산부(52)의 구성을 나타낸 도면이다.
도 4를 참조하면, 손실 계산부(52)는, 랜드마크 손실 계산부(521), 눈 손실 계산부(522), 픽셀 손실 계산부(523). 아이덴티티 손실 계산부(524), 콘텐츠 손실 계산부(525) 및 손실 합산부(526)를 포함할 수 있다.
랜드마크 손실 계산부(521)는, 랜드마크 손실(landmark loss)을 계산하는 수단으로서, 상기 렌더링 수행부(51)에서 렌더링된 3D 얼굴 모델을 2D 얼굴 이미지로 투영(projection)시켜서 미리 설정된 갯수의 랜드마크를 통해 정렬되도록 한다. 랜드마크 손실 계산부(521)는 형상, 카메라, 광원 파라미터를 고려하기 위해 딥러닝 기반 얼굴 정렬 모델을 통해 3D 모델을 2D 이미지로 투영시키고 랜드마크 위치(landmark location)을 계산할 수 있다. 이는 예컨대 다음 수식으로 나타낼 수 있다.
Figure PCTKR2022018158-appb-img-000003
여기에서, Flmk는 딥러닝 기반 얼굴 정렬 모델이고, I0는 입력 이미지이다.
눈 손실 계산부(522)는 눈과 관련된 손실을 계산하는 수단으로서, 상기 랜드마크 손실 계산부(521)에서 고려된 랜드마크 중에서 눈에 대한 손실(Leye)을 계산한다. 눈이나 눈 주변은 인물의 특징을 잘 나타내기 때문에 이에 대한 별도의 손실을 계산하는 것이 바람직하다. 이는 다음과 같은 수식으로 표현할 수 있다.
Figure PCTKR2022018158-appb-img-000004
여기에서, ki는 각각의 랜드마크를 나타낸다.
픽셀 손실 계산부(523)는, 픽셀 손실(pixel loss)을 계산하는 수단으로서, 입력 2D 얼굴 이미지가 얼굴 세그멘테이션(face segmentation)된 후의 2D 얼굴 이미지와 렌더링된 3D 얼굴 모델의 픽셀 손실(pixel loss, Lpix)를 계산하여 이미지의 색깔, 빛, 광원에 대한 정보를 반영하는 기능을 수행한다. 이는 다음과 같은 수식으로 나타낼 수 있다.
Figure PCTKR2022018158-appb-img-000005
아이덴티티 손실 계산부(524)는, 아이덴티티 손실(identity loss)을 계산하는 수단으로서, 입력 이미지와 렌더링된 3D 얼굴 모델이 같은 사람을 표현할 수 있는 아이덴티티 정보(identity information)를 획득하고 자세나 명도, 표정, 오클루전(occlusion) 등에 따라 이미지가 달라져도 사람을 구분할 수 있도록 하며, 입력 이미지의 고유한(identical) 특성에 대한 손실을 계산한다. 아이덴티티 정보는 미리 학습된 얼굴 인식 네트워크(face recognition network)에 의해 획득될 수 있으며, 이에 의한 아이덴티티 손실(Lid)은 다음과 같은 수식으로 표현할 수 있다.
Figure PCTKR2022018158-appb-img-000006
여기에서, Fn은 얼굴 인식 네트워크이다.
콘텐츠 손실 계산부(525)는 콘텐츠 손실(content loss)을 계산하는 수단이다. 전술한 얼굴 인식 네트워크의 히든 레이어(hidden layer)에서 정보를 저장하고 있는 특성(feature)를 뽑아서 해당 특성을 추후 사용할 수 있도록 한다. 이는 다음과 같은 수식으로 표현할 수 있다.
Figure PCTKR2022018158-appb-img-000007
손실 합산부(526)는 상기한 바와 같은 손실을 합하여 피팅(fitting)하는 수단이다. 전술한 바와 같이, 손실 합산부(526)는 각각의 손실과 각각의 손실의 가중치를 곱한 값을 합하여 피팅한다. 즉, 각각의 손실과 각각의 손실의 가중치를 곱한 값을 합한 값이 최소화되도록 렌더링 수행부(51)로 역전파(backpropagation)하는 방식으로 렌더링 모델의 파라미터들을 최적화한다. 이는 다음 수식으로 나타낼 수 있다.
Figure PCTKR2022018158-appb-img-000008
여기에서, λ는 각각의 손실의 가중치를 나타낸다.
최종 3D 얼굴 모델 출력부(53)는 상기한 바와 같은 손실 계산부(52)에 계산된 손실을 최소화하도록 상기 렌더링 수행부(51)의 렌더링 모델을 학습시킴으로써 최종적으로 생성된 최종 3D 얼굴 모델을 출력하는 수단이다. 최종 3D 얼굴 모델 출력부(53)는 전술한 바와 같이 손실을 최소화하도록 하는 과정을 통해 최종 3D 얼굴 모델을 출력할 수 있으나, 보다 정확한 모델링을 위해 고주파 맵을 생성하고 이에 기초하여 픽셀 단위 손실을 계산하고 이를 최소화하도록 다시 렌더링 수행부(51)를 학습시킨 후 최종 3D 얼굴 모델을 출력하도록 할 수도 있다.
도 5는 최종 3D 얼굴 모델 출력부(53)의 구성의 일예를 나타낸 것이다.
도 5를 참조하면, 최종 3D 얼굴 모델 출력부(53)는 고주파 맵 생성부(531) 및 고주파 픽셀 손실 계산부(532)를 더 포함할 수 있다.
고주파 맵 생성부(531)는 고주파 맵(high-frequency map)을 생성하는 수단으로서, 고주파 맵은 고주파 영역의 디테일한 정보를 반영하는 맵이다. 고주파 맵은 고주파 영역에서의 특징(feature)를 추출하는 신경망 모델인 고주파 네트워크(high frequency network)로 구현될 수 있다. 이는 다음과 같은 수식으로 표현할 수 있다.
Figure PCTKR2022018158-appb-img-000009
여기서, Fh는 고주파 네트워크이고, H는 고주파 맵을 나타낸다.
고주파 픽셀 손실 계산부(533)는, 상기 고주파 맵 생성부(531)에 의해 생성된 고주파 맵에 의해 렌더링된 이미지의 픽셀 단위 손실을 나타내는 고주파 픽셀 손실을 계산하는 수단이다. 고주파 픽셀 손실은 다음과 같은 수식으로 표현할 수 있다.
Figure PCTKR2022018158-appb-img-000010
고주파 픽셀 손실 계산부(533)는 앞서 손실 합산부(526)에 대해 설명한 바와 같이, 상기 픽셀 손실을 최소화하도록 렌더링 수행부(51)로 역전파(backpropagation)하는 방식으로 렌더링 모델의 파라미터들을 최적화함으로써 최종 3D 얼굴 모델을 출력하도록 할 수 있다.
한편, 최종 3D 얼굴 모델 출력부(53)는 노멀 맵(normal map)을 생성하고 고주파 맵과 연산하고 이를 3D 얼굴 모델에 반영함으로써 보다 구체적인 표현을 가능하게 하도록 할 수도 있다. 이는 다음과 같은 수식으로 표현할 수 있다.
Figure PCTKR2022018158-appb-img-000011
여기에서, M은 앞서 설명한 3D 얼굴 모델이고 N은 노멀 맵이며, H는 고주파 맵을 나타낸다.
또한, 최종 3D 얼굴 모델 출력부(53)는 히든 레이어(hidden layer)에서 특징 패치 레벨(feature patch level) 단위의 정보를 나타는 히든 손실(Lhid)을 추가적으로 계산할 수 있다. 이는 다음과 같은 수식으로 표현할 수 있다.
Figure PCTKR2022018158-appb-img-000012
또한, 최종 3D 얼굴 모델 출력부(53)는 3D 얼굴 모델의 대칭성을 보정하기 위한 대칭 손실(Lsym)을 추가적으로 고려할 수 있다. 이는 다음과 같은 수식으로 표현할 수 있다.
Figure PCTKR2022018158-appb-img-000013
또한, 최종 3D 얼굴 모델 출력부(53)는 이러한 손실을 종합하여 고주파 손실(Lhigh)을 추가적으로 계산할 수 있다. 이는 다음과 같은 수식으로 나타낼 수 있다.
Figure PCTKR2022018158-appb-img-000014
최종 3D 얼굴 모델 출력부(53)는 상기와 같은 고주파 손실(Lhid)을 최소화하도록 렌더링 수행부(51)로 역전파(backpropagation)하는 방식으로 렌더링 모델의 파라미터들을 최적화함으로써 최종 3D 얼굴 모델을 출력하도록 할 수 있다.
도 6은 본 발명에 의한 시스템(100)에 의해 수행되는 2D 얼굴 이미지로부터 3D 얼굴 모델을 생성하는 방법의 일실시예를 나타낸 흐름도이다.
도 6을 참조하면, 우선, 전술한 바와 같이, 2D 얼굴 이미지 획득부(10)가 사용자의 2D 얼굴 이미지를 획득한다(S100).
다음으로, 3D 베이스 템플릿 선택부(20)에 의해 상기 획득된 2D 얼굴 이미지에 상응하는 3D 베이스 템플릿을 선택한다(S110).
3D 베이스 템플릿이 선택되면, 기본 3D 얼굴 모델 생성부(30)는 획득된 2D 얼굴 이미지와 상기 선택된 3D 베이스 템플릿에 의해 기본 3D 얼굴 모델을 생성한다(S120).
다음으로, 파라미터 추정부(40)에서 기본 3D 얼굴 모델에 렌더링을 수행하기 위한 파라미터를 추정한다(S130). 전술한 바와 같이, 파라미터들은 형상 파라미터, 알베도 파라미터, 광원 파라미터, 카메라 파라미터를 포함할 수 있다.
파라미터들이 추정되면, 3D 얼굴 모델 생성부(50)는, 상기 파라미터 추정부(40)에서 추정된 파라미터에 기초하여 3D 얼굴 모델을 렌더링하고 손실을 계산하고 손실을 반영하여 최종 3D 얼굴 모델을 생성한다(S140).
즉, 3D 얼굴 모델 생성부(50)는 전술한 바와 같이, 미분 가능한 렌더링 모델에 의해 3D 얼굴 모델을 렌더링하고, 손실 계산부(52)에서 계산되는 손실이 최소화되도록 렌더링 모델을 학습시킴으로써 파라미터들을 최적화하여 최종 3D 얼굴 모델을 생성할 수 있다.
또한, 필요한 경우, 전술한 바와 같이, 고주파 손실을 반영하여 고주파 손실을 최소화하도록 렌더링 수행부(51)를 학습시켜 렌더링 모델의 파라미터들을 최적화함으로써 최종 3D 모델을 출력하도록 할 수도 있다(S150).
이상에서, 본 발명에 의한 바람직한 실시예를 참조하여 본 발명을 설명하였으나, 본 발명은 상기 실시예에 한정되는 것이 아니며 첨부한 청구범위 및 도면에 의해 파악되는 본 발명의 범위 내에서 다양한 수정 및 변형 실시가 가능함은 물론이다.
[부호의 설명]
100...2D 얼굴 이미지로부터 3D 얼굴 모델을 생성하는 시스템
10...2D 얼굴 이미지 획득부
20...3D 베이스 템플릿 선택부
30...기본 3D 얼굴 모델 생성부
40...파라미터 추정부
50...3D 얼굴 모델 생성부

Claims (7)

  1. 2D 얼굴 이미지로부터 3D 얼굴 모델을 생성하는 시스템으로서,
    사용자의 2D 얼굴 이미지를 획득하는 2D 얼굴 이미지 획득부;
    상기 획득된 사용자의 2D 얼굴 이미지에 상응하는 3D 베이스 템플릿을 선택하는 3D 베이스 템플릿 선택부;
    상기 획득된 2D 얼굴 이미지와 상기 선택된 3D 베이스 템플릿에 의해 기본 3D 얼굴 모델을 생성하는 기본 3D 얼굴 모델 생성부;
    기본 3D 얼굴 모델에 렌더링을 수행하기 위한 파라미터(parameter)를 추정하는 파라미터 추정부; 및
    상기 파라미터 추정부에서 추정된 파라미터에 기초하여 3D 얼굴 모델을 렌더링하고 손실을 계산하며, 상기 계산된 손실을 반영하여 최종 3D 얼굴 모델을 생성하는 3D 얼굴 모델 생성부
    를 포함하는 3D 얼굴 모델 생성 시스템.
  2. 청구항 1에 있어서,
    상기 파라미터 추정부는,
    사용자의 얼굴 부위별 형상 파라미터를 추정하는 형상 파라미터 추정부;
    3D 얼굴 모델에서 빛이 반사되는 정도를 나타내는 알베도 파라미터를 추정하는 알베도 파라미터 추정부;
    3D 얼굴 모델로 조사되는 빛이 어느 방향으로부터 오는지를 나타내는 광원 파라미터를 추정하는 광원 파라미터 추정부; 및
    3D 얼굴 모델을 관측하는 관측자인 카메라가 어디를 바라보고 있는지를 나타내는 카메라 파라미터를 추정하는 카메라 파라미터 추정부
    를 포함하는 것을 특징으로 하는 3D 얼굴 모델 생성 시스템.
  3. 청구항 1에 있어서,
    상기 3D 얼굴 모델 생성부는,
    상기 파라미터 추정부에서 추정된 파라미터에 기초하여 상기 3D 얼굴 모델 생성부에서 생성된 기본 3D 얼굴 모델에 렌더링(redering)을 수행함으로써 3D 얼굴 모델을 생성하는 렌더링 수행부;
    상기 렌더링 수행부에 의해 렌더링된 3D 얼굴 모델을 2D 얼굴 이미지로 변환하고 손실을 계산하는 손실 계산부; 및
    상기 손실 계산부에 계산된 손실을 최소화하도록 상기 렌더링 수행부의 렌더링 모델을 학습시킴으로써 최종적으로 생성된 최종 3D 얼굴 모델을 출력하는 최종 3D 얼굴 모델 출력부
    를 포함하는 것을 특징으로 하는 3D 얼굴 모델 생성 시스템.
  4. 청구항 3에 있어서,
    상기 렌더링 수행부는, 상기 형상 파라미터, 알베도 파라미터, 광원 파라미터, 카메라 파라미터를 포함하는 파라미터를 미분 가능한 렌더링 모델에 적용시킴으로써 렌더링된 3D 얼굴 모델을 생성하는 것을 특징으로 하는 3D 얼굴 모델 생성 시스템.
  5. 청구항 3에 있어서,
    상기 손실 계산부는, 랜드마크 손실(landmark loss, Llmk), 눈 손실(eye loss, Leye), 픽셀 손실(pixel loss, Lpix), 아이덴티티 손실(identity loss, Lid), 콘텐츠 손실(content loss, Lcon) 중 적어도 어느 하나 이상을 포함하는 손실을 계산하고, 이들 각각의 손실과 각각의 손실의 가중치를 곱한 값을 합한 값을 손실로서 계산하는 것을 특징으로 하는 3D 얼굴 모델 생성 시스템.
  6. 청구항 3에 있어서,
    상기 최종 3D 모델 출력부는, 고주파 맵을 생성하고 이에 기초하여 픽셀 단위 손실을 계산하고 이를 최소화하도록 렌더링 수행부를 학습시킴으로써 최종 3D 얼굴 모델을 출력하도록 하는 것을 특징으로 하는 3D 얼굴 모델 생성 시스템.
  7. 2D 얼굴 이미지로부터 3D 얼굴 모델을 생성하는 방법으로서,
    사용자의 2D 얼굴 이미지를 획득하는 단계;
    상기 획득된 사용자의 2D 얼굴 이미지에 상응하는 3D 베이스 템플릿을 선택하는 단계;
    상기 획득된 2D 얼굴 이미지와 상기 선택된 3D 베이스 템플릿에 의해 기본 3D 얼굴 모델을 생성하는 단계;
    기본 3D 얼굴 모델에 렌더링을 수행하기 위한 파라미터를 추정하는 단계; 및
    상기 추정된 파라미터에 기초하여 3D 얼굴 모델을 렌더링하고 손실을 계산하며, 상기 계산된 손실을 반영하여 최종 3D 얼굴 모델을 생성하는 단계
    를 포함하는 3D 얼굴 모델 생성 방법.
PCT/KR2022/018158 2022-11-16 2022-11-17 2d 얼굴 이미지로부터 3d 얼굴 모델을 생성하는 시스템 및 방법 WO2024106565A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220153683A KR102693314B1 (ko) 2022-11-16 2022-11-16 2d 얼굴 이미지로부터 3d 얼굴 모델을 생성하는 시스템 및 방법
KR10-2022-0153683 2022-11-16

Publications (1)

Publication Number Publication Date
WO2024106565A1 true WO2024106565A1 (ko) 2024-05-23

Family

ID=91084618

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/018158 WO2024106565A1 (ko) 2022-11-16 2022-11-17 2d 얼굴 이미지로부터 3d 얼굴 모델을 생성하는 시스템 및 방법

Country Status (2)

Country Link
KR (1) KR102693314B1 (ko)
WO (1) WO2024106565A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018136632A (ja) * 2017-02-20 2018-08-30 オムロン株式会社 形状推定装置
KR20200014280A (ko) * 2017-05-31 2020-02-10 소니 주식회사 화상 처리 장치, 화상 처리 시스템, 및 화상 처리 방법, 그리고 프로그램
KR20200119392A (ko) * 2019-03-27 2020-10-20 연세대학교 산학협력단 객체 랜드마크 검출 장치 및 시멘틱 정합 장치의 공동 학습 장치 및 방법
KR20210151143A (ko) * 2019-04-09 2021-12-13 페이스북 테크놀로지스, 엘엘씨 이미지들을 렌더링하기 위한 3-차원 모델링 볼륨
CN114973349A (zh) * 2021-08-20 2022-08-30 腾讯科技(深圳)有限公司 面部图像处理方法和面部图像处理模型的训练方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5842541B2 (ja) * 2011-11-01 2016-01-13 大日本印刷株式会社 三次元ポートレートの作成装置
KR102245693B1 (ko) * 2018-09-18 2021-04-29 서울대학교산학협력단 3차원 영상 재구성 장치 및 그 방법
US11494976B2 (en) * 2020-03-06 2022-11-08 Nvidia Corporation Neural rendering for inverse graphics generation
KR102433646B1 (ko) 2022-01-06 2022-08-18 핑퐁 주식회사 2차원 이미지 인식에 기반한 3차원 모델링 시스템 및 이를 위한 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018136632A (ja) * 2017-02-20 2018-08-30 オムロン株式会社 形状推定装置
KR20200014280A (ko) * 2017-05-31 2020-02-10 소니 주식회사 화상 처리 장치, 화상 처리 시스템, 및 화상 처리 방법, 그리고 프로그램
KR20200119392A (ko) * 2019-03-27 2020-10-20 연세대학교 산학협력단 객체 랜드마크 검출 장치 및 시멘틱 정합 장치의 공동 학습 장치 및 방법
KR20210151143A (ko) * 2019-04-09 2021-12-13 페이스북 테크놀로지스, 엘엘씨 이미지들을 렌더링하기 위한 3-차원 모델링 볼륨
CN114973349A (zh) * 2021-08-20 2022-08-30 腾讯科技(深圳)有限公司 面部图像处理方法和面部图像处理模型的训练方法

Also Published As

Publication number Publication date
KR102693314B1 (ko) 2024-08-07
KR20240071778A (ko) 2024-05-23

Similar Documents

Publication Publication Date Title
WO2017026839A1 (ko) 휴대용 카메라를 이용한 3차원 얼굴 모델 획득 방법 및 장치
WO2021206284A1 (ko) 사이클 gan과 세그맨테이션을 사용한 깊이 추정 방법 및 시스템
WO2019164266A1 (en) Electronic device for generating image including 3d avatar reflecting face motion through 3d avatar corresponding to face and method of operating same
CN114219878B (zh) 虚拟角色的动画生成方法及装置、存储介质、终端
EP0028258A4 (en) METHOD AND APPARATUS FOR PRODUCING A FACE IMAGE OF A PERSON AT A DIFFERENT AGE.
WO2022045486A1 (ko) 발화 동영상 생성 방법 및 장치
CN111192223B (zh) 人脸纹理图像的处理方法、装置、设备及存储介质
WO2021241804A1 (ko) 다중 플로우 기반 프레임 보간 장치 및 방법
WO2023080266A1 (ko) 딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치
WO2017115937A1 (ko) 가중치 보간 맵을 이용한 표정 합성 장치 및 방법
WO2022197024A1 (en) Point-based modeling of human clothing
WO2021177596A1 (en) Fast bi-layer neural synthesis of one-shot realistic images of neural avatar
Zhao et al. Mask-off: Synthesizing face images in the presence of head-mounted displays
WO2020040567A2 (ko) 가상 피팅을 위한 실시간 3d 아바타 생성 방법 및 시스템
WO2024106565A1 (ko) 2d 얼굴 이미지로부터 3d 얼굴 모델을 생성하는 시스템 및 방법
WO2021261687A1 (ko) 영상 기반 사람의 3차원 자세 및 형상 모델 복원 장치 및 방법
WO2019098421A1 (ko) 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법
WO2023075508A1 (ko) 전자 장치 및 그 제어 방법
JP4141090B2 (ja) 画像認識装置、陰影除去装置、陰影除去方法及び記録媒体
WO2011040653A1 (ko) 3차원 객체를 제공하는 사진 장치 및 그 제공방법
WO2022108067A1 (en) Method for rendering relighted 3d portrait of person and computing device for the same
JPH11219422A (ja) 顔による個人同定通信方法
Leung et al. Realistic video avatar
CN114463221A (zh) 一种用于多设备域awb增强的自监督颜色校正方法
WO2023101167A1 (ko) 후면 영상정보 생성 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22965885

Country of ref document: EP

Kind code of ref document: A1