WO2024106565A1

WO2024106565A1 - 2d 얼굴 이미지로부터 3d 얼굴 모델을 생성하는 시스템 및 방법

Info

Publication number: WO2024106565A1
Application number: PCT/KR2022/018158
Authority: WO
Inventors: 전준혁
Original assignee: 전준혁
Priority date: 2022-11-16
Filing date: 2022-11-17
Publication date: 2024-05-23
Also published as: KR102693314B1; KR20240071778A

Abstract

본 발명은, 사용자의 2D 얼굴 이미지를 획득하는 2D 얼굴 이미지 획득부; 상기 획득된 사용자의 2D 얼굴 이미지에 상응하는 3D 베이스 템플릿을 선택하는 3D 베이스 템플릿 선택부; 상기 획득된 2D 얼굴 이미지와 상기 선택된 3D 베이스 템플릿에 의해 기본 3D 얼굴 모델을 생성하는 기본 3D 얼굴 모델 생성부; 기본 3D 얼굴 모델에 렌더링을 수행하기 위한 파라미터를 추정하는 파라미터 추정부; 및 상기 파라미터 추정부에서 추정된 파라미터에 기초하여 3D 얼굴 모델을 렌더링하고 손실을 계산하며, 상기 계산된 손실을 반영하여 최종 3D 얼굴 모델을 생성하는 3D 얼굴 모델 생성부를 포함하는 3D 얼굴 모델 생성 시스템 및 이에 의해 3D 얼굴 모델을 생성하는 방법을 제공한다.

Description

2D 얼굴 이미지로부터 3D 얼굴 모델을 생성하는 시스템 및 방법

본 발명은 3D 얼굴 모델을 생성하는 시스템 및 방법에 관한 것으로서, 보다 상세하게는 인공 지능(AI) 기술에 기반하여 2D 얼굴 이미지로부터 3D 얼굴 모델을 생성할 수 있는 시스템 및 방법에 관한 것이다.

최근 스마트폰의 보급에 따라 카메라로 얼굴을 촬영하여 아바타(avartar)를 생성하여 다양한 부가 서비스를 제공하는 기술이 제안되고 있다. 또한, 2차원의 촬영 이미지를 3차원 모델로 생성할 수 있도록 하는 서비스도 알려져 있다. 특히, 최근 메타버스와 같은 공간에서의 관심이 증가하고 있어서 향후 이러한 추세는 더욱 늘어날 것으로 예상된다.

그러나, 종래의 기술은, 아직까지 부자연스럽고 얼굴의 특징을 제대로 표현하지 못하고 얼굴의 세밀한 질감을 표현하지 못한다는 문제점이 있다. 또한, 3차원 모델을 생성하는 내부 연산 과정이 복잡하고 시간이 오래 걸린다는 문제도 있다.

[선행기술문헌]

대한민국 등록특허공보 제10-2433646호(2022.08.18.공고)

본 발명은 상기한 바와 같은 문제점을 해결하기 위한 것으로서, 인공 지능(AI) 기술에 기반하여 2D 얼굴 이미지로부터 3D 얼굴 모델을 생성할 수 있는 시스템 및 방법을 제공하는 것을 목적으로 한다.

상기한 바와 같은 과제를 해결하기 위하여 본 발명은, 2D 얼굴 이미지로부터 3D 얼굴 모델을 생성하는 시스템으로서, 사용자의 2D 얼굴 이미지를 획득하는 2D 얼굴 이미지 획득부; 상기 획득된 사용자의 2D 얼굴 이미지에 상응하는 3D 베이스 템플릿을 선택하는 3D 베이스 템플릿 선택부; 상기 획득된 2D 얼굴 이미지와 상기 선택된 3D 베이스 템플릿에 의해 기본 3D 얼굴 모델을 생성하는 기본 3D 얼굴 모델 생성부; 기본 3D 얼굴 모델에 렌더링을 수행하기 위한 파라미터(parameter)를 추정하는 파라미터 추정부; 및 상기 파라미터 추정부에서 추정된 파라미터에 기초하여 3D 얼굴 모델을 렌더링하고 손실을 계산하며, 상기 계산된 손실을 반영하여 최종 3D 얼굴 모델을 생성하는 3D 얼굴 모델 생성부를 포함하는 3D 얼굴 모델 생성 시스템을 제공한다.

여기에서, 상기 파라미터 추정부는, 사용자의 얼굴 부위별 형상 파라미터를 추정하는 형상 파라미터 추정부; 3D 얼굴 모델에서 빛이 반사되는 정도를 나타내는 알베도 파라미터를 추정하는 알베도 파라미터 추정부; 3D 얼굴 모델로 조사되는 빛이 어느 방향으로부터 오는지를 나타내는 광원 파라미터를 추정하는 광원 파라미터 추정부; 및 3D 얼굴 모델을 관측하는 관측자인 카메라가 어디를 바라보고 있는지를 나타내는 카메라 파라미터를 추정하는 카메라 파라미터 추정부를 포함할 수 있다.

또한, 상기 3D 얼굴 모델 생성부는, 상기 파라미터 추정부에서 추정된 파라미터에 기초하여 상기 3D 얼굴 모델 생성부에서 생성된 기본 3D 얼굴 모델에 렌더링(redering)을 수행함으로써 3D 얼굴 모델을 생성하는 렌더링 수행부; 상기 렌더링 수행부에 의해 렌더링된 3D 얼굴 모델을 2D 얼굴 이미지로 변환하고 손실을 계산하는 손실 계산부; 및 상기 손실 계산부에 계산된 손실을 최소화하도록 상기 렌더링 수행부의 렌더링 모델을 학습시킴으로써 최종적으로 생성된 최종 3D 얼굴 모델을 출력하는 최종 3D 얼굴 모델 출력부를 포함할 수 있다.

또한, 상기 렌더링 수행부는, 상기 형상 파라미터, 알베도 파라미터, 광원 파라미터, 카메라 파라미터를 포함하는 파라미터를 미분 가능한 렌더링 모델에 적용시킴으로써 렌더링된 3D 얼굴 모델을 생성할 수 있다.

또한, 상기 손실 계산부는, 랜드마크 손실(landmark loss, L_lmk), 눈 손실(eye loss, L_eye), 픽셀 손실(pixel loss, L_pix), 아이덴티티 손실(identity loss, L_id), 콘텐츠 손실(content loss, L_con) 중 적어도 어느 하나 이상을 포함하는 손실을 계산하고, 이들 각각의 손실과 각각의 손실의 가중치를 곱한 값을 합한 값을 손실로서 계산할 수 있다.

또한, 상기 최종 3D 모델 출력부는, 고주파 맵을 생성하고 이에 기초하여 픽셀 단위 손실을 계산하고 이를 최소화하도록 렌더링 수행부를 학습시킴으로써 최종 3D 얼굴 모델을 출력하도록 할 수 있다.

본 발명의 다른 측면에 의하면, 2D 얼굴 이미지로부터 3D 얼굴 모델을 생성하는 방법으로서, 사용자의 2D 얼굴 이미지를 획득하는 단계; 상기 획득된 사용자의 2D 얼굴 이미지에 상응하는 3D 베이스 템플릿을 선택하는 단계; 상기 획득된 2D 얼굴 이미지와 상기 선택된 3D 베이스 템플릿에 의해 기본 3D 얼굴 모델을 생성하는 단계; 기본 3D 얼굴 모델에 렌더링을 수행하기 위한 파라미터를 추정하는 단계; 및 상기 추정된 파라미터에 기초하여 3D 얼굴 모델을 렌더링하고 손실을 계산하며, 상기 계산된 손실을 반영하여 최종 3D 얼굴 모델을 생성하는 단계를 포함하는 3D 얼굴 모델 생성 방법을 제공한다.

본 발명에 의하면, 인공 지능(AI) 기술에 기반하여 2D 얼굴 이미지로부터 3D 얼굴 모델을 생성할 수 있는 시스템 및 방법을 제공할 수 있다.

도 1은 본 발명에 의한 2D 얼굴 이미지로부터 3D 얼굴 모델을 생성하는 시스템(100)의 전체적인 구성을 나타낸 도면이다.

도 2는 파라미터 추정부(40)의 구성을 나타낸 도면이다.

도 3은 3D 얼굴 모델 생성부(50)의 구성을 나타낸 도면이다.

도 4는 손실 계산부(52)의 구성을 나타낸 도면이다.

도 5는 최종 3D 얼굴 모델 출력부(53)의 구성의 일예를 나타낸 것이다.

도 6은 본 발명에 의한 시스템(100)에 의해 수행되는 2D 얼굴 이미지로부터 3D 얼굴 모델을 생성하는 방법의 일실시예를 나타낸 흐름도이다.

이하, 첨부 도면을 참조하여 본 발명에 의한 실시예를 상세하게 설명하기로 한다.

도 1은 본 발명에 의한 2D 얼굴 이미지로부터 3D 얼굴 모델을 생성하는 시스템(100, 이하, 간단히 "시스템(100)"이라 한다)의 전체적인 구성을 나타낸 도면이다.

도 1을 참조하면, 시스템(100)은, 2D 얼굴 이미지 획득부(10), 3D 베이스 템플릿 선택부(20), 기본 3D 얼굴 모델 생성부(30), 파라미터 추정부(40) 및 3D 얼굴 모델 생성부(50)를 포함한다.

2D 얼굴 이미지 획득부(10)는 사용자의 2D 얼굴 이미지를 획득하는 수단이다. 2D 얼굴 이미지는 예컨대 스마트폰과 같은 사용자 단말기에 의해 획득되어 시스템(100)으로 전송될 수 있다.

3D 베이스 템플릿 선택부(20)는 상기 획득된 사용자의 2D 얼굴 이미지에 상응하는 3D 베이스 템플릿(3D base template)을 선택하는 수단이다.

이는 다음과 같은 방식으로 이루어질 수 있다. 우선 사용자의 2D 얼굴 이미지로부터 사용자의 얼굴의 실제 크기를 추정하고, 이에 기초하여 인종 정보를 추정함으로써 인종에 따라 미리 저장되어 있는 복수개의 3D 템플릿 중에서 해당 인종 정보 및 실제 크기에 상응하는 3D 베이스 템플릿을 선택할 수 있다.

사용자의 얼굴의 실제 크기는, 예컨대 사용자의 얼굴을 촬영한 스마트폰과 같은 사용자 단말기와 사용자의 얼굴 사이의 거리 데이터에 의해 추정할 수 있다. 예컨대, 사용자의 얼굴이 스마트폰으로 촬영된 경우, 스마트폰으로부터 사용자의 얼굴과의 거리 데이터를 수집하고, 이에 의해 미간과 얼굴의 전체 폭을 추정하여 사용자의 얼굴의 실제 크기를 추정할 수 있다. 인종 정보를 추정하는 것은 상기 방법 이외에도 기타 다른 방법을 사용할 수도 있음은 물론이다.

기본 3D 얼굴 모델 생성부(30)는, 상기 획득된 2D 얼굴 이미지와 상기 선택된 3D 베이스 템플릿에 의해 기본 3D 얼굴 모델을 생성하는 기능을 수행한다.

기본 3D 얼굴 모델 생성부(30)는, 상기 획득된 2D 얼굴 이미지로부터 예컨대 얼굴 세그멘테이션(face segmentation) 등의 방법을 통해 얼굴에 해당하는 부분만을 구분하고, 머리카락, 안경, 포즈(pose)에 따른 오클루전(occlusion)이 있는 경우 이를 보정한 후, 2D 얼굴 이미지에서 표정을 제거하고 정면을 바라보는 형태로 변환함으로써 변환 2D 얼굴 이미지를 생성한 후, 변환 2D 얼굴 이미지와 상기 선택된 3D 베이스 템플릿에 기초하여 기본 3D 얼굴 모델을 생성한다.

기본 3D 얼굴 모델은 딥러닝 기반의 신경망 모델로 구현된 얼굴 생성 모델에 의해 생성될 수 있다. 예컨대, 기본 3D 얼굴 모델 생성부(30)는 미리 학습되어 있는 딥러닝 기반의 신경망 모델에 의해 2D 얼굴 이미지와 3D 베이스 템플릿을 합성하여 기본 3D 얼굴 모델을 생성할 수 있다. 이러한 신경망 모델 자체는 본 발명의 직접적인 목적이 아니고 종래 기술에 의해 알려져 있는 것을 사용할 수 있으므로 상세 설명은 생략한다.

파라미터 추정부(40)는, 기본 3D 얼굴 모델에 렌더링을 수행하기 위한 파라미터(parameter)를 추정하는 기능을 수행한다.

도 2는 파라미터 추정부(40)의 구성을 나타낸 도면이다.

도 2를 참조하면, 파라미터 추정부(40)는, 형상 파라미터 추정부(41), 알베도 파라미터 추정부(42), 광원 파라미터 추정부(43) 및 카메라 파라미터 추정부(44)를 포함할 수 있다.

형상 파라미터 추정부(41)는 사용자의 얼굴 부위별 형상 파라미터를 추정하는 기능을 수행한다. 예컨대, 사용자의 얼굴 절반을 세분화하여 입술(6개), 광대(4개), 볼(4개), 코(7개), 눈(8개), 턱(5개), 목(3개), 귀(4개), 이마(3개)에 해당하는 파라미터를 추정할 수 있다.

알베도 파라미터 추정부(42), 광원 파라미터 추정부(43) 및 카메라 파라미터 추정부(44)는 각각 알베도 파라미터, 광원 파라미터 및 카메라 파라미터를 추정한다. 알베도(albedo) 파라미터는 3D 얼굴 모델에서 빛이 반사되는 정도를 나타내는 파라미터이고, 광원 파라미터는 3D 얼굴 모델로 조사되는 빛(light)이 어느 방향으로부터 오는지를 나타내는 파라미터이다. 알베도 파라미터에 의해 알베도 맵(map)이 생성될 수 있다. 또한, 카메라 파라미터는 3D 얼굴 모델을 관측하는 관측자인 카메라가 어디를 바라보고 있는지를 나타내는 파라미터이다. 이는 포즈(pose)를 나타내는 파라미터로 볼 수 있다. 이들 파라미터들에 의해 텍스처 맵(texture map), 변위 맵(displacement map)이 생성될 수 있다.

3D 얼굴 모델 생성부(50)는, 상기 파라미터 추정부(40)에서 추정된 파라미터에 기초하여 3D 얼굴 모델을 렌더링하고 손실을 계산하며 상기 계산된 손실을 반영하여 최종 3D 얼굴 모델을 생성하는 기능을 수행한다.

도 3은 3D 얼굴 모델 생성부(50)의 구성을 나타낸 도면이다.

도 3을 참조하면, 3D 얼굴 모델 생성부(50)는, 렌더링 수행부(51), 손실 계산부(52) 및 최종 3D 얼굴 모델 출력부(53)를 포함한다.

렌더링 수행부(51)는 전술한 파라미터 추정부(40)에서 추정된 파라미터에 기초하여 상기 기본 3D 얼굴 모델 생성부(30)에서 생성된 기본 3D 얼굴 모델에 렌더링(redering)을 수행함으로써 3D 얼굴 모델을 생성하는 수단이다.

렌더링 수행부(51)는 미분 가능한 렌더러(differentiable rendere)라는 학습 가능한 렌더링 모델로 구현될 수 있으며, 렌더링 수행부(51)에 의해 렌더링되는 3D 모델(이미지)는 아래와 같은 수식으로 표현할 수 있다.

I_r :렌더링된 이미지

R : 미분가능한 렌더링 모델

S : 형상 생성 모델

p_s : 형상 파라미터

G : 생성 모델

P_t : 텍스쳐 파라미터

α : 알베도 파라미터

P_c : 카메라 파라미터

P_l: 광원 파라미터

즉, 렌더링 수행부(51)는, 상기 형상 파라미터, 알베도 파라미터, 광원 파라미터, 카메라 파라미터를 포함하는 파라미터를 미분 가능한 렌더링 모델에 적용시킴으로써 렌더링된 3D 얼굴 모델을 생성한다. 또한, 렌더링 수행부(51)는 후술하는 바와 같이 손실 계산부(52)에서 계산된 손실을 렌더링 모델에 예컨대 역전파(backpropagation)하는 방식으로 반영하여 손실이 최소화도록 상기 파라미터들을 최적화함으로써 최종 3D 얼굴 모델 출력부(53)에서 최종 3D 얼굴 모델을 출력하도록 할 수 있다.

손실 계산부(52)는, 상기 렌더링 수행부(51)에 의해 렌더링된 3D 얼굴 모델을 2D 얼굴 이미지로 변환하고, 손실(loss)을 계산하는 기능을 수행한다.

손실 계산부(52)에서 계산에 사용되는 손실은, 랜드마크 손실(landmark loss, L_lmk), 눈 손실(eye loss, L_eye), 픽셀 손실(pixel loss, L_pix), 아이덴티티 손실(identity loss, L_id), 콘텐츠 손실(content loss, L_con) 중 적어도 어느 하나 이상을 포함할 수 있다. 손실 계산부(52)는 이들 각각의 손실과 각각의 손실의 가중치를 곱한 값을 합한 값을 계산한다. 합한 값은 최종 3D 모델 출력부(53)로 전달되어 각각의 손실과 각각의 손실의 가중치를 곱한 값을 합한 값을 최소화하도록 렌더링 수행부(51)로 역전파(backpropagation)하는 방식으로 렌더링 모델의 파라미터들을 최적화함으로써 최종 3D 얼굴 모델을 출력하도록 할 수 있다. 이는 다음 수식으로 나타낼 수 있다.

여기에서, λ는 각각의 손실의 가중치를 나타낸다.

도 4는 손실 계산부(52)의 구성을 나타낸 도면이다.

도 4를 참조하면, 손실 계산부(52)는, 랜드마크 손실 계산부(521), 눈 손실 계산부(522), 픽셀 손실 계산부(523). 아이덴티티 손실 계산부(524), 콘텐츠 손실 계산부(525) 및 손실 합산부(526)를 포함할 수 있다.

랜드마크 손실 계산부(521)는, 랜드마크 손실(landmark loss)을 계산하는 수단으로서, 상기 렌더링 수행부(51)에서 렌더링된 3D 얼굴 모델을 2D 얼굴 이미지로 투영(projection)시켜서 미리 설정된 갯수의 랜드마크를 통해 정렬되도록 한다. 랜드마크 손실 계산부(521)는 형상, 카메라, 광원 파라미터를 고려하기 위해 딥러닝 기반 얼굴 정렬 모델을 통해 3D 모델을 2D 이미지로 투영시키고 랜드마크 위치(landmark location)을 계산할 수 있다. 이는 예컨대 다음 수식으로 나타낼 수 있다.

여기에서, F_lmk는 딥러닝 기반 얼굴 정렬 모델이고, I₀는 입력 이미지이다.

눈 손실 계산부(522)는 눈과 관련된 손실을 계산하는 수단으로서, 상기 랜드마크 손실 계산부(521)에서 고려된 랜드마크 중에서 눈에 대한 손실(L_eye)을 계산한다. 눈이나 눈 주변은 인물의 특징을 잘 나타내기 때문에 이에 대한 별도의 손실을 계산하는 것이 바람직하다. 이는 다음과 같은 수식으로 표현할 수 있다.

여기에서, k_i는 각각의 랜드마크를 나타낸다.

픽셀 손실 계산부(523)는, 픽셀 손실(pixel loss)을 계산하는 수단으로서, 입력 2D 얼굴 이미지가 얼굴 세그멘테이션(face segmentation)된 후의 2D 얼굴 이미지와 렌더링된 3D 얼굴 모델의 픽셀 손실(pixel loss, L_pix)를 계산하여 이미지의 색깔, 빛, 광원에 대한 정보를 반영하는 기능을 수행한다. 이는 다음과 같은 수식으로 나타낼 수 있다.

아이덴티티 손실 계산부(524)는, 아이덴티티 손실(identity loss)을 계산하는 수단으로서, 입력 이미지와 렌더링된 3D 얼굴 모델이 같은 사람을 표현할 수 있는 아이덴티티 정보(identity information)를 획득하고 자세나 명도, 표정, 오클루전(occlusion) 등에 따라 이미지가 달라져도 사람을 구분할 수 있도록 하며, 입력 이미지의 고유한(identical) 특성에 대한 손실을 계산한다. 아이덴티티 정보는 미리 학습된 얼굴 인식 네트워크(face recognition network)에 의해 획득될 수 있으며, 이에 의한 아이덴티티 손실(L_id)은 다음과 같은 수식으로 표현할 수 있다.

여기에서, Fⁿ은 얼굴 인식 네트워크이다.

콘텐츠 손실 계산부(525)는 콘텐츠 손실(content loss)을 계산하는 수단이다. 전술한 얼굴 인식 네트워크의 히든 레이어(hidden layer)에서 정보를 저장하고 있는 특성(feature)를 뽑아서 해당 특성을 추후 사용할 수 있도록 한다. 이는 다음과 같은 수식으로 표현할 수 있다.

손실 합산부(526)는 상기한 바와 같은 손실을 합하여 피팅(fitting)하는 수단이다. 전술한 바와 같이, 손실 합산부(526)는 각각의 손실과 각각의 손실의 가중치를 곱한 값을 합하여 피팅한다. 즉, 각각의 손실과 각각의 손실의 가중치를 곱한 값을 합한 값이 최소화되도록 렌더링 수행부(51)로 역전파(backpropagation)하는 방식으로 렌더링 모델의 파라미터들을 최적화한다. 이는 다음 수식으로 나타낼 수 있다.

여기에서, λ는 각각의 손실의 가중치를 나타낸다.

최종 3D 얼굴 모델 출력부(53)는 상기한 바와 같은 손실 계산부(52)에 계산된 손실을 최소화하도록 상기 렌더링 수행부(51)의 렌더링 모델을 학습시킴으로써 최종적으로 생성된 최종 3D 얼굴 모델을 출력하는 수단이다. 최종 3D 얼굴 모델 출력부(53)는 전술한 바와 같이 손실을 최소화하도록 하는 과정을 통해 최종 3D 얼굴 모델을 출력할 수 있으나, 보다 정확한 모델링을 위해 고주파 맵을 생성하고 이에 기초하여 픽셀 단위 손실을 계산하고 이를 최소화하도록 다시 렌더링 수행부(51)를 학습시킨 후 최종 3D 얼굴 모델을 출력하도록 할 수도 있다.

도 5를 참조하면, 최종 3D 얼굴 모델 출력부(53)는 고주파 맵 생성부(531) 및 고주파 픽셀 손실 계산부(532)를 더 포함할 수 있다.

고주파 맵 생성부(531)는 고주파 맵(high-frequency map)을 생성하는 수단으로서, 고주파 맵은 고주파 영역의 디테일한 정보를 반영하는 맵이다. 고주파 맵은 고주파 영역에서의 특징(feature)를 추출하는 신경망 모델인 고주파 네트워크(high frequency network)로 구현될 수 있다. 이는 다음과 같은 수식으로 표현할 수 있다.

여기서, F_h는 고주파 네트워크이고, H는 고주파 맵을 나타낸다.

고주파 픽셀 손실 계산부(533)는, 상기 고주파 맵 생성부(531)에 의해 생성된 고주파 맵에 의해 렌더링된 이미지의 픽셀 단위 손실을 나타내는 고주파 픽셀 손실을 계산하는 수단이다. 고주파 픽셀 손실은 다음과 같은 수식으로 표현할 수 있다.

고주파 픽셀 손실 계산부(533)는 앞서 손실 합산부(526)에 대해 설명한 바와 같이, 상기 픽셀 손실을 최소화하도록 렌더링 수행부(51)로 역전파(backpropagation)하는 방식으로 렌더링 모델의 파라미터들을 최적화함으로써 최종 3D 얼굴 모델을 출력하도록 할 수 있다.

한편, 최종 3D 얼굴 모델 출력부(53)는 노멀 맵(normal map)을 생성하고 고주파 맵과 연산하고 이를 3D 얼굴 모델에 반영함으로써 보다 구체적인 표현을 가능하게 하도록 할 수도 있다. 이는 다음과 같은 수식으로 표현할 수 있다.

여기에서, M은 앞서 설명한 3D 얼굴 모델이고 N은 노멀 맵이며, H는 고주파 맵을 나타낸다.

또한, 최종 3D 얼굴 모델 출력부(53)는 히든 레이어(hidden layer)에서 특징 패치 레벨(feature patch level) 단위의 정보를 나타는 히든 손실(L_hid)을 추가적으로 계산할 수 있다. 이는 다음과 같은 수식으로 표현할 수 있다.

또한, 최종 3D 얼굴 모델 출력부(53)는 3D 얼굴 모델의 대칭성을 보정하기 위한 대칭 손실(L_sym)을 추가적으로 고려할 수 있다. 이는 다음과 같은 수식으로 표현할 수 있다.

또한, 최종 3D 얼굴 모델 출력부(53)는 이러한 손실을 종합하여 고주파 손실(L_high)을 추가적으로 계산할 수 있다. 이는 다음과 같은 수식으로 나타낼 수 있다.

최종 3D 얼굴 모델 출력부(53)는 상기와 같은 고주파 손실(L_hid)을 최소화하도록 렌더링 수행부(51)로 역전파(backpropagation)하는 방식으로 렌더링 모델의 파라미터들을 최적화함으로써 최종 3D 얼굴 모델을 출력하도록 할 수 있다.

도 6을 참조하면, 우선, 전술한 바와 같이, 2D 얼굴 이미지 획득부(10)가 사용자의 2D 얼굴 이미지를 획득한다(S100).

다음으로, 3D 베이스 템플릿 선택부(20)에 의해 상기 획득된 2D 얼굴 이미지에 상응하는 3D 베이스 템플릿을 선택한다(S110).

3D 베이스 템플릿이 선택되면, 기본 3D 얼굴 모델 생성부(30)는 획득된 2D 얼굴 이미지와 상기 선택된 3D 베이스 템플릿에 의해 기본 3D 얼굴 모델을 생성한다(S120).

다음으로, 파라미터 추정부(40)에서 기본 3D 얼굴 모델에 렌더링을 수행하기 위한 파라미터를 추정한다(S130). 전술한 바와 같이, 파라미터들은 형상 파라미터, 알베도 파라미터, 광원 파라미터, 카메라 파라미터를 포함할 수 있다.

파라미터들이 추정되면, 3D 얼굴 모델 생성부(50)는, 상기 파라미터 추정부(40)에서 추정된 파라미터에 기초하여 3D 얼굴 모델을 렌더링하고 손실을 계산하고 손실을 반영하여 최종 3D 얼굴 모델을 생성한다(S140).

즉, 3D 얼굴 모델 생성부(50)는 전술한 바와 같이, 미분 가능한 렌더링 모델에 의해 3D 얼굴 모델을 렌더링하고, 손실 계산부(52)에서 계산되는 손실이 최소화되도록 렌더링 모델을 학습시킴으로써 파라미터들을 최적화하여 최종 3D 얼굴 모델을 생성할 수 있다.

또한, 필요한 경우, 전술한 바와 같이, 고주파 손실을 반영하여 고주파 손실을 최소화하도록 렌더링 수행부(51)를 학습시켜 렌더링 모델의 파라미터들을 최적화함으로써 최종 3D 모델을 출력하도록 할 수도 있다(S150).

이상에서, 본 발명에 의한 바람직한 실시예를 참조하여 본 발명을 설명하였으나, 본 발명은 상기 실시예에 한정되는 것이 아니며 첨부한 청구범위 및 도면에 의해 파악되는 본 발명의 범위 내에서 다양한 수정 및 변형 실시가 가능함은 물론이다.

[부호의 설명]

100...2D 얼굴 이미지로부터 3D 얼굴 모델을 생성하는 시스템

10...2D 얼굴 이미지 획득부

20...3D 베이스 템플릿 선택부

30...기본 3D 얼굴 모델 생성부

40...파라미터 추정부

50...3D 얼굴 모델 생성부

Claims

2D 얼굴 이미지로부터 3D 얼굴 모델을 생성하는 시스템으로서,

사용자의 2D 얼굴 이미지를 획득하는 2D 얼굴 이미지 획득부;

상기 획득된 사용자의 2D 얼굴 이미지에 상응하는 3D 베이스 템플릿을 선택하는 3D 베이스 템플릿 선택부;

상기 획득된 2D 얼굴 이미지와 상기 선택된 3D 베이스 템플릿에 의해 기본 3D 얼굴 모델을 생성하는 기본 3D 얼굴 모델 생성부;

기본 3D 얼굴 모델에 렌더링을 수행하기 위한 파라미터(parameter)를 추정하는 파라미터 추정부; 및

상기 파라미터 추정부에서 추정된 파라미터에 기초하여 3D 얼굴 모델을 렌더링하고 손실을 계산하며, 상기 계산된 손실을 반영하여 최종 3D 얼굴 모델을 생성하는 3D 얼굴 모델 생성부

를 포함하는 3D 얼굴 모델 생성 시스템.
청구항 1에 있어서,

상기 파라미터 추정부는,

사용자의 얼굴 부위별 형상 파라미터를 추정하는 형상 파라미터 추정부;

3D 얼굴 모델에서 빛이 반사되는 정도를 나타내는 알베도 파라미터를 추정하는 알베도 파라미터 추정부;

3D 얼굴 모델로 조사되는 빛이 어느 방향으로부터 오는지를 나타내는 광원 파라미터를 추정하는 광원 파라미터 추정부; 및

3D 얼굴 모델을 관측하는 관측자인 카메라가 어디를 바라보고 있는지를 나타내는 카메라 파라미터를 추정하는 카메라 파라미터 추정부

를 포함하는 것을 특징으로 하는 3D 얼굴 모델 생성 시스템.
청구항 1에 있어서,

상기 3D 얼굴 모델 생성부는,

상기 파라미터 추정부에서 추정된 파라미터에 기초하여 상기 3D 얼굴 모델 생성부에서 생성된 기본 3D 얼굴 모델에 렌더링(redering)을 수행함으로써 3D 얼굴 모델을 생성하는 렌더링 수행부;

상기 렌더링 수행부에 의해 렌더링된 3D 얼굴 모델을 2D 얼굴 이미지로 변환하고 손실을 계산하는 손실 계산부; 및

상기 손실 계산부에 계산된 손실을 최소화하도록 상기 렌더링 수행부의 렌더링 모델을 학습시킴으로써 최종적으로 생성된 최종 3D 얼굴 모델을 출력하는 최종 3D 얼굴 모델 출력부

를 포함하는 것을 특징으로 하는 3D 얼굴 모델 생성 시스템.
청구항 3에 있어서,

상기 렌더링 수행부는, 상기 형상 파라미터, 알베도 파라미터, 광원 파라미터, 카메라 파라미터를 포함하는 파라미터를 미분 가능한 렌더링 모델에 적용시킴으로써 렌더링된 3D 얼굴 모델을 생성하는 것을 특징으로 하는 3D 얼굴 모델 생성 시스템.
청구항 3에 있어서,

상기 손실 계산부는, 랜드마크 손실(landmark loss, L_lmk), 눈 손실(eye loss, L_eye), 픽셀 손실(pixel loss, L_pix), 아이덴티티 손실(identity loss, L_id), 콘텐츠 손실(content loss, L_con) 중 적어도 어느 하나 이상을 포함하는 손실을 계산하고, 이들 각각의 손실과 각각의 손실의 가중치를 곱한 값을 합한 값을 손실로서 계산하는 것을 특징으로 하는 3D 얼굴 모델 생성 시스템.
청구항 3에 있어서,

상기 최종 3D 모델 출력부는, 고주파 맵을 생성하고 이에 기초하여 픽셀 단위 손실을 계산하고 이를 최소화하도록 렌더링 수행부를 학습시킴으로써 최종 3D 얼굴 모델을 출력하도록 하는 것을 특징으로 하는 3D 얼굴 모델 생성 시스템.
2D 얼굴 이미지로부터 3D 얼굴 모델을 생성하는 방법으로서,

사용자의 2D 얼굴 이미지를 획득하는 단계;

상기 획득된 사용자의 2D 얼굴 이미지에 상응하는 3D 베이스 템플릿을 선택하는 단계;

상기 획득된 2D 얼굴 이미지와 상기 선택된 3D 베이스 템플릿에 의해 기본 3D 얼굴 모델을 생성하는 단계;

기본 3D 얼굴 모델에 렌더링을 수행하기 위한 파라미터를 추정하는 단계; 및

상기 추정된 파라미터에 기초하여 3D 얼굴 모델을 렌더링하고 손실을 계산하며, 상기 계산된 손실을 반영하여 최종 3D 얼굴 모델을 생성하는 단계

를 포함하는 3D 얼굴 모델 생성 방법.