KR20140043945A

KR20140043945A - 이미지 기반 멀티 뷰 3d 얼굴 생성

Info

Publication number: KR20140043945A
Application number: KR1020147005503A
Authority: KR
Inventors: 시아오펑 통; 지앙구오 리; 웨이 후; 양조우 두; 임인 장
Original assignee: 인텔 코오퍼레이션
Priority date: 2011-08-09
Filing date: 2011-08-09
Publication date: 2014-04-11
Also published as: EP2754130A1; EP2754130A4; WO2013020248A1; CN103765479A; KR101608253B1; JP5773323B2; JP2014525108A; US20130201187A1

Abstract

다중 2D 얼굴 이미지들에 대한 카메라 파라미터들 및 희소한 키 포인트들을 복원하는 것 및 카메라 파라미터들 및 희소한 키 포인트들을 사용하여 조밀한 아바타 메쉬를 생성하도록 멀티 뷰 스테레오 프로세스를 적용하는 것을 포함하는 시스템들, 디바이스들 및 방법들이 설명된다. 조밀한 아바타 메쉬는 이후 3D 얼굴 모델을 생성하는 데 사용될 수 있고 멀티 뷰 텍스쳐 합성이 3D 얼굴 모델에 대한 텍스쳐 이미지를 생성하도록 적용될 수 있다.

Description

이미지 기반 멀티 뷰 3D 얼굴 생성{IMAGE-BASED MULTI-VIEW 3D FACE GENERATION}

사람의 얼굴 특징들의 3D 모델링은 일반적으로 사람들의 현실적인 3D 표현들을 만드는 데 사용된다. 예를 들어, 아바타(avatar)들과 같은 가상의 사람의 표현들은 종종 그러한 모델들을 사용한다. 생성된 3D 얼굴들에 대한 종래의 애플리케이션들은 특징 포인트들의 수동 라벨링(labeling)을 요구한다. 그러한 기법들은 모핑 가능한 모델 피팅(morphable model fitting)을 이용할 수 있지만, 그것들이 자동 얼굴 랜드마크(landmark) 검출을 허용하고 MVS(Multi-view Stereo) 기술을 이용하면 바람직할 것이다.

본원에 설명된 자료는 첨부된 도면들에서 예로서 예시되고 한정하기 위한 것이 아니다. 예시의 간결함 및 명확함을 위해, 도면들에 예시된 요소들은 반드시 실척으로 그려진 것은 아니다. 예를 들어, 명확함을 위해 일부 요소들의 크기들은 그 외의 요소들에 비해 과장될 수 있다. 또한, 적절한 것으로 간주되는 경우, 참조 표시들은 대응하거나 또는 유사한 요소들을 표시하도록 도면들 사이에서 반복되었다.
도 1은 예시의 시스템의 예시적인 도면.
도 2는 예시의 3D 얼굴 모델 생성 프로세스를 예시하는 도면.
도 3은 경계 상자(bounding box) 및 식별된 얼굴 랜드마크들의 예시를 예시하는 도면.
도 4는 다중 복원된(recovered) 카메라들 및 대응하는 조밀한 아바타 메쉬(dense avatar mesh)의 예시를 예시하는 도면.
도 5는 재구성된(reconstructed) 모핑 가능한 얼굴 메쉬를 조밀한 아바타 메쉬에 융합하는 것의 예시를 예시하는 도면.
도 6은 예시의 모핑 가능한 얼굴 메쉬 삼각형을 예시하는 도면.
도 7은 예시의 각도 가중된(angle-weighted) 텍스쳐(texture) 합성 접근 방법을 예시하는 도면.
도 8은 최종 3D 얼굴 모델을 생성하기 위한, 텍스쳐 이미지와 대응하는 스무딩된(smoothed) 3D 얼굴 모델의 예시의 조합을 예시하는 도면.
도 9는 전부 본 발명의 적어도 일부 구현들에 따라 배열된, 예시의 시스템의 예시적인 도면.

첨부된 도면들을 참조하여 하나 이상의 실시예들 또는 구현들을 이제 설명한다. 특정 구성들 및 배열들이 논의되지만, 이는 예시적인 목적들만을 위한 것이라는 것은 당연하다. 본 기술분야에 숙련된 자들은, 그 외의 구성들 및 배열들이 본 설명의 기술적 사상 및 범위로부터 벗어나지 않고 이용될 수 있다는 것을 인식할 것이다. 또한 본원에 설명된 기법들 및/또는 배열들이 본원에 설명된 것 외의 다양한 그외의 시스템들 및 애플리케이션들에서 이용될 수 있다는 것은 본 기술분야에 숙련된 자들에게 명백할 것이다.

이하의 설명이 SoC(system-on-a-chip) 아키텍처들과 같은 아키텍처들에서 나타날 수 있는 다양한 구현들을 기재하지만, 예를 들어, 본원에 설명된 기법들 및/또는 배열들의 구현은 특정 아키텍처들 및/또는 컴퓨팅 시스템들에 한정되지 않고 유사한 목적들을 위한 임의의 아키텍처 및/또는 컴퓨팅 시스템에 의해 구현될 수 있다. 예를 들어, 여러 IC(integrated circuit) 칩들 및/또는 패키지들을 이용하는 다양한 아키텍처들, 및/또는 다양한 컴퓨팅 디바이스들 및/또는 셋 탑 박스(set top box)들, 스마트 폰들 등과 같은 소비자 전자(CE) 디바이스들은, 예를 들어, 본원에 설명된 기법들 및/또는 배열들을 구현할 수 있다. 또한, 이하의 설명이 로직 구현들, 시스템 컴포넌트들의 유형들 및 상호관계들, 로직 분할/집적 선택들 등과 같은 다수의 특정 상세를 기재할 수 있지만, 청구 대상은 그러한 특정 상세들 없이 실시될 수 있다. 그외의 예시들에서, 예를 들어, 컨트롤 구조들 및 완전 소프트웨어 명령어 시퀀스들과 같은, 일부 자료는 본원에 개시된 자료를 모호하게 하지 않기 위해서 상세히 도시되지 않을 수 있다.

본원에 개시된 자료는 하드웨어, 펌웨어, 소프트웨어, 또는 그들의 임의의 조합으로 구현될 수 있다. 본원에 개시된 자료는 또한, 하나 이상의 프로세서에 의해 판독될 수 있고 실행될 수 있는, 머신 판독 가능 매체에 저장된 명령어들로서 구현될 수 있다. 머신 판독 가능 매체는 머신(예를 들어, 컴퓨팅 디바이스)에 의해 판독 가능한 형태로 정보를 저장하거나 또는 송신하기 위한 임의의 매체 및/또는 메커니즘을 포함할 수 있다. 예를 들어, 머신 판독 가능 매체는 ROM(read only memory); RAM(random access memory); 자기 디스크 저장 매체; 광 저장 매체; 플래시 메모리 디바이스들; 전기, 광, 음향 또는 그외의 형태들의 전파된 신호들(예를 들어, 반송파(carrier wave)들, 적외선 신호들, 디지털 신호들 등), 및 그외의 것들을 포함할 수 있다.

"일 구현", "구현", "예시의 구현" 등의 명세서 내의 참조는 설명된 구현이 특정 특징, 구조, 또는 특성을 포함할 수 있으나, 모든 구현이 그 특정 특징, 구조, 또는 특성을 반드시 포함할 필요는 없다. 또한, 그러한 구절이 반드시 동일한 구현을 지칭하는 것은 아니다. 또한, 특정 특징, 구조, 또는 특성이 구현과 함께 설명되는 경우, 그러한 특징, 구조, 또는 특성을 본원에 명백하게 설명되거나 또는 그렇지 않은 그외의 구현들과 함께 실시하는 것이 본 기술분야에 숙달된 자의 지식에 속하는 것으로 제출되었다.

도 1은 본 발명에 따른 예시의 시스템(100)을 예시한다. 다양한 구현들에서, 시스템(100)은, 본원에 설명될 바와 같이 얼굴 텍스쳐를 포함하는 3D 얼굴 모델을 생성하는 것이 가능한 이미지 캡처(capture) 모듈(102) 및 3D 얼굴 시뮬레이션 모듈(110)을 포함할 수 있다. 다양한 구현들에서, 시스템(100)은 캐릭터 모델링 및 생성, 컴퓨터 그래픽, 화상 회의, 온라인 게이밍(gaming), 가상 현실 애플리케이션들 등에서 이용될 수 있다. 또한, 시스템(100)은 지각(perceptual) 컴퓨팅, 디지털 홈 엔터테인먼트, 소비자 전자제품들 등과 같은 애플리케이션들에 적합할 수 있다.

이미지 캡처 모듈(102)은 스틸(still) 또는 비디오 카메라와 같은, 하나 이상의 이미지 캡처링 디바이스(104)를 포함한다. 일부 구현들에서, 단일 카메라(104)는, 이하에 더 상세히 설명하는 바와 같이 얼굴(108)에 대한 각 이미지의 시점(perspective)이 상이한, 얼굴(108)의 이미지들의 시퀀스를 생성하도록 대상 얼굴(108) 주위로 원호 또는 트랙(106)을 따라 이동할 수 있다. 그외의 구현들에서, 얼굴(108)에 대해 다양한 각도들에 위치된 다중 이미징 디바이스(104)가 이용될 수 있다. 일반적으로, 임의의 수의 공지된 이미지 캡처링 시스템 및/또는 기법을 캡처 모듈(102)에서 이용하여 이미지 시퀀스들을 생성할 수 있다(예를 들어, Seitz et al., "A Comparison and Evaluation of Multi-View Stereo Reconstruction Algorithms," In Proc. IEEE Conf. on Computer Vision and Pattern Recognition, 2006 참조)(이하 "Seitz et al.").

이미지 캡처 모듈(102)은 이미지 시퀀스를 시뮬레이션 모듈(110)에 제공할 수 있다. 시뮬레이션 모듈(110)은 적어도 얼굴 검출 모듈(112), MVS(multi-view stereo) 모듈(114), 3D 모핑 가능한 얼굴 모듈(116), 정렬 모듈(118), 및 텍스쳐 모듈(120)을 포함하고, 그것들의 기능은 이하에 더 상세할 설명할 것이다. 일반적으로, 또한 이하에 더 상세히 설명하는 바와 같이, 시뮬레이션 모듈(110)은 캡처 모듈(102)에 의해 제공되는 이미지들 중에서 이미지들을 선택하고, 선택된 이미지들 상에서 얼굴 검출을 수행하여 얼굴 경계 상자들 및 얼굴 랜드마크들을 획득하고, 카메라 파라미터들을 복원하고 희소한 키 포인트(sparse key-point)들을 획득하고, 멀티 뷰 스테레오 기법들을 수행하여 조밀한 아바타 메쉬를 생성하고, 메쉬를 모핑 가능한 3D 얼굴 모델에 피팅하고, 3D 얼굴 모델을 정렬 및 스무딩함으로써 그것을 정제(refine)하고, 얼굴 모델에 대한 텍스쳐 이미지를 합성하는 데 사용될 수 있다.

다양한 구현들에서, 이미지 캡처 모듈(102) 및 시뮬레이션 모듈(110)은 서로 이웃할 수 있거나 또는 근접할 수 있다. 예를 들어, 이미지 캡처 모듈(102)은 이미징 디바이스(104)로서 비디오 카메라를 이용할 수 있고 시뮬레이션 모듈(110)은, 이미지 시퀀스를 디바이스(104)로부터 직접 수신하고 이후 이미지들을 프로세스하여 3D 얼굴 모델 및 텍스쳐 이미지를 생성하는 컴퓨팅 시스템에 의해 구현될 수 있다. 그외의 구현들에서, 이미지 캡처 모듈(102) 및 시뮬레이션 모듈(110)은 서로로부터 원격일 수 있다. 예를 들어, 이미지 캡처 모듈(102)로부터 원격인 하나 이상의 서버 컴퓨터는, 모듈(110)이 이미지 시퀀스를, 예를 들어, 인터넷을 통해, 모듈(102)로부터 수신할 수 있는 시뮬레이션 모듈(110)을 구현할 수 있다. 또한, 다양한 구현들에서, 시뮬레이션 모듈(110)은 다양한 컴퓨터 시스템들에 걸쳐 분산될 수 있거나 또는 분산되지 않을 수 있는 소프트웨어, 펌웨어 및/또는 하드웨어의 임의의 조합에 의해 제공될 수 있다.

도 2는 본 발명의 다양한 구현들에 따라 3D 얼굴 모델을 생성하기 위한 예시의 프로세스(200)의 흐름도를 예시한다. 프로세스(200)는 도 2의 하나 이상의 블록(202, 204, 206, 208, 210, 212, 214 및 216)에 의해 예시된 바와 같은 하나 이상의 동작들, 기능들 또는 액션들을 포함할 수 있다. 한정하지 않는 예시의 방식으로, 프로세스(200)는 도 1의 예시의 시스템을 참조하여 본원에 설명될 것이다. 프로세스(200)는 블록(202)에서 시작할 수 있다.

블록(202)에서, 얼굴의 다중 2D 이미지들을 캡처할 수 있고 이후의 프로세싱을 위해 이미지들 중 다양한 것들을 선택할 수 있다. 다양한 구현들에서, 블록(202)은 사람의 얼굴의 비디오 이미지들을 상이한 시점들로부터 기록하기 위해 일반적인 상업 카메라를 사용하는 것을 포함할 수 있다. 예를 들어, 비디오는, 얼굴이 가만히 있고 중립적인 표정을 유지하는 동안 약 10초의 지속기간 동안 사람의 머리의 전방 주위의 약 180도에 이르는 상이한 방향들에서 기록될 수 있다. (초당 30프레임의 표준 비디오 프레임 레이트(frame rate)를 가정하면) 이는 약 삼백 개의 2D 이미지들이 캡처되게 할 수 있다. 결과적인 비디오는 이후 디코딩될 수 있고 약 30개 가량의 얼굴 이미지들의 부분 집합이 수동적으로, 또는 자동화된 선택 방법(예를 들어, R. Hartley and A. Zisserman, "Multiple View Geometry in Computer Vision," Chapter 12, Cambridge Press, Second Version(2003) 참조)을 사용함으로써 선택될 수 있다. 일부 구현들에서, (이미지화된 대상에 대해 측정된) 이웃한 선택된 이미지들 사이의 각도는 10도 이하일 수 있다.

이후 블록(204)에서 선택된 이미지들 상에서 얼굴 검출 및 얼굴 랜드마크 식별을 수행하여 대응하는 얼굴 경계 상자들 및 경계 상자들 내의 식별된 랜드마크들을 생성할 수 있다. 다양한 구현들에서, 블록(204)은, 공지된 자동화된 멀티 뷰 얼굴 검출 기법들(예를 들어, Kim et al., "Face Tracking and Recognition with Visual Constraints in Real-World Videos", In IEEE Conf. Computer Vision and Pattern Recognition(2008) 참조)을 적용하여 얼굴 경계 상자를 사용하여 각 이미지 내의 얼굴 윤곽 및 얼굴 랜드마크들을 아웃라인(outline)하여 랜드마크들이 식별되는 구역을 한정하고 관계없는 배경 이미지 컨텐트(content)를 제거하는 것을 포함할 수 있다. 예를 들어, 도 3은 사람의 얼굴(308)의 2D 이미지(306)에 대한 경계 상자(302) 및 식별된 얼굴 랜드마크들(304)의 한정하지 않는 예시를 예시한다.

블록(206)에서, 각 이미지에 대해 카메라 파라미터들을 결정할 수 있다. 다양한 구현들에서, 블록(206)은, 각 이미지에 대해, 안정적인 키 포인트들을 추출하는 것 및, Seitz et al.에 설명된 것과 같은, 공지된 자동 카메라 파라미터 복원 기법들을 사용하여 특징 포인트들의 희소한 세트 및 카메라 투영 행렬(projection matrix)을 포함하는 카메라 파라미터들을 획득하는 것을 포함할 수 있다. 일부 예시들에서, 시스템(100)의 얼굴 검출 모듈(112)은 블록(204) 및/또는 블록(206)을 수행할 수 있다.

블록(208)에서, MVS(multi-view stereo) 기법들을 적용하여 희소한 특징 포인트들 및 카메라 파라미터들로부터 조밀한 아바타 메쉬를 생성할 수 있다. 다양한 구현들에서, 블록(208)은 얼굴 이미지 쌍들에 대해, 공지된 스테레오 호모그래피(stereo homography) 및 멀티 뷰 정렬 및 집적 기법들을 수행하는 것을 포함할 수 있다. 예를 들어, WO2010133007("Techniques for Rapid Stereo Reconstruction from Images")에 설명된 바와 같이, 이미지들의 쌍에 대해, 호모그래피 피팅에 의해 획득한 최적화된 이미지 포인트 쌍들이 공지된 카메라 파라미터들을 사용하여 삼각 측량되어(triangulated) 조밀한 아바타 메쉬에 3차원 포인트를 생성할 수 있다. 예를 들어, 도 4는 블록(206)에서 획득할 수 있는 것과 같은 (예를 들어, 복원된 카메라 파라미터들에 의해 특정된 것과 같은) 다중 복원된 카메라들(402) 및 블록(208)에서 획득할 수 있는 것과 같은 대응하는 조밀한 아바타 메쉬(404)의 한정하지 않는 예시를 예시한다. 일부 예시들에서, 시스템(100)의 MVS 모듈(114)은 블록(208)을 수행할 수 있다.

도 2의 논의로 돌아가서, 블록(208)에서 획득한 조밀한 아바타 메쉬를 블록(210)에서 3D 모핑 가능한 모델에 피팅하여 재구성된 3D 모핑 가능한 얼굴 메쉬를 생성할 수 있다. 이후 블록(212)에서 조밀한 아바타 메쉬를 재구성된 모핑 가능한 얼굴 메쉬에 정렬하고 정제하여 스무딩된 3D 얼굴 모델을 생성할 수 있다. 일부 예시들에서, 시스템(100)의 3D 모핑 가능한 모델 모듈(116) 및 정렬 모듈(118)은, 각각, 블록들(210 및 212)을 수행할 수 있다.

다양한 구현들에서, 블록(210)은 얼굴 데이터 세트로부터 모핑 가능한 얼굴 모델을 학습하는 것을 포함할 수 있다. 예를 들어, 얼굴 데이터 세트는 조밀한 아바타 메쉬 내의 각 포인트 또는 정점(vertex)을 특정하는 형상 데이터(예를 들어, 데카르트 좌표계(Cartesian coordinate system)에서 (x, y, z) 메쉬 좌표들) 및 텍스쳐 데이터(적색, 녹색 및 청색의 컬러 인텐시티(color intensity) 값들)를 포함할 수 있다. 형상 및 텍스쳐는, 각각, (n이 얼굴 내의 특징 포인트들 또는 정점들의 수인) 각각의 열 벡터들 (x₁, y₁, z₁, x₂, y₂, z₂, ..., x_n, y_n, z_n)^t, 및 (R₁, G₁, B₁, R₂, G₂, B₂, ..., R_n, G_n, B_n)^t에 의해 표현될 수 있다.

포괄적인(generic) 얼굴은 이하의 수학식,

을 사용하여 3D 모핑 가능한 얼굴 모델로서 표현될 수 있고, 여기에서 X ₀는 평균 열 벡터, λ _i 는 i번째 고유값(eigen-value), U _i 는 i번째 고유 벡터(eigen-vector), 그리고 α _i 는 i번째 고유값의 재구성된 메트릭(metric) 계수이다. 수학식 (1)에 의해 표현된 모델은 이후 계수들의 세트 {α}_n를 조정함으로써 다양한 형상들로 모핑될 수 있다.

조밀한 아바타 메쉬를 수학식 (1)의 3D 모핑 가능한 얼굴 모델에 피팅하는 것은 모핑 가능한 모델 정점들 S _mod를,

로서 분석적으로 정의하는 것을 포함할 수 있고, 여기에서

는 모핑 가능한 모델 정점들의 완전 세트 K로부터의 특징 포인트들에 대응하는 n개의 정점들을 선택하는 투영(projection)이다. 수학식 (2)에서 n개의 특징 포인트들은 재구성된 에러를 측정하는 데 사용된다.

피팅 동안, 모델 프라이어(prior)들은 이하의 비용 함수(cost function),

을 야기하도록 적용될 수 있고, 여기에서 수학식 (3)은, 적격의(qualified) 형상을 표현하는 것의 확률이 표준(norm)에 직접 의존한다는 것을 가정한다. α에 대한 더 큰 값들은 재구성된 얼굴과 평균 얼굴 사이의 더 큰 차이들에 대응한다. 파라미터 η는 수학식 (3)에서 사전 확률(prior probability) 및 피팅 품질을 트레이드 오프(trade-off)하고 이하의 비용 함수,

를 최소화함으로써 반복하여 결정될 수 있고, 여기에서

이고

이다. 특이 분해(singular decomposition)를 A에 적용하는 것은

를 산출하고, 여기에서 w _i 는 A의 특이값이다.

수학식 (4)는 이하의 조건이,

를 유지하는 경우 최소화될 수 있다.

수학식 (5)를 사용하여, α는 α = α + δα로서 반복하여 업데이트될 수 있다. 또한, 일부 구현들에서 η는 반복하여 조정될 수 있고, 여기에서 η는 최초에 w ₀ ²(예를 들어, 가장 큰 특이값)으로 설정될 수 있고 더 작은 특이값들의 제곱으로 감소될 수 있다.

다양한 구현들에서, 재구성된 모핑 가능한 얼굴 메쉬의 형태로 블록(210)에서 제공되는 재구성된 3D 포인트들이 주어진다면, 블록(212)에서의 정렬은 재구성된 3D 포인트로부터 모핑 가능한 얼굴 메쉬까지의 거리를 최소화하는 데 필요한 메트릭 계수들 및 얼굴의 포즈(pose) 양쪽 모두를 찾는 것을 포함할 수 있다. 얼굴의 포즈는 중립적인 얼굴 모델의 좌표 프레임으로부터 조밀한 아바타 메쉬의 그것으로의 변환

에 의해 제공될 수 있고, 여기에서 R은 3x3 회전 행렬, t는 변형, 그리고 s는 글로벌 스케일(global scale)이다. 임의의 3D 벡터 p에 대해, 표기법 T(p) = sRp + t가 이용될 수 있다.

카메라 프레임 내의 얼굴 메쉬의 정점 좌표들은 메트릭 계수들 및 얼굴 포즈 양쪽 모두의 함수이다. 메트릭 계수들 {α ₁ , α ₂ , ...,α _n } 및 포즈 T가 주어진다면, 카메라 프레임 내의 얼굴의 기하학적 구조(geometry)는,

에 의해 제공될 수 있다.

얼굴 메쉬가 삼각형 메쉬인 예시들에서, 삼각형 상의 임의의 포인트는 무게 중심 좌표(barycentric coordinate)에서 측정된 3개의 삼각형 정점들의 선형 조합으로서 표현될 수 있다. 따라서, 삼각형 상의 임의의 포인트는 T 및 메트릭 계수들의 함수로서 표현될 수 있다. 또한, T가 고정되는 경우, 그것은 본원에 설명된 메트릭 계수들의 선형 함수로서 표현될 수 있다.

포즈 T 및 메트릭 계수들 {α ₁ , α ₂ , ...,α _n }은 이후,

을 최소화함으로써 획득할 수 있고, 여기에서 (p ₁ , p ₂ , ..., p _n )은 재구성된 얼굴 메쉬의 포인트들을 표현하고, d(p _i , S)는 포인트 p _i 로부터 얼굴 메쉬 S까지의 거리를 표현한다. 수학식 (7)은 ICP(iterative closed point) 접근 방법을 사용하여 풀 수 있다. 예를 들어, 각 반복에서, T는 고정될 수 있고, 각 포인트 p _i 에 대해, 현재 얼굴 메쉬 S 상의 가장 근접한 포인트(closest point) g _i 가 식별될 수 있다. 이후 에러 E는 최소화될 수 있고(수학식 (7)), 재구성된 메트릭 계수들은 수학식 (1)-(5)를 사용하여 획득할 수 있다. 얼굴 포즈 T는 이후 메트릭 계수들 {α ₁ , α ₂ , ...,α _n }을 고정함으로써 찾아낼 수 있다. 다양한 구현들에서 이는 조밀한 아바타 메쉬 포인트들에 대한 kd-트리(kd-tree)를 만드는 것, 모핑 가능한 얼굴 모델에 대한 조밀한 포인트 내의 근접(closed) 포인트들을 찾는 것, 및 최소 제곱 기법(least squares technique)들을 사용하여 포즈 변형 T를 획득하는 것을 포함할 수 있다. ICP는 에러 E가 수렴되고 재구성된 메트릭 계수들 및 포즈 T가 안정될 때까지 반복들을 더 계속할 수 있다.

(블록(208)에서 MVS 프로세싱으로부터 획득한) 조밀한 아바타 메쉬 및 (블록(210)에서 획득한) 재구성된 모핑 가능한 얼굴 메쉬를 정렬시킨 이후, 조밀한 아바타 메쉬를 재구성된 모핑 가능한 얼굴 메쉬에 융합함으로써 결과들을 정제하거나 또는 스무딩할 수 있다. 예를 들어, 도 5는 재구성된 모핑 가능한 얼굴 메쉬(502)를 조밀한 아바타 메쉬(504)에 융합하여 스무딩된 3D 얼굴 모델(506)을 획득하는 것의 한정하지 않는 예시를 예시한다.

다양한 구현들에서, 3D 얼굴 모델을 스무딩하는 것은 얼굴 메쉬 주위에 원통형 면을 만드는 것, 및 모핑 가능한 얼굴 모델 및 조밀한 아바타 메쉬 양쪽 모두를 그 면에 펼치는 것(unwrapping)을 포함할 수 있다. 조밀한 아바타 메쉬의 각 정점에 대해, 모핑 가능한 얼굴 메쉬의 삼각형은 그것이 정점을 포함하는 것으로 식별될 수 있고, 삼각형 내의 정점의 무게 중심 좌표들을 찾아낼 수 있다. 정제된 포인트는 이후 모핑 가능한 얼굴 메쉬 내의 조밀한 포인트 및 대응하는 포인트들의 가중된 조합(weighted combination)으로서 생성될 수 있다. 조밀한 아바타 메쉬 내의 포인트 p _i 의 정제는,

에 의해 제공될 수 있고, 여기에서 α 및 β는 가중치들이고, (q ₁ _, q ₂ , q ₃ )는 포인트 p _i 를 포함하는 모핑 가능한 얼굴 메쉬 삼각형의 3개의 정점들이고, (c ₁ , c ₂ , c ₃ )는 도 6에 예시된 바와 같은 3개의 부분적인 삼각형들의 정규화된 면적이다. 다양한 구현들에서, 블록(212)의 적어도 일부분들은 시스템(100)의 정렬 모듈(118)에 의해 수행될 수 있다.

블록(212)에서 스무딩된 3D 얼굴 메쉬의 생성 이후, 블록(214)에서 카메라 투영 행렬을 사용하여 멀티 뷰 텍스쳐 합성을 적용함으로써 대응하는 얼굴 텍스쳐를 합성할 수 있다. 다양한 구현들에서, 블록(214)은, 조밀한 아바타 메쉬 내의 각 포인트 또는 삼각형에 대해, 대응하는 투영 행렬을 사용하여 다양한 2D 얼굴 이미지들 내의 투영된 포인트들 또는 삼각형들을 획득할 수 있는, 각도 가중된 텍스쳐 합성 접근 방법을 사용하여 최종 얼굴 텍스쳐(예를 들어, 텍스쳐 이미지)를 결정하는 것을 포함할 수 있다.

도 7은 본 발명에 따라 블록(214)에서 적용될 수 있는 예시의 각도 가중된 텍스쳐 합성 접근 방법(700)을 예시한다. 다양한 구현들에서, 블록(214)은, 조밀한 아바타 메쉬의 각 삼각형에 대해, 얼굴 이미지들의 시퀀스로부터 획득한 모든 투영된 삼각형들의 텍스쳐 데이터의 가중된 조합을 취하는 것을 포함할 수 있다. 도 7의 예시에서 도시된 바와 같이, 조밀한 아바타 메쉬(702) 내의 삼각형과 연관되고 포인트(P)에서 메쉬(702)에 접선 방향인 면(704)의 표면에 대해 정의된 법선(N)을 갖는 3D 포인트(P)는, 카메라들(C₁ 및 C₂)에 의해 캡처된 각각의 얼굴 이미지들(706 및 708) 내의 2D 투영 포인트들(P₁ 및 P₂)을 야기하는 (각각의 카메라 중심들(O₁ 및 O₂)을 갖는) 2개의 예시의 카메라들(C₁ 및 C₂)을 따라 투영될 수 있다.

포인트들(P₁ 및 P₂)에 대한 텍스쳐 값들은 이후 법선(N)과 각각의 카메라들의 주축 사이의 각도의 코사인에 의해 가중될 수 있다. 예를 들어, 포인트(P₁)의 텍스쳐 값은 법선(N)과 카메라(C₁)의 주축(Z₁) 사이에 형성된 각도(710)의 코사인에 의해 가중될 수 있다. 마찬가지로, 명확함을 위해 도 7에 도시되지 않았지만, 포인트(P₂)의 텍스쳐 값은 법선(N)과 카메라(C₂)의 주축(Z₂) 사이에 형성된 각도의 코사인에 의해 가중될 수 있다. 이미지 시퀀스 내의 모든 카메라들에 대해 유사한 결정이 내려질 수 있고 조합된 가중된 텍스쳐 값들은 포인트(P) 및 그것의 연관된 삼각형에 대한 텍스쳐 값을 생성하는 데 사용될 수 있다. 블록(214)은 조밀한 아바타 메쉬 내의 모든 포인트들에 대해 유사한 프로세스를 수행하여 블록(212)에서 생성된 스무딩된 3D 얼굴 모델에 대응하는 텍스쳐 이미지를 생성하는 것을 포함할 수 있다. 다양한 구현들에서, 블록(214)은 시스템(100)의 텍스쳐 모듈(120)에 의해 수행될 수 있다.

프로세스(200)는, 스무딩된 3D 얼굴 모델 및 대응하는 텍스쳐 이미지를 공지된 기법들을 사용하여 조합하여 최종 3D 얼굴 모델을 생성할 수 있는 블록(216)에서 끝날 수 있다. 예를 들어, 도 8은, 최종 3D 얼굴 모델(806)을 생성하도록, 대응하는 스무딩된 3D 얼굴 모델(804)과 조합된 텍스쳐 이미지(802)의 예시를 예시한다. 다양한 구현들에서, 최종 얼굴 모델은 (.ply, .obj 등과 같은) 임의의 표준 3D 데이터 포맷으로 제공될 수 있다.

도 2에 예시된 예시의 프로세스(200)의 구현이 예시된 순서로 도시된 모든 블록들을 수행하는 것을 포함할 수 있지만, 본 발명은 이에 한정되지 않고, 다양한 예시들에서, 프로세스(200)의 구현은 도시된 모든 블록들의 부분집합만을 수행하는 것 및/또는 예시된 것과 상이한 순서로 수행하는 것을 포함할 수 있다. 또한, 도 2의 임의의 하나 이상의 블록들은 하나 이상의 컴퓨터 프로그램 제품에 의해 제공된 명령어들에 응답하여 수행될 수 있다. 그러한 프로그램 제품들은, 예를 들어, 하나 이상의 프로세서 코어들에 의해 실행되면, 본원에 설명된 기능성을 제공할 수 있는 명령어들을 제공하는 신호 함유 매체(signal bearing media)를 포함할 수 있다. 컴퓨터 프로그램 제품들은 임의의 형태의 컴퓨터 판독 가능 매체로 제공될 수 있다. 따라서, 예를 들어, 하나 이상의 프로세서 코어(들)를 포함하는 프로세서는 컴퓨터 판독 가능 매체에 의해 프로세서에 전달된 명령어들에 응답하여 도 2에 도시된 하나 이상의 블록을 수행하거나 또는 수행하도록 구성될 수 있다.

도 9는 본 발명에 따른 예시의 시스템(900)을 예시한다. 시스템(900)은 본원에 논의된 다양한 기능들의 일부 또는 전부를 수행하는 데 사용될 수 있고 본 발명의 다양한 구현들에 따른 이미지 기반 멀티 뷰 3D 얼굴 생성을 수행할 수 있는 임의의 디바이스 또는 디바이스들의 컬렉션을 포함할 수 있다. 예를 들어, 시스템(900)은 데스크톱, 모바일 또는 태블릿 컴퓨터, 스마트 폰, 셋 탑 박스 등과 같은 컴퓨팅 플랫폼 또는 디바이스의 선택된 요소들을 포함할 수 있지만, 본 발명은 이에 한정되지 않는다. 일부 구현들에서, 시스템(900)은 CE 디바이스들을 위한, IA(Intel^®architecture)에 기초한 SoC 또는 컴퓨팅 플랫폼일 수 있다. 본원에 설명된 구현들이 본 발명의 범위로부터 벗어나지 않고 대안의 프로세싱 시스템들과 함께 사용될 수 있다는 것은 본 기술 분야에 숙련된 자에게 용이하게 이해될 것이다.

시스템(900)은 하나 이상의 프로세서 코어(904)를 갖는 프로세서(902)를 포함한다. 프로세서 코어들(904)은 소프트웨어 및/또는 프로세싱 데이터 신호들을 적어도 부분적으로 실행 가능한 임의의 유형의 프로세서 로직일 수 있다. 다양한 예시들에서, 프로세서 코어들(904)은 CISC 프로세서 코어들, RISC 마이크로프로세서 코어들, VLIW 마이크로프로세서 코어들, 및/또는 명령어 세트들의 임의의 조합을 구현하는 임의의 수의 프로세서 코어들, 또는 디지털 신호 프로세서 또는 마이크로컨트롤러와 같은, 임의의 그외의 프로세서 디바이스들을 포함할 수 있다.

프로세서(902)는 또한, 예를 들어, 디스플레이 프로세서(908) 및/또는 그래픽 프로세서(910)에 의해 수신된 명령어들을, 컨트롤 신호들 및/또는 마이크로코드 엔트리 포인트들로 디코딩하는 데 사용될 수 있는 디코더(906)를 포함한다. 시스템(900)에서 코어(들)(904)와는 별개의 컴포넌트들로서 예시되지만, 본 기술 분야에 숙련된 자들은 하나 이상의 코어(들)(904)가 디코더(906), 디스플레이 프로세서(908) 및/또는 그래픽 프로세서(910)를 구현할 수 있다는 것을 인식할 수 있을 것이다. 일부 구현들에서, 프로세서(902)는 도 2에 대해 설명된 예시의 프로세스들을 포함하는 본원에 설명된 임의의 프로세스들을 수행하도록 구성될 수 있다. 또한, 컨트롤 신호들 및/또는 마이크로코드 엔트리 포인트들에 응답하여, 디코더(906), 디스플레이 프로세서(908) 및/또는 그래픽 프로세서(910)는 대응하는 동작들을 수행할 수 있다.

프로세싱 코어(들)(904), 디코더(906), 디스플레이 프로세서(908) 및/또는 그래픽 프로세서(910)는 시스템 인터커넥트(916)를 통해 서로, 및/또는, 예를 들어, 메모리 컨트롤러(914), 오디오 컨트롤러(918) 및/또는 주변 장치들(920)을 포함하나 이에 한정되지 않는, 다양한 그외의 시스템 디바이스들과 통신 가능하게 및/또는 동작 가능하게 결합될 수 있다. 주변 장치들(920)은, 예를 들어, USB(unified serial bus) 호스트 포트, PCI(Peripheral Component Interconnect) Express 포트, SPI(Serial Peripheral Interface) 인터페이스, 확장 버스, 및/또는 그외의 주변 장치들을 포함할 수 있다. 도 9가 메모리 컨트롤러(914)를 인터커넥트(916)에 의해 디코더(906) 및 프로세서들(908 및 910)에 결합된 것으로서 예시하지만 다양한 구현들에서, 메모리 컨트롤러(914)는 디코터(906), 디스플레이 프로세서(908) 및/또는 그래픽 프로세서(910)에 직접 결합될 수 있다.

일부 구현들에서, 시스템(900)은 도 9에 도시되지 않은 다양한 I/O 디바이스들과, I/O 버스(또한 도시되지 않음)를 통해 통신할 수 있다. 그러한 I/O 디바이스들은, 예를 들어, UART(universal asynchronous receiver/transmitter) 디바이스, USB 디바이스, I/O 확장 인터페이스 또는 그외의 I/O 디바이스들을 포함할 수 있으나 이에 한정되지 않는다. 다양한 구현들에서, 시스템(900)은 모바일, 네트워크 및/또는 무선 통신들을 수행하기 위한 시스템의 적어도 일부분들을 표현할 수 있다.

시스템(900)은 메모리(912)를 더 포함할 수 있다. 메모리(912)는 DRAM(dynamic random access memory) 디바이스, SRAM(static random access memory) 디바이스, 플래시 메모리 디바이스, 또는 그외의 메모리 디바이스들과 같은 하나 이상의 개별 메모리 컴포넌트일 수 있다. 도 9가 메모리(912)를 프로세서(902) 외부에 있는 것으로서 예시하지만, 다양한 구현들에서, 메모리(912)는 프로세서(902) 내부에 있을 수 있다. 메모리(912)는, 도 2에 대해 설명된 예시의 프로세스들을 포함하는 본원에 설명된 프로세스들 중 임의의 것을 수행하는 데 있어서 프로세서(902)에 의해 실행될 수 있는 데이터 신호들에 의해 표현되는 명령어들 및/또는 데이터를 저장할 수 있다. 예를 들어, 메모리(912)는 본원에 설명된 바와 같은 카메라 파라미터들, 2D 얼굴 이미지들, 조밀한 아바타 메쉬들, 3D 얼굴 모델들 등을 표현하는 데이터를 저장할 수 있다. 일부 구현들에서, 메모리(912)는 시스템 메모리 부분 및 디스플레이 메모리 부분을 포함할 수 있다.

예시의 시스템(100)과 같은, 본원에 설명된 디바이스들 및/또는 시스템들은 본 발명에 따른 많은 가능한 디바이스 구성들, 아키텍처들 또는 시스템들 중 몇몇을 표현한다. 예시의 시스템(100)의 변형들과 같은 시스템들의 다수의 변형들이 본 발명과 일치하는 것이 가능하다.

전술한 시스템들, 및 본원에 설명된 바와 같은 그것들에 의해 수행되는 프로세싱은 하드웨어, 펌웨어, 또는 소프트웨어, 또는 그들의 임의의 조합으로 구현될 수 있다. 또한, 본원에 개시된 임의의 하나 이상의 특징은, 개별 및 집적 회로 로직, ASIC(application specific integrated circuit) 로직, 및 마이크로컨트롤러들을 포함하는, 하드웨어, 소프트웨어, 펌웨어, 및 그들의 조합들에서 구현될 수 있고, 도메인 특정(domain-specific) 집적 회로 패키지, 또는 집적 회로 패키지들의 조합의 일부분으로서 구현될 수 있다. 본원에서 사용되는 바와 같이, 용어 소프트웨어는, 컴퓨터 시스템으로 하여금 본원에 개시된 하나 이상의 특징 및/또는 특징들의 조합을 수행하게 하도록 컴퓨터 판독 가능 매체 - 그 안에 저장된 컴퓨터 프로그램 로직을 갖는 - 를 포함하는 컴퓨터 프로그램 제품을 지칭한다.

본원에 기재된 특정 특징들이 다양한 구현들을 참조하여 설명되었지만, 이러한 설명은 한정하는 의미로 해석되도록 의도되지 않는다. 그러므로, 본 발명이 속하는 본 기술 분야에 숙련된 자들에게 명백한, 그외의 구현들뿐만 아니라, 본원에 설명된 구현들의 다양한 수정들은 본 발명의 기술적 사상 및 범위에 속하는 것으로 간주된다.

Claims

컴퓨터 구현된 방법으로서,
복수의 2D 얼굴 이미지를 수신하는 단계,
상기 복수의 얼굴 이미지로부터 카메라 파라미터들 및 희소한 키 포인트(sparse key point)들을 복원하는 단계,
상기 카메라 파라미터들 및 희소한 키 포인트들에 응답하여 조밀한 아바타 메쉬(dense avatar mesh)를 생성하도록 멀티 뷰 스테레오(multi-view stereo) 프로세스를 적용하는 단계,
3D 얼굴 모델을 생성하도록 상기 조밀한 아바타 메쉬를 피팅(fitting)하는 단계, 및
상기 3D 얼굴 모델과 연관된 텍스쳐(texture) 이미지를 생성하도록 멀티 뷰 텍스쳐 합성을 적용하는 단계
를 포함하는 방법.
제1항에 있어서,
각 얼굴 이미지 상에서 얼굴 검출을 수행하는 단계를 더 포함하는 방법.
제2항에 있어서,
각 얼굴 이미지 상에서 얼굴 검출을 수행하는 단계는 각 이미지에 대해 얼굴 경계 상자(bounding box)를 자동적으로 생성하고 얼굴 랜드마크(landmark)들을 자동적으로 식별하는 단계를 포함하는 방법.
제1항에 있어서,
상기 3D 얼굴 모델을 생성하도록 상기 조밀한 아바타 메쉬를 피팅하는 단계는,
재구성된 모핑 가능한 얼굴 메쉬를 생성하도록 상기 조밀한 아바타 메쉬를 피팅하는 단계; 및
상기 3D 얼굴 모델을 생성하도록 상기 조밀한 아바타 메쉬를 상기 재구성된 모핑 가능한 얼굴 메쉬에 정렬시키는 단계
를 포함하는 방법.
제4항에 있어서,
상기 재구성된 모핑 가능한 얼굴 메쉬를 생성하도록 상기 조밀한 아바타 메쉬를 피팅하는 단계는 반복 근접 포인트(iterative closed point) 기법을 적용하는 단계를 포함하는 방법.
제4항에 있어서,
스무딩된(smoothed) 3D 얼굴 모델을 생성하도록 상기 3D 얼굴 모델을 정제(refine)하는 단계를 더 포함하는 방법.
제6항에 있어서,
최종 3D 얼굴 모델을 생성하도록 상기 스무딩된 3D 얼굴 모델과 상기 텍스쳐 이미지를 조합하는 단계를 더 포함하는 방법.
제1항에 있어서,
카메라 파라미터들을 복원하는 단계는 각 얼굴 이미지와 연관된 카메라 위치를 복원하는 단계를 포함하고, 각 카메라 위치는 주축(main axis)을 갖고,
멀티 뷰 텍스쳐 합성을 적용하는 단계는,
상기 조밀한 아바타 메쉬 내의 포인트에 대한, 각 얼굴 이미지 내의 투영된 포인트를 생성하는 단계,
상기 조밀한 아바타 메쉬 내의 상기 포인트의 법선과 각 카메라 위치의 상기 주축 사이의 각도의 코사인의 값을 결정하는 단계, 및
상기 조밀한 아바타 메쉬 내의 상기 포인트에 대한 텍스쳐 값을 대응하는 코사인 값들에 의해 가중된(weighted) 투영된 포인트들의 텍스쳐 값들의 함수로서 생성하는 단계
를 포함하는 방법.
프로세서 및 상기 프로세서에 결합된 메모리를 포함하고, 상기 메모리 내의 명령어들은,
복수의 2D 얼굴 이미지를 수신하고,
상기 복수의 얼굴 이미지로부터 카메라 파라미터들 및 희소한 키 포인트들을 복원하고,
상기 카메라 파라미터들 및 희소한 키 포인트들에 응답하여 조밀한 아바타 메쉬를 생성하도록 멀티 뷰 스테레오 프로세스를 적용하고,
3D 얼굴 모델을 생성하도록 상기 조밀한 아바타 메쉬를 피팅하고,
상기 3D 얼굴 모델과 연관된 텍스쳐 이미지를 생성하도록 멀티 뷰 텍스쳐 합성을 적용
하도록 상기 프로세서를 구성하는 시스템.
제9항에 있어서,
상기 메모리 내의 명령어들은 각 얼굴 이미지 상에서 얼굴 검출을 수행하도록 상기 프로세서를 더 구성하는 시스템.
제10항에 있어서,
각 얼굴 이미지 상에서 얼굴 검출을 수행하는 것은 각 얼굴 이미지에 대해 얼굴 경계 상자를 자동적으로 생성하고 얼굴 랜드마크들을 자동적으로 식별하는 것을 포함하는 시스템.
제9항에 있어서,
상기 3D 얼굴 모델을 생성하도록 상기 조밀한 아바타 메쉬를 피팅하는 것은,
재구성된 모핑 가능한 얼굴 메쉬를 생성하도록 상기 조밀한 아바타 메쉬를 피팅하는 것, 및
상기 3D 얼굴 모델을 생성하도록 상기 조밀한 아바타 메쉬를 상기 재구성된 모핑 가능한 얼굴 메쉬에 정렬시키는 것
을 포함하는 시스템.
제12항에 있어서,
상기 재구성된 모핑 가능한 얼굴 모델을 생성하도록 상기 조밀한 아바타 메쉬를 피팅하는 것은 반복 근접 포인트 기법을 적용하는 것을 포함하는 시스템.
제9항에 있어서, 카메라 파라미터들을 복원하는 것은 각 얼굴 이미지와 연관된 카메라 위치를 복원하는 것을 포함하고, 각 카메라 위치는 주축을 갖고,
멀티 뷰 텍스쳐 합성을 적용하는 것은,
상기 조밀한 아바타 메쉬 내의 포인트에 대한, 각 얼굴 이미지 내의 투영된 포인트를 생성하는 것,
상기 조밀한 아바타 메쉬 내의 상기 포인트의 법선과 각 카메라 위치의 상기 주축 사이의 각도의 코사인의 값을 결정하는 것, 및
상기 조밀한 아바타 메쉬 내의 상기 포인트에 대한 텍스쳐 값을 대응하는 코사인 값들에 의해 가중된 투영된 포인트들의 텍스쳐 값들의 함수로서 생성하는 것
을 포함하는 시스템.
실행되면,
복수의 2D 얼굴 이미지를 수신하고,
상기 복수의 얼굴 이미지로부터 카메라 파라미터들 및 희소한 키 포인트들을 복원하고,
상기 카메라 파라미터들 및 희소한 키 포인트들에 응답하여 조밀한 아바타 메쉬를 생성하도록 멀티 뷰 스테레오 프로세스를 적용하고,
3D 얼굴 모델을 생성하도록 상기 조밀한 아바타 메쉬를 피팅하고,
상기 3D 얼굴 모델과 연관된 텍스쳐 이미지를 생성하도록 멀티 뷰 텍스쳐 합성을 적용
하게 하는 명령어들을 저장한 컴퓨터 프로그램 제품을 포함하는 물품.
제15항에 있어서,
상기 컴퓨터 프로그램 제품은, 실행되면, 각 얼굴 이미지 상에서 얼굴 검출을 수행하게 하는 명령어들을 더 저장하는 물품.
제16항에 있어서,
각 얼굴 이미지 상에서 얼굴 검출을 수행하는 것은 각 이미지에 대해 얼굴 경계 상자를 자동적으로 생성하고 얼굴 랜드마크들을 자동적으로 식별하는 것을 포함하는 물품.
제15항에 있어서,
상기 3D 얼굴 모델을 생성하도록 상기 조밀한 아바타 메쉬를 피팅하는 것은,
재구성된 모핑 가능한 얼굴 메쉬를 생성하도록 상기 조밀한 아바타 메쉬를 피팅하는 것, 및
상기 3D 얼굴 모델을 생성하도록 상기 조밀한 아바타 메쉬를 상기 재구성된 모핑 가능한 얼굴 메쉬에 정렬시키는 것
을 포함하는 물품.
제18항에 있어서,
상기 재구성된 모핑 가능한 얼굴 메쉬를 생성하도록 상기 조밀한 아바타 메쉬를 피팅하는 것은 반복 근접 포인트 기법을 적용하는 것을 포함하는 물품.
제15항에 있어서, 카메라 파라미터들을 복원하는 것은 각 얼굴 이미지와 연관된 카메라 위치를 복원하는 것을 포함하고, 각 카메라 위치는 주축을 갖고,
멀티 뷰 텍스쳐 합성을 적용하는 것은,
상기 조밀한 아바타 메쉬 내의 포인트에 대한, 각 얼굴 이미지 내의 투영된 포인트를 생성하는 것,
상기 조밀한 아바타 메쉬 내의 상기 포인트의 법선과 각 카메라 위치의 상기 주축 사이의 각도의 코사인의 값을 결정하는 것, 및
상기 조밀한 아바타 메쉬 내의 상기 포인트에 대한 텍스쳐 값을 대응하는 코사인 값들에 의해 가중된 투영된 포인트들의 텍스쳐 값들의 함수로서 생성하는 것
을 포함하는 물품.