KR20210058320A

KR20210058320A - 단일 입력 영상을 이용한 3d 모델 생성 방법 및 이를 위한 장치

Info

Publication number: KR20210058320A
Application number: KR1020190145631A
Authority: KR
Inventors: 임성재; 김태준; 윤승욱; 이승욱; 황본우
Original assignee: 한국전자통신연구원
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2021-05-24

Abstract

단일 입력 영상을 이용한 3D 모델 생성 방법 및 이를 위한 장치가 개시된다. 본 발명의 일실시예에 따른 3D 모델 생성 방법은 기정의된 다시점 카메라 파라미터와 단일 입력 영상에 상응하는 깊이 맵을 기반으로 단일 입력 영상에 대한 다시점 부분 깊이 맵을 생성하고, 다시점 깊이 맵 네트워크로 단일 입력 영상과 다시점 부분 깊이 맵을 입력하여 단일 입력 영상에 상응하는 다시점 깊이 맵 및 다시점 특징 맵을 획득하고, 다시점 깊이 맵에 상응하는 3D 메쉬 모델 및 다시점 특징 맵을 기반으로 단일 입력 영상에 상응하는 텍스처 맵을 생성하고, 3D 메쉬 모델에 텍스처 맵을 반영하여 단일 입력 영상에 상응하는 3D 모델을 생성한다.

Description

단일 입력 영상을 이용한 3D 모델 생성 방법 및 이를 위한 장치 {METHOD FOR GENERATION 3D MODEL USING SINGLE INPUT IMAGE AND APPARATUS USING THE SAME}

본 발명은 사진이나 원화 또는 동영상 내의 객체를 3D로 복원 및 모델링하는 기술에 관한 것으로, 특히 깊이 맵의 학습을 기반으로 단일 입력 영상 내의 2D 객체를 자동으로 3D 모델링할 수 있는 3D 모델 생성 기술에 관한 것이다.

일반적으로 영상에 포함된 객체에 대한 3D 모델링을 수행하기 위해서는 다양한 캐릭터에 대한 3D 모델을 수집 및 제작하고, 이를 데이터베이스(Database)화한 정보를 기반으로 지도학습(Supervised Learning)을 수행함으로써 새롭게 입력된 영상에 대한 3D 정보를 생성한다. 이 때, 새롭게 입력된 영상에 대해 여러 시점에 대응하는 깊이 영상 또는 노멀 영상을 생성하고, 학습 데이터 생성 시 사용했던 카메라 캘리브레이션 파라미터를 이용하여 3D 정보를 생성한다.

이와 같은 방법을 이용하는 경우, 입력된 영상의 해상도 및 디테일에 따라 컬러가 없이 러프(rough)한 형태의 3D 모델만 생성될 가능성이 있으며, 의상이나 악세서리, 헤어 등으로 가려진 내부 모양과 concave 영역은 복원하지 못하고 convex 영역만 복원되는 한계를 갖는다. 또한, 입력된 영상이 컬러를 갖고 있지 않는 경우, 복원된 3D 모델 또한 컬러가 없는 모델이 될 수 밖에 없다.

따라서, 3D 모델의 객체의 얼굴, 손, 헤어 등의 세부적인 복원과 의상, 악세서리, 헤어 등으로 가려진 내부 모양 및 컬러에 대한 복원 기술이 필요하다.

한국 공개 특허 제10-2017-0102371호, 2017년 9월 8일 공개(명칭: 단일 이미지로부터 깊이를 추정하기)

본 발명의 목적은 사람의 수작업 없이 영상, 원화 혹은 동영상에 포함된 객체가 사실적으로 표현된 3D 모델을 자동으로 생성함으로써 게임 및 애니메이션에 적용할 수 있는 캐릭터 제작의 비용 및 시간을 획기적으로 개선할 수 있는 방법을 제공하는 것이다.

또한, 본 발명의 목적은 스마트폰과 같은 모바일 단말이나 기타 스케치 등을 이용한 단 한 장의 영상만으로 3D 모델을 생성할 수 있고, AR, VR, 영화, 애니메이션, 게임 등 다양한 산업 분야에 적용 가능한 3D 모델링 방법을 적용하는 것이다.

상기한 목적을 달성하기 위한 본 발명에 따른 3D 모델 생성 방법은 기정의된 다시점 카메라 파라미터와 단일 입력 영상에 상응하는 깊이 맵을 기반으로 상기 단일 입력 영상에 대한 다시점 부분 깊이 맵을 생성하는 단계; 다시점 깊이 맵 네트워크로 상기 단일 입력 영상과 상기 다시점 부분 깊이 맵을 입력하여 상기 단일 입력 영상에 상응하는 다시점 깊이 맵 및 다시점 특징 맵을 획득하는 단계; 및 상기 다시점 깊이 맵에 상응하는 3D 메쉬 모델 및 상기 다시점 특징 맵을 기반으로 상기 단일 입력 영상에 상응하는 텍스처 맵을 생성하고, 상기 3D 메쉬 모델에 상기 텍스처 맵을 반영하여 상기 단일 입력 영상에 상응하는 3D 모델을 생성하는 단계를 포함한다.

이 때, 3D 모델 생성 방법은 단일 시점 깊이 맵 네트워크를 기반으로 상기 깊이 맵을 생성하는 단계를 더 포함할 수 있다.

이 때, 단일 시점 깊이 맵 네트워크 및 상기 다시점 깊이 맵 네트워크는 스킵 커넥션(SKIP CONNECTION)을 갖는 합성곱(CONVOLUTION) 기반의 인코더/디코더 모델을 포함할 수 있다.

이 때, 인코더/디코더 모델은 상기 단일 입력 영상에 상응하는 복수개의 특징맵들에 각각 L1 손실함수와 L2 손실함수를 번갈아 반영한 결과가 최소화되도록 학습될 수 있다.

이 때, 깊이 맵을 생성하는 단계는 상기 인코더/디코더 모델을 이용하여 상기 단일 입력 영상에 상응하는 복수개의 특징맵들을 추출하는 단계; 상기 복수개의 특징맵들에 각각 L1 손실함수와 L2 손실함수를 번갈아 반영한 결과를 기반으로 상기 단일 입력 영상에 포함된 객체의 포즈 및 부위별 외형 특성을 시점별로 예측하는 단계를 포함할 수 있다.

이 때, 다시점 부분 깊이 맵을 생성하는 단계는 상기 기정의된 다시점 카메라 파라미터에 상응하게 상기 깊이 맵을 역투영 및 재투영하여 상기 다시점 부분 깊이 맵을 생성할 수 있다.

이 때, 다시점 깊이 맵 및 다시점 특징 맵을 획득하는 단계는 상기 다시점 부분 깊이 맵과 상기 단일 입력 영상을 상기 다시점 깊이 맵 네트워크로 입력하여 인퍼런싱(INFERENCING)된 값들을 연결(CONCATENATION) 연산하는 단계를 포함할 수 있다.

이 때, 복수개의 특징맵들은 깊이 맵(DEPTH MAP), 저해상도 깊이 맵(LOW DEPTH MAP), 부분 깊이 맵(PART DEPTH MAP), 노멀 맵(NOMAL MAP), 마스크(MASK), 엑스레이 맵(XRAY MAP) 및 컬러 맵(COLOR MAP)을 포함할 수 있다.

이 때, 엑스레이 맵은 상기 객체의 최외곽 모양(SHAPE)과 내부 모양(SHAPE)을 복원하는데 사용될 수 있다.

이 때, 3D 모델을 생성하는 단계는 상기 3D 메쉬 모델을 상기 컬러 맵에 투영하여 상기 텍스처 맵을 생성할 수 있다.

이 때, 인코더/디코더 모델은 스킵 커넥션(SKIP-CONNECTION)을 갖는 다중 합성곱 레이어 및 다중 활성화 함수로 구성된 인코더와 디코더를 포함할 수 있다.

이 때, 단일 입력 영상은 전경과 배경이 혼합된 RGB 이미지에 상응할 수 있다.

이 때, 3D 모델 생성 방법은 다시점 영상 기반 3D 복원 알고리즘을 통해 상기 다시점 깊이 맵에 상응하는 3D 메쉬 모델을 생성하는 단계를 더 포함할 수 있다.

이 때, 3D 메쉬 모델을 생성하는 단계는 상기 기정의된 다시점 카메라 파라미터에 기반한 3D 공간상 조합 및 대체 방법을 고려하여 상기 다시점 깊이 맵을 3D 공간상에 포인트 클라우드로 표현하고, 메쉬화 알고리즘에 상기 포인트 클라우드를 입력하여 상기 3D 메쉬 모델을 생성할 수 있다.

또한, 본 발명의 일실시예에 따른 3D 모델 생성 장치는, 기정의된 다시점 카메라 파라미터와 단일 입력 영상에 상응하는 깊이 맵을 기반으로 상기 단일 입력 영상에 대한 다시점 부분 깊이 맵을 생성하고, 다시점 깊이 맵 네트워크로 상기 단일 입력 영상과 상기 다시점 부분 깊이 맵을 입력하여 상기 단일 입력 영상에 상응하는 다시점 깊이 맵 및 다시점 특징 맵을 획득하고, 상기 다시점 깊이 맵에 상응하는 3D 메쉬 모델 및 상기 다시점 특징 맵을 기반으로 상기 단일 입력 영상에 상응하는 텍스처 맵을 생성하고, 상기 3D 메쉬 모델에 상기 텍스처 맵을 반영하여 상기 단일 입력 영상에 상응하는 3D 모델을 생성하는 프로세서; 및 상기 기정의된 다시점 카메라 파라미터 및 상기 다시점 깊이 맵 네트워크를 저장하는 메모리를 포함한다.

이 때, 프로세서는 단일 시점 깊이 맵 네트워크를 기반으로 상기 깊이 맵을 생성할 수 있다.

이 때, 프로세서는 상기 인코더/디코더 모델을 이용하여 상기 단일 입력 영상에 상응하는 복수개의 특징맵들을 추출하고, 상기 복수개의 특징맵들에 각각 L1 손실함수와 L2 손실함수를 번갈아 반영한 결과를 기반으로 상기 단일 입력 영상에 포함된 객체의 포즈 및 부위별 외형 특성을 시점별로 예측할 수 있다.

이 때, 프로세서는 상기 기정의된 다시점 카메라 파라미터에 상응하게 상기 깊이 맵을 역투영 및 재투영하여 상기 다시점 부분 깊이 맵을 생성할 수 있다.

이 때, 프로세서는 상기 다시점 부분 깊이 맵과 상기 단일 입력 영상을 상기 다시점 깊이 맵 네트워크로 입력하여 인퍼런싱(INFERENCING)된 값들을 연결(CONCATENATION) 연산할 수 있다.

이 때, 프로세서는 상기 3D 메쉬 모델을 상기 컬러 맵에 투영하여 상기 텍스처 맵을 생성할 수 있다.

이 때, 프로세서는 다시점 영상 기반 3D 복원 알고리즘을 통해 상기 다시점 깊이 맵에 상응하는 3D 메쉬 모델을 생성할 수 있다.

이 때, 프로세서는 상기 기정의된 다시점 카메라 파라미터에 기반한 3D 공간상 조합 및 대체 방법을 고려하여 상기 다시점 깊이 맵을 3D 공간상에 포인트 클라우드로 표현하고, 메쉬화 알고리즘에 상기 포인트 클라우드를 입력하여 상기 3D 메쉬 모델을 생성할 수 있다.

본 발명에 따르면, 사람의 수작업 없이 영상, 원화 혹은 동영상에 포함된 객체가 사실적으로 표현된 3D 모델을 자동으로 생성함으로써 게임 및 애니메이션에 적용할 수 있는 캐릭터 제작의 비용 및 시간을 획기적으로 개선할 수 있는 방법을 제공할 수 있다.

또한, 본 발명은 스마트폰과 같은 모바일 단말이나 기타 스케치 등을 이용한 단 한 장의 영상만으로 3D 모델을 생성할 수 있고, AR, VR, 영화, 애니메이션, 게임 등 다양한 산업 분야에 적용 가능한 3D 모델링 방법을 적용할 수 있다.

도 1은 본 발명의 일실시예에 따른 단일 입력 영상을 이용한 3D 모델 생성 과정을 나타낸 도면이다.
도 2는 본 발명의 일실시예에 따른 단일 입력 영상을 이용한 3D 모델 생성 방법을 나타낸 동작 흐름도이다.
도 3은 본 발명에 따른 정밀 깊이 맵을 생성하는 과정의 일 예를 나타낸 도면이다.
도 4는 본 발명에 따른 다시점 부분 깊이 맵을 생성하는 과정의 일 예를 나타낸 도면이다.
도 5는 본 발명에 따른 다시점 깊이 맵을 생성하는 과정의 일 예를 나타낸 도면이다.
도 6은 본 발명에 따른 특징 맵의 일 예를 나타낸 도면이다.
도 7은 본 발명에 따른 3D 모델 생성 과정을 단계별로 구분하여 나타낸 도면이다.
도 8은 본 발명의 일실시예에 따른 단일 입력 영상을 이용한 3D 모델 생성 장치를 나타낸 블록도이다.

본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일실시예에 따른 단일 입력 영상을 이용한 3D 모델 생성 과정을 나타낸 도면이다.

도 1을 참조하면, 본 발명의 일실시예에 따른 단일 입력 영상을 이용한 3D 모델 생성 과정은 3D 모델 생성 장치(100)가, 기정의된 다시점 카메라 파라미터와 단일 입력 영상(101)에 상응하는 깊이 맵을 기반으로 단일 입력 영상(101)에 대한 다시점 부분 깊이 맵을 생성한다.

예를 들어, 도 1에 도시된 3D 모델 생성 장치(100)는 내부에 구비된 깊이 맵 네트워크(110)를 기반으로 단일 입력 영상(101)에 대한 다시점 부분 깊이 맵을 생성할 수 있다.

이 때, 도 1에 도시된 깊이 맵 네트워크(110)는 단일 입력 영상(101)에 대한 깊이 맵을 생성하기 위한 단일 시점 깊이 맵 네트워크와 단일 입력 영상(101)에 대한 다시점 깊이 맵을 생성하기 위한 다시점 깊이 맵 네트워크로 구성될 수 있다.

이 때, 단일 입력 영상(101)은 전경과 배경이 혼합된 RGB 이미지에 상응할 수 있다.

이 때, 3D 모델 생성 장치(100)는 단일 시점 깊이 맵 네트워크를 기반으로 단일 입력 영상(101)에 상응하는 깊이 맵을 생성할 수 있다.

이 때, 단일 시점 깊이 맵 네트워크 및 다시점 깊이 맵 네트워크는 스킵 커넥션(SKIP CONNECTION)을 갖는 합성곱(CONVOLUTION) 기반의 인코더/디코더 모델을 포함할 수 있다.

이 때, 인코더/디코더 모델은 단일 입력 영상(101)에 상응하는 복수개의 특징맵들에 각각 L1 손실함수와 L2 손실함수를 번갈아 반영한 결과가 최소화되도록 학습될 수 있다.

이 때, 인코더/디코더 모델을 이용하여 단일 입력 영상(101)에 상응하는 복수개의 특징맵들을 추출할 수 있다.

이 때, 엑스레이 맵은 객체의 최외곽 모양(SHAPE)과 내부 모양(SHAPE)을 복원하는데 사용될 수 있다.

이 때, 복수개의 특징맵들에 각각 L1 손실함수와 L2 손실함수를 번갈아 반영한 결과를 기반으로 단일 입력 영상(101)에 포함된 객체의 포즈 및 부위별 외형 특성을 시점별로 예측할 수 있다.

이 때, 기정의된 다시점 카메라 파라미터에 상응하게 깊이 맵을 역투영 및 재투영하여 다시점 부분 깊이 맵을 생성할 수 있다.

또한, 3D 모델 생성 장치(100)는 다시점 깊이 맵 네트워크로 단일 입력 영상(101)과 다시점 부분 깊이 맵을 입력하여 단일 입력 영상(101)에 상응하는 다시점 깊이 맵 및 다시점 특징 맵을 획득한다.

이 때, 다시점 부분 깊이 맵과 단일 입력 영상(101)을 다시점 깊이 맵 네트워크로 입력하여 인퍼런싱(INFERENCING)된 값들을 연결(CONCATENATION) 연산할 수 있다.

또한, 3D 모델 생성 장치(100)는 다시점 깊이 맵에 상응하는 3D 메쉬 모델 및 다시점 특징 맵을 기반으로 단일 입력 영상(101)에 상응하는 텍스처 맵을 생성하고, 3D 메쉬 모델에 텍스처 맵을 반영하여 단일 입력 영상(101)에 상응하는 3D 모델(102)을 생성한다.

예를 들어, 도 1에 도시된 3D 모델 생성 장치(100)는 내부에 구비된 텍스처맵 생성 모듈(140)을 기반으로 단일 입력 영상(101)에 대한 텍스처 맵을 생성하고, 최종적으로 3D 메쉬 모델에 텍스처 맵을 반영시켜 3D 모델(102)을 생성할 수 있다.

또한, 3D 모델 생성 장치(100)는 3D 메쉬 모델을 컬러 맵에 투영하여 텍스처 맵을 생성한다.

또한, 3D 모델 생성 장치(100)는 다시점 영상 기반 3D 복원 알고리즘을 통해 다시점 깊이 맵에 상응하는 3D 메쉬 모델을 생성한다.

이 때, 기정의된 다시점 카메라 파라미터에 기반한 3D 공간상 조합 및 대체 방법을 고려하여 다시점 깊이 맵을 3D 공간상에 포인트 클라우드로 표현하고, 메쉬화 알고리즘에 포인트 클라우드를 입력하여 3D 메쉬 모델을 생성할 수 있다.

예를 들어, 도 1에 도시된 3D 모델 생성 장치(100)는 내부에 구비된 포인트 클라우드 복원 모듈(120)을 기반으로 다시점 깊이 맵을 3D 공간상에 포인트 클라우드로 표현할 수 있고, 3D 메쉬 생성 모듈(130)을 기반으로 메쉬화 알고리즘을 실행하여 3D 메쉬 모델을 생성할 수 있다.

이와 같은 과정을 기반으로 단일 입력 영상(101)에 포함된 객체에 대한 3D 모델(102)을 생성함으로써 게임 및 애니메이션 제작 분야에서 3D 콘텐츠 제작 파이프라인을 자동화시킬 수 있으며, 3D 모델링에 소모되는 시간과 비용을 현저하게 감소시킬 수도 있다. 이를 기반으로 컨텐츠 제작의 퀄리티와 시간을 획기적으로 향상시킬 수 있으므로 세계적으로도 매우 큰 시장성 및 점유율을 기대할 수 있다.

도 2는 본 발명의 일실시예에 따른 단일 입력 영상을 이용한 3D 모델 생성 방법을 나타낸 동작 흐름도이다.

도 2를 참조하면, 본 발명의 일실시예에 따른 단일 입력 영상을 이용한 3D 모델 생성 방법은 기정의된 다시점 카메라 파라미터와 단일 입력 영상에 상응하는 깊이 맵을 기반으로 단일 입력 영상에 대한 다시점 부분 깊이 맵을 생성한다(S210).

이 때, 단일 입력 영상은 전경과 배경이 혼합된 RGB 이미지에 상응할 수 있다. 이 때, 단일 입력 영상의 전경은 본 발명에서 3D 모델로 생성하기 위한 객체에 해당하는 것으로, 본 발명에서는 사람(휴먼 캐릭터)을 예로 설명하겠지만 그 외의 객체들 또한 같은 방식으로 3D 모델링 될 수 있다. 즉, 3D 모델로써 생성되는 객체는 사람에 한정되지 않을 수 있다.

이 때, 스킵 커넥션이란, 입력 데이터가 합성곱 계층을 건너뛰어 출력에 바로 더해지는 구조를 의미하는 것으로, 이러한 구조를 통해 역전파 신호 감소를 방지할 수 있어서 인코더-디코더 모델의 층이 깊어져서 학습을 효율적으로 수행할 수 있게 해준다. 이러한 스킵 커넥션은 입력된 데이터를 그대로 흘리는 것으로, 층의 깊이가 깊어짐에 따라 loss가 발생하는 문제를 해결해줄 수 있다.

이 때, 인코더/디코더 모델은 스킵 커넥션(SKIP-CONNECTION)을 갖는 다중 합성곱 레이어 및 다중 활성화 함수로 구성된 인코더와 디코더를 포함할 수 있다. 예를 들어, 인코더-디코더 모델은 relu activation function과 같은 다중 활성화 함수를 포함할 수 있다.

이 때, 인코더/디코더 모델은 단일 입력 영상에 상응하는 복수개의 특징맵들에 각각 L1 손실함수와 L2 손실함수를 번갈아 반영한 결과가 최소화되도록 학습될 수 있다.

예를 들어, 인코더/디코더 모델은 이미지의 질적 향상을 위해서 복수개의 특징 맵들 각각에 대한 fully connected layer를 갖는 다중 합성곱 레이어를 통한 cost function를 기반으로 복수개의 특징 맵들을 추출할 수 있다.

이 때, 인코더/디코더 모델은 종래의 3D 모델에 상응하는 특징 맵들을 학습 데이터로써 획득하여 지도학습(Supervised Learning)을 수행할 수 있다. 이와 같은 지도학습을 통해 각각의 특징 맵에 대한 손실함수 계산식에 적용할 학습 네트워크 레이어별 가중치를 업데이트 및 학습할 수 있다.

또한, 도 2에는 도시하지 아니하였으나, 본 발명의 일실시예에 따른 단일 입력 영상을 이용한 3D 모델 생성 방법은 단일 시점 깊이 맵 네트워크를 기반으로 단일 입력 영상(101)에 상응하는 깊이 맵을 생성할 수 있다.

예를 들어, 도 3을 참조하면, 본 발명의 일실시예에 따른 인코더/디코더 모델로 단일 입력 영상(310)을 입력하면, 합성곱(convolution) 연산 과정을 통해 단일 입력 영상(310)에 대한 깊이 맵(320)을 생성할 수 있다.

이 때, 합성곱 연산이란, 하나의 함수와 또 다른 함수를 반전 이동한 값을 곱한 다음, 구간에 대해 적분하여 새로운 함수를 구하는 과정에 해당하는 것으로, 깊이 맵을 생성하는 알고리즘에서 일반적으로 사용되는 연산 기법을 적용할 수 있다.

이 때, 인코더/디코더 모델을 이용하여 단일 입력 영상에 상응하는 복수개의 특징맵들을 추출할 수 있다.

예를 들어, 도 6을 참조하면, 본 발명의 일실시예에 따른 단일 입력 영상(610)은 3D 모델의 대상이 되는 객체(전경)와 배경이 혼합된 RGB 이미지에 상응할 수 있는데, 이러한 단일 입력 영상(610)을 인코더/디코더 모델로 입력하면 도 6에 도시된 것처럼 깊이 맵(670)과 함께, 부분 깊이 맵(620), 저해상도 깊이 맵(630), 노멀 맵(640), 마스크(650), 엑스레이 맵(660) 및 컬러 맵(미도시)을 생성할 수 있다.

이 때, 저해상도 깊이 맵(630)은 인코더/디코더 모델을 구성하는 레이어들 중 최종 레이어 바로 전 레이어의 결과에 상응하는 것으로, 깊이 맵(620)의 저해상도 버전에 상응할 수 있다. 이러한 저해상도 깊이 맵(630)은 다시점 부분 깊이 맵의 생성을 위한 인코더-디코더 모델의 지도학습(Supervised Learning)시 cost function의 손실(loss) 계산에 반영될 수 있다.

이 때, cost function에 마스크(650)에 기반한 loss를 적용하고, 이러한 결과를 깊이 맵(620), 노멀 맵(640), 엑스레이 맵(660)에 조합함으로써 단일 입력 영상(610)의 전경과 배경을 정확하게 분리할 수 있다.

이 때, 복수개의 특징 맵들 중 엑스레이 맵(660)의 손실(loss) 반영을 통해 시점별 객체의 포즈, 부위별 외형 특성에 대한 정밀한 깊이 맵 예측을 수행할 수 있다.

예를 들어, 단일 입력 영상에 포함된 객체가 옷을 입은 사람일 경우, 이러한 엑스레이 맵의 특성을 이용하여 최외각인 옷의 모양을 복원 생성하고, 옷 안쪽의 사람의 외형도 함께 복원하여 나타낼 수 있다. 즉, 치마를 입은 사람일 경우에는 치마 안에 다리의 외형도 복원함으로써 보다 정밀하게 외형 특성을 예측할 수 있다.

이 때, 복수개의 특징맵들에 각각 L1 손실함수와 L2 손실함수를 번갈아 반영한 결과를 기반으로 단일 입력 영상에 포함된 객체의 포즈 및 부위별 외형 특성을 시점별로 예측할 수 있다.

예를 들어, [수학식 1]과 같이 각각의 특징 맵별로 L1 손실함수와 L2 손실함수를 반영할 수 있다.

[수학식 1]

이 때, [수학식 1]에 기재된 L_depth와 L_lowdepth가 각각 L1 손실함수와 L2 손실함수에 상응할 수 있다. 이와 같이 각 특징 맵마다 L1 손실함수와 L2 손실함수를 번갈아 반영함으로써 L1 loss의 강인성(robustness)과 L2 loss의 안정성(stability)을 모두 반영할 수 있다.

예를 들어, 도 4를 참조하면, 깊이 맵(410)을 기반으로 기정의된 다시점 카메라 각각에 대한 가이드 정보를 획득할 수 있고, 이러한 가이드 정보를 기반으로 기정의된 다시점 카메라 파라미터에 상응하게 입력된 영상을 역투영 및 재투영하여 다시점 부분 깊이 맵(420)을 생성할 수 있다.

또한, 본 발명의 일실시예에 따른 단일 입력 영상을 이용한 3D 모델 생성 방법은 다시점 깊이 맵 네트워크로 단일 입력 영상과 다시점 부분 깊이 맵을 입력하여 단일 입력 영상에 상응하는 다시점 깊이 맵 및 다시점 특징 맵을 획득한다(S220).

이 때, 다시점 부분 깊이 맵과 단일 입력 영상을 다시점 깊이 맵 네트워크로 입력하여 인퍼런싱(INFERENCING)된 값들을 연결(CONCATENATION) 연산할 수 있다.

예를 들어, 도 5를 참조하면, 다시점 부분 깊이 맵(510)이 입력되는 인코딩 레이어와 구별되는 다른 하나의 인코딩 레이어로 단일 입력 영상(520)을 입력할 수 있다. 이 후, 단일 입력 영상(520)의 입력을 기반으로 출력된 latent vector값을 다시점 부분 깊이 맵(510)의 입력을 기반으로 출력된 값과 연결(concatenation)시키고, 단일 입력 영상(520)에 대한 각 시점별 특성정보가 반영된 코드를 디코딩함으로써 다시점 깊이 맵(530)을 생성할 수 있다.

이 때, 인코딩 레이어와 디코딩 레이어는 스킵 커넥션(skip connection)을 통해 레이어별 정보를 반영할 수 있다.

또한, 본 발명의 일실시예에 따른 단일 입력 영상을 이용한 3D 모델 생성 방법은 다시점 깊이 맵에 상응하는 3D 메쉬 모델 및 다시점 특징 맵을 기반으로 단일 입력 영상에 상응하는 텍스처 맵을 생성하고, 3D 메쉬 모델에 텍스처 맵을 반영하여 단일 입력 영상에 상응하는 3D 모델을 생성한다(S230).

또한, 도 2에는 도시하지 아니하였으나, 본 발명의 일실시예에 따른 단일 입력 영상을 이용한 3D 모델 생성 방법은 3D 메쉬 모델을 컬러 맵에 투영하여 텍스처 맵을 생성할 수 있다.

예를 들어, 3D 메쉬 모델을 컬러 맵에 투영하여 각 폴리곤별 텍스처 정보를 획득함으로써 텍스처 맵을 생성할 수 있다. 이 때, 단일 입력 영상의 시점에 의해 획득하지 못하는 영역(측면이나 후면)에 대한 컬러는 이미 획득한 컬러 맵에 대해 color transfer를 수행하여 생성될 수 있다.

또한, 도 2에는 도시하지 아니하였으나, 본 발명의 일실시예에 따른 단일 입력 영상을 이용한 3D 모델 생성 방법은 다시점 영상 기반 3D 복원 알고리즘을 통해 다시점 깊이 맵에 상응하는 3D 메쉬 모델을 생성할 수 있다.

예를 들어, 포인트 클라우드는 3D 공간상의 전체적 형태와 객체인 사람의 머리, 코, 소매, 의상 등의 디테일을 살리는 형태로 복원될 수 있다. 이렇게 복원된 포인트 클라우드는 poisson reconstruction과 같은 포인트 클라우드의 메쉬화 알고리즘을 통해 3D 메쉬 모델로 생성될 수 있다.

도 7을 참조하면, 단일 입력 영상으로부터 생성된 다시점 부분 깊이 맵, 다시점 깊이 맵과 함께 기정의된 시점별 카메라 파라미터로부터 복원한 포인트 클라우드 및 최종 3D 메쉬 모델을 보여준다. 이와 같은 과정을 통해 생성된 3D 모델은 Ground Truth 3D 모델 대비 약 96% 이상의 복원 정확도를 가질 수 있다.

또한, 도 2에는 도시하지 아니하였으나, 본 발명의 일실시예에 따른 단일 입력 영상을 이용한 3D 모델 생성 방법은 상술한 3D 모델 생성과정에서 발생하는 다양한 정보를 별도의 저장모듈에 저장한다.

이와 같은 3D 모델 생성 방법을 이용함으로써 원화제작, 3D 모델링, 텍스처링 등으로 이어지는 수작업 3D 모델 제작 파이프라인을 자동으로 대체하여 시간과 비용을 획기적으로 절감할 수 있다.

또한, 게임, 애니메이션 산업 등 많은 인력과 시간을 필요로 하는 분야의 기술적, 비용적 문제점들을 극복하는데 도움이 될 수 있다.

또한, 일반인들이 스마트폰과 같은 모바일 기기로 촬영한 이미지를 바로 3D 모델로 생성함으로써 개인 3D 아바타, 가상 유투버, 개인 맞춤형 게임, 개인비서 등 다양한 산업응용분야에 폭넓게 활용될 수 있다.

도 8은 본 발명의 일실시예에 따른 단일 입력 영상을 이용한 3D 모델 생성 장치를 나타낸 블록도이다.

도 8을 참조하면, 본 발명의 일실시예에 따른 단일 입력 영상을 이용한 3D 모델 생성 장치는 통신부(810), 프로세서(820) 및 메모리(830)를 포함한다.

통신부(810)는 네트워크와 같은 통신망을 통해 3D 모델 생성을 위해 필요한 정보를 송수신하는 역할을 한다. 특히, 본 발명의 일실시예에 따른 통신부(810)는 스마트폰과 같은 사용자의 모바일 단말로부터 단일 입력 영상을 수신하거나, 최종적으로 생성된 3D 모델을 외부로 송신할 수 있다.

프로세서(820)는 기정의된 다시점 카메라 파라미터와 단일 입력 영상에 상응하는 깊이 맵을 기반으로 단일 입력 영상에 대한 다시점 부분 깊이 맵을 생성한다.

또한, 프로세서(820)는 단일 시점 깊이 맵 네트워크를 기반으로 단일 입력 영상(101)에 상응하는 깊이 맵을 생성한다.

[수학식 1]

또한, 프로세서(820)는 다시점 깊이 맵 네트워크로 단일 입력 영상과 다시점 부분 깊이 맵을 입력하여 단일 입력 영상에 상응하는 다시점 깊이 맵 및 다시점 특징 맵을 획득한다.

또한, 프로세서(820)는 다시점 깊이 맵에 상응하는 3D 메쉬 모델 및 다시점 특징 맵을 기반으로 단일 입력 영상에 상응하는 텍스처 맵을 생성하고, 3D 메쉬 모델에 텍스처 맵을 반영하여 단일 입력 영상에 상응하는 3D 모델을 생성한다.

또한, 프로세서(820)는 3D 메쉬 모델을 컬러 맵에 투영하여 텍스처 맵을 생성한다.

또한, 프로세서(820)는 다시점 영상 기반 3D 복원 알고리즘을 통해 다시점 깊이 맵에 상응하는 3D 메쉬 모델을 생성한다.

또한, 메모리(830)는 상술한 바와 같이 본 발명의 일실시예에 따른 3D 모델 생성 과정에서 발생되는 다양한 정보를 저장한다.

실시예에 따라, 메모리(830)는 3D 모델 생성 장치와 독립적으로 구성되어 3D 모델 생성을 위한 기능을 지원할 수 있다. 이 때, 메모리(830)는 별도의 대용량 스토리지로 동작할 수 있고, 동작 수행을 위한 제어 기능을 포함할 수도 있다.

한편, 3D 모델 생성 장치는 메모리가 탑재되어 그 장치 내에서 정보를 저장할 수 있다. 일 구현예의 경우, 메모리는 컴퓨터로 판독 가능한 매체이다. 일 구현 예에서, 메모리는 휘발성 메모리 유닛일 수 있으며, 다른 구현예의 경우, 메모리는 비휘발성 메모리 유닛일 수도 있다. 일 구현예의 경우, 저장장치는 컴퓨터로 판독 가능한 매체이다. 다양한 서로 다른 구현 예에서, 저장장치는 예컨대 하드디스크 장치, 광학디스크 장치, 혹은 어떤 다른 대용량 저장장치를 포함할 수도 있다.

이와 같은 3D 모델 생성 장치를 통해 원화제작, 3D 모델링, 텍스처링 등으로 이어지는 수작업 3D 모델 제작 파이프라인을 자동으로 대체하여 시간과 비용을 획기적으로 절감할 수 있다.

이상에서와 같이 본 발명에 따른 단일 입력 영상을 이용한 3D 모델 생성 방법 및 이를 위한 장치는 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

100: 3D 모델 생성 장치 101, 310, 520, 610: 단일 입력 영상
102: 3D 모델 110: 깊이 맵 네트워크
111: 다시점 특징맵 데이터셋120: 포인트 클라우드 복원 모듈
130: 3D 메쉬 생성 모듈 140: 텍스처맵 생성 모듈
320, 410, 670, 770: 깊이 맵
420, 510, 620: 다시점 부분 깊이 맵
530: 다시점 깊이 맵 630: 저해상도 깊이 맵
640: 노멀 맵 650: 마스크
660: 엑스레이 맵 810: 통신부
820: 프로세서 830: 메모리

Claims

기정의된 다시점 카메라 파라미터와 단일 입력 영상에 상응하는 깊이 맵을 기반으로 상기 단일 입력 영상에 대한 다시점 부분 깊이 맵을 생성하는 단계;
다시점 깊이 맵 네트워크로 상기 단일 입력 영상과 상기 다시점 부분 깊이 맵을 입력하여 상기 단일 입력 영상에 상응하는 다시점 깊이 맵 및 다시점 특징 맵을 획득하는 단계; 및
상기 다시점 깊이 맵에 상응하는 3D 메쉬 모델 및 상기 다시점 특징 맵을 기반으로 상기 단일 입력 영상에 상응하는 텍스처 맵을 생성하고, 상기 3D 메쉬 모델에 상기 텍스처 맵을 반영하여 상기 단일 입력 영상에 상응하는 3D 모델을 생성하는 단계
를 포함하는 것을 특징으로 하는 단일 입력 영상을 이용한 3D 모델 생성 방법.
청구항 1에 있어서,
상기 3D 모델 생성 방법은
단일 시점 깊이 맵 네트워크를 기반으로 상기 깊이 맵을 생성하는 단계를 더 포함하는 것을 특징으로 하는 단일 입력 영상을 이용한 3D 모델 생성 방법.
청구항 2에 있어서,
상기 단일 시점 깊이 맵 네트워크 및 상기 다시점 깊이 맵 네트워크는 스킵 커넥션(SKIP CONNECTION)을 갖는 합성곱(CONVOLUTION) 기반의 인코더/디코더 모델을 포함하는 것을 특징으로 하는 단일 입력 영상을 이용한 3D 모델 생성 방법.
청구항 3에 있어서,
상기 인코더/디코더 모델은
상기 단일 입력 영상에 상응하는 복수개의 특징맵들에 각각 L1 손실함수와 L2 손실함수를 번갈아 반영한 결과가 최소화되도록 학습되는 것을 특징으로 하는 단일 입력 영상을 이용한 3D 모델 생성 방법.
청구항 3에 있어서,
상기 깊이 맵을 생성하는 단계는
상기 인코더/디코더 모델을 이용하여 상기 단일 입력 영상에 상응하는 복수개의 특징맵들을 추출하는 단계;
상기 복수개의 특징맵들에 각각 L1 손실함수와 L2 손실함수를 번갈아 반영한 결과를 기반으로 상기 단일 입력 영상에 포함된 객체의 포즈 및 부위별 외형 특성을 시점별로 예측하는 단계를 포함하는 것을 특징으로 하는 단일 입력 영상을 이용한 3D 모델 생성 방법.
청구항 1에 있어서,
상기 다시점 부분 깊이 맵을 생성하는 단계는
상기 기정의된 다시점 카메라 파라미터에 상응하게 상기 깊이 맵을 역투영 및 재투영하여 상기 다시점 부분 깊이 맵을 생성하는 것을 특징으로 하는 단일 입력 영상을 이용한 3D 모델 생성 방법.
청구항 1에 있어서,
상기 다시점 깊이 맵 및 다시점 특징 맵을 획득하는 단계는
상기 다시점 부분 깊이 맵과 상기 단일 입력 영상을 상기 다시점 깊이 맵 네트워크로 입력하여 인퍼런싱(INFERENCING)된 값들을 연결(CONCATENATION) 연산하는 단계를 포함하는 것을 특징으로 하는 단일 입력 영상을 이용한 3D 모델 생성 방법.
청구항 5에 있어서,
상기 복수개의 특징맵들은
깊이 맵(DEPTH MAP), 저해상도 깊이 맵(LOW DEPTH MAP), 부분 깊이 맵(PART DEPTH MAP), 노멀 맵(NOMAL MAP), 마스크(MASK), 엑스레이 맵(XRAY MAP) 및 컬러 맵(COLOR MAP)을 포함하는 것을 특징으로 하는 단일 입력 영상을 이용한 3D 모델 생성 방법.
청구항 8에 있어서,
상기 엑스레이 맵은
상기 객체의 최외곽 모양(SHAPE)과 내부 모양(SHAPE)을 복원하는데 사용되는 것을 특징으로 하는 단일 입력 영상을 이용한 3D 모델 생성 방법.
청구항 8에 있어서,
상기 3D 모델을 생성하는 단계는
상기 3D 메쉬 모델을 상기 컬러 맵에 투영하여 상기 텍스처 맵을 생성하는 것을 특징으로 하는 단일 입력 영상을 이용한 3D 모델 생성 방법.
청구항 3에 있어서,
상기 인코더/디코더 모델은
스킵 커넥션(SKIP-CONNECTION)을 갖는 다중 합성곱 레이어 및 다중 활성화 함수로 구성된 인코더와 디코더를 포함하는 것을 특징으로 하는 단일 입력 영상을 이용한 3D 모델 생성 방법.
청구항 1에 있어서,
상기 단일 입력 영상은
전경과 배경이 혼합된 RGB 이미지에 상응하는 것을 특징으로 하는 단일 입력 영상을 이용한 3D 모델 생성 방법.
청구항 1에 있어서,
상기 3D 모델 생성 방법은
다시점 영상 기반 3D 복원 알고리즘을 통해 상기 다시점 깊이 맵에 상응하는 3D 메쉬 모델을 생성하는 단계를 더 포함하는 것을 특징으로 하는 단일 입력 영상을 이용한 3D 모델 생성 방법.
청구항 13에 있어서,
상기 3D 메쉬 모델을 생성하는 단계는
상기 기정의된 다시점 카메라 파라미터에 기반한 3D 공간상 조합 및 대체 방법을 고려하여 상기 다시점 깊이 맵을 3D 공간상에 포인트 클라우드로 표현하고, 메쉬화 알고리즘에 상기 포인트 클라우드를 입력하여 상기 3D 메쉬 모델을 생성하는 특징으로 하는 단일 입력 영상을 이용한 3D 모델 생성 방법.
기정의된 다시점 카메라 파라미터와 단일 입력 영상에 상응하는 깊이 맵을 기반으로 상기 단일 입력 영상에 대한 다시점 부분 깊이 맵을 생성하고, 다시점 깊이 맵 네트워크로 상기 단일 입력 영상과 상기 다시점 부분 깊이 맵을 입력하여 상기 단일 입력 영상에 상응하는 다시점 깊이 맵 및 다시점 특징 맵을 획득하고, 상기 다시점 깊이 맵에 상응하는 3D 메쉬 모델 및 상기 다시점 특징 맵을 기반으로 상기 단일 입력 영상에 상응하는 텍스처 맵을 생성하고, 상기 3D 메쉬 모델에 상기 텍스처 맵을 반영하여 상기 단일 입력 영상에 상응하는 3D 모델을 생성하는 프로세서; 및
상기 기정의된 다시점 카메라 파라미터 및 상기 다시점 깊이 맵 네트워크를 저장하는 메모리
를 포함하는 것을 특징으로 하는 단일 입력 영상을 이용한 3D 모델 생성 장치.
청구항 15에 있어서,
상기 프로세서는
단일 시점 깊이 맵 네트워크를 기반으로 상기 깊이 맵을 생성하는 것을 특징으로 하는 단일 입력 영상을 이용한 3D 모델 생성 장치.
청구항 16에 있어서,
상기 단일 시점 깊이 맵 네트워크 및 상기 다시점 깊이 맵 네트워크는 스킵 커넥션(SKIP CONNECTION)을 갖는 합성곱(CONVOLUTION) 기반의 인코더/디코더 모델을 포함하는 것을 특징으로 하는 단일 입력 영상을 이용한 3D 모델 생성 장치.
청구항 17에 있어서,
상기 인코더/디코더 모델은
상기 단일 입력 영상에 상응하는 복수개의 특징맵들에 각각 L1 손실함수와 L2 손실함수를 번갈아 반영한 결과가 최소화되도록 학습되는 것을 특징으로 하는 단일 입력 영상을 이용한 3D 모델 생성 장치.
청구항 17에 있어서,
상기 프로세서는
상기 인코더/디코더 모델을 이용하여 상기 단일 입력 영상에 상응하는 복수개의 특징맵들을 추출하고, 상기 복수개의 특징맵들에 각각 L1 손실함수와 L2 손실함수를 번갈아 반영한 결과를 기반으로 상기 단일 입력 영상에 포함된 객체의 포즈 및 부위별 외형 특성을 시점별로 예측하는 것을 특징으로 하는 단일 입력 영상을 이용한 3D 모델 생성 장치.
청구항 15에 있어서,
상기 프로세서는
상기 기정의된 다시점 카메라 파라미터에 상응하게 상기 깊이 맵을 역투영 및 재투영하여 상기 다시점 부분 깊이 맵을 생성하는 것을 특징으로 하는 단일 입력 영상을 이용한 3D 모델 생성 장치.