KR20210118005A

KR20210118005A - 학습기반 3d 모델 생성 장치 및 방법

Info

Publication number: KR20210118005A
Application number: KR1020210121652A
Authority: KR
Inventors: 임성재; 김태준; 윤승욱; 이승욱; 황본우; 최진성
Original assignee: 한국전자통신연구원
Priority date: 2019-02-21
Filing date: 2021-09-13
Publication date: 2021-09-29
Also published as: KR102650051B1; US11232632B2; US20220101604A1; US20200273247A1; KR102304124B1; KR20200102114A; KR20220150853A; KR102461376B1

Abstract

본 발명에 따른 학습기반 3D 모델 생성 장치의 동작 방법은, 감독 학습을 이용하여 다시점 특성 이미지를 생성하는 단계, 상기 다시점 특성 이미지에 대응하는 포인트 클라우드와 내부 형태 정보를 표현하는 특성 이미지를 이용하여 3D 메쉬 모델을 생성하는 단계, 상기 3D 메쉬 모델을 입력된 세 시점의 이미지들에 투영함으로써 텍스처 맵을 생성하는 단계, 및 상기 텍스처 맵을 이용하여 3D 모델을 생성하는 단계를 포함할 수 있다

Description

학습기반 3D 모델 생성 장치 및 방법{METHOD AND APPARTUS FOR LEARNING-BASED GENERATING 3D MODEL}

본 발명은 학습기반 3D 모델 생성장치 및 방법에 관한 것이다.

일반적으로, 영상 내 객체의 3D(dimension) 모델링을 위해서 다양한 캐릭터의 3D 모델을 수집, 제작 및 DB(database)화하여 각 3D 모델의 여러 시점에서 스케치/뎁스/노멀 영상을 프로젝션하여 제작 및 DB화하고, supervised learning(지도 학습)을 통해 입력된 스케치 영상에 대응하는 여러 시점의 뎁스/노멀 영상을 생성하여 학습 데이터 생성시 사용했던 카메라 캘리브레이션 파라미터를 이용하여 3D 정보가 생성된다. 이와 같은 방법은 입력된 스케치 영상의 해상도, 디테일 등에 따라 매우 러프(rough)한 형태의 컬러가 없는 3D 모델만 생성하고, 캐릭터가 의상, 악세서리, 헤어 등으로 가려진 내부 모양과 오목한(concave) 영역은 복원하지 못하고 명확한 볼록한(convex) 영역만 복원/생성하는 한계를 갖는다. 또한, 입력된 스케치 영상은 컬러를 갖고 있지 않기 때문에, 복원된 3D 모델은 컬러가 없는 모델이 될 수 밖에 없다. 3D 모델의 얼굴, 손, 헤어 등의 상세한(detail) 복원과 의상, 악세서리, 헤어 등으로 가려진 캐릭터 내부 모양 및 컬러 등의 복원 기술이 필요하다.

미국공개특허: US 2014/0132604, 공개일: 2014년 5월 15일, 제목: SEMANTIC DENSE 3D RECONSTRUCTION 한국공개특허: 10-2018-0065860, 공개일: 2018년 6월 18일, 제목: 3D 얼굴 모델 생성 장치 및 방법 한국공개특허: 10-2018-0108709, 공개일: 2018년 10월 4일, 제목: 사용자의 현실적인 신체 모델에 가상으로 옷을 입혀보는 방법

본 발명의 목적은 영상/원화/동영상 내 캐릭터 객체를 사실적으로 표현한 3D 캐릭터 모델을 자동으로 생성하여 사람의 수작업 없이 바로 게임/애니메이션에 적용할 수 있는 학습기반 3D 모델 생성장치 및 방법을 제공하는데 있다.

또한, 본 발명의 목적은 영상/동영상 내 장면을 구성하고 있는 객체 및 배경 객체 들의 의미론적 상관관계를 정의 및 학습시키고, 각 객체내의 세밀한 객체들끼리 갖는 의미론적 계층관계를 정의 및 학습시켜 입력된 영상 내 배경에서 세밀한 객체까지 정확하게 검출 및 인식하고 영상이 갖는 장면의 의미론적 해석을 가능하게 하는 학습기반 3D 모델 생성장치 및 방법을 제공하는데 있다.

또한, 본 발명의 목적은 구축된 학습 DB기반 학습 알고리즘의 오류를 검출하여 학습DB를 정정 및 신규 데이터를 확장하는 학습기반 3D 모델 생성장치 및 방법을 제공하는데 있다.

본 발명의 실시 예에 따른 학습기반 3D 모델 생성 장치의 동작 방법은, 감독 학습을 이용하여 다시점 특성 이미지를 생성하는 단계, 상기 다시점 특성 이미지에 대응하는 포인트 클라우드와 내부 형태 정보를 표현하는 특성 이미지를 이용하여 3D 메쉬 모델을 생성하는 단계, 상기 3D 메쉬 모델을 입력된 세 시점의 이미지들에 투영함으로써 텍스처 맵을 생성하는 단계, 및 상기 텍스처 맵을 이용하여 3D 모델을 생성하는 단계를 포함할 수 있다.

실시 예에 있어서, 상기 다시점 특성 이미지를 생성하는 단계는, 정면뷰, 측면뷰, 및 후면뷰에 대응하는 상기 세 시점의 이미지들을 수신하는 단계; 및 학습을 위한 캐릭터 모델 데이터를 수집하는 단계를 포함할 수 있다.

실시 예에 있어서, 상기 다시점 특성 이미지를 생성하는 단계는, 상기 캐릭터 모델을 각 카메라 시점으로 투영하여 다시점 이미지를 생성하는 단계를 더 포함할 수 있다.

실시 예에 있어서, 상기 감독 학습은 전역적 카메라 그룹과 지역적 카메라 그룹으로 구분되어 진행되는 것을 특징으로 한다.

실시 예에 있어서, 상기 전역적 카메라 그룹의 학습 파라미터와 상기 지역적 카메라 그룹의 학습 파라미터는 서로 다른 것을 특징으로 한다.

실시 예에 있어서, 상기 3D 메쉬 모델을 생성하는 단계는, 상기 다시점 특성 이미지를 다시점 영상 기반 3D 복원 알고리즘을 통하여 3D 공간 상에 상기 포인트 클라우드로 표현하는 단계; 및 상기 포인트 클라우드를 Xray Net를 통해 나온 결과값을 이용하여 보정함으로써 상기 3D 메쉬 모델을 생성하는 단계를 포함할 수 있다.

실시 예에 있어서, 상기 Xray Net은 상기 다시점 특성 이미지에서 특정 시점의 특정 이미지를 입력으로 복원 대상 객체의 내부 형태 정보를 표현하는 상기 특성 이미지를 생성하는 것을 특징으로 한다.

실시 예에 있어서, 상기 텍스처 맵을 생성하는 단계는, 상기 세 시점의 이미지들에 대하여 각 폴리곤별 텍스처 정보를 획득하는 단계; 및 상기 획득된 텍스처 정보를 color transfer 함으로써 상기 세 시점의 이미지들로부터 획득하지 못한 영역에 대한 컬러를 생성하는 단계를 더 포함할 수 있다.

본 발명의 실시 예에 따른 학습기반 3D 모델 생성 장치는, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서에 의해 실행되는 적어도 하나의 인스트럭션을 저장하는 메모리를 포함하고, 상기 적어도 하나의 인스트럭션은, 감독 학습을 이용하여 다시점 특성 이미지를 생성하고; 상기 다시점 특성 이미지에 대응하는 포인트 클라우드와 내부 형태 정보를 표현하는 특성 이미지를 이용하여 3D 메쉬 모델을 생성하고; 상기 3D 메쉬 모델을 입력된 세 시점의 이미지들에 투영함으로써 텍스처 맵을 생성하고; 및 상기 텍스처 맵을 이용하여 3D 모델을 생성하도록 구현되는 것을 특징으로 한다.

실시 예에 있어서, 상기 감독 학습은 전역적 카메라 그룹과 지역적 카메라 그룹의 배치에 따라 진행되는 것을 특징으로 한다.

실시 예에 있어서, 상기 전역적 카메라 그룹과 상기 지역적 카메라 그룹의 각각의 카메라 파라미터는 카메라와 객체간 거리, viewing frustum의 near, far 값을 서로 다르게 설정되는 것을 특징으로 한다.

실시 예에 있어서, 상기 감독 학습은, 상기 다시점 특성 이미지 중에 특정 시점의 특정 특성 이미지를 입력으로 DB에 수집된 3D 객체의 최외부 의상, 악세서리의 한 레이어(layer)를 제거한 3D 모델의 다시점 특성 이미지를 상기 전역적 카메라 그룹으로 렌더링하여 진행되는 것을 특징으로 한다.

실시 예에 있어서, 상기 감독 학습된 학습 파라미터를 적용하여 depth 및 xray 입력으로 최외곽 레이어를 제외한 내부 형태에 대한 다시점 특성 이미지가 생성되는 것을 특징으로 한다.

실시 예에 있어서, 내부 형태 정보들과 DB에 수집된 최외곽 형태 메쉬가 제거된 내부 형태 메쉬 모델과의 감독 학습을 통해서 특성 이미지는 어떤 내부 형태를 표현하는 지에 대한 정보가 내부 형태 다시점 다중 특성 이미지로 생성되고, 상기 내부 형태 다시점 다중 특성 이미지는 포인트 클라우드와 메쉬화 과정을 거쳐 내외부 형태 메쉬를 갖는 최종 3D 메쉬 모델이 생성되는 것을 특징으로 한다.

본 발명의 실시 예에 따른 학습기반 3D 모델 생성장치 및 방법은, 원화제작, 3D 모델링, 텍스처링 등으로 이어지는 기존 수작업 3D 모델 제작 파이프라인을 자동으로 대체함으로써 시간 및 비용을 획기적으로 절감할 수 있다. 그 결과로써 게임, 애니메이션 산업 등 많은 인력과 시간을 필요로 하는 업체의 기술적, 비용적 문제점들이 극복될 수 있다.

본 발명의 실시 예에 따른 학습기반 3D 모델 생성장치 및 방법은, 정면 혹은 정면, 측면의 원화, 영상 몇 장만 입력으로 받아서 애니메이션이 가능한 원화와 닮은 3D 모델을 생성하여 기존 3D 복원 기술들의 한계인 내부 형태까지도 복원 및 생성함으로써, 수작업으로 디테일하게 모델링하는 수준의 결과 출력함으로써 초중급 디자이너 인력 및 비용, 시간 등을 획기적으로 절감할 수 있다.

이하에 첨부되는 도면들은 본 실시 예에 관한 이해를 돕기 위한 것으로, 상세한 설명과 함께 실시 예들을 제공한다. 다만, 본 실시예의 기술적 특징이 특정 도면에 한정되는 것은 아니며, 각 도면에서 개시하는 특징들은 서로 조합되어 새로운 실시 예로 구성될 수 있다.
도 1은 본 발명의 실시 예에 따른 학습기반 3D 모델 생성 장치에서 학습 데이터를 생성하는 과정을 예시적으로 보여주는 도면이다.
도 2는 전역적 카메라 그룹과 지역적 카메라 그룹의 카메라 배치를 예시적으로 보여주는 도면이다.
도 3은 3D 모델의 내부 형태를 복원하기 위한 학습 네트워크를 예시적으로 보여주는 도면이다.
도 4는 내외부 형태를 갖는 생성된 3D 메쉬 모델(8)에 대한 실시 예와 입력 원화/영상(1)을 예시적으로 보여주는 도면이다.
도 5는 본 발명의 실시 예에 따른 학습 기반 3D 모델 생성 장치의 동작 방법을 예시적으로 보여주는 흐름도이다.
도 6은 본 발명의 실시 예에 따른 학습기반 3D 모델 생성 장치(1000)를 예시적으로 보여주는 도면이다.
도 7은 본 발명의 실시 예에 따른 3D 모델 생성 시스템(10)을 예시적으로 보여주는 도면이다.

아래에서는 도면들을 이용하여 본 발명의 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있을 정도로 본 발명의 내용을 명확하고 상세하게 기재할 것이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 제 1, 제 2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다.

상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위로부터 이탈되지 않은 채 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 명명될 수 있다. 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 혹은 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 출원에서, "포함하다" 혹은 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 혹은 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 혹은 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 혹은 이들을 조합한 것들의 존재 혹은 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미이다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미인 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 발명의 실시 예에 따른 학습기반 3D 모델 생성장치 및 방법은, 입력 영상 내의 2D 객체와 똑같은 3D 모델을 자동으로 생성해 줌으로써, 입력영상 객체의 내부 모양까지도 대략적으로 복원해줄 수 있다.

도 1은 본 발명의 실시 예에 따른 학습기반 3D 모델 생성 장치에서 학습 데이터를 생성하는 과정을 예시적으로 보여주는 도면이다. 도 1을 참조하면, 입력영상/원화(1)는 정면뷰, 측면뷰, 후면뷰에 대한 세 시점 이미지를 입력 받을 수 있다. 이때 학습을 위한 학습 데이터는 다음과 같은 절차로 생성될 수 있다.

실시 예에 있어서, 모델링 대상이 캐릭터 모델일 때, 3D 캐릭터 모델 데이터가 수집될 수 있다. 실시 예에 있어서, 각 3D 캐릭터 모델을 중심으로 구형으로 가상 카메라가 배치될 수 있다(전역적 카메라 그룹, 22).

실시 예에 있어서, 중심의 3D 모델을 각 카메라 시점으로 투영하여 다시점 이미지가 생성될 수 있다. 이때 투영을 위한 diffuse shader, depth shader, normal shader, xray shader 등을 사용하여 투영함으로써 다시점 diffuse, depth, normal, xray map 등이 생성될 수 있다.

또한 24와 같이 3D 모델을 중심으로 반구형 상부, 반구형 하부, 원형 중간부 가상 카메라 그룹이 만들어 배치될 수 있다. 각 카메라 그룹별 투영 파라미터를 조정하여 3D 모델의 상부, 하부, 중간부 중심의 모델 정보는 전역적 카메라 그룹과는 다르게 더욱 세밀하게 투영될 수 있다. 여기서 사용되는 카메라 투영 파라미터는 perspective, orthographic, 3D 모델과 카메라 사이의 거리, viewing frustum의 near, far 등을 사용할 수 있다.

실시 예에 있어서, 투영된 다중 특성 이미지(diffuse, depth, normal, xray 등)등을 수집된 모든 3D 캐릭터 모델에 적용하여 투영 이미지가 생성될 수 있다. 이 학습 데이터를 supervised learning network(감독 학습 네트워크)을 사용하여 입력이 단 세 시점(정면, 측면, 후면)일 때에도 여러 다시점 특성 이미지를 생성할 수 있도록 학습이 수행될 수 있다(2). 이러한 감독 학습은 전역적 카메라 그룹(21)과 지역적 카메라 그룹별(23)로 나눠서 진행함으로써 학습 파라미터를 다르게 할 수 있다.

실시 예에 있어서, 다시점 다중 특성 이미지 생성을 위한 추론과정(4)은 학습 과정을 통해 결정된 학습 파라미터를 적용하여(41) 입력된 원화 세 시점에 대한 다시점 다중 특성 이미지를 생성할 수 있다. 이렇게 생성된 다시점 다중 특성 이미지는 다시점 영상 기반 3D 복원 알고리즘을 통해 3D 공간상에 포인트 클라우드(5)로 표현될 수 있다.

이렇게 생성된 포인트 클라우드는 Xray Net(3)을 통해 나온 결과로 보정되어 최종 3D 메쉬 모델이 생성될 수 있다(6). 실시 예에 있어서, 포인트 클라우드 생성(5)은 전역적 카메라 그룹 net을 통한 다시점 다중 특성 이미지 기반 복원된 전역적 포인트 클라우드와 지역적 카메라 그룹 net을 통해 생성된 다시점 다중 특성 이미지 기반 복원된 지역적 포인트 클라우드의 생성을 포함할 수 있다.

실시 예에 있어서, 각각 카메라 파라미터 기반 3D 공간상 조합 및 대체 방법으로 전역적 포인트 클라우드는 3D 객체의 전체적 형태를 잡아주고, 지역적 포인트 클라우드는 머리, 코, 소매, 의상의 디테일을 살리는 형태 복원 역할을 수행할 수 있다. 이때 조합 및 대체 방법은 전역적 포인트 클라우드와 지역적 포인트 클라우드는 유니온할 수 있다. 실시 예에 있어서, 지역적 포인트 클라우드의 카메라 그룹별 중심점을 중심으로 주 표현영역에 대한 3D 공간상의 포인트 클라우드 중 전역적 포인트 클라우드의 비세밀한 부분을 대체하는 방식으로 최종 3D 포인트 클라우드가 생성될 수 있다.

실시 예에 있어서, Xray Net은 다시점 다중 특성 이미지 중, 특정 시점(상방, 하방) 특성 이미지(depth, xray)를 입력으로 복원 대상 객체의 내부 형태 정보를 표현하는 특성 이미지(depth)를 생성할 수 있다. 이는 복원된 포인트 클라우드와의 조합을 통해 내외부 형태 정보를 갖는 최종 3D 메쉬 모델을 생성할 수 있다(6).

실시 예에 있어서, 최종 3D 메쉬 모델(5)은 생성된 조밀한 포인트 클라우드와 Xray Net(3)을 통해 생성된 내부 형태 정보에 기반해 생성한 내부 포인트 클라우드를 조합할 수 있다. 실시 예에 있어서, Poisson reconstruction과 같은 포인트 클라우드의 메쉬화 알고리즘을 통해서 최종 3D 메쉬 모델이 생성될 수 있다.

실시 예에 있어서, 이렇게 생성된 3D 메쉬모델을 입력된 원화의 세 시점으로 투영하여 각 폴리곤별 텍스처 정보를 획득하여 텍스처 맵이 생성될 수 있다. 이때 입력 원화의 세 시점으로 획득하지 못한 영역(상부, 하부 등)에 대한 컬러는 획득한 컬러를 color transfer하여 생성할 수 있다.

실시 예에 있어서, 최종적으로 3D 형태와 텍스처 맵을 생성하여 최종 3D 모델이 생성될 수 있다(8).

도 1에 도시된 다시점 다중 특성 이미지 생성 네트워크의 구성은, 다중 convolution layer, 다중 ReLU(rectified linear unit) activation function으로 구성된 encoding 및 decoding 구조로 구현되고, 또한, 생성된 이미지의 질적 향상을 위해 각 특성 이미지의 fully connected layer를 갖는 다중 convolutional layer를 통한 cost function을 구현할 수 있다.

도 2는 전역적 카메라 그룹과 지역적 카메라 그룹의 카메라 배치를 예시적으로 보여주는 도면이다. 도 2를 참조하면. 전역적 카메라 그룹의 카메라 파라미터와 지역적 카메라 그룹의 카메라 파라미터는 카메라와 객체간 거리, viewing frustum의 near, far 등의 값을 다르게 설정될 수 있다.

실시 예에 있어서, 전역적 카메라 그룹이 3D 객체의 전체적인 형태 복원을 목적으로 하고, 지역적 카메라 그룹은 상부, 하부 및 중간부의 각 파트 영역의 세부적인 형태를 복원하는 것을 목적으로 하기 때문에 지역적 카메라 그룹이 전역적 카메라 그룹보다 카메라 거리를 더 가깝게 배치시킬 수 있다. 또한, near, far 차이를 줄여서 3D 객체의 세밀한 형태 표현을 위해 형태별 깊이 정보가 더욱 세분화 될 수 있다.

실시 예에 있어서, 지역적 카메라그룹 배치는 입력 원화/영상내 객체 분석을 통해 헤드영역 중심을 상부 그룹 중심으로, 배꼽 부분을 중간부 그룹 중심으로, 발목 부분을 하부 그룹 중심으로 설정하여 학습할 수 있다. 이때 객체 분석은 객체 검출, 분할 및 인식 알고리즘을 사용할 수 있다.

도 3은 3D 모델의 내부 형태를 복원하기 위한 학습 네트워크를 예시적으로 보여주는 도면이다. 도 3을 참조하면, 기존 다시점 영상 기반 포인트 클라우드 복원 방법은 3D 객체의 외형만 복원하는 한계가 있으나, 본 발명의 실시 예에 따른 학습 기법은 이러한 한계를 극복할 수 있다.

도 1에 도시된 바와 같이, 다시점 다중 특성 이미지 생성(4) 추론 과정을 통해 생성한 다시점 특성 이미지 중에 특정 시점(상, 하부)의 특정 특성 이미지(depth, xray)를 입력으로 DB에 수집된 3D 객체의 최외부 의상, 악세서리 등의 한 레이어(layer)를 제거한 3D 모델의 다시점 특성 이미지는 전역적 카메라 그룹으로 렌더링하여 생성함으로써 supervised learning 기법으로 학습할 수 있다. 이렇게 학습한 학습 파라미터를 적용하여 depth 및 xray 입력으로 최외곽 레이어를 제외한 내부 형태에 대한 다시점 특성 이미지가 생성될 수 있다. 이렇게 생성된 다시점 특성 이미지는 다시점 영상 기반 3D 복원 기법을 통해 포인트 클라우드로 복원될 수 있다. 도 1의 (5)에서 복원된 포인트 클라우드와 조합을 통해 내외부 형태를 갖는 3D 포인트 클라우드가 복원될 수 있다.

도 4는 내외부 형태를 갖는 생성된 3D 메쉬 모델(8)에 대한 실시 예와 입력 원화/영상(1)을 예시적으로 보여주는 도면이다. 도 4를 참조하면, 입력 원화의 특정 시점에 대한 특정 특성 이미지(depth, xray, 25)는 복원 대상인 3D 객체의 내외부 형태에 대한 정보를 포함할 수 있다.

실시 예에 있어서, depth와 xray의 하부에서 상부를 향하는 시점의 이미지(25)는 최외곽 형태 안쪽으로 내부 형태가 어떤 깊이 정보로 존재하는 지를 보여주고, 측면 시점과 정면 시점의 특성 이미지 또한 내부 형태의 모양을 표현할 수 있다. 이렇게 표현된 내부 형태 정보들과 DB에 수집된 최외곽 형태 메쉬가 제거된 내부 형태 메쉬 모델과의 supervised learning을 통해서 (25)와 같은 특성 이미지는 어떤 내부 형태를 표현하는 지에 대한 정보가 내부 형태 다시점 다중 특성 이미지로 생성될 수 있다. 이는 포인트 클라우드와 메쉬화 과정을 거쳐 (8)과 같은 내외부 형태 메쉬를 갖는 최종 3D 메쉬 모델이 생성될 수 있다.

도 5는 본 발명의 실시 예에 따른 학습 기반 3D 모델 생성 장치의 동작 방법을 예시적으로 보여주는 흐름도이다. 도 1 내지 도 5를 참조하면, 학습 기반 3D 모델 생성 장치는 다음과 같이 3D 모델을 생성할 수 있다.

다중 시점의 이미지가 수신될 수 있다. 수신된 다중 시점의 이미지에 대하여 감독 학습을 이용하여 다시점 특성 이미지를 생성될 수 있다(S110). 다시점 특성 이미지에 대응하는 포인트 클라우드와 내부 형태 정보를 표현하는 특성 이미지를 이용하여 3D 메쉬 모델이 생성될 수 있다(S120). 이 후에 3D 메쉬 모델을 입력된 세 시점의 이미지들에 투영함으로써 텍스처 맵이 생성될 수 있다(S130). 텍스처 맵을 이용하여 3D 모델이 최종적으로 생성될 수 있다(S140).

실시 예에 있어서, 다시점 특성 이미지를 생성하는 것은, 정면뷰, 측면뷰, 및 후면뷰에 대응하는 상기 세 시점의 이미지들을 수신하는 것과 학습을 위한 캐릭터 모델 데이터를 수집하는 것을 포함할 수 있다.

실시 예에 있어서, 다시점 특성 이미지를 생성하는 것은, 캐릭터 모델을 각 카메라 시점으로 투영하여 다시점 이미지를 생성하는 것을 더 포함할 수 있다.

실시 예에 있어서, 감독 학습은 전역적 카메라 그룹과 지역적 카메라 그룹으로 구분되어 진행될 수 있다.

실시 예에 있어서, 전역적 카메라 그룹의 학습 파라미터와 상기 지역적 카메라 그룹의 학습 파라미터는 서로 다를 수 있다.

실시 예에 있어서, 3D 메쉬 모델을 생성하는 것은, 다시점 특성 이미지를 다시점 영상 기반 3D 복원 알고리즘을 통하여 3D 공간 상에 포인트 클라우드로 표현하는 것과 포인트 클라우드를 Xray Net를 통해 나온 결과값을 이용하여 보정함으로써 상기 3D 메쉬 모델을 생성하는 것을 포함할 수 있다.

실시 예에 있어서, Xray Net은 상기 다시점 특성 이미지에서 특정 시점의 특정 이미지를 입력으로 복원 대상 객체의 내부 형태 정보를 표현하는 상기 특성 이미지를 생성할 수 있다.

실시 예에 있어서, 텍스처 맵을 생성하는 것은, 세 시점의 이미지들에 대하여 각 폴리곤별 텍스처 정보를 획득하는 것과 획득된 텍스처 정보를 color transfer 함으로써 세 시점의 이미지들로부터 획득하지 못한 영역에 대한 컬러를 생성하는 것을 더 포함할 수 있다.

실시 예에 따라서는, 단계들 및/혹은 동작들의 일부 혹은 전부는 하나 이상의 비-일시적 컴퓨터-판독가능 매체에 저장된 명령, 프로그램, 상호작용 데이터 구조(interactive data structure), 클라이언트 및/혹은 서버를 구동하는 하나 이상의 프로세서들을 사용하여 적어도 일부가 구현되거나 혹은 수행될 수 있다. 하나 이상의 비-일시적 컴퓨터-판독가능 매체는 예시적으로 소프트웨어, 펌웨어, 하드웨어, 및/혹은 그것들의 어떠한 조합일 수 있다. 또한, 본 명세서에서 논의된 "모듈"의 기능은 소프트웨어, 펌웨어, 하드웨어, 및/혹은 그것들의 어떠한 조합으로 구현될 수 있다.

본 발명의 실시 예들의 하나 이상의 동작들/단계들/모듈들을 구현/수행하기 위한 하나 이상의 비-일시적 컴퓨터-판독가능 매체 및/혹은 수단들은 ASICs(application-specific integrated circuits), 표준 집적 회로들, 마이크로 컨트롤러를 포함하는, 적절한 명령들을 수행하는 컨트롤러, 및/혹은 임베디드 컨트롤러, FPGAs(field-programmable gate arrays), CPLDs(complex programmable logic devices), 및 그와 같은 것들을 포함할 수 있지만, 여기에 한정되지는 않는다.

본 발명의 실시 예에 따른 학습기반 3D 모델 생성 장치 및 방법은, 해상도 낮은 입력 영상에도 얼굴의 눈, 코, 입 수준의 디테일한 복원이 가능한 다시점 카메라 배치하고, 카메라 파라미터 구성하고 및 학습 네트워크, 포인트 클라우드 복원할 수 있다.

도 6은 본 발명의 실시 예에 따른 학습기반 3D 모델 생성 장치(1000)를 예시적으로 보여주는 도면이다. 도 6을 참조하면, 학습기반 3D 모델 생성 장치(1000)는 적어도 하나의 프로세서(1100), 네트워크 인터페이스(1200), 메모리(1300), 디스플레이(1400), 및 입출력 장치(1500)를 포함할 수 있다.

학습기반 3D 모델 생성 장치(1000)는, 도시되지 않았지만 센서를 포함할 수 있다. 센서는 객체 인식을 위한, 영상 데이터 및 음성 데이터 등을 센싱하기 위한 이미지 센서 및 마이크 등을 포함할 수 있다. 센서는 잘 알려진 방식(예를 들어, 광학 이미지를 전기 신호로 변환하는 방식 등)으로 이미지 등을 감지할 수 있다. 센서의 출력은 프로세서(1100) 혹은 메모리(1300)로 출력될 수 있다.

프로세서(1100)는 도 1 내지 도 5을 통하여 적어도 하나의 장치들을 포함하거나, 도 1 내지 도 5을 통하여 전술한 적어도 하나의 방법으로 구현될 수 있다. 프로세서(1100)는, 감독 학습을 이용하여 다시점 특성 이미지를 생성하고, 다시점 특성 이미지에 대응하는 포인트 클라우드와 내부 형태 정보를 표현하는 특성 이미지를 이용하여 3D 메쉬 모델을 생성하고, 3D 메쉬 모델을 입력된 세 시점의 이미지들에 투영함으로써 텍스처 맵을 생성하고, 및 텍스처 맵을 이용하여 3D 모델을 생성할 수 있다.

프로세서(1100)는 프로그램을 실행하고, 전자 시스템을 제어할 수 있다. 전자 시스템은 입출력 장치(1500)를 통하여 외부 장치(예를 들어, 퍼스널 컴퓨터 또는 네트워크)에 연결되고, 데이터를 교환할 수 있다. 전자 시스템은 이동 전화, 스마트 폰, PDA, 태블릿 컴퓨터, 랩톱 컴퓨터 등 모바일 장치, 퍼스널 컴퓨터, 태블릿 컴퓨터, 넷북 등 컴퓨팅 장치, 또는 텔레비전, 스마트 텔레비전, 게이트 제어를 위한 보안 장치 등 전자 제품 등 다양한 전자 시스템들을 포함할 수 있다.

네트워크 인터페이스(1200)는 외부의 네트워크와 다양한 유/무선 방식에 의해 통신을 수행하도록 구현될 수 있다.

메모리(1300)는 컴퓨터에서 읽을 수 있는 명령어(instruction)를 포함할 수 있다. 프로세서(1100)는 메모리(1300)에 저장된 명령어가 프로세서(1100)에서 실행됨에 따라 앞서 언급된 동작들을 수행할 수 있다. 메모리(1300)는 휘 발성 메모리 또는 비휘발성 메모리일 수 있다.

메모리(1300)는 사용자의 데이터를 저장하도록 저장 장치를 포함할 수 있다. 저장 장치는 eMMC(embedded multimedia card), SSD(solid state drive), UFS(universal flash storage) 등 일 수 있다. 저장 장치는 적어도 하나의 비휘발성 메모리 장치를 포함할 수 있다. 비휘발성 메모리 장치는, 낸드 플래시 메모리(NAND Flash Memory), 수직형 낸드 플래시 메모리(Vertical NAND; VNAND), 노아 플래시 메모리(NOR Flash Memory), 저항성 램(Resistive Random Access Memory: RRAM), 상변화 메모리(Phase-Change Memory: PRAM), 자기저항 메모리(Magnetoresistive Random Access Memory: MRAM), 강유전체 메모리(Ferroelectric Random Access Memory: FRAM), 스핀주입 자화반전 메모리(Spin Transfer Torque Random Access Memory: STT-RAM) 등이 될 수 있다.

이상에서 설명된 실시 예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(Arithmetic Logic Unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(Field Programmable Gate Array), PLU(Programmable Logic Unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소 (processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치 는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로 (collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매 체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판 독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시 예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판 독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

한편, 본 발명의 3D 모델 생성 장치는 3D 그래픽 객체에 대한 가상 다시점 카메라 배치로 여러 시점의 뷰를 획득하고 있다. 하지만 본 발명이 반드시 가상 다시점 카메라에 제한될 필요는 없다. 본 발명은 실제의 다시점 카메라를 통하여 여러 시점의 뷰를 획득할 수도 있다.

도 7은 본 발명의 실시 예에 따른 3D 모델 생성 시스템(10)을 예시적으로 보여주는 도면이다. 도 7을 참조하면, 3D 모델 생성 시스템(10)은 학습기반 3D 모델 생성 장치(1000), 다시점 영상 획득장치(2000), 카메라 제어장치(3000), 및 다시점 카메라(4000)를 포함할 수 있다.

학습기반 3D 모델 생성 장치(1000)는 다시점 영상에 대하여 학습 기반으로 3D 모델을 생성하도록 구현될 수 있다. 학습기반 3D 모델 생성 장치(1000), 감독 학습을 이용하여 다시점 특성 이미지를 생성하고, 다시점 특성 이미지에 대응하는 포인트 클라우드와 내부 형태 정보를 표현하는 특성 이미지를 이용하여 3D 메쉬 모델을 생성하고, 3D 메쉬 모델을 입력된 세 시점의 이미지들에 투영함으로써 텍스처 맵을 생성하고, 및 텍스처 맵을 이용하여 3D 모델을 생성할 수 있다

다시점 영상 획득장치(2000)는 획득된 다시점 영상을 저장/관리하도록 구현될 수 있다. 카메라 제어장치(3000)는 다시점 카메라(4000)의 파라미터 제어 및 동기화를 수행하도록 구현될 수 있다.

본 발명은 원화제작, 3D 모델링, 텍스처링 등으로 이어지는 기존 수작업 3D 모델 제작 파이프라인을 자동으로 대체하여 시간 및 비용을 획기적으로 절감할 수 있는 기술로 게임, 애니메이션 산업 등 많은 인력과 시간을 필요로 하는 업체의 기술적, 비용적 문제점들을 극복하는 이점이 있다. 즉, 본 발명의 구성에 따르면, 정면 혹은 정면, 측면의 원화, 영상 몇 장만 입력으로 받아서 애니메이션이 가능한 원화와 똑 닮은 3D 모델을 생성하는 학습기반 3D 모델 생성장치 및 방법으로 기존 3D 복원 기술들의 한계인 내부 형태까지도 복원 및 생성함으로써 수작업으로 디테일하게 모델링하는 수준의 결과 출력함으로써 초중급 디자이너 인력 및 비용, 시간 등을 획기적으로 절감할 수 있는 이점이 있다.

한편, 상술 된 본 발명의 내용은 발명을 실시하기 위한 구체적인 실시 예들에 불과하다. 본 발명은 구체적이고 실제로 이용할 수 있는 수단 자체뿐 아니라, 장차 기술로 활용할 수 있는 추상적이고 개념적인 아이디어인 기술적 사상을 포함할 것이다.

*1000: 학습기반 3D 모델 생성 장치
1100: 프로세서
1200: 네트워크 인터페이스
1300: 메모리
1400: 디스플레이 장치
1500: 입출력 장치

Claims

다시점 이미지 생성 네트워크들을 이용하여 다시점 특성 이미지들을 생성하는 단계;
내부 이미지 생성 네트워크를 이용하여 내부 특성 이미지를 생성하는 단계; 및
상기 다시점 특성 이미지들 및 상기 내부 특성 이미지에 기반하여 3D 모델을 생성하는 단계;
를 포함하는 학습기반 3D 모델 생성 방법.
청구항 1에 있어서,
상기 다시점 이미지 생성 네트워크들은
전역적 카메라 그룹에 상응하는 제1 네트워크 및 지역적 카메라 그룹에 상응하는 제2 네트워크를 포함하는 것을 특징으로 하는 학습기반 3D 모델 생성 방법.
청구항 1에 있어서,
상기 내부 특성 이미지를 생성하는 단계는
상기 내부 이미지 생성 네트워크에 상기 다시점 특성 이미지들 중 기설정된 조건에 상응하는 이미지들을 입력하여 내부 특성 이미지를 생성하는 것을 특징으로 하는 학습기반 3D 모델 생성 방법.
청구항 2에 있어서,
상기 다시점 이미지 생성 네트워크들은
학습용 3D 모델을 각각의 네트워크에 상응하는 카메라 그룹의 카메라 시점으로 투영한 다시점 이미지를 이용하여 학습하는 것을 특징으로 하는 학습기반 3D 모델 생성 방법.
청구항 2에 있어서,
상기 제1 네트워크는 상기 3D 모델의 전체 형태에 상응하는 전역적 다시점 특성 이미지를 생성하고, 상기 제2 네트워크는 상기 3D 모델의 세부 형태에 상응하는 지역적 다시점 특성 이미지를 생성하는 것을 특징으로 하는 학습기반 3D 모델 생성 방법.
청구항 2에 있어서,
상기 지역적 카메라 그룹의 카메라들은 상기 전역적 카메라 그룹의 카메라들보다 상기 3D 모델과의 거리가 가까운 것을 특징으로 하는 학습기반 3D 모델 생성 방법.
청구항 2에 있어서,
상기 3D 모델을 생성하는 단계는
상기 다시점 특성 이미지들 및 상기 내부 특성 이미지에 기반하여 3D 메쉬 모델을 생성하는 단계;
상기 3D 메쉬 모델을 투영하여 텍스처 맵을 생성하는 단계; 및
상기 3D 메쉬 모델 및 상기 텍스처 맵을 이용하여 3D 모델을 생성하는 단계;
를 포함하는 것을 특징으로 하는 학습기반 3D 모델 생성 방법.
청구항 7에 있어서,
상기 3D 메쉬 모델을 생성하는 단계는
상기 제1 네트워크에 상응하는 전역적 포인트 클라우드, 상기 제2 네트워크에 상응하는 지역적 포인트 클라우드, 및 상기 내부 이미지 생성 네트워크에 상응하는 내부 포인트 클라우드에 기반하여 상기 3D 메쉬 모델을 생성하는 것을 특징으로 하는 학습기반 3D 모델 생성 방법.
청구항 3에 있어서,
상기 내부 특성 이미지는
상기 3D 모델의 내부 형태 정보를 표현하는 것을 특징으로 하는 학습기반 3D 모델 생성 방법.
청구항 3에 있어서,
상기 내부 이미지 생성 네트워크는
내부 형태 3D 모델을 전역적 카메라 그룹의 카메라 시점으로 투영한 다시점 이미지를 이용하여 학습하는 것을 특징으로 하는 학습기반 3D 모델 생성 방법.
청구항 10에 있어서,
상기 내부 형태 3D 모델은
학습용 3D 모델에서 외곽 레이어가 제거된 모델에 상응하는 것을 특징으로 하는 학습기반 3D 모델 생성 방법.
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서에 의해 실행되는 적어도 하나의 인스트럭션을 저장하는 메모리를 포함하고,
상기 적어도 하나의 인스트럭션은,
다시점 이미지 생성 네트워크들을 이용하여 다시점 특성 이미지들을 생성하고,
내부 이미지 생성 네트워크를 이용하여 내부 특성 이미지를 생성하고,
상기 다시점 특성 이미지들 및 상기 내부 특성 이미지에 기반하여 3D 모델을 생성하도록 구현되는 것을 특징으로 하는 학습기반 3D 모델 생성 장치.