WO2021261687A1

WO2021261687A1 - 영상 기반 사람의 3차원 자세 및 형상 모델 복원 장치 및 방법

Info

Publication number: WO2021261687A1
Application number: PCT/KR2020/017835
Authority: WO
Inventors: 윤주홍; 박민규; 김제우; 김성제
Original assignee: 한국전자기술연구원
Priority date: 2019-12-11
Filing date: 2020-12-08
Publication date: 2021-12-30
Also published as: KR102338491B1; KR20210074166A

Abstract

영상 기반 사람의 3차원 자세 및 형상 모델 복원 장치 및 방법이 제공된다. 본 발명의 실시예에 따른 방법은, 인코딩 네트워크를 이용하여 입력 영상을 영상 특성이 포함된 잠재 영역으로 인코딩하고, 인코딩된 잠재 영역을 기하학적 정보가 포함된 잠재 영역으로 변환하며, 변환된 잠재 영역을 이용하여 입력 영상의 3차원 모델을 추정한다. 이에 의해, 비지도 학습으로 다른 중간매체 표현특성을 사용할 필요 없이 잠재 영역으로부터 3차원 사람 자세 및 형상 정보를 추정 할 수 있게 된다.

Description

영상 기반 사람의 3차원 자세 및 형상 모델 복원 장치 및 방법

본 발명은 인공지능을 이용한 영상처리 기술에 관한 것으로, 더욱 상세하게는 딥 러닝 기술 중 비지도 학습 오토인코더를 사용하여 이미지 정보에서 사람의 3차원 자세 및 형상 정보를 복원하는 장치 및 방법에 관한 것이다.

기존 3차원 사람의 자세 및 형상 정보 복원 기술은 주로 센서를 사람에게 부착하여 각 관절의 3차원 위치를 복원하는 방식을 주로 사용하였으나, 여러 개의 센서를 사람에게 직접 부착하여 사용해야 된다는 단점으로 인해 실생활에 사용하기에는 부적합하다.

근래에는 컴퓨터 성능 향상과 데이터 수의 증가에 따라 딥 러닝의 성능이 폭발적으로 향상 되었고, 3차원 사람 자세 및 형상 정보 복원에도 딥 러닝 기술이 도입되어 특정 데이터 환경에서 준수한 결과를 보여주었다.

이러한 딥 러닝 기술들은 입력 데이터와 정답(레이블) 데이터를 쌍으로 비교하여 그 손실 차이를 구해 모델의 성능을 향상 시키지만 현실적 사용에는 몇 가지 문제점이 존재한다.

첫 째, 지도학습 모델 학습 시 레이블 데이터가 없는 경우 모델을 학습 시킬 수 가 없다.

둘 째, 3차원 사람 자세 및 형상 정보에 사용되는 3차원 데이터 같은 경우 레이블 데이터를 만드는데 있어 많은 시간과 자원이 소요된다.

셋 째, 전세계적으로 공개된 데이터의 수 자체가 적고, 딥 러닝 모델을 훈련시키는데 한정적인 데이터만 존재한다.

지도학습 딥 러닝 기술의 경우, 데이터에 매우 의존적이기 때문에 레이블 데이터가 없는 경우 그 성능을 발휘 할 수가 없기 때문이다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 입력, 레이블 데이터에 의존적이던 기존 지도학습 3차원 사람 자세 추정 방식을 레이블 데이터로부터 비교적 자유로운 비지도학습 방식을 사용하여, 한 장의 영상으로부터 3차원 정보가 포함된 잠재 영역을 추출하여 3차원 사람 자세 및 형상을 추정하는 방법 및 장치를 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 3차원 모델 복원 방법은, 인코딩 네트워크를 이용하여, 입력 영상을 영상 특성이 포함된 잠재 영역으로 인코딩하는 단계; 인코딩된 잠재 영역을 기하학적 정보가 포함된 잠재 영역으로 변환하는 단계; 및 변환된 잠재 영역을 이용하여, 입력 영상의 3차원 모델을 추정하는 단계;를 포함한다.

변환 단계는, 인코딩된 잠재 영역을 입력 영상과 다른 시점의 영상에 대한 잠재 영역으로 변환할 수 있다.

변환 단계는, 인코딩된 잠재 영역에 카메라 회전 행렬을 적용하여, 입력 영상과 다른 시점의 영상에 대한 잠재 영역으로 변환할 수 있다.

본 발명의 실시예에 따른 3차원 모델 복원 방법은, 변환된 잠재 영역으로부터 영상을 복원하는 단계; 인코딩 네트워크를 이용하여, 복원된 영상을 영상 특성이 포함된 잠재 영역으로 인코딩하는 단계; 인코딩된 잠재 영역에 카메라 회전 행렬의 역행렬을 적용하여, 입력 영상과 같은 시점의 영상에 대한 잠재 영역으로 변환하는 단계; 변환된 잠재 영역으로부터 영상을 복원하는 단계; 복원된 영상과 입력 영상 간의 손실 함수를 계산하여, 인코딩 네트워크를 최적화하는 단계;를 더 포함할 수 있다.

추정 단계는, 추정 네트워크를 이용하여, 변환된 잠재 영역으로부터 SMPL(Skinned Multi-Person Linear Model) 파라미터를 추정하는 단계; 추정된 SMPL 파라미터로부터 3차원 사람 자세 및 형상을 추정하는 단계;를 더 포함할 수 있다.

본 발명의 실시예에 따른 3차원 모델 복원 방법은, 분별 네트워크를 이용하여, 변환된 잠재 영역로부터 추정된 SMPL 파라미터가 정확한지 분별하는 단계; 및 분별 결과를 이용하여, 추정 네트워크를 학습시키는 단계;를 더 포함할 수 있다.

학습 단계는, 분별 결과가 '참'이 될 때까지, 추정 네트워크를 학습시킬 수 있다.

분별 네트워크는, GAN(Generative Adversarial Network)으로 구현될 수 있다.

입력 영상은, 한 장의 영상일 수 있다.

한편, 본 발명의 다른 실시예에 따른, 3차원 모델 복원 장치는, 인코딩 네트워크를 이용하여, 입력 영상을 영상 특성이 포함된 잠재 영역으로 인코딩하는 인코딩부; 인코딩된 잠재 영역을 기하학적 정보가 포함된 잠재 영역으로 변환하는 변환부; 및 변환된 잠재 영역을 이용하여, 입력 영상의 3차원 모델을 추정하는 추정부;를 포함한다.

한편, 본 발명의 다른 실시예에 따른, 3차원 모델 복원 방법은, 인코딩 네트워크를 이용하여, 입력 영상을 영상 특성이 포함된 잠재 영역으로 인코딩하는 단계; 인코딩된 잠재 영역을 기하학적 정보가 포함된 잠재 영역으로 변환하는 단계; 변환된 잠재 영역으로부터 복원한 영상을 이용하여, 인코딩 네트워크를 학습시키는 단계; 및 변환된 잠재 영역을 이용하여, 입력 영상의 3차원 모델을 추정하는 단계;를 포함한다.

한편, 본 발명의 다른 실시예에 따른, 3차원 모델 복원 장치는, 인코딩 네트워크를 이용하여, 입력 영상을 영상 특성이 포함된 잠재 영역으로 인코딩하는 인코딩부; 인코딩된 잠재 영역을 기하학적 정보가 포함된 잠재 영역으로 변환하는 변환부; 변환된 잠재 영역을 이용하여, 입력 영상의 3차원 모델을 추정하는 추정부;를 포함하고, 인코딩부는, 변환된 잠재 영역으로부터 복원한 영상을 이용하여, 인코딩 네트워크를 학습시킨다.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 비지도 학습 방식의 알고리즘을 이용하여, 레이블 데이터에 의존적이었던 3차원 사람 자세 및 형상 추정을 입력 데이터만 가지고 수행할 수 있게 된다.

본 발명의 실시예들에 따르면, 카메라 회전 행렬을 사용하여 잠재 영역에 3차원 정보(기하학적)를 인코딩(내포)함으로써, 다른 중간매체 표현특성을 사용할 필요 없이 잠재 영역으로부터 3차원 사람 자세 및 형상 정보를 추정 할 수 있게 된다.

본 발명의 실시예들에 따르면, GAN을 사용하여 추정된 3차원 사람 자세 및 형상을 기존보다 사실적으로 복원 할 수 있게 된다.

도 1은 자세 추정을 위한 지도학습 딥 러닝의 개념도,

도 2는 본 발명의 실시예가 적용가능한 비지도 학습 오토인코더의 개념도,

도 3은 본 발명의 일 실시예에 따른 3차원 사람 자세 및 형상 모델 복원 장치의 블록도,

도 4는 오토인코더에 구비되는 인코딩부의 알고리즘 구성도,

도 5는 오토인코더에 구비되는 변환부의 알고리즘 구성도,

도 6은 오토인코더에 구비되는 복원부의 알고리즘 구성도,

도 7은 복원부와 분별기를 이용한 비지도 학습 과정의 설명에 제공되는 도면,

도 8은 3차원 추정기에 구비되는 SMPL 추정부의 알고리즘 구성도,

도 9는 3차원 추정기에 구비되는 분별기의 알고리즘 구성도이다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

도 1은 자세 추정을 위한 지도학습 딥 러닝의 개념도이다. 지도학습은 네트워크의 결과와 레이블 데이터 사이의 손실 함수를 추정하여 최적의 결과를 도출한다. 따라서 입력과 레이블이 쌍으로 존재해야만 네트워크를 학습시킬 수 있다.

도 2는 본 발명의 실시예가 적용가능한 비지도 학습 오토인코더의 개념도이다. 비지도 학습 오토인코더 네트워크의 경우, 입력을 네트워크를 통해 복원한 후 입력과 복원 결과 사이의 손실 함수를 최적화하기 때문에, 레이블 데이터 없이 입력 데이터만 가지고 네트워크 최적화를 할 수 있다.

도 3은 본 발명의 일 실시예에 따른 3차원 사람 자세 및 형상 모델 복원 장치(이하, '3차원 모델 복원 장치'로 약칭)의 블록도이다.

도 3은 본 발명의 실시예에 따른 3차원 모델 복원 장치는 오토인코더를 활용한 비지도 학습과 잠재 영역 특성을 활용하여, 한 장의 영상으로부터 3차원 사람 자세 및 형상 모델을 복원한다.

이와 같은 기능을 수행하는 본 발명의 실시예에 따른 3차원 모델 복원 장치는, 도시된 바와 같이, 오토인코더(110)와 3차원 추정기(120)를 포함하여 구성된다.

오토인코더(110)는 영상으로부터 추출한 잠재 영역(Latent space)을 회전시켜 기하학적 정보를 내포한 잠재 영역을 생성하는 인공지능 모델로, 인코딩부(111), 변환부(112) 및 복원부(113)를 포함하여 구성된다.

인코딩부(111)는 영상으로부터 잠재 영역을 추출하고, 변환부(112)는 인코딩부(111)에서 추출된 잠재 영역을 새로운 시점의 잠재 영역으로 변환하며, 복원부(113)는 변환부(112)에서 변환된 새로운 시점의 잠재 영역으로부터 새로운 시점의 영상을 복원한다.

3차원 추정기(120)는 SMPL(Skinned Multi-Person Linear Model) 추정부(121) 및 분별기(122)를 포함하여 구성된다.

SMPL 추정부(121)는 오토인코더(110)에 의해 생성된 잠재 영역을 이용하여 3차원 사람 자세 및 형상을 추정하는 인공지능 모델이고, 분별기(122)는 SMPL 파라미터가 정확하게 추정되었는지 분별하는 인공지능 모델이다.

도 4는 오토인코더(110)에 구비되는 인코딩부(111)의 알고리즘 구성도이다. 인코딩부(111)는 인코딩 네트워크를 이용하여, 입력되는 영상 A(도 4에서는 '입력A'로 표기)를 영상 정보(영상 특성)가 함축된 잠재 영역 A로 인코딩한다. 인코딩 네트워크는 영상 특성 추출 성능이 좋은 Resnet과 Unet을 기본 모델로 사용할 수 있다.

도 5는 오토인코더(110)에 구비되는 변환부(112)의 알고리즘 구성도이다. 변환부(112)는 인코딩부(111)에 의해 추출된 잠재 영역 A에 카메라 회전 행렬을 적용하여 새로운 시점의 잠재 영역 B로 변환한다.

구체적으로, 변환부(112)는 영상 A에 대한 잠재 영역 A를 영상 A와 다른 시점인 영상 B에 대한 잠재 영역 B로 회전시켜 준다. 이를 위해, 변환부(112)는 카메라 회전 행렬과 잠재 영역 A를 행렬 곱한다.

카메라 회전 행렬은 특정 카메라 시점을 다른 카메라 시점으로 변환하기 위한 행렬이다.

변환부(112)에 의해 회전된 잠재 영역인 잠재 영역 B는 회전으로 인해 기하학적 정보를 포함하게 된다. 즉, 변환부(112)는 카메라 회전 행렬을 이용하여 잠재 영역에 기하학적 정보를 인코딩하게 된다.

기존 방법들은 여러 시점에서 촬영된 영상들을 사용하여 많은 3차원 정보를 추가하였다. 하지만, 본 발명의 실시예에서는, 잠재 영역을 임의의 카메라 회전 행렬로 회전 시켜 새로운 방향의 3차원 정보를 추가하도록 하였다. 회전된 잠재 영역 특성은 기하학적 정보를 포함하고 있는 200개의 점군(Point Cloud)으로 표현 가능하다. 따라서 3차원 사람 자세 및 형상을 추정할 때 보다 정확한 정보를 제공할 수 있다.

도 6은 오토인코더(110)에 구비되는 복원부(113)의 알고리즘 구성도이다. 복원부(113)는 디코딩 네트워크를 이용하여, 변환부(112)에 의해 생성된 잠재 영역 B로부터 영상 B(도 6에서는 '복원B'로 표기)를 복원한다.

오토인코더(110)에 입력된 영상 A는 A 시점이었지만, 복원부(113)에 의해 B 시점의 영상 B(복원B)가 획득되는 것이다. 복원부(113)에 의해 획득된 영상 B(복원B)는 비지도 학습에 이용된다.

구체적으로, 도 7에 나타난 바와 같이, 복원부(113)에 의해 복원된 영상 B(도 7에는 '복원B'로 표기)는 오토인코딩 과정[인코딩부(111) → 변환부(112) → 복원부(113)]을 거처 원래 시점과 같은 시점인 A 시점을 갖도록 복원된 영상 A(도 7에는 '복원A'로 표기)로 복원된다. 이 과정에서, 변환부(112)는 인코딩부(111)에 의해 추출된 잠재 영역을 카메라 회전 행렬의 역행렬로 변환하여, B 시점에서 A 시점으로 변환한다.

인코딩부(111)는 이렇게 복원된 영상 A(복원A)와 원래 영상(도 7에는 '입력A'로 표기) 사이의 손실 함수를 계산함으로서 레이블 데이터 없이 인코딩 네트워크를 최적화할 수 있다.

인코딩 네트워크 최적화가 끝나면, 오토인코더(110)는 기하학적 정보를 내포한 잠재 영역을 추출할 수 있는 능력이 생기게 되며, 이는 궁극적 목표인 3차원 사람 자세 및 형상 파라미터 추정을 가능하게 하여 준다.

한편, 복원부(113)는 인코딩부(111)의 인코딩 네트워크를 학습시키기 위해 필요한 구성으로, 추론 과정에서는 불필요하다.

도 8은 3차원 추정기(120)에 구비되는 SMPL 추정부(121)의 알고리즘 구성도이다. SMPL 추정부(121)는 추정 네트워크를 이용하여, 오토인코더(110)의 변환부(112)에서 변환된 잠재 영역으로부터 SMPL 파라미터를 추정한다.

다음, SMPL 추정부(121)는 추정된 SMPL 파라미터를 SMPL 추정 레이어에 통과시켜 3차원 사람 자세 및 형상을 추정한다.

기존의 지도 학습 방법들은 영상에서 중간단계 표현특성을 추정하여 사용한다. 즉, Heatmaps, Silhouette 등을 사용하여 3차원 사람 자세 및 형상을 추정하는 방식을 주로 사용했지만, 높은 차원의 크기 때문에 더 많은 양의 메모리를 필요로 하고 레이블 데이터가 존재해야만 중간단계 표현 특성을 생성할 수가 있다.

하지만, 본 발명의 실시예의 경우, 오토인코더(110)의 변환부(112)에서 변환된 잠재 영역은 기하학적 정보가 인코딩되어 있다. 본 발명의 실시예에서는 기존 중간단계 표현 특성을 대체할 수단으로 오토인코더(110)의 잠재 영역 특성을 사용하여 SMPL 파라미터를 추정하고 이에 따른 3차원 사람 자세 및 형상을 생성하도록 한 것이다.

이는 보다 낮은 차원의 크기와 함축된 기하학적 정보를 통해 기존 지도학습 방식 보다 정확한 파라미터 추정을 가능하게 한다.

도 9는 3차원 추정기(120)에 구비되는 분별기(122)의 알고리즘 구성도이다. 분별기(122)는 잠재 영역으부터 SMPL 파라미터를 보다 정확하게 만들어 주기 위한 수단이다.

분별기(122)는 오토인코더(110)의 변환부(112)에서 변환된 잠재 영역과 SMPL 추정부(121)에 의해 추정된 SMPL 파라미터를 입력받아, 잠재 영역으로부터 추정된 SMPL 파라미터가 정확한지 분별하여 주는 인공지능 모델로, GAN(Generative Adversarial Network)으로 구현가능하다.

분별기(122)의 분별 결과는 SMPL 추정부(121)의 추정 네트워크를 학습시키기 위해 필요한 구성으로, 추론 과정에서는 불필요하다. 분별기(122)의 분별 결과가 '참'이 될 때까지 추정 네트워크가 학습된다.

기존의 방법들은 중간단계 표현 특성을 사용하여 3차원 사람 자세 및 형상 정보를 추정한다고 전술한 바 있다. 이러한 추정 방법의 문제점은 예측한 3차원 자세나 형상이 사람의 관절 가동 범위까지 완벽하게 추정 하진 않기 때문에, 사람이 할 수 없는 자세를 예측 할 수도 있다.

하지만, 본 발명의 실시예에서는, 딥 러닝 모델 중 데이터의 분포를 학습하여 그와 유사한 결과값을 만들어 주는 GAN을 사용하여 예측된 3차원 사람 자세 및 형상 정보가 보다 사람과 같은 관절 가동 범위를 유지 할 수 있도록 하였다.

지금까지, 영상 기반 사람의 3차원 자세 및 형상 모델 복원 장치 및 방법에 대해 바람직한 실시예를 들어 상세히 설명하였다.

본 발명의 실시예에서는, 비지도 학습을 이용하여 한 장의 영상으로부터 3차원 사람 자세 및 형상 정보를 복원하는 방법 및 장치를 제시하였는데, 영상으로부터 기하학 정보를 포함한 잠재 영역을 만들고, 잠재 영역을 SMPL 파라미터로 변환 후 사람의 3차원 자세 및 형상을 복원하였다.

입력, 레이블 데이터에 의존적이던 기존 지도학습 3차원 사람 자세 추정 방식에서 벗어나, 본 발명의 실시예에서는 레이블 데이터로부터 비교적 자유로운 비지도학습 방식을 사용하여 한 장의 영상으로부터 3차원 정보가 포함된 잠재 영역을 만들었다.

또한, 본 발명의 실시예에서는, 잠재 영역에서 3차원 사람 자세 및 형상을 추정하기 위한 SMPL 파라미터를 예측하고, GAN을 이용하여 추정된 SMPL과 기존 데이터 분포를 학습시켜 사람과 같은 관절 가동 범위를 유지할 수 있도록 하였다.

한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims

인코딩 네트워크를 이용하여, 입력 영상을 영상 특성이 포함된 잠재 영역으로 인코딩하는 단계;

인코딩된 잠재 영역을 기하학적 정보가 포함된 잠재 영역으로 변환하는 단계; 및

변환된 잠재 영역을 이용하여, 입력 영상의 3차원 모델을 추정하는 단계;를 포함하는 것을 특징으로 하는 3차원 모델 복원 방법.
청구항 1에 있어서,

변환 단계는,

인코딩된 잠재 영역을 입력 영상과 다른 시점의 영상에 대한 잠재 영역으로 변환하는 것을 특징으로 하는 3차원 모델 복원 방법.
청구항 2에 있어서,

변환 단계는,

인코딩된 잠재 영역에 카메라 회전 행렬을 적용하여, 입력 영상과 다른 시점의 영상에 대한 잠재 영역으로 변환하는 것을 특징으로 하는 3차원 모델 복원 방법.
청구항 3에 있어서,

변환된 잠재 영역으로부터 영상을 복원하는 단계;

인코딩 네트워크를 이용하여, 복원된 영상을 영상 특성이 포함된 잠재 영역으로 인코딩하는 단계;

인코딩된 잠재 영역에 카메라 회전 행렬의 역행렬을 적용하여, 입력 영상과 같은 시점의 영상에 대한 잠재 영역으로 변환하는 단계;

변환된 잠재 영역으로부터 영상을 복원하는 단계;

복원된 영상과 입력 영상 간의 손실 함수를 계산하여, 인코딩 네트워크를 최적화하는 단계;를 더 포함하는 것을 특징으로 하는 3차원 모델 복원 방법.
청구항 1에 있어서,

추정 단계는,

추정 네트워크를 이용하여, 변환된 잠재 영역으로부터 SMPL(Skinned Multi-Person Linear Model) 파라미터를 추정하는 단계;

추정된 SMPL 파라미터로부터 3차원 사람 자세 및 형상을 추정하는 단계;를 더 포함하는 것을 특징으로 하는 3차원 모델 복원 방법.
청구항 5에 있어서,

분별 네트워크를 이용하여, 변환된 잠재 영역로부터 추정된 SMPL 파라미터가 정확한지 분별하는 단계; 및

분별 결과를 이용하여, 추정 네트워크를 학습시키는 단계;를 더 포함하는 것을 특징으로 하는 3차원 모델 복원 방법.
청구항 6에 있어서,

학습 단계는,

분별 결과가 '참'이 될 때까지, 추정 네트워크를 학습시키는 것을 특징으로 하는 3차원 모델 복원 방법.
청구항 7에 있어서,

분별 네트워크는,

GAN(Generative Adversarial Network)으로 구현되는 것을 특징으로 하는 3차원 모델 복원 방법.
청구항 1에 있어서,

입력 영상은,

한 장의 영상인 것을 특징으로 하는 3차원 모델 복원 방법.
인코딩 네트워크를 이용하여, 입력 영상을 영상 특성이 포함된 잠재 영역으로 인코딩하는 인코딩부;

인코딩된 잠재 영역을 기하학적 정보가 포함된 잠재 영역으로 변환하는 변환부; 및

변환된 잠재 영역을 이용하여, 입력 영상의 3차원 모델을 추정하는 추정부;를 포함하는 것을 특징으로 하는 3차원 모델 복원 장치.
인코딩 네트워크를 이용하여, 입력 영상을 영상 특성이 포함된 잠재 영역으로 인코딩하는 단계;

인코딩된 잠재 영역을 기하학적 정보가 포함된 잠재 영역으로 변환하는 단계;

변환된 잠재 영역으로부터 복원한 영상을 이용하여, 인코딩 네트워크를 학습시키는 단계; 및

변환된 잠재 영역을 이용하여, 입력 영상의 3차원 모델을 추정하는 단계;를 포함하는 것을 특징으로 하는 3차원 모델 복원 방법.
인코딩 네트워크를 이용하여, 입력 영상을 영상 특성이 포함된 잠재 영역으로 인코딩하는 인코딩부;

인코딩된 잠재 영역을 기하학적 정보가 포함된 잠재 영역으로 변환하는 변환부;

변환된 잠재 영역을 이용하여, 입력 영상의 3차원 모델을 추정하는 추정부;를 포함하고,

인코딩부는,

변환된 잠재 영역으로부터 복원한 영상을 이용하여, 인코딩 네트워크를 학습시키는 것을 특징으로 하는 3차원 모델 복원 장치.