KR102292064B1 - 얼굴의 스테레오 복원에서 에러 영역 마스킹을 위한 딥러닝 트레이닝 방법 - Google Patents

얼굴의 스테레오 복원에서 에러 영역 마스킹을 위한 딥러닝 트레이닝 방법 Download PDF

Info

Publication number
KR102292064B1
KR102292064B1 KR1020200100713A KR20200100713A KR102292064B1 KR 102292064 B1 KR102292064 B1 KR 102292064B1 KR 1020200100713 A KR1020200100713 A KR 1020200100713A KR 20200100713 A KR20200100713 A KR 20200100713A KR 102292064 B1 KR102292064 B1 KR 102292064B1
Authority
KR
South Korea
Prior art keywords
deep learning
error
image
stereo
training method
Prior art date
Application number
KR1020200100713A
Other languages
English (en)
Inventor
오승택
김대현
Original Assignee
오승택
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오승택 filed Critical 오승택
Priority to KR1020200100713A priority Critical patent/KR102292064B1/ko
Application granted granted Critical
Publication of KR102292064B1 publication Critical patent/KR102292064B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/001Image restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/006Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration by the use of local operators
    • G06T5/80
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • G06T7/85Stereo camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Geometry (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Graphics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

얼굴의 스테레오 복원에서 에러 영역 마스킹을 위한 딥러닝 트레이닝 방법은, 얼굴 스캔 모델을 준비하는 단계, 상기 얼굴 스캔 모델에 대하여 CG 장면을 구성하는 단계, 상기 CG 장면에 대한 CG 렌더링을 수행하여 스테레오 이미지를 생성하고, 제1 깊이 맵을 생성하는 단계, 상기 스테레오 이미지를 입력으로 하여 스테레오 복원 알고리즘을 이용하여 3D 복원을 수행하고, 제2 깊이 맵을 생성하는 단계, 상기 제1 깊이 맵가 상기 제2 깊이 맵을 이용하여 에러 영역을 포함하는 에러 마스크 이미지를 생성하는 단계, 및 상기 스테레오 이미지와 상기 에러 마스크 이미지를 페어링하여 트레이닝 데이터 세트를 구성하는 단계를 포함한다.

Description

얼굴의 스테레오 복원에서 에러 영역 마스킹을 위한 딥러닝 트레이닝 방법{DEEP LEARNING TRAINING METHOD FOR MASKING ERROR REGION IN STEREO BASED RECONSTRUCTION OF HUMAN FACE}
본 발명은 얼굴의 스테레오 복원에서 에러 영역 마스킹을 위한 딥러닝(deep learning) 트레이닝 방법에 관한 것으로, 보다 상세하게는 스테레오 이미지 기반 얼굴 복원에서 에러 영역을 자동으로 찾는 딥러닝 네트워크의 트레이닝(training)을 위한 데이터 세트를 생성하는 방법에 관한 것이다.
스테레오 이미지 기반 복원 기술은 좌우 이미지의 시차를 이용하여 물체의 3D 형상을 복원하는 기술로써 다양한 실물에 대한 디지털 3D 모델 획득에 활용될 수 있다. 일반적으로 스테레오 이미지 기반 복원 기술은 깊이 인식(depth-sensing) 기술의 기반 기술로 간주할 수 있으며, 빛의 반사 시간을 측정하는 TOF(Time Of Flight) 방식을 제외한 깊이 인식 기술은 대부분 스테레오 이미지 기반 복원 기술을 사용하고 있다. 스테레오 이미지에서 깊이(depth)를 추출하기 위해선 3차원에서 동일 포인트의 투사(projection) 결과를 좌우 이미지에서 올바르게 찾는 스테레오 매칭 기술이 3D 복원 품질을 결정하는 가장 중요한 요소이다.
스테레오 이미지 기반 복원 시스템은 일반 카메라를 이용하여 쉽게 구성할 수 있다는 장점이 있으나, 실제 상황에서 스테레오 매칭이 불완전하다는 근본적인 문제점을 내포하고 있다. 촬영 환경 조건에 따라 스테레오 매칭이 불가능하거나 무시하지 못할 정도의 오차가 개입하여 3D 복원 품질이 저하되는 현상이 발생할 수 있다. 실제로, 얼굴 복원의 경우 조명에 의해 촬영 이미지에서 얼굴 표면에 강한 하이라이트가 발생할 경우, 해당 영역에서 픽셀 값의 변화가 없어져서 스테레오 매칭 점을 찾을 수가 없게 되어 잘못 계산된 시차에 의해 복원된 얼굴 표면에서 함몰, 돌출, 미복원과 같은 현상이 발생하게 된다. 하이라이트가 없는 이미지를 촬영하기 위해선 특별히 고안된 조명 세트를 사용해야 하는데 일반적으로 해당 환경을 조성하는 것은 쉽지 않다.
복원 에러 영역을 검출하여 에러를 적절히 보정할 수 있게 되면 일반적인 조명 환경에서도 높은 품질의 스테레오 복원 결과를 얻을 수 있다. 하지만, 실제 상황에서는 검증(ground-truth) 복원 결과를 알 수 없으므로 복원 에러 영역을 검출하는 것은 쉽지 않다.
본 발명이 해결하고자 하는 기술적 과제는 스테레오 이미지 기반 얼굴 복원에서 에러 영역을 자동으로 찾는 딥러닝 네트워크의 트레이닝을 위한 데이터 세트를 생성하는 딥러닝 트레이닝 방법을 제공함에 있다.
본 발명의 일 실시예에 따른 얼굴의 스테레오 복원에서 에러 영역 마스킹을 위한 딥러닝 트레이닝 방법은, 얼굴 스캔 모델을 준비하는 단계, 상기 얼굴 스캔 모델에 대하여 CG 장면을 구성하는 단계, 상기 CG 장면에 대한 CG 렌더링을 수행하여 스테레오 이미지를 생성하고, 제1 깊이 맵을 생성하는 단계, 상기 스테레오 이미지를 입력으로 하여 스테레오 복원 알고리즘을 이용하여 3D 복원을 수행하고, 제2 깊이 맵을 생성하는 단계, 상기 제1 깊이 맵가 상기 제2 깊이 맵을 이용하여 에러 영역을 포함하는 에러 마스크 이미지를 생성하는 단계, 및 상기 스테레오 이미지와 상기 에러 마스크 이미지를 페어링하여 트레이닝 데이터 세트를 구성하는 단계를 포함한다.
상기 얼굴 스캔 모델은 멀티뷰 이미지 또는 3D 스캐너를 이용하여 획득된 다수의 얼굴 이미지 데이터를 포함할 수 있다.
상기 CG 장면은 상기 얼굴 스캔 모델에 대한 스테레오 카메라의 캘리브레이션으로 구성될 수 있다.
상기 제1 깊이 맵은 정확도 확보를 위한 실제 깊이를 플로팅 넘버로 저장할 수 있다.
상기 제2 깊이 맵은 함몰, 돌출, 미복원 영역 중 적어도 하나의 에러를 포함할 수 있다.
상기 제1 깊이 맵과 상기 제2 깊이 맵을 픽셀별로 비교하여 임계치 이상의 차이가 발생하는 영역을 상기 에러 영역으로 검출할 수 있다.
상기 딥러닝 트레이닝 방법은 상기 트레이닝 데이터 세트를 딥러닝 네트워크에 전달하는 단계, 및 상기 딥러닝 네트워크가 상기 스테레오 이미지가 입력될 때 상기 에러 마스크 이미지가 출력되도록 튜닝하는 단계를 더 포함할 수 있다.
상기 딥러닝 네트워크는 제1 이미지를 특징 벡터화하여 제1 특징 맵을 생성하고, 제2 이미지를 특징 벡터화하여 제2 특징 맵을 생성하고, 상기 제1 특징 맵 및 제2 특징 맵을 합성하여 제3 특징 맵을 생성하고, 상기 제3 특징 맵을 디컨볼루션하여 상기 에러 마스크 이미지를 생성할 수 있다.
상기 딥러닝 네트워크는 시퀀스 촬영 이미지 중에서 어느 하나의 에러 프레임에서 에러 마스크 이미지를 생성하고, 상기 시퀀스 촬영 이미지 중에서 에러 영역이 검출되지 않은 기준 프레임의 스테레오 복원 결과에서 상기 에러 마스크 이미지에 대응하는 부분을 옮겨와서 상기 에러 프레임의 에러 영역을 대치할 수 있다.
상기 에러 프레임의 에러 영역에 대해 지오메트리 보정을 적용하여 스테레오 복원 결과를 변환할 수 있다.
본 발명의 실시예에 따르면, 딥러닝 네트워크의 트레이닝을 위한 데이터 세트를 이용하여 스테레오 이미지 기반 얼굴 복원에서 에러 영역을 자동으로 찾는 딥러닝 네트워크를 트레이닝시킬 수 있고, 에러 영역이 검출되면 다른 프레임의 정보 등을 이용하여 에러 영역을 올바르게 수정 및 보완할 수 있으므로, 조명에 강인한 얼굴의 스테레오 복원이 가능하다. 이에 따라, 스테레오 이미지 기반 얼굴 복원의 복원 품질을 대폭 향상 시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 얼굴의 스테레오 복원에서 에러 영역 마스킹을 위한 딥러닝 트레이닝 방법을 나타내는 흐름도이다.
도 2는 얼굴 스테레오 복원에서 에러 영역의 자동 검출을 위한 딥러닝 네트워크의 일 예를 나타내는 블록도이다.
도 3 내지 5는 얼굴 스테레오 복원에서 에러를 보정하는 일 예를 나타내는 예시도이다.
이하, 첨부한 도면을 참고로 하여 본 발명의 실시예들에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예들에 한정되지 않는다.
본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조 부호를 붙이도록 한다.
또한, 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함" 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본 발명의 일 실시예에 따른 얼굴의 스테레오 복원에서 에러 영역 마스킹을 위한 딥러닝 트레이닝 방법을 나타내는 흐름도이다.
도 1을 참조하면, 얼굴의 스테레오 복원을 위하여 스테레오 복원에서 에러 영역을 자동으로 검출할 수 있는 딥러닝 네트워크(deep learning network)가 이용된다. 딥러닝 네트워크는 빅데이터를 이용한 학습으로 얼굴의 스테레오 복원에서 에러 영역을 효과적으로 검출하고 수정 및 보완할 수 있다.
이러한 딥러닝 네트워크를 트레이닝하는 방법에 대하여 설명한다.
먼저, 고품질의 얼굴 스캔 모델을 준비한다(S110). 고품질의 얼굴 스캔 모델은 카메라 리그에서 촬영된 멀티뷰 이미지로부터 획득될 수 있다. 또는, 고품질의 얼굴 스캔 모델은 고성능 3D 스캐너를 이용하여 획득될 수 있다. 얼굴 스캔 모델은 다수의 얼굴 이미지 데이터를 포함할 수 있다. 얼굴 스캔 모델은 텍스쳐(texture) 데이터를 포함하여야 하며, 과적합(over fitting)을 방지하기 위하여 다양한 얼굴 모델이 확보될 필요가 있다.
고품질의 얼굴 스캔 모델에 대하여 CG(Computer Graphic) 장면(scene)을 구성한다(S120). CG 장면은 얼굴 스캔 모델, 스테레오 카메라, 조명, 배경 등을 포함할 수 있다. 이때, CG 장면은 얼굴 스캔 모델에 대한 스테레오 카메라의 캘리브레션(calibration)으로 구성되고, 스테레오 카메라에 대한 캘리브레이션이 필요하다. 스테레오 카메라에 대한 캘리브레이션은 가상의 평면 오브젝트를 이용하여 수행될 수 있다.
3D 애니메이션용 소프트웨어인 마야(Maya)에서 카메라 캘리브레이션을 수행하는 방법을 예로 들어 설명한다. 카메라의 이미지 평면과 광축이 월드 좌표계의 xy 평면과 z축과 일치한다고 가정할 때, 카메라의 내부 파라미터는 수학식 1과 같이 행렬로 주어진다.
Figure 112020084467689-pat00001
여기서, kx, ky는 임의의 이미지에 대한 카메라에서의 좌표와 렌더링 이미지에서의 좌표의 관계를 나타내는 파라미터이다. cx, cy는 이미지의 크기로부터 구해지는 파라미터이다.
카메라의 내부 파라미터를 추출하기 위하여 z축 위에 xy 평면과 수직인 정사각형의 객체를 설정하면, 이 정사각형의 객체의 렌더링 이미지에서 꼭지점의 위치를 찾아서 카메라의 내부 파라미터를 추출할 수 있다. 다시 말해, 정사각형의 객체의 꼭지점의 3D 좌표가 (a, a, z)이고, 렌더링 이미지에서 꼭지점의 위치가 (u, v)라고 하면, 수학식 2와 같이 kx, ky가 구해질 수 있다.
Figure 112020084467689-pat00002
추가적으로, 조명과 배경을 배치하여 실제와 유사한 상황을 재현할 수 있다. 조명은 위치, 세기 등을 달리하여 다양한 조명 환경을 구성할 수 있다.
이제, 구성된 CG 장면의 가상 스테레오 카메라로 CG 장면에 대한 CG 렌더링을 수행한다(S130). CG 렌더링을 통해 스테레오 이미지 및 고정확도의 제1 깊이 맵(depthmap)이 생성될 수 있다. 깊이 맵은 시점으로부터 객체의 표면까지의 거리를 포함하는 이미지일 수 있다. 제1 깊이 맵은 정확도 확보를 위하여 실제 깊이를 플로팅 넘버(floating number)로 저장한다.
렌더링된 스테레오 이미지를 입력으로 하여 스테레오 복원 알고리즘을 이용하여 3D 복원을 수행한다(S140). 이 과정에서 복원 알고리즘에 기반한 제2 깊이 맵이 생성된다. 제2 깊이 맵은 촬영 환경 등의 영향으로 함몰 혹은 돌출, 미복원 영역 등의 에러를 포함하게 된다.
CG 렌더링 과정(S130)에서 생성된 제1 깊이 맵과 스테레오 이미지의 3D 복원 과정(S140)에서 생성된 제2 깊이 맵을 이용하여 에러 마스크 이미지를 생성한다(S150). 제1 깊이 맵과 제2 깊이 맵을 픽셀별로 비교하여 에러 영역을 검출할 수 있다. 즉, 고정확도의 제1 깊이 맵과 비교하여 제2 깊이 맵에서 임계치 이상의 차이가 발생하는 영역을 에러 영역으로 검출할 수 있다. 에러 영역은 렌더링된 스테레오 이미지에서 함몰 혹은 돌출, 미복원 등의 에러가 발생한 영역이다. 검출된 에러 영역을 특정하여 에러 마스크 이미지를 생성할 수 있다.
CG 렌더링 과정(S130)에서 렌더링된 스테레오 이미지와 에러 마스크 이미지 생성 과정(S150)에서 생성된 에러 마스크 이미지를 페어링(pairing)하여 트레이닝 데이터 세트를 구성한다(S160). 트레이닝 데이터 세트는 딥러닝 네트워크에 전달된다.
딥러닝 네트워크는 트레이닝 데이터 세트에 따라 트레이닝을 수행한다(S170). 즉, 딥러닝 네트워크는 렌더링된 스테레오 이미지가 입력될 때 에러 마스크 이미지가 출력되도록 튜닝한다.
이와 같이, 트레이닝된 딥러닝 네트워크는 임의의 스테레오 이미지가 입력되면 누적된 빅데이터를 활용하여 스테레오 이미지에 대응하는 최적의 에러 마스크 이미지를 출력할 수 있다. 즉, 딥러닝 네트워크에 의해 스테레오 이미지에 대응하는 에러 영역이 자동으로 찾아지게 된다.
이하, 도 2를 참조하여 스테레오 이미지에 대응하는 에러 영역을 자동으로 검출하는 딥러닝 네트워크의 일 예에 대하여 설명한다. 얼굴 스테레오 복원에서의 에러 영역을 자동으로 검출하기 위한 딥러닝 네트워크는 다양한 방식으로 이루어질 수 있으나, 도 2에서는 합성곱 인코더-디코더(convolutional encoder-decoder) 네트워크를 이용하는 방법을 예로 들어 설명한다.
도 2는 얼굴 스테레오 복원에서 에러 영역의 자동 검출을 위한 딥러닝 네트워크의 일 예를 나타내는 블록도이다.
도 2를 참조하면, 딥러닝 네트워크는 제1 인코더(110), 제2 인코더(120), 합성곱 네트워크(130) 및 디코더(140)를 포함한다.
하나의 얼굴에 대해 시점을 달리하는 제1 이미지 및 제2 이미지가 각각 제1 인코더(110) 및 제2 인코더(120)에 입력된다. 예를 들어, 제1 이미지는 좌측 얼굴 이미지이고, 제2 이미지는 우측 얼굴 이미지일 수 있다.
제1 인코더(110)는 제1 이미지를 특징 벡터화하여 제1 특징 맵(feature map)(115)을 생성하고, 제1 특징 맵(115)을 합성곱 네트워크(130)에 제공한다.
제2 인코더(120)는 제2 이미지를 특징 벡터화하여 제2 특징 맵(125)을 생성하고, 제2 특징 맵(125)을 합성곱 네트워크(130)에 제공한다.
합성곱 네트워크(130)는 제1 특징 맵(115)과 제2 특징 맵(125)을 제1 계층으로 하고, 제1 특징 맵(115)과 제2 특징 맵(125)을 제2 계층으로 합성하여 제3 특징 맵(145)을 생성할 수 있다.
디코더(140)는 제3 특징 맵(145)을 디컨볼루션(deconvolution)하여 스테레오 이미지의 에러 영역을 특정하는 에러 마스크 이미지를 생성할 수 있다.
딥러닝 네트워크는 도 1에서 상술한 트레이닝에 의해 누적된 빅데이터를 활용하여 제1 계층의 제1 특징 맵(115) 및 제2 특징 맵(125)과 제2 계층의 제3 특징 맵(145)의 연결 관계를 튜닝함으로써 에러 마스크 이미지를 더욱 높은 정확도로 생성할 수 있다.
이하, 도 3 내지 5를 참조하여 얼굴의 스테레오 이미지에서 에러 영역을 검출하고, 에러 영역을 보정하는 실시예에 대하여 설명한다. 도 3 내지 5의 에러 영역의 검출 및 보정은 딥러닝 네트워크에 의해 수행될 수 있고, 또는 일부의 작업은 딥러닝 네트워크와 연계된 개인용 컴퓨터 등을 통해 수행될 수 있다.
도 3 내지 5는 얼굴 스테레오 복원에서 에러를 보정하는 일 예를 나타내는 예시도이다.
예를 들어, 예전에는 영화 촬영에서 위험한 장면 등에 스턴트맨이 배우를 대신하여 장면을 촬영하였는데, 이제는 CG 장면으로 스턴트맨을 대신하고 있을 뿐만 아니라 가상의 현실 등에서 배우들을 CG 장면으로 구현하고 있다. 이와 같이, CG 장면으로 배우를 구현할 때 시점, 광조사 각도 등에 따라 얼굴 표면에 함몰, 돌출, 미복원과 같은 에러 영역이 발생하여 배우의 얼굴이 부자연스럽게 보일 수 있다.
상술한 딥러닝 네트워크를 이용하여 얼굴의 스테레오 복원에서 에러 영역을 자동으로 검출함에 따라 에러 영역을 쉽고 정확하게 보정할 수 있다.
도 3은 표정이 변화하는 배우 얼굴의 시퀀스 촬영 이미지의 일 예이다. 시퀀스 촬영 이미지는 다수의 장면(프레임)을 포함한다. 도 3에 예시한 바와 같이, 시퀀스 촬영 이미지에서 제n 프레임(에러 프레임)에서 배우의 얼굴에 하이라이트가 발생되어 있다. 제n 프레임(에러 프레임)을 그대로 스테레오 복원하면 하이라이트 부분이 부자연스럽게 복원될 수 있다.
상술한 딥러닝 네트워크를 이용하면, 도 4에 예시한 바와 같이 제n 프레임(에러 프레임)에서 에러 영역(S)을 포함하는 에러 마스크 이미지를 생성할 수 있다. 즉, 제n 프레임(에러 프레임)의 에러 영역(S)이 자동으로 검출된다.
도 3에 예시한 바와 같이, 제m 프레임(기준 프레임)은 에러 영역(S)에 해당하는 부분에 하이라이트가 없고 에러 영역이 검출되지 않았다고 하자. 제m 프레임(기준 프레임)의 스테레오 복원 결과에서 제n 프레임(에러 프레임)의 에러 영역(S)에 대응하는 부분을 옮겨와서 에러 영역(S)을 대치하여 복원할 수 있다.
이때, 프레임 간의 스테레오 복원 결과의 변환은 다양한 방법으로 결정될 수 있다. 가장 간단한 방법은 얼굴의 특징점을 추적하여 프레임 간의 변환을 계산할 수 있다. 도 5에 예시한 바와 같이, 원래의 프레임에서 에러 영역에 대해 지오메트리(geometry) 보정, 또는 지오메트리 보정과 색 보정을 적용하여 스테레오 복원 결과를 변환할 수 있다.
상술한 딥러닝 트레이닝 방법은 하드웨어나 소프트웨어, 또는 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 즉, 딥러닝 트레이닝 방법은 집적회로(IC)와 같이 하드웨어적으로 구현되거나, 컴퓨터 프로그램과 같이 소프트웨어적으로 구현되거나, 또는 컴퓨터 프로그램이 기록된 기록매체와 같이 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
지금까지 참조한 도면과 기재된 발명의 상세한 설명은 단지 본 발명의 예시적인 것으로서, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
110: 제1 인코더
120: 제2 인코더
130: 합성곱 네트워크
140: 디코더

Claims (10)

  1. 얼굴의 스테레오 복원에서 에러 영역 마스킹을 위한 딥러닝 네트워크 장치의 딥러닝 트레이닝 방법에 있어서,
    얼굴 스캔 모델을 준비하는 단계;
    상기 얼굴 스캔 모델에 대하여 CG 장면을 구성하는 단계;
    상기 CG 장면에 대한 CG 렌더링을 수행하여 스테레오 이미지를 생성하고, 제1 깊이 맵을 생성하는 단계;
    상기 스테레오 이미지를 입력으로 하여 스테레오 복원 알고리즘을 이용하여 3D 복원을 수행하고, 제2 깊이 맵을 생성하는 단계;
    상기 제1 깊이 맵과 상기 제2 깊이 맵을 픽셀별로 비교하여 임계치 이상의 차이가 발생하는 에러 영역을 포함하는 에러 마스크 이미지를 생성하는 단계; 및
    상기 스테레오 이미지와 상기 에러 마스크 이미지를 페어링하여 트레이닝 데이터 세트를 구성하는 단계를 포함하는 딥러닝 트레이닝 방법.
  2. 제1 항에 있어서,
    상기 얼굴 스캔 모델은 멀티뷰 이미지 또는 3D 스캐너를 이용하여 획득된 다수의 얼굴 이미지 데이터를 포함하는 딥러닝 트레이닝 방법.
  3. 제1 항에 있어서,
    상기 CG 장면은 상기 얼굴 스캔 모델에 대한 스테레오 카메라의 캘리브레이션으로 구성되는 딥러닝 트레이닝 방법.
  4. 제1 항에 있어서,
    상기 제1 깊이 맵은 정확도 확보를 위한 실제 깊이를 플로팅 넘버로 저장하는 딥러닝 트레이닝 방법.
  5. 제1 항에 있어서,
    상기 제2 깊이 맵은 함몰, 돌출, 미복원 영역 중 적어도 하나의 에러를 포함하는 딥러닝 트레이닝 방법.
  6. 삭제
  7. 제1 항에 있어서,
    상기 트레이닝 데이터 세트를 딥러닝 네트워크에 전달하는 단계; 및
    상기 딥러닝 네트워크가 상기 스테레오 이미지가 입력될 때 상기 에러 마스크 이미지가 출력되도록 튜닝하는 단계를 더 포함하는 딥러닝 트레이닝 방법.
  8. 제7 항에 있어서,
    상기 딥러닝 네트워크는 제1 이미지를 특징 벡터화하여 제1 특징 맵을 생성하고, 제2 이미지를 특징 벡터화하여 제2 특징 맵을 생성하고, 상기 제1 특징 맵 및 제2 특징 맵을 합성하여 제3 특징 맵을 생성하고, 상기 제3 특징 맵을 디컨볼루션하여 상기 에러 마스크 이미지를 생성하는 딥러닝 트레이닝 방법.
  9. 제7 항에 있어서,
    상기 딥러닝 네트워크는 시퀀스 촬영 이미지 중에서 어느 하나의 에러 프레임에서 에러 마스크 이미지를 생성하고,
    상기 시퀀스 촬영 이미지 중에서 에러 영역이 검출되지 않은 기준 프레임의 스테레오 복원 결과에서 상기 에러 마스크 이미지에 대응하는 부분을 옮겨와서 상기 에러 프레임의 에러 영역을 대치하는 딥러닝 트레이닝 방법.
  10. 제9 항에 있어서,
    상기 에러 프레임의 에러 영역에 대해 지오메트리 보정을 적용하여 스테레오 복원 결과를 변환하는 딥러닝 트레이닝 방법.
KR1020200100713A 2020-08-11 2020-08-11 얼굴의 스테레오 복원에서 에러 영역 마스킹을 위한 딥러닝 트레이닝 방법 KR102292064B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200100713A KR102292064B1 (ko) 2020-08-11 2020-08-11 얼굴의 스테레오 복원에서 에러 영역 마스킹을 위한 딥러닝 트레이닝 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200100713A KR102292064B1 (ko) 2020-08-11 2020-08-11 얼굴의 스테레오 복원에서 에러 영역 마스킹을 위한 딥러닝 트레이닝 방법

Publications (1)

Publication Number Publication Date
KR102292064B1 true KR102292064B1 (ko) 2021-08-20

Family

ID=77466495

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200100713A KR102292064B1 (ko) 2020-08-11 2020-08-11 얼굴의 스테레오 복원에서 에러 영역 마스킹을 위한 딥러닝 트레이닝 방법

Country Status (1)

Country Link
KR (1) KR102292064B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150093972A (ko) * 2014-02-10 2015-08-19 한국전자통신연구원 스테레오 카메라 기반의 3차원 얼굴 복원 방법 및 장치
KR101957089B1 (ko) * 2018-01-08 2019-03-11 인하대학교 산학협력단 스테레오 정합을 위한 심층 자기유도 비용집계 방법 및 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150093972A (ko) * 2014-02-10 2015-08-19 한국전자통신연구원 스테레오 카메라 기반의 3차원 얼굴 복원 방법 및 장치
KR101957089B1 (ko) * 2018-01-08 2019-03-11 인하대학교 산학협력단 스테레오 정합을 위한 심층 자기유도 비용집계 방법 및 시스템

Similar Documents

Publication Publication Date Title
KR102402494B1 (ko) 지오메트리 정보의 모션 보상
JP7003994B2 (ja) 画像処理装置および方法
US11115633B2 (en) Method and system for projector calibration
Zhang et al. Projection defocus analysis for scene capture and image display
US8411931B2 (en) Methods and systems for converting 2D motion pictures for stereoscopic 3D exhibition
KR102135770B1 (ko) 스테레오 카메라 기반의 3차원 얼굴 복원 방법 및 장치
WO2017183470A1 (ja) 三次元再構成方法
CN108475327A (zh) 三维采集与渲染
US11514654B1 (en) Calibrating focus/defocus operations of a virtual display based on camera settings
JP2010510569A (ja) 2次元から3次元に変換するためのオブジェクトのモデルフィッティング及びレジストレーションのシステム及び方法
JP2010510573A (ja) 3次元画像を合成するシステム及び方法
KR101181199B1 (ko) 배경 지형 장면의 입체 이미지 생성 방법, 시스템 및 이를 위한 기록매체
KR102152432B1 (ko) 동적 3차원 모델을 이용한 실사 콘텐츠 생성 시스템 및 방법
JP2016537901A (ja) ライトフィールド処理方法
KR101817140B1 (ko) 평면 모델링을 통한 깊이 영상의 부호화 방법 및 부호화 장치
KR101495299B1 (ko) 3차원 형상 획득 장치 및 그 획득 방법
US11854228B2 (en) Methods and systems for volumetric modeling independent of depth data
JP7479729B2 (ja) 三次元表現方法及び表現装置
US11328436B2 (en) Using camera effect in the generation of custom synthetic data for use in training an artificial intelligence model to produce an image depth map
Ziegler et al. Multi-camera system for depth based visual effects and compositing
KR102327304B1 (ko) 깊이영상 카메라로부터 획득된 3d 영상의 품질 향상 방법
KR102292064B1 (ko) 얼굴의 스테레오 복원에서 에러 영역 마스킹을 위한 딥러닝 트레이닝 방법
CN109446945B (zh) 三维模型处理方法和装置、电子设备、计算机可读存储介质
WO2023047643A1 (ja) 情報処理装置、映像処理方法、プログラム
Cole et al. Efficient Range Sensing Using Imperceptible Structured Light

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant