KR20230036213A - 이미지 복원 모델 학습 방법 및 장치 - Google Patents

이미지 복원 모델 학습 방법 및 장치 Download PDF

Info

Publication number
KR20230036213A
KR20230036213A KR1020210118807A KR20210118807A KR20230036213A KR 20230036213 A KR20230036213 A KR 20230036213A KR 1020210118807 A KR1020210118807 A KR 1020210118807A KR 20210118807 A KR20210118807 A KR 20210118807A KR 20230036213 A KR20230036213 A KR 20230036213A
Authority
KR
South Korea
Prior art keywords
image
model
generating
learning
estimated
Prior art date
Application number
KR1020210118807A
Other languages
English (en)
Inventor
노영민
오태현
정용현
유수연
Original Assignee
삼성에스디에스 주식회사
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사, 포항공과대학교 산학협력단 filed Critical 삼성에스디에스 주식회사
Priority to KR1020210118807A priority Critical patent/KR20230036213A/ko
Publication of KR20230036213A publication Critical patent/KR20230036213A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/001
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

이미지 복원 모델 학습 방법 및 장치가 개시된다. 일 실시예에 따른 이미지 복원 모델 학습 방법은, 제1 이미지를 이용하여 상기 제1 이미지에 포함된 제1 객체의 일부가 폐색(occlusion)된 제1 부분 폐색 이미지를 생성하는 단계; 상기 제1 객체에 대응하는 3차원 모델에 기초하여 생성된 텍스처 맵(texture map)을 정답(ground truth)으로 이용하여, 상기 제1 부분 폐색 이미지로부터 상기 제1 객체에 대한 추정 텍스처 맵을 생성하도록 제1 생성 모델을 학습하는 단계; 제2 이미지를 이용하여 상기 제2 이미지에 포함된 제2 객체의 일부가 폐색된 제2 부분 폐색 이미지를 생성하는 단계; 상기 학습된 제1 생성 모델을 이용하여, 상기 제2 부분 폐색 이미지로부터 상기 제2 객체에 대한 텍스처 맵을 생성하는 단계; 상기 제2 부분 폐색 이미지 및 상기 제2 객체에 대한 텍스처 맵을 이용하여 제2 생성 모델에 대한 입력 이미지를 생성하는 단계; 및 상기 제2 이미지를 정답으로 이용하여, 상기 입력 이미지로부터 상기 제2 이미지에 대한 추정 이미지를 생성하도록 상기 제2 생성 모델을 학습하는 단계를 포함한다.

Description

이미지 복원 모델 학습 방법 및 장치{METHOD AND APPARATUS FOR TRANING IMAGE RESTORATION MODEL}
개시되는 실시예들은 폐색된 이미지를 복원하기 위한 이미지 복원 기술과 관련된다.
폐색된 이미지를 복원하는 기술은 유실된(생성해야 할) 부분이 이미지 내부에 있을 때 인페인팅(in-painting) 이라고 부르며 이미지의 바깥 부분일 경우 아웃페인팅 (out-painting)이라고 한다.
기존의 인페인팅 기술은 생성 모델을 이용하여 주변의 픽셀들을 참조하여 유실된 부분을 채워 넣는 방식이다. 그러나, 생성 모델의 관점에서는 이미지 내에서의 객체와 배경을 구분하는 것이 어렵다.
이를 해결하기 위해서 생성 모델에 객체의 시멘틱(semantic) 정보를 컨디셔닝으로 넣는 것이 효과적이다. 기존 컨디셔닝 생성방법에서는 2D 분할 마스크(segmentation mask) 나 2D 키포인트(key point)와 같은 제한적인 시멘틱 정보를 컨디션으로 입력하였다. 2D 분할 마스크의 경우 객체의 각 세부 파트의 구분이 어려워서 디테일한 부분을 생성함에 있어서 모호성이 발생한다. 2D 키포인트의 경우 객체의 볼륨(volume)을 예측하기 어렵고 객체와 배경의 구분이 모호해지는 문제가 있다.
이에 따라 종래 기술의 경우, 생성되는 이미지의 디테일이 상이하고 퀄리티가 떨어지는 문제점이 있다.
대한민국 공개특허공보 제10-2016-0112666호 (2006.11.01. 공개)
개시되는 실시예들은 이미지 복원 방법 및 장치를 제공하기 위한 것이다.
일 실시예에 따른 이미지 복원 모델 학습 방법은, 제1 이미지를 이용하여 상기 제1 이미지에 포함된 제1 객체의 일부가 폐색(occlusion)된 제1 부분 폐색 이미지를 생성하는 단계; 상기 제1 객체에 대응하는 3차원 모델에 기초하여 생성된 텍스처 맵(texture map)을 정답(ground truth)으로 이용하여, 상기 제1 부분 폐색 이미지로부터 상기 제1 객체에 대한 추정 텍스처 맵을 생성하도록 제1 생성 모델을 학습하는 단계; 제2 이미지를 이용하여 상기 제2 이미지에 포함된 제2 객체의 일부가 폐색된 제2 부분 폐색 이미지를 생성하는 단계; 상기 학습된 제1 생성 모델을 이용하여, 상기 제2 부분 폐색 이미지로부터 상기 제2 객체에 대한 텍스처 맵을 생성하는 단계; 상기 제2 부분 폐색 이미지 및 상기 제2 객체에 대한 텍스처 맵을 이용하여 제2 생성 모델에 대한 입력 이미지를 생성하는 단계; 및 상기 제2 이미지를 정답으로 이용하여, 상기 입력 이미지로부터 상기 제2 이미지에 대한 추정 이미지를 생성하도록 상기 제2 생성 모델을 학습하는 단계를 포함한다.
상기 제1 생성 모델을 학습하는 단계는, 입력된 2차원 이미지에 포함된 객체에 대응하는 3차원 모델을 생성하도록 사전 학습된 추출 모델을 이용하여 상기 제1 이미지로부터 상기 제1 객체에 대응하는 3차원 모델을 생성하는 단계; 및 상기 생성된 3차원 모델로부터 상기 제1 객체에 대한 텍스처 맵을 생성하는 단계를 포함할 수 있다.
상기 제1 생성 모델을 학습하는 단계는, 상기 3차원 모델에 기초하여 생성된 텍스처 맵과 상기 추정 텍스처 맵 사이의 차이에 기초한 손실을 이용하여 상기 제1 생성 모델을 학습할 수 있다.
상기 제2 생성 모델은, 상기 입력 이미지에 대한 특징 벡터를 생성하는 특징 벡터 생성부; 상기 특징 벡터의 제1 부분을 이용하여 전경 이미지를 생성하는 전경 생성부; 상기 특징 벡터의 제2 부분을 이용하여 배경 이미지를 생성하는 배경 생성부; 및 상기 전경 이미지와 상기 배경 이미지를 이용하여 상기 제2 이미지에 대한 추정 이미지를 생성하는 합성부를 포함할 수 있다.
상기 제2 생성 모델을 학습하는 단계는, 상기 제2 생성 모델을 이용하여 상기 입력 이미지로부터 상기 전경 이미지, 상기 배경 이미지 및 상기 제2 이미지에 대한 추정 이미지를 생성하는 단계; 및 상기 전경 이미지, 상기 배경 이미지 및 상기 제2 이미지에 대한 추정 이미지 중 적어도 하나와 상기 제2 이미지에 기초한 하나 이상의 손실을 이용하여 상기 제2 생성 모델을 학습하는 단계를 포함할 수 있다.
상기 하나 이상의 손실은, 상기 제2 이미지와 상기 제2 이미지에 대한 추정 이미지 사이의 차이에 기초한 손실을 포함할 수 있다.
상기 하나 이상의 손실을 이용하여 상기 제2 생성 모델을 학습하는 단계는, 사전 학습된 분할(segmentation) 모델을 이용하여 상기 제2 이미지 및 상기 전경 이미지 각각에 대한 특징 벡터를 생성하는 단계를 포함하고, 상기 하나 이상의 손실은, 상기 제2 이미지에 대한 특징 벡터 및 상기 전경 이미지에 대한 특징 벡터 사이의 차이에 기초한 손실을 포함할 수 있다.
상기 분할 모델은, 복수의 컨볼루션 레이어(convolution layer)를 포함하는 CNN(Convolutional Neural Network)에 기반한 모델이고, 상기 제2 이미지 및 상기 전경 이미지 각각에 대한 특징 벡터는, 상기 제2 이미지 및 상기 전경 이미지 각각에 대해 상기 복수의 컨볼루션 레이어 중 사전 설정된 레이어에서 출력되는 벡터일 수 있다.
상기 하나 이상의 손실을 이용하여 상기 제2 생성 모델을 학습하는 단계는, 슬라이딩 윈도우(sliding window)를 이용하여 상기 제2 이미지와 상기 배경 이미지 각각에서 하나 이상의 이미지 패치(image patch)를 추출하는 단계를 포함하고, 상기 하나 이상의 손실은, 상기 배경 이미지의 특정 영역에서 추출된 이미지 패치와 상기 특정 영역에 대한 상기 제2 이미지의 대응 영역에서 추출된 이미지 패치 사이의 차이에 기초한 손실을 포함할 수 있다.
상기 대응 영역에서 추출된 이미지 패치는, 상기 제2 이미지에서 상기 특정 영역과 동일한 위치의 영역이 배경 영역인 경우, 상기 동일한 위치의 영역에서 추출된 이미지 패치이고, 상기 제2 이미지에서 상기 특정 영역과 동일한 위치의 영역이 상기 객체 중 적어도 일부를 포함하는 영역인 경우, 상기 특정 영역과 가장 가까운 배경 영역에서 추출된 이미지 패치일 수 있다.
상기 하나 이상의 손실을 이용하여 상기 제2 생성 모델을 학습하는 단계는, 가짜 이미지(fake image)를 판별하기 위한 판별기(discriminator)를 이용하여 상기 제2 이미지 및 상기 제2 이미지에 대한 추정 이미지 각각에 대한 판별 결과를 생성하는 단계를 포함하고, 상기 하나 이상의 손실은, 상기 제2 이미지 및 상기 추정 이미지 각각에 대한 상기 판별 결과에 기초한 손실을 포함할 수 있다.
일 실시예에 따른 이미지 복원 모델 학습 장치는, 제1 이미지를 이용하여 상기 제1 이미지에 포함된 제1 객체의 일부가 폐색(occlusion)된 제1 부분 폐색 이미지를 생성하고, 상기 제1 객체에 대응하는 3차원 모델에 기초하여 생성된 텍스처 맵(texture map)을 정답(ground truth)으로 이용하여, 상기 제1 부분 폐색 이미지로부터 상기 제1 객체에 대한 추정 텍스처 맵을 생성하도록 제1 생성 모델을 학습하는 제1 학습부; 제2 이미지를 이용하여 상기 제2 이미지에 포함된 제2 객체의 일부가 폐색된 제2 부분 폐색 이미지를 생성하고, 상기 학습된 제1 생성 모델을 이용하여, 상기 제2 부분 폐색 이미지로부터 상기 제2 객체에 대한 텍스처 맵을 생성하는 텍스처 맵 생성부; 및 상기 제2 부분 폐색 이미지 및 상기 제2 객체에 대한 텍스처 맵을 이용하여 제2 생성 모델에 대한 입력 이미지를 생성하고, 상기 제2 이미지를 정답으로 이용하여, 상기 입력 이미지로부터 상기 제2 이미지에 대한 추정 이미지를 생성하도록 상기 제2 생성 모델을 학습하는 제2 학습부를 포함한다.
상기 제1 학습부는, 입력된 2차원 이미지에 포함된 객체에 대응하는 3차원 모델을 생성하도록 사전 학습된 추출 모델을 이용하여 상기 제1 이미지로부터 상기 제1 객체에 대응하는 3차원 모델을 생성하고, 상기 생성된 3차원 모델로부터 상기 제1 객체에 대한 텍스처 맵을 생성할 수 있다.
상기 제1 학습부는, 상기 3차원 모델에 기초하여 생성된 텍스처 맵과 상기 추정 텍스처 맵 사이의 차이에 기초한 손실을 이용하여 상기 제1 생성 모델을 할 수 있다.
상기 제2 생성 모델은, 상기 입력 이미지에 대한 특징 벡터를 생성하는 특징 벡터 생성부; 상기 특징 벡터의 제1 부분을 이용하여 전경 이미지를 생성하는 전경 생성부; 상기 특징 벡터의 제2 부분을 이용하여 배경 이미지를 생성하는 배경 생성부; 및 상기 전경 이미지와 상기 배경 이미지를 이용하여 상기 제2 이미지에 대한 추정 이미지를 생성하는 합성부를 포함할 수 있다.
상기 제2 학습부는, 상기 제2 생성 모델을 이용하여 상기 입력 이미지로부터 상기 전경 이미지, 상기 배경 이미지 및 상기 제2 이미지에 대한 추정 이미지를 생성하고, 상기 전경 이미지, 상기 배경 이미지 및 상기 제2 이미지에 대한 추정 이미지 중 적어도 하나와 상기 제2 이미지에 기초한 하나 이상의 손실을 이용하여 상기 제2 생성 모델을 학습할 수 있다.
상기 하나 이상의 손실은, 상기 제2 이미지와 상기 제2 이미지에 대한 추정 이미지 사이의 차이에 기초한 손실을 포함할 수 있다.
상기 제2 학습부는, 사전 학습된 분할(segmentation) 모델을 이용하여 상기 제2 이미지 및 상기 전경 이미지 각각에 대한 특징 벡터를 생성하고, 상기 하나 이상의 손실은, 상기 제2 이미지에 대한 특징 벡터 및 상기 전경 이미지에 대한 특징 벡터 사이의 차이에 기초한 손실을 포함할 수 있다.
상기 분할 모델은, 복수의 컨볼루션 레이어(convolution layer)를 포함하는 CNN(Convolutional Neural Network)에 기반한 모델이고, 상기 제2 이미지 및 상기 전경 이미지 각각에 대한 특징 벡터는, 상기 제2 이미지 및 상기 전경 이미지 각각에 대해 상기 복수의 컨볼루션 레이어 중 사전 설정된 레이어에서 출력되는 벡터일 수 있다.
상기 제2 학습부는, 슬라이딩 윈도우(sliding window)를 이용하여 상기 제2 이미지와 상기 배경 이미지 각각에서 하나 이상의 이미지 패치(image patch)를 추출하고, 상기 하나 이상의 손실은, 상기 배경 이미지의 특정 영역에서 추출된 이미지 패치와 상기 특정 영역에 대한 상기 제2 이미지의 대응 영역에서 추출된 이미지 패치 사이의 차이에 기초한 손실을 포함할 수 있다.
상기 대응 영역에서 추출된 이미지 패치는, 상기 제2 이미지에서 상기 특정 영역과 동일한 위치의 영역이 배경 영역인 경우, 상기 동일한 위치의 영역에서 추출된 이미지 패치이고, 상기 제2 이미지에서 상기 특정 영역과 동일한 위치의 영역이 상기 객체 중 적어도 일부를 포함하는 영역인 경우, 상기 특정 영역과 가장 가까운 배경 영역에서 추출된 이미지 패치일 수 있다.
상기 제2 학습부는, 가짜 이미지(fake image)를 판별하기 위한 판별기(discriminator)를 이용하여 상기 제2 이미지 및 상기 제2 이미지에 대한 추정 이미지 각각에 대한 판별 결과를 생성하고, 상기 하나 이상의 손실은, 상기 제2 이미지 및 상기 추정 이미지 각각에 대한 상기 판별 결과에 기초한 손실을 포함할 수 있다.
개시되는 실시예들에 따르면, 폐색된 이미지의 복원을 위해 객체에 대한 3차원 정보를 많이 가지고 있는 텍스처 맵을 이용하도록 함으로써, 객체에 대한 보다 많은 정보를 기반으로 종래 기술에 비해 디테일하고 사실적인 이미지 복원이 가능케 할 수 있다.
도 1은 일 실시예에 따른 이미지 복원 모델 학습 장치의 구성도
도 2는 일 실시예에 따른 제1 생성 모델 학습 과정을 예시적으로 설명하기 위한 도면
도 3은 일 실시예에 따른 제2 생성 모델을 이용한 제2 이미지에 대한 추정 이미지 생성 과정을 나타낸 도면
도 4 및 도 5는 일 실시예에 따른 이미지 패치 추출을 예시적으로 설명하기 위한 도면
도 6은 일 실시예에 따른 이미지 복원 모델 학습 방법의 순서도
도 7은 일 실시예에 따른 제2 생성 모델 학습 과정을 나타낸 순서도
도 8은 일 실시예에 따른 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.
도 1은 일 실시예에 따른 이미지 복원 모델 학습 장치의 구성도이다.
도 1을 참조하면, 일 실시예에 따른 이미지 복원 모델 학습 장치(100)는 제1 학습부(110), 텍스처 맵 생성부(120) 및 제2 학습부(130)를 포함한다.
일 실시예에 따르면, 제1 학습부(110), 텍스처 맵 생성부(120) 및 제2 학습부(130)는 각각 물리적으로 구분된 하나 이상의 장치를 이용하여 구현되거나, 하나 이상의 하드웨어 프로세서 또는 하나 이상의 하드웨어 프로세서 및 소프트웨어의 결합에 의해 구현될 수 있으며, 도시된 예와 달리 구체적 동작에 있어 명확히 구분되지 않을 수 있다.
이미지 복원 모델 학습 장치(100)는 이미지 내에 포함된 객체의 일부분이 폐색(occlude)된 부분 폐색 이미지(partially occluded image)에서 폐색된 부분을 복원하기 위한 이미지 복원 모델을 학습하기 위한 장치이다. 이때, 이미지 내에 포함된 객체의 일부분이 폐색되었다는 것은 이미지 손상, 노이즈 부가, 텍스트 합성 등으로 인해 이미지 내에 표시된 객체의 일부분이 유실되거나 가려져 표시되지 않는 것을 의미할 수 있다.
한편, 이미지 내에 포함된 객체는 예를 들어, 사람, 동물 등과 같은 피사체일 수 있으나 반드시 특정한 객체로 한정되는 것은 아니며 실시예에 따라 변경될 수 있다.
제1 학습부(110)는 제1 이미지를 이용하여 제1 이미지에 포함된 제1 객체의 일부가 폐색된 제1 부분 폐색 이미지를 생성한다.
이때, 일 실시예에 따르면 제1 이미지는 사전 수집된 이미지 집합에서 선택된 이미지일 수 있다.
일 실시예에 따르면, 제1 학습부(110)는 제1 이미지에서 제1 객체가 표시된 영역의 일부를 선택한 후 제1 이미지에서 선택되지 않은 나머지 영역을 랜덤 노이즈로 채우거나, 선택된 영역을 삭제하는 방식으로 제1 부분 폐색 이미지를 생성할 수 있다. 그러나, 제1 부분 폐색 이미지를 생성하는 방식은 반드시 특정한 방식으로 한정되는 것은 아니므로, 제1 학습부(110)는 상술한 방식 외에도 다양한 방식을 이용하여 제1 부분 폐색 이미지를 생성할 수 있다.
한편, 제1 학습부(110)는 제1 객체에 대응하는 3차원 모델에 기초하여 생성된 텍스처 맵(texture map)을 정답(ground truth)(이하, 정답 텍스처 맵)으로 이용하여, 제1 부분 폐색 이미지로부터 제1 객체에 대한 추정 텍스처 맵을 생성하도록 제1 생성 모델을 학습한다.
이때, 텍스처 맵은 예를 들어, UV 텍스처 맵과 같이 3차원 객체의 표면 속성(예를 들어, 색상, 요철 등)을 대응하는 2차원 좌표 상에 표현한 2차원 이미지를 의미할 수 있다.
일 실시예에 따르면, 제1 학습부(110)는 입력된 2차원 이미지에 포함된 객체에 대응하는 3차원 모델을 생성하도록 사전 학습된 추출 모델을 이용하여 제1 이미지로부터 제1 객체에 대응하는 3차원 모델을 생성할 수 있다. 또한, 제1 학습부(110)는 생성된 3차원 모델로부터 제1 객체에 대한 정답 텍스처 맵을 생성할 수 있다.
이때, 일 실시예에 따르면, 사전 학습된 추출 모델은 예를 들어, CNN(Convolution Neural Network)과 같은 인공 신경망(Artificial Neural Network) 기반의 모델일 수 있다. 또한, 제1 학습부(110)는 예를 들어, UV 맵핑(UV mapping) 기술을 이용하여 3차원 모델로부터 제1 객체에 대한 정답 텍스처 맵을 생성할 수 있다. 그러나, 추출 모델의 종류 및 정답 텍스처 맵 생성 방식은 반드시 상술한 예에 한정되는 것은 아니며, 실시예에 따라 변경될 수 있다.
한편, 일 실시예에 따르면, 제1 생성 모델은 예를 들어, CNN와 같은 인공 신경망 기반의 모델일 수 있으며, 제1 학습부(110)는 정답 텍스처 맵과 제1 생성 모델이 제1 부분 폐색 이미지로부터 생성한 추정 텍스처 맵 사이의 차이에 기초한 손실(loss)을 이용하여 제1 생성 모델을 학습할 수 있다.
도 2는 일 실시예에 따른 제1 생성 모델 학습 과정을 예시적으로 설명하기 위한 도면이다.
도 2를 참조하면, 제1 학습부(110)는 제1 이미지(210)를 사전 학습된 추출 모델(220)로 입력하여 제1 이미지(210)에 포함된 제1 객체(211)에 대한 3차원 모델(230)을 생성할 수 있다.
또한, 제1 학습부(110)는 추출 모델(220)에 의해 생성된 3차원 모델(230)로부터 정답 텍스처 맵(240)을 추출할 수 있다. 이때, 정답 텍스처 맵(240)은 예를 들어 공지된 UV 맵핑 기술을 이용하여 추출될 수 있다.
이후, 제1 학습부(110)는 제1 이미지(210)로부터 제1 객체(211)의 일부분이 폐색된 제1 부분 폐색 이미지(250)를 생성한 후, 제1 부분 폐색 이미지(250)를 제1 생성 모델(260)로 입력하여 제1 객체(211)에 대한 추정 텍스처 맵(270)을 생성할 수 있다.
이후, 제1 학습부(110)는 정답 텍스처 맵(240)과 추정 텍스처 맵(270) 사이의 차이에 기초한 손실 L1을 산출하고, 산출된 손실 L1에 기초하여 제1 생성 모델(260)의 가중치를 갱신함으로써 제1 생성 모델(260)을 학습할 수 있다.
이때, 손실 L1은 예를 들어, 아래와 수학식 1을 통해 산출될 수 있다.
[수학식 1]
Figure pat00001
수학식 1에서, u는 정답 텍스처 맵(240),
Figure pat00002
는 추정 텍스처 맵(270)을 나타낸다.
다시 도 1을 참고하면, 텍스처 맵 생성부(120)는 제2 이미지를 이용하여 제2 이미지에 포함된 제2 객체의 일부가 폐색된 제2 부분 폐색 이미지를 생성한다. 또한, 텍스처 맵 생성부(120)는 제1 학습부(110)에 의해 학습된 제1 생성 모델을 이용하여 제2 부분 폐색 이미지로부터 제2 객체에 대한 텍스처 맵을 생성한다.
이때, 제2 이미지는 제1 이미지가 포함된 이미지 집합과 동일한 이미지 집합에 포함된 이미지일 수 있으며, 실시예에 따라 제1 이미지와 동일한 이미지일 수 있다. 그러나, 반드시 이에 한정되는 것은 아니며, 실시예에 따라 제2 이미지는 제1 이미지가 포함된 이미지 집합과 상이한 이미지 집합에 포함된 이미지이거나, 제1 이미지가 포함된 이미지 집합과 동일한 이미지 집합에 포함된 제1 이미지와 상이한 이미지일 수 있다.
한편, 제2 부분 폐색 이미지는 제1 부분 폐색 이미지와 동일한 방식으로 생성될 수 있다.
제2 학습부(130)는 텍스처 맵 생성부(120)에 의해 생성된 제2 부분 폐색 이미지 및 제2 객체에 대한 텍스처 맵을 이용하여 제2 생성 모델에 대한 입력 이미지를 생성한다. 또한, 제2 학습부(130)는 제2 이미지를 정답으로 이용하여, 입력 이미지로부터 제2 이미지에 대한 추정 이미지를 생성하도록 제2 생성 모델을 학습한다.
도 3은 일 실시예에 따른 제2 생성 모델을 이용한 제2 이미지에 대한 추정 이미지 생성 과정을 나타낸 도면이다.
도 3을 참조하면, 일 실시예에 따른 제2 생성 모델(310)은 CNN와 같은 인공 신경망 기반의 모델일 수 있으며, 특징 벡터 생성부(311), 전경 생성부(312), 배경 생성부(313) 및 합성부(314)를 포함할 수 있다.
특징 벡터 생성부(310)는 제2 생성 모델(310)로 입력되는 입력 이미지에 대한 특징 벡터(324)를 생성할 수 있다. 이때, 일 실시예에 따르면 입력 이미지는 제2 이미지로부터 생성된 제2 부분 폐색 이미지(321) 및 학습된 제1 생성 모델을 이용하여 제2 부분 폐색 이미지(321)로부터 생성된 추정 텍스처 맵(322, 323)을 연결(concatenate)하여 생성된 이미지일 수 있다.
한편, 특징 벡터 생성부(310)에 의해 생성되는 특징 벡터(324)는 사전 설정된 크기의 벡터일 수 있으며, 전경 생성부(312)는 특징 벡터(324)의 제1 부분을 이용하여 전경 이미지(325)를 생성하고, 배경 생성부(313)는 특징 벡터(325)의 제2 부분을 이용하여 배경 이미지(326)를 생성할 수 있다. 이때, 전경 이미지(325)는 예를 들어, 제2 이미지에 포함된 제2 객체에 대응하는 이미지일 수 있으며, 배경 이미지(326)는 예를 들어, 제2 이미지에 포함된 배경에 대응하는 이미지일 수 있다.
예를 들어, 특징 벡터(324)가 n(이때, n은 2≥n인 자연수)개의 성분(component)로 구성된 n차원의 벡터인 것으로 가정하면, 전경 생성부(312)는 특징 벡터(324)의 1번째 성분 내지 n/2번째 성분을 포함하는 벡터 Z1를 이용하여 전경 이미지(325) 생성하고, 배경 생성부(313)는 특징 벡터(324)의 n/2+1번째 성분 내지 n번째 성분을 포함하는 벡터 Z2를 이용하여 배경 이미지(326)를 생성할 수 있다.
한편, 합성부(314)는 전경 생성부(312)에 의해 생성된 전경 이미지(325)와 배경 생성부(313)에 의해 생성된 배경 이미지(326)를 합성하여 제2 이미지에 대한 추정 이미지(327)를 생성할 수 있다.
한편, 일 실시예에서, 특징 벡터 생성부(311)는 입력 이미지를 인코딩하여 입력 이미지에 대한 사전 설정된 크기의 특징 벡터를 생성하는 CNN 기반의 인코더(encoder)일 수 있으며, 전경 생성부(312) 및 배경 생성부(313)는 각각 입력되는 벡터를 디코딩하여 전경 이미지와 배경 이미지를 생성하는 CNN 기반의 디코더(decoder)일 수 있다. 또한, 일 실시예에 따르면, 인코더(311)와 배경 생성부(313)는 인코더와 디코더가 대칭적 구조를 가진 CNN 기반의 인코더-디코더 아키텍처 (예를 들어, U-Net, ResNet, DenseNet 등)로 구성될 수 있으며, 이 경우, 특징 벡터 생성부(311)를 구성하는 복수의 레이어 중 하나 이상의 레이어의 출력을 배경 생성부(313)를 구성하는 복수의 레이어 중 동일한 공간적 크기(spatial size)를 가지는 레이어로 제공함으로써, 배경 생성부(313)에서 배경 이미지(326)를 생성할 때 추가적인 정보로 활용하도록 할 수 있다.
한편, 일 실시예에 따르면, 제2 학습부(130)는 전경 이미지(325), 배경 이미지(326) 및 추정 이미지(327) 중 적어도 하나와 제2 이미지에 기초한 하나 이상의 손실를 이용하여 제2 생성 모델(310)을 학습할 수 있다.
구체적으로 일 실시예에 따르면, 제2 생성 모델(310)을 학습하기 위한 하나 이상의 손실은 제2 이미지와 제2 이미지에 대한 추정 이미지(327) 사이의 차이에 기초한 손실 L2를 포함할 수 있다.
이때, 손실 L2는 예를 들어, 아래의 수학식 2를 통해 산출될 수 있다.
[수학식 2]
Figure pat00003
수학식 2에서, x는 제2 이미지,
Figure pat00004
는 제2 생성 모델(310)에 의해 생성된 제2 이미지에 대한 추정 이미지(327)를 나타내며, 이하 동일한 의미로 이용된다.
한편, 일 실시예에 따르면, 제2 학습부(130)는 가짜 이미지(fake image)를 판별하기 위한 판별기(discriminator)를 이용하여 제2 이미지와 제2 이미지에 대한 추정 이미지(327) 각각에 대한 판별 결과를 생성할 수 있다. 이 경우, 제2 생성 모델(310)을 학습하기 위한 하나 이상의 손실은 제2 이미지와 제2 이미지에 대한 추정 이미지(327) 각각에 대한 판별기의 판별 결과에 기초한 손실 L3를 포함할 수 있다.
이때, 손실 L3는 예를 들어, 아래의 수학식 3을 통해 산출될 수 있다.
[수학식 3]
Figure pat00005
한편, 일 실시예에 따르면, 제2 학습부(130)는 사전 학습된 분할(segmentation) 모델을 이용하여 제2 이미지 및 전경 이미지(325) 각각에 대한 특징 벡터를 생성할 수 있다. 이 경우, 제2 생성 모델(310)을 학습하기 위한 하나 이상의 손실은 제2 이미지에 대한 특징 벡터 및 전경 이미지(325)에 대한 특징 벡터 사이의 차이에 기초한 손실 L4를 포함할 수 있다.
구체적으로, 분할 모델은 예를 들어, 입력된 이미지에 포함된 객체의 실루엣 정보를 추출하도록 학습된 CNN 기반의 모델일 수 있다. 또한, 제2 이미지 및 전경 이미지(325) 각각에 대한 특징 벡터는 제2 이미지 및 전경 이미지(325) 각각을 분할 모델로 입력하였을 때, 분할 모델에 포함된 복수의 컨볼루션 레이어 중 사전 설정된 레이어에서 출력되는 벡터일 수 있다. 이때 사전 설정된 레이어는 예를 들어, 복수의 컨볼루션 레이어 중 분할 모델의 입력 측으로부터 1/3 지점에 해당하는 레이어일 수 있으나 반드시 이에 한정되는 것은 아니며 실시예에 따라 변경될 수 있다.
한편, 손실 L4는 예를 들어, 아래의 수학식 4를 통해 산출될 수 있다.
[수학식 4]
Figure pat00006
수학식 4에서 yf는 전경 이미지(325), S(yf)는 분할 모델에 의해 생성된 전경 이미지(325)에 대한 특징 벡터, S(x)는 분할 모델에 의해 생성된 제2 이미지에 대한 특징 벡터를 나타낸다.
한편, 일 실시예에 따르면, 제2 학습부(130)는 슬라이딩 윈도우(sliding window)를 이용하여 제2 이미지와 배경 이미지(326) 각각에서 하나 이상의 이미지 패치(image patch)를 추출할 수 있다. 구체적으로, 제2 학습부(130)는 제2 이미지 및 배경 이미지(326) 각각에서 슬라이딩 윈도우를 이동시키면서 슬라이딩 윈도우에 의해 둘러 쌓인 영역에 해당하는 부분 이미지를 이미지 패치로 추출할 수 있다. 이때, 슬라이딩 윈도우의 크기, 이동 방향, 이동 간격은 사용자에 의해 사전 설정될 수 있으며, 실시예에 따라 변경될 수 있다.
한편, 일 실시예에 따르면, 제2 이미지와 배경 이미지(326) 각각에서 하나 이상의 이미지 패치가 추출된 경우, 제2 생성 모델(310)을 학습하기 위한 하나 이상의 손실은 배경 이미지(327)의 특정 영역에서 추출된 이미지 패치(image patch) 와 해당 특정 영역에 대한 제2 이미지의 대응 영역에서 추출된 이미지 패치 사이의 차이에 기초한 손실 L5를 포함할 수 있다.
이때, 제2 이미지에서 배경 이미지(327)의 특정 영역과 동일한 위치의 영역이 제2 객체를 포함하지 않은 배경 영역인 경우, 배경 이미지(327)의 특정 영역에 대한 제2 이미지의 대응 영역은 해당 동일한 위치의 영역을 의미할 수 있다. 반면, 배경 이미지(327)의 특정 영역과 동일한 위치의 영역이 제2 이미지 내의 제2 객체 중 적어도 일부를 포함하는 영역인 경우, 배경 이미지(327)의 특정 영역에 대한 제2 이미지의 대응 영역은 특정 영역과 가장 가까운 배경 영역을 의미할 수 있다.
이 경우, 손실 L5는 예를 들어, 아래의 수학식 5를 이용하여 산출될 수 있다.
[수학식 5]
Figure pat00007
수학식 5에서, yb는 배경 이미지(326), Pb는 배경 이미지(326)에서 추출된 이미지 패치, Px는 Pb가 추출된 영역과 동일한 위치의 제2 이미지 내 배경 영역에서 추출된 이미지 패치, Px'는 Pb가 추출된 영역과 동일한 위치에서 가장 가까운 제2 이미지내 배경 영역에서 추출된 이미지 패치를 의미한다.
도 4 및 도 5는 일 실시예에 따른 이미지 패치 추출을 예시적으로 설명하기 위한 도면이다.
도 4에 도시된 예를 참조하면, 배경 이미지(410)에서 이미지 패치(411)가 추출된 위치와 동일한 제2 이미지(420) 내 위치에서 추출된 이미지 패치(421)는 제2 객체(422)를 포함하지 않는다. 따라서, 제2 학습부(130)는 배경 이미지(410)와 제2 이미지(420) 각각에서 추출된 이미지 패치(411, 421) 사이의 차이를 손실 L5를 계산하기 위해 이용할 수 있다.
반면, 도 5에 도시된 예를 참조하면, 배경 이미지(410)에서 이미지 패치(412)가 추출된 위치와 동일한 제2 이미지(420) 내 위치에서 추출된 이미지 패치(423)가 제2 객체(422)의 일부를 포함하고 있다. 따라서, 이 경우, 제2 학습부(130)는 제2 이미지(420)에서 이미지 패치(423)와 가장 가까운 배경 영역에서 이미지 패치(424)를 추출한 후, 배경 이미지(410)에서 추출된 이미지 패치(412)와 제2 이미지(420)의 배경 영역에서 추출된 이미지 패치(424) 사이의 차이를 손실 L5를 계산하기 위해 이용할 수 있다.
도 6은 일 실시예에 따른 이미지 복원 모델 학습 방법의 순서도이다.
도 6에 도시된 방법은 예를 들어, 도 1에 도시된 이미지 복원 모델 학습 장치(100)에 의해 수행될 수 있다.
도 6을 참조하면, 이미지 복원 모델 학습 장치(100)는 제1 이미지를 이용하여 제1 이미지에 포함된 제1 객체의 일부가 폐색된 제1 부분 폐색 이미지를 생성한다(610).
이후, 이미지 복원 모델 학습 장치(100)는 제1 객체에 대응하는 3차원 모델에 기초하여 생성된 텍스처 맵을 정답으로 이용하여, 제1 부분 폐색 이미지로부터 제1 객체에 대한 추정 텍스처 맵을 생성하도록 제1 생성 모델을 학습한다(620).
이때, 일 실시예에 따르면, 이미지 복원 모델 학습 장치(100)는 입력된 2차원 이미지에 포함된 객체에 대응하는 3차원 모델을 생성하도록 사전 학습된 추출 모델을 이용하여 제1 이미지로부터 제1 객체에 대응하는 3차원 모델을 생성하고, 생성된 3차원 모델로부터 제1 객체에 대한 정답 텍스처 맵을 생성할 수 있다.
또한, 일 실시예에 따르면, 제1 객체에 대응하는 3차원 모델에 기초하여 생성된 정답 텍스처 맵과 제1 객체에 대한 추정 텍스처 맵 사이의 차이에 기초한 손실 L1을 이용하여 제1 생성 모델을 학습할 수 있다.
이후, 이미지 복원 모델 학습 장치(100)는 제2 이미지를 이용하여 제2 이미지에 포함된 제2 객체의 일부가 폐색된 제2 부분 폐색 이미지를 생성한다(630).
이후, 이미지 복원 모델 학습 장치(100)는 학습된 제1 생성 모델을 이용하여 제2 부분 폐색 이미지로부터 제2 객체에 대한 텍스처 맵을 생성한다(640).
이후, 이미지 복원 모델 학습 장치(100)는 제2 부분 폐색 이미지 및 제2 객체에 대한 텍스처 맵을 이용하여 제2 생성 모델에 대한 입력 이미지를 생성한다(650).
이후, 이미지 복원 모델 학습 장치(100)는 제2 이미지를 정답으로 이용하여, 입력 이미지로부터 제2 이미지에 대한 추정 이미지를 생성하도록 제2 생성 모델을 학습한다(660).
한편, 도 6에 도시된 순서도에서 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.
도 7은 일 실시예에 따른 제2 생성 모델 학습 과정을 나타낸 순서도이다.
도 7에 도시된 방법은 예를 들어, 도 1에 도시된 이미지 복원 모델 학습 장치(100)에 의해 도 6에 도시된 660 단계에서 수행될 수 있다.
도 7을 참조하면, 이미지 복원 모델 학습 장치(100)는 제2 생성 모델을 이용하여 입력 이미지로부터 전경 이미지, 배경 이미지 및 제2 이미지에 대한 추정 이미지를 생성한다(710).
이후, 이미지 복원 모델 학습 장치(100)는 전경 이미지, 배경 이미지 및 제2 이미지에 대한 추정 이미지 중 적어도 하나와 제2 이미지에 기초한 하나 이상의 손실을 이용하여 제2 생성 모델의 파라미터를 갱신함으로써 제2 생성 모델을 학습한다(720).
이때, 일 실시예에 따르면, 하나 이상의 손실은 제2 이미지와 제2 이미지에 대한 추정 이미지 사이의 차이에 기초한 손실 L2, 가짜 이미지를 판별하기 위한 판별기를 이용하여 생성된 제2 이미지 및 제2 이미지에 대한 추정 이미지 각각에 대한 판별 결과에 기초한 손실 L3, 사전 학습된 분할 모델을 이용하여 생성된 제2 이미지 및 전경 이미지 각각에 대한 특징 벡터 사이의 차이에 기초한 손실 L4 배경 이미지의 특정 영역에서 추출된 이미지 패치와 해당 특정 영역에 대한 제2 이미지의 대응 영역에서 추출된 이미지 패치 사이의 차이에 기초한 손실 L5 중 적어도 하나를 포함할 수 있다.
한편, 도 7에 도시된 순서도에서 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.
도 8은 일 실시예에 따른 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.
도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 컴퓨팅 장치(12)는 일 실시예에 따른 이미지 복원 모델 학습 장치(100)에 포함된 하나 이상의 컴포넌트일 수 있다.
컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.
통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.
컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.
이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 전술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
10: 컴퓨팅 환경
12: 컴퓨팅 장치
14: 프로세서
16: 컴퓨터 판독 가능 저장 매체
18: 통신 버스
20: 프로그램
22: 입출력 인터페이스
24: 입출력 장치
26: 네트워크 통신 인터페이스
100: 이미지 복원 모델 학습 장치
110: 제1 학습부
120: 텍스처 맵 생성부
130: 제2 학습부
220: 추출 모델
260: 제1 생성 모델
310: 제2 생성 모델
311: 특징 벡터 생성부
312: 전경 생성부
313: 배경 생성부
314: 합성부

Claims (22)

  1. 제1 이미지를 이용하여 상기 제1 이미지에 포함된 제1 객체의 일부가 폐색(occlusion)된 제1 부분 폐색 이미지를 생성하는 단계;
    상기 제1 객체에 대응하는 3차원 모델에 기초하여 생성된 텍스처 맵(texture map)을 정답(ground truth)으로 이용하여, 상기 제1 부분 폐색 이미지로부터 상기 제1 객체에 대한 추정 텍스처 맵을 생성하도록 제1 생성 모델을 학습하는 단계;
    제2 이미지를 이용하여 상기 제2 이미지에 포함된 제2 객체의 일부가 폐색된 제2 부분 폐색 이미지를 생성하는 단계;
    상기 학습된 제1 생성 모델을 이용하여, 상기 제2 부분 폐색 이미지로부터 상기 제2 객체에 대한 텍스처 맵을 생성하는 단계;
    상기 제2 부분 폐색 이미지 및 상기 제2 객체에 대한 텍스처 맵을 이용하여 제2 생성 모델에 대한 입력 이미지를 생성하는 단계; 및
    상기 제2 이미지를 정답으로 이용하여, 상기 입력 이미지로부터 상기 제2 이미지에 대한 추정 이미지를 생성하도록 상기 제2 생성 모델을 학습하는 단계를 포함하는, 이미지 복원 모델 학습 방법.
  2. 청구항 1에 있어서,
    상기 제1 생성 모델을 학습하는 단계는, 입력된 2차원 이미지에 포함된 객체에 대응하는 3차원 모델을 생성하도록 사전 학습된 추출 모델을 이용하여 상기 제1 이미지로부터 상기 제1 객체에 대응하는 3차원 모델을 생성하는 단계; 및
    상기 생성된 3차원 모델로부터 상기 제1 객체에 대한 텍스처 맵을 생성하는 단계를 포함하는, 이미지 복원 모델 학습 방법.
  3. 청구항 1에 있어서,
    상기 제1 생성 모델을 학습하는 단계는, 상기 3차원 모델에 기초하여 생성된 텍스처 맵과 상기 추정 텍스처 맵 사이의 차이에 기초한 손실을 이용하여 상기 제1 생성 모델을 학습하는, 이미지 복원을 위한 모델 학습 방법.
  4. 청구항 1에 있어서,
    상기 제2 생성 모델은, 상기 입력 이미지에 대한 특징 벡터를 생성하는 특징 벡터 생성부;
    상기 특징 벡터의 제1 부분을 이용하여 전경 이미지를 생성하는 전경 생성부;
    상기 특징 벡터의 제2 부분을 이용하여 배경 이미지를 생성하는 배경 생성부; 및
    상기 전경 이미지와 상기 배경 이미지를 이용하여 상기 제2 이미지에 대한 추정 이미지를 생성하는 합성부를 포함하는, 이미지 복원 모델 학습 방법.
  5. 청구항 4에 있어서,
    상기 제2 생성 모델을 학습하는 단계는, 상기 제2 생성 모델을 이용하여 상기 입력 이미지로부터 상기 전경 이미지, 상기 배경 이미지 및 상기 제2 이미지에 대한 추정 이미지를 생성하는 단계; 및
    상기 전경 이미지, 상기 배경 이미지 및 상기 제2 이미지에 대한 추정 이미지 중 적어도 하나와 상기 제2 이미지에 기초한 하나 이상의 손실을 이용하여 상기 제2 생성 모델을 학습하는 단계를 포함하는, 이미지 복원 모델 학습 방법.
  6. 청구항 5에 있어서,
    상기 하나 이상의 손실은, 상기 제2 이미지와 상기 제2 이미지에 대한 추정 이미지 사이의 차이에 기초한 손실을 포함하는, 이미지 복원 모델 학습 방법.
  7. 청구항 5에 있어서,
    상기 하나 이상의 손실을 이용하여 상기 제2 생성 모델을 학습하는 단계는,
    사전 학습된 분할(segmentation) 모델을 이용하여 상기 제2 이미지 및 상기 전경 이미지 각각에 대한 특징 벡터를 생성하는 단계를 포함하고,
    상기 하나 이상의 손실은,
    상기 제2 이미지에 대한 특징 벡터 및 상기 전경 이미지에 대한 특징 벡터 사이의 차이에 기초한 손실을 포함하는, 이미지 복원 모델 학습 방법.
  8. 청구항 7에 있어서,
    상기 분할 모델은, 복수의 컨볼루션 레이어(convolution layer)를 포함하는 CNN(Convolutional Neural Network)에 기반한 모델이고,
    상기 제2 이미지 및 상기 전경 이미지 각각에 대한 특징 벡터는, 상기 제2 이미지 및 상기 전경 이미지 각각에 대해 상기 복수의 컨볼루션 레이어 중 사전 설정된 레이어에서 출력되는 벡터인, 이미지 복원 모델 학습 방법.
  9. 청구항 5에 있어서,
    상기 하나 이상의 손실을 이용하여 상기 제2 생성 모델을 학습하는 단계는,
    슬라이딩 윈도우(sliding window)를 이용하여 상기 제2 이미지와 상기 배경 이미지 각각에서 하나 이상의 이미지 패치(image patch)를 추출하는 단계를 포함하고,
    상기 하나 이상의 손실은,
    상기 배경 이미지의 특정 영역에서 추출된 이미지 패치와 상기 특정 영역에 대한 상기 제2 이미지의 대응 영역에서 추출된 이미지 패치 사이의 차이에 기초한 손실을 포함하는, 이미지 복원 모델 학습 방법.
  10. 청구항 9에 있어서,
    상기 대응 영역에서 추출된 이미지 패치는,
    상기 제2 이미지에서 상기 특정 영역과 동일한 위치의 영역이 배경 영역인 경우, 상기 동일한 위치의 영역에서 추출된 이미지 패치이고,
    상기 제2 이미지에서 상기 특정 영역과 동일한 위치의 영역이 상기 객체 중 적어도 일부를 포함하는 영역인 경우, 상기 특정 영역과 가장 가까운 배경 영역에서 추출된 이미지 패치인, 이미지 복원 모델 학습 방법.
  11. 청구항 5에 있어서,
    상기 하나 이상의 손실을 이용하여 상기 제2 생성 모델을 학습하는 단계는,
    가짜 이미지(fake image)를 판별하기 위한 판별기(discriminator)를 이용하여 상기 제2 이미지 및 상기 제2 이미지에 대한 추정 이미지 각각에 대한 판별 결과를 생성하는 단계를 포함하고,
    상기 하나 이상의 손실은,
    상기 제2 이미지 및 상기 추정 이미지 각각에 대한 상기 판별 결과에 기초한 손실을 포함하는, 이미지 복원 모델 학습 방법.
  12. 제1 이미지를 이용하여 상기 제1 이미지에 포함된 제1 객체의 일부가 폐색(occlusion)된 제1 부분 폐색 이미지를 생성하고, 상기 제1 객체에 대응하는 3차원 모델에 기초하여 생성된 텍스처 맵(texture map)을 정답(ground truth)으로 이용하여, 상기 제1 부분 폐색 이미지로부터 상기 제1 객체에 대한 추정 텍스처 맵을 생성하도록 제1 생성 모델을 학습하는 제1 학습부;
    제2 이미지를 이용하여 상기 제2 이미지에 포함된 제2 객체의 일부가 폐색된 제2 부분 폐색 이미지를 생성하고, 상기 학습된 제1 생성 모델을 이용하여, 상기 제2 부분 폐색 이미지로부터 상기 제2 객체에 대한 텍스처 맵을 생성하는 텍스처 맵 생성부; 및
    상기 제2 부분 폐색 이미지 및 상기 제2 객체에 대한 텍스처 맵을 이용하여 제2 생성 모델에 대한 입력 이미지를 생성하고, 상기 제2 이미지를 정답으로 이용하여, 상기 입력 이미지로부터 상기 제2 이미지에 대한 추정 이미지를 생성하도록 상기 제2 생성 모델을 학습하는 제2 학습부를 포함하는, 이미지 복원 모델 학습 장치.
  13. 청구항 12에 있어서,
    상기 제1 학습부는, 입력된 2차원 이미지에 포함된 객체에 대응하는 3차원 모델을 생성하도록 사전 학습된 추출 모델을 이용하여 상기 제1 이미지로부터 상기 제1 객체에 대응하는 3차원 모델을 생성하고, 상기 생성된 3차원 모델로부터 상기 제1 객체에 대한 텍스처 맵을 생성하는, 이미지 복원 모델 학습 장치.
  14. 청구항 12에 있어서,
    상기 제1 학습부는, 상기 3차원 모델에 기초하여 생성된 텍스처 맵과 상기 추정 텍스처 맵 사이의 차이에 기초한 손실을 이용하여 상기 제1 생성 모델을 학습하는, 이미지 복원 모델 학습 장치.
  15. 청구항 12에 있어서,
    상기 제2 생성 모델은, 상기 입력 이미지에 대한 특징 벡터를 생성하는 특징 벡터 생성부;
    상기 특징 벡터의 제1 부분을 이용하여 전경 이미지를 생성하는 전경 생성부;
    상기 특징 벡터의 제2 부분을 이용하여 배경 이미지를 생성하는 배경 생성부; 및
    상기 전경 이미지와 상기 배경 이미지를 이용하여 상기 제2 이미지에 대한 추정 이미지를 생성하는 합성부를 포함하는, 이미지 복원 모델 학습 장치.
  16. 청구항 15에 있어서,
    상기 제2 학습부는, 상기 제2 생성 모델을 이용하여 상기 입력 이미지로부터 상기 전경 이미지, 상기 배경 이미지 및 상기 제2 이미지에 대한 추정 이미지를 생성하고, 상기 전경 이미지, 상기 배경 이미지 및 상기 제2 이미지에 대한 추정 이미지 중 적어도 하나와 상기 제2 이미지에 기초한 하나 이상의 손실을 이용하여 상기 제2 생성 모델을 학습하는, 이미지 복원 모델 학습 장치.
  17. 청구항 16에 있어서,
    상기 하나 이상의 손실은, 상기 제2 이미지와 상기 제2 이미지에 대한 추정 이미지 사이의 차이에 기초한 손실을 포함하는, 이미지 복원 모델 학습 장치.
  18. 청구항 16에 있어서,
    상기 제2 학습부는,
    사전 학습된 분할(segmentation) 모델을 이용하여 상기 제2 이미지 및 상기 전경 이미지 각각에 대한 특징 벡터를 생성하고,
    상기 하나 이상의 손실은,
    상기 제2 이미지에 대한 특징 벡터 및 상기 전경 이미지에 대한 특징 벡터 사이의 차이에 기초한 손실을 포함하는, 이미지 복원 모델 학습 장치.
  19. 청구항 18에 있어서,
    상기 분할 모델은, 복수의 컨볼루션 레이어(convolution layer)를 포함하는 CNN(Convolutional Neural Network)에 기반한 모델이고,
    상기 제2 이미지 및 상기 전경 이미지 각각에 대한 특징 벡터는, 상기 제2 이미지 및 상기 전경 이미지 각각에 대해 상기 복수의 컨볼루션 레이어 중 사전 설정된 레이어에서 출력되는 벡터인, 이미지 복원 모델 학습 장치.
  20. 청구항 16에 있어서,
    상기 제2 학습부는,
    슬라이딩 윈도우(sliding window)를 이용하여 상기 제2 이미지와 상기 배경 이미지 각각에서 하나 이상의 이미지 패치(image patch)를 추출하고,
    상기 하나 이상의 손실은,
    상기 배경 이미지의 특정 영역에서 추출된 이미지 패치와 상기 특정 영역에 대한 상기 제2 이미지의 대응 영역에서 추출된 이미지 패치 사이의 차이에 기초한 손실을 포함하는, 이미지 복원 모델 학습 장치.
  21. 청구항 20에 있어서,
    상기 대응 영역에서 추출된 이미지 패치는,
    상기 제2 이미지에서 상기 특정 영역과 동일한 위치의 영역이 배경 영역인 경우, 상기 동일한 위치의 영역에서 추출된 이미지 패치이고,
    상기 제2 이미지에서 상기 특정 영역과 동일한 위치의 영역이 상기 객체 중 적어도 일부를 포함하는 영역인 경우, 상기 특정 영역과 가장 가까운 배경 영역에서 추출된 이미지 패치인, 이미지 복원 모델 학습 장치.
  22. 청구항 16에 있어서,
    상기 제2 학습부는,
    가짜 이미지(fake image)를 판별하기 위한 판별기(discriminator)를 이용하여 상기 제2 이미지 및 상기 제2 이미지에 대한 추정 이미지 각각에 대한 판별 결과를 생성하고,
    상기 하나 이상의 손실은,
    상기 제2 이미지 및 상기 추정 이미지 각각에 대한 상기 판별 결과에 기초한 손실을 포함하는, 이미지 복원 모델 학습 장치.
KR1020210118807A 2021-09-07 2021-09-07 이미지 복원 모델 학습 방법 및 장치 KR20230036213A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210118807A KR20230036213A (ko) 2021-09-07 2021-09-07 이미지 복원 모델 학습 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210118807A KR20230036213A (ko) 2021-09-07 2021-09-07 이미지 복원 모델 학습 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20230036213A true KR20230036213A (ko) 2023-03-14

Family

ID=85502797

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210118807A KR20230036213A (ko) 2021-09-07 2021-09-07 이미지 복원 모델 학습 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20230036213A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160112666A (ko) 2015-03-20 2016-09-28 현대자동차주식회사 차량용 헤드 유닛, 그 제어 방법 및 이종 기기 간 송수신 동기화 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160112666A (ko) 2015-03-20 2016-09-28 현대자동차주식회사 차량용 헤드 유닛, 그 제어 방법 및 이종 기기 간 송수신 동기화 시스템

Similar Documents

Publication Publication Date Title
CN110084874B (zh) 对于三维模型的图像风格迁移
AU2020200811B2 (en) Direct meshing from multiview input using deep learning
JP7403528B2 (ja) シーンの色及び深度の情報を再構成するための方法及びシステム
US20210074052A1 (en) Three-dimensional (3d) rendering method and apparatus
CN111598998A (zh) 三维虚拟模型重建方法、装置、计算机设备和存储介质
CN108491848B (zh) 基于深度信息的图像显著性检测方法和装置
Lee et al. Real-time depth estimation using recurrent CNN with sparse depth cues for SLAM system
EP3326156B1 (en) Consistent tessellation via topology-aware surface tracking
KR102287407B1 (ko) 이미지 생성을 위한 학습 장치 및 방법과 이미지 생성 장치 및 방법
CN112862807A (zh) 基于头发图像的数据处理方法及装置
US20230012372A1 (en) Methods and systems for generating three dimensional (3d) models of objects
CN115239861A (zh) 人脸数据增强方法、装置、计算机设备和存储介质
CN117372604B (zh) 一种3d人脸模型生成方法、装置、设备及可读存储介质
Pesavento et al. Super-resolution 3d human shape from a single low-resolution image
CN112613460A (zh) 人脸生成模型的建立方法和人脸生成方法
KR20230036213A (ko) 이미지 복원 모델 학습 방법 및 장치
JP7452698B2 (ja) 画像間の空間的関係をラベリングする強化学習モデル
Zuo et al. Explicit modeling on depth-color inconsistency for color-guided depth up-sampling
KR20230036543A (ko) 딥러닝 기반 단안 rgb 이미지 3차원 장면 복원 방법 및 장치
CN112990123B (zh) 图像处理方法、装置、计算机设备和介质
CN115880766A (zh) 姿态迁移、姿态迁移模型训练方法、装置和存储介质
KR101821065B1 (ko) 3차원 기하 표현 방법 및 장치
CN112989304A (zh) 用户认证设备、用户认证方法和用于用户认证的训练方法
CN114174854A (zh) 飞行时间深度增强
KR20210001005A (ko) 깊이 지도 생성 방법, 깊이 지도 생성 장치, 영상 변환 방법 및 영상 변환 장치