KR20220064045A - 영상을 생성하는 방법 및 장치와 영상 생성을 위한 신경망을 트레이닝하는 방법 - Google Patents

영상을 생성하는 방법 및 장치와 영상 생성을 위한 신경망을 트레이닝하는 방법 Download PDF

Info

Publication number
KR20220064045A
KR20220064045A KR1020200150120A KR20200150120A KR20220064045A KR 20220064045 A KR20220064045 A KR 20220064045A KR 1020200150120 A KR1020200150120 A KR 1020200150120A KR 20200150120 A KR20200150120 A KR 20200150120A KR 20220064045 A KR20220064045 A KR 20220064045A
Authority
KR
South Korea
Prior art keywords
image
information
neural network
generating
training
Prior art date
Application number
KR1020200150120A
Other languages
English (en)
Inventor
손민정
장현성
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020200150120A priority Critical patent/KR20220064045A/ko
Priority to US17/202,899 priority patent/US11887269B2/en
Publication of KR20220064045A publication Critical patent/KR20220064045A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

일 실시예에 따른 영상을 생성하는 방법 및 장치는 컨디셔널 정보 및 영상 정보를 포함하는 입력 데이터를 수신하고, 영상 정보에 포함된 기하학적 정보를 유지하면서 컨디셔널 정보에 따라 영상 정보를 변환하는 영상 생성 신경망에 입력 데이터를 인가함으로써 합성 영상을 생성하여 출력한다.

Description

영상을 생성하는 방법 및 장치와 영상 생성을 위한 신경망을 트레이닝하는 방법{METHOD AND APPARATUS OF GENERATING IMAGE, AND METHOD OF TRAINING ARTIFICIAL NEURAL NETWORK FOR IMAGE GENERATION}
아래의 실시예들은 영상을 생성하는 방법 및 장치와 영상 생성을 위한 신경망을 트레이닝하는 방법에 관한 것이다.
신경망의 발전에 따라 사람의 얼굴이나 자연과 같이 상대적으로 불규칙하고 다양한 구조적 변화(Structural Variation)가 존재하는 대상에 대해 실제와 구분하기 어려울 정도로 유사한 영상을 생성하는 다양한 방법들이 개발되고 있다.
하지만, 예를 들어, 실내나 도시 경관처럼 구조가 일정 부분 제약되는 대상에 대한 영상을 생성하는 경우, 현재의 변환 방법들에 의하면 생성하고자 하는 장면(scene)의 생성 시에 3차원 구조(3D geometry)를 충분히 고려하기 어려우므로 영역 내의 직선이나 관점(perspective)이 잘 맞지 않는 영상이 생성될 수 있다. 이러한 경우, 사용자는 생성된 영상이 가짜 영상(fake image)이라는 것을 용이하게 발견할 수 있다. 특히, 입력 영상이 직선이 두드러지는 인공물을 포함하는 경우, 원근 시점(perspective view)에 따른 소실점(vanishing point)들이 쉽게 정의되고 눈에 띄므로 생성된 영상이 가짜 영상임을 사용자가 용이하게 파악할 수 있다.
위에서 설명한 배경기술은 발명자가 본원의 개시 내용을 도출하는 과정에서 보유하거나 습득한 것으로서, 반드시 본 출원 전에 일반 공중에 공개된 공지기술이라고 할 수는 없다.
일 실시예에 따르면, 영상을 생성하는 방법은 컨디셔널 정보 및 영상 정보를 포함하는 입력 데이터를 수신하는 단계; 상기 영상 정보에 포함된 기하학적 정보를 유지하면서, 상기 컨디셔널 정보에 따라 상기 영상 정보를 변환하는 영상 생성 신경망에 상기 입력 데이터를 인가함으로써, 합성 영상을 생성하는 단계; 및 상기 합성 영상을 출력하는 단계를 포함한다.
상기 영상을 생성하는 방법은 상기 컨디셔널 정보에 대응하는 깊이 정보를 수신하는 단계 및 상기 깊이 정보로부터 특징 정보를 추출하는 단계를 더 포함하고, 상기 합성 영상을 생성하는 단계는 상기 영상 정보에 포함된 기하학적 정보를 유지하면서, 상기 컨디셔널 정보에 따라 상기 영상 정보를 변환하는 영상 생성 신경망에 상기 입력 데이터 및 상기 특징 정보를 인가함으로써 상기 합성 영상을 생성하는 단계를 포함할 수 있다.
상기 영상 생성 신경망은 상기 컨디셔널 정보의 변환 관계에 기초하여 변환된 상기 컨디셔널 정보에 대응하는 제1 합성 영상과, 상기 컨디셔널 정보에 대응하는 깊이 정보에 기초하여 변환된 상기 컨디셔널 정보에 대응하는 제2 합성 영상 간의 비교 결과에 기초하여 생성된 제1 로스에 의해 트레이닝될 수 있다.
상기 컨디셔널 정보는 시맨틱(semantic) 정보, 에지(edge) 정보, 및 골격 구조(skeleton) 정보 중 적어도 하나의 구조 정보(structure information)를 포함할 수 있다.
일 실시예에 따르면, 신경망을 트레이닝하는 방법은 컨디셔널 정보 및 영상 정보를 포함하는 트레이닝 데이터를 수신하는 단계; 상기 컨디셔널 정보에 대응하는 깊이 정보를 수신하는 단계; 상기 영상 정보를 기초로 영상 생성 신경망에 의해 상기 컨디셔널 정보에 대응하는 제1 합성 영상(synthesized image)을 생성하는 단계; 상기 깊이 정보에 기초하여 상기 컨디셔널 정보를 변환하는 단계; 상기 영상 정보를 기초로 상기 영상 생성 신경망에 의해 상기 변환된 컨디셔널 정보에 대응하는 제2 합성 영상을 생성하는 단계; 및 상기 컨디셔널 정보의 변환 관계에 기초하여 상기 제1 합성 영상과 상기 제2 합성 영상을 비교함으로써, 상기 영상 생성 신경망을 트레이닝하는 단계를 포함한다.
상기 영상 생성 신경망을 트레이닝하는 단계는 상기 컨디셔널 정보의 변환 관계에 기초하여 상기 제1 합성 영상을 변환하는 단계; 및 상기 변환한 제1 합성 영상과 상기 제2 합성 영상 간의 비교 결과에 따른 제1 차이를 기초로, 상기 영상 생성 신경망을 트레이닝하기 위한 제1 로스(loss)를 생성하는 단계를 포함할 수 있다.
상기 제1 로스를 생성하는 단계는 상기 제1 차이를 기초로, 상기 변환한 제1 합성 영상과 상기 제2 합성 영상 간의 기하학적 일관성(Geometry Consistency)이 유지되도록 상기 제1 로스를 생성하는 단계를 포함할 수 있다.
상기 영상 생성 신경망을 트레이닝하는 단계는 상기 컨디셔널 정보의 변환 관계에 기초하여 상기 제2 합성 영상을 역변환하는 단계; 및 상기 역변환한 제2 합성 영상과 상기 제1 합성 영상 간의 비교 결과에 따른 제2 차이를 기초로, 상기 영상 생성 신경망을 트레이닝하기 위한 제2 로스를 생성하는 단계를 포함할 수 있다.
상기 제2 로스를 생성하는 단계는 상기 제2 차이를 기초로, 상기 역변환한 제2 합성 영상과 상기 제1 합성 영상 간의 기하학적 일관성이 유지되도록 상기 제2 로스를 생성하는 단계를 포함할 수 있다.
상기 컨디셔널 정보를 변환하는 단계는 상기 깊이 정보에 기초한 변환 관계에 의해 상기 트레이닝 데이터를 3차원 공간으로 언-프로젝션(un-projection)하는 단계; 및 상기 언-프로젝션된 트레이닝 데이터를 임의의 시점(view point)으로 투영함으로써 상기 컨디셔널 정보를 변환하는 단계를 포함할 수 있다.
상기 컨디셔널 정보는 시맨틱(semantic) 정보, 에지(edge) 정보, 및 골격 구조(skeleton) 정보 중 적어도 하나의 구조 정보(structure information)를 포함할 수 있다.
상기 신경망을 트레이닝하는 방법은 상기 컨디셔널 정보로부터 제1 기하 특징을 추출하는 단계; 및 상기 제1 합성 영상으로부터 제2 기하 특징을 추출하는 단계를 더 포함하고, 상기 영상 생성 신경망을 트레이닝하는 단계는 상기 제1 기하 특징과 상기 제2 기하 특징 간의 차이를 기초로, 상기 영상 생성 신경망을 트레이닝하기 위한 제3 로스를 생성하는 단계를 포함할 수 있다.
상기 신경망을 트레이닝하는 방법은 상기 변환된 컨디셔널 정보로부터 제3 기하 특징을 추출하는 단계; 및 상기 제2 합성 영상으로부터 제4 기하 특징을 추출하는 단계를 더 포함하고, 상기 영상 생성 신경망을 트레이닝하는 단계는 상기 제3 기하 특징과 상기 제4 기하 특징 간의 차이를 기초로, 상기 영상 생성 신경망을 트레이닝하기 위한 제4 로스를 생성하는 단계를 포함할 수 있다.
상기 신경망을 트레이닝하는 방법은 상기 깊이 정보에 기초하여 상기 제1 합성 영상으로부터 추출한 제2 기하 특징을 변환하는 단계를 더 포함하고, 상기 영상 생성 신경망을 트레이닝하는 단계는 상기 변환된 제2 기하 특징과 상기 제2 합성 영상으로부터 추출한 제4 기하 특징 간의 차이를 기초로, 상기 영상 생성 신경망을 트레이닝하기 위한 제5 로스를 생성하는 단계를 포함할 수 있다.
상기 신경망을 트레이닝하는 방법은 상기 깊이 정보로부터 깊이 특징 정보를 추출하는 단계를 더 포함하고, 상기 제1 합성 영상을 생성하는 단계는 상기 영상 생성 신경망에 의해 상기 컨디셔널 정보 및 상기 깊이 특징 정보에 대응하는 제1 합성 영상을 생성하는 단계를 포함할 수 있다.
상기 컨디셔널 정보를 변환하는 단계는 상기 깊이 정보에 기초하여 상기 컨디셔널 정보 및 상기 깊이 특징 정보를 변환하는 단계를 포함할 수 있다.
상기 제2 합성 영상을 생성하는 단계는 상기 영상 정보를 기초로 상기 영상 생성 신경망에 의해 상기 변환된 상기 컨디셔널 정보 및 상기 변환된 깊이 특징 정보에 대응하는 제2 합성 영상을 생성하는 단계를 포함할 수 있다.
상기 신경망을 트레이닝하는 방법은 상기 제1 합성 영상을 가짜 영상(fake image)으로 추정하도록 영상 구분 신경망을 트레이닝하는 단계; 상기 제2 합성 영상을 상기 가짜 영상으로 추정하도록 상기 영상 구분 신경망을 트레이닝하는 단계; 및 상기 영상 정보를 실제 영상(real image)으로 추정하도록 상기 영상 구분 신경망을 트레이닝하는 단계 중 적어도 하나를 더 포함할 수 있다.
일 실시예에 따르면, 영상을 생성하는 장치는 컨디셔널 정보 및 영상 정보를 포함하는 입력 데이터를 수신하는 통신 인터페이스; 상기 영상 정보에 포함된 기하학적 정보를 유지하면서, 상기 컨디셔널 정보에 따라 상기 영상 정보를 변환하는 영상 생성 신경망에 상기 입력 데이터를 인가함으로써, 합성 영상을 생성하는 프로세서; 및 상기 합성 영상을 출력하는 출력 장치를 포함할 수 있다.
도 1은 일 실시예에 따라 영상을 생성하는 원리를 설명하기 위한 도면.
도 2는 GAN(Generative Adversarial Network)을 트레이닝하는 방법을 설명하기 위한 도면.
도 3은 일 실시예에 따라 영상을 생성하는 방법을 나타낸 흐름도.
도 4는 일 실시예에 따라 영상을 생성하는 신경망을 트레이닝하는 방법을 나타낸 흐름도.
도 5는 일 실시예에 따른 깊이 정보에 기초하여 컨디셔널 정보를 변환하는 방법을 설명하기 위한 도면.
도 6, 도 8, 및 도 10 내지 도 12는 실시예들에 따라 영상을 생성하는 신경망을 트레이닝 방법을 설명하기 위한 도면들.
도 7, 도 9, 및 도 13은 실시예들에 따른 영상을 생성하는 장치들 및 신경망을 트레이닝하는 장치들의 구성을 도시한 도면들.
도 14는 일 실시예에 따른 합성 영상을 생성하는 장치의 블록도.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 구현될 수 있다. 따라서, 실제 구현되는 형태는 개시된 특정 실시예로만 한정되는 것이 아니며, 본 명세서의 범위는 실시예들로 설명한 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 일 실시예에 따라 영상을 생성하는 원리를 설명하기 위한 도면이다. 도 1을 참조하면, 일 실시예에 따른 영상 생성 신경망들(Generator; G)(110,150), 및 영상 구분 신경망들(Discriminator; D)(130, 170)이 도시된다.
도 1에서 점선으로 표시된 부분은 GAN(Generative Adversarial Network)의 기본적인 구조를 도시한 것이다. 트레이닝 기반의 영상-대-영상 변환(Image-to-Image Translation)은 입력 영상 x(101)을 변환하는 영상 생성 신경망(G)(110)를 트레이닝하는 것을 목적으로 한다. 이때, 영상 생성 신경망(110)는 영상 구분 신경망(D)(130)을 속이기 위해 트레이닝 데이터(예를 들어, 입력 영상 x(101))와 매우 유사한 수준의 가짜 영상을 생성하는 것을 목표로 한다. 영상 생성 신경망(110)는 영상 생성 신경망(110)에서 생성된 제1 합성 영상 G(x)(120)이 참이라고 영상 구분 신경망(130)를 속이도록 하는 적대적 로스(Adversarial Loss)을 이용하여 영상 생성 신경망(110)과 영상 구분 신경망(130)를 함께 트레이닝 함으로써 영상 생성 신경망(110)이 보다 사실적인 영상을 생성할 수 있도록 한다.
영상 구분 신경망(130)는 트레이닝 데이터의 실제 영상(real image)과 영상 생성 신경망(110)가 생성한 가짜 영상(fake image), 다시 말해 제1 합성 영상 G(x)(120)을 구분하는 것을 목표로 한다. GAN은 영상 구분 신경망(130)의 분별 능력을 높이는 한편, 영상 생성 신경망(110)이 영상 구분 신경망(130)을 잘 속이도록 영상 생성 신경망(110)와 영상 구분 신경망(130)를 함께 트레이닝시킬 수 있다. 이러한 트레이닝을 통해 궁극적으로 영상 생성 신경망(110)은 진짜 영상과 가짜 영상 간의 구분이 불가능한 수준의 가짜 영상을 생성해 낼 수 있게 되고, 아울러, 영상 구분 신경망(130)의 판별 능력이 또한 개선될 수 있다. GAN의 영상 생성 신경망(110)과 영상 구분 신경망(130)의 트레이닝 방법은 아래의 도 2를 참조하여 보다 구체적으로 설명한다.
일 실시예에서 이용하는 Conditional GAN의 경우, (x, y)(103)를 참(True)으로 판단하고, (x, G(x))를 거짓(False)으로 판단하도록 영상 구분 신경망(130, 170)을 트레이닝할 수 있다. 일 실시예에서는 도 1에 도시된 Conditional GAN의 구조를 기초로, 예를 들어, 신경망의 네트워크 구조나 적대적 로스의 정의, 추가적으로 고려되는 로스 등에는 다양한 구조로 네트워크를 구성할 수 있다.
일 실시예에서는 3차원 기하학적 일관성(Geometry Consistency)의 개념을 정의하여 영상 내의 기하학적 구조(geometry)가 유지(preserving) 되도록 영상을 변환할 수 있다. 여기서, '기하학적 일관성'은 영상의 변형 전과 변형 후의 기하학적 정보가 일관되게 유지되는 것으로 이해될 수 있다. 기하학적 정보는 예를 들어, 시맨틱(semantic) 정보, 에지(edge) 정보, 및 골격 구조(skeleton) 정보 등과 같은 구조 정보(structure information)를 포함할 수 있으며, 반드시 이에 한정되지는 않는다. 에지 정보는 입력 영상에 포함된 객체의 2차원 외형 정보에 해당하고, 골격 구조 정보는 입력 영상에 포함된 객체의 3차원 자세 정보에 해당할 수 있다.
일 실시예에서는 기하학적 일관성 개념에 더하여 깊이 정보를 추가적으로 이용한 로스(loss)(예를 들어, 기하학적 일관성 로스(Geometry Consistency Loss))를 활용하여 영상 내의 기하학적 구조가 유지되도록 영상을 변환할 수 있다. 이를 위해, 전술한 신경망의 트레이닝 시에 입력 영상 및 결과 영상에 추가적으로 깊이 정보를 포함하는 데이터를 이용할 수 있다. 하지만, 실제 영상의 변환 시에 깊이 정보를 사용할 수 없는 경우, 트레이닝 시에만 깊이 정보를 활용하고, 실제 영상 변환은 깊이 정보 없이 수행할 수도 있다.
예를 들어, 도 1에 도시된 것과 같이 임의의 입력 영상 x(101)에 대해 깊이 정보 d(105)가 주어질 경우, 해당 영상은 뷰 프러스텀의(View Frustum)을 고려하여 3 차원 공간으로 언-프로젝션(un-projection)될 수 있다. 3차원 공간으로 재투영된 영상은 임의의 시점(veiw point)으로 다시 투영(projection)되어 새로운 뷰(view)의 영상 T(x,d)(107)으로 변환될 수 있다. 일 실시예에 따른 트레이닝 장치는 3차원을 고려한 임의의 변환 정보(Transform information) T를 이용하여 입력 영상 x(101)를 새로운 뷰(view)의 영상 T(x,d)(107)으로 변환할 수 있다. 일 실시예에서는 전술한 변환을 '3차원 변환(3D Transform)'이라 부르고, T(x,d)로 표현할 수 있다.
트레이닝 장치는 새로운 뷰의 영상 T(x,d)(107)를 영상 생성 신경망(150)에 인가함으로써 영상 변환된 제2 합성 영상 G(T(x,d))(160)을 생성될 수 있다. 이때, 영상 생성 신경망(110)를 통해 영상 변환된 제1 합성 영상 G(x)(120)과 영상 생성 신경망(150)를 통해 영상 변환된 제2 합성 영상 G(T(x,d))(160) 간에는 일정 변환 관계가 성립할 수 있다. 이와 같이 변환된 영상들 간의 일정 변환 관계는 영상 생성 신경망에 의한 영상 변환 시에 기하 구조를 유지하도록 하는 제약(constraint)으로 작용할 수 있다.
일 실시예에 따르면, GAN에서 기본적으로 이용되는 적대적 로스(Adversarial Loss) 및 변환된 영상들 간의 차이를 최소화하는 기하학적 일관성 로스를 함께 이용하여 영상 생성 신경망(110)을 트레이닝 함으로써 영상 생성 신경망(110)이 x(101)로부터 유추 가능한 기하학적 조건들에 대해 뷰가 달라지더라도 해당 기하학적 구조를 유지하는 결과 영상을 생성하도록 할 수 있다.
일 실시예에 따르면, 전술한 기하학적 일관성 개념을 트레이닝에 적용함으로써 예를 들어, 직선이 많고 원근감(perspective)이 분명한 단일 입력 영상이 뷰 변환 시에도 일관되게 변화되도록 할 수 있다.
도 2는 GAN(Generative Adversarial Network)을 트레이닝하는 방법을 설명하기 위한 도면이다. 도 2의 (a)를 참조하면, 실제 영상(real image)을 이용하여 영상 구분 신경망(D)(210)를 트레이닝하는 과정이 도시되고, 도 2의 (b)를 참조하면, 영상 변환된 합성 영상 G(x)을 이용하여 영상 생성 신경망(G)(230) 및 영상 구분 신경망(D)(250)를 트레이닝하는 과정이 도시된다.
도 2의 (a)에서 영상 구분 신경망(210)은 실제 영상(real image)과 가짜 영상(fake image)을 구별할 수 있다. 영상 구분 신경망(D)(210)는 예를 들어, 실제 영상에 대하여 '1'을 출력하고, 가짜 영상에 대하여 '0'을 출력하도록 트레이닝될 수 있다.
일 실시예에 따른 트레이닝 장치는 예를 들어, 트레이닝 데이터에 포함된 타겟 영상(또는 타겟 영상의 영상 정보) y를 실제 영상(real image)으로 추정하도록 영상 구분 신경망(210)을 트레이닝할 수 있다.
도 2의 (b)에서 영상 구분 신경망(D)(250)은 실제 영상과 합성 영상을 구분할 수 있다. 영상 구분 신경망(250)는 예를 들어, 실제 영상에 대하여는 '1'을 출력하고, 변환된 합성 영상에 대하여는 '0'을 출력하도록 트레이닝될 수 있다.
영상 생성 신경망(230)는 x를 입력받아서 합성 영상 G(x)을 생성할 수 있다. 영상 생성 신경망(G)(230)은 생성된 합성 영상 G(x)가 영상 구분 신경망(D)(250)을 속이고 출력이 '1'이 되도록 트레이닝될 수 있다.
일 실시예에 따른 트레이닝 장치는 적대적 로스에 의해 제1 합성 영상을 가짜 영상(fake image)으로 추정하도록 영상 구분 신경망(250)을 트레이닝할 수 있다. 또한, 트레이닝 장치는 제2 합성 영상을 가짜 영상으로 추정하도록 영상 구분 신경망(250)을 트레이닝할 수 있다.
영상 생성 신경망(G)(230) 및 영상 구분 신경망(D)(250)의 동작은 예를 들어, 아래의 수학식 1을 통해 보다 구체적으로 설명한다.
Figure pat00001
우선, 영상 구분 신경망(D)(250)의 관점에서의 동작을 살펴보면 다음과 같다.
수학식 1에서
Figure pat00002
는 확률 밀도 함수에 해당하며, 실제 데이터의 분포를 샘플링한다는 의미이다.
Figure pat00003
는 예를 들어, 트레이닝 데이터에 1000개의 타겟 영상(예를 들어, 보행자 영상)이 있다고 하면, 거기서 y 값을 하나씩 뽑는 것으로 볼 수 있다.
영상 구분 신경망(D)(250)는 실제 영상에 대해 '1'에 가까운 값을 출력해야 하므로 수식적으로
Figure pat00004
값을 최대화하도록 표현될 수 있다. 영상 구분 신경망(D)(250)는 0에서 1 사이의 값을 출력할 수 있다.
Figure pat00005
에서 x는 랜덤한 값이 될 수 있다. x는 영상 생성 신경망(G)(230)에 입력될 수 있다. 영상 생성 신경망(G)(230)는 예를 들어, 가우시안 분포(정규 분포)에 기초하여 다차원의 벡터를 샘플링할 수 있다. 랜덤한 다차원의 벡터 x를 수신한 영상 생성 신경망(G)(230)는 예를 들어, 제1 도메인의 합성 영상으로부터 제2 도메인의 합성 영상을 생성할 수 있다. 영상 생성 신경망(G)(230)는 도메인이 변환된 영상을 생성하므로 '생성기' 또는 '변환기'라고도 부를 수 있다. G(x)를 수신한 영상 구분 신경망(D)(250)는 0에 가까운 값을 출력해야 하고, 이는 수식적으로
Figure pat00006
와 같이 표현할 수 있다.
그 다음 영상 생성 신경망(G)(230)의 관점에서의 동작을 살펴보면 다음과 같다.
영상 생성 신경망(G)(230)는 수학식 1에서 우측 좌변
Figure pat00007
의 값이 최소화되어야 하고, 영상 구분 신경망(D)(250)를 트레이닝하는 데에는 영상 생성 신경망(G)(230)가 사용되지 않으므로 수학식 1에서
Figure pat00008
는 영상 생성 신경망(G)(230)가 관여할 수 없는 부분에 해당한다.
따라서, 영상 생성 신경망(G)(230)는 수학식 1에서
Figure pat00009
이 최소화되도록 트레이닝될 수 있다. 영상 생성 신경망(G)(230)는 영상 구분 신경망(D)(250)와 반대로
Figure pat00010
= 1이 되도록 트레이닝될 수 있다.
일 실시예에 따른 영상 구분 신경망(D)(250)은 제2 도메인의 입력 영상에 대하여 '1'을 출력하고, 제1 도메인에서 제2 도메인으로 변환된 합성 영상에 대하여는 '0'을 출력하도록 트레이닝될 수 있다. 영상 구분 신경망(D)(250)의 트레이닝을 위해 다양한 물리량들(예를 들어, Cross Entropy, Least Square Error 값 등)이 사용될 수 있다.
이하, 별도의 기재가 없더라도 일 실시예에 따른 영상 생성 신경망 및/또는 영상 구분 신경망은 적대적 로스와 아래에서 설명하는 기하학적 일관성 로스(Geometry Consistency Loss)을 함께 이용하여 트레이닝을 수행하는 것으로 이해될 수 있다.
도 3은 일 실시예에 따라 영상을 생성하는 방법을 나타낸 흐름도이다. 도 3을 참조하면, 일 실시예에 따른 생성 장치는 단계(310) 내지 단계(330)의 과정을 통해 영상 정보에 포함된 기하학적 정보를 유지하는 합성 영상을 생성할 수 있다.
단계(310)에서, 생성 장치는 컨디셔널 정보 및 영상 정보를 포함하는 입력 데이터를 수신한다. 컨디셔널 정보는 입력 영상에 포함된 구조 정보(structure information)에 해당하며, 예를 들어, 시맨틱 정보, 에지 정보, 및 골격 구조 정보 등을 포함할 수 있다.
단계(320)에서, 생성 장치는 단계(310)에서 수신한 영상 정보에 포함된 기하학적 정보를 유지하면서, 컨디셔널 정보에 따라 영상 정보를 변환하는 영상 생성 신경망에 입력 데이터를 인가함으로써, 합성 영상을 생성한다. 이때, 영상 생성 신경망은 예를 들어, 컨디셔널 정보의 변환 관계에 기초하여 변환된 컨디셔널 정보에 대응하는 제1 합성 영상과, 컨디셔널 정보에 대응하는 깊이 정보에 기초하여 변환된 컨디셔널 정보에 대응하는 제2 합성 영상 간의 비교 결과에 기초하여 생성된 로스에 의해 트레이닝된 것일 수 있다. 영상 생성 신경망은 예를 들어, 아래의 도 4 내지 도 12에 도시된 실시예들을 통해 트레이닝된 것일 수 있다.
실시예에 따라서, 생성 장치는 단계(310)에서 컨디셔널 정보에 대응하는 깊이 정보를 더 수신할 수도 있다. 이 경우, 생성 장치는 단계(320)에서 깊이 정보로부터 특징 정보를 추출하고, 영상 생성 신경망에 입력 데이터 및 특징 정보를 인가함으로써 합성 영상을 생성할 수 있다.
단계(330)에서, 생성 장치는 합성 영상을 출력한다. 생성 장치는 예를 들어, 합성 영상을 생성 장치에 포함된 디스플레이를 통해 출력할 수도 있고, 또는 생성 장치의 외부로 출력할 수도 있으며, 반드시 이에 한정되지는 않는다.
도 4는 일 실시예에 따라 영상을 생성하는 신경망을 트레이닝하는 방법을 나타낸 흐름도이다. 도 4를 참조하면, 일 실시예에 따른 트레이닝 장치는 단계(410) 내지 단계(460)의 과정을 통해 영상 생성 신경망을 트레이닝할 수 있다.
단계(410)에서, 트레이닝 장치는 컨디셔널 정보(x) 및 영상 정보(y)를 포함하는 트레이닝 데이터를 수신한다. 컨디셔널 정보는 예를 들어, 시맨틱 정보, 에지 정보, 및 골격 구조 정보 중 적어도 하나의 구조 정보를 포함할 수 있다.
단계(420)에서, 트레이닝 장치는 컨디셔널 정보에 대응하는 깊이 정보 (d)를 수신한다. 여기서, 깊이 정보는 예를 들어, 깊이 영상, 깊이 맵, 및 깊이 값 등을 모두 포함하는 의미로 이해될 수 있다.
단계(430)에서, 트레이닝 장치는 영상 정보를 기초로 영상 생성 신경망에 의해 컨디셔널 정보에 대응하는 제1 합성 영상(synthesized image) G(x)을 생성한다.
단계(440)에서, 트레이닝 장치는 깊이 정보에 기초하여 컨디셔널 정보를 변환한다. 이때, 변환된 컨디셔널 정보는 전술한 T(x,d)에 해당할 수 있다. 트레이닝 장치가 컨디셔널 정보를 변환하는 방법은 아래의 도 5를 참조하여 보다 구체적으로 설명한다.
단계(450)에서, 트레이닝 장치는 영상 정보를 기초로 영상 생성 신경망에 의해 변환된 컨디셔널 정보에 대응하는 제2 합성 영상 G(T(x,d))을 생성한다.
단계(460)에서, 트레이닝 장치는 컨디셔널 정보의 변환 관계에 기초하여 제1 합성 영상과 제2 합성 영상을 비교함으로써, 영상 생성 신경망을 트레이닝한다.
단계(460)에서, 트레이닝 장치는 예를 들어, 컨디셔널 정보의 변환 관계에 기초하여 제1 합성 영상을 변환할 수 있다. 트레이닝 장치는 변환한 제1 합성 영상과 제2 합성 영상 간의 비교 결과에 따른 차이를 기초로, 영상 생성 신경망을 트레이닝하기 위한 제1 로스(loss)를 생성할 수 있다. 트레이닝 장치가 제1 로스에 의해 영상 생성 신경망을 트레이닝하는 과정은 아래의 도 6을 통해 보다 구체적으로 설명한다. 또한, 도 6의 과정을 통해 신경망을 트레이닝하는 트레이닝 장치 및 도 6을 통해 트레이닝된 영상 생성 신경망에 의해 영상을 생성하는 생성 장치의 구조는 아래의 도 7을 참조하여 보다 구체적으로 설명한다.
이하에서, 영상 생성 신경망을 트레이닝 하는 단계는, 해당 신경망을 트레이닝 하기 위한 로스를 생성하는 단계를 포괄하는 개념으로 이해될 수 있다.
또는 단계(460)에서, 트레이닝 장치는 예를 들어, 컨디셔널 정보의 변환 관계에 기초하여 제2 합성 영상을 역변환할 수 있다. 트레이닝 장치는 역변환한 제2 합성 영상과 제1 합성 영상 간의 비교 결과에 따른 차이('제2 차이')를 기초로, 영상 생성 신경망을 트레이닝하기 위한 제2 로스(loss)를 생성할 수 있다. 트레이닝 장치가 제2 로스에 의해 영상 생성 신경망을 트레이닝하는 과정은 아래의 도 8을 통해 보다 구체적으로 설명한다. 또한, 도 8의 과정을 통해 신경망을 트레이닝하는 트레이닝 장치 및 도 8을 통해 트레이닝된 영상 생성 신경망에 의해 영상을 생성하는 생성 장치의 구조는 아래의 도 9를 참조하여 보다 구체적으로 설명한다.
또는 단계(460)에서, 트레이닝 장치는 예를 들어, 컨디셔널 정보, 제1 합성 영상, 변환된 컨디셔널 정보, 및 제2 합성 영상 각각으로부터 기하 특징을 추출하고, 추출한 기하 특징들 간의 차이를 기초로 영상 생성 신경망을 트레이닝하기 위한 로스들을 생성할 수도 있다. 또한, 트레이닝 장치가 전술한 기하 특징들 간의 차이에 기초한 로스들에 의해 영상 생성 신경망을 트레이닝하는 과정은 아래의 도 10 내지 도 11을 통해 보다 구체적으로 설명한다.
실시예에 따라서, 트레이닝 장치는 깊이 정보에 기반한 추가 입력 채널을 사용하여 영상 생성 신경망을 트레이닝 함으로써 합성 영상을 생성할 수도 있다. 트레이닝 장치가 추가 입력 채널을 사용하여 합성 영상을 생성하는 실시예는 아래의 도 12 및 도 13을 참조하여 보다 구체적으로 설명한다.
도 5는 일 실시예에 따른 깊이 정보에 기초하여 컨디셔널 정보를 변환하는 방법을 설명하기 위한 도면이다. 도 5를 참조하면, 일 실시예에 따라 입력된 컨디셔널 정보(x)(101)를 깊이 정보(d)(105)에 기초한 변환 관계(T)에 의해 뷰가 변환된 컨디셔널 정보(T(x, d))(107)로 변환하는 과정이 도시된다.
트레이닝 장치는 깊이 정보(d)(105)에 기초한 변환 관계(T)에 의해 컨디셔널 정보(x)(101)를 포함하는 트레이닝 데이터를 3차원 공간으로 언-프로젝션(un-projection)(510) 함으로써 컨디셔널 정보(x)(101)를 3차원으로 변환(530)할 수 있다.
트레이닝 장치는 언-프로젝션된 트레이닝 데이터, 보다 구체적으로는 3차원으로 변환(530)된 컨디셔널 정보(x)(101)를 임의의 시점(view point)으로 투영(projection)(550)할 수 있다. 트레이닝 장치는 투영을 통해 변환된 컨디셔널 정보(T(x, d))(107)를 생성할 수 있다. 다만, 실시예에 따라서 전술한 3차원 변환(T) 관계를 영상의 모든 부분에 적용하기는 어렵다. 예를 들어, 회전, 또는 이동 등과 같은 변환 관계를 통해 임의의 영상을 다른 뷰의 영상으로 변환하는 경우, 원래 뷰의 영상에서 다른 부분에 의해 가려져 보이지 않던 부분이 생기기 때문이다. 이와 같이 다른 부분에 의해 가려져 보이지 않던 부분은 새로운 뷰에서 홀(Hole)로 남게 되므로 홀 부분을 자연스럽게 채워야 한다.
하지만, 많은 영상-대-영상 변환에서 입력으로 사용하는 시맨틱 세그먼테이션(Semantic Segmentation), 에지, 골격 구조 등과 같은 컨디셔널 정보(x)(101)는 대부분 입력 영상의 구조적 정보를 추상화(Abstract)한 형태에 해당할 수 있다. 따라서, 일 실시예에서는 컨디셔널 정보(x)(101)와 깊이 정보(d)(105)를 이용하여 해당 홀 부분을 복원하는 깊이 기반의 홀 필링(Depth-based Hole Filling)을 추가적으로 수행할 수도 있다. 예를 들어, 입력된 컨디셔널 정보(x)(101)가 시맨틱 세그먼테이션과 같은 시맨틱 정보인 경우, 트레이닝 장치는 홀의 경계(boundary) 부분의 시맨틱 정보를 확인하여 그 중 깊이가 가장 큰 시맨틱 정보에 의해 홀 부분의 각 픽셀을 채움으로써 영상을 변환할 수 있다.
이와 달리, 자연(Natural) 영상에서는 예를 들어, 홀을 채우는 것은 상대적으로 어려우므로 전술한 기하학적 일관성 로스의 계산 시에 홀 부분을 마스크(mask)로 제거하여 영상을 변환할 수 있다.
도 6은 일 실시예들에 따라 영상을 생성하는 신경망을 트레이닝 방법을 설명하기 위한 도면이다. 도 6을 참조하면, 일 실시예에 따른 기하학적 일관성이 유지되는 영상들(630, 160)이 도시된다.
예를 들어, 컨디셔널 정보(x)(101)를 포함하는 임의의 입력 영상에 대해 컨디셔널 정보에 대응하는 깊이 정보(d)(105)가 주어졌다고 하자. 이 경우, 컨디셔널 정보(x)(101)를 포함하는 입력 영상은 영상 생성 신경망(110)를 통해 제1 합성 영상 G(x)(120)으로 변환될 수 있다. 또한, 컨디셔널 정보(x)(101)를 포함하는 입력 영상은 앞서 도 1을 통해 전술한 것과 같이 새로운 뷰의 영상 T(x,d)(107)로 변환될 수 있다.
새로운 뷰의 영상 T(x,d)(107)를 영상 생성 신경망(150)를 통과하여 영상 변환시킬 경우, 그 결과인 제2 합성 영상 G(T(x,d))(160)은 영상 생성 신경망(110)를 통해 생성된 제1 합성 영상 G(x)(120)를 깊이 정보(d)(610)에 의한 컨디셔널 정보의 변환 관계에 기초하여 변환한 제1 합성 영상 T(G(x),d)(630)과 동일해야 한다.
일 실시예에서는 G(T(x,d)(160)와 T(G(x),d)(630)가 서로 동일해야 한다는 점을 '기하학적 일관성' 또는 '기하학적 유지 제한(Geometry Preserving Constraint)'로 보아, 변환한 제1 합성 영상 T(G(x),d)(630)과 제2 합성 영상 G(T(x,d))(160) 간의 차이를 기초로 영상 생성 신경망을 트레이닝 하기 위한 로스('제1 로스')를 생성할 수 있다.
트레이닝 장치(600)는 변환한 제1 합성 영상 T(G(x),d)(630)과 제2 합성 영상 G(T(x,d)(160) 간의 비교 결과에 따른 제1 차이(Diff(T(G(x),d), G(T(x,d))))를 최소화하여 기하학적 일관성이 유지되도록 제1 로스를 생성할 수 있다. 제1 로스는 기하학적 일관성 로스에 해당할 수 있다. 트레이닝 장치(600)는 전술한 적대적 로스(Adversarial Loss) 이외에 제1 로스를 추가적으로 사용하여 영상 생성 신경망(110)을 트레이닝할 수 있다.
이 경우, 제1 로스에 의해 트레이닝된 영상 생성 신경망(110)이 실제 추론 과정에서 영상 생성 신경망으로 사용될 수 있다. 영상 생성 신경망(110)은 추론 과정에서 컨디셔널 정보(x)로부터 유추 가능한 기하학적 조건들에 대해 뷰가 달라져도 해당 기하학적 구조를 유지하는 결과 영상을 생성할 수 있다. 이때, 영상 생성 신경망(110)과 영상 생성 신경망(150)의 구조는 서로 동일할 수 있다. 또한, 영상 구분 신경망(130)과 영상 구분 신경망(170)의 구조는 서로 동일할 수 있다. 또한, 깊이 정보(105)와 깊이 정보(610) 또한 서로 동일할 수 있다.
트레이닝 장치(600)는 전술한 적대적 로스(Adversarial Loss) 및 기하학적 일관성 로스의 합이 최소화되도록 신경망들을 트레이닝할 수 있다.
일 실시예에 따르면, 영상 변환을 위한 트레이닝 시에 깊이 정보를 이용한 3차원 변환에 의해 변환된 영상에서 기하학적 일관성이 유지되도록 강제함으로써 단일 입력 영상을 변환하는 경우에도 변환된 영상에서 3차원의 기하학적 구조가 유지되도록 할 수 있다.
도 7은 일 실시예들에 따른 영상을 생성하는 장치 및 신경망을 트레이닝하는 장치의 구성을 도시한 구성도이다. 도 7에 도시된 트레이닝 장치는 {Input x, Target y, Depth d}의 페어를 입력 데이터로 수신할 수 있다. 트레이닝 장치는 입력 데이터를 기초로 입력 영상을 타겟 도메인의 영상으로 변환하는 영상 생성 신경망(Generator)(713)을 트레이닝할 수 있다. 이하에서, x는 입력 영상에 포함된 컨디셔널 정보에 해당할 수 있다. 이하, 설명의 편의를 위해 x를 입력 영상으로 기재하지만, 이는 입력 영상에 포함된 컨디셔널 정보를 포함하는 것으로 이해될 수 있다. y는 실제에 해당하는 타겟 영상 또는 타겟 영상에 포함된 영상 정보에 해당할 수 있다. 타겟 영상이 실제 출력하고자 하는 출력 영상에 해당한다는 점에서 타겟 영상을 '출력 영상'이라고도 부를 수 있다. d는 입력 영상의 컨디셔널 정보에 대응하는 깊이 정보에 해당할 수 있다.
입력 영상(x)(711)가 수신되면 트레이닝 장치는 제1 영상 생성 신경망(713)를 통해 영상 정보를 변환하여 결과 영상('제1 합성 영상')(715)을 생성할 수 있다.
트레이닝 장치는 깊이 정보(720)에 기초하여 입력 영상(711)을 3차원 변환(730)할 수 있다. 트레이닝 장치는 제2 영상 생성 신경망(735)에 의해 3차원 변환된 영상에 대응하는 결과 영상('제2 합성 영상')(740)을 생성할 수 있다.
트레이닝 장치는 컨디셔널 정보의 변환 관계에 기초하여 제1 합성 영상(715)을 3차원 변환(725)할 수 있다. 트레이닝 장치는 3차원 변환(725)한 제1 합성 영상과 제2 합성 영상(740) 간의 제1 차이에 기초한 기하학적 일관성 로스(745)를 생성할 수 있다.
또한, 트레이닝 장치는 제1 합성 영상(715)과 출력 영상(y)(755) 간의 차이에 기초한 타겟 로스(750) 및/또는 제2 합성 영상(740)과 출력 영상(755) 간의 타겟 로스(760)를 산출할 수 있다. 여기서, 타겟 로스는 예를 들어, 전술한 적대적 로스, 특징 매칭 로스(Feature Matching Loss), 및 지각 로스(Perceptual Loss) 등을 모두 포함하는 의미로 이해될 수 있다.
트레이닝 장치는 예를 들어, 기하학적 일관성 로스(745), 타겟 로스(750) 및/또는 타겟 로스(760)의 합이 최소화 되도록 하는 가중화 합(Weighted Sum)에 의해 영상 생성 신경망(713)을 갱신함으로써 영상 생성 신경망(713)을 트레이닝할 수 있다.
전술한 과정을 통해 트레이닝된 영상 생성 신경망(713)은 실제 영상 변환의 추론 과정을 수행하는 생성 장치(710)에서 사용될 수 있다. 영상 생성 신경망(713)가 실제 영상 변환을 수행하는 생성 장치(710)에서 사용되는 경우, 영상 생성 신경망(713)는 입력 데이터(711)의 영상 정보에 포함된 기하학적 정보를 유지하면서, 컨디셔널 정보에 따라 영상 정보를 변환하여 합성 영상(715)을 생성할 수 있다.
도 8은 일 실시예에 따라 영상을 생성하는 신경망을 트레이닝 방법을 설명하기 위한 도면이다. 도 8을 참조하면, 일 실시예에 따라 기하학적 일관성이 유지되는 제1 합성 영상 G(x)(120)과 제2 합성 영상 G(T(x,d))(160)를 원래의 뷰로 되돌린 역변환한 제2 합성 영상 T-1(G(T(x,d)),d)(830)이 도시된다.
트레이닝 장치(800)는 깊이 정보 d(810)에 기초한 컨디셔널 정보의 변환 관계에 기초하여 제2 합성 영상 G(T(x,d))(160)을 원래의 뷰로 역변환한 제2 합성 영상 T-1(G(T(x,d)),d)(830)을 생성할 수 있다. 이때, 깊이 정보 d(810)는 깊이 정보(105)와 동일할 수 있다.
트레이닝 장치(800)는 역변환한 제2 합성 영상 T-1(G(T(x,d)),d)(830)과 제1 합성 영상 G(x)(120) 간의 비교 결과에 따른 차이('제2 차이')(Diff(G(x), T-1(G(T(x,d)),d)))를 기초로, 영상 생성 신경망(110)을 트레이닝 하기 위한 제2 로스를 생성할 수 있다. 제2 로스는 기하학적 일관성 로스에 해당할 수 있다.
트레이닝 장치(800)는 제2 차이 (Diff(G(x), T-1(G(T(x,d)),d)))를 최소화함으로써 역변환한 제2 합성 영상 (T-1(G(T(x,d)),d))(830)과 제1 합성 영상 G(x)(120) 간의 기하학적 일관성이 유지되도록 제2 로스를 생성할 수 있다.
일 실시예에서는 전술한 적대적 로스(Adversarial Loss) 이외에 제1 로스 및/또는 제2 로스를 추가적으로 사용하여 영상 생성 신경망(110)을 트레이닝함으로써 기하학적 구조의 유지 측면에서 안정적인 결과 영상을 생성할 수 있다. 뿐만 아니라, 영상 생성 신경망(110)의 트레이닝 시에 제1 로스 및/또는 제2 로스를 추가적으로 사용하는 것은 예를 들어, 실내 또는 도시 등과 같이 직선이 많아 상대적으로 기하학적 구조의 추정이 용이한 환경에 대한 영상 변환에 특히 유리하다.
도 9는 일 실시예에 따른 영상을 생성하는 장치 및 신경망을 트레이닝하는 장치의 구성을 도시한 구성도이다. 도 9에 도시된 트레이닝 장치는 도 7과 마찬가지로 {Input x, Target y, Depth d}를 입력 데이터로 수신할 수 있다. 트레이닝 장치는 입력 데이터를 기초로 입력 영상(911)을 타겟 도메인의 영상으로 변환하는 영상 생성 신경망(Generator)(913)을 트레이닝할 수 있다.
입력 영상(911)이 수신되면 트레이닝 장치는 제1 영상 생성 신경망(913)를 통해 영상 정보를 변환하여 결과 영상('제1 합성 영상')(915)을 생성할 수 있다.
트레이닝 장치는 깊이 정보(920)에 기초하여 입력 영상(911)을 3차원 변환(930)할 수 있다. 트레이닝 장치는 제2 영상 생성 신경망(935)에 의해 3차원 변환된 영상에 대응하는 결과 영상('제2 합성 영상')(940)을 생성할 수 있다.
트레이닝 장치는 컨디셔널 정보의 변환 관계에 기초하여 제2 합성 영상(940)을 3차원 역변환(945)할 수 있다. 트레이닝 장치는 3차원 역변환(945)한 제2 합성 영상과 제1 합성 영상(915) 간의 차이에 기초한 기하학적 일관성 로스(950)를 생성할 수 있다.
또한, 트레이닝 장치는 제1 합성 영상(915)과 출력 영상(970) 간의 차이에 기초한 타겟 로스(960) 및/또는 제2 합성 영상(940)과 출력 영상(970) 간의 차이에 기초한 타겟 로스(965)를 산출할 수 있다.
트레이닝 장치는 기하학적 일관성 로스(950), 타겟 로스(960) 및/또는 타겟 로스(965)의 합이 최소화 되도록 하는 가중화 합에 의해 영상 생성 신경망(913)을 갱신함으로써 영상 생성 신경망(913)을 트레이닝할 수 있다.
전술한 과정을 통해 트레이닝된 영상 생성 신경망(913)은 실제 영상을 변환하는 생성 장치(810)에서 사용될 수 있다.
도 10은 일 실시예에 따라 영상을 생성하는 신경망을 트레이닝 방법을 설명하기 위한 도면이다. 일 실시예에 따른 트레이닝 장치(1000)는 도 6을 통해 도시한 구조의 트레이닝 장치(600)에 더하여, 예를 들어, 서로 다른 도메인인 입력 영상(또는 컨디셔널 정보(x)(101))과 출력 영상인 제1 합성 영상(G(x)(120))으로부터 각각의 기하학적 특징을 추출할 수 있는 추출기들(E1, E2)를 더 포함할 수 있다. 일 실시예에 따르면, 영상들 간에 기하학적 일관성이 유지되는 것과 마찬가지로, 영상들로부터 추출된 특징들 간에도 기하학적 일관성이 유지될 수 있다.
도 10을 참조하면, 도 6을 통해 전술한 영상들로부터 추출한 기하학적 특징들(예를 들어, E1(x)와 E2(G(x)) 간의 기하학적 대응 관계(Geometry Correspondence)를 유지하도록 하는 추가적인 로스를 생성하는 과정이 도시된다. 이때, 추출기들(E1, E2)의 형태에 따라 대응 관계가 달리 결정될 수 있다. 추출기들(E1, E2)은 예를 들어, 트레이닝된 네트워크일 수도 있고, 또는 필터링된 네트워크일 수도 있다. 예를 들어, 제1 추출기(E1)는 라인을 추출하는 추출기이고, 제2 추출기(E2)는 라인 또는 소실점을 추출하는 추출기일 수 있다. 이와 같이 제1 추출기와 제2 추출기는 서로 다른 도메인에 대한 특징을 추출하는 추출기일 수도 있고, 서로 동일한 도메인에 대한 특징을 추출하는 추출기이 수도 있다.
일 실시예에 따르면, 사전에 정의된 특징들을 사용하여 기하학적 일관성을 강화할 수 있다. 기하학적 대응 관계는 E1(x)(1010)와 E2(G(x))(1030) 사이에 적용될 수도 있고, 또는 E1(T(x,d))(1050)와 E2(G(T(x,d)))(1070) 사이에 적용될 수도 있다. 또는 기하학적 대응 관계는 아래 도 11에서 T(E2(G(x)),d)(1130)와 E2(G(T(x,d)))(1070) 사이의 새로운 기하학적 일관성 로스를 추가로 정의하는 데에도 사용될 수 있다.
일 실시예에 따른 트레이닝 장치는 컨디셔널 정보(x)(101)로부터 제1 기하 특징(E1(x))(1010)을 추출할 수 있다. 또한, 트레이닝 장치는 제1 합성 영상 G(x)(120)으로부터 제2 기하 특징(E2(x))(1030)을 추출할 수 있다. 트레이닝 장치는 제1 기하 특징(E1(x))(1010)과 제2 기하 특징(E2(x))(1030) 간의 차이를 기초로, 영상 생성 신경망을 트레이닝하기 위한 로스('제3 로스')를 생성할 수 있다. 제3 로스는 제1 기하 특징(E1(x))(1010)과 제2 기하 특징(E2(x))(1030) 간의 기하학적 대응 관계(Geometry Correspondence)가 유지되도록 하는 기하학적 대응 로스에 해당할 수 있다.
또한, 트레이닝 장치는 변환된 컨디셔널 정보 T(x,d)로부터 제3 기하 특징(E1(T(x,d)))(1050)를 추출할 수 있다. 또한, 트레이닝 장치는 제2 합성 영상 G(T(x,d))(160)으로부터 제4 기하 특징(E2(G(T(x,d)))(1070)을 추출할 수 있다. 트레이닝 장치는 제3 기하 특징(E1(T(x,d)))(1050)과 제4 기하 특징(E2(G(T(x,d)))(1070) 간의 차이를 기초로, 영상 생성 신경망을 트레이닝하기 위한 로스('제4 로스')를 생성할 수 있다. 제4 로스는 제3 기하 특징(E1(T(x,d)))(1050)과 제4 기하 특징(E2(G(T(x,d)))(1070) 간의 기하학적 대응 관계가 유지되도록 하는 기하학적 대응 로스에 해당할 수 있다.
도 11은 일 실시예에 따라 영상을 생성하는 신경망을 트레이닝 방법을 설명하기 위한 도면이다. 간의 기하학적 일관성이 유지되도록 하는 로스들을 생성하는 과정이 도시된다.
도 11을 참조하면, 도 10을 통해 전술한 트레이닝 장치(1000)의 구조에 따라 변환된 영상들로부터 추출한 기하학적 특징들(예를 들어, E1(x)와 E2(G(x)) 사이의 기하학적 대응 관계(Geometry Correspondence)에 의해 추가적으로 정의되는 새로운 기하학적 일관성 로스를 생성하는 과정이 도시된다.
트레이닝 장치(1100)는 깊이 정보(1120)에 기초하여 제1 합성 영상 G(x)(120)으로부터 추출한 제2 기하 특징 E2(G(x))(1030)을 T(E2(G(x)),d)(1130)으로 변환할 수 있다. 트레이닝 장치(1100)는 변환된 제2 기하 특징 T(E2(G(x)),d)(1130)과 제2 합성 영상 G(T(x,d))(160)으로부터 추출한 제4 기하 특징(E2(G(T(x,d)))(1070) 간의 차이를 기초로, 영상 생성 신경망을 트레이닝하기 위한 기하학적 일관성 로스('제5 로스')를 생성할 수 있다. 제5 로스는 변환된 제2 기하 특징 T(E2(G(x)),d)(1130)과 제4 기하 특징(E2(G(T(x,d)))(1070) 간의 기하학적 일관성이 유지되도록 하는 기하학적 일관성 로스에 해당할 수 있다. 트레이닝 장치(1100)는 제5로스에 의해 영상 생성 신경망(110)을 트레이닝할 수 있다.
또한, 트레이닝 장치(1100)는 깊이 정보(1115)에 기초하여 제1 기하 특징(E1(x))(1010)을 T(E1(x)),d)(1110)으로 변환할 수 있다. 제3 기하 특징(E1(T(x,d)))(1050)과 변환된 특징 T(E1(x)),d)(1110) 간에 기하학적 일관성이 유지되도록 할 수도 있다.
도 10 및 도 11을 통해 전술한 실시예들은 T 대신 T-1을 사용하여 기하학적 일관성 로스를 정의한 경우에도 마찬가지로 적용할 수 있다. 뿐만 아니라, 영상 생성 신경망(G), 제1 추출기(E1), 및 제2 추출기(E2)에 대한 기하학적 일관성 로스를 각각 T 또는 T-1로 서로 다르게 조합하여 정의하는 것 또한 가능하다.
도 12는 일 실시예에 따라 영상을 생성하는 신경망을 트레이닝 방법을 설명하기 위한 도면이다. 도 12를 참조하면, 깊이 정보에 기반한 추가 정보를 입력으로 사용하는 실시예가 도시된다.
일 실시예에 따르면, 깊이 정보(1205)를 사용하여 법선(Normal) 정보를 구하고, 깊이 정보(1205)의 불연속(discontinuity) 부분과 법선 정보의 불연속 부분을 추출한 깊이 특징 정보 E(d)를 컨디셔널 정보(x)와 함께 입력 (x, E(d))(1201)으로 영상 생성 신경망(1210)에 인가할 수 있다. 이때, 깊이 특징 정보 E(d)는 입력 영상에서 눈에 띄는 기하학적 정보를 압축적으로 표현한 것에 해당할 수 있다. 따라서, 컨디셔널 정보(x)를 포함하는 입력 영상과 깊이 특징 정보 E(d)를 함께 영상 생성 신경망(1210)의 입력으로 사용할 경우, 해당 기하학적 정보를 반영한 영상 생성(변환)이 가능하다. 다만, 이 경우에 깊이 정보(1205)가 트레이닝 과정뿐만 아니라 실제 영상을 변환하는 추론 과정에서도 요구된다. 깊이 특징 정보 E(d)는 전술한 방법에 국한되지 않고 이외의 다양한 방법으로 정의될 수 있다.
트레이닝 장치(1200)는 깊이 정보(1205)로부터 깊이 특징 정보(E(d))를 추출할 수 있다. 트레이닝 장치는 컨디셔널 정보(x) 및 깊이 특징 정보(E(d))를 영상 생성 신경망(1210)에 인가하고, 영상 생성 신경망(1010)에 의해 컨디셔널 정보 및 깊이 특징 정보에 대응하는 제1 합성 영상 G(x, E(d))(1220)을 생성할 수 있다.
트레이닝 장치는 깊이 정보(1005)에 기초하여 컨디셔널 정보 및 깊이 특징 정보(x, E(d))를 T((x, E(d)))(1207)로 변환할 수 있다. 트레이닝 장치는 영상 정보를 기초로 영상 생성 신경망(1250)에 의해 변환된 컨디셔널 정보 T((x, E(d)))(1207)에 대응하는 제2 합성 영상 G(T((x, E(d)), d))(1260)을 생성할 수 있다.
트레이닝 장치는 깊이 정보(1225)에 기반한 컨디셔널 정보의 변환 관계(T)에 기초하여 G(x)(1220)를 T(G(x, E(d)),d)(1230)로 변환할 수 있다. 깊이 정보(1225)는 깊이 정보(1205)와 동일할 수 있다. 트레이닝 장치는 변환된 영상 T(G(x, E(d)),d)(1230)와 제2 합성 영상 G(T((x, E(d)), d))(1260)을 비교함으로써, 영상 생성 신경망을 트레이닝할 수 있다. 트레이닝 장치는 변환된 영상 T(G(x, E(d)),d)(1230)와 제2 합성 영상 G(T((x, E(d)), d))(1260) 간의 비교 결과에 따른 차이가 최소화 되도록 하는 로스('기하학적 일관성 로스')를 생성할 수 있다. 트레이닝 장치는 해당 로스에 의해 영상 생성 신경망(1210)을 트레이닝할 수 있다.
도 12를 통해 전술한 실시예는 변환 관계(T) 대신에 역변환 관계(T-1)를 사용하여 기하학적 일관성을 정의한 경우에도 마찬가지로 적용될 수 있으며, 도 10 내지 도 11과 같이 추가적인 추출기들을 사용한 기하학적 대응 관계를 고려하여 로스를 산출하는 경우에도 마찬가지로 적용할 수 있다.
도 13은 일 실시예에 따른 영상을 생성하는 장치 및 신경망을 트레이닝하는 장치의 구성을 도시한 구성도이다. 도 13에 도시된 트레이닝 장치는 {Input x, Target y, Depth d}의 페어를 입력 데이터로 수신할 수 있다. 트레이닝 장치는 입력 데이터 및 입력 영상에서 눈에 띄는 기하학적 정보를 압축적으로 표현한 깊이 특징 정보 E(d)를 타겟 도메인의 영상으로 변환하는 영상 생성 신경망(Generator)(1317)을 트레이닝할 수 있다.
트레이닝 장치는 특징 추출기(1315)에 의해 깊이 정보(1313)로부터 깊이 특징 정보(E(d))를 추출할 수 있다. 이때, 특징 추출기(1315)는 깊이 정보(1313)를 사용하여 입력 영상(1311)으로부터 법선 정보를 구하고, 깊이 정보의 불연속 부분과 법선 정보의 불연속 부분을 추출함으로써 깊이 특징 정보 E(d)를 획득할 수 있다.
트레이닝 장치는 특징 추출기(1315)에 의해 추출한 깊이 특징 정보 및 입력 영상을 제1 영상 생성 신경망(1317)에 인가하여 컨디셔널 정보 및 깊이 특징 정보에 대응하는 결과 영상('제1 합성 영상')(1319)을 생성할 수 있다. 트레이닝 장치는 제1 합성 영상(1319)를 3차원 변환(1340)할 수 있다.
트레이닝 장치는 특징 추출기(1315)에 의해 추출된 깊이 특징 정보 E(d)를 3차원 변환(1320)할 수 있다. 또한, 트레이닝 장치는 깊이 정보(1313)에 기초하여 입력 영상(1311)을 3차원 변환(1325)할 수 있다.
트레이닝 장치는 3차원 변환(1325)된 입력 영상 및 3차원 변환(1320)된 깊이 특징 정보를 제2 영상 생성 신경망(1330)에 인가하여 결과 영상('제2 합성 영상')(1335)을 생성할 수 있다.
트레이닝 장치는 3차원 변환(1340)한 제1 합성 영상과 제2 합성 영상(1335) 간의 차이에 기초한 기하학적 일관성 로스(1345)를 생성할 수 있다.
또한, 트레이닝 장치는 제1 합성 영상(1319)과 출력 영상의 영상 정보(y)(1350) 간의 차이에 기초한 타겟 로스(1355) 및/또는 제2 합성 영상(1335)과 출력 영상(1350) 간의 타겟 로스(1360)를 산출할 수 있다.
트레이닝 장치는 기하학적 일관성 로스(1345), 타겟 로스(1355) 및/또는 타겟 로스(1360)의 합이 최소화 되도록 하는 가중화 합(Weighted Sum)에 의해 영상 생성 신경망(1317)을 갱신함으로써 영상 생성 신경망(1317)을 트레이닝할 수 있다.
전술한 과정을 통해 트레이닝된 영상 생성 신경망(1317)은 실제 영상을 변환하는 생성 장치(1310)에서 사용될 수 있다. 이때, 영상 생성 신경망(1317)에는 예를 들어, {Input x, Depth d} 형태의 입력 데이터가 인가될 수 있다. 영상 생성 신경망(1317)이 추론 과정(영상 변환)을 수행하는 생성 장치(1310)에서 사용되는 경우, 영상 생성 신경망(1317)은 컨디셔널 정보 및 깊이 특징 정보에 포함된 기하학적 정보를 유지하면서, 컨디셔널 정보 및 깊이 특징 정보에 따라 영상 정보를 변환하여 합성 영상(1319)을 생성할 수 있다.
도 14는 일 실시예에 따른 영상을 생성하는 장치의 블록도이다. 도 14를 참조하면, 일 실시예에 따른 영상을 생성하는 장치('생성 장치')(1400)는 통신 인터페이스(1410), 프로세서(1430), 출력 장치(1450), 및 메모리(1470)를 포함할 수 있다. 통신 인터페이스(1410), 프로세서(1430), 출력 장치(1450), 및 메모리(1470)는 통신 버스(1405)를 통해 서로 연결될 수 있다.
통신 인터페이스(1410)는 컨디셔널 정보 및 영상 정보를 포함하는 입력 데이터를 수신한다. 컨디셔널 정보는 예를 들어, 시맨틱 정보, 에지 정보, 및 골격 구조 정보 중 적어도 하나의 구조 정보를 포함할 수 있다. 또는 통신 인터페이스(1410)는 컨디셔널 정보에 대응하는 깊이 정보를 수신할 수도 있다.
프로세서(1430)는 영상 정보에 포함된 기하학적 정보를 유지하면서, 컨디셔널 정보에 따라 영상 정보를 변환하는 영상 생성 신경망에 입력 데이터를 인가함으로써, 합성 영상을 생성한다.
예를 들어, 통신 인터페이스(1410)를 통해 컨디셔널 정보에 대응하는 깊이 정보가 수신되면, 프로세서(1430)는 깊이 정보로부터 추출한 특징 정보와 입력 데이터를 영상 생성 신경망에 인가함으로써 합성 영상을 생성할 수 있다.
다만, 프로세서(1430)의 동작을 상술한 바로 한정하는 것은 아니고, 프로세서(1430)는 도 1 내지 도 13을 통해 전술한 동작들 중 적어도 하나와 함께 상술한 동작을 수행할 수도 있다.
프로세서(1430)는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 영상 생성 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 인스트럭션들(instructions)을 포함할 수 있다. 예를 들어, 하드웨어로 구현된 보정 장치는 마이크로프로세서(microprocessor), 중앙 처리 장치(Central Processing Unit; CPU), 그래픽 처리 장치(Graphic Processing Unit; GPU), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array), NPU(Neural Processing Unit) 등을 포함할 수 있다.
프로세서(1430)는 프로그램을 실행하고, 생성 장치(1400)를 제어할 수 있다. 프로세서(1430)에 의하여 실행되는 프로그램 코드는 메모리(1470)에 저장될 수 있다.
출력 장치(1450)는 프로세서(1430)가 생성한 합성 영상을 출력한다. 출력 장치(1450)는 예를 들어, 디스플레이 장치를 포함할 수 있으며, 반드시 이에 한정되지는 않는다. 출력 장치(1450)는 출력 인터페이스를 포함하고, 출력 인터페이스를 통해 프로세서(1430)가 생성한 합성 영상을 생성 장치(1400)의 외부로 출력할 수도 있다.
메모리(1470)는 통신 인터페이스(1410)를 통해 수신한 입력 데이터를 저장할 수 있다. 또한, 메모리(1470)는 프로세서(1430)에 의해 파악된 영상 정보에 포함된 기하학적 정보 및/또는 프로세서(1430)에 의해 생성된 합성 영상을 저장할 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (20)

  1. 컨디셔널 정보 및 영상 정보를 포함하는 입력 데이터를 수신하는 단계;
    상기 영상 정보에 포함된 기하학적 정보를 유지하면서, 상기 컨디셔널 정보에 따라 상기 영상 정보를 변환하는 영상 생성 신경망에 상기 입력 데이터를 인가함으로써, 합성 영상을 생성하는 단계; 및
    상기 합성 영상을 출력하는 단계
    를 포함하는, 영상을 생성하는 방법.
  2. 제1항에 있어서,
    상기 컨디셔널 정보에 대응하는 깊이 정보를 수신하는 단계 및
    상기 깊이 정보로부터 특징 정보를 추출하는 단계
    를 더 포함하고,
    상기 합성 영상을 생성하는 단계는
    상기 영상 정보에 포함된 기하학적 정보를 유지하면서, 상기 컨디셔널 정보에 따라 상기 영상 정보를 변환하는 영상 생성 신경망에 상기 입력 데이터 및 상기 특징 정보를 인가함으로써 상기 합성 영상을 생성하는 단계
    를 포함하는, 영상을 생성하는 방법.
  3. 제1항에 있어서,
    상기 영상 생성 신경망은
    상기 컨디셔널 정보의 변환 관계에 기초하여 변환된 상기 컨디셔널 정보에 대응하는 제1 합성 영상과, 상기 컨디셔널 정보에 대응하는 깊이 정보에 기초하여 변환된 상기 컨디셔널 정보에 대응하는 제2 합성 영상 간의 비교 결과에 기초하여 생성된 제1 로스에 의해 트레이닝된, 영상을 생성하는 방법.
  4. 제1항에 있어서,
    상기 컨디셔널 정보는
    시맨틱(semantic) 정보, 에지(edge) 정보, 및 골격 구조(skeleton) 정보 중 적어도 하나의 구조 정보(structure information)를 포함하는, 영상을 생성하는 방법.
  5. 컨디셔널 정보 및 영상 정보를 포함하는 트레이닝 데이터를 수신하는 단계;
    상기 컨디셔널 정보에 대응하는 깊이 정보를 수신하는 단계;
    상기 영상 정보를 기초로 영상 생성 신경망에 의해 상기 컨디셔널 정보에 대응하는 제1 합성 영상(synthesized image)을 생성하는 단계;
    상기 깊이 정보에 기초하여 상기 컨디셔널 정보를 변환하는 단계;
    상기 영상 정보를 기초로 상기 영상 생성 신경망에 의해 상기 변환된 컨디셔널 정보에 대응하는 제2 합성 영상을 생성하는 단계; 및
    상기 컨디셔널 정보의 변환 관계에 기초하여 상기 제1 합성 영상과 상기 제2 합성 영상을 비교함으로써, 상기 영상 생성 신경망을 트레이닝하는 단계
    를 포함하는, 신경망을 트레이닝하는 방법.
  6. 제5항에 있어서,
    상기 영상 생성 신경망을 트레이닝하는 단계는
    상기 컨디셔널 정보의 변환 관계에 기초하여 상기 제1 합성 영상을 변환하는 단계; 및
    상기 변환한 제1 합성 영상과 상기 제2 합성 영상 간의 비교 결과에 따른 제1 차이를 기초로, 상기 영상 생성 신경망을 트레이닝하기 위한 제1 로스(loss)를 생성하는 단계
    를 포함하는, 신경망을 트레이닝하는 방법.
  7. 제6항에 있어서,
    상기 제1 로스를 생성하는 단계는
    상기 제1 차이를 기초로, 상기 변환한 제1 합성 영상과 상기 제2 합성 영상 간의 기하학적 일관성(Geometry Consistency)이 유지되도록 상기 제1 로스를 생성하는 단계
    를 포함하는, 신경망을 트레이닝하는 방법.
  8. 제5항에 있어서,
    상기 영상 생성 신경망을 트레이닝하는 단계는
    상기 컨디셔널 정보의 변환 관계에 기초하여 상기 제2 합성 영상을 역변환하는 단계; 및
    상기 역변환한 제2 합성 영상과 상기 제1 합성 영상 간의 비교 결과에 따른 제2 차이를 기초로, 상기 영상 생성 신경망을 트레이닝하기 위한 제2 로스를 생성하는 단계
    를 포함하는, 신경망을 트레이닝하는 방법.
  9. 제8항에 있어서,
    상기 제2 로스를 생성하는 단계는
    상기 제2 차이를 기초로, 상기 역변환한 제2 합성 영상과 상기 제1 합성 영상 간의 기하학적 일관성이 유지되도록 상기 제2 로스를 생성하는 단계
    를 포함하는, 신경망을 트레이닝하는 방법.
  10. 제5항에 있어서,
    상기 컨디셔널 정보를 변환하는 단계는
    상기 깊이 정보에 기초한 변환 관계에 의해 상기 트레이닝 데이터를 3차원 공간으로 언-프로젝션(un-projection)하는 단계; 및
    상기 언-프로젝션된 트레이닝 데이터를 임의의 시점(view point)으로 투영함으로써 상기 컨디셔널 정보를 변환하는 단계
    를 포함하는, 신경망을 트레이닝하는 방법.
  11. 제5항에 있어서,
    상기 컨디셔널 정보는
    시맨틱(semantic) 정보, 에지(edge) 정보, 및 골격 구조(skeleton) 정보 중 적어도 하나의 구조 정보(structure information)를 포함하는, 신경망을 트레이닝하는 방법.
  12. 제5항에 있어서,
    상기 컨디셔널 정보로부터 제1 기하 특징을 추출하는 단계; 및
    상기 제1 합성 영상으로부터 제2 기하 특징을 추출하는 단계
    를 더 포함하고,
    상기 영상 생성 신경망을 트레이닝하는 단계는
    상기 제1 기하 특징과 상기 제2 기하 특징 간의 차이를 기초로, 상기 영상 생성 신경망을 트레이닝하기 위한 제3 로스를 생성하는 단계
    를 포함하는, 신경망을 트레이닝하는 방법.
  13. 제5항에 있어서,
    상기 변환된 컨디셔널 정보로부터 제3 기하 특징을 추출하는 단계; 및
    상기 제2 합성 영상으로부터 제4 기하 특징을 추출하는 단계
    를 더 포함하고,
    상기 영상 생성 신경망을 트레이닝하는 단계는
    상기 제3 기하 특징과 상기 제4 기하 특징 간의 차이를 기초로, 상기 영상 생성 신경망을 트레이닝하기 위한 제4 로스를 생성하는 단계
    를 포함하는, 신경망을 트레이닝하는 방법.
  14. 제13항에 있어서,
    상기 깊이 정보에 기초하여 상기 제1 합성 영상으로부터 추출한 제2 기하 특징을 변환하는 단계
    를 더 포함하고,
    상기 영상 생성 신경망을 트레이닝하는 단계는
    상기 변환된 제2 기하 특징과 상기 제2 합성 영상으로부터 추출한 제4 기하 특징 간의 차이를 기초로, 상기 영상 생성 신경망을 트레이닝하기 위한 제5 로스를 생성하는 단계
    를 포함하는, 신경망을 트레이닝하는 방법.
  15. 제5항에 있어서,
    상기 깊이 정보로부터 깊이 특징 정보를 추출하는 단계
    를 더 포함하고,
    상기 제1 합성 영상을 생성하는 단계는
    상기 영상 생성 신경망에 의해 상기 컨디셔널 정보 및 상기 깊이 특징 정보에 대응하는 제1 합성 영상을 생성하는 단계
    를 포함하는, 신경망을 트레이닝하는 방법.
  16. 제15항에 있어서,
    상기 컨디셔널 정보를 변환하는 단계는
    상기 깊이 정보에 기초하여 상기 컨디셔널 정보 및 상기 깊이 특징 정보를 변환하는 단계
    를 포함하는, 신경망을 트레이닝하는 방법.
  17. 제15항에 있어서,
    상기 제2 합성 영상을 생성하는 단계는
    상기 영상 정보를 기초로 상기 영상 생성 신경망에 의해 상기 변환된 상기 컨디셔널 정보 및 상기 변환된 깊이 특징 정보에 대응하는 제2 합성 영상을 생성하는 단계
    를 포함하는, 신경망을 트레이닝하는 방법.
  18. 제5항에 있어서,
    상기 제1 합성 영상을 가짜 영상(fake image)으로 추정하도록 영상 구분 신경망을 트레이닝하는 단계;
    상기 제2 합성 영상을 상기 가짜 영상으로 추정하도록 상기 영상 구분 신경망을 트레이닝하는 단계; 및
    상기 영상 정보를 실제 영상(real image)으로 추정하도록 상기 영상 구분 신경망을 트레이닝하는 단계
    중 적어도 하나를 더 포함하는, 신경망을 트레이닝하는 방법.
  19. 하드웨어와 결합되어 제1항 내지 제18항 중 어느 하나의 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
  20. 컨디셔널 정보 및 영상 정보를 포함하는 입력 데이터를 수신하는 통신 인터페이스;
    상기 영상 정보에 포함된 기하학적 정보를 유지하면서, 상기 컨디셔널 정보에 따라 상기 영상 정보를 변환하는 영상 생성 신경망에 상기 입력 데이터를 인가함으로써, 합성 영상을 생성하는 프로세서; 및
    상기 합성 영상을 출력하는 출력 장치
    를 포함하는, 영상을 생성하는 장치.
KR1020200150120A 2020-11-11 2020-11-11 영상을 생성하는 방법 및 장치와 영상 생성을 위한 신경망을 트레이닝하는 방법 KR20220064045A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200150120A KR20220064045A (ko) 2020-11-11 2020-11-11 영상을 생성하는 방법 및 장치와 영상 생성을 위한 신경망을 트레이닝하는 방법
US17/202,899 US11887269B2 (en) 2020-11-11 2021-03-16 Computing method and apparatus with image generation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200150120A KR20220064045A (ko) 2020-11-11 2020-11-11 영상을 생성하는 방법 및 장치와 영상 생성을 위한 신경망을 트레이닝하는 방법

Publications (1)

Publication Number Publication Date
KR20220064045A true KR20220064045A (ko) 2022-05-18

Family

ID=81454652

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200150120A KR20220064045A (ko) 2020-11-11 2020-11-11 영상을 생성하는 방법 및 장치와 영상 생성을 위한 신경망을 트레이닝하는 방법

Country Status (2)

Country Link
US (1) US11887269B2 (ko)
KR (1) KR20220064045A (ko)

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6384859B1 (en) 1995-03-29 2002-05-07 Sanyo Electric Co., Ltd. Methods for creating an image for a three-dimensional display, for calculating depth information and for image processing using the depth information
DE19737374C2 (de) 1997-08-27 1999-09-02 Ldt Gmbh & Co Verfahren zur Kompensation geometrischer Bildfehler bei Videobildern sowie ein Projektor zur Durchführung des Verfahrens
KR100612835B1 (ko) 2002-12-12 2006-08-18 삼성전자주식회사 영상의 색 특성에 관한 사용자 선호성 데이터 생성 방법및 장치와 이를 이용한 영상 색선호특성 변환 방법 및 장치
KR100707206B1 (ko) 2005-04-11 2007-04-13 삼성전자주식회사 3차원 객체의 깊이영상 기반 표현 방법 및 이를 이용한모델링 및 렌더링 방법 및 장치
KR100998443B1 (ko) 2008-08-05 2010-12-06 주식회사 메디슨 스캔 변환을 고려하여 초음파 데이터를 처리하는 초음파시스템 및 방법
US8933925B2 (en) 2009-06-15 2015-01-13 Microsoft Corporation Piecewise planar reconstruction of three-dimensional scenes
US20140378810A1 (en) 2013-04-18 2014-12-25 Digimarc Corporation Physiologic data acquisition and analysis
US9396508B2 (en) 2013-05-15 2016-07-19 Google Inc. Use of map data difference tiles to iteratively provide map data to a client device
KR101507992B1 (ko) 2014-02-28 2015-04-07 전남대학교산학협력단 시차맵 생성 방법 및 장치
EP3043316A1 (en) 2015-01-08 2016-07-13 Thomson Licensing Method and apparatus for generating superpixels for multi-view images
US9609307B1 (en) 2015-09-17 2017-03-28 Legend3D, Inc. Method of converting 2D video to 3D video using machine learning
KR101733346B1 (ko) 2016-03-11 2017-05-24 을지대학교 산학협력단 직접영상 시스템에서 정치 실영상 구현을 위한 요소영상 변환 방법
US10547823B2 (en) 2018-09-25 2020-01-28 Intel Corporation View interpolation of multi-camera array images with flow estimation and image super resolution using deep learning
KR20200048032A (ko) * 2018-10-29 2020-05-08 삼성전자주식회사 이미지 생성 장치 및 방법과 생성 모델을 트레이닝시키는 장치 및 방법
US11205096B2 (en) * 2018-11-19 2021-12-21 Google Llc Training image-to-image translation neural networks
US11288857B2 (en) * 2019-04-04 2022-03-29 Google Llc Neural rerendering from 3D models
GB201912701D0 (en) * 2019-09-04 2019-10-16 Univ Oxford Innovation Ltd Method and apparatus for enhancing medical images
US11663467B2 (en) * 2019-11-21 2023-05-30 Adobe Inc. Methods and systems for geometry-aware image contrast adjustments via image-based ambient occlusion estimation
WO2021110262A1 (en) * 2019-12-04 2021-06-10 Huawei Technologies Co., Ltd. Noise reconstruction for image denoising
US11257276B2 (en) * 2020-03-05 2022-02-22 Disney Enterprises, Inc. Appearance synthesis of digital faces
US11263487B2 (en) * 2020-03-25 2022-03-01 Microsoft Technology Licensing, Llc Multi-task GAN, and image translator and image classifier trained thereby
US11544880B2 (en) * 2020-05-14 2023-01-03 Adobe Inc. Generating modified digital images utilizing a global and spatial autoencoder
US11934959B2 (en) * 2020-06-01 2024-03-19 Nvidia Corporation Video synthesis using one or more neural networks
US11640684B2 (en) * 2020-07-21 2023-05-02 Adobe Inc. Attribute conditioned image generation
US11335062B2 (en) * 2020-08-14 2022-05-17 Accenture Global Solutions Limited Automated apparel design using machine learning

Also Published As

Publication number Publication date
US11887269B2 (en) 2024-01-30
US20220148127A1 (en) 2022-05-12

Similar Documents

Publication Publication Date Title
KR101199475B1 (ko) 3차원 모델 생성 방법 및 장치
US10685454B2 (en) Apparatus and method for generating synthetic training data for motion recognition
US8624901B2 (en) Apparatus and method for generating facial animation
Doulamis et al. Transforming Intangible Folkloric Performing Arts into Tangible Choreographic Digital Objects: The Terpsichore Approach.
US20220222897A1 (en) Portrait editing and synthesis
US20120306874A1 (en) Method and system for single view image 3 d face synthesis
KR102215101B1 (ko) 이미지로부터 획득한 객체의 특징을 이용한 포인트 클라우드 생성 장치 및 방법
US11704853B2 (en) Techniques for feature-based neural rendering
CN113593033A (zh) 一种基于网格细分结构的三维模型特征提取方法
Wu et al. Remote sensing novel view synthesis with implicit multiplane representations
US11403807B2 (en) Learning hybrid (surface-based and volume-based) shape representation
CN117413300A (zh) 用于训练量化神经辐射场的方法和系统
Yang et al. DMAT: Deformable medial axis transform for animated mesh approximation
US9117279B2 (en) Hair surface reconstruction from wide-baseline camera arrays
CN117252984A (zh) 三维模型生成方法、装置、设备、存储介质及程序产品
CN114494395A (zh) 基于平面先验的深度图生成方法、装置、设备及存储介质
US11217002B2 (en) Method for efficiently computing and specifying level sets for use in computer simulations, computer graphics and other purposes
KR20200005894A (ko) 인터랙션 동작에 대한 다른 체형 캐릭터로의 모션 리타겟팅 방법 및 그 장치
JP2008310724A (ja) 3次元形状復元装置,3次元形状復元方法,3次元形状復元プログラム及びそのプログラムを格納した記録媒体
KR20220064045A (ko) 영상을 생성하는 방법 및 장치와 영상 생성을 위한 신경망을 트레이닝하는 방법
US10403038B2 (en) 3D geometry enhancement method and apparatus therefor
KR101699847B1 (ko) 3차원 그래픽 렌더링을 위한 클리핑 장치 및 방법
KR101467735B1 (ko) 볼륨데이터를 위한 4차원 실시간 렌더링 방법 및 장치
Afzal et al. Kinect Deform: enhanced 3d reconstruction of non-rigidly deforming objects
Saval-Calvo et al. Evaluation of sampling method effects in 3D non-rigid registration

Legal Events

Date Code Title Description
A201 Request for examination