KR20220116015A - 네트워크 트레이닝 방법 및 장치, 이미지 생성 방법 및 장치 - Google Patents

네트워크 트레이닝 방법 및 장치, 이미지 생성 방법 및 장치 Download PDF

Info

Publication number
KR20220116015A
KR20220116015A KR1020227024492A KR20227024492A KR20220116015A KR 20220116015 A KR20220116015 A KR 20220116015A KR 1020227024492 A KR1020227024492 A KR 1020227024492A KR 20227024492 A KR20227024492 A KR 20227024492A KR 20220116015 A KR20220116015 A KR 20220116015A
Authority
KR
South Korea
Prior art keywords
network
image
training
latent vector
generative
Prior art date
Application number
KR1020227024492A
Other languages
English (en)
Inventor
신강 판
시아오항 잔
보 다이
다화 린
핑 루오
Original Assignee
베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 filed Critical 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Publication of KR20220116015A publication Critical patent/KR20220116015A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T3/0012
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 발명은 네트워크 트레이닝 방법 및 장치, 이미지 생성 방법 및 장치에 관한 것으로, 상기 네트워크 트레이닝 방법은 복수의 자연 이미지를 사용하여 식별 네트워크에 의한 적대적 트레이닝이 행해짐으로써 프리 트레이닝된 생성 네트워크에 잠재 벡터를 입력하여 제1 생성 이미지를 얻는 것과, 상기 제1 생성 이미지를 열화 처리하여 상기 제1 생성 이미지의 제1 열화 이미지를 얻는 것과, 상기 제1 열화 이미지 및 목표 이미지의 제2 열화 이미지에 기초하여 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하는 것과, 트레이닝이 끝난 생성 네트워크 및 트레이닝이 끝난 잠재 벡터는 상기 목표 이미지의 재구성 이미지를 생성하기 위한 것인 단계를 포함하는 것으로, 본 발명의 실시예는 생성 네트워크의 트레이닝 효과를 높일 수 있다.

Description

네트워크 트레이닝 방법 및 장치, 이미지 생성 방법 및 장치
본원은 2020년 1월 9일에 중국 특허청에 출원된 제202010023029.7호 「네트워크 트레이닝 방법 및 장치, 이미지 생성 방법 및 장치」를 발명의 명칭으로 한 중국 특허출원의 우선권을 주장하고, 그 내용 전체가 인용에 의해 본원에 포함된다.
본 발명은 컴퓨터 기술에 관한 것으로, 특히 네트워크 트레이닝 방법 및 장치, 이미지 생성 방법 및 장치에 관한 것이다.
심층 학습의 다양한 이미지 처리 태스크에서는 이미지의 선험 설계 또는 학습이 이미지 복원, 이미지 조작 등의 태스크에서의 중요한 과제이다. 예를 들면, 딥 이미지 프라이어(Deep Image Prior)는 랜덤으로 초기화된 합성곱 뉴럴 네트워크가 낮은 레벨의 이미지의 선험을 갖기 때문에, 초해상도 및 이미지 보완 등의 실현에 사용되는 것을 제안하였다.
본 발명은 네트워크 트레이닝 및 이미지 생성의 기술적 수단을 제안한다.
본 발명의 일 양태에 의하면, 복수의 자연 이미지를 사용하여 식별 네트워크에 의한 적대적 트레이닝이 행해짐으로써 프리 트레이닝된 생성 네트워크에 잠재 벡터를 입력하여 제1 생성 이미지를 얻는 것과, 상기 제1 생성 이미지를 열화 처리하여 상기 제1 생성 이미지의 제1 열화 이미지를 얻는 것과, 상기 제1 열화 이미지 및 목표 이미지의 제2 열화 이미지에 기초하여 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하는 것을 포함하고, 트레이닝된 생성 네트워크 및 트레이닝된 잠재 벡터는 상기 목표 이미지의 재구성 이미지를 생성하기 위한 것인 네트워크 트레이닝 방법을 제공한다.
가능한 일 실시형태에서는 상기 제1 열화 이미지 및 목표 이미지의 제2 열화 이미지에 기초하여 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하는 것은 상기 제1 열화 이미지 및 목표 이미지의 제2 열화 이미지 각각을 프리 트레이닝된 식별 네트워크에 입력하고 처리하여, 상기 제1 열화 이미지의 제1 식별 특징 및 상기 제2 열화 이미지의 제2 식별 특징을 얻는 것과, 상기 제1 식별 특징 및 상기 제2 식별 특징에 기초하여, 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하는 것을 포함하는 네트워크 트레이닝 방법을 제공한다.
가능한 일 실시형태에서는 상기 식별 네트워크가 다단 식별 네트워크 블록을 포함하고, 상기 제1 열화 이미지 및 목표 이미지의 제2 열화 이미지 각각을 프리 트레이닝된 식별 네트워크에 입력하고 처리하여, 상기 제1 열화 이미지의 제1 식별 특징 및 상기 제2 열화 이미지의 제2 식별 특징을 얻는 것은 상기 제1 열화 이미지를 상기 식별 네트워크에 입력하고 처리하여, 상기 식별 네트워크의 다단 식별 네트워크 블록에서 출력된 복수의 제1 식별 특징을 얻는 것과, 상기 제2 열화 이미지를 상기 식별 네트워크에 입력하고 처리하여, 상기 식별 네트워크의 다단 식별 네트워크 블록에서 출력된 복수의 제2 식별 특징을 얻는 것을 포함하는 네트워크 트레이닝 방법을 제공한다.
가능한 일 실시형태에서는 상기 제1 식별 특징 및 상기 제2 식별 특징에 기초하여 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하는 것은 상기 제1 식별 특징과 상기 제2 식별 특징 사이의 거리에 기초하여 상기 생성 네트워크의 네트워크 손실을 결정하는 것과, 상기 생성 네트워크의 네트워크 손실에 기초하여 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하는 것을 포함하는 네트워크 트레이닝 방법을 제공한다.
가능한 일 실시형태에서는 상기 생성 네트워크는 N단의 생성 네트워크 블록을 포함하고, 상기 생성 네트워크의 네트워크 손실에 기초하여 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하는 것은 n-1회째 트레이닝 후의 생성 네트워크의 네트워크 손실에 기초하여, 상기 생성 네트워크 전의 n단의 생성 네트워크 블록을 트레이닝하여 n회째 트레이닝 후의 생성 네트워크를 얻는 것을 포함하고, 1≤n≤N, n, N이 정수인 네트워크 트레이닝 방법을 제공한다.
가능한 일 실시형태에서는 상기 방법은 프리 트레이닝된 생성 네트워크에 복수의 초기 잠재 벡터를 입력하여 복수의 제2 생성 이미지를 얻는 것과, 상기 목표 이미지와 상기 복수의 제2 생성 이미지 사이의 차이 정보에 기초하여 상기 복수의 초기 잠재 벡터로부터 상기 잠재 벡터를 결정하는 것을 추가로 포함한다.
가능한 일 실시형태에서는 상기 방법은 프리 트레이닝된 인코드 네트워크에 상기 목표 이미지를 입력하고 상기 잠재 벡터를 출력하는 것을 추가로 포함한다.
가능한 일 실시형태에서는 상기 방법은 트레이닝된 생성 네트워크에 트레이닝된 잠재 벡터를 입력하여 상기 목표 이미지의 재구성 이미지를 얻는 것을 추가로 포함하고, 상기 재구성 이미지는 컬러 이미지를 포함하고, 상기 목표 이미지의 제2 열화 이미지는 그레이 스케일 이미지를 포함하거나, 또는 상기 재구성 이미지는 완전 이미지를 포함하고, 상기 제2 열화 이미지는 결손 이미지를 포함하거나, 또는 상기 재구성 이미지의 해상도는 상기 제2 열화 이미지의 해상도보다 크다.
본 발명의 일 양태에 의하면, 랜덤 지터 정보에 기초하여 제1 잠재 벡터를 섭동 처리하여 섭동 후의 제1 잠재 벡터를 얻는 것과, 상기 섭동 후의 제1 잠재 벡터를 제1 생성 네트워크에 입력하고 처리하여, 목표 이미지와 대상물의 위치가 상이한 목표 이미지의 재구성 이미지를 얻는 것을 포함하고, 상기 제1 잠재 벡터 및 상기 제1 생성 네트워크는 상기 네트워크 트레이닝 방법에 의해 트레이닝하여 얻어지는 것인 이미지 생성 방법을 제공한다.
본 발명의 일 양태에 의하면, 제2 잠재 벡터 및 프리셋 카테고리의 카테고리 특징을 조건 생성 네트워크를 포함하는 제2 생성 네트워크에 입력하고 처리하여 목표 이미지의 재구성 이미지를 얻는 것을 포함하고, 상기 재구성 이미지에서의 대상물의 카테고리는 상기 프리셋 카테고리를 포함하고, 상기 목표 이미지에서의 대상물의 카테고리는 상기 프리셋 카테고리와 상이하고, 상기 제2 잠재 벡터 및 상기 제2 생성 네트워크는 상기 네트워크 트레이닝 방법에 의해 트레이닝하여 얻어지는 것인 이미지 생성 방법을 제공한다.
본 발명의 일 양태에 의하면, 제3 잠재 벡터와 제4 잠재 벡터 사이, 제3 잠재 벡터에 기초하여 제1 목표 이미지의 재구성 이미지를 생성하기 위한 제3 생성 네트워크의 파라미터와 제4 잠재 벡터에 기초하여 제2 목표 이미지의 재구성 이미지를 생성하기 위한 제4 생성 네트워크의 파라미터 사이를 각각 보간 처리하여 하나 이상의 보간 잠재 벡터 및 하나 이상의 보간 생성 네트워크의 파라미터를 얻는 것과, 각 보간 잠재 벡터를 대응하는 보간 생성 네트워크에 각각 입력하여, 하나 이상의, 대상물의 자세가 상기 제1 목표 이미지에서의 대상물의 자세와 상기 제2 목표 이미지에서의 대상물의 자세 사이에 있는 변형 이미지를 얻는 것을 포함하고, 상기 제3 잠재 벡터 및 상기 제3 생성 네트워크, 상기 제4 잠재 벡터 및 상기 제4 생성 네트워크는 상기 네트워크 트레이닝 방법에 의해 트레이닝하여 얻어지는 것인 이미지 생성 방법을 제공한다.
본 발명의 일 양태에 의하면, 복수의 자연 이미지를 사용하여 식별 네트워크에 의한 적대적 트레이닝이 행해짐으로써 프리 트레이닝된 생성 네트워크에 잠재 벡터를 입력하여 제1 생성 이미지를 얻기 위한 제1 생성 모듈과, 상기 제1 생성 이미지를 열화 처리하여, 상기 제1 생성 이미지의 제1 열화 이미지를 얻기 위한 열화 모듈과, 상기 제1 열화 이미지 및 목표 이미지의 제2 열화 이미지에 기초하여, 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하기 위한 트레이닝 모듈을 포함하고, 트레이닝된 생성 네트워크 및 트레이닝된 잠재 벡터는 상기 목표 이미지의 재구성 이미지를 생성하기 위한 것인 네트워크 트레이닝 장치를 제공한다.
가능한 일 실시형태에서는 상기 트레이닝 모듈은 상기 제1 열화 이미지 및 목표 이미지의 제2 열화 이미지 각각을 프리 트레이닝된 식별 네트워크에 입력하고 처리하여, 상기 제1 열화 이미지의 제1 식별 특징 및 상기 제2 열화 이미지의 제2 식별 특징을 얻기 위한 특징 취득 서브 모듈과, 상기 제1 식별 특징 및 상기 제2 식별 특징에 기초하여, 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하기 위한 제1 트레이닝 서브 모듈을 포함한다.
가능한 일 실시형태에서는 상기 식별 네트워크는 다단 식별 네트워크 블록을 포함하고, 상기 특징 취득 서브 모듈은 상기 제1 열화 이미지를 상기 식별 네트워크에 입력하고 처리하여, 상기 식별 네트워크의 다단 식별 네트워크 블록에서 출력된 복수의 제1 식별 특징을 얻기 위한 제1 취득 서브 모듈과, 상기 제2 열화 이미지를 상기 식별 네트워크에 입력하고 처리하여, 상기 식별 네트워크의 다단 식별 네트워크 블록에서 출력된 복수의 제2 식별 특징을 얻기 위한 제2 취득 서브 모듈을 포함한다.
가능한 일 실시형태에서는 상기 제1 트레이닝 서브 모듈은 상기 제1 식별 특징과 상기 제2 식별 특징 사이의 거리에 기초하여 상기 생성 네트워크의 네트워크 손실을 결정하기 위한 손실 결정 서브 모듈과, 상기 생성 네트워크의 네트워크 손실에 기초하여 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하기 위한 제2 트레이닝 서브 모듈을 포함한다.
가능한 일 실시형태에서는 상기 생성 네트워크는 N단 생성 네트워크 블록을 포함하고, 상기 제2 트레이닝 서브 모듈은 n-1회째 트레이닝 후의 생성 네트워크의 네트워크 손실에 기초하여 상기 생성 네트워크 전의 n단 생성 네트워크 블록을 트레이닝하여 n회째 트레이닝 후의 생성 네트워크를 얻기 위한 것이고, 1≤n≤N, n, N이 정수이다.
가능한 일 실시형태에서는 상기 장치는 프리 트레이닝된 생성 네트워크에 복수의 초기 잠재 벡터를 입력하여 복수의 제2 생성 이미지를 얻기 위한 제2 생성 모듈과, 상기 목표 이미지와 상기 복수의 제2 생성 이미지 사이의 차이 정보에 기초하여 상기 복수의 초기 잠재 벡터로부터 상기 잠재 벡터를 결정하기 위한 제1 벡터 결정 모듈을 추가로 포함한다.
가능한 일 실시형태에서는 상기 장치는 프리 트레이닝된 인코드 네트워크에 목표 이미지를 입력하고 상기 잠재 벡터를 출력하기 위한 제2 벡터 결정 모듈을 추가로 포함한다.
가능한 일 실시형태에서는 상기 장치는 트레이닝된 생성 네트워크에 트레이닝된 잠재 벡터를 입력하여 상기 목표 이미지의 재구성 이미지를 얻기 위한 제1 재구성 모듈을 추가로 포함하고, 상기 재구성 이미지는 컬러 이미지를 포함하고, 상기 목표 이미지의 제2 열화 이미지는 그레이 스케일 이미지를 포함하거나, 또는 상기 재구성 이미지는 완전 이미지를 포함하고, 상기 제2 열화 이미지는 결손 이미지를 포함하거나, 또는 상기 재구성 이미지의 해상도는 상기 제2 열화 이미지의 해상도보다 크다.
본 발명의 일 양태에 의하면, 랜덤 지터 정보에 기초하여 제1 잠재 벡터를 섭동 처리하여 섭동 후의 제1 잠재 벡터를 얻기 위한 섭동 모듈과, 상기 섭동 후의 제1 잠재 벡터를 제1 생성 네트워크에 입력하고 처리하여, 목표 이미지와 대상물의 위치가 상이한 목표 이미지의 재구성 이미지를 얻기 위한 제2 재구성 모듈을 포함하고, 상기 제1 잠재 벡터 및 상기 제1 생성 네트워크는 상기 네트워크 트레이닝 장치에 의해 트레이닝하여 얻어지는 것인 이미지 생성 장치를 제공한다.
본 발명의 일 양태에 의하면, 제2 잠재 벡터 및 프리셋 카테고리의 카테고리 특징을 조건 생성 네트워크를 포함하는 제2 생성 네트워크에 입력하고 처리하여, 목표 이미지의 재구성 이미지를 얻기 위한 제3 재구성 모듈을 포함하고, 상기 재구성 이미지에서의 대상물의 카테고리는 상기 프리셋 카테고리를 포함하고, 상기 목표 이미지에서의 대상물의 카테고리는 상기 프리셋 카테고리와 상이한 제3 재구성 모듈을 포함하고, 상기 제2 잠재 벡터 및 상기 제2 생성 네트워크는 상기 네트워크 트레이닝 장치에 의해 트레이닝하여 얻어지는 이미지 생성 장치를 제공한다.
본 발명의 일 양태에 의하면, 제3 잠재 벡터와 제4 잠재 벡터 사이, 제3 잠재 벡터에 기초하여 제1 목표 이미지의 재구성 이미지를 생성하기 위한 제3 생성 네트워크의 파라미터와 제4 잠재 벡터에 기초하여 제2 목표 이미지의 재구성 이미지를 생성하기 위한 제4 생성 네트워크의 파라미터 사이를 각각 보간 처리하여 하나 이상의 보간 잠재 벡터 및 하나 이상의 보간 생성 네트워크의 파라미터를 얻기 위한 보간 모듈과, 각 보간 잠재 벡터를 대응하는 보간 생성 네트워크에 각각 입력하여, 하나 이상의, 대상물의 자세가 상기 제1 목표 이미지에서의 대상물의 자세와 상기 제2 목표 이미지에서의 대상물의 자세 사이에 있는 변형 이미지를 얻기 위한 변형 이미지 취득 모듈을 포함하고, 상기 제3 잠재 벡터 및 상기 제3 생성 네트워크, 상기 제4 잠재 벡터 및 상기 제4 생성 네트워크는 상기 네트워크 트레이닝 장치에 의해 트레이닝하여 얻어지는 것인 이미지 생성 장치를 제공한다.
본 발명의 일 양태에 의하면, 프로세서와, 프로세서가 실행 가능한 명령을 기억하기 위한 메모리를 포함하고, 상기 프로세서는 상기 메모리에 기억된 명령을 불러내어 상기 방법을 실행하도록 구성되는 전자 기기를 제공한다.
본 발명의 일 양태에 의하면, 컴퓨터 프로그램 명령은 기억되어 있는 컴퓨터 판독 가능 기억 매체로서, 상기 컴퓨터 프로그램 명령은 프로세서에 의해 실행되면, 상기 방법을 실현시키는 컴퓨터 판독 가능 기억 매체를 제공한다.
본 발명의 일 양태에 의하면, 컴퓨터 판독 가능 코드를 포함하고, 상기 컴퓨터 판독 가능 코드는 전자 기기에서 동작하면, 상기 전자 기기의 프로세서에 상기 이미지 처리 방법을 실현하기 위한 명령을 실행시키는 컴퓨터 프로그램을 제공한다.
본 발명의 실시예에서는 프리 트레이닝된 생성 네트워크에 의해 생성 이미지를 얻고, 생성 이미지의 열화 이미지와 최초 이미지의 열화 이미지 사이의 차이에 기초하여 잠재 벡터 및 생성 네트워크를 동시에 트레이닝할 수 있기 때문에, 생성 네트워크의 트레이닝 효과를 높이고, 보다 정확한 이미지 재구성을 실현할 수 있다.
이상의 개략적인 설명과 다음의 상세한 설명은 예시적이고 해석적인 것에 불과하고, 본 발명을 한정하는 것은 아님을 이해해야 한다. 이하의 도면과 관련된 예시적인 실시예에 대한 상세한 설명에 의하면, 본 발명의 다른 특징 및 양태는 명확해진다.
여기서, 본 명세서의 일부로서 포함되는 도면은 본 발명의 실시예에 바람직하고, 명세서와 함께 본 발명의 기술 방안의 설명에 사용된다.
도 1은 본 발명의 실시예에 따른 네트워크의 트레이닝 방법의 흐름도를 나타낸다.
도 2는 본 발명의 실시예에 따른 생성 네트워크의 트레이닝 프로세스의 모식도를 나타낸다.
도 3은 본 발명의 실시예에 따른 네트워크 트레이닝 장치의 블록도를 나타낸다.
도 4는 본 발명의 실시예에 따른 전자 기기의 블록도를 나타낸다.
도 5는 본 발명의 실시예에 따른 전자 기기의 블록도를 나타낸다.
이하에 도면을 참조하면서 본 발명의 다양한 예시적 실시예, 특징 및 측면을 상세하게 설명한다. 도면에서, 동일한 부호가 동일하거나 또는 유사한 기능의 요소를 나타낸다. 도면에서 실시예의 다양한 측면을 나타냈지만, 특별히 언급하지 않는 한, 비례에 기초하여 도면을 그릴 필요가 없다.
여기서의 용어 「예시적」이란 「예, 실시예로서 사용되는 것 또는 설명적인 것」을 의미한다. 여기서, 「예시적」으로 설명되는 어떠한 실시예도 다른 실시예보다 바람직하거나 또는 우수한 것으로 이해해서는 안된다.
본 명세서에서의 용어 「및/또는」은 관련 대상의 연관 관계를 기술하는 것에 불과하고, 3개의 관계가 존재 가능함을 나타내고, 예를 들면, A 및/또는 B는 A만이 존재하는 경우, A와 B 양방이 존재하는 경우, B만이 존재하는 경우와 같은 3개의 경우를 나타낼 수 있다. 또한, 본 명세서에서의 용어 「하나 이상」은 복수 중 어느 하나, 또는 복수 중 2개 이상의 임의의 조합을 나타내고, 예를 들면, A, B 및 C 중 하나 이상을 포함하는 것은 A, B 및 C로 구성되는 집합에서 선택된 어느 하나 또는 복수의 요소를 포함하는 것을 나타낼 수 있다.
또한, 본 발명을 보다 효과적으로 설명하기 위해 이하의 구체적인 실시형태에서 다양한 구체적인 상세를 나타낸다. 당업자라면 본 발명은 어떠한 구체적인 상세가 없어도, 동일하게 실시할 수 있음을 이해해야 한다. 일부 실시예에서는 본 발명의 취지를 강조하기 위해 당업자에게 이미 알려져 있는 방법, 수단, 요소 및 회로에 대해 상세한 설명을 생략한다.
이미지 복원류, 이미지 편집류의 애플리케이션 또는 소프트웨어에서는 통상, 색채화, 이미지 보완, 초해상도, 적대 방어, 이미지 모핑 등의 이미지 복원 및/또는 이미지 조작 태스크를 실현하기 위해 목표 이미지를 재구성할 필요가 있다. 이미지 재구성시에, 대규모의 자연 이미지로부터 학습한 적대적 생성 네트워크(Generative Adversarial Networks, GAN이라고 약칭함)에서의 생성 네트워크를 공통의 이미지의 선험으로서 사용하여, 잠재 벡터 및 생성기 파라미터를 동시에 최적화하여 이미지 재구성을 행하여 이미지 재구성의 정밀도를 높일 수 있기 때문에, 이에 의해 목표 이미지 이외의 정보를 회복하는 것, 또는 이미지의 높은 레벨의 시맨틱스의 조작을 실현할 수 있다.
도 1은 본 발명의 실시예에 따른 네트워크를 트레이닝하는 방법의 흐름도를 나타낸다. 도 1에 나타내는 바와 같이, 상기 네트워크 트레이닝 방법은
복수의 자연 이미지를 사용하여 식별 네트워크에 의한 적대적 트레이닝이 행해짐으로써 프리 트레이닝된 생성 네트워크에 잠재 벡터를 입력하여 제1 생성 이미지를 얻는 단계(S11)와,
상기 제1 생성 이미지를 열화 처리하여 상기 제1 생성 이미지의 제1 열화 이미지를 얻는 단계(S12)와,
상기 제1 열화 이미지 및 목표 이미지의 제2 열화 이미지에 기초하여, 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하는 단계(S13)를 포함한다. 트레이닝된 생성 네트워크 및 트레이닝된 잠재 벡터는 상기 목표 이미지의 재구성 이미지를 생성하기 위한 것이다.
가능한 일 실시형태에서는 상기 네트워크를 트레이닝하는 방법은 사용자 기기(User Equipment, UE), 휴대 기기, 사용자 단말, 단말, 셀룰러 폰, 무선 전화, 퍼스널 디지털 어시스턴트(Personal Digital Assistant, PDA), 휴대 장치, 계산 장치, 차재 장치, 웨어러블 디바이스 등의 단말 장치, 또는 서버 등의 전자 기기에 의해 실행되어도 된다. 상기 방법은 프로세서에 의해 메모리에 기억되어 있는 컴퓨터 판독 가능 명령을 불러냄으로써 실현해도 된다. 혹은 서버에 의해 상기 방법을 실행해도 된다.
관련 기술에서는 적대적 생성 네트워크는 널리 사용되고 있는 생성 모델이고, 잠재 벡터를 생성 이미지에 매핑하기 위한 생성 네트워크(G)(Generator)와, 생성 이미지와 실제 이미지를 구별하는 식별 네트워크(D)(Discriminator)를 포함한다. 잠재 벡터는 예를 들면, 샘플링에 의해 다변량 가우스 분포에서 얻어지는 것이어도 된다. 생성 네트워크(G)와 식별 네트워크(D)는 적대적 학습(adversarial learning)에 의해 트레이닝된다. 트레이닝 완료 후, 생성 네트워크(G)에서, 샘플링에 의해 합성 이미지를 얻을 수 있다.
가능한 일 실시형태에서는 복수의 자연 이미지(Natural image)를 사용하여 생성 네트워크와 식별 네트워크를 적대적 트레이닝하도록 해도 된다. 자연 이미지는 자연 경치를 객관적으로 반영하는 이미지여도 된다. 대량의 자연 이미지를 샘플로 함으로써 생성 네트워크 및 식별 네트워크가 보다 공통의 이미지의 선험 정보를 학습할 수 있다. 적대적 트레이닝한 후, 프리 트레이닝된 생성 네트워크 및 식별 네트워크를 얻을 수 있다. 본 발명은 자연 이미지의 선택 및 적대적 트레이닝의 구체적인 트레이닝 방법을 제한하는 것이 아니다.
이미지 재구성 태스크에서는 x가 최초의 자연 이미지(목표 이미지라고도 함)이고,
Figure pct00001
가 일부 정보가 손실된 이미지(예를 들면, 색의 손실, 이미지 블록의 손실, 해상도의 손실 등, 이하, 이와 같은 이미지를 열화(degraded) 이미지라고 함)라고 가정한다.
Figure pct00002
의 손실된 정보의 종류에 따라,
Figure pct00003
는 목표 이미지를 열화 처리하여 얻어진 것(즉,
Figure pct00004
에 의해 얻어진 것)으로 해도 된다. 여기서, φ는 대응하는 열화 변환이다(예를 들면, φ는 컬러 이미지를 그레이 스케일 이미지로 변환하는 그레이 스케일화 변환이어도 됨). 이 경우에는 생성 네트워크에 의한 열화 이미지
Figure pct00005
를 열화 공간에서 이미지 재구성하도록 해도 된다.
또한, 실제 응용에서는 예를 들면, 조기의 흑백 카메라에 의한 흑백 사진, 또는 저해상도 카메라에 의한 저해상도 사진 등과 같은, 최초의 목표 이미지(x)가 없고 열화 후의 이미지
Figure pct00006
만 있는 경우가 많다. 따라서, 「목표 이미지의 열화 처리하는」 것은 가정 단계 또는 외부 요인/장치의 제한에 의해 불가피한 단계인 것으로 해도 된다.
가능한 일 실시형태에서는 단계(S11)에서, 잠재 벡터가 프리 트레이닝된 생성 네트워크에 입력되어 제1 생성 이미지를 얻도록 해도 된다. 이 잠재 벡터는 예를 들면, 랜덤하게 초기화된 잠재 벡터여도 된다. 본 발명은 이를 제한하는 것이 아니다.
가능한 일 실시형태에서는 단계(S12)에서, 이 제1 생성 이미지를 열화 처리하여 제1 생성 이미지의 제1 열화 이미지를 얻도록 해도 된다. 이 열화 처리의 방법은 목표 이미지를 열화하는 방법과 동일하고, 예를 들면, 그레이 스케일화 처리이다.
가능한 일 실시형태에서는 단계(S13)에서, 제1 생성 이미지의 제1 열화 이미지와 목표 이미지의 제2 열화 이미지 사이의 차이(예를 들면, 유사도 또는 거리)에 기초하여 잠재 벡터 및 생성 네트워크를 트레이닝하도록 해도 된다. 생성 네트워크의 트레이닝 목표는 이하와 같이 나타내도 된다.
Figure pct00007
식 (1)에 있어서, θ는 생성 네트워크(G)의 파라미터를 나타내도 되고, z는 피트레이닝의 잠재 벡터를 나타내도 되고, G(z, θ)는 제1 생성 이미지를 나타내도 되고, φ(G(z, θ))는 제1 생성 이미지의 열화 이미지(제1 열화 이미지라고도 함)를 나타내도 되고,
Figure pct00008
는 목표 이미지의 열화 이미지(제2 열화 이미지라고도 함)를 나타내도 되고, L은 제1 열화 이미지와 제2 열화 이미지 사이의 유사도 지표를 나타내도 된다. z*는 트레이닝된 잠재 벡터를 나타내도 되고, θ*는 트레이닝된 생성 네트워크의 파라미터를 나타내도 되고, x*는 목표 이미지의 재구성 이미지를 나타내도 된다.
트레이닝 프로세스 중, 제1 열화 이미지와 제2 열화 이미지 사이의 유사도에 기초하여 네트워크 손실을 결정하고, 네트워크 손실에 기초하여 잠재 벡터 및 생성 네트워크의 파라미터를 복수회 반복적으로 최적화하고, 네트워크 손실은 수렴시켜 트레이닝이 끝난 잠재 벡터 및 생성 네트워크를 얻도록 해도 된다. 이 트레이닝된 잠재 벡터 및 생성 네트워크는 목표 이미지의 재구성 이미지를 생성하고, 목표 이미지에서의 이미지 정보를 회복하기 위한 것이다. 생성 네트워크(G)가 자연 이미지의 분포를 학습했기 때문에, 재구성의 x*
Figure pct00009
가 손실된 자연 이미지 정보를 회복할 수 있다. 예를 들면,
Figure pct00010
가 그레이 스케일도이면, x*는 그것에 매칭되는 컬러 이미지이다.
가능한 일 실시형태에서는 트레이닝 프로세스 중, 역전파 알고리즘 및 ADAM(Adaptive Moment, 적응 모멘트 추정) 최적화 알고리즘에 의해, 잠재 벡터 및 생성 네트워크의 파라미터를 조정하도록 해도 된다. 본 발명은 구체적인 트레이닝 방법을 제한하는 것은 아니다.
본 발명의 실시예에 의하면, 프리 트레이닝된 생성 네트워크에 의해 생성 이미지를 얻고, 생성 이미지의 열화 이미지와 최초 이미지의 열화 이미지 사이의 차이에 기초하여 잠재 벡터 및 생성 네트워크를 동시에 트레이닝하여 생성 네트워크의 트레이닝 효과를 높이고, 보다 정확한 이미지 재구성을 실현할 수 있다.
가능한 일 실시형태에서는 단계(S11) 전에, 트레이닝 대상인 잠재 벡터를 미리 결정하도록 해도 된다. 이 잠재 벡터는 예를 들면, 랜덤 샘플링에 의해 다변량 가우스 분포로부터 직접 얻어지는 것이어도 되고, 다른 방법에 의해 얻어지는 것이어도 된다.
가능한 일 실시형태에서는 상기 방법은 프리 트레이닝된 생성 네트워크에 복수의 초기 잠재 벡터를 입력하여 복수의 제2 생성 이미지를 얻는 것과, 상기 목표 이미지와 상기 복수의 제2 생성 이미지 사이의 차이 정보에 기초하여 상기 복수의 초기 잠재 벡터로부터 상기 잠재 벡터를 결정하는 것을 추가로 포함한다.
예를 들면, 랜덤 샘플링에 의해 복수의 초기 잠재 벡터를 얻고, 각 초기 잠재 벡터를 프리 트레이닝된 생성 네트워크(G)에 각각 입력하여 복수의 제2 생성 이미지를 얻도록 해도 된다. 그리고, 최초의 목표 이미지와 각 제2 생성 이미지의 차이에 관한 정보를 취득하는 것, 예를 들면, 목표 이미지와 각 제2 생성 이미지 사이의 유사도(예를 들면, L1 거리)를 계산함으로써, 차이가 가장 작은(즉, 유사도가 가장 큰) 제2 생성 이미지를 결정하도록 해도 된다. 이와 함께, 이 제2 생성 이미지에 대응하는 초기 잠재 벡터는 트레이닝 대상인 잠재 벡터로서 결정하도록 해도 된다. 이와 같은 방법에 의해, 결정된 잠재 벡터가 목표 이미지의 이미지 정보에 가깝게 할 수 있어, 트레이닝 효율을 높일 수 있다.
가능한 일 실시형태에서는 상기 방법은 프리 트레이닝된 인코드 네트워크에 상기 목표 이미지를 입력하고 상기 잠재 벡터를 출력하는 것을 추가로 포함한다.
예를 들면, 목표 이미지를 잠재 벡터로 인코드하기 위한 인코드 네트워크(예를 들면, 합성곱 뉴럴 네트워크)를 미리 설정하도록 해도 된다. 샘플 이미지에 의해 이 인코드 네트워크를 프리 트레이닝하여 프리 트레이닝된 인코드 네트워크를 얻도록 해도 된다. 예를 들면, 샘플 이미지를 인코드 네트워크에 입력하여 잠재 벡터를 얻고, 잠재 벡터를 프리 트레이닝된 생성 네트워크에 입력하여 생성 이미지를 얻는다. 그리고, 생성 이미지와 샘플 이미지 사이의 차이에 기초하여 상기 인코드 네트워크를 트레이닝한다. 본 발명은 구체적인 트레이닝 방법을 제한하는 것은 아니다.
프리 트레이닝 후에, 목표 이미지를 프리 트레이닝된 인코드 네트워크에 입력하여 트레이닝 대상인 잠재 벡터를 출력하도록 해도 된다. 이 방법에 의해, 결정된 잠재 벡터가 목표 이미지의 이미지 정보에 보다 가깝게 할 수 있어, 트레이닝 효율을 높일 수 있다.
가능한 일 실시형태에서는 단계(S13)는 상기 제1 열화 이미지 및 목표 이미지의 제2 열화 이미지 각각을 프리 트레이닝된 식별 네트워크에 입력하고 처리하여, 상기 제1 열화 이미지의 제1 식별 특징 및 상기 제2 열화 이미지의 제2 식별 특징을 얻는 것과,
상기 제1 식별 특징 및 상기 제2 식별 특징에 기초하여, 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하는 것을 포함해도 된다.
예를 들면, 재구성 이미지가 왜곡되지 않는 것을 확보하기 위해 생성 네트워크에 대응하는 식별 네트워크에 의해 이 생성 네트워크를 트레이닝하도록 해도 된다. 제1 열화 이미지 및 목표 이미지의 제2 열화 이미지를 프리 트레이닝된 식별 네트워크에 각각 입력하여 처리를 행하여, 제1 열화 이미지의 제1 식별 특징 및 상기 제2 열화 이미지의 제2 식별 특징을 출력하고, 제1 식별 특징 및 제2 식별 특징에 기초하여 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하도록 해도 된다. 예를 들면, 제1 식별 특징과 제2 식별 특징 사이의 L1 거리에 기초하여 생성 네트워크의 네트워크 손실을 결정하고, 추가로 네트워크 손실에 기초하여 잠재 벡터 및 생성 네트워크의 파라미터를 조정한다. 이 방법에 의해, 재구성 이미지의 진실성을 보다 양호하게 확보할 수 있다.
가능한 일 실시형태에서는 상기 식별 네트워크가 다단 식별 네트워크 블록을 포함하고,
상기 제1 열화 이미지 및 목표 이미지의 제2 열화 이미지 각각을 프리 트레이닝된 식별 네트워크에 입력하고 처리하여, 상기 제1 열화 이미지의 제1 식별 특징 및 상기 제2 열화 이미지의 제2 식별 특징을 얻는 것은
상기 제1 열화 이미지를 상기 식별 네트워크에 입력하고 처리하여, 상기 식별 네트워크의 다단 식별 네트워크 블록에서 출력된 복수의 제1 식별 특징을 얻는 것과,
상기 제2 열화 이미지를 상기 식별 네트워크에 입력하고 처리하여, 상기 식별 네트워크의 다단 식별 네트워크 블록에서 출력된 복수의 제2 식별 특징을 얻는 것을 포함한다.
예를 들면, 식별 네트워크는 다단 식별 네트워크 블록(block)을 포함해도 되고, 각 식별 네트워크 블록은 예를 들면, 잔차 블록이어도 되고, 각 잔차 블록은 예를 들면, 하나 이상의 잔차 계층 및 전체 결합층, 풀링층을 포함한다. 본 발명은 각 식별 네트워크 블록의 구체적인 구조를 제한하는 것은 아니다.
가능한 일 실시형태에서는 제1 열화 이미지를 식별 네트워크에 입력하고 처리하여, 각 단의 식별 네트워크 블록에서 출력된 제1 식별 특징을 얻도록 해도 된다. 동일하게, 제2 열화 이미지를 식별 네트워크에 입력하고 처리하여, 각 단의 식별 네트워크 블록으로부터 출력된 제2 식별 특징을 얻도록 해도 된다. 이 방법에 의해, 식별 네트워크의 상이한 레벨의 특징을 얻을 수 있고, 후속하는 유사도 지표를 보다 정확하게 할 수 있다.
가능한 일 실시형태에서는 상기 제1 식별 특징 및 상기 제2 식별 특징에 기초하여 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하는 것은
상기 제1 식별 특징과 상기 제2 식별 특징 사이의 거리에 기초하여 상기 생성 네트워크의 네트워크 손실을 결정하는 것과, 상기 생성 네트워크의 네트워크 손실에 기초하여 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하는 것을 포함해도 된다.
예를 들면, 복수의 제1 식별 특징과 복수의 제2 식별 특징 사이의 L1 거리를 결정하도록 해도 된다.
Figure pct00011
식 (2)에 있어서, x1은 제1 열화 이미지를 나타내고, x2는 제2 열화 이미지를 나타내도 되고, D(x1,i) 및 D(x2,i)는 i단째의 식별 네트워크 블록에서 출력된 제1 식별 특징 및 제2 식별 특징을 각각 나타내도 되고, I는 식별 네트워크 블록의 단수를 나타내도 되고, 1≤i≤I, i, I가 정수이다.
가능한 일 실시형태에서는 이 L1 거리를 직접적으로 생성 네트워크의 네트워크 손실로 해도 되고, 이 L1 거리와 다른 손실 함수의 조합을 함께 생성 네트워크의 네트워크 손실로 해도 된다. 또한 네트워크 손실에 기초하여 생성 네트워크를 트레이닝한다. 본 발명은 손실 함수의 선택 및 조합 방법을 제한하는 것은 아니다.
다른 유사도 지표와 비교하여, 이 방법은 재구성 이미지의 진실성을 보다 잘 확보할 수 있고, 생성 네트워크의 트레이닝 효과를 높일 수 있다.
가능한 일 실시형태에서는 상기 생성 네트워크는 N단의 생성 네트워크 블록을 포함하고,
상기 생성 네트워크의 네트워크 손실에 기초하여, 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하는 것은
n-1회째 트레이닝 후의 생성 네트워크의 네트워크 손실에 기초하여, 상기 생성 네트워크 전의 n단의 생성 네트워크 블록을 트레이닝하여 n회째 트레이닝 후의 생성 네트워크를 얻는 것을 포함하고, 1≤n≤N, n, N이 정수이다.
예를 들면, 생성 네트워크는 N단의 생성 네트워크 블록을 포함해도 되고, 각 단의 생성 네트워크 블록은 예를 들면, 하나 이상의 합성곱층을 포함해도 된다. 본 발명은 각 단의 생성 네트워크 블록의 구체적인 구조를 제한하는 것은 아니다.
가능한 일 실시형태에서는 점진적(progressive) 파라미터 최적화 방법에 의해 네트워크를 트레이닝하도록 해도 된다. 트레이닝 프로세스를 N회로 나누고, N회 트레이닝 중 어느 1회(제n 회로 함)에 대해, n-1회째 트레이닝 후의 생성 네트워크의 네트워크 손실에 기초하여, 상기 생성 네트워크 전의 n단의 생성 네트워크 블록을 트레이닝하여 n회째 트레이닝 후의 생성 네트워크를 얻는다. n=1일 때, n-1회째 트레이닝 후의 생성 네트워크는 프리 트레이닝된 생성 네트워크이다.
즉, 프리 트레이닝된 생성 네트워크의 네트워크 손실에 기초하여, 생성 네트워크의 1단째의 생성 네트워크 블록을 트레이닝하여, 1회째 트레이닝 후의 생성 네트워크를 얻고, 1회째 트레이닝 후의 생성 네트워크의 네트워크 손실에 기초하여, 생성 네트워크의 1단째 및 2단째의 생성 네트워크 블록을 트레이닝하여, 2회째 트레이닝 후의 생성 네트워크를 얻도록 해도 된다. 이와 같이, n-1회째 트레이닝 후의 생성 네트워크의 네트워크 손실에 기초하여, 생성 네트워크의 1단째 내지 n단째 생성 네트워크 블록을 트레이닝하여, n회째 트레이닝 후의 생성 네트워크를 얻고, 최종적인 생성 네트워크로 한다.
도 2는 본 발명의 실시예에 따른 생성 네트워크를 트레이닝 프로세스의 모식도를 나타낸다. 도 2에 나타내는 바와 같이, 생성 네트워크(21)는 예를 들면, 4단의 생성 네트워크 블록을 포함해도 되고, 식별 네트워크(22)는 예를 들면, 4단의 식별 네트워크 블록을 포함해도 된다. 잠재 벡터(도시하지 않음)를 생성 네트워크(21)에 입력하여 생성 이미지(23)를 얻는다. 생성 이미지(23)를 식별 네트워크(22)에 입력하여 식별 네트워크(22)의 4단 식별 네트워크 블록의 출력 특징을 얻는다. 이 4단의 식별 네트워크 블록의 출력 특징을 생성 네트워크(21)의 네트워크 손실로 한다. 생성 네트워크(21)의 트레이닝 프로세스를 4회로 나누도록 해도 된다. 1회째에 1단째의 생성 네트워크 블록을 트레이닝하고, 2회째에 1단째 및 2단째의 생성 네트워크 블록을 트레이닝하고, …제4 회가 1단째 내지 4단째의 생성 네트워크 블록을 트레이닝하여, 트레이닝된 생성 네트워크를 얻는다.
우선, 얕은 층을 최적화하고, 더욱 깊은 층을 단계적으로 최적화함으로써, 보다 양호한 최적화 효과를 얻을 수 있고, 생성 네트워크의 성능을 향상시킬 수 있다.
가능한 한 실시형태에서는 상기 방법은
트레이닝된 생성 네트워크에 트레이닝된 잠재 벡터를 입력하여 목표 이미지의 재구성 이미지를 얻는 것을 추가로 포함하고,
상기 재구성 이미지는 컬러 이미지를 포함하고, 상기 목표 이미지의 제2 열화 이미지는 그레이 스케일 이미지를 포함하거나, 또는
상기 재구성 이미지는 완전 이미지를 포함하고, 상기 제2 열화 이미지는 결손 이미지를 포함하거나, 또는
상기 재구성 이미지의 해상도는 상기 제2 열화 이미지의 해상도보다 크다.
예를 들면, 단계(S13)에서, 잠재 벡터 및 생성 네트워크의 트레이닝 프로세스 완료 후, 트레이닝된 잠재 벡터 및 생성 네트워크를 얻을 수 있다. 또한, 트레이닝된 잠재 벡터 및 생성 네트워크에 의해 이미지 복원(image restroartion) 태스크를 실현하도록 해도 된다. 즉, 트레이닝된 잠재 벡터를 트레이닝된 생성 네트워크에 입력하여 목표 이미지의 재구성 이미지를 얻도록 해도 된다. 본 발명은 이미지 복원 태스크에 포함되는 태스크 종류를 제한하는 것은 아니다.
이미지 복원 태스크는 색채화(colorization) 태스크인 경우, 목표 이미지의 제2 열화 이미지는 그레이 스케일 이미지이고(대응하는 열화 함수가 그레이 스케일화를 포함함), 생성 네트워크에 의해 생성되는 재구성 이미지는 컬러 이미지이다.
이미지 복원 태스크는 이미지 보완(inpainting) 태스크인 경우, 목표 이미지의 제2 열화 이미지는 결손 이미지이고, 즉 제2 열화 이미지에는 일부가 손실되고, 대응하는 열화 함수가
Figure pct00012
로 표현되고, 여기서, m은 이미지 보완 태스크에 대응하는 바이너리 마스크(mask)를 나타내고,
Figure pct00013
는 점 승적을 나타내고, 생성 네트워크에 의해 생성되는 재구성 이미지는 완전 이미지이다.
이미지 복원 태스크가 초해상도(super-resolution) 태스크인 경우, 목표 이미지의 제2 열화 이미지가 흐릿한 이미지이고(대응하는 열화 함수가 다운 샘플링을 포함함), 생성 네트워크에 의해 생성되는 재구성 이미지가 선명한 이미지이고, 즉 재구성 이미지의 해상도는 제2 열화 이미지의 해상도보다 크다.
이와 같은 방법에 의해, 생성 네트워크는 목표 이미지에 포함되지 않은 정보를 회복할 수 있고, 이미지 복원 태스크의 복원 효과를 대폭 향상시킬 수 있다.
가능한 일 실시형태에서는 트레이닝된 잠재 벡터 및 생성 네트워크에 의해 이미지 조작(image manipulation) 태스크(이미지 편집 태스크라고도 함)를 실현하도록 해도 된다. 본 발명은 이미지 조작 태스크에 포함되는 태스크의 종류를 제한하는 것은 아니다. 이하, 일부 이미지 조작 태스크의 처리 과정에 대해 설명한다.
본 발명의 실시예에 의하면,
랜덤 지터 정보에 기초하여 제1 잠재 벡터를 섭동 처리하여 섭동 후의 제1 잠재 벡터를 얻는 것과,
상기 섭동 후의 제1 잠재 벡터를 제1 생성 네트워크에 입력하고 처리하여, 목표 이미지와 대상물의 위치가 상이한 목표 이미지의 재구성 이미지를 얻는 것을 포함하고,
상기 제1 잠재 벡터 및 상기 제1 생성 네트워크는 상기 네트워크 트레이닝 방법에 의해 트레이닝하여 얻어진 것인 이미지 생성 방법을 추가로 제공한다.
예를 들면, 상기 네트워크 트레이닝 방법에 의해, 트레이닝을 행하여 트레이닝된 잠재 벡터 및 생성 네트워크(여기에서는 제1 잠재 벡터 및 제1 생성 네트워크라고 함)를 얻고, 이 제1 잠재 벡터 및 제1 생성 네트워크에 의해 랜덤 지터 (random jittering)를 실현해도 된다. 여기서, 랜덤 지터 정보가 설정되어도 된다. 이 랜덤 지터 정보는 예를 들면, 랜덤 벡터 또는 난수여도 된다. 본 발명은 이것을 제한하는 것은 아니다.
가능한 일 실시형태에서는 이 랜덤 지터 정보에 기초하여 제1 잠재 벡터를 섭동 처리해도 된다. 예를 들면, 랜덤 지터 정보를 제1 잠재 벡터에 중첩하여 섭동 후 제1 잠재 벡터를 얻어도 된다. 그리고, 섭동 후의 제1 잠재 벡터를 제1 생성 네트워크에 입력하고 처리하여, 목표 이미지의 재구성 이미지를 얻는다. 이 목표 이미지와 대상물의 위치가 상이하다. 이에 의해, 이미지에서의 대상물의 랜덤 지터를 실현한다. 이 방법에 의해, 이미지 조작 태스크의 처리 효과를 높일 수 있다.
본 발명의 실시예에 의하면, 제2 잠재 벡터 및 프리셋 카테고리의 카테고리 특징을 조건 생성 네트워크를 포함하는 제2 생성 네트워크에 입력하고 처리하여 목표 이미지의 재구성 이미지를 얻는 것을 포함하고, 상기 재구성 이미지에서의 대상물의 카테고리는 상기 프리셋 카테고리를 포함하고, 상기 목표 이미지에서의 대상물의 카테고리는 상기 프리셋 카테고리와 상이하고, 상기 제2 잠재 벡터 및 상기 제2 생성 네트워크는 상기 네트워크 트레이닝 방법에 의해 트레이닝하여 얻어지는 것인 이미지 생성 방법을 추가로 제공한다.
예를 들면, 상기 네트워크 트레이닝 방법에 의해, 트레이닝을 행하여 트레이닝이 끝난 잠재 벡터 및 생성 네트워크(여기에서는 제2 잠재 벡터 및 제2 생성 네트워크라고 함)를 얻고, 이 제2 잠재 벡터 및 제2 생성 네트워크에 의해 대상물의 카테고리 변환(category transfer)을 실현하도록 해도 된다. 여기서, 제2 생성 네트워크는 조건 적대적 생성 네트워크(conditional GAN)에서의 생성 네트워크여도 되고, 잠재 벡터 및 카테고리 특징 등이 입력된다.
가능한 일 실시형태에서는 복수의 카테고리가 미리 설정되어도 되고, 각 프리셋 카테고리가 대응하는 카테고리 특징을 갖는다. 제2 잠재 벡터 및 프리셋 카테고리의 카테고리 특징을 제2 생성 네트워크에 입력하고 처리하여 목표 이미지의 재구성 이미지를 얻을 수 있고, 이 재구성 이미지에서의 대상물의 카테고리가 프리셋 카테고리이고, 최초의 목표 이미지에서의 대상물의 카테고리가 프리셋 카테고리와 상이하다. 예를 들면, 대상물이 동물인 경우, 대상 이미지에서의 동물이 개이고, 재구성 이미지에서의 동물이 고양이이고, 대상물이 차량인 경우, 목표 이미지에서의 차량이 버스이고, 재구성 이미지에서의 차량이 트럭이다.
이와 같은 방법에 의해, 이미지에서의 대상물의 카테고리의 변환을 실현할 수 있고, 이미지 조작 태스크의 처리 효과를 높일 수 있다.
본 발명의 실시예에 의하면,
제3 잠재 벡터와 제4 잠재 벡터 사이, 제3 잠재 벡터에 기초하여 제1 목표 이미지의 재구성 이미지를 생성하기 위한 제3 생성 네트워크의 파라미터와 제4 잠재 벡터에 기초하여 제2 목표 이미지의 재구성 이미지를 생성하기 위한 제4 생성 네트워크의 파라미터 사이를 각각 보간 처리하여 하나 이상의 보간 잠재 벡터 및 하나 이상의 보간 생성 네트워크의 파라미터를 얻는 것과,
각 보간 잠재 벡터를 대응하는 보간 생성 네트워크에 각각 입력하여, 하나 이상의 대상물의 자세가 상기 제1 목표 이미지에서의 대상물의 자세와 상기 제2 목표 이미지에서의 대상물의 자세 사이에 있는 변형 이미지를 얻는 것을 포함하고,
상기 제3 잠재 벡터 및 상기 제3 생성 네트워크, 상기 제4 잠재 벡터 및 상기 제4 생성 네트워크는 상기 네트워크 트레이닝 방법에 의해 트레이닝하여 얻어진 것인 이미지 생성 방법을 추가로 제공한다.
예를 들면, 상기 네트워크 트레이닝 방법에 의해, 트레이닝을 행하여 2개 이상의 잠재 벡터 및 생성 네트워크를 얻고, 이들 잠재 벡터 및 생성 네트워크에 의해 2개의 이미지 사이의 연속적인 천이, 즉 이미지 모핑(image morphing)을 실현하도록 해도 된다.
가능한 일 실시형태에서는 트레이닝을 행하여 제3 잠재 벡터 및 제3 생성 네트워크, 제4 잠재 벡터 및 제4 생성 네트워크를 얻도록 해도 되고, 제3 생성 네트워크는 제3 잠재 벡터에 기초하여 제1 목표 이미지의 재구성 이미지를 생성하기 위한 것이고, 제4 생성 네트워크는 제4 잠재 벡터에 기초하여 제2 목표 이미지의 재구성 이미지를 생성하기 위한 것이다.
가능한 일 실시형태에서는 제3 잠재 벡터와 제4 잠재 벡터 사이, 제3 생성 네트워크의 파라미터와 제4 생성 네트워크의 파라미터 사이를 각각 보간 처리하여 하나 이상의 보간 잠재 벡터 및 하나 이상의 보간 생성 네트워크의 파라미터를 얻도록 해도 되고, 즉 대응하는 복수 그룹의 보간 잠재 벡터 및 보간 생성 네트워크를 얻도록 해도 된다. 본 발명은 구체적인 보간 방법을 제한하는 것은 아니다.
가능한 일 실시형태에서는 각 보간 잠재 벡터를 대응하는 보간 생성 네트워크에 각각 입력하고, 하나 이상의 변형 이미지를 얻도록 해도 된다. 이 하나 이상의 변형 이미지에서의 대상물의 자세가 상기 제1 목표 이미지에서의 대상물의 자세와 상기 제2 목표 이미지에서의 대상물의 자세 사이에 있다. 이와 같이, 얻어지는 하나 또는 복수의 변형 이미지가 2개의 이미지 사이의 천이를 실현할 수 있다.
얻어지는 변형 이미지가 많은 경우, 제1 목표 이미지의 재구성 이미지, 복수의 변형 이미지 및 제2 목표 이미지의 재구성 이미지를 비디오 프레임으로서 사용하여 비디오를 형성하고, 이산 이미지에서 연속 비디오에 대한 변환을 실현하도록 해도 된다.
이와 같은 방법에 의해, 이미지 사이의 천이를 실현할 수 있고, 이미지 조작 태스크의 처리 효과를 높일 수 있다.
본 발명의 실시예의 방법에 의하면, 대규모 자연 이미지로부터 학습한 적대적 생성 네트워크(Generative Adversarial Networks, GAN으로 약칭함)에서의 생성 네트워크를 공통 이미지의 선험으로서 사용하여, 잠재 벡터 및 생성기 파라미터를 동시에 최적화하여 이미지 재구성을 행하여, 목표 이미지 이외의 정보, 예를 들면, 그레이 스케일 도면의 색을 회복할 수 있고, 이미지의 다양성(manifold)을 학습할 수 있고, 이미지의 고레벨의 시맨틱스의 조작을 실현할 수 있다.
또한, 본 발명의 실시예의 방법에 의하면, 적대적 생성 네트워크에서의 식별 네트워크의 특징의 L1 거리를 이미지 재구성의 유사도 지표로서 채용하고, 생성 네트워크의 파라미터의 최적화를 점진적(progressive)으로 행해도 되고, 네트워크의 트레이닝 효과를 더욱 높일 수 있고, 보다 정확한 이미지 재구성을 실현할 수 있다.
본 발명의 실시예의 방법에 의하면, 이미지 복원류, 이미지 편집류의 애플리케이션 또는 소프트웨어에 응용하여, 다양한 목표 이미지의 재구성을 효과적으로 실현할 수 있고, 색채화(colorization), 이미지 보완(inpainting), 초해상도(super-resolution), 적대 방어(adversarial defense), 랜덤 지터(random jittering), 이미지 모핑(image morphing), 카테고리 변환(category transfer) 등을 포함하지만, 이들에 한정되지 않는 일련의 이미지 복원(image restoration) 태스크 및 이미지 조작(imaging manipulation) 태스크를 실현할 수 있다. 사용자가 본 방법에 의해 그레이 스케일 이미지의 색을 회복하거나, 저해상도 이미지를 고해상도 이미지로 변경하거나, 이미지의 손실된 이미지 블록을 회복할 수 있고, 이미지의 내용을 조작하고, 예를 들면, 이미지에서의 개를 고양이로 변경하거나, 이미지에서의 개의 자세를 변경하거나, 두 개의 이미지의 연속적인 천이 등을 실현할 수 있다.
본 발명에서 언급된 상기 각 방법의 실시예는 원리와 논리를 위반하지 않는 한, 서로 조합하여 조합 후의 실시예를 형성할 수 있음을 이해하고, 분량에 한계가 있으므로, 본 발명에서는 상세한 설명을 생략한다. 당업자라면, 구체적인 실시예의 상기 방법에서, 각 단계의 구체적인 실행 순서는 그 기능 및 가능한 내재적 논리에 의해 결정된다는 것을 이해할 수 있다. 본 발명의 청구항, 명세서 및 도면에 있어서의 「제1」, 「제2」, 「제3」 및 「제4」 등의 용어는 소정의 순서를 나타내는 것이 아니라, 상이한 대상물을 구별화하기 위한 것임을 이해할 수 있다.
또한, 본 발명은 네트워크 트레이닝 장치 및 이미지 처리 장치, 전자 기기, 컴퓨터 판독 가능 기억 매체, 프로그램을 추가로 제공하고, 이들은 전부 본 발명에 관한 네트워크 트레이닝 방법 및 이미지 생성 방법 중 어느 하나를 실현하기 위해 이용할 수 있다. 대응하는 기술 방안 및 설명에 대해서는 방법 부분의 대응하는 기재를 참조하면 되고, 상세한 설명은 생략한다.
도 3은 본 발명의 실시예에 따른 네트워크를 트레이닝하는 장치의 블록도를 나타낸다. 도 3에 나타내는 바와 같이, 상기 장치는
복수의 자연 이미지를 사용하여 식별 네트워크에 의한 적대적 트레이닝이 행해짐으로써 프리 트레이닝된 생성 네트워크에 잠재 벡터를 입력하여 제1 생성 이미지를 얻기 위한 제1 생성 모듈(31)과,
상기 제1 생성 이미지를 열화 처리하여, 상기 제1 생성 이미지의 제1 열화 이미지를 얻기 위한 열화 모듈(32)과,
상기 제1 열화 이미지 및 목표 이미지의 제2 열화 이미지에 기초하여 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하기 위한 트레이닝 모듈(33)을 포함하고, 트레이닝된 생성 네트워크 및 트레이닝된 잠재 벡터는 상기 목표 이미지의 재구성 이미지를 생성하기 위한 것이다.
가능한 일 실시형태에서는 상기 트레이닝 모듈은 상기 제1 열화 이미지 및 목표 이미지의 제2 열화 이미지 각각을 프리 트레이닝된 식별 네트워크에 입력하고 처리하여, 상기 제1 열화 이미지의 제1 식별 특징 및 상기 제2 열화 이미지의 제2 식별 특징을 얻기 위한 특징 취득 서브 모듈과, 상기 제1 식별 특징 및 상기 제2 식별 특징에 기초하여, 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하기 위한 제1 트레이닝 서브 모듈을 포함한다.
가능한 일 실시형태에서는 상기 식별 네트워크는 다단 식별 네트워크 블록을 포함하고, 상기 특징 취득 서브 모듈은 상기 제1 열화 이미지를 상기 식별 네트워크에 입력하고 처리하여, 상기 식별 네트워크의 다단 식별 네트워크 블록에서 출력된 복수의 제1 식별 특징을 얻기 위한 제1 취득 서브 모듈과, 상기 제2 열화 이미지를 상기 식별 네트워크에 입력하고 처리하여, 상기 식별 네트워크의 다단 식별 네트워크 블록에서 출력된 복수의 제2 식별 특징을 얻기 위한 제2 취득 서브 모듈을 포함한다.
가능한 일 실시형태에서는 상기 제1 트레이닝 서브 모듈은 상기 제1 식별 특징과 상기 제2 식별 특징 사이의 거리에 기초하여 상기 생성 네트워크의 네트워크 손실을 결정하기 위한 손실 결정 서브 모듈과, 상기 생성 네트워크의 네트워크 손실에 기초하여 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하기 위한 제2 트레이닝 서브 모듈을 포함한다.
가능한 일 실시형태에서는 상기 생성 네트워크는 N단의 생성 네트워크 블록을 포함하고, 상기 제2 트레이닝 서브 모듈은 n-1회째 트레이닝 후의 생성 네트워크의 네트워크 손실에 기초하여 상기 생성 네트워크 전의 n단의 생성 네트워크 블록을 트레이닝하여 n회째 트레이닝 후의 생성 네트워크를 얻기 위한 것이고, 1≤n≤N, n, N은 정수이다.
가능한 일 실시형태에서는 상기 장치는 프리 트레이닝된 생성 네트워크에 복수의 초기 잠재 벡터를 입력하여 복수의 제2 생성 이미지를 얻기 위한 제2 생성 모듈과, 상기 목표 이미지와 상기 복수의 제2 생성 이미지 사이의 차이 정보에 기초하여 상기 복수의 초기 잠재 벡터로부터 상기 잠재 벡터를 결정하기 위한 제1 벡터 결정 모듈을 추가로 포함한다.
가능한 일 실시형태에서는 상기 장치는 프리 트레이닝된 인코드 네트워크에 상기 목표 이미지를 입력하고 상기 잠재 벡터를 출력하기 위한 제2 벡터 결정 모듈을 추가로 포함한다.
가능한 일 실시형태에서는 상기 장치는 트레이닝된 생성 네트워크에 트레이닝된 잠재 벡터를 입력하여 상기 목표 이미지의 재구성 이미지를 얻기 위한 제1 재구성 모듈을 추가로 포함하고, 상기 재구성 이미지는 컬러 이미지를 포함하고, 상기 목표 이미지의 제2 열화 이미지는 그레이스케일 이미지를 포함하거나, 또는 상기 재구성 이미지는 완전 이미지를 포함하고, 상기 제2 열화 이미지는 결손 이미지를 포함하거나, 또는 상기 재구성 이미지의 해상도는 상기 제2 열화 이미지의 해상도보다 크다.
본 발명의 일 양태에 의하면, 랜덤 지터 정보에 기초하여 제1 잠재 벡터를 섭동 처리하여 섭동 후의 제1 잠재 벡터를 얻기 위한 섭동 모듈과, 상기 섭동 후의 제1 잠재 벡터를 제1 생성 네트워크에 입력하고 처리하여, 목표 이미지와 대상물의 위치가 상이한 목표 이미지의 재구성 이미지를 얻기 위한 제2 재구성 모듈을 포함하고, 상기 제1 잠재 벡터 및 상기 제1 생성 네트워크를 포함하고, 상기 제1 잠재 벡터 및 상기 제1 생성 네트워크는 상기 네트워크 트레이닝 장치에 의해 트레이닝하여 얻어지는 것인 이미지 생성 장치를 제공한다.
본 발명의 일 양태에 의하면, 제2 잠재 벡터 및 프리셋 카테고리의 카테고리 특징을 조건 생성 네트워크를 포함하는 제2 생성 네트워크에 입력하고 처리하여 목표 이미지의 재구성 이미지를 얻기 위한 제3 재구성 모듈을 포함하고, 상기 재구성 이미지에서의 대상물의 카테고리는 상기 프리셋 카테고리를 포함하고, 상기 목표 이미지에서의 대상물의 카테고리는 상기 프리셋 카테고리와 상이하고, 상기 제2 잠재 벡터 및 상기 제2 생성 네트워크는 상기 네트워크 트레이닝 장치에 의해 트레이닝하여 얻어지는 것인 이미지 생성 장치를 제공한다.
본 발명의 일 양태에 의하면, 제3 잠재 벡터와 제4 잠재 벡터 사이, 제3 잠재 벡터에 기초하여 제1 목표 이미지의 재구성 이미지를 생성하기 위한 제3 생성 네트워크의 파라미터와 제4 잠재 벡터에 기초하여 제2 목표 이미지의 재구성 이미지를 생성하기 위한 제4 생성 네트워크의 파라미터 사이를 각각 보간 처리하여 하나 이상의 보간 잠재 벡터 및 하나 이상의 보간 생성 네트워크의 파라미터를 얻기 위한 보간 모듈과, 각 보간 잠재 벡터를 대응하는 보간 생성 네트워크에 각각 입력하여, 하나 이상의, 대상물의 자세가 상기 제1 목표 이미지에서의 대상물의 자세와 상기 제2 목표 이미지에서의 대상물의 자세 사이에 있는 변형 이미지를 얻기 위한 변형 이미지 취득 모듈을 포함하고, 상기 제3 잠재 벡터 및 상기 제3 생성 네트워크, 상기 제4 잠재 벡터 및 상기 제4 생성 네트워크는 제 12 항 내지 제 18 항 중 어느 한 항의 네트워크 트레이닝 장치에 의해 트레이닝하여 얻어지는 것인 이미지 생성 장치를 제공한다.
일부 실시예에서는 본 발명의 실시예에 따른 장치가 구비하는 기능 또는 모듈은 상술한 방법의 실시예에 설명되는 방법을 실행하기 위해 이용할 수 있고, 그 구체적인 실현에 대해서는 상술한 방법의 실시예의 설명을 참조하면 되고, 간소화를 위해 여기서 상세한 설명을 생략한다.
본 발명의 실시예는 컴퓨터 프로그램 명령이 기억되어 있는 컴퓨터 판독 가능 기억 매체로서, 상기 컴퓨터 프로그램 명령은 프로세서에 의해 실행되면, 상기 방법을 실현시키는 컴퓨터 판독 가능 기억 매체를 추가로 제공한다. 컴퓨터 판독 가능 기억 매체는 불휘발성 컴퓨터 판독 가능 기억 매체여도 되고, 휘발성 컴퓨터 판독 가능 기억 매체여도 된다.
본 발명의 실시예는 프로세서와, 프로세서가 실행 가능한 명령을 기억하기 위한 메모리를 포함하고, 상기 프로세서는 상기 메모리에 기억된 명령을 불러내어 상기 방법을 실행하도록 구성되는 전자 기기를 추가로 제공한다.
본 발명의 실시예는 컴퓨터 판독 가능 코드를 포함하고, 상기 컴퓨터 판독 가능 코드는 전자 기기 중 동작하면, 상기 전자 기기의 프로세서에 상기 중 어느 실시예에 기재된 네트워크 트레이닝 방법 및 이미지 생성 방법을 실현하기 위한 명령을 실행시키는 컴퓨터 프로그램 제품을 추가로 제공한다.
본 발명의 실시예는 컴퓨터 판독 가능 명령이 기억되기 위한 것이고, 명령이 실행될 때 컴퓨터가 상기 중 어느 실시예에 기재된 네트워크 트레이닝 방법 및 이미지 생성 방법의 조작을 실행하는 다른 컴퓨터 프로그램 제품을 추가로 제공한다.
전자 기기는 단말, 서버 또는 그 밖의 형태의 기기로서 제공되어도 된다.
도 4는 본 발명의 실시예에 따른 전자 기기(800)의 블록도를 나타낸다. 예를 들면, 장치(800)는 휴대 전화, 컴퓨터, 디지털 방송 단말, 메시지 송수신 기기, 게임 콘솔, 태블릿형 기기, 의료 기기, 피트니스 기기, 퍼스널 디지털 어시스턴트 등의 단말이어도 된다.
도 4를 참조하면, 전자 기기(800)는 처리 컴포넌트(802), 메모리(804), 전원 컴포넌트(806), 멀티미디어 컴포넌트(808), 오디오 컴포넌트(810), 입력/출력(I/O) 인터페이스(812), 센서 컴포넌트(814) 및 통신 컴포넌트(816) 중 하나 이상을 포함해도 된다.
처리 컴포넌트(802)는 통상, 전자 기기(800)의 전체적인 동작, 예를 들면, 표시, 전화의 호출, 데이터 통신, 카메라 동작 및 기록 동작에 관련된 동작을 제어한다. 처리 컴포넌트(802)는 상기 방법의 전부 또는 일부 단계를 실행하기 위해 명령을 실행하는 하나 이상의 프로세서(820)를 포함해도 된다. 또한, 처리 컴포넌트(802)는 다른 컴포넌트와의 상호 작용을 위한 하나 이상의 모듈을 포함해도 된다. 예를 들면, 처리 컴포넌트(802)는 멀티미디어 컴포넌트(808)와의 상호 작용을 위해 멀티미디어 모듈을 포함해도 된다.
메모리(804)는 전자 기기(800)에서의 동작을 서포트하기 위한 다양한 타입의 데이터를 기억하도록 구성된다. 이들 데이터는 예로서, 전자 기기(800)에서 조작하는 다양한 애플리케이션 프로그램 또는 방법의 명령, 연락처 데이터, 전화번호부 데이터, 메시지, 사진, 비디오 등을 포함한다. 메모리(804)는 예를 들면, 정적 랜덤 액세스 메모리(SRAM), 전기적 소거 가능 프로그래머블 판독 전용 메모리(EEPROM), 소거 가능한 프로그래머블 판독 전용 메모리(EPROM), 프로그래머블 판독 전용 메모리(PROM), 판독 전용 메모리(ROM), 자기 메모리, 플래시 메모리, 자기 디스크 또는 광디스크 등의 다양한 타입의 휘발성 또는 불휘발성 기억 장치 또는 이들의 조합에 의해 실현할 수 있다.
전원 컴포넌트(806)는 전자 기기(800)의 각 컴포넌트에 전력을 공급한다. 전원 컴포넌트(806)는 전원 관리 시스템, 하나 이상의 전원 및 전자 기기(800)를 위한 전력 생성, 관리 및 배분에 관련된 다른 컴포넌트를 포함해도 된다.
멀티미디어 컴포넌트(808)는 상기 전자 기기(800)와 사용자 사이에서 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에서는 스크린은 액정 디스플레이(LCD) 및 터치 패널(TP)을 포함해도 된다. 스크린이 터치 패널을 포함하는 경우, 사용자로부터의 입력 신호를 수신하는 터치 스크린으로서 실현해도 된다. 터치 패널은 터치, 슬라이드 및 터치 패널에서의 제스처를 검출하기 위해, 하나 이상의 터치 센서를 포함한다. 상기 터치 센서는 터치 또는 슬라이드 동작의 경계를 검출할 뿐만 아니라, 상기 터치 또는 슬라이드 조작에 관한 지속 시간 및 압력을 검출하도록 해도 된다. 일부 실시예에서는 멀티미디어 컴포넌트(808)는 전면 카메라 및/또는 배면 카메라를 포함한다. 전자 기기(800)가 동작 모드, 예를 들면, 촬영 모드 또는 촬상 모드가 되는 경우, 전면 카메라 및/또는 배면 카메라는 외부의 멀티미디어 데이터를 수신하도록 해도 된다. 각 전면 카메라 및 배면 카메라는 고정된 광학 렌즈계 또는 초점 거리 및 광학 줌 능력을 갖는 것이어도 된다.
오디오 컴포넌트(810)는 오디오 신호를 출력 및/또는 입력하도록 구성된다. 예를 들면, 오디오 컴포넌트(810)는 하나의 마이크(MIC)를 포함하고, 마이크(MIC)는 전자 기기(800)가 동작 모드, 예를 들면, 호출 모드, 기록 모드 및 음성 인식 모드가 되는 경우, 외부의 오디오 신호를 수신하도록 구성된다. 수신된 오디오 신호는 추가로 메모리(804)에 기억되거나 또는 통신 컴포넌트(816)를 통해 송신되어도 된다. 일부 실시예에서는 오디오 컴포넌트(810)는 추가로 오디오 신호를 출력하기 위한 스피커를 포함한다.
I/O 인터페이스(812)는 처리 컴포넌트(802)와 주변 인터페이스 모듈 사이에서 인터페이스를 제공하고, 상기 주변 인터페이스 모듈은 키보드, 클릭 휠, 버튼 등이어도 된다. 이들 버튼은 홈 버튼, 볼륨 버튼, 시작 버튼 및 잠금 버튼을 포함해도 되지만, 이들에 한정되지 않는다.
센서 컴포넌트(814)는 전자 기기(800)의 각 측면의 상태 평가를 위해 하나 이상의 센서를 포함한다. 예를 들면, 센서 컴포넌트(814)는 전자 기기(800)의 온/오프 상태, 예를 들면, 전자 기기(800)의 표시 장치 및 키패드와 같은 컴포넌트의 상대적 위치 결정을 검출할 수 있고, 센서 컴포넌트(814)는 추가로 전자 기기(800) 또는 전자 기기(800)가 있는 컴포넌트의 위치 변화, 사용자와 전자 기기(800)의 접촉 유무, 전자 기기(800)의 방위 또는 가감속 및 전자 기기(800)의 온도 변화를 검출할 수 있다. 센서 컴포넌트(814)는 어떠한 물리적 접촉도 없는 경우에 근방의 물체의 존재를 검출하도록 구성되는 근접 센서를 포함해도 된다. 센서 컴포넌트(814)는 추가로 CMOS 또는 CCD 이미지 센서와 같은 이미징 애플리케이션에서 사용하기 위한 광센서를 포함해도 된다. 일부 실시예에서는 상기 센서 컴포넌트(814)는 추가로 가속도 센서, 자이로 센서, 자기 센서, 압력 센서 또는 온도 센서를 포함해도 된다.
통신 컴포넌트(816)는 전자 기기(800)와 다른 기기의 유선 또는 무선 통신을 실현하도록 구성된다. 전자 기기(800)는 통신 규격에 기초하는 무선 네트워크, 예를 들면, WiFi, 2G, 또는 3G 또는 이들의 조합에 액세스할 수 있다. 일 예시적 실시예에서는 통신 컴포넌트(816)는 방송 채널을 통해 외부 방송 관리 시스템으로부터의 방송 신호 또는 방송 관련 정보를 수신한다. 일 예시적 실시예에서는 상기 통신 컴포넌트(816)는 추가로 근거리 통신을 촉진시키기 위해 근거리 무선 통신(NFC) 모듈을 포함한다. 예를 들면, NFC 모듈은 무선 주파수 식별(RFID) 기술, 적외선 데이터 협회(IrDA) 기술, 초광대역(UWB) 기술, 블루투스(BT) 기술 및 다른 기술에 의해 실현할 수 있다.
예시적인 실시예에서는 전자 기기(800)는 하나 이상의 특정 용도용 집적 회로(ASIC), 디지털 신호 프로세서(DSP), 디지털 신호 처리 프로세서(DSPD), 프로그래머블 로직 디바이스(PLD), 필드 프로그래머블 게이트 어레이(FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 또는 다른 전자 요소에 의해 실현되고, 상기 방법을 실행하기 위해 사용될 수 있다.
예시적인 실시예에서는 추가로 불휘발성 컴퓨터 판독 가능 기억 매체, 예를 들면, 컴퓨터 프로그램 명령을 포함하는 메모리(804)가 제공되고, 상기 컴퓨터 프로그램 명령은 전자 기기(800)의 프로세서(820)에 의해 실행되면, 상기 방법을 실행시킬 수 있다.
도 5는 본 발명의 실시예에 따른 전자 기기를 나타내는 블록도이다. 예를 들면, 전자 기기(1900)는 서버로서 제공되어도 된다. 도 5을 참조하면, 전자 기기(1900)는 하나 이상의 프로세서를 포함하는 처리 컴포넌트(1922) 및 처리 컴포넌트(1922)에 의해 실행 가능한 명령, 예를 들면, 애플리케이션 프로그램을 기억하기 위한, 메모리(1932)를 대표로 하는 메모리 자원을 추가로 포함한다. 메모리(1932)에 기억되어 있는 애플리케이션 프로그램은 각각이 하나의 명령군에 대응하는 하나 이상의 모듈을 포함해도 된다. 또한, 처리 컴포넌트(1922)는 명령을 실행함으로써 상기 방법을 실행하도록 구성된다.
전자 기기(1900)는 추가로, 전자 기기(1900)의 전원 관리를 실행하도록 구성되는 전원 컴포넌트(1926), 전자 기기(1900)를 네트워크에 접속하도록 구성되는 유선 또는 무선 네트워크 인터페이스(1950), 및 입출력(I/O) 인터페이스(1958)를 포함해도 된다. 전자 기기(1900)는 메모리(1932)에 기억되어 있는 오퍼레이팅 시스템, 예를 들면, Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM 등에 기초하여 동작할 수 있다.
예시적인 실시예에서는 추가로, 불휘발성 컴퓨터 판독 가능 기억 매체, 예를 들면, 컴퓨터 프로그램 명령을 포함하는 메모리(1932)가 제공되고, 상기 컴퓨터 프로그램 명령은 전자 기기(1900)의 처리 컴포넌트(1922)에 의해 실행되면, 상기 방법을 실행시킬 수 있다.
본 발명은 시스템, 방법 및/또는 컴퓨터 프로그램 제품이어도 된다. 컴퓨터 프로그램 제품은 프로세서에 본 발명의 각 측면을 실현시키기 위한 컴퓨터 판독 가능 프로그램 명령을 갖는 컴퓨터 판독 가능 기억 매체를 포함해도 된다.
컴퓨터 판독 가능 기억 매체는 명령 실행 기기에 사용되는 명령을 저장 및 기억 가능한 유형(有形)의 장치여도 된다. 컴퓨터 판독 가능 기억 매체는 예를 들면, 전기 기억 장치, 자기 기억 장치, 광 기억 장치, 전자 기억 장치, 반도체 기억 장치, 또는 상기 임의의 적당한 조합이어도 되지만, 이들에 한정되지 않는다. 컴퓨터 판독 가능 기억 매체의 보다 구체적인 예(비망라적 리스트)로는 휴대형 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거·프로그래머블 가능 판독 전용 메모리(EPROM 또는 플래시 메모리), 정적 랜덤 액세스 메모리(SRAM), 휴대형 콤팩트 디스크 판독 전용 메모리(CD-ROM), 디지털 다용도 디스크(DVD), 메모리 스틱, 플로피 디스크, 예를 들면, 명령이 기억되어 있는 천공 카드 또는 슬롯 내 돌기 구조와 같은 기계적 부호화 장치, 및 상기의 임의의 적당한 조합을 포함한다. 여기에서 사용되는 컴퓨터 판독 가능 기억 매체는 일시적인 신호 자체, 예를 들면, 무선 전파 또는 기타 자유롭게 전파되는 전자파, 도파로 또는 다른 전송 매체를 경유하여 전파되는 전자파(예를 들면, 광파이버 케이블을 통과하는 광펄스), 또는 전선을 경유하여 전송되는 전기 신호로 해석되는 것은 아니다.
여기서 기술한 컴퓨터 판독 가능 프로그램 명령은 컴퓨터 판독 가능 기억 매체에서 각 계산/처리 기기에 다운로드되어도 되고, 또는 네트워크, 예를 들면, 인터넷, 로컬 에어리어 네트워크, 광역 네트워크 및/또는 무선 네트워크를 경유하여 외부의 컴퓨터 또는 외부 기억 장치에 다운로드되어도 된다. 네트워크는 구리 전송 케이블, 광파이버 전송, 무선 전송, 라우터, 방화벽, 교환기, 게이트웨이 컴퓨터 및/또는 에지 서버를 포함해도 된다. 각 계산/처리 기기 내의 네트워크 어댑터 카드 또는 네트워크 인터페이스는 네트워크에서 컴퓨터 판독 가능 프로그램 명령을 수신하고, 상기 컴퓨터 판독 가능 프로그램 명령을 전송하고, 각 계산/처리 기기 내의 컴퓨터 판독 가능 기억 매체에 기억시킨다.
본 발명의 동작을 실행하기 위한 컴퓨터 프로그램 명령은 어셈블러 명령, 명령 세트 아키텍처(ISA) 명령, 기계어 명령, 기계 의존 명령, 마이크로 코드, 펌웨어 명령, 상태 설정 데이터 또는 Smalltalk, C++ 등의 오브젝트 지향 프로그래밍 언어, 및 「C」언어 또는 유사한 프로그래밍 언어 등의 일반적인 절차형 프로그래밍 언어를 포함시키는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성된 소스 코드 또는 목표 코드여도 된다. 컴퓨터 판독 가능 프로그램 명령은 완전히 사용자의 컴퓨터에서 실행되어도 되고, 부분적으로 사용자의 컴퓨터에서 실행되어도 되고, 독립형 소프트웨어 패키지로서 실행되어도 되고, 부분적으로 사용자의 컴퓨터에서 또한 부분적으로 리모트 컴퓨터에서 실행되어도 되고, 또는 완전히 리모트 컴퓨터 혹은 서버에서 실행되어도 된다. 리모트 컴퓨터의 경우, 리모트 컴퓨터는 로컬 에어리어 네트워크(LAN) 또는 광역 네트워크(WAN)를 포함하는 임의의 종류의 네트워크를 경유하여 사용자의 컴퓨터에 접속되어도 되고, 또는 (예를 들면, 인터넷 서비스 프로바이더를 이용해 인터넷을 경유하여) 외부 컴퓨터에 접속되어도 된다. 일부 실시예에서는 컴퓨터 판독 가능 프로그램 명령의 상태 정보를 이용하여, 예를 들면, 프로그래머블 논리 회로, 필드 프로그래머블 게이트 어레이(FPGA) 또는 프로그래머블 논리 어레이(PLA) 등의 전자 회로를 맞춤 제조하고, 상기 전자 회로에 의해 컴퓨터 판독 가능 프로그램 명령을 실행함으로써 본 발명의 각 측면을 실현하도록 해도 된다.
여기서 본 발명의 실시예에 따른 방법, 장치(시스템) 및 컴퓨터 프로그램 제품의 흐름도 및/또는 블록도를 참조하면서 본 발명의 각 양태를 설명했지만, 흐름도 및/또는 블록도의 각 블록 및 흐름도 및/또는 블록도의 각 블록의 조합은 전부 컴퓨터 판독 가능 프로그램 명령에 의해 실현할 수 있음을 이해해야 한다.
이들 컴퓨터 판독 가능 프로그램 명령은 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그래머블 데이터 처리 장치의 프로세서에 제공되고, 이들 명령이 컴퓨터 또는 기타 프로그래머블 데이터 처리 장치의 프로세서에 의해 실행되면, 흐름도 및/또는 블록도의 하나 이상의 블록에서 지정된 기능/동작을 실현시키도록 장치를 제조해도 된다. 이들 컴퓨터 판독 가능 프로그램 명령은 컴퓨터 판독 가능 기억 매체에 기억되고, 컴퓨터, 프로그래머블 데이터 처리 장치 및/또는 다른 기기를 특정 방식으로 동작시키도록 해도 된다. 이에 의해, 명령이 기억되어 있는 컴퓨터 판독 가능 기억 매체는 흐름도 및/또는 블록도 중 하나 이상의 블록에서 지정된 기능/동작의 각 측면을 실현하는 명령을 갖는 제품을 포함한다.
컴퓨터 판독 가능 프로그램 명령은 컴퓨터, 기타 프로그래머블 데이터 처리 장치 또는 기타 기기에 로드되고, 컴퓨터, 기타 프로그래머블 데이터 처리 장치 또는 기타 기기에 일련의 동작 단계를 실행시킴으로써, 컴퓨터에 의해 실시되는 프로세스를 생성하도록 해도 된다. 이와 같이 하여, 컴퓨터, 기타 프로그래머블 데이터 처리 장치 또는 기타 기기에서 실행되는 명령에 의해 흐름도 및/또는 블록도 중 하나 이상의 블록에서 지정된 기능/동작을 실현한다.
도면 중 흐름도 및 블록도는 본 발명의 복수의 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 실현 가능한 시스템 아키텍처, 기능 및 동작을 나타낸다. 이 점에서는 흐름도 또는 블록도에서의 각 블록은 하나의 모듈, 프로그램 세그먼트 또는 명령의 일부분을 대표할 수 있고, 상기 모듈, 프로그램 세그먼트 또는 명령의 일부분은 지정된 논리 기능을 실현하기 위한 하나 이상의 실행 가능 명령을 포함한다. 일부 대체로서의 실현형태에서는 블록에 표기되는 기능은 도면에 붙인 순서와 상이하게 실현해도 된다. 예를 들면, 연속적인 2개의 블록은 실질적으로 병행하여 실행해도 되고, 또한 관련된 기능에 따라 반대 순서로 실행해도 되는 경우가 있다. 또한, 블록도 및/또는 흐름도에서의 각 블록 및 블록도 및/또는 흐름도에서의 블록의 조합은 지정되는 기능 또는 동작을 실행하는 하드웨어에 기초하는 전용 시스템에 의해 실현해도 되고, 또는 전용 하드웨어와 컴퓨터 명령의 조합에 의해 실현해도 된다는 것에도 주의해야 한다.
당해 컴퓨터 프로그램 제품은 구체적으로, 하드웨어, 소프트웨어 또는 이들의 조합의 형태로 실현할 수 있다. 가능한 일 실시형태서는 상기 컴퓨터 프로그램 제품은 컴퓨터 기억 매체로서 구체화되고, 다른 가능한 다른 실시형태에서는 컴퓨터 프로그램 제품은 소프트웨어 개발 키트(Software Development Kit, SDK) 등의 소프트웨어 제품으로서 구체화된다.
논리를 위반하지 않는 한, 본원의 각각의 실시예는 서로 조합될 수 있고, 상이한 실시예에서 중점으로서 설명되는 것이 상이하고, 중점으로서 설명되어 있지 않은 부분에 대해서는 다른 실시예의 기재를 참조해도 된다.
이상, 본 발명의 각 실시예를 기술했지만, 상기 설명은 예시적인 것에 불과하고, 망라적인 것이 아니며, 또한 개시된 각 실시예에 한정되는 것도 아니다. 당업자에게 있어서, 설명된 각 실시예의 범위 및 정신에서 벗어나지 않고, 다양한 수정 및 변경이 자명하다. 본 명세서에 선택된 용어는 각 실시예의 원리, 실제 적용 또는 기존 기술에 대한 개선을 바람직하게 해석하거나, 또는 다른 당업자에게 본 명세서에 개시된 각 실시예를 이해시키기 위한 것이다.

Claims (25)

  1. 복수의 자연 이미지를 사용하여 식별 네트워크에 의한 적대적 트레이닝이 행해짐으로써 프리 트레이닝된 생성 네트워크에 잠재 벡터를 입력하여 제1 생성 이미지를 얻는 것과,
    상기 제1 생성 이미지를 열화 처리하여 상기 제1 생성 이미지의 제1 열화 이미지를 얻는 것과,
    상기 제1 열화 이미지 및 목표 이미지의 제2 열화 이미지에 기초하여, 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하는 것을 포함하고,
    트레이닝된 생성 네트워크 및 트레이닝된 잠재 벡터는 상기 목표 이미지의 재구성 이미지를 생성하기 위한 것인, 네트워크 트레이닝 방법.
  2. 제 1 항에 있어서,
    상기 제1 열화 이미지 및 목표 이미지의 제2 열화 이미지에 기초하여, 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하는 것은
    제1 열화 이미지 및 목표 이미지의 제2 열화 이미지 각각을 프리 트레이닝된 식별 네트워크에 입력하고 처리하여, 상기 제1 열화 이미지의 제1 식별 특징 및 상기 제2 열화 이미지의 제2 식별 특징을 얻는 것과,
    상기 제1 식별 특징 및 상기 제2 식별 특징에 기초하여, 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하는 것을 포함하는, 네트워크 트레이닝 방법.
  3. 제 2 항에 있어서,
    상기 식별 네트워크가 다단 식별 네트워크 블록을 포함하고,
    상기 제1 열화 이미지 및 목표 이미지의 제2 열화 이미지 각각을 프리 트레이닝된 식별 네트워크에 입력하고 처리하여, 상기 제1 열화 이미지의 제1 식별 특징 및 상기 제2 열화 이미지의 제2 식별 특징을 얻는 것은
    상기 제1 열화 이미지를 상기 식별 네트워크에 입력하고 처리하여, 상기 식별 네트워크의 다단 식별 네트워크 블록에서 출력된 복수의 제1 식별 특징을 얻는 것과,
    상기 제2 열화 이미지를 상기 식별 네트워크에 입력하고 처리하여, 상기 식별 네트워크의 다단 식별 네트워크 블록에서 출력된 복수의 제2 식별 특징을 얻는것을 포함하는, 네트워크 트레이닝 방법.
  4. 제 2 항 또는 제 3 항에 있어서,
    상기 제1 식별 특징 및 상기 제2 식별 특징에 기초하여, 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하는 것은
    상기 제1 식별 특징과 상기 제2 식별 특징 사이의 거리에 기초하여, 상기 생성 네트워크의 네트워크 손실을 결정하는 것과,
    상기 생성 네트워크의 네트워크 손실에 기초하여, 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하는 것을 포함하는, 네트워크 트레이닝 방법.
  5. 제 4 항에 있어서,
    상기 생성 네트워크는 N단의 생성 네트워크 블록을 포함하고,
    상기 생성 네트워크의 네트워크 손실에 기초하여, 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하는 것은
    n-1회째 트레이닝 후의 생성 네트워크의 네트워크 손실에 기초하여, 상기 생성 네트워크 전의 n단의 생성 네트워크 블록을 트레이닝하여, n회째 트레이닝 후의 생성 네트워크를 얻는 것을 포함하고, 1≤n≤N, n, N이 정수인, 네트워크 트레이닝 방법.
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    프리 트레이닝된 생성 네트워크에 복수의 초기 잠재 벡터를 입력하여, 복수의 제2 생성 이미지를 얻는 것과,
    상기 목표 이미지와 상기 복수의 제2 생성 이미지 사이의 차이 정보에 기초하여, 상기 복수의 초기 잠재 벡터로부터 상기 잠재 벡터를 결정하는 것을 추가로 포함하는, 네트워크 트레이닝 방법.
  7. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    프리 트레이닝된 인코드 네트워크에 상기 목표 이미지를 입력하여, 상기 잠재 벡터를 출력하는 것을 추가로 포함하는, 네트워크 트레이닝 방법.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    트레이닝된 생성 네트워크에 트레이닝된 잠재 벡터를 입력하여, 상기 목표 이미지의 재구성 이미지를 얻는 것을 추가로 포함하고,
    상기 재구성 이미지는 컬러 이미지를 포함하고, 상기 목표 이미지의 제2 열화 이미지는 그레이 스케일 이미지를 포함하거나, 또는
    상기 재구성 이미지는 완전 이미지를 포함하고, 상기 제2 열화 이미지는 결손 이미지를 포함하거나, 또는
    상기 재구성 이미지의 해상도는 상기 제2 열화 이미지의 해상도보다 큰, 네트워크 트레이닝 방법.
  9. 랜덤 지터 정보에 기초하여 제1 잠재 벡터를 섭동 처리하여, 섭동 후의 제1 잠재 벡터를 얻는 것과,
    상기 섭동 후의 제1 잠재 벡터를 제1 생성 네트워크에 입력하고 처리하여, 목표 이미지와 대상물의 위치가 상이한 목표 이미지의 재구성 이미지를 얻는 것을 포함하고,
    상기 제1 잠재 벡터 및 상기 제1 생성 네트워크는 제 1 항 내지 제 7 항 중 어느 한 항의 네트워크 트레이닝 방법에 의해 트레이닝하여 얻어지는 것인, 이미지 생성 방법.
  10. 제2 잠재 벡터 및 프리셋 카테고리의 카테고리 특징을 조건 생성 네트워크를 포함하는 제2 생성 네트워크에 입력하고 처리하여, 목표 이미지의 재구성 이미지를 얻는 것을 포함하고,
    상기 재구성 이미지에서의 대상물의 카테고리는 상기 프리셋 카테고리를 포함하고, 상기 목표 이미지에서의 대상물의 카테고리는 상기 프리셋 카테고리와 상이하고,
    상기 제2 잠재 벡터 및 상기 제2 생성 네트워크는 제 1 항 내지 제 7 항 중 어느 한 항의 네트워크 트레이닝 방법에 의해 트레이닝하여 얻어지는 것인, 이미지 생성 방법.
  11. 제3 잠재 벡터와 제4 잠재 벡터 사이, 제3 잠재 벡터에 기초하여 제1 목표 이미지의 재구성 이미지를 생성하기 위한 제3 생성 네트워크의 파라미터와 제4 잠재 벡터에 기초하여 제2 목표 이미지의 재구성 이미지를 생성하기 위한 제4 생성 네트워크의 파라미터 사이를 각각 보간 처리하여, 하나 이상의 보간 잠재 벡터 및 하나 이상의 보간 생성 네트워크의 파라미터를 얻는 것과,
    각 보간 잠재 벡터를 대응하는 보간 생성 네트워크에 각각 입력하여, 하나 이상의, 대상물의 자세가 상기 제1 목표 이미지에서의 대상물의 자세와 상기 제2 목표 이미지에서의 대상물의 자세 사이에 있는 변형 이미지를 얻는 것을 포함하고,
    상기 제3 잠재 벡터 및 상기 제3 생성 네트워크, 상기 제4 잠재 벡터 및 상기 제4 생성 네트워크는 제 1 항 내지 제 7 항 중 어느 한 항의 네트워크 트레이닝 방법에 의해 트레이닝하여 얻어지는 것인, 이미지 생성 방법.
  12. 복수의 자연 이미지를 사용하여 식별 네트워크에 의한 적대적 트레이닝이 행해짐으로써 프리 트레이닝된 생성 네트워크에 잠재 벡터를 입력하여 제1 생성 이미지를 얻기 위한 제1 생성 모듈과,
    상기 제1 생성 이미지를 열화 처리하여, 상기 제1 생성 이미지의 제1 열화 이미지를 얻기 위한 열화 모듈과,
    상기 제1 열화 이미지 및 목표 이미지의 제2 열화 이미지에 기초하여, 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하기 위한 트레이닝 모듈을 포함하고,
    트레이닝된 생성 네트워크 및 트레이닝된 잠재 벡터는 상기 목표 이미지의 재구성 이미지를 생성하기 위한 것인, 네트워크 트레이닝 장치.
  13. 제 12 항에 있어서,
    상기 트레이닝 모듈은
    상기 제1 열화 이미지 및 목표 이미지의 제2 열화 이미지 각각을 프리 트레이닝된 식별 네트워크에 입력하고 처리하여, 상기 제1 열화 이미지의 제1 식별 특징 및 상기 제2 열화 이미지의 제2 식별 특징을 얻기 위한 특징 취득 서브 모듈과,
    상기 제1 식별 특징 및 상기 제2 식별 특징에 기초하여, 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하기 위한 제1 트레이닝 서브 모듈을 포함하는, 네트워크 트레이닝 장치.
  14. 제 13 항에 있어서,
    상기 식별 네트워크는 다단 식별 네트워크 블록을 포함하고, 상기 특징 취득 서브 모듈은
    상기 제1 열화 이미지를 상기 식별 네트워크에 입력하고 처리하여, 상기 식별 네트워크의 다단 식별 네트워크 블록에서 출력된 복수의 제1 식별 특징을 얻기 위한 제1 취득 서브 모듈과,
    상기 제2 열화 이미지를 상기 식별 네트워크에 입력하고 처리하여, 상기 식별 네트워크의 다단 식별 네트워크 블록에서 출력된 복수의 제2 식별 특징을 얻기 위한 제2 취득 서브 모듈을 포함하는, 네트워크 트레이닝 장치.
  15. 제 13 항 또는 제 14 항에 있어서,
    상기 제1 트레이닝 서브 모듈은
    상기 제1 식별 특징과 상기 제2 식별 특징 사이의 거리에 기초하여, 상기 생성 네트워크의 네트워크 손실을 결정하기 위한 손실 결정 서브 모듈과,
    상기 생성 네트워크의 네트워크 손실에 기초하여, 상기 잠재 벡터 및 상기 생성 네트워크를 트레이닝하기 위한 제2 트레이닝 서브 모듈을 포함하는, 네트워크 트레이닝 장치.
  16. 제 15 항에 있어서,
    상기 생성 네트워크는 N단의 생성 네트워크 블록을 포함하고,
    상기 제2 트레이닝 서브 모듈은
    n-1회째 트레이닝 후의 생성 네트워크의 네트워크 손실에 기초하여, 상기 생성 네트워크 전의 n단 생성 네트워크 블록을 트레이닝하여, n회째 트레이닝 후의 생성 네트워크를 얻기 위한 것이고, 1≤n≤N, n, N이 정수인, 네트워크 트레이닝 장치.
  17. 제 12 항 내지 제 16 항 중 어느 한 항에 있어서,
    프리 트레이닝된 생성 네트워크에 복수의 초기 잠재 벡터를 입력하여, 복수의 제2 생성 이미지를 얻기 위한 제2 생성 모듈과,
    상기 목표 이미지와 상기 복수의 제2 생성 이미지 사이의 차이 정보에 기초하여, 상기 복수의 초기 잠재 벡터로부터 상기 잠재 벡터를 결정하기 위한 제1 벡터 결정 모듈을 추가로 포함하는, 네트워크 트레이닝 장치.
  18. 제 12 항 내지 제 16 항 중 어느 한 항에 있어서,
    프리 트레이닝된 인코드 네트워크에 상기 목표 이미지를 입력하여, 상기 잠재 벡터를 출력하기 위한 제2 벡터 결정 모듈을 추가로 포함하는, 네트워크 트레이닝 장치.
  19. 제 12 항 내지 제 18 항 중 어느 한 항에 있어서,
    트레이닝된 생성 네트워크에 트레이닝된 잠재 벡터를 입력하여, 상기 목표 이미지의 재구성 이미지를 얻기 위한 제1 재구성 모듈을 추가로 포함하고,
    상기 재구성 이미지는 컬러 이미지를 포함하고, 상기 목표 이미지의 제2 열화 이미지는 그레이 스케일 이미지를 포함하거나, 또는
    상기 재구성 이미지는 완전 이미지를 포함하고, 상기 제2 열화 이미지는 결손 이미지를 포함하거나, 또는
    상기 재구성 이미지의 해상도는 상기 제2 열화 이미지의 해상도보다 큰, 네트워크 트레이닝 장치.
  20. 랜덤 지터 정보에 기초하여 제1 잠재 벡터를 섭동 처리하여, 섭동 후의 제1 잠재 벡터를 얻기 위한 섭동 모듈과,
    상기 섭동 후의 제1 잠재 벡터를 제1 생성 네트워크에 입력하고 처리하여, 목표 이미지와 대상물의 위치가 상이한 목표 이미지의 재구성 이미지를 얻기 위한 제2 재구성 모듈을 포함하고,
    상기 제1 잠재 벡터 및 상기 제1 생성 네트워크는 제 12 항 내지 제 18 항 중 어느 한 항의 네트워크 트레이닝 장치에 의해 트레이닝하여 얻어지는 것인, 이미지 생성 장치.
  21. 제2 잠재 벡터 및 프리셋 카테고리의 카테고리 특징을, 조건 생성 네트워크를 포함하는 제2 생성 네트워크에 입력하고 처리하여, 목표 이미지의 재구성 이미지를 얻기 위한 제3 재구성 모듈을 포함하고,
    상기 재구성 이미지에서의 대상물의 카테고리는 상기 프리셋 카테고리를 포함하고, 상기 목표 이미지에서의 대상물의 카테고리는 상기 프리셋 카테고리와 상이하고,
    상기 제2 잠재 벡터 및 상기 제2 생성 네트워크는 제 12 항 내지 제 18 항 중 어느 한 항의 네트워크 트레이닝 장치에 의해 트레이닝하여 얻어지는 것인, 이미지 생성 장치.
  22. 제3 잠재 벡터와 제4 잠재 벡터 사이, 제3 잠재 벡터에 기초하여 제1 목표 이미지의 재구성 이미지를 생성하기 위한 제3 생성 네트워크의 파라미터와 제4 잠재 벡터에 기초하여 제2 목표 이미지의 재구성 이미지를 생성하기 위한 제4 생성 네트워크의 파라미터 사이를 각각 보간 처리하여, 하나 이상의 보간 잠재 벡터 및 하나 이상의 보간 생성 네트워크의 파라미터를 얻기 위한 보간 모듈과,
    각 보간 잠재 벡터를 대응하는 보간 생성 네트워크에 각각 입력하여, 하나 이상의, 대상물의 자세가 상기 제1 목표 이미지에서의 대상물의 자세와 상기 제2 목표 이미지에서의 대상물의 자세 사이에 있는 변형 이미지를 얻기 위한 변형 이미지 취득 모듈을 포함하고,
    상기 제3 잠재 벡터 및 상기 제3 생성 네트워크, 상기 제4 잠재 벡터 및 상기 제4 생성 네트워크는 제 12 항 내지 제 18 항 중 어느 한 항의 네트워크 트레이닝 장치에 의해 트레이닝하여 얻어지는 것인, 이미지 생성 장치.
  23. 프로세서와,
    프로세서가 실행 가능한 명령을 기억하기 위한 메모리를 포함하고,
    상기 프로세서는 상기 메모리에 기억된 명령을 불러내어 제 1 항 내지 제 11 항 중 어느 한 항의 방법을 실행하도록 구성되는, 전자 기기.
  24. 컴퓨터 프로그램 명령이 기억되어 있는 컴퓨터 판독 가능 기억 매체로서, 상기 컴퓨터 프로그램 명령이 프로세서에 의해 실행되면, 제 1 항 내지 제 11 항 중 어느 한 항의 방법을 실현시키는, 컴퓨터 판독 가능 기억 매체.
  25. 컴퓨터 판독 가능 코드를 포함하고, 상기 컴퓨터 판독 가능 코드는 전자 기기에서 동작하면, 상기 전자 기기의 프로세서에 제 1 항 내지 제 11 항 중 어느 한 항의 방법을 실현하기 위한 명령을 실행시키는, 컴퓨터 프로그램.
KR1020227024492A 2020-01-09 2020-07-02 네트워크 트레이닝 방법 및 장치, 이미지 생성 방법 및 장치 KR20220116015A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010023029.7 2020-01-09
CN202010023029.7A CN111223040B (zh) 2020-01-09 2020-01-09 网络训练方法及装置、图像生成方法及装置
PCT/CN2020/099953 WO2021139120A1 (zh) 2020-01-09 2020-07-02 网络训练方法及装置、图像生成方法及装置

Publications (1)

Publication Number Publication Date
KR20220116015A true KR20220116015A (ko) 2022-08-19

Family

ID=70832269

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227024492A KR20220116015A (ko) 2020-01-09 2020-07-02 네트워크 트레이닝 방법 및 장치, 이미지 생성 방법 및 장치

Country Status (5)

Country Link
US (1) US20220327385A1 (ko)
KR (1) KR20220116015A (ko)
CN (1) CN111223040B (ko)
TW (1) TWI759830B (ko)
WO (1) WO2021139120A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111223040B (zh) * 2020-01-09 2023-04-25 北京市商汤科技开发有限公司 网络训练方法及装置、图像生成方法及装置
CN111767679B (zh) * 2020-07-14 2023-11-07 中国科学院计算机网络信息中心 时变矢量场数据的处理方法及装置
CN112003834B (zh) * 2020-07-30 2022-09-23 瑞数信息技术(上海)有限公司 异常行为检测方法和装置
CN114007099A (zh) * 2021-11-04 2022-02-01 北京搜狗科技发展有限公司 一种视频处理方法、装置和用于视频处理的装置
CN113822798B (zh) * 2021-11-25 2022-02-18 北京市商汤科技开发有限公司 生成对抗网络训练方法及装置、电子设备和存储介质
CN114140603B (zh) * 2021-12-08 2022-11-11 北京百度网讯科技有限公司 虚拟形象生成模型的训练方法和虚拟形象生成方法
CN114299588B (zh) * 2021-12-30 2024-05-10 杭州电子科技大学 一种基于局部空间转换网络的实时目标编辑方法
CN114612315A (zh) * 2022-01-06 2022-06-10 东南数字经济发展研究院 一种基于多任务学习的高分辨率影像缺失区域重建方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101996730B1 (ko) * 2017-10-11 2019-07-04 인하대학교 산학협력단 인공신경망을 이용한 단일 영상 고해상도 복원 방법 및 시스템
US11449759B2 (en) * 2018-01-03 2022-09-20 Siemens Heathcare Gmbh Medical imaging diffeomorphic registration based on machine learning
CN109840890B (zh) * 2019-01-31 2023-06-09 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN109816620B (zh) * 2019-01-31 2021-01-05 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN110633755A (zh) * 2019-09-19 2019-12-31 北京市商汤科技开发有限公司 网络训练方法、图像处理方法及装置、电子设备
CN111223040B (zh) * 2020-01-09 2023-04-25 北京市商汤科技开发有限公司 网络训练方法及装置、图像生成方法及装置

Also Published As

Publication number Publication date
TWI759830B (zh) 2022-04-01
CN111223040A (zh) 2020-06-02
WO2021139120A1 (zh) 2021-07-15
CN111223040B (zh) 2023-04-25
US20220327385A1 (en) 2022-10-13
TW202127369A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
KR20220116015A (ko) 네트워크 트레이닝 방법 및 장치, 이미지 생성 방법 및 장치
US20210097297A1 (en) Image processing method, electronic device and storage medium
KR102538164B1 (ko) 이미지 처리 방법 및 장치, 전자 장치 및 기억 매체
KR102463101B1 (ko) 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체
TWI771645B (zh) 文本識別方法及裝置、電子設備、儲存介質
KR20210054563A (ko) 텍스트 시퀀스 인식 방법 및 장치, 전자 기기 및 저장 매체
CN110909815B (zh) 神经网络训练、图像处理方法、装置及电子设备
KR20210012004A (ko) 이미지 처리 방법 및 장치, 전자 기기와 기억 매체
CN111507408B (zh) 图像处理方法及装置、电子设备和存储介质
CN111539410B (zh) 字符识别方法及装置、电子设备和存储介质
WO2021012564A1 (zh) 视频处理方法及装置、电子设备和存储介质
CN111612070A (zh) 基于场景图的图像描述生成方法及装置
KR102389766B1 (ko) 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체
CN109145970B (zh) 基于图像的问答处理方法和装置、电子设备及存储介质
CN111242303A (zh) 网络训练方法及装置、图像处理方法及装置
KR20210090691A (ko) 데이터 처리 방법 및 장치, 전자 기기 및 기억 매체
CN111369482B (zh) 图像处理方法及装置、电子设备和存储介质
KR20220047802A (ko) 이미지 재구성 방법 및 장치, 전자 기기 및 저장 매체
CN111988622B (zh) 视频预测方法及装置、电子设备和存储介质
CN114842404A (zh) 时序动作提名的生成方法及装置、电子设备和存储介质
CN114973359A (zh) 表情识别方法及装置、电子设备和存储介质
CN111079761A (zh) 图像处理方法、装置及计算机存储介质
CN117150066B (zh) 汽车传媒领域的智能绘图方法和装置
CN111488964B (zh) 图像处理方法及装置、神经网络训练方法及装置
CN116664764A (zh) 图像三维重建方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A201 Request for examination
WITB Written withdrawal of application