KR20200133633A - 에지(edge) 이미지으로부터 컬러(color) 이미지를 생성하기 위한 GAN(generative adversarial networks) 기반 시스템 - Google Patents

에지(edge) 이미지으로부터 컬러(color) 이미지를 생성하기 위한 GAN(generative adversarial networks) 기반 시스템 Download PDF

Info

Publication number
KR20200133633A
KR20200133633A KR1020190059133A KR20190059133A KR20200133633A KR 20200133633 A KR20200133633 A KR 20200133633A KR 1020190059133 A KR1020190059133 A KR 1020190059133A KR 20190059133 A KR20190059133 A KR 20190059133A KR 20200133633 A KR20200133633 A KR 20200133633A
Authority
KR
South Korea
Prior art keywords
image
gan
generator
learning
edge
Prior art date
Application number
KR1020190059133A
Other languages
English (en)
Other versions
KR102284796B1 (ko
Inventor
황원준
김동이
홍준표
김형호
Original Assignee
아주대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아주대학교산학협력단 filed Critical 아주대학교산학협력단
Priority to KR1020190059133A priority Critical patent/KR102284796B1/ko
Priority to US16/877,869 priority patent/US11620774B2/en
Publication of KR20200133633A publication Critical patent/KR20200133633A/ko
Application granted granted Critical
Publication of KR102284796B1 publication Critical patent/KR102284796B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/40Filling a planar surface by adding surface attributes, e.g. colour or texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

에지(edge) 이미지으로부터 컬러(color) 이미지를 생성하기 위한 GAN(generative adversarial networks) 기반 시스템으로서, 에지 이미지를 중간 이미지로 변환하는 모델을 학습하는 제 1 GAN 및 중간 이미지를 컬러 이미지로 변환하는 모델을 학습하는 제 2 GAN을 포함하고, 중간 이미지의 엔트로피는 에지 이미지의 엔트로피 및 컬러 이미지의 엔트로피 사이의 값에 해당할 수 있다.

Description

에지(edge) 이미지으로부터 컬러(color) 이미지를 생성하기 위한 GAN(generative adversarial networks) 기반 시스템{A generative adversarial networks(GAN) based system for generating color images from edge images}
본 개시는 에지(edge) 이미지으로부터 컬러(color) 이미지를 생성하기 위한 GAN(generative adversarial networks) 기반 시스템에 관한 것이다.
오늘날 웹툰은 연령을 가리지 않고 쉽게 즐길 수 있는 스낵 문화로 자리 매김하였다. 다양한 웹툰들의 드라마화 또는 영화화와 같은 미디어 믹스가 활발히 진행되고 있고, 유료화 플랫폼 등의 성장으로 웹툰 시장의 크기와 다양성은 더욱 강화되고 있다. 이에 따라 기존의 흑백 출판 만화를 채색하고자 하는 시장의 요구가 커지고 있으며, 웹툰 작가의 생성성 향상을 위해서 영상의 밑그림을 자동으로 채색하는 기술에 대한 소요가 커지고 있다.
한편, 기존의 자동 채색 기술은, 동일 물체임에도 불구하고 물체의 영역이 넓은 경우 동일 물체 상에서 서로 다른 복수의 컬러가 채색되거나, 특정 물체를 얼굴을 형성하는 에지가 가릴 경우 얼굴을 형성하는 에지에 의해 나뉘어진 물체의 좌우가 서로 다른 색으로 채색되는 문제점이 있었다.
본 개시에 따른 다양한 실시예들은 에지(edge) 이미지으로부터 컬러(color) 이미지를 생성하기 위한 GAN(generative adversarial networks) 기반 시스템을 제공하고자 한다. 본 개시가 이루고자 하는 기술적 과제는 상기와 같은 기술적 과제들로 한정되지 않으며, 이하의 실시예들로부터 또 다른 기술적 과제들이 유추될 수 있다.
본 개시의 일 측면에 따르면, 에지(edge) 이미지으로부터 컬러(color) 이미지를 생성하기 위한 GAN(generative adversarial networks) 기반 시스템에 있어서, 상기 에지 이미지를 적어도 하나의 중간 이미지로 변환하는 모델을 학습하는 제 1 GAN; 및 상기 중간 이미지를 상기 컬러 이미지로 변환하는 모델을 학습하는 제 2 GAN을 포함하고, 상기 중간 이미지의 엔트로피는 상기 에지 이미지의 엔트로피 및 상기 컬러 이미지의 엔트로피 사이의 값에 해당할 수 있다.
또한, 상기 중간 이미지는 그레이(gray) 이미지 및 휘도(luminance) 성분 이미지 중 적어도 하나에 해당할 수 있다
또한, 상기 휘도 성분 이미지는, YUV 색공간에서 빛의 밝기를 0 내지 255의 범위로 스케일링한 값에 해당하는 Y 성분에 해당하는 데이터만을 포함하는 이미지일 수 있다.
또한, 상기 제 1 GAN은, 상기 에지 이미지를 상기 중간 이미지로 변환하는 모델을 학습하는 제 1 생성기(generator); 및 상기 생성기에 의해 생성된 이미지와 상기 중간 이미지를 대표하는 샘플 이미지를 구별하는 모델을 학습하는 제 1 분류기(discriminator)를 포함할 수 있다.
또한, 상기 제 1 생성기는, 복수의 컨볼루션(convolution) 계층들을 포함하는 제 1 인코더(encoder); 및 복수의 디컨볼루션(deconvolution) 계층들을 포함하는 제 1 디코더(decoder)를 포함하고, 상기 제 1 인코더에서 상기 에지 이미지가 상기 복수의 컨볼루션 계층들 중 적어도 하나의 컨볼루션 계층을 통과하여 생성된 중간 결과 이미지는 상기 제 1 디코더의 입력 이미지가 될 수 있다.
또한, 상기 제 2 GAN은, 상기 중간 이미지를 상기 컬러 이미지로 변환하는 모델을 학습하는 제 2 생성기(generator); 및 상기 생성기에 의해 생성된 이미지와 상기 컬러 이미지를 대표하는 샘플 이미지를 구별하는 모델을 학습하는 제 2 분류기를 포함할 수 있다.
본 개시의 다른 측면에 따르면, 에지(edge) 이미지으로부터 컬러(color) 이미지를 생성하기 위한 GAN(generative adversarial networks) 기반 시스템의 동작 방법에 있어서, 상기 에지 이미지를 적어도 하나의 중간 이미지로 변환하는 모델을 학습하는 단계; 및 상기 중간 이미지를 상기 컬러 이미지로 변환하는 모델을 학습하는 단계를 포함하고, 상기 중간 이미지의 엔트로피는 상기 에지 이미지의 엔트로피 및 상기 컬러 이미지의 엔트로피 사이의 값에 해당할 수 있다.
본 개시의 또 다른 측면에 따르면, 제 일 측면의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다.
도 1은 에지(edge) 이미지로부터 컬러(color) 이미지를 생성하는 일 예를 나타내는 도면이다.
도 2는 GAN(Generative Adversarial Networks) 동작 방식의 일 예를 설명하기 위한 도면이다.
도 3은 에지 이미지로부터 컬러 이미지를 생성하는 GAN 기반 시스템의 일 예를 나타내는 도면이다.
도 4는 에지 이미지로부터 컬러 이미지를 생성하는 GAN 기반 시스템의 동작을 설명하기 위한 도면이다.
도 5는 제 1 인코더 및 제 1 디코더를 포함하는 제 1 생성기의 일 예를 나타내는 도면이다.
본 실시예들에서 사용되는 용어는 본 실시예들에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 기술분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 임의로 선정된 용어도 있으며, 이 경우 해당 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 실시예들에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 실시예들의 전반에 걸친 내용을 토대로 정의되어야 한다.
실시예들에 대한 설명들에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 그 중간에 다른 구성요소를 사이에 두고 전기적으로 연결되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 실시예들에서 사용되는 "구성된다" 또는 "포함한다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 도는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
하기 실시예들에 대한 설명은 권리범위를 제한하는 것으로 해석되지 말아야 하며, 해당 기술분야의 당업자가 용이하게 유추할 수 있는 것은 실시예들의 권리범위에 속하는 것으로 해석되어야 할 것이다. 이하 첨부된 도면들을 참조하면서 오로지 예시를 위한 실시예들을 상세히 설명하기로 한다.
도 1은 에지(edge) 이미지로부터 컬러(color) 이미지를 생성하는 일 예를 나타내는 도면이다.
에지(edge)는 밝기가 급격하게 변하는 부분으로 경계선 또는 윤곽선을 의미할 수 있다. 에지 이미지는 색상을 채우지 않고 경계선 또는 윤곽선으로만 이루어진 이미지로, 예를 들어 웹툰 작가가 그린 밑그림에 해당할 수 있다.
에지 이미지를 사람이 직접 채색하는 과정을 통해 컬러 이미지를 생성하는 경우, 시간 및 비용적 측면에서 비효율적일 수 있다. 따라서, 에지 이미지를 입력으로 하여 컬러 이미지를 출력하도록 하는 기계 학습 방법이 제안되고 있다. 기계 학습 방법의 일 예로써, GAN(Generative Adversarial Networks)이 제안되고 있으며 이에 관하여는 도 2에서 상세히 후술하도록 한다.
도 2는 GAN(Generative Adversarial Networks) 동작 방식의 일 예를 설명하기 위한 도면이다.
GAN(200)(Generative Adversarial Networks)(200)는 학습 네트워크로서, 회귀 생성을 담당하는 모델인 생성자(generator)(210) 및 분류를 담당하는 모델인 분류자(discriminator)(220)로 구성될 수 있다. GAN(200)은 생성자(210)와 분류자(220)가 서로의 성능을 개선해 적대적으로 경쟁해 나가는 모델이다.
GAN(200)에서는 분류자(220)를 먼저 학습시킨 후, 생성자(210)를 학습시키는 과정을 서로 반복할 수 있다. 분류자(220)의 학습은 두 가지 단계로 이루어질 수 있다. 첫 번째로 진짜 데이터(real data)를 입력해서 네트워크가 해당 데이터를 진짜로 분류하도록 학습하고, 두 번째로 생성자(210)에서 생성한 가짜 데이터(fake data)를 입력해서 해당 데이터를 가짜로 분류하도록 학습할 수 있다. 이 과정을 통해 분류자(220)는 진짜 데이터를 진짜로, 가짜 데이터를 가짜로 분류할 수 있다. 분류자(220)를 학습시킨 다음에는 학습된 분류 자를 속이는 방향으로 생성자(210)를 학습시킬 수 있다. 즉, 랜덤 벡터(random vector)로부터 생성자(210)에서 만들어낸 가짜 데이터를 분류자(220)가 진짜라고 분류할 만큼 진짜 데이터와 유사한 데이터를 만들어 내도록 생성자(210)를 학습시킬 수 있다. 
이와 같은 학습 과정을 반복함에 따라 분류자(220)와 생성자(210)는 서로를 적대적인 경쟁자로 인식하여 모두 발전하게 되고, 결과적으로 생성자(210)는 진짜 데이터와 완벽히 유사한 가짜 데이터를 만들 수 있게 되고 이에 따라 분류자(220)는 진짜 데이터와 가짜 데이터를 구분할 수 없게 된다. 즉, GAN(200)에서 생성자(210)는 분류에 성공할 확률을 낮추려 하고, 분류자(220)는 분류에 성공할 확률을 높이려 하면서 서로가 서로를 경쟁적으로 발전시키는 구조를 이룬다.
도 3은 에지 이미지로부터 컬러 이미지를 생성하는 GAN 기반 시스템의 일 예를 나타내는 도면이다.
기존의 GAN을 이용하여 에지 이미지를 채색하는 시스템인 Pix2Pix는 안정적인 성능을 보여주나, 물체나 대상을 과장하여 표현하며 전체적인 이미지보다는 강조하고 싶은 특정 부분을 확대하여 표현하는 웹툰에 적용되는 경우에는 문제가 발생할 수 있었다. 예를 들어, 동일 물체임에도 불구하고 물체의 영역이 넓은 경우 동일 물체 상에서 서로 다른 복수의 컬러가 채색되거나, 특정 물체를 얼굴을 형성하는 에지가 가릴 경우 얼굴을 형성하는 에지에 의해 나뉘어진 물체의 좌우가 서로 다른 색으로 채색되는 문제가 있었다. 이와 같은 문제는 엔트로피(entropy) 레벨이 낮은 에지 이미지를 입력으로 하여 엔트로피 레벨이 높은 컬러 이미지를 출력하는 과정에서, 에지 이미지에 초기 값을 설정하기 쉽지 않으며 조금이라도 폐색된 부분이 있는 경우 잘못된 색으로 채색될 수 있기 때문이다.
이에 본 발명은, 엔트로피 레벨이 낮은 에지 이미지에서 엔트로피 레벨이 높은 컬러 이미지를 바로 출력하지 않고, 엔트로피 레벨이 낮은 에지 이미지에서 엔트로피 레벨이 에지 이미지의 엔트로피 레벨과 컬러 이미지의 엔트로피 레벨의 사이에 존재하는 적어도 하나의 중간 이미지를 생성한 후, 중간 이미지에서 엔트로피 레벨이 높은 컬러 이미지를 생성하는 GAN 기반 시스템을 제안한다.
도 3을 참조하면, 에지 이미지로부터 컬러 이미지를 생성하는 GAN 기반 시스템(300)은 제 1 GAN(310) 및 제 2 GAN(320)을 포함할 수 있다.
제 1 GAN(310)은 에지 이미지를 적어도 하나의 중간 이미지로 변환하는 모델을 학습할 수 있다. 또한, 제 2 GAN(320)은 중간 이미지를 상기 컬러 이미지로 변환하는 모델을 학습할 수 있다. 이 때, 중간 이미지의 엔트로피 레벨은 에지 이미지의 엔트로피 레벨 및 컬러 이미지의 엔트로피 레벨 사이에 존재할 수 있다.
예를 들어, 중간 이미지는 그레이 스케일(gray scale)의 이미지 또는 휘도(luminance) 성분 이미지에 해당할 수 있다. 그레이 스케일 이미지는 각 화소의 값이 빛의 양을 나타내는 이미지를 의미할 수 있다. 휘도는 일정한 넓이를 가진 표면이 스스로 빛을 내거나 투과 혹은 반사하는 빛의 밝기를 의미하며, 휘도 성분 이미지는 예를 들어 YUV 색공간에서 빛의 밝기를 0~255의 범위로 스케일링한 값에 해당하는 Y 성분에 해당하는 데이터만을 포함하는 이미지에 해당할 수 있다. YUV 색공간은 인간의 망막의 특이점을 이용 하여 색상의 밝기와 색수차를 분리하여 이미지를 처리하는 방법으로, Y 성분은 휘도 성분이며 밝기 정보를 저장하는 데 사용되고, U 성분 및 V 성분은 색차를 나타내며 색상을 표현하기 위해 사용된다.
한편, 중간 이미지는 RGB 색공간에서 R, G 또는 B 중 어느 하나의 색 성분에 해당하는 데이터만을 포함하는 이미지에도 해당할 수 있으며, 그 밖의 엔트로피 레벨이 에지 이미지의 엔트로피 레벨 및 컬러 이미지의 엔트로피 레벨 사이에 존재하는 다양한 이미지에 해당할 수 있다.
한편, 제 1 GAN은 에지 이미지를 적어도 하나의 중간 이미지로 변환하는 모델을 학습하는 제 1 생성기(generator) 및 제 1 생성기에 의해 생성된 이미지와 중간 이미지를 대표하는 샘플 이미지를 구별하는 모델을 학습하는 제 1 분류기(discriminator)를 포함할 수 있다. 제 1 분류기는 중간 이미지를 대표하는 샘플 이미지를 진짜로, 제 1 생성기에 의해 생성된 이미지를 가짜로 분류하도록 학습될 수 있다. 중간 이미지를 대표하는 샘플 이미지는 컬러 이미지를 대표하는 샘플 이미지로부터 그레이 스케일로의 변환 또는 YUV 형식으로의 변환을 통해 생성될 수 있다. 이는 도 4에서 상세히 후술하도록 한다. 또한, 제 1 생성기는 제 1 분류기가 제 1 생성기에 의해 생성된 이미지를 진짜라고 분류할 만큼 중간 이미지를 대표하는 샘플 이미지와 유사한 이미지를 생성하도록 학습될 수 있다.
또한, 제 2 GAN은 적어도 하나의 중간 이미지를 컬러 이미지로 변환하는 모델을 학습하는 제 2 생성기(generator) 및 제 2 생성기에 의해 생성된 이미지와 상기 컬러 이미지를 대표하는 샘플 이미지를 구별하는 모델을 학습하는 제 2 분류기를 포함할 수 있다. 마찬가지로, 제 2 분류기는 컬러 이미지를 대표하는 샘플 이미지를 진짜로, 제 2 생성기에 의해 생성된 이미지를 가짜로 분류하도록 학습될 수 있다. 또한, 제 2 생성기는 제 2 분류기가 제 2 생성기에 의해 생성된 이미지를 진짜라고 분류할 만큼 컬러 이미지를 대표하는 샘플 이미지와 유사한 이미지를 생성하도록 학습될 수 있다.
도 4는 에지 이미지로부터 컬러 이미지를 생성하는 GAN 기반 시스템의 동작을 설명하기 위한 도면이다.
도 4를 참조하면, GAN 기반 시스템(400)에 에지 이미지(410)가 입력되어 최종적으로 컬러 이미지(420)가 생성될 수 있다. GAN 기반 시스템(400)은 제 1 GAN(430) 및 제 2 GAN(440)을 포함할 수 있다. 또한, 제 1 GAN(430)은 제 1 생성기(450) 및 제 1 분류기(460)를 포함할 수 있고, 제 2 GAN(440)은 제 2 생성기(470) 및 제 2 분류기(480)를 포함할 수 있다.
먼저, 제 1 GAN(430)의 제 1 생성기(450)는 에지 이미지(410)로부터 중간 이미지인 Y성분 이미지(451)를 생성할 수 있다. Y성분 이미지(451)는 YUV 색공간에서 빛의 밝기를 0~255의 범위로 스케일링한 값에 해당하는 Y 성분에 해당하는 데이터만을 포함하는 이미지에 해당할 수 있다.
제 1 GAN(430)의 제 1 분류기(460)는 제 1 생성기(450)에 의해 생성된 Y성분 이미지(451)를 가짜로 분류하고, 컬러 이미지를 대표하는 샘플 이미지(490)으로부터 YUV 형식으로의 변환을 통해 생성된 Y성분 샘플 이미지(452)를 진짜로 분류하도록 학습될 수 있다. Y성분 샘플 이미지(452)는 하기 수학식 1에 기초하여 컬러 이미지를 대표하는 샘플 이미지(490)를 변환하여 생성될 수 있다. 다만, 변환 방식은 하기 수학식 1로 제한되는 것은 아니며 다양한 변환 방식에 의할 수 있다.
[수학식 1]
Y = 0.229R + 0.587G + 0.114B
이에 따라, 제 1 GAN(430)의 제 1 생성기(450)는 제 1 분류기(460)가 제 1 생성기(450)에 의해 생성된 이미지를 진짜라고 분류할 만큼 Y성분 샘플 이미지(452)와 유사한 이미지를 생성하도록 학습될 수 있다.
제 2 GAN(440)의 제 2 생성기(470)는 Y성분 이미지(451)로부터 U, V성분 이미지(471)를 생성할 수 있다. U 성분 및 V성분은 색상을 표현하며, 구체적으로 U 성분은 파란색에서 밝기 성분을 뺀 값이고, V 성분은 빨간색에서 밝기 성분을 뺀 값에 해당할 수 있다.
제 2 GAN(440)의 제 2 분류기(480)는 제 2 생성기(470)에 의해 생성된 U, V성분 이미지(471)를 가짜로 분류하고, 컬러 이미지를 대표하는 샘플 이미지(490)으로부터 YUV 형식으로의 변환을 통해 생성된 U, V성분 샘플 이미지(472)를 진짜로 분류하도록 학습될 수 있다. U, V성분 샘플 이미지(472)는 하기 수학식 2에 기초하여 컬러 이미지를 대표하는 샘플 이미지(490)를 변환하여 생성될 수 있다. 다만, 변환 방식은 하기 수학식 2로 제한되는 것은 아니며 다양한 변환 방식에 의할 수 있다.
[수학식 2]
U = 0.492(B - Y) 
   = -0.14713R - 0.28886G + 0.436B
V = 0.877(R - Y) 
   = 0.615R - 0.51499G - 0.10001B
이에 따라, 제 2 GAN(440)의 제 2 생성기(470)는 제 2 분류기(480)가 제 2 생성기(470)에 의해 생성된 이미지를 진짜라고 분류할 만큼 U, V성분 샘플 이미지(472)와 유사한 이미지를 생성하도록 학습될 수 있다.
최종적으로, 컬러 이미지(420)는 하기 수학식 3에 기초하여 제 1 생성기(450)에 의해 생성된 Y성분 이미지(451) 및 제 2 생성기(470)에 의해 생성된 U, V성분 이미지(471)를 하기 수학식 3에 의해 변환하여 컬러 이미지(420)를 생성할 수 있다.
[수학식 3]
R = Y + 1.13983V
G = Y - 0.39465U - 0.58060V
B = Y + 2.03211U
도 5는 제 1 인코더 및 제 1 디코더를 포함하는 제 1 생성기의 일 예를 나타내는 도면이다.
도 5를 참조하면, 제 1 생성기(500)는 제 1 인코더(encoder)(510) 및 제 1 디코더(decoder)(520)를 포함할 수 있다.
제 1 인코더(510)는 복수의 컨볼루션(convolution) 계층들을 포함할 수 있으며, 제 1 디코더(520)는 복수의 디컨볼루션(deconvolution) 계층들을 포함할 수 있다.
제 1 생성기(500)의 성능을 향상시키기 위하여, 제 1 인코더(510)에서 입력된 에지 이미지가 복수의 컨볼루션 계층들 중 적어도 하나의 컨볼루션 계층을 통과하여 생성된 중간 결과 이미지(511)는 제 1 디코더(520)의 입력 이미지가 될 수 있다.
또한, 제 1 디코더(520)에서 중간 결과 이미지(511)를 입력 이미지로 하여 복수의 디컨볼루션 계층들을 통과하여 생성된 이미지(512)와 제 1 인코더(510)에서 최종적으로 생성된 이미지(513)를 업샘플링(upsampling)한 이미지는 합쳐질 수 있다. 합쳐진 이미지는 예를 들어 1x1 컨볼루션 계층을 통과 하여 중간 이미지가 출력될 수 있다.
한편, 제 1 인코더(510)의 복수의 컨볼루션(convolution) 계층들은 적어도 하나의 확장 컨볼루션 계층(dilated convolution)을 포함할 수 있다. 확장 컨볼루션 계층은 커널 사이의 간격을 정의하는 확장율(dilation rate)를 도입한 계층으로, 예를 들어 확장율이 2인 3x3 커널은 9개의 파라미터를 사용하면서 5x5 커널과 동일한 시야를 가지는 장점이 있다. 이와 같이, 제 1 인코더(510)는 적어도 하나의 확장 컨볼루션 계층을 포함함으로써, 글로벌 인코딩(global encoding)의 성능을 높일 수 있다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 본 발명의 실시예에서 사용된 데이터의 구조는 컴퓨터로 읽을 수 있는 기록매체에 여러 수단을 통하여 기록될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (13)

  1. 에지(edge) 이미지으로부터 컬러(color) 이미지를 생성하기 위한 GAN(generative adversarial networks) 기반 시스템에 있어서,
    상기 에지 이미지를 적어도 하나의 중간 이미지로 변환하는 모델을 학습하는 제 1 GAN; 및
    상기 중간 이미지를 상기 컬러 이미지로 변환하는 모델을 학습하는 제 2 GAN을 포함하고,
    상기 중간 이미지의 엔트로피는 상기 에지 이미지의 엔트로피 및 상기 컬러 이미지의 엔트로피 사이의 값에 해당하는, 시스템.
  2. 제 1 항에 있어서,
    상기 중간 이미지는 그레이(gray) 이미지 및 휘도(luminance) 성분 이미지 중 적어도 하나에 해당하는 시스템.
  3. 제 2 항에 있어서,
    상기 휘도 성분 이미지는, YUV 색공간에서 빛의 밝기를 0 내지 255의 범위로 스케일링한 값에 해당하는 Y 성분에 해당하는 데이터만을 포함하는 이미지인 시스템.
  4. 제 1 항에 있어서,
    상기 제 1 GAN은,
    상기 에지 이미지를 상기 중간 이미지로 변환하는 모델을 학습하는 제 1 생성기(generator); 및
    상기 생성기에 의해 생성된 이미지와 상기 중간 이미지를 대표하는 샘플 이미지를 구별하는 모델을 학습하는 제 1 분류기(discriminator)를 포함하는 시스템.
  5. 제 4 항에 있어서,
    상기 제 1 생성기는,
    복수의 컨볼루션(convolution) 계층들을 포함하는 제 1 인코더(encoder); 및
    복수의 디컨볼루션(deconvolution) 계층들을 포함하는 제 1 디코더(decoder)를 포함하고,
    상기 제 1 인코더에서 상기 에지 이미지가 상기 복수의 컨볼루션 계층들 중 적어도 하나의 컨볼루션 계층을 통과하여 생성된 중간 결과 이미지는 상기 제 1 디코더의 입력 이미지가 되는 시스템.
  6. 제 1 항에 있어서,
    상기 제 2 GAN은,
    상기 중간 이미지를 상기 컬러 이미지로 변환하는 모델을 학습하는 제 2 생성기(generator); 및
    상기 생성기에 의해 생성된 이미지와 상기 컬러 이미지를 대표하는 샘플 이미지를 구별하는 모델을 학습하는 제 2 분류기를 포함하는 시스템.
  7. 에지(edge) 이미지으로부터 컬러(color) 이미지를 생성하기 위한 GAN(generative adversarial networks) 기반 시스템의 동작 방법에 있어서,
    제 1 GAN에 의해 상기 에지 이미지를 적어도 하나의 중간 이미지로 변환하는 모델을 학습하는 단계; 및
    제 2 GAN에 의해 상기 중간 이미지를 상기 컬러 이미지로 변환하는 모델을 학습하는 단계를 포함하고,
    상기 중간 이미지의 엔트로피는 상기 에지 이미지의 엔트로피 및 상기 컬러 이미지의 엔트로피 사이의 값에 해당하는, 방법.
  8. 제 7 항에 있어서,
    상기 중간 이미지는 그레이(gray) 이미지 및 휘도(luminance) 성분 이미지 중 적어도 하나에 해당하는 방법.
  9. 제 8 항에 있어서,
    상기 휘도 성분 이미지는, YUV 색공간에서 빛의 밝기를 0 내지 255의 범위로 스케일링한 값에 해당하는 Y 성분에 해당하는 데이터만을 포함하는 이미지인 방법.
  10. 제 7 항에 있어서,
    상기 제 1 GAN은,
    상기 에지 이미지를 상기 중간 이미지로 변환하는 모델을 학습하는 제 1 생성기(generator); 및
    상기 생성기에 의해 생성된 이미지와 상기 중간 이미지를 대표하는 샘플 이미지를 구별하는 모델을 학습하는 제 1 분류기(discriminator)를 포함하는 방법.
  11. 제 10 항에 있어서,
    상기 제 1 생성기는,
    복수의 컨볼루션(convolution) 계층들을 포함하는 제 1 인코더(encoder); 및
    복수의 디컨볼루션(deconvolution) 계층들을 포함하는 제 1 디코더(decoder)를 포함하고,
    상기 제 1 인코더에서 상기 에지 이미지가 상기 복수의 컨볼루션 계층들 중 적어도 하나의 컨볼루션 계층을 통과하여 생성된 중간 결과 이미지는 상기 제 1 디코더의 입력 이미지가 되는 방법.
  12. 제 7 항에 있어서,
    상기 제 2 GAN은,
    상기 중간 이미지를 상기 컬러 이미지로 변환하는 모델을 학습하는 제 2 생성기(generator); 및
    상기 생성기에 의해 생성된 이미지와 상기 컬러 이미지를 대표하는 샘플 이미지를 구별하는 모델을 학습하는 제 2 분류기를 포함하는 방법.
  13. 제 7 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020190059133A 2019-05-20 2019-05-20 에지(edge) 이미지으로부터 컬러(color) 이미지를 생성하기 위한 GAN(generative adversarial networks) 기반 시스템 KR102284796B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190059133A KR102284796B1 (ko) 2019-05-20 2019-05-20 에지(edge) 이미지으로부터 컬러(color) 이미지를 생성하기 위한 GAN(generative adversarial networks) 기반 시스템
US16/877,869 US11620774B2 (en) 2019-05-20 2020-05-19 Generative adversarial network (GAN)-based system for generating color image from edge image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190059133A KR102284796B1 (ko) 2019-05-20 2019-05-20 에지(edge) 이미지으로부터 컬러(color) 이미지를 생성하기 위한 GAN(generative adversarial networks) 기반 시스템

Publications (2)

Publication Number Publication Date
KR20200133633A true KR20200133633A (ko) 2020-11-30
KR102284796B1 KR102284796B1 (ko) 2021-08-02

Family

ID=73457234

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190059133A KR102284796B1 (ko) 2019-05-20 2019-05-20 에지(edge) 이미지으로부터 컬러(color) 이미지를 생성하기 위한 GAN(generative adversarial networks) 기반 시스템

Country Status (2)

Country Link
US (1) US11620774B2 (ko)
KR (1) KR102284796B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112991371A (zh) * 2021-04-20 2021-06-18 云南大学 一种基于着色溢出约束的图像自动着色方法及系统
CN113077543A (zh) * 2021-03-11 2021-07-06 东华大学 一种基于3dmm和gan的人脸图像生成方法
WO2022239895A1 (ko) * 2021-05-10 2022-11-17 주식회사 씨앤에이아이 Gan을 이용한 합성 내시경 이미지 생성 장치 및 방법

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102082970B1 (ko) * 2019-04-29 2020-02-28 주식회사 루닛 기계학습을 위한 정규화 방법 및 그 장치
US11842174B2 (en) * 2019-07-09 2023-12-12 Google Llc Translating between programming languages using machine learning
US11068750B1 (en) * 2020-03-30 2021-07-20 The Government of the United States of America, as represented by the Secretary of Homeland Security Testing and evaluating detection process by data augmentation
KR102504722B1 (ko) * 2020-06-24 2023-02-28 영남대학교 산학협력단 감정 표현 영상 생성을 위한 학습 장치 및 방법과 감정 표현 영상 생성 장치 및 방법
WO2022124643A1 (en) * 2020-12-12 2022-06-16 Samsung Electronics Co., Ltd. Method and electronic device for managing artifacts of image
EP4189638A4 (en) * 2020-12-12 2024-01-24 Samsung Electronics Co., Ltd. METHOD AND ELECTRONIC DEVICE FOR MANAGING IMAGE ARTIFACTS
CN114981839A (zh) * 2020-12-21 2022-08-30 北京小米移动软件有限公司 一种模型传输方法、模型传输装置及存储介质
CN112907692B (zh) * 2021-04-09 2023-04-14 吉林大学 一种基于sfrc-gan的从素描到人脸重建方法
US11900534B2 (en) * 2021-07-30 2024-02-13 The Boeing Company Systems and methods for synthetic image generation
CN113724354B (zh) * 2021-09-06 2023-10-13 浙江大学 基于参考图颜色风格的灰度图像着色方法
KR102371145B1 (ko) 2021-11-10 2022-03-07 주식회사 스누아이랩 이미지 복원을 위한 장치 및 그 장치의 구동방법
US12008766B2 (en) 2022-07-26 2024-06-11 Behr Process Corporation Image processing to detect edges, walls, and surfaces for a virtual painting application

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180342084A1 (en) * 2017-05-23 2018-11-29 Preferred Networks, Inc. Method and apparatus for automatic line drawing coloring and graphical user interface thereof

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9996969B2 (en) * 2016-09-27 2018-06-12 Autodesk, Inc. Dynamically creating and presenting a three-dimensional (3D) view of a scene by combining color, brightness, and intensity from multiple scan data sources
US11308714B1 (en) * 2018-08-23 2022-04-19 Athenium Llc Artificial intelligence system for identifying and assessing attributes of a property shown in aerial imagery
US10878575B2 (en) * 2019-04-15 2020-12-29 Adobe Inc. Foreground-aware image inpainting

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180342084A1 (en) * 2017-05-23 2018-11-29 Preferred Networks, Inc. Method and apparatus for automatic line drawing coloring and graphical user interface thereof

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Dong, Hao, et al. "Unsupervised image-to-image translation with generative adversarial networks." arXiv preprint arXiv:1701.02676 (2017). *
Liu, Ming-Yu, and Oncel Tuzel. "Coupled generative adversarial networks." Advances in neural information processing systems.(2016) *
Liu, Yifan, et al. "Auto-painter: Cartoon image generation from sketch by using conditional generative adversarial networks." arXiv preprint arXiv:1705.01908 (2017) *
Liu, Yifan, et al. "Auto-painter: Cartoon image generation from sketch by using conditional generative adversarial networks." arXiv preprint arXiv:1705.01908(2017)* *
Ren, Hui, et al. "Automatic Sketch Colorization with Tandem Conditional Adversarial Networks." 11th International Symposium on Computational Intelligence and Design. Vol.1.(2018) *
조상흠, et al. "CycleGAN 을 이용한 야간 상황 물체 검출 알고리즘." 멀티미디어학회논문지 22.1 (2019) *
홍준표, et al. "GAN 과 Edge Detector 를 사용한 Webtoon 자동 채색 기법." 한국정보과학회 학술발표논문집 (2018) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077543A (zh) * 2021-03-11 2021-07-06 东华大学 一种基于3dmm和gan的人脸图像生成方法
CN112991371A (zh) * 2021-04-20 2021-06-18 云南大学 一种基于着色溢出约束的图像自动着色方法及系统
CN112991371B (zh) * 2021-04-20 2024-01-05 云南大学 一种基于着色溢出约束的图像自动着色方法及系统
WO2022239895A1 (ko) * 2021-05-10 2022-11-17 주식회사 씨앤에이아이 Gan을 이용한 합성 내시경 이미지 생성 장치 및 방법
KR20220152840A (ko) * 2021-05-10 2022-11-17 주식회사 씨앤에이아이 Gan을 이용한 합성 내시경 이미지 생성 장치 및 방법

Also Published As

Publication number Publication date
US11620774B2 (en) 2023-04-04
KR102284796B1 (ko) 2021-08-02
US20200372694A1 (en) 2020-11-26

Similar Documents

Publication Publication Date Title
KR102284796B1 (ko) 에지(edge) 이미지으로부터 컬러(color) 이미지를 생성하기 위한 GAN(generative adversarial networks) 기반 시스템
US9092892B2 (en) Image processing device determining binarizing threshold value
CN101360250B (zh) 沉浸产生方法和系统及因素控制、内容分析及参数预测法
CA3039239C (en) Conformance of media content to original camera source using optical character recognition
CN109712165A (zh) 一种基于卷积神经网络的同类前景图像集分割方法
JP2005229620A (ja) 複数のフォアグランド平面を有する高圧縮画像データファイルの生成システム及び方法
KR20170107487A (ko) 메타데이터 기반 영상 처리 방법 및 장치
CN107730568B (zh) 基于权重学习的着色方法和装置
US11640650B2 (en) Computing apparatus and operation method of the same
JP2011142615A (ja) 画像処理装置、画像処理方法およびプログラム
KR20200015095A (ko) 영상 처리 장치 및 그 동작방법
US20230021533A1 (en) Method and apparatus for generating video with 3d effect, method and apparatus for playing video with 3d effect, and device
US20130004064A1 (en) Image data processing device, method, program and integrated circuit
CN105407251A (zh) 图像处理装置及图像处理方法
CN112699885A (zh) 一种基于对抗生成网络gan的语义分割训练数据增广方法和系统
US8509529B2 (en) Color-image representative color decision apparatus and method of controlling operation thereof
US10565465B2 (en) Image processing apparatus that identifies character pixel in target image using first and second candidate character pixels
JP2024025683A (ja) 画像における意味的対象領域の発見
JP2021197599A (ja) 画像処理装置、画像処理方法及びプログラム
JP4453979B2 (ja) 画像再生装置、画像再生方法、プログラム及び記録媒体
JP2016075993A (ja) 画像処理装置及びその制御方法、プログラム
US9245211B2 (en) Image processing apparatus, method of controlling the same, and program
JP2006031245A (ja) ディジタル画像の輪郭追跡による画像処理方法並びに画像処理装置
JP2003209704A (ja) 画像処理方法、画像処理装置、画像形成装置、画像処理プログラムおよび記録媒体
JP6091400B2 (ja) 画像処理装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant