KR102284796B1

KR102284796B1 - 에지(edge) 이미지으로부터 컬러(color) 이미지를 생성하기 위한 GAN(generative adversarial networks) 기반 시스템

Info

Publication number: KR102284796B1
Application number: KR1020190059133A
Authority: KR
Inventors: 황원준; 김동이; 홍준표; 김형호
Original assignee: 아주대학교 산학협력단
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2021-08-02
Also published as: US20200372694A1; KR20200133633A; US11620774B2

Abstract

에지(edge) 이미지으로부터 컬러(color) 이미지를 생성하기 위한 GAN(generative adversarial networks) 기반 시스템으로서, 에지 이미지를 중간 이미지로 변환하는 모델을 학습하는 제 1 GAN 및 중간 이미지를 컬러 이미지로 변환하는 모델을 학습하는 제 2 GAN을 포함하고, 중간 이미지의 엔트로피는 에지 이미지의 엔트로피 및 컬러 이미지의 엔트로피 사이의 값에 해당할 수 있다.

Description

에지(edge) 이미지으로부터 컬러(color) 이미지를 생성하기 위한 GAN(generative adversarial networks) 기반 시스템{A generative adversarial networks(GAN) based system for generating color images from edge images}

본 개시는 에지(edge) 이미지으로부터 컬러(color) 이미지를 생성하기 위한 GAN(generative adversarial networks) 기반 시스템에 관한 것이다.

오늘날 웹툰은 연령을 가리지 않고 쉽게 즐길 수 있는 스낵 문화로 자리 매김하였다. 다양한 웹툰들의 드라마화 또는 영화화와 같은 미디어 믹스가 활발히 진행되고 있고, 유료화 플랫폼 등의 성장으로 웹툰 시장의 크기와 다양성은 더욱 강화되고 있다. 이에 따라 기존의 흑백 출판 만화를 채색하고자 하는 시장의 요구가 커지고 있으며, 웹툰 작가의 생성성 향상을 위해서 영상의 밑그림을 자동으로 채색하는 기술에 대한 소요가 커지고 있다.

한편, 기존의 자동 채색 기술은, 동일 물체임에도 불구하고 물체의 영역이 넓은 경우 동일 물체 상에서 서로 다른 복수의 컬러가 채색되거나, 특정 물체를 얼굴을 형성하는 에지가 가릴 경우 얼굴을 형성하는 에지에 의해 나뉘어진 물체의 좌우가 서로 다른 색으로 채색되는 문제점이 있었다.

본 개시에 따른 다양한 실시예들은 에지(edge) 이미지으로부터 컬러(color) 이미지를 생성하기 위한 GAN(generative adversarial networks) 기반 시스템을 제공하고자 한다. 본 개시가 이루고자 하는 기술적 과제는 상기와 같은 기술적 과제들로 한정되지 않으며, 이하의 실시예들로부터 또 다른 기술적 과제들이 유추될 수 있다.

본 개시의 일 측면에 따르면, 에지(edge) 이미지으로부터 컬러(color) 이미지를 생성하기 위한 GAN(generative adversarial networks) 기반 시스템에 있어서, 상기 에지 이미지를 적어도 하나의 중간 이미지로 변환하는 모델을 학습하는 제 1 GAN; 및 상기 중간 이미지를 상기 컬러 이미지로 변환하는 모델을 학습하는 제 2 GAN을 포함하고, 상기 중간 이미지의 엔트로피는 상기 에지 이미지의 엔트로피 및 상기 컬러 이미지의 엔트로피 사이의 값에 해당할 수 있다.

또한, 상기 중간 이미지는 그레이(gray) 이미지 및 휘도(luminance) 성분 이미지 중 적어도 하나에 해당할 수 있다

또한, 상기 휘도 성분 이미지는, YUV 색공간에서 빛의 밝기를 0 내지 255의 범위로 스케일링한 값에 해당하는 Y 성분에 해당하는 데이터만을 포함하는 이미지일 수 있다.

또한, 상기 제 1 GAN은, 상기 에지 이미지를 상기 중간 이미지로 변환하는 모델을 학습하는 제 1 생성기(generator); 및 상기 생성기에 의해 생성된 이미지와 상기 중간 이미지를 대표하는 샘플 이미지를 구별하는 모델을 학습하는 제 1 분류기(discriminator)를 포함할 수 있다.

또한, 상기 제 1 생성기는, 복수의 컨볼루션(convolution) 계층들을 포함하는 제 1 인코더(encoder); 및 복수의 디컨볼루션(deconvolution) 계층들을 포함하는 제 1 디코더(decoder)를 포함하고, 상기 제 1 인코더에서 상기 에지 이미지가 상기 복수의 컨볼루션 계층들 중 적어도 하나의 컨볼루션 계층을 통과하여 생성된 중간 결과 이미지는 상기 제 1 디코더의 입력 이미지가 될 수 있다.

또한, 상기 제 2 GAN은, 상기 중간 이미지를 상기 컬러 이미지로 변환하는 모델을 학습하는 제 2 생성기(generator); 및 상기 생성기에 의해 생성된 이미지와 상기 컬러 이미지를 대표하는 샘플 이미지를 구별하는 모델을 학습하는 제 2 분류기를 포함할 수 있다.

본 개시의 다른 측면에 따르면, 에지(edge) 이미지으로부터 컬러(color) 이미지를 생성하기 위한 GAN(generative adversarial networks) 기반 시스템의 동작 방법에 있어서, 상기 에지 이미지를 적어도 하나의 중간 이미지로 변환하는 모델을 학습하는 단계; 및 상기 중간 이미지를 상기 컬러 이미지로 변환하는 모델을 학습하는 단계를 포함하고, 상기 중간 이미지의 엔트로피는 상기 에지 이미지의 엔트로피 및 상기 컬러 이미지의 엔트로피 사이의 값에 해당할 수 있다.

본 개시의 또 다른 측면에 따르면, 제 일 측면의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다.

도 1은 에지(edge) 이미지로부터 컬러(color) 이미지를 생성하는 일 예를 나타내는 도면이다.
도 2는 GAN(Generative Adversarial Networks) 동작 방식의 일 예를 설명하기 위한 도면이다.
도 3은 에지 이미지로부터 컬러 이미지를 생성하는 GAN 기반 시스템의 일 예를 나타내는 도면이다.
도 4는 에지 이미지로부터 컬러 이미지를 생성하는 GAN 기반 시스템의 동작을 설명하기 위한 도면이다.
도 5는 제 1 인코더 및 제 1 디코더를 포함하는 제 1 생성기의 일 예를 나타내는 도면이다.

본 실시예들에서 사용되는 용어는 본 실시예들에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 기술분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 임의로 선정된 용어도 있으며, 이 경우 해당 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 실시예들에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 실시예들의 전반에 걸친 내용을 토대로 정의되어야 한다.

실시예들에 대한 설명들에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 그 중간에 다른 구성요소를 사이에 두고 전기적으로 연결되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 실시예들에서 사용되는 "구성된다" 또는 "포함한다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 도는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.

하기 실시예들에 대한 설명은 권리범위를 제한하는 것으로 해석되지 말아야 하며, 해당 기술분야의 당업자가 용이하게 유추할 수 있는 것은 실시예들의 권리범위에 속하는 것으로 해석되어야 할 것이다. 이하 첨부된 도면들을 참조하면서 오로지 예시를 위한 실시예들을 상세히 설명하기로 한다.

도 1은 에지(edge) 이미지로부터 컬러(color) 이미지를 생성하는 일 예를 나타내는 도면이다.

에지(edge)는 밝기가 급격하게 변하는 부분으로 경계선 또는 윤곽선을 의미할 수 있다. 에지 이미지는 색상을 채우지 않고 경계선 또는 윤곽선으로만 이루어진 이미지로, 예를 들어 웹툰 작가가 그린 밑그림에 해당할 수 있다.

에지 이미지를 사람이 직접 채색하는 과정을 통해 컬러 이미지를 생성하는 경우, 시간 및 비용적 측면에서 비효율적일 수 있다. 따라서, 에지 이미지를 입력으로 하여 컬러 이미지를 출력하도록 하는 기계 학습 방법이 제안되고 있다. 기계 학습 방법의 일 예로써, GAN(Generative Adversarial Networks)이 제안되고 있으며 이에 관하여는 도 2에서 상세히 후술하도록 한다.

도 2는 GAN(Generative Adversarial Networks) 동작 방식의 일 예를 설명하기 위한 도면이다.

GAN(200)(Generative Adversarial Networks)(200)는 학습 네트워크로서, 회귀 생성을 담당하는 모델인 생성자(generator)(210) 및 분류를 담당하는 모델인 분류자(discriminator)(220)로 구성될 수 있다. GAN(200)은 생성자(210)와 분류자(220)가 서로의 성능을 개선해 적대적으로 경쟁해 나가는 모델이다.

GAN(200)에서는 분류자(220)를 먼저 학습시킨 후, 생성자(210)를 학습시키는 과정을 서로 반복할 수 있다. 분류자(220)의 학습은 두 가지 단계로 이루어질 수 있다. 첫 번째로 진짜 데이터(real data)를 입력해서 네트워크가 해당 데이터를 진짜로 분류하도록 학습하고, 두 번째로 생성자(210)에서 생성한 가짜 데이터(fake data)를 입력해서 해당 데이터를 가짜로 분류하도록 학습할 수 있다. 이 과정을 통해 분류자(220)는 진짜 데이터를 진짜로, 가짜 데이터를 가짜로 분류할 수 있다. 분류자(220)를 학습시킨 다음에는 학습된 분류 자를 속이는 방향으로 생성자(210)를 학습시킬 수 있다. 즉, 랜덤 벡터(random vector)로부터 생성자(210)에서 만들어낸 가짜 데이터를 분류자(220)가 진짜라고 분류할 만큼 진짜 데이터와 유사한 데이터를 만들어 내도록 생성자(210)를 학습시킬 수 있다.　

이와 같은 학습 과정을 반복함에 따라 분류자(220)와 생성자(210)는 서로를 적대적인 경쟁자로 인식하여 모두 발전하게 되고, 결과적으로 생성자(210)는 진짜 데이터와 완벽히 유사한 가짜 데이터를 만들 수 있게 되고 이에 따라 분류자(220)는 진짜 데이터와 가짜 데이터를 구분할 수 없게 된다. 즉, GAN(200)에서 생성자(210)는 분류에 성공할 확률을 낮추려 하고, 분류자(220)는 분류에 성공할 확률을 높이려 하면서 서로가 서로를 경쟁적으로 발전시키는 구조를 이룬다.

도 3은 에지 이미지로부터 컬러 이미지를 생성하는 GAN 기반 시스템의 일 예를 나타내는 도면이다.

기존의 GAN을 이용하여 에지 이미지를 채색하는 시스템인 Pix2Pix는 안정적인 성능을 보여주나, 물체나 대상을 과장하여 표현하며 전체적인 이미지보다는 강조하고 싶은 특정 부분을 확대하여 표현하는 웹툰에 적용되는 경우에는 문제가 발생할 수 있었다. 예를 들어, 동일 물체임에도 불구하고 물체의 영역이 넓은 경우 동일 물체 상에서 서로 다른 복수의 컬러가 채색되거나, 특정 물체를 얼굴을 형성하는 에지가 가릴 경우 얼굴을 형성하는 에지에 의해 나뉘어진 물체의 좌우가 서로 다른 색으로 채색되는 문제가 있었다. 이와 같은 문제는 엔트로피(entropy) 레벨이 낮은 에지 이미지를 입력으로 하여 엔트로피 레벨이 높은 컬러 이미지를 출력하는 과정에서, 에지 이미지에 초기 값을 설정하기 쉽지 않으며 조금이라도 폐색된 부분이 있는 경우 잘못된 색으로 채색될 수 있기 때문이다.

이에 본 발명은, 엔트로피 레벨이 낮은 에지 이미지에서 엔트로피 레벨이 높은 컬러 이미지를 바로 출력하지 않고, 엔트로피 레벨이 낮은 에지 이미지에서 엔트로피 레벨이 에지 이미지의 엔트로피 레벨과 컬러 이미지의 엔트로피 레벨의 사이에 존재하는 적어도 하나의 중간 이미지를 생성한 후, 중간 이미지에서 엔트로피 레벨이 높은 컬러 이미지를 생성하는 GAN 기반 시스템을 제안한다.

도 3을 참조하면, 에지 이미지로부터 컬러 이미지를 생성하는 GAN 기반 시스템(300)은 제 1 GAN(310) 및 제 2 GAN(320)을 포함할 수 있다.

제 1 GAN(310)은 에지 이미지를 적어도 하나의 중간 이미지로 변환하는 모델을 학습할 수 있다. 또한, 제 2 GAN(320)은 중간 이미지를 상기 컬러 이미지로 변환하는 모델을 학습할 수 있다. 이 때, 중간 이미지의 엔트로피 레벨은 에지 이미지의 엔트로피 레벨 및 컬러 이미지의 엔트로피 레벨 사이에 존재할 수 있다.

예를 들어, 중간 이미지는 그레이 스케일(gray scale)의 이미지 또는 휘도(luminance) 성분 이미지에 해당할 수 있다. 그레이 스케일 이미지는 각 화소의 값이 빛의 양을 나타내는 이미지를 의미할 수 있다. 휘도는 일정한 넓이를 가진 표면이 스스로 빛을 내거나 투과 혹은 반사하는 빛의 밝기를 의미하며, 휘도 성분 이미지는 예를 들어 YUV 색공간에서 빛의 밝기를 0~255의 범위로 스케일링한 값에 해당하는 Y 성분에 해당하는 데이터만을 포함하는 이미지에 해당할 수 있다. YUV 색공간은 인간의 망막의 특이점을 이용 하여 색상의 밝기와 색수차를 분리하여 이미지를 처리하는 방법으로, Y 성분은 휘도 성분이며 밝기 정보를 저장하는 데 사용되고, U 성분 및 V 성분은 색차를 나타내며 색상을 표현하기 위해 사용된다.

한편, 중간 이미지는 RGB 색공간에서 R, G 또는 B 중 어느 하나의 색 성분에 해당하는 데이터만을 포함하는 이미지에도 해당할 수 있으며, 그 밖의 엔트로피 레벨이 에지 이미지의 엔트로피 레벨 및 컬러 이미지의 엔트로피 레벨 사이에 존재하는 다양한 이미지에 해당할 수 있다.

한편, 제 1 GAN은 에지 이미지를 적어도 하나의 중간 이미지로 변환하는 모델을 학습하는 제 1 생성기(generator) 및 제 1 생성기에 의해 생성된 이미지와 중간 이미지를 대표하는 샘플 이미지를 구별하는 모델을 학습하는 제 1 분류기(discriminator)를 포함할 수 있다. 제 1 분류기는 중간 이미지를 대표하는 샘플 이미지를 진짜로, 제 1 생성기에 의해 생성된 이미지를 가짜로 분류하도록 학습될 수 있다. 중간 이미지를 대표하는 샘플 이미지는 컬러 이미지를 대표하는 샘플 이미지로부터 그레이 스케일로의 변환 또는 YUV 형식으로의 변환을 통해 생성될 수 있다. 이는 도 4에서 상세히 후술하도록 한다. 또한, 제 1 생성기는 제 1 분류기가 제 1 생성기에 의해 생성된 이미지를 진짜라고 분류할 만큼 중간 이미지를 대표하는 샘플 이미지와 유사한 이미지를 생성하도록 학습될 수 있다.

또한, 제 2 GAN은 적어도 하나의 중간 이미지를 컬러 이미지로 변환하는 모델을 학습하는 제 2 생성기(generator) 및 제 2 생성기에 의해 생성된 이미지와 상기 컬러 이미지를 대표하는 샘플 이미지를 구별하는 모델을 학습하는 제 2 분류기를 포함할 수 있다. 마찬가지로, 제 2 분류기는 컬러 이미지를 대표하는 샘플 이미지를 진짜로, 제 2 생성기에 의해 생성된 이미지를 가짜로 분류하도록 학습될 수 있다. 또한, 제 2 생성기는 제 2 분류기가 제 2 생성기에 의해 생성된 이미지를 진짜라고 분류할 만큼 컬러 이미지를 대표하는 샘플 이미지와 유사한 이미지를 생성하도록 학습될 수 있다.

도 4는 에지 이미지로부터 컬러 이미지를 생성하는 GAN 기반 시스템의 동작을 설명하기 위한 도면이다.

도 4를 참조하면, GAN 기반 시스템(400)에 에지 이미지(410)가 입력되어 최종적으로 컬러 이미지(420)가 생성될 수 있다. GAN 기반 시스템(400)은 제 1 GAN(430) 및 제 2 GAN(440)을 포함할 수 있다. 또한, 제 1 GAN(430)은 제 1 생성기(450) 및 제 1 분류기(460)를 포함할 수 있고, 제 2 GAN(440)은 제 2 생성기(470) 및 제 2 분류기(480)를 포함할 수 있다.

먼저, 제 1 GAN(430)의 제 1 생성기(450)는 에지 이미지(410)로부터 중간 이미지인 Y성분 이미지(451)를 생성할 수 있다. Y성분 이미지(451)는 YUV 색공간에서 빛의 밝기를 0~255의 범위로 스케일링한 값에 해당하는 Y 성분에 해당하는 데이터만을 포함하는 이미지에 해당할 수 있다.

제 1 GAN(430)의 제 1 분류기(460)는 제 1 생성기(450)에 의해 생성된 Y성분 이미지(451)를 가짜로 분류하고, 컬러 이미지를 대표하는 샘플 이미지(490)으로부터 YUV 형식으로의 변환을 통해 생성된 Y성분 샘플 이미지(452)를 진짜로 분류하도록 학습될 수 있다. Y성분 샘플 이미지(452)는 하기 수학식 1에 기초하여 컬러 이미지를 대표하는 샘플 이미지(490)를 변환하여 생성될 수 있다. 다만, 변환 방식은 하기 수학식 1로 제한되는 것은 아니며 다양한 변환 방식에 의할 수 있다.

[수학식 1]

Y = 0.229R + 0.587G + 0.114B

이에 따라, 제 1 GAN(430)의 제 1 생성기(450)는 제 1 분류기(460)가 제 1 생성기(450)에 의해 생성된 이미지를 진짜라고 분류할 만큼 Y성분 샘플 이미지(452)와 유사한 이미지를 생성하도록 학습될 수 있다.

제 2 GAN(440)의 제 2 생성기(470)는 Y성분 이미지(451)로부터 U, V성분 이미지(471)를 생성할 수 있다. U 성분 및 V성분은 색상을 표현하며, 구체적으로 U 성분은 파란색에서 밝기 성분을 뺀 값이고, V 성분은 빨간색에서 밝기 성분을 뺀 값에 해당할 수 있다.

제 2 GAN(440)의 제 2 분류기(480)는 제 2 생성기(470)에 의해 생성된 U, V성분 이미지(471)를 가짜로 분류하고, 컬러 이미지를 대표하는 샘플 이미지(490)으로부터 YUV 형식으로의 변환을 통해 생성된 U, V성분 샘플 이미지(472)를 진짜로 분류하도록 학습될 수 있다. U, V성분 샘플 이미지(472)는 하기 수학식 2에 기초하여 컬러 이미지를 대표하는 샘플 이미지(490)를 변환하여 생성될 수 있다. 다만, 변환 방식은 하기 수학식 2로 제한되는 것은 아니며 다양한 변환 방식에 의할 수 있다.

[수학식 2]

U = 0.492(B - Y)　

　　= -0.14713R - 0.28886G + 0.436B

V = 0.877(R - Y)　

　　= 0.615R - 0.51499G - 0.10001B

이에 따라, 제 2 GAN(440)의 제 2 생성기(470)는 제 2 분류기(480)가 제 2 생성기(470)에 의해 생성된 이미지를 진짜라고 분류할 만큼 U, V성분 샘플 이미지(472)와 유사한 이미지를 생성하도록 학습될 수 있다.

최종적으로, 컬러 이미지(420)는 하기 수학식 3에 기초하여 제 1 생성기(450)에 의해 생성된 Y성분 이미지(451) 및 제 2 생성기(470)에 의해 생성된 U, V성분 이미지(471)를 하기 수학식 3에 의해 변환하여 컬러 이미지(420)를 생성할 수 있다.

[수학식 3]

R = Y + 1.13983V

G = Y - 0.39465U - 0.58060V

B = Y + 2.03211U

도 5는 제 1 인코더 및 제 1 디코더를 포함하는 제 1 생성기의 일 예를 나타내는 도면이다.

도 5를 참조하면, 제 1 생성기(500)는 제 1 인코더(encoder)(510) 및 제 1 디코더(decoder)(520)를 포함할 수 있다.

제 1 인코더(510)는 복수의 컨볼루션(convolution) 계층들을 포함할 수 있으며, 제 1 디코더(520)는 복수의 디컨볼루션(deconvolution) 계층들을 포함할 수 있다.

제 1 생성기(500)의 성능을 향상시키기 위하여, 제 1 인코더(510)에서 입력된 에지 이미지가 복수의 컨볼루션 계층들 중 적어도 하나의 컨볼루션 계층을 통과하여 생성된 중간 결과 이미지(511)는 제 1 디코더(520)의 입력 이미지가 될 수 있다.

또한, 제 1 디코더(520)에서 중간 결과 이미지(511)를 입력 이미지로 하여 복수의 디컨볼루션 계층들을 통과하여 생성된 이미지(512)와 제 1 인코더(510)에서 최종적으로 생성된 이미지(513)를 업샘플링(upsampling)한 이미지는 합쳐질 수 있다. 합쳐진 이미지는 예를 들어 1x1 컨볼루션 계층을 통과 하여 중간 이미지가 출력될 수 있다.

한편, 제 1 인코더(510)의 복수의 컨볼루션(convolution) 계층들은 적어도 하나의 확장 컨볼루션 계층(dilated　convolution)을 포함할 수 있다. 확장 컨볼루션 계층은 커널 사이의 간격을 정의하는 확장율(dilation rate)를 도입한 계층으로, 예를 들어 확장율이 2인 3x3 커널은 9개의 파라미터를 사용하면서 5x5 커널과 동일한 시야를 가지는 장점이 있다. 이와 같이, 제 1 인코더(510)는 적어도 하나의 확장 컨볼루션 계층을 포함함으로써, 글로벌 인코딩(global encoding)의 성능을 높일 수 있다.

한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 본 발명의 실시예에서 사용된 데이터의 구조는 컴퓨터로 읽을 수 있는 기록매체에 여러 수단을 통하여 기록될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

에지(edge) 이미지로부터 컬러(color) 이미지를 생성하기 위한 GAN(generative adversarial networks) 기반 시스템에 있어서,
상기 에지 이미지를 적어도 하나의 중간 이미지로 변환하는 모델을 학습하는 제 1 GAN; 및
상기 중간 이미지를 상기 컬러 이미지로 변환하는 모델을 학습하는 제 2 GAN을 포함하고,
상기 중간 이미지의 엔트로피는 상기 에지 이미지의 엔트로피 및 상기 컬러 이미지의 엔트로피 사이의 값에 해당하고,
상기 제 1 GAN은,
상기 에지 이미지를 상기 중간 이미지로 변환하는 모델을 학습하는 제 1 생성기(generator); 및
상기 생성기에 의해 생성된 이미지와 상기 중간 이미지를 대표하는 샘플 이미지를 구별하는 모델을 학습하는 제 1 분류기(discriminator)를 포함하고,
상기 제 1 생성기는,
복수의 컨볼루션(convolution) 계층들을 포함하는 제 1 인코더(encoder)를 포함하고,
상기 제 1 인코더의 상기 복수의 컨볼루션 계층들은 적어도 하나의 확장 컨볼루션 계층(dilated convolution)을 포함하는 시스템.
삭제
제 1 항에 있어서,
상기 중간 이미지는 그레이(gray) 이미지 및 휘도(luminance) 성분 이미지 중 적어도 하나에 해당하고,
상기 휘도 성분 이미지는, YUV 색공간에서 빛의 밝기를 0 내지 255의 범위로 스케일링한 값에 해당하는 Y 성분에 해당하는 데이터만을 포함하는 이미지인 시스템.
제 1 항에 있어서,
상기 제 1 생성기는,
복수의 디컨볼루션(deconvolution) 계층들을 포함하는 제 1 디코더(decoder)를 더 포함하고,
상기 제 1 인코더에서 상기 에지 이미지가 상기 복수의 컨볼루션 계층들 중 적어도 하나의 컨볼루션 계층을 통과하여 생성된 중간 결과 이미지는 상기 제 1 디코더의 입력 이미지가 되는 시스템.
제 4 항에 있어서,
상기 중간 결과 이미지가 상기 제 1 인코더의 상기 복수의 컨볼루션 계층들 중 적어도 하나의 컨볼루션 계층을 통과하여 생성된 이미지를 업샘플링(upsampling)한 이미지와
상기 중간 결과 이미지가 상기 제 1 디코더의 상기 복수의 디컨볼루션 계층들 중 적어도 하나의 디컨볼루션 계층을 통과하여 생성된 이미지를 합치는 시스템.
제 1 항에 있어서,
상기 제 2 GAN은,
상기 중간 이미지를 상기 컬러 이미지로 변환하는 모델을 학습하는 제 2 생성기(generator); 및
상기 생성기에 의해 생성된 이미지와 상기 컬러 이미지를 대표하는 샘플 이미지를 구별하는 모델을 학습하는 제 2 분류기를 포함하는 시스템.
에지(edge) 이미지로부터 컬러(color) 이미지를 생성하기 위한 GAN(generative adversarial networks) 기반 시스템의 동작 방법에 있어서,
제 1 GAN에 의해 상기 에지 이미지를 적어도 하나의 중간 이미지로 변환하는 모델을 학습하는 단계; 및
제 2 GAN에 의해 상기 중간 이미지를 상기 컬러 이미지로 변환하는 모델을 학습하는 단계를 포함하고,
상기 중간 이미지의 엔트로피는 상기 에지 이미지의 엔트로피 및 상기 컬러 이미지의 엔트로피 사이의 값에 해당하고,
상기 제 1 GAN은,
상기 에지 이미지를 상기 중간 이미지로 변환하는 모델을 학습하는 제 1 생성기; 및
상기 생성기에 의해 생성된 이미지와 상기 중간 이미지를 대표하는 샘플 이미지를 구별하는 모델을 학습하는 제 1 분류기를 포함하고,
상기 제 1 생성기는,
복수의 컨볼루션 계층들을 포함하는 제 1 인코더를 포함하고,
상기 제 1 인코더의 상기 복수의 컨볼루션 계층들은 적어도 하나의 확장 컨볼루션 계층을 포함하는 방법.
삭제
제 7 항에 있어서,
상기 중간 이미지는 그레이 이미지 및 휘도 성분 이미지 중 적어도 하나에 해당하고,
상기 휘도 성분 이미지는, YUV 색공간에서 빛의 밝기를 0 내지 255의 범위로 스케일링한 값에 해당하는 Y 성분에 해당하는 데이터만을 포함하는 이미지인 방법.
제 7 항에 있어서,
상기 제 1 생성기는,
복수의 디컨볼루션 계층들을 포함하는 제 1 디코더를 더 포함하고,
상기 제 1 인코더에서 상기 에지 이미지가 상기 복수의 컨볼루션 계층들 중 적어도 하나의 컨볼루션 계층을 통과하여 생성된 중간 결과 이미지는 상기 제 1 디코더의 입력 이미지가 되는 방법.
제 10 항에 있어서,
상기 에지 이미지를 상기 적어도 하나의 중간 이미지로 변환하는 모델을 학습하는 단계는,
상기 중간 결과 이미지가 상기 제 1 인코더의 상기 복수의 컨볼루션 계층들 중 적어도 하나의 컨볼루션 계층을 통과하여 생성된 이미지를 업샘플링한 이미지와 상기 중간 결과 이미지가 상기 제 1 디코더의 상기 복수의 디컨볼루션 계층들 중 적어도 하나의 디컨볼루션 계층을 통과하여 생성된 이미지를 합치는 단계를 포함하는 방법.
제 7 항에 있어서,
상기 제 2 GAN은,
상기 중간 이미지를 상기 컬러 이미지로 변환하는 모델을 학습하는 제 2 생성기(generator); 및
상기 생성기에 의해 생성된 이미지와 상기 컬러 이미지를 대표하는 샘플 이미지를 구별하는 모델을 학습하는 제 2 분류기를 포함하는 방법.
제 7 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.