KR20210034462A

KR20210034462A - 픽셀 별 주석을 생성하는 생성적 적대 신경망(gan)을 학습시키는 방법

Info

Publication number: KR20210034462A
Application number: KR1020200034099A
Authority: KR
Inventors: 다닐 패날레비치 갈레브; 다닐라 드미트리비치 루코비치; 콘스탄틴 세르지비치 소피약; 안톤 세르지비치 코누신; 믹하일 빅토로비치 로마노브
Original assignee: 삼성전자주식회사
Priority date: 2019-09-20
Filing date: 2020-03-19
Publication date: 2021-03-30

Abstract

이미지 및 주석 합성 방법이 개시된다. 본 방법은, 입력된 데이터를 기반으로 이미지를 생성하도록 GAN(Generative Adversarial Network)을 훈련시키는 단계, 훈련된 GAN으로부터 출력된 이미지를 획득하는 단계, 이미지를 획득하는 단계에서 GAN의 적어도 하나의 중간 레이어에서 출력되는 특징 값(features) 및 획득된 이미지에 인위적으로 부가된 의미 분할 마스크를 기반으로, 특징 값이 입력되면 의미 분할 마스크를 출력하는 디코더(Decoder)를 훈련시키는 단계, 훈련된 GAN 및 훈련된 디코더를 이용하여, 적어도 하나의 이미지 및 적어도 하나의 이미지에 대응되는 의미 분할 마스크를 포함하는 합성 데이터를 생성하는 단계를 포함한다.

Description

픽셀 별 주석을 생성하는 생성적 적대 신경망(GAN)을 학습시키는 방법 { METHOD FOR TRAINING GENERATIVE ADVERSARIAL NETWORKS TO GENERATE PER-PIXEL ANNOTATION }

본 개시는 머신 러닝, 컴퓨터 비젼, 딥 러닝 방법의 품질을 향상시키기 위한 합성 데이터셋을 생성하기 위한 생성적 적대 신경망(GAN. Generative Adversarial Networks)에 관한 것이다.

최근 신경망 기반 생성 모델들의 품질이 매우 향상되고 있다. 최초의 GAN[8]은 단지 MNIST의 숫자나 또는 저해상도의 이미지를 생성할 뿐이었으나, 최근의 모델들([3], [16])은 고품질 및 고해상도의 이미지를 생성하여 인간으로 하여금 종종 실제 이미지와 구분하기 어렵게 한다.

장면 이해 분야에서 중요한 의미 분할(semantic segmentation) 역시 최근의 신경망 모델 기반 방법들과 관련하여 고품질의 솔루션을 제공한다. 몇몇 연구는 분할 마스크([13], [12])를 사용하거나 또는 준 지도 학습을 기반으로 분할을 수행하는 두 가지 접근 방식들이 하나의 훈련 방식으로 함께 사용되어 현실적인 이미지를 생성할 수 있음을 개시한다.

GAN들은 일반적으로 두 가지 네트워크들로 구성된다. Generator 네트워크 및 Discriminator 네트워크이다.

Generator는 임의의 노이즈로부터 이미지를 생성하고 Discriminator는 실제 이미지와 생성된 이미지를 구분하도록 훈련된다. Generator는 Discriminator를 속이도록 훈련된다. 훈련 이후, Generator는 실제 이미지와 구분될 수 없는 이미지를 생성해야만 한다.

두 가지 네트워크에 대한 반복적인 훈련은 Generator로 하여금 실제 이미지와 구분할 수 없는 이미지를 생성할 수 있도록 한다. 머신 러닝이 직면한 주요한 과제는 고품질의 이미지 생성, 다양한 이미지 생성, 그리고 안정적인 훈련이다.

최초의 GAN [8]의 구조는 매우 간단했다. Discriminator 및 Generator 모두 단지 fully-connected layer들로 구성되었다. 이러한 GAN은 MNIST 데이터 셋에서 숫자를 생성하거나 또는 CIFAR-10으로부터 저해상도의 이미지들을 생성할 수 있었지만, 복잡한 데이터 셋에 대하여 일반화(적용)되는 데에 어려움을 겪었다.

DCGAN[21]의 출현과 함께, 컨볼루션 및 디컨볼루션 레이어들을 모두 사용함으로써 이미지 생성의 품질 및 다양성이 향상되었다. 이러한 GAN은 이미지들 간의 보간(interpolation)을 표현하는 잠재 공간을 분석한다. 이는, 분류기를 훈련시키기 위해 Discriminator의 특징들을 이용하는 앞선 시도들 중 하나였다.

[23]은 mini-batch 기반의 구분(discrimination), feature matching, label smoothing 등을 발전시켰다. [23]의 저자는 생성된 이미지의 품질을 평가하기 위한 객관적인 지표인 Inception Score(IS)를 제안했다. IS는 주관적인 인간의 평가와 깊은 연관이 있었다. IS의 단점 중 하나는 GAN이 클래스 당 하나의 이미지만 생성하는 경우 성능을 잘못 나타낼 수도 있다는 점이다.

[11]에서, GAN에 대한 새로운 객관적 지표인 Fr'echet Inception Distance(FID)가 제안되었다. FID는 생성된 샘플들만 평가하는 대신에 생성된 샘플들의 통계를 실제 샘플들과 실제로 비교함으로써 IS보다 향상되었다. FID 및 IS 모두 생성된 샘플들의 품질을 측정하는 데에 널리 이용되고 있다.

ProGAN[15]은 10242 해상도에 달하는 고품질의 이미지를 생성할 수 있는 인상적인 결과를 보였다. 보다 진보한 훈련 전략은 실질적으로 두 가지 네트워크 모두에 대해 훈련을 안정화시켰다. BigGAN[3]은 ImageNet 조건부 생성에 대한 최신의 결과를 나타낸다. 다른 연구들은 새로운 loss들([14, 18, 9]), 조건부 정보([19], [20])를 통합하기 위한 아키텍쳐 및 방식들을 제안한다.

GAN의 내부 특징들(features)을 연구 및 조작하기 위한 방법들에 대한 몇 가지 연구가 있었다. 예를 들어, GAN Dissection [2]에서, 저자는 GAN을 단위-, 객체-, 장면-의 단계에 따라 시각화 내지는 이해하는 분석 구조를 제시했다. 이는, GAN이 의미 있는 개념들과 매칭되는 내부 뉴런들을 낳는다는 점을 보여준다.

[4]에서, 저자들은, 생성 모델들의 학습된 잠재 공간을 탐색하고 자연스러운(natural) 이미지들의 특정한 의미 변경을 수행하기 위한 인터페이스에 해당하는 Neural Photo Editor를 소개했다.

Fully Convolution Network(FCN)[17]은 이미지 분할(segmentation) 태스크에 대한 end-to-end 훈련을 위한 첫 번째 아키텍쳐이다. Fully-connected layer들이 없는 기본 네트워크(AlexNet, VGG16)가 임의의 이미지 사이즈들을 수용하기 위해 적용되었다. 기본 네트워크에 의해 이미지들로부터 획득된 특징들은 bilinear interpolation 또는 전치된 컨볼루션들의 시리즈를 통해 업샘플링되었다.

이미지로부터 특징들을 추출하는 인코더 부분 및 특징 맵들을 점차 업샘플링하여 최종 예측을 형성하는 디코더 부분을 포함하는 U-net[22] 아키텍쳐는, FCN에 대한 업그레이드된 아키텍쳐이다. U-Net의 주요 발명은 디코더 및 인코더 부분을 대응되는 블록들 간에 연결들이 스킵될 수 있다는 점이다. 이는 gradients flow를 개선하여 여러 가지 스케일에서 정보를 더 잘 집계한다.

Pyramid Scene Parsing Network(PSPNet)[26]은 여러 가지 스케일에서 정보를 명시적으로 통합하기 위한 Pyramid Pooling 모듈(PPM)을 소개한다. 본 모듈은 서로 다른 커널 사이즈들을 이용하여 특징 맵들에 대한 pooling 동작을 병렬적으로 수행한다. PPM의 출력들은 업샘플링 및 concatenation되어 글로벌 및 로컬 컨텍스트 정보를 모두 포함하는 특징 맵들을 형성한다.

DeepLabV3[5]는 이러한 아이디어를 발전시켜, PPM을 Atrous Spatial Pyramid Pooling(ASPP)로 대체하였다. 이때, 팽창률이 다른 격렬한(확장된) 컨볼루션을 적용한다. DeepLabV3는 인코더의 마지막 컨볼루션 레이어들을 격렬한(atrous) 컨볼루션으로 대체하여 이미지 사이즈의 중대한 손실을 방지한다. DeepLabV3+[6]는 최신의 연구 결과를 제공한다. 이는, 간단하지만 효과적인 디코더 모듈을 통해 더 정교한 분할 마스크들을 획득함으로써 DeepLabV3를 업그레이드했다.

후술할 본 개시의 실험들은, 비교 실험을 위한 baseline으로 DeepLabV3+를 이용하였다.

[1] Rameen Abdal, Yipeng Qin, and Peter Wonka. Image2stylegan: How to embed images into the stylegan latent space? arXiv preprint arXiv:1904.03189, 2019. [2] David Bau, Jun-Yan Zhu, Hendrik Strobelt, Bolei Zhou, Joshua B Tenenbaum,William T Freeman, and Antonio Torralba. Gan dissection: Visualizing and understanding generative adversarial networks. arXiv preprint arXiv:1811.10597, 2018. [3] Andrew Brock, Jeff Donahue, and Karen Simonyan. Large scale gan training for high fidelity natural image synthesis. arXiv preprint arXiv:1809.11096, 2018. [4] Andrew Brock, Theodore Lim, James M Ritchie, and Nick Weston. Neural photo editing with introspective adversarial networks. arXiv preprint arXiv:1609.07093, 2016. [5] Liang-Chieh Chen, George Papandreou, Florian Schroff, and Hartwig Adam. Rethinking atrous convolution for semantic image segmentation. arXiv preprint arXiv:1706.05587, 2017. [6] Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam. Encoder-decoder with atrous separable convolution for semantic image segmentation. In ECCV, 2018. [7] Tianqi Chen, Mu Li, Yutian Li, Min Lin, Naiyan Wang, Minjie Wang, Tianjun Xiao, Bing Xu, Chiyuan Zhang, and Zheng Zhang. Mxnet: A flexible and efficient machine learning library for heterogeneous distributed systems. arXiv preprint arXiv:1512.01274, 2015. [8] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, DavidWarde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In Advances in neural information processing systems, pages 2672-2680, 2014. [9] Ishaan Gulrajani, Faruk Ahmed, Martin Arjovsky, Vincent Dumoulin, and Aaron C Courville. Improved training of wasserstein gans. In Advances in Neural Information Processing Systems, pages 5767-5777, 2017. [10] Tong He, Zhi Zhang, Hang Zhang, Zhongyue Zhang, Junyuan Xie, and Mu Li. Bag of tricks for image classification with convolutional neural networks. arXiv preprint arXiv:1812.01187, 2018. [11] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. In Advances in Neural Information Processing Systems, pages 6626-6637, 2017. [12] Xun Huang, Ming-Yu Liu, Serge Belongie, and Jan Kautz. Multimodal unsupervised image-to-image translation. In ECCV, 2018. [13] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image translation with conditional adversarial networks. arxiv, 2016. [14] Alexia Jolicoeur-Martineau. The relativistic discriminator: a key element missing from standard gan. arXiv preprint arXiv:1807.00734, 2018. [15] Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehtinen. Progressive growing of gans for improved quality, stability, and variation. arXiv preprint arXiv:1710.10196, 2017. [16] Tero Karras, Samuli Laine, and Timo Aila. A style-based generator architecture for generative adversarial networks. arXiv preprint arXiv:1812.04948, 2018. [17] Jonathan Long, Evan Shelhamer, and Trevor Darrell. Fully convolutional networks for semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3431-3440, 2015. [18] Lars Mescheder, Andreas Geiger, and Sebastian Nowozin. Which training methods for gans do actually converge? arXiv preprint arXiv:1801.04406, 2018. [19] Takeru Miyato and Masanori Koyama. cgans with projection discriminator. arXiv preprint arXiv:1802.05637, 2018. [20] Augustus Odena, Christopher Olah, and Jonathon Shlens. Conditional image synthesis with auxiliary classifier gans. In Proceedings of the 34th International Conference on Machine Learning-Volume 70, pages 2642-2651. JMLR. org, 2017. [21] Alec Radford, Luke Metz, and Soumith Chintala. Unsupervised representation learning with deep convolutional generative adversarial networks. arXiv preprint arXiv:1511.06434, 2015. [22] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. Unet: Convolutional networks for biomedical image segmentation. In International Conference on Medical image computing and computer-assisted intervention, pages 234-241. Springer, 2015. [23] Tim Salimans, Ian Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, and Xi Chen. Improved techniques for training gans. In Advances in neural information processing systems, pages 2234-2242, 2016. [24] Fisher Yu, Yinda Zhang, Shuran Song, Ari Seff, and Jianxiong Xiao. Lsun: Construction of a large-scale image dataset using deep learning with humans in the loop. arXiv preprint arXiv:1506.03365, 2015. [25] Zhi Zhang, Tong He, Hang Zhang, Zhongyuan Zhang, Junyuan Xie, and Mu Li. Bag of freebies for training object detection neural networks. arXiv preprint arXiv:1902.04103, 2019. [26] Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. Pyramid scene parsing network. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2881-2890, 2017. [27] Bolei Zhou, Hang Zhao, Xavier Puig, Sanja Fidler, Adela Barriuso, and Antonio Torralba. Semantic understanding of scenes through the ade20k dataset. arXiv preprint arXiv:1608.05442, 2016. [28] Bolei Zhou, Hang Zhao, Xavier Puig, Sanja Fidler, Adela Barriuso, and Antonio Torralba. Scene parsing through ade20k dataset. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017.

GAN은 주어진 임의의 벡터를 통해 고품질의 이미지를 생성할 수 있기 때문에, 입력 벡터 및 중간 레이어들의 출력 셋은 생성된 이미지에 대한 높은 수준의 정보를 내재하고 있다. 이 때문에, 상술한 벡터 및 중간 특징들을 의미 분할(semantic segmentation) 마스크에 반영하여 픽셀 별 주석이 달린 이미지를 생성하는 것이 가능한지에 대한 자연스러운 질문이 대두된다. 관련하여, 후술할 몇 가지 실험들이 수행되었으며, 상기 질문에 대한 답은 긍정적이다.

StyleGAN[16]은 FFHQ, Celeba-HQ, LSUN 등의 데이터 셋에 대하여 최고의 IS 및 FID 스코어를 나타내는 준지도 이미지 생성의 최신 방식이다. Style transfer 연구들의 몇몇 아이디어를 이용하여, 저자는 AdaIN(adaptive instance normalization)에 의해 제어되는 이미지 합성 과정에 대한 새로운 아키텍쳐를 제안한다. Generator는 학습된 상수 tensor로 시작하여 잠재 코드를 기반으로 각각의 컨볼루션 블록의 스타일을 조정한다. 후술할 도 2는 Generator의 아키텍쳐를 도시한다. 매핑 네트워크는 8개의 fully-connected layer들로 구성되며 각각의 S블록은 업샘플링 레이어, 2개의 컨볼루션 및 2 개의 AdaIN들을 포함한다.

데이터 생성의 기반이 될 생성적-경쟁적인 네트워크들에 대한 알고리즘은 기존에 알려진 것이고, 알려진 알고리즘을 통해, 특정한 분포로부터 데이터를 생성하는 것이 가능하다. 다만, 알려진 방법(알고리즘)의 경우 생성된 데이터에 대한 마크업을 생성하는 것은 불가능하다.

본 개시에 따라 제안되는 알고리즘은, 데이터 및 데이터에 대한 마크업을 동시에 생성한다. 즉, 본 개시에 따라 제안되는 방법은 이미지 합성 및 픽셀 별 주석 합성에 대한 방법이다.

본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은, 데이터를 GAN(generative adversarial network)에 입력하여, 상기 GAN에서 출력되는 이미지를 획득하는 단계, 상기 데이터의 입력에 따라 상기 GAN의 적어도 하나의 중간(intermediate) 레이어에서 출력되는 특징 값을 디코더에 입력하는 단계, 상기 특징 값의 입력에 따라 상기 디코더에서 출력되는 의미 분할 마스크(semantic segmentation mask)를 획득하는 단계를 포함한다.

이때, 본 제어 방법은, 데이터의 입력에 따라 상기 GAN의 적어도 하나의 중간 레이어에서 출력되는 특징 값 및 상기 데이터의 입력에 따라 상기 GAN에서 출력되는 이미지에 부가된 의미 분할 마스크를 기반으로, 상기 GAN의 적어도 하나의 중간 레이어에서 출력되는 특징 값이 입력되면 의미 분할 마스크를 출력하도록 상기 디코더를 훈련시키는 단계를 더 포함할 수 있으며, 상기 특징 값을 입력하는 단계는, 상기 특징 값을 상기 훈련된 디코더에 입력할 수 있다.

그리고, 본 제어 방법은, 상기 GAN으로부터 획득된 이미지 및 상기 디코더로부터 획득된 의미 분할 마스크를 이용하여, 이미지가 입력되면 상기 입력된 이미지에 대응되는 적어도 하나의 의미 분할 마스크를 출력하도록 의미 분할 네트워크(semantic segmentation network)를 훈련시키는 단계를 더 포함할 수 있다.

한편, 상기 의미 분할 마스크를 획득하는 단계는, 상기 특징 값의 입력에 따라 상기 디코더로부터 상기 이미지에 대응되는 의미 분할 마스크를 획득할 수 있다.

본 개시의 일 실시 예에 따른 전자 장치는, 입력된 데이터를 기반으로 이미지를 생성하도록 훈련된 GAN(Generative Adversarial Network) 및 디코더(Decoder)가 저장된 메모리, 상기 GAN(generative adversarial network)에 데이터를 입력하여 상기 GAN에서 출력되는 이미지를 획득하고, 상기 데이터의 입력에 따라 상기 GAN의 적어도 하나의 중간(intermediate) 레이어에서 출력되는 특징 값을 디코더에 입력하고, 상기 특징 값의 입력에 따라 상기 디코더에서 출력되는 의미 분할 마스크(semantic segmentation mask)를 획득하는 프로세서를 포함한다.

이때, 상기 디코더는, 데이터의 입력에 따라 상기 GAN의 적어도 하나의 중간 레이어에서 출력되는 특징 값 및 상기 데이터의 입력에 따라 상기 GAN에서 출력되는 이미지에 부가된 의미 분할 마스크를 기반으로, 상기 GAN의 적어도 하나의 중간 레이어에서 출력되는 특징 값이 입력되면 의미 분할 마스크를 출력하도록 훈련된 디코더일 수 있다.

그리고, 상기 프로세서는, 상기 GAN으로부터 획득된 이미지 및 상기 디코더로부터 획득된 의미 분할 마스크를 이용하여, 이미지가 입력되면 상기 입력된 이미지에 대응되는 적어도 하나의 의미 분할 마스크를 출력하도록 의미 분할 네트워크(semantic segmentation network)를 훈련시킬 수 있다.

한편, 상기 프로세서는, 상기 특징 값의 입력에 따라 상기 디코더로부터 상기 이미지에 대응되는 의미 분할 마스크를 획득할 수 있다.

본 개시의 일 실시 예에 따른 컴퓨터 판독 가능 매체에는, 전자 장치의 프로세서에 의해 실행되어 상기 전자 장치로 하여금, 데이터를 GAN(generative adversarial network)에 입력하여, 상기 GAN에서 출력되는 이미지를 획득하는 단계, 상기 데이터의 입력에 따라 상기 GAN의 적어도 하나의 중간(intermediate) 레이어에서 출력되는 특징 값을 디코더에 입력하는 단계, 상기 특징 값의 입력에 따라 상기 디코더에서 출력되는 의미 분할 마스크(semantic segmentation mask)를 획득하는 단계를 포함하는 동작을 수행하도록 하는 인스트럭션이 저장되어 있다.

본 개시에 따른 방법은, GAN에 의해 생성된 적은 수의 이미지에 대해서만 주석을 달아 디코더를 훈련시키더라도, 의미 분할 네트워크를 훈련시키기 위한 합성 데이터 셋을 충분히 확보할 수 있다는 효과가 있다.

상술한 실시 예들은 이하 도면들을 통해 도시 및 설명될 실시 예들을 통해 보다 분명해진다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도,
도 2는 본 개시의 일 실시 예에 따른 이미지 합성 및 주석 합성 방법을 설명하기 위한 순서도,
도 3은 GAN 및 디코더를 이용한 합성 데이터 생성의 일 예를 설명하기 위한 순서도,
도 4a는 본 개시의 일 실시 예에 따른 개략적인 네트워크 아키텍쳐, 도 4b는 보다 상세한 네트워크 아키텍쳐의 예이다.
도 5는, StyleGAN-FFHQ를 통해 생성된 이미지 및 모발(hair) segmentation을 위해 생성된 대응되는 주석의 예,
도 6a 내지 도 6d 각각은, 훈련용 샘플들의 수를 달리하면서 LSUN-interiors에 대한 기본적인(baseline) 방법 및 제안된 방법을 비교한 결과를 나타낸다. 디코더 훈련을 위해 20개의 이미지들이 사용되었다.
도 7은 LSUN 데이터 셋에서 자동차들에 대한 분할 마스크들을 도시한 것이다. 첫 번째 행은 본 개시에 따라 제안된 방법, 두 번째 행은 종래의 기본적인(: baseline) 방법에 따른 것이다. 디코더 훈련을 위해 20개의 이미지들이 사용되었다.
도 8은 StyleGAN 및 예측된 마스크를 포함하는 예로, 이때 별도의 segmentation 네트워크는 훈련되지 않았다. 좌측: 임의의 이미지, 가운데: Image2StaleGAN 및 StyleGAN 모델들을 연속적으로 적용한 결과, 우측: 본 개시에 따라 제안된 디코더에 의해 생성된 분할 마스크. 이때, 디코더는 (실제 또는 라벨이 달리지 않은 어떠한 이미지도 없이) 주석이 달린 20개의 합성 이미지들에 의해 훈련되었다.
도 9는 FFHQ 데이터 셋에 의해 훈련된 StyleGAN에 따른 합성 이미지들 및 본 개시를 통해 제안된 방법에 의해 표시된 우측 앞니에 대한 분할 마스크를 도시한다.

GAN 기반의 이미지 합성 및 픽셀 별 주석 합성을 위한 방법이 제공된다. 본 개시는 의미 분할(semantic segmentation) 마스크들에 쉽게 반영될 수 있는 타겟 데이터를 높은 품질로 구현할 수 있는 GAN을 제공한다. 본 방법은 별도의 의미 분할(semantic segmentation) 네트워크를 학습시키기 위한 훈련 데이터 셋을 생성하는 데에 이용될 수 있다.

후술할 실험들은 이러한 의미 분할 네트워크가 실제 데이터에 성공적으로 일반화될 수 있음을 보여준다. 게다가, 본 방법은 적은 수의 훈련 샘플들을 기반으로 한 지도 학습에서 좋은 성능을 보이며, 다양한 장면들 및 클래스들에 적용될 수 있다.

본 개시는 이미지를 획득하기 위하여 소프트웨어 및 하드웨어를 통해 수행되는 방법으로서 구현될 수 있다.

본 개시의 목적은, 인간에 의해 마크업된 적은 수의 표본들만을 기반으로, 생성적-경쟁적인 네트워크들을 이용하여 데이터 및 그에 대응되는 합성 마크업(markup)을 공동으로 생성하는 것이다. 이렇게 생성된 마크업을 네트워크의 특정한 신경을 훈련시키는 데에 사용하도록 제안된다.

본 개시에 따라 제안되는 방법은 인간에 의해 주석이 달린 적은 수의 샘플들만으로 준수한 품질의 딥 러닝이 수행될 수 있도록 한다.

본 개시는 합성 데이터 셋에 의해 훈련된 별도의 의미 분할 네트워크가 실제 이미지들에 대해 일반화(적용)됨을 설명한다. 또한, 본 개시는 제안된 방법이 규칙적인 지도 학습에서 적은 수의 주석 이미지들만으로 좋은 성능을 낼 수 있음을 설명한다.

이하 설명될 다양한 동작들은 적어도 하나의 전자 장치에 의해 수행될 수 있다.

관련하여, 도 1은, 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 도면이다. 도 1을 참조하면, 전자 장치(100)는 메모리(110) 및 프로세서(120)를 포함할 수 있다.

전자 장치(100)는 데스크탑 PC, 노트북 PC, 태블릿 PC, 스마트폰, 서버 장치 등 다양한 기기로 구현될 수 있다.

메모리(110)에는 전자 장치(100)의 다양한 기능 내지는 인스트럭션과 관련된 정보가 저장될 수 있다. 메모리(110)는 ROM, RAM 외에도 하드 디스크, SSD, 플래시 메모리 등을 포함할 수 있다.

메모리(110)에는 하나 이상의 인공지능 모델이 저장될 수 있다. 인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치(weight values)를 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다.

구체적으로, 도 1을 참조하면, 메모리(110)에는 GAN(Generative Adversarial Networks) 및 디코더(decoder) 등이 포함될 수 있다.

프로세서(120)는 후술할 다양한 방법 내지는 동작을 수행하기 위한 구성이다. 메모리(110)에 저장된 인공지능 모델의 기능은 프로세서(120) 및 메모리(110)를 통해 수행될 수 있다.

이를 위해, 프로세서(120)는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GUP, VPU(Vision Processing Unit) 등과 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다.

하나 또는 복수의 프로세서는, 메모리(110)에 저장된 기정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.

한편, 이밖에도 전자 장치(100)는 이미지 및 해당 이미지에 대한 의미 분할 마스크를 제공하기 위한 디스플레이를 더 포함할 수 있다. 또는, 해당 이미지 및 의미 분할 마스크에 대한 데이터를 외부 장치로 전송할 통신부(communicator)를 더 포함할 수도 있다.

주어진 데이터 셋을 기반으로 훈련된 GAN 모델이 메모리(110)에 저장될 수 있다. GAN 모델은 타겟 데이터 셋에 포함된 데이터와 유사한 특징 값(fetures)을 가지는 이미지를 생성하도록 훈련될 수 있다. GAN의 훈련은 본 개시의 주제 자체와는 연관성이 크지 않기 때문에, 본 개시의 실험들 상에서 이미 훈련된 모델들이 사용되었다(ex. StyleGAN[17]). GAN은 임의의 벡터를 입력으로 하여 이미지를 출력한다.

본 개시에 따라 제안되는 방법의 메인 아이디어는 경량의(light-weight) 디코더(Decoder)를 본 GAN에 추가하는 것이다. 따라서, 디코더 역시 메모리(110)에 저장될 수 있다.

'경량'이라 함은, 디코더가 GAN의 파라미터 수에 비해 매우 적은 수의 파라미터를 가지는 모델임을 의미하는 것이다.

디코더는 GAN에 의해 생성된 이미지에 대한 픽셀 별 주석을 생성하도록 훈련된다. 디코더를 훈련시키기 위해, GAN을 통해 몇몇 이미지들을 생성하는 한편, 생성된 이미지들에 대해서는 인간에 의해 수동적으로 주석이 달릴 수 있다. GAN에 의해 생성된 이미지에 대해, 인간은 관심 있는 객체를 구성하는 픽셀에 마스크를 그릴 수 있다. 주석은 분할 마스크 또는 픽셀 맵으로 지칭될 수 있다.

디코더는 그려진 마스크 및 대응되는 GAN의 중간 특징 값(features)들을 이용한 지도 학습 방식으로 훈련될 수 있다. 대부분의 의미 분할 연구들에서처럼, 예측된 마스크 및 실제 간의 cross-entropy가 최소화된다. 훈련 동안, GAN은 고정된 채로 유지됨으로써 계산량을 줄일 수 있다. 상술한 디코더의 경량 특성 때문에, 디코더를 훈련시키는 데에는 단지 몇 분이면 충분하다.

이렇듯 수정된 네트워크(GAN 및 디코더)는 주석이 달린 이미지들을 포함하는 거대한 (합성) 데이터 셋을 생성하는 데에 이용될 수 있다.

생성된 합성 데이터 셋은 이미지들 및 (이미지들에 대한) 예측된 분할 마스크들을 포함하는 페어들로 구성될 수 있다. 이때, 예측된 분할 마스크들은 ground truth로 취급될 수 있다. 이 때문에, 본 합성 데이터 셋은 별도의 분할 네트워크를 지도 학습 방식으로 훈련시키는 데에 이용될 수 있다.

본 개시에서, StyleGAN은 기본적인(: baseline) 이미지 생성 방식으로 이용되고, DeepLabV3+는 기본적인(: baseline) 이미지 분할 방식으로 이용된다.

특히, 본 개시의 일 실시 예에 따라, 'GAN을 기반으로 한 이미지 합성 및 픽셀 별 주석 합성'을 위한 “방법”을 수행하기 위한 소프트웨어를 포함하는 하드웨어가 제안된다. 이때, 하드웨어는 상술한 전자 장치(100)에 해당할 수도 있으며, 소프트웨어의 적어도 일부는 메모리(110)에 저장되어 프로세서(120)에 의해 실행될 수도 있으나 이에 한정되지 않는다.

도 2는 본 방법의 일 실시 예를 순서대로 도시한다.

도 2를 참조하면, 본 방법은, 먼저 GAN을 훈련시킬 수 있다(S210). 구체적으로, 라벨링이 되지 않은 타겟 데이터 셋을 통해 GAN 모델을 (기)훈련시킬 수 있다. GAN은 타겟 데이터 셋의 분포(ex. StyleGAN, DCGAN, BigGAN 등)를 기반으로, 임의의 벡터로부터 이미지를 생성하도록 구현될 수 있다.

그리고, 디코더 네트워크를 추가함으로써 기학습된 GAN 모델이 확장될 수 있다.

본 디코더 (네트워크)는, 이미지를 생성하는 데에 이용되는 GAN의 내부 레이어들의 (출력) 특징 값들을 (생성된) 이미지에 대응되는 의미 분할 마스크에 매핑하기 위한 구성이다.

한편, 인간에 의해, GAN을 통해 생성된 적은 수의 샘플 이미지들 각각에 대하여 의미 분할 마스크로 주석을 다는 행위가 수행된다.

그리고, 본 방법은, 각 이미지에 대한 의미 분할 마스크 및 각 이미지를 기반으로, 디코더를 훈련시키는 단계(S220)를 포함한다. 이때, 내부 레이어들의 특징값들 및 대응되는 의미 분할 마스크들(: 주석)을 각각 포함하는 페어들을 통해 디코더를 지도 학습 방식으로 훈련시킬 수 있다. 본 훈련 동안 GAN은 고정된 채로 유지될 수 있다.

그리고, (훈련된) GAN 및 (훈련된) 디코더를 이용하여 합성 데이터 셋을 생성할 수 있다(S230). 구체적으로, GAN 및 디코더를 포함하는 네트워크에 임의의 벡터들을 적용함으로써 거대한 합성 데이터 셋을 생성할 수 있다. 이때, 합성 데이터 셋은 GAN에 의해 생성된 이미지 및 생성된 이미지에 대하여 디코더에 의해 획득된 픽셀 별 주석(: 의미 분할 마스크)을 포함할 수 있다.

그리고, 생성된 합성 데이터 셋을 기반으로 별도의 의미 분할 네트워크를 훈련시킬 수 있다(S240). 이때, 생성된 합성 데이터 셋을 기반으로, 별도의 의미 분할 네트워크를 지도 학습 방식으로 훈련시킬 수 있다. 이렇게 훈련된 의미 분할 네트워크는, 입력된 이미지에 대한 픽셀 별 주석(ex. 의미 분할 마스크)을 생성할 수 있다.

결과적으로, (ex. 인간에 의해) 주석 형태로 달린 적은 수의 의미 분할 마스크만으로, (별도의) 의미 분할(semantic segmentation) 네트워크를 훈련시키는 데에 이용될 수 있는 합성 데이터 셋을 생성하는 것이 가능해진다. 종래에는 일반적으로, 인간에 의해 주석이 달린 마스크 및 이미지가 수천 개는 필요했었다.

도 3은 상술한 S230 단계를 보다 구체적으로 기술한 순서도이다. 도 3의 동작들은, 상술한 GAN 및 디코더를 포함하는 전자 장치를 통해 수행될 수 있다.

구체적으로, 도 3을 참조하면, 데이터를 GAN(generative adversarial network)에 입력하여, 상기 GAN에서 출력되는 이미지를 획득할 수 있다(S310).

여기서, 데이터의 입력에 따라 GAN의 적어도 하나의 중간(intermediate) 레이어에서 출력되는 특징 값을 디코더에 입력할 수 있다(S320).

그리고, 특징 값의 입력에 따라 디코더에서 출력되는 의미 분할 마스크(semantic segmentation mask)를 획득할 수 있다(S330). 이때, 디코더에서 출력되는 의미 분할 마스크는 S310의 이미지에 대응되는 것이다.

의미 분할(Semantic segmentation)을 위한 알고리즘이 개시된다. 본 개시에 따라 제안되는 알고리즘은 훈련을 위한 표본들의 수를 달리하면서 기존의 기본적인 알고리즘과 비교된다.

종래 기술과 달리, 본 개시는 다음을 제공한다.

- 합성 데이터 생성 및 관련된 마크업(주석)을 위한 알고리즘

- 적은 수의 주석 데이터를 기반으로, 의미 분할에 대하여 딥 러닝 모델을 훈련시키는 능력

- 모델이 실제 데이터에 성공적으로 일반화되면서도, GAN에 의해 생성된 데이터로부터 학습하는 능력

일반적으로, 본 개시에 따른 방법은 이하 과정들을 포함한다.

본 개시의 일 실시 예에 따르면, 사용자 데이터 셋의 분할을 위한 상호작용 기반(interactive) 주석을 가속화하기 위한 적용이 포함된다. 즉, 경쟁적 분할 모델을 훈련시키는 데에 필요한 (ex. 인간에 의한) 주석(: 의미 분할 마스크)이 더 적은 수만큼 필요하기 때문에, 웹 상의 임의의 이미지들에 대해서도 효과적으로 동작할 수 있다. 일반적으로, 동일한 정확도를 확보하기 위해서는 수백에서 수천의 주석(: 의미 분할 마스크)이 필요하다.

본 개시의 실시 예들의 주요한 아이디어는, 이미 훈련된 GAN에 추가적으로 경량의 의미 분할 네트워크(: 디코더)를 추가함으로써 GAN을 수정하는 것이다. 본 네트워크의 아키텍쳐 및 제안된 '이미지 합성 및 픽셀 별 주석 합성 방법'을 이하 구체적으로 서술한다.

GAN을 학습시키는 단계

라벨이 없는 타겟 데이터 셋을 통해 GAN 모델을 미리 훈련시킨다(FFHQ, LSUN-interiors, LSUN-cars 등을 포함하는 몇몇 데이터 셋들에 대한 실험들을 후술한다).

도 4a를 참조하면, GAN은 임의의 노이즈로부터 이미지를 생성하도록 훈련된다.

첫 번째 단계는, 임의의 벡터들로부터 주어진 데이터 셋의 이미지들을 생성하도록 GAN 모델을 훈련시킨다. GAN 훈련은 종래 널리 알려진 내용이고 시간 및 데이터 리소스가 필요한 작업인 바 자세하게 설명하지는 않는다. 이하 서술될 모든 실험들에서 기학습된 GAN 모델이 있음을 전제로 한다. 구체적으로는 StyleGAN이 이용되었으나, 다른 아키텍쳐가 적용될 수도 있음은 물론이다.

Decoder building (graph assignment)

디코더는 입력된 특징(값)들 및 이미지를 기반으로 해당 이미지에 대한 주석(ex. 의미 분할 마스크)을 생성하기 위한 구성이다(도 4b 참조)

구체적으로, 제안된 디코더 아키텍쳐는 도 4b를 통해 도시된다. 본 디코더는 GAN의 중간 레이어들의 출력들을 의미 분할 마스크에 매핑시킨다. 이러한 매핑 네트워크는 8개의 fully-connected layer들로 구성되며, SBlock 각각은 업샘플링 레이어, 2 개의 컨볼루션들 및 2 개의 AdaIN들로 구성된다. 각각의 Cblock은 업샘필링 레이어, 2 개의 컨볼루션들 및 2 개의 AdaIN들로 구성된다.

디코더 상의 각각의 Cblock은 StyleGAN의 대응되는 SBlock으로부터 특징값들을 입력으로 수신한다. CBlock은 드롭 아웃, 컨볼루션 및 batch normalization 레이어로 구성된다. 본 블록은 StyleGAN의 특징 값들의 차원 수를 감소시켜 디코더에 매핑시킨다.

모든 dropout 레이어들의 확률은 50 퍼센트로 설정될 수 있다. 본 값은 실험 중 선택되었다. 디코더 상의 각각의 RBlock은 두 개의 컨볼루션 레이어들과 함께 하나의 잔여 블록을 포함한다.

디코더 상의 각각의 컨볼루션 레이어에 대한 특징 맵들의 수는 32로 설정된다. 특징 맵들의 수를 늘린다고 하여 품질이 향상되지 않음이 확인되었다.

적은 수의 합성 이미지들에 대한 주석 달기

구축된 디코더의 훈련을 위해 합성 이미지들 중 적은 샘플에 대해 수동적으로 주석이 달릴 수 있다. 이때, 사진 각각에 대해 주석이 달릴 수 있으며, 사용자는 컴퓨터 마우스 등의 입력 장치를 통해 (이미지/사진 내에서) 관심 있는 객체에 대한 마스크를 그림으로써 주석을 달 수 있다. 이미지들은 GAN을 통해 정규 분포의 임의의 벡터를 매핑함으로써 생성될 수 있고, 디코더의 훈련을 위해 중간 특징(값)들이 저장될 수 있다.

Decoder training

디코더는 이전 단계의 마스크들 및 대응되는 GAN의 중간 특징(값)들을 이용하여 지도 학습 방식에 의해 훈련된다. 대부분의 의미 분할 연구들처럼, 예측된 마스크 및 ground truth(: 주석) 간의 cross-entropy가 최소화되도록 훈련될 수 있다. 훈련 동안, GAN은 고정된 상태로 유지됨으로써 연산량을 줄일 수 있다.

Generating large synthetic dataset

디코더가 훈련된 이후, 다음 방식에 의해, 임의의 수의 이미지들 및 대응되는 의미 분할 마스크가 생성된다. 정규 분포로부터 임의의 벡터가 샘플링되어 GAN에 입력되고, 이는 GAN에 의해 합성 이미지에 매핑된다. 필요한 Generator의 블록의 출력들은 상술하였듯 디코더의 입력이 된다. 결과적으로, 디코더는 합성 이미지에 대응되는 의미 분할 마스크를 생성한다.

Segmentation network training:

합성 이미지들 및 예측된 의미 분할 마스크들로 구성된 페어들이 합성 데이터 셋으로서 생성된다. 본 데이터 셋은 ground truth로 취급될 수 있다. 이때, 본 데이터 셋은 별도의 (의미) 분할 네트워크를 지도 학습 방식으로 훈련시키는 데에 이용될 수 있다.

한편, 본 개시에 따른 방법의 각 단계를 보다 상세하게 설명한다.

Training decoder

도 5를 참조하면, 훈련 단계에서 디코더는 합성 이미지 1 및 의미 분할 마스크 2를 통해 훈련될 수 있다. 도 4a 및 도 4b를 통해 도시되었듯, 디코더는 GAN으로부터 특징(값)들을 획득하여 분할 마스크를 출력한다.

디코더는 입력된 특징(값)들 및 대응되는 마스크들의 페어들을 통해 지도 학습 방식으로 훈련된다. 특히, 훈련 과정에서 back-propagation을 통해 cross-entropy loss가 최소화되고, 이는 신경망을 훈련시키기 위한 표준 과정에 해당한다. 본 페어들은 생성된 이미지들에 주석을 달고 대응되는 GAN의 중간 특징(값)들을 저장함으로써 간편하게 수집될 수 있다. 이때, 본래의 (기훈련된) GAN은 고정된 상태로 유지된다. 중간 특징(값)들은 StyleGAN의 각 블록의 출력이 업샘플링되기 전에 추출된다(도 4b).

훈련 시간은 훈련 가능한 파라미터의 수에 비례하는 것으로 알려져 있는바, 연산량을 줄이기 위해 GAN의 weight들은 고정될 수 있다. 디코더의 훈련에는 단지 몇 분만이 소요되고 디코더는 적은 수의 훈련 표본만으로 성공적으로 학습할 수 있다. 훈련 표본들은 생성된 이미지들로부터 임의로 선택될 수 있다.

도 4b에서, 디코더의 구조가 Original StyleGAN과 함께 도시된다. StyleGAN은 정규 분포로부터 임의의 벡터를 입력으로써 수신하고(정규 분포는 실수 랜덤 변수에 대한 연속 확률 분포의 한 유형이다. https://en.wikipedia.org/wiki/Normal_distribution), 이미지를 출력한다. 디코더는 StyleGAN으로부터 특징(값)들을 입력으로써 획득하고 마스크를 출력한다. 특징들은 StyleGAN의 각 블록으로부터 획득된다.

Training segmentation network on synthetic data

디코더가 훈련된 이후, GAN을 통해 생성된 이미지들 및 디코더를 통해 예측된 (생성된 이미지들에) 대응되는 마스크들을 포함하는 페어들로 구성된 거대한 데이터 셋을 생성한다. 그리고, 이렇게 합성된 데이터 셋을 기반으로 DeepLabV3+를 훈련시킨다.

실험들은 이렇게 훈련된 네트워크(DeepLabV3+)가 실제 데이터에 성공적으로 일반화됨을 보인다.

Finding segmentation mask without training a segmentation network

제안된 분할 모델 훈련 파이프라인은 본 개시의 목적을 위한 마지막 단계 상의 별도의 분할 신경망을 포함한다.

제안된 파이프라인 상에서, 거대한 합성 데이터 셋의 생성 단계 및 별도의 분할 네트워크의 훈련 단계 없이, 디코더의 훈련까지만으로 제한하는 것이 가능한지 여부에 대한 확인이 시도되었다.

디코더 및 (별도의) 분할 모델은 모두 출력으로써 분할 마스크를 제공한다. 다만, 디코더는 GAN의 중간 특징(값)들을 입력으로 하고, 분할 모델은 이미지 자체를 입력으로 한다.

이러한 상황에서, 실험의 나머지 단계는, GAN의 중간 특징(값)들의 공간에 대한 임의의 이미지의 매핑을 구성하는 것이다. 본 주제는 이미 논문을 통해 연구된 바 있고, 특히 Image2StyleGAN [1]은, StyleGAN의 generator의 입력 벡터들의 셋에 임의의 이미지를 매핑시키는 신경망을 훈련시키는 과정을 제공한 바 있다.

획득된 벡터들을 generator에 입력함으로써, 대응되는 이미지에 대한 중간 특징(값)들의 셋이 획득된다. 그리고, 획득된 셋으로부터, 본 개시에 따라 제안된 기학습된 디코더를 이용하여 분할 마스크를 획득한다.

결과들 중 하나가 도 8을 통해 도시된다. 좌측의 이미지는 임의의 사진, 중간의 이미지는 Image2StyleGAN 및 StyleGAN generator가 순차적으로 좌측 이미지에 적용된 결과 획득되는 이미지, 우측의 이미지는 상술한 실험에 의해 설명되었던 디코더에 의해 생성된 분할 마스크가 포함된 것이다.

본 개시에 따른 모델이 일반화되는 능력은 얼굴의 매우 구체적인 부분에 대해 이용될 수 있다. 이러한 목적을 위해, 윗니들 중 우측 앞니 만을 라벨링하기 위한 실험이 수행되었다.

비록, 인간의 얼굴이 담긴 사진에서 10개 이상의 이빨이 보일 수 있지만, 본 개시에 따라 제안된 방법은, 도 9와 같이, 단지 5개의 주석 이미지들만 이용하더라도 완벽한 결과를 나타낼 수 있다(오직 5개의 주석 달린 이미지들이 (디코더의) 훈련을 위해 사용되었다. 제안된 모델은 똑같은 질감을 가진 치아들 중 하나만 구분한다).

이하 실험들에 대해 순차적으로 설명한다.

Experiments

LSUN-cars. (<<LSUN: Construction of a Large-scale Image Dataset using Deep Learning with Humans in the Loop≫https://www.yf.io/p/lsun)

LSUN-cars의 검증 부분으로부터 100 개의 이미지로 구성된 서브 세트를 임의로 샘플링하고 자동차들에 대한 마스킹을 통해 해당 이미지들에 주석을 달았다. 그리고, 데이터 셋 중 20개의 샘플은 훈련, 80개 샘플은 테스트로 사용되도록 임의로 훈련 부분과 테스트 부분으로 구분되었다. 기본적인(: Baseline) 방법에 대해서는, 20 개의 훈련용 샘플들은 DeepLabV3+ [7]을 훈련시키는 데에 이용되었다. 제안된 방법에 대해서는, StyleGAN에 의해 생성되고 주석이 달린 20개의 임의의 이미지들이 디코더를 훈련시키는 데에 이용되었다. 그리고, 10000개의 합성 샘플들이 생성되어 DeepLabV3+를 훈련시키는 데에 이용되었다. 두 방법들 모두 80 개의 실제 샘플들에 의해 테스트되었다. 평가 결과는 이하 표 1을 통해 도시되었다.

도 6a 내지 도 6d는 훈련용 샘플들의 수를 달리하면서 LSUN-interiors에 대하여 기본적인(: baseline) 방법과 본 개시에 따라 제안된 방법을 비교하였다.

도 6a: 기학습되지 않은 기본 구조인 경우, 정확도(accuracy).

도 6b: ImageNet을 통해 기학습된 기본 구조인 경우, 정확도(accuracy).

도 6c: 기학습되지 않은 기본 구조인 경우, mean IoU.

도 6d: ImageNet을 통해 기학습된 기본 구조인 경우, mean IoU.

정확도 및 IoU는 기본적인(: baseline) 방법과 본 개시에 따라 제안된 방법을 비교하는 평가 지표들로 사용되었다. 도 6a 내지 도 6d를 참조하면, 본 개시에 따라 제안된 방법은 훈련용 샘플의 수가 적은 경우에 기본적인(baseline) 방법에 비해 더 큰 효과(margin)가 있다.

본 개시에 따라 제안된 방법은 기본적인(: baseline) 방법에 비해 정확도에서 2퍼센트 더 뛰어나고 IoU에서 5퍼센트 더 뛰어나다.

표 1은 ImageNet을 통해 기학습된 구조를 이용하지 않는 상태에서 신경망을 훈련시키는 경우, 제안된 방법과 기본적인 방법을 비교한 결과도 나타낸다. 본 실험에서, 단지 20개의 주석 달린 이미지들이 훈련에 이용되었다. 이는, 멀티 클래스 의미 분할 마스크들을 포함하는 ImageNet의 추가적인 백만 개의 이미지들을 통해 기학습된 구조를 이용하는 실험의 경우와 비교했을 때, 기본적인(baseline) 방법에 대해 제안된 방법의 정확도가 커진 정도가 증가하였다(구체적으로, 정확도 10퍼센트 IoU 20퍼센트).

결과가 도 7을 통해 도시된다. 제안된 방법에 의해 획득된 첫 번째 행의 마스크들은 기본적인(baseline) 방법에 의해 획득된 두 번째 행의 마스크들보다 더 정확하다.

한편, 자동차 분할 실험을 위해, LSUN dataset [24] 및 기훈련된 StyleGAN model이 사용되었다. LSUN은 10개의 장면 카테고리 및 20개의 객체 카테고리에 대한 백만 스케일의 이미지 분류 데이터 셋이다. 이 중 자동차 카테고리와 관련된 이미지들만이 선택되었다.

해상도 512 x 384에 해당하는 100개의 이미지들이 자동차 분할 마스크를 통해 수동적으로 주석 처리 되었다. 이 중, 20 개의 샘플 이미지들은 기본적인(baseline) DeepLabV3+ 모델을 훈련시키는 데에 이용되었고, 이 중 80 개의 샘플 이미지들은 본 개시에 따라 제안된 방법 및 기본적인 방법을 평가하는 데에 이용되었다.

그리고, 데이터 셋 생성 단계에서 10000개의 합성 이미지들을 생성하고 그 중 20개의 이미지에 대해 수동으로 주석 처리하는, 전체 훈련 파이프라인이 작동되었다. 80개의 테스트 이미지들을 통해 두 가지 방법들이 평가되었다. 결과는 표 1을 통해 도시되었다.

표 1의 두 번째 행은, 다중 클래스의 의미 분할 마스크가 포함된, ImageNet의 백만 개 이미지들을 기반으로 사전 훈련된 구조를 이용하는 경우에 대한 것이다. 본 개시에 따라 제안된 방법은, 기본적인 방법과 비교했을 때 정확도에서 2퍼센트 이상 더 뛰어나고 IoU에서 5퍼센트 이상 더 뛰어나다.

한편, 상기 표 1은 신경망을 처음부터 훈련하는 경우(: 즉, ImageNet을 통해 기훈련된 구조를 사용하지 않음: 표 1의 첫 번째 행), 제안된 방법과 기본적인 방법을 비교한 것이기도 하다. 본 실험에서, 단지 20개의 주석 달린 이미지들이 훈련에 이용되었다. 여기서, 기본적인 구조와 비교했을 때, 제안된 방법의 정확도의 증가가 더욱 커졌다(정확도에서 10퍼센트, IoU에서 20퍼센트).

도 7은, 제안된 방법 및 기본적인 방법 간의 품질 차이를 확인하기 위한 것으로, 테스트 서브 셋으로부터의 4개의 이미지들에 대해 획득된 분할 마스크들을 도시한다. 도 7은 LSUN 데이터 셋의 자동차들에 대한 분할을 도시한다. 첫 번째 행은 본 개시에 따라 제안된 방법, 두 번째 행은 DeepLabV3+이다. 훈련은 두 가지 방법 모두에 대해, 주석이 달린 20개의 이미지들을 통해 수행되었다.

Evaluation Protocol

두 가지의 서로 다른 구조(ImageNet에 의해 기학습되거나 또는 기학습되지 않은 DeepLabV3+ [7])가 테스트되었다. 클래스 전반에 대한 평균 픽셀 정확도 및 평균 IoU(intersection over union)(mIoU)가 측정되었다.

다른 분할 모델로서의 DeepLabV3+는 ImageNet에 따라 기학습된 구조이다. ImageNet은 1000개의 클래스를 기반으로 인간이 주석을 단 백만 개의 이미지들을 포함하는 거대한 스케일의 데이터 셋이다. 따라서, 이러한 방법은 분류 주석에 더하여 분할 주석 역시 암시적으로는 사용함을 의미한다.

ImageNet을 통해 기훈련된 구조가 있는 경우와 없는 경우 각각에 대하여, 본 개시에 따라 제안된 방법 및 기본적인 방법을 비교하는 실험이 수행되었다.

FFHQ 데이터 셋에 대해서도 동일한 실험이 수행되었다. Flickr-Faces-HQ(FFHQ)는 인간 얼굴에 대한 고품질의 이미지 데이터 셋이고, 본래 GAN에 대한 벤치마크로 생성되었다.

해당 데이터 셋은 해상도 1024x1024에 해당하는 7만 개의 고품질 PNG 이미지들로 구성되며, 나이, 민족, 이미지 배경 등에서 상당한 variation이 있다. 또한, 안경, 선글라스, 모자 등과 같은 액세서리에 대해서도 좋은 표본이 된다.

해당 데이터 셋에 대한 제안된 방법의 적용을 확인하기 위한 타겟 태스크로서, 모발(hair) 분할이 사용되었다. (인간에 의해) 주석이 달린 20개의 이미지들이 훈련에 이용되었고, 주석이 달린 80개의 이미지들이 테스트에 사용되었다.

결과는 표 2에 도시되었다(클래스 전반에 대한 평균 픽셀 정확도와 평균 IoU: 각각 차원이 없는 수치에 해당한다). 제안된 방법은 기본적인 DeepLabV3 모델에 비해 IoU에서 7퍼센트, 정확도에서 1퍼센트 더 뛰어나다.

StyleGAN-FFHQ에 대한 Image2StyleGAN [1]에 대해서도 실험이 수행되었다. 임베딩 및 마스크의 예가 도 8에 도시되었다.

실제 이미지의 예가 도 8에서 좌측 이미지로 도시되었다. 그리고, 임베딩 공간 내 이미지의 표현을 찾기 위해 Image2StyleGAN 알고리즘이 적용되었다. 본 임베딩을 통해 재구성된 이미지가 도 8에서 가운데 이미지에 해당한다. 그리고, 재구성된 이미지의 특징(값)들이 훈련된 디코더에 적용된 결과 우측 이미지와 같이 모발(hair) 분할 마스크가 획득되었다.

LSUN-interiors는 내부 인테리어에 대한 사진들을 포함하는 LSUN 데이터 셋의 서브 셋에 해당한다. 본 실험에서, 훈련된 샘플들의 수를 달리하면서 제안된 방법을 기본적인 방법과 비교하였다.

LSUN-interiors에 대한 의미 분할 마스크가 없고, 주석의 활용성이 매우 낮기 때문에, ADE20K를 통해 기훈련된 GluonCV 패키지의 분할 네트워크가 주석을 생성하기 위해 사용되었다. ADE20K의 150개 클래스 중 내부 장면에 대응되는 13개 클래스만이 이용되었다. 결과들에 대한 그래프들은 도 6a 내지 도 6d를 통해 도시된다.

서로 다르게 준비된 네 가지 플롯에 따라 본 개시에 따라 제안된 방법의 비교 결과가 도시된다. 샘플들의 수를 달리하면서 IoU 및 정확도를 비교하였다. 정확도는 도 6a 및 도 6b에서 비교되고, mIoU는 도 6c 및 도 6d에서 비교되었다. ImageNet을 기반으로 기훈련되지 않은 기본 구조는 도 6a 및 도 6c의 실험에 이용되었다. 도 6b 및 도 6d의 실험에 이용되는 의미 분할 네트워크는 ImageNet을 기반으로 기훈련된 것이다. 본 실험들은 훈련을 위한 샘플들의 수가 적을수록 본 개시에 따라 제안된 방법의 성능이 더욱 뛰어나다는 점을 보여준다.

Implementation details.

제안된 알고리즘의 도입을 위해 MXNet Gluon [7]이 사용되었다. StyleGAN을 훈련시키는 것은 시간 소모가 크고 본 개시의 주된 관심사가 아니기 때문에, 모든 실험들은 애초에 기훈련된 StyleGAN 모델들을 이용하여 수행되었고, 해당 모델들을 MXNet Gluon 모델의 형식으로 변환된 것이다.

디코더를 훈련시키기 위해, 초기 learning rate가 1*10^-4으로 설정된 Adam optimizer가 이용되었다.

본래의 DeepLabV3+를 훈련시키기 위해, 다른 훈련 파라미터들이 이용되었다. 특히, 모멘텀 0.9, 초기 learning rate 0.01, weight decay 1*10^-4으로 각각 설정된 해당하는 SGD(stochastic gradient descent) optimizer가 이용되었다.

추가적으로, ResNet-50은 DeepLabV3+의 기본 구조로 설정되었으며, 달리 명시되지 않는 한 ImageNet에서 사전 훈련된 것으로 가정한다. 모든 실험들에서, 클래스 전반에 대한 평균 픽셀 정확도(pixel accuracy) 및 평균 IoU는 품질을 평가하기 위해 이용되었다.

상술한 실험들을 통해, 훈련용 샘플들의 수가 비교적 적은 경우 본 개시에 따라 제안된 방법에 장점이 있고, 규칙적인 지도 학습에서 큰 이득 폭만큼 더 우수한 결과를 보인다는 점이 확인되었다. 그러나, 실험용 샘플들의 수가 커질수록, 정확도의 차이가 줄어들었다(도 6a 및 도 6c). ImageNet에 의해 기훈련된 기본 구조가 사용되는 경우, 제안된 방법은 몇몇 포인트 이후로 효과가 줄어들었다(도 6b 및 도 6d).

이는, GAN 자체가 제한된 능력을 가지고 있다는 점을 통해 설명될 수 있다: 즉 생성된 이미지들의 품질이 완벽하지 않고, GAN은 종종 몇 가지 드물게 나타나는 객체들을 생성하지 못하기 때문이다. 따라서, 이러한 드물게 나타나는 객체들은 합성 데이터 셋에서 종종 고려되지 못하게 된다.

추가적으로, semantic 마스크가 투영되는 GAN의 내부 표현(구성)은 실제 높은 수준의 표현과는 약간 다를 수 있다. 예를 들어, 사람의 모발(hair) 및 수염(beard)을 표현하는 데에 동일한 특징들이 이용될 수도 있다. 그 결과, hair segmentation의 품질이 저하될 수 있다.

기훈련된 GAN을 이용하여 Semantic segmentation 마스크들을 포함하는 이미지들을 생성하는 방법이 개시되었다. 이는, 별도의 (semantic) segmentation 네트워크를 훈련시키는 데에 이용될 수 있다. 본 개시(연구)에 따르면, 실제 데이터에도 segmentation network가 성공적으로 일반화(적용)되었다.

본 개시에 따라 제안된 방법의 한계는 두 가지 요소와 관련된다. 첫 번째는 GAN들의 다양성 부족이고, 두 번째는 GAN 내부 표현의 불완전성이다.

상술한 실시 예들은 예시적인 것들이며 제한적으로 해석되어서는 안 된다. 게다가, 본 개시에 따른 실시 예들은 예시적인 것들에 불과하지 그 자체로 본 개시의 기술 사상을 한정하는 것이 아니다. 따라서, 여러 가지 형태의 대체, 수정, 변형 등이 당업자의 기술 상식 내에서 수행될 수 있음은 물론이다.

한편, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합된 것을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다.

하드웨어적인 구현에 의하면, 본 개시에서 설명되는 실시 예들은 ASICs(Application Specific Integrated Circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛(unit) 중 적어도 하나를 이용하여 구현될 수 있다.

일부의 경우에 본 명세서에서 설명되는 실시 예들이 프로세서(120) 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상술한 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다.

한편, 상술한 본 개시의 다양한 실시 예들에 따른 전자 장치(100)에서의 처리동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium) 에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 전자 장치(100)에서의 처리 동작을 상술한 특정 기기가 수행하도록 한다.

비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.

본 발명의 실시 예들에 대한 전술한 설명들은 예시적인 것이고, 본 명세서의 기술적 범위 내에서 구성들 및 구현 예들에 대한 수정이 가능하다. 상술한 도면들을 통해 도시된 실시 예들이 일반적이기는 하지만, 이는 단지 예들에 해당할 뿐이다.

비록 본 개시의 실시 예들은 구조적 특징들 또는 방법의 동작들로 서술되었으나, 청구된 청구범위에서 한정된 주제는 반드시 상술한 특징 및 동작에만 제한되는 것은 아니다. 오히려, 상술한 구조적 특징들 및 동작들은 청구범위를 도입하기 위한 예들에 해당할 뿐이다.

또한, 본 개시에 따른 방법들에 있어 각 단계들의 순서가 상술한 예들에만 제한되지 않는다. 순서는 자명한 범위 내에서 통상의 기술자가 특별한 노력 없이도 수정할 수 있다. 각 방법에 속하는 단계들 중 적어도 일부는 순차적으로 또는 동시에 수행될 수 있다. 특정 단계는 생략될 수도 있다. 본 발명의 기술적 사상은 이하 청구항들을 통해서만 제한될 수 있다.

100: 전자 장치 110: 메모리
120: 프로세서

Claims

전자 장치의 제어 방법에 있어서,
데이터를 GAN(generative adversarial network)에 입력하여, 상기 GAN에서 출력되는 이미지를 획득하는 단계;
상기 데이터의 입력에 따라 상기 GAN의 적어도 하나의 중간(intermediate) 레이어에서 출력되는 특징 값을 디코더에 입력하는 단계; 및
상기 특징 값의 입력에 따라 상기 디코더에서 출력되는 의미 분할 마스크(semantic segmentation mask)를 획득하는 단계;를 포함하는 제어 방법.
제1항에 있어서,
데이터의 입력에 따라 상기 GAN의 적어도 하나의 중간 레이어에서 출력되는 특징 값 및 상기 데이터의 입력에 따라 상기 GAN에서 출력되는 이미지에 부가된 의미 분할 마스크를 기반으로, 상기 GAN의 적어도 하나의 중간 레이어에서 출력되는 특징 값이 입력되면 의미 분할 마스크를 출력하도록 상기 디코더를 훈련시키는 단계;를 더 포함하고,
상기 특징 값을 입력하는 단계는,
상기 특징 값을 상기 훈련된 디코더에 입력하는, 제어 방법.
제1항에 있어서,
상기 GAN으로부터 획득된 이미지 및 상기 디코더로부터 획득된 의미 분할 마스크를 이용하여, 이미지가 입력되면 상기 입력된 이미지에 대응되는 적어도 하나의 의미 분할 마스크를 출력하도록 의미 분할 네트워크(semantic segmentation network)를 훈련시키는 단계;를 더 포함하는 제어 방법.
제1항에 있어서,
상기 의미 분할 마스크를 획득하는 단계는,
상기 특징 값의 입력에 따라 상기 디코더로부터 상기 이미지에 대응되는 의미 분할 마스크를 획득하는, 제어 방법.
전자 장치에 있어서,
입력된 데이터를 기반으로 이미지를 생성하도록 훈련된 GAN(Generative Adversarial Network) 및 디코더(Decoder)가 저장된 메모리; 및
상기 GAN(generative adversarial network)에 데이터를 입력하여 상기 GAN에서 출력되는 이미지를 획득하고, 상기 데이터의 입력에 따라 상기 GAN의 적어도 하나의 중간(intermediate) 레이어에서 출력되는 특징 값을 디코더에 입력하고, 상기 특징 값의 입력에 따라 상기 디코더에서 출력되는 의미 분할 마스크(semantic segmentation mask)를 획득하는 프로세서;를 포함하는, 전자 장치.
제5항에 있어서,
상기 디코더는,
데이터의 입력에 따라 상기 GAN의 적어도 하나의 중간 레이어에서 출력되는 특징 값 및 상기 데이터의 입력에 따라 상기 GAN에서 출력되는 이미지에 부가된 의미 분할 마스크를 기반으로, 상기 GAN의 적어도 하나의 중간 레이어에서 출력되는 특징 값이 입력되면 의미 분할 마스크를 출력하도록 훈련된 디코더인, 전자 장치.
제5항에 있어서,
상기 프로세서는,
상기 GAN으로부터 획득된 이미지 및 상기 디코더로부터 획득된 의미 분할 마스크를 이용하여, 이미지가 입력되면 상기 입력된 이미지에 대응되는 적어도 하나의 의미 분할 마스크를 출력하도록 의미 분할 네트워크(semantic segmentation network)를 훈련시키는, 전자 장치.
제5항에 있어서,
상기 프로세서는,
상기 특징 값의 입력에 따라 상기 디코더로부터 상기 이미지에 대응되는 의미 분할 마스크를 획득하는, 전자 장치.
전자 장치의 프로세서에 의해 실행되어 상기 전자 장치로 하여금,
데이터를 GAN(generative adversarial network)에 입력하여, 상기 GAN에서 출력되는 이미지를 획득하는 단계;
상기 데이터의 입력에 따라 상기 GAN의 적어도 하나의 중간(intermediate) 레이어에서 출력되는 특징 값을 디코더에 입력하는 단계; 및
상기 특징 값의 입력에 따라 상기 디코더에서 출력되는 의미 분할 마스크(semantic segmentation mask)를 획득하는 단계;를 포함하는 동작을 수행하도록 하는 인스트럭션이 저장된 컴퓨터 판독 가능 매체.