KR20220130498A - 딥뉴럴 네트워크 기반 이미지 아웃페인팅 방법 및 그 장치 - Google Patents
딥뉴럴 네트워크 기반 이미지 아웃페인팅 방법 및 그 장치 Download PDFInfo
- Publication number
- KR20220130498A KR20220130498A KR1020210035476A KR20210035476A KR20220130498A KR 20220130498 A KR20220130498 A KR 20220130498A KR 1020210035476 A KR1020210035476 A KR 1020210035476A KR 20210035476 A KR20210035476 A KR 20210035476A KR 20220130498 A KR20220130498 A KR 20220130498A
- Authority
- KR
- South Korea
- Prior art keywords
- image
- edge map
- edge
- mask
- loss
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013528 artificial neural network Methods 0.000 title abstract description 5
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 14
- 230000015654 memory Effects 0.000 claims description 12
- 230000008707 rearrangement Effects 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 4
- 230000004913 activation Effects 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000010422 painting Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009365 direct transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 238000010809 targeting technique Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G06T5/77—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/001—Image restoration
- G06T5/005—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
딥뉴얼 네트워크 기반 이미지 아웃페인팅 방법 및 그 장치가 개시된다. 이 방법은 적어도 하나의 프로세서에 의해 동작하는 컴퓨팅 장치의 이미지 아웃페인팅 방법으로서, 대상 이미지의 가장자리의 양방향 정보를 이용하여 생성한 마스크 영역을 포함하는 마스크 이미지를 입력받는 단계, GAN(Generative Adversarial Network)을 이용하여 상기 마스크 영역에 대한 엣지 맵을 예측하는 단계, 상기 엣지 맵 및 상기 대상 이미지를 이용하여, 상기 마스크 영역이 좌우에 배치된 컬러 이미지를 생성하는 단계, 그리고 상기 좌우를 교차시켜 완성된 컬러 이미지를 생성하는 단계를 포함한다.
Description
본 발명은 딥뉴럴 네트워크 기반 이미지 아웃페인팅(Outpainting) 방법 및 그 장치에 관한 것이다.
최근 딥러닝의 발전과 함께 영상 완성에 대한 연구가 활발히 진행되고 있다. 영상 완성 분야의 대표적인 예로는 저해상도에서 고해상도 영상으로 복원하는 슈퍼 레졸루션(super-resolution)과 영상 내부의 훼손된 영역을 의미적, 인지적으로 자연스럽게 생성하는 이미지 인페인팅(Inpainting), 그리고 영상 외부를 확장하여 생성하는 이미지 아웃페인팅이 있다.
이미지 아웃페인팅은 주어진 이미지를 훼손시키지 않고 이미지의 맥락을 고려하여 이미지의 외부를 지속적으로 채우고 확장할 수 있다는 점에서 매우 흥미로운 기술이다. 이러한 이미지 아웃페인팅 기술은 이미지 리타겟팅(Re-targeting) 기술에 활용될 수 있다.
이미지 리타켓팅이란 각기 다른 디스플레이의 종횡비에 맞춰 이미지를 리사이징하는 기술을 말하는데 이미지 아웃페인팅 기술을 활용하면 원본 영상을 왜곡시키지 않고 부족한 영역만큼만 이미지를 생성하여 채울 수 있으므로 리사이징으로 인한 영상의 시각적 품질 저하를 경감시킬 수 있다.
고전적인 이미지 아웃페인팅 방법은 딥러닝을 사용하지 않고 patch의 similarity를 보고 후보들을 고르고 가장 유사한 걸로 채워 넣는 방법이다. 이러한 방법은 생성해야 하는 영역이 커지면 좋은 성능을 내지 못하는 한계가 있다. 출력 화질을 향상시키기 위해 GAN(Generative Adversarial Network)을 사용하는 몇가지 방법이 이후 제안되었다. 논문(Mark Sabini and Gili Rusak. Painting outside the box: Im-age outpainting with gans. arXiv preprint arXiv:1808.08483, 2018)는 처음으로 GAN 기반의 방법을 제안했다. 이 방법은 간단한 인코더-디코더 구조로 구성되며 평균 제곱 오차(MSE, Mean Squared Error)와 GAN 손실만 사용한다. 후처리를 사용하여 출력 이미지를 부드럽게 하지만 생성된 이미지에서 반복되는 픽셀을 표시하는 한계가 있다. 논문(Teterwak, Piotr and Sarna, Aaron and Krishnan, Dilip and Maschinot, Aaron and Belanger, David and Liu, Ce and Freeman, William T. Boundless: Generative adversarial networks for image extension. In Proceedings of the IEEE International Conference on Computer Vision, pages 10521-10530, 2019)은 사전 훈련된 딥뉴럴 네트워크의 의미 정보를 기반으로 판별자의 동작을 조절하는 훈련을 위한 안정화 기법인 판별기에서 의미적 조건화를 사용했다. 논문(Yang, Zongxin and Dong, Jian and Liu, Ping and Yang, Yi and Yan, Shuicheng. Very long natural scenery image prediction by outpainting. In Proceedings of the IEEE International Conference on Computer Vision, pages 10561-10570, 2019)은 장단기 기억(Long Short-Term Memory models, LSTM)을 기반으로 한 RCT(Recurrent Content Transfer) 모델을 제안했다. RCT는 입력 영역 특징을 예측 영역으로 전송하여 입력 영역과 예측 영역 간의 자연스러운 연결을 개선한다. 그러나 생성된 영역은 인접한 입력 영역의 특징을 비교적 크게 반영한다. 따라서, 생성된 전체 영역이 입력 이미지의 중요한 특징인 색조와 일치하지 않는 경향이 있다.
이처럼, 종래기술들은 넓은 영역을 생성하는 영상에서의 품질 성능이 좋지 못하다. 특히, 색감과 구조 등이 원본 영상과 일치하지 않으며, 단순히 픽셀을 반복해서 생성하는 경향이 있다. 또한, 아웃페인팅에서 사용하는 GANs 네트워크들은 미지 영역(unknown region)에 대한 예측이 어려워 모드 붕괴, 비-수렴, 기울기 소실 등 다양한 학습 문제가 발생하며 이로 인해 성능 개선에 어려움이 있다.
해결하고자 하는 과제는 양방향 경계 영역 재배열을 사용한 이미지 아웃페인팅 방법 및 그 장치를 제공하는 것이다.
한 특징에 따르면, 적어도 하나의 프로세서에 의해 동작하는 컴퓨팅 장치의 이미지 아웃페인팅 방법으로서, 대상 이미지의 가장자리의 양방향 정보를 이용하여 생성한 마스크 영역을 포함하는 마스크 이미지를 입력받는 단계, GAN(Generative Adversarial Network)을 이용하여 상기 마스크 영역에 대한 엣지 맵을 예측하는 단계, 상기 엣지 맵 및 상기 대상 이미지를 이용하여, 상기 마스크 영역이 좌우에 배치된 컬러 이미지를 생성하는 단계, 그리고 상기 좌우를 교차시켜 완성된 컬러 이미지를 생성하는 단계를 포함한다.
원본 이미지를 엣지 처리한 엣지 이미지 및 상기 원본 이미지의 마스크 이미지를 토대로, 상기 GAN을 학습시키는 단계를 더 포함하고, 상기 마스크 이미지는, 상기 원본 이미지에서 정해진 비율이 마스크 영역으로 선정될 수 있다.
상기 GAN을 학습시키는 단계는, 상기 정해진 비율에 따라 점진적으로 상기 마스크 영역을 증가시킨 복수의 마스크 이미지를 토대로, 상기 학습을 반복할 수 있다.
상기 입력받는 단계 이전에, 구조적 엣지 맵 생성자 및 엣지 판별자를 포함하는 상기 GAN을 학습시키는 단계를 더 포함하고, 상기 구조적 엣지 맵 생성자는, 상기 마스크 영역에 대한 엣지 맵을 예측하도록 손실을 학습하며, 상기 손실은, 상기 구조적 엣지 맵 생성자의 힌지 손실과, 상기 엣지 판별자의 피쳐-매칭 손실을 포함할 수 있다.
상기 GAN은, 이미지 완료 생성자 및 이미지 완료 판별자를 더 포함하고, 상기 이미지 완료 생성자는, 상기 구조적 엣지 맵 생성자에 의해 예측된 엣지 맵으로부터 컬러 이미지를 생성하도록 손실을 학습하고, 상기 이미지 완료 생성자의 손실은, 상기 이미지 완료 판별자의 적대적 손실을 포함할 수 있다.
다른 특징에 따르면, 컴퓨팅 장치는 이미지 아웃페인팅을 수행하는 프로그램이 저장된 메모리, 그리고 상기 프로그램을 실행하는 프로세서를 포함하고, 상기 프로그램은, 대상 이미지의 가장자리의 양방향 정보를 이용하여 누락된 영역을 생성하고, 상기 대상 이미지를 상기 누락된 영역만큼 확장하는 이미지 아웃페인팅을 실행하는 명령어들(Instructions)을 포함한다.
상기 프로그램은, GAN(Generative Adversarial Network)을 이용하여 상기 누락된 영역에 대한 엣지 맵 영상을 예측하고, 상기 엣지 맵 영상을 통해 상기 확장을 수행하는 명령어들을 추가로 포함할 수 있다.
상기 프로그램은, 상기 누락된 영역을 정해진 비율만큼 점진적으로 증가시켜 상기 엣지 맵 영상의 예측을 반복하는 명령어들을 추가로 포함할 수 있다.
실시예에 따르면, 양방향 경계 영역 재배열을 통하여 이미지의 가장자리의 양방향 정보를 이용하여 누락된 영역을 생성할 수 있도록 함으로써, 단방향 정보를 사용하는 기존 이미지 아웃페인팅 방식보다 높은 품질의 이미지를 생성할 수 있다.
또한, 마스크의 크기를 점진적으로 증가시켜 이미지 아웃페인팅 절차를 반복함으로써, 구조적 엣지 맵 생성자와 이미지 완료 생성자를 안정적으로 학습시킬 수 있다.
도 1은 본 발명의 실시예에 따른 주요 개념을 나타내는 예시도이다.
도 2는 실시예에 따른 이미지 아웃페인팅 구조를 도시한다.
도 3은 실시예에 따른 에지 맵 생성기에서 점진적으로 생성된 에지 맵을 기반으로 하는 이미지 완료 프로세스의 예시도이다.
도 4는 실시예에 따른 학습 절차를 나타낸 순서도이다.
도 5는 실시예에 따른 이미지 아웃페인팅 절차를 나타낸 순서도이다.
도 6은 본 발명의 다른 실시예에 따른 컴퓨팅 장치의 구조도이다.
도 2는 실시예에 따른 이미지 아웃페인팅 구조를 도시한다.
도 3은 실시예에 따른 에지 맵 생성기에서 점진적으로 생성된 에지 맵을 기반으로 하는 이미지 완료 프로세스의 예시도이다.
도 4는 실시예에 따른 학습 절차를 나타낸 순서도이다.
도 5는 실시예에 따른 이미지 아웃페인팅 절차를 나타낸 순서도이다.
도 6은 본 발명의 다른 실시예에 따른 컴퓨팅 장치의 구조도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함" 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
또한, 명세서에 기재된 "…부", "…기", "…모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
본 발명에서 설명하는 장치들은 적어도 하나의 프로세서, 메모리 장치, 통신 장치 등을 포함하는 하드웨어로 구성되고, 지정된 장소에 하드웨어와 결합되어 실행되는 프로그램이 저장된다. 하드웨어는 본 발명의 방법을 실행할 수 있는 구성과 성능을 가진다. 프로그램은 도면들을 참고로 설명한 본 발명의 동작 방법을 구현한 명령어(instructions)를 포함하고, 프로세서와 메모리 장치 등의 하드웨어와 결합하여 본 발명을 실행한다.
본 명세서에서 "전송 또는 제공"은 직접적인 전송 또는 제공하는 것 뿐만 아니라 다른 장치를 통해 또는 우회 경로를 이용하여 간접적으로 전송 또는 제공도 포함할 수 있다.
본 명세서에서 단수로 기재된 표현은 "하나" 또는 "단일" 등의 명시적인 표현을 사용하지 않은 이상, 단수 또는 복수로 해석될 수 있다.
본 명세서에서 도면에 관계없이 동일한 도면번호는 동일한 구성요소를 지칭하며, "및/또는" 은 언급된 구성 요소들의 각각 및 하나 이상의 모든 조합을 포함한다.
본 명세서에서, 제1, 제2 등과 같이 서수를 포함하는 용어들은 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를들어, 본 개시의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
본 명세서에서 도면을 참고하여 설명한 실시예들에서, 임의의 실시예로 단독 구현될 수도 있고, 여러 실시예가 병합되거나 분할될 수도 있고, 각 실시예에서 특정 동작은 수행되지 않을 수 있다.
도 1은 본 발명의 실시예에 따른 이미지 아웃페인팅의 개념을 나타내는 예시도이다.
도 1의 (a)를 참조하면, 양방향 또는 좌우 화살표 방향으로 이미지가 생성되며 이미지의 가운데 절취선을 중심으로 이미지가 분할된다. 도 1의 (b)를 참조하면, 이미지의 가운데 절취선을 중심으로 왼쪽 이미지와 오른쪽 이미지가 좌우로 교차된다. 그러면, 이미지 생성 방향은 절취선, 즉, 안쪽을 향한다. 도 1의 (c)를 참조하면, 양방향 화살표 방향으로 이미지가 생성된 후, 이미지의 가운데 절취선을 중심으로 왼쪽과 오른쪽 이미지가 교차되면, 도 1의 (d)와 같이 확장 이미지가 생성된다.
이처럼, 실시예에 따르면, 양방향 엣지 영역 재배열을 사용하여 이미지 아웃페인팅을 구현한다. 양방향 엣지 영역 재배열은 이미지의 가장자리의 양방향 정보를 이용하여 누락된 영역을 생성할 수 있도록 함으로써, 단방향 정보를 사용하는 기존 이미지 아웃페인팅 방식보다 높은 품질의 이미지를 생성할 수 있다.
본 발명의 실시예는, 양방향 엣지 영역 재배열을 사용하는 이미지 아웃페인팅을 수행하는 프로그램이 저장된 메모리 및 상기 프로그램을 실행하는 적어도 하나의 프로세서에 의해 동작하는 컴퓨팅 장치에 의해 구현된다. 이미지 아웃페인팅에 대해 설명하면, 다음과 같다.
도 2는 실시예에 따른 이미지 아웃페인팅 구조를 도시한다.
도 2를 참조하면, 이미지 아웃페인팅 구조는 엣지 맵 생성 네트워크(edge map generation network)와 이미지 완성 네트워크(image completion network)로 구성된다.
각 네트워크는 GAN(Generative Adversarial Network) 기반 인공신경망으로서, 생성자(Generator)와 판별자(Discriminator) 쌍(Pair)으로 구성된다. 즉, 엣지 맵 생성 네트워크는 구조적 엣지 맵 생성자(structural edge map generator)와 엣지 판별자(Edge Discriminator)로 구성되고, 이들을 각각 Ge와 De로 정의한다. 이미지 완성 네트워크는 이미지 완료 생성자(Image Completion Generator)와 이미지 완료 판별자(Image Completion Discriminator)로 구성되고, 이들을 각각 Gc와 Dc로 정의한다.
구조적 엣지 맵 생성자(Ge)는 재배열(Rearrangement)된 각각의 마스크 이미지, 마스크된 그레이스케일(Grayscale) 이미지, 마스크된 엣지(Edge) 이미지를 입력받는다.
구조적 엣지 맵 생성자(Ge)의 인코더는 입력 이미지를 압축한다. 구조적 엣지 맵 생성자(Ge)의 residual block은 블록간의 정보 잔차를 계산한다. 구조적 엣지 맵 생성자(Ge)의 디코더는 압축된 정보를 다시 이미지로 압축 해제한다.
이미지 완료 생성자(Gc)는 구조적 엣지 맵 생성자(Ge)를 통해 생성된 글로벌엣지 맵(Edge Map)(Epred)와 재배열된 마스크(Mask) 이미지를 입력받는다.
이미지 완료 생성자(Gc)의 인코더는 입력 이미지를 압축한다. 이미지 완료 생성자(Gc)의 residual block은 블록간의 정보 잔차를 계산한다. 이미지 완료 생성자(Gc)의 디코더는 압축된 정보를 다시 이미지로 압축 해제한다.
이때, 마스크 이미지는 원본 이미지를 마스킹 처리하는데 사용되는 2진 이미지(binary image)이다. 마스크된 이미지는 도 1(a)의 원본 이미지를 마스킹 처리한 이미지이다. 여기서, 마스크된 이미지는 마스크 이미지를 통해 마스킹한 결과 이미지에 해당한다. 마스크된 그레이스케일 이미지는 도 1(a)의 원본 이미지를 그레이스케일로 처리하고 마스크 처리를 한 이미지이다. 마스크된 엣지 이미지는 도 1(a)의 원본 이미지를 엣지 처리하고 마스크 처리를 한 이미지이다.
컴퓨팅 장치는 도 1에서 설명한 바와 같이, 마스크 이미지, 그레이스케일 이미지, 엣지 이미지 각각에 대하여 도 1(b)와 같이 이미지의 가운데 절취선을 중심으로 왼쪽과 오른쪽 이미지를 교차시키는 재배열을 한다.
이처럼, 양방향 엣지 영역 재배열로 전처리된 마스크 이미지, 그레이스케일 이미지, 엣지 이미지를 입력받은 구조적 엣지 맵 생성자(Ge)는 누락된 영역(missing region)의 엣지들을 환각(hallucinate)한다.
Igt는 원본 이미지(ground-truth image)이고, Egt는 엣지 이미지이며, Igray는 그레이스케일 이미지이다. 구조적 엣지 맵 생성자(Ge)는 마스크된 그레이스케일 이미지()와 마스크된 엣지 이미지()를 입력으로 사용하며, 이들을 수학식으로 나타내면 다음과 같다.
[수학식 1]
[수학식 2]
수학식 1과 2에서, ⊙은 아다마르 곱(Hadamard product)을 나타내는 연산 기호이다. M은 마스크를 나타내며, 누락 영역은 1로, 그리고 배경은 0으로 표시하는 이진 이미지이다.
구조적 엣지 맵 생성자(Ge)는 확장된 컨볼루션(dilated convolution)과 잔차 블록(residual blocks)으로 구성된다. 구조적 엣지 맵 생성자(Ge)는 마스킹된 영역의 엣지 맵(Epred)을 예측하며, 이를 수학식으로 나타내면 수학식 3과 같다.
[수학식 3]
즉, 구조적 엣지 맵 생성자(Ge)는 마스킹된 영역에 대하여 예측한 엣지 맵(Epred)을 출력한다.
엣지 판별자(De)는 Igray에 조건화된 Egt와 Epred를 입력받아 엣지 맵(Epred)이 실제(real)인지 가짜(fake)인지 예측한다.
구조적 엣지 맵 생성자(Ge)는 GAN 손실 및 피쳐(Feature)-매칭(Matching) 손실의 힌지 변형(hinge variant)으로 구성된 목표로 훈련된다. 힌지 손실(hinge loss)은 이진 분류에서 효과적으로 사용되는데, 이는 구조적 엣지 맵 생성자(Ge)를 바이너리 엣지 맵을 사용하여 훈련하기 때문이다. 이를 수학식으로 나타내면, 수학식 4와 같다.
[수학식 4]
여기서, 와 는 정규화 매개 변수(regularization parameters)이다. 는 엣지 맵 생성자(Ge)의 최종 손실이다. 는 엣지 맵 생성자(Ge)의 손실과 피처 매칭 손실의 합으로 계산될 수 있다. 는 힌지 손실이 적용된 엣지 맵 생성자(Ge)의 손실이다. 는 그레이 스케일 원본 이미지와 엣지 맵 생성자(Ge)에 의해 예측한 이미지를 토대로, 엣지 판별자(De)에 의해 크로스 엔트로피(cross entropy) 손실로 계산될 수 있다. 은 피쳐 매칭 손실이다. 은 엣지 맵 생성자(Ge)의 예측값과 엣지 맵 생성자(Ge)에 입력된 실제값을 엣지 판별자(De)에 입력하고, 엣지 판별자(De)의 중간층 결과물 피쳐맵 사이의 차이값에 절대값을 취해 오차 합을 통해 계산될 수 있다.
힌지 손실이 있는 구조적 엣지 맵 생성자(Ge)와 엣지 판별자(De)는 다음 수학식 5를 통해 업데이트된다.
[수학식 5]
구조적 엣지 맵 생성자(Ge)는 구조적 엣지 맵 생성자(Ge)를 통해 생성한 Epred와 Igray를 구조적 엣지 맵 판별자인 De를 통해 손실(차이)을 구하고 그 손실만큼 구조적 엣지 맵 생성자(Ge)를 업데이트한다.
엣지 판별자(De)는 힌지(hinge)구조로 이루어진 손실 형태로, 원본 이미지(Egt)를 판별할 때는 1보다 작은 손실과 생성 이미지(Epred)를 판별할 때는 1보다 큰 손실을 얻도록 하여, 결과적으로 더해진 형태로 판별자를 업데이트한다.
피쳐-매칭 손실인 은 엣지 판별자(De)의 중간 계층에서 활성화 맵들을 비교한다. 이는 엣지 판별자(De)가 실제 이미지와 유사한 출력을 생성하도록 강제함으로써 훈련 프로세스를 안정화시킬 수 있다. 이는 활성화 맵이 사전 훈련된 VGG 네트워크의 피쳐 맵들과 비교되는 지각 손실(perceptual loss)과 유사하다.
[수학식 6]
여기서, Ni는 엘리먼트들의 개수이고, De는 엣지 판별자(De)의 i번째 계층에서 활성화이다.
구조적 엣지 맵 생성자(Ge)로부터 엣지 맵(Epred)을 획득한 이미지 완료 생성자(Gc)는 완성된 컬러 이미지를 생성한다. 이때, 이미지 완료 생성자(Gc)는 dilated convolution과 residual blocks으로 구성된다.
[수학식 7]
[수학식 8]
완성된 컬러 이미지(Ipred)는 수학식 9와 같다.
[수학식 9]
이미지 완료 네트워크는 로스, 적대적(adversarial) 손실, 지각(perceptual) 손실, 스타일 손실로 구성된 공동 손실(joint loss)에 대해 훈련된다. 적절한 스케일링을 보장하기 위해 로스는 마스크 사이즈로 정규화된다. 현실적인 결과를 생성하기 위하여 이미지 완료 생성자(Gc)에서 적대적 손실을 적용한다.
[수학식 10]
적대적 손실의 첫번째 항()은 진짜 이미지를 넣었을 때의 이미지 완료 판별자(Dc)의 값이며 두번째 항()은 생성자가 만든 가짜 이미지를 넣었을 때의 이미지 완료 판별자(Dc)의 값이다. 결과적으로, 이 두 항의 목적함수를 이용해 진짜 이미지일 때는 큰 값을, 가짜 이미지일 때는 작은 값을 출력하도록 이미지 완료 판별자(Dc)를 학습시킨다.
지각 손실은 아래 수학식 11과 같이 정의할 수 있다.
[수학식 11]
여기서, 은 pre-train 된 VGG(Visual Geometry Group) network로 정의한다. 앞서 FM 손실과 마찬가지로 중간층의 피쳐맵간의 거리를 계산하는 것이다. 차이점은 판별자가 아닌 사전 학습된 VGG network를 이용한다는 것이다. 는 사전 훈련된 네트워크의 활성화 맵 간의 거리 측정을 정의하여 기능과 지각적으로 유사하지 않은 결과에 페널티를 부여한다.
[수학식 12]
최종적으로, 총 손실은 다음 수학식 13과 같이 정의할 수 있다.
[수학식 13]
이때, 스타일 손실()의 비율을 높임으로써, 색상 톤 불일치 문제를 해결할 수 있다. 은 이미지 완료 생성자(Gc)의 최종 손실로서, 각각의 손실함수에 각각의 가중치를 곱한 값의 합으로 구성된다. 은 손실이다. 은 로스 가중치 변수로서, 생성 이미지와 실제 이미지와의 차이값에 절대값을 구하고 그 오차들의 합을 구하여 획득된다. 이는 가장 기본적인 손실함수이며 전체적으로 모델이 원본이미지와 비슷한 이미지를 생성할 수 있도록 학습하는데 사용된다. 은 적대적 손실 가중치 변수로서, 모델이 좀더 선명한 이미지를 생성하도록 학습하는데 효과가 있다. 은 지각(perceptual) 손실로서, 이미지의 구조적인 면, 즉 뼈대와 같은 정보가 잘 유지될 수 있도록 하는 효과가 있다. 은 style 손실의 가중치 변수로서, texture나 색상과 같은 표면적인 정보, 이미지의 style을 학습하는데 도움을 준다. 은 지각(perceptual) 손실 가중치 변수이다.
그런데, GAN은 모드 붕괴(mode collapse), 비융합(non-convergence), 소멸 그레이디언트(vanishing gradient)와 같은 문제로 인해 훈련하기 어렵다. 이러한 문제는 컨텍스트 없이 예상보다 많은 영역이 생성되는 이미지 출력 작업에도 적용된다.
실시예에 따르면, 마스크 크기를 수평으로 증가시킴으로써 이미지 아웃페인팅의 관점에서 GAN 훈련을 안정시키기 위한 간단하지만 효과적인 훈련 방법을 제안하며 이는 도 3과 같다.
도 3은 실시예에 따른 에지 맵 생성기에서 점진적으로 생성된 에지 맵을 기반으로 하는 이미지 완료 프로세스의 예시도이다.
도 3을 참조하면, 입력 마스크 이미지(Input masked image)의 마스크 영역(공백)이 커질수록 생성된 엣지 맵(Generated edge map)은 GT(Ground Truth) 이미지와 더 차이가 나는 영상인 것을 알 수 있다. 따라서, 구조적 엣지 맵 생성자(Ge)에 입력되는 마스크 영역의 크기를 늘리는 동시에 보다 안정적으로 학습할 수 있도록 학습 단계를 마스크 영역의 크기별로 나눈다. 예를들어, 마스크는 32단계로 나뉘며 각 단계에서 점차 커진다. 초기 마스크 크기는 입력 이미지의 3.125%이며 선형적으로 증가하며 최종 마스크 크기는 입력 이미지의 50%로 설정될 수 있다.
훈련할 때 이미지 내부의 마스크를 설정하여 수평 진행 단계 학습 방식으로 진행한다. 테스트할 때 영상 외부에서 마스킹된 영상이 입력으로 제공되며 엣지 영역 재배열 방법을 사용하여 아웃 페인팅 이미지를 생성한다.
도 4는 실시예에 따른 학습 절차를 나타낸 순서도로서, 각 단계에서 구조적 엣지 맵 생성자(Ge)에 의해 생성된 엣지 맵을 기반으로 한 이미지 완료 프로세스를 나타낸다. 이미지 완료 생성자(De)의 결과는 엣지 맵에 따라 달라진다.
도 4를 참조하면, 32 단계(Task)로 마스크의 크기를 구분하였다. 앞서 도 2 구조를 32단계로 반복적으로 학습한다. 입력 이미지들의 unknown region(mask) 영역을 점진적으로 늘려가면서 네트워크가 안정적으로 학습할 수 있다.
총 마스크의 크기는 32단계로 나뉘며 초기 마스크 크기는 입력 이미지의 3.125%이고 선형적으로 증가하여 최종 마스크 크기는 입력 이미지의 50%로 설정된다. 이러한 과정을 통하여, 구조적 엣지 맵 생성자(Ge) 및 이미지 완료 생성자(De)를 학습시킨다. 이때, 도 4의 입력 이미지들은 도 2의 구조적 엣지 맵 생성자(Ge)의 입력 이미지들과 동일하고, 다만, 마스크 이미지의 경우, 마스크 영역의 크기가 달라진다.
지금까지 설명한 내용을 토대로, 컴퓨팅 장치의 이미지 아웃페인팅 방법에 대해 설명하면 다음과 같다.
도 5는 실시예에 따른 이미지 아웃페인팅 방법 나타낸 순서도이다.
도 5를 참조하면, 컴퓨팅 장치는 대상 이미지의 unknown region(mask) 영역을 정해진 기준에 따른 크기로 설정하고 도 1(b)에서 설명한 바와 같이 좌우 교차시켜 설정한다(S101).
컴퓨팅 장치는 구조적 엣지 맵 생성자에서 S101에서 설정한 크기를 가진 마스크 이미지, 마스크된 그레이스케일 이미지, 마스크된 엣지 이미지를 입력받아 엣지 맵(Epred)을 출력한다(S103).
이미지 완료 생성자는 엣지 맵(Epred)과 S101에서 설정한 크기를 가진 컬러 마스크된 이미지를 입력받아 마스크 영역이 컬러로 채워진 이미지를 출력한다(S105). 이렇게 출력한 컬러로 채워진 이미지는 도 1(d)에서 설명한 바와 같이 좌우 교차시켜 완성된 컬러 이미지로 출력된다(S107).
다음, 컴퓨팅 장치는 정해진 단계를 충족하는지 판단(S109)하고, 정해진 단계를 충족하지 않으면, S101에서 설정한 크기를 정해진 비율만큼 증가시킨 마스크 이미지를 생성한다(S111).
S111에서 생성한 마스크 이미지를 이용하여 S103 ~ S109를 반복한다. 이처럼, 마스크의 크기를 점진적으로 증가시켜 이미지 아웃페인팅 절차를 반복함으로써, 구조적 엣지 맵 생성자와 이미지 완료 생성자를 안정적으로 학습시킬 수 있다.
한편, 도 6은 본 발명의 다른 실시예에 따른 컴퓨팅 장치의 구조도이다.
도 1 내지 도 5에서 설명한 이미지 아웃페인팅은 컴퓨터 장치, 컴퓨터 판독 가능 매체로 구현될 수 있다.
도 6을 참조하면, 적어도 하나의 프로세서에 의해 동작하는 컴퓨팅 장치(100)에서, 도 1 내지 도 5에서 설명한 본 발명의 동작, 즉, 이미지 아웃페인팅을 실행하도록 기술된 명령들(instructions)이 포함된 프로그램을 실행할 수 있다.
컴퓨팅 장치(100)는 프로세서(110), 메모리(120), 입력 인터페이스 장치(130), 출력 인터페이스 장치(140), 네트워크 인터페이스(150) 및 저장 장치(160)를 포함하며, 이들은 버스(170)를 통해 통신할 수 있다.
프로세서(110)는 위의 도 1 내지 도 5를 토대로 설명한 방법들을 구현하도록 구성될 수 있다. 프로세서(110)는 중앙 처리 장치(Central Processing Unit, CPU)이거나, 또는 메모리(120) 또는 저장 장치(160)에 저장된 명령을 실행하는 반도체 장치일 수 있다.
메모리(120)는 프로세서(110)와 연결되고 프로세서(110)의 동작과 관련한 다양한 정보를 저장한다. 메모리(120)는 프로세서(110)에서 수행하기 위한 명령어를 저장하고 있거나 저장 장치(160)로부터 명령어를 로드하여 일시 저장할 수 있다. 프로세서(110)는 메모리(120)에 저장되어 있거나 로드된 명령어를 실행할 수 있다. 메모리는 ROM(Read Only Memory) 및 RAM(Random Access Memory)를 포함할 수 있다.
본 발명의 실시예에서 메모리(120)는 프로세서(110)의 내부 또는 외부에 위치할 수 있고, 메모리(120)는 이미 알려진 다양한 수단을 통해 프로세서(110)와 연결될 수 있다.
네트워크 인터페이스 장치(150)는 네트워크에 연결되어 신호를 송수신하도록 구성된다.
본 발명의 실시예들에서 개시된 시스템, 장치 및 방법은 다른 방식으로 구현될 수 있음을 이해해야 한다. 예를 들어, 개시된 장치 실시 예는 단지 예일 뿐이다. 예를들어, 시스템의 처리 장치의 구분은 단지 논리적인 기능 구분이며, 실제로 구현하는 동안 다른 구분이 될 수 있다. 예를들어, 다수의 장치 또는 구성 요소가 결합되거나 다른 시스템에 통합되거나 일부 기능이 무시되거나 수행되지 않을 수 있다.
또한, 본 발명의 실시예에 따른 방법을 수행하도록 구성된 장치들은 하나의 장치에 통합되거나, 장치들 각각은 물리적으로 단독으로 존재할 수도 있고, 또는 둘 이상의 장치가 하나의 장치로 통합될 수도 있다. 전술한 실시 예들에서 기술된 방법을 수행하도록 구성된 장치는 하드웨어의 형태로 구현될 수 있거나 소프트웨어 기능 유닛의 형태로 구현될 수 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
Claims (8)
- 적어도 하나의 프로세서에 의해 동작하는 컴퓨팅 장치의 이미지 아웃페인팅 방법으로서,
대상 이미지의 가장자리의 양방향 정보를 이용하여 생성한 마스크 영역을 포함하는 마스크 이미지를 입력받는 단계,
GAN(Generative Adversarial Network)을 이용하여 상기 마스크 영역에 대한 엣지 맵을 예측하는 단계,
상기 엣지 맵 및 상기 대상 이미지를 이용하여, 상기 마스크 영역이 좌우에 배치된 컬러 이미지를 생성하는 단계, 그리고
상기 좌우를 교차시켜 완성된 컬러 이미지를 생성하는 단계
를 포함하는, 방법. - 제1항에서,
원본 이미지를 엣지 처리한 엣지 이미지 및 상기 원본 이미지의 마스크 이미지를 토대로, 상기 GAN을 학습시키는 단계를 더 포함하고,
상기 마스크 이미지는,
상기 원본 이미지에서 정해진 비율이 마스크 영역으로 선정되는, 방법. - 제2항에서,
상기 GAN을 학습시키는 단계는,
상기 정해진 비율에 따라 점진적으로 상기 마스크 영역을 증가시킨 복수의 마스크 이미지를 토대로, 상기 학습을 반복하는, 방법. - 제1항에서,
상기 입력받는 단계 이전에,
구조적 엣지 맵 생성자 및 엣지 판별자를 포함하는 상기 GAN을 학습시키는 단계를 더 포함하고,
상기 구조적 엣지 맵 생성자는,
상기 마스크 영역에 대한 엣지 맵을 예측하도록 손실을 학습하며,
상기 손실은,
상기 구조적 엣지 맵 생성자의 힌지 손실과, 상기 엣지 판별자의 피쳐-매칭 손실을 포함하는, 방법. - 제4항에서,
상기 GAN은,
이미지 완료 생성자 및 이미지 완료 판별자를 더 포함하고,
상기 이미지 완료 생성자는,
상기 구조적 엣지 맵 생성자에 의해 예측된 엣지 맵으로부터 컬러 이미지를 생성하도록 손실을 학습하고,
상기 이미지 완료 생성자의 손실은,
상기 이미지 완료 판별자의 적대적 손실을 포함하는, 방법. - 이미지 아웃페인팅을 수행하는 프로그램이 저장된 메모리, 그리고
상기 프로그램을 실행하는 프로세서를 포함하고,
상기 프로그램은,
대상 이미지의 가장자리의 양방향 정보를 이용하여 누락된 영역을 생성하고, 상기 대상 이미지를 상기 누락된 영역만큼 확장하는 이미지 아웃페인팅을 실행하는 명령어들(Instructions)을 포함하는, 컴퓨팅 장치. - 제6항에서,
상기 프로그램은,
GAN(Generative Adversarial Network)을 이용하여 상기 누락된 영역에 대한 엣지 맵 영상을 예측하고, 상기 엣지 맵 영상을 통해 상기 확장을 수행하는 명령어들을 추가로 포함하는, 컴퓨팅 장치. - 제7항에서,
상기 프로그램은,
상기 누락된 영역을 정해진 비율만큼 점진적으로 증가시켜 상기 엣지 맵 영상의 예측을 반복하는 명령어들을 추가로 포함하는, 컴퓨팅 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210035476A KR20220130498A (ko) | 2021-03-18 | 2021-03-18 | 딥뉴럴 네트워크 기반 이미지 아웃페인팅 방법 및 그 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210035476A KR20220130498A (ko) | 2021-03-18 | 2021-03-18 | 딥뉴럴 네트워크 기반 이미지 아웃페인팅 방법 및 그 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220130498A true KR20220130498A (ko) | 2022-09-27 |
Family
ID=83452015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210035476A KR20220130498A (ko) | 2021-03-18 | 2021-03-18 | 딥뉴럴 네트워크 기반 이미지 아웃페인팅 방법 및 그 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20220130498A (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315354A (zh) * | 2023-09-27 | 2023-12-29 | 南京航空航天大学 | 基于多判别器复合编码gan网络的绝缘子异常检测方法 |
-
2021
- 2021-03-18 KR KR1020210035476A patent/KR20220130498A/ko active Search and Examination
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315354A (zh) * | 2023-09-27 | 2023-12-29 | 南京航空航天大学 | 基于多判别器复合编码gan网络的绝缘子异常检测方法 |
CN117315354B (zh) * | 2023-09-27 | 2024-04-02 | 南京航空航天大学 | 基于多判别器复合编码gan网络的绝缘子异常检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10817805B2 (en) | Learning data augmentation policies | |
CN113240580B (zh) | 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法 | |
US10740897B2 (en) | Method and device for three-dimensional feature-embedded image object component-level semantic segmentation | |
Sun et al. | Swformer: Sparse window transformer for 3d object detection in point clouds | |
US11087504B2 (en) | Transforming grayscale images into color images using deep neural networks | |
CN110766038B (zh) | 无监督式的地貌分类模型训练和地貌图构建方法 | |
CN111386536A (zh) | 语义一致的图像样式转换 | |
CN111798400A (zh) | 基于生成对抗网络的无参考低光照图像增强方法及系统 | |
US10614347B2 (en) | Identifying parameter image adjustments using image variation and sequential processing | |
EP3710993B1 (en) | Image segmentation using neural networks | |
CN116205820A (zh) | 图像增强方法、目标识别方法、设备及介质 | |
KR20220130498A (ko) | 딥뉴럴 네트워크 기반 이미지 아웃페인팅 방법 및 그 장치 | |
CN114462486A (zh) | 图像处理模型的训练方法、图像处理方法及相关装置 | |
CN110135428A (zh) | 图像分割处理方法和装置 | |
KR102567128B1 (ko) | 개선된 적대적 어텐션 네트워크 시스템 및 이를 이용한 이미지 생성 방법 | |
CN114120263A (zh) | 图像处理装置、记录介质以及图像处理方法 | |
US20230145498A1 (en) | Image reprojection and multi-image inpainting based on geometric depth parameters | |
CN112084371B (zh) | 一种电影多标签分类方法、装置、电子设备以及存储介质 | |
US11561326B1 (en) | System and method for generating accurate hyperlocal nowcasts | |
CN113822790A (zh) | 一种图像处理方法、装置、设备及计算机可读存储介质 | |
CN114119428B (zh) | 一种图像去模糊方法和装置 | |
JP7208314B1 (ja) | 学習装置、学習方法及び学習プログラム | |
US20230055204A1 (en) | Generating colorized digital images utilizing a re-colorization neural network with local hints | |
US20230259587A1 (en) | Learning parameters for generative inpainting neural networks utilizing object-aware training and masked regularization | |
US20230260175A1 (en) | Generating collage digital images by combining scene layouts and pixel colors utilizing generative neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination |