KR102648354B1 - 인공 신경망을 이용한 영상 변환 시스템 및 그 방법 - Google Patents
인공 신경망을 이용한 영상 변환 시스템 및 그 방법 Download PDFInfo
- Publication number
- KR102648354B1 KR102648354B1 KR1020220104927A KR20220104927A KR102648354B1 KR 102648354 B1 KR102648354 B1 KR 102648354B1 KR 1020220104927 A KR1020220104927 A KR 1020220104927A KR 20220104927 A KR20220104927 A KR 20220104927A KR 102648354 B1 KR102648354 B1 KR 102648354B1
- Authority
- KR
- South Korea
- Prior art keywords
- image
- learning
- unit
- aerial
- learning data
- Prior art date
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 139
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000013016 learning Effects 0.000 claims description 178
- 230000006870 function Effects 0.000 claims description 51
- 238000012545 processing Methods 0.000 claims description 42
- 238000013256 Gubra-Amylin NASH model Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000010422 painting Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000035045 associative learning Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/05—Geographic models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Geometry (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computer Graphics (AREA)
- Remote Sensing (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 인공 신경망을 이용한 영상 변환 시스템 및 그 방법에 관한 것으로서, 위성영상을 항공영상 도메인 형태로 변환하고, 이를 적용하여 기본 지도를 생성하되, 인공 신경망을 이용하여 자동화가 가능하면서도 높은 정확도의 기본 지도를 생성할 수 있는 기술에 관한 것이다.
Description
본 발명은 인공 신경망을 이용한 영상 변환 시스템 및 그 방법에 관한 것으로, 더욱 상세하게는 수집되는 위성영상 또는, 이종 카메라에 의한 항공영상을 신속하고 정확하게 기본 지도(base map) 형태로 변환할 수 있는 인공 신경망을 이용한 영상 변환 시스템 및 그 방법에 관한 것이다.
기본 지도(base map)이란, 통상적으로 다양한 지도 서비스를 통해서 제공받을 수 있는 도로, 건물 영역 등을 윤곽과 영역 별 색 형태로 표현하고 있는 래스터(raster) 또는, 벡터(vector) 영상을 의미한다. 주로, 건물 및 도로 등의 윤곽을 표현하고 있으며, 경계선 및 종류 별 상이한 색상으로 표현하는 것이 일반적이다.
이러한 기본 지도를 생성하기 위하여, 항공영상 또는, 위성영상을 일반 지도로 변환하게 되는데, 종래에는 입력되는 항공영상 또는, 위성영상을 수직에서 바라보는 기하학적 변환을 거친 후, 수작업을 통해서 포함되어 있는 다양한 객체(건물, 도로 등)에 대한 윤곽을 픽셀 단위로 선택하여 기본 지도를 생성하고 있다.
당연히 이러한 과정에서 많은 시간과 인력이 필요하게 되고, 수집되는 영상 데이터가 증가되고 있기 때문에, 자동화하기 위한 요구가 증대하고 있다.
이러한 요구에 맞추어, AI를 이용하여 기본 지도 생성의 자동화가 가능한 기술이 연구되고 있다.
일 예를 들자면, pix2pix 인공 신경망을 이용하여 항공영상을 기본 지도로 변환하는 기술이 있으며, 상세하게는, 사전에 수작업을 통해서 항공영상과 이에 대응되어 쌍을 이루는 기본 지도를, 즉, 항공영상-기본 지도 쌍을 수십만 장 수집하여 학습 데이터로 생성한 후, 이를 학습 처리하여 학습 모델을 생성하게 된다. 이 후, 입력되는 항공영상을 이용하여, 학습 모델의 추론 결과로써 기본 지도를 도출하게 된다.
그렇지만, 학습 모델 자체가 학습 데이터로 구축한 항공영상에 특화되어 있기 때문에, 다른 도메인의 영상(예를 들자면, 위성영상, 이종 카메라에 의한 항공영상 등)이 입력되면 사용자가 원하는 수준의 결과(기본 지도)가 도출되지 않아, 실용화 단계로 이어지지 못 하고 있는 실정이다.
물론, 위성영상도 유사한 방법으로, 사전에 수작업을 통해서 확보한 위성영상과 이에 대응되어 쌍을 이루는 기본 지도를 이용하여 수십만 장의 학습 데이터를 생성할 경우, 특화된 학습 모델을 구성할 수 있으나, 상술한 문제점을 그대로 포함하고 있을 뿐 아니라, 수 년의 위성 수명 동안 연속적으로 촬영하기 때문에 동시 다발적으로 입수되는 위성 영상에는 전혀 효율적이지 않은 대안이다.
이에 따라, 본 발명의 인공 신경망을 이용한 영상 변환 시스템 및 그 방법에서는, 위성영상을 항공영상으로 도메인 변환을 수행한 후, 변환한 항공영상(가상 항공영상)을 이용하여 기본 지도를 도출하는 기술을 제시하고 있다.
물론, 본 발명의 인공 신경망을 이용한 영상 변환 시스템 및 그 방법은 단순히 도메인 변환 네트워크와 기본 지도 도출 네트워크의 결합할 경우, 위성영상과 항공영상 간의 차이로 인해 픽셀의 공간 정확도 등이 매우 낮아지는 문제점이 발생하기 때문에, 이를 해소하기 위한 기술을 제안하고 있다.
다양한 크기의 식별자를 적용한 Cycle GAN을 이용한 다목적실용위성 5호 SAR 영상 색상 구현 방법(대한원격탐사학회 2018년 34권 6호)
본 발명은 상기한 바와 같은 종래 기술의 문제점을 해결하기 위하여 안출된 것으로, 본 발명의 목적은 위성영상 또는, 이종 카메라에 의한 항공영상을 항공영상 도메인 형태로 변환하고, 이를 적용하여 기본 지도를 생성하되, 인공 신경망을 이용하여 자동화가 가능하면서도 높은 정확도의 기본 지도를 생성할 수 있는 인공 신경망을 이용한 영상 변환 시스템 및 그 방법을 제공하는 것이다.
본 발명의 일 실시예에 따른 인공 신경망을 이용한 영상 변환 시스템에 있어서, 기본 지도(Base map) 도메인 형태로 변환하고자 하는 항공영상 및 위성영상 중 적어도 하나의 도메인 형태의 데이터를 입력받는 입력부, 저장된 제1 영상 변환 모듈을 이용하여, 상기 입력부에 의한 위성영상을 항공영상 도메인 형태로 변환하는 제1 변환부 및 저장된 제2 영상 변환 모듈을 이용하여, 상기 제1 변환부에 의해 변환한 항공영상 또는, 상기 입력부에 의한 항공영상을 기본 지도 도메인 형태로 변환하는 제2 변환부를 포함하는 것이 바람직하다.
더 나아가, 상기 제1 변환부는 외부로부터 다수의 항공영상과 다수의 위성영상을 수집하여, 각각의 학습 데이터 셋을 생성하는 제1 수집부, 상기 제1 수집부에 의한 항공영상 학습 데이터 셋과 위성영상 학습 데이터 셋의 학습 처리를 수행하여, 입력되는 위성영상을 가상의 항공영상으로 변환하여 출력하는 제1a 생성부, 상기 제1 수집부에 의한 항공영상 데이터 셋으로부터 추출한 특징점과 상기 제1a 생성부에 의한 가상의 항공영상으로부터 추출한 특징점을 비교하여 판별하도록 학습 처리를 수행하는 제1a 판별부, 상기 제1 수집부에 의한 항공영상 학습 데이터 셋과 위성영상 학습 데이터 셋의 학습 처리를 수행하여, 상기 제1a 생성부에 의한 가상의 항공영상을 입력받아 가상의 위성영상으로 변환하여 출력하는 제1b 생성부 및 상기 제1 수집부에 의한 위성영상 데이터 셋으로부터 추출한 특징점과 상기 제1b 생성부에 의한 가상의 위성영상으로부터 추출한 특징점을 비교하여 판별하도록 학습 처리를 수행하는 제1b 판별부를 포함하며, 상기 제1a 생성부, 제1a 판별부, 제1b 생성부 및 제1b 판별부는 인공 신경망으로 구현되는 GAN(Generative Adversarial Network) 모델을 이용하되, 상기 제1a 생성부로 입력되는 위성영상과 상기 1b 생성부에 의한 가상의 위성영상이 같아지도록, 기저장된 손실함수를 이용하여, 상기 제1a 생성부와 상기 제1a 판별부가 적대적 학습 처리를 수행함과 동시에 상기 제1b 생성부와 제1b 판별부가 적대적 학습 처리를 수행하는 것이 바람직하다.
더 나아가, 상기 제1 변환부는 상기 제1a 생성부에 의해 최종 학습 처리된 학습 모델을 상기 제1 영상 변환 모듈로 저장하는 것이 바람직하다.
더 나아가, 상기 제2 변환부는 외부로부터 대응 쌍을 이루는 다수의 항공영상과 다수의 기본 지도를 수집하여, 학습 데이터 셋을 생성하는 제2 수집부, 상기 제2 수집부에 의한 학습 데이터 셋의 학습 처리를 수행하여, 입력되는 항공영상을 가상의 기본 지도로 변환하여 출력하는 제2 생성부 및 상기 제2 수집부에 의한 학습 데이터 셋으로부터 추출한 특징점과 상기 제2 생성부에 의한 가상의 기본 지도로부터 추출한 특징점을 비교하여 판별하도록 학습 처리를 수행하는 제2 판별부를 포함하며, 상기 제2 생성부 및 제2 판별부는 인공 신경망으로 구현되는 GAN 모델을 이용하되, 기저장된 손실함수를 이용하여, 상기 제2 생성부와 제2 판별부는 적대적 학습 처리를 수행하는 것이 바람직하다.
더 나아가, 상기 제2 변환부는 상기 제2 생성부에 의해 최종 학습 처리된 학습 모델을 상기 제2 영상 변환 모듈로 저장하는 것이 바람직하다.
본 발명의 또 다른 일 실시예에 따른 컴퓨터로 구현되는 인공 신경망을 이용한 영상 변환 시스템에 의해 각 단계가 수행되는 인공 신경망을 이용한 영상 변환 방법에 있어서, 기본 지도(Base map) 도메인 형태로 변환하고자 하는 항공영상 및 위성영상 중 적어도 하나의 도메인 형태의 데이터를 입력받는 입력 단계(S100), 저장된 제1 영상 변환 모듈을 이용하여, 상기 입력 단계(S100)에 의한 위성영상을 항공영상 도메인 형태로 변환하는 제1 변환 단계(S200) 및 저장된 제2 영상 변환 모듈을 이용하여, 상기 제1 변환 단계(S200)에 의해 변환한 항공영상 또는, 상기 입력 단계(S100)에 의한 항공영상을 기본 지도 도메인 형태로 변환하는 제2 변환 단계(S300)를 포함하는 것이 바람직하다.
더 나아가, 상기 제1 변환 단계(S200)는 인공 신경망으로 구현되는 GAN(Generative Adversarial Network) 모델을 이용하되, 외부로부터 다수의 항공영상과 다수의 위성영상을 수집하여, 각각의 학습 데이터 셋을 생성하는 학습 데이터 생성 단계(S210), 상기 학습 데이터 생성 단계(S210)에 의한 항공영상 학습 데이터 셋과 위성영상 학습 데이터 셋의 학습 처리를 수행하여, 입력되는 위성영상을 가상의 항공영상으로 변환하여 출력하는 제1 생성 단계(S220), 상기 학습 데이터 생성 단계(S210)에 의한 항공영상 학습 데이터 셋으로부터 추출한 특징점과 상기 제1 생성 단계(S220)에 의한 가상의 항공영상으로부터 추출한 특징점을 비교하여 판별하는 제1 판별 단계(S230), 상기 학습 데이터 생성 단계(S210)에 의한 항공영상 학습 데이터 셋과 위성영상 학습 데이터 셋의 학습 처리를 수행하여, 상기 제1 생성 단계(S220)에 의한 가상의 항공영상을 입력받아 가상의 위성영상으로 변환하여 출력하는 제2 생성 단계(S240) 및 상기 학습 데이터 생성 단계(S210)에 의한 위성영상 학습 데이터 셋으로부터 추출한 특징점과 상기 제2 생성 단계(S240)에 의한 가상의 위성영상으로부터 추출한 특징점을 비교하여 판별하는 제2 판별 단계(S250)를 포함하며, 상기 제1 생성 단계(S220)로 입력되는 위성영상과 상기 제2 생성 단계(S240)에 의해 출력되는 가상의 위성영상이 같아지도록, 상기 제1 생성 단계(S220)와 제1 판별 단계(S230) 및 상기 제2 생성 단계(S240)와 제2 판별 단계(S250)는 기저장된 손실함수를 이용하여, 적대적 학습 처리를 수행하고, 상기 제1 생성 단계(S220)에 의해 최종 학습 처리된 학습 모델을 상기 제1 영상 변환 모듈로 저장하는 것이 바람직하다.
더 나아가, 상기 제2 변환 단계(S300)는 인공 신경망으로 구현되는 GAN(Generative Adversarial Network) 모델을 이용하되, 외부로부터 대응 쌍을 이루는 다수의 항공영상과 다수의 기본 지도를 수집하여, 학습 데이터 셋을 생성하는 학습 데이터 생성 단계(S310), 상기 학습 데이터 생성 단계(S310)에 의한 학습 데이터 셋의 학습 처리를 수행하여, 입력되는 항공영상을 가상의 기본 지도로 변환하여 출력하는 제3 생성 단계(S320) 및 상기 학습 데이터 생성 단계(S310)에 의한 학습 데이터 셋으로부터 추출한 특징점과 상기 제3 생성 단계(S320)에 의한 가상의 기본 지도로부터 추출한 특징점을 비교하여 판별하는 제3 판별 단계(S330)를 포함하며, 상기 제3 생성 단계(S320)와 제3 판별 단계(S330)는 기저장된 손실함수를 이용하여, 적대적 학습 처리를 수행하고, 상기 제3 생성 단계(S320)에 의해 최종 학습 처리된 학습 모델을 상기 제2 영상 변환 모듈로 저장하는 것이 바람직하다.
상기와 같은 구성에 의한 본 발명의 인공 신경망을 이용한 영상 변환 시스템 및 그 방법은 종래 기술(입력되는 위성영상을 그대로 기본 지도로 변환하는 것)보다 도메인 변환을 통해서 항공영상 도메인을 갖도록 변환한 후, 이를 기본 지도로 변환함으로써, 도로, 건물 등의 영역 정보량이 가시적으로 상세하게 변환할 수 있는 장점이 있다.
이를 통해서, 실시간 위성영상의 자동 지도 변환 서비스를 제공할 수 있으며, 수작업으로 인해 발생하는 시간, 비용을 줄일 수 있는 장점이 있다.
또한, 항공영상 뿐 아니라 위상영상을 반영하여 기본 지도 변환이 가능하여, 보다 정확한 기본 지도 출력물을 생성할 수 있는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 인공 신경망을 이용한 영상 변환 시스템을 나타낸 구성 예시도이다.
도 2는 본 발명의 일 실시예에 따른 인공 신경망을 이용한 영상 변환 시스템 및 그 방법에 의한 제1 영상 변환 모듈의 학습 과정을 나타낸 예시도이다.
도 3은 본 발명의 일 실시예에 따른 인공 신경망을 이용한 영상 변환 시스템 및 그 방법에 의한 제2 영상 변환 모듈의 인공 신경망 구조를 나타낸 예시도이다.
도 4는 종래의 pix2pix 인공 신경망을 이용하여 항공영상을 기본 지도로 변환하는 기술과 본 발명의 일 실시예에 따른 인공 신경망을 이용한 영상 변환 시스템 및 그 방법에 의한 위성영상을 기본 지도로 변환하는 기술의 성능 비교 예시도이다.
도 5는 본 발명의 일 실시예에 따른 인공 신경망을 이용한 영상 변환 방법을 나타낸 순서 예시도이다.
도 2는 본 발명의 일 실시예에 따른 인공 신경망을 이용한 영상 변환 시스템 및 그 방법에 의한 제1 영상 변환 모듈의 학습 과정을 나타낸 예시도이다.
도 3은 본 발명의 일 실시예에 따른 인공 신경망을 이용한 영상 변환 시스템 및 그 방법에 의한 제2 영상 변환 모듈의 인공 신경망 구조를 나타낸 예시도이다.
도 4는 종래의 pix2pix 인공 신경망을 이용하여 항공영상을 기본 지도로 변환하는 기술과 본 발명의 일 실시예에 따른 인공 신경망을 이용한 영상 변환 시스템 및 그 방법에 의한 위성영상을 기본 지도로 변환하는 기술의 성능 비교 예시도이다.
도 5는 본 발명의 일 실시예에 따른 인공 신경망을 이용한 영상 변환 방법을 나타낸 순서 예시도이다.
이하 첨부한 도면들을 참조하여 본 발명의 인공 신경망을 이용한 영상 변환 시스템 및 그 방법을 상세히 설명한다. 다음에 소개되는 도면들은 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 예로서 제공되는 것이다. 따라서, 본 발명은 이하 제시되는 도면들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 또한, 명세서 전반에 걸쳐서 동일한 참조번호들은 동일한 구성요소들을 나타낸다.
이때, 사용되는 기술 용어 및 과학 용어에 있어서 다른 정의가 없다면, 이 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 통상적으로 이해하고 있는 의미를 가지며, 하기의 설명 및 첨부 도면에서 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 설명은 생략한다.
더불어, 시스템은 필요한 기능을 수행하기 위하여 조직화되고 규칙적으로 상호 작용하는 장치, 기구 및 수단 등을 포함하는 구성 요소들의 집합을 의미한다.
본 발명의 일 실시예에 따른 인공 신경망을 이용한 영상 변환 시스템 및 그 방법은, 종래의 항공영상으로 특화되어 있는 기본 지도 변환 인공 신경망을 위성영상에도 적용 가능하면서도 성능을 보다 향상시킨 기본 지도로의 영상 변환 인공 신경망을 제공하는 기술에 관한 것이다.
먼저, 위성영상과 항공영상의 차이에 대해서 알아보자면, 항공영상은 수백 m에서 촬영되어 좁은 관측 폭을 갖는다. 통상적으로 도시지역의 해상도는 12cm, 일반지역의 해상도를 25cm이다. 위성영상은 수백 km 고도에서 촬영되어, 항공영상에 비해 보다 넓은 관측 폭을 갖는다. 또한, 각 위성에 따라, 다목적 실용위성 K2는 약 1m의 해상도를, K3은 약 70 cm의 해상도를, K3A는 약 50cm의 해상도를 갖는다.
이와 같이 항공영상이 보다 좁은 관측 폭과 높은 해상도를 갖고 있기 때문에, 주로 항공영상에 대응하는 기본 지도를 통하여 건물, 도로 등의 정보 제공 서비스가 제공되고 있다. 상술한 바와 같이, 종래에는 항공영상을 기준으로, 항공영상과 기본 지도의 대응 쌍을 이용하여 변환 인공 신경망을 구성하고 있다.
상세하게는, 종래의 변환 인공 신경망은 수많은 항공영상-기본 지도의 대응 쌍을 학습 처리하여, 이 후, 항공영상이 입력되면 유사한 도메인 패턴을 기초로 기본 지도를 출력할 수 있으며, 이를 위해, 적대적 생성 신경망(GAN, Generative Adversarial Network)의 pix2pix를 이용하고 있다.
이를 위해, GAN에 대해서 간단히 알아보자면, GAN이 처음 제안될 때는, 경찰과 위조 지폐범을 각각의 판별기와 생성기로 비유하고, 생성기인 위조 지폐범이 최대한 진짜와 비슷한 위조 지폐를 만들어 경찰을 속이기 위해 노력하고, 판별기인 경찰은 진짜 지폐와 위조 지폐를 정확하게 판별하여 위조 지폐범을 검거하는 것을 목표로 한다.
이렇게 위조 지폐범과 경찰이 경쟁적인 학습을 지속하다 보면, 어느 순간 위조 지폐범은 진짜에 가까운 위조 지폐를 만들게 되고, 경찰은 진짜 지폐와 위조 지페를 구분할 수 있는 확률이 50%에 수렴하게 되어, 진짜 지폐와 위조 지폐를 구분하기 어려운 상태가 된다. 따라서, 생성기와 판별기를 경쟁적으로 학습시켜, 진짜같은 가짜를 만들어 내는데, 이를 적대적 학습이라 한다.
이러한 기본 GAN에서 더욱더 발전된 CGAN(Conditional GAN)은 어떠한 조건의 원래 이미지를 생성하는 기술적 특징이 있다. 일 예를 들자면, 클래스 라벨이나 문장 특징으로 조건을 달아서 해당 조건의 특징을 갖는 이미지를 생성하는 것이다.
이러한 CGAN을 영상 대 영상 변환으로 확장시킨 것으로 pix2pix와 cycleGAN이 있다.
pix2pix는 말 그대로 하나의 픽셀을 다른 픽셀로 바꿔준다는 의미로서, 일 예를 들자면, 쌍을 이루는 진짜 이미지(컬러 이미지(x), 흑백 이미지(y))를 학습 처리하여, 생성기(G)에서 흑백 이미지(y)를 컬러 이미지로 변환(G(y))하면, 판별기(D)에서, 변환한 컬러 이미지(G(y))가 흑백 이미지(y)와 진정한 쌍인지, 이와 동시에 진짜 이미지인 컬러 이미지(x), 흑백 이미지(y)가 진정한 쌍인지 정확하게 식별하도록 학습이 진행된다. 이 때, 생성기(G)는 변환한 컬러 이미지(G(y))와 흑백 이미지(y)가 진정한 쌍이라고 판별기(D)에서 잘못 인식할 수 있도록 적대적 학습하게 된다. 이러한 과정에서 생성기(G)는 대응 쌍의 변환 방법을 학습하게 된다. 그렇기 때문에, pix2pix는 반드시 쌍을 이루는 학습 데이터가 요구되는 mage-to-image translation 학습 인공 신경망이기 때문에, 조건부 학습 인공 신경망이라 할 수 있다.
cycleGAN은 pix2pix와 비슷하지만 조건 설정이 상이하다. pix2pix는 반드시 대응 쌍의 학습 데이터가 요구되지만, 당연히 쌍을 구성하기 어려운 상황이 훨씬 많이 때문에, cycleGAN은 대응 쌍이 아니더라도 개별 이미지들의 특성을 학습하게 된다.
cycleGAN은 학습 과정과는 상관없이 결국은 쌍으로 구성된 이미지들을 생성하기 때문에, unpaired image-to-image translation 학습 인공 신경망에 해당한다.
cycleGAN은 두 개의 생성기(G, F), 두 개의 판별기(Dx, Dy)로 구성되게 되어, 생성기(G)는 x를 y로 변환하고 이를 판별기(Dy)에서 판별하고 y 마찬가지로 진행되게 된다. 이대로 학습을 할 경우, 쌍이 존재하지 않기 때문에, 스타일 뿐만 아니라 다른 부분도 변경될 가능성이 있기 때문에, cycleGAN은 G(F(y)) = y, F(G(x))=x가 되도록 제약 조건을 설정하게 된다. 즉, 원래로 돌아간다는 제약을 걸어서 변환된 이미지의 복구가 가능하도록 하여, 크게 변화하지 않도록 하게 된다.
일 예를 들자면, 생성기(G)는 사진을 입력받아 가짜 고흐의 그림을 생성하고, 판별기(Dy)는 생성한 가짜 고흐의 그림과 진짜 고흐의 그림을 판별하며, 생성기(F)는 가짜 고흐의 그림을 입력받아 가짜 사진을 생성하고, 판별기(Dx)는 생성한 가짜 사진과 진짜 사진을 판별하게 된다. 이 때, 진짜 사진과 가짜 사진이 같아지도록 학습하게 된다. 최종적으로 학습 수렴 결과, 생성기(G)는 원본 사진과 비슷하면서 고흐의 그림과 구분하기 힘든 고흐풍의 그림을 그리도록 학습하게 된다.
이러한, cycleGAN의 손실함수는 하기의 수학식 1과 같다. 생성기는 목적함수가 최소값을 출력하도록 학습을 진행하고, 판별기는 목적함수가 최대값이 되도록 학습을 진행하게 된다.
이 때, 는 생성기(G)가 그럴듯한 Y 도메인의 이미지를 생성하도록 학습을 담당하는 함수로서, 로 정의되고,
는 생성기(F)가 그럴듯한 X 도메인의 이미지를 생성하도록 학습을 담당하는 함수로서, 와 대응되게 정의되며,
는 cycle-consistency loss로서, 생성기(F)가 G(x)를 입력으로 'reconstruct한 x'가 얼마나 'real data x'와 비슷한지에 대한 L1-norm, 생성기(G)가 F(y)를 입력으로 'reconstruct한 y'가 얼마나 'real data y'와 비슷한지에 대한 L1-norm을 더한 값으로, 로 정의된다.
이러한 종래 기술을 바탕으로 본 발명의 일 실시예에 따른 인공 신경망을 이용한 영상 변환 시스템을 자세히 설명하도록 한다.
도 1은 본 발명의 일 실시예에 따른 인공 신경망을 이용한 영상 변환 시스템을 나타낸 구성 예시도로서, 도 1을 참조로 하여 본 발명의 일 실시예에 따른 인공 신경망을 이용한 영상 변환 시스템을 상세히 설명한다.
본 발명의 일 실시예에 따른 인공 신경망을 이용한 영상 변환 시스템은 도 1에 도시된 바와 같이, 입력부(100), 제1 변환부(200) 및 제2 변환부(300)를 포함하여 구성되는 것이 바람직하다. 또한, 각 구성들은 컴퓨터를 포함하는 적어도 하나 이상의 연산 처리 수단에 각각 또는 통합 포함되어 동작을 수행하는 것이 바람직하다.
상기 입력부(100)는 기본 지도 도메인 형태로 변환하고자 하는 항공영상 및 위성영상 중 적어도 하나의 도메인 형태의 데이터를 입력받게 된다.
만약, 항공영상 도메인 형태의 데이터만이 입력될 경우, 상술한 바와 같이, 종래의 pix2pix 학습 인공 신경망을 통해서 학습 처리된 항공영상에 특화된 영상 변환 모델을 이용하여, 입력된 항공영상을 기본 지도 도메인 형태로 변환할 수 있다.
물론, 영상 변환 모델의 학습 처리를 위해, 대응 쌍을 이루는 다수의 기본 지도-항공영상 데이터가 요구된다.
이에 반해, 위성영상 도메인 형태의 데이터만 입력되거나, 위성영상 도메인 형태의 데이터와 항공영상 도메인 형태의 데이터가 모두 다 입력될 경우, 항공영상에 특화된 영상 변환 모델을 이용할 경우, 제대로 변환을 수행할 수 없다.
이를 해소하기 위하여, 상기 제1 변환부(200)는 인공 신경망으로 구현되는 GAN(Generative Adversarial Network) 모델을 이용하되, 저장된 제1 영상 변환 모듈을 이용하여, 상기 입력부(100)에 의한 위성영상 도메인 형태의 데이터를 입력받아 항공영상 도메인 형태로 변환하게 된다.
이를 위해, 상기 제1 변환부(200)는 도 1에 도시된 바와 같이, 제1 수집부(210), 제1a 생성부(220), 제1a 판별부(230), 제1b 생성부(240) 및 제1b 판별부(250)를 포함하여 구성되게 된다.
상기 제1 변환부(200)의 기본 구성은 상술한 cycleGAN와 동일하나, 위성영상과 항공영상 간의 특성 차이를 고려하여, 보다 정확하게 위성영상을 항공영상 도메인 형태로 변환하기 위하여, 종래의 cycleGAN에 추가 손실함수를 포함하였으며, 이에 대해서 상세히 후술하도록 한다.
상기 제1 수집부(210)는 외부로부터 다수의 항공영상과 다수의 위성영상을 수집하여, 각각의 학습 데이터 셋을 생성하게 된다.
상술한 바와 같이, 상기 제1 변환부(200)는 cycleGAN 알고리즘을 이용하는 만큼, 항공영상-위성영상의 대응 쌍 없이, 각각의 학습 데이터 셋을 생성하게 된다.
상기 제1a 생성부(220)는 인공 신경망으로 구현되며, 상기 제1 수집부(210)에 의한 항공영상 학습 데이터 셋과 위성영상 학습 데이터 셋의 학습 처리를 수행하며, 입력되는 위성영상을 가상의 항공영상으로 변환하여 출력하게 된다.
상기 제1a 판별부(230)는 인공 신경망으로 구현되며, 상기 제1 수집부(210)에 의한 항공영상 데이터 셋으로부터 추출한 특징점과 상기 제1a 생성부(220)에 의한 가상의 항공영상으로부터 추출한 특징점을 비교하여 판별하도록 학습 처리를 수행하게 된다.
상기 제1b 생성부(240)는 인공 신경망으로 구현되며, 상기 제1 수집부(210)에 의한 항공영상 학습 데이터 셋과 위성영상 학습 데이터 셋의 학습 처리를 수행하며, 상기 제1a 생성부(220)에 의한 가상의 항공영상을 입력받아 가상의 위성영상으로 변환하여 출력하게 된다.
상기 제1b 판별부(250)는 인공 신경망으로 구현되며, 상기 제1 수집부(210)에 의한 위성영상 데이터 셋으로부터 추출한 특징점과 상기 제1b 생성부(240)에 의한 가상의 위성영상으로부터 추출한 특징점을 비교하여 판별하도록 학습 처리를 수행하게 된다.
즉, 상기 제1 변환부(200)는 상술한 바와 같이, 두 개의 translator, 즉, 두 개의 생성기(G, F)를 함께 사용하며, 제1a 생성부(210)를 G라 하고, 제1b 생성부(230)를 F라 할 경우, G는 input x(X 도메인)를 입력받아, Y 도메인의 G(x)로 변환하고, F는 G(x)를 입력받아 다시 X 도메인의 F(G(x))로 변환하는 학습을 진행하게 된다.
물론, 순환 방향에 따라, F는 input y(Y 도메인)를 입력받아, X 도메인의 F(y)로 변환하고, G는 F(y)를 입력받아 다시 Y 도메인의 G(F(y))로 변환하는 학습을 진행하게 된다.
F의 목표는 생성 변환된 Y 도메인의 G(X)를 다시 G의 input 데이터인 x로 복구하는 방향으로 학습하는 것이며, G의 목표는 생성 변환된 X 도메인의 F(y)를 다시 F의 input 데이터인 y로 복구하는 방향으로 학습하는 것이다.
이에 따라, 상기 제1 변환부(200)는 상기 제1a 생성부(220)로 입력되는 위성영상과 상기 제1b 판별부(250)에 의한 가상의 위성영상이 같아지도록, G(F(y)) = y, F(G(x))=x 제약 조건을 설정하게 된다.
또한, 상기 제1a 생성부(220)와 제1a 판별부(230)는 상기 제1a 생성부(220)에서는 목적함수가 최소값을 출력하도록, 제1a 판별부(230)에서는 목적함수가 최대값을 출력하도록 적대적 학습을 수행하는 것이 바람직하다.
더불어, 상기 제1b 생성부(240)와 제1b 판별부(250)도 마찬가지로 상기 제1b 생성부(240)에서는 목적함수가 최소값을 출력하도록, 제1b 판별부(250)에서는 목적함수가 최대값을 출력하도록 적대적 학습을 수행하게 된다.
이를 통해서, 최종적으로 상기 제1a 생성부(220)에 의해 학습 처리된 학습 모델을 상기 제1 영상 변환 모델로 저장하게 된다.
상기 제1 영상 변환 모델은 상기 입력부(100)에 의한 위성영상을 입력받아, 항공영상 도메인 형태를 갖되, 이미지의 내용은 위성영상 데이터에 해당되는 데이터를 출력하게 된다.
이 때, 적용된 손실함수는 종래의 cycleGAN 손실함수를 그대로 활용하는 것이 아니라, 위성영상과 항공영상의 특성 차이를 고려하여, 특정 영역(일 예를 들자면, 도로, 건물 등)을 임의로 변형하지 않도록 하는 함수를 추가하여, 목적함수(손실함수)를 새롭게 설계하여 학습을 진행하였으며, 이는 하기의 수학식 2와 같다.
이 때, 추가된 함수인 는 cycleGAN이 특정 영역을 생성할 때, 형태 변형이 일어나지 않도록 미리 픽셀의 위치정보(일 예를 들자면, 도로, 건물 등의 위치정보)를 이용하여 왜곡을 최소화할 수 있도록 하는 손실함수이며,
로 정의되며, 는 수정 불가 영역을 바이너리 형태의 영상으로 만드는 함수 정의이다.
여기서, 이용되는 위치정보로는 반드시 도로로 한정하는 것은 아니며, 형태의 왜곡을 최소화하고자 하는 다양한 객체/대상물(건물, 운동장 등)로 이용할 수 있으나, 다만 원활한 설명을 위해, 하나의 예인 도로로 한정하여 후술하도록 한다.
일 예를 들자면, 도로 부분만을 잘라낸 입력 영상을 추가로 학습에 사용할 때, 생성기(F)가 그럴 듯한 X 도메인의 이미지를 생성한 후 바이너리 함수(Z)를 통하여 도로 부분 해당 픽셀 정보 영역을 추출한 후 손실을 계산한다.
또한, 입력 영상을 원본 그대로 사용하여 도로 부분만을 영상으로 추출한 후 손실을 계산한다.
이러한 점을 고려하여, 상기 제1 변환부(200)는 도 2에 도시된 바와 같이, 상기 제1a 생성부(220)에서 위성영상 도메인의 데이터를 입력받아, 항공영상 도메인의 데이터로 생성 출력하고, 상기 제1b 생성부(240)에서 상기 제1a 생성부(220)에 의한 항공영상 도메인의 데이터를 입력받아, 다시 위성영상 도메인의 데이터로 생성 출력하게 되고, 이 때, 상기 제1a 생성부(220)로 입력된 위성영상 도메인의 데이터와 상기 제1b 생성부(240)에 의한 생성 출력한 위성영상 도메인의 데이터가 동일하도록 학습이 이루어지게 된다. 또한, 상기 제1a 판별부(230)와 제1b 판별부(250)는 각각 상기 제1a 생성부(220)와 제1b 생성부(240)와 대응되어 적대적 학습을 수행하되, 본 발명의 일 실시예에 따른 인공 신경망을 이용한 영상 변환 시스템에서의 목적에 맞게 상기 제1a 생성부(220)의 최종 학습 처리 결과 모델을 상기 제1 영상 변환 모델로 저장하게 된다.
상기 제2 변환부(300)는 인공 신경망으로 구현되는 GAN 모델을 이용하되, 저장된 제2 영상 변환 모듈을 이용하여, 상기 제1 변환부(200)에 의해 변환한 항공영상(항공영상 도메인 형태를 갖는 위성영상 데이터) 또는, 상기 입력부(100)에 의한 항공영상을 입력받아, 기본 지도 도메인 형태로 변환하게 된다.
이를 위해, 상기 제2 변환부(300)는 도 1에 도시된 바와 같이, 제2 수집부(310), 제2 생성부(320) 및 제2 판별부(330)를 포함하여 구성되게 된다.
상기 제1 변환부(200의 기본 구성은 상술한 pix2pix와 동일하나, 종래의 항공영상 데이터를 기본 지도 데이터로 변환하는 인공 신경망의 성능을 보다 향상시키기 위하여, 도 3에 도시된 바와 같이, 특징을 강조하고 공간 상세 정보를 보존하기 위한 채널 특징 집중 모듈, 공간 특징 집중 모듈을 추가적으로 구성하였다. 이를 통해서 종래의 pix2pix 알고리즘 구조에 비하여 월등한 성능으로 항공영상을 기본 지도로 변환할 수 있다.
상기 제2 수집부(310)는 외부로부터 대응 쌍을 이루는 다수의 항공영상과 다수의 기본 지도를 수집하여 학습 데이터 셋을 생성하게 된다.
상술한 바와 같이, 상기 제2 변환부(300)는 pix2pix 알고리즘을 이용하는 만큼, 항공영상-기본지도의 대응 쌍을 이루는 학습 데이터 셋이 요구된다.
상기 제2 생성부(320)는 인공 신경망으로 구현되며, 상기 제2 수집부(310)에 의한 학습 데이터 셋의 학습 처리를 수행하여, 입력되는 항공영상을 가상의 기본 지도로 변환하여 출력하게 된다.
상기 제2 판별부(330)는 인공 신경망으로 구현되며, 상기 제2 수집부(310)에 의한 학습 데이터 셋으로부터 추출한 특징점과 상기 제2 생성부(320)에 의한 가상의 기본 지도로부터 추출한 특징점을 비교하여 판별하도록 학습 처리를 수행하게 된다.
미리 저장된 손실함수(목적함수)를 이용하여 상기 제2 생성부(320)에서는 목적함수가 최소값을 출력하도록, 제2 판별부(330)에서는 목적함수가 최대값을 출력하도록 적대적 학습을 수행하게 된다. 이 때, 미리 저장된 손실함수는 종래의 pix2pix 알고리즘과 동일하기 때문에, 자세한 설명은 생략한다.
이를 통해서, 최종적으로 상기 제2 생성부(320)에 의해 학습 처리된 학습 모델을 상기 제2 영상 변환 모델로 저장하게 된다.
상기 제2 영상 변환 모델은 상기 입력부(100)에 의한 항공영상 데이터 또는, 상기 제1 변환부(200에 의한 항공영상 도메인을 갖는 위성영상 데이터를 입력받아, 기본 지도 도메인을 갖는 데이터로 변환하여 출력하게 된다.
도 4는 본 발명의 일 실시예에 따른 인공 신경망을 이용한 영상 변환 시스템의 성능 검증을 위한 다양한 실험 결과 예시이다.
도 4에 도시된 바와 같이, 입력되는 위성영상을 그대로 기본 지도로 변환하는 것보다 도메인 변환을 통해서 항공영상 도메인을 갖도록 변환한 후, 이를 기본 지도로 변환할 경우, 도로, 건물 등의 영역 정보량이 가시적으로 상세함을 알 수 있다.
더불어, 수치적인 성능 검증을 위해, GAN으로 생성한 기본 지도의 유사도 평가 방법을 적용하였으며, 평가지표로 FID(Frechet Inception Distance) 점수는 낮을수록, LPIPS(Learned Perceptual Image Patch Similarity) 점수는 높을수록 높은 성능을 나타낸다.
검증 결과, 종래 방법(pix2pix 알고리즘을 적용하여, 위성영상을 기본 지도로 변환할 경우)은 FID : 243.1269, LPIPS : 0.2475 이였으나, 본 발명의 일 실시예에 따른 인공 신경망을 이용한 영상 변환 시스템(위성영상을 항공영상으로 도메인 변환한 후, 기본 지도로 변환할 경우)의 경우, FID : 204.2901, LPIPS : 0.3341로, FID 기준 약 19%, LPIPS 기준 약 35%의 성능이 향상됨을 알 수 있었다.
도 5는 본 발명의 일 실시예에 따른 인공 신경망을 이용한 영상 변환 방법을 나타낸 순서 예시도로서, 도 5를 참조로 하여 본 발명의 일 실시예에 따른 인공 신경망을 이용한 영상 변환 방법을 상세히 설명한다.
본 발명의 일 실시예에 따른 인공 신경망을 이용한 영상 변환 방법은 도 5에 도시된 바와 같이, 입력 단계(S100), 제1 변환 단계(S200) 및 제2 변환 단계(S300)를 포함하게 된다. 본 발명의 일 실시예에 따른 인공 신경망을 이용한 영상 변환 방법은 컴퓨터로 구현되는 인공 신경망을 이용한 영상 변환 시스템에 의해 각 단계가 수행되게 된다.
각 단계에 대해서 자세히 알아보자면,
상기 입력 단계(S100)는 상기 입력부(100)에서, 기본 지도 도메인 형태로 변환하고자 하는 항공영상 및 위성영상 중 적어도 하나의 도메인 형태의 데이터를 입력받게 된다.
만약, 항공영상 도메인 형태의 데이터만이 입력될 경우, 상술한 바와 같이, 종래의 pix2pix 학습 인공 신경망을 통해서 학습 처리된 항공영상에 특화된 영상 변환 모델을 이용하여, 입력된 항공영상을 기본 지도 도메인 형태로 변환할 수 있다.
물론, 영상 변환 모델의 학습 처리를 위해, 대응 쌍을 이루는 다수의 기본 지도-항공영상 데이터가 요구된다.
이에 반해, 위성영상 도메인 형태의 데이터만 입력되거나, 위성영상 도메인 형태의 데이터와 항공영상 도메인 형태의 데이터가 모두 다 입력될 경우, 항공영상에 특화된 영상 변환 모델을 이용할 경우, 제대로 변환을 수행할 수 없다.
이를 해소하기 위한 상기 제1 변환 단계(S200)는 상기 제1 변환부(200)에서, 인공 신경망으로 구현되는 GAN(Generative Adversarial Network) 모델을 이용하되, 저장된 제1 영상 변환 모듈을 이용하여, 상기 입력부(100)에 의한 위성영상 도메인 형태의 데이터를 입력받아 항공영상 도메인 형태로 변환하게 된다.
상기 제1 변환부(200)의 기본 구성은 상술한 cycleGAN와 동일하나, 위성영상과 항공영상 간의 특성 차이를 고려하여, 보다 정확하게 위성영상을 항공영상 도메인 형태로 변환하기 위하여, 종래의 cycleGAN에 추가 손실함수()를 포함하였으며, 이에 대해서 상세히 후술하도록 한다.
이 때, 추가된 함수인 는 cycleGAN이 특정 영역을 생성할 때, 형태 변형이 일어나지 않도록 미리 픽셀의 위치정보(일 예를 들자면, 도로, 건물 등의 위치정보)를 이용하여 왜곡을 최소화할 수 있도록 하는 손실함수이다.
여기서, 이용되는 위치정보로는 반드시 도로로 한정하는 것은 아니며, 형태의 왜곡을 최소화하고자 하는 다양한 대상물(건물, 운동장 등)로 이용할 수 있다.
상기 제1 변환 단계(S200)는 도 5에 도시된 바와 같이, 학습 데이터 생성 단계(S210), 제1 생성 단계(S220), 제1 판별 단계(S230), 제2 생성 단계(S240) 및 제2 판별 단계(S250)를 수행하여, 최종 학습 처리된 상기 제1 영상 변환 모듈을 저장하게 된다.
상세하게는, 상기 학습 데이터 생성 단계(S210)는 외부로부터 다수의 항공영상과 다수의 위성영상을 수집하여, 각각의 학습 데이터 셋을 생성하며, cycleGAN 알고리즘을 이용하는 만큼, 항공영상-위성영상의 대응 쌍 없이, 각각의 학습 데이터 셋을 생성하게 된다.
상기 제1 생성 단계(S220)는 상기 학습 데이터 생성 단계(S210)에 의한 항공영상 학습 데이터 셋과 위성영상 학습 데이터 셋의 학습 처리를 수행하며, 입력되는 위성영상을 가상의 항공영상으로 변환하여 출력하게 된다.
상기 제1 판별 단계(S230)는 상기 학습 데이터 생성 단계(S210)에 의한 항공영상 학습 데이터 셋으로부터 추출한 특징점과 상기 제1 생성 단계(S200)에 의한 가상의 항공영상으로부터 추출한 특징점을 비교하여 판별하도록 학습 처리를 수행하게 된다.
상기 제2 생성 단계(S240)는 상기 학습 데이터 생성 단계(S210)에 의한 항공영상 학습 데이터 셋과 위성영상 학습 데이터 셋의 학습 처리를 수행하며, 상기 제1 생성 단계(S220)에 의한 가상의 항공영상을 입력받아 가상의 위성영상으로 변환하여 출력하게 된다.
상기 제2 판별 단계(S250)는 상기 학습 데이터 생성 단계(S210)에 의한 위성영상 학습 데이터 셋으로부터 추출한 특징점과 상기 제2 생성 단계(S240)에 의한 가상의 위성영상으로부터 추출한 특징점을 비교하여 판별하게 된다.
즉, 상기 제1 변환 단계(S200)는 두 개의 translator, 즉, 두 개의 생성기(G, F)를 함께 사용하며, 상기 제1 생성 단계(S220)는 G에 의한 동작이며, 상기 제2 생성 단계(S240)는 F에 의한 동작으로 한정할 경우, G는 input x(X 도메인)를 입력받아, Y 도메인의 G(x)로 변환하고, F는 G(x)를 입력받아 다시 X 도메인의 F(G(x))로 변환하는 학습을 진행하게 된다.
물론, 순환 방향에 따라, F는 input y(Y 도메인)를 입력받아, X 도메인의 F(y)로 변환하고, G는 F(y)를 입력받아 다시 Y 도메인의 G(F(y))로 변환하는 학습을 진행하게 된다.
F의 목표는 생성 변환된 Y 도메인의 G(X)를 다시 G의 input 데이터인 x로 복구하는 방향으로 학습하는 것이며, G의 목표는 생성 변환된 X 도메인의 F(y)를 다시 F의 input 데이터인 y로 복구하는 방향으로 학습하는 것이다.
이에 따라, 상기 제1 변환 단계(S200)는 상기 제1 생성 단계(S220)로 입력되는 위성영상과 상기 제2 생성 단계(S240)에 의한 가상의 위성영상이 같아지도록, G(F(y)) = y, F(G(x))=x 제약 조건을 설정하게 된다.
더불어, 상기 제1 변환 단계(S200)는 상기의 수학식 2의 목적함수를 이용하여, 상기 제1 생성 단계(S220)에서는 목적함수가 최소값을 출력하도록, 상기 제1 판별 단계(S230)에서는 목적함수가 최대값을 출력하도록 적대적 학습을 수행하며, 상기 제2 생성 단계(S240)에서는 목적함수가 최소값을 출력하도록, 상기 제2 판별 단계(S250)에서는 목적함수가 최대값을 출력하도록 적대적 학습을 수행함으로써, 최종적으로 상기 제1 생성 단계(S220)에 의해 학습 처리된 학습 모델을 상기 제1 영상 변환 모델로 저장하게 된다.
이를 통해서, 상기 제1 영상 변환 모델은 위성영상을 입력받아, 항공영상 도메인 형태를 갖되, 이미지의 내용은 위성영상 데이터에 해당되는 데이터를 출력하게 된다.
상기 제2 변환 단계(S300)는 상기 제2 변환부(300)에서, 인공 신경망으로 구현되는 GAN 모델을 이용하되, 저장된 제2 영상 변환 모듈을 이용하여, 상기 입력 단계(S100)에 의한 항공영상 또는, 상기 제1 변환 단계(S200)에 의해 변환한 항공영상을 입력받아, 기본 지도 도메인 형태로 변환하게 된다.
이를 위해, 상기 제2 변환 단계(S300)는 도 5에 도시된 바와 같이, 학습 데이터 생성 단계(S310), 제3 생성 단계(S320) 및 제3 판별 단계(S330)를 포함하게 된다.
상기 제1 변환부(200의 기본 구성은 상술한 pix2pix와 동일하나, 종래의 항공영상 데이터를 기본 지도 데이터로 변환하는 인공 신경망의 성능을 보다 향상시키기 위하여, 도 3에 도시된 바와 같이, 특징을 강조하고 공간 상세 정보를 보존하기 위한 채널 특징 집중 모듈, 공간 특징 집중 모듈을 추가적으로 구성하였다. 이를 통해서 종래의 pix2pix 알고리즘 구조에 비하여 월등한 성능으로 항공영상을 기본 지도로 변환할 수 있다.
상기 학습 데이터 생성 단계(S310)는 외부로부터 대응 쌍을 이루는 다수의 항공영상과 다수의 기본 지도를 수집하여 학습 데이터 셋을 생성하되, pix2pix 알고리즘을 이용하는 만큼, 항공영상-기본지도의 대응 쌍을 이루는 학습 데이터 셋이 요구된다.
상기 제3 생성 단계(S320)는 상기 학습 데이터 생성 단계(S310)에 의한 학습 데이터 셋의 학습 처리를 수행하여, 입력되는 항공영상을 가상의 기본 지도로 변환하여 출력하게 된다.
상기 제3 판별 단계(S330)는 상기 학습 데이터 생성 단계(S310)에 의한 학습 데이터 셋으로부터 추출한 특징점과 상기 제3 생성 단계(S320)에 의한 가상의 기본 지도로부터 추출한 특징점을 비교하여 판별하도록 학습 처리를 수행하게 된다.
미리 저장된 손실함수(목적함수)를 이용하여 상기 제3 생성 단계(S320))에서는 목적함수가 최소값을 출력하도록, 상기 제3 판별 단계(S330)에서는 목적함수가 최대값을 출력하도록 적대적 학습을 수행하게 된다. 이 때, 미리 저장된 손실함수는 종래의 pix2pix 알고리즘과 동일하기 때문에, 자세한 설명은 생략한다.
이를 통해서, 최종적으로 상기 제3 생성 단계(S320)에 의해 학습 처리된 학습 모델을 상기 제2 영상 변환 모델로 저장하게 된다.
상기 제2 영상 변환 모델은 상기 입력 단계(S100)에 의한 항공영상 데이터 또는, 상기 제1 변환 단계(S200)에 의한 항공영상 도메인을 갖는 위성영상 데이터를 입력받아, 기본 지도 도메인을 갖는 데이터로 변환하여 출력하게 된다.
이상과 같이 본 발명에서는 구체적인 구성 소자 등과 같은 특정 사항들과 한정된 실시예 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것 일 뿐, 본 발명은 상기의 일 실시예에 한정되는 것이 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허 청구 범위뿐 아니라 이 특허 청구 범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
100 : 입력부
200 : 제1 변환부
210 : 제1 수집부 220 : 제1a 생성부
230 : 제1a 판별부 240 : 제1b 생성부
250 : 제1b 판별부
300 : 제2 변환부
310 : 제2 수집부 320 : 제2 생성부
330 : 제2 편발부
200 : 제1 변환부
210 : 제1 수집부 220 : 제1a 생성부
230 : 제1a 판별부 240 : 제1b 생성부
250 : 제1b 판별부
300 : 제2 변환부
310 : 제2 수집부 320 : 제2 생성부
330 : 제2 편발부
Claims (8)
- 기본 지도(Base map) 도메인 형태로 변환하고자 하는 위성영상과 항공영상 도메인 형태의 데이터를 모두 입력받는 입력부;
저장된 제1 영상 변환 모듈을 이용하여, 상기 입력부에 의해 입력된 위성영상을 항공영상 도메인 형태로 변환하는 제1 변환부; 및
저장된 제2 영상 변환 모듈을 이용하여, 상기 입력부에 의해 입력된 항공영상 또는, 상기 제1 변환부에 의해 변환한 항공영상을 기본 지도 도메인 형태로 변환하는 제2 변환부;
를 포함하며,
상기 제1 변환부는
외부로부터 다수의 항공영상과 다수의 위성영상을 수집하여, 각각의 학습 데이터 셋을 생성하는 제1 수집부;
상기 제1 수집부에 의한 항공영상 학습 데이터 셋과 위성영상 학습 데이터 셋의 학습 처리를 수행하여, 입력되는 위성영상을 가상의 항공영상으로 변환하여 출력하는 제1a 생성부;
상기 제1 수집부에 의한 항공영상 데이터 셋으로부터 추출한 특징점과 상기 제1a 생성부에 의한 가상의 항공영상으로부터 추출한 특징점을 비교하여 판별하도록 학습 처리를 수행하는 제1a 판별부;
상기 제1 수집부에 의한 항공영상 학습 데이터 셋과 위성영상 학습 데이터 셋의 학습 처리를 수행하여, 상기 제1a 생성부에 의한 가상의 항공영상을 입력받아 가상의 위성영상으로 변환하여 출력하는 제1b 생성부; 및
상기 제1 수집부에 의한 위성영상 데이터 셋으로부터 추출한 특징점과 상기 제1b 생성부에 의한 가상의 위성영상으로부터 추출한 특징점을 비교하여 판별하도록 학습 처리를 수행하는 제1b 판별부;
를 더 포함하며,
상기 제1a 생성부, 제1a 판별부, 제1b 생성부 및 제1b 판별부는
인공 신경망으로 구현되는 GAN(Generative Adversarial Network) 모델을 이용하되,
상기 제1a 생성부로 입력되는 위성영상과 상기 제1b 생성부에 의한 가상의 위성영상이 같아지도록, 기저장된 손실함수를 이용하여, 상기 제1a 생성부와 상기 제1a 판별부가 적대적 학습 처리를 수행함과 동시에 상기 제1b 생성부와 제1b 판별부가 적대적 학습 처리를 수행하되,
상기 손실함수는 상기 제1a 생성부에 의해 학습 처리 시, 기설정된 특정 영역에 대한 형태 변형이 일어나지 않도록 왜곡을 최소화하는 함수를 포함하는, 인공 신경망을 이용한 영상 변환 시스템.
- 삭제
- 제 1항에 있어서,
상기 제1 변환부는
상기 제1a 생성부에 의해 최종 학습 처리된 학습 모델을 상기 제1 영상 변환 모듈로 저장하는, 인공 신경망을 이용한 영상 변환 시스템.
- 제 1항에 있어서,
상기 제2 변환부는
외부로부터 대응 쌍을 이루는 다수의 항공영상과 다수의 기본 지도를 수집하여, 학습 데이터 셋을 생성하는 제2 수집부;
상기 제2 수집부에 의한 학습 데이터 셋의 학습 처리를 수행하여, 입력되는 항공영상을 가상의 기본 지도로 변환하여 출력하는 제2 생성부; 및
상기 제2 수집부에 의한 학습 데이터 셋으로부터 추출한 특징점과 상기 제2 생성부에 의한 가상의 기본 지도로부터 추출한 특징점을 비교하여 판별하도록 학습 처리를 수행하는 제2 판별부;
를 포함하며,
상기 제2 생성부 및 제2 판별부는
인공 신경망으로 구현되는 GAN 모델을 이용하되,
기저장된 손실함수를 이용하여, 상기 제2 생성부와 제2 판별부는 적대적 학습 처리를 수행하는, 인공 신경망을 이용한 영상 변환 시스템.
- 제 4항에 있어서,
상기 제2 변환부는
상기 제2 생성부에 의해 최종 학습 처리된 학습 모델을 상기 제2 영상 변환 모듈로 저장하는, 인공 신경망을 이용한 영상 변환 시스템.
- 컴퓨터로 구현되는 인공 신경망을 이용한 영상 변환 시스템에 의해 각 단계가 수행되는 인공 신경망을 이용한 영상 변환 방법에 있어서,
기본 지도(Base map) 도메인 형태로 변환하고자 하는 위성영상과 항공영상 도메인 형태의 데이터를 모두 입력받는 입력 단계(S100);
저장된 제1 영상 변환 모듈을 이용하여, 상기 입력 단계(S100)에 의해, 입력된 위성영상을 항공영상 도메인 형태로 변환하는 제1 변환 단계(S200); 및
저장된 제2 영상 변환 모듈을 이용하여, 상기 입력 단계(S100)에 의해, 입력된 항공영상을 또는, 상기 제1 변환 단계(S200)에 의해 변환한 항공영상을 기본 지도 도메인 형태로 변환하는 제2 변환 단계(S300);
를 포함하며,
상기 제1 변환 단계(S200)는
인공 신경망으로 구현되는 GAN(Generative Adversarial Network) 모델을 이용하되,
외부로부터 다수의 항공영상과 다수의 위성영상을 수집하여, 각각의 학습 데이터 셋을 생성하는 학습 데이터 생성 단계(S210);
상기 학습 데이터 생성 단계(S210)에 의한 항공영상 학습 데이터 셋과 위성영상 학습 데이터 셋의 학습 처리를 수행하여, 입력되는 위성영상을 가상의 항공영상으로 변환하여 출력하는 제1 생성 단계(S220);
상기 학습 데이터 생성 단계(S210)에 의한 항공영상 학습 데이터 셋으로부터 추출한 특징점과 상기 제1 생성 단계(S220)에 의한 가상의 항공영상으로부터 추출한 특징점을 비교하여 판별하는 제1 판별 단계(S230);
상기 학습 데이터 생성 단계(S210)에 의한 항공영상 학습 데이터 셋과 위성영상 학습 데이터 셋의 학습 처리를 수행하여, 상기 제1 생성 단계(S220)에 의한 가상의 항공영상을 입력받아 가상의 위성영상으로 변환하여 출력하는 제2 생성 단계(S240); 및
상기 학습 데이터 생성 단계(S210)에 의한 위성영상 학습 데이터 셋으로부터 추출한 특징점과 상기 제2 생성 단계(S240)에 의한 가상의 위성영상으로부터 추출한 특징점을 비교하여 판별하는 제2 판별 단계(S250);
를 포함하며,
상기 제1 생성 단계(S220)로 입력되는 위성영상과 상기 제2 생성 단계(S240)에 의해 출력되는 가상의 위성영상이 같아지도록, 상기 제1 생성 단계(S220)와 제1 판별 단계(S230) 및 상기 제2 생성 단계(S240)와 제2 판별 단계(S250)는 기저장된 손실함수를 이용하여, 적대적 학습 처리를 수행하되,
상기 손실함수는 상기 제1 변환 단계(S200)에 의해 학습 처리 시, 기설정된 특정 영역에 대한 형태 변형이 일어나지 않도록 왜곡을 최소화하는 함수를 포함하고,
상기 제1 생성 단계(S220)에 의해 최종 학습 처리된 학습 모델을 상기 제1 영상 변환 모듈로 저장하는, 인공 신경망을 이용한 영상 변환 방법.
- 삭제
- 제 6항에 있어서,
상기 제2 변환 단계(S300)는
인공 신경망으로 구현되는 GAN(Generative Adversarial Network) 모델을 이용하되,
외부로부터 대응 쌍을 이루는 다수의 항공영상과 다수의 기본 지도를 수집하여, 학습 데이터 셋을 생성하는 학습 데이터 생성 단계(S310);
상기 학습 데이터 생성 단계(S310)에 의한 학습 데이터 셋의 학습 처리를 수행하여, 입력되는 항공영상을 가상의 기본 지도로 변환하여 출력하는 제3 생성 단계(S320); 및
상기 학습 데이터 생성 단계(S310)에 의한 학습 데이터 셋으로부터 추출한 특징점과 상기 제3 생성 단계(S320)에 의한 가상의 기본 지도로부터 추출한 특징점을 비교하여 판별하는 제3 판별 단계(S330);
를 포함하며,
상기 제3 생성 단계(S320)와 제3 판별 단계(S330)는 기저장된 손실함수를 이용하여, 적대적 학습 처리를 수행하고,
상기 제3 생성 단계(S320)에 의해 최종 학습 처리된 학습 모델을 상기 제2 영상 변환 모듈로 저장하는, 인공 신경망을 이용한 영상 변환 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220104927A KR102648354B1 (ko) | 2022-08-22 | 2022-08-22 | 인공 신경망을 이용한 영상 변환 시스템 및 그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220104927A KR102648354B1 (ko) | 2022-08-22 | 2022-08-22 | 인공 신경망을 이용한 영상 변환 시스템 및 그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20240026717A KR20240026717A (ko) | 2024-02-29 |
KR102648354B1 true KR102648354B1 (ko) | 2024-03-15 |
Family
ID=90041441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220104927A KR102648354B1 (ko) | 2022-08-22 | 2022-08-22 | 인공 신경망을 이용한 영상 변환 시스템 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102648354B1 (ko) |
-
2022
- 2022-08-22 KR KR1020220104927A patent/KR102648354B1/ko active IP Right Grant
Non-Patent Citations (2)
Title |
---|
Ahmed Nassar et al., A Deep CNN-Based Framework For Enhanced Aerial Imagery Registration with Applications to UAV Geolocalization", Proceedings of the IEEE Conferenc on CVPR Workshops, (2018.06.22.)* |
YING ZHANG et al., "An Enhanced GAN Model for Automatic Satellite-to-Map Image Conversion", IEEE Access, (2020.09.18.)* |
Also Published As
Publication number | Publication date |
---|---|
KR20240026717A (ko) | 2024-02-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Anderson et al. | Bottom-up and top-down attention for image captioning and visual question answering | |
CN107423700B (zh) | 人证核实的方法及装置 | |
CN111340784B (zh) | 一种基于Mask R-CNN图像篡改检测方法 | |
CN109978871B (zh) | 融合概率型和确定型纤维束追踪的纤维束筛选方法 | |
CN108549895A (zh) | 一种基于对抗网络的半监督语义分割方法 | |
CN108629286B (zh) | 一种基于主观感知显著模型的遥感机场目标检测方法 | |
US20180349716A1 (en) | Apparatus and method for recognizing traffic signs | |
CN110781882A (zh) | 一种基于yolo模型的车牌定位和识别方法 | |
CN117789185B (zh) | 基于深度学习的汽车油孔姿态识别系统及方法 | |
CN109993806A (zh) | 一种颜色识别方法、装置及电子设备 | |
CN111652240A (zh) | 一种基于cnn的图像局部特征检测与描述方法 | |
CN114331946A (zh) | 一种图像数据处理方法、设备以及介质 | |
CN111723852B (zh) | 针对目标检测网络的鲁棒训练方法 | |
CN117197763A (zh) | 基于交叉注意引导特征对齐网络的道路裂缝检测方法和系统 | |
CN111222447A (zh) | 基于神经网络及多通道融合lbp特征的活体检测方法 | |
CN115331012A (zh) | 基于零样本学习的联合生成式图像实例分割方法及系统 | |
CN112037180A (zh) | 染色体分割方法及装置 | |
CN115424323A (zh) | 风电场权限管理系统及其方法 | |
CN112330562B (zh) | 一种异构遥感图像变换方法及系统 | |
Zhang et al. | Deep evidential remote sensing landslide image classification with a new divergence, multi-scale saliency and an improved three-branched fusion | |
CN113378723A (zh) | 一种基于深度残差网络的输变电线路隐患自动安全识别系统 | |
KR102648354B1 (ko) | 인공 신경망을 이용한 영상 변환 시스템 및 그 방법 | |
CN117437615A (zh) | 雾天交通标志检测方法、装置、存储介质和电子设备 | |
CN117291800A (zh) | 一种融合超分辨率重建和深度学习的文档转换方法及系统 | |
CN114913368B (zh) | 基于自步双向对抗学习的融合遥感图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |