KR102288645B1 - 적대적 생성 신경망에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 방법 및 시스템 - Google Patents

적대적 생성 신경망에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 방법 및 시스템 Download PDF

Info

Publication number
KR102288645B1
KR102288645B1 KR1020200107652A KR20200107652A KR102288645B1 KR 102288645 B1 KR102288645 B1 KR 102288645B1 KR 1020200107652 A KR1020200107652 A KR 1020200107652A KR 20200107652 A KR20200107652 A KR 20200107652A KR 102288645 B1 KR102288645 B1 KR 102288645B1
Authority
KR
South Korea
Prior art keywords
image
scene generator
mask
contaminated area
gan
Prior art date
Application number
KR1020200107652A
Other languages
English (en)
Inventor
김진아
유제선
허동
김태경
김재일
Original Assignee
한국해양과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국해양과학기술원 filed Critical 한국해양과학기술원
Priority to KR1020200107652A priority Critical patent/KR102288645B1/ko
Application granted granted Critical
Publication of KR102288645B1 publication Critical patent/KR102288645B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/001
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • G06T7/001Industrial image inspection using an image reference approach
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

콘볼루션 신경망으로서 구현되는 장면 생성기 및 진위 판별기를 포함하는 적대적 생성 신경망(GAN)에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 방법 및 시스템이 개시된다. 본 발명에 의한 기계 학습 방법은, 장면 생성기가, 입력 이미지를 수신하고 수신된 입력 이미지 내의 오염 영역에 대응하는 마스크를 생성하는 단계; 장면 생성기가, 생성된 마스크에 기반하여 상기 입력 이미지 중 상기 오염 영역을 복원한 복원 이미지를 생성하는 단계; 장면 생성기가, 상기 입력 이미지 중 상기 오염 영역을 제외한 배경 이미지와 상기 오염 영역을 복원한 복원 이미지를 조합하여 출력 이미지를 생성하는 단계; 진위 판별기가, 상기 출력 이미지를 수신하고, 수신된 출력 이미지가 촬영된 실제 이미지인지 상기 장면 생성기에 의해 생성된 가짜 이미지인지 여부를 판별하는 단계; 및 상기 장면 생성기는, 상기 진위 판별기가 실제 이미지 및 가짜 이미지를 완벽하게 판별한다고 가정할 때, 상기 진위 판별기의 판별 정확도를 최소화하도록 상기 출력 이미지의 생성 동작을 학습하고, 상기 진위 판별기는 상기 장면 생성기에 대해 적대적으로, 상기 판별 정확도를 높이도록 판별 동작을 학습하는 단계를 포함한다. 본 발명에 의해, 짝을 이루지 않는 오염 왜곡 영상과 깨끗한 비왜곡 영상을 학습 데이터로 사용하여, 오염 영역을 집중적으로 복원할 수 있다.

Description

적대적 생성 신경망에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 방법 및 시스템{Machine learning method and system for restoring contaminated regions of image through unsupervised learning based on generative adversarial network}
본 발명은 입력 이미지에 포함된 오염 영역을 식별하고 복원하기 위한 기술에 관한 것으로서, 특히 적대적 생성 신경망에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 방법 및 시스템에 관한 것이다.
입력된 이미지로부터 오염 영역을 식별하고 복원하기 위한 기술이 많이 개발되었다. 이미지의 오염을 복원하는 기술은 다양한 분야에서 사용되고 있으며, 특히 무인 감시 시스템이나 자율 주행 분야에서 많은 관심을 받고 있다.
대한민국 특허 출원번호 제 10-2016-0160070 (출원일 : 2016년 11월 29일, 발명의 명칭 : 영상 내의 안개를 제거하는 영상 처리 장치 및 방법)을 참조하면, 입력된 영상의 빛의 전달량(transmission)을 적응적인 가중치 커브(adaptive weighting curve)를 적용하여 추정하는 단계; 상기 추정된 전달량을 기초로, 경계 보존 필터링(edge-preserving filtering)을 수행하여 상기 추정된 전달량을 정제(refinement)하는 단계; 및 상기 정제된 전달량을 기초로, 상기 입력된 영상을 복원(recovering)하는 단계를 포함하는 영상 내의 안개를 제거하는 영상 처리 방법이 개시된다. 이러한 선행 기술은 영상 내의 안개를 제거하여 개선된 영상을 제공하기 위한 것으로서, 안개 제거를 위한 계산량을 감소시키고, 낮은 리소스의 하드웨어로도 자연스러운 안개 제거 영상을 제공하는 목적을 가진다. 하지만, 이러한 해석적인 방식으로 영상 내의 오염을 제거하는 데에는 많은 연산이 소요되며, 모델링하는 변수가 많아질수록 처리 부하가 많아지지만, 모델링이 모든 변수를 고려할 수 없기 때문에 그 결과가 열악하다.
오염 복원 기술이 적용되는 한 가지 예를 들면, 연안의 이미지로부터 파랑 등을 예측하여 경고하기 위한 시스템이 있다.
해안 연안은 육지와 해변의 경계에 위치해 있는 지역으로 이안류, 너울성 파랑 발생 원인으로 인해 해안 침식, 인명 피해와 같은 자연 재해 현상이 발생한다. 이러한 현상을 예방하기 위해 파랑의 동역학적 분석이 필수적인데, 실해역에 센서를 설치하여 정점에서의 파랑속도, 이동 거리를 분석하는 연구가 선행되어 오고 있다. 하지만 센서 측정방법은 측정 가능한 시·공간적 범위가 제한적이다.
따라서, 연안의 파랑 분석을 위한 비디오 이용 학습 기반의 연구가 활발히 진행되고 있다. 이를 위해서는 대용량의 비디오 영상과 같은 충분한 학습 데이터 확보를 필요로 한다. 특히 불규칙적이고 높은 비선형적 특성을 갖는 국지적 특성의 악기상에 의한 재해성 파랑을 이해하고 예측하기 위해서는 장시간의 다양한 경우에 대한 많은 데이터의 수집이 필수적인데, 폭풍 시 강우가 동반되는 경우 빗방울에 의하여 왜곡 및 빗방울이 묻은 카메라 렌즈로 인한 오염된 비디오 영상이 획득된다. 따라서, 수집된 영상에서 빗방울은 파랑 영역에 왜곡을 발생시켜 배경 정보에 대한 가시성을 저하시키기 때문에 빗방울 제거 및 보정 연구는 필수적이다.
그러나, 빗방울에 의한 오염의 형태는 매우 다양하기 때문에, 이러한 오염을 해석적인 방법으로 제거하는 데에는 분명한 한계가 존재한다.
따라서, 최근에는 오염 제거를 위하여 딥러닝 모델을 이용하는 연구가 수행되고 있다. 빗방울 제거를 위한 딥러닝 모델들은 다양한 야외 환경에서 촬영된 빗방울 이미지와 짝을 이루는 깨끗한 이미지를 이용함으로써, 빗방울 이미지를 비왜곡 영상으로 1:1로 사상시키는 지도 학습을 수행한다. 하지만, 지도 학습 기반으로 오염된 이미지 복원을 수행하기 다양한 환경조건에서 동시간에 오염된 이미지와 짝을 이루는 비왜곡된 이미지를 수집해야 하는데, 해안의 파랑 등 실환경에서 왜곡 및 비왜곡의 짝을 이룬 비디오 영상 또는 이미지를 획득하는데는 어려움이 있다. 연안의 파랑은 시공간 동적 움직임을 가지며 , 두 대의 CCTV 카메라가 동일 장소에 설치되어 있더라고 위치의 차이에 따른 시점의 차이가 발생하게 되며, 이미지 정합을 실시하더라도 왜곡이 심한 경우 정합에 필요한 특징 및 기준을 찾을 수 없는 문제점이 있다.
따라서, 지도 학습에 의존하지 않고, 짝을 이루지 않는 오염 영상과 깨끗한 비왜곡 영상을 학습 데이터로 사용하는 비지도 학습 기반의 적대적 학습을 통해 오염 영역을 복원하기 위한 기술이 절실히 요구된다.
대한민국 특허 출원번호 제 10-2016-0160070 (출원일 : 2016년 11월 29일, 발명의 명칭 : 영상 내의 안개를 제거하는 영상 처리 장치 및 방법)
본 발명의 목적은 짝을 이루지 않는 빗방울로 인해 오염된 영상과 깨끗한 비왜곡 영상을 학습 데이터로 사용하는 비지도 학습 기반의 적대적 학습을 통해 오염 영역을 복원하기 위한 방법을 제공하는 것이다.
또한, 본 발명의 다른 목적은 영상의 특정 영역인 오염 영역에만 집중적으로 보정하기 위한 관심을 기울이기 위하여, 심층 신경망에 마스크를 생성할 수 있는 노드를 추가함으로써 오염 영역을제외한 배경 영역의 변화를 최소화하는 손실 함수를 적용하여 오염 영역에만 집중하여 왜곡을 보정하기 위한 시스템을 제공하는 것이다.
상기와 같은 목적들을 달성하기 위한 본 발명의 일면은, 콘볼루션 신경망으로서 구현되는 장면 생성기 및 진위 판별기를 포함하는 적대적 생성 신경망(Generative Adversarial Network; GAN)에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 방법에 관한 것이다. 본 발명에 의한 GAN에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 방법은, 장면 생성기가, 입력 이미지를 수신하고 수신된 입력 이미지 내의 오염 영역에 대응하는 마스크를 생성하는 단계; 장면 생성기가, 생성된 마스크에 기반하여 상기 입력 이미지 중 상기 오염 영역을 복원한 복원 이미지를 생성하는 단계; 장면 생성기가, 상기 입력 이미지 중 상기 오염 영역을 제외한 배경 이미지와 상기 오염 영역을 복원한 복원 이미지를 조합하여 출력 이미지를 생성하는 단계; 진위 판별기가, 상기 출력 이미지를 수신하고, 수신된 출력 이미지가 촬영된 실제 이미지인지 상기 장면 생성기에 의해 생성된 가짜 이미지인지 여부를 판별하는 단계; 및 상기 장면 생성기는, 상기 진위 판별기가 실제 이미지 및 가짜 이미지를 완벽하게 판별한다고 가정할 때, 상기 진위 판별기의 판별 정확도를 최소화하도록 상기 출력 이미지의 생성 동작을 학습하고, 상기 진위 판별기는 상기 장면 생성기에 대해 적대적으로, 상기 판별 정확도를 높이도록 판별 동작을 학습하는 단계를 포함하고, 상기 장면 생성기 및 상기 진위 판별기는, 동일한 장소를 촬영한 오염된 이미지와 쌍을 이루는 오염되지 않은 이미지를 사용하지 않고서, 상기 생성 동작 및 상기 판별 동작을 각각 자발적으로 학습하는 것을 특징으로 한다. 특히, 상기 마스크를 생성하는 단계는, 상기 입력 이미지 중 오염 영역이 희소하게 존재한다는 가정에 기반하여, 상기 마스크의 손실 함수를,
Figure 112020089771839-pat00001
으로서 계산하는 것을 포함하고, 여기에서
Figure 112020089771839-pat00002
는 마스크 손실 함수이고,
Figure 112020089771839-pat00003
은 마스크 벡터이며,
Figure 112020089771839-pat00004
은 훈련용 인스턴스의 집합이고, || ||1은 L1 놈(norm) 연산자이다. 또한, 상기 복원 이미지를 생성하는 단계는, 상기 장면 생성기가, 상기 훈련 인스턴스의 집합 중에서 무작위로 샘플링된 오염이 없는 깨끗한 이미지를 수신하는 것; 및 상기 깨끗한 이미지를 그대로 출력하면서, 상기 마스크의 모든 픽셀값이 0이 될 정규화 손실 함수를,
Figure 112020089771839-pat00005
으로서 계산하는 것을 포함하고, 여기에서
Figure 112020089771839-pat00006
는 정규화 손실이고,
Figure 112020089771839-pat00007
는 오염이 없는 깨끗한 이미지를 나타내는 벡터이며,
Figure 112020089771839-pat00008
는 비트단위 승산 연산자이다. 또한, 상기 복원 이미지를 생성하는 단계는, 상기 입력 이미지에 포함된 중요한 특징들을 학습하는 것; 상기 입력 이미지로부터 큰 수용 필드(receptive field)를 가지는 심화 아키텍처를 구축하기 위하여 팽창된 콘볼루션(dilated convolution)을 수행하는 것; 및 상기 입력 이미지의 초기 레이어 특징(early-layer feature)를 스킵 연결(skip-connection)을 통해 전달받아, 상기 복원 이미지와 상기 마스크를 동시에 생성하는 것을 더 포함하고, 상기 마스크 및 상기 복원 이미지는 상기 입력 이미지의 마지막 레이어로부터 생성된다. 바람직하게는, 상기 출력 이미지를 생성하는 단계는, 상기 장면 생성기가,
Figure 112020089771839-pat00009
에 의해 출력 이미지
Figure 112020089771839-pat00010
를 생성하는 것을 포함하고, 여기에서,
Figure 112020089771839-pat00011
는 입력 이미지 벡터이고,
Figure 112020089771839-pat00012
는 상기 오염 영역이 복원된 이미지 벡터이다. 더 나아가, 상기 판별하는 단계는, 상기 진위 판별기의 손실 함수를
Figure 112020089771839-pat00013
로서 계산하는 것; 및 상기 장면 생성기의 손실 함수를
Figure 112020089771839-pat00014
로서 계산하는 것을 포함하고, 여기에서
Figure 112020089771839-pat00015
는 진위 판별기의 판별 결과를 나타내고, || ||2는 L2 놈 연산자이다. 특히, 상기 학습하는 단계는, 상기 적대적 생성 신경망(GAN)의 전체 손실 함수를,
Figure 112020089771839-pat00016
으로서 계산하는 것; 및 상기 장면 생성기 및 상기 진위 판별기는, 상기 전체 손실 함수가 최소가 되도록 상기 생성 동작 및 상기 판별 동작을 각각 자발적으로 학습하는 것을 포함하고, 여기에서,
Figure 112020089771839-pat00017
Figure 112020089771839-pat00018
는 대응하는 손실 함수의 중요도를 반영하는 하이퍼 파라미터이다.
상기와 같은 목적을 달성하기 위한 본 발명의 다른 면은, 적대적 생성 신경망(GAN)에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 시스템에 관한 것이다. 본 발명에 의한 GAN에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 시스템은 콘볼루션 신경망으로서 구현되는 장면 생성기 및 진위 판별기를 포함하고, 상기 장면 생성기는, 입력 이미지를 수신하고 수신된 입력 이미지 내의 오염 영역에 대응하는 마스크를 생성하며, 생성된 마스크에 기반하여 상기 입력 이미지 중 상기 오염 영역을 복원한 복원 이미지를 생성하고, 상기 입력 이미지 중 상기 오염 영역을 제외한 배경 이미지와 상기 오염 영역을 복원한 복원 이미지를 조합하여 출력 이미지를 생성하도록 구성되고, 상기 진위 판별기는, 상기 출력 이미지를 수신하고, 수신된 출력 이미지가 촬영된 실제 이미지인지 상기 장면 생성기에 의해 생성된 가짜 이미지인지 여부를 판별하도록 구성되며, 상기 장면 생성기는, 상기 진위 판별기가 실제 이미지 및 가짜 이미지를 완벽하게 판별한다고 가정할 때, 상기 진위 판별기의 판별 정확도를 최소화하도록 상기 출력 이미지의 생성 동작을 학습하게끔 구성되고, 상기 진위 판별기는 상기 장면 생성기에 대해 적대적으로, 상기 판별 정확도를 높이도록 판별 동작을 학습하게끔 구성되며, 상기 장면 생성기 및 상기 진위 판별기는, 동일한 장소를 촬영한 오염된 이미지와 쌍을 이루는 오염되지 않은 이미지를 사용하지 않고서, 상기 생성 동작 및 상기 판별 동작을 각각 자발적으로 학습하도록 구성되는 것을 특징으로 한다. 특히, 상기 장면 생성기는, 상기 마스크를 생성하기 위하여, 상기 입력 이미지 중 오염 영역이 희소하게 존재한다는 가정에 기반하여, 상기 마스크의 손실 함수를,
Figure 112020089771839-pat00019
으로서 계산하도록 구성되고, 여기에서
Figure 112020089771839-pat00020
는 마스크 손실 함수이고,
Figure 112020089771839-pat00021
은 마스크 벡터이며,
Figure 112020089771839-pat00022
은 훈련용 인스턴스의 집합이고, || ||1은 L1 놈 연산자이다. 더 나아가, 상기 장면 생성기는, 상기 복원 이미지를 생성하기 위하여, 상기 훈련 인스턴스의 집합 중에서 무작위로 샘플링된 오염이 없는 깨끗한 이미지를 수신하고, 상기 깨끗한 이미지를 그대로 출력하면서, 상기 마스크의 모든 픽셀값이 0이 될 정규화 손실 함수를,
Figure 112020089771839-pat00023
으로서 계산하도록 구성되고, 여기에서
Figure 112020089771839-pat00024
는 정규화 손실이고,
Figure 112020089771839-pat00025
는 오염이 없는 깨끗한 이미지를 나타내는 벡터이며,
Figure 112020089771839-pat00026
는 비트단위 승산 연산자이다. 또한, 상기 장면 생성기는, 상기 복원 이미지를 생성하기 위하여, 상기 입력 이미지에 포함된 중요한 특징들을 학습하고, 상기 입력 이미지로부터 큰 수용 필드를 가지는 심화 아키텍처를 구축하기 위하여 팽창된 콘볼루션을 수행하며, 상기 입력 이미지의 초기 레이어 특징을 스킵 연결을 통해 전달받아, 상기 복원 이미지와 상기 마스크를 동시에 생성하도록 구성되고, 상기 마스크 및 상기 복원 이미지는 상기 입력 이미지의 마지막 레이어로부터 생성된다. 바람직하게는, 상기 장면 생성기는
Figure 112020089771839-pat00027
에 의해 출력 이미지
Figure 112020089771839-pat00028
를 생성하도록 구성되고, 여기에서,
Figure 112020089771839-pat00029
는 입력 이미지 벡터이고,
Figure 112020089771839-pat00030
는 상기 오염 영역이 복원된 이미지 벡터이다. 또한, 상기 진위 판별기는, 상기 진위 판별기의 손실 함수를
Figure 112020089771839-pat00031
로서 계산하도록 구성되고, 상기 장면 생성기는, 상기 장면 생성기의 손실 함수를
Figure 112020089771839-pat00032
로서 계산하도록 구성되며, 여기에서
Figure 112020089771839-pat00033
는 진위 판별기의 판별 결과를 나타내고, || ||2는 L2 놈 연산자이다. 특히, 상기 장면 생성기 및 상기 진위 판별기는,
Figure 112020089771839-pat00034
로 계산되는 전체 손실 함수가 최소가 되도록 상기 생성 동작 및 상기 판별 동작을 각각 자발적으로 학습하도록 구성되고, 여기에서,
Figure 112020089771839-pat00035
Figure 112020089771839-pat00036
는 대응하는 손실 함수의 중요도를 반영하는 하이퍼 파라미터이다.
본 발명에 의하여, 짝을 이루지 않는 빗방울 영상과 깨끗한 비왜곡 영상을 학습 데이터로 사용하는 비지도 학습 기반의 적대적 학습을 통해 오염 영역을 복원할 수 있다.
또한, 본 발명에 의하여, 심층 신경망에 마스크를 추가함으로써 오염 영역을제외한 배경 영역의 변화를 최소화하는 손실 함수를 적용함으로써, 오염 영역에 집중하여 왜곡을 보정할 수 있다.
도 1은 본 발명의 일 면에 의한 GAN에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 방법을 개략적으로 나타내는 흐름도이다.
도 2는 본 발명의 다른 면에 의한, GAN에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 시스템을 개략적으로 보여주는 도면이다.
도 3은 본 발명의 GAN에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기술에서 장면 생성기(G)의 동작을 설명하는 도면이다.
도 4는 비지도 훈련을 위한 손실 함수를 계산하기 위한, 장면 생성기(G) 내에서의 입력 샘플의 순방향 전파를 보여준다.
도 5는 Raindrop1119에 있는 테스트 예들에 대한, 베이스라인과 RainGAN의 복원 결과를 보여준다.
도 6a 및 도 6b는 쌍을 이루는 데이터집합에 의한 테스트 결과를 보여준다.
도 7은 안목 해변에서의 촬영된 이미지와 복원된 이미지를 보여준다.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로서, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.
도 1은 본 발명의 일 면에 의한 GAN에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 방법을 개략적으로 나타내는 흐름도이다.
도 1을 참조하면, 본 발명에 의한 기계 학습 방법은 이미지의 오염 영역을 복원하기 위하여, 콘볼루션 신경망으로서 구현되는 장면 생성기 및 진위 판별기를 포함하는 적대적 생성 신경망(Generative Adversarial Network; GAN)에 기반한 비지도 학습을 수행한다.
우선, 장면 생성기가 입력 이미지를 수신하고 수신된 입력 이미지 내의 오염 영역에 대응하는 마스크를 생성한다(S110). 즉, 본 발명에서는 영상의 특정 영역에 주의를 기울이기 위하여 심층 신경망에 마스크를 출력하는 신경망을 추가한다.
마스크가 생성되면, 생성된 마스크에 기반하여 상기 입력 이미지 중 상기 오염 영역을 복원한 복원 이미지를 생성한다(S120). 이 과정에서 빗방울을 제외한 배경 영역의 변화를 최소화하는 손실 함수를 적용하여 빗방울 영역에 집중적으로 왜곡을 보정한다.
그러면, 최종 출력 이미지가 입력 이미지 중 오염 영역을 제외한 배경 이미지와 오염 영역을 복원한 복원 이미지를 조합하여 생성된다(S130).
출력 이미지가 생성되면, 진위 판별기가 출력 이미지를 수신하고, 수신된 출력 이미지가 촬영된 실제 이미지인지 상기 장면 생성기에 의해 생성된 가짜 이미지인지 여부를 판별한다(S140). 예를 들어, 복원된 영상으로 판별될 경우에는 판별기가 0을 출력하고, 비왜곡된 영상으로 판별될 경우에는 1을 출력할 수 있다.
그러면, 장면 생성기는, 진위 판별기가 실제 이미지 및 가짜 이미지를 완벽하게 판별한다고 가정할 때, 진위 판별기의 판별 정확도를 최소화하도록 출력 이미지의 생성 동작을 학습하고, 진위 판별기는 장면 생성기에 대해 적대적으로 판별 정확도를 높이도록 판별 동작을 학습한다(S150). 이러한 동작이 반복되면서 장면 생성기는 점점 진짜 이미지와 유사한 출력 이미지를 생성하게 된다. 이 때, 본 발명에 의한 GAN에서 학습을 위해 사용되는 이미지는 동일한 장소를 촬영한, 오염된 이미지와 오염되지 않은 이미지의 쌍일 필요가 없다. 따라서, 정밀하게 구성된 데이터쌍이 학습 대상으로 사용될 필요가 없기 때문에, 영상 복원 효과가 뛰어나다.
이하, 본 발명에 따른 이미지의 오염 영역을 복원하는 기계 학습 방법을 빗방울에 의해 왜곡된 영상을 예를 들어 상세히 설명한다. 빗방울에 의해 왜곡된 영상은 본 발명에서 복원할 수 있는 여러 오염 중 하나에 지나지 않으며, 오직 이해의 편의를 위해 예시된 것임에 유의한다. 따라서, 본 발명에 의한 영상 복원 기술은 다양한 오염원에 의해 왜곡된 영상을 복원하는 데에 적용될 수 있다는 것이 이해될 것이다.
본 발명의 이해를 돕기 위하여, 짝을 이루는 빗방울 영상과 비왜곡 영상을 이용하는 지도 학습 기반 빗방울 제거 기법에 대해서 간략하게 설명한다. 종래 기술에 따르면, 영상을 지역적인 단위로 나누어 왜곡 영역을 복원하는 합성곱 신경망(Convolutional Neural Network, CNN) 기술이 이용되었는데, 해당 기법은 작은 크기로 흩어진 빗방울에 대한 제거 및 왜곡 복원 성능은 양호했으나 빗방울이 크고 밀집되어 있는 경우 복원이 어렵다는 단점이 있다.
이를 개선한 방법으로서, 적대적 심층 신경망을 이용하는 Pix2Pix 모델도 제안된 바 있으나, 이러한 방법은 빗방울이 크고 밀집한 것은 잘 지웠으나 비왜곡 영역에서의 영상 복원 정확도가 도리어 떨어지는 현상이 나타났다. 또한, 빗방울 영역 검출과 왜곡 보정을 동시에 수행 하는 집중형 GAN(Attentive Generative Adversarial Network; Attentive GAN)도 제안되었는데, 이 기법에 따르면 LSTM 기반의 심층 신경망을 통해 빗방울 영역을 시각적으로 구분하고, 신경망을 이용하여 검출된 빗방울에만 집중하여 빗방울 왜곡을 보정한다. 하지만 파랑 비디오에 Pix2Pix 모델과 집중형 GAN 모델을 적용한 연구에 따르면, 짝을 이루는 두 영상 간 차이로부터 빗방울 영역을 구분하기 위한 임계값을 찾기가 어려운 경우가 많기 때문에, 집중형 GAN의 학습을 위한 빗방울 영역 마스크의 품질이 좋지 않은 경우가 많았다.
그러므로, 본 발명에서는 비지도 학습으로 악기상시 촬영된 파랑 비디오 영상에 대하여 빗방울을 제거와 파랑을 복원하기 위해 적대적 학습을 수행하는 기법을 제안하며, 이러한 모델은 빗방울에 의해 오염된 오염 영역을 식별하는 마스크를 학습시키고, 마스크에 의해 오염 영역으로 식별된 영역에 대해서만 집중적으로 영상 보정을 수행함으로써, 복원 효율을 향상시킨다.
즉, 본 발명에 의한 기술은, 적대적 학습이 있는 비지도 이미지-이미지 전환 방법이고, 오염 영역에 의해 왜곡된 이미지를 깨끗한 이미지 도메인으로 변환한다. 설명의 편의를 위하여, 오염체가 빗물에 기인한 물방울인 경우, 오염 영역을 인식하는 GAN은 RainGAN이라 불릴 수 있다. 하지만, 이는 이해를 돕기 위한 것이고, 본 발명은 물방울에 의한 오염 뿐만 아니라, 다른 오염 영상을 정정하기 위해서도 사용될 수 있음은 명백하다.
도 2는 본 발명의 다른 면에 의한, GAN에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 시스템을 개략적으로 보여주는 도면이다.
도 2의 좌측은 장면 생성기(G)라고 불리는, 오염 영역의 배경을 복원하기 위한 조건적 생성 모델을 나타내고, 우측은 왜곡 이미지와 깨끗한 이미지의 분포를 패치마다 캡쳐하기 위한 진위 판별기(D)를 보여준다. 특히, 장면 생성기(G)는 입력 이미지를 가능한 많이 보존하면서, 오염 영역 마스크에 의해 결정된 오염 영역을 복원하는데 집중하는 배경의 집중 복원(attentive restoration)을 수행한다. 장면 생성기(G)는 적대적 학습을 통해, 배경에 있는 물체의 자연적인 모습을 진위 판별기(D)를 속이기에 충분하도록 복원할 수 있다. 예를 들어, 배경에 있는 물체는 연안 지역에서 시간에 따라 변하는 파도일 수 있다. 도 3을 참조하여 장면 생성기(G)의 동작을 상세히 설명한다.
도 3은 본 발명의 GAN에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기술에서 장면 생성기(G)의 동작을 설명하는 도면이다.
물방울 등 영상 왜곡을 야기하는 오염체에 의해 오염된 입력 이미지(ri)가 주어지면, 장면 생성기(G)는 배경이 복원된 이미지(oi r) 및 오염 영역 마스크(mi r)를 생성한다. 마스크는 오염 영역을 0(배경) 내지 1(오염 영역)의 범위 안에서 나타낸다. 이러한 접근법에서, 장면 생성기(G)는, 아무런 지도가 없이 오염 영역을 인식하여, 오염 영역 외부의 배경을 입력 영상으로부터 가져와 보존하면서 영상의 왜곡된 영역을 깨끗한 이미지의 분포로 변환한다. 복원은 다음과 같이 이루어진다.
Figure 112020089771839-pat00037
수학식 1에서,
Figure 112020089771839-pat00038
은 비트단위 곱연산자이다. 수학식 1에서 mi r은 마스크로서 0~1사이 값을 갖고 oi r은 입력으로 부터 변환된 영상으로 빗방울이 제거된 후 복원된 영역의 영상을 담고 있다. 수학식 1에 따르면 mi r이 0으로 갈수록 오염되지 않은 비왜곡 영역이 출력되고, 을 출력한다. 그 반대로, mi r이 1로 갈수록 oi r에 담고 있는 복원된 영상이 출력된다. 최종적으로 두 항의 합으로 복원된 영상을 얻을 수 있다.
출력 G는 진위 판별기(D)의 입력으로서 사용된다. 진위 판별기(D)도 장면 생성기(G)와 마찬가지로 convolution relu block을 이용하여 입력을 1채널*w/10*h/10의 패치로 변환한다. 출력의 크기와 Convolution ReLU Block의 수는 입력 영상 해상도에 따라 달라질 수 있다. 각 패치들을 0 또는 1 값으로 분류하는데, 0은 복원된 영상으로 판별된 경우이고, 1은 비왜곡된 영상으로 판별될 경우를 나타낸다. 장면 생성기(G)는 입력 이미지로부터 영상 복원을 수행하기 위해, 진위 판별기(D)가 장면 생성기(G)의 출력을 1로 판별할 때까지 적대적 훈련을 수행한다.
장면 생성기(G)는 스킵 연결(skip connection)이 있는 완전 합성곱 신경망으로서 구현되고, 다음의 세 부분으로 이루어진다: (1) 입력으로부터 중요한 특징을 학습하기 위한 인코더, (2) 큰 수용 필드(receptive field)를 가지는 심화 아키텍처를 구축하기 위한 병목부(bottleneck), 및 (3) 입력 해상도과 동일한, 배경이 복원된 이미지와 오염 영역 마스크를 동시에 생성하기 위한 디코더.
(1) 인코더는 일련의 콘볼루션 블록으로 이루어지는데, 이들은 3*3 콘볼루션 레이어와 이에 후속하는 RELU 활성 함수(activation function)이다. 인코더에 대한 추가적인 설명은 그 내용이 본원에 원용되어 통합되는 [1] Nair, V.; Hinton, G.E. Rectified linear units improve restricted boltzmann machines. Proceedings of the 27th international conference on machine learning (ICML-10), 2010, pp. 807-814.를 참조한다. 특징 인코딩 시의 다운샘플링 연산을 위하여, 두 번째와 마지막 콘볼루션 블록이 2의 스트라이드로 수행된다. 따라서, 인코더 출력의 공간 해상도는 w/4*w/4 이고, 여기에서 w는 입력의 폭이고 h는 높이이다.
(2) 병목부는 팽창된 콘볼루션 레이어가 있는 일련의 잔차 블록이다. 병목부에 대한 추가적인 설명은 그 내용이 본원에 원용되어 통합되는 [2] Yu, F.; Koltun, V. Multi-scale context aggregation by dilated convolutions. arXiv preprint arXiv:1511.07122 2015.를 참조한다. 잔차 블록은 합산에 의한 쇼트컷 연결(shortcut connection) 및 두 개의 3*3 팽창된 콘볼루션과 이에 후속하는 RELU 함수의 조합이다. 팽창된 콘볼루션은 공간 해상도를 유지하면서 수용 필드를 효율적으로 증가시키기 위해서 사용된다. 병목부에 여러 잔차 블록이 있으면, 다양한 크기의 오염 영역을 검출하는데 있어서 오염 영역 인식 GAN, 예컨대 RainGAN이 견실해진다.
(3) 디코더는 업샘플링 동작을 위해서 스트라이드가 2인 전위 콘볼루션(transposed convolution)을 사용하여, 복원을 위해 콘볼루션 블록을 사용한다. 디코더의 출력 채널은 4인데, 3 개는 배경이 복원된 이미지를 한 것이고, 1은 오염 영역 마스크를 위한 것이다. 전술된 바와 같이, 빈번한 콘볼루션 및 다운샘플링 연산에 의해서 이미지의 세부사항이 손실되는 것을 최소화하기 위하여, 우리는 인코더의 초기 레이어 특징(early-layer feature)을 연쇄(concatenation)에 의해 디코더로 전달하는 긴 스킵-연결을 채용한다. 즉, 본 발명에서는 빗방울 영상을 입력으로 수신하고, 콘볼루션 RELU 블록을 이용하여, w/4, h/4까지 영상을 압축 한다. 빗방울과 왜곡 보정하려는 특징의 공간적인 정보 손실을 방지하기 위해 Res-block에 6번째에서 10번째 레이어까지 팽창된 콘볼루션을 2, 4, 8, 16, 32 차례로 적용한다. 그리고 마지막 레이어에서 왜곡 보정 영역과 비왜곡 영역을 구분하기위해, 콘볼루션으로 인해 손실된 입력의 특징을 스킵-연결을 통해 전달 받는다. 신경망의 마지막 레이어 출력은 4 채널이며, 1 채널은 오염 영역 마스크이고, 나머지 채널들은 장면 생성기(G)의 출력이다.
장면 생성기(G)는 다음과 같은 손실 함수를 최소화하도록 훈련된다: (1) 진위 판별기(D)에 대한 적대적 학습을 위한 Lgen, (2) 오염 영역 마스크의 희소성(sparsity)을 강화하기 위한 Lmask, 및 (3) 배경 학습을 위한 Lreg. 각각의 손실함수에 대해서 설명하면 다음과 같다.
복원 연산이 수학식 1과 같으면, 마스크 희소성 손실(Lmask)는 마스크 자체에 대한 l1 손실이어서, 마스크가 1로 포화되지 않게 하고, 오염체(예를 들어, 물방울)에 의한 왜곡 영역에만 중점을 두게 한다.
Figure 112020089771839-pat00039
수학식 2에서,
Figure 112020089771839-pat00040
은 훈련 인스턴스들의 집합이다. 오염 영역을 구별하는 것에 대한 지도가 없기 때문에, 배경을 정확하게 복원하면서도 왜곡이 없이 배경 영역에서 0의 값을 가지는 마스크를 생성하기 위해서, 장면 생성기(G)를 정규화한다. 이를 위해서, 훈련 집합으로부터 무작위로 샘플링된, 선택된 깨끗한 이미지(cj)에 대한 정규화 손실(Lreg)을 구현한다.
Figure 112020089771839-pat00041
수학식 3에서, mj c는 마스크이고, oj c는 cj로부터의 배경이 복원된 이미지이며,
Figure 112020089771839-pat00042
는 깨끗한 이미지의 훈련 집합이다.
도 4는 비지도 훈련을 위한 손실 함수를 계산하기 위한, 장면 생성기(G) 내에서의 입력 샘플의 순방향 전파를 보여준다.
적대적 학습에서, 진위 판별기(D)는 깨끗한 이미지를 장면 생성기(G)로부터의 복원된 이미지와 구별하도록 훈련된다. 분류기인 진위 판별기(D)는 실제 샘플과 가짜 샘플의 분포를 학습하고, 장면 생성기(G)는 더 사실적인 이미지를 생성함으로써 진위 판별기(D)를 속이도록 진위 판별기(D)와 경쟁한다. 오염 영역 왜곡이 국지적으로 관찰되기 때문에, 진위 판별기(D)를 위해서 PatchGan의 아키텍쳐가 채용될 수 있다. PatchGen에 대해서는, 본 명세서에 그 내용이 원용되어 통합되는 Isola, P.; Zhu, J.Y.; Zhou, T.; Efros, A.A. Image-to-image translation with conditional adversarial networks. Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 1125-1134.를 참조한다.
진위 판별기(D)는 일련의 콘볼루션 블록으로 이루어지는데, 이들은 콘볼루션 레이어와 이에 후속하는 RELU 활성 함수이다.
스트라이드가 2인 블록을 사용한 여러 번의 다운샘플링 연산에 의하여, 진위 판별기(D)의 출력 차원은 w/10*h/10*1이 된다. 출력 차원은 입력 영상의 해상도와 다운샘플링 연산 반복 횟수에 따라 달라지며, 특정 차원 크기에 한정되지 않는다. 출력 특징의 각 요소는 주어진 입력의 하나의 패치를 나타낸다(도 2의 진위 판별기(D) 참조). 진위 판별기(D)의 손실 함수는 다음이 된다.
Figure 112020089771839-pat00043
여기에서, ri는 수학식 1에 의해 복원된 이미지이다. 진위 판별기(D)에 적대적으로, 장면 생성기(G)는 진위 판별기(D)를 속이기 위해서 다음의 손실을 사용하여 훈련된다.
Figure 112020089771839-pat00044
따라서, 장면 생성기(G)의 총 손실은 수학식 6이 된다.
Figure 112020089771839-pat00045
ω1, ω2, ω3은 각 손실 함수의 중요도를 제어하기 위한 하이퍼-파라미터들이다. ω1 및 ω2의 값이 클수록, 마스크의 전체 면적이 빠르게 0에 가까워지고, ω3이 클수록, 마스크의 전체 면적이 1이 되게 된다. 하이퍼-파라미터들은 경험적으로 1, 0.01, 및 5로 각각 결정되었다. 하지만, 이러한 파라미터들은 오직 일 예일 뿐이고 본 발명을 한정하지 않는 것임은 명백하다.
다음은 왜곡된 이미지와 깨끗한 이미지의 훈련 집합을 사용하여 어떻게 오염 영역 인식 GAN(예를 들어, RainGAN)을 비지도 훈련시키는지를 보여주는 알고리즘이다.
알고리즘에서, Shuffle(.)은 훈련 집합의 데이터 인덱스들을 셔플하기 함수이고, Next(.)는 다음 인덱스의 데이터 인스턴스를 순차적으로 호출하기 위한 함수이다.
Figure 112020089771839-pat00046
이하, 본 발명에 의한 영상 복원 기술의 효과에 대해서 종래 기술과 비교하여 설명한다.
제안된 네트워크의 커널 파라미터는 He 초기화(He initialization)를 사용하여 무작위로 초기화되었고, 아담 최적화기를 사용하여 훈련된다. He 초기화에 대해서는 그 내용이 본원에 원용되어 통합되는 [3] He, K.; Zhang, X.; Ren, S.; Sun, J. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. Proceedings of the IEEE international conference on computer vision, 2015, pp. 398 1026-1034.를 참조하고, 아담 최적화기에 대해서는 그 내용이 본원에 원용되어 통합되는 [4] Kingma, D.P.; Ba, J. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980 2014.를 참조한다.
아담 최적화기의 β1, β2, 및 ε은 장면 생성기(G) 및 진위 판별기(D) 양자 모두에 대해서 각각 0.5, 0.999, 및 0.001이다. 학습 속도(η)는 0.0001이다. 훈련 데이터 집합은 무작위 수평 플리핑을 사용하여 증가된다. 입력 이미지의 크기는 네트워크들에 대해서 740*480 으로 고정되고, 모든 실험은 단일 TITAN XP(12GB)에서 수행되며, 패치 크기는 16으로 설정된다. 하지만, 이러한 값들은 본 발명의 효과를 나타내기 위해서 수행된 특정한 실험예에 해당할 뿐이며, 본 발명을 한정하는 것이 아님에 주의해야 한다.
실험에서, 본 발명에 따른 방법은 Pix2Pix 및 집중 GAN과 비교되었다. Pix2Pix의 세부 사항에 대해서는 그 내용이 본원에 원용되어 통합되는 [5] Isola, P.; Zhu, J.Y.; Zhou, T.; Efros, A.A. Image-to-image translation with conditional adversarial networks. Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 1125-1134.를 참조하고, 집중 GAN에 대해서는 그 내용이 본원에 원용되어 통합되는 [6] Qian, R.; Tan, R.T.; Yang, W.; Su, J.; Liu, J. Attentive generative adversarial network for raindrop removal from a single image. Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp. 2482-2491.을 참조한다.
Pix2Pix는 적대적 학습을 사용한 지도식 이미지-이미지 전환 방법이다. Pix2Pix의 생성기는 복원된 이미지와 대응하는 실측 이미지 사이의 l1 손실과 진위 판별기(D)에 대한 적대적 손실을 최소화하도록 훈련된다.
집중 GAN의 생성기는 다음 두 서브-네트워크로 이루어진다: (1) 주어진 입력의 관심 마스크(attention mask)를 생성하기 위한 콘볼루셔널 LSTM에 기반한 집중 네트워크, 및 (2) 관심 마스크와 입력으로부터 물방울이 제거된 이미지를 생성하기 위한 완전 콘볼루션망. 집중 GAN에는 지도 학습을 위해서 모든 훈련 인스턴스의 이진 물방울 마스크가 필요하다. 비교를 위하여, Pix2Pix 및 집중 GAN 모두의 하이퍼 파라미터들은 검증 집합(validation set)을 사용하여 튜닝되었다.
평가 메트릭
배경 복원의 정확도를 평가하기 위하여, 최대 신호대 잡음비(peak signal-to-noise ratio; PSNR), 구조적 유사도 지수(structural similarity index; SSIM), 및 천연 이미지 품질 평가기(natural image quality evaluator; NIQE)가 사용된다.
PSNR은 신호의 가능한 최대 파워와 오염을 일으키는 잡음의 파워의 비율이다. SSIM은 두 개의 이미지 시퀀스들 사이에서 지각되는 품질 손실을 캡쳐하기 위한 메트릭이다. 복원된 이미지가 그들과 쌍을 이루는 깨끗한 이미지와 점점 가까워 질수록, PSNR은 높아지고 SSIM은 1에 가까워진다.
NIQE는 오염 영역 제거 네트워크에 의해 지각되는 이미지 품질 향상을 평가하기 위하여 사용된다. NIQE는 천연 장면 통계에 기반한 특징과 이미지 데이터베이스에서 얻어진 특징 사이의 거리를 측정한다. 특징들은 다차원 가우시안 분포로서 모델링된다. NIQE는 블러링, 링잉(ringing), 및 잡음과 같은 임의의 왜곡이 있는 이미지 품질을 평가할 수 있다. NIQE 점수가 낮으면 이미지 품질이 높다는 것을 나타낸다. NIQE의 세부 사항에 대해서는 그 내용이 본원에 원용되어 통합되는 [7] Mittal, A.; Soundararajan, R.; Bovik, A.C. Making a "completely blind" image quality analyzer. IEEE Signal Processing Letters 2012, 20, 209-212.를 참조한다.
오픈 데이터셋인 Raindrop1119를 사용하여 베이스라인과 비교하기
지도 학습을 사용한 베이스라인과 정당하게 비교하기 위하여, 정확도와 이미지 품질 개선은 Raindrop1119를 사용하여 평가되었다. 표 1 은 Pix2Pix, 집중 GAN, 및 본 발명에 의한 RainGAN을 사용하여 복원된 이미지들로부터 계산된, PSNR, SSIM, 및 NIQE 점수를 보여준다.
Figure 112020089771839-pat00047
Raindrop1119에서, 왜곡된 이미지와 대응하는 깨끗한 이미지 사이의 평균 PSNR 및 SSIM은 24.078 및 0.850이다. 왜곡된 이미지와 대응하는 깨끗한 이미지 각각에 대한 NIQE 점수는 각각 10.524 및 9.919 이다. Pix2Pix에 대한 PSNR 및 SSIM 점수는 27.725 및 0.876이다.
왜곡된 이미지에 비하여, Pix2Pix가 낮은 지각 품질(NIQE의 경우 12.296)을 보여주는 이미지를 생성했다. 집중 GAN 및 본 발명에 의한 RainGAN은 모든 메트릭에 있어서 물방울 제거 성능이 개선된 것을 나타냈다. 이러한 실험에서, 집중 GAN의 성능은, 전술된 참조 문헌 [6]에 의해 제공되는 훈련된 모델을 사용하여 평가되었다.
도 5는 Raindrop1119에 있는 테스트 예들에 대한, 베이스라인과 RainGAN의 복원 결과를 보여준다. 도 5에서, (a)와 (b)는 각각, 서로 쌍을 이루는 왜곡된 이미지와 깨끗한 이미지이고, (c), (d), 및 (e)는 각각 Pix2Pix, 집중 GAN, 및 본 발명에 의한 RainGAN의 테스트 결과를 보여준다.
집중 GAN이 최고의 점수를 보여주었기 때문에, 이것은 Pix2Pix의 결과에서 관찰된 회색 얼룩이 없이 물방울의 대부분을 성공적으로 제거했다. RainGAN도 양호한 품질의 이미지를 생성했지만, 일부 테스트 예에서는 작은 물방울을 제거하지 못했다. 이러한 실험 결과는 지도형 학습 방법이 작은 크기의 분산된 패턴을 식별하는데에는 유리하다는 것을 나타낸다. 하지만, 물방울 마스크의 획득 과정에서 Raindrop1119에 있는 짝을 이루는 세트들에 대해 경험적으로 유도된 임계치가 사용되었는데, 이러한 마스크 획득 방법은 연안의 영상과 같은 실용적인 경우에는 적용되기가 어렵다.
안목 해변의 쌍을 이루는 물방울 이미지 데이터세트를 사용한 성능 평가
실제 연안 영상에 대해서 베이스라인과 본 발명의 기법의 효용성을 평가하기 위하여, 나란히 설치된 두 개의 CCTV를 사용하여 안목 해안의 파도를 캡쳐한, 쌍을 이루는 데이터세트가 이용되었다. 쌍을 이루는 데이터를 생성하기 위하여, 연안의 파도를 녹화하면서, 하나의 카메라에만 물방울을 여러 번 분사함으로써 물방울에 의한 이미지 왜곡 패턴을 시뮬레이션했다. 두 카메라에 의해 얻어진 대응하는 이미지들 사이의 기하학적 차이를 최소화하기 위해서 강체 레지스트레이션(rigid registration)이 사용되었다. 물방울 왜곡의 다양한 패턴을 시뮬레이션하기 위하여, 인위적으로 뿌린 물방울이 있는 이미지는 15 번 획득되었다. 한 비이오 클립은 평균적으로 파도의 이동을 캡쳐하도록 1분의 길이로 녹화되었고, 두 카메라의 비디오 세트로부터 동일한 시점에 무작위적으로 16,841 개의 프레임이 샘플링되었다. 이러한 프레임들은 훈련과 테스트를 위해 각각 13,605 개와 3,236개의 세트로 나뉘었다.
이러한 실험에서, Raindrop1119를 사용하여 훈련되었던 베이스라인과 RainGAN을 재훈련시켜서, 새롭게 얻어진 데이터세트에 대한 이들의 유효성을 탐구하였다. 그 결과, 집중 GAN은 미세 튜닝 이후에 열악한 성능을 보여줬는데, 그 이유는 [6]에 있는 임계에 기반한 방법을 사용해서는 물방울을 정확하게 국지화(localize)하는 마스크 이미지를 얻는 것이 불가능했기 때문이다.
표 2 는 실험 결과를 보여준다.
Figure 112020089771839-pat00048
Pix2Pix 및 집중 GAN과 비교할 때, 사전 학습된 RainGAN은 모든 메트릭에 있어서 더 향상된 물방울 제거 성능을 보여줬다. 또한, 비지도 방식으로 재훈련된 미세 튜닝된 RainGAN은 다른 모델들보다 더욱 우수했다(PSNR=26.505, SSIM=0.940, 및 NIQE=11.878). 실험 결과로부터, NIQE도 연안 영상의 이미지 품질을 위해 비견될만한 점수를 제공하는데 한계가 있다는 것을 관찰하였다. 비록 집중 GAN이 PSNR 및 SSIM에 있어서 열화된 성능을 보여줬지만, 그 NIQE 점수는 평균적으로 왜곡된 이미지의 점수보다 낮았다(더 양호했음). 이러한 결과는, 파도가 부서질 때 관찰되는 흰색 비말들이 많아서 패턴이 복잡해지기 때문일 수 있다.
도 6a 및 도 6b는 쌍을 이루는 데이터집합에 의한 테스트 결과를 보여준다. 도 6a 및 도 6b에서 (a) 및 (b)는 각각 쌍을 이루는 왜곡된 이미지와 깨끗한 이미지이고, (c), (d), (e), (f)는 각각 Pix2Pix, 집중 GAN, 사전 훈련된 RainGAN, 및 본 발명에 의해 미세 튜닝된 RainGAN의 테스트 결과를 보여준다.
이미지 품질을 시각적으로 평가함에 있어서도, 미세 튜닝된 RainGAN이 파도의 마루와 부서짐의 이미지 패턴을 복원하는데 있어서 더 좋은 성능을 나타냈다(도 6의 원과 화살표 참조). 비지도 학습 방법을 위해서는 물방울 유무에 따라 쌍을 이루는 데이터세트가 있어야 하지만, 본 발명에 따른 비지도 방식은 실외의 시각 감지 시스템으로부터 획득된 모든 연산 비디오를 활용할 수 있다.
안목 해변의 쌍을 이루지 않는 물방울 이미지 데이터세트에 적용하기
본 발명의 기술의 실제 유효성을 평가하기 위하여, 안목 해변의 쌍을 이루지 않는 물방울 이미지 데이터세트를 사용하여 베이스라인과 RainGAN의 이미지 품질 평가가 수행되었다. 2개월 동안의 연안 비디오로부터, 비가 오는 날과 오지 않는 날의 비디오 클립이 별개로 수집되었고, 두 데이터세트로부터 12,000 개의 비디오 프레임이 무작위로 샘플링되었다. 여기에서, 비가 오는 날과 오지 않는 날의 비디오 클립의 샘플링된 이미지들 사이에는 시간적 상관성이 전혀 없다는 것에 주의한다. Raindrop1119를 사용하여 훈련된 RainGAN이 쌍을 이루지 않는 세트를 사용하여 재훈련되었다.
Figure 112020089771839-pat00049
표 3은 복원된 이미지들에 대한 이미지 품질 측정 결과를 보여준다. 도 7에서 (a)는 왜곡된 이미지를 보여주고, (b), (c), (d), 및 (e)는 각각 Pix2Pix, 집중 GAN, 사전 훈련된 RainGAN, 및 본 발명에 의해 미세 튜닝된 RainGAN의 테스트 결과를 보여준다. Pix2Pix와 비교할 때, 집중 GAN 및 본 발명에 의한 미세 튜닝된 RainGAN이 NIQE에 있어서 더 양호한 성능을 나타냈다. 도 7에 표시된 바와 같이, 집중 GAN에 비하여 미세 튜닝된 RainGAN의 복원된 이미지에서 전파되는 파도의 경계가 더 선명하고 파도 패턴이 더 선명하다는 것이 관찰되었다.
이상과 같이, 본 발명에 의하여 짝을 이루지 않는 데이터집합을 바탕으로 훈련하여 서로 다른 두 도메인 간의 영상 전환이 가능해지며, 오염물에 의해 오염된 오염 영역을 집중적으로 복원하기 때문에, 오염되지 않은 배경 영상은 과보정되지 않고 유지되게 된다. 따라서, 종래 기술에서 특정한 영역이 아닌 전체 영상 영역을 보정하기 때문에 발생되는 비왜곡 영역에서의 품질 저하 현상을 방지할 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 예를 들면, 본 발명은 물방울에 의한 왜곡 이외의 다양한 왜곡을 복원하기 위하여 사용될 수 있다.
또한, 본 발명에 따르는 방법은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함할 수 있다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 분산 컴퓨터 시스템에 의하여 분산 방식으로 실행될 수 있는 컴퓨터가 읽을 수 있는 코드를 저장할 수 있다.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설시된 특징, 수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다. 그리고, 명세서에 기재된 "...부", "...기", "모듈", "블록" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
따라서, 본 실시예 및 본 명세서에 첨부된 도면은 본 발명에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 본 발명의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시예는 모두 본 발명의 권리범위에 포함되는 것이 자명하다고 할 것이다.
본 발명은 신경망을 활용한 영상 정정 기술에 적용될 수 있다.
[참조 문헌]
[1] Nair, V.; Hinton, G.E. Rectified linear units improve restricted boltzmann machines. Proceedings of the 27th international conference on machine learning (ICML-10), 2010, pp. 807-814.
[2] Yu, F.; Koltun, V. Multi-scale context aggregation by dilated convolutions. arXiv preprint arXiv:1511.07122 2015.
[3] He, K.; Zhang, X.; Ren, S.; Sun, J. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. Proceedings of the IEEE international conference on computer vision, 2015, pp. 398 1026-1034.
[4] Kingma, D.P.; Ba, J. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980 2014.
[5] Isola, P.; Zhu, J.Y.; Zhou, T.; Efros, A.A. Image-to-image translation with conditional adversarial networks. Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 1125-1134.
[6] Qian, R.; Tan, R.T.; Yang, W.; Su, J.; Liu, J. Attentive generative adversarial network for raindrop removal from a single image. Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp. 2482-2491.
[7] Mittal, A.; Soundararajan, R.; Bovik, A.C. Making a "completely blind" image quality analyzer. IEEE Signal Processing Letters 2012, 20, 209-212.

Claims (14)

  1. 콘볼루션 신경망으로서 구현되는 장면 생성기 및 진위 판별기를 포함하는 적대적 생성 신경망(Generative Adversarial Network; GAN)에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 방법으로서,
    장면 생성기가, 입력 이미지를 수신하고 수신된 입력 이미지 내의 오염 영역에 대응하는 마스크를 생성하는 단계;
    장면 생성기가, 생성된 마스크에 기반하여 상기 입력 이미지 중 상기 오염 영역을 복원한 복원 이미지를 생성하는 단계;
    장면 생성기가, 상기 입력 이미지 중 상기 오염 영역을 제외한 배경 이미지와 상기 오염 영역을 복원한 복원 이미지를 조합하여 출력 이미지를 생성하는 단계;
    진위 판별기가, 상기 출력 이미지를 수신하고, 수신된 출력 이미지가 촬영된 실제 이미지인지 상기 장면 생성기에 의해 생성된 가짜 이미지인지 여부를 판별하는 단계; 및
    상기 장면 생성기는, 상기 진위 판별기가 실제 이미지 및 가짜 이미지를 완벽하게 판별한다고 가정할 때, 상기 진위 판별기의 판별 정확도를 최소화하도록 상기 출력 이미지의 생성 동작을 학습하고, 상기 진위 판별기는 상기 장면 생성기에 대해 적대적으로, 상기 판별 정확도를 높이도록 판별 동작을 학습하는 단계를 포함하고,
    상기 장면 생성기 및 상기 진위 판별기는, 동일한 장소를 촬영한 오염된 이미지와 쌍을 이루는 오염되지 않은 이미지를 사용하지 않고서, 상기 생성 동작 및 상기 판별 동작을 각각 자발적으로 학습하며,
    상기 마스크를 생성하는 단계는,
    상기 입력 이미지 중 오염 영역이 희소하게 존재한다는 가정에 기반하여, 상기 마스크의 손실 함수를,
    Figure 112021071135442-pat00050

    으로서 계산하는 것을 포함하고,
    여기에서
    Figure 112021071135442-pat00051
    는 마스크 손실 함수이고,
    Figure 112021071135442-pat00052
    은 마스크 벡터이며,
    Figure 112021071135442-pat00053
    은 훈련용 인스턴스의 집합이고, || ||1은 L1 놈(norm) 연산자인 것을 특징으로 하는, GAN에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 복원 이미지를 생성하는 단계는,
    상기 장면 생성기가, 상기 훈련 인스턴스의 집합 중에서 무작위로 샘플링된 오염이 없는 깨끗한 이미지를 수신하는 것; 및
    상기 깨끗한 이미지를 그대로 출력하면서, 상기 마스크의 모든 픽셀값이 0이 될 정규화 손실 함수를,
    Figure 112021071135442-pat00054

    으로서 계산하는 것을 포함하고,
    여기에서
    Figure 112021071135442-pat00055
    는 정규화 손실이고,
    Figure 112021071135442-pat00056
    는 오염이 없는 깨끗한 이미지를 나타내는 벡터이며,
    Figure 112021071135442-pat00057
    는 비트단위 승산 연산자인 것을 특징으로 하는, GAN에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 방법.
  4. 제3항에 있어서,
    상기 복원 이미지를 생성하는 단계는,
    상기 입력 이미지에 포함된 중요한 특징들을 학습하는 것;
    상기 입력 이미지로부터 큰 수용 필드(receptive field)를 가지는 심화 아키텍처를 구축하기 위하여 팽창된 콘볼루션(dilated convolution)을 수행하는 것; 및
    상기 입력 이미지의 초기 레이어 특징(early-layer fecture)를 스킵 연결(skip-connection)을 통해 전달받아, 상기 복원 이미지와 상기 마스크를 동시에 생성하는 것을 더 포함하고,
    상기 마스크 및 상기 복원 이미지는 상기 입력 이미지의 마지막 레이어로부터 생성되는 것을 특징으로 하는, GAN에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 방법.
  5. 제4항에 있어서,
    상기 출력 이미지를 생성하는 단계는,
    상기 장면 생성기가,
    Figure 112020089771839-pat00058

    에 의해 출력 이미지
    Figure 112020089771839-pat00059
    를 생성하는 것을 포함하고,
    여기에서,
    Figure 112020089771839-pat00060
    는 입력 이미지 벡터이고,
    Figure 112020089771839-pat00061
    는 상기 오염 영역이 복원된 이미지 벡터인 것을 특징으로 하는, GAN에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 방법.
  6. 제5항에 있어서,
    상기 판별하는 단계는,
    상기 진위 판별기의 손실 함수를
    Figure 112020089771839-pat00062

    로서 계산하는 것; 및
    상기 장면 생성기의 손실 함수를
    Figure 112020089771839-pat00063

    로서 계산하는 것을 포함하고,
    여기에서
    Figure 112020089771839-pat00064
    는 진위 판별기의 판별 결과를 나타내고, || ||2는 L2 놈 연산자인 것을 특징으로 하는, GAN에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 방법.
  7. 제6항에 있어서,
    상기 학습하는 단계는,
    상기 적대적 생성 신경망(GAN)의 전체 손실 함수를,
    Figure 112020089771839-pat00065

    으로서 계산하는 것; 및
    상기 장면 생성기 및 상기 진위 판별기는, 상기 전체 손실 함수가 최소가 되도록 상기 생성 동작 및 상기 판별 동작을 각각 자발적으로 학습하는 것을 포함하고,
    여기에서,
    Figure 112020089771839-pat00066
    Figure 112020089771839-pat00067
    는 대응하는 손실 함수의 중요도를 반영하는 하이퍼 파라미터인 것을 특징으로 하는, GAN에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 방법.
  8. 적대적 생성 신경망(GAN)에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 시스템으로서,
    콘볼루션 신경망으로서 구현되는 장면 생성기 및 진위 판별기를 포함하고,
    상기 장면 생성기는,
    입력 이미지를 수신하고 수신된 입력 이미지 내의 오염 영역에 대응하는 마스크를 생성하며,
    생성된 마스크에 기반하여 상기 입력 이미지 중 상기 오염 영역을 복원한 복원 이미지를 생성하고,
    상기 입력 이미지 중 상기 오염 영역을 제외한 배경 이미지와 상기 오염 영역을 복원한 복원 이미지를 조합하여 출력 이미지를 생성하도록 구성되고,
    상기 진위 판별기는,
    상기 출력 이미지를 수신하고, 수신된 출력 이미지가 촬영된 실제 이미지인지 상기 장면 생성기에 의해 생성된 가짜 이미지인지 여부를 판별하도록 구성되며,
    상기 장면 생성기는, 상기 진위 판별기가 실제 이미지 및 가짜 이미지를 완벽하게 판별한다고 가정할 때, 상기 진위 판별기의 판별 정확도를 최소화하도록 상기 출력 이미지의 생성 동작을 학습하게끔 구성되고,
    상기 진위 판별기는 상기 장면 생성기에 대해 적대적으로, 상기 판별 정확도를 높이도록 판별 동작을 학습하게끔 구성되고,
    상기 장면 생성기 및 상기 진위 판별기는, 동일한 장소를 촬영한 오염된 이미지와 쌍을 이루는 오염되지 않은 이미지를 사용하지 않고서, 상기 생성 동작 및 상기 판별 동작을 각각 자발적으로 학습하도록 구성되며,
    상기 장면 생성기는, 상기 마스크를 생성하기 위하여,
    상기 입력 이미지 중 오염 영역이 희소하게 존재한다는 가정에 기반하여, 상기 마스크의 손실 함수를,
    Figure 112021071135442-pat00068

    으로서 계산하도록 구성되고,
    여기에서
    Figure 112021071135442-pat00069
    는 마스크 손실 함수이고,
    Figure 112021071135442-pat00070
    은 마스크 벡터이며,
    Figure 112021071135442-pat00071
    은 훈련용 인스턴스의 집합이고, || ||1은 L1 놈 연산자인 것을 특징으로 하는, GAN에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 시스템.
  9. 삭제
  10. 제8항에 있어서,
    상기 장면 생성기는, 상기 복원 이미지를 생성하기 위하여,
    상기 훈련 인스턴스의 집합 중에서 무작위로 샘플링된 오염이 없는 깨끗한 이미지를 수신하고,
    상기 깨끗한 이미지를 그대로 출력하면서, 상기 마스크의 모든 픽셀값이 0이 될 정규화 손실 함수를,
    Figure 112021071135442-pat00072

    으로서 계산하도록 구성되고,
    여기에서
    Figure 112021071135442-pat00073
    는 정규화 손실이고,
    Figure 112021071135442-pat00074
    는 오염이 없는 깨끗한 이미지를 나타내는 벡터이며,
    Figure 112021071135442-pat00075
    는 비트단위 승산 연산자인 것을 특징으로 하는, GAN에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 시스템.
  11. 제10항에 있어서,
    상기 장면 생성기는, 상기 복원 이미지를 생성하기 위하여,
    상기 입력 이미지에 포함된 중요한 특징들을 학습하고,
    상기 입력 이미지로부터 큰 수용 필드를 가지는 심화 아키텍처를 구축하기 위하여 팽창된 콘볼루션을 수행하며,
    상기 입력 이미지의 초기 레이어 특징을 스킵 연결을 통해 전달받아, 상기 복원 이미지와 상기 마스크를 동시에 생성하도록 구성되고,
    상기 마스크 및 상기 복원 이미지는 상기 입력 이미지의 마지막 레이어로부터 생성되는 것을 특징으로 하는, GAN에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 시스템.
  12. 제11항에 있어서,
    상기 장면 생성기는,
    Figure 112020089771839-pat00076

    에 의해 출력 이미지
    Figure 112020089771839-pat00077
    를 생성하도록 구성되고,
    여기에서,
    Figure 112020089771839-pat00078
    는 입력 이미지 벡터이고,
    Figure 112020089771839-pat00079
    는 상기 오염 영역이 복원된 이미지 벡터인 것을 특징으로 하는, GAN에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 시스템.
  13. 제12항에 있어서,
    상기 진위 판별기는,
    상기 진위 판별기의 손실 함수를
    Figure 112020089771839-pat00080

    로서 계산하도록 구성되고,
    상기 장면 생성기는, 상기 장면 생성기의 손실 함수를
    Figure 112020089771839-pat00081

    로서 계산하도록 구성되며,
    여기에서
    Figure 112020089771839-pat00082
    는 진위 판별기의 판별 결과를 나타내고, || ||2는 L2 놈 연산자인 것을 특징으로 하는, GAN에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 시스템.
  14. 제13항에 있어서,
    상기 장면 생성기 및 상기 진위 판별기는,
    Figure 112020089771839-pat00083

    로 계산되는 전체 손실 함수가 최소가 되도록 상기 생성 동작 및 상기 판별 동작을 각각 자발적으로 학습하도록 구성되고,
    여기에서,
    Figure 112020089771839-pat00084
    Figure 112020089771839-pat00085
    는 대응하는 손실 함수의 중요도를 반영하는 하이퍼 파라미터인 것을 특징으로 하는, GAN에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 시스템.
KR1020200107652A 2020-08-26 2020-08-26 적대적 생성 신경망에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 방법 및 시스템 KR102288645B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200107652A KR102288645B1 (ko) 2020-08-26 2020-08-26 적대적 생성 신경망에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200107652A KR102288645B1 (ko) 2020-08-26 2020-08-26 적대적 생성 신경망에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 방법 및 시스템

Publications (1)

Publication Number Publication Date
KR102288645B1 true KR102288645B1 (ko) 2021-08-10

Family

ID=77316044

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200107652A KR102288645B1 (ko) 2020-08-26 2020-08-26 적대적 생성 신경망에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR102288645B1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114820379A (zh) * 2022-05-12 2022-07-29 中南大学 基于注意力对偶残差生成对抗网络的图像类雨层去除方法
CN114972802A (zh) * 2022-04-18 2022-08-30 北京理工大学 一种基于混合监督模型的高光谱图像恢复方法和系统
CN115661535A (zh) * 2022-10-31 2023-01-31 中国矿业大学 一种目标去除背景恢复方法、装置和电子设备
WO2023163273A1 (ko) * 2022-02-23 2023-08-31 주식회사 오엔디자인 털 이미지 제거 신경망의 학습 시스템 및 방법
CN117152000A (zh) * 2023-08-08 2023-12-01 华中科技大学 雨天图像-清晰背景成对数据集制作方法、装置及其应用
WO2024019331A1 (en) * 2022-07-20 2024-01-25 Samsung Electronics Co., Ltd. Apparatus and method for performing image authentication
CN117575917A (zh) * 2023-11-08 2024-02-20 齐齐哈尔大学 一种基于深度学习的老电影修复方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Yiyang Shen, et al, "MBA-RainGAN: Multi-branch Attention Generative Adversarial Network for Mixture of Rain Removal from Single Images", Computer Science_Computer Vision and Pattern Recognition, arXiv:2005.10582, 23 May 2020(2020.05.21.) 1부.* *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023163273A1 (ko) * 2022-02-23 2023-08-31 주식회사 오엔디자인 털 이미지 제거 신경망의 학습 시스템 및 방법
CN114972802A (zh) * 2022-04-18 2022-08-30 北京理工大学 一种基于混合监督模型的高光谱图像恢复方法和系统
CN114972802B (zh) * 2022-04-18 2024-05-31 北京理工大学 一种基于混合监督模型的高光谱图像恢复方法和系统
CN114820379A (zh) * 2022-05-12 2022-07-29 中南大学 基于注意力对偶残差生成对抗网络的图像类雨层去除方法
CN114820379B (zh) * 2022-05-12 2024-04-26 中南大学 基于注意力对偶残差生成对抗网络的图像类雨层去除方法
WO2024019331A1 (en) * 2022-07-20 2024-01-25 Samsung Electronics Co., Ltd. Apparatus and method for performing image authentication
CN115661535A (zh) * 2022-10-31 2023-01-31 中国矿业大学 一种目标去除背景恢复方法、装置和电子设备
CN115661535B (zh) * 2022-10-31 2023-11-03 中国矿业大学 一种目标去除背景恢复方法、装置和电子设备
CN117152000A (zh) * 2023-08-08 2023-12-01 华中科技大学 雨天图像-清晰背景成对数据集制作方法、装置及其应用
CN117152000B (zh) * 2023-08-08 2024-05-14 华中科技大学 雨天图像-清晰背景成对数据集制作方法、装置及其应用
CN117575917A (zh) * 2023-11-08 2024-02-20 齐齐哈尔大学 一种基于深度学习的老电影修复方法

Similar Documents

Publication Publication Date Title
KR102288645B1 (ko) 적대적 생성 신경망에 기반한 비지도 학습을 통해 이미지의 오염 영역을 복원하는 기계 학습 방법 및 시스템
CN108805015B (zh) 加权卷积自编码长短期记忆网络人群异常检测方法
CN111199522A (zh) 一种基于多尺度残差生成对抗网络的单图像盲去运动模糊方法
Zheng et al. Single image cloud removal using U-Net and generative adversarial networks
CN110097028B (zh) 基于三维金字塔图像生成网络的人群异常事件检测方法
CN112990065B (zh) 一种基于优化的YOLOv5模型的车辆分类检测方法
Fayaz et al. Underwater image restoration: A state‐of‐the‐art review
CN114463218B (zh) 一种基于事件数据驱动的视频去模糊方法
CN111275627A (zh) 一种基于雪模型和深度学习融合的图像去雪算法
CN116596792B (zh) 一种面向智能船舶的内河雾天场景恢复方法、系统及设备
Chaudhary et al. Tsnet: deep network for human action recognition in hazy videos
Malav et al. DHSGAN: An end to end dehazing network for fog and smoke
Babu et al. An efficient image dahazing using Googlenet based convolution neural networks
Yan et al. Rain removal from light field images with 4d convolution and multi-scale gaussian process
Mukherjee et al. Visual quality enhancement of images under adverse weather conditions
Uzun et al. Cycle-spinning gan for raindrop removal from images
CN117474805A (zh) 水陆两栖环境下基于机器学习的环境图像复原方法
CN112149596A (zh) 一种异常行为检测方法、终端设备及存储介质
CN110738113B (zh) 一种基于邻近尺度特征滤除与转移的物体检测方法
Ren et al. Not All Areas Are Equal: A Novel Separation‐Restoration‐Fusion Network for Image Raindrop Removal
Joy et al. Deep multi-scale residual learning for single image de-hazing
Galshetwar et al. Single frame-based video dehazing with adversarial learning
Jang et al. Lightweight deep extraction networks for single image de-raining
Ren et al. Aggregating Long-term Sharp Features via Hybrid Transformers for Video Deblurring
Galshetwar et al. Video enhancement with single frame

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant