KR20220037874A

KR20220037874A - 영상 복원 장치

Info

Publication number: KR20220037874A
Application number: KR1020200120851A
Authority: KR
Inventors: 황인준; 유제혁; 김충일; 조용장
Original assignee: 고려대학교 산학협력단
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2022-03-25

Abstract

본 발명은 영상 내부에 존재할 수 있는 손실된 영상 역을 일관성 있게 복원하는 완전 연결 신경망(Fully Connected Network) 및 합성곱 신경망(Convolutional Neural Network)을 이용하여 영상을 복원하는 영상 복원 장치에 관한 것이다.
본 발명의 일실시예에 의한 영상 복원 장치는 제1입력값을 다수의 합성곱 신경망들의 입력으로 사용하여 제1결과값을 출력하는 암호부; 상기 제1결과값을 적어도 하나의 완전 신경 신경망의 입력으로 사용하여 제2결과값을 출력하는 은닉부; 및 상기 제2결과값을 다수의 합성곱 신경망들을 입력으로 사용하여 복원된 영상을 출력하는 복호부를 포함할 수 있다.

Description

영상 복원 장치{Apparatus of Image Inpainting}

본 발명은 영상 복원 장치에 관한 것으로, 보다 상세하게는 영상 내부에 존재할 수 있는 손실된 영상 역을 일관성 있게 복원하는 완전 연결 신경망(Fully Connected Network) 및 합성곱 신경망(Convolutional Neural Network)을 이용하여 영상을 복원하는 영상 복원 장치에 관한 것이다.

최근 다양한 종류와 방대한 양의 영상 데이터들이 생성되고 있고, 이러한 영상 데이터를 자동화하여 처리하기 위한 다양한 기술들이 개발되고 있다. 특히 인공 신경망(Neural network) 기술이 발전하면서, 이를 이용하여 자동으로 영상 데이터를 학습하고 분류하는 처리 등이 산업계에 적용되고 있다.

이러한 인공 신경망 기술중 비교적 널리 사용되고 있는 합성곱 신경망(Convoltuional Neural Network, CNN) 기술의 경우, 하나 또는 여러 개의 콘볼루션 계층(convolutional layer)과 풀링 계층(pooling layer), 완전하게 연결된 계층(fully connected layer)들로 구성된 구조를 가지며, 특히 2차원 데이터의 학습에 적합한 구조를 가지고 있는 것으로 알려져 있다. 역전달(Backpropagation algorithm)을 통해 훈련될 수 있으며, 영상 내 객체 분류, 객체 탐지 등 다양한 응용 분야에 폭넓게 활용되는 모델이다.

복원 장치 및 방법에서 합성곱 신경망을 활용한 기존의 방법들은, 영상의 일부 영역에 집중하여 학습하므로, 손실된 영역이 넓거나, 복잡한 영상정보를 활용해 복원해야 하는 경우 성능이 떨어지는 문제점을 가지고 있다. 또한, 합성곱 신경망의 구조상, 전체 영상영역의 정보를 모두 반영하지 못하여 복원과 전혀 관련 없는 형태 혹은 색깔로 복원하는 단점을 가지고 있다.

반대로, 완전 연결 신경망(Fully Connected Network)은 영상의 전체 해상도에 해당하는 영역을 전부 학습할 수 있다. 하지만, 완전 연결 신경망은 영상의 해상도에 비례하여 연산량이 증가하기 때문에, 학습 속도의 저하가 일어나고, 충분한 학습을 위해서 고사양의 하드웨어를 요구하는 문제점을 가지고 있다.

따라서 심층학습 기술 중의 하나인 완전 연결 신경망과 합성곱 신경망을 적절히 활용하여 영상의 전체 해상도에 해당하는 영역을 학습할 뿐만 아니라, 계산량을 줄여 동시에 학습 속도 저하를 방지할 수 있는 기술에 대한 연구가 필요한 실정이다.

대한민국 등록특허 제10-1996730 호 인공신경망을 이용한 단일 영상 고해상도 복원 방법 및 시스템

본 발명의 목적은 심층학습 기술 중의 하나인 완전 연결 신경망과 합성곱 신경망을 활용하여, 손실된 영역 근처의 모든 영상정보를 계산하고, 이를 통해 손실영역을 실감성 있게 복원할 수 있는 영상 복원 장치를 제공하는 데 있다.

상기 목적을 달성하기 위해 본 발명의 일실시예에 의하면, 제1입력값을 다수의 합성곱 신경망들의 입력으로 사용하여 제1결과값을 출력하는 암호부; 상기 제1결과값을 적어도 하나의 완전 신경 신경망의 입력으로 사용하여 제2결과값을 출력하는 은닉부; 및 상기 제2결과값을 다수의 합성곱 신경망들을 입력으로 사용하여 복원된 영상을 출력하는 복호부를 포함하는 영상 복원 장치가 개시된다.

본 발명의 일실시예에 의한 영상 복원 장치는 합성곱 신경망만을 활용하는 기존 심층학습 방식의 모델에 완전 연결 신경망을 추가함으로써, 보다 실감성 있게 손실된 영상영역을 복구할 수 있다.

본 발명의 일실시예에 의하면, 손실된 영상복원 뿐만 아니라, 영상 스타일 변형, 영상 샘플 생성, 흑백 사진의 색채화 등 다양한 분야에 효과적으로 적용할 수 있다.

도 1은 본 발명의 일실시예와 관련된 영상 복원 장치의 블록도이다.
도 2는 본 발명의 일실시예와 관련된 데이터 구성부에서 획득한 데이터의 일례를 설명하기 위한 도면이다.
도 3은 본 발명의 일실시예와 관련된 데이터 전처리부에서 처리된 영상의 일례를 설명하기 위한 도면이다.
도 4는 본 발명의 일실시예와 관련된 합성곱 신경망을 설명하기 위한 도면이다.
도 5는 본 발명의 일실시예와 관련된 완전연결 신경망을 설명하기 위한 도면이다.
도 6은 본 발명의 일실시예와 관련된 생성부에서 영상을 복원하는 과정을 설명하기 위한 도면이다.
도 7은 본 발명의 일실시예와 관련된 생성부에서 완전연결 신경망을 사용하여 영상을 복원한 경우와 그렇지 않은 경우를 설명하기 위한 도면이다.

이하, 본 발명의 일실시예와 관련된 영상 복원 장치에 대해 도면을 참조하여 설명하도록 하겠다.

본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.

도 1은 본 발명의 일실시예와 관련된 영상 복원 장치의 블록도이다.

도시된 바와 같이, 영상 복원 장치(300)는 데이터 구성부(100) 및 복원 모델 구성부(200)를 포함할 수 있다.

상기 데이터 구성부(100)는 영상 구성부(110) 및 마스크 구성부(120)를 포함할 수 있다.

상기 영상 구성부(110)는 훈련에 사용할 영상을 인터넷에서 수집하거나 촬영을 하여 획득할 수 있다.

상기 마스크 구성부(120)는 정규 마스크 구성부(121) 및 비정규 마스크 구성부(122)를 포함할 수 있다.

도 2는 본 발명의 일실시예와 관련된 데이터 구성부에서 획득한 데이터의 일례를 설명하기 위한 도면이다.

도 2(a)는 상기 영상 구성부(110)에서 획득한 훈련을 위한 입력 영상이다.

도 2(b)는 정규 마스크 구성부(121)에서 획득한 정규 마스크이다. 상기 정규 마스크는 각 영상크기의 가로와 세로가 각각 절반 사이즈로, 프로그래밍 구현을 통해 수집될 수 있다.

도 2(c)는 비정규 마스크 구성부(122)에서 획득한 비정규 마스크이다. 비정규 마스크는 크기나 모양이 정형화되지 않은 마스크로, 인터넷을 통해 수집되거나 임의의 그래픽 편집 프로그램을 통해 제작될 수 있다.

상기 복원 모델 구성부(200)는 데이터 전처리부(210) 및 복원부(250)를 포함할 수 있다.

상기 데이터 전처리부(210)는 정규화부(211), 영역 제거부(212) 및 외각 생성부(213)를 포함할 수 있다.

도 3는 본 발명의 일실시예와 관련된 데이터 전처리부에서 처리된 영상의 일례를 설명하기 위한 도면이다.

도 3(a)는 영상 구성부(110)에서 획득한 입력 영상을 입력받아 정규화부(211)가 정규화한 영상을 나타낸다.

상기 정규화부(211)는 수집된 데이터를 보다 학습에 효과적으로 반영하기 위하여 영상 구성부(110)에서 획득한 입력 영상의 영상값을 0과 255 사이의 값에서-1과 1 사이의 값으로 변경할 수 있다.

마스크는, 256x256 사이즈의 영상에서 가려져야 할 부분(마스크 영역)에 대해 1, 가려지지 않는 부분에 대해 0의 값을 가지고 있다. 이 값에 비해, 영상은 0과 255 사이의 값으로 상대적으로 큰 값의 범위를　가지고 있다. 이럴 경우, 이 둘을 입력으로 받는 복원 모델은 영상에 값에 민감하게 반응할 가능성이 높다. 이는 초기 훈련의 어려움을 초래할 가능성이 있다.

따라서 이를 방지하기 위해 입력 영상의 영상값을 -1~1로 변경하는데, y=(x/127.5)-1을 통해 x에 영상값을 넣어 -1 ~ 1 사이 값을 가지는 y를 출력해 사용할 수 있다.　

상기 영역 제거부(212)는 정규화부(211)를 통해 정규화된 영상 및 마스크 구성부(120)에서 획득된 마스크를 입력으로 수신하여 상기 정규화된 영상의 일부 영역을 제거할 수 있다.

도 3(b)는 상기 정규화된 영상의 일부 영역이 제거된 영상을 나타낸다. 상기와 같이 영상의 일부 영역을 제거하는 이유는 가능한 다양한 모든 손실 상황에 대해 강건하게 복원하게 하기 위함이다. 이를 위해 훈련 과정에서 임의로 영상을 제거한 영상을 입력할 수 있다.

　이 때, 정규 마스크와 비정규 마스크 중 임의로 한 종류의 마스크를 선택할 수 있다. 만약, 비정규 마스크를 선택했다면, 비정규 마스크 데이터셋 내 임의의 샘플을 선택할 수 있다. 그리고 선택한 마스크를 영상의 임의의 위치에 이동시켜 이를 제거할 수 있다.

도 3(c)는 상기 외각 생성부(213)에서 추출한 외각 추출 영상이다. 상기 외각 추출 영상은 마스크에 의해 가려진 원본 영상의 부분에 대해 특정 알고리즘(예: canny edge algorithm)을 활용해 외각 값을 추출한 영상이다.

상기 복원부(250)는 생성부(230) 및 판별부(240)를 포함할 수 있다.

상기 생성부(230)는 완전 연결 신경망과 합성곱 신경망을 활용하여 손실된 영상을 복원할 수 있다. 이하에서는 각 신경망의 특징에 대해 설명하도록 한다.

도 4는 본 발명의 일실시예와 관련된 합성곱 신경망을 설명하기 위한 도면이고, 도 5는 본 발명의 일실시예와 관련된 완전연결 신경망을 설명하기 위한 도면이다.

합성곱 신경망은 (a, b) 좌표의 한 픽셀

를 계산할 때, 입력 x에서 제한된 일부 영상영역에 대해서만 연산하지만, 완전 연결 신경망은 매 출력마다 영상의 모든 영역에 대해서 연산할 수 있다. 연산된 정보는 효과적인 손실영역 복원에 직접적인 영향을 미친다.

복원 장치 및 방법에서 합성곱 신경망을 활용한 기존의 방법들은, 영상의 일부 영역에 집중하여 학습하므로, 손실된 영역이 넓거나, 복잡한 영상 정보를 활용해 복원해야 하는 경우 성능이 떨어지는 문제점을 가지고 있다. 또한, 합성곱 신경망의 구조상, 전체 영상영역의 정보를 모두 반영하지 못하여 복원과 전혀 관련 없는 형태 혹은 색깔로 복원하는 단점을 가지고 있다.

반대로, 완전 연결 신경망은 영상의 전체 해상도에 해당하는 영역을 전부 학습할 수 있다. 하지만, 완전 연결 신경망은 영상의 해상도에 비례하여 연산량이 증가하기 때문에, 학습 속도의 저하가 일어나고, 충분한 학습을 위해서 고사양의 하드웨어를 요구하는 문제점을 가지고 있다.

따라서 상기 생성부(230)는 합성곱 신경망 내부에 완전 연결 신경망 구조를 추가하여, 영상 복원 모델이 영상의 전체 해상도에 해당하는 영역을 학습할 뿐만 아니라, 계산량을 줄여 동시에 학습 속도 저하를 방지할 수 있다.

상기 생성부(230)는 다수의 합성곱 신경망들로 이루어진 암호화부(231), 1개 또는 다수의 완전 연결 신경망으로 이루어진 은닉부(232) 및 다수의 합성곱 신경망들로 이루어진 복호화부(233)을 포함할 수 있다.

도 6은 본 발명의 일실시예와 관련된 생성부에서 영상을 복원하는 과정을 설명하기 위한 도면이다.

도시된 바와 같이, 상기 암호화부(231)는 영역 제거부(212)를 통해 일부 영역이 제거된 영상, 상기 마스크 구성부(120)에서 획득한 마스크, 및 외각 생성부(213)에 추출한 외각 추출 영상을 제1입력값으로 수신하여 제1결과값을 출력할 수 있다.

상기 암호화부(231)는 연산량을 낮추기 위해 입력값의 크기를 256x256에서 1x1으로 줄일 수 있다.

상기 은닉부(232)는 상기 은닉부(232)는 암호부를 통해 크기가 줄어든 변수를 입력받아 모든 영역 범위를 학습할 수 있다. 상기 은닉부(232)는 상기 학습을 통해 상기 제1결과값을 입력으로 사용하여 제2결과값을 출력할 수 있다.

그리고 복호화부(233)는 상기 제2결과값을 입력으로 사용하여 복원 영상을 생성할 수 있다. 이 경우, 복호화부(233)의 다수의 합성곱 신경망들은 업스케일링을 수행하고, 암호화부(231)의 다수의 합성곱 신경망들의 공간 정보를 정보를 참조하여 영상을 복원할 수 있다.

상기와 같이, 상기 은닉부(232)를 완전 연결 신경망으로 활용한 이유는 완전 연결 신경망을 암호화부나 복호화부 사이에 넣으면 복원 모델은 입력에 쓰인 모든 영상을 참조할 수 있기 때문에 보다 현실감 있는 영상을 복원할 수 있다. 또한, 완전 연결 신경망의 또 다른 기능으로는 제1입력값을 분포를 원본 분포로 자연스럽게 변형시키는 기능이 있다.

도 7은 본 발명의 일실시예와 관련된 생성부에서 완전연결 신경망을 사용하여 영상을 복원한 경우와 그렇지 않은 경우를 설명하기 위한 도면이다.

도시된 바와 같이, 완전연결 신경망을 사용하면, 도 7의 With FC 줄처럼 중간 과정서 원본 분포에 가깝게 한번 변형을 시켜준 뒤, 이를 복원할 수 있다.

반대로 완전연결 신경망을 사용하지 않으면, W/O FC 줄처럼 변형없이 바로 복원하려고 하기 때문에 매끄러운 복원이 안되는 현상을 보여준다.

상기 판별부(240)는 상기 정규화부(211)를 통해 정규화된 영상, 상기 복호부(233)를 통해 복원된 영상, 및 상기 외각 생성부(213)를 통해 생성된 외각 추출 영상을 수신하고, 상기 수신된 영상을 이용하여 판별대상 영상이 상기 복호부(233)를 통해 복원된 영상인지 정규화부(211)의 영상인지를 판별할 수 있다. 상기 판별부(240)의 판별 기능을 통해 영상 복원을 매우 사실적으로 할 수 있다.

한편, 생성부(230)는 생성 손실함수를 이용하여 훈련을 시키고, 판별부(240)는 판별 손실함수를 이용하여 훈련을 시킬 수 있다.

상기 생성 손실함수는 적대적 손실함수, 복원 손실함수, Perceptual 손실함수 및 Style 손실함수를 포함할 수 있다. 상기 적대적 손실함수는 하기 수학식 1로 표현되고, 상기 복원 손실함수는 하기 수학식 2로 표현되고, 상기 Perceptual 손실함수는 하기 수학식 3으로 표현되고, 상기 Style 손실함수는 하기 수학식 4로 표현될 수 있다.

그리고 판별 손실함수는 하기 수학식 5로 표현될 수 있다.

상기 적대적 손실함수는 판별부(240)를 속이기 위한(복원한 데이터 분포가 원본 데이터 분포에 가깝게 가고자) 손실함수이다.

상기 복원 손실함수는 생성부(230)를 통해 복원한 영상과　원본 영상과의　차이를 줄이고자 고안된 함수이다.

상기 perceptual 손실함수는 ImageNet이란 데이터셋으로 분류 훈련을 학습한 vgg-19 모델을 활용한 함수이다. 이는 원본 영상과　생성부(230)를 통해 복원한 복원　영상이　'의미론적으로 오차가 적도록' 하는 효과가 있다.　

　상기 style 손실함수도 상기 perceptual 손실함수와 마찬가지로 ImageNet이란 데이터셋으로 분류 훈련을 학습한 vgg-19 모델을 활용한 함수이다. 이는 생성부(230)를 통해 복원한 영상과 원본 영상이 '의미론적으로 상관관계가 높게끔' 하는 효과가 있다.　

판별 손실함수를 통해 판별부(240)는 원본 데이터는 진짜로 판단하고, 생성부(230)로 인해 복원된 데이터를 가짜로 판단할 수 있다.

상기 수학식 1 내지 수학식 5의 변수들은 하기 표 1과 같이 정의될 수 있다.

변수	정의
	적대적 손실함수
	영역 제거부, 마스크 구성부, 외각 생성부 변수
	z을 입력받은 생성부의 출력 변수 (영상)
	판별부가 생성부의 출력 변수를 입력 받아 출력한 변수
	z가 영역 제거부, 마스크 구성부, 외각 생성부의 데이터 분포 중 일부 샘플임을 표기
	기대값
	복원 손실함수
	정규화부 변수
	Perceptual 손실함수
	사전 훈련된 모델에 x를 통과시켜 모델 내부의 ReLUi_1란 이름을 가진 레이어가 출력하는 값.
	의 총 차원 수
	Style 손실함수
	의 그램 매트릭스
	판별부가 영상 구성부를 입력받아 출력한 변수
	활성화 함수 중 하나로써, 양수의값은 그대로 음수의 값은 0으로 출력.
	x가 영상 구성부의 데이터 분포 중 일부 샘플임을 표기

전술한 바와 같이, 본 발명의 일실시예에 의한 영상 복원 장치는 합성곱 신경망만을 활용하는 기존 심층학습 방식의 모델에 완전 연결 신경망을 추가함으로써, 보다 실감성 있게 손실된 영상영역을 복구할 수 있다.

상기와 같이 설명된 영상 복원 장치는 상기 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

100: 데이터 구성부
110: 영상 구성부
120: 마스크 구성부
200: 복원 모델 구성부
210: 데이터 전처리부
250: 복원부
300: 영상 복원 장치

Claims

제1입력값을 다수의 합성곱 신경망들의 입력으로 사용하여 제1결과값을 출력하는 암호부;
상기 제1결과값을 적어도 하나의 완전 신경 신경망의 입력으로 사용하여 제2결과값을 출력하는 은닉부; 및
상기 제2결과값을 다수의 합성곱 신경망들을 입력으로 사용하여 복원된 영상을 출력하는 복호부를 포함하는 것을 특징으로 하는 영상 복원 장치.
제1항에 있어서, 상기 영상 복원 장치는
0과 255 사이의 영상값을 가지는 입력 영상 및 마스크 데이터를 획득하는 데이터 구성부; 및
0과 255 사이의 상기 입력 영상의 영상값을 1과 1 사이의 값으로 변경하여 정규화 하는 정규화부, 및 상기 정규화된 영상의 일부 영역을 상기 마스크 데이터를 이용하여 제거하는 영역 제거부를 포함하는 데이터 전처리부를 더 포함하는 것을 특징으로 하는 영상 복원 장치.
제2항에 있어서, 상기 데이터 전처리부는
상기 정규화된 영상에 외각 추출 알고리즘을 활용해 외각을 추출하는 외각 생성부를 더 포함하는 것을 특징으로 하는 영상 복원 장치.
제3항에 있어서, 상기 제1입력값은
상기 마스크 데이터, 상기 마스크 데이터에 의해 영역의 일부가 제거된 영상, 및 상기 외각 생성부에서 생성한 외각 추출 영상을 포함하는 것을 특징으로 하는 영상 복원 장치.
제4항에 있어서, 상기 영상 복원 장치는
상기 정규화부를 통해 정규화된 영상, 상기 복호부를 통해 복원된 영상, 및 상기 외각 생성부를 통해 생성된 외각 추출 영상을 수신하고, 상기 수신된 영상을 이용하여 상기 복호부를 통해 복원된 영상인지 정규화부의 영상인지를 판별하는 판별부를 더 포함하는 것을 특징으로 하는 영상 복원 장치.