KR102565989B1

KR102565989B1 - 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치 및 방법

Info

Publication number: KR102565989B1
Application number: KR1020220047745A
Authority: KR
Inventors: 이철; 박성현
Original assignee: 동국대학교 산학협력단
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2023-08-11

Abstract

본 발명은 가시광 이미지 및 적외선 이미지를 병합하는 기술에 관한 것으로, 구체적으로는 다중 스케일 네트워크를 기반으로 가시광 이미지 및 적외선 이미지의 특징맵을 점진적으로 병합하여 가시광 이미지와 적외선 이미지가 병합된 이미지를 생성하는 기술에 관한 것이다. 본 발명의 일 측면에 따르면, 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치는 동일한 장면에 대한 가시광 이미지 및 적외선 이미지를 입력 받는 입력부; 상기 적외선 이미지를 N 개의 레벨로 다운 샘플링하여 각 레벨에 대한 특징맵 (이하, 적외선 특징맵)을 추출하는 IRNet 모델부; 상기 가시광 이미지를 N 개의 레벨로 다운 샘플링하여 각 레벨에 대한 특징맵(이하, 가시광 특징맵)을 추출하고, N 개의 가시광 특징맵과 N 개의 적외선 특징맵을 점진적으로 병합하여 상기 가시광 이미지와 상기 적외선 이미지가 병합된 병합 이미지를 생성하는 FusionNet 모델부; 및 상기 병합 이미지를 출력하는 출력부;를 포함할 수 있다.

Description

다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치 및 방법{APPARATUS AND METHOD FOR FUSING VISIBLE LIGHT IMAGE AND INFRARED IMAGE BASED ON MULTI-SCALE NETWORK}

본 발명은 가시광 이미지 및 적외선 이미지를 병합하는 기술에 관한 것으로, 구체적으로는 다중 스케일 네트워크를 기반으로 가시광 이미지 및 적외선 이미지의 특징맵을 점진적으로 병합하여 가시광 이미지와 적외선 이미지가 병합된 이미지를 생성하는 기술에 관한 것이다.

가시광 이미지는 사람의 시각에 의해서 인지되는 장면의 디테일을 포함하고 있지만, 촬영된 영상의 품질이 조도나 날씨 같은 환경 조건의 영향을 받을 수 있다. 반면, 적외선 이미지는 열복사 에너지로부터 이미지를 생성하기 때문에 환경 조건의 변화에는 강인하지만 장면의 디테일이 잘 표현되지 못한다는 단점을 갖는다. 따라서, 가시광 이미지 및 적외선 이미지 각각의 특징을 살리기 위해 가시광 이미지와 적외선 이미지를 병합하기 위한 다양한 알고리즘에 대한 개발이 진행되고 있다.

가시광 이미지 및 적외선 이미지의 병합에서 핵심은 각각의 영상에서 의미 있는 특징을 추출하고, 추출된 특징맵을 융합하는 방법에 있다. 기존의 모델 기반 알고리즘은 다양한 수학적 이론을 기반으로 영상의 특징을 추출한 후, 추출된 특징을 기반으로 적절한 융합 규칙을 결정하는 방식으로 진행되나, 이러한 융합 규칙을 설계하고 계산하는 것이 어렵다는 문제점이 존재한다.

최근에는 학습 기반 알고리즘들이 합성 영상을 생성하는 데 기존의 모델 기반의 기법 보다 우수하게 추출할 수 있기에 우수한 성능을 보인다. CNN 기반의 융합 알고리즘은 의미 있는 특징을 추출하여 융합된 영상 간의 복잡한 관계를 특성화시켰다. GAN 기반 융합 알고리즘은 영상 모두에서 화소 값 분포를 보존할 수 있는 합성 영상을 생성하였다. 학습 기반 알고리즘은 기존 모델 기반 기법에 비해서 고품질 융합 영상을 생성하지만, 두 영상 모두의 보완적인 정보를 보존하지 못해서 융합 영상이 한쪽으로 편향될 수 있는 문제점이 존재한다.

한국등록특허 제10-1806045호, "적외선 및 가시광 카메라의 실시간 이미지 합성 장치 및 그 제어 방법"

본 발명의 목적은 적외선 이미지 및 가시광 이미지를 병합하는 기술을 제공하는 것이다.

또한, 본 발명의 목적은 적외선 이미지 및 가시광 이미지의 고유 특징을 살린 병합 기술을 제공하는 것이다.

또한, 본 발명의 목적은 적외선 이미지 및 가시광 이미지의 특징맵을 점진적으로 병합하는 이미지 병합 기술을 제공하는 것이다.

본 발명의 일 측면에 따르면, 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치는 동일한 장면에 대한 가시광 이미지 및 적외선 이미지를 입력 받는 입력부; 상기 적외선 이미지를 N 개의 레벨로 다운 샘플링하여 각 레벨에 대한 특징맵 (이하, 적외선 특징맵)을 추출하는 IRNet 모델부; 상기 가시광 이미지를 N 개의 레벨로 다운 샘플링하여 각 레벨에 대한 특징맵(이하, 가시광 특징맵)을 추출하고, N 개의 가시광 특징맵과 N 개의 적외선 특징맵을 점진적으로 병합하여 상기 가시광 이미지와 상기 적외선 이미지가 병합된 병합 이미지를 생성하는 FusionNet 모델부; 및 상기 병합 이미지를 출력하는 출력부;를 포함할 수 있다.

일 실시예에서, IRNet 모델부는 상기 적외선 이미지의 엣지에 대한 어텐션 맵인 Edge-guided attention map(이하, 적외선 어텐션 맵)을 생성하고, 상기 적외선 이미지와 상기 적외선 어텐션 맵을 연결(concatenation)하여 연결 적외선 이미지를 생성하며, 상기 결합 적외선 이미지를 N 개의 레벨로 다운 샘플링하여 각 레벨에 대한 상기 적외선 특징맵을 추출할 수 있다.

일 실시예에서, IRNet 모델부는 수학식에 따라 상기 적외선 어텐션 맵을 생성할 수 있다.

일 실시예에서, FusionNet 모델부는 상기 가시광 이미지의 엣지에 대한 어텐션 맵인 Edge-guided attention map(이하, 가시광 어텐션 맵)을 생성하고, 상기 가시광 이미지와 상기 가시광 어텐션 맵을 연결(concatenation)하여 연결 가시광 이미지를 생성하며, 상기 결합 가시광 이미지를 N 개의 레벨로 다운 샘플링하여 각 레벨에 대한 상기 가시광 특징맵을 추출할 수 있다.

일 실시예에서, FusionNet 모델부는 수학식에 따라 상기 적외선 어텐션 맵을 생성할 수 있다.

일 실시예에서, FusionNet 모델부는 수학식 에 따라 상기 N 개의 가시광 특징맵과 N 개의 적외선 특징맵을 점진적으로 병합하여 상기 가시광 이미지와 상기 적외선 이미지가 병합된 병합 이미지를 생성할 수 있다.

일 실시예에서, FusionNet 모델부는 상기 N개의 가시광 특징맵과 N개의 적외선 특징맵을 점진적으로 병합하는 것은, M(여기서, M은 2 이상 N 보다 작은 자연수) 레벨의 적외선 특징맵과 M-1 레벨의 적외선 특징맵을 연결하여 M 레벨 연결 적외선 특징맵을 생성하고, M 레벨의 가시광 특징맵과 M 레벨의 적외선 특징맵을 병합하여 M 레벨 병합 특징맵을 생성하며, 상기 병합된 이미지를 생성하는 것은 1 레벨 병합 특징맵을 기반으로 상기 병합된 이미지를 생성할 수 있다.

본 발명의 다른 측면에 따르면, 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 방법은 동일한 장면에 대한 가시광 이미지 및 적외선 이미지를 입력 받는 단계; 상기 적외선 이미지를 N 개의 레벨로 다운 샘플링하여 각 레벨에 대한 특징맵 (이하, 적외선 특징맵)을 추출하는 단계; 상기 가시광 이미지를 N 개의 레벨로 다운 샘플링하여 각 레벨에 대한 특징맵(이하, 가시광 특징맵)을 추출하는 단계; N 개의 가시광 특징맵과 N 개의 적외선 특징맵을 점진적으로 병합하여 상기 가시광 이미지와 상기 적외선 이미지가 병합된 병합 이미지를 생성하는 단계; 및 상기 병합 이미지를 출력하는 단계; 를 포함할 수 있다.

본 발명의 일 측면에 따르면, 적외선 이미지 및 가시광 이미지를 병합하는 것이 가능하게 된다.

또한, 본 발명의 다른 측면에 따르면, 적외선 이미지 및 가시광 이미지의 고유 특징을 살리는 병합 기술이 가능하게 된다.

또한, 본 발명의 다른 측면에 따르면, 적외선 이미지 및 가시광 이미지의 특징맵을 점진적으로 병합하는 이미지 병합 기술이 가능하게 된다.

도 1은 본 발명의 일 실시예에 따른 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치를 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치의 블록도이다.
도 3은 본 발명의 일 실시예에 따른 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 방법의 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 적외선 이미지와 가시광 이미지를 병합하는 모델을 설명하기 위한 도면이다.
도 5 내지 7은 본 발명의 일 실시예에 따른 가시광 이미지 및 적외선 이미지 병합을 설명하기 위한 도면이다.
도 8은 본 발명의 일 실시예에 따른 적외선 이미지, 가시광 이미지 및 병합 이미지의 예를 나타낸다.
도 9는 본 발명의 다른 실시예에 따른 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치의 블록도이다.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.

본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~사이에"와 "바로~사이에" 또는 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 본 발명의 일 실시예에 따른 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치를 설명하기 위한 도면이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치(1000)는 가시광 이미지(1100) 및 적외선 이미지(1200)를 입력 받을 수 있다. 다중 스케일 네트워크 기반의 가시광 이미지(1100) 및 적외선 이미지 병합 장치(1000)는 가시광 이미지(1100) 및 적외선 이미지 각각에 대한 엣지 어텐션 맵을 생성하고, 엣지 어텐션 맵과 연결된 각 이미지에 대한 다중 레벨로 다운 샘플링을 수행할 수 있다. 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치(1000)는 다중 레벨로 다운 샘플링된 각 이미지로부터 특징맵을 추출하고, 추출된 특징맵을 점진적으로 병합할 수 있다. 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치(1000)는 점진적으로 병합된 특징맵을 기반으로 적외선 이미지(1200) 및 가시광 이미지(1100)가 병합된 이미지인 병합 이미지를 생성할 수 있다.

이하, 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치(1000)에 대한 보다 상세한 설명은 도 2 내지 도 9를 참조하여 후술한다.

도 2는 본 발명의 일 실시예에 따른 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치의 블록도이다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치(1000)는 입력부, IRNet 모델부, FusionNet 모델부 및 출력부를 포함할 수 있다.

입력부는 동일한 장면을 촬영한 적외선 이미지 및 가시광 이미지를 입력 받을 수 있다.

일 실시예에서, 입력부는 적외선 카메라 및 가시광 카메라를 포함할 수 있다. 구체적으로, 입력부는 동일한 장면에 대해 적외선 카메라를 기반으로 촬영하여 적외선 이미지를 생성하고, 가시광 카메라를 기반으로 촬영하여 가시광 이미지를 생성할 수 있다.

IRNet 모델부는 적외선 이미지로부터 특징맵을 추출할 수 있다. 구체적으로, IRNet 모델부는 적외선 이미지를 기반으로 적외선 이미지의 엣지에 대한 어텐션 맵인 Edge-guided attention map(이하, 적외선 어텐션 맵)을 생성할 수 있다. IRNet 모델부는 적외선 이미지와 적외선 어텐션 맵을 연결(concatenation)하여 연결 적외선 이미지를 생성할 수 있다. IRNet 모델부는 결합 적외선 이미지를 N 개의 레벨로 다운 샘플링하여 각 레벨에 대한 적외선 특징맵을 추출할 수 있다. IRNet 모델부는 추출된 적외선 특징맵을 점진적으로 병합할 수 있다. IRNet 모델부는 각 레벨에서 점진적으로 병합된 특징맵을 FusionNet 모델부에 전송할 수 있다.

FusionNet 모델부는 가시광 이미지로부터 특징맵을 추출하고, 가시광 이미지로부터 추출된 특징맵과 적외선 이미지로부터 추출된 특징맵을 점진적으로 병합하여 병합 이미지를 생성할 수 있다. 구체적으로, FusionNet 모델부는 적외선 이미지의 엣지에 대한 어텐션 맵인 Edge-guided attention map(이하, 적외선 어텐션 맵)을 생성하고, 적외선 이미지와 적외선 어텐션 맵을 연결(concatenation)하여 연결 적외선 이미지를 생성할 수 있다. FusionNet 모델부는 결합 적외선 이미지를 N 개의 레벨로 다운 샘플링하여 각 레벨에 대한 상기 적외선 특징맵을 추출하는 가시광 이미지를 N 개의 레벨로 다운 샘플링하여 각 레벨에 대한 특징맵(이하, 가시광 특징맵)을 추출하고, N 개의 가시광 특징맵과 N 개의 적외선 특징맵을 점진적으로 병합하여 상기 가시광 이미지와 상기 적외선 이미지가 병합된 병합 이미지를 생성할 수 있다.

출력부는 병합 이미지를 출력한다. 구체적으로, 출력부는 FusionNet 모델부에서 적외선 이미지와 가시광 이미지가 병합된 이미지인 병합 이미지를 출력할 수 있다.

도 3은 본 발명의 일 실시예에 따른 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 방법의 흐름도이다.

이하, 도 3에 도시된 방법은 도 1에 도시된 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치(1000)에 의해 수행되는 것을 예시로 설명한다.

단계 S3100에서, 가시광 이미지 및 적외선 이미지가 입력된다. 구체적으로, 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치(1000)는 동일한 장면을 촬영한 적외선 이미지 및 가시광 이미지를 입력 받을 수 있다.

일 실시예에서, 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치(1000)는 동일한 장면에 대해 적외선 카메라를 기반으로 촬영하여 적외선 이미지를 생성하고, 가시광 카메라를 기반으로 촬영하여 가시광 이미지를 생성할 수 있다.

단계 S3200에서, 적외선 특징맵이 추출된다. 구체적으로, 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치(1000)는 적외선 이미지를 기반으로 적외선 이미지의 엣지에 대한 어텐션 맵인 Edge-guided attention map(이하, 적외선 어텐션 맵)을 생성할 수 있다. 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치(1000)는 적외선 이미지와 적외선 어텐션 맵을 연결(concatenation)하여 연결 적외선 이미지를 생성할 수 있다. 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치(1000)는 결합 적외선 이미지를 N 개의 레벨로 다운 샘플링하여 각 레벨에 대한 적외선 특징맵을 추출할 수 있다. 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치(1000)는 추출된 적외선 특징맵을 점진적으로 병합할 수 있다

단계 S3300에서, 가시광 특징맵이 추출된다. 구체적으로, 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치(1000)는 가시광 이미지로부터 특징맵을 추출하고, 가시광 이미지로부터 추출된 특징맵과 적외선 이미지로부터 추출된 특징맵을 점진적으로 병합하여 병합 이미지를 생성할 수 있다. 구체적으로, 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치(1000)는 적외선 이미지의 엣지에 대한 어텐션 맵인 Edge-guided attention map(이하, 적외선 어텐션 맵)을 생성하고, 적외선 이미지와 적외선 어텐션 맵을 연결(concatenation)하여 연결 적외선 이미지를 생성할 수 있다. 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치(1000)는 결합 적외선 이미지를 N 개의 레벨로 다운 샘플링하여 각 레벨에 대한 상기 적외선 특징맵을 추출하는 가시광 이미지를 N 개의 레벨로 다운 샘플링하여 각 레벨에 대한 특징맵(이하, 가시광 특징맵)을 추출할 수 있다.

단계 S3400에서, 병합 이미지가 생성된다. 구체적으로, 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치(1000)는 N 개의 가시광 특징맵과 N 개의 적외선 특징맵을 점진적으로 병합하여 상기 가시광 이미지와 상기 적외선 이미지가 병합된 병합 이미지를 생성할 수 있다.

단계 S3500에서, 출력부는 병합 이미지를 출력한다. 구체적으로, 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치(1000)는 FusionNet 모델부에서 적외선 이미지와 가시광 이미지가 병합된 이미지인 병합 이미지를 출력할 수 있다.

도 4는 본 발명의 일 실시예에 따른 적외선 이미지와 가시광 이미지를 병합하는 모델을 설명하기 위한 도면이다.

도 4를 참조하면, 적외선 이미지의 특징맵을 추출하여 점진적으로 병합하는 IRNet 모델과 가시광 이미지의 특징맵을 추출하여 적외선 이미지로부터 추출하여 점진적으로 병합된 특징맵을 점진적으로 병합하는 FusionNet 모델을 도시되어 있다.

IRNet 모델은 적외선 이미지(Infrared image, )를 입력 받을 수 있다. IRNet 모델은 입력된 적외선 이미지에 대한 엣지 가이드 어텐션 맵(Edge-guided attention map, )을 생성할 수 있다. IRNet 모델은 적외선 이미지와 엣지 가이드 어텐션 맵을 연결(concatenation)할 수 있다. IRNet 모델은 적외선 이미지와 엣지 가이드 어텐션 맵이 연결된 연결 적외선 이미지를 N 개의 레벨로 다운 샘플링하여 각 레벨에 대한 이미지를 생성할 수 있다. IRNet 모델에서 각 레벨로 다운 샘플링된 이미지들은 컨벌루션 블록(Conve) 및 RCAB(Residual channel attention Block) 블록을 통해 특징맵이 추출된다. IRNet 모델에서 각 레벨의 IB 블록에서 특징맵이 FusionNet 모델의 병합 블록(FB)로 전달되어 각 레벨에 대응하는 가시광 이미지의 특징맵과 병합된다. IRNet 모델에서 M 레벨에서 특징맵은 M+1 레벨로부터 추출된 특징맵을 업샘플링하여 연결될 수 있다.

FusionNet 모델은 가시광 이미지(Visible image, )을 입력 받을 수 있다. FusionNet 모델은 가시광 이미지에 대한 엣지 가이드 어텐션 맵(edge-guided attention map, )을 생성할 수 있다. FusionNet 모델은 가시광 이미지와 엣지 가이드 어텐션 맵을 연결할 수 있다. FusionNet 모델은 가시광 이미지와 엣지 가이드 어텐션 맵이 연결된 연결 가시광 이미지를 N 개의 레벨로 다운 샘플링하여 각 레벨에 대한 이미지를 생성할 수 있다. FusionNet 모델에서 각 레벨로 다운 샘플링된 이미지들은 컨벌루션 블록(Conve) 및 RCAB 블록을 통해 특징맵이 추출된다. FusionNet 모델에서 병합 블록(FB)에서 가시광 이미지로부터 추출된 특징맵과 IRNet 모델에서 각 레벨의 IB 블록으로부터 전달된 특징맵과 병합된다. . FusionNet 모델에서 N 레벨에서 1 레벨까지 점진적으로 병합된 특징맵은 컨벌루션 블록(conv)를 통해 병합 이미지로 변환된다.

IRNet 모델에서 엣지가이드 어텐션 맵은 아래 수학식 1과 같이, 각 화소 위치에서 적외선 영상의 그래디언트 크기의 비율로 정의될 수 있다.

FusionNet 모델에서 엣지가이드 어텐션 맵은 아래 수학식 2과 같이, 각 화소 위치에서 적외선 영상의 그래디언트 크기의 비율로 정의될 수 있다.

도 5 내지 7은 본 발명의 일 실시예에 따른 가시광 이미지 및 적외선 이미지 병합을 설명하기 위한 도면이다.

도 5를 참조하면, PFB는 IRNet 모델의 IB 블록과 FusionNet 모델의 FB 블록으로 구성되어 특징맵을 점진적으로 병합할 수 있다. IB 블록은 특징맵을 추출하여 입력된 적외선 이미지 자체를 생성하고, FB 블록은 입력된 가시광 이미지의 특징맵을 추출하여 이를 IB 블록의 특징맵과 융합할 수 있다. IB 블록 및 FB 블록 각각은 3개의 Multi-dilated residual block(MDRB)와 차원 축소를 위한 bottleneck layer 및 3개의 convolution layer로 구성될 수 있다. PFB는 적외선 이미지 및 가시광 이미지의 히스토그램을 입력 받아 각 영상에 대한 적응형 채널 가중치(, )를 생성하는 네트워크로 구성한다.

도 6을 참조하면, 가시광 이미지 및 적외선 이미지 각각의 히스토그램을 입력으로 하여 적응적 채널 가중치를 생성하는 네트워크를 나타낸다. 각 네트워크는 2개의 Fully-connected layer와 Sigmoid 활성화 함수로 구성될 수 있다. 및 를 각각 FB와 IB 내에서 MDRB 출력 특징맵이라고 하면, 그 다음 FB의 MDRB의 입력 특징맵을 아래 수학식 3과 같이 구할 수 있다.

여기서, 는 채널의 곱을 나타낸다. FusionNet 모델은 적외선 이미지와 가시광 이미지의 특징맵을 점진적이고 안정적으로 융합하는 동시에 각 영상의 고유한 특징맵을 보존할 수 있다.

도 7을 참조하면, MDRB는 동일한 수의 매개변수를 사용하여 receptive field를 확장할 수 있는 diation convolution을 사용하여 다양한 스케일에서 심층 특징맵을 추출할 수 있다. MDRB는 의 출력 특징맵을 생성하기 위해 서로 r(dilation rates)의 커널을 사용하여 얻은 두 개의 공유가 가능한 bypass network에서 입력 특징맵 을 더 할 수 있다.

손실함수(Loss function)

IRNet과 FusionNet을 학습하기 위해 IR loss 와 Fusion loss 을 각각 정의할 수 있다. IR loss 은 평균 제곱 오차 손실함수 data loss 와 구조적 유사성 손실함수 structure loss 의 합이며 아래 수학식 4와 같다.

IRNet 모델을 학습시키기 위한 평균 제곱 오차 손실함수 data loss 는 아래 수학식 5와 같다.

여기서, 와 는 각각 추정된 적외선 이미지와 입력된 적외선 영상을 나타내며, N은 레벨의 개수를 나타낸다. 구조적 유사성 손실함수 structure loss 는 아래 수학식 6과 같다.

Fusion loss 은 평균 제곱 오차 손실함수 data loss 와 공간 일관성 손실함수 spatial loss , 시각적 유사성 손실함수 perceptual loss 의 합이며 아래 수학식 7과 같다.

FusionNet을 학습시키는 평균 제곱 오차 손실함수 data loss 는 아래 수학식 8과 같다.

여기서, 와 는 융합된 영상에 대한 입력된 적외선 이미지 및 가시광 이미지의 기여도를 각각 제어하는 하이퍼 파라미터를 나타낸다. 는 추정된 융합 이미지를 나타내며, 와 는 각각 입력된 적외선 이미지 및 가시광 이미지를 나타낸다. 공간 일관성 손실함수 spatial loss 는 아래 수학식 9와 같다.

여기서, K는 블록 내 화소의 개수이고, 는 영역 i를 중심으로 하는 4개의 인접 영역(상하좌우)을 나타낸다. 유사성 손실함수 perceptual loss 는 아래 수학식 10과 같다.

여기서, 는 사전 훈련된 VGG-16 네트워크의 k번째 레이어의 기능을 나타낸다.

학습(training)

본 발명의 일 실시예에 따른 IRNet 모델 및 FusionNet은 IRNet 모델을 우선 학습하고 고정한 후에 FusionNet 모델을 학습하는 2가지 단계로 학습된다. 학습 데이터는 KAIST Dataset을 사용한다. KAIST Dataset은 640 x 512 크기의 적외선 이미지 및 가시광 이미지 쌍으로 구성되어 있으며, 입력 영상을 무작위로 256 x 256 크기로 crop하고 grayscale로 변환 후 학습할 수 있다.

IRNet 모델 학습은 learning rate 로 설정하였으며, Adam optimizer을 사용한다. Batch size와 epoch은 각각 8과 16으로 설정한다. 또한, 수학식 4에서 는 하이퍼 파라미터로써 100으로 고정한다.

FusionNet 모델의 학습은 IRNet 모델과 동일한 설정의 learning rate, Adam optimizer을 사용하며, batch size와 epoch은 각각 4와 25로 설정한다. 수학식 7의 와 는 0.05와 0.5로 고정하며, 수학식 8 내지 10의 와 는 0.5와 0.5로 고정한다.

도 8은 본 발명의 일 실시예에 따른 적외선 이미지, 가시광 이미지 및 병합 이미지의 예를 나타낸다.

도 8 (a)는 적외선 이미지, 도 8 (b)는 가시광 이미지를 나타낸다. 본 발명의 일 실시예에 따른 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치(1000)를 통해 도 8 (a)의 적외선 이미지 및 도 8 (b)의 가시광 아미지를 병합하여 도 8 (c)와 같은 병합 이미지를 생성할 수 있다.

도 9는 본 발명의 다른 실시예에 따른 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치의 블록도이다.

도 9에 도시된 바와 같이, 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치(9000)는 프로세서(9100), 메모리(9200), 저장부(9300), 사용자 인터페이스 입력부(9400) 및 사용자 인터페이스 출력부(9500) 중 적어도 하나 이상의 요소를 포함할 수 있으며, 이들은 버스(9600)를 통해 서로 통신할 수 있다. 또한, 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치(9000)는 네트워크에 접속하기 위한 네트워크 인터페이스(9700)를 또한 포함할 수 있다. 프로세서(9100)는 메모리(9200) 및/또는 저장소(9300)에 저장된 처리 명령어를 실행시키는 CPU 또는 반도체 소자일 수 있다. 메모리(9200) 및 저장부(9300)는 다양한 유형의 휘발성/비휘발성 기억 매체를 포함할 수 있다. 예를 들어, 메모리는 ROM(9240) 및 RAM(9250)을 포함할 수 있다.

설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

1000: 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치
2100: 입력부
2200: IRNet 모델부
2300: FusionNet 모델부
2400: 출력부

Claims

동일한 장면에 대한 가시광 이미지 및 적외선 이미지를 입력 받는 입력부;
상기 적외선 이미지를 N 개의 레벨로 다운 샘플링하여 각 레벨에 대한 특징맵 (이하, 적외선 특징맵)을 추출하는 IRNet 모델부;
상기 가시광 이미지를 N 개의 레벨로 다운 샘플링하여 각 레벨에 대한 특징맵(이하, 가시광 특징맵)을 추출하고, N 개의 가시광 특징맵과 N 개의 적외선 특징맵을 점진적으로 병합하여 상기 가시광 이미지와 상기 적외선 이미지가 병합된 병합 이미지를 생성하는 FusionNet 모델부; 및
상기 병합 이미지를 출력하는 출력부를 포함하고,
상기 IRNet 모델부는,
상기 적외선 이미지의 엣지에 대한 어텐션 맵인 Edge-guided attention map(이하, 적외선 어텐션 맵)을 수학식 에 따라 생성하고, 여기서, I^vis는 가시광 이미지, I^inf는 적외선 이미지,
상기 적외선 이미지와 상기 적외선 어텐션 맵을 연결(concatenation)하여 연결 적외선 이미지를 생성하여,
상기 연결 적외선 이미지를 N 개의 레벨로 다운 샘플링하여 각 레벨에 대한 상기 적외선 특징맵을 추출하는,
다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치.
삭제
삭제
제1항에 있어서,
상기 FusionNet 모델부는,
상기 가시광 이미지의 엣지에 대한 어텐션 맵인 Edge-guided attention map(이하, 가시광 어텐션 맵)을 생성하고,
상기 가시광 이미지와 상기 가시광 어텐션 맵을 연결(concatenation)하여 연결 가시광 이미지를 생성하여,
상기 연결 가시광 이미지를 N 개의 레벨로 다운 샘플링하여 각 레벨에 대한 상기 가시광 특징맵을 추출하는, 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치.
제4항에 있어서,
상기 FusionNet 모델부는,
수학식에 따라 상기 적외선 어텐션 맵을 생성하는, 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치.
제1항에 있어서,
상기 FusionNet 모델부는,
수학식 에 따라 상기 N 개의 가시광 특징맵과 N 개의 적외선 특징맵을 점진적으로 병합하여 상기 가시광 이미지와 상기 적외선 이미지가 병합된 병합 이미지를 생성하는, 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치.
제1항에 있어서,
상기 N개의 가시광 특징맵과 N개의 적외선 특징맵을 점진적으로 병합하는 것은,
M(여기서, M은 2 이상 N 보다 작은 자연수) 레벨의 적외선 특징맵과 M-1 레벨의 적외선 특징맵을 연결하여 M 레벨 연결 적외선 특징맵을 생성하는 과정과,
M 레벨의 가시광 특징맵과 M 레벨의 적외선 특징맵을 병합하여 M 레벨 병합 특징맵을 생성하는 과정을 포함하며,
상기 병합된 이미지를 생성하는 것은,
1 레벨 병합 특징맵을 기반으로 상기 병합된 이미지를 생성하는 과정을 포함하는, 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 장치.
동일한 장면에 대한 가시광 이미지 및 적외선 이미지를 입력 받는 단계;
상기 적외선 이미지를 N 개의 레벨로 다운 샘플링하여 각 레벨에 대한 특징맵 (이하, 적외선 특징맵)을 추출하는 단계;
상기 가시광 이미지를 N 개의 레벨로 다운 샘플링하여 각 레벨에 대한 특징맵(이하, 가시광 특징맵)을 추출하는 단계;
N 개의 가시광 특징맵과 N 개의 적외선 특징맵을 점진적으로 병합하여 상기 가시광 이미지와 상기 적외선 이미지가 병합된 병합 이미지를 생성하는 단계; 및
상기 병합 이미지를 출력하는 단계를 포함하고,
상기 적외선 특징맵을 추출하는 단계는,
상기 적외선 이미지의 엣지에 대한 어텐션 맵인 Edge-guided attention map(이하, 적외선 어텐션 맵)을 수학식 에 따라 생성하고, 여기서, I^vis는 가시광 이미지, I^inf는 적외선 이미지,
상기 적외선 이미지와 상기 적외선 어텐션 맵을 연결(concatenation)하여 연결 적외선 이미지를 생성하여,
상기 연결 적외선 이미지를 N 개의 레벨로 다운 샘플링하여 각 레벨에 대한 상기 적외선 특징맵을 추출하는,
다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 방법.
삭제
삭제
제8항에 있어서,
상기 가시광 특징맵을 추출하는 단계는,
상기 가시광 이미지의 엣지에 대한 어텐션 맵인 Edge-guided attention map(이하, 가시광 어텐션 맵)을 생성하고,
상기 가시광 이미지와 상기 가시광 어텐션 맵을 연결(concatenation)하여 연결 가시광 이미지를 생성하여,
상기 연결 가시광 이미지를 N 개의 레벨로 다운 샘플링하여 각 레벨에 대한 상기 가시광 특징맵을 추출하는, 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 방법.
제11항에 있어서,
상기 가시광 특징맵을 추출하는 단계는,
수학식에 따라 상기 적외선 어텐션 맵을 생성하는, 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 방법.
제8항에 있어서,
상기 가시광 특징맵을 추출하는 단계는,
수학식 에 따라 상기 N 개의 가시광 특징맵과 N 개의 적외선 특징맵을 점진적으로 병합하여 상기 가시광 이미지와 상기 적외선 이미지가 병합된 병합 이미지를 생성하는, 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 방법.
제8항에 있어서,
상기 N개의 가시광 특징맵과 N개의 적외선 특징맵을 점진적으로 병합하는 것은,
M(여기서, M은 2 이상 N 보다 작은 자연수) 레벨의 적외선 특징맵과 M-1 레벨의 적외선 특징맵을 연결하여 M 레벨 연결 적외선 특징맵을 생성하는 과정과, M 레벨의 가시광 특징맵과 M 레벨의 적외선 특징맵을 병합하여 M 레벨 병합 특징맵을 생성하는 과정을 포함하고,
상기 병합된 이미지를 생성하는 것은,
1 레벨 병합 특징맵을 기반으로 상기 병합된 이미지를 생성하는 과정을 포함하는, 다중 스케일 네트워크 기반의 가시광 이미지 및 적외선 이미지 병합 방법.