KR20220128192A

KR20220128192A - 합성 영상을 활용한 객체 검출장치 및 그 방법

Info

Publication number: KR20220128192A
Application number: KR1020210032933A
Authority: KR
Inventors: 김상우; 최혜연
Original assignee: 한국전력공사; 포항공과대학교 산학협력단
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2022-09-20

Abstract

본 발명은 합성 영상을 활용한 객체 검출장치와 그 방법이 개시된다. 본 발명의 합성 영상을 활용한 객체 검출장치는, 광학 영상을 촬영하는 광학 촬영부; 열화상 영상을 촬영하는 열화상 촬영부; 광학 영상으로부터 제1 VL 특징벡터를 추출하는 VL 엔코더; 열화상 영상으로부터 제1 IR 특징벡터를 추출하는 IR 엔코더; 제1 VL 특징벡터와 제1 IR 특징벡터를 입력받아 딥러닝 기반으로 합성하여 특징벡터를 업데이트하는 특징 퓨전 모듈; 특징 퓨전 모듈로부터 업데이트된 특징벡터를 업샘플링하는 디코더; 및 디코더에서 업샘플링된 특징벡터를 기반으로 객체위치를 예측하는 객체위치 예측부;를 포함하는 것을 특징으로 한다.

Description

합성 영상을 활용한 객체 검출장치 및 그 방법{APPARATUS FOR DETECTING OBJECT USING COMPOUND IMAGE AND METHOD THEREOF}

본 발명은 합성 영상을 활용한 객체 검출장치 및 그 방법에 관한 것으로서, 보다 상세하게는 광학 영상과 열화상 영상에서 각각 특징벡터를 추출해 합성하여 인공 신경망 모델을 통해 전력선을 검출하는 합성 영상을 활용한 객체 검출장치 및 그 방법에 관한 것이다.

최근, 딥러닝 모델(Deep Learning Model)은 컴퓨터 비젼(Vision)의 여러 분야에서 눈부신 성능 향상을 보이며, 연구 패러다임을 바꾸고 있다. 기존의 컴퓨터 비젼 연구가 SIFT(Scale Invariant Feature Transform), HOG(Histogram of Oriented Gradient)와 같이 사람의 지식에 기반을 두어 유용한 특징을 설계하는데 집중했다면, 딥러닝은 다층 인공 신경망을 이용해 유용한 특징들을 데이터로부터 직접 학습하는 방식을 취하고 있다.

이러한 학습 기반의 방법은 사람이 미처 알지 못하는 유용한 특징들을 데이터를 통해 직접 찾아낼 수 있기 때문에 성능 향상에 보다 큰 특징을 가진다.

전기산업에서 전력설비의 주기적 모니터링은 가정으로 안정된 전력공급을 수행하기 위하여 매우 중요하게 여겨지는 과제이다. 기존에는 산간지역 등 인적이 드문 곳에 존재하는 전력설비에 직접 사람이 접근하여 모니터링을 수행하였으나, 이러한 방식은 설비의 수가 매우 많아 시간의 소요가 크며 개별 설비에 대한 접근성이 떨어져서 많은 노동력이 요구되었다.

따라서 전력설비 모니터링에 요구되는 노동력과 시간을 절감하기 위해서 최근에는 무인 항공기(예, 드론)에 비전센서를 부착하여 영상을 취득한 후 영상분석 알고리즘을 통해 모니터링을 하고자하는 시도들이 생겨나고 있다. 이때, 무인 항공기의 비행에 있어서 전력선은 충돌을 피해야하는 장애물로 취급될 뿐만 아니라 전력선 자체의 결함의 탐상도 중요한 모니터링 과제 중 하나이다. 때문에 영상 내 전력선의 위치 검출은 전력설비 모니터링에 있어 매우 중요한 요소 중 하나이다.

한편 영상 인식분야에서는 기존의 규칙기반(rule-based) 머신비전(machine vision) 방법보다 향상된 성능을 보여주는 데이터 기반(data driven) 딥러닝을 활용한 알고리즘들이 영상 내 전력선 검출에 사용되고 있는 추세에 있다.

본 발명의 배경기술은 대한민국 특허공보 제10-1897923호(2018.10.31. 공고, 신경망 학습 모델 기반 추적 객체 추출 서비스 제공 시스템, 이의 방법, 그리고 이 방법을 저장한 컴퓨터 판독 가능 저장 매체)에 개시되어 있다.

이와 같이 딥러닝을 활용한 알고리즘은 효율적인 전력선 검출을 위해 드론에 부착된 카메라로 이미지를 전송받고, 전송받은 이미지를 입력으로 하는 딥러닝 모델을 적용하여 최종적으로 이미지 내 전력선의 위치를 인식한다.

그러나 이러한 방식은 드론에 광학 카메라만을 부착하여 이미지를 취득하고 있어, 광학 영상이 가지는 단점으로 인하여 그 성능에 한계를 갖게 된다.

광학 카메라 영상은 외부 환경의 변화에 민감하다는 단점을 가진다. 즉, 촬영 당시의 햇빛의 유무, 그림자, 역광 등의 외부 조건에 따라서 촬영된 영상에서 전력선이 잘 나타나지 않는 경우가 발생한다. 또한 안개가 낀 날씨, 비 또는 눈 등의 환경적 요인으로 인하여 영상에서 전력선 검출이 어려워지는 경우가 발생한다.

도 1의 (a)에 도시된 바와 같이 광학 카메라 영상에는 배경이 선명하게 나타나서 배경의 나무, 풀, 구조물 등의 물체들이 전력선을 가리는 경우도 종종 발생 한다. 이러한 단점들 때문에 광학 카메라 이미지만을 입력으로 하는 인공 신경망은 촬영 당시의 환경에 민감하고 이미지의 상태에 따라서 전력선 검출 성능의 변동이 크게 발생하는 문제점이 있다.

또한, 전력설비(송전탑, 애자 등)와 전력선에서 발생하는 열은 주위 배경 물체들과 다른 특정 범위 온도를 가진다는 점에 착안하여 온도를 탐지하는 열화상 카메라 영상을 활용하여 전력선을 검출할 수 있다. 그러나 열화상 카메라만 사용하면 열화상 이미지가 가지는 단점으로 인하여 그 성능에 한계를 가진다.

도 1의 (b)에 도시된 바와 같이 열화상 카메라 영상은 광학 카메라 영상에 비하여 낮은 해상도를 갖기 때문에 전력선의 정확한 위치를 찾아내는 것이 어려운 문제점이 있다. 즉, 햇빛 유무와 날씨의 변화에서 광학 카메라 보다 상대적으로 강인한 특징을 지니지만 낮은 대조값(contrast)을 가져서 육안으로 전력선의 위치를 식별해내는 것이 어려운 문제점이 있다.

본 발명은 상기와 같은 문제점들을 개선하기 위하여 안출된 것으로, 일 측면에 따른 본 발명의 목적은 광학 영상과 열화상 영상에서 각각 특징벡터를 추출해 합성하여 인공 신경망 모델을 통해 전력선을 검출하는 합성 영상을 활용한 객체 검출장치 및 그 방법를 제공하는 것이다.

본 발명의 일 측면에 따른 합성 영상을 활용한 객체 검출장치는, 광학 영상을 촬영하는 광학 촬영부; 열화상 영상을 촬영하는 열화상 촬영부; 광학 영상으로부터 제1 VL 특징벡터를 추출하는 VL 엔코더; 열화상 영상으로부터 제1 IR 특징벡터를 추출하는 IR 엔코더; 제1 VL 특징벡터와 제1 IR 특징벡터를 입력받아 딥러닝 기반으로 합성하여 특징벡터를 업데이트하는 특징 퓨전 모듈; 특징 퓨전 모듈로부터 업데이트된 특징벡터를 업샘플링하는 디코더; 및 디코더에서 업샘플링된 특징벡터를 기반으로 객체위치를 예측하는 객체위치 예측부;를 포함하는 것을 특징으로 한다.

본 발명에서 특징 퓨전 모듈은, 제1 VL 특징벡터에 대해 콘볼루션 연산을 거쳐 새로운 제2 VL 특징벡터를 추출하는 VL 특징벡터 추출부; 제1 IR 특징벡터에 대해 콘볼루션 연산을 거쳐 새로운 제2 IR 특징벡터를 추출하는 IR 특징벡터 추출부; 제2 VL 특징벡터와 제2 IR 특징벡터를 채널방향으로 연속적으로 쌓아 콘볼루션 연산을 거친 후 0 부터 1사이의 확률값을 가지는 어텐션 벡터를 추출하는 어텐션 벡터 추출부; 어텐션 벡터 추출부에서 추출된 어텐션 벡터를 제1 VL 특징벡터에 적용하여 특징벡터를 업데이트하여 제3 VL 특징벡터를 추출하는 VL 채널 조정부; 및 어텐션 벡터 추출부에서 추출된 어텐션 벡터를 제1 IR 특징벡터에 적용하여 특징벡터를 업데이트하여 제3 IR 특징벡터를 추출하는 IR 채널 조정부;를 포함하는 것을 특징으로 한다.

본 발명에서 VL 특징벡터 추출부와 IR 특징벡터 추출부는, 각각 크기가 다른 다수의 콘볼루션 필터를 적용하여 연산하는 것을 특징으로 한다.

본 발명에서 어텐션 벡터 추출부는, 시그모이드 함수를 통해 각 원소의 값을 0 부터 1 사이의 값으로 매핑시켜 정규화하여 어텐션 벡터를 추출하는 것을 특징으로 한다.

본 발명에서 VL 채널 조정부는, 제1 VL 특징벡터와 어텐션 벡터를 채널별로 곱하여 제3 VL 특징벡터를 추출하는 것을 특징으로 한다.

본 발명에서 IR 채널 조정부는, 제1 IR 특징벡터와 어텐션 벡터를 채널별로 곱하여 제3 IR 특징벡터를 추출하는 것을 특징으로 한다.

본 발명의 다른 측면에 따른 합성 영상을 활용한 객체 검출방법은, VL 엔코더와 IR 엔코더가 각각 광학 영상과 열화상 영상을 입력받는 단계; VL 엔코더와 IR 엔코더가 광학 영상과 열화상 영상으로부터 각각 제1 VL 특징벡터과 제1 IR 특징벡터를 추출하는 단계; 특징 퓨전 모듈이 제1 VL 특징벡터와 제1 IR 특징벡터를 딥러닝 기반으로 합성하여 특징벡터를 업데이트하는 단계; 디코더가 특징 퓨전 모듈로부터 업데이트된 특징벡터를 업샘플링하여 디코딩하는 단계; 및 객체위치 예측부가 업샘플링된 특징벡터를 기반으로 객체위치를 예측하는 단계를 포함하는 것을 특징으로 한다.

본 발명에서 특징벡터를 업데이트하는 단계는, 특징 퓨전 모듈이 제1 VL 특징벡터와 제1 IR 특징벡터에 대해 각각 콘볼루션 연산을 거쳐 새로운 제2 VL 특징벡터와 제2 IR 특징벡터를 추출하는 단계; 특징 퓨전 모듈이 제2 VL 특징벡터와 제2 IR 특징벡터를 채널방향으로 연속적으로 쌓아 콘볼루션 연산을 거친 후 0 부터 1사이의 확률값을 가지는 어텐션 벡터를 추출하는 단계; 및 특징 퓨전 모듈이 어텐션 벡터를 제1 VL 특징벡터와 제1 IR 특징벡터에 각각 적용하여 제3 VL 특징벡터와 제3 IR 특징벡터를 추출하는 단계;를 포함하는 것을 특징으로 한다.

본 발명에서 제2 VL 특징벡터와 제2 IR 특징벡터를 추출하는 단계는, 특징 퓨전 모듈이 각각 크기가 다른 다수의 콘볼루션 필터를 적용하여 연산하는 것을 특징으로 한다.

본 발명에서 어텐션 벡터를 추출하는 단계는, 특징 퓨전 모듈이 시그모이드 함수를 통해 각 원소의 값을 0 부터 1 사이의 값으로 매핑시켜 정규화하여 어텐션 벡터를 추출하는 것을 특징으로 한다.

본 발명에서 제3 VL 특징벡터와 제3 IR 특징벡터를 추출하는 단계는, 특징 퓨전 모듈이 제1 VL 특징벡터와 제1 IR 특징벡터에 각각 어텐션 벡터를 채널별로 곱하여 제3 VL 특징벡터와 제3 IR 특징벡터를 추출하는 것을 특징으로 한다.

본 발명의 일 측면에 따른 합성 영상을 활용한 객체 검출장치 및 그 방법은 광학 영상과 열화상 영상에서 각각 특징벡터를 추출해 합성하여 인공 신경망 모델을 통해 전력선을 검출함으로써 단일 영상을 사용하는 방식보다 성능을 향상시킬 수 있으며, 맑고 화창한 날씨에서뿐만 아니라 눈, 비와 같은 악화된 날씨환경, 미세먼지, 안개 등과 같이 시야가 흐려지는 상황에서도 기존의 방식보다 안정적으로 전력선을 점검할 수 있을 뿐만 아니라 그 범위를 넓혀서 전력설비 전반의 열화상 카메라에서 식별 가능한 객체에 대한 인식 성공률을 향상 시킬 수 있다.

또한, 본 발명에 따르면, 특징 퓨전 모듈을 통해 인공신경망 모델의 파라미터 수를 크게 증가시키지 않기 때문에 처리속도를 증가시키지 않아 실시간 검사 모듈로 사용할 수 있을 뿐만 아니라 드론과 같은 메모리 용량이 적은 하드웨어를 사용하는 상황에서도 효율적으로 사용할 수 있다.

도 1은 일반적인 열화상 카메라와 광학 카메라를 통해 촬영한 전력선을 나타낸 영상이다.
도 2는 본 발명의 일 실시예에 따른 합성 영상을 활용한 객체 검출장치를 나타낸 블록 구성도이다.
도 3은 본 발명의 일 실시예에 따른 합성 영상을 활용한 객체 검출장치의 처리과정을 도식화한 예시도이다.
도 4는 본 발명의 일 실시예에 따른 합성 영상을 활용한 객체 검출장치에서 특징 퓨전 모듈을 나타낸 블록 구성도이다.
도 5는 본 발명의 일 실시예에 따른 합성 영상을 활용한 객체 검출장치에서 시그모이드 함수에 의한 출력값을 나타낸 그래프이다.
도 6은 본 발명의 일 실시예에 따른 합성 영상을 활용한 객체 검출장치에서 채널 조정과정을 도식화한 예시도이다.
도 7은 본 발명의 일 실시예에 따른 합성 영상을 활용한 객체 검출장치의 특징 퓨전 모듈에서 콘볼루션 필터를 사용한 예시도이다.
도 8은 본 발명의 일 실시예에 따른 합성 영상을 활용한 객체 검출방법을 설명하기 위한 흐름도이다.

이하, 첨부된 도면들을 참조하여 본 발명에 따른 합성 영상을 활용한 객체 검출장치 및 그 방법을 설명한다. 이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 2는 본 발명의 일 실시예에 따른 합성 영상을 활용한 객체 검출장치를 나타낸 블록 구성도이고, 도 3은 본 발명의 일 실시예에 따른 합성 영상을 활용한 객체 검출장치의 처리과정을 도식화한 예시도이며, 도 4는 본 발명의 일 실시예에 따른 합성 영상을 활용한 객체 검출장치에서 특징 퓨전 모듈을 나타낸 블록 구성도이고, 도 5는 본 발명의 일 실시예에 따른 합성 영상을 활용한 객체 검출장치에서 시그모이드 함수에 의한 출력값을 나타낸 그래프이며, 도 6은 본 발명의 일 실시예에 따른 합성 영상을 활용한 객체 검출장치에서 채널 조정과정을 도식화한 예시도이고, 도 7은 본 발명의 일 실시예에 따른 합성 영상을 활용한 객체 검출장치의 특징 퓨전 모듈에서 콘볼루션 필터를 사용한 예시도이다.

도 2에 도시된 바와 같이 본 발명의 일 실시예에 따른 합성 영상을 활용한 객체 검출장치는, 광학 촬영부(10), 열화상 촬영부(20), VL 엔코더(30), IR 엔코더(40), 특징 퓨전 모듈(50), 디코더(60) 및 객체위치 예측부(70)를 포함할 수 있다.

광학 촬영부(10)는 객체를 검출하기 위해 가시광선(VL : Visible Light)의 광학 영상을 촬영한다.

열화상 촬영부(20)는 객체를 검출하기 위해 적외선(IR ; Infra Red)의 열화상 영상을 촬영한다.

VL 엔코더(30)는 광학 영상으로부터 제1 VL 특징벡터를 추출할 수 있다.

IR 엔코더(40)는 열화상 영상으로부터 제1 IR 특징벡터를 추출할 수 있다.

여기서, VL 엔코더(30)와 IR 엔코더(40)는 각각 광학 영상과 열화상 영상을 입력받아 특징벡터를 추출할 수 있고, 추출된 특징벡터는 입력 영상보다 작은 크기를 가진다.

또한, VL 엔코더(30)와 IR 엔코더(40)에서의 연산과정은 콘볼루션(Convolution) 작업을 수행하는 콘볼루션 레이어, 연산의 비선형성을 추가하는 ReLU 및 leaky ReLU 등의 할성화 함수(activation function), 특징벡터 추출과정에서의 정규화를 수행하는 배치 정규화(Batch normalization)의 연산을 포함하여 특징벡터를 추출할 수 있도록 구성할 수 있다.

특징 퓨전 모듈(Feature Fusion Module)(50)은 제1 VL 특징벡터와 제1 IR 특징벡터를 입력받아 딥러닝 기반으로 합성하여 특징벡터를 업데이트할 수 있다.

디코더(60)는 특징 퓨전 모듈(50)로부터 업데이트된 특징벡터를 업샘플링하여 VL 엔코더(30)와 IR 엔코더(40)에서 연산과정을 통해 작아진 크기를 가지는 특징벡터를 입력영상과 같은 크기로 만들 수 있다.

여기서 디코더(60)는 학습 파라미터를 사용하지 않는 bilinear up-sampling, bicubic up-sampling등을 포함할 수 있으며, 학습 파라미터를 사용하는 transposed convolutional layer를 활용한 업샘플링 기법을 포함할 수도 있다.

도 3에 도시된 바와 같이 광학 영상과 열화상 영상을 입력받아 VL 엔코더(30)와 IR 엔코더(40)의 연산과정을 통해 제1 VL 특징벡터와 제1 IR 특징벡터를 추출한 후 이를 특징 퓨전 모듈을 통해 합성한 특징벡터를 디코더(60)에서 추출된 특징벡터를 채널방향으로 연속적(Concatenation)으로 쌓아올려 업샘플링 과정을 진행할 수 있다.

객체위치 예측부(70)는 디코더(60)에서 업샘플링된 특징벡터를 기반으로 객체위치를 예측할 수 있다.

이를 보다 구체적으로 설명하면 도 4에 도시된 바와 같이 특징 퓨전 모듈(50)은 VL 특징벡터 추출부(510), IR 특징벡터 추출부(520), 어텐션 벡터 추출부(530), VL 채널 조정부(540) 및 IR 채널 조정부(550)를 포함할 수 있다.

VL 특징벡터 추출부(510)는 제1 VL 특징벡터에 대해 콘볼루션 연산을 거쳐 새로운 제2 VL 특징벡터를 추출할 수 있다.

IR 특징벡터 추출부(520)는 제1 IR 특징벡터에 대해 콘볼루션 연산을 거쳐 새로운 제2 IR 특징벡터를 추출할 수 있다.

여기서 VL 특징벡터 추출부(510)와 IR 특징벡터 추출부(520)는 도 7에 도시된 바와 같이 1X1, 3X3, 5X5 크기의 콘볼루션 필터를 사용하여 각각 제2 VL 특징벡터와 제2 IR 특징벡터를 추출할 수 있다.

어텐션 벡터 추출부(530)는 제2 VL 특징벡터와 제2 IR 특징벡터를 채널방향으로 연속적으로 쌓아 후(Concatenation) 이를 입력으로 콘볼루션 연산을 거친 후 0 부터 1사이의 확률값을 가지는 어텐션 벡터(Attention Vector)를 추출할 수 있다.

여기서, 어텐션 벡터 추출부(530)는 수학식 1의 시그모이드 함수(sigmoid function)를 통해 각 원소의 값을 0 부터 1 사이의 값으로 매핑시켜 정규화하여 어텐션 벡터를 추출할 수 있다. 따라서 어텐션 벡터는 도 5에 도시된 바와 같이 0~1 사이의 값을 가지며 값의 중요도와 값의 크기가 정비례하는 특징을 가진다.

VL 채널 조정부(540)는 어텐션 벡터 추출부(530)에서 추출된 어텐션 벡터를 제1 VL 특징벡터에 채널별로 곱셈 연산(multiplication)을 통해 특징벡터를 업데이트하여 제3 VL 특징벡터를 추출할 수 있다.

IR 채널 조정부(550)는 어텐션 벡터 추출부(530)에서 추출된 어텐션 벡터를 제1 IR 특징벡터에 채널별로 곱셈 연산(multiplication)을 통해 특징벡터를 업데이트하여 제3 IR 특징벡터를 추출할 수 있다.

즉, 도 6에 도시된 바와 같이 제1 VL 특징벡터와 어텐션 벡터(c)를 채널별로 곱하는 연산을 통해 제3 VL 특징벡터로 업데이트할 수 있다.

여기서 어텐션 벡터는 제1 VL 특징 벡터와 제1 IR 특징 벡터에서 전력선 영역을 검출할 때 도움이 되는 채널의 값은 강조하고, 중요하지 않은 채널의 값은 영향력을 줄이는 역할을 수행하게 된다. 즉, 어텐션 벡터의 각 원소는 대응되는 특징 벡터의 채널에 대한 중요도 값을 가지게 학습될 수 있다.

상술한 바와 같이, 본 발명의 실시예에 의한 합성 영상을 활용한 객체 검출장치에 따르면, 광학 영상과 열화상 영상에서 각각 특징벡터를 추출해 합성하여 인공 신경망 모델을 통해 전력선을 검출함으로써 단일 영상을 사용하는 방식보다 성능을 향상시킬 수 있으며, 맑고 화창한 날씨에서뿐만 아니라 눈, 비와 같은 악화된 날씨환경, 미세먼지, 안개 등과 같이 시야가 흐려지는 상황에서도 기존의 방식보다 안정적으로 전력선을 점검할 수 있을 뿐만 아니라 그 범위를 넓혀서 전력설비 전반의 열화상 카메라에서 식별 가능한 객체에 대한 인식 성공률을 향상 시킬 수 있고, 특징 퓨전 모듈을 통해 인공신경망 모델의 파라미터 수를 크게 증가시키지 않기 때문에 처리속도를 증가시키지 않아 실시간 검사 모듈로 사용할 수 있을 뿐만 아니라 드론과 같은 메모리 용량이 적은 하드웨어를 사용하는 상황에서도 효율적으로 사용할 수 있다.

도 8은 본 발명의 일 실시예에 따른 합성 영상을 활용한 객체 검출방법을 설명하기 위한 흐름도이다.

도 8에 도시된 바와 같이 본 발명의 일 실시예에 따른 합성 영상을 활용한 객체 검출방법에서는 먼저, VL 엔코더(30)와 IR 엔코더(40)가 각각 광학 촬영부(10)와 열화상 촬영부(20)로부터 광학 영상과 열화상 영상을 입력받는다(S10).

S10 단계에서 VL 엔코더(30)와 IR 엔코더(40)가 광학 영상과 열화상 영상을 입력받은 후 광학 영상과 열화상 화상으로부터 각각 제1 VL 특징벡터과 제1 IR 특징벡터를 추출한다(S20).

여기서 VL 엔코더(30)와 IR 엔코더(40)는 각각 광학 영상과 열화상 영상을 입력받아 특징벡터를 추출할 수 있고, 추출된 특징벡터는 입력 영상보다 작은 크기를 가진다.

또한, VL 엔코더(30)와 IR 엔코더(40)에서의 제1 VL 특징벡터와 제1 IR 특징베터를 추출하기 위한 연산과정은 콘볼루션(Convolution) 작업을 수행하는 콘볼루션 레이어, 연산의 비선형성을 추가하는 ReLU 및 leaky ReLU 등의 할성화 함수(activation function), 특징벡터 추출과정에서의 정규화를 수행하는 배치 정규화(Batch normalization)의 연산을 포함하여 특징벡터를 추출할 수 있다.

S20 단계에서 제1 VL 특징벡터와 제1 IR 특징벡터를 추출한 후 특징 퓨전 모듈(50)은 제1 VL 특징벡터와 제1 IR 특징벡터를 딥러닝 기반으로 합성하여 특징벡터를 업데이트할 수 있다.

즉, 특징 퓨전 모듈(50)은 제1 VL 특징벡터와 제1 IR 특징벡터에 대해 각각 콘볼루션 연산을 거쳐 새로운 제2 VL 특징벡터와 제2 IR 특징벡터를 추출한다(S30).

여기서 특징 퓨전 모듈(50)은 도 7에 도시된 바와 같이 1X1, 3X3, 5X5 크기의 콘볼루션 필터를 사용하여 각각 제2 VL 특징벡터와 제2 IR 특징벡터를 추출할 수 있다.

S30 단계에서 제2 VL 특징벡터와 제2 IR 특징벡터를 추출한 후 특징 퓨전 모듈(50)은 제2 VL 특징벡터와 제2 IR 특징벡터를 채널방향으로 연속적으로 쌓아 콘볼루션 연산을 거친 후 0 부터 1사이의 확률값을 가지는 어텐션 벡터를 추출한다(S40).

여기서, 특징 퓨전 모듈(50)은 수학식 2의 시그모이드 함수(sigmoid function)를 통해 각 원소의 값을 0 부터 1 사이의 값으로 매핑시켜 정규화하여 어텐션 벡터를 추출할 수 있다. 따라서 어텐션 벡터는 도 5에 도시된 바와 같이 0~1 사이의 값을 가지며 값의 중요도와 값의 크기가 정비례하는 특징을 가진다.

S40 단계에서 어텐션 벡터를 추출한 후 특징 퓨전 모듈(50)은 어텐션 벡터를 제1 VL 특징벡터와 제1 IR 특징벡터에 각각 채널별로 곱하여 제3 VL 특징벡터와 제3 IR 특징벡터를 추출한다(S50).

즉, 도 6에 도시된 바와 같이 제1 VL 특징벡터와 어텐션 벡터(c)를 채널별로 곱하는 연산(multiplication)을 통해 제3 VL 특징벡터로 업데이트할 수 있다.

여기서, 어텐션 벡터는 제1 VL 특징 벡터와 제1 IR 특징 벡터에서 전력선 영역을 검출할 때 도움이 되는 채널의 값은 강조하고, 중요하지 않은 채널의 값은 영향력을 줄이는 역할을 수행하게 된다. 즉, 어텐션 벡터의 각 원소는 대응되는 특징 벡터의 채널에 대한 중요도 값을 가지게 학습될 수 있다.

S50 단계에서 제3 VL 특징벡터와 제3 IR 특징벡터로 업데이트된 특징벡터를 디코더(60)가 업샘플링하여 디코딩한다(S60).

여기서, 디코더(60)는 학습 파라미터를 사용하지 않는 bilinear up-sampling, bicubic up-sampling등을 포함할 수 있으며, 학습 파라미터를 사용하는 transposed convolutional layer를 활용한 업샘플링 기법을 포함할 수도 있다.

S60 단계에서 업샘플링된 특징벡터를 기반으로 객체위치 예측부(70)는 업샘플링된 특징벡터를 기반으로 객체위치를 예측한다(S70).

상술한 바와 같이, 본 발명의 실시예에 의한 합성 영상을 활용한 객체 검출방법에 따르면, 광학 영상과 열화상 영상에서 각각 특징벡터를 추출해 합성하여 인공 신경망 모델을 통해 전력선을 검출함으로써 단일 영상을 사용하는 방식보다 성능을 향상시킬 수 있으며, 맑고 화창한 날씨에서뿐만 아니라 눈, 비와 같은 악화된 날씨환경, 미세먼지, 안개 등과 같이 시야가 흐려지는 상황에서도 기존의 방식보다 안정적으로 전력선을 점검할 수 있을 뿐만 아니라 그 범위를 넓혀서 전력설비 전반의 열화상 카메라에서 식별 가능한 객체에 대한 인식 성공률을 향상 시킬 수 있고, 특징 퓨전 모듈을 통해 인공신경망 모델의 파라미터 수를 크게 증가시키지 않기 때문에 처리속도를 증가시키지 않아 실시간 검사 모듈로 사용할 수 있을 뿐만 아니라 드론과 같은 메모리 용량이 적은 하드웨어를 사용하는 상황에서도 효율적으로 사용할 수 있다.

본 명세서에서 설명된 구현은, 예컨대, 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림 또는 신호로 구현될 수 있다. 단일 형태의 구현의 맥락에서만 논의(예컨대, 방법으로서만 논의)되었더라도, 논의된 특징의 구현은 또한 다른 형태(예컨대, 장치 또는 프로그램)로도 구현될 수 있다. 장치는 적절한 하드웨어, 소프트웨어 및 펌웨어 등으로 구현될 수 있다. 방법은, 예컨대, 컴퓨터, 마이크로프로세서, 집적 회로 또는 프로그래밍 가능한 로직 디바이스 등을 포함하는 프로세싱 디바이스를 일반적으로 지칭하는 프로세서 등과 같은 장치에서 구현될 수 있다. 프로세서는 또한 최종-사용자 사이에 정보의 통신을 용이하게 하는 컴퓨터, 셀 폰, 휴대용/개인용 정보 단말기(personal digital assistant: "PDA") 및 다른 디바이스 등과 같은 통신 디바이스를 포함한다.

본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.

따라서 본 발명의 진정한 기술적 보호범위는 아래의 청구범위에 의해서 정하여져야 할 것이다.

10 : 광학 촬영부 20 : 열화상 촬영부
30 : VL 엔코더 40 : IR 엔코더
50 : 특징 퓨전 모듈 60 : 디코더
70 : 객체위치 예측부
510 : VL 특징벡터 추출부 520 : IR 특징벡터 추출부
530 : 어텐션 벡터 추출부 540 : VL 채널 조정부
550 : IR 채널 조정부

Claims

광학 영상을 촬영하는 광학 촬영부;
열화상 영상을 촬영하는 열화상 촬영부;
상기 광학 영상으로부터 제1 VL 특징벡터를 추출하는 VL 엔코더;
상기 열화상 영상으로부터 제1 IR 특징벡터를 추출하는 IR 엔코더;
상기 제1 VL 특징벡터와 상기 제1 IR 특징벡터를 입력받아 딥러닝 기반으로 합성하여 특징벡터를 업데이트하는 특징 퓨전 모듈;
상기 특징 퓨전 모듈로부터 업데이트된 특징벡터를 업샘플링하는 디코더; 및
상기 디코더에서 업샘플링된 특징벡터를 기반으로 객체위치를 예측하는 객체위치 예측부;를 포함하는 것을 특징으로 하는 합성 영상을 활용한 객체 검출장치.
제 1항에 있어서, 상기 특징 퓨전 모듈은,
상기 제1 VL 특징벡터에 대해 콘볼루션 연산을 거쳐 새로운 제2 VL 특징벡터를 추출하는 VL 특징벡터 추출부;
상기 제1 IR 특징벡터에 대해 콘볼루션 연산을 거쳐 새로운 제2 IR 특징벡터를 추출하는 IR 특징벡터 추출부;
상기 제2 VL 특징벡터와 상기 제2 IR 특징벡터를 채널방향으로 연속적으로 쌓아 콘볼루션 연산을 거친 후 0 부터 1사이의 확률값을 가지는 어텐션 벡터를 추출하는 어텐션 벡터 추출부;
상기 어텐션 벡터 추출부에서 추출된 상기 어텐션 벡터를 상기 제1 VL 특징벡터에 적용하여 특징벡터를 업데이트하여 제3 VL 특징벡터를 추출하는 VL 채널 조정부; 및
상기 어텐션 벡터 추출부에서 추출된 상기 어텐션 벡터를 상기 제1 IR 특징벡터에 적용하여 특징벡터를 업데이트하여 제3 IR 특징벡터를 추출하는 IR 채널 조정부;를 포함하는 것을 특징으로 하는 합성 영상을 활용한 객체 검출장치.
제 2항에 있어서, 상기 VL 특징벡터 추출부와 상기 IR 특징벡터 추출부는, 각각 크기가 다른 다수의 콘볼루션 필터를 적용하여 연산하는 것을 특징으로 하는 합성 영상을 활용한 객체 검출장치.
제 2항에 있어서, 상기 VL 채널 조정부는, 상기 제1 VL 특징벡터와 상기 어텐션 벡터를 채널별로 곱하여 상기 제3 VL 특징벡터를 추출하는 것을 특징으로 하는 합성 영상을 활용한 객체 검출장치.
제 2항에 있어서, 상기 IR 채널 조정부는, 상기 제1 IR 특징벡터와 상기 어텐션 벡터를 채널별로 곱하여 상기 제3 IR 특징벡터를 추출하는 것을 특징으로 하는 합성 영상을 활용한 객체 검출장치.
제 2항에 있어서, 상기 어텐션 벡터 추출부는, 시그모이드 함수를 통해 각 원소의 값을 0 부터 1 사이의 값으로 매핑시켜 정규화하여 상기 어텐션 벡터를 추출하는 것을 특징으로 하는 합성 영상을 활용한 객체 검출장치.
VL 엔코더와 IR 엔코더가 각각 광학 영상과 열화상 영상을 입력받는 단계;
상기 VL 엔코더와 상기 IR 엔코더가 상기 광학 영상과 상기 열화상 화상으로부터 각각 제1 VL 특징벡터과 제1 IR 특징벡터를 추출하는 단계;
특징 퓨전 모듈이 상기 제1 VL 특징벡터와 상기 제1 IR 특징벡터를 딥러닝 기반으로 합성하여 특징벡터를 업데이트하는 단계;
디코더가 상기 특징 퓨전 모듈로부터 업데이트된 특징벡터를 업샘플링하여 디코딩하는 단계; 및
상기 객체위치 예측부가 업샘플링된 특징벡터를 기반으로 객체위치를 예측하는 단계를 포함하는 것을 특징으로 하는 합성 영상을 활용한 객체 검출방법.
제 7항에 있어서, 상기 특징벡터를 업데이트하는 단계는,
상기 특징 퓨전 모듈이 상기 제1 VL 특징벡터와 상기 제1 IR 특징벡터에 대해 각각 콘볼루션 연산을 거쳐 새로운 제2 VL 특징벡터와 제2 IR 특징벡터를 추출하는 단계;
상기 특징 퓨전 모듈이 상기 제2 VL 특징벡터와 상기 제2 IR 특징벡터를 채널방향으로 연속적으로 쌓아 콘볼루션 연산을 거친 후 0 부터 1사이의 확률값을 가지는 어텐션 벡터를 추출하는 단계; 및
상기 특징 퓨전 모듈이 상기 어텐션 벡터를 상기 제1 VL 특징벡터와 상기 제1 IR 특징벡터에 각각 적용하여 제3 VL 특징벡터와 제3 IR 특징벡터를 추출하는 단계;를 포함하는 것을 특징으로 하는 합성 영상을 활용한 객체 검출방법.
제 8항에 있어서, 상기 제2 VL 특징벡터와 상기 제2 IR 특징벡터를 추출하는 단계는, 상기 특징 퓨전 모듈이 각각 크기가 다른 다수의 콘볼루션 필터를 적용하여 연산하는 것을 특징으로 하는 합성 영상을 활용한 객체 검출방법.
제 8항에 있어서, 상기 어텐션 벡터를 추출하는 단계는, 상기 특징 퓨전 모듈이 시그모이드 함수를 통해 각 원소의 값을 0 부터 1 사이의 값으로 매핑시켜 정규화하여 상기 어텐션 벡터를 추출하는 것을 특징으로 하는 합성 영상을 활용한 객체 검출방법.
제 8항에 있어서, 상기 제3 VL 특징벡터와 상기 제3 IR 특징벡터를 추출하는 단계는, 상기 특징 퓨전 모듈이 상기 제1 VL 특징벡터와 상기 제1 IR 특징벡터에 각각 상기 어텐션 벡터를 채널별로 곱하여 상기 제3 VL 특징벡터와 상기 제3 IR 특징벡터를 추출하는 것을 특징으로 하는 합성 영상을 활용한 객체 검출방법.