KR20190119864A

KR20190119864A - 딥러닝 기반의 소형 물체 검출 기법

Info

Publication number: KR20190119864A
Application number: KR1020180043343A
Authority: KR
Inventors: 송병철; 최준호; 이승현
Original assignee: 인하대학교 산학협력단
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2019-10-23
Also published as: KR102073162B1

Abstract

일 실시예에 따른, 물체 검출 방법은, 입력 영상으로부터 딥 러닝 기반의 영상 분할 기법을 이용하여 기 설정된 크기 이하의 객체를 검출하기 위한 검출 영역을 제안하는 단계; 및 상기 제안된 검출 영역에 기반하여 상기 기 설정된 크기 이하의 객체의 위치 정보를 검출하는 단계를 포함할 수 있다.

Description

딥러닝 기반의 소형 물체 검출 기법{SMALL OBJECT DETECTION BASED ON DEEP LEARNING}

아래의 설명은 딥 러닝 기반 물체 검출 방법 및 장치에 관한 것이다.

오늘날 딥 러닝을 기반으로 하는 영상 인식 분야의 발전으로 인해 컴퓨터 비전 분야에 대한 관심이 크게 증가했다. 대표적으로 드론 및 자동차 관련 산업에서 비전 관련 연구들이 활발하게 진행되고 있으며, 이러한 기술들은 각 분야에서 핵심적인 역할을 수행하고 있다.

드론 관련 산업의 경우 최근 드론 종류의 다양화로 인해 그 활용범위가 매우 넓어지고 있으며 산업 및 민간에서 이용되는 드론의 수 역시 크게 증가하고 있으나, 드론으로 인한 안전 및 보안 상의 이슈가 발생하고 있다. 이러한 이슈를 해결하기 위해 컴퓨터 비전을 이용해 비행하는 드론을 검출하고 해당 드론을 무력화시킴으로써 추락시키는 안티드론 기술이 연구되어 왔다. 그러나 상공에서 날아다니는 드론의 경우 일반적으로 영상 내에 존재하는 크기가 작기 때문에 검출에 어려움이 있다.

자동차 관련 산업의 경우 자율 주행 자동차를 목표로 하는 첨단 운전 보조 시스템이 각광을 받고 있다. 이러한 시스템은 기본적으로 주행상황 인식을 기반으로 하는데 AVM(Around View Monitoring)과 같은 기술이 이 분야에 해당된다. AVM 기술은 레이더 및 라이더, 카메라 등을 사용하여 주변을 센싱하지만 성능 및 가격 상의 이유로 카메라로부터 획득한 영상 기반의 센싱이 가장 많이 활용되고 있다. 한편, 도로주행 상황에서 이러한 기술이 적용되기 위해서는 운전자가 탑승한 차량의 제동거리를 고려해야 하기 때문에 원거리에 위치한 물체 인식 성능이 높아야 한다. 그러나 원거리에 존재하는 물체는 영상 내에서 매우 작게 나타나기 때문에 검출이 어렵다.

도 1 및 도 2를 참고하면, 물체를 검출하는 방법을 설명하기 위한 도면이다. 종래의 가장 높은 물체 인식 성능을 보이는 검출기는 딥 러닝을 이용한 물체 검출기이다. 이러한 딥 러닝 기반 물체 검출기는 크게 두 가지의 방식으로 분류될 수 있다. 하나는 영역 기반 물체 검출기이고, 다른 하나는 영역 미기반 물체 검출기이다.

도 1을 참고하면, Faster R-CNN 검출기를 나타낸 것으로, 도 1(가)는 검출기의 전체적인 구조, 도 1(나) RPN의 구조이다. 이러한 영역 기반 물체 검출기는 두 가지 단계를 수행함으로써 물체를 검출할 수 있다. 첫 번째 단계에서는 물체가 존재할 높은 확률 값을 갖는 후보 상자를 생성한다. 그 후, 두 번째 단계에서 지역별 하위 네트워크가 이러한 후보 상자 영역을 입력으로 하여 어떤 물체인지 분류하도록 되어있다. 영역 기반 물체 검출의 대표적인 검출기는 Faster R-CNN이 있다. Faster R-CNN은 RPN(Region proposal network)를 통해 물체 검출 영역을 제안하였고, 이후 FC(Fully connected layer)를 통해 제안된 영역을 분류하였다. 이러한 영역 기반 물체 검출기의 특징인 영역 제안 단계는 대부분의 배경들을 제거할 수 있으므로 물체 검출을 위한 탐색 공간이 크게 감소되어 연산량 측면에서 이득이 있다. 또한, 영역 미기반 기법에 비해 높은 검출 성능을 보인다는 장점이 있다. 그러나 매우 작은 물체의 경우에는 영역 제안 자체를 실패하는 경우가 많기 때문에 좋은 성능을 보이지 못한다.

도 2를 참고하면, SSD 검출기를 나타낸 것으로, 도 2(가)는 검출기의 전체적인 구조, 도2(나)는 특징 맵(Feature map)에 따른 다른 크기의 물체 검출 개념도이다. 이러한, 영역 미기반 물체 검출기는 입력 이미지에 대해 일부분을 잘라내어 입력으로 사용하는 등의 변형없이 그 한 장으로 검출을 진행한다. 이러한 방식은 일정 크기의 입력 이미지를 CNN(Convolutional neural network)에 입력함으로써 특징 맵을 획득하고, 해당 특징 맵 상에서 bounding box의 크기와 위치, 그리고 물체의 클래스 확률을 바로 추정해낸다. 이러한 방식의 대표적인 예는 SSD(Single shot multibox detector)가 있다. SSD는 하나의 특징 맵 상에서 여러 크기의 물체를 검출하기 어렵기 때문에 CNN을 통해 특징 맵을 줄여가면서 각 단계별로 다른 크기의 물체를 검출하도록 하였다. 큰 특징 맵에서는 하나의 셀이 작은 영역의 특징을 갖고 있기 때문에 작은 물체를 검출하고, 작은 특징 맵에서는 하나의 셀이 큰 영역의 특징을 가지므로 큰 물체의 검출을 수행한다. 영역 미기반 기법은 영역 기반 기법에 비해 영역 제안 단계가 없으므로 구조가 단순하고, 실행속도가 매우 빠르다는 장점이 있다. 그러나 이러한 방식은 입력 영상의 크기가 500x500 이하로 제한되어 있어 이보다 큰 영상을 500x500 이하의 크기로 resize하여 CNN에 입력할 경우, 작은 물체의 정보가 손실되어 특징 맵에 의한 검출이 어렵게 된다.

딥 러닝을 기반으로 영상 내 소형 물체를 검출하는 방법 및 장치를 제공할 수 있다. 구체적으로, 딥 러닝 기반의 영상 분할 네트워크를 이용하여 소형 물체가 존재할 가능성이 높은 영역에 대하여 검출 영역으로 제안하고, 제안된 검출 영역으로부터 검출을 수행함으로써 소형 물체를 검출하는 기법을 제공할 수 있다.

물체 검출 방법은, 입력 영상으로부터 딥 러닝 기반의 영상 분할 기법을 이용하여 기 설정된 크기 이하의 객체를 검출하기 위한 검출 영역을 제안하는 단계; 및 상기 제안된 검출 영역에 기반하여 상기 기 설정된 크기 이하의 객체의 위치 정보를 검출하는 단계를 포함할 수 있다.

상기 검출 영역을 제안하는 단계는, 상기 딥 러닝 기반의 영상 분할 기법으로 오토인코더 방식의 딥 러닝 네트워크를 이용하여 기 설정된 크기 이하의 객체가 존재하는 검출 영역을 표시하도록 학습시키는 단계를 포함할 수 있다.

상기 검출 영역을 제안하는 단계는, 상기 오토인코더 방식의 딥 러닝 네트워크를 이용하여 상기 입력 영상을 인코딩함에 따라 상기 입력 영상의 특징을 학습시키고, 상기 학습된 특징에 기초하여 디코딩하여 검출 영역을 생성하도록 학습시키는 단계를 포함할 수 있다.

상기 오토인코더 방식의 딥 러닝 네트워크는, 컨볼루션 레이어에 컨볼루션 및 BN(Batch normalization), ReLu layer를 각각 포함시키고, 인코더 단에서 사용한 컨볼루션 블록의 개수만큼 디컨볼루션을 적용하고, 상기 인코더 단의 풀링(polling) 레이어에 대응하기 위해 디코더 단에 업스케일링(upscailing) 레이어를 적용할 수 있다.

상기 검출 영역을 제안하는 단계는, 상기 오토인코더 방식의 딥 러닝 네트워크를 통하여 학습을 수행함에 따라 출력된 출력 영상에 대하여 스레숄딩, 형태학적 팽창 또는 침식 필터 중 어느 하나 이상을 사용하여 최적화 작업을 수행하고, 상기 최적화 작업을 수행한 검출 영역을 각각 레이블링하여 각 검출 영역의 x 축 min 좌표, y 축 min 좌표, x축 max 좌표, y축 max 좌표를 추출하는 단계를 포함할 수 있다.

상기 기 설정된 크기 이하의 객체의 위치 정보를 검출하는 단계는, 상기 제안된 검출 영역에 RON 검출기를 이용하여 상기 기 설정된 크기 이하의 객체의 위치 정보를 검출하는 단계를 포함할 수 있다.

상기 기 설정된 크기 이하의 객체의 위치 정보를 검출하는 단계는, 상기 기 설정된 크기 이하의 객체의 특징들에 대하여 변환된 분할 정보를 고정된 크기로 리샘플하는 단계를 포함할 수 있다.

물체 검출 장치는, 입력 영상으로부터 딥 러닝 기반의 영상 분할 기법을 이용하여 기 설정된 크기 이하의 객체를 검출하기 위한 검출 영역을 제안하는 검출 영역 제안부; 및 상기 제안된 검출 영역에 기반하여 상기 기 설정된 크기 이하의 객체의 위치 정보를 검출하는 검출부를 포함할 수 있다.

일 실시예에 따른 물체 검출 장치는 오토인코더 기반의 딥 러닝 네트워크를 이용하여 보다 정확하게 소형 물체를 검출할 수 있다. 구체적으로, 제안된 검출 영역이 고정된 크기로 리샘플되어 검출이 수행됨에 따라 결과적으로 대형 혹은 중형 차량의 크기처럼 인식되기 때문에 높은 확률로 해당 영역에 존재하는 소형 물체의 존재 여부를 파악하는 것이 가능하다.

일 실시예에 따른 물체 검출 장치는 현재 산업에서 활용되고 있는 기존 검출기의 문제점인 소형 물체의 검출 성능을 향상시키고, 드론 및 지능형 자동차와 같은 산업의 안전성 확보에 기여할 수 있다.

도 1 및 도 2는 종래의 딥러닝을 이용한 물체 검출기를 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 물체 검출 장치의 개괄적인 동작을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 물체 검출 장치의 구성을 설명하기 위한 블록도이다.
도 5는 일 실시예에 따른 물체 검출 장치의 물체 검출 방법을 설명하기 위한 흐름도이다.
도 6은 일 실시예에 따른 물체 검출 장치의 영상 분할 기반의 검출 영역 네트워크를 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 물체 검출 장치의 학습을 위한 그라운드 트루스 영상을 제작하는 것을 설명하기 위한 예이다.
도 8은 일 실시예에 따른 물체 검출 장치에서 검출 결과를 출력하는 것을 설명하기 위한 예이다.
도 9 및 도 10은 일 실시예에 따른 물체 검출 장치에서 검출된 출력 결과를 나타낸 예이다.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.

도 3은 일 실시예에 따른 물체 검출 장치의 개괄적인 동작을 설명하기 위한 도면이다.

물체 검출 장치는 딥 러닝을 기반으로 영상 내에 존재하는 기 설정된 크기 이하의 객체(예를 들면, 소형 물체)를 검출할 수 있다. 이하, 아래의 설명에서는 기 설정된 크기 이하의 객체를 소형 물체로 기재하기로 한다. 물체 검출 장치는 영상이 입력됨을 수신할 수 있다(310). 물체 검출 장치는 입력 영상에 존재하는 소형 물체를 검출하기 위한 검출 영역을 제안할 수 있다(320). 이때, 물체 검출 장치는 딥 러닝 기반의 영상 분할 기법을 이용하여 소형 물체의 대략적인 위치 정보를 추정할 수 있다. 이때, 입력 영상에 딥러닝 분야의 오토인코더 기반 영상 분할 기법을 적용하여 소형 물체의 대략적인 위치를 출력할 수 있다. 또한, 해당 출력을 최적화하기 위해 스레숄딩(thresholding)과 형태학적 팽창, 침식 과정 등의 과정을 수행할 수 있다.

물체 검출 장치는 제안된 검출 영역에 기초하여 최종 검출을 수행할 수 있다(330). 물체 검출 장치는 추정된 소형 물체의 대략적인 위치 정보를 기반으로 물체의 특징점을 추출하여 해당 물체의 인식을 수행할 수 있다. 물체 검출 장치는 제안된 검출 영역에 대해 RON 검출기를 사용함으로써 최종적으로 기존 기법 대비 높은 확률로 소형 물체를 검출할 수 있다(340). 물체 검출 장치는 소형 물체의 위치 정보를 검출할 수 있다.

도 4는 일 실시예에 따른 물체 검출 장치의 구성을 설명하기 위한 블록도이고, 도 5는 일 실시예에 따른 물체 검출 장치의 물체 검출 방법을 설명하기 위한 흐름도이다.

물체 검출 장치(100)는 검출 영역 제안부(410) 및 검출부(420)를 포함할 수 있다. 이러한 구성요소들은 물체 검출 장치(100)에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 구성요소들은 도 5의 물체 검출 방법이 포함하는 단계들(510 내지 520)을 수행하도록 물체 검출 장치(100)를 제어할 수 있다. 이때, 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.

물체 검출 장치(100)의 프로세서는 물체 검출 방법을 위한 프로그램의 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다. 예를 들면, 물체 검출 장치(100)에서 프로그램이 실행되면, 프로세서는 운영체제의 제어에 따라 프로그램의 파일로부터 프로그램 코드를 메모리에 로딩하도록 물체 검출 장치를 제어할 수 있다. 이때, 프로세서 및 프로세서가 포함하는 검출 영역 제안부(410) 및 검출부(420) 각각은 메모리에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(510 내지 520)을 실행하기 위한 프로세서의 서로 다른 기능적 표현들일 수 있다.

단계(510)에서 검출 영역 제안부(410)는 입력 영상으로부터 딥 러닝 기반의 영상 분할 기법을 이용하여 소형 물체(기 설정된 크기 이하의 객체)의 검출을 위한 검출 영역을 제안할 수 있다. 검출 영역 제안부(410)는 딥 러닝 기반의 영상 분할 기법으로 오토인코더 방식의 딥 러닝 네트워크를 이용하여 소형 물체가 존재하는 검출 영역을 표시하도록 학습시킬 수 있다. 검출 영역 제안부(410)는 오토인코더 방식의 딥 러닝 네트워크를 이용하여 입력 영상을 인코딩함에 따라 입력 영상의 특징을 학습시키고, 학습된 특징에 기초하여 디코딩하여 검출 영역을 생성하도록 학습시킬 수 있다. 이때, 오토인코더 방식의 딥 러닝 네트워크는 컨볼루션 레이어에 컨볼루션 및 BN(Batch normalization), ReLu layer를 각각 포함시키고, 인코더 단에서 사용한 컨볼루션 블록의 개수만큼 디컨볼루션을 적용하고, 인코더 단의 풀링(polling) 레이어에 대응하기 위해 디코더 단에 업스케일링(upscailing) 레이어가 적용될 수 있다. 검출 영역 제안부(410)는 오토인코더 방식의 딥 러닝 네트워크를 통하여 학습을 수행함에 따라 출력된 출력 영상에 대하여 스레숄딩, 형태학적 팽창 또는 침식 필터 중 어느 하나 이상을 사용하여 최적화 작업을 수행하고, 최적화 작업을 수행한 검출 영역을 각각 레이블링하여 각 검출 영역의 x 축 min 좌표, y 축 min 좌표, x축 max 좌표, y축 max 좌표를 추출할 수 있다.

단계(520)에서 검출부(420)는 제안된 검출 영역에 기반하여 소형 물체(기 설정된 크기 이하의 객체)의 위치 정보를 검출할 수 있다. 검출부(420)는 제안된 검출 영역에 RON 검출기를 이용하여 소형 물체의 위치 정보를 검출할 수 있다. 검출부(420)는 소형 물체의 특징들에 대하여 변환된 검출 영역을 고정된 크기로 리샘플할 수 있다.

도 6은 일 실시예에 따른 물체 검출 장치의 영상 분할 기반의 검출 영역 네트워크를 설명하기 위한 도면이다.

물체 검출 장치는 딥 러닝 기반의 영상 분할 기법을 이용하여 소형 물가 존재할 것으로 추정되는 영역을 검출 수행 대상으로 제안할 수 있다. 컴퓨터 비전 분야에서 영상 분할은 디지털 영상 내에 존재하는 의미 있는 여러 물체들을 각 물체 별로 단순화하여 표시하는 작업이다. 최근 딥 러닝에 대한 연구가 활발히 진행되면서 영상 분할에 딥 러닝을 적용하는 기법이 높은 성능을 보이고 있다. 실시예에서는 오토인코더 방식의 딥 러닝 네트워크를 영상 분할에 적용하여 소형 물체가 존재하는 영역을 표시하도록 학습을 진행함으로써 검출 영역을 제안할 수 있다.

물체 검출 장치는 딥 러닝 네트워크를 통하여 학습을 수행함에 따라 입력 영상에 대하여 인코딩을 수행한 후, 디코딩을 수행함에 따라 입력 영상에 대한 검출 영역을 출력할 수 있다. 구체적으로, 딥 러닝 네트워크는 컨볼루션 레이어 한 개에 컨볼루션 및 BN(Batch normalization), ReLu layer를 각각 한 개씩 포함시킬 수 있다. 또한, 딥 러닝 네트워크에 오토인코더 방식을 적용하기 위해 인코더 단에서 사용한 컨볼루션 블록의 개수만큼 디컨볼루션을 적용하고, 인코더 단의 풀링(polling) 레이어에 대응하기 위해 디코더 단에 업스케일링(upscailing) 레이어를 적용할 수 있다. 물체 검출 장치는 오토인코더 방식의 딥 러닝 네트워크를 적용함으로써 입력 영상에 대한 학습을 수행할 수 있다. 이때, 입력 영상의 특징을 인코딩 하도록 학습을 수행할 수 있고, 인코더에서 학습된 특징을 바탕으로 디코더에서 분할 정보를 생성하도록 학습을 수행할 수 있다.

오토인코더 방식을 적용한 딥 러닝 네트워크는 ground truth를 소형 물체 영역만을 분할하여 표시한 영상으로 하여 학습을 진행했을 때, 컨볼루션 레이어를 지나면서 소형 물체에 대한 특징을 학습하게 되고, 디컨볼루션 레이어를 지나면서 소형 물체의 특징들을 영상 분할 정보로 변환하도록 학습될 수 있다.

오토인코더 방식을 적용한 딥 러닝 네트워크는 풀링 레이어를 복수 번 거치면서 소형 물체에 대한 특징들을 잃어버리는 것을 방지하기 위해 3개의 풀링 레이어만을 사용한다. 또한 conv1~4 그룹에서 각 그룹의 컨볼루션 레이어마다 64, 128, 256, 512개의 출력을 갖도록 한다. 디코더 단은 인코더 단과 대칭이 되도록 설계될 수 있다. 모든 컨볼루션 레이어와 디컨볼루션 레이어의 커널 크기는 3x3으로 설정했으며, 스트라이드 및 패딩은 1로 설정할 수 있다. 풀링 레이어의 경우 맥스 풀링을 적용하여 커널 크기를 2x2, 스트라이드는 2로 설정할 수 있다.

오토인코더 방식을 적용한 딥 러닝 네트워크를 통한 학습은 SGD optimizer를 사용하여 학습율을 0.01, 모멘텀을 0.9, 웨이트 디케이를 0.0005, mini batch를 4로 설정될 수 있다. 또한, 20 에포크마다 학습율을 0.1배로 하는 방식으로 60 에포크 동안 학습을 진행할 수 있다. 학습을 위한 그라운드 트루스(ground truth) 영상은 도 7과 같이 영상 내에 40x40 크기 이하의 소형 물체 영역 만을 255 값으로 표시하고 나머지 영역은 0으로 표시하는 방식으로 제작될 수 있다. 도 7의 (a)는 원본 영상을 나타낸 것이고, (b)는 소형 물체에 대한 그라운드 트루스(ground truth) 영상을 나타낸 것이다.

도 8은 일 실시예에 따른 물체 검출 장치에서 검출 결과를 출력하는 것을 설명하기 위한 예이다.

물체 검출 장치는 영상 분할 기법에 기반한 딥 러닝 네트워크를 통하여 입력 영상이 출력되는 출력 영상을 배경이 0, 소형 물체 영역이 255로 출력될 수 있다. 그러나 학습 후에 입력 영상에 대해 상기 네트워크를 수행하면 출력 영상은 0과 255 값 만을 갖는 것이 아니라 그 사이의 값도 출력된다. 이에 따라 물체 검출 장치는 정확한 검출 영역을 제안하기 위하여 출력 영상의 최적화 작업을 수행할 수 있다. 물체 검출 장치는 후처리로 딥 러닝 네트워크의 출력 영상에 대해 스레숄딩과 형태학적 팽창, 침식 필터 중 적어도 하나 이상의 최적화 작업을 수행할 수 있다. 220을 문턱치로 설정하여 이보다 큰 값은 255, 이보다 작은 값은 0을 갖도록 설정하며, 형태학적 필터의 경우, 3x3 크기 커널의 침식 필터를 3번 연속 적용하여 아웃라이어를 제거하고, 소형 물체의 위치 예측 범위를 조금 더 넓게 생성하기 위하여 3x3 크기 커널의 팽창 필터를 5번 연속 적용할 수 있다. 물체 검출 장치 위 과정을 통해 생성된 영상 내의 검출 영역을 각각 레이블링 하여 별도의 객체에 대한 제안된 검출 영역으로서 레이블링 된 각 영역의 x축 min좌표, x축 max 좌표, y축 min 좌표, y 축 max 좌표를 추출해 최종 검출 단의 검출기에 전달할 수 있다. 도 8을 참고하면, 물체 검출 장치에서 딥 러닝 네트워크를 통하여 출력된 출력 영상의 결과를 나타낸 것이다. 이때, 물체 검출 장치는 출력 영상에 소형 물체에 대한 검출 영역을 사각 박스로 출력할 수 있다. 도 8(a)는 원본 영상, 도 8(b)는 네트워크 및 후처리를 통한 소형 물체를 포함하는 영상을 분할한 결과, 도 8(c)는 레이블링 결과를 나타낸 것이다.

물체 검출 장치는 제안된 검출 영역을 RON 검출기를 사용하여 소형 물체를 검출할 수 있다. RON 검출기는 작은 물체에 대하여 높은 성능을 보이는 최신의 물체 검출기이다. 이에, 검출 영역이 RON 검출기의 고정된 입력 크기는 320X320 픽셀 크기로 리샘플되어 사용될 수 있다. 물체 검출 장치는 제안된 검출 영역이 아닌 전체 영상에서의 검출 결과를 나타내어야 하므로 수학식 1과 같이 최종 검출 결과의 위치 정보를 계산할 수 있다.

수학식 1:

는 각각의 최종 검출 결과의 좌표 정보이고,

는 각각 k(k는 자연수)번째 소형 물체의 후보 영역을 포함하는 영상에 대한 j(j는 자연수)번째 최종 검출 결과의 좌표 정보이다.

는 입력 영상에 대한 소형 물체의 후보 영역의 시작점 좌표이다.

도 9 및 도 10은 일 실시예에 따른 물체 검출 장치에서 검출된 출력 결과를 나타낸 예이다.

실시예는 딥러닝 기반의 영상 분할 기법을 이용하여 소형 물체가 존재할 가능성이 높은 영역들에 대한 위치 정보를 포함하는 검출 영역을 출력하고, 검출 영역으로부터 소형 물체를 검출하는 기법을 제안한다. 검출 영역 제안 단계에서 소형 물체로 예측되어 제안된 영역은 고정된 크기로 리샘플되어 검출기에 입력되었을 때 결과적으로 대형 혹은 중형 차량의 크기처럼 인식이 되기 때문에 검출기가 전체 영상에 대해 물체를 검출을 하는 것보다 높은 확률로 해당 영역에 물체의 존재 여부를 파악하는 것이 가능하다.

도 9는 드론 데이터에 대한 검출 결과로서, 도 9(a)는 원본 영상, 도9(b)는 검출 결과를 나타낸 것이다. 마찬가지로, 도 10은 차량 데이터에 대한 검출 결과로서, 도10(a)는 원본 영상, 도 10(b)는 검출 결과를 나타낸 것이다.

검출 대상의 크기가 40x40보다 작은 소형 차량에 대해 검출 영역 제안 단계 없이 물체 검출 분야에서 최신 기법인 RON 검출기 만으로 검출하였을 때와 제안 기법의 검출 결과를 비교할 수 있다. 예를 들면, 4GHz로 동작하는 i7-6700K CPU와 64GB RAM의 성능을 가진 PC 상에서 GeForce GTX Titan X 그래픽 카드로 구성된 하드웨어 상에서 검출 결과를 비교할 수 있다. 이때, 알고리즘 구현은 python에서 Caffe와 Tensorflow 라이브러리를 이용할 수 있고, 사용된 RON 검출기는 동일하게 120000 반복 동안 학습되었음을 가정할 수 있다. 비교에 사용된 영상은 수집된 드론 영상의 ground truth 정보를 직접 어노테이션하여 구축한 드론 데이터와 실제 차량 주행 환경에서 촬영된 공인 데이터 세트인 KITTI 2D 물체 검출 데이터 세트이다. 드론 데이터는 1280×720 크기의 영상이며 17000장으로 학습을 진행하여 2000장으로 테스트를 진행하였고, KITTI 데이터 세트는 1242×375 크기의 그라운드 트루스 정보가 존재하는 학습 영상 7481장을 임의로 7000 장의 학습 데이터와 481 장의 테스트 데이터로 나누어 사용하였다. 비교 결과, 표1과 같이 드론 데이터에서 실시예에서 제안된 방법이 재현율 측면에서 평균 22.9% 높은 성능을 보였으며, 차량 데이터에서는 평균 26.1% 높은 성능을 보였다. 특히 25² 미만 크기의 매우 작은 물체에 대해서는 실시예에서 제안된 기법이 비교 기법에 비해 드론은 약 5배, 차량은 약 15배의 큰 성능 향상을 확인할 수 있다. 표 1은 드론 및 차량 데이터 세트에 대한 RON 검출기 단독 사용과 제안된 방법의 재현율 성능을 비교한 것이다.

표 1:

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

물체 검출 방법에 있어서,
입력 영상으로부터 딥 러닝 기반의 영상 분할 기법을 이용하여 기 설정된 크기 이하의 객체를 검출하기 위한 검출 영역을 제안하는 단계; 및
상기 제안된 검출 영역에 기반하여 상기 기 설정된 크기 이하의 객체의 위치 정보를 검출하는 단계
를 포함하는 물체 검출 방법.
제1항에 있어서,
상기 검출 영역을 제안하는 단계는,
상기 딥 러닝 기반의 영상 분할 기법으로 오토인코더 방식의 딥 러닝 네트워크를 이용하여 기 설정된 크기 이하의 객체가 존재하는 검출 영역을 표시하도록 학습시키는 단계
를 포함하는 물체 검출 방법.
제2항에 있어서,
상기 검출 영역을 제안하는 단계는,
상기 오토인코더 방식의 딥 러닝 네트워크를 이용하여 상기 입력 영상을 인코딩함에 따라 상기 입력 영상의 특징을 학습시키고, 상기 학습된 특징에 기초하여 디코딩하여 검출 영역을 생성하도록 학습시키는 단계
를 포함하는 물체 검출 방법.
제2항에 있어서,
상기 오토인코더 방식의 딥 러닝 네트워크는,
컨볼루션 레이어에 컨볼루션 및 BN(Batch normalization), ReLu layer를 각각 포함시키고, 인코더 단에서 사용한 컨볼루션 블록의 개수만큼 디컨볼루션을 적용하고, 상기 인코더 단의 풀링(polling) 레이어에 대응하기 위해 디코더 단에 업스케일링(upscailing) 레이어를 적용하는
것을 특징으로 하는 물체 검출 방법.
제2항에 있어서,
상기 검출 영역을 제안하는 단계는,
상기 오토인코더 방식의 딥 러닝 네트워크를 통하여 학습을 수행함에 따라 출력된 출력 영상에 대하여 스레숄딩, 형태학적 팽창 또는 침식 필터 중 어느 하나 이상을 사용하여 최적화 작업을 수행하고, 상기 최적화 작업을 수행한 검출 영역을 각각 레이블링하여 각 검출 영역의 x 축 min 좌표, y 축 min 좌표, x축 max 좌표, y축 max 좌표를 추출하는 단계
를 포함하는 물체 검출 방법.
제1항에 있어서,
상기 기 설정된 크기 이하의 객체의 위치 정보를 검출하는 단계는,
상기 제안된 검출 영역에 RON 검출기를 이용하여 상기 기 설정된 크기 이하의 객체의 위치 정보를 검출하는 단계
를 포함하는 물체 검출 방법.
제6항에 있어서,
상기 기 설정된 크기 이하의 객체의 위치 정보를 검출하는 단계는,
상기 기 설정된 크기 이하의 객체의 특징들에 대하여 변환된 분할 정보를 고정된 크기로 리샘플하는 단계
를 포함하는 물체 검출 방법.
물체 검출 장치에 있어서,
입력 영상으로부터 딥 러닝 기반의 영상 분할 기법을 이용하여 기 설정된 크기 이하의 객체를 검출하기 위한 검출 영역을 제안하는 검출 영역 제안부; 및
상기 제안된 검출 영역에 기반하여 상기 기 설정된 크기 이하의 객체의 위치 정보를 검출하는 검출부
를 포함하는 물체 검출 장치.