KR20200091791A

KR20200091791A - 하드웨어 최적화에 쓰이는 1x1 컨벌루션을 이용한 CNN 기반의 객체 검출기를 학습하는 방법 및 학습 장치, 이를 이용한 테스트 장치 및 테스트 장치

Info

Publication number: KR20200091791A
Application number: KR1020190147083A
Authority: KR
Inventors: 김계현; 김용중; 김인수; 김학경; 남운현; 부석훈; 성명철; 여동훈; 유우주; 장태웅; 정경중; 제홍모; 조호진
Original assignee: 주식회사 스트라드비젼
Priority date: 2019-01-23
Filing date: 2019-11-15
Publication date: 2020-07-31
Also published as: US10395140B1; JP6853592B2; JP2020119541A; CN111476075B; KR102328733B1; CN111476075A; EP3686797A1

Abstract

본 발명은 KPI를 충족시키는 하드웨어 최적화에 쓰이는 CNN 기반의 객체 검출기의 파라미터를 학습하는 방법에 있어서, 학습 장치가 제1 트랜스포징 레이어(Transposing Layer) 또는 풀링 레이어로 하여금 프로포잘 별 픽셀을 컨캐터네이팅(Concatenating)하도록 하여 통합 특징 맵(Integrated Feature Map)을 생성하도록 하며, 제2 트랜스포징 레이어 또는 풀링 레이어로 하여금 통합 특징 맵을 이용해 생성된 볼륨 조정된 특징 맵을 픽셀 별로 분리하도록 하여 분류 레이어로 하여금 객체 클래스 정보를 생성하도록 하는 방법을 제공하며, 본 발명에서는 동일한 프로세서가 컨벌루션 연산 및 FC 연산을 수행하기 때문에 칩(Chip)의 사이즈를 줄여 하드웨어를 최적화하여 KPI(Key Performance Index, 핵심성과지표)를 충족할 수 있으므로, 반도체 제작 과정 중 추가 라인을 설치할 필요가 없으며, 전력 절감, 반도체 다이(Die) 내에서 FC 모듈 대신 다른 모듈을 설치할 공간이 넓어지는 등의 장점이 있다.

Description

하드웨어 최적화에 쓰이는 1x1 컨벌루션을 이용한 CNN 기반의 객체 검출기를 학습하는 방법 및 학습 장치, 이를 이용한 테스트 장치 및 테스트 장치{LEARNING METHOD AND LEARNING DEVICE FOR OBJECT DETECTOR BASED ON CNN USING 1x1 CONVOLUTION TO BE USED FOR HARDWARE OPTIMIZATION, AND TESTING METHOD AND TESTING DEVICE USING THE SAME}

본 발명은 하드웨어 최적화에 쓰이는 1x1 컨벌루션을 이용한 CNN 기반의 객체 검출기의 파라미터를 학습하는 방법 및 학습 장치, 이를 이용한 테스트 장치 및 테스트 장치에 관한 것으로, 보다 상세하게는, 상기 CNN 기반의 상기 객체 검출기의 상기 파라미터를 학습하는 방법에 있어서, (a) 적어도 하나의 트레이닝 이미지가 입력되면, 학습 장치가, (i) 적어도 하나의 컨벌루션 레이어로 하여금 상기 트레이닝 이미지에 대하여 컨벌루션 연산을 적어도 한 번 적용하도록 하여 적어도 하나의 초기 특징 맵(Initial Feature Map)을 생성하도록 하며, (ii) RPN으로 하여금 상기 초기 특징 맵을 이용하여 상기 트레이닝 이미지 내에 위치하는 적어도 하나의 객체에 대응하는 적어도 하나의 프로포잘을 생성하도록 하고, (iii) (iii-1) 풀링 레이어로 하여금 상기 초기 특징 맵 상에서 상기 프로포잘 각각에 대응되는 영역 각각에 대해 풀링 연산을 적용하도록 하여 상기 프로포잘 별 풀링된 특징 맵을 생성하도록 하고, 제1 트랜스포징 레이어(Transposing Layer)로 하여금 상기 프로포잘 별 상기 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 상기 프로포잘 별로 컨캐터네이팅(Concatenating)하여 통합 특징 맵(Integrated Feature Map)을 생성하도록 하거나, (iii-2) 상기 풀링 레이어로 하여금 상기 초기 특징 맵 상에서 상기 프로포잘 각각에 대응되는 각각의 영역에 대하여 풀링 연산을 적용하도록 하여 상기 프로포잘 별 상기 풀링된 특징 맵을 생성하고, 상기 풀링 레이어로 하여금 상기 프로포잘 별 상기 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 상기 프로포잘 별로 컨캐터네이팅하여 상기 통합 특징 맵을 생성하도록 하는 단계; (b) 상기 학습 장치가, 제1 1x1 컨벌루션 레이어로 하여금 상기 통합 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨(Volume)이 조정된 제1 조정 특징 맵을 생성하도록 하며, 제2 1x1 컨벌루션 레이어로 하여금 상기 제1 조정 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨이 조정된 제2 조정 특징 맵을 생성하도록 하는 단계; 및 (c) 상기 학습 장치가, (c1) (i) 제2 트랜스포징 레이어로 하여금 상기 제2 조정 특징 맵을 픽셀 별로 분리하여 상기 프로포잘 별 픽셀별 특징 맵(Pixel-Wise Feature Map)을 생성하도록 하며, 분류 레이어로 하여금 상기 프로포잘 별 상기 픽셀별 특징 맵을 이용하여 상기 프로포잘 각각에 대한 객체 클래스 정보를 생성하도록 하거나, (ii) 상기 분류 레이어로 하여금 상기 제2 조정 특징 맵을 상기 픽셀 별로 분리하여 상기 프로포잘 별 상기 픽셀별 특징 맵을 생성하고 상기 프로포잘 별 상기 픽셀별 특징 맵을 이용하여 상기 프로포잘 각각에 대한 상기 객체 클래스 정보를 생성하도록 한 후, (c2) 검출 레이어(Detecting Layer)로 하여금 상기 객체 클래스 정보와 상기 프로포잘 별 상기 픽셀별 특징 맵을 참조하여 상기 트레이닝 이미지 내에 위치하는 상기 객체에 대응되는 객체 검출 정보를 생성하도록 하고, (c3) 검출 로스 레이어로 하여금 상기 객체 검출 정보와 이에 대응되는 GT(Ground Truth)를 참조하여 적어도 하나의 객체 검출 로스를 산출하도록 함으로써, 상기 객체 검출 로스를 이용한 백프로파게이션을 통해 상기 제2 1x1 컨벌루션 레이어, 상기 제1 1x1 컨벌루션 레이어 및 상기 컨벌루션 레이어 중 적어도 일부의 파라미터를 학습하는 단계;를 포함하는 학습 방법, 이를 이용하여 테스트하는 방법과, 이를 이용한 학습 장치 및 테스트 장치에 관한 것이다.

딥 컨벌루션 뉴럴 네트워크(Deep Convolutional Neural Network; Deep CNN)는 딥 러닝 분야에서 일어난 놀라운 발전의 핵심이다. CNN은 글자 인식 문제를 풀기 위해 90년대에 이미 사용되었지만, 현재처럼 널리 쓰이게 된 것은 최근의 연구 결과 덕분이다. 이러한 딥 CNN은 2012년 ImageNet 이미지 분류 시합에서 다른 경쟁자들을 이기고 우승을 차지했다. 그리고 나서 컨벌루션 뉴럴 네트워크는 기계 학습(Machine Learning) 분야에서 매우 유용한 툴이 되었다.

그리고, CNN은 이미지에서 특징을 추출하는 특징 추출기(Feature Extractor) 및 이미지 내의 객체를 검출하거나 특징 추출기가 추출한 특징을 참조하여 이미지를 인식하는 특징 분류기(Feature Classifier)로 구성된다.

그리고 CNN의 특징 추출기는 컨벌루션 레이어로 구성되며, 특징 분류기는 특징 추출기가 추출한 특징에 대하여 FC 연산(Fully Connected Operation)을 적용할 수 있는 FC 레이어로 구성된다.

하지만, 이와 같은 FC 레이어는 입력된 모든 특징에 대하여 가중치를 생성하여야 하는 불편함이 있으며, 입력된 모든 특징에 대하여 FC 연산을 수행하여야 하므로 컴퓨팅 연산량이 많은 단점이 있다.

또한, FC 레이어에서는 FC 레이어에 입력되는 이미지의 사이즈가 FC 레이어 모델의 소정 사이즈와 일치하여야 한다. 그러므로, 이러한 FC 레이어를 포함하는 CNN에 미리 설정된 사이즈와 다른 트레이닝 이미지 또는 테스트 이미지가 입력될 경우, 컨벌루션 레이어가 트레이닝 이미지나 테스트 이미지에 대하여 해당 연산을 적용할 수 있지만, FC 레이어에서는 상기 소정 사이즈와 다른 사이즈의 입력 이미지가 입력되므로 트레이닝 이미지나 테스트 이미지에 해당 연산을 적용할 수 없다.

따라서, 본 발명의 발명자는 상기와 같은 FC 레이어의 문제점을 극복할 수 있도록 하는 CNN 기반의 객체 검출기를 제안하고자 한다.

본 발명은 상술한 문제점을 모두 해결하는 것을 그 목적으로 한다.

본 발명은 입력 이미지의 사이즈와 관계없이 적어도 하나의 입력 이미지 내에 위치하는 객체를 검출할 수 있도록 하는 CNN 기반의 객체 검출기를 제공하는 것을 다른 목적으로 한다.

본 발명은 특징 분류를 위한 가중치의 개수를 최소화할 수 있도록 하는 CNN 기반의 객체 검출기를 제공하는 것을 또 다른 목적으로 한다.

본 발명은 특징 분류를 위한 컴퓨팅 연산량을 감소시킬 수 있도록 하는 CNN 기반의 객체 검출기를 제공하는 것을 또 다른 목적으로 한다.

상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한, 본 발명의 특징적인 구성은 하기와 같다.

본 발명의 일 태양에 따르면, CNN 기반의 객체 검출기의 파라미터를 학습하는 방법에 있어서, (a) 적어도 하나의 트레이닝 이미지가 입력되면, 학습 장치가, (i) 적어도 하나의 컨벌루션 레이어로 하여금 상기 트레이닝 이미지에 대하여 컨벌루션 연산을 적어도 한 번 적용하도록 하여 적어도 하나의 초기 특징 맵(Initial Feature Map)을 생성하도록 하며, (ii) RPN으로 하여금 상기 초기 특징 맵을 이용하여 상기 트레이닝 이미지 내에 위치하는 적어도 하나의 객체에 대응하는 적어도 하나의 프로포잘을 생성하도록 하고, (iii) (iii-1) 풀링 레이어로 하여금 상기 초기 특징 맵 상에서 상기 프로포잘 각각에 대응되는 영역 각각에 대해 풀링 연산을 적용하도록 하여 상기 프로포잘 별 풀링된 특징 맵을 생성하도록 하고, 제1 트랜스포징 레이어(Transposing Layer)로 하여금 상기 프로포잘 별 상기 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 상기 프로포잘 별로 컨캐터네이팅(Concatenating)하여 통합 특징 맵(Integrated Feature Map)을 생성하도록 하거나, (iii-2) 상기 풀링 레이어로 하여금 상기 초기 특징 맵 상에서 상기 프로포잘 각각에 대응되는 각각의 영역에 대하여 풀링 연산을 적용하도록 하여 상기 프로포잘 별 상기 풀링된 특징 맵을 생성하고, 상기 풀링 레이어로 하여금 상기 프로포잘 별 상기 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 상기 프로포잘 별로 컨캐터네이팅하여 상기 통합 특징 맵을 생성하도록 하는 단계; (b) 상기 학습 장치가, 제1 1x1 컨벌루션 레이어로 하여금 상기 통합 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨(Volume)이 조정된 제1 조정 특징 맵을 생성하도록 하며, 제2 1x1 컨벌루션 레이어로 하여금 상기 제1 조정 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨이 조정된 제2 조정 특징 맵을 생성하도록 하는 단계; 및 (c) 상기 학습 장치가, (c1) (i) 제2 트랜스포징 레이어로 하여금 상기 제2 조정 특징 맵을 픽셀 별로 분리하여 상기 프로포잘 별 픽셀별 특징 맵(Pixel-Wise Feature Map)을 생성하도록 하며, 분류 레이어로 하여금 상기 프로포잘 별 상기 픽셀별 특징 맵을 이용하여 상기 프로포잘 각각에 대한 객체 클래스 정보를 생성하도록 하거나, (ii) 상기 분류 레이어로 하여금 상기 제2 조정 특징 맵을 상기 픽셀 별로 분리하여 상기 프로포잘 별 상기 픽셀별 특징 맵을 생성하고 상기 프로포잘 별 상기 픽셀별 특징 맵을 이용하여 상기 프로포잘 각각에 대한 상기 객체 클래스 정보를 생성하도록 한 후, (c2) 검출 레이어(Detecting Layer)로 하여금 상기 객체 클래스 정보와 상기 프로포잘 별 상기 픽셀별 특징 맵을 참조하여 상기 트레이닝 이미지 내에 위치하는 상기 객체에 대응되는 객체 검출 정보를 생성하도록 하고, (c3) 검출 로스 레이어로 하여금 상기 객체 검출 정보와 이에 대응되는 GT(Ground Truth)를 참조하여 적어도 하나의 객체 검출 로스를 산출하도록 함으로써, 상기 객체 검출 로스를 이용한 백프로파게이션을 통해 상기 제2 1x1 컨벌루션 레이어, 상기 제1 1x1 컨벌루션 레이어 및 상기 컨벌루션 레이어 중 적어도 일부의 파라미터를 학습하는 단계;를 포함하는 것을 특징으로 한다.

일 실시예에서, 상기 (a) 단계 이후, 상기 학습 장치는, RPN 로스 레이어로 하여금 상기 프로포잘과 이에 대응되는 GT를 참조하여 적어도 하나의 RPN 로스를 산출하도록 함으로써, 상기 RPN 로스를 백프로파게이션하여 상기 RPN의 파라미터의 적어도 일부를 학습하는 것을 특징으로 한다.

일 실시예에서, 상기 프로포잘의 개수를 N이라 하며, 상기 프로포잘 별 상기 풀링된 특징 맵의 너비를 M1, 높이를 M2라 하고, 상기 프로포잘 별 상기 풀링된 특징 맵의 채널 개수를 J라 할 경우, 상기 (a) 단계에서, 상기 학습 장치는, (i) 상기 제1 트랜스포징 레이어로 하여금 상기 프로포잘 별 상기 풀링된 특징 맵을 너비가 N, 높이가 1, 채널 개수가 M1xM2xJ인 상기 통합 특징 맵으로 변환시키도록 하거나 (ii) 상기 풀링 레이어로 하여금 상기 프로포잘 별 상기 풀링된 특징 맵을 너비가 N, 높이가 1, 채널 개수가 M1xM2xJ인 상기 통합 특징 맵으로 변환시키도록 하는 것을 특징으로 한다.

일 실시예에서, 상기 제1 1x1 컨벌루션 레이어 내의 필터의 개수를 K라 하고, 상기 제2 1x1 컨벌루션 레이어 내의 필터의 개수를 L이라 할 경우, 상기 (b) 단계에서, 상기 학습 장치는, 상기 제1 1x1 컨벌루션 레이어로 하여금 너비가 N, 높이가 1이고, 채널 개수가 K인 Nx1xK의 볼륨을 가지는 상기 제1 조정 특징 맵(Adjusted Feature Map)을 생성하도록 하며, 상기 제2 1x1 컨벌루션 레이어로 하여금 너비가 N, 높이가 1이고, 채널 개수가 L인 Nx1xL의 볼륨을 가지는 상기 제2 조정 특징 맵을 생성하도록 하는 것을 특징으로 한다.

일 실시예에서, 상기 (c) 단계에서, 상기 학습 장치는, (i) 상기 제2 트랜스포징 레이어로 하여금 상기 제2 조정 특징 맵을, N개의 프로포잘 각각에 대응하는 너비 1, 높이 1, 채널 개수가 L인 1x1xL의 볼륨을 가지는 상기 프로포잘 별 상기 픽셀별 특징 맵으로 변환하도록 하거나 (ii) 상기 분류 레이어로 하여금 상기 제2 조정 특징 맵을, 상기 N개의 프로포잘 각각에 대응하는 너비 1, 높이 1, 채널 개수가 L인 1x1xL의 볼륨을 가지는 상기 프로포잘 별 상기 픽셀별 특징 맵으로 변환하도록 하는 것을 특징으로 한다.

일 실시예에서, 상기 분류 레이어는 적어도 하나의 소프트맥스(Softmax) 알고리즘을 사용하는 것을 특징으로 한다.

일 실시예에서, 상기 검출 레이어는 적어도 하나의 NMS(Non-Maximum Suppression) 알고리즘을 사용하는 것을 특징으로 한다.

본 발명의 다른 태양에 따르면, CNN 기반의 객체 검출기를 테스트하는 방법에 있어서, (a) 학습 장치는, (1) (i) 적어도 하나의 컨벌루션 레이어로 하여금 적어도 하나의 트레이닝 이미지에 대하여 컨벌루션 연산을 적어도 한 번 적용하도록 하여 적어도 하나의 학습용 초기 특징 맵(Initial Feature Map)을 생성하도록 하며, (ii) RPN으로 하여금 상기 학습용 초기 특징 맵을 이용하여 상기 트레이닝 이미지 내에 위치하는 적어도 하나의 학습용 객체에 대응하는 적어도 하나의 학습용 프로포잘을 생성하도록 하고, (iii) (iii-1) 풀링 레이어로 하여금 상기 학습용 초기 특징 맵 상에서 상기 학습용 프로포잘 각각에 대응되는 영역 각각에 대해 풀링 연산을 적용하도록 하여 상기 학습용 프로포잘 별 학습용 풀링된 특징 맵을 생성하도록 하며, 제1 트랜스포징 레이어(Transposing Layer)로 하여금 상기 학습용 프로포잘 별 상기 학습용 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 상기 학습용 프로포잘 별로 컨캐터네이팅(Concatenating)하여 학습용 통합 특징 맵(Integrated Feature Map)을 생성하도록 하거나, (iii-2) 상기 풀링 레이어로 하여금 상기 학습용 초기 특징 맵 상에서 상기 학습용 프로포잘 각각에 대응되는 각각의 영역에 대하여 풀링 연산을 적용하도록 하여 상기 학습용 프로포잘 별 상기 학습용 풀링된 특징 맵을 생성하고, 상기 풀링 레이어로 하여금 상기 학습용 프로포잘 별 상기 학습용 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 상기 학습용 프로포잘 별로 컨캐터네이팅하여 상기 학습용 통합 특징 맵을 생성하도록 하고, (2) 제1 1x1 컨벌루션 레이어로 하여금 상기 학습용 통합 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨(Volume)이 조정된 학습용 제1 조정 특징 맵을 생성하도록 하며, 제2 1x1 컨벌루션 레이어로 하여금 상기 학습용 제1 조정 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨이 조정된 학습용 제2 조정 특징 맵을 생성하도록 하고, (3) (3-1) (i) 제2 트랜스포징 레이어로 하여금 상기 학습용 제2 조정 특징 맵을 픽셀 별로 분리하여 상기 학습용 프로포잘 별 학습용 픽셀별 특징 맵(Pixel-Wise Feature Map)을 생성하도록 하며, 분류 레이어로 하여금 상기 학습용 프로포잘 별 상기 학습용 픽셀별 특징 맵을 이용하여 상기 학습용 프로포잘 각각에 대한 학습용 객체 클래스 정보를 생성하도록 하거나, (ii) 상기 분류 레이어로 하여금 상기 학습용 제2 조정 특징 맵을 상기 픽셀 별로 분리하여 상기 학습용 프로포잘 별 상기 학습용 픽셀별 특징 맵을 생성하고, 상기 분류 레이어로 하여금 상기 학습용 프로포잘 별 상기 학습용 픽셀별 특징 맵을 이용하여 상기 학습용 프로포잘 각각에 대한 상기 학습용 객체 클래스 정보를 생성하도록 한 후, (3-2) 검출 레이어(Detecting Layer)로 하여금 상기 학습용 객체 클래스 정보와 상기 학습용 프로포잘 별 상기 학습용 픽셀별 특징 맵을 참조하여 상기 트레이닝 이미지 내에 위치하는 상기 학습용 객체에 대응되는 학습용 객체 검출 정보를 생성하도록 하고, (3-3) 검출 로스 레이어로 하여금 상기 학습용 객체 검출 정보와 이에 대응되는 GT(Ground Truth)를 참조하여 적어도 하나의 객체 검출 로스를 산출하도록 함으로써, 상기 객체 검출 로스를 백프로파게이션하여 상기 제2 1x1 컨벌루션 레이어, 상기 제1 1x1 컨벌루션 레이어 및 상기 컨벌루션 레이어 중 적어도 일부의 파라미터를 학습한 상태에서, 적어도 하나의 테스트 이미지가 입력되면, 테스트 장치가, (i) 상기 컨벌루션 레이어로 하여금 상기 테스트 이미지에 대하여 컨벌루션 연산을 적용하도록 하여 적어도 하나의 테스트용 초기 특징 맵을 생성하도록 하며, (ii) 상기 RPN으로 하여금 상기 테스트용 초기 특징 맵을 이용하여 상기 테스트 이미지 내에 위치하는 적어도 하나의 테스트용 객체에 대응하는 적어도 하나의 테스트용 프로포잘을 생성하도록 하고, (iii) (iii-1) 상기 풀링 레이어로 하여금 상기 테스트용 초기 특징 맵 상에서 상기 테스트용 프로포잘 각각에 대응되는 영역 각각에 대해 풀링 연산을 적용하도록 하여 상기 테스트용 프로포잘 별 테스트용 풀링된 특징 맵을 생성하도록 하며, 상기 제1 트랜스포징 레이어로 하여금 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 상기 테스트용 프로포잘 별로 컨캐터네이팅하여 테스트용 통합 특징 맵을 생성하도록 하거나, (iii-2) 상기 풀링 레이어로 하여금 상기 테스트용 초기 특징 맵 상에서 상기 테스트용 프로포잘 각각에 대응되는 각각의 영역에 대하여 풀링 연산을 적용하도록 하여 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵을 생성하고, 상기 풀링 레이어로 하여금 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 상기 테스트용 프로포잘 별로 컨캐터네이팅하여 상기 테스트용 통합 특징 맵을 생성하도록 하는 단계; (b) 상기 테스트 장치가, 상기 제1 1x1 컨벌루션 레이어로 하여금 상기 테스트용 통합 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨(Volume)이 조정된 테스트용 제1 조정 특징 맵을 생성하도록 하며, 상기 제2 1x1 컨벌루션 레이어로 하여금 상기 테스트용 제1 조정 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨이 조정된 테스트용 제2 조정 특징 맵을 생성하도록 하는 단계; 및 (c) 상기 테스트 장치가, (c1) (i) 상기 제2 트랜스포징 레이어로 하여금 상기 테스트용 제2 조정 특징 맵을 픽셀 별로 분리하여 상기 테스트용 프로포잘 별 테스트용 픽셀별 특징 맵을 생성하도록 하며, 상기 분류 레이어로 하여금 상기 테스트용 프로포잘 별 상기 테스트용 픽셀별 특징 맵을 이용하여 상기 테스트용 프로포잘 각각에 대한 테스트용 객체 클래스 정보를 생성하도록 하거나, (ii) 상기 분류 레이어로 하여금 상기 테스트용 제2 조정 특징 맵을 상기 픽셀 별로 분리하여 상기 테스트용 프로포잘 별 상기 테스트용 픽셀별 특징 맵을 생성하고, 상기 분류 레이어로 하여금 상기 테스트용 프로포잘 별 상기 테스트용 픽셀별 특징 맵을 이용하여 상기 테스트용 프로포잘 각각에 대한 상기 테스트용 객체 클래스 정보를 생성하도록 한 후, (c2) 상기 검출 레이어로 하여금 상기 테스트용 객체 클래스 정보와 상기 테스트용 프로포잘 별 상기 테스트용 픽셀별 특징 맵을 참조하여 상기 테스트 이미지 내에 위치하는 상기 테스트용 객체에 대응되는 테스트용 객체 검출 정보를 생성하도록 하는 단계;를 포함하는 것을 특징으로 한다.

일 실시예에서, 상기 (1) 프로세스 이후, 상기 학습 장치는, RPN 로스 레이어로 하여금 상기 학습용 프로포잘과 이에 대응되는 GT를 참조하여 적어도 하나의 RPN 로스를 산출하도록 함으로써, 상기 RPN 로스를 백프로파게이션하여 상기 RPN의 파라미터의 적어도 일부를 학습하는 것을 특징으로 한다.

일 실시예에서, 상기 테스트용 프로포잘의 개수를 N이라 하며, 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵의 너비를 M1, 높이를 M2라 하고, 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵의 채널 개수를 J라 할 경우, 상기 (a) 단계에서, 상기 테스트 장치는, (i) 상기 제1 트랜스포징 레이어로 하여금 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵을 너비가 N, 높이가 1, 채널 개수가 M1xM2xJ인 상기 테스트용 통합 특징 맵으로 변환시키도록 하거나 (ii) 상기 풀링 레이어로 하여금 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵을 너비가 N, 높이가 1, 채널 개수가 M1xM2xJ인 상기 테스트용 통합 특징 맵으로 변환시키도록 하는 것을 특징으로 한다.

일 실시예에서, 상기 제1 1x1 컨벌루션 레이어 내의 필터의 개수를 K라 하고, 상기 제2 1x1 컨벌루션 레이어 내의 필터의 개수를 L이라 할 경우, 상기 (b) 단계에서, 상기 테스트 장치는, 상기 제1 1x1 컨벌루션 레이어로 하여금 너비가 N, 높이가 1이고, 채널 개수가 K인 Nx1xK의 볼륨을 가지는 상기 테스트용 제1 조정 특징 맵(Adjusted Feature Map)을 생성하도록 하며, 상기 제2 1x1 컨벌루션 레이어로 하여금 너비가 N, 높이가 1이고, 채널 개수가 L인 Nx1xL의 볼륨을 가지는 상기 테스트용 제2 조정 특징 맵을 생성하도록 하는 것을 특징으로 한다.

일 실시예에서, 상기 (c) 단계에서, 상기 테스트 장치는, (i) 상기 제2 트랜스포징 레이어로 하여금 상기 테스트용 제2 조정 특징 맵을, N개의 테스트용 프로포잘 각각에 대응하는 너비 1, 높이 1, 채널 개수가 L인 1x1xL의 볼륨을 가지는 상기 테스트용 프로포잘 별 상기 테스트용 픽셀별 특징 맵으로 변환하도록 하거나 (ii) 상기 분류 레이어로 하여금 상기 테스트용 제2 조정 특징 맵을, 상기 N개의 테스트용 프로포잘 각각에 대응하는 너비 1, 높이 1, 채널 개수가 L인 1x1xL의 볼륨을 가지는 상기 테스트용 프로포잘 별 상기 테스트용 픽셀별 특징 맵으로 변환하도록 하는 것을 특징으로 한다.

본 발명의 또 다른 태양에 따르면, CNN 기반의 객체 검출기의 파라미터를 학습하는 학습 장치에 있어서, 인스트럭션을 저장하는 적어도 하나의 메모리; 및 (I) (i) 적어도 하나의 컨벌루션 레이어로 하여금 적어도 하나의 트레이닝 이미지에 대하여 컨벌루션 연산을 적어도 한 번 적용하도록 하여 적어도 하나의 초기 특징 맵(Initial Feature Map)을 생성하도록 하며, (ii) RPN으로 하여금 상기 초기 특징 맵을 이용하여 상기 트레이닝 이미지 내에 위치하는 적어도 하나의 객체에 대응하는 적어도 하나의 프로포잘을 생성하도록 하고, (iii) (iii-1) 풀링 레이어로 하여금 상기 초기 특징 맵 상에서 상기 프로포잘 각각에 대응되는 영역 각각에 대해 풀링 연산을 적어도 한 번 적용하도록 하여 상기 프로포잘 별 풀링된 특징 맵을 생성하도록 하며, 제1 트랜스포징 레이어(Transposing Layer)로 하여금 상기 프로포잘 별 상기 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 상기 프로포잘 별로 컨캐터네이팅(Concatenating)하여 통합 특징 맵(Integrated Feature Map)을 생성하도록 하거나, (iii-2) 상기 풀링 레이어로 하여금 상기 초기 특징 맵 상에서 상기 프로포잘 각각에 대응되는 각각의 영역에 대하여 풀링 연산을 적용하도록 하여 상기 프로포잘 별 상기 풀링된 특징 맵을 생성하고, 상기 풀링 레이어로 하여금 상기 프로포잘 별 상기 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 상기 프로포잘 별로 컨캐터네이팅하여 상기 통합 특징 맵을 생성하도록 하는 프로세스, (II) 제1 1x1 컨벌루션 레이어로 하여금 상기 통합 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨(Volume)이 조정된 제1 조정 특징 맵을 생성하도록 하며, 제2 1x1 컨벌루션 레이어로 하여금 상기 제1 조정 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨이 조정된 제2 조정 특징 맵을 생성하도록 하는 프로세스, 및 (III) (III-1) (i) 제2 트랜스포징 레이어로 하여금 상기 제2 조정 특징 맵을 픽셀 별로 분리하여 상기 프로포잘 별 픽셀별 특징 맵(Pixel-Wise Feature Map)을 생성하도록 하며, 분류 레이어로 하여금 상기 프로포잘 별 상기 픽셀별 특징 맵을 이용하여 상기 프로포잘 각각에 대한 객체 클래스 정보를 생성하도록 하거나, (ii) 상기 분류 레이어로 하여금 상기 제2 조정 특징 맵을 상기 픽셀 별로 분리하여 상기 프로포잘 별 상기 픽셀별 특징 맵을 생성하고 상기 프로포잘 별 상기 픽셀별 특징 맵을 이용하여 상기 프로포잘 각각에 대한 상기 객체 클래스 정보를 생성하도록 한 후, (III-2) 검출 레이어(Detecting Layer)로 하여금 상기 객체 클래스 정보와 상기 프로포잘 별 상기 픽셀별 특징 맵을 참조하여 상기 트레이닝 이미지 내에 위치하는 상기 객체에 대응되는 객체 검출 정보를 생성하도록 하고, (III-3) 검출 로스 레이어로 하여금 상기 객체 검출 정보와 이에 대응되는 GT(Ground Truth)를 참조하여 적어도 하나의 객체 검출 로스를 산출하도록 함으로써, 상기 객체 검출 로스를 이용한 백프로파게이션을 통해 상기 제2 1x1 컨벌루션 레이어, 상기 제1 1x1 컨벌루션 레이어 및 상기 컨벌루션 레이어 중 적어도 일부의 파라미터를 학습하는 프로세스를 수행하기 위한 상기 인스트럭션을 실행하도록 구성된 적어도 하나의 프로세서;를 포함하는 것을 특징으로 한다.

일 실시예에서, 상기 (I) 프로세스 이후, 상기 프로세서는, RPN 로스 레이어로 하여금 상기 프로포잘과 이에 대응되는 GT를 참조하여 적어도 하나의 RPN 로스를 산출하도록 함으로써, 상기 RPN 로스를 백프로파게이션하여 상기 RPN의 파라미터의 적어도 일부를 학습하는 것을 특징으로 한다.

일 실시예에서, 상기 프로포잘의 개수를 N이라 하며, 상기 프로포잘 별 상기 풀링된 특징 맵의 너비를 M1, 높이를 M2라 하고, 상기 프로포잘 별 상기 풀링된 특징 맵의 채널 개수를 J라 할 경우, 상기 (I) 프로세스에서, 상기 프로세서는, (i) 상기 제1 트랜스포징 레이어로 하여금 상기 프로포잘 별 상기 풀링된 특징 맵을 너비가 N, 높이가 1, 채널 개수가 M1xM2xJ인 상기 통합 특징 맵으로 변환시키도록 하거나 (ii) 상기 풀링 레이어로 하여금 상기 프로포잘 별 상기 풀링된 특징 맵을 너비가 N, 높이가 1, 채널 개수가 M1xM2xJ인 상기 통합 특징 맵으로 변환시키도록 하는 것을 특징으로 한다.

일 실시예에서, 상기 제1 1x1 컨벌루션 레이어 내의 필터의 개수를 K라 하고, 상기 제2 1x1 컨벌루션 레이어 내의 필터의 개수를 L이라 할 경우, 상기 (II) 프로세스에서, 상기 프로세서는, 상기 제1 1x1 컨벌루션 레이어로 하여금 너비가 N, 높이가 1이고, 채널 개수가 K인 Nx1xK의 볼륨을 가지는 상기 제1 조정 특징 맵(Adjusted Feature Map)을 생성하도록 하며, 상기 제2 1x1 컨벌루션 레이어로 하여금 너비가 N, 높이가 1이고, 채널 개수가 L인 Nx1xL의 볼륨을 가지는 상기 제2 조정 특징 맵을 생성하도록 하는 것을 특징으로 한다.

일 실시예에서, 상기 (III) 프로세스에서, 상기 프로세서는, (i) 상기 제2 트랜스포징 레이어로 하여금 상기 제2 조정 특징 맵을, N개의 프로포잘 각각에 대응하는 너비 1, 높이 1, 채널 개수가 L인 1x1xL의 볼륨을 가지는 상기 프로포잘 별 상기 픽셀별 특징 맵으로 변환하도록 하거나 (ii) 상기 분류 레이어로 하여금 상기 제2 조정 특징 맵을, 상기 N개의 프로포잘 각각에 대응하는 너비 1, 높이 1, 채널 개수가 L인 1x1xL의 볼륨을 가지는 상기 프로포잘 별 상기 픽셀별 특징 맵으로 변환하도록 하는 것을 특징으로 한다.

본 발명의 또 다른 태양에 따르면, CNN 기반의 객체 검출기를 테스트하는 테스트 장치에 있어서, 인스트럭션을 저장하는 적어도 하나의 메모리; 및 학습 장치는, (1) (i) 적어도 하나의 컨벌루션 레이어로 하여금 적어도 하나의 트레이닝 이미지에 대하여 컨벌루션 연산을 적어도 한 번 적용하도록 하여 적어도 하나의 학습용 초기 특징 맵(Initial Feature Map)을 생성하도록 하며, (ii) RPN으로 하여금 상기 학습용 초기 특징 맵을 이용하여 상기 트레이닝 이미지 내에 위치하는 적어도 하나의 학습용 객체에 대응하는 적어도 하나의 학습용 프로포잘을 생성하도록 하고, (iii) (iii-1) 풀링 레이어로 하여금 상기 학습용 초기 특징 맵 상에서 상기 학습용 프로포잘 각각에 대응되는 영역 각각에 대해 풀링 연산을 적용하도록 하여 상기 학습용 프로포잘 별 학습용 풀링된 특징 맵을 생성하도록 하며, 제1 트랜스포징 레이어(Transposing Layer)로 하여금 상기 학습용 프로포잘 별 상기 학습용 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 각각의 픽셀을 상기 학습용 프로포잘 별로 컨캐터네이팅(Concatenating)하여 학습용 통합 특징 맵(Integrated Feature Map)을 생성하도록 하거나, (iii-2) 상기 풀링 레이어로 하여금 상기 학습용 초기 특징 맵 상에서 상기 학습용 프로포잘 각각에 대응되는 각각의 영역에 대하여 풀링 연산을 적용하도록 하여 상기 학습용 프로포잘 별 상기 학습용 풀링된 특징 맵을 생성하고, 상기 풀링 레이어로 하여금 상기 학습용 프로포잘 별 상기 학습용 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 각각의 픽셀을 상기 학습용 프로포잘 별로 컨캐터네이팅하여 상기 학습용 통합 특징 맵을 생성하도록 하고, (2) 제1 1x1 컨벌루션 레이어로 하여금 상기 학습용 통합 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨(Volume)이 조정된 학습용 제1 조정 특징 맵을 생성하도록 하며, 제2 1x1 컨벌루션 레이어로 하여금 상기 학습용 제1 조정 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨이 조정된 학습용 제2 조정 특징 맵을 생성하도록 하고, (3) (3-1) (i) 제2 트랜스포징 레이어로 하여금 상기 학습용 제2 조정 특징 맵을 픽셀 별로 분리하여 상기 학습용 프로포잘 별 학습용 픽셀별 특징 맵(Pixel-Wise Feature Map)을 생성하도록 하며, 분류 레이어로 하여금 상기 학습용 프로포잘 별 상기 학습용 픽셀별 특징 맵을 이용하여 상기 학습용 프로포잘 각각에 대한 학습용 객체 클래스 정보를 생성하도록 하거나, (ii) 상기 분류 레이어로 하여금 상기 학습용 제2 조정 특징 맵을 상기 픽셀 별로 분리하여 상기 학습용 프로포잘 별 상기 학습용 픽셀별 특징 맵을 생성하고, 상기 분류 레이어로 하여금 상기 학습용 프로포잘 별 상기 학습용 픽셀별 특징 맵을 이용하여 상기 학습용 프로포잘 각각에 대한 상기 학습용 객체 클래스 정보를 생성하도록 한 후, (3-2) 검출 레이어(Detecting Layer)로 하여금 상기 학습용 객체 클래스 정보와 상기 학습용 프로포잘 별 상기 학습용 픽셀별 특징 맵을 참조하여 상기 트레이닝 이미지 내에 위치하는 상기 학습용 객체에 대응되는 학습용 객체 검출 정보를 생성하도록 하고, (3-3) 검출 로스 레이어로 하여금 상기 학습용 객체 검출 정보와 이에 대응되는 GT(Ground Truth)를 참조하여 적어도 하나의 객체 검출 로스를 산출하도록 함으로써, 상기 객체 검출 로스를 백프로파게이션하여 상기 제2 1x1 컨벌루션 레이어, 상기 제1 1x1 컨벌루션 레이어 및 상기 컨벌루션 레이어 중 적어도 일부의 파라미터를 학습한 상태에서, (I) (i) 상기 컨벌루션 레이어로 하여금 적어도 하나의 테스트 이미지에 대하여 컨벌루션 연산을 적용하도록 하여 적어도 하나의 테스트용 초기 특징 맵을 생성하도록 하며, (ii) 상기 RPN으로 하여금 상기 테스트용 초기 특징 맵을 이용하여 상기 테스트 이미지 내에 위치하는 적어도 하나의 테스트용 객체에 대응하는 적어도 하나의 테스트용 프로포잘을 생성하도록 하고, (iii) (iii-1) 상기 풀링 레이어로 하여금 상기 테스트용 초기 특징 맵 상에서 상기 테스트용 프로포잘 각각에 대응되는 영역 각각에 대해 풀링 연산을 적용하도록 하여 상기 테스트용 프로포잘 별 테스트용 풀링된 특징 맵을 생성하도록 하며, 상기 제1 트랜스포징 레이어로 하여금 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 상기 테스트용 프로포잘 별로 컨캐터네이팅하여 테스트용 통합 특징 맵을 생성하도록 하거나, (iii-2) 상기 풀링 레이어로 하여금 상기 테스트용 초기 특징 맵 상에서 상기 테스트용 프로포잘 각각에 대응되는 각각의 영역에 대하여 풀링 연산을 적용하도록 하여 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵을 생성하고, 상기 풀링 레이어로 하여금 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 상기 테스트용 프로포잘 별로 컨캐터네이팅하여 상기 테스트용 통합 특징 맵을 생성하도록 하는 프로세스, (II) 상기 제1 1x1 컨벌루션 레이어로 하여금 상기 테스트용 통합 특징 맵에 대하여 1x1 컨벌루션 연산을 적하도록 용하여 볼륨(Volume)이 조정된 테스트용 제1 조정 특징 맵을 생성하도록 하며, 상기 제2 1x1 컨벌루션 레이어로 하여금 상기 테스트용 제1 조정 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨이 조정된 테스트용 제2 조정 특징 맵을 생성하도록 하는 프로세스, 및 (III) (III-1) (i) 상기 제2 트랜스포징 레이어로 하여금 상기 테스트용 제2 조정 특징 맵을 픽셀 별로 분리하여 상기 테스트용 프로포잘 별 테스트용 픽셀별 특징 맵을 생성하도록 하며, 상기 분류 레이어로 하여금 상기 테스트용 프로포잘 별 상기 테스트용 픽셀별 특징 맵을 이용하여 상기 테스트용 프로포잘 각각에 대한 테스트용 객체 클래스 정보를 생성하도록 하거나, (ii) 상기 분류 레이어로 하여금 상기 테스트용 제2 조정 특징 맵을 상기 픽셀 별로 분리하여 상기 테스트용 프로포잘 별 상기 테스트용 픽셀별 특징 맵을 생성하고, 상기 분류 레이어로 하여금 상기 테스트용 프로포잘 별 상기 테스트용 픽셀별 특징 맵을 이용하여 상기 테스트용 프로포잘 각각에 대한 상기 테스트용 객체 클래스 정보를 생성하도록 한 후, (III-2) 상기 검출 레이어로 하여금 상기 테스트용 객체 클래스 정보와 상기 테스트용 프로포잘 별 상기 테스트용 픽셀별 특징 맵을 참조하여 상기 테스트 이미지 내에 위치하는 상기 테스트용 객체에 대응되는 테스트용 객체 검출 정보를 생성하도록 하는 프로세스를 수행하기 위한 상기 인스트럭션을 실행하도록 구성된 적어도 하나의 프로세서;를 포함하는 것을 특징으로 한다.

일 실시예에서, 상기 테스트용 프로포잘의 개수를 N이라 하며, 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵의 너비를 M1, 높이를 M2라 하고, 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵의 채널 개수를 J라 할 경우, 상기 (I) 프로세스에서, 상기 프로세서는, (i) 상기 제1 트랜스포징 레이어로 하여금 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵을 너비가 N, 높이가 1, 채널 개수가 M1xM2xJ인 상기 테스트용 통합 특징 맵으로 변환시키도록 하거나 (ii) 상기 풀링 레이어로 하여금 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵을 너비가 N, 높이가 1, 채널 개수가 M1xM2xJ인 상기 테스트용 통합 특징 맵으로 변환시키도록 하는 것을 특징으로 한다.

일 실시예에서, 상기 제1 1x1 컨벌루션 레이어 내의 필터의 개수를 K라 하고, 상기 제2 1x1 컨벌루션 레이어 내의 필터의 개수를 L이라 할 경우, 상기 (II) 프로세스에서, 상기 프로세서는, 상기 제1 1x1 컨벌루션 레이어로 하여금 너비가 N, 높이가 1이고, 채널 개수가 K인 Nx1xK의 볼륨을 가지는 상기 테스트용 제1 조정 특징 맵(Adjusted Feature Map)을 생성하도록 하며, 상기 제2 1x1 컨벌루션 레이어로 하여금 너비가 N, 높이가 1이고, 채널 개수가 L인 Nx1xL의 볼륨을 가지는 상기 테스트용 제2 조정 특징 맵을 생성하도록 하는 것을 특징으로 한다.

일 실시예에서, 상기 (III) 프로세스에서, 상기 프로세서는, (i) 상기 제2 트랜스포징 레이어로 하여금 상기 테스트용 제2 조정 특징 맵을, N개의 테스트용 프로포잘 각각에 대응하는 너비 1, 높이 1, 채널 개수가 L인 1x1xL의 볼륨을 가지는 상기 테스트용 프로포잘 별 상기 테스트용 픽셀별 특징 맵으로 변환하도록 하거나 (ii) 상기 분류 레이어로 하여금 상기 테스트용 제2 조정 특징 맵을, 상기 N개의 테스트용 프로포잘 각각에 대응하는 너비 1, 높이 1, 채널 개수가 L인 1x1xL의 볼륨을 가지는 상기 테스트용 프로포잘 별 상기 테스트용 픽셀별 특징 맵으로 변환하도록 하는 것을 특징으로 한다.

이 외에도, 본 발명의 방법을 실행하기 위한 컴퓨터 프로그램을 기록하기 위한 컴퓨터 판독 가능한 기록 매체가 더 제공된다.

본 발명은 컨벌루션 레이어로만 CNN 기반의 객체 검출기를 구현함으로써 입력 이미지의 사이즈와 관계없이 입력 이미지 내에 위치하는 객체를 검출할 수 있는 효과가 있다.

또한, 본 발명은 컨벌루션 레이어로만 CNN 기반의 객체 검출기를 구현함으로써 FC 레이어를 이용하는 경우에 비하여 특징 분류를 위한 가중치의 개수를 최소화할 수 있는 다른 효과가 있다.

또한, 본 발명은 컨벌루션 레이어로만 CNN 기반의 객체 검출기를 구현함으로써 FC 레이어를 이용하는 경우에 비하여 특징 분류를 위한 컴퓨팅 연산량을 감소시킬 수 있는 또 다른 효과가 있다.

본 발명의 실시예의 설명에 이용되기 위하여 첨부된 아래 도면들은 본 발명의 실시예들 중 단지 일부일 뿐이며, 본 발명이 속한 기술분야에서 통상의 지식을 가진 자(이하 "통상의 기술자")에게 있어서는 발명적 작업이 이루어짐 없이 이 도면들에 기초하여 다른 도면들이 얻어질 수 있다.
도 1은 본 발명의 일 실시예에 따른 CNN 기반의 객체 검출기를 학습하는 학습 장치를 개략적으로 도시한 것이고,
도 2는 본 발명의 일 실시예에 따른 CNN 기반의 객체 검출기를 학습하는 방법을 개략적으로 도시한 것이고,
도 3은 본 발명의 일 실시예에 따른 CNN 기반의 객체 검출기를 학습하는 방법에 있어서 풀링 레이어에 의해 생성된 프로포잘 별 풀링된 특징 맵을 개략적으로 도시한 것이고,
도 4는 본 발명의 일 실시예에 따른 CNN 기반의 객체 검출기를 학습하는 방법에 있어서 프로포잘 별 풀링된 특징 맵을 이용하여 생성된 통합 특징 맵을 개략적으로 도시한 것이고,
도 5a와 도 5b는 각각 본 발명의 일 실시예에 따른 (i) 제1 1x1 컨벌루션 레이어로 하여금 통합 특징 맵에 대하여 컨벌루션 연산을 적어도 한 번 적용하도록 하여 생성된 제1 조정 특징 맵과, (ii) 제2 1x1컨벌루션 레이어로 하여금 제1 조정 특징 맵에 대하여 컨벌루션 연산을 적용하도록 하여 생성된 제2 조정 특징 맵을 개략적으로 도시한 것이고,
도 6은 본 발명의 일 실시예에 따른 CNN 기반의 객체 검출기를 학습하는 방법에 있어서 제2 조정 특징 맵을 이용해 생성된 프로포잘 별 픽셀별 특징 맵을 개략적으로 도시한 것이고,
도 7은 본 발명의 일 실시예에 따른 CNN 기반의 객체 검출기를 테스트하는 테스트 장치를 개략적으로 도시한 것이고,
도 8은 본 발명의 일 실시예에 따른 CNN 기반의 객체 검출기를 테스트하는 방법을 개략적으로 도시한 것이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명의 목적들, 기술적 해법들 및 장점들을 분명하게 하기 위하여 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 통상의 기술자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다.

또한, 본 발명의 상세한 설명 및 청구항들에 걸쳐, "포함하다"라는 단어 및 그것의 변형은 다른 기술적 특징들, 부가물들, 구성요소들 또는 단계들을 제외하는 것으로 의도된 것이 아니다. 통상의 기술자에게 본 발명의 다른 목적들, 장점들 및 특성들이 일부는 본 설명서로부터, 그리고 일부는 본 발명의 실시로부터 드러날 것이다. 아래의 예시 및 도면은 실례로서 제공되며, 본 발명을 한정하는 것으로 의도된 것이 아니다.

본 발명에서 언급하는 각종 이미지는 포장 또는 비포장 도로 관련 이미지를 포함할 수 있으며, 이 경우 도로 환경에서 등장할 수 있는 물체(가령, 자동차, 사람, 동물, 식물, 물건, 건물, 비행기나 드론과 같은 비행체, 기타 장애물)를 상정할 수 있을 것이나, 반드시 이에 한정되는 것은 아니며, 본 발명에서 언급하는 각종 이미지는 도로와 상관 없는 이미지(가령, 비포장도로, 골목길, 공터, 바다, 호수, 강, 산, 숲, 사막, 하늘, 실내와 관련된 이미지)일 수도 있으며, 이 경우, 비포장도로, 골목길, 공터, 바다, 호수, 강, 산, 숲, 사막, 하늘, 실내 환경에서 등장할 수 있는 물체(가령, 자동차, 사람, 동물, 식물, 물건, 건물, 비행기나 드론과 같은 비행체, 기타 장애물)를 상정할 수 있을 것이나, 반드시 이에 한정되는 것은 아니다.

더욱이 본 발명은 본 명세서에 표시된 실시예들의 모든 가능한 조합들을 망라한다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 CNN 기반의 객체 검출기를 학습하는 학습 장치(100)를 개략적으로 도시한 것으로, 도 1을 참조하면, 학습 장치(100)는 통신부(110)와 프로세서(120)를 포함할 수 있다.

먼저, 통신부(110)는 적어도 하나의 트레이닝 이미지를 수신할 수 있다.

이때, 트레이닝 이미지는 데이터베이스(130)에 저장되어 있을 수 있으며, 데이터베이스(130)에는 트레이닝 이미지들에 각각 대응하는 적어도 하나의 객체 각각에 대한 클래스 정보의 적어도 하나의 GT(Ground Truth) 및 상기 객체 각각에 대한 위치 정보의 적어도 하나의 GT가 저장되어 있을 수 있다.

또한, 학습 장치는 다음의 프로세스를 수행하기 위한 컴퓨터 판독 가능한 인스트럭션(Instruction)을 저장할 수 있는 메모리(115)를 더 포함할 수 있다. 일 실시예에 따르면, 프로세서, 메모리, 매체 등은 통합 프로세서(Integrated Processor)로 통합될 수 있다.

다음으로, 프로세서(120)는 (i) 적어도 하나의 컨벌루션 레이어로 하여금 트레이닝 이미지에 대하여 컨벌루션 연산을 적어도 한 번 적용하도록 하여 적어도 하나의 초기 특징 맵(Initial Feature Map)을 생성하도록 하는 프로세스, (ii) RPN으로 하여금 초기 특징 맵을 이용하여 트레이닝 이미지 내에 위치하는 객체 각각에 대응하는 적어도 하나의 프로포잘을 생성하도록 하는 프로세스, 및 (iii) (iii-1) 풀링 레이어로 하여금 초기 특징 맵 상에서 프로포잘 각각에 대응되는 영역 각각에 대해 풀링 연산을 적용하도록 하여 프로포잘 별 풀링된 특징 맵을 생성하도록 하며, 제1 트랜스포징 레이어(Transposing Layer)로 하여금 프로포잘 별 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 프로포잘 별로 컨캐터네이팅(Concatenating)하여 통합 특징 맵(Integrated Feature Map)을 생성하도록 하거나, (iii-2) 풀링 레이어로 하여금 초기 특징 맵 상에서 프로포잘 각각에 대응되는 각각의 영역에 대하여 풀링 연산을 적용하도록 하여 프로포잘 별 풀링된 특징 맵을 생성하고, 풀링 레이어로 하여금 프로포잘 별 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 프로포잘 별로 컨캐터네이팅하여 통합 특징 맵을 생성하도록 하는 프로세스를 수행할 수 있다.

또한, 프로세서(120)는 제1 1x1 컨벌루션 레이어로 하여금 통합 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨(Volume)이 조정된 제1 조정 특징 맵을 생성하도록 하며, 제2 1x1 컨벌루션 레이어로 하여금 제1 조정 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨이 조정된 제2 조정 특징 맵(500B)을 생성하도록 하는 프로세스를 수행할 수 있다. 그런 다음, 프로세서(120)는 (i) 제2 트랜스포징 레이어로 하여금 제2 조정 특징 맵(500B)을 픽셀 별로 분리하여 프로포잘 별 픽셀별 특징 맵(Pixel-Wise Feature Map)을 생성하도록 하며, 분류 레이어로 하여금 프로포잘 별 픽셀별 특징 맵을 이용하여 프로포잘 각각에 대한 객체 클래스 정보를 생성하도록 하거나, (ii) 분류 레이어로 하여금 제2 조정 특징 맵(500B)을 픽셀 별로 분리하여 프로포잘 별 픽셀별 특징 맵을 생성하고 프로포잘 별 픽셀별 특징 맵을 이용하여 프로포잘 각각에 대한 객체 클래스 정보를 생성하도록 하는 프로세스를 수행할 수 있다.

그리고 프로세서(120)는 검출 레이어(Detecting Layer)로 하여금 객체 클래스 정보와 프로포잘 별 픽셀별 특징 맵을 참조하여 트레이닝 이미지 내에 위치하는 객체에 대응되는 객체 검출 정보를 생성하도록 하고, 검출 로스 레이어로 하여금 객체 검출 정보와 이에 대응되는 GT를 참조하여 적어도 하나의 객체 검출 로스를 산출하도록 함으로써, 객체 검출 로스를 백프로파게이션하여 제2 1x1 컨벌루션 레이어, 제1 1x1 컨벌루션 레이어 및 컨벌루션 레이어 중 적어도 일부의 파라미터를 학습하는 프로세스를 수행할 수 있다.

또한, 프로세서(120)는 RPN 로스 레이어로 하여금 상기 프로포잘과 이에 대응되는 GT를 참조하여 적어도 하나의 RPN 로스를 산출하도록 함으로써, RPN 로스를 백프로파게이션하여 RPN의 파라미터의 적어도 일부를 학습할 수 있다.

여기서, 객체 검출 로스 및 RPN 로스에 의한 백프로파게이션의 시간적 순서에는 제한이 없을 것이다.

이때, 본 발명의 일 실시예에 따른 학습 장치(100)는 컴퓨팅 장치로서, 프로세서를 탑재하여 연산 능력을 갖춘 장치라면 얼마든지 본 발명에 따른 학습 장치(100)로서 채택될 수 있다. 또한, 도 1에서는 하나의 학습 장치(100)만을 나타내었으나, 이에 한정되지 않으며, 학습 장치는 복수 개로 나뉘어 역할을 수행할 수도 있다.

이와 같이 구성된 본 발명의 일 실시예에 따른 학습 장치(100)를 이용하여 CNN 기반의 객체 검출기의 파라미터를 학습하는 방법을 도 2를 참조하여 설명하면 다음과 같다.

먼저, 트레이닝 이미지가 입력되면, 학습 장치(100)가, 컨벌루션 레이어(121)로 하여금 트레이닝 이미지를 컨벌루션에 대하여 컨벌루션 연산을 적용하도록 하여 초기 특징 맵을 출력하도록 한다. 이때, 컨벌루션 레이어(121)는 트레이닝 이미지 상에 순차적으로 컨벌루션 연산을 적용하기 위하여 단일 컨벌루션 레이어 또는 복수 개의 컨벌루션 레이어를 포함할 수 있다.

그리고, 학습 장치(100)는 RPN(122)으로 하여금 초기 특징 맵을 이용하여 트레이닝 이미지 내에 위치하는 객체에 대응하는 적어도 하나의 프로포잘을 생성하도록 할 수 있다. 이때, RPN(122)은 트레이닝 이미지 내에 객체가 위치하는 것으로 추정되는 후보 영역에 대응되는 ROI 후보를 생성할 수 있고, ROI 후보 중 객체가 위치하는 것으로 판단되는 확률이 높은 특정 ROI 후보를 프로포잘로 출력할 수 있다.

다음으로, 학습 장치(100)는 풀링 레이어(123)로 하여금 초기 특징 맵 상에서 프로포잘 각각에 대응되는 각각의 영역을 풀링하여 프로포잘 별 풀링된 특징 맵을 생성하도록 할 수 있다.

일 예로, 도 3을 참조하면, 프로포잘의 개수를 N이라 하며, 프로포잘 별 풀링된 특징 맵의 너비를 M1, 높이를 M2라 하고, 프로포잘 별 풀링된 특징 맵의 채널 개수를 J라 할 경우, 프로포잘 별 풀링된 특징 맵(P1, P2, …, PN)은 각각 M1xM2xJ의 볼륨 사이즈를 가질 수 있다.

다음으로, 학습 장치(100)는 제1 트랜즈포즈 레이어(124)로 하여금 풀링 레이어(123)로부터 출력된 프로포잘 별 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 각각의 픽셀을 프로포잘 별로 컨캐터네이팅하여 픽셀별 특징 맵을 생성하도록 할 수 있다.

일 예로, 도 3과 도 4를 참조하면, 도 3에서의 프로포잘 별 각각의 풀링된 특징 맵(P1, P2, …, PN) 상에서의 첫 번째 픽셀을 각각 P1F11, P2F11, …, PNF11이라 할 경우, P1F11, P2F11, …, PNF11을 컨캐터네이팅하여 도 4에서 모든 채널 중 첫 번째 채널에 대응하는 가장 전면에 있는 라인과 같이 너비 N, 높이 1인 통합 특징 맵(400)의 제1 부분이 생성되도록 하며, 이 과정을 픽셀의 나머지 부분에도 반복 실행한다. 그리고 프로포잘 별 풀링된 특징 맵(P1, P2, …, PN) 각각에서의 픽셀 개수와 동일하게 채널 개수가 M1xM2xJ인 통합 특징 맵(400)을 생성할 수 있다.

앞서 설명한 바와 같이, 학습 장치(100)가 제1 트랜스포징 레이어(124)로 하여금 풀링 레이어(123)로부터 출력된 프로포잘 별 풀링된 특징 맵(P1, P2, …, PN)을 이용하여 통합 특징 맵(400)을 생성하도록 할 수 있다. 다른 예로, 학습 장치(100)가 제1 트랜스포징 레이어(124)를 사용하지 않고 풀링 레이어(123)로 하여금 통합 특징 맵을 생성하도록 할 수 있다. 즉, 학습 장치(100)는 풀링 레이어(123)로 하여금 초기 특징 맵 상에서 프로포잘 각각에 대응되는 영역 각각에 대하여 풀링 연산을 적용하도록 하여 프로포잘 별 풀링된 특징 맵(P1, P2, …, PN)을 생성하도록 하고, 프로포잘 별 풀링된 특징 맵(P1, P2, …, PN) 상의 대응하는 동일한 각각의 위치의 각각의 픽셀을 프로포잘 별로 컨캐터네이팅하도록 하여 통합 특징 맵(400)을 생성하도록 할 수 있다.

다음으로, 학습 장치(100)는 제1 1x1 컨벌루션 레이어(125)로 하여금 통합 특징 맵(400)에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨(Volume)이 조정된 제1 조정 특징 맵(500A)을 생성하도록 하며, 제2 1x1 컨벌루션 레이어(126)로 하여금 제1 조정 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨이 조정된 제2 조정 특징 맵(500B)을 생성하도록 하는 프로세스를 수행할 수 있다.

일 예로, 도 5a와 도 5b를 참조하면, 제1 1x1 컨벌루션 레이어(125)의 필터의 개수를 K라 하고, 제2 1x1 컨벌루션 레이어(126)의 필터의 개수를 L이라 할 경우, 학습 장치(100)는 제1 1x1 컨벌루션 레이어(125)로 하여금 도 4의 통합 특징 맵(400)에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 도 5a에서와 같이 너비 N, 높이 1, 채널 개수 K인 Nx1xK의 볼륨(Volume)을 가지는 제1 조정 특징 맵(500A)을 생성하도록 하며, 제2 1x1 컨벌루션 레이어(126)로 하여금 제1 조정 특징 맵(500A)에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 도 5b에서와 같이 너비 N, 높이 1, 채널 개수 L인 Nx1xL의 볼륨을 가지는 제2 조정 특징 맵(500B)을 생성하도록 할 수 있다.

다음으로, 학습 장치(100)는 제2 트랜스포징 레이어(127)로 하여금 제2 조정 특징 맵(500B)을 픽셀 별로 분리하여 프로포잘 별 픽셀별 특징 맵(PW1, PW2, …, 및 PWN)을 생성하도록 할 수 있다.

일 예로, 도 6을 참조하면, 학습 장치(100)는 제2 트랜스포징 레이어(127)로 하여금 도 5b에서와 같이 너비 N, 높이 1, 채널 개수 L인 볼륨을 가지는 제2 조정 특징 맵(500B)을 픽셀 별로 분리하여 프로포잘 별로 너비 1, 높이1, 채널 개수 L인 픽셀별 특징 맵(PW1, PW2, …, 및 PWN)을 생성하도록 한다.

다음으로, 학습 장치(100)는 분류 레이어(128)로 하여금 프로포잘 별 픽셀별 특징 맵(PW1, PW2, …, 및 PWN)을 이용하여 프로포잘 각각에 대한 객체 클래스 정보를 생성하도록 할 수 있다. 이때, 분류 레이어(128)는 적어도 하나의 소프트맥스(Softmax) 알고리즘을 사용할 수 있으며, 각각의 프로포잘이 검출하고자 하는 각각의 객체와 일치하는 것으로 판단되는 확률 정보를 생성하도록 할 수 있다.

앞서 설명한 바와 같이, 제2 트랜스포징 레이어(127)는 제2 조정 특징 맵(500B)을 이용해 프로포잘 별로 픽셀별 특징 맵(PW1, PW2, …, 및 PWN)을 생성할 수 있다. 다른 예로, 분류 레이어(128)는 제2 트랜스포징 레이어(127)를 사용하지 않고 제2 조정 특징 맵(500B)을 이용하여 프로포잘 별 픽셀별 특징 맵을 생성할 수 있다. 즉, 학습 장치(100)는 분류 레이어(128)로 하여금 제2 조정 특징 맵(500B)을 픽셀 별로 분리하여 프로포잘 별 픽셀별 특징 맵(PW1, PW2, …, 및 PWN)을 생성하도록 하고, 분류 레이어(128)로 하여금 프로포잘 별 픽셀별 특징 맵(PW1, PW2, …, 및 PWN)을 이용하여 프로포잘 각각에 대한 객체 클래스 정보를 생성하도록 할 수 있다.

다음으로, 학습 장치(100)는 검출 레이어(129)로 하여금 객체 클래스 정보와 프로포잘 별 픽셀별 특징 맵(PW1, PW2, …, 및 PWN)을 참조하여 트레이닝 이미지 내에 위치하는 객체에 대응되는 객체 검출 정보를 생성하도록 할 수 있다. 이때, 검출 레이어(129)는 NMS(Non-Maximum Suppression) 알고리즘을 사용할 수 있으며, 단일 객체에 복수의 프로포잘이 태깅되었을 경우, 그 중 확률이 높은 적어도 하나의 특정 프로포잘을 선택하여 단일 객체에 대응되는 객체 검출 정보로 출력할 수 있다.

다음으로, 학습 장치(100)는 검출 로스 레이어(132)로 하여금 객체 검출 정보와 이에 대응되는 GT를 참조하여 적어도 하나의 객체 검출 로스를 생성하도록 함으로써, 객체 검출 로스를 백프로파게이션하여 제2 1x1 컨벌루션 레이어(126), 제1 1x1 컨벌루션 레이어(125), 및 컨벌루션 레이어(121) 중 적어도 일부의 파라미터를 조정할 수 있다.

또한, 학습 장치(100)는 RPN(122)에 대응되는 적어도 하나의 RPN 로스 레이어(131)로 하여금 상기 프로포잘과 이에 대응되는 GT를 참조하여 적어도 하나의 RPN 로스를 산출하도록 함으로써, RPN 로스를 백프로파게이션하여 RPN(122)의 적어도 일부의 파라미터를 조정할 수 있다.

상기에서와 같이 본 발명의 일 실시예에 따른 CNN 기반의 객체 검출기는 컨벌루션 레이어들로만 구성되어 있으므로 종래 FC 레이어(Fully Connected Layer)를 이용한 것과는 달리 FC 레이어에 입력되는 이미지의 사이즈에 관계없이 입력 이미지 내의 객체를 검출할 수 있다. 또한, 본 발명의 일 실시예에 따른 CNN 기반의 객체 검출기는 1x1 컨벌루션의 LC 연산(Locally Connected Operation)을 적용함으로써 종래의 FC 레이어의 FC 연산에 비하여 컴퓨팅 연산량을 감소시킬 수 있게 된다.

도 7은 본 발명의 일 실시예에 따른 CNN 기반의 객체 검출기를 테스트하는 테스트 장치(200)를 개략적으로 도시한 것으로, 도 7을 참조하면, 테스트 장치(200)는 통신부(210)와 프로세서(220)를 포함할 수 있다.

또한, 테스트 장치는 다음의 프로세스를 수행하기 위한 컴퓨터 판독 가능한 인스트럭션(Instruction)을 저장할 수 있는 메모리(215)를 더 포함할 수 있다. 일 실시예에 따르면, 프로세서, 메모리, 매체 등은 통합 프로세서(Integrated Processor)로 통합될 수 있다.

참고로 이하의 설명에서 혼동을 피하기 위해 "학습용"이란 문구는 앞서 설명한 학습 프로세스와 관련된 용어에 대해 추가되고, "테스트용"이란 문구는 테스트 프로세스와 관련된 용어에 대해　추가된다.

먼저, 통신부(210)는 적어도 하나의 테스트 이미지를 획득할 수 있다.

이때, 본 발명의 일 실시예에 따른 CNN 기반의 객체 검출기는 도 1 내지 도 6을 참조하여 설명한 학습 방법에 의해 학습이 된 상태일 수 있다.

즉, 적어도 하나의 트레이닝 이미지가 획득되면, 학습 장치는 (a) (1) (i) 적어도 하나의 컨벌루션 레이어로 하여금 트레이닝 이미지에 대하여 컨벌루션 연산을 적어도 한 번 적용하여 적어도 하나의 학습용 초기 특징 맵(Initial Feature Map)을 생성하도록 하며, (ii) RPN으로 하여금 학습용 초기 특징 맵을 이용하여 트레이닝 이미지 내에 위치하는 적어도 하나의 학습용 객체 각각에 대응하는 적어도 하나의 학습용 프로포잘을 생성하도록 하고, (iii) (iii-1) 풀링 레이어로 하여금 학습용 초기 특징 맵 상에서 학습용 프로포잘 각각에 대응되는 영역 각각에 대해 풀링 연산을 적용하도록 하여 학습용 프로포잘 별 학습용 풀링된 특징 맵을 생성하도록 하며, 제1 트랜스포징 레이어(Transposing Layer)로 하여금 학습용 프로포잘 별 학습용 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 학습용 프로포잘 별로 컨캐터네이팅(Concatenating)하여 학습용 통합 특징 맵(Integrated Feature Map)을 생성하도록 하거나, (iii-2) 풀링 레이어로 하여금 학습용 초기 특징 맵 상에서 학습용 프로포잘 각각에 대응되는 각각의 영역에 대하여 풀링 연산을 적용하도록 하여 학습용 프로포잘 별 학습용 풀링된 특징 맵을 생성하고, 풀링 레이어로 하여금 학습용 프로포잘 별 학습용 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 학습용 프로포잘 별로 컨캐터네이팅하여 학습용 통합 특징 맵을 생성하도록 하는 프로세스; (b) 제1 1x1 컨벌루션 레이어로 하여금 학습용 통합 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하여 볼륨(Volume)이 조정된 학습용 제1 조정 특징 맵을 생성하도록 하며, 제2 1x1 컨벌루션 레이어로 하여금 학습용 제1 조정 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨이 조정된 학습용 제2 조정 특징 맵을 생성하도록 하는 프로세스; (c) (c1) (i) 제2 트랜스포징 레이어로 하여금 학습용 제2 조정 특징 맵을 픽셀 별로 분리하여 학습용 프로포잘 별 학습용 픽셀별 특징 맵(Pixel-Wise Feature Map)을 생성하도록 하며, 분류 레이어로 하여금 학습용 프로포잘 별 학습용 픽셀별 특징 맵을 이용하여 학습용 프로포잘 각각에 대한 학습용 객체 클래스 정보를 생성하도록 하거나, (ii) 분류 레이어로 하여금 학습용 제2 조정 특징 맵을 픽셀 별로 분리하여 학습용 프로포잘 별 학습용 픽셀별 특징 맵을 생성하고, 분류 레이어로 하여금 학습용 프로포잘 별 학습용 픽셀별 특징 맵을 이용하여 학습용 프로포잘 각각에 대한 학습용 객체 클래스 정보를 생성하도록 하고, (c2) 검출 레이어(Detecting Layer)로 하여금 학습용 객체 클래스 정보와 학습용 프로포잘 별 학습용 픽셀별 특징 맵을 참조하여 트레이닝 이미지 내에 위치하는 학습용 객체에 대응되는 학습용 객체 검출 정보를 생성하도록 하고, (c3) 검출 로스 레이어로 하여금 학습용 객체 검출 정보와 이에 대응되는 GT(Ground Truth)를 참조하여 적어도 하나의 객체 검출 로스를 산출하도록 하는 함으로써, 객체 검출 로스를 백프로파게이션하여 제2 1x1 컨벌루션 레이어, 제1 1x1 컨벌루션 레이어 및 컨벌루션 레이어 중 적어도 일부의 파라미터를 학습하는 프로세스를 수행한 상태일 수 있다.

또한, 학습 장치는, RPN 로스 레이어로 하여금 학습용 프로포잘과 이에 대응되는 GT를 참조하여 적어도 하나의 RPN 로스를 산출하도록 함으로써, RPN 로스를 백프로파게이션하여 RPN의 파라미터의 적어도 일부를 학습한 상태일 수 있다.

다음으로, 프로세서(220)는 (i) 컨벌루션 레이어로 하여금 적어도 하나의 테스트 이미지에 대하여 컨벌루션 연산을 적용하도록 하여 적어도 하나의 테스트용 초기 특징 맵(Initial Feature Map)을 생성하도록 하며, (ii) RPN으로 하여금 테스트용 초기 특징 맵을 이용하여 테스트 이미지 내에 위치하는 적어도 하나의 테스트용 객체에 대응하는 적어도 하나의 테스트용 프로포잘을 생성하도록 하고, (iii) (iii-1) 풀링 레이어로 하여금 테스트용 초기 특징 맵 상에서 테스트용 프로포잘 각각에 대응되는 영역 각각에 대해 풀링 연산을 적용하도록 하여 테스트용 프로포잘 별 테스트용 풀링된 특징 맵을 생성하도록 하고, 제1 트랜스포징 레이어(Transposing Layer)로 하여금 테스트용 프로포잘 별 테스트용 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 테스트용 프로포잘 별로 컨캐터네이팅(Concatenating)하여 테스트용 통합 특징 맵(Integrated Feature Map)을 생성하도록 하거나, (iii-2) 풀링 레이어로 하여금 테스트용 초기 특징 맵 상에서 테스트용 프로포잘 각각에 대응되는 각각의 영역에 대하여 풀링 연산을 적용하도록 하여 테스트용 프로포잘 별 테스트용 풀링된 특징 맵을 생성하고, 풀링 레이어로 하여금 테스트용 프로포잘 별 테스트용 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 테스트용 프로포잘 별로 컨캐터네이팅하여 테스트용 통합 특징 맵을 생성하도록 하는 프로세스를 수행할 수 있다. 그리고, 프로세서(220)는 제1 1x1 컨벌루션 레이어로 하여금 테스트용 통합 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하여 볼륨(Volume)이 조정된 테스트용 제1 조정 특징 맵을 생성하도록 하며, 제2 1x1 컨벌루션 레이어로 하여금 테스트용 제1 조정 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨이 조정된 테스트용 제2 조정 특징 맵을 생성하도록 하는 프로세스를 수행할 수 있다. 이후, 프로세서(220)는 (i) 제2 트랜스포징 레이어로 하여금 테스트용 제2 조정 특징 맵을 픽셀 별로 분리하여 테스트용 프로포잘 별 테스트용 픽셀별 특징 맵(Pixel-Wise Feature Map)을 생성하도록 하며, 분류 레이어로 하여금 테스트용 프로포잘 별 테스트용 픽셀별 특징 맵을 이용하여 테스트용 프로포잘 각각에 대한 테스트용 객체 클래스 정보를 생성하도록 하거나, (ii) 분류 레이어로 하여금 테스트용 제2 조정 특징 맵을 픽셀 별로 분리하여 테스트용 프로포잘 별 테스트용 픽셀별 특징 맵을 생성하고, 분류 레이어로 하여금 테스트용 프로포잘 별 테스트용 픽셀별 특징 맵을 이용하여 테스트용 프로포잘 각각에 대한 테스트용 객체 클래스 정보를 생성하도록 하는 프로세스를 수행할 수 있다. 그리고, 프로세서(220)는 검출 레이어(Detecting Layer)로 하여금 테스트용 객체 클래스 정보와 테스트용 프로포잘 별 테스트용 픽셀별 특징 맵을 참조하여 테스트 이미지 내에 위치하는 테스트용 객체에 대응되는 테스트용 객체 검출 정보를 생성하도록 할 수 있다.

이때, 본 발명의 일 실시예에 따른 테스트 장치(200)는 컴퓨팅 장치로서, 프로세서를 탑재하여 연산 능력을 갖춘 장치라면 얼마든지 본 발명에 따른 테스트 장치(200)로서 채택될 수 있다. 또한, 도 7에서는 하나의 테스트 장치(200)만을 나타내었으나, 이에 한정되지 않으며, 테스트 장치는 복수 개로 나뉘어 역할을 수행할 수도 있다.

이와 같이 구성된 본 발명의 일 실시예에 따른 테스트 장치(200)를 이용하여 CNN 기반의 객체 검출기의 파라미터를 테스트하는 방법을 도 8을 참조하여 설명하면 다음과 같다. 이하의 설명에서, 도 1 내지 도 6를 참조하여 설명한 학습 방법으로부터 용이하게 이해 가능한 부분에 대해서는 상세한 설명을 생략하기로 한다.

먼저, 도 1 내지 도 6을 참조하여 설명한 학습 방법에 의해 컨벌루션 레이어(221), RPN(222), 제1 1x1 컨벌루션 레이어(225), 및 제2 1x1 컨벌루션 레이어(226)의 적어도 일부의 파라미터가 학습된 상태에서, 테스트 이미지가 입력되면, 테스트 장치(200)가, 컨벌루션 레이어(221)로 하여금 테스트 이미지에 대하여 컨벌루션 연산을 적용하도록 하여 테스트용 초기 특징 맵을 생성하도록 한다. 이때, 컨벌루션 레이어(221)는 테스트 이미지에 대하여 순차적으로 컨벌루션 연산을 적용하기 위하여 단일 컨벌루션 레이어 또는 복수 개의 컨벌루션 레이어일 수 있다.

그리고, 테스트 장치(200)는 RPN(222)으로 하여금 테스트용 초기 특징 맵을 이용하여 테스트 이미지 내에 위치하는 테스트용 객체 각각에 대응하는 적어도 하나의 테스트용 프로포잘을 생성하도록 할 수 있다. 이때, RPN(222)은 테스트 이미지 내에 테스트용 객체가 위치하는 것으로 추정되는 테스트용 후보 영역에 대응되는 테스트용 ROI 후보를 생성하도록 하고, 테스트용 ROI 후보 중 테스트용 객체가 위치하는 것으로 판단되는 확률이 높은 특정 테스트용 ROI 후보를 테스트용 프로포잘로 출력할 수 있다.

다음으로, 테스트 장치(200)는 풀링 레이어(223)로 하여금 테스트용 초기 특징 맵 상에서 테스트용 프로포잘 각각에 대응되는 영역 각각을 풀링하도록 하여 테스트용 프로포잘 별 테스트용 풀링된 특징 맵을 생성하도록 할 수 있다.

다음으로, 테스트 장치(200)는 제1 트랜즈포즈 레이어(224)로 하여금 풀링 레이어(223)로부터 출력된 테스트용 프로포잘 별 테스트용 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 각각의 픽셀을 테스트용 프로포잘 별로 컨캐터네이팅하여 테스트용 통합 특징 맵을 출력하도록 할 수 있다.

한편, 상기에서는 테스트 장치(200)가 제1 트랜스포징 레이어(224)로 하여금 풀링 레이어(223)로부터 출력된 테스트용 프로포잘 별 테스트용 풀링된 특징 맵을 이용하여 테스트용 통합 특징 맵을 생성하도록 하였다. 다른 예로, 테스트 장치(200)는 제1 트랜스포징 레이어(224)를 사용하지 않고 풀링 레이어(223)로 하여금 테스트용 통합 특징 맵을 생성하도록 할 수 있다. 즉, 테스트 장치(200)는 풀링 레이어(223)로 하여금 테스트용 초기 특징 맵 상에서 테스트용 프로포잘 각각에 대응되는 영역 각각을 풀링하여 테스트용 프로포잘 별 테스트용 풀링된 특징 맵을 생성하도록 하고, 테스트용 프로포잘 별 테스트용 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 각각의 픽셀을 테스트용 프로포잘 별로 컨캐터네이팅하여 테스트용 통합 특징 맵을 생성하도록 할 수 있다.

다음으로, 테스트 장치(200)는 제1 1x1 컨벌루션 레이어(225)로 하여금 테스트용 통합 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하여 볼륨(Volume)이 조정된 테스트용 제1 조정 특징 맵을 생성하도록 하며, 제2 1x1 컨벌루션 레이어(226)로 하여금 테스트용 제1 조정 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨이 조정된 테스트용 제2 조정 특징 맵을 생성하도록 하는 프로세스를 수행할 수 있다.

다음으로, 테스트 장치(200)는 제2 트랜스포징 레이어(227)로 하여금 테스트용 제2 조정 특징 맵을 픽셀 별로 분리하여 테스트용 프로포잘 별 테스트용 픽셀별 특징 맵을 생성하도록 할 수 있다.

다음으로, 테스트 장치(200)는 분류 레이어(228)로 하여금 테스트용 프로포잘 별 테스트용 픽셀별 특징 맵을 이용하여 테스트용 프로포잘 각각에 대한 테스트용 객체 클래스 정보를 생성하도록 할 수 있다. 이때, 분류 레이어(228)는 소프트맥스 알고리즘을 사용할 수 있으며, 각각의 테스트용 프로포잘이 검출하고자 하는 테스트용 객체에 대응하는지에 대한 확률 정보를 생성하도록 할 수 있다.

한편, 상기에서는 제2 트랜스포징 레이어(227)는 테스트용 제2 조정 특징 맵을 이용해 테스트용 프로포잘 별 픽셀별 특징 맵을 생성할 수 있다. 다른 예로, 제2 트랜스포징 레이어(227)를 사용하지 않고 분류 레이어(228)가 테스트용 제2 조정 특징 맵을 이용해 테스트용 프로포잘 별 테스트용 픽셀별 특징 맵을 생성하도록 할 수 있다. 즉, 테스트 장치(200)는 분류 레이어(228)로 하여금 테스트용 제2 조정 특징 맵을 픽셀 별로 분리하여 테스트용 프로포잘 별 테스트용 픽셀별 특징 맵을 생성하도록 하고, 분류 레이어로 하여금 테스트용 프로포잘 별 테스트용 픽셀별 특징 맵을 이용하여 테스트용 프로포잘 각각에 대한 테스트용 객체 클래스 정보를 생성하도록 할 수 있다.

다음으로, 테스트 장치(200)는 검출 레이어(229)로 하여금 테스트용 객체 클래스 정보와 테스트용 프로포잘 별 테스트용 픽셀별 특징 맵을 참조하여 테스트 이미지 내에 위치하는 테스트용 객체에 대응되는 테스트용 객체 검출 정보를 생성하도록 할 수 있다. 이때, 검출 레이어(229)는 NMS(Non-Maximum Suppression) 알고리즘을 사용할 수 있으며, 단일 테스트용 객체에 복수의 테스트용 프로포잘이 태깅되었을 경우, 그 중 확률이 높은 특정 테스트용 프로포잘을 단일 테스트용 객체에 대응되는 테스트용 객체 검출 정보로 선택할 수 있다.

본 방법에서 동일한 프로세서가 컨벌루션 연산 및 FC 연산을 수행하기 때문에 칩(Chip)의 사이즈를 줄여 하드웨어를 최적화하여 KPI(Key Performance Index, 핵심성과지표)를 충족할 수 있다. 따라서, 반도체 제작 과정 중 추가 라인을 설치할 필요가 없으며, 전력 절감, 반도체 다이(Die) 내에서 FC 모듈 대신 다른 모듈을 설치할 공간이 넓어지는 등의 장점이 있다.

또한, 이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

100: 학습 장치,
200: 테스트 장치,
110, 210: 통신부,
120, 220: 프로세서,
130: 데이터베이스

Claims

CNN 기반의 객체 검출기의 파라미터를 학습하는 방법에 있어서,
(a) 적어도 하나의 트레이닝 이미지가 입력되면, 학습 장치가, (i) 적어도 하나의 컨벌루션 레이어로 하여금 상기 트레이닝 이미지에 대하여 컨벌루션 연산을 적어도 한 번 적용하도록 하여 적어도 하나의 초기 특징 맵(Initial Feature Map)을 생성하도록 하며, (ii) RPN으로 하여금 상기 초기 특징 맵을 이용하여 상기 트레이닝 이미지 내에 위치하는 적어도 하나의 객체에 대응하는 적어도 하나의 프로포잘을 생성하도록 하고, (iii) (iii-1) 풀링 레이어로 하여금 상기 초기 특징 맵 상에서 상기 프로포잘 각각에 대응되는 영역 각각에 대해 풀링 연산을 적용하도록 하여 상기 프로포잘 별 풀링된 특징 맵을 생성하도록 하고, 제1 트랜스포징 레이어(Transposing Layer)로 하여금 상기 프로포잘 별 상기 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 상기 프로포잘 별로 컨캐터네이팅(Concatenating)하여 통합 특징 맵(Integrated Feature Map)을 생성하도록 하거나, (iii-2) 상기 풀링 레이어로 하여금 상기 초기 특징 맵 상에서 상기 프로포잘 각각에 대응되는 각각의 영역에 대하여 풀링 연산을 적용하도록 하여 상기 프로포잘 별 상기 풀링된 특징 맵을 생성하고, 상기 풀링 레이어로 하여금 상기 프로포잘 별 상기 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 상기 프로포잘 별로 컨캐터네이팅하여 상기 통합 특징 맵을 생성하도록 하는 단계;
(b) 상기 학습 장치가, 제1 1x1 컨벌루션 레이어로 하여금 상기 통합 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨(Volume)이 조정된 제1 조정 특징 맵을 생성하도록 하며, 제2 1x1 컨벌루션 레이어로 하여금 상기 제1 조정 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨이 조정된 제2 조정 특징 맵을 생성하도록 하는 단계; 및
(c) 상기 학습 장치가, (c1) (i) 제2 트랜스포징 레이어로 하여금 상기 제2 조정 특징 맵을 픽셀 별로 분리하여 상기 프로포잘 별 픽셀별 특징 맵(Pixel-Wise Feature Map)을 생성하도록 하며, 분류 레이어로 하여금 상기 프로포잘 별 상기 픽셀별 특징 맵을 이용하여 상기 프로포잘 각각에 대한 객체 클래스 정보를 생성하도록 하거나, (ii) 상기 분류 레이어로 하여금 상기 제2 조정 특징 맵을 상기 픽셀 별로 분리하여 상기 프로포잘 별 상기 픽셀별 특징 맵을 생성하고 상기 프로포잘 별 상기 픽셀별 특징 맵을 이용하여 상기 프로포잘 각각에 대한 상기 객체 클래스 정보를 생성하도록 한 후, (c2) 검출 레이어(Detecting Layer)로 하여금 상기 객체 클래스 정보와 상기 프로포잘 별 상기 픽셀별 특징 맵을 참조하여 상기 트레이닝 이미지 내에 위치하는 상기 객체에 대응되는 객체 검출 정보를 생성하도록 하고, (c3) 검출 로스 레이어로 하여금 상기 객체 검출 정보와 이에 대응되는 GT(Ground Truth)를 참조하여 적어도 하나의 객체 검출 로스를 산출하도록 함으로써, 상기 객체 검출 로스를 이용한 백프로파게이션을 통해 상기 제2 1x1 컨벌루션 레이어, 상기 제1 1x1 컨벌루션 레이어 및 상기 컨벌루션 레이어 중 적어도 일부의 파라미터를 학습하는 단계;
를 포함하는 것을 특징으로 하는 학습 방법.
제 1 항에 있어서,
상기 (a) 단계 이후,
상기 학습 장치는, RPN 로스 레이어로 하여금 상기 프로포잘과 이에 대응되는 GT를 참조하여 적어도 하나의 RPN 로스를 산출하도록 함으로써, 상기 RPN 로스를 백프로파게이션하여 상기 RPN의 파라미터의 적어도 일부를 학습하는 것을 특징으로 하는 학습 방법.
제 1 항에 있어서,
상기 프로포잘의 개수를 N이라 하며, 상기 프로포잘 별 상기 풀링된 특징 맵의 너비를 M1, 높이를 M2라 하고, 상기 프로포잘 별 상기 풀링된 특징 맵의 채널 개수를 J라 할 경우,
상기 (a) 단계에서,
상기 학습 장치는, (i) 상기 제1 트랜스포징 레이어로 하여금 상기 프로포잘 별 상기 풀링된 특징 맵을 너비가 N, 높이가 1, 채널 개수가 M1xM2xJ인 상기 통합 특징 맵으로 변환시키도록 하거나 (ii) 상기 풀링 레이어로 하여금 상기 프로포잘 별 상기 풀링된 특징 맵을 너비가 N, 높이가 1, 채널 개수가 M1xM2xJ인 상기 통합 특징 맵으로 변환시키도록 하는 것을 특징으로 하는 학습 방법.
제 3 항에 있어서,
상기 제1 1x1 컨벌루션 레이어 내의 필터의 개수를 K라 하고, 상기 제2 1x1 컨벌루션 레이어 내의 필터의 개수를 L이라 할 경우,
상기 (b) 단계에서,
상기 학습 장치는,
상기 제1 1x1 컨벌루션 레이어로 하여금 너비가 N, 높이가 1이고, 채널 개수가 K인 Nx1xK의 볼륨을 가지는 상기 제1 조정 특징 맵(Adjusted Feature Map)을 생성하도록 하며, 상기 제2 1x1 컨벌루션 레이어로 하여금 너비가 N, 높이가 1이고, 채널 개수가 L인 Nx1xL의 볼륨을 가지는 상기 제2 조정 특징 맵을 생성하도록 하는 것을 특징으로 하는 학습 방법.
제 4 항에 있어서,
상기 (c) 단계에서,
상기 학습 장치는, (i) 상기 제2 트랜스포징 레이어로 하여금 상기 제2 조정 특징 맵을, N개의 프로포잘 각각에 대응하는 너비 1, 높이 1, 채널 개수가 L인 1x1xL의 볼륨을 가지는 상기 프로포잘 별 상기 픽셀별 특징 맵으로 변환하도록 하거나 (ii) 상기 분류 레이어로 하여금 상기 제2 조정 특징 맵을, 상기 N개의 프로포잘 각각에 대응하는 너비 1, 높이 1, 채널 개수가 L인 1x1xL의 볼륨을 가지는 상기 프로포잘 별 상기 픽셀별 특징 맵으로 변환하도록 하는 것을 특징으로 하는 학습 방법.
제 1 항에 있어서,
상기 분류 레이어는 적어도 하나의 소프트맥스(Softmax) 알고리즘을 사용하는 것을 특징으로 하는 학습 방법.
제 1 항에 있어서,
상기 검출 레이어는 적어도 하나의 NMS(Non-Maximum Suppression) 알고리즘을 사용하는 것을 특징으로 하는 학습 방법.
CNN 기반의 객체 검출기를 테스트하는 방법에 있어서,
(a) 학습 장치는, (1) (i) 적어도 하나의 컨벌루션 레이어로 하여금 적어도 하나의 트레이닝 이미지에 대하여 컨벌루션 연산을 적어도 한 번 적용하도록 하여 적어도 하나의 학습용 초기 특징 맵(Initial Feature Map)을 생성하도록 하며, (ii) RPN으로 하여금 상기 학습용 초기 특징 맵을 이용하여 상기 트레이닝 이미지 내에 위치하는 적어도 하나의 학습용 객체에 대응하는 적어도 하나의 학습용 프로포잘을 생성하도록 하고, (iii) (iii-1) 풀링 레이어로 하여금 상기 학습용 초기 특징 맵 상에서 상기 학습용 프로포잘 각각에 대응되는 영역 각각에 대해 풀링 연산을 적용하도록 하여 상기 학습용 프로포잘 별 학습용 풀링된 특징 맵을 생성하도록 하며, 제1 트랜스포징 레이어(Transposing Layer)로 하여금 상기 학습용 프로포잘 별 상기 학습용 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 상기 학습용 프로포잘 별로 컨캐터네이팅(Concatenating)하여 학습용 통합 특징 맵(Integrated Feature Map)을 생성하도록 하거나, (iii-2) 상기 풀링 레이어로 하여금 상기 학습용 초기 특징 맵 상에서 상기 학습용 프로포잘 각각에 대응되는 각각의 영역에 대하여 풀링 연산을 적용하도록 하여 상기 학습용 프로포잘 별 상기 학습용 풀링된 특징 맵을 생성하고, 상기 풀링 레이어로 하여금 상기 학습용 프로포잘 별 상기 학습용 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 상기 학습용 프로포잘 별로 컨캐터네이팅하여 상기 학습용 통합 특징 맵을 생성하도록 하고, (2) 제1 1x1 컨벌루션 레이어로 하여금 상기 학습용 통합 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨(Volume)이 조정된 학습용 제1 조정 특징 맵을 생성하도록 하며, 제2 1x1 컨벌루션 레이어로 하여금 상기 학습용 제1 조정 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨이 조정된 학습용 제2 조정 특징 맵을 생성하도록 하고, (3) (3-1) (i) 제2 트랜스포징 레이어로 하여금 상기 학습용 제2 조정 특징 맵을 픽셀 별로 분리하여 상기 학습용 프로포잘 별 학습용 픽셀별 특징 맵(Pixel-Wise Feature Map)을 생성하도록 하며, 분류 레이어로 하여금 상기 학습용 프로포잘 별 상기 학습용 픽셀별 특징 맵을 이용하여 상기 학습용 프로포잘 각각에 대한 학습용 객체 클래스 정보를 생성하도록 하거나, (ii) 상기 분류 레이어로 하여금 상기 학습용 제2 조정 특징 맵을 상기 픽셀 별로 분리하여 상기 학습용 프로포잘 별 상기 학습용 픽셀별 특징 맵을 생성하고, 상기 분류 레이어로 하여금 상기 학습용 프로포잘 별 상기 학습용 픽셀별 특징 맵을 이용하여 상기 학습용 프로포잘 각각에 대한 상기 학습용 객체 클래스 정보를 생성하도록 한 후, (3-2) 검출 레이어(Detecting Layer)로 하여금 상기 학습용 객체 클래스 정보와 상기 학습용 프로포잘 별 상기 학습용 픽셀별 특징 맵을 참조하여 상기 트레이닝 이미지 내에 위치하는 상기 학습용 객체에 대응되는 학습용 객체 검출 정보를 생성하도록 하고, (3-3) 검출 로스 레이어로 하여금 상기 학습용 객체 검출 정보와 이에 대응되는 GT(Ground Truth)를 참조하여 적어도 하나의 객체 검출 로스를 산출하도록 함으로써, 상기 객체 검출 로스를 백프로파게이션하여 상기 제2 1x1 컨벌루션 레이어, 상기 제1 1x1 컨벌루션 레이어 및 상기 컨벌루션 레이어 중 적어도 일부의 파라미터를 학습한 상태에서, 적어도 하나의 테스트 이미지가 입력되면, 테스트 장치가, (i) 상기 컨벌루션 레이어로 하여금 상기 테스트 이미지에 대하여 컨벌루션 연산을 적용하도록 하여 적어도 하나의 테스트용 초기 특징 맵을 생성하도록 하며, (ii) 상기 RPN으로 하여금 상기 테스트용 초기 특징 맵을 이용하여 상기 테스트 이미지 내에 위치하는 적어도 하나의 테스트용 객체에 대응하는 적어도 하나의 테스트용 프로포잘을 생성하도록 하고, (iii) (iii-1) 상기 풀링 레이어로 하여금 상기 테스트용 초기 특징 맵 상에서 상기 테스트용 프로포잘 각각에 대응되는 영역 각각에 대해 풀링 연산을 적용하도록 하여 상기 테스트용 프로포잘 별 테스트용 풀링된 특징 맵을 생성하도록 하며, 상기 제1 트랜스포징 레이어로 하여금 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 상기 테스트용 프로포잘 별로 컨캐터네이팅하여 테스트용 통합 특징 맵을 생성하도록 하거나, (iii-2) 상기 풀링 레이어로 하여금 상기 테스트용 초기 특징 맵 상에서 상기 테스트용 프로포잘 각각에 대응되는 각각의 영역에 대하여 풀링 연산을 적용하도록 하여 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵을 생성하고, 상기 풀링 레이어로 하여금 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 상기 테스트용 프로포잘 별로 컨캐터네이팅하여 상기 테스트용 통합 특징 맵을 생성하도록 하는 단계;
(b) 상기 테스트 장치가, 상기 제1 1x1 컨벌루션 레이어로 하여금 상기 테스트용 통합 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨(Volume)이 조정된 테스트용 제1 조정 특징 맵을 생성하도록 하며, 상기 제2 1x1 컨벌루션 레이어로 하여금 상기 테스트용 제1 조정 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨이 조정된 테스트용 제2 조정 특징 맵을 생성하도록 하는 단계; 및
(c) 상기 테스트 장치가, (c1) (i) 상기 제2 트랜스포징 레이어로 하여금 상기 테스트용 제2 조정 특징 맵을 픽셀 별로 분리하여 상기 테스트용 프로포잘 별 테스트용 픽셀별 특징 맵을 생성하도록 하며, 상기 분류 레이어로 하여금 상기 테스트용 프로포잘 별 상기 테스트용 픽셀별 특징 맵을 이용하여 상기 테스트용 프로포잘 각각에 대한 테스트용 객체 클래스 정보를 생성하도록 하거나, (ii) 상기 분류 레이어로 하여금 상기 테스트용 제2 조정 특징 맵을 상기 픽셀 별로 분리하여 상기 테스트용 프로포잘 별 상기 테스트용 픽셀별 특징 맵을 생성하고, 상기 분류 레이어로 하여금 상기 테스트용 프로포잘 별 상기 테스트용 픽셀별 특징 맵을 이용하여 상기 테스트용 프로포잘 각각에 대한 상기 테스트용 객체 클래스 정보를 생성하도록 한 후, (c2) 상기 검출 레이어로 하여금 상기 테스트용 객체 클래스 정보와 상기 테스트용 프로포잘 별 상기 테스트용 픽셀별 특징 맵을 참조하여 상기 테스트 이미지 내에 위치하는 상기 테스트용 객체에 대응되는 테스트용 객체 검출 정보를 생성하도록 하는 단계;
를 포함하는 것을 특징으로 하는 테스트 방법.
제 8 항에 있어서,
상기 (1) 프로세스 이후,
상기 학습 장치는, RPN 로스 레이어로 하여금 상기 학습용 프로포잘과 이에 대응되는 GT를 참조하여 적어도 하나의 RPN 로스를 산출하도록 함으로써, 상기 RPN 로스를 백프로파게이션하여 상기 RPN의 파라미터의 적어도 일부를 학습하는 것을 특징으로 하는 테스트 방법.
제 8 항에 있어서,
상기 테스트용 프로포잘의 개수를 N이라 하며, 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵의 너비를 M1, 높이를 M2라 하고, 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵의 채널 개수를 J라 할 경우,
상기 (a) 단계에서,
상기 테스트 장치는, (i) 상기 제1 트랜스포징 레이어로 하여금 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵을 너비가 N, 높이가 1, 채널 개수가 M1xM2xJ인 상기 테스트용 통합 특징 맵으로 변환시키도록 하거나 (ii) 상기 풀링 레이어로 하여금 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵을 너비가 N, 높이가 1, 채널 개수가 M1xM2xJ인 상기 테스트용 통합 특징 맵으로 변환시키도록 하는 것을 특징으로 하는 테스트 방법.
제 8 항에 있어서,
상기 제1 1x1 컨벌루션 레이어 내의 필터의 개수를 K라 하고, 상기 제2 1x1 컨벌루션 레이어 내의 필터의 개수를 L이라 할 경우,
상기 (b) 단계에서,
상기 테스트 장치는,
상기 제1 1x1 컨벌루션 레이어로 하여금 너비가 N, 높이가 1이고, 채널 개수가 K인 Nx1xK의 볼륨을 가지는 상기 테스트용 제1 조정 특징 맵(Adjusted Feature Map)을 생성하도록 하며, 상기 제2 1x1 컨벌루션 레이어로 하여금 너비가 N, 높이가 1이고, 채널 개수가 L인 Nx1xL의 볼륨을 가지는 상기 테스트용 제2 조정 특징 맵을 생성하도록 하는 것을 특징으로 하는 테스트 방법.
제 11 항에 있어서,
상기 (c) 단계에서,
상기 테스트 장치는, (i) 상기 제2 트랜스포징 레이어로 하여금 상기 테스트용 제2 조정 특징 맵을, N개의 테스트용 프로포잘 각각에 대응하는 너비 1, 높이 1, 채널 개수가 L인 1x1xL의 볼륨을 가지는 상기 테스트용 프로포잘 별 상기 테스트용 픽셀별 특징 맵으로 변환하도록 하거나 (ii) 상기 분류 레이어로 하여금 상기 테스트용 제2 조정 특징 맵을, 상기 N개의 테스트용 프로포잘 각각에 대응하는 너비 1, 높이 1, 채널 개수가 L인 1x1xL의 볼륨을 가지는 상기 테스트용 프로포잘 별 상기 테스트용 픽셀별 특징 맵으로 변환하도록 하는 것을 특징으로 하는 테스트 방법.
제 8 항에 있어서,
상기 분류 레이어는 적어도 하나의 소프트맥스(Softmax) 알고리즘을 사용하는 것을 특징으로 하는 테스트 방법.
제 8 항에 있어서,
상기 검출 레이어는 적어도 하나의 NMS(Non-Maximum Suppression) 알고리즘을 사용하는 것을 특징으로 하는 테스트 방법.
CNN 기반의 객체 검출기의 파라미터를 학습하는 학습 장치에 있어서,
인스트럭션을 저장하는 적어도 하나의 메모리; 및
(I) (i) 적어도 하나의 컨벌루션 레이어로 하여금 적어도 하나의 트레이닝 이미지에 대하여 컨벌루션 연산을 적어도 한 번 적용하도록 하여 적어도 하나의 초기 특징 맵(Initial Feature Map)을 생성하도록 하며, (ii) RPN으로 하여금 상기 초기 특징 맵을 이용하여 상기 트레이닝 이미지 내에 위치하는 적어도 하나의 객체에 대응하는 적어도 하나의 프로포잘을 생성하도록 하고, (iii) (iii-1) 풀링 레이어로 하여금 상기 초기 특징 맵 상에서 상기 프로포잘 각각에 대응되는 영역 각각에 대해 풀링 연산을 적어도 한 번 적용하도록 하여 상기 프로포잘 별 풀링된 특징 맵을 생성하도록 하며, 제1 트랜스포징 레이어(Transposing Layer)로 하여금 상기 프로포잘 별 상기 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 상기 프로포잘 별로 컨캐터네이팅(Concatenating)하여 통합 특징 맵(Integrated Feature Map)을 생성하도록 하거나, (iii-2) 상기 풀링 레이어로 하여금 상기 초기 특징 맵 상에서 상기 프로포잘 각각에 대응되는 각각의 영역에 대하여 풀링 연산을 적용하도록 하여 상기 프로포잘 별 상기 풀링된 특징 맵을 생성하고, 상기 풀링 레이어로 하여금 상기 프로포잘 별 상기 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 상기 프로포잘 별로 컨캐터네이팅하여 상기 통합 특징 맵을 생성하도록 하는 프로세스, (II) 제1 1x1 컨벌루션 레이어로 하여금 상기 통합 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨(Volume)이 조정된 제1 조정 특징 맵을 생성하도록 하며, 제2 1x1 컨벌루션 레이어로 하여금 상기 제1 조정 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨이 조정된 제2 조정 특징 맵을 생성하도록 하는 프로세스, 및 (III) (III-1) (i) 제2 트랜스포징 레이어로 하여금 상기 제2 조정 특징 맵을 픽셀 별로 분리하여 상기 프로포잘 별 픽셀별 특징 맵(Pixel-Wise Feature Map)을 생성하도록 하며, 분류 레이어로 하여금 상기 프로포잘 별 상기 픽셀별 특징 맵을 이용하여 상기 프로포잘 각각에 대한 객체 클래스 정보를 생성하도록 하거나, (ii) 상기 분류 레이어로 하여금 상기 제2 조정 특징 맵을 상기 픽셀 별로 분리하여 상기 프로포잘 별 상기 픽셀별 특징 맵을 생성하고 상기 프로포잘 별 상기 픽셀별 특징 맵을 이용하여 상기 프로포잘 각각에 대한 상기 객체 클래스 정보를 생성하도록 한 후, (III-2) 검출 레이어(Detecting Layer)로 하여금 상기 객체 클래스 정보와 상기 프로포잘 별 상기 픽셀별 특징 맵을 참조하여 상기 트레이닝 이미지 내에 위치하는 상기 객체에 대응되는 객체 검출 정보를 생성하도록 하고, (III-3) 검출 로스 레이어로 하여금 상기 객체 검출 정보와 이에 대응되는 GT(Ground Truth)를 참조하여 적어도 하나의 객체 검출 로스를 산출하도록 함으로써, 상기 객체 검출 로스를 이용한 백프로파게이션을 통해 상기 제2 1x1 컨벌루션 레이어, 상기 제1 1x1 컨벌루션 레이어 및 상기 컨벌루션 레이어 중 적어도 일부의 파라미터를 학습하는 프로세스를 수행하기 위한 상기 인스트럭션을 실행하도록 구성된 적어도 하나의 프로세서;
를 포함하는 것을 특징으로 하는 학습 장치.
제 15 항에 있어서,
상기 (I) 프로세스 이후,
상기 프로세서는, RPN 로스 레이어로 하여금 상기 프로포잘과 이에 대응되는 GT를 참조하여 적어도 하나의 RPN 로스를 산출하도록 함으로써, 상기 RPN 로스를 백프로파게이션하여 상기 RPN의 파라미터의 적어도 일부를 학습하는 것을 특징으로 하는 학습 장치.
제 15 항에 있어서,
상기 프로포잘의 개수를 N이라 하며, 상기 프로포잘 별 상기 풀링된 특징 맵의 너비를 M1, 높이를 M2라 하고, 상기 프로포잘 별 상기 풀링된 특징 맵의 채널 개수를 J라 할 경우,
상기 (I) 프로세스에서,
상기 프로세서는, (i) 상기 제1 트랜스포징 레이어로 하여금 상기 프로포잘 별 상기 풀링된 특징 맵을 너비가 N, 높이가 1, 채널 개수가 M1xM2xJ인 상기 통합 특징 맵으로 변환시키도록 하거나 (ii) 상기 풀링 레이어로 하여금 상기 프로포잘 별 상기 풀링된 특징 맵을 너비가 N, 높이가 1, 채널 개수가 M1xM2xJ인 상기 통합 특징 맵으로 변환시키도록 하는 것을 특징으로 하는 학습 장치.
제 17 항에 있어서,
상기 제1 1x1 컨벌루션 레이어 내의 필터의 개수를 K라 하고, 상기 제2 1x1 컨벌루션 레이어 내의 필터의 개수를 L이라 할 경우,
상기 (II) 프로세스에서,
상기 프로세서는, 상기 제1 1x1 컨벌루션 레이어로 하여금 너비가 N, 높이가 1이고, 채널 개수가 K인 Nx1xK의 볼륨을 가지는 상기 제1 조정 특징 맵(Adjusted Feature Map)을 생성하도록 하며, 상기 제2 1x1 컨벌루션 레이어로 하여금 너비가 N, 높이가 1이고, 채널 개수가 L인 Nx1xL의 볼륨을 가지는 상기 제2 조정 특징 맵을 생성하도록 하는 것을 특징으로 하는 학습 장치.
제 18 항에 있어서,
상기 (III) 프로세스에서,
상기 프로세서는, (i) 상기 제2 트랜스포징 레이어로 하여금 상기 제2 조정 특징 맵을, N개의 프로포잘 각각에 대응하는 너비 1, 높이 1, 채널 개수가 L인 1x1xL의 볼륨을 가지는 상기 프로포잘 별 상기 픽셀별 특징 맵으로 변환하도록 하거나 (ii) 상기 분류 레이어로 하여금 상기 제2 조정 특징 맵을, 상기 N개의 프로포잘 각각에 대응하는 너비 1, 높이 1, 채널 개수가 L인 1x1xL의 볼륨을 가지는 상기 프로포잘 별 상기 픽셀별 특징 맵으로 변환하도록 하는 것을 특징으로 하는 학습 장치.
제 15 항에 있어서,
상기 분류 레이어는 적어도 하나의 소프트맥스(Softmax) 알고리즘을 사용하는 것을 특징으로 하는 학습 장치.
제 15 항에 있어서,
상기 검출 레이어는 적어도 하나의 NMS(Non-Maximum Suppression) 알고리즘을 사용하는 것을 특징으로 하는 학습 장치.
CNN 기반의 객체 검출기를 테스트하는 테스트 장치에 있어서,
인스트럭션을 저장하는 적어도 하나의 메모리; 및
학습 장치는, (1) (i) 적어도 하나의 컨벌루션 레이어로 하여금 적어도 하나의 트레이닝 이미지에 대하여 컨벌루션 연산을 적어도 한 번 적용하도록 하여 적어도 하나의 학습용 초기 특징 맵(Initial Feature Map)을 생성하도록 하며, (ii) RPN으로 하여금 상기 학습용 초기 특징 맵을 이용하여 상기 트레이닝 이미지 내에 위치하는 적어도 하나의 학습용 객체에 대응하는 적어도 하나의 학습용 프로포잘을 생성하도록 하고, (iii) (iii-1) 풀링 레이어로 하여금 상기 학습용 초기 특징 맵 상에서 상기 학습용 프로포잘 각각에 대응되는 영역 각각에 대해 풀링 연산을 적용하도록 하여 상기 학습용 프로포잘 별 학습용 풀링된 특징 맵을 생성하도록 하며, 제1 트랜스포징 레이어(Transposing Layer)로 하여금 상기 학습용 프로포잘 별 상기 학습용 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 각각의 픽셀을 상기 학습용 프로포잘 별로 컨캐터네이팅(Concatenating)하여 학습용 통합 특징 맵(Integrated Feature Map)을 생성하도록 하거나, (iii-2) 상기 풀링 레이어로 하여금 상기 학습용 초기 특징 맵 상에서 상기 학습용 프로포잘 각각에 대응되는 각각의 영역에 대하여 풀링 연산을 적용하도록 하여 상기 학습용 프로포잘 별 상기 학습용 풀링된 특징 맵을 생성하고, 상기 풀링 레이어로 하여금 상기 학습용 프로포잘 별 상기 학습용 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 각각의 픽셀을 상기 학습용 프로포잘 별로 컨캐터네이팅하여 상기 학습용 통합 특징 맵을 생성하도록 하고, (2) 제1 1x1 컨벌루션 레이어로 하여금 상기 학습용 통합 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨(Volume)이 조정된 학습용 제1 조정 특징 맵을 생성하도록 하며, 제2 1x1 컨벌루션 레이어로 하여금 상기 학습용 제1 조정 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨이 조정된 학습용 제2 조정 특징 맵을 생성하도록 하고, (3) (3-1) (i) 제2 트랜스포징 레이어로 하여금 상기 학습용 제2 조정 특징 맵을 픽셀 별로 분리하여 상기 학습용 프로포잘 별 학습용 픽셀별 특징 맵(Pixel-Wise Feature Map)을 생성하도록 하며, 분류 레이어로 하여금 상기 학습용 프로포잘 별 상기 학습용 픽셀별 특징 맵을 이용하여 상기 학습용 프로포잘 각각에 대한 학습용 객체 클래스 정보를 생성하도록 하거나, (ii) 상기 분류 레이어로 하여금 상기 학습용 제2 조정 특징 맵을 상기 픽셀 별로 분리하여 상기 학습용 프로포잘 별 상기 학습용 픽셀별 특징 맵을 생성하고, 상기 분류 레이어로 하여금 상기 학습용 프로포잘 별 상기 학습용 픽셀별 특징 맵을 이용하여 상기 학습용 프로포잘 각각에 대한 상기 학습용 객체 클래스 정보를 생성하도록 한 후, (3-2) 검출 레이어(Detecting Layer)로 하여금 상기 학습용 객체 클래스 정보와 상기 학습용 프로포잘 별 상기 학습용 픽셀별 특징 맵을 참조하여 상기 트레이닝 이미지 내에 위치하는 상기 학습용 객체에 대응되는 학습용 객체 검출 정보를 생성하도록 하고, (3-3) 검출 로스 레이어로 하여금 상기 학습용 객체 검출 정보와 이에 대응되는 GT(Ground Truth)를 참조하여 적어도 하나의 객체 검출 로스를 산출하도록 함으로써, 상기 객체 검출 로스를 백프로파게이션하여 상기 제2 1x1 컨벌루션 레이어, 상기 제1 1x1 컨벌루션 레이어 및 상기 컨벌루션 레이어 중 적어도 일부의 파라미터를 학습한 상태에서, (I) (i) 상기 컨벌루션 레이어로 하여금 적어도 하나의 테스트 이미지에 대하여 컨벌루션 연산을 적용하도록 하여 적어도 하나의 테스트용 초기 특징 맵을 생성하도록 하며, (ii) 상기 RPN으로 하여금 상기 테스트용 초기 특징 맵을 이용하여 상기 테스트 이미지 내에 위치하는 적어도 하나의 테스트용 객체에 대응하는 적어도 하나의 테스트용 프로포잘을 생성하도록 하고, (iii) (iii-1) 상기 풀링 레이어로 하여금 상기 테스트용 초기 특징 맵 상에서 상기 테스트용 프로포잘 각각에 대응되는 영역 각각에 대해 풀링 연산을 적용하도록 하여 상기 테스트용 프로포잘 별 테스트용 풀링된 특징 맵을 생성하도록 하며, 상기 제1 트랜스포징 레이어로 하여금 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 상기 테스트용 프로포잘 별로 컨캐터네이팅하여 테스트용 통합 특징 맵을 생성하도록 하거나, (iii-2) 상기 풀링 레이어로 하여금 상기 테스트용 초기 특징 맵 상에서 상기 테스트용 프로포잘 각각에 대응되는 각각의 영역에 대하여 풀링 연산을 적용하도록 하여 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵을 생성하고, 상기 풀링 레이어로 하여금 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵 상의 대응하는 동일한 각각의 위치의 픽셀 각각을 상기 테스트용 프로포잘 별로 컨캐터네이팅하여 상기 테스트용 통합 특징 맵을 생성하도록 하는 프로세스, (II) 상기 제1 1x1 컨벌루션 레이어로 하여금 상기 테스트용 통합 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨(Volume)이 조정된 테스트용 제1 조정 특징 맵을 생성하도록 하며, 상기 제2 1x1 컨벌루션 레이어로 하여금 상기 테스트용 제1 조정 특징 맵에 대하여 1x1 컨벌루션 연산을 적용하도록 하여 볼륨이 조정된 테스트용 제2 조정 특징 맵을 생성하도록 하는 프로세스, 및 (III) (III-1) (i) 상기 제2 트랜스포징 레이어로 하여금 상기 테스트용 제2 조정 특징 맵을 픽셀 별로 분리하여 상기 테스트용 프로포잘 별 테스트용 픽셀별 특징 맵을 생성하도록 하며, 상기 분류 레이어로 하여금 상기 테스트용 프로포잘 별 상기 테스트용 픽셀별 특징 맵을 이용하여 상기 테스트용 프로포잘 각각에 대한 테스트용 객체 클래스 정보를 생성하도록 하거나, (ii) 상기 분류 레이어로 하여금 상기 테스트용 제2 조정 특징 맵을 상기 픽셀 별로 분리하여 상기 테스트용 프로포잘 별 상기 테스트용 픽셀별 특징 맵을 생성하고, 상기 분류 레이어로 하여금 상기 테스트용 프로포잘 별 상기 테스트용 픽셀별 특징 맵을 이용하여 상기 테스트용 프로포잘 각각에 대한 상기 테스트용 객체 클래스 정보를 생성하도록 한 후, (III-2) 상기 검출 레이어로 하여금 상기 테스트용 객체 클래스 정보와 상기 테스트용 프로포잘 별 상기 테스트용 픽셀별 특징 맵을 참조하여 상기 테스트 이미지 내에 위치하는 상기 테스트용 객체에 대응되는 테스트용 객체 검출 정보를 생성하도록 하는 프로세스를 수행하기 위한 상기 인스트럭션을 실행하도록 구성된 적어도 하나의 프로세서;
를 포함하는 것을 특징으로 하는 테스트 장치.
제 22 항에 있어서,
상기 (1) 프로세스 이후,
상기 학습 장치는, RPN 로스 레이어로 하여금 상기 학습용 프로포잘과 이에 대응되는 GT를 참조하여 적어도 하나의 RPN 로스를 산출하도록 함으로써, 상기 RPN 로스를 백프로파게이션하여 상기 RPN의 파라미터의 적어도 일부를 학습하는 것을 특징으로 하는 테스트 장치.
제 22 항에 있어서,
상기 테스트용 프로포잘의 개수를 N이라 하며, 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵의 너비를 M1, 높이를 M2라 하고, 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵의 채널 개수를 J라 할 경우,
상기 (I) 프로세스에서,
상기 프로세서는, (i) 상기 제1 트랜스포징 레이어로 하여금 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵을 너비가 N, 높이가 1, 채널 개수가 M1xM2xJ인 상기 테스트용 통합 특징 맵으로 변환시키도록 하거나 (ii) 상기 풀링 레이어로 하여금 상기 테스트용 프로포잘 별 상기 테스트용 풀링된 특징 맵을 너비가 N, 높이가 1, 채널 개수가 M1xM2xJ인 상기 테스트용 통합 특징 맵으로 변환시키도록 하는 것을 특징으로 하는 테스트 장치.
제 22 항에 있어서,
상기 제1 1x1 컨벌루션 레이어 내의 필터의 개수를 K라 하고, 상기 제2 1x1 컨벌루션 레이어 내의 필터의 개수를 L이라 할 경우,
상기 (II) 프로세스에서,
상기 프로세서는, 상기 제1 1x1 컨벌루션 레이어로 하여금 너비가 N, 높이가 1이고, 채널 개수가 K인 Nx1xK의 볼륨을 가지는 상기 테스트용 제1 조정 특징 맵(Adjusted Feature Map)을 생성하도록 하며, 상기 제2 1x1 컨벌루션 레이어로 하여금 너비가 N, 높이가 1이고, 채널 개수가 L인 Nx1xL의 볼륨을 가지는 상기 테스트용 제2 조정 특징 맵을 생성하도록 하는 것을 특징으로 하는 테스트 장치.
제 25 항에 있어서,
상기 (III) 프로세스에서,
상기 프로세서는, (i) 상기 제2 트랜스포징 레이어로 하여금 상기 테스트용 제2 조정 특징 맵을, N개의 테스트용 프로포잘 각각에 대응하는 너비 1, 높이 1, 채널 개수가 L인 1x1xL의 볼륨을 가지는 상기 테스트용 프로포잘 별 상기 테스트용 픽셀별 특징 맵으로 변환하도록 하거나 (ii) 상기 분류 레이어로 하여금 상기 테스트용 제2 조정 특징 맵을, 상기 N개의 테스트용 프로포잘 각각에 대응하는 너비 1, 높이 1, 채널 개수가 L인 1x1xL의 볼륨을 가지는 상기 테스트용 프로포잘 별 상기 테스트용 픽셀별 특징 맵으로 변환하도록 하는 것을 특징으로 하는 테스트 장치.
제 22 항에 있어서,
상기 분류 레이어는 적어도 하나의 소프트맥스(Softmax) 알고리즘을 사용하는 것을 특징으로 하는 테스트 장치.
제 22 항에 있어서,
상기 검출 레이어는 적어도 하나의 NMS(Non-Maximum Suppression) 알고리즘을 사용하는 것을 특징으로 하는 테스트 장치.