KR20200143960A

KR20200143960A - 영상을 이용한 객체 인식 장치 및 그 방법

Info

Publication number: KR20200143960A
Application number: KR1020190071690A
Authority: KR
Inventors: 김영현; 김양신; 박민우; 김준모; 이시행; 이장현; 김도연; 정해창
Original assignee: 현대자동차주식회사; 한국과학기술원; 기아자동차주식회사
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2020-12-28
Also published as: US20200394476A1; DE102019131100A1; US11256965B2

Abstract

본 발명은 영상을 이용한 객체 인식 장치 및 그 방법에 관한 것으로, DCNN(Dilated Convolutional Neural Network)를 기반으로 단일 영상을 이용하여 깊이지도를 생성하고, 상기 생성된 깊이지도와 상기 단일 영상에 기초하여 객체를 인식함으로써, LiDAR 센서 없이도 객체를 인식할 수 있는 것은 물론 상기 단일 영상을 이용하여 객체를 인식하는 기술에 비해 객체 인식률을 높일 수 있는, 영상을 이용한 객체 인식 장치 및 그 방법을 제공하고자 한다.
이를 위하여, 본 발명은 영상을 이용한 객체 인식 장치에 있어서, DCNN(Dilated Convolutional Neural Network)를 기반으로 영상의 특징 맵(Feature Map)을 이용하여 깊이지도를 생성하는 깊이지도 생성부; 및 상기 깊이지도 생성부에 의해 생성된 깊이지도와 상기 영상을 이용하여 객체를 인식하는 객체 인식부를 포함한다.

Description

영상을 이용한 객체 인식 장치 및 그 방법{APPARATUS FOR RECOGNIZING OBJECT USING IMAGE AND METHOD THEREOF}

본 발명은 심층 학습을 기반으로 단일 영상(single image)에서 추정한 깊이지도(depth map)를 이용하여 객체를 인식하는 기술에 관한 것이다.

일반적으로, 심층 학습(Deep Learning or Deep Neural Network)은 기계 학습(Machine Learning)의 한 종류로서, 입력과 출력 사이에 여러 층의 인공 신경망(ANN, Artificial Neural Network)이 구성되어 있으며, 이러한 인공 신경망은 구조와 해결할 문제 및 목적 등에 따라 콘볼루션 신경망(CNN, Convolution Neural Network) 또는 순환 신경망(RNN, Recurrent Neural Network) 등을 포함할 수 있다.

심층 학습은 분류(classification), 회기(regression), 위치 인식(localization), 검출(detection), 분할(segmentation) 등 다양한 문제를 해결하기 위해 사용된다. 특히, 자율주행시스템에서는 동적, 정적 장애물의 위치와 종류를 판별할 수 있는 의미론적 분할(Semantic Segmentation)과 객체 검출(Object Detection)이 중요하게 사용된다.

의미론적 분할은 이미지 내에서 객체를 찾기 위해 픽셀 단위의 분류 예측을 수행하여 의미가 같은 픽셀 단위로 분할하는 것을 의미하며, 이를 통해 이미지 내에 어떤 객체가 있는지 확인할 수 있을 뿐만 아니라 동일한 의미(동일 객체)를 갖는 픽셀의 위치까지 정확하게 파악할 수 있다.

객체 검출은 이미지 내 객체의 종류를 분류 및 예측하고, 경계 상자(Bounding Box)를 회귀 예측하여 객체의 위치정보를 찾는 것을 의미하며, 이를 통해 단순 분류와는 다르게 이미지에 있는 객체의 종류가 무엇인지 뿐만 아니라 그 객체의 위치정보까지 파악할 수 있다.

LiDAR(Light Detection And Ranging) 센서는 환경인지 센서의 한 종류로서, 회전하면서 전방위에 레이저를 쏘아 반사되어 돌아오는 시간에 기초하여 반사체의 위치좌표 등을 포인트 클라우드라는 데이터 형식으로 측정하는 센서이다.

이러한 LiDAR 센서를 이용하여 획득한 고해상도의 반사 지도에 기초하여 객체를 인식하는 종래의 기술은, 차량에 고가의 LiDAR 센서를 추가로 구비해야 하는 문제점이 있다.

스테레오 카메라를 이용하여 획득한 두 영상의 시차정보(disparity information)를 기반으로 깊이지도를 생성하고, 이렇게 생성된 깊이지도를 이용하여 객체를 인식하는 다른 종래의 기술은, 스테레오 카메라 설치 시 스테레오 카메라의 내부 파라미터와 외부 파라미터에 기초한 정교한 캘리브레이션(calibration) 작업이 필요하고, 아울러 스테레오 카메라로부터 입력되는 높은 해상도를 가진 영상의 시차정보를 계산해 내기 위해 많은 연산량을 필요로 하는 문제점이 있다.

상기와 같은 종래 기술의 문제점을 해결하기 위하여, 본 발명은 DCNN(Dilated Convolutional Neural Network)를 기반으로 단일 영상을 이용하여 깊이지도를 생성하고, 상기 생성된 깊이지도와 상기 단일 영상에 기초하여 객체를 인식함으로써, LiDAR 센서 없이도 객체를 인식할 수 있는 것은 물론 상기 단일 영상을 이용하여 객체를 인식하는 기술에 비해 객체 인식률을 높일 수 있는, 영상을 이용한 객체 인식 장치 및 그 방법을 제공하는데 그 목적이 있다.

본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

상기 목적을 달성하기 위한 본 발명의 장치는, 영상을 이용한 객체 인식 장치에 있어서, DCNN(Dilated Convolutional Neural Network)를 기반으로 영상의 특징 맵(Feature Map)을 이용하여 깊이지도를 생성하는 깊이지도 생성부; 및 상기 깊이지도 생성부에 의해 생성된 깊이지도와 상기 영상을 이용하여 객체를 인식하는 객체 인식부를 포함한다.

이러한 본 발명의 장치는 RGB 영상의 특징 맵을 상기 깊이지도 생성부로 입력하고, RGB 영상을 상기 객체 인식부로 입력하는 입력부를 더 포함할 수 있다.

여기서, 상기 입력부는 상기 RGB 영상을 이용하여 16채널의 특징 맵을 생성하는 제1 컨볼루션 모듈; 상기 RGB 영상의 Gray 영상을 이용하여 16채널의 특징 맵을 생성하는 제2 컨볼루션 모듈; 및 상기 제1 컨볼루션 모듈에 의해 생성된 16채널의 특징 맵과 상기 제2 컨볼루션 모듈에 의해 생성된 16채널의 특징 맵을 결합(Concatenation)하여 32채널의 특징 맵을 생성하는 결합 모듈을 포함할 수 있다. 이때, 상기 제1 컨볼루션 모듈과 상기 제2 컨볼루션 모듈은, 각각 3×3 필터를 이용할 수 있다.

또한, 상기 입력부는 상기 RGB 영상을 이용하여 16채널의 특징 맵을 생성하는 제1 컨볼루션 모듈; 상기 RGB 영상의 Gray 영상을 이용하여 8채널의 특징 맵을 생성하는 제2 컨볼루션 모듈; 라이다 영상을 이용하여 8채널의 특징 맵을 생성하는 제3 컨볼루션 모듈; 및 상기 제1 컨볼루션 모듈에 의해 생성된 16채널의 특징 맵과 상기 제2 컨볼루션 모듈에 의해 생성된 8채널의 특징 맵과 상기 제3 컨볼루션 모듈에 의해 생성된 8채널의 특징 맵을 결합(Concatenation)하여 32채널의 특징 맵을 생성하는 결합 모듈을 포함할 수도 있다. 이때, 상기 제1 컨볼루션 모듈과 상기 제2 컨볼루션 모듈 및 상기 제3 컨볼루션 모듈은, 각각 3×3 필터를 이용할 수 있다.

또한, 상기 깊이지도 생성부는 상기 특징 맵의 해상도를 점차 감소시켰다가 다시 복귀시키는 방식으로 깊이지도를 생성할 수 있다.

또한, 상기 깊이지도 생성부는 상기 특징 맵의 해상도에 상응하는 팽창률(Dilation rate)을 적용할 수 있다.

또한, 상기 깊이지도 생성부는 상기 특징 맵의 해상도를 절반씩 감소시킬 수 있다.

또한, 상기 깊이지도 생성부는 상기 특징 맵의 해상도를 점차 감소시켰다가 다시 복귀시키는 과정에서, 동일 채널의 특징 맵을 각각 결합하는 복수의 결합모듈(Concatenation Module)을 포함할 수 있다.

상기 목적을 달성하기 위한 본 발명의 방법은, 영상을 이용한 객체 인식 방법에 있어서, 깊이지도 생성부가 DCNN(Dilated Convolutional Neural Network)를 기반으로 영상의 특징 맵(Feature Map)을 이용하여 깊이지도를 생성하는 단계; 및 객체 인식부가 상기 생성된 깊이지도와 상기 영상을 이용하여 객체를 인식하는 단계를 포함한다.

이러한 본 발명의 방법은 입력부가 RGB 영상의 특징 맵을 상기 깊이지도 생성부로 입력하고, RGB 영상을 상기 객체 인식부로 입력하는 단계를 더 포함할 수 있다.

또한, 상기 입력하는 단계는, 제1 컨볼루션 모듈이 상기 RGB 영상을 이용하여 16채널의 특징 맵을 생성하는 단계; 제2 컨볼루션 모듈이 상기 RGB 영상의 Gray 영상을 이용하여 16채널의 특징 맵을 생성하는 단계; 및 결합 모듈이 상기 제1 컨볼루션 모듈에 의해 생성된 16채널의 특징 맵과 상기 제2 컨볼루션 모듈에 의해 생성된 16채널의 특징 맵을 결합(Concatenation)하여 32채널의 특징 맵을 생성하는 단계를 포함할 수 있다. 이때, 상기 제1 컨볼루션 모듈과 상기 제2 컨볼루션 모듈은, 각각 3×3 필터를 이용할 수 있다.

또한, 상기 입력하는 단계는, 제1 컨볼루션 모듈이 상기 RGB 영상을 이용하여 16채널의 특징 맵을 생성하는 단계; 제2 컨볼루션 모듈이 상기 RGB 영상의 Gray 영상을 이용하여 8채널의 특징 맵을 생성하는 단계; 제3 컨볼루션 모듈이 라이다 영상을 이용하여 8채널의 특징 맵을 생성하는 단계; 및 결합 모듈이 상기 제1 컨볼루션 모듈에 의해 생성된 16채널의 특징 맵과 상기 제2 컨볼루션 모듈에 의해 생성된 8채널의 특징 맵과 상기 제3 컨볼루션 모듈에 의해 생성된 8채널의 특징 맵을 결합(Concatenation)하여 32채널의 특징 맵을 생성하는 단계를 포함할 수 있다. 이때, 상기 제1 컨볼루션 모듈과 상기 제2 컨볼루션 모듈 및 상기 제3 컨볼루션 모듈은, 각각 3×3 필터를 이용할 수 있다.

또한, 상기 깊이지도를 생성하는 단계는, 상기 특징 맵의 해상도를 점차 감소시켰다가 다시 복귀시키는 방식으로 깊이지도를 생성할 수 있다.

또한, 상기 깊이지도를 생성하는 단계는, 상기 특징 맵의 해상도에 상응하는 팽창률(Dilation rate)을 적용할 수 있다.

또한, 상기 깊이지도를 생성하는 단계는, 상기 특징 맵의 해상도를 절반씩 감소시킬 수 있다.

또한, 상기 깊이지도를 생성하는 단계는, 상기 특징 맵의 해상도를 점차 감소시켰다가 다시 복귀시키는 과정에서, 동일 채널의 특징 맵을 각각 결합할 수 있다.

본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치 및 그 방법은, DCNN(Dilated Convolutional Neural Network)를 기반으로 단일 영상을 이용하여 깊이지도를 생성하고, 상기 생성된 깊이지도와 상기 단일 영상에 기초하여 객체를 인식함으로써, LiDAR 센서 없이도 객체를 인식할 수 있는 것은 물론 상기 단일 영상을 이용하여 객체를 인식하는 기술에 비해 객체 인식률을 높일 수 있다.

도 1 은 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치의 구성도,
도 2 는 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치의 입력부에 의해 입력되는 RGB 영상에 대한 일예시도,
도 3 은 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치가 생성한 깊이지도에 대한 일예시도,
도 4 는 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치의 객체 인식결과에 대한 일예시도,
도 5 는 종래의 객체 인식 장치의 객체 인식결과에 대한 일예시도,
도 6 은 기준 인식결과에 대한 일예시도,
도 7 은 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치의 상세 구성도,
도 8 은 본 발명의 다른 실시예에 따른 영상을 이용한 객체 인식 장치의 상세 구성도,
도 9 는 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치의 팽창 컨볼루션 모듈(212, 352)의 상세 구성도,
도 10 은 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치의 팽창 컨볼루션 모듈(222, 332)의 상세 구성도,
도 11 은 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 방법에 대한 흐름도,
도 12 는 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 방법을 실행하기 위한 컴퓨팅 시스템을 보여주는 블록도이다.

이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.

본 발명의 실시예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 발명의 일 실시예에서 단일 영상은 스테레오 카메라를 통해 획득한 스테레오 영상(우 영상, 좌 영상)이 아닌 일반 카메라를 통해 획득한 영상으로서, 깊이정보를 포함하고 있지 않은 영상을 의미한다.

도 1 은 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치의 구성도이다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치(100)는, 입력부(10), 깊이지도 생성부(21)와 객체 인식부(22)를 구비한 제어부(20), 및 출력부(30)를 포함할 수 있다. 이때, 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치(100)를 실시하는 방식에 따라 각 구성요소는 서로 결합되어 하나로 구현될 수도 있고, 일부의 구성요소가 생략될 수도 있다.

상기 각 구성요소들에 대해 살펴보면, 먼저 입력부(10)는 카메라 영상의 특징 맵(feature map)을 깊이지도 생성부(21)로 입력하고, 카메라 영상(RGB 영상)을 객체 인식부(22)로 입력한다. 일례로, 카메라 영상은 도 2에 도시된 바와 같다.

깊이지도 생성부(21)는 DCNN(Dilated Convolutional Neural Network)를 기반으로 카메라 영상의 특징 맵을 이용하여 깊이지도를 생성한다.

깊이지도 생성부(21)는 특징 맵의 해상도를 점차 감소시켰다가 다시 복귀시키는 방식으로 깊이지도를 생성할 수 있다. 일례로, 깊이지도는 도 3에 도시된 바와 같다.

객체 인식부(22)는 깊이지도 생성부(21)에 의해 생성된 깊이지도와 입력부(10)로부터 입력받은 RGB 영상을 이용하여 객체를 인식한다. 이때, 객체 인식부(22)가 객체를 인식하는 방식 자체는 어떠한 방식을 사용해도 무방하다. 일례로, 객체 인식부(22)의 인식결과는 도 4에 도시된 바와 같다.

참고로, 종래의 객체 인식부의 인식결과는 도 5에 도시된 바와 같다. 본 발명의 일 실시예에 따른 인식결과는 IOU(Intersection Over Union)가 86.06%이지만, 종래의 인식결과는 IOU가 85.3%에 불과하다. 이때, IOU는 객체 인식 성능을 평가하는 기준으로서, 본 발명의 일 실시예에 따른 인식결과는 도 6에 도시된 바와 같은 기준 인식결과(Semantic segmentation label)와의 픽셀 일치도가 86.06%인 반면, 종래의 인식결과는 85.3%에 불과하다.

출력부(30)는 객체 인식부(22)에 의해 인식된 결과를 출력한다.

제어부(20)는 상기 각 구성요소들이 제 기능을 정상적으로 수행할 수 있도록 전반적인 제어를 수행한다. 이러한 제어부(20)는 하드웨어의 형태로 구현되거나, 또는 소프트웨어의 형태로 구현될 수 있고, 물론 하드웨어 및 소프트웨어가 결합된 형태로도 구현될 수 있다. 바람직하게는, 제어부(20)는 마이크로프로세서로 구현될 수 있으나 이에 한정되는 것은 아니다.

이러한 제어부(20)는 일반적으로 널리 알려진 기술로서 저장부(메모리)를 더 구비할 수 있으며, 저장부는 DCNN를 기반으로 카메라 영상의 특징 맵을 이용하여 깊이지도를 생성하고, 상기 생성된 깊이지도와 입력부(10)로부터 입력받은 RGB 영상을 이용하여 객체를 인식하는 과정에서 요구되는 각종 로직과 알고리즘 및 프로그램을 저장할 수 있다.

저장부는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 마이크로 타입(micro type), 및 카드 타입(예컨대, SD 카드(Secure Digital Card) 또는 XD 카드(eXtream Digital Card)) 등의 메모리와, 램(RAM, Random Access Memory), SRAM(Static RAM), 롬(ROM, Read-Only Memory), PROM(Programmable ROM), EEPROM(Electrically Erasable PROM), 자기 메모리(MRAM, Magnetic RAM), 자기 디스크(magnetic disk), 및 광디스크(optical disk) 타입의 메모리 중 적어도 하나의 타입의 기록 매체(storage medium)를 포함할 수 있다.

도 7 은 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치의 상세 구성도이다.

도 7에 도시된 바와 같이, 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치(100)의 입력부(10)는 제1 컨볼루션 모듈(Convolution Module, 111), 제2 컨볼루션 모듈(Convolution Module, 121), 및 결합 모듈(Concatenation Module, 131)을 구비할 수 있다.

제1 컨볼루션 모듈(111)은 RGB 영상을 대상으로 3×3 필터를 이용하여 해상도는 그대로 유지하면서(strid = 1) 출력채널이 16인 특징 맵을 생성한다.

제2 컨볼루션 모듈(121)은 Gray 영상을 대상으로 3×3 필터를 이용하여 해상도는 그대로 유지하면서(strid = 1) 출력채널이 16인 특징 맵을 생성한다. 이때, Gray 영상은 상기 RGB 영상으로부터 생성된다.

결합 모듈(131)은 제1 컨볼루션 모듈(111)에 의해 생성된 16채널의 특징 맵과 제2 컨볼루션 모듈(121)에 의해 생성된 16채널의 특징 맵을 결합(Concatenation)하여 32채널의 특징 맵을 생성한다.

한편, 깊이지도 생성부(21)는 제1 처리모듈(210), 제2 처리모듈(220), 제3 처리모듈(230), 제4 처리모듈(240), 제5 처리모듈(250), 제6 컨볼루션 모듈(260), 제7 처리모듈(270), 제1 결합모듈(Concatenation Module, 280), 제8 처리모듈(290), 제2 결합모듈(300), 제9 처리모듈(310), 제3 결합모듈(320), 제10 처리모듈(330), 제4 결합모듈(340), 제11 처리모듈(350), 제5 결합모듈(360), 및 제12 컨볼루션 모듈(370)을 포함할 수 있다.

제1 처리모듈(210)은 결합 모듈(131)에 의해 생성된 32채널의 특징 맵을 대상으로 3×3 필터를 이용하여 해상도(일례로, 1216×352)는 그대로 유지하면서(strid = 1) 출력채널이 32인 특징 맵을 생성하는 제1 컨볼루션 모듈(211)과, 상기 제1 컨볼루션 모듈(211)에 의해 생성된 32채널의 특징 맵에 [32, 16, 8, 4, 2, 1]의 팽창률(Dilation rate)을 적용하여 32채널의 특징 맵을 생성하는 제1 팽창 컨볼루션 모듈(Dilated convolution, 212)을 구비할 수 있다.

제2 처리모듈(220)은 제1 팽창 컨볼루션 모듈(212)에 의해 생성된 32채널의 특징 맵을 대상으로 3×3 필터를 이용하여 해상도를 반(일례로, 608×176)으로 감소시키면서(strid = 1/2) 출력채널이 64인 특징 맵을 생성하는 제2 컨볼루션 모듈(221)과, 상기 제2 컨볼루션 모듈(221)에 의해 생성된 64채널의 특징 맵에 [16, 8, 4, 2, 1]의 팽창률(Dilation rate)을 적용하여 64채널의 특징 맵을 생성하는 제2 팽창 컨볼루션 모듈(222)을 구비할 수 있다.

제3 처리모듈(230)은 제2 팽창 컨볼루션 모듈(222)에 의해 생성된 64채널의 특징 맵을 대상으로 3×3 필터를 이용하여 해상도를 반(일례로, 304×88)으로 감소시키면서(strid = 1/2) 출력채널이 128인 특징 맵을 생성하는 제3 컨볼루션 모듈(231)과, 상기 제3 컨볼루션 모듈(231)에 의해 생성된 128채널의 특징 맵에 [8, 4, 2, 1]의 팽창률(Dilation rate)을 적용하여 128채널의 특징 맵을 생성하는 제3 팽창 컨볼루션 모듈(232)을 구비할 수 있다.

제4 처리모듈(240)은 제3 팽창 컨볼루션 모듈(232)에 의해 생성된 128채널의 특징 맵을 대상으로 3×3 필터를 이용하여 해상도를 반(일례로, 152×44)으로 감소시키면서(strid = 1/2) 출력채널이 256인 특징 맵을 생성하는 제4 컨볼루션 모듈(241)과, 상기 제4 컨볼루션 모듈(241)에 의해 생성된 256채널의 특징 맵에 [4, 2, 1]의 팽창률(Dilation rate)을 적용하여 256채널의 특징 맵을 생성하는 제4 팽창 컨볼루션 모듈(242)을 구비할 수 있다.

제5 처리모듈(250)은 제4 팽창 컨볼루션 모듈(242)에 의해 생성된 256채널의 특징 맵을 대상으로 3×3 필터를 이용하여 해상도를 반(일례로, 76×22)으로 감소시키면서(strid = 1/2) 출력채널이 512인 특징 맵을 생성하는 제5 컨볼루션 모듈(251)과, 상기 제5 컨볼루션 모듈(251)에 의해 생성된 512채널의 특징 맵에 [2, 1]의 팽창률(Dilation rate)을 적용하여 512채널의 특징 맵을 생성하는 제5 팽창 컨볼루션 모듈(252)을 구비할 수 있다.

제6 컨볼루션 모듈(260)은 제3 팽창 컨볼루션 모듈(252)에 의해 생성된 512채널의 특징 맵을 대상으로 3×3 필터를 이용하여 해상도를 반(일례로, 38×11)으로 감소시키면서(strid = 1/2) 출력채널이 512인 특징 맵을 생성한다.

제7 처리모듈(270)은 제6 컨볼루션 모듈(260)에 의해 생성된 512채널의 특징 맵을 대상으로 3×3 필터를 이용하여 해상도를 2배(일례로, 76×22)로 증가시키면서(strid = 2) 출력채널이 512인 특징 맵을 생성하는 제1 전치 컨볼루션 모듈(271)과, 상기 제1 전치 컨볼루션 모듈(271)에 의해 생성된 512채널의 특징 맵에 [2, 1]의 팽창률(Dilation rate)을 적용하여 512채널의 특징 맵을 생성하는 제7 팽창 컨볼루션 모듈(272)을 구비할 수 있다.

제1 결합모듈(280)은 제7 팽창 컨볼루션 모듈(272)에 의해 생성된 512채널의 특징 맵과 제5 팽창 컨볼루션 모듈(252)에 의해 생성된 512채널의 특징 맵을 결합한다.

제8 처리모듈(290)은 제1 결합모듈(280)에 의해 결합된 512채널의 특징 맵을 대상으로 3×3 필터를 이용하여 해상도를 2배(일례로, 152×44)로 증가시키면서(strid = 2) 출력채널이 256인 특징 맵을 생성하는 제2 전치 컨볼루션 모듈(291)과, 상기 제2 전치 컨볼루션 모듈(291)에 의해 생성된 256채널의 특징 맵에 [4, 2, 1]의 팽창률(Dilation rate)을 적용하여 256채널의 특징 맵을 생성하는 제8 팽창 컨볼루션 모듈(292)을 구비할 수 있다.

제2 결합모듈(300)은 제8 팽창 컨볼루션 모듈(292)에 의해 생성된 256채널의 특징 맵과 제4 팽창 컨볼루션 모듈(242)에 의해 생성된 256채널의 특징 맵을 결합한다.

제9 처리모듈(310)은 제2 결합모듈(300)에 의해 결합된 256채널의 특징 맵을 대상으로 3×3 필터를 이용하여 해상도를 2배(일례로, 304×88)로 증가시키면서(strid = 2) 출력채널이 128인 특징 맵을 생성하는 제3 전치 컨볼루션 모듈(311)과, 상기 제3 전치 컨볼루션 모듈(311)에 의해 생성된 128채널의 특징 맵에 [8, 4, 2, 1]의 팽창률(Dilation rate)을 적용하여 128채널의 특징 맵을 생성하는 제9 팽창 컨볼루션 모듈(312)을 구비할 수 있다.

제3 결합모듈(320)은 제9 팽창 컨볼루션 모듈(312)에 의해 생성된 128채널의 특징 맵과 제3 팽창 컨볼루션 모듈(232)에 의해 생성된 128채널의 특징 맵을 결합한다.

제10 처리모듈(330)은 제3 결합모듈(320)에 의해 결합된 128채널의 특징 맵을 대상으로 3×3 필터를 이용하여 해상도를 2배(일례로, 608×176)로 증가시키면서(strid = 2) 출력채널이 64인 특징 맵을 생성하는 제4 전치 컨볼루션 모듈(331)과, 상기 제4 전치 컨볼루션 모듈(331)에 의해 생성된 64채널의 특징 맵에 [16, 8, 4, 2, 1]의 팽창률(Dilation rate)을 적용하여 64채널의 특징 맵을 생성하는 제10 팽창 컨볼루션 모듈(332)을 구비할 수 있다.

제4 결합모듈(340)은 제10 팽창 컨볼루션 모듈(332)에 의해 생성된 64채널의 특징 맵과 제2 팽창 컨볼루션 모듈(222)에 의해 생성된 64채널의 특징 맵을 결합한다.

제11 처리모듈(350)은 제4 결합모듈(340)에 의해 결합된 64채널의 특징 맵을 대상으로 3×3 필터를 이용하여 해상도를 2배(일례로, 1216×352)로 증가시키면서(strid = 2) 출력채널이 32인 특징 맵을 생성하는 제5 전치 컨볼루션 모듈(351)과, 상기 제5 전치 컨볼루션 모듈(351)에 의해 생성된 32채널의 특징 맵에 [32, 16, 8, 4, 2, 1]의 팽창률(Dilation rate)을 적용하여 32채널의 특징 맵을 생성하는 제11 팽창 컨볼루션 모듈(352)을 구비할 수 있다.

제5 결합모듈(360)은 제11 팽창 컨볼루션 모듈(352)에 의해 생성된 32채널의 특징 맵과 제1 팽창 컨볼루션 모듈(212)에 의해 생성된 32채널의 특징 맵을 결합한다.

제12 컨볼루션 모듈(370)은 제5 결합모듈(360)에 의해 결합된 32채널의 특징 맵을 대상으로 1×1 필터를 이용하여 해상도를 유지하면서(strid = 1) 출력채널이 1인 깊이지도를 생성한다.

도 8 은 본 발명의 다른 실시예에 따른 영상을 이용한 객체 인식 장치의 상세 구성도이다.

도 8에 도시된 바와 같이, 본 발명의 다른 실시예에 따른 영상을 이용한 객체 인식 장치(100)의 입력부(10)는, 제1 컨볼루션 모듈(Convolution Module, 111), 제2 컨볼루션 모듈(Convolution Module, 121), 제2 컨볼루션 모듈(Convolution Module, 141), 및 결합 모듈(Concatenation Module, 131)을 구비할 수 있다.

제2 컨볼루션 모듈(121)은 Gray 영상을 대상으로 3×3 필터를 이용하여 해상도는 그대로 유지하면서(strid = 1) 출력채널이 8인 특징 맵을 생성한다. 이때, Gray 영상은 상기 RGB 영상으로부터 생성된다.

제3 컨볼루션 모듈(141)은 라이다 영상을 대상으로 3×3 필터를 이용하여 해상도는 그대로 유지하면서(strid = 1) 출력채널이 8인 특징 맵을 생성한다.

결합 모듈(131)은 제1 컨볼루션 모듈(111)에 의해 생성된 16채널의 특징 맵과 제2 컨볼루션 모듈(121)에 의해 생성된 8채널의 특징 맵 및 제3 컨볼루션 모듈(141)에 의해 생성된 8채널의 특징 맵을 결합(Concatenation)하여 32채널의 특징 맵을 생성한다.

깊이지도 생성부(21)의 상세 구성은 도 7에 도시된 바와 동일한 바 추가 설명은 생략한다.

본 발명의 다른 실시예는 카메라 영상 뿐만 아니라 라이다 영상을 획득한 경우에 적용될 수 있는 방식이다.

도 9 는 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치의 팽창 컨볼루션 모듈(212, 352)의 상세 구성도이다.

도 9에 도시된 바와 같이, 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치의 팽창 컨볼루션 모듈(212, 352)은, 32채널의 특징 맵에 [1]의 팽창률(Dilation rate)을 적용하여 16채널의 특징 맵을 생성하는 제1 모듈(901), 32채널의 특징 맵에 [2]의 팽창률(Dilation rate)을 적용하여 16채널의 특징 맵을 생성하는 제2 모듈(902), 32채널의 특징 맵에 [4]의 팽창률(Dilation rate)을 적용하여 16채널의 특징 맵을 생성하는 제3 모듈(903), 32채널의 특징 맵에 [8]의 팽창률(Dilation rate)을 적용하여 16채널의 특징 맵을 생성하는 제4 모듈(904), 32채널의 특징 맵에 [16]의 팽창률(Dilation rate)을 적용하여 16채널의 특징 맵을 생성하는 제5 모듈(905), 32채널의 특징 맵에 [32]의 팽창률(Dilation rate)을 적용하여 16채널의 특징 맵을 생성하는 제6 모듈(906)을 포함할 수 있다.

또한, 팽창 컨볼루션 모듈(212, 352)은 16채널의 특징 맵에 [1]의 팽창률(Dilation rate)을 적용하여 16채널의 특징 맵을 생성하는 제7 모듈(911), 16채널의 특징 맵에 [2]의 팽창률(Dilation rate)을 적용하여 16채널의 특징 맵을 생성하는 제8 모듈(912), 16채널의 특징 맵에 [4]의 팽창률(Dilation rate)을 적용하여 16채널의 특징 맵을 생성하는 제9 모듈(913), 16채널의 특징 맵에 [8]의 팽창률(Dilation rate)을 적용하여 16채널의 특징 맵을 생성하는 제10 모듈(914), 16채널의 특징 맵에 [16]의 팽창률(Dilation rate)을 적용하여 16채널의 특징 맵을 생성하는 제11 모듈(915), 16채널의 특징 맵에 [32]의 팽창률(Dilation rate)을 적용하여 16채널의 특징 맵을 생성하는 제12 모듈(916)을 포함할 수 있다.

또한, 컨볼루션 모듈(212, 352)은 결합모듈(920)를 포함할 수 있다. 결합모듈(920)은 제7 모듈(911)에 의해 생성된 16채널의 특징 맵과 제8 모듈(912)에 의해 생성된 16채널의 특징 맵과 제9 모듈(913)에 의해 생성된 16채널의 특징 맵과 제10 모듈(914)에 의해 생성된 16채널의 특징 맵과 제11 모듈(915)에 의해 생성된 16채널의 특징 맵과 제12 모듈(916)에 의해 생성된 16채널의 특징 맵을 결합하고, 상기 결합된 96채널의 특징 맵을 대상으로 1×1 필터를 이용하여 32채널의 특징 맵을 생성한다.

또한, 컨볼루션 모듈(212, 352)은 결합모듈(920)에 의해 생성된 32채널의 특징 맵과 초기 입력된 32채널의 특징 맵을 합(sum)하는 합산기(930)를 구비할 수 있다.

도 10 은 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치의 팽창 컨볼루션 모듈(222, 332)의 상세 구성도이다.

도 10에 도시된 바와 같이, 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치의 팽창 컨볼루션 모듈(222, 332)은, 64채널의 특징 맵에 [1]의 팽창률(Dilation rate)을 적용하여 32채널의 특징 맵을 생성하는 제1 모듈(941), 64채널의 특징 맵에 [2]의 팽창률(Dilation rate)을 적용하여 32채널의 특징 맵을 생성하는 제2 모듈(942), 64채널의 특징 맵에 [4]의 팽창률(Dilation rate)을 적용하여 32채널의 특징 맵을 생성하는 제3 모듈(943), 64채널의 특징 맵에 [8]의 팽창률(Dilation rate)을 적용하여 32채널의 특징 맵을 생성하는 제4 모듈(944), 64채널의 특징 맵에 [16]의 팽창률(Dilation rate)을 적용하여 32채널의 특징 맵을 생성하는 제5 모듈(945)을 포함할 수 있다.

또한, 팽창 컨볼루션 모듈(222, 332)은 32채널의 특징 맵에 [1]의 팽창률(Dilation rate)을 적용하여 32채널의 특징 맵을 생성하는 제6 모듈(951), 32채널의 특징 맵에 [2]의 팽창률(Dilation rate)을 적용하여 32채널의 특징 맵을 생성하는 제7 모듈(952), 32채널의 특징 맵에 [4]의 팽창률(Dilation rate)을 적용하여 32채널의 특징 맵을 생성하는 제8 모듈(953), 32채널의 특징 맵에 [8]의 팽창률(Dilation rate)을 적용하여 32채널의 특징 맵을 생성하는 제9 모듈(954), 32채널의 특징 맵에 [16]의 팽창률(Dilation rate)을 적용하여 32채널의 특징 맵을 생성하는 제10 모듈(955)을 포함할 수 있다.

또한, 컨볼루션 모듈(222, 332)은 결합모듈(960)를 포함할 수 있다. 결합모듈(960)은 제6 모듈(951)에 의해 생성된 32채널의 특징 맵과 제7 모듈(952)에 의해 생성된 32채널의 특징 맵과 제8 모듈(953)에 의해 생성된 32채널의 특징 맵과 제9 모듈(954)에 의해 생성된 32채널의 특징 맵과 제10 모듈(955)에 의해 생성된 32채널의 특징 맵을 결합하고, 상기 결합된 160채널의 특징 맵을 대상으로 1×1 필터를 이용하여 64채널의 특징 맵을 생성한다.

또한, 컨볼루션 모듈(222, 332)은 결합모듈(960)에 의해 생성된 64채널의 특징 맵과 초기 입력된 64채널의 특징 맵을 합(sum)하는 합산기(970)를 구비할 수 있다.

이러한 방식으로 모든 컨볼루션 모듈을 구성할 수 있다.

도 11 은 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 방법에 대한 흐름도이다.

먼저, 깊이지도 생성부(21)가 DCNN(Dilated Convolutional Neural Network)를 기반으로 영상의 특징 맵(Feature Map)을 이용하여 깊이지도를 생성한다(1101).

이후, 객체 인식부(22)가 깊이지도 생성부(21)에 의해 생성된 깊이지도와 상기 영상을 이용하여 객체를 인식한다(1102).

도 12 는 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 방법을 실행하기 위한 컴퓨팅 시스템을 보여주는 블록도이다.

도 12를 참조하면, 상술한 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 방법은 컴퓨팅 시스템을 통해서도 구현될 수 있다. 컴퓨팅 시스템(1000)은 시스템 버스(1200)를 통해 연결되는 적어도 하나의 프로세서(1100), 메모리(1300), 사용자 인터페이스 입력 장치(1400), 사용자 인터페이스 출력 장치(1500), 스토리지(1600), 및 네트워크 인터페이스(1700)를 포함할 수 있다.

프로세서(1100)는 중앙 처리 장치(CPU) 또는 메모리(1300) 및/또는 스토리지(1600)에 저장된 명령어들에 대한 처리를 실행하는 반도체 장치일 수 있다. 메모리(1300) 및 스토리지(1600)는 다양한 종류의 휘발성 또는 불휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(1300)는 ROM(Read Only Memory) 및 RAM(Random Access Memory)을 포함할 수 있다.

따라서, 본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서(1100)에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, SSD(Solid State Drive), 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리(1300) 및/또는 스토리지(1600))에 상주할 수도 있다. 예시적인 저장 매체는 프로세서(1100)에 커플링되며, 그 프로세서(1100)는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서(1100)와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.

따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

10: 입력부
20: 제어부
21: 깊이지도 생성부
22: 객체 인식부
30: 출력부

Claims

DCNN(Dilated Convolutional Neural Network)를 기반으로 영상의 특징 맵(Feature Map)을 이용하여 깊이지도를 생성하는 깊이지도 생성부; 및
상기 깊이지도 생성부에 의해 생성된 깊이지도와 상기 영상을 이용하여 객체를 인식하는 객체 인식부
를 포함하는 영상을 이용한 객체 인식 장치.
제 1 항에 있어서,
RGB 영상의 특징 맵을 상기 깊이지도 생성부로 입력하고, RGB 영상을 상기 객체 인식부로 입력하는 입력부
를 더 포함하는 영상을 이용한 객체 인식 장치.
제 2 항에 있어서,
상기 입력부는,
상기 RGB 영상을 이용하여 16채널의 특징 맵을 생성하는 제1 컨볼루션 모듈;
상기 RGB 영상의 Gray 영상을 이용하여 16채널의 특징 맵을 생성하는 제2 컨볼루션 모듈; 및
상기 제1 컨볼루션 모듈에 의해 생성된 16채널의 특징 맵과 상기 제2 컨볼루션 모듈에 의해 생성된 16채널의 특징 맵을 결합(Concatenation)하여 32채널의 특징 맵을 생성하는 결합 모듈
을 포함하는 영상을 이용한 객체 인식 장치.
제 3 항에 있어서,
상기 제1 컨볼루션 모듈과 상기 제2 컨볼루션 모듈은,
각각 3×3 필터를 이용하는 것을 특징으로 하는 영상을 이용한 객체 인식 장치.
제 2 항에 있어서,
상기 입력부는,
상기 RGB 영상을 이용하여 16채널의 특징 맵을 생성하는 제1 컨볼루션 모듈;
상기 RGB 영상의 Gray 영상을 이용하여 8채널의 특징 맵을 생성하는 제2 컨볼루션 모듈;
라이다 영상을 이용하여 8채널의 특징 맵을 생성하는 제3 컨볼루션 모듈; 및
상기 제1 컨볼루션 모듈에 의해 생성된 16채널의 특징 맵과 상기 제2 컨볼루션 모듈에 의해 생성된 8채널의 특징 맵과 상기 제3 컨볼루션 모듈에 의해 생성된 8채널의 특징 맵을 결합(Concatenation)하여 32채널의 특징 맵을 생성하는 결합 모듈
을 포함하는 영상을 이용한 객체 인식 장치.
제 5 항에 있어서,
상기 제1 컨볼루션 모듈과 상기 제2 컨볼루션 모듈 및 상기 제3 컨볼루션 모듈은,
각각 3×3 필터를 이용하는 것을 특징으로 하는 영상을 이용한 객체 인식 장치.
제 1 항에 있어서,
상기 깊이지도 생성부는,
상기 특징 맵의 해상도를 점차 감소시켰다가 다시 복귀시키는 방식으로 깊이지도를 생성하는 것을 특징으로 하는 영상을 이용한 객체 인식 장치.
제 7 항에 있어서,
상기 깊이지도 생성부는,
상기 특징 맵의 해상도에 상응하는 팽창률(Dilation rate)을 적용하는 것을 특징으로 하는 영상을 이용한 객체 인식 장치.
제 7 항에 있어서,
상기 깊이지도 생성부는,
상기 특징 맵의 해상도를 절반씩 감소시키는 것을 특징으로 하는 영상을 이용한 객체 인식 장치.
제 7 항에 있어서,
상기 깊이지도 생성부는,
상기 특징 맵의 해상도를 점차 감소시켰다가 다시 복귀시키는 과정에서, 동일 채널의 특징 맵을 각각 결합하는 복수의 결합모듈(Concatenation Module)
을 포함하는 영상을 이용한 객체 인식 장치.
깊이지도 생성부가 DCNN(Dilated Convolutional Neural Network)를 기반으로 영상의 특징 맵(Feature Map)을 이용하여 깊이지도를 생성하는 단계; 및
객체 인식부가 상기 생성된 깊이지도와 상기 영상을 이용하여 객체를 인식하는 단계
를 포함하는 영상을 이용한 객체 인식 방법.
제 11 항에 있어서,
입력부가 RGB 영상의 특징 맵을 상기 깊이지도 생성부로 입력하고, RGB 영상을 상기 객체 인식부로 입력하는 단계
를 더 포함하는 영상을 이용한 객체 인식 방법.
제 12 항에 있어서,
상기 입력하는 단계는,
제1 컨볼루션 모듈이 상기 RGB 영상을 이용하여 16채널의 특징 맵을 생성하는 단계;
제2 컨볼루션 모듈이 상기 RGB 영상의 Gray 영상을 이용하여 16채널의 특징 맵을 생성하는 단계; 및
결합 모듈이 상기 제1 컨볼루션 모듈에 의해 생성된 16채널의 특징 맵과 상기 제2 컨볼루션 모듈에 의해 생성된 16채널의 특징 맵을 결합(Concatenation)하여 32채널의 특징 맵을 생성하는 단계
를 포함하는 영상을 이용한 객체 인식 방법.
제 13 항에 있어서,
상기 제1 컨볼루션 모듈과 상기 제2 컨볼루션 모듈은,
각각 3×3 필터를 이용하는 것을 특징으로 하는 영상을 이용한 객체 인식 방법.
제 12 항에 있어서,
상기 입력하는 단계는,
제1 컨볼루션 모듈이 상기 RGB 영상을 이용하여 16채널의 특징 맵을 생성하는 단계;
제2 컨볼루션 모듈이 상기 RGB 영상의 Gray 영상을 이용하여 8채널의 특징 맵을 생성하는 단계;
제3 컨볼루션 모듈이 라이다 영상을 이용하여 8채널의 특징 맵을 생성하는 단계; 및
결합 모듈이 상기 제1 컨볼루션 모듈에 의해 생성된 16채널의 특징 맵과 상기 제2 컨볼루션 모듈에 의해 생성된 8채널의 특징 맵과 상기 제3 컨볼루션 모듈에 의해 생성된 8채널의 특징 맵을 결합(Concatenation)하여 32채널의 특징 맵을 생성하는 단계
를 포함하는 영상을 이용한 객체 인식 방법.
제 15 항에 있어서,
상기 제1 컨볼루션 모듈과 상기 제2 컨볼루션 모듈 및 상기 제3 컨볼루션 모듈은,
각각 3×3 필터를 이용하는 것을 특징으로 하는 영상을 이용한 객체 인식 방법.
제 11 항에 있어서,
상기 깊이지도를 생성하는 단계는,
상기 특징 맵의 해상도를 점차 감소시켰다가 다시 복귀시키는 방식으로 깊이지도를 생성하는 것을 특징으로 하는 영상을 이용한 객체 인식 방법.
제 17 항에 있어서,
상기 깊이지도를 생성하는 단계는,
상기 특징 맵의 해상도에 상응하는 팽창률(Dilation rate)을 적용하는 것을 특징으로 하는 영상을 이용한 객체 인식 방법.
제 17 항에 있어서,
상기 깊이지도를 생성하는 단계는,
상기 특징 맵의 해상도를 절반씩 감소시키는 것을 특징으로 하는 영상을 이용한 객체 인식 방법.
제 17 항에 있어서,
상기 깊이지도를 생성하는 단계는,
상기 특징 맵의 해상도를 점차 감소시켰다가 다시 복귀시키는 과정에서, 동일 채널의 특징 맵을 각각 결합하는 단계
를 포함하는 영상을 이용한 객체 인식 방법.