KR20200143960A - 영상을 이용한 객체 인식 장치 및 그 방법 - Google Patents

영상을 이용한 객체 인식 장치 및 그 방법 Download PDF

Info

Publication number
KR20200143960A
KR20200143960A KR1020190071690A KR20190071690A KR20200143960A KR 20200143960 A KR20200143960 A KR 20200143960A KR 1020190071690 A KR1020190071690 A KR 1020190071690A KR 20190071690 A KR20190071690 A KR 20190071690A KR 20200143960 A KR20200143960 A KR 20200143960A
Authority
KR
South Korea
Prior art keywords
feature map
image
convolution module
object recognition
module
Prior art date
Application number
KR1020190071690A
Other languages
English (en)
Inventor
김영현
김양신
박민우
김준모
이시행
이장현
김도연
정해창
Original Assignee
현대자동차주식회사
한국과학기술원
기아자동차주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대자동차주식회사, 한국과학기술원, 기아자동차주식회사 filed Critical 현대자동차주식회사
Priority to KR1020190071690A priority Critical patent/KR20200143960A/ko
Priority to US16/601,217 priority patent/US11256965B2/en
Priority to DE102019131100.4A priority patent/DE102019131100A1/de
Publication of KR20200143960A publication Critical patent/KR20200143960A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06K9/00744
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 발명은 영상을 이용한 객체 인식 장치 및 그 방법에 관한 것으로, DCNN(Dilated Convolutional Neural Network)를 기반으로 단일 영상을 이용하여 깊이지도를 생성하고, 상기 생성된 깊이지도와 상기 단일 영상에 기초하여 객체를 인식함으로써, LiDAR 센서 없이도 객체를 인식할 수 있는 것은 물론 상기 단일 영상을 이용하여 객체를 인식하는 기술에 비해 객체 인식률을 높일 수 있는, 영상을 이용한 객체 인식 장치 및 그 방법을 제공하고자 한다.
이를 위하여, 본 발명은 영상을 이용한 객체 인식 장치에 있어서, DCNN(Dilated Convolutional Neural Network)를 기반으로 영상의 특징 맵(Feature Map)을 이용하여 깊이지도를 생성하는 깊이지도 생성부; 및 상기 깊이지도 생성부에 의해 생성된 깊이지도와 상기 영상을 이용하여 객체를 인식하는 객체 인식부를 포함한다.

Description

영상을 이용한 객체 인식 장치 및 그 방법{APPARATUS FOR RECOGNIZING OBJECT USING IMAGE AND METHOD THEREOF}
본 발명은 심층 학습을 기반으로 단일 영상(single image)에서 추정한 깊이지도(depth map)를 이용하여 객체를 인식하는 기술에 관한 것이다.
일반적으로, 심층 학습(Deep Learning or Deep Neural Network)은 기계 학습(Machine Learning)의 한 종류로서, 입력과 출력 사이에 여러 층의 인공 신경망(ANN, Artificial Neural Network)이 구성되어 있으며, 이러한 인공 신경망은 구조와 해결할 문제 및 목적 등에 따라 콘볼루션 신경망(CNN, Convolution Neural Network) 또는 순환 신경망(RNN, Recurrent Neural Network) 등을 포함할 수 있다.
심층 학습은 분류(classification), 회기(regression), 위치 인식(localization), 검출(detection), 분할(segmentation) 등 다양한 문제를 해결하기 위해 사용된다. 특히, 자율주행시스템에서는 동적, 정적 장애물의 위치와 종류를 판별할 수 있는 의미론적 분할(Semantic Segmentation)과 객체 검출(Object Detection)이 중요하게 사용된다.
의미론적 분할은 이미지 내에서 객체를 찾기 위해 픽셀 단위의 분류 예측을 수행하여 의미가 같은 픽셀 단위로 분할하는 것을 의미하며, 이를 통해 이미지 내에 어떤 객체가 있는지 확인할 수 있을 뿐만 아니라 동일한 의미(동일 객체)를 갖는 픽셀의 위치까지 정확하게 파악할 수 있다.
객체 검출은 이미지 내 객체의 종류를 분류 및 예측하고, 경계 상자(Bounding Box)를 회귀 예측하여 객체의 위치정보를 찾는 것을 의미하며, 이를 통해 단순 분류와는 다르게 이미지에 있는 객체의 종류가 무엇인지 뿐만 아니라 그 객체의 위치정보까지 파악할 수 있다.
LiDAR(Light Detection And Ranging) 센서는 환경인지 센서의 한 종류로서, 회전하면서 전방위에 레이저를 쏘아 반사되어 돌아오는 시간에 기초하여 반사체의 위치좌표 등을 포인트 클라우드라는 데이터 형식으로 측정하는 센서이다.
이러한 LiDAR 센서를 이용하여 획득한 고해상도의 반사 지도에 기초하여 객체를 인식하는 종래의 기술은, 차량에 고가의 LiDAR 센서를 추가로 구비해야 하는 문제점이 있다.
스테레오 카메라를 이용하여 획득한 두 영상의 시차정보(disparity information)를 기반으로 깊이지도를 생성하고, 이렇게 생성된 깊이지도를 이용하여 객체를 인식하는 다른 종래의 기술은, 스테레오 카메라 설치 시 스테레오 카메라의 내부 파라미터와 외부 파라미터에 기초한 정교한 캘리브레이션(calibration) 작업이 필요하고, 아울러 스테레오 카메라로부터 입력되는 높은 해상도를 가진 영상의 시차정보를 계산해 내기 위해 많은 연산량을 필요로 하는 문제점이 있다.
상기와 같은 종래 기술의 문제점을 해결하기 위하여, 본 발명은 DCNN(Dilated Convolutional Neural Network)를 기반으로 단일 영상을 이용하여 깊이지도를 생성하고, 상기 생성된 깊이지도와 상기 단일 영상에 기초하여 객체를 인식함으로써, LiDAR 센서 없이도 객체를 인식할 수 있는 것은 물론 상기 단일 영상을 이용하여 객체를 인식하는 기술에 비해 객체 인식률을 높일 수 있는, 영상을 이용한 객체 인식 장치 및 그 방법을 제공하는데 그 목적이 있다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명의 장치는, 영상을 이용한 객체 인식 장치에 있어서, DCNN(Dilated Convolutional Neural Network)를 기반으로 영상의 특징 맵(Feature Map)을 이용하여 깊이지도를 생성하는 깊이지도 생성부; 및 상기 깊이지도 생성부에 의해 생성된 깊이지도와 상기 영상을 이용하여 객체를 인식하는 객체 인식부를 포함한다.
이러한 본 발명의 장치는 RGB 영상의 특징 맵을 상기 깊이지도 생성부로 입력하고, RGB 영상을 상기 객체 인식부로 입력하는 입력부를 더 포함할 수 있다.
여기서, 상기 입력부는 상기 RGB 영상을 이용하여 16채널의 특징 맵을 생성하는 제1 컨볼루션 모듈; 상기 RGB 영상의 Gray 영상을 이용하여 16채널의 특징 맵을 생성하는 제2 컨볼루션 모듈; 및 상기 제1 컨볼루션 모듈에 의해 생성된 16채널의 특징 맵과 상기 제2 컨볼루션 모듈에 의해 생성된 16채널의 특징 맵을 결합(Concatenation)하여 32채널의 특징 맵을 생성하는 결합 모듈을 포함할 수 있다. 이때, 상기 제1 컨볼루션 모듈과 상기 제2 컨볼루션 모듈은, 각각 3×3 필터를 이용할 수 있다.
또한, 상기 입력부는 상기 RGB 영상을 이용하여 16채널의 특징 맵을 생성하는 제1 컨볼루션 모듈; 상기 RGB 영상의 Gray 영상을 이용하여 8채널의 특징 맵을 생성하는 제2 컨볼루션 모듈; 라이다 영상을 이용하여 8채널의 특징 맵을 생성하는 제3 컨볼루션 모듈; 및 상기 제1 컨볼루션 모듈에 의해 생성된 16채널의 특징 맵과 상기 제2 컨볼루션 모듈에 의해 생성된 8채널의 특징 맵과 상기 제3 컨볼루션 모듈에 의해 생성된 8채널의 특징 맵을 결합(Concatenation)하여 32채널의 특징 맵을 생성하는 결합 모듈을 포함할 수도 있다. 이때, 상기 제1 컨볼루션 모듈과 상기 제2 컨볼루션 모듈 및 상기 제3 컨볼루션 모듈은, 각각 3×3 필터를 이용할 수 있다.
또한, 상기 깊이지도 생성부는 상기 특징 맵의 해상도를 점차 감소시켰다가 다시 복귀시키는 방식으로 깊이지도를 생성할 수 있다.
또한, 상기 깊이지도 생성부는 상기 특징 맵의 해상도에 상응하는 팽창률(Dilation rate)을 적용할 수 있다.
또한, 상기 깊이지도 생성부는 상기 특징 맵의 해상도를 절반씩 감소시킬 수 있다.
또한, 상기 깊이지도 생성부는 상기 특징 맵의 해상도를 점차 감소시켰다가 다시 복귀시키는 과정에서, 동일 채널의 특징 맵을 각각 결합하는 복수의 결합모듈(Concatenation Module)을 포함할 수 있다.
상기 목적을 달성하기 위한 본 발명의 방법은, 영상을 이용한 객체 인식 방법에 있어서, 깊이지도 생성부가 DCNN(Dilated Convolutional Neural Network)를 기반으로 영상의 특징 맵(Feature Map)을 이용하여 깊이지도를 생성하는 단계; 및 객체 인식부가 상기 생성된 깊이지도와 상기 영상을 이용하여 객체를 인식하는 단계를 포함한다.
이러한 본 발명의 방법은 입력부가 RGB 영상의 특징 맵을 상기 깊이지도 생성부로 입력하고, RGB 영상을 상기 객체 인식부로 입력하는 단계를 더 포함할 수 있다.
또한, 상기 입력하는 단계는, 제1 컨볼루션 모듈이 상기 RGB 영상을 이용하여 16채널의 특징 맵을 생성하는 단계; 제2 컨볼루션 모듈이 상기 RGB 영상의 Gray 영상을 이용하여 16채널의 특징 맵을 생성하는 단계; 및 결합 모듈이 상기 제1 컨볼루션 모듈에 의해 생성된 16채널의 특징 맵과 상기 제2 컨볼루션 모듈에 의해 생성된 16채널의 특징 맵을 결합(Concatenation)하여 32채널의 특징 맵을 생성하는 단계를 포함할 수 있다. 이때, 상기 제1 컨볼루션 모듈과 상기 제2 컨볼루션 모듈은, 각각 3×3 필터를 이용할 수 있다.
또한, 상기 입력하는 단계는, 제1 컨볼루션 모듈이 상기 RGB 영상을 이용하여 16채널의 특징 맵을 생성하는 단계; 제2 컨볼루션 모듈이 상기 RGB 영상의 Gray 영상을 이용하여 8채널의 특징 맵을 생성하는 단계; 제3 컨볼루션 모듈이 라이다 영상을 이용하여 8채널의 특징 맵을 생성하는 단계; 및 결합 모듈이 상기 제1 컨볼루션 모듈에 의해 생성된 16채널의 특징 맵과 상기 제2 컨볼루션 모듈에 의해 생성된 8채널의 특징 맵과 상기 제3 컨볼루션 모듈에 의해 생성된 8채널의 특징 맵을 결합(Concatenation)하여 32채널의 특징 맵을 생성하는 단계를 포함할 수 있다. 이때, 상기 제1 컨볼루션 모듈과 상기 제2 컨볼루션 모듈 및 상기 제3 컨볼루션 모듈은, 각각 3×3 필터를 이용할 수 있다.
또한, 상기 깊이지도를 생성하는 단계는, 상기 특징 맵의 해상도를 점차 감소시켰다가 다시 복귀시키는 방식으로 깊이지도를 생성할 수 있다.
또한, 상기 깊이지도를 생성하는 단계는, 상기 특징 맵의 해상도에 상응하는 팽창률(Dilation rate)을 적용할 수 있다.
또한, 상기 깊이지도를 생성하는 단계는, 상기 특징 맵의 해상도를 절반씩 감소시킬 수 있다.
또한, 상기 깊이지도를 생성하는 단계는, 상기 특징 맵의 해상도를 점차 감소시켰다가 다시 복귀시키는 과정에서, 동일 채널의 특징 맵을 각각 결합할 수 있다.
본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치 및 그 방법은, DCNN(Dilated Convolutional Neural Network)를 기반으로 단일 영상을 이용하여 깊이지도를 생성하고, 상기 생성된 깊이지도와 상기 단일 영상에 기초하여 객체를 인식함으로써, LiDAR 센서 없이도 객체를 인식할 수 있는 것은 물론 상기 단일 영상을 이용하여 객체를 인식하는 기술에 비해 객체 인식률을 높일 수 있다.
도 1 은 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치의 구성도,
도 2 는 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치의 입력부에 의해 입력되는 RGB 영상에 대한 일예시도,
도 3 은 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치가 생성한 깊이지도에 대한 일예시도,
도 4 는 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치의 객체 인식결과에 대한 일예시도,
도 5 는 종래의 객체 인식 장치의 객체 인식결과에 대한 일예시도,
도 6 은 기준 인식결과에 대한 일예시도,
도 7 은 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치의 상세 구성도,
도 8 은 본 발명의 다른 실시예에 따른 영상을 이용한 객체 인식 장치의 상세 구성도,
도 9 는 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치의 팽창 컨볼루션 모듈(212, 352)의 상세 구성도,
도 10 은 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치의 팽창 컨볼루션 모듈(222, 332)의 상세 구성도,
도 11 은 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 방법에 대한 흐름도,
도 12 는 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 방법을 실행하기 위한 컴퓨팅 시스템을 보여주는 블록도이다.
이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.
본 발명의 실시예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
본 발명의 일 실시예에서 단일 영상은 스테레오 카메라를 통해 획득한 스테레오 영상(우 영상, 좌 영상)이 아닌 일반 카메라를 통해 획득한 영상으로서, 깊이정보를 포함하고 있지 않은 영상을 의미한다.
도 1 은 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치의 구성도이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치(100)는, 입력부(10), 깊이지도 생성부(21)와 객체 인식부(22)를 구비한 제어부(20), 및 출력부(30)를 포함할 수 있다. 이때, 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치(100)를 실시하는 방식에 따라 각 구성요소는 서로 결합되어 하나로 구현될 수도 있고, 일부의 구성요소가 생략될 수도 있다.
상기 각 구성요소들에 대해 살펴보면, 먼저 입력부(10)는 카메라 영상의 특징 맵(feature map)을 깊이지도 생성부(21)로 입력하고, 카메라 영상(RGB 영상)을 객체 인식부(22)로 입력한다. 일례로, 카메라 영상은 도 2에 도시된 바와 같다.
깊이지도 생성부(21)는 DCNN(Dilated Convolutional Neural Network)를 기반으로 카메라 영상의 특징 맵을 이용하여 깊이지도를 생성한다.
깊이지도 생성부(21)는 특징 맵의 해상도를 점차 감소시켰다가 다시 복귀시키는 방식으로 깊이지도를 생성할 수 있다. 일례로, 깊이지도는 도 3에 도시된 바와 같다.
객체 인식부(22)는 깊이지도 생성부(21)에 의해 생성된 깊이지도와 입력부(10)로부터 입력받은 RGB 영상을 이용하여 객체를 인식한다. 이때, 객체 인식부(22)가 객체를 인식하는 방식 자체는 어떠한 방식을 사용해도 무방하다. 일례로, 객체 인식부(22)의 인식결과는 도 4에 도시된 바와 같다.
참고로, 종래의 객체 인식부의 인식결과는 도 5에 도시된 바와 같다. 본 발명의 일 실시예에 따른 인식결과는 IOU(Intersection Over Union)가 86.06%이지만, 종래의 인식결과는 IOU가 85.3%에 불과하다. 이때, IOU는 객체 인식 성능을 평가하는 기준으로서, 본 발명의 일 실시예에 따른 인식결과는 도 6에 도시된 바와 같은 기준 인식결과(Semantic segmentation label)와의 픽셀 일치도가 86.06%인 반면, 종래의 인식결과는 85.3%에 불과하다.
출력부(30)는 객체 인식부(22)에 의해 인식된 결과를 출력한다.
제어부(20)는 상기 각 구성요소들이 제 기능을 정상적으로 수행할 수 있도록 전반적인 제어를 수행한다. 이러한 제어부(20)는 하드웨어의 형태로 구현되거나, 또는 소프트웨어의 형태로 구현될 수 있고, 물론 하드웨어 및 소프트웨어가 결합된 형태로도 구현될 수 있다. 바람직하게는, 제어부(20)는 마이크로프로세서로 구현될 수 있으나 이에 한정되는 것은 아니다.
이러한 제어부(20)는 일반적으로 널리 알려진 기술로서 저장부(메모리)를 더 구비할 수 있으며, 저장부는 DCNN를 기반으로 카메라 영상의 특징 맵을 이용하여 깊이지도를 생성하고, 상기 생성된 깊이지도와 입력부(10)로부터 입력받은 RGB 영상을 이용하여 객체를 인식하는 과정에서 요구되는 각종 로직과 알고리즘 및 프로그램을 저장할 수 있다.
저장부는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 마이크로 타입(micro type), 및 카드 타입(예컨대, SD 카드(Secure Digital Card) 또는 XD 카드(eXtream Digital Card)) 등의 메모리와, 램(RAM, Random Access Memory), SRAM(Static RAM), 롬(ROM, Read-Only Memory), PROM(Programmable ROM), EEPROM(Electrically Erasable PROM), 자기 메모리(MRAM, Magnetic RAM), 자기 디스크(magnetic disk), 및 광디스크(optical disk) 타입의 메모리 중 적어도 하나의 타입의 기록 매체(storage medium)를 포함할 수 있다.
도 7 은 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치의 상세 구성도이다.
도 7에 도시된 바와 같이, 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치(100)의 입력부(10)는 제1 컨볼루션 모듈(Convolution Module, 111), 제2 컨볼루션 모듈(Convolution Module, 121), 및 결합 모듈(Concatenation Module, 131)을 구비할 수 있다.
제1 컨볼루션 모듈(111)은 RGB 영상을 대상으로 3×3 필터를 이용하여 해상도는 그대로 유지하면서(strid = 1) 출력채널이 16인 특징 맵을 생성한다.
제2 컨볼루션 모듈(121)은 Gray 영상을 대상으로 3×3 필터를 이용하여 해상도는 그대로 유지하면서(strid = 1) 출력채널이 16인 특징 맵을 생성한다. 이때, Gray 영상은 상기 RGB 영상으로부터 생성된다.
결합 모듈(131)은 제1 컨볼루션 모듈(111)에 의해 생성된 16채널의 특징 맵과 제2 컨볼루션 모듈(121)에 의해 생성된 16채널의 특징 맵을 결합(Concatenation)하여 32채널의 특징 맵을 생성한다.
한편, 깊이지도 생성부(21)는 제1 처리모듈(210), 제2 처리모듈(220), 제3 처리모듈(230), 제4 처리모듈(240), 제5 처리모듈(250), 제6 컨볼루션 모듈(260), 제7 처리모듈(270), 제1 결합모듈(Concatenation Module, 280), 제8 처리모듈(290), 제2 결합모듈(300), 제9 처리모듈(310), 제3 결합모듈(320), 제10 처리모듈(330), 제4 결합모듈(340), 제11 처리모듈(350), 제5 결합모듈(360), 및 제12 컨볼루션 모듈(370)을 포함할 수 있다.
제1 처리모듈(210)은 결합 모듈(131)에 의해 생성된 32채널의 특징 맵을 대상으로 3×3 필터를 이용하여 해상도(일례로, 1216×352)는 그대로 유지하면서(strid = 1) 출력채널이 32인 특징 맵을 생성하는 제1 컨볼루션 모듈(211)과, 상기 제1 컨볼루션 모듈(211)에 의해 생성된 32채널의 특징 맵에 [32, 16, 8, 4, 2, 1]의 팽창률(Dilation rate)을 적용하여 32채널의 특징 맵을 생성하는 제1 팽창 컨볼루션 모듈(Dilated convolution, 212)을 구비할 수 있다.
제2 처리모듈(220)은 제1 팽창 컨볼루션 모듈(212)에 의해 생성된 32채널의 특징 맵을 대상으로 3×3 필터를 이용하여 해상도를 반(일례로, 608×176)으로 감소시키면서(strid = 1/2) 출력채널이 64인 특징 맵을 생성하는 제2 컨볼루션 모듈(221)과, 상기 제2 컨볼루션 모듈(221)에 의해 생성된 64채널의 특징 맵에 [16, 8, 4, 2, 1]의 팽창률(Dilation rate)을 적용하여 64채널의 특징 맵을 생성하는 제2 팽창 컨볼루션 모듈(222)을 구비할 수 있다.
제3 처리모듈(230)은 제2 팽창 컨볼루션 모듈(222)에 의해 생성된 64채널의 특징 맵을 대상으로 3×3 필터를 이용하여 해상도를 반(일례로, 304×88)으로 감소시키면서(strid = 1/2) 출력채널이 128인 특징 맵을 생성하는 제3 컨볼루션 모듈(231)과, 상기 제3 컨볼루션 모듈(231)에 의해 생성된 128채널의 특징 맵에 [8, 4, 2, 1]의 팽창률(Dilation rate)을 적용하여 128채널의 특징 맵을 생성하는 제3 팽창 컨볼루션 모듈(232)을 구비할 수 있다.
제4 처리모듈(240)은 제3 팽창 컨볼루션 모듈(232)에 의해 생성된 128채널의 특징 맵을 대상으로 3×3 필터를 이용하여 해상도를 반(일례로, 152×44)으로 감소시키면서(strid = 1/2) 출력채널이 256인 특징 맵을 생성하는 제4 컨볼루션 모듈(241)과, 상기 제4 컨볼루션 모듈(241)에 의해 생성된 256채널의 특징 맵에 [4, 2, 1]의 팽창률(Dilation rate)을 적용하여 256채널의 특징 맵을 생성하는 제4 팽창 컨볼루션 모듈(242)을 구비할 수 있다.
제5 처리모듈(250)은 제4 팽창 컨볼루션 모듈(242)에 의해 생성된 256채널의 특징 맵을 대상으로 3×3 필터를 이용하여 해상도를 반(일례로, 76×22)으로 감소시키면서(strid = 1/2) 출력채널이 512인 특징 맵을 생성하는 제5 컨볼루션 모듈(251)과, 상기 제5 컨볼루션 모듈(251)에 의해 생성된 512채널의 특징 맵에 [2, 1]의 팽창률(Dilation rate)을 적용하여 512채널의 특징 맵을 생성하는 제5 팽창 컨볼루션 모듈(252)을 구비할 수 있다.
제6 컨볼루션 모듈(260)은 제3 팽창 컨볼루션 모듈(252)에 의해 생성된 512채널의 특징 맵을 대상으로 3×3 필터를 이용하여 해상도를 반(일례로, 38×11)으로 감소시키면서(strid = 1/2) 출력채널이 512인 특징 맵을 생성한다.
제7 처리모듈(270)은 제6 컨볼루션 모듈(260)에 의해 생성된 512채널의 특징 맵을 대상으로 3×3 필터를 이용하여 해상도를 2배(일례로, 76×22)로 증가시키면서(strid = 2) 출력채널이 512인 특징 맵을 생성하는 제1 전치 컨볼루션 모듈(271)과, 상기 제1 전치 컨볼루션 모듈(271)에 의해 생성된 512채널의 특징 맵에 [2, 1]의 팽창률(Dilation rate)을 적용하여 512채널의 특징 맵을 생성하는 제7 팽창 컨볼루션 모듈(272)을 구비할 수 있다.
제1 결합모듈(280)은 제7 팽창 컨볼루션 모듈(272)에 의해 생성된 512채널의 특징 맵과 제5 팽창 컨볼루션 모듈(252)에 의해 생성된 512채널의 특징 맵을 결합한다.
제8 처리모듈(290)은 제1 결합모듈(280)에 의해 결합된 512채널의 특징 맵을 대상으로 3×3 필터를 이용하여 해상도를 2배(일례로, 152×44)로 증가시키면서(strid = 2) 출력채널이 256인 특징 맵을 생성하는 제2 전치 컨볼루션 모듈(291)과, 상기 제2 전치 컨볼루션 모듈(291)에 의해 생성된 256채널의 특징 맵에 [4, 2, 1]의 팽창률(Dilation rate)을 적용하여 256채널의 특징 맵을 생성하는 제8 팽창 컨볼루션 모듈(292)을 구비할 수 있다.
제2 결합모듈(300)은 제8 팽창 컨볼루션 모듈(292)에 의해 생성된 256채널의 특징 맵과 제4 팽창 컨볼루션 모듈(242)에 의해 생성된 256채널의 특징 맵을 결합한다.
제9 처리모듈(310)은 제2 결합모듈(300)에 의해 결합된 256채널의 특징 맵을 대상으로 3×3 필터를 이용하여 해상도를 2배(일례로, 304×88)로 증가시키면서(strid = 2) 출력채널이 128인 특징 맵을 생성하는 제3 전치 컨볼루션 모듈(311)과, 상기 제3 전치 컨볼루션 모듈(311)에 의해 생성된 128채널의 특징 맵에 [8, 4, 2, 1]의 팽창률(Dilation rate)을 적용하여 128채널의 특징 맵을 생성하는 제9 팽창 컨볼루션 모듈(312)을 구비할 수 있다.
제3 결합모듈(320)은 제9 팽창 컨볼루션 모듈(312)에 의해 생성된 128채널의 특징 맵과 제3 팽창 컨볼루션 모듈(232)에 의해 생성된 128채널의 특징 맵을 결합한다.
제10 처리모듈(330)은 제3 결합모듈(320)에 의해 결합된 128채널의 특징 맵을 대상으로 3×3 필터를 이용하여 해상도를 2배(일례로, 608×176)로 증가시키면서(strid = 2) 출력채널이 64인 특징 맵을 생성하는 제4 전치 컨볼루션 모듈(331)과, 상기 제4 전치 컨볼루션 모듈(331)에 의해 생성된 64채널의 특징 맵에 [16, 8, 4, 2, 1]의 팽창률(Dilation rate)을 적용하여 64채널의 특징 맵을 생성하는 제10 팽창 컨볼루션 모듈(332)을 구비할 수 있다.
제4 결합모듈(340)은 제10 팽창 컨볼루션 모듈(332)에 의해 생성된 64채널의 특징 맵과 제2 팽창 컨볼루션 모듈(222)에 의해 생성된 64채널의 특징 맵을 결합한다.
제11 처리모듈(350)은 제4 결합모듈(340)에 의해 결합된 64채널의 특징 맵을 대상으로 3×3 필터를 이용하여 해상도를 2배(일례로, 1216×352)로 증가시키면서(strid = 2) 출력채널이 32인 특징 맵을 생성하는 제5 전치 컨볼루션 모듈(351)과, 상기 제5 전치 컨볼루션 모듈(351)에 의해 생성된 32채널의 특징 맵에 [32, 16, 8, 4, 2, 1]의 팽창률(Dilation rate)을 적용하여 32채널의 특징 맵을 생성하는 제11 팽창 컨볼루션 모듈(352)을 구비할 수 있다.
제5 결합모듈(360)은 제11 팽창 컨볼루션 모듈(352)에 의해 생성된 32채널의 특징 맵과 제1 팽창 컨볼루션 모듈(212)에 의해 생성된 32채널의 특징 맵을 결합한다.
제12 컨볼루션 모듈(370)은 제5 결합모듈(360)에 의해 결합된 32채널의 특징 맵을 대상으로 1×1 필터를 이용하여 해상도를 유지하면서(strid = 1) 출력채널이 1인 깊이지도를 생성한다.
도 8 은 본 발명의 다른 실시예에 따른 영상을 이용한 객체 인식 장치의 상세 구성도이다.
도 8에 도시된 바와 같이, 본 발명의 다른 실시예에 따른 영상을 이용한 객체 인식 장치(100)의 입력부(10)는, 제1 컨볼루션 모듈(Convolution Module, 111), 제2 컨볼루션 모듈(Convolution Module, 121), 제2 컨볼루션 모듈(Convolution Module, 141), 및 결합 모듈(Concatenation Module, 131)을 구비할 수 있다.
제1 컨볼루션 모듈(111)은 RGB 영상을 대상으로 3×3 필터를 이용하여 해상도는 그대로 유지하면서(strid = 1) 출력채널이 16인 특징 맵을 생성한다.
제2 컨볼루션 모듈(121)은 Gray 영상을 대상으로 3×3 필터를 이용하여 해상도는 그대로 유지하면서(strid = 1) 출력채널이 8인 특징 맵을 생성한다. 이때, Gray 영상은 상기 RGB 영상으로부터 생성된다.
제3 컨볼루션 모듈(141)은 라이다 영상을 대상으로 3×3 필터를 이용하여 해상도는 그대로 유지하면서(strid = 1) 출력채널이 8인 특징 맵을 생성한다.
결합 모듈(131)은 제1 컨볼루션 모듈(111)에 의해 생성된 16채널의 특징 맵과 제2 컨볼루션 모듈(121)에 의해 생성된 8채널의 특징 맵 및 제3 컨볼루션 모듈(141)에 의해 생성된 8채널의 특징 맵을 결합(Concatenation)하여 32채널의 특징 맵을 생성한다.
깊이지도 생성부(21)의 상세 구성은 도 7에 도시된 바와 동일한 바 추가 설명은 생략한다.
본 발명의 다른 실시예는 카메라 영상 뿐만 아니라 라이다 영상을 획득한 경우에 적용될 수 있는 방식이다.
도 9 는 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치의 팽창 컨볼루션 모듈(212, 352)의 상세 구성도이다.
도 9에 도시된 바와 같이, 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치의 팽창 컨볼루션 모듈(212, 352)은, 32채널의 특징 맵에 [1]의 팽창률(Dilation rate)을 적용하여 16채널의 특징 맵을 생성하는 제1 모듈(901), 32채널의 특징 맵에 [2]의 팽창률(Dilation rate)을 적용하여 16채널의 특징 맵을 생성하는 제2 모듈(902), 32채널의 특징 맵에 [4]의 팽창률(Dilation rate)을 적용하여 16채널의 특징 맵을 생성하는 제3 모듈(903), 32채널의 특징 맵에 [8]의 팽창률(Dilation rate)을 적용하여 16채널의 특징 맵을 생성하는 제4 모듈(904), 32채널의 특징 맵에 [16]의 팽창률(Dilation rate)을 적용하여 16채널의 특징 맵을 생성하는 제5 모듈(905), 32채널의 특징 맵에 [32]의 팽창률(Dilation rate)을 적용하여 16채널의 특징 맵을 생성하는 제6 모듈(906)을 포함할 수 있다.
또한, 팽창 컨볼루션 모듈(212, 352)은 16채널의 특징 맵에 [1]의 팽창률(Dilation rate)을 적용하여 16채널의 특징 맵을 생성하는 제7 모듈(911), 16채널의 특징 맵에 [2]의 팽창률(Dilation rate)을 적용하여 16채널의 특징 맵을 생성하는 제8 모듈(912), 16채널의 특징 맵에 [4]의 팽창률(Dilation rate)을 적용하여 16채널의 특징 맵을 생성하는 제9 모듈(913), 16채널의 특징 맵에 [8]의 팽창률(Dilation rate)을 적용하여 16채널의 특징 맵을 생성하는 제10 모듈(914), 16채널의 특징 맵에 [16]의 팽창률(Dilation rate)을 적용하여 16채널의 특징 맵을 생성하는 제11 모듈(915), 16채널의 특징 맵에 [32]의 팽창률(Dilation rate)을 적용하여 16채널의 특징 맵을 생성하는 제12 모듈(916)을 포함할 수 있다.
또한, 컨볼루션 모듈(212, 352)은 결합모듈(920)를 포함할 수 있다. 결합모듈(920)은 제7 모듈(911)에 의해 생성된 16채널의 특징 맵과 제8 모듈(912)에 의해 생성된 16채널의 특징 맵과 제9 모듈(913)에 의해 생성된 16채널의 특징 맵과 제10 모듈(914)에 의해 생성된 16채널의 특징 맵과 제11 모듈(915)에 의해 생성된 16채널의 특징 맵과 제12 모듈(916)에 의해 생성된 16채널의 특징 맵을 결합하고, 상기 결합된 96채널의 특징 맵을 대상으로 1×1 필터를 이용하여 32채널의 특징 맵을 생성한다.
또한, 컨볼루션 모듈(212, 352)은 결합모듈(920)에 의해 생성된 32채널의 특징 맵과 초기 입력된 32채널의 특징 맵을 합(sum)하는 합산기(930)를 구비할 수 있다.
도 10 은 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치의 팽창 컨볼루션 모듈(222, 332)의 상세 구성도이다.
도 10에 도시된 바와 같이, 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 장치의 팽창 컨볼루션 모듈(222, 332)은, 64채널의 특징 맵에 [1]의 팽창률(Dilation rate)을 적용하여 32채널의 특징 맵을 생성하는 제1 모듈(941), 64채널의 특징 맵에 [2]의 팽창률(Dilation rate)을 적용하여 32채널의 특징 맵을 생성하는 제2 모듈(942), 64채널의 특징 맵에 [4]의 팽창률(Dilation rate)을 적용하여 32채널의 특징 맵을 생성하는 제3 모듈(943), 64채널의 특징 맵에 [8]의 팽창률(Dilation rate)을 적용하여 32채널의 특징 맵을 생성하는 제4 모듈(944), 64채널의 특징 맵에 [16]의 팽창률(Dilation rate)을 적용하여 32채널의 특징 맵을 생성하는 제5 모듈(945)을 포함할 수 있다.
또한, 팽창 컨볼루션 모듈(222, 332)은 32채널의 특징 맵에 [1]의 팽창률(Dilation rate)을 적용하여 32채널의 특징 맵을 생성하는 제6 모듈(951), 32채널의 특징 맵에 [2]의 팽창률(Dilation rate)을 적용하여 32채널의 특징 맵을 생성하는 제7 모듈(952), 32채널의 특징 맵에 [4]의 팽창률(Dilation rate)을 적용하여 32채널의 특징 맵을 생성하는 제8 모듈(953), 32채널의 특징 맵에 [8]의 팽창률(Dilation rate)을 적용하여 32채널의 특징 맵을 생성하는 제9 모듈(954), 32채널의 특징 맵에 [16]의 팽창률(Dilation rate)을 적용하여 32채널의 특징 맵을 생성하는 제10 모듈(955)을 포함할 수 있다.
또한, 컨볼루션 모듈(222, 332)은 결합모듈(960)를 포함할 수 있다. 결합모듈(960)은 제6 모듈(951)에 의해 생성된 32채널의 특징 맵과 제7 모듈(952)에 의해 생성된 32채널의 특징 맵과 제8 모듈(953)에 의해 생성된 32채널의 특징 맵과 제9 모듈(954)에 의해 생성된 32채널의 특징 맵과 제10 모듈(955)에 의해 생성된 32채널의 특징 맵을 결합하고, 상기 결합된 160채널의 특징 맵을 대상으로 1×1 필터를 이용하여 64채널의 특징 맵을 생성한다.
또한, 컨볼루션 모듈(222, 332)은 결합모듈(960)에 의해 생성된 64채널의 특징 맵과 초기 입력된 64채널의 특징 맵을 합(sum)하는 합산기(970)를 구비할 수 있다.
이러한 방식으로 모든 컨볼루션 모듈을 구성할 수 있다.
도 11 은 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 방법에 대한 흐름도이다.
먼저, 깊이지도 생성부(21)가 DCNN(Dilated Convolutional Neural Network)를 기반으로 영상의 특징 맵(Feature Map)을 이용하여 깊이지도를 생성한다(1101).
이후, 객체 인식부(22)가 깊이지도 생성부(21)에 의해 생성된 깊이지도와 상기 영상을 이용하여 객체를 인식한다(1102).
도 12 는 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 방법을 실행하기 위한 컴퓨팅 시스템을 보여주는 블록도이다.
도 12를 참조하면, 상술한 본 발명의 일 실시예에 따른 영상을 이용한 객체 인식 방법은 컴퓨팅 시스템을 통해서도 구현될 수 있다. 컴퓨팅 시스템(1000)은 시스템 버스(1200)를 통해 연결되는 적어도 하나의 프로세서(1100), 메모리(1300), 사용자 인터페이스 입력 장치(1400), 사용자 인터페이스 출력 장치(1500), 스토리지(1600), 및 네트워크 인터페이스(1700)를 포함할 수 있다.
프로세서(1100)는 중앙 처리 장치(CPU) 또는 메모리(1300) 및/또는 스토리지(1600)에 저장된 명령어들에 대한 처리를 실행하는 반도체 장치일 수 있다. 메모리(1300) 및 스토리지(1600)는 다양한 종류의 휘발성 또는 불휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(1300)는 ROM(Read Only Memory) 및 RAM(Random Access Memory)을 포함할 수 있다.
따라서, 본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서(1100)에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, SSD(Solid State Drive), 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리(1300) 및/또는 스토리지(1600))에 상주할 수도 있다. 예시적인 저장 매체는 프로세서(1100)에 커플링되며, 그 프로세서(1100)는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서(1100)와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.
따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
10: 입력부
20: 제어부
21: 깊이지도 생성부
22: 객체 인식부
30: 출력부

Claims (20)

  1. DCNN(Dilated Convolutional Neural Network)를 기반으로 영상의 특징 맵(Feature Map)을 이용하여 깊이지도를 생성하는 깊이지도 생성부; 및
    상기 깊이지도 생성부에 의해 생성된 깊이지도와 상기 영상을 이용하여 객체를 인식하는 객체 인식부
    를 포함하는 영상을 이용한 객체 인식 장치.
  2. 제 1 항에 있어서,
    RGB 영상의 특징 맵을 상기 깊이지도 생성부로 입력하고, RGB 영상을 상기 객체 인식부로 입력하는 입력부
    를 더 포함하는 영상을 이용한 객체 인식 장치.
  3. 제 2 항에 있어서,
    상기 입력부는,
    상기 RGB 영상을 이용하여 16채널의 특징 맵을 생성하는 제1 컨볼루션 모듈;
    상기 RGB 영상의 Gray 영상을 이용하여 16채널의 특징 맵을 생성하는 제2 컨볼루션 모듈; 및
    상기 제1 컨볼루션 모듈에 의해 생성된 16채널의 특징 맵과 상기 제2 컨볼루션 모듈에 의해 생성된 16채널의 특징 맵을 결합(Concatenation)하여 32채널의 특징 맵을 생성하는 결합 모듈
    을 포함하는 영상을 이용한 객체 인식 장치.
  4. 제 3 항에 있어서,
    상기 제1 컨볼루션 모듈과 상기 제2 컨볼루션 모듈은,
    각각 3×3 필터를 이용하는 것을 특징으로 하는 영상을 이용한 객체 인식 장치.
  5. 제 2 항에 있어서,
    상기 입력부는,
    상기 RGB 영상을 이용하여 16채널의 특징 맵을 생성하는 제1 컨볼루션 모듈;
    상기 RGB 영상의 Gray 영상을 이용하여 8채널의 특징 맵을 생성하는 제2 컨볼루션 모듈;
    라이다 영상을 이용하여 8채널의 특징 맵을 생성하는 제3 컨볼루션 모듈; 및
    상기 제1 컨볼루션 모듈에 의해 생성된 16채널의 특징 맵과 상기 제2 컨볼루션 모듈에 의해 생성된 8채널의 특징 맵과 상기 제3 컨볼루션 모듈에 의해 생성된 8채널의 특징 맵을 결합(Concatenation)하여 32채널의 특징 맵을 생성하는 결합 모듈
    을 포함하는 영상을 이용한 객체 인식 장치.
  6. 제 5 항에 있어서,
    상기 제1 컨볼루션 모듈과 상기 제2 컨볼루션 모듈 및 상기 제3 컨볼루션 모듈은,
    각각 3×3 필터를 이용하는 것을 특징으로 하는 영상을 이용한 객체 인식 장치.
  7. 제 1 항에 있어서,
    상기 깊이지도 생성부는,
    상기 특징 맵의 해상도를 점차 감소시켰다가 다시 복귀시키는 방식으로 깊이지도를 생성하는 것을 특징으로 하는 영상을 이용한 객체 인식 장치.
  8. 제 7 항에 있어서,
    상기 깊이지도 생성부는,
    상기 특징 맵의 해상도에 상응하는 팽창률(Dilation rate)을 적용하는 것을 특징으로 하는 영상을 이용한 객체 인식 장치.
  9. 제 7 항에 있어서,
    상기 깊이지도 생성부는,
    상기 특징 맵의 해상도를 절반씩 감소시키는 것을 특징으로 하는 영상을 이용한 객체 인식 장치.
  10. 제 7 항에 있어서,
    상기 깊이지도 생성부는,
    상기 특징 맵의 해상도를 점차 감소시켰다가 다시 복귀시키는 과정에서, 동일 채널의 특징 맵을 각각 결합하는 복수의 결합모듈(Concatenation Module)
    을 포함하는 영상을 이용한 객체 인식 장치.
  11. 깊이지도 생성부가 DCNN(Dilated Convolutional Neural Network)를 기반으로 영상의 특징 맵(Feature Map)을 이용하여 깊이지도를 생성하는 단계; 및
    객체 인식부가 상기 생성된 깊이지도와 상기 영상을 이용하여 객체를 인식하는 단계
    를 포함하는 영상을 이용한 객체 인식 방법.
  12. 제 11 항에 있어서,
    입력부가 RGB 영상의 특징 맵을 상기 깊이지도 생성부로 입력하고, RGB 영상을 상기 객체 인식부로 입력하는 단계
    를 더 포함하는 영상을 이용한 객체 인식 방법.
  13. 제 12 항에 있어서,
    상기 입력하는 단계는,
    제1 컨볼루션 모듈이 상기 RGB 영상을 이용하여 16채널의 특징 맵을 생성하는 단계;
    제2 컨볼루션 모듈이 상기 RGB 영상의 Gray 영상을 이용하여 16채널의 특징 맵을 생성하는 단계; 및
    결합 모듈이 상기 제1 컨볼루션 모듈에 의해 생성된 16채널의 특징 맵과 상기 제2 컨볼루션 모듈에 의해 생성된 16채널의 특징 맵을 결합(Concatenation)하여 32채널의 특징 맵을 생성하는 단계
    를 포함하는 영상을 이용한 객체 인식 방법.
  14. 제 13 항에 있어서,
    상기 제1 컨볼루션 모듈과 상기 제2 컨볼루션 모듈은,
    각각 3×3 필터를 이용하는 것을 특징으로 하는 영상을 이용한 객체 인식 방법.
  15. 제 12 항에 있어서,
    상기 입력하는 단계는,
    제1 컨볼루션 모듈이 상기 RGB 영상을 이용하여 16채널의 특징 맵을 생성하는 단계;
    제2 컨볼루션 모듈이 상기 RGB 영상의 Gray 영상을 이용하여 8채널의 특징 맵을 생성하는 단계;
    제3 컨볼루션 모듈이 라이다 영상을 이용하여 8채널의 특징 맵을 생성하는 단계; 및
    결합 모듈이 상기 제1 컨볼루션 모듈에 의해 생성된 16채널의 특징 맵과 상기 제2 컨볼루션 모듈에 의해 생성된 8채널의 특징 맵과 상기 제3 컨볼루션 모듈에 의해 생성된 8채널의 특징 맵을 결합(Concatenation)하여 32채널의 특징 맵을 생성하는 단계
    를 포함하는 영상을 이용한 객체 인식 방법.
  16. 제 15 항에 있어서,
    상기 제1 컨볼루션 모듈과 상기 제2 컨볼루션 모듈 및 상기 제3 컨볼루션 모듈은,
    각각 3×3 필터를 이용하는 것을 특징으로 하는 영상을 이용한 객체 인식 방법.
  17. 제 11 항에 있어서,
    상기 깊이지도를 생성하는 단계는,
    상기 특징 맵의 해상도를 점차 감소시켰다가 다시 복귀시키는 방식으로 깊이지도를 생성하는 것을 특징으로 하는 영상을 이용한 객체 인식 방법.
  18. 제 17 항에 있어서,
    상기 깊이지도를 생성하는 단계는,
    상기 특징 맵의 해상도에 상응하는 팽창률(Dilation rate)을 적용하는 것을 특징으로 하는 영상을 이용한 객체 인식 방법.
  19. 제 17 항에 있어서,
    상기 깊이지도를 생성하는 단계는,
    상기 특징 맵의 해상도를 절반씩 감소시키는 것을 특징으로 하는 영상을 이용한 객체 인식 방법.
  20. 제 17 항에 있어서,
    상기 깊이지도를 생성하는 단계는,
    상기 특징 맵의 해상도를 점차 감소시켰다가 다시 복귀시키는 과정에서, 동일 채널의 특징 맵을 각각 결합하는 단계
    를 포함하는 영상을 이용한 객체 인식 방법.
KR1020190071690A 2019-06-17 2019-06-17 영상을 이용한 객체 인식 장치 및 그 방법 KR20200143960A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020190071690A KR20200143960A (ko) 2019-06-17 2019-06-17 영상을 이용한 객체 인식 장치 및 그 방법
US16/601,217 US11256965B2 (en) 2019-06-17 2019-10-14 Apparatus and method for recognizing object using image
DE102019131100.4A DE102019131100A1 (de) 2019-06-17 2019-11-18 Vorrichtung und verfahren zum erkennen eines objektes unter verwendung eines bildes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190071690A KR20200143960A (ko) 2019-06-17 2019-06-17 영상을 이용한 객체 인식 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR20200143960A true KR20200143960A (ko) 2020-12-28

Family

ID=73546934

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190071690A KR20200143960A (ko) 2019-06-17 2019-06-17 영상을 이용한 객체 인식 장치 및 그 방법

Country Status (3)

Country Link
US (1) US11256965B2 (ko)
KR (1) KR20200143960A (ko)
DE (1) DE102019131100A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011329A (zh) * 2021-03-19 2021-06-22 陕西科技大学 一种基于多尺度特征金字塔网络及密集人群计数方法
KR20230089466A (ko) * 2021-12-13 2023-06-20 조선대학교산학협력단 앙상블 기반의 신경망을 이용한 행동 인식 방법
KR102607748B1 (ko) * 2022-07-19 2023-11-29 중앙대학교 산학협력단 다중 작업 적응을 적용한 영상 분석 장치 및 방법

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200133920A (ko) * 2019-05-21 2020-12-01 현대자동차주식회사 인공신경망 기반의 투사정보 인식 장치 및 그 방법
KR20200143999A (ko) * 2019-06-17 2020-12-28 현대자동차주식회사 인공신경망 기반의 채널 보상 장치 및 그 방법

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10163003B2 (en) * 2016-12-28 2018-12-25 Adobe Systems Incorporated Recognizing combinations of body shape, pose, and clothing in three-dimensional input images
WO2019090213A1 (en) * 2017-11-03 2019-05-09 Siemens Aktiengesellschaft Segmenting and denoising depth images for recognition applications using generative adversarial neural networks
DE102017221765A1 (de) * 2017-12-04 2019-06-06 Robert Bosch Gmbh Trainieren und Betreiben eines Maschinen-Lern-Systems
KR102595787B1 (ko) * 2018-02-27 2023-11-24 삼성전자주식회사 전자 장치 및 그 제어 방법
US10679369B2 (en) * 2018-06-12 2020-06-09 Chiral Software, Inc. System and method for object recognition using depth mapping
US10776941B2 (en) * 2018-07-02 2020-09-15 Chiral Software, Inc. Optimized neural network structure
WO2020037553A1 (zh) * 2018-08-22 2020-02-27 深圳市大疆创新科技有限公司 图像处理方法及装置、移动设备
US10990805B2 (en) * 2018-09-12 2021-04-27 Apple Inc. Hybrid mode illumination for facial recognition authentication
US20200082160A1 (en) * 2018-09-12 2020-03-12 Kneron (Taiwan) Co., Ltd. Face recognition module with artificial intelligence models
WO2020087352A1 (en) * 2018-10-31 2020-05-07 SZ DJI Technology Co., Ltd. Method and apparatus for controlling a lighting system of a vehicle
US10984545B2 (en) * 2018-11-16 2021-04-20 Nvidia Corporation Estimating depth for a video stream captured with a monocular rgb camera
US11449079B2 (en) * 2019-01-30 2022-09-20 Adobe Inc. Generalizable robot approach control techniques
US11270505B2 (en) * 2019-05-22 2022-03-08 Streem, Inc Capture of raw augmented reality data and subsequent 3D mesh generation

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011329A (zh) * 2021-03-19 2021-06-22 陕西科技大学 一种基于多尺度特征金字塔网络及密集人群计数方法
CN113011329B (zh) * 2021-03-19 2024-03-12 陕西科技大学 一种基于多尺度特征金字塔网络及密集人群计数方法
KR20230089466A (ko) * 2021-12-13 2023-06-20 조선대학교산학협력단 앙상블 기반의 신경망을 이용한 행동 인식 방법
KR102607748B1 (ko) * 2022-07-19 2023-11-29 중앙대학교 산학협력단 다중 작업 적응을 적용한 영상 분석 장치 및 방법

Also Published As

Publication number Publication date
DE102019131100A1 (de) 2020-12-17
US20200394476A1 (en) 2020-12-17
US11256965B2 (en) 2022-02-22

Similar Documents

Publication Publication Date Title
KR20200143960A (ko) 영상을 이용한 객체 인식 장치 및 그 방법
CN111201451B (zh) 基于场景的激光数据和雷达数据进行场景中的对象检测的方法及装置
KR102463175B1 (ko) 객체 인식 방법 및 장치
EP3289529B1 (en) Reducing image resolution in deep convolutional networks
CN110458112B (zh) 车辆检测方法、装置、计算机设备和可读存储介质
CN111797650B (zh) 障碍物的识别方法、装置、计算机设备和存储介质
US11100358B2 (en) Method, artificial neural network, device, computer program and machine-readable memory medium for the semantic segmentation of image data
KR102108953B1 (ko) 센서 품질 저하에 강인한 딥러닝 기반 카메라, 라이더 센서 융합 인지 방법 및 시스템
CN115004242A (zh) 同时进行实时对象检测和语义分割的系统和方法
US20240029303A1 (en) Three-dimensional target detection method and apparatus
CN116188999B (zh) 一种基于可见光和红外图像数据融合的小目标检测方法
CN115004259B (zh) 对象识别方法、装置、计算机设备和存储介质
KR20200054344A (ko) 스테레오 카메라를 이용한 인스턴스 객체별 거리값 검출 장치 및 방법
Alkhorshid et al. Road detection through supervised classification
CN114830177A (zh) 电子设备和用于控制该电子设备的方法
CN114119992A (zh) 基于图像与点云融合的多模态三维目标检测方法及装置
CN112348116A (zh) 利用空间上下文的目标检测方法、装置和计算机设备
CN113256709A (zh) 目标检测方法、装置、计算机设备以及存储介质
CN112529917A (zh) 一种三维目标分割方法、装置、设备和存储介质
KR20210018114A (ko) 교차 도메인 메트릭 학습 시스템 및 방법
KR20200128865A (ko) Cnn 기반의 객체 검출 장치 및 그 방법
US11551033B2 (en) Apparatus for learning image of vehicle camera and method thereof
US20220156533A1 (en) Object detection in vehicles using cross-modality sensors
Xie et al. A cascaded framework for robust traversable region estimation using stereo vision
KR20200133919A (ko) 자율주행차량의 경로 보상 장치 및 그 방법