KR20210026412A - Cnn을 활용한 카메라 및 라이다 센서 기반 실시간 객체 탐지 방법 - Google Patents

Cnn을 활용한 카메라 및 라이다 센서 기반 실시간 객체 탐지 방법 Download PDF

Info

Publication number
KR20210026412A
KR20210026412A KR1020190107150A KR20190107150A KR20210026412A KR 20210026412 A KR20210026412 A KR 20210026412A KR 1020190107150 A KR1020190107150 A KR 1020190107150A KR 20190107150 A KR20190107150 A KR 20190107150A KR 20210026412 A KR20210026412 A KR 20210026412A
Authority
KR
South Korea
Prior art keywords
object detection
bounding box
image data
pcd
real
Prior art date
Application number
KR1020190107150A
Other languages
English (en)
Other versions
KR102269750B1 (ko
Inventor
조정호
김진수
Original Assignee
순천향대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 순천향대학교 산학협력단 filed Critical 순천향대학교 산학협력단
Priority to KR1020190107150A priority Critical patent/KR102269750B1/ko
Publication of KR20210026412A publication Critical patent/KR20210026412A/ko
Application granted granted Critical
Publication of KR102269750B1 publication Critical patent/KR102269750B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/86Combinations of lidar systems with systems other than lidar, radar or sonar, e.g. with direction finders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Electromagnetism (AREA)
  • Image Analysis (AREA)

Abstract

CNN을 활용한 카메라 및 라이다 센서 기반 실시간 객체 탐지 방법 및 장치가 제시된다. 본 발명에서 제안하는 CNN을 활용한 카메라 및 라이다 센서 기반 실시간 객체 탐지 방법은 반사율 및 거리 정보를 포함하는 PCD(Point Cloud Data)와 영상 데이터에 기초하여 CNN 기반의 복수의 YOLO에 대한 객체 탐지 학습을 각각 수행하는 단계, PCD와 영상 데이터에 기초하여 학습된 각각의 객체 탐지 모델에서의 객체에 대한 경계상자와 신뢰도 점수를 예측하는 단계 및 객체 탐지 결과를 융합하기 위해 경계상자의 좌표를 해당 객체에 대한 신뢰도 점수를 기반으로 가중평균을 통해 최종 경계상자를 결정하는 단계를 포함한다

Description

CNN을 활용한 카메라 및 라이다 센서 기반 실시간 객체 탐지 방법{Method for Real-time Object Detection Based on Lidar Sensor and Camera Using CNN}
본 발명은 CNN을 활용한 카메라 및 라이다 센서 기반 실시간 객체 탐지 방법 및 장치에 관한 것이다.
차량 스스로의 판단만으로 도로의 주행을 목표로 하는 자율주행의 구현을 위해 다양한 객체 탐지 알고리즘을 통한 실시간 주행환경 감지 연구가 활발히 진행되고 있다. 이를 위해 일반적으로 RGB 카메라를 통한 객체 탐지가 이루어지고 있지만, 주행환경 감지 성능 향상을 위해 또 다른 감지 센서와의 융합을 통한 상호보완이 이루어지고 있는 추세이다.
주행환경 감지는 안전과의 매우 밀접한 관계로 인해 자율주행의 필수적인 분야로 자리 잡았으며 심층학습 알고리즘의 접목을 통해 큰 성능 향상이 이루어졌다. 심층학습 알고리즘은 신경망 구조를 바탕으로 많은 양의 입력 데이터에 대한 학습을 진행하며, 특히 컨볼루션 신경망(Convolutional Neural Network; CNN) 구조가 제안된 이후 자율주행의 주행환경 감지에도 적극적으로 활용되고 있다.
RGB 카메라는 기본적으로 사람의 시각과 유사하게 사물의 형태와 색상을 인식하여 기본적인 객체 탐지 성능이 높다. 하지만 사물로부터 반사된 가시광선을 영상 데이터로 나타내기 때문에 조명, 날씨, 사물의 잘림 등의 외부환경적 요인에 취약하다는 단점을 가진다. 또한, RGB 카메라를 통해 탐지한 객체의 정확한 3차원 거리 정보를 획득하기에는 많은 어려움이 있다. 따라서 최근에는 객체 탐지의 성능을 높이기 위해 라이다(Light Detection And Ranging; LiDAR)를 RGB 카메라와 함께 사용하여 한계점을 보완하는 많은 연구가 진행되고 있다.
라이다는 레이저를 방출하여 측정 범위 내의 사물들로부터 반사된 신호를 포인트 클라우드 데이터(Point Cloud Data; PCD)로 나타낸다. 센서 자체에서 파생한 레이저로부터 반사된 신호를 측정하기 때문에 가시광선을 측정하는 RGB 카메라와는 다르게 외부환경적 요인에 강인하다는 장점을 가진다. 또한, 표면 성질에 따른 반사율 정보와 반사된 시간에 따른 거리 정보를 포함하여 객체와의 정확한 거리 측정이 가능하다. 그러나, 반사된 레이저 신호만을 측정하기 때문에 반사 영역에만 포함되는 환경정보를 나타내며 이로 인해 PCD로 표현되는 데이터의 해상도는 영상 데이터의 10% 이내로 매우 작아 실제 환경의 정보를 모두 표현하는 데에 한계를 갖는다.
이처럼 RGB 카메라와 라이다는 상호보완적인 장단점을 가지고 있어 이들 센서의 정보를 융합하여 객체 탐지 성능을 고도화하는 센서 융합 기술의 제안이 활발하게 이뤄지고 있다. 종래기술에서는 영상 데이터와 PCD를 바탕으로 서포트 벡터 머신(Support Vector Machine; SVM)을 통해 특징들을 추출하여 하나의 단일벡터로 결합한 후, 결합한 단일 벡터를 변형 가능한 모델의 입력 데이터로 활용하여 객체 탐지 결과를 융합함으로써 보행자의 탐지 성능을 개선하였다. 또 다른 종래기술에서는 영상 데이터와 PCD를 기반으로 세분화 기법을 통해 객체를 추론하고 컨볼루션 기반으로 특징 맵을 활용하여 의사 결정 수준에서 분류된 출력을 확률 기반으로 융합함으로써 보행자, 차량, 자전거의 다중 객체 분류 성능을 개선하였다. 이외에도 영상 데이터와 PCD에서 추출한 객체가 존재할법한 후보 지역의 이미지에서 추출한 특징을 융합한 후 객체 탐지 모델을 학습하여 자동차를 탐지하는 방식도 제안되었다. 이처럼 각각의 신호를 다른 모델로 처리한 후 객체 탐지 결과를 융합하는 방식을 통해 객체 탐지 성능의 향상이 이루어지고 있지만, 실제 차량의 자율주행 중 큰 사고로 이어질 수 있는 객체의 미검출(Missed-detection)에 대한 탐지 성능 개선에 관한 연구는 상대적으로 미미하다. 또한, SVM 등의 머신러닝 기반 객체 탐지 알고리즘을 활용하는 방식은 실시간으로 객체를 탐지하는 데에 어려움을 겪는다.
본 발명이 이루고자 하는 기술적 과제는 객체 탐지 성능 고도화 및 실시간 감지를 위해 RGB 영상 데이터와 LiDAR 포인트 클라우드의 합성을 통한 YOLO 기반의 객체 탐지 방법 및 장치를 제공하는데 있다. 실시간 객체 탐지에 적합한 YOLO(You Only Look Once: Real-Time Object Detection)를 활용하여 영상 데이터와 PCD를 바탕으로 독립적으로 객체 탐지를 실행한 후 각각의 결과를 융합하여 미검출에 대한 탐지 성능이 향상된 YOLO 기반의 적응형 객체 탐지 방법 및 장치를 제안한다.
일 측면에 있어서, 본 발명에서 제안하는 CNN을 활용한 카메라 및 라이다 센서 기반 실시간 객체 탐지 방법은 반사율 및 거리 정보를 포함하는 PCD(Point Cloud Data)와 영상 데이터에 기초하여 CNN 기반의 복수의 YOLO에 대한 객체 탐지 학습을 각각 수행하는 단계, PCD와 영상 데이터에 기초하여 학습된 각각의 객체 탐지 모델에서의 객체에 대한 경계상자와 신뢰도 점수를 예측하는 단계 및 객체 탐지 결과를 융합하기 위해 경계상자의 좌표를 해당 객체에 대한 신뢰도 점수를 기반으로 가중평균을 통해 최종 경계상자를 결정하는 단계를 포함한다.
반사율 및 거리 정보를 포함하는 PCD와 영상 데이터에 기초하여 CNN 기반의 복수의 YOLO에 대한 객체 탐지 학습을 각각 수행하는 단계는 RGB 카메라의 시야각과 동일한 전면뷰로 투영하는 변환과정을 통해 PCD의 차원과 좌표계를 영상 데이터와 같은 2차원 픽셀 좌표계로 변환하는 전처리 수행 후, 영상 데이터, 깊이 맵, 반사율 맵으로 분류된 데이터에 기초하여 각각의 객체 탐지 모델을 통해 학습을 수행한다.
반사율 및 거리 정보를 포함하는 PCD와 영상 데이터에 기초하여 CNN 기반의 복수의 YOLO에 대한 객체 탐지 학습을 각각 수행하는 단계는 YOLO는 입력된 이미지 내부의 객체에 대한 경계상자의 예측과 분류를 동시에 실행하고, YOLO에 입력되는 영상 데이터는 해상도에 따라 격자 구역으로 나뉘고 CNN 구조의 신경망을 통해 특징이 추출되며, 완전 연결 노드를 통해 예측 텐서가 출력된다.
PCD와 영상 데이터에 기초하여 학습된 각각의 객체 탐지 모델에서의 객체에 대한 경계상자와 신뢰도 점수를 예측하는 단계는 학습된 각각의 객체 탐지 모델의 객체 탐지 결과는 경계상자의 기하학적 정보와 탐지된 객체가 실제값과 일치하는지 정도를 나타내는 신뢰도를 반영하여 객체가 분류된 확률의 신뢰도 점수를 예측한다.
객체 탐지 결과를 융합하기 위해 경계상자의 좌표를 해당 객체에 대한 신뢰도 점수를 기반으로 가중평균을 통해 최종 경계상자를 결정하는 단계는 각각의 객체 탐지 모델에서의 객체에 대한 경계상자들의 신뢰도 점수에 따라 가중된 평균값을 갖고, 각각의 경계상자의 기하학적 정보만을 기초로 하여 하나의 경계상자로 융합한다.
또 다른 일 측면에 있어서, 본 발명에서 제안하는 CNN을 활용한 카메라 및 라이다 센서 기반 실시간 객체 탐지 장치는 반사율 및 거리 정보를 포함하는 PCD와 영상 데이터에 기초하여 CNN 기반의 복수의 YOLO에 대한 객체 탐지 학습을 각각 수행하는 학습부, PCD와 영상 데이터에 기초하여 학습된 각각의 객체 탐지 모델에서의 객체에 대한 경계상자와 신뢰도 점수를 예측하는 예측부 및 객체 탐지 결과를 융합하기 위해 경계상자의 좌표를 해당 객체에 대한 신뢰도 점수를 기반으로 가중평균을 통해 최종 경계상자를 결정하는 객체 탐지부를 포함한다.
본 발명의 실시예들에 따르면 실시간 객체 탐지에 적합한 YOLO(You Only Look Once; Real-Time Object Detection)를 활용하여 영상 데이터와 PCD를 바탕으로 독립적으로 객체 탐지를 실행한 후 각각의 결과를 융합하여 미검출에 대한 탐지 성능이 향상된 YOLO 기반의 적응형 객체 탐지를 수행할 수 있다. RGB 카메라를 단독으로 활용하였을 때 보다 훨씬 우수한 객체 탐지율을 보여주었으며 이로써 낮은 미검출율을 가능하게 할 수 있음을 확인하였다.
도 1은 본 발명의 일 실시예에 따른 CNN을 활용한 카메라 및 라이다 센서 기반 실시간 객체 탐지 방법을 설명하기 위한 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 YOLO의 네트워크 구조를 나타내는 도면이다.
도 3은 본 발명의 일 실시예에 따른 YOLO 기반 센서 융합 객체 탐지 시스템의 블록 다이어그램을 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 임의의 학습 데이터를 나타내는 도면이다.
도 5는 본 발명의 일 실시예에 따른 3차원 PCD의 투영과정을 나타내는 도면이다.
도 6은 본 발명의 일 실시예에 따른 이미지 평면에 투영된 PCD를 나타내는 도면이다.
도 7은 본 발명의 일 실시예에 따른 투영된 고해상도 PCD의 스케일링 결과를 나타내는 도면이다.
도 8은 본 발명의 일 실시예에 따른 가중 평균 기반의 센서 융합 예시를 나타내는 도면이다.
도 9는 본 발명의 일 실시예에 따른 경계상자를 나타내는 도면이다.
도 10은 본 발명의 일 실시예에 따른 CNN을 활용한 카메라 및 라이다 센서 기반 실시간 객체 탐지 장치의 구성을 나타내는 도면이다.
도 11은 본 발명의 일 실시예에 따른 단계별 평균 처리 시간을 나타내는 도면이다.
도 12는 본 발명의 일 실시예에 따른 객체 탐지 결과를 나타내는 도면이다.
도 13은 본 발명의 일 실시예에 따른 난이도에 따른 정밀도와 재현율을 나타내는 그래프이다.
도 14는 본 발명의 일 실시예에 따른 외부환경 변화 고려 시 정밀도와 재현율을 나타내는 도면이다.
본 발명에서는 실시간 객체 탐지에 적합한 YOLO(You Only Look Once: Real-Time Object Detection)를 활용하여 영상 데이터와 PCD를 바탕으로 독립적으로 객체 탐지를 실행한 후 각각의 결과를 융합하여 미검출에 대한 탐지 성능이 향상된 YOLO 기반의 적응형 객체 탐지 방법 및 장치를 제안한다. 반사율 및 거리 정보를 포함하는 PCD와 영상 데이터를 바탕으로 CNN 기반의 3가지 YOLO에 대한 객체 탐지 학습을 각각 실행하고 각 모델에서의 객체에 대한 경계상자와 신뢰도 점수를 예측한다. 이후 객체 탐지 결과를 융합하기 위해 경계상자의 좌표를 해당 객체에 대한 신뢰도 점수를 기반으로 가중평균을 통해 최종 경계상자를 결정한다. 이로써 더 높은 신뢰도 점수를 가진 모델의 경계상자에 가깝게 최종 경계상자의 좌표가 결정된다.
제안된 객체 탐지 시스템의 성능평가를 위해 자율주행 벤치마킹 플랫폼 ′KITTI Benchmark Suite′를 활용하여 자동차를 대상으로 객체 탐지를 진행하였다. 제안된 가중평균을 통한 센서 융합 결과 RGB 카메라를 단독적으로 활용할 때보다 훨씬 우수한 객체 탐지율을 보였으며, 어느 한 YOLO 모델이 객체의 탐지를 놓치는 경우에도 전체 모델로부터의 탐지 결과를 가중함으로써 미검출율의 저하를 가능하게 할 수 있었다.
기존의 영상 신호처리 분야에서의 객체 탐지는 영상 데이터에서 객체의 특징을 사전에 추출하고 해당 특징을 기반으로 객체를 탐지하는 방식으로 진행되었다. 특징점을 찾기 위해 영상 내부의 지역적인 특징점들을 추출하는 SIFT(Scale Invariant Feature Transform), 분할된 영상의 에지의 방향을 히스토그램으로 나타내는 HOG(Histogram of Oriented Gradients) 등이 활용되었으며 추출된 특징을 기반으로 기계 학습의 전통적인 분류 알고리즘인 SVM 등이 객체 탐지에 적용되었다. 하지만 영상처리 기반의 방식은 객체 탐지 성능에 직접적인 영향을 미치는 특징을 직접 찾는 과정이 필요하다는 단점을 내재하고 있다.
CNN의 등장으로 신경망이 자체적으로 특징을 추출하고 학습하는 종단간 학습이 가능해짐으로써 객체 탐지의 큰 성능 개선이 이루어졌다. CNN 기반의 객체 탐지 알고리즘은 크게 지역 기반과 단일 회귀 방식 두 종류로 나뉜다. 지역 기반의 방식은 대표적으로 객체가 존재할법한 후보 관심 영역(Region of Interest; ROI)을 생성하고 해당 영역에서 특징을 추출하여 분류 알고리즘과 경계상자에 대한 회귀학습을 통해 ROI 내부의 객체를 탐지하는 R-CNN이 있으며, 기존의 객체 탐지 알고리즘에 비해 높은 성능 향상을 보였다. 하지만 특징 추출, 분류의 단계가 나뉘어 있으며 각각의 ROI를 CNN에 입력하여 추출한 특징들을 개별적으로 학습해야 하므로 학습에 많은 시간이 소요된다는 단점을 가진다. 이와 같은 단점을 보완하기 위해 학습과 탐지 속도가 향상된 Fast R-CNN과 Faster R-CNN이 제안되었다. Fast R-CNN은 ROI에서 분류기와 경계상자의 손실을 동시에 학습하는 멀티태스크 학습을 통해 CNN의 연산 과정과 학습 단계를 단순화하여 학습 소요 시간을 감소시켰으며, Faster R-CNN은 CNN의 마지막 계층에 ROI를 생성하는 영역 제안 네트워크(Region Proposal Network; RPN)를 적용하여 학습 속도를 더욱 빠르고 탐지 성능 또한 높였다. 그러나, 여전히 지역 기반 방식의 객체 탐지 알고리즘은 ROI를 생성하고 영역 내부의 객체를 분류하는 두 가지 작업을 순차적으로 진행하기 때문에 탐지 성능은 우수하지만, 탐지 속도가 느리다는 단점을 가진다.
한편, 단일 회귀 방식은 ROI를 찾지 않고 영상 데이터 전체에 대하여 객체의 경계상자 예측과 분류를 동시에 진행하기 때문에 실시간에 근접한 빠른 속도로 탐지한다는 장점을 가진다. 이러한 방식으로는 YOLO, SSD(Single Shot Detector) 등이 존재한다. 이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 CNN을 활용한 카메라 및 라이다 센서 기반 실시간 객체 탐지 방법을 설명하기 위한 흐름도이다.
제안하는 CNN을 활용한 카메라 및 라이다 센서 기반 실시간 객체 탐지 방법은 반사율 및 거리 정보를 포함하는 PCD(Point Cloud Data)와 영상 데이터에 기초하여 CNN 기반의 복수의 YOLO에 대한 객체 탐지 학습을 각각 수행하는 단계(110), PCD와 영상 데이터에 기초하여 학습된 각각의 객체 탐지 모델에서의 객체에 대한 경계상자와 신뢰도 점수를 예측하는 단계(120) 및 객체 탐지 결과를 융합하기 위해 경계상자의 좌표를 해당 객체에 대한 신뢰도 점수를 기반으로 가중평균을 통해 최종 경계상자를 결정하는 단계(130)를 포함한다.
단계(110)에서, 반사율 및 거리 정보를 포함하는 PCD(Point Cloud Data)와 영상 데이터에 기초하여 CNN 기반의 복수의 YOLO에 대한 객체 탐지 학습을 각각 수행한다. RGB 카메라의 시야각과 동일한 전면뷰로 투영하는 변환과정을 통해 PCD의 차원과 좌표계를 영상 데이터와 같은 2차원 픽셀 좌표계로 변환하는 전처리 수행 후, 영상 데이터, 깊이 맵, 반사율 맵으로 분류된 데이터에 기초하여 각각의 객체 탐지 모델을 통해 학습을 수행한다.
본 발명의 실시예에 따른 YOLO는 입력된 이미지 내부의 객체에 대한 경계상자의 예측과 분류를 동시에 실행한다. YOLO에 입력되는 영상 데이터는 해상도에 따라 격자 구역으로 나뉘고 CNN 구조의 신경망을 통해 특징이 추출되며, 완전 연결 노드를 통해 예측 텐서가 출력된다.
도 2는 본 발명의 일 실시예에 따른 YOLO의 네트워크 구조를 나타내는 도면이다.
본 발명의 실시예에 따른 YOLO는 입력된 이미지 내부의 객체에 대한 경계상자의 예측과 분류를 동시에 실행하는 통합탐지(Unified Detection)를 특징으로 한다. YOLO에 입력되는 영상 데이터는 해상도에 따라
Figure pat00001
개의 격자 구역으로 나뉘고 CNN 구조의 신경망을 통해 특징이 추출되며, 완전 연결 노드(Fully connected Layer)를 통해 최종적으로 도 2와 같이 예측 텐서(Prediction Tensor)가 출력된다.
예측 텐서는
Figure pat00002
의 크기와
Figure pat00003
의 길이를 가진다. 여기서,
Figure pat00004
은 격자 구역의 개수, B는 중심점이 격자 구역 내부에 포함된 후보 경계상자의 개수, C는 분류할 수 있는 객체의 개수를 의미한다. 각각의 격자 구역은
Figure pat00005
의 길이를 가지는 벡터로 나타나며
Figure pat00006
개의 격자 구역의 집합이
Figure pat00007
의 예측 텐서를 구성한다.
단계(120)에서, PCD와 영상 데이터에 기초하여 학습된 각각의 객체 탐지 모델에서의 객체에 대한 경계상자와 신뢰도 점수를 예측한다. 학습된 각각의 객체 탐지 모델의 객체 탐지 결과는 경계상자의 기하학적 정보와 탐지된 객체가 실제값과 일치하는지 정도를 나타내는 신뢰도를 반영하여 객체가 분류된 확률의 신뢰도 점수를 예측한다.
격자 구역은 B개의 경계상자를 예측하는데 경계상자는
Figure pat00008
의 5가지 정보를 포함한다.
Figure pat00009
는 경계상자의 중심좌표,
Figure pat00010
는 폭과 높이,
Figure pat00011
는 식 (1)과 같이 경계상자에 객체가 포함될 확률인
Figure pat00012
와 경계상자가 얼마나 정확하게 경계상자를 예측했는지를 나타내는 실제값(Ground-truth)과 교차영역의 상대적인 넓이(Intersection of union; IOU)인
Figure pat00013
와의 곱을 의미한다. 실제값과 예측한 경계상자의 중심좌표가 같은 격자 구역에 포함된 경우에 경계상자에 객체가 포함된 것으로 간주하며
Figure pat00014
는 1로 계산되고 각각 다른 격자 구역에 포함되는 경우에는 0으로 계산된다.
Figure pat00015
(1)
Figure pat00016
(2)
IOU는 두 영역의 교차영역의 넓이를 합의 영역의 넓이로 나눈 값으로 식 (2)와 같으며 실제값의 경계상자
Figure pat00017
에 대해 예측한 경계상자
Figure pat00018
의 정확도를 평가하기 위해 사용되는 지표이다. 또한 격자 구역은 경계상자 내부에 포함된 객체의 종류가 분류할 수 있는 C개의 객체 중 어떤 객체일지를 나타내는 조건부 확률을 계산하여 식 (3)과 같이
Figure pat00019
로 나타낸다.
Figure pat00020
(3)
단계(130)에서, 객체 탐지 결과를 융합하기 위해 경계상자의 좌표를 해당 객체에 대한 신뢰도 점수를 기반으로 가중평균을 통해 최종 경계상자를 결정한다. 각각의 객체 탐지 모델에서의 객체에 대한 경계상자들의 신뢰도 점수에 따라 가중된 평균값을 갖고, 각각의 경계상자의 기하학적 정보만을 기초로 하여 하나의 경계상자로 융합한다.
이와 같이
Figure pat00021
의 길이를 가지는 텐서가
Figure pat00022
의 모든 격자 구역에 대한 예측을 진행한 이후에는 식 (4)를 통해 경계상자에 객체가 포함되는 확률을
Figure pat00023
와 포함된 객체가 어떤 객체일지를 나타내는
Figure pat00024
를 객체를 분류하기 위한 신뢰도 점수
Figure pat00025
로 확장한다.
Figure pat00026
(4)
식 (1) 의
Figure pat00027
와 식 (3)의
Figure pat00028
를 곱함으로써 예측한 경계상자 내부에 객체가 포함될 확률과 분류한 객체가 실제값과 일치하는 확률을 모두 나타내는
Figure pat00029
가 계산된다. 최종적으로 분류한 객체에 대하여 입력 텐서의 예측된 B개의 경계상자 중에서 가장 높은
Figure pat00030
를 가진 경계상자가 해당 객체의 경계상자로 선택된다. 도 3 내지 도 9를 참조하여 CNN을 활용한 카메라 및 라이다 센서 기반 실시간 객체 탐지 과정을 더욱 상세히 설명한다.
도 3은 본 발명의 일 실시예에 따른 YOLO 기반 센서 융합 객체 탐지 시스템의 블록 다이어그램을 나타내는 도면이다.
본 발명에서 제안하는 가중평균 기반의 YOLO 기반 객체 탐지 과정은 데이터 전처리 과정과 센서 융합 과정을 포함한다. 전처리 과정에서는 3차원 공간 정보를 나타내는 PCD를 RGB 카메라의 시점과 동일하게 맞춰주는 좌표보정을 통해 2차원 공간에 투영한다. 투영과정을 거친 이후에는 PCD가 포함하는 거리, 반사율 정보에 따라 깊이 맵과 반사율 맵을 생성하여 객체 탐지에 활용한다. 센서 융합 과정에서는 RGB 카메라의 영상 데이터, 전처리된 PCD의 깊이 맵과 반사율 맵을 각각 YOLO 기반의 모델을 통해 객체를 탐지하고 가중평균을 적용하여 경계상자의 좌표와 크기를 조정한다. 라이다에서 파생된 레이저 신호는 다른 감지 센서보다 높은 펄스를 가져 장거리의 측정이 가능하며 센서 자체에서 파생한 신호로부터 반사된 정보를 측정하기 때문에 외부환경적 요인에 강인하다는 장점을 가진다.
도 4는 본 발명의 일 실시예에 따른 임의의 학습 데이터를 나타내는 도면이다.
도 4(a)는 라이다의 PCD(탑뷰), 도 4(b)는 추출된 라이다의 PCD(탑뷰) 및 도 4(c)는 RGB 카메라의 영상 데이터를 나타낸다.
라이다는 반사된 레이저 신호를
Figure pat00031
의 3차원 좌푯값
Figure pat00032
과 반사율 정보
Figure pat00033
을 제공하는데, 반사율 정보는 지면 및 물체의 반사면의 거친 정도, 색상 및 재질 등에 따라 반사된 신호의 강도를 의미한다. 이를 활용한 객체 탐지는 3차원 좌푯값을 그대로 사용하거나 이를 탑뷰 또는 전면뷰의 2차원 공간으로 투영시켜 객체를 탐지하는 경우로 나뉜다. 탑뷰를 활용한 객체 탐지는 차량의 진행 방향 및 운동 속도를 추출하기 용이하지만 객체 탐지의 연산 과정이 복잡한 반면, RGB 카메라와 운전자가 바라보는 시점과 동일한 전면뷰를 활용한 객체 탐지는 탑뷰를 활용한 객체 탐지 대비 연산이 간단하다.
본 발명에서는 PCD를 RGB 카메라의 시야각(Field Of View; FOV)과 동일한 전면뷰로 투영하는 변환과정을 통해 PCD의 차원과 좌표계를 영상 데이터와 같은 2차원 픽셀 좌표계로 변환하여 활용한다. 픽셀 좌표계는 영상 데이터에 포함된 픽셀의 2차원 기준 좌표계를 의미하며 영상 데이터의 좌측 상단 모서리를 기준으로 우측 방향은
Figure pat00034
의 증가 방향, 하단 방향은
Figure pat00035
의 증가 방향을 의미한다. PCD는 라이다를 기준으로 도 4(a)와 같이 360°의 전 방향에서 취득된 데이터를 나타내기 때문에 RGB 카메라의 FOV에서 표현되는 PCD만 도 4(b)와 같이 분리한다. 도 4(a)에서 라이다의 위치는 원점, RGB 카메라의 위치는 라이다로부터
Figure pat00036
축이 5만큼 이동한 지점이며 FOV의 중심축은
Figure pat00037
축과 평행한 방향이므로
Figure pat00038
의 조건을 만족하는 PCD만 분리하여 활용한다.
도 5는 본 발명의 일 실시예에 따른 3차원 PCD의 투영과정을 나타내는 도면이다.
도 5(a)는 투영된 2차원 PCD(동차좌표), 도 5(b)는 투영된 2차원 PCD(픽셀 좌표)를 나타낸다.
분리된 PCD의 3차원 좌표계는 영상 데이터의 픽셀 좌표계와 다르기 때문에 투영 변환을 통해 3차원 공간에서의 PCD를 2차원 픽셀 좌표계로 투영한다. 도 5(a)와 같이 분리된 PCD에서 3차원 좌푯값을 추출한 후 투영 행렬을 곱하여 2차원 평면의 한점으로 투영되는
Figure pat00039
를 구한다.
Figure pat00040
는 동차좌표로 나타나기 때문에
Figure pat00041
로 표현할 수 있는데 동차좌표란
Figure pat00042
를 0이 아닌
Figure pat00043
에 대하여 차원을 확장하여
Figure pat00044
로 표현되는 것으로 투영 변환을 통해 3차원 공간의 좌표가 2차원으로 투영되었을 때 2차원 좌표는 3차원으로 확장된 동차좌표 형태로 나타난다. 따라서
Figure pat00045
는 2차원 좌표의 차원이 카메라의 위치와
Figure pat00046
의 거리를 나타내는
Figure pat00047
에 대한 동차좌표이므로 도 5(b)와 같이 2차원 좌표에
Figure pat00048
를 곱해주면
Figure pat00049
와 같이 픽셀 좌표로 변환되며 이를
Figure pat00050
라 정의한다.
도 6은 본 발명의 일 실시예에 따른 이미지 평면에 투영된 PCD를 나타내는 도면이다.
도 6(a)에는 2차원 픽셀 좌표계에서의 PCD를 도식화하였으며 도 6(b)를 통해 RGB 카메라의 FOV와 동일한 전면뷰로 PCD가 투영된 것을 확인할 수 있다. 하지만 PCD는 영상 데이터와 비교하여 해상도가 낮아 데이터의 정보가 희소하게 나타나기 때문에 양자 필터(Bilateral filter)를 이용하여 고해상도로 샘플링한 후 객체 탐지에 활용한다.
도 7은 본 발명의 일 실시예에 따른 투영된 고해상도 PCD의 스케일링 결과를 나타내는 도면이다.
도 7(a)는 깊이 맵, 도 7(b) 반사율 맵을 나타낸다. 양자 필터는 후광 현상(Halo Artifact)을 억제하여 영상부의 가장자리를 보존하면서 이미지를 흐리게 하거나 노이즈를 완화하는 비선형 필터이다. 이를 활용해 PCD가 존재하는 픽셀과 인접한 픽셀들이 가지는 거리, 반사율 정보로 나타나는 가중된 픽셀값을 인접한 픽셀들의 픽셀값에 적용하여 도 7과 같이 스케일링 된 고해상도의 깊이 맵과 반사율 맵을 생성하고 각각의 맵이 가지는 픽셀의 좌표를
Figure pat00051
,
Figure pat00052
, 영상 데이터가 가지는 픽셀의 좌표를
Figure pat00053
라 정의한다.
전처리 과정 이후에는 영상 데이터, 깊이 맵, 반사율 맵을 바탕으로 각각의 객체 탐지 모델 C-YOLO, D-YOLO, R-YOLO를 통해 학습을 진행한다. CNN의 구조는 24개의 컨볼루션 계층과 2개의 완전연결 계층으로 구성하였으며 격자 구역의 크기와 개수를 결정하는
Figure pat00054
, 각각의 격자 구역이 예측하는 경계상자의 개수인
Figure pat00055
, 탐지할 객체는 자동차를 선정하여
Figure pat00056
로 설정하였다. 영상 데이터, 깊이 맵, 반사율 맵으로 분류된 데이터를 개별적으로 학습을 진행하였기 때문에 각각의 데이터에 대해 최적화된 파라미터를 이용하여 독립적으로 객체 탐지가 진행된다. 학습된 객체 탐지 모델은 데이터에 포함된 객체의 위치와 크기를 나타내는 경계상자의 정보
Figure pat00057
와 경계상자 내부의 분류된 객체가 정답일 확률을 나타내는
Figure pat00058
Figure pat00059
를 출력한다
Figure pat00060
. 모델을 통해 객체를 탐지한 이후에는 탐지 결과를 가중 평균을 통해 융합한다.
도 8은 본 발명의 일 실시예에 따른 가중 평균 기반의 센서 융합 예시를 나타내는 도면이다.
가중 평균은 데이터의 중요도를 나타내는 변수를 가중치로 반영한 평균값으로, 학습된 YOLO 기반 모델의 객체 탐지 결과는
Figure pat00061
의 경계상자의 기하학적 정보와 탐지한 객체가 실제값과 일치하는지를 나타내는
Figure pat00062
로 나타난다.
Figure pat00063
는 객체가 분류된 확률의 신뢰성을 반영하여, 높은
Figure pat00064
를 가지는 객체 탐지 결과의 경계상자는 실제값의 경계상자와 겹치는 면적이 넓어져 IOU가 높게 나타난다. 실제로 많은 객체 탐지 알고리즘에 실제값이 한 개의 객체를 포함할 때 객체 탐지 결과가 2개 이상인 경우, 가장 높은
Figure pat00065
의 경계상자 이외의 다른 경계상자를 억제하는 비최대값 억제 알고리즘(Non-maximum suppression)이 적용되고 있다. 따라서 3가지 모델에서 탐지된 객체의
Figure pat00066
를 가중하여 경계상자의 기하학적 정보의 평균값을 식 (5)와 같이 구한다.
Figure pat00067
(5)
여기서,
Figure pat00068
,
Figure pat00069
,
Figure pat00070
는 3가지 모델의 객체 탐지 결과로 나타나는 경계상자이다. 도 8에는 제안된 객체 탐지 시스템(weighted mean-YOLO, WM-YOLO)의 탐지 결과로 나타날 수 있는 5가지 상황에 대한 예시를 나타내었다. 이미지 평면에서 점선의 경계상자는 객체의 실제값, 실선의 경계상자는 시스템의 객체 탐지 결과이다. 시나리오 ①은 3가지 모델이 모두 객체를 탐지한 경우이므로 객체의 실제값에 대하여 3개의 경계상자
Figure pat00071
)와
Figure pat00072
가 출력된다. 각각의 경계상자가 가지는
Figure pat00073
값을 식 (5)와 같이
Figure pat00074
로 가중하여 평균값을 구한다. 따라서 3개의 경계상자의
Figure pat00075
Figure pat00076
에 따라 가중된 평균값을 가져 높은 IOU를 가지는 하나의 경계상자로 나타나게 된다.
도 9는 본 발명의 일 실시예에 따른 경계상자를 나타내는 도면이다.
도 9 (a)는 좌표기반의 평균, 도9(b)는 가중 평균을 나타낸다.
가중 평균된 경계상자가 높은 IOU를 가지는 이유는 기존의 객체 탐지 모델의 결과에서
Figure pat00077
가 높을수록 실제값의 경계상자와 겹치는 면적이 더 넓기 때문이다. 도 9(a)와 같이 가중치를 사용하지 않고 3개의 경계상자의 평균을 구하는 경우 실제값과는 관계없이 각각의 경계상자의 기하학적 정보만을 기반으로 융합된다. 하지만
Figure pat00078
를 가중치로 사용하여 3개의 경계상자의 평균을 구하는 경우 실제값과의 IOU가 반영되기 때문에 도 9(b)와 같이 높은 IOU를 가지는 검은 실선의 경계상자를 얻을 수 있다.
시나리오 ②, ③, ④는 C-YOLO, D-YOLO, R-YOLO, 세 모델 중 최소 1개 이상의 모델이 객체를 탐지한 경우이다. 예를 들어 시나리오 ②에서는 깊이 맵에서만 객체를 탐지하지 못하였으나 영상 데이터, 반사율 맵에서 탐지된 결과를 바탕으로 가중 평균을 통해 깊이 맵이 놓칠 수 있는 객체를 탐지할 수 있도록 보완함으로써 탐지 성능을 향상시킬 수 있게 된다.
도 10은 본 발명의 일 실시예에 따른 CNN을 활용한 카메라 및 라이다 센서 기반 실시간 객체 탐지 장치의 구성을 나타내는 도면이다.
제안하는 CNN을 활용한 카메라 및 라이다 센서 기반 실시간 객체 탐지 장치(1000)는 학습부(1010), 예측부(1020) 및 객체 탐지부(1030)를 포함한다.
학습부(1010)는 반사율 및 거리 정보를 포함하는 PCD와 영상 데이터에 기초하여 CNN 기반의 복수의 YOLO에 대한 객체 탐지 학습을 각각 수행한다.
학습부(1010)는 RGB 카메라의 시야각과 동일한 전면뷰로 투영하는 변환과정을 통해 PCD의 차원과 좌표계를 영상 데이터와 같은 2차원 픽셀 좌표계로 변환하는 전처리 수행 후, 영상 데이터, 깊이 맵, 반사율 맵으로 분류된 데이터에 기초하여 각각의 객체 탐지 모델을 통해 학습을 수행한다.
본 발명의 실시예에 따른 YOLO는 입력된 이미지 내부의 객체에 대한 경계상자의 예측과 분류를 동시에 실행한다. YOLO에 입력되는 영상 데이터는 해상도에 따라 격자 구역으로 나뉘고 CNN 구조의 신경망을 통해 특징이 추출되며, 완전 연결 노드를 통해 예측 텐서가 출력된다.
예측부(1020)는 PCD와 영상 데이터에 기초하여 학습된 각각의 객체 탐지 모델에서의 객체에 대한 경계상자와 신뢰도 점수를 예측한다. 예측부(1020)는 학습된 각각의 객체 탐지 모델의 객체 탐지 결과는 경계상자의 기하학적 정보와 탐지된 객체가 실제값과 일치하는지 정도를 나타내는 신뢰도를 반영하여 객체가 분류된 확률의 신뢰도 점수를 예측한다.
객체 탐지부(1030)는 객체 탐지 결과를 융합하기 위해 경계상자의 좌표를 해당 객체에 대한 신뢰도 점수를 기반으로 가중평균을 통해 최종 경계상자를 결정한다. 객체 탐지부(1030)는 각각의 객체 탐지 모델에서의 객체에 대한 경계상자들의 신뢰도 점수에 따라 가중된 평균값을 갖고, 각각의 경계상자의 기하학적 정보만을 기초로 하여 하나의 경계상자로 융합한다.
도 11은 본 발명의 일 실시예에 따른 단계별 평균 처리 시간을 나타내는 도면이다.
본 발명에서 시험평가에 사용된 KITTI 데이터셋은 RGB 카메라와 Velodyne Lidar 등의 센서가 장착된 차량으로 도시 지역에서 추출되었으며 7481개의 시퀀스의 학습 데이터로 구성되어 있다. 학습 데이터는 9가지 객체의 종류와 51,867개의 라벨을 포함하고 있으며 이 중 55%(4,145개)는 학습, 45%(3336개)는 성능평가에 활용하였고 객체는 자동차로 선정하였다. 학습을 위한 신경망의 알고리즘은 YOLO를 선택하고 학습을 진행한 워크스테이션의 OS는 Ubuntu 16.04.5(4.15.0-38 kernel), GPU는 2개의 GTX 1080 Ti(11GB), 라이브러리는 Cuda V8.0.44, Cudnn 8.0, Opencv 3.4.0을 사용하였다. YOLO에서 입력 받는 학습 이미지 데이터의 기본 크기는
Figure pat00079
의 해상도로 설정되어 있는데 KITTI에서 제공하는 이미지 데이터의 기본 크기는
Figure pat00080
의 해상도를 가져 학습 결과에 좋지 않은 영향을 미칠 수 있다. 따라서 YOLO의 입력 데이터의 기본 크기를
Figure pat00081
로 변경하고 학습 횟수는 45,000회로 설정하였으며 각각의 YOLO 모델을 학습하는데 소요된 시간은 33시간이다. 성능평가를 위해 IOU 기반의 객체 탐지 성능 평가지표로 활용되는 평균 정밀도(Average Precision; AP)와 병렬 구조로 시스템을 구축한 경우의 처리시간을 확인하였다.
AP는 객체 탐지의 성능을 평가하는 지표로 객체를 탐지하지 못하는 미검출과 객체를 다른 객체로 탐지하는 오검출(False-alarm)을 동시에 고려하는 평가지표이다. AP를 계산하는 경우 미검출과 오검출은 정밀도(Precision)와 재현율(Recall)로 정의되며 식 (6)과 같이 나타난다.
Figure pat00082
(6)
여기서, 탐지할 객체를 올바르게 탐지하는 경우는 TP(True Positive), 탐지하지 못한 경우는 FN(False Negative)로, 탐지할 객체 이외의 다른 객체를 탐지하지 않은 경우는 TN(True Negative), 탐지한 경우는 FP(False Positive)로 정의된다. 정밀도는 모든 검출 결과 중에서 객체를 올바르게 탐지한 경우의 비율을, 재현율은 모든 실제값 중에서 객체를 빠트리지 않고 탐지한 경우의 비율을 의미한다.
정밀도와 재현율은 IOU 값의 영향을 받으며, IOU를 조절하며 얻은 정밀도와 재현율을 곡선으로 나타낸 것을 AP 곡선이라 부르며 IOU에 따른 정밀도에 대한 재현율의 증가량의 곱(해당 곡선의 면적)을 나타낸 수치를 AP라 정의한다. 제안된 객체 탐지 시스템의 성능을 평가하기 위해 모든 객체에 대한 성능평가, KITTI 데이터 셋 기준의 성능평가, 외부 환경 변화에 대한 성능평가로 구분하여 진행하였다. 또한, KITTI 데이터 셋의 기준에 따라 지역 기반 방식의 탐지 알고리즘 중 빠른 탐지 속도를 가지는 Faster R-CNN[16]을 활용하여 RGB 카메라 기반 객체 탐지 결과와 같이 RGB 카메라와 라이다의 정보를 융합한 객체 탐지의 비교평가를 진행하였다.
제안된 시스템의 단계별 처리 시간을 도 11에 나타내었다. 병렬 구조로 시스템을 구축하는 경우 입력된 데이터로부터 각각의 모델의 객체 탐지 결과를 융합하는데 평균 77ms의 시간이 소요되었다. 특히 각각의 객체 탐지 모델이 프레임 당 최대 14ms의 빠른 속도로 객체를 탐지하며, 프레임 당 2s의 속도로 객체를 탐지하는 Faster R-CNN 보다 자동차 탐지속도가 하는 훨씬 빠른 것을 확인 할 수 있었다.
도 12는 본 발명의 일 실시예에 따른 객체 탐지 결과를 나타내는 도면이다.
본 발명에서 제안한 시스템은 C-YOLO, D-YOLO, R-YOLO의 객체 탐지 결과를 가중 평균을 통해 융합하여 객체 탐지의 성능을 고도화하는 것을 목적으로 한다. 따라서 단일 객체 탐지 시스템의 성능을 평가한 이후에 제안된 융합을 통한 객체 탐지 시스템의 시험평가를 통해 비교분석을 진행하였다. 단일 객체 탐지 시스템의 AP를 측정한 결과 영상 데이터로 학습한 C-YOLO가 84.31%로 가장 높게 나타났고 D-YOLO와 R-YOLO는 C-YOLO보다 약 15% 낮은 검출성능을 보였다. 데이터 전처리 과정에서 저해상도의 PCD를 양자 필터를 이용하여 고해상도로 샘플링 하였지만, 깊이 맵, 반사율 맵의 해상도는 영상 데이터의 35~45% 이하 수준으로 나타나기 때문에 영상 데이터와 비교하여 객체 정보의 희소성으로 인해 영상 데이터의 객체 탐지 성능이 가장 높게 측정되었다. 하지만 C-YOLO는 외부환경적 요인에 취약하기 때문에 그림자에 의해 배경이 어두워지는 경우, 장애물에 의하여 객체의 일부분이 가려진 경우에는 객체 탐지 성능이 저하되어, D-YOLO와 R-YOLO의 객체탐지 성능이 더 우수하였다. 결과적으로, 단일 객체 탐지 시스템의 탐지 결과를 가중 평균을 통해 융합한 결과 AP가 90.8%(IOU=0.7)로 향상되었으며, IOU에 따른 AP[%]를 표 1에 정리하였다.
<표 1> 단일·융합 객체 탐지 시스템 성능평가
Figure pat00083
또한, 단일 객체 탐지 시스템의 결과가 서로 상이한 경우 이들의 융합을 통해 서로 보강됨으로써 성능이 향상되는 것을 확인할 수 있었으며 융합된 탐지 결과 예시는 도 12에서 보여준다. C-YOLO에서 탐지하지 못한 경계상자를 D-YOLO와 R-YOLO는 각각 410개, 370개씩 탐지하였으며, D-YOLO에서 탐지하지 못한 경우 C-YOLO와 R-YOLO는 1,150개, 764개, R-YOLO에서 탐지하지 못한 경우 C-YOLO와 D-YOLO는 1,267개, 921개의 경계상자를 탐지하였다.
도 13은 본 발명의 일 실시예에 따른 난이도에 따른 정밀도와 재현율을 나타내는 그래프이다.
KITTI 데이터셋의 성능평가 방식은 탐지할 객체의 크기와 잘림 정도에 따라 ‘easy’, ‘moderate’, ‘hard’의 3가지 난이도로 나뉜다. ‘easy’는 잘림 정도가 ‘fully visible’, 픽셀의 높이가 최소 40픽셀, ‘moderate’는 잘림 정도가 ‘partial occlusions’, 픽셀의 높이가 최소 25픽셀, ‘hard’는 잘림 정도가 ‘higer occlusions’이며 픽셀의 높이는 ‘moderate’와 같다. 도 13에 C-YOLO, D-YOLO, R-YOLO와 제안된 WM-YOLO를 통한 IOU가 0.7일 때의 AP를 3가지 난이도에 따 라 나타내었으며 타 시스템과의 성능 비교 결과를 표 2에 나타내었다.
<표 2> 난이도에 따른 성능 비교평가
Figure pat00084
난이도에 따른 융합 결과 각각의 난이도에서 모두 WM-YOLO를 통한 객체 탐지의 성능이 향상된 것을 확인할 수 있었다. ‘easy’는 2.4%, ‘moderate’은 11.17%, ‘hard’는 25.48%로 가장 큰 성능 향상이 나타났다. 특히 ‘hard’에서는 독립적인 객체 탐지 모델의 성능은 비슷하게 나타났지만 가중 평균을 통해 WM-YOLO의 검출성능이 크게 향상되었다. 이러한 원인은 각각의 센서의 특징에 따라 탐지하는 객체가 다르기 때문이다. 영상 데이터는 0~255까지의 픽셀값을 가지기 때문에 표현되는 픽셀의 범위가 넓지만, 외부환경적 요인에 취약하다. 또한, 성능평가 결과 객체의 크기가 작거나 장애물에 의하여 객체가 잘린 경우 깊이 맵, 반사율 맵보다 객체 탐지 성능이 저하되는 것을 확인하였다. 이러한 이유는 깊이 맵과 반사율 맵의 해상도가 낮게 나타나 공간적인 특성을 가져 객체의 형태가 더 잘 표현되기 때문이다. 하지만 깊이 맵 및 반사율 맵은 픽셀이 거리, 반사율 정보에 따라 스케일링 되었기 때문에 영상 데이터보다 나타낼 수 있는 픽셀값의 범위가 좁게 나타난다. 이처럼 각각의 센서의 탐지 성능이 독립적으로 나타나는 경우 ‘hard’와 같이 탐지하기 어려운 객체에 대하여 센서 융합을 통한 성능 향상이 두드러졌다. 난이도에 따른 융합된 탐지 결과와 타 시스템과의 성능 비교결과 제안한 시스템은 가장 빠른 탐지 속도를 보여주었으며‘easy’에서는 가장 높은 AP가 나타났지만, ‘hard’에서는 가장 낮은 AP가 나타났다. ‘hard’에서 낮은 AP를 얻게된 이유는 제안된 시스템의 YOLO가 이미지를 임의의 격자 구역으로 나누어 객체를 탐지하므로 여러 개의 객체가 겹치거나 크기가 작은 경우 탐지 성능이 낮기 때문으로 판단된다.
도 14는 본 발명의 일 실시예에 따른 외부환경 변화 고려 시 정밀도와 재현율을 나타내는 도면이다.
다음으로는 외부환경적 특성에 취약한 RGB 카메라의 한계점에 대한 성능 평가를 진행하기 위해 영상 데이터의 명암을 밝게 또는 어둡게 변화시키고, 가우시안 백색 잡음을 추가해 가며 다양한 환경 변화에 따른 AP를 확인하였다. 명암이 밝은 영상은 순간적으로 낙뢰가 발생하거나 다른 차량의 상향등의 영향을 받는 경우, 명암이 어두운 영상은 태양에너지가 존재하지 않는 터널 내부나 야간, 그리고 가우시안 백색 잡음의 경우는 눈, 비가 내리거나 안개가 낀 날씨의 외부환경을 묘사하기 위해 영상 데이터를 전처리하였다. 명암을 조절하기 위해 0~255 로 나타나는 영상 데이터의 픽셀값 I에 명암을 조절하는 파라미터
Figure pat00085
를 적용하여 평균 픽셀값의 범위를
Figure pat00086
수준으로 나타내었다. 그리고 실제 환경에서 나타날 수 있는 일반적인 잡음을 데이터에 추가하기 위해 평균이 0, 분산이 0.005인 가우시안 백색 잡음을 추가하여 시험 데이터를 생성하였다. 각각의 상황에 대하여 AP를 확인한 결과, 외부 환경적 요인에 의해 RGB 카메라를 통한 객체 탐지 결과에 악영향을 미쳤을지라도 라이다를 통한 객체 탐지 결과를 가중 평균함으로써 도 14와 같이 C-YOLO보다 향상된 객체 탐지 결과를 얻을 수 있음을 확인하였다.
본 발명에서는 자율주행에서의 객체 탐지 성능 고도화를 위하여 RGB 카메라, 라이다의 객체 탐지 결과의 융합을 통해 검출성능을 고도화하는 가중 평균 기반의 적응형 객체 탐지 시스템을 제안하였다. RGB 카메라의 영상 데이터와 라이다의 고해상도로 크기조정 된 PCD를 통해 거리, 반사율 정보에 따라 깊이 맵과 반사율 맵을 생성한 후 C-YOLO, D-YOLO, R-YOLO 모델을 통해 각각 객체 탐지를 진행하였다. 이후 가중 평균을 기반으로 하는 융합을 통하여 최종적인 검출성능 고도화 결과를 도출하였다. 특히 데이터의 해상도가 높으나 외부환경적 요인에 취약한 영상 데이터와 외부환경적 요인에 강인하지만, 해상도가 낮은 PCD의 객체 탐지 결과를 가중 평균을 통해 보강하였을 때 객체 탐지 성능이 향상되며 실시간에 적합한 처리 속도로 최종 객체 탐지 결과를 도출하는 것을 확인하였다. 또한, 실제 주행환경에서 외부환경적 요인의 영향을 고려한 경우에도 제안된 WM-YOLO를 통해 객체 탐지 성능이 향상되는 것을 확인하였다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.  또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.  이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.  예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.  또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.  소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다.  소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.  상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.  상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.  컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.  프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.  예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (10)

  1. 반사율 및 거리 정보를 포함하는 PCD(Point Cloud Data)와 영상 데이터에 기초하여 CNN 기반의 복수의 YOLO에 대한 객체 탐지 학습을 각각 수행하는 단계;
    PCD와 영상 데이터에 기초하여 학습된 각각의 객체 탐지 모델에서의 객체에 대한 경계상자와 신뢰도 점수를 예측하는 단계; 및
    객체 탐지 결과를 융합하기 위해 경계상자의 좌표를 해당 객체에 대한 신뢰도 점수를 기반으로 가중평균을 통해 최종 경계상자를 결정하는 단계
    를 포함하는 실시간 객체 탐지 방법.
  2. 제1항에 있어서,
    반사율 및 거리 정보를 포함하는 PCD와 영상 데이터에 기초하여 CNN 기반의 복수의 YOLO에 대한 객체 탐지 학습을 각각 수행하는 단계는,
    RGB 카메라의 시야각과 동일한 전면뷰로 투영하는 변환과정을 통해 PCD의 차원과 좌표계를 영상 데이터와 같은 2차원 픽셀 좌표계로 변환하는 전처리 수행 후, 영상 데이터, 깊이 맵, 반사율 맵으로 분류된 데이터에 기초하여 각각의 객체 탐지 모델을 통해 학습을 수행하는
    실시간 객체 탐지 방법.
  3. 제1항에 있어서,
    반사율 및 거리 정보를 포함하는 PCD와 영상 데이터에 기초하여 CNN 기반의 복수의 YOLO에 대한 객체 탐지 학습을 각각 수행하는 단계는,
    YOLO는 입력된 이미지 내부의 객체에 대한 경계상자의 예측과 분류를 동시에 실행하고, YOLO에 입력되는 영상 데이터는 해상도에 따라 격자 구역으로 나뉘고 CNN 구조의 신경망을 통해 특징이 추출되며, 완전 연결 노드를 통해 예측 텐서가 출력되는
    실시간 객체 탐지 방법.
  4. 제1항에 있어서,
    PCD와 영상 데이터에 기초하여 학습된 각각의 객체 탐지 모델에서의 객체에 대한 경계상자와 신뢰도 점수를 예측하는 단계는,
    학습된 각각의 객체 탐지 모델의 객체 탐지 결과는 경계상자의 기하학적 정보와 탐지된 객체가 실제값과 일치하는지 정도를 나타내는 신뢰도를 반영하여 객체가 분류된 확률의 신뢰도 점수를 예측하는
    실시간 객체 탐지 방법.
  5. 제1항에 있어서,
    객체 탐지 결과를 융합하기 위해 경계상자의 좌표를 해당 객체에 대한 신뢰도 점수를 기반으로 가중평균을 통해 최종 경계상자를 결정하는 단계는,
    각각의 객체 탐지 모델에서의 객체에 대한 경계상자들의 신뢰도 점수에 따라 가중된 평균값을 갖고, 각각의 경계상자의 기하학적 정보만을 기초로 하여 하나의 경계상자로 융합하는
    실시간 객체 탐지 방법.
  6. 반사율 및 거리 정보를 포함하는 PCD와 영상 데이터에 기초하여 CNN 기반의 복수의 YOLO에 대한 객체 탐지 학습을 각각 수행하는 학습부;
    PCD와 영상 데이터에 기초하여 학습된 각각의 객체 탐지 모델에서의 객체에 대한 경계상자와 신뢰도 점수를 예측하는 예측부; 및
    객체 탐지 결과를 융합하기 위해 경계상자의 좌표를 해당 객체에 대한 신뢰도 점수를 기반으로 가중평균을 통해 최종 경계상자를 결정하는 객체 탐지부
    를 포함하는 실시간 객체 탐지 장치.
  7. 제6항에 있어서,
    학습부는,
    RGB 카메라의 시야각과 동일한 전면뷰로 투영하는 변환과정을 통해 PCD의 차원과 좌표계를 영상 데이터와 같은 2차원 픽셀 좌표계로 변환하는 전처리 수행 후, 영상 데이터, 깊이 맵, 반사율 맵으로 분류된 데이터에 기초하여 각각의 객체 탐지 모델을 통해 학습을 수행하는
    실시간 객체 탐지 장치.
  8. 제6항에 있어서,
    학습부는,
    YOLO는 입력된 이미지 내부의 객체에 대한 경계상자의 예측과 분류를 동시에 실행하고, YOLO에 입력되는 영상 데이터는 해상도에 따라 격자 구역으로 나뉘고 CNN 구조의 신경망을 통해 특징이 추출되며, 완전 연결 노드를 통해 예측 텐서가 출력되는
    실시간 객체 탐지 장치.
  9. 제6항에 있어서,
    예측부는,
    학습된 각각의 객체 탐지 모델의 객체 탐지 결과는 경계상자의 기하학적 정보와 탐지된 객체가 실제값과 일치하는지 정도를 나타내는 신뢰도를 반영하여 객체가 분류된 확률의 신뢰도 점수를 예측하는
    실시간 객체 탐지 장치.
  10. 제6항에 있어서,
    객체 탐지부는,
    각각의 객체 탐지 모델에서의 객체에 대한 경계상자들의 신뢰도 점수에 따라 가중된 평균값을 갖고, 각각의 경계상자의 기하학적 정보만을 기초로 하여 하나의 경계상자로 융합하는
    실시간 객체 탐지 장치.
KR1020190107150A 2019-08-30 2019-08-30 Cnn을 활용한 카메라 및 라이다 센서 기반 실시간 객체 탐지 방법 KR102269750B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190107150A KR102269750B1 (ko) 2019-08-30 2019-08-30 Cnn을 활용한 카메라 및 라이다 센서 기반 실시간 객체 탐지 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190107150A KR102269750B1 (ko) 2019-08-30 2019-08-30 Cnn을 활용한 카메라 및 라이다 센서 기반 실시간 객체 탐지 방법

Publications (2)

Publication Number Publication Date
KR20210026412A true KR20210026412A (ko) 2021-03-10
KR102269750B1 KR102269750B1 (ko) 2021-06-25

Family

ID=75148205

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190107150A KR102269750B1 (ko) 2019-08-30 2019-08-30 Cnn을 활용한 카메라 및 라이다 센서 기반 실시간 객체 탐지 방법

Country Status (1)

Country Link
KR (1) KR102269750B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113740098A (zh) * 2021-08-25 2021-12-03 安阳屹星智能科技有限公司 一种散煤车采样方法
KR102346304B1 (ko) * 2021-05-13 2022-01-03 주식회사 토르 드라이브 모양이 복잡하거나 크기가 큰 물체를 정확하게 인식할 수 있는 센서 융합 인식 시스템 및 그 방법
KR102366382B1 (ko) * 2021-03-11 2022-02-23 주식회사 에스아이에이 편집 및 자동 평가를 위한 사용자 인터페이스
KR20220130513A (ko) * 2021-03-18 2022-09-27 순천향대학교 산학협력단 라이더를 이용하는 가려진 객체 탐지 방법 및 장치
CN115187946A (zh) * 2022-07-06 2022-10-14 中国矿业大学 井下障碍物点云与图像数据融合的多尺度智能感知方法
CN117611592A (zh) * 2024-01-24 2024-02-27 长沙隼眼软件科技有限公司 一种异物检测方法、装置、电子设备以及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102528507B1 (ko) 2022-12-08 2023-05-08 주식회사 인터엑스 Yolo모델과 객체 추적 기법을 융합한 하이브리드형 열화상 이미지 기반 객체 탐지 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170200273A1 (en) * 2016-01-12 2017-07-13 Mitsubishi Electric Research Laboratories, Inc. System and Method for Fusing Outputs of Sensors Having Different Resolutions
US20190147245A1 (en) * 2017-11-14 2019-05-16 Nuro, Inc. Three-dimensional object detection for autonomous robotic systems using image proposals
KR20190095592A (ko) * 2018-01-23 2019-08-16 충북대학교 산학협력단 라이다 센서 및 카메라를 이용한 객체 검출 방법 및 그를 위한 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170200273A1 (en) * 2016-01-12 2017-07-13 Mitsubishi Electric Research Laboratories, Inc. System and Method for Fusing Outputs of Sensors Having Different Resolutions
US20190147245A1 (en) * 2017-11-14 2019-05-16 Nuro, Inc. Three-dimensional object detection for autonomous robotic systems using image proposals
KR20190095592A (ko) * 2018-01-23 2019-08-16 충북대학교 산학협력단 라이다 센서 및 카메라를 이용한 객체 검출 방법 및 그를 위한 장치

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Alireza 등. Multimodal vehicle detection: fusing 3D-LIDAR and color camera data, Pattern Recognition Letters. (2018.11.01.)* *
Imran 등. An Investigation of Interpolation Techniques to Generate 2D Intensity Image From LIDAR Data, IEEE Acess. (2017.04.30.)* *
Joseph 등. You Only Look Once: Unified, Real-Time Object Detection, Computer Vision and Pattern Recognition. (2016.06.27.)* *
Spyros 등. Object detection via a multi-region & semantic segmentation -aware CNN model, Computer Vision. (2015.12.07.)* *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102366382B1 (ko) * 2021-03-11 2022-02-23 주식회사 에스아이에이 편집 및 자동 평가를 위한 사용자 인터페이스
KR20220130513A (ko) * 2021-03-18 2022-09-27 순천향대학교 산학협력단 라이더를 이용하는 가려진 객체 탐지 방법 및 장치
KR102346304B1 (ko) * 2021-05-13 2022-01-03 주식회사 토르 드라이브 모양이 복잡하거나 크기가 큰 물체를 정확하게 인식할 수 있는 센서 융합 인식 시스템 및 그 방법
CN113740098A (zh) * 2021-08-25 2021-12-03 安阳屹星智能科技有限公司 一种散煤车采样方法
CN113740098B (zh) * 2021-08-25 2024-05-07 安阳屹星智能科技有限公司 一种散煤车采样方法
CN115187946A (zh) * 2022-07-06 2022-10-14 中国矿业大学 井下障碍物点云与图像数据融合的多尺度智能感知方法
CN115187946B (zh) * 2022-07-06 2023-06-27 中国矿业大学 井下障碍物点云与图像数据融合的多尺度智能感知方法
CN117611592A (zh) * 2024-01-24 2024-02-27 长沙隼眼软件科技有限公司 一种异物检测方法、装置、电子设备以及存储介质
CN117611592B (zh) * 2024-01-24 2024-04-05 长沙隼眼软件科技有限公司 一种异物检测方法、装置、电子设备以及存储介质

Also Published As

Publication number Publication date
KR102269750B1 (ko) 2021-06-25

Similar Documents

Publication Publication Date Title
KR102269750B1 (ko) Cnn을 활용한 카메라 및 라이다 센서 기반 실시간 객체 탐지 방법
US11643076B2 (en) Forward collision control method and apparatus, electronic device, program, and medium
KR102447352B1 (ko) 교통 신호등 검출 및 지능형 주행을 위한 방법 및 디바이스, 차량, 및 전자 디바이스
Chen et al. Lidar-histogram for fast road and obstacle detection
KR102371317B1 (ko) 희귀 인스턴스 분류기들
WO2020052540A1 (zh) 对象标注方法、移动控制方法、装置、设备及存储介质
JP5822255B2 (ja) 対象物識別装置及びプログラム
US20230110116A1 (en) Advanced driver assist system, method of calibrating the same, and method of detecting object in the same
US11568654B2 (en) Object recognition method and object recognition device performing the same
CN110674705A (zh) 基于多线激光雷达的小型障碍物检测方法及装置
Kim et al. An advanced object classification strategy using YOLO through camera and LiDAR sensor fusion
CN114118252A (zh) 一种基于传感器多元信息融合的车辆检测方法及检测装置
CN108629225B (zh) 一种基于多幅子图与图像显著性分析的车辆检测方法
Qing et al. A novel particle filter implementation for a multiple-vehicle detection and tracking system using tail light segmentation
CN113792598A (zh) 基于车载摄像头的汽车碰撞预测系统和方法
CN112990049A (zh) 用于车辆自动驾驶的aeb紧急制动方法、装置
CN108256444B (zh) 一种用于车载视觉系统的目标检测方法
CN114648549A (zh) 一种融合视觉和激光雷达的交通场景目标检测及定位方法
Chen et al. 3D Object detector: A multiscale region proposal network based on autonomous driving
CN117523428B (zh) 基于飞行器平台的地面目标检测方法和装置
Wu et al. Nighttime vehicle detection at close range using vehicle lamps information
Ng et al. Real-Time Detection of Objects on Roads for Autonomous Vehicles Using Deep Learning
US20230350064A1 (en) False positive object removal with surfel maps
Zhang et al. End-to-end BEV perception via homography matrix
Chen et al. Real-time road object segmentation using improved light-weight convolutional neural network based on 3D LiDAR point cloud

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant