WO2018207969A1

WO2018207969A1 - 객체 검출 및 분류 방법

Info

Publication number: WO2018207969A1
Application number: PCT/KR2017/005915
Authority: WO
Inventors: 민지홍; 강행봉; 오상일
Original assignee: 국방과학연구소
Priority date: 2017-05-10
Filing date: 2017-06-07
Publication date: 2018-11-15
Also published as: KR101907883B1

Abstract

본 발명은 영상에서 객체를 추출 및 분류하는 방법에 관한 것으로, 2차원 영상을 촬영하는 2차원 영상 센서와 상기 촬영된 2차원 영상으로부터 특정 객체를 추출 및 상기 특정 객체에 대한 클래스를 분류하는 2차원 영상 처리부와 3차원 영상을 촬영하는 3차원 영상 센서와 상기 촬영된 3차원 영상으로부터 상기 특정 객체를 추출 및 상기 특정 객체에 대한 클래스를 분류하는 3차원 영상 처리부와 상기 2차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과와, 상기 3차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과를 이용하여, 상기 특정 객체에 대한 최종 클래스 분류 결과를 산출하는 융합 처리부를 포함한다.

Description

객체 검출 및 분류 방법

본 발명은 영상에서 객체를 추출 및 분류하는 방법에 관한 것이다.

첨단 운전자 보조 시스템 (ADAS, Advanced driver assistant system)는 예측 불가능한 주행 상황에서 운전자의 안전을 위해 도움을 제공한다. ADAS는 2가지 부분으로 나누어 질 수 있는데, 인지 시스템과 경고 알림 인터페이스가 이에 해당된다. 첫 번째 부분에 대한 예로는 충돌 예측과 운전자의 부주의 검출, 두 번 째 부분은 운전자에게 이벤트에 대한 정보 제공을 포함한다. 하지만, 두 부분 모두 연속적인 지역 검출, 매핑, 그리고 운동 물체 추적, 검출 등 신뢰성 높은 객체 및 이벤트 검출을 요구한다는 공통점이 있다.

효과적인 관심 객체에 대한 식별 및 지역 검출을 수행하는 객체 검출 및 인식 방법은 다양한 분야에서 중요하게 적요된다. 객체 검출은 주행 중 실시간 지도에서 진행되어지며 객체 분류는 오프라인 데이터베이스에서 학습된 분류 모델을 사용해 진행된다. 객체 검출 및 분류 시스템은 객체 후보를 검출하는 후보 검출기와 검출된 객체 후보 영역을 분류하는 분류 모델로 나누어진다. 관심 객체 영역은 보통 하나의 특징 벡터로써 표현되며, support vector machine (SVM), Adaboost 등 의 기계학습 모델을 통해 분류하는 것이 전통적인 방식이다.

지능형 차량 시스템에서, 객체 검출 및 분류 성능을 향상시키기 위한 한 가지 방법은 몇 가지 센서의 측정을 융합하는 것이다. 이 때, 서로 다른 센서의 불완전한 측정을 관리하는 것은 이러한 시스템을 구성하는데 있어 매우 중요하다. 서로 다른 센서의 융합을 위한 방법은 크게 두 가지로 나누어지는데 특징 융합과 결정 융합이 포함된다. 특징 융합 방법은 비 가공 데이터 혹은 데이터별 특성을 선택적으로 융합하는 방법이다. 비록 많은 특징 융합 방법이 제안되었음에도 불구하고 다중 센서 모달리티에 포함되는 센서 중 하나의 센서에 문제가 발생 할 경우 시스템 전체에 부정적 영향을 미칠 수 있다. 이에 반해 결정 융합 방법은 객체 검출 및 분류 과정을 각 센서별로 독립적 수행을 하며 각 센서에서의 결과를 융합해 최종 결과를 도출하는 방식이다.

본 발명에서는 각 센서 별 객체 후보 영역을 검출하는 방법을 제안한다. 효과적인 객체 후보 검출을 위해, 적은 수의 의미있는 객체 후보 영역을 찾는 것을 목표로 한다. CCD 센서에서 측정된 영상 데이터에 대해 색상 평활화를 적용한 영상 분할 및 의미적 분할된 영상 그루핑을 통해 효과적으로 객체 후보 영역을 검출 할 수 있다. LIDAR 센서를 통해 측정된 3차원 점 구름 데이터에 대해서 슈퍼복셀 분할 및 영역 성장 방법을 적용해 객체 후보 영역을 각각 검출 한다. 또한 다중 레이어 레이저 스캐너 (3D LIDAR)와 CCD 센서를 융합하는 객체 분류 방법을 제안한다. 이를 위해, 각 센서에서 검출된 객체 후보 영역을 컨벌루션 인공 신경망 (이하 CNN, Convolutional Neural Network)을 사용해 분류하고 또 다른 CNN을 통해 최종 융합 분류를 수행한다.

본 발명은 객체 검출 장치의 객체 검출의 정확도를 향상시키는 것을 일 목적으로 한다.

또한, 본 발명은 객체 검출 장치에 설치된 다수의 센서들의 센서 정보들을 융합하여, 객체 검출의 정확도를 향상시키는 것을 또 다른 목적으로 한다.

본 발명은 2차원 영상을 촬영하는 2차원 영상 센서와 상기 촬영된 2차원 영상으로부터 특정 객체를 추출 및 상기 특정 객체에 대한 클래스를 분류하는 2차원 영상 처리부와 3차원 영상을 촬영하는 3차원 영상 센서와 상기 촬영된 3차원 영상으로부터 상기 특정 객체를 추출 및 상기 특정 객체에 대한 클래스를 분류하는 3차원 영상 처리부와 상기 2차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과와, 상기 3차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과를 이용하여, 상기 특정 객체에 대한 최종 클래스 분류 결과를 산출하는 융합 처리부를 포함한다.

일 실시 예에 있어서, 상기 2차원 영상 처리부는 상기 2차원 영상을 색상 평활화 처리하고, 상기 색상 평활화 처리된 2차원 영상으로부터 객체 후보 영역을 검출하는 것을 특징으로 한다.

일 실시 예에 있어서, 상기 2차원 영상 처리부는 상기 색상 평활화 처리된 2차원 영상을 복수의 영역으로 분할하고, 색상 및 텍스쳐의 비유사도에 근거하여, 상기 복수의 영역의 적어도 일부를 객체 후보 영역으로 추출하는 것을 특징으로 한다.

일 실시 예에 있어서, 상기 3차원 영상은 점 구름 데이터들로 이루어져 있고, 상기 3차원 영상 처리부는 상기 3차원 영상을 이루는 점 구름 데이터들을 복셀 공간으로 변환하고, 상기 변환된 복셀 공간을 단위 크기를 갖는 슈퍼 복셀로 분할하며, 각 공간에 포함된 점 구름 데이터의 높이차에 근거하여, 상기 슈퍼 복셀을 그룹핑하여, 객체 후보 영역을 검출하는 것을 특징으로 한다.

일 실시 예에 있어서, 상기 복셀 공간은 잡음 효과를 최소화하도록 기 설정된 크기를 갖는 것을 특징으로 한다.

일 실시 예에 있어서, 상기 융합 처리부는 상기 2차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과와, 상기 3차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과 사이의 연관성을 계산하고, 상기 연관성에 근거하여, 상기 특정 객체에 대한 최종 클래스 분류 결과를 산출하는 것을 특징으로 한다.

일 실시 예에 있어서, 상기 융합 처리부는, 상기 2차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과와, 상기 3차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과가 서로 연관되었다고 판단되면, 상기 2차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과와, 상기 3차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과를 조합하여, 최종 클래스 분류 결과를 산출하고, 상기 2차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과와, 상기 3차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과가 서로 연관되지 않았다고 판단되면, 최종 클래스 분류 결과를 산출하지 않는 것을 특징으로 한다.

본 발명은 2차원 영상과 3차원 영상에서 각각 특정 객체를 검출 및 분류하고, 각각 검출 및 분류된 결과 정보의 연관성 여부에 따라, 두 결과의 융합 여부를 결정함으로써, 특정 객체 추출 및 분류의 정확도를 향상시킬 수 있다.

도 1은 객체 검출 장치의 구성을 나타낸 개념도이다.

도 2는 차량에 객체 검출 장치(1000)가 설치된 모습을 나타낸 개념도이다.

도 3은 본 발명에 따른 객체 검출 장치가 특정 객체를 검출하는 방법을 나타낸 흐름도이다.

도 4는 본 발명에 따른 객체 검출 장치가 3차원 영상에서 특정 객체를 추출하는 방법을 나타낸 흐름도이다.

도 5는 본 발명에 따른 객체 검출 장치가 복수의 센서를 통하여 추출된 추출 결과들을 조합하는 방법을 나타낸 흐름도이다.

이하에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시 예를 상세히 설명한다. 그러나 본 발명은 이하의 실시 예에 한정되지 않으며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 효율적으로 설명하기 위한 수단일 뿐이다.

그리고 본 발명을 명확하게 설명하기 위하여, 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그 상세한 설명은 생략하였다. 또한, 본 발명의 도면에서는, 명세서 전체를 통하여 동일한 구성 요소에 대하여, 동일한 도면 부호를 붙여 설명한다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 명세서에 있어서 '부' 또는 ‘모듈’이란, 하드웨어 또는 소프트웨어에 의해 실현되는 유닛(unit), 양방을 이용하여 실현되는 유닛을 포함하며, 하나의 유닛이 둘 이상의 하드웨어를 이용하여 실현되어도 되고, 둘 이상의 유닛이 하나의 하드웨어에 의해 실현되어도 된다.

그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

자율 주행 차량은 자율 주행을 위하여, 차량의 주변에 존재하는 객체의 검출 및 분류 기술을 필요로 한다. 본 발명은 자율 주행 차량에서, 다수의 센서에서 측정된 다수의 측정 결과를 이용하여, 차량의 주변에 존재하는 객체의 검출 및 분류를 수행하는 방법에 대하여 제안한다.

본 발명에 따른 객체 검출 장치(1000)는 다수에 센서에서 측정된 다수의 측정 결과를 이용하여 객체의 검출 및 분류를 수행할 수 있다.

상기 객체 검출 장치(1000)는 차량의 내부 구성 요소일 수도 있고, 차량의 외부 구성 요소로써, 차량의 다른 구성 요소들과 유선 또는 무선으로 통신 가능하도록 형성될 수 있다.

이하에서는, 도 1 및 도 2와 함께 객체 검출 장치(1000)의 구성에 대하여 살펴본다.

도 1을 참고하면, 객체 검출 장치(1000)는 2차원 영상 센서(110), 2차원 영상 처리부(120), 3차원 영상 센서(210), 3차원 영상 처리부(220) 및 융합 처리부(310)을 포함할 수 있다.

2차원 영상 센서(110)는 2차원 영상을 촬영하는 이미지 센서이다. 이러한 이미지 센서의 일 예로, CCD(charging coupled device) 센서가 있다. 2차원 영상 센서(110)는 양안 카메라에 포함될 수 있다. 따라서, 2차원 영상 센서(110)는 차량 주변을 360도로 촬영한 2차원 영상을 생성할 수 있다.

2차원 영상 센서(110)는 차량의 주변 환경을 촬영하도록 차량의 외주면에 설치될 수 있다. 특히, 도 2를 참조하면, 2차원 영상 센서(110)는 차량의 천장에 설치될 수 있다.

2차원 영상 처리부(120)는 상기 2차원 영상 센서(110)를 통하여 촬영된 2차원 영상으로부터 특정 객체를 검출하는 역할을 수행할 수 있다. 특정 객체는, 차량 주변에 위치한 객체로써, 예를 들어, 보행자, 주변 차량, 자전거, 가로등 등이 될 수 있다.

3차원 영상 센서(210)는 3차원 영상을 촬영하는 이미지 센서이다. 3차원 영상 센서(210)의 일 예로, 3차원 레저스캐너 센서가 있다. 3차원 영상 센서(210)는 차량의 주변을 360도로 촬영한 3차원 영상을 생성할 수 있다. 도 2와 같이, 3차원 영상 센서(210)는 차량의 천장 쪽에 설치될 수 있다.

3차원 영상 처리부(220)는 상기 3차원 영상 센서(210)를 통하여 촬영된 3차원 영상으로부터 특정 객체를 검출하는 역할을 수행할 수 있다.

융합 처리부(310)는 상기 2차원 영상 처리부(120)에서 검출한 특정 객체와, 상기 3차원 영상 처리부(220)에서 검출한 특정 객체를 조합하여, 차량 주변에 위치한 특정 객체를 검출 및 분류할 수 있다.

이상에서는 차량 주변에 존재하는 특정 객체를 검출 및 분류하는 객체 분류 장치(1000)에 대하여 설명하였다.

이하에서는 본 발명에 따른 객체 검출 장치가 2차원 영상으로부터 객체를 검출하는 방법에 대하여 설명한다. 도 3은 본 발명에 따른 객체 검출 장치가 특정 객체를 검출하는 방법을 나타낸 흐름도이다.

우선, 2차원 영상 처리부(120)는, 2차원 영상 데이터에 대하여, 색상 평활화 처리를 수행할 수 있다(S310).

2차원 영상 처리부(120)는 2차원 영상으로부터 객체 검출 시, 객체 검출의 효율성을 향상시키기 위하여, 2차원 영상을 색상 평활화 처리할 수 있다. 상기 색상 평활화는 2차원 영상의 색상을 균일하게 처리하는 알고리즘이다. 즉, 2차원 영상 처리부(120)는 2차원 영상의 색상을 단조롭게 변경하여, 2차원 영상에 포함된 특정 객체를 더욱 효율적으로 검출할 수 있다.

상기 색상 평활화는 L1 영상 색상 변환 기술에 기반을 두고 있다. 상기 2차원 영상 처리부(120)는 2차원 영상을 L1 영상 색상 변환 기술을 이용하여, 색상 평활화를 수행한 변환 영상을 생성할 수 있다. 이하에서는, L1 영상 색상 변환이 수행되기 이전의 2차원 영상을 원본 영상(

), L1 영상 변환이 수행된 2차원 영상을 변환 영상(

)으로 명명한다.

2차원 영상 처리부(120)는 하기의 수학식 1로 정의된 에너지 함수를 이용하여, 원본 영상을 변환 영상으로 변환할 수 있다.

[수학식 1]

(

: 에너지 함수,

: 원본 영상의 픽셀과 변환 영상의 픽셀 간의 내부적 유사도,

: 이웃하는 두 픽셀 사이의 유사도)

보다 구체적으로, 2차원 영상 처리부(120)는 원본 영상의 픽셀과 변환 영상의 픽셀 간의 내부적 유사도(

)를 계산할 수 있다. 상기

는 하기의 수학식 2로 정의될 수 있다.

[수학식 2]

(

: 원본 영상과 변환 영상 사이의 픽셀 간의 내부적 유사도,

: 변환 영상의 모든 픽셀 값을 이어 붙인 벡터,

: 원본 영상의 모든 픽셀 값을 이어 붙인 벡터)

즉,

는 원본 영상의 픽셀과, 변환 영상의 픽셀 간의 차이 값이 클수록 더 큰 값을 가질 수 있다. 따라서,

의 값이 크다는 것은, 원본 영상의 픽셀과 변환 영상의 픽셀 사이의 유사도가 낮다는 의미이고,

값이 작다는 것은, 원본 영상의 픽셀과 변환 영상의 픽셀 사이의 유사도가 높다는 의미이다.

2차원 영상 처리부(120)는 상기 픽셀 간 내부적 유사도를 나타내는

에 근거하여, 색상 평활화를 수행함으로써, 2차원 영상에 포함된 모든 픽셀이 동일한 밝기 로 변환되는 것을 방지할 수 있다.

보다 구체적으로, 2차원 영상 처리부(120)는

를 최소화하기 위하여,

가 최소가 되는 값을 찾을 수 있다. 2차원 영상 처리부(120)는

를 기 설정된 횟수만큼 반복적으로 변경하면서,

가 최소화되는

을 찾을 수 있다. 상기

에 대한 방향성은 split bregman 방법을 통하여, 결정될 수 있다.

또한, 상기 2차원 영상 처리부(120)는 서로 이웃하는 픽셀 사이의 유사도(

)를 계산할 수 있다. 이렇게 서로 이웃하는 픽셀 사이의 유사도를 지역적 완만함이라는 용어로도 명명할 수 있다. 이하, 설명의 편의를 위하여, 서로 이웃하는 2개의 픽셀을 픽셀 쌍이라고 명명하여 설명한다.

상기

는 하기의 수학식 3에 의하여 계산될 수 있다.

[수학식 3]

(

: 이웃하는 픽셀 사이의 유사도,

: 변환 영상의 픽셀(

)에서의 RGB 벡터,

: 픽셀 쌍(

,

)의 가중치,

: 변환 영상의 픽셀 수,

: 변환 영상의 픽셀(

)에 이웃하는 mXm 픽셀 범위)

상기 가중치는, 원본 영상에서 서로 유사한 색상 값을 갖는 픽셀 쌍에 높은 값이 할당될 수 있다. 따라서, 본 발명은, 서로 유사한 색상 값을 갖는 픽셀 쌍에 높은 가중치를 부여함으로써, 변환 영상의 서로 이웃하는 픽셀 사이의 색상 값의 차이를 최소화하여, 색상 평활화를 수행할 수 있다.

상기 가중치는, 하기의 수학식 4로 계산될 수 있다.

[수학식 4]

(

: 픽셀 쌍(

,

)의 가중치,

: CIELab 색상 공간에서의 픽셀(

) ,

: 조명 변화와 관련된 상수,

: 분산,

: i번째 픽셀의 CIELab 색상 공간에서의 l, a, b 값)

여기에서,

는 조명 변화와 관련된 상수로,

값을 조정하여, 조명 변화를 최소화 시킬 수 있다. 보다 구체적으로,

<1 일 때, 픽셀 쌍은 조명 변화에 대해 둔감해 질 수 있다.

이러한

와

는 반복적인 실험을 통하여, 최적의 성능을 도출하기 위한 상수 값이 결정될 수 있다. 바람직하게는, 실험 결과에 따라

와

는 각각 0.3과 1.0으로 설정할 수 있다.

한편, 상기 2차원 영상 처리부(120)는 최적의 변환 벡터

을 찾기 위하여, 하기의 수학식 5를 통하여, 수학식 3 및 수학식 4를 최적화할 수 있다.

[수학식 5]

(z : 변환 벡터,

: 상수,

: 최소 제곱 형태의 L1 에너지 항의 가중치를 제어하는 상수,

,

: split bregman 방법의 중간 변수)

상기

은 서로 이웃하는 픽셀에 속하는 상태를 나타내는 행렬일 수 있다. 보다 구체적으로,

은 mXn 행렬이며, pi가 pj의 mXm 이웃 픽셀에 속하는 경우,

, 그렇지 않은 경우,

을 가질 수 있다.

상기 2차원 영상 처리부(120)는 색상 및 텍스쳐의 유사도를 이용하여, 객체 후보 영역을 결정할 수 있다(S320).

2차원 영상 처리부(120)는 상기 색상 평활화 처리가 수행된 변환 영상을 복수의 영역으로 분할할 수 있다. 여기에서, 분할된 하나의 영역을 파티션(partition)으로 명명할 수 있다.

2차원 영상 처리부(120)는 서로 인접한 파티션(

,

) 사이의 유사도에 따라, 적어도 하나의 파티션을 하나의 그룹으로 그룹화할 수 있다. 상기 파티션 사이의 유사도는 색상 및 텍스쳐에 대한 유사도이다.

보다 구체적으로, 2차원 영상 처리부(120)는 하기의 [수학식 7]을 통하여, 서로 인접한 파티션(

,

) 사이의 비유사도를 계산할 수 있다.

[수학식 7]

(

: 서로 인접한 파티션 간의 비유사도,

: 서로 인접한 파티션(i, j) 간의 색상 비유사도,

: 서로 인접한 파티션(i,j) 간의 텍스쳐 비유사도,

: 색상, 텍스쳐 각각에 대한 가중치 상수)

2차원 영상 처리부(120)는 HSV(Hue Saturation Value) 공간의 히스토그램을 이용하여, 색상 비유사도(

)를 계산할 수 있다. 보다 구체적으로, 2차원 영상 처리부(120)는 각 파티션의 색상 공간에 대한 각 색상 채널을 25칸의 히스토그램으로 변환할 수 있다. 그리고, 2차원 영상 처리부(120)는 H, S, V 색상 공간의 각 25칸 히스토그램을 이어 붙여, 총 75칸의 히스토그램(

)을 계산할 수 있다.

상기 2차원 영상 처리부(120)는 서로 인접한 파티션들에 각각 대응되는 히스토그램(

) 사이의 거리를 계산하여, 색상 비유사도(

)를 계산할 수 있다.

또한, 2차원 영상 처리부(120)는 원본 영상에 대하여, SIFT(Scale Invariant Feature Transform)의 히스토그램(

)을 이용하여, 텍스쳐 비유사도(

)를 계산할 수 있다. 여기에서, SIFT의 히스토그램은

에서 8 방향에 대한 가우시안 미분을 RGB 각 채널에 적용하는 히스토그램이다. 또한, 본 발명은 텍스처에 많은 압축이 가해진 변환 영상 대신 원본 영상을 이용하여, 텍스쳐 비유사도를 계산함으로써, 텍스처 비유사도 계산의 정확도를 향상시킬 수 있다.

보다 구체적으로, 2차원 영상 처리부(120)는 각 방향에 대하여, 10개의 칸으로 구성된 히스토그램을 생성할 수 있다. 따라서, 2차원 영상 처리부(120)는 SIFT 히스토그램을 240개의 칸으로 계산할 수 있다.

상기 2차원 영상 처리부(120)는 하기의 [수학식 8]을 이용하여, 텍스처 비유사도를 계산할 수 있다.

[수학식 8]

(

: 텍스쳐 비유사도,

: i 번째 파티션의 SIFT 히스토그램,

: j번째 파티션의 SIFT 히스토그램)

2차원 영상 처리부(120)는 하기의 수학식 9를 이용하여, 수학식 7의 비유사도를 최적화할 수 있다.

[수학식 9]

(

: 비유사도 함수를 통해 계산된 영상 분할 결과,

: 기존 데이터 셋에서 결과를 알고있는 분할 결과(ground truth segmentation),

: 선형 SVM을 통해 미리 정의된 규칙화 변수,

: slack 변수)

2차원 영상 처리부(120)는 상기 계산된 비유사도(

)가 기 설정된 값 미만인 경우, 적어도 두 개의 파티션을 그룹화하여, 그룹을 생성할 있다. 예를 들어, 2차원 영상 처리부(120)는 서로 인접한 제1파티션(

)과 제2파티션(

)의 비유사도(

)가 기 설정된 값(

) 미만인 경우, 제1파티션(

)과 제2파티션(

)을 하나의 그룹으로 설정할 수 있다. 한편, 여기에서, 기 설정된 값(

)은 반복적인 실험을 통하여 결정되는 상수이다.

그리고, 2차원 영상 처리부(120)는, 유사도가 높은 파티션들이 모인 그룹을 객체 후보 영역으로 결정할 수 있다.

2차원 영상 처리부(120)는 객체 후보 영역으로부터 특정 객체를 추출할 수 있다(S330).

2차원 영상 처리부(120)는 CNN 모델 구조를 이용하여, 상기 결정된 객체 후보 영역으로부터 특정 객체를 추출할 수 있다.

2차원 영상 처리부(120)는 특정 객체의 추출 정확도를 향상시키기 위하여, t상기 결정된 객체 후보 영역에 대하여, 복수의 컨벌루션 레이어의 출력을 사용하는 컨벌루션 큐브(ConvCube)를 구축할 수 있다. 여기에서, 컨벌루션 레이어는, 입력된 데이터에 컨벌루션 연산을 적용하는 기능을 수행하는 레이어이며, 컨벌루션 큐브는두 개 이상의 레이어의 출력물을 3차원 영상으로 이여 붙인 것이다.

한편, 컨벌루션 큐브에 사용되는 복수의 컨벌루션 레이어의 출력물은 서로 다른 크기를 갖기 때문에, 특정 객체의 크기에 따라, 서로 다른 샘플링 방법을 적용하여, 크기를 규격화할 수 있다. 따라서, 2차원 영상 처리부(120)는 특정 객체의 크기에 따라 샘플링 방법을 달리함으로써, 특징 손실을 최소화할 수 있기 때문에, 특정 객체의 크기가 작더라도, 특정 객체를 검출할 수 있다.

보다 구체적으로, 컨벌루션 큐브의 크기보다 큰 출력을 갖는 컨벌루션 레이어는, Max pooling 샘플링 방식이 적용될 수 있고, 이와 반대의 경우, Deconvolution 샘플링 방식이 적용될 수 있다.

2차원 영상 처리부(120)는, 크기 별로 샘플링이 완료된 컨벌루션 레이어들에 대하여, 지역 응답 정규화(LRN, local response normalization)을 통하여 값의 정규화를 수행할 수 있다.

한편 2차원 영상 처리부(120)는, 객체 후보 영역 전체에 대하여, CNN 모델 구조를 적용하는 것이 아니라, 객체 후보 영역을 이루는 일 프레임에 대하여 컨벌루션 큐브를 구축하고, ROI-pooing을 적용하여, 객체 후보 영역 전체에 대한 컨벌류션 큐브를 구축할 수 있다.

2차원 영상 처리부(120)는 상기 객체 후보 영역 전체에 대하여 구축된 컨벌루션 큐브를, 2개의 컨벌루션 레이어와 2개의 완전 연결(fully-connected) 레이어를 순차적으로 적용하여, 최종 출력을 획득할 수 있다.

2개의 컨벌루션 레이어와 2개의 완전 연결(fully-connected) 레이어를 순차적으로 통과한 후, 2차원 영상 처리부(120)는 softmax 분류 레이어를 통하여, 특정 객체를 추출 및 특정 객체의 클래스를 분류할 수 있다. 여기에서, 클래스는 객체의 종류를 나타내는 것으로, 예를 들어, 자동차, 사람, 2륜차를 탄 사람으로 정의될 수 있다.

이상에서는, 본 발명에 따른 객체 검출 장치가 2차원 영상에서, 특정 객체를 추출하는 방법에 대하여 설명하였다.

이하에서는, 본 발명에 따른 객체 검출 장치가 3차원 영상에서, 특정 객체를 추출하는 방법에 대하여 설명한다. 도 4는 본 발명에 따른 객체 검출 장치가 3차원 영상에서 특정 객체를 추출하는 방법을 나타낸 흐름도이다.

도 4를 참조하면, 3차원 영상 처리부(220)는 3차원 영상을 이루는 3차원 점 구름 데이터를 복셀로 변환할 수 있다(S410).

3차원 영상 센서(210)는 차량의 주변 환경을 3차원 영상으로 촬영할 수 있다. 3차원 영상은 3차원 점 구름 데이터로 이루어질 수 있다.

3차원 영상 처리부(220)은 상기 3차원 영상을 이루는 점 구름 데이터를 3차원 활성화 복셀 공간으로 변환할 수 있다. 3차원 활성화 복셀 공간이란, 3차원 점 구름 데이터를 포함하는 공간을 의미한다. 예를 들어, 3차원 점 구름 데이터 i의 좌표를

라고 정의했을 때, 3차원 점 구름 데이터 i에 해당하는 복셀 공간은,

으로 정의된다. 3차원 점 구름 데이터 i에 해당하는 복셀 공간은, 3차원 점 구름 데이터 i와 그 주변의 3차원 점 구름 데이터를 포함할 수 있다.

상기 복셀 공간은 기 설정된 크기를 가질 수 있다. 복셀 공간의 크기가 작은 경우, 잡음 데이터를 감소시키기 어렵고, 복셀 공간의 크기가 큰 경우, 의미 있는 객체 형태가 압축되는 문제점이 발생한다. 이에, 복셀 공간은, 잡음 데이터를 최소화하면서, 의미 있는 객체의 형태가 압축되지 않는 크기를 가져야 하며, 이러한 복셀 공간의 크기는 실험에 의하여 결정될 수 있다. 바람직하게는 상기 복셀 공간의 크기는, 0.1X0.1X0.1로 결정될 수 있다. 이를 통하여, 3차원 영상 처리부(220)는 3차원 점 구름 데이터들을 특정 크기를 갖는 복수의 복셀 공간으로 그룹핑하여, 잡음 데이터의 영향을 최소화할 수 있다.

3차원 영상 처리부(220)는 하기의 [수학식 10]에 의하여, 각 복셀 공간의 활성화 확률을 계산할 수 있다.

[수학식 10]

(

: 복셀(

)의 활성화 확률,

:복셀 개수,

: 복셀(

)을 이루는 3차원 점 구름 데이터의 수,

: 복셀(

)의 j번째 3차원 점 구름 데이터)

상기

는 j번째 레이저가 장애물에 반사된 경우, 1, 반사되지 않은 경우, 0을 가질 수 있다.

3차원 영상 처리부(220)는 상기 변환된 복수의 복셀 공간을 복수의 슈퍼 복셀로 변환하고, 슈퍼 복셀 간의 높이차를 이용하여, 객체 후보 영역을 결정할 수 있다(S420).

3차원 영상 처리부(220)는 3차원 영상에 포함된 객체의 경계선을 정확하게 추출하기 위하여, 복셀 공간을 단위 크기를 갖는 슈퍼 복셀로 분할할 수 있다. 보다 구체적으로, 3차원 영상 처리부(220)는 복셀 구름 연결성 분할(VCCS, Voxel cloud connectivity segmentation)을 통하여, 복셀 공간을 복수의 슈퍼 복셀로 분할할 수 있다. 상기 복셀 구름 연결성 분할은 3차원 데이터 공간 상에 씨뿌리기 방법(seeding methodology)를 이용하여, 공간 분할을 수행한다.

상기 3차원 영상 처리부(220)는 상기 슈퍼 복셀이 객체 추출을 위한 객체 단위의 파티션을 포함할 수 있도록 3차원 공간 상의 슈퍼 복셀을 2차원 [X,Z] 공간 상의 0.1m X 0.1m 격자로 투영할 수 있다.

그리고, 3차원 영상 처리부(220)는 각 격자 안의 슈퍼 복셀의 높이 차이를 이용하여, 격자의 연결 여부를 결정할 수 있다. 즉, 3차원 영상 처리부(220)는 격자 안의 슈퍼 복셀 간의 높이 차이가 0.1m 이하인 경우, 각 격자 안의 슈퍼 복셀을 그룹핑할 수 있다. 이와 반대로, 3차원 영상 처리부(220)는 격자 안의 슈퍼 복셀 간의 높이 차이가 0.1m 를 초과하는 경우, 각 격자 안의 슈퍼 복셀을 그룹핑하지 않을 수 있다.

상기 3차원 영상 처리부(220)는 상기 그룹핑된 슈퍼 복셀에 해당하는 영역을 객체 후보 영역으로 설정할 수 있다.

3차원 영상 처리부(220)는 상기 결정된 객체 후보 영역으로부터 특정 객체를 추출할 수 있다(S430).

3차원 영상 처리부(220)는 3차원 점 구름 데이터를, 2차원 영상 깊이 정보 데이터로 변환하여, 2차원 영상 처리부(120)와 동일한 방식으로 특정 객체를 추출 및 특정 객체의 클래스를 분류할 수 있다. 즉, 3차원 영상 처리부(220)는 CNN 모델 구조를 이용하여, 특정 객체를 추출할 수 있다. 따라서, 이에 대한 구체적인 설명은 S330의 설명으로 대체한다.

이상에서는 3차원 영상으로부터 특정 객체를 추출하는 방법에 대하여 설명하였다.

이하에서는 2차원 영상에서 특정 객체를 추출한 결과와, 3차원 영상에서 특정 객체를 추출한 결과를 이용하여, 특정 객체의 추출 정확도를 향상시키는 방법에 대하여 설명한다. 도 5는 본 발명에 따른 객체 검출 장치가 복수의 센서를 통하여 추출된 추출 결과들을 조합하는 방법을 설명한다.

본 발명에 따른 객체 검출 장치(1000)의 융합 처리부(310)는, 2차원 영상 처리부(120)와, 3차원 영상 처리부(220)로부터 각각 특정 객체를 추출한 추출 결과를 수신할 수 있다. 그리고, 융합 처리부(310)는 두 개의 추출 결과를 융합하여, 특정 객체를 검출할 수 있다. 이하, 융합 처리부(310)의 제어에 대하여 보다 구체적으로 살펴본다.

도 5를 참조하면, 융합 처리부(310)는 서로 다른 센서에서 측정된 영상 데이터로부터 추출된 서로 다른 객체 정보에 대한 유사도를 산출할 수 있다(S510).

융합 처리부(310)는 2차원 영상 센서(120)와 3차원 영상 센서(210)에서 추출된 특정 객체를 나타내는 추출 결과에 대하여, 서로 간의 유사도를 계산할 수 있다. 이러한 유사도 계산 방식은, 기본적 신뢰 할당(BBA, basic belief assingment) 방식을 이용할 수 있다.

보다 구체적으로, 융합 처리부(310)는 2차원 영상과 3차원 영상 각각의 객체 후보 영역으로부터 특정 객체의 윤곽선이 포함된 복수의 경계 영역을 검출할 수 있다. 즉, 융합 처리부(310)는 2차원 영상의 객체 후보 영역으로부터 특정 객체의 윤곽선이 포함된 제1경계 영역을 검출하고, 3차원 영상의 객체 후보 영역으로부터 특정 객체의 윤곽선이 포함된 제2경계 영역을 검출할 수 있다.

상기 융합 처리부(310)는, 클래스 분류 결과의 거리(

) 및 클래스 비유사도(

)에 근거하여, 경계 영역 간의 관계 정보를 획득할 수 있다. 여기에서, Yager의 결합 이론이 사용될 수 있다.

우선, 융합 처리부(310)는, 클래스 분류 결과의 거리(

)를 계산하기 위하여, 제1경계 영역과 제2경계 영역 간의 관계 행렬을 계산할 수 있다.

상기 관계 행렬은 제1경계 영역에 포함된 파티션의 수인 n과 제2경계 영역에 포함된 슈퍼 복셀의 수인 m에 의하여, n X m 행렬로 나타낼 수 있다. 또한, 상기 관계 행렬은, 제1경계 영역에 포함된 파티션(

)과, 제2경계 영역에 포함된 슈퍼 복셀(

) 사이의 관계 성분 (

)으로 구성될 수 있다.

상기 융합 처리부(310)는 관계 행렬을 이용하여, 제1경계 영역과 제2경계 영역 간의 가설 집단을 하기의 수학식 11을 통하여 표현할 수 있다.

[수학식 11]

여기에서,

는 관계 확률

이고,

은 관계 확률

이다.

상기 융합 처리부(310)는 상기 제1경계 영역과, 상기 클래스 분류 결과의 거리(

)의 기본적 신뢰 할당을 하기의 수학식 12에 의하여 계산할 수 있다.

[수학식 12]

(

: 증거 감소 팩터(evidence discounting factor),

:

와

사이의 Mahalanobis 거리)

한편, 상기 융합 처리부(310)는, 서로 거리가 가까울 때, 클 값을 반환하기 위하여, 하기의 수학식 13을 이용할 수 있다.

[수학식 13]

(

: 거리의 가까움을 나타내는 상수)

또한, 상기 융합 처리부(310)는, 상기 제1경계 영역에 포함된 파티션(

)과, 상기 제2경계 영역에 포함된 슈퍼 복셀(

) 사이의 클래스 관계를 나타내는 클래스 비유사도(

)를 계산할 수 있다.

상기 클래스 관계란 상기 제1경계 영역에 포함된 파티션(

)과, 상기 제2경계 영역에 포함된 슈퍼 복셀(

)이 동일한 클래스인지 다른 클래스인지 여부를 의미한다.

상기 제1경계 영역에 포함된 파티션(

)과, 상기 제2경계 영역에 포함된 슈퍼 복셀(

)이 동일한 클래스인 경우, 상기 제1경계 영역에 포함된 파티션(

)과, 상기 제2경계 영역에 포함된 슈퍼 복셀(

)은 동일한 객체를 가질 수 있기도 하고, 서로 다른 객체를 포함할 수도 있다. 반면에, 상기 제1경계 영역에 포함된 파티션(

)과, 상기 제2경계 영역에 포함된 슈퍼 복셀(

)이 서로 다른 클래스인 경우, 상기 제1경계 영역에 포함된 파티션(

)과, 상기 제2경계 영역에 포함된 슈퍼 복셀(

)은 서로 다른 객체를 가질 수 있다. 따라서, 본 발명에서는, 클래스 유사도가 아닌, 클래스 비유사도를 측정하여, 상기 제1경계 영역에 포함된 파티션(

)과, 상기 제2경계 영역에 포함된 슈퍼 복셀(

)이 서로 다른 객체를 가지는 경우를 계산한다.

융합 처리부(310)는, 클래스 비유사도를 계산하기 위하여, 클래스 관계의 가설집단을

으로 정의할 수 있다. 융합 처리부(310)는 각 클래스에 대한 확률 비율을 pignistic trasformation을 사용하여, BBA 밀도 함수로 변환할 수 있다. 상기 BBA 밀도 함수는,

으로 정의될 수 있다. 여기에서,

는 센서 S로부터 제공되는 k번째 경계 박스의 클래스 밀도를 의미한다.

융합 처리부(310)는 클래스 비유사도를 하기의 수학식 14와 같이 계산할 수 있다.

[수학식 14]

상기 융합 처리부(310)는, 상기 계산된 클래스 분류 결과의 거리(

)와 클래스 비유사도(

)를 이용하여, 최종 관계 성분(

)을 계산할 수 있다.

최종 관계 성분(

)은 하기의 수학식 15에 의하여 계산될 수 있다.

[수학식 15]

(D, C : 각 센서의 경계 영역의 공간)

융합 처리부(310)는 최종 관계 성분에 의하여 두 경계 영역의 연관성 여부를 판단할 수 있다(S520). 즉, 융합 처리부(310)는 최종 관계 성분이 기 설정된 값 이상을 갖는 경우, 연관성이 있다고 판단하고, 반대의 경우, 연관성이 없다고 판단할 수 있다.

보다 구체적으로, 융합 처리부(310)는 최종 관계 성분에 의하여 두 경계 영역이 서로 연관성이 있다고 판단되면, 두 경계 영역에 대응되는 컨벌루션 큐브 및 클래스 분류 결과를 이어 붙일 수 있다(S530). 즉, 융합 처리부(310)는, 두 개의 컨벌류션 레이어와 두 개의 fully-connected layer를 통과하여, 최종적으로 2048 차원의 벡터를 출력할 수 있다.

또한, 융합 처리부(310)는, 상기 2048 차원의 벡터를 각 센서에서의 3차원 벡터와 연결하여, 총 6차원 벡터를 연결한 2054 벡터로 재구성할 수 있다. 그리고, 융합 처리부(310)는 재구성된 벡터를 fully-connected layer와 최종 이전 SVM을 통과함으로써, 최종 객체 후보 영역을 결정하고, 최종 특정 객체 추출 및 최종 특정 객체의 클래스 분류 결과를 계산할 수 있다.

이와 달리, 융합 처리부(310)는, 최종 관계 성분에 의하여 두 경계 영역이 서로 연관성이 없는 경우, 최종 검출 및 분류 결과로 사용하지 않을 수 있다. 따라서, 본 발명은 서로 연관성이 없는 두 경계 영역 정보를 최종 특정 객체의 추출 및 최종 특정 객체의 클래스 분류 결과의 계산에 포함시키지 않음으로써, 객체 추출의 정확도를 향상시킬 수 있다.

이상에서 살펴본 바와 같이, 본 발명은 2차원 영상과 3차원 영상에서 각각 특정 객체를 검출 및 분류하고, 각각 검출 및 분류된 결과 정보의 연관성 여부에 따라, 두 결과의 융합 여부를 결정함으로써, 특정 객체 추출 및 분류의 정확도를 향상시킬 수 있다.

본 발명의 일 실시 예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.

본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

2차원 영상을 촬영하는 2차원 영상 센서;

상기 촬영된 2차원 영상으로부터 특정 객체를 추출 및 상기 특정 객체에 대한 클래스를 분류하는 2차원 영상 처리부;

3차원 영상을 촬영하는 3차원 영상 센서;

상기 촬영된 3차원 영상으로부터 상기 특정 객체를 추출 및 상기 특정 객체에 대한 클래스를 분류하는 3차원 영상 처리부;

상기 2차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과와, 상기 3차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과를 이용하여, 상기 특정 객체에 대한 최종 클래스 분류 결과를 산출하는 융합 처리부를 포함하는 객체 검출 장치.
제1항에 있어서,

상기 2차원 영상 처리부는

상기 2차원 영상을 색상 평활화 처리하고,

상기 색상 평활화 처리된 2차원 영상으로부터 객체 후보 영역을 검출하는 것을 특징으로 하는 객체 검출 장치.
제2항에 있어서,

상기 2차원 영상 처리부는

상기 색상 평활화 처리된 2차원 영상을 복수의 영역으로 분할하고,

색상 및 텍스쳐의 비유사도에 근거하여, 상기 복수의 영역의 적어도 일부를 객체 후보 영역으로 추출하는 것을 특징으로 하는 객체 검출 장치.
제1항에 있어서,

상기 3차원 영상은 점 구름 데이터들로 이루어져 있고,

상기 3차원 영상 처리부는

상기 3차원 영상을 이루는 점 구름 데이터들을 복셀 공간으로 변환하고,

상기 변환된 복셀 공간을 단위 크기를 갖는 슈퍼 복셀로 분할하며,

각 공간에 포함된 점 구름 데이터의 높이차에 근거하여, 상기 슈퍼 복셀을 그룹핑하여, 객체 후보 영역을 검출하는 것을 특징으로 하는 객체 검출 장치.
제4항에 있어서,

상기 복셀 공간은

잡음 효과를 최소화하도록 기 설정된 크기를 갖는 것을 특징으로 하는 객체 검출 장치.
제1항에 있어서,

상기 융합 처리부는

상기 2차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과와, 상기 3차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과 사이의 연관성을 계산하고,

상기 연관성에 근거하여, 상기 특정 객체에 대한 최종 클래스 분류 결과를 산출하는 것을 특징으로 하는 객체 검출 장치.
제6항에 있어서,

상기 융합 처리부는,

상기 2차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과와, 상기 3차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과가 서로 연관되었다고 판단되면, 상기 2차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과와, 상기 3차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과를 조합하여, 최종 클래스 분류 결과를 산출하고,

상기 2차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과와, 상기 3차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과가 서로 연관되지 않았다고 판단되면, 최종 클래스 분류 결과를 산출하지 않는 것을 특징으로 하는 객체 검출 장치.