KR101486543B1

KR101486543B1 - 3차원 객체 인식을 위한 rgb-d 영상 기반 객체 구역화 및 인식 방법 및 장치

Info

Publication number: KR101486543B1
Application number: KR20130062620A
Authority: KR
Inventors: 우운택; 장영균
Original assignee: 한국과학기술원
Priority date: 2013-05-31
Filing date: 2013-05-31
Publication date: 2015-01-26
Also published as: KR20140141174A

Abstract

본 발명은 카메라를 통해 획득된 깊이 정보를 포함하는 3차원 영상을 기반으로 픽셀별 노멀벡터를 계산하는 과정과, K-평균 군집화 알고리즘(K-means clustering algorithm)을 이용하여 계산된 상기 노멀벡터를 기설정된 수의 평면으로 군집화(clustering)하는 과정과, 상기 픽셀별 노멀벡터가 적어도 하나 이상 기설정된 수의 평면으로 군집화된 3차원 영상에서 사용자 인터럽트가 발생된 영역을 기준으로 평면 노멀벡터를 계산하는 과정과, 계산된 상기 평면 노멀벡터를 기반으로 사용자 상호작용을 통해 상기 사용자 인터럽트가 발생된 영역을 포함하는 기준 평면과 배경화면을 분할하는 과정과, 상기 기준 평면에 대한 컨벡스 헐(convex hull)을 구성하고, 특정 점군(point clouds) 데이터를 기준으로 추출된 윤곽선(contours)을 기준으로 하여 객체의 개수 및 위치를 계산하는 과정을 포함함을 특징으로 한다.

Description

3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법 및 장치{METHOD AND APPARATUS FOR RECOGNITION AND SEGMENTATION OBJECT FOR 3D OBJECT RECOGNITION}

본 발명은 다수 객체 구역화를 위한 사용자 참여형 깊이 영상 군집화와 컬러 영상 기반 다수 객체 인식에 관한 것이다.

최근 증강현실의 기술 발전에 따라 객체를 인식하고 인식된 객체에 대한 정보를 인터넷 서비스와 연결해서 대중에게 손쉽게 제공하고자 하는 노력이 이어지고 있다. 최신의 기술 추세 및 미래 전망을 담고 있는 구글 글래스 프로젝트 및 마이크로소프트 미래 비전 등의 시나리오 동영상에서는 전반에 걸쳐서 임의의 객체 인식 기술을 소개하고 있다.

이 같은 기술의 필요성에 따라 지난 몇 년간 강건한 특징 기술자가 개발된 이후 객체 인식 연구에 큰 발전이 있어왔다. 하지만 특징점을 기반으로 하는 인식 기술이라는 특성상 같은 특징이 존재하지 않는 3차원 객체의 다른 면이 보이는 경우나 무늬가 적은 객체의 경우에는 인식이 실패하는 문제가 있다.

이와 같은 문제를 해결하기 위해 최근에는 RGB-D 영상을 활용하여 특징 기술자를 보강하고자 하는 연구 역시 활발히 진행이 되고 있다. 하지만, 특징 기술자를 기반으로 하는 연구들은 다수의 다른 객체들이 존재하는 혼잡한 장면(cluttered scene)에서는 여전히 상대적으로 인식률이 감소하는 문제가 있다.

따라서 J. Tang은 3차원 깊이 영상을 활용해서 테이블 위의 배경을 먼저 분할하고 해당 객체 영역에 대해서만 특징을 추출하고 매칭하는 방법을 제안하였다. 이 방법은 또한 추출된 특징 기술자마다 3차원 위치 정보를 함께 저장함으로써 보다 정확한 매칭을 지원하였다. 하지만 이 역시 배경 분할이 정확하게 되지 않을 경우나 저장된 특징이 다시 추출되지 않는 경우에는 특징 매칭이 실패하는 단점이 있다.

따라서 본 발명은 이와 같은 문제를 해결하기 위해 RGB-D 정보를 사용하는 J. Tang[7]의 접근법 중 전체적인 흐름(배경 분할, 관심 객체 영역 검출 그리고 특징 추출 및 매칭)을 수용하지만 보다 정확한 배경 분할을 위해 사용자가 참여하는 방법을 제안하고 분리된 객체에 대해서는 각 특징을 각각 매칭하는 것이 아니라 특징 집합을 객체 단위의 새로운 특징으로 묶어내는 BoF[4-5][10] 모델을 적용하여 특징을 생성 및 매칭하는 방법을 제안하고자 한다.

본 발명의 일 견지에 따르면, 카메라를 통해 획득된 깊이 정보를 포함하는 3차원 영상을 기반으로 픽셀별 노멀벡터를 계산하는 과정과, K-평균 군집화 알고리즘(K-means clustering algorithm)을 이용하여 계산된 상기 노멀벡터를 기설정된 수의 평면으로 군집화(clustering)하는 과정과, 상기 픽셀별 노멀벡터가 적어도 하나 이상 기설정된 수의 평면으로 군집화된 3차원 영상에서 사용자 인터럽트가 발생된 영역을 기준으로 평면 노멀벡터를 계산하는 과정과, 계산된 상기 평면 노멀벡터를 기반으로 사용자 상호작용을 통해 상기 사용자 인터럽트가 발생된 영역을 포함하는 기준 평면과 배경화면을 분할하는 과정과, 상기 기준 평면에 대한 컨벡스 헐(convex hull)을 구성하고, 특정 점군(point clouds) 데이터를 기준으로 추출된 윤곽선(contours)을 통해 객체의 개수 및 위치를 계산하는 과정을 포함함을 특징으로 한다.

본 발명의 다른 견지에 따르면, 촬상부를 통해 획득된 깊이 정보를 포함하는 3차원 영상을 기반으로 픽셀별 노멀벡터를 계산하는 노멀 계산부 및 상기 노멀 계산부로부터 계산된 노멀벡터를 K-평균 군집화 알고리즘(K-means clustering algorithm)을 이용하여 기설정된 수의 평면으로 군집화(clustering)하는 군집화부를 포함하고, 상기 노멀 계산부를 통해 상기 픽셀별 노멀벡터가 적어도 하나 이상 기설정된 수의 평면으로 군집화된 3차원 영상에서 사용자 인터럽트가 발생된 영역을 기준으로 평면 노멀벡터를 계산하도록 제어하고, 상기 군집화부로부터 계산된 평면 노멀벡터를 기반으로 사용자 상호작용을 통해 상기 사용자 인터럽트가 발생된 영역을 포함하는 기준 평면과 배경화면을 분할하는 서브 제어부를 포함하는 제어부를 포함하고, 상기 제어부는, 상기 기준 평면에 대한 컨벡스 헐(convex hull)을 구성하고, 특정 점군(point clouds) 데이터를 기준으로 윤곽선을 추출하는 윤곽선 검출부와, 상기 추출된 윤곽선(contours)을 통해 객체의 개수 및 위치를 계산하는 객체 검출부를 더 포함함을 특징으로 한다.

본 발명은 사용자의 최소한의 참여로 인해 임의의 공간 환경에 대한 배경 분할을 보다 안정적으로 함으로써 다수의 관심객체를 구역화 할 수 있으며 BoF 모델을 이용함으로써 3차원 객체의 회전이나 스케일 변화가 일어나는 경우에도 강건한 인식을 지원이 가능하다.

또한 본 발명은 영상에 존재하는 객체의 개수에 대한 사전정보가 없음에도 불구하고 안정적으로 배경을 분할하고 객체 검출을 지원하며 안정적인 인식 결과를 보이는 효과가 있다.

도 1은 본 발명의 일 실시 예에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법에 관한 전체 흐름도.
도 2 내지 5는 본 발명의 일 실시 예에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법이 적용된 화면 예시도.
도 6은 본 발명의 일 실시 예에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 장치에 관한 상세 블록도.
도 7은 본 발명의 일 실시 예에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 장치에서 제어부에 관한 상세 블록도.

이하 본 발명에 따른 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 하기 설명에서는 구체적인 구성 소자 등과 같은 특정 사항들이 나타나고 있는데 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐 이러한 특정 사항들이 본 발명의 범위 내에서 소정의 변형이나 혹은 변경이 이루어질 수 있음은 이 기술 분야에서 통상의 지식을 가진 자에게는 자명하다 할 것이다.

본 발명은 동기화되어 얻어진 컬러(RGB) 영상과 깊이(Depth) 영상을 상호 보완적으로 사용하여 다수의 객체 구역화 및 인식에 관한 것으로, 보다 상세하게는 카메라를 통해 획득된 깊이 정보를 포함하는 3차원 영상을 기반으로 하여 배경이 되는 평면을 분할(segmentation)함으로써 영상에 객체가 몇 개 있는지 모르는 상황에서 임의의 다수 객체 검출을 수행하고, 검출된 객체들을 포함하는 다수 관심영역(Region of interests)을 기반으로 특징점 검출을 수행하고 기존에 생성한 코드북(codebook)을 활용함으로써 3차원 객체의 자세와 스케일에 관계없는 강건한 BoF(Bag-of-Features)를 생성한 후 미리 학습된 랜덤 포레스트(Random Forest) 기반의 구분자(classifier)를 통해 객체에 대한 인식을 수행함으로써 임의의 카메라 자세(pose)에서 취득된 영상에 대해서도 사용자의 최소한의 참여를 통해 강건하게 배경을 제거하고 임의 개수의 객체를 검출할 수 있으며, BoF 모델을 이용함으로써 3차원 객체의 다양한 시점에 대해서도 빠르고 강건한 인식을 지원하며 이를 기반으로 증가하는 공간 단위에서의 3차원 객체인식의 핵심 기술로 활용 가능한 기술을 제공하고자 한다.

이하, 본 발명의 일 실시 예에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법에 대해 도 1 및 도 4를 참조하여 자세히 살펴보기로 한다.

우선, 도 1은 본 발명의 일 실시 예에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법에 관한 전체 흐름도이다.

도 1을 참조하면, 먼저 110 과정에서 카메라를 통해 획득된 깊이 정보를 포함하는 3차원 영상을 획득하고, 112 과정에서는 상기 획득된 3차원 영상을 기반으로 픽셀별 노멀벡터를 계산한다.

114 과정에서는 K-평균 군집화 알고리즘(K-means clustering algorithm)을 이용하여 계산된 상기 노멀벡터를 기설정된 수 즉, 3개의 평면으로 군집화(clustering)한다.

116 과정에서는 상기 114 과정에서 픽셀별 노멀벡터가 적어도 하나 이상 기설정된 수의 평면으로 군집화된 3차원 영상에서 사용자 인터럽트가 발생된 영역을 기준으로 평면 노멀벡터를 계산한다.

118 과정에서는 계산된 상기 평면 노멀벡터를 기반으로 사용자 상호작용을 통해 상기 사용자 인터럽트가 발생된 영역을 포함하는 기준 평면과 배경화면을 분할한다.

120 과정에서는 상기 기준 평면에 대한 컨벡스 헐(convex hull)을 구성하고, 122 과정에서 특정 점군(point clouds) 데이터를 기준으로 추출된 윤곽선(contours)을 기준으로 하여 그 윤곽선 안쪽에 존재 하는 객체의 개수 및 위치를 계산한다.

더욱 상세하게는 도 2를 참조하면, 도 2는 본 발명의 일 실시 예에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법에 있어서, 깊이영상 기반 배경 분할 화면 예시도에 관한 것으로, 노란점선과 파란점선과 같이 동일한 노멀벡터를 가지지만 다른 평면인 노멀벡터들에 대해서는 사용자가 참여함으로써 분할을 돕는다.

또한, 도 2에 도시된 바와 같이 사용자 인터럽트 즉, 사용자가 한 번의 클릭을 하게 되면 인접한 주변에 임의의 균일한 거리 및 간격을 가지는 세 점(22)을 선택하고, 빨간 화살표(23)와 같이 평면 노멀벡터를 다시 계산함으로써 사용자가 선택한 점이 위치하고 있는 기준 평면(20)과 아래쪽의 배경평면(21)을 분할한다.

이와 같이 선택된 평면은 상술한 120 과정에 기재된 바와 같이, 컨벡스 헐(convex hull)로 만들어 지며 만들어진 컨벡스 헐 내부에 있으면서 해당 평면보다 위쪽 방향으로 있는 점군(point clouds)들에 대해서만 마스킹(masking)이 된 영상을 입력으로 하여 윤곽선(contours)을 구함으로써 객체의 개수 및 위치를 자동으로 계산해 낸다. 이때, 기설정된 크기보다 작은 크기로 검출된 영역은 영상 잡음(noise)에 의한 검출 오류로 여겨 제거하고, 이를 통해 데스크(20)위에 있는 임의의 다수 객체들에 대해 자동으로 검출을 수행한다.

계속해서, 124 과정에서는 객체별 관심영역(Region of Interest, ROI)구역을 자동으로 지정하고, 126 과정에서는 각 관심영역별 특징점을 검출하고, 검출된 상기 특징점 위치를 기반으로 크기 및 회전에 불변하는 기술자(descriptor)를 생성한다.

128 과정에서는 생성된 상기 기술자들의 집합을 기학습된 코드북(codebook)을 이용하여 BoF(bag-of-features) 히스토그램으로 생성하고, 130 과정에서 생성된 상기 BoF 히스토그램을 입력으로 기학습된 랜덤 포레스트(Random Forest) 기반의 구분자(classifier)를 이용하여 각 객체별 확률 값들을 획득하고, 상기 획득된 상기 확률 값들 중 최우선하는 확률 값에 대응하는 객체를 선택하여 관심영역 인식을 수행한다.

더욱 상세하게는 도 3을 참조하면, 도 3은 본 발명의 일 실시 예에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법에 있어서, BoF 모델을 활용하는 다수 객체 인식 흐름을 보인 화면 예시도로서, 도 3에 도시된 바와 같이, 상술한 110 ~ 122 과정을 통해 구역화된 다수 객체에 대한 ROI 영역은 객체를 포함하는 박스(31, 32, 33, 34)로 표시되고, 검출된 특징점 위치를 기반으로 크기 및 회전에 불변한 기술자 p_i를 생성한다.

상기 생성된 기술자들 집합{p_i}는 미리 학습된 코드북(codebook)을 통해 하나의 BoF 히스토그램 hr으로 통합되며, 상기 생성된 BoF를 입력으로 구분자(classifier)를 통해서 상기 BoF에 대한 각 객체에 해당하는 확률 값들을 얻는다.

이때, 가장 높은 확률을 가지는 객체를 선택함으로써 하나의 ROI에 대한 인식이 수행된다. 이와 같은 과정을 각 검출된 ROI 영역에 대해 모두 차례로 수행함으로써 한 영상에서 검출된 다수의 임의 객체에 대해 인식한다. 이로 인해 본 발명에 따르면 크기 변화 및 카메라의 시점 변화에도 안정적으로 객체 인식이 가능하다.

다음으로, 후술되는 도 4 및 도 5의 설명에서는 본 발명의 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법이 적용된 화면을 구현한다.

우선, 본 발명에서는 RGB-D 카메라에서 동기화된 컬러(RGB)와 깊이(D) 영상을 취득하고 두 영상 사이에 서로 매핑(mapping)되는 픽셀 좌표를 구하기 위해서 Kinect for Windows SDK를 사용하였고 기본적인 영상처리를 위해서는 OpenCV 라이브러리를 활용하였다. 본 발명은 Visual C++ 2010를 기반으로 구현되었다.

먼저 RGB-D 카메라에서 취득된 영상 중 깊이 영상을 기반으로 각 픽셀 당(5*5) 패치 영역에 대해 그레디언트(gradient)를 구하고 노멀벡터(normal vector)를 도 4의 (a)와 같이 계산하였으나, 카메라와 실제 환경에서 얻어지는 잡음에 의해 균일하지 않은 결과를 보였으므로 이 픽셀단위의 노멀벡터 정보를 입력으로 하여 도 4의 (b)와 같이 3개 군집으로 군집화하였다.

이후, 관심 객체 이외의 배경을 떼어 내기 위해 사용자가 기준면을 클릭을 하면 그 기준면에서 임의의 3개의 점이 선택되고, 그 점을 기반으로 노멀벡터를 새로 구한다.

그리고 그 기준면을 포함하면서 그 보다 멀리 있는 평면에 대해서는 도 4의 (c)에서 흰색으로 보이는 것과 같이 제거하였다. 그럼에도 불구하고 기준면보다 위쪽에 존재하는 오른쪽이나 뒤쪽 면의 영향을 받지 않고 선택한 기준 평면 위에 있는 객체만 떼어내기 위해 기준 평면에 대한 컨벡스 헐을 도 4의 (d)에서 보이는 핑크색 선과 같이 구하였다.

이때, 도 4의 (d)의 컨벡스 헐은 실제 테이블보다 넓게 퍼져있는 것을 볼 수 있는데 이는 깊이 영상의 잡음 정보로 인해 실제로는 벽면이지만 테이블 평면과 같은 군집으로 분류된 초기 군집화 오류 때문에 일어나는 현상으로써 기준 평면과 동일한 선상에 놓여 있기 때문에 객체 구역화에는 문제가 되지 않는다.

결과적으로 도 4의 (b)에서와 같은 군집으로 분류된 수평방향 평면에 대한 파란색 노멀벡터들이 도 4의 (d)에서는 파란색(객체평면), 짙은 곤색(기준평면) 그리고 흰색(배경화면)으로 분류된 것을 확인할 수 있다.

그리고 다수 객체 인식에 대한 빠른 프로토타이핑을 위해 도 4의 테이블 아래 방향에 대한 점군들만 일단 제거하고 위쪽에 남겨진 점군들의 영상 위치만을 가지고 객체를 구역화 하였다. 이때 발생할 오류를 최소화하기 위해 영상은 되도록 벽면이 안보이도록 취득하였다. 이로써 구역화된 객체의 영역은 도 5에서 핑크색 박스로 보여지고 이 다수 영역 각각에 대해서는 BoF 모델을 적용하여 특징을 생성하고 특징 분류자를 통해 인식되었다. 상기 인식된 객체의 ID 정보는 도 5의 파란색 글씨(예컨대, A4_box, Human_Robot, Nike_shoes, Black_Box)와 같이 표시되었다.

이로써 본 발명에서는 RGB-D 영상을 기반으로 하는 다수 객체 구역화 및 인식 방법에 대해 프로토타입을 구현하고 검증하였다.

이상에서는, 본 발명의 일 실시 예에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법에 관해 살펴보았다.

이하, 본 발명의 일 실시 예에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 장치에 관하여 도 6 및 도 7을 참조하여 살펴보기로 한다.

우선, 도 6은 본 발명의 일 실시 예에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 장치에 관한 개략적인 블록도이다.

도 6을 참조하면, 본 발명이 적용된 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 장치(600)는 촬영부(610), 제어부(612) 및 사용자 인터페이스부(614)를 포함한다.

상기 제어부(612)는 촬상부(610)를 통해 획득된 깊이 정보를 포함하는 3차원 영상을 기반으로 픽셀별 노멀벡터를 계산하고, 계산된 상기 노멀벡터를 K-평균 군집화 알고리즘(K-means clustering algorithm)을 이용하여 기설정된 수의 평면으로 군집화(clustering)한다.

또한, 상기 제어부(612)은 상기 픽셀별 노멀벡터가 적어도 하나 이상 기설정된 수의 평면으로 군집화된 3차원 영상에서 사용자 인터페이스부(614)로부터 사용자 인터럽트가 발생된 영역을 기준으로 평면 노멀벡터를 계산하도록 제어하고, 상기 군집화부로부터 계산된 평면 노멀벡터를 기반으로 사용자 상호작용을 통해 상기 사용자 인터럽트가 발생된 영역을 포함하는 기준 평면과 배경화면을 분할한다.

그리고 상기 제어부(612)는, 사용자 인터페이스부(614)를 통해 사용자 인터럽트 발생 시 상기 사용자 인터럽트가 발생된 영역을 기준으로 기설정된 거리 및 간격을 가지는 세점을 표시하고, 표시된 상기 세점을 기반으로 평면 노멀벡터를 계산하도록 제어한다.

이후, 상기 제어부(612)는 상기 기준 평면에 대한 컨벡스 헐(convex hull)을 구성하고, 특정 점군(point clouds) 데이터를 기준으로 윤곽선 추출을 수행한다.

즉, 상기 컨벡스 헐 내부에 해당 평면보다 위쪽 방향으로 있는 점군 데이터들에 한하여 마스킹(masking)된 영상을 입력으로 하여 추출하고, 추출된 상기 윤곽선(contours)을 통해 객체의 개수 및 위치를 계산한다.

이러한 상기 제어부(612)의 동작은 도 7에 도시된 바와 같이, 노멀 계산부(710), 군집화부(712), 서브 제어부(714), 윤곽선 검출부(716) 및 객체 검출부(718)을 통해 수행되고, 이후 상기 제어부(612)는 구비된 BoF 히스토그램 생성부로부터 생성된 상기 BoF 히스토그램을 입력으로 기학습된 랜덤 포레스트(Random Forest) 기반의 구분자(classifier)를 이용하여 각 객체별 확률 값들을 획득하고, 획득된 상기 확률 값들 중 최우선하는 확률 값에 대응하는 객체를 선택하여 관심영역 인식을 수행한다.

더욱 상세하게는, 객체 인식을 위해 상기 객체별 관심영역(Region of Interest, ROI)을 지정하는 ROI 지정부(720)와 각 관심영역별 특징점을 검출하는 특징점 검출부(722)와, 검출된 상기 특징점 위치를 기반으로 크기 및 회전에 불변하는 기술자(descriptor)를 생성하는 기술자 생성부(724)와, 생성된 상기 기술자들의 집합을 코드북 학습생성부(726)로부터 기학습된 코드북(codebook)을 이용하여 BoF(bag-of-features) 히스토그램으로 생성하는 BoF 히스토그램 생성부(728) 및 객체 인식부(730)을 통해 수행된다.

상기와 같이 본 발명에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법 및 장치에 관한 동작이 이루어질 수 있으며, 한편 상기한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나 여러 가지 변형이 본 발명의 범위를 벗어나지 않고 실시될 수 있다. 따라서 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 청구범위와 청구범위의 균등한 것에 의하여 정하여져야 할 것이다.

610: 촬영부 612: 제어부
614: 사용자 인터페이스부 710: 노멀 계산부
712: 군집화부 714: 서브 제어부
716: 윤곽선 검출부 718: 객체 검출부
720: ROI 지정부 722: 특징점 검출부
724: 기술자 생성부 726: 코드북 학습생성부
728: BoF 히스토그램 생성부 730: 객체 인식부
[참고문헌]

Claims

카메라를 통해 획득된 깊이 정보를 포함하는 3차원 영상을 기반으로 픽셀별 노멀벡터를 계산하는 과정과,
K-평균 군집화 알고리즘(K-means clustering algorithm)을 이용하여 계산된 상기 노멀벡터를 기설정된 수의 평면으로 군집화(clustering)하는 과정과,
상기 픽셀별 노멀벡터가 적어도 하나 이상 기설정된 수의 평면으로 군집화된 3차원 영상에서 사용자 인터럽트가 발생된 영역을 기준으로 평면 노멀벡터를 계산하는 과정과,
계산된 상기 평면 노멀벡터를 기반으로 사용자 상호작용을 통해 상기 사용자 인터럽트가 발생된 영역을 포함하는 기준 평면과 배경화면을 분할하는 과정과,
상기 기준 평면에 대한 컨벡스 헐(convex hull)을 구성하고, 특정 점군(point clouds) 데이터를 기준으로 추출된 윤곽선(contours)을 기준으로 객체의 개수 및 위치를 계산하여 객체를 구역화하는 과정을 포함함을 특징으로 하는 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법.
제1항에 있어서, 구역화된 상기 객체는,
상기 객체별 관심영역(Region of Interest, ROI)을 지정하고, 각 관심영역별 특징점을 검출하는 과정과,
검출된 상기 특징점 위치를 기반으로 크기 및 회전에 불변하는 기술자(descriptor)를 생성하는 과정과,
생성된 상기 기술자의 집합을 기학습된 코드북(codebook)을 이용하여 BoF(bag-of-features) 히스토그램으로 생성하는 과정과,
생성된 상기 BoF 히스토그램을 입력으로 기학습된 랜덤 포레스트(Random Forest) 기반의 구분자(classifier)를 이용하여 각 객체별 확률 값들을 획득하는 과정과,
획득된 상기 확률 값들 중 최우선하는 확률 값에 대응하는 객체를 선택하여 관심영역 인식을 수행하는 과정을 통해 인식됨을 특징으로 하는 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법.
제1항에 있어서,
상기 평면 노멀벡터를 계산하는 과정은,
상기 사용자 인터럽트 발생 시 상기 사용자 인터럽트가 발생된 영역을 기준으로 기설정된 거리 및 간격을 가지는 세점을 표시하고, 표시된 상기 세점을 기반으로 평면 노멀벡터를 계산함을 특징으로 하는 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법.
제1항에 있어서, 상기 윤곽선은,
상기 컨벡스 헐 내부에 해당 평면보다 위쪽 방향으로 있는 점군 데이터들에 한하여 마스킹(masking)된 영상을 입력으로 하여 추출됨을 특징으로 하는 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법.
촬상부를 통해 획득된 깊이 정보를 포함하는 3차원 영상을 기반으로 픽셀별 노멀벡터를 계산하는 노멀 계산부 및
상기 노멀 계산부로부터 계산된 노멀벡터를 K-평균 군집화 알고리즘(K-means clustering algorithm)을 이용하여 기설정된 수의 평면으로 군집화(clustering)하는 군집화부를 포함하고,
상기 노멀 계산부를 통해 상기 픽셀별 노멀벡터가 적어도 하나 이상 기설정된 수의 평면으로 군집화된 3차원 영상에서 사용자 인터럽트가 발생된 영역을 기준으로 평면 노멀벡터를 계산하도록 제어하고, 상기 군집화부로부터 계산된 평면 노멀벡터를 기반으로 사용자 상호작용을 통해 상기 사용자 인터럽트가 발생된 영역을 포함하는 기준 평면과 배경화면을 분할하는 서브 제어부를 포함하는 제어부를 포함하고,
상기 제어부는, 상기 기준 평면에 대한 컨벡스 헐(convex hull)을 구성하고, 특정 점군(point clouds) 데이터를 기준으로 윤곽선을 추출하는 윤곽선 검출부와,
상기 추출된 윤곽선(contours)을 통해 객체의 개수 및 위치를 계산하는 객체 검출부를 더 포함함을 특징으로 하는 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 장치.
제5항에 있어서, 상기 제어부는,
객체별 관심영역(Region of Interest, ROI)을 지정하는 ROI 지정부와,
각 관심영역별 특징점을 검출하는 특징점 검출부와,
검출된 상기 특징점 위치를 기반으로 크기 및 회전에 불변하는 기술자(descriptor)를 생성하는 기술자 생성부와,
생성된 상기 기술자의 집합을 코드북 학습생성부로부터 기학습된 코드북(codebook)을 이용하여 BoF(bag-of-features) 히스토그램으로 생성하는 BoF 히스토그램 생성부와,
생성된 상기 BoF 히스토그램을 입력으로 기학습된 랜덤 포레스트(Random Forest) 기반의 구분자(classifier)를 이용하여 각 객체별 확률 값들을 획득하고, 획득된 상기 확률 값들 중 최우선하는 확률 값에 대응하는 객체를 선택하여 관심영역 인식을 수행하는 객체 인식부를 포함함을 특징으로 하는 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 장치.
제5항에 있어서, 상기 제어부는,
사용자 인터페이스부를 통해 사용자 인터럽트 발생 시 상기 사용자 인터럽트가 발생된 영역을 기준으로 기설정된 거리 및 간격을 가지는 세점을 표시하고, 표시된 상기 세점을 기반으로 평면 노멀벡터를 계산하도록 상기 노멀 계산부를 제어함을 특징으로 하는 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 장치.
제5항에 있어서, 상기 윤곽선 검출부는,
상기 컨벡스 헐 내부에 해당 평면보다 위쪽 방향으로 있는 점군 데이터들에 한하여 마스킹(masking)된 영상을 입력으로 하여 추출함을 특징으로 하는 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 장치.