KR101486543B1 - 3차원 객체 인식을 위한 rgb-d 영상 기반 객체 구역화 및 인식 방법 및 장치 - Google Patents
3차원 객체 인식을 위한 rgb-d 영상 기반 객체 구역화 및 인식 방법 및 장치 Download PDFInfo
- Publication number
- KR101486543B1 KR101486543B1 KR20130062620A KR20130062620A KR101486543B1 KR 101486543 B1 KR101486543 B1 KR 101486543B1 KR 20130062620 A KR20130062620 A KR 20130062620A KR 20130062620 A KR20130062620 A KR 20130062620A KR 101486543 B1 KR101486543 B1 KR 101486543B1
- Authority
- KR
- South Korea
- Prior art keywords
- normal vector
- image
- generated
- recognition
- plane
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000011218 segmentation Effects 0.000 title claims description 20
- 239000013598 vector Substances 0.000 claims abstract description 45
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 8
- 230000003993 interaction Effects 0.000 claims abstract description 7
- 238000003064 k means clustering Methods 0.000 claims abstract description 7
- 238000001514 detection method Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000007637 random forest analysis Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 235000000332 black box Nutrition 0.000 description 1
- 244000085682 black box Species 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000013316 zoning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/12—Bounding box
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 카메라를 통해 획득된 깊이 정보를 포함하는 3차원 영상을 기반으로 픽셀별 노멀벡터를 계산하는 과정과, K-평균 군집화 알고리즘(K-means clustering algorithm)을 이용하여 계산된 상기 노멀벡터를 기설정된 수의 평면으로 군집화(clustering)하는 과정과, 상기 픽셀별 노멀벡터가 적어도 하나 이상 기설정된 수의 평면으로 군집화된 3차원 영상에서 사용자 인터럽트가 발생된 영역을 기준으로 평면 노멀벡터를 계산하는 과정과, 계산된 상기 평면 노멀벡터를 기반으로 사용자 상호작용을 통해 상기 사용자 인터럽트가 발생된 영역을 포함하는 기준 평면과 배경화면을 분할하는 과정과, 상기 기준 평면에 대한 컨벡스 헐(convex hull)을 구성하고, 특정 점군(point clouds) 데이터를 기준으로 추출된 윤곽선(contours)을 기준으로 하여 객체의 개수 및 위치를 계산하는 과정을 포함함을 특징으로 한다.
Description
본 발명은 다수 객체 구역화를 위한 사용자 참여형 깊이 영상 군집화와 컬러 영상 기반 다수 객체 인식에 관한 것이다.
최근 증강현실의 기술 발전에 따라 객체를 인식하고 인식된 객체에 대한 정보를 인터넷 서비스와 연결해서 대중에게 손쉽게 제공하고자 하는 노력이 이어지고 있다. 최신의 기술 추세 및 미래 전망을 담고 있는 구글 글래스 프로젝트 및 마이크로소프트 미래 비전 등의 시나리오 동영상에서는 전반에 걸쳐서 임의의 객체 인식 기술을 소개하고 있다.
이 같은 기술의 필요성에 따라 지난 몇 년간 강건한 특징 기술자가 개발된 이후 객체 인식 연구에 큰 발전이 있어왔다. 하지만 특징점을 기반으로 하는 인식 기술이라는 특성상 같은 특징이 존재하지 않는 3차원 객체의 다른 면이 보이는 경우나 무늬가 적은 객체의 경우에는 인식이 실패하는 문제가 있다.
이와 같은 문제를 해결하기 위해 최근에는 RGB-D 영상을 활용하여 특징 기술자를 보강하고자 하는 연구 역시 활발히 진행이 되고 있다. 하지만, 특징 기술자를 기반으로 하는 연구들은 다수의 다른 객체들이 존재하는 혼잡한 장면(cluttered scene)에서는 여전히 상대적으로 인식률이 감소하는 문제가 있다.
따라서 J. Tang은 3차원 깊이 영상을 활용해서 테이블 위의 배경을 먼저 분할하고 해당 객체 영역에 대해서만 특징을 추출하고 매칭하는 방법을 제안하였다. 이 방법은 또한 추출된 특징 기술자마다 3차원 위치 정보를 함께 저장함으로써 보다 정확한 매칭을 지원하였다. 하지만 이 역시 배경 분할이 정확하게 되지 않을 경우나 저장된 특징이 다시 추출되지 않는 경우에는 특징 매칭이 실패하는 단점이 있다.
따라서 본 발명은 이와 같은 문제를 해결하기 위해 RGB-D 정보를 사용하는 J. Tang[7]의 접근법 중 전체적인 흐름(배경 분할, 관심 객체 영역 검출 그리고 특징 추출 및 매칭)을 수용하지만 보다 정확한 배경 분할을 위해 사용자가 참여하는 방법을 제안하고 분리된 객체에 대해서는 각 특징을 각각 매칭하는 것이 아니라 특징 집합을 객체 단위의 새로운 특징으로 묶어내는 BoF[4-5][10] 모델을 적용하여 특징을 생성 및 매칭하는 방법을 제안하고자 한다.
본 발명의 일 견지에 따르면, 카메라를 통해 획득된 깊이 정보를 포함하는 3차원 영상을 기반으로 픽셀별 노멀벡터를 계산하는 과정과, K-평균 군집화 알고리즘(K-means clustering algorithm)을 이용하여 계산된 상기 노멀벡터를 기설정된 수의 평면으로 군집화(clustering)하는 과정과, 상기 픽셀별 노멀벡터가 적어도 하나 이상 기설정된 수의 평면으로 군집화된 3차원 영상에서 사용자 인터럽트가 발생된 영역을 기준으로 평면 노멀벡터를 계산하는 과정과, 계산된 상기 평면 노멀벡터를 기반으로 사용자 상호작용을 통해 상기 사용자 인터럽트가 발생된 영역을 포함하는 기준 평면과 배경화면을 분할하는 과정과, 상기 기준 평면에 대한 컨벡스 헐(convex hull)을 구성하고, 특정 점군(point clouds) 데이터를 기준으로 추출된 윤곽선(contours)을 통해 객체의 개수 및 위치를 계산하는 과정을 포함함을 특징으로 한다.
본 발명의 다른 견지에 따르면, 촬상부를 통해 획득된 깊이 정보를 포함하는 3차원 영상을 기반으로 픽셀별 노멀벡터를 계산하는 노멀 계산부 및 상기 노멀 계산부로부터 계산된 노멀벡터를 K-평균 군집화 알고리즘(K-means clustering algorithm)을 이용하여 기설정된 수의 평면으로 군집화(clustering)하는 군집화부를 포함하고, 상기 노멀 계산부를 통해 상기 픽셀별 노멀벡터가 적어도 하나 이상 기설정된 수의 평면으로 군집화된 3차원 영상에서 사용자 인터럽트가 발생된 영역을 기준으로 평면 노멀벡터를 계산하도록 제어하고, 상기 군집화부로부터 계산된 평면 노멀벡터를 기반으로 사용자 상호작용을 통해 상기 사용자 인터럽트가 발생된 영역을 포함하는 기준 평면과 배경화면을 분할하는 서브 제어부를 포함하는 제어부를 포함하고, 상기 제어부는, 상기 기준 평면에 대한 컨벡스 헐(convex hull)을 구성하고, 특정 점군(point clouds) 데이터를 기준으로 윤곽선을 추출하는 윤곽선 검출부와, 상기 추출된 윤곽선(contours)을 통해 객체의 개수 및 위치를 계산하는 객체 검출부를 더 포함함을 특징으로 한다.
본 발명은 사용자의 최소한의 참여로 인해 임의의 공간 환경에 대한 배경 분할을 보다 안정적으로 함으로써 다수의 관심객체를 구역화 할 수 있으며 BoF 모델을 이용함으로써 3차원 객체의 회전이나 스케일 변화가 일어나는 경우에도 강건한 인식을 지원이 가능하다.
또한 본 발명은 영상에 존재하는 객체의 개수에 대한 사전정보가 없음에도 불구하고 안정적으로 배경을 분할하고 객체 검출을 지원하며 안정적인 인식 결과를 보이는 효과가 있다.
도 1은 본 발명의 일 실시 예에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법에 관한 전체 흐름도.
도 2 내지 5는 본 발명의 일 실시 예에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법이 적용된 화면 예시도.
도 6은 본 발명의 일 실시 예에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 장치에 관한 상세 블록도.
도 7은 본 발명의 일 실시 예에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 장치에서 제어부에 관한 상세 블록도.
도 2 내지 5는 본 발명의 일 실시 예에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법이 적용된 화면 예시도.
도 6은 본 발명의 일 실시 예에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 장치에 관한 상세 블록도.
도 7은 본 발명의 일 실시 예에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 장치에서 제어부에 관한 상세 블록도.
이하 본 발명에 따른 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 하기 설명에서는 구체적인 구성 소자 등과 같은 특정 사항들이 나타나고 있는데 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐 이러한 특정 사항들이 본 발명의 범위 내에서 소정의 변형이나 혹은 변경이 이루어질 수 있음은 이 기술 분야에서 통상의 지식을 가진 자에게는 자명하다 할 것이다.
본 발명은 동기화되어 얻어진 컬러(RGB) 영상과 깊이(Depth) 영상을 상호 보완적으로 사용하여 다수의 객체 구역화 및 인식에 관한 것으로, 보다 상세하게는 카메라를 통해 획득된 깊이 정보를 포함하는 3차원 영상을 기반으로 하여 배경이 되는 평면을 분할(segmentation)함으로써 영상에 객체가 몇 개 있는지 모르는 상황에서 임의의 다수 객체 검출을 수행하고, 검출된 객체들을 포함하는 다수 관심영역(Region of interests)을 기반으로 특징점 검출을 수행하고 기존에 생성한 코드북(codebook)을 활용함으로써 3차원 객체의 자세와 스케일에 관계없는 강건한 BoF(Bag-of-Features)를 생성한 후 미리 학습된 랜덤 포레스트(Random Forest) 기반의 구분자(classifier)를 통해 객체에 대한 인식을 수행함으로써 임의의 카메라 자세(pose)에서 취득된 영상에 대해서도 사용자의 최소한의 참여를 통해 강건하게 배경을 제거하고 임의 개수의 객체를 검출할 수 있으며, BoF 모델을 이용함으로써 3차원 객체의 다양한 시점에 대해서도 빠르고 강건한 인식을 지원하며 이를 기반으로 증가하는 공간 단위에서의 3차원 객체인식의 핵심 기술로 활용 가능한 기술을 제공하고자 한다.
이하, 본 발명의 일 실시 예에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법에 대해 도 1 및 도 4를 참조하여 자세히 살펴보기로 한다.
우선, 도 1은 본 발명의 일 실시 예에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법에 관한 전체 흐름도이다.
도 1을 참조하면, 먼저 110 과정에서 카메라를 통해 획득된 깊이 정보를 포함하는 3차원 영상을 획득하고, 112 과정에서는 상기 획득된 3차원 영상을 기반으로 픽셀별 노멀벡터를 계산한다.
114 과정에서는 K-평균 군집화 알고리즘(K-means clustering algorithm)을 이용하여 계산된 상기 노멀벡터를 기설정된 수 즉, 3개의 평면으로 군집화(clustering)한다.
116 과정에서는 상기 114 과정에서 픽셀별 노멀벡터가 적어도 하나 이상 기설정된 수의 평면으로 군집화된 3차원 영상에서 사용자 인터럽트가 발생된 영역을 기준으로 평면 노멀벡터를 계산한다.
118 과정에서는 계산된 상기 평면 노멀벡터를 기반으로 사용자 상호작용을 통해 상기 사용자 인터럽트가 발생된 영역을 포함하는 기준 평면과 배경화면을 분할한다.
120 과정에서는 상기 기준 평면에 대한 컨벡스 헐(convex hull)을 구성하고, 122 과정에서 특정 점군(point clouds) 데이터를 기준으로 추출된 윤곽선(contours)을 기준으로 하여 그 윤곽선 안쪽에 존재 하는 객체의 개수 및 위치를 계산한다.
더욱 상세하게는 도 2를 참조하면, 도 2는 본 발명의 일 실시 예에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법에 있어서, 깊이영상 기반 배경 분할 화면 예시도에 관한 것으로, 노란점선과 파란점선과 같이 동일한 노멀벡터를 가지지만 다른 평면인 노멀벡터들에 대해서는 사용자가 참여함으로써 분할을 돕는다.
또한, 도 2에 도시된 바와 같이 사용자 인터럽트 즉, 사용자가 한 번의 클릭을 하게 되면 인접한 주변에 임의의 균일한 거리 및 간격을 가지는 세 점(22)을 선택하고, 빨간 화살표(23)와 같이 평면 노멀벡터를 다시 계산함으로써 사용자가 선택한 점이 위치하고 있는 기준 평면(20)과 아래쪽의 배경평면(21)을 분할한다.
이와 같이 선택된 평면은 상술한 120 과정에 기재된 바와 같이, 컨벡스 헐(convex hull)로 만들어 지며 만들어진 컨벡스 헐 내부에 있으면서 해당 평면보다 위쪽 방향으로 있는 점군(point clouds)들에 대해서만 마스킹(masking)이 된 영상을 입력으로 하여 윤곽선(contours)을 구함으로써 객체의 개수 및 위치를 자동으로 계산해 낸다. 이때, 기설정된 크기보다 작은 크기로 검출된 영역은 영상 잡음(noise)에 의한 검출 오류로 여겨 제거하고, 이를 통해 데스크(20)위에 있는 임의의 다수 객체들에 대해 자동으로 검출을 수행한다.
계속해서, 124 과정에서는 객체별 관심영역(Region of Interest, ROI)구역을 자동으로 지정하고, 126 과정에서는 각 관심영역별 특징점을 검출하고, 검출된 상기 특징점 위치를 기반으로 크기 및 회전에 불변하는 기술자(descriptor)를 생성한다.
128 과정에서는 생성된 상기 기술자들의 집합을 기학습된 코드북(codebook)을 이용하여 BoF(bag-of-features) 히스토그램으로 생성하고, 130 과정에서 생성된 상기 BoF 히스토그램을 입력으로 기학습된 랜덤 포레스트(Random Forest) 기반의 구분자(classifier)를 이용하여 각 객체별 확률 값들을 획득하고, 상기 획득된 상기 확률 값들 중 최우선하는 확률 값에 대응하는 객체를 선택하여 관심영역 인식을 수행한다.
더욱 상세하게는 도 3을 참조하면, 도 3은 본 발명의 일 실시 예에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법에 있어서, BoF 모델을 활용하는 다수 객체 인식 흐름을 보인 화면 예시도로서, 도 3에 도시된 바와 같이, 상술한 110 ~ 122 과정을 통해 구역화된 다수 객체에 대한 ROI 영역은 객체를 포함하는 박스(31, 32, 33, 34)로 표시되고, 검출된 특징점 위치를 기반으로 크기 및 회전에 불변한 기술자 pi를 생성한다.
상기 생성된 기술자들 집합{pi}는 미리 학습된 코드북(codebook)을 통해 하나의 BoF 히스토그램 hr으로 통합되며, 상기 생성된 BoF를 입력으로 구분자(classifier)를 통해서 상기 BoF에 대한 각 객체에 해당하는 확률 값들을 얻는다.
이때, 가장 높은 확률을 가지는 객체를 선택함으로써 하나의 ROI에 대한 인식이 수행된다. 이와 같은 과정을 각 검출된 ROI 영역에 대해 모두 차례로 수행함으로써 한 영상에서 검출된 다수의 임의 객체에 대해 인식한다. 이로 인해 본 발명에 따르면 크기 변화 및 카메라의 시점 변화에도 안정적으로 객체 인식이 가능하다.
다음으로, 후술되는 도 4 및 도 5의 설명에서는 본 발명의 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법이 적용된 화면을 구현한다.
우선, 본 발명에서는 RGB-D 카메라에서 동기화된 컬러(RGB)와 깊이(D) 영상을 취득하고 두 영상 사이에 서로 매핑(mapping)되는 픽셀 좌표를 구하기 위해서 Kinect for Windows SDK를 사용하였고 기본적인 영상처리를 위해서는 OpenCV 라이브러리를 활용하였다. 본 발명은 Visual C++ 2010를 기반으로 구현되었다.
먼저 RGB-D 카메라에서 취득된 영상 중 깊이 영상을 기반으로 각 픽셀 당(5*5) 패치 영역에 대해 그레디언트(gradient)를 구하고 노멀벡터(normal vector)를 도 4의 (a)와 같이 계산하였으나, 카메라와 실제 환경에서 얻어지는 잡음에 의해 균일하지 않은 결과를 보였으므로 이 픽셀단위의 노멀벡터 정보를 입력으로 하여 도 4의 (b)와 같이 3개 군집으로 군집화하였다.
이후, 관심 객체 이외의 배경을 떼어 내기 위해 사용자가 기준면을 클릭을 하면 그 기준면에서 임의의 3개의 점이 선택되고, 그 점을 기반으로 노멀벡터를 새로 구한다.
그리고 그 기준면을 포함하면서 그 보다 멀리 있는 평면에 대해서는 도 4의 (c)에서 흰색으로 보이는 것과 같이 제거하였다. 그럼에도 불구하고 기준면보다 위쪽에 존재하는 오른쪽이나 뒤쪽 면의 영향을 받지 않고 선택한 기준 평면 위에 있는 객체만 떼어내기 위해 기준 평면에 대한 컨벡스 헐을 도 4의 (d)에서 보이는 핑크색 선과 같이 구하였다.
이때, 도 4의 (d)의 컨벡스 헐은 실제 테이블보다 넓게 퍼져있는 것을 볼 수 있는데 이는 깊이 영상의 잡음 정보로 인해 실제로는 벽면이지만 테이블 평면과 같은 군집으로 분류된 초기 군집화 오류 때문에 일어나는 현상으로써 기준 평면과 동일한 선상에 놓여 있기 때문에 객체 구역화에는 문제가 되지 않는다.
결과적으로 도 4의 (b)에서와 같은 군집으로 분류된 수평방향 평면에 대한 파란색 노멀벡터들이 도 4의 (d)에서는 파란색(객체평면), 짙은 곤색(기준평면) 그리고 흰색(배경화면)으로 분류된 것을 확인할 수 있다.
그리고 다수 객체 인식에 대한 빠른 프로토타이핑을 위해 도 4의 테이블 아래 방향에 대한 점군들만 일단 제거하고 위쪽에 남겨진 점군들의 영상 위치만을 가지고 객체를 구역화 하였다. 이때 발생할 오류를 최소화하기 위해 영상은 되도록 벽면이 안보이도록 취득하였다. 이로써 구역화된 객체의 영역은 도 5에서 핑크색 박스로 보여지고 이 다수 영역 각각에 대해서는 BoF 모델을 적용하여 특징을 생성하고 특징 분류자를 통해 인식되었다. 상기 인식된 객체의 ID 정보는 도 5의 파란색 글씨(예컨대, A4_box, Human_Robot, Nike_shoes, Black_Box)와 같이 표시되었다.
이로써 본 발명에서는 RGB-D 영상을 기반으로 하는 다수 객체 구역화 및 인식 방법에 대해 프로토타입을 구현하고 검증하였다.
이상에서는, 본 발명의 일 실시 예에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법에 관해 살펴보았다.
이하, 본 발명의 일 실시 예에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 장치에 관하여 도 6 및 도 7을 참조하여 살펴보기로 한다.
우선, 도 6은 본 발명의 일 실시 예에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 장치에 관한 개략적인 블록도이다.
도 6을 참조하면, 본 발명이 적용된 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 장치(600)는 촬영부(610), 제어부(612) 및 사용자 인터페이스부(614)를 포함한다.
상기 제어부(612)는 촬상부(610)를 통해 획득된 깊이 정보를 포함하는 3차원 영상을 기반으로 픽셀별 노멀벡터를 계산하고, 계산된 상기 노멀벡터를 K-평균 군집화 알고리즘(K-means clustering algorithm)을 이용하여 기설정된 수의 평면으로 군집화(clustering)한다.
또한, 상기 제어부(612)은 상기 픽셀별 노멀벡터가 적어도 하나 이상 기설정된 수의 평면으로 군집화된 3차원 영상에서 사용자 인터페이스부(614)로부터 사용자 인터럽트가 발생된 영역을 기준으로 평면 노멀벡터를 계산하도록 제어하고, 상기 군집화부로부터 계산된 평면 노멀벡터를 기반으로 사용자 상호작용을 통해 상기 사용자 인터럽트가 발생된 영역을 포함하는 기준 평면과 배경화면을 분할한다.
그리고 상기 제어부(612)는, 사용자 인터페이스부(614)를 통해 사용자 인터럽트 발생 시 상기 사용자 인터럽트가 발생된 영역을 기준으로 기설정된 거리 및 간격을 가지는 세점을 표시하고, 표시된 상기 세점을 기반으로 평면 노멀벡터를 계산하도록 제어한다.
이후, 상기 제어부(612)는 상기 기준 평면에 대한 컨벡스 헐(convex hull)을 구성하고, 특정 점군(point clouds) 데이터를 기준으로 윤곽선 추출을 수행한다.
즉, 상기 컨벡스 헐 내부에 해당 평면보다 위쪽 방향으로 있는 점군 데이터들에 한하여 마스킹(masking)된 영상을 입력으로 하여 추출하고, 추출된 상기 윤곽선(contours)을 통해 객체의 개수 및 위치를 계산한다.
이러한 상기 제어부(612)의 동작은 도 7에 도시된 바와 같이, 노멀 계산부(710), 군집화부(712), 서브 제어부(714), 윤곽선 검출부(716) 및 객체 검출부(718)을 통해 수행되고, 이후 상기 제어부(612)는 구비된 BoF 히스토그램 생성부로부터 생성된 상기 BoF 히스토그램을 입력으로 기학습된 랜덤 포레스트(Random Forest) 기반의 구분자(classifier)를 이용하여 각 객체별 확률 값들을 획득하고, 획득된 상기 확률 값들 중 최우선하는 확률 값에 대응하는 객체를 선택하여 관심영역 인식을 수행한다.
더욱 상세하게는, 객체 인식을 위해 상기 객체별 관심영역(Region of Interest, ROI)을 지정하는 ROI 지정부(720)와 각 관심영역별 특징점을 검출하는 특징점 검출부(722)와, 검출된 상기 특징점 위치를 기반으로 크기 및 회전에 불변하는 기술자(descriptor)를 생성하는 기술자 생성부(724)와, 생성된 상기 기술자들의 집합을 코드북 학습생성부(726)로부터 기학습된 코드북(codebook)을 이용하여 BoF(bag-of-features) 히스토그램으로 생성하는 BoF 히스토그램 생성부(728) 및 객체 인식부(730)을 통해 수행된다.
상기와 같이 본 발명에 따른 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법 및 장치에 관한 동작이 이루어질 수 있으며, 한편 상기한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나 여러 가지 변형이 본 발명의 범위를 벗어나지 않고 실시될 수 있다. 따라서 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 청구범위와 청구범위의 균등한 것에 의하여 정하여져야 할 것이다.
Claims (8)
- 카메라를 통해 획득된 깊이 정보를 포함하는 3차원 영상을 기반으로 픽셀별 노멀벡터를 계산하는 과정과,
K-평균 군집화 알고리즘(K-means clustering algorithm)을 이용하여 계산된 상기 노멀벡터를 기설정된 수의 평면으로 군집화(clustering)하는 과정과,
상기 픽셀별 노멀벡터가 적어도 하나 이상 기설정된 수의 평면으로 군집화된 3차원 영상에서 사용자 인터럽트가 발생된 영역을 기준으로 평면 노멀벡터를 계산하는 과정과,
계산된 상기 평면 노멀벡터를 기반으로 사용자 상호작용을 통해 상기 사용자 인터럽트가 발생된 영역을 포함하는 기준 평면과 배경화면을 분할하는 과정과,
상기 기준 평면에 대한 컨벡스 헐(convex hull)을 구성하고, 특정 점군(point clouds) 데이터를 기준으로 추출된 윤곽선(contours)을 기준으로 객체의 개수 및 위치를 계산하여 객체를 구역화하는 과정을 포함함을 특징으로 하는 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법. - 제1항에 있어서, 구역화된 상기 객체는,
상기 객체별 관심영역(Region of Interest, ROI)을 지정하고, 각 관심영역별 특징점을 검출하는 과정과,
검출된 상기 특징점 위치를 기반으로 크기 및 회전에 불변하는 기술자(descriptor)를 생성하는 과정과,
생성된 상기 기술자의 집합을 기학습된 코드북(codebook)을 이용하여 BoF(bag-of-features) 히스토그램으로 생성하는 과정과,
생성된 상기 BoF 히스토그램을 입력으로 기학습된 랜덤 포레스트(Random Forest) 기반의 구분자(classifier)를 이용하여 각 객체별 확률 값들을 획득하는 과정과,
획득된 상기 확률 값들 중 최우선하는 확률 값에 대응하는 객체를 선택하여 관심영역 인식을 수행하는 과정을 통해 인식됨을 특징으로 하는 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법. - 제1항에 있어서,
상기 평면 노멀벡터를 계산하는 과정은,
상기 사용자 인터럽트 발생 시 상기 사용자 인터럽트가 발생된 영역을 기준으로 기설정된 거리 및 간격을 가지는 세점을 표시하고, 표시된 상기 세점을 기반으로 평면 노멀벡터를 계산함을 특징으로 하는 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법. - 제1항에 있어서, 상기 윤곽선은,
상기 컨벡스 헐 내부에 해당 평면보다 위쪽 방향으로 있는 점군 데이터들에 한하여 마스킹(masking)된 영상을 입력으로 하여 추출됨을 특징으로 하는 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 방법. - 촬상부를 통해 획득된 깊이 정보를 포함하는 3차원 영상을 기반으로 픽셀별 노멀벡터를 계산하는 노멀 계산부 및
상기 노멀 계산부로부터 계산된 노멀벡터를 K-평균 군집화 알고리즘(K-means clustering algorithm)을 이용하여 기설정된 수의 평면으로 군집화(clustering)하는 군집화부를 포함하고,
상기 노멀 계산부를 통해 상기 픽셀별 노멀벡터가 적어도 하나 이상 기설정된 수의 평면으로 군집화된 3차원 영상에서 사용자 인터럽트가 발생된 영역을 기준으로 평면 노멀벡터를 계산하도록 제어하고, 상기 군집화부로부터 계산된 평면 노멀벡터를 기반으로 사용자 상호작용을 통해 상기 사용자 인터럽트가 발생된 영역을 포함하는 기준 평면과 배경화면을 분할하는 서브 제어부를 포함하는 제어부를 포함하고,
상기 제어부는, 상기 기준 평면에 대한 컨벡스 헐(convex hull)을 구성하고, 특정 점군(point clouds) 데이터를 기준으로 윤곽선을 추출하는 윤곽선 검출부와,
상기 추출된 윤곽선(contours)을 통해 객체의 개수 및 위치를 계산하는 객체 검출부를 더 포함함을 특징으로 하는 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 장치. - 제5항에 있어서, 상기 제어부는,
객체별 관심영역(Region of Interest, ROI)을 지정하는 ROI 지정부와,
각 관심영역별 특징점을 검출하는 특징점 검출부와,
검출된 상기 특징점 위치를 기반으로 크기 및 회전에 불변하는 기술자(descriptor)를 생성하는 기술자 생성부와,
생성된 상기 기술자의 집합을 코드북 학습생성부로부터 기학습된 코드북(codebook)을 이용하여 BoF(bag-of-features) 히스토그램으로 생성하는 BoF 히스토그램 생성부와,
생성된 상기 BoF 히스토그램을 입력으로 기학습된 랜덤 포레스트(Random Forest) 기반의 구분자(classifier)를 이용하여 각 객체별 확률 값들을 획득하고, 획득된 상기 확률 값들 중 최우선하는 확률 값에 대응하는 객체를 선택하여 관심영역 인식을 수행하는 객체 인식부를 포함함을 특징으로 하는 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 장치. - 제5항에 있어서, 상기 제어부는,
사용자 인터페이스부를 통해 사용자 인터럽트 발생 시 상기 사용자 인터럽트가 발생된 영역을 기준으로 기설정된 거리 및 간격을 가지는 세점을 표시하고, 표시된 상기 세점을 기반으로 평면 노멀벡터를 계산하도록 상기 노멀 계산부를 제어함을 특징으로 하는 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 장치. - 제5항에 있어서, 상기 윤곽선 검출부는,
상기 컨벡스 헐 내부에 해당 평면보다 위쪽 방향으로 있는 점군 데이터들에 한하여 마스킹(masking)된 영상을 입력으로 하여 추출함을 특징으로 하는 3차원 객체 인식을 위한 RGB-D 영상 기반 객체 구역화 및 인식 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20130062620A KR101486543B1 (ko) | 2013-05-31 | 2013-05-31 | 3차원 객체 인식을 위한 rgb-d 영상 기반 객체 구역화 및 인식 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20130062620A KR101486543B1 (ko) | 2013-05-31 | 2013-05-31 | 3차원 객체 인식을 위한 rgb-d 영상 기반 객체 구역화 및 인식 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20140141174A KR20140141174A (ko) | 2014-12-10 |
KR101486543B1 true KR101486543B1 (ko) | 2015-01-26 |
Family
ID=52458767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR20130062620A KR101486543B1 (ko) | 2013-05-31 | 2013-05-31 | 3차원 객체 인식을 위한 rgb-d 영상 기반 객체 구역화 및 인식 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101486543B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024044137A1 (en) * | 2022-08-23 | 2024-02-29 | Snap Inc. | Object counting on ar wearable devices |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101980360B1 (ko) * | 2015-09-04 | 2019-08-28 | 한국전자통신연구원 | 컨볼루션 신경망을 이용한 객체 인식 장치 및 방법 |
CN106570903B (zh) * | 2016-10-13 | 2019-06-18 | 华南理工大学 | 一种基于rgb-d摄像头的视觉识别与定位方法 |
CN108267141B (zh) * | 2016-12-30 | 2023-01-10 | 法法汽车(中国)有限公司 | 道路点云数据处理系统 |
KR102000674B1 (ko) | 2017-01-26 | 2019-07-17 | (주)로보케어 | 센서 좌표계와 콘텐츠 주사 영역을 캘리브레이션하는 방법 및 장치 |
KR101979246B1 (ko) | 2017-01-26 | 2019-05-16 | (주)로보케어 | 센서 좌표계를 게임 존에 캘리브레이션하는 방법 및 장치 |
KR101962016B1 (ko) * | 2017-06-27 | 2019-03-25 | 인하대학교 산학협력단 | 깊이 데이터 기반 배관 인식 장치 및 그 방법 |
CN107392875A (zh) * | 2017-08-01 | 2017-11-24 | 长安大学 | 一种基于k近邻域划分的点云数据去噪方法 |
CN110188696B (zh) * | 2019-05-31 | 2023-04-18 | 华南理工大学 | 一种水面无人装备多源感知方法及系统 |
KR102287478B1 (ko) * | 2019-08-05 | 2021-08-09 | 한국과학기술원 | 전자 장치 및 그의 실내 환경에서 반사에 의한 객체 허상을 식별하기 위한 방법 |
WO2021025242A1 (ko) * | 2019-08-05 | 2021-02-11 | 한국과학기술원 | 전자 장치 및 그의 실내 환경에서 반사에 의한 객체 허상을 식별하기 위한 방법 |
KR102202632B1 (ko) * | 2019-11-15 | 2021-01-13 | 국방과학연구소 | 무인 비행체의 비행 금지구역 생성 방법 |
TWI759651B (zh) * | 2019-11-21 | 2022-04-01 | 財團法人工業技術研究院 | 基於機器學習的物件辨識系統及其方法 |
CN112446952B (zh) * | 2020-11-06 | 2024-01-26 | 杭州易现先进科技有限公司 | 三维点云法向量的生成方法、装置、电子设备及存储介质 |
KR102343061B1 (ko) * | 2021-08-05 | 2021-12-24 | 주식회사 인피닉 | 개인정보 비식별 처리 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 |
KR102389998B1 (ko) * | 2021-12-21 | 2022-04-27 | 주식회사 인피닉 | 비식별 처리 방법 및 이를 실행시키기 위하여 기록매체에 기록된 컴퓨터 프로그램 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120079495A (ko) * | 2010-12-30 | 2012-07-13 | 인제대학교 산학협력단 | 지능형 감시 시스템을 위한 객체 검출 방법 |
-
2013
- 2013-05-31 KR KR20130062620A patent/KR101486543B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120079495A (ko) * | 2010-12-30 | 2012-07-13 | 인제대학교 산학협력단 | 지능형 감시 시스템을 위한 객체 검출 방법 |
Non-Patent Citations (3)
Title |
---|
3차원 객체 인식을 위한 RGB-D 영상 특징점 추출 및 특징 기술자 생성 방법 , 한국정보과학회 2012 * |
3차원 객체인식을 위한 보완적 특징점 기반 기술자, 한국정보과학회 2012 * |
컬러 정보를 포함하는 보완적 특징점 기반 기술자를 활용한 객체인식, 한국정보과학회 2012 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024044137A1 (en) * | 2022-08-23 | 2024-02-29 | Snap Inc. | Object counting on ar wearable devices |
Also Published As
Publication number | Publication date |
---|---|
KR20140141174A (ko) | 2014-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101486543B1 (ko) | 3차원 객체 인식을 위한 rgb-d 영상 기반 객체 구역화 및 인식 방법 및 장치 | |
US20240062488A1 (en) | Object centric scanning | |
US9855496B2 (en) | Stereo video for gaming | |
CN108369653B (zh) | 使用眼睛特征的眼睛姿态识别 | |
CN107392958B (zh) | 一种基于双目立体摄像机确定物体体积的方法及装置 | |
KR102317247B1 (ko) | 영상정보를 이용한 증강현실 기반 손 인터랙션 장치 및 방법 | |
US10373380B2 (en) | 3-dimensional scene analysis for augmented reality operations | |
JP5822322B2 (ja) | ローカライズされ、セグメンテーションされた画像のネットワークキャプチャ及び3dディスプレイ | |
US20180137651A1 (en) | Hybrid corner and edge-based tracking | |
US11842514B1 (en) | Determining a pose of an object from rgb-d images | |
WO2014107538A1 (en) | Stereo image matching | |
US20150116355A1 (en) | Reference image slicing | |
US10204284B2 (en) | Object recognition utilizing feature alignment | |
KR101759188B1 (ko) | 2d 얼굴 이미지로부터 3d 모델을 자동 생성하는 방법 | |
KR100560464B1 (ko) | 관찰자의 시점에 적응적인 다시점 영상 디스플레이 시스템을 구성하는 방법 | |
JP2018124973A (ja) | 物体検出システム、物体検出装置、物体検出プログラム、及び物体検出方法 | |
US9208606B2 (en) | System, method, and computer program product for extruding a model through a two-dimensional scene | |
US20200211275A1 (en) | Information processing device, information processing method, and recording medium | |
Jeong et al. | Object segmentation ensuring consistency across multi-viewpoint images | |
JP2017033556A (ja) | 画像処理方法及び電子機器 | |
JP2017156880A (ja) | 画像処理装置および画像処理方法 | |
EP3723365A1 (en) | Image processing apparatus, system that generates virtual viewpoint video image, control method of image processing apparatus and storage medium | |
KR101785203B1 (ko) | 깊이 이미지를 이용한 다시점 객체 분리 방법 및 시스템 | |
JP5051671B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
KR101868520B1 (ko) | 손 제스처 인식 방법 및 그 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20180102 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20190107 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20200106 Year of fee payment: 6 |
|
R401 | Registration of restoration | ||
R401 | Registration of restoration |