KR102106135B1

KR102106135B1 - 행동 인식 기반의 응용 서비스 제공 장치 및 그 방법

Info

Publication number: KR102106135B1
Application number: KR1020130117373A
Authority: KR
Inventors: 김도형; 김재홍; 김계경; 윤영우; 윤우한; 윤호섭; 이재연; 지수영; 조영조; 반규대; 박종현
Original assignee: 한국전자통신연구원
Priority date: 2013-10-01
Filing date: 2013-10-01
Publication date: 2020-05-04
Also published as: KR20150039252A; US20150092981A1; US9183431B2

Abstract

본 발명의 행동 인식 기반의 응용 서비스 제공 장치는, 카메라로부터 제공되는 깊이 영상을 수집하는 영상 입력 블록과, 수집된 깊이 영상으로부터 인체를 검출하는 인체 검출 블록과, 상기 인체로부터 추출한 3차원 액션 볼륨과 기 학습된 행동 모델에 의거하여 상기 인체의 행동을 인식하는 행동 인식 블록을 포함할 수 있다.

Description

행동 인식 기반의 응용 서비스 제공 장치 및 그 방법{APPARATUS AND METHOD FOR PROVIDING APPLICATION SERVICE BY USING ACTION RECOGNITION}

본 발명은 행동 인식 기반의 응용 서비스 제공 기법에 관한 것으로, 더욱 상세하게는 사용자의 지정된 행동을 인식하고 인식된 결과를 바탕으로 에듀테인먼트(edutainment) 프로그램을 제공하는 데 적합한 행동 인식 기반의 응용 서비스 제공 장치 및 그 방법에 관한 것이다.

잘 알려진 바와 같이, 이차원(2D) 또는 삼차원(3D) 카메라가 획득한 영상으로부터 인체(사람)의 모션(motion), 제스처(gesture), 자세(posture), 행동(action) 등을 인식하는 방법에 관한 연구는 오랫동안 수행되어 왔으며, 그 활용분야 또한 다양하다.

이차원 영상에서의 사람의 자세 및 행동에 관한 연구는 동영상(video)의 색인(indexing), 편집(editing), 검색(searching) 등에 주로 활용될 수 있으며, 침입, 배회, 폭행, 실신 등과 같은 비정상적인 행동 패턴을 인식하여 경고 메시지를 발생하는 CCTV 감시분야에서도 널리 활용되고 있다.

2010년 마이크로소프트가 키넥트(Kinect)라는 저가의 3차원 카메라가 장착된 XBox 360 게임 플랫폼을 출시한 이후, 최근 3년간 삼차원 카메라에서 획득된 3D 영상으로부터 인체의 자세를 추정하고 행동을 인식하려는 연구가 활발하게 진행되고 있으며, 아래와 같은 응용분야가 대표적이라 할 수 있다.

1. MS의 Xbox로 대표되는 모션 및 자세 인식 정보를 기반으로 하는 참여형 게임

2. 바디파트 추적 및 제스처 인식 정보를 기반으로 하는 자연스러운 사용자 인터페이스(Natural User Interface)

3. 모션 및 자세 인식 정보를 기반으로 하는 자세 교정 시스템

4. 모션, 자세, 물체 인식 정보를 기반으로 하는 행동 패턴 분석 시스템

5. 간단한 동작인식 정보를 바탕으로 하는 교육용 프로그램

상술한 바와 같이 저가의 3차원 카메라가 널리 보급된 이후로 카메라와 비교적 가까이(예컨대, 3m 이내)에 위치하고 있는 사람들의 모션 및 자세 정보 추출이 예전에 비해 더욱 용이해졌고, 이에 따라 다양한 응용 시스템이 개발되고 있으며, 이것은 본 발명이 목표로 삼고 있는 에듀테인먼트 분야도 예외가 아니다.

그러나, 종래의 모든 에듀테인먼트 프로그램은 사용자의 팔, 다리 등의 위치 추적을 통해서 동작 발생 유무 및 자세를 추정하고, 이러한 정보를 기반으로 참여형 콘텐츠를 제공하는 매우 간단한 형태의 프로그램으로서, 교육의 효과 및 오락의 질적인 측면에서 보았을 때 매우 초보적인 수준이라고 할 수 있다.

대한민국 공개특허 제2013-0018004호(공개일 : 2013. 02. 20.)

본 발명은, 사용자의 모션 및 자세 정보만을 활용하는 종래의 단순한 게임 및 교육용 프로그램과는 달리, 명시적인 행동 인식을 기반으로 하여 보다 높은 수준의 지능형 응용 서비스 모델을 제공할 수 있는 새로운 기법을 제안한다.

본 발명이 해결하고자 하는 과제는 상기에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 해결하고자 하는 과제는 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에 의해 명확하게 이해될 수 있을 것이다.

본 발명은, 일 관점에 따라, 카메라로부터 제공되는 깊이 영상을 수집하는 영상 입력 블록과, 수집된 깊이 영상으로부터 인체를 검출하는 인체 검출 블록과, 상기 인체로부터 추출한 3차원 액션 볼륨과 기 학습된 행동 모델에 의거하여 상기 인체의 행동을 인식하는 행동 인식 블록을 포함하는 행동 인식 기반의 응용 서비스 제공 장치를 제공한다.

본 발명의 상기 행동 인식 블록은, SVM(support vector machine) 분류기를 이용하여 상기 인체의 행동을 인식할 수 있다.

본 발명의 상기 행동 인식 블록은, 상기 인체의 행동이 시작부터 종료까지의 전체 깊이 영상을 누적하여 3차원 액션 볼륨을 생성하는 액션 볼륨 생성부와, 생성된 상기 3차원 액션 볼륨을 기 설정된 크기로 정규화하는 정규화부와, 정규화된 상기 3차원 액션 볼륨에 대한 각 픽셀의 깊이 값들을 비교함으로써, 각 액션 볼륨에 대한 특징을 추출하는 특징 추출부와, 기 학습된 행동 모델에 대한 학습 특징 및 행동 라벨을 저장하는 행동 학습 DB와, 추출된 상기 특징과 상기 행동 학습 DB 내 기 학습된 행동 모델의 학습 특징을 비교함으로써, 가장 유사한 학습 특징의 행동 라벨을 상기 인체의 행동으로 결정(인식)하는 행동 인식부를 포함할 수 있다.

본 발명의 상기 액션 볼륨 생성부는, 아래의 수학식을 통해 상기 3차원 액션 볼륨을 생성할 수 있다.

(상기 수학식에서, 상기 V(i,j,t)는 t 시점에서 액션 볼륨 깊이 영상의 (i,j) 위치에서의 깊이 값(depth value)을, 상기 D(i,j,t)는 t 시점에서 입력 깊이 영상의 (i,j) 위치에서의 깊이 값을 각각 나타냄.)

본 발명의 상기 액션 볼륨 생성부는, 상기 D(i,j,t)가 0(제로)이 아닌 모든 지점에서 상기 3차원 액션 볼륨을 생성할 수 있다.

본 발명의 상기 특징 추출부는, 3D LBP(local binary pattern)를 이용하여 상기 특징을 추출할 수 있다.

본 발명의 상기 기 학습된 행동 모델은, SVM(support vector machine) 학습 분류기를 이용하여 생성될 수 있다.

본 발명은, 다른 관점에 따라, 깊이 영상을 수집하는 과정과, 수집된 깊이 영상으로부터 인체를 검출하는 과정과, 상기 인체로부터 3차원 액션 볼륨을 검출하는 과정과, 검출된 상기 3차원 액션 볼륨과 기 학습된 행동 모델에 의거하여 상기 인체의 행동을 인식하는 과정을 포함하는 행동 인식 기반의 응용 서비스 제공 방법을 제공한다.

본 발명의 상기 인식하는 과정은, 상기 인체의 행동이 시작부터 종료까지의 전체 깊이 영상을 누적하여 3차원 액션 볼륨을 생성하는 과정과, 생성된 상기 3차원 액션 볼륨을 기 설정된 크기로 정규화하는 과정과, 정규화된 상기 3차원 액션 볼륨에 대한 각 픽셀의 깊이 값들의 비교를 통해 각 액션 볼륨에 대한 특징을 추출하는 과정과, 추출된 상기 특징과 기 학습된 행동 모델의 학습 특징을 비교함으로써, 가장 유사한 학습 특징의 행동 라벨을 상기 인체의 행동으로 결정하는 과정을 포함할 수 있다.

본 발명은, 수집된 영상 정보의 깊이 정보를 이용하여 검출한 인체로부터 3차원 액션 볼륨을 검출하고, 이 검출된 3차원 액션 볼륨과 기 학습된 행동 모델에 의거하여 인체의 행동을 인식함으로써, 상대적으로 높은 수준의 지능형 응용 서비스 모델을 제공할 수 있으며, 이를 통해 다양한 에듀테인먼트 분야로의 확장 적용을 실현할 수 있다.

도 1은 행동 인식 정보를 기반으로 하는 퀴즈 프로그램의 개념도이다.
도 2는 본 발명에 따른 행동 인식 기반의 응용 서비스 제공 장치의 블록구성도이다.
도 3은 도 2에 도시된 행동 인식 블록의 세부적인 블록구성도이다.
도 4는 본 발명에 따라 응용 서비스의 제공을 위해 기 학습된 행동 모델을 이용하여 설명자의 행동을 인식하는 주요 과정을 도시한 순서도이다.
도 5는 도 4에 도시된 행동 인식 단계에 대한 세부적인 주요 과정을 도시한 순서도이다.
도 6은 복수개의 영상이 누적되어 최종적으로 하나의 깊이 영상인 액션 볼륨으로 생성되는 것을 설명하기 위한 시뮬레이션 결과 화면이다.
도 7은 생성된 액션 볼륨에 대해 3D LBP를 이용하여 특징을 추출하는 과정을 설명하기 위한 개념도이다.

먼저, 본 발명의 장점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되는 실시 예들을 참조하면 명확해질 것이다. 여기에서, 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 발명의 범주를 명확하게 이해할 수 있도록 하기 위해 예시적으로 제공되는 것이므로, 본 발명의 기술적 범위는 청구항들에 의해 정의되어야 할 것이다.

아울러, 아래의 본 발명을 설명함에 있어서 공지 기능 또는 구성 등에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들인 것으로, 이는 사용자, 운용자 등의 의도 또는 관례 등에 따라 달라질 수 있음은 물론이다. 그러므로, 그 정의는 본 명세서의 전반에 걸쳐 기술되는 기술사상을 토대로 이루어져야 할 것이다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예에 대하여 상세하게 설명한다.

먼저, 본 발명의 실시 예를 설명함에 있어서 혼돈의 여지가 없도록 각 용어들을 다음과 같이 정의한다.

1. 모션(or동작) 인식 : 연속 영상에서 특정 위치에 동작이 발생하였는지 여부를 감지(예컨대, 화면의 좌측 상단 지정된 영역에 움직임이 발생하였다.)

2. 제스처 인식 : 비언어 의사소통의 형태로서 연속 영상에서 몸짓의 의미를 인식(예컨대, 손을 들고 앞뒤로 반복해서 손짓하는 동작은 호출(calling) 제스처이다.)

3. 자세 인식 : 정지 영상에서 사람의 관절과 뼈대가 이루는 특정 형태를 인식(예컨대, 골프 스윙시 골프채와 공이 임펙트될 때의 자세, 양팔을 위로 치켜 올린 자세 등)

4. 행동 인식 : 연속 영상에서 일련의 자세의 집합으로 구성된 특정 행위를 인식(예컨대, 떨어진 물건을 줍는 행동, 달려 나가 공을 차는 행동, 바나나를 먹는 행동 등)

도 1은 행동 인식 정보를 기반으로 하는 퀴즈 프로그램의 개념도이다.

도 1을 참조하면, 본 발명에 따른 행동 인식 정보 기반의 응용 서비스 제공 장치를 퀴즈 프로그램에 적용한 것으로서, 이와 같이 행동 인식 정보를 기반으로 하는 퀴즈 프로그램의 시나리오는 다음과 같이 단순하다.

먼저, 퀴즈가 시작되면 행동 설명자(actor)가 제시어(퀴즈)를 보고, 그 제시어를 대표할 수 있다고 생각되는 일련의 행동을 취한다. 예컨대, 도 1에 도시된 바와 같이, 제시어가“축구”라면 행동 설명자는 슛을 하는 행동이나, 드리블을 하는 행동 등을 취할 수 있을 것이다.

이에 따라, 행동 인식 장치를 포함한 복수의 퀴즈 풀이자가 그 행동을 보고 답을 제시하게 되고, 먼저 정답을 맞춘 사람에게 점수를 부여하는 방식이다. 제시어가 포함되는 문제 영역은, 예컨대 스포츠, 동물, 악기, 영화 등 행동으로 표현 가능한 경우라면 어떠한 영역도 가능하다.

이러한 퀴즈 프로그램의 시나리오는 기존의 스피드 퀴즈와 유사한 형태이지만, 행동 인식 장치를 도입함으로써 기존에 존재하지 않던 진보된 행태의 새로운 에듀테인먼트 프로그램의 제공을 가능하게 할 수 있다.

한편, 설명의 편의와 이해의 증진을 위해 하나의 실시예로서 “행동 인식 정보를 기반으로 하는 퀴즈 프로그램”에 대해 설명하였으나, 본 발명이 반드시 이에 한정되는 것은 아니며, 본 발명은 본 발명과 유사한 방법 및 시스템(장치)으로 구성되는 모든 에듀테인먼트 프로그램(예컨대, 이상 행위 탐지 및 특정 패턴 분석, 모션/자세 기반의 참여형 게임, 모션 인식을 이용한 스마트 TV의 사용자 인터페이스, 댄스, 골프 등의 자세 교정, 사용자의 행동 패턴 분석, 동작 인식을 통한 학습 등)에 광범위하게 적용될 수 있음은 물론하다.

예컨대, 아동이 특정 사물을 행동으로 얼마나 잘 설명하는지를 평가함으로써 아동의 발달 사항을 자동으로 측정하는 장치(또는 모델)로 활용하거나 혹은 미리 정의된 이상 행동을 인식함으로써 자폐증과 같은 병의 1차적인 검진(screening) 장치(모델)로도 활용할 수 있다.

도 2는 본 발명에 따른 행동 인식 기반의 응용 서비스 제공 장치의 블록구성도로서, 영상 입력 블록(202), 인체 검출 블록(204) 및 행동 인식 블록(206) 등을 포함할 수 있다.

도 2를 참조하면, 영상 입력 블록(202)은 행동 인식 장치에 장착된 3D 카메라로부터 일련의 영상을 입력, 즉 행동 인식에 필요한 깊이 영상(depth image)을 수집하여 인체 검출 블록(204)으로 전달하는 등의 기능을 제공할 수 있다. 물론, 영상 입력 블록(202)은 필요에 따라 3D 카메라로부터 2D RGB 영상과 거리 정보를 포함하고 있는 깊이 영상을 모두 입력 받을 수도 있지만, 본 실시 예에서는 깊이 영상만을 사용하여 인체의 행동을 인식하기 때문에 깊이 영상만을 입력받는다.

그리고, 인체 검출 블록(204)은 수집된 깊이 영상으로부터 인체를 검출, 즉 깊이 영상을 이용하여 입력 영상으로부터 인체(예컨대, 행동 설명자)의 위치를 검출하는 등의 기능을 제공할 수 있으며, 여기에서 검출되는 인체의 위치 정보는 행동 인식 블록(206)으로 전달된다.

다음에, 행동 인식 블록(206)은 SVM(support vector machine) 분류기를 이용하여 인체의 행동을 인식, 즉 인체로부터 3차원 액션 볼륨을 추출하고, 이 추출된 3차원 액션 볼륨과 기 학습된 행동 모델에 의거하여 인체의 행동을 인식하는 등의 기능을 제공할 수 있다.

즉, 인체(행동 설명자)가 취하는 일련의 자세의 집합으로 구성된 행동이 구체적으로 무엇인지를 인식하는데, 각각의 인식 대상 행동은 사전에 문제 영역별로 미리 학습되고, 기 학습된 행동 모델과 그 행동의 라벨(label)은 행동 학습 데이터베이스에 저장될 수 있다. 이를 위해, 행동 인식 블록(206)은 도 3에 도시된 바와 같은 구성을 포함할 수 있다.

도 3은 도 2에 도시된 행동 인식 블록의 세부적인 블록구성도로서, 액션 볼륨 생성부(302), 정규화부(304), 특징 추출부(306), 행동 인식부(308) 및 행동 학습 DB(310) 등을 포함할 수 있다.

도 3을 참조하면, 액션 볼륨 생성부(302)는 인체(예컨대, 행동 설명자)가 행동을 취하기 시작하여 행동이 종료될 때까지의 모든(전체) 깊이 영상을 누적하여 3차원 액션 볼륨(3D action volume)을 생성하는 등의 기능을 제공할 수 있다.

즉, 액션 볼륨 생성부(302)는 아래의 수학식1을 통해 3차원 액션 볼륨을 생성할 수 있다.

[수학식 1]

상기한 수학식1에서, V(i,j,t)는 t 시점에서 액션 볼륨 깊이 영상의 (i,j) 위치에서의 깊이 값(depth value)을 나타내고, D(i,j,t)는 t 시점에서 입력 깊이 영상의 (i,j) 위치에서의 깊이 값을 각각 나타낸다. 이때, 액션 볼륨 생성부(302)는 D(i,j,t)가 0(제로)이 아닌 모든 지점에서 3차원 액션 볼륨을 생성한다.

즉, 액션 볼륨 생성부(302)는, 일례로서, 도 6a에 도시된 바와 같이 복수 개의 깊이 영상을 누적함으로써, 일례로서 도 6b에 도시된 바와 같이 최종적으로 하나의 깊이 영상인 3차원 액션 볼륨을 생성하는데, 이러한 3차원 액션 볼륨은 특징 추출에 적합할 수 있도록 각 행동마다 서로 상이한 형태(shape)를 지닌다.

그리고, 정규화부(304)는 액션 볼륨 생성부(302)를 통해 생성된 3차원 액션 볼륨을 기 설정된 크기로 정규화, 즉 액션 볼륨을 포함하는 최소 사각 영역으로 잘라내고, 잘라진 깊이 영상을 일정한 크기로 조정(resizing)하는 등의 기능을 제공할 수 있다. 예컨대, 인체(행동 설명자)와 카메라 간의 거리가 일정치 않고, 같은 행동이라도 행동 설명자마다 그 행동을 취하는 크기(scale)가 다를 수 있다. 이로 인해 영상 내에 나타나는 액션 볼륨의 크기 또한 달라질 수 있는데, 이러한 차이를 보정하기 위하여 정규화를 수행하는 것이다.

다음에, 특징 추출부(306)는 정규화부(304)를 통해 정규화된 3차원 액션 볼륨, 예컨대 도 7a에 도시된 바와 같은 액션 볼륨에 대한 각 픽셀의 깊이 값들을 비교함으로써 각 액션 볼륨에 대한 특징을 추출, 즉 3D LBP(local binary pattern)를 이용하여 특징을 추출하는 기능을 제공할 수 있다.

일례로서, 도 7b에 도시된 바와 같이 3x3 윈도우(window)를 정규화된 액션 볼륨에 대하여 좌상단에서부터 시작하여 우하단에 이르기까지 순차적으로 영상 전체를 스캔하면서, 윈도우의 가운데에 위치하고 있는 하나의 픽셀을 주변 값들과 비교하여 십진코드 값으로 변환시킨다.

예컨대, 도 7b와 같이 윈도우의 가운데 있는 500이라는 깊이 값(깊이 정보)을 이웃 픽셀의 깊이 값과 비교하는데, 만약 이웃 픽셀 값이 500보다 큰 값이면 1, 그렇지 않으면 0을 할당한다. 도 7b에서 보는 바와 같이 521은 1로, 450은 0으로, 512는 1로 각각 할당된다. 이렇게 시계방향으로 회전하면서 각각의 깊이 값을 1 아니면 0으로 변환함으로써, 총 8 비트의 이진코드를 생성하는데, 이러한 이진코드는 십진코드로 바꾸어 표기할 수 있고, 최종적으로 십진 코드 값이 해당 픽셀 위치에서의 특징 값이 된다.

즉, 특징 추출부(306)에서는 각 픽셀의 깊이 값들을 비교하여 하나의 십진 코드를 생성하는 3D LBP를 이용하여 액션 볼륨 하나에 대하여 특징벡터 하나를 추출하게 된다.

다음에, 행동 인식부(308)는 특징 추출부(306)를 통해 추출된 특징과 행동 학습 DB(310)에 저장되어 있는 기 학습된 행동 모델의 학습 특징을 비교함으로써, 가장 유사한 학습 특징의 행동 라벨을 인체의 행동으로 인식, 즉 현재 인체(행동 설명자)가 취하는 행동과 가장 유사한 행동 모델의 라벨을 인식된 행동으로 출력하는 등의 기능을 제공할 수 있다.

이를 위해, 행동 학습 DB(310)에는 사전에 문제 영역별로 기 학습된 행동 모델과 그 학습 특징 및 행동 라벨(label)이 저장되어 있는데, 이러한 기 학습된 행동 모델은 SVM 학습 분류기를 이용하여 생성될 수 있다.

다음에, 상술한 바와 같은 구성을 갖는 본 발명의 응용 서비스 제공 장치를 이용하여 인체의 행동 인식 기반으로 고 수준의 지능형 응용 서비스(예컨대, 에듀테인먼트 서비스)를 제공하는 일련의 과정들에 대하여 상세하게 설명한다.

도 4는 본 발명에 따라 응용 서비스의 제공을 위해 기 학습된 행동 모델을 이용하여 설명자의 행동을 인식하는 주요 과정을 도시한 순서도이다.

도 4를 참조하면, 행동 인식 장치에 장착된 3D 카메라로부터 일련의 영상을 입력되면, 영상 입력 블록(202)에서는 입력되는 깊이 영상을 수집하여 인체 검출 블록(204)으로 전달한다(단계 402).

이에 응답하여, 인체 검출 블록(204)에서는 수집된 깊이 영상으로부터 인체를 검출, 즉 깊이 영상을 이용하여 입력 영상으로부터 인체(예컨대, 행동 설명자)의 위치를 검출한 후 행동 인식 블록(206)으로 전달한다(단계 404).

다음에, 행동 인식 블록(206)에서는 SVM(support vector machine) 분류기를 이용하여 인체(행동 설명자)의 행동을 인식, 즉 인체로부터 3차원 액션 볼륨을 추출하고, 이 추출된 3차원 액션 볼륨과 행동 학습 DB에 저장되어 있는 기 학습된 행동 모델에 의거하여 인체의 행동을 인식하는데(단계 406), 이와 같이 3차원 액션 볼륨과 기 학습된 행동 모델에 의거하여 인체의 행동을 인식하는 세부적인 과정에 대해서는 도 5를 참조하여 후에 상세하게 기술한다.

즉, 행동 인식 블록(206)에서는 행동이 인식되지 않을 때, 즉 행동이 종료될 때까지 인체의 행동을 인식하고(단계 408), 인체의 행동 인식이 종료될 때 인식된 행동을 출력한다(단계 410).

도 5는 도 4에 도시된 행동 인식 단계에 대한 세부적인 주요 과정을 도시한 순서도이다.

도 5를 참조하면, 행동 인식 블록(206) 내 액션 볼륨 생성부(302)에서는 인체(예컨대, 행동 설명자)가 행동을 취하기 시작하면 인체(행동 설명자)의 위치를 검출한 후 3차원 액션 볼륨을 생성한다(단계 502, 504).

이후, 단계(506)에서는 인체의 행동이 종료되었는지의 여부를 체크하는데, 이러한 단계(502) 내지 단계(506)의 과정을 반복적으로 수행함으로써, 인체가 행동을 취하기 시작하여 행동이 종료될 때까지의 모든(전체) 깊이 영상을 누적하여 3차원 액션 볼륨(3D action volume)을 생성한다. 즉, 3차원 액션 볼륨은 전술한 수학식1을 이용하여 생성될 수 있다.

예컨대, 도 6a에 도시된 바와 같이 복수 개의 깊이 영상을 누적함으로써, 일례로서 도 6b에 도시된 바와 같이 최종적으로 하나의 깊이 영상인 3차원 액션 볼륨을 생성한다. 여기에서, 3차원 액션 볼륨은 특징 추출에 적합할 수 있도록 각 행동마다 서로 상이한 형태(shape)를 지닐 수 있다.

다음에, 정규화부(304)에서는 생성된 3차원 액션 볼륨을 기 설정된 크기로 정규화, 즉 액션 볼륨을 포함하는 최소 사각 영역으로 잘라내고, 잘라진 깊이 영상을 일정한 크기로 조정하는 방식을 통해 3차원 액션 볼륨을 정규화시킨다(단계 508).

이어서, 특징 추출부(306)에서는 정규화된 3차원 액션 볼륨에 대한 각 픽셀의 깊이 값들을 비교함으로써 각 액션 볼륨에 대한 특징을 추출, 즉 3D LBP를 이용하여 특징을 추출한다(단계 510). 즉, 각 픽셀의 깊이 값들을 비교하여 하나의 십진 코드를 생성하는 3D LBP를 이용하여 액션 볼륨 하나에 대하여 특징벡터 하나를 추출한다.

마지막으로, 행동 인식부(308)에서는 추출된 특징과 행동 학습 DB(310)에 저장되어 있는 기 학습된 행동 모델의 학습 특징을 비교함으로써, 가장 유사한 학습 특징의 행동 라벨을 인체의 행동으로 인식, 즉 현재 인체가 취하는 행동과 가장 유사한 행동 모델의 라벨을 인식된 행동으로 출력한다(단계 512).

한편, 첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리 등에 저장되는 것도 가능하므로, 그 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 적어도 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시 예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

이상의 설명은 본 발명의 기술사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경 등이 가능함을 쉽게 알 수 있을 것이다. 즉, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것으로서, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다.

따라서, 본 발명의 보호 범위는 후술되는 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

202 : 영상 입력 블록 204 : 인체 검출 블록
206 : 행동 인식 블록 302 : 액션 볼륨 생성부
304 : 정규화부 306 : 특징 추출부
308 : 행동 인식부 310 : 행동 학습 DB

Claims

카메라로부터 제공되는 깊이 영상을 수집하는 영상 입력 블록과,
수집된 깊이 영상으로부터 인체를 검출하는 인체 검출 블록과,
상기 인체로부터 추출한 3차원 액션 볼륨과 기 학습된 행동 모델에 의거하여 상기 인체의 행동을 인식하는 행동 인식 블록
을 포함하되,
상기 행동 인식 블록은,
상기 인체의 행동의 시작부터 종료까지의 전체 깊이 영상을 누적하여 3차원 액션 볼륨을 생성하는 액션 볼륨 생성부와,
생성된 상기 3차원 액션 볼륨을 기 설정된 크기로 정규화 하는 정규화부와,
정규화 된 상기 3차원 액션 볼륨에 대하여 좌상단에서부터 우하단까지 순차적으로 영상 전체를 스캔하면서 각 픽셀의 깊이 값들을 비교함으로써, 각 액션 볼륨에 대한 특징벡터를 추출하는 특징 추출부와,
기 학습된 행동 모델에 대한 학습 특징 및 행동 라벨을 저장하는 행동 학습 DB와,
추출된 상기 특징벡터와 상기 행동 학습 DB 내 기 학습된 행동 모델의 학습 특징을 비교함으로써, 가장 유사한 학습 특징의 행동 라벨을 상기 인체의 행동으로 결정(인식)하는 행동 인식부를 포함하되,
상기 액션 볼륨 생성부는,
아래의 수학식을 통해 상기 3차원 액션 볼륨을 생성하는,

(상기 수학식에서, 상기 V(i,j,t)는 t 시점에서 액션 볼륨 깊이 영상의 (i,j) 위치에서의 깊이 값(depth value)을, 상기 D(i,j,t)는 t 시점에서 입력 깊이 영상의 (i,j) 위치에서의 깊이 값을 각각 나타냄.) 행동 인식 기반의 응용 서비스 제공 장치.
제 1 항에 있어서,
상기 행동 인식 블록은,
SVM(support vector machine) 분류기를 이용하여 상기 인체의 행동을 인식하는
행동 인식 기반의 응용 서비스 제공 장치.
삭제
삭제
제 1 항에 있어서,
상기 액션 볼륨 생성부는,
상기 D(i,j,t)가 0(제로)이 아닌 모든 지점에서 상기 3차원 액션 볼륨을 생성하는
행동 인식 기반의 응용 서비스 제공 장치.
제 1 항에 있어서,
상기 특징 추출부는,
3D LBP(local binary pattern)를 이용하여 상기 특징을 추출하는
행동 인식 기반의 응용 서비스 제공 장치.
제 1 항에 있어서,
상기 기 학습된 행동 모델은,
SVM(support vector machine) 학습 분류기를 이용하여 생성되는
행동 인식 기반의 응용 서비스 제공 장치.
깊이 영상을 수집하는 과정과,
수집된 깊이 영상으로부터 인체를 검출하는 과정과,
상기 인체로부터 3차원 액션 볼륨을 검출하는 과정과,
검출된 상기 3차원 액션 볼륨과 기 학습된 행동 모델에 의거하여 상기 인체의 행동을 인식하는 과정
을 포함하되,
상기 인식하는 과정은,
상기 인체의 행동의 시작부터 종료까지의 전체 깊이 영상을 누적하여 3차원 액션 볼륨을 생성하는 과정과,
생성된 상기 3차원 액션 볼륨을 기 설정된 크기로 정규화 하는 과정과,
정규화 된 상기 3차원 액션 볼륨에 대하여 좌상단에서부터 우하단까지 순차적으로 영상 전체를 스캔하면서 각 픽셀의 깊이 값들의 비교를 통해 각 액션 볼륨에 대한 특징벡터를 추출하는 과정과,
추출된 상기 특징벡터와 기 학습된 행동 모델의 학습 특징을 비교함으로써, 가장 유사한 학습 특징의 행동 라벨을 상기 인체의 행동으로 결정하는 과정을 포함하되,
상기 3차원 액션 볼륨은,
아래의 수학식을 통해 생성되는,

(상기 수학식에서, 상기 V(i,j,t)는 t 시점에서 액션 볼륨 깊이 영상의 (i,j) 위치에서의 깊이 값(depth value)을, 상기 D(i,j,t)는 t 시점에서 입력 깊이 영상의 (i,j) 위치에서의 깊이 값을 각각 나타냄.) 행동 인식 기반의 응용 서비스 제공 방법.
제 8 항에 있어서,
상기 인식하는 과정은,
SVM(support vector machine) 분류기를 이용하여 상기 인체의 행동을 인식하는
행동 인식 기반의 응용 서비스 제공 방법.
삭제
삭제
제 8 항에 있어서,
상기 특징은,
3D LBP(local binary pattern)를 이용하여 추출되는
행동 인식 기반의 응용 서비스 제공 방법.