KR101514731B1

KR101514731B1 - 인간 모델의 3차원 공간 데이터를 이용한 포즈 인식 시스템 및 그 방법

Info

Publication number: KR101514731B1
Application number: KR1020140118934A
Authority: KR
Inventors: 조경은; 엄기현; 치옥용; 조성재
Original assignee: 동국대학교 산학협력단
Priority date: 2014-09-05
Filing date: 2014-09-05
Publication date: 2015-04-28
Also published as: WO2016035941A1

Abstract

본 발명은 3D 인간 모델과 3차원 공간 데이터를 이용한 포즈 인식 시스템 및 그 방법에 관한 것으로, 사용자를 추적하여 영상을 촬영하는 센서로부터 스켈레톤(skeleton) 정보를 입력받아 가상 인간인 3D 인간 모델을 생성하고, 3D 인간 모델이 위치하는 가상 공간인 3D 루빅 큐브(Rubik Cube)를 생성하는 생성부; 스켈레톤 정보를 이용하여 사용자가 취하는 포즈를 3D 인간 모델이 따라 움직이게 하는 동작부; 포즈에 대하여 모든 교차 감지 상자마다 3D 인간 모델과 교차했는지 여부를 감지하고, 각 교차 감지 상자의 교차 여부를 하나의 원소로 하는 교차 여부 배열을 생성하는 감지부; 및 교차 여부 배열을 이용하여 데이터 베이스에 저장된 포즈 데이터 중에서 사용자의 포즈와 가장 유사도가 높은 포즈 데이터를 추출하여 포즈를 인식하는 식별부;를 포함하는 포즈 인식 시스템을 제안한다.

Description

인간 모델의 3차원 공간 데이터를 이용한 포즈 인식 시스템 및 그 방법{Posture recognition system using 3D space data of a human avatar and Method thereof}

본 발명은 인간 모델의 3차원 공간 데이터를 이용한 포즈 인식 시스템 및 그 방법에 관한 것으로서, 더욱 상세하게는 사용자가 포즈를 취하면 해당 포즈를 촬영한 영상에서 스켈레톤 정보를 입력받아 가상 인간인 3D 인간 모델과 3차원 가상 공간 데이터인 3D 루빅 큐브를 생성하고, 3D 인간 모델과 3D 루빅 큐브의 교차 여부를 기준으로 사용자의 포즈를 인식하는 방법, 그 기록매체 및 포즈 인식 시스템에 관한 것이다.

NUI(Natural User Interface)는 사람과 컴퓨터의 상호작용을 위한 새로운 인터페이스 즉, 사람의 신체를 직관적으로 움직이는 제스처로부터 직접 컴퓨터 등의 장치를 제어하는 기술이다. 사람의 제스처인 자세, 표정 등을 인식하는 기술을 중심으로 다양한 인식 수단 및 제어 수단이 연구개발되고 있다.

기존의 사용자의 포즈를 인식하는 방법은 RGB-D 카메라를 통해 사용자의 움직임을 추적하여 스켈레톤 정보를 추출하고, 각 관절의 각도를 사용하거나 관절의 상대좌표를 기반으로 스켈레톤 정보를 분석하여 포즈를 인식하는 것이다. 이와 같은 방법들은 사용자의 움직임을 추적하여 쌓이는 대용량 데이터를 처리해야 하는 동시에 인식의 정확성을 위한 복잡한 데이터 연산을 수행해야 하기 때문에 처리 속도가 느려지거나 많은 자원을 사용해야하는 문제점을 가진다. 게다가 포즈를 인식하는 기술은 게임기 혹은 시뮬레이션 장치와 같이 다른 기술과 결합되어 활용되는 것이 일반적이기 때문에 적은 자원만을 사용하고 실시간으로 정확하게 포즈를 인식할 수 있는 수단이 필요하다.

또한, 사람마다 키나 체형이 다양하기 때문에 사람의 포즈를 인식하는데 체형의 다양성을 고려할 수 있어야 한다. 따라서 사용자에 특정되지 않고 일반적인 사람들의 포즈를 인식하여 컴퓨터 등과 상호작용할 수 있는 포즈 인식 방법을 통해 자연스러운 인터페이스가 구현되어야 할 필요성이 있다.

한국 공개특허공보 10-2013-0111248, 2013.10.10 공개

본 발명이 해결하고자 하는 기술적 과제는, 사람마다 다른 키나 체형의 영향을 받지 않으면서 사람의 포즈를 인식하는 방법을 제공하는 것이다. 또한, 간단한 데이터 형식으로 포즈를 저장하고 이를 통해 연산량을 감소시켜 실시간으로 포즈를 인식하면서도 정확한 인식률을 보장할 수 있는 실시간 포즈 인식 방법을 제공하는 것이다. 나아가 상기된 방법을 컴퓨터에 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다.

상기 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 포즈 인식 시스템은 사용자를 추적하여 영상을 촬영하는 센서로부터 스켈레톤(skeleton) 정보를 입력받아 가상 인간인 3D 인간 모델을 생성하고, 상기 3D 인간 모델이 위치하는 가상 공간이며 하나 이상의 교차 감지 상자로 구성되는 3D 루빅 큐브(Rubik Cube)를 생성하는 생성부; 상기 스켈레톤 정보를 이용하여 상기 사용자가 취하는 포즈를 상기 3D 인간 모델이 따라 움직이게 하는 동작부; 상기 포즈에 대하여 상기 모든 교차 감지 상자마다 상기 3D 인간 모델과 교차했는지 여부를 감지하고, 각 교차 감지 상자의 교차 여부를 하나의 원소로 하는 교차 여부 배열을 생성하는 감지부; 및 상기 교차 여부 배열을 이용하여 데이터 베이스에 저장된 포즈 데이터 중에서 상기 사용자의 포즈와 가장 유사도가 높은 포즈 데이터를 추출하여 포즈를 인식하는 식별부;를 포함한다.

일 실시예에 따른 포즈 인식 시스템에서, 상기 교차 감지 상자는 3차원 가상 공간에서 일정한 크기의 단위 공간을 의미하고, 상기 3D 루빅 큐브를 구성하는 상기 교차 감지 상자의 개수는 상기 3D 인간 모델의 동작 범위에 따라 결정될 수 있다.

일 실시예에 따른 포즈 인식 시스템에서, 상기 교차 여부 배열은 비트 데이터로 표현되고, 상기 3D 루빅 큐브의 크기에 비례하여 크기가 결정될 수 있다.

일 실시예에 따른 포즈 인식 시스템에서, 상기 포즈 데이터는 포즈 이름과 교차 여부 배열 값으로 정의되고, 하나의 포즈에 대하여 하나 이상의 교차 여부 배열 값을 가질 수 있다.

일 실시예에 따른 포즈 인식 시스템에서, 상기 식별부는 상기 사용자의 포즈의 교차 여부 배열 값과 상기 각 포즈 데이터의 교차 여부 배열 값에 대한 해밍 거리(Hamming Distance)로부터 유사도를 계산할 수 있다.

일 실시예에 따른 포즈 인식 시스템에서, 상기 감지부는 상기 교차 여부 배열을 복수 개의 특징 데이터 배열로 변환하되, 상기 특징 데이터 배열은 상기 3D 루빅 큐브를 특정 시점에서 바라본 2차원 영역을 나타내는 것을 특징으로 할 수 있다.

상기된 실시예에서, 상기 식별부는 상기 특징 데이터 배열 중에서 하나 이상을 선택하고, 선택된 특징 데이터 배열에 대하여만 유사도를 계산하는 것을 특징으로 할 수 있다.

상기된 실시예에서, 상기 식별부는 상기 3D 루빅 큐브를 특정 시점에서 바라본 2차원 영역마다 소정의 개수로 분할하고, 상기 분할된 영역에 대하여 문턱 값(threshold)을 설정하여 오차 범위를 조정하는 것을 특징으로 할 수 있다.

상기 기술적 과제를 해결하기 위하여, 본 발명의 다른 실시예에 따른 포즈 인식 방법은 스켈레톤(skeleton) 정보를 입력받는 단계; 상기 스켈레톤 정보로부터 가상 인간인 3D 인간 모델을 생성하고, 상기 3D 인간 모델이 위치하는 가상 공간인 3D 루빅 큐브를 생성하고, 상기 3D 루빅 큐브는 하나 이상의 교차 감지 상자로 구성하며 상기 3D 인간 모델을 상기 3D 루빅 큐브의 중심에 위치시키는 단계; 사용자가 포즈를 취하면 상기 스켈레톤 정보를 이용하여 상기 3D 인간 모델을 상기 포즈를 따라 움직이게 하여 상기 모든 교차 감지 상자마다 상기 3D 인간 모델과 교차했는지 여부를 감지하고, 상기 각 교차 감지 상자의 교차 여부를 하나의 원소로 하는 교차 여부 배열을 생성하는 단계; 및 상기 교차 여부 배열을 이용하여 데이터 베이스에 저장된 포즈 데이터 중에서 상기 사용자의 포즈와 가장 유사도가 높은 포즈 데이터를 추출함으로써 포즈를 인식하는 단계;를 포함한다.

다른 실시예에 따른 포즈 인식 방법에서 상기 교차 감지 상자는 3차원 가상 공간에서 일정한 크기의 단위 공간을 의미하고, 상기 3D 루빅 큐브를 구성하는 상기 교차 감지 상자의 개수는 상기 3D 인간 모델의 동작 범위에 따라 결정될 수 있다.

다른 실시예에 따른 포즈 인식 방법에서 상기 교차 여부 배열은 비트 데이터로 표현되고, 상기 3D 루빅 큐브의 크기에 비례하여 크기가 결정될 수 있다.

다른 실시예에 따른 포즈 인식 방법에서 상기 포즈 데이터는 포즈 이름과 교차 여부 배열 값으로 정의되고, 하나의 포즈에 대하여 하나 이상의 교차 여부 배열 값을 가지는 것을 특징으로 할 수 있다.

다른 실시예에 따른 포즈 인식 방법에서 상기 포즈를 인식하는 단계는 상기 사용자의 포즈의 교차 여부 배열 값과 상기 각 포즈 데이터의 교차 여부 배열 값에 대한 해밍 거리(Hamming Distance)로부터 유사도를 계산할 수 있다.

다른 실시예에 따른 포즈 인식 방법에서 상기 교차 여부 배열을 생성하는 단계는 상기 생성된 교차 여부 배열을 복수 개의 특징 데이터 배열로 변환하되, 상기 특징 데이터 배열은 상기 3D 루빅 큐브를 특정 시점에서 바라본 2차원 영역을 나타내는 것을 특징으로 할 수 있다.

상기된 실시예에서 상기 포즈를 인식하는 단계는 상기 특징 데이터 배열 중에서 하나 이상을 선택하고, 선택된 특징 데이터 배열에 대하여만 유사도를 계산하는 것을 특징으로 할 수 있다.

다른 실시예에 따른 포즈 인식 방법에서 상기 포즈를 인식하는 단계는 상기 3D 루빅 큐브를 특정 시점에서 바라본 2차원 영역마다 소정의 개수로 분할하고, 상기 분할된 영역에 대하여 문턱 값(threshold)을 설정하여 오차 범위를 조정할 수 있다.

한편, 이하에서는 상기된 포즈 인식 방법들을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

본 발명의 실시예들에 따르면, RGB-D 카메라 등을 통해 얻은 스켈레톤 정보를 3차원 공간 데이터를 이용하여 3D 인간 모델에 적용함으로써 사람마다 다른 키나 체형에 영향을 받지 않으며 사람의 포즈를 인식할 수 있다.

또한, 실제 사용자를 대신에 3D 인간 모델을 이용하여 다양한 포즈, 동작에 대한 학습을 수행할 수 있다. 나아가 3D 루빅 큐브를 이용하여 이진수의 간단한 데이터 형식으로 포즈를 저장하고 연산함으로써 연산량을 감소시켜 실시간으로 포즈를 인식하면서 정확한 인식률을 보장할 수 있다.

도 1은 본 발명의 일 실시예에 따른 포즈 인식 시스템의 블록도이다.
도 2는 사용자, RGB-D 카메라 및 포즈 인식 시스템 간의 정보의 흐름을 나타낸 그림이다.
도 3은 일반적인 사람의 신체의 동작 범위를 나타낸 그림이다.
도 4는 본 발명의 일 실시예에 따른 포즈 인식 시스템의 3D 루빅 큐브와 3D 인간 모델을 도시한 예이다.
도 5는 본 발명의 일 실시예에 따른 포즈 인식 시스템을 통해 3종류의 시점에서 특정 포즈에 대하여 교차 감지 상자의 교차 여부를 표시한 그림이다.
도 6은 본 발명의 일 실시예에 따른 포즈 인식 시스템을 통해 정면 시점의 영역을 4개로 분할한 예시를 나타낸 그림이다.
도 7은 사용자가 취할 수 있는 5 종류의 포즈를 나타낸 그림이다.
도 8은 본 발명의 다른 실시예에 따른 포즈 인식 방법의 흐름도이다.

본 발명에 관한 구체적인 내용의 설명에 앞서 이해의 편의를 위해 본 발명이 해결하고자 하는 과제의 해결 방안의 개요 혹은 기술적 사상의 핵심을 우선 제시한다.

사용자의 포즈를 인식하는 기술은 RGB-D 카메라 등의 센서를 통해 얻은 스켈레톤 정보를 이용하여 관절의 각도의 변화나 상대 좌표의 추적을 통해 이루어진다. 이와 같은 방법들은 실시간으로 축적되는 대용량의 스켈레톤 정보를 처리해야하는 오버헤드를 가지고, 포즈를 정확하게 인식하기 위한 복잡한 연산 때문에 실시간 처리에 부담이 되는 문제점을 가진다. 또한, 포즈를 인식하는 기술은 게임, 시뮬레이터와 같은 다른 장치와 함께 기능하는 경우가 많기 때문에 많은 자원과 시간을 사용하면 그 활용도가 떨어질 수 밖에 없다.

나아가 사람마다 키, 체형이 상이하기 때문에 상대 좌표 등을 이용하는 기존의 방법들은 사용자가 달라지는 경우 포즈 인식 방법에 대한 조정이 필요한 문제점을 가진다. 그러나 사람마다 포즈 인식 방법을 세부적으로 조정해야하는 불편함은 포즈 인식 기술의 인간의 자연스러운 동작을 통해 하드웨어 자원을 직관적으로 제어한다는 NUI의 목적에 반하는 큰 단점이 될 수 있다.

따라서, 본 발명은 스켈레톤 정보를 입력받아 3차원 가상 공간에서 3차원 가상 인간이 사용자의 포즈를 따라하면 3차원 공간과 가상 인간과의 교차 여부를 이용하여 포즈를 인식하는 방법을 제안한다.

도 1은 본 발명의 일 실시예에 따른 포즈 인식 시스템(1)을 나타낸 블록도로서 생성부(10), 동작부(20), 감지부(30), 식별부(40) 및 데이터 베이스(50)를 포함한다. 포즈 인식 시스템(1)은 스켈레톤 정보를 입력받아 사용자의 포즈를 인식하고 인식된 포즈를 출력하게 된다.

생성부(10)는 사용자를 추적하여 영상을 촬영하는 센서로부터 스켈레톤(skeleton) 정보를 입력받아 가상 인간인 3D 인간 모델을 생성하고, 3D 인간 모델이 위치하는 가상 공간인 3D 루빅 큐브(Rubik Cube)를 생성한다. 3D 루빅 큐브는 하나 이상의 교차 감지 상자로 구성된다.

3D 인간 모델이란 사람의 형태를 가지는 가상의 인간(avatar)으로서, 3차원 가상 공간인 3D 루빅 큐브의 중심에 위치하고 3D 루빅 큐브 내에서 움직인다. 포즈를 취하는 사용자마다 다양한 키와 체형 등의 신체 정보를 가질 수 있다. 따라서 다양한 사용자를 일반화된 3D 인간 모델에 투영시킴으로써 움직임을 정규화하는 결과를 가져오게 된다. 본 발명의 실시예들에서 포즈 데이터는 이러한 3D 인간 모델과 교차 감지 상자가 교차하는지 여부를 기준으로 표현 및 저장되기 때문에 사용자에 따라 영향을 받지 않고 포즈를 인식하게 되는 것이다.

스켈레톤 정보란 사용자의 키를 포함한 골격 정보를 말하며 사용자의 움직임을 추적하여 스켈레톤 정보를 축적하는 센서로부터 입력받을 수 있다. 예를 들어, 센서는 마이크로 소프트사에서 개발된 키넥트(Kinect) 등의 RGB-D 카메라가 될 수 있다. 도 2는 사용자(3), RGB-D 카메라(2) 및 포즈 인식 시스템(1) 간의 정보의 흐름을 나타낸 그림이다. 사용자(3)가 포즈를 취하면 RGB-D 카메라(2)는 사용자를 추적하여 깊이 정보를 포함하는 영상을 촬영하여 영상처리를 통해 스켈레톤 정보를 생성하고, 포즈 인식 시스템(1)에게 생성된 스켈레톤 정보를 보내준다.

3D 루빅 큐브는 하나 이상의 교차 감지 상자를 포함하는 3차원 가상 공간으로써, 사용자의 동작 범위를 포함하는 폐쇄 공간을 의미한다. 교차 감지 상자는 3차원 가상 공간에서 일정한 크기의 단위 공간으로 정의할 수 있다. 예를 들어 교차 감지 상자는 정육면체 또는 직육면체로 구현할 수 있으며, 각각의 교차 감지 상자는 내부에 위치한 3D 인간 모델과 교차했는지 여부에 대하여 이진 값을 가진다. 3D 루빅 큐브는 복수 개의 교차 감지 상자를 3차원으로 적층하여 구성된다. 즉, 3D 루빅 큐브의 크기, 즉 X축, Y축, Z축으로 교차 감지 상자를 몇 개 적층하는지 그 개수는 3D 인간 모델의 동작 범위에 따라 결정될 수 있다. 상세히 설명하자면 3D 인간 모델의 팔의 동작 범위에 따라 3D 루빅 큐브의 가로 길이가 결정될 수 있고, 3D 인간 모델의 머리, 몸통, 다리의 동작 범위에 따라 3D 루빅 큐브의 세로 길이가 결정되는 것이다. 다만, 3D 인간 모델은 가상의 인간으로써 정규화된 신체를 표현하기 때문에 키나 팔의 길이에 따라 3D 루빅 큐브의 크기가 결정되는 것은 아니다. 그러므로 키가 100cm 이하의 어린아이나 키가 180cm 이상인 성인인 사용자 모두 분석된 스켈레톤 정보에 의하여 3D 인간 모델에 투영되어 동일한 포즈를 취하게 되면, 교차 감지 상자에 동일한 교차 여부 결과 값을 가지게 된다.

도 3은 일반적인 사람의 신체의 동작 범위를 나타낸 그림이다. 도 3은 신체적으로 동작이 가능한 범위를 표시하고 있으므로 도 3과 같은 지표를 이용하여 3D 루빅 큐브의 크기를 설정할 수 있다.

도 4는 본 발명의 일 실시예에 따른 포즈 인식 시스템(1)에 따른 3D 인간 모델(11), 교차 감지 상자(12) 및 3D 루빅 큐브(13)를 도시한 예이다. 도 4의 경우, 교차 감지 상자(12)는 정육면체이고, X축, Y축, Z축에 각각 12개씩 교차 감지 상자(12)를 적층하여 3D 루빅 큐브(13)를 구성하였다. 3D 인간 모델(11)은 가상의 인간 형태로 표현되어 3D 루빅 큐브(13)의 중심에 위치하고 있다.

동작부(20)는 스켈레톤 정보를 이용하여 사용자가 취하는 포즈를 3D 인간 모델이 따라 움직이게 한다. 본 발명의 실시예들은 스켈레톤 정보를 3D 인간 모델에 적용시켜 가상 공간 내에서 동작하게 한다. 스켈레톤 정보를 분석하여 3D 인간 모델의 중심점과 3D 루빅 큐브의 중심점을 일치시킴으로써 3D 인간 모델을 3D 루빅 큐브의 중심에 고정시킨다. 3D 인간 모델은 스켈레톤 정보에 포함된 각 관절의 움직임에 따라 상대적인 동작을 따라함으로써 3D 루빅 큐브 안에서 움직이게 되는 것이다.

감지부(30)는 사용자의 포즈에 대하여 모든 교차 감지 상자마다 3D 인간 모델과 교차했는지 여부를 감지하고, 각 교차 감지 상자의 교차 여부를 하나의 원소로 하는 교차 여부 배열을 생성한다. 감지 여부에 따라 교차 감지 상자는 이진 값을 가진다. 즉, 각 교차 감지 상자는 비트(bit) 데이터로 표현되며 하나의 3D 루빅 큐브는 교차 감지 상자의 이진 값을 원소로 하는 하나의 교차 여부 배열을 구성한다. 각 비트는 해당 교차 감지 상자에 3D 인간 모델의 신체 일부가 교차하였는지 여부를 저장한다. 예를 들어, 3D 인간 모델의 일부가 특정 교차 감지 상자와 교차하면 교차 여부 배열에서 해당 상자에 해당하는 인덱스의 값을 1로 설정한다. 반대로 특정 교차 감지 상자가 3D 인간 모델과 전혀 교차하지 않을 경우 해당 인덱스의 값을 0으로 설정한다.

사용자의 포즈를 따라서 3D 인간 모델이 포즈를 취하면 포즈에 대한 모든 교차 여부 값을 받아서 이진수 배열인 교차 여부 배열을 생성한다. 교차 여부 배열은 3D 루빅 큐브의 크기에 비례하여 그 크기가 결정되며, 교차 여부를 이진 값인 비트 데이터로 표현하여 저장할 수 있다.

도 4의 경우 12 X 12 X 12 크기의 3D 루빅 큐브에 대응하여, 각 교차 감지 상자의 교차 여부를 하나의 원소로 하면 총 1728개의 원소로 이루어진 하나의 교차 여부 배열로 표현할 수 있다. 교차 여부 배열은 다음 수학식 1과 같이 0 또는 1의 배열로 표현된다.

포즈 데이터는 포즈 이름과 교차 여부 배열 값으로 정의되고, 수학식 1의 경우 1728자리의 이진수로 표현된다. 사람은 특정 포즈를 매번 완전히 똑같이 취하기 어렵기 때문에 하나의 포즈에 대하여 하나 이상의 교차 여부 배열 값을 가질 수 있다. 따라서 복수 개의 교차 여부 배열로 특정 포즈를 식별하게 된다. 표 1은 하나의 포즈에 대하여 복수 개의 교차 여부 배열 값을 가지는 포즈 데이터를 저장한 예시이다. 표 1과 같이 데이터 베이스에 포즈 데이터가 저장될 수 있을 것이다.

포즈 이름	포즈 데이터
First	00001011101011010010
	00010100001011010101
	...
Second	01000101010101010001
	00101010010101101010
	...
...	...

3D 인간 모델은 가상 공간에 존재하는 가상 인간이기 때문에 실제 사용자의 움직임없이 3D 인간 모델만 움직이게 함으로써 포즈를 학습시킬 수 있다. 동일한 포즈를 3D 인간 모델이 여러 번 수행한 결과를 포즈 데이터로 저장함으로써 궁극적으로 사용자가 취하는 포즈에 대한 인식률을 높일 수 있다.

또한, 감지부(30)는 교차 여부 배열을 복수 개의 특징 데이터 배열로 변환할 수 있다. 특징 데이터 배열은 3D 루빅 큐브를 특정 시점에서 바라본 2차원 영역을 나타내는 것을 의미한다. 즉, 3D 루빅 큐브를 정면에서 바라보는 시점, 상면에서 바라보는 시점, 왼쪽 또는 오른쪽 측면에서 바라보는 시점 등에 따라 2차원 영역을 구분할 수 있고 2차원 영역에 대응하여 특징 데이터 배열을 생성할 수 있다. 이렇게 2차원 영역을 구분하여 특징 데이터 배열로 변환하는 것은 연산량을 감소시키기 위하여 특징 데이터 배열만으로 식별부(40)에서 유사도 판단을 하기 위함이다. 유사도 계산의 연산량은 배열의 크기에 비례하고 다차원 배열은 한 차원만 줄여도 크기가 현저하게 줄어들기 때문이다.

식별부(40)는 교차 여부 배열을 이용하여 데이터 베이스에 저장된 포즈 데이터 중에서 사용자의 포즈와 가장 유사도가 높은 포즈 데이터를 추출하여 포즈를 인식한다. 구체적으로 사용자의 포즈의 교차 여부 배열 값과 각 포즈 데이터의 교차 여부 배열 값에 대한 해밍 거리(Hamming Distance)로부터 유사도를 계산한다. 해밍 거리는 컴퓨터 통신 등에서 문자열의 전송 도중 몇 글자에서 오류가 났는지를 측정하는 방법 중의 하나이다. 해밍 거리가 짧을 수록 통신의 정확도는 높은 것으로 볼 수 있다. 해밍 거리의 계산은 이진 연산에 해당하기 때문에 본 발명의 실시예들은 이진 데이터인 교차 여부 배열의 값의 동일성을 판단하기 위하여 해밍 거리를 사용한다. 해밍 거리 외에도 다양한 이진 연산을 이용하여 교차 여부 배열에 대한 값을 비교할 수 있을 것이다.

해밍 거리가 작을수록 유사도가 높은 것으로 볼 수 있다. 해밍 거리 값이 0이라면 교차 여부 배열 값과 해당 포즈 데이터 값이 완전히 일치하는 것으로 동일한 포즈에 해당하는 것을 의미한다. 그러나 동일한 포즈일지라도 신체적으로 완전히 동일하게 형태를 취할 수 없기 때문에 해밍 거리가 작을수록 포즈 데이터와 유사도가 높은 것으로 보아 저장된 포즈 데이터 중에서 현재 취한 포즈와 동일하거나 혹은 유사한 포즈 데이터를 추출하게 되는 것이다.

감지부(30)에 의하여 교차 여부 배열은 시점에 따라 하나 이상의 2차원 이진수 배열인 특징 데이터 배열로 변환될 수 있다. 예를 들어, 한 자세의 교차 여부 배열을 시점에 따라 정면(Front), 위(Top), 측면(Left)으로 분리하여 12 X 12 크기의 3개의 특징 데이터 배열로 변환할 수 있고, 수학식 2는 3개의 특징 데이터 배열을 나타낸 예시이다.

수학식 2에서 Front Data, Top Data, Left Data는 각각 144자리의 이진수 배열이고, 특정 포즈에 대한 교차 여부 배열 P는 144자리 이진수 배열 3개로 구성된 집합으로 표현된다. 이때, 식별부(50)는 특징 데이터 배열 중에서 하나 이상을 선택하고, 선택된 특징 데이터 배열에 대하여만 유사도를 계산하는 것을 특징으로 할 수 있다. 즉, 수학식 2와 같이 3가지 시점으로 구분한 경우 단일 시점에서 포즈를 인식할 수도 있고 다시점을 이용하여 포즈를 인식할 수도 있는 것이다. 예를 들어, 정면 시점에서 포즈를 인식하면 사람의 Z 축의 첫 번째 면의 데이터만으로 특징 데이터 배열을 생성하면 된다. 생성된 특징 데이터 배열과 대응되는 각 포즈 데이터의 교차 여부 배열에 대한 해밍 거리를 계산하고 계산된 해밍 거리가 작을수록 포즈 데이터와 유사도가 높은 것으로 보고 포즈를 인식하게 된다.

연산량 측면에서 단일 시점만을 기준으로 포즈를 인식하는 것이 다 시점을 이용하여 포즈를 인식하는 것보다 효과적이고 실시간 처리에 적합하다. 반면에 정확도 측면에서는 단일 시점보다 다 시점을 이용하여 포즈를 인식하는 것이 높은 인식률을 보장할 수 있을 것이다. 따라서 포즈 인식 시스템이 활용되는 환경에 따라서 선택적으로 시점을 결정하면 될 것이다.

도 5는 본 발명의 일 실시예에 따른 포즈 인식 시스템을 통해 3종류의 시점에서 특정 포즈에 대하여 교차 감지 상자의 교차 여부를 표시한 그림이다. 상단부터 순서대로 정면(Front), 위(Top), 측면(Left)의 시점을 나타내고 있다. 정면 시점의 경우 X축과 Y축에 대한 2차원 공간을 나타내고, 왼쪽의 3D 인간 모델이 취한 포즈에 대하여 각 교차 감지 상자에 3D 인간 모델과 교차한 경우 교차 감지 상자를 붉은 색으로 색칠하였다. 위 시점은 X축과 Z축에 대하여, 측면 시점의 경우 왼쪽 측면인 Y축과 Z축에 대하여 2차원 공간을 나타낸다.

포즈를 인식할 때마다, 사용자가 완전히 똑같은 포즈를 동작하기 어렵기 때문에 배열에 오차 값을 수용할 수 있도록 문턱 값(threshold)을 사용한다. 따라서 식별부(50)는 3D 루빅 큐브를 특정 시점에서 바라본 2차원 영역마다 소정의 개수로 분할하고, 분할된 영역에 대하여 문턱 값(threshold)을 설정하여 오차 범위를 조정한다. 도 6은 본 발명의 일 실시예에 따른 포즈 인식 시스템을 통해 정면 시점의 영역을 4개로 분할한 예시를 나타낸 그림이다. 각 분할된 영역마다 문턱 값을 각각 설정할 수 있다.

나아가 포즈 인식 시스템은 연속된 포즈에 대하여 동작 데이터를 생성함으로써 동작 인식을 할 수 있다. 동작 데이터는 시간에 따른 포즈의 변화로 정의할 수 있으며, 복수 개의 교차 여부 배열을 이용하여 표현할 수 있다. 단위 시간에 따라 동작 데이터 여부를 판단하여 실시간으로 동작 데이터를 식별할 수 있다.

도 7은 사용자가 취할 수 있는 5 종류의 포즈를 나타낸 그림이다. 사용자는 도 7에 도시된 포즈 외에도 자신의 신체를 이용하여 다양한 포즈를 취할 수 있다. 사용자가 도 7과 같은 포즈를 취한 경우 본 발명의 일실시예에 따른 포즈 인식 시스템을 통하여 포즈를 인식하는 실험을 통해 보다 상세히 본 발명을 설명하고자 한다.

모든 실험은 정면, 위, 왼측면에 해당하는 총 3개의 시점을 판단 대상으로 설정하고, 각 포즈마다 10번씩 실험을 수행하였다. 해당 교차 감지 상자의 개수에 비례하여 문턱 값을 설정하였다. 모든 실험에서 데이터 베이스에 저장된 학습 데이터는 10개이다.

포즈	인식률(%)
First	100
Second	90
Third	85
Fourth	60
Power	100

표 2의 경우, 교차 감지 상자를 8 X 9 X 7 개 적층하여 구성된 3D 루빅 큐브에 대하여 다수 시점 인식을 적용하고, 문턱 값은 1로 설정하였다. 100%의 인식률을 보인 포즈도 있지만, 상대적으로 낮은 60%의 인식률을 가지는 포즈도 있어 포즈마다 인식률의 차이가 있음을 알 수 있다. 즉, 해당 3D 루빅 큐브는 실험한 포즈 모두에 대하여 적절한 크기에 해당한다고 보기 어렵다.

포즈	인식률(%)
First	100
Second	88
Third	90
Fourth	95
Power	100

표 3의 경우, 교차 감지 상자를 10 X 12 X 10 개 적층하여 구성된 3D 루빅 큐브에 대하여 다수 시점 인식을 적용하고, 문턱 값은 2로 설정하였다. 교차 감지 상자를 더 많이 적층하여 더 세분화된 3D 인간 모델을 표현하게 됨으로써 전체적으로 인식률이 높아진 것을 확인할 수 있었다. 또한, 포즈에 따라 인식률의 차이가 줄어든 것으로 3D 인간 모델의 동작 범위에 적절한 루빅 큐브의 크기에 해당한다고 볼 수 있다.

포즈	인식률(%)
First	95
Second	100
Third	95
Fourth	90
Power	100

표 4의 경우, 교차 감지 상자를 14 X 18 X 14 개 적층하여 구성된 3D 루빅 큐브에 대하여 다수 시점 인식을 적용하고, 문턱 값은 3으로 설정하였다. 표 3과 같이 인식률이 높은 것으로 보아 3D 루빅 큐브의 크기가 3D 인간 모델의 동작 범위를 표현하기에 적절한 크기에 해당한다고 볼 수 있다.

포즈	인식률(%)
First	65
Second	60
Third	15
Fourth	15
Power	55

표 5의 경우, 교차 감지 상자를 21 X 27 X 21 개 적층하여 구성된 3D 루빅 큐브에 대하여 다수 시점 인식을 적용하고, 문턱 값은 4로 설정하였다. 3D 루빅 큐브의 크기가 너무 커져서 오히려 포즈 인식률이 낮아진 것을 확인할 수 있었다.

도 8은 본 발명의 다른 실시예에 따른 포즈 인식 방법의 흐름도이다. 포즈 인식 방법의 각 단계는 도 1의 포즈 인식 시스템의 각 구성 또는 도 2와 대응되는바, 구체적인 설명은 중복되어 기재하지 않고 대응관계를 중심으로 이하 설명한다.

S110 단계에서는 스켈레톤(skeleton) 정보를 입력받는다. 상기 단계는 도 2의 센서(2)로부터 포즈 인식 시스템(1)이 스켈레톤 정보를 입력받는 것을 의미하며, 도 1의 입력 화살표에 대응된다.

S120 단계에서는 스켈레톤 정보로부터 가상 인간인 3D 인간 모델을 생성하고, 3D 인간 모델이 위치하는 가상 공간인 3D 루빅 큐브(Rubik Cube)를 생성한다. 3D 루빅 큐브는 하나 이상의 교차 감지 상자로 구성하며 3D 인간 모델을 3D 루빅 큐브의 중심에 위치시킨다. 교차 감지 상자는 3차원 가상 공간에서 일정한 크기의 단위 공간을 의미하고, 3D 루빅 큐브를 구성하는 교차 감지 상자의 개수는 3D 인간 모델의 동작 범위에 따라 결정된다. 상기 단계는 도 1의 생성부에 대응되는 구성이다.

S130 단계에서는 사용자가 포즈를 취하면 스켈레톤 정보를 이용하여 3D 인간 모델을 사용자가 취한 포즈를 따라 움직이게 하여 모든 교차 감지 상자마다 상기 3D 인간 모델과 교차했는지 여부를 감지한다. 그리고 각 교차 감지 상자의 교차 여부를 하나의 원소로 하는 교차 여부 배열을 생성한다. 교차 여부에 따라서 각 교차 감지 상자는 이진 값을 가진다.

포즈 데이터는 포즈 이름과 교차 여부 배열 값으로 정의되고, 하나의 포즈에 대하여 하나 이상의 교차 여부 배열 값을 가지는 것을 특징으로 한다. 또한, 생성된 교차 여부 배열을 복수 개의 특징 데이터 배열로 변환할 수 있고, 특징 데이터 배열은 3D 루빅 큐브를 특정 시점에서 바라본 2차원 영역을 나타낸다. 상기 단계는 도 1의 감지부(30)와 대응되는 구성이다.

S140 단계에서는 교차 여부 배열을 이용하여 데이터 베이스에 저장된 포즈 데이터 중에서 사용자가 취한 포즈와 가장 유사도가 높은 포즈 데이터를 추출함으로써 포즈를 인식힌다. 사용자의 포즈의 교차 여부 배열 값과 각 포즈 데이터의 교차 여부 배열 값에 대한 해밍 거리(Hamming Distance)로부터 유사도를 계산하며, 계산된 해밍 거리가 작을수록 유사도가 높은 것을 특징으로 할 수 있다. 도 1의 판단부(50)와 대응되는 구성이다. 유사도 판단시 특정 데이터 배열 중에서 하나 이상을 선택하여, 선택된 특징 데이터 배열에 대하여만 유사도를 판단할 수 있다. 또한, 3D 루빅 큐브를 특정 시점에서 바라본 2차원 영역마다 소정의 개수로 분할하고, 분할된 영역에 대하여 문턱 값을 설정하여 오차 범위를 조정할 수 있다.

한편, 본 발명의 실시예들은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.

컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

1: 포즈 인식 시스템
2: RGB-D 카메라 3: 사용자
10: 생성부 20: 동작부
30: 감지부 40: 식별부
50: 데이터 베이스

Claims

사용자를 추적하여 영상을 촬영하는 센서로부터 스켈레톤(skeleton) 정보를 입력받아 가상 인간인 3D 인간 모델을 생성하고, 상기 3D 인간 모델이 위치하는 가상 공간이며 적어도 셋 이상의 교차 감지 상자로 구성되는 3D 루빅 큐브(Rubik Cube)를 생성하는 생성부;
상기 스켈레톤 정보를 이용하여 상기 사용자가 취하는 포즈를 상기 3D 인간 모델이 따라 움직이게 하는 동작부;
상기 포즈에 대하여 상기 모든 교차 감지 상자마다 상기 3D 인간 모델과 교차했는지 여부를 감지하고, 각 교차 감지 상자의 교차 여부를 하나의 원소로 하는 교차 여부 배열을 생성하는 감지부; 및
상기 교차 여부 배열을 이용하여 데이터 베이스에 저장된 포즈 데이터 중에서 상기 사용자의 포즈와 가장 유사도가 높은 포즈 데이터를 추출하여 포즈를 인식하는 식별부;를 포함하는 포즈 인식 시스템.
제 1 항에 있어서,
상기 교차 감지 상자는 3차원 가상 공간에서 일정한 크기의 단위 공간을 의미하고, 상기 3D 루빅 큐브를 구성하는 상기 교차 감지 상자의 개수는 상기 3D 인간 모델의 동작 범위에 따라 결정되는 것을 특징으로 하는 포즈 인식 시스템.
제 1 항에 있어서,
상기 교차 여부 배열은 비트 데이터로 표현되고, 상기 3D 루빅 큐브의 크기에 비례하여 크기가 결정되는 것을 특징으로 하는 포즈 인식 시스템.
제 1 항에 있어서,
상기 포즈 데이터는 포즈 이름과 교차 여부 배열 값으로 정의되고, 하나의 포즈에 대하여 하나 이상의 교차 여부 배열 값을 가지는 것을 특징으로 하는 포즈 인식 시스템.
제 1 항에 있어서,
상기 식별부는 상기 사용자의 포즈의 교차 여부 배열 값과 상기 각 포즈 데이터의 교차 여부 배열 값에 대한 해밍 거리(Hamming Distance)로부터 유사도를 계산하는 것을 특징으로 하는 포즈 인식 시스템.
제 1 항에 있어서,
상기 감지부는 상기 교차 여부 배열을 복수 개의 특징 데이터 배열로 변환하되, 상기 특징 데이터 배열은 상기 3D 루빅 큐브를 특정 시점에서 바라본 2차원 영역을 나타내는 것을 특징으로 하는 포즈 인식 시스템.
제 6 항에 있어서,
상기 식별부는 상기 특징 데이터 배열 중에서 하나 이상을 선택하고, 선택된 특징 데이터 배열에 대하여만 유사도를 계산하는 것을 특징으로 하는 포즈 인식 시스템.
제 6 항에 있어서,
상기 식별부는 상기 3D 루빅 큐브를 특정 시점에서 바라본 2차원 영역마다 소정의 개수로 분할하고, 상기 분할된 영역에 대하여 문턱 값(threshold)을 설정하여 오차 범위를 조정하는 것을 특징으로 하는 포즈 인식 시스템.
스켈레톤(skeleton) 정보를 입력받는 단계;
상기 스켈레톤 정보로부터 가상 인간인 3D 인간 모델을 생성하고, 상기 3D 인간 모델이 위치하는 가상 공간인 3D 루빅 큐브(Rubik Cube)를 생성하고, 상기 3D 루빅 큐브는 적어도 셋 이상의 교차 감지 상자로 구성되며 상기 3D 인간 모델을 상기 3D 루빅 큐브의 중심에 위치시키는 단계;
사용자가 포즈를 취하면 상기 스켈레톤 정보를 이용하여 상기 3D 인간 모델을 상기 포즈를 따라 움직이게 하여 상기 모든 교차 감지 상자마다 상기 3D 인간 모델과 교차했는지 여부를 감지하고, 상기 각 교차 감지 상자의 교차 여부를 하나의 원소로 하는 교차 여부 배열을 생성하는 단계; 및
상기 교차 여부 배열을 이용하여 데이터 베이스에 저장된 포즈 데이터 중에서 상기 사용자의 포즈와 가장 유사도가 높은 포즈 데이터를 추출함으로써 포즈를 인식하는 단계;를 포함하는 포즈 인식 방법.
제 9 항에 있어서,
상기 교차 감지 상자는 3차원 가상 공간에서 일정한 크기의 단위 공간을 의미하고, 상기 3D 루빅 큐브를 구성하는 상기 교차 감지 상자의 개수는 상기 3D 인간 모델의 동작 범위에 따라 결정되는 것을 특징으로 하는 포즈 인식 방법.
제 9 항에 있어서,
상기 교차 여부 배열은 비트 데이터로 표현되고, 상기 3D 루빅 큐브의 크기에 비례하여 크기가 결정되는 것을 특징으로 하는 포즈 인식 방법.
제 9 항에 있어서,
상기 포즈 데이터는 포즈 이름과 교차 여부 배열 값으로 정의되고, 하나의 포즈에 대하여 하나 이상의 교차 여부 배열 값을 가지는 것을 특징으로 하는 포즈 인식 방법.
제 9 항에 있어서,
상기 포즈를 인식하는 단계는
상기 사용자의 포즈의 교차 여부 배열 값과 상기 각 포즈 데이터의 교차 여부 배열 값에 대한 해밍 거리(Hamming Distance)로부터 유사도를 계산하는 것을 특징으로 하는 포즈 인식 방법.
제 9 항에 있어서,
상기 교차 여부 배열을 생성하는 단계는
상기 생성된 교차 여부 배열을 복수 개의 특징 데이터 배열로 변환하되, 상기 특징 데이터 배열은 상기 3D 루빅 큐브를 특정 시점에서 바라본 2차원 영역을 나타내는 것을 특징으로 하는 포즈 인식 방법.
제 14 항에 있어서,
상기 포즈를 인식하는 단계는
상기 특징 데이터 배열 중에서 하나 이상을 선택하고, 선택된 특징 데이터 배열에 대하여만 유사도를 계산하는 것을 특징으로 하는 포즈 인식 방법.
제 9 항에 있어서,
상기 포즈를 인식하는 단계는
상기 3D 루빅 큐브를 특정 시점에서 바라본 2차원 영역마다 소정의 개수로 분할하고, 상기 분할된 영역에 대하여 문턱 값(threshold)을 설정하여 오차 범위를 조정하는 것을 특징으로 하는 포즈 인식 방법.
제 9 항 내지 제 16 항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.