KR20200063727A

KR20200063727A - 제스처 인식 방법 및 장치

Info

Publication number: KR20200063727A
Application number: KR1020180149814A
Authority: KR
Inventors: 박세호; 윤효석; 박민성
Original assignee: 전자부품연구원
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2020-06-05
Also published as: KR102335212B1

Abstract

본 발명에 따른 실시예는 골격 모델을 이용하여 일련의 손 포즈를 포함하는 손 동작에 대응하는 제스처를 인식하는 방법 및 장치를 제공한다. 여기서, 골격 모델에 기반하여 제스처를 결정하므로, 제스처 인식의 정확성이 향상되고, 이에 따라 제스처에 기반한 제어 신호의 정밀도가 향상된다.

Description

제스처 인식 방법 및 장치{METHOD AND APPARATUS FOR RECOGNIZING GESTURE}

본 발명은 제스처 인식 방법 및 장치에 관한 것으로 보다 상세하게는 골격 모델에 기반하여 일련의 손 포즈를 포함하는 제스처를 인식하는 방법 및 장치에 관한 것이다.

근래에 제스처를 이용하여 기기를 제어하는 방식이 TV, PC, 모바일 단말기, 및 게임기 등에서 사용되고 있다. 대표적으로 마우스와 같은 입력 기기 제어에 제스처가 이용되고 있는데, 이러한 제스처에 의한 마우스 제어는 크게, 정지된 상태에서 손의 특징을 분석하여 마우스를 제어하는 방식과 손 자체의 모션을 분석하여 마우스를 제어하는 방식의 두 가지로 구별된다.

손 특징 분석 방식은 입력 이미지로부터 손 너비 크기, 손의 특징점, 또는 손가락 개수를 추출하여 이에 기초하여 마우스를 제어한다.

손가락 개수 또는 손 특징점 추출 방식은, 3D 손 모양을 2차원 이미지로 프로젝션하는 과정에서 하나의 손가락이 다른 손가락에 가려지거나 또는 영상 깊이에 따라 이미지가 뭉개짐으로 인하여 잘못된 손 모양이 인식되는 경우에 특히 취약하며, 인식가능한 손 모양이 제한적이다. 또한, 각 손가락을 하나씩 든 손 모양처럼 하나의 정의된 손 모양과 유사성을 가진 다른 손 모양이 다수로 발생하고, 이들이 동일한 손 모양으로 근사화되는 문제가 있다.

손 모션 분석 방식은 아이콘 위치를 기점으로 이루어진 특정 모션을 인식하여 마우스를 제어한다. 이와 같은 방식은 마우스 이벤트의 개수가 늘어나면 부가적인 모션이나 아이콘의 개수가 추가되어야 하므로 사용자에게 피로감을 줄 수 있다. 또한, 마우스 이벤트를 위한 모션과 마우스 포인팅이 겹치는 경우가 발생하여 제어가 복잡하다.

본 발명은 상술한 문제점을 해결하기 위하여, 골격 모델을 이용하여 일련의 손 포즈를 포함하는 손 동작에 대응하는 제스처를 인식하는 방법 및 장치를 제공하는 것을 목적으로 한다. 이를 위하여 골격 모델 간의 비교 방법을 제시하고, 비교 결과에 따라 제스처를 결정하는 제스처 인식 방법 및 장치를 제안한다. 아울러, 본 발명은 정밀한 제스처 인식을 통해 정확한 제스처 이벤트를 발생이 가능한 제스처 인식 방법 및 장치를 제공하고자 한다.

본 발명의 일 실시예에 따른 제스처 인식 방법은, 손 포즈를 포함하는 영상을 획득하는 단계, 상기 영상을 분석하여 각 손 포즈에 대응하는 손 영역을 인식하는 단계, 상기 손 영역을 표현하는 입력 골격 모델을 생성하는 단계 및 상기 입력 골격 모델에 기반하여 상기 입력 골격 모델에 대응하는 손 포즈를 결정하는 단계를 포함한다.

손 포즈를 결정하는 단계는, 상기 입력 골격 모델과 사전설정된 손 포즈를 표현하는 골격 모델을 비교하여 차이값을 결정하고, 상기 차이값이 최소가 되는 상기 사전설정된 손 포즈를 상기 입력 골격 모델에 대응하는 손 포즈로 결정한다.

상기 손 포즈가 시간에 따른 변화가 있는 손 동작을 구성하는 경우, 일련의 손포즈에 기반하여 상기 손 동작에 대응하는 제스처를 결정하는 단계를 더 포함한다.

상기 제스처를 결정하는 단계는, 상기 일련의 손 포즈의 각 손 포즈를 표현하는 골격 모델과 사전설정된 제스처를 표현하는 일련의 골격 모델을 각각 비교하여 차이값을 결정하고, 상기 차이값이 최소가 되는 상기 사전설정된 제스처를 상기 손 동작에 대응하는 제스처로 결정한다.

상기 제스처에 대응하는 제어 신호를 생성하는 단계를 더 포함한다.

본 발명의 다른 실시예에 따른 제스처 인식 방법은, 일련의 손 포즈를 포함하는 손 동작을 영상으로 촬영하는 영상획득부, 상기 영상을 분석하여 각 손 포즈에 대응하는 손 영역을 인식하는 인식부, 상기 손 영역에 기반하여 상기 손 영역을 표현하는 입력 골격 모델을 생성하는 모델링부, 상기 입력 골격 모델에 기반하여 상기 입력 골격 모델에 대응하는 손 포즈를 결정하는 포즈 결정부 및 상기 일련의 손 포즈에 기반하여 상기 손 동작에 대응하는 제스처를 결정하는 제스처 결정부를 포함한다.

상기 제스처 결정부는, 상기 일련의 손 포즈의 각 손 포즈를 표현하는 골격 모델에 기반하여 상기 제스처를 결정한다.

상기 제스처에 대응하는 제어 신호를 생성하는 출력부를 더 포함한다.

본 발명에 따른 실시예는 골격 모델에 기반하여 제스처를 결정하므로, 제스처 인식의 정확성이 향상되고, 이에 따라 제스처에 기반한 제어 신호의 정밀도가 향상된다. 또한, 획득한 손 포즈를 순서에 따라 조합하여 새로운 제스처의 정의가 가능하여 확장성이 제고된다.

도 1은 일 실시예에 따른 제스처 인식 장치(100)를 도시한다.
도 2는 일 실시예에 따른 제스처 인식 과정을 도시한다.
도 3은 일 예에 따른 손 포즈 결정 과정을 도시한다.
도 4a는 예시적인 골격 모델이 저장된 저장소(160)를 도시한다.
도 4b는 예시적인 사전설정된 골격 모델의 그룹들(410)을 도시한다.
도 5는 일 예에 따른 제스처 결정 과정을 도시한다.
도 6은 예시적인 제스처 및 제스처 이벤트 맵핑을 보여준다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이하, 첨부 도면을 참조하며 바람직한 각 실시예를 통해 본 발명의 구성에 대하여 상세히 설명하되, 이해의 증진과 설명의 편의를 위하여 본 발명의 착상에 대하여 개략적으로 먼저 설명한다.

본 발명은 객체의 제스처 인식 방법 및 장치에 관한 것으로 특히 손 제스처를 인식하는 방법 및 장치에 관한 것이다. 이를 위하여 본 발명은 골격 모델을 이용한다.

종래의 손과 같은 객체의 제스처를 인식하는 방법은 주로 영상에 촬영된 객체의 모양을 분석하여 제스처를 인식하는데, 카메라와 객체가 이루는 각도 및 객체의 크기나 겹침에 따라 인식된 제스처에 오류가 발생할 수 있다. 예를 들어, 손의 방향의 작은 변화 또는 사용자의 손 크기의 차이에 따라 제스처 인식 결과가 달라지고, 이는 유효하지 않은 제스처에 대하여 제스처 이벤트를 발생시키는 오류로 이어진다. 아울러, 종래 기술은 유사하지만 동일하지 않은 제스처 간의 차이를 구별하지 못하기도 한다. 예를 들어, 손가락 한 개를 든 제스처는 손가락 개수만큼 유사한 제스처를 내포한다. 하지만, 손가락 개수에 따라 제스처를 인식하는 방법은 이러한 차이를 구별할 수 없다.

본 발명에 따른 실시예는 골격 모델에 기반하여 손 포즈를 결정하고, 손 포즈의 순서와 조합에 따라 구성되는 일련의 손 포즈를 분석하여 제스처를 인식한다.

골격 모델은 이미지 스켈레톤(image skeleton)으로서, 객체의 입체적인 이미지로부터 이미지의 중심 및 내부 골격 구조와 형태를 추출한 이미지를 의미한다. 예를 들어, 손 골격 모델은 손 영역에 해당하는 이미지의 중심 및 내부 골격 구조와 형태를 추출한 이미지 스켈레톤이고, 손 바닥의 폭, 손바닥과 손 가락의 길이의 비율, 각 손가락의 길이, 간격, 손가락 관절 위치, 손가락 관절이 구부러진 각도, 손가락 끝의 위치, 및 손목의 위치 등에 대한 정보를 포함한다.

즉, 본 발명에 따른 실시예는 손 포즈를 골격 단위로 인식하므로, 손의 각도나 크기, 겹침에 따른 영향을 최소화 할 수 있다. 아울러, 유사한 손 포즈 간의 차이를 골격 모델에 기초하여 구별할 수 있고, 다양한 제스처의 정의 및 인식이 가능하다.

이하에서, 본 발명에 따른 제스처 인식 방법 및 장치를 도면을 참조하여 실시예를 중심으로 상세하게 살펴보기로 한다.

도 1은 일 실시예에 따른 제스처 인식 장치(100)를 도시한다.

본 발명의 실시예에 따른 제스처 인식 장치(100)는 영상획득부(110), 인식부(120), 모델링부(130), 포즈 결정부(140) 및 제스처 결정부(150)를 포함한다. 제스처 인식 장치(100)는 부가적으로 저장소(160)를 포함할 수 있다.

영상획득부(110)는 일련의 손 포즈를 포함하는 손 동작을 촬영하여 영상을 획득한다. 인식부(120)는 영상을 분석하여 촬영된 손 동작을 구성하는 일련의 손 포즈에 대응하는 손 영역을 인식한다. 모델링부(130)는 인식부(120)에서 인식한 손 영역에 기반하여 해당 손 영역을 표현하는 입력 골격 모델을 생성한다. 포즈 결정부(140)는 입력 골격 모델에 기반하여 입력 골격 모델에 대응하는 손 포즈를 결정한다. 제스처 결정부(150)는 일련의 손 포즈에 기반하여 영상획득부(110)에서 촬영한 손 동작에 대응하는 제스처를 결정한다. 저장소(160)는 사전설정된 손 포즈 및 사전설정된 손 포즈를 표현하는 골격 모델을 저장한다. 저장소(160)는 사전설정된 제스처 및 사전설정된 제스처를 표현하는 일련의 골격 모델을 저장한다. 이하, 도 2를 참고하여 본 발명에 따른 제스처 인식 방법을 전술한 각 부의 구성과 함께 구체적으로 살펴본다.

도 2는 일 실시예에 따른 제스처 인식 과정을 도시한다.

단계(210)에서 영상획득부(110)는 일련의 손 포즈를 포함하는 손 동작을 촬영하여 영상을 획득한다. 예를 들어 영상획득부(110)는 깊이 정보 카메라이고, 손 동작을 촬영한 영상은 깊이 정보를 포함하는 깊이 정보 이미지이다.

깊이 카메라는 객체의 영상 정보와 함께 각 화소 단위로 깊이 정보를 제공한다. 제스처 인식 장치(100)는 깊이 카메라를 이용하여 객체를 촬영한 영상을 분석하여 객체의 골격 모델을 생성하고, 생성된 골격 모델에 기반하여 제스처를 인식한다.

단계(220)에서 인식부(120)는 영상을 분석하여 촬영된 손 동작을 구성하는 일련의 손 포즈에 대응하는 손 영역을 인식한다. 즉, 인식부(120)는 각 손 포즈에 대응하는 손 영역을 인식한다.

인식부(120)는 영상획득부(110)가 획득한 영상으로부터 손 영역을 인식하는 이미지 분류기를 포함한다. 예를 들어, 이미지 분류기는 콘볼루션 뉴럴 네트워크(CNN: Convolution Neural Network) 방식으로 학습된 골격 모델로 근사화되어 분류된다.

인식부(120)는 매 프레임 마다 또는 단위 시간 마다 영상획득부(110)가 획득한 영상으로부터 손 영역을 인식한다. 모델링부(130)는 주기적으로 영상획득부(110)가 획득한 영상으로부터 손 영역을 인식한다.

단계(230)에서 모델링부(130)는 인식부(120)에서 인식한 손 영역에 기반하여 해당 손 영역을 표현하는 입력 골격 모델을 생성한다.

도 3을 참조하여 살펴보면, 단계(240)에서 영상획득부(110)에서 획득한 일련의 손 포즈로부터 인식부(120)가 인식한 손 영역(310)에 대응하여 모델링부(130)는 입력 골격 모델(320)을 생성한다.

입력 골격 모델은 인식부(120)에서 인식한 손 영역에 해당하는 이미지의 중심 및 내부 골격 구조와 형태를 추출한 이미지 스켈레톤이다. 입력 골격 모델은 골격 관련 정보를 포함한다. 예를 들어, 골격 관련 정보는 손 바닥의 폭, 손바닥과 손 가락의 길이의 비율, 각 손가락의 길이, 간격, 손가락 관절 위치, 손가락 관절이 구부러진 각도, 손가락 끝의 위치, 및 손목의 위치 등에 대한 정보를 포함한다. 입력 골격 모델은 손 포즈를 골격 단위로 인식한다.

모델링부(130)는 영상획득부(110)가 획득한 깊이 정보를 포함한 영상으로부터 입력 골격 모델을 추출하는 골격 모델 추출기를 포함한다. 예를 들어, 골격 모델 추출기는 콘볼루션 뉴럴 네트워크 방식으로 학습되어 분류된다.

모델링부(130)는 매 프레임 마다 또는 단위 시간 마다 인식부(120)에서 인식한 손 영역을 표현하는 입력 골격 모델을 생성한다. 모델링부(130)는 주기적으로 인식부(120)에서 인식한 손 영역을 표현하는 입력 골격 모델을 생성한다.

단계(240)에서 포즈 결정부(140)는 입력 골격 모델에 기반하여 입력 골격 모델에 대응하는 손 포즈를 결정한다. 즉, 포즈 결정부(140)는 입력 골격 모델의 골격 관련 정보에 기반하여 손 포즈를 결정한다.

손 포즈는 인식부(120)에서 인식한 손 영역에 대응하는 손 모양이다. 즉, 손 포즈는 제스처 인식 장치(100)가 제스처 인식 장치(100)에서 입력받은 손 동작을 구성하는 일련의 손 포즈로부터 인식한 손 영역에 대응하는 것으로 결정한 손 모양이다.

포즈 결정부(140)는 입력 골격 모델에 기초하여 손 포즈를 결정하므로, 손 포즈를 결정하는 데 있어서 손의 각도나 크기, 겹침에 따른 영향을 최소화 할 수 있다. 또한, 포즈 결정부(140)는 골격 모델을 비교하여 손 포즈를 결정하므로, 손의 외형적 모양만을 비교하는 방식에 비하여 유사한 손 포즈 간의 차이를 정밀하게 식별할 수 있다.

단계(240)에서 포즈 결정부(140)는 입력 골격 모델과 사전설정된 손 포즈를 표현하는 골격 모델을 비교하여 손 포즈를 결정한다.

단계(240)에서 포즈 결정부(140)는, 다시 도 3을 참조하여, 모델링부(130)가 생성한 입력 골격 모델(320)과 사전설정된 포즈를 표현하는 골격 모델(330)을 단계(340)에서 비교한다. 단계(340)에서 포즈 결정부(140)는 입력 골격 모델과 사전설정된 손 포즈를 표현하는 골격 모델을 모델 비교 방식으로 비교한다. 예를 들어, 단계(340)에서 포즈 결정부(140)는 크기와 회전방향에 영향을 받지 않는 SVD(Singular Value Decomposition) 특이값을 이용하여 골격 모델간의 차이점을 계산하고, 가장 근사한 차이를 보이는 사전설정된 골격 모델에 대응하는 사전설정된 손 포즈를 입력 골격 모델에 대한 손 포즈로 결정한다.

도 3을 참조하여, 예를 들어, 포즈 결정부(140)는 단계(340)에서의 비교 결과, 차이값이 최소가 되는 골격 모델(330)에 대응하는 사전설정된 포즈를 단계(350)에서 해당 입력 골격 모델(320)의 손 포즈로 결정한다. 이를테면, 포즈 결정부(140)는 입력 골격 모델과 사전설정된 손 포즈를 표현하는 골격 모델을 비교하여 차이값을 결정하고, 차이값이 최소가 되는 사전설정된 손 포즈를 해당 입력 골격 모델에 대응하는 손 포즈로 결정한다.

도 3을 참조하여, 저장소(160)는 사전설정된 포즈 및 사전설정된 포즈를 표현하는 골격 모델(330)을 저장하는 사전설정된 골격 모델 데이터 베이스를 포함한다. 이하에서, 도 4a 및 도 4b를 참조하여 사전설정된 골격 모델이 저장된 저장소(160)에 대하여 살펴본다.

도 4a는 예시적인 골격 모델이 저장된 저장소(160)를 도시한다.

저장소(160)는 사전설정된 손 포즈를 표현하는 골격 모델을 저장한다. 사전설정된 손 포즈를 표현하는 골격 모델은 사전설정된 손 포즈의 성질 또는 골격 관련 정보에 따라서 그룹화 되어 저장 및 검색가능하다. 동일 그룹에 속한 골격 모델은 손 포즈의 성질 또는 골격 관련 정보가 동일 또는 유사한 골격 모델이다. 예를 들어, 도 4a에서 저장소(160)는 펼친 손가락의 개수에 따라 그룹화된다. 하지만, 도 4a의 그룹은 예시적인 것일 뿐이다. 예를 들어, 손 포즈를 표현하는 골격 모델은 관절이 구부러진 각도와 같은 전술한 골격 관련 정보에 따라 그룹화될 수 있다.

도 4b는 예시적인 사전설정된 골격 모델의 그룹들(410)을 도시한다. 사전설정된 골격 모델의 그룹들(410)은 저장소(160)에 저장된 예시적으로 펼친 손가락의 개수에 따라 그룹화된 사전설정된 골격 모델을 보여준다. 펼친 손가락이 1개인 골격 모델은 예시적으로 5개가 도시되어 있지만, 펼친 손가락이 1개이고 도시된 5개의 골격 모델과 세부적인 골격 관련 정보가 상이한 골격 모델이 추가적으로 포함될 수 있다. 예를 들어, 검지를 반만 펼친 골격 모델이 포함될 수 있다. 따라서, 포즈 결정부(140)는 이러한 골격 모델에 기반하여 손 포즈를 결정하므로, 손의 외형적 모양만을 비교하는 방식에 비하여 유사한 손 포즈 간의 차이를 정밀하게 식별할 수 있다.

도 2로 돌아와서, 단계(240)에서 포즈 결정부(140)는 매 프레임마다 또는 단위 시간 마다 또는 주기적으로 모델링부(130)가 생성한 입력 골격 모델에 대응하는 손 포즈를 결정한다.

단계(250)에서 제스처 결정부(150)는 단계(240)에서 포즈 결정부가 결정한 일련의 손 포즈에 기반하여 영상획득부(110)에서 촬영한 영상의 손 동작에 대응하는 제스처를 결정한다.

제스처는 순서에 따라 변화하는 일련의 손 포즈를 의미한다. 예를 들어, 각 제스처를 구성하는 손 포즈의 조합 및 순서 모두 동일하면 동일한 제스처에 해당한다. 다른 예에서, 제스처는 제스처를 구성하는 손 포즈가 지속되는 시간을 고려할 수 있다. 즉, 각 제스처를 구성하는 손 포즈의 집합 및 순서가 모두 동일하지만, 하나의 손 포즈를 지속하는 시간이 상이하면 상이한 제스처에 해당한다.

단계(250)에서 제스처 결정부(150)는 일련의 손 포즈의 각 손 포즈를 표현하는 골격 모델과 사전설정된 제스처를 표현하는 일련의 골격 모델을 각각 비교하여 차이값을 결정하고, 해당 차이값이 최소가 되는 사전설정된 제스처를 해당 손 동작에 대응하는 제스처로 결정한다.

이하에서, 도 5를 참조하여 제스처 결정부(150)의 제스처 결정 과정을 살펴본다.

도 5의 박스(510)는 예시적인 사전설정된 제스처(510)를 보여준다. 예시적인 사전설정된 제스처(510)는 클릭 포즈(512, 이하 제 1 손 포즈), 주먹 포즈(514, 이하 제 2 손 포즈) 및 다시 클릭 포즈(516, 이하 제 3 손 포즈)의 순서로 구성된다. 이해를 돕기 위하여 박스(510)에서 사전설정된 제스처를 구성하는 일련의 손 포즈가 해당 사전설정된 제스처를 표현하는 일련의 골격 모델과 함께 표시된다. 저장소(160)는 사전설정된 제스처 및 사전설정된 제스처를 표현하는 일련의 골격 모델을 저장한다.

박스(520)는 포즈 결정부(140)에서 결정한 일련의 손 포즈를 각 손 포즈를 표현하는 골격 모델과 오버랩하여 보여준다. 일련의 손 포즈는 적어도 하나의 손 포즈군을 포함한다. 하나의 손 포즈군은 적어도 하나의 손 포즈를 포함한다. 박스(520)의 일련의 손 포즈는 3 개의 포즈군을 포함하며, 각각 제 1 손 포즈군(522), 제 2 손 포즈군(524) 및 제 3 손 포즈군(526)이라 칭한다.

단계(250)에서 제스처 결정부(150)는 도 5를 참조하여, 포즈 결정부(140)에서 결정한 일련의 손 포즈(520)를 사전설정된 제스처(510)과 비교한다. 제스처 결정부(150)는 일련의 손 포즈(520)의 각 포즈군(522, 524, 526)을 사전설정된 제스처(510)의 각 손 포즈(512, 514, 516)와 각각 순서에 맞춰 비교한다. 여기서, 각 손 포즈의 골격 모델에 기반하여 서로를 비교한다. 즉, 단계(250)에서, 제스처 결정부(150)는 도 5를 참조하여, 일련의 손 포즈(520)의 각 손 포즈를 표현하는 골격 모델과 사전설정된 제스처(510)의 손 포즈(512, 514, 516)를 표현하는 골격 모델을 모델 비교 방식으로 비교한다. 예를 들어, 도 5를 참조하여, 박스(530)의 차이값은 크기와 회전방향에 영향을 받지 않는 SVD 특이값을 이용하여 골격 모델간의 차이점을 계산한 값이다.

단계(250)에서 제스처 결정부(150)는 도 5를 참조하여, 손 포즈 차이값(542, 544, 546)을 결정할 수 있다. 제스처 결정부(150)는 손 포즈 차이값(542)은 제 1 손 포즈군(522)의 각 손 포즈와 사전설정된 제스처(510)의 제 1 손 포즈(512)를 비교한 차이값에 기반하여 손 포즈 차이값(542)를 결정한다. 예를 들어, 손 포즈 차이값(542)은 차이값의 평균값일 수 있다. 다른 예에서, 손 포즈 차이값(542)은 차이값의 중간값, 최대값 및 최소값 중 하나일 수 있다. 동일한 방식으로, 제 2 손 포즈군(524) 및 제 3 손 포즈군(526)에 대하여 손 포즈 차이값(544) 및 손 포즈 차이값(546)을 각각 결정한다.

단계(250)에서 제스처 결정부(150)는 도 5를 참조하여, 손 제스처 차이값(550)을 결정한다. 손 제스처 차이값(550)은 단계(240)에서 포즈 결정부(140)가 결정한 일련의 손 포즈(520)와 사전설정된 제스처(510) 간의 차이를 수치화한 값이다. 즉, 손 제스처 차이값(550)은 단계(240)에서 포즈 결정부(140)가 결정한 일련의 손 포즈(520)와 사전설정된 제스처(510) 간의 일치도를 나타내는 지표이다. 제스처 결정부(150)는 손 포즈 차이값(542, 544, 546)에 기반하여 손 제스처 차이값(550)을 결정한다. 예를 들어, 손 제스처 차이값(550)은 손 포즈 차이값(542, 544, 546)의 평균값, 중간값, 최대값 및 최소값 중 하나일 수 있다.

결과적으로, 단계(250)에서 제스처 결정부(150)는 전술한 과정을 거쳐서 결정된 손 제스처 차이값(550)이 최소가 되는 사전설정된 제스처를 해당 손 동작에 대응하는 제스처로 결정한다.

전술한 방식은 손 제스처 차이값(550)의 결정 과정에 제스처를 구성하는 각 개별 손 포즈(512, 514, 516)과의 비교 결과를 반영하므로 손 제스처 인식의 정확도가 향상된다. 또한, 하나의 손 포즈와의 차이값이 큰 경우에도, 해당 제스처와 일치하지 않는 것으로 판단하거나 비교를 중간에 중단하지 않고 사전설정된 제스처(510)의 각 손 포즈(512, 514, 516)과 일련의 손 포즈(520)와의 비교를 진행하여 손 제스처 차이값(550)을 도출하여 상호 간의 일치도를 판단하므로, 하나의 손 포즈를 잘못 결정한 오류로 인하여 자칫 누락될 수 있는 손 제스처의 인식이 가능하여 정확도가 향상된다.

단계(250)에서, 제스처 결정부(150)가 골격 모델 비교를 통해, 포즈 결정부가 결정한 일련의 손 포즈에 기반하여 영상획득부(110)에서 촬영한 영상의 손 동작에 대응하는 제스처를 결정하면, 제스처 인식 장치(100)는 해당 제스처에 대응하는 제어 신호를 생성할 수 있다. 예를 들어, 단계(250)에서 결정된 제스처는 최종적으로 마우스를 제어하는 제어 이벤트와 맵핑되어 출력된다. 과적으로, 하나의 제어 이벤트와 하나의 제스처가 맵핑되고, 마우스 제어를 위한 제스처의 다양한 확장이 가능하다. 한편, 특정 손 포즈를 인식하여 다양한 입력으로 사용하거나, 사용자가 이용하기 편한 손 포즈로 제스처를 정의하여 사용 가능하다. 나아가, 손 포즈의 조합 및 순서를 복잡하게 구성하여, 사용자 암호로 활용이 가능하다.

도 6은 예시적인 제스처 및 제스처 이벤트 맵핑을 보여준다.

박스(610)는 마우스 휠 이벤트를 예시한다. 박스(610)의 제스처는 클릭포즈에서 엄지와 검지를 올린 포즈(집게포즈)로 변경하면 마우스 휠 제스처가 맵핑되며, 위아래로 움직이는 구간에 따라 그만큼 마우스 휠 이벤트를 발생시킨다.

박스(620)는 마우스 드래그 이벤트를 예시한다. 손바닥을 모두 펼친 상태(손바닥 포즈)에서 주먹 포즈로 바꾸게 되면 현재 가지고 있는 마우스 포인터를 기준으로 드래그하게 된다. 주먹 포즈인 동안에는 드래그되는 마우스 포인터가 동일하게 작동된다.

박스(630) 및 박스(640)는 각각 마우스 좌 클릭 및 마우스 우 클릭 이벤트를 예시한다. 박스(630)는 클릭 포즈-주먹 포즈-클릭 포즈를 마우스 좌 클릭 이벤트와 맵핑하였다. 박스(640)는 손바닥 포즈-주먹 포즈-손바닥 포즈를 마우스 우 클릭과 맵핑하였다.

박스(650) 및 박스(660)는 추가적인 제스처로 확장한 예시를 보여준다. 다양한 손 포즈의 조합 및 순서로 여러 가지 제스처 이벤트를 생성할 수 있으며, 사용자가 가장 편한 제스처를 정의하고 사용할 수 있다. 전술한 예는 3 개 이하의 손 포즈를 포함하는 제스처를 예시하고 있으나, 3개 이상의 손 포즈의 조합으로 제스처를 생성하는 것이 가능함은 물론이다.

본 발명의 실시예에 따른 도 1 내지 도 6에 도시된 구성 요소들은 소프트웨어 또는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 형태로 구현될 수 있으며, 소정의 역할들을 수행할 수 있다.

그렇지만 '구성 요소들'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 각 구성 요소는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.

따라서, 일 예로서 구성 요소는 소프트웨어 구성 요소들, 객체지향 소프트웨어 구성 요소들, 클래스 구성 요소들 및 태스크 구성 요소들과 같은 구성 요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다.

구성 요소들과 해당 구성 요소들 안에서 제공되는 기능은 더 작은 수의 구성 요소들로 결합되거나 추가적인 구성 요소들로 더 분리될 수 있다.

한편 상술한 설명에서, 도 2, 도 3, 도 4a, 도 4b 및 도 5의 단계들은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

한편, 본 발명의 일 실시예는 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.

본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 제스처 인식 장치
110: 영상획득부
120: 인식부
130: 모델링부
140: 포즈 결정부
150: 제스처 결정부
160: 저장소

Claims

손 포즈를 포함하는 영상을 획득하는 단계;
상기 영상을 분석하여 각 손 포즈에 대응하는 손 영역을 인식하는 단계;
상기 손 영역을 표현하는 입력 골격 모델을 생성하는 단계; 및
상기 입력 골격 모델에 기반하여 상기 입력 골격 모델에 대응하는 손 포즈를 결정하는 단계
를 포함하는 제스처 인식 방법.
제 1 항에 있어서,
상기 손 포즈를 결정하는 단계는,
상기 입력 골격 모델과 사전설정된 손 포즈를 표현하는 골격 모델을 비교하여 차이값을 결정하고,
상기 차이값이 최소가 되는 상기 사전설정된 손 포즈를 상기 입력 골격 모델에 대응하는 손 포즈로 결정하는 것인, 제스처 인식 방법.
제 1 항에 있어서,
획득된 상기 손 포즈가 시간에 따라 변화하는 손 동작을 구성하는 경우, 일련의 상기 손 포즈에 기반하여 손 동작에 대응하는 제스처를 결정하는 단계
를 더 포함하는 제스처 인식 방법.
제 3 항에 있어서,
상기 제스처를 결정하는 단계는,
상기 일련의 손 포즈의 각 손 포즈를 표현하는 골격 모델과 사전설정된 제스처를 표현하는 일련의 골격 모델을 각각 비교하여 차이값을 결정하고,
상기 차이값이 최소가 되는 상기 사전설정된 제스처를 상기 손 동작에 대응하는 제스처로 결정하는 것인, 제스처 인식 방법.
제3 항에 있어서,
상기 제스처에 대응하는 제어 신호를 생성하는 단계
를 더 포함하는 제스처 인식 방법.
일련의 손 포즈를 포함하는 손 동작을 영상으로 촬영하는 영상 획득부영상획득부;
상기 영상을 분석하여 각 손 포즈에 대응하는 손 영역을 인식하는 인식부;
상기 손 영역에 기반하여 상기 손 영역을 표현하는 입력 골격 모델을 생성하는 모델링부;
상기 입력 골격 모델에 기반하여 상기 입력 골격 모델에 대응하는 손 포즈를 결정하는 포즈 결정부; 및
상기 일련의 손 포즈에 기반하여 상기 손 동작에 대응하는 제스처를 결정하는 제스처 결정부
를 포함하는 제스처 인식 장치.
제 6 항에 있어서,
상기 포즈 결정부는,
상기 입력 골격 모델과 사전설정된 손 포즈를 표현하는 골격 모델을 비교하여 차이값을 결정하고,
상기 차이값이 최소가 되는 상기 사전설정된 손 포즈를 상기 입력 골격 모델에 대응하는 손 포즈로 결정하는 제스처 인식 장치.
제 6 항에 있어서,
상기 제스처 결정부는,
상기 일련의 손 포즈의 각 손 포즈를 표현하는 골격 모델에 기반하여 상기 제스처를 결정하는, 제스처 인식 장치.