KR20130043222A

KR20130043222A - Tv 제어용 제스처 인식 시스템

Info

Publication number: KR20130043222A
Application number: KR1020137006107A
Authority: KR
Inventors: 구앙-만 후앙; 밍-장 리우; 리앙인 유
Original assignee: 소니 주식회사
Priority date: 2010-09-17
Filing date: 2011-07-26
Publication date: 2013-04-29
Also published as: CN103098076A; EP2601615A1; US20120069168A1; WO2012036790A1; EP2601615B1; US9213890B2; CN103098076B; EP2601615A4

Abstract

실시간 분할을 달성하기 위해 모션 정보와 조합된 피부색 기반 방법을 이용하는 제스처 인식 시스템이 제공된다. 칼만 필터는 손의 중심을 트랙하는데 사용된다. 추출된 손 마스크에서 손바닥 중심으로부터 윤곽까지의 최대 거리뿐만 아니라, 손바닥 중심, 손바닥 아래 부분이 계산된다. 계산된 거리는 다음에 임계값과 비교되어 현재의 자세가 "편"인지 "쥔"인지를 결정한다. 양호한 실시 형태에서, "편"과 "쥔" 사이의 전이는 현재의 제스처가 "선택" 또는 "쥐기" 상태인지를 결정하기 위한 것이다.

Description

TV 제어용 제스처 인식 시스템{GESTURE RECOGNITION SYSTEM FOR TV CONTROL}

관련 출원의 상호 참조

본 출원은 그 전체 내용이 본 명세서에 참고로 병합된, 2010년 9월 17일자 출원된 미국 특허 출원 번호 12/885,072의 우선권을 주장한다.

연방 후원 연구 또는 개발에 관한 성명서

적용 안됨

컴팩트 디스크로 제출되는 자료의 참조에 의한 병합

적용 안됨

저작권 보호되는 자료의 통지

본 특허 문서의 자료의 일부는 미국 또는 다른 국가의 저작권법하에서 저작권 보호된다. 저작권자는 특허 문서 또는 특허 개시물이 미국 특허상표청의 공용되는 파일 또는 기록에 나타나 있는 그대로 팩시밀리 재현하는 것에는 이의를 제기하지 않지만, 그 외의 경우에는 어떠한 것이라도 모든 저작권을 보유한다. 저작권자는 37 C.F.R.§1.14에 의거하여 그 저작권을 제한하지 않고, 이에 본 특허 문서를 비밀로 유지되도록 하기 위해서 그 권리의 어떠한 것도 포기하지 않는다.

본 발명은 일반적으로 제스처 인식에 관한 것으로, 특히 원격 제어용 제스처 인식에 관한 것이다.

제스처 인식은 사람과 머신 간의 보다 직접적인 대화 방법을 제공할 수 있는 새로이 부상하는 기술이다. 이것은 공간 및 시간 정보에 관련되고 미래의 응용을 위해 종래의 제어 장치를 대체하는데 이용될 수 있다. 제스처 인식 시스템은, 예를 들어, 미국 특허 제5,534,917호에서 시도되었다. 그러나, 이들 시스템은 일반적으로 계산 집약적이고 또는 고가의 하드웨어를 필요로 하는 복잡한 분석과 관련되어 있다.

따라서, 본 발명의 목적은 전형적인 HD 카메라로부터 입력을 취할 수 있고 간단한 세트의 제스처를 이용하여 계산량을 최소화하는 제스처 인식 시스템이다. 본 발명의 목적은 다음의 설명에서 개시된 발명에 의해 달성될 것이다.

본 발명은 움직이는 손의 비디오를 입력으로서 처리하고 각 영상에서의 현재의 제스처 상태 및 손 위치를 출력하는 시스템 및 방법을 포함한다. 각 영상에서, 손 영역은 배경과 분할(segment)되고 하나 이상의 파라미터에 기초하여 "편(open) 손" 또는 "쥔(closed) 손"으로 분류한다. 시스템은 하나 이상의 피부색 모델과 모션을 조합하여 실시간 손 분할 동작을 달성한다. 전형적인 응용은 기본적인 TV 제어, TV 상의 사진 및 웹 브라우징, 및 컴퓨터용의 제스처 인식을 포함하고, 이에 한정되지 않는다.

본 발명은 단일 HD 카메라만을 사용하면서 TV 제어용의 계산 복잡성이 낮은 실시간 및 사용자 친화적 제스처 인식 시스템을 동작시킨다.

이 시스템은 제스처 인식을 위해 소형 센서를 사용하고 TV, 컴퓨터 또는 다른 장치가 간단한 손 제스처에 의해 3미터 이상이나 떨어진 거리에서 제어될 수 있다. 피부 색 모델은 모션과 조합되어 손 영역과 배경을 분리한다.

동작에 있어서, 손 크기, 손바닥 중심, 및 손바닥 아래 부분 등의 여러 파라미터가 추출된다. 이들 파라미터는 현재의 손 제스처를 "편 손" 또는 "쥔 손"으로서 분류하기 위해 사용된다. 시스템은 다음에 장치를 제어하기 위해 다른 손 제스처 상태 간의 전이를 사용한다. 이 방법은 낮은 계산 복잡성으로 실시간 동작을 달성할 수 있으면서 입력으로서 비디오 시퀀스를 취하는데 단일 HD 카메라만을 유리하게 사용한다.

본 발명의 시스템 및 방법은 고가이며 특별한 센서를 전혀 필요로 하지 않는다. 피부 색 모델과 모션 둘 다를 이용하여, 시스템은 깊이 맵(depth map) 없이 손 영역을 배경과 분할할 수 있다. 본 발명의 제스처 세트는 (기억하기 위해 각각) 사용자 친화적이고 TV 제어를 위한 필수적인 기능성을 커버하기에 충분하다.

본 발명은 현실적으로 TV용 제스처 제어를 실현하고 실제 TV 특징들을 가능하게 한다. 또한, 본 발명의 시스템에 2개의 카메라 또는 3D 카메라를 사용할 필요가 없다.

본 발명의 다른 양상은 다음의 상세한 설명의 부분에서 개시되고, 그 상세한 설명은 본 발명의 양호한 실시 형태를 완전히 개시하는 목적을 위한 것이며, 이에 한정되는 것은 아니다.

본 발명은 예시의 목적으로만 도시된 다음의 도면을 참조하여 보다 완전히 이해될 것이다.
도 1은 본 발명에 따른 제스처 인식 시스템의 개략도.
도 2는 도 1의 제스처 인식 모델의 소자 개관의 개략도.
도 3은 본 발명에 따른 분할 모듈의 개략도.
도 4는 본 발명에 따른 전경/배경 분리를 위해 영상에 적용되는 바운딩 박스의 도시도.
도 5의 (A) 내지 (E)는 본 발명에 따른 다른 손 제스처를 위한 성공적인 손 분할 결과의 영상을 도시한 도면.
도 6의 (A) 내지 (E)는 비 최적 손 분할의 영상을 도시한 도면.
도 7은 본 발명에 따른 분할된 영상 프레임을 위한 이진 손 마스크 및 계산된 파라미터를 도시한 도면.
도 8은 중심-윤곽(center-contour) 거리를 구하기 위해 평가된 도 7의 마스크를 도시한 도면.
도 9는 본 발명에 따른 TV 제어를 위한 예시적인 제스처 세트를 도시한 도면.
도 10은 본 발명에 따른 특정한 동작에 사용될 수 있는 시퀀스 제스처 세트를 도시한 도면.
도 11은 영상의 손 바운딩 박스에 적용되는 인접한 바운딩 박스를 도시한 도면.
도 12는 분할된 모델의 결과에 기초하여 표시자 행렬로 전달된 손 영상을 도시한 도면.
도 13은 폐색(occlusion) 발생의 영상 및 각각의 분할 모델을 도시한 도면.
도 14는 폐색 발생의 다른 영상 및 각각의 분할 모델을 도시한 도면.
도 15는 폐색으로부터 나오는 영상 및 손의 분할 모델을 도시한 도면.

예시의 목적을 위한 도면을 보다 특정적으로 참조하면, 본 발명은 도 1 내지 도 15에 일반적으로 도시된 장치에서 구체화된다. 여기에 개시된 기본 개념을 벗어나지 않고서, 장치는 구성에 대해 그리고 부품의 상세에 대해 변경할 수 있고, 방법은 특정 단계 및 시퀀스에 대해 변경할 수 있다는 것을 이해할 것이다.

도 1은 본 발명의 제스처 인식 시스템(10)의 개략도를 도시한다. 시스템(10)은 그 출력이 센서 입력을 수신하고 제스처 인식 소프트웨어 모듈(18)을 동작시키는 프로세서(14)에 결합된 센서(12)(예를 들어, HD형 카메라 등)를 포함한다. 제스처 인식 모듈(18)은 센서(12)로부터의 입력을 분석하고 장치의 볼륨, 채널, 프로그래밍, 또는 다른 특징을 제어하는데 이용될 수 있는, 장치 제어 기기, 또는 사용자 인터페이스 소프트웨어(16)에 보내지는 명령 또는 연산을 제공한다. 장치 제어 기기(16)가 TV, 셋톱 박스, 컴퓨터, 또는 다른 소자를 제어하도록 구성될 수 있다는 것을 이해한다.

도 2는 시스템(10)의 동작에 관한 제스처 인식 모듈(18)의 기본 소자를 도시한다. 제스처 인식 모듈(18)은 일반적으로 3개의 스테이지를 포함한다. 제1 스테이지에서, 장치(12)로부터의 입력 또는 캡쳐된 영상은 분할(20) 및 트랙킹(22) 모듈에서 처리되어 트랙킹을 위해 손 영역을 배경과 분할한다.

제2 스테이지에서, 시스템(10)은 검출된 손 영역으로부터 필요한 특징을 추출하도록 특징 추출 모듈(24)을 동작시킨다.

제3 스테이지에서, 시스템(10)은 추출된 특징을 자세/제스처 인식용 분류기(26)에 입력함으로써 제스처 인식 모듈(18)을 동작시킨다. 제스처 인식 모듈(18)로부터의 결과는 다음에 장치의 제어를 위해 특정 어플리케이션(16)에 출력된다.

스테이지 1: 손 분할

영상 분할은 일반적으로 동일한 라벨의 화소가 소정의 시각적 특성을 공유하도록 라벨을 영상의 화소에 할당하는 단계를 포함한다. 본 발명의 시스템(10)은 양호하게는 피부색 기초 방법을 이용한다. 이 방법은 피부 색조가 각 개개의 영상 내에서 일치한다는(예를 들어, 값의 상당한 변화가 없음) 가정에 기초한다. 이 구성은 광 변화에 대한 민감성을 감소시키기 위해 색 성분을 세기 성분과 분리한다. 이 방법은 낮은 계산 복잡성 및 실시간 동작을 가능하게 한다. 양호한 구성에서, 장치(12)로부터의 입력 영상은 YCbCr 444 플래너 컬러 형식으로 되어 있다.

도 3에 도시한 바와 같이, 분할 모듈(20)은 일반적으로 다음의 3개의 단계를 포함한다: 전경/배경 분리를 포함하는 제1 단계(30), 모델 트레이닝을 포함하는 제2 단계(32), 및 화소 분류를 포함하는 제3 단계(34).

도 4는 손(44) 위치 및 크기를 검출하는 전경/배경 분리 단계(30)를 도시한다. 손 바운딩 박스(48)는 손(44)이 검출된 후에 출력된다. 트리거링 모듈(도시 안됨)은 양호하게는 본 발명의 시스템(10)을 트리거하여 (예를 들어, 사용자가 손(44)을 올림으로써) 개시하게 한다. 바운딩 박스(48)는 전경 영역(40)을 둘러싸고, 외부 박스 또는 검색 영역(46)으로 둘러싸인 주변 영상으로서 배경 영역(42)을 정한다. 여기서, 검색 영역 길이는 3 ×바운딩 박스(48) 길이 L이고 손(44)의 움직임을 커버한다. 그러나, 다른 비율이 적용가능하다는 것을 알 수 있다.

모델 트레이닝 단계(32)에서, K 평균 클러스터링은 양호하게는 손 바운딩 박스(48) 내부의 영상(40)(양호하게는, Cb, Cr 컬러 채널만이 사용된다)을 위한 3 성분 가우스 혼합 모델을 트레인하는데 사용된다. K 평균은 또한 배경 영역(42) 내의 영상(Cb, Cr 컬러 채널만)을 위한 3 성분 가우스 혼합 모델을 트레인하는데 사용된다. 다른 (예를 들어, 히스토그램 기초) 방법을 사용하는 것이 가능하지만, K 평균이 양호하고, 다른 방법은 일반적으로 더 느리고 보다 더 계산 집약적이다.

K 평균 알고리즘은 영상을 K 클러스터로 분할하는데 사용되는 반복 기술이다. K 평균 알고리즘은 일반적으로 1) K 클러스터 중심을 랜덤하게 또는 소정의 휴리스틱에 기초하여 뽑는 단계, 2) 영상 내의 각 화소를 화소와 중심 클러스터 간의 거리를 최소화하는 클러스터에 할당하는 단계, 3) 클러스터에서의 화소의 모두를 평균함으로써 클러스터 중심을 재계산하는 단계, 및 4) 수렴이 달성될 때까지(예를 들어, 화소 변화 클러스터가 없음) 단계 2) 및 3)을 반복하는 단계를 포함한다. 일반적으로, 거리는 화소와 클러스터 중심 간의 차이의 제곱 또는 절대값이다. 이 차이는 화소 컬러, 세기, 텍스쳐, 및 위치, 또는 이들 인자의 가중된 조합에 기초할 수 있다.

본 발명의 시스템(10)은 양호하게는 피부색 기초 방법을 사용한다. 이 방법은 각 개개의 영상 내에서 피부 색조가 일치(예를 들어, 값의 상당한 변화가 없음)한다는 가정에 기초한 것이다. 이 구성은 광 변화에 민감하고 색 성분을 세기 성분과 분리함으로써 개선될 수 있다. 이 방법은 낮은 계산 복잡성 및 실시간 동작을 가능하게 한다. 양호한 구성에서, 장치(12)로부터의 입력 영상은 YCbCr 444 플래너 컬러 형식으로 되어 있다.

전경(40) 컬러 모델을 개선하기 위해서, 일반적인 피부 모델의 범위(77≤Cb≤127, 133≤Cr≤173) 내에 있지 않은 모든 성분이 제거된다.

3개의 성분 모두가 피부 모델 범위 내에 있으면(또는 모두가 범위 내에 있지 않으면), 배경 성분의 어느 것과 가장 가까운 전경 가우스 모델로부터 성분을 결정하고, 다음에 이것을 제거한다. 성분의 나머지는 다음에 전경 영역(40)을 표시하는데 사용된다.

화소 분류 단계(34)는 양호하게는 GMM 및 베이지언(Bayesian) 결정 룰을 이용하여 수행된다. 각각의 현재의 손 영상에 있어서, 기준과 동일한 이전의 영상 부분을 이용한다. 다음의 판별식(모션에 대한 수학식 1 & 2, 및 피부색에 대한 식 수학식 3)의 어느 하나를 만족하는 화소는 손 화소로서 고려된다(그렇지 않으면 화소는 배경 화소로서 분류된다).

1. 모션 및 피부색:

및

2. 피부색

화소 분류 단계(34) 이후에는 양호하게는 얻어진 이진 손 마스크를 개선하기 위해 형태학적 다이레이팅(dilating) 및 이로딩(eroding) 연산자가 따른다.

화소 분류 단계(34)에서의 확률은 수학식 4, 5, 및 6을 이용하여 다음과 같이 계산된다.

여기서 P_hand는 배경 영역(42)에 대한 이전의 손 영역의 비이고, P(c｜hand)는 화소 c가 전경(손) 영역(40)에 속할 확률이고, g_hand는 화소 c가 전경 가우스 혼합 모델의 k 번째 성분에 속할 확률이고, p_k는 k번째 성분의 종전의 확률이다(p_k, 평균 μ_k, 및 공분산 행렬 σ_k는 모델 트레이닝 단계(32)에서 트레인된다).

여기서 P(c｜background)는 화소가 배경 영역에 속할 확률이고, g_background는 화소가 배경 가우스 혼합 모델의 k 번째 성분에 속할 확률이고, p_k는 k 번째 성분의 종전의 확률이다(p_k, 평균 μ_k, 및 공분산 행렬 σ_k는 모델 트레이닝 단계(32)에서 트레인된다).

화소 c가 GMM 성분에 속할 확률은 수학식 6을 이용하여 계산된다.

도 5의 (A) 내지 (E)는 본 발명에 따른 다른 손 제스처를 위한 성공적인 손 분할 결과를 도시한다. 대응하여, 도 6의 (A) 내지 (E)에서의 영상은 비 최적 손 분할을 도시하는데 여기서 어떤 제스처의 영상은 원으로 둘러싸인 영역에 도시한 바와 같이, 부분 특징, 누락, 부정확, 및/또는 불연속 해부 구조를 갖는다.

트랙킹 단계(22)는 관찰점으로서 분할된 영상으로부터 손바닥 중심을 트랙한다. 손바닥 중심은 이후 상세히 설명되는 영상 기초 방법을 이용하여 얻어진다.

트랙킹 단계는 (현재의 프레임으로부터의 관찰에 기초하여) 실제 손 위치와 다음 프레임의 속도의 예측 및 계산을 위해 칼만 필터(Kalman filter)를 이용한다.

낮은 계산을 이용하는 예시적인 칼만 필터가 수학식 7 및 8에 도시된다:

여기서 F_k는 이전의 상태 X_k _-1에 적용되는 상태 전이 모델이고, B_k는 제어 벡터 U_k에 적용되는 제어 입력 모델이고, W_k는 공분산 Q_k을 갖는 제로 평균 다변수의 정규 분포로부터 도출되는 것으로 가정된 프로세스 노이즈이다.

여기서 H_k는 참인 상태 공간을 관찰된 공간으로 맵핑하는 관찰 모델이고 V_k는 공분산 R_k을 갖는 제로 평균 가우스 화이트 노이즈인 것으로 가정된 관찰 노이즈이다.

각 영상에서의 손 위치(예를 들어, 손바닥 중심의 2D 위치)는 다음에 출력 구조의 부분으로서 출력되고 세이브된다.

스테이지 2: 특징 추출

도 7-8은 특징 추출 모듈(24)의 제2 스테이지 동작을 도시한다.

도 7은 각 분할된 영상 프레임을 위한 이진 손 마스크(60)를 도시한다. 손 마스크(60)는 원래의 마스크와 이로딩된 마스크(도시 안됨) 간의 차이로부터 생성된 추출된 윤곽(62), 및 뼈대(64)를 포함한다. 이로딩된 마스크는 원래의 마스크를 한 화소만큼 얇게 하는 본 기술 분야에서 전형적으로 이용되는 이로딩 알고리즘에 의해 얻어진다. 뼈대(64)는 윤곽(62)으로부터 얻어진 이진 형상을 1 화소폭 라인으로 변환하는, 형태학적 씨닝(thinning) 알고리즘으로부터 생성된다. 이 방법은 본 기술 분야에 일반적으로 공지된 임의의 씨닝 알고리즘을 포함할 수 있지만, 형상을 짧게 하거나 또는 형상을 브레이크 어파트(break apart)함이 없이 형상을 수축하도록 윤곽 형상(62) 내부의 화소를 반복적으로 삭제하는 단계를 일반적으로 포함한다.

추출된 윤곽(62)은 다음에 뼈대(64)에 대해서 분석되어 손바닥 중심 C_p을 얻고, 이것은 손 윤곽으로부터 최대 거리 r에 있는 뼈대(64) 위의 점으로서 정의되고 계산된다.

손바닥 아래 부분 B_p은 다음에 손바닥 중심 C_p으로부터(아래) r 화소인 뼈대(64) 위의 점으로서 계산된다.

손바닥 중심 C_p과 손바닥 아래 부분 B_p 점이 각각의 손 마스크(60)를 위해 결정된 후에, 방향 벡터 V_B는 손바닥 중심 C_p과 손바닥 아래 부분 B_p로부터의 2점을 지나는 선으로서 계산된다.

방향 벡터 V_B의 ±60°의 범위 내에서 손바닥 중심 C_p(또는 다르게는 손바닥 아래 부분 B_p)으로부터 최대 거리 D에 있는 윤곽점(66)(일반적으로 중지 끝)이 다음에 계산된다. ±60°의 범위는 일반적으로 평균 해부 구조에 기초하여 이용된다. 그러나, 이 범위는 상황에 따라 변할 수 있다.

스테이지 3: 제스처 인식

제스처 인식 모듈(26)에서, 각각의 손 영상은 다음에 거리 D를 임계값 T와 비교함으로써 "편" 또는 "쥔"으로 분류된다. 임계값 T는 검정 단계를 통해 얻어지는데, 여기서 첫번째 5개의 "편 손" 영상이 분할되고 거리 D와 손바닥 반경 r의 값이 얻어진다. 임계값은 다음에 평균 AVE(D+1.5r)/2을 이용하여 계산된다.

각 비디오에서, 5-프레임 크기를 갖는 슬라이딩 윈도우는 "편" 또는 "쥔"을 인식하는 것이다.

"편": 가장 최근의 5개의 프레임 내에 3개 이상의 편 자세가 있으면, 현재의 자세는 "편"으로 고려된다.

"쥔": 가장 최근의 5개의 프레임 내에 3개 이상의 쥔 자세가 있으면, 현재의 자세는 "쥔"으로 고려된다.

도 9는 본 발명의 제스처 인식 모듈(26)의 몇가지 핵심적인 기능성을 도시한다. "편"과 "쥔"의 자세 간의 전이는 제스처 "선택" 또는 "쥐기"가 언제 트리거되는지를 표시하는데 사용될 수 있다.

예를 들어, 단계(70)에서 도시한 바와 같이, 제스처 인식 시스템을 초기 설정하도록 트리거하기 위해, 손(44)은 센서(12)의 시야 내의 영역에서 올려질 수 있고, 1 내지 2초 동안 편 손 자세로 유지된다.

시스템이 초기 설정될 때, 편 손은 단계(72)에서 자유로운 손 움직임(예를 들어, 손바닥 중심)을 트랙킹하여 커서(cursor)를 제어하는데 사용될 수 있다(커서는 TV 또는 동작되고 있는 장치(예를 들어, 셋톱 박스 등)의 모니터 화면 상에 보일 수 있다).

특별 명령, 예를 들어, 쥐기/붙이기 조작(74) 또는 선택/체크 조작(76)은 제스처와 뚜렷한 타이밍의 조합을 이용하여 수행될 수 있다. 도 10은 쥐기/붙이기 조작(74) 또는 선택/체크 조작(76)을 위해 이용될 수 있는 시퀀스를 도시한다. 제1 단계(90)는 커서를 체크 또는 선택하기 위해 원하는 위치(예를 들어, 사용자 인터페이스 화면 상의 위치)를 향하게 할 수 있는 편 손 제스처(44)를 포함한다. 제2 단계(92)는 원하는 특징을 선택 또는 체크하기 위해 쥔 주먹 제스처(80), 손가락을 밖으로 하는 제스처(82) 또는 손가락을 구부리는 제스처(84)에 의해 개시될 수 있다. 한번 선택되면, 제3 단계(94)에서의 편 손바닥 제스처(44)는 커서의 자유로운 움직임으로 복귀한다.

쥐기/붙이기 조작(74)은 유사하게 수행되지만, 사용자는 제2 단계에서의 제스처(80, 82, 또는 84) 중 하나를 유지할 것이고 붙이기 위한 아이템을 대기한다.

이제 도 11-15를 참조하면, 본 발명의 시스템(10)은 양호하게는 손(44)이 얼굴(102)과 교차하거나 매우 근접할 때의 상황을 다루기 위한 손-얼굴 폐색(occlusion) 프로그래밍을 포함한다

폐색 상황은 일반적으로 다음의 가정에 의해 제한된다: 1) 손이 얼굴보다 훨씬 큰 움직임을 가지고, 2) 얼굴에 가까운 다른 피부색 블로브가 없고, 폐색 중에 제스처의 변화가 없고, 3) 폐색 중에, 손이 y 방향으로 큰 움직임을 가지지 않는 것.

도 11에 도시한 바와 같이, 각 현재의 손 바운딩 박스(48)에서, 박스(48)의 좌측과 우측의 인접한 영역은 2개의 직사각형(94 및 96)을 이용하여 생성된다. 각 직사각형(94 및 96)은 1.5L의 높이와 L의 폭을 갖고, 여기서 L은 바운딩 박스(48)의 길이이다. 박스(48, 94, 및 96)의 바닥은 좌측 및 우측의 인접한 박스(94 및 96)가 박스(48) 위로 ½ L 연장하도록 나란히 되어 있다.

인접한 영역(94, 96) 내의 모든 화소는 (이전에 트레인된 가우스 혼합 모델을 이용하여) 피부 또는 비피부 화소로 분류된다. 각 정사각형 영역 내의 피부 화소의 수가 다음에 카운트된다. 이 수가 임계값(예를 들어, 검정 단계에서 계산된 편 손의 2/3)보다 크면, 정사각형은 폐색을 발생할 수 있는 물체를 포함하는 것으로 고려된다.

도 12에 도시한 바와 같이, 각각의 손 영상(100)은 분할된 모델(104)의 결과에 기초하여 표시자 행렬(106)로 전달된다. "1"이 물체를 포함하는 박스에 할당되고, 그렇지 않으면 "0"이 할당된다. 도 12에 도시한 바와 같이, 좌측의 인접한 박스(94)는 임계값 피부 화소와 일치하지 않고, "0"이 할당되는 반면, 손 바운딩 박스(48)와 우측의 인접한 박스(96)는 임계값 화소 카운트와 일치하고, "1"이 할당된다.

다음에, 물체의 중심 C_o이 계산되고 기록된다. (시간 축을 따르는) 인접한 표시자 행렬의 각 쌍이 조사된다. 1→0의 전이를 갖는 임의의 위치는 다음 중 하나를 표시한다: 1) 근처의 물체(얼굴(102))가 손(44)과 합체되고, 또는 2) 손(44)이 물체(예를 들어, 얼굴(102))로부터 멀리 움직이는 것.

손의 현재 위치와 이전에 기록된 물체 중심 C_o의 거리는 손(44)이 그것을 터치하거나 그것으로부터 멀리 움직이는지를 결정하기 위해 측정된다(예를 들어, 거리가 바운딩 박스 길이 L의 특정 비율(예를 들어, 60-75%)보다 작으면, 폐색이 발생한다).

도 13은 폐색 발생의 영상(112) 및 각각의 분할 모델(114)을 도시한다. 폐색이 발생하면, 대기 영역(110)은 (중심과 동일한 y를 갖는) 현재의 중심 C_c의 위치에 가깝게 정해진다. 대기 영역(110)의 크기는 손 바운딩 박스(48), 예를 들어 길이 L과 동일하다.

도 14는 폐색 발생의 다른 영상(116) 및 각각의 분할 모델(118)을 도시한다. 폐색 중에, 전체 이진 마스크(120)(손(44) 플러스 얼굴(102))의 중심 C_c은 예측된 위치로서 사용된다.

도 15는 폐색(예를 들어, 물체가 대기 영역(110)에서 검출됨)으로부터 나오는 손(44)의 영상(122) 및 분할 모델(124)을 도시한다. 물체의 중심 C_c는 다음에 현재의 손 위치로서 사용되고 모션 트랙킹이 재개된다.

요약하면, 본 발명의 시스템(10) 및 방법은 실시간 분할을 달성하기 위해 모션 정보와 조합된 피부색 기반 방법을 적용한다. 칼만 필터는 손의 중심을 트랙하는데 사용된다. 추출된 손 마스크에서 손바닥 중심으로부터 윤곽까지의 최대 거리뿐만 아니라, 손바닥 중심, 손바닥 아래 부분이 계산된다. 계산된 거리는 다음에 임계값과 비교되어 현재의 자세가 "편"인지 "쥔"인지를 결정한다. 양호한 실시 형태에서, "편"과 "쥔" 사이의 전이는 현재의 제스처가 "선택" 또는 "쥐기" 상태인지를 결정하기 위한 것이다.

본 발명의 실시 형태들이 본 발명의 실시 형태들에 따른 방법 및 시스템의 플로우차트 도시를 참조하여 설명된다. 이들 방법 및 시스템은 또한 컴퓨터 프로그램 제품으로서 구현될 수 있다. 이와 관련하여, 플로우차트의 각 블럭 또는 단계, 및 플로우차트에서의 블럭(및/또는 단계)의 조합이 하드웨어, 펌웨어, 및/또는 컴퓨터 판독가능 프로그램 코드 로직에서 구체화되는 하나 이상의 컴퓨터 프로그램을 포함하는 소프트웨어 등의 여러 수단에 의해 구현될 수 있다. 알 수 있는 바와 같이, 임의의 이러한 컴퓨터 프로그램 명령은 머신을 제조하기 위해 일반 목적 컴퓨터 또는 특수 목적 컴퓨터, 또는 다른 프로그래머블 프로세싱 장치를 제한없이 포함하는 컴퓨터에 로드될 수 있어, 컴퓨터 또는 다른 프로그래머블 프로세싱 장치에서 실행하는 컴퓨터 프로그램 명령은 플로우차트(들)의 블럭(들)에서 지정된 기능을 구현하는 수단을 생성한다.

따라서, 플로우차트의 블럭은 지정된 기능을 수행하는 수단의 조합, 지정된 기능을 수행하는 단계의 조합, 및 지정된 기능을 수행하기 위해, 컴퓨터 판독가능 프로그램 코드 로직 수단에서 구체화되는 것과 같은, 컴퓨터 프로그램 명령을 지원한다. 플로우차트 도시의 각 블럭, 및 플로우차트 도시의 블럭의 조합은 지정된 기능 또는 단계를 수행하는 특수 목적 하드웨어 기반 컴퓨터 시스템, 또는 특수 목적 하드웨어와 컴퓨터 판독가능 프로그램 코드 로직 수단의 조합에 의해 구현될 수 있다는 것을 또한 알 수 있다.

또한, 컴퓨터 판독가능 프로그램 코드 로직에서 구체화된 것과 같은, 이들 컴퓨터 프로그램 명령은 또한 특정한 방식으로 기능하도록 컴퓨터 또는 다른 프로그래머블 프로세싱 장치에 지시할 수 있는 컴퓨터 판독가능 메모리에 저장되어, 컴퓨터 판독가능 메모리에 저장된 명령은 플로우차트(들)의 블럭(들)에 지정된 기능을 구현하는 명령 수단을 포함하는 제조품을 제조한다. 컴퓨터 프로그램 명령은 또한 일련의 동작 단계가 컴퓨터 구현된 프로세스를 생성하기 위해 컴퓨터 또는 다른 프로그래머블 프로세싱 장치 상에서 수행되게 하도록 컴퓨터 또는 다른 프로그래머블 프로세싱 장치에 로드되어 컴퓨터 또는 다른 프로그래머블 프로세싱 장치 상에서 실행하는 명령이 플로우차트(들)의 블럭(들)에서 지정된 기능을 구현하는 단계를 제공한다.

따라서, 알 수 있는 바와 같이, 본 발명은 무엇보다도 다음의 실시 형태들을 포함한다.

1. 장치 근처의 위치에서의 사용자의 손의 비디오 데이터를 캡처하는 센서; 상기 손의 캡처된 비디오 데이터를 처리하는 프로세서; 및 피부 색에 기초하여 상기 캡처된 비디오에서 각각의 손 영상을 분할하는 단계와; 분할된 상기 손 영상의 하나 이상의 파라미터를 추출하는 단계와; 상기 손 영상에서의 상기 하나 이상의 파라미터 중 적어도 하나를 트랙킹하는 단계와; 상기 하나 이상의 파라미터에 기초하여 손 제스처를 "편" 또는 "쥔"으로 분류하는 단계와; 상기 손 제스처의 인식 및 상기 하나 이상의 파라미터의 위치를 트랙킹하는 것에 기초하여 상기 장치를 조작하는 단계를 수행하도록 상기 프로세서 상에서 실행가능한 프로그래밍을 포함하는 장치의 원격 제어용 제스처 인식 시스템.

2. 각각의 손 영상을 분할하는 단계는 상기 손과 관련된 전경 영역을 상기 전경 영역을 둘러싸는 배경과 분리하는 단계; 상기 배경 영역 및 상기 전경 영역의 3 성분 혼합 모델을 트레이닝하는 단계; 및 하나 이상의 모션 및 피부색에 기초하여 상기 영상 화소를 분류하는 단계를 포함하는 실시 형태 1 기재의 시스템.

3. 상기 영상은 Cb 및 Cr 컬러 채널만을 이용하여 분할되는 실시 형태 1 기재의 시스템.

4. 상기 하나 이상의 파라미터를 추출하는 단계는, 상기 손의 추출된 윤곽 및 뼈대에 기초하여 상기 사용자의 손의 손바닥 중심 위치를 얻는 단계를 포함하는 실시 형태 1 기재의 시스템.

5. 상기 하나 이상의 파라미터를 트랙킹하는 단계는 칼만 필터를 이용하여 상기 손바닥 중심 위치를 트랙킹하는 단계를 포함하는 실시 형태 4 기재의 시스템.

6. 상기 하나 이상의 파라미터를 추출하는 단계는, 손바닥 아래 위치를 얻는 단계; 및 상기 손바닥 중심 위치와 추출된 영상 윤곽 위의 가장 먼 윤곽점 간의 거리를 측정하는 단계를 더 포함하고, 상기 가장 먼 윤곽점은 상기 손바닥 아래 위치 및 상기 손바닥 중심 위치를 지나는 벡터의 선정된 각도 범위 내에 있는 실시 형태 4 기재의 시스템.

7. 상기 손 제스처를 "편" 또는 "쥔"으로 분류하는 단계는, 상기 가장 먼 윤곽점까지의 거리를 임계값과 비교하는 단계; 상기 가장 먼 윤곽점까지의 거리가 상기 임계값보다 크면 상기 영상을 "편"으로 분류하는 단계; 및 상기 가장 먼 윤곽점까지의 거리가 상기 임계값보다 작으면 상기 영상을 "쥔"으로 분류하는 단계를 포함하는 실시 형태 6 기재의 시스템.

8. 상기 장치는 디스플레이에 결합된 사용자 인터페이스를 포함하고, 상기 사용자 인터페이스는 상기 디스플레이 상에 출력되고, 상기 장치를 조작하는 단계는 상기 손 제스처의 인식 및 상기 하나 이상의 파라미터의 트랙킹에 기초하여 상기 사용자 인터페이스에 명령을 보내는 단계를 포함하는 실시 형태 1 기재의 시스템.

9. "편" 손 제스처와 "쥔" 손 제스처 간의 전이는 "선택" 또는 "쥐기" 명령이 상기 사용자 인터페이스에 보내지는지 여부를 결정하는데 사용되는 실시 형태 8 기재의 시스템.

10. 편 손 제스처의 트랙킹은 상기 사용자 인터페이스 상의 커서의 위치를 결정하는데 사용되는 실시 형태 9 기재의 시스템.

11. 장치 근처의 위치에서의 사용자의 손의 비디오 데이터를 캡처하는 센서; 상기 손의 캡처된 비디오 데이터를 처리하는 프로세서; 및 피부 색에 기초하여 상기 캡처된 비디오에서 각각의 손 영상을 분할하는 단계와; 분할된 상기 손 영상의 하나 이상의 파라미터를 추출하는 단계와; 상기 손 영상에서의 상기 하나 이상의 파라미터를 트랙킹하는 단계와; 상기 하나 이상의 파라미터에 기초하여 손 제스처를 "편" 또는 "쥔"으로 분류하는 단계와; 상기 손 제스처의 인식 및 상기 하나 이상의 파라미터의 트랙킹에 기초하여 상기 장치를 조작하는 단계를 수행하도록 상기 프로세서 상에서 실행가능한 프로그래밍을 포함하고, 상기 장치를 조작하는 단계는 상기 손 제스처의 인식에 기초하여 상기 사용자 인터페이스에 명령을 보내고 상기 하나 이상의 파라미터의 위치를 트랙킹하는 단계를 포함하는 디스플레이 상의 시각화를 위한 사용자 인터페이스를 갖는 장치의 원격 제어용 제스처 인식 시스템.

12. 상기 각각의 손 영상을 분할하는 단계는, 상기 손과 관련된 전경 영역을 상기 전경 영역을 둘러싸는 배경과 분리하는 단계; 상기 배경 영역 및 상기 전경 영역의 Cb 및 Cr 컬러 채널만을 포함하는 3 성분 혼합 모델을 트레이닝하는 단계; 및 하나 이상의 모션 및 피부색에 기초하여 영상 화소를 분류하는 단계를 포함하는 실시 형태 11 기재의 시스템.

13. 상기 하나 이상의 파라미터를 추출하는 단계는 상기 손의 추출된 윤곽 및 뼈대에 기초하여 상기 사용자의 손의 손바닥 중심 위치를 얻는 단계; 상기 손바닥 중심 위치에 기초하여 상기 손의 손바닥 아래 위치를 얻는 단계; 및 상기 손바닥 중심 위치와 추출된 영상 윤곽 위의 가장 먼 윤곽점 간의 거리를 측정하는 단계를 포함하고, 상기 가장 먼 윤곽점은 상기 손바닥 아래 위치 및 상기 손바닥 중심 위치를 지나는 벡터의 선정된 각도 범위 내에 있는 실시 형태 11 기재의 시스템.

14. 상기 하나 이상의 파라미터를 트랙킹하는 단계는 칼만 필터를 이용하여 상기 손바닥 중심 위치를 트랙킹하는 단계를 포함하는 실시 형태 13 기재의 시스템.

15. 상기 손 제스처를 "편" 또는 "쥔"으로 분류하는 단계는 상기 가장 먼 윤곽점까지의 거리를 임계값과 비교하는 단계; 상기 가장 먼 윤곽점까지의 거리가 상기 임계값보다 크면 상기 영상을 "편"으로 분류하는 단계; 및 상기 가장 먼 윤곽점지의 거리가 상기 임계값보다 작으면 상기 영상을 "쥔"으로 분류하는 단계를 포함하는 실시 형태 13 기재의 시스템.

16. "편" 손 제스처와 "쥔" 손 제스처 간의 전이는 "선택" 또는 "쥐기" 명령이 상기 사용자 인터페이스에 보내지는지 여부를 결정하는데 사용되는 실시 형태 15 기재의 시스템.

17. 편 손 제스처의 트랙킹은 상기 사용자 인터페이스 상의 커서의 위치를 결정하는데 사용되는 실시 형태 16 기재의 시스템.

18. 장치 근처의 위치에서의 사용자의 손의 비디오를 캡처하는 단계; 피부 색에 기초하여 상기 캡처된 비디오에서 각각의 손 영상을 분할하는 단계; 분할된 상기 손 영상의 하나 이상의 파라미터를 추출하는 단계; 상기 손 영상에서의 상기 하나 이상의 파라미터 중 적어도 하나를 트랙킹하는 단계; 상기 하나 이상의 파라미터에 기초하여 손 제스처를 "편" 또는 "쥔"으로 분류하는 단계; 상기 손 제스처의 인식 및 상기 하나 이상의 파라미터의 트랙킹에 기초하여 상기 장치를 조작하는 단계; 상기 손 제스처의 인식 및 상기 하나 이상의 파라미터의 트랙킹에 기초하여 상기 사용자 인터페이스에 명령을 보내는 단계; 및 상기 장치를 조작하기 위해 상기 보내진 명령을 상기 디스플레이 상에 출력하는 단계를 포함하는 디스플레이 상의 시각화를 위한 사용자 인터페이스를 갖는 장치를 손 제스처를 이용하여 원격 제어하는 방법.

19. 상기 하나 이상의 파라미터를 추출하는 단계는, 상기 손의 추출된 윤곽 및 뼈대에 기초하여 상기 사용자의 손의 손바닥 중심 위치를 얻는 단계; 상기 손바닥 중심 위치에 기초하여 상기 손의 손바닥 아래 위치를 얻는 단계; 및 상기 손바닥 중심 위치와 추출된 영상 윤곽 위의 가장 먼 윤곽점 간의 거리를 측정하는 단계를 포함하고, 상기 가장 먼 윤곽점은 상기 손바닥 아래 위치 및 상기 손바닥 중심 위치를 지나는 벡터의 선정된 각도 범위 내에 있고, 상기 손 제스처를 "편" 또는 "쥔"으로 분류하는 단계는, 상기 가장 먼 윤곽점까지의 거리를 임계값과 비교하는 단계; 상기 가장 먼 윤곽점까지의 거리가 상기 임계값보다 크면 상기 영상을 "편"으로 분류하는 단계; 및 상기 가장 먼 윤곽점까지의 거리가 상기 임계값보다 작으면 상기 영상을 "쥔"으로 분류하는 단계를 포함하는 실시 형태 18 기재의 방법.

20. "편" 손 제스처와 "쥔" 손 제스처 간의 전이는 "선택" 또는 "쥐기" 명령이 상기 사용자 인터페이스에 보내지는지 여부를 결정하는데 사용되고, 편 손 제스처의 손바닥 중심의 트랙킹은 상기 사용자 인터페이스 상의 커서의 위치를 결정하는데 사용되는 실시 형태 19 기재의 방법.

상기 설명이 많은 상세를 포함하지만, 이들은 본 발명의 제시된 양호한 실시 형태들의 일부의 도시를 단지 제공하는 것으로서 본 발명의 범위를 제한하는 것으로 해석되지 않는다. 그러므로, 본 발명의 범위는 본 기술 분야에 통상의 지식을 가진 자에게는 분명한 다른 실시 형태들을 모두 포함하고, 본 발명의 범위는 그에 따라 첨부된 청구 범위 이외의 것으로 제한받지 않으며, 단수로 표현된 소자는 달리 명시적으로 언급이 없는 한 "하나 및 단지 하나"를 의미하는 것이 아니고, 오히려 "하나 이상"을 의미하고자 하는 것이다. 본 기술 분야에 통상의 지식을 가진 자에게 공지된 상술한 양호한 실시 형태들의 소자와 동등한 모든 구조적, 화학적 및 기능적 등가물은 여기에 분명히 참고로 병합되는 것이고 제시된 청구 범위에 의해 포함되고자 하는 것이다. 더구나, 장치 또는 방법이 본 발명에 의해 해결하고자 하는 모든 문제를 다루는데 필요한 것은 아니며 제시된 청구 범위에 의해 포함되는 것으로 한다. 또한, 본 개시물의 어떠한 요소, 구성요소, 또는 방법 단계도 그 요소, 구성요소, 또는 방법 단계가 청구 범위에 명시적으로 기재되었는지 여부에 관계없이 대중에게 헌납하려는 의도는 아니다. 본 명세서의 어떠한 청구 요소도, 해당 요소가 "~을 위한 수단"이란 문구를 이용하여 명확히 기재되어 있지 않는 한, 특허법(35 U.S.C. 112)의 조항에 따른 것으로 이해해서는 안 된다.

Claims

장치의 원격 제어용 제스처 인식 시스템으로서,
(a) 상기 장치 근처의 위치에서의 사용자의 손의 비디오 데이터를 캡처하는 센서;
(b) 상기 손의 캡처된 비디오 데이터를 처리하는 프로세서; 및
(c) 피부 색에 기초하여 상기 캡처된 비디오에서 각각의 손 영상을 분할하는(segmenting) 단계와;
분할된 상기 손 영상의 하나 이상의 파라미터를 추출하는 단계와;
상기 손 영상에서의 상기 하나 이상의 파라미터를 트랙킹하는 단계와;
상기 하나 이상의 파라미터에 기초하여 손 제스처를 "편(open)" 또는 "쥔(closed)"으로 분류하는 단계와;
상기 손 제스처의 인식 및 상기 하나 이상의 파라미터의 위치를 트랙킹하는 것에 기초하여 상기 장치를 조작하는 단계를 수행하도록 상기 프로세서 상에서 실행가능한 프로그래밍을 포함하는, 장치의 원격 제어용 제스처 인식 시스템.
제1항에 있어서, 상기 각각의 손 영상을 분할하는 단계는,
상기 손과 관련된 전경(foreground) 영역을 상기 전경 영역을 둘러싸는 배경과 분리하는 단계;
상기 배경 영역 및 상기 전경 영역의 3 성분 혼합 모델을 트레이닝하는 단계; 및
하나 이상의 모션 및 피부색에 기초하여 상기 영상 화소를 분류하는 단계
를 포함하는, 장치의 원격 제어용 제스처 인식 시스템.
제1항에 있어서, 상기 영상은 Cb 및 Cr 컬러 채널만을 이용하여 분할되는, 장치의 원격 제어용 제스처 인식 시스템.
제1항에 있어서, 상기 하나 이상의 파라미터를 추출하는 단계는,
상기 손의 추출된 윤곽 및 뼈대에 기초하여 상기 사용자의 손의 손바닥 중심 위치를 얻는 단계를 포함하는, 장치의 원격 제어용 제스처 인식 시스템.
제4항에 있어서, 상기 하나 이상의 파라미터를 트랙킹하는 단계는 칼만 필터(Kalman filter)를 이용하여 상기 손바닥 중심 위치를 트랙킹하는 단계를 포함하는, 장치의 원격 제어용 제스처 인식 시스템.
제4항에 있어서,
상기 하나 이상의 파라미터를 추출하는 단계는,
손바닥 아래 위치를 얻는 단계; 및
상기 손바닥 중심 위치와 추출된 영상 윤곽 위의 가장 먼 윤곽점 간의 거리를 측정하는 단계를 더 포함하고,
상기 가장 먼 윤곽점은 상기 손바닥 아래 위치 및 상기 손바닥 중심 위치를 지나는 벡터의 선정된 각도 범위 내에 있는, 장치의 원격 제어용 제스처 인식 시스템.
제6항에 있어서,
상기 손 제스처를 "편" 또는 "쥔"으로 분류하는 단계는,
상기 가장 먼 윤곽점까지의 거리를 임계값과 비교하는 단계;
상기 가장 먼 윤곽점까지의 거리가 상기 임계값보다 크면 상기 영상을 "편"으로 분류하는 단계; 및
상기 가장 먼 윤곽점까지의 거리가 상기 임계값보다 작으면 상기 영상을 "쥔"으로 분류하는 단계
를 포함하는, 장치의 원격 제어용 제스처 인식 시스템.
제1항에 있어서,
상기 장치는 디스플레이에 결합된 사용자 인터페이스를 포함하고, 상기 사용자 인터페이스는 상기 디스플레이 상에 출력되고,
상기 장치를 조작하는 단계는 상기 손 제스처의 인식 및 상기 하나 이상의 파라미터의 트랙킹에 기초하여 상기 사용자 인터페이스에 명령을 보내는 단계를 포함하는, 장치의 원격 제어용 제스처 인식 시스템.
제8항에 있어서, "편" 손 제스처와 "쥔" 손 제스처 간의 전이(transition)는 "선택" 또는 "쥐기" 명령이 상기 사용자 인터페이스에 보내지는지 여부를 결정하는데 사용되는, 장치의 원격 제어용 제스처 인식 시스템.
제9항에 있어서, 편 손 제스처의 트랙킹은 상기 사용자 인터페이스 상의 커서의 위치를 결정하는데 사용되는, 장치의 원격 제어용 제스처 인식 시스템.
디스플레이 상의 시각화를 위한 사용자 인터페이스를 갖는 장치의 원격 제어용 제스처 인식 시스템으로서,
(a) 상기 장치 근처의 위치에서의 사용자의 손의 비디오 데이터를 캡처하는 센서;
(b) 상기 손의 캡처된 비디오 데이터를 처리하는 프로세서; 및
(c) 피부 색에 기초하여 상기 캡처된 비디오에서 각각의 손 영상을 분할하는 단계와;
분할된 상기 손 영상의 하나 이상의 파라미터를 추출하는 단계와;
상기 손 영상에서의 상기 하나 이상의 파라미터를 트랙킹하는 단계와;
상기 하나 이상의 파라미터에 기초하여 손 제스처를 "편" 또는 "쥔"으로 분류하는 단계와;
상기 손 제스처의 인식 및 상기 하나 이상의 파라미터의 트랙킹에 기초하여 상기 장치를 조작하는 단계
를 수행하도록 상기 프로세서 상에서 실행가능한 프로그래밍을 포함하고,
상기 장치를 조작하는 단계는 상기 손 제스처의 인식에 기초하여 상기 사용자 인터페이스에 명령을 보내고 상기 하나 이상의 파라미터의 위치를 트랙킹하는 단계를 포함하는, 장치의 원격 제어용 제스처 인식 시스템.
제11항에 있어서,
상기 각각의 손 영상을 분할하는 단계는,
상기 손과 관련된 전경 영역을 상기 전경 영역을 둘러싸는 배경과 분리하는 단계;
상기 배경 영역 및 상기 전경 영역의 Cb 및 Cr 컬러 채널만을 포함하는 3 성분 혼합 모델을 트레이닝하는 단계; 및
하나 이상의 모션 및 피부색에 기초하여 영상 화소를 분류하는 단계
를 포함하는, 장치의 원격 제어용 제스처 인식 시스템.
제11항에 있어서,
상기 하나 이상의 파라미터를 추출하는 단계는,
상기 손의 추출된 윤곽 및 뼈대에 기초하여 상기 사용자의 손의 손바닥 중심 위치를 얻는 단계;
상기 손바닥 중심 위치에 기초하여 상기 손의 손바닥 아래 위치를 얻는 단계; 및
상기 손바닥 중심 위치와 추출된 영상 윤곽 위의 가장 먼 윤곽점 간의 거리를 측정하는 단계를 포함하고,
상기 가장 먼 윤곽점은 상기 손바닥 아래 위치 및 상기 손바닥 중심 위치를 지나는 벡터의 선정된 각도 범위 내에 있는, 장치의 원격 제어용 제스처 인식 시스템.
제13항에 있어서, 상기 하나 이상의 파라미터를 트랙킹하는 단계는 칼만 필터를 이용하여 상기 손바닥 중심 위치를 트랙킹하는 단계를 포함하는, 장치의 원격 제어용 제스처 인식 시스템.
제13항에 있어서,
상기 손 제스처를 "편" 또는 "쥔"으로 분류하는 단계는,
상기 가장 먼 윤곽점까지의 거리를 임계값과 비교하는 단계;
상기 가장 먼 윤곽점까지의 거리가 상기 임계값보다 크면 상기 영상을 "편"으로 분류하는 단계; 및
상기 가장 먼 윤곽점까지의 거리가 상기 임계값보다 작으면 상기 영상을 "쥔"으로 분류하는 단계
를 포함하는, 장치의 원격 제어용 제스처 인식 시스템.
제15항에 있어서, "편" 손 제스처와 "쥔" 손 제스처 간의 전이는 "선택" 또는 "쥐기" 명령이 상기 사용자 인터페이스에 보내지는지 여부를 결정하는데 사용되는, 장치의 원격 제어용 제스처 인식 시스템.
제16항에 있어서, 편 손 제스처의 트랙킹은 상기 사용자 인터페이스 상의 커서의 위치를 결정하는데 사용되는, 장치의 원격 제어용 제스처 인식 시스템.
디스플레이 상의 시각화를 위한 사용자 인터페이스를 갖는 장치를 손 제스처를 이용하여 원격 제어하는 방법으로서,
상기 장치 근처의 위치에서의 사용자의 손의 비디오를 캡처하는 단계;
피부 색에 기초하여 상기 캡처된 비디오에서 각각의 손 영상을 분할하는 단계;
분할된 상기 손 영상의 하나 이상의 파라미터를 추출하는 단계;
상기 손 영상에서의 상기 하나 이상의 파라미터 중 적어도 하나를 트랙킹하는 단계;
상기 하나 이상의 파라미터에 기초하여 손 제스처를 "편" 또는 "쥔"으로 분류하는 단계;
상기 손 제스처의 인식 및 상기 하나 이상의 파라미터의 트랙킹에 기초하여 상기 장치를 조작하는 단계;
상기 손 제스처의 인식 및 상기 하나 이상의 파라미터의 트랙킹에 기초하여 상기 사용자 인터페이스에 명령을 보내는 단계; 및
상기 장치를 조작하기 위해 상기 보내진 명령을 상기 디스플레이 상에 출력하는 단계
를 포함하는, 디스플레이 상의 시각화를 위한 사용자 인터페이스를 갖는 장치를 손 제스처를 이용하여 원격 제어하는 방법.
제18항에 있어서,
상기 하나 이상의 파라미터를 추출하는 단계는,
상기 손의 추출된 윤곽 및 뼈대에 기초하여 상기 사용자의 손의 손바닥 중심 위치를 얻는 단계;
상기 손바닥 중심 위치에 기초하여 상기 손의 손바닥 아래 위치를 얻는 단계; 및
상기 손바닥 중심 위치와 추출된 영상 윤곽 위의 가장 먼 윤곽점 간의 거리를 측정하는 단계를 포함하고,
상기 가장 먼 윤곽점은 상기 손바닥 아래 위치 및 상기 손바닥 중심 위치를 지나는 벡터의 선정된 각도 범위 내에 있고,
상기 손 제스처를 "편" 또는 "쥔"으로 분류하는 단계는,
상기 가장 먼 윤곽점까지의 거리를 임계값과 비교하는 단계;
상기 가장 먼 윤곽점까지의 거리가 상기 임계값보다 크면 상기 영상을 "편"으로 분류하는 단계; 및
상기 가장 먼 윤곽점까지의 거리가 상기 임계값보다 작으면 상기 영상을 "쥔"으로 분류하는 단계를 포함하는, 디스플레이 상의 시각화를 위한 사용자 인터페이스를 갖는 장치를 손 제스처를 이용하여 원격 제어하는 방법.
제19항에 있어서,
"편" 손 제스처와 "쥔" 손 제스처 간의 전이는 "선택" 또는 "쥐기" 명령이 상기 사용자 인터페이스에 보내지는지 여부를 결정하는데 사용되고,
편 손 제스처의 손바닥 중심의 트랙킹은 상기 사용자 인터페이스 상의 커서의 위치를 결정하는데 사용되는, 디스플레이 상의 시각화를 위한 사용자 인터페이스를 갖는 장치를 손 제스처를 이용하여 원격 제어하는 방법.