KR20160129000A

KR20160129000A - 모바일 디바이스를 위한 실시간 3d 제스처 인식 및 트랙킹 시스템

Info

Publication number: KR20160129000A
Application number: KR1020167021301A
Authority: KR
Inventors: 샤루즈 유세피; 하이보 리; 콘도리 파리드 아베단
Original assignee: 마노모션 에이비
Priority date: 2014-01-05
Filing date: 2014-12-22
Publication date: 2016-11-08
Also published as: US10108270B2; WO2015102527A1; JP6571108B2; KR102285915B1; JP2017505965A; EP3090382A1; CN106030610B; US20160334877A1; CN106030610A; EP3090382B1

Abstract

본 개시는 3D 제스처를 인식하기 위한 디바이스 및 방법에 관한 것이다. 본 디바이스는 센서에 접속되고, 정규화된 제스처 이미지의 인덱싱 가능 피쳐를 포함하는 제스처 이미지의 데이터베이스에 대한 액세스를 갖는다. 인덱싱 가능 피쳐는 정규화된 제스처 이미지의 에지 이미지의 각 픽셀에 대한 위치 및 방향을 포함한다. 본 방법은 센서를 통해 3D 제스처의 이미지를 캡쳐하는 단계(110), 캡쳐된 이미지를 정규화하는 단계(120), 정규화된 캡쳐된 이미지로부터 인덱싱 가능 피쳐를 도출하는 단계(130), 및 유사성 기능을 사용하여 데이터베이스의 인덱싱 가능 피쳐와 도출된 인덱싱 가능 피쳐를 비교하는 단계를 포함한다. 또한, 본 방법은 비교에 기초하여 3D 제스처에 매칭하는 데이터베이스 내의 제스처 이미지를 결정하는 단계(150)를 포함한다.

Description

모바일 디바이스를 위한 실시간 3D 제스처 인식 및 트랙킹 시스템{REAL-TIME 3D GESTURE RECOGNITION AND TRACKING SYSTEM FOR MOBILE DEVICES}

본 개시는 제스처 인식에 관한 것으로, 더욱 구체적으로는 3D 제스처를 인식하기 위한 디바이스 및 방법에 관한 것이다.

인간의 손은 27 자유도(DoF)를 갖는다: 각 손가락에서 4, 신장 및 굽힘에 대해 3 및 외전 및 내전에 대해 1; 엄지 손가락은 더욱 복잡하며 5 DOF를 갖고, 손목의 회전 및 병진에 대해 6 DOF를 남긴다. 비디오 시퀀스에서의 손 및 손가락 모션을 캡쳐하는 것은 손 운동의 큰 수의 DoF로 인해 매우 어려운 작업이다. 이러한 프로세스는 한정된 전력 및 고비용의 연산으로 인해 핸드-헬드 스마트 디바이스에 대해서 훨씬 더 복잡하다.

기본적으로, 통상의 기존 해결책은 도 1에 나타낸 스텝을 따른다. 센서/들에 의해 캡쳐된 조회 이미지 시퀀스는 사용자 손/손가락을 분할하기 위해 분석될 것이다. 백그라운드 제거, 분류, 피쳐 검출 등과 같은 이미지 분석 알고리즘이 손/손가락을 검출하기 위해 이용된다. 실제로, 손 트랙킹 및 제스처 인식의 기존 알고리즘은 2개의 카테고리로 그룹핑될 수 있다: 외관 기반 접근법 및 3D 손 모델 기반 접근법(US201005315A1, US2010159981A, WO2012135545A1 및 US2012062558A1). 전자는 2D 이미지 피쳐와 손 제스처의 직접 비교에 기초한다. 인간의 제스처를 검출하는 데 사용되는 인기 있는 이미지 피쳐는 손 컬러 및 형태, 국부적인 손 피쳐 등을 포함한다. 피쳐 기반 접근법의 단점은, 깨끗한 이미지 분할이 일반적으로 손 피쳐를 추출하기 위해 필요하다는 것이다. 이것은 예를 들어 백그라운드가 혼란할 때에는 사소한 작업이 아니다. 또한, 인간의 손은 매우 분절적이다. 종종 자기 폐색으로 인해 국부적인 손의 피쳐를 발견하는 것이 어렵고, 몇몇 종류의 발견적 학습법이 매우 다양한 손 제스처를 다루기 위해 필요하다. 손을 직접 표현하기 위해 2D 이미지 피쳐를 채용하는 대신, 3D 손 모델 기반 접근법은 손의 포즈를 렌더링하기 위해 3D 운동학적 손 모델을 사용한다. 합성에 의한 분석(ABS) 전략은 카메라로부터 관측된 이미지와 3D 손 모델에 의해 투영된 외관을 정렬함으로써 손 모션 파라미터를 복구하기 위해 채용된다. 일반적으로, 더욱 단순한 2D 이미지 피쳐의 사실로 인해 외관 기반 접근법으로 실시간 수행을 달성하는 것이 더욱 쉽다. 하지만, 이러한 유형의 접근법은 손가락 끝의 검출 및 트랙킹과 같이 단순한 손 제스처를 다룰 수 있을 뿐이다. 반대로, 3D 손 모델 기반 접근법은 광범위한 클래스의 손 제스처를 잠재적으로 허용하는 풍부한 묘사를 제공한다. 주요한 어려운 문제점은, 3D 손이 복잡한 27 DoF 변형 가능 모델이라는 것이다. 상이한 뷰 아래에서 모든 특징적인 손 이미지를 커버하기 위해서, 매우 많은 데이터베이스가 이에 따라 필요하다. 비디오 입력으로부터의 조회 이미지와 데이터베이스 내의 모든 손 이미지를 매칭하는 것은 시간 소모적이고 연산적으로 고비용이다. 이것이, 대부분의 기존의 3D 손 모델 기반 접근법이 제한된 조명 및 백그라운드 조건을 갖는 글로벌 손 모션을 위한 실시간 트랙킹에 초점을 맞추는 이유이다.

상술한 문제점의 일부를 다루고, 연산적으로 효율적인 실시간 제스처 인식을 위한 해결책을 제공하는 것이 목적이다. 이러한 목적 및 다른 목적은 독립항에 따른 방법 및 디바이스와, 종속항에 따른 실시예에 따라 달성된다.

제1 양태에 따르면, 3D 제스처를 인식하기 위한 방법이 제공된다. 본 방법은 제스처 이미지의 데이터베이스에 대한 액세스를 갖는 디바이스에서 수행된다. 본 디바이스는 3D 제스처의 이미지를 캡쳐하도록 구성된 센서와 통신한다. 제스처 이미지의 데이터베이스는 정규화된 제스처 이미지의 인덱싱 가능 피쳐를 포함한다. 인덱싱 가능 피쳐는 정규화된 제스처 이미지의 에지 이미지의 각 픽셀에 대한 위치 및 방향을 포함한다. 본 방법은 센서를 통해 3D 제스처의 이미지를 캡쳐하는 단계와, 데이터베이스의 정규화된 제스처 이미지에 따라 캡쳐된 이미지를 정규화하는 단계를 포함한다. 또한, 본 방법은 정규화된 캡쳐된 이미지로부터 인덱싱 가능 피쳐를 도출하는 단계를 포함한다. 인덱싱 가능 피쳐는 정규화된 캡쳐된 이미지의 에지 이미지의 각 픽셀에 대한 위치 및 방향을 포함한다. 또한, 본 방법은 유사성 기능을 사용하여 데이터베이스의 인덱싱 가능 피쳐와 도출된 인덱싱 가능 피쳐를 비교하는 단계 및 비교에 기초하여 3D 제스처에 매칭하는 데이터베이스 내의 제스처 이미지를 결정하는 단계를 포함한다.

제2 양태에 따르면, 3D 제스처를 인식하기 위한 디바이스가 제공된다. 디바이스는 정규화된 제스처 이미지의 인덱싱 가능 피쳐를 포함하는 제스처 이미지의 데이터베이스에 대한 액세스를 갖도록 구성된다. 인덱싱 가능 피쳐는 정규화된 제스처 이미지의 에지 이미지의 각 픽셀에 대한 위치 및 방향을 포함한다. 디바이스는 3D 제스처의 이미지를 캡쳐하도록 구성된 센서에 접속 가능하다. 디바이스는 프로세싱 유닛을 포함한다. 프로세싱 유닛은 센서를 통해 3D 제스처의 이미지를 캡쳐하고, 데이터베이스의 정규화된 제스처 이미지에 따라 캡쳐된 이미지를 정규화하고, 정규화된 캡쳐된 이미지로부터 인덱싱 가능 피쳐를 도출하도록 구성된다. 인덱싱 가능 피쳐는 정규화된 캡쳐된 이미지의 에지 이미지의 각 픽셀에 대한 위치 및 방향을 포함한다. 프로세싱 유닛은 또한 유사성 기능을 사용하여 데이터베이스의 인덱싱 가능 피쳐와 도출된 인덱싱 가능 피쳐를 비교하도록 구성된다. 프로세싱 유닛은 또한 비교에 기초하여 3D 제스처에 매칭하는 데이터베이스 내의 제스처 이미지를 결정하도록 구성된다.

실시예들의 이점은, 높은 해상도의 제스처 인식이 보다 적은 연산적 리소스로 실시간으로 가능하게 된다는 것이다.

실시예들의 다른 목적, 이점 및 특징을 첨부 도면 및 청구항과 연계하여 고려되는 후술하는 상세한 설명에서 설명할 것이다.

도 1은 종래 기술에 따른 제스처 트랙킹 및 인식을 위한 방법을 개략적으로 나타내는 흐름도이다.
도 2a는 본 발명의 실시예에 따른, 모바일 플랫폼에서의 3D 사용자 인터페이스 시스템의 개략적이고 도시적인 표현이다.
도 2b는 본 발명의 실시예에 따른, 웨어러블 디바이스를 채용하는 3D 사용자 인터페이스의 개략적이고 도시적인 표현이다.
도 2c는 본 발명의 실시예에 따른, 고정형 플랫폼에서의 3D 사용자 인터페이스의 개략적이고 도시적인 표현이다.
도 3은 본 발명의 실시예에 따른 방법 및 시스템을 개략적으로 나타낸다.
도 4는 본 발명의 실시예에 따른, 데이터베이스에 제스처 엔트리를 저장하기 위한 방법을 개략적으로 나타내는 흐름도이다.
도 5는 본 발명의 실시예에 따른, 제스처 엔트리를 검색하고 조회 입력에 대한 매치를 발견하기 위한 방법을 개략적으로 나타내는 흐름도이다.
도 6은 본 발명의 실시예에 따른, 이미지 조회 프로세싱을 위한 방법을 개략적으로 나타내는 흐름도이다.
도 7은 본 발명의 실시예에 따른, 인터페이스 레벨을 위한 방법을 개략적으로 나타낸다.
도 8은 실시예에 따른, 도 2a에 나타낸 모바일 디바이스(20)를 개략적으로 나타낸다.
도 9는 실시예에 따른, 도 2b에 나타낸 웨어러블 디바이스(20)를 개략적으로 나타낸다.
도 10은 실시예에 따른, 도 2c에 나타낸 고정형 디바이스(20)를 개략적으로 나타낸다.
도 11a 및 11b는 실시예에 따른, 디바이스에 의해 수행되는 방법을 개략적으로 나타낸다.
도 12는 실시예에 따른 디바이스를 개략적으로 나타낸다.

[개관]

3D 제스처 인식은 인간과 장래의 모바일 디바이스 사이의 상호작용 설계에서 매우 요망되는 특징이다. 구체적으로, 가상 또는 증강 현실 환경에서, 물리적 세계와의 직관적 상호작용은 피할 수 없는 것으로 보이고, 3D 제스처 상호작용은 트랙 패드 및 터치스크린과 같은 현재의 입력 장치에 대한 가장 효과적인 대안이 될 수 있다. 본 발명의 실시예에서, 3D 제스처 인식 및 트랙킹을 위한 해결책이 제공된다. 제안된 방법 및 시스템은 극도로 많은 제스처 데이터베이스에서의 매치 발견에 기초한다. 이러한 데이터베이스는 회전 및 포지셔닝에서의 모든 가능한 변화를 갖는 다양한 유형의 손 제스처의 캡쳐된 엔트리와 대응하는 위치/방향 파라미터를 포함한다. 조회 입력과 데이터베이스 엔트리 사이의 속성의 유사성 분석이 수행된다. 시스템은 데이터베이스 엔트리와 취득된 조회 입력에 대한 주석 달린 정보를 포함하는 매치를 검색한다.

매우 많은 전력, 연산 및 메모리를 필요로 하는 전통적인 컴퓨터 비전 접근법과 달리, 새로운 프레임워크는 동일한 문제를 해결하지만 완전히 상이한 접근법을 사용하는 것으로 정의된다. 제안되는 기술은 예를 들어, 대규모 검색 프레임워크를 갖는 높은 DoF 손 모션의 복잡도를 다룰 수 있지만, 현재의 기술은 낮은 해상도의 제스처 인식 및 트랙킹으로 제한된다.

일반적인 모바일 디바이스 어플리케이션에 있어서, 전체 범위의 손/신체 제스처가 커버될 필요가 있다. 인간 제스처의 고차원 공간에서의 어렵고 철저한 검색 문제를 다루기 위해, 제스처 이미지에 대한 대규모 검색을 위한 효율적인 인덱싱 알고리즘이 제안된다. 개시된 시스템의 이점은, 잡음 및 혼란이 존재할 때 다양한 조명 조건에서 높은 DoF 손 모션을 다룰 수 있는 매우 많은 데이터베이스 이미지에 대한 매우 빠른 검색이다. 이러한 해결책은 실시간, 낮은 복잡도와 강인성뿐만 아니라 높은 해상도 트랙킹 및 정밀도와 같은, 모바일 어플리케이션에 대한 특수 요건에 적응된다.

본 발명의 실시예에 따르면, 모바일 카메라, 웹 캠, 깊이 센서 또는 초음파 센서와 같은 비전 센서 또는 다른 유형의 센서가 장착된 임의의 모바일, 웨어러블 또는 고정형 디바이스가 예를 들어, 3D 공간에서의 손, 머리 또는 신체 제스처인 인간의 제스처를 결정 또는 인식하기 위해 인에이블링된다. 제스처 트랙킹은 조회 입력의 시퀀스에서 결정되거나 인식된 제스처를 사용하여 수행된다. 인식 및 트랙킹은 주석 달린 제스처 엔트리의 매우 큰 데이터베이스(DB)에서의 향상된 검색 시스템 검색에 기초한다. 데이터베이스는 수백만 엔트리에 대응할 수 있는, 3D 공간에서의 모든 변형 및 변화를 갖는 모든 가능한 손 제스처를 포함한다. 각 순간에, 임의의 조회 제스처에 대해, 제안된 시스템은 데이터베이스를 통해 자동으로 검색하고 최적의 매치를 검색한다. 이것은 실시간 3D 제스처 트랙킹으로 귀결될 것이다. 이 기술은, 직관적인 3D 상호작용이 사용될 수 있는 실시간 어플리케이션에서 사용자-디바이스 상호작용을 편리하게 한다. 본 발명의 실시예는 스마트폰과 증강 현실 글래스와 같은 모바일/웨어러블 디바이스에 대한 상호작용을 지원하도록 설계된다. 또한, 고정형, 모바일 및 다른 디지털 디바이스에 대해서도 사용될 수 있다.

도 3은 스마트폰, 모바일 디바이스, 웨어러블 스마트 디바이스, 고정형 시스템 및 디지털 장비에 적용 가능한 방법 및 시스템을 포함하는, 본 발명의 실시예를 나타낸다. 이는 4개의 메인 컴포넌트를 포함한다: 사전 프로세싱되고 주석이 달리고 인덱싱된 제스처 데이터베이스(50), 조회 제스처를 수신하는 이미지 조회 프로세싱 유닛(30), 조회 제스처를 수신하고, 제스처의 데이터베이스로부터 최적의 매치를 자동으로 검색하는 실시간 제스처 검색 엔진(70), 그리고 마지막으로 검색 엔진의 출력을 수신하고 이를 진행 중인 어플리케이션에 적용하는 인터페이스 레벨(90). 필요한 하드웨어 플랫폼은 임의의 디지털 디바이스이다.

[시스템 설명]

도 2a는 본 발명의 실시예에 따른 3D 사용자 인터페이스 시스템(200A)의 개략적인 표현이다. 사용자 인터페이스는 예를 들어, 인간 사용자(10)의 손, 머리 또는 신체 제스처인 제스처(32)를 포함하는, 디바이스(20)의 뒤의, 앞의 및/또는 주위의 3D 장면 정보를 캡쳐하는, 임의의 유형의 센서/들(34)(예를 들어, 2D/3D 카메라, 초음파, 3D 깊이 카메라, IR 카메라)를 장착한 임의의 종류의 스마트 디바이스(20)(모바일, 고정형, 웨어러블 등)에 기초한다. 제스처(32)(손/머리/신체 제스처)를 검출/인식하기 위하여, 스마트 디바이스(20)는 제스처(32)(손/머리/신체 제스처)와 그 특정 위치 및 방향이 추출될 수 있도록 충분한 해상도를 갖는 제스처 이미지를 캡쳐한다. 위치는 이미지 플러스 제스처 스케일에서(z에서의 센서로부터의 거리) 제스처 중심(x,y)의 공간 좌표를 나타내고, 방향은 센서의 3D 좌표(x,y,z)에 대한 손 제스처의 상대적인 방향이다. 제스처(32)(손/머리/신체 제스처)에 추가하여, 캡쳐된 이미지 또는 조회 이미지(33)는 통상적으로 다른 신체 부분 및/또는 혼란스러운 백그라운드를 포함한다.

도 2a에서, 시스템(200A)은 사용자의 제스처(32)(손/머리/신체 제스처)를 포함하는 조회 이미지(33)의 시퀀스를 캡쳐 및 프로세싱한다. 사용자(10)가 제스처(32)(손/머리/신체 제스처)를 행하는 중에, 시스템(200A)은 조회 이미지(33)의 시퀀스에서 사용자의 제스처(32)(손/머리/신체 제스처)를 트랙킹한다. 디바이스(20) 내의 프로세싱 유닛(24) 및/또는 캡쳐 센서(34) 상에서 실행되는 소프트웨어는 여기에서 상세하게 후술하는 바와 같이, 각 조회 이미지(33)에서 사용자 제스처(32)의 인덱싱 가능한 피쳐(36)를 검색하기 위해 이미지 시퀀스를 프로세싱한다. 여기에서 상세하게 후술하는 바와 같이, 조회 이미지(33)에 대한 최적의 매치를 발견하기 위해 소프트웨어는 추출된 인덱싱 가능한 피쳐(36)를 인덱싱된 피쳐의 대규모 어휘 테이블(72)에 매칭한다. 대규모 어휘 테이블은 데이터베이스 이미지로부터의 인덱싱 가능한 피쳐의 대규모 매트릭스이다.

데이터베이스(52)는 손 제스처의 수백만 이미지로 이루어진다. 손 제스처 이미지는 여기에서 상세히 후술하는 바와 같이, 특정 3D 모션 파라미터(3개의 위치 및 3개의 방향 파라미터)로 주석이 달린다. 조회 입력(33)에 대한 데이터베이스(52)에서의 최적의 손 제스처 이미지 발견은 조회 입력(33)의 3D 모션 파라미터를 제공한다.

또한, 도 5에 나타내어진 방법은 여기에서 후술하는 바와 같이, 검색 프로세스를 최적화하고 속도를 올리기 위해서 시퀀스 내의 복수의 프레임 상에서 제스처 맵을 분석한다(73).

또한, 시스템은 조회 입력(33)의 시퀀스 상에서 사용자 제스처(32)를 트랙킹하는 모션 트랙킹 기능을 포함할 수 있어, 도 5에 나타내어진 방법은 매 2(또는 그 이상) 프레임에 한번만 선택적으로 수행될 수 있다.

검출/인식된 출력/들(액션/제스처/3D 모션, 주석 달린 이미지,...)(92)은 어플리케이션 프로그래밍 인터페이스(API)를 통해 디바이스(20) 상에서 실행되는 어플리케이션 프로그램에 제공된다. 이러한 프로그램은 예를 들어, 수행된 제스처/들(32)에 응답하여 디스플레이(100) 상에 표현되는 이미지, 3D 객체 또는 다른 2D/3D 비주얼 컨텐츠(94)를 이동 및 수정할 수 있다.

대안으로써, 이러한 프로세싱 기능의 전부 또는 일부는, 게임 콘솔, 미디어 플레이어, 스마트 TV 등과 같은 임의의 다른 컴퓨터화된 디바이스와 통합되는 적절한 프로세서에 의해 수행될 수 있다. 캡쳐 센서(34)(2D/3D 카메라, IR 센서, 초음파 등), 저장 유닛(22) 및 프로세싱 유닛(24)에 의해 장착된 임의의 컴퓨터화된 장치는 보다 양호한 사용자 인터페이스 시스템을 제공하기 위해 적어도 상술한 기능의 일부를 이용할 수 있다.

[제스처 이미지의 데이터베이스 제공]

도 4는 주석이 달린 제스터 이미지(52)의 데이터베이스의 인덱싱 가능한 피쳐(54)를 형성하기 위한 방법(50)의 도면이다. 데이터베이스는 방향, 포지셔닝 및 스케일링에서의 모든 잠재적인 변화를 갖는 손 제스처 엔트리의 대형 세트의 상이한 리얼 이미지(56)를 포함한다. 또한, 이는 알려진 위치 및 방향 파라미터를 갖는 3D 분절성 손 모델/3D 그래픽 모델 등에 의해 합성된 모든 손 제스처 그래픽(57)을 포함할 수 있다.

조회 입력(33)과 데이터베이스 사이의 매칭 외에, 달성하려고 하는 하나의 중요한 피쳐는 조회 입력(33)으로부터 3D 모션 파라미터(3차원에 대응하는 3개의 위치와 3개의 방향 파라미터)를 검색하는 것이다. 조회 입력(33)이 3D 모션 파라미터(3개의 방향과 3개의 위치 파라미터)를 포함하지 않으므로, 최적의 해결책은 조회 입력(33)의 3D 모션 파라미터(3개의 방향과 3개의 위치 파라미터)를 데이터베이스로부터의 최적의 검색된 매치에 연관시키는 것이다. 이러한 이유로, 데이터베이스 엔트리는 그 실측 자료 3D 모션 파라미터(3개의 방향과 3개의 위치 파라미터)(58)로 태깅된다. 이는 비전 기반 시스템, 자기 센서, IMU 등과 같은 임의의 모션 캡쳐 시스템에 의해 수행될 수 있다. 또한, 제스처 엔트리의 다른 소스(59)도 데이터베이스를 확장하기 위해 사용되고 있다. 손 제스처 이미지에 3D 모션 파라미터(3개의 방향과 3개의 위치 파라미터)를 태깅하여, 주석 달린 제스처 이미지의 데이터베이스(52)가 형성된다. 주석 달린 제스처 이미지의 데이터베이스(52)의 각 엔트리는 순수한 제스처 엔트리(백그라운드 및 노이즈 없음)를 나타낸다. 본 방법(50)은 주석 달린 제스처 이미지의 데이터베이스(52) 내의 각 엔트리의 인덱싱 가능한 피쳐(54)를 추출한다. 인덱싱 가능한 피쳐(54)는 주석 달린 제스처 이미지의 데이터베이스(52) 내의 엔트리로부터 도출된 에지 픽셀의 정확한 위치 및 방향을 포함하는 로우 레벨 에지 방향 속성을 포함한다. 각 단일 에지 픽셀이 2D 이미지 좌표 상의 작은 라인으로서 고려된다면, 에지 픽셀의 방향은 이미지 좌표의 원점에 대한 이 작은 라인의 각도이다. 기술적으로, 이는 x 및 y 방향에 대해 이미지의 기울기로부터 연산될 수 있다.

인덱싱 가능한 피쳐(54)를 추출하기 위해, 주석 달린 제스처 이미지의 데이터베이스(52) 내의 모든 엔트리는 정규화될 것이고, 그 대응하는 에지 이미지가 연산된다. 에지 이미지는 제스처 이미지를 필터링함으로써 연산될 수 있다. 상이한 에지 검출기가 컴퓨터 비전 분야에 알려져 있고 또한 사용될 수 있다. 각 단일 에지 픽셀은 그 위치 및 방향에 의해 표현될 것이다. 로우 레벨 에지 방향 피쳐에 대한 글로벌 구조를 만들기 위해, 대규모 어휘 테이블(72)이, 각 에지 피쳐가 발생할 수 있는 모든 가능한 경우를 표현하기 위해 형성된다. 에지의 위치 및 방향에 대한 전체 데이터베이스를 고려하여, 대규모 어휘 테이블(72)이 에지 픽셀 포맷의 제스처의 전체 어휘를 표현할 수 있다. 에지 픽셀 포맷은 그 위치 및 방향의 관점에서의 에지 이미지의 각 픽셀의 표현이다.

[이미지 조회 프로세싱]

도 6은 이미지 조회 프로세싱(30)을 위한 방법을 개략적으로 나타내는 도면이다. 조회 입력(33)은 센서/들(34)(2D/3D 카메라, IR 센서, 초음파 등)에 의해 캡쳐된 그 특정의 3개의 위치 및 3개의 방향 파라미터로 사용자(10)의 제스처(32)(손/머리/신체 제스처)를 특징화한다. 센서/들(34)은 디바이스(20)의 뒤 또는 앞의 3D 장면 정보를 캡쳐한다. 스마트 디바이스(20)는 조회 입력(33)의 시퀀스를 캡쳐하고 이를 프로세싱하여 인덱싱 가능한 피쳐(36)를 검색한다. 본 방법(30)은 조회 입력(33)으로부터 인덱싱 가능한 피쳐(36)를 추출한다. 인덱싱 가능한 피쳐(36)는 조회 입력(33)으로부터 도출된 에지 픽셀의 정확한 위치 및 방향을 포함하는 로우 레벨 에지 방향 속성을 포함한다.

인덱싱 가능한 피쳐(36)를 추출하기 위해, 조회 입력(33)은 정규화될 것이며, 그 대응하는 에지 이미지가 연산된다. 각 단일 에지 픽셀은 그 위치 및 방향에 의해 표현될 것이다.

기본적으로, 사용자 제스처(32)(손/머리/신체 제스처)를 캡쳐하는 조회 입력은 관련이 없는 객체, 환경 잡음 등에 의해 유발된 혼란스러운 백그라운드를 포함하므로, 조회 입력(33)으로부터 검색된 인덱싱 가능한 피쳐(36)는 제스처(32)로부터의 피쳐와 잡음이 있는 백그라운드 양쪽을 포함한다. 한편, 주석 달린 제스처 이미지의 데이터베이스(52) 내의 각 엔트리는 순수한 제스처 엔트리(백그라운드 및 잡음 없음)를 표현하므로, 주석 달린 제스처 이미지의 데이터베이스(52) 내의 각 엔트리로부터의 검색된 인덱싱 가능한 피쳐(54)는 단지 순수한 제스처로부터의 피쳐를 표현한다. 따라서, 조회 이미지의 에지 이미지는 데이터베이스 이미지의 에지 이미지만큼 정확하게 정의될 수 없다.

[제스처 검색 엔진]

도 5는 제스처 검색 엔진(70)에 대한 방법을 나타낸다. 주석 달린 제스처 이미지의 데이터베이스(52) 내의 각 엔트리의 추출된 인덱싱 가능한 피쳐(54)는 제스처 검색 엔진(70)의 인덱싱 가능한 피쳐의 대규모 어휘 테이블(72)을 구축한다.

인덱싱된 피쳐의 대규모 어휘 테이블(72)은, 각 에지 피쳐가 발생할 수 있는 모든 가능한 경우를 표현하도록 형성된다. 에지의 위치 및 방향에 대한 전체 데이터베이스를 고려하여, 대규모 어휘 테이블(72)은 에지 픽셀 포맷으로 제스처의 전체 어휘를 표현할 수 있다. 예를 들어, p*q 픽셀의 이미지 사이즈와, L 에지 방향 표현에 대하여, 제스처의 N 이미지의 데이터베이스에 대하여, 어휘 테이블(72)은 p*q*L 열 및 N 행을 가질 것이다. 따라서, 어휘 테이블(72)은 특정 행 및 열에서의 피쳐를 갖는 모든 데이터베이스 이미지(52)의 인덱스로 채워진다. 어휘 테이블(72)은 제스처 검색 엔진(70)에 대한 방법에서 필수적인, 전체 데이터베이스(52)로부터의 필요한 정보를 수집한다.

조회 이미지(33)의 사용자 제스처(32)를 검출/인식하기 위해서, 각 조회 이미지(33)의 대규모 검색 테이블(72) 및 검색된 인덱싱 가능한 피쳐(36)가 직접적 유사성 분석 기능(75)에 의해 이용되어, 주석 달린 제스처 이미지의 데이터베이스(52) 내의 톱 m 제1 레벨 매치를 선택한다.

에지 픽셀 포맷의 각 조회 입력(33)은 행-열 위치 및 특정 방향에 의해 표현될 수 있는 에지 포인트의 세트를 포함한다. 직접적 유사성 기능 분석(75)은 모든 에지 피쳐의 위치 및 특정 방향에 기초하여 인덱싱된 피쳐의 대규모 어휘 테이블(72)로 조회 입력(33)의 검색된 인덱싱 가능 피쳐(36)의 유사성을 연산한다. 직접적 유사성 분석 기능은, 한 쌍의 데이터값에 스코어를 할당하는 기능이며, 스코어는 데이터베이스 내의 각 엔트리의 인덱싱된 피쳐에 대한 조회의 인덱싱된 피쳐의 유사성을 나타낸다. 특정 조건이 조회 입력(33)의 검색된 인덱싱 가능 피쳐(36)와 주석 달린 제스처 이미지의 데이터베이스(52)의 검색된 인덱싱 가능 피쳐(54)에 대해 충족되는 경우, 직접적 유사성 분석 기능(75)은 그 특정 행-열 위치에서 유사한 방향을 갖는 에지를 갖는 모든 데이터베이스 이미지(52)에 +K1 포인트를 할당한다. 직접적 유사성 분석 기능(75)은 조회 입력(33)의 각 단일 에지 픽셀에 대해 상술한 프로세스를 수행한다.

직접적 유사성 분석 기능(75)의 제1 스텝은, 조회 입력(33)과 데이터베이스 이미지(52)로부터의 2개의 에지 패턴이 서로 정확하게 커버하는 경우를 충족하지만, 대부분의 실제 경우에서, 2개의 유사한 패턴은 위치에서 서로 매우 근접하지만 이들 사이에 큰 중첩은 존재하지 않는다. 정기적으로 발생하는 이러한 경우에 있어서, 직접적 유사성 분석 기능(75)은 제1 및 제2 레벨 이웃 픽셀에 기초하여 추가 포인트를 할당한다.

매우 가능성 있는 경우는, 2개의 극도로 유사한 패턴이 중첩하지 않지만 서로의 이웃 픽셀 상에 있을 때이다. 이러한 경우를 고려하기 위하여, 직접적 유사성 분석 기능(75)의 제1 스텝 외에, 임의의 단일 픽셀에 대하여, 데이터베이스 이미지의 제1 레벨 8 이웃 및 제2 레벨 16 이웃 픽셀이 추가 포인트를 할당하는 것에 대해 고려되어야 한다. 임의의 단일 픽셀의 제1 레벨 8 이웃 픽셀은 단일 픽셀을 둘러싸는 것들이다. 제2 레벨 이웃은 제1 레벨 8 이웃 픽셀을 둘러싸고 있는 16 픽셀을 포함한다. 제1 레벨 및 제2 레벨 이웃에서 유사한 방향을 갖는 에지를 갖는 모든 데이터베이스 이미지(52)는 각각 +K2 및 +K3 포인트를 수신한다(K1>K2>K3). 요약하면, 직접적 유사성 분석(75)은 상이한 가중치를 갖는 3 레벨에서 데이터베이스 이미지에 대한 유사성에 대하여 조회의 모든 에지 픽셀에 대하여 수행된다. 마지막으로, 각 데이터베이스 이미지의 축적된 스코어가 계산 및 정규화되고 최대 스코어가 톱 m 제1 레벨 매치로서 선택된다.

톱 m 제1 레벨 매치 중에서 가장 근접한 매치를 발견하기 위해, 역의 유사성 분석(76)이 수행된다. 역의 유사성 분석(76)은, 주석 달린 제스처 이미지(52)의 데이터베이스의 엔트리에 대한 조회 제스처(32)의 유사성을 발견하는 것 외에, 조회 제스처(32)에 대한 주석 달린 제스처 이미지의 데이터베이스(52)의 선택된 톱 m 엔트리의 역의 유사성이 연산되어야 한다는 것을 의미한다. 역의 유사성 기능은 정확도 때문에 사용된다. 역의 유사성 분석을 사용하지 않으면 검색의 더 낮은 정확도를 부여하지만 복잡도를 감소시킬 것이다.

역의 유사성 분석(76)은 소정의 사용자 제스처(32)에 대해 주석 달린 이미지의 데이터베이스(52)로부터 최적의 n 매치(n<m)를 반환한다. 직접적 유사성 분석(75)과 역의 유사성 분석(76)의 조합은 조회 입력(33)에 대해 주석 달린 제스처 이미지(52)의 데이터베이스로부터 최적의 매치를 반환한다.

제스처 검색 엔진(70)의 다른 선택적인 스텝은 제스처 이웃 분석 기능(77)을 채용함으로써 제스처 검색의 원활성이다. 원활성은, 3D 제스처 상호작용의 시퀀스에서의 검색된 최적 매치가 원활한 모션을 표현해야 한다는 것을 의미한다. 원활한 검색을 수행하기 위해서, 주석 달린 제스처 이미지의 데이터베이스(52)의 엔트리가 분석되고 제스처 맵(73)을 검출하기 위해 고차원 공간에 매핑된다. 제스처 맵(73)은, 어느 제스처가 서로 더 근접하고 고차원에서 동일 이웃에 속하는가를 나타낸다. 따라서, 시퀀스의 조회 입력(33)에 대해, 직접적 유사성 분석 기능(75)을 수행한 후에, 역의 유사성이 역의 유사성 분석 기능(76)에 의해 연산될 것이고, 톱 매치가 선택될 것이다. 그 후에, 본 방법(70)은 이러한 톱 매치들 중 어느 것이 이전의 프레임 매치에 더 근접한지를 체크하기 위해 제스처 맵(73)을 검색하고, 주석 달린 이미지의 데이터베이스(52)로부터 가장 근접한 엔트리가 최종의 최적 매치로서 선택될 것이다. 그 후에, 최적 매치에 대해 태깅된 3D 모션 파라미터(3개의 위치 및 3개의 방향 파라미터)가 디스플레이(100) 상에서 실행되는 다양한 어플리케이션 시나리오를 편리하게 하는 데 즉시 사용될 수 있다.

[인터페이스]

도 7은 검색 엔진(70)의 검출/인식 출력(액션/제스처/3D 모션, 주석 달린 이미지 등)(92)을 수신하는 인터페이스 레벨(90)에 대한 방법을 개략적으로 나타내는 흐름도이다. 검출/인식된 파라미터(액션/제스처/3D 모션, 주석 달린 이미지 등)(92)는 어플리케이션 프로그래밍 인터페이스(API)를 통해 디바이스(20) 상에서 실행되는 어플리케이션에 제공된다. 어플리케이션은 디스플레이(100) 상에 표현되는 2D/3D 비디오 게임, 2D/3D 객체 모델링/렌더링, 포토 브라우징, 맵, 내비게이션 등을 포함할 수 있다. 사용자(10)는 사용자 제스처(32) 수행에 응답하여 계속하여 수정되고 있는, 디스플레이(100) 상의 출력 비주얼 컨텐츠(2D/3D)(94)를 인지한다.

[디바이스의 상세한 설명]

도 8은 도 2a에 나타낸 모바일 디바이스(20)를 나타낸다. 모바일 디바이스(20)는 저장 유닛(22), 프로세싱 유닛(24), 센서(34)(예를 들어, 2D/3D 카메라, IR 센서, 초음파 등) 및 디스플레이(100)로 이루어진다. 센서(34)는 디바이스(20) 정면의 3D 장면 정보를 캡쳐한다. 모바일 디바이스(20)는 또한 모바일 디바이스(20) 뒤의 3D 장면 정보를 캡쳐하는 후방 센서(34)(예를 들어, 2D/3D 카메라, IR 센서, 초음파 등)를 포함할 수 있다. 모바일 디바이스(20)는 조회 입력(33)의 시퀀스를 캡쳐하고 이를 프로세싱하여 인덱싱 가능 피쳐(36)를 검색한다. 저장 유닛(22)은 주석 달린 제스처 이미지의 데이터베이스(52), 인덱싱된 피쳐의 대규모 어휘 테이블(72) 및 제스처 맵(73)을 저장한다. 프로세싱 유닛(24)은 이미지 조회 프로세싱(30)에 대한 방법과 검색 엔진(70)에 대한 방법을 수행한다. 또한, 프로세싱 유닛(24)은 사용자 제스처(32) 수행에 응답하여 디스플레이(100) 상에 표시되는 출력 비주얼 컨텐츠(2D/3D)(94)를 수정한다. 디스플레이(100)는 모바일 디바이스(20) 상에서 실행되는 어플리케이션을 표시한다. 어플리케이션은 디스플레이(100) 상에 표시되는 2D/3D 비디오 게임, 2D/3D 객체 모델링/렌더링, 포토 브라우징, 맵, 내비게이션 등을 포함할 수 있다. 사용자(10)는 사용자 제스처(32) 수행에 응답하여 계속하여 수정되고 있는, 디스플레이(100) 상의 출력 비주얼 컨텐츠(2D/3D)(94)를 인지한다.

도 9는 도 2b에 나타낸 웨어러블 디바이스(20)를 나타낸다. 웨어러블 디바이스(20)는 저장 유닛(22), 프로세싱 유닛(24), 센서(34)(예를 들어, 2D/3D 카메라, IR 센서, 초음파 등) 및 디스플레이(100)로 이루어진다. 센서(34)는 웨어러블 디바이스(20) 정면의 3D 장면 정보를 캡쳐한다. 웨어러블 디바이스(20)는 조회 입력(33)의 시퀀스를 캡쳐하고 이를 프로세싱하여 인덱싱 가능 피쳐(36)를 검색한다. 저장 유닛(22)은 주석 달린 제스처 이미지의 데이터베이스(52), 인덱싱된 피쳐의 대규모 어휘 테이블(72) 및 제스처 맵(73)을 저장한다. 프로세싱 유닛(24)은 이미지 조회 프로세싱(30)에 대한 방법과 검색 엔진(70)에 대한 방법을 수행한다. 또한, 프로세싱 유닛(24)은 사용자 제스처(32) 수행에 응답하여 디스플레이(100) 상에 표시되는 출력 비주얼 컨텐츠(2D/3D)(94)를 수정한다. 디스플레이(100)는 웨어러블 디바이스(20) 상에서 실행되는 어플리케이션을 표시한다. 어플리케이션은 디스플레이(100) 상에 표시되는 2D/3D 비디오 게임, 2D/3D 객체 모델링/렌더링, 포토 브라우징, 맵, 내비게이션 등을 포함할 수 있다. 사용자(10)는 사용자 제스처(32) 수행에 응답하여 계속하여 수정되고 있는, 디스플레이(100) 상의 출력 비주얼 컨텐츠(2D/3D)(94)를 인지한다.

도 10은 도 2c에 나타낸 고정형 디바이스(20)를 나타낸다. 고정형 디바이스(20)는 저장 유닛(22), 프로세싱 유닛(24), 센서(34)(2D/3D 카메라, IR 센서, 초음파 등) 및 디스플레이(100)로 이루어진다. 센서(34)는 고정형 디바이스(20) 정면의 3D 장면 정보를 캡쳐한다. 고정형 디바이스(20)는 조회 입력(33)의 시퀀스를 캡쳐하고 이를 프로세싱하여 인덱싱 가능 피쳐(36)를 검색한다. 저장 유닛(22)은 주석 달린 제스처 이미지의 데이터베이스(52), 인덱싱된 피쳐의 대규모 어휘 테이블(72) 및 제스처 맵(73)을 저장한다. 프로세싱 유닛(24)은 이미지 조회 프로세싱(30)에 대한 방법과 검색 엔진(70)에 대한 방법을 수행한다. 또한, 프로세싱 유닛(24)은 사용자 제스처(32) 수행에 응답하여 디스플레이(100) 상에 표시되는 출력 비주얼 컨텐츠(2D/3D)(94)를 수정한다. 디스플레이(100)는 고정형 디바이스(20) 상에서 실행되는 어플리케이션을 표시한다. 어플리케이션은 디스플레이(100) 상에 표시되는 2D/3D 비디오 게임, 2D/3D 객체 모델링/렌더링, 포토 브라우징, 맵, 내비게이션 등을 포함할 수 있다. 사용자(10)는 사용자 제스처(32) 수행에 응답하여 계속하여 수정되고 있는, 디스플레이(100) 상의 출력 비주얼 컨텐츠(2D/3D)(94)를 인지한다.

[실시예에 따른 방법 및 디바이스]

실시간 제스처 인식에 대해 사용되는 한정된 디바이스 내의 전력과 함께 리소스 요구 연산의 문제가 본 발명의 실시예에서 다루어진다. 도 11a는 실시예에 따른, 3D 제스처를 인식하기 위한 방법을 나타내는 흐름도이다. 본 방법은 제스처 이미지의 데이터베이스(52)에 대한 액세스를 갖고 센서(34)와 통신하는 디바이스(20) 내에서 수행된다. 센서(34)는 3D 제스처의 이미지(33)를 캡쳐하도록 구성된다. 센서는 디바이스의 통합된 부분일 수 있거나, 디바이스에 접속 가능한 별개의 센서일 수 있다. 제스처 이미지의 데이터베이스(52)는 정규화된 제스처 이미지의 인덱싱 가능 피쳐(54)를 포함하며, 인덱싱 가능 피쳐는 정규화된 제스처 이미지의 에지 이미지의 각 픽셀에 대한 위치 및 방향을 포함한다. 디바이스는 데이터베이스(52)를 저장하기 위한 저장 유닛(22)을 포함할 수 있거나, 예를 들어 인터넷을 통해 데이터베이스(52)를 저장하는 원격 데이터베이스 노드를 통해 통신하기 위한 인터페이스 유닛을 포함할 수 있다. 본 방법은 이하를 포함한다:

ㆍ 110: 센서(34)를 통해 3D 제스처의 이미지(33)를 캡쳐한다. 실시예에서, 이미지를 캡쳐하는 것은 3D 제스처의 이미지의 시퀀스를 캡쳐하는 것을 포함할 수 있다. 이미지의 시퀀스는 후술하는 바와 같이, 매칭 데이터베이스 이미지의 결정을 정교화하는 데 사용될 수 있다.

ㆍ 120: 캡쳐된 이미지를 정규화한다. 정규화는 비교를 가능하게 하기 위해 데이터베이스의 정규화된 제스처 이미지에 따라 수행될 수 있다. 정규화는 데이터베이스 이미지의 사이즈로 캡쳐된 이미지를 리사이징하는 것을 포함할 수 있다. 데이터베이스 엔트리는 320*240 픽셀 또는 640*480 픽셀과 같은 표준 이미지 크기로 통상적으로 정규화되므로, 캡쳐된 이미지는 데이터베이스 엔트리의 특정 사이즈로 정규화될 수 있다.

ㆍ 130: 정규화된 캡쳐된 이미지(33)로부터 인덱싱 가능 피쳐(36)를 도출한다. 인덱싱 가능 피쳐(36)는 정규화된 캡쳐된 이미지의 에지 이미지의 각 픽셀에 대한 위치 및 방향을 포함한다.

ㆍ 140: 도출된 인덱싱 가능 피쳐(36)와 데이터베이스의 도출된 인덱싱 가능 피쳐(54)를 유사성 기능을 사용하여 비교한다.

ㆍ 150: 비교에 기초하여 3D 제스처에 매칭하는 데이터베이스(52) 내의 제스처 이미지를 결정한다.

정규화된 캡쳐된 이미지의 에지 이미지의 각 픽셀에 대한 위치 및 방향을 포함하는 인덱싱 가능 피쳐를 사용하는 하나의 이점은 3D 제스처를 인식하는 연산적으로 효율적인 방식을 가능하게 한다는 것이다.

도 11b는 다른 실시예에 따른 디바이스에서의 방법의 흐름도이다. 본 방법은 도 11a를 참조하여 상술한 스텝을 포함한다. 하지만, 도출된 인덱싱 가능 피쳐(36)를 비교하는 스텝(140)은 이하를 추가로 포함한다:

ㆍ 141: 캡쳐된 이미지에 매칭하는 데이터베이스 내의 복수의 제스처 이미지를 결정하기 위해 직접적 유사성 분석을 사용한다; 그리고

ㆍ 142: 캡쳐된 이미지에 매칭하는 복수의 제스처 이미지의 서브셋을 결정하기 위해 복수의 제스처 이미지의 역의 유사성 분석을 사용한다.

본 실시예에서, 3D 제스처에 매칭하는 데이터베이스(52) 내의 제스처 이미지는 복수의 제스처 이미지의 서브셋 중 하나가 되는 것으로 결정된다(150). 하지만, 역의 유사성 분석을 사용하는 스텝 142는 이미 상술한 바와 같이 선택적이다. 역의 유사성 분석을 수행하지 않을 때, 3D 제스처에 매칭하는 데이터베이스(52) 내의 제스처 이미지는 직접적 유사성 분석으로부터 결정되는, 복수의 제스처 이미지 중 하나인 것으로 결정된다(150). 직접 및 역의 유사성 분석은 상술한 “제스처 검색 엔진” 서브섹션에서 추가로 설명되었다. 역의 유사성 분석(76)은 정확도를 이유로로 사용될 수 있다. 하지만, 역의 유사성 분석이 더 낮은 검색 정확도를 부여하지 않는다고 하더라도, 그 이점은 복잡도를 감소시킨다는 것이다.

또한, 도 11b의 흐름도는, 예를 들어 상술한 “인터페이스” 섹션에서 예시된 바와 같이 디스플레이 상에 표현되는 비주얼 컨텐츠를 수정하기 위해 3D 제스처에 매칭하는 결정된 제스처 이미지를 사용하는 것을(160) 더 포함할 수 있다.

2개의 매우 유사한 제스처 이미지는 중첩하는 에지 픽셀을 갖지 않을 수 있지만, 서로의 이웃 픽셀 상에 있을 수 있다. 이러한 경우를 고려하기 위해, 직접적인 유사성 분석 기능(75)의 제1 스텝 외에, 데이터베이스 이미지 내의 제1 레벨 8 이웃 및 제2 레벨 16 이웃 픽셀이 캡쳐된 이미지를 비교할 때 고려될 수 있다. 따라서, 실시예에서, 디바이스에 의해 수행되는 방법은 이하를 더 포함할 수 있다.

- 정규화된 캡쳐된 이미지로부터 에지 이미지의 각 픽셀의 이웃 픽셀에 대한 위치 및 방향을 포함하는 추가 인덱싱 가능 피쳐를 도출한다; 그리고

- 유사성 기능을 사용하여 데이터베이스의 추가 인덱싱 가능 피쳐와 도출된 추가 인덱싱 가능 피쳐를 비교한다.

3D 제스처에 매칭하는 데이터베이스(52) 내의 제스처 이미지는 그 후 추가 인덱싱 가능 피쳐의 비교에 또한 기초하여 결정될 수 있다.

또한, 3D 제스처에 매칭하는 제스처 이미지는 제스처 이미지의 시퀀스에서 서로 근접한 제스처 이미지를 나타내는 제스처 맵에 기초하여 결정될 수 있다. 디바이스에서의 본 방법은 이미지의 시퀀스에 기초하여 사용자 제스처를 트랙킹하는 것을 더 포함할 수 있으며, 3D 제스처에 매칭하는 데이터베이스 내의 제스처 이미지는 또한 트랙킹된 사용자 제스처에 기초하여 결정될 수 있다.

상술한 실시예들 중 임의의 것에서, 제스처 이미지의 데이터베이스(52) 내의 각 엔트리는 3개의 방향과 3개의 위치 파라미터를 포함하는 연관된 3D 모션 파라미터로 태깅될 수 있다. 또한, 본 방법은 그에 따라 데이터베이스로부터의 3D 제스처에 매칭하는 결정된 제스처 이미지와 연관된 3D 모션 파라미터를 검색하는 것을 더 포함한다.

도 12는 실시예에 따라 3D 제스처를 인식하기 위한 디바이스(20)를 개략적으로 나타내는 블록도이다. 디바이스(20)는 정규화된 제스처 이미지의 인덱싱 가능 피쳐(54)를 포함하는 제스처 이미지의 데이터베이스(52)에 대한 액세스를 갖도록 구성된다. 인덱싱 가능 피쳐는 정규화된 제스처 이미지의 에지 이미지의 각 픽셀에 대한 위치 및 방향을 포함한다. 디바이스는 3D 제스처의 이미지(33)를 캡쳐하도록 구성된 센서(34)에 접속 가능하다. 센서(34)는 디바이스(20) 내에 포함될 수 있거나, 디바이스로부터 분리될 수 있다. 디바이스(20)는 센서를 통해 3D 제스처의 이미지(33)를 캡쳐하고, 캡쳐된 이미지를 정규화하고, 정규화된 캡쳐된 이미지(33)로부터 인덱싱 가능 피쳐(36)를 도출하도록 구성된 프로세싱 유닛(24)을 포함한다. 인덱싱 가능 피쳐는 정규화된 캡쳐된 이미지의 에지 이미지의 각 픽셀에 대한 위치 및 방향을 포함한다. 또한, 프로세싱 유닛(24)은 유사성 기능을 사용하여 데이터베이스의 인덱싱 가능 피쳐(54)와 도출된 인덱싱 가능 피쳐(36)를 비교하고, 그 비교에 기초하여 3D 제스처에 매칭하는 데이터베이스(52) 내의 제스처 이미지를 결정하도록 구성된다.

프로세싱 유닛(24)은 캡쳐된 이미지에 매칭하는 데이터베이스 내의 복수의 제스처 이미지를 결정하기 위해 직접적 유사성 분석을 사용함으로써 도출된 인덱싱 가능 피쳐를 비교하고, 3D 제스처에 매칭하는 데이터베이스(52) 내의 제스처 이미지를 복수의 제스처 이미지 중 하나가 되도록 결정하도록 추가로 구성될 수 있다.

또한, 프로세싱 유닛(24)은 캡쳐된 이미지에 매칭하는 복수의 제스처 이미지의 서브셋을 결정하기 위해 복수의 제스처 이미지의 역의 유사성 분석을 사용함으로써 도출된 인덱싱 가능 피쳐를 비교하고, 3D 제스처에 매칭하는 데이터베이스(52) 내의 제스처 이미지가 복수의 제스처 이미지의 서브셋 중 하나가 되도록 결정하도록 추가로 구성될 수 있다.

실시예에서, 프로세싱 유닛(24)은 정규화된 캡쳐된 이미지로부터 에지 이미지의 각 픽셀의 이웃 픽셀에 대한 위치 및 방향을 포함하는 추가적인 인덱싱 가능 피쳐를 도출하도록 추가로 구성될 수 있다. 프로세싱 유닛(24)은 유사성 기능을 사용하여 데이터베이스의 추가 인덱싱 가능 피쳐와 도출된 추가 인덱싱 가능 피쳐를 비교하고, 추가 인덱싱 가능 피쳐의 비교에 또한 기초하여 3D 제스처에 매칭하는 데이터베이스(52) 내의 제스처 이미지를 결정하도록 추가로 구성될 수 있다.

프로세싱 유닛(24)은 제스처 이미지의 시퀀스에서 서로 근접하는 제스처 이미지를 나타내는 제스처 맵에 기초하여 3D 제스처에 매칭하는 제스처 이미지를 결정하도록 추가로 구성될 수 있다. 프로세싱 유닛(24)은 센서(34)를 통해 3D 제스처의 이미지의 시퀀스를 캡쳐하도록 구성될 수 있다. 본 실시예에서, 프로세싱 유닛은 이미지의 시퀀스에 기초하여 사용자 제스처를 트랙킹하고, 또한 트랙킹된 사용자 제스처에 기초하여 3D 제스처에 매칭하는 데이터베이스(52) 내의 제스처 이미지를 결정하도록 추가로 구성될 수 있다.

프로세싱 유닛(24)은 디스플레이 상에 표현되는 비주얼 컨텐츠를 수정하기 위해 3D 제스처에 매칭하는 결정된 제스처 이미지를 사용하도록 추가로 구성될 수 있다. 또한, 제스처 이미지의 데이터베이스(52) 내의 각 엔트리는 3개의 방향과 3개의 위치 파라미터를 포함하는 연관된 3D 모션 파라미터로 태깅될 수 있으며, 프로세싱 유닛(24)은 데이터베이스(52)로부터의 3D 제스처에 매칭하는 결정된 제스처 이미지와 연관된 3D 모션 파라미터를 검색하도록 추가로 구성될 수 있다.

디바이스(20)는 실시예에서 상기 프로세싱 유닛(24)에 의해 실행 가능한 명령을 포함하는 메모리를 포함하며, 이에 의해, 디바이스는 센서를 통해 3D 제스처의 이미지를 캡쳐하고, 데이터베이스의 정규화된 제스처 이미지에 따라 캡쳐된 이미지를 정규화하고, 정규화된 캡쳐된 이미지로부터 인덱싱 가능 피쳐를 도출하고, 유사성 기능을 사용하여 데이터베이스의 인덱싱 가능 피쳐와 도출된 인덱싱 가능 피쳐를 비교하고, 그 비교에 기초하여 3D 제스처에 매칭하는 데이터베이스 내의 제스처 이미지를 결정하도록 동작한다. 또한, 디바이스(20)는 프로세싱 유닛(24)에 접속되고 센서(34) 및/또는 데이터베이스(52)와 통신하도록 구성된 인터페이스 회로를 포함할 수 있다.

도 12의 실시예를 설명하는 대안적인 방법에서, 디바이스(20)는 센서를 통해 3D 제스처의 이미지를 캡쳐하기 위한 수단, 데이터베이스의 정규화된 제스처 이미지에 따라 캡쳐된 이미지를 정규화하기 위한 수단, 정규화된 캡쳐된 이미지로부터 인덱싱 가능 피쳐를 도출하기 위한 수단, 유사성 기능을 사용하여 데이터베이스의 인덱싱 가능 피쳐와 도출된 인덱싱 가능 피쳐를 비교하기 위한 수단, 및 그 비교에 기초하여 3D 제스처에 매칭하는 데이터베이스 내의 제스처 이미지를 결정하기 위한 수단을 포함할 수 있다. 설명된 수단은 하드웨어, 소프트웨어, 펌웨어 또는 그 임의의 조합으로 구현될 수 있는 기능 유닛이다. 일 실시예에서, 수단은 프로세서 상에서 실행되는 컴퓨터 프로그램으로서 구현된다.

도 12의 실시예를 설명하는 또 다른 대안적인 방법에서, 디바이스(20)는 단일 유닛 또는 복수의 유닛일 수 있는 중앙 처리 장치(CPU)를 포함할 수 있다. 또한, 디바이스(20)는 예를 들어 EEPROM(전기적 소거 가능 프로그램 가능 판독 전용 메모리), 플래시 메모리 또는 디스크 드라이브인 비휘발성 메모리 형태의 적어도 하나의 컴퓨터 프로그램 제품(CPP)을 포함할 수 있다. CPP는 디바이스(20)의 CPU 상에서 실행될 때 디바이스(20)로 하여금 도 11a 및 11b와 연계하여 상술한 방법을 수행하게 하는 코드 수단을 포함하는 컴퓨터 프로그램을 포함할 수 있다. 즉, 상기 코드 수단이 CPU 상에서 실행될 때, 이는 도 12의 프로세싱 유닛(24)에 대응한다.

상기 언급되고 상술된 실시예는 단지 예로서 제공되며, 한정적인 것이 아니다. 첨부한 특허 청구항의 범주 내의 다른 해결책, 용도, 객체 및 기능이 가능할 수 있다.

Claims

3차원 3D 제스처를 인식하기 위한 방법으로서,
상기 방법은 제스처 이미지의 데이터베이스(52)에 대한 액세스를 갖는 디바이스(20)에서 수행되고, 상기 디바이스는 상기 3D 제스처의 이미지(33)를 캡쳐하도록 구성된 센서(34)와 통신하고, 상기 제스처 이미지의 상기 데이터베이스(52)는 정규화된 제스처 이미지의 인덱싱 가능 피쳐(54)를 포함하고, 상기 인덱싱 가능 피쳐는 상기 정규화된 제스처 이미지의 에지 이미지의 각 픽셀에 대한 위치 및 방향을 포함하고, 상기 방법은:
- 상기 센서를 통해 상기 3D 제스처의 상기 이미지(33)를 캡쳐하는 단계(110)
- 상기 데이터베이스(52)의 상기 정규화된 제스처 이미지에 따라 상기 캡쳐된 이미지를 정규화하는 단계(120)
- 상기 정규화된 캡쳐된 이미지의 에지 이미지의 각 픽셀에 대해 위치 및 방향을 포함하는 인덱싱 가능 피쳐(36)를 상기 정규화된 캡쳐된 이미지(33)로부터 도출하는 단계(130),
- 유사성 기능을 사용하여 상기 데이터베이스의 상기 인덱싱 가능 피쳐(54)와 상기 도출된 인덱싱 가능 피쳐(36)를 비교하는 단계(140), 및
- 상기 비교에 기초하여 상기 3D 제스처에 매칭하는 상기 데이터베이스(52) 내의 제스처 이미지를 결정하는 단계(150)를 포함하는, 3차원 3D 제스처 인식 방법.
제1항에 있어서,
상기 도출된 인덱싱 가능 피쳐를 비교하는 단계(140)는:
- 상기 캡쳐된 이미지에 매칭하는 상기 데이터베이스 내의 복수의 제스처 이미지를 결정하기 위해 직접적 유사성 분석을 사용하는 단계(141)를 더 포함하고,
상기 3D 제스처에 매칭하는 상기 데이터베이스(52) 내의 상기 제스처 이미지는 상기 복수의 제스처 이미지 중 하나가 되도록 결정되는(150), 3차원 3D 제스처 인식 방법.
제2항에 있어서,
상기 도출된 인덱싱 가능 피쳐를 비교하는 단계(140)는:
- 상기 캡쳐된 이미지에 매칭하는 상기 복수의 제스처 이미지의 서브셋을 결정하기 위해 상기 복수의 제스처 이미지의 역의 유사성 분석을 사용하는 단계(142)를 더 포함하고,
상기 3D 제스처에 매칭하는 상기 데이터베이스(52) 내의 상기 제스처 이미지는 상기 복수의 제스처 이미지의 서브셋 중 하나가 되도록 결정되는(150), 3차원 3D 제스처 인식 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
- 상기 정규화된 캡쳐된 이미지로부터 상기 에지 이미지의 각 픽셀의 이웃 픽셀에 대한 위치 및 방향을 포함하는 추가 인덱싱 가능 피쳐를 도출하는 단계,
- 상기 유사성 기능을 사용하여 상기 데이터베이스의 추가 인덱싱 가능 피쳐와 도출된 추가 인덱싱 가능 피쳐를 비교하는 단계를 더 포함하고,
상기 3D 제스처에 매칭하는 상기 데이터베이스(52) 내의 상기 제스처 이미지는 상기 추가 인덱싱 가능 피쳐의 비교에 또한 기초하여 결정되는, 3차원 3D 제스처 인식 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 3D 제스처에 매칭하는 상기 제스처 이미지는 제스처 이미지의 시퀀스에서 서로 근접하는 제스처 이미지를 나타내는 제스처 맵에 기초하여 결정되는, 3차원 3D 제스처 인식 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 이미지를 캡쳐하는 단계(110)는 상기 3D 제스처의 이미지의 시퀀스를 캡쳐하는 단계를 포함하는, 3차원 3D 제스처 인식 방법.
제6항에 있어서,
- 상기 이미지의 시퀀스에 기초하여 사용자 제스처를 트랙킹하는 단계를 더 포함하고,
상기 3D 제스처에 매칭하는 상기 데이터베이스(52) 내의 상기 제스처 이미지는 트랙킹된 사용자 제스처에 또한 기초하여 결정되는, 3차원 3D 제스처 인식 방법.
제1항 내지 제7항 중 어느 한 항에 있어서,
디스플레이 상에 표현되는 비주얼 컨텐츠를 수정하기 위해 상기 3D 제스처에 매칭하는 상기 결정된 제스처 이미지를 사용하는 단계(160)를 더 포함하는, 3차원 3D 제스처 인식 방법.
제1항 내지 제8항 중 어느 한 항에 있어서,
상기 제스처 이미지의 상기 데이터베이스(52) 내의 각 엔트리는 3개의 방향 및 3개의 위치 파라미터를 포함하는 연관된 3D 모션 파라미터로 태깅되고, 상기 방법은:
- 상기 데이터베이스(52)로부터 상기 3D 제스처에 매칭하는 상기 결정된 제스처 이미지와 연관된 3D 모션 파라미터를 검색하는 단계를 더 포함하는, 3차원 3D 제스처 인식 방법.
3차원 3D 제스처를 인식하기 위한 디바이스(20)로서,
상기 디바이스는 정규화된 제스처 이미지의 인덱싱 가능 피쳐(54)를 포함하는 제스처 이미지의 데이터베이스(52)에 대한 액세스를 갖도록 구성되고, 상기 인덱싱 가능 피쳐는 상기 정규화된 제스처 이미지의 에지 이미지의 각 픽셀에 대한 위치 및 방향을 포함하고, 상기 디바이스는 상기 3D 제스처의 이미지(33)를 캡쳐하도록 구성된 센서(34)에 접속가능하고, 상기 디바이스는 프로세싱 유닛(24)을 포함하고, 상기 프로세싱 유닛은:
- 상기 센서(34)를 통해 상기 3D 제스처의 상기 이미지(33)를 캡쳐하고,
- 상기 데이터베이스(52)의 상기 정규화된 제스처 이미지에 따라 상기 캡쳐된 이미지를 정규화하고,
- 상기 정규화된 캡쳐된 이미지의 에지 이미지의 각 픽셀에 대해 위치 및 방향을 포함하는 인덱싱 가능 피쳐(36)를 상기 정규화된 캡쳐된 이미지(33)로부터 도출하고,
- 유사성 기능을 사용하여 상기 데이터베이스의 상기 인덱싱 가능 피쳐(54)와 상기 도출된 인덱싱 가능 피쳐(36)를 비교하고, 및
- 상기 비교에 기초하여 상기 3D 제스처에 매칭하는 상기 데이터베이스(52) 내의 제스처 이미지를 결정하도록 구성되는, 3차원 3D 제스처 인식 디바이스.
제10항에 있어서,
상기 프로세싱 유닛(24)은:
- 상기 캡쳐된 이미지에 매칭하는 상기 데이터베이스 내의 복수의 제스처 이미지를 결정하기 위해 직접적 유사성 분석을 사용함으로써 상기 도출된 인덱싱 가능 피쳐를 비교하도록 추가로 구성되고,
상기 프로세싱 유닛(24)은, 상기 3D 제스처에 매칭하는 상기 데이터베이스(52) 내의 상기 제스처 이미지가 상기 복수의 제스처 이미지 중 하나가 되게 결정하도록 추가로 구성되는, 3차원 3D 제스처 인식 디바이스.
제11항에 있어서,
상기 프로세싱 유닛(24)은:
- 상기 캡쳐된 이미지에 매칭하는 상기 복수의 제스처 이미지의 서브셋을 결정하기 위해 상기 복수의 제스처 이미지의 역의 유사성 분석을 사용함으로써 도출된 인덱싱 가능 피쳐를 비교하도록 추가로 구성되고,
상기 프로세싱 유닛(24)은 상기 3D 제스처에 매칭하는 상기 데이터베이스(52) 내의 상기 제스처 이미지가 상기 복수의 제스처 이미지의 상기 서브셋 중 하나가 되게 결정하도록 추가로 구성되는, 3차원 3D 제스처 인식 디바이스.
제10항 내지 제12항 중 어느 한 항에 있어서,
상기 프로세싱 유닛(24)은:
- 상기 정규화된 캡쳐된 이미지로부터 상기 에지 이미지의 각 픽셀의 이웃 픽셀에 대한 위치 및 방향을 포함하는 추가 인덱싱 가능 피쳐를 도출하고,
- 상기 유사성 기능을 사용하여 상기 데이터베이스의 추가 인덱싱 가능 피쳐와 도출된 추가 인덱싱 가능 피쳐를 비교하고,
- 상기 3D 제스처에 매칭하는 상기 데이터베이스(52) 내의 상기 제스처 이미지를 상기 추가 인덱싱 가능 피쳐의 비교에 또한 기초하여 결정하도록 추가로 구성되는, 3차원 3D 제스처 인식 디바이스.
제10항 내지 제13항 중 어느 한 항에 있어서,
상기 프로세싱 유닛(24)은 제스처 이미지의 시퀀스에서 서로 근접하는 제스처 이미지를 나타내는 제스처 맵에 기초하여 상기 3D 제스처에 매칭하는 상기 제스처 이미지를 결정하도록 추가로 구성되는, 3차원 3D 제스처 인식 디바이스.
제10항 내지 제14항 중 어느 한 항에 있어서,
상기 프로세싱 유닛(24)은 상기 센서(34)를 통해 상기 3D 제스처의 이미지의 시퀀스를 캡쳐하도록 추가로 구성되는, 3차원 3D 제스처 인식 디바이스.
제15항에 있어서,
상기 프로세싱 유닛(24)은:
- 상기 이미지의 시퀀스에 기초하여 사용자 제스처를 트랙킹하고,
- 상기 3D 제스처에 매칭하는 상기 데이터베이스(52) 내의 상기 제스처 이미지를 트랙킹된 사용자 제스처에 또한 기초하여 결정하도록 추가로 구성되는, 3차원 3D 제스처 인식 디바이스.
제10항 내지 제16항 중 어느 한 항에 있어서,
상기 프로세싱 유닛(24)은:
- 디스플레이 상에 표현되는 비주얼 컨텐츠를 수정하기 위해 상기 3D 제스처에 매칭하는 상기 결정된 제스처 이미지를 사용하도록 추가로 구성되는, 3차원 3D 제스처 인식 디바이스.
제10항 내지 제17항 중 어느 한 항에 있어서,
상기 제스처 이미지의 상기 데이터베이스(52) 내의 각 엔트리는 3개의 방향 및 3개의 위치 파라미터를 포함하는 연관된 3D 모션 파라미터로 태깅되고, 상기 프로세싱 유닛(24)은:
- 상기 데이터베이스(52)로부터 상기 3D 제스처에 매칭하는 상기 결정된 제스처 이미지와 연관된 3D 모션 파라미터를 검색하도록 추가로 구성되는, 3차원 3D 제스처 인식 디바이스.