KR101554082B1

KR101554082B1 - 자연스러운 제스처 기반 사용자 인터페이스 방법 및 시스템

Info

Publication number: KR101554082B1
Application number: KR1020137020205A
Authority: KR
Inventors: 디아즈 주안 카를로스 토치노; 케빈 시몬스; 질레스 피널트; 자비에르 밸르; 줄리엔 톨로; 좃 데이비드 달
Original assignee: 소프트키네틱 소프트웨어
Priority date: 2011-01-05
Filing date: 2012-01-04
Publication date: 2015-09-17
Also published as: SG190826A1; AU2012204889A1; CN103314391A; AU2012204889B2; JP6031071B2; TW201237677A; JP5646085B2; EP2474950B1; CA2817443C; CN103314391B; WO2012093147A1; JP2014501415A; KR20130112061A; US20140007022A1; JP2014225288A; US9081419B2; TWI524210B; CA2817443A1; EP2474950A1

Abstract

상호작용 3차원 이미징 시스템의 디스플레이 화면 상에 콘텍스트 피드백, 제어 및 인터페이스 엘리먼트를 제공하는 사용자 인터페이스가 개시된다. 사용자(2410)는 시스템에 의해 인식된 것에 따라 제어 신호를 제공하는 인터페이스와 상호작용하여 이미징 시스템에 의해 촬영된 3차원 장면 내의 적어도 하나의 POI(point of interest)(2310, 2320)를 이용하여 사용자 인터페이스에 대한 제어 신호를 제공한다. 제어 신호는 POI 움직임 및 궤적의 통계 및 기하학적 특성을 분석하는 제스처 인식 프로세스에 의해 실시간으로 분석된 제스처(2420, 2430)에 의해 제공된다.

Description

자연스러운 제스처 기반 사용자 인터페이스 방법 및 시스템{NATURAL GESTURE BASED USER INTERFACE METHODS AND SYSTEMS}

본 발명은 자연스러운 제스처(natural gesture) 기반 사용자 인터페이스 방법 및 시스템에 관한 것으로, 보다 상세하게는, 컴퓨터화 시스템에 대한 내비게이션 및 제어를 위한 자연스러운 제스처 인식 기반 사용자 인터페이스에 관한 것이다.

컴퓨터 비전 기술은 실시간 정확한 3차원 장면 측정이 얻어질 수 있는 상태로 진화하였다. 이러한 장면 측정은 이미지 프로세싱 시스템이 잠재적인 오브젝트/사용자 등의 새로운 종류의 입력을 계산하여 시스템 상호작용에 제공할 수 있게 하며, 입력 상호작용은 보이는 장면 내의 시야 내의 오브젝트/사용자의 이동 및/또는 제스처에 관한 것이다.

몇 개의 종류의 사용자 인터페이스 장치 및 방법이 현재 이용가능하다. 마우스, 조이스틱, 컴퓨터 키보드, 터치스크린, 또는 적외선 원격 제어 기술 등의 인터페이스 장치를 제외하고, 가장 최근의 기술은 장면 내의 인체를 검출하고 모델링하고 시뮬레이션하는 3차원 이미징 또는 센싱 시스템에 기초한다. 시뮬레이션으로부터 예를 들어 손 등의 신체 일부를 추출할 수 있고 시간에 따라 그 위치에 대하여 모니터링할 수 있다. 따라서, 손은 이미징 또는 센싱 시스템에 의해 인식될 수 있는 제스처를 실행하는데 사용될 수 있다. 이들 제스처는, 트리거 이벤트를 개시하고 및/또는 수신된 입력에 따라 상호작용하는 컴퓨터 인터페이스에 연속적인 입력 데이터를 제공하는 것을 목표로 한다.

인식된 사용자의 표시를 둘러싸는 주문제작된 아이콘으로 통신 세션을 제어하는데 사용되는 제스처 기반 내비게이션 시스템이 WO-A-2009/042579에 기재되어 있다. 사용자의 제스처가 일련의 카메라 이미지로부터 인식되는 음성 및 비디오 통신을 위한 향상된 인터페이스가 제공된다. 사용자의 제어 및 표시를 포함하는 사용자 인터페이스가 또한 제공된다. 방법은 이미지 프로세싱을 이용하여 제스처 인식을 수행하여 제어 입력을 트리거하는 내비게이션 인터페이스 및 시스템에 관한 것이다. 예를 들어, 텔레커뮤니케이션 세션 상태는 사용자의 표시에 의해 이루어진 약속(engagement) 제스처의 인식에 의해 대기 상태로부터 호출 또는 메뉴 상태로 변경될 수 있다.

다른 제스처 기반 내비게이션 시스템이 WO-A-2009/035705, WO-A-2009/108894 및 WO-A-2004/070595에 기재되어 있다. WO-A-2009/035705에서, 3차원 환경에서 상호작용 디스플레이로 제스처 기반 사용자 상호 작용을 처리하는 간단한 시스템 및 방법이 개시된다. 디스플레이는 시스템과 상호작용할 수 있는 아이콘으로 사용자의 손을 표시한다.

WO-A-2009/108894에서, 인식된 사용자 제스처를 이용한 향상된 입력이 기재된다. 사용자의 표시는 중앙 영역에 대하여 방사상으로 배치된 상호작용 엘리먼트를 포함하는 제어의 중앙 영역에 디스플레이된다. 향상된 입력은 또한 인식된 사용자 제스처에 기초한 제어와의 상호 작용 및 제어와의 상호 작용에 기초한 애플리케이션의 제어를 포함한다. 상호작용 엘리먼트는 사용자의 표시의 제스처의 넓은 범위, 예를 들어, 손가락으로부터 손, 눈 또는 신체 이동을 통해 얼굴 표정까지의 제스처를 이용하여 선택된 일련의 아이콘의 형태를 취할 수 있다.

WO-A-2004/070595에서, 이미지 표시 장치의 그래픽 사용자 인터페이스의 이미지에 제스처를 이용하여 마우스 포인터를 쌍방향으로 제어하는 장치 및 방법이 개시된다. 장치는 보조 이미지를 생성하는 비디오 카메라, 보조 이미지의 이미지 데이터를 처리하는 이미지 프로세싱 장치 및 보조 이미지를 미러링하는 미러 유닛을 포함한다. 비디오 카메라에 의해 촬영된 오브젝트를 검출하고 보조 이미지 내의 검출된 오브젝트의 순간적인 위치를 결정하는 분석 유닛이 또한 제공된다. 마우스 제어 메카니즘은 분석 유닛에 접속되고 결정된 순간적인 위치에 따라 이미지 표시 장치의 이미지 내에서 마우스를 나타내고 이동하고, 이미지 표시 장치의 이미지 내에 부분적으로 투명한 방식으로 메인 이미지 및 미러 유닛에 의해 얻어진 미러링된 보조 이미지를 중첩하도록 구성된 혼합 및/또는 크로스 페이딩(cross-fading) 장치가 미러 유닛에 접속된다.

사용자 인터페이스로부터의 사용자 피드백이 WO-A-2010/126714에 기재된다. 여기서, 캡쳐 장치는 사용자 이동을 촬영하는데 사용되고, 사용자 움직임에 맵핑된 모델을 디스플레이하는 장치가 제공된다. 제스처는 사용자 인터페이스의 제어를 위해 사용된다. 그러나, 사용자는 자신의 움직임을 맵핑하는 시스템에 익숙하지 않거나 특정한 애플리케이션을 실행하기 위하여 어떤 제스처가 적용가능한지 모를 수 있고, 따라서, 실행 애플리케이션에 적용가능한 제스처를 어떻게 수행할지 모른다. 사용자에게 명령 제스처 데이터를 나타내는 시각적 피드백을 제공하는 것은 사용자가 어떻게 제스처를 취해야 하는지를 가르쳐 줄 수 있다. 시각적 피드백은 임의의 수의 적절한 방식으로 제공될 수 있다. 예를 들어, 시각적 피드백은 고스트 이미지, 플레이어 아바타 또는 골격 표시(skeletal representation)를 이용하여 제공될 수 있다. 시스템은 또한 명령 제스처 데이터를 나타내는 시각적 피드백을 디스플레이하기 위한 미리 기록된 또는 라이브 콘텐츠를 프로세싱할 수 있다. 시각적 피드백은 사용자의 실제 위치 및 이상적인 제스처 위치 간의 차를 나타낼 수 있다.

WO-A-2010/103482에서, 사용자 인터페이스 엘리먼트가 디스플레이 스크린 상에 제시되는 컴퓨터화된 시스템, 일반적으로 가상 키패드를 동작하는 방법이 기재된다. 사용자의 신체 일부에 의해 3차원 공간에서 이루어지는 제1 제스처가 검출되고, 제1 제스처에 응답하여, 포인팅에 의해 사용자에 의해 미리 선택된 디스플레이 스크린의 영역이 식별된다. 그 후, 디스플레이 스크린 상의 선택 영역에서 나타나는 사용자 엘리먼트의 하나 이상의 확대 레벨이 증가된다. 확대 레벨이 증가된 후에, 사용자의 신체 일부에 의해 이루어지는 제2 제스처가 검출되어 사용자 인터페이스 상에 나타나는 것 중에서 미리 선택된 엘리먼트를 선택한다. 제3 제스처는 사용자 인터페이스 엘리먼트의 확대 레벨을 감소시킨다.

WO-A-2003/071410는 신체 제스처에 관련되고 특히 손 제스처에 관련되고 깊이 감지 센서를 이용하는 일반적인 제스처 인식 시스템 및 방법을 기재한다. 3차원 센서는 사용자의 신체 일부의 복수의 개별 영역에 대한 3차원 위치 정보를 제공한다. 제스처는 간격을 두고 신체 일부(즉, 손)의 형상 및 그 위치 및 배향으로부터 인식된다. 제스처는 관련된 전자 장치로의 입력을 결정하기 위하여 분류된다. 불확정 분할(undefined segmentation) 모듈은 깊이 정보를 이용하여 사용자의 신체 일부를 배경으로부터 분리한다. 시스템과 상호 작용하는 픽셀 그룹은 식별된 손의 일부가 카메라로부터 가장 가까운 오브젝트인 것으로 가정하거나 사람 피부와 동일한 광 반사 특성을 나타냄에 따라 사용자에 속하는 것으로 식별된다. 제스처 인식은 손을 나타내는 것으로 가정되는 픽셀 그룹의 자세 또는 포즈로부터 결정되고, 포즈(pose)는 손 형상의 위치 및 배향에 관련되고, 자세(posture)는 형상 및 포즈의 조합에 관련된다. 동적 제스처 인식은 특정 손 제스처, 특정 움직임, 특정 사운드, 또는 키 입력 등의 동적 제스처의 시작 또는 종료를 트리거하는 구획문자(delimiter) 함수의 정의 상에서 불확정 분류 기반 알고리즘에 기초하여 자동으로 수행될 수 있다. 사용자가 검증을 위한 제스처를 입증하는 확인 함수가 요구된다. 이것은 다른 제스처, 사운드 또는 하드웨어 키보드 상의 텍스트 입력의 사용에 의해 수행된다.

더 특정한 제스처 인식은 WO-A-2010/011923 및 WO-A-2010/011929에 기재된다. 이들 문서에서, 웨이브 또는 원형 제스처 인식 기술이 특정 신호 프로세싱 실시예 내에 기재된다.

WO-A-2010/011923에서, 형상이 움직임 데이터 내에 정의되고 움직임 데이터가 정의된 형상과 정렬한 포인트에서 샘플링되는 원형 관계 제스쳐(circular engagement gesture)의 향상된 검출이 기재된다. 여기서, 움직이는 오브젝트가 샘플링된 움직임 데이터에 의해 표시된 패턴에 기초하여 정의된 형상과 상관된 제스처를 수행하는지를 결정한다. 움직이는 오브젝트가 요구되는 제스처를 수행하는 것으로 결정되면 애플리케이션이 제어된다.

WO-A-2010/011929는 형상이 움직임 데이터 내에 정의되는 웨이브 관계 제스처의 향상된 검출을 개시하고, 움직임 데이터는 정의된 형상과 정렬된 포인트에서 샘플링되고, 샘플링된 움직임 데이터에 기초하여 정의된 형상을 따르는 움직이는 오브젝트의 위치는 시간에 따라 결정된다. 움직이는 오브젝트가 결정된 위치에 의해 표시된 패턴에 기초하여 제스처를 수행하는지의 결정은 이동하는 오브젝트가 요구되는 제스처를 수행하는 경우 애플리케이션을 제어하는데 사용된다.

그러나, 상술한 시스템의 많은 것은 사용자가 사전 검출되어 장면 내에 위치하도록 요구하고 적어도 손 신체 일부가 장면 내에 위치하도록 요구하고 및/또는, 손은 시스템 인터페이스와의 상호 작용에 사용되는 주요 신체 일부이기 때문에, 신체 일부, 예를 들어, 손의 위치를 더 쉽게 추출하는 사용자의 표시의 모델링을 요구한다.

그러므로, 본 발명의 목적은 사용자 또는 오브젝트에 의한 제스처가 사용자 또는 오브젝트의 표시를 모델링하지 않고 이미징 시스템의 동작을 제어하는데 사용되도록 3차원 이미징 시스템과 용이하게 통합될 수 있는 사용자 인터페이스를 제공하는 것이다. 또한, 장면 내의 사용자 또는 오브젝트의 위치의 사전 검출 또는 추적에 대한 요구사항은 없다.

본 발명에 따르면, 제스처 인식을 이용하여 사용자 인터페이스 시스템과 상호작용하는 방법으로서, a) 적어도 하나의 다차원 이미징 시스템의 시야 내에 장면의 적어도 하나의 다차원 표시를 형성하는 단계; b) 상기 다차원 표시에 대하여 다차원 제한 클러스터링 동작을 수행하여 상기 장면의 클러스터 표시를 제공하는 단계; c) 제스처 인식에 사용될 수 있는 상기 클러스터 표시로부터 POI(point of interest) 후보를 식별하는 단계; d) 상기 인식된 제스처에 따라 사용자 인터페이스 시스템을 제어하는 단계를 포함하고, 상기 c) 단계는, 단 하나의 다른 클러스터에 연결되고 POI 후보로서 코히어런트 움직임(coherent motion)을 나타내는 적어도 하나의 클러스터를 식별하는 단계를 포함하는 방법이 제공된다.
방법은 POI 후보의 궤적을 따라 궤적 포인트를 식별하는 단계; POI 후보의 궤적 방향의 적어도 하나의 다차원 변화를 식별하는 단계 - 상기 적어도 하나의 다차원 변화는 기준 시드 식별 오더(reference seed identification order)를 갖는 기준 시드 포인트를 형성함 -; 궤적 방향의 연속적인 변화를 식별하는 단계 - 상기 연속적인 변화의 각각은 연속적인 기준 시드 포인트를 형성함 -; 및 상기 기준 시드 포인트 및 상기 궤적 포인트를 이용하여 제스처를 인식하는 단계를 포함하는 적어도 연속적인 궤적 분석을 이용하는 단계를 더 포함한다.
제스처 인식의 일부로서, 상기 기준 시드 식별 오더가 사용될 수 있다.
유리하게, 상기 궤적 분석은, 각 포인트에 대하여, 이전의 포인트와 관하여 거리, 속도 벡터 또는 가속도 벡터 중의 적어도 하나를 결정하는 단계를 더 포함한다. 각 포인트에 대한 기하학적 및 통계 계산을 이용하여 상기 제스처를 인식하는 추가의 단계가 구현될 수 있다.
일 실시예에 따르면, 소정의 제스처가 먼저 수행되면 활성화된 POI로서 POI 후보를 활성화할 수 있고, 활성화된 POI는 여전히 PIO 후보 상태를 갖는다. 이 경우, ROI(region of interest)가 활성화된 POI와 연관될 수 있다. 각 POI 후보가 소정의 제스처를 수행하면 적어도 하나의 추가의 활성화된 POI로서 추가의 POI 후보를 활성화할 수 있고, 상기 적어도 하나의 추가의 활성화된 POI는 여전히 POI 후보 상태를 갖는다.
또한, 상기 적어도 하나의 추가의 활성화된 POI와 연관된 적어도 하나의 추가의 ROI(region of interest)를 결정할 수 있다. 각각의 ROI는 POI 후보의 위치에 대하여 설정된 자신의 위치 또는 차원을 가질 수 있다.
방법은 적어도 하나의 결정된 ROI 내의 적어도 하나의 소정의 POI 후보에 의해 수행된 소정의 제스처를 인식하는 단계를 더 포함할 수 있다.
유리하게, 상기 사용자 인터페이스 시스템은 그래픽 사용자 인터페이스를 갖는 제스처 기반 가상 키보드를 포함하고, 상기 그래픽 사용자 인터페이스는 최소의 자연스러운 제스처만을 이용하여 선택하기 위한 소정의 엘리먼트 배열을 갖는다.
일 실시예에서, 방법은 e) 적어도 하나의 POI 후보의 코히어런트 움직임에 따라 상기 사용자 인터페이스 시스템을 제어하는 단계를 더 포함한다.

삭제

상기 사용자 인터페이스 시스템의 현재 상태에 따라 콘텍스트 피드백 정보가 제공될 수 있다.

상기 b) 단계는 다중 해상도 이미지 프로세싱을 이용하는 단계를 포함할 수 있다.

바람직한 실시예에서, 각각의 다차원 표시는 3차원 표시를 포함할 수 있다.

본 발명의 더 나은 이해를 위하여 예로서 첨부된 도면을 참조한다.
도 1은 본 발명의 주요 엘리먼트의 흐름도.
도 2는 본 발명에 따른 사용자 인터페이스의 동작의 흐름도.
도 3은 관심 포인트(POI; point of interest) 위치 측정 및 식별 동작의 흐름도.
도 4는 다중 해상도 프로세스의 흐름도.
도 5는 도 4의 다중 해상도 프로세스를 더 상세히 나타내는 도면.
도 6은 도 4 및 5의 다중 해상도 프로세스에 의해 생성된 저해상도 깊이 맵의 사용의 흐름도.
도 7은 중심 및 극단(extremity)에 대한 링크 그래프를 결정하는 제한된 K 평균 리더-팔로워(leader-follower) 알고리즘의 사용을 나타내는 도면.
도 8은 클러스터 식별 정보를 픽셀에 할당하는 정제(refinery) 프로세스를 나타내는 도면.
도 9는 정제 프로세스의 동작을 상세히 나타내는 도면.
도 10은 도 8의 정제 프로세스의 효과를 나타내는 도면.
도 11은 정제 프로세스의 출력 사용의 흐름도.
도 12는 궤적 기반 "원형" 제스처 인식을 나타내는 도면.
도 13은 궤적 기반 "웨이브" 제스처 인식을 나타내는 도면.
도 14는 궤적 기반 "스와프(swipe)" 제스처 인식을 나타내는 도면.
도 15는 궤적 기반 "푸쉬/풀" 제스처 인식을 나타내는 도면.
도 16은 궤적 기반 "클릭" 제스처 인식을 나타내는 도면.
도 17은 사용자 인터페이스 내비게이션 시스템의 흐름도.
도 18은 가상 키보드 메인 프레임을 나타내는 도면.
도 19는 가상 키보드의 바람직한 실시예를 나타내는 도면.
도 20은 관심 영역(ROI; region of interest) 관리를 위한 흐름도.
도 21은 POI 관리를 위한 흐름도.
도 22는 POI 매니저의 동작에 대한 흐름도.
도 23은 상호 작용 제어기로서 사람과 함께 장면 내의 ROI 및 POI의 표시를 나타내는 도면.
도 24는 사용자가 수행할 것으로 기대되는 제스처를 알리는 활성화 및 제어 제스처 피드백 그래픽 인터페이스를 나타내는 도면.
도 25는 피드백 인터페이스 엘리먼트를 나타내는 도면.
도 26은 피드백 인터페이스 엘리먼트의 바람직한 제1 실시예를 나타내는 도면.
도 27은 피드백 인터페이스 엘리먼트의 바람직한 제2 실시예를 나타내는 도면.
도 28은 애프터 제어 상호작용 프로세스의 흐름도.

본 발명은 콘텍스트 사용자 피드백을 제공할 뿐만 아니라 콘텍스트 제어 및 콘텍스트 인터페이스 엘리먼트를 제공하는 자연스러운 제스처 원격 제어 내비게이션 시스템 및 그 관련 방법을 개시한다. 획기적인 이미지 프로세싱 기술은 3차원 이미징 장치로부터의 출력을 프로세싱하는데 사용된다. 적어도 하나의 POI가 3차원 장면에서 식별되고, POI는 적어도 하나의 획정된 ROI 내에서 상호 작용하여 획기적이고 효율적인 궤적 및/또는 움직임 분석을 이용하여 실시간 자연스러운 제스처 인식 분석이 각각의 식별된 POI에 대하여 수행될 수 있다. 제스처 인식 분석의 출력 데이터는 연속적인 포인팅 신호로서 사용될 수 있고, 시스템 내의 이벤트를 트리거하기 위해, 예를 들어, 시스템 내의 엘리먼트의 선택 및 활성화를 위해 사용될 수 있다. 시스템은 직관적이고 자연스럽고 고통없는 제어에 따른 자연스러운 제스처 구동 사용자 인터페이스를 이용한다.

더 상세히, 본 발명은 의미없는 다차원 포인트 클라우드로부터 또는 캡쳐된 깊이 맵 이미지 또는 일련의 캡쳐된 깊이 맵 이미지로부터 사용자 및 머신 또는 시스템 간의 상호 작용을 정의하는 임의의 데이터를 추출할 수 있는 신규하고 효율적인 방법 및 시스템을 제공한다. 그런 의미에서, 데이터는 2개의 클래스로 분리되는데, 그 첫번째는 사용자가 정보를 제어하여 인터페이스로 전달하도록 하는 입력 데이터이고 그 두번째는 머신 또는 시스템에 의해 출력된 콘텍스트 데이터 및 관련 애플리케이션이다. 본 발명에 따르면, 사용자 인터페이스 시스템은 2개의 데이터 세트에 대하여 사용자로의 피드백/정보를 포함한다. 더 정밀하게, 시스템/머신/사용자 인터페이스와 상호 작용하는데 사용되는 신체 또는 오브젝트에 관한 적어도 하나의 POI를 식별하는 방법을 제공한다.

또한, 본 발명의 방법 및 시스템은 또한, 기대되는 제스처 및 수행되는 것과 관련된 피드백 정보를 제공하면서 자연스러운 제스처 제어와 결합하여 사용자가 가장 직관적이고 효율적인 방법으로 상호 작용하도록 요구하는 콘텍스트 인터페이스 시스템을 정의할 수 있다. 상술한 것은 모두 실시간 크로스-플랫폼 프로세싱 호환성의 제한을 극복한다.

더 정밀하게, 본 발명은 예를 들어 디스플레이 스크린 상에서 적어도 콘텍스트 피드백, 제어 및 인터페이스 엘리먼트를 제시하는 내비게이션 방법 및 시스템을 제공한다. 피드백은 임의의 감지 관련 신호를 제공할 수 있는 임의의 다른 장치로 확장될 수 있다. 여기서, 방법 및 시스템은 3차원 이미징 장치를 이용하여 3차원 장면에서 적어도 하나의 POI를 검출한다. 또한, 내비게이션 방법 및 시스템은 또한 검출된 POI 및 더 정밀하게 자신의 궤적의 개별 판독치에 대하여 수행되는 매립 실시간 자연스러운 제스처 인식 분석 시스템을 포함한다. 자연스러운 제스처 인식 분석 시스템으로부터의 출력 데이터는 사용자 인터페이스에 대한 제어기로서 사용된다.

본 개시물은 또한 다차원 특히 POI 검출된 자연스러운 제스처 인식을 포함하는 3차원 이미지 프로세싱에 기초한 사용자 인터페이스 및 비접촉 원격 제어 시스템에 관한 것이다. 이 점에서, 본 발명은 시간에 따라 공간-시간 코히어런시를 입증하는 클러스터를 생성하는 클러스터링 알고리즘을 이용하여 지능적인 방식으로 분할될 수 있는 촬영 장면을 이용한다. 본 발명의 사용자 인터페이스는 입력으로서 3차원 장면을 나타내는 깊이 맵을 이용할 수 있고, 장면 내의 각각의 픽셀은 x 및 y 뿐만 아니라 깊이 값으로서 알려진 z 좌표를 갖는다. 사용자 인터페이스로부터의 출력은 사용자의 제스처에 의해 생성된 연속적이고 산발적인 이벤트를 포함한다. 콘텍스트 사용자 인터페이스 피드백이 또한 사용될 수 있다.

더 정밀하게, 장면 내의 픽셀은 일반적으로 K 평균(K-means) 및 리더-팔로워 분할 알고리즘(leader-follower segmentation algorithm)의 혼합을 이용하여 임의의 공간 제한을 갖는 클러스터로 그룹핑될 수 있다. 클러스터는 적어도 리더-팔로워 분할 알고리즘 및 임의의 미리 정의된 파라미터에 따라 생성 및 파괴될 수 있다. 이러한 파라미터는 각 클러스터에 존재할 필요가 있는 최소수의 픽셀일 수 있다. 대안으로, 클러스터의 최대 반경이 파라미터로서 사용될 수 있다. 또한, 식별 코드가 각각의 클러스터에 할당되고 이전 프레임으로부터의 클러스터들은 현재 프레임에 대한 시드(seed)로서 사용될 수 있다.

또한, 장면 내의 사용자의 의도적인 움직임은 장면 내의 의도치 않은 움직임 또는 잡음과 구별될 수 있는 특정한 거동으로 클러스터가 이동하도록 하는 효과를 갖고, 그러므로, 클러스터가 분석될 필요가 있는 POI 후보로서 식별되도록 한다. 적어도 제1 클러스터가 활성화 제스처를 수행하면, 그 클러스터는 POI로서 식별될 수 있다. 장면 분석은 잠재적으로 그 POI의 위치를 둘러싸는 ROI로 감소될 수 있다.

상술한 것을 이용하여, 본 발명은 사용자 인터페이스에 대한 제어를 제공하는데 사용될 수 있는 강건하고 효율적인 방법을 제공한다. 이상적으로는 다음과 같다. (i) 전체 장면이 클러스터링되고 각 클러스터의 움직임 분석이 시간에 따라 수행되므로, 장면으로부터 배경을 제거할 필요가 없고, (ii) 이미징 시스템과 함께 사용되는 3차원 카메라가 신뢰성있는 좌표 시스템에서 신뢰성있는 측정 결과를 제공하므로, 장면 칼리브레이션의 필요가 없으며, (iii) 움직이는 POI는, 공간-시간 코히어런시 특성을 가지며, 또한 바람직한 실시예에서는 적어도 극단이고, POI는 더 바람직한 실시예에서 코히어런트 이동을 나타내므로, 이미지 내의 사용자 또는 오브젝트의 식별의 필요가 없고, (iv) 코히어런트 움직임을 하는 POI는 제어를 서포트하는 것이 되므로, 사람의 손 또는 팔의 임의의 다른 부분의 식별의 필요가 없으며, (v) 취득된 POI의 시간 코히어런시는 충분히 중요하고 신뢰성이 있기 때문에, 움직임 추정 또는 추정 알고리즘의 필요가 없다.

추가적으로, 본 발명의 방법은 사용자의 다른 부분, 예를 들어, 발, 손 및 손에 쥔 오브젝트를 이용하여 제어가 제공되도록 한다. 제어는 또한 기대되는 제스처에 관련된 특정 이동을 수행할 수 있는 오브젝트에 의해 제공될 수 있다.

발명의 특정 실시예의 설명

본 발명은 특정한 실시예 및 특정 도면을 참조하여 설명하지만 그에 제한되지 않는다. 도면은 단지 개략적인 것이며 비제한적이다. 도면에서, 엘리먼트의 일부의 사이즈는 설명의 목적으로 과장되어 있고 반드시 일정한 비율로 그려진 것이 아니다.

일반적인 하나의 구현예에 따르면, 사용자는, 임의의 피드백 정보를 콘텍스트로 제공하고 3차원 장면 정보를 캡쳐하기 위하여 홈 "도모틱(domotic)" 제어기 또는 적어도 하나의 장치에 접속된 멀티미디어 내비게이션 시스템 등의 컴퓨터화된 시스템과 상호작용할 수 있다. 예를 들어, 장치 디스플레이 등의 렌더링 장치는 그래픽 사용자 인터페이스(GUI)의 시각화에서 적어도 하나의 엘리먼트의 표시 변화 등의 임의의 시각적 피드백 정보를 제공하는데 사용될 수 있다. 다른 예에서, 캡쳐링 장치는 사용자가 상호작용하는 장면의 3차원 이미지를 제공하는 3차원 카메라일 수 있다. 방법 및 시스템은 다른 상보 구현예에서 사용자에게 추가의 오디오 피드백 정보를 제공하기 위하여 확성기를 삽입할 수 있다. 자연적으로, 다른 장치가 다른 타입의 감각 피드백을 제공하는데 사용될 수 있다.

사용자로부터 시스템으로의 상호작용은 간단하고, 직관적(즉, 매우 짧은 학습 곡선) 및 고통이 없는 자연스러운 제스처를 포함할 수 있지만, 시스템으로부터 사용자로의 상호작용은 사용자의 액션에 응답하여 시각적 및/또는 청각적 콘텍스트 정보 등의 감각 신호를 포함할 수 있다. 시스템으로부터 사용자로의 상호작용은 또한 사용자가 수행할 것으로 기대되는 상호작용의 표시를 제공할 수 있다.

시스템 및 방법은, 제1 단계에서, 사람-머신 상호작용이 교환될 사람에 의해 수행될 것으로 예측되는 제스처를 나타내는 그래픽 인터페이스의 일부를 형성하는 애니메이션을 디스플레이 화면 상에 제공하는 것을 포함할 수 있다. 이 단계는 상호작용 세션을 시작 및 개시하는데 목표가 있다. 예를 들어, 기대되는 제스처는 텍스트, 애니메이션 드로잉(animated drawing) 또는 비디오로 표현될 수 있는 "손 웨이브"일 수 있다. 사용자는 직관적으로 시각적 신호를 이해하고 적어도 하나의 신체 부분 또는 적어도 자신의 신체 부분 중의 하나에 링크된 오브젝트로 웨이브 제스처를 수행할 수 있다. 일반적으로, 이러한 신체 부분은 사용자의 손일 수 있지만 본 발명은 이러한 신체 부분에 제한되지 않는다. 그러므로, 시스템은 카메라 장치를 이용하여 장면의 3차원 이미지를 촬영하고, 임의의 신호처리를 수행하여 기대되는 제스처의 위치를 찾아 인식하고, 추가의 상호작용이 미래에 바람직하게 기대되는 바람직한 ROI의 위치를 찾아 정의할 수 있다. 동시에, 시스템은 기대되는 제스처를 수행하는 신체 부분을 나타내는 픽셀 그룹일 수 있는 바람직한 POI를 식별할 수 있다. 이 경우, POI는 다음의 상호작용이 제공될 사용자의 부분 표시이다. 따라서, 기대되는 제스처를 수행함으로써, 사용자가 시스템이 기대한 형태로 피드백 대답을 제공했기 때문에, 사용자는 자신을 시스템 제어기로서 활성화할 수 있다. 더 정밀하게, 방법 및 시스템은 기대된 활성화 제스처를 수행한 손을 나타내는 3차원 이미지 포인트의의 그룹 또는 이미지 포인트가 시스템이 보고 분석해야 하는 메인 POI가 되도록 한다. 이 제1 단계는 활성화 및 식별 단계로 흡수될 수 있다. 그러므로, 이 단계는, 선호하는 POI의 검출 전에 사용자가 검출될 필요가 없고 신체 부분 또는 오브젝트 식별이 미리 수행될 필요가 없다는 특징이 있다.

제2 단계에서, 적어도 하나의 POI가 상호작용할 적어도 하나의 ROI가 존재하면, 시스템은 연속적인 포인팅 정보 또는 제스처 이벤트 트리거를 수집하기 위하여 메인 POI로서 지정된 식별된 제1 POI에 대한 제어 제스처 인식을 수행한다. 이 제2 단계는 내비게이션 시스템의 상호작용 인터페이스의 자연스러운 메인 제스처 기반 제어로서 간주될 수 있다. 예를 들어, 인식된 제스처로부터, 시스템은 디스플레이된 GUI 변화를 동적 및 콘텍스트로 수행할 수 있다. 일 실시예에서, 이것은 또한 활성화 제스처 검출 시간에 수행될 수 있다. 일반적으로, 그러나, 배타적이지 않게, 시스템은 화면 상에 사용자가 WWW 내비게이션, 맵 내비게이션, 음악 플레이어, 비디오 플레이어, TV 채널 익스플로러, 사진 갤러리 플레이어, 게임, 사운드 볼륨 제어, 투표 애플리케이션 등의 상이한 종류의 메뉴 또는 애플리케이션을 시작하도록 하는 표시로 이루어진 몇 개의 엘리먼트, 아이콘 및/또는 멀티미디어 메뉴를 디스플레이할 수 있다. 인터페이스의 레이아웃, 즉, 적어도 서브 메뉴 또는 애플리케이션에 대응하는 각각의 엘리먼트, 아이콘 및/또는 표시는 사용자가 가장 쉽고 가장 자연스러운 제스처 이동을 수행하여 엘리먼트, 아이콘 및/또는 표시 중의 임의의 하나를 선택, 사전 선택(pre-selection) 또는 활성화하도록 하는 방식으로 구성될 수 있다. 선택은 몇가지 방식으로, 예를 들어 가장 간단한 방식으로 이루어질 수 있고, 선택은 GUI 엘리먼트에서 포인팅에 의해 달성될 수 있다. 타이머 제어 및 다른 제스처가 가장 간단한 방식과 결합하여 사용될 수 있다.

일반적으로, 선택, 사전 선택 또는 활성화는, 사용자의 표시, 예를 들어, 마우스 포인터 또는 아바타를 원하는 GUI 엘리먼트 상으로 이동하고 그 엘리먼트로 링크된 관련 타이머 기간이 종료하기를 기다림으로써, 자연스러운 제스처 원격 제어를 통해 수행될 수 있고, 경과한 시간의 표시 또는 나머지 시간이 피드백 정보로서 인터페이스 상에 디스플레이될 수 있다.

다른 실시예에서, 선택, 사전 선택 또는 활성화는 또한 하나 이상의 단계에서 수행될 수 있다. 일반적이지만 배타적이지 않게, 선택, 사전 선택 또는 활성화는, 원하는 엘리먼트가 방법 및 시스템의 제스처 기반 연속 포인팅 특징을 이용하여 선택되는 제1 단계 및 예를 들어 POI 포인트가 발생하여 디스플레이된 인터페이스 메뉴를 변경하고 인터페이스 레이아웃을 변경하고 애플리케이션을 실행하는 엘리먼트 또는 표시에 부착 또는 링크된 상호작용을 시작하는 클릭 제스처 또는 푸쉬 이동 제스처 등의 문화적으로 중성적이고 의미적으로 관련될 수 있는 다른 자연스러운 제어 제스처에 기초한 제2 단계를 포함하는 2단계 프로세스에서 수행될 수 있다.

방법 및 시스템의 제1 및 제2 단계는 멀티-POI 및 멀티 ROI에 순응하여 몇 명의 사용자가 동시에 적어도 하나의 컴퓨터화된 시스템 내에서 몇 개의 부분과 사용작용하도록 하거나 네트워크 상에서 다른 것과 링크된 몇개의 컴퓨터화된 시스템과 상호작용하도록 한다.

다른 실시예에서, 인간 대 머신 및 머신대 인간 상호작용 프로세스는 직관적으로 자연스럽게 정의되어 타고난 또는 경험있는 사용자가 적어도 부분적으로 시스템과 상호작용하기 위하여 수행할 것으로 기대되는 제스처에 대한 피드백을 얻을 필요가 없도록 한다. 예를 들어, 타고난 사용자는 자신이 멀리 있는 사람과 통신하는 것과 동일한 방식으로 상호작용 프로세스를 개시하기 위하여 자연스러운 제스처 기반 시스템 앞에 자연스러운 웨이브 제스처를 직관적으로 수행할 수 있다. 다른 예에서, 자연스러운 제스처 기반 상호작용 인터페이스를 이미 경험한 사용자인 사람은 메인 메뉴 또는 사운드 제어 메뉴가 나타나도록 하는 방법을 상기시키거나 가르치기 위하여 화면 상에 임의의 정보를 디스플레이하는 것을 요구하지 않는다. 경험있는 사용자는 임의의 시간에 원형 제스처를 수행함으로써 시스템의 메인 메뉴가 화면 상에 나타나고 제스처 기반 상호작용 시스템과의 상호작용이 상술한 바와 같이 "웨이브 제스처" 등의 활성화 제스처를 수행함으로써 시작되면, 웨이브 제스처를 다시 수행하는 것은 어떤 것이 화면 상에 디스플레이되는 인터페이스 또는 애플리케이션이든 간에 사운드 제어 메뉴가 나타나도록 한다는 것을 안다. 대안으로, 손을 이용하여 사용자의 귀를 막는 등의 의미있는 제스처는 시스템에서 사운드를 뮤트(mute)하는 제어 제스처로서 사용될 수 있다.

본 발명의 다른 실시예에서, 자연스러운 제스처에 의한 콘텍스트 상호작용이 이용되어 "웨이브 제스처" 등의 자연스러운 제스처가 시스템 및 그 애플리케이션의 상태에 대하여 상이한 시간에 상이한 방식으로 사용될 수 있다. 더 정밀한 예에서, 제1 단계에서, 웨이브 제스처는 사용자에게 "웨이브 제스처"를 수행할지를 묻는 애니매이션 그림 기반 정보를 제공하는 시스템 및 사용자 간의 상호작용을 개시, 시작 또는 활성화하는데 사용될 수 있다. 제2 단계에서, 사용자가 요청된 제스처를 수행함으로써 상호작용 시스템을 활성화하면, 애플리케이션 또는 GUI의 상태가 디스플레이되더라도 "웨이브 제스처"가 수행되면 디스플레이 화면 상에 사운드 제어 인터페이스가 나타나게 할 수 있다. 제3 단계에서, 사운드 제어 메뉴가 디스플레이되면, 웨이브 제스처를 다시 수행하는 것은 사운드 제어 메뉴를 사라지게 할 수 있다.

바람직한 실시예에서, 결정된 애플리케이션이 착수되면, 제스처와 연관된 제어가 동적으로 로딩 또는 언로딩될 수 있고, 예를 들어, "웨이브 제스처"는 가상 키보드 애플리케이션 인터페이스에서 문자 선택 소거 등의 상호 작용 프로세스와 동적으로 연관될 수 있다. "웨이브 제스처"는 자동으로 특정 가상 키보드 애플리케이션을 종료될 때 사운드 메뉴 바의 호출과 다시 연관될 수 있다.

시스템 및 방법의 바람직한 실시예에서, 이미지 캡쳐 장치는 2차원 카메라, 스테레오스코픽 카메라, LIDAR, 소닉 이미저(sonic-imager), 공통으로 공지된 구조의 광 3차원 카메라 및 TOF(time-of-flight) 카메라를 포함하는 3차원 카메라를 이용할 수 있다. 더 바람직한 실시예에서, 시스템 및 방법은 깊이 맵 또는 3차원 포인트 클라우드 입력 데이터 타입을 이용할 수 있다.

바람직한 실시예에서, 깊이 맵 또는 다차원 포인트 클라우드가 시공간적으로 의미있는 클러스터로 그룹핑되고, 각각의 클러스터는 중심으로 표현되고 시간에 대하여 개별 이동을 추적하는 것을 허용하는 아이덴티티를 갖는다. 더 바람직한 실시예에서, 3차원 장면 클러스터링은 에를 들어 제한된 K 평균 리더-팔로워 클러스터링 알고리즘일 수 있다.

다른 실시예에서, POI 및 ROI 검출, 위치측정, 식별은, 특히 클러스터 또는 중심 이동을 분석함으로써, 입력 데이터에 대하여 수행되는 신호 프로세싱 알고리즘을 이용한다. 바람직한 실시예에서, 중심 또는 클러스터가 상술한 바와 같이 활성화 제스처를 수행하면, 적어도 제1 POI가 식별되고 중심 또는 클러스터에 부착된다. 더 바람직한 실시예에서, 활성화 제스처를 수행한 중심 또는 관련 클러스터는 클러스터링된 다차원 장면 포인트 클라우드의 RAG(region adjacencies graph)의 극한이 되어야 한다. 더 바람직한 실시예에서, 코히어런트 이동 클러스터 또는 중심이 최상의 POI 후보인지를 결정하는데 몇 개의 후보 중 거짓 양성(false positive) 및 모호성을 제거할 필요가 있다.

다른 실시예에서, 중심 또는 클러스터가 활성화 제스처를 이미 민족하지 않으면, 마스터 POI가 먼저 활성화 제스처를 수행할 것이다. 메인 POI 주변의 영역에서의 임의의 다른 코히어런트 이동 극단(extremity)은 슬레이브 POI로서 흡수될 수 있다. POI의 마스터 또는 슬레이브 상태는 임의의 미리 정의된 룰에 따라 바뀔 수 있다. POI 주변의 영역은 ROI이고, 그 위치는 활성화 제스처가 검출된 위치에 대하여 공간 위치의 중심에 놓인다.

ROI 위치는 정적 또는 동적일 수 있다. 이것은 위치가 적어도 하나의 POI 위치에 따라 변할 수 있다는 것을 의미한다. ROI의 차원은 또한 정적 또는 동적일 수 있다. 이것은 하나의 정적 POI가 초기에 정의된 ROI 밖으로 이동하면 차원이 변경될 수 있음을 의미한다.

소정의 기간 후에 결정된 ROI 내의 임의의 POI가 충분히 이동하지 않거나 임의의 식별된 POI가 ROI 밖으로 이동하면, 시스템은 해당 POI 및 ROI가 더이상 임의의 상호작용을 제공할 수 없기 때문에 파괴할 수 있다. 그 때, 시스템은 상술한 방법 및 시스템의 제1 단계에서 수행된 동일한 프로세스를 이용하여 새로운 POI 및 ROI가 식별되는 것을 기다릴 것이다.

다른 실시예에서, 보안 타이머는 충분히 이동하거나 링크된 ROI로 재입장하면 다시 상호작용을 시작할 때 최근에 디스에이블되거나 비활성화된 POI가 인에이블 또는 재활성화되도록 할 수 있다. 이 보안 타이머 동안, 해당 POI 및 ROI는 파괴 대신 디스에이블 또는 비활성화된다.

다른 바람직한 실시예에서, 자연스러운 제스처 인식은 방법 및 시스템의 특정 단계와 관계없이 분할된 입력 이미지의 클러스터 또는 중심의 궤적 분석에 의해 수행된다. 이것은, 활성화 제스처가 검색되는 제1 단계 또는 제어 제스처가 검색되는 제2 단계 동안, 제스처 인식이 "웨이브", "푸쉬", "클릭", "풀", "스틸(still)", "포인팅" 등의 자연스러운 제스처 뿐만 아니라 "원형", "정사각형", "직사각형", "라인", "크로스", "삼각형" 등의 기본 기하학 형상 검출에 의존한다.

더 바람직한 실시예에서, 제스처 인식은 해당 ROI 내의 마스터 및/또는 슬레이브 POI 궤적 상에서 수행된다.

더 바람직한 실시예에서, 제스처 인식은 POI 궤적 방향의 변화, 결정된 기간 내의 방향의 연속적인 POI 변화 간의 시간, 연속적인 POI 궤적 방향 변화 간의 유클리드(Euclidian) 거리, 연속적인 POI 궤적 방향 변화 간의 POI 속도 및 연속적인 POI 궤적 방향 변화 간의 POI 가속도의 분석에 의해 수행된다. POI 궤적 방향 변화는 적어도 캡쳐된 연속적인 이미지의 프레임 간의 POI의 X, Y 또는 Z 방향의 변화를 의미한다. 이들 POI 궤적 변화는 POI의 후속 위치가 비교되는 기준 시드 포인트를 생성한다. 또한, 궤적 분석은 바람직하게 수행된 제스처를 인식하기 위하여 기준 시드 포인트의 오더링 생성(ordering creation)의 분석을 포함한다.

더 바람직한 실시예에서, 궤적 방향 변화 분석 방법은 궤적 방향 변화 간의 누적 거리 계산 및 X, Y, Z 방향 변화의 계산이 적어도 소정의 임계치 미만이면 POI 후보 중의 코히어런트 이동 중심 또는 클러스터를 결정하는데 사용된다.

상술한 제1 단계 및 제2 단계의 활성화 제스처 또는 제어 제스처에서, 제스처 인식은 "클릭", "푸쉬", "웨이브" 제스처 이벤트 등의 제스처 상호작용 트리거 및/또는 포인팅 위치 등의 연속적인 데이터 정보를 추출하는 시간에 대하여 POI상에서 수행된다.

방법 및 시스템의 특정 실시예에서, 제스처 인식은 가상 키보드 애플리케이션을 제어하는데 사용될 수 있고, 가상 키보드의 GUI의 레이아웃은 사용자가 제한된 수의 제스처로 매우 간단한 이동을 직관적으로 수행하도록 하는 방식으로 배열될 수 있다. 바람직한 실시예에서, 레이아웃은 사용자가 앞뒤 제스처, 예를 들어, POI 표시의 상하 또는 좌우 등의 포인팅 이동만을 수행하여 임의의 다른 제스처없이 문자를 적어도 사전 선택하고 선택하도록 요구할 수 있다. 예를 들어, 레이아웃은 사전 선택 존, 사전 선택 존 하부의 선택 존 및 선택된 문자가 사전 선택존 아래에 디스플레이될 수 있는 텍스트 박스로 이루어질 수 있다. 추가적으로, 단어 사전 선택 존이 또한 텍스트 박스 아래에 제공될 수 있다. 위 아래로 이동함으로써, POI 표시는 자동으로 현재 포인팅된 해당 존의 엘리먼트를 자동으로 선택한다. 다른 실시예에서, 사용자는 각각의 존 상의 결정된 제스처를 수행하여 선택된 엘리먼트를 유효화시킬 필요가 있을 수 있다.

상술한 종래 기술의 개시물과 반대로, 본 발명은 사용자 인터페이스 방법 및 시스템에 실시간 상호작용 능력을 제공하고 이는 터치없고 마커 없는 신규 다차원 제스처 인식 기술에 기초한다. 이것은 소정의 인터페이스 엘리먼트가 콘텍스트/사용자/오브젝트 상호작용과 관련하여 디스플레이되도록 한다. 방법 및 시스템은 전세계적으로 가장 공통이고 알려진 사람의 제스처, 예를 들어, "계속적인 포인팅", "웨이브", "푸쉬", "풀", "좌측 스와프(swipe left)", "우측 스와프" 및 "원형 트리거" 또는 가장 공통인 모든 기하학적 형상으로 제한된 제스처 라이브러리를 이용함으로써 인체공학적으로 최적화된다. 또한, 방법 및 시스템은, 단일 상호작용 및 순차적인 상호작용시에 사용자의 경험을 개선하려는 노력을 최소화함으로써, 예를 들어, POI 위치와 결합하여 타이머를 이용함으로써 또는 간단한 제어 제스처를 이용하여 인터페이스 특징을 활성화하거나 선택을 확인함으로써 인체공학적으로 최적화된다.

아이콘, 버튼, 아바타 등의 제어 엘리먼트를 지원하는 내비게이션 시스템 내의 메뉴가 제공될 수 있다. 대안으로 또는 추가적으로, 제어 엘리먼트는 적어도 멀티미디어 메뉴 및/또는 적어도 가상 키보드를 정의할 수 있다. 이상적으로, 지원하는 제어 엘리먼트의 배열이 상호작용 효율 및 직관성 및 사용자의 경험을 개선하도록 조직된다.

POI 검출은 다차원 장면 분석에 기초한다. 장면은 3차원 클러스터 장면을 포함하고, 그 클러스터는 시공간 코히어런시(spatio-temporal coherency)를 증명한다. 장면 분석은 또한 관심있는 단일 및/또는 다수 포인트 뿐만 아니라 관심있는 단일 및/또는 다수 영역을 지원한다.

본 발명의 방법 및 시스템은 제스처 기반 상호작용이 유도되는 ROI 및 적어도 이들 상호작용 제스처를 생성하는 장면의 POI를 정의하는 활성화 제스처 검출을 지원한다. 제어 제스처는 제스처 인식이 실시간 POI 궤적 분석에 의해 수행되는 상호작용을 트리거하는데 사용된다. 또한, POI의 표시는 적어도 시간에 대하여 POI의 이동 및 그 위치에 대한 피드백을 제공한다.

본 발명은 POI 후보 검출, POI 후보에 대한 활성화 제스처 인식, POI 궤적 분석으로부터의 제어 제스처 인식, 시간에 대한 식별된 POI의 관리, 시간에 대한 식별된 ROI의 관리, POI 및 사용자 인터페이스 간의 상호작용, 콘텍스트 사용자 인터페이스 내비게이션 시스템의 최적화 및 마커없는 제스처 기반 가상 키보드 입력 사용자 인터페이스의 최적화에 대하여 이하에서 설명한다.

도 1에서, 본 발명의 사용자 인터페이스를 구현하기 위한 3개의 메인 컴포넌트를 나타내는 흐름도(100)가 도시된다. 후보 엘리먼트의 궤적 분석에 기초한 활성화 제스처 인식과 결합하여 위치 측정(localization) 및 식별 기술을 이용하여 장면 내의 POI가 검출된다(단계 110). 적어도 POI가 검출되면, 그 POI에 의해 이루어지는 제스처가 그 궤적 분석에 기초하여 검출된다(단계 120). 그 후, 검출된 제스처를 이용하여 사용자 인터페이스를 이용한 내비게이션이 수행된다(단계 130). 이들 단계는 이하에서 더 상세히 설명한다.

도 2는 본 발명에 따라 사용자 인터페이스에서 수행되는 동작을 나타내는 흐름도(200)이다. 단계(205)에서, 입력 데이터가 이미지 프로세싱 시스템에 제공된다. 이 입력 데이터는 적어도 깊이 맵 또는 다차원 또는 3차원 포인트 클라우드(cloud)를 포함하는 장면의 3차원 이미지 형태이다. 깊이 맵은 3차원 이미지 내의 각 픽셀의 이미징 시스템의 카메라 형성 부분으로부터의 포인트 클라우드 내의 각 포인트의 거리에 대응한다. 그 후 3차원 이미지는 분할되어(단계 210) 복수의 클러스터를 생성한다. 단계(215)에서, 클러스터의 리스트가 단계(210)로부터의 출력으로서 제공된다. 그 후, 클러스터의 리스트는 후보 클러스터 정제 프로세스(단계 220)에 대한 입력으로서 사용되고, 단계(225)에서 후보 클러스터의 리스트를 제공한다. 후보 클러스터 정제는 모든 장면 클러스터 중에서 장면 RAG의 극단의 특성을 입증하고 코히어런트 움직임 특성을 갖는 것을 결정하는 것이다. 이 후보 클러스터는 단계(230)에서 활성화 제스처 인식 프로세스에 사용되고, 그 목표는 어떤 후보 클러스터가 소정의 활성화 제스처를 처음 수행할지를 결정하는 것이다. 제스처 인식의 일부로서, 단계(235)에서 POI의 리스트 및 ROI의 리스트가 생성된다. 이들 리스트는 프로세스에서 사용하지 않는 POI 및 ROI를 제거하거나 새로운 POI 또는 ROI를 추가하도록 관리되고(단계 240) 제어 제스처 인식에 대한 입력을 형성한다(단계 250). 제어 제스처 인식은 이벤트 트리거 및 연속적인 제어를 제공하고(단계 255), 이는 콘텍스트 인터페이스 제어에 사용된다(단계 260).

도 3은 POI의 위치를 측정하고 식별하는 특정 실시예를 나타내는 흐름도(300)이다. 입력 데이터는 깊이 맵의 형태일 수 있다. 리스케일링(rescaling)/다중해상도 프로세스(단계 310)를 위해 단계(305)에서 깊이 맵 데이터가 입력된다. 리스케일링/다중해상도 프로세스로부터의 출력은 N레벨 피라미드 이미지 입력 데이터를 포함한다(단계 315). 이 데이터는 그 후 3차원 클러스터링 및/또는 3차원 장면 분할에 사용된다(단계 320). 클러스터링 및/또는 분할 단계는 저해상도 및 고해상도 데이터를 포함하는 N레벨 클러스터 입력 데이터를 제공한다(단계 325). 저해상도 데이터는 그 후 정제 단계에서 정제되고(단계 330) 저해상도 및 고해상도 클러스터를 포함하는 클러스터 입력 데이터가 생성된다(단계 335). 클러스터 입력 데이터는 그 후 RAG 형성기(단계 340), n차원 극단 검출기(단계 350) 및 움직임 및 코히어런시 분석 프로세스(단계 360)에 사용된다. RAG 형성기는 장면의 클러스터 간의 연결 상태를 정의하는 RAG를 생성하고(단계 345), n차원 극단 검출기는 그래프 극단을 포함하는 장면 클러스터의 리스트를 생성하고(단계 355), 움직임 및 코히어런시 분석은 코히어런트 이동 클러스터의 리스트를 결정한다(단계 365). 이들 3개의 엘리먼트의 각각에 관한 데이터는 클러스터 및/또는 POI 식별 프로세스에 대한 입력을 형성하고(단계 370), 적어도 제1 POI를 제1 코히어런트 이동 클러스터로서 결정하고(단계 365), 활성화 제스처에 대응하는 특정 움직임을 입증하는 장면 극단으로 결정한다(단계 355). POI 리스트 및 ROI 리스트가 생성된다(단계 375). POI 및 ROI 리스트가 POI 및 ROI 매니저에 입력된다(단계 380).

단계(310 및 320)에서, 다중해상도 및 3차원 장면 분할의 순서는 이 단계에서 중요하지 않다. 다중해상도는 선택적인 프로세스이고 다른 프로세스를 이용하여 동일한 결과가 얻어질 수 있다.

다중해상도 프로세스의 개요가 도 4에 일반적으로 도시된다. 이하에서 더 상세히 설명하는 바와 같이 장면의 고해상도 깊이 맵을 얻고(단계 410) 및 다중해상도 기술을 이용하여 고해상도 깊이 맵을 프로세싱하는 것으로부터 시작하는 흐름도(400)가 도시된다. 다중해상도 프로세스(단계 420)는 고해상도 깊이 맵을 다운 샘플링하여 적어도 고해상도 깊이 맵(410)을 생성하고 적어도 미드(mid)/중간 해상도 깊이 맵(430) 및 저해상도 깊이 맵(440)을 생성하는 피리미드 프로세싱을 포함한다. 다중해상도 프로세스(420)는 각 피라미드 레벨에 대하여 적어도 해상도를 2로 나누는 것을 포함한다. 3개의 레벨만이 도시되지만, 프로세스(420)는 임의의 적절한 수의 레벨을 포함할 수 있음을 인식할 것이다. 피라미드 다운 샘플링의 예가 도 5에 도시된다.

도 5a에서, 8×8 픽셀의 어레이(500)가 도시된다. 각각의 픽셀은 도시된 바와 같이 배열된 1, 2, 3, 4 또는 5의 깊이 값을 갖는다. 이들 값은 예로서 주어지며 이미징 시스템의 일부를 형성하는 카메라로부터의 각 픽셀의 거리를 나타낸다. 이 경우, 어레이(500)는 n*n의 본래의 해상도를 갖는 고해상도 깊이 맵을 나타내는 것으로 의도된다.

고해상도 깊이 맵이 다음의 레벨로 다운 샘플링되면, (도 5b에 도시된 바와 같이) 8×8 어레이가 4×4 어레이로 다운 샘플링되고 4개의 픽셀의 각 그룹, 예를 들어, 그룹(510) 내의 최소 깊이 값은 어레이(540) 내의 4의 깊이 값을 갖는 단일 픽셀(530)로서 유지된다. 어레이(540)는 본래의 고해상도 깊이 맵의 중간 해상도 레벨을 나타내도록 의도된다. 다운 샘플링 프로세스에서, 본래의 고해상도 깊이 맵이 유지되고 이 경우 (n/2)*(n/2)의 해상도를 갖는 중간 해상도 깊이 맵이 생성된다.

중간 해상도 깊이 맵은 또한 도 5c에 도시된 바와 같이 저해상도 깊이 맵으로 다운 샘플링될 수 있다. 여기서, 4×4 어레이(540)가 다운 샘플링되어 2×2 어레이를 형성한다. 어레이(540) 내의 4개의 픽셀(550)의 하나의 그룹이 다운 샘플링되어 저해상도 어레이(580) 내의 하나의 저해상도 픽셀(570)을 형성하는 것으로 도시된다. 상술한 바와 같이, 4개의 픽셀의 각 그룹 내의 최소 값은 저해상도 깊이 맵, 이 경우, 3에서 유지된다. 저해상도 깊이 맵은 (n/4)*(n/4)의 해상도를 갖는다. (n/8)*(n/8)의 해상도를 갖는 것이 요구되면, 어레이(580)의 해상도를 변경하여 단일 픽셀을 형성할 수 있다.

8×8, 4×4 및 2×2 어레이는 단지 예로서 주어진다. 실제 항에서, 각각의 고해상도 어레이는 더이상 다운 샘플링가능하지 않을 때까지 해상도(n/k)*(n/k)로 임의의 횟수 다운 샘플링될 수 있는 n*n 어레이를 포함할 수 있다.

도 6에는, 장면 클러스터링을 위한 단계를 나타내는 흐름도(600)가 도시된다. 저해상도 깊이 맵(610)은 제한된 K 평균 리더-팔로워 알고리즘(KMLF)(620)으로의 입력을 형성한다. KMLF는 픽셀의 시공간 코히어런트 그룹 내의 장면을 (중심을 갖는) 클러스터로 분할하도록 동작하는 공지된 알고리즘의 혼합물이다. KMLF(620)로부터의 3개의 메인 출력, 즉, 저해상도 클러스터의 저해상도 이미지(630), 각 클러스터의 중심의 링크 그래프(640) 및 링크 그래프로부터 다른 단일 중심으로만 접속된 중심에 대한 극단 위치 측정 및 식별(650)이 존재한다. 링크 그래프(640)는 n=3인 n차원 링크 그래프를 포함한다.

도 7a는 픽셀 깊이 값을 포함하는 저해상도 이미지를 나타내고, 이미지는 예를 들어 제한된 KMLF 알고리즘(620)(도 6)으로 클러스터링된다. 11×11 어레이를 포함하는 저해상도 이미지(700)가 도시된다. 어레이 내의 각 픽셀은 도시된 바와 같이, 1, 2, 3, 4 또는 5의 깊이 값을 갖는다. 픽셀을 클러스터로 그룹핑하는 것은 도 7b에 도시되고, 여기서, 각각의 클러스터는 대략 동일한 깊이 값을 갖는다.

도 7b에서, 클러스터(701, 707, 708, 710)는 동일한 깊이 값을 갖는 것을 쉽게 알 수 있다. 클러스터(702, 703, 704, 705, 706, 707)에 대하여, 이들 클러스터 내의 픽셀의 대부분은 동일한 깊이 값을 갖지만, 상이한 깊이 값을 갖는 소수의 픽셀이 존재할 수 있다. 주변 또는 이웃 픽셀에 대하여 상이한 깊이 값을 갖는 이들 픽셀의 각각은 동일한 깊이 값을 갖는 다른 클러스터로부터 효율적으로 차단된다. 또한, 프로세싱의 편의를 위하여 허용되는 클러스터의 최대 사이즈에 제한이 있다.

도 7c에는 클러스터(701, 702, 703, 704, 705, 706, 707, 708, 709, 710)의 각각에 대한 중심(751, 752, 753, 754, 756, 757, 758, 759, 760)이 도시된다. 중심은 도 7d에 도시된 바와 같이 2차원 공간 뿐만 아니라 3차원 공간에서도 링크될 수 있다.

도 7d에서, 중심(752, 753, 754, 755, 756, 758, 760)는 도시된 바와 같이 서로 연결될 수 있다. 중심(751, 757 및 709)는, 그들의 클러스터가 그 주변 클러스터와 실질적으로 다른 깊이를 갖기 때문에, 연결될 수 없다. 이것은 이들 클러스터가 3D 연결되지 않고 2D 연결되기 때문이다. 2D 연결은 중심이 단지 2차원으로 연결되는 것을 의미하고 3D 연결은 중심이 3차원으로 연결되는 것을 의미한다. 결과적으로, 중심(758 및 760)은 도시된 바와 같이 인접한 클러스터 내의 하나의 인접한 중심, 즉, 중심(754) 및 중심(756)에 3D 연결되는 것을 알 수 있다. 그러므로, 클러스터(708 및 710) 및 그 연관된 중심(758 및 670)은 각각 극단(extremity)을 나타낸다.

도 6으로 되돌아가서, 도 7을 참조하여 설명하는 바와 같이, 저해상도 클러스터의 저해상도 이미지(630), 중심에 대한 링크 그래프(640) 및 위치 측정 극단(650)이 결정된다. 저해상도 클러스터의 저해상도 이미지(630)로부터, 저해상도 및 고해상도 클러스터의 고해상도 이미지(670)가 정제 프로세스(660)를 이용하여 얻어진다.

정제 프로세스(660)는 단지 적어도 POI가 위치하는 3차원 ROI에 의해 정의된 ROI(미도시)에 속하는 클러스터에 적용될 수 있다. 시작시, 즉, 프레임 1, 또는 ROI가 활성화되거나 생성되지 않았으면, 고해상도 이미지(670)는 저해상도 클러스터의 저해상도 이미지(630)와 동일하다. 적어도 ROI가 정의되면, ROI 밖의 클러스터가 정제되지 않을 수 있고 ROI 내의 클러스터만이 정제될 수 있다. 적어도 ROI 밖의 코히어런트 이동 극단 클러스터는 그럼에도 불구하고 다른 실시예에서 정제될 수 있다.

도 8은 정제(refinery) 프로세스(660)로부터 얻어진 입력 및 출력을 나타낸다. 도 8에는, 상이한 해상도 클러스터 입력 데이터(810)가 정제 프로세스(820)에 입력되어 고해상도 클러스터 출력 데이터(830)의 출력을 제공하는 흐름도(800)가 도시된다. 정제 프로세스(820)의 목적은 이미지의 해상도가 증가함에 따라, 예를 들어, 저해상도로부터 중간 해상도 및 고해상도로 갈 때, 클러스터 간의 경계를 선명하게 하는 것이다. 피라미드의 각 레벨에서, 각 픽셀에 대하여, 정제 프로세스는 픽셀이 실제로 어떤 클러스터에 부착되는지를 정의하여 클러스터의 식별을 픽셀에 링크한다. 각각의 픽셀에 대하여, 예를 들어 유클리드 거리의 항에서 가장 가까운 클러스터에 할당된다. 픽셀 및 클러스터 간의 "근접성"을 결정하는 다른 방법이 사용될 수 있다. 정제 프로세스(820)가 도 9에 더 상세히 도시된다.

도 9a에는, 시간(t)에서의 클러스터 식별을 위한 저해상도 어레이(900)(LR(t))가 도시된다. 5개의 픽셀"A" 내지 "E"가 도시된다. 픽셀(E)은 관심 픽셀이다. 저해상도 어레이(900)가 도 9b의 어레이(930)에 의해 도시된 바와 같이 시간(t)에서의 고해상도(HR(t))로 업 샘플링되고, 픽셀(E)은 더이상 픽셀("E")이 아니고 픽셀 "a"로서 간주될 수 있다. 그러나, 픽셀("a")의 아이덴티티는 시간(t-1)에서의 도 9c의 어레이(960)(HR(t-1))에 도시된 바와 같이 몇 개의 값 중의 하나일 수 있다.

그러나, 각각의 픽셀에 대하여, 픽셀 및 비교되는 클러스터의 중심 간의 유클리드 거리의 항에서 가장 가까운 클러스터에 할당된다. 상기 도 9에 도시된 바와 같이, 픽셀 "a"에 대한 클러스터 후보는 다음 중의 하나로 표현될 수 있다.

여기서, ID(a)는 픽셀"a"의 아이덴티티 태그이고,

LR(t)는 시간(t)에서의 저해상도 이미지이고,

HR(t)는 시간(t)에서의 고해상도 이미지이고,

HR(t-1)는 시간(t-1)에서의 고해상도 이미지이고,

D_min(V; X)는 픽셀 "E" 및 X 간의 최소 유클리드 거리이고, 여기서, X는 가장 가까운 클러스터의 중심의 위치이고,

V(x)는 ID가 x인 해당 픽셀의 3차원 값이고,

{A, B, C, D}는 저해상도 어레이(900) 내의 픽셀 클러스터 식별 후보 리스트이고,

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11}는 t-1에서 고해상도 어레이(960) 내의 픽셀 클러스터 식별 후보 리스트이다.

즉, 고해상도 어레이(930) 내의 시간(t)에서의 픽셀"a"의 클러스터 식별은 할당될 것으로 간주될 수 있는 클러스터의 중심 및 화소"a" 사이의 최소 유클리드 거리에 의해 결정된다. 위에서 주어진 바와 같이, 픽셀"a"의 클러스터 식별은

(i) 시간(t)에서의 저해상도 어레이(900) 내의 해당 픽셀("E"(V(E))의 3차원 값;

(ii) 시간(t)에서의 저해상도 어레이(900) 내의 해당 픽셀"A", "B", "C" 또는 "D"(V({A, B, C, D}LR(t)) 중의 임의의 하나의 3차원 값; 또는

(iii)는 시간(t-1)에서의 고해상도 어레이(960) 내의 해당 픽셀"0" 내지 "11" 1V({0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11}HR(t-1)) 중의 임의의 하나의 3차원 값

에 의해 정의된 바와 같이 최소 거리이다.

도 10은 정제 프로세스의 결과의 간략화를 나타낸다. 도 10a에서, 저해상도 이미지(1000) 내에 2개의 클러스터(1010, 1020)가 도시된다. 도 10b는 정제 프로세스(820)가 수행된 후에 고해상도 이미지(1050) 내의 동일한 2개의 클러스터(1060, 1070)를 나타낸다.

상술한 정제 프로세스의 실시예에서, 픽셀이 유효하지 않으면 프로세싱에 픽셀을 고려하지 않는다. 예를 들어, 픽셀을 비추는 카메라로부터 적외선 빔이 소정의 임계치 이하로 떨어지면, 나쁜 조명 그래디언트가 있으면, 픽셀이 배경의 일부로서 플래그되면, 또는 픽셀의 임의의 클리핑 면(clipping plane)의 가상 제한 밖에 있으면, 픽셀이 유효하지 않을 수 있다. 클리핑 면은 프로세싱되는 3차원 공간을 제한한다.

도 11은 사용자 인터페이스의 실시예, 특히, 제어 및/또는 상호작용을 지원하는 POI의 식별 및 검출에 관한 흐름도(1100)이다. 이 실시예에서, 사용자 인터페이스 활성화 제스처 프로세스 검출기로의 2개의 메인 입력, 즉, 일반적으로, (도 6을 참조하여 상술한 바 같이 장면 클러스터링의 하나의 출력으로서 생성된) 저해상도 및 고해상도 클러스터 이미지(1110) 중의 적어도 고해상도 및 (도 6 및 7을 참조하여 상술한 바와 같이 장면 클러스터링의 간접 출력으로서 생성된) 극단(1120)을 갖는 식별된 클러스터가 존재한다. 클러스터 이미지(1110) 및 클러스터 극단 리스트(1120)는 도 6의 링크 그래프(640) 내의 극단으로서 태깅된 클러스터의 모든 중심에서 보이고 코히어런트 움직임을 입증하는 활성화 제스처 검출기(1130)로 입력된다. 이동하는 중심의 코히어런시는 중심이 속하는 클러스터의 수명에 의해 결정되고 제한된 양의 잡음(즉, 변덕스러운 궤적이 아닌)을 갖는 이동을 입증하는 것에 의해 결정되고, 양은 소정의 임계치 이하이다. 이동하는 오브젝트, 이 경우, 클러스터의 중심의 코히어런시는 에를 들어 POI의 방향의 연속적 변화, 즉, 그 중심을 검출하고 궤적 위치 측정 변화의 각각의 위치에 관한 임의의 데이터 산출 및 통계 뿐만 아니라 (궤적 변화 위치에서) 찾은 기준 시드 포인트의 오더링(ordering)을 계산함으로써 결정될 수 있다. 일 예에서, 각 프레임에서의 POI의 방향 변화를 입증하는 궤적은 코히어런트하지 않고 쓸모없는 것으로 간주될 수 있다. 다른 예에서, 프레임 간 반대 방향으로의 고속 이동을 입증하는 궤적은 또한 쓸모없을 수 있고 코히어런트 이동 포인트가 아닌 것으로 간주될 수 있다. 일반적으로, POI 이동 코히어런시는 이동이 소정의 속도 및 가속도 범위 내에 있고, 소정의 시간량 동안 기존의 POI에 의해 수행되고 동일한 방향에서 연속적인 궤적 간의 소정량의 방향 벡터 비선형성을 입증하도록 요구한다.

단계(1130)의 활성화 제스처 검출은 POI 궤적 분석을 수행하는 것을 포함하고, 그러므로, POI의 방향 변화의 검출에 의존한다(제어 제스처 프로세스는 동일한 프로세스에 의존하고, POI의 리스트는 활성화 제스처 클러스터 후보 리스트에 대하여 제한되기 때문에 입력에 의해서만 다르다). 찾은 궤적 방향의 변화에 대하여, 기준 시드 포인트는 상술한 바와 같이 정의된다. 모든 기준 시드 포인트 위치가 시스템에 저장된다. 연속적인 활성화 제스처 인식은 궤적의 연속적인 분석을 의미한다. 이미징 시스템에 의해 캡쳐된 각 프레임에서, 최신의 기지의 기준 시드 위치로의 적어도 POI 거리(D)가 계산되고, 소정 수의 샘플 내에서 제스처가 검출된 후의 궤적의 총 길이(L)이 또한 결정된다. 연속적인 기준 시드 포인트 간의 오더링, 시간, 기하학 및 통계 특성이 제스처를 정의하는 것에 대응하면, 제스처는 즉각적으로 인식되고 기준 시드 포인트를 저장하는 메모리는 리프레쉬된다.

활성화 제스처 검출기(1130)는 기대된 활성화 제스처에 매칭되는지를 결정하기 위하여 코히어런트 움직임에서 극단의 기준을 충족하는 POI 후보의 궤적의 실시간 분석을 수행한다. 이러한 타입의 활성화 제스처는 이하에서 더 상세히 설명한다. 활성화 검출기(1130)는 적어도 시야 내의 극단으로 간주되는 중심의 궤적 분석을 수행하여 기대된 활성화 제스처가 검출될 수 있다. 기대되는 활성화 제스처가 검출되면, ROI는 시야 내에서 생성된다. 활성화 제스처를 생성하는 POI 후보(예를 들어, 클러스터 중심)은 생성된 ROI 내의 마스터 POI가 된다. 추가적으로, 활성화 제스처 검출기는 미리 정의된 활성화 제스처 리스트 중의 적어도 하나를 만든 적어도 하나의 클러스터(POI 후보)에 대하여 상호작용을 수행하는 POI로서 식별된 클러스터 리스트를 생성한다(단계 1140).

제어기 박스 매니저(ROI 매니저)(1150)는, 특정한 사용자 인터페이스 애플리케이션에서 다수의 ROI가 하용되면 및/또는 ROI 재생성이 허용되면, 클러스터 리스트 내의 식별 POI, 즉, 각각의 케이스에서 해당 중심의 식별을 이용하여 중심의 3차원 위치가 기존의 ROI로부터 충분히 멀다는 것을 체크한다. 재생성은 단일 RI 인스턴스에 대하여 활성화될 수 있는 파라미터이며 활성화 제스처가 현존하는 ROI가 임의의 포인터를 갖지 않는 경우 및 기존 ROI 밖에서 만들어지는 경우에 적용된다. 포인터는 활성화 제스처로부터 또는 활성화 제스처 후에 식별된 POI로 간주되지만, 그 위치는 ROI 내에 있다.

또한, 활성화 제스처를 수행한 중심은 ROI 매니저(1150)의 제어하에서 생성된 ROI 내의 마스터 포인터가 될 수 있다. 후속의 코히어런트 이동 극단이 ROI에 들어가면, 그 ROI 내에서 허용되는 POI의 수에 따라 다른 POI가 될 수 있다. ROI 매니저(950)는 ROI 리스트 및 각 ROI에 대한 POI 리스트를 출력한다. POI는 마스터 POI로 플래깅되거나 그렇지 않을 수 있다. ROI 매니저는 해당 ROI에 속하는 각각의 POI의 식별을 이용하여 시간에 대하여 그 ROI를 관리한다.

ROI는 n차원 공간이고, 그 차원은 특정 시스템에 따라 미리 결정된다. 다른 실시예에서, 차원은, 예를 들어, POI가 ROI 밖으로 이동하려고 시도하면 동적으로 변경될 수 있다. 또한, ROI 내의 적어도 2개의 POI로 대각 극단을 정의할 수 있다. 또한, 소정의 기간(D1) 동안 그 내에 활성화된 POI를 갖지 않는 ROI가 비활성화되고 추가의 소정의 기간(D2) 동안 비활성화 상태가 유지되면 파괴된다.

활성화된 POI는 RAG의 극단이고 코히어런트 움직임을 나타내는 것이다.

소정의 기간(D3) 동안 이동하지 않은 활설화된 POI는 비활성화된다. 추가의 추가의 소정의 기간(D4) 동안 여전히 비활성화되면, 파괴된다.

ROI 밖으로 이동한 POI는 ROI로의 경계를 가로지르면 비활성화된다. 소정의 기간(D5) 동안 여전히 비활성화되면 파괴된다. 그러나, 코히어런트 이동 극단(중심)이 이전의 POI가 남아 있는 곳에 근접한 위치에서 D5 기간이 만료하기 전에 (백도어 영역을 통해) 다시 ROI로 들어가면 POI가 재활성화될 수 있다. 백도어 영역은 임계치 타이머에 의해 제어된 소정의 기간 동안 ROI에 남아 있는 곳에 근접한 위치에서 POI가 ROI에 다시 들어가는 영역이다.

제스처 제어로 돌아가서, 제어 신호로서 사용되는 많은 제스처가 존재할 수 있지만, "원형", "웨이브", "수퍼 웨이브", "스와프", "푸쉬", "풀", "스틸(still)", "클릭" 및 "포인팅"만이 기재된다.

시야 내의 POI로서 동작할 수 있는 사용자 또는 오브젝트의 극단의 존재를 결정하면, "원형"은 활성화 제스처로서 사용되어 인터페이스가 활성화되거나 스위치 온되는 것을 이미징 시스템에 지시한다. 그러나, 활성화 제스처는 본 발명에 따라 반드시 사용자 인터페이스를 착수 또는 활성화하지 않을 수 있지만, 단지 어떤 POI가 인터페이스와 상호작용하는지를 결정할 수 있다. 도 12는 궤적 기반 "워원형" 제스처 인식을 나타낸다.

도 12에서, POI의 궤적은 중심 위치에 의해 도시된 바와 같이 프레임마다 결정된다. A, B, C 또는 D를 포함하고 도시된 바와 같이 시계 방향으로 이동하는 포인트 중의 임의의 하나에서 시작하면, 중심의 궤적은 "원형" 주변을 따라 이동하는 것으로 도시된다. 중심이 "원형" 주변을 따라 이동함에 따라 X 및 Y축에 대한 궤적 방향의 다음과 같은 변화가 검출된다.

(i) 포인트(D)로부터 포인트(A)로, +Y축의 방향의 변화가 있고,

(ii) 포인트(A)로부터 포인트(B)로, +X축의 방향의 변화가 있고,

(iii) 포인트(B)로부터 포인트(C)로, -Y축의 방향의 변화가 있고

(iv) 포인트(C)로부터 포인트(D)로, -X축의 방향의 변화가 있다.

"원형"은 중심의 +Y축, +X축, -Y축 및 -X축의 방향의 궤적 변화의 개별 판독 포인트의 대안의 변화에 의해 검출되어 검출된 1/4 원형의 수를 결정한다. 적어도 4개의 1/4 원형을 수행하는 POI는 방향 변화가 검출된 적어도 4개의 기준 시드 포인트를 이용함으로써 결정될 수 있다. 적어도 4개의 연속적 1/4 원형이 중심의 단일 궤적에서 검출될 때 "원형"이 검출된다. 상술한 중심의 방향 변화가 포인트(A 및 C) 간의 거리(DeV) 및 포인트(B 및 D) 간의 거리(DeH)와 함께 검출되어 중심이 "원형"의 활성화 제스처를 실행했는지를 결정한다. "원형"을 정의하는 파라미터는 동일한 방향 내에서 검출된 적어도 4개의 연속적인 1/4 원형, 예를 들어, 시계방향 또는 반시계 방향; 소정의 차원의 원형 사이즈; 소정의 기간 동안 수행된 원형; 및 상술한 바와 같이 소정의 원형 계수를 갖는 원형을 포함한다.

도 13은 궤적 기반 "웨이브" 제스처 인식을 나타낸다. POI의 궤적은 POI 위치에 의해 도시된 바와 같이 프레임마다 결정된다. 여기서, 포인트(A, B, C, D)는 "웨이브"를 실행함에 따라 POI의 궤적의 기준 시드 포인트(이 경우 웨이브 제스처 궤적의 극단)에 대응한다. 포인트(A)에서 시작하여, POI는 포인트(B)로의 거리, 포인트(C)로의 거의 유사한 거리 및 포인트(D)로의 거의 유사한 거리를 이동한다. 도시된 바와 같이, D_X, D_Y 및 D_Z의 X, Y, Z축에 대하여 중심에 의해 이동한 거리에 변화가 있다. 기준 시드 포인트(A, B, C, D) 및 이동된 거리의 검출은 "웨이브" 제스처가 수행된 지시를 제공한다.

"웨이브"는 궤적의 2개의 연속적인 기준 시드 포인트 사이의 방향의 반대 변화에 의해 검출된다. 2개의 연속적인 기준 시드 포인트 간의 거리(D1)는 하프 웨이브(half wave)에 대응한다. 몇 종류의 기준 시드 포인트가 방향 변화 특성에 따라 결정될 수 있다. 각각의 제스처는 몇 종류의 기준 시드 포인트의 시간에 대한 조합일 수 있다. 예를 들어, Y 방향의 변화는 "종류 A"라 불리우는 기준 시드 포인트일 수 있고 X 방향의 변화는 "종류 B"라 불리우는 기준 시드 포인트일 수 있다. 또다른 거리(D2)는 하프 웨이브의 수를 증가시키는 한 축적될 수 있다. 이 다른 거리(D2)가 소정의 범위 내에 있고 선택적으로 중심의 움직임이 소정의 속도 범위 내에 있으면, 연속적인 하프 웨이브의 수가 다른 소정의 값, 즉, 적어도 2개의 하프 웨이브보다 크면, "웨이브"가 검출된 것으로 결정된다.

"수퍼 웨이브"는, 2개의 연속적인 엔드 포인트 간의 거리가 웨이브에 대한 것보다 클 수 있고 중심의 속도가 "웨이브"에 대한 것보다 클 수 있고 연속적인 하프 웨이브의 수가 "웨이브"에 대한 것보다 클 수 있다는 점에서 다르다.

도 14는 궤적 기반 "스와프" 제스처 인식을 나타낸다. POI는 "스와프" 제스처의 실행에서 좌측에서 우측으로 이동하고, POI의 궤적은 PAT1, PAT2, PAT3, PAT4 및 PAT5에서 중심 위치에 의해 도시된 바와 같이 프레임마다 결정된다. 각 프레임에서의 POI의 위치는 PAT1, PAT2, PAT3, PAT4, PAT5로서 도시되고, 각 프레임에서의 POI의 속도 벡터는 각각 V1, V2, V3 및 V4로 도시된다. PAT1은 예를 들어 T₀에서 포인트(A)에 대응한다. 도시된 바와 같이, POI가 제1 위치(PAT1)로부터 마지막 위치(PAT5)로 이동함에 따라 X, Y 및 Z축(D_X, D_Y, D_Z)에 대한 거리는 또한 프레임마다 변경될 수 있다.

POI의 속도가 소정의 임계치를 초과하고 중심이 선형 궤적을 가지면 "스와프"가 검출된다. 선형 궤적 내의 POI에 의해 커버된 거리는 또한 소정의 임계치를 초과할 필요가 있다.

도 15는 궤도 기반 "푸쉬" 또는 "풀" 제스처(이들은 반대이다)를 나타낸다. POI는 "푸쉬" 제스처에서 위치 PAT1로부터 PAT4로 이동하고 "풀" 제스처에서 PAT4로부터 PAT1로 이동하고, POI의 궤적은 PAT1, PAT2, PAT3, PAT4에서 POI 위치에 의해 도시된 바와 같이 프레임마다 결정된다. 각 프레임에서의 POI의 속도 벡터는 각각 V1, V2 및 V3로서 도시된다. 상술한 바와 같이, PAT1은 T₀에서 포인트(A)에 대응한다.

"푸쉬"는 실질적으로 "스와프"의 종류이지만, 깊이 또는 Z축에서, 즉, 카메라를 향하는 방향에 있다. 특히, X축 및 Y축에 대한 POI의 위치는 실질적으로 변하지 않는다.

"풀"은 실질적으로 "푸쉬"와 동일하지만 카메라로부터 멀어지는 방향에 있다.

도 16은 궤적 기반 "클릭" 제스처 인식을 나타내고, POI의 궤적은 AT1, PAT2, PAT3, PAT4 및 PAT5에서 중심 위치에 의해 도시된 바와 같이 프레임마다 결정된다. PAT1은 T₀에서 포인트(A)에 대응한다. 이 경우, POI는 PAT1로부터 PAT5로 Z축을 따라 이동하고, 그 후, PAT6로 복귀한다. 속도 및/또는 가속도는 임의의 시간에 POI에 대하여 프레임마다 계산된 특성이므로, 속도 벡터(V1)만이 도 16에 도시된다.

"포인팅" 제스처는 적어도 연관된 ROI의 차원에 대하여 POI의 상대 위치에 대응한다. POI는 마스터 POI 또는 후속의 POI일 수 있다.

추가의 제스처는 POI가 적어도 소정의 기간 동안 해당 ROI 내에서 소정의 위치에 남아 있는 "스틸"이다.

일반적으로, 제스처는 연속적인 기준 시드 포인트 간의 기본 기하학, 시간, POI 궤적 특성을 계산함으로써 검출되고, 각각의 기준 시드 포인트는 상술한 바와 같이 상이한 종류의 궤적 특성이 검출된 위치이다. 제스처는 또한 기준 시드 포인트 오더링 분석을 이용하여 결정된다.

도 17은 사용자 인터페이스 내비게이션 시스템의 흐름도(1700)이다. 시스템은 2개의 모드, 즉, 박스(1720)에 의해 표시된 수동 제어 모드 및 박스(1760)에 의해 표시된 능동 제어 모드로 동작할 수 있다. 입력 데이터(박스 1710)는 도시된 바와 같이 수동 및 능동 제어 모드에서 사용되고, 입력 데이터는 움직임 검출, 사용자 식별, 사용자 위치 측정 및 POI 검출 모듈(1725) 및 제스처 제어, 음성 제어 및 하드웨어 제어 모듈(1765)에 대한 입력을 형성한다.

수동 제어 모드에서, 입력 데이터가 없고 단계(1725) 내의 프로세스가 시스템을 능동 제어 모드로 들어가게 하는 이벤트로서 트리거되지 않으면, 내비게이션 시스템은 대기 모드에서 동작할 수 있다(박스 1730). 3차원 장면 콘텍스트 분석 모듈(1735)은 시스템이 활성화되는지 또는 대기 모드에 남아 있는지를 결정할 수 있다. 모듈(1735)은 모듈(1725)로부터 입력 제어를 수신하고, 입력 제어는 일반적으로 "대기 모드에 머무르거나 스위칭" 또는 "활성화 모드에 머무르거나 스위칭"이다. 예를 들어, 사용자가 방에 들어가는 것은 카메라의 시야로 들어갈 수 있고 단계(1725)에서 식별될 움직임을 생성할 수 있다. 식별된 움직임은 3차원 장면 콘텍스트 분석 모듈(1735)에 의해 효과적으로 대기 모드에 있던 내비게이션 시스템이 능동 모드로 스위칭하도록 요청하고, 3차원 장면 콘텍스트 분석 모듈(1735)은 시스템의 활성화 모드의 콘텍스트 메뉴 및/또는 콘텍스트 애플리케이션 모듈(1770)과 상호작용한다. 예를 들어, 활성화 모드로 스위칭하면, 시스템은 그래픽 멀티미디어 인터페이스의 메인 메뉴를 스크린 상에 디스플레이할 수 있다. 모듈(1770)은 콘텍스트 사용자 제어 모듈(1775)과 상호작용할 수 있다. 모듈(1775)은 모듈(1765)로부터 입력 제어 신호를 수신하고, 입력 제어는 일반적으로 GUI와 상호작용하도록 허용된 자연스러운 제스처 제어이다. 콘텍스트 메뉴 및/또는 콘텍스트 애플리케이션 모듈(1770)은 많은 형태를 취할 수 있고 사용자에게 인터페이스 피드백을 제공한다. 예를 들어, 애니메이션 그림은 콘텍스트 메뉴 및/또는 콘텍스트 애플리케이션 모듈(1770)와 상호작용하도록 요구되는 제스처를 지시하는데 사용될 수 있다.

도 18은 도 17의 모듈(1770)에 의해 착수된 콘텍스트 애플리케이션일 수 있는 가상 키보드 메인 프레임(1800)을 나타낸다. 메인 프레임(1800)은 사전 선택 영역(1810), 선택 영역(1820), 선택 시퀀스 뷰 영역(1830), 및 제안 영역(1840)을 포함한다. 사전 선택 영역(1810)은 사용자에 의해 선택될 다양한 카테고리의 아이콘 또는 엘리먼트가 위치하는 n개의 서브 사전 선택 영역(1812, 1814, ..., 1818)을 포함한다. 일반적으로, 엘리먼트는 문자의 특성에 따라 그룹핑된다. 선택 영역(1820)은 사전 선택 영역에서 사용자에 의해 선택된 특정 카테고리에 관한 아이콘 또는 엘리먼트의 선택이 위치하는 n개의 서브 선택 영역(1822, 1824, ..., 1828)을 포함한다. 선택 시퀀스 뷰 영역(1830)에는 사용자에 의한 선택이 디스플레이된다. 제안 영역(1840)은 선택된 시퀀스 뷰 영역(1830)에 있는 마지막 선택된 시퀀스에 대하여 사용자에게 제안하는 n개의 서브 제안 영역(1842, 1844, ..., 1848)을 포함한다. 가상 키보드의 구현은 도 19에 도시된다.

도 19에는 가상 키보드(1900)의 특정 배열이 도시된다. 키보드(1900)는 문자 그룹이 디스플레이된 영역(1910)을 포함한다. 문자(1912, 1914, 1916, 1918, 1920, 1922)의 각 그룹이 개별적으로 선택가능하고 문자 그룹의 수는 변경될 수 있다. 영역(1910)의 왼쪽에는 중앙 사전 선택 영역(1910)에 숫자를 디스플레이하는 영역(1930)이 제공되고, 영역(1910)의 오른쪽에는 특수 문자에 대한 영역(1940)이 제공된다. 영역(1910, 1930, 1940)은 도 18을 참조하여 상술한 바와 같이 사전 선택 영역(1812, 1814, ..., 1818)에 대응한다.

영역(1950)은 도 18의 선택 영역(1820)에 대응하고, 여기에서는 선택 옵션으로서 문자(K, L, M, N, O)가 도시되고, 각 문자(K)는 서브 선택 영역(1822, 1824, ..., 1818) 중의 하나에 대응한다(도 18). 영역(1960)은 도 18의 선택 시퀀스 뷰 영역(1830)에 대응하고, 영역(1970)은 제안 영역(1840)에 대응하고, 영역(1972, 1974, 1976, 1978, 1980)은 서브 제안 영역(1842, 1844, ..., 1848)에 대응한다. 문자의 숫자는 임의의 소정 규칙에 따라 변경될 수 있다.

도 19에서, 영역(1916)은 선택 영역(1950)에서 문자(K, L, M, N, O)를 제공하도록 선택된다. 문자(K)가 선택되고 선택 시퀀스 뷰 영역(1960)에 존재한다. 문자(K)가 선택됨에 따라, 다양한 옵션이 제안 영역(1970)에 제안된다. 다른 문자가 선택되면, 선택 영역(1950) 내의 현재의 문자 또는 사전 선택 영역(1910)으로부터 선택되고 선택 영역(1950)에 존재하는 새로운 문자 세트로부터, 제안 영역(1970) 내의 제안이 업데이트된다.

숫자 영역(1930) 또는 특수 문자 영역(1940)이 선택되면, 숫자 또는 특수 문자가 선택(미도시)을 위해 선택 영역(1950)에 디스플레이된다.

숫자 문자 및 특수 문자를 갖는 키보드가 도 19에 도시되지만, 키보드는 숫자 문자 및 특수 문자 대신 또는 그에 더하여 다른 심볼 또는 문자를 가질 수 있다.

상술한 특정한 실시예에서, 수행될 필요한 제스처가 자연스럽고, 직관적이고 고통이 없기 때문에, 사용자 경험은 개선된다. 예를 들어, 제스처 제어 포인터를 1930 또는 1940의 서브 사전 선택에 배치하는 것을 1910의 뷰를 자동으로 업데이트하는 것으로 간주하면, 1970의 사전 선택을 포인팅하는 것은 1950의 뷰를 자동으로 업데이트하고 1950의 서브 선택을 포인팅하는 것은 선택 뷰(1960)을 자동으로 업데이트한다. 마찬가지로, 포인터를 이용하여 스크롤 다운하고, 제안 엘리먼트(1970) 중의 하나를 포인팅할 때 이러한 가상 키보드를 이용하는 것은 수행될 단일 제스처(즉, 포인팅) 및 사용자에 의해 수행되는 상하(전후) 이동만을 요구한다.

덜 효율적인 실시예에서, 엘리먼트 사전 선택 또는 선택 또는 제안 유효화는 타이머에 의해 관리되는 소정의 기간 동안 원하는 엘리먼트를 포인팅하거나 원하는 엘리먼트를 포인팅하고 상술한 "클릭" 제스처 등의 적어도 하나의 다른 자연스러운 제스처를 수행함으로써 수행될 수 있다.

도 20은 ROI 관리를 위한 흐름도(2000)이다. ROI 후보 리스트 및 POI 후보 리스트(즉, 활성화 제스처를 수행한 클러스터)를 포함하는 입력(2010)이 제공된다. 입력(2010)이 체크되어 다수의 ROI이 허용되는지를 결정한다(단계 2020). 단 하나의 ROI가 하용되면, 시스템은 ROI가 이미 시스템 내에 존재하는 지를 체크한다(단계 2030). ROI가 이미 존재하지 않으면, 새로운 ROI가 적어도 제1 ROI 후보에 기초하여 생성되고(단계 2040), 그 새로운 ROI에 대하여, 연관된 마스터 POI가 설정된다(단계 2050). 그 후, 출력(2060)은 정제된 ROI 리스트 및 (잠재적으로 적어도 마스터 POI가 플래그된) POI 리스트를 포함한다.

다수의 ROI가 허용되면, 시스템은 허용가능한 ROI의 수 및 적어도 각 ROI의 차원을 포함하는 입력 파라미터(2015)를 이용하여 ROI 후보가 유효한지를 체크한다(단계 2025). 모듈(2025)의 입력 파라미터가 만족하고 ROI 후보가 임의의 기존의 것과 중첩되지 않으면, 새로운 ROI가 적어도 제1 ROI 후보로부터 생성된다. 또한, 연관된 마스터 POI가 설정된다(단계 2050).

또한, 단일 ROI가 허용되고 이미 존재하면, 그 ROI 내의 마스터 POI의 상태가 능동일지를 결정한다(단계 2035). 마스터 POI가 능동이 아니면, 기존 ROI가 파괴될 수 있고(단계 2045) ROI 후보 및 그 연관된 마스터 POI에 대하여 새로운 ROI가 생성된다(단계 2040).

도 21은 POI 관리를 위한 흐름도(2100)이다. 입력 데이터(2110) 및 입력 파라미터(2120)는 마스터 POI(단계 2130) 및 슬레이브 POI(단계 2140)를 관리하기 위하여 제공된다. 일반적으로, 배타적이지는 않지만, 마스터 POI는, 활성화 제스처를 수행하고 ROI가 부착된 POI이다. 임의의 다른 실시예에서, 마스터 POI 및 슬레이브 POI 상태는 임의의 소정의 룰에 따라 교환될 수 있다. 예를 들어, 마스터 POI가 손실되면, 슬레이브 POI가 마스터 POI의 상태를 취할 수 있다. 단계(2130 및 2140)의 각각으로부터의 출력은 마스터 및 슬레이브 POI를 상관하는데 사용되고(단계 2150), 이 결과는 식별된 POI의 새로운 리스트 및 식별된 ROI의 새로운 리스트를 포함하는 출력(2160)을 제공한다. 마스터 및 슬레이브 POI의 상관은 더이상 능동이거나 유용하지 않은 POI를 비활성화하는 것을 포함할 수 있다.

도 22는 POI 관리 프로세스를 위한 흐름도(2200)이다. 입력 데이터(2210), 즉, POI는 POI 상태 분석 프로세스(2220)에 인가되고, 여기서, 출력은 POI 손실(2225), POI 능동(2230) 또는 POI 수동(2235)이다. 이들 출력은 예를 들어 몇 개의 타이머 값을 포함하는 입력 파라미터(2215)와 함께 POI 특성 분석 프로세스(2240)에 인가된다. 특성 분석(2240)은 타이머(현재 상태에서 시간 길이), 위치, 극단, 및 POI가 마스터 또는 슬레이브인지 등의 특성을 평가한다. 특성 분석(2240)으로부터, 다음의 출력 중의 하나 이상이 제공된다: POI 상태 업데이트(2250), 백도어 관리(2260), POI 위치 업데이트(2270), POI 마스터/슬레이브 상관(2280) 및 POI 블랙리스트(2290). POI 블랙리스트는 특정한 ROI에서 이용할 수 없는 POI의 식별을 포함하는 리스트이다. 예를 들어, 다른 ROI 밖으로 이동한 POI는 비활성화될 수 있고 블랙리스트에 들어갈 수 있다. 이러한 POI는 소정의 기간 후에 다른 ROI로부터 끊어지면 블랙리스트로 이동하고, 현재 ROI와 연관된 파라미터를 만족하면 현재 ROI와 연관될 수 있다.

도 23에서, ROI 및 POI의 표시(2300)가 도시된다. 표시(2300)에서, 2개의 POI(2320 및 2330)이 ROI(2340) 내에 도시된 사용자(2310)의 표시가 제공된다. POI는 일반적으로 배타적이지는 않지만 사람의 손의 표시이다. ROI(2340)는 POI(2320, 2330)을 포함하는 3차원 공간 내의 점선 박스로서 도시된다. 이들 POI의 각각은 중심에 대응하고 장면의 해당 클러스터 이미지의 RAG의 3차원 극단에 위치한다. 이 경우, 손은 팔의 끝에 위치하기 때문에 신체의 극단이다. 하나의 POI, 즉, POI(2320)는 마스터 POI로서 선택되고 다른 POI, 즉 POI(2330)는 슬레이브 POI이다. 특정 실시예에서, 마스터 POI 및 슬레이브 POI는 제어 제스처, 예를 들어, 선택, 유효화 등에 사용된다.

활성화 및 제어 제스처 인터페이스 피드백이 도 24에 도시된다. 도 24a는 "웨이브" 제스처를 나타내는 손(2420)의 진동 이동과 함께 사용자의 사용자/제어기 표시(2410)를 나타낸다. 마찬가지로, 도 24b는 "원형" 제스처를 나타내는 손(2430)의 원형 이동과 함께 사용자/제어기 표시(2410)가 도시된다. 사용자/제어기 표시(2410)는 도 24a 및 24b에 도시된 것에 제한되지 않고 사용자에 쉽게 인식될 수 있는 임의의 적절한 형태로 표시될 수 있다.

도 24a 및 24b에 도시된 사용자/제어기 표시는 일반적으로 본 발명에 따라 사용자 인터페이스와의 상호작용시 특정한 시간에 어떤 제스처가 요구되는지를 사용자에게 지시하는 피드백 정보로서 사용될 수 있다.

도 25는 사용자(미도시)와의 상호작용을 따르는 인터페이스 엘리먼트 피드백(2500)의 비제한적 실시예를 나타낸다. 디폴트 제어 엘리먼트 표시 또는 아이콘이 2510에 도시된다. 아이콘(2510)과의 사용자 상호작용 동안 및/또는 후에, 아이콘은 다음 중의 하나로서 디스플레이된다: 2520에 도시된 환경 변화, 2530에 도시된 형태 변화, 2540에 도시된 콘텐츠 변화, 2550에 도시된 동일 상태 유지, 2560에 도시된 위치 및 배향 변화, 2570에 도시된 형태, 환경 및 콘텐츠 변화 등의 변화 조합.

도 26은 본 발명에 따라 인터페이스 엘리먼트 피드백 프로세스(2600)의 바람직한 제1 실시예를 나타낸다. 시스템과의 상호작용을 제어하는 POI의 표시(2610)가 손의 형태로 도시된다. 또한 "아이콘"을 갖는 원형 버튼의 형태로 그래픽 사용자 인터페이스(GUI) 제어 엘리먼트 표시(2620)가 도시된다. "아이콘"은 무엇이 요구되거나 해당 엘리먼트가 어떤 상호작용과 연관되는지를 사용자가 이해할 수 있도록 하는 임의의 적절한 엠블렘, 용어 또는 칼라로 대체될 수 있다. 예를 들어, "아이콘"은 "게임 시작"으로 대체될 수 있다. 버튼(2620)이 선택됨에 따라, 사용자 및 버튼 간의 상호작용의 상태의 표시로서 그 외형이 변화하고, 예를 들어, 도시된 바와 같이 버튼이 채워지거나 하이라이트된다. 이것은 원하는 액션 및/또는 선택이 개시되는 위치(2660)에 도달할 때까지 2630, 2640, 2650에서 점진적으로 도시된다. 버튼이 버튼의 활성화를 나타내는 정확한 외형을 달성하면, 사용자는 2670에 도시된 바와 같이 릴리즈 또는 선택해제할 수 있거나 사용자 인터페이스의 새로운 표시와의 상호작용을 직접 시작할 수 있다. 상호작용이 사용자 인터페이스 엘리먼트를 변화시키지 않으면 다음의 활성화에 대비하여 초기 외형으로 복귀할 수 있다.

도 27은 본 발명에 따라 다른 바람직한 인터페이스 엘리먼트 피드백 프로세스(2700)를 나타낸다. 인터페이스 엘리먼트 피드백(2700)은 상기 도 26을 참조하여 설명한 피드백 프로세스와 동일한 방식으로 동작한다. 이 경우, 버튼(2720)이 선택됨에 따라, 그 외형이 변하지만, 이 때, 원하는 액션 및/또는 선택이 개시될 때까지 사용자 및 버튼 간의 상호작용의 상태의 표시로서 2740, 2750, 2760에 도시된 바와 같이 링(2730)의 형태의 애니메이션이 시간에 따라 단계적으로 형성된다. 버튼이 버튼의 활성화를 지시하는 정확한 외형을 달성하면, 사용자는 2740에 도시된 바와 같이 릴리즈 또는 선택해제할 수 있거나 해당 엘리먼트와 연관된 제어가 그래픽 사용자 인터페이스를 변화시키면 또다른 인터페이스와의 상호작용을 직접 시작할 수 있다. 상호작용이 사용자 인터페이스 엘리먼트를 변화시키지 않으면 다음의 활성화에 대비하여 버튼은 초기 외형으로 복귀할 수 있다.

인터페이스 사용자 표시 피드백은 또한 인터페이스 엘리먼트 피드백을 위하여 도 25를 참조하여 설명한 것과 유사한 방식으로 제공될 수 있다. 사용자의 표시는 상호작용 상태에 따라 변하는 것으로 도시된다. 이 상호작용 상태는 메뉴 엘리먼트 또는 사용자 제스처 제어로 콘텍스트로 정의된다. 예를 들어, 커서/포인터 표시는 그 이용가능성, 그 상태(능동 또는 비능동), 그 위치(지정된 ROI 내 또는 지정된 ROI 밖) 또는 그 상호작용 상태(콘텍스트 인터페이스 제어 엘리먼트와 상호작용하는지의 여부)에 따라 변할 수 있다. 상술한 바와 같이, 엘리먼트와의 사용자 상호 작용 동안 및/또는 후에, 엘리먼트는 다음 중의 하나로서 디스플레이될 수 있다: 환경 변화, 형태 변화, 콘텐츠 변화, 동일 상태 유지; 위치 및 배향 변화 또는 형태, 환경 및 콘텐츠 변화 등의 변화의 조합. 추가적으로, 도 26 및 27을 참조하여 설명한 실시예는 또한 사용자 인터페이스 표시 피드백을 위해 구현될 수 있다.

또한, 커서 배향은 이동 방향에 따라 변할 수 있다. 예를 들어, 커서는 상술한 바와 같이 손으로 표시될 수 있고, 손 표시는 시간에 따라 열린 상태에 있고,엘리먼트가 인터페이스에서 선택/유효화/그랩(grab)되었을 때 손 폐쇄 표시로 변한다.

도 28은 흐름도(2800)의 형태로 제어 상호작용 프로세스후의 인터페이스를 나타낸다. 흐름도(2800)에서, 제스처 인식 기반 제어 프로세스(2820)에 입력을 제공하는 제1 인터페이스 상태(2810)가 도시된다. 이 프로세스는 출력으로서 제2 인터페이스 상태(2840)를 제공하는 애프터 제어 제스처 기반 유효화 프로세스(2830)에 입력을 제공한다.

이 프로세스는 제스처 제어 유효화 프로세스의 도입을 위한 도면이다. 제스처 제어 유효화 프로세스의 목적은 간단한 애프터 제어 상호작용으로 수행되고 인식되는 제스처 제어를 유효화하여 추가 또는 에러가 잇는 제스처가 원하지 않는 제어/명령/액션을 실행하는 것을 방지하기 위한 것이다. 예를 들어, 사용자는 영화를 보면서 원형 제스처를 수행할 수 있고, 원형 제스처는 시스템의 메인 메뉴가 스크린 상에 나타나도록 하는 시스템 내의 프로세스와 연관된다. 애프터 제어 프로세스는 사용자가 영화를 중지하고 메인 메뉴를 액세스하기를 원하는지를 사용자에게 묻는 "예"/"아니오" 유효화 박스를 나타나게 할 수 있다. "예"/"아니오" 유효화 박스를 이용하기 위하여, 애프터 제어는 다른 자연스러운 제스처 제어를 이용한 입력, 예를 들어, "예"를 나타내는 오른쪽 스와프 및 "아니오"를 나타내는 왼쪽 스와프를 필요로 한다. 또한, 다른 실시예에서, 제스처를 실행하는 POI가 소정의 기간 동안 소정의 위치에서 유지되면 이 유효화 박스의 제어만이 활성화될 수 있다. 유효화 인터페이스는 활성화된 제어에 따라 그 외형을 변경할 수 있다. 예를 들어, 인터페이스는 유효화 인터페이스가 사용할 준비가 되어 있으면 적색에서 녹색으로 변경될 수 있다.

추가적으로, 본 발명의 방법 및 시스템은 다음과 같은 이점을 갖는다.

(i) 장치 입력 데이터를 캡쳐하는 확장성, 즉 임의의 해상도의 이미지에 부합

(ii) 실시간 크로스 플랫폼 동작, 즉, 임의의 하드웨어 및/또는 오퍼레이팅 시스템에 부합

(iii) 종래의 사용자/오브젝트 검출 및/또는 식별이 요구되지 않음

(iv) 종래의 사용자 부분/오브젝트 부분 검출 및/또는 식별이 요구되지 않음

(v) 제스처 분류기가 요구되지 않음

(vi) 다수의 제어가가 허용됨, 즉, 다수의 ROI 및/또는 다수의 사용자/오브젝가 허용됨

(vii) 다수의 POI가 허용됨, 즉, 몇 개의 POI가 각 단일 ROI에서 허용됨

(viii) 특정 추적/움직임 추정 알고리즘이 요구되지 않음

(ix) 최소의 신체 노력 인터페이스, 즉, 인터페이스 레이아웃 구성으로 개선된 사용자 경험

(x) 직관적이고 효율적인 인터페이스, 즉, 제어를 위해 적은 자연스러운 제스처 사용

(xi) 인터페이스로부터 지능적인 콘텍스트 정보 피드백

본 발명의 사용자 인터페이스는 특정한 실시예에 대하여 설명하였지만, 본 발명은 다른 실시예를 이용하여 구현될 수 있다.

Claims

제스처 인식을 이용하여 사용자 인터페이스 시스템과 상호작용하는 방법에 있어서,
a) 적어도 하나의 다차원 이미징 시스템의 시야 내에 장면의 적어도 하나의 다차원 표시를 형성하는 단계;
b) 상기 다차원 표시에 대하여 다차원 제한 클러스터링 동작을 수행하여 상기 장면의 클러스터 표시(clustered representation)를 제공하는 단계;
c) 제스처 인식에 사용될 수 있는 상기 클러스터 표시로부터 POI(point of interest) 후보를 식별하는 단계; 및
d) 상기 인식된 제스처에 따라 상기 사용자 인터페이스 시스템을 제어하는 단계
를 포함하고,
상기 c) 단계는, 단 하나의 다른 클러스터에 연결되고 POI 후보로서 코히어런트 움직임(coherent motion)을 나타내는 적어도 하나의 클러스터를 식별하는 단계를 포함하는 것인, 사용자 인터페이스 시스템과 상호작용하는 방법.
제1항에 있어서,
POI 후보의 궤적을 따라 궤적 포인트를 식별하는 단계;
POI 후보의 궤적 방향의 적어도 하나의 다차원 변화를 식별하는 단계 - 상기 적어도 하나의 다차원 변화는 기준 시드 식별 오더(reference seed identification order)를 갖는 기준 시드 포인트를 형성함 -;
궤적 방향의 연속적인 변화를 식별하는 단계 - 상기 연속적인 변화의 각각은 연속적인 기준 시드 포인트를 형성함 -; 및
상기 기준 시드 포인트 및 상기 궤적 포인트를 이용하여 제스처를 인식하는 단계
를 포함하는 적어도 연속적인 궤적 분석을 이용하는 단계를 더 포함하는, 사용자 인터페이스 시스템과 상호작용하는 방법.
제2항에 있어서, 상기 궤적 분석은, 각 포인트에 대하여, 이전의 포인트와 관련하여 거리, 속도 벡터 또는 가속도 벡터 중의 적어도 하나를 결정하는 단계를 더 포함하는 것인, 사용자 인터페이스 시스템과 상호작용하는 방법.
제3항에 있어서, 상기 궤적 분석은 각 포인트에 대한 기하학적 및 통계 계산을 이용하여 상기 제스처를 인식하는 단계를 더 포함하는 것인, 사용자 인터페이스 시스템과 상호작용하는 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, 소정의 제스처를 먼저 수행하면 활성화된 POI로서 상기 POI 후보를 활성화하는 단계를 더 포함하고, 상기 활성화된 POI는 여전히 POI 후보 상태를 갖는 것인, 사용자 인터페이스 시스템과 상호작용하는 방법.
제5항에 있어서, 상기 활성화된 POI와 연관된 ROI(region of interest)를 결정하는 단계를 더 포함하는, 사용자 인터페이스 시스템과 상호작용하는 방법.
제5항에 있어서, 소정의 제스처를 수행하면 적어도 하나의 추가의 활성화된 POI로서 적어도 하나의 추가의 POI 후보를 활성화하는 단계를 더 포함하고, 상기 적어도 하나의 추가의 활성화된 POI는 여전히 POI 후보 상태를 갖는 것인, 사용자 인터페이스 시스템과 상호작용하는 방법.
제7항에 있어서, 상기 적어도 하나의 추가의 활성화된 POI와 연관된 적어도 하나의 추가의 ROI(region of interest)를 결정하는 단계를 더 포함하는, 사용자 인터페이스 시스템과 상호작용하는 방법.
제4항에 있어서, 각각의 ROI는 POI 후보의 위치에 대하여 설정된 자신의 위치 및 차원을 갖는 것인, 사용자 인터페이스 시스템과 상호작용하는 방법.
제6항에 있어서, 상기 적어도 하나의 결정된 ROI 내의 적어도 하나의 소정의 POI 후보에 의해 수행된 소정의 제스처를 인식하는 단계를 더 포함하는, 사용자 인터페이스 시스템과 상호작용하는 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 사용자 인터페이스 시스템은 그래픽 사용자 인터페이스를 갖는 제스처 기반 가상 키보드를 포함하는 것인, 사용자 인터페이스 시스템과 상호작용하는 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
e) 적어도 하나의 POI 후보의 코히어런트 움직임에 따라 상기 사용자 인터페이스 시스템을 제어하는 단계를 더 포함하는, 사용자 인터페이스 시스템과 상호작용하는 방법.
제12항에 있어서,
상기 e) 단계는 상기 사용자 인터페이스 시스템의 현재 상태에 따라 콘텍스트 피드백 정보를 제공하는 단계를 더 포함하는 것인, 사용자 인터페이스 시스템과 상호작용하는 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 b) 단계는 다중 해상도 이미지 프로세싱을 이용하는 단계를 포함하는 것인, 사용자 인터페이스 시스템과 상호작용하는 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, 각각의 다차원 표시는 3차원 표시를 포함하는 것인, 사용자 인터페이스 시스템과 상호작용하는 방법.
삭제
삭제
삭제
삭제
삭제