KR20120054550A

KR20120054550A - 비디오 스트림에서 움직이고 있는 비정형 물체들을 실시간으로 검출 및 추적하여, 사용자가 컴퓨터 시스템과 상호 작용할 수 있게 해주는 방법 및 디바이스

Info

Publication number: KR20120054550A
Application number: KR1020110121105A
Authority: KR
Inventors: 니꼴라 리베; 또마 빠스끼에
Original assignee: 또딸 이메르지옹
Priority date: 2010-11-19
Filing date: 2011-11-18
Publication date: 2012-05-30
Also published as: US20120129605A1; EP2455916B1; EP2455916A1; JP2012113714A; FR2967804A1; JP5967904B2; FR2967804B1

Abstract

본 발명은 특히 이미지 센서의 필드에 놓여 있는 물체의 움직임에 따라 소프트웨어 애플리케이션과의 상호 작용을 검출하는 것에 관한 것이다. 제1 및 제2 이미지를 수신하고 제1 이미지에서 제1 관심 영역을 식별하고, 제1 관심 영역에 대응하는 제2 관심 영역은 제2 이미지에서 식별된다. 제1 및 제2 관심 영역들이 비교되고(440), 제1 및 제2 관심 영역에서 대응하는 포인트들의 적어도 하나의 특징의 변동을 특징 짓는 관심 마스크가 판정된다. 그 다음 물체의 움직임이 상기 관심 마스크로부터 판정된다(445). 움직임이 분석되고, 응답하여 소정의 액션이 트리거 되거나 되지 않는다.

Description

비디오 스트림에서 움직이고 있는 비정형 물체들을 실시간으로 검출 및 추적하여, 사용자가 컴퓨터 시스템과 상호 작용할 수 있게 해주는 방법 및 디바이스{METHOD AND DEVICE FOR DETECTING AND TRACKING NON-RIGID OBJECTS IN MOVEMENT, IN REAL TIME, IN A VIDEO STREAM, ENABLING A USER TO INTERACT WITH A COMPUTER SYSTEM}

본 발명은 일련의 이미지들을 나타내는 비디오 스트림에서 이미지들의 분석 및 이들의 추적에 의한 물체들의 검출에 관한 것으로, 특히, 비디오 스트림에서 움직이고 있는 비정형 물체들을 실시간으로 검출 및 추적하여, 사용자가 컴퓨터 시스템과 상호 작용할 수 있게 해주는 방법 및 디바이스에 관한 것이다.

특히 증강된 현실성(reality)은 일련의 이미지들을 나타내는 비디오 스트림의 이미지들에 하나 이상의 가상 물체들을 삽입하는 것을 요구한다. 이런 타입의 애플리케이션에 따르면, 이들 가상 물체들의 위치 및 방향은, 이미지들에 의해서 나타나는 장면에 대하여 외부에 있는 데이터, 예를 들면 게임 시나리오로부터 직접 획득된 좌표들에 의해서 판정하거나, 또는 그 장면의 어떤 엘리먼트들에 연결된 데이터, 예를 들면 플레이어의 손과 같은 장면에서 특정 포인트의 좌표들에 의해서 판정될 수 있다. 실제 장면에 나타나는 물체들의 본질이 식별되고 위치 및 방향이 그 장면의 어떤 엘리먼트들에 연결된 데이터에 의해서 판정되는 경우, 장면에서 이들의 엘리먼트들 자체의 움직임들 또는 비디오 카메라의 움직임들에 따라 이들의 엘리먼트들을 추적하는 것이 필요할 수 있다. 실제 이미지들에서 엘리먼트들을 추적하고 가상 물체들을 임베딩(embedding)하는 동작들은 상이한 컴퓨터들에 의해서 또는 동일한 컴퓨터에 의해서 실행될 수 있다.

더욱이, 이러한 애플리케이션에서, 예를 들면, 특히 이미지들 상에서 겹치는 가상 엘리먼트들과의 상호 작용을 가능하게 해주는 특정 액션들 또는 시나리오들을 트리거링(triggering)하기 위해, 이미지들의 스트림에 의해서 적어도 부분적으로 표시되는 실제 장면에서, 컴퓨터 시스템과 상호작용하는 것이 사용자들에게 제안될 수 있다.

이는 많은 다른 타입들의 애플리케이션들, 예를 들면, 비디오 게임 애플리케이션들에 적용된다.

이를 위해, 하나 이상의 소정의 명령들을 식별하기 위해 손 움직임들과 같은 특정 움직임들을 식별하는 것이 필요하다. 이러한 명령들은 마우스와 같은 컴퓨터 포인팅 디바이스에 의해서 개시되는 명령들에 필적할 만하다.

본 출원인은, 어떠한 마커도 사용하지 않고 각종 기하학적 구조들을 갖는 텍스처 물체들(textured objects)의 가시적인 추적을 위한 알고리즘들을 개발했으며, 그 독창성은 시스템을 초기화할 때 자동적으로 획득되는 한 세트의 키 이미지들과 비디오 스트림의 현재 이미지 사이의 특정 포인트들의 매칭에 있다. 그러나, 프랑스 특허 출원들 0753482, 0752810, 0902764, 0752809 및 0957353에 개시된 이러한 알고리즘들은, 사용자의 손들과 같은 실질적으로 균일한 텍스처를 갖거나 또는 텍스처되지 않은 물체들의 이동들의 검출을 가능하게 해주지 않는다. 더욱이, 이들은 본질적으로 정형적 물체들(rigid objects)의 추적에 관한 것이다.

비록 이미지들의 시퀀스에 의해서 나타난 장면에서 사용자가 컴퓨터 시스템과 상호 작용할 수 있게 해주는 해결책들이 알려져 있지만, 이들 해결책들은 일반적으로 구현하기에 복잡하다.

구체적으로, 첫 번째 해결책은, 예를 들면 사용자 또는 배우(actor)의 관절(joint)들과 연관된 촉각 센서들을 사용하는 데 있다. 비록 이 방법은, 특히 영화의 특수 효과들을 위한 움직임 추적 애플리케이션들에 종종 전용되지만, 가상 장면에서 배우가 컴퓨터 시스템과 상호 작용할 수 있도록, 배우, 특히 배우의 손들 및 발들의 위치 및 방향들을 추적하는 것도 가능하다. 그러나, 이 기술의 사용은, 분석된 이미지들의 스트림에 의해서 표현되는 장면에, 그들의 환경과 결부된 방해(예를 들면, 전자기적 간섭)를 받을 수 있는 번잡한 센서들의 삽입을 요구하기 때문에 비용이 많이 든다.

특히, 유럽의 프로젝트들 "OCETRE" 및 "HOLONICS"에서 개발된 다른 해결책은, 사용자들의 공간적 움직임들의 그리고 환경의 실시간 3차원 재구성을 가능하게 하도록 몇몇 이미지 소스들, 예를 들면 몇몇 비디오 카메라들을 이용하는 데 있다. 이러한 방법들의 예는 특히 "Holographic and action capture techniques"라는 제목으로 T.Rodriguez, A.Cabo deLeon, B.Uzzan, N.Livet, E.Boyer, F.Geffray, T.Balogh, Z.Megyesi 및 A.Barsi에 의해서 2007년 8월 발행된 "SIGGRAPH '07, ACM SIGGRAPH 2007, Emerging technologies"의 문서에 개시되어 있다. 이들 애플리케이션들은 실제 장면의 기하학적 구조(geometry)가 재생될 수 있게 해주지만 현재로서는 정확한 움직임들을 식별되게 해주지는 못한다. 더욱이, 실시간 제약에 대처하기 위해서는, 복잡하고 비용이 많이 드는 하드웨어 아키텍처들을 수립할 필요가 있다.

터치 스크린들은 또한 컴퓨터 시스템과 사용자와의 상호 작용들이 판정될 수 있게 해주는 증강된 현실성 장면들을 보기 위한 것으로 알려져 있다. 그러나, 이들 스크린들은 비용이 많이 들고 증강된 현실성의 애플리케이션들에 대한 적응이 좋지 않다.

비디오 게임들의 분야에서 사용자들의 상호 작용들과 관련하여, 이미지는 전형적으로 컴퓨터 또는 콘솔(console)에 연결된 웹캠 타입 비디오 카메라로부터 캡처 된다. 비디오 카메라가 연결된 시스템의 메모리에 저장된 후에, 일반적으로 이 이미지는 특히 광학 흐름 알고리즘을 사용함으로써 이미지에서 움직이고 있는 사용자의 임의 엘리먼트들의 윤곽들을 실시간으로 계산하기 위해서, 블랍 추적(blobs tracking)이라고도 하는 물체 추적 알고리즘에 의해서 분석된다. 이미지에서 이들 형태들의 위치는, 표시된 이미지의 임의 부분들이 수정 또는 변형될 수 있게 해준다. 따라서, 이 해결책은 이미지의 영역에서의 방해가 2개의 자유도에 위치될 수 있게 해준다.

그러나, 이 방법들의 한계들은 주로 비디오 카메라의 이동 동안 프로세스의 적절한 실행을 유지할 수 없는 것에 기인한 정밀성의 부족과, 전경과 배경 사이의 움직임들을 구별할 수 없는 것에 기인한 시멘틱(semantic)들의 부족이다. 또한, 이 해결책은, 특히 조명 또는 노이즈의 변화에 대해 내성을 제공하지 못하는 광학 흐름 이미지 분석을 사용한다.

또한, 일련의 이미지들 중 한 이미지에 근거하여 증강된 현실성 장면에서 사용자와 컴퓨터 시스템 사이의 상호 작용의 실시간 검출에 접근 방법이 알려져 있고, 이 상호 작용은 결과적으로 이미지에 존재하는 물체를 나타내는 외관의 수정으로부터 이루어진다. 그러나, 프랑스 특허 출원 번호 0854382에 특히 개시된 이 방법은, 사용자의 정밀한 움직임들을 식별되게 해주지 못하며 이미지의 충분하게 텍스처된 영역들에만 적용된다.

본 발명은 상술한 문제들 중 적어도 하나를 해결할 수 있다.

따라서 본 발명은 컴퓨터에 연결된 이미지 센서의 필드에 놓여 있는 적어도 하나의 물체의 움직임에 따라 소프트웨어 애플리케이션과 상호 작용을 검출하는 컴퓨터 방법에 관한 것으로, 상기 컴퓨터는 상기 컴퓨터 방법을 구현하고, 상기 이미지 센서는 상기 컴퓨터에 이미지들의 스트림을 제공하고, 상기 방법은,

상기 이미지 센서로부터 적어도 하나의 제1 이미지를 수신하는 단계;

상기 제1 이미지에 적어도 하나의 제1 관심 영역을 식별하는 단계 - 상기 적어도 하나의 제1 관심 영역은 상기 적어도 하나의 제1 이미지의 일부에 대응함 - ;

상기 이미지 센서로부터 적어도 하나의 제2 이미지를 수신하는 단계;

상기 적어도 하나의 제2 이미지의 적어도 하나의 제2 관심 영역을 식별하는 단계 - 상기 적어도 하나의 제2 관심 영역은 상기 적어도 하나의 제1 이미지의 상기 적어도 하나의 제1 관심 영역에 대응함 - ;

상기 적어도 하나의 제1 및 제2 관심 영역을 비교하고, 상기 적어도 하나의 제1 및 제2 관심 영역들에서 대응하는 포인트들의 적어도 하나의 특징의 변동을 특징 짓는 관심 마스크를 판정하는 단계;

상기 관심 마스크로부터 상기 적어도 하나의 물체의 움직임을 판정하는 단계 - 상기 적어도 하나의 물체는 상기 적어도 하나의 제1 및 제2 관심 영역들의 적어도 하나에서 적어도 부분적으로 나타남 - ; 및

상기 움직임을 분석하고, 상기 분석에 응답하여 소정의 액션을 트리거링 하거나 트리거링 하지 않는 단계;

를 포함한다.

따라서 본 발명에 따른 방법은, 특히 증강된 현실성 애플리케이션 대하여 물체들, 특히 텍스처가 거의 없는 변형할 수 있는 물체들이 추적될 수 있게 해준다. 더욱이, 제한된 처리량은 모바일 플랫폼과 같은 제한된 리소스들(특히 계산의 면에서)을 갖는 장치에서 본 발명의 방법이 구현될 수 있게 한다. 더욱이, 이 방법은 저 품질의 이미지 센서를 가지고 사용될 수 있다.

본 발명에 따른 방법은, 심지어 이미지 센서에 의해서 얻어지는 이미지들에 흐릿함(blur)이 존재하는 경우에도, 물체의 빠른 움직임이 추적될 수 있게 해준다. 게다가, 본 발명에 따른 처리는 움직이는 물체들의 특정한 색 특성들에 의존하지 않고, 따라서 사용되는 이미지 센서의 전면에서 움직이는 텍스처된 물체 또는 손과 같은 물체를 추적하는 것이 가능하다.

각 추적된 물체의 움직임을 규정하는 자유도의 수는 각 관심 영역에 대하여 설정될 수 있다.

특히, 다중 제어를 가능하게 하기 위해서 동시에 몇몇 관심 지역들을 추적하는 것이 가능하다. 따라서, 예를 들면, 두 손의 추적은 사용자와 소프트웨어 애플리케이션 사이에 가능한 반복(iteration)들의 수가 증가 될 수 있게 해준다.

유리하게, 상기 움직임을 판정하는 단계는, 상기 적어도 하나의 제1 및 제2 이미지들에서 적어도 한 쌍의 관심 포인트들을 판정하고 매칭시키는 단계를 포함하고, 상기 적어도 한 쌍의 관심 포인트들 중 적어도 하나의 포인트는 상기 관심 마스크에 속한다. 본 발명에 따른 방법은, 처리를 제한하고 추적된 물체에 집중하도록 하기 위해서 이들 포인트들이 위치되어 있는 지역들을 제한하면서, 관심 포인트들의 추적과 결부된 이점들이 결합될 수 있게 해준다.

특정 실시예에 따르면, 상기 움직임을 판정하는 단계는 상기 적어도 하나의 제1 및 제2 이미지들에서 복수의 쌍들의 관심 포인트들을 판정하고 매칭하는 단계를 포함하고, 상기 쌍들의 관심 포인트의 각각의 적어도 하나의 포인트는 상기 관심 마스크에 속하고, 상기 움직임은 제1 세트의 관심 포인트들을 제2 세트의 관심 포인트들로의 변환에 기초하여 추정되고, 상기 제1 및 제2 세트의 관심 포인트들은 상기 복수의 쌍들의 관심 포인트들에 속하고, 상기 제1 세트의 관심 포인트들의 관심 포인트들은 또한 상기 적어도 하나의 제1 이미지에 속하고, 상기 제2 세트의 관심 포인트들의 관심 포인트들은 상기 적어도 하나의 제2 이미지에 속한다. 물체의 일부의 일반적인 움직임은 따라서 한 세트의 관심 포인트들의 움직임으로부터 판정될 수 있다.

상기 변환은 바람직하게는 추적된 물체의 움직임의 추정을 향상시키기 위해서 상기 복수의 쌍들의 관심 포인트들의 동일한 쌍들의 관심 포인트들로부터 두 개의 관심 포인트 사이의 거리에 기초하여 가중 함수를 구현한다.

다른 특정 실시예에 따르면, 상기 방법은 상기 판정된 움직임에 따라 상기 적어도 하나의 쌍의 관심 포인트들에 속하는 상기 적어도 하나의 제1 이미지의 적어도 하나의 관심 포인트를 확인(validating)하는 단계를 더 포함하고, 상기 적어도 하나의 확인된 관심 포인트는 상기 적어도 하나의 제2 이미지에 후속하는 적어도 하나의 제3 이미지에서 상기 물체를 추적하는데 사용되고, 상기 적어도 하나의 확인된 관심 포인트는 상기 적어도 하나의 제2 및 제3 이미지들에 기초하여 생성된 관심 마스크를 수정하는데 이용된다. 따라서, 이들이 효율적으로 추적된 물체의 일반적인 움직임 추정에 대하여 기여하는 경우 이미지로부터 이미지로 동일한 관심 포인트들을 사용하는 것이 가능하다. 더욱이, 확인된 관심 포인트들은 제한된 영역에서 관심 포인트들의 과도 축적을 회피하기 위해서 새로운 관심 포인트들을 선택하는데 사용된다.

상기 적어도 하나의 제1 및 제2 관심 영역을 비교하는 단계는 상기 적어도 하나의 제1 및 제2 관심 영역들의 대응하는 포인트들의 값들의 포인트별 감산을 수행하는 단계 및 소정의 문턱 값에 대하여 상기 감산의 결과를 비교하는 단계를 포함한다. 그러한 실시예는 본 방법의 효과들을 결합시키고 처리 리소스들(processing resources)을 제한한다.

특정 실시예에 따르면, 상기 방법은 또한 상기 적어도 하나의 제1 이미지에서 적어도 하나의 소정의 특징을 검출하는 단계를 더 포함하고, 상기 적어도 하나의 제1 관심 영역은 상기 검출 단계에 응답하여 적어도 부분적으로 식별된다. 본 발명에 따른 방법은 처리된 이미지의 콘텐츠의 엘리먼트들에 따라 자동적으로 초기화 또는 재 초기화될 수 있다. 이러한 소정의 특징은 예를 들면 소정의 형태 및/또는 소정의 색이 된다.

유리하게, 상기 방법은 상기 적어도 하나의 제2 이미지에서 적어도 하나의 수정된 제2 관심 영역을 추정하는 단계를 더 포함하고, 상기 적어도 하나의 제2 이미지의 상기 적어도 하나의 수정된 제2 관심 영역은 상기 적어도 하나의 제1 이미지의 상기 적어도 하나의 제1 관심 영역 및 상기 적어도 하나의 제2 이미지의 상기 적어도 하나의 제2 관심 영역에 따라 추정된다. 본 발명에 따른 방법은 물체 추적에 대한 후속 이미지의 처리를 예측하는 것이 가능하다. 상기 적어도 하나의 제2 이미지의 상기 적어도 하나의 수정된 제2 관심 영역의 상기 추정은 예를 들면 KLT 타입의 물체 추적 알고리즘을 구현한다.

상기 움직임은 특히 병진(translation), 회전 및/또는 크기 인자에 의해서 특징 지어질 수 있다.

상기 움직임은 상기 크기 인자에 의해서 특징 지어지고, 상기 소정의 액션이 트리거되는지의 여부는 상기 크기 인자에 기초하여 판정될 수 있다. 따라서, 스케일 인자는 예를 들면, 마우스 클릭으로 특정될 수 있다.

특정 실시예에 따르면, 상기 이미지 센서의 필드에 있는 적어도 두 물체의 움직임들이 판정되고, 상기 소정의 액션이 트리거되는지의 여부는 상기 적어도 두 물체에 연관된 움직임들의 조합에 따라 판정된다. 따라서, 다른 물체들의 움직임들에 기초하여 물체의 움직임을 판정하는 것이 가능하고, 특히 다른 물체들은 상대 위치의 제약이 따른다.

본 발명은 또한 상기 프로그램이 컴퓨터에서 실행될 때 상술한 방법의 단계들의 각각을 구현하는 지령들을 포함하는 컴퓨터 프로그램뿐만 아니라, 상술한 방법의 단계들의 각각의 구현하는 수단을 포함한다. 이 컴퓨터 프로그램 및 이 방법의 이점들은 앞서 설명한 바와 마찬가지이다.

본 발명의 다른 이점들, 목적들, 및 특징들은 첨부된 도면과 연관하여 제한을 의도로 하지 않는 예들에 의해서 주어진 이하 상세한 설명으로부터 명백해질 것이다.
도 1은 도 1a 및 도 1b를 포함하고 물체들의 움직임 및 사용자의 상호 작용을 판정하기 위해 사용될 수 있는 이미지들의 스트림 중 두 개의 연속하는 이미지들을 나타낸 도면.
도 2는 도 2a 내지 도 2d를 포함하고 후속 이미지의 대응하는 관심 영역과 이미지의 관심 영역에서의 변동의 예를 나타낸 도면.
도 3은 두 개의 연속하는 이미지들의 관심 마스크에 그리고 영역에 적어도 하나의 부분이 나타난 물체의 움직임의 판정을 나타낸 도면.
도 4는 일련의 이미지들 중 2개의 연속하는 (또는 인접한) 이미지들 사이의 물체들의 위치에서 연속하는 동작에서 변동을 식별하기 위해 본 발명에 따라 구현된 임의 스텝들을 나타낸 도면.
도 5는 일련의 이미지들의 연속하는 (또는 인접한) 이미지들에서 추적된 물체의 움직임이 4개의 파라미터로 특징지어지는 경우의 본 발명의 임의의 예를 나타낸 도면.
도 6은 도 6a, 6b 및 6c를 포함하고, 두 개의 관심 영역들이 실시간으로 사용자의 손들을 추적할 수 있고 일련의 이미지들에서 자동차 핸들 움직임을 특징짓는 운전 시뮬레이션 게임의 문맥에서 본 발명의 구현의 예를 나타낸 도면.
도 7은 본 발명을 구현한 디바이스의 예를 나타낸 도면.

개괄적으로, 본 발명은 이미지들의 스트림에서 이미지들의 특정 영역들에서 물체들의 추적에 관한 것으로, 이들 영역들은 관심 영역들이라고 하고, 추적된 물체들의 일부 및 이미지들에서 나타나 있는 장면의 일부를 포함한다. 관심 영역들의 분석은 처리 시간을 상승시키고 물체들의 움직임 방향을 향상시킬 수 있게 하는 것으로 관측되었다.

관심 영역들은 바람직하게는 이미지에서 2 차원 형태로서 규정된다. 이들 형태들은 예를 들면 사각형 또는 원이다. 이들은 바람직하게는 정수이거나 미리 정해져 있다. 관심 영역들은 관심 포인트들, 즉 높은 휘도 계조를 갖는 포인트들과 같은 특이점들(singular points)에 의해서 특징 지어질 수 있고, 관심 영역들의 초기 위치는 미리 정해질 수 있고, 사용자에 의해서 결정될 수 있고, 예를 들면 키 이미지들을 사용하여 소정의 특징들에 따르거나 또는 색 또는 형태의 외곽과 같은 이벤트에 의해서 결정될 수 있다. 이들 영역들은 또한 이미지에서 고정 위치 및 방향을 갖거나 또는 추정된 물체들의 움직임에 따라 움직일 수 있다. 몇몇 관심 영역들의 사용은 예를 들면 사용자의 몇몇 수반되는 상호 작용들(관심 영역은 그의 손들의 각각에 대응할 수 있음) 및/또는 몇몇 사용자들의 몇몇 수반하는 상호 작용들을 관찰하는 것이 가능하다.

관심 포인트들은 후속하는 이미지에서 추적을 위한 KLT(Kanade, Lucas 및 Tomasi의 첫 글자) 및 검출을 위한 예를 들면 FAST라는 이름 하에 알려진 알고리즘들에 기초하여 관심 포인트들을 추적하는 기술에 따라, 하나의 이미지로부터 후속하는 (또는 인접한) 이미지로 이미지들의 스트림에서 관심 영역들의 변동을 발견하기 위해서 사용된다. 관심 영역의 관심 포인트들은 특히 이미지들에서 표시되는 장면의 부분들을 마스크할 수 있고, 및/또는 이들 물체들의 부분들을 관심 지역들에서 벗어나게 할 수 있는 이들의 움직임 및 추적된 물체들의 왜곡에 따라 분석된 이미지들에 대하여 가변할 수 있다.

더욱이, 움직임이 상호 작용을 생성할 수 있는 물체들은 관심 영역들에서 규정된 마스크들에서 관심 포인트들을 추적하는 기구에 따라서 각 관심 영역에서 추적된다.

도 1 및 도 2는 본 발명의 일반적인 원리를 나타낸 도면이다.

도 1은 도 1a 및 도 1b를 포함하고, 물체들의 움직임 및 사용자의 상호 작용을 판정하기 위해 사용될 수 있는 이미지들의 스트림 중 두 개의 연속하는 이미지들을 나타낸 도면이다.

도 1a에 도시된 바와 같이, 이미지(100-1)는 움직이는 캐릭터들(실제 또는 가상)에 연결된 모바일 엘리먼트들, 및 장식의 엘리먼트들과 같은 고정된 엘리먼트들(도시 생략)을 갖는 장면을 나타낸다. 여기서 이미지(100-1)는 관심 영역(105-1)을 포함한다. 상술한 바와 같이, 몇몇 관심 영역들은 동시에 처리될 수 있지만, 명료성을 위해 여기에서는 단일의 관심 영역이 대표되고, 관심 영역들의 처리는 이들 각각에 대하여 유사하다. 관심 영역(105-1)의 형태뿐만 아니라 그 초기 위치는 미리 정해지는 것으로 고려된다.

도 1b의 이미지(100-2)는 일련의 이미지들에서 도 1a의 이미지(100-1)에 후속하는 이미지를 나타낸다. 이미지(100-2)에서, 방해들이 추정될 수 있는 선행 이미지에서 규정된 관심 영역(105-1)의 크기에 그리고 위치에 대응하는 관심 영역(105-2)을 규정하는 것이 가능하다. 따라서, 관심 영역(105-1)은 움직임에 있어서 고려되는 픽셀들의 맵(map)을 추출하기 위해서, 예를 들면 픽셀 별로(pixel by pixel)(픽셀은 PICtureELement에 대한 두음 문자임) 서로로부터 이들 이미지 부분들을 뺌으로써, 도 1b의 관심 영역(105-2)에 비교된다. 이러한 움직임에 있어서의 픽셀들은 (도 2에 나타나 있는) 관심 픽셀들의 마스크를 구성한다.

도 1a에서 일반적으로 참조되는 관심 포인트들(110)은, 이미지(100-1)에서, 특히 이미지 분석에 대한 표준 알고리즘에 따른 관심 영역(105-1)에서 판정될 수 있다. 이들 관심 포인트들은 유리하게도 관심 픽셀들의 마스크에 속하는 관심 영역에서의 위치들에서 검출될 수 있다.

관심 영역(105-1)에 규정된 관심 포인트들(110)은 이미지(100-2)에서, 바람직하게는 관심 영역(105-2)에서, 예를 들면 KLT 추적 원리들을 이용하여 이웃하는 관심 포인트들과 연관된 이미지들(100-1 및 100-2)의 부분들을 비교함으로써 추적된다.

이미지(100-1)와 이미지(100-2) 사이에서 115로 나타낸 이들 매칭들은 이미지(100-1)에서 참조 120-1과 이미지(100-2)에서 참조 120-2로 나타낸 손의 움직임들을 추정하는 것을 가능하게 해준다. 따라서, 이미지(100-2)에서 손의 새로운 위치를 획득하는 것이 가능하다.

다음으로, 손의 움직임은, 유리하게도, 이미지(100-2)로부터, 이미지 스트림의 이미지(100-2)에 후속하는 이미지에서 손의 움직임을 추정하기 위해서 사용될 수 있는 수정된 관심 영역(125)으로, 관심 영역(105-2)을 이동시키는데 사용될 수 있다. 따라서 물체를 추적하는 방법은 회귀적으로 계속될 수 있다.

여기서, 상술한 바와 같이 이미지(100-1)에 나타나는 임의 관심 포인트들은, 특히 손의 나타남과 움직임들에 기인하여 이미지(100-2)로부터 사라진 것을 여기서 알 수 있다.

이미지에서 관심 포인트들의 판정은, 바람직하게는, 움직임에 있어서의 픽셀들의 관심 마스크가 관심 영역에 규정된 경우 현재 이미지에 위치된 대응하는 관심 영역에 대응하는 지역 또는 그 모두 또는 일부를 포함하는 지역에 제한된다.

특정 실시예에 따르면, 추정은 이미지들이 입수되는 비디오 카메라에 연결된 참조에 관련하여 추적하기 위한 물체(예를 들면, 도 1a에서 120-1로 참조된 손)의 상대 위치들 및 방향들을 특정 짓는 정보로 이루어진다. 이러한 정보는 예를 들면 비디오 카메라에 대한 2차원 위치 정보(x, y), 방향 정보(θ) 및 거리 정보, 즉 추적을 위한 물체들의 스케일(들)을 말한다.

마찬가지로, 이미지들의 스트림 중 이미지(100-2)와 후속하는 이미지 사이에서 추정되는 움직임에 따라 이미지(100-1)의 관심 영역(105-1)에 관하여 이미지(100-2)에서 규정된 관심 영역(125)에서 발생된 수정들을 추적하는 것이 가능하다. 이들 목적들을 위해서, 새로운 관심 영역은 무엇보다도 먼저 관심 영역(125)에 기초하여 후속하는 이미지에서 식별된다. 관심 영역이 식별된 경우, 이는 수정된 엘리먼트들을 판정하기 위해 관심 영역(125)과 비교되고, 움직임들이 판정되어야 하는 물체들의 부분들을 포함하는 마스크를 형성한다.

도 2는 도 2a 내지 도 2c를 포함하고, 도 1을 참조하여 설명한 바와 같이 후속 이미지의 동일 위치에서의 대응하는 관심 영역과 비교하여 하나의 이미지의 관심 영역의 변화를 나타낸 도면이다. 관심 영역과 동일한 형태를 가진 이 비교로부터 얻어진 이미지는 여기서 두 가지 상태를 취할 수 있는 픽셀들로 형성되고, 첫 번째 상태는 각 픽셀과 디폴트로서(by default) 연관된다. 두 번째 상태는 변동이 소정의 문턱 값을 초과하는 관심 영역들의 픽셀들에 대응하는 픽셀들과 연관된다. 이 두 번째 상태는 여기서 추적된 물체들 상에 놓여 있거나 또는 추적된 오브젝트들의 움직임을 특정 짓고 가능하게는 특정 액션들을 트리거링하는 것을 가능하게 하기 위해서 이 추적된 오브젝트들에 근접한 지역들에 대한 관심 포인트들을 검색하는 것을 제한하기 위해 사용되는 마스크를 형성한다.

도 2a는 제1 이미지의 관심 영역을 나타내고, 도 2b는 동일 위치에서 후속하는 이미지의 대응하는 관심 영역을 나타낸다. 도 2a에 나타낸 바와 같이, 관심 영역(200-1)은 손(205-1)뿐만 아니라 다른 물체(210-1)를 포함한다. 마찬가지로, 200-2로 참조되고 도 2b에 도시된 대응하는 관심 영역은 여기서 각각 205-2와 210-2로 참조된 손과 물체를 포함한다. 일반적으로 205로 참조된 손은 많이 움직이지만 일반적으로 210으로 참조된 물체는 약간만 움직인다.

도 2c는 관심 영역들(200-1 및 200-2)의 비교로부터 얻어진 이미지(215)를 나타낸다. 관심 마스크를 형성하는 검은 부분은 그 차이가 소정의 문턱 값보다 큰 픽셀들을 나타내고 하얀 부분은 그 차이가 소정의 문턱 값보다 작은 픽셀들을 나타낸다. 검은 부분은 특히 관심 영역들(200-1과 200-2) 사이의 손(205)의 위치에서의 차이에 대응하는 220으로 참조된 부분을 포함한다. 이는 또한 관심 영역들 사이의 물체(210)의 위치에서 차이에 대응하는 부분(225)을 포함한다. 이 부분(230)은 이들 관심 영역 양측에 존재하는 손(205)의 부분에 대응한다.

도 2c에 나타난 이미지(215)는, 이로부터 관심 영역들(200-1과 200-2)이 추출되는 이미지가 입수되는 비디오 카메라의 분야에서 그의 손을 움직인 사용자와, 이들 이미지들을 처리하는 컴퓨터 시스템 사이의 상호 작용을 추론하기 위해 분석될 수 있다. 이러한 분석은 특히 그렇게 형성된 관심 마스크에 속하는 관심 포인트들의 움직임을 식별하는데 이루어질 수 있고, 그 다음 바람직하게는 관심 포인트들에 대한 검색은 관심 마스크에 제한된다.

그러나, 특히 225로 참조된 움직임과 같은 인접하는 움직임을 제거하는 것을 가능하게 하는 골격화 스텝(skeletonizing step)은 바람직하게는 관심 마스크에 속하는 관심 포인트들의 움직임을 분석하기 전에 수행된다. 이 골격화 스텝은 예를 들면 관심 마스크에 인가되는 개폐 동작과 같은 형태학상의 처리 동작(morphological processing operation)의 형태를 취할 수 있다.

더욱이, 바람직하게는 획득된 관심 마스크는 관심 영역(200-1)이 추출되는 이미지와 이를 처리한 이미지 사이에서 회귀적으로 식별되는 관심 포인트들 주위에 놓이는 부분들을 제거하기 위해서 수정된다.

따라서, 도 2d는 245에 의해서 식별되는 관심 포인트들 주위에 놓이는 부분들(240)이 제거된 도 2c에 나타나 있고 여기서는 235로 참조되는 관심 마스크를 나타낸다. 부분들(240)은 예를 들면 원형이다. 이들은 여기서 소정의 반지름으로 이루어진다.

따라서 관심 마스크(235)는 이로부터 이미 검출된 관심 포인트들이 놓여 있고 따라서 새로운 것을 검출할 필요가 없는 지역들을 잘라내게 된다. 다시 말하면, 수정된 관심 마스크(235)는 관심 영역의 동일한 지역에서 관심 포인트들의 축적을 회피하기 위해서 관심 마스크(220)의 일부를 단지 배제시켰다.

다시, 관심 마스크(235)는 이 경우가 발생하는 특정 액션을 트리거 시키기 위해서 움직임들이 분석될 수 있는 관심 포인트들을 식별하는데 이용될 수 있다.

도 3은 다시 두 개의 연속하는 (또는 인접한) 이미지들의 관심 마스크 및 영역에 적어도 하나의 부분이 나타나는 물체의 움직임의 판정을 설명하는 도표이다. 이미지(300)는 여기서 도 2d를 참조하여 설명한 관심 영역들(200-1과 200-2)의 비교로부터 얻어지는 관심 마스크에 대응한다. 그러나, 골격화 스텝은 방해(특히 방해(225))를 제거하는 것을 수행했다. 따라서, 이미지(300)는 그 움직임들이 관심 영역에서 물체의 움직임을 특정 짓는 새로운 관심 포인트들을 식별하기 위해 사용될 수 있는 마스크(305)를 포함한다.

설명에 의해서, 사용자의 손가락의 끝에 대응하는 관심 포인트가 도시되어 있다. 참조 310-1은 관심 영역(200-1) 내에서의 그 위치에 따라 관심 포인트를 지정하고, 참조 310-2는 관심 영역(200-2) 내에서의 그 위치에 따라 관심 포인트를 지정한다. 따라서, 관심 포인트들을 추적하는 표준 기술들, 예를 들면 광학 흐름에 의한 추적을 위한 알고리즘을 이용함으로써, 관심 영역(200-1)의 관심 포인트(310-1)에 기초하여 관심 영역(200-2)의 대응하는 관심 포인트(310-2)를 발견하고, 결과적으로 대응하는 병진을 발견하는 것이 가능하다.

몇몇 관심 포인트들, 특히 관심 포인트(310-1) 및 검출되고 사전에 확인된 관심 포인트들, 예를 들면 관심 포인트(245)의 움직임들의 분석은, 특히 병진, 회전 및/또는 크기 변경에 연결된 추적 물체에 대한 움직임 파리미터들의 세트를 판정하는 것을 가능하게 한다.

도 4는 일련의 이미지들 중 두 개의 연속하는 (또는 인접한) 이미지들 사이에서 물체들의 배치의 변동들을 연속하는 동작에서 식별하기 위해 본 발명에 따라서 구현되는 임의 스텝들을 나타내는 도표이다.

여기 이미지들은 비디오 카메라, 특히 여기서 상술한 방법을 구현하는 컴퓨터 시스템에 연결된 웹 타입의 비디오 카메라와 같은 이미지 센서를 통해 얻어진다.

현재 이미지(400)를 얻은 후에 이 이미지가 가장 먼저 처리되면, 즉 동일 비디오 스트림으로부터의 이전 이미지(405)가 사전에 처리되지 않은 경우, 초기화하는 제1 스텝(스텝 410)이 실행된다. 이 스텝의 목적은 특히 적어도 하나의 관심 영역의 특징들, 예를 들면, 형태, 크기 및 초기 위치를 규정하는 것이다.

상술한 바와 같이, 관심 영역은 (추적하는 회귀적 단계에서, 이 경우에 초기화(410)는 불필요) 선행 이미지에서 판정된 대응하는 관심 영역에 관련하여, 또는 (초기화 단계에 대응하는) 소정의 특징들 및/또는 특정 이벤트들에 따라서 규정될 수 있다.

따라서, 설명에 의해서, 관심 영역이 초기 상태에서 규정되지 않는 것이 가능하고, 시스템은 트리거링 이벤트에 대하여, 예를 들면 비디오 카메라를 대면하는 사용자의 특정 움직임(이미지에서 움직이는 픽셀들은 특정 움직임의 검색에서 분석됨), 피부 색과 같은 특정 색의 위치 또는 그 위치가 관심 영역의 위치를 규정하는 특정한 소정의 물체의 인식에 대하여 대기 상태에 있는다. 위치와 마찬가지로, 관심 영역의 크기 및 형태는 검출된 이벤트의 특징들에 따라 미리 규정 또는 판정될 수 있다.

따라서 초기화 스텝(410)은 이미지 시퀀스에서 추적하기 위해 물체에 따라 그리고 구현된 애플리케이션에 따라 몇몇 형태를 취할 수 있다.

특히 그것은 정적 초기화될 수 있다. 이 경우에, 관심 영역의 초기 위치는 미리 결정되고(오프라인 결정) 및 추적 알고리즘은 방해에 대하여 대기 상태에 있게 된다.

초기화 단계는 또한 특정 타입의 물체를 인식하는 스텝을 포함할 수 있다. 예를 들면, 하르 웨이블릿 타입(Haar wavelet type)의 기술어(descriptor)들을 검출하는 원리가 구현될 수 있다. 이들 기술어들의 원리는 특히 "Computer Vision and Pattern Recognition, 2001"에 "Rapid object detection using boosted cascade of simple features"라는 제목으로 비올라(Viola)와 존(Jone)에 의해 개시된 논문에 기술되어 있다. 이들 기술어들은 특히 이미지에서 얼굴, 눈 또는 손 또는 이미지의 부분의 검출할 수 있다. 초기화 단계 동안, 따라서 검출된 물체에서 관심 영역을 위치시키기 위해서 전체 이미지에서 또는 인식된 물체의 추적을 트리거링 하기 위해서 관심 영역 그 자체에서 중 어느 하나에서 특정 물체들을 검색하는 것이 가능하다.

다른 방법은 이미지를 분할하고 임의 컬러 특성들 및 임의 소정의 형태를 식별하는 데 있다. 처리된 이미지 형태 및/또는 분할된 영역이, 예를 들면 피부의 색 및 손의 윤곽을 검색된 물체와 유사한 경우, 추적 처리는 상술한 바와 같이 초기화된다.

후속하는 스텝(스텝 415)에서, 특징들이 (초기화에서 또는 선행 이미지에서) 사전에 결정된 관심 영역은 대응하는 이미지 부분을 추출하기 위해 현재 이미지에 위치된다. 현재 이미지가 처리될 비디오 스트림의 첫 번째 이미지인 경우, 그 이미지는 처리 이미지가 되고, 현재 새로운 이미지가 요구되고 스텝 415가 반복된다.

따라서 추출된 이미지 부분은 다음으로 선행 이미지의 대응하는 관심 영역과 비교된다(스텝 420). 이러한 비교는 특히 선행하는 이미지의 대응하는 관심 영역의 대응하는 픽셀과 현재 이미지를 고려한 관심 영역으로부터 각 픽셀을 빼는 것으로 이루어질 수 있다.

따라서, 움직임에서 포인트들의 검출은 이 예를 따라 현재 이미지와 선행 이미지의 부분들의 절대적인 차이에 의해서 수행된다. 이 차이는 근본적으로 정적인 장식으로부터 움직이는 물체를 구별하는데 사용될 수 있는 관심 마스크를 생성하는 것이 가능하다. 그러나, 물체/장식 분할이 완벽한 것으로 기대되지 않기 때문에, 이미지의 배경에 속하는 픽셀들의 움직임 및 추적된 물체의 픽셀들의 움직임을 식별하기 위해서 움직임들에 기초하여 회귀적으로 이러한 관심 마스크를 갱신하는 것이 가능하다.

그 다음 바람직하게는 소정의 문턱 값에 따라 픽셀들 간의 차이에 문턱화(thresholding)가 수행된다(스텝 425). 이러한 문턱화는 예를 들면 휘도에 수행될 수 있다. 8비트에 대한 코딩이 사용되는 경우, 그 값은 예를 들면 100이다. 이는 두 개의 연속하는 (또는 인접한) 이미지들 사이에 충분히 클 것으로 상정되는 움직임을 갖는 픽셀들을 분리하는 것을 가능하게 한다. 그 다음 현재 및 선행하는 이미지들의 픽셀들 간의 차이는 이진 코딩되는데, 예를 들면 차이가 움직임을 특정 짓는 소정의 문턱 값을 초과하면 검은 색으로, 그 반대는 하얀 색으로 된다. 그 차이가 소정의 문턱 값을 초과하는 픽셀들에 의해서 형성된 이진 이미지는 상정된 관심 영역에서 추적 또는 관심 마스크를 형성한다(스텝 430).

관심 포인트들이 사전에 변동된 경우, 마스크는 관심 포인트들이 회귀적으로 추적되는 마스크 지역들로부터 배제하기 위해서 수정된다(스텝 460). 따라서, 점선을 사용하여 나타낸 바와 같이, 스텝 460은 단지 변동된 관심 포인트들이 있으면 수행된다. 상술한 바와 같이, 이 스텝은 생성된 마스크로부터, 예를 들면 사전에 변동된 관심 포인트들의 주위에서 소정의 지름을 갖는 원들로부터 지역들을 제거하는 것으로 이루어진다.

그 다음 관심 포인트들은 그렇게 규정된 관심 마스크에 대응하는 선행하는 이미지의 영역에서 검색되고(스텝 435), 여기서 관심 마스크는 스텝 430에서 생성된 관심 마스크이거나 또는 스텝 430에서 생성되고 스텝 460에서 수정된 마스크이다.

관심 포인트들에 대한 검색은 예를 들면 20개의 관심 포인트들의 검출로 제한된다. 물론, 이 수는 상이해질 수 있고 관심 마스크의 크기에 따라 추정될 수 있다.

이 검색은 바람직하게는 FAST란 이름으로 알려진 알고리즘으로 수행된다. 이 알고리즘에 따르면, 예를 들면 16픽셀들의 둘레를 갖는 Bresenham 원이 이미지의 각 픽셀을 주위에 구성된다. 그 원에 포함된 k개의 연속하는 픽셀들(k는 전형적으로 9, 10, 11 또는 12의 값을 갖는다)은 모두 중심 픽셀보다 큰 강도를 가지거나, 또는 모두 중심 픽셀보다 작은 강도를 가지며, 그 중심 픽셀은 관심 포인트로서 상정된다. 또한, Harries 포인트 검출이란 이름으로 알려진 접근 방법에서 제공된 바와 같이 이미지 계조(image gradients)에 기초한 접근 방법으로 관심 포인트들을 식별하는 것이 가능하다.

관심 마스크에 따른 선행 이미지에서 검출된 관심 포인트들뿐만 아니라 적용 가능한 사전에 검출되어 확인된 관심 포인트들이 현재 이미지에서 대응하는 관심 포인트들을 식별하는데 사용된다.

따라서 현재 이미지에서 대응하는 관심 포인트들의 검색은, 바람직하게는 광학 흐름이라는 이름으로 알려져 있는 방법을 사용하여 수행된다(스텝 440). 이 기술의 사용은 이미지가 매립되는 경우 특히 가우시안 필터에 의해서 스무드처리된(smoothed) 이미지들의 피라미드들의 사용 덕택에 더 나은 견고성을 부여한다. 이는 예를 들면 KLT라는 이름 하에서 알려진 알고리즘에서 Lucas, Kanade 및 Tomasi에 의해서 구현된 접근 방법이다.

(관심 마스크에 따라서 또는 회귀적 추적에 의해서 결정되는) 선행 이미지의 관심 포인트에 대응하는, 현재 이미지의 관심 포인트들이 식별되는 경우에, 움직임 파라미터는 현재 이미지의 관심 영역에 대해 상대적으로 선행하는 이미지의 관심 영역에서 추적되는 물체에 대하여 추정된다(스텝 445). 이러한 파라미터들은, 또한 자유도라고도 지칭되며, 예를 들면 x 축을 따른 병진의 파라미터, y 축을 따른 병진의 파라미터, 회전 파라미터 및/또는 크기 파라미터를 포함하며, 이 변환은 하나의 평면으로부터 다른 평면으로 양방향 포인트들이 지나가게 하고, 유사하게 명명되는 이들 4개의 파라미터들을 함께 그룹핑한다. 이들 파라미터들은 바람직하게는 NLSE(Nonlinear Least Squares Error)의 방법 또는 가우스-뉴톤 방법을 사용하여 추정된다. 이 방법은 추적된 관심 포인트의 세트에 대하여 재투사 에러(re-projection error)를 최소화하기 위한 것이다. 모델의 파라미터들(위치 및 방향)의 추정을 향상시키기 위해서, 구별 방식에서 이들 파라미터들을 검색하는 것은 특정 실시예에서 바람직하다. 따라서, 예를 들면, 이는 병진 파라미터(x, y)만 추정하기 위해서 제1 단계에서 최소 자승 에러(least squares error)를 적용하는 것에 관한 것으로, 이들은 크기 변경 및/또는 회전의 파라미터들(가능한 한 덜 정확하게)을 계산하기 위해 두번 째 반복 동안 식별하는 것에 더 용이 해진다.

후속 스텝에서, 현재 이미지에서 매칭이 발견된, 선행 이미지의 관심 포인트들은 바람직하게는 선행 스텝에서 추정된 움직임에 관련하여 유효한 관심 포인트들을 회귀적으로 판정하기 위해 분석된다. 이들 목적을 위해서, (회귀적 추적에 의해서 관심 마스크에 따라 판정된) 선행하는 이미지의 이전에 판정된 관심 포인트들 각각에 대하여, 그 관심 포인트에 대해 상대적인, 현재 이미지의 대응하는 관심 포인트의 움직임이 식별된 움직임을 따르는지의 여부가 확인된다. 단정적으로, 관심 포인트는 유효한 것으로 상정되는 반면 반대의 경우는 유효하지 않은 것으로 상정된다. 전형적으로 픽셀들로 표시되고 소정의 값을 갖는 문턱 값은 바람직하게는 (스텝 445의 파라미터들을 적용함으로써 얻어지는) 현재 이미지에서의 포인트의 이론적인 위치와 (스텝 440의 추적 방법에 의해서 얻어지는) 그 실제 위치 사에서 임의 에러 마진을 허용하기 위해 사용된다.

여기서 455로 참조되는 유효한 관심 포인트들은 그의 움직임이 추적되는 물체에 속하는 것으로 상정되고, 유효하지 않은 포인트들(또는 가외치(outlier)들이라 함)이 이미지에서 보이지 않는 물체의 부분들 또는 이미지 배경에 속하는 것으로 상정된다.

앞서 나타낸 바와 같이, 유효한 관심 포인트들은 후속하는 이미지에서 추적되고 도 2d를 참조하여 설명한 바와 같이 현재와 후속하는 이미지들 사이의 움직임에서의 픽셀들을 마스크의 부분들로부터 배제시키기 위해서 현재 이미지의 관심 영역과 후속하는 이미지의 대응하는 관심 영역과의 비교(스텝 460)에 의해서 생성된 관심 마스크를 수정하기 위해 사용된다. 이 수정된 관심 마스크는 관심 포인트들이 회귀적으로 추적되는 이미지들의 부분들을 제거하는 것을 가능하게 한다. 따라서 유효한 관심 포인트들은 연속하는 이미지들에서 몇몇 처리 동작들을 유지하고 특히 물체들의 추적의 안정화를 행할 수 있다.

현재 이미지를 처리하는데 사용되는 새로운 관심 영역(또는 수정된 관심 영역)은 다음으로 후속하는 이미지가 미리 추정된 자유도 덕택으로 추정된다(스텝 445). 예를 들면, 자유도가 x 및 y 병진인 경우, 관심 영역의 새로운 위치는 정보의 이들 두 개의 아이템을 이용하여 관심 영역의 이전 위치에 따라 추정된다. 본 스텝에서 크기의 변경(또는 변경들)이 추정되고 상정되는 경우, 또한 상정된 시나리오에 따라서 비디오 스트림의 현재 및 후속하는 이미지들에 사용되는 새로운 관심 영역의 크기를 수정하는 것이 가능하다.

병행하여, 상이한 자유도가 산출된 경우, 이들 파라미터들에 따라 특정한 상호 작용을 추정하는 것이 가능하다(스텝 470).

특정 실시예에 따르면, 크기의 변경(또는 변경들)의 추정은 마우스의 클릭과 유사한 방식으로 액션의 트리거링을 검출하는데 사용된다. 마찬가지로, 방향, 특히 예를 들면 애플리케이션의 음성 볼륨을 조절하기 위해서 "전위차계(potentiometer)" 타입의 버튼을 제어하거나 또는 예를 들면 장면에서 표시되는 가상 엘리먼트의 회전을 가능하게 하기 위해서, 비디오 카메라의 시야 축(롤(roll)이라 함) 둘레에서 방향의 변경들을 사용하는 것이 가능하다.

마우스 클릭과 같은 액션을 검출하기 위한 크기 인자에 따른 상호 작용들의 검출은 예를 들면 이하 방식에서 움직임 벡터(병진)의 표준 및 (대응하는 관심 영역들에 따라 판정된) 크기 인자가 임의 소정의 값들보다 낮은 이미지들의 수를 카운팅함으로써 구현될 수 있다. 이러한 수는 추적된 물체들의 움직임에 안정성을 특징 짓는다. 움직임이 안정한 이미지들의 수가 임의 문턱 값을 초과하는 경우, 시스템은 클릭의 검출에 대하여 대기 상태에 들어간다. 그 다음 클릭은 현재와 선행하는 이미지들 사이의 크기 인자들의 절대 차이들의 평균을 측정함으로써 검출되고, 이는 주어진 수의 이미지들에 대하여 수행된다. 따라서 계산된 합계가 임의 문턱 값을 초과하는 경우 클릭은 유효하게 된다.

(물체가 이미지로부터 사라지거나 또는 잃어 버린 것 때문에) 일련의 이미지들에서 더 이상 물체가 추적되지 않는 경우, 알고리즘은 바람직하게는 초기화 스텝으로 되돌아 간다. 더욱이, 재실행되는 초기화 스텝에 따른 추적의 손실은 사용자의 움직임들을 측정함으로써 식별될 수 있다. 따라서, 이들 움직임들이 소정의 주기 동안 안정하거나 또는 존재하지 않는 경우 또는 추적된 물체가 이미지 센서의 시야로부터 벗어나는 경우 방법을 재 초기화하는 것이 결정될 수 있다.

도 5는 일련의 이미지들의 연속하는 (또는 인접한) 이미지들에서 추적된 물체의 움직임을 4 개의 파라미터들로 특징 짓는 경우 본 발명의 임의 예를 더 정밀하게 나타낸 도면이고, 여기서 4 개의 파라미터들은 (T_x, T_y)로 지정된 병진, 이미지 센서의 광학 축 둘레에서 θ로 지정된 회전 및 s로 지정된 크기 인자이다. 이들 4 개의 파라미터들은 포인트 M을 하나의 평면으로부터 포인트 M'로 변환할 수 있는 변환인 유사성을 나타낸다.

도 5에 도시된 바와 같이, O는 선행 이미지에서 물체에 대하여 참조 505의 프레임의 원점을 나타내고, O'는 물체 현재 이미지에서 물체의 참조 510의 프레임의 원점을 나타내고, 참조 510의 프레임은 물체 추적 방법에 따라서 얻어지고, 여기서 참조의 이미지 프레임은 참조 500을 향한다. 다음으로 비선형 식들의 이하 시스템에 의해서 포인트 M을 포인트 M'로의 변환을 표현하는 것이 가능하다.

여기서,

은 참조의 이미지 프레임에서 나타나는 포인트 M의 좌표이고,

는 참조의 이미지 프레임에서 포인트 O의 좌표들이고,

는 참조의 이미지 프레임에서 포인트 M'의 좌표들이다.

포인트들 M_S 및 M_S _θ은 각각 크기 s에서의 변경 및 회전 θ와 결합된 크기 s의 변경에 따른 포인트 M의 변환을 각각 나타낸다.

앞서 설명한 바와 같이, 도 4를 참조하여 설명한 스텝 440에서 추적된 관심 포인트들 모두를 이용함으로써 이 시스템을 해결하기 위해 비선형 최소 자승 에러 접근 방법을 사용하는 것이 가능하다.

현재 이미지에서 물체의 새로운 위치를 계산하기 위해서(도 4의 스텝 465), 이하 방식으로 물체의 이전 위치에 대하여 추정된 병진

을 적용하는 것은 이론적으로 충분하다.

여기서

는 참조의 이미지 프레임에서 포인트 O'의 좌표들이다.

바람직하게는, 이들 포인트들의 각각에 연관된 움직임들을 말하는 각 고려된 포인트의 부분적인 파생물들은 연관된 움직임에 따라 가중된다. 따라서, 가장 많이 움직이는 관심 포인트들은 물체들의 추적을 방해하는 배경에 연결된 관심 포인트들을 회피하는 파라미터들의 추정에서 매우 중요하다.

따라서, 선행하는 식들에 대하여 현재 이미지에서 추적된 관심 포인트들의 무게 중심의 영향을 부가하는 것이 바람직하다는 것이 명백하다. 이 무게 중심은 근사적으로 움직임의 국부 무게 중심에 대응한다(현재 이미지에서 추적되는 포인트들은 선행하는 이미지에서 움직이는 포인트들로부터 입수된다). 따라서, 관심 영역의 중심은 무게 중심에 대한 물체의 거리가 추정된 병진 움직임보다 크기만 하면 움직임의 중심으로 병진되는 경향이 있다. 추적된 물체의 움직임을 특정 짓는 현재 이미지에서 참조의 프레임의 원점은 이하 관계에 따라서 계산되는 것이 바람직하다.

여기서,

는 현재 이미지에서 관심 포인트들의 무게 중심을 나타내고, W_GC는 현재 무게 중심의 영향에서 가중치를 나타내고, W_T는 병진의 영향에서 가중치이다. 파라미터 W_GC는 추적된 물체의 움직임의 속도와 여기서 포지티브 코릴레이션되고, 파라미터W_T는 병진의 소망하는 영향에 따라 고정될 수 있다.

도 6은 도 6a, 6b 및 6c를 포함하고, 두 개의 관심 영역들이 일련의 이미지들에서 차량 핸들 움직임을 특정 짓는 사용자의 손들의 추적을 실시간으로 행할 수 있는 구동 시뮬레이션 게임의 맥락에서 본 발명의 구현의 예를 나타낸 도면이다.

더욱 구체적으로, 도 6a는 게임의 맥락을 도면을 나타내고, 도 6b는 사용자에 의해서 지각되는 바와 같이 게임의 표시를 나타낸다. 도 6c는 차량 핸들의 움직임을 추론하기 위해 추적된 물체들의 움직임 파라미터들, 또는 자유도들의 추정을 나타낸다.

도 6a는 사용된 이미지 센서에 의해서 제공된 일련의 이미지들로부터 추출된 이미지(600)를 포함한다. 후자는 사용자에 의해서 구동된 차량의 바람막이로 고정되는 바와 같이 사용자와 대면하는 위치에 있다. 여기서 이 이미지(600)는 컴퓨터 그래픽들에 의해서 겹쳐서 그려지는 핸들(620)과 연관된 두 개의 원의 관심 영역(610 및 615)을 포함하는 지역(605)을 포함한다. 이미지(600)는 또한 사용자가 위치해 있는 실제 장면의 엘리먼트들을 포함한다.

영역들(610 및 615)의 초기 위치는 방해를 대기하는 동안 핸들의 중앙을 나타내는 포인트의 각 반대 측들에서 동일한 거리에 있는 소정의 수평 라인에 고정된다. 사용자가 그의 손을 이들 두 영역에 위치시키는 경우, 그는 핸들을 왼쪽으로 또는 오른쪽으로 어느 한쪽으로 회전시킬 수 있다. 영역들(610 및 615)의 움직임은 여기서 핸들(620)에 대응하는 원의 반지름에 의해서 제한된다. 핸들을 나타내는 이미지는 예를 들면 양손의 평균 움직임에 따라서 사용자의 손과 함께 움직인다.

핸들(620)에 대응하는 원의 반경은 또한 사용자가 그 손을 그 원의 중심을 향하거나 또는 이로부터 멀어지는 방향으로 움직이는 경우 가변될 수 있다.

이들 둘의 자유도는 바람직하게는 다음에 차량의 방향(핸들(620)에 대응하는 원에서의 손들의 위치) 및 그의 속도(핸들(620)에 대응하는 원의 중심에 관련한 손의 위치에 연결된 크기 인자)를 제어하는데 사용된다.

도 6b는 애플리케이션의 디스플레이(625)를 나타내고, 이미지(600)로부터 추출된 이미지 부분(605)을 포함한다. 이 디스플레이는 사용자가 그의 움직임을 관측하고 제어할 수 있게 한다. 이미지 부분(605)은 바람직하게는 드라이버가 그의 액션들을 관측할 수 있는 승용차 후면경으로서 표시될 수 있다.

이미지(600)의 영역들(610 및 615)은 핸들(620)의 움직임들이 제어될 수 있게 하고, 이는 디스플레이(625)에서 630으로 참조된 차량의 방향뿐만 아니라 장식의 엘리먼트(635)에 관련한 그의 속도를 제어하는 것을 말하며, 차량(630) 및 장식의 엘리먼트들(635)은 컴퓨터 그래픽들에 의해서 여기서 생성된다. 표준 구동 애플리케이션에 따라서, 차량은 장식에서 움직일 수 있고 임의 엘리먼트들과 충돌 할수 있다.

도 6c는 핸들의 자유도를 추론하는 것과 관심 영역들의 각각에 연결된 자유의 파라미터들의 추정을 더욱 상세하게 기술한다. 이 구현에서, 추정을 위한 파라미터들은 핸들의 방향 θ과 그 직경 D이다.

움직임의 구성 요소들을 분석하기 위해서, 참조의 일부 프레임들이 규정된다. 여기서 참조 Ow의 프레임은 참조의 전체 프레임에 대응하고(참조의 프레임 "세계"), 참조 Owh의 프레임은 핸들(620)에 연결된 참조의 국부 프레임이고, 참조 Oa1 및 Oa2의 영역들에 연결된 두 개의 참조 국부 프레임들이다. 벡터들 Va1(Xva1, Yva1) 및 Va2(Xva2, Yva2)은 참조 Oa1 및 Oa2의 프레임들로 각각 표시되는 관심 영역들(610 및 615)에서 사용자의 손들의 움직임의 분석으로부터 결과적으로 얻은 움직임 벡터들이다.

핸들의 새로운 방향 θ'는 그 이전의 방향 θ에 관련하여 그리고 (두 개의 관심 영역들(610 및 615)을 통해 판정된) 사용자의 손의 움직임에 기초하여 계산된다. 따라서, 핸들의 움직임은 몇몇 관심 영역들의 움직임에 연결된 제한된 움직임이다. 새로운 방향 θ'는 이하 방식으로 계산될 수 있다.

여기서,

및

는 사용자의 손의 회전을 나타낸다.

은 이하 관계식에 의해서 계산될 수 있다.

여기서,

이고, 이는 참조 Owh의 프레임에서 y축을 따라 병진을 특정 짓는다.

는 마찬가지 방식으로 계산될 수 있다.

마찬가지로, 핸들의 새로운 직경 D'은 그 이전의 직경 D에 기초하여 그리고 (두 관심 영역들(610 및 615)를 통해 판정된) 사용자의 손의 움직임에 기초하여 계산된다. 이는 다음 방식으로 계산될 수 있다.

여기서,

이고

이다.

따라서, 핸들의 각도 위치 및 그 직경을 알면, 게임 시나리오는 특히 대응하는 컴퓨터 그래픽 이미지를 계산할 수 있다.

도 7은 비디오 카메라에 의해서 제공되는 이미지들에서 나타나는 물체들의 움직임들을 식별하고 식별된 움직임들에 따라 특정 액션들을 트리거하는데 사용될 수 있는 디바이스의 예를 나타낸다. 디바이스(700)는 예를 들면 스마트폰 타입의 모바일 전화, PDA(personal digital assistant), 마이크로 컴퓨터 또는 워크 스테이션이다.

이 디바이스(700)는, 바람직하게는

- 중앙 처리 장치 또는 마이크로프로세서(704)(CPU);

- 운용 시스템 및 "Prog"와 같은 프로그램들을 포함할 수 있는 ROM(read only memory)(706);

- 상술한 프로그램의 실행 동안 생성 및 수정되는 변수 및 파라미터들을 기록하는 레지스터들을 포함하는 RAM(random access memory) 또는 캐시 메모리(708);

- 비디오 카메라(712)에 연결된 비디오 획득 카드(710); 및

- 스크린 또는 프로젝터(716)에 연결된 그래픽 카드(714);

에 연결되는 통신 버스(702)를 포함한다.

선택적으로, 디바이스(700)는 이하 아이템들을 가질 수도 있다.

- 상술한 프로그램 "Prog" 및 본 발명에 따라 처리되거나 또는 처리될 데이터를 포함할 수 있는 하드 디스크(720);

- 특히 설치 및/또는 초기화의 단계 동안 본 발명에 따른 프로그램들과 사용자가 상호 작용할 수 있는 키보드(722) 및 마우스(724) 또는 광학 스타일러스와 같은 임의 다른 포인팅 디바이스, 터치 스크린 또는 원격 제어;

- 분포된 통신 네트워크(728), 예를 들면 인터넷에 연결된 통신 인터페이스(726), 이 인터페이스는 데이터를 송신 및 수신할 수 있음; 및

- 본 발명에 따라 처리되거나 처리될 데이터를 판독 또는 기입하는 메모리 카드(도시 생략)의 리더기.

통신 버스는 디바이스(700)에 포함되거나 또는 이에 연결된 상이한 엘리먼트들 간에 통신 및 상호 운용이 가능하게 한다. 버스의 대표는 제한이 없고, 특히 중앙 처리 장치는 디바이스(700)의 다른 엘리먼트에 의해서 또는 디바이스(700)의 임의 엘리먼트에 대하여 통신 지령들을 통신할 수 있다.

프로그램 가능한 장치가 본 발명에 따른 처리들을 구현할 수 있는 각 프로그램의 실행 가능한 코드는 예를 들면 하드 디스크(720) 또는 ROM(706)에 저장될 수 있다.

변화에 따라서, 프로그램들의 실행 가능한 코드는 상술한 이상적인 형태로 저장되도록 인터페이스(726)를 통해 통신 네트워크(728)의 중재자에 의해서 수신될 수 있다.

더욱 일반적으로, 프로그램 또는 프로그램들은 실행되기 전에 디바이스(700)의 저장 수단 중 하나에 로딩 될 수 있다.

중앙 처리 장치(704)는 본 발명에 따른 프로그램 또는 프로그램들의 소프트웨어 코드의 부분들 또는 지령들의 실행을 제어 및 지휘하고, 이들 지령들은 하드 디스크(720)에 또는 ROM(706)에, 또는 다른 상술한 저장 엘리먼트들에 저장된다. 전원이 들어오면, 비 휘발성 메모리, 예를 들면 하드 디스크(720) 또는 ROM(706)에 저장된 프로그램 또는 프로그램들은 본 발명의 구현에 필요한 변수들 및 파라미터들을 저장하는 레지스터들뿐만 아니라 RAM(708)으로 전송되고, 그 다음 본 발명에 따른 프로그램 또는 프로그램들의 실행 가능한 코드를 포함한다.

본 발명에 따른 디바이스를 포함하는 통신 장치들은 또한 프로그램된 장치가 될 수 있음을 알 수 있다. 이 장치들은 다음으로 예를 들면 ASIC(application specific integrated circuit)에 고정된 컴퓨터 프로그램 또는 프로그램들의 코드를 포함한다.

물론 특정 요구들을 만족시키기 위해서는, 당해 분야에서 숙련된 자는 선행하는 설명에 수정을 가할 수 있다.

Claims

컴퓨터에 연결된 이미지 센서의 필드에 놓여 있는 적어도 하나의 물체의 움직임에 따라 소프트웨어 애플리케이션과의 상호 작용을 검출하는 컴퓨터 방법 - 상기 컴퓨터는 상기 컴퓨터 방법을 구현하고, 상기 이미지 센서는 상기 컴퓨터에 이미지들의 스트림을 제공함 - 으로서,
상기 이미지 센서로부터 적어도 하나의 제1 이미지를 수신하는 단계;
상기 제1 이미지 내에서 적어도 하나의 제1 관심 영역을 식별하는 단계 - 상기 적어도 하나의 제1 관심 영역은 상기 적어도 하나의 제1 이미지의 일부에 대응함 - ;
상기 이미지 센서로부터 적어도 하나의 제2 이미지를 수신하는 단계;
상기 적어도 하나의 제2 이미지의 적어도 하나의 제2 관심 영역을 식별하는 단계 - 상기 적어도 하나의 제2 관심 영역은 상기 적어도 하나의 제1 이미지의 상기 적어도 하나의 제1 관심 영역에 대응함 - ;
상기 적어도 하나의 제1 관심 영역 및 상기 적어도 하나의 제2 관심 영역을 비교하고, 상기 적어도 하나의 제1 관심 영역 및 적어도 하나의 제2 관심 영역에서 대응하는 포인트들의 적어도 하나의 특징의 변동을 특징 짓는 관심 마스크를 판정하는 단계(440);
상기 관심 마스크로부터 상기 적어도 하나의 물체의 움직임을 판정하는 단계(445) - 상기 적어도 하나의 물체는 상기 적어도 하나의 제1 관심 영역 및 적어도 하나의 제2 관심 영역 중 적어도 하나의 영역에 부분적으로 나타남 - ; 및
상기 움직임을 분석하고, 상기 분석에 응답하여 소정의 액션을 트리거링 하거나 트리거링 하지 않는 단계(470);
를 포함하는 것을 특징으로 하는 컴퓨터 방법.
제1항에 있어서,
상기 움직임을 판정하는 단계(445)는 상기 적어도 하나의 제1 이미지 및 적어도 하나의 제2 이미지에서 적어도 한 쌍의 관심 포인트들을 판정하고 매칭(matching)시키는 단계를 포함하고, 상기 적어도 한 쌍의 관심 포인트들 중 적어도 하나의 포인트는 상기 관심 마스크에 속하는 컴퓨터 방법.
제2항에 있어서,
상기 움직임을 판정하는 단계(445)는 상기 적어도 하나의 제1 이미지 및 적어도 하나의 제2 이미지에서 복수의 쌍들의 관심 포인트들을 판정하고 매칭시키는 단계를 포함하고, 상기 쌍들의 관심 포인트들의 각각 중의 적어도 하나의 포인트는 상기 관심 마스크에 속하고, 상기 움직임은 제1 세트의 관심 포인트들의, 제2 세트의 관심 포인트들로의 변환(transformation)에 기초하여 추정되고, 상기 제1 및 제2 세트의 관심 포인트들은 상기 복수의 쌍들의 관심 포인트들에 속하고, 상기 제1 세트의 관심 포인트들의 관심 포인트들은 또한 상기 적어도 하나의 제1 이미지에 속하고, 상기 제2 세트의 관심 포인트들의 관심 포인트들은 상기 적어도 하나의 제2 이미지에 속하는 컴퓨터 방법.
제3항에 있어서,
상기 변환은, 상기 복수의 쌍들의 관심 포인트들의 동일한 쌍들의 관심 포인트들로부터의 두 관심 포인트 사이의 거리에 기초하여 가중 함수(weighting function)를 구현하는 컴퓨터 방법.
제3항 또는 제4항에 있어서,
상기 판정된 움직임에 따라 상기 적어도 하나의 쌍의 관심 포인트들에 속하는 상기 적어도 하나의 제1 이미지의 적어도 하나의 관심 포인트를 확인(validating)하는 단계
를 더 포함하고,
상기 적어도 하나의 확인된 관심 포인트는 상기 적어도 하나의 제2 이미지에 후속하는 적어도 하나의 제3 이미지에서 상기 물체를 추적하는데 사용되고, 상기 적어도 하나의 확인된 관심 포인트는 상기 적어도 하나의 제2 및 제3 이미지들에 기초하여 생성된 관심 마스크를 수정하는데 이용되는 컴퓨터 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 적어도 하나의 제1 및 제2 관심 영역을 비교하는 단계는 상기 적어도 하나의 제1 및 제2 관심 영역들의 대응하는 포인트들의 값들의 포인트별(point by point) 감산(subtraction)을 수행하는 단계 및 상기 감산의 결과를 소정의 문턱값과 비교하는 단계를 포함하는 컴퓨터 방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 적어도 하나의 제1 이미지에서 적어도 하나의 소정의 특징을 검출하는 단계
를 더 포함하고,
상기 적어도 하나의 제1 관심 영역은 상기 검출 단계에 응답하여 적어도 부분적으로 식별되는 컴퓨터 방법.
제7항에 있어서,
상기 적어도 하나의 소정의 특징은 소정의 형태 및/또는 소정의 색인 컴퓨터 방법.
제1항 내지 제8항 중 어느 한 항에 있어서,
상기 적어도 하나의 제2 이미지에서 적어도 하나의 수정된 제2 관심 영역을 추정하는 단계
를 더 포함하고,
상기 적어도 하나의 제2 이미지의 상기 적어도 하나의 수정된 제2 관심 영역은, 상기 적어도 하나의 제1 이미지의 상기 적어도 하나의 제1 관심 영역, 및 상기 적어도 하나의 제2 이미지의 상기 적어도 하나의 제2 관심 영역에 따라 추정되는 컴퓨터 방법.
제9항에 있어서,
상기 적어도 하나의 제2 이미지의 상기 적어도 하나의 수정된 제2 관심 영역의 상기 추정은 KLT 타입의 물체 추적 알고리즘을 구현하는 컴퓨터 방법.
제1항 내지 제10항 중 어느 한 항에 있어서,
상기 움직임은 병진(translation), 회전 및/또는 크기 인자(scale factor)에 의해서 특징 지어지는 컴퓨터 방법.
제11항에 있어서,
상기 움직임은 크기 인자에 의해서 특징 지어지고, 상기 소정의 액션이 트리거되는지의 여부는 상기 크기 인자에 기초하여 판정되는 컴퓨터 방법.
제1항 내지 제12항 중 어느 한 항에 있어서,
상기 이미지 센서의 필드에 있는 적어도 두 물체의 움직임들이 판정되고, 상기 소정의 액션이 트리거되는지의 여부는 상기 적어도 두 물체에 연관된 움직임들의 조합에 따라 판정되는 컴퓨터 방법.
컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램은, 상기 컴퓨터 프로그램이 컴퓨터에서 실행될 때 제1항 내지 제13항 중 어느 한 항에 따른 방법의 단계들의 각각을 수행하는 명령어들을 포함하는, 컴퓨터 프로그램.
제1항 내지 제13항 중 어느 한 항에 따른 방법의 단계들의 각각을 구현하는 수단을 포함하는 디바이스.