KR20020025198A

KR20020025198A - 타켓을 위치시키는 방법 및 장치, 이미지 처리기, 그리고타켓 및 타켓 포인트 식별 방법

Info

Publication number: KR20020025198A
Application number: KR1020027000699A
Authority: KR
Inventors: 웨인스홀다프나; 이미-순
Original assignee: 요트.게.아. 롤페즈; 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2000-05-17
Filing date: 2001-05-08
Publication date: 2002-04-03
Also published as: CN1222859C; EP1292877A1; DE60133386D1; WO2001088681A1; JP2003533817A; EP1292877B1; JP4768196B2; CN1380996A; ATE390664T1; KR100869447B1; DE60133386T2

Abstract

한 쌍의 카메라를 사용하여, 사용자가 포인팅하는 평면상의 타켓의 좌표들이 3차원 모델링없이 그리고 3차원 장면 데이터 없이 개개의 이미지들로부터 유도된 데이터만으로 얻어질 수 있다. 각 카메라는 타켓이 방향을 따라 있는 방향의 지시자와 평면상의 적어도 4개의 등록 포인트들을 본다. 제 1 이미지의 선형 변형은 제 2 이미지로 방향 지시의 평면 투사를 맵핑한다. 제 2 이미지에서, 타켓의 좌표들은 제 1 이미지로부터 변형된 투사와 제 2 이미지의 방향의 투사의 교차부로부터 결정된다. 다른 실시예에서, 방향들은 개개의 선형 변형들에 의해 제 3 기준 프레임 또는 이미지로 맵핑된다. 이 시스템의 응용은 사용자가 정적 포인팅 제스처를 사용하여 텔레비전 스크린 또는 투사 상의 위치를 지시하도록 한다. 카메라들의 위치들에 관한 정보가 요구되지 않으므로, 이 시스템은 빠르게 설정될 수 있다.

Description

타켓을 위치시키는 방법 및 장치, 이미지 처리기, 그리고 타켓 및 타켓 포인트 식별 방법{Apparatus and method for indicating a target by image processing without three-dimensional modeling}

배경

제스처 인식으로부터 이익을 볼 수 있는 수많은 응용들이 있다. 예를 들어, 이것은 카메라의 조준(aim)을 제어하기 위한 자연적인 메커니즘이다. 다른 응용은 스크린 상의 커서를 움직이는 손 제스처들을 사용한다. 예를 들어, 자신의 손가락으로 스크린 상의 목적물을 간단히 포인팅하여, 미래의 스마트한 텔레비전 상에서 선택들을 하는 것을 계획할 수 있다. 마우스는 필요하지 않다.

타켓을 지시하는 포인팅 제스처와 같은 제스처들을 해석하기 위해 장면의 이미지들을 사용하는 비디오-기초 시스템들이 급속히 성장하는 분야이다. 컴퓨터들의 속도와 이미지 처리의 속도들이 빠르므로, 카메라들을 조준 및 재조준하기 위한 매우 편리한 메커니즘들이 제공될 수 있다. 예를 들어, 화상 회의 시스템에서, 사용자는 PT 기반 상에 줌 가능한 카메라를 위치시키기 위해 흥미있는 대상을 포인팅할 수 있다. 이러한 자동화된 시스템들은, 예를 들어, 음성 명령("명령-제어", 근본적으로, 예를 들어, "PAN-LEFT","UP","DOWN",,등의 명령에 대응하는 각각의 구두 명령을 갖는 말-기초 심볼 처리기), 조이스틱 제어, 및 계속적인 타켓 추적과 같은 명확한 명령들을 요구하는 종래의 시스템들보다 더 직관적이며 제어하기가 쉽다. 이러한 시스템들에서, 다중 각도 보기(view)들이 장면의 3차원적 모델을 생성하기 위해 종종 결합된다. 그후, 이 3차원 모델은 사용자가 포인팅하는 타켓을 결정하기 위해 사용된다.

카메라의 제어를 허락하도록 이러한 "스마트"한 기술을 사용하는 한 시스템이, 발명의 명칭이 "카메라-기초한 제스처 입력들을 사용하는 가상 현실 환경을 통한 3차원 항해를 허용하기 위한 방법 및 시스템"인 1997년 12월 23일 출원된 미국 특허 출원 제 08/996,677 호에 설명되어 있다. 이 특허 출원은, 카메라가 이미지 처리 기술들을 사용하여 배경으로부터 인간 목적물들의 옆얼굴들을 구별하는 장치에 관하여 개시하고 있다. 이미지 처리 기술들은 배경으로부터 목적물을 구별하는 것이 목적이다. 그러면, 목적물들은 판(pan)/기울기/줌(PTZ) 카메라에 의해 뒤따를 수 있다. 이러한 시스템은 타켓을 계속적으로 위치시키고 줌하고 포커싱할 수 있어서, 타켓은 상대적으로 스크린 상의 중심에 남는다.

미국 특허 제 5,187,574 호에 기술된 바와 같은 다른 기술은, 가상 또는 전자적 줌으로 참조된다. 하나 이상의 고정된 카메라들로 부터의 비디오 정보는 전자적으로 처리되어, 관심 타켓은, 목적물이 어떤 특정 카메라의 보이는 영역 내에서 중심에 위치 할 수 없을 수도 있다는 사실에도 불구하고, 출력 비디오 신호로 보이며 남는다. 축출 및 보간 동작들을 통해서, 추적 처리는 PTZ 카메라들 보다 일반적으로 덜 비싼 고정된 카메라들을 통해 성취될 수 있다.

다른 시스템은 마사키 퓨쿠모토, 야수히토 수엔가, 및 켄지 마스에 의한 "손가락 포인터' : 이미지 처리에 의한 포인팅 인터페이스"의 논문에 상세히 설명된다. 이 논문에서, 저자들은 시스템의 보이는 영역 내에 운영자(operator)를 위치시켜서 타켓 상에 포커싱하도록 카메라를 지시하는 시스템이 이 타켓을 포인팅하는 것을 설명한다. 이 시스템은, 이 일반적인 방향으로 조준되도록 카메라를 지시하는 운영자의 손가락의 이미지를 스캐닝하고 처리한다. 또한, 이 논문은 제스처들을 포인팅하는 것과 음성 명령들을 조합하여 사용하는 시스템을 설명한다. 간단한 음성 또는 제스처 명령들의 사용을 통해서, 운영자는 스크린을 줌인 또는 줌아웃, 또는 소거하는 것과 같은 간단한 기능들을 수행하도록 카메라를 지시할 수 있다. 이 논문은 본원에 완전히 설명되는 것처럼 참조로서 통합된다.

타켓을 지시하기 위한 선행 기술들은 일반적으로, 사용자가 무엇을 포인팅하는 지를 결정하기 위해 타켓 영역과 비디오 장면의 3차원적 구성을 컴퓨터 내에 생성하는 것이 요구된다. 이것은 전형적으로 상당히 복잡하고 계산이 집약적인 3차원적 추정과 다중 카메라들을 요구하기 때문에, 설정하기가 부담된다.

이러한 제한을 갖지 않는 한 선행 기술은 미국 특허 제 5,454,043 호에 설명된다. 이 '043 특허에서, 손 움직임들이 비디오 카메라에 의해 포착되고 방향과 움직임의 패턴들은 이미지 처리에 의해 명령들로 결정된다. 이 기술은, 선행 기술의 3차원적 모델링 접근들에서와 같이 다른 위치들에 사용자가 서 있을 때는 타켓을 지시하기 위해 사용될 수 없지만, 예를 들어, 제한된 방법으로 사용자가 비디오 스크린 상의 커서를 제어하도록 허용하는 장점을 갖는다.

시스템에 대해서, 이 기술의 현재 상태를 가정한다면, 포인팅 제스처들과 같은 방향 지시들을 해석할 수 있는 필요성이 존재하지만, 장면의 3차원적 모델링과 관련된 집약적인 계산과 장면의 요소들과 장비의 등록에 대한 필요성은 피한다.

관련된 출원들에 관한 교차 참조

본 출원은 다음과 같은 출원들에 관련되며, 이들의 모든 내용이 마치 본원에서 완전히 설명되는 식으로 본원에 참조로서 통합된다:

"Multi-modal video target acquisition and re-direction system and method"인 2000년 1월 20일자 미국 출원 09/488,028호와,

"Hands-free home video production camcorder"인 2000년 3월 21일 출원된 미국 출원 09/532,820 호 및,

"Method and system for gesture based option selection"인 2000년 12월 22일 출원된 미국 출원 08/995,823 호.

발명의 배경

발명의 분야

본 발명은 이미지 인식에 관한 것이며, 특히, 평면(plane)상의 타켓 포인트(target point)를 지시하기 위해 사용되는 제스처(gesture)들을 포인팅하는 것을, 장면(scene)의 3차원적인 모델링없이, 인식하는 것에 관한 것이다.

도 1은 본 발명의 한 실시예에 따라 제 2 카메라의 투사를 사용하는 한 카메라의 장면의 투사(또는 기준 투사) 상에 타켓 위치를 식별하기 위한 설정을 비유적으로 나타내는 도면.

도 2는 도 1의 실시예에 따른 카메라들 중 하나에 의해 얻어진 투사에 관한 정의들을 주기 위한 장면을 비유적으로 나타내는 도면.

도 3은 도 2의 카메라에 의해 취해진 장면 투사를 비유적으로 나타내는 도면.

도 4는 도 1의 실시예에서의 카메라들 중 다른 하나에 의해 얻어진 투사에 관한 정의들을 주기 위한 장면을 비유적으로 나타내는 도면.

도 5는 도 4의 카메라에 의해 취해진 장면 투사를 비유적으로 나타내는 도면.

도 6은 타켓의 좌표들을 얻기 위해, 도 3의 장면에 평면 투사 변형에 의해 맵핑된 도 5의 장면으로부터 방향-지시 선택된 포인트들을 도시하는 도면.

도 7은 본 발명의 다른 실시예에 따른 두 카메라들로부터 이미지들을 사용하여 기준 투사 상에 타켓 위치의 투사를 식별하기 위해 사용되고 타켓을 지시하는 방향 벡터를 갖는 장면으로 설정을 비유적으로 나타내는 도면.

도 8 및 도 9들은 도 7의 실시예에서 카메라 이미지들의 이미지들로부터 투사들을 비유적으로 나타내는 도면.

도 10은 방향 벡터에 의해 지시된 타켓을 식별하기 위해 기준 이미지 상에 단일 방향 벡터의 투사들의 평면 투사 변형들의 조합을 도시하는 도면.

도 11은 본 발명은 적용하기 위해 사용될 수 있는 처리들과 장치들을 도시하는 도면.

발명의 요약

3차원적 타켓들의 특정 서브세트들은 모양이 미리 알려진 표면상에 위치한것들이다. 예를 들어, 투사 스크린의 평면 표면은 화자가 포인팅할 타켓들을 담을 것이다. 다른 예는, 시청자가 막대기, 손가락, 손-움직임, 등으로 포인팅하는 것과 같은 몇몇 다른 방향-지시에 의해 포인팅하거나 지시할 비디오 스크린 상의 서브이미지이다. 본 발명에 따라, 위에서 설명된 바와 같은 타켓은 이 타켓이 있는 표면 또는 카메라들의 위치들에 관한 어떤 정보를 등록함 없이 장면의 이미지에서 식별될 수 있다. 미리 요구되는 유일한 정보는 표면의 형태에 관한 최소한의 몇몇 정보이다.

한 실시예에 따라, 사용자가 포인팅하는 타켓을 결정하는 방법은 포인팅하는 사람과 타켓 영역 둘 다를 갖는 장면의 적어도 2개의 이미지들을 사용한다. 이 실시예에서는, 타켓이 두 카메라들의 장면 이미지들 내에 보이는 기준점들 또는 등록 마크들을 갖는 편편한 평면상에 위치한다고 가정한다. 포인팅 제스처는 두 장면들에서 마찬가지로 포착된다. 포인팅 제스처는 장면 자체의 X-Y 좌표들의 라인을 결정하기 위해 요구되는 정도까지 처리되고 결정된다. 이것은 두 카메라 장면들에서 이루어진다. 예를 들어, 사용자의 오른쪽 눈과 일치하는 (픽셀들의 유닛들의 X-Y 좌표들로된) 포인트들과 손가락의 끝이 사용될 수 있다. 대안적으로, 한 라인이 제스처에 의해 지시된 방향을 표시하기 위해 정의될 것이고, 이 라인이 이 라인 상의 어떤 두 임의의 포인트들에 의해 정의될 수 있을 것이다. 두 장면들로 부터의 포인트들의 이들 조준 쌍들은 맵핑된다.

개개의 이미지들은 등록 마크들을 통해 몰핑(morph)되어서 이들은 타켓이 일치하는 평면의 외관을 정확히 흉내낸다. 이것은 3차원적 추정을 모두 바이페스하는단지 2차원 추정을 사용하여 타켓이 결정되도록 허용한다. 각각의 이미지는 몰핑되어, 기준 평면으로 불릴 수 있는 타켓 평면상의 모든 포인트들이 기준 평면상에 나타나는 것과 정확히 동일한 위치로 이미지에 나타난다. 이후에 설명할 것이지만, 선형 등록 변형이, 4개의 대응하는 점들이 이미지와 기준 평면에서 식별되면 계산될 수 있다. 이렇게 변형되어서, 기준 평면상의 포인트들이, 기준 평면이 일직선상으로부터 보여지면 나타날 수 있는 동일한 관계 포지션들로 카메라 이미지에 나타난다. 즉, 기준 평면상에 정사각 패턴으로 정렬된 4개의 기준점들이 있을 경우, 비스듬하게 이들 4개의 기준점들을 보는 카메라 이미지가 몰핑될 수 있으며, 그래서 이들은 다시 한번 몰핑된 이미지내의 정사각형을 형성한다. 이 몰핑이 평면 투사적인 변형에 의해 이루어지고, 그래서 끝나는 장면 내의 모든 포인트들은 왜곡되고, 오리지널 이미지 내의 임의의 직선 상에 있는 모든 점들은 여전히 직선 상에 있다. 제 2 이미지는 유사하게 몰핑되고 두 이미지들이 정렬되어서 각 이미지의 기준 평면상의 기준점들이 단일 이미지로 일치한다. 양호하게는, 두 이미지들이 실질적으로 다른 각도들로부터 취해져서, 사용자가 장면의 다른 위치에서 한 카메라 시각에 나타날 것이고 그후 나머지 카메라 시각에 나타날 것이다. 직선들은 사용자의 각 이미지의 손가락 끝과 오른쪽 눈 사이에 그려지고 이들의 교차하는 곳이 타켓의 위치이다. 물론, 위의 설명은 순전히 비유적인 것이다. 실제 처리는 숫자적으로 이루어지며 단지 관계된 포인트들이 변형된다. 이들 포인트들은 사용자의 손가락 끝과 눈의 이미지들을 결합하는 두 이미지들 내의 포인트들이다.

이러한 접근은 많은 변형들에서 사용될 수 있다. 2개가 양호한 것으로 고려된다. 먼저, 사용자의 앞에 카메라들이 위치하고 사용자가 카메라들을 향하여 포인팅하는 경우에, 모니터나 보는 스크린 상의 선택들을 지시하는 것과 같은 인간/기계 상호작용에 특히 적합하다. 둘째는, 각각의 카메라에 보이는 2차원 표면을 향해 포인팅하는 것이 화상 회의와 같은 멀티미디어 응용들에서 유용할 수 있다.

"피크를 통한"구성으로 불리는 제 1 변형이, 예를 들어, 컴퓨터 게임을 플레이하거나 메뉴로부터 아이템들을 선택하는 컴퓨터 모니터 또는 TV를 통해 통신하기에 유용할 수 있는 것을 구상할 수 있다. 이 설계에서, 하나 또는 두 개의 다각적인 구멍들(측면들이 정렬된)을 갖는 수직 불분명한 평면이 스크린과 대략 동일 평면상에 TV 모니터 또는 컴퓨터의 꼭대기 상에 위치된다. 다른 가능성은, 각각의 구멍이 적어도 4개의 특징 포인트들에 의해 대체되는 투명한 확장 평면을 사용하는 것이다. 스크린과 구멍 확장을 포함하는 이 확장된 평면은 "기준 평면"으로 불린다.

하나 또는 두 개의 카메라들이 두 구멍들 뒤에서 사용자를 보는 확장 평면 뒤에 있다; 각 구멍(또는 4개의 마크 포인트들)은 개개의 이미지 둘레에서 항상 완전히 보인다. (대안적으로, 이 두 카메라들은 1 카메라가 나란히 2 이미지들을 레코딩하면서 2 개의 거울들에 의해 대체될 수 있다.) 초기에( 및 단지 한번), 기준 평면의 정면 이미지(스크린+부착된 구멍들 또는 마커들)는 기준 평면의 2차원적 왜곡되지 않은 외관을 표현하기 위해, 매우 좁은 보이는 영역(약 직각 투사 만큼)을 취한다. 이 이미지는 타켓 위치를 계산할 목적들을 위한 기준 프레임이 된다.

필수적인 이미지 등록(몰핑) 변형을 계산하기 위해, 구멍 경계들이 기준 프레임과 각 개개의 이미지에서 검출된다. 등록은 이미지에 2D 선형 변형을 인가하는 단계를 포함하고, 그 후 이미지 내의 구멍 경계들이 기준 프레임에서 하는 것과 같이 정확히 동일한 관계로 나타난다. 4개의 포인트들은 명세서에서 상세히 설명되는 바와 같이 이 변형을 계산하기에 충분하다.

이 설계에서, 사용자는 카메라를 향해 포인팅하면서 사진이 찍힌다. 포인팅 타켓을 위치시키기 위해, 사용자의 눈들과 손가락 끝을 검출하는 것이 필수적이다. 손가락 끝의 검출을 돕기 위해, 사용자는 밝은 색상의 골무를 낄 수 있다. 이 골무는 원격 제어와 같은 다른 상호 대화 수단을 대체할 수 있다. 손가락 끝 검출을 더 쉽게하는 것에 추가하여, 기울 수 있는 마우스가 다중 사용자들의 포인팅 제스처들 사이를 분별하는 능력을 제공하는 것과 같은 사용자 인터페이스 목적들을 위한 다른 장점들을 갖는다. 그러므로, 다른 색상의 골무들을 끼운 수많은 사용자들은 동일한 또는 다른 타켓들을 동시에 지시할 수 있다.

제 2 변형인 "직접 보는 구성"은 카메라 설정이 일시적이거나 이동 가능한 상황들에서 또는 큰 스크린으로 비디오 회의들 또는 프리젠테이션들을 하는 것과 같은 목적들을 위해 가장 유용할 것임을 구상할 수 있다. 이 설정에서, 타켓 평면 또는 기준 평면 및 사용자들은 두 카메라들로부터 보인다. 피크를 통한 구성에서와 같이, 등록이 이미지 데이터 하나 에만 기초된다. 기준 평면상의 4개의 포인트들은 이미지에 2차원적 선형 변형의 적용과 함께 발생하는 등록으로 각 이미지 내에서 식별된다. 기준 평면이 전형적으로 투사 스크린 또는 화이트 보드이기 때문에, 포인트들은 쉽게 검출될 수 있다. 이들은 높은 콘트라스트의 투사로부터 형성될 수있으며 순간적으로 설정을 포착하기 위해 사용되며, 그후 스크린으로부터 제거된다. 대안적으로, 수평 라인들의 두 세트들은 기준점 마크들 대신에 사용될 수 있다. 스크린 또는 화이트 보드의 경계들이 또한 사용될 수 있다.

마지막 단계에서, 이미지들의 하나는 기준 프레임으로서 선택될 수 있다. 등록 변형은 4개의 식별된 포인트들을 맵핑하여서, 이들이 제 1 이미지에 나타난 것과 동일한 위치로 제 2 이미지에 나타난다. 등록은, 기준 평면보다 기준 프레임에 관하여 이루어지며, 이것은 포인팅 타켓의 식별을 위해 충분하다.

본 발명은 다음의 도식적인 도면들을 참조하여 어떤 양호한 실시예들과 관련하여 설명될 것이므로, 더욱 완전히 이해 될 것이다. 도면들을 참조하여, 도시된 특정물들은 단지 본 발명의 양호한 실시예들의 도식적인 개시의 목적과 예시적인 방법에 의한 것이고, 본 발명의 개념적인 측면들과 원리들의 가장 유용하고 쉽게 이해할 수 있다고 생각하는 설명을 제공하는 이유에서 표현됨을 강조한다. 이런점에서, 본 발명의 근본적인 이해에 필수적인 것 보다 더욱 상세하게 본 발명의 구조적인 상세함을 보이는 아무 시도도 이루어지지 않으며, 도면들을 사용한 설명은 어떻게 본 발명의 몇몇 형식들이 실제 구현될 수 있는지를 당업자에게 명확하도록 한다.

양호한 실시예들의 상세한 설명

도 1을 참조하여, 텔레비전 또는 투사 스크린(10) 또는 벽(도시되지 않음) 과 같은 평면 표면 내에/상에 있는 타켓(25)이 사용자(30)에 의해 지시된다. 타켓 위치는 다음에 설명될 방법으로 두 카메라들(35 및 40)로부터 이미지들을 결합하여 두 카메라들(35 및 40) 중 하나의 이미지에서 식별될 수 있다. 이 도면은 포인팅 제스처를 사용하여 사용자(30)가 타켓(25)에 포인팅하는 것을 도시한다. 타켓을 포인팅하기 위해 사람에 의해 사용되는 제스처는 사용자의 손가락 끝, 사용자의 오른쪽(또는 왼쪽) 눈, 및 타켓이 직선으로 결합되는 그런 것이다는 것이 경험적으로 결정되어 왔다. 이것은 카메라들 중 어떤 하나의 시각내의 타켓의 평면 투사가 사용자의 손가락 끝과 눈에 의해 정의되는 직선의 평면 투사를 따라 있다는 것을 의미한다. 본 발명에서, 이 두 개의 평면 투사들은 공통 평면 투사로 변형되며, 이것은 임의의 제 3 평면 또는 카메라들(35 및 40) 중 어떤 하나가 될 수 있다.

또한, 도2를 참조하여, 카메라들이 조준되어 이들 각각은 포인팅 장치를 포착하며, 이 경우에는 사용자의 눈(90)과 조합한 사용자의 손가락 끝(80)이다. 또한, 각 카메라의 보이는 영역(45 및 50)은 4개의 등록 마크들(20)이 타켓이 위치한 평면상에 보여질 수 있는 그런 것이다. 카메라들(35 및 40)의 정확한 위치 또는 조준은 본 발명의 실시에서 중요하지 않으며, 본 발명의 더 상세한 설명 후에 명확해질 것이 지만, 이것이 타켓 위치의 정확성에 영향을 주는 범위까지는 예외이다. 정확성을 위해, 카메라 이미지들이 카메라 이미지들의 정확성과 해상도(진짜 평면 투사를 나타내는 것과 같이)를 최대한 사용하도록 하는 것을 보장하는 것이 유리하다.

이제 도 2와 3을 참조하여, 사용자(30)의 손가락 끝(80)과 눈(90)의 위치들이, 카메라(35)의 이미지 내의 평면 투사가 2차원 벡터(76)로 표현되는 3차원 벡터(85)에 의해 표시된다. 스크린의 나머지 평면 투사에서, 스크린(11)의 이미지가 일반적인 방법의 원근법으로 왜곡되어 보여진다. 문맥상 알려지지 않은 타켓(25)의 위치를 통과하기에 충분히 긴 벡터(76)의 확장(61)이 도시된다. 등록 마크들(20)(도 1)의 좌표들의 투사들은 x1,y1,...x4,y4로 도3의 이미지 내에서 식별된다. 벡터(85)의 투사(76)의 끝 포인트들이 x5,y5 및 x6,y6으로 식별된다.

이제 도 4 와 5를 참조하여, 다시, 사용자(30)의 손가락 끝(80)과 눈(90)의 위치들이 3차원 벡터(86)에 의해 표현된다. 카메라(40)의 이미지 내의 벡터(86)의 평면 투사가 2차원 벡터(87)로서 표현된다. 다시, 스크린(12)의 이미지가 통상의 방법의 원근법으로 왜곡되어 나타나고, 물론 왜곡은 카메라(40)의 위치와 방향 때문에 다르다. 타켓(25)의 위치를 통과하기에 충분히 긴 벡터(86)의 확장(62)이 도시된다. 확장(62)의 평면 투사가 63에 지시된다. 다시, 타켓의 위치의 투사가 미리 알려지지 않는다. 등록 마크들(20)(도 1)의 좌표들의 투사들이 p1,q1,...p4,q4로서 도 5의 이미지 내에 식별된다. 벡터(85)의 투사(87)의 끝 포인트들은 p5,q5 및 p6,q6로서 식별된다.

도 6을 참조하여, 도 5의 투사가 그 위에 중첩된 투사(87)벡터(87)의 변형된 버전(87')과 함께 도시된다. 변형된 투사(87')는, 도 5의 투사를 맵핑하는 2차원 선형 변형 동작에 의해 유도되어 포인트들(p1,q1,...p4,q4)이좌표들(x1,y1,...x4,y4)에 개별적으로 정확하게 맵핑된다. 이 타켓의 위치는 두 확장 라인들의 교차부와 일치한다.

이 변형은 다음과 같이 표현될 수 있다:

이것은 스케일을 제외한 변형을 나타낸다. 각 포인트가 M 상의 두 제약조건들을 제공하고 M이 스케일 없이 정의된 3x3 매트릭스이기 때문에, 이것은 8개의 알려지지 않은 것을 포함하고, 그러므로 4개의 독립 포인트들을 사용하여 결정될 수 있다. 이것은 왜 4개의 등록 포인트들(20)이 사용되는지를 말한다. M은 다음과 같이 정의된다:

4개의 포인트들(p1,q1,...p4,q4)이 주어지면, M에서 모든 알려지지 않은 것들은 다음의 선형 시스템 식들을 풀어 얻어질 수 있다.

일단, 타켓이 식별되면, 정보는 다양한 특성들을 제공하기 위해 사용될 수 있다. 예를 들어, 스크린 상에 투사된 목적물은 포인팅에 의해 제어될 수 있다. 이 예에 대해서, 두 카메라 이미지들이 스크린(10)의 평면으로 변형될 수 있다. 타켓의 스크린(10) 상에 좌표들이 주어진다며, 어떤 컴퓨터 처리들이 이 정보를 사용할 수 있다. 예를 들어, 많은 플레이어들을 갖는 게임, 각각은 포인팅 제스처들에 의해 제어된다. 다른 색상의 골무들 또는 지팡이들은 스크린 상에 렌더링된 다른 목적물들을 제어하기 위해 다른 플레이어들에 의해 사용/끼여질 수 있다. 마우스, 광 연필, 터치 스크린, 등으로 현재 수행되는 어떤 태스크들은 포인팅 제스처들로 수행될 수 있다.

비록 위에 설명된 실시예에서, 타켓이 특정 방법(눈-손가락 끝)으로 포인팅 제스처에 의해 지시되었지만, 이 지시가 다른 방법들로 유도될 수 없는 이유는 없다. 예를 들어, 보는 장치 또는 지팡이가 사용될 수 있다. 또한, 스크린 상의 타켓보다, 타켓이 공통 평면상에 실질적으로 있는 이미지들 또는 어떤 목적물들이 될 수 있다. 또한, 목적물들 또는 타켓들은 단일 평면상에 있을 필요는 없지만, 다중 평면들 상에 있을 수 있으며, 이들 각각은 등록 마크들의 개개의 세트를 갖는다. 또한, 본 발명은 다른 변형들을 사용하여 확장될 수 있으므로 타켓들이 평면 표면들보다 표면들 상에 있을 수 있다. 또한, 다른 변형이 방향을 지시하는 제스처의 방법에 있다. 이미지들의 시간 연속들은, 방향을 지시하기 위해 움직이는 제스처를 가질 수 있는 것과 같은 짧은 간격 시간 동안 손 또는 손가락의 휩쓰는 방향과 같은 방향을 유도하기 위해 사용될 수 있다. 또한, 다른 적당한 응용은 화이트 보드응용이 될 수 있다. 또한, 등록 마크들(20)은 스크린 상의 마크들이 될 필요가 없으나, 스크린(10)의 코너들이 될 수 있다. 또한, 등록 마크들은 설정 동안 한 포인트에서 스크린 상에 투사될 수 있고 그후 제거된다. 그 다음, 등록 포인트 좌표들은, 설정이 변경될 때까지 등록 마크들을 더 참조하지 않고 변형을 계산하기 위해 사용될 수 있다. 이 기술의 다른 응용은 카메라를 타켓으로 조준하는데 사용하기 위한 것이다. 기준 이미지 내의 좌표들이 일단 알려지면, 두 카메라들 중 하나 또는 제 3 카메라가 타켓을 획득하기 위해 재 조준되거나 줌될 수 있다. 이것은 자동화된 화상회의 시스템의 관점에서 유용할 것이다.

이제, 도 7을 참조하여, 본 발명의 다른 실시예에 대응하는 설정에서, 벡터(200)는 타켓(226)을 지시한다. 확장 라인(205)은 타켓으로 벡터(200)의 축을 따라 방향이 정해진다. 논의된 이전의 실시예들에서와 같이, 벡터(200)는 예를 들어 포인팅 제스처와 같은 수많은 다른 지시 장치들의 어떤 것을 표현한다. 또한, 다른 실시예에서와 같이, 타켓(226)은 평면 내에/상에 있으며, 이 예에서는 큰 포맷 텔레비전의 예에 대하여 스크린(270)이다. 카메라들(235 및 240)은 개개의 기준 프레임들(260 및 265)을 통해 조준된다. 기준 프레임들(260 및 265)은 카메라(235)의 보이는 영역 내의 등록 포인트들(1-4)과 카메라(240)의 보이는 영역 내의 등록 포인트들(5-8)을 간단히 제공한다. 각각의 카메라(235 및 240)가 조준되어, 벡터(200)와 등록 포인트들의 개개의 세트를 본다. 그러므로, 예를 들어, 설정은 사용자에게 조준되고 텔레비전의 꼭대기 상의 카메라들을 갖는 텔레비전의 정면에 의자에 앉아있는 사용자를 포함할 수 있다.

이 실시예에서, 등록 포인트들은 간단히 프레임들(260 및 265)의 코너들(1-8)이다. 이들 코너들의 좌표들은, 특히 비디오 카메라들인 카메라들의 제한된 해상도라 하더라도 상당한 정밀도를 갖는 위치들을 얻기 위해 프레임들의 에지들에 기초하는 외삽법 윤곽 맞추기(extrapolating contour fits)에 의해 양호하게 결정될 수 있다. 이러한 기술들은 당업계에 알려져 있다.

도 8과 9를 참조하여, 카메라들(240 및 235)의 이미지들은 각각 포인팅 벡터(200)의 개개의 투사들(210 및 220)을 포함한다. 또한, 벡터 투사들(210 및 220)에 의해 지시되는 방향에 의해 결정되는 윤곽들(215,225)이 도시된다. 도 7은 3차원 장면을 도시하기 위해 사용되지만, 그것의 배열은 또한 스크린(270)을 향하는 시선 방향으로부터 취해진 투사를 지시한다. 그러한 이미지는 이 실시예에서 기준 이미지로서 사용되며, 두 카메라 이미지들의 벡터들은 기준 이미지 내의 타켓의 좌표들을 결정하기 위해 이 이미지로 변형된다.

도 7의 장면 투사를 도시하는 도 10을 참조하여, 벡터 이미지들이 2차원 선형 변환을 사용하여 기준 프레임으로 변환된 후에, 윤곽들(215 및 225)이 각각 윤곽들(285 및 280)로 변형된다. 이 변형은 도 10의 이미지의 대응하는 포인트들로 도 9의 이미지 내의 포인트들(1-4)을 맵핑한다. 그러나, 변형되야 할 포인트들 만이 벡터 투사들(210 및 220)을 정의하는 포인트들이다. 기준 이미지들[도 7 또는 10의 기준 이미지와 프레임들(260,265)]는 기준 포인트들의 좌표들을 결정하기 위해 각 설정에 대해 한번 취해질 필요만 있다.

이제 도 11을 참조하여, 본 발명의 구현 응용들에 사용될 수 있는 처리들과장치들이 블록 다이어그램 식으로 도시된다. 이미지 처리기(305)는 카메라들(301 및 302)로부터 이미지 데이터를 수신한다. 이미지 및 좌표 데이터는 메모리(310) 또는 비휘발성 저장장치(320)에 저장될 수 있다. 예를 들어, 일단 계산된 변형 데이터는, 응용 처리(330)에 인가될 수 있는 타켓의 좌표들(x,y)을 유도하기 위해 카메라들(301 및 302)로부터 이미지들의 계산에 사용되는 메모리(310) 및 비휘발성 메모리(320) 내에 저장될 수 있다. 그후, 응용 처리(330)는 게임의 아바타(avatar)에 대한 제어 데이터 또는 화이트 보드 상에 자취와 같은 출력을 생성한다.

카메라들(301 및 302)에 의해 수집된 투사 데이터가 또한, 음파(sonar), 무선, 초음파 의학 장치 또는 평면 투사를 형성할 수 있는 어떤 다른 장치와 같은 다른 소스들로부터 유도될 수 있다.

본 발명이 앞에 설명한 예시적인 실시예들의 상세한 설명에 제한되지 않는 다는 것과, 본 발명이 본 발명의 근본적인 특성들 또는 정신으로부터 벗어나지 않고 다른 특정 양식들로 구현될 수 있다는 것이 당업자에게 명확할 것이다. 그러므로, 본 발명의 실시예들은 모든 관점에서 예시적이며 제한적이지 않다는 것이 고려되며, 본 발명의 범위는 앞의 설명보다 첨부된 청구항들에 의해 지시되고, 이 청구항들과 동등한 범위와 의미 내에 오는 모든 변화들은 여기에 포함되도록 의도된다.

Claims

평면상에 타켓(target)을 위치시키기 위한 장치에 있어서,

장면(5)의 제 1 투사(projection)를 지시하는 제 1 신호를 생성하는 제 1 이미지 수집 장치(35)와;

타켓(25)의 지시자(85)를 담는 상기 장면과;

상기 장면의 제 2 투사를 지시하는 제 2 신호를 생성하는 제 2 이미지 수집 장치(40); 및

상기 제 1 및 제 2 신호들을 수신하기 위해 연결되고, 상기 제 1 및 제 2 신호들 중 적어도 하나의 적어도 한 부분에 선형 변환(linear transform)을 인가하고 상기 장면의 기준 투사(reference projection) 상의 상기 타켓의 위치를 유도하기 위해 상기 제 1 및 제 2 신호들 외의 다른 신호와 상기 선형 변환의 결과를 결합하도록 프로그램된 컴퓨터 장치(305)로서, 상기 기준 투사는 상기 장면의 제 3, 상기 제 1, 및 상기 제 2 투사들 중 하나인, 상기 컴퓨터 장치(305)를 포함하는, 타켓을 위치시키기 위한 장치.
이미지 처리기에 있어서,

장면의 제 1 및 제 2 평면 투사(planar projection)들을 받아들이도록 프로그램된 처리기(305)와;

상기 제 1 및 제 2 평면 투사들 각각으로부터 개개의 궤도들(trajectory ;61,63)을 식별하도록 프로그램된 상기 프로세서와;

적어도 하나의 변환된 궤도(63')를 생성하기 위해 상기 제 1 및 제 2 평면 투사 궤도들 중 적어도 하나의 변형을 계산하도록 더 프로그램된 상기 프로세서; 및

상기 제 1 및 제 2 평면 투사 궤도들 중 상기 적어도 하나와 정렬된 3차원 표면(11) 상의 타켓(25)의 좌표들과, 상기 장면의 제 3 공통 평면 투사 또는 상기 제 1 및 제 2 평면 투사들 중 하나 상의 위치를 상기 적어도 하나의 변형된 궤도로부터 계산하도록 또한 프로그램된 상기 처리기를 포함하는, 이미지 처리기.
타켓을 위치시키는 방법에 있어서,

평면내에 있는 타켓의 지시자의 제 1 및 제 2 이미지들을 수집하는 단계; 및

상기 타켓의 좌표들을 결정하기 위해 상기 제 1 및 제 2 이미지들 중 적어도 하나의 평면 투사 변환을 수행하는 단계를 포함하는, 타켓 위치 방법.
제 3 항에 있어서,

상기 수집 단계는 장면의 평면 투사들을 나타내는 개개의 제 1 및 제 2 이미지들을 형성하는 단계를 포함하는, 타켓을 위치시키는 방법.
제 3 항에 있어서,

상기 수행하는 단계는 인간 포인팅 제스처의 특징들을 식별하는 단계를 포함하는, 타켓을 위치시키는 방법.
제 3 항에 있어서,

상기 수행 단계는 상기 평면에 있는 4개의 포인트들의 이미지 내의 좌표들로부터 상기 평면 투사를 결정하는 단계를 포함하는, 타켓을 위치시키는 방법.
평면 내의 타켓을 식별하는 방법에 있어서,

제 2 평면 투사로부터 적어도 4개의 포인트들과 제 1 평면 투사로부터의 적어도 4개의 포인트들로부터 선형 변형을 계산하는 단계와;

상기 제 2 평면 투사로 상기 제 1 평면 투사에 대응하는 평면 내의 제 1 궤도를 변형하는 단계와;

상기 제 2 평면 투사에 대응하는 평면 내의 궤도와 상기 제 1 궤도의 변형의 교차점을 결정하는 단계를 포함하는, 타켓 식별 방법.
제 7 항에 있어서,

상기 제 1 및 제 2 평면 투사들의 각각의 상기 적어도 4개의 포인트들은 모두 기준 평면내에 있는 적어도 4개의 포인트들의 단일 세트의 투사들인, 타켓 식별 방법.
평면내에 있는 타켓을 식별하는 방법에 있어서,

개개의 투시들로부터 기준 평면내에 있는 포인트들을 이미지화하여 선형 변형들을 계산하고, 상기 기준 평면의 대응하는 포인트들로 상기 개개의 투시들로부터 상기 포인트들을 맵핑하도록 하는 변형을 유도하는 단계와;

상기 선형 변형들 중 하나를 사용하여 3차원 궤도의 제 1 이미지를 변형하는 단계와;

상기 선형 변형들 외의 변형을 사용하여 상기 궤도의 제 2 이미지를 변형하는 단계와;

상기 궤도에 의해 지시되는 타켓의 상기 기준 평면 내의 좌표들을 결정하기 위해 상기 변형 단계로부터의 결과인 상기 궤도의 개개의 변형들의 교차부를 결정하는 단계로서, 상기 타켓은 상기 기준 평면내에 있는, 상기 교차부를 결정하는 단계를 포함하는, 타켓 식별 방법.
기준 표면 내에 있는 타켓 포인트를 식별하는 방법에 있어서,

상기 기준 표면 내의 포인트들의 적어도 제 1 및 제 2 표면 투사들을 형성하는 단계로서, 수많은 상기 포인트들이 상기 기준 표면에 의해, 적어도 부분적으로, 결정되는, 상기 제 1 및 제 2 표면 투사들을 형성하는 단계와;

상기 표면 내의 상기 포인트들의 상기 투사들에 응답하여 변형을 유도하는 단계로서, 상기 변형은, 제 3 표면 또는 상기 제 1 및 제 2 투사 표면들 중 하나일 수 있는 결과 투사 표면상의 개개의 포인트로 상기 포인트들 각각을 변형하는 것이며, 이 변형으로 인해 상기 기준 표면상의 주어진 포인트의 각 투사는 상기 결과 투사 표면상의 동일한 좌표와 일치하여 떨어지는, 상기 변형을 유도하는 단계; 및

상기 타켓을 식별하기 위해 상기 변형을 사용하여 궤도의 적어도 하나의 투사를 변형하는 단계를 포함하는, 타켓 포인트 식별 방법.