KR102032398B1

KR102032398B1 - 가상 환경에서 객체의 선택을 위한 방법

Info

Publication number: KR102032398B1
Application number: KR1020110048589A
Authority: KR
Inventors: 프랑수아 르 클럭; 빈센트 알로옴; 피에릭 주엣
Original assignee: 인터디지탈 매디슨 페이튼트 홀딩스
Priority date: 2010-06-04
Filing date: 2011-05-23
Publication date: 2019-10-15
Also published as: JP2011258204A; CN102270275B; EP2410401B1; US9298346B2; KR20110133424A; US20110302535A1; JP5901151B2; EP2410401A1; FR2960986A1; CN102270275A

Abstract

본 발명은 제 1 가상환경에서 제 1 객체의 선택을 위한 방법에 관한 것인데, 제 1 객체는 임계치보다 작은 값의 크기를 갖고 제 1 환경에 나타난다. 제 1 객체를 더 편리하게(convivial) 선택하기 위해, 방법은:
- 사용자의 지시 제스처와 결합된 방향(120)을 추정하는 단계,
- 상기 추정된 방향에 따라 제 2 객체(12)를 결정하는 단계로서, 상기 제 2 객체는 임계치보다 큰 크기의 값을 갖는, 결정 단계 및
- 상기 결정된 제 2 객체(12)에 따라 상기 제 1 객체(112)의 선택 단계
를 포함한다.
또한, 본 발명은 선택을 위한 방법의 구현에 대해 적응되는 멀티미디어 단말기(18)에 관한 것이다.

Description

가상 환경에서 객체의 선택을 위한 방법{METHOD FOR SELECTION OF AN OBJECT IN A VIRTUAL ENVIRONMENT}

본 발명은 사용자와 가상 환경 간의 상호작용을 제공하는 사용자 인터페이스의 영역에 관한 것이고, 더 구체적으로 가상 환경에서 사용자를 나타내는 아바타(avatar)를 사용하는 것에 관한 것이다.

종래 기술에 따라, 예를 들어, 사용자를 나타내는 아바타를 중개로 하여, 사용자가 멀리 떨어져 있는 사람 및/또는 객체와 상호작용하는 것을 가능케 하는 상이한 통신 애플리케이션이 존재하는데, 아바타에 결합된 사용자가 실 세계에서 전개되는 한편, 이 아바타는 가상 세계에서 전개된다. 그러면, 멀리 떨어진 영역(예를 들어, 다른 집에, 다른 도시에 또는 다른 나라에)에 위치한 다른 사용자들은 예를 들어, 온라인 게임, 소셜 웹(social web) 등과 같은 하나 이상의 통신 애플리케이션을 사용하여 그들 각자의 아바타를 중개로 하여 통신할 수 있다. 각 애플리케이션 사용자는 사용자의 말 및/또는 제스처 및/또는 감정을 다른 사용자에게 전달하기 위해 사용자의 말 및/또는 제스처 및/또는 감정을 재-전사하는(re-transcribe) 아바타로 묘사된다. 사용자에 의해 사용되는 통신 애플리케이션이 PC(개인용 컴퓨터) 종류의 컴퓨터상에서 호스팅될 때(host), 아바타의 제어는 자연히 예를 들어 키보드와 마우스와 같이 간단하고 편리한(convivial) 제어 디바이스로 수행되는데, 이 디바이스는 가상 세계와 사용자의 상호작용이 간단히 관리되는 것을 가능케 한다. 하지만, 통신 애플리케이션이 예를 들어, 평면 스크린(LCD, 플라즈마) 종류 또는 프로젝션(projection) 스크린 종류의 디스플레이 디바이스에 연결된 셋-톱 박스 내에 있을 때, 사용자는 주로 거실에서 안락 의자 또는 소파에 앉아서, 컴퓨터상에서 사용되는 디바이스와 같은 제어 디바이스의 사용이 매우 편리한 것은 아니다. 게다가, 사용자와 사용자의 아바타 간의 상호작용은 지시(pointing) 디바이스에 의해 수행될 수 있다. Gyration Company에 의해 판매되는 제품과 같은, 자이로스코픽(gyroscopic) 리모콘 또는 자이로스코픽 마우스는 이러한 디바이스의 예시를 제공한다.

더 편리한 상호작용은 사용자로 하여금 어떠한 디바이스의 조작도 요청하지 않는, 제스처로 제어되는 인터페이스를 사용하여 얻어진다. 이들 인터페이스의 종류에서, 디코더 또는 텔레비전상에 위치한 하나 이상의 카메라는 사용자를 촬영하여, 이미지 처리에 의해 분석된 사용자의 제스처가 해석되도록 캡처하고, 관련 명령어를 추론하기 위해, 사전 한정된 어휘에 따라 이들 제스처를 분류한다. 하지만 이러한 사용자 인터페이스 종류에서, 가상 환경에서 객체의 선택은 문제가 된다. 실제로, 텔레비전 스크린상에서 가상 객체의 표현의 감소된 크기는 지시를 통한 지정(designation)을 가능케 하지 못한다. 일반적으로 지시의 방향의 결정에 대한 불확실함은 지시된 객체의 명료한 검출을 확립하지 못한다.

본 발명의 목적은 종래 기술의 이들 단점 중 적어도 하나를 극복하는 것이다.

더 구체적으로, 본 발명의 목적은 특히 제스처 명령을 기초로 하는 간단하고 편리한 사용자 인터페이스를 제안하는 것이다.

본 발명은 제 1 가상 환경에서 제 1 객체의 선택을 위한 방법에 관한 것인데, 제 1 객체는 제 1 환경에 나타나고, 임계치보다 작은 값의 크기를 갖는다. 방법은:

- 사용자의 지시 제스처와 결합된 방향을 추정하는 단계,

- 추정된 방향에 따라 제 2 객체를 결정하는 단계로서, 제 2 객체는 임계치보다 큰 값의 크기를 갖는, 결정 단계, 및

- 결정된 제 2 객체에 따라 제 1 객체를 선택하는 단계를

포함한다.

이롭게, 제 2 객체는 실제 환경에 속한다.

특정 특징에 따라, 제 2 객체는 제 2 가상 환경에 속한다.

특정 특징에 따라, 실제 환경은 3차원으로 매핑된다.

이롭게, 제 1 객체는 제 1 객체의 그룹에 속하고, 제 2 객체는 제 2 객체의 그룹에 속하며, 제 1 객체의 선택은 각 제 1 객체와 제 2 객체 간의 관계를 구축하는 테이블의 사용을 포함한다.

다른 특징에 따라, 방법은 비디오 카메라를 사용하여 지시 제스처의, 그리고 깊이 정보의 적어도 하나의 항목의 취득 단계를 포함한다.

이롭게, 제 2 객체의 결정은 광선과 광선에 마주치는 제 1 요소 간의 교차점의 계산 단계를 포함하는데, 이 광선은 원점으로서 지시 제스처를 하는 사용자의 신체 부분, 방향으로서 지시 제스처와 결합된 방향 및, 배향으로서 지시 제스처의 배향을 갖는다.

특정 특징에 따라, 지시 제스처의 방향은 지시 제스처를 하는 사용자 신체 부분의 검출을 통해, 그리고 3차원 공간 내에서 신체 부분의 세로(longitudinal) 축의 추정을 통해 결정된다.

또한, 본 발명은 캡처된 픽처를 나타내는 신호의 수신을 위한 유닛과, 픽처의 처리를 위한 유닛을 포함하는 멀티미디어 단말기에 관한 것이고, 이 픽처 처리 유닛은

- 사용자의 지시 제스처와 결합된 방향을 추정하는 수단,

- 추정된 방향에 따라 제 2 객체를 결정하는 수단으로서, 제 2 객체는 임계치보다 큰 값의 크기를 갖는, 결정 수단, 및

- 결정된 제 2 객체에 따라 제 1 객체를 선택하는 수단으로서, 제 1 객체는 제 1 가상 환경에 속하고, 임계치보다 작은 값을 갖는, 선택 수단을

포함한다.

첨부 도면을 참조하는 다음의 서술을 읽을 시, 본 발명은 더 잘 이해될 것이고, 다른 특정 특징 및 장점도 분명해질 것이다.

본 발명은 지시 제스처를 이용하여, 3D 가상 환경상에서의 아바타를 제어하는데, 종래 기술보다 더 정확도를 높이는 효과를 갖는다.

도 1은 본 발명의 특정 실시예에 따라, 가상 세계에서 자신의 아바타를 제어하는 사용자의 실제 환경을 도시하는 도면.
도 2는 본 발명의 특정 실시예에 따라, 도 1에서 사용자에 의해 수행되는 제스처의 방향의 추정 방법을 도시하는 도면.
도 3은 본 발명의 특정 실시예에 따라, 본 발명의 구현을 위한 멀티미디어 단말기의 구조를 개략적으로 도시하는 도면.
도 4는 본 발명의 특정 실시예에 따라, 도 3의 멀티미디어 단말기에 구현된 가상 환경에서 객체의 선택 방법을 도시하는 도면.

도 1은 가상 환경에서 사용자를 나타내는 아바타(110)를 중개로 하여, 멀리 떨어져 있는 대화자와 통신하기 위한 가상 환경을 사용하는, 사용자(10)가 존재하는 실제 환경(1)을 도시한다. 가상 환경은 실제(예를 들어, 집, 정원, 공원, 건물, 도시 등의 비디오) 또는 가상 환경의 임의의 그래픽 표현에, 또는 컴퓨터로 생성된 이미지에 의해 생성된 임의의 환경에 또는, 임의의 프로젝션, 예를 들어 실제 또는 가상 환경의 입체 영상에 대응한다. 도 1에 대해 도시된 실제 환경(1)은 사용자(10)의 거실에 대응하는데, 사용자(10)는 사용자의 소파(16)에 앉아서, 디스플레이 디바이스{예를 들어, 플라즈마 디스플레이 패널 또는 LCD(Liquid Crystal Display) 스크린}를 본다. 사용자의 실제 환경(1)에 대응하는 사용자의 거실은 복수의 객체를 포함하는데, 복수의 객체로는 특히: 소파(16), 2개의 오디오 스피커(14 및 15), 문(13), 안락의자(12), 탁자(17), 디스플레이 디바이스(11), 멀티미디어 단말기(18)(예를 들어, 디지털 디코더, 예를 들어 위성 및 지상파(지상파 디지털 텔레비전 TNT), 게임 콘솔, 멀티미디어 전화기, PC 타블렛 등이고, 여기에서 멀티미디어 단말기는 xDSL 게이트웨이에 연결되어 있거나 연결되어 있지 않음), 카메라(예를 들어, 3D 깊이 웹캠)에 통합되거나 분리된 깊이 센서가 구비된 카메라(19)가 존재한다. 카메라(19)는 유선 또는 무선 연결을 통해 멀티미디어 단말기(18)에 연결된다. 멀티미디어 단말기(18)는 유선 및 무선 연결을 통해 디스플레이 디바이스(11)에 연결된다. 사용자(10)가 이 사용자의 아바타(110)를 중개로 하여 멀리 떨어져 있는 대화자와 통신하는 것을 가능케 하는 애플리케이션은 멀티미디어 단말기에서 호스팅되고, 통신 애플리케이션에 의해 디스플레이되는 비디오 콘텐츠는 디스플레이 디바이스(11) 상에서 디스플레이된다. 디스플레이 디바이스 상에 디스플레이되는 비디오 콘텐츠는, 사용자(10)를 나타내는 아바타(110)가 전개되는 가상 환경(100)을 나타낸다. 가상 환경(100)은 특히 문(112) 및 텔레비전 스크린(111)이 존재하는 하나 이상의 가상 객체를 포함한다. 이롭게, 가상 객체는 실제 또는 가상 객체의 임의의 그래픽 또는 입체 영상 표현에 대응하는데, 이러한 실제 객체는 당업자에게 알려진 임의의 수단(예를 들어, 비디오 카메라, 스틸 카메라)에 의해 캡처되거나, 픽처 합성에 의해 생성된다.

가상 환경(100)에서 아바타(110)의 변위는 사용자(10)에 의해 제어된다. 이롭게, 아바타의 변위의 제어는 리모콘(130)을 중개로 이루어지는데, 변위는 예를 들어 방향 키(↑, ↓, ← 및 →)의 사용을 통해 명령되고, 리모콘에 의해 송신된 신호는 멀티미디어 단말기(18)에 의해 수신되고 디코딩된다. 일 변형에 따라, 아바타의 변위는 사용자에 의해 송신된 음성 명령으로 제어된다. 게다가 음성 명령이 수신되면, 멀티미디어 단말기에 통합되거나, 멀티미디어 단말기로부터 분리된 마이크를 중개로 하여 멀티미디어 단말기(18)에 의해 디코딩되고 유선 또는 무선 연결에 의해 멀티미디어 단말기에 연결된다(예를 들어, 마이크는 카메라(19) 또는 디스플레이 디바이스(11)에 통합되거나, 또는 분리된 디바이스이다). 다른 변형에 따라, 아바타(110)의 변위는 사용자에 의해 수행된 제스처에 의해 제어된다. 이들 제스처는 디코딩 및 해석될 멀티미디어 단말기(18)에 송신되기 전에, 그리고 결합된 깊이 정보를 추출하기 위해 카메라(19)에 의해 캡처된다.

아바타(110)가 가상 환경(100)에서의 진행 동안, 아바타(110)는 가상 환경으로부터 가상 객체를 선택하도록, 예를 들어, 하나의 가상 환경에서 다른 가상 환경으로 움직이기 위해(예를 들어, 아바타가 돌아다니는 건물의 하나의 방에서 다른 방으로 움직이기 위해) 문(112)을 선택하거나, 또는 아바타를 가상 환경에서 하나의 장소로부터 다른 장소로 옮기기 위해 임의의 종류의 객체를 다시 선택하도록 유도된다. 문(112)을 선택하기 위해, 사용자(10)는 이 사용자의 신체의 임의의 부분, 예를 들어, 이 사용자의 하나의 팔을 이용해 실제 환경(1)에 속하는 실제 객체 예를 들어, 찬장을 가리킨다. 사용자(10)에 의해 생성된 지시 제스처는 이 카메라(19)에 의해 캡처된 픽처의 시퀀스에서, 카메라(19)에 의해 검출된다. 지시 제스처의 검출은 컴퓨터 비전에서, 검출 및 분류에 대한, 예를 들어, 픽처 또는 비디오에서 얼굴의 검출을 위한 다수의 애플리케이션을 위해, 이미 광범위하게 사용되는 머신 학습 기술을 사용하여 이롭게 사용된다. 이러한 기술에 따라, 지시 제스처를 포함하는 픽처는 팔을 뻗고 있는 사람의 픽처(또한, 긍정(positive) 픽처라 불림)의 세트를 포함하는 지식 기반의 다수의 픽처(예를 들어, 10,000개의 픽처) 및, 사람이 팔을 뻗는 것으로 나타나지 않은 다수의 픽처 세트(또한, 부정(negative) 픽처라 불림)를 포함하는 지식 기반의 다수의 픽처와 비교된다. 이러한 비교를 사용하여, 차별(discriminating) 속성은 카메라(19)에 의해 캡처된 픽처에 대해 계산되는데, 이들 속성은 사전 한정된 픽처 또는 픽처 영역의 서술자의 패밀리 사이로부터 선택된다. 이들 차별 속성의 값의 범위를 팔을 뻗고 있는 사람의 픽처의 카테고리와 결합시키는 기준은 머신 학습 알고리즘, 예를 들어, AdaBoost 알고리즘을 통하여 오프-라인으로 결정된다. 캡처된 픽처 상에서, 이러한 기준이 만족 된다면, 캡처된 픽처는 콘텐츠가 지시 제스처를 하는 사람을 나타내는 픽처로서 해석된다. 반대의 경우라면, 캡처된 픽처가 부정 픽처를 포함하는 지식 기반의 픽처와 결합되고, 캡처된 픽처는 콘텐츠가 지시 제스처를 하는 사람을 나타내는 픽쳐가 아니라고 해석된다. 실제로, 캡처된 픽처 내에서 사용자의 픽처의 위치뿐만이 아니라, 이 픽처의 치수도 알려지지 않는다. 따라서, 위에 서술된 검출 동작은 카메라(19)에 의해 캡처된 픽처 내에서, 팔을 뻗고 있는 사람을 포함할 것 같은, 서브-픽처의 위치 및 크기의 세트에 대해 반복되어야 한다.

콘텐츠가 지시 제스처를 수행하는 사람을 나타내는 픽처로서, 캡처된 픽처가 해석되는 경우, 도 1의 예시에 따라 팔을 뻗고 있는 경우에, 지시 제스처를 포함하는 픽처의 부분은 픽처 분석에 의해 추출된다. 위에 서술된 사람이 팔을 뻗고 있는 것을 검출하기 위해 사용되는 머신 학습 기술은 이러한 목적을 위해, 즉 팔을 뻗고 있는 사람의 픽처 내에서 뻗어져 있는 팔의 시간이 소요되는 검출을 위해 재사용될 수 있다. 지시 제스처를 포함하는 픽처 부분의 픽셀과 결합된 깊이 정보를 사용하여, 지시 제스처와 결합된 방향은 실제 환경(1)의 3 차원(3D) 공간에서, 도 2에 도시된 3D 회귀(regression) 기술을 사용하여 결정되는데, 여기에서 명료함을 위해 2차원 공간으로 한정된다. 이러한 지시 방향의 추정은 예를 들어 검출된, 뻗은 팔에 대응하는 픽처의 지점에서 선형 회귀 모드를 사용하여 수행된다. 지시 제스처의 방향은 지시 제스처를 수행하는 사용자(10)의 신체 부분의 세로 축에 이롭게 대응한다. 사용자의 뻗은 팔을 나타내는 서브-픽처의 내부에서, 팔의 말단을 결정하기 위하여, 즉 지시 제스처의 적절한 말단을 결정하여 지시 배향을 한정하기 위해, 사용자의 손 또한 앞선 기술과 동일한 머신 학습 기술에 의해 검출된다. 3D 기하학의 간단한 규칙의 사용을 통해, 계산된 회귀 광선(지시 제스처의 결정된 방향 및 지시 제스처의 결정된 배향, 지시 제스처의 적절한 말단에 대응하는 광선의 원점으로부터)에 마주치는 실제 환경(1)의 제 1 실체 객체와 계산된 회귀 광선 간의 교차 지점이 결정된다. 이를 위해, 실제 환경(1)은 예를 들어 매핑 애플리케이션의 사용을 통하여 사용자(10)에 의해 또는 다른 사람에 의해 이전에 3D로 매핑된다, 즉 실제 환경(1)의 실제 객체는 이 객체를 각각 실제 환경에서의 3D 공간에서 각각 식별자 및 좌표(x, y 및 z)에 결합시켜 식별되고 위치된다. 일 변형에 따라, 실제 환경은 환경 캡처 수단(예를 들어, 깊이 센서와 결합된 카메라) 및 처리 수단, 예를 들어 실제 환경의 캡처된 픽처를 분석하는 적응된 매핑 애플리케이션의 사용을 통해 자동으로 3D로 매핑된다. 실제 환경과 계산된 회귀 광선의 3D 매핑을 사용함으로써, 회귀 광선에 마주치는 제 1 실제 객체 그리고, 결과적으로 사용자(10)의 지시 제스처를 통해 지시되는 객체가 어떤 것인지를 결정하는 것이 쉬워진다. 일 변형에 따라, 어떠한 실제 객체도 회귀 광선에 마주치지 않는다면, 선택된 실제 객체는 회귀 광선에 가장 근접한 실제 객체다, 즉 실제 객체는 회귀 광선으로부터 임계치보다 짧은 거리(예를 들어, 20cm, 50cm 또는 1m)에 위치한다. 임계치보다 짧은 거리의 세트는 이롭게 공차 영역을 형성하는데, 이 영역은 반지름이 임계치와 동일한 회귀 광선을 둘러싸는 원기둥의 형태를 갖는다. 이롭게, 실제 환경의 3D 맵에 매핑된 실제 객체는 결정적인 크기보다 더 큰 크기, 즉 임계치보다 더 커서(예를 들어, 이 객체를 둘러싸는 평행육면체의 3개의 치수중 최소값은 적어도 사전 결정된 값, 예를 들어, 40cm, 50cm 또는 60cm이거나, 지시 방향에 수직인 평면에서 객체의 프로젝션의 2개의 치수중 최소값은 적어도 40cm, 50cm 또는 60cm이다), 지시 제스처의 방향의 결정의 부정확함이 지시된 실제 객체의 선택에 어떠한 영향도 미치지 않게 된다. 실제로, 지시 제스처의 방향을 추정하는데 사용되는 이들 기술로부터, 너무 작은 객체, 즉 임계치보다 작은 크기를 갖는 객체는 이들 객체와 회귀 광선 간의 교차지점을 만듬으로써 확실히 결정될 수 있다. 임계치는 지시 방향의 추정의 부정확함을 나타내는 정보에 따라 이롭게 결정된다.

일단 지시 제스처를 통해 지시된 실제 객체가 결정되고 식별되면, 실제 객체가 결합되는 가상 세계의 가상 객체는 사용자(10)를 나타내는 아바타(110)에 의해 차례대로 선택된다. 도 1의 예시에 따라, 사용자가 팔로 문(112)에 결합된 벽장(12)을 가리킴으로써, 문(112)은 아바타(110)에 의해 선택된다. 가상 환경의 가상 객체(또한 제 1 객체라 불림)와 실제 환경(1)의 객체(또한 제 2 객체라 불림) 간의 결합을 만들기 위해, 결합(또는 대응) 테이블이 예를 들어 사용자(10)에 의해 구축된다. 예를 들어, LUT(룩-업 테이블) 유형의 이러한 결합 테이블은 유리하게 제 1 객체와 제 2 객체 간의 일 대 일 결합을 구축하는데, 제 1 객체는 다른 제 1 객체에 결합되지 않는 하나 이상의 제 2 객체에 결합된다. 따라서, 예를 들어 문(112)은 찬장(12) 및 스피커(14)에 결합되고, 텔레비전 스크린(111)은 탁자(17)에 결합된다.

도시되진 않은 이로운 일 변형에 따라, 사용자(10)는 이 사용자의 지시 제스처를 통해 제 1 가상 환경(100)과는 상이한 제 2 가상 환경에 속하는 제 2 객체를 가리킨다. 예를 들어, 이러한 제 2 가상 환경은 가상 객체를 포함하는 합성된 픽처에 대응하는데, 이 가상 객체 각각은 임계치보다 큰 크기를 갖고, 사용자(10)의 신체 부분으로 지시함으로써 이 객체가 선택되게 하는 것을 가능케 한다. 이러한 제 2 가상 환경은 예를 들어 비디오 프로젝터를 통해, 실제 환경(1)의 벽에 또는 충분히 큰 프로젝션 스크린에 투영된다. 이러한 일 변형의 장점은 실제 환경에 대해 행해진 것과는 달리, 제 2 가상 환경을 매핑할 필요가 없다는 것이다: 제 2 가상 환경의 2개의 가상 객체는 픽처 합성에 의해 구성된다; 이들 각 위치는 디폴트로 알려진다; 제 2 가상 객체와 회귀 광선 간의 교차 지점의 결정은 간단하고, 자동이다. 다른 변형에 따라, 제 2 가상 환경은 프로젝션 스크린으로의 제 1 가상 환경의 프로젝션인데, 이 프로젝션은 제 2 객체가 되는 제 1 투사 가상 객체의 크기가 임계치보다 커져서, 이 제 2 객체가 지시을 통해 선택되도록 하는 방식으로 이루어진다. 따라서, 제 1 객체와 제 2 객체 간의 결합은 상이한 디스플레이 디바이스(예를 들어, 각각 디스플레이 디바이스(11) 및 비디오-프로젝터)를 통해 상이한 크기로 디스플레이되는 동일한 객체에 대해 더 이상 필요하지 않다.

다른 변형에 따라, 사용자(10)는 음성 명령의 발음을 통해, 또는 리모콘 상에서 키를 누름으로써 이 사용자의 지시 제스처를 검증한다. 그러면, 멀티미디어 단말기는 검증 명령이 수신될 때까지, 지시의 방향을 결정하는데 취득되는 픽처의 분석을 개시하지 않는다. 이러한 변형은 지시 제스처를 나타내는 픽처의 검출에 대한 필요한 픽처 분석을 최소로 하는 장점을 제공한다.

자연히, 지시 제스처를 수행하는 사용자(10)의 신체 부분는 도 1을 참조로 서술되는 것에, 즉 팔에 제한되지 않고, 사용자의 신체의 임의의 부분, 예를 들어 다리 또는 한쪽 손의 손가락으로 확장된다.

도 2는 본 발명의 특정 실시예에 따라, 사용자(10)에 의해 수행된 지시 제스처의 방향의 추정을 위한 방법을 도시한다. 명료함을 위해, 도 2는 신체 부분의 세로 축의 결정의 결과와, 더 나아가 2-차원 공간(x 및 y)에서 지시 제스처의 방향을 도시한다. 이롭게, 세로 축은 3-차원(x, y 및 z) 공간으로 확장되는데, 실제 환경(1)은 3차원 공간이다. 지점(200)은 지시 제스처를 수행하는 사용자의 신체의 부분, 예를 들어 사용자의 팔에 속하는 지점에 대응하는데, 이들 지점은 카메라(19)에 의해 캡처된 지시 제스처의 픽처로부터(또는 더 구체적으로 콘텐츠가 지시 제스처를 수행하는 신체의 부분에 대응하는 픽처의 부분으로부터) 결정되고, 지시 제스처를 수행하는 사용자의 신체의 부분을 나타내는 픽처의 부분의 픽셀의 각각에 결합된 깊이 정보를 사용한다. 이러한 깊이 정보는 카메라(19)에 결합된 깊이 센서에 의해 캡처되고, 이러한 정보는 깊이 맵(또는 z-맵)에 이롭게 기록된다. 지점(200)의 3차원 배열로부터, 지시 제스처의 세로축 또는 방향은 선형 회귀에 의해 또는 다중 선형 회귀에 의해 결정되는데, 각 지점(200)은 좌표(x_i, y_i 및 z_i)를 갖고, 좌표(z_i)는 도 2에 도시되지 않는다. 지시 제스처의 방향을 나타내는 선(20)은 형태에서 2개의 방정식의 시스템에 의해 나타난다:

.

공간적 좌표(x_i, y_i 및 z_i)가 결정된 지점(200)의 샘플을 사용하면, 상수(a, b, c, d, a', b', c' 및 d')의 결정은 지점(200)에 가장 인접하게 지나는 선이 결정되도록 하는 것을 가능케 하는 최소 제곱 법의 사용을 통해 쉬워진다, 즉 선(20)은 이 선(20)에 대한 지점(200)의 편향의 제곱 합의 최소값으로 렌더링된다.

자연히, 사용자(10)의 지시 제스처의 방향을 추정하는데 사용되는 방법은 도 2에 대해 서술된 방법, 즉 선형 회귀에 제한되지 않고, 예를 들어 제곱의 최소 중앙값에 따른 회귀를 통해, 또는 최소 가중 반복 제곱의 방법을 통한 회기를 통해 당업자에게 알려진 모든 방법으로 확장된다.

도 3은 본 발명의 특정 실시예에 따라, 예를 들어 도 1의 멀티미디어 단말기(18)에 대응하는 멀티미디어 단말기(3)의 구조를 개략적으로 도시한다.

단말기(3)는 예를 들어 도 1의 디스플레이 디바이스(11)에 대응하는 디스플레이 디바이스(301)에 이롭게 연결된다. 일 변형에 따라, 단말기(3)는 2개 이상의 디스플레이 디바이스, 예를 들어 텔레비전 스크린과 비디오-프로젝터에 연결된다. 단말기(3)는 프로그램 메모리(307), 데이터베이스(304) 및 동작 사용자 인터페이스 관리기(305), 및 오디오/비디오 데이터가 실시간으로 전송되는 것을 가능케 하는 고속 비트율 디지털 네트워크(310)와 통신을 위한 인터페이스(308)에 연결되는 중앙 유닛(302)을 포함한다. 예를 들어, 이러한 네트워크는 표준 IEEE 1394를 준수하는 네트워크이다. 또한, 단말기(3)는 비디오 카메라(312)와 통신을 가능케 하는 인터페이스, 예를 들어, 비디오 카메라(312)에 의해 송신된 취득 신호의 수신 유닛을 포함하고, 이 비디오 카메라(312)는 카메라에 통합된 깊이 센서가 결합된다. 일 변형에 따라, 깊이 센서는 카메라(312)로부터 물리적으로 분리되는데, 깊이 센서는 예를 들어, 단말기(3)에 통합되거나, 또는 디스플레이 디바이스(301)에 통합되거나, 또는 주변 디바이스에 전용된다. 다른 변형에 따라, 카메라(312)는 단말기(3)에 통합되는 요소이다. 다른 변형에 따라, 카메라는 디스플레이 디바이스(301)에 통합된다. 또한, 단말기(3)는 리모콘(311)으로부터 신호를 수신하기 위한 적외선 신호 수신기(303), 데이터베이스의 저장을 위한 메모리(304), 및 디스플레이 디바이스(301)에 송신되는 오디오비주얼(audiovisual) 신호의 생성을 위한 오디오/비디오 디코딩 논리회로(309)를 포함한다. 리모콘(311)은 내비게이션 키(↑, ↓, → 및←), 숫자 키패드 및 "OK" 키를 구비한다. 움직임 센서가 구비된 자이레이션 종류의 리모콘 또한 사용될 수 있다.

또한, 단말기(3)는 종종 OSD(On Screen Display) 회로라 불리는, 스크린의 데이터 디스플레이 회로(306)를 포함한다. OSD 회로(306)는 메뉴, 픽토그램(pictogram)(예를 들어, 디스플레이되는 채널에 대응하는 숫자)의 OSD를 가능케 하고, 본 발명에 따라 사용자(10)를 나타내는 도 1의 아바타(110)의 디스플레이를 가능케 하는 텍스트 및 그래픽 생성기이다. OSD 회로는 하나 또는 수개의 마이크로프로세서(또는 CPU) 및 하나 또는 수 개의 GPU(Graphical Processing Unit)을 포함하는 중앙 유닛(302)과, 아바타(110)의 디스플레이 신호를 생성하는 동적 사용자 인터페이스 관리기(305)와, 사용자 인터페이스의 임의의 다른 그래픽 요소로부터 정보를 수신한다. 이롭게, GPU는 카메라(312)에 의해 캡처된 픽처의 처리를 수행하는데, 특히 GPU는 콘텐츠가 지시 제스처를 나타내는 것이 어떤 픽처인지를 결정하고, 반대의 경우 지시 제스처의 위치 및 배향을 결정한다. 깊이 센서에 의해 캡처된 깊이 정보는 메모리(307)의 부분(GRAM(Graphical Random Access Memory)의 형태를 이롭게 취하는)에 또는 데이터베이스(304)에 저장되는 깊이 맵에 이롭게 저장된다. 본 발명의 특유한 방법의 단계를 구현하고, 이하에 서술되는 알고리즘은 이롭게 RAM(Random Access Memory))의 형태를 취하는, 메모리(307)의 다른 부분에 저장된다. 켜졌을 때, 또는 가상 환경(1) 및 아바타(110)를 나타내는 파라미터가 일단 메모리(307)의 GRAM 부분에 적재되면, 아바타를 나타내는 파라미터는 데이터베이스(304)에 저장되어, 메모리(307)의 RAM 부분 또는 동작 사용자 인터페이스 관리기(305)에 저장된 통신 애플리케이션의 지령은 CPU(302)에 의해 실행된다.

단말기(3)가 재생할 수 있는 멀티미디어 문서는 오디오비주얼 문서, 오디오 문서, 또는 사진이다.

일 변형에 따라, 리모콘(311)은 관객의 제스처를 검출할 수 있는 디바이스, 예를 들어, 깊이 센서가 결합된 카메라(312)로 대체된다. 그러면, 제스처는 단말기(3)의 전용되거나 전용되지 않는 모듈에 의해 분석되어, 가상 세계(1)에서 아바타(110)를 대체시킬 명령어로 해석된다. 일 변형에 따라, 리모콘은 음성 명령을 기록할 수 있는 마이크 종류 디바이스로 대체된다. 게다가 음성 명령으로 구성된 사운드는 단말기(3)의 전용되거나 전용되지 않는 모듈에 의해 분석되어, 가상 세계(1)에서 아바타(110)를 대체할 명령어로 해석된다.

도 4는 본 발명의 비-제한적이고 특히 이로운 제 1 실시예에 따라, 멀티미디어 단말기(3)에서 구현되도록 의도되는 제 1 가상 환경에서의 제 1 객체의 선택 방법을 도시한다.

초기화 단계(40) 동안, 단말기의 상이한 파라미터가 갱신된다.

그런 후에, 단계(41) 동안, 실제 환경에서 돌아다니는 사용자의 지시 제스처와 결합된 방향이 추정된다. 요건에 따라, 실제 환경은 3차원으로 매핑된다, 즉 이러한 실제 환경을 구성하는 객체는 당업자에게 알려진 임의의 방법에 따라 3D 맵으로 모델링되는데, 이 3D 맵은 실제 환경을 한정하는 공간에서 객체의 위치(즉, 좌표) 및 부피(즉, 크기)에 대한 정보를 포함한다. 이롭게, 지시 제스처의 방향의 추정은 비디오 카메라를 통한 지시 제스처의 취득 및, 깊이 센서를 통한 깊이 정보의 항목의 취득 단계를 포함하는데, 이 깊이 정보는 한편으로는 캡처된 픽처의 픽셀 중 각 픽셀 또는 픽셀 그룹과, 다른 한편으로는 카메라 또는 깊이 센서 사이의 거리를 나타내고, 이 정보는 예를 들어, 깊이 맵에 기록된다. 일 변형에 따라, 지시 제스처의 방향은 수 개의 비디오 카메라로부터 추정되는데, 예를 들어 2개의 카메라는 지시 제스처의 입체 픽처를 제공하고, 그런 후에 깊이 정보는 복수의 카메라에 의해 캡처된 각 픽처 간의 이격도 계산을 통해 추정된다. 이롭게, 지시 제스처의 방향의 결정은 당업자에게 알려진 임의의 방법에 따라, 예를 들어 선형 회기를 통해 지시 제스처를 수행하는 사용자의 신체 부분의 세로 축을 추정함으로써, 결정된다.

그런 후에, 단계(42) 동안, 제 2 객체는 사용자의 지시 제스처의 추정된 방향에 따라 결정된다. 제 2 객체는 교차점을 계산함으로써, 이롭게 결정되는데 이 교차점은 한편으로는 원점으로서 지시 제스처를 수행하는 신체 부분의 말단, 지시 제스처의 방향 및 지시 제스처의 배향을 갖는 광선과, 다른 한편으로는 이 광선에 마주치는 제 2 객체 중 첫 번째 객체 간의 교차점이다. 제 2 객체는 임계치보다 큰 크기를 갖는데, 이 임계치는 객체가 광선과의 교차지점의 계산을 통해 결정되어야 할 수 있는 최소값에 대응하고, 지시 제스처의 방향의 추정은 추정의 부정확함을 겪는다. 일 변형에 따라, 제 2 객체는 광선에 인접하게 위치한, 즉 광선 주위의 사전 결정된 값보다 작은 범위 내에서, 제 2 객체 중 첫 번째 객체이다.

이롭게, 결정된 제 2 객체는 실제 환경에 속하는 실제 객체이고, 제 2 객체는 실제 환경의 매핑된 객체 중 하나이다. 일 변형에 따라, 제 2 객체는 예를 들어, 사용자가 돌아다니는 실제 환경의 벽에, 또는 실제 환경에 위치한 프로젝션 스크린에 투사되고, 제 1 가상 환경의 콘텐츠와 상이한 콘텐츠를 갖는 제 2 가상 환경에 속하는 가상 객체이다. 이러한 변형에 따라, 투사된 가상 환경의 제 2 객체(들) 각각은 이전에 언급된 임계치보다 큰 값을 갖는다. 이러한 변형에 따라, 실제 환경의 매핑은 불필요하다. 다른 변형에 따라, 제 2 객체는 임계치보다 큰 크기를 갖고, 디스플레이되는 제 1 가상 환경의 가상 객체이고, 제 1 객체로 알려진 제 1 가상 환경의 객체는 임계치보다 더 작은 크기를 갖고, 사용자가 시청하는 디스플레이 디바이스 상에 디스플레이되거나 나타난다. 이러한 변형에 따라, 실제 환경의 매핑 또한 불필요하다.

마지막으로, 단계(43) 동안, 제 1 객체는 결정된 제 2 객체를 사용하여 선택된다. 제 1 객체의 선택은 가상 환경의 제 1 객체 각각과 제 2 객체(실제 환경 또는, 제 2 가상 환경, 또는 제 1 가상 환경의 제 2 표현, 또는 선행하는 3개의 환경에 속하는) 간의 결합을 나타내는 결합 정보의 항목을 사용하여 수행된다.

당연히, 본 발명은 이전에 설명된 실시예에 제한되지 않는다.

특히, 본 발명은 제 1 가상 환경에서 제 1 객체의 선택을 위한 방법에 제한되지 않고, 이러한 방법을 구현하는 멀티미디어 단말기, 그리고 디스플레이 방법을 구현하는 멀티미디어 단말기를 포함하는 디스플레이 디바이스에 확장된다. 또한, 본 발명은 가상 환경에서 임계치보다 작은 크기의 객체의 선택을 포함하는 아바타의 제어를 위한 방법에 관한 것이다.

1 : 실제 환경 10 : 사용자
11 : 디스플레이 디바이스 13 : 문
14, 15 : 스피커 16 : 소파
17 : 탁자 18 : 멀티미디어 단말기
19 : 카메라 100 : 가상 환경
110 : 아바타 111 : 텔레비전 스크린
112 : 문

Claims

가상 환경(1) 내에서 제 1 객체(112)의 선택을 위한 방법으로서,
상기 제 1 객체(112)는 임계치보다 작은 크기 값을 가지고 실제 환경의 디스플레이 디바이스 상에 디스플레이되는, 제 1 객체(112)의 선택을 위한 방법에 있어서,
- 사용자의 지시 제스처와 관련된 방향(120)을 결정하는 단계,
- 상기 결정된 방향(120)에 따라, 제 2 객체(12)를 결정하는 단계(42)로서, 상기 제 2 객체는 상기 임계치보다 큰 값의 크기를 갖고, 상기 제 2 객체는 실제 환경에 속하며, 상기 제 1 객체는 상기 제 2 객체의 그래픽 표현과 상이한, 결정 단계(42), 및
- 결정된 상기 제 2 객체(12)에 따라 디스플레이된 상기 제 1 객체(112)를 선택하는 단계(43)를
포함하는 것을 특징으로 하는, 가상 환경 내에서 제 1 객체의 선택을 위한 방법.
제 1항에 있어서, 상기 임계치는 상기 결정된 방향(120)의 부정확함을 나타내는 정보에 따라 결정되는 것을 특징으로 하는, 가상 환경 내에서 제 1 객체의 선택을 위한 방법.
제 2항에 있어서, 상기 임계치는 제 1 객체(112)의 경계를 이루는 박스를 나타내는 가장 작은 치수에 대응하고, 상기 가장 작은 치수는 사전 결정된 값보다 큰 것을 특징으로 하는, 가상 환경 내에서 제 1 객체의 선택을 위한 방법.
제 1항에 있어서, 상기 실제 환경은 3차원으로 매핑되는 것을 특징으로 하는, 가상 환경 내에서 제 1 객체의 선택을 위한 방법.
제 1항 내지 제 4항 중 어느 한 항에 있어서, 상기 제 1 객체(112)는 제 1 객체들(111, 112)의 그룹에 속하고, 상기 제 2 객체(12)는 제 2 객체들(12 내지 17)의 그룹에 속하며, 상기 제 1 객체의 상기 선택은 각각 제 1 객체 및 제 2 객체 간의 관계를 구축하는 테이블의 사용을 포함하는 것을 특징으로 하는, 가상 환경 내에서 제 1 객체의 선택을 위한 방법.
제 1항 내지 제 4항 중 어느 한 항에 있어서, 상기 방법은 비디오 카메라(19)를 사용하는 상기 지시 제스처, 그리고 깊이 정보의 적어도 하나의 항목의 취득 단계를 포함하는 것을 특징으로 하는, 가상 환경 내에서 제 1 객체의 선택을 위한 방법.
제 1항 내지 제 4항 중 어느 한 항에 있어서, 상기 제 2 객체의 결정은 광선과 상기 광선에 마주치는 제 1 요소 간의 교차점의 계산 단계를 포함하는데, 상기 광선은 원점으로서 상기 지시 제스처를 행하는 상기 사용자의 신체 부분, 방향으로서 상기 지시 제스처와 관련된 상기 방향, 및 배향으로서 상기 지시 제스처의 상기 배향을 갖는 것을 특징으로 하는, 가상 환경 내에서 제 1 객체의 선택을 위한 방법.
제 1항 내지 제 4항 중 어느 한 항에 있어서, 지시 제스처의 상기 방향은 상기 지시 제스처를 행하는 상기 사용자의 신체 부분의 검출을 통해, 그리고 3차원 공간에서 신체의 상기 부분의 세로축(20)의 추정을 통해 결정되는 것을 특징으로 하는, 가상 환경 내에서 제 1 객체의 선택을 위한 방법.
캡처된 픽처를 나타내는 신호의 수신을 위한 유닛과, 픽처 처리에 적응되는 중앙 유닛(302)을 포함하는 멀티미디어 단말기(3)에 있어서,
상기 중앙 유닛은:
- 사용자의 지시 제스처에 관련된 방향(120)을 결정하는 수단,
- 상기 결정된 방향(120)에 따라 제 2 객체(12)를 결정하는 수단으로서, 상기 제 2 객체는 임계치보다 큰 크기의 값을 갖는, 결정 수단, 및
- 결정된 상기 제 2 객체(12)에 따라 제 1 객체(112)를 선택하는 수단으로서, 상기 제 1 객체(112)는 가상 환경(1)에 속하며, 상기 임계치보다 작은 값의 크기를 가지고 실제 환경의 디스플레이 디바이스 상에 디스플레이되고, 상기 제 2 객체는 실제 환경에 속하고, 상기 제 1 객체는 상기 제 2 객체의 그래픽 표현과 상이한, 선택 수단을
포함하는 것을 특징으로 하는, 멀티미디어 단말기.
제 9항에 있어서, 상기 임계치는 상기 결정된 방향(120)의 부정확함을 나타내는 정보에 따라 결정되는 것을 특징으로 하는, 멀티미디어 단말기.
제 10항에 있어서, 상기 임계치는 제 1 객체(112)의 경계를 이루는 박스를 나타내는 가장 작은 치수에 대응하고, 상기 가장 작은 치수는 사전 결정된 값보다 큰 것을 특징으로 하는, 멀티미디어 단말기.
제 9항에 있어서, 상기 실제 환경을 3차원으로 매핑하는 수단을 더 포함하는 것을 특징으로 하는, 멀티미디어 단말기.
제 9항 내지 제 12항 중 어느 한 항에 있어서, 상기 제 1 객체(112)는 제 1 객체들(111, 112)의 그룹에 속하고, 상기 제 2 객체(12)는 제 2 객체들(12 내지 17)의 그룹에 속하며, 상기 제 1 객체의 상기 선택은 각각 제 1 객체 및 제 2 객체 간의 관계를 구축하는 테이블의 사용을 포함하는 것을 특징으로 하는, 멀티미디어 단말기.
제 9항 내지 제 12항 중 어느 한 항에 있어서, 비디오 카메라(19)를 사용하는 상기 지시 제스처, 그리고 깊이 정보의 적어도 하나의 항목을 취득하는 수단을 더 포함하는 것을 특징으로 하는, 멀티미디어 단말기.
제 9항 내지 제 12항 중 어느 한 항에 있어서, 상기 제 2 객체를 결정하는 수단은, 광선과 상기 광선에 마주치는 제 1 요소 간의 교차점을 계산하는 수단을 더 포함하는데, 상기 광선은 원점으로서 상기 지시 제스처를 행하는 상기 사용자의 신체 부분, 방향으로서 상기 지시 제스처와 관련된 상기 방향, 및 배향으로서 상기 지시 제스처의 상기 배향을 갖는 것을 특징으로 하는, 멀티미디어 단말기.
제 9항 내지 제 12항 중 어느 한 항에 있어서, 지시 제스처의 상기 방향은 상기 지시 제스처를 행하는 상기 사용자의 신체 부분의 검출을 통해, 그리고 3차원 공간에서 신체의 상기 부분의 세로축(20)의 결정을 통해 결정되는 것을 특징으로 하는, 멀티미디어 단말기.