KR20110083509A

KR20110083509A - 화상 처리 장치, 화상 처리 방법 및 프로그램

Info

Publication number: KR20110083509A
Application number: KR20110000456A
Authority: KR
Inventors: 마사끼 후꾸찌; 고우이찌 마쯔다; 야스히로 스또; 겐이찌로 오이; 징징 구오
Original assignee: 소니 주식회사
Priority date: 2010-01-12
Filing date: 2011-01-04
Publication date: 2011-07-20
Also published as: US20150189216A1; JP5617246B2; US8548199B2; CN102129290B; US8345925B2; US9778735B2; US20160170479A1; US10908676B2; EP2343882A3; US20110170742A1; JP2011146796A; US10386917B2; CN102129290A; US20140003667A1; US20140177917A1; EP2343882A2; US20190346914A1; EP2343882B1; US9014431B2; US20130064429A1

Abstract

유저에 의해 조작가능한 물체를 식별하기 위한 물체 식별 데이터 및 각 물체의 외관의 특징을 나타내는 특징 데이터를 기억하고 있는 데이터 기억부와, 실공간 내에 존재하는 하나 이상의 물체의 위치를 표현하는 환경 맵으로서, 촬상 장치를 이용하여 상기 실공간을 촬영함으로써 얻어지는 입력 화상 및 상기 데이터 기억부에 의해 기억되어 있는 상기 특징 데이터에 기초하여 생성되는 상기 환경 맵을 기억하는 환경 맵 기억부와, 상기 환경 맵 기억부에 의해 기억되어 있는 상기 환경 맵에 포함되는 물체들 중, 상기 물체 식별 데이터에 기초하여 조작가능하다고 인식되는 적어도 하나의 물체를, 유저에 의한 조작 대상의 후보인 후보 물체로서 선택하는 선택부를 포함하는 화상 처리 장치를 제공한다.

Description

화상 처리 장치, 화상 처리 방법 및 프로그램{IMAGE PROCESSING DEVICE, OBJECT SELECTION METHOD AND PROGRAM}

본 발명은 화상 처리 장치, 물체 선택 방법 및 프로그램에 관한 것이다.

가정이나 사무실에서 유저가 조작해야 할 전자 기기는 해마다 증가하고 있다. 또한, 하나의 전자 기기가 갖는 기능도 더욱 다양해지고 있다. 이에 따라, 이러한 전자 기기들을 조작하는 유저의 부담도 커지고 있다. 이러한 점에서, 하나의 원격 제어 장치를 이용하여 복수의 전자 기기를 조작하는 것을 가능하게 하는 기술의 개발이 진행되고 있다. 그러나, 원격 제어 기능들을 하나의 장치에 집약하기 위해서는, 유저가 위치하는 환경 내에 원격조작이 가능한 피제어 기기가 복수 개로 존재할 때 유저가 어떤 기기를 조작하려는지를 식별하는 수단을 제공해야 한다.

예를 들어, 하기 특허문헌은, 음성 인식 기술을 채용함으로써 유저 음성으로부터 원격 제어의 대상 기기 및 제어 내용을 인식하는 원격 제어 장치를 제안하고 있다.

일본 특허공개공보 평11-345024호

그러나, 음성으로부터 원격 제어의 대상 기기 및 제어 내용의 인식에 있어서, 동일한 종류의 기기가 복수 존재하는 경우에 이러한 기기들을 서로 구별할 때 인식 처리가 특히 번잡해진다. 예를 들어, 거실 및 거실에 인접하는 방 각각에 텔레비전이 존재하는 경우, "거실에 있는" 또는 "보다 소형의"와 같은 수식어를 TV 앞에 붙이지 않으면, 의도하는 텔레비전을 적절히 지정할 수 없다. 또한, 대상 기기를 지정하는 단어를 인식할 수 없을 때에는, 유저가 하나의 텔레비전을 끄려 했음에도 다른 기기(다른 텔레비전 또는 다른 종류의 기기)까지 꺼버릴 우려가 있다.

또한, 예를 들어, 유저의 제스처로부터 원격 제어의 대상 기기 등을 인식할 수 있지만, 제스처 만으로는, 유저의 시선을 따라 중첩되는 위치에 있는 (또는 서로 근방에 위치하는) 복수의 기기를 서로 구별하는 것이 어렵다.

전술한 바를 고려할 때, 복수의 전자 기기를 서로 구별하고 하나의 전자 기기를 원격 제어 대상으로서 쉽게 선택할 수 있는 신규하고도 개량된 화상 처리 장치, 물체 선택 방법 및 프로그램을 제공하는 것이 바람직하다.

본 발명의 일 실시 형태에 따르면, 유저에 의해 조작가능한 물체를 식별하기 위한 물체 식별 데이터 및 각 물체의 외관의 특징을 나타내는 특징 데이터를 기억하고 있는 데이터 기억부와, 실공간(real space) 내에 존재하는 하나 이상의 물체의 위치를 표현하는 환경 맵으로서, 촬상 장치를 이용하여 상기 실공간을 촬영하여 얻어지는 입력 화상 및 상기 데이터 기억부에 기억되어 있는 상기 특징 데이터에 기초하여 생성되는 환경 맵을 기억하는 환경 맵 기억부와, 상기 환경 맵 기억부에 기억되어 있는 상기 환경 맵에 포함되는 물체들 중, 상기 물체 식별 데이터에 기초하여 조작가능하다고 인식되는 적어도 하나의 물체를, 유저에 의한 조작 대상의 후보인 후보 물체로서 선택하는 선택부를 포함하는 화상 처리 장치가 제공된다.

상기 화상 처리 장치는, 상기 선택부에 의해 선택된 상기 후보 물체의 화면 상의 위치를 유저가 인식할 수 있도록 하는 출력 화상을 상기 입력 화상으로부터 생성하고, 생성된 상기 출력 화상을 표시 장치에 출력하는 화상 출력부를 더 포함할 수 있다.

상기 환경 맵 기억부는 또한 상기 입력 화상 및 상기 특징 데이터에 기초하여 결정되는 상기 촬상 장치의 위치를 나타내는 촬상 위치 데이터를 기억할 수 있고, 상기 출력 화상 내의 각 후보 물체의 위치는 상기 환경 맵 기억부에 기억되어 있는 상기 환경 맵 및 상기 촬상 위치 데이터에 기초하여 계산된다.

화상 처리 장치는 상기 후보 물체들 중 조작해야 할 물체를 유저가 지정할 수 있게 하는 유저 인터페이스를 더 포함할 수 있다.

유저 인터페이스는 상기 후보 물체들 중 유저 입력이 검지되었을 때 상기 출력 화상의 중앙 또는 상기 중앙의 근방에 위치하고 있는 물체를 상기 조작해야 할 물체로서 결정할 수 있다.

유저 인터페이스는, 상기 후보 물체들 중 유저 입력이 검지되었을 때 복수의 상기 후보 물체가 상기 출력 화상의 중앙에 위치하고 있을 경우에, 상기 출력 화상 내에서 크기가 가장 작은 상기 후보 물체를 상기 조작해야 할 물체로서 결정할 수 있다.

특징 데이터는 각 물체의 3차원 형상을 나타내는 형상 데이터를 포함할 수 있고, 상기 화상 출력부는 상기 화면 상에서 각 후보 물체를 둘러싸는 프레임을 상기 형상 데이터에 기초하여 생성하고 생성된 상기 프레임을 상기 입력 화상에 중첩함으로써 상기 출력 화상을 생성할 수 있다.

화상 처리 장치는 상기 촬상 장치와 상기 표시 장치를 더 포함할 수 있고, 상기 촬상 장치의 촬상면과 상기 표시 장치의 화면은 서로 반대 방향을 향하도록 배치된다.

본 발명의 다른 일 실시 형태에 따르면, 유저에 의해 조작가능한 물체를 식별하기 위한 물체 식별 데이터 및 각 물체의 외관의 특징을 나타내는 특징 데이터를 기억하고 있는 데이터 기억부를 포함하는 화상 처리 장치에서의 화상 처리 방법으로서, 실공간 내에 존재하는 하나 이상의 물체의 위치를 표현하는 환경 맵을, 촬상 장치를 이용하여 상기 실공간을 촬영하여 얻어지는 입력 화상 및 상기 데이터 기억부에 기억되어 있는 상기 특징 데이터에 기초하여 생성하는 스텝과, 생성된 상기 환경 맵에 포함되는 물체들 중, 상기 물체 식별 데이터에 기초하여 조작가능하다고 인식되는 적어도 하나의 물체를, 유저에 의한 조작 대상의 후보인 후보 물체로서 선택하는 스텝을 포함하는 화상 처리 방법이 제공된다.

본 발명의 또 다른 일 실시 형태에 따르면, 유저에 의해 조작가능한 물체를 식별하기 위한 물체 식별 데이터 및 각 물체의 외관의 특징을 나타내는 특징 데이터를 기억하고 있는 데이터 기억부를 포함하는 화상 처리 장치를 제어하는 컴퓨터를, 실공간 내에 존재하는 하나 이상의 물체의 위치를 표현하는 환경 맵을, 촬상 장치를 이용하여 상기 실공간을 촬영하여 얻어지는 입력 화상 및 상기 데이터 기억부에 의해 기억되어 있는 상기 특징 데이터에 기초하여 생성하는 환경 맵 생성부와, 상기 환경 맵 생성부에 의해 생성되는 상기 환경 맵에 포함되는 물체들 중, 상기 물체 식별 데이터에 기초하여 조작가능하다고 인식되는 적어도 하나의 물체를, 유저에 의한 조작 대상의 후보인 후보 물체로서 선택하는 선택부로서 기능시키기 위한, 프로그램이 제공된다.

이상 설명한 바와 같이, 본 발명에 관한 화상 처리 장치, 물체 선택 방법 및 프로그램에 의하면, 복수의 전자 기기를 서로 구별할 수 있고 하나의 전자 기기를 원격 제어 대상으로서 쉽게 선택할 수 있다

도 1은 일 실시 형태에 따른 화상 처리 장치의 개요를 설명하기 위한 모식도이다.
도 2는 일 실시 형태에 따른 화상 처리 장치의 구성의 일례를 도시하는 블록도이다.
도 3은 일 실시 형태에 따른 환경 맵 생성부가 상세한 구성의 일례를 도시하는 블록도이다.
도 4는 일 실시 형태에 따른 자기 위치 검출 처리의 흐름의 일례를 도시하는 흐름도이다.
도 5는 오브젝트 상에 설정되는 특징점을 설명하기 위한 설명도이다.
도 6은 특징점의 추가를 설명하기 위한 설명도이다.
도 7은 예측 모델의 일례를 설명하기 위한 설명도이다.
도 8은 특징 데이터의 구성의 일례를 설명하기 위한 설명도이다.
도 9는 일 실시 형태에 따른 오브젝트 인식 처리의 흐름의 일례를 도시하는 흐름도이다.
도 10은 물체 식별 데이터의 구성의 일례를 설명하기 위한 설명도이다.
도 11은 일 실시 형태에 따른 기기 인식 처리의 흐름의 일례를 도시하는 흐름도이다.
도 12는 일 실시 형태에 따른 후보 물체 선택 처리의 흐름의 일례를 도시하는 흐름도이다.
도 13은 일 실시 형태에 따른 화상 출력부에 의해 생성되는 출력 화상의 일례를 도시하는 설명도이다.
도 14는 일 실시 형태에 따른 화상 출력부에 의해 생성되는 출력 화상의 다른 예를 도시하는 설명도이다.
도 15는 일 실시 형태에 따른 화상 출력부에 의해 생성되는 출력 화상의 또한 다른 예를 도시하는 설명도이다.
도 16은 일 실시 형태에 따른 화상 출력부에 의해 생성되는 출력 화상의 또한 다른 예를 도시하는 설명도이다.
도 17은 일 실시 형태에 따른 화상 출력부에 의해 생성되는 출력 화상의 또한 다른 예를 도시하는 설명도이다.
도 18은 일 실시 형태에 따른 화상 출력부에 의해 생성되는 출력 화상의 또한 다른 예를 도시하는 설명도이다.
도 19는 범용 컴퓨터의 하드웨어 구성의 일례를 도시하는 블록도이다.
도 20은 하나의 변형예에 관한 화상 처리 장치의 구성의 일례를 도시하는 블록도이다.

이하, 첨부 도면을 참조하여 본 발명의 바람직한 실시 형태를 상세히 설명한다. 본 명세서 및 도면에 있어서, 실질적으로 동일한 기능 구성을 갖는 구성 요소에 대해서는 동일한 부호를 부여하고, 이러한 구성 요소들의 중복 설명을 생략한다.

"발명을 실시하기 위한 구체적인 내용"은 이하의 순서로 설명한다.

1. 일 실시 형태에 따른 화상 처리 장치의 개요

2. 일 실시 형태에 따른 화상 처리 장치의 구성예

2-1. 촬상부

2-2. 환경 맵 생성부

2-3. 환경 맵 기억부

2-4. 데이터 기억부

2-5. 기기 인식부

2-6. 선택부

2-7. 화상 출력부

2-8. 유저 인터페이스

2-9. 송신부

3. 하드웨어 구성

4. 정리

5. 변형예

<1. 일 실시 형태에 따른 화상 처리 장치의 개요>

도 1은 본 발명의 일 실시 형태에 따른 화상 처리 장치의 개요를 설명하기 위한 모식도이다. 도 1에는 본 발명의 일 실시 형태에 따른 화상 처리 장치(100)를 유저가 구비하는 환경(1)이 도시되어 있다.

도 1을 참조하면, 환경(1)의 내부에는, 물체들(10a, 10b, 10c, 10d, 10e, 10f)이 존재하고 있다. 물체(10a)는 텔레비전, 물체(10b)는 스피커, 물체(10c)는 DVD 플레이어, 물체(10d)는 프린터, 물체(10e)는 휴대 정보 단말기, 물체(10f)는 테이블이다. 그러한 물체들 중에서, 예를 들어, 물체들(10a, 10b, 10c, 10d)은 원격 제어될 수 있는 피제어 기기들이다. 반면에, 예를 들어, 물체들(10e, 10f)은 원격 제어될 수 없는 물체들이다.

화상 처리 장치(100)는 촬상 장치를 이용하여 이러한 환경(1)을 촬영하고 이에 따라 일련의 입력 화상을 취득한다. 이어서, 화상 처리 장치(100)는, 취득한 입력 화상에 대하여 후술하는 일 실시 형태에 따른 화상 처리를 실행한 후, 그 화상 처리의 결과로서 출력되는 화상을 화상 처리 장치(100)의 화면 상에 표시한다. 출력 화상은 유저에 의해 조작되는 후보로 되는 후보 물체들의 화면 상에서의 위치를 유저가 인식할 수 있도록 하는 화상이다.

또한, 화상 처리 장치(100)가 원격 제어 장치로서의 기능도 갖는 것이 바람직하다. 화상 처리 장치(100)가 원격 제어 장치로서 기능할 때, 유저는, 화면 상에 표시되는 상술한 출력 화상에 기초하여, 조작해야 할 물체를 지정할 수 있다.

도 1에서는 화상 처리 장치(100)의 일례로서 휴대 전화 단말기를 도시하고 있지만, 화상 처리 장치(100)는 이러한 예로 한정되지 않는다. 예를 들어, 화상 처리 장치(100)는, 촬상 장치를 구비한 휴대 정보 단말기, 게임 단말기, 디지털 비디오 카메라 또는 그 밖의 종류의 전자 기기이어도 된다. 또한, 화상 처리 장치(100)는, 예를 들어, 시각으로서의 카메라를 갖는 로봇 등이어도 된다. 이러한 화상 처리 장치(100)의 구성의 일례를 이하에서 더욱 구체적으로 설명한다.

<2. 일 실시 형태에 따른 화상 처리 장치의 구성예>

도 2는 본 발명의일 실시 형태에 따른 화상 처리 장치(100)의 구성의 일례를 도시하는 블록도이다. 도 2을 참조하면, 화상 처리 장치(100)는, 촬상부(102), 환경 맵 생성부(110), 환경 맵 기억부(120), 데이터 기억부(130), 기기 인식부(140), 선택부(160), 화상 출력부(170), 유저 인터페이스(180) 및 송신부(190)를 포함한다.

[2-1. 촬상부]

촬상부(102)는, 예를 들어, CCD(Charge Coupled Device) 또는 CMOS(Complementary Metal Oxide Semiconductor) 등의 촬상 소자를 갖는 촬상 장치로서 실현될 수 있다. 촬상부(102)는, 도 1에 도시한 환경(1) 등의 실공간을 촬영함으로써 생성된 화상을, 입력 화상으로서, 환경 맵 생성부(110), 기기 인식부(140) 및 화상 출력부(170)에 출력한다.

[2-2. 환경 맵 생성부]

환경 맵 생성부(110)는, 촬상부(102)로부터 입력되는 입력 화상 및 데이터 기억부(130)에 의해 기억되어 있는 후술하는 오브젝트의 특징 데이터에 기초하여, 실공간 내에 존재하는 하나 이상의 물체의 위치 등을 표현하는 환경 맵을 생성한다.

도 3은 본 실시 형태에 따른 환경 맵 생성부의 상세한 구성의 일례를 도시하는 블록도이다. 도 3을 참조하면, 환경 맵 생성부(110)는 자기 위치 검출부(112), 화상 인식부(114) 및 구축부(116)를 포함한다.

(1) 자기 위치 검출부

자기 위치 검출부(112)는, 촬상부(102)로부터 입력되는 입력 화상 및 데이터 기억부(130)에 의해 기억되어 있는 특징 데이터에 기초하여, 입력 화상을 촬영한 촬상 장치의 위치를 동적으로 검출한다. 예를 들어, 촬상 장치가 단안 카메라를 갖는 경우에도, 자기 위치 검출부(112)는, Andrew J. Davison에 의한 "Real-Time Simultaneous Localization and Mapping with a Single Camera" (Proceedings of the 9th IEEE International Conference on Computer Vision Volume 2, 2003, pp.1403-1410)에 기재되어 있는 SLAM 기술을 응용함으로써, 해당 카메라의 위치와 자세, 및 그 카메라의 촬상면 상의 특징점의 위치를, 프레임마다 동적으로 결정할 수 있다.

먼저, 도 4를 참조하여 자기 위치 검출부(112)에 의한 SLAM 기술을 응용한 자기 위치 검출 처리의 전체적인 흐름을 설명한다. 이어서, 도 5 내지 도 7을 참조하여 자기 위치 검출 처리의 상세를 설명한다.

도 4는 자기 위치 검출부(112)에 의한 SLAM 기술을 응용한 자기 위치 검출 처리의 흐름의 일례를 나타내는 흐름도이다. 도 4에서, 자기 위치 검출 처리가 개시되면, 자기 위치 검출부(112)는 먼저 상태 변수를 초기화한다(스텝 S102). 본 실시 형태에서, 상태 변수는, 카메라의 위치와 자세(회전각), 해당 카메라의 이동 속도와 각속도, 및 하나 이상의 특징점의 위치를 요소로서 포함하는 벡터이다. 이어서, 자기 위치 검출부(112)는 촬상부(102)로부터 입력 화상을 순차 취득한다(스텝 S112). 스텝 S112부터 스텝 S118까지의 처리는 각 입력 화상에 대하여(즉, 프레임마다) 반복될 수 있다.

스텝 S114에서, 자기 위치 검출부(112)는 입력 화상에 존재하는 특징점들을 추적한다. 예를 들어, 자기 위치 검출부(112)는 데이터 기억부(130)에 미리 기억되어 있는 각 특징점의 패치(예를 들어, 특징점을 중심으로 하는 3×3 = 9 화소의 소 화상(small image))를 입력 화상으로부터 검출한다. 여기서 검출된 패치의 위치, 즉 특징점의 위치는, 추후에 상태 변수의 갱신시 사용된다.

스텝 S116에서, 자기 위치 검출부(112)는 소정의 예측 모델에 기초하여, 예를 들어, 다음 프레임의 상태 변수의 예측값을 생성한다. 또한, 스텝 S118에서, 자기 위치 검출부(112)는 스텝 S116에서 생성된 상태 변수의 예측값과 스텝 S114에서 검출된 특징점의 위치에 따른 관측값을 이용하여 상태 변수를 갱신한다. 자기 위치 검출부(112)는 스텝 S116 및 S118에서의 처리를, 확장형 칼만 필터(extended Kalman filter)의 원리에 기초하여 실행한다.

이러한 처리의 결과로, 프레임마다 갱신되는 상태 변수의 값이 출력된다. 이하, 특징점의 추적(스텝 S114), 상태 변수의 예측(스텝 S116), 상태 변수의 갱신(스텝 S118)의 각 처리의 내용을 보다 구체적으로 설명한다.

(1-1) 특징점의 추적

본 실시 형태에서, 데이터 기억부(130)는 실공간 내에 존재할 수 있는 물체들에 대응하는 오브젝트들의 특징들을 나타내는 특징 데이터를 미리 기억하고 있다. 특징 데이터에는, 예를 들어, 각 오브젝트의 외관의 특징을 나타내는 하나 이상의 특징점에 관한 소 화상, 즉 패치가 포함된다. 패치는, 예를 들어, 특징점을 중심으로 하는 3×3 = 9 화소로 구성된 소 화상이어도 된다.

도 5는 오브젝트의 2개의 예 및 각 오브젝트 상에 설정된 특징점(FP: Feature Point) 및 패치의 예를 나타내고 있다. 도 5의 좌측의 오브젝트는 텔레비전을 나타내는 오브젝트이다(5a 참조). 해당 오브젝트 상에는 특징점 FP1을 포함하는 복수의 특징점이 설정되어 있다. 또한, 특징점 FP1에 관련된 패치 Pth1이 정의되어 있다. 한편, 도 5의 우측의 오브젝트는 원형 테이블을 나타내는 오브젝트이다(5b 참조). 해당 오브젝트 상에는 특징점 FP2를 포함하는 복수의 특징점이 설정되어 있다. 또한, 특징점 FP2에 관련된 패치 Pth2가 정의되어 있다.

자기 위치 검출부(112)는, 촬상부(102)로부터 입력 화상을 취득하면, 그 입력 화상에 포함되어 있는 부분 화상과, 데이터 기억부(130)에 미리 기억되어 있는 도 5에 도시한 각 특징점에 대한 패치를 대조한다. 이어서, 자기 위치 검출부(112)는, 대조 결과로서, 입력 화상에 포함되어 있는 특징점의 위치(예를 들어 검출된 패치의 중심 화소의 위치)을 지정한다.

특징점의 추적(도 4의 스텝 S114)에 있어서, 추적되는 모든 특징점에 관한 데이터를 데이터 기억부(130)에 미리 기억해두지 않아도 된다는 점에 주목한다. 예를 들어, 도 6에 도시한 예에서는, 시각 T=t-1에서 3개의 특징점이 입력 화상 내에서 검출되어 있다(6a 참조). 다음으로, 시각 T=t에서 카메라의 위치 또는 자세가 변화하면, 시각 T=t-1에서는 입력 화상에 존재하고 있는 3개의 특징점 중 하나만이 입력 화상 내에 존재한다. 이 경우에, 자기 위치 검출부(112)는, 입력 화상의 특징적 화소 패턴이 존재하는 위치에 특징점들을 새롭게 설정할 수 있고, 그 새로운 특징점들을 후속 프레임에서의 자기 위치 검출 처리에 이용할 수 있다. 예를 들어, 도 6에 도시한 예에서는, 시각 T=t에서, 5개가 새로운 특징점이 오브젝트 상에 설정되어 있다(6b 참조). 이것이 SLAM 기술의 한 특징이며, 이에 따라, 모든 특징점들을 미리 설정하는 비용을 삭감할 수 있음과 함께, 개수가 증가된 특징점들을 이용하여 처리의 정밀도를 높일 수 있다.

(1-2) 상태 변수의 예측

본 실시 형태에서, 자기 위치 검출부(112)는 확장형 칼만 필터를 적용할 상태 변수로서, 다음 식에 나타내는 상태 변수 X를 사용한다.

식 1에서의 상태 변수 X의 제1 요소는, 다음 식에서 표현된 바와 같이, 실공간에 설정되는 좌표계인 세계 좌표계(global coordinate system; x, y, z)에서의 카메라의 3차원 위치를 나타낸다.

또한, 상태 변수의 제2 요소는 카메라의 자세를 나타내는 회전 행렬에 대응하는 4원소(쿼터니온)를 요소로서 갖는 4차원 벡터 ω이다. 4원소 대신에 오일러 각을 이용하여 카메라의 자세를 나타내도 된다는 점에 주목한다. 또한, 상태 변수의 제3 요소 및 제4 요소는 카메라의 이동 속도 및 각속도를 각각 나타낸다.

또한, 상태 변수의 제5 요소 및 후속 요소들은, 다음 식에서 표현된 바와 같이, 세계 좌표계에서의 특징점 FP_i(i = 1...N)의 3차원 위치 p_i를 각각 나타낸다. 상술한 바와 같이, 특징점의 수 N은 처리 동안 변경될 수 있다는 점에 주목한다.

자기 위치 검출부(112)는, 스텝 S102에서 초기화된 상태 변수 X의 값 또는 전 프레임에서 갱신된 상태 변수 X의 값에 기초하여, 최신 프레임에 관한 상태 변수의 예측값을 생성한다. 상태 변수의 예측값은, 다음 식에서 나타낸 바와 같이 다차원 정규 분포에 따른 확장형 칼만 필터의 상태 방정식을 따라 생성된다.

여기서, F는 시스템의 상태 천이에 관한 예측 모델을 나타내고, a는 예측 조건이다. 또한, w는 가우시안 노이즈이며, 예를 들어, 모델 근사 오차나 관측 오차 등을 포함할 수 있다. 일반적으로, 가우시안 노이즈 w의 평균은 0으로 된다.

도 7은 본 실시 형태에 따른 예측 모델의 일례를 설명하기 위한 설명도이다. 도 7을 참조하면, 본 실시 형태에 따른 예측 모델에서의 2개의 예측 조건이 도시되어 있다. 우선, 제1 조건으로서, 특징점의 세계 좌표계에서의 3차원 위치는 변화하지 않는 것으로 가정한다. 즉, 시각 T에서의 특징점 FP1의 3차원 위치를 p_T로 하면, 다음 식의 관계가 성립한다.

다음으로, 제2 조건으로서, 카메라의 운동은 등속 운동이라고 가정한다. 즉, 시각 T=t-1부터 시각 T=t까지의 카메라의 속도 및 각속도에 대하여 다음 식의 관계가 성립한다.

자기 위치 검출부(112)는, 이러한 예측 모델 및 식(4)에 나타낸 상태 방정식에 기초하여, 최신 프레임에 관한 상태 변수의 예측값을 생성한다.

(1-3) 상태 변수의 갱신

이어서, 자기 위치 검출부(112)는, 예를 들어, 관측 방정식을 이용하여, 상태 변수의 예측값으로부터 예측되는 관측 정보 및 특징점의 추적 결과로 얻어지는 실제 관측 정보 간의 오차를 평가한다. 식 8에서의 ν가 그 오차다.

여기서, H는 관측 모델을 나타낸다. 예를 들어, 특징점 FP_i의 촬상면(u-v 평면) 상의 위치를 다음 식과 같이 정의한다.

여기서, 카메라의 위치 x, 카메라의 자세 ω 및 특징점 FP_i의 3차원 위치 p_i는 모두 상태 변수 X의 요소들로서 부여된다. 이어서, 핀홀(pinhole) 모델에 따라, 특징점 FP_i의 촬상면 상의 위치는 다음 식을 사용하여 유도된다.

여기서, λ는 정규화를 위한 파라미터, A는 카메라 내부 파라미터, R_ω는 상태 변수 X에 포함되는 카메라의 자세를 나타내는 4원소 ω에 대응하는 회전 행렬을 나타낸다. 카메라 내부 파라미터 A는 입력 화상을 촬영하는 촬상 장치의 특성에 따라 다음 식과 같이 미리 부여된다.

여기서, f는 초점 거리, θ는 화상축의 직교성(이상값은 90°), k_u는 촬상면의 종축을 따른 스케일(세계 좌표계로부터 촬상면의 좌표계로의 스케일 변화율), k_ν는 촬상면의 횡축을 따른 스케일, (u_o, ν_o)는 촬상면의 중심 위치를 나타낸다.

따라서, 식 11을 이용하여 유도되는 예측되는 관측 정보, 즉 각 특징점의 촬상면 상의 위치와, 도 4의 스텝 S114에서의 특징점의 추적 결과 간의 오차를 최소한으로 하는 상태 변수 X를 탐색함으로써, 실현가능한 최신 상태 변수 X를 얻을 수 있다.

자기 위치 검출부(112)는, 이러한 식으로 SLAM 기술을 응용하여 동적으로 갱신된 카메라(촬상 장치)의 위치 x 및 자세 ω를 구축부(116)와 기기 인식부(140)에 출력한다.

(2) 화상 인식부

화상 인식부(114)는, 데이터 기억부(130)에 기억되어 있는 전술한 특징 데이터를 사용하여, 입력 화상에 존재하는 물체들과 데이터 오브젝트들 간의 대응 관계를 지정한다. 데이터 기억부(130)에 기억되어 있는 특징 데이터를 먼저 설명한다.

(2-1) 특징 데이터

도 8은 특징 데이터의 구성의 일례를 설명하기 위한 설명도이다. 도 8을 참조하면, 오브젝트의 일례인 물체(10g)에 관한 특징 데이터 FD1이 도시되어 있다. 특징 데이터 FD1은, 오브젝트 식별자(ID) FD11, 여섯 방향으로부터 촬영한 화상 데이터 FD12, 패치 데이터 FD13, 3차원 형상 데이터 FD14 및 온톨로지 데이터 FD15를 포함한다.

오브젝트 식별자 FD11은 물체(10g)를 일의적으로 지정하기 위한 문자열이다. 도 8의 예에서, 오브젝트 식별자 FD11은 "TV00"이다.

화상 데이터 FD12는, 예를 들어, 대응하는 오브젝트를 여섯 방향(앞, 뒤, 좌, 우, 위, 아래)으로부터 각각 촬영한 6개의 화상 데이터를 포함한다. 패치 데이터 FD13은, 각 오브젝트 상에 설정되는 하나 이상의 특징점의 각각에 대하여 각 특징점을 중심으로 하는 소 화상들의 집합이다. 화상 데이터 FD12 및 패치 데이터 FD13은 후술하는 화상 인식부(114)에 의한 오브젝트 인식 처리를 위해 사용될 수 있다. 또한, 패치 데이터 FD13은 전술한 자기 위치 검출부(112)에 의한 자기 위치 검출 처리를 위해 사용될 수 있다.

3차원 형상 데이터 FD14는 대응하는 오브젝트의 형상을 인식하기 위한 폴리곤 정보 및 특징점들의 3차원 위치 정보를 포함한다. 3차원 형상 데이터 FD14는 후술하는 구축부(116)에 의한 환경 맵 구축 처리 및 화상 출력부(170)에 의한 출력 화상 생성 처리를 위해 사용될 수 있다.

온톨로지 데이터 FD15는, 예를 들어, 구축부(116)에 의한 환경 맵 구축 처리를 지원하도록 사용될 수 있는 데이터이다. 도 8의 예에서, 온톨로지 데이터 FD15는, 텔레비전인 물체(10g)가 텔레비전 스탠드 또는 바닥에 대응하는 오브젝트에 접할 가능성이 높고 책장에 대응하는 오브젝트에 접할 가능성이 낮음을 나타내고 있다.

(2-2) 오브젝트 인식 처리

도 9는 화상 인식부(114)에 의한 오브젝트 인식 처리의 흐름의 일례를 나타내는 흐름도이다. 도 9을 참조하면, 화상 인식부(114)는 먼저 촬상부(102)로부터 입력 화상을 취득한다(스텝 S212). 이어서, 화상 인식부(114)는, 입력 화상에 포함되는 부분 화상과, 특징 데이터에 포함되는 각 오브젝트의 하나 이상의 특징점의 패치를 대조하여 입력 화상에 포함되어 있는 특징점들을 추출한다(스텝 S214). 화상 인식부(114)에 의한 오브젝트 인식 처리에 사용되는 특징점과, 자기 위치 검출부(112)에 의한 자기 위치 검출 처리에 사용되는 특징점은 반드시 같지 않아도 된다는 점에 주목한다. 그러나, 양쪽의 처리에서 공통되는 특징점들이 사용되는 경우에는, 화상 인식부(114)가 자기 위치 검출부(112)에 의한 특징점의 추적 결과를 재이용해도 된다.

다음으로, 화상 인식부(114)는 특징점의 추출 결과에 기초하여 입력 화상에 존재하는 오브젝트를 지정한다(스텝 S216). 예를 들어, 화상 인식부(114)는, 소정의 영역 내에서 하나의 오브젝트에 속하는 특징점들이 높은 밀도로 추출되는 경우에, 해당 영역에 그 오브젝트가 존재하고 있음을 인식할 수 있다. 이어서, 화상 인식부(114)는 지정된 오브젝트의 오브젝트 식별자 및 그 오브젝트에 속하는 특징점의 촬상면 상의 위치를 구축부(116)에 출력한다(스텝 S218).

(3) 환경 맵 구축부

구축부(116)는 자기 위치 검출부(112)로부터 입력되는 카메라의 위치 및 자세, 화상 인식부(114)로부터 입력되는 특징점의 촬상면 상의 위치 및 데이터 기억부(130)에 기억되어 있는 특징 데이터를 이용하여 환경 맵을 생성한다. 본 명세서에서, 환경 맵은 실공간 내에 존재하는 하나 이상의 물체의 위치(및 자세)를 표현하는 데이터의 집합이다. 환경 맵에는, 예를 들어, 물체에 대응하는 오브젝트 식별자, 해당 물체에 속하는 특징점의 3차원 위치 및 해당 물체의 형상을 구성하는 폴리곤 정보 등이 포함될 수 있다. 환경 맵은, 예를 들어, 화상 인식부(114)로부터 입력되는 특징점의 촬상면 상의 위치로부터, 상술한 핀홀 모델에 따라 각 특징점의 3차원 위치를 구하는 것에 의해 구축될 수 있다.

식 11에 나타낸 핀홀 모델의 관계식을 변형하면, 특징점 FP_i의 세계 좌표계에서의 3차원 위치 p_i가 다음 식에 의해 구해진다.

여기서, d는 카메라와 각 특징점의 사이의 세계 좌표계에서의 거리를 나타낸다. 구축부(116)는 이러한 거리 d를 오브젝트마다 적어도 4개의 특징점의 촬상면 상의 위치 및 해당 특징점들 간의 거리에 기초하여 산출할 수 있다. 특징점들 간의 거리는, 도 8을 참조하여 설명한 특징 데이터에 포함되는 3차원 형상 데이터 FD14로서, 데이터 기억부(130)에 미리 기억되어 있다. 식 14에서의 거리 d의 산출 처리는 일본 특허공개공보 제2008-304268호에 상세히 개시되어 있다.

거리 d가 산출된 후, 식 14에서의 우변의 나머지 변수들은, 자기 위치 검출부(112)로부터 입력되는 카메라의 위치 및 자세, 및 화상 인식부(114)로부터 입력되는 특징점의 촬상면 상의 위치이며, 이들 모두는 알려져 있다. 이어서, 구축부(116)는 식 14에 따라 화상 인식부(114)로부터 입력되는 각 특징점에 대하여 세계 좌표계에서의 3차원 위치를 계산한다. 이어서, 구축부(116)는, 산출한 각 특징점의 3차원 위치에 따라 최신 환경 맵을 구축하고, 구축한 환경 맵을 환경 맵 기억부(120)에 출력한다. 이때, 구축부(116)는 도 8을 참조하여 설명한 특징 데이터에 포함되는 온톨로지 데이터 FD15를 이용하여 환경 맵의 데이터의 정확성을 향상시켜도 된다는 점에 주목한다.

[2-3. 환경 맵 기억부]

환경 맵 기억부(120)는, 하드 디스크 또는 반도체 메모리 등의 기억 매체를 사용하여, 환경 맵 생성부(110)의 구축부(116)에 의해 구축되는 상술한 환경 맵을 기억한다. 또한, 환경 맵 기억부(120)는 환경 맵 생성부(110)의 자기 위치 검출부(112)에 의해 검출되는 카메라의 위치 및 자세를 포함하는 촬상 위치 데이터를 기억한다. 환경 맵 기억부(120)는 다음에 설명하는 데이터 기억부(130)와 물리적으로 동일한 기억 매체를 사용하여 실장되어도 된다는 점에 주목한다.

[2-4. 데이터 기억부]

데이터 기억부(130)는, 상술한 바와 같이, 하드 디스크 또는 반도체 메모리등의 기억 매체를 사용하여, 실공간 내에 존재할 수 있는 물체에 대응하는 오브젝트의 특징을 나타내는 특징 데이터를 미리 기억한다. 또한, 데이터 기억부(130)는, 실공간 내에 존재할 수 있는 물체들 중 유저에 의해 조작가능한 물체를 식별하기 위한 물체 식별 데이터를 미리 기억한다. 물체 식별 데이터는 후술하는 기기 인식부(140)에 의한 기기 인식 처리에서 사용된다.

도 10은 물체 식별 데이터의 구성의 일례를 설명하기 위한 설명도이다. 도 10을 참조하면, 물체 식별 데이터는 오브젝트 식별자(ID), 종별, 모델, 물체 화상, 조작가능 플래그 및 커맨드 리스트인 6개 데이터 항목을 포함하고 있다.

오브젝트 식별자는, 실공간 내의 개별적인 물체에 대응하는 각 오브젝트를 일의적으로 지정하기 위한 문자열이다. 이러한 오브젝트 식별자를 이용하여, 물체 식별 데이터와, 도 8을 참조하여 설명한 특징 데이터를 관련지을 수 있다. 도 10에서는, 오브젝트 ID = "TV01", "SP01", "DV01", "PT01", "PD01" 및 "TB01"인 6개 물체의 각각에 관한 물체 식별 데이터가 도시되어 있다.

종별은 각 오브젝트의 종류를 나타낸다. 오브젝트 "TV01", "SP01", "DV01", "PT01", "PD01" 및 "TB01"의 종별은 각각, 텔레비전, 스피커, DVD 플레이어, 프린터, PDA 및 테이블이다. 또한, 모델은 실공간 내의 개별적인 물체의 모델 번호를 나타낸다.

물체 화상은 후술하는 기기 인식부(140)에 의한 기기 인식 처리에 사용되는 화상이다. 물체 화상은 실공간 내의 개별적인 물체를 적어도 한 방향으로부터 촬영함으로써 얻은 화상이어도 된다. 또한, 예를 들어, 물체 화상은 도 8을 참조하여 설명한 특징 데이터에 포함되는 화상 데이터의 일부이어도 된다.

조작가능 플래그는 실공간 내의 개별적인 물체가 유저에 의해 조작가능한 물체인지를 식별하기 위한 플래그이다. 조작가능 플래그 = "예"이면, 해당 물체는 조작가능하다. 또한, 조작가능 플래그 = "아니오"이면, 해당 물체는 조작가능하지 않다. 도 10의 예에서, 오브젝트 "TV01", "SP01", "DV01", "PT01"의 조작가능 플래그는 "예"이다. 따라서, 그러한 물체들은 조작가능하다. 반면에, 오브젝트 "PD01" 및 "TB01"의 조작가능 플래그는 "아니오"이다. 따라서, 그러한 물체들은 조작가능하지 않다.

커맨드 리스트는 조작가능한 물체들의 각 물체를 조작하기 위한 제어 커맨드들의 리스트이다. 예를 들어, 오브젝트 "TV01"의 커맨드 리스트에는 "전원 ON", "전원 OFF", "음량 UP", "음량 DOWN", "채널 UP", "채널 DOWN"인 여섯 종류의 커맨드가 포함된다.

[2-5. 기기 인식부]

기기 인식부(140)는, 상술한 물체 식별 데이터에 포함되는 각 물체 화상을 촬상부(102)로부터 입력되는 입력 화상과 대조함으로써, 입력 화상에 존재하는 조작가능한 물체를 인식한다. 이어서, 기기 인식부(140)는, 조작가능한 물체가 존재하는 경우에, 입력 화상 내의 각 조작가능한 물체의 위치 및 자기 위치 검출부(112)로부터 입력되는 카메라의 위치 및 자세를 이용하여, 식 14에 따라 환경 맵(120) 내에서의 각 조작가능한 물체의 3차원 위치를 계산한다. 또한, 기기 인식부(140)는, 계산된 3차원 위치에 기초하여, 새롭게 인식된 조작가능한 물체를 환경 맵에 등록한다.

도 11은 기기 인식부(140)에 의한 기기 인식 처리의 흐름의 일례를 도시하는 설명도이다. 도 11을 참조하면, 기기 인식부(140)는 먼저 촬상부(102)로부터 입력 화상을 취득한다(스텝 S302). 다음으로, 기기 인식부(140)는, 물체 식별 데이터에 포함되는 각 물체 화상을 입력 화상과 대조함으로써, 입력 화상에 존재하는 조작가능한 물체를 인식한다(스텝 S304). 여기서 대조에 사용되는 물체 화상은, 물체 식별 데이터에 포함되는 물체 화상들 중 조작가능 플래그가 "예"인 레코드의 물체 화상이어도 된다. 이어서, 기기 인식부(140)는 입력 화상 내에서 조작가능한 물체가 인식되는지를 판정한다(스텝 S306). 입력 화상 내에서 조작가능한 물체가 인식되지 않은 경우에는, 처리를 종료한다. 반면에, 입력 화상 내에서 조작가능한 물체가 인식된 경우에는, 기기 인식부(140)는, 인식된 각 조작가능한 물체의 3차원 위치를 계산하고, 그 3차원 위치에 기초하여, 새롭게 인식된 조작가능한 물체를 환경 맵에 등록한다(스텝 S308).

이러한 식으로, 기기 인식부(140)에 의해 조작가능하다고 인식된 물체의 환경 맵 내의 3차원 위치는 환경 맵 기억부(120)에 계속 유지된다. 구체적으로, 일단 조작가능하다고 인식된 물체는, 카메라 이동으로 인해 해당 물체가 다른 물체 뒤에 숨겨졌을 경우(즉, 가림(occlusion)이 발생한 경우) 또는 촬상 방향의 변경으로 인해 외관이 변화한 경우에도, 환경 맵 내에서 정확하게 식별될 수 있다.

[2-6. 선택부]

선택부(160)는, 환경 맵 기억부(120)에 의해 기억되어 있는 환경 맵에 포함된 물체들 중 물체 식별 데이터에 기초하여 조작가능하다고 인식된 적어도 하나의 물체를, 유저에 의한 조작 대상의 후보로서 선택한다. 본 명세서에서는, 선택부(160)에 의해 조작 대상 후보로서 선택된 물체를 후보 물체(candidate object)라 칭한다.

선택부(160)는, 예를 들어, 환경 맵에 포함되어 있는 물체들 중 물체 식별 데이터에서 조작가능 플래그가 "예"인 물체 모두를 후보 물체로서 선택해도 된다. 다른 방안으로, 선택부(160)는, 예를 들어, 입력 화상 내에서 복수의 조작가능한 물체가 인식될 경우에, 미리 설정되어 있는 임계값을 초과하지 않는 개수인 일부 물체들만을 후보 물체로서 선택해도 된다. 그 일부 물체들은, 예를 들어, 화면의 중앙 또는 중앙의 근방에 위치하는 물체들이어도 된다. 조작가능한 물체의 화면 상의 위치는, 환경 맵 기억부(120)에 기억되어 있는 환경 맵 및 카메라의 위치 및 자세에 기초하여, 식 11에 따라 계산될 수 있다. 조작가능한 물체는, 화면 상에서 통상적으로 어느 정도의 크기(예를 들어, 화소 수에 의해 나타내지는 면적 등)를 갖는다는 점에 주목한다. 따라서, 선택부(160)는, 조작가능한 물체의 기하학적인 무게 중심 위치를 조작가능한 해당 물체의 위치로서 간주함으로써, 화면의 중앙으로부터의 거리를 결정할 수 있다. 또한, 선택부(160)는, 예를 들어, 복수의 조작가능한 물체가 화면의 중앙에 위치하고 있을 경우에, 화면 상에서 크기가 가장 작은 물체를 후보 물체로서 선택해도 된다.

도 12는 선택부(160)에 의한 선택 처리의 흐름의 일례를 도시하는 설명도이다. 도 12를 참조하면, 선택부(160)는, 먼저, 환경 맵에 포함되어 있는 물체들 중 물체 식별 데이터에서 조작가능 플래그가 "예"인 물체의 3차원 좌표를 식 11에 따라 촬상면 상의 2차원 좌표로 변환한다(스텝 S402). 예를 들어, 물체의 형상을 구성하는 폴리곤의 정점의 3차원 좌표를 촬상면 상의 2차원 좌표로 변환함으로써, 각 물체의 촬상면 상에서의 크기 및 무게 중심을 산출할 수 있다. 이어서, 선택부(160)는, 식 11에 따라 촬상면 상에 투영되는 조작가능한 물체들의 개수가 미리 설정되어 있는 임계값을 초과하는지를 판정한다(스텝 S404). 미리 설정되어 있는 임계값은, 예를 들어, 1 또는 복수이어도 된다. 조작가능한 물체들의 개수가 미리 설정되어 있는 임계값을 초과하지 않는 경우에, 처리는 스텝 S412로 진행한다. 반면에, 조작가능한 물체들의 개수가 미리 설정되어 있는 임계값을 초과하는 경우에, 처리는 스텝 S406으로 진행한다.

스텝 S406에서, 선택부(160)는 복수의 조작가능한 물체가 촬상면의 중앙에서 중첩되는지를 결정한다(스텝 S406). 예를 들어, 카메라의 위치로부터 하나의 물체의 위치로 연장되는 직선 상에 다른 물체가 존재하는 경우에는, 복수의 조작가능한 물체가 촬상면 상에서 중첩될 수 있다. 복수의 조작가능한 물체가 촬상면의 중앙에서 중첩되는 경우에, 처리는 스텝 S408로 진행한다. 반면에, 복수의 조작가능한 물체가 촬상면의 중앙에서 중첩되지 않는 경우에, 처리는 스텝 S410으로 진행한다.

스텝 S408에서는, 선택부(160)는, 촬상면의 중앙에 위치하는 복수의 조작가능한 물체들 중 촬상면 상에서의 크기가 보다 작은 물체(상기 임계값이 1인 경우에 가장 작은 물체)를 후보 물체로서 선택한다(스텝 S408). 또한, 스텝 S410에서, 선택부(160)는, 화면 중앙으로부터 각 물체의 무게 중심까지의 거리가 짧은 순서대로, 상기 임계값에 상당하는 수의 조작가능한 물체를, 후보 물체로서 선택한다(스텝 S410). 또한, 스텝 S412에서, 선택부(160)는, 촬상면 상에 투영되는 조작가능한 물체를 후보 물체로서 선택한다(스텝 S412).

그 후, 선택부(160)는, 선택된 후보 물체의 2차원 형상을 나타내는 형상 데이터(폴리곤의 정점의 촬상면 상에서의 2차원 좌표 등)를 오브젝트 ID와 관련지어, 화상 출력부(170)에 출력한다(스텝 S414). 이어서, 선택부(160)에 의한 선택 처리를 종료한다.

[2-7. 화상 출력부]

화상 출력부(170)는, 선택부(160)에 의해 선택된 후보 물체의 화면 상에서의 위치를 유저가 인식할 수 있도록 하는 출력 화상을, 촬상부(102)로부터 입력되는 입력 화상으로부터 생성한다. 이어서, 화상 출력부(170)는 생성된 출력 화상을 표시 장치에 출력한다. 구체적으로, 예를 들어, 화상 출력부(170)는, 화면 상에서 각 후보 물체를 둘러싸는 프레임을 해당 후보 물체의 2차원 형상 데이터에 기초하여 생성하고 생성된 프레임을 입력 화상에 중첩함으로써, 출력 화상을 생성한다. 다른 방안으로, 화상 출력부(170)는, 예를 들어, 출력 화상에서 각 후보 물체에 대응하는 화면 상의 한 영역과 다른 영역 사이에서 명암 또는 색의 농담 등을 변화시킴으로써, 후보 물체의 화면 상의 위치를 유저가 인식할 수 있도록 해도 된다. 또한, 화상 출력부(170)는, 예를 들어, 각 후보 물체에 해당 물체의 명칭 등을 나타내는 문자열을 부여함으로써, 후보 물체의 화면 상에서의 위치를 유저가 인식할 수 있도록 해도 된다.

도 13은 본 실시 형태에 따른 화상 출력부(170)에 의해 생성되는 출력 화상의 일례를 도시하는 설명도이다. 도 13을 참조하면, 환경(1)을 촬영한 입력 화상으로부터 생성된 출력 화상 Im11이 도시되어 있다. 출력 화상 Im11에서는, 4개의 조작가능한 물체(10a, 10b, 10c, 10d)에 각 물체를 둘러싸는 프레임이 배치되어 있다. 또한, 프레임의 형상은 원형 또는 직사각형 이외의 다각형이어도 된다는 점에 주목한다. 도 13의 예에서는, 환경 맵에 포함되어 있는 물체들 중 물체 식별 데이터에서 조작가능 플래그가 "예"인 4개의 물체 모두가 후보 물체로서 선택되어 있음을 이해할 수 있다. 이러한 출력 화상을 참조함으로써, 유저는, 환경(1) 내에 존재하는 어떤 물체를 화상 처리 장치(100)를 사용하여 조작할 수 있는지를 알 수 있다.

도 14는 본 실시 형태에 따른 화상 출력부(170)에 의해 생성되는 출력 화상의 다른 예를 도시하는 설명도이다. 도 14를 참조하면, 환경(1)을 촬영한 입력 화상으로부터 생성된 출력 화상 Im12가 도시되어 있다. 출력 화상 Im12에서는, 화면의 중앙에 가장 가깝게 있는 물체(10a)에 해당 물체를 둘러싸는 프레임이 배치되어 있다. 따라서, 도 14의 예에서는, 환경 맵에 포함되어 있는 물체들 중 하나의 물체만이 후보 물체로서 선택되어 있음을 이해할 수 있다. 또한, 출력 화상 Im12 상에는 화면의 중앙을 지시하는 조준(aiming symbol; 12)도 중첩되어 있다. 이러한 출력 화상에 의하면, 유저는, 화상 처리 장치(100)(또는 촬상부(102))를 이동시켜 조작 대상으로 하고 싶은 기기 상에 조준(12)을 배치함으로써, 조작 대상을 용이하게 지정할 수 있다.

도 15는 본 실시 형태에 따른 화상 출력부(170)에 의해 생성되는 출력 화상의 또 다른 예를 도시하는 설명도이다. 도 15를 참조하면, 환경(1)을 촬영한 입력 화상으로부터 생성된 출력 화상 Im13이 도시되어 있다. 출력 화상 Im13에서는, 화면의 중앙에 가장 가깝게 위치하는 조작가능한 물체(10a)에 해당 물체를 둘러싸는 프레임이 배치되어 있다. 또한, 출력 화상 Im13에는 화면의 중앙을 지시하는 조준(12)도 중첩되어 있다. 또한, 출력 화상 Im13에서, 물체(10a)에는, 해당 물체를 조작하기 위한 제어 커맨드(도 14의 예에서는 "전원 ON")를 표시하는 커맨드 필드(14)가 배치되어 있다. 이러한 제어 커맨드는, 예를 들어, 도 10을 참조하여 설명한 물체 식별 데이터에 포함되어 있는 커맨드 리스트로부터 취득된다. 이러한 출력 화상에 의하면, 유저는, 화상 처리 장치(100)(또는 촬상부(102))를 이동시켜 조작 대상을 용이하게 지정할 수 있음과 함께, 조작 대상에 송신해야 할 제어 커맨드를 용이하게 선택할 수 있다.

도 16은 본 실시 형태에 따른 화상 출력부(170)에 의해 생성되는 출력 화상의 또 다른 예를 도시하는 설명도이다. 도 16을 참조하면, 좌측에 임시 화상 Im21이, 우측에 출력 화상 Im22가 도시되어 있다. 임시 화상 Im21에는 조작가능한 물체들(10c, 10d)이 존재하고 있다. 그러나, 임시 화상 Im21의 중앙에는 물체(10c)가 물체(10d) 뒤에 부분적으로 숨겨져 있다. 따라서, 이 경우, 복수의 조작가능한 물체가 촬상면의 중앙에서 중첩되고 있다. 반면에, 출력 화상 Im22에서는, 촬상면 상에서 크기가 보다 작은 물체(10c)에 그 물체가 후보 물체임을 나타내는 프레임이 배치되어 있다. 이러한 출력 화상에 의하면, 조작가능한 작은 물체가 다른 조작가능한 물체와 중첩되어 그 작은 물체를 선택할 수 없는 것을 방지할 수 있다.

도 17은 본 실시 형태에 따른 화상 출력부(170)에 의해 생성되는 출력 화상의 또 다른 예를 나타내는 설명도이다. 도 17을 참조하면, 좌측에는 출력 화상 Im31이, 우측에는 출력 화상 Im32가 도시되어 있다. 출력 화상 Im31에는 조작가능한 물체(10b)가 존재한다. 물체(10b)가 조작가능하다는 것은 기기 인식부(140)에 의한 인식 결과로서 환경 맵에 등록된다. 출력 화상 Im32는 화상 처리 장치(100)가 환경(1) 내에서 이동한 후에 생성되는 출력 화상이다. 출력 화상 Im32에서도, 물체(10b)가 조작가능한 물체로서 인식되어 후보 물체로서 선택되어 있다. 이러한 식으로, 실공간 내에 존재하는 물체의 위치를 표현하는 환경 맵에 기초하여 후보 물체를 선택 및 표시함으로써, 물체의 외관이 촬상 위치 및 촬상 방향에 따라 변화하는 경우에도, 조작 대상을 유연하게 선택할 수 있다.

도 18은 본 실시 형태에 따른 화상 출력부(170)에 의해 생성되는 출력 화상의 또 다른 예를 나타내는 설명도이다. 도 18을 참조하면, 좌측에는 출력 화상 Im41이, 우측에는 출력 화상 Im42가 도시되어 있다. 출력 화상 Im41에는 조작가능한 물체(10d)가 존재한다. 물체(10d)가 조작가능하다는 것은 기기 인식부(140)에 의한 인식 결과로서 환경 맵에 등록된다. 출력 화상 Im42는 화상 처리 장치(100)가 환경(1) 내에서 이동한 후에 생성되는 출력 화상이다. 출력 화상 Im42에서는, 물체(10d)가 테이블 뒤에 숨겨져 있어서 시인할 수 없다. 그러나, 출력 화상 Im42에서도, 테이블 뒤에 숨겨진 물체(10d)가 후보 물체로서 선택되어 있다. 이러한 식으로, 실공간 내에 존재하는 물체의 위치를 표현하는 환경 맵에 기초하여 후보 물체를 선택하고, 해당 물체를 식별할 수 있는 프레임을 표시함으로써, 물체가 다른 물체 뒤에 숨겨져 있더라도, 그 숨겨진 물체를 조작 대상으로서 유연하게 선택할 수 있다.

또한, 화상 출력부(170)는, 조작가능한 물체가 존재하지 않는 경우에, 촬상부(102)로부터 입력되는 입력 화상을 그대로 출력 화상으로서 표시 장치에 출력해도 된다는 점에 주목해야 한다. 또한, 화상 출력부(170)에 의해 생성되는 출력 화상이 표시되는 표시 장치의 화면과, 촬상부(102)에 상당하는 촬상 장치의 촬상면은, 서로 반대 방향을 향하도록(즉, 서로 배면끼리 대면하도록) 배치되는 것이 바람직하다. 이는, 시쓰루(see-through) 방식의 디스플레이를 생성하고, 이에 따라 유저가 환경(1) 내의 화상 처리 장치(100)를 들어올려 출력 화상을 보면서, 조작해야 할 물체를 지정하는 것을 용이하게 한다.

[2-8. 유저 인터페이스]

유저 인터페이스(180)는 후보 물체들 중 조작해야 할 물체를 유저가 지정하기 위한 인터페이스를 제공한다. 유저 인터페이스(180)는, 예를 들어, 버튼, 터치 패널, 스위치 또는 키패드 등의, 유저 입력을 검출 가능한 임의의 입력 수단이어도 된다. 예를 들어, 도 14의 출력 화상 Im12 또는 도 16의 출력 화상 Im22에서와 같이 하나의 후보 물체만이 표시되어 있는 경우에는, 유저 입력(예를 들어, 버튼을 누름)이 검출된 시점에서 표시되어 있는 후보 물체를, 조작해야 할 물체로서 결정할 수 있다. 또한, 도 13의 출력 화상 Im11에서와 같이 복수의 후보 물체가 표시되어 있는 경우에는, 예를 들어, 유저 입력이 검출된 시점에서 표시되어 있는 출력 화상의 중앙 또는 중앙의 근방에 위치하고 있는 물체를, 조작해야 할 물체로서 결정할 수 있다. 또한, 유저 입력이 검출되었을 때 복수의 후보 물체가 출력 화상의 중앙에 위치하고 있는 경우에, 예를 들어, 유저 인터페이스(180)는, 출력 화상 내에서 크기가 가장 작은 후보 물체를 조작해야 할 물체로서 결정해도 된다. 또한, 유저 인터페이스(180)는 GUI(graphical User Interface)를 포함해도 된다. 예를 들어, 도 15의 출력 화상 Im13 내의 커맨드 필드(14)는 GUI의 일종이다. 예를 들어, 커맨드 필드(14)에 표시된 제어 커맨드를 유저가 화면 상에서 선택한 경우에, 다음에 설명할 송신부(190)는 해당 제어 커맨드를 포함하는 제어 신호를, 커맨드 필드(14)가 있는 조작 대상 물체에 송신할 수 있다.

[2-9. 송신부]

송신부(190)는, 유저 인터페이스(180)에 대한 유저 입력에 기초하여 결정된 조작 대상 물체에 대한 제어 커맨드를 포함하는 제어 신호를 생성하고, 생성된 제어 신호를 송신한다. 제어 신호는, 예를 들어, IrDA(Infrared Data Association)에 준거한 적외선 신호로서 송신되어도 된다. 다른 방안으로, 제어 신호는, 예를 들어, 무선 LAN(Local Area Network)을 통한 무선 신호로서 송신되어도 된다. 이러한 제어 신호를 조작 대상 물체(피제어 기기)가 수신함으로써, 유저가 원하는 조작이 해당 물체에서 행해진다.

<3. 하드웨어 구성>

상술한 화상 처리 장치(100)에 의한 일련의 처리를 하드웨어에서 실현할지 소프트웨어에서 실현할지는 중요하지 않다는 점에 주목한다. 일련의 처리 또는 그 일부를 소프트웨어에 의해 실행하는 경우에, 그 소프트웨어를 구성하는 프로그램은, 전용 하드웨어에 조립된 컴퓨터, 또는 예를 들어 도 19에 나타낸 범용 컴퓨터 등을 이용하여 실행된다.

도 19에서, CPU(Central Processing Unit; 902)는 범용 컴퓨터의 동작 전반을 제어한다. ROM(Read Only Memory; 904)에는 일련의 처리의 일부 또는 전부를 기술한 프로그램 또는 데이터가 저장된다. RAM(Random Access Memory; 906)에는 처리의 실행시 CPU(902)에 의해 사용되는 프로그램 및 데이터가 일시적으로 기억된다.

CPU(902), ROM(904) 및 RAM(906)은 버스(910)를 통해 서로 접속된다. 버스(910)에는 입출력 인터페이스(912)도 접속된다.

입출력 인터페이스(912)는, CPU(902), ROM(904), RAM(906)을, 입력 장치(920), 표시 장치(922), 기억 장치(924), 촬상 장치(926) 및 송신 장치(930)와 접속하기 위한 인터페이스이다.

입력 장치(920)는, 예를 들어, 버튼, 터치 패널, 스위치 또는 키패드의 입력 수단을 통한 유저 입력을 접수한다. 표시 장치(922)는, 예를 들어 CRT(Cathode Ray Tube), 액정 디스플레이, OLED(Organic Light Emitting Diode) 등으로 구성되어, 그 화면 상에 출력 화상을 표시한다.

기억 장치(924)는, 예를 들어, 하드디스크 드라이브 또는 반도체 메모리로 구성되어, 프로그램 및 데이터를 기억한다. 촬상 장치(926)는, 상술한 촬상부(102)의 하드웨어에 상당하고, CCD 또는 CMOS 등의 촬상 소자를 사용하여, 실공간을 촬영한다. 송신 장치(930)는, 예를 들어 IrDA에 준거한 적외선 포트 등으로 구성되고, 전자 기기를 원격 제어하기 위한 제어 커맨드를 포함하는 제어 신호를 적외선 신호 등으로 변조하여 송신한다.

<4. 정리>

도 1 내지 도 19를 참조하여 본 발명의 일 실시 형태에 따른 화상 처리 장치(100)를 설명하였다. 화상 처리 장치(100)에 따르면, 실공간 내에 존재하는 하나 이상의 물체의 위치를 표현하는 환경 맵에 포함되는 물체들 중, 물체 식별 데이터에 기초하여 조작가능하다고 인식되는 적어도 하나의 물체가, 유저에 의한 조작 대상의 후보인 후보 물체로서 선택된다. 따라서, 촬상 장치가 이동해서 입력 화상 내의 물체의 외관이 변화한 경우 또는 조작해야 할 물체가 다른 물체 뒤에 숨겨진 경우에도, 그러한 물체들을 서로 구별하여 원격 제어 대상으로서 용이하게 선택할 수 있다. 또한, 시쓰루 방식의 디스플레이를 이용한 조작 대상의 직감적 선택이 가능하게 된다. 또한, 전자 기기에 조작용 디스플레이를 개별적으로 형성하지 않고, 혹은 서로 다른 전용의 원격 제어 장치들을 준비하지 않고, 하나의 화상 처리 장치(100)를 사용하여 각 전자 기기를 조작할 수 있다.

또한, 출력 화상을 생성할 때 이용되는 촬상 장치의 위치 및 자세는, SLAM 기술을 사용하여 동적으로 검출된다. 따라서, 촬상 장치의 위치 및 자세가 픽처마다 변화하는 경우에도, 출력 화상에 표시해야 할 후보 물체를 둘러싸는 프레임 등을, 촬상 장치의 위치 및 자세에 따라 적절하게 생성할 수 있다.

<5. 변형예>

또한, 상술한 화상 처리 장치(100)의 하나의 변형예로서, 환경 맵을 구축하지 않고 원격 제어 장치로서 동작가능한 화상 처리 장치를 구성할 수도 있다. 도 20은 그러한 하나의 변형예에 관한 화상 처리 장치(200)의 구성의 일례를 도시하는 블록도이다. 도 20을 참조하면, 화상 처리 장치(200)는 촬상부(102), 데이터 기억부(130), 기기 인식부(240), 선택부(260), 화상 출력부(270), 유저 인터페이스(180) 및 송신부(190)를 구비한다.

기기 인식부(240)는, 데이터 기억부(130)에 기억되어 있는 물체 식별 데이터에 포함되어 있는 각 물체 화상을 촬상부(102)로부터 입력되는 입력 화상과 대조함으로써, 입력 화상에 존재하는 조작가능한 물체를 인식한다. 이어서, 기기 인식부(240)는, 조작가능한 물체가 존재하는 경우에, 입력 화상 내의 각 조작가능한 물체의 위치(각 물체에 대응하는 화소군의 위치 등)를 오브젝트 ID와 관련지어, 선택부(260) 및 화상 출력부(270)에 출력한다.

선택부(260)는, 기기 인식부(240)에 의해 물체 식별 데이터에 기초하여 조작가능하다고 인식된 적어도 하나의 물체를 후보 물체로서 선택한다. 선택부(260)는, 예를 들어, 물체 식별 데이터에서 조작가능 플래그가 "예"인 모든 물체를 후보 물체로서 선택해도 된다. 다른 방안으로, 선택부(260)는, 예를 들어, 입력 화상 내에 복수의 조작가능한 물체가 인식될 경우에, 미리 설정되어 있는 임계값을 초과하지 않는 개수인 일부 물체들만을 후보 물체로서 선택해도 된다. 일부 물체들은, 예를 들어, 화면의 중앙 또는 중앙의 근방에 위치하고 있는 물체이어도 된다. 또한, 선택부(260)는, 예를 들어, 복수의 조작가능한 물체가 화면의 중앙에 위치하고 있을 경우에, 화면 내에서 크기가 가장 작은 물체를 후보 물체로서 선택해도 된다. 선택부(260)는 선택된 후보 물체의 오브젝트 ID를 화상 출력부(270)에 출력한다.

화상 출력부(270)는, 선택부(260)에 의해 선택된 후보 물체의 화면 상에서의 위치를 유저가 인식할 수 있도록 하는 출력 화상을, 촬상부(102)로부터 입력되는 입력 화상으로부터 생성한다. 이어서, 화상 출력부(270)는 생성된 출력 화상을 표시 장치에 출력한다. 구체적으로, 예를 들어, 화상 출력부(270)는, 화면 상에서 각 후보 물체를 둘러싸는 프레임을 기기 인식부(240)로부터 입력되는 해당 후보 물체의 위치에 기초하여 생성하고, 생성된 프레임을 입력 화상에 중첩함으로써, 출력 화상을 생성한다. 유저는 이러한 출력 화상을 보면서 유저 인터페이스(180)를 통해 조작 대상을 지정할 수 있다.

화상 출력부(270)는, 상술한 화상 출력부(170)와 마찬가지로, 조작가능한 물체가 존재하지 않는 경우에, 촬상부(102)로부터 입력되는 입력 화상을 그대로 출력 화상으로서 표시 장치에 출력해도 된다는 점에 주목해야 한다. 또한, 화상 출력부(270)에 의해 생성되는 출력 화상이 표시되는 표시 장치의 화면과, 촬상부(102)에 상당하는 촬상 장치의 촬상면은, 서로 반대 방향을 향하도록 배치되는 것이 바람직하다.

화상 처리 장치(200)에 따르면, 물체 식별 데이터에 기초하여 조작가능하다고 인식되는 입력 화상 내의 적어도 하나의 물체가, 유저에 의한 조작 대상의 후보인 후보 물체로서 선택되어, 출력 화상 내에 표시된다. 따라서, 유저는 조작 대상을 직감적으로 선택할 수 있다. 이 경우에도, 전자 기기에 조작용 디스플레이를 개별적으로 형성하지 않고 혹은 전용의 원격 제어 장치를 별도로 준비하지 않고, 하나의 화상 처리 장치(200)를 사용하여 각 전자 기기를 조작할 수 있다.

이상, 첨부 도면을 참조하여 본 발명의 바람직한 실시 형태를 상세하게 설명하였지만, 본 발명은 이러한 예에 한정되지 않는다. 당업자라면, 다양한 수정, 조합, 부조합 및 변경이, 청구범위 또는 그 등가물의 범위 내에 있는 한, 설계 요건 및 기타 요인에 따라 발생할 수 있다는 점을 이해할 것이다.

본 출원은 일본 특허청에 2010년 1월 12일자로 출원된 일본 특허 출원 제2010-004170호에 기재된 요지에 관련된 요지를 포함하며, 그 전체 내용이 본 명세서에서 참조로서 원용된다.

100: 화상 처리 장치
102: 촬상부
110: 환경 맵 생성부
120: 환경 맵 기억부
130: 데이터 기억부
140: 기기 인식부
160: 선택부
170: 화상 출력부

Claims

유저에 의해 조작가능한 물체를 식별하기 위한 물체 식별 데이터 및 각 물체의 외관의 특징을 나타내는 특징 데이터를 기억하고 있는 데이터 기억부와,
실공간(real space) 내에 존재하는 하나 이상의 물체의 위치를 표현하는 환경 맵으로서, 촬상 장치를 이용하여 상기 실공간을 촬영하여 얻어지는 입력 화상 및 상기 데이터 기억부에 기억되어 있는 상기 특징 데이터에 기초하여 생성되는 환경 맵을 기억하는 환경 맵 기억부와,
상기 환경 맵 기억부에 기억되어 있는 상기 환경 맵에 포함되는 물체들 중, 상기 물체 식별 데이터에 기초하여 조작가능하다고 인식되는 적어도 하나의 물체를, 유저에 의한 조작 대상의 후보인 후보 물체로서 선택하는 선택부
를 포함하는, 화상 처리 장치.
제1항에 있어서,
상기 선택부에 의해 선택된 상기 후보 물체의 화면 상의 위치를 유저가 인식할 수 있도록 하는 출력 화상을 상기 입력 화상으로부터 생성하고, 생성된 상기 출력 화상을 표시 장치에 출력하는 화상 출력부를 더 포함하는, 화상 처리 장치.
제2항에 있어서,
상기 환경 맵 기억부는 또한 상기 입력 화상 및 상기 특징 데이터에 기초하여 결정되는 상기 촬상 장치의 위치를 나타내는 촬상 위치 데이터를 기억하고,
상기 출력 화상 내의 각 후보 물체의 위치는 상기 환경 맵 기억부에 기억되어 있는 상기 환경 맵 및 상기 촬상 위치 데이터에 기초하여 계산되는, 화상 처리 장치.
제2항에 있어서,
상기 후보 물체들 중 조작해야 할 물체를 유저가 지정할 수 있게 하는 유저 인터페이스를 더 포함하는, 화상 처리 장치.
제4항에 있어서,
상기 유저 인터페이스는 상기 후보 물체들 중 유저 입력이 검지되었을 때 상기 출력 화상의 중앙 또는 상기 중앙의 근방에 위치하고 있는 물체를 상기 조작해야 할 물체로서 결정하는, 화상 처리 장치.
제5항에 있어서,
상기 유저 인터페이스는, 상기 후보 물체들 중 유저 입력이 검지되었을 때 복수의 상기 후보 물체가 상기 출력 화상의 중앙에 위치하고 있을 경우에, 상기 출력 화상 내에서 크기가 가장 작은 상기 후보 물체를 상기 조작해야 할 물체로서 결정하는, 화상 처리 장치.
제2항에 있어서,
상기 특징 데이터는 각 물체의 3차원 형상을 나타내는 형상 데이터를 포함하고,
상기 화상 출력부는 상기 화면 상에서 각 후보 물체를 둘러싸는 프레임을 상기 형상 데이터에 기초하여 생성하고, 생성된 상기 프레임을 상기 입력 화상에 중첩함으로써 상기 출력 화상을 생성하는, 화상 처리 장치.
제2항에 있어서,
상기 촬상 장치와 상기 표시 장치를 더 포함하고,
상기 촬상 장치의 촬상면과 상기 표시 장치의 화면은 서로 반대 방향을 향하도록 배치되는, 화상 처리 장치.
유저에 의해 조작가능한 물체를 식별하기 위한 물체 식별 데이터 및 각 물체의 외관의 특징을 나타내는 특징 데이터를 기억하고 있는 데이터 기억부를 포함하는 화상 처리 장치에서의 화상 처리 방법으로서,
실공간 내에 존재하는 하나 이상의 물체의 위치를 표현하는 환경 맵을, 촬상 장치를 이용하여 상기 실공간을 촬영하여 얻어지는 입력 화상 및 상기 데이터 기억부에 의해 기억되어 있는 상기 특징 데이터에 기초하여 생성하는 스텝과,
생성된 상기 환경 맵에 포함되는 물체들 중, 상기 물체 식별 데이터에 기초하여 조작가능하다고 인식되는 적어도 하나의 물체를, 유저에 의한 조작 대상의 후보인 후보 물체로서 선택하는 스텝
을 포함하는, 화상 처리 방법.
유저에 의해 조작가능한 물체를 식별하기 위한 물체 식별 데이터 및 각 물체의 외관의 특징을 나타내는 특징 데이터를 기억하고 있는 데이터 기억부를 포함하는 화상 처리 장치를 제어하는 컴퓨터를,
실공간 내에 존재하는 하나 이상의 물체의 위치를 표현하는 환경 맵을, 촬상 장치를 이용하여 상기 실공간을 촬영하여 얻어지는 입력 화상 및 상기 데이터 기억부에 의해 기억되어 있는 상기 특징 데이터에 기초하여 생성하는 환경 맵 생성부와,
상기 환경 맵 생성부에 의해 생성되는 상기 환경 맵에 포함되는 물체들 중, 상기 물체 식별 데이터에 기초하여 조작가능하다고 인식되는 적어도 하나의 물체를, 유저에 의한 조작 대상의 후보인 후보 물체로서 선택하는 선택부
로서 기능시키기 위한, 프로그램.