KR20110083509A - 화상 처리 장치, 화상 처리 방법 및 프로그램 - Google Patents

화상 처리 장치, 화상 처리 방법 및 프로그램 Download PDF

Info

Publication number
KR20110083509A
KR20110083509A KR20110000456A KR20110000456A KR20110083509A KR 20110083509 A KR20110083509 A KR 20110083509A KR 20110000456 A KR20110000456 A KR 20110000456A KR 20110000456 A KR20110000456 A KR 20110000456A KR 20110083509 A KR20110083509 A KR 20110083509A
Authority
KR
South Korea
Prior art keywords
image
environment map
candidate
unit
objects
Prior art date
Application number
KR20110000456A
Other languages
English (en)
Inventor
마사끼 후꾸찌
고우이찌 마쯔다
야스히로 스또
겐이찌로 오이
징징 구오
Original Assignee
소니 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 주식회사 filed Critical 소니 주식회사
Publication of KR20110083509A publication Critical patent/KR20110083509A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • H04N21/4108Peripherals receiving signals from specially adapted client devices characterised by an identification number or address, e.g. local network address
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • H04N21/42208Display device provided on the remote control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • H04N21/42208Display device provided on the remote control
    • H04N21/42209Display device provided on the remote control for displaying non-command information, e.g. electronic program guide [EPG], e-mail, messages or a second television channel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • H04N21/4222Remote control device emulator integrated into a non-television apparatus, e.g. a PDA, media center or smart toy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • H04N21/42222Additional components integrated in the remote control device, e.g. timer, speaker, sensors for detecting position, direction or movement of the remote control, microphone or battery charging device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42226Reprogrammable remote control devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/436Interfacing a local distribution network, e.g. communicating with another STB or one or more peripheral devices inside the home
    • H04N21/43615Interfacing a Home Network, e.g. for connecting the client to a plurality of peripherals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G08SIGNALLING
    • G08CTRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
    • G08C2201/00Transmission systems of control signals via wireless link
    • G08C2201/20Binding and programming of remote control devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)
  • Details Of Television Systems (AREA)
  • Selective Calling Equipment (AREA)
  • Telephone Function (AREA)
  • Image Processing (AREA)

Abstract

유저에 의해 조작가능한 물체를 식별하기 위한 물체 식별 데이터 및 각 물체의 외관의 특징을 나타내는 특징 데이터를 기억하고 있는 데이터 기억부와, 실공간 내에 존재하는 하나 이상의 물체의 위치를 표현하는 환경 맵으로서, 촬상 장치를 이용하여 상기 실공간을 촬영함으로써 얻어지는 입력 화상 및 상기 데이터 기억부에 의해 기억되어 있는 상기 특징 데이터에 기초하여 생성되는 상기 환경 맵을 기억하는 환경 맵 기억부와, 상기 환경 맵 기억부에 의해 기억되어 있는 상기 환경 맵에 포함되는 물체들 중, 상기 물체 식별 데이터에 기초하여 조작가능하다고 인식되는 적어도 하나의 물체를, 유저에 의한 조작 대상의 후보인 후보 물체로서 선택하는 선택부를 포함하는 화상 처리 장치를 제공한다.

Description

화상 처리 장치, 화상 처리 방법 및 프로그램{IMAGE PROCESSING DEVICE, OBJECT SELECTION METHOD AND PROGRAM}
본 발명은 화상 처리 장치, 물체 선택 방법 및 프로그램에 관한 것이다.
가정이나 사무실에서 유저가 조작해야 할 전자 기기는 해마다 증가하고 있다. 또한, 하나의 전자 기기가 갖는 기능도 더욱 다양해지고 있다. 이에 따라, 이러한 전자 기기들을 조작하는 유저의 부담도 커지고 있다. 이러한 점에서, 하나의 원격 제어 장치를 이용하여 복수의 전자 기기를 조작하는 것을 가능하게 하는 기술의 개발이 진행되고 있다. 그러나, 원격 제어 기능들을 하나의 장치에 집약하기 위해서는, 유저가 위치하는 환경 내에 원격조작이 가능한 피제어 기기가 복수 개로 존재할 때 유저가 어떤 기기를 조작하려는지를 식별하는 수단을 제공해야 한다.
예를 들어, 하기 특허문헌은, 음성 인식 기술을 채용함으로써 유저 음성으로부터 원격 제어의 대상 기기 및 제어 내용을 인식하는 원격 제어 장치를 제안하고 있다.
일본 특허공개공보 평11-345024호
그러나, 음성으로부터 원격 제어의 대상 기기 및 제어 내용의 인식에 있어서, 동일한 종류의 기기가 복수 존재하는 경우에 이러한 기기들을 서로 구별할 때 인식 처리가 특히 번잡해진다. 예를 들어, 거실 및 거실에 인접하는 방 각각에 텔레비전이 존재하는 경우, "거실에 있는" 또는 "보다 소형의"와 같은 수식어를 TV 앞에 붙이지 않으면, 의도하는 텔레비전을 적절히 지정할 수 없다. 또한, 대상 기기를 지정하는 단어를 인식할 수 없을 때에는, 유저가 하나의 텔레비전을 끄려 했음에도 다른 기기(다른 텔레비전 또는 다른 종류의 기기)까지 꺼버릴 우려가 있다.
또한, 예를 들어, 유저의 제스처로부터 원격 제어의 대상 기기 등을 인식할 수 있지만, 제스처 만으로는, 유저의 시선을 따라 중첩되는 위치에 있는 (또는 서로 근방에 위치하는) 복수의 기기를 서로 구별하는 것이 어렵다.
전술한 바를 고려할 때, 복수의 전자 기기를 서로 구별하고 하나의 전자 기기를 원격 제어 대상으로서 쉽게 선택할 수 있는 신규하고도 개량된 화상 처리 장치, 물체 선택 방법 및 프로그램을 제공하는 것이 바람직하다.
본 발명의 일 실시 형태에 따르면, 유저에 의해 조작가능한 물체를 식별하기 위한 물체 식별 데이터 및 각 물체의 외관의 특징을 나타내는 특징 데이터를 기억하고 있는 데이터 기억부와, 실공간(real space) 내에 존재하는 하나 이상의 물체의 위치를 표현하는 환경 맵으로서, 촬상 장치를 이용하여 상기 실공간을 촬영하여 얻어지는 입력 화상 및 상기 데이터 기억부에 기억되어 있는 상기 특징 데이터에 기초하여 생성되는 환경 맵을 기억하는 환경 맵 기억부와, 상기 환경 맵 기억부에 기억되어 있는 상기 환경 맵에 포함되는 물체들 중, 상기 물체 식별 데이터에 기초하여 조작가능하다고 인식되는 적어도 하나의 물체를, 유저에 의한 조작 대상의 후보인 후보 물체로서 선택하는 선택부를 포함하는 화상 처리 장치가 제공된다.
상기 화상 처리 장치는, 상기 선택부에 의해 선택된 상기 후보 물체의 화면 상의 위치를 유저가 인식할 수 있도록 하는 출력 화상을 상기 입력 화상으로부터 생성하고, 생성된 상기 출력 화상을 표시 장치에 출력하는 화상 출력부를 더 포함할 수 있다.
상기 환경 맵 기억부는 또한 상기 입력 화상 및 상기 특징 데이터에 기초하여 결정되는 상기 촬상 장치의 위치를 나타내는 촬상 위치 데이터를 기억할 수 있고, 상기 출력 화상 내의 각 후보 물체의 위치는 상기 환경 맵 기억부에 기억되어 있는 상기 환경 맵 및 상기 촬상 위치 데이터에 기초하여 계산된다.
화상 처리 장치는 상기 후보 물체들 중 조작해야 할 물체를 유저가 지정할 수 있게 하는 유저 인터페이스를 더 포함할 수 있다.
유저 인터페이스는 상기 후보 물체들 중 유저 입력이 검지되었을 때 상기 출력 화상의 중앙 또는 상기 중앙의 근방에 위치하고 있는 물체를 상기 조작해야 할 물체로서 결정할 수 있다.
유저 인터페이스는, 상기 후보 물체들 중 유저 입력이 검지되었을 때 복수의 상기 후보 물체가 상기 출력 화상의 중앙에 위치하고 있을 경우에, 상기 출력 화상 내에서 크기가 가장 작은 상기 후보 물체를 상기 조작해야 할 물체로서 결정할 수 있다.
특징 데이터는 각 물체의 3차원 형상을 나타내는 형상 데이터를 포함할 수 있고, 상기 화상 출력부는 상기 화면 상에서 각 후보 물체를 둘러싸는 프레임을 상기 형상 데이터에 기초하여 생성하고 생성된 상기 프레임을 상기 입력 화상에 중첩함으로써 상기 출력 화상을 생성할 수 있다.
화상 처리 장치는 상기 촬상 장치와 상기 표시 장치를 더 포함할 수 있고, 상기 촬상 장치의 촬상면과 상기 표시 장치의 화면은 서로 반대 방향을 향하도록 배치된다.
본 발명의 다른 일 실시 형태에 따르면, 유저에 의해 조작가능한 물체를 식별하기 위한 물체 식별 데이터 및 각 물체의 외관의 특징을 나타내는 특징 데이터를 기억하고 있는 데이터 기억부를 포함하는 화상 처리 장치에서의 화상 처리 방법으로서, 실공간 내에 존재하는 하나 이상의 물체의 위치를 표현하는 환경 맵을, 촬상 장치를 이용하여 상기 실공간을 촬영하여 얻어지는 입력 화상 및 상기 데이터 기억부에 기억되어 있는 상기 특징 데이터에 기초하여 생성하는 스텝과, 생성된 상기 환경 맵에 포함되는 물체들 중, 상기 물체 식별 데이터에 기초하여 조작가능하다고 인식되는 적어도 하나의 물체를, 유저에 의한 조작 대상의 후보인 후보 물체로서 선택하는 스텝을 포함하는 화상 처리 방법이 제공된다.
본 발명의 또 다른 일 실시 형태에 따르면, 유저에 의해 조작가능한 물체를 식별하기 위한 물체 식별 데이터 및 각 물체의 외관의 특징을 나타내는 특징 데이터를 기억하고 있는 데이터 기억부를 포함하는 화상 처리 장치를 제어하는 컴퓨터를, 실공간 내에 존재하는 하나 이상의 물체의 위치를 표현하는 환경 맵을, 촬상 장치를 이용하여 상기 실공간을 촬영하여 얻어지는 입력 화상 및 상기 데이터 기억부에 의해 기억되어 있는 상기 특징 데이터에 기초하여 생성하는 환경 맵 생성부와, 상기 환경 맵 생성부에 의해 생성되는 상기 환경 맵에 포함되는 물체들 중, 상기 물체 식별 데이터에 기초하여 조작가능하다고 인식되는 적어도 하나의 물체를, 유저에 의한 조작 대상의 후보인 후보 물체로서 선택하는 선택부로서 기능시키기 위한, 프로그램이 제공된다.
이상 설명한 바와 같이, 본 발명에 관한 화상 처리 장치, 물체 선택 방법 및 프로그램에 의하면, 복수의 전자 기기를 서로 구별할 수 있고 하나의 전자 기기를 원격 제어 대상으로서 쉽게 선택할 수 있다
도 1은 일 실시 형태에 따른 화상 처리 장치의 개요를 설명하기 위한 모식도이다.
도 2는 일 실시 형태에 따른 화상 처리 장치의 구성의 일례를 도시하는 블록도이다.
도 3은 일 실시 형태에 따른 환경 맵 생성부가 상세한 구성의 일례를 도시하는 블록도이다.
도 4는 일 실시 형태에 따른 자기 위치 검출 처리의 흐름의 일례를 도시하는 흐름도이다.
도 5는 오브젝트 상에 설정되는 특징점을 설명하기 위한 설명도이다.
도 6은 특징점의 추가를 설명하기 위한 설명도이다.
도 7은 예측 모델의 일례를 설명하기 위한 설명도이다.
도 8은 특징 데이터의 구성의 일례를 설명하기 위한 설명도이다.
도 9는 일 실시 형태에 따른 오브젝트 인식 처리의 흐름의 일례를 도시하는 흐름도이다.
도 10은 물체 식별 데이터의 구성의 일례를 설명하기 위한 설명도이다.
도 11은 일 실시 형태에 따른 기기 인식 처리의 흐름의 일례를 도시하는 흐름도이다.
도 12는 일 실시 형태에 따른 후보 물체 선택 처리의 흐름의 일례를 도시하는 흐름도이다.
도 13은 일 실시 형태에 따른 화상 출력부에 의해 생성되는 출력 화상의 일례를 도시하는 설명도이다.
도 14는 일 실시 형태에 따른 화상 출력부에 의해 생성되는 출력 화상의 다른 예를 도시하는 설명도이다.
도 15는 일 실시 형태에 따른 화상 출력부에 의해 생성되는 출력 화상의 또한 다른 예를 도시하는 설명도이다.
도 16은 일 실시 형태에 따른 화상 출력부에 의해 생성되는 출력 화상의 또한 다른 예를 도시하는 설명도이다.
도 17은 일 실시 형태에 따른 화상 출력부에 의해 생성되는 출력 화상의 또한 다른 예를 도시하는 설명도이다.
도 18은 일 실시 형태에 따른 화상 출력부에 의해 생성되는 출력 화상의 또한 다른 예를 도시하는 설명도이다.
도 19는 범용 컴퓨터의 하드웨어 구성의 일례를 도시하는 블록도이다.
도 20은 하나의 변형예에 관한 화상 처리 장치의 구성의 일례를 도시하는 블록도이다.
이하, 첨부 도면을 참조하여 본 발명의 바람직한 실시 형태를 상세히 설명한다. 본 명세서 및 도면에 있어서, 실질적으로 동일한 기능 구성을 갖는 구성 요소에 대해서는 동일한 부호를 부여하고, 이러한 구성 요소들의 중복 설명을 생략한다.
"발명을 실시하기 위한 구체적인 내용"은 이하의 순서로 설명한다.
1. 일 실시 형태에 따른 화상 처리 장치의 개요
2. 일 실시 형태에 따른 화상 처리 장치의 구성예
2-1. 촬상부
2-2. 환경 맵 생성부
2-3. 환경 맵 기억부
2-4. 데이터 기억부
2-5. 기기 인식부
2-6. 선택부
2-7. 화상 출력부
2-8. 유저 인터페이스
2-9. 송신부
3. 하드웨어 구성
4. 정리
5. 변형예
<1. 일 실시 형태에 따른 화상 처리 장치의 개요>
도 1은 본 발명의 일 실시 형태에 따른 화상 처리 장치의 개요를 설명하기 위한 모식도이다. 도 1에는 본 발명의 일 실시 형태에 따른 화상 처리 장치(100)를 유저가 구비하는 환경(1)이 도시되어 있다.
도 1을 참조하면, 환경(1)의 내부에는, 물체들(10a, 10b, 10c, 10d, 10e, 10f)이 존재하고 있다. 물체(10a)는 텔레비전, 물체(10b)는 스피커, 물체(10c)는 DVD 플레이어, 물체(10d)는 프린터, 물체(10e)는 휴대 정보 단말기, 물체(10f)는 테이블이다. 그러한 물체들 중에서, 예를 들어, 물체들(10a, 10b, 10c, 10d)은 원격 제어될 수 있는 피제어 기기들이다. 반면에, 예를 들어, 물체들(10e, 10f)은 원격 제어될 수 없는 물체들이다.
화상 처리 장치(100)는 촬상 장치를 이용하여 이러한 환경(1)을 촬영하고 이에 따라 일련의 입력 화상을 취득한다. 이어서, 화상 처리 장치(100)는, 취득한 입력 화상에 대하여 후술하는 일 실시 형태에 따른 화상 처리를 실행한 후, 그 화상 처리의 결과로서 출력되는 화상을 화상 처리 장치(100)의 화면 상에 표시한다. 출력 화상은 유저에 의해 조작되는 후보로 되는 후보 물체들의 화면 상에서의 위치를 유저가 인식할 수 있도록 하는 화상이다.
또한, 화상 처리 장치(100)가 원격 제어 장치로서의 기능도 갖는 것이 바람직하다. 화상 처리 장치(100)가 원격 제어 장치로서 기능할 때, 유저는, 화면 상에 표시되는 상술한 출력 화상에 기초하여, 조작해야 할 물체를 지정할 수 있다.
도 1에서는 화상 처리 장치(100)의 일례로서 휴대 전화 단말기를 도시하고 있지만, 화상 처리 장치(100)는 이러한 예로 한정되지 않는다. 예를 들어, 화상 처리 장치(100)는, 촬상 장치를 구비한 휴대 정보 단말기, 게임 단말기, 디지털 비디오 카메라 또는 그 밖의 종류의 전자 기기이어도 된다. 또한, 화상 처리 장치(100)는, 예를 들어, 시각으로서의 카메라를 갖는 로봇 등이어도 된다. 이러한 화상 처리 장치(100)의 구성의 일례를 이하에서 더욱 구체적으로 설명한다.
<2. 일 실시 형태에 따른 화상 처리 장치의 구성예>
도 2는 본 발명의일 실시 형태에 따른 화상 처리 장치(100)의 구성의 일례를 도시하는 블록도이다. 도 2을 참조하면, 화상 처리 장치(100)는, 촬상부(102), 환경 맵 생성부(110), 환경 맵 기억부(120), 데이터 기억부(130), 기기 인식부(140), 선택부(160), 화상 출력부(170), 유저 인터페이스(180) 및 송신부(190)를 포함한다.
[2-1. 촬상부]
촬상부(102)는, 예를 들어, CCD(Charge Coupled Device) 또는 CMOS(Complementary Metal Oxide Semiconductor) 등의 촬상 소자를 갖는 촬상 장치로서 실현될 수 있다. 촬상부(102)는, 도 1에 도시한 환경(1) 등의 실공간을 촬영함으로써 생성된 화상을, 입력 화상으로서, 환경 맵 생성부(110), 기기 인식부(140) 및 화상 출력부(170)에 출력한다.
[2-2. 환경 맵 생성부]
환경 맵 생성부(110)는, 촬상부(102)로부터 입력되는 입력 화상 및 데이터 기억부(130)에 의해 기억되어 있는 후술하는 오브젝트의 특징 데이터에 기초하여, 실공간 내에 존재하는 하나 이상의 물체의 위치 등을 표현하는 환경 맵을 생성한다.
도 3은 본 실시 형태에 따른 환경 맵 생성부의 상세한 구성의 일례를 도시하는 블록도이다. 도 3을 참조하면, 환경 맵 생성부(110)는 자기 위치 검출부(112), 화상 인식부(114) 및 구축부(116)를 포함한다.
(1) 자기 위치 검출부
자기 위치 검출부(112)는, 촬상부(102)로부터 입력되는 입력 화상 및 데이터 기억부(130)에 의해 기억되어 있는 특징 데이터에 기초하여, 입력 화상을 촬영한 촬상 장치의 위치를 동적으로 검출한다. 예를 들어, 촬상 장치가 단안 카메라를 갖는 경우에도, 자기 위치 검출부(112)는, Andrew J. Davison에 의한 "Real-Time Simultaneous Localization and Mapping with a Single Camera" (Proceedings of the 9th IEEE International Conference on Computer Vision Volume 2, 2003, pp.1403-1410)에 기재되어 있는 SLAM 기술을 응용함으로써, 해당 카메라의 위치와 자세, 및 그 카메라의 촬상면 상의 특징점의 위치를, 프레임마다 동적으로 결정할 수 있다.
먼저, 도 4를 참조하여 자기 위치 검출부(112)에 의한 SLAM 기술을 응용한 자기 위치 검출 처리의 전체적인 흐름을 설명한다. 이어서, 도 5 내지 도 7을 참조하여 자기 위치 검출 처리의 상세를 설명한다.
도 4는 자기 위치 검출부(112)에 의한 SLAM 기술을 응용한 자기 위치 검출 처리의 흐름의 일례를 나타내는 흐름도이다. 도 4에서, 자기 위치 검출 처리가 개시되면, 자기 위치 검출부(112)는 먼저 상태 변수를 초기화한다(스텝 S102). 본 실시 형태에서, 상태 변수는, 카메라의 위치와 자세(회전각), 해당 카메라의 이동 속도와 각속도, 및 하나 이상의 특징점의 위치를 요소로서 포함하는 벡터이다. 이어서, 자기 위치 검출부(112)는 촬상부(102)로부터 입력 화상을 순차 취득한다(스텝 S112). 스텝 S112부터 스텝 S118까지의 처리는 각 입력 화상에 대하여(즉, 프레임마다) 반복될 수 있다.
스텝 S114에서, 자기 위치 검출부(112)는 입력 화상에 존재하는 특징점들을 추적한다. 예를 들어, 자기 위치 검출부(112)는 데이터 기억부(130)에 미리 기억되어 있는 각 특징점의 패치(예를 들어, 특징점을 중심으로 하는 3×3 = 9 화소의 소 화상(small image))를 입력 화상으로부터 검출한다. 여기서 검출된 패치의 위치, 즉 특징점의 위치는, 추후에 상태 변수의 갱신시 사용된다.
스텝 S116에서, 자기 위치 검출부(112)는 소정의 예측 모델에 기초하여, 예를 들어, 다음 프레임의 상태 변수의 예측값을 생성한다. 또한, 스텝 S118에서, 자기 위치 검출부(112)는 스텝 S116에서 생성된 상태 변수의 예측값과 스텝 S114에서 검출된 특징점의 위치에 따른 관측값을 이용하여 상태 변수를 갱신한다. 자기 위치 검출부(112)는 스텝 S116 및 S118에서의 처리를, 확장형 칼만 필터(extended Kalman filter)의 원리에 기초하여 실행한다.
이러한 처리의 결과로, 프레임마다 갱신되는 상태 변수의 값이 출력된다. 이하, 특징점의 추적(스텝 S114), 상태 변수의 예측(스텝 S116), 상태 변수의 갱신(스텝 S118)의 각 처리의 내용을 보다 구체적으로 설명한다.
(1-1) 특징점의 추적
본 실시 형태에서, 데이터 기억부(130)는 실공간 내에 존재할 수 있는 물체들에 대응하는 오브젝트들의 특징들을 나타내는 특징 데이터를 미리 기억하고 있다. 특징 데이터에는, 예를 들어, 각 오브젝트의 외관의 특징을 나타내는 하나 이상의 특징점에 관한 소 화상, 즉 패치가 포함된다. 패치는, 예를 들어, 특징점을 중심으로 하는 3×3 = 9 화소로 구성된 소 화상이어도 된다.
도 5는 오브젝트의 2개의 예 및 각 오브젝트 상에 설정된 특징점(FP: Feature Point) 및 패치의 예를 나타내고 있다. 도 5의 좌측의 오브젝트는 텔레비전을 나타내는 오브젝트이다(5a 참조). 해당 오브젝트 상에는 특징점 FP1을 포함하는 복수의 특징점이 설정되어 있다. 또한, 특징점 FP1에 관련된 패치 Pth1이 정의되어 있다. 한편, 도 5의 우측의 오브젝트는 원형 테이블을 나타내는 오브젝트이다(5b 참조). 해당 오브젝트 상에는 특징점 FP2를 포함하는 복수의 특징점이 설정되어 있다. 또한, 특징점 FP2에 관련된 패치 Pth2가 정의되어 있다.
자기 위치 검출부(112)는, 촬상부(102)로부터 입력 화상을 취득하면, 그 입력 화상에 포함되어 있는 부분 화상과, 데이터 기억부(130)에 미리 기억되어 있는 도 5에 도시한 각 특징점에 대한 패치를 대조한다. 이어서, 자기 위치 검출부(112)는, 대조 결과로서, 입력 화상에 포함되어 있는 특징점의 위치(예를 들어 검출된 패치의 중심 화소의 위치)을 지정한다.
특징점의 추적(도 4의 스텝 S114)에 있어서, 추적되는 모든 특징점에 관한 데이터를 데이터 기억부(130)에 미리 기억해두지 않아도 된다는 점에 주목한다. 예를 들어, 도 6에 도시한 예에서는, 시각 T=t-1에서 3개의 특징점이 입력 화상 내에서 검출되어 있다(6a 참조). 다음으로, 시각 T=t에서 카메라의 위치 또는 자세가 변화하면, 시각 T=t-1에서는 입력 화상에 존재하고 있는 3개의 특징점 중 하나만이 입력 화상 내에 존재한다. 이 경우에, 자기 위치 검출부(112)는, 입력 화상의 특징적 화소 패턴이 존재하는 위치에 특징점들을 새롭게 설정할 수 있고, 그 새로운 특징점들을 후속 프레임에서의 자기 위치 검출 처리에 이용할 수 있다. 예를 들어, 도 6에 도시한 예에서는, 시각 T=t에서, 5개가 새로운 특징점이 오브젝트 상에 설정되어 있다(6b 참조). 이것이 SLAM 기술의 한 특징이며, 이에 따라, 모든 특징점들을 미리 설정하는 비용을 삭감할 수 있음과 함께, 개수가 증가된 특징점들을 이용하여 처리의 정밀도를 높일 수 있다.
(1-2) 상태 변수의 예측
본 실시 형태에서, 자기 위치 검출부(112)는 확장형 칼만 필터를 적용할 상태 변수로서, 다음 식에 나타내는 상태 변수 X를 사용한다.
Figure pat00001
식 1에서의 상태 변수 X의 제1 요소는, 다음 식에서 표현된 바와 같이, 실공간에 설정되는 좌표계인 세계 좌표계(global coordinate system; x, y, z)에서의 카메라의 3차원 위치를 나타낸다.
Figure pat00002
또한, 상태 변수의 제2 요소는 카메라의 자세를 나타내는 회전 행렬에 대응하는 4원소(쿼터니온)를 요소로서 갖는 4차원 벡터 ω이다. 4원소 대신에 오일러 각을 이용하여 카메라의 자세를 나타내도 된다는 점에 주목한다. 또한, 상태 변수의 제3 요소 및 제4 요소는 카메라의 이동 속도 및 각속도를 각각 나타낸다.
또한, 상태 변수의 제5 요소 및 후속 요소들은, 다음 식에서 표현된 바와 같이, 세계 좌표계에서의 특징점 FPi(i = 1...N)의 3차원 위치 pi를 각각 나타낸다. 상술한 바와 같이, 특징점의 수 N은 처리 동안 변경될 수 있다는 점에 주목한다.
Figure pat00003
자기 위치 검출부(112)는, 스텝 S102에서 초기화된 상태 변수 X의 값 또는 전 프레임에서 갱신된 상태 변수 X의 값에 기초하여, 최신 프레임에 관한 상태 변수의 예측값을 생성한다. 상태 변수의 예측값은, 다음 식에서 나타낸 바와 같이 다차원 정규 분포에 따른 확장형 칼만 필터의 상태 방정식을 따라 생성된다.
Figure pat00004
여기서, F는 시스템의 상태 천이에 관한 예측 모델을 나타내고, a는 예측 조건이다. 또한, w는 가우시안 노이즈이며, 예를 들어, 모델 근사 오차나 관측 오차 등을 포함할 수 있다. 일반적으로, 가우시안 노이즈 w의 평균은 0으로 된다.
도 7은 본 실시 형태에 따른 예측 모델의 일례를 설명하기 위한 설명도이다. 도 7을 참조하면, 본 실시 형태에 따른 예측 모델에서의 2개의 예측 조건이 도시되어 있다. 우선, 제1 조건으로서, 특징점의 세계 좌표계에서의 3차원 위치는 변화하지 않는 것으로 가정한다. 즉, 시각 T에서의 특징점 FP1의 3차원 위치를 pT로 하면, 다음 식의 관계가 성립한다.
Figure pat00005
다음으로, 제2 조건으로서, 카메라의 운동은 등속 운동이라고 가정한다. 즉, 시각 T=t-1부터 시각 T=t까지의 카메라의 속도 및 각속도에 대하여 다음 식의 관계가 성립한다.
Figure pat00006
Figure pat00007
자기 위치 검출부(112)는, 이러한 예측 모델 및 식(4)에 나타낸 상태 방정식에 기초하여, 최신 프레임에 관한 상태 변수의 예측값을 생성한다.
(1-3) 상태 변수의 갱신
이어서, 자기 위치 검출부(112)는, 예를 들어, 관측 방정식을 이용하여, 상태 변수의 예측값으로부터 예측되는 관측 정보 및 특징점의 추적 결과로 얻어지는 실제 관측 정보 간의 오차를 평가한다. 식 8에서의 ν가 그 오차다.
Figure pat00008
Figure pat00009
여기서, H는 관측 모델을 나타낸다. 예를 들어, 특징점 FPi의 촬상면(u-v 평면) 상의 위치를 다음 식과 같이 정의한다.
Figure pat00010
여기서, 카메라의 위치 x, 카메라의 자세 ω 및 특징점 FPi의 3차원 위치 pi는 모두 상태 변수 X의 요소들로서 부여된다. 이어서, 핀홀(pinhole) 모델에 따라, 특징점 FPi의 촬상면 상의 위치는 다음 식을 사용하여 유도된다.
Figure pat00011
여기서, λ는 정규화를 위한 파라미터, A는 카메라 내부 파라미터, Rω는 상태 변수 X에 포함되는 카메라의 자세를 나타내는 4원소 ω에 대응하는 회전 행렬을 나타낸다. 카메라 내부 파라미터 A는 입력 화상을 촬영하는 촬상 장치의 특성에 따라 다음 식과 같이 미리 부여된다.
Figure pat00012
여기서, f는 초점 거리, θ는 화상축의 직교성(이상값은 90°), ku는 촬상면의 종축을 따른 스케일(세계 좌표계로부터 촬상면의 좌표계로의 스케일 변화율), kν는 촬상면의 횡축을 따른 스케일, (uo, νo)는 촬상면의 중심 위치를 나타낸다.
따라서, 식 11을 이용하여 유도되는 예측되는 관측 정보, 즉 각 특징점의 촬상면 상의 위치와, 도 4의 스텝 S114에서의 특징점의 추적 결과 간의 오차를 최소한으로 하는 상태 변수 X를 탐색함으로써, 실현가능한 최신 상태 변수 X를 얻을 수 있다.
Figure pat00013
자기 위치 검출부(112)는, 이러한 식으로 SLAM 기술을 응용하여 동적으로 갱신된 카메라(촬상 장치)의 위치 x 및 자세 ω를 구축부(116)와 기기 인식부(140)에 출력한다.
(2) 화상 인식부
화상 인식부(114)는, 데이터 기억부(130)에 기억되어 있는 전술한 특징 데이터를 사용하여, 입력 화상에 존재하는 물체들과 데이터 오브젝트들 간의 대응 관계를 지정한다. 데이터 기억부(130)에 기억되어 있는 특징 데이터를 먼저 설명한다.
(2-1) 특징 데이터
도 8은 특징 데이터의 구성의 일례를 설명하기 위한 설명도이다. 도 8을 참조하면, 오브젝트의 일례인 물체(10g)에 관한 특징 데이터 FD1이 도시되어 있다. 특징 데이터 FD1은, 오브젝트 식별자(ID) FD11, 여섯 방향으로부터 촬영한 화상 데이터 FD12, 패치 데이터 FD13, 3차원 형상 데이터 FD14 및 온톨로지 데이터 FD15를 포함한다.
오브젝트 식별자 FD11은 물체(10g)를 일의적으로 지정하기 위한 문자열이다. 도 8의 예에서, 오브젝트 식별자 FD11은 "TV00"이다.
화상 데이터 FD12는, 예를 들어, 대응하는 오브젝트를 여섯 방향(앞, 뒤, 좌, 우, 위, 아래)으로부터 각각 촬영한 6개의 화상 데이터를 포함한다. 패치 데이터 FD13은, 각 오브젝트 상에 설정되는 하나 이상의 특징점의 각각에 대하여 각 특징점을 중심으로 하는 소 화상들의 집합이다. 화상 데이터 FD12 및 패치 데이터 FD13은 후술하는 화상 인식부(114)에 의한 오브젝트 인식 처리를 위해 사용될 수 있다. 또한, 패치 데이터 FD13은 전술한 자기 위치 검출부(112)에 의한 자기 위치 검출 처리를 위해 사용될 수 있다.
3차원 형상 데이터 FD14는 대응하는 오브젝트의 형상을 인식하기 위한 폴리곤 정보 및 특징점들의 3차원 위치 정보를 포함한다. 3차원 형상 데이터 FD14는 후술하는 구축부(116)에 의한 환경 맵 구축 처리 및 화상 출력부(170)에 의한 출력 화상 생성 처리를 위해 사용될 수 있다.
온톨로지 데이터 FD15는, 예를 들어, 구축부(116)에 의한 환경 맵 구축 처리를 지원하도록 사용될 수 있는 데이터이다. 도 8의 예에서, 온톨로지 데이터 FD15는, 텔레비전인 물체(10g)가 텔레비전 스탠드 또는 바닥에 대응하는 오브젝트에 접할 가능성이 높고 책장에 대응하는 오브젝트에 접할 가능성이 낮음을 나타내고 있다.
(2-2) 오브젝트 인식 처리
도 9는 화상 인식부(114)에 의한 오브젝트 인식 처리의 흐름의 일례를 나타내는 흐름도이다. 도 9을 참조하면, 화상 인식부(114)는 먼저 촬상부(102)로부터 입력 화상을 취득한다(스텝 S212). 이어서, 화상 인식부(114)는, 입력 화상에 포함되는 부분 화상과, 특징 데이터에 포함되는 각 오브젝트의 하나 이상의 특징점의 패치를 대조하여 입력 화상에 포함되어 있는 특징점들을 추출한다(스텝 S214). 화상 인식부(114)에 의한 오브젝트 인식 처리에 사용되는 특징점과, 자기 위치 검출부(112)에 의한 자기 위치 검출 처리에 사용되는 특징점은 반드시 같지 않아도 된다는 점에 주목한다. 그러나, 양쪽의 처리에서 공통되는 특징점들이 사용되는 경우에는, 화상 인식부(114)가 자기 위치 검출부(112)에 의한 특징점의 추적 결과를 재이용해도 된다.
다음으로, 화상 인식부(114)는 특징점의 추출 결과에 기초하여 입력 화상에 존재하는 오브젝트를 지정한다(스텝 S216). 예를 들어, 화상 인식부(114)는, 소정의 영역 내에서 하나의 오브젝트에 속하는 특징점들이 높은 밀도로 추출되는 경우에, 해당 영역에 그 오브젝트가 존재하고 있음을 인식할 수 있다. 이어서, 화상 인식부(114)는 지정된 오브젝트의 오브젝트 식별자 및 그 오브젝트에 속하는 특징점의 촬상면 상의 위치를 구축부(116)에 출력한다(스텝 S218).
(3) 환경 맵 구축부
구축부(116)는 자기 위치 검출부(112)로부터 입력되는 카메라의 위치 및 자세, 화상 인식부(114)로부터 입력되는 특징점의 촬상면 상의 위치 및 데이터 기억부(130)에 기억되어 있는 특징 데이터를 이용하여 환경 맵을 생성한다. 본 명세서에서, 환경 맵은 실공간 내에 존재하는 하나 이상의 물체의 위치(및 자세)를 표현하는 데이터의 집합이다. 환경 맵에는, 예를 들어, 물체에 대응하는 오브젝트 식별자, 해당 물체에 속하는 특징점의 3차원 위치 및 해당 물체의 형상을 구성하는 폴리곤 정보 등이 포함될 수 있다. 환경 맵은, 예를 들어, 화상 인식부(114)로부터 입력되는 특징점의 촬상면 상의 위치로부터, 상술한 핀홀 모델에 따라 각 특징점의 3차원 위치를 구하는 것에 의해 구축될 수 있다.
식 11에 나타낸 핀홀 모델의 관계식을 변형하면, 특징점 FPi의 세계 좌표계에서의 3차원 위치 pi가 다음 식에 의해 구해진다.
Figure pat00014
여기서, d는 카메라와 각 특징점의 사이의 세계 좌표계에서의 거리를 나타낸다. 구축부(116)는 이러한 거리 d를 오브젝트마다 적어도 4개의 특징점의 촬상면 상의 위치 및 해당 특징점들 간의 거리에 기초하여 산출할 수 있다. 특징점들 간의 거리는, 도 8을 참조하여 설명한 특징 데이터에 포함되는 3차원 형상 데이터 FD14로서, 데이터 기억부(130)에 미리 기억되어 있다. 식 14에서의 거리 d의 산출 처리는 일본 특허공개공보 제2008-304268호에 상세히 개시되어 있다.
거리 d가 산출된 후, 식 14에서의 우변의 나머지 변수들은, 자기 위치 검출부(112)로부터 입력되는 카메라의 위치 및 자세, 및 화상 인식부(114)로부터 입력되는 특징점의 촬상면 상의 위치이며, 이들 모두는 알려져 있다. 이어서, 구축부(116)는 식 14에 따라 화상 인식부(114)로부터 입력되는 각 특징점에 대하여 세계 좌표계에서의 3차원 위치를 계산한다. 이어서, 구축부(116)는, 산출한 각 특징점의 3차원 위치에 따라 최신 환경 맵을 구축하고, 구축한 환경 맵을 환경 맵 기억부(120)에 출력한다. 이때, 구축부(116)는 도 8을 참조하여 설명한 특징 데이터에 포함되는 온톨로지 데이터 FD15를 이용하여 환경 맵의 데이터의 정확성을 향상시켜도 된다는 점에 주목한다.
[2-3. 환경 맵 기억부]
환경 맵 기억부(120)는, 하드 디스크 또는 반도체 메모리 등의 기억 매체를 사용하여, 환경 맵 생성부(110)의 구축부(116)에 의해 구축되는 상술한 환경 맵을 기억한다. 또한, 환경 맵 기억부(120)는 환경 맵 생성부(110)의 자기 위치 검출부(112)에 의해 검출되는 카메라의 위치 및 자세를 포함하는 촬상 위치 데이터를 기억한다. 환경 맵 기억부(120)는 다음에 설명하는 데이터 기억부(130)와 물리적으로 동일한 기억 매체를 사용하여 실장되어도 된다는 점에 주목한다.
[2-4. 데이터 기억부]
데이터 기억부(130)는, 상술한 바와 같이, 하드 디스크 또는 반도체 메모리등의 기억 매체를 사용하여, 실공간 내에 존재할 수 있는 물체에 대응하는 오브젝트의 특징을 나타내는 특징 데이터를 미리 기억한다. 또한, 데이터 기억부(130)는, 실공간 내에 존재할 수 있는 물체들 중 유저에 의해 조작가능한 물체를 식별하기 위한 물체 식별 데이터를 미리 기억한다. 물체 식별 데이터는 후술하는 기기 인식부(140)에 의한 기기 인식 처리에서 사용된다.
도 10은 물체 식별 데이터의 구성의 일례를 설명하기 위한 설명도이다. 도 10을 참조하면, 물체 식별 데이터는 오브젝트 식별자(ID), 종별, 모델, 물체 화상, 조작가능 플래그 및 커맨드 리스트인 6개 데이터 항목을 포함하고 있다.
오브젝트 식별자는, 실공간 내의 개별적인 물체에 대응하는 각 오브젝트를 일의적으로 지정하기 위한 문자열이다. 이러한 오브젝트 식별자를 이용하여, 물체 식별 데이터와, 도 8을 참조하여 설명한 특징 데이터를 관련지을 수 있다. 도 10에서는, 오브젝트 ID = "TV01", "SP01", "DV01", "PT01", "PD01" 및 "TB01"인 6개 물체의 각각에 관한 물체 식별 데이터가 도시되어 있다.
종별은 각 오브젝트의 종류를 나타낸다. 오브젝트 "TV01", "SP01", "DV01", "PT01", "PD01" 및 "TB01"의 종별은 각각, 텔레비전, 스피커, DVD 플레이어, 프린터, PDA 및 테이블이다. 또한, 모델은 실공간 내의 개별적인 물체의 모델 번호를 나타낸다.
물체 화상은 후술하는 기기 인식부(140)에 의한 기기 인식 처리에 사용되는 화상이다. 물체 화상은 실공간 내의 개별적인 물체를 적어도 한 방향으로부터 촬영함으로써 얻은 화상이어도 된다. 또한, 예를 들어, 물체 화상은 도 8을 참조하여 설명한 특징 데이터에 포함되는 화상 데이터의 일부이어도 된다.
조작가능 플래그는 실공간 내의 개별적인 물체가 유저에 의해 조작가능한 물체인지를 식별하기 위한 플래그이다. 조작가능 플래그 = "예"이면, 해당 물체는 조작가능하다. 또한, 조작가능 플래그 = "아니오"이면, 해당 물체는 조작가능하지 않다. 도 10의 예에서, 오브젝트 "TV01", "SP01", "DV01", "PT01"의 조작가능 플래그는 "예"이다. 따라서, 그러한 물체들은 조작가능하다. 반면에, 오브젝트 "PD01" 및 "TB01"의 조작가능 플래그는 "아니오"이다. 따라서, 그러한 물체들은 조작가능하지 않다.
커맨드 리스트는 조작가능한 물체들의 각 물체를 조작하기 위한 제어 커맨드들의 리스트이다. 예를 들어, 오브젝트 "TV01"의 커맨드 리스트에는 "전원 ON", "전원 OFF", "음량 UP", "음량 DOWN", "채널 UP", "채널 DOWN"인 여섯 종류의 커맨드가 포함된다.
[2-5. 기기 인식부]
기기 인식부(140)는, 상술한 물체 식별 데이터에 포함되는 각 물체 화상을 촬상부(102)로부터 입력되는 입력 화상과 대조함으로써, 입력 화상에 존재하는 조작가능한 물체를 인식한다. 이어서, 기기 인식부(140)는, 조작가능한 물체가 존재하는 경우에, 입력 화상 내의 각 조작가능한 물체의 위치 및 자기 위치 검출부(112)로부터 입력되는 카메라의 위치 및 자세를 이용하여, 식 14에 따라 환경 맵(120) 내에서의 각 조작가능한 물체의 3차원 위치를 계산한다. 또한, 기기 인식부(140)는, 계산된 3차원 위치에 기초하여, 새롭게 인식된 조작가능한 물체를 환경 맵에 등록한다.
도 11은 기기 인식부(140)에 의한 기기 인식 처리의 흐름의 일례를 도시하는 설명도이다. 도 11을 참조하면, 기기 인식부(140)는 먼저 촬상부(102)로부터 입력 화상을 취득한다(스텝 S302). 다음으로, 기기 인식부(140)는, 물체 식별 데이터에 포함되는 각 물체 화상을 입력 화상과 대조함으로써, 입력 화상에 존재하는 조작가능한 물체를 인식한다(스텝 S304). 여기서 대조에 사용되는 물체 화상은, 물체 식별 데이터에 포함되는 물체 화상들 중 조작가능 플래그가 "예"인 레코드의 물체 화상이어도 된다. 이어서, 기기 인식부(140)는 입력 화상 내에서 조작가능한 물체가 인식되는지를 판정한다(스텝 S306). 입력 화상 내에서 조작가능한 물체가 인식되지 않은 경우에는, 처리를 종료한다. 반면에, 입력 화상 내에서 조작가능한 물체가 인식된 경우에는, 기기 인식부(140)는, 인식된 각 조작가능한 물체의 3차원 위치를 계산하고, 그 3차원 위치에 기초하여, 새롭게 인식된 조작가능한 물체를 환경 맵에 등록한다(스텝 S308).
이러한 식으로, 기기 인식부(140)에 의해 조작가능하다고 인식된 물체의 환경 맵 내의 3차원 위치는 환경 맵 기억부(120)에 계속 유지된다. 구체적으로, 일단 조작가능하다고 인식된 물체는, 카메라 이동으로 인해 해당 물체가 다른 물체 뒤에 숨겨졌을 경우(즉, 가림(occlusion)이 발생한 경우) 또는 촬상 방향의 변경으로 인해 외관이 변화한 경우에도, 환경 맵 내에서 정확하게 식별될 수 있다.
[2-6. 선택부]
선택부(160)는, 환경 맵 기억부(120)에 의해 기억되어 있는 환경 맵에 포함된 물체들 중 물체 식별 데이터에 기초하여 조작가능하다고 인식된 적어도 하나의 물체를, 유저에 의한 조작 대상의 후보로서 선택한다. 본 명세서에서는, 선택부(160)에 의해 조작 대상 후보로서 선택된 물체를 후보 물체(candidate object)라 칭한다.
선택부(160)는, 예를 들어, 환경 맵에 포함되어 있는 물체들 중 물체 식별 데이터에서 조작가능 플래그가 "예"인 물체 모두를 후보 물체로서 선택해도 된다. 다른 방안으로, 선택부(160)는, 예를 들어, 입력 화상 내에서 복수의 조작가능한 물체가 인식될 경우에, 미리 설정되어 있는 임계값을 초과하지 않는 개수인 일부 물체들만을 후보 물체로서 선택해도 된다. 그 일부 물체들은, 예를 들어, 화면의 중앙 또는 중앙의 근방에 위치하는 물체들이어도 된다. 조작가능한 물체의 화면 상의 위치는, 환경 맵 기억부(120)에 기억되어 있는 환경 맵 및 카메라의 위치 및 자세에 기초하여, 식 11에 따라 계산될 수 있다. 조작가능한 물체는, 화면 상에서 통상적으로 어느 정도의 크기(예를 들어, 화소 수에 의해 나타내지는 면적 등)를 갖는다는 점에 주목한다. 따라서, 선택부(160)는, 조작가능한 물체의 기하학적인 무게 중심 위치를 조작가능한 해당 물체의 위치로서 간주함으로써, 화면의 중앙으로부터의 거리를 결정할 수 있다. 또한, 선택부(160)는, 예를 들어, 복수의 조작가능한 물체가 화면의 중앙에 위치하고 있을 경우에, 화면 상에서 크기가 가장 작은 물체를 후보 물체로서 선택해도 된다.
도 12는 선택부(160)에 의한 선택 처리의 흐름의 일례를 도시하는 설명도이다. 도 12를 참조하면, 선택부(160)는, 먼저, 환경 맵에 포함되어 있는 물체들 중 물체 식별 데이터에서 조작가능 플래그가 "예"인 물체의 3차원 좌표를 식 11에 따라 촬상면 상의 2차원 좌표로 변환한다(스텝 S402). 예를 들어, 물체의 형상을 구성하는 폴리곤의 정점의 3차원 좌표를 촬상면 상의 2차원 좌표로 변환함으로써, 각 물체의 촬상면 상에서의 크기 및 무게 중심을 산출할 수 있다. 이어서, 선택부(160)는, 식 11에 따라 촬상면 상에 투영되는 조작가능한 물체들의 개수가 미리 설정되어 있는 임계값을 초과하는지를 판정한다(스텝 S404). 미리 설정되어 있는 임계값은, 예를 들어, 1 또는 복수이어도 된다. 조작가능한 물체들의 개수가 미리 설정되어 있는 임계값을 초과하지 않는 경우에, 처리는 스텝 S412로 진행한다. 반면에, 조작가능한 물체들의 개수가 미리 설정되어 있는 임계값을 초과하는 경우에, 처리는 스텝 S406으로 진행한다.
스텝 S406에서, 선택부(160)는 복수의 조작가능한 물체가 촬상면의 중앙에서 중첩되는지를 결정한다(스텝 S406). 예를 들어, 카메라의 위치로부터 하나의 물체의 위치로 연장되는 직선 상에 다른 물체가 존재하는 경우에는, 복수의 조작가능한 물체가 촬상면 상에서 중첩될 수 있다. 복수의 조작가능한 물체가 촬상면의 중앙에서 중첩되는 경우에, 처리는 스텝 S408로 진행한다. 반면에, 복수의 조작가능한 물체가 촬상면의 중앙에서 중첩되지 않는 경우에, 처리는 스텝 S410으로 진행한다.
스텝 S408에서는, 선택부(160)는, 촬상면의 중앙에 위치하는 복수의 조작가능한 물체들 중 촬상면 상에서의 크기가 보다 작은 물체(상기 임계값이 1인 경우에 가장 작은 물체)를 후보 물체로서 선택한다(스텝 S408). 또한, 스텝 S410에서, 선택부(160)는, 화면 중앙으로부터 각 물체의 무게 중심까지의 거리가 짧은 순서대로, 상기 임계값에 상당하는 수의 조작가능한 물체를, 후보 물체로서 선택한다(스텝 S410). 또한, 스텝 S412에서, 선택부(160)는, 촬상면 상에 투영되는 조작가능한 물체를 후보 물체로서 선택한다(스텝 S412).
그 후, 선택부(160)는, 선택된 후보 물체의 2차원 형상을 나타내는 형상 데이터(폴리곤의 정점의 촬상면 상에서의 2차원 좌표 등)를 오브젝트 ID와 관련지어, 화상 출력부(170)에 출력한다(스텝 S414). 이어서, 선택부(160)에 의한 선택 처리를 종료한다.
[2-7. 화상 출력부]
화상 출력부(170)는, 선택부(160)에 의해 선택된 후보 물체의 화면 상에서의 위치를 유저가 인식할 수 있도록 하는 출력 화상을, 촬상부(102)로부터 입력되는 입력 화상으로부터 생성한다. 이어서, 화상 출력부(170)는 생성된 출력 화상을 표시 장치에 출력한다. 구체적으로, 예를 들어, 화상 출력부(170)는, 화면 상에서 각 후보 물체를 둘러싸는 프레임을 해당 후보 물체의 2차원 형상 데이터에 기초하여 생성하고 생성된 프레임을 입력 화상에 중첩함으로써, 출력 화상을 생성한다. 다른 방안으로, 화상 출력부(170)는, 예를 들어, 출력 화상에서 각 후보 물체에 대응하는 화면 상의 한 영역과 다른 영역 사이에서 명암 또는 색의 농담 등을 변화시킴으로써, 후보 물체의 화면 상의 위치를 유저가 인식할 수 있도록 해도 된다. 또한, 화상 출력부(170)는, 예를 들어, 각 후보 물체에 해당 물체의 명칭 등을 나타내는 문자열을 부여함으로써, 후보 물체의 화면 상에서의 위치를 유저가 인식할 수 있도록 해도 된다.
도 13은 본 실시 형태에 따른 화상 출력부(170)에 의해 생성되는 출력 화상의 일례를 도시하는 설명도이다. 도 13을 참조하면, 환경(1)을 촬영한 입력 화상으로부터 생성된 출력 화상 Im11이 도시되어 있다. 출력 화상 Im11에서는, 4개의 조작가능한 물체(10a, 10b, 10c, 10d)에 각 물체를 둘러싸는 프레임이 배치되어 있다. 또한, 프레임의 형상은 원형 또는 직사각형 이외의 다각형이어도 된다는 점에 주목한다. 도 13의 예에서는, 환경 맵에 포함되어 있는 물체들 중 물체 식별 데이터에서 조작가능 플래그가 "예"인 4개의 물체 모두가 후보 물체로서 선택되어 있음을 이해할 수 있다. 이러한 출력 화상을 참조함으로써, 유저는, 환경(1) 내에 존재하는 어떤 물체를 화상 처리 장치(100)를 사용하여 조작할 수 있는지를 알 수 있다.
도 14는 본 실시 형태에 따른 화상 출력부(170)에 의해 생성되는 출력 화상의 다른 예를 도시하는 설명도이다. 도 14를 참조하면, 환경(1)을 촬영한 입력 화상으로부터 생성된 출력 화상 Im12가 도시되어 있다. 출력 화상 Im12에서는, 화면의 중앙에 가장 가깝게 있는 물체(10a)에 해당 물체를 둘러싸는 프레임이 배치되어 있다. 따라서, 도 14의 예에서는, 환경 맵에 포함되어 있는 물체들 중 하나의 물체만이 후보 물체로서 선택되어 있음을 이해할 수 있다. 또한, 출력 화상 Im12 상에는 화면의 중앙을 지시하는 조준(aiming symbol; 12)도 중첩되어 있다. 이러한 출력 화상에 의하면, 유저는, 화상 처리 장치(100)(또는 촬상부(102))를 이동시켜 조작 대상으로 하고 싶은 기기 상에 조준(12)을 배치함으로써, 조작 대상을 용이하게 지정할 수 있다.
도 15는 본 실시 형태에 따른 화상 출력부(170)에 의해 생성되는 출력 화상의 또 다른 예를 도시하는 설명도이다. 도 15를 참조하면, 환경(1)을 촬영한 입력 화상으로부터 생성된 출력 화상 Im13이 도시되어 있다. 출력 화상 Im13에서는, 화면의 중앙에 가장 가깝게 위치하는 조작가능한 물체(10a)에 해당 물체를 둘러싸는 프레임이 배치되어 있다. 또한, 출력 화상 Im13에는 화면의 중앙을 지시하는 조준(12)도 중첩되어 있다. 또한, 출력 화상 Im13에서, 물체(10a)에는, 해당 물체를 조작하기 위한 제어 커맨드(도 14의 예에서는 "전원 ON")를 표시하는 커맨드 필드(14)가 배치되어 있다. 이러한 제어 커맨드는, 예를 들어, 도 10을 참조하여 설명한 물체 식별 데이터에 포함되어 있는 커맨드 리스트로부터 취득된다. 이러한 출력 화상에 의하면, 유저는, 화상 처리 장치(100)(또는 촬상부(102))를 이동시켜 조작 대상을 용이하게 지정할 수 있음과 함께, 조작 대상에 송신해야 할 제어 커맨드를 용이하게 선택할 수 있다.
도 16은 본 실시 형태에 따른 화상 출력부(170)에 의해 생성되는 출력 화상의 또 다른 예를 도시하는 설명도이다. 도 16을 참조하면, 좌측에 임시 화상 Im21이, 우측에 출력 화상 Im22가 도시되어 있다. 임시 화상 Im21에는 조작가능한 물체들(10c, 10d)이 존재하고 있다. 그러나, 임시 화상 Im21의 중앙에는 물체(10c)가 물체(10d) 뒤에 부분적으로 숨겨져 있다. 따라서, 이 경우, 복수의 조작가능한 물체가 촬상면의 중앙에서 중첩되고 있다. 반면에, 출력 화상 Im22에서는, 촬상면 상에서 크기가 보다 작은 물체(10c)에 그 물체가 후보 물체임을 나타내는 프레임이 배치되어 있다. 이러한 출력 화상에 의하면, 조작가능한 작은 물체가 다른 조작가능한 물체와 중첩되어 그 작은 물체를 선택할 수 없는 것을 방지할 수 있다.
도 17은 본 실시 형태에 따른 화상 출력부(170)에 의해 생성되는 출력 화상의 또 다른 예를 나타내는 설명도이다. 도 17을 참조하면, 좌측에는 출력 화상 Im31이, 우측에는 출력 화상 Im32가 도시되어 있다. 출력 화상 Im31에는 조작가능한 물체(10b)가 존재한다. 물체(10b)가 조작가능하다는 것은 기기 인식부(140)에 의한 인식 결과로서 환경 맵에 등록된다. 출력 화상 Im32는 화상 처리 장치(100)가 환경(1) 내에서 이동한 후에 생성되는 출력 화상이다. 출력 화상 Im32에서도, 물체(10b)가 조작가능한 물체로서 인식되어 후보 물체로서 선택되어 있다. 이러한 식으로, 실공간 내에 존재하는 물체의 위치를 표현하는 환경 맵에 기초하여 후보 물체를 선택 및 표시함으로써, 물체의 외관이 촬상 위치 및 촬상 방향에 따라 변화하는 경우에도, 조작 대상을 유연하게 선택할 수 있다.
도 18은 본 실시 형태에 따른 화상 출력부(170)에 의해 생성되는 출력 화상의 또 다른 예를 나타내는 설명도이다. 도 18을 참조하면, 좌측에는 출력 화상 Im41이, 우측에는 출력 화상 Im42가 도시되어 있다. 출력 화상 Im41에는 조작가능한 물체(10d)가 존재한다. 물체(10d)가 조작가능하다는 것은 기기 인식부(140)에 의한 인식 결과로서 환경 맵에 등록된다. 출력 화상 Im42는 화상 처리 장치(100)가 환경(1) 내에서 이동한 후에 생성되는 출력 화상이다. 출력 화상 Im42에서는, 물체(10d)가 테이블 뒤에 숨겨져 있어서 시인할 수 없다. 그러나, 출력 화상 Im42에서도, 테이블 뒤에 숨겨진 물체(10d)가 후보 물체로서 선택되어 있다. 이러한 식으로, 실공간 내에 존재하는 물체의 위치를 표현하는 환경 맵에 기초하여 후보 물체를 선택하고, 해당 물체를 식별할 수 있는 프레임을 표시함으로써, 물체가 다른 물체 뒤에 숨겨져 있더라도, 그 숨겨진 물체를 조작 대상으로서 유연하게 선택할 수 있다.
또한, 화상 출력부(170)는, 조작가능한 물체가 존재하지 않는 경우에, 촬상부(102)로부터 입력되는 입력 화상을 그대로 출력 화상으로서 표시 장치에 출력해도 된다는 점에 주목해야 한다. 또한, 화상 출력부(170)에 의해 생성되는 출력 화상이 표시되는 표시 장치의 화면과, 촬상부(102)에 상당하는 촬상 장치의 촬상면은, 서로 반대 방향을 향하도록(즉, 서로 배면끼리 대면하도록) 배치되는 것이 바람직하다. 이는, 시쓰루(see-through) 방식의 디스플레이를 생성하고, 이에 따라 유저가 환경(1) 내의 화상 처리 장치(100)를 들어올려 출력 화상을 보면서, 조작해야 할 물체를 지정하는 것을 용이하게 한다.
[2-8. 유저 인터페이스]
유저 인터페이스(180)는 후보 물체들 중 조작해야 할 물체를 유저가 지정하기 위한 인터페이스를 제공한다. 유저 인터페이스(180)는, 예를 들어, 버튼, 터치 패널, 스위치 또는 키패드 등의, 유저 입력을 검출 가능한 임의의 입력 수단이어도 된다. 예를 들어, 도 14의 출력 화상 Im12 또는 도 16의 출력 화상 Im22에서와 같이 하나의 후보 물체만이 표시되어 있는 경우에는, 유저 입력(예를 들어, 버튼을 누름)이 검출된 시점에서 표시되어 있는 후보 물체를, 조작해야 할 물체로서 결정할 수 있다. 또한, 도 13의 출력 화상 Im11에서와 같이 복수의 후보 물체가 표시되어 있는 경우에는, 예를 들어, 유저 입력이 검출된 시점에서 표시되어 있는 출력 화상의 중앙 또는 중앙의 근방에 위치하고 있는 물체를, 조작해야 할 물체로서 결정할 수 있다. 또한, 유저 입력이 검출되었을 때 복수의 후보 물체가 출력 화상의 중앙에 위치하고 있는 경우에, 예를 들어, 유저 인터페이스(180)는, 출력 화상 내에서 크기가 가장 작은 후보 물체를 조작해야 할 물체로서 결정해도 된다. 또한, 유저 인터페이스(180)는 GUI(graphical User Interface)를 포함해도 된다. 예를 들어, 도 15의 출력 화상 Im13 내의 커맨드 필드(14)는 GUI의 일종이다. 예를 들어, 커맨드 필드(14)에 표시된 제어 커맨드를 유저가 화면 상에서 선택한 경우에, 다음에 설명할 송신부(190)는 해당 제어 커맨드를 포함하는 제어 신호를, 커맨드 필드(14)가 있는 조작 대상 물체에 송신할 수 있다.
[2-9. 송신부]
송신부(190)는, 유저 인터페이스(180)에 대한 유저 입력에 기초하여 결정된 조작 대상 물체에 대한 제어 커맨드를 포함하는 제어 신호를 생성하고, 생성된 제어 신호를 송신한다. 제어 신호는, 예를 들어, IrDA(Infrared Data Association)에 준거한 적외선 신호로서 송신되어도 된다. 다른 방안으로, 제어 신호는, 예를 들어, 무선 LAN(Local Area Network)을 통한 무선 신호로서 송신되어도 된다. 이러한 제어 신호를 조작 대상 물체(피제어 기기)가 수신함으로써, 유저가 원하는 조작이 해당 물체에서 행해진다.
<3. 하드웨어 구성>
상술한 화상 처리 장치(100)에 의한 일련의 처리를 하드웨어에서 실현할지 소프트웨어에서 실현할지는 중요하지 않다는 점에 주목한다. 일련의 처리 또는 그 일부를 소프트웨어에 의해 실행하는 경우에, 그 소프트웨어를 구성하는 프로그램은, 전용 하드웨어에 조립된 컴퓨터, 또는 예를 들어 도 19에 나타낸 범용 컴퓨터 등을 이용하여 실행된다.
도 19에서, CPU(Central Processing Unit; 902)는 범용 컴퓨터의 동작 전반을 제어한다. ROM(Read Only Memory; 904)에는 일련의 처리의 일부 또는 전부를 기술한 프로그램 또는 데이터가 저장된다. RAM(Random Access Memory; 906)에는 처리의 실행시 CPU(902)에 의해 사용되는 프로그램 및 데이터가 일시적으로 기억된다.
CPU(902), ROM(904) 및 RAM(906)은 버스(910)를 통해 서로 접속된다. 버스(910)에는 입출력 인터페이스(912)도 접속된다.
입출력 인터페이스(912)는, CPU(902), ROM(904), RAM(906)을, 입력 장치(920), 표시 장치(922), 기억 장치(924), 촬상 장치(926) 및 송신 장치(930)와 접속하기 위한 인터페이스이다.
입력 장치(920)는, 예를 들어, 버튼, 터치 패널, 스위치 또는 키패드의 입력 수단을 통한 유저 입력을 접수한다. 표시 장치(922)는, 예를 들어 CRT(Cathode Ray Tube), 액정 디스플레이, OLED(Organic Light Emitting Diode) 등으로 구성되어, 그 화면 상에 출력 화상을 표시한다.
기억 장치(924)는, 예를 들어, 하드디스크 드라이브 또는 반도체 메모리로 구성되어, 프로그램 및 데이터를 기억한다. 촬상 장치(926)는, 상술한 촬상부(102)의 하드웨어에 상당하고, CCD 또는 CMOS 등의 촬상 소자를 사용하여, 실공간을 촬영한다. 송신 장치(930)는, 예를 들어 IrDA에 준거한 적외선 포트 등으로 구성되고, 전자 기기를 원격 제어하기 위한 제어 커맨드를 포함하는 제어 신호를 적외선 신호 등으로 변조하여 송신한다.
<4. 정리>
도 1 내지 도 19를 참조하여 본 발명의 일 실시 형태에 따른 화상 처리 장치(100)를 설명하였다. 화상 처리 장치(100)에 따르면, 실공간 내에 존재하는 하나 이상의 물체의 위치를 표현하는 환경 맵에 포함되는 물체들 중, 물체 식별 데이터에 기초하여 조작가능하다고 인식되는 적어도 하나의 물체가, 유저에 의한 조작 대상의 후보인 후보 물체로서 선택된다. 따라서, 촬상 장치가 이동해서 입력 화상 내의 물체의 외관이 변화한 경우 또는 조작해야 할 물체가 다른 물체 뒤에 숨겨진 경우에도, 그러한 물체들을 서로 구별하여 원격 제어 대상으로서 용이하게 선택할 수 있다. 또한, 시쓰루 방식의 디스플레이를 이용한 조작 대상의 직감적 선택이 가능하게 된다. 또한, 전자 기기에 조작용 디스플레이를 개별적으로 형성하지 않고, 혹은 서로 다른 전용의 원격 제어 장치들을 준비하지 않고, 하나의 화상 처리 장치(100)를 사용하여 각 전자 기기를 조작할 수 있다.
또한, 출력 화상을 생성할 때 이용되는 촬상 장치의 위치 및 자세는, SLAM 기술을 사용하여 동적으로 검출된다. 따라서, 촬상 장치의 위치 및 자세가 픽처마다 변화하는 경우에도, 출력 화상에 표시해야 할 후보 물체를 둘러싸는 프레임 등을, 촬상 장치의 위치 및 자세에 따라 적절하게 생성할 수 있다.
<5. 변형예>
또한, 상술한 화상 처리 장치(100)의 하나의 변형예로서, 환경 맵을 구축하지 않고 원격 제어 장치로서 동작가능한 화상 처리 장치를 구성할 수도 있다. 도 20은 그러한 하나의 변형예에 관한 화상 처리 장치(200)의 구성의 일례를 도시하는 블록도이다. 도 20을 참조하면, 화상 처리 장치(200)는 촬상부(102), 데이터 기억부(130), 기기 인식부(240), 선택부(260), 화상 출력부(270), 유저 인터페이스(180) 및 송신부(190)를 구비한다.
기기 인식부(240)는, 데이터 기억부(130)에 기억되어 있는 물체 식별 데이터에 포함되어 있는 각 물체 화상을 촬상부(102)로부터 입력되는 입력 화상과 대조함으로써, 입력 화상에 존재하는 조작가능한 물체를 인식한다. 이어서, 기기 인식부(240)는, 조작가능한 물체가 존재하는 경우에, 입력 화상 내의 각 조작가능한 물체의 위치(각 물체에 대응하는 화소군의 위치 등)를 오브젝트 ID와 관련지어, 선택부(260) 및 화상 출력부(270)에 출력한다.
선택부(260)는, 기기 인식부(240)에 의해 물체 식별 데이터에 기초하여 조작가능하다고 인식된 적어도 하나의 물체를 후보 물체로서 선택한다. 선택부(260)는, 예를 들어, 물체 식별 데이터에서 조작가능 플래그가 "예"인 모든 물체를 후보 물체로서 선택해도 된다. 다른 방안으로, 선택부(260)는, 예를 들어, 입력 화상 내에 복수의 조작가능한 물체가 인식될 경우에, 미리 설정되어 있는 임계값을 초과하지 않는 개수인 일부 물체들만을 후보 물체로서 선택해도 된다. 일부 물체들은, 예를 들어, 화면의 중앙 또는 중앙의 근방에 위치하고 있는 물체이어도 된다. 또한, 선택부(260)는, 예를 들어, 복수의 조작가능한 물체가 화면의 중앙에 위치하고 있을 경우에, 화면 내에서 크기가 가장 작은 물체를 후보 물체로서 선택해도 된다. 선택부(260)는 선택된 후보 물체의 오브젝트 ID를 화상 출력부(270)에 출력한다.
화상 출력부(270)는, 선택부(260)에 의해 선택된 후보 물체의 화면 상에서의 위치를 유저가 인식할 수 있도록 하는 출력 화상을, 촬상부(102)로부터 입력되는 입력 화상으로부터 생성한다. 이어서, 화상 출력부(270)는 생성된 출력 화상을 표시 장치에 출력한다. 구체적으로, 예를 들어, 화상 출력부(270)는, 화면 상에서 각 후보 물체를 둘러싸는 프레임을 기기 인식부(240)로부터 입력되는 해당 후보 물체의 위치에 기초하여 생성하고, 생성된 프레임을 입력 화상에 중첩함으로써, 출력 화상을 생성한다. 유저는 이러한 출력 화상을 보면서 유저 인터페이스(180)를 통해 조작 대상을 지정할 수 있다.
화상 출력부(270)는, 상술한 화상 출력부(170)와 마찬가지로, 조작가능한 물체가 존재하지 않는 경우에, 촬상부(102)로부터 입력되는 입력 화상을 그대로 출력 화상으로서 표시 장치에 출력해도 된다는 점에 주목해야 한다. 또한, 화상 출력부(270)에 의해 생성되는 출력 화상이 표시되는 표시 장치의 화면과, 촬상부(102)에 상당하는 촬상 장치의 촬상면은, 서로 반대 방향을 향하도록 배치되는 것이 바람직하다.
화상 처리 장치(200)에 따르면, 물체 식별 데이터에 기초하여 조작가능하다고 인식되는 입력 화상 내의 적어도 하나의 물체가, 유저에 의한 조작 대상의 후보인 후보 물체로서 선택되어, 출력 화상 내에 표시된다. 따라서, 유저는 조작 대상을 직감적으로 선택할 수 있다. 이 경우에도, 전자 기기에 조작용 디스플레이를 개별적으로 형성하지 않고 혹은 전용의 원격 제어 장치를 별도로 준비하지 않고, 하나의 화상 처리 장치(200)를 사용하여 각 전자 기기를 조작할 수 있다.
이상, 첨부 도면을 참조하여 본 발명의 바람직한 실시 형태를 상세하게 설명하였지만, 본 발명은 이러한 예에 한정되지 않는다. 당업자라면, 다양한 수정, 조합, 부조합 및 변경이, 청구범위 또는 그 등가물의 범위 내에 있는 한, 설계 요건 및 기타 요인에 따라 발생할 수 있다는 점을 이해할 것이다.
본 출원은 일본 특허청에 2010년 1월 12일자로 출원된 일본 특허 출원 제2010-004170호에 기재된 요지에 관련된 요지를 포함하며, 그 전체 내용이 본 명세서에서 참조로서 원용된다.
100: 화상 처리 장치
102: 촬상부
110: 환경 맵 생성부
120: 환경 맵 기억부
130: 데이터 기억부
140: 기기 인식부
160: 선택부
170: 화상 출력부

Claims (10)

  1. 유저에 의해 조작가능한 물체를 식별하기 위한 물체 식별 데이터 및 각 물체의 외관의 특징을 나타내는 특징 데이터를 기억하고 있는 데이터 기억부와,
    실공간(real space) 내에 존재하는 하나 이상의 물체의 위치를 표현하는 환경 맵으로서, 촬상 장치를 이용하여 상기 실공간을 촬영하여 얻어지는 입력 화상 및 상기 데이터 기억부에 기억되어 있는 상기 특징 데이터에 기초하여 생성되는 환경 맵을 기억하는 환경 맵 기억부와,
    상기 환경 맵 기억부에 기억되어 있는 상기 환경 맵에 포함되는 물체들 중, 상기 물체 식별 데이터에 기초하여 조작가능하다고 인식되는 적어도 하나의 물체를, 유저에 의한 조작 대상의 후보인 후보 물체로서 선택하는 선택부
    를 포함하는, 화상 처리 장치.
  2. 제1항에 있어서,
    상기 선택부에 의해 선택된 상기 후보 물체의 화면 상의 위치를 유저가 인식할 수 있도록 하는 출력 화상을 상기 입력 화상으로부터 생성하고, 생성된 상기 출력 화상을 표시 장치에 출력하는 화상 출력부를 더 포함하는, 화상 처리 장치.
  3. 제2항에 있어서,
    상기 환경 맵 기억부는 또한 상기 입력 화상 및 상기 특징 데이터에 기초하여 결정되는 상기 촬상 장치의 위치를 나타내는 촬상 위치 데이터를 기억하고,
    상기 출력 화상 내의 각 후보 물체의 위치는 상기 환경 맵 기억부에 기억되어 있는 상기 환경 맵 및 상기 촬상 위치 데이터에 기초하여 계산되는, 화상 처리 장치.
  4. 제2항에 있어서,
    상기 후보 물체들 중 조작해야 할 물체를 유저가 지정할 수 있게 하는 유저 인터페이스를 더 포함하는, 화상 처리 장치.
  5. 제4항에 있어서,
    상기 유저 인터페이스는 상기 후보 물체들 중 유저 입력이 검지되었을 때 상기 출력 화상의 중앙 또는 상기 중앙의 근방에 위치하고 있는 물체를 상기 조작해야 할 물체로서 결정하는, 화상 처리 장치.
  6. 제5항에 있어서,
    상기 유저 인터페이스는, 상기 후보 물체들 중 유저 입력이 검지되었을 때 복수의 상기 후보 물체가 상기 출력 화상의 중앙에 위치하고 있을 경우에, 상기 출력 화상 내에서 크기가 가장 작은 상기 후보 물체를 상기 조작해야 할 물체로서 결정하는, 화상 처리 장치.
  7. 제2항에 있어서,
    상기 특징 데이터는 각 물체의 3차원 형상을 나타내는 형상 데이터를 포함하고,
    상기 화상 출력부는 상기 화면 상에서 각 후보 물체를 둘러싸는 프레임을 상기 형상 데이터에 기초하여 생성하고, 생성된 상기 프레임을 상기 입력 화상에 중첩함으로써 상기 출력 화상을 생성하는, 화상 처리 장치.
  8. 제2항에 있어서,
    상기 촬상 장치와 상기 표시 장치를 더 포함하고,
    상기 촬상 장치의 촬상면과 상기 표시 장치의 화면은 서로 반대 방향을 향하도록 배치되는, 화상 처리 장치.
  9. 유저에 의해 조작가능한 물체를 식별하기 위한 물체 식별 데이터 및 각 물체의 외관의 특징을 나타내는 특징 데이터를 기억하고 있는 데이터 기억부를 포함하는 화상 처리 장치에서의 화상 처리 방법으로서,
    실공간 내에 존재하는 하나 이상의 물체의 위치를 표현하는 환경 맵을, 촬상 장치를 이용하여 상기 실공간을 촬영하여 얻어지는 입력 화상 및 상기 데이터 기억부에 의해 기억되어 있는 상기 특징 데이터에 기초하여 생성하는 스텝과,
    생성된 상기 환경 맵에 포함되는 물체들 중, 상기 물체 식별 데이터에 기초하여 조작가능하다고 인식되는 적어도 하나의 물체를, 유저에 의한 조작 대상의 후보인 후보 물체로서 선택하는 스텝
    을 포함하는, 화상 처리 방법.
  10. 유저에 의해 조작가능한 물체를 식별하기 위한 물체 식별 데이터 및 각 물체의 외관의 특징을 나타내는 특징 데이터를 기억하고 있는 데이터 기억부를 포함하는 화상 처리 장치를 제어하는 컴퓨터를,
    실공간 내에 존재하는 하나 이상의 물체의 위치를 표현하는 환경 맵을, 촬상 장치를 이용하여 상기 실공간을 촬영하여 얻어지는 입력 화상 및 상기 데이터 기억부에 의해 기억되어 있는 상기 특징 데이터에 기초하여 생성하는 환경 맵 생성부와,
    상기 환경 맵 생성부에 의해 생성되는 상기 환경 맵에 포함되는 물체들 중, 상기 물체 식별 데이터에 기초하여 조작가능하다고 인식되는 적어도 하나의 물체를, 유저에 의한 조작 대상의 후보인 후보 물체로서 선택하는 선택부
    로서 기능시키기 위한, 프로그램.
KR20110000456A 2010-01-12 2011-01-04 화상 처리 장치, 화상 처리 방법 및 프로그램 KR20110083509A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010004170A JP5617246B2 (ja) 2010-01-12 2010-01-12 画像処理装置、物体選択方法及びプログラム
JPJP-P-2010-004170 2010-01-12

Publications (1)

Publication Number Publication Date
KR20110083509A true KR20110083509A (ko) 2011-07-20

Family

ID=43987556

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20110000456A KR20110083509A (ko) 2010-01-12 2011-01-04 화상 처리 장치, 화상 처리 방법 및 프로그램

Country Status (5)

Country Link
US (8) US8345925B2 (ko)
EP (1) EP2343882B1 (ko)
JP (1) JP5617246B2 (ko)
KR (1) KR20110083509A (ko)
CN (1) CN102129290B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150014618A (ko) * 2013-07-30 2015-02-09 삼성전자주식회사 타겟 장치의 위치를 결정하기 위한 방법 및 그 전자 장치

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101219933B1 (ko) * 2010-09-13 2013-01-08 현대자동차주식회사 증강현실을 이용한 차량 내 디바이스 제어 시스템 및 그 방법
JP5731272B2 (ja) * 2011-05-09 2015-06-10 双葉電子工業株式会社 被操縦体の無線操縦装置
JPWO2013136702A1 (ja) * 2012-03-12 2015-08-03 パナソニックIpマネジメント株式会社 無線通信装置、無線通信方法、および無線通信制御プログラム
JP2013191163A (ja) * 2012-03-15 2013-09-26 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
JP2013205983A (ja) * 2012-03-27 2013-10-07 Sony Corp 情報入力装置及び情報入力方法、並びにコンピューター・プログラム
US9218526B2 (en) * 2012-05-24 2015-12-22 HJ Laboratories, LLC Apparatus and method to detect a paper document using one or more sensors
JP5550124B2 (ja) 2012-08-17 2014-07-16 Necシステムテクノロジー株式会社 入力装置、機器、入力方法およびプログラム
KR101921610B1 (ko) * 2012-08-31 2018-11-23 에스케이 텔레콤주식회사 촬영영상으로부터 객체를 감시하기 위한 장치 및 방법
JP2014053667A (ja) * 2012-09-05 2014-03-20 Sony Corp 情報処理装置、情報処理システム、情報処理方法及びプログラム
WO2014050989A1 (ja) 2012-09-28 2014-04-03 シャープ株式会社 画像復号装置
US10824313B2 (en) * 2013-04-04 2020-11-03 P.J. Factory Co., Ltd. Method and device for creating and editing object-inserted images
US20140320387A1 (en) * 2013-04-24 2014-10-30 Research In Motion Limited Device, System and Method for Generating Display Data
US10025378B2 (en) * 2013-06-25 2018-07-17 Microsoft Technology Licensing, Llc Selecting user interface elements via position signal
JP2015049372A (ja) * 2013-09-02 2015-03-16 有限会社Bruce Interface 外国語学習支援装置及び外国語学習支援プログラム
CN105005145B (zh) * 2015-08-03 2018-02-09 众景视界(北京)科技有限公司 智能眼镜及智能眼镜的外接设备
US9881191B2 (en) * 2015-12-14 2018-01-30 Leadot Innovation, Inc. Method of controlling operation of cataloged smart devices
CN106997236B (zh) * 2016-01-25 2018-07-13 亮风台(上海)信息科技有限公司 基于多模态输入进行交互的方法和设备
WO2018047458A1 (ja) * 2016-09-07 2018-03-15 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
EP3343473A1 (en) * 2017-01-03 2018-07-04 Samsung Electronics Co., Ltd. Food storage apparatus and control method thereof
CN110800314B (zh) 2017-04-28 2022-02-11 株式会社OPTiM 计算机系统、远程操作通知方法以及记录介质
CN110293554A (zh) * 2018-03-21 2019-10-01 北京猎户星空科技有限公司 机器人的控制方法、装置和系统
JP7139762B2 (ja) * 2018-07-31 2022-09-21 カシオ計算機株式会社 自律移動装置、自律移動方法及びプログラム
JP7215485B2 (ja) * 2018-08-23 2023-01-31 日本電気株式会社 物体照合装置
US11445107B2 (en) 2019-08-08 2022-09-13 Qorvo Us, Inc. Supervised setup for control device with imager
CN110706147B (zh) * 2019-09-29 2023-08-11 阿波罗智联(北京)科技有限公司 图像处理的环境确定方法、装置、电子设备和存储介质
EP3842911B1 (en) * 2019-12-26 2023-04-05 Dassault Systèmes A 3d interface with an improved object selection
JP7321459B2 (ja) * 2020-03-19 2023-08-07 日本電信電話株式会社 携帯端末、操作方法、及びプログラム
CN114527899B (zh) * 2020-10-30 2024-05-24 北京中地泓科环境科技有限公司 基于图件显示环境信息的方法
EP4016111A1 (en) * 2020-12-16 2022-06-22 Trimble Inc. Methods for geospatial positioning and portable positioning devices thereof
US11335091B1 (en) 2020-12-22 2022-05-17 Sony Group Corporation Enabling a device with camera and display to control other devices (universal remote control app)
US11879231B2 (en) 2021-04-19 2024-01-23 Deere & Company System and method of selective automation of loading operation stages for self-propelled work vehicles
US12071746B2 (en) 2021-05-12 2024-08-27 Deere & Company System and method for assisted positioning of transport vehicles relative to a work machine during material loading
US11965308B2 (en) 2021-05-12 2024-04-23 Deere & Company System and method of truck loading assistance for work machines
US11953337B2 (en) 2021-05-12 2024-04-09 Deere & Company System and method for assisted positioning of transport vehicles for material discharge in a worksite
US11966220B2 (en) 2021-05-25 2024-04-23 Deere & Company Method and user interface for selectively assisted automation of loading operation stages for work vehicles
US20230168786A1 (en) * 2021-11-30 2023-06-01 Verizon Patent And Licensing Inc. Methods and Systems for Location-Based Accessing of Predesignated Data Payloads Using Extended Reality

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5887216A (en) * 1997-03-19 1999-03-23 Ricoh Company, Ltd. Method and system to diagnos a business office device based on operating parameters set by a user
US6968375B1 (en) * 1997-03-28 2005-11-22 Health Hero Network, Inc. Networked system for interactive communication and remote monitoring of individuals
JP2973311B1 (ja) 1998-06-03 1999-11-08 日本電気株式会社 リモコン装置
US6848104B1 (en) * 1998-12-21 2005-01-25 Koninklijke Philips Electronics N.V. Clustering of task-associated objects for effecting tasks among a system and its environmental devices
US8055752B1 (en) * 1999-11-16 2011-11-08 Ricoh Company, Ltd. Application unit monitoring and reporting system and method with usage data logged into a map structure
US7174512B2 (en) * 2000-12-01 2007-02-06 Thomson Licensing S.A. Portal for a communications system
JP3811025B2 (ja) * 2001-07-03 2006-08-16 株式会社日立製作所 ネットワーク・システム
KR100441605B1 (ko) * 2001-10-17 2004-07-23 삼성전자주식회사 원격제어장치, 원격제어가능한 전자기기, 전자기기의원격제어시스템 및 전자기기의 원격제어방법
US7145478B2 (en) * 2002-12-17 2006-12-05 Evolution Robotics, Inc. Systems and methods for controlling a density of visual landmarks in a visual simultaneous localization and mapping system
JP4281400B2 (ja) * 2003-04-14 2009-06-17 ソニー株式会社 通信装置、その表示方法、コンピュータプログラム、および通信方法
CN2626745Y (zh) * 2003-05-21 2004-07-21 任宗勇 热驱动叶片旋转装饰物
JPWO2004106009A1 (ja) * 2003-06-02 2006-07-20 松下電器産業株式会社 物品取扱いシステムおよび物品取扱いサーバ
KR20060125735A (ko) * 2003-11-04 2006-12-06 코닌클리케 필립스 일렉트로닉스 엔.브이. 터치 스크린을 구비한 범용 원격 제어 장치
KR100703692B1 (ko) * 2004-11-03 2007-04-05 삼성전자주식회사 공간상에 존재하는 오브젝트들을 구별하기 위한 시스템,장치 및 방법
US7720436B2 (en) * 2006-01-09 2010-05-18 Nokia Corporation Displaying network objects in mobile devices based on geolocation
WO2007004134A2 (en) * 2005-06-30 2007-01-11 Philips Intellectual Property & Standards Gmbh Method of controlling a system
US7558950B2 (en) * 2005-10-27 2009-07-07 Sony Ericsson Mobile Communications Ab Methods of configuring an electronic device to be operable with an electronic apparatus based on automatic identification thereof and related devices
JP2007243726A (ja) * 2006-03-09 2007-09-20 Fujifilm Corp 遠隔制御装置、方法およびシステム
JP4789745B2 (ja) * 2006-08-11 2011-10-12 キヤノン株式会社 画像処理装置および方法
JP2008067219A (ja) * 2006-09-08 2008-03-21 Sony Corp 撮像装置、撮像方法
US8089455B1 (en) * 2006-11-28 2012-01-03 Wieder James W Remote control with a single control button
JP5380789B2 (ja) * 2007-06-06 2014-01-08 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP4569613B2 (ja) * 2007-09-19 2010-10-27 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
WO2009038149A1 (ja) * 2007-09-20 2009-03-26 Nec Corporation 映像提供システム、および映像提供方法
JP2009105574A (ja) * 2007-10-22 2009-05-14 Sony Corp テレビジョン放送受信システム
JPWO2009110204A1 (ja) * 2008-03-05 2011-07-14 パナソニック株式会社 機器選択制御装置
JP5292937B2 (ja) 2008-06-18 2013-09-18 富士通モバイルコミュニケーションズ株式会社 情報処理装置
KR101657565B1 (ko) * 2010-04-21 2016-09-19 엘지전자 주식회사 증강 원격제어장치 및 그 동작 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150014618A (ko) * 2013-07-30 2015-02-09 삼성전자주식회사 타겟 장치의 위치를 결정하기 위한 방법 및 그 전자 장치

Also Published As

Publication number Publication date
US20150189216A1 (en) 2015-07-02
JP5617246B2 (ja) 2014-11-05
US8548199B2 (en) 2013-10-01
CN102129290B (zh) 2014-06-25
US8345925B2 (en) 2013-01-01
US9778735B2 (en) 2017-10-03
US20160170479A1 (en) 2016-06-16
US10908676B2 (en) 2021-02-02
EP2343882A3 (en) 2013-01-23
US20110170742A1 (en) 2011-07-14
JP2011146796A (ja) 2011-07-28
US10386917B2 (en) 2019-08-20
CN102129290A (zh) 2011-07-20
US20140003667A1 (en) 2014-01-02
US20140177917A1 (en) 2014-06-26
EP2343882A2 (en) 2011-07-13
US20190346914A1 (en) 2019-11-14
EP2343882B1 (en) 2018-03-14
US9014431B2 (en) 2015-04-21
US20130064429A1 (en) 2013-03-14
US8744130B2 (en) 2014-06-03
US9288423B2 (en) 2016-03-15
US20180018013A1 (en) 2018-01-18

Similar Documents

Publication Publication Date Title
JP5617246B2 (ja) 画像処理装置、物体選択方法及びプログラム
US10733807B2 (en) Display control device, display control method, and recording medium
JP3926837B2 (ja) 表示制御方法および装置、プログラム、並びに携帯機器
US9646384B2 (en) 3D feature descriptors with camera pose information
JP5423406B2 (ja) 情報処理装置、情報処理システム及び情報処理方法
CN104471511B (zh) 识别指点手势的装置、用户接口和方法
US20120075343A1 (en) Augmented reality (ar) system and method for tracking parts and visually cueing a user to identify and locate parts in a scene
CN107004279A (zh) 自然用户界面相机校准
JP5488011B2 (ja) 通信制御装置、通信制御方法及びプログラム
JP2011203823A (ja) 画像処理装置、画像処理方法及びプログラム
JP2016502712A (ja) 単眼視覚slamのための高速初期化
US11991477B2 (en) Output control apparatus, display terminal, remote control system, control method, and non-transitory computer-readable medium
KR100957575B1 (ko) 단말기의 움직임 또는 자세에 기초하여 비주얼 서치를 수행하기 위한 방법, 단말기 및 컴퓨터 판독 가능한 기록 매체
JP2011203824A (ja) 画像処理装置、画像処理方法及びプログラム
KR101256046B1 (ko) 공간 제스처 인식을 위한 신체 트래킹 방법 및 시스템
CN118339424A (zh) 用于真实世界测绘的物体和相机定位系统以及定位方法
JP6358996B2 (ja) 警備シミュレーション装置
JP6358998B2 (ja) 警備シミュレーション装置

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid