KR20120056353A

KR20120056353A - 복수개의 이종 이미지 센서를 이용하는 멀티미디어 디바이스 및 그 제어 방법

Info

Publication number: KR20120056353A
Application number: KR1020100117833A
Authority: KR
Inventors: 임경영; 강민구; 조용원
Original assignee: 엘지전자 주식회사
Priority date: 2010-11-25
Filing date: 2010-11-25
Publication date: 2012-06-04
Also published as: KR101759936B1

Abstract

본 발명의 일실시예에 의한 복수개의 이종 이미지 센서를 이용하는 멀티미디어 디바이스의 제어 방법은, 상기 복수개의 이종 이미지 센서 중 제1이미지 센서를 이용하여, 상기 멀티미디어 디바이스의 주변에 위치한 적어도 하나 이상의 사용자의 제1신체 영역 및 제2신체 영역을 트래킹 하는 단계와, 상기 복수개의 이종 이미지 센서 중 제2이미지 센서를 이용하여, 상기 트래킹된 제1신체 영역을 클로즈 업 하여 촬영하는 단계와, 상기 제2이미지 센서에 의해 촬영된 제1신체 영역의 이미지 데이터를 화상 전화 서비스의 상대방 디바이스에 전송하는 단계와, 그리고 상기 제2신체 영역의 트래킹 결과에 기초하여, 상기 멀티미디어 디바이스의 화상 전화 서비스의 적어도 하나 이상의 기능을 제어하는 단계를 포함한다.

Description

복수개의 이종 이미지 센서를 이용하는 멀티미디어 디바이스 및 그 제어 방법{MULTIMEDIA DEVICE USING MULTIPLE IMAGE SENSORS HAVING DIFFERENT TYPES AND METHOD FOR CONTROLLING THE SAME}

본 발명은 복수개의 이종 이미지 센서를 이용하는 멀티미디어 디바이스 및 그 제어 방법에 대한 것으로서, 보다 상세하게는 화상 전화 서비스와 관련된 데이터를 처리하는 기술에 대한 것이다.

PC나 노트북 등에 탑재된 카메라를 이용하여 단순히 화상 통화를 하는 기술에 대한 논의는 그 동안 많이 이루어져 왔다. 또한, 최근에는 전기 전자 기술의 급격한 발전으로 사용자들이 원하는 다양한 기능 및 조건을 충족시킬 수 있는 방법들이 논의되고 있다. 나아가, 멀티미디어 장치에 연동되는 카메라 등은 화상 통화라는 종래의 단순한 기능 이외에 다양한 기능으로 활용하기 위한 연구 및 응용이 제안되고 있다. 예컨대, 멀티미디어 장치에 연동되는 카메라를 이용하여 사용자의 얼굴 인지 및 인식 분야, 사용자의 제스처 인식에 따른 멀티미디어 장치 제어 등에 활용하고자 하는 다양한 시도가 이루어지고 있다. 그러나, 기존 카메라를 이용한 사용자의 인지 및 인식에 따른 제어는 멀티미디어 장치가 설치된 환경 및 사용자의 예상치 못한 움직임 등으로 인해 요구되는 수준의 인지 및 인식이 되지 않는 경우가 발생하는 문제점이 있다.

또한, 종래 기술에 의하면 고정된 화면만을 제공하는 화상 통화 기법만이 사용되고 있는 한계가 있었다.

본 발명의 일실시예는, 복수 개의 이종 이미지 센서를 사용하여 멀티미디어 장치 주변에 위치한 사용자들을 보다 정확하게 인지 및 인식하는 솔루션을 제공하고자 한다.

또한, 본 발명의 다른 일실시예는, 멀티미디어 장치에 연동되는 카메라가 제공하는 인지 및 인식 과정에서 발생하는 문제점들을 개선함으로써, 인지 및 인식 거리 및 성능을 동시에 제고할 수 있는 설계 방법을 제공하고자 한다.

그리고, 본 발명의 또 다른 일실시예는, 화상 전화 서비스를 구현하는 과정에서 사용자의 의도 및 제스처 등을 보다 정확하게 디텍트할 수 있는 프로토콜을 정의하고자 한다.

그리고, 본 발명의 일실시예에 의한 복수개의 이종 이미지 센서를 이용하는 멀티미디어 디바이스는, 상기 멀티미디어 디바이스의 주변에 위치한 적어도 하나 이상의 사용자의 제1신체 영역 및 제2신체 영역을 트래킹 하는 제1이미지 센서와, 상기 트래킹된 제1신체 영역을 클로즈 업 하여 촬영하는 제2이미지 센서와, 상기 제2이미지 센서에 의해 촬영된 제1신체 영역의 이미지 데이터를 화상 전화 서비스의 상대방 디바이스에 전송하는 네트워크 인터페이스와, 그리고 상기 제2신체 영역의 트래킹 결과에 기초하여, 상기 멀티미디어 디바이스의 화상 전화 서비스의 적어도 하나 이상의 기능을 제어하는 컨트롤러를 포함한다.

본 발명의 일실시예에 의하면, 복수 개의 이종 이미지 센서를 사용하여 멀티미디어 장치 주변에 위치한 사용자들을 보다 정확하게 식별하는 솔루션을 제공한다.

또한, 본 발명의 다른 일실시예에 의하면, 멀티미디어 장치에 연동되는 카메라가 제공하는 인지 및 인식 과정에서 발생하는 문제점들을 개선함으로써, 인지 및 인식 거리 및 성능을 동시에 제고할 수 있는 설계 방법을 제공한다.

그리고, 본 발명의 또 다른 일실시예에 의하면, 화상 전화 서비스를 구현하는 과정에서 사용자의 의도 및 제스처 등을 보다 정확하게 디텍트할 수 있는 프로토콜을 정의한다.

보다 구체적인 발명의 효과에 대해서는, 이하 목차에서 상세히 후술하도록 하겠다.

도 1은 본 발명의 일실시예에 따른 멀티미디어 장치를 포함한 전체 시스템의 일예를 개략적으로 나타낸 도면이다.
도 2는 도 1에 도시된 멀티미디어 장치의 일예를 보다 상세히 도시한 도면이다.
도 3은 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서를 이용하는 멀티미디어 장치 및 촬영 화면을 동시에 보여 주는 도면이다.
도 4는 본 발명의 일실시예에 의한 복수개의 이종 이미지 센서 및 멀티미디어 장치에서 검출 데이터(detection data) 및 인식 데이터(recognition data) 를 이용하는 과정을 설명하기 위한 도면이다.
도 5는 도 4에 도시된 데이터 베이스에 저장된 face vector 를 예시하여 설명하기 위한 도면이다.
도 6은 본 발명의 일실시예에 따른, 멀티미디어 디바이스와 연결된 복수개의 이종 이미지 센서의 동작을, 하드웨어 영역 및 소프트웨어 영역으로 나누어 설명하기 위한 도면이다.
도 7은 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서 및 멀티미디어 장치를 각각 도시한 도면이다.
도 8은 본 발명의 다른 일실시예에 의한 복수 개의 이종 이미지 센서 및 멀티미디어 장치를 각각 도시한 도면이다.
도 9는 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서를 보다 상세히 도시한 도면이다.
도 10은 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서 중 제1 이미지 센서의 일예를 도시한 도면이다.
도 11은 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서 중 제1 이미지센서의 다른 일예를 도시한 도면이다.
도 12는 도 11에 도시된 제1 이미지 센서를 이용하여 거리를 계산하는 방법을 설명하기 위한 도면이다.
도 13은 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서 중 제1 이미지 센서에 의해 촬영된 이미지를 도시한 도면이다.
도 14는 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서 중 제2 이미지센서에 의해 촬영된 이미지를 도시한 도면이다.
도 15는 본 발명의 일실시예에 의한 멀티미디어 디바이스를 보다 상세히 도시한 도면이다.
도 16은 본 발명의 일실시예에 의한 멀티미디어 디바이스가 복수개의 이종 이미지 센서를 이용하여 사용자의 특정 신체 부위를 디텍트하는 장면을 도시한 도면이다.
도 17은 화상 전화 서비스를 이용하는 과정에서 본 발명의 일실시예에 의한 멀티미디어 디바이스 및 상대방 디바이스의 화면 구성의 제1실시예를 도시한 도면이다.
도 18은 화상 전화 서비스를 이용하는 과정에서 본 발명의 일실시예에 의한 멀티미디어 디바이스 및 상대방 디바이스의 화면 구성의 제2실시예를 도시한 도면이다.
도 19는 도 18에 도시된 멀티미디어 디바이스의 데이터베이스를 설명하기 위한 도면이다.
도 20은 화상 전화 서비스를 이용하는 과정에서 본 발명의 일실시예에 의한 멀티미디어 디바이스 및 상대방 디바이스의 화면 구성의 제3실시예를 도시한 도면이다.
도 21 내지 도 25는 화상 전화 서비스를 이용하는 과정에서 본 발명의 일실시예에 의한 멀티미디어 디바이스 및 상대방 디바이스의 화면 구성의 제4실시예를 설명하기 위한 도면들이다.
그리고, 도 26은 본 발명의 일실시예에 의한 멀티미디어 디바이스의 제어 방법을 도시한 플로우 차트이다.

이하에서는 첨부된 도면을 참조하여 본 발명의 여러가지 실시예들을 보다 상세히 설명하도록 하겠다. 나아가, 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 단순히 본 명세서 작성의 용이함을 고려하여 부여되는 것으로서, 상기 "모듈" 및 "부"는 서로 혼용되어 사용될 수 있으며, 하드웨어 또는 소프트웨어로 설계 가능하다.

한편, 본 명세서에서 기술되는 멀티미디어 장치는, 예컨대 방송 데이터를 수신하여 처리하는 여러가지 타입의 디바이스들에 해당한다. 나아가 상기 멀티미디어 장치는 Connected TV에 대응할 수도 있으며, 상기 Connected TV는 방송 수신 기능 뿐만 아니라 유무선 통신 장치 등이 추가되어, 수기 방식의 입력 장치, 터치 스크린 또는 모션(motion) 인식 리모콘 등 보다 사용에 편리한 인터페이스를 가질 수 있다. 그리고, 유선 또는 무선 인터넷 기능의 지원으로 인터넷 및 컴퓨터에 접속되어, 이메일, 웹브라우징, 뱅킹 또는 게임 등의 기능도 수행가능하다. 이러한 다양한 기능을 위해 표준화된 범용 OS가 사용될 수도 있다.

따라서, 상기 Connected TV는, 예를 들어 범용의 OS 커널 상에, 다양한 애플리케이션이 자유롭게 추가되거나 삭제 가능하므로, 사용자 친화적인 다양한 기능이 수행될 수 있다. 상기 Connected TV는, 보다 구체적으로 예를 들면, 웹 TV, 인터넷 TV, HBBTV, 스마트 TV, DTV 등이 될 수 있으며, 경우에 따라 스마트폰에도 적용 가능하다.

나아가, 이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시예를 상세하게 설명하지만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다.

본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당분야에 종사하는 기술자의 의도 또는 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 가지는 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.

도 1은 본 발명의 일실시예에 따른 멀티미디어 장치를 포함한 전체 방송 시스템의 일예를 개략적으로 나타낸 도면이다. 도 1의 멀티미디어 장치는 예컨대 Connected TV에 대응할 수도 있으나, 본 발명의 권리범위가 Connected TV 만으로 한정되는 것은 아니며 본 발명의 권리범위는 원칙적으로 특허청구범위에 의해 정해져야 한다.

도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 멀티미디어 장치를 포함한 전체 시스템은, 컨텐츠 제공자(Content Provider;CP)(10), 서비스 제공자(Service Provider;SP)(20), 네트워크 제공자(Network Provider; NP)(30) 및 HNED(40)로 구분될 수 있다. 상기 HNED(40) 는, 예를 들어 본 발명의 실시예에 따른 멀티미디어 장치인 클라이언트(100)에 대응한다.

컨텐츠 제공자(10)는, 각종 컨텐츠를 제작하여 제공한다. 컨텐츠 제공자(10)에는 도 1에서와 같이 지상파 방송 송출자(terrestrial broadcaster), 케이블 방송 사업자(cable SO(System Operator) 또는 MSO(Multiple System Operator), 위성 방송 송출자(satellite broadcaster), 인터넷 방송 송출자(Internet broadcaster) 등이 예시될 수 있다. 또한, 컨텐츠 제공자(10)는, 방송 컨텐츠 외에, 다양한 애플리케이션 등을 제공할 수도 있다.

서비스 제공자(20)는, 컨텐츠 제공자(10)가 제공하는 컨텐츠들을 서비스 패키지화하여 제공할 수 있다. 예를 들어, 도 1의 서비스 제공자(20)는, 제1 지상파 방송, 제2 지상파 방송, 케이블 MSO, 위성 방송, 다양한 인터넷 방송, 애플리케이션 등을 패키지화하여 사용자에게 제공할 수 있다.

네트워크 제공자(30)는, 서비스를 클라이언트(100)에게 제공하기 위한 네트워크 망을 제공할 수 있다. 클라이언트(100)는 홈 네트워크(Home Network End User;HNED)를 구축하여 서비스를 제공받을 수도 있다.

한편, 클라이언트(100)도 네트워크를 통해, 컨텐츠를 제공하는 것이 가능하다. 이러한 경우, 상술한 바와 달리, 역으로, 클라이언트(100)가 컨텐츠 제공자가 될 수 있으며, 컨텐츠 제공자(10)가 클라이언트(100)로부터 컨텐츠를 수신할 수도 있다. 이와 같이 설계된 경우, 양방향 컨텐츠 서비스 또는 데이터 서비스가 가능한 장점이 있다.

도 2는 도 1에 도시된 멀티미디어 장치의 일예를 보다 상세히 도시한 도면이다.

본 발명의 일실시예에 의한 멀티미디어 장치(200)는, 네트워크 인터페이스부(Network Interface)(201), TCP/IP 매니저(TCP/IP Manager)(202), 서비스 전달 매니저(Service Delivery Manager)(203), 디멀티플렉서(Demux)(205), PSI&(PSIP and/or SI) 디코더(204), 오디오 디코더(Audio Decoder)(206), 비디오 디코더(Video Decoder)(207), 디스플레이부(Display A/V and OSD Module)(208), 서비스 제어 매니저(Service Control Manager)(209), 서비스 디스커버리 매니저(Service Discovery Manager)(210), 메타데이터 매니저(Metadata Manager)(212), SI&Metadata DB(211), UI 매니저(214), 그리고 서비스 매니저(213) 등을 포함하여 이루어 진다. 나아가, 복수개의 이종 이미지 센서(260)가 상기 멀티미디어 장치(200)와 연결되어 있으며, 예를 들어 USB 방식의 커넥션으로 연결되어 있다. 또한, 도 2에서는 상기 복수개의 이종 이미지 센서(260)가 별도의 모듈로 구성되도록 설계하였으나, 상기 복수개의 이종 이미지 센서(260)가 상기 멀티미디어 장치(200)에 하우징(housing) 된 형태로 설계할 수도 있다.

네트워크 인터페이스부(201)는 네트워크 망으로부터 수신되는 패킷(packet)들을 수신하고, 네트워크 망으로 패킷을 전송한다. 즉 네트워크 인터페이스부(201)는 네트워크 망을 통해 서비스 제공자로부터 서비스, 컨텐츠 등을 수신한다.

TCP/IP 매니저(202)는, 멀티미디어 장치(200)로 수신되는 패킷과 멀티미디어 장치(200)가 전송하는 패킷에 대하여, 즉 소스로부터 목적지까지의 패킷 전달에 관여한다. 서비스 전달 매니저(203)는 수신되는 서비스 데이터의 제어를 담당한다. 예를 들어, 실시간 스트리밍(real-time streaming) 데이터를 제어하는 경우 RTP/RTCP를 사용할 수 있다. 상기 실시간 스트리밍 데이터를 RTP를 사용하여 전송하는 경우, 상기 서비스 전달 매니저(203)는 상기 수신된 데이터 패킷을 RTP에 따라 파싱(parsing)하여 디멀티플렉서(205)에 전송하거나 서비스 매니저(213)의 제어에 따라 SI&Metadata DB(711)에 저장한다. 그리고 RTCP를 이용하여 상기 네트워크 수신 정보를 서비스를 제공하는 서버측에 피드백(feedback)한다.

디멀티플렉서(205)는 수신된 패킷을 오디오, 비디오, PSI(Program Specific Information) 데이터 등으로 역다중화하여 각각 오디오/비디오 디코더(206, 207), PSI&(PSIP and/or SI) Decoder(204)에 전송한다.

PSI&(PSIP and/or SI) Decoder(204)는 상기 디멀티플렉서(205)에서 역다중화된 PSI 섹션, PSIP(Program and Service Information Protocol) 섹션 또는 SI(Service Information) 섹션 등을 수신하여 디코딩한다.

또한 상기 PSI&(PSIP and/or SI) Decoder(204)는 상기 수신된 섹션들을 디코딩하여 서비스 정보에 관한 데이터베이스를 만들고, 상기 서비스 정보에 관한 데이터베이스는 SI&Metadata DB(211)에 저장한다.

오디오/비디오 디코더(206/207)는, 상기 디멀티플렉서(205)에서 수신된 비디오 데이터와 오디오 데이터를 디코딩한다.

UI 매니저(214)는 사용자를 위한 GUI(Graphic User Interface)를 OSD(On Screen Display) 등을 이용하여 제공하며, 사용자로부터 키 입력을 받아 상기 입력에 따른 수신기 동작을 수행한다. 예를 들어, 사용자로부터 채널선택에 관한 키 입력을 받으면 상기 키 입력신호를 서비스 매니저(213)에 전송한다.

서비스 매니저(213)는 서비스 전달 매니저(203), 서비스 디스커버리 매니저(210), 서비스 제어 매니저(209) 및 메타데이터 매니저(212) 등 서비스와 연관된 매니저를 제어한다.

또한 서비스 매니저(213)는 채널 맵(Channel Map)을 만들고 상기 유저 인터페이스 매니저(214)로부터 수신한 키 입력에 따라 상기 채널 맵을 이용하여 채널을 선택하다. 서비스 디스커버리 매니저(210)는 서비스를 제공하는 서비스 제공자를 선택하는데 필요한 정보를 제공한다. 상기 서비스 매니저(213)로부터 채널선택에 관한 신호를 수신하면, 서비스 디스커버리 매니저(210)는 상기 정보를 이용하여 서비스를 찾는다.

서비스 제어 매니저(209)는 서비스의 선택과 제어를 담당한다. 예를 들어, 사용자가 기존의 방송방식과 같은 Live Broadcasting 서비스를 선택하는 경우 IGMP 또는 RTSP 등을 사용하고, VOD(Video On Demand)와 같은 서비스를 선택하는 경우에는 RTSP를 사용하여 서비스의 선택, 제어를 수행한다. 메타데이터 매니저(212)는 서비스와 연관된 메타데이터를 관리하고 상기 메타데이터를 SI&Metadata DB(211)에 저장한다.

SI&Metadata DB(211)는 PSI&(PSIP and/or SI) Decoder(204)가 디코딩한 서비스 정보, 메타데이터 매니저(212)가 관리하는 메타데이터 및 서비스 디스커버리 매니저(210)가 제공하는 서비스 제공자를 선택하는데 필요한 정보를 저장한다. 또한 SI&Metadata DB(211)는 시스템에 대한 셋업 데이터 등을 저장할 수 있다.

한편, 상기 IG(250)는, IMS 기반의 IPTV 서비스에 접근하기 위해 필요한 기능들을 모아 놓은 게이트웨이 이다.

그리고, 도 2에 도시된 복수개의 이종 이미지 센서(260)는 상기 멀티미디어 장치(200) 주변에 위치한 사람 또는 사물에 대한 단수의 이미지 또는 복수의 이미지들을 촬영하도록 설계된다. 보다 구체적으로 예를 들면, 상기 복수개의 이종 이미지 센서(260)는 단수의 이미지 또는 복수의 이미지들을 연속적으로, 주기적으로, 선택된 시간에, 또는 특정 컨디션에서만 동작하도록 설계된다. 이에 대한 구체적인 설명은 이하에서 설명하도록 하겠다.

도 3은 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서를 이용하는 멀티미디어 장치 및 촬영 화면을 동시에 보여 주는 도면이다. 이하, 도 3을 참조하여, 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서를 이용하는 멀티미디어 장치 및 촬영 화면을 동시에 설명하면 다음과 같다.

일반적으로, depth data 처리와 관련된 제1 이미지 센서들은 제한된 해상도(예를 들어, 최대 VGA 급)와 인식 거리(예를 들어, 3.5m) 문제로 인하여, 원거리 안면 인식에 적합하지 않은 면이 존재한다. 또한, color data 처리와 관련된 제2 이미지 센서들은 인식 속도가 느리며 광조건(light condition)에 강인하지 못한 단점을 가지고 있다. 따라서, 이와 같은 각 이미지 센서들의 단점을 보완하기 위하여, 본 발명의 일실시예에 의한 멀티미디어 장치는 제1 이미지 센서와 제2 이미지 센서가 결합된 하이브리드 형태의 이미지 센서 모듈과 연동되도록 설계한다.

전술한 제1 이미지 센서로, 예를 들어 IR 카메라 또는 depth 카메라가 사용된다. 보다 구체적으로 예를 들면, 상기 IR 카메라 또는 depth 카메라로 TOF(Time Of Flight) 방식과 structured light 방식이 논의되고 있다. 상기 TOF 방식은, 적외선을 방사하여 돌아오는 시간차를 이용하여 거리 정보를 계산하고, 상기 structured light 방식은, 특정 패턴으로 적외선을 방사하고 변형되는 패턴을 분석하여 거리를 계산한다. 다만, 제1 이미지 센서의 경우, depth data 인식 및 처리 속도면에서 장점이 있고 어두운 곳에서도 사물, 사람 등을 용이하게 센싱 가능하다. 그러나, 먼거리에서는 해상도가 떨어지는 단점을 가지고 있다.

나아가, 전술한 제2이미지 센서로, 예를 들어 color 카메라 또는 RGB 카메라가 사용된다. 보다 구체적으로 예를 들면, 상기 color 카메라 또는 RGB 카메라로, stereo 카메라 방식과 mono 카메라 방식이 논의되고 있다. 상기 stereo 카메라 방식은, 두개의 카메라를 통해 촬영된 각각의 이미지 시차 비교 정보에 기초하여, 손 또는 얼굴 등을 검출하고 추적한다. 상기 mono 카메라 방식은, 한 개의 카메라를 통해 촬영된 shape, color 정보를 바탕으로 손 또는 얼굴 등을 검출하고 추적한다. 다만, 제2 이미지 센서의 경우, 제1 이미지 센서에 비해 해상도가 개선된 장점이 있으나, 주위 조명에 취약하고, 어두운 곳에서 인식이 어려운 한계가 있다. 특히, 정확한 depth 인식이 어려운 문제점이 존재한다.

이와 같은 종래 문제점들을 해결하기 위하여, 도 3에 도시된 바와 같이, 본 발명의 일실시예에 의한 멀티미디어 장치는 제1 이미지 센서와 제2 이미지 센서를 모두 구비하도록 설계된다. 다만, 상기 이미지 센서들은 상기 멀티미디어 장치에 embedded 형태로 설계될 수도 있고, 또는 별도의 하드웨어 모듈로 설계하는 것도 가능하다. 우선, 도 3의 (b) 영역에 도시된 바와 같이, 제1 이미지 센서는 상기 멀티미디어 장치 주변에 위치한 사용자들을 포함한 영상을 촬영한다. 구체적인 촬영 영상은 도 3의 (1), (2), (3), (4)에 순차적으로 도시되어 있다.

한편, 제1 이미지 센서의 촬영 및 데이터 분석이 완료되면, 도 3의 (a) 영역에 도시된 바와 같이, 제2 이미지 센서는 특정 사용자의 얼굴에 대한 영상을 촬영한다. 구체적인 촬영 영상은 도 3의 (5), (6), (7)에 순차적으로 도시되어 있다.

본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서 중 제1 이미지 센서는 상기 멀티미디어 장치의 주변에 위치한 제1영상을 촬영하고 상기 촬영된 제1영상으로부터 depth data 를 추출한다. 이는 도 3의 (1)에 도시된 바와 같이, 거리에 따라 각 사물의 영역이 다른 명암으로 표시되도록 설계 가능하다.

나아가, 상기 제1 이미지 센서는, 상기 추출된 depth data 를 이용하여 적어도 하나의 사용자의 얼굴을 인지 및 인식할 수 있다.. 즉, 기저장된 데이터베이스 등을 이용하여, 도 3의 (2)에 도시된 바와 같이 사용자의 신체 정보(예를 들어, 얼굴, 손, 발, 관절, 기타 등등)를 추출하고, 나아가 도 3의 (3)에 도시된 바와 같이 특정 사용자의 안면에 대한 위치 좌표 및 거리 정보를 획득한다. 보다 구체적으로 설명하면, 상기 사용자의 얼굴에 대한 위치 정보인 x, y, z 값들을 계산하도록 설계되며, 상기 x 는 상기 촬영된 제1영상에서 상기 얼굴의 가로축에 대한 위치, 상기 y는 상기 촬영된 제1영상에서 상기 얼굴의 세로축에 대한 위치, 그리고 상기 z는 상기 사용자의 얼굴과 제1 이미지 센서 사이의 거리를 의미한다.

또한, 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서 중 color 이미지를 추출하기 위한 제2 이미지 센서는 상기 인지된 사용자의 얼굴에 대한 제2영상을 촬영하며, 이는 도 3의 (5)에 도시되어 있다.

한편, 도 3에 도시된 제1 이미지 센서)와 제2 이미지 센서()를 인접하여 설계할 경우, physical 위치 차이로 인한 에러는 무시할 만한 수준일 수도 있다. 다만, 본 발명의 또 다른 일실시예에 의하면, 전술한 physical 위치 차이에 대한 정보를 이용하여, 제1 이미지 센서에서 획득한 좌표정보나 거리정보를 보정하고, 제2 이미지 센서가 상기 보정된 좌표정보나 거리정보를 이용하여 사용자를 촬영할 수 있도록 설계된다. 또한, 상기 제1 이미지 센서와 상기 제2 이미지 센서가 지면으로부터 수평한 상태로 설계되어 있다면, 전술한 phisycal 위치 차이에 대한 정보는 수평 프레임을 기준으로 설정될 수가 있다.상기 제2 이미지 센서는, 도 3의 (7)에 도시된 바와 같이 상기 촬영된 제2영상으로부터 특징 정보를 추출한다. 상기 특징 정보는, 예컨대 상기 멀티미디어 장치를 사용하는 복수의 사용자들을 식별하기 위한 특정 부위(예를 들어, 입, 코, 눈 등)에 대응하는 데이터 이다. 나아가, 상기 제2 이미지 센서는, 상기 제1 이미지 센서의 촬영을 통해 얻어진 좌표값(상기 x, y, z 값들)에 기초하여, 상기 사용자의 얼굴에 대한 영역을 줌인할 수도 있다. 이는, 도 3의 (5)에서 (6)으로 전환되는 과정을 의미한다.

상기 제1 이미지 센서 및 상기 제2 이미지 센서의 촬영 및 분석이 완료된 경우, 본 발명의 일실시예에 의한 멀티미디어 장치는, 상기 추출된 특징 정보에 대응하는 데이터를 저장하고 있는 메모리에 액세스 하고, 상기 메모리에 저장된 특정 사용자를 식별하는 정보를 추출한다.

만약, 상기 특정 사용자를 식별하는 정보가 상기 메모리에 존재하는 경우, 상기 멀티미디어 장치는 상기 특정 사용자를 위하여 기설정된 서비스를 제공한다.

반면, 상기 특정 사용자를 식별하는 정보가 상기 메모리에 존재하지 않는 경우, 상기 멀티미디어 장치는 상기 인식된 사용자를 상기 메모리에 저장하기 위한 가이드 메시지를 디스플레이 하도록 설계된다.

전술하여 설명한 바와 같이, 본 발명의 일실시예에 의하면, 제1 이미지 센서가 사용자 위치 정보나 얼굴의 좌표 정보를 디텍트 하고, 제2 이미지 센서는 제1 이미지 센서에서 획득된 데이터를 이용하여 얼굴을 인식하도록 설계된다.

나아가, 본 발명의 다른 일실시예에 의하면, 무조건적으로 제2 이미지 센서를 이용하는 것이 아니라 특정 컨디션에서만 제2 이미지 센서가 동작하도록 설계된다. 예를 들어, 상기 제1 이미지 센서의 동작으로 획득한 사용자와의 거리 정보가 제1기준값 이하인 경우 또는 상기 제1 이미지 센서의 동작으로 획득한 사용자의 얼굴에 대한 인식율이 제2기준값 이상인 경우에는, 상기 제1 이미지 센서만으로 멀티미디어 장치 주변에 위치한 사용자 얼굴을 디텍트(detect) 하고 인식(recoginization)한다. 반면, 상기 제1 이미지 센서의 동작으로 획득한 사용자와의 거리 정보가 제1기준값 초과하는 경우 또는 상기 제1 이미지 센서의 동작으로 획득한 사용자의 얼굴에 대한 인식율이 제2기준값 미만인 경우에는, 상기 제2 이미지 센서를 추가적으로 이용하여 사용자의 얼굴을 인식하도록 설계된다.

그리고, 본 발명의 또 다른 일실시예에 의하면, 상기 제2 이미지 센서가 사용자의 얼굴을 인식하는 과정에서, 상기 제1 이미지 센서를 통해 획득한 거리 정보를 이용하여 줌인을 하고, 상기 제1 이미지 센서를 통해 획득한 얼굴 좌표 정보를 이용하여 얼굴 부분만을 촬영하도록 설계된다.

따라서, 이와 같이 전혀 다른 타입의 복수개의 이종 이미지 센서들을 이용할 경우, 원거리 안면 인식이 가능하고 데이터 처리 속도도 기존 보다 향상되는 본 발명 특유의 효과가 있다.

도 4는 본 발명의 일실시예에 의한 복수개의 이종 이미지 센서 및 멀티미디어 장치에서 검출 데이터(detection data) 및 인식 데이터(recognition data) 를 이용하는 과정을 설명하기 위한 도면이다.

얼굴 검출(face detection)과 얼굴 인식(face recognition)은 다른 프로세스 이다. 상기 얼굴 검출은, 하나의 이미지내 얼굴 영역을 디텍트 하는 프로세스를 포함한다. 반면, 상기 얼굴 인식은, 디텍트된 얼굴이 어떤 특정 사용자에 대응하는지 여부를 인식하는 프로세스이다. 특히, 본 발명의 일실시예에 따라, 제1이미지 센서를 이용하여 얼굴 검출 프로세스를 실행하고, 또한 제2이미지 센서를 이용하여 얼굴 인식 프로세스를 실행하는 과정을 도 4를 참조하여 설명하도록 하겠다.

도 4에 도시된 바와 같이, 본 발명의 일실시예에 의한 멀티미디어 디바이스는 디텍션 모듈(301), 인식 모듈(302), 데이터베이스(303), 제1이미지 센서(304), 제2이미지 센서(305) 등을 포함하며, 필요에 따라 디텍션 데이터(306) 및 인식 데이터(307)를 이용하게 된다. 상기 디텍션 데이터(306)는 예를 들어, 정보 기반(knowledge-based) 검출 기술(detection techniques), 특징 기반(feature-based) 검출 기술(detection techniques), 템플레이트 매칭 기술(template matching techniques), 외관 기반(appearance-based) 검출 기술(detection techniques)에 기초하여 생성될 수도 있다. 또한, 상기 인식 데이터(307)는 예를 들어, 특정 사용자를 식별하기 위한 눈, 코, 입, 턱, 영역, 거리, 모양, 각도 등의 데이터를 포함한다.

나아가, 상기 디텍션 모듈(301)은, 상기 제1이미지 센서(304)로부터 수신된 이미지 데이터를 이용하여사용자 얼굴의 존재를 판단한다. 또한, 사용자의 얼굴이 위치한 영역을 추정하는 과정에서, 전술하여 설명한 정보 기반(knowledge-based) 검출 기술(detection techniques), 특징 기반(feature-based) 검출 기술(detection techniques), 템플레이트 매칭 기술(template matching techniques), 외관 기반(appearance-based) 검출 기술(detection techniques)과 관련된 데이터가 사용된다.

그리고, 상기 인식 모듈(302)은, 상기 제2이미지 센서(305)로부터 수신된 이미지 데이터를 이용하여, 특정 사용자인지 여부를 식별한다. 이 때, 전술하여 설명한 인식 데이터(307)에 기초하여, 상기 수신된 이미지 데이터 및 상기 DB(303)에 저장된 face vector 정보를 비교하게 된다. 이는 도 5를 참조하여 보다 상세히 설명하도록 하겠다.

도 5는 도 4에 도시된 데이터 베이스에 저장된 face vector 를 예시하여 설명하기 위한 도면이다.

도 5에 도시된 바와 같이, 본 발명의 일실시예에 의한 멀티미디어 디바이스를 사용하는 각 유저들에 대한 face vector 들이 저장되어 있다. 상기 face vector 는, 예를 들어 유저들의 얼굴에서 나타나는 특징 정보들에 대한 데이터 집합으로, 특정 유저들 각각을 식별하기 위한 용도로 사용된다.

도 6은 본 발명의 일실시예에 따른, 멀티미디어 디바이스와 연결된 복수개의 이종 이미지 센서의 동작을, 하드웨어 영역 및 소프트웨어 영역으로 나누어 설명하기 위한 도면이다.

도 6에 도시된 바와 같이, 멀티미디어 디바이스가 복수개의 이종 이미지 센서를 통해 영상을 입력 받아 동작을 수행하는 구성은, 이미지 센서의 하드웨어 영역(360) 및 이미지 센서로부터 수신된 데이터를 처리하는 멀티미디어 디바이스의 소프트웨어 영역(350)으로 나누어 설명하도록 하겠다.

도 6에서는, 상기 하드웨어 영역(360)을 별도의 모듈로 도시하였으나, 상기 소프트웨어 영역(350)을 처리하는 멀티미디어 디바이스에 임베디드된 일체형으로 구성할 수도 있다.

먼저, 하드웨어 영역은, 데이터 수집 영역(340) 및 펌웨어 영역(330)을 포함할 수 있다.

상기 데이터 수집 영역(340)은, 이미지 센서를 통하여 멀티미디어 디바이스에서 인식되기 위한 원본 데이터를 입력 받는 영역으로, 적외선 광원(IR light projector), 깊이 이미지센서(depth image sensor), 컬러 이미지 센서(RGB image sensor), 마이크로폰, 및 카메라칩을 포함하여 구성될 수 있다.

또한, 펌웨어 영역(330)은, 하드웨어 영역에 존재하여 동작함으로써, 하드웨어 영역과 소프트웨어 영역의 연결을 구성하는 영역이다. 또한, 특정한 애플리케이션이 필요로 하는 호스트 애플리케이션으로 구성될 수 있고, 다운 샘플링(downsampling) 및 미러링(mirroring)동작 등을 수행할 수 있다.

따라서, 데이터 수집 영역(340) 및 펌웨어 영역(330)은 상호 연동하여 동작하며, 이를 통하여 하드웨어 영역(360)을 컨트롤 할 수 있으다. 또한, 상기 펌웨어 영역은 카메라칩에서 구동될 수 있다.

또한, 소프트웨어 영역(350)은, API(application programming interface)영역(320) 및 미들웨어(middleware) 영역(310)을 포함할 수 있다.

API영역(320)은, 멀티미디어 디바이스의 제어부에서 실행될 수 있다. 또한, 카메라부가 멀티미디어 디바이스와 별도의 외부기기로써 구성되는 경우, 상기 API 영역은, 퍼스널 컴퓨터, 게임콘솔, 및 셋탑박스 등에서 실행될 수 있다.

또한, API영역(320)은 상기 멀티미디어 디바이스가 하드웨어 영역의 센서를 구동시킬 수 있도록 하는 간단한 API일 수 있다.

미들웨어 영역(310)은, 인식 알고리즘 영역으로써, 깊이 프로세싱(depth processiong) 미들웨어를 포함할 수 있다. 또한, 상기 미들웨어는, 사용자가 손을 통하여 제스쳐를 입력하는 경우, 또는 신체 전 영역을 통하여 제스쳐를 입력하는 경우에도 명확한 사용자 컨트롤 API와 함께 애플리케이션을 제공할 수 있다. 또한, 상기 미들웨어 영역은 사용자의 손의 위치 검색하는 동작, 사용자의 위치 추적하는 동작, 사용자 골격의 특징을 추출하는 동작 및, 입력된 영상에서 사용자와 배경을 분리하여 인식하는 동작 등을 수행하기 위한 알고리즘을 포함할 수 있다. 또한, 상기 알고리즘은 하드웨어 영역에서 획득된 깊이(depth) 정보, 색상 정보, 적외선 정보, 및 음성 정보를 활용하여 동작될 수 있다.

도 7은 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서 및 멀티미디어 장치를 각각 도시한 도면이다. 이하, 도 7을 참조하여, 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서 및 멀티미디어 장치를 각각 설명하면 다음과 같다. 다만, 도 7에서는 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서와 멀티미디어 장치를 별개로 도시하였으나, 상기 멀티플 카메라가 상기 멀티미디어 장치에 임베디드(embedded)된 형태로 설계하는 것도 가능하다.

도 7에 도시된 바와 같이 본 발명의 일실시예에 의한 멀티미디어 장치(400)는 CPU(Central Processing Unit)(401) 및 GPU(Graphic Processing Unit)(404)의 모듈로 설계되며, 상기 CPU(401)는 어플리케이션(402) 및 얼굴인식처리 모듈(403)을 포함하고 있다. 한편, 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서(420)는 ASIC(Application Specific Intergrated Circuit)(421), 이미터(422), 제1 이미지 센서(423), 그리고 제2 이미지 센서(424)의 모듈로 설계된다. 그리고, 멀티미디어 장치(400) 및 복수 개의 이종 이미지 센서(420)는 유선 또는 무선의 인터페이스(410)로 연결되어 있으며, 예를 들어 USB (Universal Serial Bus) 인터페이스를 사용할 수도 있다. 다만, 도 7의 모듈들은 일실시예에 불과하며, 본 발명의 권리범위는 원칙적으로 특허청구범위에 의해 정해져야 한다.

상기 이미터(422)는, 상기 멀티미디어 장치(400) 주변에 위치한 적어도 하나 이상의 사용자에게 빛을 발산한다. 나아가, 상기 제1 이미지 센서(423)는, 상기 발산된 빛을 이용하여 제1영상을 촬영하고, 상기 촬영된 제1영상으로부터 depth data 를 추출하고, 상기 추출된 depth data 를 이용하여 상기 적어도 하나 이상의 사용자의 얼굴을 디텍트한다. 또한, 상기 제2 이미지 센서(424)는, 상기 디텍트된 사용자의 얼굴에 대한 제2영상을 촬영하고, 상기 촬영된 제2영상으로부터 특징 정보를 추출한다.

그리고, 상기 추출된 특징 정보는, 상기 인터페이스(410)를 통해 상기 멀티미디어 장치의 얼굴인식처리 모듈(403)로 전송된다. 도 7에 도시하지는 않았지만, 상기 얼굴인식처리 모듈(403)은 예컨대, 수신부, 메모리, 추출부, 제어부 등을 포함하도록 설계된다.

상기 얼굴인식처리 모듈(403)의 수신부는 상기 복수 개의 이종 이미지 센서(420) 및 인터페이스(410)를 통해 전송된 특징 정보를 수신한다. 나아가, 상기 얼굴인식처리 모듈(403)의 메모리는 적어도 하나 이상의 사용자에 대한 특징 정보 및 대응하는 ID를 저장하고 있다.

따라서, 상기 얼굴인식처리 모듈(403)의 추출부는, 상기 수신된 특징 정보에 대응하는 ID 를 상기 메모리로부터 추출하고, 상기 얼굴인식처리 모듈(403)의 제어부는 상기 ID에 해당하는 기설정된 기능들을 자동으로 수행하도록 설계된다.

한편, 얼굴인식처리 모듈을 도 7에 도시된 바와 같이, 멀티미디어 장치의 CPU에서 수행하도록 설계하는 경우, 카메라 설계 비용을 낮추고 다양한 얼굴인식 및 기능 추가 등의 확장성 면에서 유리한 효과가 있다.

도 8은 본 발명의 다른 일실시예에 의한 복수 개의 이종 이미지 센서 및 멀티미디어 장치를 각각 도시한 도면이다. 이하, 도 8을 참조하여, 본 발명의 다른 일실시예에 의한 복수 개의 이종 이미지 센서 및 멀티미디어 장치를 각각 설명하면 다음과 같다. 다만, 도 8에서는 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서와 멀티미디어 장치를 별개로 도시하였으나, 상기 멀티플 카메라를 상기 멀티미디어 장치에 임베디드(embedded)된 형태로 설계하는 것도 가능하다.

도 8에 도시된 바와 같이 본 발명의 일실시예에 의한 멀티미디어 장치(500)는 CPU(Central Processing Unit)(501) 및 GPU(Graphic Processing Unit)(503)의 모듈로 설계되며, 상기 CPU(501)는 어플리케이션(502)을 포함하고 있다. 한편, 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서(520)는 얼굴인식처리 모듈(521), ASIC(Application Specific Intergrated Circuit)(522), 이미터(523), 제1 이미지 센서(524), 그리고 제2 이미지 센서(525)의 모듈로 설계된다. 그리고, 멀티미디어 장치(500) 및 복수 개의 이종 이미지 센서(520)는 유선 또는 무선의 인터페이스(510)로 연결되어 있으며, 예를 들어 USB (Universal Serial Bus) 인터페이스를 사용할 수도 있다. 다만, 도 8의 모듈들은 일실시예에 불과하며, 본 발명의 권리범위는 원칙적으로 특허청구범위에 의해 정해져야 한다.

도 8은 도 7과 비교하여, 얼굴인식처리 모듈(521)이 복수 개의 이종 이미지 센서(520)에 탑재된다는 점에서 차이가 있으며, 나머지 동일한 설명은 생략하도록 하겠다.

한편, 얼굴인식처리 모듈을 도 8에 도시된 바와 같이, 복수 개의 이종 이미지 센서(520)단에서 수행하도록 설계하는 경우, 독립된 플랫폼을 통하여 보다 다양한 형태의 카메라를 설계하는 것이 가능하다.

도 9는 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서를 보다 상세히 도시한 도면이다. 이하, 도 9를 참조하여, 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서를 보다 상세히 설명하면 다음과 같다.

도 9에 도시된 바와 같이, 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서는, 제1 이미지 센서 그룹(610)과 제2 이미지 센서(620), 컨트롤러(630), 메모리(640), 인터페이스(650) 등을 포함하며, 상기 컨트롤러(630)의 제어에 따라 마이크로폰(670) 및 외부 오디오 소스(660)로부터 오디오 데이터를 수신하도록 설계된다.

상기 메모리(640)는, 예를 들어, 플래쉬 메모리 등으로 설계할 수도 있고, 상기 인터페이스(650)는 예를 들어 USB 인터페이스로 설계되어 외부 멀티미디어 장치와 연결된다. 한편, 상기 제1 이미지 센서 그룹(610)은 이미터(emitter)(680) 및 제1 이미지 센서(690)를 포함하며, 상기 이미터는 예를 들어, IR(Infra-Red) 이미터로 설계 가능하다.

나아가, 상기 컨트롤러(630)의 제어에 따라, 상기 이미터(680)의 라이트 프로젝터(682)는 렌즈(681)를 투사하여, 멀티미디어 장치 주변에 위치한 적어도 하나 이상의 사용자에게 빛을 발산한다.

또한, 상기 컨트롤러(630)의 제어에 따라, 상기 제1 이미지 센서(690)는 렌즈(691)을 통해 수신된 빛을 이용하여 제1영상을 촬영하고, 상기 촬영된 제1영상으로부터 depth data 를 추출하고, 이를 상기 컨트롤러(630)에 전송한다.

상기 컨트롤러(630)는, 상기 전송된 depth data 를 이용하여 상기 적어도 하나 이상의 사용자의 얼굴을 디텍트하고, 다음으로 상기 제2 이미지 센서(620)를 제어한다.

상기 제2 이미지 센서(620)는, 상기 컨트롤러(630)의 제어에 따라, 렌즈(621)를 통해 인가되는 상기 디텍트된 사용자의 얼굴에 대한 제2영상을 촬영한다. 나아가, 상기 제2 이미지 센서(620)는, 상기 촬영된 제2영상으로부터 추출된 특징 정보를, 상기 컨트롤러(620)에 전송한다.

그리고, 상기 컨트롤러(630)는, 상기 인터페이스(650)를 이용하여, 상기 추출된 특징 정보를, 멀티미디어 장치에 전송하도록 설계된다. 따라서, 이를 수신한 멀티미디어 장치는, 촬영된 영상의 사용자가 DB에 저장된 사용자 중 어느 특정 사용자인지를 신속하게 식별할 수가 있는 효과가 있다.

도 10은 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서 중 제1 이미지 센서의 일예를 도시한 도면이다. 이하, 도 10을 참조하여, 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서 중 제1 이미지 센서의 일예를 설명하면 다음과 같다. 도 10에 도시된 IR 소스(710)는 도 6의 이미터(680)에 대응할 수 있고, 도 10에 도시된 depth 이미지 프로세서(720)는 도 9의 제1 이미지 센서(690)에 대응할 수도 있는 바, 도 9 및 도 10의 설명은 보충적으로 적용될 수도 있다. 또한, 도 10에 도시된 카메라는, 예컨대 전술한 structured light 방식을 차용하여 설계하는 것도 가능하다.

도 10에 도시된 바와 같이, 상기 IR 소스(710)는 코드화된 패턴 영상을 타겟 사용자(730)에게 연속적으로 투영하도록 설계된다. 그리고, 상기 depth 이미지 프로세서(720)는 상기 타겟 사용자(730)에 의해 최초 패턴 영상이 왜곡된 정보를 이용하여, 상기 사용자의 위치를 추정한다.

도 11은 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서 중 제1 이미지센서의 다른 일예를 도시한 도면이다. 이하, 도 11을 참조하여, 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서 중 제1 이미지 센서의 다른 일예를 설명하면 다음과 같다. 도 11에 도시된 LED(810)는 도 9의 이미터(680)에 대응할 수 있고, 도 11에 도시된 depth 이미지 프로세서(820)는 도 9의 제1 이미지 센서(690)에 대응할 수도 있는 바, 도 9 및 도 11의 설명은 보충적으로 적용될 수도 있다. 또한, 도 11에 도시된 카메라는, 예컨대 전술한 TOF 방식을 차용하여 설계하는 것도 가능하다.

도 11에 도시된 바와 같이, 상기 LED(810)에 의해 발산된 빛은 타겟 사용자(830)에게 전송된다. 그리고, 상기 타겟 사용자(830)에 의해 반사된 빛(reflected light)은 상기 depth 이미지 프로세서(820)에 전송된다. 도 11에 도시된 모듈들은, 도 10과 달리 시간 차이에 대한 정보를 이용하여 상기 타겟 사용자(830)의 위치를 계산한다. 이는 도 12를 참조하여 보다 상세히 설명하도록 하겠다.

도 12는 도 11에 도시된 제1 이미지 센서를 이용하여 거리를 계산하는 방법을 설명하기 위한 도면이다. 이하, 도 12를 참조하여, 도 11에 도시된 제1 이미지 센서를 이용하여 거리를 계산하는 방법을 설명하면 다음과 같다.

도 12의 왼쪽 그래프에 도시된 바와 같이, 발산된 빛(emitted light)과 반사된 빛(reflected light) 사이의 시간 차이를 통해, 도착 시간인 t 값을 얻을 수가 있다.

또한, 도 12의 오른쪽에 수식에 도시된 바와 같이, 상기 LED(810)와 상기 타겟 사용자(830)까지의 거리 및 상기 타겟 사용자(830)와 상기 depth 이미지 프로세서(820)까지의 총거리는, 광속과 상기 t 값의 곱셈으로 계산된다. 따라서, 결과적으로 상기 LED(830) 또는 상기 depth 이미지 프로세서(820)와 상기 타겟 사용자(830)까지의 거리는 1/d 로 추정된다.

도 13은 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서 중 제1 이미지 센서에 의해 촬영된 이미지를 도시한 도면이다. 이하, 도 13을 참조하여 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서 중 제1 이미지 센서에 의해 촬영된 보다 구체적인 이미지를 설명하면 다음과 같다.

도 13에 도시된 바와 같이, 제1 이미지 센서로 촬영된 이미지에서는 RGB 등의 색상 정보가 화려하게 표현되지는 않는다. 다만, 거리에 따라 명암을 차등적으로 표현함으로써, 개별 사물의 대략적인 위치를 신속하게 알아낼 수 있는 장점이 있다.

예컨대, 도 13에 도시된 바와 같이, 가장 멀리 위치한 복도(hall way)의 경우, 가장 어두운 명암으로 표시되며, 제1 이미지 센서로부터 약 10m 정도의 거리에 떨어져 있음을 확인한다. 나아가, 중간 정도의 거리 레벨에 위치한 벽(wall)의 경우, 중간 톤의 명암으로 표시되며, 제1 이미지 센서로부터 약 5m 정도의 거리에 떨어져 있음을 확인한다. 그리고, 상대적으로 가장 가까운 거리에 위치한 TV 시청자(TV viewer)의 경우, 가장 밝은 톤의 명암으로 표시되며, 제1 이미지 센서로부터 약 4m 정도의 거리에 떨어져 있음을 확인한다.

도 14는 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서 중 제2이미지센서에 의해 촬영된 이미지를 도시한 도면이다. 이하, 도 14를 참조하여, 본 발명의 일실시예에 의한 복수 개의 이종 이미지 센서 중 제2 이미지 센서에 의해 촬영된 보다 구체적인 이미지를 설명하면 다음과 같다.

제1 이미지 센서와 달리, 제2 이미지 센서의 경우 선명한 RGB 색상을 사용하게 되므로, 사용자의 얼굴의 주요 구성 요소들을 용이하게 식별할 수 있는 장점이 있다. 특히, 도 14에 예시된 바와 같이, 사람을 식별하는데 사용되는 눈 주변, 코 주변, 입 주변에 대한 데이터를 가공하여, 얼굴 인식을 위한 특징 정보로 사용하도록 설계된다. 물론, 도 14에서는 눈, 코, 입을 예시하였지만, 경우에 따라 다른 얼굴 구성 요소, 예컨대 귀, 이마, 머리색, 주름, 피부색, 얼굴형, 얼굴크기 등이 사용될 수도 있다.

한편, 전술한 본 발명의 일실시예에 의한 멀티미디어 디바이스는, 화상 전화 서비스를 이용하는 과정에서도 이용될 수 있는데, 이에 대한 보다 구체적인 설명은 이하 도 15 내지 도 26을 참조하여 보다 상세히 설명하도록 하겠다.

도 15는 본 발명의 일실시예에 의한 멀티미디어 디바이스를 보다 상세히 도시한 도면이다.

도 15에 도시된 바와 같이, 본 발명의 일실시예에 의한 멀티미디어 디바이스(1500)는 메모리(1501), 계산부(1502), 컨트롤러(1503) 그리고 네트워크 인터페이스(1504) 등을 포함하여 이루어 지며, 도시된 모듈들은 소프트웨어, 하드웨어로만 구성할 수도 있고 또는 소프트웨어 및 하드웨어의 결합으로 구성할 수도 있다. 나아가, 도 15는 일실시예이며 본 발명의 권리범위는 원칙적으로 특허청구범위에 기재된 사항에 따라 정해져야 한다.

상기 멀티미디어 디바이스(1500)는 멀티플 이미지 센서(1510)가 임베디드된 형태로 설계될 수도 있고, 또는 도 15에 도시된 바와 같이 유/무선 네트워크(예를 들어, USB 등)로 접속된다. 또한, 상기 멀티미디어 디바이스(1500)는 화상 전화 서비스를 위한 네트워크(1520)를 통해 상대방 디바이스(1530)와 연결된다. 상기 상대방 디바이스(1530)는 상기 멀티미디어 디바이스(1500)와 동일한 모듈로 구성될 수도 있고 또는 전혀 다른 모듈로 구성될 수도 있다.

상기 멀티플 이미지 센서(1510) 중 제1이미지 센서는 상기 멀티미디어 디바이스(1500)의 주변에 위치한 적어도 하나 이상의 사용자의 제1신체 영역 및 제2신체 영역을 트래킹 하고, 상기 멀티플 이미지 센서(1510) 중 제2이미지 센서는 상기 트래킹된 제1신체 영역을 클로즈 업 하여 촬영한다. 상기 제1신체 영역은 예를 들어, 상기 사용자의 얼굴 영역에 대응하고, 상기 제2신체 영역은 예를 들어 상기 사용자의 손 영역에 대응한다. 이에 대해서는 도 16을 참조하여 보다 상세히 설명하도록 하겠다. 나아가, 전술하여 설명한 바와 같이, 상기 제1이미지 센서는 예를 들어 depth 카메라에 대응하고, 상기 제2이미지 센서는 예를 들어 RGB 카메라에 대응한다.

상기 네트워크 인터페이스(1504)는, 상기 제2이미지 센서에 의해 촬영된 제1신체 영역의 이미지 데이터를 화상 전화 서비스의 상대방 디바이스(1530)에 전송하며, 상기 컨트롤러(1503)는 상기 제2신체 영역의 트래킹 결과에 기초하여, 상기 멀티미디어 디바이스(1500)의 화상 전화 서비스의 적어도 하나 이상의 기능을 제어하도록 설계된다. 이에 대해서는 도 17 내지 도 25를 참조하여 보다 상세히 설명하도록 하겠다.

또한, 상기 멀티미디어 디바이스(1500)는, 적어도 하나 이상의 이미지 데이터를 저장하고 있는 메모리(1501)를 더 포함하며, 상기 이미지 데이터에 대해서는 도 18을 참조하여 보다 상세히 설명하도록 하겠다.

나아가 본 발명의 다른 일실시예에 의하면, 상기 컨트롤러(1503)는, 상기 제1신체 영역 및 상기 제2신체 영역이 기설정된 범위 이상으로 중복한 경우, 상기 메모리(1501)에 액세스 하도록 제어하고, 상기 액세스된 메모리(1501)에 기저장된 이미지 데이터를 추출하도록 제어한다. 그리고, 상기 컨트롤러(1503)는, 상기 제2이미지 센서에 의해 촬영된 제1신체 영역의 이미지 데이터 대신 상기 추출된 이미지 데이터를, 상기 상대방 디바이스(1530)로 전송하도록 상기 네트워크 인터페이스(1504)를 제어한다. 이에 대해서는 도 18 및 도 19를 참조하여 보다 상세히 설명하도록 하겠다.

나아가, 본 발명의 또 다른 일실시예에 의하면, 상기 컨트롤러(1503)는, 상기 제2신체 영역과 인접한 사물 영역을 디텍트 하도록 상기 제1이미지 센서를 제어하고, 상기 디텍트된 사물 영역을 클로즈 업 하여 촬영하도록 상기 제2이미지 센서를 제어하고, 그리고 상기 제2이미지 센서에 의해 촬영된 제1신체 영역의 이미지 데이터 대신 상기 촬영된 사물 영역의 이미지 데이터를, 상기 상대방 디바이스(1530)로 전송하도록 상기 네트워크 인터페이스(1504)를 제어한다. 이에 대해서는 도 20을 참조하여 보다 상세히 설명하도록 하겠다.

그리고, 본 발명의 또 다른 일실시예에 의하면, 상기 컨트롤러(1503)는, 상기 제2신체 영역내 손가락을 디텍트 하도록 상기 제2이미지 센서를 제어하고, 상기 디텍트된 손가락이 지시하는 방향을 계산한다. 다만, 상기 계산 프로세스는 도 15의 계산부(1502)가 수행하도록 설계할 수도 있다. 나아가, 상기 컨트롤러(1503)는, 상기 제2신체 영역내 손가락을 기준으로 상기 계산된 방향에 위치한 사물 영역을 디텍트 하도록 상기 제1이미지 센서를 제어하고, 상기 디텍트된 사물 영역을 클로즈 업 하여 촬영하도록 상기 제2이미지 센서를 제어하고, 그리고 상기 제2이미지 센서에 의해 촬영된 제1신체 영역의 이미지 데이터 대신 상기 촬영된 사물 영역의 이미지 데이터를, 상기 상대방 디바이스(1530)로 전송하도록 상기 네트워크 인터페이스(1504)를 제어한다. 이에 대해서는 도 21 내지 도 25를 참조하여 보다 상세히 설명하도록 하겠다.

도 16은 본 발명의 일실시예에 의한 멀티미디어 디바이스가 복수개의 이종 이미지 센서를 이용하여 사용자의 특정 신체 부위를 디텍트하는 장면을 도시한 도면이다.

도 16에 도시된 바와 같이, 특정 사용자가 화상 전화 서비스 이용 안내 메시지(1640)를 선택한 경우, 본 발명의 일실시예에 의한 멀티미디어 디바이스(1600)의 복수개의 이종 이미지 센서(1610)는 주변 사용자를 촬영하도록 설계된다. 예를 들어, 제1이미지 센서 및 제2이미지 센서 중 적어도 하나 이상을 이용하여 사용자의 특정 신체 부분을 트래킹 한다. 도 16에서는 상기 사용자의 얼굴 영역(1650)과 손 영역(1660, 1670)이 트래킹 되는 것을 예시하였지만, 본 발명의 권리범위가 반드시 이에 한정하는 것은 아니다.

도 17은 화상 전화 서비스를 이용하는 과정에서 본 발명의 일실시예에 의한 멀티미디어 디바이스 및 상대방 디바이스의 화면 구성의 제1실시예를 도시한 도면이다. 이하, 도 17을 참조하여 화상 전화 서비스를 이용하는 사용자의 얼굴 영역을 클로즈 업 하여 처리하는 방법을 설명하면 다음과 같다.

도 17에 도시된 바와 같이, 본 발명의 일실시예에 의한 멀티미디어 디바이스(1700)는 화상 전화 서비스 관련 OSD(1740)를 디스플레이 한다. 그리고, 전술하여 설명한 바와 같이, 복수개의 이종 이미지 센서(1710)는 사용자의 얼굴 영역(1770)과 손 영역(1780, 1790)을 트래킹 하도록 설계된다.

나아가, 본 발명의 일실시예에 의한 멀티미디어 디바이스(1700)의 화상 전화 서비스 관련 OSD(1740)는 상대방 화상 이미지(1750) 및 본인 화상 이미지(1760)를 모두 포함하도록 설계된다. 특히, 상기 멀티미디어 디바이스(1700)의 OSD(1740) 상에서 디스플레이 되는 상대방 화상 이미지(1750)는 트래킹 없이 촬영된 이미지 이다. 즉, 화상 전화 서비스와 관련성이 적은 가정내 전체 모습을 필터링 없이 출력하게 된다. 반면, 상기 멀티미디어 디바이스(1700)의 OSD(1740) 상에서 디스플레이 되는 본인 화상 이미지(1760)는 사용자의 얼굴 영역(1770)만 클로즈업 된 이미지 이다. 따라서, 화상 전화 서비스에서 상대적으로 중요한 화자의 얼굴을 보다 용이하게 확인할 수 있는 효과가 있다.

그리고, 화상 전화 서비스를 이용하는 상대방 디바이스(1730)는, 본 발명의 일실시예에 의한 멀티미디어 디바이스(1700)의 상대방 화상 이미지(1750)를 본인의 화상 이미지로 출력하게 되고, 상기 멀티미디어 디바이스(1700)의 본인 화상 이미지(1760)는 상대방 화상 이미지로 출력하게 된다.

도 18은 화상 전화 서비스를 이용하는 과정에서 본 발명의 일실시예에 의한 멀티미디어 디바이스 및 상대방 디바이스의 화면 구성의 제2실시예를 도시한 도면이다. 이하, 도 18을 참조하여 화상 전화 서비스를 이용하는 사용자의 얼굴 대신 대체 이미지를 디스플레이 하는 방법을 설명하면 다음과 같다.

도 18에 도시된 바와 같이, 본 발명의 일실시예에 의한 멀티미디어 디바이스(1800)는 화상 전화 서비스 관련 OSD(1840)를 디스플레이 한다. 그리고, 전술하여 설명한 바와 같이, 복수개의 이종 이미지 센서(1810)는 사용자의 얼굴 영역(1870)과 손 영역(1880, 1890)을 트래킹 하도록 설계된다.

한편, 상기 트래킹 프로세스 중, 상기 사용자의 얼굴 영역(1870)과 손 영역(1880, 1890)이 중복하는 경우, 도 17과 달리 상기 사용자의 얼굴을 클로즈업 하여 보여주지 않고 메모리에 기저장된 대체 이미지를 출력하도록 설계된다. 상기 대체 이미지에는 특별한 제한이 없으며, 예를 들어 화상 전화 서비스 도중 자신의 얼굴을 가리고 다른 모습으로 보여주길 원하는 경우 선택된 이미지 이다.

또한, 상기 사용자의 얼굴 영역(1870)과 손 영역(1880, 1890)이 중복되었는지 여부를 판단하는 일실시예로는, 도 19에 도시된 바와 같이 2가지 인자(예를 들어, 겹치는 영역 및 겹치는 시간)를 이용하여 설계될 수도 있다. 예를 들어, 도 18에 도시된 손 영역(1880, 1890)이 얼굴 영역(1870)과 70% 이상 중복하고 중복되는 시간이 2초 이상인 경우, 상기 메모리에 기저장된 대체 이미지를 디스플레이 한다.

따라서, 본 발명의 일실시예에 의한 멀티미디어 디바이스(1800)의 화상 전화 서비스 관련 OSD(1840)는 상대방 화상 이미지(1850) 및 본인 화상 이미지(1860)를 모두 포함하도록 설계된다. 다만, 도 17과 달리, 상기 본인 화상 이미지(1860)에는 사용자 얼굴이 디스플레이 되지 않고, 상기 메모리에 기저장된 대체 이미지를 출력하도록 설계된다. 한편, 상기 멀티미디어 디바이스(1800)의 OSD(1840) 상에서 디스플레이 되는 상대방 화상 이미지(1850)는 트래킹 없이 촬영된 이미지 이다. 즉, 화상 전화 서비스와 관련성이 적은 가정내 전체 모습을 필터링 없이 출력하게 된다. 반면, 상기 멀티미디어 디바이스(1800)의 OSD(1840) 상에서 디스플레이 되는 본인 화상 이미지(1860)는 사용자의 얼굴을 대체하는 이미지 이다(물론, 이는 도 18에 도시된 바와 같이, 사용자 얼굴 영역과 손 영역이 일정 시간 동안 일정 범위 이상 중복된 경우).

그리고, 화상 전화 서비스를 이용하는 상대방 디바이스(1830)는, 본 발명의 일실시예에 의한 멀티미디어 디바이스(1800)의 상대방 화상 이미지(1850)를 본인의 화상 이미지로 출력하게 되고, 상기 멀티미디어 디바이스(1800)의 본인 화상 이미지(1860)는 상대방 화상 이미지로 출력하게 된다.

도 20은 화상 전화 서비스를 이용하는 과정에서 본 발명의 일실시예에 의한 멀티미디어 디바이스 및 상대방 디바이스의 화면 구성의 제3실시예를 도시한 도면이다. 이하, 도 20을 참조하여 화상 전화 서비스를 이용하는 사용자의 손에 인접한 물건을 강조하여 디스플레이 하는 방법을 설명하면 다음과 같다.

도 20에 도시된 바와 같이, 본 발명의 일실시예에 의한 멀티미디어 디바이스(2000)는 화상 전화 서비스 관련 OSD(2040)를 디스플레이 한다. 그리고, 전술하여 설명한 바와 같이, 복수개의 이종 이미지 센서(2010)는 사용자의 얼굴 영역(2070)과 손 영역(2080, 2090)을 트래킹 하도록 설계된다.

한편, 상기 트래킹 프로세스 중, 상기 사용자의 손 영역(2080, 2090)과 인접한 위치에 물건이 존재하는 것으로 감지되면, 도 17과 달리 상기 사용자의 얼굴을 클로즈업 하여 보여 주지 않고 손 영역(2080, 2090)과 인접한 위치에 존재하는 물건 영역(2095)을 출력하도록 설계된다. 예를 들어, 전술한 멀티플 이미지 센서(제1이미지 센서, 제2이미지 센서)에 의하면, 사용자의 손가락 관절이 구부러진 상태를 디텍트할 수가 있다. 따라서, 상기 손가락 관절이 구부러진 경우, 사용자 얼굴 영역 대신, 손 영역의 주변을 클로즈업 하여 디스플레이 한다.

따라서, 본 발명의 일실시예에 의한 멀티미디어 디바이스(2000)의 화상 전화 서비스 관련 OSD(2040)는 상대방 화상 이미지(2050) 및 본인 화상 이미지(2060)를 모두 포함하도록 설계된다. 다만, 도 17과 달리, 상기 본인 화상 이미지(2060)에는 사용자 얼굴이 디스플레이 되지 않고, 상기 사용자의 손 영역 주변을 클로즈업 하여 출력하도록 설계된다. 한편, 상기 멀티미디어 디바이스(2000)의 OSD(2040) 상에서 디스플레이 되는 상대방 화상 이미지(2050)는 트래킹 없이 촬영된 이미지 이다. 즉, 화상 전화 서비스와 관련성이 적은 가정내 전체 모습을 필터링 없이 출력하게 된다. 반면, 상기 멀티미디어 디바이스(2000)의 OSD(2040) 상에서 디스플레이 되는 본인 화상 이미지(2060)는 사용자의 손 영역 주변이 촬영된 이미지 이다.

그리고, 화상 전화 서비스를 이용하는 상대방 디바이스(2030)는, 본 발명의 일실시예에 의한 멀티미디어 디바이스(2000)의 상대방 화상 이미지(2050)를 본인의 화상 이미지로 출력하게 되고, 상기 멀티미디어 디바이스(2000)의 본인 화상 이미지(2060)는 상대방 화상 이미지로 출력하게 된다.

도 21 내지 도 25는 화상 전화 서비스를 이용하는 과정에서 본 발명의 일실시예에 의한 멀티미디어 디바이스 및 상대방 디바이스의 화면 구성의 제4실시예를 설명하기 위한 도면들이다. 이하, 도 21 내지 도 25를 참조하여 화상 전화 서비스를 이용하는 사용자의 손가락이 가르키는 방향의 영역을 강조하여 디스플레이 하는 방법을 설명하면 다음과 같다. 특히, 도 25에 도시된 디스플레이 화면은, 예컨대 도 21 내지 도 24에 대한 설명을 전제로 하여 설계된다. 따라서, 도 21 내지 도 24를 우선적으로 설명하고, 그 결과에 대하여 도 25를 참조하여 설명하도록 하겠다.

도 21에 도시된 바와 같이, 본 발명의 일실시예에 의한 멀티미디어 디바이스(2100)의 멀티플 이미지 센서(2110)는 사용자의 얼굴 영역(2170) 및 손 영역(2180, 2190)을 디텍트 한다. 또한, 도 20에서 설명한 바와 같이, 상기 멀티플 이미지 센서(2110)는 사용자의 손가락의 관절 움직임을 디텍트할 수 있다. 예를 들어, 도 22에 도시된 바와 같이, 하나의 손가락만 특정 방향을 가르키고 있는 것으로 디텍트 되면, 상기 손가락과 가로축(x 축)이 이루는 각도를 계산한다. 도 22에서는 상기 계산된 각도가 30도인 경우를 가정하였다.

따라서, 도 23에 도시된 바와 같이, 본 발명의 일실시예에 의한 멀티미디어 디바이스(2300)의 멀티플 이미지 센서(2310)는 상기 손가락으로부터 일정 각도의 방향으로 소정 거리 만큼 떨어져 있는 일정 위치들(2395, 2396)을 디텍트할 수가 있다. 다만, 상기 소정 거리는 멀티미디어 디바이스의 생산자가 임의로 결정할 수도 있고, 또는 도 24에 도시된 바와 같이 손가락 방향으로부터 어느 정도 떨어진 거리를 클로즈업 할 지 정할 수도 있다.

전술한 도 21 내지 도 24를 가정하여 도 25를 설명하면 다음과 같다.

도 25에 도시된 바와 같이, 본 발명의 일실시예에 의한 멀티미디어 디바이스(2500)는 화상 전화 서비스 관련 OSD(2540)를 디스플레이 한다. 그리고, 전술하여 설명한 바와 같이, 복수개의 이종 이미지 센서(2510)는 사용자의 얼굴 영역과 손 영역을 트래킹 하도록 설계된다.

한편, 상기 트래킹 프로세스 중, 상기 사용자의 손 영역에서 하나의 손가락이 임의의 방향을 가르키는 것으로 감지되면, 도 17과 달리 상기 사용자의 얼굴을 클로즈업 하여 보여 주지 않고 상기 손가락이 가르키는 방향으로 일정 거리 만큼 이격해 있는 영역을 클로즈업 하여 출력하도록 설계된다. 예를 들어, 전술한 멀티플 이미지 센서(제1이미지 센서, 제2이미지 센서)에 의하면, 사용자의 손가락 관절의 변화를 디텍트할 수가 있다.

따라서, 본 발명의 일실시예에 의한 멀티미디어 디바이스(2500)의 화상 전화 서비스 관련 OSD(2540)는 상대방 화상 이미지(2550) 및 본인 화상 이미지(2560)를 모두 포함하도록 설계된다. 다만, 도 17과 달리, 상기 본인 화상 이미지(2560)에는 사용자 얼굴이 디스플레이 되지 않고, 상기 사용자의 손가락이 가르키는 방향에 위치한 영역을 클로즈업 하여 출력하도록 설계된다. 한편, 상기 멀티미디어 디바이스(2500)의 OSD(2540) 상에서 디스플레이 되는 상대방 화상 이미지(2550)는 트래킹 없이 촬영된 이미지 이다. 즉, 화상 전화 서비스와 관련성이 적은 가정내 전체 모습을 필터링 없이 출력하게 된다. 반면, 상기 멀티미디어 디바이스(2500)의 OSD(2540) 상에서 디스플레이 되는 본인 화상 이미지(2560)는 사용자의 손가락이 가르키는 방향에 위치한 영역 이다. 또한, 도 24에서 전술한 바와 같이, 손가락과 클로즈업 되는 영역의 거리는 사용자가 임의로 설정할 수도 있고, 또는 자동으로 기설정되어 있을 수도 있다.

그리고, 화상 전화 서비스를 이용하는 상대방 디바이스(2530)는, 본 발명의 일실시예에 의한 멀티미디어 디바이스(2500)의 상대방 화상 이미지(2550)를 본인의 화상 이미지로 출력하게 되고, 상기 멀티미디어 디바이스(2500)의 본인 화상 이미지(2560)는 상대방 화상 이미지로 출력하게 된다.

그리고, 도 26은 본 발명의 일실시예에 의한 멀티미디어 디바이스의 제어 방법을 도시한 플로우 차트이다. 다만, 도 26에 대한 설명은, 도 1 내지 도 25를 참조하여 보충 해석할 수도 있다.

본 발명의 일실시예에 의한 복수개의 이종 이미지 센서를 이용하는 멀티미디어 디바이스는, 상기 복수개의 이종 이미지 센서 중 제1이미지 센서를 이용하여, 상기 멀티미디어 디바이스의 주변에 위치한 적어도 하나 이상의 사용자의 제1신체 영역 및 제2신체 영역을 트래킹 한다(S2610). 또한, 상기 멀티미디어 디바이스는 상기 복수개의 이종 이미지 센서 중 제2이미지 센서를 이용하여, 상기 트래킹된 제1신체 영역을 클로즈 업 하여 촬영한다(S2620).

나아가, 상기 멀티미디어 디바이스는, 상기 제2이미지 센서에 의해 촬영된 제1신체 영역의 이미지 데이터를 화상 전화 서비스의 상대방 디바이스에 전송하고(S2630), 그리고 상기 제2신체 영역의 트래킹 결과에 기초하여, 상기 멀티미디어 디바이스의 화상 전화 서비스의 적어도 하나 이상의 기능을 제어한다(S2640).

한편, 본 발명의 다른 일실시예에 의하면, 상기 멀티미디어 디바이스의 제어 방법은 상기 제1신체 영역 및 상기 제2신체 영역이 기설정된 범위 이상으로 중복한 경우, 메모리에 액세스 하는 단계와, 상기 액세스된 메모리에 기저장된 이미지 데이터를 추출하는 단계와, 그리고 상기 제2이미지 센서에 의해 촬영된 제1신체 영역의 이미지 데이터 대신 상기 추출된 이미지 데이터를, 상기 상대방 디바이스로 전송하는 단계를 더 포함한다. 이와 관련해서는 도 18 및 도 19에서 설명된 내용을 참조하여 해석할 수가 있다.

또한, 본 발명의 또 다른 일실시예에 의하면, 상기 멀티미디어 디바이스의 제어 방법은, 상기 제1이미지 센서를 이용하여, 상기 제2신체 영역과 인접한 사물 영역을 디텍트 하는 단계와, 상기 제2이미지 센서를 이용하여, 상기 디텍트된 사물 영역을 클로즈 업 하여 촬영하는 단계와, 그리고 상기 제2이미지 센서에 의해 촬영된 제1신체 영역의 이미지 데이터 대신 상기 촬영된 사물 영역의 이미지 데이터를, 상기 상대방 디바이스로 전송하는 단계를 더 포함한다. 이와 관련해서는 도 20에서 설명된 내용을 참조하여 해석할 수가 있다.

그리고, 본 발명의 또 다른 일실시예에 의하면, 상기 멀티미디어 디바이스의 제어 방법은, 상기 제2이미지 센서를 이용하여, 상기 제2신체 영역내 손가락을 디텍트 하는 단계와, 상기 디텍트된 손가락이 지시하는 방향을 계산하는 단계와, 상기 제1이미지 센서를 이용하여, 상기 제2신체 영역내 손가락을 기준으로 상기 계산된 방향에 위치한 사물 영역을 디텍트 하는 단계와, 상기 제2이미지 센서를 이용하여, 상기 디텍트된 사물 영역을 클로즈 업 하여 촬영하는 단계와, 그리고 상기 제2이미지 센서에 의해 촬영된 제1신체 영역의 이미지 데이터 대신 상기 촬영된 사물 영역의 이미지 데이터를, 상기 상대방 디바이스로 전송하는 단계를 더 포함한다. 이와 관련해서는 도 21 내지 도 25에서 설명된 내용을 참조하여 해석할 수가 있다.

이와 같이 설계된 본 발명의 실시예들에 의하면, 제1 이미지 센서와 제2 이미지 센서의 상호 보완을 통하여, 안면 인식의 성능, 데이터 처리 속도, 그리고 원거리 인식 면에서 모두 개선된 효과가 있다. 또한, 기존에 픽스된 화면만을 제공하는 종래 기술의 문제점을 해결하고, 사용자의 제스처에 따라 보다 다양한 이미지 데이터를 처리 및 제공하는 효과가 있다.

그리고, 당해 명세서에서는 물건 발명과 방법 발명이 모두 설명되고 있으며, 필요에 따라 양발명의 설명은 보충적으로 적용될 수가 있다.

본 발명에 따른 방법 발명은 모두 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

400, 500 : 멀티미디어 디바이스
410, 510 : 인터페이스
420, 520 : 복수개의 이종 이미지 센서

Claims

복수개의 이종 이미지 센서를 이용하는 멀티미디어 디바이스의 제어 방법에 있어서,
상기 복수개의 이종 이미지 센서 중 제1이미지 센서를 이용하여, 상기 멀티미디어 디바이스의 주변에 위치한 적어도 하나 이상의 사용자의 제1신체 영역 및 제2신체 영역을 트래킹 하는 단계;
상기 복수개의 이종 이미지 센서 중 제2이미지 센서를 이용하여, 상기 트래킹된 제1신체 영역을 클로즈 업 하여 촬영하는 단계;
상기 제2이미지 센서에 의해 촬영된 제1신체 영역의 이미지 데이터를 화상 전화 서비스의 상대방 디바이스에 전송하는 단계; 그리고
상기 제2신체 영역의 트래킹 결과에 기초하여, 상기 멀티미디어 디바이스의 화상 전화 서비스의 적어도 하나 이상의 기능을 제어하는 단계
를 포함하는 복수개의 이종 이미지 센서를 이용하는 멀티미디어 디바이스의 제어 방법.
제1항에 있어서,
상기 제1신체 영역은 상기 사용자의 얼굴 영역에 대응하고,
상기 제2신체 영역은 상기 사용자의 손 영역에 대응하는
복수개의 이종 이미지 센서를 이용하는 멀티미디어 디바이스의 제어 방법.
제2항에 있어서,
상기 제1신체 영역 및 상기 제2신체 영역이 기설정된 범위 이상으로 중복한 경우, 메모리에 액세스 하는 단계;
상기 액세스된 메모리에 기저장된 이미지 데이터를 추출하는 단계; 그리고
상기 제2이미지 센서에 의해 촬영된 제1신체 영역의 이미지 데이터 대신 상기 추출된 이미지 데이터를, 상기 상대방 디바이스로 전송하는 단계
를 더 포함하는 복수개의 이종 이미지 센서를 이용하는 멀티미디어 디바이스의 제어 방법.
제2항에 있어서,
상기 제1이미지 센서를 이용하여, 상기 제2신체 영역과 인접한 사물 영역을 디텍트 하는 단계;
상기 제2이미지 센서를 이용하여, 상기 디텍트된 사물 영역을 클로즈 업 하여 촬영하는 단계; 그리고
상기 제2이미지 센서에 의해 촬영된 제1신체 영역의 이미지 데이터 대신 상기 촬영된 사물 영역의 이미지 데이터를, 상기 상대방 디바이스로 전송하는 단계
를 더 포함하는 복수개의 이종 이미지 센서를 이용하는 멀티미디어 디바이스의 제어 방법.
제2항에 있어서,
상기 제2이미지 센서를 이용하여, 상기 제2신체 영역내 손가락을 디텍트 하는 단계;
상기 디텍트된 손가락이 지시하는 방향을 계산하는 단계;
상기 제1이미지 센서를 이용하여, 상기 제2신체 영역내 손가락을 기준으로 상기 계산된 방향에 위치한 사물 영역을 디텍트 하는 단계;
상기 제2이미지 센서를 이용하여, 상기 디텍트된 사물 영역을 클로즈 업 하여 촬영하는 단계; 그리고
상기 제2이미지 센서에 의해 촬영된 제1신체 영역의 이미지 데이터 대신 상기 촬영된 사물 영역의 이미지 데이터를, 상기 상대방 디바이스로 전송하는 단계
를 더 포함하는 복수개의 이종 이미지 센서를 이용하는 멀티미디어 디바이스의 제어 방법.
제1항에 있어서,
상기 제1이미지 센서는 depth 카메라에 대응하고,
상기 제2이미지 센서는 RGB 카메라에 대응하는
복수개의 이종 이미지 센서를 이용하는 멀티미디어 디바이스의 제어 방법.
복수개의 이종 이미지 센서를 이용하는 멀티미디어 디바이스에 있어서,
상기 멀티미디어 디바이스의 주변에 위치한 적어도 하나 이상의 사용자의 제1신체 영역 및 제2신체 영역을 트래킹 하는 제1이미지 센서;
상기 트래킹된 제1신체 영역을 클로즈 업 하여 촬영하는 제2이미지 센서;
상기 제2이미지 센서에 의해 촬영된 제1신체 영역의 이미지 데이터를 화상 전화 서비스의 상대방 디바이스에 전송하는 네트워크 인터페이스; 그리고
상기 제2신체 영역의 트래킹 결과에 기초하여, 상기 멀티미디어 디바이스의 화상 전화 서비스의 적어도 하나 이상의 기능을 제어하는 컨트롤러
를 포함하는 복수개의 이종 이미지 센서를 이용하는 멀티미디어 디바이스.
제7항에 있어서,
상기 제1신체 영역은 상기 사용자의 얼굴 영역에 대응하고,
상기 제2신체 영역은 상기 사용자의 손 영역에 대응하는
복수개의 이종 이미지 센서를 이용하는 멀티미디어 디바이스.
제8항에 있어서,
적어도 하나 이상의 이미지 데이터를 저장하고 있는 메모리를 더 포함하는
복수개의 이종 이미지 센서를 이용하는 멀티미디어 디바이스.
제9항에 있어서,
상기 컨트롤러는,
상기 제1신체 영역 및 상기 제2신체 영역이 기설정된 범위 이상으로 중복한 경우, 상기 메모리에 액세스 하도록 제어하고,
상기 액세스된 메모리에 기저장된 이미지 데이터를 추출하도록 제어하고, 그리고
상기 제2이미지 센서에 의해 촬영된 제1신체 영역의 이미지 데이터 대신 상기 추출된 이미지 데이터를, 상기 상대방 디바이스로 전송하도록 상기 네트워크 인터페이스를 제어하는
복수개의 이종 이미지 센서를 이용하는 멀티미디어 디바이스.
제8항에 있어서,
상기 컨트롤러는,
상기 제2신체 영역과 인접한 사물 영역을 디텍트 하도록 상기 제1이미지 센서를 제어하고,
상기 디텍트된 사물 영역을 클로즈 업 하여 촬영하도록 상기 제2이미지 센서를 제어하고, 그리고
상기 제2이미지 센서에 의해 촬영된 제1신체 영역의 이미지 데이터 대신 상기 촬영된 사물 영역의 이미지 데이터를, 상기 상대방 디바이스로 전송하도록 상기 네트워크 인터페이스를 제어하는
복수개의 이종 이미지 센서를 이용하는 멀티미디어 디바이스.
제8항에 있어서,
상기 컨트롤러는,
상기 제2신체 영역내 손가락을 디텍트 하도록 상기 제2이미지 센서를 제어하고,
상기 디텍트된 손가락이 지시하는 방향을 계산하고,
상기 제2신체 영역내 손가락을 기준으로 상기 계산된 방향에 위치한 사물 영역을 디텍트 하도록 상기 제1이미지 센서를 제어하고,
상기 디텍트된 사물 영역을 클로즈 업 하여 촬영하도록 상기 제2이미지 센서를 제어하고, 그리고
상기 제2이미지 센서에 의해 촬영된 제1신체 영역의 이미지 데이터 대신 상기 촬영된 사물 영역의 이미지 데이터를, 상기 상대방 디바이스로 전송하도록 상기 네트워크 인터페이스를 제어하는
복수개의 이종 이미지 센서를 이용하는 멀티미디어 디바이스.
제7항에 있어서,
상기 제1이미지 센서는 depth 카메라에 대응하고,
상기 제2이미지 센서는 RGB 카메라에 대응하는
복수개의 이종 이미지 센서를 이용하는 멀티미디어 디바이스.