KR20150055543A

KR20150055543A - 제스처 인식 장치 및 제스처 인식 장치의 제어 방법

Info

Publication number: KR20150055543A
Application number: KR1020140141458A
Authority: KR
Inventors: 유키 한자와; 타카시 오타; 카즈야 우라베; 슌 사카이; ? 사카이
Original assignee: 오므론 가부시키가이샤
Priority date: 2013-11-13
Filing date: 2014-10-20
Publication date: 2015-05-21
Also published as: KR101603017B1; US9349039B2; CN104635920B; EP2874045A1; JP2015095164A; CN104635920A; US20150131855A1

Abstract

제스처 입력을 행하는 이용자의 주위에 복수의 이용자가 있는 경우라도, 이용자마다 커스터마이즈된 제스처 입력을 정확하게 취득할 수 있는 제스처 인식 장치를 제공한다.
취득한 화상으로부터 제스처를 검출하고, 당해 제스처에 대응하여, 제어 대상 기기에 대한 명령을 생성하는 제스처 인식 장치로서, 화상을 취득하는 화상 취득 수단과, 취득한 화상으로부터, 제스처를 행하는 대상 부위를 검출하고, 검출한 대상 부위의 움직임 또는 형상에 의거하여 제스처를 취득하는 제스처 취득 수단과, 취득한 화상에 포함되는 얼굴을 검출하는 얼굴 검출 수단과, 인체의 형상을 표시한 인체 모델을 이용하여, 검출한 대상 부위와, 검출한 얼굴을 대응시키는 대응시킴 수단과, 검출한 얼굴에 대응하는 이용자를 식별하는 개인 식별 수단과, 식별한 이용자와, 취득한 제스처에 의거하여, 제어 대상 기기에 대한 명령을 생성하는 커맨드 생성 수단을 갖는 것을 특징으로 한다.

Description

제스처 인식 장치 및 제스처 인식 장치의 제어 방법{GESTURE RECOGNITION DEVICE AND GESTURE RECOGNITION DEVICE CONTROL METHOD}

본 발명은, 제스처에 의한 입력 조작을 인식하는 제스처 인식 장치에 관한 것이다.

컴퓨터나 전자 기기에 대해, 제스처에 의해 입력을 행할 수가 있는 장치가 보급의 조짐을 보이고 있다.

예를 들면, 특허 문헌 1에는, 이용자가 공간상에서 행한 제스처를 카메라 등에 의해 촬상하고, 당해 제스처를 입력 커맨드로 변환하는 입력 장치가 기재되어 있다. 당해 장치는 특정한 제스처와 특정한 입력 커맨드를 관련시켜서 기억하고 있고, 제스처를 인식하는 수단과, 인식한 제스처를 입력 커맨드로 변환하는 수단을 갖고 있다. 이에 의해 이용자는, 기기의 앞에서 제스처 동작을 하는 것만으로, 입력 디바이스를 직접 조작하는 일 없이 임의의 커맨드를 입력할 수 있다.

특허 문헌 1 : 일본 특허4031255호 공보

제스처를 인식하는 입력 장치에 있어서, 어느 하나의 제스처에, 이용자의 기호에 응하여 다른 입력 커맨드를 할당하고 싶은 경우가 있다. 예를 들면, 「손을 좌우로 움직인다」는 제스처에 대해, 「텔레비전의 채널 변경」이라는 조작을 할당하고 싶은 이용자와, 「텔레비전의 음량 변경」이라는 조작을 할당하고 싶은 이용자가 있는 것이 고려될 수 있다.

이에 대응하기 위해, 특허 문헌 1에 기재된 장치에서는, 카메라가 촬상한 화상으로부터 또한 얼굴을 검출함으로써, 제스처를 행한 이용자를 식별하고 있다. 이에 의해, 제스처와 입력 커맨드를 이용자마다 대응시키는 것이 가능해지고, 개인의 기호에 맞는 커스터마이즈(customize)를 행할 수가 있다.

그러나, 특허 문헌 1에 기재된 장치는, 얼굴에 의한 개인 식별은 가능하지만, 화상에 복수의 얼굴이 비치고 있는 경우, 검출한 제스처가 누구에 의해 행하여진 것인지를 올바르게 인식할 수가 없다.

예를 들면, 이용자(A)와 이용자(B)가 텔레비전의 정면에 있는 상황으로서, 장치가, 텔레비전 정면에 설치된 카메라를 통하여 제스처를 검출하였다고 한다. 이와 같은 상황에서, 당해 제스처에, 이용자에 의해 다른 커맨드가 나뉘어 할당된 경우(예를 들면, 이용자(A)가 「채널 업」이고, 이용자(B)가 「음량 업」이였던 경우), 장치는, 제스처를 행한 이용자를 특정할 수가 없기 때문에, 어느 커맨드를 실행하면 좋은지 결정할 수가 없다.

본 발명은 상기한 과제를 고려하여 이루어진 것으로, 제스처 입력을 행하는 이용자의 주위에 복수의 이용자가 있는 경우라도, 이용자마다 커스터마이즈된 제스처 입력을 정확하게 취득할 수 있는 제스처 인식 장치를 제공하는 것을 목적으로 한다.

상기 과제를 해결하기 위해, 본 발명에 관한 제스처 인식 장치는, 인체의 형상을 표시한 인체 모델을 이용하여, 화상에 포함되는 얼굴과, 제스처를 행하는 대상 부위를 대응시켜서, 제스처를 행한 인물을 식별한다는 구성을 취하였다.

구체적으로는, 본 발명에 관한 제스처 인식 장치는, 취득한 화상으로부터 제스처를 검출하고, 당해 제스처에 대응한, 제어 대상 기기에 대한 명령을 생성하는 제스처 인식 장치로서, 화상을 취득하는 화상 취득 수단과, 상기 취득한 화상으로부터, 제스처를 행하는 대상 부위를 검출하고, 검출한 대상 부위의 움직임 또는 형상에 의거하여 제스처를 취득하는 제스처 취득 수단과, 상기 취득한 화상에 포함되는 얼굴을 검출하는 얼굴 검출 수단과, 인체의 형상을 표시한 인체 모델을 이용하여, 상기 검출한 대상 부위와, 상기 검출한 얼굴을 대응시키는 대응시킴 수단과, 상기 검출한 얼굴에 대응하는 이용자를 식별하는 개인 식별 수단과, 상기 식별한 이용자와, 상기 취득한 제스처에 의거하여, 제어 대상 기기에 대한 명령을 생성하는 커맨드 생성 수단을 갖는 것을 특징으로 한다.

이와 같이, 본 발명에 관한 제스처 인식 장치는, 제스처를 행하는 대상 부위와, 이용자의 얼굴을 각각 검출하고, 양자를 대응시킴으로써, 제스처를 행한 이용자를 특정한다. 또한, 대상 부위란, 이용자가 제스처를 행하는 부위이고, 전형적으로는 인간의 손이지만, 제스처 입력용의 마커 등이라도 좋다.

대상 부위와 얼굴과의 대응시킴은, 인체의 형상을 표시한 모델인 인체 모델을 이용하여 행한다. 즉, 검출한 얼굴과 대상 부위가 자연스러운 위치 관계에 있는 경우에만 대응시킴을 행하고, 부자연스러운 위치 관계에 있는 경우는 대응시킴을 행하지 않는다. 당해 대응시킴은, 인체 모델을 이용하여 행하면, 어떤 방법에 의해 행하여도 좋다. 예를 들면, 검출한 얼굴을 기점으로 하여, 동체나 팔, 팔꿈치, 손목 등의 위치를 추정하고, 추정 결과에 의거하여 손의 가동 범위를 산출하고, 당해 가동 범위에 대상 부위가 포함되는지의 여부를 판정하여도 좋다.

또한, 인체 모델은, 반드시 인체의 형상만을 표시한 모델일 필요는 없다. 예를 들면, 제스처 입력용의 마커를 이용하여 입력을 행하는 경우, 마커를 포함한 형상을 표시한 모델을 이용하여도 좋다. 이와 같이, 인체 모델은, 제스처를 행하기 위한 기구 등의 형상을 포함한 모델이라도 좋다.

이와 같이, 구성함으로써, 대상 부위를 이용자 개인에 결부시킬 수 있고, 화상에 복수의 인물이 포함되는 경우라도, 제스처를 행한 인물을 높은 정밀도로 판정할 수 있다.

또한, 본 발명에 관한 제스처 인식 장치는, 제스처와, 제어 대상 기기에 대한 명령의 조(組)를, 이용자마다 대응시킨 데이터인 개인 설정 데이터를 기억하는 제스처 기억 수단을 또한 가지며, 상기 커맨드 생성 수단은, 상기 개인 설정 데이터에 또한 의거하여 제어 대상 기기에 대한 명령을 생성하는 것을 특징으로 하여도 좋다.

이와 같이, 제스처와, 제스처에 대응하는 커맨드는, 이용자마다 대응시켜서 기억하는 것이 바람직하다.

또한, 상기 대응시킴 수단은, 상기 검출한 얼굴의 좌표와 상기 인체 모델을 이용하여, 상기 검출한 얼굴마다, 대상 부위가 존재한다고 추정되는 범위를 산출하고, 상기 산출한 범위에 상기 대상 부위가 있는 경우에, 당해 대상 부위와 당해 얼굴을 대응시키는 것을 특징으로 하여도 좋다.

검출한 얼굴마다 인체 모델을 적용하고, 대상 부위가 존재한다고 추정되는 범위를 각각 산출함으로써, 검출한 얼굴과 대상 부위를 정밀도 좋게 대응시킬 수 있다.

또한, 상기 제스처 기억 수단은, 이용자에 대응시킨 우선도를 또한 기억하고, 상기 제스처 취득 수단이 취득한 제스처가 같은 시기에 2개 이상 있는 경우에, 상기 커맨드 생성 수단은, 보다 우선도가 높은 이용자에 대응하는 제스처를 우선하여 처리하는 것을 특징으로 하여도 좋다.

본 발명에 관한 제스처 인식 장치는, 제스처를 행한 인물을 식별할 수 있지만, 복수의 인물이 같은 시기에 제스처를 행한 경우, 생성하여야 할 커맨드를 특정할 수 없는 경우가 있다. 이와 같은 케이스에 대응하기 위해, 이용자마다 우선도를 정의하고, 당해 우선도에 따라 처리를 행하도록 하여도 좋다. 예를 들면, 우선도가 높은 이용자가 행한 제스처를, 다른 이용자가 행한 제스처보다 먼저 처리하여도 좋고, 우선도가 낮은 이용자가 행한 제스처를 처리하지 않도록 하여도 좋다.

또한, 상기 대응시킴 수단이, 상기 검출한 대상 부위와, 상기 검출한 얼굴과의 대응시킴에 실패한 경우, 상기 커맨드 생성 수단은, 제스처를 행한 이용자를 고려하지 않고, 상기 제스처에 대응하는 이미 정해진 명령을 생성하는 것을 특징으로 하여도 좋다.

이와 같이, 대상 부위와 얼굴과의 대응시킴에 실패한 경우, 특정한 이용자에 관련지어지지 않은 디폴트의 입력 커맨드를 생성하도록 하여도 좋다.

또한, 본 발명에 관한 제스처 인식 장치는, 얼굴의 검출 결과를 이용하지 않고, 제스처를 행한 이용자를 추정하는 이용자 추정 수단을 또한 가지며, 상기 대응시킴 수단이, 상기 검출한 대상 부위와, 상기 검출한 얼굴과의 대응시킴에 실패한 경우에, 상기 이용자 추정 수단이, 제스처를 행한 이용자를 추정하는 것을 특징으로 하여도 좋다.

인물의 추정은, 예를 들면, 과거에 취득한 화상에 의거하여 행하여도 좋고, 다른 수단으로부터 정보를 취득하여 행하여도 좋다. 예를 들면, 과거에 취득한 화상으로부터, 기기의 근처에 있다고 추정되는 이용자가 있는 경우, 당해 이용자가 제스처를 행하였다고 추정하도록 하여도 좋고, 제어 대상 기기가 텔레비전이고, 이용자마다의 시청 이력을 취득할 수 있는 경우, 당해 시청 이력에 의거하여, 제스처를 행한 이용자를 추정하도록 하여도 좋다.

또한, 본 발명은, 상기 수단의 적어도 일부를 포함하는 제스처 인식 장치로서 특정할 수 있다. 또한, 상기 제스처 인식 장치의 제어 방법이나, 상기 제스처 인식 장치를 동작시키기 위한 프로그램, 당해 프로그램이 기록된 기록 매체로서 특정할 수도 있다. 상기 처리나 수단은, 기술적인 모순이 생기지 않는 한 자유롭게 조합시켜서 실시할 수 있다.

본 발명에 의하면, 제스처 입력을 행하는 이용자의 주위에 복수의 이용자가 있는 경우라도, 이용자마다 커스터마이즈된 제스처 입력을 정확하게 취득할 수 있는 제스처 인식 장치를 제공할 수 있다.

도 1은 제1의 실시 형태에 관한 제스처 인식 시스템의 구성도.
도 2는 개인 설정 데이터의 예를 도시하는 도면.
도 3은 제스처 정의 데이터의 예를 도시하는 도면.
도 4는 종래 기술에 의한 제스처 인식 처리를 설명하기 위한 도면.
도 5는 제1의 실시 형태에서의 대응시킴 처리의 처리 플로 차트도.
도 6은 제1의 실시 형태에서 화상 취득부가 취득한 화상의 예를 도시하는 도면.
도 7은 제1의 실시 형태에서의 제스처 인식 장치의 처리 플로 차트도.
도 8은 제3의 실시 형태에서 화상 취득부가 취득한 화상의 예를 도시하는 도면.

(제1의 실시 형태)

<시스템 구성>

제1의 실시 형태에 관한 제스처 인식 시스템의 개요에 관해, 시스템 구성도인 도 1을 참조하면서 설명한다. 제1의 실시 형태에 관한 제스처 인식 시스템은, 제스처 인식 장치(100) 및 제어 대상 기기(200)로 이루어지는 시스템이다.

제스처 인식 장치(100)는, 이용자가 행한 제스처를, 카메라를 이용하여 인식함과 함께, 제스처를 행한 이용자를 특정하고, 당해 이용자 및 당해 제스처에 대응하는 커맨드를 생성하고, 제어 대상 기기(200)에 송신하는 장치이다.

또한, 제어 대상 기기(200)는, 제스처 인식 장치(100)로부터 커맨드를 수신하는 장치이고, 전형적으로는, 텔레비전, 비디오 레코더, 컴퓨터, 에어컨, TV 회의 시스템 등의 전기 제품이다. 제어 대상 기기(200)는, 유선 또는 무선에 의해, 제스처 인식 장치(100)로부터 커맨드를 수신할 수 있으면, 어떤 기기라도 좋다.

본 실시 형태에서는, 제어 대상 기기(200)는 텔레비전이고, 제스처 인식 장치(100)는, 당해 텔레비전에 내장된 장치인 것으로 한다.

다음에, 제스처 인식 장치(100)에 관해 상세히 설명한다.

제스처 인식 장치(100)는, 화상 취득부(101), 개인 설정 기억부(102), 처리부(103), 커맨드 생성부(104)를 갖는다.

화상 취득부(101)는, 외부로부터 화상을 취득하는 수단이다. 본 실시 형태에서는, 텔레비전 화상면의 정면 상부에 부착된 카메라(도시생략)를 이용하여, 이용자를 촬상한다. 화상 취득부(101)가 이용하는 카메라는, RGB 화상을 취득하는 카메라라도 좋고, 그레이 스케일 화상이나, 적외선 화상을 취득하는 카메라라도 좋다. 또한, 화상은 반드시 카메라에 의해 취득될 필요는 없고, 예를 들면, 거리 센서가 생성한, 거리의 분포를 나타내는 화상(거리 화상)이라도 좋다. 또한, 거리 센서와 카메라의 조합 등이라도 좋다.

화상 취득부(101)가 취득하는 화상은, 이용자가 행한 제스처와, 당해 이용자의 얼굴(구체적으로는 얼굴의 특징량)을 취득할 수 있으면, 어떠한 화상이라도 좋다. 또한, 취득하는 화상의 화각은, 텔레비전의 시야각과 개략 동일하면 좋다.

개인 설정 기억부(102)는, 장치의 이용자를 식별하는 정보를 기억하는 수단이다. 장치의 이용자를 식별하는 정보란, 취득한 얼굴화상에 의거하여 인물을 판정하기 위한 정보이고, 예를 들면, 수치화된 얼굴의 특징량 등이다.

또한, 개인 설정 기억부(102)는, 제스처의 내용과, 당해 제스처에 대응시켜진 커맨드를, 이용자마다 기억하는 수단이다. 예를 들면, 어느 이용자에 관해, 「펼쳐진 오른손을 오른쪽 방향으로 이동시키는 제스처」와, 「음량 업」을 나타내는 커맨드를 대응시켜서 기억한다.

제1의 실시 형태에서는, 이용자를 식별하는 정보를 「개인 설정 데이터」, 제스처와 커맨드의 대응이 정의된 정보를 「제스처 정의 데이터」라고 칭한다. 도 2의 (A)에, 제1의 실시 형태에서의 개인 설정 데이터의 예를, 도 3에, 제스처 정의 데이터의 예를 도시한다. 쌍방의 데이터는, 이용자 식별자인 유저 ID에 의해 결부되어 있다.

처리부(103)는, 화상 취득부(101)가 취득한 화상에 의거하여 제스처를 취득하고, 개인 설정 기억부(102)에 기억된 개인 설정 데이터에 의거하여, 제스처를 행한 인물을 특정하는 수단이다. 또한, 개인 설정 기억부(102)에 기억된 제스처 정의 데이터에 의거하여, 생성하여야 할 커맨드를 결정하는 수단이다. 상세한 동작에 관해서는 후술한다.

커맨드 생성부(104)는, 처리부(103)가 결정한 커맨드를 생성하는 수단이다. 커맨드란, 제어 대상 기기(200)를 제어하기 위한 신호이고, 전기 신호라도 좋고, 무선에 의해 변조된 신호나, 펄스 변조된 적외선 신호 등이라도 좋다.

제스처 인식 장치(100)는, 프로세서, 주기억 장치, 보조 기억 장치를 갖는 컴퓨터이고, 보조 기억 장치에 기억된 프로그램이 주기억 장치에 로드되어, 프로세서에 의해 실행됨에 의해, 전술한 각 수단이 기능한다(프로세서, 주기억 장치, 보조 기억 장치는 모두 도시 생략).

<제스처 및 인물이 대응시킴 처리>

다음에, 처리부(103)가 행하는 처리에 관해 상세하게 설명한다.

도 4는, 화상 취득부(101)가 취득한 화상의 예이다. 즉, 텔레비전 화상면에 정면으로 대하는 이용자를, 화면측에서 본 도면이다. 여기서는, 이용자(A) 및 이용자(B)의 두 사람이 텔레비전의 앞에 있는 것으로 한다.

제스처의 추출은, 제스처를 행하는 부위(이하, 대상 부위)를 화상으로부터 검출함으로써 행한다. 본 실시 형태의 경우, 이용자는 손을 이용하여 제스처를 행하는 것으로 한다. 처리부(103)는, 예를 들면, 화상 중에서, 사람의 손을 나타내는 영역(부호 41)를 검출하고, 그 움직임을 추적함으로써, 손의 움직임에 의해 표시되는 제스처를 추출할 수 있다. 또한, 대상 부위의 형상을 취득함으로써, 손가락의 형태에 의해 표시되는 제스처를 추출할 수 있다.

또한, 대상 부위의 검출 및 제스처의 추출은, 예를 들면, 일본 특개2000-149025호 공보에 기재되어 있는 바와 같은, 특징점을 검출하고, 미리 기억된 모델과 비교하는 방법에 의해 행할 수 있다. 또한, 그 밖의 공지의 기술을 이용할 수도 있기 때문에, 상세한 방법에 관한 설명은 생략한다.

추출 가능한 제스처에는, 예를 들면, 「손 전체를 움직여서 방향을 나타낸다」, 「도형을 묘화한다」, 「손가락을 세운다」, 「손가락을 움직인다」 등이 있다. 또한, 마커를 사용하는 경우, 마커의 종류(색이나 형태)에 의해 다른 조작을 표현하여도 좋다.

종래의 기술에서는, 화상 중의 얼굴을 검출함으로써, 제스처를 행한 인물이 누구인지를 식별할 수 있다. 그러나, 화상 중에 복수의 인물이 있는 경우, 검출한 대상 부위가 누구에게 관련지어진 것인지(즉, 이용자(A)의 손인지, 이용자(B)의 손인지)를 판정할 수가 없다. 따라서, 당해 제스처에 대해, 인물마다 다른 커맨드가 정의되어 있는 경우, 생성하여야 할 커맨드를 일의적으로 결정할 수가 없다.

이 문제를 해결하기 위해서는, 검출한 대상 부위와, 검출한 얼굴을 대응시키는 처리가 필요해진다. 그래서, 본 실시 형태에 관한 처리부(103)는, 인체의 형상을 표시한 모델(이하, 인체 모델)을 기억하고, 그 인체 모델을 이용하여, 검출한 대상 부위와, 검출한 얼굴을 대응시킨다

여기서, 대응시킴의 한 실시 형태에 관해 예시한다. 도 5는, 처리부(103)가 행하는, 인체 모델을 이용한 대응시킴의 처리예를 도시한 플로 차트이다. 여기서는, 이미 화상의 취득과, 얼굴의 검출, 대상 부위의 검출 및 제스처의 추출이 완료되어 있는 것으로 한다.

우선, 검출한 얼굴의 위치에 의거하여, 인체 모델을 이용하여, 화상 내에서의 이용자의 양 어깨의 위치를 추정한다(스텝 S11).

다음에, 추정한 양 어깨의 위치에 의거하여, 양 팔꿈치의 위치를 추정한다(스텝 S12).

다음에, 추정한 양 팔꿈치의 위치에 의거하여, 양 손목의 위치를 추정한다(스텝 S13).

다음에, 추정한 양 손목의 위치에 의거하여, 양 손의 가동 범위를 추정한다(스텝 S14).

다음에, 추정한 범위에, 검출한 대상 부위가 존재하는지를 판정한다(스텝 S15). 여기서, 대상 부위가 존재하는 경우, 당해 대상 부위는, 검출한 얼굴에 대응시켜진 것이라고 결정할 수 있다. 한편, 대상 부위가 존재하지 않는 경우, 스텝 S16으로 천이하고, 미처리의 얼굴이 화상에 포함되어 있는지를 판정한다. 이 결과, 미처리의 얼굴이 존재하는 경우, 처리 대상의 얼굴을 변경하고(스텝 S17), 스텝 S11부터의 처리를 반복한다. 미처리의 얼굴이 존재하지 않는 경우, 대상 부위와 얼굴과의 대응시킴 불가능하다라고 판정한다.

또한, 인체 모델에 의거하여, 어깨, 팔꿈치, 손목 등의 위치를 추정하는 방법은, 예를 들면, 「T.H.Yu, T-K.Kim, and R.Cipolla, "Unconstrained Monocular 3D Human Pose Estimation by Action Detection and Cross-modality Regression Forest", Proc. of IEEE Conf. on Computer Vision and Pattern Recognition(CVPR), Portland, Oregon, USA, 2013」에 기재되어 있다. 또한, 본 실시 형태에서는, 도 5에 도시한 처리에 의해 판정을 행하고 있지만, 대응시킴은, 인체의 형상을 정의한 데이터에 의거하여 행하면 좋고, 다른 수법을 이용하여 행하여도 좋다.

도 6은, 얼굴과 대상 부위와의 대응시킴 결과를 설명하는 도면이다. 예를 들면, 얼굴(61)에 대응하는 손이 영역(62) 내에 있고, 얼굴(63)에 대응하는 손이 영역(64) 내에 있는 것을 나타내고 있다. 본 실시 형태에 관한 제스처 인식 장치는, 이상에 설명한 바와 같은 처리를 행함으로써, 제스처를 행한 부위와, 제스처를 행한 인물의 얼굴을 대응시킬 수 있다.

<전체 처리>

다음에, 본 실시 형태에 관한 제스처 인식 장치(100)가 행하는 처리의 전체를, 처리 플로 차트인 도 7을 참조하면서 설명한다.

우선, 화상 취득부(101)가, 부도시의 카메라로부터 화상을 취득한다(스텝 S21). 본 스텝에서는, 예를 들면 텔레비전 화면의 정면 상부에 구비된 카메라를 이용하여, RGB 컬러 화상을 취득한다.

다음에, 처리부(103)가, 취득한 화상으로부터, 대상 부위의 검출 및 제스처의 추출을 시도한다(스텝 S22). 예를 들면, 도 3에 도시한 제스처 정의 데이터가 기억되어 있는 경우, 「손가락을 1개 세운다」라는 제스처와, 당해 제스처를 행한 손의 위치를 검출하고, 양자를 관련시켜서 일시적으로 기억한다. 여기서, 제스처가 추출되지 않은 경우는, 스텝 S21로 되돌아와, 재차 화상을 취득한다.

또한, 본 실시 형태의 설명에서는, 설명을 간단하게 하기 위해, 1매의 화상으로부터 하나의 제스처를 추출하는 것으로 하지만, 복수의 화상을 연속해서 취득하고, 움직임에 의한 제스처를 추출하도록 하여도 좋다. 이 경우, 스텝 S22에서는, 움직임에 의한 제스처가 검출될 때까지, 복수 프레임의 화상을 일시적으로 축적하도록 하여도 좋다.

다음에, 처리부(103)가, 취득한 화상에 포함되는 얼굴을 전부 검출한다(스텝 S23). 구체적으로는, 화상 중의 얼굴의 좌표와, 당해 얼굴의 특징량을 취득한다.

다음에, 처리부(103)가, 스텝 S11 내지 S17의 처리를 행함으로써, 검출한 얼굴과, 검출한 대상 부위를 대응시킨다(스텝 S24).

또한, 본 실시 형태의 설명에서는, 1매의 화상을 이용하여 대응시킴을 행하는 것으로 하지만, 복수 프레임의 화상을 취득한 경우, 당해 복수의 프레임에 관해 각각 대응시킴을 행하도록 하여도 좋다. 예를 들면, 대응시킴을 할 수가 없었던 프레임의 비율이 소정치 이상 있는 경우에, 대응시킴 실패라고 판정하여도 좋다.

다음에, 처리부(103)가, 스텝 S23에서 검출한 얼굴이 어느 이용자의 것인지를 판정하고, 스텝 S22 및 스텝 S24의 처리 결과를 이용하여, 제스처를 행한 인물을 특정한다(스텝 S25).

구체적으로는, 개인 설정 기억부(102)에 기억된 개인 설정 데이터를 참조하고, 검출한 얼굴의 특징량을 비교함으로써, 당해 얼굴에 대응하는 유저 ID를 취득한다. 그리고, 스텝 S22에서 취득한 「대상 부위에 의해 행하여진 제스처」와, 스텝 S24에 취득한 「검출한 얼굴에 대응하는 대상 부위」에 관한 정보를 이용하여, 제스처를 행한 인물의 유저 ID를 특정한다. 예를 들면, 「손가락을 1개 세운다」는 제스처를, 「0001」라는 유저 ID를 갖는 이용자가 행하였다고 판정한다.

다음에, 스텝 S26에서, 커맨드 생성부(104)가, 개인 설정 기억부(102)에 기억된 제스처 정의 데이터를 참조하여, 대응하는 제어 신호를 생성하고, 제어 대상 기기(200)에 송신한다. 도 3의 예에서는, 「채널을 1로 변경」이라는 커맨드를 나타내는 제어 신호를 생성하고, 제어 대상 기기(200)에 송신한다.

제1의 실시 형태에 의하면, 인체 모델에 의거하여, 제스처를 행한 대상 부위와 얼굴과의 대응시킴을 행하기 때문에, 검출된 제스처가 누구에 의해 이루어진 것인가를 정밀도 좋게 식별할 수 있다. 이에 의해, 화상 내에 복수의 인물이 존재하고, 이용자마다 제스처가 커스터마이즈되어 있는 경우라도, 이용자가 소망한 입력 조작을 올바르게 행할 수 있다.

또한, 복수의 제스처에 각각 대응시켜진 디폴트의 커맨드를 기억시키고, 스텝 S25에서 인물의 특정에 실패한 경우, 당해 디폴트의 커맨드를 생성하도록 하여도 좋다. 또한, 스텝 S25에서 인물의 특정에 실패한 경우, 커맨드의 생성을 행하지 않도록 하여도 좋다. 또한, 이용자를 특정할 수가 없는 취지의 에러를 나타내는 신호를 제어 대상 기기(200)에 송신하도록 하여도 좋다.

또한, 본 예에서는, 1인이 하나의 제스처를 행하는 예에 관해 기술하였지만, 스텝 S22에서 복수의 제스처가 검출되고, 스텝 S23에서 복수의 얼굴이 검출된 경우는, 각각의 대응시킴을 시도하도록 하여도 좋다. 이 결과, 복수의 대응시킴이 이루어진 경우, 복수의 인물에 의해 동시에 제스처가 행하여진 것을 의미하기 때문에, 스텝 S24 내지 S26의 처리를, 검출된 얼굴의 수만큼 반복하여 행하도록 하여도 좋다.

또한, 도 7에 도시한 각 스텝은, 반드시 순번대로 실행될 필요는 없다. 예를 들면, 임의의 처리를, 다른 처리와 병렬하여 행하여도 좋다.

(제1의 실시 형태의 변형례)

제1의 실시 형태에서는, 인체 모델을 이용하여, 제스처를 행한 대상 부위와 얼굴과의 대응시킴을 행하였지만, 스텝 S24의 처리(즉 스텝 S11 내지 S17의 처리)를 실행하지 않고도 대응시킴을 행할 수가 있는 경우, 당해 스텝의 실행을 생략하여도 좋다.

예를 들면, 화상 중에 인물이 두 사람 이상 있는 경우로서, 검출한 얼굴 및 대상 부위의 좌표나 크기로부터, 스텝 S24를 실행하지 않고서도 대응시킴이 행할 수 있다고 판정한 경우, 스텝 S24를 실행하지 않고 대응시킴을 행하여도 좋다. 또한, 화상 중에 얼굴이 하나밖에 검출되지 않은 경우도 마찬가지이다.

이와 같이 함으로써 처리시간을 단축할 수 있고, 제스처 입력시에 있어서의 이용자의 대기 시간을 줄일 수 있다.

(제2의 실시 형태)

제2의 실시 형태는, 화상 중에 있는 복수의 인물이 동시에 제스처를 행한 경우, 이용자마다 정의된 우선도에 따라 커맨드의 생성을 행하는 실시 형태이다. 제2의 실시 형태에 관한 제스처 인식 장치의 구성은, 이하에 설명하는 점을 제외하고, 제1의 실시 형태와 마찬가지이다.

제2의 실시 형태에서는, 개인 설정 기억부(102)에 기억되는 개인 설정 데이터에, 도 2(B)와 같이 우선도가 추가된다. 또한, 처리부(103)가, 같은 시기에 두 사람 이상의 인물이 제스처를 행하였다고 판정한 경우에, 스텝 S26에서, 이용자에 대응하는 우선도를 취득하고, 상대적으로 우선도가 낮은 이용자가 행한 제스처의 처리를 행하지 않는다. 예를 들면, 유저 ID가 「0001」인 이용자와, 「0002」인 이용자가 동시에 제스처를 행한 경우, 우선도가 낮은, 유저 ID「0002」의 이용자가 행한 제스처에 관해서는, 커맨드의 생성 처리를 행하지 않는다.

제2의 실시 형태에 의하면, 이용자마다 우선도를 부여함으로써, 조작의 충돌을 막을 수 있다.

또한, 우선도의 판단은, 예를 들면, 음량 업과 음량 다운이 동시에 지시된 경우 등, 서로 경합한 내용의 입력이 동시에 행하여진 경우에만 행하도록 하여도 좋다.

또한, 이용자에게 우선도를 부여하는 것이 아니라, 커맨드에 우선도를 부여하고, 우선도가 낮은 커맨드를 생성하지 않도록 하여도 좋다. 예를 들면, 음량 조작보다도 전원 조작을 우선하도록 하여도 좋다.

(제3의 실시 형태)

제3의 실시 형태는, 화상 중의 얼굴과 대상 부위의 대응시킴에 실패한 경우에, 제스처를 행한 이용자를 추정하여 커맨드를 생성하는 실시 형태이다. 제2의 실시 형태에 관한 제스처 인식 장치의 구성은, 이하에 설명하는 점을 제외하고, 제1의 실시 형태와 마찬가지이다.

예를 들면, 도 8과 같이, 화상에 포함되는 인물이 2사람 있는 경우로서, 각각이 제스처를 행한 경우를 생각한다. 검출한 대상 부위는 2(부호 81 및 83)개이지만, 얼굴은 하나(부호 82)밖에 검출되어 있지 않기 때문에, 제1 및 제2의 실시 형태에서는, 부호 83로 나타냈던 대상 부위에 관해, 대응시킴을 행할 수가 없다. 그래서, 제3의 실시 형태에서는, 스텝 S24에서, 대응시킴에 실패한 경우, 스텝 S25 대신에, 이하에 설명하는 처리를 실행함에 의해, 이용자를 추정한다.

제1의 방법은, 과거에 취득한 화상을 이용하는 방법이다. 이 방법을 이용하는 경우, 처리부(103)가, 스텝 S21에서 취득한 화상을 일정 기간 보존하여 두고, 보존된 화상을 참조함으로써, 이용자를 추정한다. 예를 들면, 제스처를 검출하기 직전에 프레임 아웃한 인물이 있는 경우, 대응시킴에 실패한 대상 부위는, 그 인물의 것이라고 추정할 수 있다.

제2의 방법은, 이력 데이터를 이용하는 방법이다. 예를 들면, 처리부(103)가, 스텝 S26에서 커맨드를 생성할 때에 조작 이력을 생성하여 보존하여 두고, 당해 조작 이력을 참조함으로써, 이용자를 추정한다. 예를 들면, 현재 시각의 전후에서 매일 기기를 조작하고 있는 이용자가 있는 경우, 대응시킴에 실패한 대상 부위는, 그 인물의 것이라고 추정할 수 있다.

제3의 방법은, 개인 설정 데이터를 참조하여 판단하는 방법이다. 예를 들면, 개인 설정 데이터에 등록되어 있는 이용자가 n명 있는 경우로서, 화상으로부터 검출된 대상 부위의 수가 n개 있고, 검출된 얼굴의 수가 (n-1)개였던 경우, 대응시킴에 실패한 대상 부위는, 등록되어 있는 이용자 중, 얼굴이 검출되지 않은 인물의 것일 가능성이 있다.

그래서, 스텝 S23에서 취득한 데이터에 의거하여 얼굴의 식별을 행함으로써 이것을 확인하도록 하여도 좋다. 즉, 등록되어 있는 이용자 중, 얼굴의 식별에 실패한 인물이 1인만 존재하는 경우, 대응시킴에 실패한 대상 부위는, 그 인물의 것이라고 추정할 수 있다.

이상에 설명한 방법 외에도, 이용자를 추정하기 위한 정보를 외부로부터 취득 가능한 경우는, 당해 정보를 이용하여 이용자를 추정하도록 하여도 좋다. 예를 들면, 이용자마다의 텔레비전의 시청 이력을 취득할 수 있는 경우, 당해 시청 이력을 이용하여 이용자를 추정하도록 하여도 좋다.

또한, 이용자의 추정에 실패한 경우는, 제1의 실시 형태와 마찬가지로, 디폴트의 커맨드를 생성하도록 하여도 좋고, 커맨드의 생성을 행하지 않도록 하여도 좋다. 또한, 이용자의 추정을 행한 경우는, 추정을 행한 취지를 나타내는 신호를 제어 대상 기기(200)에 송신하도록 하여도 좋다. 이와 같이 함으로써, 이용자를 추정한 취지를 당해 이용자에게 통지할 수 있다.

(변형례)

또한, 각 실시 형태의 설명은 본 발명을 설명하는데의 예시이고, 본 발명은, 발명의 취지를 일탈하지 않는 범위에서 적절히 변경 또는 조합시켜서 실시할 수 있다.

예를 들면, 실시 형태의 설명에서는, 제스처 인식 장치(100)를, 제어 대상 기기(200)에 조립된 장치라고 하였지만, 제스처 인식 장치(100)는 독립한 장치라도 좋다.

또한, 제스처 인식 장치(100)는, 제어 대상 기기(200)상에서 동작하는 프로그램으로서 실장되어도 좋다. 프로그램으로서 실장하는 경우는, 메모리에 기억된 프로그램을 프로세서가 실행하도록 구성하여도 좋고, FPGA(Field Programmable Gate Array)나 ASIC(Application Specific Integrated Circuit) 등에 의해 실행되도록 구성하여도 좋다.

또한, 실시 형태의 설명에서는, 카메라에 의해 화상을 취득하는 예를 들었지만, 제스처를 취득하고, 또한, 이용자의 얼굴을 식별할 수 있으면, 예를 들면 네트워크 경유로 화상을 수신하는 등, 예시한 방법 이외에 의해 화상을 취득하도록 하여도 좋다.

또한, 처리부(103)가 사용하는 인체 모델은, 인체의 형상을 표시한 데이터이라면, 예시한 바와 같은, 얼굴, 어깨, 팔꿈치, 손목 등의 위치 관계를 수학적으로 표시한 데이터라도 좋고, 골격 모델 등이라도 좋다. 또한, 템플릿 매칭을 행하기 위한 화상 데이터 등이라도 좋다.

100 : 제스처 인식 장치
101 : 화상 취득부
102 : 개인 설정 기억부
103 : 처리부
104 : 커맨드 생성부
200 : 제어 대상 기기

Claims

취득한 화상으로부터 제스처를 검출하고, 당해 제스처에 대응한, 제어 대상 기기에 대한 명령을 생성하는 제스처 인식 장치로서,
화상을 취득하는 화상 취득 수단과,
상기 취득한 화상으로부터, 제스처를 행하는 대상 부위를 검출하고, 검출한 대상 부위의 움직임 또는 형상에 의거하여 제스처를 취득하는 제스처 취득 수단과,
상기 취득한 화상에 포함되는 얼굴을 검출하는 얼굴 검출 수단과,
인체의 형상을 표시한 인체 모델을 이용하여, 상기 검출한 대상 부위와, 상기 검출한 얼굴을 대응시키는 대응시킴 수단과,
상기 검출한 얼굴에 대응하는 이용자를 식별하는 개인 식별 수단과,
상기 식별한 이용자와, 상기 취득한 제스처에 의거하여, 제어 대상 기기에 대한 명령을 생성하는 커맨드 생성 수단을 갖는 것을 특징으로 하는 제스처 인식 장치.
제 1항에 있어서,
제스처와, 제어 대상 기기에 대한 명령의 조(組)를, 이용자마다 대응시킨 데이터인 개인 설정 데이터를 기억하는 제스처 기억 수단을 더 가지며,
상기 커맨드 생성 수단은, 상기 개인 설정 데이터에 또한 의거하여 제어 대상 기기에 대한 명령을 생성하는 것을 특징으로 하는 제스처 인식 장치.
제 2항에 있어서,
상기 대응시킴 수단은, 상기 검출한 얼굴의 좌표와 상기 인체 모델을 이용하여, 상기 검출한 얼굴마다, 대상 부위가 존재한다고 추정되는 범위를 산출하고, 상기 산출한 범위에 상기 대상 부위가 있는 경우에, 당해 대상 부위와 당해 얼굴을 대응시키는 것을 특징으로 하는 제스처 인식 장치.
제 2항 또는 제 3항에 있어서,
상기 제스처 기억 수단은, 이용자에 대응시킨 우선도를 또한 기억하고,
상기 제스처 취득 수단이 취득한 제스처가 같은 시기에 2개 이상 있는 경우에,
상기 커맨드 생성 수단은, 보다 우선도가 높은 이용자에 대응하는 제스처를 우선하여 처리하는 것을 특징으로 하는 제스처 인식 장치.
제 1항 내지 제 3항 중 어느 한 항에 있어서,
상기 대응시킴 수단이, 상기 검출한 대상 부위와, 상기 검출한 얼굴과의 대응시킴에 실패한 경우,
상기 커맨드 생성 수단은, 제스처를 행한 이용자를 고려하지 않고, 상기 제스처에 대응하는 이미 정해진 명령을 생성하는 것을 특징으로 하는 제스처 인식 장치.
제 1항 내지 제 3항 중 어느 한 항에 있어서,
얼굴의 검출 결과를 이용하지 않고, 제스처를 행한 이용자를 추정하는 이용자 추정 수단을 더 가지며,
상기 대응시킴 수단이, 상기 검출한 대상 부위와, 상기 검출한 얼굴과의 대응시킴에 실패한 경우에, 상기 이용자 추정 수단이, 제스처를 행한 이용자를 추정하는 것을 특징으로 하는 제스처 인식 장치.
취득한 화상으로부터 제스처를 검출하고, 당해 제스처에 대응한, 제어 대상 기기에 대한 명령을 생성하는 제스처 인식 장치의 제어 방법으로서,
화상을 취득하는 화상 취득 스텝과,
상기 취득한 화상으로부터, 제스처를 행하는 대상 부위를 검출하고, 검출한 대상 부위의 움직임 또는 형상에 의거하여 제스처를 취득하는 제스처 취득 스텝과,
상기 취득한 화상에 포함되는 얼굴을 검출하는 얼굴 검출 스텝과,
상기 취득한 화상에 인체 모델을 적용함으로써, 상기 검출한 대상 부위와, 상기 검출한 얼굴을 대응시키는 대응시킴 스텝과,
상기 검출한 얼굴에 대응하는 이용자를 식별하는 개인 식별 스텝과,
상기 식별한 이용자와, 상기 취득한 제스처에 의거하여, 제어 대상 기기에 대한 명령을 생성하는 커맨드 생성 스텝을 포함하는 것을 특징으로 하는 제스처 인식 장치의 제어 방법.
취득한 화상으로부터 제스처를 검출하고, 당해 제스처에 대응한, 제어 대상 기기에 대한 명령을 생성하는 제스처 인식 장치에,
화상을 취득하는 화상 취득 스텝과,
상기 취득한 화상으로부터, 제스처를 행하는 대상 부위를 검출하고, 검출한 대상 부위의 움직임 또는 형상에 의거하여 제스처를 취득하는 제스처 취득 스텝과,
상기 취득한 화상에 포함되는 얼굴을 검출하는 얼굴 검출 스텝과,
상기 취득한 화상에 인체 모델을 적용함으로써, 상기 검출한 대상 부위와, 상기 검출한 얼굴을 대응시키는 대응시킴 스텝과,
상기 검출한 얼굴에 대응하는 이용자를 식별하는 개인 식별 스텝과,
상기 식별한 이용자와, 상기 취득한 제스처에 의거하여, 제어 대상 기기에 대한 명령을 생성하는 커맨드 생성 스텝을 실행시키는 것을 특징으로 하는, 제스처 인식 프로그램이 기록된 기록매체.