KR101767220B1

KR101767220B1 - 스마트 글래스를 이용하는 손 제스처 명령 처리 시스템 및 방법

Info

Publication number: KR101767220B1
Application number: KR1020150177012A
Authority: KR
Inventors: 천승문; 고현철; 김재곤
Original assignee: (주)인시그널; 한국항공대학교산학협력단
Priority date: 2015-06-12
Filing date: 2015-12-11
Publication date: 2017-08-23
Also published as: KR20160146481A; KR20160146594A; KR101675542B1

Abstract

스마트 글래스를 이용하는 손 제스처 명령 처리 시스템 및 방법이 개시된다. 일 실시예에 따른 손 제스처 명령 처리 시스템은 사용자의 손 제스처가 포함된 일련의 이미지를 촬영하고, 상기 일련의 이미지 각각에 포함된 손 이미지를 소정 포맷의 메타데이터로 표현한 손 표현 데이터로 나타내어서 전송하는 스마트 글래스 및 상기 스마트 글래스로부터 수신된 상기 일련의 이미지에 대한 손 표현 데이터를 이용하여 상기 사용자의 손 제스처를 인식하고, 인식된 손 제스처에 대응하는 제스처 명령어를 생성하여 전송하는 제스처 인식 장치를 포함한다.

Description

스마트 글래스를 이용하는 손 제스처 명령 처리 시스템 및 방법{SYSTEM AND METHOD FOR PROCESSING HAND GESTURE COMMANDS USING A SMART GLASS}

본 발명은 웨어러블 전자기기(wearable electronic device)를 활용하는 기술에 관한 것으로, 보다 구체적으로 스마트 글래스(smart glass)를 이용하여 사용자의 손 제스처 명령(hand gesture commands)을 인식하고 처리하기 위한 기술에 관한 것이다.

최근 스마트 폰(smart phone)이나 테블릿 컴퓨터(tablet computer) 등과 같은 휴대용 전자 기기(portable smart electronic device)의 광범위한 보급과 더불어 스마트 밴드(smart band), 스마트 와치(smart watch), 스마트 글래스(smart glass) 등과 같은 웨어러블 전자 기기(wearable electronic device)도 점차 보급이 확산되고 있다. 웨어러블 전자 기기는 사람이 착용하거나 또는 사람에 임베드될 수 있는 장치로서, 네트워크에 직접 연결되거나 또는 다른 전자 기기(예컨대, 스마트 폰)를 통해 연결되어서 통신이 가능한 장치를 가리킨다.

웨어러블 전자 기기들은 해당 제품 자체의 용도 등에 따른 고유의 특성을 가지지만, 해당 제품의 형상이나 크기, 재질 등에 의하여 한정되는 일정한 제약이 존재할 수 있다. 예를 들어, 다양한 웨어러블 전자 기기 중에서 스마트 글래스는 착용자를 위한 사적인 디스플레이로 활용될 수 있다. 그리고 카메라가 구비된 스마트 글래스는 착용자의 시선이 향하는 방향으로 사진이나 동영상을 자연스럽게 촬영할 수가 있다. 특히, 스마트 글래스는 그 구조적인 특성상 양안식 스테레오 카메라를 설치하기가 용이하며, 이 경우 사람의 시선과 같은 입체 영상의 획득도 가능하다. 이러한 스마트 글래스의 특성들로 인하여, 현재 스마트 글래스를 활용하여 사용자 제스처, 예컨대 얼굴 표정이나 손 제스처를 인식하고 이를 사용자 명령으로 인식하여 처리하는 방법이 적극적으로 고려되고 있다.

그런데, 스마트 글래스는 착용 위치나 형상 등의 제약으로 인하여 현재 널리 사용되고 있는 입력 수단, 예컨대 키 패드나 터치 스크린 등의 설치가 어렵고, 무게에 제약이 있을 뿐만 아니라 발열이나 전자파 발생을 최소화해야 하는 제약이 존재한다. 영상 처리 및 제스처 인식 과정을 포함하는 손 제스처 명령 처리 과정은 상당히 고성능(high performance)의 프로세서가 필요하며 이를 위해서는 대용량의 배터리가 필요하다. 하지만, 스마트 글래스는 디자인의 제약과 함께 사람의 얼굴에 착용되는 특성으로 인하여 전력 소모가 많거나 및/또는 발열이나 연산 처리가 많은 고성능 프로세서를 탑재시키기가 어려운 한계가 있다.

따라서 전술한 스마트 글래스의 특성을 충분히 활용하면서도 제품 디자인이나 착용 위치에 따른 제약을 극복할 수 있는 스마트 글래스를 활용하여 손 제스처 명령을 처리하기 위한 새로운 기술이 필요하다.

공개특허공보 제10-2015-0063739호

본 발명이 해결하고자 하는 하나의 과제는 소형이고 제품 디자인의 제약이 많으며 또한 얼굴에 착용하는 스마트 글래스의 특성에 적합한 스마트 글래스를 이용하는 손 제스처 명령 처리 시스템 및 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 다른 하나의 과제는 다양한 응용 분야에 활용이 가능한 스마트 글래스를 이용하는 손 제스처 명령 처리 시스템 및 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 또 다른 하나의 과제는 상대적으로 저전력이면서 저성능의 프로세서가 탑재되더라도 손 제스처 명령을 효율적으로 인식하여 처리할 수 있는 스마트 글래스를 이용하는 손 제스처 명령 처리 시스템 및 방법을 제공하는 것이다.

전술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 손 제스처 명령 처리 시스템은 사용자의 손 제스처가 포함된 일련의 이미지를 촬영하고, 상기 일련의 이미지 각각에 포함된 손 이미지를 소정 포맷의 메타데이터로 표현한 손 표현 데이터로 나타내어서 전송하는 스마트 글래스 및 상기 스마트 글래스로부터 수신된 상기 일련의 이미지에 대한 손 표현 데이터를 이용하여 상기 사용자의 손 제스처를 인식하고, 인식된 손 제스처에 대응하는 제스처 명령어를 생성하여 전송하는 제스처 인식 장치를 포함한다.

상기 실시예의 일 측면에 의하면, 상기 스마트 글래스는 상기 일련의 이미지 각각의 깊이 맵을 이용하여 손 영역과 배경 영역을 구분한 다음, 상기 손 영역을 상기 손 표현 데이터로 나타낼 수 있다.

일례에 의하면, 상기 손 표현 데이터는 상기 손 영역의 경계선을 바이저 곡선으로 표현할 수 있다. 또는, 상기 스마트 글래스는 상기 깊이 맵을 이용하여 소정의 거리 이내에 위치한 픽셀들을 상기 손 영역으로 결정할 수 있다.

다른 예에 의하면, 상기 스마트 글래스는 상기 일련의 이미지 각각의 깊이 맵을 소정 비트의 그레이 레벨로 표시되는 깊이 맵 이미지로 변환하고, 상기 깊이 맵 이미지에서 상기 손 영역과 상기 배경 영역으로 구분한 후에 상기 배경 영역은 모두 그레이 레벨이 '0'이 되도록 표시한 다음 상기 손 영역에 대하여 필터링을 수행하여 상기 손 영역을 상기 손 표현 데이터로 나타낼 수도 있다. 이 경우에 상기 스마트 글래스는 상기 깊이 맵 이미지를 상기 그레이 레벨에 대한 픽셀 빈도의 히스토그램을 만들어서, 상기 픽셀 빈도의 크기가 작으면서 그 전후의 픽셀 빈도는 큰 그레이 레벨을 경계값으로 하여 상기 손 영역과 상기 배경 영역으로 구분할 수 있다.

상기 실시예의 또 다른 측면에 의하면, 상기 제스처 인식 장치는 다수의 손 제스처들과 이들 각각에 대응하는 제스처 커맨드 사이의 대응 관계를 나타내는 제스처 및 커맨드 대비표를 저장하고 있으며, 상기 제스처 및 커맨드 대비표에 기초하여 상기 인식된 손 제스처에 대응하는 제스처 명령어를 결정할 수 있다. 이 경우에, 상기 제스처 및 커맨드 대비표는 사용자에 의하여 설정될 수 있다.

상기 실시예의 또 다른 측면에 의하면, 상기 제스처 인식 장치는 생성된 제스처 명령어를 상기 스마트 글래스 또는 상기 사용자가 제어하고자 하는 다른 전자 기기를 전송할 수 있다.

상기한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 손 제스처 명령 처리 방법은 스마트 글래스에 구비된 카메라를 이용하여 사용자의 손 제스처가 포함된 일련의 이미지를 촬영하는 단계, 상기 일련의 이미지 각각에 포함된 손 이미지를 소정 포맷의 메타데이터로 표현한 손 표현 데이터로 나타내는 단계, 상기 손 표현 데이터를 제스처 인식 장치로 전송하는 단계, 상기 제스처 인식 장치는 상기 스마트 글래스로부터 수신된 상기 일련의 이미지에 대한 손 표현 데이터를 이용하여 상기 사용자의 손 제스처를 인식하는 단계 및 상기 인식된 손 제스처에 대응하는 제스처 명령어를 생성하여 전송하는 단계를 포함한다.

전술한 본 발명의 실시예에 의하면, 스마트 글래스에서는 각 프레임별로 손을 검출하여 이를 소정의 메타데이터로 표현하고 실제 손 제스처를 인식하는 것은 서버 또는 호스트 장치에서 수행된다. 따라서 스마트 글래스는 소형이고 제품 디자인의 제약이 많으며 또한 저전력 및 저성능의 프로세서로 충분하기 때문에 얼굴에 착용하는 스마트 글래스의 특성에 적합하게 제조될 수 있다. 아울러 서버 또는 호스트 장치는 인식된 손 제스처에 대응하는 제스처 커맨드를 생성하여 스마트 글래스는 물론 다른 전자 기기로 전송할 수 있으므로, 스마트 글래스가 다양한 전자 기기의 입력 인터페이스로 활용될 수 있다.

도 1은 본 발명의 일 실시예에 따른 스마트 글래스를 이용하는 손 제스처 명령 처리 시스템의 개략적인 구성을 보여 주는 블록도이다.
도 2는 도 1의 스마트 글래스에 의하여 생성된 깊이 맵을 이미지로 표현한 일례를 보여 주는 도면이다.
도 3은 도 2의 깊이 맵 이미지를 구성하는 전체 픽셀들을 히스토그램으로 표시한 그래프이다.
도 4는 도 2의 깊이 맴 이미지에 대하여 배경 영역을 '0'의 이미지 레벨 값을 부여하여 그레이 레벨 이미지로 표시한 것이다.
도 5는 도 4에 그레이 레벨 이미지에 대하여 필터링 기법을 적용한 후에 얻을 수 있는 상태의 일례를 보여 주는 도면이다.
도 6a는 도 5의 손 이미지의 경계선 또는 윤곽선을 바이저 곡선을 이용하여 표현하는 과정의 일부를 보여 주는 도면이다.
도 6b는 도 6a의 과정에 따라서 도 5의 손 이미지 경계선을 나타내는 바이저 곡선 데이터의 일부를 보여 주는 도면이다.
도 7은 본 발명의 일 실시예에 따른 손 제스처 명령 처리 방법을 보여 주는 흐름도이다.

이하 첨부된 도면을 참조하여 실시예들을 보다 상세히 설명한다. 그러나 이러한 도면은 기술적 사상의 내용과 범위를 쉽게 설명하기 위한 예시일 뿐, 이에 의해 기술적 범위가 한정되거나 변경되는 것은 아니다. 그리고 이러한 예시에 기초하여 기술적 사상의 범위 안에서 다양한 변형과 변경이 가능함은 통상의 기술자에게는 당연할 것이다. 또한, 본 명세서에서 사용되는 용어 및 단어들은 실시예에서의 기능을 고려하여 선택된 용어들로서, 그 용어의 의미는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 따라서 후술하는 실시예들에서 사용된 용어는, 본 명세서에 구체적으로 정의된 경우에는 그 정의에 따르며, 구체적인 정의가 없는 경우는 통상의 기술자들이 일반적으로 인식하는 의미로 해석되어야 할 것이다.

도 1은 본 발명의 일 실시예에 따른 스마트 글래스(smart glass)를 이용하는 손 제스처 명령 처리 시스템(hand gesture commands processing system)의 개략적인 구성을 보여 주는 블록도이다. 도 1을 참조하면, 손 제스처 명령 처리 시스템은 스마트 글래스(100) 및 제스처 인식 장치(gesture recognition apparatus, 200)를 포함한다.

스마트 글래스(100)는 사용자의 손 제스처를 촬영하고 이 촬영된 동영상을 구성하는 각각의 프레임 이미지로부터 손 표현 데이터를 생성하여 제스처 인식 장치(200)로 전송한다. 이를 위하여, 스마트 글래스(100)는 카메라부(camera unit, 110), 검출 및 표현부(detection and representation unit, 120), 및 통신부(communication unit, 130)를 포함한다. 이하, 스마트 글래스(100)에 포함되는 각 구성요소들의 기능에 대하여 구체적으로 설명한다.

카메라부(110)는 이미지를 소정의 시간 동안 연속적으로 촬영하기 위한 장치, 즉 이미지 시퀀스를 획득(capture)하기 위한 장치이다. 카메라부(110)는 특히, 사용자의 손 제스처가 포함된 이미지 시퀀스를 획득한다. 이를 위하여, 카메라부(110)는 스마트 글래스(100)의 앞쪽, 즉 사용자의 시선이 향하는 방향을 촬영하도록 안경테에 부착되거나 또는 내장(embed)될 수 있다. 하지만, 본 실시예가 여기에만 한정되는 것은 아니며, 카메라부(110)는 다른 방법으로 스마트 글래스(100)에 물리적으로 구현될 수도 있다.

카메라부(110)는 검출 및 표현부(120)가 촬영된 영상으로부터 사용자의 손을 검출할 수 있도록 이미지 시퀀스를 획득하여 전달한다. 따라서 카메라부(110)가 획득하여 검출 및 표현부(120)로 전달하는 이미지 시퀀스는 검출 및 표현부(120)에서 손 검출을 위하여 사용하는 알고리즘에 따라서 달라질 수 있다. 후술하는 바와 같이, 검출 및 표현부(120)에서 손의 검출을 위하여 사용하는 알고리즘에 특별한 제한이 없으므로, 카메라부(110)에 구비되는 카메라의 종류도 특별한 제한이 없다.

일 실시예에 의하면, 카메라부(110)는 스테레오스코픽 카메라(stereoscopic camera)를 포함할 수 있다. 스테레오스코픽 카메라는 좌측 카메라와 우측 카메라가 소정의 간격으로 이격되어 있는 한 쌍의 카메라를 가리킨다. 스테레오스코픽 카메라를 이용하면, 실제 사용자의 두 눈을 통하여 보는 것과 같이 피사체를 촬영하는 것이 가능하기 때문에, 자연스러운 스테레오스코픽 영상, 즉 좌영상과 우영상으로 구성된 한 쌍의 영상을 한 번에 얻을 수가 있다.

다른 실시예에 의하면, 카메라부(110)는 깊이 카메라(depth camera)를 포함할 수 있다. 깊이 카메라는 근적외선(Infrared Ray, IR) 등과 같은 광을 피사체에 조사하여 해당 피사체까지의 거리에 대한 데이터를 획득할 수 있는 카메라를 가리킨다. 이러한 깊이 카메라를 이용하면 곧바로 피사체에 대한 깊이 정보, 즉 깊이 맵(depth map)을 얻을 수 있는 장점이 있지만, IR을 발광시킬 수 있는 발광 다이오드(Light Emitting Diode, LED)와 같은 광원이 추가로 필요할 뿐만 아니라 광원에서의 전원 소모가 크다는 단점이 있다. 이하, 카메라부(110)가 스테레오스코픽 카메라를 구비하는 경우에 대해서 검출 및 표현부(120)의 기능에 관해서 자세히 설명하지만, 카메라부(110)가 깊이 카메라를 포함하는 경우에도 적용될 수 있다. 이 경우에, 후술하는 검출 및 표현부(120)의 기능들에서 깊이 맵을 구하기까지의 과정은 생략될 수 있다는 것은 당업자에게 자명하다.

검출 및 표현부(120)는 먼저 카메라부(110)에서 획득한 스테레오스코픽 영상을 이용하여 사용자의 손을 검출한다. 여기서, '사용자의 손'이란 사용자가 제어하고자 하는 전자 기기에 제스처로 표현되는 소정의 명령어를 입력하기 위한 수단을 가리킨다. 후술하는 바와 같이, 사용자가 제어하고자 하는 전자 기기는 스마트 글래스(100)에 한정되지 않은데, 이 경우에는 제스처 인식 장치(200)로부터 출력되는 제스처 커맨드(gesture command)는 스마트 글래스(100)가 아닌 다른 전자 기기, 예컨대 스마트 폰이나 스마트 TV와 같은 멀티미디어 기기가 될 수도 있다. 따라서 사용자의 손 대신에 이와 동일한 기능을 수행하기 위한 다른 수단이 검출 및 표현부(120)에 의한 검출 대상이 될 수도 있다. 이 경우에는 물론 카메라부(110)는 이러한 검출 대상을 포함하는 영상의 시퀀스를 촬영하여 획득할 것이다.

검출 및 표현부(120)가 사용자의 손을 검출하는 방식에는 특별한 제한이 없다. 예를 들어, 검출 및 표현부(120)는 우선 카메라부(110)로부터 전달되는 좌우 영상 각각의 데이터, 즉 동일 시점에 획득한 한 쌍의 영상 프레임에 대한 데이터를 수신한다. 수신되는 좌우 영상 각각의 데이터는 RGB 이미지일 수 있다. 그리고 검출 및 표현부(120)는 카메라부(110)로부터 전달되는 한 쌍의 RGB 이미지를 이용하여 깊이 맵을 생성한다. 검출 및 표현부(120)는 소정의 알고리즘, 예컨대 한 쌍의 RGB 이미지에 대하여 스테레오 매칭(stereo matching) 방법을 적용하여 깊이 맵을 생성할 수 있다.

도 2는 검출 및 표현부(120)에 의하여 생성된 깊이 맵을 이미지로 표현한 일례를 보여 주는 도면이다. 깊이 맵은 카메라부(120)와 피사체 사이의 거리를 소정의 값으로 표현한 데이터를 가리킨다. 예를 들어, 깊이 맵은 카메라부(120)와 가장 먼 곳에 위치한 피사체 사이의 거리를 2⁸=256개의 범위로 나눈 후에, 피사체까지의 거리에 대응하도록 각 픽셀 단위로 0부터 255 사이의 어느 한 값, 즉 8비트 데이터로 표시된 데이터의 집합일 수 있다. 그리고 도 2에 도시되어 있는 깊이 맵 이미지는 이러한 깊이 맵을 그레이 레벨 이미지(gray level image)로 픽셀 단위로 표현한 것이다. 통상적으로 가까운 거리에 있는 픽셀은 그레이 레벨 이미지에서 밝게 표시되고 반대로 먼 거리에 있는 픽셀은 그레이 레벨 이미지에서 어둡게 표시되지만, 이것은 단지 예시적인 것이다. 도 2에서 밝게 표시되어 있는 피사체는 카메라부(110), 즉 이를 포함하는 스마트 글래스(100)를 착용하고 있는 사용자로부터 가까운 거리에 있는 피사체에 해당되고 반대로 어둡게 표시되어 있는 피사체는 카메라부(110), 즉 이를 포함하는 스마트 글래스(100)를 착용하고 있는 사용자로부터 먼 거리에 있는 피사체에 해당될 수 있다.

그리고 검출 및 표현부(120)는 깊이 맵에 기초하여 손 영역과 배경 영역을 분리한다. 검출 및 표현부(120)가 손 영역과 배경 영역의 분리를 위하여 사용하는 알고리즘에는 특별한 제한이 없는데, 현재까지 개발되어 있는 다양한 이미지 처리 및 인식 알고리즘이나 장래에 개발되는 이미지 처리 및 인식 알고리즘도 사용할 수 있다. 다만, 스마트 글래스(100)에 구비되는 검출 및 표현부(120)는 전력 소모나 프로세싱 능력에 있어서 일정한 제한이 따르므로, 가능한 이러한 문제를 최소화할 수 있는 알고리즘을 사용하는 것이 바람직하다.

일례로, 검출 및 표현부(120)는 손과 배경 사이에는 상대적으로 비어 있는 공간이 있다는 특성을 이용하여, 손 영역과 배경 영역을 분리할 수 있다. 이 경우에는 상기 비어 있는 공간을 경계값으로 하여 손 영역과 배경 영역을 분리할 수 있다. 이 경우에 스마트 글래스(100)에 구비되어 있는 스테레오스코픽 카메라, 즉 좌측 카메라와 우측 카메라 사이의 간격을 고려하여 손 영역과 배경 영역의 분리가 예상되는 지점을 경계값으로 결정할 수 있다.

손 영역과 배경 영역을 분리하는데 있어서 전술한 특성들을 이용할 수 있도록, 검출 및 표현부(120)는 깊이 맵의 히스토그램 그래프를 만들고 이를 이용할 수 있다. 도 3은 도 2의 깊이 맵 이미지를 구성하는 전체 픽셀들을 히스토그램으로 표시한 그래프이다. 도 3에서 가로축은 8비트의 그레이 레벨로 표현되는 픽셀값을 나타내고, 세로축은 픽셀의 빈도수를 나타낸다. 도 3을 참조하면, 그레이 레벨이 170인 값을 경계값으로 하고 있는데, 그레이 레벨이 170인 값은 빈도수가 아주 작고 그 전후로 빈도수가 상대적으로 크게 나타나기 때문에, 그레이 레벨이 170인 공간의 앞과 뒤로 손과 배경이 분리되는 것으로 판단할 수 있기 때문이다. 따라서 이 경우에는 경계값보다 더 큰 그레이 레벨(즉, 기준보다 더 가까운 거리)에 해당되는 픽셀들은 손 영역하고 더 작은 그레이 레벨(즉, 기준보다 더 먼 거리)에 해당되는 픽셀들은 배경 영역으로 구분할 수 있다.

이와는 달리, 사용자가 착용하고 있는 스마트 글래스(100)로부터 사용자의 손이 떨어질 수 있는 거리는 특정 범위 이내로 제한될 수 밖에 없는 특성을 이용하여, 손 영역과 배경 영역을 분리할 수 있다. 이 경우에, 사용자로부터 일정한 범위 이내의 픽셀들(피사체)만을 손 영역으로 판단하고 나머지 픽셀들은 배경 영역으로 판단할 수 있다. 예를 들어, 도 3에서 그레이 레벨이 180부터 240사이와 같이 소정 범위의 그레이 레벨들, 즉 손이 물리적으로 위치할 수 있는 거리의 범위의 픽셀들만을 손 영역으로 판단하고 나머지 픽셀들은 배경 영역인 것으로 판단할 수도 있다.

그리고 검출 및 표현부(120)는 노이즈(noise)를 제거하고 또한 필요한 경우에는 손과 배경 사이의 경계가 자연스럽게 되도록 하기 위하여, 이전 단계에서 얻은 결과물에 대하여 소정의 필터링을 적용할 수 있다. 이를 위하여, 검출 및 표현부(120)는 우선 이전 단계의 결과물을 이용하여 손 영역에 해당하는 픽셀만을 추출한다. 일례로, 검출 및 표현부(120)는 이전 단계에서 손 영역으로 판단한 픽셀들과 배경 영역으로 판단한 픽셀들에 대하여 각각 '0'과 '1 또는 255'의 값을 부여하거나 또는 반대로 각각 '1 또는 255'와 '0'의 값을 부여하여, 손 영역을 추출할 수 있다. 또는, 검출 및 표현부(120)는 이전 단계에서 손 영역으로 판단한 픽셀들은 그대로 두고, 배경 영역으로 판단한 부분만 '0'의 값을 부여함으로써, 손 영역만을 추출할 수도 있다.

도 4는 후자의 경우와 같이, 검출 및 표현부(120)가 이전 단계에서 손 영역으로 판단한 픽셀들은 그대로 두고, 배경 영역으로 판단한 부분만 '0'의 값을 부여하여 그레이 레벨 이미지로 표시한 것이다. 도 4를 참조하면, 손 영역으로 판단된 부분은 도 3에 도시된 것과 동일하지만, 나머지의 배경 영역에 해당되는 픽셀들은 모두 '0'으로 설정되어 까맣게 표시되어 있는 것을 알 수 있다. 다만, 도 3에 도시된 깊이 맵 자체가 정확하게 표시되기 어렵고 또한 일부 피사체의 경우에는 스마트 글래스(100)로부터의 거리가 손과 실제로 유사할 수 있기 때문에, 도 4에 도시된 바와 같이, 손과 배경 사이의 경계가 다소 거칠게 표현되기도 하고 또한 배경임에도 불구하고 손 영역으로 표시되는 노이즈도 포함되어 있다는 것을 알 수 있다.

검출 및 표현부(120)는 소정의 필터링 기법을 적용함으로써 거칠게 표현된 경계를 부드럽게 하고 또한 노이즈를 제거한다. 이러한 필터링를 위하여, 검출 및 표현부(120)가 적용하는 알고리즘에는 특별한 제한이 없다. 예를 들어, 검출 및 표현부(120)는 통상적인 영상처리에서 사용하는 침식(erosion), 팽창(dilation) 등의 필터링 처리를 적용함으로써 경계가 부드럽게 되도록 표현할 수 있다. 아울러, 픽셀의 위치 정보 등을 활용한 필터링 기법을 이용하여, 손 영역이 아닌 부분에 있는 노이즈를 제거할 수도 있다. 도 5는 도 4에 그레이 레벨 이미지에 대하여 전술한 필터링 기법을 적용한 후에 얻을 수 있는 상태의 일례를 보여 주는 도면이다.

이상에서 설명한 바와 달리, 검출 및 표현부(120)는 스테레오스코픽 카메라를 이용하여 획득한 영상을 구성하는 픽셀들의 RGB값을 이용하여 손 영역을 검출할 수도 있다. 또는, 검출 및 표현부(120)는 배경 영역과 손 영역을 분리하는 전술한 알고리즘에서 RGB값을 보조 데이터로 활용할 수도 있다.

계속해서 도 1을 참조하면, 검출 및 표현부(120)는 검출된 사용자의 손을 소정의 데이터 포맷으로 표현한다. 즉, 검출 및 표현부(120)는 도 5에 도시된 것과 같은 각 프레임의 손 이미지를 미리 약속되어 있는 데이터 포맷, 즉 메타데이터를 사용하여 손 표현 데이터로 나타낸다. 여기서, 메타데이터가 어떠한 방식으로 체계화되어 있는지에 대하여 특별한 제한이 없다. 예를 들어, 도 5에 도시된 것과 같은 손 이미지를 적절하게 표현할 수 있도록 이미 개발되어 있는 데이터 포맷을 활용하거나 또는 추후 개발되거나 확정될 새로운 데이터 포맷을 활용할 수도 있다.

예를 들어, 검출 및 표현부(120)는 깊이 맵 이미지의 포맷(예컨대, jpeg 파일 포맷이나 bmp 파일 포맷 등)으로 검출된 손 이미지를 표현할 수 있는데, 이를 위하여 MPEG-V 표준에 규정되어 있는 것과 같은 RGB/Depth/Stereo Camera Type에 규정되어 있는 원래 포맷(raw format)이 적용될 수 있다. 또는, 검출 및 표현부(120)는 런 길이 부호화 포맷(run length code format)을 활용하여 보다 효율적으로 깊이 맵 이미지를 표현할 수도 있다.

다른 예로, 검출 및 표현부(120)는 손의 윤곽선을 소정의 방법, 예컨대 바이저 곡선(beiser curve)으로 표현하는 방식으로 깊이 맵 이미지를 표현할 수도 있다. 도 6a은 도 5의 손 이미지의 경계선 또는 윤곽선을 바이저 곡선을 이용하여 표현하는 과정의 일부를 보여 주는 도면이고, 또한 도 6b는 도 6a의 과정에 따라서 도 5의 손 이미지 경계선을 나타내는 바이저 곡선 데이터의 일부를 보여 주는 것이다.

또 다른 예로, 검출 및 표현부(120)는 상징적 도는 기하학적 패턴 포맷(symbolic and geometric pattern format)으로 깊이 맵 이미지를 표현할 수도 있다. 이를 위하여, 검출 및 표현부(120)는 MPEG-U 표준에 규정되어 있는 엑스엠엘 포맷 컴패트블(XML format compatible)과 같이 분석 결과를 전달하는 형태의 포맷을 적용할 수도 있다.

본 실시예에서 검출 및 표현부(120)가 전술한 손 이미지 검출 과정을 통하여 획득한 이미지들을 활용하여 손 제스처에 대한 인식을 직접 수행하지 않고 이를 소정의 메타데이터 포맷의 손 표현 데이터로 나타내는 것은 다음과 같은 이유 및 장점이 있다.

우선, 스마트 글래스(100)가 손 제스처에 대한 인식 과정을 수행할 경우에는 고성능의 프로세서가 스마트 글래스(100)에 탑재되어야 하는데, 이것은 전원 소비의 측면이나 전자파 발생, 발열 문제 등으로 인하여 한계가 있다. 그리고 이러한 원인들로 인하여, 통상적으로 스마트 글래스(100)를 포함한 웨어러블 전자 기기에 장착되는 프로세서는 성능이 우수하지 않기 때문에, 이미지 시퀀스를 분석하여 손 제스처를 인식하는 과정까지를 스마트 글래스(100)에서 원활하게 수행하기가 어렵다.

그리고 이미지 시퀀스를 분석하고 또한 이러한 분석으로부터 손 제스처를 인식하는 알고리즘은 다양하게 존재할 수가 있고 또한 최적의 알고리즘은 경우에 따라서 달라질 수 있다. 그런데, 스마트 글래스(100)에서 이러한 손 제스처에 대한 인식 과정까지 전부 수행하게 되면, 현실적으로 미리 결정된 하나의 알고리즘만 사용할 수 밖에 없기 때문에 손 제스처를 인식하기 위한 최적의 알고리즘을 적응적으로 적용하기가 어렵다.

또한, 특정한 손 제스처가 지시하는 커맨드의 내용은 문화나 사회 환경 등에 따라서 달라질 수가 있는데, 스마트 글래스(100)에서 이러한 손 제스처에 대한 인식 과정까지 전부 수행하게 될 경우에는 획일적인 처리가 될 수 밖에 없으며 다양한 문화나 사회 환경에 맞게 손 제스처에 의한 커맨드를 처리하기 어렵다.

계속해서 도 1을 참조하면, 검출 및 표현부(120)는 소정의 포맷으로 표현된 손 표현 데이터를 통신부(130)로 전달한다. 여기서, '손 표현 데이터'는 각 프레임에서 나타나는 손 이미지를 가리킨다. 그리고 통신부(130)는 전달받은 손 표현 데이터를 소정의 통신 방식을 이용하여 제스처 인식 장치(200)로 전송한다. 통신부(130)가 손 표현 데이터를 전송하기 위하여 사용하는 무선 통신 방식에 대해서는 특별한 제한이 없다. 예를 들어, 통신부(130)는 무선랜(Wireless Local Access Network, WLAN)이나 블루투스(Bluetooth), 근접 통신(Near Field Communication, NFC) 등과 같은 소정의 근거리 통신 방식은 물론 3G나 4G LTE 등과 같은 이동 통신 방식을 지원할 수 있다.

제스처 인식 장치(200)는 스마트 글래스(100)로부터 수신된 일련의 손 표현 데이터를 이용하여 손 제스처를 인식하고 또한 인식된 손 제스처에 대응하는 제스처 커맨드를 출력한다. 이를 위하여, 제스처 인식 장치(200)는 통신부(210), 프로세서(220) 및 저장부(230)를 포함한다. 제스처 인식 장치(200)는 스마트 글래스(100)를 대신하여 손 제스처에 대한 인식을 위한 프로세싱을 수행하는 장치이므로, 스마트 글래스(100)에 대해서는 서버(server) 또는 호스트(host)가 된다. 따라서 제스처 인식 장치(200)는 사용자의 스마트글래스(100)를 위하여 서버 또는 호스트로서 기능할 수 있는 장치의 일부나 일 기능으로 구현될 수 있다. 또는, 실시예에 따라서는 제스처 인식 장치(200)는 스마트 폰이나 테블릿 컴퓨터 등과 같이, 스마트 글래스(100)와 통신이 가능하고 또한 스마트 글래스(100)보다 우수한 프로세싱 성능을 구비한 장치의 일 기능 또는 어플리케이션으로 구현될 수도 있다.

통신부(210)는 스마트 글래스(100)로부터 손 표현 데이터를 연속적으로 수신한다. 그리고 통신부(210)는 프로세서(220)가 일련의 손 표현 데이터를 이용하여 인식한 손 제스처에 대응하는 제스처 커맨드를 외부로 전송한다. 여기서, 외부는 스마트 글래스(100)에 한정되지 않으며, 스마트 폰이나 스마트 TV와 같은 다른 멀티미디어 기기가 될 수도 있다는 것은 전술한 바와 같다.

프로세서(220)는 통신부(210)로부터 전달받은 다수 프레임의 손 표현 데이터를 처리하고 분석하여 손 제스처를 인식한다. 예를 들어, 프로세서(220)는 수신된 다수 프레임의 손 이미지들을 분석한 결과, 손 제스처가 플릭 동작인지 지시 동작인지, 줌-인 동작인지, 줌-아웃 동작인지 아니면 다른 움직임 동작인지 등에 대하여 판단한다. 프로세서(220)에 의하여 판단되는 손 제스처의 종류에 대해서는 특별한 제한이 없으며, 현재 터치스크린에 대한 손의 제스처 명령으로 사용되고 있거나 또는 앞으로 사용될 손의 제스처 명령은 물로, 손의 제스처를 활용하는 다른 전자 기기(예컨대, 게임기)에서 사용하는 손의 제스처 명령도 포함될 수 있다.

그리고 프로세서(220)는 인식된 손 제스처가 지시하는 제스처 커맨드를 생성한다. 이를 위하여, 저장부(230)에는 다수의 손 제스처들과 이들 각각에 대응하는 제스처 커맨드 사이의 대응 관계가 저장된 데이터베이스, 예컨대 제스처 및 커맨드 대비표가 저장되어 있을 수 있다. 이와 같이, 프로세서(220)는 제스처 및 커맨드 대비표에 따라서 인식된 손 제스처에 대응하는 제스처 커맨드를 생성하므로, 제스처 및 커맨드 대비표의 내용에 따라서 동일한 손 제스처라고 하더라도 다른 제스처 커맨드를 생성할 수 있다. 그리고 프로세서(220)에 의하여 생성된 제스처 커맨드는 통신부(210)로 전달되어 외부로 전송된다.

다음으로 본 발명의 일 실시예에 따른 스마트 글래스를 이용하는 손 제스처 명령 처리 방법에 대해서 설명한다.

도 8은 본 발명의 일 실시예에 따른 손 제스처 명령 처리 방법을 보여 주는 흐름도이다. 도 8에 도시된 손 제스처 명령 처리 방법은 도 1 내지 도 7을 참조하여 전술한 손 제스처 명령 처리 시스템에서 수행되는 절차일 수 있다. 따라서 이하에서는 불필요한 중복 설명을 방지하기 위하여 손 제스처 명령 처리 방법에 대해서 간략하게 설명하기로 한다. 따라서 여기에서 설명되지 않은 사항은 도 1 내지 도 7을 참조하여 전술한 내용이 동일하게 적용될 수 있다.

도 1 및 도 8을 참조하면, 스마트 글래스(100)의 카메라부(110)를 통하여 일련의 스테레오스코픽 이미지, 즉 좌영상과 우영상의 시퀀스를 획득한다(S10). 그리고 스마트 글래스(100)의 검출 및 표현부(120)는 획득한 일련의 스테레오스코픽 이미지를 구성하는 각 스테레오스코픽 이미지에 대하여 스테레오 매칭법을 적용하여 깊이 맵을 생성한다(S11). 계속해서 검출 및 표현부(120)는 깊이 맵을 그레이 레벨로 표시함으로써 깊이 맵 이미지를 만든 다음, 깊이 맵 이미지에서 배경 영역과 손 영역을 구분함으로써 손 이미지를 검출한다(S12). 배경 영역과 손 영역의 구분을 효율적으로 하기 위하여, 각 프레임에 대한 깊이 맵의 히스트그램을 활용할 수 있다. 그리고 검출 및 표현부(120)은 필요한 경우에는 배경 영역을 모두 '0'으로 처리한 후에, 소정의 필터링을 적용하여 손의 윤곽선을 부드럽게 표현하거나 및/또는 깊이 맵 이미지로부터 노이즈를 제거할 수 있다.

계속해서, 검출 및 표현부(120)는 검출된 손 이미지를 소정의 메타데이터 포맷의 손 표현 데이터로 나타낸 다음(S13), 손 표현 데이터를 제스처 인식 장치(200)로 전송한다(S14). 이와 같이, 본 실시예에서는 스마트 글래스(100)에서는 각 프레임의 손 이미지를 검출하고 이를 소정의 메타데이터 포맷의 손 표현 데이터로 나타내는 과정까지만 수행한다. 따라서 스마트 글래스(100)에 구비되는 프로세서나 에이피(Application Processor, AP)는 상대적으로 고성능일 필요가 없을 뿐만 아니라 전원 소모도 적고 또한 건강에 이롭지 않은 전자파 등의 발생을 최소화할 수 있다.

그리고 제스처 인식 장치(200)는 스마트 글래스(100)로부터 다수의 프레임에 대한 손 표현 데이터를 수신하며, 수신된 일련의 손 표현 데이터를 이용하여 제스처 커맨드를 생성한다(S15). 제스처 인식 장치(200)는 인식된 특정 손 제스처에 대응하는 제스처 커맨드를 효율적이고 신속하고 유추할 수 있고 또한 사용자의 환경이나 문화에 적응적인 제스처 커맨드를 생성할 수 있도록, 제스처 인식 장치(200)는 저장부(230)에 미리 제스처 및 커맨드 대비표를 구비하고 있을 수도 있다. 계속해서, 제스처 인식 장치(200)는 생성된 제스처 커맨드를 외부로 전송한다(S16). 이 때, 제스처 인식 장치(200)는 생성된 제스처 커맨드를 반드시 스마트 글래스(100)로 전송할 필요가 없으며, 사용자에 의한 제어 대상이 되는 다른 전자 기기로 생성된 제스처 커맨드를 전송할 수도 있다.

이상의 설명은 실시예에 불과할 뿐, 이에 의하여 한정되는 것으로 해석되어서는 안된다. 본 발명의 기술 사상은 특허청구범위에 기재된 발명에 의해서만 특정되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다. 따라서 전술한 실시예가 다양한 형태로 변형되어 구현될 수 있다는 것은 통상의 기술자에게 자명하다.

100: 스마트 글래스
110: 카메라부
120: 검출 및 표현부
130, 210: 통신부
200: 제스처 인식 장치
220: 프로세서
230: 저장부

Claims

사용자의 손 제스처가 포함된 일련의 이미지를 촬영하고, 상기 일련의 이미지 각각에 포함된 손 이미지를 소정 포맷의 메타데이터로 표현한 손 표현 데이터로 나타내어서 전송하는 스마트 글래스; 및
상기 스마트 글래스로부터 수신된 상기 일련의 이미지에 대한 손 표현 데이터를 이용하여 상기 사용자의 손 제스처를 인식하고, 인식된 손 제스처에 대응하는 제스처 명령어를 생성하여 전송하는 제스처 인식 장치를 포함하고,
상기 스마트 글래스는 상기 일련의 이미지 각각의 깊이 맵을 소정 비트의 그레이 레벨로 표시되는 깊이 맵 이미지로 변환하고, 상기 깊이 맵 이미지에서 손 영역과 배경 영역으로 구분한 후에 상기 배경 영역은 모두 그레이 레벨이 '0'이 되도록 표시한 다음 상기 손 영역에 대하여 필터링을 수행하여 상기 손 영역을 상기 손 표현 데이터로 나타내는 것을 특징으로 하는 손 제스처 명령 처리 시스템.
삭제
제1항에 있어서,
상기 손 표현 데이터는 상기 손 영역의 경계선을 바이저 곡선으로 표현하는 것을 특징으로 하는 손 제스처 명령 처리 시스템.
제1항에 있어서,
상기 스마트 글래스는 상기 깊이 맵을 이용하여 소정의 거리 이내에 위치한 픽셀들을 상기 손 영역으로 결정하는 것을 특징으로 하는 손 제스처 명령 처리 시스템.
삭제
제1항에 있어서,
상기 스마트 글래스는 상기 깊이 맵 이미지를 상기 그레이 레벨에 대한 픽셀 빈도의 히스토그램을 만들어서, 상기 픽셀 빈도의 크기가 작으면서 그 전후의 픽셀 빈도는 큰 그레이 레벨을 경계값으로 하여 상기 손 영역과 상기 배경 영역으로 구분하는 것을 특징으로 하는 손 제스처 명령 처리 시스템.
제1항에 있어서,
상기 제스처 인식 장치는 다수의 손 제스처들과 이들 각각에 대응하는 제스처 커맨드 사이의 대응 관계를 나타내는 제스처 및 커맨드 대비표를 저장하고 있으며, 상기 제스처 및 커맨드 대비표에 기초하여 상기 인식된 손 제스처에 대응하는 제스처 명령어를 결정하는 손 제스처 명령 처리 시스템.
제7항에 있어서,
상기 제스처 및 커맨드 대비표는 사용자에 의하여 설정될 수 있는 것을 특징으로 하는 손 제스처 명령 처리 시스템.
제1항에 있어서,
상기 제스처 인식 장치는 생성된 제스처 명령어를 상기 스마트 글래스 또는 상기 사용자가 제어하고자 하는 다른 전자 기기를 전송하는 것을 특징으로 하는 손 제스처 명령 처리 시스템.
삭제