KR20160034275A - 제스쳐 인식 장치 및 그 방법 - Google Patents

제스쳐 인식 장치 및 그 방법 Download PDF

Info

Publication number
KR20160034275A
KR20160034275A KR1020160029869A KR20160029869A KR20160034275A KR 20160034275 A KR20160034275 A KR 20160034275A KR 1020160029869 A KR1020160029869 A KR 1020160029869A KR 20160029869 A KR20160029869 A KR 20160029869A KR 20160034275 A KR20160034275 A KR 20160034275A
Authority
KR
South Korea
Prior art keywords
gesture
region
user
arm
stopping
Prior art date
Application number
KR1020160029869A
Other languages
English (en)
Other versions
KR101653235B1 (ko
Inventor
김도형
윤우한
이재연
김혜진
윤영우
윤호섭
지수영
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020160029869A priority Critical patent/KR101653235B1/ko
Publication of KR20160034275A publication Critical patent/KR20160034275A/ko
Application granted granted Critical
Publication of KR101653235B1 publication Critical patent/KR101653235B1/ko

Links

Images

Classifications

    • G06K9/00355
    • G06K9/00228
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • G06T7/2006
    • G06T7/204

Abstract

제스쳐 인식 장치가 개시된다. 이 제스쳐 인식 장치는 입력 영상으로부터 사용자의 얼굴 영역을 검출하는 휴먼 검출부와, 상기 검출된 얼굴 영역을 기준으로 상기 사용자의 팔의 제스쳐가 발생하는 제스쳐 영역을 설정하는 제스쳐 영역 설정부와, 상기 제스쳐 영역 내에 존재하는 상기 사용자의 팔 영역을 검출하는 팔 검출부 및 상기 제스쳐 영역 내에 존재하는 팔 영역의 위치, 이동 방향성 및 형태 정보를 분석하여, 상기 사용자의 목표 제스쳐를 판별하는 제스쳐 판정부를 포함한다. 이러한 제스쳐 인식 장치에 의하면, 로봇이 사용자의 음성을 인식하기 어려운 원거리에서 인간 로봇 상호 작용을 위한 유용한 수단으로 활용될 수 있다.

Description

제스쳐 인식 장치 및 그 방법{APPARATUS AND METHOD FOR ECONGNIZING GESTURE}
본 발명은 사용자의 제스쳐를 인식 장치에 관한 것으로서, 특히 제스쳐 인식을 위해 사용자에게 어떠한 제약도 가하지 않고, 사용자가 자유롭게 행동하는 일상적인 환경에서 사용자의 제스쳐를 인식할 수 있는 제스쳐 인식 장치에 관한 것이다.
인간은 얼굴 표정, 손의 움직임, 시선 방향, 머리 동작 등의 비언어적인 수단(이하, 제스쳐: gesture)을 이용하여 많은 정보를 교환할 수 있다. 인간 로봇 상호작용(Human-Robot Interaction: HRI)기술에 제스쳐를 이용한 정보 교환 방식이 적용되면, 보다 인간 친화적 HRI 기술의 구현이 가능하다. 이러한 관점에서 HRI 기술에 있어서, 제스쳐 인식 기술은 가장 주목받는 기술 중의 하나이다.
제스쳐 인식 기술은 데이터 획득 방법에 따라 신체에 센서를 부착하는 센서 기반의 제스쳐 인식 기술과 비디오 카메라를 이용한 시각 기반 제스쳐 인식 방법으로 분류할 수 있다. 이 중, 시각 기반의 제스쳐 인식 기술은 입력 데이터의 차원에 따라 2D 또는 3D 인식으로 분류되거나, 인식 대상인 신체 범위에 따라 손동작 인식, 상반신 인식, 전신 동작 인식 등으로 분류된다.
그런데, 기존의 제스쳐 인식 기술 기반의 HRI 기술은 원거리에서 로봇과 인간이 상호 작용을 위한 제스쳐 인식 방법에 있어서, 다음과 같은 제약들이 있다.
첫째, 기존의 기술들은 원거리에서 로봇과 인간 간의 상호작용을 위한 의미있는 제스쳐의 제시와 그 인식 방법을 제공하지 못한다. 즉, 기존의 기술들은 근거리에서 손 동작 만을 인식하는 수준이고, 원거리에서는 로봇과 인간 간의 상호 작용의 목적보다는 상반신과 전신 동작의 인식을 통한 상황 인식에 초점을 두고 있다. 따라서, 원거리에서, HRI를 위한 시각 기반의 제스쳐 인식에 대한 시도는 거의 없다.
둘째, 기존 기술들은 원거리에 존재하는 인간의 상반신 또는 전신 제스쳐를 인식하기 위해 고해상도 입력 영상을 요구하거나, 3D 정보를 획득하기 위하여 2대 이상의 카메라 및 이에 상응하는 장치들이 요구된다. 따라서 단일 카메라로 구성된 저가의 시스템 구현이 어렵다
셋째, 기존 기술들은 단일 카메라만을 사용하는 시스템의 경우, 대부분 입력 영상을 용이하게 추출하기 위해 카메라가 고정된다. 따라서 카메라가 이동하는 로봇 플랫폼에는 제스쳐 인식 기술 기반의 HRI 기술의 적용이 어렵다
넷째, 기존 기술들은 제스쳐를 인식하는 시스템의 안정성을 확보하기 위해, 사용자에게 많은 제약을 요구한다. 예컨대, 시스템이 사용자 제스쳐의 시작시점과 종료시점을 알기 위해, 사용자는 장갑, 특정 색깔의 옷 등의 보조 도구를 착용하는 경우가 많다. 하지만, 사용자가 자유롭게 행동하는 일상적인 로봇 서비스 환경에서 인식의 안정성을 위해 사용자에게 이러한 협조를 기대하기 어렵다.
따라서, 기존의 제스쳐 인식 기술 기반의 HRI 기술은 원거리에서 로봇과 인간이 상호 작용을 하기 위한 의미 있는 제스쳐 인식 방법을 제공하는데 한계가 있다.
본 발명의 목적은 저해상도 영상을 이용하여 로봇과 사용자 간의 거리가 원거리에서 사용자의 제스쳐를 인식하는 있는 제스쳐 인식 장치 및 로봇 시스템을 이용한 제스쳐 인식 방법을 제공하는 것이다.
상술한 목적을 달성하기 위한, 본 발명의 일면에 따른 제스쳐 인식 장치는, 입력 영상으로부터 검출된 사용자의 얼굴 영역을 기준으로 상기 사용자의 팔의 제스쳐가 발생하는 제스쳐 영역을 설정하는 제스쳐 영역 설정부; 상기 제스쳐 영역 내에 존재하는 상기 사용자의 팔 영역을 검출하는 팔 검출부; 및 상기 제스쳐 영역 내에 존재하는 팔 영역의 위치, 이동 방향성 및 형태 정보를 분석하여, Waving 제스쳐와, Calling 제스쳐, Raising 제스쳐 및 Stopping 제스쳐를 포함하는 상기 사용자의 목표 제스쳐를 판별하는 제스쳐 판정부를 포함하고, 상기 제스쳐 판정부는,
상기 사용자의 팔 영역 위치가 상기 제스쳐 영역 내에 존재하는지 여부를 판별하고, 판별 결과에 따라 상기 목표 제스쳐와 사용자의 일상적인 행동에 해당하는 노이즈 제스쳐를 구별하는 영역 분석부; 상기 사용자의 팔 영역의 상기 이동 방향성을 분석하여, 상기 Waving 제스쳐와, 상기 Calling 제스쳐를 판별하는 모션 분석부; 및 상기 사용자의 양팔의 상대적 길이 비와 각도를 포함하는 상기 형태 정보를 분석하여, 상기 Raising 제스쳐와 상기 Stopping 제스쳐를 판별하는 형태 분석부를 포함함을 특징으로 한다.
본 발명의 다른 일면에 따른 로봇 시스템을 이용한 제스쳐 인식 방법은, 입력 영상으로부터 사용자의 얼굴 영역을 검출하는 단계; 상기 검출된 얼굴 영역의 위치와 크기에 따라 상기 사용자의 팔의 제스쳐가 발생하는 제스쳐 영역의 크기를 소정의 비율로 계산하는 단계; 상기 계산된 제스처 영역 내에 존재하는 사용자 팔 영역이 포함된 배경 분리 영상을 획득하는 단계; 상기 획득된 배경 분리 영상을 이용하여 상기 제스쳐 영역 내에 존재하는 상기 사용자의 팔 영역을 검출하는 단계; 및 상기 제스쳐 영역 내에 존재하는 팔 영역의 위치, 이동 방향성 및 형태 정보를 분석하여, Waving 제스쳐와, Calling 제스쳐, Raising 제스쳐 및 Stopping 제스쳐를 포함하는 상기 사용자의 목표 제스쳐를 판별하는 단계를 포함하고, 상기 사용자의 목표 제스쳐를 판별하는 단계는, 상기 사용자의 팔 영역 위치가 상기 제스쳐 영역 내에 존재하는지 여부를 판별하고, 판별 결과에 따라 상기 목표 제스쳐와 사용자의 일상적인 행동에 해당하는 노이즈 제스쳐를 구별하는 단계; 상기 사용자의 팔 영역의 상기 이동 방향성을 분석하여, 상기 Waving 제스쳐와, 상기 Calling 제스쳐를 판별하는 단계; 및 상기 사용자의 양팔의 상대적 길이 비와 각도를 포함하는 상기 형태 정보를 분석하여, 상기 Raising 제스쳐와 상기 Stopping 제스쳐를 판별하는 단계를 포함한다.
본 발명에 의하면, 로봇과 사용자 간의 거리가 원거리에서도 원거리 상호작용을 위한 4가지 제스쳐(Waving, Calling, Raising, Stopping)를 인식할 수 있다.
또한, 상기 제스쳐들을 인식하기 위해, 사용자에게 어떠한 제약도 가하지 않으며, 사용자가 취할 수도 있는 일상적인 행동과 정의된 4가지 제스쳐의 구별이 가능하다.
따라서 본 발명은 음성 인식이 어려운 원거리(약 4-5m)에서의 인간로봇상호작용을 위한 유용한 수단으로 활용될 수 있다.
도 1은 본 발명의 일실시예에 따른 제스쳐 인식 장치가 인식하는 사용자의 목표 제스쳐들의 일예를 나타내는 도면이다.
도 2는 본 발명의 일실시예에 따른 제스쳐 인식 장치가 인식하는 사용자의 노이즈 제스쳐들의 일예를 나타내는 도면이다.
도 3은 본 발명의 일실시예에 따른 제스쳐 인식 장치의 전체 블록도이다.
도 4는 본 발명의 일실시예에 따른 목표 제스쳐의 발생 가능 영역을 나타내는 도면이다.
도 5a 내지 도 5c는 본 발명의 일실시예에 따른 배경 분리 기법에 따라 ROI 영역 내에서 분리된 사용자의 팔 영역을 분리하는 과정을 보여주는 도면들이다.
도 6은 도 3에 도시된 배경 영상 획득부의 동작 과정을 나타내는 흐름도이다.
도 7은 본 발명의 일 실시 예에 따른 목표 제스쳐와 노이즈 제스쳐를 구별하기 위하여 사용되는 룩업 테이블이다.
도 8a는 도 3에 도시된 모션 분석부에서 수행되는 모션 제스쳐를 분석하는 과정을 보여주는 흐름도이다.
도 8b는 도 8a의 손끝 좌표를 검출하는 과정에서 손끝의 y좌표를 보여주는 도면이다.
도 8c 내지 도 8e는 손끝의 이동방향으로 보여주는 입력 영상들을 보여주는 도면들이다.
도 9a는 본 발명의 일실시예에 따른 손끝의 이동 방향을 분석하기 위한 이동 방향 코드 테이블을 보여주는 도면이다.
도 9b는 본 발명의 일실시예에 따라 손끝의 이동 방향을 분석하기 위한 이동 방향의 누적 히스토그램을 나타내는 그래프이다.
도 9c는 본 발명의 일 실시 예에 따른 영상의 획득 속도에 따른 코드 값 발생 빈도 및 손끝 이동변위를 보여주는 도면이다.
도 10은 도 3에 도시된 형태 분석부가 Raising 제스쳐와 Stopping 제스쳐를 각각 판별하는 과정을 보여주기 위한 흐름도이다.
도 11은 도 10에 도시된 양팔 영역의 상대적 길이 분석을 설명하기 위한 도면이다.
도 12는 본 발명의 일 실시예에 따른 Raising 제스쳐의 판별 조건을 나타내는 도면이다.
도 13은 본 발명의 일 실시 예에 따른 Stopping 제스쳐의 판별 조건을 보여주기 위한 도면이다.
본 발명의 제스쳐 인식 장치는 지능형 로봇, 보안 감시 시스템 등 사용자를 인식하는 다양한 기술 분야에서 적용될 수 있으며, 본 실시예에서는 제스쳐 인식 장치가 이동 수단을 갖는 지능형 로봇에 탑재된 것을 가정하여 설명하기로 한다.
근거리의 경우, 로봇이 사용자의 음성을 인식하여 로봇과 사용자 간의 의사표현이 가능하다. 그러나 음성인식이 어려운 원거리에서는 사용자의 제스쳐 인식이 유용한 의사표현이 될 수 있다. 따라서, 본 발명의 제스쳐 인식 장치는 사용자의 제스쳐(예컨대, 팔 제스쳐)을 통해 사용자의 의사를 인식하는 방안을 제안한다..
또한, 본 발명의 제스쳐 인식 장치는 로봇과 인간 사이의 거리가 약 4-5m 인 원거리에서 로봇과 사용자 간의 상호작용을 위한 사용자의 제스쳐를 인식할 수 있는 방식을 제공하고, 동시에 단일 카메라로부터 획득된 저해상도 입력 영상으로 사용자의 제스쳐 인식이 가능한 방안을 제시한다.
더불어, 본 발명의 제스쳐 인식 장치는 사용자의 제스쳐 인식을 위해 사용자에게 어떠한 제약도 요구하지 않으며, 본 발명의 제스쳐 인식 장치가 인식하는 제스쳐들과 사용자의 일상적인 행동에서의 제스쳐의 구별이 가능한 방안을 제시한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예에 대하여 상세하게 설명한다.
도 1은 본 발명의 일 실시 예에 따른 제스쳐 인식 장치에서 인식하는 사용자의 목표 제스쳐들을 보여주는 도면이고, 도 2는 본 발명의 일 실시 예에 따른 제스쳐 인식 장치에서 인식하는 목표 제스쳐가 아닌 사용자의 노이즈 제스쳐를 보여주는 도면이다.
도 1을 참조하면, 본 발명의 일실시예에 따른 제스쳐 인식 장치는 원거리에서 인간 로봇 상호작용을 위하여 사용자의 특정 제스쳐들을 인식 대상으로 설정한다. 본 실시예에서는, 상기 제스쳐 인식 장치(100)가 Waving 제스쳐(12), Calling 제스쳐(14)를 포함하는 모션 제스쳐와, Raising 제스쳐(16) 및 Stopping 제스쳐(18)를 포함하는 비 모션 제스쳐로 구성된 총 4가지의 목표 제스쳐를 인식한다. 여기서, 상기 모션 제스쳐인 Waving 제스쳐(12) 및 Calling 제스쳐(14)는 사용자 습관에 따라 오른 팔을 이용한 제스쳐일 수도 있고, 왼팔을 이용한 제스쳐일 수도 있다. 본 실시예에서는, Waving 제스쳐(12) 및 Calling 제스쳐(14)는 오른손을 이용한 제스쳐로 정의된다.
Waving 제스쳐(12)는 사용자가 오른 팔을 좌우로 흔드는 행위로서, 사용자가 원거리에 위치한 로봇의 주의를 끌기 위한 제스쳐이다. 예컨대, 상기 Waving 제스쳐(12)는 사용자가 원거리에 있는 로봇에게 서비스 요청를 전달하는 의사표현(예컨대, "LOOK AT ME") 또는 아니오라는 의사 표현(예컨대, "NO")으로 사용될 수 있다. 즉, Waving 제스쳐(10)는 로봇이 사용자에게 능동적인 서비스를 제공하기에 앞서 사용자의 의사를 확인하는 제스쳐이다.
Calling 제스쳐(14)는 사용자가 오른 팔을 아래위로 흔드는 제스쳐이다. 예컨대, Calling 제스쳐(14)는 원거리에 위치한 로봇을 사용자에게 가까이 다가오게 하는 의사표현(예컨대, "COME TO ME") 또는 따라오게 하는 의사표현(예컨대, "FOLLOW ME")으로 사용될 수 있다.
Raising 제스쳐(16)는 사용자가 오른 팔을 위로 들고 일정 시간(대략 2-3초) 동안 정지하는 제스쳐이다. 예컨대, Raising 제스쳐(16)는 사용자가 로봇에게 사용자 자신을 인식시키는 의사표현(예컨대, IT'S ME) 또는 로봇이 사용자에게 능동적인 서비스를 제공하기에 앞서 사용자가 로봇에게 "예"라는 의사표현(예컨대, "YES")으로 사용될 수 있다.
Stopping 제스쳐(18)는 양팔을 얼굴 높이만큼 위로 들고 일정 시간(약 2-3초) 동안 정지하고 있는 제스쳐이다. 예컨대, Stopping 제스쳐는 원거리에서 로봇이 사용자를 위해 어떠한 서비스를 제공하고 있는 과정에서, 사용자가 로봇에게 상기 어떠한 서비스의 중지를 요청하는 의사표현(예컨대, "STOP IT")으로 사용될 수 있다.
지금까지 정의한 4가지 목표 제스쳐들(Waving 제스쳐(12), Calling 제스쳐(14), Raising 제스쳐(16) 및 Stopping 제스쳐(18))은 사용자가 로봇에게 자신의 의사를 표현하는 제스쳐들이다. 따라서 사용자가 로봇을 정면으로 바라보는 것이 바람직하다. 그러나 이러한 사용자의 행위(사용자가 로봇을 정면으로 바라보는 행위)는 단지 사용자가 로봇이 인식할 수 있는 상술한 제스쳐들(Waving 제스쳐(12), Calling 제스쳐(14), Raising 제스쳐(16) 및 Stopping 제스쳐(18))을 시작하는 시점에서 발생하는 자연스러운 동작으로 해석되어야 하고, 사용자에게 어떠한 제약을 요구하는 행위로 해석되지는 않는다.
상술한 바와 같이, 본 발명의 일실시예에 따른 제스쳐 인식 장치는 사용자가 자유로운 행동을 취하는 로봇 환경에서 상술한 바와 같은 4가지의 목표 제스쳐를 인식한다. 그러나, 사용자는 상기 제스쳐 인식 장치가 인식하는 4가지의 목표 제스쳐가 아닌 사용자의 일상적인 제스쳐(노이즈 제스쳐: noise gesture)에 해당하는 행동을 취할 수도 있다. 따라서, 본 발명의 일실시예에 따른 제스쳐 인식 장치에서는, 도 2에 도시된 바와 같은 6가지의 일상적인 제스쳐들(21, 22, 23, 24, 25, 26)과 상기 4가지의 목표 제스쳐를 구별할 수 있는 방안이 제공된다.
도 3은 본 발명의 일실시예에 따른 제스쳐 인식 장치의 전체 블록도이다.
도 3을 참조하면, 본 발명의 일실시예에 따른 제스쳐 인식 장치는 영상 생성부(110), 휴먼 검출부(120), 제스쳐 영역 설정부(130), 배경 영상 획득부(140), 팔 검출부(150) 및 제스쳐 판정부(160)를 포함한다.
영상 입력부(110)는 임의의 환경 또는 로봇에 설치된 단일 카메라로부터 제공되는 저 해상도의 비디오 영상을 입력받아서 복수의 영상 프레임을 순차적으로 생성한다. 휴먼 검출부(120)는 순차적으로 생성된 각 영상 프레임으로부터 사용자의 존재 여부를 검출하고, 사용자가 존재하는 경우, 사용자의 얼굴의 위치 및 크기를 검출한다. 제스쳐 영역 설정부(130)는 상기 휴먼 검출부(120)로부터 검출된 상기 사용자의 얼굴의 영역의 위치를 기준으로 사용자의 제스쳐가 발생할 수 있는 제스쳐 영역을 설정한다. 배경 영상 획득부(140)는 상기 설정된 제스쳐 영역 내에서 존재하는 사용자 팔 영역을 획득하기 위하여 배경 영상을 획득한다. 팔 검출부(150)는 상기 배경 영상 획득부(140)에서 획득된 배경 영상 내에 존재하는 팔 영역을 검출한다. 제스쳐 판정부(160)는 상기 팔 검출부(150)에 의해 검출된 상기 팔 영역 내에서 팔이 위치하는 영역, 팔의 모션, 및 팔의 형태를 분석하고, 분석된 결과치를 최종적으로 사용자의 제스쳐로 인식한다.
이하, 본 발명의 일실시예에 따른 제스쳐 인식 장치(100)에 대해 보다 상세히 설명하기로 한다.
영상 입력부(110)는 내부에 구비된 단일 카메라를 통해 320x240의 픽셀 해상도를 갖는 저 해상도의 영상을 생성한다. 여기서, 320은 가로 픽셀 수이고, 240은 세로 픽셀 수이다.
휴먼 검출부(120)는 상기 복수의 영상 프레임을 연속적으로 입력받아서, 각 영상 프레임 내에 사용자가 존재하면, 상기 사용자의 얼굴의 위치를 검출한다. 이러한 휴먼 검출부(120)는 원거리에 존재하는 사용자의 얼굴을 안정적으로 검출하고 추적하기 위한 모듈로서 Mean Shift 컬러 추적, 근거리 얼굴 검출, 오메가 검출, 원거리 얼굴 검출 등의 결과를 결합하여 사용자의 얼굴 영역의 위치를 연속적으로 산출한다.
구체적으로, 휴먼 검출부(120)는 얼굴 추적 초기화부(122)와 원거리 얼굴 추적부(124)를 포함한다.
얼굴 추적 초기화부(122)에서의 동작 과정을 설명하면 다음과 같다. 먼저, 얼굴 추적 초기화부(122)는 영상 입력부(110)를 통해 복수의 영상 프레임(11)을 프레임 단위로 연속적으로 입력받는다. 연속적으로 생성된 영상 프레임들 간의 차 영상 프레임을 통해 움직임 영역이 검출된다.
검출된 움직임 영역 내에서 얼굴과 오메가 형상이 존재할 가능성이 큰 상반신 영역이 미리 지정된 비율에 따라 설정된다. 여기서, 오메가 형상은 사용자의 머리와 어깨를 잇는 윤곽선의 형태가 문자 오메가(Ω)와 유사하여 명명된 명칭이다.
이동하는 물체가 사람인지 아닌지를 검증하기 위하여 상반신 영역 내에서 얼굴 검출 과정이 수행된다.
얼굴은 물체가 사람인지 아닌지의 여부를 구별하는 특징적 요소이다. 본 실시예에서는 아다부스팅(Adaboosting) 기법을 이용하여 엄굴 검출 과정이 수행된다. 본 실시예에서의 아다부스팅(Adaboosting) 기법을 이용한 엄굴 검출 과정은 최소 20 x 20 해상도의 얼굴이 안정적으로 검출되도록 훈련(학습)된다.
아다부스팅 기법을 이용한 얼굴 검출 과정은 B. Jun and D. Kim에 의해 작성된 논문 "Robust real-time face detection using face certainty map, Proceeding of the 2nd Int'l. Conf. on Biometrics, vol .4642, pp.29-38, 2007"에서 상세히 기술되어 있으므로, 이에 대한 구체적인 설명은 생략하기로 한다.
아다부스팅 기법에 따른 얼굴 검출 과정에 의해 얼굴 검출이 성공한 경우, 검출된 얼굴 영역이 추적 시작 영역으로 설정된다.
원거리 얼굴 추적부(124)에서 상기 설정된 추적 시작 영역을 기점으로 추적이 수행된다. 만일, 얼굴 검출이 실패한 경우, 상기 설정된 상반신 영역 내에서 오메가(Ω) 형상에 대한 검출 과정이 수행된다.
오메가 형상은 얼굴에 비해 검출 정확도는 떨어진다. 그러나 오메가 형상은 카메라의 전방에 위치한 사람이 뒤돌아 서 있는 상황 즉, 얼굴이 보이지 않는 상황에서도 검출이 가능하고, 얼굴보다 큰 사이즈를 갖는 특징적 요소를 갖는다. 따라서 원거리에서도 검출이 가능하다.
본 실시예에서는, 상술한 오메가 검출 과정에서도 아다부스트(Adaboosting) 기법이 이용될 수 있다. 본 실시예에 따른 오메가 검출 과정은 최소 24 x 24 해상도의 오메가 형상이 검출될 수 있도록 훈련(학습)된다.
오메가 형상의 검출이 성공한 경우, 즉, 움직이는 물체가 사람으로 검증된 경우, 오메가 영역을 기준으로 비율적으로 얼굴(또는 뒤통수) 영역이 추정된다.
추정된 얼굴(뒤통수) 영역은 원거리 얼굴 추적부(124)로 제공되는 추적 시작 영역으로 설정된다.
이와 같이 본 실시예의 휴먼 검출부(120)에서는 얼굴 영역 및 오메가 영역의 검출을 위하여, 탐색 영역을 상반신 영역으로 제한한다. 그 결과, 검출 속도 향상과 오 검출의 가능성을 최대한 낮출 수 있다.
한편, 얼굴 영역 및 오메가 영역의 검출이 모두 실패한 경우, 다시 다음 영상 프레임을 입력받아서 사람인지 아닌지를 검증하고, 추적 시작 영역을 설정하는 일련의 과정이 반복된다. 얼굴 추적 초기화부(122)에서 사용자가 존재하는 것으로 확인되고, 이에 따라 추적 시작 영역이 설정되면, 원거리 얼굴 추적부(124)가 추적 시작 영역이 설정된 현재 영상 프레임을 기준으로 다음 영상 프레임부터 일련의 얼굴 추적 과정을 수행한다.
원거리 얼굴 추적부(124)는 얼굴 추적 초기화부(122)에 의해 설정된 영역을 기반으로 Mean Shift 컬러 추적, 근거리 얼굴 검출, 오메가 검출, 원거리 얼굴 검출 등의 결과를 결합하여 추적된 얼굴 영역의 위치를 연속적으로 산출한다.
구체적으로, 원거리 얼굴 추적부(124)가 추적 시작 영역과 영상 프레임을 입력받으면, 원거리 얼굴 추적부(124)는 먼저, Mean Shift 방법(D. Comaniciu and P. Meer, "Mean shift: a robust approach toward feature space analysis," IEEE Trans. on PAMI, vol.24, no.5, May. 2002.)을 사용하여 컬러 추적을 수행한다.
컬러 추적을 수행하기 위해서는 초기에 추적하고자 하는 컬러 모델이 존재하여야 한다. 컬러 모델은 얼굴 추적 초기화부(122)에서 설정된 추적 시작 영역 내의 컬러로 모델링된다. 즉 얼굴 추적 초기화부(122)에서 얼굴이 검출된 경우, 검출된 얼굴 영역 내의 컬러로 초기 모델링이 수행되며, 오메가 검출에 의해 얼굴(또는 뒤통수) 영역이 추정된 경우, 추정된 영역 내의 컬러로 초기 모델링이 수행된다. Mean Shift 기반 컬러 추적 기법은 설정된 컬러 모델과 가장 유사한 컬러를 가지는 영역을 그 결과로 산출한다. Mean Shift 기반 컬러 추적 기법은 컬러 정보를 사용하기 때문에 조명의 변화에 취약하며, 추적 대상 컬러와 유사한 컬러가 배경에 존재하는 경우, 추적의 정확도가 낮다. 따라서 본 실시예에서는 Mean Shift 기반 컬러 추적 기법을 얼굴(또는 머리)을 검출하기 위한 목적이 아니라, 얼굴형상에 대한 검출과 오메가 형상에 대한 검출을 위한 탐색 영역의 설정 목적으로 이용한다. 얼굴 탐색 영역이 설정되면 영역 내에서 얼굴 검출이 수행된다. 이때의 얼굴검출은 얼굴 추적 초기화부(122)에서와 동일한 20 x 20 픽셀 크기의 얼굴 영역까지 검출할 수 있다.
계속해서, 도 3을 참조하면, 제스쳐 영역 설정부(130)는 휴먼 검출부(120)에 의해 사용자의 얼굴 영역이 검출되면, 검출된 얼굴 영역을 기준으로 앞서 언급한 목표 제스쳐들(12, 14, 16, 18)이 발생할 가능성이 있는 관심 영역(Region Of Interest: 이하, ROI 영역)들을 설정한다.
도 4는 본 발명의 일실시예에 따른 목표 제스쳐가 발생 가능 영역을 보여주는 도면이다.
도 4를 참조하면, 제스쳐 영역 설정부(130)는 휴먼 검출부(120)에 의해 검출된 얼굴 영역(FR)을 포함하는 머리 영역(HR)을 설정하고, 설정된 머리 영역에 인접한 주변 영역이 설정된다.
상기 주변 영역은 목표 제스쳐가 발생할 가능성이 높은 영역으로서, 5개의 ROI(Region Of Interest)영역을 포함한다.
구체적으로, 상기 주변 영역은 좌측 상부 영역(Left Upper Region: 31)(이하, LU 영역), 우측 상부 영역((Right Upper Region: 32) (이하, RU 영역), 상기 LL영역과 상기 RU 영역 사이에 존재하는 중앙 상부 영역(Center Upper Region: 33)(이하, CU 영역), 상기 LU 영역(31)의 하부에 인접한 좌측 하부 영역(Left Lower Region 34)(이하, LL 영역) 및 상기 RU 영역(32)의 하부에 인접한 우측 하부 영역(Right Lovwer Region: 35)(이하, RL 영역)으로 구성된 5개의 ROI(Region Of Interest)영역을 포함한다.
각 영역들(31~35)의 크기는 검출된 얼굴 영역의 위치와 크기에 따라 기설정된 비율로 계산된다. 본 실시예에서, 4개의 목표 제스쳐들이 설정된 ROI 영역들에만 나타나고, ROI 영역들 이외의 영역에서는 나타나지 않는 것으로 가정한다.
다시 도 3을 참조하면, 배경 영상 획득부(140)는 제스쳐 영역 설정부(130)에 의해 ROI 영역들(31~35)이 설정되면, ROI 영역들(31~35)의 각 배경 영상을 획득한다.
도 5a 내지 5c는 배경 분리 기법에 따라 ROI 영역 내에서 분리된 사용자의 팔 영역을 분리하는 과정을 보여주는 도면들이다.
도 5a 내지 5c를 참조하면, 배경 영상 획득부(140)는 배경 분리 기법(Background subtraction technique)을 이용하여, ROI 영역들 내에 사용자 팔의 존재 여부를 조사한다. 배경 분리 기법(Background subtraction technique)은 널리 알려진 기술이므로, 이에 대한 구체적인 설명은 생략하기로 한다.
도 5a에 도시된 바와 같이, ROI 영역들 내에 사용자의 팔이 없다면 현재 영상을 배경 영상으로 갱신하고, 도 5b에 도시된 바와 같이, ROI 영역(34) 내에 사용자의 팔이 존재하면, 도 5c에 도시된 바와 같이, 배경 분리 기법에 의해 팔 영역을 분리된 최종 이미지가 생성된다. 즉, 도 5b의 배경 영상을 구성하는 각 픽셀들의 계조(gray)값 도 5a의 배경 영상을 구성하는 각 픽셀들의 계조값을 빼면, 도 5c와 같은 팔 영역만이 나타나는 최종 이미지가 생성된다.
도 6은 도 3에 도시된 배경 영상 획득부의 동작 과정을 보여주는 흐름도이다.
도 6을 참조하면, 배경 영상 획득부(140)는 제스쳐 영역 설정부(130)로부터 관심 영역 및 얼굴 영역이 설정된 영상 프레임을 입력받으면, 먼저 사용자가 멈춘 상태인지 이동중인 상태인지를 판단한다(S610).
본 실시예에서는, 도 1의 제스쳐 인식 장치(100)가 사용자가 멈춘 상태에서 로봇을 향해 제스쳐를 취하는 사용자의 제스쳐를 인식하므로, 사용자가 이동중인 경우에 획득된 이전 배경 영상가 삭제된다(S620).
사용자의 이동 여부를 판별하는 것은 현재의 영상에서의 설정된 머리 영역과 배경 영상에서의 머리 영역이 중첩되는 면적의 크기가 기 설정된 임계 값보다 작은 경우, 사용자는 이동 중인 것으로 판단한다.
사용자가 멈춘 경우, 검출된 얼굴 영역을 기준으로 ROI 영역이 설정된다. 이 때 사용자의 얼굴이 화면 가장자리에 위치하거나, 사용자가 로봇에 너무 접근한 경우에는, ROI 영역이 전체 영상의 바깥으로 벗어난다. 이로 인해 사용자 팔의 제스쳐 발생 여부가 판별될 수 없다. 따라서 ROI 영역의 크기가 설정된 임계 값(V) 보다 작은 경우, 배경 영상의 획득 과정이 수행되지 않고, 배경 영상 획득부(140)가 다시 전체 영상을 입력받는다(S630).
이어, 배경 영상 획득부(140)는 사용자가 멈춘 상태이고, ROI 영역이 안정적으로 확보되면, ROI 영역 내에 팔의 존재 유무를 파악한다. 팔의 존재 유무를 파악하기 위하여 차 영상 분석 과정 및 배경 분리 영상 분석과정이 수행된다(S640, S650).
상기 차 영상 분석 과정은 현재 영상과 이전 영상의 픽셀의 차이값의 통해 모션 발명 여부를 분석한다. 여기서, 픽셀의 차이값이란 상기 현재 영상의 픽셀의 계조(gray) 값과 상기 현재 영상의 픽셀에 대응하는 이전 영상의 픽셀의 계조 값의 차이 값를 통해서 모션의 발생 여부를 분석하는 기법이다(S640).
모션의 발생이 없는 경우, ROI 영역 내에는 팔이 없는 것으로 간주할 수 있다. 만약 ROI 영역 내에서 이동 중인 팔이 이동을 멈추고 정지해 있는 경우면, 차 영상 분석만으로는 팔의 존재 유무를 파악할 수 없다. 이 경우, 이전에 설정된 배경 영상과 현재 영상의 픽셀 차인 배경 분리 영상을 분석과정을 통해 움직이지 않는 팔의 존재 유무가 확인될 수 있다(S670).
ROI 영역 내에서 움직이거나 또는 정지하고 있는 팔이 없다면 최종적으로 현재 영상을 배경 영상으로 재설정(갱신)한다(S680).
배경 영상이 획득되면 ,도 5c와 같이 배경 분리 기법을 통한 팔 영역이 검출된다.
기존의 기술들은 사용자가 존재하지 않는 전체 영상에서 초기에 한 번 배경 영상이 획득되기 때문에 카메라가 이동하는 로봇 환경에서는 그 적용이 불가능하다. 그러나, 본 실시예에서는 기존의 기술과는 다르게 사용자 얼굴 영역을 기준으로 설정된 ROI 영역에 대해서만 팔의 존재 유무를 조사하고, 이를 통해 적응적으로 배경 영상을 갱신한다.
따라서 로봇과 사용자가 자유롭게 이동하다가 사용자가 제스쳐를 취하는 순간에만 로봇이 정지된 상태를 유지하면, 도 1에 도시된 제스쳐 인식 장치(100)는 로봇 환경에도 적용 가능하다.
다시 도 3을 참조하면, 제스쳐 판정부(160) 도 5c와 같이 ROI 영역들 중 어느 한 영역에 존재하는 팔 영역이 안정적으로 확보되면, 제스쳐의 발생 여부를 판정한다. 제스쳐의 발생 여부를 판정하기 위해 제스쳐 판정부(160)는 영역 분석부(162), 모션 분석부(164), 형태 분석부(166)를 포함한다.
*상기 영역 분석부(162)는 검출된 팔 영역(또는 팔 블럽(blob))이 도 4에서 설정된 5개의 ROI들(31~35) 중 어느 영역에 위치하는 지를 분석하고, 도 7에 도시된 바와 같은 룩업 테이블을 통해 목표 제스쳐들이 아닌 사용자 일상적인 행동인 노이즈 제스쳐를 구별하는 역할을 수행한다.
도 7은 목표 제스쳐와 노이즈 제스쳐를 구별하기 위하여 사용되는 룩업 테이블이다. 여기서, '○' 기호는 해당 관심 영역에 팔 블럽이 있음을 나타내는 표시하는 기호이고, '×' 기호는 해당 관심 영역에 팔 블럽이 없음을 나타내는 표시하는 기호이다. 그리고, '-'는 해당 관심 영역에 팔 블럽이 있어도 되고, 없어도 된다는 의미를 나타내는 기호이다. 즉, 돈 케어(don't cate) 상태를 의미하는 기호이다.
도 7 및 도 4를 참조하면, 오른손으로 Waving 제스쳐(도 1의 12)를 취하는 경우, 팔 블럽은 LL 영역(도 4의 34)에는 반드시 나타나고, RU 영역(도 4의 32)과 RL 영역(도 4의 35)에는 나타나지 않는다.
LU 영역(도 4의 31) 또는 CU 영역(도 4의 33)에는 사용자의 습관에 따라 팔 팔 블럽이 나타날 수도 있고 안 나타날 수도 있다.
이와 같이 팔 블럽이 검출된 경우, ROI 영역을 분석하여 룩업 테이블에 명시된 4가지 제스쳐에 대한 조건을 모두 다 만족하지 못하는 경우의 팔 블럽은 노이즈 제스쳐로 판단된다.
다시, 도 3을 참조하면, 상술한 바와 같은 영역 분석부(162)는 본 실시예에서 제시하는 4가지 목표 제스쳐들 중 어느 하나의 제스쳐를 인식하기 위한 기능을 충분히 수행하지 못하고, 단지 목표 제스쳐인지 노이즈 제스쳐를 구별하는 기능만을 수행한다. 그럼에도 불구하고, 이러한 영역 분석부(162)를 설계하는 것은 전체 시스템이 불필요한 분석을 수행하여, 발생하는 제스쳐의 오인식을 미연에 방지하고, 제스쳐 인식에 따른 불필요한 연산을 최소화할 수 있다.
모션 분석부(164)는 검출된 팔 블럽의 이동 방향성을 분석하여, 4가지 목표 제스쳐들(도 1에 도시된 12, 14, 16, 18) 중 모션 제스쳐에 해당하는 Waving 제스쳐(12)와 Calling 제스쳐(14)를 발생 여부를 분석한다. Waving 제스쳐(12)와 Calling 제스쳐(14)는 앞서 언급한 바와 같이 사용자가 오른 팔을 이용한 제스쳐로 정의한다. 따라서 모션 분석부(164)는 사용자의 오른 팔의 좌우 또는 상하의 반복적인 동작 여부를 확인하고, 확인된 결과를 통해 모션 제스터의 발생 여부를 판단한다.
도 8a는 도 3에 도시된 모션 분석부에서 수행되는 모션 제스쳐를 분석하는 과정을 보여주는 흐름도이고, 도 8b는 도 8a의 손끝 좌표를 검출하는 과정에서 손끝의 y좌표를 보여주는 도면이고, 도 8c 내지 도 8e는 손끝의 이동방향으로 보여주는 입력 영상들을 보여주는 도면들이다.
도 8a을 참조하면, 배경 분리 기법에 의해 분리된 오른 팔 영역이 포함된 입력 영상이 되면, 상기 입력 영상에서 오른 손끝 부분에 해당되는 좌표가 검출된다(S810). 상기 좌표는 손끝의 y 좌표와 손끝의 x 좌표를 포함한다.
상기 손끝의 y 좌표는 검출된 오른 팔 영역의 y좌표로 할당된다.
상기 손끝의 x 좌표는 도 8b에 도시된 바와 같이, 오른 팔 영역의 전체 높이(h) 중 상위 영역(1/5h)에서 팔 블럽의 오른 손 영역의 무게중심 값(40)으로 할당된다.
손끝 좌표가 검출되면, 도 8c 내지 도 8에 도시된 바와 같이, 연속된 영상에서 손끝의 이동방향을 쉽게 검출할 수 있다. 즉, 도 8c에는, 이전 영상에서 검출된 손끝 좌표(C1)가 동그라미 형태로 표시되고, 도 8d에서는 현재 영상에서 검출된 손끝 좌표(C2)가 네모 형태로 표시된다. 도 8e는 화살표를 통해 손끝 이동방향을 표시된 결과를 보여주고 있다.
계속해서, 도 8a를 참조하면, 손끝의 이동방향이 검출되면(S820), 손끝의 이동 방향이 분석된다(S830). 손끝의 이동 방향이 분석은 이동방향 코드 테이블과 이동방향 누적 히스토그램을 이용하여 분석된다. 이에 대한 구체적인 설명은 도 9a 및 도 9b를 이용하여 상세히 설명하기로 한다.
도 9a는 손끝의 이동 방향을 분석하기 위해 본 실시예에서 제시하는 이동 방향 코드 테이블의 일례를 보여주는 도면이고, 도 9b는 손끝의 이동 방향을 분석하기 위해 본 실시예에서 제시하는 이동방향 누적 히스토그램을 나타내는 그래프이고, 도 9c는 영상의 획득 속도에 따른 코드 값 발생 빈도 및 손끝 이동변위를 보여주는 도면이다.
손끝의 이동 방향은 도 9a에 도시된 이동 방향 코드 테이블에 의해 4개의 코드 값으로 설정된다. 예컨대, 도 8e와 같이 손끝 좌표가 왼쪽에서 오른쪽 방향으로 이동하는 경우, 그 이동 방향의 각도가 315도 이상이고 45도 이하이므로, 이동 방향의 코드값은 '코드 1'로 할당된다.
입력 영상이 연속적으로 입력되는 과정에서, 이동 방향의 코드값은 연속적으로 산출되고, 산출된 이동 방향의 코드값은 도 9b에 도시된 바와 같이, 이동방향의 코드값을 코드값 별로 누적시킨 히스토그램으로 구성할 수 있다.
이동방향의 코드 값을 누적시킨 히스토그램을 분석하면, Waving 제스쳐(도 1의 12)와 Calling 제스쳐(도 1의 14)의 발생 여부가 판별될 수 있다.
Waving 제스쳐의 경우, 오른 팔을 좌우로 반복적으로 흔드는 동작이므로, 이동방향 누적 히스토그램에서는 이동 방향의 코드값인 코드 1과 코드 3이 주로 발생한다.
따라서 코드 1(또는 코드 3)이 기 설정된 임계 값(T1)보다 크고, 그 반대 향에 해당되는 코드 3(또는 코드 1)이 임계 값(T2)보다 큰 경우에는 waving 제스쳐(도 1의 12)가 발생한 것으로 판정될수 있다. 다시 말해, 시스템은 특정 코드 값이 임계 값 T1을 초과할 때 그 반대 방향에 해당되는 코드 값이 임계 값 T2를 초과하는지 검사함으로써, Waving 제스쳐(도 1의 12) 또는 Calling 제스쳐(도 2의 14)의 발생여부가 판정될 수 있다.
한편, 누적 히스토그램에서는 이동 방향의 코드값의 발생 빈도수를 누적시키는 것이 일반적이나, 본 실시예에서는 이동 방향의 코드값의 발생 빈도수가 아닌 아래의 수학식 1과 같이 손끝의 이동 속력을 기반으로 한 가중치(W)를 산출하고 이를 누적하여 히스토그램을 구성한다.
Figure pat00001
도 9c를 참조하면, 위의 수학식 1에 의하면, 인접한 영상들 내에서 손끝의 이동변위가 빠를수록 즉, 손끝의 이동 속도가 빠를수록 가중치(W)는 증가하고, 이동변위가 느릴수록 즉, 손끝의 이동 속도가 느릴수록 가중치(W)는 감소한다.
여기서, x f , y f 는 이전 영상 프레임에서 검출된 손끝 좌표이고, x f +1 , y f +1 는 현재 영상 프레임에서 검출된 손끝 좌표이다. 그리고, w LL h LL 은 각각 LL 영역(도 4의 34)의 넓이와 높이를 나타낸다.
본 실시예에서, 이동 코드 값의 발생 빈도수가 아닌 이동속력을 기반으로 한 가중치(W)를 이용하여 누적 히스토그램을 구성하는 이유는 영상을 획득하는 시스템(예컨대, 카메라)마다 영상의 획득속도가 다르기 때문이다. 즉, 상이한 영상의 획득속도에 상관없이 사용자의 제스쳐를 균일한 반응 속도로 안정적으로 인식하기 위함이다.
예를 들어 카메라와 같은 영상을 획득하는 시스템이 영상을 획득하는 속도가 느린 경우에는 초당 획득되는 입력 영상의 프레임 수가 적다. 따라서 이동방향 코드 값의 산출되는 빈도도 감소된다. 이러한 경우 이동 방향의 코드값의 발생 빈도수로 누적 히스토그램을 구성면, 특정 코드 값의 누적되는 정도가 임계 값(T1)을 초과하는데 소요되는 시간이 길어진다. 따라서 시스템이 사용자의 제스쳐를 인식하기까지 많은 시간이 요구되고, 사용자는 오랫동안 동일한 제스쳐를 반복해야 하는 불편한 점이 발생한다.
반면, 카메라가 영상을 획득하는 속도가 빠르면, 사용자가 손을 좌우로 1-2회 정도만 흔들어도 이동 방향의 코드 값의 산출량이 충분히 확보되므로, 사용자의 제스쳐에 대하여 시스템이 목표 제스쳐로서 인식하는 반응속도가 증가한다. 이 경우, 실제 waving 제스쳐(도 1의 12)가 아닌 일상적인 행동을 waving 제스쳐(도 1의 12)라고 오인식 할 수 있는 가능성도 높아질 수 있다.
그러나. 본 실시예에서 제시한 이동 속력을 가중치로 하는 누적 히스토그램은 이러한 문제점을 해결할 수 있다 이에 대한 설명은 도 9c를 참조하여 설명하기로 한다.
도 9c는 영상을 획득하는 시스템의 영상 캡쳐 속도에 따른 이동 코드 값의 발생 빈도 및 손끝 이동변위를 보여주는 도면이다.
도 9c를 참조하면, 위의 수학식 1에 의하면, 인접한 영상들 내에서 손끝의 이도변위가 빠를 수록(즉, 손끝의 이동 속도가 빠를수록) 가중치(W)는 증가하고, 이동변위가 느릴수록( 즉, 손끝의 이동 속도가 느릴수록) 가중치(W)는 감소한다.
만약 영상을 획득하는 시스템의 획득 속도가 느리면, 입력되는 영상 수가 감소하여 이동 방향의 코드 값의 발생 빈도는 감소하지만, 연속된 영상에서의 손끝의 이동변위는 커져 가중치(W)는 커진다. 따라서 해당 코드의 누적 값은 비록 빈도수는 작지만 가중치(W)가 크므로 가중치 만큼의 값을 가질 수 있다.
만약 시스템의 영상 획득 속도가 빠르다면 코드 값의 발생 빈도는 증가하지만, 연속된 인접 영상에서의 손끝 이동변위는 작아진다. 따라서 각각의 가중치(W)는 작아지며, 해당 이동 방향의 코드의 누적 값은 각각의 가중치의 합만큼의 값만을 가진다.
따라서 시스템은 영상 획득 속도에 상관없이 사용자의 제스쳐에 대하여 균일한 속도로 안정적으로 제스쳐를 인식할 수 있다.
한편, 본 실시예에서의 누적 히스토그램에 추가되는 가중치(W)는 각각 히스토그램에 추가된 시간 정보(time stamp)를 가지고 있으며, 일정 시간(일례로, 5초) 동안만 히스토그램 내에서 존재하다가 삭제된다.
다시 도 3을 참조하면, 형태 분석부(166)는 검출된 팔 영역의 크기 정보를 포함하는 형태 정보를 분석하여 4가지의 목표 제스쳐(도 1의 12, 14, 16, 18) 중에서 비 모션 제스쳐에 해당하는 Raising 제스쳐(16)와 Stopping 제스쳐(18)를 판별한다.
형태 분석부(166)는 양팔 영역이 포함된 영상이 입력되면, 양팔 영역의 상대적 길이 비를 분석하여, Raising 제스쳐(16)인지 Stopping 제스쳐(18)인지를 판별하고, Raising 제스쳐(16)와 Stopping 제스쳐(18)로 판별되지 않으며, 노이즈 제스쳐로 판별한다. 이하, 도 10을 참조하여, Raising 제스쳐(16)와 Stopping 제스쳐(18)를 각각 판별하는 방법에 대해 상세히 설명하기로 한다.
도 10은 도 3에 도시된 형태 분석부가 Raising 제스쳐(16)와 Stopping 제스쳐(18)를 각각 판별하는 과정을 보여주기 위한 흐름도이고, 도 11은 도 10에 도시된 양팔 영역의 상대적 길이를 분석하는 과정에 대한 이해를 돕기위해 나타낸 도면이고, 도 12는 Raising 제스쳐의 판별 조건을 보여주기 위한 도면이고, 도 13은 Stopping 제스쳐의 판별 조건을 보여주기 위한 도면이다.
도 10 및 도 11을 참조하면, 영상이 입력되면, 먼저, 양팔 영역의 상대적 길이비에 대한 분석과정이 수행된다(S911).
입력 영상에서, 왼팔(L) 영역이 없거나 또는 오른팔(R) 영역의 길이가 왼팔 영역의 길이의 2배 이상이면, 사용자의 제스쳐는 도 11의 (A)에 도시된 바와 같이 Raising 제스쳐(도 1의 16)로 판별된다(S913). 만일 입력된 영상에서, 오른팔(R) 영역이 없거나 왼팔영역의 길이가 오른 팔 영역의 길이의 2배 이상이면, 사용자의 제스쳐는 도 11의 (C)에 도시된 바와 같이, 노이즈 제스쳐로 판별된다(S915).
입력 영상에서, 오른팔(R) 영역의 길이와 왼팔(L)영역의 길이가 거의 동일하면, 사용자의 제스쳐는 도 11의 (B)에 도시된 바와 같이, Stopping 제스쳐(도 1의 18)로 판별된다(S917).
Raising 제스쳐(도 1의 16) 판별과정은 간단하게 왼 팔 영역의 길이와 각도를 분석하여 Raising 제스쳐 인지 노이즈 제스쳐 인지를 판정될 수 있다(S913).
도 12에 도시된 바와 같이, 본 실시예에서는, 오른 팔(R) 영역의 길이가 사용자 머리 영역(HR)의 세로 방향 높이의 대략 1.3배 보다 크고, 오른 팔(R)의 각도가 제1 각도(일례로, 60도)에서 제2 각도(일례로, 135도) 사이인 경우, Rsing 제스쳐로 판단하고(S913), 이러한 조건을 만족하지 않은 사용자의 제스쳐는 모두 노이즈 제스쳐로 판단한다(S915).
Stopping 제스쳐는 양팔(R, L) 영역의 길이, 각도, 위치를 분석하여 Stopping 제스쳐 인지 또는 노이즈 제스쳐 인지를 판별한다(S915, S917).
먼저 양팔 영역의 상단부가 모두가 사용자의 머리 영역(HR)의 세로 방향의 상단부에 근접해 있는 경우(두 팔로 머리를 만지는 일상적인 행동에 해당)와 팔 영역의 길이가 사용자의 머리 영역(HR)의 세로 방향의 높이의 1.6배 보다 긴 팔이 존재하는 경우에는, 사용자의 제스쳐는 노이즈 제스쳐로 판단한다(S915).
Stopping 제스쳐는 인간의 신체구조 상 양 손의 각도가 90도 보다 작거나 같을 경우, 사용자의 제스쳐는 Stopping 제스쳐일 가능성이 높다.
반면 90도보다 커질수록 Stopping 제스쳐가 아닌 일상적인 동작(예를 들어 기지개)일 가능성이 크다.
또한 도 13에 도시된 바와 같이, 사용자의 손 영역이 머리 영역(HR)의 가로 길이만큼 양쪽으로 떨어진 위치에 존재할 때, 사용자의 제스쳐는 Stopping 제스쳐일 가능성이 가장 높으며, 이 위치에서의 변위가 클수록 그 가능성은 떨어진다. 즉, 왼팔(L)의 각도가 90도를 초과하고, 오른팔(R)의 각도가 90도 미만일때, 사용자의 제스쳐는 Stopping 제스쳐가 아닐 가능성이 가장 높다.
따라서 아래의 수학 식들과 같이 손 영역의 각도와 위치에 따라 Stopping 제스쳐 일 확률 값을 구하고(P d P p ), 이 확률 값들에 근거하여 최종 확률 값(P)이 지정한 임계 값보다 높은 경우에 Stopping 제스쳐로 판정하고, 그렇지 않다면 노이즈 제스쳐로 판단한다.
Figure pat00002
Figure pat00003
Figure pat00004
여기서, 상기 수학식 2에서, Pd는 각도 정보에 근거한 현재 팔 영역이 Stopping 제스쳐일 확률 값이고, d는 팔 영역의 각도 값, dl 와 dh 는 제스쳐 허용 각도로써 각각 90도와 120도이다.
상기 수학식 3에서, Pp는 위치 정보에 근거한 현재 팔 영역이 Stopping 제스쳐 일 확률 값이고, x는 팔 영역의 X좌표, Xhl 은 머리 영역의 왼쪽 경계의 X 좌표, Wh 는 머리 영역의 넓이를 나타낸다. 상기 수학식 4에서, P는 현재의 팔 영역이 Stopping 제스쳐 일 최종 확률 값이며, α는 가중치이다.
결론적으로, 상기 수학식 2에 의하면, 상기 오른팔 영역의 각도가 90도 이하이고, 상기 왼팔 영역의 각도가 90도 이상인 경우, 상기 Stopping 제스쳐일 확률 값(Pd)이 증가하고, 상기 오른팔 영역의 각도가 90도를 초과하고, 상기 왼팔 영역의 각도가 90도 미만인 경우, 상기 Stopping 제스쳐일 확률 값(Pd)은 감소한다.
수학식 3에 의하면, 상기 오른팔 영역과 상기 왼팔 영역의 위치가 머리 영역(HR)을 기준으로 머리 영역(HR)의 넓이만큼 각각 떨어진 경우, Stopping 제스쳐일 확률 값(Pd)이 가장 크고, 해당 위치에서의 변위가 커질수록 Stopping 제스쳐일 확률 값(Pd)이 감소한다.
수학식 4에 의하면, 상기 오른팔 영역과 상기 왼팔 영역 각각의 각도와 위치에 따라 stopping 제스처일 확률 값(Pd)이 산출될 수 있다.
계속해서, Raising 제스쳐와 Stopping 제스쳐의 발생 횟수가 지정된 임계 값(K)을 초과하면(S919), 시스템은 최종적으로 비 모션 제스쳐가 발생한 것으로 판별한다(S921).
이상 설명한 바와 같이, 본 발명은 도면에 도시된 일 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (14)

  1. 입력 영상으로부터 검출된 사용자의 얼굴 영역을 기준으로 상기 사용자의 팔의 제스쳐가 발생하는 제스쳐 영역을 설정하는 제스쳐 영역 설정부;
    상기 제스쳐 영역 내에 존재하는 상기 사용자의 팔 영역을 검출하는 팔 검출부; 및
    상기 제스쳐 영역 내에 존재하는 팔 영역의 위치, 이동 방향성 및 형태 정보를 분석하여, Waving 제스쳐와, Calling 제스쳐, Raising 제스쳐 및 Stopping 제스쳐를 포함하는 상기 사용자의 목표 제스쳐를 판별하는 제스쳐 판정부를 포함하고,
    상기 제스쳐 판정부는,
    상기 사용자의 팔 영역 위치가 상기 제스쳐 영역 내에 존재하는지를 판별하고, 판별 결과에 따라 상기 목표 제스쳐와 사용자의 일상적인 행동에 해당하는 노이즈 제스쳐를 구별하는 영역 분석부;
    상기 사용자의 팔 영역의 상기 이동 방향성을 분석하여, 상기 Waving 제스쳐와, 상기 Calling 제스쳐를 판별하는 모션 분석부; 및
    상기 사용자의 양팔의 상대적 길이 비와 각도를 포함하는 상기 형태 정보를 분석하여, 상기 Raising 제스쳐와 상기 Stopping 제스쳐를 판별하는 형태 분석부를 포함함을 특징으로 하는 제스쳐 인식 장치.
  2. 제1항에서, 상기 팔 검출부는 상기 입력 영상으로부터 분리된 배경 분리 영상을 통해 상기 제스쳐 영역 내에 존재하는 상기 사용자의 팔 영역을 검출하는 것을 특징으로 하는 제스쳐 인식 장치.
  3. 제1항에서, 상기 제스쳐 영역 설정부는 상기 검출된 얼굴 영역의 크기와 위치에 따라 상기 제스쳐 영역의 크기를 설정하는 것을 특징으로 하는 제스쳐 인식 장치.
  4. 제1항에서, 상기 영역 분석부는 상기 목표 제스쳐와 상기 제스쳐 영역이 항목별로 구성된 룩업 테이블을 이용하여 상기 목표 제스쳐와 상기 노이즈 제스쳐를 판별하는 것을 특징으로 하는 제스쳐 인식 장치.
  5. 제1항에서, 상기 모션 분석부는, 사용자의 오른팔을 기준으로,
    상기 사용자의 팔 영역의 손끝 좌표를 검출하고, 상기 검출된 손끝 좌표의 이동 방향과 이동 속도를 분석하여 이동 방향 코드 값을 설정하고, 상기 설정된 이동 방향 코드 값의 누적 치에 근거하여 상기 Waving 제스쳐와 상기 Calling 제스쳐를 판별하는 것을 특징으로 하는 제스쳐 인식 장치.
  6. 제1항에서, 상기 제스쳐 영역 설정부는,
    상기 얼굴 영역을 포함하는 머리 영역의 위치를 기준으로,
    상기 머리 영역의 좌측 상부에 위치한 좌측 상부 영역;
    상기 머리 영역의 우측 상부에 위치한 우측 상부 영역;
    상기 머리 영역에 인접하고, 상기 좌측 상부 영역과 상기 우측 상부 영역 사이에 위치하는 중앙 상부 영역,
    상기 머리 영역에 인접하고, 상기 좌측 상부 영역의 하부에 위치한 좌측 하부 영역 및
    상기 머리 영역에 인접하고, 상기 우측 상부 영역의 하부에 위치한 우측 하부 영역을 포함하는 상기 제스쳐 영역을 설정하는 것을 특징으로 하는 제스쳐 인식 장치.
  7. 제6항에서, 상기 형태 분석부는, 사용자가 오른팔을 이용하여 상기 Raising 제스쳐를 표현하는 경우,
    상기 우측 하부 영역에 왼팔 영역이 존재하지 않고, 상기 좌측 하부 영역 및 좌측 상부 영역을 걸쳐서 존재하는 오른팔 영역의 길이가 왼팔 영역의 길이 2배 이상이면, 상기 사용자의 제스쳐를 상기 Raising 제스쳐로 판별하고,
    상기 좌측 하부 영역에 오른팔(R) 영역이 없고, 상기 우측 상부 영역에 존재하는 왼팔영역의 길이가 오른팔 영역의 길이 이상이면, 상기 사용자의 제스쳐를 상기 노이즈 제스쳐로 판별하는 것을 특징으로 하는 제스쳐 인식 장치.
  8. 제6항에서, 상기 형태 분석부는,
    상기 좌측 하부 영역 내에 존재하는 상기 오른팔 영역의 길이가 상기 머리 영역의 세로 방향 높이의 1.3배보다 크고, 오른팔의 각도가 60도에서 135도 사이인 경우, 상기 사용자의 제스쳐를 Raising 제스쳐로 판단하는 것을 특징으로 하는 제스쳐 인식 장치.
  9. 제6항에서, 상기 형태 분석부는,
    상기 좌측 하부 영역 내에 존재하는 상기 사용자의 오른팔 영역의 길이와 상기 우측 하부 영역에 존재하는 왼팔 영역의 길이가 실질적으로 동일하면, 상기 사용자의 제스쳐를 상기 Stopping 제스쳐로 판별하고,
    상기 오른팔 영역의 길이와 상기 왼팔 영역의 길이가 상기 머리 영역의 높이의 기 설정된 배수보다 길면, 상기 사용자의 제스쳐를 상기 노이즈 제스쳐로 판별하는 것을 특징으로 하는 제스쳐 인식 장치.
  10. 제1항에서, 상기 형태 분석부는,
    상기 사용자의 오른팔 영역의 각도가 90도 이하이고, 상기 사용자의 왼팔 영역의 각도가 90도 이상인 경우, 상기 Stopping 제스쳐로 판별될 확률 값이 가장 크고, 상기 오른팔 영역의 각도가 90도를 초과하고, 상기 왼팔 영역의 각도가 90도 미만인 경우, 상기 Stopping 제스쳐로 판별될 확률 값이 감소하는 것을 특징으로 하는 제스쳐 인식 장치.
  11. 제1항에서, 상기 형태 분석부는,
    상기 사용자의 오른팔 영역과 상기 사용자의 왼팔 영역의 위치가 상기 머리 영역을 기준으로 상기 머리 영역의 넓이만큼 각각 떨어진 경우, 상기 Stopping 제스쳐로 판별될 확률 값이 가장 크고, 해당 위치에서의 이동 변위가 커질수록 상기 Stopping 제스쳐로 판별될 확률 값이 감소하는 것을 특징으로 하는 제스쳐 인식 장치.
  12. 제1항에서, 상기 형태 분석부는,
    상기 사용자의 오른팔 영역과 상기 사용자의 왼팔 영역 각각의 각도와 위치에 따라 stopping 제스처일 확률 값을 산출하는 것을 특징으로 하는 제스쳐 인식 장치.
  13. 이동수단을 구비한 인간-로봇 상호작용(Human Robot Interaction: HRI)기술이 구현된 로봇 시스템을 이용한 사용자의 제스쳐 인식 방법에 있어서,
    입력 영상으로부터 사용자의 얼굴 영역을 검출하는 단계;
    상기 검출된 얼굴 영역의 위치와 크기에 따라 상기 사용자의 팔의 제스쳐가 발생하는 제스쳐 영역의 크기를 소정의 비율로 계산하는 단계;
    상기 계산된 제스처 영역 내에 존재하는 사용자 팔 영역이 포함된 배경 분리 영상을 획득하는 단계;
    상기 획득된 배경 분리 영상을 이용하여 상기 제스쳐 영역 내에 존재하는 상기 사용자의 팔 영역을 검출하는 단계; 및
    상기 제스쳐 영역 내에 존재하는 팔 영역의 위치, 이동 방향성 및 형태 정보를 분석하여, Waving 제스쳐와, Calling 제스쳐, Raising 제스쳐 및 Stopping 제스쳐를 포함하는 상기 사용자의 목표 제스쳐를 판별하는 단계를 포함하고,
    상기 사용자의 목표 제스쳐를 판별하는 단계는,
    상기 사용자의 팔 영역 위치가 상기 제스쳐 영역 내에 존재하는지 여부를 판별하고, 판별 결과에 따라 상기 목표 제스쳐와 사용자의 일상적인 행동에 해당하는 노이즈 제스쳐를 구별하는 단계;
    상기 사용자의 팔 영역의 상기 이동 방향성을 분석하여, 상기 Waving 제스쳐와, 상기 Calling 제스쳐를 판별하는 단계; 및
    상기 사용자의 양팔의 상대적 길이 비와 각도를 포함하는 상기 형태 정보를 분석하여, 상기 Raising 제스쳐와 상기 Stopping 제스쳐를 판별하는 단계
    를 포함함을 특징으로 하는 로봇 시스템을 이용한 제스쳐 인식 방법.
  14. 제13항에서, 상기 사용자의 목표 제스쳐를 판별하는 단계는,
    상기 제스쳐 영역 내에서 상기 사용자의 팔 영역의 손끝 좌표를 검출하는 단계를 더 포함하고,
    상기 Waving 제스쳐와, 상기 Calling 제스쳐를 판별하는 단계는,
    상기 검출된 손끝 좌표의 이동 방향과 이동 속도를 분석하여 이동 방향 코드 값을 설정하고, 상기 설정된 이동 방향 코드 값의 누적 치에 근거하여 상기 Waving 제스쳐와, 상기 Calling 제스쳐를 판별하는 것임을 특징으로 로봇 시스템을 이용한 사용자의 제스쳐 인식 방법.
KR1020160029869A 2016-03-11 2016-03-11 제스쳐 인식 장치 및 그 방법 KR101653235B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160029869A KR101653235B1 (ko) 2016-03-11 2016-03-11 제스쳐 인식 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160029869A KR101653235B1 (ko) 2016-03-11 2016-03-11 제스쳐 인식 장치 및 그 방법

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR20090060771A Division KR20110003146A (ko) 2009-07-03 2009-07-03 제스쳐 인식 장치, 이를 구비한 로봇 시스템 및 이를 이용한 제스쳐 인식 방법

Publications (2)

Publication Number Publication Date
KR20160034275A true KR20160034275A (ko) 2016-03-29
KR101653235B1 KR101653235B1 (ko) 2016-09-12

Family

ID=55662021

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160029869A KR101653235B1 (ko) 2016-03-11 2016-03-11 제스쳐 인식 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR101653235B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210156793A (ko) * 2020-06-18 2021-12-27 애플 인크. 낮은 공간 지터, 낮은 레이턴시 및 저전력 사용을 갖는 객체 및 키포인트 검출 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100776801B1 (ko) * 2006-07-19 2007-11-19 한국전자통신연구원 화상 처리 시스템에서의 제스처 인식 장치 및 방법
KR20080051645A (ko) * 2006-12-06 2008-06-11 엠텍비젼 주식회사 피사체 회전 동작 감지 장치 및 방법
KR20080075514A (ko) * 2005-12-09 2008-08-18 마이크로소프트 코포레이션 라이브 영상에서의 배경 제거 방법, 및 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080075514A (ko) * 2005-12-09 2008-08-18 마이크로소프트 코포레이션 라이브 영상에서의 배경 제거 방법, 및 시스템
KR100776801B1 (ko) * 2006-07-19 2007-11-19 한국전자통신연구원 화상 처리 시스템에서의 제스처 인식 장치 및 방법
KR20080051645A (ko) * 2006-12-06 2008-06-11 엠텍비젼 주식회사 피사체 회전 동작 감지 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
최철민, 안정호, 변혜란, "최대 공통 부열을 이용한 비전 기반의 양팔 제스처 인식", 한국통신학회논문지, vol.33, no.5, pp.371-377, 2008년 5월. *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210156793A (ko) * 2020-06-18 2021-12-27 애플 인크. 낮은 공간 지터, 낮은 레이턴시 및 저전력 사용을 갖는 객체 및 키포인트 검출 시스템
US11847823B2 (en) 2020-06-18 2023-12-19 Apple Inc. Object and keypoint detection system with low spatial jitter, low latency and low power usage

Also Published As

Publication number Publication date
KR101653235B1 (ko) 2016-09-12

Similar Documents

Publication Publication Date Title
KR20110003146A (ko) 제스쳐 인식 장치, 이를 구비한 로봇 시스템 및 이를 이용한 제스쳐 인식 방법
KR102465532B1 (ko) 객체 인식 방법 및 장치
JP6013241B2 (ja) 人物認識装置、及び方法
KR101581954B1 (ko) 실시간으로 피사체의 손을 검출하기 위한 장치 및 방법
KR101514169B1 (ko) 정보 처리 장치, 정보 처리 방법 및 기록 매체
WO2013180151A1 (ja) 注目位置検出装置、注目位置検出方法、及び注目位置検出プログラム
KR101364571B1 (ko) 영상 기반의 손 검출 장치 및 그 방법
US9256324B2 (en) Interactive operation method of electronic apparatus
JP5645646B2 (ja) 把持物体認識装置、把持物体認識方法、及び把持物体認識プログラム
CN105849673A (zh) 基于自然三维手势的人机导览方法
CN101131609A (zh) 接口装置和接口方法
EP2601615A1 (en) Gesture recognition system for tv control
KR101745651B1 (ko) 손 제스처 인식 시스템 및 방법
JP2014165660A (ja) バーチャルキーボードの入力方法、プログラム、記憶媒体、及びバーチャルキーボードシステム
JP6590609B2 (ja) 画像解析装置及び画像解析方法
TW201331891A (zh) 動作辨識方法
JP5598751B2 (ja) 動作認識装置
JP5438601B2 (ja) 人物動作判定装置およびそのプログラム
KR100692526B1 (ko) 시스템 자동제어용 제스처 인식 장치 및 그 방법
JP6728865B2 (ja) 手上げ検出装置及び手上げ検出プログラム
KR20080029222A (ko) 손 모양을 인식하는 방법 및 이를 위한 장치
Gunale et al. Fall detection using k-nearest neighbor classification for patient monitoring
JP5964603B2 (ja) データ入力装置、及び表示装置
KR101745601B1 (ko) 영상 처리를 이용한 손가락 개수 인식 방법 및 장치
JP2012133666A (ja) 部位認識装置、部位認識方法、及び部位認識プログラム

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant