KR20120072009A

KR20120072009A - 다중 사용자의 인터렉션 인식 장치 및 방법

Info

Publication number: KR20120072009A
Application number: KR1020100133771A
Authority: KR
Inventors: 이준섭; 강석빈; 김수영; 유재상; 이준석
Original assignee: 한국전자통신연구원
Priority date: 2010-12-23
Filing date: 2010-12-23
Publication date: 2012-07-03
Also published as: US20120163661A1

Abstract

본 발명은 비동기화된 복합 영상처리를 통한 다중 사용자 인터렉션 인식 장치 및 방법에 있어서, 단일 웹캠 영상에서 다양한 방식의 비전 처리를 통하여 데이터를 동시적으로 산출하며, 이러한 데이터에 대한 복합적 관계 설정 및 다중 연산을 통해 효과적으로 다중 사용자의 얼굴을 인식하고, 인식된 사용자에 ID 부여 후 추적 뿐만 아니라 해당 사용자의 손, 발, 몸 등의 제스쳐 포인트 등을 인식하여 단일의 가시광 영상 입력 상황에서도 다중 사용자를 정확히 인식할 수 있다.

Description

다중 사용자의 인터렉션 인식 장치 및 방법{INTERACTION RECOGNITION APPARATUS FOR MULTIPLE USER AND METHOD THEREOF}

본 발명은 다중 사용자의 인터렉션 인식에 관한 것으로, 특히 무객체 추출 기반의 단일 웹캠(web cam) 영상에서 다양한 방식의 비전 처리(vision processing)를 통하여 데이터를 동시적으로 산출하며, 이러한 데이터에 대한 복합적 관계 설정 및 다중 연산을 통해 효과적으로 다중 사용자의 얼굴을 인식하고, 인식된 사용자에 ID(identity) 부여 후 추적 뿐만 아니라 해당 사용자의 손, 발, 몸 등의 제스쳐 포인트(gesture point) 등을 인식하여 단일의 가시광 영상 입력 상황에서도 다중 사용자를 정확히 인식할 수 있도록 하는 비동기화된 복합 영상처리를 통한 다중 사용자 인터렉션 인식 장치 및 방법에 관한 것이다.

통상적으로, 기존의 인터렉션 시스템(interaction system)에서는 사용자를 추적하고 손 발 인식을 위해서 크게 두 가지의 접근 방식이 있다.

첫 번째는, 사용자에게 특수한 하드웨어(hardware)나 장비를 사용하게 하여, 사용자의 위치 및 손 발 등의 제스쳐를 추적하는 방식으로, 적외선 카메라가 장비되어 있는 특수한 콘트롤러(ex, 닌텐도 Wii 리모트)를 사용하여 사용자가 화면을 직접 포인팅할 수 있게 하는 방법이 가장 흔한 방법이다. 또는, 사용자에게 특수한 반사체 혹은 도료를 입히거나, 혹은 단색 또는 특수 패턴으로 이루어진 비적 인식 물체(장갑, 신발, 모자 등)를 착용하게 하여 해당 비전 인식체의 추적을 통하여 사용자의 인터렉션을 인식하는 방법이 있다. 현재의 대다수의 모션 캡춰 장비가 이것을 따른다. 이러한 하드웨어 장비 사용의 단점은 사용자가 인터렉션을 위하여 해당 용도로 디자인된 전자 장비 혹은, 지정된 특수 물건을 착용해야 한다는 점이다.

두 번째는, 특수 카메라를 사용하는 사용자를 촬영 후 인터렉션을 인식하는 방식으로, 적외선 TOF 카메라를 이용하여, 사용자의 공간에 대하여 3D 깊이(depth) 정보를 추출하여 이를 기반으로 사용자와 뒤 배경을 분리해 내고, 사용자의 제스쳐 인식 포인트를 추출 및 트랙킹(tracking)하여 인터렉션을 인식한다. 혹은, 두 개의 가시광 카메라를 잘 정합 하여, 스테레오 영상 입력을 받아, 양 영상의 특징점 차분을 통하여 3D 깊이(depth) 정보를 생성하는 것으로, 위의 TOF 카메라와 같은 방식으로, 사용자의 인터렉션을 인식한다. 이러한 특수 카메라 사용의 인터렉션 인식 시스템의 단점은, 해당 특수 카메라가 일반 가정 환경에 사용되기 어려울 정도로 현재로써는 매우 고가라는 점과, 사용자의 인터렉션 인식을 위해서 반드시 위의 특수 카메라를 활용해야 한다는 점이다.

이러한 두 가지 방식의 문제점을 벗어나기 위해서는, 사용자가 쉽게 접할 수 있는 영상 입력 장비와, 또 가장 많은 영상 입력 장비에서 지원하는 데이터 포맷을 통하여, 사용자에게 어떠한 추가적인 물체의 착용과 특수한 배경 환경없이, 사용자의 제스쳐 인터렉션을 인식할 수 있도록 하는 것이 중요하다.

하지만, 웹캠 등의 단일 영상입력을 제공하는 저가의 영상 입력장비에서는 저해상도의 영상입력이 발생할뿐더러, 사용자를 인식하기 위한 정보가 매우 부족하여 그 정확성이 현저히 떨어지거나, 계산량이 많아 실시간 성이 매우 떨어지게 되는 문제점이 있었다.

따라서, 본 발명은 무객체 추출 기반의 단일 웹캠 영상에서 다양한 방식의 비전 처리를 통하여 데이터를 동시적으로 산출하며, 이러한 데이터에 대한 복합적 관계 설정 및 다중 연산을 통해 효과적으로 다중 사용자의 얼굴을 인식하고, 인식된 사용자에 ID 부여 후 추적 뿐만 아니라 해당 사용자의 손, 발, 몸 등의 제스쳐 포인트 등을 인식하여 단일의 가시광 영상 입력 상황에서도 다중 사용자를 정확히 인식할 수 있도록 하는 비동기화된 복합 영상처리를 통한 다중 사용자 인터렉션 인식 장치 및 방법을 제공하고자 한다.

상술한 본 발명은 다중 사용자의 인터렉션 인식 장치로서, 단일 가시광 영상을 입력받아 전처리를 수행하는 전처리부와, 상기 영상에서 움직임 영역을 인식하여 해당 영역에 대한 모션블랍(motion blob) 정보를 생성하는 모션영역 인식부와, 상기 영상에서 스킨컬러 영역에 대한 정보를 인식하는 스킨영역 인식부와, 상기 영상에서 명암 정보만을 가지고, Haar-like 얼굴과 눈 탐지(face & eye detection)를 수행하는 Haar-like 인식부와, 상기 스킨컬러 영역에 대한 스킨블랍 리스트를 생성하는 블랍정보 추출부와, 상기 영상에서 상기 스킨블랍 리스트와 상기 Haar-like 얼굴과 눈 탐지의 결과값을 이용하여 사용자의 얼굴을 인식하는 얼굴 추적부와, 상기 얼굴에서 손영역을 인식하는 손추적부를 포함한다.

또한, 상기 장치는, 상기 손영역에 존재하는 손의 움직임 이벤트를 결정하는 손이벤트 생성부를 더 포함하는 것을 특징으로 한다.

또한, 상기 전처리부는, 상기 단일 가시광 영상에서 각 영상 프레임이 가지는 서로 다른 화이트 밸런스, 명암도, 밝기 및 컬러분포를 균일화하는 것을 특징으로 한다.

또한, 상기 모션블랍 정보는, 상기 영역에 대한 픽셀 정보와 컨투어 정보를 포함하는 것을 특징으로 한다.

또한, 상기 스킨영역 인식부는, 상기 인식하는 스킨컬러 영역 정보에 대해 각각 구분되는 블랍으로 분리하여, 컨투어 정보와 함께 스킨컬러 블랍리스트(skin color blob list)를 생성하는 것을 특징으로 한다.

또한, 상기 스킨영역 인식부는, 상기 모션블랍 정보와 스킨컬러 블랍리스트의 두 개의 데이터가 모두 생성되면, 이를 바탕으로 움직임을 가지는 실제 사람의 살색 영역을 인식하는 것을 특징으로 한다.

또한, 상기 얼굴 추적부는, 상기 영상에서 인식된 각 얼굴에 대해 ID를 부여하는 것을 특징으로 한다.

또한, 상기 손추적부는, 상기 영상에서 인식된 손영역에 대한 손블랍 리스트에서 각 손의 움직임을 검사하여, 상기 움직임이 기설정된 기준값 이상인 손 영역을 사람의 손으로 인식하는 것을 특징으로 한다.

또한, 본 발명은 다중 사용자의 인터렉션 인식방법으로서, 단일 가시광 영상을 입력받아 전처리를 수행하는 단계와, 상기 영상에서 살색 영역에 대한 스킨블랍 리스트를 생성하는 단계와, 상기 영상에서 명암 정보만을 가지고, Haar-like 얼굴과 눈 탐지(face & eye detection)를 수행하는 단계와, 상기 얼굴과 눈 탐지의 결과값을 이용하여 상기 영상에서 얼굴을 추적하고, 상기 추적된 얼굴에 대한 사용자 얼굴 리스트를 생성하는 단계와, 상기 얼굴 리스트상 각 얼굴 영역에서 손 영역을 인식하여 다중 사용자의 손 리스트를 생성하는 단계와, 상기 손 리스트내 각각의 손에 대한 이벤트를 인식하는 단계를 포함한다.

또한, 상기 스킨블랍 리스트를 생성하는 단계는, 상기 영상에서 움직임 영역을 인식하여 해당 영역에 대한 모션블랍(motion blob) 정보를 생성하는 단계와, 상기 영상에서 살색 영역을 탐지하여 스킨컬러 블랍리스트를 생성하는 단계와, 상기 모션블랍 정보와 스킨컬러 블랍리스트를 이용하여 상기 영상에서 사람의 스킨컬러 영역을 탐지하는 단계와, 상기 탐지된 스킨컬러 영역에 대한 스킨블랍 리스트를 생성하는 단계를 포함하는 것을 특징으로 한다.

또한, 상기 손 리스트를 생성하는 단계는, 상기 얼굴 영역에서 손영역을 인식하는 단계와, 상기 인식된 손영역에 대한 손블랍 리스트를 생성하는 단계와, 상기 손블랍 리스트에서 각 손의 움직임을 검사하여, 상기 움직임이 기설정된 기준값 이상인 손 영역을 사람의 손으로 인식하는 단계와, 상기 인식된 사람의 손에 대한 정보를 이용하여 다중 사용자의 손리스트를 생성하는 단계를 포함하는 것을 특징으로 한다.

또한, 상기 전처리를 수행하는 단계에서, 상기 단일 가시광 영상에서 각 영상 프레임이 가지는 서로 다른 화이트 밸런스, 명암도, 밝기 및 컬러분포를 균일화하는 것을 특징으로 한다.

또한, 상기 사용자 얼굴 리스트 생성단계에서, 상기 사용자 얼굴 리스트의 각 얼굴에는 서로 다른 ID가 부여되는 것을 특징으로 한다.

본 발명에서는 비동기화된 복합 영상처리를 통한 다중 사용자 인터렉션 인식 장치 및 방법에 있어서, 단일 웹캠 영상에서 다양한 방식의 비전 처리를 통하여 데이터를 동시적으로 산출하며, 이러한 데이터에 대한 복합적 관계 설정 및 다중 연산을 통해 효과적으로 다중 사용자의 얼굴을 인식하고, 인식된 사용자에 ID 부여 후 추적 뿐만 아니라 해당 사용자의 손, 발, 몸 등의 제스쳐 포인트 등을 인식하여 단일의 가시광 영상 입력 상황에서도 다중 사용자를 정확히 인식할 수 있도록 하는 이점이 있다.

또한, 단일 입력 영상 또한 저가의 웹캠으로부터 입력된 저해상도 또한 지원이 가능하여 단일의 가시광 영상 입력 상황에서 어떠한 부가 장비 및 환경 없이 실시간으로 다수의 사용자를 인식하고, 해당 사용자의 제스쳐 이벤트를 추출 할 수 있는 이점이 있으며, 또한 일반 가정 환경에서 사용자가 TV와 직접 인터렉션을 하거나, 사용자가 합성된 증강현실 공간에서 풍부한 공간 인터렉션을 제공해줄 수 있는 이점이 있다.

도 1은 본 발명의 실시 예에 따른 다중 사용자 인터렉션 인식 장치의 블록 구성도,
도 2는 본 발명의 실시 예에 따른 다중 사용자 인터렉션 장치에서 사용자의 얼굴, 손, 이벤트를 인식하는 신호 처리 흐름도,
도 3은 본 발명의 실시 예에 따른 얼굴 인식 후 사용자 ID 부여 및 추적 신호 처리 흐름도,
도 4는 본 발명의 실시 예에 따른 사용자 ID 부여 및 추적 규칙 예시도,
도 5는 본 발명의 실시 예에 따른 블랍 겹침 분리를 통한 개별 얼굴 영역과손영역 분리 흐름도,
도 6은 본 발명의 실시 예에 따른 손 ID 부여 및 추적 신호 처리 흐름도,
도 7은 본 발명의 실시 예에 따른 손 클릭 이벤트 추출 흐름도,
도 8은 본 발명의 실시 예에 따른 사용자 얼굴 및 손 제스쳐 인식 결과 화면 예시도.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이며, 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들(실행 엔진)에 의해 수행될 수도 있으며, 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.

그리고, 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명되는 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능들을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있으며, 몇 가지 대체 실시 예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하며, 또한 그 블록들 또는 단계들이 필요에 따라 해당하는 기능의 역순으로 수행되는 것도 가능하다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예에 대하여 상세하게 설명한다.

도 1은 본 발명의 실시 예에 따른 비동기화된 복합 영상처리를 통한 다중 사용자 인터렉션 인식 장치(100)의 상세 블록 구성을 도시한 것으로, 인터렉션 인식장치(100)는 전처리부(102), 모션영역 인식부(104), 스킨 영역 인식부(106), Haar-like 인식부(108), 블랍매칭부(110), 블랍 분리부(112), 블랍 ID 부여 추적부(114), 얼굴 추적부(116), 손추적부(118), 손이벤트 생성부(120), 병렬처리 관리부(130) 등을 포함한다.

이하, 도 1을 참조하여 인터렉션 인식장치의 각 구성요소의 동작을 상세히 설명하기로 한다.

먼저, 전처리부(102)는 단일 가시광 영상을 입력받아 후의 영상 처리를 위한 전처리(pre-processing)를 수행한다. 이때, 전처리부(102)는 각 영상마다 가지는 서로 다른 화이트 밸런스(white balance) 및 명암도, 밝기, 컬러분포 등을 균일화하여 후의 영상처리에서 균등한 결과가 나올 수 있도록 한다.

모션영역 인식부(104)는 가시광 영상입력에서 움직임 영역을 인식하여 해당 영역에 대한 픽셀 정보 및 컨투어 정보 등을 포함한 모션블랍(motion blob) 정보를 생성한다.

스킨영역 인식부(106)는 살색 영역에 대한 정보를 추출한다. 이때 추출된 살색영역 정보는 각 구분되는 블랍으로 분리되어, 컨투어 등의 정보와 함께 스킨컬러 블랍리스트(skin color blob list)를 생성된다.

즉, 스킨영역 인식부(106)는 모션블랍 정보와 스킨컬러 블랍리스트의 두 개의 데이터가 모두 생성되면, 이를 바탕으로 움직임을 가지는 실제 사람의 살색 영역을 찾아내게 된다. 일반 사용자의 환경에서는 사용자 뒤 배경에는 언제라도 사람의 살색과 동일하거나 유사한 색상이 많이 나타난다. 하지만 이러한 뒤 배경의 살색은 카메라가 움직이지 않는 한 모션블랍 정보를 가지지 않으며, 실제 사람의 블랍만이 전체 관측 시점에서 이러한 일치되는 모션블랍 정보를 가지게 된다. 스킨영역 인식부(106)는 이러한 관찰을 바탕으로 현재 영상에서 관측되는 살색 영역 중 실제 사람의 살색영역이라 생각되는 부분을 분리하여 스킨컬러 블랍리스트를 생성한다.

Haar-like 인식부(108)는 사용자의 영상에서 명암 정보만을 가지고, Haar-like 얼굴과 눈 탐지(face & eye detection)를 수행한다. 블랍 매칭부(110)는 두 개 이상의 블랍리스트를 서로 상호 매칭한다. 블랍 분리부(112)는 이전 영상 프레임에서 나누어져 있던 블랍이 현재 영상 프레임(frame)에서 합쳐지는 경우 머신러닝 기법에 의한 블랍 분리 서비스를 수행한다. 블랍 ID 부여 추적부(114)는 전체 영상 프레임에서 나타나는 모든 블랍을 추적 및 관리한다.

얼굴 추적부(116)는 현재 영상입력에서 계산된 위의 스킨블랍 리스트 정보, Haar-like 얼굴인식 결과값, Haar-like 눈인식 결과값과 함께 사용자 얼굴 리스트를 입력으로 하여 사용자의 얼굴을 인식하고, ID를 부여하여 얼굴 추적을 수행한다.

손추적부(118)는 손블랍 리스트를 현재 사용자 얼굴 리스트에 따라 각 사용자에게 부여하고 추적을 수행한다. 우선 손블랍 리스트 중 모션 포인트를 일정량이상 가지고 있는 업데이트 가능한 손블랍 리스트를 생성한다. 즉, 손블랍 리스트에서 충분한 움직임이 있는 손 영역만이 사람 손이라고 인식하고, 실제 제스쳐 정보의 업데이트 대상으로 설정한다.

손이벤트 생성부(120)는 손제스쳐 영역의 이벤트를 확인하기 위하여 손의 쥠과 폄을 확인한다. 손의 쥠과 폄은 일반적으로 손이 펴졌을 때와 쥐었을 때의 영역 정보가 크게 변함을 기반으로 하여 측정하게 된다.

병렬처리 관리부(130)는 사용자의 얼굴, 손, 이벤트를 인식하는 전체 과정을 병렬화하여 관리하고, 각 과정에서의 결과값을 관리하며 각 과정의 파이프 라이닝화를 가능하게 한다.

도 2는 본 발명의 실시 예에 따른 비동기화된 복합 영상처리를 통한 다중 사용자 인터렉션 인식장치(100)에서 사용자의 얼굴, 손, 이벤트를 인식하는 신호 처리 흐름을 도시한 것이다. 이하, 도 1 및 도 2를 참조하여 본 발명의 실시 예를 상세히 설명한다.

먼저, 전처리부(102)에서 단일 가시광 영상 입력을 받아, 후의 영상 처리를 위한 전처리(pre-processing)를 수행한다(S200). 본 발명의 과정은 어떠한 가시광 영상에 대응하는바, 각 영상마다 가지는 서로 다른 화이트 밸런스 및 명암도, 밝기, 컬러분포 등을 균일화하여, 후의 영상 처리에서 균등한 결과가 나올 수 있도록 한다.

이어, P1 단계에서는, 병렬적으로 수행 될 수 있는 기본적인 영상 처리 혹은 인식 알고리즘이 각각 독립적으로 동시에 수행된다.

즉 모션영역 인식부(104)에서는 전처리된 가시광 영상입력에서 움짐임 영역을 인식하여(S202) 해당 영역에 대한 픽셀 정보(pixed information) 및, 컨투어 정보 등을 포함하는 모션블랍 정보를 생성한다(S204). 이와 동시에 스킨 영역 인식부(106)에서는 살색 영역에 대한 정보를 다양한 방법을 지원하여 추출 하게 된다(S206). 추출된 살색영역 정보는 각 구분되는 블랍으로 분리되어, 컨투어 등의 정보와 함께 스킨 컬러 블랍 리스트를 생성하게 된다(S208).

이와 같이, 모션블랍 정보와 스킨컬러 블랍리스트 정보의 두개의 데이터가 모두 생성되면, 이를 바탕으로 움직임을 가지는 실제 사람의 살색 영역을 찾아내게 된다.

이때, 일반 사용자의 환경에서는 사용자 뒤 배경에는 언제라도 사람의 살색과 동일하거나 유사한 색상이 많이 나타난다. 하지만 이러한 뒤 배경의 살색은 카메라가 움직이지 않는 한 모션블랍 정보를 가지지 않으며, 실제 사람의 블랍만이, 전체 관측 시점에서 이러한 일치되는 모션블랍 정보를 가지게 된다. 이러한 관찰을 바탕으로 현재 영상에서 관측되는 살색 영역 중 실제 사람의 살색 영역이라 생각되는 부분을 분리하여(S210) 스킨블랍 리스트(skin blob list)를 생성한다(S212).

한편, 위 과정과 독립적으로 병렬로 동시에 수행되는 (S214)단계에서 Haar-like인식부(108)는 사용자의 영상에서 명암 정보만을 가지고, Haar-Like 얼굴, 눈 탐지(face & eye detection)를 수행하게 된다.

이때, Haar-like 얼굴, 눈 탐지는 영상에서 상대적인 명암 정보만을 사용하기 때문에 다양한 영상 입력에서도 적용 가능하다는 장점이 있으나, 사용되는 검색 데이터 트리(data tree)에 따라 얼굴 정면만을 인식하거나 측면만을 인식하는 등 사용자의 포지션이 특정 위치였을 경우만을 인식하게 된다. 즉, 사용하는 검색 데이터 셋(searching data set)이 얼굴 정면이면, 사용자가 정면 얼굴을 보일 때만 해당 사용자의 얼굴을 인식 하게 된다. 이러한 점 때문에 움직이는 일반 동영상에서는 어떠한 검색 데이터 셋을 사용하더라도 간헐적으로 사용자의 얼굴 영역을 탐지하게 되므로 본 단계만으로는 효과적으로 사용자 얼굴을 인식하여 ID 부여 후 트랙킹(tracking)할 수 없다. 이에 따라, 본 발명에서는, 이러한 한계점을 극복하기 위하여, 다양한 부가적인 영상 정보와 복합적인 절차를 걸쳐 사용자의 ID 부여 후 추적이 가능하도록 한다.

이어, Haar-like 인식부(108)는 Haar-like 얼굴, 눈 탐지를 거쳐 Haar-like 얼굴 인식 결과를 생성하고(S216), Haar-like 눈 인식 결과를 생성한다(S218).

위와 같이, 각각의 독립적인 절차를 통하여 병렬처리가 가능한 위의 P1?P2 과정(procedure)이 모두 완료 된 다음에는 사용자의 얼굴을 인식하여 ID 를 부여하고 추적하는 얼굴 인식 과정(P3)이 수행된다.

P3 과정에서는 현재 영상입력(현재 이미지 프레임)에서 계산된 위의 스킨 블랍리스트, Haar-like 얼굴 인식 결과, Haar-like 눈인식 결과와 함께, 사용자 얼굴 리스트를 입력으로 하여 사용자에 얼굴을 인식한 후, ID를 부여하고 트랙킹하는 과정을 수행한다. 트랙킹하는 과정에서 사용자의 ID를 부여하고 유지하기 위하여, 도 3에서 보는 바와 같이 P3과정은 P3-R1과 P3-R2 과정으로 나뉘어 수행된다.

그 첫번째 P3-R1과정에서는 Haar-like 얼굴 인식 결과에 의하여 현재 얼굴이라고 예상되는 리스트를 기반으로 트랙킹을 시작한다. 이와 같은 트랙킹에 있어서, 도 4에서 보는 바와 같이 각 모든 Harr-like 얼굴 인식 결과정보에 대하여 해당 화소 영역에서, Haar-like 눈의 검출 유무와 함께, 해당 영역이 스킨 컬러 영역인지, 또한 이전에 ID부여되어 트랙킹되고 있는 이전 얼굴 영역과 유사하거나 가까운지를 판단한다. 이어 판단결과를 바탕으로 1)해당 정보를 새로운 얼굴 리스트로 ID를 부여하여 추가하거나, 2)이전 얼굴리스트에서 트랙킹하여 이전 데이터를 업데이트하거나, 혹은 3)잘못된 인식인 경우 무시를 하게 된다.

위 P3-R1과정을 상세하게 설명하면, 먼저 모든 Haar-like 얼굴인식 결과를 입력하여(S300), 이전 사용자 얼굴 리스트로부터 추적 가능한지를 검사한다(S302). 이때, 추적 가능한 경우 이전 얼굴 리스트에서 연속 추적 및 업데이트를 수행한다(S304).

이어, Haar-like 얼굴안에 Haar-like 눈인식 결과가 존재하는지 검사한다(S306). 이때, 해당 화소 영역에서 한 개 이상의 Haar-like 눈이 검출 되었다면, 해당 영역은 확실히 얼굴이라고 간주 할 수 있다. 이때에는 해당 영역이 스킨 영역인지에 대한 여부에 관계없이 얼굴로 판정 하게 되고, 이전에 해당 영역 혹은 가까운 곳에서 ID부여된 얼굴이 있었다면, 그것의 적합성을 판별하여 이전 ID 부여된 얼굴 정보를 현재의 Haar-like 얼굴정보로 업데이트 한다. 반대로 이전에 인식 되었다는 정보가 없을 경우, 새로운 얼굴 영역으로 인식하여 ID를 부여하고 얼굴 리스트에 추가 한다(S308).

만약 Haar-like 얼굴이 발생하였으나, 해당 영역에서 어떠한 Haar-like 눈도 검출되지 않았다면, 해당 영역이 스킨 컬러 정보를 가지고 있는 영역인지를 확인하여(S310), 해당 부분이 실제 얼굴 영역인지를 확인하게 된다.

이때, 해당 영역이 스킨컬러를 가진 영역이라 한다면, 앞선 절차와 같이, 이전 사용자 얼굴 리스트를 확인하여, 업데이트 하거나, 새로 추가하게 된다(S308). 반대로 스킨 컬러 정보가 없을 경우, 이전 사용자 얼굴 리스트를 확인하여, 기존에 해당 영역과 연관 가능한 얼굴 정보가 있을 경우는 업데이트를 수행하며, 반대로 이전 얼굴 리스트에 연관 가능한 얼굴 정보가 없을 경우는 현재의 Haar-like 얼굴 인식을 오탐으로 간주하여 무시한다(S312).

위와 같이, P3과정에서의 Haar-like 얼굴 인식 결과를 기준으로의 첫 번째 트랙킹 과정(P3-R1)의 수행이 종료되면, 이전 사용자 얼굴 리스트중 위 P3-R1과정에서 업데이트되지 못한 리스트를 선별하고(S314), 업데이트 되지 못한 기존 얼굴 리스트를 입력하여(S316)

두 번째의 트랙킹과정인 P2-R2 과정을 수행한다. 이와 같은, 두 번째 과정에서는, 도 4에서 보여지는 바와 같이 오직 스킨 영역 정보를 통하여 트랙킹 및 업데이트가 이루어지며, 만약 현재 영역에서 스킨 영역 정보의 미 발생시, 도 3에서 보는 바와 같이, 해당 영역이 화면 외곽에 위치해 있는지, 현재 얼굴 리스트에서 다른 얼굴들과 겹쳐져 있는지, 오랜 시간 동안 업데이트 되지 않았는지를 복합적으로 판별하여 현재 얼굴 리스트에 그대로 유지 하거나, 삭제를 수행하게 된다.

위 P2-R2과정을 상세하게 설명하면, P3-R1 과정에서 업데이트되지 못한 각 기존 얼굴 정보들에 대하여, 각 해당 기존 얼굴 영역과 연계 가능한 현재의 스킨 컬러 블랍리스트에 해당 영역이 존재하는지를 검사하여(S318), 존재하는 경우 해당 블랍 정보로 이전 얼굴 영역 정보를 업데이트 하게 된다(S320).

이와 달리, 각 해당 기존 얼굴 영역이 현재의 스킨 컬러 블랍과 어떠한 연관이 없을 경우에는, 우선적으로 해당 영역이 화면의 외곽에 위치해 있는 지를 확인하여(S322), 외곽에 위치해 있다면, 해당 사용자는 화면 밖으로 이탈 하였다고 간주 하여 현재의 얼굴 리스트에서는 삭제 하게 된다(S324).

또는, 해당 영역이 화면 외곽에 위치해 있지는 않으나, 현재 인식된 얼굴리스트에서 다른 사용자 얼굴과 겹치고 있는지를 검사하여(S326), 겹치는 경우 해당 사용자는 현재 타 사용자 뒤에 위치해 있다고 판단하여, 해당 사용자의 얼굴 정보는 현재의 얼굴 리스트에서는 삭제한다(S324).

위의 과정에서 삭제되지 않고 남게되는 얼굴 정보에 대해서는 미리 설정된 일정 기준시간이 경과되는지 검사하여(S328), 기준시간이 경과하지 않는 경우에는 현재 얼굴 리스트에 일정기간 유지하나(S330), 기준시간을 경과하여 오랜 시간 동안 업데이트 되지 않을 시에는 역시 현재 얼굴 리스트에서 삭제 한다(S324).

위와 같이, P3 과정을 통하여 ID가 부여된 현재 사용자의 얼굴 리스트가 생성 완료되면(S222), P4 과정에서는 스킨 정보와 함께 사용자의 손이라 생각되는 손 블랍 영역을 추출 한다. 이때, 사용자의 스킨 영역은 언제라도 다른 영역 겹칠 수 있음(손과 손이 겹쳐있거나, 손이 얼굴을 만지는등)을 고려하여, 사용자의 스킨 영역을 시간에 따른 움직임을 고려한 클러스터링 기법을 통하여 분리한 후 사용자 손 가능 영역을 추출하게 된다.

이하, 도 5의 신호처리 흐름도를 참조하여 P4 과정을 상세히 설명하면, 먼저, 스킨 블랍 리스트와 사용자 얼굴 리스트를 입력하고(S500), 사람의 손이라 가정할 만한 스킨 영역을 확인하기 위하여, 스킨 블랍 리스트에서 이전 P3 과정의 결과물인 얼굴 영역에 해당하는 블랍을 제외시켜 사람의 손 가능 영역 리스트를 생성한다(S502)

이어, 손 가능 영역 리스트를 이전 프레임에서의 손 트랙킹 정보인 이전 손 블랍 리스트와 연관지어, 상호 업데이트 가능한 맵핑 테이블(mapping table)을 생성한다(S504). 이어, 반복 루틴인 P4-R1과정에서, 각 손 가능 영역 리스트는 맵핑 테이블에 따라 자신으로부터 업데이트를 받고자 하는 이전 손 블랍 리스트를 확인하며, 이때 2개 이상의 손이 동시에 한 개의 손 가능 영역 리스트로부터 업데이트하고자 할 때는(S506), 이전 분리되어 있던 손 영역이 현재에는 겹쳐졌다고 판단하여 클러스터링(clustering) 기법을 수행하여(S508) 해당 영역을 분리 하게 된다(S510). 이때 클러스터링 시에 러닝(learning)값은 위의 2개 이상의 이전 손 영역이 되며, 분리 대상 값은 그 2개의 이전 손 영역이 업데이트 하고자 하는 현재의 손 가능 영역이 된다.

이렇게 분리된 손 가능 영역들은 이전 손 영역들을 업데이트하여 현재의 손 영역 리스트를 생성한다(S512). 또한 이전 손 영역들에서 연관시킬 수 없는 현재의 손 가능 영역들은 새로이 현재의 손 영역 리스트에 추가한다(S514). 이 과정에서 이전 손 영역들에서 현재 업데이트되지 않은 것들은 우선 현재의 손 영역 리스트에서도 유지하나, 오랫동안 업데이트 되지 않은 것들은 삭제하게 된다(S516).

또한, 손 영역들의 업데이트 시에는 해당 영역이 이동한 변위값을 누적하여 기록하며, 이를 모션 포인트(motion point)라고 한다. 이러한 모션 포인트를 통하여, 해당 영역이 실제 움직이는 사람의 손인지를 판단하게 된다. 해당 손 영역이 오랜 기간 동안 매우 낮은 모션 포인트를 가지게 된다면, 이 또한 역시, 손 영역 리스트에서 제외하게 된다(S518).

다음으로, P5 과정에서는 위의 손 영역 리스트를 현재 사용자 얼굴 리스트에 따라 각 사용자에게 부여하고 트랙킹을 수행한다.

이하, 도 6을 참조하여 P5 과정을 상세히 살펴보면, 우선 손 영역 리스트중 모션 포인트를 일정량이상 가지고 있는 손블랍을 선별하고(S600), 업데이트 가능한 손 블랍 리스트를 생성한다(S602). 즉, 손 영역 리스트에서 충분한 움직임이 있는 손 영역만이 사람 손이라고 인식하고 실제 제스쳐 정보의 업데이트 대상으로 삼게 된다.

이어, 업데이트 가능한 손 블랍 리스트와 이전 프레임에서 결과로 나온 이전 손 리스트를 연관지어, 업데이트 가능한 맵핑 테이블을 생성한다(S604).

그런 후, 반복 루틴인 P5-R1 과정에서는, 각 사람 마다, 현재의 업데이트 가능한 손 블랍 리스트에서 업데이트 가능한 손이 있는지를 확인하고(S606), 위의 맵핑 테이블에서 업데이트가 가능한 페어(pair)가 있다면 그를 기반으로 현재 사람의 손 정보를 업데이트 하게 된다(S610).

이와 달리, 만약 현재 사람이 어떠한 손 정보를 할당 받은 적이 없다면, 현재 업데이트 가능한 손 블랍 리스트에서 위의 맵핑 테이블에 있지 않으며, 현재 얼굴의 크기에 비례하여 일정 손 거리 영역에 대한 손들 중 'rank-rule'을 적용하여 해당 손 영역정보를 현재 사람의 손 정보로 할당하게 된다(S608). 위의 과정을 통하여 업데이트 되지 않는 현재 사람의 손은 현재 다른 물체에 가린 것으로 판단 현재 사람 정보에서 삭제한다(S612).

위와 같이, P1?P5 과정을 거치며 사람의 얼굴을 확인하여 ID를 부여하고, 트랙킹하고, 해당 사람의 손 정보를 찾아 트랙킹을 한 후에는 해당 손 영역 정보에서 현재 손의 상태를 검출하여, 손의 이벤트를 생성하는 P6 과정을 수행한다.

P6과정에서는 손 제스쳐 영역을 확인하기 위하여, 손의 쥠과 폄을 확인한다. 손의 쥠과 폄은 일반적으로 손이 펴졌을 때와 손을 쥐었을 때의 영역 정보가 크게 변함을 기반으로 하여 측정하게 된다.

즉, P6과정을 도시한 도 7을 참조하면, 먼저 P5 과정에서 생성된 모든 손리스트를 입력받는다(S700). 이어, 각 사람 마다의 손 영역 정보에서 현재 손의 상태가 쥠 상태, 즉 다운 스테이트(button down state)인지를 검사한다(S702).

이때, 해당 영역의 이러한 손의 쥠 상태 또는 폄 상태의 정보는 이전 프레임에서 계산된 값이다. 이전 상태가 쥠 상태였을 경우, 해당 영역이 이전 상태와 다르게 기설정된 기준값 이상으로 현재 확연하게 증가 하였다면(S704), 해당 영역은 쥠 상태에서 폄(button up) 상태로 상태가 전의 되었다고 결정한다(S706).

그러나, 이와 달리 이전 상태가 폄 상태였을 경우, 해당 영역이 이전 상태와 다르게 기설정된 기준값 이상으로 현재 확연하게 감소하였다면(S708), 해당 영역은 폄 상태에서 쥠(Button down) 상태로 상태가 전의 되었다고 결정한다(S710).

도 8은 본 발명의 실시 예에 따른 결과 예시 화면을 도시한 것이다.

도 8을 참조하면, 도 8의 (a)에서는 사용자의 얼굴 인식 후 다른 색으로 ID 를 부여 한 것을 보여 주고 있으며, 사용자의 손 영역에 대해서도 주먹 쥔 손에 대하여는 파란색 사각형으로, 주먹을 핀 손에 대해서는 빨간색 사각형으로 사용자의 손 제스쳐를 인식 하고 있음을 보여준다. 이러한 ID 부여된 각각 사용자의 손 제스쳐 정보를 통하여, 다양한 시스템에 적용하여 직관적인 사용자 인터렉션을 제공해줄 수 있다. 그 하나의 예시로, 도 8의 (b)는 다중 사용자의 멀티 터치 인터렉션을 보이고 있다. 해당 그림에서는 각 손의 쥠과 폄을 마우스 버튼 다운 및 업으로 인식하여, 각각 개별 사각형 오브젝트를 이동 회전 확대 축소를 할 수 있음을 보이고 있다.

상기한 바와 같이, 본 발명에서는 비동기화된 복합 영상처리를 통한 다중 사용자 인터렉션 인식 장치 및 방법에 있어서, 단일 웹캠 영상에서 다양한 방식의 비전 처리를 통하여 데이터를 동시적으로 산출하며, 이러한 데이터에 대한 복합적 관계 설정 및 다중 연산을 통해 효과적으로 다중 사용자의 얼굴을 인식하고, 인식된 사용자에 ID 부여 후 추적 뿐만 아니라 해당 사용자의 손, 발, 몸 등의 제스쳐 포인트 등을 인식하여 단일의 가시광 영상 입력 상황에서도 다중 사용자를 정확히 인식할 수 있다.

또한, 단일 입력 영상 또한 저가의 웹캠으로부터 입력된 저해상도 또한 지원이 가능하여 단일의 가시광 영상 입력 상황에서 어떠한 부가 장비 및 환경 없이 실시간으로 다수의 사용자를 인식하고, 해당 사용자의 제스쳐 이벤트를 추출 할 수 있으며, 또한 일반 가정 환경에서 사용자가 TV와 직접 인터렉션을 하거나, 사용자가 합성된 증강현실 공간에서 풍부한 공간 인터렉션을 제공해줄 수 있다.

한편 상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시될 수 있다. 따라서 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위에 의해 정하여져야 한다.

100 : 인터렉션 인식장치 102 : 전처리부
104 : 모션영역 인식부 106 : 스킨영역 인식부
108 : Haar-like 인식부 110 : 블랍 매칭부
112 : 블랍 분리부 114 : 블랍 ID부여 추적부
116 : 얼굴 추적부 118 : 손추적부
120 : 손이벤트 생성부 130 : 병렬처리 관리부

Claims

다중 사용자의 인터렉션 인식 장치로서,
단일 가시광 영상을 입력받아 전처리를 수행하는 전처리부와,
상기 영상에서 움직임 영역을 인식하여 해당 영역에 대한 모션블랍(motion blob) 정보를 생성하는 모션영역 인식부와,
상기 영상에서 스킨컬러 영역에 대한 정보를 인식하는 스킨영역 인식부와,
상기 영상에서 명암 정보만을 가지고, Haar-like 얼굴과 눈 탐지(face & eye detection)를 수행하는 Haar-like 인식부와,
상기 스킨컬러 영역에 대한 스킨블랍 리스트를 생성하는 블랍정보 추출부와,
상기 영상에서 상기 스킨블랍 리스트와 상기 Haar-like 얼굴과 눈 탐지의 결과값을 이용하여 사용자의 얼굴을 인식하는 얼굴 추적부와,
상기 얼굴에서 손영역을 인식하는 손추적부
를 포함하는 다중 사용자의 인터렉션 인식 장치.
제 1 항에 있어서,
상기 장치는,
상기 손영역에 존재하는 손의 움직임 이벤트를 결정하는 손이벤트 생성부
를 더 포함하는 다중 사용자의 인터렉션 인식 장치.
제 1 항에 있어서,
상기 전처리부는,
상기 단일 가시광 영상에서 각 영상 프레임이 가지는 서로 다른 화이트 밸런스, 명암도, 밝기 및 컬러분포를 균일화하는 다중 사용자의 인터렉션 인식 장치.
제 1 항에 있어서,
상기 모션블랍 정보는,
상기 영역에 대한 픽셀 정보와 컨투어 정보를 포함하는 다중 사용자의 인터렉션 인식 장치.
제 1 항에 있어서,
상기 스킨영역 인식부는,
상기 인식하는 스킨컬러 영역 정보에 대해 각각 구분되는 블랍으로 분리하여, 컨투어 정보와 함께 스킨컬러 블랍리스트(skin color blob list)를 생성하는 다중 사용자의 인터렉션 인식 장치.
제 5 항에 있어서,
상기 스킨영역 인식부는,
상기 모션블랍 정보와 스킨컬러 블랍리스트의 두 개의 데이터가 모두 생성되면, 이를 바탕으로 움직임을 가지는 실제 사람의 살색 영역을 인식하는 다중 사용자의 인터렉션 인식 장치.
제 1 항에 있어서,
상기 얼굴 추적부는,
상기 영상에서 인식된 각 얼굴에 대해 ID를 부여하는 다중 사용자의 인터렉션 인식 장치.
제 1 항에 있어서,
상기 손추적부는,
상기 영상에서 인식된 손영역에 대한 손블랍 리스트에서 각 손의 움직임을 검사하여, 상기 움직임이 기설정된 기준값 이상인 손 영역을 사람의 손으로 인식하는 다중 사용자의 인터렉션 인식 장치.
다중 사용자의 인터렉션 인식방법으로서,
단일 가시광 영상을 입력받아 전처리를 수행하는 단계와,
상기 영상에서 살색 영역에 대한 스킨블랍 리스트를 생성하는 단계와,
상기 영상에서 명암 정보만을 가지고, Haar-like 얼굴과 눈 탐지(face & eye detection)를 수행하는 단계와,
상기 얼굴과 눈 탐지의 결과값을 이용하여 상기 영상에서 얼굴을 추적하고, 상기 추적된 얼굴에 대한 사용자 얼굴 리스트를 생성하는 단계와,
상기 얼굴 리스트상 각 얼굴 영역에서 손 영역을 인식하여 다중 사용자의 손 리스트를 생성하는 단계와,
상기 손 리스트내 각각의 손에 대한 이벤트를 인식하는 단계
를 포함하는 다중 사용자의 인터렉션 인식 방법.
제 9 항에 있어서,
상기 스킨블랍 리스트를 생성하는 단계는,
상기 영상에서 움직임 영역을 인식하여 해당 영역에 대한 모션블랍(motion blob) 정보를 생성하는 단계와,
상기 영상에서 살색 영역을 탐지하여 스킨컬러 블랍리스트를 생성하는 단계와,
상기 모션블랍 정보와 스킨컬러 블랍리스트를 이용하여 상기 영상에서 사람의 스킨컬러 영역을 탐지하는 단계와,
상기 탐지된 스킨컬러 영역에 대한 스킨블랍 리스트를 생성하는 단계
를 포함하는 다중 사용자의 인터렉션 인식 방법.
제 9 항에 있어서,
상기 손 리스트를 생성하는 단계는,
상기 얼굴 영역에서 손영역을 인식하는 단계와,
상기 인식된 손영역에 대한 손블랍 리스트를 생성하는 단계와,
상기 손블랍 리스트에서 각 손의 움직임을 검사하여, 상기 움직임이 기설정된 기준값 이상인 손 영역을 사람의 손으로 인식하는 단계와,
상기 인식된 사람의 손에 대한 정보를 이용하여 다중 사용자의 손리스트를 생성하는 단계
를 포함하는 다중 사용자의 인터렉션 인식 방법.
제 9 항에 있어서,
상기 전처리를 수행하는 단계에서,
상기 단일 가시광 영상에서 각 영상 프레임이 가지는 서로 다른 화이트 밸런스, 명암도, 밝기 및 컬러분포를 균일화하는 다중 사용자의 인터렉션 인식 방법.
제 9 항에 있어서,
상기 모션블랍 정보는,
상기 영역에 대한 픽셀 정보와 컨투어 정보를 포함하는 다중 사용자의 인터렉션 인식 방법.
제 9 항에 있어서,
상기 사용자 얼굴 리스트 생성단계에서,
상기 사용자 얼굴 리스트의 각 얼굴에는 서로 다른 ID가 부여되는 다중 사용자의 인터렉션 인식 방법.