KR20140073628A

KR20140073628A - 이미지 처리 기반의 모바일 기기 구동 방법, 모바일 기기의 이미지 처리 방법 및 이를 이용하는 모바일 기기

Info

Publication number: KR20140073628A
Application number: KR1020120137699A
Authority: KR
Inventors: 최성희; 한종원
Original assignee: 한국과학기술원
Priority date: 2012-11-30
Filing date: 2012-11-30
Publication date: 2014-06-17
Also published as: KR101439190B1

Abstract

카메라 모듈을 포함하는 모바일 기기에서 이미지 처리에 기반하여 모바일 기기를 구동하는 방법에서는, 카메라 모듈을 이용하여 컬러 이미지를 촬상한다. 컬러 이미지를 흑백 이미지로 변환한다. 흑백 이미지로부터 얼굴 영역을 검출한다. 얼굴 영역에 포함되는 얼굴 이미지에 기초하여 좌측 눈에 상응하는 제1 영역, 우측 눈에 상응하는 제2 영역 및 입에 상응하는 제3 영역을 결정한다. 제1 영역에 포함되는 좌측 눈 이미지, 제2 영역에 포함되는 우측 눈 이미지 및 제3 영역에 포함되는 입 이미지를 분석하여 눈 패턴 및 입 패턴을 인식한다. 눈 패턴 및 입 패턴에 기초하여 모바일 기기를 구동하기 위한 명령어를 발생한다.

Description

이미지 처리 기반의 모바일 기기 구동 방법, 모바일 기기의 이미지 처리 방법 및 이를 이용하는 모바일 기기{METHOD OF OPERATING MOBILE SYSTEM BASED ON IMAGE PROCESSING, METHOD OF PROCESSING IMAGE IN MOBILE SYSTEM, AND MOBILE SYSTEM USING THE SAME}

본 발명은 모바일 기기에 관한 것으로서, 더욱 상세하게는 이미지 처리 기반의 모바일 기기 구동 방법, 모바일 기기의 이미지 처리 방법, 및 상기 방법들을 이용하는 모바일 기기에 관한 것이다.

최근에는 스마트 폰, 태블릿 PC 등과 같은 다양한 모바일 기기가 널리 이용되고 있다. 일반적으로 모바일 기기에 포함되는 터치 스크린 장치에 대한 터치 이벤트를 수행하거나, 모바일 기기에 포함되는 음성 인식 장치를 이용한 음성 인식을 수행함으로써 모바일 기기를 구동할 수 있다. 하지만 손을 사용하지 못하거나 말을 못하는 장애인들은 상기와 같은 구동 방법을 이용하기 어려웠다. 이에 따라 장애인들을 위한 모바일 기기 구동 방법이 연구되고 있으며, 특히 센서, 헤드셋 등과 같은 추가적인 장비를 요구하지 않는 이미지 처리 기반의 모바일 기기 구동 방법이 널리 연구되고 있다.

데스크탑 PC와 같은 고정식 기기에서는 이미지 처리 기반의 다양한 구동 방법들이 연구되어 왔으나, 모바일 기기는 고정식 기기와 다르게 실수 연산 장치(floating point unit)를 포함하지 않기 때문에, 고정식 기기의 구동 방법을 모바일 기기에 그대로 적용하는 경우에 실수 연산 시간이 증가하며 구동을 위한 응답 시간이 증가하는 문제가 있었다. 한편, 모바일 기기는 다양한 환경에서 구동되며 구동 환경에 따라서 이미지의 색상 정보가 달라지기 때문에, 이미지의 색상 정보에 기초하여 모바일 기기를 구동하는 경우에 정확성이 떨어지는 문제가 있었다.

본 발명의 일 목적은 모바일 기기에서 이미지를 획득하고 이를 처리하여 모바일 기기의 구동을 위한 명령어를 효율적으로 발생할 수 있는 모바일 기기의 구동 방법을 제공하는 것이다.

본 발명의 다른 목적은 모바일 기기에서 이미지를 획득하고 이를 효율적으로 처리할 수 있는 모바일 기기의 이미지 처리 방법을 제공하는 것이다.

본 발명의 또 다른 목적은 상기 이미지 처리 기반의 구동 방법 및 상기 이미지 처리 방법을 이용하는 모바일 기기를 제공하는 것이다.

상기 일 목적을 달성하기 위해, 본 발명의 실시예들에 따른 카메라 모듈을 포함하는 모바일 기기에서 이미지 처리에 기반하여 모바일 기기를 구동하는 방법에서는, 상기 카메라 모듈을 이용하여 컬러 이미지를 촬상한다. 상기 컬러 이미지를 흑백 이미지로 변환한다. 상기 흑백 이미지로부터 얼굴 영역을 검출한다. 상기 얼굴 영역에 포함되는 얼굴 이미지에 기초하여 좌측 눈에 상응하는 제1 영역, 우측 눈에 상응하는 제2 영역 및 입에 상응하는 제3 영역을 결정한다. 상기 제1 영역에 포함되는 좌측 눈 이미지, 상기 제2 영역에 포함되는 우측 눈 이미지 및 상기 제3 영역에 포함되는 입 이미지를 분석하여 눈 패턴 및 입 패턴을 인식한다. 상기 눈 패턴 및 상기 입 패턴에 기초하여 상기 모바일 기기를 구동하기 위한 명령어를 발생한다.

상기 컬러 이미지를 상기 흑백 이미지로 변환하는데 있어서, 상기 컬러 이미지에 대한 히스토그램 평활화(histogram equalization)를 수행하여 상기 흑백 이미지를 발생할 수 있다.

상기 흑백 이미지로부터 상기 얼굴 영역을 검출하는데 있어서, 국부 이진 패턴(Local Binary Pattern; LBP) 방식을 이용하여 상기 흑백 이미지에 포함된 복수의 픽셀들에 대한 연산자(operator)들을 추출할 수 있다. 다단의 부스트된 분류기들(Cascade of Boosted Classifiers)을 기초로 상기 연산자들에 대한 트레이닝을 수행하여, 상기 복수의 픽셀들 중 일부를 포함하여 구성되는 복수의 검색 윈도우들 각각을 얼굴 패턴을 포함하는 제1 검색 윈도우 및 비얼굴(non-face) 패턴을 포함하는 제2 검색 윈도우로 분류할 수 있다. 상기 제1 검색 윈도우들에 기초하여 상기 얼굴 영역을 결정할 수 있다.

상기 눈 패턴 및 상기 입 패턴을 인식하는데 있어서, 상기 좌측 눈 이미지 및 상기 우측 눈 이미지에 기초하여 상기 눈 패턴을 인식할 수 있다. 상기 입 이미지에 기초하여 상기 입 패턴을 선택적으로 인식할 수 있다.

상기 눈 패턴을 인식하는데 있어서, 문턱 계조 값(Gray-value Threshold) 및 개방 형태학적 동작(Opening Morphological Operation)에 기초하여 상기 좌측 눈 이미지 및 상기 우측 눈 이미지에 대한 필터링을 수행할 수 있다. 상기 필터링된 좌측 눈 이미지 및 상기 필터링된 우측 눈 이미지에 대한 스즈키 알고리즘(Suzuki's Algorithm)을 수행하여 동공(pupil)의 윤곽(contour)을 검출할 수 있다. 상기 검출된 동공의 윤곽의 개수에 기초하여 상기 눈 패턴을 결정할 수 있다.

일 실시예에서, 상기 눈 패턴은, 상기 동공의 윤곽이 두 개 검출되는 제1 눈 패턴, 상기 동공의 윤곽이 하나 검출되는 제2 눈 패턴, 및 상기 동공의 윤곽이 검출되지 않는 제3 눈 패턴 중 하나에 상응할 수 있다.

상기 입 패턴을 선택적으로 인식하는데 있어서, 상기 눈 패턴이 상기 제1 눈 패턴에 상응하는 경우에, 상기 입 이미지를 복수의 세그먼트들로 분할할 수 있다. 상기 분할된 복수의 세그먼트들에 대한 푸리에 변환(Fourier Transform), 가버 필터링(Gabor Filtering) 및 역 푸리에 변환(Inverse Fourier Transform)을 수행하여 상기 입 이미지에 대한 GIST 기술자(descriptor)를 획득할 수 있다. 미리 저장된 보정 데이터와 상기 입 이미지에 대한 GIST 기술자 사이의 L2 거리(L2 distance)에 기초하여 상기 입 패턴을 결정할 수 있다.

일 실시예에서, 상기 이미지 처리에 기반하여 모바일 기기를 구동하는 방법에서는, 캘리브레이션 동작을 수행하여 상기 보정 데이터를 획득하고 저장하는 단계를 더 포함할 수 있다.

일 실시예에서, 상기 입 패턴은, 상기 입 이미지에 포함되는 입술이 왼쪽으로 편향된 제1 입 패턴, 상기 입술이 오른쪽으로 편향된 제2 입 패턴, 상기 입술이 편향되지 않고 벌려져 있는 제3 입 패턴, 및 상기 입술이 편향되거나 벌려져 있지 않고 정상 상태를 가지는 제4 입 패턴 중 하나에 상응할 수 있다.

일 실시예에서, 명령어는 상기 모바일 기기의 전화 발신 화면에서 커서를 왼쪽으로 이동시키는 제1 이동 명령어, 상기 커서를 오른쪽으로 이동시키는 제2 이동 명령어, 상기 커서의 현재 위치에 상응하는 숫자를 선택하는 선택 명령어, 상기 선택된 숫자를 삭제하는 삭제 명령어, 및 전화 발신 동작을 수행하는 발신 명령어를 포함할 수 있다. 상기 제1 눈 패턴 및 상기 제1 입 패턴이 인식된 경우에 상기 제1 이동 명령어가 발생되고, 상기 제1 눈 패턴 및 상기 제2 입 패턴이 인식된 경우에 상기 제2 이동 명령어가 발생되고, 상기 제1 눈 패턴 및 상기 제3 입 패턴이 인식된 경우에 상기 삭제 명령어가 발생되고, 상기 제2 눈 패턴 및 상기 제4 입 패턴이 인식된 경우에 상기 선택 명령어가 발생되고, 상기 제3 눈 패턴 및 상기 제4 입 패턴이 인식된 경우에 상기 발신 명령어가 발생될 수 있다.

상기 다른 목적을 달성하기 위해, 본 발명의 실시예들에 따른 카메라 모듈을 포함하는 모바일 기기에서 얼굴 이미지를 처리하는 방법에서는, 상기 카메라 모듈을 이용하여 컬러 이미지를 촬상한다. 상기 컬러 이미지에 대한 히스토그램 평활화(histogram equalization)를 수행하여 흑백 이미지를 발생한다. 상기 흑백 이미지에 포함된 복수의 픽셀들에 대한 연산자(operator)들을 추출하고 상기 연산자들에 대한 트레이닝을 수행하여 얼굴 영역을 검출한다. 상기 얼굴 영역에 포함되는 얼굴 이미지에 기초하여 좌측 눈에 상응하는 제1 영역, 우측 눈에 상응하는 제2 영역 및 입에 상응하는 제3 영역을 결정한다. 상기 제1 영역에 포함되는 좌측 눈 이미지 및 상기 제2 영역에 포함되는 우측 눈 이미지에 대한 필터링을 수행하고 동공의 윤곽을 검출하며, 상기 검출된 동공의 윤곽의 개수에 기초하여 눈 패턴을 인식한다. 상기 제3 영역에 포함되는 입 이미지에 대한 기술자(descriptor)를 획득하고, 미리 저장된 보정 데이터와 상기 기술자를 비교하여 입 패턴을 인식한다.

상기 또 다른 목적을 달성하기 위해, 본 발명의 실시예들에 따른 이미지 처리에 기반하여 구동되는 모바일 기기는, 카메라 모듈, 이미지 변환부, 얼굴 검출부, 패턴 인식부 및 명령어 번역부를 포함한다. 상기 카메라 모듈은 컬러 이미지를 촬상한다. 상기 이미지 변환부는 상기 컬러 이미지를 흑백 이미지로 변환한다. 상기 얼굴 검출부는 상기 흑백 이미지로부터 얼굴 영역을 검출하며, 상기 얼굴 영역에 포함되는 얼굴 이미지에 기초하여 좌측 눈에 상응하는 제1 영역, 우측 눈에 상응하는 제2 영역 및 입에 상응하는 제3 영역을 결정한다. 상기 패턴 인식부는 상기 제1 영역에 포함되는 좌측 눈 이미지, 상기 제2 영역에 포함되는 우측 눈 이미지 및 상기 제3 영역에 포함되는 입 이미지를 분석하여 눈 패턴 및 입 패턴을 인식한다. 상기 명령어 번역부는 상기 눈 패턴 및 상기 입 패턴에 기초하여 상기 모바일 기기를 구동하기 위한 명령어를 발생한다.

상기 얼굴 검출부는 추출부, 분류부 및 결정부를 포함할 수 있다. 상기 추출부는 국부 이진 패턴(Local Binary Pattern; LBP) 방식을 이용하여 상기 흑백 이미지에 포함된 복수의 픽셀들에 대한 연산자(operator)들을 추출할 수 있다. 상기 분류부는 다단의 부스트된 분류기들(Cascade of Boosted Classifiers)을 기초로 상기 연산자들에 대한 트레이닝을 수행하여, 상기 복수의 픽셀들 중 일부를 포함하여 구성되는 복수의 검색 윈도우들 각각을 얼굴 패턴을 포함하는 제1 검색 윈도우들 및 비얼굴(non-face) 패턴을 포함하는 제2 검색 윈도우들로 분류하고, 상기 제1 검색 윈도우들에 기초하여 상기 얼굴 영역을 결정할 수 있다. 상기 결정부는 상기 얼굴 영역에 기초하여 상기 제1 영역, 상기 제2 영역 및 상기 제3 영역을 결정할 수 있다.

상기 패턴 인식부는 눈 패턴 인식부 및 입 패턴 인식부를 포함할 수 있다. 상기 눈 패턴 인식부는 문턱 계조 값(Gray-value Threshold) 및 개방 형태학적 동작(Opening Morphological Operation)에 기초하여 상기 좌측 눈 이미지 및 상기 우측 눈 이미지에 대한 필터링을 수행하고, 상기 필터링된 좌측 눈 이미지 및 상기 필터링된 우측 눈 이미지에 대한 스즈키 알고리즘(Suzuki's Algorithm)을 수행하여 동공(pupil)의 윤곽(contour)을 검출하며, 상기 검출된 동공의 윤곽의 개수에 기초하여 상기 눈 패턴을 결정할 수 있다. 상기 입 패턴 인식부는 상기 입 이미지를 복수의 세그먼트들로 분할하고, 상기 분할된 복수의 세그먼트들에 대한 푸리에 변환(Fourier Transform), 가버 필터링(Gabor Filtering) 및 역 푸리에 변환(Inverse Fourier Transform)을 수행하여 상기 입 이미지에 대한 GIST 기술자(descriptor)를 획득하며, 미리 저장된 보정 데이터와 상기 입 이미지에 대한 GIST 기술자 사이의 L2 거리(L2 distance)를 연산하여 상기 입 패턴을 결정할 수 있다.

상기와 같은 본 발명의 실시예들에 따른 모바일 기기, 모바일 기기의 이미지 처리 방법 및 모바일 기기의 구동 방법에서는 색상 정보에 의존하지 않고 상대적으로 적은 양의 실수 연산을 수행하여 이미지를 처리함으로써, 획득된 이미지를 효율적으로 처리할 수 있다. 또한 사용자의 눈 깜빡임과 입술 동작만을 분석하여 모바일 기기를 구동하기 위한 명령어를 발생함으로써, 손을 사용하지 못하거나 말을 못하는 장애인들이 모바일 기기를 구동할 수 있으며, 일반인들도 손을 사용하기 불편한 상황(요리, 운동 등)이나 음성 인식을 사용할 수 없는 상황(소음이 많은 장소)에서 보조적인 인터페이스로서 사용할 수 있다.

도 1은 본 발명의 실시예들에 따른 이미지 처리 기반의 모바일 기기 구동 방법을 나타내는 순서도이다.
도 2는 본 발명의 실시예들에 따른 모바일 기기를 나타내는 블록도이다.
도 3a, 3b, 3c 및 3d는 도 1의 모바일 기기 구동 방법을 설명하기 위한 도면들이다.
도 4는 도 1의 얼굴 영역을 검출하는 단계의 일 예를 나타내는 순서도이다.
도 5, 6, 7a 및 7b는 도 1의 얼굴 영역을 검출하는 단계를 설명하기 위한 도면들이다.
도 7c는 도 1의 제1, 제2 및 제3 영역들을 결정하는 단계를 설명하기 위한 도면이다.
도 8은 도 1의 눈 패턴 및 입 패턴을 인식하는 단계의 일 예를 나타내는 순서도이다.
도 9는 도 8의 눈 패턴을 인식하는 단계의 일 예를 나타내는 순서도이다.
도 10a, 10b, 10c 및 10d는 도 8의 눈 패턴을 인식하는 단계를 설명하기 위한 도면들이다.
도 11은 도 8의 입 패턴을 인식하는 단계의 일 예를 나타내는 순서도이다.
도 12a, 12b, 13a, 13b, 13c, 13d, 13e, 13f, 13g 및 13h는 도 8의 입 패턴을 인식하는 단계를 설명하기 위한 도면들이다.
도 14a, 14b, 14c, 14d, 14e, 14f 및 15는 도 1의 명령어를 발생하는 단계를 설명하기 위한 도면들이다.
도 16은 본 발명의 실시예들에 따른 모바일 기기의 이미지 처리 방법을 나타내는 순서도이다.

본문에 개시되어 있는 본 발명의 실시예들에 대해서, 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 실시예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 실시예들은 다양한 형태로 실시될 수 있으며 본문에 설명된 실시예들에 한정되는 것으로 해석되어서는 아니 된다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는바, 특정 실시예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제 1, 제 2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위로부터 이탈되지 않은 채 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미이다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미인 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

한편, 어떤 실시예가 달리 구현 가능한 경우에 특정 블록 내에 명기된 기능 또는 동작이 순서도에 명기된 순서와 다르게 일어날 수도 있다. 예를 들어, 연속하는 두 블록이 실제로는 실질적으로 동시에 수행될 수도 있고, 관련된 기능 또는 동작에 따라서는 상기 블록들이 거꾸로 수행될 수도 있다.

도 1은 본 발명의 실시예들에 따른 이미지 처리 기반의 모바일 기기 구동 방법을 나타내는 순서도이다. 도 2는 본 발명의 실시예들에 따른 모바일 기기를 나타내는 블록도이다.

도 1 및 2를 참조하면, 모바일 기기(100)는 카메라 모듈(110), 이미지 변환부(120), 얼굴 검출부(130), 패턴 인식부(140) 및 명령어 번역부(150)를 포함한다. 모바일 기기(100)는 저장부(160)를 더 포함할 수 있다.

이미지 처리에 기반하여 모바일 기기(100)를 구동하는데 있어서, 캘리브레이션 동작을 수행하여 보정 데이터(CDAT)를 획득하고 저장부(160)에 저장할 수 있다(단계 S100). 상기 캘리브레이션 동작 및 보정 데이터(CDAT)는 입 이미지(MI) 및 입 패턴(MP)과 관련될 수 있다. 동공의 모양과 다르게 입술의 모양은 모바일 기기(100)의 사용자 및/또는 동작 환경에 따라 변경될 수 있으므로, 모바일 기기(100)를 구동하기 이전에 입술 모양에 대한 상기 캘리브레이션 동작을 먼저 수행하여 모바일 기기(100)의 오동작을 방지할 수 있다. 일 실시예에서, 저장부(160)는 DRAM(Dynamic Random Access Memory) 등과 같은 임의의 휘발성 메모리 또는 플래시 메모리(Flash Memory) 등과 같은 임의의 비휘발성 메모리를 포함할 수 있다.

도 3a, 3b, 3c 및 3d는 도 1의 모바일 기기 구동 방법을 설명하기 위한 도면들이다.

도 3a, 3b, 3c 및 3d를 참조하면, 입 패턴(MP)은 입 이미지(MI)에 포함되는 입술의 모양에 따라 네 가지로 구분될 수 있다. 예를 들어, 입 패턴(MP)은 입술이 왼쪽으로 편향된 제1 입 패턴(도 3a), 입술이 오른쪽으로 편향된 제2 입 패턴(도 3b), 입술이 편향되지 않고 벌려져 있는 제3 입 패턴(도 3c), 및 입술이 편향되거나 벌려져 있지 않고 정상 상태를 가지는 제4 입 패턴(도 3d) 중 하나에 상응할 수 있다. 상기 캘리브레이션 동작을 수행하는데 있어서, 상기 제1 내지 제4 입 패턴들에 상응하는 입술 모양을 미리 정해진 시간(예를 들어, 약 5초)동안 유지함으로써 상기 제1 내지 제4 입 패턴들에 대한 보정 데이터(CDAT)를 획득할 수 있다. 보정 데이터(CDAT)는 컬러 이미지 촬상 동작, 흑백 이미지 변환 동작, 얼굴 영역 검출 동작, 제1 내지 제3 영역 결정 동작, 및 입 이미지 분석 동작을 수행하여 획득될 수 있으며, 이에 대해서는 후술하도록 한다.

다시 도 1 및 2를 참조하면, 카메라 모듈(110)은 컬러 이미지(CIMG)를 촬상한다(단계 S200). 이미지 변환부(120)는 컬러 이미지(CIMG)를 흑백 이미지(BIMG)로 변환한다(단계 S300). 예를 들어, 이미지 변환부(120)는 컬러 이미지(CIMG)에 대한 히스토그램 평활화(histogram equalization)를 수행하여 흑백 이미지(BIMG)를 발생할 수 있다. 한편, 실시예에 따라서 카메라 모듈이 직접 흑백 이미지를 발생할 수도 있으며, 이 경우 도 1의 단계 S300 및 도 2의 이미지 변환부(120)는 생략될 수 있다.

얼굴 검출부(130)는 흑백 이미지(BIMG)로부터 얼굴 영역을 검출하고(단계 S400), 상기 얼굴 영역에 포함되는 얼굴 이미지에 기초하여 제1 내지 제3 영역을 결정한다(단계 S500). 상기 제1 영역은 좌측 눈에 상응하고, 상기 제2 영역은 우측 눈에 상응하며, 상기 제3 영역은 입에 상응할 수 있다. 예를 들어, 얼굴 검출부(130)는 흑백 이미지(BIMG)로부터 연산자(operator)들을 추출하고 상기 연산자들에 대한 트레이닝을 수행하여 상기 얼굴 영역을 검출할 수 있으며, 상기 얼굴 영역 및 미리 결정된 인체 비율에 기초하여 상기 제1 내지 제3 영역들을 결정할 수 있다. 이를 위하여, 얼굴 검출부(130)는 추출부(132), 분류부(134) 및 결정부(136)를 포함할 수 있으며, 상기 제1 영역에 포함되는 좌측 눈 이미지(LEI), 상기 제2 영역에 포함되는 우측 눈 이미지(REI) 및 상기 제3 영역에 포함되는 입 이미지(MI)를 제공할 수 있다. 얼굴 검출부(130)의 동작에 대해서는 도 4, 5, 6 및 7a 내지 7c를 참조하여 후술하도록 한다.

패턴 인식부(140)는 좌측 눈 이미지(LEI), 우측 눈 이미지(REI) 및 입 이미지(MI)를 분석하여 눈 패턴(EP) 및 입 패턴(MP)을 인식한다(단계 S600). 예를 들어, 패턴 인식부(140)는 좌측 눈 이미지(LEI) 및 우측 눈 이미지(REI)에 대한 필터링을 수행하고 동공의 윤곽을 검출하여 눈 패턴(EP)을 인식할 수 있으며, 입 이미지(MI)에 대한 기술자(descriptor)를 획득하고, 보정 데이터(CDAT)와 상기 기술자를 비교하여 입 패턴(MP)을 인식할 수 있다. 이를 위하여, 패턴 인식부(140)는 눈 패턴 인식부(142) 및 입 패턴 인식부(144)를 포함할 수 있다. 패턴 인식부(140)의 동작에 대해서는 도 8, 9, 10a 내지 10d, 11, 12a, 12b 및 13a 내지 13h를 참조하여 후술하도록 한다.

명령어 번역부(150)는 눈 패턴(EP) 및 입 패턴(MP)에 기초하여 모바일 기기(100)를 구동하기 위한 명령어(CMD)를 발생한다(단계 S700). 예를 들어, 명령어 번역부(150)는 눈 패턴(EP) 및 입 패턴(MP)을 조합하여 명령어(CMD)를 발생할 수 있으며, 모바일 기기(100) 및/또는 모바일 기기(100)에서 실행되는 어플리케이션은 명령어(CMD)에 기초하여 제어될 수 있다.

일 실시예에서, 이미지 변환부(120), 얼굴 검출부(130), 패턴 인식부(140) 및 명령어 번역부(150)의 일부 또는 전부는 모바일 기기(100)에 포함되는 어플리케이션 프로세서(미도시)에 의해 실행 가능한 소프트웨어(즉, 프로그램)의 형태로 구현되고 상기 소프트웨어는 모바일 기기(100) 내부의 저장 장치에 저장될 수 있다. 다른 실시예에서, 이미지 변환부(120), 얼굴 검출부(130), 패턴 인식부(140) 및 명령어 번역부(150)의 일부 또는 전부는 하드웨어로 구현되어 모바일 기기(100)에 포함될 수 있다.

실시예에 따라서, 모바일 기기(100)는 휴대폰(Mobile Phone), 스마트 폰(Smart Phone), 태블릿(Tablet) PC, 노트북(Laptop Computer), 개인 정보 단말기(Personal Digital Assistant; PDA), 휴대형 멀티미디어 플레이어(Portable Multimedia Player; PMP), 디지털 카메라(Digital Camera), 음악 재생기(Music Player), 휴대용 게임 콘솔(Portable Game Console), 네비게이션(Navigation) 시스템 등과 같은 임의의 모바일 기기일 수 있다.

도 4는 도 1의 얼굴 영역을 검출하는 단계의 일 예를 나타내는 순서도이다. 도 5, 6, 7a, 7b는 도 1의 얼굴 영역을 검출하는 단계를 설명하기 위한 도면들이다.

도 1, 2, 4, 5, 6, 7a 및 7b를 참조하면, 상기 얼굴 영역을 검출하는데 있어서(단계 S400), 추출부(132)는 흑백 이미지(BIMG)에 포함된 복수의 픽셀들에 대한 연산자들을 추출할 수 있다(단계 S410). 상기 연산자는 각 픽셀의 픽셀 값과 관련될 수 있으며, 상기 픽셀 값의 암호화된 코드일 수 있다. 예를 들어, 추출부(132)는 국부 이진 패턴(Local Binary Pattern; LBP) 방식을 이용하여 LBP 연산자들을 추출할 수 있다.

상기 LBP 방식은 중심 픽셀과 주변 픽셀의 관계를 이용하여 중심 픽셀을 코드화하는(즉, 중심 픽셀에 대한 연산자를 추출하는) 방식이다. 예를 들어, 도 5에 도시된 바와 같이, 중심 픽셀 값이 주변 픽셀 값보다 크거나 같으면 1, 작으면 0을 할당한 후에 상기 할당 값에 기초하여 중심 픽셀에 대한 하나의 코드를 생성할 수 있다. 상기 LBP 방식에서는 중심 픽셀과 주변 픽셀의 거리, 주변 픽셀의 개수 등을 파라미터로 성능을 조절할 수 있으며, 각 픽셀들에 대한 LBP 연산자는 하기의 [수학식 1]을 만족할 수 있다.

[수학식 1]

상기의 [수학식 1]에서, LBP_P,R(x,y)는 좌표 (x,y)에 위치하는 중심 픽셀에 대한 LBP 연산자를 나타내고, P는 주변 픽셀의 개수를 나타내고, R은 중심 픽셀과 주변 픽셀의 거리를 나타내며, n_c 및 n_i는 각각 중심 픽셀 및 주변 픽셀의 픽셀 값을 나타낸다. 상기 LBP 연산자를 획득한 후에 상기 획득된 LBP 연산자들을 히스토그램화할 수 있으며, 상기 히스토그램은 얼굴의 모양과 관련된 정보를 포함할 수 있다.

분류부(134)는 상기 연산자들에 대한 트레이닝을 수행하여 복수의 검색 윈도우들 각각을 얼굴 패턴을 포함하는 제1 검색 윈도우 및 비얼굴(non-face) 패턴을 포함하는 제2 검색 윈도우로 분류할 수 있으며(단계 S420), 상기 제1 검색 윈도우들에 기초하여 상기 얼굴 영역을 결정할 수 있다(단계 S430). 상기 복수의 검색 윈도우들은 상기 복수의 픽셀들 중 일부를 포함하여 구성될 수 있으며, 동일한 크기 또는 서로 다른 크기를 가질 수 있다. 예를 들어, 분류부(134)는 다단의 부스트된 분류기들(Cascade of Boosted Classifiers)에 기초하여 구현될 수 있다.

상기 다단의 부스트된 분류기들에 기초한 방식은 복수의 약분류기(Weak Classifier)들을 조합하여 하나의 강분류기(Strong Classifier)를 구현하는 방식이다. 예를 들어, 도 6에 도시된 바와 같이, 분류부(134)는 캐스케이드 연결된 N개의 약분류기들(134a, 134b, ..., 134n)(즉, 다단의 부스트된 분류기들)을 포함하는 하나의 강분류기의 형태를 가질 수 있다. 분류부(134)는 각각의 약분류기들(134a, 134b, ..., 134n)에 가중치를 적용하고 출력되는 에너지를 합산하여 임계값보다 크고 작음에 따라 참과 거짓을 분류하는 방식으로 트레이닝을 수행할 수 있다. 상기 강분류기는 하기의 [수학식 2]와 같이 정의될 수 있다.

[수학식 2]

상기의 [수학식 2]에서, C는 강분류기의 출력 값을 나타내고, N은 약분류기의 개수를 나타내며, c_i는 i번째 약분류기의 출력 값을 나타내며, α_i는 i번째 약분류기의 가중치를 나타낸다.

분석하고자 하는 검색 윈도우(SWD)가 모든 약분류기들(134a, 134b, ..., 134n)에 대하여 참(true, T)인 것으로 판단된 경우에, 분석하고자 하는 검색 윈도우(SWD)는 상기 얼굴 패턴에 상응하는 제1 검색 윈도우(SWD1)로 분류될 수 있다. 분석하고자 하는 검색 윈도우(SWD)가 약분류기들(134a, 134b, ..., 134n) 중 적어도 하나에 대하여 거짓(false, F)인 것으로 판단된 경우에, 분석하고자 하는 검색 윈도우(SWD)는 상기 비얼굴 패턴에 상응하는 제2 검색 윈도우(SWD2)로 분류될 수 있다. 예를 들어, 분석하고자 하는 검색 윈도우(SWD)가 제1 검색 윈도우(SWD1)로 분류된 경우에 상기 강분류기의 출력 값(C)은 '1'일 수 있고, 분석하고자 하는 검색 윈도우(SWD)가 제2 검색 윈도우(SWD2)로 분류된 경우에 상기 강분류기의 출력 값(C)은 '-1'일 수 있다.

상술한 바와 같은 LBP 방식 및 다단의 부스트된 분류기들에 기초한 방식을 이용함으로써, 도 7a에 도시된 것과 같은 흑백 이미지에서 도 7b에 도시된 바와 같이 얼굴 영역을 정확하고 빠르게 검출할 수 있다. 상기 LBP 방식을 적용함으로써 실수 연산이 감소될 수 있으며, 상기 다단의 부스트된 분류기들에 기초한 방식을 적용함으로써 비얼굴 패턴을 초기 단계에서 쉽게 제거할 수 있다.

도 7c는 도 1의 제1, 제2 및 제3 영역들을 결정하는 단계를 설명하기 위한 도면이다.

도 1, 2 및 7c를 참조하면, 상기 제1, 제2 및 제3 영역들을 결정하는데 있어서(단계 S500), 결정부(136)는 상기 얼굴 영역 및 미리 정해진 비율에 따라서 상기 좌측 눈에 상응하는 상기 제1 영역, 상기 우측 눈에 상응하는 상기 제2 영역 및 상기 입에 상응하는 상기 제3 영역을 결정할 수 있다. 예를 들어. 상기 제1, 제2 및 제3 영역들의 크기 및 위치는 하기의 [수학식 3] 내지 [수학식 8]을 만족할 수 있다.

[수학식 3]

[수학식 4]

[수학식 5]

[수학식 6]

[수학식 7]

[수학식 8]

상기의 [수학식 3] 내지 [수학식 8]에서, left_eye{width, height}. right_eye{width, height} 및 mouth{width, height}는 상기 제1, 제2 및 제3 영역의 크기(즉, 폭 및 높이)를 각각 나타내고, left_eye{left, top}. right_eye{left, top} 및 mouth{left, top}는 상기 얼굴 영역의 좌측 상단의 꼭지점을 기준으로 한 상기 제1, 제2 및 제3 영역의 좌측 상단의 꼭지점의 위치를 각각 나타내며, W 및 H는 상기 얼굴 영역의 폭 및 높이를 각각 나타낸다. 한편, 상기 미리 정해진 비율은 다양하게 변경될 수 있다.

도 8은 도 1의 눈 패턴 및 입 패턴을 인식하는 단계의 일 예를 나타내는 순서도이다.

도 1, 2 및 8을 참조하면, 상기 눈 패턴 및 상기 입 패턴을 인식하는데 있어서(단계 S600), 눈 패턴 인식부(142)는 좌측 눈 이미지(LEI) 및 우측 눈 이미지(REI)에 기초하여 눈 패턴(EP)을 인식할 수 있다(단계 S610). 예를 들어, 눈 패턴(EP)은 양쪽 눈을 모두 뜨고 있는 제1 눈 패턴, 한쪽 눈을 뜨고 한쪽 눈을 감고 있는 제2 눈 패턴, 및 양쪽 눈을 모두 감고 있는 제3 눈 패턴 중 하나에 상응할 수 있다.

입 패턴 인식부(144)는 입 패턴(MP)을 선택적으로 인식할 수 있다. 구체적으로, 눈 패턴(EP)의 인식 결과를 판단하고(단계 S620), 눈 패턴(EP)이 상기 제1 눈 패턴에 상응하는 것으로 판단된 경우에(단계 S620: 예) 입 패턴 인식부(144)는 입 이미지(MI)에 기초하여 입 패턴(MP)을 인식할 수 있다(단계 S630). 눈 패턴(EP)이 상기 제1 눈 패턴에 상응하지 않는 것으로 판단된 경우에(단계 S620: 아니오), 즉 눈 패턴(EP)이 상기 제2 또는 제3 눈 패턴에 상응하는 것으로 판단된 경우에, 입 패턴 인식부(144)는 입 패턴(MP)을 인식하지 않으며, 상기 눈 패턴 및 상기 입 패턴을 인식하는 동작(단계 S600)이 종료될 수 있다. 도 3a, 3b, 3c 및 3d를 참조하여 상술한 것처럼, 입 패턴(MP)은 제1 입 패턴(도 3a), 제2 입 패턴(도 3b), 제3 입 패턴(도 3c), 및 제4 입 패턴(도 3d) 중 하나에 상응할 수 있다.

도 9는 도 8의 눈 패턴을 인식하는 단계의 일 예를 나타내는 순서도이다. 도 10a, 10b, 10c 및 10d는 도 8의 눈 패턴을 인식하는 단계를 설명하기 위한 도면들이다.

도 1, 2, 8, 9, 10a, 10b, 10c 및 10d를 참조하면, 상기 눈 패턴을 인식하는데 있어서(단계 S610), 눈 패턴 인식부(142)는 좌측 눈 이미지(LEI) 및 우측 눈 이미지(REI)에 대한 필터링을 수행할 수 있다(단계 S612). 예를 들어, 눈 패턴 인식부(142)는 문턱 계조 값(Gray-value Threshold) 및 개방 형태학적 동작(Opening Morphological Operation)에 기초하여 상기 필터링을 수행할 수 있다.

일반적으로, 흑백 이미지에서 동공(pupil)은 얼굴의 다른 부분보다 어두운 픽셀 값을 가진다. 따라서, 상기 문턱 계조 값에 기초하여 필터링을 수행하는 경우에, 좌측 눈 이미지(LEI) 및 우측 눈 이미지(REI)에서 상기 동공에 상응하는 영역은 밝게 남아있을 수 있고 그 밖의 다른 영역들은 어두워질 수 있다. 예를 들어, 상기 문턱 계조 값을 약 30으로 설정한 후, 상기 설정된 문턱 계조 값에 기초하여 도 10a에 도시된 좌측 눈 이미지(LEI) 및 우측 눈 이미지(REI)에 대한 필터링을 수행하면 도 10b와 같은 이미지를 획득할 수 있다. 한편, 도 10b에 도시된 1차 필터링 이미지에는 안경의 윤곽 및 눈썹 등과 같은 불필요한 정보가 포함되어 있으므로, 상기 개방 형태학적 동작에 기초하여 상기와 같은 불필요한 정보를 제거하기 위한 2차 필터링을 수행할 수 있다. 상기 개방 형태학적 동작은 하기의 [수학식 9]와 같이 정의될 수 있다.

[수학식 9]

상기의 [수학식 9]에서, I는 입력 이미지를 나타내고, K는 커널(kernel)을 나타내고, ??는 K를 이용하여 I에 대한 필터링을 수행하는 것을 나타내며, ?? 및 ??는 각각 I에 대한 팽창(dilation) 동작 및 침식(erosion) 동작을 나타낸다. 예를 들어, 상기 커널의 크기를 약 5로 설정하고 상기 커널의 모양을 십자(cross) 모양으로 설정한 후, 상기 개방 형태학적 동작에 기초하여 도 10b에 도시된 이미지에 대한 필터링을 수행하면 도 10c와 같은 이미지를 획득할 수 있다. 즉, 동공과 관련된 정보만 남고 불필요한 정보가 제거된 최종 필터링 이미지가 획득될 수 있다. 상기 개방 형태학적 동작에 대한 상세한 설명은 Jain, R., Kasturi, R., and Schunck, B. Machine vision, vol. 5. McGraw-Hill New York, 1995 에 개시되어 있다.

눈 패턴 인식부(142)는 도 10c에 도시된 것과 같은 상기 필터링된 좌측 눈 이미지 및 상기 필터링된 우측 눈 이미지에 기초하여 동공의 윤곽(contour)을 검출할 수 있으며(단계 S614), 상기 검출된 동공의 윤곽의 개수에 기초하여 눈 패턴(EP)을 결정할 수 있다(단계 S616). 예를 들어, 도 10c에 도시된 것과 같은 상기 필터링된 좌측 눈 이미지 및 상기 필터링된 우측 눈 이미지에 대한 스즈키 알고리즘(Suzuki's Algorithm)을 수행하여 도 10d와 같이 동공의 윤곽을 검출할 수 있다. 상기 동공의 윤곽이 두 개 검출된 경우에 눈 패턴(EP)이 상기 제1 눈 패턴에 상응하는 것으로 판단되고, 도 10d에 도시된 것처럼 상기 동공의 윤곽이 하나 검출된 경우에 눈 패턴(EP)이 상기 제2 눈 패턴에 상응하는 것으로 판단되며, 상기 동공의 윤곽이 검출되지 않는 경우에 눈 패턴(EP)이 상기 제3 눈 패턴에 상응하는 것으로 판단될 수 있다. 상기 스즈키 알고리즘에 대한 상세한 설명은 Suzuki, S., et al. Topological structural analysis of digitized binary images by border following, Computer Vision, Graphics, and Image Processing 30, 1 (1985), 32-46 에 개시되어 있다.

도 11은 도 8의 입 패턴을 인식하는 단계의 일 예를 나타내는 순서도이다. 도 12a, 12b, 13a, 13b, 13c, 13d, 13e, 13f, 13g 및 13h는 도 8의 입 패턴을 인식하는 단계를 설명하기 위한 도면들이다.

도 1, 2, 8, 11, 12a, 12b, 13a, 13b, 13c, 13d, 13e, 13f, 13g 및 13h를 참조하면, 상기 입 패턴을 인식하는데 있어서(단계 S630), 입 패턴 인식부(144)는 입 이미지(MI)를 복수의 세그먼트들로 분할할 수 있다(단계 S632). 예를 들어, 입 패턴 인식부(144)는 도 12a에 도시된 것과 같은 입 이미지를 도 12b에 도시된 바와 같이 4 x 4 형태의 16개의 세그먼트들로 분할할 수 있다.

입 패턴 인식부(144)는 상기 분할된 복수의 세그먼트들에 대한 이미지 처리를 수행하여 입 이미지(MI)에 대한(즉, 상기 분할된 복수의 세그먼트들에 대한) 기술자(descriptor)를 획득할 수 있다(단계 S634). 상기 기술자는 입 이미지(MI)의 정보를 특징화한 값과 관련될 수 있다. 예를 들어, 입 패턴 인식부(144)는 상기 분할된 복수의 세그먼트들에 대한 푸리에 변환(Fourier Transform), 가버 필터링(Gabor Filtering) 및 역 푸리에 변환(Inverse Fourier Transform)을 수행하여 입 이미지(MI)에 대한 GIST 기술자를 획득할 수 있다.

상기 푸리에 변환은 이미지를 사인(sine) 성분과 코사인(cosine) 성분으로 분해하는데 사용되며, 상기 푸리에 변환의 출력은 주파수 도메인에서의 공간 도메인 이미지로 표현된다. 이산 푸리에 변환(Discrete Fourier Transform; DFT)은 샘플링된 푸리에 변환을 나타내며, N x N 크기의 이미지에 대한 DFT 및 상기 DFT에 대한 역이산 푸리에 변환(Inverse Discrete Fourier Transform; IDFT)은 각각 하기의 [수학식 10] 및 [수학식 11]과 같이 정의될 수 있다.

[수학식 10]

[수학식 11]

한편, 가버 필터는 에지 검출을 위해 사용되는 선형 필터일 수 있다. M x M 크기의 2차원 가버 필터 g(u, v) 및 상기 2차원 가버 필터의 푸리에 변환 G(u', v')는 각각 하기의 [수학식 12] 및 [수학식 13]과 같이 정의될 수 있으며, 하기의 [수학식 12] 및 [수학식 13]에서 사용된 변수들 중 일부는 하기의 [수학식 14] 및 [수학식 15]를 만족할 수 있다.

[수학식 12]

[수학식 13]

[수학식 14]

[수학식 15]

여기서, g(u, v)를 기본 가버 웨이브렛(mother Gabor wavelet)이라 하면, 생성된 함수를 통해 g(u, v)의 팽창 및 회전을 전용하여 자기-유사 필터 사전(self-similar filter dictionary)이 하기의 [수학식 16]과 같이 획득될 수 있다. 하기의 [수학식 16]에서 사용된 변수들 중 일부는 하기의 [수학식 17], [수학식 18] 및 [수학식 19]를 만족할 수 있다.

[수학식 16]

[수학식 17]

[수학식 18]

[수학식 19]

상기의 [수학식 16], [수학식 17], [수학식 18] 및 [수학식 19]에서, m 및 n은 각각 스케일(scale) 및 오리엔테이션(orientation)을 나타내며, K는 오리엔테이션의 총 개수를 나타낸다.

상기의 수식들에 기초하여, 이미지 f(x, y)가 주어진 경우에 그 특징 성분인 μ_mn은 하기의 [수학식 20]과 같이 나타낼 수 있다.

[수학식 20]

상기의 [수학식 20]에서,

는 주파수 도메인에서의 스펙트럴 컨볼루션(spectral convolution)을 나타내며, h는 H의 IDFT를 나타낸다. GIST 기술자의 특징 벡터는 μ_mn를 특징 성분으로 사용하여 구성될 수 있다. 상기 GIST 기술자에 대한 상세한 설명은 Oliva, A., and Torralba, A. Modeling the shape of the scene: A holistic representation of the spatial envelope, International Journal of Computer Vision 42, 3 (2001), 145-175 에 개시되어 있다.

예를 들어, 두 개의 오리엔테이션(π 및 π/2)과 두 개의 스케일(1 및 0.5)을 가버 필터에 적용하는 경우에, 16개의 세그먼트들로 분할된 이미지의 GIST 기술자는 64차원 벡터로 표현될 수 있다. 이 경우, 도 13a에 도시된 상기 제1 입 패턴에 상응하는 입 이미지의 GIST 기술자는 도 13b와 같이 표현될 수 있고, 도 13c에 도시된 상기 제2 입 패턴에 상응하는 입 이미지의 GIST 기술자는 도 13d와 같이 표현될 수 있고, 도 13e에 도시된 상기 제3 입 패턴에 상응하는 입 이미지의 GIST 기술자는 도 13f와 같이 표현될 수 있으며, 도 13g에 도시된 상기 제4 입 패턴에 상응하는 입 이미지의 GIST 기술자는 도 13h와 같이 표현될 수 있다. 도 1의 단계 S100에 도시된 캘리브레이션 동작이 수행되는 경우에, 도 13b, 13d, 13f 및 13h에 도시된 것과 같은 GIST 기술자들이 보정 데이터(CDAT)로서 획득되어 저장될 수 있다.

입 패턴 인식부(144)는 미리 저장된 보정 데이터(CDAT)와 상기 입 이미지(MI)에 대한 기술자(즉, GIST 기술자)에 기초하여, 즉 미리 저장된 보정 데이터(CDAT)와 상기 입 이미지(MI)에 대한 기술자를 비교하여 입 패턴(MP)을 인식할 수 있다(단계 S636). 예를 들어, 입 패턴 인식부(144)는 보정 데이터(CDAT)에 포함되고 제1 내지 제4 입 패턴들에 상응하는 제1 내지 제4 GIST 기술자들 각각과 입 이미지(MI)에 대한 상기 획득된 GIST 기술자에 대한 L2 거리(L2 distance)를 연산하며, 상기 연산 결과 상기 제1 내지 제4 입 패턴들 중 L2 거리가 가장 작은 입 패턴을 상기 획득된 GIST 기술자의 입 패턴으로 결정할 수 있다. 구체적으로, 상기 제1 내지 제4 GIST 기술자들과 상기 획득된 GIST 기술자에 대한 L2 거리가 각각 약 0.2885, 0.0951, 0.4238, 0.3050으로 연산된 경우에, 입 패턴(MP)이 상기 제2 입 패턴에 상응하는 것으로 결정될 수 있다.

도 14a, 14b, 14c, 14d, 14e, 14f 및 15는 도 1의 명령어를 발생하는 단계를 설명하기 위한 도면들이다.

도 1, 2, 14a, 14b, 14c, 14d, 14e, 14f 및 15를 참조하면, 명령어 번역부(150)는 눈 패턴(EP) 및 입 패턴(MP)을 조합하여 명령어(CMD)를 발생할 수 있다. 예를 들어, 명령어(CMD)는 도 15에 도시된 것처럼 모바일 기기(100)의 전화 발신 화면을 제어하는 명령일 수 있다. 명령어(CMD)는 모바일 기기(100)의 전화 발신 화면에서 커서를 왼쪽으로 이동시키는 제1 이동 명령어, 상기 커서를 오른쪽으로 이동시키는 제2 이동 명령어, 상기 커서의 현재 위치에 상응하는 숫자를 선택하는 선택 명령어, 상기 선택된 숫자를 삭제하는 삭제 명령어, 및 전화 발신 동작을 수행하는 발신 명령어를 포함할 수 있다.

눈과 입 사이에 연결된 얼굴 근육 때문에 눈과 입을 동시에 움직이기 어려울 수 있으므로, 눈과 입 중 어느 하나만을 움직여서 명령어(CMD)를 발생하도록 할 수 있다. 이 경우, 눈 패턴(EP)이 상기 제1 눈 패턴에 상응하는 경우에 입 패턴(MP)은 상기 제1 내지 제4 입 패턴들 중 하나에 상응할 수 있고, 입 패턴(MP)이 상기 제4 입 패턴에 상응하는 경우에 눈 패턴(EP)은 상기 제1 내지 제3 눈 패턴에 상응할 수 있다. 따라서, 총 6가지의 눈 패턴(EP)과 입 패턴(MP)의 조합이 발생될 수 있다. 한편, 눈 패턴(EP)과 입 패턴(MP)의 조합의 개수는 실시예에 따라서 다양하게 변경될 수 있다.

일 실시예에서, 상기 제1 눈 패턴 및 상기 제1 입 패턴이 인식된 경우(도 14a)에 상기 제1 이동 명령어가 발생되고, 상기 제1 눈 패턴 및 상기 제2 입 패턴이 인식된 경우(도 14b)에 상기 제2 이동 명령어가 발생되고, 상기 제1 눈 패턴 및 상기 제3 입 패턴이 인식된 경우(도 14c)에 상기 삭제 명령어가 발생되고, 상기 제2 눈 패턴 및 상기 제4 입 패턴이 인식된 경우(도 14d)에 상기 선택 명령어가 발생되며, 상기 제3 눈 패턴 및 상기 제4 입 패턴이 인식된 경우(도 14e)에 상기 발신 명령어가 발생될 수 있다. 이 경우, 10자리의 전화번호를 입력하여 전화 발신 동작을 수행하는데 약 110초 정도가 소요될 수 있다. 한편, 상기 제1 눈 패턴 및 상기 제4 입 패턴이 인식된 경우(도 14f)는 디폴트(default) 상태로서 별도의 명령어가 발생되지 않을 수 있다.

도 16은 본 발명의 실시예들에 따른 모바일 기기의 이미지 처리 방법을 나타내는 순서도이다.

도 2 및 16을 참조하면, 모바일 기기(100)에서 이미지를 처리하는데 있어서, 캘리브레이션 동작을 수행하여 보정 데이터(CDAT)를 획득하고 저장부(160)에 저장할 수 있다(단계 S1100). 카메라 모듈(110)은 컬러 이미지(CIMG)를 촬상하며(단계 S1200), 이미지 변환부(120)는 컬러 이미지(CIMG)에 대한 히스토그램 평활화(histogram equalization)를 수행하여 흑백 이미지(BIMG)를 발생할 수 있다(단계 S1300). 얼굴 검출부(130)는 흑백 이미지(BIMG)에 포함된 복수의 픽셀들에 대한 연산자(operator)들을 추출하고 상기 연산자들에 대한 트레이닝을 수행하여 얼굴 영역을 검출하며(단계 S1400), 상기 얼굴 영역에 포함되는 얼굴 이미지에 기초하여 좌측 눈에 상응하는 제1 영역, 우측 눈에 상응하는 제2 영역 및 입에 상응하는 제3 영역을 결정할 수 있다(단계 S1500). 패턴 인식부(140)는 상기 제1 영역에 포함되는 좌측 눈 이미지(LEI) 및 상기 제2 영역에 포함되는 우측 눈 이미지(REI)에 대한 필터링을 수행하고 동공의 윤곽을 검출하며, 상기 검출된 동공의 윤곽의 개수에 기초하여 눈 패턴을 인식할 수 있다(단계 S1600). 또한 패턴 인식부(140)는 상기 제3 영역에 포함되는 입 이미지에 대한 기술자(descriptor)를 획득하고, 미리 저장된 보정 데이터(CDAT)와 상기 기술자를 비교하여 입 패턴을 인식할 수 있다(단계 S1700). 단계 S1100, S1200, S1300, S1400 및 S1500은 각각 도 1의 단계 S100, S200, S300, S400 및 S500에 상응하며, 단계 S1600 및 S1700은 도 1의 단계 S600에 상응할 수 있다.

본 발명은 내장된 카메라 모듈에 기초하여 이미지 처리를 수행하고 상기 이미지 처리에 기초하여 구동 가능한 모바일 기기에서 이용될 수 있다. 예를 들어, 본 발명은 휴대폰(Mobile Phone), 스마트 폰(Smart Phone), 태블릿(Tablet) PC, 노트북(Laptop Computer), 개인 정보 단말기(personal digital assistant; PDA), 휴대형 멀티미디어 플레이어(portable multimedia player; PMP), 디지털 카메라(Digital Camera), 음악 재생기(Music Player), 휴대용 게임 콘솔(portable game console), 네비게이션(Navigation) 등과 같은 다양한 단말기에 적용될 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 것이다.

Claims

카메라 모듈을 포함하는 모바일 기기에서 이미지 처리에 기반하여 모바일 기기를 구동하는 방법으로서,
상기 카메라 모듈을 이용하여 컬러 이미지를 촬상하는 단계;
상기 컬러 이미지를 흑백 이미지로 변환하는 단계;
상기 흑백 이미지로부터 얼굴 영역을 검출하는 단계;
상기 얼굴 영역에 포함되는 얼굴 이미지에 기초하여 좌측 눈에 상응하는 제1 영역, 우측 눈에 상응하는 제2 영역 및 입에 상응하는 제3 영역을 결정하는 단계;
상기 제1 영역에 포함되는 좌측 눈 이미지, 상기 제2 영역에 포함되는 우측 눈 이미지 및 상기 제3 영역에 포함되는 입 이미지를 분석하여 눈 패턴 및 입 패턴을 인식하는 단계; 및
상기 눈 패턴 및 상기 입 패턴에 기초하여 상기 모바일 기기를 구동하기 위한 명령어를 발생하는 단계를 포함하는 이미지 처리 기반의 모바일 기기 구동 방법.
제 1 항에 있어서, 상기 컬러 이미지를 상기 흑백 이미지로 변환하는 단계는,
상기 컬러 이미지에 대한 히스토그램 평활화(histogram equalization)를 수행하여 상기 흑백 이미지를 발생하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 기반의 모바일 기기 구동 방법.
제 2 항에 있어서, 상기 흑백 이미지로부터 상기 얼굴 영역을 검출하는 단계는,
국부 이진 패턴(Local Binary Pattern; LBP) 방식을 이용하여 상기 흑백 이미지에 포함된 복수의 픽셀들에 대한 연산자(operator)들을 추출하는 단계;
다단의 부스트된 분류기들(Cascade of Boosted Classifiers)을 기초로 상기 연산자들에 대한 트레이닝을 수행하여, 상기 복수의 픽셀들 중 일부를 포함하여 구성되는 복수의 검색 윈도우들 각각을 얼굴 패턴을 포함하는 제1 검색 윈도우 및 비얼굴(non-face) 패턴을 포함하는 제2 검색 윈도우로 분류하는 단계; 및
상기 제1 검색 윈도우들에 기초하여 상기 얼굴 영역을 결정하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 기반의 모바일 기기 구동 방법.
제 3 항에 있어서, 상기 눈 패턴 및 상기 입 패턴을 인식하는 단계는,
상기 좌측 눈 이미지 및 상기 우측 눈 이미지에 기초하여 상기 눈 패턴을 인식하는 단계; 및
상기 입 이미지에 기초하여 상기 입 패턴을 선택적으로 인식하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 기반의 모바일 기기 구동 방법.
제 4 항에 있어서, 상기 눈 패턴을 인식하는 단계는,
문턱 계조 값(Gray-value Threshold) 및 개방 형태학적 동작(Opening Morphological Operation)에 기초하여 상기 좌측 눈 이미지 및 상기 우측 눈 이미지에 대한 필터링을 수행하는 단계;
상기 필터링된 좌측 눈 이미지 및 상기 필터링된 우측 눈 이미지에 대한 스즈키 알고리즘(Suzuki's Algorithm)을 수행하여 동공(pupil)의 윤곽(contour)을 검출하는 단계; 및
상기 검출된 동공의 윤곽의 개수에 기초하여 상기 눈 패턴을 결정하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 기반의 모바일 기기 구동 방법.
제 5 항에 있어서, 상기 눈 패턴은,
상기 동공의 윤곽이 두 개 검출되는 제1 눈 패턴, 상기 동공의 윤곽이 하나 검출되는 제2 눈 패턴, 및 상기 동공의 윤곽이 검출되지 않는 제3 눈 패턴 중 하나에 상응하는 것을 특징으로 하는 이미지 처리 기반의 모바일 기기 구동 방법.
제 6 항에 있어서, 상기 입 패턴을 선택적으로 인식하는 단계는,
상기 눈 패턴이 상기 제1 눈 패턴에 상응하는 경우에, 상기 입 이미지를 복수의 세그먼트들로 분할하는 단계;
상기 분할된 복수의 세그먼트들에 대한 푸리에 변환(Fourier Transform), 가버 필터링(Gabor Filtering) 및 역 푸리에 변환(Inverse Fourier Transform)을 수행하여 상기 입 이미지에 대한 GIST 기술자(descriptor)를 획득하는 단계; 및
미리 저장된 보정 데이터와 상기 입 이미지에 대한 GIST 기술자 사이의 L2 거리(L2 distance)에 기초하여 상기 입 패턴을 결정하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 기반의 모바일 기기 구동 방법.
제 7 항에 있어서,
캘리브레이션 동작을 수행하여 상기 보정 데이터를 획득하고 저장하는 단계를 더 포함하는 것을 특징으로 하는 이미지 처리 기반의 모바일 기기 구동 방법.
제 7 항에 있어서, 상기 입 패턴은,
상기 입 이미지에 포함되는 입술이 왼쪽으로 편향된 제1 입 패턴, 상기 입술이 오른쪽으로 편향된 제2 입 패턴, 상기 입술이 편향되지 않고 벌려져 있는 제3 입 패턴, 및 상기 입술이 편향되거나 벌려져 있지 않고 정상 상태를 가지는 제4 입 패턴 중 하나에 상응하는 것을 특징으로 하는 이미지 처리 기반의 모바일 기기 구동 방법.
제 9 항에 있어서, 상기 명령어는 상기 모바일 기기의 전화 발신 화면에서 커서를 왼쪽으로 이동시키는 제1 이동 명령어, 상기 커서를 오른쪽으로 이동시키는 제2 이동 명령어, 상기 커서의 현재 위치에 상응하는 숫자를 선택하는 선택 명령어, 상기 선택된 숫자를 삭제하는 삭제 명령어, 및 전화 발신 동작을 수행하는 발신 명령어를 포함하며,
상기 제1 눈 패턴 및 상기 제1 입 패턴이 인식된 경우에 상기 제1 이동 명령어가 발생되고, 상기 제1 눈 패턴 및 상기 제2 입 패턴이 인식된 경우에 상기 제2 이동 명령어가 발생되고, 상기 제1 눈 패턴 및 상기 제3 입 패턴이 인식된 경우에 상기 삭제 명령어가 발생되고, 상기 제2 눈 패턴 및 상기 제4 입 패턴이 인식된 경우에 상기 선택 명령어가 발생되고, 상기 제3 눈 패턴 및 상기 제4 입 패턴이 인식된 경우에 상기 발신 명령어가 발생되는 것을 특징으로 하는 이미지 처리 기반의 모바일 기기 구동 방법.
카메라 모듈을 포함하는 모바일 기기에서 얼굴 이미지를 처리하는 방법으로서,
상기 카메라 모듈을 이용하여 컬러 이미지를 촬상하는 단계;
상기 컬러 이미지에 대한 히스토그램 평활화(histogram equalization)를 수행하여 흑백 이미지를 발생하는 단계;
상기 흑백 이미지에 포함된 복수의 픽셀들에 대한 연산자(operator)들을 추출하고 상기 연산자들에 대한 트레이닝을 수행하여 얼굴 영역을 검출하는 단계;
상기 얼굴 영역에 포함되는 얼굴 이미지에 기초하여 좌측 눈에 상응하는 제1 영역, 우측 눈에 상응하는 제2 영역 및 입에 상응하는 제3 영역을 결정하는 단계;
상기 제1 영역에 포함되는 좌측 눈 이미지 및 상기 제2 영역에 포함되는 우측 눈 이미지에 대한 필터링을 수행하고 동공의 윤곽을 검출하며, 상기 검출된 동공의 윤곽의 개수에 기초하여 눈 패턴을 인식하는 단계; 및
상기 제3 영역에 포함되는 입 이미지에 대한 기술자(descriptor)를 획득하고, 미리 저장된 보정 데이터와 상기 기술자를 비교하여 입 패턴을 인식하는 단계를 포함하는 모바일 기기의 이미지 처리 방법.
이미지 처리에 기반하여 구동되는 모바일 기기로서,
컬러 이미지를 촬상하는 카메라 모듈;
상기 컬러 이미지를 흑백 이미지로 변환하는 이미지 변환부;
상기 흑백 이미지로부터 얼굴 영역을 검출하며, 상기 얼굴 영역에 포함되는 얼굴 이미지에 기초하여 좌측 눈에 상응하는 제1 영역, 우측 눈에 상응하는 제2 영역 및 입에 상응하는 제3 영역을 결정하는 얼굴 검출부;
상기 제1 영역에 포함되는 좌측 눈 이미지, 상기 제2 영역에 포함되는 우측 눈 이미지 및 상기 제3 영역에 포함되는 입 이미지를 분석하여 눈 패턴 및 입 패턴을 인식하는 패턴 인식부; 및
상기 눈 패턴 및 상기 입 패턴에 기초하여 상기 모바일 기기를 구동하기 위한 명령어를 발생하는 명령어 번역부를 포함하는 모바일 기기.
제 12 항에 있어서, 상기 얼굴 검출부는,
국부 이진 패턴(Local Binary Pattern; LBP) 방식을 이용하여 상기 흑백 이미지에 포함된 복수의 픽셀들에 대한 연산자(operator)들을 추출하는 추출부;
다단의 부스트된 분류기들(Cascade of Boosted Classifiers)을 기초로 상기 연산자들에 대한 트레이닝을 수행하여, 상기 복수의 픽셀들 중 일부를 포함하여 구성되는 복수의 검색 윈도우들 각각을 얼굴 패턴을 포함하는 제1 검색 윈도우들 및 비얼굴(non-face) 패턴을 포함하는 제2 검색 윈도우들로 분류하고, 상기 제1 검색 윈도우들에 기초하여 상기 얼굴 영역을 결정하는 분류부; 및
상기 얼굴 영역에 기초하여 상기 제1 영역, 상기 제2 영역 및 상기 제3 영역을 결정하는 결정부를 포함하는 것을 특징으로 하는 모바일 기기.
제 12 항에 있어서, 상기 패턴 인식부는,
문턱 계조 값(Gray-value Threshold) 및 개방 형태학적 동작(Opening Morphological Operation)에 기초하여 상기 좌측 눈 이미지 및 상기 우측 눈 이미지에 대한 필터링을 수행하고, 상기 필터링된 좌측 눈 이미지 및 상기 필터링된 우측 눈 이미지에 대한 스즈키 알고리즘(Suzuki's Algorithm)을 수행하여 동공(pupil)의 윤곽(contour)을 검출하며, 상기 검출된 동공의 윤곽의 개수에 기초하여 상기 눈 패턴을 결정하는 눈 패턴 인식부; 및
상기 입 이미지를 복수의 세그먼트들로 분할하고, 상기 분할된 복수의 세그먼트들에 대한 푸리에 변환(Fourier Transform), 가버 필터링(Gabor Filtering) 및 역 푸리에 변환(Inverse Fourier Transform)을 수행하여 상기 입 이미지에 대한 GIST 기술자(descriptor)를 획득하며, 미리 저장된 보정 데이터와 상기 입 이미지에 대한 GIST 기술자 사이의 L2 거리(L2 distance)를 연산하여 상기 입 패턴을 결정하는 입 패턴 인식부를 포함하는 것을 특징으로 하는 모바일 기기.