KR102094723B1

KR102094723B1 - 견고한 얼굴 표정 인식을 위한 특징 기술자

Info

Publication number: KR102094723B1
Application number: KR1020130077825A
Authority: KR
Inventors: 수드하 벨루사미; 발라수브라마니안 아난드; 비스와나스 고팔라크리슈넌; 프라티바 무기
Original assignee: 삼성전자주식회사
Priority date: 2012-07-17
Filing date: 2013-07-03
Publication date: 2020-04-14
Also published as: US9239948B2; US20140023269A1; KR20140135078A

Abstract

견고한 얼굴 표정 인식을 위한 특징 기술자를 생성하는 방법 및 시스템은 얼굴 이미지를 매끄럽게 하기 위해 가우시안 필터를 사용하여 얼굴 이미지를 전처리한다. 다음으로, 전처리된 얼굴 이미지로부터 M 개의 스케일들 및 N 개의 방향들에서의 그라디언트 기반의 이미지들이 생성된다. 나아가, 그라디언트 기반의 이미지들로부터 각 액션 단위에 상응하는 이미지의 부분이 선택된다. 그 후에 이미지의 선택된 부분 내에서 적어도 하나의 얼굴 이벤트의 출현이 캡처된다. 또한, 견고한 얼굴 표정 인식을 위한 각 액션 단위에 대해 특징 기술자를 획득하기 위해 이미지의 선택된 부분 내에서 적어도 하나의 얼굴 이벤트의 기하가 결정된다.

Description

견고한 얼굴 표정 인식을 위한 특징 기술자{FEATURE DESCRIPTOR FOR ROBUST FACIAL EXPRESSION RECOGNITION}

이하의 실시예는 이미지 처리에 관한 것으로, 더 특별하게는 얼굴 표정 인식을 위한 특징 벡터를 생성하는 방법 및 장치에 관련된 것이다.

본 출원은 인도 특허청(Intellectual Property India)에 2012년 7월 17일자로 출원된 인도 특허출원 제2885/CHE/2012호 및 2013년 5월 15일자로 출원된 인도 특허출원 제2885/CHE/2013호의 우선권의 이익을 주장하며, 그 모든 개시들은 모든 목적들에 대한 참조로써 여기에 포함된다.

얼굴 표정은 신경 충격들에 의해 유발되는(triggered) 얼굴 근육들의 활동에 의해 발생된다. 이미지 처리에 있어서, 시각적 단서(visual cue)들로부터 얼굴 표정을 인식하는 것은 비디오 프레임 또는 디지털 이미지로부터 개인의 얼굴 표정을 식별하는 기법과 같다. 얼굴 표정 인식 시스템은 일반적으로 개인의 얼굴상의 얼굴 표정에 기반한 얼굴 표정 특정 정보를 예측하기 위해 적용된다. 일반적으로, 얼굴 표정 특정 정보는 얼굴 근육 액션 단위들(Action Units; AUs)의 세트(set)를 통해 나타난다. 예컨대, 새로운 테스트 이미지가 도달하는 경우, 얼굴 표정 인식 시스템은 먼저 얼굴 근육 형태들의 위치를 알아내고(localize), 특징 기술자를 사용하여 위치를 알아낸 얼굴 근육 형태들를 표시하며(represent), 얼굴상의 얼굴 표정을 획득하기 위해 사전 저장된 AU 모델에 대비하여 해당 표시(representation)를 분류한다.

정확한 얼굴 표정 인식을 위한 과제들 중 한 가지는 조도, 포즈, 얼굴 표정, 노화, 얼굴 정렬 불량(face misalignment) 및 다른 요인들의 큰 변화에 대해 저항성을 갖는 효율적이고 식별력 있는(discriminative) 특징 기술자를 생성시키는 것이다. 현재 잘 사용되고 있는 기법들 중 하나는 다양한 방향들 및 스케일들(orientations and scales)에서 에지들 및 형태들(edges and shapes)에 대응하는 2 개의 2 차원 공간 필터 뱅크(spatial filter bank)들을 적용함으로써 특징 기술자를 생성하는 것을 포함한다. 또 다른 현재 알려진 기법은 로컬 패치(local patch)들의 매개변수(parameter)들의 상대적 변화로부터 유도되는(derived from) 패턴들의 히스토그램에 기반하여 특징 기술자를 생성한다. 또 다른 이미 현재 알려진 기법에서는, 얼굴의 고정점(anchor point)들의 상대적 거리를 특징들로써 코드(code)화하고 있다. 알려진 기법들 중 몇몇은 특징 기술자들을 생성하기 위해 상술한 기법들의 조합을 사용한다. 그러나, 어떠한 현재 알려진 기법들도 효율적이고 식별력 있는 특징 기술자들을 생성할 수 없다.

하기의 설명은 얼굴 표정 인식을 위한 특징 기술자를 생성하는 방법에 있어서, 얼굴 이미지로부터 서로 상이한 스케일들 및 방향들(scales and orientations)을 갖는 복수의 그라디언트(gradient) 기반의 이미지들을 생성하는 단계, 상기 복수의 그라디언트 기반의 이미지들의 각각의 내에서 각 액션 단위(action unit)에 상응하는 이미지의 부분을 선택하는 단계, 프로세서에 의해, 코드된 출현값들을 사용하여 상기 이미지의 상기 선택된 부분 내에서 적어도 한 번의 얼굴 이벤트의 출현을 결정하는 단계 및 얼굴 표정 인식을 위한 각 액션 단위에 대한 특징 기술자를 획득하는 스핀 휠(spin wheel) 구조를 사용하여 상기 이미지의 상기 선택된 부분 내에서 상기 적어도 한 번의 얼굴 이벤트의 기하(geometry)를 결정하는 단계를 포함하는, 얼굴 표정 인식을 위한 특징 기술자를 생성하는 방법과 관련된다.

상기 이미지의 상기 선택된 부분 내에서 상기 적어도 한 번의 얼굴 이벤트의 출현을 결정하는 단계는, 이웃하는 픽셀들에 대한 각 픽셀의 상대적 세기에 기반하여 상기 이미지의 상기 선택된 부분 내의 각 픽셀에 대한 코드된 출현값을 계산하는 단계를 포함할 수 있다.

각 픽셀로 할당되는 상기 코드(code)는 상기 적어도 한 번의 얼굴 이벤트의 상기 출현을 나타낼 수 있다.

상기 선택된 부분 내에서 상기 적어도 한 번의 얼굴 이벤트의 기하를 결정하는 단계는, 상기 선택된 부분을 소정의 개수의 서로 상이한 모양들의 블록들로 분할하는 단계, 상기 블록들의 각각의 내에 스핀 휠 구조를 구성하는 단계 - 상기 스핀 휠 구조는 복수의 세그먼트(segment)들을 포함하고, 상기 세그먼트들의 각각은 각 개별적인 블록에 속하는 픽셀들의 세트를 포함함 -, 각 세그먼트 내의 상기 픽셀들의 세트에 할당된 상기 코드들에 기반하여 상기 이미지의 상기 선택된 부분 내 각 스핀 휠 구조 내의 세그먼트들의 각각에 대한 히스토그램을 생성하는 단계 및 상기 이미지의 상기 선택된 부분 내 각 스핀 휠 구조 내의 상기 세그먼트들과 연관된 히스토그램들로부터 상기 이미지의 상기 부분에 대한 연접된 히스토그램을 생성하는 단계를 포함할 수 있다.

상기 방법은 가우시안 필터(Gaussian filter)를 사용하여 상기 얼굴 이미지를 전처리하는 단계를 더 포함할 수 있다.

상기 이미지의 상기 선택된 부분 내의 각 픽셀에 대한 상기 코드를 계산하는 단계는, 각 픽셀 주위의 상대적 정보를 통합함으로써 상기 이미지의 상기 선택된 부분 내의 각 픽셀에 대한 코드를 계산하는 단계를 포함할 수 있다.

하기의 설명은 프로세서 및 상기 프로세서와 연결된 메모리 - 상기 메모리는 얼굴 기술자 생성 모듈을 포함하고, 상기 얼굴 기술자 생성 모듈은 상기 프로세서가 방법을 수행하도록 명령함 - 를 포함하고, 상기 방법은, 얼굴 이미지로부터 서로 상이한 스케일들 및 방향들을 갖는 복수의 그라디언트 기반의 이미지들을 생성하는 단계, 상기 복수의 그라디언트 기반의 이미지들의 각각의 내에서 액션 단위에 상응하는 이미지의 부분을 선택하는 단계, 코드된 출현값들을 사용하여 상기 이미지의 상기 선택된 부분 내에서 적어도 한 번의 얼굴 이벤트의 출현을 결정하는 단계 및 얼굴 표정 인식을 위한 각 액션 단위에 대한 특징 기술자를 획득하는 스핀 휠 구조를 사용하여 상기 이미지의 상기 선택된 부분 내에서 상기 적어도 한 번의 얼굴 이벤트의 기하를 결정하는 단계를 포함할 수 있다.

상기 방법은, 이웃하는 픽셀들에 대한 각 픽셀의 상대적 세기에 기반하여 상기 이미지의 상기 선택된 부분 내의 각 픽셀에 대한 코드된 출현값을 계산하는 단계를 더 포함할 수 있다.

각 픽셀로 할당되는 상기 코드는 상기 적어도 한 번의 얼굴 이벤트의 상기 출현을 나타낼 수 있다.

상기 방법은, 상기 선택된 부분을 소정의 개수의 서로 상이한 모양들의 블록들로 분할하는 단계, 상기 블록들의 각각의 내에 스핀 휠 구조를 구성하는 단계 - 상기 스핀 휠 구조는 복수의 세그먼트(segment)들을 포함하고, 상기 세그먼트들의 각각은 각 개별적인 블록에 속하는 픽셀들의 세트를 포함함 -, 각 세그먼트 내의 상기 픽셀들의 세트에 할당된 상기 코드들에 기반하여 상기 이미지의 상기 선택된 부분 내 각 스핀 휠 구조 내의 세그먼트들의 각각에 대한 히스토그램을 생성하는 단계 및 상기 이미지의 상기 선택된 부분 내 각 스핀 휠 구조 내의 상기 세그먼트들과 연관된 히스토그램들로부터 상기 이미지의 상기 부분에 대한 연접된 히스토그램을 생성하는 단계를 더 포함할 수 있다.

상기 방법은, 가우시안 필터를 사용하여 상기 얼굴 이미지를 전처리하는 단계;를 더 포함할 수 있다.

상기 방법은, 각 픽셀 주위의 상대적 정보를 통합함으로써 상기 이미지의 상기 선택된 부분 내의 각 픽셀에 대한 코드를 계산하는 단계를 더 포함할 수 있다.

하기의 설명은 컴퓨팅 디바이스(computing device)의 프로세서에 의해 실행될 때, 상기 컴퓨팅 장치가 방법을 수행하게 하는 실행가능 프로그램이 저장된 비일시적 컴퓨터 판독가능 저장 매체에 있어서, 상기 방법은, 얼굴 이미지로부터 서로 상이한 스케일들 및 방향들을 갖는 복수의 그라디언트 기반의 이미지들을 생성하는 단계, 상기 복수의 그라디언트 기반의 이미지들의 각각의 내에서 액션 단위에 상응하는 이미지의 부분을 선택하는 단계, 코드된 출현값들을 사용하여 상기 이미지의 상기 선택된 부분 내에서 적어도 한 번의 얼굴 이벤트의 출현을 결정하는 단계 및 얼굴 표정 인식을 위한 각 액션 단위에 대한 특징 기술자를 획득하는 스핀 휠 구조를 사용하여 상기 이미지의 상기 선택된 부분 내에서 상기 적어도 한 번의 얼굴 이벤트의 기하를 결정하는 단계를 포함하는, 비일시적 컴퓨터 판독가능 저장 매체와 관련된다.

상기 방법은, 상기 선택된 부분을 소정의 개수의 서로 상이한 모양들의 블록들로 분할하는 단계, 상기 블록들의 각각의 내에 스핀 휠 구조를 구성하는 단계 - 상기 스핀 휠 구조는 복수의 세그먼트들을 포함하고, 상기 세그먼트들의 각각은 각 개별적인 블록에 속하는 픽셀들의 세트를 포함함 -, 각 세그먼트 내의 상기 픽셀들의 세트에 할당된 상기 코드들에 기반하여 상기 이미지의 상기 선택된 부분 내 각 스핀 휠 구조 내의 세그먼트들의 각각에 대한 히스토그램을 생성하는 단계 및 상기 이미지의 상기 선택된 부분 내 각 스핀 휠 구조 내의 상기 세그먼트들과 연관된 히스토그램들로부터 상기 이미지의 상기 부분에 대한 연접된 히스토그램을 생성하는 단계를 더 포함할 수 있다.

상기 방법은, 가우시안 필터를 사용하여 상기 얼굴 이미지를 전처리하는 단계를 더 포함할 수 있다.

추가적인 측면들 및/또는 이점들은 하기의 설명의 일부에 설명되어 있고, 부분적으로 하기의 설명으로부터 명백하거나 실시예들을 실시함으로써 학습될 수 있다.

하기에 첨부된 도면들과 함께 받아들여지는, 예시적인 실시예들의 하기의 설명으로부터 실시예들 및/또는 다른 측면들 및 이점들은 명백해질 것이며 더 쉽게 이해될 것이다.
도 1은 예시적인 실시예들에 따른, 견고한(robust) 얼굴 표정(facial expression) 인식을 위한 특징 기술자를 생성하는 방법을 나타낸다.
도 2는 예시적인 실시예들에 따른, 스핀 휠 구조를 사용하여 이미지의 선택된 부분 내의 얼굴 이벤트들의 기하를 계산하는 방법을 나타낸다.
도 3은 예시적인 실시예들에 따른, 입력 얼굴 이미지로부터 얼굴 기술자를 생성하는 과정을 도시한다.
도 4는 하나 이상의 실시예들을 구현하기 위한 컴퓨팅 장치를 나타낸다.

예시적인 실시예들은 견고한 얼굴 표정 인식을 위한 특징 기술자를 생성하는 방법 및 시스템을 제공한다. 실시예들의 이하의 상세한 설명에 있어서, 본 명세서의 일부를 구성하는 첨부된 도면이 참조되며, 상세한 설명은 실시예가 실시될 수 있도록 특정 실시예들을 도해하는 방식으로 제공된다. 하기의 실시예들은 당 기술 분야에서 통상의 지식을 가진 자가 본 실시예들을 실시 할 수 있도록 충분히 상세하게 기술되며, 예시적인 실시예들의 범위로부터 벗어나지 않는 다른 실시예들로 활용되거나(utilized), 변경이 이루어 질 수 있음이 이해될 수 있다. 이하의 상세한 설명은, 따라서 제한하여 해석(limiting sense)되어서는 안되며, 예시적인 실시예들의 범위는 첨부된 청구 범위에 의해서만 정의된다.

도 1은 예시적인 실시예들에 따른, 견고한 얼굴 표정 인식을 위한 특징 기술자를 생성하는 방법(100)을 나타낸다.

단계(102)에서, 가우시안 필터(gaussian filter)를 사용해 얼굴 이미지가 전처리될(pre-processed) 수 있다. 얼굴 이미지는 얼굴 이미지를 매끄럽게 하기 위해 전처리될 수 있다. 몇몇 실시예들에서, 상대적 명령(relative order)들은 노이즈에 민감하므로 얼굴 이미지는 노이즈를 처리하기 위한 시그마(sigma)를 갖는 가우시안 필터에 의해 전처리될 수 있다.

단계(104)에서, 전처리된 얼굴 이미지로부터 M 개의 스케일들 및 N 개의 방향들(M scales and N orientations)에서의 그라디언트 기반의 이미지(gradient based image)들이 생성될 수 있다. 예컨대, M 개의 스케일들 및 N 개의 방향들에서의 그라디언트 기반의 이미지들은 예를 들면 가버 필터(Gabor filter) 또는 하르 필터(Haar filter)와 같은 필터들이 적용됨으로써 생성될 수 있다. 그라디언트 기반의 이미지들은 M 개의 스케일들 및 N 개의 방향들에서의 서로 상이한 얼굴 이벤트들의 응답의 크기를 캡처(capture)하는데 도움을 줄 수 있다.

단계(106)에서, 각 액션 단위에 상응하는 이미지의 부분이 그라디언트 기반의 이미지들의 각각으로부터 선택될 수 있다. 예컨대, 다음의 단계들을 수행함으로써 각 액션 단위에 대한 모든 그라디언트 기반의 이미지들의 부분이 특징 기술자의 생성을 위해 선택될 수 있다. 이러한 절차는 얼굴 움직임 부호화 시스템(Facial Action Coding System, FACS)에 의해 정의된 모든 액션 단위들에 대해 반복될 수 있다.

단계(108)에서, 이미지의 선택된 부분 내에서 적어도 하나의 얼굴 이벤트의 출현이 캡처될 수 있다. 몇몇 실시예들에서, 코드된 출현 값은 이웃하는 픽셀들에 대한 각 픽셀의 상대적 세기(relative intensity)에 기반하여 이미지의 선택된 부분 내의 각 픽셀에 대해 계산될 수 있다. 이러한 실시예에서, 코드는 각 픽셀 주위의 상대적 정보를 통합함으로써 각 픽셀에 대해 계산될 수 있다. 각 픽셀과 연관된 코드는 이미지의 선택된 부분에서의 적어도 하나의 얼굴 이벤트의 출현의 측정값(measure)일 수 있다. 예시적인 구현에서, 코드는 지역 이진 패턴(Local Binary Pattern; LBP) 필터를 사용하여 이미지의 선택된 부분 내의 각 픽셀에 대해 계산될 수 있다. 지역 이진 패턴 필터 및 그것의 사용은 당 기술 분야에서 통상의 지식을 가진 자에게 잘 알려져 있다는 것이 이해될 수 있다.

단계(110)에서, 이미지의 선택된 부분 내에서 적어도 하나의 얼굴 이벤트의 기하(geometry)가 결정될 수 있다. 몇몇 실시예들에서, 스핀 휠 구조(spin wheel structure)를 사용하여 상기 적어도 하나의 얼굴 이벤트의 기하가 계산될 수 있다. 캡처된 얼굴 이벤트의 기하 및 출현은 견고한 얼굴 표정 인식을 위한 얼굴 이벤트의 특징 기술자를 산출할 수 있다. 도 2에 이미지의 선택된 부분 내의 얼굴 이벤트의 얼굴 기술자를 생성하는 것과 관련된 상세한 단계들이 설명되어 있다.

도 2는 예시적인 실시예들에 따른, 스핀 휠 구조를 사용하여 이미지의 선택된 부분 내의 얼굴 이벤트들의 기하를 계산하는 방법(200)을 나타낸다.

단계(202)에서, 이미지의 선택된 부분은 소정의(pre-defined) 개수의 블록들로 분할될 수 있다. 이미지의 선택된 부분은 관련된 세부 사항들(relevant details) 만을 인코드(encode)하기 위해 적절한 크기(size)들을 갖는 얼굴 영역들을 국한시키기(localize) 위한 블록들로 분할될 수 있다. 일 예시적인 구현에서, 각 블록의 크기는 그라디언트 기반의 이미지들을 생성하기 위해 사용되는 스케일(M 개의 스케일들)의 함수로 디자인될(designed) 수 있다.

단계(204)에서, P 개의 방사상 거리들 및 Q 개의 각도들을 갖는 스핀 휠 구조가 블록들의 각각의 내에 구성될(constructed) 수 있다. 각 블록 내의 스핀 휠 구조는 복수의 세그먼트(segment)들을 포함할 수 있고, 세그먼트들의 각각은 각각의 블록에 속하는 픽셀들의 세트(set)를 포함할 수 있다.

단계(206)에서, 각 세그먼트들 내의 픽셀들의 세트로 할당되는 코드들을 사용하여 각 스핀 휠 구조 내의 세그먼트들의 각각에 대한 히스토그램이 생성될 수 있다.

단계(208)에서, 이미지의 선택된 부분 내의 각 스핀 휠 구조와 연관된 히스토그램들로부터 이미지의 상기 부분에 대한 연접된(concatenated) 히스토그램이 생성될 수 있다. 예컨대, 이미지의 상기 부분이 10 개의 블록들로 분할되면, 이후 10 개의 스핀 휠 구조가 획득될 수 있다. 만약, 각 스핀 휠 구조가 16 개의 세그먼트들을 포함한다면, 다음으로 각 개별적인 세그먼트 내의 픽셀들로 할당된 코드들에 기반하여 16 개의 히스토그램들이 생성될 수 있다. 그 후에, 각 스핀 휠 구조에 대한 16 개의 히스토그램들은 각 스핀 휠 구조를 위한 연접된 히스토그램을 생성하기 위해 연접될 수 있다. 따라서, 10 개의 상이한 히스토그램들이 획득될 수 있다. 최종적으로(finally), 각 스핀 휠 구조와 연관된 10 개의 서로 상이한 히스토그램들은 특정한 액션 단위에 대해 선택된 이미지의 부분에 대한 최종 히스토그램(final histogram)을 획득하기 위해 연접될 수 있다. 따라서, 최종 히스토그램은 얼굴 이미지에 대한 얼굴 기술자의 표현(representation)일 수 있다. 상기에서, 각 스핀 휠 구조가 16 개의 세그먼트들을 갖는, 10 개의 스핀 휠 구조들을 형성하기 위해 분할된 이미지가 설명된다. 그러나, 이미지는 적절하게, 임의의 개수의 스핀 휠 구조들로 분할될 수 있고, 각 스핀 휠 구조는 임의의 개수의 세그먼트들로 분할될 수 있다.

도 3은 예시적인 실시예들에 따른, 입력 얼굴 이미지로부터 얼굴 기술자를 생성하는 과정(300)을 도시(pictorial representation)한다. 얼굴 이미지의 얼굴 기술자를 생성하기 위해 얼굴 이미지(302)가 입력되는 것을 고려한다. 얼굴 이미지(302)는 M 개의 스케일들 및 N 개의 방향들을 갖는 그라디언트 기반의 이미지(304)들을 생성하기 위해 처리될 수 있다. 특정 액션 단위에 대한 각 그라이언트 기반의 이미지(304)의 부분(306)이 크롭될(cropped) 수 있고 이웃하는 픽셀들에 대한 각 픽셀의 상대적 세기에 기반하여 크롭된 부분(306) 내의 픽셀들에 코드들이 할당될 수 있다. 다음으로, 크롭된 부분(306)은 서로 상이한 모양들의 복수의(multiple) 블록(308)들로 분할될 수 있고 스핀 휠 구조(310)가 크롭된 부분(306)의 각 블록(308) 위에(on top of) 구성될 수 있다. 그 후에, 스핀 휠 구조(310)의 각 세그먼트(311) 내의 픽셀들에 할당된 코드들에 기반하여 각 스핀 휠 구조에 대해 히스토그램이 계산될 수 있다. 이로서 획득된 히스토그램들은 따라서, 특정한 액션 단위에 대한 얼굴 이미지를 나타내는 최종 히스토그램(312)를 형성하기 위해 연접될 수 있다.

도 4는 하나 이상의 실시예들을 구현하기 위한 컴퓨팅 장치(400)를 나타낸다.

도 4 및 하기의 논의는 개요 및 본 문서에 포함된 발명의 개념들의 특정 실시예들이 구현될 수 있는 적합한(suitable) 컴퓨팅(computing) 환경의 일반적인 설명을 제공하기 위한 것으로 의도된다.

컴퓨팅 장치(400)는 프로세서(402), 메모리(404), 탈착 가능 저장 장치(removable storage)(406) 및 탈착 불가능(non-removable) 저장 장치(408)를 포함할 수 있다. 컴퓨팅 장치(400)는 추가적으로 버스(410) 및 네트워크 인터페이스(412)를 포함할 수 있다. 컴퓨팅 장치(400)는 하나 이상의 사용자 입력 장치들(user input devices)(414), 하나 이상의 출력 장치들(output devices)(416) 및 예컨대, 네트워크 인터페이스 카드 또는 범용 직렬 버스 연결부(universal serial bus connection)와 같은 하나 이상의 통신 연결부들(communication connection)(418)을 포함할 수 있고, 이들에게 접근할 수 있다. 하나 이상의 사용자 입력 장치들(414)은 예컨대, 키보드 또는 마우스일 수 있다. 하나 이상의 출력 장치들(416)은 예컨대, 디스플레이일 수 있다. 통신 연결부들(418)은 예컨대, 일반 패킷 무선 서비스(General Packet Radio Service; GPRS), 와이어리스 피델리티(Wireless Fidelity)(Wi-Fi®), 와이맥스(Worldwide Interoperability for Microwave Access; WiMax) 및 롱 텀 에볼루션(Long Term Evolution; LTE)과 같은 모바일 네트워크(mobile network)들을 포함할 수 있다.

메모리(404)는 컴퓨터 프로그램(420)을 저장하기 위해 휘발성 메모리 및/또는 비휘발성 메모리를 포함할 수 있다. 다양한 컴퓨터 판독가능 저장 매체는 컴퓨팅 장치(400), 탈착 가능 저장 장치(406) 및 탈착 불가능 저장 장치(408)의 메모리 구성 요소(memory element)들로부터 접근될 수 있다. 컴퓨터 메모리 구성 요소들은 예컨대, 읽기 전용 메모리(Read Only Memory; ROM), 랜덤 액세스 메모리(Random Access Memory; RAM), 이피롬(Erasable Programmable Read Only Memory; EPROM), 이이피롬(Electrically Erasable Programmable Read Only Memory; EEPROM), 하드 드라이브(hard drive) 및 메모리 카드들을 취급하기 위한 탈착 가능 매체 드라이브(removable media drive)와 같이, 데이터 및 기계 판독가능 명령들(machine-readable instructions)의 저장을 위한 임의의 적합한 메모리 장치(들)을 포함할 수 있다.

실시예들에서 사용된 프로세서(402)는 마이크로프로세서(microprocessor), 마이크로컨트롤러(microcontroller), 복합 명령어 집합 컴퓨팅 마이크프로세서(complex instruction set computing microprocessor), 축소 명령어 집합 컴퓨팅 마이크로 프로세서(reduced instruction set computing microprocessor) 훨씬 긴 명령어 마이크로프로세서(very long instruction word microprocessor), 명시적 병렬 명령 컴퓨팅 마이크로프로세서(explicitly parallel instruction computing microprocessor), 그래픽스 프로세서(graphics processor), 디지털 신호 프로세서(digital signal processor) 또는 임의의 다른 유형의 처리 회로와 같은, 하지만 이에 한정되지 않는, 계산 회로(computational circuit)의 임의의 유형을 참조할 수 있다. 프로세서(402)는 또한 예컨대, 제네릭(generic) 또는 프로그램가능 논리 장치(programmable logic device)들 또는 어레이(array)들, 응용 주문형 집적 회로(application specific integrated circuit)들, 단일 칩 컴퓨터(single-chip computer)들 및 스마트 카드(smart card)들과 같은 임베디드 컨트롤러(embedded controller)들을 포함할 수 있다.

실시예들은 작업(task)들을 수행하기 위한 기능들(functions), 절차들(procedures) 데이터 구조들(data structures) 및 어플리케이션 프로그램들(application programs)을 포함할 수 있고, 추상 데이터 형들(abstract data types) 또는 로우-레벨 하드웨어 컨텍스트(low-level hardware context)들을 정의하는 프로그램 모듈(program module)들과 함께 구현될 수 있다. 상술된 임의의 저장 매체에 저장되는 기계 판독가능 명령들은 컴퓨팅 장치(400)의 프로세서(402)에 의해 실행될 수 있다. 예컨대, 컴퓨터 프로그램(420)은 기계 판독가능 명령들의 형태로 저장된 특징 기술자 생성 모듈(422)를 포함할 수 있다. 기계 판독가능 명령들은, 프로세서(402)에 의해 실행될 때, 다양한 실시예들에 따라 컴퓨팅 장치(400)가 특징 기술자 생성 모듈(422)의 기능들을 수행하게 할 수 있다. 몇몇의 실시예들에서, 프로세서(402)는 특징 기술자 생성 모듈(422)의 형태(form)로 컴퓨터 프로그램을 실행함에 있어서 도 1 및 도 2에 도시된 방법 단계들을 수행할 수 있다.

앞서 설명된 실시예들은 컴퓨터에 의해 구현되는(embodied) 다양한 작업들을 구현하기 위한 프로그램 명령들을 포함하는 컴퓨터 판독가능 매체에 기록될 수 있다. 상기 매체는 또한 프로그램 명령들, 데이터 파일들, 데이터 구조들 및 이와 유사한 것들을 단독으로 또는 결합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령들은 실시예들의 목적들을 위해 구현(designed) 및 구성(constructed)되거나 컴퓨터 소프트웨어 분야에서 통상의 지식을 갖춘 자들이 잘 알고 이용할 수 있는 종류의 것들일 수 있다. 컴퓨터 판독가능 매체의 예시들은 하드 디스크들, 플로피 디스크들 및 자기 테이프와 같은 자기 매체; 씨디 롬(CD ROM) 디스크들 및 디지털 다기능 디스크(Digital Versatile Disc; DVD)들과 같은 광학 매체; 광학 디스크들과 같은 광자기(magneto-optical) 매체; 읽기 전용 메모리(read-only memory; ROM), 임의 접근 메모리(random access memory; RAM), 플래시 메모리(flash memory) 및 이와 유사한 것들과 같이 프로그램 명령들을 저장 및 수행하기 위해 특별히 구성되는 하드웨어 장치들을 포함할 수 있다. 컴퓨터 판독가능 매체는 분산된 네트워크일 수 있고, 따라서 프로그램 명령들이 분산된 패션(distributed fashion)으로 저장되고 실행될 수 있다. 프로그램 명령들은 하나 이상의 프로세서들에 의해 실행될 수 있다. 컴퓨터 판독가능 매체는 또한 프로그램 명령들을 실행하는(프로세서처럼 처리하는) 적어도 하나의 응용 주문형 집적 회로(Application Specific Integrated Circuit; ASIC) 또는 필드 프로그램 가능 게이트 어레이(Field Programmable Gate Array; FPGA)내에서 구현될 수 있다. 프로그램 명령들의 예시들은 컴파일러에 의해 생성되는 것과 같은 기계어 코드(machine code) 및 인터프리터(interpreter)를 사용하는 컴퓨터에 의해 실행될 수 있는 더 높은 수준의 코드를 포함하는 파일들 두 가지 모두를 포함할 수 있다. 앞서 설명된 장치들은 앞서 설명된 실시예들의 단계들을 수행하기 위한 하나 이상의 소프트웨어 모듈로 동작하도록 구성될 수 있고 반대의 경우도 마찬가지다.

예시적인 실시예들은 특정한 예시적인 실시예들을 참고하여 설명되었다. 따라서, 다양한 실시예들의 더 넓은 정신 및 범위를 벗어나지 않는 다양한 수정들 및 변경들이 본 실시예들에 가해질 수 있음은 명백하다. 나아가, 여기에서 설명된 다양한 장치들, 모듈들 및 이와 유사한 것들은 예컨대, 상보성 금속 산화막 반도체(Complementary Metal Oxide Semiconductor; CMOS)기반의 논리 회로망(logic circuitry), 펌웨어, 소프트웨어 및/또는 기계 판독가능 매체에 내장된(embodied) 하드웨어, 펌웨어 및/또는 소프트웨어의 임의의 조합과 같은, 하드웨어 회로망(hardware circuitry)을 사용하여 구동 및 작동될 수 있다. 예컨대, 응용 주문형 집적 회로(application specific integrated circuit)와 같은 트랜지스터(transistor)들, 논리 게이트(logic gate)들 및 전기 회로들을 사용하여 다양한 전기적 구조 및 방법들이 구현될 수 있다.

Claims

얼굴 표정 인식을 위한 특징 기술자를 생성하는 방법에 있어서,
얼굴 이미지로부터 서로 상이한 스케일들 및 방향들(scales and orientations)을 갖는 복수의 그라디언트(gradient) 기반의 이미지들을 생성하는 단계;
상기 복수의 그라디언트 기반의 이미지들의 각각의 내에서 각 액션 단위(action unit)에 상응하는 이미지의 부분을 선택하는 단계;
프로세서에 의해, 코드된 출현값들을 사용하여 상기 이미지의 상기 선택된 부분 내에서 적어도 한 번의 얼굴 이벤트의 출현을 결정하는 단계; 및
얼굴 표정 인식을 위한 각 액션 단위에 대한 특징 기술자를 획득하는 스핀 휠(spin wheel) 구조(structure)를 사용하여 상기 이미지의 상기 선택된 부분 내에서 상기 적어도 한 번의 얼굴 이벤트의 기하(geometry)를 결정하는 단계
를 포함하는, 얼굴 표정 인식을 위한 특징 기술자를 생성하는 방법.
제1 항에 있어서,
상기 이미지의 상기 선택된 부분 내에서 상기 적어도 한 번의 얼굴 이벤트의 출현을 결정하는 단계는,
이웃하는 픽셀들에 대한 각 픽셀의 상대적 세기에 기반하여 상기 이미지의 상기 선택된 부분 내의 각 픽셀에 대한 코드된 출현값을 계산하는 단계
를 포함하고,
각 픽셀로 할당되는 상기 코드(code)는 상기 적어도 한 번의 얼굴 이벤트의 상기 출현을 나타내는, 얼굴 표정 인식을 위한 특징 기술자를 생성하는 방법.
제2 항에 있어서,
상기 선택된 부분 내에서 상기 적어도 한 번의 얼굴 이벤트의 기하를 결정하는 단계는,
상기 선택된 부분을 소정의 개수의 서로 상이한 모양들의 블록들로 분할하는 단계;
상기 블록들의 각각의 내에 스핀 휠 구조를 구성하는 단계 - 상기 스핀 휠 구조는 복수의 세그먼트(segment)들을 포함하고, 상기 세그먼트들의 각각은 각 개별적인 블록에 속하는 픽셀들의 세트를 포함함 -;
각 세그먼트 내의 상기 픽셀들의 세트에 할당된 상기 코드들에 기반하여 상기 이미지의 상기 선택된 부분 내 각 스핀 휠 구조 내의 세그먼트들의 각각에 대한 히스토그램을 생성하는 단계; 및
상기 이미지의 상기 선택된 부분 내 각 스핀 휠 구조 내의 상기 세그먼트들과 연관된 히스토그램들로부터 상기 이미지의 상기 부분에 대한 연접된 히스토그램을 생성하는 단계
를 포함하는, 얼굴 표정 인식을 위한 특징 기술자를 생성하는 방법.
제1 항에 있어서,
가우시안 필터(Gaussian filter)를 사용하여 상기 얼굴 이미지를 전처리하는 단계
를 더 포함하는, 얼굴 표정 인식을 위한 특징 기술자를 생성하는 방법.
제2 항에 있어서,
상기 이미지의 상기 선택된 부분 내의 각 픽셀에 대한 상기 코드된 출현값을 계산하는 단계는,
각 픽셀 주위의 상대적 정보를 통합함으로써 상기 이미지의 상기 선택된 부분 내의 각 픽셀에 대한 상기 코드를 계산하는 단계
를 포함하는, 얼굴 표정 인식을 위한 특징 기술자를 생성하는 방법.
프로세서; 및
상기 프로세서와 연결된 메모리 - 상기 메모리는 얼굴 기술자 생성 모듈을 포함하고, 상기 얼굴 기술자 생성 모듈은 상기 프로세서가 방법을 수행하도록 명령함 - 를 포함하고,
상기 방법은,
얼굴 이미지로부터 서로 상이한 스케일들 및 방향들을 갖는 복수의 그라디언트 기반의 이미지들을 생성하는 단계;
상기 복수의 그라디언트 기반의 이미지들의 각각의 내에서 액션 단위에 상응하는 이미지의 부분을 선택하는 단계;
코드된 출현값들을 사용하여 상기 이미지의 상기 선택된 부분 내에서 적어도 한 번의 얼굴 이벤트의 출현을 결정하는 단계; 및
얼굴 표정 인식을 위한 각 액션 단위에 대한 특징 기술자를 획득하는 스핀 휠 구조를 사용하여 상기 이미지의 상기 선택된 부분 내에서 상기 적어도 한 번의 얼굴 이벤트의 기하를 결정하는 단계
를 포함하는, 장치.
제6 항에 있어서,
상기 방법은,
이웃하는 픽셀들에 대한 각 픽셀의 상대적 세기에 기반하여 상기 이미지의 상기 선택된 부분 내의 각 픽셀에 대한 코드된 출현값을 계산하는 단계를 더 포함하고,
각 픽셀로 할당되는 상기 코드는 상기 적어도 한 번의 얼굴 이벤트의 상기 출현을 나타내는, 장치.
제 7항에 있어서,
상기 방법은,
상기 선택된 부분을 소정의 개수의 서로 상이한 모양들의 블록들로 분할하는 단계;
상기 블록들의 각각의 내에 스핀 휠 구조를 구성하는 단계 - 상기 스핀 휠 구조는 복수의 세그먼트(segment)들을 포함하고, 상기 세그먼트들의 각각은 각 개별적인(each respective) 블록에 속하는 픽셀들의 세트를 포함함 -;
각 세그먼트 내의 상기 픽셀들의 세트에 할당된 상기 코드들에 기반하여 상기 이미지의 상기 선택된 부분 내 각 스핀 휠 구조 내의 세그먼트들의 각각에 대한 히스토그램을 생성하는 단계; 및
상기 이미지의 상기 선택된 부분 내 각 스핀 휠 구조 내의 상기 세그먼트들과 연관된 히스토그램들로부터 상기 이미지의 상기 부분에 대한 연접된 히스토그램을 생성하는 단계
를 더 포함하는, 장치.
제6항에 있어서,
상기 방법은,
가우시안 필터를 사용하여 상기 얼굴 이미지를 전처리하는 단계
를 더 포함하는, 장치.
제7항에 있어서,
상기 이미지의 상기 선택된 부분 내의 각 픽셀에 대한 상기 코드된 출현값을 계산하는 단계는,
각 픽셀 주위의 상대적 정보를 통합함으로써 상기 이미지의 상기 선택된 부분 내의 각 픽셀에 대한 상기 코드를 계산하는 단계
를 포함하는, 장치.
컴퓨팅 디바이스(computing device)의 프로세서에 의해 실행될 때, 상기 컴퓨팅 디바이스가 방법을 수행하게 하는 실행가능 프로그램이 저장된 비일시적 컴퓨터 판독가능 저장 매체에 있어서,
상기 방법은,
얼굴 이미지로부터 서로 상이한 스케일들 및 방향들을 갖는 복수의 그라디언트 기반의 이미지들을 생성하는 단계;
상기 복수의 그라디언트 기반의 이미지들의 각각의 내에서 액션 단위에 상응하는 이미지의 부분을 선택하는 단계;
코드된 출현값들을 사용하여 상기 이미지의 상기 선택된 부분 내에서 적어도 한 번의 얼굴 이벤트의 출현을 결정하는 단계; 및
얼굴 표정 인식을 위한 각 액션 단위에 대한 특징 기술자를 획득하는 스핀 휠 구조를 사용하여 상기 이미지의 상기 선택된 부분 내에서 상기 적어도 한 번의 얼굴 이벤트의 기하를 결정하는 단계
를 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
제11항에 있어서,
상기 방법은,
이웃하는 픽셀들에 대한 각 픽셀의 상대적 세기에 기반하여 상기 이미지의 상기 선택된 부분 내의 각 픽셀에 대한 코드된 출현값을 계산하는 단계를 더 포함하고,
각 픽셀로 할당되는 상기 코드는 상기 적어도 한 번의 얼굴 이벤트의 상기 출현을 나타내는, 비일시적 컴퓨터 판독가능 저장 매체.
제 12항에 있어서,
상기 방법은,
상기 선택된 부분을 소정의 개수의 서로 상이한 모양들의 블록들로 분할하는 단계;
상기 블록들의 각각의 내에 스핀 휠 구조를 구성하는 단계 - 상기 스핀 휠 구조는 복수의 세그먼트들을 포함하고, 상기 세그먼트들의 각각은 각 개별적인 블록에 속하는 픽셀들의 세트를 포함함 -;
각 세그먼트 내의 상기 픽셀들의 세트에 할당된 상기 코드들에 기반하여 상기 이미지의 상기 선택된 부분 내 각 스핀 휠 구조 내의 세그먼트들의 각각에 대한 히스토그램을 생성하는 단계; 및
상기 이미지의 상기 선택된 부분 내 각 스핀 휠 구조 내의 상기 세그먼트들과 연관된 히스토그램들로부터 상기 이미지의 상기 부분에 대한 연접된 히스토그램을 생성하는 단계
를 더 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
제11항에 있어서,
상기 방법은,
가우시안 필터를 사용하여 상기 얼굴 이미지를 전처리하는 단계
를 더 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
제12항에 있어서,
상기 이미지의 상기 선택된 부분 내의 각 픽셀에 대한 코드된 출현값을 계산하는 단계는,
각 픽셀 주위의 상대적 정보를 통합함으로써 상기 이미지의 상기 선택된 부분 내의 각 픽셀에 대한 상기 코드를 계산하는 단계
를 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
이미지의 얼굴 표정을 인식하는 방법에 있어서,
상기 이미지로부터 복수의 그라디언트 기반의 이미지들을 생성하는 단계;
상기 복수의 그라디언트 기반의 이미지들 중 하나로부터, 액션 단위에 상응하는 부분을 선택하는 단계;
코드된 출현값들을 사용하여 상기 이미지의 상기 선택된 부분 내에서 적어도 한 번의 얼굴 이벤트의 출현을 프로세서에 의해 결정하는 단계; 및
상기 액션 단위에 대한 특징 기술자를 획득하는 스핀 휠 구조를 사용하여 상기 얼굴 이벤트의 기하를 결정하는 단계
를 포함하는, 이미지의 얼굴 표정을 인식하는 방법.
제16항에 있어서,
상기 방법을 구현하기 위한 프로그램을 저장하는, 비일시적 컴퓨터 판독가능 기록 매체.