KR20170031814A

KR20170031814A - 얼굴의 미세 표정 인식 방법 및 장치

Info

Publication number: KR20170031814A
Application number: KR1020150128752A
Authority: KR
Inventors: 노용만; 박성영; 이승호; 조인제; 이주현; 김형일
Original assignee: 한국과학기술원; 주식회사 테라클
Priority date: 2015-09-11
Filing date: 2015-09-11
Publication date: 2017-03-22
Also published as: WO2017043945A1

Abstract

본 발명에 따른 미세 표정 인식 방법 및 장치는, 복수의 얼굴 영상을 수신하고, 복수의 얼굴 영상 내의 미세 움직임을 선별적으로 확대하며, 확대된 복수의 얼굴 영상으로부터 얼굴 표정 특징 정보를 추출하고, 추출된 얼굴 표정 특징 정보에 기반하여 복수의 얼굴 영상의 미세 표정을 인식하는 것을 특징으로 한다.

Description

얼굴의 미세 표정 인식 방법 및 장치{METHOD AND APPARATUS FOR RECOGNIZING SUBTLE EXPRESSION OF FACE}

본 발명은 얼굴의 미세 표정 인식 방법 및 장치에 관한 것이다.

최근 사람의 표정을 인식하는 필요성이 IT 및 교육 분야에서 중요하게 대두되고 있다. 특히, 실생활에서 얼굴의 변화들을 인식하는 기술의 필요성이 요구되고 있다.

특히, 카메라에 의해 취득된 얼굴 비디오에서 시간에 따른 움직임 정보(예: 얼굴 움직임 정보)를 활용한 응용으로 인간의 감성을 인식하는 기술은 인간-컴퓨터 상호작용, 분위기 인식 등의 응용 분야의 핵심 기술로서 각광받고 있으며, 기본적으로 이러한 감성 인식은 표정 인식 기술에 의해 수행되고 있다.

본 발명은 실생활에서 사람들의 얼굴 표정을 인식함에 있어서 미세 표정 인식의 어려움을 해결하기 위하여 얼굴 미세 움직임을 학습함으로써 얼굴 미세 움직임 특성에 적응하는 증폭 주파수를 자동으로 선택하는 방법과 장치를 제공한다. 본 발명은 얼굴 영상 품질 측정에 기반한 효율적인 얼굴 인식 방법 및 장치를 제공한다.

본 발명에 따른 미세 표정 인식 장치는, 미세 표정 인식을 위한 복수의 얼굴 영상을 수신하는 입력부, 상기 복수의 얼굴 영상 내의 미세 움직임을 선별적으로 확대하는 적응적 움직임 증폭부, 상기 확대된 복수의 얼굴 영상으로부터 얼굴 표정 특징 정보를 추출하는 시공간적 특징 추출부와 상기 추출된 얼굴 표정 특징 정보에 기반하여 상기 복수의 얼굴 영상의 미세 표정을 인식하는 표정 인식부를 포함한다.

본 발명에 따른 미세 표정 인식 장치에 있어서, 상기 적응적 움직임 증폭부는, 상기 복수의 얼굴 영상으로부터 미세 움직임 특징을 추출하는 미세 움직임 특징 추출부, 상기 추출된 미세 움직임 특징에 기반하여 상기 복수의 얼굴 영상의 미세 움직임을 선별적으로 증폭하기 위한 증폭 주파수 범위를 추정하는 미세 움직임 증폭 주파수 추정부와 상기 추정된 증폭 주파수 범위에 기반하여 상기 복수의 얼굴 영상의 미세 움직임을 선별적으로 확대하는 미세 움직임 확대부를 포함한다.

본 발명에 따른 미세 표정 인식 장치에 있어서, 상기 미세 움직임 특징 추출부는, 상기 복수의 얼굴 영상 간의 픽셀 값 차이에 기초하여 상기 미세 움직임 특징을 추출한다.

본 발명에 따른 미세 표정 인식 장치에 있어서, 상기 미세 움직임 특징은 시간적으로 연속적인 얼굴 영상 간의 픽셀 값 차이로 구성되는 1차원 형태의 차분 시퀀스 또는 상기 시간적으로 연속적인 얼굴 영상 간의 차분을 통해 생성되는 2차원 형태의 차분 얼굴 영상 중 적어도 하나를 포함한다.

본 발명에 따른 미세 표정 인식 장치에 있어서, 미세 움직임 증폭 주파수 추정부는, 상기 추출된 미세 움직임 특징과 소정의 테이블 정보에 기초하여 상기 증폭 주파수 범위를 추정한다.

본 발명에 따른 미세 표정 인식 장치에 있어서, 상기 테이블 정보는 주파수 대역 클래스와 주파수 범위 간의 매핑 관계를 정의한다.

본 발명에 따른 미세 표정 인식 장치에 있어서, 미세 움직임 증폭 주파수 추정부는, 상기 추출된 미세 움직임 특징을 이용하여 상기 복수의 얼굴 영상에 관한 주파수 대역 클래스를 결정하고, 상기 소정의 테이블 정보로부터 상기 결정된 주파수 대역 클래스에 대응하는 주파수 범위를 선택하여 상기 증폭 주파수 범위를 추정한다.

본 발명에 따른 미세 표정 인식 방법은, 복수의 얼굴 영상을 수신하고, 상기 복수의 얼굴 영상 내의 미세 움직임을 선별적으로 확대하며, 상기 확대된 복수의 얼굴 영상으로부터 얼굴 표정 특징 정보를 추출하고, 상기 추출된 얼굴 표정 특징 정보에 기반하여 상기 복수의 얼굴 영상의 미세 표정을 인식한다.

본 발명에 따른 미세 표정 인식 방법에 있어서, 상기 확대하는 단계는, 상기 복수의 얼굴 영상으로부터 미세 움직임 특징을 추출하고, 상기 추출된 미세 움직임 특징에 기초하여, 상기 복수의 얼굴 영상의 미세 움직임을 선별적으로 확대하기 위한 증폭 주파수 범위를 추정하며, 상기 추정된 증폭 주파수 범위에 기초하여 상기 복수의 얼굴 영상의 미세 움직임을 확대한다.

본 발명에 따른 미세 표정 인식 방법에 있어서, 상기 미세 움직임 특징을 추출하는 단계는, 상기 복수의 얼굴 영상을 NxN 블록의 단위로 다운샘플링하고, 상기 다운샘플링된 복수의 얼굴 영상 간의 차분에 기반하여 복수의 차분 시퀀스를 생성하며, 상기 생성된 복수의 차분 시퀀스를 조합하여 전체 차분 시퀀스를 생성한다.

본 발명에 따른 미세 표정 인식 방법에 있어서, 상기 NxN 블록은 복수의 픽셀 값을 포함하며, 상기 NxN 블록에 포함된 복수의 픽셀 값은 하나의 픽셀 값으로 다운샘플링되고, 상기 다운샘플링된 하나의 픽셀 값은 상기 복수의 픽셀 값의 평균값으로 유도된다.

본 발명에 따른 미세 표정 인식 방법에 있어서, 상기 복수의 차분 시퀀스를 생성하는 단계는, 시간적으로 인접한 2개의 얼굴 영상 간의 픽셀 값 차이를 산출하고, 상기 산출된 픽셀 값 차이를 소정의 스캔 순서에 따라 순차적으로 배열하여 상기 차분 시퀀스를 생성한다.

본 발명에 따른 미세 표정 인식 방법에 있어서, 상기 전체 차분 시퀀스를 생성하는 단계는, 상기 전체 차분 시퀀스의 길이를 소정의 기준 길이(base length)에 따라 리사이징(resizing)한다.

본 발명에 따른 미세 표정 인식 방법에 있어서, 상기 증폭 주파수 범위는 상기 추출된 미세 움직임 특징과 소정의 테이블 정보에 기초하여 추정된다.

본 발명에 따른 미세 표정 인식 방법에 있어서, 상기 테이블 정보는 주파수 대역 클래스와 주파수 범위 간의 매핑 관계를 정의한 테이블을 의미한다.

본 발명에 따른 미세 표정 인식 방법에 있어서, 상기 테이블 정보는 선별적 미세 움직임 확대를 위해 이용 가능한 복수의 주파수 범위를 포함하고, 상기 주파수 대역 클래스는 각 주파수 범위를 식별하기 위한 인덱스를 의미한다.

본 발명에 따른 미세 표정 인식 방법에 있어서, 상기 증폭 주파수 범위를 추정하는 단계는, 상기 추출된 미세 움직임 특징을 이용하여 상기 복수의 얼굴 영상에 관한 주파수 대역 클래스를 결정하고, 상기 소정의 테이블 정보로부터 상기 결정된 주파수 대역 클래스에 대응하는 주파수 범위를 선택하여 상기 증폭 주파수 범위를 추정한다.

본 발명에 따른 미세 표정 인식 방법에 있어서, 상기 미세 움직임을 확대하는 단계는, 상기 증폭 주파수 범위 내의 주파수 성분에 대해서만 선별적으로 필터링을 수행하여 상기 미세 움직임을 확대한다.

본 발명에 의하면, 미세 움직임 증폭을 함에 있어서 수동적 방법을 해결하고 자동으로 얼굴 미세 움직임 특성에 적응적인 증폭 주파수를 선택함으로써 얼굴 움직임 및 텍스처의 분별력을 증대시키는 효과를 얻어 실생활에서 얼굴 표정 인식을 가능하게 한다.

도 1은 본 발명이 적용되는 일실시예로서, 미세 표정 인식 장치(100)를 개략적으로 도시한 것이다.
도 2는 본 발명이 적용되는 일실시예로서, 적응적 움직임 증폭부(300)의 개략적인 구성을 도시한 것이다.
도 3은 본 발명이 적용되는 일실시예로서, 미세 표정 인식 장치(100)에서 선별적 미세 움직임 증폭을 통해 얼굴 표정을 인식하는 방법을 도시한 것이다.
도 4는 본 발명이 적용되는 일실시예로서, 미세 움직임 특징 추출부(310)에서 미세 움직임 특징을 추출하는 방법을 도시한 것이다.

이하 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.　 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니하며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.

본 명세서에서 어떤 구성 요소가 다른 구성 요소에 “연결되어” 있다거나 “접속되어” 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있는 것을 의미할 수도 있고, 중간에 다른 구성 요소가 존재하는 것을 의미할 수도 있다. 아울러, 본 명세서에서 특정 구성을 “포함”한다고 기술하는 내용은 해당 구성 이외의 구성을 배제하는 것이 아니며, 추가적인 구성이 본 발명의 실시 또는 본 발명의 기술적 사상의 범위에 포함될 수 있음을 의미한다.

제1, 제2 등의 용어는 다양한 구성들을 설명하는데 사용될 수 있지만, 상기 구성들은 상기 용어에 의해 한정되지 않는다. 상기 용어들은 하나의 구성을 다른 구성으로부터 구별하는 목적으로 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성은 제2 구성으로 명명될 수 있고, 유사하게 제2 구성도 제1 구성으로 명명될 수 있다.

또한, 본 발명의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성 단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 포함한 것으로 각 구성부 중 적어도 두 개의 구성부가 하나의 구성부를 이루거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있다. 각 구성부의 통합된 실시예 및 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리 범위에 포함된다.

또한, 일부의 구성 요소는 본 발명에서 본질적인 기능을 수행하는 필수적인 구성 요소는 아니고 단지 성능을 향상시키기 위한 선택적 구성 요소일 수 있다. 본 발명은 단지 성능 향상을 위해 사용되는 구성 요소를 제외한 본 발명의 본질을 구현하는데 필수적인 구성부만을 포함하여 구현될 수 있고, 단지 성능 향상을 위해 사용되는 선택적 구성 요소를 제외한 필수 구성 요소만을 포함한 구조도 본 발명의 권리범위에 포함된다.

도 1은 본 발명이 적용되는 일실시예로서, 미세 표정 인식 장치(100)를 개략적으로 도시한 것이다.

도 1을 참조하면, 미세 표정 인식 장치(100)는 입력부(200), 적응적 움직임 증폭부(300), 시공간적 특징 추출부(400) 또는 표정 인식부(500) 중 적어도 하나를 포함할 수 있다.

여기서, 입력부(200)는 표정 인식을 위한 적어도 하나의 얼굴 영상을 수신할 수 있다. 여기서, 얼굴 영상은 적어도 하나의 카메라에 의해 일정 시간 간격으로 연속적으로 촬영된 것일 수 있다.

적응적 움직임 증폭부(300)는 입력부(200)를 통해 수신된 얼굴 영상으로부터 미세 표정 또는 미세 움직임에 관한 특징(이하, 미세 움직임 특징이라 함)을 추출할 수 있다. 미세 움직임 특징은 연속적인 얼굴 영상 간의 픽셀 값 차이에 기초하여 추출될 수 있다. 적응적 움직임 증폭부(300)는 상기 추출된 미세 움직임 특징에 기반하여 미세 움직임을 선별적으로 증폭 또는 확대하기 위한 증폭 주파수 범위를 추정하고, 추정된 주파수 범위에 속하는 특정 성분만을 증폭하여 얼굴 영상 내의 미세 움직임을 선별적으로 확대할 수 있다. 적응적 움직임 증폭부(300)에서의 미세 움직임 특징 추출 방법, 미세 움직임 특징에 기반한 증폭 주파수 범위 추정 방법 그리고 미세 움직임을 선별적으로 확대하는 방법에 대해서는 도 2를 참조하여 자세히 살펴 보기로 한다.

시공간적 특징 추출부(400)는 적응적 움직임 증폭부(300)에 의해서 확대된 얼굴 영상으로부터 얼굴 표정 특징 정보를 추출할 수 있다. 여기서, 얼굴 표정 특징 정보는 얼굴에 포함된 특정 객체에 관한 위치 및/또는 크기 정보, 해당 객체가 얼굴에서 차지하는 비율 정보, 특정 객체 및/또는 특정 객체 주변의 텍스처 정보(texture information) 또는 뎁스 정보(depth information)와 같은 공간적 얼굴 표정 특징 정보가 포함될 수 있다. 또한, 얼굴에 포함된 특정 객체의 미세 움직임 변화량에 관한 정보(예를 들어, 변이 벡터의 크기 및/또는 방향, 픽셀 값 변화량 등)와 같은 시간적 얼굴 표정 특징 정보가 포함될 수도 있다.

표정 인식부(500)는 상기 추출된 얼굴 표정 특징 정보를 입력으로 하는 기-설정된 분류 알고리즘에 기반하여 얼굴 영상에 나타난 미세 표정을 인식할 수 있다.

도 2는 본 발명이 적용되는 일실시예로서, 적응적 움직임 증폭부(300)의 개략적인 구성을 도시한 것이다.

도 2를 참조하면, 적응적 움직임 증폭부(300)는 미세 움직임 특징 추출부(310), 미세 움직임 증폭 주파수 추정부(320) 및 미세 움직임 확대부(330)를 포함할 수 있다.

미세 움직임 특징 추출부(310)는 시간적으로 연속적인 얼굴 영상 간의 픽셀 값 차이에 기반하여 미세 움직임 특징을 추출할 수 있다.

예를 들어, 시간적으로 상호 인접한 2개의 얼굴 영상 즉, 제1 얼굴 영상과 제2 얼굴 영상 간의 차분을 통해 1차원 형태의 차분 시퀀스를 생성할 수 있다. 제1 얼굴 영상과 제2 얼굴 영상 간의 차분 연산은 소정의 스캔 순서에 따라 순차적으로 수행될 수 있다. 여기서, 소정의 스캔 순서는 수평 스캔, 수직 스캔 또는 대각선 스캔 중 어느 하나를 의미할 수 있다. 상술한 스캔 순서 중 어느 하나가 미세 움직임 특징 추출부(310)에 기 설정되어 고정적으로 이용될 수도 있고, 사용자 지정에 의해서 어느 하나가 선택적으로 이용될 수도 있다. 얼굴 영상의 특성(예를 들어, 얼굴 영상 내 얼굴의 위치 또는 방향)을 고려하여 상기 복수의 스캔 순서 중 어느 하나가 선택적으로 이용될 수도 있다.

또는, 제1 얼굴 영상과 제2 얼굴 영상을 NxN 블록 단위(N은 1보다 큰 자연수)로 다운샘플링하고, 다운샘플링된 제1 얼굴 영상과 제2 얼굴 영상 간의 차분을 통해 1차원 형태의 차분 시퀀스를 생성할 수도 있다.

얼굴 영상의 다운샘플링을 위해 각 얼굴 영상을 NxN 블록 단위로 분할할 수 있다. NxN 블록의 크기는 기-설정된 것일 수도 있고, 입력부(200)를 통해 수신되는 얼굴 영상의 크기에 따라 가변적으로 결정될 수도 있다. 또는, 사용자 지정에 의해서 NxN 블록의 크기는 가변적으로 결정될 수도 있으며, 이를 통해 증폭 주파수 추정의 정확도를 적응적으로 조절할 수도 있다.

분할된 각각의 NxN 블록은 복수의 픽셀 값을 포함하며, NxN 블록에 포함된 복수의 픽셀 값을 하나의 픽셀 값으로 다운샘플링할 수 있다. 여기서, 다운샘플링된 하나의 픽셀 값은 복수의 픽셀 값의 평균값으로 유도될 수도 있고, 복수의 픽셀 값 중 최대값, 최소값, 최빈값 등으로 유도될 수도 있다. 또는, 다운샘플링된 하나의 픽셀 값은 NxN 블록 내 소정의 위치에 해당하는 픽셀 값으로 유도될 수 있다. 여기서, 소정의 위치는 NxN 블록의 좌-상단, 우-상단, 좌-하단, 우-하단 위치 중 어느 하나를 의미할 수도 있고, NxN 블록의 중심 위치를 의미할 수도 있다.

상술한 방식에 의해 생성된 1차원 형태의 차분 시퀀스는 시간적으로 상호 인접한 2개의 얼굴 영상 단위로 생성될 수 있다. 즉, i번째 얼굴 영상과 (i+1)번째 얼굴 영상 간의 차분을 통해 i번째 차분 시퀀스가 생성되고, (i+1)번째 얼굴 영상과 (i+2)번째 얼굴 영상 간의 차분을 통해 (i+1)번째 차분 시퀀스가 생성될 수 있다. 이때 i번째 차분 시퀀스와 (i+1)번째 차분 시퀀스는 서로 디펜던시(dependency)없이 독립적 또는 병렬적으로 생성될 수 있다.

입력부(200)를 통해 수신되는 복수의 얼굴 영상에 대해 복수의 차분 시퀀스가 생성될 수 있고, 복수의 차분 시퀀스를 조합하여 미세 움직임 특징을 추출할 수 있다. 예를 들어, M개의 얼굴 영상이 수신되는 경우, (M-1)개의 차분 시퀀스가 생성될 수 있다. (M-1)개의 차분 시퀀스를 시간 순서대로 배열하여 하나의 차분 시퀀스를 생성하고, 이를 미세 움직임 특징으로 이용할 수 있다.

상기 (M-1)개의 차분 시퀀스를 조합하여 생성되는 하나의 차분 시퀀스(이하, 전체 차분 시퀀스라 함)의 길이는 입력부(200)를 통해 수신된 얼굴 영상의 개수 또는 얼굴 영상을 분할하는 NxN 블록의 크기 중 적어도 하나에 기초하여 가변적으로 결정될 수 있다. 상기 전체 차분 시퀀스의 길이는 미세 움직임 특징 추출부(310)에 설정된 소정의 길이에 맞추어 리사이징(resizing)될 수도 있다. 여기서, 소정의 길이는 고정된 값의 기준 길이(base length)를 의미할 수도 있고, 수신되는 얼굴 영상의 개수 또는 얼굴 영상을 분할하는 NxN 블록의 크기 중 적어도 하나에 기초하여 결정되는 가변적인 값의 기준 길이를 의미할 수도 있다.

예를 들어, 상기 전체 차분 시퀀스의 길이가 기준 길이보다 작은 경우에는 보간(interpolation)을 통해 기준 길이와 동일하게 상기 전체 차분 시퀀스의 길이를 리사이징할 수 있다. 반대로, 상기 전체 차분 시퀀스의 길이가 기준 길이보다 큰 경우에는 다운샘플링(down-sampling)을 통해 기준 길이와 동일하게 상기 전체 차분 시퀀스의 길이를 리사이징할 수 있다.

미세 움직임 증폭 주파수 추정부(320)는 선별적 미세 움직임 확대를 위한 주파수 범위(이하, 증폭 주파수 범위라 함)를 추정할 수 있다. 증폭 주파수 범위는 미세 움직임 특징 추출부(310)에서 추출된 미세 움직임 특징과 소정의 테이블 정보에 기초하여 추정될 수 있다. 여기서, 소정의 테이블 정보는 주파수 대역 클래스(frequency band class)와 주파수 범위(frequency range) 간의 매핑 관계를 정의한 테이블을 의미할 수 있다. 상기 테이블 정보는 선별적 미세 움직임 확대를 위해 이용 가능한 복수의 주파수 범위를 포함하며, 주파수 대역 클래스는 각 주파수 범위를 식별하기 위한 인덱스를 의미할 수 있다. 예를 들어, 테이블 정보는 표 1과 같이 구성될 수 있다.

주파수 대역 클래스(f)	주파수 범위 (Hz)
1	0.1~3.0
2	1.0~4.5
3	2.5~6.0
4	4.0~7.5
5	5.5~10.0

표 1에 따르면, 주파수 범위를 5단계로 나누어 5개의 주파수 대역 클래스 중 어느 하나를 선택할 수 있다. 다만, 이는 일실시예에 불과하며, 테이블 정보에 포함되는 주파수 대역 클래스 또는 주파수 범위의 개수는 5개보다 작을 수도 있고, 보다 더 세분화하여 5개보다 클 수도 있다. 이러한 테이블 정보는 훈련 얼굴 영상(training face image)으로부터 미세 움직임과 주파수 간의 상관 관계를 추정하여 결정된 것일 수 있다.

증폭 주파수 범위를 추정하는 방법에 대해서 살펴 보면, 먼저 미세 움직임 특징 추출부(310)에서 추출된 미세 움직임 특징(iv)을 이용하여 주파수 대역 클래스(f)를 결정할 수 있다. 예를 들어, 미세 움직임 특징을 입력하는 다음 수학식 1에 따라 주파수 대역 클래스를 결정할 수 있다.

상기 수학식 1에서 f는 주파수 대역 클래스를 의미하고, P_f(iv)는 f번째 주파수 범위에 관한 미세 움직임 특징(iv)에 대해서 서포트 벡터 머신(support vector machine (SVM)) 기반의 신뢰성 값을 산출하는 함수를 의미할 수 있다.

상기 결정된 주파수 대역 클래스(f)에 대응하는 주파수 범위를 상술한 소정의 테이블 정보로부터 선택하여 증폭 주파수 범위를 추정할 수 있다.

미세 움직임 확대부(330)는 각 픽셀에서 증폭 주파수 범위 내의 주파수 성분에 대해서 필터링을 수행하여 미세 움직임을 확대할 수 있다. 상기 필터링 과정에서는 추정된 증폭 주파수 범위에 대응하는 시간적 밴드패스 필터(temporal band-pass filter)가 이용될 수 있다.

도 3은 본 발명이 적용되는 일실시예로서, 미세 표정 인식 장치(100)에서 선별적 미세 움직임 증폭을 통해 얼굴 표정을 인식하는 방법을 도시한 것이다.

도 3을 참조하면, 복수의 얼굴 영상을 수신할 수 있다(S300). 여기서, 얼굴 영상은 적어도 하나의 카메라에 의해 일정 시간 간격으로 연속적으로 촬영된 것일 수 있다.

상기 수신된 복수의 얼굴 영상으로부터 미세 움직임 특징을 추출할 수 있다(S310).

상기 미세 움직임 특징은 복수의 얼굴 영상 중 시간적으로 연속한 얼굴 영상 간의 픽셀 값 차이에 기초하여 추출될 수 있다. 구체적으로, 상기 미세 움직임 특징은 시간적으로 연속한 얼굴 영상 간의 픽셀 값 차이로 구성되는 1차원 형태의 차분 시퀀스를 포함할 수 있다. 다만, 이에 한정되지 아니하며, 상기 미세 움직임 특징은 시간적으로 연속한 얼굴 영상 간의 차분을 통해 생성되는 2차원 형태의 차분 얼굴 영상을 포함할 수도 있다. 상기 픽셀 값 차이는 얼굴 영상의 픽셀 단위로 산출될 수도 있고, 소정의 NxN 블록 단위로 산출될 수도 있다. 상기 미세 움직임 특징을 추출하는 구체적인 과정에 대해서는 도 4를 참조하여 살펴 보기로 한다.

상기 추출된 미세 움직임 특징에 기초하여 상기 복수의 얼굴 영상의 미세 움직임을 확대하기 위한 증폭 주파수 범위를 추정할 수 있다(S320).

구체적으로, 증폭 주파수 범위는 S310 단계에서 추출된 미세 움직임 특징과 소정의 테이블 정보에 기초하여 추정될 수 있다. 여기서, 소정의 테이블 정보는 주파수 대역 클래스(frequency band class)와 주파수 범위(frequency range) 간의 매핑 관계를 정의한 테이블을 의미할 수 있다. 상기 테이블 정보는 선별적 미세 움직임 확대를 위해 이용 가능한 복수의 주파수 범위를 포함하며, 주파수 대역 클래스는 각 주파수 범위를 식별하기 위한 인덱스를 의미할 수 있음은 앞서 살펴 본 바와 같다.

상기 S310 단계에서 추출된 미세 움직임 특징을 이용하여 주파수 대역 클래스를 결정할 수 있다. 예를 들어, 도 2에서 상술한 바와 같이 미세 움직임 특징(iv)을 입력하는 수학식 1에 따라 주파수 대역 클래스(f)가 결정될 수 있다.

상기 S320 단계에서 추정된 증폭 주파수 범위에 기초하여 복수의 얼굴 영상의 미세 움직임을 확대할 수 있다(S330).

구체적으로, 각 픽셀에서 증폭 주파수 범위 내의 주파수 성분에 대해서만 선별적으로 필터링을 수행하여 미세 움직임을 확대할 수 있다. 상기 필터링 과정에서는 S320 단계에서 추정된 증폭 주파수 범위에 대응하는 시간적 밴드패스 필터(temporal band-pass filter)가 이용될 수 있다.

S330 단계에서 확대된 복수의 얼굴 영상으로부터 얼굴 표정 특징 정보를 추출할 수 있다(S340).

여기서, 얼굴 표정 특징 정보는 얼굴에 포함된 특정 객체에 관한 위치 및/또는 크기 정보, 해당 객체가 얼굴에서 차지하는 비율 정보, 특정 객체 및/또는 객체 주변의 텍스처 정보(texture information) 또는 뎁스 정보(depth information)와 같은 공간적 얼굴 표정 특징 정보가 포함될 수 있다. 또한, 얼굴에 포함된 특정 객체의 미세 움직임 변화량에 관한 정보(예를 들어, 변이 벡터의 크기 및/또는 방향, 픽셀 값 변화량 등)와 같은 시간적 얼굴 표정 특징 정보가 포함될 수도 있다.

S340 단계에서 추출된 얼굴 표정 특징 정보에 기초하여 복수의 얼굴 영상의 미세 표정을 인식할 수 있다(S350).

도 4는 본 발명이 적용되는 일실시예로서, 미세 움직임 특징 추출부(310)에서 미세 움직임 특징을 추출하는 방법을 도시한 것이다.

복수의 얼굴 영상을 NxN 블록 단위로 다운샘플링할 수 있다(S400).

구체적으로, 복수의 얼굴 영상 각각을 NxN 블록 단위로 분할할 수 있다. NxN 블록의 크기는 기-설정된 것일 수도 있고, 입력부(200)를 통해 수신되는 얼굴 영상의 크기에 따라 가변적으로 결정될 수도 있다. 또는, 사용자 지정에 의해서 NxN 블록의 크기는 가변적으로 결정될 수도 있으며, 이를 통해 주파수 범위 추정의 정확도를 적응적으로 조절할 수도 있다.

상기 다운샘플링된 복수의 얼굴 영상 간의 차분에 기반하여 복수의 차분 시퀀스를 생성할 수 있다(S410).

예를 들어, 시간적으로 상호 인접한 2개의 얼굴 영상 즉, i번째 얼굴 영상과 (i+1)번째 얼굴 영상 간의 픽셀 값 차이를 산출하고, 이를 소정의 스캔 순서에 따라 순차적으로 배열하여 i번째 차분 시퀀스를 생성할 수 있다.

마찬가지로, (i+1)번째 얼굴 영상과 (i+2)번째 얼굴 영상 간의 픽셀 값 차이를 산출하고, 이를 소정의 스캔 순서에 따라 순차적으로 배열하여 (i+1)번째 차분 시퀀스를 생성할 수 있다. 이때 i번째 차분 시퀀스와 (i+1)번째 차분 시퀀스는 서로 디펜던시(dependency)없이 독립적 또는 병렬적으로 생성될 수 있다.

상기 소정의 스캔 순서는 수평 스캔, 수직 스캔 또는 대각선 스캔 중 어느 하나를 의미할 수 있다. 상술한 스캔 순서 중 어느 하나가 미세 움직임 특징 추출부(310)에 기 설정되어 고정적으로 이용될 수도 있고, 사용자 지정에 의해서 어느 하나가 선택적으로 이용될 수도 있다. 얼굴 영상의 특성(예를 들어, 얼굴 영상 내 얼굴의 위치 또는 방향)을 고려하여 상기 복수의 스캔 순서 중 어느 하나가 선택적으로 이용될 수도 있다.

상기 생성된 복수의 차분 시퀀스를 조합하여 전체 차분 시퀀스를 생성할 수 있다(S420).

구체적으로, 상기 생성된 복수의 차분 시퀀스를 시간 순서대로 배열하여 전체 차분 시퀀스를 생성할 수 있다.

또한, 전체 차분 시퀀스의 길이는 입력부(200)를 통해 수신된 얼굴 영상의 개수 또는 얼굴 영상을 분할하는 NxN 블록의 크기 중 적어도 하나에 기초하여 가변적으로 결정될 수 있다. 따라서, 상기 전체 차분 시퀀스의 길이는 미세 움직임 특징 추출부(310)에 설정된 소정의 길이에 맞추어 리사이징(resizing) 과정을 더 수행할 수도 있다. 여기서, 소정의 길이는 고정된 값의 기준 길이(base length)를 의미할 수도 있고, 수신되는 얼굴 영상의 개수 또는 얼굴 영상을 분할하는 NxN 블록의 크기 중 적어도 하나에 기초하여 결정되는 가변적인 값의 기준 길이를 의미할 수도 있다.

Claims

미세 표정 인식을 위한 복수의 얼굴 영상을 수신하는 입력부;
상기 복수의 얼굴 영상 내의 미세 움직임을 선별적으로 확대하는 적응적 움직임 증폭부;
상기 확대된 복수의 얼굴 영상으로부터 얼굴 표정 특징 정보를 추출하는 시공간적 특징 추출부; 및
상기 추출된 얼굴 표정 특징 정보에 기반하여 상기 복수의 얼굴 영상의 미세 표정을 인식하는 표정 인식부를 포함하는 미세 표정 인식 장치.
제1항에 있어서, 상기 적응적 움직임 증폭부는,
상기 복수의 얼굴 영상으로부터 미세 움직임 특징을 추출하는 미세 움직임 특징 추출부;
상기 추출된 미세 움직임 특징에 기반하여 상기 복수의 얼굴 영상의 미세 움직임을 선별적으로 증폭하기 위한 증폭 주파수 범위를 추정하는 미세 움직임 증폭 주파수 추정부; 및
상기 추정된 증폭 주파수 범위에 기반하여 상기 복수의 얼굴 영상의 미세 움직임을 선별적으로 확대하는 미세 움직임 확대부를 포함하는 미세 표정 인식 장치.
제2항에 있어서, 상기 미세 움직임 특징 추출부는,
상기 복수의 얼굴 영상 간의 픽셀 값 차이에 기초하여 상기 미세 움직임 특징을 추출하는 미세 표정 인식 장치.
제3항에 있어서, 상기 미세 움직임 특징은,
시간적으로 연속적인 얼굴 영상 간의 픽셀 값 차이로 구성되는 1차원 형태의 차분 시퀀스 또는 상기 시간적으로 연속적인 얼굴 영상 간의 차분을 통해 생성되는 2차원 형태의 차분 얼굴 영상 중 적어도 하나를 포함하는 미세 표정 인식 장치.
제2항에 있어서, 미세 움직임 증폭 주파수 추정부는,
상기 추출된 미세 움직임 특징과 소정의 테이블 정보에 기초하여 상기 증폭 주파수 범위를 추정하는 미세 표정 인식 장치.
제5항에 있어서, 상기 테이블 정보는 주파수 대역 클래스와 주파수 범위 간의 매핑 관계를 정의한 테이블인 미세 표정 인식 장치.
제6항에 있어서, 미세 움직임 증폭 주파수 추정부는,
상기 추출된 미세 움직임 특징을 이용하여 상기 복수의 얼굴 영상에 관한 주파수 대역 클래스를 결정하고, 상기 소정의 테이블 정보로부터 상기 결정된 주파수 대역 클래스에 대응하는 주파수 범위를 선택하여 상기 증폭 주파수 범위를 추정하는 미세 표정 인식 장치.
복수의 얼굴 영상을 수신하는 단계;
상기 복수의 얼굴 영상 내의 미세 움직임을 선별적으로 확대하는 단계;
상기 확대된 복수의 얼굴 영상으로부터 얼굴 표정 특징 정보를 추출하는 단계; 및
상기 추출된 얼굴 표정 특징 정보에 기반하여 상기 복수의 얼굴 영상의 미세 표정을 인식하는 단계를 포함하는 미세 표정 인식 방법.
제8항에 있어서, 상기 확대하는 단계는,
상기 복수의 얼굴 영상으로부터 미세 움직임 특징을 추출하는 단계;
상기 추출된 미세 움직임 특징에 기초하여, 상기 복수의 얼굴 영상의 미세 움직임을 선별적으로 확대하기 위한 증폭 주파수 범위를 추정하는 단계; 및
상기 추정된 증폭 주파수 범위에 기초하여 상기 복수의 얼굴 영상의 미세 움직임을 확대하는 단계를 포함하는 미세 표정 인식 방법.
제9항에 있어서, 상기 미세 움직임 특징을 추출하는 단계는,
상기 복수의 얼굴 영상을 NxN 블록의 단위로 다운샘플링하는 단계;
상기 다운샘플링된 복수의 얼굴 영상 간의 차분에 기반하여 복수의 차분 시퀀스를 생성하는 단계; 및
상기 생성된 복수의 차분 시퀀스를 조합하여 전체 차분 시퀀스를 생성하는 단계를 포함하는 미세 표정 인식 방법.
제10항에 있어서,
상기 NxN 블록은 복수의 픽셀 값을 포함하며, 상기 NxN 블록에 포함된 복수의 픽셀 값은 하나의 픽셀 값으로 다운샘플링되고, 상기 다운샘플링된 하나의 픽셀 값은 상기 복수의 픽셀 값의 평균값으로 유도되는 미세 표정 인식 방법.
제11항에 있어서, 상기 복수의 차분 시퀀스를 생성하는 단계는,
시간적으로 인접한 2개의 얼굴 영상 간의 픽셀 값 차이를 산출하는 단계; 및
상기 산출된 픽셀 값 차이를 소정의 스캔 순서에 따라 순차적으로 배열하여 상기 차분 시퀀스를 생성하는 단계를 포함하는 미세 표정 인식 방법.
제12항에 있어서, 상기 전체 차분 시퀀스를 생성하는 단계는,
상기 전체 차분 시퀀스의 길이를 소정의 기준 길이(base length)에 따라 리사이징(resizing)하는 단계를 포함하는 미세 표정 인식 방법.
제9항에 있어서, 상기 증폭 주파수 범위는 상기 추출된 미세 움직임 특징과 소정의 테이블 정보에 기초하여 추정되는 미세 표정 인식 방법.
제14항에 있어서, 상기 테이블 정보는 주파수 대역 클래스와 주파수 범위 간의 매핑 관계를 정의한 테이블을 의미하는 미세 표정 인식 방법.
제15항에 있어서, 상기 테이블 정보는 선별적 미세 움직임 확대를 위해 이용 가능한 복수의 주파수 범위를 포함하고, 상기 주파수 대역 클래스는 각 주파수 범위를 식별하기 위한 인덱스를 의미하는 미세 표정 인식 방법.
제16항에 있어서, 상기 증폭 주파수 범위를 추정하는 단계는,
상기 추출된 미세 움직임 특징을 이용하여 상기 복수의 얼굴 영상에 관한 주파수 대역 클래스를 결정하는 단계; 및
상기 소정의 테이블 정보로부터 상기 결정된 주파수 대역 클래스에 대응하는 주파수 범위를 선택하여 상기 증폭 주파수 범위를 추정하는 단계를 포함하는 미세 표정 인식 방법.
제9항에 있어서, 상기 미세 움직임을 확대하는 단계는,
상기 증폭 주파수 범위 내의 주파수 성분에 대해서만 선별적으로 필터링을 수행하여 상기 미세 움직임을 확대하는 미세 표정 인식 방법.