KR101994390B1

KR101994390B1 - 가중치 보간 맵을 이용한 표정 합성 장치 및 방법

Info

Publication number: KR101994390B1
Application number: KR1020150190491A
Authority: KR
Inventors: 최상일; 이용걸
Original assignee: 단국대학교 산학협력단
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2019-06-28
Also published as: KR20170079680A; WO2017115937A1

Abstract

무표정 얼굴 영상과 다양한 표정 변이를 포함한 영상 간에 표준편차를 사용하여 각 픽셀의 가중치 값을 반영한 가중치 보간 맵(WIM)을 통해 무표정 영상에 표정을 합성하도록 한 가중치 보간 맵을 이용한 표정 합성 장치 및 방법을 제시한다. 제시된 가중치 보간 맵을 이용한 표정 합성 장치는 무표정 영상 및 표정 영상을 수집하여 학습 셋을 생성하고, 학습 셋을 근거로 가중치 보간 맵을 생성하는 가중치 보간 맵 생성부 및 학습 셋으로부터 타깃 표정 학습 영상을 검출하고, 가중치 보간 맵 생성부에서 생성한 가중치 보간 맵 및 타깃 표정 학습 영상을 근거로 입력되는 무표정 얼굴 영상에 표정을 합성하여 표정 합성 영상을 생성하는 표정 합성부를 포함한다.

Description

가중치 보간 맵을 이용한 표정 합성 장치 및 방법{APPARATUS AND METHOD FOR SYNTHESIZING FACIAL EXPRESSION USING WEIGHTED INTERPOLATION MAP}

본 발명은 가중치 보간 맵을 이용한 표정 합성 장치 및 방법에 관한 것으로, 더욱 상세하게는 무표정 얼굴 이미지에 표정을 합성하여 표정 얼굴 이미지를 생성하는 가중치 보간 맵을 이용한 표정 합성 장치 및 방법에 관한 것이다.

최근 생체 정보를 이용한 인증 시스템(authentication system)이 많은 관심을 받고 있다. 생체 정보를 이용한 인증 시스템은 지문, 홍체, 정맥, 음성, 얼굴 등의 생체 정보를 이용하여 사용자 본인 여부에 대한 인증을 수행한다.

특히, 얼굴 인증(face authentication) 방법은 다른 생체 정보 기반의 인증 방법에 비해 사용자 거부감이 비교적 적다는 장점으로 인해, 보안, 감시를 비롯하여 스마트 카드 인증 시스템(smart card authentication system), 생체 여권 시스템(biometric passport system) 등과 같이 다양한 시스템에 적용되고 있다.

그러나, 얼굴 인증을 위한 인증 시스템에 저장되어 있는 영상은 제한적인데 반해, 인증 시점에 카메라로부터 입력된 영상은 표정, 조명, 포즈, 화장, 시간, 액세서리 등에 따른 얼굴의 변화 등으로 인해 같은 사람의 영상이라고 할지라도 인증 시스템에 저장된 영상과의 차이가 클 수 있어 인식률이 저하되는 문제점이 있다.

얼굴 내 존재하는 수많은 근육의 변화들로부터 높은 자유도(degree of freedom)를 갖는 표정 변이는 얼굴 인식 시스템에서 인식 성능을 떨어뜨리는 주요 요소 가운데 하나로서, 이를 해결하기 위해 많은 방법들이 제안되고 있다.

일례로, 표정 합성 방법(Facial Expression Synthesis, FES)은 수집된 무표정 영상(neutral face)으로부터 웃음(smile), 놀람(surprise), 역겨움(disgust), 슬픔(sad), 윙크(wink), 공포(fear) 그리고 화남(angry) 등의 표정을 합성한다.

다른 일례로, ERI(Expression Ratio Image) 방법은 얼굴로부터 다양한 특징점을 추출하고 정규화된 얼굴 템플릿에 맵핑(mapping)하는 기하학적 와핑(geometric warping) 방법이다.

이를 위해, ERI 방법에서는 미리 수집된 무표정 얼굴 영상 A와 그에 일치하는 표정 영상 A', 입력된 무표정 영상 B로부터 새롭게 생성할 표정 영상 B'를 정의한다.

또한, ERI 방법에서는 하기 수학식 1의 연산을 통해 주름 등과 같은 미세한 얼굴 변형이 반영된 표정 영상 B'의 좌표 (u,v)의 밝기값을 구함으로써 얼굴 표정 영상을 생성한다.

또 다른 일례로, Abboud 방법은 AAM(Active Appearance Model)을 이용한 얼굴 형상(face appearance) 기반의 얼굴 합성 방법이다. 이때, Abboud 방법은 FES 방법을 위해 입력된 영상에서 AMM을 이용하여 모양(shape) 정보와 질감(texture) 정보를 학습 영상에 매핑함으로써 새로운 얼굴 표정 영상을 생성한다.

다른 한편으로, 회귀 분석(regression analysis) 기반 방법들은 수집된 얼굴 영상 셋 X에서 Y로 변환할 수 있는 행렬 R로부터 임의의 입력 영상이 들어왔을 경우 표정 변이가 포함된 Z를 추정하는데 초점을 둔다. 즉, 회귀 분석 기반 방법에서는 목적함수(argmin_R||Y-RX||)가 최소가 되게 하는 최적의 변환 행렬 R을 찾기 위해 YX^T(XX^T)^-1를 사용한다.

그러나, 회귀 분석 기반 방법은 수집 영상의 차원 대비 수집 영상의 개수가 작음으로써 발생하는 계수 부족(rank deficient)으로 인해 행렬의 특이성(singularity)이 발생하는 문제점이 있다.

이러한 문제를 해결하기 위해 PCA(Principal Component Analysis)와 KPCA(Kernel Principal Component Analysis) 등의 차원 축소 방법들이 제안되었다.

특히, BKRRR(Bilinear Kernel Reduced Rank Regression) 방법은 커널 매핑을 통해 표정 영상을 생성하는 방법을 제안하였다. 먼저, BKRRR 방법은 선형(linear), 가우시안(gaussian), soft-max 등의 커널 매핑을 통해 주름이나 안경 등의 개인의 정보가 상실된 표정 영상과 개인 고유 정보를 보존하는 기하학적 얼굴 영상(geometrically normalized face)을 각각 생성한다. 마지막으로, BKRRR 방법은 각각의 얼굴 영상에 2중 선형(bilinear)의 가중치를 적용함으로써 최종적인 얼굴 표정 영상을 생성한다.

하지만, BKRRR 방법은 높은 얼굴 표정 합성 성능을 보이는 반면, 표정 영상 합성 과정이 매우 복잡한 문제점이 있다.

한편, 종래의 FES 방법들은 표정 변이로 인해 발생하는 주름(wrinkle)과 같은 미세한 얼굴 변형(subtle facial deformation)을 반영하기 어려운 문제점이 있다.

또한, 종래의 FES 방법들은 안경(glasses), 점(mole), 여드름(pimple) 그리고 수염(beard) 등의 개인 고유의 정보를 보존하기 어려운 문제점이 있다.

또한, 종래의 FES 방법들은 얼굴 정렬이 부정확하게 수행될 경우 정확한 합성 결과를 기대하기 힘들기 때문에 높은 성능의 얼굴 좌표 검출기가 필요한 문제점이 있다.

또한, 종래의 FES 방법들은 비선형(non-linear) 구조를 갖는 무표정 영상과 표정 영상 사이에서 정확히 동작하기 어려운 문제점이 있다.

또한, 종래의 FES 방법들은 수집 영상의 차원 대비 수집 영상의 개수가 작음으로써 발생하는 계수 부족(rank deficient)으로 인해 행렬의 특이성(singularity)이 발생하는 문제점이 있다.

또한, 종래의 FES 방법들은 행렬의 특이성 발생을 방지하기 위해 커널을 이용한 맵핑 방법을 이용하는 경우 최적화된 커널(kernel)과 변수(parameter)를 선택하기 어려운 문제점이 있다.

한국등록특허 제10-1326691호(명칭: 지역적 특징의 통계적 학습을 통한 강건한 얼굴인식방법)

본 발명은 상기한 종래의 문제점을 해결하기 위해 제안된 것으로, 무표정 얼굴 영상과 다양한 표정 변이를 포함한 영상 간에 표준편차를 사용하여 각 픽셀의 가중치 값을 반영한 가중치 보간 맵(WIM)을 통해 무표정 영상에 표정을 합성하도록 한 가중치 보간 맵을 이용한 표정 합성 장치 및 방법을 제공하는 것을 목적으로 한다.

상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 가중치 보간 맵을 이용한 표정 합성 장치는, 무표정 영상 및 표정 영상을 수집하여 학습 셋을 생성하고, 학습 셋을 근거로 가중치 보간 맵을 생성하는 가중치 보간 맵 생성부 및 학습 셋으로부터 타깃 표정 학습 영상을 검출하고, 가중치 보간 맵 생성부에서 생성한 가중치 보간 맵 및 타깃 표정 학습 영상을 근거로 입력되는 무표정 얼굴 영상에 표정을 합성하여 표정 합성 영상을 생성하는 표정 합성부를 포함한다.

가중치 보간 맵 생성부는 무표정 영상, 무표정 영상과 일치하는 얼굴의 표정 영상을 수집하고, 수집한 무표정 영상을 무표정 학습 영상으로 하는 무표정 학습 셋 및 수집한 표정 영상을 표정 학습 영상으로 하는 표정 학습 셋을 포함하는 학습 셋을 생성한다.

가중치 보간 맵 생성부는 수학식

(여기서, λ는 가중치 보간 맵이고, X는 무표정 학습 셋이고, Y는 표정 학습 셋)을 이용하여 가중치 보간 맵을 생성한다.

가중치 보간 맵 생성부는 수학식

(여기서, λ는 가중치 보간 맵이고, x_i는 표정 학습 셋의 i번째 표정 학습 영상, y_i _는 무표정 학습 셋의 i번째 무표정 학습 영상)을 이용하여 가중치 보간 맵을 생성한다.

가중치 보간 맵 생성부는 수학식

(여기서, λ^norm은 정규화 가중치 보간 맵이고, λ는 가중치 보간 맵)을 이용하여 정규화 가중치 보간 맵을 생성한다.

표정 합성부는 가중치 보간 맵 생성부에서 생성한 학습 셋 중에서 무표정 학습 셋에 포함된 무표정 학습 영상들의 주성분 분석 방법(PCA)의 특징 벡터를 산출하고, 무표정 학습 영상들 중에서 유클리디안 거리가 최소인 무표정 학습 영상의 인덱스를 검출하고, 검출한 인덱스에 포함된 무표정 학습 영상에 대응되는 표정 영상을 타깃 표정 학습 영상으로 추출한다.

표정 합성부는 수학식

(여기서, d_i는 i번째 무표정 학습 영상의 유클리디안 거리, W_PCA는 무표정 학습 영상의 PCA 특징 벡터, x_i는 i번째 무표정 학습 영상, I_q는 표정 합성을 위해 입력된 무표정 얼굴 영상)을 이용하여 무표정 학습 영상의 유클리디안 거리를 산출한다.

표정 합성부는 수학식

(여기서, z는 표정 합성 영상, λ은 정규화 가중치 보간 맵, I_q는 표정 합성을 위해 입력된 무표정 얼굴 영상, y_target은 타깃 표정 학습 영상)을 이용하여 표정 합성 영상을 생성한다.

상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 가중치 보간 맵을 이용한 표정 합성 방법은, 가중치 보간 맵을 이용한 표정 합성 장치를 통해 가중치 보간 맵을 이용한 표정 합성 방법에 있어서, 무표정 얼굴 영상 및 표정 얼굴 영상을 포함하는 얼굴 영상을 수집하는 단계, 수집한 얼굴 영상을 근거로 가중치 보간 맵을 생성하는 단계, 얼굴 영상에 포함된 무표정 얼굴 영상을 근거로 타깃 표정 학습 영상을 검출하는 단계 및 가중치 보간 맵 및 타깃 표정 학습 영상을 근거로 입력되는 무표정 얼굴 영상에 표정을 합성하여 표정 합성 영상을 생성하는 단계를 포함한다.

가중치 보간 맵을 생성하는 단계는 수집한 얼굴 영상 중에서 무표정 얼굴 영상을 무표정 학습 영상으로 하는 무표정 학습 셋을 생성하는 단계 및 수집한 얼굴 영상 중에서 표정 얼굴 영상을 표정 학습 영상으로 하는 표정 학습 셋을 생성하는 단계를 포함한다.

가중치 보간 맵을 생성하는 단계에서는 수학식

(여기서, λ는 가중치 보간 맵이고, x_i는 표정 학습 셋의 i번째 표정 학습 영상, y_i는 무표정 학습 셋의 i번째 무표정 학습 영상)을 이용하여 가중치 보간 맵을 생성한다.

가중치 보간 맵을 생성하는 단계에서는 수학식

타깃 표정 학습 영상을 검출하는 단계는 생성한 학습 셋 중에서 무표정 학습 셋에 포함된 무표정 학습 영상들의 주성분 분석 방법(PCA)의 특징 벡터를 산출하는 단계, 무표정 학습 영상들의 유클리디안 거리를 산출하는 단계, 산출한 유클리디안 거리가 최소인 무표정 학습 영상의 인덱스를 검출하는 단계 및 검출한 인덱스에 포함된 무표정 학습 영상에 대응되는 표정 영상을 타깃 표정 학습 영상으로 추출하는 단계를 포함한다.

유클리디안 거리를 산출하는 단계에서는 수학식

표정 합성 영상을 생성하는 단계에서는 수학식

본 발명에 의하면, 가중치 보간 맵을 이용한 표정 합성 장치 및 방법은 표정에 따른 변화 정도를 측정하기 위해 무표정 얼굴 영상과 다양한 표정 변이를 포함한 영상 간에 표준편차를 사용하여 각 픽셀의 가중치 값을 반영한 가중치 보간 맵을 통해 무표정 영상에 표정을 합성함으로써, 무표정 얼굴 영상에 표정 합성시 개인의 고유한 특성뿐만 아니라 표정과 관련한 미세한 얼굴 근육의 변화까지 반영할 수 있는 효과가 있다.

도 1은 본 발명의 실시예에 따른 가중치 보간 맵을 이용한 표정 합성 장치를 설명하기 위한 블록도.
도 2 및 도 3은 도 1의 가중치 보간 맵 생성부를 설명하기 위한 도면.
도 4는 본 발명의 실시예에 따른 가중치 보간 맵을 이용한 표정 합성 방법을 설명하기 위한 흐름도.
도 5는 도 4의 가중치 보간 맵 생성 단계를 설명하기 위한 흐름도.
도 6은 도 4의 타깃 표정 학습 영상 검출 단계를 설명하기 위한 흐름도.
도 7 내지 도 11은 본 발명의 실시예에 따른 가중치 보간 맵을 이용한 표정 합성 장치 및 방법을 이용한 표정 합성 결과를 설명하기 위한 도면.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시예를 첨부 도면을 참조하여 설명하기로 한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

이하, 본 발명의 실시예에 따른 가중치 보간 맵을 이용한 표정 합성 장치를 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다. 도 1은 본 발명의 실시예에 따른 가중치 보간 맵을 이용한 표정 합성 장치를 설명하기 위한 블록도이고, 도 2 및 도 3은 도 1의 가중치 보간 맵 생성부를 설명하기 위한 도면이다.

도 1에 도시된 바와 같이, 가중치 보간 맵을 이용한 표정 합성 장치(100; 이하, 표정 합성 장치(100))는 가중치 보간 맵 생성부(120), 표정 합성부(140)를 포함하여 구성된다.

가중치 보간 맵 생성부(120)는 가중치 보간 맵 생성을 위한 얼굴 영상을 수집한다. 즉, 가중치 보간 맵 생성부(120)는 2차원의 그레이 스케일로 정렬된 얼굴 영상을 수집한다. 이때, 가중치 보간 맵 생성부(120)는 무표정 영상, 무표정 영상과 일치하는 얼굴의 표정 영상을 수집한다. 가중치 보간 맵 생성부(120)는 수집한 얼굴 영상을 d(=r×c)차원의 열 벡터로 변환한다. 여기서, d는 얼굴 영상의 사이즈, r은 얼굴 영상의 행(row), c는 얼굴 영상의 열(column)을 의미한다.

가중치 보간 맵 생성부(120)는 수집한 무표정 영상과 표정 영상을 근거로 학습 셋을 생성한다. 이때, 가중치 보간 맵 생성부(120)는 무표정 영상들을 무표정 학습 영상(x_i)으로 하는 무표정 학습 셋 X=[x₁, x₂, …, x_n]를 생성한다. 가중치 보간 맵 생성부(120)는 표정 영상들을 표정 학습 영상(y_i)로 하는 표정 학습 셋 Y=[y₁, y₂, …, y_n]를 생성한다.

가중치 보간 맵 생성부(120)는 학습 셋으로부터 표정 합성을 위해 하기 수학식 2와 같이 목적함수(object function)를 정의한다.

표정 합성 장치(100)는 정의된 목적함수의 에러를 최소화할 수 있는 가중치 보간 맵(λ(∈R^d×d))을 찾는 것을 목표로 한다. 즉, 동일한 사람의 무표정 학습 영상(x_i)과 표정 학습 영상(y_i)에서 대부분의 픽셀은 비슷한 픽셀값을 갖지만, 표정의 영향을 받는 일부 픽셀들에서는 픽셀값의 차이가 크게 나타난다. 예를 들어, 도 2에 도시된 바와 같이, 무표정 학습 셋(X)에서 웃는 표정의 표정 학습 셋(Y)으로 변환할 때, 특정 위치(즉, 입 주변)에서는 표정 변이에 따라 차이가 큰 픽셀값의 분포를 나타내며, 다른 위치에서는 픽셀값의 차이가 적은 분포를 나타낸다.

가중치 보간 맵 생성부(120)는 이러한 관계를 나타내기 위해 하기의 수학식 3과 같이, 절대차(absolute difference)의 표준 편차를 이용하여 가중치 보간 맵(λ)을 정의한다.

이때, 가중치 보간 맵 생성부(120)는 수학식 3은 하기의 수학식 4와 같이 재정의할 수 있다.

여기서, 절대차는 무표정 학습 셋과 표정 학습 셋의 교집합(X∩Y)과 무표정 학습 셋과 표정 학습 셋의 합집합(X∪Y)의 차이를 의미하며, 표준 편차는 이러한 개별적인 영상들의 픽셀 간 차이로부터 전체 영상의 통계적인 변이 정도로 표현한다.

이때, 가중치 보간 맵(λ)은 표정이 발생함에 따라 변이가 큰 픽셀에서는 높은값을 갖고, 변이가 적은 픽셀에서는 낮은값을 갖게 된다. 즉, 도 3에 도시된 바와 같이, 무표정 학습 영상과 표정 학습 영상들로부터 생성된 각각의 가중치 보간 맵(λ)은 변이가 많이 발생한 영역에서 높은값을 갖기 때문에 흰색으로 표시된다. 예를 들어, 웃는 표정의 경우 입과 볼 주변에 매우 강한 변이가 나타나고, 코 주변과 미간 등에서는 변이가 거의 발생하지 않는 것을 확인할 수 있다.

가중치 보간 맵 생성부(120)는 기산출한 가중치 보간 맵(λ)을 정규화하여 정규화 가중치 보간 맵(λ^norm)을 생성한다. 즉, 픽셀의 변이 정도에 따라 가중치 보간 맵(λ)의 값이 매우 커질 경우, 합성된 영상에는 포화된 픽셀(saturated pixel)이 존재할 수 있다. 이에, 가중치 보간 맵 생성부(120)는 가중치 보간 맵(λ)을 정규화(normalization)하여 [0, 1]의 범위를 갖는 정규화 가중치 보간 맵(λ^norm)을 생성한다.

이때, 가중치 보간 맵 생성부(120)는 하기의 수학식 5를 통해 정규화 가중치 보간 맵(λ^norm)을 생성한다.

수학식 5에 의해 생성된 정규화 가중치 보간 맵(λ^norm)은 d차원의 벡터이다. 이에 대해 가중치 보간 맵 생성부(120)는 정규화 가중치 보간 맵(λ^norm)에 대한 diag(λ^norm)을 수행하여 하기의 수학식 6과 같이 d×d 크기의 대각선 행렬(diagonal matrix)로 변환한다. 이를 통해, 가중치 보간 맵 생성부(120)는 d차원의 열 벡터로 구성된 영상의 각 픽셀마다 가중치를 적용할 수 있다.

이를 통해, 표정 합성 장치(100)는 비선형인 무표정 영상과 표정 영상에 대해 선형 구조의 FES를 수행할 수 있고, AAM을 통한 geometric한 얼굴 생성과 같은 별도의 과정이 없으며, 종래의 학습 기반 방법들이 갖는 계수 부족 문제를 극복할 수 있으며, 커널이나 변수 등의 최적화 과정이 생략될 수 있는 효과가 있다.

표정 합성부(140)는 가중치 보간 맵 생성부(120)에서 생성된 가중치 보간 맵을 근거로 무표정 얼굴 영상에 표정을 합성한다. 즉, 표정 합성부(140)는 하기의 수학식 7을 이용하여 무표정 얼굴 영상에 표정을 합성한 합성 영상을 생성한다. 이때, 표정 합성부(140)는 표정 학습 영상(y_i) 및 정규화 가중치 보간 맵(λ^norm)을 이용하여 총 n장의 합성 영상(z_i)를 생성할 수 있다.

여기서, I_q는 표정 합성을 위해 입력된 무표정 얼굴 영상이고, z_i는 무표정 얼굴 영상에 표정을 합성한 합성 영상이고, λ^norm는 정규화 가중치 보간 맵이고, y_i는 가중치 보간 맵 생성부(120)에서 수집한 표정 학습 영상이다.

한편, 표정 학습 영상(y_i) 및 정규화 가중치 보간 맵(λ^norm)을 이용하여 생성한 합성 영상(z_i)은 입력 영상(즉, 무표정 얼굴 영상(I_q))이 갖는 성별 등의 고유한 특성을 반영할 수 없고, 클래스 내 분산(within-class scatter)을 크게 하는 문제점이 있다. 즉, 입력 영상이 남성의 얼굴 영상인 상태에서 표정 학습 영상에 포함된 여성의 얼굴 영상과 합성되는 경우 입력 영상이 갖는 고유한 특성을 반영하지 못하여, 클래스 내 분산이 증가하게 된다.

이를 해결하기 위해, 표정 합성부(140)는 표정 학습 셋에 포함된 표정 학습 영상 중에서 타깃 표정 학습 영상(y_target)을 검출한다.

이를 위해, 표정 합성부(140)는 하기의 수학식 8을 이용하여 무표정 학습 영상들로부터 PCA의 특징 벡터(W_PCA)를 산출한다.

이때, 수학식 8에서 전체 공분산 (S_T)는 하기 수학식 9를 통해 산출한다.

여기서, x_i는 무표정 학습 셋의 무표정 학습 영상이고, μ는 전체 학습 셋의 평균이다.

표정 합성부(140)는 기산출한 특징 벡터(W_PCA)를 이용하여 PCA 특성 공간에서 입력 영상(Iq)와 가장 유사한 학습 영상을 찾기 위해 유클리디안 거리(euclidean distance)를 산출한다. 이때, 표정 합성부(140)는 하기 수학식 10을 통해 유클리디안 거리(d_i)를 산출한다.

표정 합성부(140)는 투영된 입력 영상과 무표정 학습 셋의 무표정 학습 영상 중에서 기산출한 유클리디안 거리(d_i)가 최소가 되는 영상의 인덱스(j)를 검출한다. 표정 합성부(140)는 검출한 인덱스(j)에 포함된 무표정 학습 영상에 대응되는 표정 영상(y_j)을 타깃 표정 학습 영상(y_target)으로 추출한다.

표정 합성부(140)는 검출한 타깃 표정 학습 영상(y_target)을 이용하여 최종 표정 합성 영상(z)을 산출한다. 여기서, 최종 표정 합성 영상(z)은 하기의 수학식 11을 통해 산출한다.

이하, 본 발명의 실시예에 따른 가중치 보간 맵을 이용한 표정 합성 방법을 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다. 도 4는 본 발명의 실시예에 따른 가중치 보간 맵을 이용한 표정 합성 방법을 설명하기 위한 흐름도이다. 도 5는 도 4의 가중치 보간 맵 생성 단계를 설명하기 위한 흐름도이고, 도 6은 도 4의 타깃 표정 학습 영상 검출 단계를 설명하기 위한 흐름도이다.

가중치 보간 맵을 이용한 표정 합성 장치(100; 이하, 표정 합성 장치(100))는 표정 합성을 위한 학습 셋 생성을 위해 얼굴 영상을 수집한다(S100). 즉, 표정 합성 장치(100)는 2차원의 그레이 스케일로 정렬된 얼굴 영상을 수집한다. 이때, 표정 합성 장치(100)는 무표정 영상, 무표정 영상과 일치하는 얼굴의 표정 영상을 수집한다. 표정 합성 장치(100)는 수집한 얼굴 영상을 d(=r×c)차원의 열 벡터로 변환한다. 여기서, d는 얼굴 영상의 사이즈, r은 얼굴 영상의 행(row), c는 얼굴 영상의 열(column)을 의미한다.

표정 합성 장치(100)는 수집한 얼굴 영상을 근거로 가중치 보간 맵을 생성한다(S200). 이를 첨부된 도 5를 참조하여 설명하면 아래와 같다.

표정 합성 장치(100)는 수집한 얼굴 영상을 근거로 학습 셋을 생성한다(S220). 즉, 표정 합성 장치(100)는 S100 단계에서 수집된 얼굴 영상들 중에서 무표정 영상들을 검출하고, 검출한 무표정 영상을 무표정 학습 영상(x_i)으로 하는 무표정 학습 셋 X=[x₁, x₂, …, x_n]를 생성한다. 표정 합성 장치(100)는 S100 단계에서 수집된 얼굴 영상들 중에서 표정 영상들을 검출하고, 검출한 표정 영상을 표정 학습 영상(y_i)으로 하는 표정 학습 셋 Y=[y₁, y₂, …, y_n]를 생성한다.

표정 합성 장치(100)는 기생성한 학습 셋을 근거로 가중치 보간 맵을 생성한다(S240). 즉, 표정 합성 장치(100)는 기생성한 학습 셋으로부터 표정 합성을 위해 목적함수(수학식 2 참조)를 정의한다. 표정 합성 장치(100)는 정의된 목적함수의 에러를 최소화할 수 있는 가중치 보간 맵(λ(∈R^d×d))을 찾는 것을 목표로 한다. 즉, 동일한 사람의 무표정 학습 영상(x_i)과 표정 학습 영상(y_i)에서 대부분의 픽셀은 비슷한 픽셀값을 갖지만, 표정의 영향을 받는 일부 픽셀들에서는 픽셀값의 차이가 크게 나타난다. 예를 들어, 무표정 학습 셋(X)에서 웃는 표정의 표정 학습 셋(Y)으로 변환할 때, 특정 위치(즉, 입 주변)에서는 표정 변이에 따라 차이가 큰 픽셀값의 분포를 나타내며, 다른 위치에서는 픽셀값의 차이가 적은 분포를 나타낸다.

표정 합성 장치(100)는 이러한 관계를 나타내기 위해 절대차의 표준 편차를 이용하여 가중치 보간 맵(λ)을 정의한다(수학식 3 참조). 여기서, 절대차는 무표정 학습 셋과 표정 학습 셋의 교집합(X∩Y)과 무표정 학습 셋과 표정 학습 셋의 합집합(X∪Y)의 차이를 의미하며, 표준 편차는 이러한 개별적인 영상들의 픽셀 간 차이로부터 전체 영상의 통계적인 변이 정도로 표현한다. 이때, 가중치 보간 맵(λ)은 표정이 발생함에 따라 변이가 큰 픽셀에서는 높은값을 갖고, 변이가 적은 픽셀에서는 낮은값을 갖게 된다. 즉, 무표정 학습 영상과 표정 학습 영상들로부터 생성된 각각의 가중치 보간 맵(λ)은 변이가 많이 발생한 영역에서 높은값을 갖기 때문에 흰색으로 표시된다. 예를 들어, 웃는 표정의 경우 입과 볼 주변에 매우 강한 변이가 나타나고, 코 주변과 미간 등에서는 변이가 거의 발생하지 않는 것을 확인할 수 있다.

표정 합성 장치(100)는 기생성한 가중치 보간 맵을 정규화하여 정규화 가중치 보간 맵을 생성한다(S260). 즉, 픽셀의 변이 정도에 따라 가중치 보간 맵(λ)의 값이 매우 커질 경우, 합성된 영상에는 포화된 픽셀(saturated pixel)이 존재할 수 있다. 이에, 표정 합성 장치(100)는 가중치 보간 맵(λ)을 정규화(normalization)하여 [0, 1]의 범위를 갖는 정규화 가중치 보간 맵(λ^norm)을 생성한다. 이때 생성된 정규화 가중치 보간 맵(λ^norm)은 d차원의 벡터이다. 이에 대해 표정 합성 장치(100)는 정규화 가중치 보간 맵(λ^norm)에 대한 diag(λ^norm)을 수행하여 d×d 크기의 대각선 행렬(diagonal matrix)로 변환한다. 이를 통해, 표정 합성 장치(100)는 d차원의 열 벡터로 구성된 영상의 각 픽셀마다 가중치를 적용할 수 있다. 이를 통해, 표정 합성 장치(100)는 비선형인 무표정 영상과 표정 영상에 대해 선형 구조의 FES를 수행할 수 있고, AAM을 통한 geometric한 얼굴 생성과 같은 별도의 과정이 없으며, 종래의 학습 기반 방법들이 갖는 계수 부족 문제를 극복할 수 있으며, 커널이나 변수 등의 최적화 과정이 생략될 수 있는 효과가 있다.

표정 합성 장치(100)는 무표정 얼굴 영상의 표정 합성을 위한 타깃 표정 학습 영상을 검출한다(S300). 이를 첨부된 도 6을 참조하여 설명하면 아래와 같다.

표정 합성 장치(100)는 무표정 학습 셋의 무표정 학습 영상들의 특징 벡터를 산출한다(S320). 즉, 표정 합성 장치(100)는 무표정 학습 영상들 각각의 PCA 특징 벡터(W_PCA)를 산출한다. 표정 합성 장치(100)는 전체 공분산(S_T)을 이용하여 무표정 학습 영상들의 PCA 특징 벡터(W_PCA)를 산출한다(수학식 8 참조). 이때, 표정 합성 장치(100)는 무표정 학습 셋의 무표정 학습 영상들과 무표정 학습 영상들의 평균을 이용하여 전체 공분산(S_T)을 산출한다(수학식 9 참조).

표정 합성 장치(100)는 기산출한 특징 벡터(W_PCA)를 근거로 무표정 얼굴 영상과 무표정 학습 셋의 무표정 학습 영상들 간의 유클리디안 거리를 산출한다(S340). 즉, 표정 합성 장치(100)는 S320 단계에서 산출한 특징 벡터(W_PCA)를 이용하여 PCA 특성 공간에서 입력 영상(I_q)와 가장 유사한 학습 영상을 찾기 위해 유클리디안 거리(euclidean distance)를 산출한다(수학식 10 참조).

표정 합성 장치(100)는 기산출한 유클리디안 거리가 최소인 무표정 학습 영상의 인덱스를 검출한다(S360). 즉, 표정 합성 장치(100)는 투영된 입력 영상과 무표정 학습 셋의 무표정 학습 영상 중에서 기산출한 유클리디안 거리(d_i)가 최소가 되는 영상의 인덱스(j)를 검출한다.

표정 합성 장치(100)는 인덱스에 포함된 무표정 학습 영상에 대응되는 표정 영상을 타깃 표정 학습 영상으로 추출한다(S380). 즉, 표정 합성 장치(100)는 S360 단계에서 검출한 인덱스(j)에 포함된 무표정 학습 영상에 대응되는 표정 영상(y_j)을 타깃 표정 학습 영상(y_target)으로 추출한다.

표정 합성 장치(100)는 타깃 표정 학습 영상 및 가중치 보간 맵을 이용하여 표정 합성 영상을 생성한다(S400). 즉, 표정 합성 장치(100)는 S200 단계에서 생성된 가중치 보간 맵을 근거로 무표정 얼굴 영상에 표정을 합성한다. 즉, 표정 합성 장치(100)는 무표정 얼굴 영상에 표정을 합성한 합성 영상을 생성한다(수학식 7 참조). 이때, 표정 학습 영상(y_i) 및 정규화 가중치 보간 맵(λ^norm)을 이용하여 생성한 합성 영상(z_i)은 입력 영상(즉, 무표정 얼굴 영상(I_q))이 갖는 성별 등의 고유한 특성을 반영할 수 없고, 클래스 내 분산(within-class scatter)을 크게 하는 문제점이 있다. 즉, 입력 영상이 남성의 얼굴 영상인 상태에서 표정 학습 영상에 포함된 여성의 얼굴 영상과 합성되는 경우 입력 영상이 갖는 고유한 특성을 반영하지 못하여, 클래스 내 분산이 증가하게 된다. 이에, 표정 합성 장치(100)는 S300 검출한 타깃 표정 학습 영상(y_target) 및 S200 단계에서 생성한 가중치 보간 맵(즉, 정규화 가중치 보간 맵(λ^norm))을 이용하여 최종 표정 합성 영상(z)을 생성한다(수학식 11 참조).

이하, 본 발명의 실시예에 따른 가중치 보간 맵을 이용한 표정 합성 장치 및 방법을 이용한 표정 합성 결과를 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다. 도 7 내지 도 11는 본 발명의 실시예에 따른 가중치 보간 맵을 이용한 표정 합성 장치 및 방법을 이용한 표정 합성 결과를 설명하기 위한 도면이다.

이번 실험에서는 FES 실험을 위해 CK+ 데이터베이스에서 화남(AN, 45장), 역겨움(DI, 59장), 웃음(SM, 69장) 그리고 슬픔(SA, 28장) 영상으로부터 표정 학습 셋을 구성한다. 이때, 표정 학습 셋과 더불어 무표정 영상이 각각 존재한다.

또한, Yale 데이터베이스에서 'normal'에 해당하는 얼굴 영상 15장과 AR 데이터베이스의 session 1과 2의 무표정한 영상 256장을 테스트 셋으로 구성하였다. 테스트 셋에는 성별, 안경 그리고 수염 등의 변이가 포함되어 있다. 표정 학습 셋과 테스트 셋은 각각 별개의 영상들로 구성된다.

학습 및 테스트에 사용된 영상들은 공통으로 조명 변이가 비교적 적으며, 배경이 포함된 전체 영상으로부터 수동으로 두 눈의 위치를 검출하고 검출된 좌표를 아핀 변환(affine transform)을 사용하여 크기 80×80로 정렬한다.

가중치 보간 맵을 이용한 표정 합성 장치 및 방법으로부터 총 3가지의 실험을 수행하였다. 성별(도 7 및 도 8)에 따른 얼굴 표정 합성, 성별과 안경 변이(도 9 및 도 10)에 따른 얼굴 표정 합성, 그리고 수염 변이가 포함된 영상(도 11)에서의 얼굴 표정을 합성한다.

가중치 보간 맵을 이용한 표정 합성 장치 및 방법은 성별, 안경 그리고 수염 등의 다양한 변이를 포함한 무표정 영상으로부터 화남, 역겨움, 웃음 그리고 슬픔 등 4가지의 표정 변이를 포함한 영상을 합성한다.

실험 결과를 보면, 가중치 보간 맵을 이용한 표정 합성 장치 및 방법을 통해 합성된 영상은 얼굴 형태와 색상 등을 포함하고 표정의 변화에 따른 주름, 눈썹의 변화 등을 미세한 얼굴 변형을 반영하는 것을 확인할 수 있다.

또한, 가중치 보간 맵을 이용한 표정 합성 장치 및 방법을 통해 합성된 영상은 안경, 점, 여드름과 같은 개인 고유의 정보를 보존하는 얼굴 영상이 생성된 것을 확인할 수 있다.

무표정 얼굴 영상으로부터 표정 변이가 포함된 얼굴 영상을 합성하는 기존의 방법들은 다음과 같은 문제점이 있다. 내부적으로, 높은 성능의 얼굴 좌표 검출기가 필요하며, 공통으로 비선형 구조를 갖는 무표정 영상과 표정 영상 사이에서 표정 변이에 따른 미세한 얼굴 변형을 반영하지 못하고 여드름이나 수염 등의 개인 고유의 정보를 보존하기 어렵다. 외부적으로, 수집 영상의 차원 대비 수집 영상의 개수가 작음으로써 발생하는 계수 부족에 따른 특이성 문제가 발생한다. 또한, 이러한 문제를 해결하기 위해 제안된 커널 기반의 매핑 방법들은 얼굴 합성 단계가 매우 복잡하다.

가중치 보간 맵을 이용한 표정 합성 장치 및 방법은 표정에 따른 변화 정도를 측정하기 위해 무표정 얼굴 영상과 다양한 표정 변이를 포함한 영상 간에 표준편차를 사용하여 각 픽셀의 가중치 값을 반영한 가중치 보간 맵(WIM)을 통해 무표정 영상에 표정을 합성한다.

또한, 가중치 보간 맵을 이용한 표정 합성 장치 및 방법은 무표정 영상들로 구성된 PCA 특징 공간에서 입력 영상과 가장 유사한 무표정 영상에 해당하는 표정 영상을 선택한다.

가중치 보간 맵을 이용한 표정 합성 장치 및 방법은 입력 영상과 표정 변이가 포함된 영상에 대해 가중치 보간 맵을 각각 다르게 적용함으로써 표정을 포함한 얼굴 영상을 합성한다.

이를 통해, Yale 데이터베이스와 AR 데이터베이스의 무표정 영상들에 대해 표정 합성 실험을 수행한 결과, 합성된 영상은 개인의 고유한 특성뿐만 아니라 표정과 관련한 미세한 얼굴 근육의 변화까지 반영할 수 있는 효과가 있다.

이상에서 본 발명에 따른 바람직한 실시예에 대해 설명하였으나, 다양한 형태로 변형이 가능하며, 본 기술분야에서 통상의 지식을 가진자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형예 및 수정예를 실시할 수 있을 것으로 이해된다.

100: 표정 합성 장치
120: 가중치 보간 맵 생성부
140: 표정 합성부

Claims

무표정 영상 및 표정 영상을 수집하여 학습 셋을 생성하고, 상기 학습 셋을 근거로 가중치 보간 맵을 생성하는 가중치 보간 맵 생성부; 및
상기 학습 셋으로부터 타깃 표정 학습 영상을 검출하고, 상기 가중치 보간 맵 생성부에서 생성한 가중치 보간 맵 및 상기 타깃 표정 학습 영상을 근거로 입력되는 무표정 얼굴 영상에 표정을 합성하여 표정 합성 영상을 생성하는 표정 합성부를 포함하고,
상기 가중치 보간 맵 생성부는, 무표정 영상, 무표정 영상과 일치하는 얼굴의 표정 영상을 수집하고, 수집한 무표정 영상을 무표정 학습 영상으로 하는 무표정 학습 셋 및 수집한 표정 영상을 표정 학습 영상으로 하는 표정 학습 셋을 포함하는 학습 셋을 생성하며, 표정 학습 셋의 표정 학습 셋의 i번째 표정 학습 영상(x_i), 무표정 학습 셋의 i번째 무표정 학습 영상(y_i) 및 최소가 되는 영상의 인덱스(j)를 이용하여 가중치 보간 맵(λ) 및 정규화 가중치 보간 맵(λ^norm)을 생성하고,
상기 가중치 보간 맵 생성부는 d차원의 열 벡터로 구성된 영상의 각 픽셀마다 가중치를 적용하기 위해 수학식

을 이용하여 정규화 가중치 보간 맵(λ^norm)에 대한 diag(λ^norm)를 수행함으로써 d×d 크기의 대각선 행렬(diagonal matrix)을 획득하며,
상기 가중치 보간 맵 생성부는, 수학식

(여기서, λ는 가중치 보간 맵이고, x_i는 표정 학습 셋의 i번째 표정 학습 영상, y_i는 무표정 학습 셋의 i번째 무표정 학습 영상)을 이용하여 가중치 보간 맵을 생성하고,
상기 가중치 보간 맵 생성부는, 수학식

(여기서, λ^norm은 정규화 가중치 보간 맵이고, λ는 가중치 보간 맵)을 이용하여 상기 정규화 가중치 보간 맵을 생성하며,
상기 표정 합성부는, 무표정 얼굴 영상에서 성별의 특성을 반영할 수 없어 클래스 내 분산(within-class scatter)이 증가되는 문제를 해소하기 위해, 상기 가중치 보간 맵 생성부에서 생성한 학습 셋 중에서 무표정 학습 셋에 포함된 무표정 학습 영상들의 주성분 분석 방법(PCA)의 특징 벡터를 산출하고, 상기 무표정 학습 영상들 중에서 유클리디안 거리가 최소인 무표정 학습 영상의 인덱스를 검출하고, 상기 검출한 인덱스에 포함된 무표정 학습 영상에 대응되는 표정 영상을 타깃 표정 학습 영상으로 추출하며,
상기 표정 합성부는, 상기 가중치 보간 맵 생성부에서 생성한 학습 셋 중에서 무표정 학습 셋에 포함된 무표정 학습 영상들의 주성분 분석 방법(PCA)의 특징 벡터(W_PCA)를 수학식

(여기서 S_T는 전체 공분산)으로 산출하고,
상기 표정 합성부는, 수학식

(여기서, d_i는 i번째 무표정 학습 영상의 유클리디안 거리, W_PCA는 무표정 학습 영상의 PCA 특징 벡터, x_i는 i번째 무표정 학습 영상, I_q는 표정 합성을 위해 입력된 무표정 얼굴 영상)을 이용하여 무표정 학습 영상의 유클리디안 거리를 산출하며,
상기 표정 합성부는, 수학식

(여기서, z는 표정 합성 영상, λ은 정규화 가중치 보간 맵, I_q는 표정 합성을 위해 입력된 무표정 얼굴 영상, y_target은 타깃 표정 학습 영상)을 이용하여 표정 합성 영상을 생성하는 것을 특징으로 하는 가중치 보간 맵을 이용한 표정 합성 장치.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
가중치 보간 맵을 이용한 표정 합성 장치를 통해 가중치 보간 맵을 이용한 표정 합성 방법에 있어서, 무표정 얼굴 영상 및 표정 얼굴 영상을 포함하는 얼굴 영상을 수집하는 단계; 상기 수집한 얼굴 영상을 근거로 가중치 보간 맵을 생성하는 단계; 상기 얼굴 영상에 포함된 무표정 얼굴 영상을 근거로 타깃 표정 학습 영상을 검출하는 단계; 및 상기 가중치 보간 맵 및 상기 타깃 표정 학습 영상을 근거로 입력되는 무표정 얼굴 영상에 표정을 합성하여 표정 합성 영상을 생성하는 단계를 포함하고,
상기 가중치 보간 맵을 생성하는 단계는, 상기 수집한 얼굴 영상 중에서 무표정 얼굴 영상을 무표정 학습 영상으로 하는 무표정 학습 셋을 생성하는 단계; 및 상기 수집한 얼굴 영상 중에서 표정 얼굴 영상을 표정 학습 영상으로 하는 표정 학습 셋을 생성하는 단계를 포함하며,
상기 가중치 보간 맵을 생성하는 단계는 표정 학습 셋의 표정 학습 셋의 i번째 표정 학습 영상(x_i), 무표정 학습 셋의 i번째 무표정 학습 영상(y_i) 및 최소가 되는 영상의 인덱스(j)를 이용하여 가중치 보간 맵(λ) 및 정규화 가중치 보간 맵(λ^norm)을 생성하고,
상기 정규화 가중치 보간 맵(λ^norm)은 d차원의 열 벡터로 구성된 영상의 각 픽셀마다 가중치를 적용하기 위해 수학식

을 이용하여 정규화 가중치 보간 맵(λ^norm)에 대한 diag(λ^norm)를 수행함으로써 d×d 크기의 대각선 행렬(diagonal matrix)로 변환되며,
상기 가중치 보간 맵을 생성하는 단계에서는, 수학식

(여기서, λ는 가중치 보간 맵이고, x_i는 표정 학습 셋의 i번째 표정 학습 영상, y_i는 무표정 학습 셋의 i번째 무표정 학습 영상)을 이용하여 가중치 보간 맵을 생성하고,
상기 가중치 보간 맵을 생성하는 단계에서는, 수학식

(여기서, λ^norm은 정규화 가중치 보간 맵이고, λ는 가중치 보간 맵)을 이용하여 상기 정규화 가중치 보간 맵을 생성하며,
상기 타깃 표정 학습 영상을 검출하는 단계는, 무표정 얼굴 영상에서 성별의 특성을 반영할 수 없어 클래스 내 분산(within-class scatter)이 증가되는 문제를 해소하기 위해, 상기 생성한 학습 셋 중에서 무표정 학습 셋에 포함된 무표정 학습 영상들의 주성분 분석 방법(PCA)의 특징 벡터를 산출하는 단계; 상기 무표정 학습 영상들의 유클리디안 거리를 산출하는 단계; 상기 산출한 유클리디안 거리가 최소인 무표정 학습 영상의 인덱스를 검출하는 단계; 및 상기 검출한 인덱스에 포함된 무표정 학습 영상에 대응되는 표정 영상을 타깃 표정 학습 영상으로 추출하는 단계를 포함하고,
상기 얼굴 영상에 포함된 무표정 얼굴 영상을 근거로 타깃 표정 학습 영상을 검출하는 단계는, 상기 가중치 보간 맵을 생성하는 단계에서 생성된 학습 셋 중에서 무표정 학습 셋에 포함된 무표정 학습 영상들의 주성분 분석 방법(PCA)의 특징 벡터(W_PCA)를 수학식

(여기서 S_T는 전체 공분산)으로 산출하며,
상기 유클리디안 거리를 산출하는 단계에서는, 수학식

(여기서, d_i는 i번째 무표정 학습 영상의 유클리디안 거리, W_PCA는 무표정 학습 영상의 PCA 특징 벡터, x_i는 i번째 무표정 학습 영상, I_q는 표정 합성을 위해 입력된 무표정 얼굴 영상)을 이용하여 무표정 학습 영상의 유클리디안 거리를 산출하고,
상기 표정 합성 영상을 생성하는 단계에서는, 수학식

(여기서, z는 표정 합성 영상, λ은 정규화 가중치 보간 맵, I_q는 표정 합성을 위해 입력된 무표정 얼굴 영상, y_target은 타깃 표정 학습 영상)을 이용하여 표정 합성 영상을 생성하는 것을 특징으로 하는 가중치 보간 맵을 이용한 표정 합성 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제