KR102252298B1

KR102252298B1 - 표정 인식 방법 및 장치

Info

Publication number: KR102252298B1
Application number: KR1020160137382A
Authority: KR
Inventors: 김영성; 유병인; 곽영준; 최창규
Original assignee: 삼성전자주식회사
Priority date: 2016-10-21
Filing date: 2016-10-21
Publication date: 2021-05-14
Also published as: CN107977598A; EP3312766A3; EP3312766A2; KR20180043937A; US10387716B2; US20180114057A1; CN107977598B

Abstract

표정 인식 방법 및 장치가 개시된다. 일 실시예에 따른 표정 인식 방법은 입력 영상 및 참조 영상 각각으로부터 특징을 추출하고, 입력 영상의 특징과 참조 영상의 특징 간의 차이에 기초하여 사용자의 표정을 인식하는 단계들을 포함한다.

Description

표정 인식 방법 및 장치{METHOD AND APPARATUS FOR RECOGNIZING FACIAL EXPRESSION}

아래 실시예들은 표정 인식 방법 및 장치에 관한 것이다.

표정은 신경 자극에 의해 유발되는 얼굴 근육들의 활동에 의해 형성된다. 얼굴 표정은 입력 영상으로부터 추출된 시각적 단서들에 대한 이미지 처리에 의해 인식될 수 있다. 일반적으로, 입력 영상에 나타난 표정에 기반하여 표정 정보가 예측될 수 있다. 표정 정보는 얼굴 근육의 액션 단위들(Action Units; AUs)의 세트를 통해 표정을 나타낼 수 있다. 예를 들어, 새로운 테스트 영상이 입력된 경우, 표정 인식 시스템은 얼굴 근육 형태들의 위치를 알아낸 뒤, 특징 기술자를 사용하여 위치를 알아낸 얼굴 근육 형태들을 표시하며, 해당 표시를 사전에 정의된 AU 모델과 비교할 수 있다.

일 측에 따르면, 표정 인식 방법은 입력 영상으로부터 특징을 추출하는 단계; 참조 영상으로부터 특징을 추출하는 단계; 및 상기 입력 영상의 특징과 상기 참조 영상의 특징 간의 차이에 기초하여 사용자의 표정을 인식하는 단계를 포함한다.

상기 표정 인식 방법은 상기 입력 영상에 기초하여 상기 참조 영상을 생성하는 단계를 더 포함할 수 있다. 상기 표정 인식 방법은 미리 학습된 인코더를 통해 상기 입력 영상을 인코딩하는 단계; 및 미리 학습된 디코더를 통해 상기 인코딩된 입력 영상을 디코딩함으로써, 상기 참조 영상을 생성하는 단계를 더 포함할 수 있다. 상기 인코더 및 상기 디코더는 상기 참조 영상을 통해 나타내고자 하는 표정에 대응하는 대상 영상과 상기 참조 영상 간의 차이가 감소하도록 미리 학습될 수 있다. 상기 인코더 및 상기 디코더는 상기 입력 영상과 상기 참조 영상 간의 차이가 임계치 내에서 증가하도록 미리 학습될 수 있다.

상기 입력 영상의 특징과 상기 참조 영상의 특징은 미리 학습된 추출기들에 의해 추출될 수 있다. 상기 추출기들은 상기 입력 영상의 특징에 기초하여 변환된 제1 영상과 상기 입력 영상 간의 차이, 및 상기 참조 영상의 특징에 기초하여 변환된 제2 영상과 상기 참조 영상을 통해 나타내고자 하는 표정에 대응하는 대상 영상 간의 차이가 감소하도록 미리 학습되는, 표정 인식 방법.

상기 추출기들은 상기 제1 영상과 상기 제2 영상 간의 차이가 임계치 내에서 증가하도록 미리 학습될 수 있다. 상기 추출기들은 상기 입력 영상의 특징과 상기 참조 영상의 특징 간의 차이가 임계치 내에서 증가하도록 미리 학습될 수 있다. 상기 추출기들은 파라미터를 공유할 수 있다.

참조 영상으로부터 특징을 추출하는 단계는 제1 참조 영상 및 제2 참조 영상 각각으로부터 특징을 추출하는 단계를 포함할 수 있고, 상기 사용자의 표정을 인식하는 단계는 상기 입력 영상의 특징과 상기 제1 참조 영상의 특징 간의 차이, 및 상기 입력 영상의 특징과 상기 제2 참조 영상의 특징 간의 차이에 기초하여 상기 사용자의 표정을 인식하는 단계를 포함할 수 있다.

일 측에 따르면, 표정 인식 장치는 프로세서; 및 컴퓨터에서 읽을 수 있는 명령어를 포함하는 메모리를 포함하고, 상기 명령어가 상기 프로세서에서 실행되면, 상기 프로세서는 입력 영상으로부터 특징을 추출하고, 참조 영상으로부터 특징을 추출하고, 상기 입력 영상의 특징과 상기 참조 영상의 특징 간의 차이에 기초하여 사용자의 표정을 인식한다.

상기 프로세서는 상기 입력 영상에 기초하여 상기 참조 영상을 생성할 수 있다. 상기 프로세서는 미리 학습된 인코더를 통해 상기 입력 영상을 인코딩하고, 미리 학습된 디코더를 통해 상기 인코딩된 입력 영상을 디코딩함으로써, 상기 참조 영상을 생성할 수 있다. 상기 참조 영상은 제1 참조 영상 및 제2 참조 영상을 포함할 수 있고, 상기 프로세서는 상기 제1 참조 영상 및 상기 제2 참조 영상 각각으로부터 특징을 추출하고, 상기 입력 영상의 특징과 상기 제1 참조 영상의 특징 간의 차이, 및 상기 입력 영상의 특징과 상기 제2 참조 영상의 특징 간의 차이에 기초하여 상기 사용자의 표정을 인식할 수 있다.

도 1은 일 실시예에 따른 표정 인식 과정을 나타낸 도면.
도 2는 일 실시예에 따른 표정들 간의 차이를 나타낸 도면.
도 3은 일 실시예에 따른 다양한 표정의 영상들을 나타낸 도면.
도 4는 일 실시예에 따른 참조 영상을 수신하여 표정을 인식하는 과정을 나타낸 도면.
도 5는 일 실시예에 따른 참조 영상을 생성하여 표정을 인식하는 과정을 나타낸 도면.
도 6은 일 실시예에 따른 복수의 참조 영상들을 통해 표정을 인식하는 과정을 나타낸 도면.
도 7은 일 실시예에 따른 손실 함수를 이용하여 오토 인코더를 학습시키는 과정을 나타낸 도면.
도 8은 일 실시예에 따른 손실 함수를 이용하여 추출기를 학습시키는 과정을 나타낸 도면.
도 9는 일 실시예에 따른 대비 함수를 이용한 학습 과정을 나타낸 도면.
도 10은 일 실시예에 따른 손실 함수 및 대비 함수를 이용한 학습 과정을 나타낸 도면.
도 11은 일 실시예에 따른 복수의 대상 영상을 이용한 학습 과정을 나타낸 도면.
도 12는 일 실시예에 따른 표정 인식 장치를 나타낸 블록도.
도 13은 일 실시예에 따른 표정 인식 방법을 나타낸 동작 흐름도.

본 명세서에서 개시되어 있는 특정한 구조적 또는 기능적 설명들은 단지 기술적 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 실시예들은 다양한 다른 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.

제1 또는 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 이해되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 일 실시예에 따른 표정 인식 과정을 나타낸 도면이다. 도 1을 참조하면, 표정 인식 장치(110)는 입력 영상을 수신하고, 입력 영상에 나타난 표정의 인식 결과를 출력한다. 표정 인식 장치(110)는 적어도 하나의 소프트웨어 모듈, 적어도 하나의 하드웨어 모듈, 또는 이들의 다양한 조합으로 구현될 수 있다.

표정 인식 장치(110)는 입력 영상과 참조 영상 간의 차이에 기초하여 입력 영상에 나타난 사용자의 표정을 인식할 수 있다. 참조 영상 없이 입력 영상만을 이용하여 표정을 인식할 경우, 미세한 표정 변화가 인식되기 어려울 수 있다. 또한, 이 경우, 입력 영상의 표정이 이와 유사한 다른 표정들로 잘못 인식될 수 있다. 표정 인식 장치(110)는 입력 영상과 참조 영상 간의 차이에 기초하여 입력 영상에 나타난 사용자의 표정을 인식함으로써, 입력 영상에서 표정 변화가 작은 경우, 혹은 입력 영상의 표정과 유사한 다른 표정들이 존재하는 경우에도, 입력 영상으로부터 표정을 정확하게 인식할 수 있다.

표정 인식 장치(110)는 다양한 표정들에 관한 샘플 영상들을 이용하여, 표정들간의 차이를 미리 학습할 수 있다. 예를 들어, 표정 인식 장치(110)는 입력 영상과 참조 영상 간의 차이, 또는 미리 학습한 표정들간의 차이를 비교하고, 그 비교 결과에 따라 입력 영상에 나타난 사용자의 표정을 인식할 수 있다. 아래에서 상세히 설명되겠지만, 표정 인식 장치(110)는 입력 영상으로부터 참조 영상을 생성하는 오토 인코더, 입력 영상 및 참조 영상으로부터 특징을 추출하는 추출기, 입력 영상의 특징 및 참조 영상의 특징을 비교하는 비교기 및 비교 결과에 기초하여 입력 영상에 포함된 표정을 인식하는 인식기 등을 이용하여 입력 영상으로부터 사용자의 표정을 인식할 수 있다. 오토 인코더는 입력 영상으로부터 참조 영상을 생성하기 위한 특징을 추출하는 인코더 및 인코더에 의하여 추출된 특징을 참조 영상으로 변환하는 디코더를 포함할 수 있다. 이러한 오토 인코더, 추출기, 비교기 및 인식기는 각각 뉴럴 네트워크(neural network)로 구현될 수 있고, 딥 러닝과 같은 기계 학습 기법을 통해 미리 학습될 수 있다.

예를 들어, 오토 인코더는 입력 영상으로부터 참조 영상을 생성하도록 미리 학습될 수 있고, 추출기는 영상으로부터 특징을 추출하도록 미리 학습될 수 있다. 인식기는 특징들 간의 차이에 기초하여 영상의 표정을 인식하도록 미리 학습될 수 있다. 여기서, 뉴럴 네트워크를 학습시킨다는 것은 뉴럴 네트워크의 파라미터들을 학습시킨다는 것을 의미할 수 있다. 아래에서 인코더 및 추출기는 서로 다른 명칭으로 지칭되겠지만, 이는 설명의 편의를 위한 것으로, 이들은 모두 영상을 특징 벡터로 인코딩하는 동작을 수행할 수 있다. 또한, 아래에서 디코더 및 변환기도 서로 다른 명칭으로 지칭되겠지만, 이 역시 설명의 편의를 위한 것으로, 이들은 모두 특징 벡터를 영상으로 디코딩하는 동작을 수행할 수 있다.

일 측에 따르면, 입력 영상과 함께 참조 영상이 표정 인식 장치(110)에 입력될 수 있다. 참조 영상은 표정을 인식할 때마다 촬영되어 입력 영상과 함께 표정 인식 장치(110)에 제공될 수 있다. 예를 들어, 무표정을 나타내는 참조 영상을 획득하기 위해, 사용자에게 무표정을 지을 것을 요구하고, 무표정을 짓는 사용자를 촬영할 수 있다. 혹은, 참조 영상은 미리 촬영되어 메모리에 저장되었다가 표정을 인식할 때 표정 인식 장치(110)에 제공될 수 있다. 참조 영상은 미리 정해진 표정을 나타낼 수 있다. 이 경우, 참조 영상으로부터 추출된 특징 벡터가 메모리에 저장될 수도 있다.

다른 일 측에 따르면, 표정 인식 장치(110)에는 입력 영상만 입력되고, 참조 영상은 표정 인식 장치(110)에 의해 별도로 생성될 수 있다. 예를 들어, 표정 인식 장치(110)는 미리 학습된 오토 인코더를 이용하여 입력 영상으로부터 참조 영상을 생성할 수 있다. 오토 인코더는 미리 정해진 표정의 참조 영상을 생성하도록 학습될 수 있다. 아래에서 상세히 설명되겠지만, 오토 인코더는 입력 영상을 인코딩하는 인코더 및 인코딩된 입력 영상을 디코딩하는 디코더를 포함할 수 있다. 이 경우, 디코더의 출력이 참조 영상이 될 수 있다.

영상들을 픽셀 기반으로 직접 비교하는 것보다, 영상들로부터 추출된 특징들을 비교함으로써, 인식 성능이 향상될 수 있다. 따라서, 표정 인식 장치(110)는 입력 영상과 참조 영상을 직접적으로 비교하지 않고, 입력 영상으로부터 추출된 특징과 참조 영상으로부터 추출된 특징을 비교할 수 있다. 예를 들어, 표정 인식 장치(110)는 미리 학습된 추출기를 이용하여 입력 영상 및 참조 영상 각각으로부터 특징을 추출할 수 있다. 추출된 특징은 벡터 형식으로 표현될 수 있고, 이는 특징 벡터로 지칭될 수 있다.

일 측에 따르면, 표정 인식 장치(110)는 복수의 추출기들을 이용하여 입력 영상 및 참조 영상 각각으로부터 특징을 추출할 수 있다. 예를 들어, 표정 인식 장치(110)는 제1 추출기를 이용하여 입력 영상으로부터 특징을 추출하고, 제2 추출기를 이용하여 입력 영상으로부터 특징을 추출할 수 있다. 이 경우, 제1 추출기 및 제2 추출기는 동일한 파라미터를 가질 수 있다. 추출기들이 동일한 파라미터를 갖는 것은, 추출기들이 파라미터를 공유하는 것으로 표현될 수 있다. 제1 추출기 및 제2 추출기가 파라미터를 공유함에 따라, 동일한 조건 하에 입력 영상 및 참조 영상으로부터 특징이 추출될 수 있다.

추출기에 의해 추출된 입력 영상의 특징 및 참조 영상의 특징은 비교기에 입력될 수 있다. 비교기는 입력 영상의 특징과 참조 영상의 특징을 비교하고, 입력 영상의 특징과 참조 영상의 특징 간의 차이를 비교 결과로 출력할 수 있다.

예를 들어, 비교기는 입력 영상으로부터 추출된 특징 벡터와 참조 영상으로부터 추출된 특징 벡터 사이의 원소 단위(element-wise) 차를 출력할 수 있다. 입력 영상의 특징 벡터의 디멘션(dimension)과 참조 영상의 특징 벡터의 디멘션은 동일하다. 일 예로, 입력 영상의 특징 벡터는 (0.92, 0.13, 0.57, 0.20)이고, 참조 영상의 특징 벡터는 (0.32, 0.73, 0.11, 0.15)일 수 있다. 이 경우, 두 특징 벡터들 사이의 원소 단위 차는 (0.60, -0.60, 0.46, 0.05)일 수 있다. 실시예에 따라, 입력 영상의 특징과 참조 영상의 특징 간의 차이는 원소 단위 차 이외의 다양한 방식으로 정의될 수 있다.

앞서 언급된 것처럼 비교기는 뉴럴 네트워크로 구현될 수 있다. 혹은, 비교기는 입력된 벡터들 간의 차이를 출력하는 함수로 구현될 수 있다. 이 경우, 비교기는 추출기로부터 특징 벡터들을 수신하고, 특징 벡터들 간의 차이를 비교 결과로 출력할 수 있다.

비교기에 의한 비교 결과는 인식기에 입력될 수 있다. 인식기는 비교 결과에 기초하여 인식 결과를 출력할 수 있다. 인식 결과는 미리 정해진 표정들 중에 입력 영상에 대응하는 표정을 지시할 수 있다. 인식기는 일정한 길이의 벡터를 입력 받고, 해당 벡터에 대응하는 인식 결과를 출력하도록 미리 학습될 수 있다. 보다 구체적으로, 인식기는 입력 영상의 특징과 참조 영상의 특징 간의 차이가 입력됨에 따라, 해당 차이에 대응하는 인식 결과를 출력하도록 미리 학습될 수 있다.

실시예에 따라, 표정 인식 장치(110)는 복수의 참조 영상들을 통해 입력 영상에 나타난 사용자의 표정을 인식할 수 있다. 예를 들어, 표정 인식 장치(110)는 입력 영상의 특징과 제1 참조 영상의 특징 간의 차이에 기초하여 제1 비교 결과를 구하고, 입력 영상의 특징과 제2 참조 영상의 특징 간의 차에 기초하여 제2 비교 결과를 구할 수 있다. 제1 비교 결과 및 제2 비교 결과는 인식기에 입력될 수 있고, 인식기는 인식 결과를 출력할 수 있다.

오토 인코더, 추출기, 비교기 및 인식기는 손실 함수 및 대비 함수에 기초하여 학습될 수 있다. 손실 함수는 학습 대상의 출력의 지향 기준이 되는 라벨(label)과의 차이가 감소하도록 대상을 학습시킬 수 있고, 대비 함수는 학습 대상의 출력의 지양 기준이 되는 라벨과의 차이가 증가하도록 대상을 학습시킬 수 있다. 예를 들어, 오토 인코더는, 손실 함수에 기초하여, 라벨로 제공되는 대상 영상에 가까운 영상을 출력하도록 학습될 수 있다. 또한, 오토 인코더는, 대비 함수에 기초하여, 라벨로 제공되는 입력 영상에 먼 영상을 출력하도록 학습될 수 있다.

표정 인식 장치(110)는 인식 결과를 이용하여 사용자의 감정을 인식할 수 있다. 인식 결과는 미리 정해진 표정들 중에 입력 영상에 대응하는 표정을 지시할 수 있다. 따라서, 표정 인식 장치(110)는 인식 결과를 통해 사용자의 표정을 알 수 있다. 사용자를 실시간으로 촬영하여 입력 영상을 획득하는 경우, 입력 영상에 따라 사용자의 현재 표정을 알 수 있고, 현재 표정을 통해 사용자의 감정 상태를 추정할 수 있다. 따라서, 표정 인식 장치(110)는 사용자의 감정 인식을 요하는 다양한 장치들에 탑재될 수 있다. 예를 들어, 표정 인식 장치(110)는 홈 로봇, 혹은 청중 평가 기기에 탑재될 수 있다. 표정 인식 장치(110)의 탑재에 따라, 홈 로봇은 사용자의 감정에 대응하는 액션을 취할 수 있고, 청중 평가 기기는 강연에 대한 청중의 반응을 파악할 수 있다.

도 2는 일 실시예에 따른 표정들 간의 차이를 나타낸 도면이다. 도 2를 참조하면, 무표정(210) 및 행복한 표정(220)이 도시되어 있다.

이들 표정들 간에는 ε의 차이가 존재하는 것으로 볼 수 있다. 예를 들어, 무표정(210)에 ε을 더하면 행복한 표정(220)이 되고, 행복한 표정(220)에서 ε을 빼면 무표정(210)이 되는 것으로 볼 수 있다. 따라서, 영상들 간의 관계를 다음과 같이 나타낼 수 있다.

I1은 제1 표정을 나타내고, I2는 제2 표정을 나타낸다. ε_t는 제1 표정과 제2 표정의 차이 값이다. 이러한 표정들 간의 차이는 다양한 표정들에 관해 정해질 수 있다. 예를 들어, 무표정과 놀란 표정 간에는 ε₂의 차이가 존재하는 것으로 볼 수 있고, 행복한 표정과 놀란 표정 간에는 ε₃의 차이가 존재하는 것으로 볼 수 있다. 따라서, 다양한 표정들에 관한 차이 값들을 알 수 있다면, 제2 표정으로부터 제1 표정을 추정할 수 있다. 아래에서 설명될 것처럼, 표정 인식 장치(110)는 다양한 표정의 영상들 간의 차이를 미리 학습하고, 입력 영상과 참조 영상의 차이에 기초하여 입력 영상에 나타난 사용자의 표정을 인식할 수 있다.

도 3은 일 실시예에 따른 다양한 표정의 영상들을 나타낸 도면이다. 도 3을 참조하면, 무표정의 영상(310), 행복한 표정의 영상(320), 놀란 표정의 영상(330), 화난 표정의 영상(340) 및 슬픈 표정의 영상(350)이 도시되어 있다.

실시예들에 따르면, 표정 인식을 위해 미리 정해진 수의 표정들이 이용될 수 있다. 아래에서는 5개의 표정이 이용되는 것을 가정하겠으나, 그 이상 또는 그 이하의 표정들이 표정 인식에 이용될 수 있다. 또한, 입력 영상과 비교하기 위한 적어도 하나의 표정이 지정될 수 있다. 예를 들어, 무표정이 기준으로 정해졌다면, 영상(310)이 참조 영상이 된다. 표정 인식 장치는 영상(310)과 나머지 영상들(320 내지 350) 간의 차이를 학습할 수 있다. 예를 들어, 영상(310)과 영상(320) 간의 차이는 D1이고, 영상(310)과 영상(340) 간의 차이는 D2인 것으로 가정할 수 있다. 표정 인식 장치는 입력 영상과 참조 영상 간의 차이가 D1이라면, 입력 영상이 행복한 표정을 나타내는 것으로 결정할 수 있고, 입력 영상과 참조 영상 간의 차이가 D2라면, 입력 영상이 화난 표정을 나타내는 것으로 결정할 수 있다.

입력 영상과 참조 영상 간의 차이를 결정하기 위해, 표정 인식 장치에 참조 영상이 제공되어야 한다. 상술된 것처럼, 참조 영상은 사용자에 의해 촬영되어 표정 인식 장치에 제공되거나, 표정 인식 장치에 의해 직접 생성될 수 있다. 앞선 예시와 같이 무표정이 기준이 되는 경우, 표정 인식 장치 혹은 표정 인식 장치가 탑재된 기기는, 사용자에게 무표정을 취할 것을 요구할 수 있고, 무표정 상태의 사용자를 촬영하여 참조 영상을 획득할 수 있다. 또는, 표정 인식 장치는 입력 영상에 기초하여 참조 영상을 생성하도록 미리 학습될 수 있다. 이 경우, 표정 인식 장치는 입력 영상을 수신함에 따라 입력 영상에 기초하여 참조 영상을 생성할 수 있다. 기준이 되는 표정이 무표정이 아닌 다른 표정인 경우, 표정 인식 장치는 해당 표정에 대응하는 참조 영상을 촬영하거나 생성할 수 있고, 해당 참조 영상에 따라 입력 영상에 나타난 표정을 인식할 수 있다.

또한, 상술된 것처럼, 복수의 참조 영상들이 이용될 수 있다. 예를 들어, 무표정 및 행복한 표정이 기준으로 정해졌다면, 영상(310)이 제1 참조 영상이 되고, 영상(320)이 제2 참조 영상이 된다. 표정 인식 장치는 영상(310)과 나머지 영상들(320 내지 350) 간의 차이, 및 영상(320)과 나머지 영상들(310, 330 내지 350) 간의 차이를 학습할 수 있다. 예를 들어, 영상(310)과 영상(330) 간의 차이는 D3이고, 영상(320)과 영상(330) 간의 차이는 D4인 것으로 가정할 수 있다. 표정 인식 장치는 입력 영상과 제1 참조 영상 간의 차이가 D3이고, 입력 영상과 제2 참조 영상 간의 차이가 D4라면, 입력 영상이 놀란 표정을 나타내는 것으로 결정할 수 있다.

또는, 표정 인식 장치는 차이 값들의 합을 학습한 수 있다. 이 경우, 입력 영상과 제1 참조 영상 간의 차이 값, 및 입력 영상과 제2 참조 영상 간의 차이 값의 합이 D3 + D4인 것에 따라, 표정 인식 장치는 입력 영상이 놀란 표정을 나타내는 것으로 결정할 수 있다. 복수의 참조 영상들이 이용되는 경우, 표정 인식 장치 혹은 표정 인식 장치가 탑재된 기기는, 복수의 참조 영상들을 촬영하거나 생성하여 입력 영상의 표정을 인식할 수 있다. 또한, 표정 인식 장치는 미리 학습된 복수의 오토 인코더들을 이용하여 복수의 참조 영상들을 생성할 수 있다.

도 4는 일 실시예에 따른 참조 영상을 수신하여 표정을 인식하는 과정을 나타낸 도면이다. 도 4를 참조하면, 추출기(410)는 입력 영상을 수신하고, 추출기(420)는 참조 영상을 수신한다.

참조 영상은 미리 정해진 표정의 사용자가 촬영된 것일 수 있다. 추출기(410)는 입력 영상으로부터 특징을 추출하고, 추출기(420)는 참조 영상으로부터 특징을 추출할 수 있다. 비교기(430)는 입력 영상의 특징과 참조 영상의 특징 간의 차이에 기초하여 비교 결과를 출력할 수 있다. 인식기(440)는 비교 결과에 기초하여 인식 결과를 출력할 수 있다. 인식 결과는 미리 정해진 표정들 중에 입력 영상에 대응하는 표정을 나타낼 수 있다.

도 5는 일 실시예에 따른 참조 영상을 생성하여 표정을 인식하는 과정을 나타낸 도면이다. 도 5를 참조하면, 오토 인코더(510)는 인코더(511) 및 디코더(513)를 포함한다.

오토 인코더(510)는 입력 영상에 기초하여 참조 영상을 생성할 수 있다. 보다 구체적으로, 인코더(511)는 입력 영상을 인코딩할 수 있고, 디코더(513)는 인코딩된 입력 영상을 디코딩할 수 있다. 여기서, 디코더(513)의 출력이 참조 영상에 해당할 수 있다. 오토 인코더(510)는 입력 영상의 입력에 따라 참조 영상을 생성하도록 미리 학습될 수 있다. 추출기(520)는 입력 영상으로부터 특징을 추출하고, 추출기(530)는 오토 인코더(510)에 의해 생성된 참조 영상으로부터 특징을 추출할 수 있다. 비교기(540)는 입력 영상의 특징과 참조 영상의 특징 간의 차이에 기초하여 비교 결과를 출력할 수 있다. 인식기(550)는 비교 결과에 기초하여 인식 결과를 출력할 수 있다.

도 6은 일 실시예에 따른 복수의 참조 영상들을 통해 표정을 인식하는 과정을 나타낸 도면이다. 도 6을 참조하면, 입력 영상은 추출기(621), 오토 인코더들(611 내지 615)로 제공된다.

오토 인코더들(611, 613, 615)은 각각 제1 참조 영상, 제2 참조 영상 및 제n 참조 영상을 생성할 수 있다. 추출기들(621 내지 627)은 각각 입력 영상, 제1 참조 영상, 제2 참조 영상 및 제n 참조 영상으로부터 특징을 추출할 수 있다. 비교기(631)는 입력 영상의 특징과 제1 참조 영상의 특징 간의 차이에 기초하여 제1 비교 결과를 출력할 수 있고, 비교기(633)는 입력 영상의 특징과 제2 참조 영상의 특징 간의 차이에 기초하여 제2 비교 결과를 출력할 수 있고, 비교기(635)는 입력 영상의 특징과 제n 참조 영상의 특징 간의 차이에 기초하여 제n 비교 결과를 출력할 수 있다. 인식기(614)는 제1 비교 결과 내지 제n 비교 결과에 기초하여 인식 결과를 출력할 수 있다.

도 7은 일 실시예에 따른 손실 함수를 이용하여 오토 인코더를 학습시키는 과정을 나타낸 도면이다. 도 7을 참조하면, 오토 인코더(710)의 학습을 위한 손실 함수(R1)가 도시되어 있다.

오토 인코더(710)는 인코더(711) 및 디코더(713)를 포함한다. 인코더(711) 및 디코더(713)는 참조 영상을 통해 나타내고자 하는 표정에 대응하는 대상 영상과 참조 영상 간의 차이가 감소하도록 학습될 수 있다. 앞서 언급된 것처럼, 다양한 표정들 중에 적어도 하나의 표정이 기준으로 정해질 수 있고, 대상 영상은 기준이 되는 표정을 나타낼 수 있다. 예를 들어, 무표정이 기준으로 정해졌다면, 무표정을 나타내는 영상이 대상 영상이 될 수 있다. 오토 인코더(710)에 의해 생성된 참조 영상(

)은 다음과 같이 나타낼 수 있다.

여기서, f₀는 인코더(511)의 인코딩 함수를 나타내고, g₀는 디코더(513)의 디코딩 함수를 나타내고, I는 입력 영상을 나타내고, I'는 I에 관한 f₀의 출력을 나타낸다. 일 측에 따르면, 인코딩 함수(f₀) 및 디코딩 함수(g₀)는 확률 모델일 수 있다. 예를 들어, 인코딩 함수(f₀) 및 디코딩 함수(g₀)는 다음과 같이 나타낼 수 있다.

여기서, q는 f₀의 확률 모델을 나타내고, p는 g₀의 확률 모델을 나타내고, I₀는 대상 영상을 나타낸다. 오토 인코더(710)는 손실 함수(R1)에 기초하여 학습될 수 있다. 손실 함수(R1)에 기초하여 학습된 파라미터(

)는 다음과 같이 나타낼 수 있다.

오토 인코더(710)는 수학식 4에 따라 참조 영상(

)과 대상 영상(I₀)의 차이가 최소화되도록 반복적으로 학습될 수 있다. 따라서, 오토 인코더(710)는 입력 영상(I)에 기초하여 대상 영상(I₀)에 근접한 참조 영상(

)을 생성할 수 있다.

도 8은 일 실시예에 따른 손실 함수를 이용하여 추출기를 학습시키는 과정을 나타낸 도면이다. 도 8을 참조하면, 변환기들(850, 860)의 학습을 위한 손실 함수들(R2, R3)이 도시되어 있다.

추출기(820)는 입력 영상에서 특징을 추출하고, 추출기(830)는 오토 인코더(810)에 의해 출력된 참조 영상에서 특징을 추출한다. 또한, 변환기(850)는 입력 영상의 특징을 제1 영상으로 변환하고, 변환기(860)는 참조 영상의 특징을 제2 영상으로 변환한다. 손실 함수들(R2, R3)에 기초하여 오토 인코더(810), 추출기들(820, 830) 및 변환기들(850, 860)이 학습될 수 있다. 손실 함수(R2)에 기초하여 학습된 파라미터(

)는 다음과 같이 나타낼 수 있다.

여기서, f는 추출기(820)의 인코딩 함수를 나타내고, g₁은 변환기(850)의 디코딩 함수를 나타내고, I는 입력 영상을 나타내고,

는 변환기(850)에 의해 변환된 제1 영상을 나타낸다. 변환기(850)는 수학식 5에 따라 입력 영상(I)과 제1 영상(

)의 차이가 최소화되도록 반복적으로 학습될 수 있다. 또한, 손실 함수(R3)에 기초하여 학습된 파라미터(

)는 다음과 같이 나타낼 수 있다.

여기서, f는 추출기(830)의 인코딩 함수를 나타내고, g₁₀은 변환기(860)의 디코딩 함수를 나타내고, I₀는 대상 영상을 나타내고,

는 변환기(860)에 의해 변환된 제2 영상을 나타낸다. 추출기들(820)이 파라미터를 서로 공유하므로, 추출기들(820)의 인코딩 함수는 동일하게 정의될 수 있다. 변환기(860)는 수학식 6에 따라 대상 영상(I₀)과 제2 영상(

)의 차이가 최소화되도록 반복적으로 학습될 수 있다.

변환기들(850, 860)의 학습에 따른 역 전파(back propagation)의 영향으로, 오토 인코더(810) 및 추출기들(820, 830)이 함께 학습될 수 있다. 학습이 진행됨에 따라, 오토 인코더(810) 및 추출기들(820, 830)의 정확도가 향상되므로, 표정 인식 장치의 인식 성능이 향상될 수 있다.

도 9는 일 실시예에 따른 대비 함수를 이용한 학습 과정을 나타낸 도면이다. 도 9를 참조하면, 오토 인코더(910), 추출기들(920, 930) 및 변환기들(950, 960)의 학습을 위한 대비 함수들(S1 내지 S3)이 도시되어 있다.

오토 인코더(910)는 대비 함수(S1)에 기초하여 입력 영상과 참조 영상 간의 차이가 임계치 내에서 증가하도록 학습될 수 있다. 대비 함수(S1)는 다음과 같이 나타낼 수 있다.

여기서, I는 입력 영상을 나타내고,

는 참조 영상을 나타내고, m은 임계치를 나타낸다. 오토 인코더(910)는 대비 함수(S1)가 최소화되도록 학습될 수 있다. 따라서, 오토 인코더(910)의 학습에 따라, 입력 영상(I)과 참조 영상(

) 간의 차이는 임계치(m) 내에서 증가할 수 있다. 또한, 추출기들(920, 930)은 대비 함수(S2)에 기초하여 입력 영상(I)의 특징과 참조 영상(

)의 특징 간의 차이가 임계치 내에서 증가하도록 학습될 수 있다. 대비 함수(S2)는 다음과 같이 나타낼 수 있다.

여기서, f는 추출기들(920, 930)의 인코딩 함수를 나타내고,

는 입력 영상(I)의 특징을 나타내고,

는 참조 영상(

)의 특징을 나타낸다. 추출기들(920, 930)은 대비 함수(S2)가 최소화되도록 학습될 수 있다. 따라서, 추출기들(920, 930)의 학습에 따라, 입력 영상(I)의 특징(

)과 참조 영상(

)의 특징(

) 간의 차이는 임계치(m) 내에서 증가할 수 있다. 추출기들(920, 930)의 학습에 따른 역 전파의 영향으로, 오토 인코더(910)가 함께 학습될 수 있다.

변환기들(950, 960)은 대비 함수(S3)에 기초하여 변환기(950)에 의해 변환된 제1 영상과 변환기(960)에 의해 변환된 제2 영상 간의 차이가 임계치 내에서 증가하도록 학습될 수 있다. 대비 함수(S3)는 다음과 같이 나타낼 수 있다.

여기서, g₁은 변환기(950)의 디코딩 함수를 나타내고, g₁₀은 변환기(960)의 디코딩 함수를 나타내고,

는 변환기(950)에 의해 변환된 제1 영상을 나타내고,

는 변환기(960)에 의해 변환된 제2 영상을 나타낸다. 변환기들(950, 960)은 대비 함수(S3)가 최소화되도록 학습될 수 있다. 따라서, 변환기들(950, 960)의 학습에 따라, 제1 영상(

)과 제2 영상(

) 간의 차이는 임계치(m) 내에서 증가할 수 있다. 변환기들(950, 960)의 학습에 따른 역 전파(back propagation)의 영향으로, 오토 인코더(810) 및 추출기들(820, 830)이 함께 학습될 수 있다. 대비 함수들(S1 내지 S3)에 따라 입력 영상(I)과 참조 영상(

) 간에 최소 거리가 형성되므로, 표정 인식 장치는 인접한 표정들도 비교적 정확하게 검출할 수 있다.

도 10은 일 실시예에 따른 손실 함수 및 대비 함수를 이용한 학습 과정을 나타낸 도면이다. 도 10을 참조하면, 손실 함수들(R1 내지 R3) 및 대비 함수들(S1 내지 S3)이 도시되어 있다.

일 측에 따르면, 표정 인식 장치는 손실 함수들(R1 내지 R3) 및 대비 함수들(S1 내지 S3) 중 적어도 하나에 의해 학습될 수 있다. 보다 구체적으로, 입력 영상의 표정과 대상 영상의 표정의 종류가 다를 경우, 표정 인식 장치는 대비 함수에 기초하여 학습될 수 있다. 혹은, 입력 영상의 표정과 대상 영상의 표정의 종류가 같을 경우, 표정 인식 장치는 대비 함수 대신 손실 함수에 기초하여 학습될 수 있다. 입력 영상의 표정과 대상 영상의 표정 간의 차이는 미리 정해진 임계치에 기초하여 비교될 수 있다. 예를 들어, 입력 영상의 표정과 대상 영상 간의 유사도가 미리 정해진 임계치보다 높은 경우, 표정 인식 장치는 대비 함수들(S1 내지 S3)에 기초하여 학습될 수 있고, 입력 영상의 표정과 대상 영상 간의 유사도가 미리 정해진 임계치보다 낮은 경우, 표정 인식 장치는 손실 함수들(R1 내지 R3)에 기초하여 학습될 수 있다. 다른 일 측에 따르면, 표정 인식 장치는 인식 결과에 기초하여 학습될 수 있다. 예를 들어, 입력 영상은 입력 영상이 나타내는 표정에 관한 라벨과 매핑될 수 있다. 표정 인식 장치는 인식 결과와 입력 영상의 라벨 간의 차이가 감소하도록 학습될 수 있다.

도 11은 일 실시예에 따른 복수의 대상 영상을 이용한 학습 과정을 나타낸 도면이다. 도 11을 참조하면, 오토 인코더들(1111 내지 1115)이 도시되어 있다.

오토 인코더들(1111 내지 1115)은 각각 입력 영상에 기초하여 제1 참조 영상 내지 제n 참조 영상을 생성할 수 있다. 오토 인코더(1111)는 손실 함수(R4)에 기초하여 대상 영상(10)과 제1 참조 영상 간의 차이가 감소하도록 학습될 수 있고, 오토 인코더(1113)는 손실 함수(R5)에 기초하여 대상 영상(20)과 제2 참조 영상 간의 차이가 감소하도록 학습될 수 있고, 오토 인코더(1115)는 손실 함수(R6)에 기초하여 대상 영상(30)과 제3 참조 영상 간의 차이가 감소하도록 학습될 수 있다. 오토 인코더들(1111 내지 1115)은 상술된 수학식 4에 따라 반복적으로 학습될 수 있다. 따라서, 오토 인코더들(1111 내지 1115)은 입력 영상에 기초하여 대상 영상들(20 내지 40)에 근접한 제1 참조 영상 내지 제n 참조 영상을 생성할 수 있다.

도 12는 일 실시예에 따른 표정 인식 장치를 나타낸 블록도이다. 도 12를 참조하면, 표정 인식 장치는 프로세서(1210), 센서(1220) 및 메모리(1230)를 포함한다. 프로세서(1210), 센서(1220) 및 메모리(1230)는 버스(1240)를 통하여 서로 통신할 수 있다.

센서(1220)는 입력 영상 및 참조 영상을 촬영하기 위한 이미지 센서, 근접 센서 및 적외선 센서 중 적어도 하나를 포함할 수 있다 . 센서(1220)는 잘 알려진 방식(예를 들어, 광학 이미지를 전기 신호로 변환하는 방식 등)으로 입력 영상 및 참조 영상을 촬영할 수 있다. 센서(1220)는 촬영된 컬러 영상, 깊이 영상 및 적외선 영상 중 적어도 하나를 프로세서(1210) 및 메모리(1230) 중 적어도 하나로 전달할 수 있다.

프로세서(1210)는 상술한 적어도 하나의 장치들을 포함하거나, 상술한 적어도 하나의 방법을 수행할 수 있다. 예를 들어, 프로세서(1210)는 상술된 표정 인식에 관한 동작을 처리할 수 있다. 보다 구체적으로, 프로세서(1210)는 입력 영상으로부터 특징을 추출하고, 참조 영상으로부터 특징을 추출하고, 입력 영상의 특징과 참조 영상의 특징 간의 차이에 기초하여 사용자의 표정을 인식할 수 있다.

메모리(1230)는 컴퓨터에서 읽을 수 있는 명령어들을 저장할 수 있다. 메모리(1230)에 저장된 명령어들이 프로세서(1210)에서 실행되면, 프로세서(1210)는 상술된 표정 인식에 관한 동작을 처리할 수 있다. 또한, 메모리(1230)는 상술된 표정 인식에 관한 데이터를 저장할 수 있다. 예를 들어, 메모리(1230)는 오토 인코더, 추출기, 비교기 및 인식기에 관한 파라미터를 저장할 수 있다.

프로세서(1210)는 명령어들이나 프로그램들을 실행하거나, 표정 인식 장치를 제어할 수 있다. 표정 인식 장치는 입출력 장치(도면 미 표시)를 통하여 외부 장치(예를 들어, 퍼스널 컴퓨터 또는 네트워크)에 연결되고, 데이터를 교환할 수 있다. 표정 인식 장치는 이동 전화, 스마트 폰, PDA, 태블릿 컴퓨터, 랩톱 컴퓨터 등 모바일 장치, 퍼스널 컴퓨터, 태블릿 컴퓨터, 넷북 등 컴퓨팅 장치, 또는 텔레비전, 스마트 텔레비전, 게이트 제어를 위한 보안 장치 등 전자 제품 등의 적어도 일부로 구현될 수 있다. 그 밖에, 표정 인식 장치에 관해서는 상술된 내용이 적용될 수 있으며, 보다 상세한 설명은 생략한다.

도 13은 일 실시예에 따른 표정 인식 방법을 나타낸 동작 흐름도이다. 도 13을 참조하면, 단계(1310)에서, 표정 인식 장치는 입력 영상으로부터 특징을 추출한다. 단계(1320)에서, 표정 인식 장치는 참조 영상으로부터 특징을 추출한다. 단계(1330)에서, 표정 인식 장치는 입력 영상의 특징과 참조 영상의 특징 간의 차이에 기초하여 사용자의 표정을 인식한다. 그 밖에, 표정 인식 방법에 관해서는 상술된 내용이 적용될 수 있으며, 보다 상세한 설명은 생략한다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(Arithmetic Logic Unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(Field Programmable Gate Array), PLU(Programmable Logic Unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

Claims

입력 영상으로부터 상기 입력 영상에 표현된 제1 표정에 대응하는 제1 특징을 추출하는 단계;
상기 입력 영상에 기초하여 참조 영상을 생성하는 단계;
상기 참조 영상으로부터 상기 참조 영상에 표현된 제2 표정에 대응하는 제2 특징을 추출하는 단계;
상기 제1 특징 및 상기 제2 특징에 기초하여 상기 제1 표정과 상기 제2 표정 간의 차이를 결정하는 단계; 및
상기 결정된 상기 제1 표정과 상기 제2 표정 간의 차이에 기초하여 사용자의 표정을 인식하는 단계
를 포함하고,
상기 참조 영상을 생성하는 단계는
인코더를 통해 상기 입력 영상을 인코딩 특징으로 인코딩하는 단계; 및
디코더를 통해 상기 인코딩 특징을 디코딩함으로써, 상기 참조 영상을 생성하는 단계
를 포함하고,
상기 인코더 및 상기 디코더는
상기 입력 영상과 상기 참조 영상 간의 차이가 임계치 내에서 증가하도록 기계 학습 기반으로 미리 학습되는,
표정 인식 방법.
삭제
삭제
제1항에 있어서,
상기 인코더 및 상기 디코더는 상기 참조 영상을 통해 나타내고자 하는 표정에 대응하는 대상 영상과 상기 참조 영상 간의 차이가 감소하도록 미리 학습되는, 표정 인식 방법.
삭제
제1항에 있어서,
상기 입력 영상의 특징과 상기 참조 영상의 특징은 미리 학습된 추출기들에 의해 추출되는, 표정 인식 방법.
제6항에 있어서,
상기 추출기들은 상기 입력 영상의 특징에 기초하여 변환된 제1 영상과 상기 입력 영상 간의 차이, 및 상기 참조 영상의 특징에 기초하여 변환된 제2 영상과 상기 참조 영상을 통해 나타내고자 하는 표정에 대응하는 대상 영상 간의 차이가 감소하도록 미리 학습되는, 표정 인식 방법.
제7항에 있어서,
상기 추출기들은 상기 제1 영상과 상기 제2 영상 간의 차이가 임계치 내에서 증가하도록 미리 학습되는, 표정 인식 방법.
제6항에 있어서,
상기 추출기들은 상기 입력 영상의 특징과 상기 참조 영상의 특징 간의 차이가 임계치 내에서 증가하도록 미리 학습되는, 표정 인식 방법.
제6항에 있어서,
상기 추출기들은 파라미터를 공유하는, 표정 인식 방법.
제1항에 있어서,
상기 참조 영상으로부터 특징을 추출하는 단계는
제1 참조 영상 및 제2 참조 영상 각각으로부터 특징을 추출하는 단계를 포함하고,
상기 사용자의 표정을 인식하는 단계는
상기 입력 영상의 특징과 상기 제1 참조 영상의 특징 간의 차이, 및 상기 입력 영상의 특징과 상기 제2 참조 영상의 특징 간의 차이에 기초하여 상기 사용자의 표정을 인식하는 단계를 포함하는,
표정 인식 방법.
하드웨어와 결합되어 제1항, 제4항, 및 제6항 내지 제11항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
프로세서; 및
컴퓨터에서 읽을 수 있는 명령어를 포함하는 메모리
를 포함하고,
상기 명령어가 상기 프로세서에서 실행되면, 상기 프로세서는 입력 영상으로부터 상기 입력 영상에 표현된 제1 표정에 대응하는 제1 특징을 추출하고, 상기 입력 영상에 기초하여 참조 영상을 생성하고, 상기 참조 영상으로부터 상기 참조 영상에 표현된 제2 표정에 대응하는 제2 특징을 추출하고, 상기 제1 특징 및 상기 제2 특징에 기초하여 상기 제1 표정과 상기 제2 표정 간의 차이를 결정하고, 상기 결정된 상기 제1 표정과 상기 제2 표정 간의 차이에 기초하여 사용자의 표정을 인식하고,
상기 프로세서는 인코더를 통해 상기 입력 영상을 인코딩 특징으로 인코딩하고, 디코더를 통해 상기 인코딩 특징을 디코딩함으로써, 상기 참조 영상을 생성하고,
상기 인코더 및 상기 디코더는 상기 입력 영상과 상기 참조 영상 간의 차이가 임계치 내에서 증가하도록 기계 학습 기반으로 미리 학습되는, 표정 인식 장치.
삭제
삭제
제13항에 있어서,
상기 인코더 및 상기 디코더는 상기 참조 영상을 통해 나타내고자 하는 표정에 대응하는 대상 영상과 상기 참조 영상 간의 차이가 감소하도록 미리 학습되는, 표정 인식 장치.
삭제
제13항에 있어서,
상기 입력 영상의 특징과 상기 참조 영상의 특징은 미리 학습된 추출기들에 의해 추출되는, 표정 인식 장치.
제18항에 있어서,
상기 추출기들은 상기 입력 영상의 특징에 기초하여 변환된 제1 영상과 상기 입력 영상 간의 차이, 및 상기 참조 영상의 특징에 기초하여 변환된 제2 영상과 상기 참조 영상을 통해 나타내고자 하는 표정에 대응하는 대상 영상 간의 차이가 감소하도록 미리 학습되는, 표정 인식 장치.
제19항에 있어서,
상기 제1 영상과 상기 제2 영상은 미리 학습된 변환기들에 의해 변환되고,
상기 변환기들은 상기 제1 영상과 상기 제2 영상 간의 차이가 임계치 내에서 증가하도록 미리 학습되는, 표정 인식 장치.
제18항에 있어서,
상기 추출기들은 상기 입력 영상의 특징과 상기 참조 영상의 특징 간의 차이가 임계치 내에서 증가하도록 미리 학습되는, 표정 인식 장치.
제18항에 있어서,
상기 추출기들은 파라미터를 공유하는, 표정 인식 장치.
제13항에 있어서,
상기 참조 영상은 제1 참조 영상 및 제2 참조 영상을 포함하고,
상기 프로세서는 상기 제1 참조 영상 및 상기 제2 참조 영상 각각으로부터 특징을 추출하고, 상기 입력 영상의 특징과 상기 제1 참조 영상의 특징 간의 차이, 및 상기 입력 영상의 특징과 상기 제2 참조 영상의 특징 간의 차이에 기초하여 상기 사용자의 표정을 인식하는, 표정 인식 장치.