KR102198360B1

KR102198360B1 - 얼굴 영상 기반의 시선 추적 시스템 및 방법

Info

Publication number: KR102198360B1
Application number: KR1020190133313A
Authority: KR
Inventors: 장주용; 김희균
Original assignee: 광운대학교 산학협력단
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2021-01-04

Abstract

얼굴 영상 기반의 시선 추적 시스템 및 방법이 개시된다. 얼굴 영상 기반의 시선 추적 시스템은 IPTV, 스마트 TV, 인터렉티브 TV 서비스를 위해, 대상 사람의 얼굴 영상을 입력받아 이미지를 캡춰하여 인공 신경망(ANN, Artificial Neural Network) 기술을 사용하여 얼굴 특징점 추출부에 의해 대상 사람의 얼굴 영상으로부터 N개의 얼굴 특징점들(눈, 눈썹, 코, 입, 윤곽선)을 추출하고, 특징점 기반 영상 추출부에 의해 특징점 기반 추출된 영상과 N개의 얼굴 특징점을 기반으로 인공 신경망 기술을 사용하여 Attention 벡터 계산부에 의해 특징점 기반 영상 추출부에 의해 특징점 기반 추출된 영상과 N개의 얼굴 특징점들을 기반으로 얼굴 영상의 눈동자의 시선이 포커싱된 TV 모니터로의 시선 벡터의 상하좌우 각도와 크기와 방향을 추적하여 얼굴 영상의 시선 추적 결과를 제공한다.

Description

얼굴 영상 기반의 시선 추적 시스템 및 방법{Eye tracking system and method based on face images}

본 발명은 얼굴 영상 기반의 시선 추적 시스템 및 방법에 관한 것으로, 보다 상세하게는 카메라 영상의 얼굴 인식시에 실시간으로 사람의 얼굴 영상을 입력받아 얼굴 특징점 추출부에 의해 얼굴 영상으로부터 N개의 얼굴 특징점들(눈, 눈썹, 코, 입, 윤곽선)을 추출하고, 특징점 기반 영상 추출부에 의해 특징점 기반 추출된 주요 영상과 N개의 얼굴 특징점들을 기반으로 시선 추적부가 대상으로의 시선을 추적하는, 얼굴 영상 기반의 시선 추적 시스템 및 방법에 관한 것이다.

얼굴 인식(Face Recognition) 기술은 1990년대 초기에 소개된 형상 기반 매칭 방법(appearance based matching method), 및 특징(faeture) 기반의 얼굴 인식이 주로 사용된다. 그러나, 얼굴 인식은 카메라의 촬영 각도, 조명의 방향, 자세, 표정의 변화 및 시간에 따른 얼굴의 변화에 다르게 인식된다.

얼굴 인식은 템플릿 매칭(Template Matching) 방법, PCA(Principal Component Analysis) 기반 Eigen Vector를 추출하는 방법, ANN(Artificial Neural Network)을 사용하는 방법 등이 적용 가능하다.

템플릿 매칭 방법은 얼굴 인식시에 눈, 눈썹, 코, 입, 윤곽선의 특징점을 구하고, 눈, 코, 입, 윤곽선 등의 특징값을 구한 후 특징 벡터(vector) 주위의 일정 영역을 템플릿으로 정하여 얼굴 인식을 하며 조명이나, 얼굴 이미지의 크기, 각도/기울기 등에 민감하다. K-L Transform을 이용한 PCA는 고유 얼굴 eigen vector를 추출하는데 효율적이다. ANN 방법은 얼굴 이미지에서 특징값들을 추출하지 않고 픽셀 영상을 인공 신경망(Neural Network)에 입력하여 얼굴을 인식하는 방법이다.

얼굴 인식 추출부의 특징벡터는 얼굴인식에 사용되는 특징값들을 원소로 가지는 벡터이 다. 고유 얼굴(eigen vector)의 특징벡터를 추출하는데 사용되는 필터로써 Gabor 필터, Haar 필터, LBP(Local Binary Pattern)- DLBP(Discriminative LBP), ULBP(Uniform LBP), NLBP(Number BP)- 등 여러가지 필터가 사용될 수 있다.

템플릿 매칭(Template Matching) 방법으로써, 특징(faeture) 기반의 얼굴 인식은 카메라로 촬영된 영상 데이터를 haar-like feature를 이용한 검출 방법과 MCT(Modified Census Transform) 영상을 이용한 검출 방법이 사용된다. 예를들면, 디지털 카메라 또는 스마트폰의 카메라의 입력 영상에서 Haar-like feature로 학습된 얼굴 및 눈 검출기를 사용하여 얼굴의 윤곽선(턱 선)과 눈/눈썹/코/입을 검출하고, 원형의 눈동자를 검출하기 위해 관심 영역(ROI, Region of Interest)으로 설정된 눈 영역을 grayscale로 변환하며, 눈 영역에서 눈동자와 눈의 외곽선 영역이 추출되는 실험에 의한 통계적인 임계값(threshold)을 사용하여 눈 이미지의 histogram[x축 각 픽셀의 화소값, y축 해당 화소 값의 갯수]을 구하고 눈의 이미지를 이진화(binarization)한 후, 히스토그램 평활화(histogram equalization)를 통해 눈 영역의 사진의 전처리를 수행하며, 얼굴 영역에서 눈썹과 눈, 코, 입, 턱의 특징 데이터를 검출하고, 텍스처 특징(Texture Faetures)과 형상 특징(Shape Features)을 추출하여 얼굴 인식 DB에 저장된 얼굴 사진의 특징점들과 유사도를 비교하여 얼굴이 인식된다.

얼굴 영역의 눈썹과 눈, 코, 입, 턱의 특징 값은 Haar-like feature의 흰 영역에서 포함되는 픽셀들의 합에서 검은 영역에서 포함되는 픽셀의 합의 차로 표현된다.

예를들면, 표준 크기의 얼굴 영역 사진에서 검출된 눈 영역에서 오른쪽과 왼쪽 눈의 양쪽 끝점 까지의 거리, 허프 원 변환(hough circle transform) 알고리즘을 사용하여 추출된 눈동자(iris)의 크기 값이 특징 값으로 사용된다.

얼굴 인식 시에, 카메라의 촬영 각도가 달라지게 되면, 표준 크기의 정면에서 촬영된 동일인의 얼굴과 비교하여 다른 각도에서 촬영된 동일인의 얼굴의 특징점이 달라지고, 다른 사람으로 인식하게 되는 문제가 있었다.

촬영 각도가 다른 얼굴 사진은 관심 지역(ROI, Region of Interest)의 얼굴 영역의 보통 크기의 사진을 추출하고, 이미지 프로세싱(image processing)을 통해 영상 축소/확대를 통해 회전 보통 크기의 사진로부터 일정한 표준 크기의 사진으로 크기를 보정하고, 표준 크기의 사진으로 '크기 보정', 영상 회전을 통해 '각도 보정'을 해야 한다. 크기 보정, 각도 보정이 된 표준 크기의 얼굴 사진 데이터의 특징값을 추출하여 저장하며,얼굴 사진 데이터의 특징값과 기 구축된 얼굴 데이터베이스의 얼굴들의 특징점(이마, 눈, 코, 입, 턱선 등)들의 특징값의 유사도를 비교 검색하여, 유사도가 높은 얼굴로 개인 얼굴 사진을 식별해야 한다.

이와 관련된 선행기술로써, 특허출원번호 10-2018-0142146에서는 "얼굴 영상 기반의 감정 인식 시스템 및 방법"을 특허출원되어 있다.

얼굴 영상 기반의 감정 인식 시스템은 얼굴 인식을 위한 개인별 얼굴 사진과 기계 학습(machine learning)에 의해 개인별 얼굴 사진의 감정 상태에 따른 얼굴의 윤곽선, 눈썹과 눈, 코와 입, 턱을 포함하는 얼굴의 특징점들과 그 얼굴 사진과 관련된 감정 상태에 따른 영상 패치 기반 데이터를 저장하는 저장된 얼굴 인식 DB와 얼굴 인식 시스템; 및 상기 얼굴 인식 DB와 연동되며, 대상 사람의 얼굴 영상 를 입력받아 N개의 얼굴 특징점들을 추출하고, 특징점 기반 감정 인식 결과 와 그 특징점들 근처의 영상 패치로부터 영상 기반의 감정인식 결과 를 제공하여 대상 사람의 얼굴의 최종 감정 인식 결과를 출력하는 감정 인식 시스템을 포함한다.

그러나, IPTV, 스마트 TV, 인터렉티브 TV 서비스를 위해, 대상 사람의 얼굴 영상으로부터 추출된 특징점(눈, 눈썹, 코, 입, 윤곽선)을 기반으로 얼굴 영상과 얼굴의 특징점 정보를 추출하여 시선을 추적하는 시스템이 개발되지 않았다.

특허등록번호 10-21470520000 (등록일자 2020년 08월 17일), " 얼굴 영상 기반의 감정 인식 시스템 및 방법", 장주용, 광운대학교 산학협력단

상기 문제점을 해결하기 위한 본 발명의 목적은 카메라 영상의 얼굴 인식시에 실시간으로 사람의 얼굴 영상을 입력받아 이미지를 캡춰하여 인공 신경망(ANN, Artificial Neural Network) 기술을 사용하여 얼굴 특징점 추출부에 의해 얼굴 영상으로부터 N개의 얼굴 특징점들(눈, 눈썹, 코, 입, 윤곽선)을 추출하고, 특징점 기반 영상 추출부에 의해 특징점 기반 추출된 주요 영상과 N개의 얼굴 특징점들을 기반으로 시선 추적부가 대상(TV 모니터)으로의 시선을 추적하는, 얼굴 영상 기반의 시선 추적 시스템을 제공한다.

본 발명의 목적은 얼굴 영상 기반의 시선 추적 방법을 제공한다.

본 발명의 목적을 달성하기 위해, 얼굴 영상 기반의 시선 추적 시스템은 대상 사람의 얼굴 영상 I(x,y)을 입력받아 입력층/은닉층/출력층을 포함하는 인공 신경망(ANN) 기술을 사용하여 상기 얼굴 영상 I(x,y)으로부터 N개의 얼굴 특징점들을 추출하고, 상기 N개의 얼굴 특징점에 대한 좌표

와 P개의 얼굴 정보 {

,

, …

}들을 출력하는 얼굴 특징점 추출부; 상기 얼굴 영상 I(x,y)과 상기 얼굴 특징점 추출부로부터 상기 N개의 얼굴 특징점들을 입력받아 M개의 주요 영상 {

,

, …

}들을 출력하는 특징점 기반 영상 추출부; 및 상기 특징점 기반 영상 추출부의 상기 M개의 주요 영상들과 상기 얼굴 특징점 추출부의 출력인 P개의 얼굴 정보들을 입력받아 인공 신경망 기술을 사용하여 Attention 벡터 계산부에 의해 계산된 얼굴 영상의 눈동자의 시선 추적 결과를 출력하는 시선 추적부를 포함하며,
상기 특징점 기반 영상 추출부는 영상 처리를 통해 구현되며 2차원(흑백) 또는 3차원(RGB) 입력 영상의 픽셀(Pixel)은 각각 2차원(width, height), 3차원(channel, width, height)의 배열로 표현될 수 있고, 배열의 값은 밝기(2차원) 또는 색(3차원)을 나타내며, 상기 특징점 기반 영상 추출부는 상기 얼굴 특징점 추출부에서 출력된 N개의 얼굴 특징점 좌표를 통해 이러한 배열에서 원하는 부분을 추출할 수 있으며, 추출된 부분은 입력 영상의 차원에 따라 2차원 또는 3차원의 영상이 되며, 이러한 과정을 M번 반복하여 M개의 주요 영상 {

,

, …

}들을 추출하고,
상기 시선 추적부는 인공 신경망(Artificial Neural Network)을 통해 구현되며, 특징점 기반으로 추출된

개의 주요 영상과 P개의 얼굴 정보들을 입력받아,
TV 모니터 화면의 중앙 상단에 구비된 거리 측정 센서에 의해 시청자의 얼굴 영상의 눈동자와 TV 모니터 화면과의 거리를 측정하고,
총 L-1개의 은닉층의 레이어들을 거쳐 최종적으로 얼굴 영상의 눈동자의 시선이 포커싱된 TV 모니터 화면의 2차원의 좌표 벡터

[attention]를 출력한다.

본 발명의 다른 목적을 달성하기 위해, 얼굴 영상 기반의 시선 추적 방법은 (a) 카메라로부터 얼굴 영상 I(x,y)을 입력받아 얼굴 특징점 추출부가 입력층/은닉층/출력층을 포함하는 인공 신경망(ANN) 기술을 사용하여 상기 얼굴 영상 I(x,y)으로부터 N개의 얼굴 특징점들을 추출하고, 상기 N개의 얼굴 특징점들에 대한 좌표

와 P개의 얼굴 정보 {

,

, …

}들을 출력하는 단계; (b) 상기 얼굴 영상 I(x,y)과 상기 얼굴 특징점 추출부로부터 상기 N개의 얼굴 특징점들을 특징점 기반 영상 추출부로 입력받아 상기 특징점 기반 영상 추출부가 M개의 주요 영상 {

,

, …

}들을 출력하는 단계; 및 (c) 상기 특징점 기반 영상 추출부의 출력인 M개의 주요 영상들과 상기 얼굴 특징점 추출부의 P개의 얼굴 정보들을 시선 추적부로 입력받아, 상기 시선 추적부가 인공 신경망 기술을 사용하여 Attention 벡터 계산부에 의해 특징점 기반 영상 추출부에 의해 특징점 기반 추출된 영상과 상기 N개의 얼굴 특징점들을 기반으로 얼굴 영상의 눈동자의 시선이 향하는 대상(TV 모니터)에 포커싱되는 2차원 (x,y) 좌표[attention]의 시선 추적 결과를 출력하는 단계를 포함하며,
상기 단계 (b)의 상기 특징점 기반 영상 추출부는 영상 처리를 통해 구현되며, 2차원(흑백) 또는 3차원(RGB) 입력 영상의 픽셀(Pixel)은 각각 2차원(width, height), 3차원(channel, width, height)의 배열로 표현될 수 있고, 배열의 값은 밝기(2차원) 또는 색(3차원)을 나타내며, 상기 특징점 기반 영상 추출부는 상기 얼굴 특징점 추출부에서 출력된 N개의 얼굴 특징점 좌표를 통해 이러한 배열에서 원하는 부분을 추출할 수 있으며, 추출된 부분은 입력 영상의 차원에 따라 2차원 또는 3차원의 영상이 되며, 이러한 과정을 M번 반복하여 M개의 주요 영상 {

,

, …

}들을 추출하고,
상기 단계 (c)의 상기 시선 추적부는
인공 신경망(Artificial Neural Network)을 통해 구현되며, 특징점 기반으로 추출된

개의 주요 영상과 P개의 얼굴 정보들을 입력받는 단계;
TV 모니터 화면의 중앙 상단에 구비된 거리 측정 센서에 의해 시청자의 얼굴 영상의 눈동자와 TV 모니터 화면과의 거리를 측정하는 단계; 및
총 L-1개의 은닉층의 레이어들을 거쳐 얼굴 영상의 눈동자의 시선으로부터 포커싱된 TV 모니터 화면의 2차원 (x,y) 좌표와의 거리(distance)[거리 측정 센서로 측정]를 통해 얼굴 영상의 눈동자의 시선 벡터 a(vector)의 상하좌우 각도와 크기와 방향을 포함하는 시선 추적 결과를 계산하도록, 최종적으로 얼굴 영상의 눈동자의 시선이 포커싱된 대상(TV 모니터)의 2차원의 좌표 벡터

[attention]를 출력하는 단계를 포함한다.

본 발명의 얼굴 영상 기반의 시선 추적 시스템은 LCD TV, IPTV, 스마트 TV, UHD TV의 인터렉티브 TV 서비스를 위해, 대상 사람의 얼굴 영상을 입력받아 이미지를 캡춰하여 인공 신경망(ANN, Artificial Neural Network) 기술을 사용하여 얼굴 특징점 추출부에 의해 대상 사람의 얼굴 영상으로부터 N개의 얼굴 특징점들(눈, 눈썹, 코, 입, 윤곽선)을 추출하고, 특징점 기반 영상 추출부에 의해 특징점 기반 추출된 영상과 N개의 얼굴 특징점들을 기반으로 시선을 추적하는 시스템을 제공하는 효과가 있다.

LCD TV, IPTV, 스마트 TV, UHD TV의 인터렉티브 TV 서비스를 위해, 디지털 카메라, CCTV 카메라, 블랙박스 카메라, TV 모니터 부착 카메라에 부착되어 인공 신경망을 사용한 시선 추적 시스템이 응용이 가능하다.

도 1은 얼굴 특징점들의 예를 보인 그림이다.
도 2a는 주요 영상의 예: 얼굴, 왼쪽 눈, 오른쪽 눈을 보인 사진이다.
도 2b는 주요 영상의 예: 얼굴 위치 영상, 얼굴 영상에서의 얼굴 비율을 보인 그림이다.
도 3은 본 발명에 따른 얼굴 영상 기반의 시선 추적 시스템을 보인 그림이다.
도 4는 본 발명의 얼굴 영상 기반의 시선 추적 시스템의 블록도이다.
도 5는 인공 신경망 기반의 얼굴 특징점 추출부의 블록이다.
도 6은 본 발명의 실시예에 따른 방송 콘텐츠에 대한 시청자의 시선 추적 시스템의 응용 예이다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 발명의 구성 및 동작을 상세하게 설명한다.

본 발명의 얼굴 영상 기반의 시선 추적 시스템은 IPTV, 스마트 TV, 인터렉티브 TV 서비스를 위해, 카메라 영상의 얼굴 인식시에 실시간으로 사람의 얼굴 영상을 입력받아 이미지를 캡춰하여 인공 신경망(ANN, Artificial Neural Network) 기술을 사용하여 얼굴 특징점 추출부에 의해 대상 사람의 얼굴 영상으로부터 N개의 얼굴 특징점들(눈, 눈썹, 코, 입, 윤곽선)을 추출하고, 특징점 기반 영상 추출부에 의해 특징점 기반 추출된 주요 영상과 N개의 얼굴 특징점들을 기반으로 시선 추적부가 대상(TV 모니터)으로의 시선을 추적하는 시스템을 제공한다.

도 1은 얼굴 특징점들의 예를 보인 그림이다.

대상 사람의 얼굴 영상으로부터 N개의 얼굴 특징점들(눈, 눈썹, 코, 입, 턱선/윤곽선)을 추출한다.

본 발명은 대상 사람의 얼굴 영상을 입력받아 그 얼굴 영상으로부터 N개의 얼굴 특징점들(Facial Landmarks)을 추출하고, 추출된 얼굴 특징점들을 활용하여 입력 영상 I(x,y)에서 시선 추적에 필요한 M개의 주요 영상들과 P개의 얼굴 정보들을 추출하고, 시선 추적부가 인공 신경망 기술을 사용하여 M개의 주요 영상과 P개의 얼굴 정보들을 기반으로 TV 모니터 화면의 시선을 추적하여 얼굴 영상의 눈동자의 시선이 향하는 TV 모니터에 2차원 (x,y) 위치 좌표[attention]의 시선을 출력하는 시스템을 제안한다.

얼굴 특징점들은 얼굴에서 구별이 가능한 특징을 가지고 있는 점들((눈, 눈썹, 코, 입, 턱선/윤곽선)이며, 하나의 실시예로써 68개의 얼굴 특징점이 도 1에 나타나 있다. 실제 사람의 얼굴 영상으로부터 추출된 얼굴 특징점들은 얼굴의 형태, 얼굴에서 눈의 위치 등 그 사람의 얼굴에 대한 기본적인 정보를 제공한다. 따라서, 이러한 얼굴 특징점들을 활용하여 주요 영상(얼굴 전체 영상, 왼쪽 눈 영상, 오른쪽 눈의 영상)과 얼굴 정보들(얼굴 영상에서 화면의 얼굴 위치 영상[검정 부분])을 추출하여 얼굴의 눈동자의 시선이 향하는 TV 모니터로의 시선을 추적할 수 있다.

도 2a는 주요 영상의 예: 얼굴, 왼쪽 눈, 오른쪽 눈을 보인 사진이다.

도 2b는 주요 영상의 예: 얼굴 위치 영상, 얼굴 영상에서의 얼굴 비율(1/6)을 보인 그림이다.

M개의 주요 영상의 예는 얼굴 전체 영상과 두 눈의 영상(왼쪽 눈 영상/오른쪽 눈의 영상)이며,

P개의 얼굴 정보들의 예는 얼굴의 눈동자의 시선의 상하좌우 각도나 크기, 얼굴 영상에서 화면의 얼굴 위치 영상[검정 부분]이며, 도 2a와 도 2b에 나타나 있다.

요약하면, 본 발명은 대상 사람의 얼굴 영상으로부터 추출된 N개의 얼굴 특징점들을 기반으로 M개의 주요 영상과 P개의 얼굴 정보들을 추출하여, 시선을 추적하는 시스템을 제안한다.

제안하는 얼굴 영상 기반의 시선 추적 시스템의 개요는 도 3에 나타냈다.

도 3은 본 발명에 따른 얼굴 영상 기반의 시선 추적 시스템을 보인 그림이다.

얼굴 영상 기반의 시선 추적 시스템은 대상 사람의 얼굴 영상 I(x,y)을 입력받아 이미지를 캡춰하여 인공 신경망(ANN, Artificial Neural Network) 기술을 사용하여 얼굴 특징점 추출부(20)에 의해 대상 사람의 얼굴 영상으로부터 N개의 얼굴 특징점들(눈, 눈썹, 코, 입, 윤곽선)을 추출하고, 특징점 기반 영상 추출부(30)의 영상 처리(image processing)에 의해 특징점 기반 추출된 M개의 주요 영상[얼굴 전체 영상, 왼쪽 눈 영상, 오른 쪽 눈 영상, 화면의 얼굴 위치 영상(검정 부분)]을 시선 추적부로 입력받고 얼굴 특징점 추출부로부터 시선 추적부로 입력된 N개의 얼굴 특징점들을 기반으로 시선 추적부가 인공 신경망 기술(AlexNet, VGGNet, ResNet 등)을 사용하는 Attention 벡터 계산부에 의해 얼굴 영상의 눈동자의 시선이 포커싱되는 TV 모니터의 2차원 (x,y) 좌표[attention]의 얼굴 영상의 눈동자 시선 추적 결과를 출력한다.

도 4는 본 발명의 얼굴 영상 기반의 시선 추적 시스템의 블록도이다.

본 발명의 얼굴 영상 기반의 시선 추적 시스템은

대상 사람의 얼굴 영상 I(x,y)을 입력받아 입력층/L-1개 은닉층/출력층을 포함하는 인공 신경망(Artificial Neural Network, ANN) 기술을 사용하여 대상 사람의 얼굴 영상 I(x,y)으로부터 N개의 얼굴 특징점들(눈, 눈썹, 코, 입, 윤곽선)을 추출하고, 상기 N개의 얼굴 특징점들(눈, 눈썹, 코, 입, 윤곽선)에 대한 좌표

와 P개의 얼굴 정보 {

,

, …

}들을 출력하는 얼굴 특징점 추출부(20);

얼굴 영상 I(x,y)과 상기 얼굴 특징점 추출부(20)로부터 N개의 얼굴 특징점들을 입력받아 M개의 주요 영상 {

,

, …

}들을 출력하는 특징점 기반 영상 추출부(10); 및

상기 특징점 기반 영상 추출부(10)의 출력인 M개의 주요 영상들[얼굴 전체 영상, 왼쪽 눈 영상, 오른 쪽 눈 영상, 화면의 얼굴 위치 영상(검정 부분)]과 상기 얼굴 특징점 추출부(20)의 출력인 P개의 얼굴 정보들을 시선 추적부(30)로 입력되며,

상기 특징점 기반 영상 추출부(10)에 의해 특징점 기반 추출된 M개의 주요 영상과 상기 N개의 얼굴 특징점들을 기반으로 인공 신경망 기술을 사용하는 Attention 벡터 계산부에 의해 얼굴 영상의 눈동자의 시선이 포커싱되는 TV 모니터의 2차원 (x,y) 좌표[attention]의 얼굴 영상의 눈동자 시선 추적 결과를 출력하는 시선 추적부(30)를 포함하며,
상기 특징점 기반 영상 추출부는 영상 처리를 통해 구현되며 2차원(흑백) 또는 3차원(RGB) 입력 영상의 픽셀(Pixel)은 각각 2차원(width, height), 3차원(channel, width, height)의 배열로 표현될 수 있고, 배열의 값은 밝기(2차원) 또는 색(3차원)을 나타내며, 상기 특징점 기반 영상 추출부는 상기 얼굴 특징점 추출부에서 출력된 N개의 얼굴 특징점 좌표를 통해 이러한 배열에서 원하는 부분을 추출할 수 있으며, 추출된 부분은 입력 영상의 차원에 따라 2차원 또는 3차원의 영상이 되며, 이러한 과정을 M번 반복하여 M개의 주요 영상 {

,

, …

[attention]를 출력한다.

상기 N개의 얼굴 특징점들은 얼굴 영상의 특징을 나타내는 눈, 눈썹, 코, 입, 윤곽선의 특징점들을 포함한다.

상기 얼굴 특징점 추출부(20)는 입력층/L-1개의 은닉층/출력층의 다층 구조의 딥러닝의 컨볼루션 신경망(Convolutional Neural Network, CNN)을 사용할 수 있다.

본 발명에서 제안하는 얼굴 영상 기반의 시선 추적 시스템의 구체적인 절차는 도 4의 블록도로 표현하였다.

먼저 대상 사람의 얼굴 영상

은 얼굴 특징점 추출부(20)로 입력하고, 얼굴 특징점 추출부(20)는 대상 사람의 얼굴 영상 I(x,y)으로부터 N개의 얼굴 특징점들(눈, 눈썹, 코, 입, 윤곽선)을 추출하고, 상기 N개의 얼굴 특징점들(눈, 눈썹, 코, 입, 윤곽선)에 대한 좌표

와 P개의 얼굴 정보 {

,

, …

}들을 출력한다.

특징점 기반 영상 추출부(10)는 얼굴 영상과, 얼굴 특징점 추출부(20)의 출력인 N개의 얼굴 특징점들을 입력받아 M개의 주요 영상 {

,

, …

}들을 출력한다.

특징점 기반 영상 추출부(10)의 출력인 M개의 주요 영상들과 얼굴 특징점 추출부(20)의 출력인 P개의 얼굴 정보들은 시선 추적부(30)로 입력되며, 시선 추적부(30)는 인공 신경망 기술을 사용하여 Attention 벡터 계산부에 의해 최종적으로 시청자의 얼굴 영상의 눈동자의 시선이 향하는 TV 모니터 화면의 2차원 (x,y) 위치좌표[attention]의 시선 추적 결과를 출력한다.

시선 추적부(30)는 얼굴 특징점 추출부(20)와 다른 인공신경망 알고리즘을 사용되며, 얼굴 특징점 추출부(20)와 마찬가지로 입력층, L-1개의 은닉 층, 출력층을 가지며, AlexNet, VGGNet, ResNet 중 어느 하나의 딥러닝 알고리즘을 사용하여 얼굴 영상의 눈동자의 시선이 향하는 TV 모니터에 포커싱되는 2차원 (x,y) 좌표[attention]의 시선 추적 결과를 출력하여 인터렉티브 TV 응용 서비스를 제공할 수 있다.

도 5는 인공 신경망 기반의 얼굴 특징점 추출부의 블록이다.

입력 얼굴 영상 I(x,y)으로부터 N개의 얼굴 특징점들을 추출하는 얼굴 특징점 추출부(20)는 입력층/L-1개 은닉층/출력층을 포함하는 인공 신경망(Artificial Neural Network) 방법으로 구현된다. 즉, 얼굴 특징점 추출부(20)는 먼저 입력 얼굴 영상의 모든 픽셀 정보를 일렬로 나열하여 하나의 커다란 벡터

로 만든 후, 다음과 같은 함수를 반복 적용하여 출력 벡터

를 계산한다.

즉, 입력 얼굴 영상을 나타내는 벡터는

로 설정되어, 총 L개의 층들을 거치며

,

, ...,

을 차례대로 계산하여 최종 출력 벡터는

으로 결정이 된다. 또한,

,

, ...,

은 시스템의 입출력이 아닌, 드러나지 않는 양으로 은닉 특징 벡터(Hidden Feature Vector)라고 불리며,

개의 은닉 층(Hidden Layer)의 입력 또는 출력이 된다.

이 때 최종 출력 벡터의 차원은

으로, N개의 얼굴 특징점들에 대한 2차원 영상 좌표들을 의미한다. 최종 출력된 N개의 얼굴 특징점들은 서로 다른 방식으로 P번 조합되어 P개의 얼굴 정보들을 생성한다.

특징점 기반 영상 추출부(10)는 영상 처리(Image Processing)을 통해 구현된다. 2차원(흑백) 또는 3차원(RGB) 입력 영상의 픽셀(Pixel)은 각각 2차원(width, height), 3차원(channel, width, height)의 배열로 표현될 수 있고, 배열의 값은 밝기(2차원) 또는 색(3차원)을 나타낸다. 특징점 기반 영상 추출부(10)는 얼굴 특징점 추출부(20)에서 출력된 N개의 얼굴 특징점 좌표를 통해 이러한 배열에서 원하는 부분을 추출할 수 있으며, 추출된 부분은 입력 영상의 차원에 따라 2차원 또는 3차원의 영상이 된다. 이러한 과정을 M번 반복하여 M개의 주요 영상 {

,

, …

}들을 추출한다.

시선 추적부(30)는 인공 신경망(Artificial Neural Network)을 통해 구현된다. 특징점 기반으로 추출된

개의 주요 영상과 P개의 얼굴 정보들을 입력받아, 총 L-1개의 은닉층의 레이어들을 거쳐 최종적으로 얼굴 영상의 눈동자의 시선으로부터 포커싱된 TV 모니터 화면의 2차원 (x,y) 좌표 벡터

[attenion]를 출력한다. 시선 추적부(30)는 얼굴 특징점 추출부(20)와 다른 인공신경망 알고리즘을 사용되며, 얼굴 특징점 추출부(20)와 마찬가지로 입력층, L-1개의 은닉 층(hidden layer), 출력층을 갖는다.

인공 신경망의 구조는 도 5에 나타나 있으며, 정리하면 얼굴 특징점 추출부(20), 시선 추적부(30)는 각각 서로 다른 인공 신경망으로 구현되며, 특징점 기반 영상 추출부(10)는 영상 처리로 구현되어 얼굴 영상 기반의 시선 추적 시스템을 구성한다.

본 발명의 얼굴 영상 기반의 시선 추적 방법은

(a) 카메라로부터 사람의 얼굴 영상 I(x,y)을 입력받아 얼굴 특징점 추출부가 입력층/은닉층/출력층을 포함하는 인공 신경망(ANN) 기술을 사용하여 상기 얼굴 영상 I(x,y)으로부터 N개의 얼굴 특징점들을 추출하고, 상기 N개의 얼굴 특징점들에 대한 좌표

와 P개의 얼굴 정보 {

,

, …

}들을 출력하는 단계;

(b) 상기 얼굴 영상 I(x,y)과 상기 얼굴 특징점 추출부로부터 상기 N개의 얼굴 특징점들을 특징점 기반 영상 추출부로 입력받아 특징점 기반 영상 추출부가 M개의 주요 영상 {

,

, …

}들을 출력하는 단계; 및

(c) 상기 특징점 기반 영상 추출부의 출력인 M개의 주요 영상들과 상기 얼굴 특징점 추출부의 P개의 얼굴 정보들을 시선 추적부로 입력받아,

상기 시선 추적부가 인공 신경망 기술을 사용하여 Attention 벡터 계산부에 의해 특징점 기반 영상 추출부에 의해 특징점 기반 추출된 영상과 상기 N개의 얼굴 특징점들을 기반으로 Attention 벡터 계산부에 의해 얼굴 영상의 눈동자가 향하는 대상(TV 모니터)에 포커싱되는 2차원 (x,y) 좌표[attention]의 시선 추적 결과를 출력하며,

이때 상기 시선 추적부는 총 L-1개의 은닉층의 레이어들을 거쳐 최종적으로 얼굴 영상의 눈동자의 시선이 포커싱된 TV 모니터 화면의 2차원 좌표 벡터

[attention]의 시선 추적 결과를 출력하는 단계를 포함하며,
상기 단계 (b)의 상기 특징점 기반 영상 추출부는 영상 처리를 통해 구현되며, 2차원(흑백) 또는 3차원(RGB) 입력 영상의 픽셀(Pixel)은 각각 2차원(width, height), 3차원(channel, width, height)의 배열로 표현될 수 있고, 배열의 값은 밝기(2차원) 또는 색(3차원)을 나타내며, 상기 특징점 기반 영상 추출부는 상기 얼굴 특징점 추출부에서 출력된 N개의 얼굴 특징점 좌표를 통해 이러한 배열에서 원하는 부분을 추출할 수 있으며, 추출된 부분은 입력 영상의 차원에 따라 2차원 또는 3차원의 영상이 되며, 이러한 과정을 M번 반복하여 M개의 주요 영상 {

,

, …

[attention]를 출력하는 단계를 포함한다.

상기 얼굴 특징점 추출부(20)는 입력층/L-1개의 은닉층/출력층의 다층 구조의 딥러닝의 컨볼루션 신경망(CNN)을 사용한다.

상기 단계 (a)의 상기 얼굴 특징점 추출부는 입력 얼굴 영상 I(x,y)으로부터 N개의 얼굴 특징점들을 추출하기 위해,

상기 얼굴 특징점 추출부는 먼저 입력 얼굴 영상의 모든 픽셀 정보를 일렬로 나열하여 하나의 커다란 벡터

로 만든 후, 다음과 같은 함수를 반복 적용하여 출력 벡터

를 계산하는 단계;

즉, 입력 얼굴 영상을 나타내는 벡터는

로 설정되어, 총 L개의 층들을 거치며

,

, ...,

을 차례대로 계산하여 최종 출력 벡터는

으로 결정되며,

또한,

,

, ...,

은 은닉 특징 벡터(Hidden Feature Vector)라고 하며,

개의 은닉 층(Hidden Layer)의 입력 또는 출력이 되며,

최종 출력 벡터의 차원은

으로, 상기 N개의 얼굴 특징점들에 대한 2차원 영상 좌표들을 의미하며, 최종 출력된 N개의 얼굴 특징점들은 서로 다른 방식으로 P번 조합되어 P개의 얼굴 정보들을 생성한다.

상기 단계 (b)의 상기 특징점 기반 영상 추출부는 영상 처리를 통해 구현되며, 2차원(흑백) 또는 3차원(RGB) 입력 영상의 픽셀(Pixel)은 각각 2차원(width, height), 3차원(channel, width, height)의 배열로 표현될 수 있고, 배열의 값은 밝기(2차원) 또는 색(3차원)을 나타내며,

상기 특징점 기반 영상 추출부는 상기 얼굴 특징점 추출부에서 출력된 N개의 얼굴 특징점 좌표를 통해 이러한 배열에서 원하는 부분을 추출할 수 있으며, 추출된 부분은 입력 영상의 차원에 따라 2차원 또는 3차원의 영상이 되며, 이러한 과정을 M번 반복하여 M개의 주요 영상 {

,

, …

}들을 추출한다.

상기 단계 (c)의 상기 시선 추적부는

인공 신경망(Artificial Neural Network)을 통해 구현되며, 특징점 기반으로 추출된

개의 주요 영상과 P개의 얼굴 정보들을 입력받는 단계;

총 L-1개의 은닉층의 레이어들을 거쳐 최종적으로 얼굴 영상의 눈동자의 시선이 포커싱된 TV 모니터 화면의 2차원의 좌표 벡터

[attention]를 출력하는 단계를 포함한다.

상기 시선 추적부(30)의 카메라의 입력 얼굴 영상 I(x,y)으로부터 Attention을 계산하는 과정은 상기 얼굴 특징점 추출부(20)와 다른 인공신경망 알고리즘을 사용되며, 상기 얼굴 특징점 추출부(200)와 마찬가지로 입력층, L-1개의 은닉 층, 출력층을 가지며, AlexNet, VGGNet, ResNet 중 어느 하나의 딥러닝의 CNN 알고리즘을 사용하여 얼굴 영상의 눈동자의 시선이 향하는 TV 모니터에 포커싱되는 2차원 (x,y) 좌표[attention]의 시선 추적 결과를 제공한다.

도 6은 본 발명의 실시예에 따른 방송 콘텐츠에 대한 시청자의 시선 추적 시스템의 응용 예이다.

예를들면, 인터렉티브 TV 서비스를 위해, 방송 콘텐츠에 대한 시청자의 시선 추적 시스템에 적용될 수 있다.

방송 콘텐츠에 대한 시청자의 시선 추정 시스템은 DTV, 케이블 TV, IPTV, HDTV, UHD TV, 스마트 TV, 위성 DTV, 케이블 TV, IPTV, HDTV, UHD TV, 스마트 TV, 위성 TV 모니터 등의 모니터(100)의 정면 중심부 상단에 시청자를 향하는 카메라(101)와 시청자와의 거리 측정 센서가 장착된 시스템에서,

TV 모니터 화면의 중앙 상단에 구비된 카메라(101)로부터 획득된 입력 영상 I으로부터 고유 얼굴(eigenface, eigen vector) 영역의 얼굴 특징점을 추출하여 입력층/은닉층/출력층의 다층구조의 신경망(CNN, Conventional Neural Network)을 사용하여 얼굴 영상의 특징 벡터들 x와 은닉 특징들을 추출하며, 시선 추적부(30)의 Attention 벡터 계산부에 의해 Attention을 계산한다. Attention은 시청자의 얼굴 영상의 눈동자의 시선이 TV 모니터 화면의 어느 부분을 주의 깊게 보고 있는지, 얼굴 영상의 눈동자의 시선으로부터 포커싱된 TV 모니터 화면의 2차원 (x,y) 좌표의 시선 추적 결과를 계산하도록, 시청자의 얼굴 영상의 시선이 포커싱 된 TV 모니터의 2차원 (x,y) 좌표[attention]로 나타낸다.

Attention은 시청자의 얼굴 영상의 눈동자의 시선이 어디로 향하여 TV 모니터 화면의 어느 부분을 주의 깊게 보고 있는지를 TV 모니터의 2차원 화면의 좌표(x,y)로 나타낸다. Attention은 시청자의 얼굴 영상의 눈동자의 시선이 포커싱 된 TV 모니터의 2차원 화면의 좌표(x,y)[attention]로 표현된다.

상기 단계 (c)의 상기 시선 추적부(30)의 카메라의 입력 얼굴 영상 I(x,y)으로부터 Attention을 계산하는 과정은 상기 얼굴 특징점 추출부와 다른 인공신경망 알고리즘을 사용되며, 상기 얼굴 특징점 추출부와 마찬가지로 입력층, L-1개의 은닉 층, 출력층을 가지며, AlexNet, VGGNet, ResNet 중 어느 하나의 딥러닝 알고리즘을 사용하여 얼굴 영상의 눈동자의 시선이 향하는 TV 모니터에 포커싱되는 2차원 (x,y) 좌표[attention]의 시선 추적 결과를 제공한다.

다층 구조의 신경망은 입력층(input layer), L-1개 은닉층(hidden layer) 및 출력층(output layer)으로 구성된다.

시선 추적부(30)의 Attention 벡터 계산부의 Attention을 계산 과정은 다음 식1과 같이 표현된다.

입력 영상 I로부터 입력층/은닉층/출력층의 다층 구조의 신경망(CNN, Conventional Neural Network)을 사용하여 얼굴 영상의 특징 벡터 x를 추출한다. 그렇게 추출된 얼굴 영상의 특징 벡터 x로부터 다음과 같은 함수를 반복 적용하여 출력 벡터

를 계산한다.

(식 1)

여기서, hi는 i번째 은닉 특징 벡터, hi-1은 i-1번째 은닉 특징 벡터, Wi는 신경망 회로의 가중치 파라미터(weight parameter, 상수값), bi는 신경망 회로의 바이어스 값이다.

입력 특징 벡터는

로 설정되며, 총 L 개의 Layer가 존재할 경우 h₁,h₂,...h_L을 차례로 계산하여 최종 출력 벡터는

로 결정이 된다. 또한, h₁,h₂,...h_L-1은 시스템의 출력으로 드러나지 않는 양으로 은닉 특징 벡터(Hidden Feature Vector)라고 불린다. h_L-1은 L-1 번째 은닉 특징 벡터이다.

이 때 제안하는 방법의 경우 최종 출력 벡터의 차원은

이 되며, 즉, 4개의 숫자는 각각 Attention에 해당하는 얼굴 영상의 눈동자의 시선이 포커싱되는 TV 모니터의 2차원 x, y 좌표(attention)를 나타낸다.

이를 통해 시청자의 시선 추적 위치와 시청자의 감정 상태를 추정한 후, 방송 콘텐츠에 대한 시청자의 심리적 반응 추정 시스템은 추정된 Arousal 값이 일정 숫자 이상일 경우, 미디어 데이터의 중간에 광고를 재생하며, 시청자가 TV를 보면서 Attention의 시청자의 얼굴 영상의 눈동자의 시선이 포커싱 된 모니터의 2차원 화면의 attention, 2차원 (x,y) 좌표 위치의 대상(object)의 인물 정보 또는 제품 정보를 표시하거나 그 제품과 관련된 T-Commerce 쇼핑몰 서버 URL을 출력하여 쇼핑몰 시스템과 연동되는 광고 제품을 제공하는 쇼핑몰의 제품 구매를 유도한다.

본 발명의 얼굴 영상 기반의 시선 추적 시스템은 LCD TV, IPTV, 스마트 TV, UHD TV의 인터렉티브 TV 서비스를 위해, 대상 사람의 얼굴 영상을 입력받아 이미지를 캡춰하여 인공 신경망(ANN, Artificial Neural Network) 기술을 사용하여 얼굴 특징점 추출부에 의해 대상 사람의 얼굴 영상 으로부터 N개의 얼굴 특징점들(눈, 눈썹, 코, 입, 윤곽선)을 추출하고, 특징점 기반 영상 추출부에 의해 특징점 기반 추출된 영상과 N개의 얼굴 특징점들을 기반으로 시선을 추적하는 시스템을 제공한다.

LCD TV, IPTV, 스마트 TV, UHD TV의 인터렉티브 TV 서비스를 위해, 디지털 카메라, CCTV 카메라, 블랙박스 카메라, TV 모니터 부착 카메라에 부착되어 인공 신경망(ANN)을 사용한 시선 추적 시스템이 응용이 가능하다.

얼굴 인식 기술은 카메라로 촬영된 얼굴 영상 데이터를 사용하여 공항 출입국 관리, 얼굴 인식 출입관리, 얼굴 인식 화상 회의, 얼굴 인식 대화형 TV 인터렉티브 미디어 서비스, CCTV 카메라, 스마트폰 카메라, 자동차의 블랙박스의 카메라의 얼굴 인식의 시선 추적 기술이 응용 가능하다.

본 발명에 따른 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 기록 매체는 프로그램 명령, 데이터 파일, 데이터 구조를 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 기록 매체는 스토리지, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 저장 매체에 프로그램 명령을 저장하고 수행하도록 구성된 하드웨어 장치가 포함될 수 있다.　프로그램 명령의 예는 컴파일러에 의해 만들어지는 것과, 기계어 코드뿐만 아니라 인터프리터를 사용하여 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.　상기 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로써 작동하도록 구성될 수 있다.

이상에서 설명한 바와 같이, 본 발명의 방법은 프로그램으로 구현되어 컴퓨터의 소프트웨어를 이용하여 읽을 수 있는 형태로 기록매체(CD-ROM, RAM, ROM, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등)에 저장될 수 있다.

본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진자가 하기의 특허청구범위에 기재된 본 발명의 기술적 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 또는 변형하여 실시할 수 있음을 이해할 수 있을 것이다.

10: 특징점 기반 영상 추출부
20: 얼굴 특징점 추출부
30: 시선 추적부

Claims

대상 사람의 얼굴 영상 I(x,y)을 입력받아 입력층/은닉층/출력층을 포함하는 인공 신경망(ANN) 기술을 사용하여 상기 얼굴 영상 I(x,y)으로부터 N개의 얼굴 특징점들을 추출하고, 상기 N개의 얼굴 특징점에 대한 좌표
와 P개의 얼굴 정보 {
,
, …
}들을 출력하는 얼굴 특징점 추출부;
상기 얼굴 영상 I(x,y)과 상기 얼굴 특징점 추출부로부터 상기 N개의 얼굴 특징점들을 입력받아 M개의 주요 영상 {
,
, …
}들을 출력하는 특징점 기반 영상 추출부; 및
상기 특징점 기반 영상 추출부의 상기 M개의 주요 영상들과 상기 얼굴 특징점 추출부의 출력인 P개의 얼굴 정보들을 입력받아 인공 신경망 기술을 사용하여 Attention 벡터 계산부에 의해 계산된 얼굴 영상의 눈동자의 시선 추적 결과를 출력하는 시선 추적부를 포함하며,
상기 특징점 기반 영상 추출부는 영상 처리를 통해 구현되며 2차원(흑백) 또는 3차원(RGB) 입력 영상의 픽셀(Pixel)은 각각 2차원(width, height), 3차원(channel, width, height)의 배열로 표현될 수 있고, 배열의 값은 밝기(2차원) 또는 색(3차원)을 나타내며, 상기 특징점 기반 영상 추출부는 상기 얼굴 특징점 추출부에서 출력된 N개의 얼굴 특징점 좌표를 통해 이러한 배열에서 원하는 부분을 추출할 수 있으며, 추출된 부분은 입력 영상의 차원에 따라 2차원 또는 3차원의 영상이 되며, 이러한 과정을 M번 반복하여 M개의 주요 영상 {
,
, …
}들을 추출하고,
상기 시선 추적부는 인공 신경망(Artificial Neural Network)을 통해 구현되며, 특징점 기반으로 추출된
개의 주요 영상과 P개의 얼굴 정보들을 입력받아,
TV 모니터 화면의 중앙 상단에 구비된 거리 측정 센서에 의해 시청자의 얼굴 영상의 눈동자와 TV 모니터 화면과의 거리를 측정하고,
총 L-1개의 은닉층의 레이어들을 거쳐 최종적으로 얼굴 영상의 눈동자의 시선이 포커싱된 TV 모니터 화면의 2차원의 좌표 벡터
[attention]를 출력하는, 얼굴 영상 기반의 시선 추적 시스템.
제1항에 있어서,
상기 N개의 얼굴 특징점들은 얼굴 영상의 특징을 나타내는 눈, 눈썹, 코, 입, 윤곽선의 특징점들을 포함하는 얼굴 영상 기반의 시선 추적 시스템.
제1항에 있어서,
상기 얼굴 특징점 추출부는 입력층/L-1개의 은닉층/출력층의 다층 구조의 딥러닝의 컨볼루션 신경망(CNN)을 사용하는, 얼굴 영상 기반의 시선 추적 시스템.
제1항에 있어서,
상기 얼굴 특징점 추출부는 입력 얼굴 영상 I(x,y)으로부터 상기 N개의 얼굴 특징점들을 추출하며, 입력층/L-1개 은닉층/출력층을 포함하는 인공 신경망(Artificial Neural Network)으로 구현되고,
상기 얼굴 특징점 추출부는 먼저 입력 얼굴 영상의 모든 픽셀 정보를 일렬로 나열하여 하나의 커다란 벡터
로 만든 후, 다음과 같은 함수를 반복 적용하여 출력 벡터
를 계산하며,

즉, 입력 얼굴 영상을 나타내는 벡터는
로 설정되어, 총 L개의 층들을 거치며
,
, ...,
을 차례대로 계산하여 최종 출력 벡터는
으로 결정되며,
또한,
,
, ...,
은 은닉 특징 벡터(Hidden Feature Vector)라고 하며,
개의 은닉 층(Hidden Layer)의 입력 또는 출력이 되며,
최종 출력 벡터의 차원은
으로, 상기 N개의 얼굴 특징점들에 대한 2차원 영상 좌표들을 의미하며, 최종 출력된 N개의 얼굴 특징점들은 서로 다른 방식으로 P번 조합되어 얼굴 정보들을 생성하는, 얼굴 영상 기반의 시선 추적 시스템.
삭제
삭제
제1항에 있어서,
상기 시선 추적부는 상기 얼굴 특징점 추출부와 다른 인공신경망 알고리즘을 사용되며, 상기 얼굴 특징점 추출부와 마찬가지로 입력층, L-1개의 은닉 층, 출력층을 가지며, AlexNet, VGGNet, ResNet 중 어느 하나의 딥러닝 알고리즘을 사용하여 얼굴 영상의 눈동자의 시선이 향하는 대상(TV 모니터)에 포커싱되는 2차원 (x,y) 좌표[attention]의 시선 추적 결과를 출력하는, 얼굴 영상 기반의 시선 추적 시스템.
(a) 카메라로부터 얼굴 영상 I(x,y)을 입력받아 얼굴 특징점 추출부가 입력층/은닉층/출력층을 포함하는 인공 신경망(ANN) 기술을 사용하여 상기 얼굴 영상 I(x,y)으로부터 N개의 얼굴 특징점들을 추출하고, 상기 N개의 얼굴 특징점들에 대한 좌표
와 P개의 얼굴 정보 {
,
, …
}들을 출력하는 단계;
(b) 상기 얼굴 영상 I(x,y)과 상기 얼굴 특징점 추출부로부터 상기 N개의 얼굴 특징점들을 특징점 기반 영상 추출부로 입력받아 상기 특징점 기반 영상 추출부가 M개의 주요 영상 {
,
, …
}들을 출력하는 단계; 및
(c) 상기 특징점 기반 영상 추출부의 출력인 M개의 주요 영상들과 상기 얼굴 특징점 추출부의 P개의 얼굴 정보들을 시선 추적부로 입력받아, 상기 시선 추적부가 인공 신경망 기술을 사용하여 Attention 벡터 계산부에 의해 특징점 기반 영상 추출부에 의해 특징점 기반 추출된 영상과 상기 N개의 얼굴 특징점들을 기반으로 얼굴 영상의 눈동자의 시선이 향하는 대상(TV 모니터)에 포커싱되는 2차원 (x,y) 좌표[attention]의 시선 추적 결과를 출력하는 단계를 포함하며,
상기 단계 (b)의 상기 특징점 기반 영상 추출부는 영상 처리를 통해 구현되며, 2차원(흑백) 또는 3차원(RGB) 입력 영상의 픽셀(Pixel)은 각각 2차원(width, height), 3차원(channel, width, height)의 배열로 표현될 수 있고, 배열의 값은 밝기(2차원) 또는 색(3차원)을 나타내며, 상기 특징점 기반 영상 추출부는 상기 얼굴 특징점 추출부에서 출력된 N개의 얼굴 특징점 좌표를 통해 이러한 배열에서 원하는 부분을 추출할 수 있으며, 추출된 부분은 입력 영상의 차원에 따라 2차원 또는 3차원의 영상이 되며, 이러한 과정을 M번 반복하여 M개의 주요 영상 {
,
, …
}들을 추출하고,
상기 단계 (c)의 상기 시선 추적부는
인공 신경망(Artificial Neural Network)을 통해 구현되며, 특징점 기반으로 추출된
개의 주요 영상과 P개의 얼굴 정보들을 입력받는 단계;
TV 모니터 화면의 중앙 상단에 구비된 거리 측정 센서에 의해 시청자의 얼굴 영상의 눈동자와 TV 모니터 화면과의 거리를 측정하는 단계; 및
총 L-1개의 은닉층의 레이어들을 거쳐 얼굴 영상의 눈동자의 시선으로부터 포커싱된 TV 모니터 화면의 2차원 (x,y) 좌표와의 거리(distance)[거리 측정 센서로 측정]를 통해 얼굴 영상의 눈동자의 시선 벡터 a(vector)의 상하좌우 각도와 크기와 방향을 포함하는 시선 추적 결과를 계산하도록, 최종적으로 얼굴 영상의 눈동자의 시선이 포커싱된 대상(TV 모니터)의 2차원의 좌표 벡터
[attention]를 출력하는 단계를 포함하는 얼굴 영상 기반의 시선 추적 방법.
제8항에 있어서,
상기 N개의 얼굴 특징점들은 얼굴 영상의 특징을 나타내는 눈, 눈썹, 코, 입, 윤곽선의 특징점들을 포함하는 얼굴 영상 기반의 시선 추적 방법.
제9항에 있어서,
상기 얼굴 특징점 추출부는 입력층/L-1개의 은닉층/출력층의 다층 구조의 딥러닝의 컨볼루션 신경망(CNN)을 사용하는, 얼굴 영상 기반의 시선 추적 방법.
제9항에 있어서,
상기 단계 (a)의 상기 얼굴 특징점 추출부는 입력 얼굴 영상 I(x,y)으로부터 N개의 얼굴 특징점들을 추출하기 위해,
상기 얼굴 특징점 추출부는 먼저 입력 얼굴 영상의 모든 픽셀 정보를 일렬로 나열하여 하나의 커다란 벡터
로 만든 후, 다음과 같은 함수를 반복 적용하여 출력 벡터
를 계산하는 단계;

즉, 입력 얼굴 영상을 나타내는 벡터는
로 설정되어, 총 L개의 층들을 거치며
,
, ...,
을 차례대로 계산하여 최종 출력 벡터는
으로 결정되며,
또한,
,
, ...,
은 은닉 특징 벡터(Hidden Feature Vector)라고 하며,
개의 은닉 층(Hidden Layer)의 입력 또는 출력이 되며,
최종 출력 벡터의 차원은
으로, 상기 N개의 얼굴 특징점들에 대한 2차원 영상 좌표들을 의미하며, 최종 출력된 N개의 얼굴 특징점들은 서로 다른 방식으로 P번 조합되어 얼굴 정보들을 생성하는, 얼굴 영상 기반의 시선 추적 방법.
삭제
삭제
제9항에 있어서,
상기 단계 (c)의 상기 시선 추적부는 상기 얼굴 특징점 추출부와 다른 인공신경망 알고리즘을 사용되며, 상기 얼굴 특징점 추출부와 마찬가지로 입력층, L-1개의 은닉 층, 출력층을 가지며, AlexNet, VGGNet, ResNet 중 어느 하나의 딥러닝 알고리즘을 사용하여 얼굴 영상의 눈동자의 시선이 향하는 대상(TV 모니터)에 포커싱되는 2차원 (x,y) 좌표(attention)의 시선 추적 결과를 출력하는, 얼굴 영상 기반의 시선 추적 방법.