KR20220118650A

KR20220118650A - 눈 특징점 기반의 실시간 시선 추적 장치 및 방법

Info

Publication number: KR20220118650A
Application number: KR1020210022316A
Authority: KR
Inventors: 권순철; 이영근; 유지상
Original assignee: 광운대학교 산학협력단
Priority date: 2021-02-19
Filing date: 2021-02-19
Publication date: 2022-08-26
Also published as: KR102494811B1

Abstract

본 발명에 의하면, 눈 특징점 기반의 실시간 시선 추적 장치에 있어서, 사용자의 눈이 포함된 카메라 이미지를 수신하도록 구성된 이미지 수신부, 이미지로부터 인공 신경망을 이용하여 특징맵(feature map)을 추출하도록 구성된 특징맵 추출부, 특징맵에 기초하여 눈 특징점 위치에 대한 예측을 수행하도록 구성된 눈 특징점 예측부, 예측된 눈 특징점 위치에 기반하여 시선 벡터를 예측하도록 구성된 시선 벡터 예측부, 및 시선 벡터 및 동공 좌표를 출력하도록 구성된 출력부를 포함하는 실시간 시선 추적 장치를 제공할 수 있다.

Description

눈 특징점 기반의 실시간 시선 추적 장치 및 방법{APPARATUS AND METHOD FOR REALTIME GAZE TRACKING BASED ON EYE LANDMARKS}

본 발명은 눈 특징점 기반의 실시간 시선 추적 장치 및 방법에 관한 것이다. 보다 구체적으로, 컴퓨터 비전의 가장 핵심적인 분야 중 하나인 시선 추적(gaze tracking)을 위해 눈 특징점을 기반으로 한 실시간 시선 추적을 위한 방법 및 장치에 관한 것이다.

눈 특징점을 기반으로 한 시선 벡터를 예측하는 방법에는 눈 특징점 위치들의 분포를 사용하는 피처 기반(feature-based) 방법, 눈 특징점들을 기반으로 안구 모델을 형성하는 모델 기반(model-based) 방법이 있으며, 그 외에 눈 이미지의 형태를 직접 사용하는 외형 기반(appearance-based) 방법이 있다.

피처 기반 방법은 다른 방법들과 비교하여 사용자의 변화에 영향을 적게 받고 적은 데이터를 이용한 학습으로도 우수한 성능을 보인다는 장점이 있다. 하지만, 눈 특징점들의 위치가 시선 벡터 예측에 결정적인 역할을 하므로 눈 특징점 탐지 결과에 크게 의존한다는 한계가 있다.

또한, 모델 기반 방법은 안구 모델에 기반하여 시선을 추적하기 때문에 비교적 안정적인 성능을 낼 수 있지만, 피처 기반 방법과 마찬가지로 눈 특징점 탐지 결과에 크게 의존하며, 사용자마다 피치(pitch)와 요(yaw)의 파라미터를 구하는 과정이 필요하다는 한계를 지닌다.

마지막으로 외형 기반 방법은 앞선 두 방법과 비교하여 우수하고 환경 변화에 강인한 결과를 출력한다. 하지만, 일반적으로 무거운 인공 신경망을 사용하기 때문에 연산량이 많아 낮은 추론 속도의 한계를 가지고, 상당히 많은 양의 학습 데이터를 필요로 하기 때문에 데이터 취득이 어려운 시선 추적 과제에 있어서 치명적이다.

기존의 딥러닝 기반의 시선 추적 방법들은 인공 신경망으로 아워글라스 네트워크(Hourglass Network)나 심플베이스라인(SimpleBaseline)과 같은 엔코더-디코더 방식을 사용하여 최종 특징맵을 생성한다. 이와 같은 방법들은 저해상도 특징맵을 고해상도 특징맵으로 디코딩하는 하향식 경로에 초점을 맞추어 광범위한 지역 정보들을 효과적으로 사용한다는 이점을 가지고 있다. 그러나 융합 과정에서 고해상도 특징맵에 비해 비교적 가공되지 않은 저해상도 특징맵을 사용하여 융합하기 때문에 구조적으로 성능에 대한 한계를 지닌다. 또한, 앞서 제시한 인공 신경망들은 이미지 내 눈 특징점의 실제 유무와 관계없이 설정된 눈 특징점 수만큼의 위치를 예측한다. 따라서, 사용자의 눈이 닫혀 있을 시에도 시선을 추적하는 오탐을 발생시켜 시선 추적 정확도를 떨어트린다는 문제를 가지고 있다.

따라서, 새로운 방식의 눈 특징점을 기반으로 한 실시간 추정 방법이 필요하다.

대한민국 공개특허 제10-2020-0145923호

본 발명은 상향식 경로와 하향식 경로 모두에 중점을 두어 특징맵들을 융합하는 인공 신경망을 사용하여 시선추적 정확도와 추론 속도를 높일 수 있는 실시간 시선 추적 방법 및 장치를 제공하는 것을 목적으로 한다.

본 발명은 눈 이미지로부터 특징을 추출하여 눈 특징점들을 예측하는 외형 기반 방법과 출력 결과 피처 기반 방법을 적용함으로써 효율성을 높일 수 있는 실시간 시선 추적 방법 및 장치를 제공하는 것을 목적으로 한다.

본 발명은 눈의 닫힌 정도를 나타내는 EAR(Eye Aspect Ratio) 값을 사용하여 눈 깜빡임 시에 오탐을 줄여 시선 추적 정확도를 높일 수 있는 실시간 시선 추적 방법 및 장치를 제공하는 것을 목적으로 한다.

본 발명의 해결 과제들은 이상에서 언급한 내용들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시예에서, 눈 특징점 기반의 실시간 시선 추적 장치에 있어서, 사용자의 눈이 포함된 카메라 이미지를 수신하도록 구성된 이미지 수신부; 상기 이미지로부터 인공 신경망을 이용하여 특징맵(feature map)을 추출하도록 구성된 특징맵 추출부; 상기 특징맵에 기초하여 눈 특징점 위치에 대한 예측을 수행하도록 구성된 눈 특징점 예측부; 예측된 눈 특징점 위치에 기반하여 시선 벡터를 예측하도록 구성된 시선 벡터 예측부; 및 시선 벡터 및 동공 좌표를 출력하도록 구성된 출력부를 포함하는 실시간 시선 추적 장치를 제공할 수 있다.

여기서, 상기 특징맵 추출부에서 사용하는 인공 신경망은 HRNet(high Resolution Network) 네트워크이며, 상기 HRNet 네트워크는 4개의 순차적인 단계에서 저해상도 특징맵들을 생성하는 동시에 고해상도 특징맵에 1x1 컨볼루션을 적용하여 유지하도록 구성될 수 있다.

또한, 가장 고 해상도 특징맵부터 저해상도 특징맵까지의 각 채널수는 32, 64, 128, 256개이며, 최종 특징맵의 채널 수는 눈 특징점의 개수인 48개로 설정될 수 있다.

또한, 상기 특징맵 추출부에서 추출된 특징맵의 채널은 각각 눈 특징점 위치의 히트맵(heat map)을 나타내고, 상기 최종 특징맵의 48개의 채널 중 16개는 눈 가장자리 점들의 좌표에 대응하고, 30개는 홍채 가장자리 점들의 좌표에 대응하고, 나머지 2개의 채널은 각각 눈 중심의 좌표와 홍채 중심의 좌표에 대응할 수 있다.

또한, 상기 시선 벡터 예측부는 상기 예측된 눈 특징점 좌표들을 정규화하고, 정규화된 좌표들을 서포트 벡터 회귀(support vector regression) 모델에 입력하여 3차원 시선 벡터를 예측하도록 구성될 수 있다.

또한, 상기 서포트 벡터 회귀 모델의 학습 과정에서 안구의 피치(pitch) 및 요(yaw) 값을 입력할 수 있다.

또한, 상기 사용자의 눈이 닫혀 있는 경우를 판단하기 위해 EAR(Eye Aspect Raio) 값을 계산하여 측정하도록 구성된 EAR 판단부를 더 포함할 수 있다.

또한, 상기 EAR 판단부는 눈 가장자리의 가로 양 끝점 간의 거리와 세로 양 끝점 간의 거리의 비율로 EAR 값을 측정할 수 있다.

또한, 상기 EAR 판단부는 상기 측정된 EAR 값과 비교값 K를 비교함으로써, 시선 벡터 및 동공 좌표의 출력 여부를 결정하고, 상기 비교값 K는 미리 결정된 시간 동안에 측정된 상기 사용자의 EAR 값들의 중앙값(median)에 기초하여 설정될 수 있다.

또한, 상기 비교값 K는 2초 동안 측정된 상기 사용자의 EAR 값들의 중앙값의 1/2로 설정되고, 상기 측정된 EAR 값이 상기 비교값 K보다 작을 경우 눈이 닫혀 있다고 판단하여 상기 출력부에서 상기 시선 벡터 및 상기 동공 좌표를 출력하지 않을 수 있다.

본 발명의 다른 실시예에서, 눈 특징점 기반의 실시간 시선 추적 방법에 있어서, 이미지 수신부에서 사용자의 눈이 포함된 카메라 이미지를 수신하는 단계; 특징맵 추출부에서 상기 이미지로부터 인공 신경망을 이용하여 특징맵(feature map)을 추출하는 단계; 눈 특징점 예측부에서 상기 특징맵에 기초하여 눈 특징점 위치에 대한 예측하는 단계; 시선 벡터 예측부에서 예측된 눈 특징점 위치에 기반하여 시선 벡터를 예측하는 단계; 및 출력부를 통해 시선 벡터 및 동공 좌표를 출력하는 단계를 포함하는 실시간 시선 추적 방법을 제공할 수 있다.

여기서, 상기 인공 신경망은 HRNet(high Resolution Network) 네트워크이며, 상기 HRNet 네트워크는 4개의 순차적인 단계에서 저해상도 특징맵들을 생성하는 동시에 고해상도 특징맵에 1x1 컨볼루션을 적용하여 유지하도록 구성될 수 있다.

또한, 상기 시선 벡터 예측부에서 상기 예측된 눈 특징점 좌표들을 정규화하고, 정규화된 좌표들을 서포트 벡터 회귀(support vector regression) 모델에 입력하여 3차원 시선 벡터를 예측하는 단계를 더 포함할 수 있다.

또한, EAR 판단부에서 상기 사용자의 눈이 닫혀 있는 경우를 판단하기 위해 EAR 값을 계산하여 측정하는 단계를 더 포함할 수 있다.

또한, 상기 EAR 값은 눈 가장자리의 가로 양 끝점 간의 거리와 세로 양 끝점 간의 거리의 비율로 EAR 값을 측정할 수 있다.

또한, 상기 EAR 판단부에서 상기 측정된 EAR 값과 비교값 K를 비교함으로써, 시선 벡터 및 동공 좌표의 출력 여부를 결정하는 단계를 더 포함하고, 상기 비교값 K는 미리 결정된 시간 동안에 측정된 상기 사용자의 EAR 값들의 중앙값(median)에 기초하여 설정될 수 있다.

또한, 본 발명의 다른 실시예에서, 상술한 방법을 구현하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 기록매체를 제공할 수 있다.

본 발명에 의하면, 상향식 경로와 하향식 경로 모두에 중점을 두어 특징맵들을 융합하는 인공 신경망을 사용하여 시선추적 정확도와 추론 속도를 높일 수 있는 실시간 시선 추적 방법 및 장치를 제공할 수 있다.

또한, 본 발명에 의하면, 눈 이미지로부터 특징을 추출하여 눈 특징점들을 예측하는 외형 기반 방법과 출력 결과 피처 기반 방법을 적용함으로써 효율성을 높일 수 있는 실시간 시선 추적 방법 및 장치를 제공할 수 있다.

또한, 본 발명에 의하면, 눈의 닫힌 정도를 나타내는 EAR(Eye Aspect Ratio) 값을 사용하여 눈 깜빡임 시에 오탐을 줄여 시선 추적 정확도를 높일 수 있는 실시간 시선 추적 방법 및 장치를 제공할 수 있다.

또한, 본 발명에 의하면, 강인한 특징맵들을 융합하는 인공 신경망을 사용하고, 효율적인 시선 추적 방법을 적용함으로써 높은 정확도를 달성하는 동시에 실시간 동작이 가능하다는 이점이 있다.

또한, 본 발명에 의하면, 눈 깜빡임 시에 결과를 출력하지 않게 하는 알고리즘을 통해 오탐을 줄여 시선 추적 정확도를 향상시킬 수 있으며, 실제 눈 이미지 및 양질의 GT(ground-truth)가 부족한 시선 추적 과제에 합성 눈 이미지 데이터셋을 사용함으로써 강도 높은 노동을 요구하는 데이터셋의 구축 과정 없이 인공 신경망을 학습시킬 수 있다.

본 발명의 효과들은 이상에서 언급한 내용들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 실시간 시선 추적 장치의 구성을 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 HRNet 네트워크 구조를 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 눈 가장자리의 끝점 간의 거리를 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 합성 눈 이미지 및 눈 특징점 좌표를 나타내는 도면이다.
도 5는 본 발명의 일 실시예예 따른 3차원 좌표계에 나타낸 시선 벡터와 각도를 나타내는 도면이다.
도 6은 본 발명의 일 실시예에 따른 실시간 시선 추적 방법을 설명하기 위한 흐름도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예가 상세하게 설명된다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고, 도면에서 본 발명의 실시예를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략되었다.

본 명세서에서 사용된 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도로 사용된 것이 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다.

본 명세서에서, "포함하다", "가지다" 또는 "구비하다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것으로서, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해될 수 있다.

또한, 본 발명의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 기술되고, 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있다. 이러한 각 구성부의 통합된 실시예 및 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리 범위에 포함된다.

또한, 이하의 실시예들은 당 업계에서 평균적인 지식을 가진 자에게 보다 명확하게 설명하기 위해서 제공되는 것으로서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

이하, 첨부된 도면을 참조하여, 본 발명에 따른 바람직한 실시예에 대하여 설명한다.

도 1은 본 발명의 일 실시예에 따른 실시간 시선 추적 장치의 구성을 설명하기 위한 블록도이다.

도 1을 참조하면, 실시간 시선 추적 장치(100)는 이미지 수신부(110), 특징맵 추출부(120), 눈 특징점 예측부(130), 시선 벡터 예측부(140), EAR 판단부(150) 및 출력부(160)로 구성될 수 있다.

이미지 수신부(110)는 IR(적외선) 카메라 등으로 촬영한 사용자의 눈이 포함된 입력 이미지(10)를 수신하도록 구성될 수 있다.

특징맵 추출부(120)는 예컨대 흑백의 눈 이미지로부터 인공 신경망을 이용하여 특징맵(feature map)을 추출하도록 구성될 수 있다. 예컨대 특징맵 추출부(120)에서 사용하는 인공 신경망은 HRNet(high Resolution Network) 네트워크일 수 있으며, 흑백의 눈 프레임이 HRNet에 입력될 수 있다. 이때, HRNet은 상향식 경로와 하향식 경로의 효과적인 융합을 통해 눈 특징점 예측을 위한 특징맵을 추출할 수 있다.

HRNet 네트워크는 4개의 순차적인 단계에서 저해상도 특징맵들을 생성하는 동시에 고해상도 특징맵에 1x1 컨볼루션을 적용하여 유지하도록 구성될 수 있다. 또한, 가장 고 해상도 특징맵부터 저해상도 특징맵까지의 각 채널수는 32, 64, 128, 256개이며, 최종 특징맵의 채널 수는 눈 특징점의 개수인 48개로 설정될 수 있다.

눈 특징점 예측부(130)는 특징맵에 기초하여 눈 특징점 위치에 대한 예측을 수행하도록 구성될 수 있다. 추출된 특징맵의 각각의 채널에서는 히트맵(heatmap) 방식의 눈 특징점들의 위치에 대한 예측이 이루어질 수 있다. 특징맵 추출부(120)에서 추출된 특징맵의 채널은 각각 눈 특징점 위치의 히트맵(heat map)을 나타내고, 최종 특징맵의 48개의 채널 중 16개는 눈 가장자리 점들의 좌표에 대응하고, 30개는 홍채 가장자리 점들의 좌표에 대응하고, 나머지 2개의 채널은 각각 눈 중심의 좌표와 홍채 중심의 좌표에 대응할 수 있다.

시선 벡터 예측부(140)는 예측된 눈 특징점 위치에 기반하여 시선 벡터를 예측하도록 구성될 수 있다. 시선 벡터 예측부(140)는 예측된 눈 특징점 좌표들을 정규화하고, 정규화된 좌표들을 서포트 벡터 회귀(support vector regression) 모델에 입력하여 3차원 시선 벡터를 예측하도록 구성될 수 있다. 또한, 서포트 벡터 회귀 모델의 학습 과정에서 GT(ground-truth)로서 안구의 피치(pitch) 및 요(yaw) 값을 입력할 수 있다.

EAR(Eye Aspect Raio) 판단부(150)는 사용자의 눈이 닫혀 있는 경우를 판단하기 위해 EAR 값을 계산하여 측정하도록 구성될 수 있다. 예컨대, EAR 판단부(150)는 눈 가장자리의 가로 양 끝점 간의 거리와 세로 양 끝점 간의 거리의 비율로 EAR 값을 측정할 수 있다.

눈이 완전히 열려 있을 때의 EAR 값은 사용자에 따라 크게 다르기 때문에 본 시선 추적 장치에서는 프로그램 실행 시 2초간 사용자의 EAR 값들을 측정한 후, 중앙값(median)의 1/2배를 대소 비교값 K로 설정할 수 있다. 이후, 측정된 EAR 값이 비교값 K보다 클 경우, 동공 또는 홍채 중심 좌표와 시선 벡터를 출력할 수 있다. 반대로, 측정된 EAR 값이 비교값 K보다 작을 경우에는 눈이 절반 이상 닫혀 있다고 판단하여 결과를 출력하지 않을 수 있다.

출력부(160)는 위와 같이 EAR 값 판단 및 비교에 기초하여 시선 벡터 및 동공 좌표(20)를 출력하도록 구성될 수 있다.

도 2는 본 발명의 일 실시예에 따른 HRNet 네트워크 구조를 설명하기 위한 도면이다.

도 2는 본 시스템에 적용가능한 인공 신경망인 HRNet 구조를 나타낸다. HRNet은 상향식 경로와 하향식 경로 모두에 중점을 두어 특징맵들을 융합하는 방식을 사용하여 정확도를 높이는 동시에 부동 소수점 연산량(FLOPS)을 절반으로 줄이는 효과를 가져온다. HRNet은 매 단계에서 저해상도 특징맵들을 생성하는 동시에 고해상도 특징맵에 1Х1 컨볼루션을 적용하여 유지함으로써 작은 영역에 대한 특징들도 강화해나갈 수 있다.

HRNet은 총 4개의 순차적인 단계로 구성되어 있으며, 각 단계에서 가장 작은 해상도 특징맵의 1/2 크기의 특징맵을 추가로 생성한 후, 레지듀얼 블락(residual block)을 4번 적용할 수 있다. 이후, 각 단계의 마지막 프로세스로써 교환 과정을 진행하여 모든 해상도의 특징맵을 풀리 커넥티드(fully-connected) 방식으로 융합할 수 있다. 각 단계에서의 교환 과정은 여러 번의 교환 단위의 반복으로 이루어지는데 2단계에서는 1회, 3단계에서는 4회, 4단계에서는 3회 반복을 시행할 수 있다. 교환 과정에서 상향식 경로에서는 1Х1 컨볼루션과 최근접 이웃 보간법(Nearest-Neighbor Interpolation)을 사용하여 업샘플링(up sampling)하고, 하향식 경로에서는 스트라이드(stride)가 2인 3Х3 컨볼루션을 사용하여 다운샘플링(down sampling)할 수 있다. 한편, 평행식 경로에서는 1Х1 컨볼루션을 사용하여 해상도를 유지할 수 있다.

또한, 본 발명에서는 실시간 동작을 위해 가벼운 모델로서 예컨대 HRNet-W32를 사용할 수 있으며, 가장 고해상도 특징맵부터 저해상도 특징맵까지의 각 채널 수는 차례대로 32개, 64개, 128개, 256개로 설정할 수 있다. 출력으로는 가장 해상도가 높은 특징맵을 출력하고, 최종 특징맵의 채널 수는 눈 특징점의 개수인 48개로 설정할 수 있다.

또한, HRNet으로부터 추출한 출력 특징맵의 채널은 각각 눈 특징점 위치의 히트맵(heatmap)을 나타낼 수 있다. 여기서, 총 48개의 채널 중 16개는 눈 가장자리 점들의 좌표에 해당하고, 30개는 홍채 가장자리 점들의 좌표에 해당하며, 나머지 2개의 채널은 각각 눈 중심의 좌표와 동공 또는 홍채 중심의 좌표를 나타낼 수 있다.

이때, 각 히트맵에서 가장 높은 값을 갖는 지점이 눈 특징점이 존재할 확률이 가장 큰 점을 의미하므로 최종적으로 해당 점의 좌표를 예측값으로 출력할 수 있다. 인공 신경망의 학습 과정에서는 각 채널에 눈 특징점을 중심으로 하고, 1의 표준 편차를 갖는 2D 가우시안 분포를 GT(ground-truth)로 입력할 수 있다. 출력 히트맵과 GT(ground-truth) 간의 손실 함수로는 L2 loss인 평균 제곱 오차(Mean Square Error)를 적용할 수 있다. 아래 식은 눈 특징점 예측을 위한 히트맵에 대한 전체 손실 함수에 대한 수식을 나타낸다. 여기서, N은 눈 특징점의 수, K는 출력 특징맵의 픽셀 수,

은 예측된 히트맵,

은 GT(ground-truth) 히트맵을 의미한다.

<눈 특징점 예측을 위한 히트맵에 대한 전체 손실 함수>

본 발명에 의하면 외형 기반(appearance-based) 방법의 인공 신경망을 사용하여 특징맵을 추출하고 예측된 눈 특징점 좌표들에 피처 기반(feature-based) 방법을 사용하여 시선을 추적할 수 있다. 먼저, 히트맵을 통해 예측된 눈 특징점 좌표들을 눈 중심 좌표를 중심으로 하고, 눈 반지름의 길이(눈 중심 좌표와 거리가 가장 먼 눈 가장자리 점의 좌표 간의 거리)로 정규화할 수 있다. 이와 같이 정규화된 좌표들은 서포트 벡터 회귀(Support Vector Regression) 모델에 입력되고, 모델은 3차원의 시선 벡터를 예측할 수 있다.

또한, 서포트 벡터 회귀 모델의 학습 과정에서는 GT(ground truth)로 안구의 피치(pitch, θ)와 요(yaw, φ)를 입력할 수 있다.

도 3은 본 발명의 일 실시예에 따른 눈 가장자리의 끝점 간의 거리를 나타내는 도면이다.

본 발명에서 제안하는 인공 신경망 모델은 이미지 내 눈 특징점의 실제 유무와 관계없이 설정된 눈 특징점의 개수만큼 위치를 예측할 수 있다. 따라서, 사용자의 눈이 닫혀 있을 시에도 시선을 추적하는 오탐을 발생시킬 수 있다. 따라서, 이 문제점을 해결하기 위하여 본 발명은 EAR 판단부(150)에서 EAR(Eye Aspect Ratio) 값을 계산할 수 있다. EAR 값은 눈 가장자리의 가로 양 끝점 간의 거리와 세로 양 끝점 간의 거리의 비율로 눈의 닫힌 정도를 측정하는 데 사용될 수 있다. 도 3에서 눈 가장자리의 가로 양 끝점 p1, p3 과 세로 양 끝점 p2, p4 및 두 끝점 간의 거리를 나타낸다. 아래 식은 EAR 값을 계산하는 수식을 나타낸다.

눈이 완전히 열려 있을 시의 EAR 값은 사용자에 따라 크게 다르다. 따라서, 본 발명에서는 프로그램 실행 시 2초간 사용자의 EAR 값들을 측정한 후, 중앙값(median)의 1/2배를 대소 비교값인 K로 설정한다. 이후, 측정된 EAR 값이 K보다 클 경우, 출력부(150)를 통해 동공 중심 좌표와 시선 벡터를 출력할 수 있다. 반대로, 측정된 EAR 값이 K보다 작을 경우에는 눈이 절반 이상 닫혀 있다고 판단하여 출력부(150)에서 동공 중심 좌표와 시선 벡터를 출력하지 않을 수 있다.

도 4는 본 발명의 일 실시예에 따른 합성 눈 이미지 및 눈 특징점 좌표를 나타내는 도면이다.

시선 추적을 위한 인공 신경망을 학습시키기 위한 데이터셋으로 유니티아이즈(UnityEyes)로 생성한 합성 눈 이미지 데이터셋를 사용할 수 있다. 유니티아이즈(UnityEyes)는 유니티(Unity) 소프트웨어를 이용한 3D 안구 모델 생성 프로그램으로서 눈 이미지 데이터와 양질의 GT(ground-truth)가 부족한 실제 데이터셋의 대안으로 널리 사용되고 있다.

도 4는 유니티아이즈(UnityEyes)로 생성한 합성 눈 이미지의 예와 눈 특징점 좌표를 나타낸다. 예컨대, 눈 특징점 좌표는 총 53개로, 16개의 눈 가장자리, 7개의 눈물 언덕(caruncle), 30개의 홍채 가장자리 좌표들을 포함할 수 있다. 본 발명에서는 눈물 언덕(caruncle) 좌표들을 제외한 눈 및 홍채 가장자리 좌표들만을 사용할 수 있다. 또한, 눈 중심 좌표 및 홍채 중심 좌표를 가장자리 좌표들의 평균으로 계산 및 추가하여 눈 특징점 위치의 히트맵의 GT(ground-truth)로 사용할 수 있다.

합성 눈 이미지는 640Х480의 크기로 생성한 후에 흑백 이미지로의 변환 과정을 거치고, 사용하는 IR 눈 카메라의 해상도에 맞추어 눈 중심 좌표를 중심으로 크롭할 수 있다.

도 5는 본 발명의 일 실시예예 따른 3차원 좌표계에 나타낸 시선 벡터와 각도를 나타내는 도면이다.

유니티아이즈(UnityEyes)에서 제공하는 3차원 시선 벡터 G(x, y, z)는 θ와 φ로 변환하여 서포트 벡터 회귀의 GT(ground-truth)로 사용할 수 있다. 도 5는 3차원 좌표계에 나타낸 시선 벡터와 θ와 φ의 각도를 나타내며, 아래 식은 시선 벡터의 각도 변환 수식을 나타낸다.

도 6은 본 발명의 일 실시예에 따른 실시간 시선 추적 방법을 설명하기 위한 흐름도이다.

도 6을 참조하면, 먼저, IR(적외선) 눈 카메라로부터 카메라 이미지를 수신할 수 있다.(S610)

다음으로, 수신된 카메라 이미지의 흑백의 눈 프레임이 인공 신경망에 입력되고, 예컨대 HRNet 네트워크 인공 신경망을 통해 특징맵을 추출할 수 있다.(S620) HRNet 네트워크는 도 2에서와 같이 상향식 경로와 하향식 경로의 효과적인 융합을 통해 눈 특징점 예측을 위한 특징맵을 추출할 수 있다.

다음으로, 추출된 특징맵에 기초하여 눈 특징점 위치에 대한 예측을 수행할 수 있다.(S630) 추출된 특징맵의 각각의 채널에서는 히트맵 방식의 눈 특징점들의 위치에 대한 예측이 이루어질 수 있다.

다음으로, 예측된 눈 특징점 위치에 기반하여 시선 벡터를 예측할 수 있다.(S640) 예측된 특징점의 좌표들은 서포트 벡터 회귀(Support Vector Regression)를 통한 시선 벡터를 예측하는 데 사용될 수 있다.

최종적으로 시선 추적 방법에서 시선 벡터와 홍채 또는 동공 중심 좌표를 출력하기 이전에 EAR 판단부(150)에서 EAR 값을 계산하고, 사전에 설정한 값 K와 대소를 비교함으로써 예측 결과의 출력 여부를 결정할 수 있다.(S650) EAR 판단부(150)는 측정된 EAR 값과 비교값 K를 비교함으로써, 시선 벡터 및 동공 좌표의 출력 여부를 결정하고, 여기서 비교값 K는 미리 결정된 시간 동안에 측정된 상기 사용자의 EAR 값들의 중앙값(median)에 기초하여 설정될 수 있다. 예컨대, 비교값 K는 2초 동안 측정된 상기 사용자의 EAR 값들의 중앙값의 1/2로 설정될 수 있고, 측정된 EAR 값이 비교값 K보다 작을 경우 눈이 닫혀 있다고 판단하여 상기 출력부에서 상기 시선 벡터 및 상기 동공 좌표를 출력하지 않을 수 있다.

마지막으로 측정된 EAR 값이 비교값 K보다 클 경우 출력부(160)에서 시선 벡터 및 동공 중심 좌표를 출력할 수 있다.(S660)

본 명세서에 기재된 다양한 실시예들은 하드웨어, 미들웨어, 마이크로코드, 소프트웨어 및/또는 이들의 조합에 의해 구현될 수 있다. 예를 들어, 다양한 실시예들은 하나 이상의 주문형 반도체(ASIC)들, 디지털 신호 프로세서(DSP)들, 디지털 신호 프로세싱 디바이스(DSPD)들, 프로그램어블 논리 디바이스(PLD)들, 필드 프로그램어블 게이트 어레이(FPGA)들, 프로세서들, 컨트롤러들, 마이크로컨트롤러들, 마이크로프로세서들, 여기서 제시되는 기능들을 수행하도록 설계되는 다른 전자 유닛들 또는 이들의 조합 내에서 구현될 수 있다.

또한, 예를 들어, 다양한 실시예들은 명령들을 포함하는 컴퓨터-판독가능한 매체에 수록되거나 인코딩될 수 있다. 컴퓨터-판독가능한 매체에 수록 또는 인코딩된 명령들은 프로그램 가능한 프로세서 또는 다른 프로세서로 하여금 예컨대, 명령들이 실행될 때 방법을 수행하게끔 할 수 있다. 컴퓨터-판독가능한 매체는 컴퓨터 저장 매체 및 하나의 장소로부터 다른 장소로 컴퓨터 프로그램의 이송을 용이하게 하는 임의의 매체를 포함하는 통신 매체 모두를 포함한다. 저장 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수도 있다. 예를 들어, 이러한 컴퓨터-판독가능한 매체는 RAM, ROM, EEPROM, CD-ROM　또는 기타 광학디스크 저장 매체, 자기 디스크 저장 매체 또는 기타 자기 저장 디바이스 또는 원하는 프로그램 코드를 컴퓨터에 의해 액세스가능한 명령들 또는 데이터 구조들의 형태로 반송하거나 저장하는데 이용될 수 있는 임의의 다른 매체를 포함할 수 있다.

이러한 하드웨어, 소프트웨어, 펌웨어 등은 본 명세서에 기술된 다양한 동작들 및 기능들을 지원하도록 동일한 디바이스 내에서 또는 개별 디바이스들 내에서 구현될 수 있다. 추가적으로, 본 발명에서 "~부"로 기재된 구성요소들, 유닛들, 모듈들, 컴포넌트들 등은 함께 또는 개별적이지만 상호 운용가능한 로직 디바이스들로서 개별적으로 구현될 수 있다. 모듈들, 유닛들 등에 대한 서로 다른 특징들의 묘사는 서로 다른 기능적 실시예들을 강조하기 위해 의도된 것이며, 이들이 개별 하드웨어 또는 소프트웨어 컴포넌트들에 의해 실현되어야만 함을 필수적으로 의미하지 않는다. 오히려, 하나 이상의 모듈들 또는 유닛들과 관련된 기능은 개별 하드웨어 또는 소프트웨어 컴포넌트들에 의해 수행되거나 또는 공통의 또는 개별의 하드웨어 또는 소프트웨어 컴포넌트들 내에 통합될 수 있다.

특정한 순서로 동작들이 도면에 도시되어 있지만, 이러한 동작들이 원하는 결과를 달성하기 위해 도시된 특정한 순서, 또는 순차적인 순서로 수행되거나, 또는 모든 도시된 동작이 수행되어야 할 필요가 있는 것으로 이해되지 말아야 한다. 임의의 환경에서는, 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다. 더욱이, 상술한 실시예에서 다양한 구성요소들의 구분은 모든 실시예에서 이러한 구분을 필요로 하는 것으로 이해되어서는 안되며, 기술된 구성요소들이 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키징될 수 있다는 것이 이해되어야 한다.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해서 정해져야 할 것이다.

100: 실시간 시선 추적 장치
110: 이미지 수신부
120: 특징맵 추출부
130: 눈 특징점 예측부
140: 시선 벡터 예측부
150: EAR 판단부
160: 출력부

Claims

눈 특징점 기반의 실시간 시선 추적 장치에 있어서,
사용자의 눈이 포함된 카메라 이미지를 수신하도록 구성된 이미지 수신부;
상기 이미지로부터 인공 신경망을 이용하여 특징맵(feature map)을 추출하도록 구성된 특징맵 추출부;
상기 특징맵에 기초하여 눈 특징점 위치에 대한 예측을 수행하도록 구성된 눈 특징점 예측부;
예측된 눈 특징점 위치에 기반하여 시선 벡터를 예측하도록 구성된 시선 벡터 예측부; 및
시선 벡터 및 동공 좌표를 출력하도록 구성된 출력부
를 포함하는 실시간 시선 추적 장치.
제1항에 있어서, 상기 특징맵 추출부에서 사용하는 인공 신경망은 HRNet(high Resolution Network) 네트워크이며, 상기 HRNet 네트워크는 4개의 순차적인 단계에서 저해상도 특징맵들을 생성하는 동시에 고해상도 특징맵에 1x1 컨볼루션을 적용하여 유지하도록 구성되는 것인, 실시간 시선 추적 장치.
제2항에 있어서, 가장 고 해상도 특징맵부터 저해상도 특징맵까지의 각 채널수는 32, 64, 128, 256개이며, 최종 특징맵의 채널 수는 눈 특징점의 개수인 48개로 설정되는 것인, 실시간 시선 추적 장치.
제3항에 있어서, 상기 특징맵 추출부에서 추출된 특징맵의 채널은 각각 눈 특징점 위치의 히트맵(heat map)을 나타내고, 상기 최종 특징맵의 48개의 채널 중 16개는 눈 가장자리 점들의 좌표에 대응하고, 30개는 홍채 가장자리 점들의 좌표에 대응하고, 나머지 2개의 채널은 각각 눈 중심의 좌표와 홍채 중심의 좌표에 대응하는 것인, 실시간 시선 추적 장치.
제1항에 있어서, 상기 시선 벡터 예측부는 상기 예측된 눈 특징점 좌표들을 정규화하고, 정규화된 좌표들을 서포트 벡터 회귀(support vector regression) 모델에 입력하여 3차원 시선 벡터를 예측하도록 구성되는 것인, 실시간 시선 추적 장치.
제5항에 있어서, 상기 서포트 벡터 회귀 모델의 학습 과정에서 안구의 피치(pitch) 및 요(yaw) 값을 입력하는 것인, 실시간 시선 추적 장치.
제1항에 있어서, 상기 사용자의 눈이 닫혀 있는 경우를 판단하기 위해 EAR(Eye Aspect Raio) 값을 계산하여 측정하도록 구성된 EAR 판단부를 더 포함하는 것인, 실시간 시선 추적 장치.
제7항에 있어서, 상기 EAR 판단부는 눈 가장자리의 가로 양 끝점 간의 거리와 세로 양 끝점 간의 거리의 비율로 EAR 값을 측정하는 것인, 실시간 시선 추적 장치.
제8항에 있어서, 상기 EAR 판단부는 상기 측정된 EAR 값과 비교값 K를 비교함으로써, 시선 벡터 및 동공 좌표의 출력 여부를 결정하고, 상기 비교값 K는 미리 결정된 시간 동안에 측정된 상기 사용자의 EAR 값들의 중앙값(median)에 기초하여 설정되는 것인, 실시간 시선 추적 장치.
제9항에 있어서, 상기 비교값 K는 2초 동안 측정된 상기 사용자의 EAR 값들의 중앙값의 1/2로 설정되고, 상기 측정된 EAR 값이 상기 비교값 K보다 작을 경우 눈이 닫혀 있다고 판단하여 상기 출력부에서 상기 시선 벡터 및 상기 동공 좌표를 출력하지 않는 것인, 실시간 시선 추적 장치.
눈 특징점 기반의 실시간 시선 추적 방법에 있어서,
이미지 수신부에서 사용자의 눈이 포함된 카메라 이미지를 수신하는 단계;
특징맵 추출부에서 상기 이미지로부터 인공 신경망을 이용하여 특징맵(feature map)을 추출하는 단계;
눈 특징점 예측부에서 상기 특징맵에 기초하여 눈 특징점 위치에 대한 예측하는 단계;
시선 벡터 예측부에서 예측된 눈 특징점 위치에 기반하여 시선 벡터를 예측하는 단계; 및
출력부를 통해 시선 벡터 및 동공 좌표를 출력하는 단계
를 포함하는 실시간 시선 추적 방법.
제11항에 있어서, 상기 인공 신경망은 HRNet(high Resolution Network) 네트워크이며, 상기 HRNet 네트워크는 4개의 순차적인 단계에서 저해상도 특징맵들을 생성하는 동시에 고해상도 특징맵에 1x1 컨볼루션을 적용하여 유지하도록 구성되는 것인, 실시간 시선 추적 방법.
제12항에 있어서, 가장 고 해상도 특징맵부터 저해상도 특징맵까지의 각 채널수는 32, 64, 128, 256개이며, 최종 특징맵의 채널 수는 눈 특징점의 개수인 48개로 설정되는 것인, 실시간 시선 추적 방법.
제13항에 있어서, 상기 특징맵 추출부에서 추출된 특징맵의 채널은 각각 눈 특징점 위치의 히트맵(heat map)을 나타내고, 상기 최종 특징맵의 48개의 채널 중 16개는 눈 가장자리 점들의 좌표에 대응하고, 30개는 홍채 가장자리 점들의 좌표에 대응하고, 나머지 2개의 채널은 각각 눈 중심의 좌표와 홍채 중심의 좌표에 대응하는 것인, 실시간 시선 추적 방법.
제11항에 있어서, 상기 시선 벡터 예측부에서 상기 예측된 눈 특징점 좌표들을 정규화하고, 정규화된 좌표들을 서포트 벡터 회귀(support vector regression) 모델에 입력하여 3차원 시선 벡터를 예측하는 단계를 더 포함하는 실시간 시선 추적 방법.
제11항에 있어서, EAR 판단부에서 상기 사용자의 눈이 닫혀 있는 경우를 판단하기 위해 EAR 값을 계산하여 측정하는 단계를 더 포함하는 실시간 시선 추적 방법.
제11항 내지 제16항 중 어느 한 항에 기재된 방법을 구현하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 기록매체.