KR20230091367A - 시선 예측 방법 및 그 장치 - Google Patents

시선 예측 방법 및 그 장치 Download PDF

Info

Publication number
KR20230091367A
KR20230091367A KR1020210180416A KR20210180416A KR20230091367A KR 20230091367 A KR20230091367 A KR 20230091367A KR 1020210180416 A KR1020210180416 A KR 1020210180416A KR 20210180416 A KR20210180416 A KR 20210180416A KR 20230091367 A KR20230091367 A KR 20230091367A
Authority
KR
South Korea
Prior art keywords
gaze
face
region
feature vector
layers
Prior art date
Application number
KR1020210180416A
Other languages
English (en)
Other versions
KR102640081B1 (ko
Inventor
공성곤
Original Assignee
세종대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 세종대학교산학협력단 filed Critical 세종대학교산학협력단
Priority to KR1020210180416A priority Critical patent/KR102640081B1/ko
Publication of KR20230091367A publication Critical patent/KR20230091367A/ko
Application granted granted Critical
Publication of KR102640081B1 publication Critical patent/KR102640081B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/755Deformable models or variational models, e.g. snakes or active contours
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Ophthalmology & Optometry (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

시선 예측 방법 및 그 장치가 개시된다. 시선 예측 방법은 얼굴 영상을 전처리하여 얼굴 영역을 검출하고, 상기 얼굴 영역에서 좌측 눈 영역, 우측 눈 영역, 얼굴 영역 및 얼굴 그리드를 각각 관심 영역(ROI)로 선택하는 단계; 상기 좌측 눈 영역, 우측 눈 영역, 얼굴 영역 및 얼굴 그리드를 포함하는 각 관심 영역을 학습된 특징 추출 모델에 적용하여 특징 벡터를 추출하는 단계; 및 상기 특징 벡터를 학습된 장단기 메모리 기반 시선 예측 모델에 적용하여 시선점 위치(position)을 예측하는 단계를 포함하되, 상기 학습된 장단기 메모리 기반 시선 예측 모델은 두개의 동일한 장단기 메모리(LSTM)가 연결된 네트워크와 상기 네트워크 후단에 연결되는 두개의 완전 연결 레이어(FC1, FC2)를 포함하며, 상기 두개의 완전 연결 레이어(FC1, FC2)는 상기 네트워크에 의해 출력된 시간적 변화량이 반영된 특징 벡터(
Figure pat00089
)를 시선점의 위치(position)로 선형적으로 변형시킬 수 있다.

Description

시선 예측 방법 및 그 장치{Gaze estimation method and apparatus}
본 발명은 시선 예측 방법 및 그 장치에 관한 것이다.
시선 예측 및 추적은 인간이 바라보는 시선점 위치 또는 방향을 예측하고 추적하는 과정이다. 시선점은 사용자의 주의 집중을 반영하므로 인간-컴퓨터 상호 작용 시스템을 설계하는데 있어 관찰 가능한 중요한 지표이다.
비전 기반 시선 예측 장치는 컴퓨터 모니터 화면이나 모바일 장치에 장착된 카메라를 사용하여 장치를 사용하는 동안 사용자의 눈 이동 비디오 스트림을 캡처할 수 있다. 이어, 내부 컴퓨팅 요소가 비디오 스트림의 각 프레임에서 이미지 데이터를 처리하여 모니터 화면의 시선점의 공간 좌표를 추정하였다.
종래 기술들은 조명 및 광원 등의 변화에 따라 예측 결과에 많은 영향을 미치는 단점들이 있다.
본 발명은 시선 예측 방법 및 그 장치를 제공하기 위한 것이다.
또한, 본 발명은 얼굴의 특징 정보와 함께 시간적인 변화 특성을 고려하여 시선점을 예측하여 정확한 시선 예측이 가능한 시선 예측 방법 및 그 장치를 제공하기 위한 것이다.
본 발명의 일 측면에 따르면 시선 예측 방법이 제공된다.
본 발명의 일 실시예에 따르면, 얼굴 영상을 전처리하여 얼굴 영역을 검출하고, 상기 얼굴 영역에서 좌측 눈 영역, 우측 눈 영역, 얼굴 영역 및 얼굴 그리드를 각각 관심 영역(ROI)로 선택하는 단계; 상기 좌측 눈 영역, 우측 눈 영역, 얼굴 영역 및 얼굴 그리드를 포함하는 각 관심 영역을 학습된 특징 추출 모델에 적용하여 특징 벡터를 추출하는 단계; 및 상기 특징 벡터를 학습된 장단기 메모리 기반 시선 예측 모델에 적용하여 시선점 위치(position)을 예측하는 단계를 포함하되, 상기 학습된 장단기 메모리 기반 시선 예측 모델은 두개의 동일한 장단기 메모리(LSTM)가 연결된 네트워크와 상기 네트워크 후단에 연결되는 두개의 완전 연결 레이어(FC1, FC2)를 포함하며, 상기 두개의 완전 연결 레이어(FC1, FC2)는 상기 네트워크에 의해 출력된 시간적 변화량이 반영된 특징 벡터(
Figure pat00001
)를 시선점의 위치(position)로 선형적으로 변형시키는 것을 특징으로 하는 시선 예측 방법이 제공될 수 있다.
상기 두개의 완전 연결 레이어 중 어느 하나(FC1)는 128개의 히든 유닛으로 구성되며, 활성화 레이어에서
Figure pat00002
로서 ReLU 함수를 사용하여 시간 변화량이 반영된 특징 벡터(
Figure pat00003
)를 처리하고, 다른 하나(FC2)는 2개의 히든 레이어로 구성되고 상기 두개의 완전 연결 레이어 중 어느 하나(FC1)의 출력을 시선점 위치(position)로 선형적으로 변형시킬 수 있다.
상기 특징 추출 모델은, 상기 우측 눈 영역에서 특징을 추출하는 4개의 제1 콘볼루션 레이어; 상기 좌측 눈 영역에서 특징을 추출하는 4개의 제2 콘볼루션 레이어; 상기 얼굴 영역에서 특징을 추출하는 5개의 제3 콘볼루션 레이어; 및 상기 제1 콘볼루션 레이어와 상기 제2 콘볼루션 레이어 후단에 연결되는 제1 완전 연결 레이어(FC-E1); 상기 제3 콘볼루션 레이어 후단에 연결되는 제2 및 제3 완전 연결 레이어(FC-F1, FC-F2); 및 상기 얼굴 그리드를 처리하는 제4 및 제5 완전 연결 레이어(FC-FG1, FC-FG2)를 포함하되, 상기 제1 완전 연결 레이어(FC-E1), 상기 제3 완전 연결 레이어(FC-F2) 및 상기 제5 완전 연결 레이어(FC-FG2)의 출력은 연결되어 상기 특징 벡터를 추출할 수 있다.
상기 시선점 위치(position)은 4개의 보정 파라미터를 이용하여 보정되되, 상기 4개의 보정 파라미터는 스크린의 중앙 보정점과 스크린상의 네 모서리에 대응하는 4개의 보정점 응시 결과를 평균화하여 추정될 수 있다.
상기 학습된 장단기 메모리 기반 시선 예측 모델에 입력되는 특징 벡터는 얼굴의 차별화되는 특징들을 포함하되, 이전 내부 메모리 셀의 출력에 따라 상기 특징 벡터에 포함된 특징들에 대해 서로 다른 가중치가 적용되어 상기 학습된 장단기 메모리 기반 시선 예측 모델에 입력될 수 있다.
상기 얼굴 그리드는 상기 얼굴 영역의 위치와 크기를 나타내는 이진 마스크이다.
본 발명의 다른 측면에 따르면 시선 예측 장치가 제공된다.
본 발명의 일 실시예에 따르면, 적어도 하나의 명령어를 저장하는 메모리; 및 상기 메모리에 저장된 명령어를 실행하는 프로세서를 포함하되, 상기 명령어는, 얼굴 영상을 전처리하여 얼굴 영역을 검출하고, 상기 얼굴 영역에서 좌측 눈 영역, 우측 눈 영역, 얼굴 영역 및 얼굴 그리드를 각각 관심 영역(ROI)로 선택하는 단계; 상기 좌측 눈 영역, 우측 눈 영역, 얼굴 영역 및 얼굴 그리드를 포함하는 각 관심 영역을 학습된 특징 추출 모델에 적용하여 특징 벡터를 추출하는 단계; 및 상기 특징 벡터를 학습된 장단기 메모리 기반 시선 예측 모델에 적용하여 시선점 위치(position)을 예측하는 단계를 수행하되, 상기 학습된 장단기 메모리 기반 시선 예측 모델은 두개의 동일한 장단기 메모리(LSTM)가 연결된 네트워크와 상기 네트워크 후단에 연결되는 두개의 완전 연결 레이어(FC1, FC2)를 포함하며, 상기 두개의 완전 연결 레이어(FC1, FC2)는 상기 네트워크에 의해 출력된 시간적 변화량이 반영된 특징 벡터(
Figure pat00004
)를 시선점의 위치(position)로 선형적으로 변형시키는 것을 특징으로 하는 시선 예측 장치가 제공될 수 있다.
본 발명의 일 실시예에 시선 예측 방법 및 그 장치를 제공함으로써, 얼굴의 특징 정보와 함께 시간적인 변화 특성을 고려하여 시선점을 예측하여 정확한 시선 예측이 가능한 이점이 있다.
도 1은 본 발명의 일 실시예에 따른 시선 예측 방법을 나타낸 순서도.
도 2는 본 발명의 일 실시예에 따른 콘볼루션 네트워크 기반 특징 추출 모델의 세부 구성을 도시한 도면.
도 3은 본 발명의 일 실시예에 따른 장단기 메모리 모델 기반 시선 예측 모델의 구성을 개략적으로 도시한 도면.
도 4는 본 발명의 일 실시예에 따른 시선 예측 장치의 내부 구성을 개략적으로 도시한 블록도.
본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 시선 예측 방법을 나타낸 순서도이고, 도 2는 본 발명의 일 실시예에 따른 콘볼루션 네트워크 기반 특징 추출 모델의 세부 구성을 도시한 도면이며, 도 3은 본 발명의 일 실시예에 따른 장단기 메모리 모델 기반 시선 예측 모델의 구성을 개략적으로 도시한 도면이다.
단계 110에서 시선 예측 장치(100)는 얼굴 영상을 획득한다.
단계 115에서 시선 예측 장치(100)는 얼굴 영상을 전처리하여 얼굴 영역을 검출한다.
얼굴 영상에서 얼굴 영역을 감지한 후 얼굴 영역을 자른다.
단계 120에서 시선 예측 장치(100)는 전처리된 얼굴 영상에서 관심 영역(ROI: Region of Interest)을 선택한다.
예를 들어, 시선 예측 장치(100)는 전처리된 얼굴 영상에서 오른쪽 눈 영역, 왼쪽 눈 영역, 눈동자(pupil), 헤드 포즈(head pose) 등을 ROI로 선택할 수 있다. 또한, 시선 예측 장치(100)는 두 눈 영역 및 얼굴 위치를 포함하는 얼굴 그리드를 ROI로 선택할 수 있다. 여기서, 얼굴 그리드는 얼굴 영역의 위치와 크기를 나타내는 이진 마스크(binary mask)일 수 있다.
예를 들어, 전처리된 얼굴 영상에서 64 x 64 사이즈로 자른 얼굴 영역, 64 x 64 크기 사이즈로 자른 눈 영역(왼쪽, 오른쪽), 64 x 64 크기의 얼굴 그리드가 각각 ROI로 선택될 수 있다.
단계 125에서 시선 예측 장치(100)는 각 관심 영역(ROI)를 콘볼루션 네트워크 기반 특징 추출 모델에 적용하여 각 관심 영역으로부터 특징을 추출하여 특징 벡터를 생성한다.
콘볼루션 네트워크 기반 특징 추출 모델은 도 2에 도시된 바와 같다.
특징 추출 모델은 오른쪽 눈 영역, 왼쪽 눈 영역에서 특징을 추출하기 위해 4개의 콘볼루션 레이어를 포함할 수 있다. 콘볼루션 레이어의 크기는 11 x 11(96 커널), 5 x 5(256 커널), 3 x 3(384 커널), 1 x 1(64 커널)의 필터로 구성될 수 있다.
또한, 특징 추출 모델은 얼굴 영역에서 특징을 추출하기 위해 5개의 콘볼루션 레이어를 포함할 수 있다. 여기서, 5개의 콘볼루션 레이어는 눈 영역에 상응하는 콘볼루션 레이어의 필터와 동일한 필터 크기를 가질 수 있다.
특징 추출 모델은 콘볼루션 레이어를 사용하여 추출한 특징을 각각 크기가 256, 256, 128, 400, 400인 완전 연결 레이어(FC layer) FC-E1, FC-F1, FC-F2, FC-FG1 및 FC-FG2로 전송할 수 있다.
완전 연결 레이어 중 FC-E1, FC-F2 및 FC-FG2의 출력은 연결되어 784 x 1 크기의 특징 벡터(
Figure pat00005
)를 형성할 수 있다. 특징 벡터(
Figure pat00006
)는 임베딩된 공간(embedded space)에서 얼굴 형태, 칼라 텍스처(color texture), 눈 영역과 같은 얼굴의 차별화되는 정보들을 인코딩할 수 있다.
본 발명의 일 실시예에서는 콘볼루션 네트워크 기반 특징 추출 모델을 가정하여 이를 중심으로 설명하고 있으나, 이외에도 AlexNet, VGG, GoogleNet과 같은 딥러닝 기반 모델을 통해 구현될 수도 있다.
단계 130에서 시선 예측 장치(100)는 특징 벡터를 장단기 메모리 모델 기반 시선 예측 모델에 적용하여 시선점 위치를 예측한다.
이에 대해 보다 상세히 설명하기로 한다.
특징 벡터(
Figure pat00007
)는 특징의 시간 정보를 추출하기 위해 두개의 연결된 장단기 메모리 모델 기반 시선 예측 모델에 입력될 수 있다.
도 3에는 장단기 메모리 모델 기반 시선 예측 모델이 예시되어 있다.
장단기 메모리 네트워크(LSTM)은 입력 게이트(
Figure pat00008
), 망각 게이트(
Figure pat00009
), 입력 모듈레이션 게이트(
Figure pat00010
) 및 내부 메모리 셀(
Figure pat00011
)을 포함하여 구성될 수 있다.
시간 t에서 추출된 특징 벡터를
Figure pat00012
이라 가정하고, 이전 셀의 출력
Figure pat00013
과 이전 내부 메모리 상태
Figure pat00014
가 결합되어 LSTM 셀에 입력될 수 있다.
이때, 시그모이드 함수를
Figure pat00015
라고 가정하기로 한다.
LSTM의 시간 단계 t에서 게이트 시그널은 수학식 1내지 수학식 3과 같이 업데이트될 수 있다.
Figure pat00016
Figure pat00017
Figure pat00018
또한, 입력 모듈레이션 게이트는 수학식 4와 같이 업데이트될 수 있다.
Figure pat00019
여기서,
Figure pat00020
는 쌍곡선 탄젠트 함수가 된다. 내부 메모리 셀 유닛(
Figure pat00021
)는
Figure pat00022
에 의해 모듈레이트된 이전 메모리 셀 단위(
Figure pat00023
)과 입력 게이트(
Figure pat00024
)에 의해 모듈레이트된
Figure pat00025
의 합이다.
따라서, 이를 수학식으로 나타내면, 수학식 5와 같이 나타낼 수 있다.
Figure pat00026
여기서,
Figure pat00027
는 요소별 곱셈 연산자를 나타낸다. LSTM의 각 셀 출력은 수학식 6과 같이 획득될 수 있다.
Figure pat00028
매트릭스
Figure pat00029
는 각각 입력 게이트, 망각 게이트, 출력 게이트 및 입력 모듈레이션 게이트에 상응하는 입력 특징 벡터(
Figure pat00030
)를 위한 가중치를 나타낸다.
매트릭스
Figure pat00031
는 이전 셀 출력
Figure pat00032
을 위한 가중치이고, 벡터
Figure pat00033
는 바이어스(biases)이다.
내부 메모리 상태
Figure pat00034
이전 셀 출력을 잊어버렸을 때와 새로운 정보가 제공된셀 출력을 업데이트할 때 학습될 수 있다.
Figure pat00035
Figure pat00036
가 시그모달(sigmoidal)이므로, 이들의 값은 [0, 1] 범위내에서 결정된다.
또한,
Figure pat00037
Figure pat00038
는 LSTM이 이전 메모리를 선택적으로 잊어버리거나 현재 입력으로 간주하는 방법을 학습하는 시기를 결정하는 노브로서 고려될 수 있다. 마찬가지로 출력 게이트(
Figure pat00039
)는 메모리 셀에서 얼마나 많은 메모리 셀을 출력 셀로 전송할지를 학습할 수 있다.
이러한 기능들로 인해 LSTM은 RNN이 학습할 수 없는 매우 복잡하고 장기적인 시간 역할을 학습할 수 있다.
본 발명의 일 실시예에서는 시선 예측 모델이 두개의 동일한 LSTM 네트워크를 연결하여 시간이 지남에 따라 얼굴 특징의 변화를 더 깊이 학습하도록 할 수 있다. LSTM 네트워크에서 출력된 500 x 1 크기의 특징 벡터(
Figure pat00040
)는 스크린 상에 예측된 시선점의 위치에 얼굴 특징을 매핑하기 위해 두개의 완전 연결 레이어(FC1 및 FC2)로 입력될 수 있다.
FC1은 128개의 히든 유닛으로 구성되며, FC2는 2개의 히든 유닛으로 구성된다. FC1은 활성화 레이어에서 ReLU 함수(
Figure pat00041
)를 사용하여 특징 벡터(
Figure pat00042
)를 처리한다.
FC2는 FC1의 출력을 시선점(
Figure pat00043
)의 위치(position)으로 선형적으로 변형할 수 있다.
이를 수학식으로 나타내면 수학식 7 및 수학식 8과 같다.
Figure pat00044
Figure pat00045
여기서,
Figure pat00046
는 커널 매트릭스를 나타내고,
Figure pat00047
는 FC1과 FC2의 바이어스를 나타낸다.
본 발명의 일 실시예에 따른 장단기 메모리 모델 기반 시선 예측 모델은 눈의 움직임, 머리 회전 및 얼굴 표정과 각 시선점의 위치를 반영하는 얼굴 특징의 시간적 변화 사이의 관계를 학습할 수 있다.
머리 자세와 눈과 동공 중심의 위치를 알면 사용자가 스크린상에서 보고 있는 위치(시선점 위치)를 결정할 수 있다. 시선점은 화면과 시선의 교차점이다.
Figure pat00048
를 스크린상의 시선점이라고 가정하면, 실시간 시선점은 머리 자세 오일러 각도
Figure pat00049
와 동공 좌표 투영
Figure pat00050
의 선형 조합을 사용하여 계산될 수 있다. 이를 수학식으로 나타내면 수학식 9와 같다.
Figure pat00051
여기서,
Figure pat00052
Figure pat00053
는 캘리브레이션 동안 예측될 수 있다.
캘리브레이션하는 동안,
Figure pat00054
Figure pat00055
매개 변수 예측이 완료된다. 사용자로 하여금 스크린상의 네 모서리를 보도록 한 후
Figure pat00056
Figure pat00057
의 값이 기록될 수 있다.
매개 변수
Figure pat00058
Figure pat00059
는 평균 방법을 사용하여 추정될 수 있다. 사용자는 우선 화면 중앙을 보고, 그 다음 네 모서리에 해당하는 4개의 보정 지점을 보도록 한 후 평균 방법을 사용하여 추정될 수 있다.
본 발명의 일 실시예에서는 예측된 시선점의 위치를 미세 조정하기 위해 서포트 벡터 리그레션에 기초하여 시선점 위치에 대한 캘리브레이션을 수행할 수 있다.
상수
Figure pat00060
이고, 작은 수
Figure pat00061
이 주어지면, 서포트 벡터 리그레션은 각 관찰에 대한 슬랙 변수
Figure pat00062
Figure pat00063
를 도입하고, 수학식 10과 같은 목적 함수에 최적화된 가중치
Figure pat00064
와 바이어스 b를 찾는다.
Figure pat00065
Figure pat00066
,
Figure pat00067
이다.
이 목적 함수는 듀얼 함수(
Figure pat00068
)를 최소화하는 각 관측치에 대해 음이 아닌 승수
Figure pat00069
Figure pat00070
을 도입하여 이중 문제를 대안으로 표현할 수 있다.
Figure pat00071
Figure pat00072
이고,
Figure pat00073
은 비선형 커널 가우시안 함수이다.
서포트 벡터 리그레션의 결과는 각 관측치
Figure pat00074
에 대한 음이 아닌 승수
Figure pat00075
Figure pat00076
이다.
x축에서 추정된 시선점의 새로운 값을 찾는데 사용되는 보정 함수는 수학식 12와 같다.
Figure pat00077
여기서, 바이어스 b는 Karush-Kuhn-Tucker 조건을 해결하여 결정될 수 있다.
Figure pat00078
Y축 좌표에 대해서도 동일한 캘리브레이션 프로세스가 수행되어야 한다.
본 발명의 일 실시예에 따르면, 시선 예측 모델은 이미지 프레임에서 피사체의 시선점의 좌표(
Figure pat00079
)를 예측할 수 있다. 과적합을 피하기 위해 각각의 완전 연결 레이어 다음에 50% 비율의 드롭 아웃 레이어가 위치될 수 있다.
본 발명의 일 실시예에 따른 시선 예측 모델은 주어진 시간 t에서 예측된 시선점(
Figure pat00080
)과 실제 시선점
Figure pat00081
사이의 평균 제곱 오차를 최소화하도록 학습될 수 있다.
이를 수학식으로 나타내면 수학식 14와 같다.
Figure pat00082
여기서, N은 학습에 이용된 이미지 프레임의 전체 개수를 나타낸다. 학습을 강화하기 위해 시선 예측 모델이 두번 같은 이미지를 볼 수 있도록 증강이 수행될 수 있다. 이미지 크기 조정, 무작위 회전, 무작위 변환, 무작위 줌, 임의 생성된 픽셀 채우기 등 다양한 변환을 사용하여 증강 프로세스를 수행한 후 시선 예측 모델을 학습하였다.
얼굴 이미지를 올바른 순서로 배치해야 하기 때문에 이미지 뒤집기는 수행하지 않았다.
도 4는 본 발명의 일 실시예에 따른 시선 예측 장치의 내부 구성을 개략적으로 도시한 블록도이다.
도 4를 참조하면, 본 발명의 일 실시예에 따른 시선 예측 장치(100)는 입력부(410), 얼굴 검출부(415), ROI 검출부(420), 특징 추출부(425), 시선 예측부(430), 메모리(435) 및 프로세서(435)를 포함하여 구성된다.
입력부(410)는 얼굴 영상을 입력받기 위한 수단이다. 입력부(410)는 각 프레임 단위로 얼굴 영상을 입력받을 수 있다.
얼굴 검출부(415)는 입력된 얼굴 영상에서 얼굴 영역을 검출하기 위한 수단이다. 즉, 얼굴 검출부(415)는 얼굴 영상을 전처리하여 얼굴 영상을 전처리하여 얼굴 영역을 검출할 수 있다.
ROI 검출부(420)는 얼굴 영역에서 관심 영역을 선택하기 위한 수단이다.
ROI 검출부(420)는 전처리된 얼굴 영상에서 오른쪽 눈 영역, 왼쪽 눈 영역, 눈동자(pupil), 헤드 포즈(head pose) 등을 ROI로 선택할 수 있다. 또한, 시선 예측 장치(100)는 두 눈 영역 및 얼굴 위치를 포함하는 얼굴 그리드를 ROI로 선택할 수 있다. 여기서, 얼굴 그리드는 얼굴 영역의 위치와 크기를 나타내는 이진 마스크(binary mask)일 수 있다.
특징 추출부(425)는 각 관심 영역(ROI)를 콘볼루션 네트워크 기반 특징 추출 모델에 적용하여 각 관심 영역으로부터 특징을 추출하여 특징 벡터를 생성하기 위한 수단이다.
이는 도 1 내지 도 2를 참조하여 설명한 바와 동일하므로 중복되는 설명은 생략하기로 한다.
시선 예측부(430)는 특징 벡터를 장단기 메모리 모델 기반 시선 예측 모델에 적용하여 시선점 위치를 예측하기 위한 수단이다.
이는 도 1 내지 도 3을 참조하여 설명한 바와 동일하므로 중복되는 설명은 생략하기로 한다.
메모리(435)는 본 발명의 일 실시예에 따른 시선 예측 방법을 수행하기 위해 필요한 다양한 명령어들을 저장하기 위한 수단이다.
프로세서(435)는 본 발명의 일 실시예에 따른 시선 예측 장치(100)의 내부 구성 요소들(예를 들어, 입력부(410), 얼굴 검출부(415), ROI 검출부(420), 특징 추출부(425), 시선 예측부(430), 메모리(435) 등)을 제어하기 위한 수단이다.
본 발명의 실시 예에 따른 장치 및 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
100: 시선 예측 장치
410: 입력부
415: 얼굴 검출부
420: ROI 검출부
425: 특징 추출부
430: 시선 예측부
435: 메모리
440: 프로세서

Claims (10)

  1. 얼굴 영상을 전처리하여 얼굴 영역을 검출하고, 상기 얼굴 영역에서 좌측 눈 영역, 우측 눈 영역, 얼굴 영역 및 얼굴 그리드를 각각 관심 영역(ROI)로 선택하는 단계;
    상기 좌측 눈 영역, 우측 눈 영역, 얼굴 영역 및 얼굴 그리드를 포함하는 각 관심 영역을 학습된 특징 추출 모델에 적용하여 특징 벡터를 추출하는 단계; 및
    상기 특징 벡터를 학습된 장단기 메모리 기반 시선 예측 모델에 적용하여 시선점 위치(position)을 예측하는 단계를 포함하되,
    상기 학습된 장단기 메모리 기반 시선 예측 모델은 두개의 동일한 장단기 메모리(LSTM)가 연결된 네트워크와 상기 네트워크 후단에 연결되는 두개의 완전 연결 레이어(FC1, FC2)를 포함하며, 상기 두개의 완전 연결 레이어(FC1, FC2)는 상기 네트워크에 의해 출력된 시간적 변화량이 반영된 특징 벡터(
    Figure pat00083
    )를 시선점의 위치(position)로 선형적으로 변형시키는 것을 특징으로 하는 시선 예측 방법.
  2. 제1 항에 있어서,
    상기 두개의 완전 연결 레이어 중 어느 하나(FC1)는 128개의 히든 유닛으로 구성되며, 활성화 레이어에서
    Figure pat00084
    로서 ReLU 함수를 사용하여 시간 변화량이 반영된 특징 벡터(
    Figure pat00085
    )를 처리하고, 다른 하나(FC2)는 2개의 히든 레이어로 구성되고 상기 두개의 완전 연결 레이어 중 어느 하나(FC1)의 출력을 시선점 위치(position)로 선형적으로 변형시키는 것을 특징으로 하는 시선 예측 방법.
  3. 제1 항에 있어서,
    상기 특징 추출 모델은,
    상기 우측 눈 영역에서 특징을 추출하는 4개의 제1 콘볼루션 레이어;
    상기 좌측 눈 영역에서 특징을 추출하는 4개의 제2 콘볼루션 레이어;
    상기 얼굴 영역에서 특징을 추출하는 5개의 제3 콘볼루션 레이어; 및
    상기 제1 콘볼루션 레이어와 상기 제2 콘볼루션 레이어 후단에 연결되는 제1 완전 연결 레이어(FC-E1);
    상기 제3 콘볼루션 레이어 후단에 연결되는 제2 및 제3 완전 연결 레이어(FC-F1, FC-F2); 및
    상기 얼굴 그리드를 처리하는 제4 및 제5 완전 연결 레이어(FC-FG1, FC-FG2)를 포함하되,
    상기 제1 완전 연결 레이어(FC-E1), 상기 제3 완전 연결 레이어(FC-F2) 및 상기 제5 완전 연결 레이어(FC-FG2)의 출력은 연결되어 상기 특징 벡터를 추출하는 것을 특징으로 하는 시선 예측 방법.
  4. 제1 항에 있어서,
    서포트 벡터 리그레션에 기반한 보정 함수를 통해 상기 예측된 시선점 위치를 캘리브레이션하는 단계를 더 포함하는 시선 예측 방법.
  5. 제4 항에 있어서,
    상기 시선점 위치를 캘리브레이션하는 단계는, 4개의 보정 파라미터를 이용하여 보정되되, 상기 4개의 보정 파라미터는 스크린의 중앙 보정점과 스크린상의 네 모서리에 대응하는 4개의 보정점 응시 결과를 평균화하여 추정되는 것을 특징으로 하는 시선 예측 방법.
  6. 제1 항에 있어서,
    상기 학습된 장단기 메모리 기반 시선 예측 모델에 입력되는 특징 벡터는 얼굴의 차별화되는 특징들을 포함하되,
    이전 내부 메모리 셀의 출력에 따라 상기 특징 벡터에 포함된 특징들에 대해 서로 다른 가중치가 적용되어 상기 학습된 장단기 메모리 기반 시선 예측 모델에 입력되는 것을 특징으로 하는 시선 예측 방법.
  7. 제1 항에 있어서,
    상기 얼굴 그리드는 상기 얼굴 영역의 위치와 크기를 나타내는 이진 마스크인 것을 특징으로 하는 시선 예측 방법.
  8. 제1 항 내지 제7 항 중 어느 하나의 항에 따른 방법을 수행하기 위한 프로그램 코드를 기록한 컴퓨터로 판독 가능한 기록매체.
  9. 적어도 하나의 명령어를 저장하는 메모리; 및
    상기 메모리에 저장된 명령어를 실행하는 프로세서를 포함하되,
    상기 명령어는,
    얼굴 영상을 전처리하여 얼굴 영역을 검출하고, 상기 얼굴 영역에서 좌측 눈 영역, 우측 눈 영역, 얼굴 영역 및 얼굴 그리드를 각각 관심 영역(ROI)로 선택하는 단계;
    상기 좌측 눈 영역, 우측 눈 영역, 얼굴 영역 및 얼굴 그리드를 포함하는 각 관심 영역을 학습된 특징 추출 모델에 적용하여 특징 벡터를 추출하는 단계; 및
    상기 특징 벡터를 학습된 장단기 메모리 기반 시선 예측 모델에 적용하여 시선점 위치(position)을 예측하는 단계를 수행하되,
    상기 학습된 장단기 메모리 기반 시선 예측 모델은 두개의 동일한 장단기 메모리(LSTM)가 연결된 네트워크와 상기 네트워크 후단에 연결되는 두개의 완전 연결 레이어(FC1, FC2)를 포함하며, 상기 두개의 완전 연결 레이어(FC1, FC2)는 상기 네트워크에 의해 출력된 시간적 변화량이 반영된 특징 벡터(
    Figure pat00086
    )를 시선점의 위치(position)로 선형적으로 변형시키는 것을 특징으로 하는 시선 예측 장치.
  10. 제9 항에 있어서,
    상기 두개의 완전 연결 레이어 중 어느 하나(FC1)는 128개의 히든 유닛으로 구성되며, 활성화 레이어에서
    Figure pat00087
    로서 ReLU 함수를 사용하여 시간 변화량이 반영된 특징 벡터(
    Figure pat00088
    )를 처리하고, 다른 하나(FC2)는 2개의 히든 레이어로 구성되고 상기 두개의 완전 연결 레이어 중 어느 하나(FC1)의 출력을 시선점 위치(position)로 선형적으로 변형시키는 것을 특징으로 하는 시선 예측 장치.
KR1020210180416A 2021-12-16 2021-12-16 시선 예측 방법 및 그 장치 KR102640081B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210180416A KR102640081B1 (ko) 2021-12-16 2021-12-16 시선 예측 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210180416A KR102640081B1 (ko) 2021-12-16 2021-12-16 시선 예측 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20230091367A true KR20230091367A (ko) 2023-06-23
KR102640081B1 KR102640081B1 (ko) 2024-02-22

Family

ID=86993525

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210180416A KR102640081B1 (ko) 2021-12-16 2021-12-16 시선 예측 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR102640081B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200079170A (ko) * 2018-12-24 2020-07-02 삼성전자주식회사 시선 추정 방법 및 시선 추정 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200079170A (ko) * 2018-12-24 2020-07-02 삼성전자주식회사 시선 추정 방법 및 시선 추정 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
K. Krafka et al.,‘Eye Tracking for Everyone,’ Proceedings of the IEEE conference on computer vision and pattern recognition 2016, June 27 - June 30, pp.2176-2184 (2016.06.27.) 1부.* *
K. Lehtiranta, ‘Gaze Prediction in VR,’ Master's Thesis, Aalto University, July 30, 2021 (2021.07.30.) 1부.* *

Also Published As

Publication number Publication date
KR102640081B1 (ko) 2024-02-22

Similar Documents

Publication Publication Date Title
EP3755204B1 (en) Eye tracking method and system
Zhou et al. Whenet: Real-time fine-grained estimation for wide range head pose
JP6798183B2 (ja) 画像解析装置、画像解析方法およびプログラム
WO2021016873A1 (zh) 基于级联神经网络的注意力检测方法、计算机装置及计算机可读存储介质
CN111062263B (zh) 手部姿态估计的方法、设备、计算机设备和存储介质
US11704563B2 (en) Classifying time series image data
JP2022527818A (ja) ユーザの眼に関連する幾何学的変数を推定する方法及びシステム
CN110598638A (zh) 模型训练方法、人脸性别预测方法、设备及存储介质
JP2023545190A (ja) 画像の視線補正方法、装置、電子機器、及びコンピュータプログラム
US11276202B2 (en) Moving image generation apparatus, moving image generation method, and non-transitory recording medium
CN111723707A (zh) 一种基于视觉显著性的注视点估计方法及装置
CN114503162A (zh) 具有不确定性的特征点位置估计的图像处理系统和方法
US11999356B2 (en) Cognitive heat map: a model for driver situational awareness
CN111462184A (zh) 基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法
KR102640081B1 (ko) 시선 예측 방법 및 그 장치
CN114926876A (zh) 图像关键点检测方法、装置、计算机设备和存储介质
Ferhat et al. Eye-tracking with webcam-based setups: Implementation of a real-time system and an analysis of factors affecting performance
JP7365261B2 (ja) コンピュータシステムおよびプログラム
KR102420924B1 (ko) 딥러닝 기반 3d 시선 예측 방법 및 그 장치
CN114882480A (zh) 用于获取目标对象状态的方法、装置、介质以及电子设备
Zhang et al. Theory of Image Understanding
den Hollander MonocLeNet: a convolutional neural network for real-time eye tracking in interactive applications
CN116977548A (zh) 三维重建方法、装置、设备及计算机可读存储介质
CN117218232A (zh) 一种多人脸的生成人脸ir图模型训练方法、系统、设备及介质
KR20220081676A (ko) Lstm 기반의 개인화 시점 추정 방법 및 장치

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant