KR101508842B1

KR101508842B1 - 저비용 휴먼 컴퓨터 상호작용 어플리케이션을 위한 진화 적응 시선 추적을 제공하는 시스템 및 방법

Info

Publication number: KR101508842B1
Application number: KR20130106317A
Authority: KR
Inventors: 이필규; 심연
Original assignee: 인하대학교 산학협력단
Priority date: 2013-09-04
Filing date: 2013-09-04
Publication date: 2015-04-07
Also published as: KR20150027641A

Abstract

저 비용 휴먼 컴퓨터 상호작용 어플리케이션을 위한 진화 적응 시선 추적(eye-tracking)을 제공하는 시스템 및 방법이 개시된다. 시선 추적 방법은, 외부 환경에 대한 외부 데이터에 기반하여 이미지 컨텍스트를 인지하는 제1 단계, 상기 인지된 이미지 컨텍스트에 대한 유전자 코드를 찾고, 표현형 제어 공간(phenotype control space)을 결정하며, 기설정된 액션들에 대한 현재 액션값을 임의의 값으로 초기화하는 제2 단계, 기설정된 Q-학습을 수행하고, 스레시홀드들을 결정하는 제3 단계, 시선 추적의 신뢰값이 상기 제3 단계에서 결정되는 종료 스레시홀드 미만인 경우, 시선 추적을 수행하는 제4 단계를 포함하는 것을 특징으로 할 수 있다.

Description

저비용 휴먼 컴퓨터 상호작용 어플리케이션을 위한 진화 적응 시선 추적을 제공하는 시스템 및 방법{SYSTME AND METHOD FOR PROVIDIGN EVOLUTIONARY ADAPTIVE EYE TRACKING FOR LOW-COST HUMAN COMPUTER INTERACTION APPLICATION}

최근, 많은 시선 추적(eye-tracking) 처리 방법들이 다양한 목표들과 어플리케이션들에 대해 제안되었다. 자동 시선 추적은, 인간의 지각, 주의 및 인식의 상태와 강하게 연결되어 있기 때문에, 많은 어플리케이션 영역에서 이용되어 왔다. 시선 추적 기술은, 상호작용을 위한 효과적인 툴로서, 방해받지 않고 손을 쓰지 않고도 이용할 수 있는 휴먼 컴퓨터 상호작용(human computer interaction, HCI) 및 컴퓨터와 사람간의 통신에 이용될 수 있다. 그럼에도 불구하고, 기술 개발에 많은 노력과 조명, 시야각, 스케일 등 많은 문제가 존재하고, 개개인의 눈의 모양 및 지터링의 다양한 종류에 따른 동작 환경의 변경으로 문제가 존재한다. 상업적인 영역에서 가장 성공적인 시선 추적 기술은 고 비용의 이미지 캡처 장치(예를 들어, 고 비용의 카메라 및 렌즈)를 요구하거나 또는 강력하게 제어된 상황 내에서 매우 제한된 동작이 요구된다. 최근 시선 추적 기술에서 최대의 관심사는, 웹 유용성, 광고, 스마트 TV 및 모바일 어플리케이션을 위한 HCI 분야에서 생성되고 있다. 그러나, 종래의 시선 추적 기술은 저 비용 산업 어플리케이션에서 이용하기에 높은 비용과 제한성이라는 문제점을 갖고 있다. 조명의 제어와 상황의 제어 없이, 비용을 줄일 뿐만 아니라 복잡한 초기 사용자 설정을 간소화하여 더 이용 가능하고 더 일반적인 시선 추적 기술이 성공적인 HCI 어플리케이션을 위해 필요하다.

고 비용 이미지 캡쳐 기기나 매우 제한적인 상황을 이용하는 대신, 알고리즘 구조를 관련된 스레시홀드, 파라미터들과 함께 최적화하는 것의 동적 제어 문제에서 시선 추적을 체계화 함으로써, 성능을 보장할 수 있는 시선 추적 시스템 및 방법을 제공한다.

1단계로 외부 환경에 대한 외부 데이터에 기반하여 이미지 컨텍스트를 인지하고 2단계로 상기 인지된 이미지 컨텍스트에 대한 유전자 코드를 찾고, 표현형 제어 공간(phenotype control space)을 결정하며, 기 설정된 액션들에 대한 현재 액션 값을 임의의 값으로 초기화하고 3단계로 기 설정된 Q-학습(Q-learning)을 수행하고, 스레시홀드를 결정하며 4단계에서는 시선 추적의 신뢰 값이 상기 제3 단계에서 결정되는 종료 스레시홀드 미만인 경우, 시선 추적을 수행을 포함하는 것을 특징으로 하는 시선 추적 방법이 제공된다.

시선 추적 방법은, 상기 신뢰값이 상기 제3 단계에서 결정되는 초기 스레시홀드를 초과하는 경우, 상기 제3 단계 및 제4 단계를 재수행 하는 제5 단계, 상기 신뢰 값이 상기 제3 단계에서 결정되는 기설정된 진화 알고리즘의 재시작 스레시홀드 이하인 경우, 상기 제1 단계를 수행하는 제6 단계를 더 포함하고, 상기 제4 단계에서 상기 신뢰값이 상기 종료 스레시홀드 이상이 될 때까지 상기 제1 단계 내지 상기 제6 단계를 반복 수행하는 것을 특징으로 할 수 있다.

다른 측면에 따르면, 상기 제3 단계 및 상기 제4 단계는, 연속적인 이미지 프레임들 각각에 대해, 반복 수행되는 것을 특징으로 할 수 있다.

또 다른 측면에 따르면, 상기 제3 단계는, 그리디 폴리시(Greedy policy)을 이용하여 현재 상태로부터 현재 액션 그룹을 선택하는 제3-1 단계; 상기 선택된 액션 그룹을 통해 액션을 얻고, 내부 보상을 계산하여 즉각적인 보상을 확인하고, 새로운 내부 상태를 확인하는 제3-2 단계; 및 상기 현재 액션값, 학습율, 할인율, 상기 새로운 내부 상태, 다음 액션 그룹에 기초하여 다음 액션값을 산출하는 제3-3 단계를 포함하고, 상기 이미지 프레임들 수에 따른 제한에 도달하거나 또는 기설정된 성공 트래킹 조건을 만족할 때까지 상기 제3-1 단계 내지 상기 제3-3 단계를 반복 수행하는 것을 특징으로 할 수 있다.

룩업 테이블을 저장하는 메모리 및 프로세서를 포함하고, 상기 프로세서는, 외부 환경에 대한 외부 데이터에 기반하여 이미지 컨텍스트를 인지하는 제1 과정; 상기 인지된 이미지 컨텍스트에 대한 유전자 코드를 상기 룩업 테이블을 이용하여 찾고, 표현형 제어 공간을 결정하며, 기설정된 액션들에 대한 현재 액션값을 임의의 값으로 초기화하는 제2 과정; 기설정된 Q-학습을 수행하고, 스레시홀드들을 결정하는 제3 과정 및 시선 추적의 신뢰값이 상기 제3 과정에서 결정되는 종료 스레시홀드 미만인 경우, 시선 추적을 수행하는 제4 과정을 처리하는 것을 특징으로 하는 시선 추적 시스템이 제공된다.

고 비용 이미지 캡처 기기나 매우 제한적인 상황을 이용하는 대신, 알고리즘 구조를 관련된 스레시홀드, 파라미터들과 함께 최적화하는 것의 동적 제어 문제에서 시선 추적을 체계화 함으로써, 성능을 보장할 수 있다.

도 1은 본 발명의 일실시예에 있어서, 진화 적응 시선 추적 프레임워크를 설명하기 위한 블록도이다.
도 2는 본 발명의 일실시예에 있어서, 눈이 떠지는 정도에 따라 홍채의 외부 경계를 나타내는 부분 원들을 표시한 도면이다.

이하, 본 발명의 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.

본 발명의 실시예들은 저가의 휴먼 컴퓨터 상호작용을 위한 진화 적응 시선 추적 시스템 및 방법에 관한 것으로, 고가의 장비를 사용하지 않고, 상황을 강하게 제한하지 않더라도 시선 추적의 성능을 보장할 수 있는 기술에 관한 것이다.

시선 추적의 성능 최적화는 시선 추적 알고리즘 구조를 결정하는 동적 제어 문제(dynamic control problem)로 나타날 수 있고, 스레시홀드 또는 파라미터와 연관될 수 있다. 여기서, 동적 제어 문제와 관련된 동적 제어 공간은 유전자형 공간과 표현형 공간을 의미할 수 있다. 진화 알고리즘(evolutionary algorithm)은 유전자형 제어 공간을 탐색할 수 있고, 강화 학습 알고리즘(reinforcement learning algorithm)은 진화 알고리즘을 통해 진화된 유전자형을, 반작용 표현형으로 조직할 수 있다. 진화 알고리즘은 시선 추적을, 이미지 변화 분석에 기반하여 유전자 코드로 부호화할 수 있다. 이때, 강화 학습 알고리즘은 인지된 유전자 코드에 의해 제한되는 표현형 제어 공간에서 내부 상태를 정의할 수 있고, 상호작용적 적응을 수행할 수 있다. 본 발명의 실시예들에 따른 진화 적응 시선 추적(evolutionary adaptive eye-tracking) 시스템 및 방법에 따르면, 진화 알고리즘의 실시간 성능에서의 어려움과 강화 학습 알고리즘의 거대 탐색 공간의 문제점의 절충을 통해 최적 성능을 달성할 수 있다.

1. 소개(Introduction)

시선 추적을 위한, 한가지 유용한 방향은 서로 다른 시선 추적 알고리즘 구조와 관련된 스레시홀드 또는 파라미터들의 제어를, 환경 변화를 고려하여 적응적으로 선택하는 것이다. 그러나, 적응 가능한 스레시홀드 또는 파라미터들과 함께 최적의 알고리즘을 선택하는 것은, 전반적으로 이미지 프로세싱과 컴퓨터 비젼 영역에서 매우 복잡한 문제가 존재한다. 적응 가능한 스레시홀드 그리고 유연한 알고리즘 구조를 위한 몇 가지 기술들은, 유전적 알고리즘, 유전적 프로그래밍(genetic programming, GP) 그리고 다른 진화 학습 방법과 같은 진화 알고리즘(evolutionary algorithm, EA)에서 보여진다. 어떤 의미로는 자연선택과 유사하게 진화한 EA는, 개발자가 현상을 완전히 이해하지 못한다 하더라도 복잡한 문제를 풀기 위해 이용될 수 있다. 그러나 EA 목표를 이용한 실시간 시스템의 평가는, 몇몇 세대상의 많은 개별 개체들을 위한 반복적인 계산으로부터 비롯되는 중요한 계산 시간의 양으로 인해 중대한 어려움에 매우 자주 맞닥뜨리게 된다. EA의 높은 계산적 비용은 심각한 제한 요소이다. 진화 알고리즘은, 유전자형과 표현형을 식별함에 있어서의 모호하다. 수태한 난자 세포는 성숙한 표현형이 되기 위해 배발생이라 알려진 복잡한 프로세스를 겪게 된다. 이러한 유기체의 물리적인 발현은 식별 가능한 구조, 기능 또는 살아있는 유기체의 행동의 부분으로서 분석될 수 있다. 유기체의 식별 가능한 특징은, 내부적으로 코드화될 수 있고, 유전되는 정보는 유전적인 코드와 획득된 기질을 옮기는 유전 명령에 의해 옮겨질 수 있다. 유기체는 보통 이벤트와 강화의 시퀀스가 나타나고, 동일한 유전자형은 다양한 환경에 맞닥뜨리게 되어 서로 다른 행동적 동작이 최적화될 수 있다. 선택 압력을 강요당하는 개별 개체의 전체 생애는, 비록 올바르게 탄생한 표현형이 태어났다 하더라도, 학습이 요구된다. 학습과 결합된 몇몇의 성공적인 진화 접근법은 로봇 제어 영역에서 찾을 수 있다.

대부분의 파라미터 제어 접근법은 환경과 함께 상호작용을 묘사할 수 있는 정밀한 모델을 요구하나, 많은 경우에 있어서, 정밀한 실시간 작업 프로세싱을 위한 상호작용을 모델링하는 것은 매우 복잡하거나 불가능하다. 실세계 상황에서, 모호한 모델을 갖는 오프라인 학습이 주기적으로 용인되는 성능을 생성할 수는 없다. 강화 학습(reinforcement learning, RL) 접근법은 경험에 의한 학습에 기반하기 때문에 상술한 문제를 해결하기 위한 유망한 접근법의 하나이다. 이러한 RL 접근법은 외부 환경의 상호작용에 의해 시스템을 제어하는데 있어서 매우 효과적이다. RL 접근법은 인지된 환경과 함께 상호작용들을 통해 시스템 파라미터들을 최적화할 수 있다. RL 기반 시선 추적 스킴은 상태 액션 확률을 학습할 수 있고, 성능 적응의 기능성을 제공할 수 있으며, 최상의 동작으로 수렴함을 보장할 수 있다. 그러나, RL 기반 시선 추적 스킴은, 비주얼 트래킹 문제에서 거대한 검색 공간의 폐해로 인하여 최적의 성능을 얻기 위해서는 매우 많은 양의 반복적인 시험(trial)과 에러가 필수적인 문제점이 있다. 또한, 다양한 환경에서의 저 비용 시선 추적을 위해 요구되는 학습 시간의 거대한 양은, 액션의 결정을 위한 거대 검색 공간이 경험에 의한 학습에서 높은 계산 시간을 요구하기 때문에, RL 알고리즘을 사용하지 못하게 만든다.

본 발명의 실시예들에서는 저 비용 비젼 기반의 HCI를 위해, 고 성능 시선 추적 스킴을 위한 진화 적응 프레임워크를 설명한다. 효율적이고 강력한 시선 추적을 위한 프레임워크는 진화와 상호작용적인 학습 패러다임의 결합에 의해 적응적인 반응을 보인다. 알고리즘 구조, 스레시홀드, 파라미터들을 유전자형과 표현형 제어 공간에서 표현하여 효과적인 시선 추적의 가능한 설정을 통하여 적응적 시선 추적 스킴이 제공될 수 있다. EA는, 조명 환경이 이미지 질 분석에 의해 측정되고 이미지 컨텍스트에 의해 표현되는 유전 제어 공간에서, 최적의 시선 추적 유전자 코드를 찾기 위한 탐색을 할 수 있다. EA는, RL이 실 세계 환경에서 빠른 상호작용 적응성을 제공하는 동안, RL의 반응 행동들보다 상대적으로 장기적인 행동들을 진화시킬 수 있다. EA는, 오프라인 방식에서 기 수집된 트레이닝 셋을 이용하는 유전자형 학습에서 주로 동작할 수 있다. 알고리즘 구조와 스레시홀드 또는 파라미터들의 거대 제어 공간은 인지된 이미지 컨텍스트에 따라 분할될 수 있고, EA는 인지된 이미지 컨텍스트의 치수에 맞게 유전자 코드를 결정할 수 있다. RL의 메인 룰은, 스킴의 표현형을 상호작용적으로 구조화하는 것일 수 있다. RL 알고리즘은, 분할된 유전자형 제어 공간으로부터 RL 알고리즘의 내부 환경 상태를 정의할 수 있고, 빠르고 상호작용적인 적응성을 주로 처리할 수 있다. 이렇게 하여, 본 발명의 실시예들에서는 실세계 환경의 변화를 인지할 수 있고, 최적의 시선 추적 성능을 위한 효과적인 알고리즘 구조 및 관련 스레시홀드와 파라미터들을 학습할 수 있다.

2. 시선 추적 파라미터 제어를 위한 진화 적응 프레임워크

진화 적응 능력을 갖는 시선 추적 스킴의 근거는 외부 자극의 반복 현상이 될 수 있다. 여기서, 이미지 질의 변화는 주로 조명, 시야각 그리고 사용자들의 눈 모양으로부터의 이미지 캡처링 환경의 변화에 영향을 미친다. 시선 추적 스킴은, 이미지 변화(주로 시선 추적 스킴의 성능에 영향을 미치는 변화)의 관찰에 의해 안내되는 최적의 알고리즘 구조 및 관련된 스레시홀드와 파라미터 공간을 탐색할 수 있다. 시선 추적 스킴은 세가지 모듈로 구성될 수 있다.

도 1은 본 발명의 일 실시 예에 있어서, 진화 적응 시선 추적 프레임워크를 설명하기 위한 블록도이다. 도 1의 실시 예에 따른 시선 추적 프레임워크(100)는 EA 모듈, 시선 추적 모듈 및 RL 모듈을 포함할 수 있다. 시선 추적 프레임워크(100)는 외부 환경을 연속적으로 인지할 수 있고, 외부 환경과 상호작용할 수 있으며, 시선 추적 프레임워크(100)의 알고리즘 구조, 스레시홀드 및 파라미터들 중 적어도 하나를 적응할 수 있다. 시선 추적 프레임워크(100)는 유전자형 진화와 표현형 적응을 포함할 수 있다. 유전자형 진화는 EA에 기반한 장기적인 학습을 수행하고, 표현형 적응은 RL 알고리즘을 이용하여 상호작용적인 표현형 학습을 수행할 수 있다. 시선 추적 프레임워크(100)에 포함된 모듈들에 대해서는 이후 더욱 자세히 설명된다.

시선 추적 스킴의 성능은 각 단계들에서 알고리즘의 선택 그리고 선택된 알고리즘과 관련된 스레시홀드들과 파라미터들에 매우 의존적이다. 시선 추적 스킴은, 시선 추적 알고리즘 구조 및, 알고리즘 구조와 관련된 스레시홀드들과 파라미터들을 결정하는 것의 중대한 동적 제어 문제에서 가장 잘 체계화될 수 있다. 시선 추적 성능이 저하되는 주된 이유가, 조명, 포즈 및 이미지의 모양변화로 인한 이미지 질의 변화임을 고려하면, 시선 추적 스킴을 최적화하기 위한 두 레벨의 지능적인 제어 메커니즘이 제시될 수 있다. 첫 번째 레벨 제어 메커니즘은 유전자형 진화를 위한 EA를 이용하는 것이다. EA는 이미지 컨텍스트로서 인지된 외부 환경을 위해 가능한 최적의 스킴 설정을 결정할 수 있다. 이때, 외부 환경은 이미지 질의 분석과 k-평균 클러스터링(k-means clustering)에 의해 측정될 수 있다. 두 번째 레벨 제어 메커니즘은, 유전자 코드의 표현형 징후를 위한 RL 알고리즘의 이득을 얻을 수 있다.

눈 영역은, 이미 잘 알려진 얼굴 위치 및 눈 영역 위치 방법을 이용하여 정확한 위치를 찾아낼 수 있고, 시선 추적 역시 이미 잘 알려진 시선 추적 방법에 기반하여 처리될 수 있다. 초기 눈의 중심이 전처리, 특성 추출 및 부분 허프 변환(Hough transformation)에 의해 추정될 수 있다. 전처리는 적응적으로 선택된 알고리즘 하부구조 및 선택된 알고리즘 하부구조와 관련된 스레시홀드를 이용하여 수행될 수 있고, 특성 추출은 윤곽이나 엣지 이미지를 생성하기 위해 수행될 수 있다. 윤곽 또는 엣지 이미지는 최적의 트래킹 포인트를 결정하기 위해, 홍채 경계의 조절된 호각 파라미터를 이용한 부분 허프 변환에 의해 처리될 수 있다. 최종적으로, 칼만 필터가 적용될 수 있고, 다음 눈 중심이 예측될 수 있다. 상술한 단계들은 시선 추적이 종료될 때까지 반복될 수 있다. 시선 추적 제어 공간은, 예를 들어 가능한 알고리즘 구조와 스레시홀드들 또는 파라미터들의 다양성은, 트래킹 정확도와 실행 시간 제약간의 트레이드 오프를 고려한 이전 지식 또는 경험에 기반하여 결정될 수 있다. 눈 중심의 평가 단계들, 칼만 필터를 이용한 눈 중심 예측 및 예측된 눈 중심의 제어 공간에 대해서는 이후 더욱 자세히 설명한다.

2.1 전처리와 특징 추출에서의 알고리즘 구조와 스레시홀드와 파라미터

전처리 단계는 히스토그램 평활화, 하나의 스레시홀드를 이용한 레티넥스 및 두 개의 파라미터들을 이용한 엔드 인 컨트라스트 스트레칭(end-in contrast stretching)으로 구성될 수 있다. 예를 들어, 전처리 단계의 가능한 알고리즘 구조들은 히스토그램 평활화, 레티넥스, 직렬 조합에서 히스토그램 평활화를 이용한 레티넥스 또는 엔드 인 컨트라스트 스트레칭일 수 있다. 특징 추출 단계는 (1) 이진화, (2) 캐니 엣지 탐색 알고리즘, (3) AND 연산을 이용한 병렬 조합에서 이진화와 캐니 또는 (4) OR 연산을 이용한 병렬 조합에서 이진화와 캐니가 될 수 있다. 여기서, 직렬 조합에서 이진화와 윤곽은 단순성을 위해 이진화에 의해 나타나질 수 있다. 특징 추출은 상술한 (1) 내지 (4)의 알고리즘 구조 중 하나를 이용하여 선택적으로 수행될 수 있다. 이진화는 하나의 스레시홀드를 가질 수 있고, 캐니 알고리즘은 엣지 탐지를 위한 두 개의 스레시홀드를 가질 수 있다. 여기서, 캐니 알고리즘을 위한 두 개의 스레시홀드 중 하나는 엣지 링킹과 관련될 수 있고, 다른 하나는 스트롱 엣지의 초기 세그먼트를 찾는 것과 관련될 수 있다.

2.2 부분 허프 변환의 파라미터

본 발명의 실시 예들에 따른 시선 추적 시스템에서, 홍채 경계는, 본 발명의 실시 예들에 따른 시선 추적 방법이 낮은 해상도 이미지를 이용하여 실시간 성능을 제공하는 것을 목표로 하기 때문에 원에 근사할 수 있다. 알고리즘은 홍채 이미지의 외부 경계를 계산함으로써, 눈(홍채)의 중심을 탐지할 수 있다. 이때, 노이즈와 눈꺼풀 가림의 영향을 덜 미치는 특성을 추출하기 위해, 수정된 허프 변환 방법(부분 허브 변환이라 불리는)이 이용될 수 있다. 완전한 원 대신에 원의 두 부분(부분 원들)이 연결되어 위와 아래의 눈꺼풀들이 교합되는 효과를 최소화할 수 있다. 눈의 중심 트래킹을 위한 4차원의 제어 공간은 부분 관심사(예를 들어, 부분 원들)가 되는 홍채 경계를 나타내는 각도값을 포함할 수 있다.

도 2는 본 발명의 일실시예에 있어서, 눈이 떠지는 정도에 따라 홍채의 외부 경계를 나타내는 부분 원들을 표시한 도면이다. 도 2는 눈꺼풀 교합 효과를 피하기 위해, 모든 홍채 경계 대신에, Φ ₁과 Φ ₂의 각도들과, Φ ₃와 Φ ₄의 각도들간의 홍채 외부 경계 부분이 고려되는 모습을 나타내고 있다.

서클피팅을 위한 부분 허프 변환 알고리즘은 다음과 같이 묘사될 수 있다. 우선, 홍채 외부 원은 다음 수학식 1과 같이 표현될 수 있다.

여기서, (a ₀, b ₀)는 눈 중심(홍채 외부 경계의 중심)의 좌표를 의미할 수 있고, r은 원의 반지름을 의미할 수 있다. 이때, 다음과 같은 두 개의 스테이지 알고리즘이 이용될 수 있다. 첫 번째 스테이지는 눈 원 중심을 찾고, 두 번째 스테이지는 눈 중심을 교차하는 부분 원들에서 홍채 외부 경계점의 정상적인 방향을 예측할 수 있다. (x, y)가 홍채 외부 경계에서의 경사 방향점(gradient direction point)이라고 가정하자. (x, y, Φ) 삼원수로부터 센터 파라미터 (a, b)까지의 맵핑은 직선이 된다. 여기서, Φ는 경사 방향의 각도를 의미할 수 있다. 이러한 직선들의 많은 교차는 눈 중앙의 좌표를 식별할 수 있다. (x, y, Φ)과 (a, b)간의 관계는 다음 수학식 2와 같이 주어질 수 있다.

부분 허프 변환 알고리즘에서, 홍채 외부 경계의 범위는 눈꺼풀 교합의 효과를 피하기 위해 다음 수학식 3의 일례와 같이 네 개의 각도 파라미터 Φ ₁, Φ ₂, Φ ₃, 및 Φ ₄에 의해 제한될 수 있다.

2.3 칼만 필터의 노이즈 파라미터

칼만 필터는 제곱 오차를 최소화하는 상태 프로세스의 추정에 의한 불연속성의 선형 필터 문제를 위한 반복적인 접근법일 수 있다. 칼만 필터는 베이지안 트래킹 문제로서 체계화되는 눈 중앙의 트래킹의 근사치를 계산하기 위해 이용될 수 있다.

눈 중앙의 움직임이 다음 수학식 4 및 수학식 5로서 결정될 수 있는 일정 속도 F _t , 상태 천이 모델의 공분산 행렬 및 프로세스 노이즈 모델을 갖는다고 가정하자.

여기서, ΔT는 인접한 프레임들간의 시간 주기(보통 매우 짧은)를, q는 프로세스 노이즈와 연관된 파라미터를 각각 의미할 수 있다. H _t 가 상수라 가정하면, 측정 모델의 매트릭스들과 측정 노이즈 공분산은 각각 다음 수학식 6 및 7과 같이 결정될 수 있다.

여기서, r은 측정 노이즈와 관련된 파라미터를 의미할 수 있다. 칼만 필터 접근법은 종종 노이즈 공분산 매트릭스 Q _t _-1과 R _t 의 추정에 어려움이 있다. 많은 어플리케이션들에서, 노이즈 공분산의 Q _t _-1과 R _t 는 빠르게 안정화될 수 있고, 불변할 수 있다. 파라미터들 r과 q는 오프라인에서 필터를 동작시키거나 또는 상태 값을 결정함으로써 미리 계산될 수 있다. 그러나, 노이즈는 동적으로 변화하는 환경의 불확실성 때문에 시선 추적에서 불변하지 않는다. 파라미터들 r과 q는 본 발명의 실시예들에 따른 시선 추적 스킴에서 최적의 성능을 달성하기 위해 EA에 의해 진화될 수 있고, RL 방법에 의해 조정될 수 있다.

3. 유전자형 진화(Genotype Evolution)

이후에서는, 시선 추적 스킴의 알고리즘 구조의 변화 그리고 알고리즘 구조와 관련된 스레시홀드들과 파라미터들의 변화를 어떻게 유전자 코드로 부호화하여 유전자형 제어 공간이 진화 최적화를 위해 탐색될 수 있는가에 대해 설명한다. 시선 추적 스킴의 유전자형은 유전자 코드들로 유전자형 제어 공간에서 나타내어질 수 있다. 여기서, 유전자 코드들 각각은 알고리즘 구조와 스레시홀드들과 파라미터들을 표현할 수 있고, 따라서 주어진 외부 환경을 위해 진화하는 최적 알고리즘 설정은 유전자 코드에 의해 표현될 수 있다. 시선 추적 스킴의 알고리즘 구조는, 이미 설명한 전처리, 특성 추출, 부분 허프 변환 및 칼만 예측(Kalman prediction)으로 분할될 수 있다. 외부 환경이 주어지면, 관련된 스레시홀드들과 파라미터들을 갖는 최적의 알고리즘 구조가 인지된 이미지 컨텍스트에 따라 결정될 수 있다.

일반적으로, 컨텍스트는 관심사의 시스템 성능에 영향을 미치는 어떤 정보가 될 수 있다. 이미지 컨텍스트는 조명의 방향, 밝기, 대비 및 분광 조성에 의해 영향을 받을 수 있다. 이미지 질(qulity)의 분석 기술을 이용한 이미지 컨텍스트의 컨셉은 시스템 성능을 향상시킬 수 있다. 최근, 이미지 질의 분석 방법은 이미지 저장, 압축, 통신, 디스플레이, 분할 및 인식 등과 같은 다양한 어플리케이션에 성공적으로 적용되고 있으며, 적응적 가중 파라미터를 이용하여 적응 빛 정규화를 위한 전처리를 결정하는데 이용될 수 있다. 본 발명의 실시예들에서도 이미지 질의 분석이 외부 환경에 영향을 받는 입력 이미지 질의 변화의 범주화를 위해 채택될 수 있다. 이때, 외부 환경의 변화를 감지하기 위한 단서로서 입력 이미지의 빛의 변화가 이용될 수 있다. 시선 추적의 시작 전에, 얼굴과 눈 영역의 탐지를 위해, Haar 웨이블렛 기반의 베이지안 분류가 수행될 수 있다.

액션 단위(AU)들의 결합에 의해 각각의 하부구조들이 결합될 수 있다. 알고리즘 구조는 하부구조의 시퀀스로 분리될 수 있고, 각각의 하부구조들은 시스템의 기본 구성 블록인 액션 단위들의 결합에 의해 설정될 수 있다. Z가 액션 유닛의 스레시홀드들 또는 파라미터들의 집합이라 하자. 각각의 액션 유닛은 필요에 따라 스레시홀드들 또는 파라미터들과 연관 지어질 수 있으며, 다음 수학식 8과 같이 표현될 수 있다.

여기서,

는 액션 유닛 AU _k 의 i-번째 스레시홀드 또는 파라미터일 수 있고, 이때, Ψ_A가 설정 가능한 알고리즘 하부구조라 하면, Ψ_A는 다음 수학식 9와 같이 표현될 수 있다.

이러한 수학식 9는 Ψ_A가 액션 유닛들(

, ... ,

) 로부터 설정될 수 있음을 의미할 수 있다. 시선 추적 스킴에서, 전체 알고리즘 구조는 네 개의 연이은 하부구조들(예를 들어, 전처리, 특징 추출, 부분 허프 변환 및 칼만 필터 예측)로 나누어질 수 있다. 전처리는 세 개의 액션 유닛 히스토그램 평활화(histogram equalization, 이하 'HE'), 레티넥스(Retinex, 이하 'RX') 및 엔드 인 컨트라스트 스트레칭(end-in contrast stretching, 이하 'ECS')를 가질 수 있다. 특성 추출은 액션 유닛 이진화(binarization, 이하 'BN') 및 캐니 알고리즘(Canny algorithm, 이하, 'CN')에 의해 표현될 수 있다. 마지막으로, 시선 추적은 액션 유닛 부분 허프 변환(partial Hough transform, 이하 'PHT') 및 칼만 필터(Kalman filter, 이하 'KF')에 의해 수행될 수 있다. 이때, 본 발명의 실시예들을 위한 시선 추적 스킴의 전체 알고리즘 구조가 다음 수학식 10과 같이 묘사될 수 있다.

여기서, Ψ_Pre, Ψ_FE, Ψ_PHT 및 Ψ_KF는 각각 전처리, 특징 추출, 부분 허프 변환 및 칼만 필터 예측의 알고리즘 하부구조를 나타낼 수 있다. 또한, θ _RX는 액션 유닛 RX의 스케일 파라미터를 나타낼 수 있다. 이미지 컨텍스트가 시간 단계 t에서 L _t 로 나타난다고 하면, 그때 시선 추적 알고리즘 설정은 다음 수학식 11과 같이 표현될 수 있다.

여기서, 설정된 시선 추적 알고리즘의 전처리는 스레시홀드 θ ₁을 이용한 RX에 이어서 나오는 HE로 구성될 수 있다. 특징 추출은, 스레시홀드들 θ ₃, θ ₄를 갖는 CN과 스레시홀드 θ ₂를 갖는 BN간의 AND 연산을 이용한 병렬 조합으로 구성될 수 있다. 유전자형 제어 공간에서 시선 추적 시스템의 유전자형 부호화 포맷은, 표 1과 같이 표현될 수 있다.

알고리즘 하부구조(algorithm substructure)
전처리(preprocessing)
Ψ/θ	Ψ_Pre	θ _RX	θ _ECS1	θ _ECS2
No. of bits	2	4	4	4
R _min		181	32	160
R _max		245	96	224
특성 추출(feature extraction)
Ψ/θ	Ψ_FE	θ _RN	θ _CN1	θ _CN2
No. of bits	2	4	4	4
R _min		68	4	32
R _max		188	20	64
부분 허프 변환(partial Hough transform)
θ	θ _PHT1	θ _PHT2	θ _PHT3	θ _PHT4
No. of bits	4	4	4	4
R _min	148	230	278	0
R _max	180	262	310	32
칼만(Kalman)
θ	θ _KF1		θ _KF2
No. of bits	4		4
R _min	0.005		0.05
R _max	0.015		0.15

여기서, R _min 및 R _max는 파라미터들 각각의 값 범위의 최소값과 최대값을 각각 나타낼 수 있다. 전처리 알고리즘 하위구조는, 실현 가능한 조합이 RX(HE >> RX)에 따라 네 가지 타입(HE, RX, ECS 및 HE)이기 때문에, 전처리 알고리즘 하위구조에 2 비트가 할당될 수 있다. 특성 추출 알고리즘 하위구조에도 2비트가 할당될 수 있다. 특성 추출 알고리즘 하위구조에 대해 실현 가능한 조합은 BN, CN, 논리곱 연산을 이용한 BN과 CN의 병렬 조합, 및 논리합 연산을 이용한 BN과 CN의 병렬 조합이 될 수 있다. 부분 허프 변환과 칼만 예측은 오직 하나의 알고리즘 구조만을 갖기 때문에 알고리즘 구조 파라미터로서 할당되는 비트는 없을 수 있다.

만약, 특성 추출 단계가 알고리즘 구조의 네 개의 타입을 갖는 것으로 결정되면, 알고리즘 구조는 표 2에 도시된 유전자 코드의 2 비트 벡터에 의해 표현될 수 있다.

Ψ_FE-의 비트 벡터	00	01	10	11
특성 추출 알고리즘 하부구조	이진화 (Binarization)	캐니(Canny)	이진화 \|\|_AND 캐니	이진화 \|\|_OR 캐니

이때, θ _A가 액션 유닛 A의 스레시홀드(또는 파라미터)라 하자. 이때, 중심(pivot)

은 표현형 제어 공간에서 θ _A의 스레시홀드 범위의 중심값으로 정의될 수 있다. 또한, θ _{A min}과 θ _{A max}가 각각 θ _A의 최소 스레시홀드 값 및 최대 스레시홀드 값이라 하자. 이때, 서로 이웃한 비트 벡터 θ _A _α 간의 스레시홀드 중심의 간격은 다음 수학식 12와 같이 계산될 수 있다.

여기서, β는 표 1을 통해 설명한 θ _A로 표현되는 비트의 수를 의미할 수 있다. 액션 유닛 A의 중심은 θ _{A min}에서 시작해서 θ _{A max}까지 θ _A _α 를 더함으로써 얻어질 수 있다. 예를 들어, 만약, θ _{BN min}과 θ _{BN max}가 그레이 레벨에서 각각 68 및 188이라면, θ _BN의 서브 유전자 코드의 이진화 스레시홀드 중심을 위한 룩업 테이블(lookup table)은 아래 표 3과 같이 나타날 수 있다.

K(θ _BN-의 서브 유전자 코드)	이진화 중심
0000	68
0001	76
0010	84
0011	92
0100	100
0101	108
0110	116
0111	124
1000	132
1001	140
1010	148
1011	156
1100	164
1101	172
1110	180
1111	188

유전자형 진화는 각각의 이미지 컨텍스트를 위한 최적 유전자 코드를 발견함으로써 수행될 수 있다. 적합성는 이후에 설명될 평균 트래킹율에 의해 계산될 수 있다.

4. RL 알고리즘을 이용한 표현형 발현

앞서 설명한 바와 같이 EA는, 유전자형 표현방식 면에서 알고리즘 구조와 알고리즘 구조의 스레시홀드와 파라미터들의 동적 제어 공간에서 시스템 설정을 진화시킴으로써, 시선 추적 스킴과 결합하여 성능을 최적화할 수 있다. EA의 룰은 적절한 스킴 유전자형을 찾는 것이다. 예를 들어, EA는 인지된 외부 환경(일례로, 인지된 이미지 컨텍스트)과 적합성 평가에 기반하여 최적의 시선 추적 설정을 표현하는 유전자 코드를 찾을 수 있다. 실세계 외부 환경 변화는 EA 진화 단계에서 완전히 예측될 수 없기 때문에, RL 알고리즘이 스레시홀드와 파라미터들 그리고 보상의 면에서 시선 추적의 정확한 표현형 징후(phenotype manifestation)를 찾기 위해 이용될 수 있다. EA 진화와 RL 적응 능력의 결합은, RL 알고리즘의 적용에서 가능한 시선 추적 설정의 거대 제어 공간의 폐해를 다룰 수 있을 뿐만 아니라, 실세계 적응에서 EA의 어려움도 다룰 수 있게 한다.

EA의 동적 제어 공간은 RL 알고리즘의 동적 제어 공간과 같지 않으나, 실세계 환경에서 성능 최적화에 대해 서로 밀접한 관련이 있다. 이미지 컨텍스트 각각을 위해 EA에 의해 생성되는 유전자 코드는, 관련된 표현형 제어 공간(스레시홀드들 또는 파라미터들의 범위에 의해 묘사됨)으로 정의될 수 있다. 단순성과 실시간 고려를 위해, 유전자 코드에서 알고리즘 구조는 표현형 징후에서 변화하지 않을 것이고, 실시간 진화 적응 현상에 직관적으로 알맞다. RL 알고리즘은 스레시홀드와 파라미터들의 적응을 연속된 결정 프로세스(예를 들어, 시선 추적의 최적의 설정을 얻기 위한 RL 상태 천이로서 처리할 수 있다. 이산 시간에서 관찰되는 RL 상태를 결정하기 위한 연속된 시험의 이벤트로서 시선 추적 최적화와 관련하여, RL 알고리즘을 이용하기 위해 마르코프 결정 프로세스(Markov decision Process, MDP) 모델이 필요함을 확인할 필요가 있다. 이러한 이론에서, 만약, 마르코프 속성(Markov property)이 만족되지 않으면, RL 알고리즘은 정확하게 적용될 수 없다. 그러나, 마르코프 가정에 기반하여 발전된 RL 어플리케이션은, 시스템 행동을 이해하고 근사치를 내기 위한 많은 경우에 대해, 여전히 가치가 있다. 비록, 상태 신호가 마로코프 속성을 만족하지는 않지만, RL 알고리즘은 더 복잡하고 실현 가능한 마르코프 모델에 해당되지 않은 경우에만 이용될 수 있고, RL 알고리즘은 마르코프 상태와 같은 상태에 근사함으로써, 많은 경우에 성공적으로 적용될 수 있다.

일반적으로, RL 알고리즘을 위한 MDP 접근법은 다섯 가지 튜플(tuple)들을 요구한다. 다섯 가지 튜플들은 상태, 액션, 천이함수, 보상 및 할인 계수를 포함할 수 있다. 액션은 도 1에서 설명한 RL 에이전트의 학습을 위해 필요한 어떠한 결정이나 행동이 될 수 있고, 상태는 RL에이전트의 결정을 만드는데 영향을 미치는 어떠한 요소일 수 있다. 관련된 스레시홀드들과 파라미터들의 표현형 제어 공간에 의해 표현되는 표현형 징후 각각은 도 1에 도시한 바와 같이 RL 내부 환경에서 상태를 정의할 수 있고, 시선 추적 성능을 최대화할 수 있는 최적의 스레시홀드와 파라미터 셋을 탐색하기 위해, RL 에이전트와 상호작용할 수 있다. 여기서, 액션은 표현형 제어 공간에서 다음 표현형 징후를 결정하는 다음 상태로의 이동으로 정의될 수 있다.

생성된 액션은 표현형 제어 공간에서 현재 내부 상태로부터 새로운 상태로 내부 환경의 상태 천이를 작동시킬 수 있다. 또한, RL 에이전트는 내부 환경으로부터의 강화 신호를 수신할 수 있다. 이때, 본 발명의 실시예들은, 이미지 자체를 RL 상태로서 모델링하고, 파라미터 결정이 액션이 되는 종래기술과는 구별된다. 본 발명의 실시예들에서는 자극으로서 이미지 시퀀스를 얻고 분할된 이미지를 생성한다. 종래기술에서는 RL 에이전트가, 액션을 획득함으로써 각각의 시간 단계에서 상태를 변경하기 때문에, RL 알고리즘의 상호작용적인 특성을 빠짐없이 그리고 충분히 활용할 수 없다. 다른 말로, 본 발명의 실시예들에서는 외부 환경의 변화에 영향을 받는 연속되고 상호작용적인 스레시홀드와 파라미터 천이를 필요로 한다. 이러한 천이는 마르코프 결정 프로세스로서 모델링될 수 있다. 본 명세서에서 지금까지는 보통의 RL에서의 환경, 에이전트, 보상 및 액션의 개념을 이용하였으나, 이후에서는 외부 환경과 외부 피드백간에 가능한 혼동을 피하기 위해 내부 환경과 내부 보상이라는 용어를 사용한다. 다시 말해, 내부 환경은 인지 과학에서 이용되는 본질적인 자극으로 해석될 수 있다. 여기서, 본질적으로 자극받은 행동은 지적인 성장을 위한 활력 요소로서 강조될 수 있다. RL 액션 역시 특정 방향에서 근육을 움직이기 위한 사람의 결정으로서의 액션 대신에 내부 결정으로서 해석될 수 있다.

스레시홀드들과 파라미터들의 다음 상태는 주로 시선 추적 스킴의 스레시홀드와 파라미터들의 현재 값들과 같은 현재 내부 상태에 의해 결정되는 것으로 해석될 수 있다. RL 내부 상태는, 표현형 제어 공간에서 관련된 스레시홀드와 파라미터들에 관하여 가능한 모든 시선 추적 스킴 설정을 표현하는 유한 집합의 멤버들일 수 있다. 여기서, RL 내부 상태(도 1의 내부 환경)는 외부 환경에 의해 영향을 받는 유전자 코드와 관련될 수 있고, 유전자 코드에 의해 제한될 수 있다. 따라서, RL 내부 상태는 이산 시간 단계의 제한된 제어 공간 내에서 하나의 상태에서 다른 상태로 랜덤하게 천이될 수 있다.

RL 알고리즘에서, 에이전트 환경의 상호작용을 서브시퀀스로 분리하기 위해 에피소드가 정의될 수 있다. 에피소드는 반복되는 상호작용의 시간 단위로서 고려될 수 있고, 표준 시간 상태와 종료 상태를 가질 수 있다. RL 시작 상태는 시선 추적 신뢰가 기정의된 기준(RL 시작 스레시홀드

) 이하로 저하되는 경우 또는 경계신호가 외부 피드백(도 1의 외부 보상)을 통해 외부 환경으로부터 수신되는 경우에 선언될 수 있다. RL 종료 상태는 시선 추적 신뢰가 기설정된 기준(RL 종료 스레시홀드

)에 도달하는 경우, 또는 시선 추적 신뢰가 어떤 향상도 없는 경우에 선언될 수 있다. 현재 내부 상태는 내부 상태로부터의 시작과 행동 정책에 따른 행동의 지속이 예상되는 보상의 시간 할인된 양에 대한 평가치일 수 있다.

계산 자원에 대한 실세계 제약을 고려하면, 유전자 코드(인지된 이미지 컨텍스트에 의해 결정됨)에 의해 제한되는 표현형 제어 공간에서 내부 상태의 집합은 다음 수학식 13과 같이 표현될 수 있다.

여기서, S _k 는 시선 추적 스킴에서 스레시홀드와 파라미터 룩업 테이블의 인덱스들을 나타내는 상태들을 의미할 수 있다. 다시 말해, 시선 추적 스킴의 모든 가능한 표현형 징후가 내부 환경 상태로서 인덱싱될 수 있다. 표현형 제어 공간의 차원을 p라 하자. 이때, 시간 단계 t에서 내부 환경 상태는 다음 수학식 14와 같이 표현될 수 있다.

여기서, θ _t _, _i 는 시간 단계 t에서 관련된 스레시홀드와 파라미터를 표현하는 룩업 테이블(아래 표 4 참조)의 인덱스일 수 있다.

액션의 유한 집합은 각각의 내부 상태에서 이용 가능하고,

는 시간 단계 t에서 시선 추적 스킴의 스레시홀드들과 파라미터들을 변화시키는 결정 액션을 나타낼 수 있다.

가 시간 단계 t에서의 액션이라 하자. 여기서,

는 시간 단계 t에서의 표현형 제어 공간의 i-번째 좌표(인덱스)에서, d 유닛들의 음의 방향 이동, 정지, d 유닛들의 양의 방향 이동을 각각 의미하는 - d _t _, _i , 0 또는 + d _t _, _i 일 수 있다.

스레시홀드와 파라미터의 값들이 주어지면, 시선 추적 스킴은 검색 윈도우에서 가능한 눈 중심을 생성할 수 있다. 수학식 14가 시간 단계 t에서 표현형 제어 벡터라 가정하자. 여기서, 스레시홀드와 파라미터 공간의 차원은 p일 수 있고, θ _t _, _i 는 스레시홀드 또는 파라미터를 표현하는 룩업 테이블의 RL인덱스일 수 있다. 인덱스는 이산 범위 정밀도를 가질 수 있다. 예를 들어, 표 4에서 θ _BN은 이산 범위 정밀도 "8"을 가질 수 있다. 여기서, 이산 범위 정밀도 "8"은 θ _BN의 인덱스 값이 {0, 1, ... , 7}의 값들 중 하나일 수 있음을 의미할 수 있다. 테이블 4는 이산 범위 정밀도를 갖는 시선 추적 스킴의 상태 벡터들을 나타낼 수 있다.

이미 설명한 바와 같이, 중심

는 표현형 제어 공간에서 θ _A의 스레시홀드 범위의 중심값으로서 정의될 수 있다. RL 상태의 가능한 스레시홀드들(또는 파라미터들)은 이진화 스레시홀드를 위해 표 5와 같은 RL 룩업 테이블에서 결정될 수 있다.

i(RL 인덱스)	RL(i, θ _BN)
0	109
1	111
2	113
3	115
4	117
5	119
6	121
7	123

-

가 중심

를 위한 서로 인접한 RL 스레시홀드들(또는 파라미터들)간의 간격이라 하자. 이때, 표 5의 RL 룩업 테이블은 다음 수학식 15를 이용하여 생성될 수 있다.

여기서, i는 스레시홀드(또는 파라미터)

의 RL 인덱스일 수 있고, K는 서브 유전자 코드일 수 있으며, v(θ _A)는 θ _A의 이산 범위 정밀도일 수 있다. 일례로, 만약, 이진화 서브 유전자 코드가 "0110"으로 결정되면, 유전자 코드의 이진화 스레시홀드 중심은 그레이 레벨 강도에서 "116"(표 3 참조)이 될 수 있다. 표 5는 표현형 제어 공간에서 이진화 이산 범위의 RL 룩업 테이블을 나타내고 있고, 강도 값들에 의해 표현되는 전용의 RL 스레시홀드들을 나타내고 있다.

예를 들어, i가 0이고,

가 2일 때, RL 스레시홀드 RL(2, θ _BN)는 {116-1}+{0-(8/2-1)}*2 = 119와 같이 계산될 수 있다. 만약, RL 상태가 이진화 RL 인덱스 "4"를 갖는다면, 이진화는 표 5의 스레시홀드로서 그레이 레벨 117을 이용하여 수행될 수 있다.

외부 피드백에 의해 간접적으로 영향을 미치는 내부 보상 함수(도 1의 내부 보상)는 강화 학습의 목표로 정의될 수 있다. 내부 보상 함수는 각각의 내부 환경 상태와 액션 쌍을 기대되는 내부 보상(도 1의 내부 보상)과 맵핑할 수 있다. 강화 학습은, 시선 추적에서 에이전트가 에이전트의 스레시홀드 또는 파라미터 결정 정책을 경험의 결과에 따라 어떻게 변경할 수 있는가를 명시할 수 있다. 내부 보상 함수의 목표는 장기적인 안목으로 보면, 기대되는 내부 보상의 전체 양을 최대화하는 것이다. 이와 관련하여, RL 알고리즘의 즉각적인 보상은 다음과 같이 정의될 수 있다. 만약, 시선 추적이 각각의 이미지 프레임이 성공적이면, 고득점의 내부 보상이 반납될 수 있고, 성공적이지 않으면 저득점의 내부 보상이 반납될 수 있다. 고득점 및 저득점은 실험적으로 결정될 수 있다.

RL 알고리즘의 목적은 시선 추적의 한 단계의 즉각적인 성능의 피드백을 이용하여 장기적인 성능을 최적화하는 것일 수 있다. TD(Temporal Difference) 학습 접근법이 이용될 수 있다. TD 학습 접근법은 온라인의 완전하게 증가하는 학습 능력을 제공할 수 있고, 어떤 서브시퀀스 액션이 얻어졌는가와 관계없이 각각의 천이로부터 학습할 수 있다. TD 방법은 또한 보상과 다음 상태 확률 분포의 모델과 같은 환경 역학에 대한 어떠한 지식 없이도 경험으로부터 직접적으로 학습할 수 있다. 두 개의 잘 알려진 TD 알고리즘으로 SARSA(State-Action-Reward-State-Action) 알고리즘 및 Q-학습(Q-learning) 알고리즘이 있다. 그리고 이러한 TD 알고리즘들은 평가 정책(예를 들어, 온 폴리시(on-policy)와 오프 폴리시(off-policy))에서 차이가 있다. 시선 추적의 실시간 요구를 고려하면, SARSA 알고리즘보다 상대적으로 수렴이 빠른 원 스텝 Q학습 알고리즘이 선택될 수 있다. 원 스텝 Q-학습 알고리즘은 Q-함수라 불리는 액션 값 함수를 만드는 Q^*를 추정할 수 있고, 단순성, 효과성 및 모델 프리 특성을 갖는 강화 학습의 중요한 알고리즘이다. 원 스텝 Q-학습 방법은 공통의 오프-폴리시 차영상 제어 알고리즘일 수 있다. Q-학습은 액션 값 테이블을 구성하기 위해 액션-값 Q(s, a)를 평가함으로써, 최적의 액션들을 축적할 수 있다. 원 스텝 Q-학습의 액션 값 갱신 방정식은 다음 수학식 16과 같이 주어질 수 있다.

여기서,

는 학습율일 수 있고,

는 할인율일 수 있다. 액션 값 함수 Q는 극적 분석 단순화를 이용한 조기 집중(early convergence)을 가능하게 하는 정책에 독립적인, 최적의 액션 값 함수 Q^*를 학습하고 Q^*에 근사할 수 있다.

폴리시는 가능한 다음 상태의 값들이 주어지면 액션을 선택하기 위한 룰일 수 있고, 그리디 정책은 결정성일 수 있고, 다음 수학식 17에서 나타난 바와 같이 모든 상태를 위한 최대 Q-값을 갖는 액션을 얻을 수 있다.

여기서,

는 결정성일 수 있다. 여기서, 결정성이란 입력값에 따라 출력값이 결정되는 것을 의미할 수 있다. 수학식 16은 시선 추적 스킴에서 개체들의 액션 상태 쌍을 위해 안정적인 보상이 찾아질 수 있는 경우에만 유효할 수 있다. 그러나, 보상은 연속적인 프레임들의 이미지 질이 거의 균일할 경우에만 균일하다. 예를 들어, 새로운 외부 환경의 발생으로 인해 EA 모듈(도 1 참조)로부터의 이미지 질이 이전 지식이 불안정하다면, 이미지 질이 거의 균일하다는 가정은 유효하지 않다. 외부 환경의 일시적 불확실성을 흡수하기 위해, 협동 멀티 에이전트 RL이 이용될 수 있다. 조인트 액션 집합

에 대해, A _i 는 j-번째 에이전트의 액션의 집합일 수 있고, 상태 천이 확률 함수

와 보상 함수

가 협동 멀티 에이전트 RL을 위해 이용될 수 있다. 시간 단위 t에서 Q-학습 방정식과 그리디 폴리시는 다음 수학식 18 및 수학식 19와 같이 정의될 수 있다.

여기서,

는 현재 상태일 수 있고, 액션 그룹

는 j번째 에이전트의 현재 액션일 수 있으며, a _i 는 집합 A _i 의 원소일 수 있고,

는 다음 상태를

는 다음 액션 그룹을 의미할 수 있다. 각각의 에이전트들은 독립적인 결정 생성자일 수 있다. 그리디 폴리시는, 현재 낮은 값 액션을 학습하는 것을 허용하지 않기 때문에, 시험해 보지 않은 액션 시퀀스들의 결과를 탐색하지 않는다. 그러나, 미래에 높은 값을 유도할 수 있다. 이와 관련하여, ε-그리디 폴리시가 탐색과 개발간의 액션의 균형을 맞추기 위해 이용될 수 있다. 본 발명의 일실시예에 따른 멀티 에이전트 Q-학습 알고리즘이 아래의 표 6과 같이 주어질 수 있다.

알고리즘 1

단계 1. ε-그리디 폴리시를 이용하여 s(현재 상태)로부터 a(액션 그룹)를 선택.

단계 2. 액션을 얻고, 내부 보상을 계산함으로써 즉각적인 보상 r을 관찰하고, 새로운 내부 상태 s´를 관찰.

단계 3. 수학식 16을 계산.

단계 4.

프레임 M당 단계 제한(step limitation per frame M)에 도달하거나 또는 성공 트래킹 조건을 만족할 때까지 단계 1 내지 단계 4를 반복.

저 비용 시선 추적을 위한 전체 진화 적응 프로세스는 아래의 표 7과 같이 주어질 수 있다. 프레임워크는, 실행시간에 시선 추적 성능을 자체적으로 최적화하기 위해 다른 프레임워크와 반복적인 상호작용을 통해 학습할 수 있다. 시선 추적의 제한된 시스템 메모리와 실시간 딜레이 제약은, 학습 알고리즘이 시스템의 외부 역학과 관련하여 인지된 환경 지식을 활용하는 것을 상호보완적으로 가속화시킬 수 있다.

알고리즘 2

단계 1. 이미지 컨텍스트를 인지.

단계 2. 인지된 이미지 컨텍스트를 위한 최적의 유전자 코드를 찾고, 표현형 제어 공간을 결정하며, 모든 Q(s, a) 값을 임의로 초기화.

단계 3. 연속적인 이미지 프레임들을 위해 단계 3.1 및 단계 3.2를 반복.
단계 3.1 알고리즘 1을 호출함으로써 Q-학습을 수행하고 최적의 스레시홀드 및 파라미터들을 결정.
단계 3.2

를 만족할 때까지 시선 추적을 수행.

단계 4.

이면, 단계 3을 수행.

단계 5.

(예를 들어, 시선 추적 신뢰

가 EA 재시작 스레시홀드

이하인 경우,

는

보다 작음)이면, 단계 1을 수행.

종료시까지 단계 1 내지 단계 5를 반복.

이와 같이, 본 발명의 실시예들에 따르면, 고 비용 이미지 캡처 기기나 매우 제한적인 상황을 이용하는 대신, 관련된 스레시홀드, 파라미터들과 함께 알고리즘 구조를 최적화하는 것의 동적 제어 문제에서 시선 추적을 체계화함으로써, 성능 보장을 달성할 수 있다.

또한, EA의 본질적인 비 실시간 속성과 RL 알고리즘의 거대 검색 공간의 폐해와 같은, EA 및 RL 알고리즘의 딜레마를 해결할 수 있고, 프레임워크는 시선 추적 스킴의 성능을 정확성과 속도의 측면에서 효과적으로 향상시킬 수 있다. RL 알고리즘의 막대한 수의 시험과 높은 차원수와 폐해를 줄일 수 있고, 별도의 사전준비 없는 학습과 비교하여 RL 알고리즘의 수렴 속도를 가속화시킬 수 있다. 그 뿐만 아니라, RL 내부 환경을, RL 알고리즘의 상호작용적 특성을 완전히 활용할 수 없는 입력 이미지 대신에 유전자형 제어 공간과 관련하여 정의할 수 있다. 시선 추적 스킴의 스레시홀드, 파라미터들과 RL 환경 상태가 연관 지어질 수 있으며, 그 결과로, 연속적이고 상호작용적인 스레시홀드와 파라미터 공간(외부 환경의 변화에 영향을 받는)이 탐색될 수 있고, 따라서 시선 추적 스킴에서 매우 유연하고 높은 성능을 제공함으로써, RL 알고리즘의 이득을 완전하게 얻을 수 있다. 이에 더해, 다른 비젼 기반 HCI 어플리케이션에 순조롭게 적용하여 이미지 캡처링 환경의 변화하에서 본질적 위약성을 해결할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소 및 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서와 같은, 다른 처리 구성도 가능하다.

소프트웨어는 컴퓨터 프로그램, 코드, 명령, 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로 처리 장치를 명령할 수 있다. 소프트웨어 또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소, 물리적 장치, 가상 장치, 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파에 영구적으로, 또는 일시적으로 구체화될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크와 같은 자기 광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

외부 환경에 대한 외부 데이터에 기반하여 이미지 컨텍스트(image context)를 인지하는 제1 단계;
상기 인지된 이미지 컨텍스트에 대한 유전자 코드(genetic code)를 찾고, 표현형 제어 공간(phenotype control space)을 결정하며, 기설정된 액션들에 대한 현재 액션값을 임의의 값으로 초기화하는 제2 단계;
기 설정된 Q-학습(Q-learning)을 수행하고, 스레시홀드들을 결정하는 제3 단계;
시선 추적의 신뢰값이 상기 제3 단계에서 결정되는 종료 스레시홀드 미만인 경우, 시선 추적을 수행하는 제4 단계;
를 포함하는 것을 특징으로 하는 시선 추적 방법.
제1항에 있어서,
상기 신뢰값이 상기 제3 단계에서 결정되는 시작 스레시홀드를 초과하는 경우, 상기 제3 단계 및 제4 단계를 재수행하는 제5 단계; 및
상기 신뢰값이 상기 제3 단계에서 결정되는 기설정된 진화 알고리즘의 재시작 스레시홀드 이하인 경우, 상기 제1 단계를 수행하는 제6 단계
를 더 포함하고,
상기 제4 단계에서 상기 신뢰값이 상기 종료 스레시홀드 이상이 될 때까지 상기 제1 단계 내지 상기 제6 단계를 반복 수행하는 것을 특징으로 하는 시선 추적 방법.
제1항에 있어서,
상기 제3 단계 및 상기 제4 단계는, 연속적인 이미지 프레임들 각각에 대해, 반복 수행되는 것을 특징으로 하는 시선 추적 방법.
제1항에 있어서,
상기 제3 단계는,
그리디 폴리시를 이용하여 현재 상태로부터 현재 액션 그룹을 선택하는 제3-1 단계;
상기 선택된 액션 그룹을 통해 액션을 얻고, 내부 보상을 계산하여 즉각적인 보상을 확인하고, 새로운 내부 상태를 확인하는 제3-2 단계; 및
상기 현재 액션값, 학습율, 할인율, 상기 새로운 내부 상태, 다음 액션 그룹에 기초하여 다음 액션값을 산출하는 제3-3 단계
를 포함하고,
상기 이미지 프레임들 수에 따른 제한에 도달하거나 또는 기설정된 성공 트래킹 조건을 만족할 때까지 상기 제3-1 단계 내지 상기 제3-3 단계를 반복 수행하는 것을 특징으로 하는 시선 추적 방법.
룩업 테이블을 저장하는 메모리 및 프로세서를 포함하고, 상기 프로세서는, 외부 환경에 대한 외부 데이터에 기반하여 이미지 컨텍스트를 인지하는 제1 과정;
상기 인지된 이미지 컨텍스트에 대한 유전자 코드를 상기 룩업 테이블을 이용하여 찾고, 표현형 제어 공간(phenotype control space)을 결정하며, 기설정된 액션들에 대한 현재 액션값을 임의의 값으로 초기화하는 제2 과정;
기설정된 Q-학습을 수행하고, 스레시홀드들을 결정하는 제3 과정; 및 시선 추적의 신뢰값이 상기 제3 과정에서 결정되는 종료 스레시홀드 미만인 경우, 시선 추적을 수행하는 제4 과정을 처리하는 것을 특징으로 하는 시선 추적 시스템.