KR20230017273A

KR20230017273A - 시선 추적 장치, 시선 추적 방법 및 컴퓨터 판독가능 매체

Info

Publication number: KR20230017273A
Application number: KR1020227045844A
Authority: KR
Inventors: 토마스 데브러너; 피에르 지로드; 쳉한 리; 카이난 잉
Original assignee: 이니베이션 아게
Priority date: 2020-07-03
Filing date: 2021-06-30
Publication date: 2023-02-03
Also published as: EP3933550A1; CN115777118A; WO2022003013A1; US20230266818A1; JP2023531293A

Abstract

본 발명은 시선 추적 장치, 시선 추적 방법 및 컴퓨터 판독가능 매체에 관한 것이다. 시선 추적 장치는 사용자의 눈(2)에서 반사된 방사선(12)을 수신하고 이벤트(31)의 신호 스트림(3)을 생성하도록 구성된 이벤트 기반 광학 센서(1)와, 여기서 각 이벤트(31)는 상기 광학 센서(1)의 하나 이상의 픽셀에서 수신된 방사선의 시간적 변화의 검출에 대응하며, 상기 광학 센서(1)에 연결되고 a) 상기 광학 센서(1)로부터 이벤트(31)의 신호 스트림(3)을 수신하고, b) 이벤트(31)의 상기 스트림(3)의 적어도 일부에 기초하여 추론 프레임(61)을 생성하고, c) 상기 추론 프레임(61)을 기계 학습 모듈(6)에 대한 입력으로서 활용하고 출력 데이터를 얻기 위해 상기 기계 학습 모듈(6)을 작동시키고, e) 상기 사용자의 눈(2)에 관련된 정보를 상기 출력 데이터로부터 추출하도록 구성되는 컨트롤러를 포함하며, 여기서 상기 컨트롤러(4)는 제1 인공 신경망(5)을 이용하여 상기 추론 프레임(61)을 생성하도록 구성된다.

Description

시선 추적 장치, 시선 추적 방법 및 컴퓨터 판독가능 매체

본 발명은 시선 추적 장치, 시선 추적 방법 및 컴퓨터 판독가능 매체에 관한 것이다.

시선 추적(eye tracking)은 일반적으로 사용자라고 하는 인간의 눈(eye)이나 눈길(gaze)의 움직임을 모니터링하는 것을 말한다. 그러나 사용자는 물론 소켓(socket)에 보는 방향을 바꿀 수 있는 눈을 가진 다른 생물일 수도 있다.

사용자의 시선을 추적하는 한 가지 가능한 방법은 간격을 두고 눈의 전체 이미지 프레임들 또는 종래의 프레임들을 획득하는 기존의 비디오 또는 사진 카메라를 사용하는 것이다. 그 다음 카메라에 연결된 컨트롤러는 이러한 각 이미지 프레임을 분석하여 프레임이 캡처된 시점의 동공 위치를 결정하여 사용자가 보고 있는 방향을 추론해 낼 수 있다. 이 방법은 컨트롤러가 분석할 눈의 이미지를 얻는 비디오 또는 사진 카메라와 같은 프레임 기반 카메라를 반드시 사용해야 한다. 이러한 종래의 또는 프레임 기반 카메라는 종종 느리다. 또한 카메라와 컨트롤러 간에 전송될 필요가 있는 대량의 데이터를 생성시킨다.

시선 추적 프로세스는 다이내믹 비전 센서(DVS)라고도 하는 이벤트 기반 카메라 또는 이벤트 기반 센서를 활용하여 가속화될 수 있다. EP 3598274 A1은 카메라 중 하나가 이벤트 기반 카메라 또는 DVS인 여러 카메라를 포함하는 시스템을 개시한다. 그러나 이 공지의 시스템은 또한 제2 프레임 기반 카메라에도 의존한다. 유사하게 Angelopoulos, Anastasios N., et al. , preprint arXiv: 2004.03577 (2020)의 "10,000Hz를 넘어서는 이벤트 기반, 근안 시선 추적(Event Based, Near Eye Gaze Tracking Beyond 10,000Hz.)" 간행물은 시선 추적 작업을 위해 이벤트 기반 DVS 데이터와 함께 종래 이미지 프레임에 대한 타원 감지(ellipse detection)를 사용한다. 저자들은 딥 러닝 기반 추출 방법이 그들의 작업에 대한 쉬운 확장이 될 수 있다고 언급하긴 하지만, 종래의 컴퓨터 비전 접근 방식이 사용된다. 따라서 여기에서도 시선 추적 프로세스는 프레임 기반 카메라에서 얻은 종래의 이미지 프레임에 적어도 부분적으로 의존한다. 시선의 이미지 프레임 이용 가능성에 의존하는 것은 눈의 위치를 정확하게 예측할 수 있기 전에 전체 프레임을 얻기 위한 시선 추적 시스템을 필요로 한다. 일부 시스템은 보간법(interpolation)을 활용하여 미래 상태를 예측할 수 있지만 최악의 경우 대기 시간(latency)은 전체 프레임을 얻는 데 걸리는 시간에 의해 정해진다.

US 10466779 A1은 다른 접근 방식을 제시하는데, 이는 DVS 데이터를 사용하는 시선 추적 시스템을 개시하고 수신된 DVS 데이터를 종래의 프레임과 유사한 강도 이미지(intensity image)로 변환하는 방법을 개시한다. 이 알고리즘은 DVS 스트림의 수학적 속성을 사용한다. 종래의 컴퓨터 비전 접근 방식은 이렇게 얻은 강도 이미지에서 시선과 동공 특성을 예측하는 데 사용된다.

순전히 이벤트 기반 센서 출력의 획득과 시선 추적을 위한 컨벌루션 신경망(convolutional neural networks)을 사용하는 기계 학습(machine learning) 접근 방식을 결합하는 방법이 WO 2019147677 A1에 개시된다. 여기에는 강도 이미지, 주파수 이미지 또는 타임스탬프(timestamp) 이미지를 생성하기 위해 이벤트 카메라로부터 이벤트를 축적하는 시스템이 개시되며, 이는 이후에 다양한 시선 매개변수(gaze parameters)를 예측하기 위해 신경망 알고리즘으로 입력된다. 설명된 시스템은 이벤트 데이터에서 강도 이미지의 근사치를 생성하는 일반적이고 잘 알려진 기술인 수작업 정적 축적 방법(hand-crafted, static accumulation regime)을 사용한다. 이 접근 방식의 단점은 이미지에 노이즈가 생기고 과거 동공 위치에서 인공물(artefacts)이 나타나는 경향이 있다는 것이다. WO 2019147677 A1에 개시된 것과 같은 다운스트림 프레임 기반 컨벌루션 신경망은 DVS 이벤트를 누적할 때 피할 수 없는 것들인 노이즈 데이터와 시간적 인공물들로 어려움을 겪을 수 있으므로 더 복잡한 신경망을 필요로 하게 된다.

본 발명의 목적은 사용자의 눈의 움직임을 보다 확실하게 추적할 수 있는 장치 및 방법을 제안하기 위한 것이다.

이러한 목적은 청구항 1의 특징을 갖는 시선 추적 장치, 청구항 14의 특징을 갖는 시선 추적 방법 및 청구항 15의 특징을 갖는 컴퓨터 판독가능 매체를 제공함으로써 본 발명에 따라 달성된다. 본 발명의 추가적인 유리한 실시예들은 종속항의 대상이 된다.

본 발명에 따르면, 시선 추적 장치는 이벤트 기반 광학 센서 및 센서에 연결된 컨트롤러를 포함한다. 사용자의 눈에서 반사된 방사선은 이 방사선에 응답하여 이벤트의 신호 스트림을 생성하도록 구성된 이벤트 기반 광학 센서에 의해 수신된다. 이 신호 스트림은 시선 추적 프로세스의 결과를 얻기 위해 신호 스트림에 대한 다양한 프로세스를 수행하는 컨트롤러로 전송된다. 따라서 컨트롤러는 적어도 다음에 개시된 분석을 수행하기 위한 적어도 하나의 프로세싱 유닛 및 메모리를 포함할 수 있다. 이하에서 이벤트 기반 광학 센서는 이벤트 센서로 호칭된다.

센서, 특히 다이내믹 비전 센서는 어레이로 배열된 다수의 개별 픽셀을 포함하고, 각 픽셀은 감광셀(photosensitive cell) 또는 감광영역(photosensitive area)을 갖는다. 감광셀에 충돌하는 입사광의 시간적 변화를 감지하면 여기서는 "이벤트(event)"라 불리는 이벤트 신호가 생성된다. 따라서 센서에 의해 생성된 이벤트의 신호 스트림에서의 각 이벤트는 상기 광학 센서의 하나 이상의 픽셀에서 수신된 방사선에서의 시간적 변화의 검출에 대응한다. 각각의 이벤트는 특히 어레이 내의 대응하는 픽셀의 위치, 극성과 또한 선택적으로 시간적 변화의 크기를 나타내는 인디케이터, 및 변화가 발생한 시간을 포함할 수 있다. 이벤트는 추가 프로세싱을 위해 신호 스트림의 일부로서 컨트롤러로 전송된다.

컨트롤러는 이벤트의 신호 스트림을 수신하고, 기계 학습 모듈에 대한 입력으로 활용될 추론 프레임(inference frame)을 제1 인공 신경망을 거쳐 생성하고, 기계 학습 모듈을 작동하여 출력 데이터를 얻고, 출력 데이터로부터 상기 사용자의 눈에 관한 찾고 있던 정보를 추출하도록 구성된다. 유리하게는, 기계 학습 모듈에 의해 생성된 출력 데이터는 동공 위치/방향(orientation) 등과 같은 찾고 있던 정보이다.

추론 프레임은 제1 인공 신경망의 출력이자 기계 학습 모듈로의 입력인 프레임으로 정의될 수 있다. 추론 프레임이라는 용어는 너비, 높이, 채널(channels) 차원의 3D 텐서(tensor)를 가리킬 수 있다. 채널은 데이터의 상이한 표현(different representations of the data)의 집합이다. 상이한 표현은 특히 로그, 스케일, 공간 또는 시간 도함수(derivatives), 강도 및/또는 주파수 성분의 위상과 같은 선형 또는 비선형의 강도를 포함할 수 있다.

제1 신경망은 대응하는 입력 및 출력 데이터로 훈련된다. 입력 및 출력 데이터는 시뮬레이션 소프트웨어를 사용하여 생성될 수 있다. 훈련 데이터의 경우, 망의 출력인 추론 프레임의 구성 요소는 표준 이미지 처리 기술을 사용하여 생성되지만, 이벤트 입력 스트림은 이벤트 센서의 수학적 모델을 사용하여 계산된다. 표현의 선택은 유리하게는 제2 신경망의 성능을 최적화하는 방식으로 수행된다. 제1 신경망은 바람직하게는 이러한 표현의 가능한 최상의 근사치를 생성하도록 훈련된다.

제1 신경망이 모든 표현을 직접 생성하도록 함으로써 시스템은 단일 학습 표현(single learned representation)에 대한 표준 이미지 처리 접근 방식을 사용하는 것과는 반대로 더 나은 재구성 성능을 달성할 수 있다. 제2 신경망에 대한 입력으로 복수의 표현을 가짐으로써, 제2 신경망은 단일 표현만 갖는 것보다 시선 매개변수를 추정하는 데 더 나은 성능을 달성할 수 있다.

본 발명은 생성된 추론 프레임을 기계 학습 모듈에 전달하기 전에 제1 인공 신경망을 거쳐 추론 프레임을 생성하는 개념에 기초한다. 따라서, 기계 학습 모듈에 입력할 이벤트 데이터로부터 추론 프레임을 생성하기 위해 일반적이고 잘 알려진 기술인 수작업 정적 축적 방식(hand-crafted,static accumulation regime)을 사용하는 것이 종래 기술로부터 알려져 있지만, 본 발명은 수작업 축적 방식을 사용하지 않고 추론 프레임의 생성을 신경망에 맡기는 시스템을 제안한다. 이 접근 방식을 사용하면 훨씬 더 나은 품질의 추론 프레임을 얻을 수 있으며, 이는 후속 기계 학습 모듈 또는 프로세스에서 더 나은 추정으로 이끈다. 또한, 본 발명에 따르면, 동공 위치는 종래의 프레임 기반 카메라에 의해 수집된 이미지 프레임에 액세스할 필요 없이 이벤트의 신호 스트림만을 기반으로 결정된다.

기계 학습 모듈이 입력 데이터를 처리할 수 있으려면 입력 데이터가 적절한 형태로 제공되어야 한다. 제1 인공 신경망은 이벤트 스트림을 기계 학습 모듈에서 처리할 수 있는 추론 프레임으로 변환하기 위해 존재한다. 바람직하게는, 추론 프레임은 이벤트 센서와 동일한 수의 픽셀을 갖는다. 그러나 추론 프레임은 종래의 카메라가 제공할 수 있는 종래의 눈의 이미지 프레임과 구별되어야만 한다. 추론 프레임은 어레이 형태로 배열된 복수의 프레임 픽셀을 포함하고, 사용되는 제1 인공 신경망의 파라미터 및 응답에 따라 달라지는 눈의 이미지의 근사치일 수 있지만, 반드시 그러한 근사치로 의도되는 것은 아니다. 특히, 제1 인공 신경망은 그것이 제공하는 출력이 모니터링되는 눈의 근사치가 되도록 구성될 필요는 없다. 오히려 유리하게는, 제1 인공 신경망은 후속 기계 학습 모듈의 성능을 향상시키거나 최대화하는 형태의 추론 프레임을 생성하도록 구성된다. 적합한 추론 프레임은 기계 학습 모듈이 처리하는 데 필요한 정보를 포함하는 모든 종류의 프레임일 수 있다. 이들은 예를 들어 선형 또는 비선형 스케일의 근사적 강도(approximate intensity), 상기 근사적 강도의 1차 공간 도함수(first order spatial derivative) 및/또는 상기 근사적 강도의 더 높은 차수의 공간 도함수를 포함할 수 있다.

유리한 실시예에 따르면, 컨트롤러는 이벤트 스트림의 일부를 희소 텐서(sparse tensor)로 변환하고 제1 인공 신경망에 대한 입력으로 이 희소 텐서를 사용한다. 텐서는 특히 이벤트 센서의 치수, 즉 W x H x 1을 가질 수 있으며, 여기서 W 및 H는 픽셀 단위의 센서의 너비 및 높이이다. 텐서는 센서가 해당 픽셀에서 이벤트를 보고한 좌표 x, y를 제외하고 모두 0을 포함한다. 이벤트가 포지티브이면 텐서는 좌표 x, y에서 1을 포함하고 네거티브 이벤트에 대해 -1을 포함한다. 여기서 포지티브와 네거티브는 이벤트로 기록되는 광 강도(light intensity) 변화의 극성을 나타낸다. 이벤트 센서가 극성뿐만 아니라 픽셀의 광 강도 변화의 크기도 알려주도록 구성된 경우 픽셀의 x, y 좌표에서의 텐서의 값은 이 부호있는 크기값(signed magnitude value)이다. 동일한 텐서에 대응하는 이벤트 배치(batch of events)의 동일한 픽셀에서 복수의 이벤트가 발생하는 경우 첫 번째 이벤트만 고려된다. 반면에 서로 다른 픽셀에서의 복수의 이벤트는 텐서에 개별로 포함된다.

컨트롤러는 이벤트 스트림을 하나, 둘 또는 그 이상의 이벤트, 특히 연속 이벤트의 부분으로 분할할 수 있다. 그러한 각각의 부분은 미리 결정된 수의 이벤트를 포함할 수 있다. 대안적으로, 그 부분은 미리 결정된 시간 간격을 나타낼 수 있고 그 시간 간격, 타임 슬롯 또는 시간 기간 내에서 발생하는 모든 이벤트를 포함할 수 있다. 희소 텐서를 사용한 구현에서, 상기 컨트롤러는 미리 결정된 수의 이벤트에 기초하여 또는 미리 결정된 시간 간격 또는 미리 결정된 시간 기간 내에 발생하는 이벤트에 기초하여 희소 텐서를 생성하도록 구성될 것이다.

유리하게는, 제1 인공 신경망은 순환 신경망, 즉 RNN이다. RNN은 특히 RNN의 마지막 출력이 어떤 방식으로, 예를 들어 마지막 레이어, 첫 번째 레이어 및/또는 어떤 중간 레이어에서 RNN으로 피드백되거나 RNN에 공급됨을 의미한다. 유리하게는, RNN의 출력은 RNN의 입력으로 피드백된다. 특히, RNN 알고리즘의 1회 실행 후의 RNN의 출력은 예를 들어 처리될 다른 텐서와 함께 RNN 알고리즘의 연속 실행 중 RNN에 대한 다중 입력 중 하나로 활용될 수 있다.

제1 인공 신경망은 복수의 레이어를 포함하며, 그 중 하나, 둘 또는 그 이상이 컨벌루션 레이어일 수 있다. 제1 인공 신경망이 RNN인 경우, 컨벌루션 순환 신경망(Concolutional Recurrent Neural Network)라고도 부를 수 있다. 제1 인공 신경망은 또한 신경망 알고리즘의 연속적인 실행을 위해 실행 후의 출력과 새로운 입력을 결합하거나 연접하기 위해 특히 제1 레이어로서 연접 레이어(concatenation layer)를 포함할 수 있다. 나아가, 제1 신경망은 하나, 둘 또는 그 이상의 비선형 활성화 함수, 특히 정류기 및/또는 정규화 레이어(normalization layer)를 포함할 수 있다.

바람직하게는, 제1 인공 신경망의 레이어 중 하나, 둘 또는 그 이상은 메모이즈 레이어(들)(memoized layer(s))이다. 메모이즈 레이어는 최신 패스(latest pass), 즉 신경망 알고리즘의 최신 실행 중에 그 레이어의 결과를 저장한다. 메모이즈 레이어는 매 패스 동안 메모이즈 레이어의 저장값만 업데이트되고 입력 희소 텐서에서 0이 아닌 텐서 요소에 의존하는 구현을 가능하게 한다. 이 기술은 신경망 추론 속도를 크게 가속화하며 현재 장치에서 연속적인 기계 학습 모듈에 대한 더 나은 품질의 추론 프레임으로 이끌 수 있다.

하나 또는 복수의 메모이즈 레이어를 활용하는 것 뒤에 있는 아이디어는 이전 레이어에서 아주 작은 변화만 있을 때 영향을 받는 신경망의 내부 값/상태만 업데이트하면 충분하다는 것이다. 이것은 신경망에서 상태를 업데이트할 때 처리 능력을 절감할 수 있다. 컨벌루션 레이어 외에도 비선형 활성화 함수 및/또는 정규화 레이어도 메모이즈될 수 있다. 유리하게는, 모든 컨벌루션 레이어 및/또는 모든 비선형 활성화 함수는 메모이즈된 종류일 수 있다. 이 경우 모든 레이어에서 입력 변경에 의해 직접적인 영향을 받는 값만 업데이트된다. 입력은 희소 텐서와 신경망의 마지막 결과 둘다가 될 수 있다. 따라서 희소 행렬 입력(sparse matrix input)의 직접적인 영향을 받는 값만 업데이트된다. 이러한 값은 모든 입력을 고려하여 재계산된다. 메모이제이션(momoization)은 임의 유형의 인공 신경망의 임의의 레이어에 적용될 수 있지만, 여기서는 특히 RNN일 수 있는 제1 신경망에 유리하게 적용된다.

바람직한 실시예에 따르면, 기계 학습 모듈은 제2 인공 신경망을 포함한다. 즉, 컨트롤러는 상기 추론 프레임을 제2 인공 신경망에 대한 입력으로 활용하고 제2 인공 신경망을 작동시켜 출력 데이터를 획득하도록 구성된다. 특히, 제2 인공 신경망은 컨벌루션 신경망과 같은 역전파 훈련 신경망(back-propagation trained neural network)일 수 있다. 대안적인 실시예에서, 제2 인공 신경망의 일부는 아래에서 더 설명되는 바와 같이 컨벌루션 신경망, 특히 그것의 공통 백엔드(common backend)일 수 있다.

유리하게는, 제2 인공 신경망은 특히 신경망을 훈련시키는 공지된 방법인 "adam" 또는 "SGD(stochastic gradient descent)" 옵티마이저를 사용하여 이미 훈련되어 있다. 훈련은 기록되고 손으로 주석이 달린 대량의 주석 데이터를 사용하여 수행되었을 수 있다. 일부 선택 레이어들은 장치 사용자에 의해 재훈련되거나 미세 조정될 수 있다. 이 경우 사용자는 예를 들어 보정(calibration) 목적으로 컴퓨터 화면에서 특정 위치를 보는 것과 같은 작업을 수행해야 할 수 있다. 그런 다음 장치는 센서에서 데이터를 수집하고 마지막 레이어(들), 특히 제2 인공 신경망의 마지막 훈련 가능한 레이어를 미세 조정하여 사용자의 개별 특성과 행동에 더 잘 맞도록 한다. 제1 및 제2 인공 신경망은 개별적으로 훈련되거나 하나의 시스템으로서 동시에 훈련될 수 있다. 제2 신경망은 공통 백엔드와 복수의 프런트엔드로 구성될 때 바람직하게는 서로 다른 프런트엔드에 적용된 서로 다른 손실을 갖는 하나의 신경망으로 훈련될 수 있다.

바람직하게는 컨벌루션 신경망은 공통 백엔드와 하나 이상의 프런트엔드를 포함한다. 공통 백엔드는 입력의 대량 분석을 수행하는 동안 출력을 생성한 다음 프런트엔드 또는 프런트엔드들에 의해 분석될 것이며, 이는 이 장치에 의해 생성될 특정 속성을 추정하도록 특별히 구성 및/또는 훈련된다. 이들 속성은 사용자의 시선 방향, 사용자 눈의 동공 중심 위치, 사용자 눈의 동공 윤곽, 사용자 눈의 동공 직경, 사용자 눈의 눈꺼풀 위치, 사용자 눈의 동공 모양, 사용자와 관련된 개인 식별 정보 및/또는 사용자 눈의 동공 움직임 예측을 포함할 수 있다.

이것들은 시선 추적 장치가 획득하여야 하는 관심대상인 중요한 속성일 수 있다. 결과적으로, 기계 학습 방법이 공통 백엔드 및 하나 이상의 프론트엔드를 갖는 컨벌루션 신경망을 포함하지 않더라도 컨트롤러는 유리하게는 출력 데이터 정보로부터 하나 또는 복수의 이러한 속성을 추출하도록 구성된다. 유리하게는 백엔드는 완전(fully) 컨벌루션 인코더-디코더 시스템이다. 언급된 개인 식별 정보는 장치가 여러 사용자에 의해 사용되는 경우 유용할 수 있으며, 이 경우 결정된 개인 식별 정보는 현재 사용자 중 누가 장치를 사용하고 있는지 식별하는 데 도움이 될 수 있다.

유리한 실시예에 따르면, 컨벌루션 신경망 또는 컨벌루션 신경망으로 구현되는 제2 신경망의 일부, 특히 공통 백엔드 파트는 적어도 부분적으로 인코더-디코더 방식을 갖고 구현되는데, 이는 하나 또는 다수의 인코더 블록(들) 및 하나 또는 다수의 디코더 블록(들)을 포함한다. 유리하게는, 공통 백엔드는 2개, 4개 또는 6개의 인코더 블록 및/또는 2개, 4개 또는 6개의 디코더 블록을 포함할 수 있다. 유리하게는, 컨벌루션 신경망 또는 그것의 공통 백엔드는 완전 (fully) 컨벌루션 인코더-디코더 시스템이다. 이러한 인코더-디코더 신경망은 피쳐 학습(feature learning) 또는 표현 학습(representation learning)의 구현을 가능하게 한다. 각각의 인코더 블록(들) 및/또는 디코더 블록(들)은 특히 적어도 2개의 컨벌루션 레이어를 포함할 수 있다. 컨벌루션 신경망은 상기 인코더 블록(들)과 상기 디코더 블록(들) 사이의 아이덴티티 스킵 커넥션(identity skip connections)을 더 포함할 수 있다. 잔차 연결(residual connection)이라고도 하는 이러한 스킵 커넥션 또는 숏컷(shortcuts)은 기울기 소실(vanishing gradient) 문제를 해결하는 데 도움이 되는 디퍼 신경망(deeper neural networks)의 훈련을 허용하기 위해 신경망의 하나 또는 복수의 레이어를 스킵하는 데 활용된다. 유리하게는, 스킵 커넥션은 제1 인코더를 마지막 디코더와 연결하고 및/또는 제2 인코더를 인코더-디코더 시스템 등의 제2 내지 마지막 디코더에 연결한다.

시선 추적 장치의 이벤트 센서에는 (IR) 방사, 특히 대역 통과 필터와 같은 특정 파장 범위의 방사선(radiation)만 감지하기 위해 광학 필터가 제공될 수 있다. 눈에서 반사되는 방사선이 주변광(ambient light)일 가능성이 있지만 이러한 접근 방식은 낮은 방사선 수준이나 광 교란으로 인해 기생 신호(parasitic signals)를 생성할 수 있다는 단점이 있다. 따라서, 유리하게는 방사선이 사용자의 눈에서 반사되어 이벤트 센서에 의해 수신되도록 사용자의 눈에 방사선을 보내도록 구성되는 방사선 소스(raidation source)가 제공된다. 방사선 소스가 사용자를 방해하지 않으려면 그것이 생성하는 방사선은 가시 범위(visible regime) 밖에 충분히 멀리 있어야 한다. 바람직하게는, 방사선 소스는 적외선(IR) 방출기이다.

유리하게는, 시선 추적 장치는 시선 추적 장치를 상기 사용자의 신체, 특히 그 또는 그녀의 머리에 장착하기 위한 신체 장착형 장치, 특히 머리 장착형 장치를 포함한다. 이러한 장치의 응용 분야에는 포비티드 렌더링(foveated rendering) 구현을 지원할 수 있는 가상 현실 또는 증강 현실이 포함될 수 있다.

본 발명의 또 다른 양태에 따르면, 시선 추적 방법 및 컴퓨터 판독가능 매체가 제공된다. 시선 추적 장치와 관련하여 전술한 임의의 특징은 또한 시선 추적 방법 또는 컴퓨터 판독가능 매체에서 단독으로 또는 적절한 조합으로 사용될 수 있다.

본 발명의 실시예의 일부 예시들은 첨부된 개략도를 참조하여 다음의 설명에서 보다 상세하게 설명될 것이다.

도 1은 종래 기술에 따른 시선 추적 장치의 설정에 대한 개략도를 도시한다.
도 2는 바람직한 일 실시예에 따른 시선 추적 장치의 설정에 대한 개략도를 도시한다.
도 3a 및 3b는 각각 하나(도 3a) 및 2개의(도 3b) 이벤트를 기반으로 하는 희소 텐서의 준비를 도시한다.
도 4는 바람직한 실시예에 따른 시선 추적 장치의 서로 다른 처리 단계를 나타내는 신호 흐름도를 도시한다.
도 5는 바람직한 실시예에 따른 제1 인공 신경망의 레이어 구조를 나타낸다.
도 6은 도 5에 개시된 신경망의 컨벌루션 레이어에서 희소 업데이트 방식을 명확히 하기 위한 개략도를 도시한다.
도 7은 바람직한 실시예에 따른 제2 인공 신경망의 기본 구조를 나타낸다.
도 8은 도 7에 도시된 제2 인공 신경망의 백엔드 섹션의 레이어 구조를 나타낸다.
도 9는 도 7에 도시된 제2 인공 신경망의 프론트엔드 섹션의 레이어 구조를 나타낸다.
도 10은 도 7에 도시된 제2 인공 신경망의 추가 프론트엔드 섹션의 레이어 구조를 나타낸다.

도 1은 종래 기술에 따른 시선 추적 장치의 구성을 개략도로 도시한 것이다. 방사선 소스(10)는 추적될 사용자의 눈(2)에서 반사되는 방사선(radiation)(12)을 내보낸다. 반사된 방사선(12)은 종래의, 즉 프레임 기반 카메라(1')에 입사된다. 프레임 기반 카메라(1')는 입사 방사선(12)을 검출하고 비디오 또는 이미지 프레임의 시퀀스(11)를 생성하며, 이는 종래의 컨트롤러(4')로 전송된다. 컨트롤러(4')는 비디오 또는 이미지 프레임을 분석하고 모니터링되는 눈(2)의 다양한 파라미터, 특히 시선 방향을 결정할 수 있다.

본 발명의 바람직한 실시예에 따른 시선 추적 장치의 설정에 대한 개략도가 도 2에 도시되어 있다. 도 1에 도시된 종래 기술의 경우와 유사하게, 방사선 소스(10)는 사용자의 눈(2)에서 반사된 방사선(12)을 내보낸다. 반사된 방사선(12)은 이벤트 기반 센서 또는 이벤트 센서(1)에 입사된다. 방사선 소스(10), 이벤트 센서(1) 및 방사선을 집속하기 위한 광학 렌즈(미도시)는 안경, 가상 현실(VR) 또는 증강 현실(AR) 장치와 같은 머리 장착형 장치(미도시)에 장착된다. 이벤트 센서(1)에는 적외선 대역 통과 필터(infrared band-pass filter)가 장착되어 있다. 안구 움직임은 사용자의 눈(2)에서 반사된 방사선(12)의 광 강도(light intensity)의 변화를 일으킨다. 이러한 광 강도 변경 또는 변화는 이벤트 센서(1)에 의해 포착된다. 이에 응답하여 이벤트 센서(1)는 프로세싱을 위해 컨트롤러(4)로 전송되는 광 변화 이벤트(light change events)의 스트림(3)을 생성한다. 이러한 프로세싱은 다음에서 설명하는 바와 같이 순환 신경망(RNN)에 대한 적절한 입력을 얻기 위한 이벤트 스트림(3)의 전처리, 추론 프레임(inference frame)을 획득하기 위해 전처리된 데이터에 RNN을 수행하고 원하는 속성을 추정하기 위한 컨벌루션 신경망(convolutional neural network)(CNN)을 수행하는 것을 포함한다.

이벤트는 (p,x,y,t)로 정의되는 4-튜플(tuple)이며, 여기서 p는 광 변화의 극성(포지티브는 광 강도 증가, 네거티브는 광 강도 감소를 의미) 또는 광 강도 변화의 선형, 대수(logarithmic) 또는 기타 스케일링의 부호를 가진 변화의 크기 중 하나이다. x 및 y는 이벤트의 픽셀 좌표이고 t는 관찰된 이벤트의 정확한 타임스탬프이다. 이러한 이벤트는 도 3a 및 3b에 도시된다. 도 3a 및 3b는 이벤트 수신시 컨트롤러(4)에 의해 수행되는 전처리 단계를 시각화한다. 화살표 왼쪽에 표시된 하나 또는 복수의 이벤트가 누적되어 화살표 오른쪽에 표시된 희소 텐서(sparse tensor) 또는 희소 행렬(sparse matrix)로 변환된다.

도 3a는 단일 이벤트가 각각 희소 텐서로 변환되는 것을 보여준다. 희소 텐서는 값 p를 포함하는 해당 이벤트의 (x, y) 좌표에 해당하는 (x, y) 위치를 제외하고 0으로 채워진다. 대조적으로, 도 3b는 쌍으로 희소 텐서로 변환되는 이벤트들을 보여준다.

하나의 희소 텐서에 더 많은 이벤트가 조합될 수 있다. 나아가 각 희소 텐서를 미리 결정된 수의 이벤트에 기반하는 것에 대한 대안으로 미리 결정된 시간 간격(time interval) 또는 시간 기간(time duration) 내에 속하는 이벤트들을 기반으로 할 수 있다.

시선 추적 장치의 서로 상이한 프로세싱 단계와 이러한 단계 사이에서 전송되는 데이터 유형이 도 4에 도시된다. 이벤트 센서(1)는 이벤트(31)의 스트림(3)을 생성한다. 이들 이벤트(31)는 컨트롤러(4)로 전송되고, 도 3a/3b를 참조하여 전술한 바와 같이 희소 텐서(51)를 획득하기 위해 전처리 모듈(41)에 의해 처리된다. 텐서(51)는 추론 프레임(61)을 생성하기 위해 여기서는 순환 신경망(RNN)(5)인 제1 신경망에 대한 입력으로 사용된다. 마지막으로, 추론 프레임(61)은 컨벌루션 신경망(CNN)(6)에 공급되며, 이는 동공 매개변수(pupil parameters), 특히 시선 방향의 추정(estimation)을 수행한다.

도 5는 RNN 기반 알고리즘의 가능한 설정을 개략적으로 보여준다. RNN 알고리즘은 데이터의 이용가능성에 따라 트리거된다. 따라서 새로운 희소 텐서가 생성될 때마다 RNN 알고리즘이 호출되어(invoked) 새로운 추론 프레임을 생성한다. 첫 번째 단계로 DVS 이벤트 스트림에서 획득된 희소 텐서가 RNN에 입력된다(501). RNN은 잠재적으로 기타 중간 활성화 맵(other intermediate activation maps) 뿐만 아니라 생성된 마지막 추론 프레임의 내부 상태를 갖고 있다. RNN 망은 마지막 상태와 희소 입력 텐서를 기반으로 새로운 상태를 추정한다. 고성능을 달성하기 위해 입력 텐서의 희소 특성이 활용되어 입력 텐서 또는 입력 행렬의 변경에 영향을 받는 디퍼 레이어(deeper layers)의 값만 업데이트한다. 도 6은 이 희소 업데이트 방식을 도시하며, 이에 대해서는 아래에서 자세히 설명된다.

연접 레이어(concatenation layer)(502)는 RNN의 이전 프로세싱 중에 생성된 희소 입력 텐서 및 추론 프레임을 채널 차원에서 연결(join)하거나 연접(concatenate)한다. 그런 다음 제1 컨벌루션 레이어(503)가 이 연접에 대해 컨벌루션(convolution)을 수행한다. 그런 다음 제2 컨벌루션 레이어(505)가 제1 컨벌루션 레이어(503)의 출력에 작용한다. 그런 다음 제1 컨벌루션 레이어(503)의 출력이 정규화된다(배치 정규화(batch normalization))(507). RNN은 2개의 비선형 활성화 함수(504, 506)를 더 포함한다. 이러한 레이어 구조를 통해, 연접 레이어(502)에 대한 입력 중 하나로 사용되는 추론 프레임이 생성된다(508).

RNN의 각 레이어(503, 504, 505, 506, 507)는 메모이즈된다. "메모이즈(memoized)" 레이어는 최신 패스(latest pass)의 결과를 저장한다. 본 실시예에서, 모든 패스에서, 희소 입력 텐서에서 0이 아닌 텐서 요소에 의존하는 RNN의 값만이 업데이트된다. 이 기술을 사용하면 RNN 추론 속도를 크게 가속화하고 연이은 CNN 추정기(estimator)에 대해 더 나은 품질의 추론 프레임을 활용할 수 있다. 도 6은 3x3 컨벌루션 커널(convolutional kernel)을 사용한 이 접근 방식을 보여준다. 이전 추론 프레임(61)과 희소 입력 텐서(51) 또는 쇼트 희소 텐서(short sparse tensor)(51)는 왼쪽에 도시된 바와 같이 연접된다(concatenated). 오른쪽에는 입력 텐서(51)의 희소 특성으로 인해 컨벌루션 레이어에서 활성화(activations)의 하위 집합(602)만 업데이트되는 것이 도시된다.

도 7은 RNN으로부터 추론 프레임(701)을 수신하는 CNN 아키텍처의 개념적 아웃트라인을 보여준다. CNN은 추상 피쳐 벡터(abstract feature vector)(703) 또는 추상 피쳐 맵(abstract feature map)을 생성하는 공통 백엔드(702)를 갖는다. 이 피쳐 벡터는 공통 백엔드(702) 다음의 다양한 프론트엔드 모듈(704)에 대한 입력으로 사용된다. 도 7에 도시된 예시적인 프론트엔드는 결과적으로 동공 위치(704c)를 출력하는 동공 위치 추정 모듈(704a) 및 눈이 오픈되어 있는지 클로즈되어 있는지에 대한 정보를 출력(704d)하는 깜박임 분류 모듈(704b)을 포함한다. 프런트엔드(703)의 기타 모듈(704e)은 결정될 다른 속성에 전용으로 제공될 수 있다.

도 8은 백엔드의 잠재적 구현을 더 자세히 보여주지만, 도 7에 도시된 두 프런트엔드의 잠재적 구현은 도 9와 10에 더 자세히 제시된다.

좌측의 도 8에 도시된 공통 백엔드는 인코더-디코더 방식에 기초하고 2개의 인코더 블록(802, 803) 및 인코더 블록들 다음의 2개의 디코더 블록(804, 805)을 포함한다. 백엔드의 끝에는 프런트엔드(들)에 의해 추가로 처리될 추상 피쳐 맵(808)의 결과를 생성하는 결합 레이어(806)가 있다. 제2 인코더 블록(803)에서 결합 레이어(806)로 이어지는 화살표에서 알 수 있는 바와 같이, 추상 피쳐 맵(808)은 제2 인코더 블록(803) 및 제2/마지막 디코더 블록(805)의 출력으로부터의 정보를 포함한다. 또한 왼쪽에 있는 두 개의 화살표로 볼 수 있듯이 인코더와 디코더 단계 사이에 두 개의 아이덴티티 스킵 커넥션(identity skip connections)이 있다. 이들 스킵 커넥션은 제1 인코더 블록(802)에서 제2 디코더 블록(805)으로 그리고 제2 인코더 블록(803)에서 제1 디코더 블록(804)으로 이어진다.

도 8의 오른쪽에는 인코더 블록(802)과 디코더 블록(804)이 모두 더 자세히 도시된다. 2개의 인코더 블록(802, 803) 모두는 특히 동일하거나 매우 유사한 아키텍처를 가질 수 있다. 이것은 또한 2개의 디코더 블록(804, 805)에 적용될 수 있다. 인코더 블록(802)은 2개의 컨벌루션 레이어(convolutional layers)(811, 814), 2개의 비선형 활성화 함수(812, 815), 배치 정규화(batch normalization)(813, 816) 및 맥스 풀링(max-pooling)(817)을 포함한다. 디코더 블록(804)은 업샘플링 레이어(821), 연접 레이어(822), 2개의 컨벌루션 레이어(823, 826), 2개의 비선형 활성화 함수(824, 827) 및 배치 정규화(825, 828)를 포함한다. 위에서 더 언급한 것처럼 공통 백엔드는 여기에 나타낸 시스템과 다른 개수의 인코더 및/또는 디코더 블록을 포함할 수 있지만 동일한 아키텍처 인코더 및/또는 디코더 블록들을 갖는다. 예를 들어, 2개, 4개 또는 6개의 인코더 블록 및/또는 2개, 4개 또는 6개의 디코더 블록이 제공될 수 있다.

도 7에 나타낸 2개의 예시적인 프런트엔드는 도 9 및 10에 보다 상세히 도시된다. 도 9의 프런트엔드는 동공 로컬라이제이션 또는 동공 위치 추정을 위한 것이다. 이는 백엔드로부터 피쳐 벡터(901)를 수신하고 피쳐 선택 마스크(feature selection mask)(902)를 적용한다. 그 후 컨벌루션 레이어(903), 비선형 활성화 함수(904) 및 배치 정규화(905)를 따른다. 배치 정규화(905) 이후의 결과는 동공 위치(907)를 추정하기 위해 공간 소프트맥스 레이어(spatial softmax layer)(906)로 그리고, 동공 직경(909)을 추정하기 위해 풀리 커넥티드 레이어(fully connected layer)(908)로 전송된다. 도 10의 프론트엔드는 깜박임(blink) 검출을 위한 것이다. 이것은 백엔드로부터 피쳐 벡터(911)를 수신하고 다른 피쳐 선택 마스크(912)를 적용한다. 이 프런트엔드는 제1 풀리 커넥티드 레이어(913), 비선형 활성화 레이어(914), 제2 풀리 커넥티드 레이어(915) 및 소프트맥스 활성화 함수(916)를 포함하여 눈이 오픈되어 있는지 클로즈되어 있는지에 대한 정보(917)를 제공한다.

백엔드와 프런트엔드를 갖는 전체 CNN은 서로 다른 프런트엔드에 적용된 서로 다른 손실을 가진 하나의 신경망으로 훈련된다. 먼저 하나의 프런트엔드만 연결된 상태에서 CNN을 훈련시킨 다음 하나 이상의 레이어를 고정한 다음 하나 이상의 프런트엔드, 가능하게는 모든 프런트엔드가 연결된 상태로 CNN을 훈련하는 것과 같은 다른 훈련 방식도 가능하다. 서로 다른 프런트엔드 간의 훈련이 번갈아 이루어지는 방식도 가능하다. 추론 프레임 생성을 위한 RNN 망과는 달리 CNN은 훨씬 더 복잡하고 결과를 생성하기 위해 더 많은 처리 능력을 요구한다. 이것이 CNN이 데이터의 가용성에 의해 트리거되는 것이 아니라 새로운 예측을 위한 어플리케이션 필요(applications need)에 의해 트리거되는 이유이다.

1' 프레임 기반 카메라, 종래 카메라 11 비디오 프레임의 시퀀스
10 방사선 소스, IR 방출기
1 이벤트 기반 광학 센서, 이벤트 센서, DVS 센서
12 눈에 입사 또는 눈에서 반사되는 방사선
2 사용자의 눈 3 이벤트의 신호 스트림
31 이벤트 4' 종래 컨트롤러
4 컨트롤러 41 입력 프로세싱 모듈
5 제1 인공 신경망, 순환 신경망, RNN
51 희소 텐서
6 기계 학습 모듈, 제2 인공 신경망, 컨벌루션 신경망, CNN
61 추론 프레임

Claims

- 사용자의 눈(2)에서 반사된 방사선(12)을 수신하고 이벤트(31)의 신호 스트림(3)을 생성하도록 구성되는 이벤트 기반 광학 센서(1)로서, 각 이벤트(31)는 상기 광학 센서(1)의 하나 이상의 픽셀에서 수신된 방사선의 시간적 변화의 검출에 대응하는, 이벤트 기반 광학 센서(1), 및
- 상기 광학 센서(1)에 연결되고,
a) 상기 광학 센서(1)로부터 이벤트(31)의 신호 스트림(3)을 수신하고,
b) 이벤트(31)의 상기 스트림(3)의 적어도 일부를 기초로 추론 프레임(61)을 생성하고,
c) 상기 추론 프레임(61)을 기계 학습 모듈(6)에 대한 입력으로 활용하고 출력 데이터를 획득하기 위해 상기 기계 학습 모듈(6)을 작동하고, 및
e) 상기 사용자의 상기 눈(2)에 관련된 정보를 상기 출력 데이터로부터 추출하도록 구성되는 컨트롤러(4)를 포함하며,
상기 컨트롤러(4)는 제1 인공 신경망(5)을 활용하여 상기 추론 프레임(61)을 생성하도록 구성되는 것을 특징으로 하는 시선 추적 장치.
제1항에 있어서, 상기 컨트롤러(4)는 이벤트(31)의 상기 스트림(3)의 상기 일부를 희소 텐서(51)로 변환하고 상기 희소 텐서(51)를 상기 제1 인공 신경망(5)에 대한 입력으로서 사용하도록 구성되는 것을 특징으로 하는 시선 추적 장치.
제2항에 있어서, 상기 컨트롤러(4)는 미리 결정된 수의 이벤트(31)에 기초하거나 미리 결정된 시간 간격 또는 기간 내에 발생하는 이벤트(31)에 기초하여 희소 텐서(51)를 생성하도록 구성되는 것을 특징으로 하는 시선 추적 장치.
선행항 중 어느 한 항에 있어서, 상기 컨트롤러는 상기 제1 인공 신경망(5)이 순환 신경망이 되도록 구성되는 것을 특징으로 하는 시선 추적 장치.
선행항 중 어느 한 항에 있어서, 상기 컨트롤러는 상기 제1 인공 신경망(5)이 적어도 하나의 메모이즈된 레이어를 갖도록 구성되는 것을 특징으로 하는 시선 추적 장치.
선행항 중 어느 한 항에 있어서, 상기 컨트롤러는 상기 출력 데이터 정보로부터 상기 사용자의 응시 방향, 상기 사용자 눈의 동공 중심 위치, 상기 사용자 눈의 동공 윤곽, 상기 사용자 눈의 동공 직경, 상기 사용자 눈의 눈꺼풀 위치, 상기 사용자 눈의 동공 형상, 상기 사용자에 관한 개인 식별 정보 및/또는 상기 사용자 눈의 동공 움직임 예측을 추출하도록 구성되는 것을 특징으로 하는 시선 추적 장치.
선행항 중 어느 한 항에 있어서, 상기 컨트롤러는 상기 추론 프레임(61)을 제2 인공 신경망(6)에 대한 입력으로서 활용하고 상기 제2 인공 신경망(6)을 작동하여 상기 출력 데이터를 획득하도록 구성되는 것을 특징으로 하는 시선 추적 장치.
제7항에 있어서, 상기 컨트롤러는 상기 제2 인공 신경망(6)이 공통 백엔드 및 하나 이상의 프론트엔드를 포함하도록 구성되는 것을 특징으로 하는 시선 추적 장치.
제7항 또는 제8항에 있어서, 상기 제2 인공 신경망(6)은 컨벌루션 신경망인 것을 특징으로 하는 시선 추적 장치.
제9항에 있어서, 상기 컨트롤러는 상기 컨벌루션 신경망이 하나 또는 복수의 인코더 블록(들) 및 하나 또는 복수의 디코더 블록(들)을 포함하는 인코더-디코더 방식으로 적어도 부분적으로 구현되는 것을 특징으로 하는 시선 추적 장치.
제10항에 있어서, 상기 컨트롤러는 상기 컨벌루션 신경망이 상기 인코더 블록(들)과 상기 디코더 블록(들) 사이의 아이덴티티 스킵 컨넥션을 포함하도록 구성되는 것을 특징으로 하는 시선 추적 장치.
제10항 또는 제11항에 있어서, 상기 컨트롤러는 상기 인코더 블록(들) 및/또는 상기 디코더 블록(들) 각각이 적어도 2개의 컨벌루션 레이어를 포함하도록 구성되는 것을 특징으로 하는 시선 추적 장치.
선행항 중 어느 한 항에 있어서, 방사선(12)을 사용자의 눈(2)에 보내고 사용자의 눈(2)에서 반사되어 상기 이벤트 기반 광학 센서(1)에 의해 수신되도록 구성되는 방사선 소스를 특징으로 하는 시선 추적 장치.
- 사용자의 눈(2)에서 반사되어 이벤트 기반 광학 센서(1)에 의해 수신되는 방사선(12)으로 인해 상기 이벤트 기반 광학 센서(1)에 의해 생성된 이벤트(31)의 신호 스트림(3)을 수신하는 단계로서, 각 이벤트(31)는 상기 광학 센서(1)의 하나 이상의 픽셀에서 수신된 방사선의 시간적 변화의 검출에 대응하는, 단계,
- 이벤트(31)의 상기 스트림(3)의 적어도 일부에 기초하여 추론 프레임(61)을 생성하는 단계,
- 기계 학습 모듈(6)에 대한 입력으로서 상기 추론 프레임(61)을 활용하고 출력 데이터를 얻기 위해 상기 기계 학습 모듈(6)을 작동시키는 단계, 및
- 상기 출력 데이터로부터 상기 사용자의 상기 눈(2)에 관련된 정보를 추출하는 단계를 포함하며,
상기 추론 프레임(61)을 생성하기 위해 제1 인공 신경망(5)을 이용하는 것을 특징으로 하는 시선 추적 방법.
컴퓨터 또는 마이크로컨트롤러에 의해 실행될 때 상기 컴퓨터 또는 마이크로컨트롤러가 다음 단계를 수행하도록 하는 명령을 포함하는 컴퓨터 판독가능 매체로서:
- 사용자의 눈(2)에서 반사되어 이벤트 기반 광학 센서(1)에 의해 수신되는 방사선(12)으로 인해 상기 이벤트 기반 광학 센서(1)에 의해 생성된 이벤트(31)의 신호 스트림(3)을 수신하는 단계로서, 각 이벤트(31)는 상기 광학 센서(1)의 하나 이상의 픽셀에서 수신된 방사선의 시간적 변화의 검출에 대응하는, 단계,
- 이벤트(31)의 상기 스트림(3)의 적어도 일부에 기초하여 추론 프레임(61)을 생성하는 단계,
- 기계 학습 모듈(6)에 대한 입력으로서 상기 추론 프레임(61)을 활용하고 출력 데이터를 얻기 위해 상기 기계 학습 모듈(6)을 작동시키는 단계, 및
- 상기 출력 데이터로부터 상기 사용자의 상기 눈(2)에 관련된 정보를 추출하는 단계를 포함하며,
상기 추론 프레임(61)을 생성하기 위해 제1 인공 신경망(5)을 이용하는 것을 특징으로 하는 컴퓨터 판독가능 매체.