KR102450441B1

KR102450441B1 - 홍채 식별을 위한 딥 뉴럴 네트워크

Info

Publication number: KR102450441B1
Application number: KR1020197004054A
Authority: KR
Inventors: 알렉세이 스피제보이; 아드리안 케흘러; 개리 브래드스키
Original assignee: 매직 립, 인코포레이티드
Priority date: 2016-07-14
Filing date: 2017-04-26
Publication date: 2022-09-30
Also published as: KR20190028749A; EP3485425B1; JP2019525325A; EP3485425A1; KR102648770B1; US11568035B2; JP2022044603A; US20180018451A1; KR20220136510A; US20210110020A1; WO2018013200A1; US10922393B2; JP7237137B2; EP3485425A4; JP7001672B2

Abstract

홍채 인증을 위한 시스템들 및 방법들이 개시된다. 일 양상에서, 트리플릿 네트워크 아키텍처를 가진 딥 뉴럴 네트워크(DNN: deep neural network)는 고차원 눈 이미지 공간으로부터 저차원 임베딩 공간으로 맵핑하는 임베딩(예컨대, 다른 DNN)을 학습하기 위하여 트레이닝될 수 있다. DNN은 세그먼트화된 홍채 이미지들로 또는 (눈 및 눈 주위의 부분들, 이를테면 눈꺼풀, 눈썹, 속눈썹 및 눈 주변의 피부를 포함하는) 눈의 안구주위 구역의 이미지들로 트레이닝될 수 있다. 트리플릿 네트워크 아키텍처를 사용하면, 사람의 눈 이미지의 임베딩 공간 표현(ESR: embedding space representation)은 다른 사람의 눈 이미지의 ESR에 근접한 것 보다 그 사람의 다른 눈 이미지들의 ESR들에 더 근접할 수 있다. 다른 양상에서, 사용자를 인가된 사용자로서 인증하기 위하여, 사용자의 눈 이미지의 ESR은 인가된 사용자의 눈 이미지의 ESR에 충분히 근접할 수 있다.

Description

홍채 식별을 위한 딥 뉴럴 네트워크

[0001] 본 출원은, 2016년 7월 14일에 출원되고 발명의 명칭이 "DEEP NEURAL NETWORK FOR IRIS IDENTIFICATION"인 러시아 특허 출원 번호 제2016128792호를 우선권으로 주장하며, 그리하여, 이 출원의 내용들은 그 전체가 인용에 의해 본원에 포함된다.

[0002] 본 개시내용은 일반적으로 홍채 식별을 위한 시스템들 및 방법들에 관한 것으로, 보다 구체적으로는, 홍채 식별을 위해 딥 뉴럴 네트워크(deep neural network)를 이용하는 것에 관한 것이다.

[0003] 개인 생체인식 식별의 분야에서, 가장 효과적인 알려진 방법들 중 하나는 인간의 눈, 대부분 홍채 또는 망막의 자연 발생 패턴들을 이용하는 것이다. 홍채 및 망막 둘 모두에서, 홍채의 경우에 스트로마의 섬유들로부터 또는 망막의 경우에 혈관들의 패턴들로부터 컬러의 패턴들이 개인 생체인식 식별을 위해 사용된다. 어느 경우든, 이 패턴들은 이 조직의 형태 형성 시에 랜덤 이벤트들에 의해 후성유전적으로(epigenetically) 생성되며, 이는, 이 패턴들이 유전적으로 동일한 (일란성) 쌍둥이들에 대해서도 구별될 것임을 의미한다

[0004] 종래의 홍채 코드는 인간들에 의해 설계된 특징들에 기초하여 홍채의 이미지로부터 추출된 비트 스트링이다. 홍채 코드를 추출하기 위해, 눈 이미지가 세그먼트화되어 공막 및 동공으로부터 홍채를 분리하고, 세그먼트화된 이미지가 의사-극 좌표들에 맵핑되고, 복소-값 2-차원 웨이브렛들(예컨대, Gabor 또는 Haar)을 사용하여 위상 정보가 추출된다. 통상적인 홍채 코드는 웨이브렛 컨벌루션들(wavelet convolutions)의 부호들에 기반한 비트 스트링이며 2048 비트를 갖는다. 홍채 코드에는 분석된 구역이 눈꺼풀, 속눈썹, 정반사들에 의해 폐색되었는지 또는 노이즈에 의해 손상되었는지 여부를 나타내는 동일한 비트 수를 갖는 마스크가 동반될 수 있다. 이러한 홍채 코드의 사용은 다수의 일반적인 홍채-기반 생체인식 태스크들, 이를테면, 여권 데이터로부터 승객들의 식별에 대한 표준이다.

[0005] 일 양상에서, 웨어러블 디스플레이 시스템이 개시된다. 웨어러블 디스플레이 시스템은, 디스플레이; 사용자의 눈의 제1 이미지를 캡처하도록 구성된 이미지 캡처 디바이스; 눈의 제1 이미지를 프로세싱하기 위한 딥 뉴럴 네트워크, 눈의 프로세싱된 제1 이미지를 프로세싱하기 위한 분류기, 및 실행 가능한 명령들을 저장하도록 구성된 비-일시적 메모리; 및 디스플레이, 이미지 캡처 디바이스 및 비-일시적 메모리와 통신하는 하드웨어 프로세서를 포함하며, 하드웨어 프로세서는, 눈의 제1 이미지를 수신하고; 임베딩 공간 표현을 생성하기 위하여 딥 뉴럴 네트워크를 사용하여 눈의 제1 이미지를 프로세싱하고; 그리고 눈의 제1 이미지가 인가된 사용자의 눈의 이미지일 가능성 스코어(likelihood score)를 계산하기 위하여 분류기를 사용하여 임베딩 공간 표현을 프로세싱하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0006] 다른 양상에서, 머리 장착 디스플레이 시스템이 개시된다. 머리 장착 디스플레이 시스템은, 디스플레이; 사용자의 눈의 제1 이미지를 캡처하도록 구성된 이미지 캡처 디바이스; 눈의 제1 이미지를 프로세싱하기 위한 딥 뉴럴 네트워크, 눈의 프로세싱된 제1 이미지를 프로세싱하기 위한 분류기, 및 실행 가능한 명령들을 저장하도록 구성된 비-일시적 메모리; 및 디스플레이, 이미지 캡처 디바이스 및 비-일시적 메모리와 통신하는 하드웨어 프로세서를 포함하며, 하드웨어 프로세서는, 눈의 제1 이미지를 수신하고; 극 좌표들로 눈의 제1 이미지의 표현을 생성하기 위하여 눈의 제1 이미지를 프로세싱하고; 임베딩 공간 표현을 생성하기 위하여 딥 뉴럴 네트워크를 사용하여 극 좌표들의 눈의 제1 이미지의 표현을 프로세싱하고; 그리고 눈의 이미지가 인가된 사용자의 눈의 이미지일 가능성 스코어를 생성하기 위하여 분류기를 사용하여 임베딩 공간 표현을 프로세싱하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0007] 또 다른 양상에서, 웨어러블 디스플레이 시스템이 개시된다. 웨어러블 디스플레이 시스템은, 디스플레이; 사용자의 제1 눈의 제1 이미지 및 사용자의 제2 눈의 제2 이미지를 캡처하도록 구성된 이미지 캡처 디바이스; 제1 눈의 제1 이미지 및 제2 눈의 제2 이미지를 프로세싱하기 위한 딥 뉴럴 네트워크, 제1 눈의 프로세싱된 제1 이미지 및 제2 눈의 프로세싱된 제2 이미지를 프로세싱하기 위한 분류기, 및 실행 가능한 명령들을 저장하도록 구성된 비-일시적 메모리; 및 디스플레이, 이미지 캡처 디바이스 및 비-일시적 메모리와 통신하는 하드웨어 프로세서를 포함하며, 하드웨어 프로세서는, 제1 눈의 제1 이미지 및 제2 눈의 제2 이미지를 수신하고; 제1 눈의 제1 임베딩 공간 표현 및 제2 눈의 제2 임베딩 공간 표현을 생성하기 위하여 딥 뉴럴 네트워크를 사용하여 제1 눈의 제1 이미지 및 제2 눈의 제2 이미지를 프로세싱하고; 그리고 제1 눈의 제1 이미지가 인가된 사용자의 왼쪽 눈의 이미지이고 제2 눈의 제2 이미지가 인가된 사용자의 오른쪽 눈의 이미지일 가능성 스코어를 생성하기 위하여 분류기를 사용하여 제1 임베딩 공간 표현 및 제2 임베딩 공간 표현을 프로세싱하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0008] 추가의 양상에서, 웨어러블 디스플레이 시스템이 개시된다. 웨어러블 디스플레이 시스템은, 디스플레이; 눈의 제1 이미지를 캡처하도록 구성된 이미지 캡처 디바이스; 적어도 하나의 다른 생체인식 정보를 캡처하도록 구성된 생체인식 정보 캡처 디바이스; 눈의 제1 이미지를 프로세싱하기 위한 딥 뉴럴 네트워크, 눈의 프로세싱된 제1 이미지를 프로세싱하기 위한 분류기, 및 실행 가능한 명령들을 저장하도록 구성된 비-일시적 메모리; 및 디스플레이, 생체인식 정보 캡처 디바이스, 이미지 캡처 디바이스 및 비-일시적 메모리와 통신하는 하드웨어 프로세서를 포함하며, 하드웨어 프로세서는, 눈의 제1 이미지 및 적어도 하나의 다른 생체인식 정보를 수신하고; 임베딩 공간 표현을 생성하기 위하여 딥 뉴럴 네트워크를 사용하여 눈의 이미지 및 적어도 하나의 다른 생체인식 정보를 프로세싱하고; 그리고 눈의 이미지가 인가된 사용자의 눈의 이미지이고 적어도 하나의 다른 생체인식 정보가 인가된 사용자의 생체인식 정보일 가능성 스코어를 생성하기 위하여 분류기를 사용하여 임베딩 공간 표현을 프로세싱하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0009] 다른 양상에서, 웨어러블 디스플레이 시스템이 개시된다. 웨어러블 디스플레이 시스템은, 디스플레이; 눈의 제1 이미지를 캡처하도록 구성된 이미지 캡처 디바이스; 적어도 하나의 다른 생체인식 정보를 캡처하도록 구성된 생체인식 정보 캡처 디바이스; 눈의 제1 이미지를 프로세싱하기 위한 제1 딥 뉴럴 네트워크, 눈의 프로세싱된 제1 이미지를 프로세싱하기 위한 분류기, 및 실행 가능한 명령들을 저장하도록 구성된 비-일시적 메모리; 및 디스플레이, 생체인식 정보 캡처 디바이스, 이미지 캡처 디바이스 및 비-일시적 메모리와 통신하는 하드웨어 프로세서를 포함하며, 하드웨어 프로세서는, 눈의 제1 이미지를 수신하고; 제1 임베딩 공간 표현을 생성하기 위하여 제1 딥 뉴럴 네트워크를 사용하여 눈의 제1 이미지를 프로세싱하고; 적어도 하나의 다른 생체인식 정보를 수신하고; 그리고 눈의 이미지가 인가된 사용자의 눈의 이미지이고 적어도 하나의 다른 생체인식 정보가 인가된 사용자의 생체인식 정보일 가능성 스코어를 생성하기 위하여 분류기를 사용하여 제1 임베딩 공간 표현 및 적어도 하나의 다른 생체인식 정보를 프로세싱하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0010] 또 다른 양상에서, 웨어러블 디스플레이 시스템이 개시된다. 웨어러블 디스플레이 시스템은, 디스플레이; 사용자의 제1 눈의 복수의 제1 이미지들을 캡처하도록 구성된 이미지 캡처 디바이스; 제1 눈의 복수의 제1 이미지들을 프로세싱하기 위한 딥 뉴럴 네트워크, 제1 눈의 프로세싱된 복수의 제1 이미지들을 프로세싱하기 위한 제1 분류기, 및 실행 가능한 명령들을 저장하도록 구성된 비-일시적 메모리; 및 디스플레이, 이미지 캡처 디바이스 및 비-일시적 메모리와 통신하는 하드웨어 프로세서를 포함하며, 하드웨어 프로세서는, 제1 눈의 복수의 제1 이미지들을 수신하고; 제1 임베딩 공간 표현을 생성하기 위하여 딥 뉴럴 네트워크를 사용하여 제1 눈의 복수의 제1 이미지들을 프로세싱하고; 그리고 제1 눈의 복수의 제1 이미지들이 인가된 사용자의 제1 눈의 이미지를 포함할 제1 가능성 스코어를 계산하기 위하여 제1 분류기를 사용하여 제1 임베딩 공간 표현을 프로세싱하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0011] 본 명세서에서 설명되는 청구 대상의 하나 또는 그 초과의 구현들의 세부사항들은, 아래의 첨부 도면들 및 설명에서 기술된다. 다른 특징들, 양상들, 및 이점들은 설명, 도면들, 및 청구항들로부터 명백해질 것이다. 이 개요 또는 다음의 상세한 설명 어느 것도, 본 발명의 청구 대상의 범위를 한정하거나 제한하는 것으로 의도되지 않는다.

[0012] 도 1은 트리플렛 네트워크 아키텍처를 갖는 딥 뉴럴 네트워크를 구현하는 눈 인증 트레이너의 예의 블록도이다.
[0013] 도 2는 인셉션-형 층의 예시적인 아키텍처를 도시한다.
[0014] 도 3은 예시적인 딥 네트워크 아키텍처를 예시하는 테이블을 도시한다.
[0015] 도 4a 및 도 4b는, 100,000번의 반복들 후에, 도 1 내지 도 3에 도시된 딥 네트워크 아키텍처를 갖는 딥 뉴럴 네트워크를 사용하여 임베딩을 학습한 예시적인 결과들을 도시한다. 도 4a는 동일한 피험자들 및 상이한 피험자들의 눈 이미지들 간의 임베딩 거리를 도시하는, 샘플들 대 임베딩 거리의 비의 히스토그램 플롯이다. 도 4b는 TPR(true positive rate) 대 FPR(false positive rate)의 ROC(receiver operating characteristic) 커브이다.
[0016] 도 5a 및 도 5b는, 50,000번의 반복들 후에, 도 1 내지 도 3에 예시된 딥 네트워크 아키텍처를 갖는 딥 뉴럴 네트워크를 사용하여 임베딩을 학습한 예시적인 결과들을 도시한다. 딥 뉴럴 네트워크는 6-채널 입력들로서 6개의 연속적인 극 이미지들의 그룹들을 사용하여 트레이닝되었다. 도 5a는 동일한 피험자들 및 상이한 피험자들의 극 이미지들의 그룹들의 쌍들 간의 임베딩 거리를 도시하는, 확률 밀도 대 임베딩 거리의 히스토그램 플롯이다. 도 5b는 TPR(true positive rate) 대 FPR(false positive rate)의 ROC(receiver operating characteristic) 커브이다.
[0017] 도 6은 사용자 디바이스의 예시적인 눈 인증자의 블록도이다.
[0018] 도 7은 눈 인증을 위한 예시적인 프로세스의 흐름도이다.
[0019] 도 8은 눈 인증 시스템의 예를 개략적으로 예시한다.
[0020] 도 9는 웨어러블 디스플레이 시스템의 예를 개략적으로 예시한다.
[0021] 도면들 전체에 걸쳐, 참조 번호들은 참조된 엘리먼트들 간의 대응성(correspondence)를 표시하는 데 재사용 될 수 있다. 도면들은 본원에서 설명된 예시적인 실시예들을 예시하기 위해 제공되며 본 개시내용의 범위를 제한하려는 의도는 아니다.

개관

[0022] 종래의 웨이블렛-기반 홍채 코드는 2048 비트를 갖는다. 그러나, 대략 244 비트만이 통계적으로 독립적이다. 이러한 통계적인 종속성은, 인간들에 의해 설계된 특징들에 기반한 홍채 코드(예컨대, 특정 세트의 웨이블렛들과의 컨볼루션들의 부호들)가 홍채를 표현하는 데 있어 비효율적이라는 것을 표시한다. 또한, 홍채 코드는 이미지 크로핑(cropping), 이미지 블러링(blurring), 이미지들을 캡처하는 동안 조명 상태들, 눈꺼풀 및 속눈썹에 의한 폐색(occlusion), 및 이미지 화각(angle of view)을 포함하는 변형들에 민감할 수 있다. 부가적으로, 홍채 코드를 컴퓨팅하기 전에, 눈 이미지는 동공 및 주변 공막으로부터 홍채를 분리하기 위해 세그먼트화될 필요가 있다.

[0023] 본원에 개시된 시스템들 및 방법들은, 홍채 특징들을 나타내는 눈 설명자의 생성과 관련된 다양한 난제들을 해결한다. 예컨대, DNN(deep neural network)은 홍채 식별을 위한 임베딩을 학습하는 데 사용될 수 있다. DNN은 또한 사람들의 식별의 검증을 위한 임베딩을 학습하는 데 사용될 수 있다. 이러한 임베딩은, 종래의 홍채 코드보다는, 임베딩 공간에서의 위치를 사용함으로써, 인간 홍채들이 새로운 방식으로 분류될 수 있게 할 수 있다. 임베딩 공간은 (웨이블렛-기반 홍채 코드들에서와 같이) 인간들에 의해 설계되지 않고, 오히려 DNN에 의한 트레이닝 데이터로부터 학습될 수 있다.

[0024] DNN들은, 트레이닝 데이터로부터, 유클리드 공간들에서의 고효율 임베딩들을 성공적으로 학습하는 데 사용될 수 있다. 일단 맵핑이 데이터(예컨대, 홍채 이미지들)의 네이티브 공간(native space)으로부터 임베딩 공간으로 학습되면, 임베딩 공간은 임베딩 공간에서 이미지들의 근접성에 기반하여 2개의 이미지들의 유사성을 결정하는 데 사용될 수 있다. 이를 성취할 수 있는 DNN의 하나의 아키텍처는 트리플릿 네트워크이다.

[0025] 상이한 DNN들은 2개의 방식들에서 서로 상이할 수 있다. DNN들의 아키텍처, 예컨대, 계층들의 수 및 계층들이 어떻게 상호연결되는지는 상이할 수 있다. 하나의 계층으로부터 다른 계층으로 전파되는 효과의 세기에 영향을 줄 수 있는 가중치들은 상이할 수 있다. 계층의 출력은 자신의 입력들의 가중된 합의 일부 비선형 함수일 수 있다. DNN의 가중치들은, 이러한 합산들에서 나타나는 가중치들일 수 있고, 생물학적 시스템에서 뉴럴 연결의 시냅스 세기와 대략 유사할 수 있다.

[0026] DNN을 트레이닝하는 프로세스들은 입력 데이터 및 대응하는 타겟 출력 데이터 둘 모두를 DNN에 제시하는 프로세스들이다. 이러한 데이터, 즉, 트레이닝 세트는 예시적인 입력들 및 타겟 출력들 둘 모두를 포함할 수 있다. 트레이닝의 프로세스들을 통해, 네트워크의 가중치들은, 트레이닝 세트로부터의 특정 피스(piece)의 입력 데이터가 주어지면, 네트워크의 출력이 그 피스의 입력 데이터에 대응하는 타겟 출력과 (가능한 근접하게) 매칭하게 되도록, 증분적으로 학습될 수 있다.

[0027] 따라서, 일부 구현들에서, 트리플릿 네트워크 아키텍처를 갖는 DNN은, 고차원 눈 이미지 공간으로부터 저차원 임베딩 공간(유클리드 또는 비-유클리드일 수 있음)으로 맵핑되는 임베딩을 학습하기 위해, 인간의 눈의 이미지들을 사용하여 트레이닝된다. 임베딩은 DNN일 수 있다. 일단 학습되면, 이러한 임베딩은 종래의 웨이블렛-기반 홍채 코드들에 대한 대안적으로서 사용될 수 있다. 임베딩으로부터 결정된 코드들은 (벡터들의 비트-기반 표현이 저장되어 생체인식 프로세싱에서 활용될 수 있지만) 웨이블렛-기반 코드들의 비트 스트링들보다는, n-차원 실수 벡터들일 수 있다. 다양한 구현들에서, DNN은 세그먼트화된 홍채 이미지들로 트레이닝될 수 있거나, DNN은 (안구주위 이미지들을 먼저 세그먼트화하지 않고서) 눈의 안구주위 구역의 이미지들로 직접적으로 트레이닝될 수 있다. 후자의 경우에, DNN은 홍채의 데이터가 특히 높은 값을 갖는다는 것을 학습할 수 있지만, 홍채 특징 식별에서 이미지의 안구주위 부분들의 사용이 도움이 되면, 이것은 또한 이미지의 안구주위 부분들을 사용할 수 있다. 안구주위 구역은 눈 및 눈 주위의 부분들, 이를테면, 예컨대, 눈꺼풀, 눈썹, 속눈썹, 및 눈 주변의 피부(고유 텍스처를 가질 수 있음)를 포함한다. 예컨대, 사람의 누관들(tear ducts)의 특정 구조는 식별 정보를 제공할 수 있다. 그에 따라서, DNN에 의한 안구주위 구역의 분석은 단지 홍채 단독의 분석보다는 (임베딩을 통해) 더 강력한 생체인식 서명을 제공할 수 있다.

예시적인 트리플릿 네트워크 아키텍처

[0028] 인간의 눈의 이미지들을 사용하여, 트리플릿 네트워크 아키텍처를 갖는 DNN(deep neural network)은, 고차원 눈 이미지 공간으로부터 저차원 임베딩 공간으로 맵핑되는 임베딩을 학습하기 위해 트레이닝될 수 있다. 눈 이미지 공간의 차원은 매우 클 수 있다. 예컨대, 256 픽셀들 x 256 픽셀들의 눈 이미지는 잠재적으로 수천 또는 수만의 자유도를 포함할 수 있다. 도 1은 트리플릿 네트워크 아키텍처를 갖는 딥 뉴럴 네트워크를 구현하는 눈 인증 트레이너(104)의 예의 블록도이다. 눈 인증 트레이너(104)는 임베딩(108)(Emb)을 학습하기 위해 딥 뉴럴 네트워크를 트레이닝할 수 있다. 임베딩(108)은, 고차원 눈 이미지 공간에서의 눈 이미지(Img)를 저차원 임베딩 공간에서의 눈 이미지의 임베딩 공간 표현(EmbImg)으로 맵핑하는 함수일 수 있다. 예컨대, Emb(Img) = EmbImg이다. 임베딩(108)은 DNN일 수 있다.

[0029] 임베딩 공간 표현, 즉, 임베딩 공간에서의 눈 이미지의 표현은 n-차원 실수 벡터들일 수 있다. 눈 이미지의 임베딩 공간 표현은 n-차원 눈 설명일 수 있다. 임베딩 공간에서 표현들의 차원은 상이한 구현들에서 상이할 수 있다. 예컨대, 차원은 16 내지 2048의 범위일 수 있다. 일부 구현들에서, n은 128이다. 임베딩 공간 표현들의 엘리먼트들은 불들(Booleans), 정수들, 실수들, 복소수들, 또는 이의 임의의 조합에 의해 표현될 수 있다. 일부 아키텍처들에서, 임베딩 공간 표현은 트레이닝 동안 n개의 부동 소수점 수들로서 표현되지만, 이는 인증을 위해 n 바이트로 양자화될 수 있다. 따라서, 일부 경우들에서, 각각의 눈 이미지는 n 바이트 표현으로 표현된다. 더 큰 차원을 갖는 임베딩 공간에서의 표현들은 저차원을 갖는 표현들보다 더 양호하게 수행될 수 있지만, 더 많은 트레이닝을 요구할 수 있다. 임베딩 공간 표현들은, 예컨대, 단위 길이를 가질 수 있다.

[0030] 딥 뉴럴 네트워크(112)는, 눈 이미지들이 임베딩 공간에서 함께 클러스터링되기 때문에, 임베딩 공간의 한 사람(또는 한 사람의 왼쪽 또는 오른쪽 눈)의 이미징 상태들과 독립적인 눈 이미지들 간의 거리가 짧도록, 임베딩(108)을 학습하도록 트레이닝될 수 있다. 대조적으로, 상이한 사람들(또는 한 사람의 상이한 눈들)의 한 쌍의 눈 이미지들 간의 거리는 임베딩 공간에서 클 수 있는 데, 왜냐하면 눈 이미지들이 임베딩 공간에서 함께 클러스터링되지 않기 때문이다. 따라서, 임베딩 공간에서 동일한 사람으로부터 눈 이미지들 간의 거리, 즉, 임베딩 거리는 임베딩 공간에서 상이한 사람들로부터의 눈 이미지들 간의 거리보다 더 짧을 수 있다. 양쪽 눈 이미지들 간의 거리는, 예컨대, 양쪽 눈 이미지들의 임베딩 공간 표현들 간의 유클리드 거리(이를테면, L2 놈), 또는 (예컨대, 쌍곡선 공간에서의) 비-유클리드 거리일 수 있다.

[0031] 한 사람의 양쪽 눈 이미지들, 예컨대, 앵커 눈 이미지(Imga)(116a) 및 포지티브 눈 이미지(ImgP)(116p) 간의 거리는 임베딩 공간에서 짧을 수 있다. 상이한 사람들의 양쪽 눈 이미지들, 예컨대, 앵커 눈 이미지(ImgA)(116a) 및 네거티브 눈 이미지(ImgN)(116n) 간의 거리는 임베딩 공간에서 더 클 수 있다. ImgA(116a)는 "앵커" 이미지인데, 왜냐하면 그의 임베딩 공간 표현이 동일한 사람의 눈 이미지(예컨대, ImgP(116p)) 및 상이한 사람들의 눈 이미지(예컨대, ImgN(116n))의 임베딩 공간 표현들과 비교될 수 있기 때문이다. ImgA(116p)는 "포지티브" 이미지인데, 왜냐하면, ImgP(116p) 및 ImgA(116a)가 동일한 사람의 눈 이미지들이기 때문이다. ImgN(116n)은 "네거티브" 이미지인데, 왜냐하면, ImgN(116n) 및 ImgA(116a)가 상이한 사람들의 눈 이미지들이기 때문이다. 따라서, 임베딩 공간에서 ImgA(116a)와 ImgP(116p) 간의 거리는 임베딩 공간에서 ImgA(116a)와 ImgN(116N) 간의 거리보다 더 짧을 수 있다.

[0032] 임베딩(Emb)(108)은 고차원 눈 이미지 공간으로부터의 ImgA(116a), ImgP(116p), 및 ImgN(116n)을 앵커 임베딩 이미지(EmbA((120a)), 포지티브 임베딩 이미지(EmbP(120a)), 및 네거티브 임베딩 이미지(EmbN(120n))로 각각 맵핑할 수 있다. 예컨대, Emb(ImgA) = EmbA; Emb(ImgP) = EmbP; 그리고 Emb(ImgN) = EmbN이다. 따라서, 임베딩 공간에서 EmbA(120a)와 EmbP(120a) 간의 거리는 임베딩 공간에서 EmbP(120a)와 EmbN(120n) 간의 거리보다 더 짧을 수 있다.

[0033] 임베딩(108)을 학습하기 위해, 눈 인증 트레이너(104)는 눈 이미지들(110)의 트레이닝 세트 T1을 수신할 수 있다. 눈 이미지(110)는 눈의 안구주위 구역의 이미지일 수 있다. 또는 눈 이미지(110)는 세그먼트화된 홍채 이미지 또는 세그먼트화된 망막 이미지일 수 있다. 눈 이미지들(110)은 왼쪽 눈들 및 오른쪽 눈들의 이미지들을 포함할 수 있다. 눈 이미지들(110)은 라벨들과 연관될 수 있고, 여기서 라벨들은 다른 사람의 눈 이미지들로부터 한 사람의 눈 이미지들을 구별한다. 라벨들은 또한 사람의 왼쪽 눈 및 오른쪽 눈의 눈 이미지들을 구별할 수 있다. 눈 인증 트레이너(104)에 의해 수신된 트레이닝 세트 T1은 눈 이미지와 라벨(Img; Label)의 쌍들을 포함할 수 있다. 눈 인증 트레이너(104)는 눈 이미지 데이터 스토어로부터 (Img: Label) 쌍들의 트레이닝 세트 T1을 수신할 수 있다.

[0034] 눈 인증 트레이너(104)는 임베딩(108)을 학습하기 위해 트리플릿 네트워크 아키텍처를 갖는 DNN(deep neural network)(112)을 활용할 수 있다. 임베딩(108)을 학습하기 위해, 트리플릿 네트워크 아키텍처는 3개의 동일한 임베딩 네트워크들(임베딩들, 딥 임베딩들, 딥 임베딩 네트워크들, DNN 임베딩들, 또는 DNN들로 또한 지칭됨), 예컨대, 앵커 임베딩 네트워크(ENetworkA(124a)), 포지티브 임베딩 네트워크(ENetworkP(124p)) 및 네거티브 임베딩 네트워크(ENetworkN(124n))를 포함할 수 있다. 임베딩 네트워크들(124a, 124p, 또는 124n)은 딥 뉴럴 네트워크들일 수 있다. 임베딩 네트워크들(124a, 124p, 또는 124n)은 눈 이미지 공간으로부터의 눈 이미지들을 임베딩 공간의 눈 이미지들의 임베딩 공간 표현들로 맵핑할 수 있다. 예컨대, ENetworkA(124a)는 ImgA(116a)를 EmbA(120a)로 맵핑할 수 있다. ENetworkA(124p)는 ImgP(116p)를 EmbP(120p)로 맵핑할 수 있다. ENetworkN(124n)는 ImgN(116n)을 EmbN(120n)으로 맵핑할 수 있다.

[0035] 일부 구현들에서, 눈 인증 트레이너(104)는, 임베딩(108)을 학습하기 위해 단일 네트워크 아키텍처를 갖는 DNN(deep neural network)(112)을 활용할 수 있다. 임베딩(108)을 학습하기 위해, 단일 네트워크 아키텍처는 하나의 임베딩 네트워크를 포함할 수 있다. 임베딩 네트워크는 (ImgA; ImgP; ImgN)의 트리플릿들을 (EmbA; EmbP; EmbN)의 트리플릿들로 맵핑할 수 있다.

[0036] 트리플릿 네트워크 아키텍처를 갖는 딥 뉴럴 네트워크(112)는 눈 이미지들의 트리플릿들을 포함하는 트리플릿 트레이닝 세트 T2로 임베딩(108)을 학습할 수 있다. 트리플릿의 양쪽 눈 이미지들은 동일한 사람으로부터의 이미지들이고, 예컨대, ImgA(116a) 및 ImgP(116p)일 수 있다. 트리플릿의 제3 눈 이미지는 상이한 사람 또는 동일한 사람의 상이한 눈으로부터의 이미지이고, 예컨대, ImgN(116n)일 수 있다. ENetworkA(124a), ENetworkP(124p), 및 ENetworkN(124n)은 (ImgA; ImgP; ImgN)의 트리플릿을 (EmbA; EmbP; EmbN)의 트리플릿으로 맵핑할 수 있다. 눈 인증 트레이너(104)는 (Img; Label) 쌍들의 트레이닝 세트 T1으로부터 트리플릿 트레이닝 세트 T2를 생성할 수 있다.

[0037] ImgA(116a), ImgP(116p) 또는 ImgN(116n)은 상이한 구현들에서 상이할 수 있다. 예컨대, ImgA(116a) 및 ImgP(116p)는 한 사람의 눈 이미지들일 수 있고, ImgN(116n)는 다른 사람의 눈 이미지일 수 있다. 다른 예로서, ImgA(116a) 및 ImgP(116p)는 한 사람의 왼쪽 눈의 이미지들일 수 있고, ImgN(116n)는 그 사람의 오른쪽 눈의 이미지이거나 또는 다른 사람의 눈 이미지일 수 있다.

[0038] 트리플릿 네트워크 아키텍처는, 임베딩 공간 내의 사람의 눈 이미지가 임베딩 공간 내의 임의의 다른 사람의 눈 이미지보다, 임베딩 공간 내의 동일한 사람의 모든 다른 눈 이미지들에 더 근접하도록 임베딩(108)을 학습하는 데 사용될 수 있다. 예컨대,

이며, 여기서

는 임베딩 공간에서 EmbA(120a)와 EmbP(120p) 간의 절대 거리를 나타내며,

는 임베딩 공간에서 EmbA(120a)와 EmbN(120n) 간의 절대 거리를 나타낸다.

[0039] 일부 구현들에서, 트리플릿 네트워크 아키텍처는, 임베딩 공간 내의 사람의 왼쪽 눈의 이미지가 그 사람의 오른쪽 눈의 임의의 이미지보다 또는 임베딩 공간 내의 다른 사람의 임의의 눈 이미지보다, 임베딩 공간 내의 동일한 사람의 왼쪽 눈의 모든 이미지들에 더 근접하도록, 임베딩(108)을 학습하는 데 사용될 수 있다.

[0040] 임베딩 공간 표현들의 차원은 상이한 구현들에서 상이할 수 있다. EmbA(120a), EmbP(120p), 및 EmbN(120n)의 차원은 동일(예컨대, 431)할 수 있다. 임베딩 공간 표현의 길이는 상이한 구현들에서 상이할 수 있다. 예컨대, EmbA(120a), EmbP(120p) 또는 EmbN(120n)는 L2 정규화를 사용하여 임베딩 공간에서 단위 길이를 갖도록 정규화될 수 있다. 따라서, 눈 이미지들의 임베딩 공간 표현들은 임베딩 공간 내의 하이퍼스피어(hypersphere) 상에 있다.

[0041] 트리플릿 네트워크 아키텍처는 EmbA(120a), EmbP(120p) 및 EmbN(120n)을 비교하도록 구성된 트리플릿 손실 계층(128)을 포함할 수 있다. 트리플릿 손실 계층(128)으로 학습된 임베딩(108)은 임베딩 공간에서 매우 근접한 포인트들의 클러스터 또는 단일 포인트상에 한 사람의 눈 이미지들을 맵핑할 수 있다. 트리플릿 손실 계층(128)은 임베딩 공간에서 동일한 사람의 눈 이미지들, 예컨대 EmbA(120a)와 EmbP(120p) 간의 거리를 최소화할 수 있다. 트리플릿 손실 계층(128)은 임베딩 공간에서 상이한 사람들의 눈 이미지들, 예컨대 EmbA(120a)와 EmbN(120n) 간의 거리를 최대화할 수 있다.

[0042] 트리플릿 손실 계층(128)은 다수의 방식들로 EmbA(120a), EmbP(120p) 및 EmbN(120n)을 비교할 수 있다. 예컨대, 트리플릿 손실 계층(128)은,

수학식(1.1)

을 컴퓨팅함으로써, EmbA(120a), EmbP(120p) 및 EmbN(120n)을 비교할 수 있다.

여기서,

는 EmbA(120a)와 EmbN(120n) 간의 절대 거리를 나타내며, m은 마진을 나타낸다. 마진은 상이한 구현들에서 상이할 수 있다. 예컨대, 마진은 0.20일 수 있다. 따라서, 일부 구현들에서, 동일한 사람으로부터의 눈 이미지들 간의 임베딩 공간에서의 거리가 상이한 사람들로부터의 눈 이미지들 간의 임베딩 공간에서의 거리보다 짧도록, 임베딩(108)은 복수의 사람들의 눈 이미지들로부터 학습될 수 있다. 일부 실시예들에서, 사람의 눈으로부터의 눈 이미지들 간의 임베딩 공간에서의 거리는 상이한 사람들로부터의 눈 이미지들 또는 동일한 사람의 상이한 눈들의 눈 이미지들 간의 임베딩 공간에서의 거리보다 짧다. 수학식 (1.1)의 특정 구현의 측면에서, 동일한 사람으로부터의 모든 눈 이미지들 간의 임베딩 공간에서의 거리의 제곱은 작고, 상이한 사람들로부터의 한 쌍의 눈 이미지들 간의 임베딩 공간에서의 거리의 제곱은 크다. 다른 예로서, 트리플릿 손실 계층(128)은,

수학식(1.2)

여기서,

는 임베딩 공간에서의 EmbA(120a)과 EmbP(120p) 간의 절대 거리를 나타내며,

는 EmbA(120a)와 EmbN(120n) 간의 절대 거리를 나타내며, m1은 2개의 임베딩 공간 표현들 간의 거리의 수정자를 나타내며, m2는 2개의 임베딩 공간 표현들 간의 절대 거리의 수정자를 나타내며, m3는 마진을 나타낸다. 수정자들(m1 및 m2)은 상이한 구현들에서 상이할 수 있다. 예컨대, 수정자는 정수(예컨대, 3), 실수(예컨대, 3.1) 또는 복소수일 수 있다. 마진(m3)은 상이한 구현들에서 상이할 수 있다. 예컨대, 마진은 0.20일 수 있다.

[0043] EmbA(120a), EmbP(120p) 및 EmbN(120n)을 비교하는 데 사용되는 마진(m)의 함수는 상이한 구현들에서 상이할 수 있다. 예컨대, 마진(m)은 임베딩 공간 내의 한 사람의 각각의 쌍의 눈 이미지들과 다른 모든 사람들의 눈 이미지들 간에 마진을 적용(enforce)할 수 있다. 따라서, 한 사람의 눈 이미지들의 임베딩 공간 표현들은 임베딩 공간에서 근접하게 함께 클러스터링될 수 있다. 동시에, 상이한 사람들의 눈 이미지들의 임베딩 공간 표현들은 유지되거나 최대화될 수 있다. 다른 예로서, 마진(m)은 한 사람의 왼쪽 눈의 각각의 쌍의 이미지들과, 그 사람의 오른쪽 눈의 이미지들 또는 모든 다른 사람들의 눈 이미지들 간에 마진을 적용할 수 있다.

[0044] 임베딩(108)의 학습의 반복 동안, 트리플릿 손실 계층(128)은 상이한 수들의 트리플릿들에 대해 EmbA(120a), EmbP(120p) 및 EmbN(120n)을 비교할 수 있다. 예컨대, 트리플릿 손실 계층(128)은 트리플릿 트레이닝 세트T2 내의 모든 트리플릿들(EmbA; EmbP; EmbN)에 대해 EmbA(120a), EmbP(120p) 및 EmbN(120n)을 비교할 수 있다. 다른 예로서, 트리플릿 손실 계층(128)은 트리플릿 트레이닝 세트 T2 내의 트리플릿들(EmbA; EmbP; EmbN)의 배치(batch)에 대해 EmbA(120a), EmbP(120p) 및 EmbN(120n)을 비교할 수 있다. 배치내의 트리플릿들의 수는 상이한 구현들에서 상이할 수 있다. 예컨대, 배치는 (EmbA; EmbP; EmbN)의 64 트리플릿들을 포함할 수 있다. 다른 예로서, 배치는 트리플릿 트레이닝 세트 T2 내의 모든 트리플릿들(EmbA; EmbP; EmbN)을 포함할 수 있다.

[0045] 임베딩(108)의 학습의 반복 동안, 트리플릿 손실 계층(128)은 트리플릿 손실을 컴퓨팅함으로써 트리플릿들(EmbA; EmbP; EmbN)의 배치에 대해 EmbA(120a), EmbP(120p) 및 EmbN(120n)을 비교할 수 있다. 트리플릿 손실은, 예컨대,

수학식 (2.1)

일 수 있다. 여기서, n은 트리플릿들의 배치내의 트리플릿들의 수를 나타내며, EmbA(i), EmbP(i), EmbN(i)은 트리플릿들의 배치에서의 i번째 EmbA(120a), EmbP(120p) 및 EmbN(120n)을 나타내며; m은 마진을 나타낸다. 다른 예로서, 트리플릿 손실은,

수학식(2.2)

일 수 있다. 여기서, n은 트리플릿들의 배치내의 트리플릿들의 수를 나타내며, EmbA(i), EmbP(i), 및 EmbN(i)은 트리플릿들의 배치에서의 i번째 EmbA(120a), EmbP(120p) 및 EmbN(120n)을 나타내며; m1은 2개의 임베딩 공간 표현들 간의 거리의 수정자를 나타내며; m2는 2개의 임베딩 공간 표현들 간의 절대 거리의 수정자를 나타내며; m3은 마진을 나타낸다.

[0046] 임베딩(108)의 학습 동안, 눈 인증 트레이너(104)는, 배치의 트리플릿들(EmbA; EmbP; EmbN)의 배치 간의 비교, 예컨대 트리플릿들(EmbA; EmbP; EmbN)의 배치 간의 트리플릿 손실에 기반하여 ENetworkA(124a), ENetworkP(124p) 및 ENetworkN(124n)을 업데이트할 수 있다. 눈 인증 트레이너는(104), 주기적으로 예컨대 각각의 모든 반복마다 또는 1,000회 반복들 마다 ENetworkA(124a), ENetworkP(124p) 및 ENetworkN(124n)을 업데이트할 수 있다. 눈 인증 트레이너(104)는 임베딩 공간을 최적화시키기 위해 ENetworkA(124a), ENetworkP(124p) 및 ENetworkN(124n)을 업데이트할 수 있다. 임베딩 공간을 최적화시키는 것은 상이한 구현들에서 상이할 수 있다. 예컨대, 임베딩 공간을 최적화시키는 것은 수학식 (1.1)(또는 수학식 (1.2))을 최소화시키는 것을 포함할 수 있다. 다른 예로서, 임베딩 공간을 최적화시키는 것은 EmbA(120a)와 EmbP(120p) 간의 거리를 최소화시키는 것 및 EmbA(120a) 및 EmbN(120n) 간의 거리를 최대화시키는 것을 포함할 수 있다.

[0047] 임베딩 공간을 최적화시키는 반복들 이후, 눈 인증 트레이너(104)는 그의 출력으로서: 고차원 눈 이미지 공간으로부터의 눈 이미지들을 저차원 임베딩 공간의 눈 이미지들의 표현들로 맵핑하는 임베딩(108); 또는 사용자의 눈 이미지의 임베딩 공간 표현이 임베딩 공간에서의 인가된 사용자의 눈 이미지와 충분히 유사하여, 사용자가 인가된 사용자로서 인증되어야 하는지 여부를 결정하기 위한, 사용자 디바이스에 대한 임계값(132) 중 하나 또는 그 초과를 컴퓨팅할 수 있다. 눈 인증 트레이너(104)는, 눈 인증 트레이너(104)가 임베딩(108) 또는 임계값(132)을 컴퓨팅하는 데 사용할 수 있거나 또는 사용해야 하는 눈 이미지들의 특징들을 서비스 오퍼레이터가 특정해야 할 필요 없이, 임베딩(108) 또는 임계값(132)을 결정할 수 있다.

[0048] 임계값(132)은 상이한 구현들에서 상이할 수 있다. 예컨대, 임계값(132)은 임베딩(108)을 학습하는 마지막 반복 동안 (ImgA; ImgP; ImgN) 트리플릿들로부터 결정된 동일한 사람의 눈 이미지들 간의 가장 큰 거리일 수 있다. 다른 예로서, 임계값(132)은 임베딩(108)을 학습하는 마지막 반복 동안 (ImgA; ImgP; ImgN) 트리플릿들로부터 결정된 동일한 사람의 눈 이미지들 간의 중앙 거리일 수 있다. 또 다른 예로서, 임계값(132)은 임베딩(108)을 학습하는 마지막 반복 동안 (ImgA; ImgP; ImgN) 트리플릿들로부터 결정된 상이한 사람들의 눈 이미지들 간의 가장 큰 거리보다 작을 수 있다.

[0049] 임베딩(108)을 학습하기 위해 요구되는 반복들의 횟수는 상이한 구현들에서 상이할 수 있다. 예컨대, 반복들의 횟수는 100,000일 수 있다. 다른 예로서, 반복들의 횟수는 미리결정되지 않을 수 있으며, 이를테면 2%의 EER(equal error rate)을 갖는 만족스러운 특징들을 갖는 임베딩(108)을 학습하기 위해 요구되는 반복들에 의존할 수 있다. 또 다른 예로서, 반복들의 횟수는 만족스러운 트리플릿 손실을 획득하기 위해 요구되는 반복들에 의존할 수 있다.

[0050] 인가되지 않은 사용자들 및 인가된 사용자들을 구별하는 임베딩(108)의 능력은 상이한 구현들에서 상이할 수 있다. 예컨대, 임베딩(108)의 FPR(false positive rate)은 0.01%일 수 있으며; 임베딩(108)의 TPR(true positive rate)은 99.99%일 수 있다. 다른 예로서, 임베딩(108)의 FNR(false negative rate)은 0.01%일 수 있으며; 임베딩(108)의 TNR(true negative rate)은 99.99 %일 수 있다. 예컨대, 임베딩(108)의 EER(equal error rate)은 1%일 수 있다.

[0051] 눈 인증 트레이너(104)는 임베딩(108)을 학습하기 위해 트리플릿 네트워크 아키텍처 이외의 아키텍처를 갖는 딥 뉴럴 네트워크(112)를 구현할 수 있다. 딥 뉴럴 네트워크(112)의 아키텍처의 비-제한적인 예들은 딥 빌리프 네트워크 아키텍처(deep belief network architecture), 볼츠만 머신 아키텍처(Boltzmann machine architecture), 제한된 볼츠만 머신 아키텍처(restricted Boltzmann machine architecture), 딥 볼츠만 머신 아키텍처(deep Boltzmann machine architecture) 또는 딥 오토-인코더 아키텍처(deep auto-encoder architecture)를 포함한다.

예시적인 딥 뉴럴 네트워크

[0052] 눈 인증 트레이너(104)는, 임베딩(108)을 학습하도록 딥 뉴럴 네트워크(112)를 트레이닝할 수 있다. 딥 뉴럴 네트워크(112)는 하나 또는 그 초과의 딥 뉴럴 네트워크 계층들을 포함할 수 있다. 딥 뉴럴 네트워크 계층은, 그것의 입력에 선형 또는 비-선형 변환들을 적용하여 그것의 출력을 생성할 수 있다. 딥 뉴럴 네트워크 계층은 정규화 계층, 컨벌루셔널 계층, 소프트사인 계층, 정류한 선형 계층, 연접 계층, 풀링 계층, 순환 계층, 인셉션-형 계층, 또는 이의 임의의 조합일 수 있다. 정규화 계층은, 예컨대 L2 정규화를 이용하여, 그것의 입력의 밝기를 정규화하여 그것의 출력을 생성할 수 있다. 정규화 계층은, 예컨대, 복수의 이미지들의 밝기를 서로에 대해 동시에 정규화하여, 그것의 출력으로서 복수의 정규화된 이미지들을 생성할 수 있다. 밝기를 정규화하기 위한 방법들의 비-제한적인 예들은 LCN(local contrast normalization) 또는 LRN(local response normalization)을 포함한다. 로컬 콘트라스트 정규화는, 0의 평균과 1의 분산(또는 평균과 분산의 다른 값들)을 갖도록 픽셀 단위로 이미지의 로컬 구역들을 정규화함으로써, 비-선형으로 이미지의 콘트라스트를 정규화할 수 있다. 로컬 응답 정규화는, 0의 평균과 1의 분산(또는 평균과 분산의 다른 값들)을 갖도록 로컬 입력 구역들에 걸쳐 이미지를 정규화할 수 있다. 정규화 계층은 임베딩(108)의 컴퓨테이션을 가속시킬 수 있다.

[0053] 컨벌루셔널 계층은, 그것의 입력을 컨벌브하여 그것의 출력을 생성하는 커널들의 세트를 적용할 수 있다. 소프트사인 계층은 그것의 입력에 소프트사인 함수를 적용할 수 있다. 소프트사인 함수(softsign(x))는 예컨대

일 수 있다. 소프트사인 계층은 엘리먼트당 이상치(per-element outlier)들의 영향을 무시할 수 있다. 임베딩 공간에 대한 엘리먼트당 이상치는 트리플릿(ImgA; ImgP; ImgN)일 수 있는데, 여기서, ImgA(116a)와 ImgP(116p) 간의 임베딩 공간에서의 거리는 ImgA(116a)와 ImgN(116n) 간의 임베딩 공간에서의 거리보다 더 크다. 엘리먼트당 이상치는, 눈 이미지들 또는 세그먼트화된 홍채 이미지들에서의 우발적인 밝은 스팟 또는 눈꺼풀 폐색 때문에 발생할 수 있다.

[0054] 정류한 선형 계층은 ReLU(rectified linear layer unit) 또는 PReLU(parameterized rectified linear layer unit)일 수 있다. ReLU 계층은, 그것의 입력에 ReLU 함수를 적용하여 그것의 출력을 생성할 수 있다. ReLU 함수(ReLU(x))는 예컨대 max(0, x)일 수 있다. PReLU 계층은, 그것의 입력에 PReLU 함수를 적용하여 그것의 출력을 생성할 수 있다. PReLU 함수(PReLU(x))는 예컨대

이면 x, 그리고

이면 ax일 수 있는데, 여기서, a 는 양수이다.

[0055] 연접 계층은 그것의 입력을 연접하여 그것의 출력을 생성할 수 있다. 예컨대, 연접 계층은 4개의 5 x 5 이미지들을 연접하여 하나의 20 x 20 이미지를 생성할 수 있다. 풀링 계층은, 그것의 입력을 다운 샘플링하여 그것의 출력을 생성하는 풀링 함수를 적용할 수 있다. 예컨대, 풀링 계층은 20 x 20 이미지를 10 x 10 이미지로 다운 샘플링할 수 있다. 풀링 함수의 비-제한적인 예들은 최대 풀링, 평균 풀링, 또는 최소 풀링을 포함한다.

[0056] 시점(t)에서, 순환 계층은 숨겨진 상태(s(t))를 컴퓨팅할 수 있으며, 순환 연결은 후속 시점(t+1)에서의 입력으로서 시간(t)에서의 숨겨진 상태(s(t))를 순환 계층에 제공할 수 있다. 순환 계층은 시간(t)에서의 숨겨진 상태(s(t))에 기반하여 시간(t+1)에서의 그것의 출력을 컴퓨팅할 수 있다. 예컨대, 순환 계층은 시간(t)에서의 숨겨진 상태(s(t))에 소프트사인 함수를 적용하여 시간(t+1)에서의 그것의 출력을 컴퓨팅할 수 있다. 시간(t+1)에서의 순환 계층의 숨겨진 상태는, 그것의 입력으로서, 시간(t)에서의 순환 계층의 숨겨진 상태(s(t))를 갖는다. 순환 계층은, 예컨대 ReLU 함수를 그것의 입력에 적용함으로써, 숨겨진 상태(s(t+1))를 컴퓨팅할 수 있다.

[0057] 인셉션-형 계층은 정규화 계층, 컨벌루셔널 계층, 소프트사인 계층, 정류한 선형 계층, 이를테면 ReLU 계층 및 PReLU 계층, 연접 계층, 풀링 계층, 또는 이의 임의의 조합 중 하나 또는 그 초과를 포함할 수 있다. 도 2는 인셉션-형 계층(200)의 예시적인 아키텍처를 도시한다. 인셉션-형 계층(200)은, 하나 또는 그 초과의 컨벌루셔널 계층들(예컨대, 컨벌루셔널 계층(204)), 그리고 컨벌루셔널 계층들, PReLU 계층들 그리고 최대 풀링 계층의 하나 또는 그 초과의 조합들(예컨대, 컨벌루셔널 계층들, PReLU 계층들 그리고 최대 풀링 계층의 3개의 조합들)을 사용하여, 그것의 입력(202)을 프로세싱할 수 있다. 컨벌루셔널 계층(204)은 21 x 21의 폭과 높이를 갖는 입력(202)의 64개의 채널들을 수신하여, 21 x 21의 폭과 높이 그리고 16개의 채널들을 갖는 그것의 출력을 생성할 수 있다. 컨벌루셔널 계층(204)의 커널 사이즈 및 스트라이드는, 각각, 1 x 1 그리고 1일 수 있다.

[0058] 컨벌루셔널 계층(206a) 및 PReLU 계층(206b)은 입력(202)의 64개의 채널들을 컨벌브 및 변환하여, 32개의 채널들을 갖는 출력을 생성할 수 있다. 컨벌루셔널 계층(206a)의 커널 사이즈 및 스트라이드는, 각각, 1 x 1 그리고 1일 수 있다. 컨벌루셔널 계층(206C)은 컨벌루셔널 계층(206a) 및 PReLU 계층(206b)의 출력을, 그것의 입력으로서 사용하여, 16개의 채널들을 갖는 그것의 출력을 생성할 수 있다. 컨벌루셔널 계층(206c)의 커널 사이즈 및 스트라이드는, 각각, 3 x 3 그리고 1일 수 있다.

[0059] 컨벌루셔널 계층(208a) 및 PReLU 계층(208b)은 입력(202)의 64개의 채널들을 컨벌브 및 변환하여, 32개의 채널들을 갖는 출력을 생성할 수 있다. 컨벌루셔널 계층(208a)의 커널 사이즈 및 스트라이드는, 각각, 1 x 1 그리고 1일 수 있다. 컨벌루셔널 계층(208c)은 컨벌루셔널 계층(208a) 및 PReLU 계층(208b)의 출력을, 그것의 입력으로서 사용하여, 16개의 채널들을 갖는 그것의 출력을 생성할 수 있다. 컨벌루셔널 계층(208c)의 커널 사이즈 및 스트라이드는, 각각, 5 x 5 그리고 1일 수 있다.

[0060] 최대 풀링 계층(210a)은 입력(202)의 64개의 채널들의 차원을 감소시켜, 32개의 채널들을 갖는 그것의 출력을 생성할 수 있다. 최대 풀링 계층(210a)의 커널 사이즈 및 스트라이드는, 각각, 3 x 3 그리고 1일 수 있다. 컨벌루셔널 계층(210b)은 최대 풀링 계층(210a)의 출력을 컨벌브하여, 16개의 채널들의 그것의 출력을 생성할 수 있다. 최대 풀링 계층(210a)의 커널 사이즈 및 스트라이드는, 각각, 1 x 1 그리고 1일 수 있다. 연접 계층(212)은 컨벌루셔널 계층들(204, 206c, 208c, 및 210b)의 16-채널 출력들을 연접하여 사이즈 21 x 21 x 64를 갖는 그것의 출력을 생성할 수 있다.

[0061] 딥 뉴럴 네트워크(112)에서의 딥 뉴럴 네트워크 계층들의 수는 상이한 구현들에서 상이할 수 있다. 예컨대, 딥 뉴럴 네트워크(112)에서의 딥 뉴럴 네트워크 계층들의 수는 100개일 수 있다. 딥 뉴럴 네트워크 계층의 입력 타입은 상이한 구현들에서 상이할 수 있다. 예컨대, 딥 뉴럴 네트워크 계층은 그것의 입력으로서 (Img; Label) 쌍들의 트레이닝 세트 T1을 수신할 수 있다. 다른 예로서, 딥 뉴럴 네트워크 계층은 (ImgA; ImgP; ImgN)의 트리플릿 트레이닝 세트 T2를 수신할 수 있다. 또 다른 예로서, 딥 뉴럴 네트워크 계층은 그것의 입력으로서 다수의 딥 뉴럴 네트워크 계층들의 출력들을 수신할 수 있다.

[0062] 딥 뉴럴 네트워크 계층의 입력은 상이한 구현들에서 상이할 수 있다. 예컨대, 딥 뉴럴 네트워크 계층의 입력은 5개의 딥 뉴럴 네트워크 계층들의 출력들을 포함할 수 있다. 다른 예로서, 딥 뉴럴 네트워크 계층의 입력은 딥 뉴럴 네트워크(112)의 딥 뉴럴 네트워크 계층들 중 1%를 포함할 수 있다. 딥 뉴럴 네트워크 계층의 출력은 다수의 딥 뉴럴 계층들의 입력들일 수 있다. 예컨대, 딥 뉴럴 네트워크 계층의 출력은 5개의 딥 뉴럴 네트워크 계층들의 입력들로서 사용될 수 있다. 다른 예로서, 딥 뉴럴 네트워크 계층의 출력은 딥 뉴럴 네트워크 계층의 딥 뉴럴 네트워크 계층들 중 1%의 입력들로서 사용될 수 있다.

[0063] 딥 뉴럴 네트워크 계층의 입력 사이즈 또는 출력 사이즈는 상당히 클 수 있다. 딥 뉴럴 네트워크 계층의 입력 사이즈 또는 출력 사이즈는 n x m일 수 있는데, 여기서, 입력 또는 출력의 n은 폭을 나타내고, m은 높이를 나타낸다. 예컨대, n 또는 m은 21일 수 있다. 딥 뉴럴 네트워크 계층의 입력 또는 출력의 채널 사이즈들은 상이한 구현들에서 상이할 수 있다. 예컨대, 딥 뉴럴 네트워크 계층의 입력 또는 출력의 채널 사이즈는 32일 수 있다. 딥 뉴럴 네트워크 계층의 커널 사이즈는 상이한 구현들에서 상이할 수 있다. 예컨대, 커널 사이즈는 n x m일 수 있는데, 여기서, n은 커널의 폭을 나타내고, m은 높이를 나타낸다. 예컨대, n 또는 m은 5일 수 있다. 딥 뉴럴 네트워크 계층의 스트라이드 사이즈는 상이한 구현들에서 상이할 수 있다. 예컨대, 딥 뉴럴 네트워크 계층의 스트라이드 사이즈는 3일 수 있다.

예시적인 딥 네트워크 아키텍처

[0064] 도 3은 예시적인 딥 네트워크 아키텍처를 예시하는 테이블을 도시한다. DNN(112)은 도 3에서 도시된 딥 네트워크 아키텍처를 구현할 수 있다. DNN(112)은, 그것의 입력으로서, 눈 이미지들, 예컨대 홍채 이미지들을 수신하는 로컬 콘트라스트 정규화 계층(302)을 포함할 수 있다. 로컬 콘트라스트 정규화 계층(302)은 복수의 눈 이미지들을 서로에 대해 동시에 정규화할 수 있다. 로컬 콘트라스트 정규화 계층(302)의 입력 사이즈는, 입력의 폭, 높이, 및 채널 사이즈를 표현하는 208 x 208 x 1일 수 있다. 로컬 콘트라스트 정규화 계층(302)의 커널 사이즈 및 스트라이드는, 각각, 9 x 9 그리고 1일 수 있다.

[0065] 로컬 콘트라스트 정규화 계층(302)의 출력은 컨벌루셔널 계층들(304a, 304b, 또는 304c), ReLU 계층들(306a, 306b, 또는 306c), 또는 최대 풀링 계층들(308a, 308b, 또는 308c)의 3개의 연속적인 조합들에 연결될 수 있다. 컨벌루셔널 계층들(304a, 304b, 또는 304c)의 입력 사이즈는, 각각, 200 x 200 x 1, 98 x 98 x 16, 또는 47 x 47 x 32일 수 있다. 컨벌루셔널 계층들(304a, 304b, 또는 304c)의 커널 사이즈 및 스트라이드는, 각각, 5 x 5 그리고 1일 수 있다. 최대 풀링 계층들(308a, 308b, 또는 308c)의 입력 사이즈는, 각각, 196 x 196 x 16, 94 x 94 x 32, 또는 43 x 43 x 64일 수 있다. 최대 풀링 계층들(308a, 308b, 또는 308c)의 커널 사이즈 및 스트라이드는, 각각, 2 x 2 그리고 2일 수 있다.

[0066] 인셉션-형 계층(310)이 3개의 연속적인 컨벌루셔널 계층들(304a, 304b, 또는 304c), ReLU 계층들(306a, 306b, 또는 306c), 또는 최대 풀링 계층들(308a, 308b, 또는 308c) 다음에 올 수 있다. 인셉션-형 계층(310)은 도 2에서 예시된 바와 같을 수 있다. 인셉션-형 계층(310)의 입력 사이즈는 21 x 21 x 64일 수 있다. 인셉션-형 계층(310)은 도 2에서 예시된 치수 감소를 갖는 1 x 1, 3 x 3, 및 5 x 5 컨벌루셔널 계층들을 포함할 수 있다.

[0067] 도 3을 참조하면, 인셉션-형 계층(310) 다음에, 입력 사이즈 21 x 21 x 64를 갖는 ReLU 계층(312)이 올 수 있다. ReLU 계층(312)의 입력 사이즈는 21 x 21 x 64일 수 있다. 컨벌루셔널 계층(314)과 소프트사인 계층(316)의 조합은 ReLU 계층(312) 다음에 올 수 있다. 컨벌루셔널 계층(314)의 입력 사이즈는 21 x 21 x 64일 수 있다. 컨벌루셔널 계층(314)의 커널 사이즈 및 스트라이드는, 각각, 1 x 1 그리고 1일 수 있다. L2 정규화 계층(318)은 사이즈 21 x 21 x 1을 갖는 그것의 입력을 정규화하여, 사이즈 21 x 21 x 1을 갖는 그것의 출력을 생성할 수 있다. 따라서, 도 3에서 도시된 딥 뉴럴 네트워크(112)에 의해 학습되는 임베딩(108)은, 208 x 208 치수들의 눈 이미지 공간으로부터의 눈 이미지들을, 임베딩 공간에서 432 치수들을 갖는 임베딩 공간 표현들로 매핑할 수 있다.

예시적인 눈 이미지들 및 세그먼트화된 홍채 이미지들

[0068] 눈 인증 트레이너(104)는 눈 이미지 및 라벨(Img; Label)의 쌍들을 포함하는 트레이닝 세트 T1으로부터 임베딩(108)을 학습하도록 DNN(deep neural network)(112)을 트레이닝할 수 있고, 여기서 Img는 사용자의 눈의 이미지를 나타내고, Label은 사용자의 아이덴티티가 다른 사용자들의 아이덴티티들로부터 구별될 수 있게 한다. 일부 구현들에서, 트레이닝 세트 T1은 (ImgL; ImgR; Label)의 트리플릿들을 포함할 수 있고, 여기서 ImgL은 사용자의 왼쪽 눈의 이미지를 나타내고, ImgR은 사용자의 오른쪽 눈의 이미지를 나타내고, Label은 사용자의 아이덴티티가 다른 사용자들의 아이덴티티들로부터 구별될 수 있게 한다. (Img; Label) 쌍들 또는 (ImgL; ImgR; Label) 트리플릿들의 트레이닝 세트 T1으로부터, 눈 인증 트레이너(104)는 (ImgA; ImgP; ImgN)의 트리플릿들을 포함하는 트리플릿 트레이닝 세트 T2를 컴퓨팅할 수 있고, 여기서 ImgA(116a) 및 ImgP(116p)는 사람의 눈 이미지들(또는 사람의 왼쪽 눈 또는 오른쪽 눈의 이미지들)이고, ImgN(116n)은 다른 사람의 눈 이미지(또는 동일한 사람의 다른 눈의 이미지)이다. 눈 이미지들은 눈의 상이한 부분들의 이미지들일 수 있다. 예컨대, 눈 이미지들(110)은 눈의 안구주위 영역의 이미지들을 포함할 수 있다. 다른 예로서, 눈 이미지들(110)은 세그먼트화된 홍채 이미지들을 포함할 수 있다. 눈 인증 트레이너(104)는 임베딩(108)을 학습하기 위한 극 눈 이미지들을 생성하기 위해 눈 이미지들(110)을 극 좌표들로 변환할 수 있다.

[0069] 눈 인증 트레이너(104)에 의해 수신된 눈 이미지들(110)은 눈의 홍채 부분 및 안구주위 구역 둘 모두를 포함할 수 있다. 일부 실시예들에서, 눈 인증 트레이너(104)는, 안구주위 이미지들을 먼저 세그먼트화함이 없이 눈 이미지들의 중요한 특징들, 예컨대, 홍채 특징들 또는 비-홍채 특징들을 학습하기 위해 눈 이미지들을 사용하여 딥 뉴럴 네트워크(112)를 트레이닝할 수 있다. 따라서, DNN(112)은, 홍채의 데이터가 특히 높은 값인 것을 학습할 수 있지만, 또한 만약 이미지의 안구주위 부분들을 사용하는 것이 홍채 특징 식별에 도움이 된다면 이를 행할 수 있다. 안구주위 구역은 눈 및 눈 주위의 부분들, 이를테면, 예컨대 눈꺼풀, 눈썹, 속눈썹 및 눈 주변의 피부(이는 고유의 결을 가질 수 있음)를 포함한다. 예컨대, 사람의 누관의 특정 구조는 정보를 식별하는 것을 제공할 수 있다. 따라서, DNN에 의한 안구주위 구역의 분석은 단지 홍채만의 분석보다 (임베딩을 통한) 더 강력한 생체인식 서명을 제공할 수 있다.

[0070] 눈 인증 트레이너(104)는 선택적으로 홍채 추출기를 포함할 수 있다. 홍채 추출기는 세그먼트화된 눈 이미지를 생성하기 위해, 세그먼트화된 홍채 이미지를 생성하도록 눈 이미지의 홍채 부분을 추출하거나, 눈 이미지의 다른 부분, 이를테면 홍채를 둘러싸는 공막 부분을 추출하도록 눈 이미지를 세그먼트화할 수 있다. 눈 인증 트레이너(104)는 세그먼트화된 홍채 이미지들을 사용하여 딥 뉴럴 네트워크(112)를 트레이닝할 수 있다. 홍채 추출기는 상이한 구현들에서 상이할 수 있다. 예컨대, 홍채 추출기는 딥 뉴럴 네트워크를 사용하여 구현될 수 있다. 딥 뉴럴 네트워크는 도 1, 도 2, 또는 도 3에 예시된 아키텍처를 가질 수 있다. 다른 예로서, 홍채 추출기는 다른 공지된 홍채 세그먼트화 기법들, 이를테면, 미적분 연산자(예컨대, Daugman 방법), Hough 변환, 지오데식 액티브 윤곽들, 에지들이 없는 액티브 윤곽들, 방향성 광선 검출 방법, Wilde 방법, Camus 및 Wilde 방법, Martin-Roche 방법 또는 이의 임의의 조합에 기반한 기법들을 활용할 수 있다.

[0071] 일부 구현들에서, 홍채 세그먼트화들을 수행하기 위해 컴퓨터 비전 기법들이 사용될 수 있다. 컴퓨터 비전 모듈은 하나 또는 그 초과의 컴퓨터 비전 기법들을 구현할 수 있다. 컴퓨터 비전 기법들의 비-제한적인 예들은: SIFT(scale-invariant feature transform), SURF(speeded up robust features), ORB(oriented FAST and rotated BRIEF), BRISK(binary robust invariant scalable keypoints), FREAK(fast retina keypoint), Viola-Jones 알고리즘, Eigenfaces 접근법, Lucas-Kanade 알고리즘, Horn-Schunk 알고리즘, Mean-shift 알고리즘, vSLAM(visual simultaneous location and mapping) 기법들, 순차적 베이지안 추정기(예컨대, 칼만 필터, 확장된 칼만 필터, 등), 번들 조절, 적응형 임계화(및 다른 임계화 기법들), ICP(Iterative Closest Point), SGM(Semi Global Matching), SGBM(Semi Global Block Matching), 특징 포인트 히스토그램들, 다양한 머신 학습 알고리즘들(이를테면, 예컨대, 서포트 벡터 머신, k-니어리스트 이웃 알고리즘, Naive Bayes, 뉴럴 네트워크(콘벌루셔널 또는 딥 뉴럴 네트워크들을 포함함), 또는 다른 감독된/비감독된 모델들 등) 등을 포함한다.

[0072] 눈 이미지는 동일한 사람의 다수의 눈 이미지들을 사용하여 생성된 합성 이미지일 수 있다. 동일한 사람의 다수의 눈 이미지들은, 예컨대, 비디오의 다수의 프레임들로서 시간상 근접하게 캡처될 수 있다. 일부 실시예들에서, (Img; Label) 쌍들의 트레이닝 세트 T1에서 눈 이미지들 중 일부는 비디오의 다수의 프레임들로부터 추출된다. 사람의 눈 이미지들은 사람의 시계열적 눈 이미지들을 포함할 수 있다.

[0073] 트레이닝 세트 T1의 사이즈는 매우 클 수 있다. 예컨대, 트레이닝 세트 T1은 10⁶개의 (Img; Label) 쌍들을 포함할 수 있다. 트레이닝 세트 T1은 상이한 구현들에서 다수의 사람들의 눈 이미지들을 포함할 수 있다. 예컨대, 트레이닝 세트 T는 1,000명의 사람들의 눈 이미지들을 포함할 수 있다. 각각의 사람에 대해, 트레이닝 세트 T1의 눈 이미지들의 수는 상이한 구현들에서 상이할 수 있다. 예컨대, 각각의 사람에 대해, 트레이닝 세트 T의 눈 이미지들의 수는 1,000일 수 있다. 트리플릿 트레이닝 세트 T2의 사이즈는 매우 클 수 있다. 예컨대, 트리플릿 트레이닝 세트 T2는 10⁶개의 (ImgA; ImgP; ImgN) 트리플릿들을 포함할 수 있다. 트리플릿 트레이닝 세트 T2는 상이한 구현들에서 다수의 사람들의 눈 이미지들을 포함할 수 있다. 예컨대, 트리플릿 트레이닝 세트 T2는 1,000명의 사람들의 눈 이미지들을 포함할 수 있다. 각각의 사람에 대해, 트리플릿 트레이닝 세트 T2의 눈 이미지들의 수는 상이한 구현들에서 상이할 수 있다. 예컨대, 각각의 사람에 대해, 트리플릿 트레이닝 세트 T2의 눈 이미지들의 수는 1,000일 수 있다.

다른 생체인식 정보와의 예시적 조합

[0074] 눈 인증 트레이너(104)는 DNN(deep neural network)(112)을 트레이닝하기 위해 다른 생체인식 식별 정보를 활용할 수 있다. 예컨대, DNN(112)을 트레이닝하기 위해 (Img; Label) 쌍들의 트레이닝 세트 T1을 활용하는 것에 추가로, 눈 인증 트레이너(104)는 동시에 또는 순차적으로 다른 생체인식 정보로 DNN(112)을 트레이닝할 수 있다. 다른 생체인식 정보의 비-제한적인 예들은 피부 톤, 피부 결, 지문들 또는 음성을 포함한다. 일부 구현들에서, 생체인식 정보는 시계열적 생체인식 정보를 포함할 수 있다. 눈 이미지들 및 다른 생체인식 정보로부터, 눈 인증 트레이너(104)는, 눈 이미지 및 다른 생체인식 정보의 조합을 코-임베딩 공간에 맵핑할 수 있는 임베딩(108)을 학습할 수 있다. 사용자 디바이스의 눈 인증자(104)는 눈 이미지 및 다른 생체인식 정보의 코-임베딩 공간으로의 코-임베딩에 기반하여 사용자들을 인증할 수 있다.

[0075] 일부 구현들에서, 다른 생체인식 정보는 눈 이미지를 갖는 코-임베딩 공간으로 코-임베딩되지 않을 수 있다. 예컨대, 사용자 디바이스는 임베딩 공간의 눈 이미지들의 표현들 및 다른 임베딩 공간의 다른 생체인식 정보의 표현들에 기반하여 사용자를 인증할 수 있다. 다른 예로서, 사용자 디바이스는 눈 이미지 공간의 눈 이미지들의 표현들 또는 다른 생체인식 정보의 네이티브 공간의 다른 생체인식 정보에 부분적으로 기반하여 사용자를 인증할 수 있다. 일부 실시예들에서, 사용자 디바이스는 하나 또는 그 초과의 임베딩 공간들 및 하나 또는 그 초과의 코-임베딩 공간들에 기반하여 사용자를 인증할 수 있다. 코-임베딩 공간은 둘 또는 그 초과의 타입들의 생체인식 정보를 코-임베딩할 수 있다. 예컨대, 사용자 디바이스는 눈 이미지들에 대한 임베딩 공간 및 생체인식 정보에 대한 코-임베딩 공간(예컨대, 눈 이미지들에 대한 코-임베딩 공간)에 기반하여 사용자를 인증할 수 있다. 다른 예로서, 코-임베딩 공간은 사용자의 왼쪽 눈의 눈 이미지들 및 사용자의 오른쪽 눈의 눈 이미지들을 임베딩할 수 있다. 코-임베딩은 유리하게 더 양호한 품질(예컨대, 더 높은 진정한 포지티브 레이트, 더 높은 진정한 네거티브 레이트, 더 낮은 동일한 에러 레이트 또는 이의 임의의 조합)을 초래할 수 있다.

임베딩 네트워크의 예시적인 학습

[0076] 딥 뉴럴 네트워크(112)는 Nesterov 모멘텀을 갖는 스토캐스틱 그래디언트 디센트(stochastic gradient descent)를 사용하여 임베딩(108)을 학습하도록 트레이닝되었다. 딥 뉴럴 네트워크(112)는 앵커 임베딩 네트워크(ENetworkA)(124a), 포지티브 임베딩 네트워크(ENetworkP)(124P) 및 네거티브 임베딩 네트워크(ENetworkN)(124n)를 포함하는, 도 1에 예시된 트리플릿 네트워크 아키텍처를 갖는다. 임베딩(108), ENetworkA(124a), ENetworkP(124P) 및 ENetworkN(124n)은 도 2 및 도 3에 예시된 네트워크 아키텍처를 갖는다. 임베딩(108)의 학습 동안의 각각의 반복에서, 64의 배치 사이즈를 갖는 세그먼트화된 홍채 이미지들의 랜덤 트리플릿들 (ImgA; ImgP; ImgN)의 미니-배치가 생성되었다.

[0077] DNN(deep neural network)(112)은 곤란한 트리플릿들로 트레이닝되었다. 딥 뉴럴 네트워크(112)를 트레이닝하기 위해 모든 가능한 랜덤 (ImgA; ImgP; ImgN) 트리플릿들을 사용하는 것은 수학식들 1.1, 1.2, 2.1 또는 2.2에서의 제약을 쉽게 만족시킬 수 있는 많은 트리플릿들을 초래할 수 있다. 이들 트리플릿들은 딥 뉴럴 네트워크(112)의 트레이닝에 실질적으로 기여하지 않을 수 있고 더 느린 수렴을 초래할 수 있다. 딥 뉴럴 네트워크(112)는 임베딩(108)의 학습으로 인한 곤란한 트리플릿들로 트레이닝되었다.

[0078] 곤란한 트리플릿들을 선택하기 위해 하기 절차가 사용되었다. 랜덤 트리플릿들의 미니-배치 중 절반 이하가 곤란한 트리플릿들을 포함하였다. 2개의 상이한 피험자들, S1 및 S2가 선택되었다. ImgA(116a)는 피험자 S1의 세그먼트화된 홍채 이미지들로부터 랜덤으로 샘플링되었다. ImgP(116p) 및 ImgN(116n)에 대한 후보들은 피험자 S1의 홍채 이미지들 및 피험자 S2의 홍채 이미지들로부터 각각 100회 랜덤으로 샘플링되었다. 트리플릿 (ImgA; ImgP; ImgN)은, 만약 이의 대응하는 트리플릿 (EmbA; EmbP; EmbN)이 수학식 1.1에서 가장 큰 값을 초래하고 |EmbA - EmbP| < |EmbA - EmbN|라면 미니-배치에 대해 선택되었다. 이러한 선택 절차는 임베딩(108)을 학습하기 위한 곤란한 트리플릿들을 유리하게 선택하여 개선된 학습 스피드를 초래할 수 있다. 결과적 임베딩(108)은, 임베딩(108)의 학습 동안 오직 랜덤 트리플릿들이 사용된 경우에 비해 유리하게 더 양호한 품질(예컨대, 더 높은 진정한 포지티브 레이트, 더 높은 진정한 네거티브 레이트, 더 낮은 동일한 에러 레이트 또는 이의 조합)을 가질 수 있다.

[0079] 랜덤 트리플릿들의 미니-배치의 나머지 트리플릿들은 랜덤으로 선택되었다. 3개의 동일한 임베딩 네트워크들 ENetworkA(124a), ENetworkP(124p) 또는 ENetworkN(124n)이 트레이닝 동안 매 1,000회 반복들마다 한번 재컴퓨팅되었고, 트리플릿들 (ImgA; ImgP; ImgN)을 맵핑 및 랭킹하기 위해 사용되었다. 매 1,000회 반복들마다 한번 3개의 동일한 임베딩 네트워크들 ENetworkA(124a), ENetworkP(124p) 또는 ENetworkN(124n)을 재컴퓨팅하는 것은 유리하게 랜덤 트리플릿들의 미니-배치를 생성하는 시간을 절감할 수 있다.

[0080] 도 4a 및 도 4b는, 100,000회 반복들 후에, 도 1 내지 도 3에 예시된 딥 네트워크 아키텍처를 갖는 딥 뉴럴 네트워크(112)를 사용하여 임베딩(108)을 학습하는 예시적인 결과들을 도시한다. 도 4a는 동일한 피험자들과 상이한 피험자들의 눈 이미지들 간의 임베딩 공간에서의 거리를 도시하는, 샘플들 대 임베딩 거리의 비의 히스토그램 플롯이다. 동일한 피험자들의 홍채 이미지들은 임베딩 공간에서 서로 더 근접하며, 상이한 피험자들의 홍채 이미지들은 임베딩 공간에서 서로 더 멀리 떨어져 있다.

[0081] 도 4b는 TPR(true positive rate) 대 FPR(false positive rate)의 ROC(receiver operating characteristic) 커브이다. AUC(area under curve)는 98.74%이다. EER(Equal Error Rate) 메트릭은 홍채 이미지들의 테스트 세트에 대한 쌍 단위 검증 품질을 나타낼 수 있다. 랜덤 트리플릿들의 테스트 세트는 랜덤 트리플릿들의 트리플릿 트레이닝 세트 T2를 생성하기 위해 사용되는 피험자들과 상이한 피험자들을 사용하여 생성되었다. 로컬 콘트라스트 정규화를 이용한 테스트 세트의 경우, 5.6% EER이 달성되었다. 로컬 콘트라스트 정규화를 이용하지 않는 경우, 6.8% EER이 달성되었다. 로컬 응답 정규화를 이용하는 경우, 5.3% EER이 달성되었다.

[0082] 딥 뉴럴 네트워크(112)를 트레이닝하기 위해 극 좌표들로 변환된 홍채 이미지들을 사용하여, 3.6% EER이 달성되었다. 이 결과는 하나의 임베딩 공간 표현을 컴퓨팅하기 위한 프레임들의 그룹들을 사용하여 향상될 수 있다. 하나의 접근법은, 딥 뉴럴 네트워크(112)의 n-채널 입력들로서 다수의 홍채 극 이미지들, 예컨대 6-채널 입력들로서 6개의 홍채 이미지들을 사용할 수 있다. n-채널 입력들을 활용하는 것은 딥 뉴럴 네트워크(112)가 신호 융합을 수행할 수 있게 할 수 있다.

[0083] 다른 접근법은 딥 뉴럴 네트워크(112)에서 재순환 계층을 활용할 수 있는데, 예컨대, 재순환 계층은 DNN(112)의 내부에서, DNN(112)의 입력 계층에 더 근접하게 위치될 수 있거나, DNN(112)의 출력 계층에 더 근접하게 위치될 수 있다. 재순환 계층은 딥 뉴럴 네트워크(112)가 임베딩 융합을 수행할 수 있게 할 수 있다. 딥 뉴럴 네트워크(112)는 LSTM(Long Short Term Memory) 블록들을 포함하는 인공 뉴럴 네트워크인 LSTM 아키텍처를 구현할 수 있다. LSTM 블록은 임의의 시간 길이에 대한 값을 기억할 수 있다. LSTM 블록은, 입력이 기억할 정도로 충분히 중요할 때, 값을 계속 기억하거나 잊어버려야 할 때 그리고 값을 출력해야 할 때를 결정할 수 있다.

[0084] 또 다른 접근법은 n-채널 입력들과 재순환 계층을 결합할 수 있다. n-채널 딥 뉴럴 네트워크는 최상의 정확도를 제공할 수 있다. LSTM(Long Short Term Memory) 아키텍처는 n-채널 딥 뉴럴 네트워크와 조합하여서만 정확도를 향상시킬 수 있다. 예컨대, 64개의 극 이미지들 당 하나의 임베딩 공간 표현을 컴퓨팅한 8-채널 LSTM-딥 뉴럴 네트워크는 2.9%의 EER(equal error rate)을 제공했다.

[0085] 도 5a 및 도 5b는, 50,000회 반복 후에, 도 1 내지 도 3에 예시된 딥 네트워크 아키텍처를 갖는 딥 뉴럴 네트워크(112)를 사용하여 임베딩(108)을 학습하는 예시적인 결과를 도시한다. 딥 뉴럴 네트워크(112)는 6-채널 입력들로서 6개의 연속적인 극 이미지들의 그룹들을 사용하여 트레이닝되었다. 도 5a는 동일한 피험자들과 상이한 피험자들의 극 이미지들의 그룹들의 쌍들 간의 임베딩 공간에서의 거리를 도시하는 확률 밀도 대 임베딩 거리의 히스토그램 플롯이다. 도 5b는 TPR(true positive rate) 대 FPR(false positive rate)의 ROC(receiver characteristic) 커브이다. 테스트 세트의 경우, 6-채널 입력들을 이용하여 2.14% EER을 달성했다. 대조적으로, 홍채 코드와 해밍 거리의 조합은 극좌표들로 변환된 홍채 이미지들인 극 홍채 이미지들을 사용하여 8% EER을 제공했다.

예시적인 사용자 디바이스

[0086] 도 6은 사용자 디바이스의 예시적인 눈 인증자(604)의 블록도이다. 눈 인증자(604)는 사용자가 인가된 사용자인지 여부를 결정하도록 구성될 수 있다. 사용자 디바이스는 눈 이미지들을 캡쳐하도록 구성된 이미지 센서(예컨대, 디지털 카메라)를 포함할 수 있다. 사용자를 인증하기 위해, 이미지 센서는 사용자의 눈 이미지(110)를 캡처할 수 있다. 사용자의 눈 이미지로부터, 눈 인증자(604)는 사용자가 임베딩(608)을 사용하는 인가된 사용자인지 여부를 결정할 수 있다. 임베딩(608)은 눈 이미지(110)를 임베딩 공간의 임베딩 공간 표현으로 맵핑할 수 있다.

[0087] 임베딩(608)은 눈 인증 트레이너(104)에 의해 학습된 임베딩(108)과 동일할 수 있거나, 임베딩(608)은 눈 인증 트레이너(104)에 의해 학습된 임베딩(108)과 유사할 수 있다(예컨대, 임베딩(608)은 양자화된 임베딩(108)의 가중치 값들을 가질 수 있다). 임베딩(608)의 아키텍처는 임베딩(108)의 아키텍처와 동일할 수 있거나, 임베딩(608)의 아키텍처는 임베딩(108)의 아키텍처와 유사할 수 있다.

[0088] 일부 실시예들에서, 임베딩(608)은 홍채 세그먼트화들(또는 일부 눈 이미지들 및 일부 홍채 이미지들) 없는 눈 이미지들을 사용하여 트레이닝될 수 있는 반면, 인증 동안 임베딩(608)은 사용자의 눈 이미지의 임베딩 공간 표현을 컴퓨팅한다. 일부 실시예들에서, 임베딩(608)은 홍채 이미지들을 사용하여 트레이닝 될 수 있는 반면, 인증 동안 임베딩(608)은 사용자의 홍채 이미지의 임베딩 공간 표현을 컴퓨팅한다. 이러한 실시예들은 인증 동안 컴퓨테이션들을 유리하게 절감할 수 있다.

[0089] 임베딩(608)의 입력은 상이한 구현들에서 상이할 수 있다. 예컨대, 임베딩(608)의 입력은 눈 이미지(110)일 수 있다. 다른 예로서, 임베딩(608)의 입력은 세그먼트화된 홍채 이미지일 수 있다. 눈 인증자(604)는, 눈 이미지들의 홍채 부분들을 추출하여 세그먼트화된 홍채 이미지들(614)을 생성하도록 눈 이미지들을 세그먼트화하기 위한 홍채 추출기(612)를 선택적으로 포함할 수 있다. 또 다른 예로서, 임베딩(608)의 입력은 임베딩(108)의 입력과 동일할 수 있다.

[0090] 사용자의 눈 이미지(110)(또는 세그먼트화된 홍채 이미지(614))로부터, 임베딩(608)은 사용자의 눈 이미지(EmbImg)(120)의 임베딩 공간 표현을 컴퓨팅할 수 있다. 사용자의 눈 이미지(120)의 임베딩 공간 표현은 임베딩 공간에서 사용자의 눈 이미지(110)의 n-차원 표현일 수 있다. 분류기(616)는 임베딩 공간 표현(120)에 기반하여 사용자가 인가된 사용자인지 여부의 가능성 스코어를 계산할 수 있다. 가능성 스코어에 기반하여, 분류기(616)는 (예컨대, 임계치(132) 값에 기반하여) 사용자가 인가된 사용자인지 여부를 결정할 수 있다.

[0091] 가능성 스코어가 상이한 구현들에서 상이하게 계산될 수 있다. 예컨대, 분류기(616)는 EmbImg(120)와 인가된 사용자의 눈 이미지의 임베딩 공간 표현을 비교하여 가능성 스코어를 계산할 수 있다. 다른 예로서, 분류기(616)는 EmbImg(120)와 인가된 사용자의 2개 또는 그 초과의 눈 이미지들의 임베딩 공간 표현들을 비교하여 가능성 스코어를 계산할 수 있다. EmbImg(120)와 인가된 사용자의 하나 또는 그 초과의 눈 이미지들 간의 거리가 임계 값, 예컨대 눈 인증 트레이너(104)에 의해 결정된 임계 값(132) 내에 있으면, 분류기(616)는 사용자의 눈 이미지가 임베딩 공간에서 인가된 사용자의 눈 이미지와 충분히 유사하여, 사용자가 인가된 사용자로서 인증되어야 한다는 것을 사용자 디바이스에 표시할 수 있다. 임베딩 공간에서의 양쪽 눈 이미지들의 표현들 간의 거리는, 예컨대, 2개의 표현들 간의 유클리드 거리(이를테면, L2 놈) 또는 비-유클리드 거리(예컨대, 쌍곡선 공간)일 수 있다. 사용자 디바이스는 분류기의 결정에 기반하여 사용자를 인증하고 사용자에 대한 액세스를 승인 또는 거절할 수 있다. 일부 구현들에서, 임베딩(608)이 홍채 세그먼트화들(또는 일부 눈 이미지들 및 일부 홍채 이미지들)을 갖는 (또는 이들이 없는) 눈 이미지들을 사용하여 트레이닝되는 경우, 임계 값은 더 클(또는 더 작을) 수 있지만, 인증 동안, 임베딩(608)은 사용자의 눈 이미지(또는 홍채 이미지)의 임베딩 공간 표현을 컴퓨팅한다. 이러한 구현들은 인증 동안 컴퓨테이션들을 유리하게 절감할 수 있다.

[0092] 분류기(616)는 많은 타입들의 분류기들 중 하나일 수 있다. 예컨대, 분류기(616)는 로지스틱 회귀 분류기, 서포트 벡터 머신 분류기, 베이지안 분류기 또는 소프트맥스 분류기와 같은 2진 분류기일 수 있다. 예컨대, 분류기(616)는 다중 클래스 로지스틱 회귀 분류기, 다중 클래스 서포트 벡터 머신 분류기 또는 베이지안 분류기와 같은 다중 클래스 또는 다중 라벨 분류기일 수 있다.

눈 인증을 위한 예시적인 프로세스

[0093] 도 7은 눈 인증을 위한 예시적인 프로세스(700)의 흐름도이다. 눈 인증자(604)는 눈 인증을 위한 예시적인 프로세스(700)를 구현할 수 있다. 프로세스(700)는 블록(704)에서 시작한다. 블록(708)에서, 사용자의 눈 이미지가 수신된다. 예컨대, 사용자 디바이스의 이미지 센서(예컨대, 디지털 카메라)가 사용자의 눈 이미지를 캡처할 수 있다. 블록(708)에서 사용자의 눈 이미지를 수신한 후, 블록(712)에서, 사용자의 눈 이미지는 예컨대, 사용자 디바이스의 홍채 추출기(612)에 의해 홍채 이미지를 생성하도록 선택적으로 세그먼트화될 수 있다. 블록(716)에서, 눈 인증자(604)의 임베딩(608)은 사용자의 홍채 이미지(또는 눈 이미지)의 임베딩 공간 표현을 컴퓨팅할 수 있다. 일부 실시예들에서, 임베딩(608)은 홍채 세그먼트화들(또는 일부 눈 이미지들 및 일부 홍채 이미지들)이 없는 눈 이미지들을 사용하여 트레이닝될 수 있는 반면, 인증 동안 임베딩(608)은 사용자의 눈 이미지의 임베딩 공간 표현을 컴퓨팅한다. 일부 실시예들에서, 임베딩(608)은 홍채 이미지들을 사용하여 트레이닝될 수 있는 반면, 인증 동안 임베딩(608)은 사용자의 홍채 이미지의 임베딩 공간 표현을 컴퓨팅한다. 이러한 실시예들은 인증 동안 컴퓨테이션들을 유리하게 절감할 수 있다.

[0094] 예컨대, 사용자의 홍채 이미지의 임베딩 공간 표현에 기반하여, 눈 인증자(604)의 분류기(616)는 블록(720)에서 사용자가 인가된 사용자인지 여부를 결정할 수 있다. 예컨대, 분류기(616)는 사용자의 홍채 이미지의 임베딩 공간 표현을, 인가된 사용자의 하나 또는 그 초과의 홍채 이미지들의 하나 또는 그 초과의 임베딩 공간 표현들과 비교할 수 있다. 사용자의 홍채 이미지의 임베딩 공간 표현과 인가된 사용자의 하나 또는 그 초과의 홍채 이미지들 간의 거리가 임계 값, 예컨대 눈 인증 트레이너(104)에 의해 결정된 임계 값(132) 내에 있으면, 눈 인증자(604)의 분류기(616)는, 사용자의 홍채 이미지가 임베딩 공간내의 인가된 사용자의 홍채 이미지와 충분히 유사하여, 사용자가 인증된 사용자로서 인증되어야 한다는 것을 사용자 디바이스에 표시할 수 있다. 블록(728)에서, 사용자 디바이스는 예컨대, 블록(720)에서 분류기의 결정에 기반하여 사용자의 액세스를 승인 또는 거절할 수 있다. 프로세스(700)는 블록(728)에서 종료한다.

예시적 눈 인증 시스템

[0095] 도 8은 눈 인증 시스템(800)의 예를 개략적으로 예시한다. 눈 인증 시스템(800)은 눈 인증 트레이닝 시스템(804), 및 하나 또는 그 초과의 인가된 사용자들에 의해 동작되는 하나 또는 그 초과의 사용자 디바이스들을 포함할 수 있다. 예컨대, 제1 인가된 사용자는 제1 사용자 디바이스(808a)를 동작시킬 수 있고, 제2 인가된 사용자는 제2 사용자 디바이스(808b)를 동작시킬 수 있다. 눈 인증 트레이닝 시스템(804) 또는 사용자 디바이스(808a 또는 808b)는, 하나 또는 그 초과의 위치들의 하나 또는 그 초과의 컴퓨터들 상의 컴퓨터 프로그램들로서, 위에서 설명된 시스템들, 컴포넌트들, 또는 기법들을 구현할 수 있다.

[0096] 눈 인증 트레이닝 시스템(804)은, 눈 이미지를 눈 이미지 공간으로부터 눈 인증을 위한 임베딩 공간 표현으로 맵핑할 수 있는 임베딩(108)을 사용자 디바이스(808a 또는 808b)에 제공할 수 있다. 눈 인증 트레이닝 시스템(804)에 의해 사용자 디바이스(808a 또는 808b)에 제공되는 임베딩(108)은, 홍채 이미지 공간으로부터의 홍채 이미지(홍채 이미지는 안구주위 구역의 이미지로부터 세그먼트화될 수 있음)를 홍채 인증을 위한 임베딩 공간 표현으로 맵핑할 수 있다. 눈 인증 트레이닝 시스템(804)은 또한, 사용자의 눈 이미지가 임베딩 공간 내의 인가된 사용자의 눈 이미지와 충분히 유사하여, 사용자가 인가된 사용자로서 인증되어야 하는지의 여부를 결정하는 데 사용될 수 있는 분류기(616) 및/또는 임베딩 공간의 임계값(132)을 사용자 디바이스(808a 또는 808b)에 제공할 수 있다. 사용자 디바이스(802a 또는 802b)는, 직접적으로 눈 인증 트레이닝 시스템(804)으로부터 또는 간접적으로 다른 컴퓨팅 시스템을 통해 눈 인증 트레이닝 시스템(804)으로부터, 임베딩(108)(또는 임베딩(108)의 일부), 임계치(132)(또는 임계치(132)의 일부), 및/또는 분류기(616)(또는 분류기(616)의 일부)를 수신할 수 있다.

[0097] 눈 인증 트레이닝 시스템(804)은, 데스크톱 컴퓨터들, 서버 컴퓨터들, 또는 클라우드 컴퓨팅 시스템들을 포함하는 하드웨어 컴퓨팅 디바이스들 상에 구현될 수 있다. 사용자 디바이스(808a 또는 808b)의 비-제한적인 예들은, 데스크톱 컴퓨터들, 서버 컴퓨터들, 클라우드 컴퓨팅 시스템들, 또는 모바일 컴퓨팅 디바이스들, 이를테면, 모바일 폰들, 태블릿 컴퓨터들, e-리더들, 스마트 워치들, 또는 웨어러블 디스플레이 시스템들(예컨대, 도 9를 참조하여 설명된 머리 장착 디스플레이(900) 참조)을 포함한다.

[0098] 사용자 디바이스(808a 또는 808b)와 눈 인증 트레이닝 시스템(804) 간의 통신을 가능하게 하기 위해, 사용자 디바이스(808a 또는 808b)는 눈 인증 트레이닝 시스템 인터페이스(812a 또는 812b)를 포함할 수 있고, 눈 인증 트레이닝 시스템(804)은 사용자 디바이스 인터페이스(812c)를 포함할 수 있다. 눈 인증 트레이닝 시스템 인터페이스(812a 또는 812b)는 네트워크 인터페이스를 사용하여 사용자 디바이스 인터페이스(812c)와 통신할 수 있다. 사용자 인터페이스(812c)는 동기식으로 또는 비동기식으로 네트워크 인터페이스를 사용하여 눈 인증 트레이닝 시스템 인터페이스(812a 또는 812b)와 통신할 수 있다. 서로 통신하기 위해 인증 트레이닝 시스템 인터페이스(812a 또는 812b) 또는 사용자 인터페이스(812c)에 의해 사용되는 비-제한적인 예시적인 프로토콜들은, TCP(transmission control protocol), UDP(user datagram protocol) 또는 HTTP(hypertext transfer protocol)을 포함한다. 사용자 인터페이스(812c)는 웹 서버로서 구현될 수 있다. 인증 트레이닝 시스템 인터페이스(812a 또는 812b)는 웹 클라이언트로서 구현될 수 있다.

[0099] 사용자 디바이스(808a 또는 808b)는 사용자의 생체인식 정보를 캡처하기 위한 하나 또는 그 초과의 센서들을 포함할 수 있다. 예컨대, 사용자 디바이스(808a 또는 808b)는, 인가된 사용자들의 눈 이미지들을 포함하는, 사용자들의 눈 이미지들을 캡처하기 위한 하나의 이미지 센서(예컨대, 디지털 카메라)를 포함할 수 있다. 다른 예로서, 사용자 디바이스(808a 또는 808b)는, 다른 생체인식 정보, 이를테면, 피부 톤, 피부 결, 지문들, 또는 음성을 캡처하기 위한 하나 또는 그 초과의 센서들을 포함할 수 있다.

[0100] 사용자를 인증하기 위해, 사용자 디바이스(808a 또는 808b)는, 이미지 센서를 사용하여 사용자의 눈 이미지를 캡처할 수 있다. 눈 이미지는 눈의 안구주위 구역을 포함할 수 있다. 눈은 가시광 또는 적외선 광을 사용하여 이미징될 수 있다. 눈 이미지를 캡처한 후, 사용자 디바이스(808a 또는 808b)의 눈 인증자(604a 또는 604b)는, 눈 이미지 공간으로부터의 눈 이미지를, 임베딩(108)을 사용하여, 임베딩 공간 표현, 즉, 임베딩 공간의 눈 이미지의 n-엘리먼트 표현으로 맵핑할 수 있다. 일부 실시예들에서, 눈 이미지를 캡처한 후, 사용자 디바이스(808a 또는 808b)의 눈 인증자(604a 또는 604b)는 선택적으로, 눈 이미지를 세그먼트화하여, 눈 이미지의 홍채 부분을 추출하고 사용자의 세그먼트화된 홍채 이미지를 생성할 수 있다. 사용자의 홍채 이미지를 생성한 후, 사용자 디바이스(808a 또는 808b)의 눈 인증자(604a 또는 604b)는, 임베딩(108)을 사용하여, 홍채 이미지 공간으로부터의 홍채 이미지를 임베딩 공간의 홍채 이미지의 표현으로 맵핑할 수 있다.

[0101] 사용자를 인증하기 위해, 눈 인증자(604a 또는 604b)는, 임베딩 공간의 인가된 사용자의 하나 또는 그 초과의 눈 이미지들의 임베딩 공간 표현들과 임베딩 공간의 캡처된 눈 이미지의 임베딩 공간 표현 간의 거리를 결정할 수 있다. 사용자의 눈 이미지와 인가된 사용자의 눈 이미지의 임베딩 공간 표현들 간의 거리가 임계값(128) 이내이면, 눈 인증자(604a 또는 604b)는, 사용자의 눈 이미지가 인가된 사용자의 눈 이미지와 충분히 유사하여, 사용자가 인가된 사용자로서 인증되어야 한다고 고려할 수 있다. 사용자 디바이스(808a 또는 808b)는, 눈 인증자(604a 또는 604b)가 사용자를 인가된 사용자로서 인증할 수 있는지 여부에 기반하여, 사용자 디바이스(808a 또는 808b)에 대한 사용자 액세스를 승인 또는 거절할 수 있다. 2개의 임베딩 공간 표현들 간의 거리는, 예컨대, 2개의 임베딩 공간 표현들 간의 유클리드 거리(이를테면, L2 놈) 또는 비-유클리드 거리(예컨대, 쌍곡선 공간)일 수 있다.

[0102] 눈 인증자(604a 또는 604b)에 의해 수행되는 컴퓨테이션들은 사용자 디바이스(808a 또는 808b)의 컴포넌트들 또는 사용자 디바이스(808a 또는 808b)와 연관된 또는 통신하는 컴포넌트들에 걸쳐 분배될 수 있다. 일부 실시예들에서, 사용자 디바이스(808a 또는 808b)는 로컬 프로세싱 모듈 및 로컬 데이터 저장소(예컨대, 도 9에 예시된 로컬 프로세싱 및 데이터 모듈(924))를 포함할 수 있다. 사용자 디바이스(808a 또는 808b)는 원격 프로세싱 모듈(예컨대, 도 9의 원격 프로세싱 모듈(928)) 및/또는 원격 데이터 저장소(예컨대, 도 9의 원격 데이터 저장소(932))를 포함하거나 또는 그와 통신할 수 있다. 사용자 디바이스(808a 또는 808b)는 전체 임베딩(108)(또는 임베딩(108)의 일부) 및/또는 전체 분류기(616)(또는 분류기(616)의 일부)를 저장할 수 있다. 사용자를 인증하기 위해, 사용자 디바이스(808a 또는 808b)는, 이미지 센서를 사용하여 사용자의 눈 이미지를 캡처할 수 있다. 눈 이미지를 캡처한 후, 사용자 디바이스(808a 또는 808b)의 눈 인증자(604a 또는 604b)는, 임베딩(108)을 사용하여, 눈 이미지 공간으로부터의 눈 이미지를 임베딩 공간 표현으로 맵핑할 수 있다.

[0103] 사용자 디바이스(808a 또는 808b)의 로컬 프로세싱 모듈 및/또는 원격 프로세싱 모듈은, 임베딩(108)을 사용하여, 눈 이미지 공간으로부터의 눈 이미지를 임베딩 공간 표현으로 맵핑하기 위해, 눈 인증자(604a 또는 604b)에 의해 사용될 수 있다. 예컨대, 임베딩(108)은 원격 데이터 저장소에 저장될 수 있고, 원격 프로세싱 모듈은 임베딩(108)을 사용하여 눈 이미지 공간으로부터의 눈 이미지를 임베딩 공간 표현으로 맵핑할 수 있다. 다른 예로서, 임베딩(108)(또는 임베딩(108)의 부분들)은 로컬 데이터 저장소 및 원격 데이터 저장소 둘 모두에 저장될 수 있고, 로컬 프로세싱 모듈 및 원격 프로세싱 모듈은 함께, 임베딩(108)을 사용하여 눈 이미지 공간으로부터의 눈 이미지를 임베딩 공간 표현으로 맵핑할 수 있다. 로컬 프로세싱 모듈 및 원격 프로세싱 모듈은 각각 맵핑 프로세스 또는 컴퓨테이션의 일부를 수행할 수 있다. 또 다른 예로서, 눈 이미지로부터 임베딩 공간 표현으로의 맵핑은 로컬 프로세싱 모듈 및 원격 프로세싱 모듈에 걸쳐 분배될 수 있다. 맵핑 프로세스의 분배는 로컬 프로세싱 모듈 및/또는 원격 프로세싱 모듈의 워크로드에 기반하여 결정되거나 또는 미리 결정될 수 있다. 대안적으로 또는 부가적으로, 맵핑 프로세스의 분배는 로컬 프로세싱 모듈 및/또는 원격 프로세싱 모듈이 이용가능한 에너지(예컨대, 배터리 전력)에 기반할 수 있다.

[0104] 일부 실시예들에서, 사용자 디바이스(808a 또는 808b)(예컨대, 로컬 프로세싱 모듈 및/또는 원격 프로세싱 모듈을 사용함) 및/또는 다른 컴퓨팅 시스템(예컨대, 클라우드 상의 컴퓨팅 시스템 또는 사용자 디바이스(808a 또는 808b)의 컴패니언 컴퓨팅 시스템)은, 임베딩(108)을 사용하여, 눈 이미지 공간으로부터의 눈 이미지를 임베딩 공간 표현으로 맵핑하기 위해, 눈 인증자(604a 또는 604b)에 의해 사용될 수 있다. 컴퓨팅 시스템은 전체 임베딩(108)(또는 임베딩(108)의 일부) 및/또는 전체 분류기(616)(또는 분류기(616)의 일부)를 저장 및 사용할 수 있다. 예컨대, 사용자 디바이스(808a 또는 808b)는 눈 이미지를 다른 컴퓨팅 시스템에 송신할 수 있다. 눈 이미지를 임베딩 공간 표현으로 맵핑한 후, 컴퓨팅 시스템은 임베딩 공간 표현을 다시(back) 사용자 디바이스(808a 또는 808b)에 송신할 수 있다. 다른 예로서, 눈 이미지로부터 임베딩 공간 표현으로의 맵핑은 사용자 디바이스(808a 또는 808b) 및 컴퓨팅 시스템에 걸쳐 분배될 수 있다. 맵핑 프로세스의 분배는 사용자 디바이스(808a 또는 808b) 및/또는 컴퓨팅 시스템의 워크로드에 기반하여 결정될 수 있다. 대안적으로 또는 부가적으로, 맵핑 프로세스의 분배는, 사용자 디바이스(808a 또는 808b)가 이용가능한 에너지(예컨대, 배터리 전력), 사용자 디바이스(808a 또는 808b)의 잔여 배터리 전력, 및/또는 컴퓨팅 시스템에 기반할 수 있다.

[0105] 맵핑 프로세스가 사용자 디바이스(808a 또는 808b)에 의해 수행되든, 로컬 프로세싱 모듈에 의해 수행되든, 원격 프로세싱 모듈에 의해 수행되든, 그리고/또는 다른 컴퓨팅 시스템에 의해 수행되든, 사용자 디바이스(808a 또는 808b), 로컬 프로세싱 모듈, 원격 프로세싱 모듈 및/또는 컴퓨팅 시스템은, 임베딩 공간의 인가된 사용자의 하나 또는 그 초과의 눈 이미지들의 임베딩 공간 표현들과 임베딩 공간의 캡처된 눈 이미지의 임베딩 공간 표현 간의 거리를 결정하기 위해, 눈 인증자(604a 또는 604b)에 의해 사용될 수 있다. 예컨대, 사용자 디바이스(808a 또는 808b)는, 눈 이미지의 임베딩 공간 표현을 생성하고 임베딩 공간 표현을 컴퓨팅 시스템에 송신하기 위해 맵핑 프로세스(또는 맵핑 프로세스의 일부)를 수행할 수 있다. 컴퓨팅 시스템은 차례로, 임베딩 공간의 인가된 사용자의 하나 또는 그 초과의 눈 이미지들의 임베딩 공간 표현들과 임베딩 공간의 캡처된 눈 이미지의 임베딩 공간 표현 간의 거리를 결정할 수 있다. 컴퓨팅 시스템은, 그 거리를 사용자 디바이스(808a 또는 808b)에 송신할 수 있고, 사용자 디바이스(808a 또는 808b)는 차례로, 그 거리에 기반하여 사용자를 인증할 수 있거나, 또는 컴퓨팅 시스템은 사용자 디바이스(808a 또는 808b)가 사용자를 인증해야 하는지 여부를 결정하고, 그 결정을 사용자 디바이스(808a 또는 808b)에 송신할 수 있다. 다른 예로서, 컴퓨팅 시스템은 눈 이미지의 임베딩 공간 표현을 생성하기 위해 맵핑 프로세스(또는 맵핑 프로세스의 일부)를 수행할 수 있다. 컴퓨팅 시스템은 사용자 디바이스(808a 또는 808b)에, 임베딩 공간 표현, 임베딩 공간의 인가된 사용자의 하나 또는 그 초과의 눈 이미지들의 임베딩 공간 표현들과 캡처된 눈 이미지의 임베딩 공간 표현 간의 거리, 및/또는 사용자 디바이스(808a 또는 808b)가 사용자를 인증해야 하는지 여부의 결정을 송신할 수 있다. 사용자 디바이스(808a 또는 808b)는 수신된 임베딩 공간 표현, 거리, 또는 인증 결정을 사용하여 사용자를 인증할 수 있다.

[0106] 사용자 디바이스(808a 또는 808b), 로컬 프로세싱 모듈, 로컬 데이터 저장소, 원격 프로세싱 모듈, 원격 데이터 저장소, 및/또는 다른 컴퓨팅 시스템 간의 송신 또는 통신은 암호화되거나 암호화되지 않을 수 있다. 예컨대, 사용자 디바이스(808a 또는 808b)와 컴퓨팅 시스템 간의 송신은 암호화될 수 있다. 다른 예로서, 로컬 프로세싱 모듈과 원격 프로세싱 모듈 간의 송신은 암호화되지 않을 수 있다.

[0107] 눈 인증자(604a 또는 604b)가 사용자를 인가된 사용자로서 인증한 후에, 눈 인증자(604a 또는 604b)는, 사용자 디바이스 인터페이스(812c) 또는 눈 인증 트레이닝 시스템 인터페이스(812a 또는 812b)를 통해, 사용자를 인증하는 데 사용된 눈 이미지를 눈 인증 트레이너(104)에 제공할 수 있다. 눈 인증자(604a 또는 604b)에 의해 제공되는 인증된 사용자들의 눈 이미지들로부터, 눈 인증 트레이너(104)는, 업데이트된 임베딩(108) 또는 업데이트된 임계값(128) 중 하나 또는 그 초과를 규칙적인 인터벌들로 컴퓨팅할 수 있다. 눈 인증 트레이닝 시스템(804)은, 사용자 디바이스 인터페이스(812c) 또는 눈 인증 트레이닝 시스템 인터페이스(812a 또는 812b)를 통해, 업데이트된 임베딩(108), 업데이트된 임베딩 공간에서의 업데이트된 임계값(128), 및/또는 업데이트된 분류기(616)를 사용자 디바이스(808a 또는 808b)에 제공할 수 있다. 눈 인증 트레이닝 시스템(804)으로부터 사용자 디바이스(808a 또는 808b)로의, 업데이트된 임베딩(108), 업데이트된 임베딩 공간에서의 업데이트된 임계값(128), 및/또는 업데이트된 분류기(616)의 송신은, 암호화되거나 암호화되지 않을 수 있다.

[0108] 규칙적인 인터벌들은 시간-기반일 수 있다. 예컨대, 규칙적인 인터벌들은 한 시간, 하루, 또는 한 달에 한 번일 수 있다. 규칙적인 인터벌들은, 사용자 디바이스(808a 또는 808b)에 의한 성공적인 인증들의 수에 기반할 수 있다. 예컨대, 규칙적인 인터벌들은 1,000번의 성공적인 인증들마다 한 번일 수 있다. 규칙적인 인터벌들은, 눈 인증자(604a 또는 604b)에 의해 눈 인증 트레이너(104)에 제공되는 인증된 눈 이미지들의 수에 기반할 수 있다. 예컨대, 규칙적인 인터벌들은, 눈 인증자(604a 또는 604b)에 의해 눈 인증 트레이너(104)에 제공되는 1,000개의 인증된 눈 이미지들마다 한 번일 수 있다.

[0109] 사용자 디바이스(808a 또는 808b) 또는 눈 인증 트레이닝 시스템(804)은, 사용자 디바이스들(808a 또는 808b) 또는 눈 인증 트레이닝 시스템(804)이 파워-온될 때 명령들 및 데이터를 저장하기 위한 메모리, 예컨대 RAM(random access memory)에 저장된 명령들을 실행하기 위한 하드웨어 프로세서를 포함할 수 있다. 메모리는 판독 전용, 비-휘발성, 기록가능, 또는 휘발성 메모리를 포함할 수 있다. 사용자 디바이스(808a 또는 808b) 또는 눈 인증 트레이닝 시스템(804)은, 사용자 디바이스(808a 또는 808b) 또는 눈 인증 트레이닝 시스템(804)이 파워-온 또는 파워-오프될 때 명령들 또는 데이터를 저장하기 위한 스토리지를 포함할 수 있다. 메모리 또는 스토리지 중 하나 또는 둘 모두는 임베딩(108) 또는 임계값(128)을 저장할 수 있다.

[0110] 사용자 디바이스(808a 또는 808b) 또는 눈 인증 트레이닝 시스템(804) 각각은 데이터 통신 네트워크(816) 또는 클라우드 상의 다른 디바이스들과 통신하기 위한 네트워크 인터페이스를 포함할 수 있다. 네트워크 인터페이스의 비-제한적인 예들은, 유선 통신, 무선 통신, 셀룰러 통신, 또는 블루투스®, RF(radio frequency), 또는 IR(infrared)을 사용하는 통신을 포함한다. 데이터 통신 네트워크(826)의 비-제한적인 예들은, LAN(local area network), WAN(wide area network), 또는 인터넷을 포함한다.

예시적인 웨어러블 디스플레이 시스템

[0111] 사용자 디바이스(808a 또는 808b)는 웨어러블 디스플레이 디바이스일 수 있거나 그에 포함될 수 있으며, 웨어러블 디스플레이 디바이스는 유리하게, 더 몰입형의 VR(virtual reality), AR(augmented reality), 또는 MR(mixed reality) 경험을 제공할 수 있고, 여기서, 디지털 방식으로 재생된 이미지들 또는 이미지들의 부분들은, 이들이 실제인 것으로 보이거나 실제로서 지각될 수 있는 방식으로 착용자에게 제시된다.

[0112] 이론에 제한되지 않는다면, 인간의 눈은 전형적으로 깊이 지각을 제공하기 위해 유한한 수의 깊이 평면들을 해석할 수 있는 것으로 여겨진다. 결과적으로, 지각된 깊이의 매우 믿을 만한 시뮬레이션은, 눈에, 이들 제한된 수의 깊이 평면들 각각에 대응하는 이미지의 상이한 프리젠테이션들을 제공함으로써 달성될 수 있다. 예컨대, 도파관들의 스택을 포함하는 디스플레이들은 사용자 또는 뷰어의 눈들 앞에 포지셔닝되어 착용되도록 구성될 수 있다. 도파관들의 스택은 이미지 주사(injection) 디바이스(예컨대, 이미지 정보를 하나 또는 그 초과의 광섬유들을 통해 파이핑(pipe)하는 멀티플렉싱된 디스플레이의 이산 디스플레이들 또는 출력단들)로부터의 광을 특정 도파관과 연관된 깊이 평면에 대응하는 특정 각도들(및 발산 양들)로 뷰어의 눈으로 지향시키기 위해 복수의 도파관들을 사용함으로써 3-차원 지각을 눈/뇌에 제공하는 데 활용될 수 있다.

[0113] 일부 실시예들에서, 도파관들의 2개의 스택들(뷰어의 각각의 눈마다 하나씩)은 각각의 눈에 상이한 이미지들을 제공하는 데 활용될 수 있다. 일 예로서, 증강 현실 장면은, AR 장비의 착용자가 배경 내의 사람들, 나무들, 빌딩들, 및 콘크리트 플랫폼을 특징으로 하는 실세계 공원형 세팅을 보는 정도일 수 있다. 이들 아이템들에 외에도, AR 장비의 착용자는 또한, 그가 실세계 플랫폼 상에 서 있는 로봇 동상, 및 호박벌의 의인화인 것으로 보이는 날고 있는 만화형 아바타 캐릭터를, 로봇 동상 및 호박벌이 실세계에 존재하지 않음에도 불구하고 "보고 있다"고 지각할 수 있다. 도파관들의 스택(들)은 입력 이미지에 대응하는 라이트 필드를 생성하는 데 사용될 수 있고, 일부 구현들에서, 웨어러블 디스플레이는 웨어러블 라이트 필드 디스플레이를 포함한다. 라이트 필드 이미지들을 제공하기 위한 웨어러블 디스플레이 디바이스 및 도파관 스택들의 예들은 미국 특허 공개 번호 제2015/0016777호에 설명되며, 상기 특허는 이로써 상기 특허가 포함하는 모든 것에 대해 그 전체가 인용에 의해 본원에 포함된다.

[0114] 도 9는, 착용자에게 AR, VR, 또는 MR 경험을 제공하는 데 사용될 수 있는 웨어러블 디스플레이 시스템(900)의 예를 예시한다. 웨어러블 디스플레이 시스템(900)은, 본원에서 설명된 애플리케이션들 또는 실시예들 중 임의의 것을 제공하도록 눈 인증자(604)를 수행하게 프로그래밍될 수 있다. 디스플레이 시스템(900)은, 디스플레이(908), 및 그 디스플레이(908)의 기능을 지원하는 다양한 기계 및 전자 모듈들 및 시스템들을 포함한다. 디스플레이(908)는 프레임(912)에 커플링될 수 있고, 프레임(912)은 디스플레이 시스템 착용자 또는 뷰어(904)에 의해 착용가능하고, 착용자(904)의 눈들 앞에 디스플레이(908)를 포지셔닝하도록 구성된다. 디스플레이(908)는 라이트 필드 디스플레이일 수 있다. 일부 실시예들에서, 스피커(916)는 프레임(912)에 커플링되고 사용자의 외이도(ear canal)에 인접하게 포지셔닝되며, 일부 실시예들에서, 도시되지 않은 다른 스피커가 사용자의 다른 하나의 외이도에 인접하게 포지셔닝되어 스테레오/형상화가능 사운드 제어를 제공한다. 디스플레이(908)는 다양한 구성들로 장착될 수 있는, 이를테면 프레임(912)에 고정되게 부착되거나, 사용자에 의해 착용된 헬멧 또는 모자에 고정되게 부착되거나, 헤드폰들에 임베딩되거나, 또는 그렇지 않으면 (예컨대, 백팩-스타일 구성으로, 벨트-커플링 스타일 구성으로) 사용자(904)에게 제거가능하게 부착되는 로컬 데이터 프로세싱 모듈(924)에, 이를테면 유선 리드 또는 무선 연결에 의해 동작가능하게 커플링(920)된다.

[0115] 로컬 프로세싱 및 데이터 모듈(924)은 하드웨어 프로세서뿐만 아니라, 비-일시적 디지털 메모리, 이를테면 비-휘발성 메모리, 예컨대, 플래시 메모리를 포함할 수 있으며, 이들 둘 모두는 데이터의 프로세싱, 캐싱(caching) 및 저장을 돕는 데 활용될 수 있다. 데이터는 (a) 센서들(예컨대, 프레임(912)에 동작가능하게 커플링되거나 또는 그렇지 않으면 착용자(904)에게 부착될 수 있음), 이를테면 이미지 캡처 디바이스들(이를테면 카메라들), 마이크로폰들, 관성 측정 유닛들, 가속도계들, 컴퍼스(compass)들, GPS 유닛들, 라디오 디바이스들, 및/또는 자이로(gyro)들로부터 캡처된 데이터; 및/또는 (b) 원격 프로세싱 모듈(928) 및/또는 원격 데이터 저장소(932)를 사용하여 획득 및/또는 프로세싱되고, 가능하게는, 그러한 프로세싱 또는 리트리벌(retrieval) 후 디스플레이(908)에 전달되는 데이터를 포함한다. 로컬 프로세싱 및 데이터 모듈(924)은, 통신 링크들(936, 940)에 의해, 이를테면 유선 또는 무선 통신 링크들을 통해, 원격 프로세싱 모듈(928) 및 원격 데이터 저장소(932)에 동작가능하게 커플링될 수 있음으로써, 이들 원격 모듈들(928, 932)은 서로 동작가능하게 커플링되고, 로컬 프로세싱 및 데이터 모듈(924)에 대한 리소스들로서 이용가능하다. 원격 프로세싱 모듈(928) 및/또는 원격 데이터 저장소(932)는, 머리 장착 디스플레이(900)의 일부일 수 있고, 머리 장착 디스플레이(900)의 컴패니언 디바이스의 일부일 수 있고, 로컬 프로세싱 & 데이터 모듈(924)과 동일한 네트워크 상에 있을 수 있고, 그리고/또는 클라우드 상에 있을 수 있다.

[0116] 일부 실시예들에서, 원격 프로세싱 모듈(928)은 데이터 및/또는 이미지 정보, 이를테면 이미지 캡처 디바이스에 의해 캡처된 비디오 정보를 분석 및 프로세싱하도록 구성되는 하나 또는 그 초과의 프로세서들을 포함할 수 있다. 비디오 데이터는 로컬 프로세싱 및 데이터 모듈(924) 및/또는 원격 데이터 저장소(932)에 로컬로 저장될 수 있다. 일부 실시예들에서, 원격 데이터 저장소(932)는 "클라우드" 리소스 구성에서 인터넷 또는 다른 네트워킹 구성을 통해 이용가능할 수 있는 디지털 데이터 저장 설비를 포함할 수 있다. 일부 실시예들에서, 모든 데이터는 저장되고 모든 컴퓨테이션들은 로컬 프로세싱 및 데이터 모듈(924)에서 수행되고, 이는 원격 모듈로부터 완전히 자율적인 사용을 허용한다.

[0117] 일부 구현들에서, 로컬 프로세싱 및 데이터 모듈(924) 및/또는 원격 프로세싱 모듈(928)은, 본원에 개시된 눈 인증자(604)의 실시예들을 수행하도록 프로그래밍된다. 이미지 캡처 디바이스는, 특정 애플리케이션들의 경우 눈 이미지들 및 홍채 이미지들(예컨대, 인증 애플리케이션을 위한 착용자의 눈의 눈 이미지들 및 홍채 이미지들, 또는 식별 애플리케이션을 위한 착용자 이외의 사람의 눈의 눈 이미지들 및 홍채 이미지들)을 캡처할 수 있다. 눈 이미지들 및 홍채 이미지들은 프로세싱 모듈들(924, 928) 중 하나 또는 둘 모두에 의해 눈 인증자(604)를 사용하여 분석될 수 있다. 일부 경우들에서, 눈 인증자(604) 분석의 적어도 일부를 (예컨대, "클라우드"에 있는) 원격 프로세싱 모듈로 오프-로딩(off-loading)하는 것은 컴퓨테이션들의 효율 또는 속도를 개선할 수 있다. 눈 인증자(604)의 파라미터들(예컨대, 풀링 계층들에 대한 서브샘플링 팩터(subsampling factor)들, 입력 사이즈, 개수, 커널 사이즈, 다양한 계층들의 스트라이드 등)이 데이터 모듈들(924 및/또는 928)에 저장될 수 있다.

[0118] 이미지 분석의 결과들(예컨대, 눈 인증 트레이너(104)의 출력)은, 부가적인 동작들 또는 프로세싱을 위해 프로세싱 모듈들(924, 928) 중 하나 또는 둘 모두에 의해 사용될 수 있다. 예컨대, 다양한 애플리케이션들에서, 생체인식 식별, 눈-추적, 제스처들, 오브젝트들, 포즈들 등의 인식 또는 분류가 웨어러블 디스플레이 시스템(900)에 의해 사용될 수 있다. 예컨대, 눈 인증 트레이너(104)는 착용자(904)의 캡처된 눈 이미지들 또는 홍채 이미지들을 분석하여 착용자(904)를 인증할 수 있고, 시스템(900)은, 착용자의 인증에 대한 응답으로 적절한 동작(예컨대, 착용자(904)의 새로운 이메일들을 디스플레이함)을 수행할 수 있다. 다른 예로서, 눈 인증자(604)를 수행하는 프로세싱 모듈들(924, 928)은, 착용자의 주변에 있는 사람들을 식별하기 위해 착용자의 주변에 있는 사람들의 눈 이미지들 또는 홍채 이미지들을 분석할 수 있다. 웨어러블 디스플레이 시스템(900)의 프로세싱 모듈들(924, 928)은, 하나 또는 그 초과의 적절한 눈 인증 트레이너(104)로 본원에서 설명된 비디오 또는 이미지 프로세싱 애플리케이션들 중 임의의 것을 수행하게 하도록 프로그래밍될 수 있다.

부가적인 양상들

[0119] 제1 양상에서, 홍채 인증을 위한 방법이 개시된다. 방법은 하드웨어 프로세서의 제어 하에서 수행되며, 눈의 제1 이미지를 수신하는 단계; 임베딩 공간 표현을 생성하기 위해 딥 뉴럴 네트워크를 사용하여 눈의 제1 이미지를 프로세싱하는 단계; 및 눈의 제1 이미지가 인가된 사용자의 눈의 이미지일 가능성 스코어를 계산하기 위해 분류기를 사용하여 임베딩 공간 표현을 프로세싱하는 단계를 포함한다.

[0120] 제2 양상에서, 양상1의 방법에 있어서, 딥 뉴럴 네트워크는 복수의 계층들을 포함하며, 복수의 계층들은 풀링 계층, 밝기 정규화 계층, 컨벌루셔널 계층, 인셉션-형 계층, 정류한 선형 계층, 소프트사인 계층, 또는 이의 임의의 조합을 포함한다.

[0121] 제3 양상에서, 양상2의 방법에 있어서, 밝기 정규화 계층은 로컬 콘트라스트 정규화 계층 또는 로컬 응답 정규화 계층이다.

[0122] 제4 양상에서, 양상1 내지 양상3 중 어느 한 양상의 방법에 있어서, 딥 뉴럴 네트워크는 트리플릿 네트워크를 포함한다.

[0123] 제5 양상에서, 양상4의 방법에 있어서, 트리플릿 네트워크는 복수의 사람들의 눈 이미지들로부터 딥 뉴럴 네트워크를 학습하도록 구성되고, 동일한 사람으로부터의 눈 이미지들에 대한 임베딩 공간 표현에서의 거리는 상이한 사람들로부터의 눈 이미지들에 대한 임베딩 공간 표현에서의 거리보다 더 짧다.

[0124] 제6 양상에서, 양상1 내지 양상5 중 어느 한 양상의 방법에 있어서, 눈의 제1 이미지가 사용자로부터 수신되며, 방법은 가능성 스코어에 기반하여 사용자 디바이스에 대한 사용자 액세스를 승인 또는 거절하는 단계를 더 포함한다.

[0125] 제7 양상에서, 양상6의 방법에 있어서, 눈의 제1 이미지는 사용자 디바이스의 이미지 센서에 의해 캡처된다.

[0126] 제8 양상에서, 양상1 내지 양상7 중 어느 한 양상의 방법에 있어서, 임베딩 공간 표현은 단위 길이를 갖는다.

[0127] 제9 양상에서, 양상1 내지 양상8 중 어느 한 양상의 방법에 있어서, 분류기는 유클리드 거리에 기반하여 가능성 스코어를 생성한다.

[0128] 제10 양상에서, 양상1 내지 양상9 중 어느 한 양상의 방법에 있어서, 분류기는 2진 분류기, 로지스틱 회귀 분류기, 서포트 벡터 머신 분류기, 베이지안 분류기, 소프트맥스 분류기, 또는 이의 임의의 조합이다.

[0129] 제11 양상에서, 양상1 내지 양상10 중 어느 한 양상의 방법에 있어서, 눈의 홍채의 제2 이미지를 생성하기 위해 눈의 제1 이미지를 세그먼트화하는 단계를 더 포함하며, 눈의 제1 이미지를 프로세싱하는 단계는 임베딩 공간 표현을 생성하기 위해 딥 뉴럴 네트워크를 사용하여 눈의 홍채의 제2 이미지를 프로세싱하는 단계를 포함한다.

[0130] 제12 양상에서, 양상1 내지 양상11 중 어느 한 양상의 방법에 있어서, 눈의 제1 이미지는 대부분 눈의 홍채 및 망막으로 구성된다.

[0131] 제13 양상에서, 양상1 내지 양상12 중 어느 한 양상의 방법에 있어서, 눈의 제1 이미지는 대부분 눈의 망막으로 구성된다.

[0132] 제14 양상에서, 양상1 내지 양상13 중 어느 한 양상의 방법에 있어서, 임베딩 공간 표현은 n 차원이고, 임베딩 공간 표현의 엘리먼트들의 대부분은 통계적으로 독립적이다.

[0133] 제15 양상에서, 홍채 인증을 위해 임베딩 네트워크를 트레이닝하기 위한 방법이 개시된다. 방법은 하드웨어 프로세서의 제어 하에서 수행되며, 복수의 계층들을 포함하는 딥 뉴럴 네트워크를 생성하는 단계 ― 복수의 계층들의 각각의 계층은 복수의 계층들의 적어도 다른 계층에 연결됨 ―; 복수의 사람들의 눈 이미지들을 포함하는 트레이닝 세트를 딥 뉴럴 네트워크에 제공하는 단계; 및 딥 뉴럴 네트워크를 사용하여 복수의 눈 이미지들의 임베딩 공간 표현들을 컴퓨팅하는 단계를 포함하며, 동일한 사람의 복수의 눈 이미지들의 임베딩 공간 표현들은 임계치 내에 있다.

[0134] 제16 양상에서, 양상15의 방법에 있어서, 딥 뉴럴 네트워크를 사용하여 복수의 눈 이미지들의 임베딩 공간 표현들을 컴퓨팅하는 단계는 동일한 사람들 및 상이한 사람들의 눈 이미지들의 임베딩 공간 표현들 간의 거리들에 기반하여 딥 뉴럴 네트워크를 업데이트하는 단계를 포함한다.

[0135] 제17 양상에서, 양상15 또는 양상16의 방법에 있어서, 복수의 계층들은 풀링 계층, 밝기 정규화 계층, 컨벌루셔널 계층, 인셉션-형 계층, 정류한 선형 계층, 소프트사인 계층, 또는 이의 임의의 조합을 포함한다.

[0136] 제18 양상에서, 양상15 내지 양상17 중 어느 한 양상의 방법에 있어서, 딥 뉴럴 네트워크는 트리플릿 네트워크를 포함한다.

[0137] 제19 양상에서, 양상18의 방법에 있어서, 트리플릿 네트워크는 눈 이미지들의 트리플릿들을 사용하여 트레이닝 세트로부터 딥 뉴럴 네트워크를 학습하며, 트리플릿의 양쪽 눈 이미지들은 동일한 사람으로부터의 이미지이고, 트리플릿의 제3 눈 이미지는 상이한 사람으로부터의 이미지이다.

[0138] 제20 양상에서, 인가된 사용자의 홍채 인증을 위한 방법이 개시된다. 방법은 하드웨어 프로세서의 제어 하에서 수행되며, 눈의 이미지를 수신하는 단계; 극 좌표들로 눈의 이미지의 표현을 생성하기 위해 눈의 이미지를 프로세싱하는 단계; 임베딩 공간 표현을 생성하기 위해 딥 뉴럴 네트워크를 사용하여 극 좌표들의 눈의 이미지의 표현을 프로세싱하는 단계; 및 눈의 이미지가 인가된 사용자의 눈의 이미지일 가능성 스코어를 생성하기 위해 분류기를 사용하여 임베딩 공간 표현을 프로세싱하는 단계를 포함한다.

[0139] 제21 양상에서, 인가된 사용자의 홍채 인증을 위한 방법이 개시된다. 방법은 하드웨어 프로세서의 제어 하에서 수행되며, 제1 눈의 제1 이미지 및 제2 눈의 제2 이미지를 수신하는 단계; 제1 눈의 제1 임베딩 공간 표현 및 제2 눈의 제2 임베딩 공간 표현을 생성하기 위해 딥 뉴럴 네트워크를 사용하여 제1 눈의 제1 이미지 및 제2 눈의 제2 이미지를 프로세싱하는 단계; 및 제1 눈의 제1 이미지가 인가된 사용자의 왼쪽 눈의 이미지이고 제2 눈의 제2 이미지가 인가된 사용자의 오른쪽 눈의 이미지일 가능성 스코어를 생성하기 위해 분류기를 사용하여 제1 임베딩 공간 표현 및 제2 임베딩 공간 표현을 프로세싱하는 단계를 포함한다.

[0140] 제22 양상에서, 인가된 사용자의 홍채 인증을 위한 방법이 개시된다. 방법은 하드웨어 프로세서의 제어 하에서 수행되며, 눈의 이미지 및 적어도 하나의 다른 생체인식 정보를 수신하는 단계; 임베딩 공간 표현을 생성하기 위해 딥 뉴럴 네트워크를 사용하여 눈의 이미지 및 적어도 하나의 다른 생체인식 정보를 프로세싱하는 단계; 및 눈의 이미지가 인가된 사용자의 눈의 이미지이고 적어도 하나의 다른 생체인식 정보가 인가된 사용자의 생체인식 정보일 가능성 스코어를 생성하기 위해 분류기를 사용하여 임베딩 공간 표현을 프로세싱하는 단계를 포함한다.

[0141] 제23 양상에서, 인가된 사용자의 홍채 인증을 위한 방법이 개시된다. 방법은 하드웨어 프로세서의 제어 하에서 수행되며, 눈의 이미지를 수신하는 단계; 임베딩 공간 표현을 생성하기 위해 딥 뉴럴 네트워크를 사용하여 눈의 이미지를 프로세싱하는 단계; 적어도 하나의 다른 생체인식 정보를 수신하는 단계; 및 눈의 이미지가 인가된 사용자의 눈의 이미지이고 적어도 하나의 다른 생체인식 정보가 인가된 사용자의 생체인식 정보일 가능성 스코어를 생성하기 위해 분류기를 사용하여 임베딩 공간 표현 및 적어도 하나의 다른 생체인식 정보를 프로세싱하는 단계를 포함한다.

[0142] 제24 양상에서, 컴퓨터 시스템이 개시된다. 컴퓨터 시스템은 하드웨어 프로세서; 및 명령들이 저장된 비-일시적 메모리를 포함하며, 명령들은 하드웨어 프로세서에 의해 실행될 때, 하드웨어 프로세서로 하여금 양상1 내지 양상23 중 어느 한 양상의 방법을 수행하게 한다.

[0143] 제25 양상에서, 양상24의 컴퓨터 시스템에 있어서, 컴퓨터 시스템은 모바일 디바이스이다.

[0144] 제26 양상에서, 양상25의 컴퓨터 시스템에 있어서, 모바일 디바이스는 웨어러블 디스플레이 시스템이다.

[0145] 제27 양상에서, 양상26의 컴퓨터 시스템에 있어서, 머리-장착 디스플레이로서 구성된다.

[0146] 제28 양상에서, 양상24 내지 양상27 중 어느 한 양상의 컴퓨터 시스템에 있어서, 눈 이미지들을 캡처하기 위한 이미지 센서를 더 포함한다.

[0147] 제29 양상에서, 양상24 내지 양상29 중 어느 한 양상의 컴퓨터 시스템에 있어서, 라이트 필드 디스플레이를 더 포함한다.

[0148] 제30 양상에서, 웨어러블 디스플레이 시스템이 개시된다. 웨어러블 디스플레이 시스템은, 디스플레이; 사용자의 눈의 제1 이미지를 캡처하도록 구성된 이미지 캡처 디바이스; 실행 가능한 명령들을 저장하도록 구성된 비-일시적 메모리; 및 디스플레이, 이미지 캡처 디바이스, 및 비-일시적 메모리와 통신하는 하드웨어 프로세서를 포함하며, 하드웨어 프로세서는, 눈의 제1 이미지를 수신하고; 임베딩 공간 표현을 생성하기 위해 딥 뉴럴 네트워크를 사용하여 눈의 제1 이미지를 프로세싱하며; 그리고 눈의 제1 이미지가 인가된 사용자의 눈의 이미지일 가능성 스코어를 계산하기 위해 분류기를 사용하여 임베딩 공간 표현을 프로세싱하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0149] 제31 양상에서, 양상30의 웨어러블 디스플레이 시스템에 있어서, 딥 뉴럴 네트워크(또는 딥 뉴럴 네트워크의 일부)는 비-일시적 메모리에 저장된다.

[0150] 제32 양상에서, 양상30 또는 양상31의 웨어러블 디스플레이 시스템에 있어서, 분류기(또는 분류기의 일부)는 비-일시적 메모리에 저장된다.

[0151] 제33 양상에서, 양상30 내지 양상32 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 딥 뉴럴 네트워크는 복수의 계층들을 포함하며, 복수의 계층들은 풀링 계층, 밝기 정규화 계층, 컨벌루셔널 계층, 인셉션-형 계층, 정류한 선형 계층, 소프트사인 계층, 또는 이의 임의의 조합을 포함한다.

[0152] 제34 양상에서, 양상33의 웨어러블 디스플레이 시스템에 있어서, 밝기 정규화 계층은 로컬 콘트라스트 정규화 계층, 로컬 응답 정규화 계층, 또는 이의 조합을 포함한다.

[0153] 제35 양상에서, 양상30 내지 양상34 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 딥 뉴럴 네트워크는 트리플릿 네트워크를 포함한다.

[0154] 제36 양상에서, 양상35의 웨어러블 디스플레이 시스템에 있어서, 트리플릿 네트워크는 복수의 사람들의 눈 이미지들로부터 딥 뉴럴 네트워크를 학습하도록 구성되고, 동일한 사람으로부터의 눈 이미지들에 대한 임베딩 공간 표현에서의 거리는 상이한 사람들로부터의 눈 이미지들에 대한 임베딩 공간 표현에서의 거리보다 짧다.

[0155] 제37 양상에서, 양상30 내지 양상36 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 하드웨어 프로세서는 가능성 스코어에 기반하여 웨어러블 디스플레이 시스템에 대한 사용자 액세스를 승인 또는 거절하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0156] 제38 양상에서, 양상30 내지 양상37 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 임베딩 공간 표현은 단위 길이를 갖는다.

[0157] 제39 양상에서, 양상30 내지 양상38 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 분류기는 유클리드 거리에 기반하여 가능성 스코어를 생성한다.

[0158] 제40 양상에서, 양상30 내지 양상39 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 분류기는 2진 분류기, 로지스틱 회귀 분류기, 서포트 벡터 머신 분류기, 베이지안 분류기, 소프트맥스 분류기, 또는 이의 임의의 조합이다.

[0159] 제41 양상에서, 양상30 내지 양상40 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 하드웨어 프로세서는 눈의 홍채의 제2 이미지를 생성하기 위해 눈의 제1 이미지를 세그먼트화하도록 실행 가능한 명령들에 의해 프로그래밍되고, 눈의 제1 이미지를 프로세싱하기 위해, 하드웨어 프로세서는 임베딩 공간 표현을 생성하기 위해 딥 뉴럴 네트워크를 사용하여 눈의 홍채의 제2 이미지를 프로세싱하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0160] 제42 양상에서, 양상30 내지 양상41 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 눈의 제1 이미지는 대부분 눈의 홍채 및 망막으로 구성된다.

[0161] 제43 양상에서, 양상30 내지 양상42 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 눈의 제1 이미지는 대부분 눈의 망막으로 구성된다.

[0162] 제44 양상에서, 양상30 내지 양상43 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 임베딩 공간 표현은 n-차원 벡터이고, 임베딩 공간 표현의 엘리먼트들의 대부분은 통계적으로 독립적이다.

[0163] 제45 양상에서, 홍채 인증을 위한 임베딩 네트워크를 트레이닝하기 위한 시스템은: 실행 가능한 명령들을 저장하는 컴퓨터-판독가능 메모리; 및 적어도: 복수의 계층들을 포함하는 딥 뉴럴 네트워크에 액세스하고 ― 복수의 계층들의 각각의 계층은 복수의 계층들 중 적어도 다른 계층에 연결됨 ―; 복수의 사람들의 눈 이미지들을 포함하는 트레이닝 세트를 딥 뉴럴 네트워크에 제공하고; 그리고 딥 뉴럴 네트워크를 사용하여 복수의 눈 이미지들의 임베딩 공간 표현들을 컴퓨팅하도록 실행 가능한 명령들에 의해 프로그래밍되는 하나 또는 그 초과의 하드웨어-기반 하드웨어 프로세서들을 포함하며, 동일한 사람의 복수의 눈 이미지들의 임베딩 공간 표현들은 임계치 내에 있다.

[0164] 제46 양상에서, 양상45의 시스템에 있어서, 딥 뉴럴 네트워크를 사용하여 복수의 눈 이미지들의 임베딩 공간 표현들을 컴퓨팅하기 위한 명령들은: 동일한 사람들과 상이한 사람들의 눈 이미지들의 임베딩 공간 표현들 간의 거리들에 기반하여 딥 뉴럴 네트워크를 업데이트하기 위한 명령들을 포함한다.

[0165] 제47 양상에서, 양상45 내지 양상46 중 어느 한 양상의 시스템에 있어서, 복수의 계층들은 풀링 계층, 밝기 정규화 계층, 컨벌루셔널 계층, 인셉션-형 계층, 정류한 선형 계층, 소프트사인 계층, 또는 이의 임의의 조합을 포함한다.

[0166] 제48 양상에서, 양상45 내지 양상47 중 어느 한 양상의 시스템에 있어서, 딥 뉴럴 네트워크는 트리플릿 네트워크를 포함한다.

[0167] 제49 양상에서, 양상48의 시스템에 있어서, 트리플릿 네트워크는 눈 이미지들의 트리플릿들을 사용하여 트레이닝 세트로부터 딥 뉴럴 네트워크를 학습하고, 트리플릿의 양쪽 눈 이미지들은 동일한 사람으로부터의 이미지들이고, 트리플릿의 제3 눈 이미지는 상이한 사람으로부터의 이미지이다.

[0168] 제50 양상에서, 머리 장착 디스플레이 시스템이 개시된다. 머리 장착 디스플레이 시스템은: 디스플레이; 사용자의 눈의 제1 이미지를 캡처하도록 구성된 이미지 캡처 디바이스; 실행 가능한 명령들을 저장하도록 구성된 비-일시적 메모리; 및 디스플레이, 이미지 캡처 디바이스 및 비-일시적 메모리와 통신하는 하드웨어 프로세서를 포함하고, 하드웨어 프로세서는 눈의 제1 이미지를 수신하고; 극 좌표들로 눈의 제1 이미지의 표현을 생성하기 위해 눈의 제1 이미지를 프로세싱하고; 임베딩 공간 표현을 생성하기 위해 딥 뉴럴 네트워크를 사용하여 극 좌표들의 눈의 제1 이미지의 표현을 프로세싱하고; 그리고 눈의 이미지가 인가된 사용자의 눈의 이미지일 가능성 스코어를 생성하기 위해 분류기를 사용하여 임베딩 공간 표현을 프로세싱하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0169] 제51 양상에서, 양상50의 머리 장착 디스플레이 시스템에 있어서, 딥 뉴럴 네트워크(또는 딥 뉴럴 네트워크의 일부)는 비-일시적 메모리에 저장된다.

[0170] 제52 양상에서, 양상50 내지 양상51 중 어느 한 양상의 머리 장착 디스플레이 시스템에 있어서, 분류기(또는 분류기의 일부)는 비-일시적 메모리에 저장된다.

[0171] 제53 양상에서, 양상50 내지 양상52 중 어느 한 양상의 머리 장착 디스플레이 시스템에 있어서, 딥 뉴럴 네트워크는 복수의 계층들을 포함하고, 복수의 계층들은 풀링 계층, 밝기 정규화 계층, 컨벌루셔널 계층, 인셉션-형 계층, 정류한 선형 계층, 소프트사인 계층, 또는 이의 임의의 조합을 포함한다.

[0172] 제54 양상에서, 양상53의 머리 장착 디스플레이 시스템에 있어서, 밝기 정규화 계층은 로컬 콘트라스트 정규화 계층, 로컬 응답 정규화 계층, 또는 이의 조합을 포함한다.

[0173] 제55 양상에서, 양상52 내지 양상54 중 어느 한 양상의 머리 장착 디스플레이 시스템에 있어서, 딥 뉴럴 네트워크는 트리플릿 네트워크를 포함한다.

[0174] 제56 양상에서, 양상55의 머리 장착 디스플레이 시스템에 있어서, 트리플릿 네트워크는 복수의 사람들의 눈 이미지들로부터 딥 뉴럴 네트워크를 학습하도록 구성되고, 동일한 사람으로부터의 눈 이미지들에 대한 임베딩 공간 표현에서의 거리는 상이한 사람들로부터의 눈 이미지들에 대한 임베딩 공간 표현에서의 거리보다 더 짧다.

[0175] 제57 양상에서, 양상52 내지 양상56 중 어느 한 양상의 머리 장착 디스플레이 시스템에 있어서, 하드웨어 프로세서는 가능성 스코어에 기반하여 머리 장착 디스플레이 시스템에 대한 사용자 액세스를 승인 또는 거절하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0176] 제58 양상에서, 양상52 내지 양상57 중 어느 한 양상의 머리 장착 디스플레이 시스템에 있어서, 임베딩 공간 표현은 단위 길이를 갖는다.

[0177] 제59 양상에서, 양상52 내지 양상58 중 어느 한 양상의 머리 장착 디스플레이 시스템에 있어서, 분류기는 유클리드 거리에 기반하여 가능성 스코어를 생성한다.

[0178] 제60 양상에서, 양상52 내지 양상59 중 어느 한 양상의 머리 장착 디스플레이 시스템에 있어서, 분류기는 2진 분류기, 로지스틱 회귀 분류기, 서포트 벡터 머신 분류기, 베이지안 분류기, 소프트맥스 분류기, 또는 이의 임의의 조합이다.

[0179] 제61 양상에서, 양상52 내지 양상60 중 어느 한 양상의 머리 장착 디스플레이 시스템에 있어서, 하드웨어 프로세서는 눈의 홍채의 제2 이미지를 생성하기 위해 눈의 제1 이미지를 세그먼트화하도록 실행 가능한 명령들에 의해 프로그래밍되고, 눈의 제1 이미지를 프로세싱하기 위해, 하드웨어 프로세서는 임베딩 공간 표현을 생성하기 위해 딥 뉴럴 네트워크를 사용하여 눈의 홍채의 제2 이미지를 프로세싱하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0180] 제62 양상에서, 양상52 내지 양상61 중 어느 한 양상의 머리 장착 디스플레이 시스템에 있어서, 눈의 제1 이미지는 대부분 눈의 홍채 및 망막으로 구성된다.

[0181] 제63 양상에서, 양상52 내지 양상62 중 어느 한 양상의 머리 장착 디스플레이 시스템에 있어서, 눈의 제1 이미지는 대부분 눈의 망막으로 구성된다.

[0182] 제64 양상에서, 양상52 내지 양상63 중 어느 한 양상의 머리 장착 디스플레이 시스템에 있어서, 임베딩 공간 표현은 n-차원 벡터이고, 임베딩 공간 표현의 엘리먼트들의 대부분은 통계적으로 독립적이다.

[0183] 제65 양상에서, 웨어러블 디스플레이 시스템이 개시된다. 웨어러블 디스플레이 시스템은: 디스플레이; 사용자의 제1 눈의 제1 이미지 및 사용자의 제2 눈의 제2 이미지를 캡처하도록 구성된 이미지 캡처 디바이스; 실행 가능한 명령들을 저장하도록 구성된 비-일시적 메모리; 및 디스플레이, 이미지 캡처 디바이스 및 비-일시적 메모리와 통신하는 하드웨어 프로세서를 포함하고, 하드웨어 프로세서는 제1 눈의 제1 이미지 및 제2 눈의 제2 이미지를 수신하고; 제1 눈의 제1 임베딩 공간 표현 및 제2 눈의 제2 임베딩 공간 표현을 생성하기 위해 딥 뉴럴 네트워크를 사용하여 제1 눈의 제1 이미지 및 제2 눈의 제2 이미지를 프로세싱하고; 그리고 제1 눈의 제1 이미지가 인가된 사용자의 왼쪽 눈의 이미지이고 제2 눈의 제2 이미지가 인가된 사용자의 오른쪽 눈의 이미지일 가능성 스코어를 생성하기 위해 분류기를 사용하여 제1 임베딩 공간 표현 및 제2 임베딩 공간 표현을 프로세싱하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0184] 제66 양상에서, 양상65의 웨어러블 디스플레이 시스템에 있어서, 딥 뉴럴 네트워크(또는 딥 뉴럴 네트워크의 일부)는 비-일시적 메모리에 저장된다.

[0185] 제67 양상에서, 양상65 또는 양상66의 웨어러블 디스플레이 시스템에 있어서, 분류기(또는 분류기의 일부)는 비-일시적 메모리에 저장된다.

[0186] 제68 양상에서, 양상65 내지 양상67 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 딥 뉴럴 네트워크는 복수의 계층들을 포함하고, 복수의 계층들은 풀링 계층, 밝기 정규화 계층, 컨벌루셔널 계층, 인셉션-형 계층, 정류한 선형 계층, 소프트사인 계층, 또는 이의 임의의 조합을 포함한다.

[0187] 제69 양상에서, 양상68의 웨어러블 디스플레이 시스템에 있어서, 밝기 정규화 계층은 로컬 콘트라스트 정규화 계층, 로컬 응답 정규화 계층, 또는 이의 조합을 포함한다.

[0188] 제70 양상에서, 양상65 내지 양상69 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 딥 뉴럴 네트워크는 트리플릿 네트워크를 포함한다.

[0189] 제71 양상에서, 양상70의 웨어러블 디스플레이 시스템에 있어서, 트리플릿 네트워크는 복수의 사람들의 눈 이미지들로부터 딥 뉴럴 네트워크를 학습하도록 구성되고, 동일한 사람으로부터의 눈 이미지들에 대한 임베딩 공간 표현에서의 거리는 상이한 사람들로부터의 눈 이미지들에 대한 임베딩 공간 표현에서의 거리보다 더 짧다.

[0190] 제72 양상에서, 양상65 내지 양상71 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 하드웨어 프로세서는 가능성 스코어에 기반하여 웨어러블 디스플레이 시스템에 대한 사용자 액세스를 승인 또는 거절하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0191] 제73 양상에서, 양상65 내지 양상72 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 임베딩 공간 표현은 단위 길이를 갖는다.

[0192] 제74 양상에서, 양상65 내지 양상73 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 분류기는 유클리드 거리에 기반하여 가능성 스코어를 생성한다.

[0193] 제75 양상에서, 양상65 내지 양상74 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 분류기는 2진 분류기, 로지스틱 회귀 분류기, 서포트 벡터 머신 분류기, 베이지안 분류기, 소프트맥스 분류기, 또는 이의 임의의 조합이다.

[0194] 제76 양상에서, 양상65 내지 양상75 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 하드웨어 프로세서는, 눈의 홍채의 제3 이미지를 생성하기 위해 눈의 제1 이미지를 세그먼트화하고; 그리고 눈의 홍채의 제4 이미지를 생성하기 위해 눈의 제2 이미지를 세그먼트화하도록 실행 가능한 명령들에 의해 프로그래밍되고, 제1 눈의 제1 이미지 및 제2 눈의 제2 이미지를 프로세싱하기 위해서, 하드웨어 프로세서는 제1 눈의 제1 임베딩 공간 표현 및 제2 눈의 제2 임베딩 공간 표현을 생성하기 위해 딥 뉴럴 네트워크를 사용하여 제1 눈의 제3 이미지 및 제2 눈의 제4 이미지를 프로세싱하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0195] 제77 양상에서, 양상65 내지 양상76 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 눈의 제1 이미지는 대부분 눈의 홍채 및 망막으로 구성된다.

[0196] 제78 양상에서, 양상65 내지 양상77 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 눈의 제1 이미지는 대부분 눈의 망막으로 구성된다.

[0197] 제79 양상에서, 양상65 내지 양상78 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 임베딩 공간 표현은 n-차원 벡터이고, 임베딩 공간 표현의 엘리먼트들의 대부분은 통계적으로 독립적이다.

[0198] 제80 양상에서, 웨어러블 디스플레이 시스템이 개시된다. 웨어러블 디스플레이 시스템은, 디스플레이; 눈의 제1 이미지를 캡처하도록 구성된 이미지 캡처 디바이스; 적어도 하나의 다른 생체인식 정보를 캡처하도록 구성된 생체인식 정보 캡처 디바이스; 실행 가능한 명령들을 저장하도록 구성된 비-일시적 메모리; 및 디스플레이, 생체인식 정보 캡처 디바이스, 이미지 캡처 디바이스, 및 비-일시적 메모리와 통신하는 하드웨어 프로세서를 포함하고, 하드웨어 프로세서는, 눈의 제1 이미지 및 적어도 하나의 다른 생체인식 정보를 수신하고; 임베딩 공간 표현을 생성하기 위해 딥 뉴럴 네트워크를 사용하여 눈의 이미지 및 적어도 하나의 다른 생체인식 정보를 프로세싱하고; 그리고 눈의 이미지가 인가된 사용자의 눈의 이미지이고 적어도 하나의 다른 생체인식 정보가 인가된 사용자의 생체인식 정보일 가능성 스코어를 생성하기 위해 분류기를 사용하여 임베딩 공간 표현을 프로세싱하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0199] 제81 양상에서, 양상80의 웨어러블 디스플레이 시스템에 있어서, 딥 뉴럴 네트워크(또는 딥 뉴럴 네트워크의 부분)는 비-일시적 메모리에 저장된다.

[0200] 제82 양상에서, 양상80 또는 양상81의 웨어러블 디스플레이 시스템에 있어서, 분류기(또는 분류기의 부분)는 비-일시적 메모리에 저장된다.

[0201] 제83 양상에서, 양상80 내지 양상82 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 딥 뉴럴 네트워크는 복수의 계층들을 포함하고, 복수의 계층들은 풀링 계층, 밝기 정규화 계층, 컨벌루셔널 계층, 인셉션-형 계층, 정류한 선형 계층, 소프트사인 계층, 또는 이의 임의의 조합을 포함한다.

[0202] 제84 양상에서, 양상83의 웨어러블 디스플레이 시스템에 있어서, 밝기 정규화 계층은 로컬 콘트라스트 정규화 계층, 로컬 응답 정규화 계층, 또는 이의 조합을 포함한다.

[0203] 제85 양상에서, 양상80 내지 양상84 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 딥 뉴럴 네트워크는 트리플릿 네트워크를 포함한다.

[0204] 제86 양상에서, 양상85의 웨어러블 디스플레이 시스템에 있어서, 트리필릿 네트워크는 복수의 사람들의 눈 이미지들 및 복수의 사람들의 적어도 하나의 다른 생체인식 정보로부터 딥 뉴럴 네트워크를 학습하도록 구성되고, 동일한 사람으로부터의 눈 이미지들에 대한 임베딩 공간 표현 및 적어도 하나의 다른 생체인식 정보에서의 거리는 상이한 사람들로부터의 눈 이미지들에 대한 임베딩 공간 표현 및 적어도 하나의 다른 생체인식 정보에서의 거리보다 짧다.

[0205] 제87 양상에서, 양상80 내지 양상86 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 하드웨어 프로세서는 가능성 스코어에 기반하여 웨어러블 디스플레이 시스템에 대한 사용자 액세스를 승인 또는 거절하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0206] 제88 양상에서, 양상80 내지 양상87 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 임베딩 공간 표현은 단위 길이를 갖는다.

[0207] 제89 양상에서, 양상80 내지 양상88 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 분류기는 유클리드 거리에 기반하여 가능성 스코어를 생성한다.

[0208] 제90 양상에서, 양상80 내지 양상89 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 분류기는 2진 분류기, 로지스틱 회귀 분류기, 서포트 벡터 머신 분류기, 베이지안 분류기, 소프트맥스 분류기, 또는 이의 임의의 조합이다.

[0209] 제91 양상에서, 양상80 내지 양상90 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 하드웨어 프로세서는 눈의 홍채의 제2 이미지를 생성하기 위해 눈의 제1 이미지를 세그먼트화하도록 실행 가능한 명령들에 의해 프로그래밍되고; 그리고 눈의 제1 이미지를 프로세싱하기 위해서, 하드웨어 프로세서는 임베딩 공간 표현을 생성하기 위해 딥 뉴럴 네트워크를 사용하여 눈의 홍채의 제2 이미지를 프로세싱하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0210] 제92 양상에서, 양상80 내지 양상91 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 눈의 제1 이미지는 대부분 눈의 홍채 및 망막으로 구성된다.

[0211] 제93 양상에서, 양상80 내지 양상92 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 눈의 제1 이미지는 대부분 눈의 망막으로 구성된다.

[0212] 제94 양상에서, 양상80 내지 양상93 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 임베딩 공간 표현은 n-차원 벡터이고, 임베딩 공간 표현의 엘리먼트들의 대부분은 통계적으로 독립적이다.

[0213] 제95 양상에서, 웨어러블 디스플레이 시스템이 개시된다. 웨어러블 디스플레이 시스템은 디스플레이; 눈의 제1 이미지를 캡처하도록 구성된 이미지 캡처 디바이스; 적어도 하나의 다른 생체인식 정보를 캡처하도록 구성된 생체인식 정보 캡처 디바이스; 실행 가능한 명령들을 저장하도록 구성된 비-일시적 메모리; 및 디스플레이, 생체인식 정보 캡처 디바이스, 이미지 캡처 디바이스, 및 비-일시적 메모리와 통신하는 하드웨어 프로세서를 포함하고, 하드웨어 프로세서는, 눈의 제1 이미지를 수신하고; 제1 임베딩 공간 표현을 생성하기 위해 제1 딥 뉴럴 네트워크를 사용하여 눈의 제1 이미지를 프로세싱하고; 적어도 하나의 다른 생체인식 정보를 수신하며; 그리고 눈의 이미지가 인가된 사용자의 눈의 이미지이고 적어도 하나의 다른 생체인식 정보가 인가된 사용자의 생체인식 정보일 가능성 스코어를 생성하기 위해 분류기를 사용하여 제1 임베딩 공간 표현 및 적어도 하나의 다른 생체인식 정보를 프로세싱하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0214] 제96 양상에서, 양상95의 웨어러블 디스플레이 시스템에 있어서, 제1 딥 뉴럴 네트워크(또는 딥 뉴럴 네트워크의 부분)는 비-일시적 메모리에 저장된다.

[0215] 제97 양상에서, 양상95 또는 양상96의 웨어러블 디스플레이 시스템에 있어서, 분류기(또는 분류기의 부분)는 비-일시적 메모리에 저장된다.

[0216] 제98 양상에서, 양상95 내지 양상97 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 하드웨어 프로세서는 제2 임베딩 공간 표현을 생성하기 위해 제2 딥 뉴럴 네트워크를 사용하여 적어도 하나의 다른 생체인식 정보를 프로세싱하도록 실행 가능한 명령들에 의해 추가로 프로그래밍되고, 눈의 이미지가 인가된 사용자의 눈의 이미지고 적어도 하나의 다른 생체인식 정보가 인가된 사용자의 생체인식 정보일 가능성 스코어를 생성하기 위해 분류기를 사용하여 제1 임베딩 공간 표현 및 적어도 하나의 다른 생체인식 정보를 프로세싱하기 위한 명령들은 눈의 이미지가 인가된 사용자의 눈의 이미지이고 적어도 하나의 다른 생체인식 정보가 인가된 사용자의 생체인식 정보일 가능성 스코어를 생성하기 위해 분류기를 사용하여 제1 임베딩 공간 표현 및 제2 임베딩 공간 표현을 프로세싱하기 위한 명령들을 포함한다.

[0217] 제99 양상에서, 양상95 내지 양상98 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 딥 뉴럴 네트워크는 복수의 계층들을 포함하고, 복수의 계층들은 풀링 계층, 밝기 정규화 계층, 컨벌루셔널 계층, 인셉션-형 계층, 정류한 선형 계층, 소프트사인 계층, 또는 이의 임의의 조합을 포함한다.

[0218] 제100 양상에서, 양상99의 웨어러블 디스플레이 시스템에 있어서, 밝기 정규화 계층은 로컬 콘트라스트 정규화 계층, 로컬 응답 정규화 계층, 또는 이의 조합을 포함한다.

[0219] 제101 양상에서, 양상95 내지 양상100 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 딥 뉴럴 네트워크는 트리플릿 네트워크를 포함한다.

[0220] 제102 양상에서, 양상101의 웨어러블 디스플레이 시스템에 있어서, 트리필릿 네트워크는 복수의 사람들의 눈 이미지들 및 복수의 사람들의 적어도 하나의 다른 생체인식 정보로부터 딥 뉴럴 네트워크를 학습하도록 구성되고, 동일한 사람으로부터의 눈 이미지들에 대한 임베딩 공간 표현 및 적어도 하나의 다른 생체인식 정보에서의 거리는 상이한 사람들로부터의 눈 이미지들에 대한 임베딩 공간 표현 및 적어도 하나의 다른 생체인식 정보에서의 거리보다 짧다.

[0221] 제103 양상에서, 양상95 내지 양상102 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 하드웨어 프로세서는 가능성 스코어에 기반하여 웨어러블 디스플레이 시스템에 대한 사용자 액세스를 승인 또는 거절하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0222] 제104 양상에서, 양상95 내지 양상103 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 제1 임베딩 공간 표현은 단위 길이를 갖는다.

[0223] 제105 양상에서, 양상95 내지 양상104 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 분류기는 유클리드 거리에 기반하여 가능성 스코어를 생성한다.

[0224] 제106 양상에서, 양상95 내지 양상105 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 분류기는 2진 분류기, 로지스틱 회귀 분류기, 서포트 벡터 머신 분류기, 베이지안 분류기, 소프트맥스 분류기, 또는 이의 임의의 조합이다.

[0225] 제107 양상에서, 양상95 내지 양상106 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 하드웨어 프로세서는 눈의 홍채의 제2 이미지를 생성하기 위해 눈의 제1 이미지를 세그먼트화하도록 실행 가능한 명령들에 의해 프로그래밍되고, 그리고 눈의 제1 이미지를 프로세싱하기 위해, 하드웨어 프로세서는 임베딩 공간 표현을 생성하기 위해 딥 뉴럴 네트워크를 사용하여 눈의 홍채의 제2 이미지를 프로세싱하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0226] 제108 양상에서, 양상95 내지 양상107 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 눈의 제1 이미지는 대부분 눈의 홍채 및 망막으로 구성된다.

[0227] 제109 양상에서, 양상95 내지 양상108 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 눈의 제1 이미지는 대부분 눈의 망막으로 구성된다.

[0228] 제110 양상에서, 양상95 내지 양상109 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 임베딩 공간 표현은 n-차원 벡터이고, 임베딩 공간 표현의 엘리먼트들의 대부분은 통계적으로 독립적이다.

[0229] 제111 양상에서, 웨어러블 디스플레이 시스템이 개시된다. 웨어러블 디스플레이 시스템은: 디스플레이; 사용자의 제1 눈의 복수의 제1 이미지들을 캡처하도록 구성된 이미지 캡처 디바이스; 실행 가능한 명령들을 저장하도록 구성된 비-일시적 메모리; 및 디스플레이, 이미지 캡처 디바이스 및 비-일시적 메모리와 통신하는 하드웨어 프로세서를 포함하고, 하드웨어 프로세서는 제1 눈의 복수의 제1 이미지들을 수신하고; 제1 임베딩 공간 표현을 생성하기 위해 딥 뉴럴 네트워크를 사용하여 제1 눈의 복수의 제1 이미지들을 프로세싱하고; 그리고 제1 눈의 복수의 제1 이미지들이 인가된 사용자의 제1 눈의 이미지를 포함할 제1 가능성 스코어를 계산하기 위해, 제1 분류기를 사용하여 제1 임베딩 공간 표현을 프로세싱하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0230] 제112 양상에서, 양상111의 웨어러블 디스플레이 시스템에 있어서, 딥 뉴럴 네트워크(또는 딥 뉴럴 네트워크의 일부)는 비-일시적 메모리에 저장된다.

[0231] 제113 양상에서, 양상111 또는 양상112의 웨어러블 디스플레이 시스템에 있어서, 제1 분류기(또는 분류기의 일부)는 비-일시적 메모리에 저장된다.

[0232] 제114 양상에서, 양상111 내지 양상113 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 딥 뉴럴 네트워크는 복수의 계층들을 포함하고, 복수의 계층들은 풀링 계층, 밝기 정규화 계층, 컨벌루셔널 계층, 인셉션-형 계층, 정류한 선형 계층, 소프트사인 계층, 또는 이의 임의의 조합을 포함한다.

[0233] 제115 양상에서, 양상114의 웨어러블 디스플레이 시스템에 있어서, 밝기 정규화 계층은 로컬 콘트라스트 정규화 계층, 로컬 응답 정규화 계층, 또는 이의 조합을 포함한다.

[0234] 제116 양상에서, 양상111 내지 양상115 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 딥 뉴럴 네트워크는 트리플릿 네트워크를 포함한다.

[0235] 제117 양상에서, 양상116의 웨어러블 디스플레이 시스템에 있어서, 트리플릿 네트워크는 복수의 사람들 각각의 복수의 눈 이미지들로부터 딥 뉴럴 네트워크를 학습하도록 구성되고, 사람의 눈의 눈 이미지들에 대한 제1 임베딩 공간 표현에서의 거리는 상이한 사람들로부터의 눈 이미지들 또는 사람의 상이한 눈들로부터의 눈 이미지들에 대한 제1 임베딩 공간 표현에서의 거리보다 짧다.

[0236] 제118 양상에서, 양상 111 내지 양상 117 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 하드웨어 프로세서는 제1 가능성 스코어에 기반하여 웨어러블 디스플레이 시스템에 대한 사용자 액세스를 승인 또는 거절하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0237] 제119 양상에서, 양상111 내지 양상118 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 제1 임베딩 공간 표현은 단위 길이를 갖는다.

[0238] 제120 양상에서, 양상111 내지 양상119 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 분류기는 유클리드 거리에 기반하여 제1 가능성 스코어를 생성한다.

[0239] 제121 양상에서, 양상111 내지 양상120 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 분류기는 2진 분류기, 로지스틱 회귀 분류기, 서포트 벡터 머신 분류기, 베이지안 분류기, 소프트맥스 분류기, 또는 이의 임의의 조합이다.

[0240] 제122 양상에서, 양상111 내지 양상121 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 하드웨어 프로세서는 제1 눈의 홍채의 복수의 제2 이미지들을 생성하기 위해 제1 눈의 복수의 제1 이미지들을 세그먼트화하도록 실행 가능한 명령들에 의해 프로그래밍되고, 그리고 제1 눈의 복수의 제1 이미지들을 프로세싱하기 위해, 하드웨어 프로세서는 제1 임베딩 공간 표현을 생성하기 위해 딥 뉴럴 네트워크를 사용하여 눈의 홍채의 복수의 제2 이미지들을 프로세싱하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0241] 제123 양상에서, 양상111 내지 양상122 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 눈의 복수의 제1 이미지들은 각각, 대부분 눈의 홍채 및 망막으로 구성된다.

[0242] 제124 양상에서, 양상111 내지 양상123 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 눈의 복수의 제1 이미지들은 각각, 대부분 눈의 망막으로 구성된다.

[0243] 제125 양상에서, 양상111 내지 양상124 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 제1 임베딩 공간 표현은 n-차원 벡터이고, 제1 임베딩 공간 표현의 엘리먼트들의 대부분은 통계적으로 독립적이다.

[0244] 제126 양상에서, 양상111 내지 양상125 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 하드웨어 프로세서는 추가로, 사용자의 제2 눈의 복수의 제2 이미지들을 수신하고; 제2 임베딩 공간 표현을 생성하기 위해 딥 뉴럴 네트워크를 사용하여 제2 눈의 복수의 제2 이미지들을 프로세싱하고; 그리고 제2 눈의 복수의 제1 이미지들이 인가된 사용자의 제2 눈의 이미지를 포함할 제2 가능성 스코어를 계산하기 위해, 제1 분류기를 사용하여 제2 임베딩 공간 표현을 프로세싱하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0245] 제127 양상에서, 양상111 내지 양상125 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 하드웨어 프로세서는 추가로, 사용자의 제2 눈의 복수의 제2 이미지들을 수신하도록 실행 가능한 명령들에 의해 프로그래밍되고, 제1 눈의 복수의 제1 이미지들을 프로세싱하기 위해, 하드웨어 프로세서는 제1 임베딩 공간 표현을 생성하기 위해 딥 뉴럴 네트워크를 사용하여 제1 눈의 복수의 제1 이미지들 및 제2 눈의 복수의 제2 이미지들을 프로세싱하도록 실행 가능한 명령들에 의해 프로그래밍되고, 그리고 제1 임베딩 공간 표현을 프로세싱하기 위해, 하드웨어 프로세서는 제1 눈의 복수의 제1 이미지들이 인가된 사용자의 제1 눈의 이미지를 포함하고 그리고 제2 눈의 복수의 제2 이미지들이 인가된 사용자의 제2 눈의 이미지를 포함할 제1 가능성 스코어를 계산하기 위해, 제1 분류기를 사용하여 제1 임베딩 공간 표현을 프로세싱하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0246] 제128 양상에서, 양상111 내지 양상125 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 하드웨어 프로세서는 추가로, 사용자의 적어도 하나의 다른 생체인식 정보를 수신하고; 제2 임베딩 공간 표현을 생성하기 위해 제2 뉴럴 네트워크를 사용하여 적어도 하나의 다른 생체인식 정보를 프로세싱하고; 그리고 적어도 하나의 다른 생체인식 정보가 인가된 사용자의 생체인식 정보를 포함할 제2 가능성 스코어를 계산하기 위해, 제2 분류기를 사용하여 제2 임베딩 공간 표현을 프로세싱하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0247] 제129 양상에서, 양상111 내지 양상125 중 어느 한 양상의 웨어러블 디스플레이 시스템에 있어서, 하드웨어 프로세서는 추가로, 사용자의 적어도 하나의 다른 생체인식 정보를 수신하도록 실행 가능한 명령들에 의해 프로그래밍되고, 제1 눈의 복수의 제1 이미지들을 프로세싱하기 위해, 하드웨어 프로세서는 제1 임베딩 공간 표현을 생성하기 위해 딥 뉴럴 네트워크를 사용하여 제1 눈의 복수의 제1 이미지들 및 적어도 하나의 다른 생체인식 정보를 프로세싱하도록 실행 가능한 명령들에 의해 프로그래밍되고, 그리고 제1 임베딩 공간 표현을 프로세싱하기 위해, 하드웨어 프로세서는 제1 눈의 복수의 제1 이미지들이 인가된 사용자의 제1 눈의 이미지를 포함하고 그리고 적어도 하나의 다른 타입의 생체인식 정보가 인가된 사용자의 생체인식 정보를 포함할 제1 가능성 스코어를 계산하기 위해, 제1 분류기를 사용하여 제1 임베딩 공간 표현을 프로세싱하도록 실행 가능한 명령들에 의해 프로그래밍된다.

[0248] 제130 양상에서, 홍채 인증을 위해 임베딩 네트워크를 트레이닝하기 위한 시스템이 개시된다. 시스템은: 실행 가능한 명령들을 저장하는 컴퓨터-판독가능한 메모리; 및 하나 또는 그 초과의 하드웨어-기반 하드웨어 프로세서들을 포함하며, 하나 또는 그 초과의 하드웨어-기반 하드웨어 프로세서들은 적어도: 복수의 계층들을 포함하는 딥 뉴럴 네트워크에 액세스하고 ― 복수의 계층들의 각각의 계층은 복수의 계층들 중 적어도 다른 계층에 연결됨 ―; 딥 뉴럴 네트워크에 트레이닝 세트를 제공하고 ― 트레이닝 세트의 각각의 엘리먼트는 사람의 복수의 눈 이미지들을 포함하고, 트레이닝 세트의 엘리먼트들은 상이한 사람들의 복수의 눈 이미지들을 포함함 ―; 그리고 딥 뉴럴 네트워크를 사용하여 트레이닝 세트의 엘리먼트들의 임베딩 공간 표현들을 컴퓨팅하도록 실행 가능한 명령들에 의해 프로그래밍되고, 동일한 사람의 엘리먼트들의 임베딩 공간 표현들은 제1 임계치 내에 있고, 상이한 사람들의 엘리먼트들의 임베딩 공간 표현들은 제2 임계치보다 크며, 제1 임계치는 제2 임계치보다 작다.

[0249] 제131 양상에서, 양상130의 시스템에 있어서, 딥 뉴럴 네트워크를 사용하여 트레이닝 세트의 엘리먼트들의 임베딩 공간 표현들을 컴퓨팅하기 위한 명령들은, 동일한 사람들 및 상이한 사람들의 엘리먼트들의 임베딩 공간 표현들 간의 거리들에 기반하여 딥 뉴럴 네트워크를 업데이트하기 위한 명령들을 포함한다.

[0250] 제132 양상에서, 양상131의 시스템에 있어서, 복수의 계층들은 풀링 계층, 밝기 정규화 계층, 컨벌루셔널 계층, 인셉션-형 계층, 정류한 선형 계층, 소프트사인 계층, 또는 이의 임의의 조합을 포함한다.

[0251] 제133 양상에서, 양상130 내지 양상132 중 어느 한 양상의 시스템에 있어서, 딥 뉴럴 네트워크는 트리플릿 네트워크를 포함한다.

[0252] 제134 양상에서, 양상133의 시스템에 있어서, 트리플릿 네트워크는 트레이닝 세트의 엘리먼트들의 트리플릿들을 사용하여 트레이닝 세트로부터 임베딩을 학습하고, 트리플릿의 2개의 엘리먼트들은 동일한 사람으로부터의 눈 이미지들을 포함하고, 트리플릿의 제3 엘리먼트는 상이한 사람으로부터의 눈 이미지들을 포함한다.

결론

[0253] 본원에서 설명되고 그리고/또는 첨부 도면들에 도시된 프로세스들, 방법들 및 알고리즘들 각각은 하나 또는 그 초과의 물리적 컴퓨팅 시스템들, 하드웨어 컴퓨터 하드웨어 프로세서들, 주문형 회로 및/또는 특별 및 특정 컴퓨터 명령들을 실행하도록 구성된 전자 하드웨어에 의해 실행되는 코드 모듈들로 구현될 수 있고, 그리고 이 코드 모듈들에 의해 완전히 또는 부분적으로 자동화될 수 있다. 예컨대, 컴퓨팅 시스템들은 특정 컴퓨터 명령들 또는 특수 목적 컴퓨터들, 특수 목적 회로 등으로 프로그래밍된 범용 컴퓨터들(예컨대, 서버들)을 포함할 수 있다. 코드 모듈은 실행 가능한 프로그램으로 컴파일링되고 링크되거나, 동적 링크 라이브러리에 설치되거나, 또는 해석형 프로그래밍 언어로 쓰여질 수 있다. 일부 구현들에서, 특정 동작들 및 방법들은 주어진 기능에 특정한 회로에 의해 수행될 수 있다.

[0254] 추가로, 본 개시내용의 기능성의 특정 구현들은 충분히 수학적으로, 계산적으로 또는 기술적으로 복잡하여, (적절한 전문화된 실행 가능한 명령들을 활용하는) 주문형 하드웨어 또는 하나 또는 그 초과의 물리적 컴퓨팅 디바이스들은 예컨대 수반된 계산들의 양 또는 복잡성으로 인해 또는 실질적으로 실시간으로 결과들을 제공하기 위해 기능성을 수행할 필요가 있을 수 있다. 예컨대, 비디오는 많은 프레임들(각각의 프레임은 수백만개의 픽셀들을 가짐)을 포함할 수 있고, 그리고 상업적으로 합리적인 시간 양에서 원하는 이미지 프로세싱 태스크 또는 애플리케이션을 제공하기 위해, 특별하게 프로그래밍된 컴퓨터 하드웨어가 비디오 데이터를 프로세싱할 필요가 있다.

[0255] 코드 모듈들 또는 임의의 타입의 데이터는 임의의 타입의 비-일시적 컴퓨터-판독가능 매체, 이를테면 하드 드라이브들, 고체 상태 메모리, RAM(random access memory), ROM(read only memory), 광학 디스크, 휘발성 또는 비-휘발성 스토리지, 이의 조합들 등을 포함하는 물리적 컴퓨터 스토리지 상에 저장될 수 있다. 방법들 및 모듈들(또는 데이터)은 또한, 생성된 데이터 신호들로서(예컨대, 반송파 또는 다른 아날로그 또는 디지털 전파 신호의 부분으로서) 무선 기반 및 유선/케이블 기반 매체들을 포함하는 다양한 컴퓨터-판독가능 송신 매체들 상에서 송신될 수 있고, 그리고 (예컨대, 단일 또는 멀티플렉싱된 아날로그 신호의 부분으로서, 또는 다수의 이산 디지털 패킷들 또는 프레임들로서) 다양한 형태들을 취할 수 있다. 개시된 프로세스들 또는 프로세스 단계들의 결과들은 임의의 타입의 비-일시적, 유형의 컴퓨터 스토리지에 영구적으로 또는 다른 방식으로 저장될 수 있거나 또는 컴퓨터-판독가능 송신 매체를 통해 통신될 수 있다.

[0256] 본원에서 설명되고 그리고/또는 첨부 도면들에 도시된 흐름도들에서 임의의 프로세스들, 블록들, 상태들, 단계들, 또는 기능성들은 (예컨대, 논리적 또는 산술적) 특정 기능들 또는 프로세스의 단계들을 구현하기 위한 하나 또는 그 초과의 실행 가능한 명령들을 포함하는 코드 모듈들, 세그먼트들 또는 코드의 부분들을 잠재적으로 표현하는 것으로 이해되어야 한다. 다양한 프로세스들, 블록들, 상태들, 단계들 또는 기능성들은 본원에서 제공된 예시적인 예들에 조합되거나, 재배열되거나, 부가되거나, 이들 예시적인 예들로부터 삭제되거나, 수정되거나 다르게 변경될 수 있다. 일부 실시예들에서, 부가적인 또는 상이한 컴퓨팅 시스템들 또는 코드 모듈들은 본원에서 설명된 기능성들 중 일부 또는 모두를 수행할 수 있다. 본원에서 설명된 방법들 및 프로세스들은 또한, 임의의 특정 시퀀스로 제한되지 않고, 이에 관련된 블록들, 단계들 또는 상태들은 적절한 다른 시퀀스들로, 예컨대 직렬로, 병렬로, 또는 일부 다른 방식으로 수행될 수 있다. 태스크들 또는 이벤트들은 개시된 예시적인 실시예들에 부가되거나 이들로부터 제거될 수 있다. 게다가, 본원에서 설명된 구현들에서 다양한 시스템 컴포넌트들의 분리는 예시 목적들을 위한 것이고 모든 구현들에서 그런 분리를 요구하는 것으로 이해되지 않아야 한다. 설명된 프로그램 컴포넌트들, 방법들 및 시스템들이 일반적으로 단일 컴퓨터 제품으로 함께 통합되거나 다수의 컴퓨터 제품들로 패키징될 수 있다는 것이 이해되어야 한다. 많은 구현 변형들이 가능하다.

[0257] 프로세스들, 방법들 및 시스템들은 네트워크(또는 분산) 컴퓨팅 환경에서 구현될 수 있다. 네트워크 환경들은 전사적 컴퓨터 네트워크들, 인트라넷들, LAN(local area network)들, WAN(wide area network)들, PAN(personal area network)들, 클라우드 컴퓨팅 네트워크들, 크라우드-소스드 컴퓨팅 네트워크들, 인터넷, 및 World Wide Web을 포함한다. 네트워크는 유선 또는 무선 네트워크 또는 임의의 다른 타입의 통신 네트워크일 수 있다.

[0258] 본 개시내용의 시스템들 및 방법들 각각은 몇몇 혁신적인 양상들을 가지며, 이 양상들 중 어떤 단일의 양상도 본원에서 개시된 바람직한 속성들을 위해 전적으로 책임지거나 요구되지 않는다. 위에서 설명된 다양한 특징들 및 프로세스들은 서로 독립적으로 사용될 수 있거나, 또는 다양한 방식들로 조합될 수 있다. 모든 가능한 조합들 및 서브조합들은 본 개시내용의 범위 내에 속하도록 의도된다. 본 개시내용에서 설명된 구현들에 대한 다양한 수정들은 당업자들에게 쉽게 자명할 수 있고, 그리고 본원에서 정의된 일반적인 원리들은 본 개시내용의 사상 또는 범위를 벗어나지 않고 다른 구현들에 적용될 수 있다. 따라서, 청구항들은 본원에서 도시된 구현들로 제한되는 것으로 의도되는 것이 아니라, 본 개시내용, 본원에서 개시된 원리들 및 신규 특징들과 일치하는 가장 넓은 범위에 부합될 것이다.

[0259] 별개의 구현들의 맥락에서 이 명세서에 설명된 특정 특징들은 또한, 단일 구현으로 결합하여 구현될 수 있다. 대조적으로, 단일 구현의 맥락에서 설명된 다양한 특징들은 또한, 별도로 다수의 구현들로 또는 임의의 적절한 서브조합으로 구현될 수 있다. 게다가, 비록 특징들이 특정 조합들로 동작하는 것으로서 위에서 설명될 수 있고, 심지어 그와 같이 처음에 청구될 수 있지만, 청구된 조합으로부터의 하나 또는 그 초과의 특징들은 일부 경우들에서 조합으로부터 제거될 수 있고, 그리고 청구된 조합은 서브조합 또는 서브조합의 변형으로 지향될 수 있다. 단일 특징 또는 특징들의 그룹이 각각의 모든 실시예에 필요하거나 필수적인 것은 아니다.

[0260] 특정하게 다르게 언급되지 않거나, 사용된 맥락 내에서 다르게 이해되지 않으면, 본원에서 사용된 조건어, 이를테면 특히, "할 수 있다("can", "could", "might", "may")" 및 "예컨대" 등은, 일반적으로 특정 실시예들이 특정 특징들, 엘리먼트들 및/또는 단계들을 포함하지만, 다른 실시예들은 이들을 포함하지 않는다는 것을 전달하도록 의도된다. 따라서, 그러한 조건어는 일반적으로, 특징들, 엘리먼트들 및/또는 단계들이 어떤식으로든 하나 또는 그 초과의 실시예들을 위해 요구된다는 것, 또는 하나 또는 그 초과의 실시예들이, 저자 입력 또는 프롬프팅을 사용하여 또는 이들을 사용하지 않고, 이들 특징들, 엘리먼트들 및/또는 단계들이 임의의 특정 실시예에 포함되는지 또는 이 임의의 특정 실시예에서 수행되는지를 판정하기 위한 로직을 반드시 포함하는 것을 의미하도록 의도되지 않는다. "포함하는(comprising, including)", "갖는(having)" 등의 용어들은 동의어이고, 오픈-엔디드(open-ended) 방식으로 포괄적으로 사용되고, 그리고 부가적인 엘리먼트들, 특징들, 작용들, 동작들 등을 배제하지 않는다. 또한, 용어 "또는"은 포괄적인 의미(및 배타적 의미가 아님)로 사용되어, 예컨대 리스트의 엘리먼트들을 연결하기 위해 사용될 때, 용어 "또는"은 리스트 내 엘리먼트들 중 하나, 몇몇 또는 모두를 의미한다. 게다가, 본 출원 및 첨부된 청구항들에서 사용된 단수 표현들은 다르게 특정되지 않으면 "하나 또는 그 초과" 또는 "적어도 하나"를 의미하는 것으로 이해될 것이다.

[0261] 본원에서 사용된 바와 같이, 아이템들의 리스트 중 "적어도 하나"를 지칭하는 어구는, 단일 부재들을 포함하여, 이들 아이템들의 임의의 조합을 지칭한다. 예로서, "A, B 또는 C 중 적어도 하나"는 A, B, C, A 및 B, A 및 C, B 및 C, 및 A, B 및 C를 커버하도록 의도된다. 특정하게 다르게 언급되지 않으면, "X, Y 및 Z 중 적어도 하나"라는 어구와 같은 접속어는, 일반적으로 아이템, 용어 등이 X, Y 또는 Z 중 적어도 하나일 수 있다는 것을 전달하기 위해 사용되는 맥락으로 이해된다. 따라서, 그러한 접속어는 일반적으로, 특정 실시예들이 X 중 적어도 하나, Y 중 적어도 하나 및 Z 중 적어도 하나가 각각 존재할 것을 요구하는 것을 의미하도록 의도되지 않는다.

[0262] 유사하게, 동작들이 특정 순서로 도면들에 도시될 수 있지만, 원하는 결과들을 달성하기 위해, 그러한 동작들이 도시된 특정 순서 또는 순차적 순서로 수행될 필요가 없거나, 또는 모든 예시된 동작들이 수행될 필요가 없다는 것이 인식될 것이다. 추가로, 도면들은 흐름도 형태로 하나 또는 그 초과의 예시적인 프로세스들을 개략적으로 도시할 수 있다. 그러나, 도시되지 않은 다른 동작들이 개략적으로 예시된 예시적인 방법들 및 프로세스들에 통합될 수 있다. 예컨대, 하나 또는 그 초과의 부가적인 동작들은 예시된 동작들 중 임의의 동작 이전, 이후, 동시에, 또는 중간에 수행될 수 있다. 부가적으로, 동작들은 다른 구현들에서 재배열되거나 재정렬될 수 있다. 특정 환경들에서, 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다. 게다가, 위에서 설명된 구현들에서 다양한 시스템 컴포넌트들의 분리는 모든 구현들에서 그러한 분리를 요구하는 것으로 이해되지 않아야 하고, 그리고 설명된 프로그램 컴포넌트들 및 시스템들이 일반적으로 단일 소프트웨어 제품으로 함께 통합될 수 있거나 다수의 소프트웨어 제품들로 패키징될 수 있다는 것이 이해되어야 한다. 부가적으로, 다른 구현들은 다음 청구항들의 범위 내에 있다. 일부 경우들에서, 청구항들에 열거된 액션들은 상이한 순서로 수행될 수 있고 여전히 원하는 결과들을 달성할 수 있다.

Claims

시스템으로서,
트리플릿(triplet) 네트워크 아키텍처를 가진 딥 뉴럴 네트워크를 사용하여 눈 이미지들의 임베딩 공간 표현들을 결정하도록 구성된 임베딩을 결정하기 위해 하나 또는 그 초과의 딥 뉴럴 네트워크들을 실행하도록 구성되는 인증 트레이닝 시스템; 및
웨어러블 디스플레이 시스템을 포함하고,
상기 인증 트레이닝 시스템은:
사용자의 앵커 눈 이미지, 사용자의 포지티브 눈 이미지, 및 다른 사용자의 네거티브 눈 이미지에 액세스하고 ― 상기 사용자는 인가된 사용자임 ―;
상기 하나 또는 그 초과의 딥 뉴럴 네트워크들을 사용하여, 앵커 임베딩 공간 표현을 생성하기 위해 상기 앵커 눈 이미지를 제1 이미지 임베딩 공간으로 맵핑하고;
상기 하나 또는 그 초과의 딥 뉴럴 네트워크들을 사용하여, 포지티브 임베딩 공간 표현을 생성하기 위해 상기 포지티브 눈 이미지를 상기 제1 이미지 임베딩 공간으로 맵핑하고;
상기 하나 또는 그 초과의 딥 뉴럴 네트워크들을 사용하여, 네거티브 임베딩 공간 표현을 생성하기 위해 상기 네거티브 눈 이미지를 상기 제1 이미지 임베딩 공간으로 맵핑하고;
상기 포지티브 임베딩 공간 표현과 상기 앵커 임베딩 공간 표현 사이의 상기 제1 이미지 임베딩 공간에서의 거리를 감소시키거나; 또는
상기 포지티브 임베딩 공간 표현 및 상기 앵커 임베딩 공간 표현 중 하나 또는 그 초과와 상기 네거티브 임베딩 공간 표현 사이의 상기 제1 이미지 임베딩 공간에서의 거리를 증가시키도록
상기 하나 또는 그 초과의 딥 뉴럴 네트워크들을 업데이트하고;
상기 업데이트된 하나 또는 그 초과의 딥 뉴럴 네트워크들에 기초하여 상기 임베딩을 생성하고; 그리고
이미지들의 임베딩 공간 표현들이 상기 사용자와 연관될 가능성을 결정하기 위해 사용가능한 적어도 하나의 분류기를 생성
하도록 구성되고,
상기 웨어러블 디스플레이 시스템은:
디스플레이;
착용자의 눈 이미지들을 캡처하도록 구성되는 이미지 캡처 디바이스
를 포함하고,
상기 웨어러블 디스플레이 시스템은:
상기 이미지 캡처 디바이스로부터 제1 눈 이미지를 수신하고;
상기 인증 트레이닝 시스템으로부터, 상기 임베딩 및 상기 적어도 하나의 분류기를 수신하고;
극 좌표들로 상기 제1 눈 이미지의 표현을 생성하기 위하여 상기 제1 눈 이미지를 프로세싱하고;
상기 제1 눈 이미지의 제1 임베딩 공간 표현을 생성하기 위하여 상기 임베딩을 사용하여 상기 제1 눈 이미지의 표현을 프로세싱하고 ― 상기 제1 임베딩 공간 표현은 n-차원 벡터이며, 상기 제1 임베딩 공간 표현의 엘리먼트들 중 절반 초과는 통계적으로 독립적임 ―;
상기 제1 눈 이미지가 인가된 사용자와 연관될 가능성 스코어(likelihood score)를 계산하기 위하여 상기 적어도 하나의 분류기를 사용하여 상기 제1 임베딩 공간 표현을 프로세싱하고;
상기 가능성 스코어에 기초하여 상기 웨어러블 디스플레이 시스템에 대한 상기 착용자의 액세스를 승인 또는 거절하고;
상기 제1 눈 이미지를 상기 인증 트레이닝 시스템에 송신하고; 그리고
상기 제1 눈 이미지를 사용하여 상기 인증 트레이닝 시스템에 의해 결정되는 업데이트된 임베딩을 수신
하도록 구성되는,
시스템.
제1 항에 있어서,
상기 하나 또는 그 초과의 딥 뉴럴 네트워크들은 복수의 계층들을 포함하며; 그리고
상기 복수의 계층들은 풀링 계층(pooling layer), 밝기 정규화 계층(brightness normalization layer), 컨벌루셔널 계층(convolutional layer), 인셉션-형 계층(inception-like layer), 정류한 선형 계층(rectified linear layer), 소프트사인 계층(softsign layer) 또는 이의 임의의 조합을 포함하는, 시스템.
제2 항에 있어서,
상기 밝기 정규화 계층은 로컬 콘트라스트 정규화 계층(local contrast normalization layer), 로컬 응답 정규화 계층(local response normalization layer) 또는 이의 조합을 포함하는, 시스템.
제1 항에 있어서,
상기 제1 임베딩 공간 표현은 단위 길이를 가지는, 시스템.
제1 항에 있어서,
상기 적어도 하나의 분류기는 유클리드 거리에 기반하여 상기 가능성 스코어를 결정하는, 시스템.
제1 항에 있어서,
상기 적어도 하나의 분류기는 2진 분류기, 로지스틱 회귀 분류기, 서포트 벡터 머신 분류기, 베이지안 분류기, 소프트맥스 분류기 또는 이의 임의의 조합인, 시스템.
제1항에 있어서,
상기 웨어러블 디스플레이 시스템은 제2 눈 이미지를 생성하기 위하여 상기 제1 눈 이미지를 세그먼트화하도록 구성되고; 그리고
상기 제1 눈 이미지를 프로세싱하기 위하여, 상기 웨어러블 디스플레이 시스템은 상기 제1 임베딩 공간 표현을 생성하기 위하여 상기 임베딩을 사용하여 상기 제2 눈 이미지를 프로세싱하도록 구성되는, 시스템.
삭제
삭제
삭제
삭제
삭제
머리 장착 디스플레이 시스템으로서,
디스플레이;
사용자의 제1 눈 및 제2 눈의 이미지들을 캡처하도록 구성된 이미지 캡처 디바이스;
실행 가능한 명령들을 저장하도록 구성된 비-일시적 메모리; 및
상기 디스플레이, 상기 이미지 캡처 디바이스 및 상기 비-일시적 메모리와 통신하는 하드웨어 프로세서를 포함하며,
상기 하드웨어 프로세서는:
상기 제1 눈의 제1 이미지 및 상기 제2 눈의 제2 이미지를 수신하고;
복수의 사람들의 눈 이미지들에 대한 임베딩 공간을 학습하기 위해 하나 또는 그 초과의 딥 뉴럴 네트워크들을 실행하도록 구성되는 인증 트레이닝 시스템으로부터 적어도 하나의 임베딩 및 적어도 하나의 분류기를 수신하고 ― 상기 적어도 하나의 임베딩은 이미지 공간으로부터 학습된 임베딩 공간으로의 맵핑을 포함함 ―;
극 좌표들에서의 상기 제1 눈의 제1 이미지의 표현 및 극 좌표들에서의 상기 제2 눈의 제2 이미지의 표현을 생성하기 위하여 상기 제1 눈의 제1 이미지 및 상기 제2 눈의 제2 이미지를 프로세싱하고;
제1 임베딩 공간 표현 및 제2 임베딩 공간 표현을 생성하기 위해 상기 적어도 하나의 임베딩을 사용하여 극 좌표들에서의 상기 제1 눈의 제1 이미지의 표현 및 극 좌표들에서의 상기 제2 눈의 제2 이미지의 표현을 프로세싱하고 ― 상기 제1 임베딩 공간 표현 또는 상기 제2 임베딩 공간 표현은 n-차원 벡터이며, 상기 제1 임베딩 공간 표현 또는 상기 제2 임베딩 공간 표현의 엘리먼트들 중 절반 초과는 통계적으로 독립적임 ―;
상기 눈의 이미지가 인가된 사용자의 눈의 이미지일 가능성 스코어를 생성하기 위하여 상기 적어도 하나의 분류기를 사용하여 상기 제1 임베딩 공간 표현 및 상기 제2 임베딩 공간 표현을 프로세싱하고 ― 상기 눈의 이미지는 상기 제1 눈의 제1 이미지 또는 상기 제2 눈의 제2 이미지를 포함함 ―;
상기 가능성 스코어에 기초하여, 상기 눈의 이미지를 상기 인증 트레이닝 시스템에 송신하고; 그리고
상기 인증 트레이닝 시스템으로부터 업데이트된 임베딩을 수신하도록
실행 가능한 명령들에 의해 프로그래밍되는,
머리 장착 디스플레이 시스템.
제13 항에 있어서,
상기 하나 또는 그 초과의 딥 뉴럴 네트워크들은 트리플릿 네트워크를 사용하여 트레이닝되는, 머리 장착 디스플레이 시스템.
제14 항에 있어서,
상기 트리플릿 네트워크는 복수의 사람들의 눈 이미지들로부터 상기 하나 또는 그 초과의 딥 뉴럴 네트워크들을 학습하도록 구성되며; 그리고
개별적인 사람의 제1 눈으로부터의 눈 이미지들에 기초한 임베딩 공간 표현에서의 거리는 상이한 사람들로부터의 눈 이미지들에 기초한 임베딩 공간 표현에서의 거리보다 더 짧고 그리고 상기 개별적인 사람의 제2 눈으로부터의 눈 이미지들에 기초한 임베딩 공간 표현에서의 거리보다 더 짧은, 머리 장착 디스플레이 시스템.
제13항에 있어서,
상기 하드웨어 프로세서는 상기 가능성 스코어에 기반하여 상기 머리 장착 디스플레이 시스템에 대한 상기 사용자의 액세스를 승인 또는 거절하도록, 상기 실행 가능한 명령들에 의해 프로그래밍되는, 머리 장착 디스플레이 시스템.
제13 항에 있어서,
상기 하드웨어 프로세서는 상기 제1 눈의 홍채의 제3 이미지를 생성하기 위하여 상기 제1 눈의 제1 이미지를 세그먼트화하도록 상기 실행 가능한 명령들에 의해 프로그래밍되며; 그리고
상기 제1 눈의 제1 이미지를 프로세싱하기 위하여, 상기 하드웨어 프로세서는 상기 제1 임베딩 공간 표현을 생성하기 위하여 상기 하나 또는 그 초과의 딥 뉴럴 네트워크들을 사용하여 상기 제1 눈의 홍채의 제3 이미지를 프로세싱하도록 상기 실행 가능한 명령들에 의해 프로그래밍되는, 머리 장착 디스플레이 시스템.
제13 항에 있어서,
상기 제1 눈의 제1 이미지는 상기 제1 눈의 홍채 및 망막 중 절반 초과를 포함하는, 머리 장착 디스플레이 시스템.
제13 항에 있어서,
상기 제1 눈의 제1 이미지는 상기 제1 눈의 망막 중 절반 초과를 포함하는, 머리 장착 디스플레이 시스템.
삭제
제1 항에 있어서,
상기 하나 또는 그 초과의 딥 뉴럴 네트워크들은 생체인식 정보의 세트로부터 상기 임베딩을 학습시키도록 구성되고, 상기 생체인식 정보의 세트는 피부 톤, 피부 결, 지문들 또는 음성 중 적어도 하나를 포함하는,
시스템.
제1 항에 있어서,
상기 하나 또는 그 초과의 딥 뉴럴 네트워크들은 2차 생체인식 정보에 대한 코-임베딩(co-embedding)을 학습하도록 추가로 구성되고, 상기 웨어러블 디스플레이 시스템은 추가로:
생체인식 데이터에 기초하여 코-임베딩 공간 표현을 생성하기 위해 상기 코-임베딩을 사용하여 상기 생체인식 데이터를 프로세싱하고; 그리고
상기 눈의 제1 눈 이미지가 인가된 사용자의 눈의 이미지일 가능성 스코어를 계산하기 위하여 상기 적어도 하나의 분류기를 사용하여 상기 코-임베딩 공간 표현을 프로세싱
하도록 프로그래밍되는,
시스템.
제13 항에 있어서,
상기 하나 또는 그 초과의 딥 뉴럴 네트워크들은 생체인식 정보의 세트에 기초하여 임베딩 공간 표현을 생성하도록 구성되고, 상기 생체인식 정보의 세트는 피부 톤, 피부 결, 지문들 또는 음성 중 적어도 하나를 포함하는,
머리 장착 디스플레이 시스템.
제13 항에 있어서,
상기 하드웨어 프로세서는 추가로:
코-임베딩 공간 표현을 생성하기 위해 생체인식 데이터를 프로세싱하고; 그리고
상기 제1 눈의 제1 이미지 또는 상기 제2 눈의 제2 이미지가 인가된 사용자의 눈의 이미지일 가능성 스코어를 계산하기 위하여 상기 적어도 하나의 분류기를 사용하여 상기 코-임베딩 공간 표현을 프로세싱하도록 프로그래밍되는,
머리 장착 디스플레이 시스템.
제13 항에 있어서,
상기 하드웨어 프로세서는 추가로:
코-임베딩 공간 표현을 생성하기 위해 생체인식 데이터를 프로세싱하고; 그리고
상기 가능성 스코어를 계산하기 위하여 상기 적어도 하나의 분류기를 사용하여 상기 코-임베딩 공간 표현을 프로세싱하도록 프로그래밍되는,
머리 장착 디스플레이 시스템.
웨어러블 디바이스로서,
디스플레이;
사용자의 눈의 제1 이미지를 캡처하도록 구성된 이미지 캡처 디바이스;
실행가능한 명령들을 저장하도록 구성된 비-일시적 메모리; 및
상기 디스플레이, 상기 이미지 캡처 디바이스 및 상기 비-일시적 메모리와 통신하는 하드웨어 프로세서를 포함하며,
상기 하드웨어 프로세서는:
상기 이미지 캡처 디바이스로부터 상기 눈의 제1 이미지를 수신하고;
복수의 사람들의 눈 이미지들에 대한 임베딩 공간을 학습하기 위해 하나 또는 그 초과의 딥 뉴럴 네트워크들을 실행하도록 구성된 인증 트레이닝 시스템으로부터 임베딩을 수신하고 ― 상기 임베딩은 이미지 공간으로부터 임베딩 공간으로 이미지들을 맵핑하는데 사용가능함 ―;
극 좌표들로 상기 눈의 제1 이미지의 표현을 생성하기 위해 상기 눈의 제1 이미지를 프로세싱하고;
상기 눈의 제1 이미지의 임베딩 공간 표현을 생성하기 위해 상기 임베딩을 사용하여 상기 눈의 제1 이미지의 표현을 프로세싱하고;
상기 인증 트레이닝 시스템으로부터 분류기를 수신하고 ― 상기 분류기는 인가된 사용자들의 눈 이미지들의 하나 또는 그 초과의 임베딩 공간 표현들과 상기 눈의 제1 이미지의 임베딩 공간 표현 사이의 거리를 결정하기 위해 사용가능함 ―;
상기 눈의 제1 이미지가 인가된 사용자와 연관될 가능성 스코어를 계산하기 위해 상기 분류기를 사용하여 제1 눈의 임베딩 공간 표현을 프로세싱하고 ― 상기 제1 눈의 임베딩 공간 표현은 n-차원 벡터이며, 상기 제1 눈의 임베딩 공간 표현의 엘리먼트들 중 절반 초과는 통계적으로 독립적임 ―;
상기 가능성 스코어에 기초하여 상기 사용자의 인증 레벨을 결정하고;
상기 눈의 제1 이미지를 인증 트레이닝 시스템에 송신하고; 그리고
상기 눈의 제1 이미지를 이용하여 상기 인증 트레이닝 시스템에 의해 결정되는 업데이트된 임베딩을 수신하도록
상기 실행가능한 명령들에 의해 프로그래밍되는,
웨어러블 디바이스.
제26 항에 있어서,
상기 하나 또는 그 초과의 딥 뉴럴 네트워크들은 트리플릿 네트워크를 사용하여 트레이닝되는,
웨어러블 디바이스.
제26 항에 있어서,
상기 하나 또는 그 초과의 딥 뉴럴 네트워크들은 생체인식 정보의 세트로부터 상기 임베딩을 학습하도록 구성되고, 상기 생체인식 정보의 세트는 피부 톤, 피부 결, 지문들 또는 음성 중 적어도 하나를 포함하는,
웨어러블 디바이스.