KR20210071410A

KR20210071410A - 센서 특화 이미지 인식 장치 및 방법

Info

Publication number: KR20210071410A
Application number: KR1020190161553A
Authority: KR
Inventors: 최지호; 이솔애; 이한아; 곽영준; 유병인; 이용일
Original assignee: 삼성전자주식회사
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2021-06-16
Also published as: CN112926574A; EP3832542A1; JP2021093144A; US20210174138A1; US11354535B2

Abstract

일 실시예에 따른 이미지 인식 장치는 각 입력 이미지마다 값이 조정되는 가변 마스크 및 고정 마스크에 기초하여 입력 이미지에 나타나는 객체에 대한 인식 결과를 출력할 수 있다.

Description

센서 특화 이미지 인식 장치 및 방법{SENSOR-SPECIFIC IMAGE RECOGNITION DEVICE AND METHOD}

이하, 이미지를 인식하는 기술이 제공된다.

최근 들어, 입력 패턴을 특정 그룹으로 분류하는 문제를 해결하기 위하여, 인간이 지니고 있는 효율적인 패턴 인식 방법을 실제 컴퓨터에 적용시키려는 연구가 활발히 진행되고 있다. 이러한 연구 중 하나로, 인간의 생물학적 신경 세포의 특성을 수학적 표현에 의해 모델링 한 인공 뉴럴 네트워크(artificial neural network)에 대한 연구가 있다. 입력 패턴을 특정 그룹으로 분류하는 문제를 해결하기 위해, 인공 뉴럴 네트워크는 인간이 가지고 있는 학습이라는 능력을 모방한 알고리즘을 이용한다. 이 알고리즘을 통하여 인공 뉴럴 네트워크는 입력 패턴과 출력 패턴들 사이의 사상(mapping)을 생성할 수 있고, 이러한 사상을 생성하는 능력은 인공 뉴럴 네트워크의 학습 능력이라고 표현된다. 또한, 인공 뉴럴 네트워크는 학습된 결과에 기초하여 학습에 이용되지 않았던 입력 패턴에 대하여 비교적 올바른 출력을 생성할 수 있는 일반화 능력을 가진다.

일 실시예에 따른 이미지 인식 방법은 이미지 센서에 의해 수신된 입력 이미지로부터 특징 추출 레이어를 이용하여 특징 데이터를 추출하는 단계; 및 상기 추출된 특징 데이터로부터, 고정된 마스크 및 상기 추출된 특징 데이터에 응답하여 조정되는 가변 마스크에 기초하여, 상기 입력 이미지에 나타나는 객체에 관한 인식 결과를 출력하는 단계를 포함할 수 있다.

상기 인식 결과를 출력하는 단계는, 상기 추출된 특징 데이터로부터 상기 고정된 마스크에 기초하여 제1 인식 데이터를 산출하는 단계; 상기 추출된 특징 데이터로부터 상기 가변 마스크에 기초하여 제2 인식 데이터를 산출하는 단계; 및 상기 제1 인식 데이터 및 상기 제2 인식 데이터에 기초하여 상기 인식 결과를 결정하는 단계를 포함할 수 있다.

상기 제1 인식 데이터를 산출하는 단계는, 상기 특징 데이터에 상기 고정 마스크를 적용함으로써 객체 관심 영역(object region of interest)에 관한 범용 특징 맵을 생성하는 단계; 및 상기 범용 특징 맵으로부터 상기 제1 인식 데이터를 산출하는 단계를 포함할 수 있다.

상기 제2 인식 데이터를 산출하는 단계는, 상기 특징 데이터에 대응하는 대상 특징 맵에 대해 상기 가변 마스크를 적용함으로써 상기 이미지 센서의 관심 영역(region of interest)에 관한 센서 특화 특징 맵(sensor-specific feature map)을 생성하는 단계; 및 상기 센서 특화 특징 맵으로부터 상기 제2 인식 데이터를 산출하는 단계를 포함할 수 있다.

상기 센서 특화 특징 맵을 생성하는 단계는, 상기 대상 특징 맵의 개별 값에 대해 상기 가변 마스크에서 대응하는 값을 적용함으로써 상기 센서 특화 특징 맵을 생성하는 단계를 포함할 수 있다.

이미지 인식 방법은 상기 추출된 특징 데이터로부터 완전 연결 레이어 및 소프트맥스 함수를 이용하여 제3 인식 데이터를 산출하는 단계를 더 포함하고, 상기 인식 결과를 결정하는 단계는, 상기 제1 인식 데이터 및 상기 제2 인식 데이터와 함께, 상기 제3 인식 데이터에 더 기초하여 상기 인식 결과를 결정하는 단계를 포함할 수 있다.

상기 인식 결과를 출력하는 단계는, 상기 가변 마스크를 포함하는 센서 특화 레이어의 적어도 일부 레이어를 이용하여, 상기 특징 데이터에 따라 상기 가변 마스크의 하나 이상의 값을 조정하는 단계를 포함할 수 있다.

상기 가변 마스크의 하나 이상의 값을 조정하는 단계는, 상기 특징 데이터에 대해 컨볼루션 필터링이 적용된 결과인 키 특징 맵(key feature map) 및 전치된(transposed) 쿼리 특징 맵(query feature map) 간의 곱 결과로부터 소프트맥스 함수(softmax function)를 이용하여 상기 가변 마스크의 값을 결정하는 단계를 포함할 수 있다.

상기 인식 결과를 출력하는 단계는, 상기 고정된 마스크에 기초한 제1 인식 데이터 및 상기 가변 마스크에 기초한 제2 인식 데이터의 가중합(weighted sum)을 상기 인식 결과로 결정하는 단계를 포함할 수 있다.

상기 가중합을 상기 인식 결과로 결정하는 단계는, 상기 제1 인식 데이터에 대한 가중치보다 큰 가중치를 상기 제2 인식 데이터에 적용하는 단계를 포함할 수 있다.

이미지 인식 방법은 업데이트 명령에 응답하여 외부 서버로부터 상기 가변 마스크를 포함하는 센서 특화 레이어의 파라미터를 수신하는 단계; 및 상기 수신된 파라미터를 센서 특화 레이어에 업데이트하는 단계를 더 포함할 수 있다.

이미지 인식 방법은 상기 외부 서버에 대해, 현재 장착된 이미지 센서와 동일하거나 유사한 광학 특성에 대응하는 센서 특화 파라미터를 요청하는 단계를 더 포함할 수 있다.

이미지 인식 방법은 상기 센서 특화 레이어의 파라미터를 업데이트하는 동안, 상기 고정 마스크의 값을 유지하는 단계를 포함할 수 있다.

상기 인식 결과를 출력하는 단계는, 상기 고정된 마스크 및 복수의 가변 마스크들에 기초하여 상기 인식 결과를 산출하는 단계를 포함할 수 있다.

상기 복수의 가변 마스크들 중 한 가변 마스크를 포함하는 센서 특화 레이어의 파라미터 및 다른 가변 마스크를 포함하는 다른 센서 특화 레이어의 파라미터는 서로 다를 수 있다.

상기 인식 결과를 출력하는 단계는, 상기 객체가 실제 객체(real object)인 지 또는 위조 객체(fake object)인 지를 지시하는 진위 정보(authenticity information)를 상기 인식 결과로서 생성하는 단계를 포함할 수 있다.

이미지 인식 방법은 상기 인식 결과에 기초하여 권한을 부여(authorize)하는 단계; 및 상기 권한에 따라 전자 단말의 동작 및 데이터 중 적어도 하나에 대한 억세스를 허용하는 단계를 더 포함할 수 있다.

상기 인식 결과를 출력하는 단계는, 상기 인식 결과가 생성된 후, 상기 인식 결과를 디스플레이를 통해 시각화하는 단계를 포함할 수 있다.

일 실시예에 따른 이미지 인식 장치는 입력 이미지를 수신하는 이미지 센서; 및 상기 입력 이미지로부터 특징 추출 레이어를 이용하여 특징 데이터를 추출하고, 상기 추출된 특징 데이터로부터 고정된 마스크 및 상기 추출된 특징 데이터에 응답하여 조정되는 가변 마스크에 기초하여 상기 입력 이미지에 나타나는 객체에 관한 인식 결과를 출력하는 프로세서를 포함할 수 있다.

도 1은 일 실시예에 따른 인식 모델을 설명하는 도면이다.
도 2는 일 실시예에 따른 이미지 인식 방법을 설명하는 흐름도이다.
도 3 및 도 4는 일 실시예에 따른 인식 모델의 예시적인 구조를 설명하는 도면이다.
도 5 및 도 6은 다른 일 실시예에 따른 인식 모델의 예시적인 구조를 설명하는 도면이다.
도 7은 일 실시예에 따른 어텐션 레이어를 설명하는 도면이다.
도 8은 또 다른 일 실시예에 따른 인식 모델의 예시적인 구조를 설명하는 도면이다.
도 9는 일 실시예에 따른 인식 모델의 트레이닝을 설명하는 도면이다.
도 10은 일 실시예에 따른 인식 모델에서 센서 특화 레이어의 파라미터 업데이트를 설명하는 도면이다.
도 11 및 도 12는 일 실시예에 따른 이미지 인식 장치의 구성을 도시한 블록도이다.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

아래 설명하는 실시예들에는 다양한 변경이 가해질 수 있다. 아래 설명하는 실시예들은 실시 형태에 대해 한정하려는 것이 아니며, 이들에 대한 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수 개의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

도 1은 일 실시예에 따른 인식 모델을 설명하는 도면이다.

일 실시예에 따른 이미지 인식 장치는 입력 이미지로부터 추출된 특징 데이터를 이용하여 사용자를 인식할 수 있다. 예를 들어, 이미지 인식 장치는 인식 모델의 적어도 일부 레이어(예를 들어, 특징 추출 레이어)에 기초하여, 입력 이미지로부터 특징 데이터를 추출할 수 있다. 특징 데이터는 이미지가 추상화된 데이터로서, 예를 들어, 벡터의 형태로 나타낼 수 있다. 2차원 이상의 벡터 형태를 가지는 특징 데이터는 특징 맵이라고도 나타낼 수 있다. 본 명세서에서 특징 맵은 주로 2차원 벡터 또는 2차원 행렬 형태의 특징 데이터를 나타낼 수 있다.

인식 모델은 이미지로부터 특징 데이터를 추출하고 추출된 특징 데이터로부터 이미지에 나타나는 객체를 인식한 결과를 출력하도록 설계된 모델로서, 예를 들어, 기계 학습 구조일 수 있고, 뉴럴 네트워크(100)를 포함할 수 있다.

뉴럴 네트워크(neural network)(100)는 딥 뉴럴 네트워크(DNN, deep neural network)의 예시에 해당할 수 있다. DNN은 완전 연결 네트워크(fully connected network), 딥 컨볼루셔널 네트워크(deep convolutional network) 및 리커런트 뉴럴 네트워크(recurrent neural network) 등을 포함할 수 있다. 뉴럴 네트워크(100)는 딥 러닝에 기반하여 비선형적 관계에 있는 입력 데이터 및 출력 데이터를 서로 매핑함으로써 객체 분류, 객체 인식, 음성 인식 및 이미지 인식 등을 수행할 수 있다. 딥 러닝은 빅 데이터 세트로부터 이미지 또는 음성 인식과 같은 문제를 해결하기 위한 기계 학습 기법으로 지도식(supervised) 또는 비지도식(unsupervised) 학습을 통해 입력 데이터 및 출력 데이터를 서로 매핑할 수 있다.

본 명세서에서 인식(recognition)은 데이터의 검증(verification) 또는/및 데이터의 식별(identification)을 포함할 수 있다. 검증은 입력 데이터가 참인지 또는 거짓인지를 판단하는 동작을 나타낼 수 있다. 예를 들어, 검증은 임의의 입력 이미지에 의해 지시되는 객체(예를 들어, 사람의 얼굴)가 기준 이미지에 의해 지시되는 객체와 동일한 지 여부를 판단하는 판별 동작을 나타낼 수 있다. 다른 예를 들어, 라이브니스 검증은 임의의 입력 이미지에 의해 지시되는 객체가 실제 객체(real object)인 지 또는 위조 객체(fake object)인 지 여부를 판단하는 판별 동작을 나타낼 수 있다.

또한, 이미지 인식 장치는 입력 이미지로부터 추출되어 획득된 데이터가 장치 내에 기 등록된 등록 데이터와 동일한 지 여부를 검증하고, 두 데이터가 동일한 것으로 검증된 경우에 응답하여 입력 이미지에 대응하는 사용자에 대한 검증이 성공한 것으로 결정할 수 있다. 또한, 이미지 인식 장치 내에 복수의 등록 데이터가 저장된 경우, 이미지 인식 장치는 입력 이미지로부터 추출되어 획득된 데이터를 복수의 등록 데이터의 각각에 대해 순차적으로 검증할 수도 있다.

식별은 복수의 레이블들 중 입력 데이터가 지시하는 레이블(label)을 판단하는 분류 동작을 나타낼 수 있고, 예를 들어, 각 레이블은 클래스(예를 들어, 등록된 사용자들의 신원(ID, identity))를 지시할 수 있다. 예를 들어, 식별 동작을 통해 입력 데이터에 포함된 사용자가 남성인 지 또는 여성인 지 여부가 지시될 수 있다.

도 1을 참조하면, 뉴럴 네트워크(100)는 입력 레이어(110), 히든 레이어(120) 및 출력 레이어(130)를 포함한다. 입력 레이어(110), 히든 레이어(120) 및 출력 레이어(130)는 각각 복수의 인공 노드들을 포함한다.

도 1에는 설명의 편의를 위해 히든 레이어(120)가 3개의 레이어를 포함하는 것으로 도시되었나, 히든 레이어(120)는 다양한 수의 레이어들을 포함할 수 있다. 또한, 도 1에는 뉴럴 네트워크(100)는 입력 데이터를 수신하기 위한 별도의 입력 레이어를 포함하는 것으로 도시되었으나, 입력 데이터가 히든 레이어(120)에 직접 입력될 수 있다. 뉴럴 네트워크(100)에서 출력 레이어(130)를 제외한 레이어들의 인공 노드들은 출력 신호를 전송하기 위한 링크들을 통해 다음 레이어의 인공 노드들과 연결될 수 있다. 링크들의 수는 다음 레이어에 포함된 인공 노드들의 수에 대응할 수 있다.

히든 레이어(120)에 포함된 각각의 인공 노드에는 이전 레이어에 포함된 인공 노드들의 가중된 입력들(weighted inputs)에 관한 활성 함수(activation function)의 출력이 입력될 수 있다. 가중된 입력은 이전 레이어에 포함된 인공 노드들의 입력에 가중치(weight)가 곱해진 것이다. 가중치는 뉴럴 네트워크(100)의 파라미터로 지칭될 수 있다. 활성 함수는 시그모이드(sigmoid), 하이퍼볼릭 탄젠트(hyperbolic tangent; tanh) 및 렐루(rectified linear unit; ReLU)를 포함할 수 있고, 활성 함수에 의해 뉴럴 네트워크(100)에 비선형성이 형성될 수 있다. 출력 레이어(130)에 포함된 각각의 인공 노드에는 이전 레이어에 포함된 인공 노드들의 가중된 입력들이 입력될 수 있다.

일 실시예에 따르면 뉴럴 네트워크(100)는 입력 데이터가 주어지면 히든 레이어(120)를 거쳐 출력 레이어(130)에서 식별하고자 하는 클래스의 수에 따라 함수 값을 계산하고, 이들 중 가장 큰 값을 갖는 클래스로 입력 데이터를 식별할 수 있다. 뉴럴 네트워크(100)는 입력 데이터를 식별할 수 있으나, 이로 한정하는 것은 아니고, 뉴럴 네트워크(100)는 입력 데이터를 기준 데이터(예를 들어, 등록 데이터)에 대해 검증할 수도 있다. 아래의 인식 과정에 관한 설명은 주로 검증 과정으로 설명하지만, 성격에 반하지 않는 한 식별 과정에도 적용될 수 있다.

뉴럴 네트워크(100)의 폭과 깊이가 충분히 크면 임의의 함수를 구현할 수 있을 만큼의 용량(capacity)을 가질 수 있다. 뉴럴 네트워크(100)가 적절한 트레이닝 과정을 통해 충분히 많은 트레이닝 데이터를 학습하면, 최적의 인식 성능을 달성할 수 있다.

위에서는 인식 모델의 예시로서, 뉴럴 네트워크(100)를 설명하였으나, 인식 모델을 뉴럴 네트워크(100)로 한정하는 것은 아니다. 아래에서는 인식 모델의 특징 추출 레이어를 이용하여 추출된 특징 데이터를 이용한 검증 동작을 주로 설명한다.

도 2는 일 실시예에 따른 이미지 인식 방법을 설명하는 흐름도이다.

우선, 이미지 인식 장치는 이미지 센서를 통해 입력 이미지를 수신할 수 있다. 입력 이미지는 객체에 관한 이미지로서, 객체의 적어도 일부가 촬영된 이미지일 수 있다. 객체의 일부는 객체의 고유한 생체 특징(biometric feature)와 연관된 신체 부위일 수 있다. 예를 들어, 객체가 사람이면, 객체의 일부는 사람의 얼굴, 지문, 홍채, 및 정맥 등일 수 있다. 본 명세서에서는 주로 입력 이미지가 사람의 얼굴을 포함하는 경우를 예로 들어 설명하나, 이로 한정하는 것은 아니다. 입력 이미지는 컬러 이미지일 수 있고, 색 공간을 구성하는 채널 별로 복수의 채널 이미지들을 포함할 수 있다. 예를 들어, RGB 색공간에 있어서 입력 이미지는 적색 채널 이미지, 녹색 채널 이미지, 및 청색 채널 이미지를 포함할 수 있다. 색공간을 이로 한정하는 것은 아니고, YCbCr 등으로 색공간이 구성될 수도 있다. 다만, 입력 이미지를 이로 한정하는 것은 아니고, 깊이 이미지, 적외선 이미지, 초음파 이미지, 및 레이더 스캔 이미지 등을 포함할 수 있다.

그리고, 단계(210)에서 이미지 인식 장치는 이미지 센서에 의해 수신된 입력 이미지로부터 특징 추출 레이어를 이용하여 특징 데이터를 추출할 수 있다. 예를 들어, 특징 추출 레이어는 도 1에서 상술한 히든 레이어(120)로서, 하나 이상의 컨볼루션 레이어를 포함할 수 있다. 각 컨볼루션 레이어의 출력은 해당 컨볼루션 레이어에 입력된 데이터에 대해 커널 필터(kernel filter)의 스윕(sweep)에 의한 컨볼루션 연산이 적용된 결과일 수 있다. 입력 이미지가 복수의 채널 이미지들로 구성되는 경우, 이미지 인식 장치는 인식 모델의 특징 추출 레이어를 이용하여 채널 이미지들의 각각에 대해 특징 데이터를 추출하고, 채널 별 특징 데이터를 인식 모델의 다음 레이어로 전파시킬 수 있다.

그리고 단계(220)에서 이미지 인식 장치는 단계(210)에서 추출된 특징 데이터로부터, 고정된 마스크 및 추출된 특징 데이터에 응답하여 조정되는 가변 마스크에 기초하여, 입력 이미지에 나타나는 객체에 관한 인식 결과를 출력할 수 있다. 고정된 마스크는 서로 다른 입력 이미지에 대해서도 동일한 값을 가지는 마스크일 수 있다. 가변 마스크는 서로 다른 입력 이미지에 대해서는 다른 값을 가지는 마스크일 수 있다.

마스크는 임의의 데이터에 포함된 값을 배제, 보존, 및 변경하기 위한 마스크 가중치(mask weight)를 포함할 수 있다. 마스크는 복수의 값들을 포함하는 데이터에 대해 엘리먼트별 연산(element-wise operation)을 통해 적용될 수 있다. 예를 들어, 데이터에서 임의의 값에 대해, 마스크에서 해당 값에 대응하는 마스크 가중치가 곱해질(multiplied) 수 있다. 후술하겠으나, 마스크는 데이터에서 관심 영역에 해당하는 값들을 강조(emphasize) 및/또는 보존하고, 나머지 영역에 해당하는 값들을 약화(deemphasize) 및/또는 배제하는 마스크 가중치들을 포함할 수 있다. 예를 들어, 마스크 가중치는 0 이상 1이하의 실수 값을 가질 수 있으나, 마스크 가중치의 값 범위(value range)를 이로 한정하는 것은 아니다. 마스크가 적용된 데이터를 마스킹된 데이터(masked data)라고도 나타낼 수 있다.

참고로, 아래에서는 마스크의 크기 및 차원이 마스크가 적용될 데이터와 동일한 크기 및 차원인 것으로 주로 설명한다. 예를 들어, 마스크가 적용될 데이터가 32 Х 32의 크기(size)를 가지는 2차원 벡터인 경우, 마스크도 32 Х 32 크기의 2차원 벡터일 수 있다. 다만, 이는 예시로서 이로 한정하는 것은 아니고, 마스크의 크기 및 차원은 데이터의 크기 및 차원과 다를 수도 있다.

일 실시예에 따르면 이미지 인식 장치는 추출된 특징 데이터 및 특징 데이터로부터 다시 추출된 대상 데이터에 대해 마스크를 적용하여 복수의 마스킹된 데이터를 산출할 수 있다. 이미지 인식 장치는 복수의 마스킹된 데이터를 이용하여 인식 결과를 산출할 수 있다.

도 3 및 도 4는 일 실시예에 따른 인식 모델의 예시적인 구조를 설명하는 도면이다.

도 3은 예시적인 인식 모델(310)의 개략적인 구조를 도시한다. 일 실시예에 따르면 이미지 인식 장치는 인식 모델(310)을 이용하여, 입력 이미지(301)로부터 인식 결과(309)를 출력할 수 있다. 예를 들어, 이미지 인식 장치는 이미지 쌍이 없이도, 단일 이미지로부터 인식 모델(310)을 이용하여 인식 결과(309)를 출력할 수 있다.

인식 모델(310)은 특징 추출 레이어(311), 고정 레이어(312), 및 센서 특화 레이어(313)(sensor-specific layer)를 포함할 수 있다. 특징 추출 레이어(311)는 입력 이미지(301)로부터 특징 데이터를 추출하도록 설계된 레이어를 나타낼 수 있다. 고정 레이어(312)는 특징 추출 레이어(311)로부터 전파(propagate)되는 데이터(예를 들어, 특징 데이터)에 고정 마스크(321)를 적용하고, 고정 마스크(321)가 적용된 데이터로부터 제1 인식 데이터를 출력하도록 설계된 레이어를 나타낼 수 있다. 센서 특화 레이어(313)는 특징 추출 레이어(311)로부터 전파되는 데이터(예를 들어, 특징 데이터로부터 하나 이상의 컨볼루션 레이어를 통해 추출된 대상 특징 맵)에 가변 마스크(322)를 적용하고, 가변 마스크(322)가 적용된 데이터로부터 제2 인식 데이터를 출력하도록 설계된 레이어를 나타낼 수 있다.

또한, 인식 모델(310)은, 해당 인식 모델(310)이 장착되는 전자 단말의 이미지 센서의 타입에 따라 커스터마이즈(customize)될 수 있다. 예를 들어, 인식 모델(310)의 고정 레이어(312)의 파라미터는 이미지 센서의 타입과 무관하게 불변(invariant)이고, 센서 특화 레이어(313)의 파라미터(예를 들어, 인공 노드들 간의 연결 가중치 등)는 이미지 센서의 타입에 대응하여 달라질 수 있다. 이미지 센서의 타입은 예를 들어, 이미지 센서의 광학 특성(optical characteristic) 별로 분류될 수 있다. 임의의 여러 이미지 센서들의 모델 번호 등이 다르더라도 광학 특성이 동일 및 유사하다면, 해당 이미지 센서들은 동일한 타입으로 분류될 수 있다.

일 실시예에 따른 이미지 인식 장치는 특징 추출 레이어(311)를 통해 입력 이미지(301)로부터 특징 데이터를 추출할 수 있다. 특징 데이터(feature data)는 상술한 바와 같이 이미지의 특징이 추상화된 데이터로서, 벡터 형태의 데이터(예를 들어, 특징 벡터)일 수 있으나, 이로 한정하는 것은 아니다.

이미지 인식 장치는 동일한 특징 데이터로부터 마스크들을 개별적으로 이용하여 복수의 인식 데이터를 산출할 수 있다. 예를 들어, 이미지 인식 장치는 추출된 특징 데이터로부터 고정된 마스크에 기초하여 제1 인식 데이터를 산출할 수 있다. 제1 인식 데이터는 고정된 마스크가 적용된 데이터로부터 산출된 결과를 나타낼 수 있고, 범용 인식 데이터(generic recognition data)라고도 나타낼 수 있다. 다른 예를 들어, 이미지 인식 장치는 추출된 특징 데이터로부터 가변 마스크(322)에 기초하여 제2 인식 데이터를 산출할 수 있다. 제2 인식 데이터는 가변 마스크(322)가 적용된 데이터로부터 산출된 결과를 나타낼 수 있고, 센서 특화 결과(sensor-specific data)라고도 나타낼 수 있다.

이미지 인식 장치는 제1 인식 데이터 및 제2 인식 데이터에 기초하여 인식 결과(309)를 결정할 수 있다. 제1 인식 데이터 및 제2 인식 데이터는 각각 입력 이미지(301)에 나타나는 객체가 실제 객체일 확률 및 위조 객체일 확률 중 적어도 하나를 지시할 수 있다. 후술하겠으나, 실제 객체일 확률은 0부터 1사이의 실수 값을 가질 수 있고, 해당 확률이 0에 가까울수록 입력 이미지에 나타난 객체가 위조 객체일 가능성이 높은 것을 나타내고, 해당 확률이 1에 가까울수록 입력 이미지에 나타난 객체가 실제 객체일 가능성이 높은 것을 나타낼 수 있다. 이미지 인식 장치는 제1 인식 데이터 및 제2 인식 데이터를 통합하여 인식 결과(309)를 결정할 수 있다. 예를 들어, 이미지 인식 장치는 제1 인식 데이터 및 제2 인식 데이터의 가중합(weighted sum)을 인식 결과(309)로 산출할 수 있다.

도 4는 도3에 도시된 인식 모델의 보다 상세한 구조를 도시한다.

이미지 인식 장치는 도 3에서 상술한 바와 유사하게, 입력 이미지(401)로부터 인식 모델(400)의 특징 추출 레이어(405)를 이용하여 특징 데이터(492)를 추출할 수 있다. 아래에서는 특징 데이터(492)에 대해 고정 레이어(410)를 이용하여 제1 인식 데이터(494)를 산출하는 예시 및 센서 특화 레이어(420)를 이용하여 제2 인식 데이터(498)를 산출하는 예시를 설명한다.

우선, 이미지 인식 장치는 특징 데이터(492)에 고정 마스크(411)를 적용함으로써 객체 관심 영역(object region of interest)에 관한 범용 특징 맵(493)을 생성할 수 있다. 예를 들어, 이미지 인식 장치는 특징 데이터(492)의 각 값에 대해 고정 마스크(411)에서 해당 값에 대응하는 마스크 가중치를 엘리먼트별 연산으로 적용할 수 있다. 객체 관심 영역은 데이터에서 객체의 일부와 관련된 관심 영역으로서, 예를 들어, 사람의 얼굴과 관련된 성분들을 포함하는 영역일 수 있다. 고정 마스크(411)에서 객체 관심 영역 내의 마스크 가중치는 나머지 영역의 마스크 가중치보다 높을 수 있다. 따라서 범용 특징 맵(493)은 특징 데이터(492)에서 사람의 얼굴과 관련된 성분이 강조되고, 나머지 성분은 덜 강조되거나 배제된 특징 맵일 수 있다.

이미지 인식 장치는 범용 특징 맵(493)으로부터 제1 인식 데이터(494)를 산출할 수 있다. 예를 들어, 이미지 인식 장치는 인식기(recognizer)(412)를 통해 제1 인식 데이터(494)를 산출할 수 있다. 고정 레이어(410)의 인식기(412)는 범용 특징 맵(493)으로부터 인식 데이터를 출력하도록 설계될 수 있다. 예를 들어, 인식기는 분류기(classifier)로서 입력 이미지(401)에 나타난 객체가 실제 객체인 확률 및 위조 객체인 확률을 지시하는 제1 검증 스코어 벡터(first verification score vector)(예를 들어, 제1 검증 스코어 벡터=[실제 객체일 확률, 위조 객체일 확률])를 출력할 수 있다. 분류기는 완전 연결 레이어(FC layer, fully connected layer) 및 소프트맥스 연산(softmax operation)을 포함할 수 있다.

참고로, 본 명세서에서 인식 데이터의 예시로서 주로 검증 스코어를 설명하였으나, 이로 한정하는 것은 아니다. 인식 데이터는 입력 이미지에 나타나는 객체가 k개의 클래스들의 각각에 속하는 확률을 지시하는 정보를 포함할 수도 있다. 여기서, k는 2이상의 정수일 수 있다. 또한, 인식 데이터를 산출하는 연산으로서 대표적으로 소프트맥스 연산을 주로 설명하였으나, 이로 한정하는 것은 아니고, 다른 비선형 매핑 함수(non-linear mapping function)이 사용될 수도 있다.

그리고 이미지 인식 장치는 가변 마스크(495)를 대상 특징 맵(496)에 적용하기 전에, 특징 데이터(492)의 전파에 응답하여 가변 마스크(495)를 조정할 수 있다. 예를 들어, 이미지 인식 장치는 가변 마스크(495)를 포함하는 센서 특화 레이어(420)의 적어도 일부 레이어(예를 들어, 마스크 조정 레이어(421))를 이용하여, 특징 데이터(492)에 따라 가변 마스크(495)의 하나 이상의 값을 조정할 수 있다. 따라서 가변 마스크(495)의 마스크 가중치는 매 입력 이미지(401)의 입력마다 업데이트될 수 있다. 마스크 조정 레이어(421)는 예를 들어, 어텐션 레이어의 일부로 구현될 수 있으며, 아래 도 7에서 설명한다.

이미지 인식 장치는 특징 데이터(492)에 대응하는 대상 특징 맵(496)에 대해 상술한 바와 같이 조정된 가변 마스크(495)를 적용함으로써 이미지 센서의 관심 영역(region of interest)에 관한 센서 특화 특징 맵(sensor-specific feature map)을 생성할 수 있다. 예를 들어, 이미지 인식 장치는 특징 데이터(492)로부터 대상 추출 레이어(422)를 이용하여 대상 특징 맵(496)을 추출할 수 있다. 대상 추출 레이어(422)는 하나 이상의 컨볼루션 레이어를 포함할 수 있고, 대상 특징 맵(496)은 특징 데이터(492)에 대해 하나 이상의 컨볼루션 연산이 적용된 특징 맵일 수 있다. 이미지 인식 장치는 대상 특징 맵(496)의 개별 값에 대해 가변 마스크(495)에서 대응하는 값을 적용함으로써 센서 특화 특징 맵(497)을 생성할 수 있다. 예를 들어, 이미지 인식 장치는 대상 특징 맵(496)의 각 값에 대해 가변 마스크(495)에서 해당 값에 대응하는 마스크 가중치를 엘리먼트별 연산으로 적용할 수 있다.

본 명세서에서 이미지 센서의 관심 영역은 데이터에서 객체의 일부 및 이미지 센서의 광학 특성과 관련된 관심 영역을 나타낼 수 있다. 예를 들어, 이미지 센서의 관심 영역은, 데이터에서 이미지 센서의 광학적 특성(예를 들어, 렌즈 쉐이딩(lens shading) 및 이미지 센서의 민감도(sensitivity) 등)을 고려하여 객체 인식에서 주요한 성분(principal component)을 포함하는 영역일 수 있다. 상술한 바와 같이 가변 마스크(495)의 마스크 가중치는 매 입력마다 조정되므로, 이미지 센서의 관심 영역도 매 입력마다 달라질 수 있다. 센서 특화 특징 맵은, 대상 특징 맵에서 객체 및 이미지 센서의 광학 특성에 관한 관심 영역이 강조된 특징 맵일 수 있다. 참고로, 이미지 센서의 광학 특성은 도 9 및 도 10에서 후술하는 트레이닝을 통해 결정된 센서 특화 레이어(420)의 파라미터에 반영될 수 있다.

이미지 인식 장치는 센서 특화 특징 맵(497)으로부터 제2 인식 데이터(498)를 산출할 수 있다. 예를 들어, 이미지 인식 장치는 인식기(423)를 통해 제2 인식 데이터(498)를 산출할 수 있다. 센서 특화 레이어(420)의 인식기(423)는 센서 특화 특징 맵(497)으로부터 인식 데이터를 출력하도록 설계될 수 있다. 예를 들어, 인식기(423)는 분류기로서 입력 이미지(401)에 나타난 객체가 실제 객체인 확률 및 위조 객체인 확률을 지시하는 제2 검증 스코어 벡터(second verification score vector)(예를 들어, 제2 검증 스코어 벡터=[실제 객체일 확률, 위조 객체일 확률])를 출력할 수 있다. 참고로, 고정 레이어(410)의 인식기(412)와 센서 특화 레이어(420)의 인식기(423)가 동일한 구조(예를 들어, 완전 연결 레이어 및 소프트맥스 연산으로 구성된 구조)를 가지더라도, 파라미터는 서로 다를 수 있다.

이미지 인식 장치는 제1 인식 데이터(494) 및 제2 인식 데이터(498)에 대해 통합 연산(merge operation)(430)을 적용하여 인식 결과(409)를 생성할 수 있다. 예를 들어, 이미지 인식 장치는 고정된 마스크에 기초한 제1 인식 데이터(494) 및 가변 마스크(495)에 기초한 제2 인식 데이터(498)의 가중합(weighted sum)을 인식 결과(409)로 결정할 수 있다. 예를 들어, 이미지 인식 장치는 아래 수학식 1과 같이 인식 결과를 결정할 수 있다.

[수학식 1]

상술한 수학식 1에서 인식 결과(409)는 라이브니스 검증 점수(Liveness Score)일 수 있다. score₁은 제1 인식 데이터(494)의 검증 스코어, score₂는 제2 인식 데이터(498)의 검증 스코어를 나타낼 수 있다.

는 제1 인식 데이터(494)에 대한 가중치,

는 제2 인식 데이터(498)에 대한 가중치를 나타낼 수 있다. 일 실시예에 따르면 이미지 인식 장치는 제1 인식 데이터(494)에 대한 가중치보다 큰 가중치를 제2 인식 데이터(498)에 적용할 수 있다. 예를 들어, 상술한 수학식 1에서

>

일 수 있다. 참고로 수학식 1은 순전히 예시적인 것으로, 이미지 인식 장치는 인식 모델의 구조에 따라 n개의 인식 데이터를 산출할 수 있고, n개의 인식 데이터의 각각에 대하여 n개의 가중치를 적용하여 가중합을 산출할 수 있다. 여기서, n개의 가중치 중 가변 마스크에 기초한 인식 데이터에 적용되는 가중치는 나머지 인식 데이터에 적용되는 가중치보다 높을 수 있다. 여기서, n은 2이상의 정수일 수 있다.

도 5 및 도 6은 다른 일 실시예에 따른 인식 모델의 예시적인 구조를 설명하는 도면이다.

도 5에 도시된 바와 같이, 이미지 인식 장치는 도 3 및 도 4에서 상술한 고정 마스크(511) 및 가변 마스크(521)에 기초한 인식 데이터에 더하여, 검증 레이어(530)에 기초한 인식 데이터를 더 산출할 수 있다. 검증 레이어(530)는 인식기를 포함할 수 있다. 고정 마스크(511)를 포함하는 고정 레이어(510)에 기초한 제1 인식 데이터(581)를 하드 마스크 스코어(hard mask score), 가변 마스크(521)를 포함하는 센서 특화 레이어(520)에 기초한 제2 인식 데이터(582)는 소프트 마스크 스코어(soft mask score), 기본 라이브니스 검증 모델에 기초한 제3 인식 데이터(583)는 2차원 라이브니스 스코어(2D liveness score)라고 나타낼 수 있다. 이미지 인식 장치는 하나의 입력 이미지(501)로부터 특징 추출 레이어(510)를 통해 공통적으로 추출되는 특징 데이터 x로부터 개별적으로 제1 인식 데이터(581), 제2 인식 데이터(582), 및 제3 인식 데이터(583)를 산출할 수 있다.

이미지 인식 장치는 제1 인식 데이터(581) 및 제2 인식 데이터(582)와 함께, 제3 인식 데이터(583)에 더 기초하여 인식 결과(590)를 결정할 수 있다. 예를 들어, 이미지 인식 장치는 객체가 실제 객체(real object)인 지 또는 위조 객체(fake object)인 지를 지시하는 진위 정보(authenticity information)를 인식 결과(590)로서 생성할 수 있다. 인식 결과(590)는 라이브니스 스코어로서 실제 객체일 확률을 지시하는 값을 포함할 수 있다.

도 6은 도 5에 도시된 구조를 보다 상세히 도시한다.

인식 모델은 고정 레이어(610), 센서 특화 레이어, 및 라이브니스 검증 모델(630)을 포함할 수 있다. 이미지 인식 장치는 입력 이미지(601)를 이용하여 인식 모델을 시행(implement)할 시, 라이브니스 검증 모델(630) 중 특징 추출 레이어(610)에 의해 추출된 특징 데이터(x)를 고정 레이어(610) 및 센서 특화 레이어로 전파할 수 있다.

고정 레이어(610)는 예시적으로 고정 마스크(611), 완전 연결 레이어(613), 및 소프트맥스 연산(614)을 포함할 수 있다. 예를 들어, 이미지 인식 장치는 특징 데이터(x)에 고정 마스크(611)를 적용하여 아래 수학식 1과 같이 범용 특징 맵(612)(Feat_generic)을 산출할 수 있다.

[수학식 2]

상술한 수학식 2에서 Feat_generic은 범용 특징 맵(612)을 나타내고, M_hard는 고정 마스크(611)를 나타내며, x는 특징 데이터,

는 엘리먼트별 연산(예를 들어, 엘리먼트별 곱(element-wise multiplication))을 나타낼 수 있다. 이미지 인식 장치는 범용 특징 맵(612) Feat_generic을 완전 연결 레이어(613)에 전파시켜 출력된 값에 소프트맥스 연산(614)을 적용하여 제1 인식 데이터(681)를 산출할 수 있다. 예시적으로 특징 데이터(x), 범용 특징 맵(612) Feat_generic, 및 완전 연결 레이어(613)에서 출력되는 데이터의 크기(예를 들어, 32 Х 32)는 서로 동일할 수 있다.

센서 특화 레이어는 예시적으로 어텐션 레이어(621), 완전 연결 레이어(623), 및 소프트맥스 연산(624)을 포함할 수 있다. 어텐션 레이어(621)의 상세는 하기 도 7에서 설명한다. 예를 들어, 이미지 인식 장치는 특징 데이터(x)로부터 어텐션 레이어(621)를 이용하여 센서 특화 특징 맵(622)(Feat_specific)으로서 어텐션 특징 맵을 산출할 수 있다.

[수학식 3]

상술한 수학식 3에서 Feat_specific은 센서 특화 특징 맵(622)을 나타내고, M_soft는 가변 마스크, h(x)는 특징 데이터(x)에 대응하는 대상 특징 맵을 나타낼 수 있다. 대상 특징 맵 h(x)의 산출은 하기 도 7에서 설명한다. 이미지 인식 장치는 센서 특화 특징 맵(622) Feat_specific을 완전 연결 레이어(623)에 전파시켜 출력된 값에 소프트맥스 연산(624)을 적용하여 제2 인식 데이터(682)를 산출할 수 있다. 예시적으로 특징 데이터(x), 센서 특화 특징 맵(622) Feat_specific, 및 완전 연결 레이어(623)에서 출력되는 데이터의 크기(예를 들어, 32 Х 32)는 서로 동일할 수 있다.

라이브니스 검증 모델(630)은 특징 추출 레이어(610) 및 인식기를 포함할 수 있다. 일 실시예에 따르면 이미지 인식 장치는 추출된 특징 데이터(x)로부터 완전 연결 레이어(631) 및 소프트맥스 연산(632)를 이용하여 제3 인식 데이터(683)를 산출할 수 있다. 예시적으로 완전 연결 레이어들(613, 623, 631)에서 출력되는 데이터의 크기(예를 들어, 32 Х 32)는 서로 동일할 수 있다.

이미지 인식 장치는 제1 인식 데이터(681), 제2 인식 데이터(682), 및 제3 인식 데이터(683)에 가중합 연산(689)을 통해 라이브니스 스코어(690)를 산출할 수 있다.

일 실시예에 따르면 이미지 인식 장치는 라이브니스 검증 모델(630), 고정 레이어(610), 및 센서 특화 레이어를 병렬적으로 시행할 수 있다. 예를 들어, 이미지 인식 장치는 특징 추출 레이어(610)에 의해 추출된 특징 데이터(x)를 고정 레이어(610), 센서 특화 레이어 및 검증 레이어로 동시에 또는 인접한 시간 내에 전파시킬 수 있다. 다만, 이로 한정하는 것은 아니고, 이미지 인식 장치는 각 레이어에 순차적으로 특징 데이터(x)를 전파시킬 수도 있다. 제1 인식 데이터(681), 제2 인식 데이터(682), 및 제3 인식 데이터(683)는 동시에 산출될 수도 있으나, 이로 한정하는 것은 아니고, 각 레이어에서 소요되는 연산 시간에 따라 다른 시간에 산출될 수도 있다.

도 7은 일 실시예에 따른 어텐션 레이어를 설명하는 도면이다.

일 실시예에 따르면 이미지 인식 장치는 어텐션 레이어(700)를 이용하여 가변 마스크(706)의 하나 이상의 값을 조정할 수 있다. 예를 들어, 어텐션 레이어(700)는 예를 들어, 마스크 조정 레이어(710), 대상 추출 레이어(720), 및 마스킹 연산을 포함할 수 있다. 마스크 조정 레이어(710)는 쿼리 추출 레이어(711) 및 키 추출 레이어(712)를 포함할 수 있다. 쿼리 추출 레이어(711), 키 추출 레이어(712), 및 대상 추출 레이어(720)는 각각 하나 이상의 컨볼루션 레이어를 포함할 수 있으나, 이로 한정하는 것은 아니다.

이미지 인식 장치는 쿼리 추출 레이어(711)를 이용하여 특징 데이터(705)로부터 쿼리 특징 맵(query feature map) f(x)를 추출할 수 있다. 이미지 인식 장치는 키 추출 레이어(712)를 이용하여 특징 데이터(705)로부터 키 특징 맵(key feature map) g(x)를 추출할 수 있다. 이미지 인식 장치는 대상 추출 레이어(720)를 이용하여 대상 특징 맵 h(x)를 추출할 수 있다. 도 2에서 상술한 바와 같이 입력 이미지가 컬러 이미지로서 복수의 채널 이미지들(예를 들어, 3개 채널들의 이미지)을 포함하는 경우, 채널 별로 특징 데이터(705)가 추출될 수 있다. 쿼리 추출 레이어(711), 키 추출 레이어(712), 및 대상 추출 레이어(720)는 각 채널 별로 특징을 추출하도록 구성될 수 있다.

예를 들어, 이미지 인식 장치는 특징 데이터(705)에 대해 컨볼루션 필터링이 적용된 결과인 키 특징 맵 g(x) 및 전치된(transposed) 쿼리 특징 맵 f(x) 간의 곱 결과로부터 소프트맥스 함수(softmax function)를 이용하여 가변 마스크(706)의 값을 결정할 수 있다. 키 특징 맵 g(x) 및 전치된 쿼리 특징 맵 f(x) 간의 곱 결과는 주어진 쿼리에 대한 모든 키와의 유사도(similarity level)를 나타낼 수 있다. 가변 마스크(706)는 하기 수학식 4와 같이 결정될 수 있다.

[수학식 4]

상술한 수학식 4에서 M_soft는 가변 마스크(706), f(x)는 쿼리 특징 맵, g(x)는 키 특징 맵을 나타낼 수 있다. 이미지 인식 장치는 상술한 수학식 4에 따라 결정된 가변 마스크(706) M_soft를 상술한 수학식 3에 따라 대상 특징 맵 h(x)에 적용할 수 있다. 센서 특화 특징 맵(709)은 대상 특징 맵 h(x)이 가변 마스크(706) M_soft에 의해 마스킹된 결과를 나타낼 수 있다. 센서 특화 특징 맵(709)은 채널 별로 채널 개수만큼 생성될 수 있다.

도 7에서 설명된 어텐션 레이어(700)는 디코더(decoder)에서 매 시점마다 인코더(encoder)의 전체 이미지를 다시 한번 참조함으로써 배니싱 그래디언트(vanishing gradient) 문제를 방지할 수 있다. 어텐션 레이어(700)는 전체 이미지를 동일한 값이 아닌, 인식과의 관련성이 높은 부분을 포커싱하여 참조할 수 있다. 참고로, 도 7에서 어텐션 레이어는 쿼리, 키, 값으로서 동일한 특징 데이터를 입력받는 셀프 어텐션 구조로 도시되었으나, 이로 한정하는 것은 아니다.

도 8은 또 다른 일 실시예에 따른 인식 모델의 예시적인 구조를 설명하는 도면이다.

일 실시예에 따르면 인식 모델(800)은 특징 추출 레이어(810), 고정 레이어(820), 및 제1 센서 특화 레이어(831) 내지 제n 센서 특화 레이어(832)를 포함할 수 있다. 여기서, n은 2이상의 정수일 수 있다. 제1 센서 특화 레이어(831) 내지 제n 센서 특화 레이어(832)는 각각 가변 마스크를 포함할 수 있고, 입력 이미지(801)로부터 특징 추출 레이어(810)에 의해 추출되는 특징 데이터에 응답하여 각 가변 마스크의 값이 조정될 수 있다. 이미지 인식 장치는 고정 레이어(820)의 고정된 마스크 및 복수의 센서 특화 레이어들의 복수의 가변 마스크들에 기초하여 인식 결과(809)를 산출할 수 있다. 이미지 인식 장치는 고정 레이어(820) 및 제1 센서 특화 레이어(831) 내지 제n 센서 특화 레이어(832)의 각각으로부터 산출되는 인식 데이터를 통합하여 인식 결과(809)를 결정할 수 있다. 예를 들어, 이미지 인식 장치는 복수의 인식 데이터의 가중합을 인식 결과(809)로 결정할 수 있다.

상술한 복수의 가변 마스크들 중 한 가변 마스크를 포함하는 센서 특화 레이어의 파라미터 및 다른 가변 마스크를 포함하는 다른 센서 특화 레이어의 파라미터는 서로 다를 수 있다. 또한, 제1 센서 특화 레이어(831) 내지 제n 센서 특화 레이어(832)는 서로 다른 구조의 레이어일 수 있다. 예를 들어, 제1 센서 특화 레이어(831) 내지 제n 센서 특화 레이어(832) 중 한 레이어는 어텐션 레이어로서 구현되고, 나머지 레이어는 어텐션 이외의 다른 구조로 구현될 수도 있다.

도 9는 일 실시예에 따른 인식 모델의 트레이닝을 설명하는 도면이다.

일 실시예에 따르면 트레이닝 장치는 트레이닝 데이터를 이용하여 인식 모델을 트레이닝시킬 수 있다. 트레이닝 데이터는 트레이닝 입력 및 트레이닝 출력의 쌍을 포함할 수 있다. 트레이닝 입력은 이미지일 수 있고, 트레이닝 출력은 해당 이미지에 나타난 객체의 인식 참값(ground truth)일 수 있다. 예를 들어, 트레이닝 출력은 트레이닝 입력 이미지에 나타난 객체가 실제 객체라고 지시하는 값(예를 들어, 1) 또는 위조 객체라고 지시하는 값(예를 들어, 0)을 가질 수 있다. 추후 트레이닝이 완료된 인식 모델은 인식 데이터로서 0에서 1사이의 실수 값을 출력할 수 있고, 해당 값은 입력 이미지에 나타난 객체가 실제 객체일 확률을 나타낼 수 있다. 다만, 이로 한정하는 것은 아니다.

트레이닝 장치는 임시 인식 모델에 트레이닝 입력을 전파시켜 임시 출력을 산출할 수 있다. 트레이닝이 완료되기 전의 인식 모델을 임시 인식 모델이라고 나타낼 수 있다. 트레이닝 장치는 임시 인식 모델의 특징 추출 레이어(910)를 이용하여 특징 데이터를 산출하고, 고정 레이어(920), 센서 특화 레이어(930), 및 검증 레이어(940)로 각각 전파시킬 수 있다. 전파 과정에서 임시 범용 특징 맵(922) 및 임시 어텐션 특징 맵(932)이 산출될 수 있다. 트레이닝 장치는 고정 레이어(920)로부터 제1 임시 출력, 센서 특화 레이어(930)로부터 제2 임시 출력, 검증 레이어(940)로부터 제3 임시 출력을 산출할 수 있다. 트레이닝 장치는 각 임시 출력 및 트레이닝 출력으로부터 손실 함수에 기초한 손실을 산출할 수 있다. 예를 들어, 트레이닝 장치는 제1 임시 출력 및 트레이닝 출력에 기초하여 제1 손실, 제2 임시 출력 및 트레이닝 출력에 기초하여 제2 손실, 제3 임시 출력 및 트레이닝 출력에 기초하여 제3 손실을 산출할 수 있다.

[수학식 5]

트레이닝 장치는 상술한 수학식 5와 같이 산출된 손실들의 가중 손실을 산술할 수 있다. 상술한 수학식 5에서 Liveness loss는 전체 손실(909), Loss₁은 제1 손실, Loss₂는 제2 손실, Loss₃는 제3 손실을 나타낼 수 있다.

는 제1 손실에 대한 가중치,

는 제2 손실에 대한 가중치,

는 제3 손실에 대한 가중치를 나타낼 수 있다. 트레이닝 장치는 전체 손실(909)이 임계 손실에 도달할 때까지 임시 인식 모델의 파라미터를 업데이트할 수 있다. 손실 함수의 설계에 따라 트레이닝 장치는 전체 손실(909)을 증가시키거나 감소시킬 수 있다. 예를 들어, 트레이닝 장치는 역전파(back propagation)를 통해 임시 인식 모델의 파라미터를 업데이트할 수 있다.

일 실시예에 따르면 트레이닝 장치는 트레이닝이 되지 않은 초기 인식 모델에 대해서는 트레이닝 동안 특징 추출 레이어(910), 고정 레이어(920), 센서 특화 레이어(930), 및 검증 레이어(940)의 모든 파라미터를 업데이트할 수 있다. 이 때, 트레이닝 장치는 범용 트레이닝 데이터(901)를 이용하여 초기 인식 모델을 트레이닝시킬 수 있다. 범용 트레이닝 데이터(901)는 임의의 이미지 센서에 의해 획득된 이미지를 트레이닝 입력으로 포함할 수 있다. 범용 트레이닝 데이터(901)의 트레이닝 이미지는 한 타입의 이미지 센서에 의해 획득될 수 있으나, 이로 한정하는 것은 아니고 여러 타입의 이미지 센서에 의해 획득될 수도 있다. 범용 트레이닝 데이터(901)를 이용하여 트레이닝된 인식 모델은 범용 인식 모델이라고 나타낼 수 있다. 범용 인식 모델은 예를 들어 하이엔드 성능(high-end performance)을 가지는 플래그쉽 레벨의 전자 단말에 탑재되는 모델일 수 있다. 플래그쉽 레벨의 전자 단말의 이미지 센서는 좋은 광학 성능을 가질 수 있다. 범용 인식 모델은 특정 타입의 이미지 센서에 대해서는 FR(False Rejection) 결과 및 FA(False Acceptance) 결과를 출력하는 경우가 있다. 해당 타입의 이미지 센서의 광학 특성이 범용 인식 모델에 반영되지 않았기 때문이다. FR 결과는 참을 거짓으로 오인한 결과를 나타내고, FA 결과는 거짓을 참으로 오인한 결과를 나타낼 수 있다.

트레이닝 장치는 범용 인식 모델로부터 특정 타입의 이미지 센서에 대한 인식 모델을 생성할 수 있다. 예를 들어, 트레이닝 장치는 범용 인식 모델에서 고정 레이어(920)에 포함된 고정 마스크(921)의 값들 및 검증 레이어(940)의 파라미터를 트레이닝 동안 고정할 수 있다. 트레이닝 장치는 임시 인식 모델에서 센서 특화 레이어(930)의 파라미터를 트레이닝 동안 업데이트할 수 있다. 트레이닝 장치는 상술한 바와 같이 전체 손실(909)을 산출하고, 전체 손실(909)이 임계 손실에 도달할 때까지 반복적으로 센서 특화 레이어(930)의 파라미터를 조정할 수 있다. 예를 들어, 트레이닝 장치는 센서 특화 레이어(930)에서 어텐션 레이어(931)의 파라미터(예를 들어, 연결 가중치) 및 완전 연결 레이어의 파라미터를 업데이트할 수 있다.

이 때, 트레이닝 장치는 인식 모델의 센서 특화 레이어(930)를 트레이닝시키기 위해 범용 트레이닝 데이터(901) 및 센서 특화 트레이닝 데이터(902)를 함께 이용할 수 있다. 센서 특화 트레이닝 데이터(902)는 특정 타입의 이미지 센서에 의해 획득된 트레이닝 이미지들로만 구성된 데이터일 수 있다. 이미지 센서의 타입은 상술한 바와 같이 이미지 센서의 광학 특성에 따라 분류될 수 있다. 트레이닝 장치는 센서 특화 트레이닝 데이터(902)를 이용하여 상술한 바와 유사하게 산출된 손실에 기초하여 센서 특화 레이어(930)의 파라미터를 업데이트할 수 있다.

신제품 출시 초기에는 센서 특화 트레이닝 데이터(902)의 양이 충분하지 않을 수 있는데, 트레이닝 데이터 부족으로 인한 과적합(over fitting)을 방지하기 위해 트레이닝 장치는 범용 트레이닝 데이터(901)도 트레이닝에 이용할 수 있다. 범용 트레이닝 데이터(901)의 양은 센서 특화 트레이닝 데이터(902)의 양에 비해 클 수 있다. 다시 말해, 트레이닝 장치는 적은 양(예를 들어, 수 만 장)의 센서 특화 트레이닝 데이터(902)와 함께 기존의 범용 트레이닝 데이터(901)(예를 들어, 수백만 장의 기존 이미지 데이터베이스)를 통해 개별 광학 특성에 특화된 센서 특화 레이어(930)를 가지는 인식 모델을 생성할 수 있다. 따라서 트레이닝 장치는 비교적 단시간 내에 범용 인식 모델로부터 특정 타입의 이미지 센서에 특화된 인식 모델을 생성할 수 있다. 이전까지 발견되지 않았던(previously unseen) 스푸핑 공격(spoofing attack)이 발생하더라도, 트레이닝 장치는 보다 신속하게 신규 스푸핑 공격을 방어할 수 있도록 센서 특화 레이어의 파라미터를 학습하고, 트레이닝된 센서 특화 레이어의 파라미터를 각 이미지 인식 장치(예를 들어, 아래 도 10의 전자 단말)에 긴급하게 배포할 수 있다. 센서 특화 트레이닝 데이터(902)는 새로 보고된 FR 결과 및 FA 결과에 대응하는 이미지를 포함할 수 있다.

도 10은 일 실시예에 따른 인식 모델에서 센서 특화 레이어의 파라미터 업데이트를 설명하는 도면이다.

이미지 인식 시스템은 트레이닝 장치(1010), 서버(1050), 및 전자 단말들(1060, 1070, 1080)을 포함할 수 있다.

트레이닝 장치(1010)의 프로세서(1011)는 도 9에서 상술한 바와 같이 인식 모델을 트레이닝시킬 수 있다. 트레이닝 장치(1010)는 초기 인식 모델(1040)에 대한 최초 트레이닝이 완료된 후에도, 인식 모델(1040)의 센서 특화 레이어(1043)에 대한 추가 트레이닝을 수행할 수 있다. 예를 들어, 트레이닝 장치(1010)는 신규 스푸핑 공격이 발생하는 경우에 응답하여, 신규 스푸핑 공격과 연관된 트레이닝 데이터에 기초하여 인식 모델(1040)의 센서 특화 레이어(1043)를 재트레이닝시킬 수 있다.

트레이닝 장치(1010)의 메모리(1012)는 트레이닝이 완료되기 전 및 후의 인식 모델(1040)을 저장할 수 있다. 또한, 메모리(1012)는 범용 트레이닝 데이터(1020), 센서 특화 트레이닝 데이터(1030), 인식 모델(1040)에서 특징 추출 레이어(1041), 센서 특화 레이어(1043), 및 고정 레이어(1042)의 파라미터를 저장할 수 있다. 트레이닝 장치(1010)는 도 9에서 상술한 트레이닝이 완료되면 서버(1050)와의 통신(예를 들어, 유선 통신 또는 무선 통신)을 통해 트레이닝이 완료된 인식 모델(1040)을 배포할 수 있다.

또한, 서버(1050)는 인식 모델(1040)의 모든 파라미터를 배포하는 대신 일부 파라미터만 각 전자 단말에 배포할 수도 있다. 예를 들어, 트레이닝 장치(1010)는 인식 모델(1040)의 센서 특화 레이어(1043)에 대한 추가 트레이닝이 완료된 경우에 응답하여, 재트레이닝된 센서 특화 레이어(1043)의 파라미터를 서버(1050)에 업로드할 수 있다. 서버(1050)는 특정 타입의 이미지 센서를 가지는 전자 단말 군(1091)의 전자 단말들(1060, 1070, 1080)로 센서 특화 레이어(1043)의 파라미터만 제공할 수 있다. 전자 단말 군(1091)에 속하는 전자 단말들(1060, 1070, 1080)은 서로 동일 또는 유사한 광학 특성을 가지는 이미지 센서가 장착될 수 있다. 서버(1050)는 인식 모델(1050)의 센서 특화 레이어(1043)에 대한 추가 트레이닝 완료 및 전자 단말로부터 수신되는 업데이트 요청 중 적어도 하나에 응답하여, 해당 전자 단말로 추가로 트레이닝된 센서 특화 레이어(1043)를 배포할 수 있다. 업데이트 요청은, 임의의 단말이 서버에 대해 인식 모델의 업데이트를 요청하는 신호일 수 있다.

또한, 도 10에서는 트레이닝 장치(1010)가 한 타입의 인식 모델(1040)만 저장하는 것으로 도시되었으나, 이로 한정하는 것은 아니다. 트레이닝 장치는 다른 타입의 인식 모델을 저장할 수 있고, 다른 단말 군(1092)에 대해서도 업데이트된 파라미터를 제공할 수도 있다.

상술한 전자 단말 군(1091)에 속하는 전자 단말들(1060, 1070, 1080)의 각각은 업데이트 명령에 응답하여 외부 서버(1050)로부터 가변 마스크를 포함하는 센서 특화 레이어(1043)의 파라미터를 수신할 수 있다. 업데이트 명령은 사용자 입력에 따른 것일 수 있으나, 이로 한정하는 것은 아니고, 서버로부터 전자 단말이 수신하는 명령일 수도 있다. 전자 단말들의 각각은 수신된 파라미터를 센서 특화 레이어(1062, 1072, 1082)에 업데이트할 수 있다. 이 때, 전자 단말들(1060, 1070, 1080)의 각각은 나머지 특징 추출 레이어(1061, 1071, 1081) 및 고정 레이어(1063, 1073, 1083)의 파라미터를 고정할 수 있다. 예를 들어, 전자 단말들(1060, 1070, 1080)의 각각은 센서 특화 레이어(1062, 1072, 1082)의 파라미터를 업데이트하기 전, 업데이트하는 동안, 및 업데이트한 후에도, 고정 마스크의 값을 유지할 수 있다. 참고로, 개별 이미지 센서의 고유한 광학 특성에 의존적인 FR 결과 및 FA 결과가 보고되는 경우, 트레이닝 장치가 상술한 FR 결과 및 FA 결과를 센서 특화 레이어(1043)에 트레이닝시킨 결과로서의 파라미터를 배포할 수 있다.

다른 예를 들어, 전자 단말은 외부 서버(1050)에 대해, 현재 장착된 이미지 센서와 동일하거나 유사한 광학 특성에 대응하는 센서 특화 파라미터(1043)를 요청할 수 있다. 서버(1050)는 전자 단말로부터 요청된 광학 특성에 대응하는 센서 특화 파라미터(1043)를 검색하고, 검색된 센서 특화 파라미터(1043)를 해당 전자 단말에 대해 제공할 수 있다.

도 10에서는 서버(1050)가 센서 특화 레이어(1043)의 파라미터를 배포하는 예시를 설명하였으나, 이로 한정하는 것은 아니다. 서버(1050)는 고정 레이어(1042)의 고정 마스크 값에 변경이 발생하는 경우, 전자 단말들(1060, 1070, 1080)에 배포할 수 있다. 전자 단말들(1060, 1070, 1080)은 필요에 따라 고정 레이어(1063, 1073, 1083)를 업데이트할 수도 있다. 예를 들어, 개별 이미지 센서의 고유한 광학 특성과 무관한 일반적인 FR 결과 및 FA 결과가 보고되는 경우, 트레이닝 장치는 고정 레이어(1042)의 고정 마스크 값을 조정할 수 있다. 참고로, 고정 마스크의 업데이트는 범용적으로 다양한 타입의 이미지 센서를 가지는 다양한 전자 단말에서의 인식 성능을 개선할 수 있다. 개별 광학 특성에 대응하는 가변 마스크의 업데이트는 해당 광학 특성의 이미지 센서를 가지는 전자 단말에서의 인식 성능을 개선할 수 있다.

특정 기기만 가지고 취득된 데이터를 뉴럴 네트워크에 학습시키면, 해당 기기의 인식율은 높을 수 있다. 다만, 동일한 뉴럴 네트워크를 다른 기기에 탑재할 경우 인식율이 저하되었다. 일 실시예에 따른 인식 모델은 도 9 및 도 10에서 상술한 바와 같이, 기존 네트워크 전체를 재트레이닝시키는 대신, 약간의 추가 트레이닝을 통해 이미지 센서 별로 특화된 센서 특화 레이어를 가질 수 있다. 따라서 인식 모델에 대한 긴급 패치가 가능하므로, 전자 단말들(1060, 1070, 1080)의 프라이버시 및 보안이 보다 안전하게 보호될 수 있다.

도 11 및 도 12는 일 실시예에 따른 이미지 인식 장치의 구성을 도시한 블록도이다.

도 11에 도시된 이미지 인식 장치(1100)는 이미지 센서(1110), 프로세서(1120), 및 메모리(1130)를 포함할 수 있다.

이미지 센서(1110)는 입력 이미지를 수신할 수 있다. 예를 들어, 이미지 센서(1110)는 컬러 이미지를 촬영하는 카메라 센서일 수 있다. 또한, 이미지 센서(1110)는 2PD 센서(dual phase detection sensor)로서, 좌우 위상차를 이용하여 한 픽셀에 대한 디스패리티 이미지를 획득할 수 있다. 상술한 2 위상 검출 센서에 의해 디스패리티 이미지가 바로 생성되므로, 스테레오 센서 및 종래의 깊이 추출 기법 없이도, 해당 디스패리티 이미지로부터 깊이 이미지가 산출될 수도 있다.

2PD 센서는 ToF(time-of-flight) 방식, 구조광(structured light) 방식의 깊이 센서와 달리 추가적인 폼 팩터(form factor) 및 센서 코스트 없이 장치(1100)에 장착될 수 있다. 예를 들어, 2PD 센서는, CIS(Contact Image Sensor) 센서와 달리, 각각 2개의 포토 다이오드(예를 들어, 제1 포토 다이오드 및 제2 포토 다이오드)로 구성되는 센싱 엘리먼트들을 포함할 수 있다. 따라서 2PD 센서에 의한 촬영을 통해, 2개의 이미지가 생성될 수 있다. 2개의 이미지는 제1 포토 다이오드(예를 들어, 왼쪽 포토 다이오드)에 의해 센싱된 이미지 및 제2 포토 다이오드(예를 들어 ,오른쪽 포토 다이오드)에 의해 센싱된 이미지를 포함할 수 있다. 이 두 이미지는 포토 다이오드들의 물리적인 거리 차로 인해 서로 조금씩(slightly) 상이할 수 있다. 이미지 인식 장치(1100)는 이 두 이미지를 가지고 삼각측량법 등을 이용하여 거리 차이로 인한 디스패리티(Disparity)를 산출하고, 산출된 디스패리티로부터 픽셀 별 깊이(Depth)를 추정할 수 있다. 2PD 센서의 출력은 3개 채널을 출력하는 CIS 센서와는 달리 2개의 포토 다이오드 별로 각각 1개 채널 이미지를 출력하므로, 사용되는 메모리 및 연산량이 절감될 수 있다. CIS 센서에 의해 획득된 이미지로부터 디스패리티를 추정하기 위해서는 3개 채널 이미지의 쌍(예를 들어, 총 6개 채널)이 요구되지만, 2PD 센서에 의해 획득된 이미지로부터 디스패리티를 추정하기 위해서는 1개 채널 이미지의 쌍(예를 들어, 총 2개 채널)만 요구되기 때문이다.

다만, 이로 한정하는 것은 아니고, 이미지 센서(1110)는 적외선 센서, 레이더 센서, 초음파 센서, 및 깊이 센서 등을 포함할 수도 있다.

프로세서(1120)는 입력 이미지로부터 특징 추출 레이어를 이용하여 특징 데이터를 추출할 수 있다. 프로세서(1120)는 추출된 특징 데이터로부터 고정된 마스크 및 추출된 특징 데이터에 응답하여 조정되는 가변 마스크에 기초하여 입력 이미지에 나타나는 객체에 관한 인식 결과를 출력할 수 있다. 프로세서(1120)는 서버로부터 통신을 통해 센서 특화 레이어의 파라미터를 수신하는 경우, 메모리(1130)에 저장된 센서 특화 레이어의 파라미터를 업데이트할 수 있다.

메모리(1130)는 인식 모델 및 인식 모델의 시행 과정에서 생성되는 데이터를 임시적으로 또는 영구적으로 저장할 수 있다. 메모리(1130)는 서버로부터 센서 특화 레이어의 새로운 파라미터가 수신되는 경우, 새로 수신된 파라미터로 기존 파라미터를 대체할 수 있다.

도 12를 참조하면, 컴퓨팅 장치(1200)는 위에서 설명한 이미지 인식 방법을 이용하여 이미지를 인식하는 장치이다. 일 실시예에서, 컴퓨팅 장치(1200)는 도 10에 설명된 전자 단말 및/또는 도 11에서 설명된 장치(1100)에 대응할 수 있다. 컴퓨팅 장치(1200)는, 예를 들어 이미지 처리 장치, 스마트폰, 웨어러블 기기(wearable device), 태블릿 컴퓨터, 넷북, 랩탑, 데스크탑, PDA(personal digital assistant), HMD(head mounted display)일 수 있다.

도 12를 참조하면, 컴퓨팅 장치(1200)는 프로세서(1210), 저장 장치(1220), 카메라(1230), 입력 장치(1240), 출력 장치(1250) 및 네트워크 인터페이스(1260)를 포함할 수 있다. 프로세서(1210), 저장 장치(1220), 카메라(1230), 입력 장치(1240), 출력 장치(1250) 및 네트워크 인터페이스(1260)는 통신 버스(1270)를 통해 서로 통신할 수 있다.

프로세서(1210)는 컴퓨팅 장치(1200) 내에서 실행하기 위한 기능 및 인스트럭션들을 실행한다. 예를 들어, 프로세서(1210)는 저장 장치(1220)에 저장된 인스트럭션들을 처리할 수 있다. 프로세서(1210)는 도 1 내지 도 11을 통하여 전술한 하나 이상의 동작을 수행할 수 있다.

저장 장치(1220)는 프로세서(1210)의 실행에 필요한 정보 내지 데이터를 저장한다. 저장 장치(1220)는 컴퓨터 판독가능한 저장 매체 또는 컴퓨터 판독가능한 저장 장치를 포함할 수 있다. 저장 장치(1220)는 프로세서(1210)에 의해 실행하기 위한 인스트럭션들을 저장할 수 있고, 컴퓨팅 장치(1200)에 의해 소프트웨어 또는 애플리케이션이 실행되는 동안 관련 정보를 저장할 수 있다.

카메라(1230)는 매 이미지 인식을 위한 입력 이미지를 촬영할 수 있다. 카메라(1230)는 복수의 이미지들(예를 들어, 복수의 프레임 이미지들)를 촬영할 수 있다. 프로세서(1210)는 상술한 인식 모델을 이용하여 단일 이미지에 대한 인식 결과를 출력할 수 있다.

입력 장치(1240)는 촉각, 비디오, 오디오 또는 터치 입력을 통해 사용자로부터 입력을 수신할 수 있다. 입력 장치(1240)는 키보드, 마우스, 터치 스크린, 마이크로폰, 또는 사용자로부터 입력을 검출하고, 검출된 입력을 전달할 수 있는 임의의 다른 장치를 포함할 수 있다.

출력 장치(1250)는 시각적, 청각적 또는 촉각적인 채널을 통해 사용자에게 컴퓨팅 장치(1200)의 출력을 제공할 수 있다. 출력 장치(1250)는 예를 들어, 디스플레이, 터치 스크린, 스피커, 진동 발생 장치 또는 사용자에게 출력을 제공할 수 있는 임의의 다른 장치를 포함할 수 있다. 네트워크 인터페이스(1260)는 유선 또는 무선 네트워크를 통해 외부 장치와 통신할 수 있다. 출력 장치(1250)는 입력 데이터를 인식한 결과(예를 들어, 억세스 허용 및/또는 억세스 거절)를 시각 정보(visual information), 청각 정보(auditory information), 및 촉각 정보(haptic information) 중 적어도 하나를 이용하여 사용자에게 제공할 수 있다.

일 실시예에 따르면 컴퓨팅 장치(1200)는 인식 결과에 기초하여 권한을 부여(authorize)할 수 있다. 컴퓨팅 장치(1200)는 권한에 따라 컴퓨팅 장치(1200)의 동작 및 데이터 중 적어도 하나에 대한 억세스를 허용할 수 있다. 예를 들어, 컴퓨팅 장치(1200)는 인식 결과로부터 사용자가 컴퓨팅 장치(1200)에 등록된 사용자이고 실제 객체인 것으로 검증된 경우에 응답하여, 권한을 부여할 수 있다. 컴퓨팅 장치(1200)는 잠금 상태인 경우, 권한에 따라 잠금 상태를 언락(unlock)할 수 있다. 다른 예를 들어, 컴퓨팅 장치(1200)는 인식 결과로부터 사용자가 컴퓨팅 장치(1200)에 등록된 사용자이고 실제 객체인 것으로 검증된 경우에 응답하여, 금융 결제 기능에 대한 억세스를 허용할 수 있다. 또 다른 예를 들어, 컴퓨팅 장치(1200)는 인식 결과가 생성된 후, 인식 결과를 출력 장치(1250)(예를 들어, 디스플레이)를 통해 시각화할 수도 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다.　 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.　　

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

이미지 센서에 의해 수신된 입력 이미지로부터 특징 추출 레이어를 이용하여 특징 데이터를 추출하는 단계; 및
상기 추출된 특징 데이터로부터, 고정된 마스크 및 상기 추출된 특징 데이터에 응답하여 조정되는 가변 마스크에 기초하여, 상기 입력 이미지에 나타나는 객체에 관한 인식 결과를 출력하는 단계
를 포함하는 이미지 인식 방법.
제1항에 있어서,
상기 인식 결과를 출력하는 단계는,
상기 추출된 특징 데이터로부터 상기 고정된 마스크에 기초하여 제1 인식 데이터를 산출하는 단계;
상기 추출된 특징 데이터로부터 상기 가변 마스크에 기초하여 제2 인식 데이터를 산출하는 단계; 및
상기 제1 인식 데이터 및 상기 제2 인식 데이터에 기초하여 상기 인식 결과를 결정하는 단계
를 포함하는 이미지 인식 방법.
제2항에 있어서,
상기 제1 인식 데이터를 산출하는 단계는,
상기 특징 데이터에 상기 고정 마스크를 적용함으로써 객체 관심 영역(object region of interest)에 관한 범용 특징 맵을 생성하는 단계; 및
상기 범용 특징 맵으로부터 상기 제1 인식 데이터를 산출하는 단계
를 포함하는 이미지 인식 방법.
제2항에 있어서,
상기 제2 인식 데이터를 산출하는 단계는,
상기 특징 데이터에 대응하는 대상 특징 맵에 대해 상기 가변 마스크를 적용함으로써 상기 이미지 센서의 관심 영역(region of interest)에 관한 센서 특화 특징 맵(sensor-specific feature map)을 생성하는 단계; 및
상기 센서 특화 특징 맵으로부터 상기 제2 인식 데이터를 산출하는 단계
를 포함하는 이미지 인식 방법.
제4항에 있어서,
상기 센서 특화 특징 맵을 생성하는 단계는,
상기 대상 특징 맵의 개별 값에 대해 상기 가변 마스크에서 대응하는 값을 적용함으로써 상기 센서 특화 특징 맵을 생성하는 단계
를 포함하는 이미지 인식 방법.
제2항에 있어서,
상기 추출된 특징 데이터로부터 완전 연결 레이어 및 소프트맥스 함수를 이용하여 제3 인식 데이터를 산출하는 단계
를 더 포함하고,
상기 인식 결과를 결정하는 단계는,
상기 제1 인식 데이터 및 상기 제2 인식 데이터와 함께, 상기 제3 인식 데이터에 더 기초하여 상기 인식 결과를 결정하는 단계
를 포함하는 이미지 인식 방법.
제1항에 있어서,
상기 인식 결과를 출력하는 단계는,
상기 가변 마스크를 포함하는 센서 특화 레이어의 적어도 일부 레이어를 이용하여, 상기 특징 데이터에 따라 상기 가변 마스크의 하나 이상의 값을 조정하는 단계
를 포함하는 이미지 인식 방법.
제7항에 있어서,
상기 가변 마스크의 하나 이상의 값을 조정하는 단계는,
상기 특징 데이터에 대해 컨볼루션 필터링이 적용된 결과인 키 특징 맵(key feature map) 및 전치된(transposed) 쿼리 특징 맵(query feature map) 간의 곱 결과로부터 소프트맥스 함수(softmax function)를 이용하여 상기 가변 마스크의 값을 결정하는 단계
를 포함하는 이미지 인식 방법.
제1항에 있어서,
상기 인식 결과를 출력하는 단계는,
상기 고정된 마스크에 기초한 제1 인식 데이터 및 상기 가변 마스크에 기초한 제2 인식 데이터의 가중합(weighted sum)을 상기 인식 결과로 결정하는 단계
를 포함하는 이미지 인식 방법.
제9항에 있어서,
상기 가중합을 상기 인식 결과로 결정하는 단계는,
상기 제1 인식 데이터에 대한 가중치보다 큰 가중치를 상기 제2 인식 데이터에 적용하는 단계
를 포함하는 이미지 인식 방법.
제1항에 있어서,
업데이트 명령에 응답하여 외부 서버로부터 상기 가변 마스크를 포함하는 센서 특화 레이어의 파라미터를 수신하는 단계; 및
상기 수신된 파라미터를 센서 특화 레이어에 업데이트하는 단계
를 더 포함하는 이미지 인식 방법.
제11항에 있어서,
상기 외부 서버에 대해, 현재 장착된 이미지 센서와 동일하거나 유사한 광학 특성에 대응하는 센서 특화 파라미터를 요청하는 단계
를 더 포함하는 이미지 인식 방법.
제11항에 있어서,
상기 센서 특화 레이어의 파라미터를 업데이트하는 동안, 상기 고정 마스크의 값을 유지하는 단계
를 더 포함하는 이미지 인식 방법.
제1항에 있어서,
상기 인식 결과를 출력하는 단계는,
상기 고정된 마스크 및 복수의 가변 마스크들에 기초하여 상기 인식 결과를 산출하는 단계
를 포함하는 이미지 인식 방법.
제14항에 있어서,
상기 복수의 가변 마스크들 중 한 가변 마스크를 포함하는 센서 특화 레이어의 파라미터 및 다른 가변 마스크를 포함하는 다른 센서 특화 레이어의 파라미터는 서로 다른,
이미지 인식 방법.
제1항에 있어서,
상기 인식 결과를 출력하는 단계는,
상기 객체가 실제 객체(real object)인 지 또는 위조 객체(fake object)인 지를 지시하는 진위 정보(authenticity information)를 상기 인식 결과로서 생성하는 단계
를 포함하는 이미지 인식 방법.
제1항에 있어서,
상기 인식 결과에 기초하여 권한을 부여(authorize)하는 단계; 및
상기 권한에 따라 전자 단말의 동작 및 데이터 중 적어도 하나에 대한 억세스를 허용하는 단계
를 더 포함하는 이미지 인식 방법.
제1항에 있어서,
상기 인식 결과를 출력하는 단계는,
상기 인식 결과가 생성된 후, 상기 인식 결과를 디스플레이를 통해 시각화하는 단계
를 포함하는 이미지 인식 방법.
제1항 내지 제18항 중 어느 한 항의 방법을 수행하기 위한 명령어들을 포함하는 하나 이상의 컴퓨터 프로그램을 저장한 컴퓨터 판독 가능 기록 매체.
입력 이미지를 수신하는 이미지 센서; 및
상기 입력 이미지로부터 특징 추출 레이어를 이용하여 특징 데이터를 추출하고, 상기 추출된 특징 데이터로부터 고정된 마스크 및 상기 추출된 특징 데이터에 응답하여 조정되는 가변 마스크에 기초하여 상기 입력 이미지에 나타나는 객체에 관한 인식 결과를 출력하는 프로세서
를 포함하는 이미지 인식 장치.
수신된 입력 이미지로부터 특징 추출 레이어를 이용하여 특징 데이터를 추출하고, 상기 추출된 특징 데이터로부터 고정된 마스크 및 상기 추출된 특징 데이터에 응답하여 조정되는 가변 마스크에 기초하여 상기 입력 이미지에 나타나는 객체에 관한 인식 결과를 출력하는 이미지 인식 장치; 및
인식 모델의 센서 특화 레이어에 대한 추가 트레이닝 완료 및 업데이트 요청 중 적어도 하나에 응답하여, 상기 이미지 인식 장치로 추가로 트레이닝된 센서 특화 레이어의 파라미터를 배포하는 서버
를 포함하는 이미지 인식 시스템.