KR20220129463A

KR20220129463A - 얼굴 인식 방법 및 장치

Info

Publication number: KR20220129463A
Application number: KR1020220017234A
Authority: KR
Inventors: 리 후이; 슈 지광; 한재준; 이선민; 한승주
Original assignee: 삼성전자주식회사
Priority date: 2021-03-16
Filing date: 2022-02-10
Publication date: 2022-09-23
Also published as: CN112966626A

Abstract

일 실시예는 얼굴 인식 방법 및 장치를 제공한다. 얼굴 인식 방법은, 제1 얼굴 이미지의 국부 특징 및 제2 얼굴 이미지의 국부 특징에 기초하여, 상기 제1 얼굴 이미지의 제1 전역 특징 및 상기 제2 얼굴 이미지의 제1 전역 특징을 각각 획득하는 단계; 상기 제1 얼굴 이미지의 제1 전역 특징 및 제2 전역 특징에 기초하여, 상기 제1 얼굴 이미지의 최종 전역 특징을 획득하는 단계; 상기 제2 얼굴 이미지의 제1 전역 특징 및 제2 전역 특징에 기초하여, 상기 제2 얼굴 이미지의 최종 전역 특징을 획득하는 단계; 상기 제1 얼굴 이미지의 최종 전역 특징 및 상기 제2 얼굴 이미지의 최종 전역 특징에 기초하여, 상기 제1 얼굴 이미지 및 상기 제2 얼굴 이미지를 인식하는 단계를 포함하고, 상기 제1 얼굴 이미지의 제2 전역 특징은 상기 제1 얼굴 이미지의 국부 특징에 기초하여 획득되고, 상기 제2 얼굴 이미지의 제2 전역 특징은 제2 얼굴 이미지의 국부 특징에 기초하여 획득된다.

Description

얼굴 인식 방법 및 장치{METHOD AND APPARATUS OF FACE RECOGNITION}

본 출원은 얼굴 인식 기술 분야에 관한 것으로, 보다 구체적으로, 얼굴 인식 방법 및 장치에 관한 것이다.

얼굴 인식 기술은 전화 잠금 해제, 비디오 감시, 온라인 지불, 액세스 제어, 사진 앨범 관리 등과 같은 일상 생활에서 다양하게 응용되고 있다.

얼굴 인식 기술은 주로 효과적인 네트워크 구조를 설계하고 특징 학습을 위한 판별 손실 함수를 구성하여 훈련된 네트워크를 얻은 후 얼굴 인식을 실행한다. 최근 몇 년 동안 심층 신경망 기술의 급속한 발전과 이용 가능한 대규모 얼굴 데이터 세트로 인해, 얼굴 인식의 정확도가 크게 향상되었다. 얼굴 인식의 대표적인 성공 사례로는 DeepFace, DeepID, FaceNet, DeepFR, InsightFace, MobileFace 등이 있다.

기존의 대부분의 얼굴 인식 방법은 일반적으로 잘 설계된 CNN(convolutional neural network) 네트워크를 통해 전체 얼굴 이미지에서 전역(global) 특징을 추출한다. 예를 들어, 주어진 한 쌍의 얼굴 이미지가 동일한 신원을 가지고 있는지 확인하기 위해, 두 얼굴 이미지를 훈련된 CNN 분류기에 입력하여 이들의 얼굴 표현을 얻은 다음, 해당 두 얼굴 표현을 비교하여 그들이 동일한 사람인지 여부를 결정한다. CNN 파라미터는 훈련 후에 고정되므로, 훈련된 CNN 네트워크를 통해 얻은 비교된 얼굴 이미지의 표현은, 비교된 얼굴 이미지를 어떤 얼굴 이미지와 비교하든 고정된 상태로 유지된다. 비교된 얼굴 이미지와 다른 모든 사람의 얼굴 이미지를 구별하기 위해서, 얼굴 이미지의 표현에 충분한 식별력이 있어야 하는데 이는 매우 어려운 일이다. 얼굴 이미지의 표현이 충분히 구별되도록 하기 위해, 비교기 네트워크를 통해 쌍을 이루는 이미지 간의 유사도를 계산할 수 있다. 그러나 이러한 방법은 특징점 기반의 특징 비교를 위해 먼저 얼굴 특징점을 검출해야 하므로, 상당히 번거롭다. 또한, 얼굴 인식의 정확도를 향상시키기 위해 대조(contrasting) 컨볼루션 메커니즘을 통해 얼굴 이미지 쌍 간의 서로 다른 특징을 추출할 수 있다. 그러나 이러한 방법은 특히 두 얼굴 이미지가 동일한 신원에서 나온 경우, 비교된 얼굴 쌍 간의 유사 특징의 작용을 무시한다. 또한, 어텐션 메커니즘을 사용하여 얼굴 인식의 정확도를 향상시킬 수 있다. 그러나 셀프 어텐션 메커니즘을 통해 얼굴 인식의 정확도를 향상시키는 종래 방법은 비교된 얼굴 이미지의 표현 고정에 있어 여전히 문제가 존재하고, 비교된 이미지 쌍 간의 유사 특징의 작용 또한 여전히 무시한다.

얼굴 인식의 정확도를 향상시키기 위해 비교 얼굴 이미지 쌍 간의 유사한 특징의 영향을 고려하여 얼굴 인식의 정확도를 향상시키는 방법은 해결해야 할 긴급한 과제이다.

일 실시예에 따라, 얼굴 인식 방법을 제공하고, 상기 얼굴 인식 방법은, 제1 얼굴 이미지의 국부 특징 및 제2 얼굴 이미지의 국부 특징에 기초하여, 제1 얼굴 이미지의 제1 전역 특징 및 제2 얼굴 이미지의 제1 전역 특징을 각각 획득하는 단계, 제1 얼굴 이미지의 제1 전역 특징 및 제2 전역 특징에 기초하여, 제1 얼굴 이미지의 최종 전역 특징을 획득하는 단계, 제2 얼굴 이미지의 제1 전역 특징 및 제2 전역 특징에 기초하여, 제2 얼굴 이미지의 최종 전역 특징을 획득하는 단계, 제1 얼굴 이미지의 최종 전역 특징 및 제2 얼굴 이미지의 최종 전역 특징에 기초하여, 제1 얼굴 이미지 및 제2 얼굴 이미지를 인식하는 단계를 포함하고, 제1 얼굴 이미지의 제2 전역 특징은 제1 얼굴 이미지의 국부 특징에 기초하여 획득되고, 제2 얼굴 이미지의 제2 전역 특징은 제2 얼굴 이미지의 국부 특징에 기초하여 획득된다.

얼굴 인식용 제1 얼굴 이미지의 최종 전역 특징은 제2 얼굴 이미지와 관련이 있고, 얼굴 인식용 제2 이미지의 최종 전역 특징은 제1 이미지와 관련이 있으므로, 일 실시예에의 얼굴 인식 방법은 이미지 쌍 사이의 특징 연관성에 주목할 수 있고, 이를 통해 얼굴 인식도의 정확도를 향상시킬 수 있다.

제1 얼굴 이미지의 국부 특징 및 제2 얼굴 이미지의 국부 특징에 기초하여, 제1 얼굴 이미지의 제1 전역 특징 및 제2 얼굴 이미지의 제1 전역 특징을 각각 획득하는 단계는, 제1 얼굴 이미지의 국부 특징 및 제2 얼굴 이미지의 국부 특징에 기초하여 어텐션 풀링 처리를 진행하여, 제1 얼굴 이미지의 제1 전역 특징 및 제2 얼굴 이미지의 제1 전역 특징을 각각 획득하는 단계를 포함한다.

어텐션 풀링 처리를 통해, 제1 얼굴 이미지의 제1 전역 특징이 제2 얼굴 이미지와 연관되도록 하고, 제2 얼굴 이미지의 제1 전역 특징은 제1 얼굴 이미지와 연관되도록 할 수 있어, 이미지 쌍 사이의 유사 특징의 비교에 보다 더 주목하여, 인식 정확도를 향상시킬 수 있다.

선택적으로, 상기 제1 얼굴 이미지의 국부 특징은 위치 정보가 임베딩된 제1 얼굴 이미지의 국부 특징이고 상기 제2 얼굴 이미지의 국부 특징은 위치 정보가 임베딩된 제2 얼굴 이미지의 국부 특징이다.

위치 정보를 얼굴 이미지의 국부 특징에 임베딩함으로써, 위치 정보가 임베드된 얼굴 이미지의 국부 특징을 기반으로 풀링 처리를 수행하여, 해당 위치의 요소에 대한 얼굴 이미지의 대응을 보장할 수 있으므로, 이미지 쌍 유사 부분의 연관성을 더 많이 반영할 수 있다.

제1 얼굴 이미지의 국부 특징 및 제2 얼굴 이미지의 국부 특징에 기초하여 어텐션 풀링 처리를 진행하여, 제1 얼굴 이미지의 제1 전역 특징 및 제2 얼굴 이미지의 제1 전역 특징을 각각 획득하는 단계는, 제1 얼굴 이미지의 국부 특징 및 제2 얼굴 이미지의 국부 특징에 기초하여, 멀티 헤드 어텐션 메커니즘을 사용하여 제2 얼굴 이미지에 대한 제1 얼굴 이미지의 제1 어텐션 풀링 특징 및 제1 얼굴 이미지에 대한 제2 얼굴 이미지의 제2 어텐션 풀링 특징을 획득하는 단계, 제1 어텐션 풀링 특징에 기초하여, 제1 얼굴 이미지의 제1 전역 특징을 획득하는 단계, 및 제2 어텐션 풀링 특징에 기초하여, 제2 얼굴 이미지의 제1 전역 특징을 획득하는 단계를 포함한다.

교차 어텐션 메커니즘을 통해, 일 실시예의 얼굴 인식 방법은 이미지 쌍 간의 가장 유사한 특징 간의 연관성을 주목하여 얼굴 인식의 정확도를 향상시킬 수 있다. 예를 들어, 동일한 신원이나 조도, 포즈 또는 연령은 다른 이미지 쌍을 비교할 때, 이미지 쌍에서 동일한 특징을 찾기가 더 쉬우며, 반면, 비교된 이미지가 서로 다른 신원인 경우, 가장 유사한 얼굴 영역 간의 특징 비교에 주목하여, 보다 신뢰할 수 있는 인식 결과를 얻을 수 있다.

제1 얼굴 이미지의 국부 특징 및 제2 얼굴 이미지의 국부 특징에 기초하여, 멀티 헤드 어텐션 메커니즘을 사용하여 제2 얼굴 이미지에 대한 제1 얼굴 이미지의 제1 어텐션 풀링 특징 및 제1 얼굴 이미지에 대한 제2 얼굴 이미지의 제2 어텐션 풀링 특징을 획득하는 단계는, 제2 얼굴 이미지의 국부 특징을 쿼리(Query)에 대응하는 제1 쿼리 행렬과 곱하여 제1 쿼리 벡터를 획득하고, 제1 얼굴 이미지의 국부 특징을 키(KEY)에 대응하는 제1 키 행렬과 곱하여 제1 키 벡터를 획득하고, 제1 얼굴 이미지의 국부 특징을 값(Value)에 대응하는 제1 값 행렬과 곱하여 제1 값 벡터를 획득하고, 획득한 제1 쿼리 벡터, 제1 키 벡터 및 제1 값 벡터에 기초하여 제2 얼굴 이미지에 대한 제1 얼굴 이미지의 어텐션 풀링 특징을 획득하는 단계; 및 제1 얼굴 이미지의 국부 특징을 쿼리에 대응하는 제2 쿼리 행렬과 곱하여 제2 쿼리 벡터를 획득하고, 제2 얼굴 이미지의 국부 특징을 키에 대응하는 제2 키 행렬과 곱하여 제2 키 벡터를 획득하고, 제2 얼굴 이미지의 국부 특징을 값(Value)에 대응하는 제2 값 행렬과 곱하여 제2 값 벡터를 획득하고, 획득한 제2 쿼리 벡터, 제2 키 벡터 및 제2 값 벡터에 기초하여 제2 얼굴 이미지의 어텐션 풀링 특징을 획득하는 단계;를 포함한다.

쿼리 벡터를 통해 교차 어텐션 메커니즘을 실현함으로써, 제1 얼굴 이미지의 제1 전역 특징과 제2 얼굴 이미지의 제1 전역 특징이 서로의 이미지의 국부 특징과 각각 연관되어 있음을 보장할 수 있고, 이를 통해 얼굴 이미지 쌍 유사 부분 간의 비교에 보다 더 많이 주목할 수 있고, 인식 성공률을 향상시킬 수 있다.

제1 얼굴 이미지의 제1 전역 특징 및 제2 얼굴 이미지의 제1 전역 특징을 각각 획득하는 단계는, 동일한 네트워크 또는 상이한 네트워크를 사용하여 제1 얼굴 이미지의 제1 전역 특징 및 제2 얼굴 이미지의 제1 전역 특징을 각각 획득하는 단계를 포함한다.

동일한 네트워크를 통해 소프트웨어/하드웨어 오버헤드를 절약할 수 있고, 상이한 네트워크를 통해 제1 얼굴 이미지의 제1 전역 특징과 제2 얼굴 이미지의 제1 전역 특징을 획득함으로써, 인식 속도를 향상시킬 수 있다.

일 실시예에 따라, 얼굴 인식 장치를 제공하고, 상기 장치는, 제1 얼굴 이미지의 국부 특징 및 제2 얼굴 이미지의 국부 특징에 기초하여, 제1 얼굴 이미지의 제1 전역 특징 및 제2 얼굴 이미지의 제1 전역 특징을 각각 획득하도록 구성된 제1 전역 특징 획득 모듈; 제1 얼굴 이미지의 제1 전역 특징 및 제2 전역 특징에 기초하여 제1 얼굴 이미지의 최종 전역 특징을 획득하고, 제2 얼굴 이미지의 제1 전역 특징 및 제2 전역 특징에 기초하여 제2 얼굴 이미지의 최종 전역 특징을 획득하도록 구성된 최종 전역 특징 획득 모듈; 제1 얼굴 이미지의 최종 전역 특징 및 제2 얼굴 이미지의 최종 전역 특징에 기초하여, 제1 얼굴 이미지 및 제2 얼굴 이미지를 인식하도록 구성된 인식 모듈을 포함한다. 여기서, 제1 얼굴 이미지의 제2 전역 특징은 제1 얼굴 이미지의 국부 특징에 기초하여 획득되고, 제2 얼굴 이미지의 제2 전역 특징은 제2 얼굴 이미지의 국부 특징에 기초하여 획득된다.

얼굴 인식용 제1 얼굴 이미지의 최종 전역 특징은 제2 얼굴 이미지와 관련이 있고, 인식용 제2 이미지의 최종 전역 특징은 제1 이미지와 관련이 있으므로, 일 실시예의 얼굴 인식 방법은 이미지 쌍 사이의 특징 연관성에 주목할 수 있고, 이를 통해 얼굴 인식도의 정확도를 향상시킬 수 있다.

제1 전역 특징 획득 모듈은, 제1 얼굴 이미지의 국부 특징 및 제2 얼굴 이미지의 국부 특징에 기초하여 어텐션 풀링 처리를 진행하여, 제1 얼굴 이미지의 제1 전역 특징 및 제2 얼굴 이미지의 제1 전역 특징을 각각 획득하도록 구성된다.

어텐션 풀링 처리를 통해, 제1 얼굴 이미지의 제1 전역 특징이 제2 얼굴 이미지와 연관되도록 하고, 제2 얼굴 이미지의 제1 전역 특징은 제1 얼굴 이미지와 연관되도록 하여, 이미지 쌍 사이의 유사 특징의 비교에 보다 더 주목하여, 인식 정확도를 향상시킬 수 있다.

상기 제1 얼굴 이미지의 국부 특징은 위치 정보가 임베딩된 제1 얼굴 이미지의 국부 특징이고, 상기 제2 얼굴 이미지의 국부 특징은 위치 정보가 임베딩된 제2 얼굴 이미지의 국부 특징이다.

제1 전역 특징 획득 모듈은, 제1 얼굴 이미지의 국부 특징과 제2 얼굴 이미지의 국부 특징에 기초하여, 멀티 헤드 어텐션 메커니즘을 사용하여 제2 얼굴 이미지에 대한 제1 얼굴 이미지의 제1 어텐션 풀링 특징 및 제1 얼굴 이미지에 대한 제2 얼굴 이미지의 제2 어텐션 풀링 특징을 각각 획득하고, 제1 어텐션 풀링 특징에 기초하여, 제1 얼굴 이미지의 제1 전역 특징을 획득하고; 제2 어텐션 풀링 특징에 기초하여, 제2 얼굴 이미지의 제2 전역 특징을 획득하도록 구성된다.

제1 전역 특징 획득 모듈은 교차 어텐션 모듈을 포함하고, 상기 교차 어텐션 모듈은, 제2 얼굴 이미지의 국부 특징을 쿼리에 대응하는 제1 쿼리 행렬과 곱하여 제1 쿼리(Query) 벡터를 획득하고, 제1 얼굴 이미지의 국부 특징을 키(KEY)에 대응하는 제1 키 행렬과 곱하여 제1 키 벡터를 획득하고, 제1 얼굴 이미지의 국부 특징을 값(Value)에 대응하는 제1 값 행렬과 곱하여 제1 값 벡터를 획득하고, 획득한 제1 쿼리 벡터, 제1 키 벡터 및 제1 값 벡터에 기초하여 제2 얼굴 이미지에 대한 제1 얼굴 이미지의 제1 어텐션 풀링 특징을 획득하고, 제1 얼굴 이미지의 국부 특징을 쿼리에 대응하는 제2 쿼리 행렬과 곱하여 제2 쿼리 벡터를 획득하고, 제2 얼굴 이미지의 국부 특징을 키에 대응하는 제2 키 행렬과 곱하여 제2 키 벡터를 획득하고, 제2 얼굴 이미지의 국부 특징을 값(Value)에 대응하는 제2 값 행렬과 곱하여 제2 값 벡터를 획득하고, 획득한 제2 쿼리 벡터, 제2 키 벡터 및 제2 값 벡터에 기초하여 제1 얼굴 이미지에 대한 제2 얼굴 이미지의 제2 어텐션 풀링 특징을 획득하도록 구성된다.

제1 전역 특징 획득 모듈은, 제1 얼굴 이미지의 제1 전역 특징을 획득하도록 구성된 제1 얼굴 이미지 제1 전역 특징 획득 모듈; 제2 얼굴 이미지의 제1 전역 특징을 획득하도록 구성된 제2 얼굴 이미지 제1 전역 특징 획득 모듈;을 포함한다.

상이한 모듈을 통해 제1 얼굴 이미지의 제1 전역 특징과 제2 얼굴 이미지의 제1 전역 특징을 각각 획득하여 얼굴 이미지의 병렬 처리를 구현함으로써, 얼굴 인식의 속도를 향상시킬 수 있다.

일 실시예에 따라, 컴퓨팅 프로그램을 저장한 컴퓨터 판독 가능 저장 매체를 제공하고, 그중, 상기 컴퓨팅 프로그램은 프로세서에 의해 실행될 때 상기 얼굴 인식 방법을 구현한다.

일 실시예에 따라, 데이터 저장 장치를 제공하고, 상기 데이터 저장 장치는, 프로세서 및 컴퓨팅 프로그램을 저장한 메모리를 포함하고, 상기 컴퓨팅 프로그램은 프로세서에 의해 실행될 때, 상기 얼굴 인식 방법을 구현한다.

일 실시예에에 따른 얼굴 인식 방법 및 장치는 인식을 위한 이미지 쌍 간의 가장 유사한 특징 사이의 연관성에 더 주의를 기울일 수 있게 하여, 얼굴 인식의 정확도를 향상시킨다.

일 실시 예에 따른 전자 장치는 하나 이상의 인스트럭션들을 저장하는 메모리; 및 상기 인스트럭션들을 실행하는 프로세서를 포함한다. 상기 프로세서는 상기 인스트럭션들을 실행함으로써: 제1 얼굴 이미지의 국부 특징 및 제2 얼굴 이미지의 국부 특징에 기초하여, 상기 제1 얼굴 이미지의 제1 전역 특징 및 상기 제2 얼굴 이미지의 제1 전역 특징을 각각 획득하고, 상기 제1 얼굴 이미지의 제1 전역 특징 및 제2 전역 특징에 기초하여 상기 제1 얼굴 이미지의 최종 전역 특징을 획득하며, 상기 제2 얼굴 이미지의 제1 전역 특징 및 제2 전역 특징에 기초하여 상기 제2 얼굴 이미지의 최종 전역 특징을 획득하고, 상기 제1 얼굴 이미지의 최종 전역 특징 및 상기 제2 얼굴 이미지의 최종 전역 특징에 기초하여, 상기 제1 얼굴 이미지 및 상기 제2 얼굴 이미지를 인식한다.

상기 제1 얼굴 이미지의 제2 전역 특징은 상기 제1 얼굴 이미지의 국부 특징에 기초하여 획득되고, 상기 제2 얼굴 이미지의 제2 전역 특징은 제2 얼굴 이미지의 국부 특징에 기초하여 획득된다.

상기 프로세서는 상기 제1 얼굴 이미지의 국부 특징 및 상기 제2 얼굴 이미지의 국부 특징에 기초하여 어텐션 풀링 처리를 진행하여, 상기 제1 얼굴 이미지의 제1 전역 특징 및 상기 제2 얼굴 이미지의 제1 전역 특징을 각각 획득할 수 있다.

상기 제1 얼굴 이미지의 국부 특징은 위치 정보가 임베딩된 제1 얼굴 이미지의 국부 특징이고, 상기 제2 얼굴 이미지의 국부 특징은 위치 정보가 임베딩된 제2 얼굴 이미지의 국부 특징일 수 있다.

상기 프로세서는 상기 제1 얼굴 이미지의 국부 특징과 상기 제2 얼굴 이미지의 국부 특징에 기초하여, 멀티 헤드 어텐션 메커니즘을 사용하여 상기 제2 얼굴 이미지에 대한 제1 얼굴 이미지의 제1 어텐션 풀링 특징 및 상기 제1 얼굴 이미지에 대한 제2 얼굴 이미지의 제2 어텐션 풀링 특징을 각각 획득하고, 상기 제1 어텐션 풀링 특징에 기초하여, 상기 제1 얼굴 이미지의 제1 전역 특징을 획득하며, 상기 제2 어텐션 풀링 특징에 기초하여, 상기 제2 얼굴 이미지의 제2 전역 특징을 획득할 수 있다.

상기 프로세서는 상기 제2 얼굴 이미지의 국부 특징을 쿼리에 대응하는 제1 쿼리 행렬과 곱하여 제1 쿼리(Query) 벡터를 획득하고, 상기 제1 얼굴 이미지의 국부 특징을 키(KEY)에 대응하는 제1 키 행렬과 곱하여 제1 키 벡터를 획득하며, 상기 제1 얼굴 이미지의 국부 특징을 값(Value)에 대응하는 제1 값 행렬과 곱하여 제1 값 벡터를 획득하고, 상기 획득한 제1 쿼리 벡터, 상기 제1 키 벡터, 및 상기 제1 값 벡터에 기초하여 상기 제2 얼굴 이미지에 대한 제1 얼굴 이미지의 제1 어텐션 풀링 특징을 획득하고, 상기 제1 얼굴 이미지의 국부 특징을 쿼리에 대응하는 제2 쿼리 행렬과 곱하여 제2 쿼리 벡터를 획득하고, 상기 제2 얼굴 이미지의 국부 특징을 키에 대응하는 제2 키 행렬과 곱하여 제2 키 벡터를 획득하며, 제2 얼굴 이미지의 국부 특징을 값(Value)에 대응하는 제2 값 행렬과 곱하여 제2 값 벡터를 획득하고, 상기 획득한 제2 쿼리 벡터, 상기 제2 키 벡터, 및 상기 제2 값 벡터에 기초하여 상기 제1 얼굴 이미지에 대한 상기 제2 얼굴 이미지의 제2 어텐션 풀링 특징을 획득할 수 있다.

도 1은 일 실시예에 따른 얼굴 인식 방법을 도시한 흐름도이다.
도 2는 일 실시예에 따른 교차 어텐션 메커니즘에 기반한 제1 얼굴 이미지의 국부 특징 및 제2 얼굴 이미지의 국부 특징에 대해 어텐션 풀링 처리를 진행하는 예시를 도시한 도면이다.
도 3은 일 실시예에 따른 얼굴 인식 방법의 예시도이다.
도 4는 베이스라인(Baseline) 얼굴 인식 방법, 셀프 어텐션 얼굴 인식 방법 및 일 실시예에 따른 얼굴 인식 방법에 기반한 얼굴 이미지의 시각적 반응을 도시한 도면이다.
도 5는 일 실시예에 따른 얼굴 인식 장치를 도시한 블록도이다.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 구현될 수 있다. 따라서, 실제 구현되는 형태는 개시된 특정 실시예로만 한정되는 것이 아니며, 본 명세서의 범위는 실시예들로 설명한 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.

일 실시예의 해석을 용이하게 하기 위하여, 먼저 얼굴 이미지의 국부 특징(local feature) 표현 방법에 대해 설명한다. 본 기술분야의 통상의 지식을 가진 자는, 본 명세서에 기술된 얼굴의 국부 특징이 얼굴 이미지의 국부 특징 표현 또는 국부 특징맵을 나타내며, 예를 들어 행렬의 형태로 표현될 수 있음을 이해해야 한다.

일 예로, 컨볼루션 네트워크를 사용하여 얼굴 이미지의 국부 특징 표현이 획득될 수 있다.

일 예로, ResNet을 백본 네트워크로 사용하여 얼굴 이미지의 국부 특징이 추출될 수 있다. 예를 들어, 112×112 크기의 얼굴 이미지에서, 컨볼루션 네트워크의 마지막 레이어에서 출력되는 특징맵은 C×7×7(C는 채널 크기, 예를 들어 C=512임)의 크기를 가질 수 있고, 추가적으로 다른 컨볼루션 레이어를 사용하여 C×7×7 크기의 특징맵을 C×5×5 크기의 특징맵으로 처리할 수 있다.

일 예로, 컨볼루션 네트워크를 통해 C×5×5 크기의 특징맵이 직접 획득될 수 있다. 컨볼루션 처리 후, 얼굴 이미지는 5×5의 서브 영역으로 분할되므로, C×5×5 크기의 특징맵을 사용하여 얼굴 이미지가 설명될 수 있다.

또한, 획득한 국부 특징이 완전 연결(fully connected) 레이어에 입력됨으로써, 얼굴 이미지의 전역 특징 또는 전역 특징 표현이 획득될 수 있다.

본 기술분야의 통상의 지식을 가진 자는, 본문에서의 전역 특징(global feature)은 얼굴 이미지의 전역 특징 표현 또는 전체 이미지의 특징맵을 나타내며, 예를 들어 행렬 형태로 표현될 수 있음을 이해해야 한다.

도 1은 일 실시예에 따른 얼굴 인식 방법(또는 얼굴 인증(verification))을 도시한 흐름도이다.

도 1을 참조하면, 단계(S101)에서, 얼굴 인식 장치(또는 얼굴 인증 장치)는 제1 얼굴 이미지의 국부 특징 및 제2 얼굴 이미지의 국부 특징에 기초하여, 제1 얼굴 이미지의 제1 전역 특징 및 제2 얼굴 이미지의 제1 전역 특징을 각각 획득한다.

일 예로, 얼굴 인식 장치는 동일한 네트워크를 사용하여 제1 얼굴 이미지의 제1 전역 특징 및 제2 얼굴 이미지의 제1 전역 특징을 획득할 수 있다. 또는, 얼굴 인식 장치는 제1 네트워크를 사용하여 제1 얼굴 이미지의 제1 전역 특징을 획득하고, 제2 네트워크를 사용하여 제2 얼굴 이미지의 제1 전역 특징을 획득할 수 있다. 제1 네트워크와 제2 네트워크는 같거나 다를 수 있다.

얼굴 인식 장치는 동일한 네트워크를 통해 얼굴 이미지의 제1 전역 특징을 획득함으로써 소프트웨어/하드웨어 오버헤드를 절약할 수 있고, 두 개의 네트워크를 통해 제1 얼굴 이미지의 제1 전역 특징과 제2 얼굴 이미지의 제1 전역 특징을 획득함으로써, 얼굴 인식 속도를 향상시킬 수 있다.

일 예로, 제1 얼굴 이미지의 국부 특징 및 제2 얼굴 이미지의 국부 특징에 기초하여, 제1 얼굴 이미지의 제1 전역 특징 및 제2 얼굴 이미지의 제1 전역 특징을 각각 획득하는 단계는, 제1 얼굴 이미지의 국부 특징 및 제2 얼굴 이미지의 국부 특징에 기초하여 어텐션 풀링(attention pooling) 처리를 진행하여, 제1 얼굴 이미지의 제1 전역 특징 및 제2 얼굴 이미지의 제1 전역 특징을 각각 획득하는 단계를 포함한다.

일 예로, 제1 얼굴 이미지의 국부 특징은 위치 정보가 임베딩된 제1 얼굴 이미지의 국부 특징이고, 제2 얼굴 이미지의 국부 특징은 위치 정보가 임베딩된 제2 얼굴 이미지의 국부 특징이다. 예를 들어, 얼굴 인식 장치는 제1 얼굴 이미지의 국부 특징에 대해 위치 정보를 임베딩하여 위치 정보가 임베딩된 제1 얼굴 이미지의 국부 특징을 획득할 수 있고, 제2 얼굴 이미지의 국부 특징에 대해 위치 정보를 임베딩하여 위치 정보가 임베딩된 제2 얼굴 이미지의 국부 특징을 획득할 수 있다. 이하, 도 2를 참조하여 어텐션 풀링 동작에 대해 자세히 설명한다.

도 2는 일 실시예에 따른 교차 어텐션 메커니즘에 기반한 제1 얼굴 이미지의 국부 특징 및 제2 얼굴 이미지의 국부 특징에 대해 어텐션 풀링 처리를 진행하는 예시를 도시한 도면이다.

도 2를 참조하면, 얼굴 인식 장치는 위치 정보를 임베딩한 얼굴 이미지 A(이하, 제1 얼굴 이미지 또는 이미지 A라고도 함)의 국부 특징과 위치 정보를 임베딩한 얼굴 이미지 B(이하, 제2 얼굴 이미지 또는 이미지 B라고도 함)의 국부 특징을 왼쪽의 멀티 헤드 어텐션 모듈에 입력함으로써 제2 얼굴 이미지에 대한 제1 얼굴 이미지의 어테션 풀링 특징을 얻을 수 있고, 위치 정보를 임베딩한 제1 얼굴 이미지의 국부 특징과 위치 정보를 임베딩한 제2 얼굴 이미지의 국부 특징을 오른쪽의 멀티 헤드 어텐션 모듈에 입력함으로써 제1 얼굴 이미지에 대한 제2 얼굴 이미지의 어테션 풀링 특징을 얻을 수 있다.

일 예로, 얼굴 인식 장치는 왼쪽 어텐션 블록의 멀티 헤드 어텐션 레이어를 통해 제2 얼굴 이미지에 대한 제1 얼굴 이미지의 어테션 풀링 특징을 얻을 수 있고, 오른쪽 어텐션 블록의 멀티 헤드 어텐션 레이어를 통해 제1 얼굴 이미지에 대한 제2 얼굴 이미지의 어테션 풀링 특징을 얻을 수 있다.

일 예로, 얼굴 인식 장치는 왼쪽 어텐션 블록의 각 후속 레이어를 통해 제2 얼굴 이미지에 대한 제1 얼굴 이미지의 어텐션 풀링 특징을 처리하고, 처리 결과를 제1 완전 연결 레이어에 입력함으로써, 제1 얼굴 이미지의 제1 전역 특징을 획득할 수 있다.

일 예로, 얼굴 인식 장치는 오른쪽 어텐션 블록의 각 후속 레이어를 통해 제1 얼굴 이미지에 대한 제2 얼굴 이미지의 풀링 특징을 처리하고, 처리 결과를 제2 완전 연결 레이어에 입력함으로써, 제2 얼굴 이미지의 제1 전역 특징을 획득할 수 있다. 제1 완전 연결 레이어와 제2 완전 연결 레이어는 동일한 완전 연결 레이어일 수 있거나, 각각 독립된 두 개의 완전 연결 레이어일 수 있다.

왼쪽의 멀티 헤드 어텐션 블록과 오른쪽의 멀티 헤드 어텐션 블록은 종래 기술의 멀티 헤드 어텐션 블록(또는 표준 트랜스포머(transformer) 블록)과 동일한 구조를 갖는다. 예를 들어, 왼쪽의 멀티 헤드 어텐션 블록과 오른쪽의 멀티 헤드 어텐션 블록 각각은 멀티 헤드 어텐션 레이어, 잔차 연결 및 레이어 정규화(Add&Norm) 레이어 및 피드 포워드(Feed Forward) 레이어를 포함할 수 있고, 이는 모두 멀티 헤드 어텐션 메커니즘을 기반으로 어텐션을 계산한다.

종래 기술의 셀프 어텐션 메커니즘에 기반한 멀티 헤드 어텐션 블록의 경우, 멀티 헤드 어텐션 레이어에 입력된 쿼리(Query) 벡터, 키(Key) 벡터, 및 값(Value) 벡터는 모두 이미지 자체의 국부 특징과 상응한다. 즉, 종래 기술의 셀프 어텐션 메커니즘에 기반한 멀티 헤드 어텐션 블록의 경우, 얼굴 이미지의 국부 특징 표현을 행렬 W^q, W^k, W^vq 각각에 곱하여 쿼리 벡터 Q, 키 벡터 K, 및 값 벡터 V 각각을 얻는다.

다시 말해, 셀프 어텐션 메커니즘을 기반으로 얼굴 이미지의 풀링 특징이 획득될 때, 획득한 제1 이미지의 풀링 특징은 위치 정보가 임베딩된 제1 얼굴 이미지의 국부 특징에만 관련되고, 비교 얼굴 이미지의 국부 특징과는 관련이 없다. 즉 어떤 얼굴 이미지를 비교하더라도 획득된 해당 이미지의 풀링 특징은 고정된다.

일 실시예에서, 멀티 헤드 어텐션 레이어를 입력한 쿼리 벡터는 이미지 자체의 국부 특징에 상응하는 것이 아니라 비교 이미지의 국부 특징에 상응한다. 즉 왼쪽 멀티 헤드 어텐션 모듈을 입력한 멀티 헤드 어텐션 레이어의 쿼리 벡터는 제2 얼굴 이미지의 국부 특징에 해당하고, 오른쪽 멀티 헤드 어텐션 모듈을 입력한 멀티 헤드 어텐션 레이어의 쿼리 벡터는 제1 얼굴 이미지의 국부 특징에 해당한다. 다시 말해, 얼굴 인식 장치는 교차 어텐션 메커니즘에 기초하여 제1 얼굴 이미지의 풀링 특징 및 제2 얼굴 이미지의 풀링 특징을 획득한다.

전술한 바와 같이, 본 기술분야의 통상의 지식을 가진 자는, 일 실시예의 교차 어텐션 메커니즘에 기초하여 얼굴의 풀링 특징을 획득하는 방식과 종래 기술의 어텐션 메커니즘에 기초하여 얼굴 이미지의 풀링 특징을 획득하는 방식의 차이점은 다음과 같다는 점을 이해해야 한다: 일 실시예는 제1 얼굴 이미지의 어텐션 풀링 특징을 획득할 때, 멀티 헤드 어텐션 레이어에 입력된 Q 벡터는 위치 정보가 임베딩된 제2 얼굴 이미지의 국부 특징과 상응하고; 제2 얼굴 이미지의 어텐션 풀링 특징을 획득할 때, 멀티 헤드 어텐션 레이어에 입력된 Q 벡터는 위치 정보가 임베딩된 제1 얼굴 이미지의 국부 특징과 상응한다. 반면 종래 기술에서는, 셀프 어텐션 메커니즘에 기초하여 제1 얼굴 이미지의 어텐션 풀링 특징을 획득할 때, 멀티 헤드 어텐션 레이어에 입력된 Q 벡터가 제1 얼굴 이미지의 국부 특징에 상응하고; 셀프 어텐션 메커니즘에 기초하여 제2 얼굴 이미지의 어텐션 풀링 특징을 획득할 때, 멀티 헤드 어텐션 레이어에 입력된 Q 벡터가 제2 얼굴 이미지의 국부 특징에 상응한다.

다시 말해, 일 실시예에 따르면, 얼굴 인식 장치는 위치 정보가 임베딩된 제1 얼굴 이미지의 국부 특징 및 위치 정보가 임베딩된 제2 얼굴 이미지의 국부 특징을 기반으로 할 수 있으며, 멀티 헤드 어텐션 메커니즘을 사용하여 제2 얼굴 이미지에 대한 제1 얼굴 이미지의 제1 어텐션 풀링 특징 및 제1 얼굴 이미지에 대한 제2 얼굴 이미지의 제2 어텐션 풀링 특징을 각각 획득할 수 있다.

일 예로, 얼굴 인식 장치는 제2 얼굴 이미지의 국부 특징을 쿼리(Query)에 대응하는 제1 쿼리 행렬과 곱하여 제1 쿼리 벡터를 획득하고, 제1 얼굴 이미지의 국부 특징을 키(KEY)에 대응하는 제1 키 행렬과 곱하여 제1 키 벡터를 획득하며, 제1 얼굴 이미지의 국부 특징을 값(Value)에 대응하는 제1 값 행렬과 곱하여 제1 값 벡터를 획득할 수 있고, 획득한 제1 쿼리 벡터, 제1 키 벡터, 및 제1 값 벡터에 기초하여 제2 얼굴 이미지에 대한 제1 얼굴 이미지의 어텐션 풀링 특징(본문에서는 제1 어텐션 플링 특징이라고도 함)을 획득할 수 있다. 얼굴 인식 장치는 제1 얼굴 이미지의 국부 특징을 쿼리에 대응하는 제2 쿼리 행렬과 곱하여 제2 쿼리 벡터를 획득하고, 제2 얼굴 이미지의 국부 특징을 키에 대응하는 제2 키 행렬과 곱하여 제2 키 벡터를 획득하며, 제2 얼굴 이미지의 국부 특징을 값(Value)에 대응하는 제2 값 행렬과 곱하여 제2 값 벡터를 획득할 수 있고, 획득한 제2 쿼리 벡터, 제2 키 벡터 및 제2 값 벡터에 기초하여 제1 얼굴 이미지에 대한 제2 얼굴 이미지의 어텐션 풀링 특징(본문에서는 제2 어텐션 풀링 특징이라고도 함)을 획득할 수 있다.

본 기술분야의 통상의 지식을 가진 자는, 제1 어텐션 풀링 특징과 제2 어텐션 풀링 특징이 각각 동일한 네트워크를 통해 획득되는 경우, "제1"로 수식된 행렬이 "제2"로 수식된 행렬에 대응하여 동일하다는 것을 이해해야 한다. 예를 들어, 제1 쿼리 행렬과 제2 쿼리 행렬은 동일하다.

일 예로, 제1 어텐션 풀링 특징과 제2 어텐션 풀링 특징이 두 개의 독립적인 네트워크를 통해 획득되는 경우, "제1"로 수식되는 행렬과 "제2"로 수식되는 행렬 간의 대응은 다르다. 예를 들어, 제1 쿼리 행렬과 제2 쿼리 행렬은 서로 다른 행렬이다.

다른 일 예로, 제1 어텐션 풀링 특징과 제2 어텐션 풀링 특징이 각각 두 개의 독립적인 네트워크를 통해 획득되는 경우, "제1"로 수식되는 행렬과 "제2"로 수식되는 행렬은 동일할 수 있다. 예를 들어, 제1 쿼리 행렬과 제2 쿼리 행렬은 동일한 행렬이다.

해석의 편의를 위해, 이미지의 국부 특징을 5×5의 크기로 처리하여, 특징 재배열(feature rearrange) 처리 후 1×25의 크기로 표현한 후, 도 2의 멀티 헤드 어텐션 블록에 입력한다.

일 예로, 얼굴 인식 장치는 컨볼루션 신경망을 통해 5×55 크기의 이미지 A의 국부 특징맵을 얻을 수 있고, 그런 다음 A의 국부 특징맵을 특징 재배열(feature rearrange) 처리하여

로 표현되는 국부 특징맵을 얻을 수 있다. 그런 다음, 얼굴 인식 장치는

를 국부 특징과 상응하는 위치 정보에 임베딩하여 위치 정보가 임베딩된 A의 국부 특징

을 얻을 수 있다. 이와 유사하게, 얼굴 인식 장치는 이미지 B의 국부 특징

을 얻을 수 있다.

도 2를 참조하면, A의 국부 특징

및 B의 국부 특징

을 왼쪽 어텐션 모듈에 입력하여 이미지 B에 대한 이미지 A의 어텐션 풀링 특징을 얻을 수 있다.

구체적으로, 얼굴 인식 장치는

를 행렬 W^k, W^v와 각각 곱하여 키 벡터 K^A 및 값 벡터 V^A를 획득하고,

를 행렬 W^q와 곱하여 쿼리 벡터 Q^B를 획득하며, 획득한 키 벡터 K^A, 값 벡터 V^A, 및 쿼리 벡터 Q^B(왼쪽 어텐션 블록의 K, V, Q에 차례로 해당)를 왼쪽 어텐션 모듈의 멀티 헤드 어텐션 레이어에 입력 및 처리하여 이미지 B에 대한 이미지 A의 어텐션 풀링 특징을 얻고, 왼쪽 어텐션 블록의 다른 레이어의 처리를 통해, 교차 어텐션 메커니즘 기반의 이미지 A의 국부 특징 표현을 얻는다.

본 기술분야의 통상의 지식을 가진 자는, 왼쪽 어텐션 블록에 입력된 이미지의 국부 표현이 이미지 자체에 기초하여 이미지의 국부 특징(이하 설명의 편의를 위해 제1 국부 특징이라고 함)을 얻기 위한 것일 뿐임을 이해해야 한다. 예를 들어, 얼굴 인식 장치는 이미지 A를 기반으로, 컨볼루션 네트워크를 통해 이미지 A의 국부 특징(즉 이미지 A의 제1 국부 특징)을 얻을 수 있고, 이미지 B를 기반으로 컨볼루션 네트워크를 통해 이미지 B의 국부 특징(즉 이미지 B의 제1 국부 특징)을 얻을 수 있다. 왼쪽 어텐션 블록의 처리를 통해 출력되는 국부 특징은 이미지 A의 제1 국부 특징과 이미지 B의 제1 국부 특징을 기반으로 얻은 이미지 A의 교차 어텐션 메커니즘에 기반한 국부 특징 표현(이하 설명의 편의를 위해 이미지 A의 제2 국부 특징이라고 함)이다.

유사하게, 얼굴 인식 장치는 B의 국부 특징 표현(이미지 B의 제1 국부 특징)

및 A의 제1 국부 특징 표현

을 오른쪽 어텐션 모듈에 입력하여, 이미지 A에 대한 이미지 B의 어텐션 풀링 특징을 획득한다. 구체적으로, 얼굴 인식 장치는

를 행렬 W^k, W^v와 각각 곱하여 키 벡터 K^B 및 값 벡터 V^B를 획득하고,

를 행렬 W^q와 곱하여 쿼리 벡터 Q^A를 획득하며, 획득한 키 벡터 K^A, 값 벡터 V^A, 및 쿼리 벡터 Q^B(오른쪽 어텐션 블록의 K, V, Q에 차례로 해당)를 오른쪽 어텐션 모듈의 멀티 헤드 어텐션 레이어에 입력 및 처리하여 이미지 A에 대한 이미지 B의 어텐션 풀링 특징을 얻고, 오른쪽 어텐션 블록의 다른 레이어의 처리를 통해, 교차 어텐션 메커니즘 기반의 이미지 B의 국부 특징 표현(이미지 B의 제2 국부 특징이라고도 함)을 얻는다.

일 예로, 도 2의 왼쪽 멀티 헤드 어텐션 레이어의 출력과 오른쪽 멀티 헤드 어텐션 레이어의 한 헤드의 출력은 다음 수학식 1과 같이 표현될 수 있다.

위 수학식 1에서, d는 스케일 인자이다.

일 예로,

는 위치 정보가 임베딩된 A의 제1 국부 특징 표현을 나타낼 수 있고,

는 위치 정보가 임베딩된 B의 제1 국부 특징 표현을 나타낼 수 있다.

일 예로, 얼굴 인식 장치는 사인 함수 및 코사인 함수에 기반하여 얼굴 이미지의 국부 특징에 대해 위치 코딩하여, 위치 정보가 임베딩된 얼굴 이미지의 국부 특징을 얻을 수 있다.

얼굴 인식 장치는 위치 정보를 임베딩하여 위치 정보가 임베딩된 얼굴 이미지의 국부 특징을 획득하는 것은, 종래 기술의 모든 위치 코딩 방법을 사용하여 구현할 수 있다.

일 예로, 위치 정보가 임베딩된 얼굴 이미지의 국부 특징 표현은 아래 수학식 2와 같이 표현될 수 있다.

위 수학식 2에서, v_k, p_k는 각각 얼굴 이미지의 국부 특징 요소와 위치 임베딩 요소를 나타내고,

이며, W_v 및 W_p 각각은 국부 특징 요소에 대응하는 가중치 및 위치 임베딩 요소에 대응하는 가중치 각각을 나타낸다.

다른 일 예로, 멀티 헤드 어텐션 블록에 입력된 얼굴 이미지의 제1 국부 특징은 위치 코딩 또는 위치 임베딩이 진행되지 않은 얼굴의 국부 특징일 수도 있다. 즉, 멀티 헤드 어텐션 블록에 입력되는 국부 특징은

일 수 있다. 예를 들어, 얼굴 인식 장치는 제2 얼굴 이미지에 대한 제1 얼굴 이미지의 어텐션 풀링 특징(즉 왼쪽 어텐션 모듈의 출력)에 기반하여 제1 얼굴 이미지의 제2 국부 특징을 획득할 수 있다. 얼굴 인식 장치는 획득한 제1 얼굴 이미지에 대한 제2 얼굴 이미지의 어텐션 풀링 특징(즉 왼쪽 어텐션 모듈의 출력)에 기반하여 제2 얼굴 이미지의 제2 국부 특징을 획득할 수 있다.

구체적으로, 왼쪽의 멀티 헤드 어텐션 블록을 예로 들면, 얼굴 인식 장치는 멀티 헤드 어텐션 레이어를 통해 이미지 B에 대한 이미지 A의 어텐션 풀링 특징을 얻은 후, 멀티 헤드 어텐션 블록의 후속 레이어의 처리를 통해 이미지 A의 제2 국부 특징을 최종 출력한다.

일 예로, 왼쪽 어텐션 블록의 파라미터와 오른쪽 어텐션 블록의 파라미터는 같거나 다를 수 있다.

도 2는 두 개의 멀티 헤드 어텐션 블록을 도시하였으나, 얼굴 인식 장치는 하나의 멀티 헤드 어텐션 블록을 사용하여 각각 제1 얼굴 이미지와 제2 얼굴 이미지에 대해 어텐션 풀링 처리할 수도 있다.

일 예로, 얼굴 인식 장치는 멀티 헤드 어텐션 블록을 사용하여 이미지 A의 어텐션 풀링 특징과 이미지 B의 어텐션 풀링 특징을 얻을 수 있다. 예를 들어, 얼굴 인식 장치는 멀티 헤드 어텐션 블록을 통해 먼저 이미지 B에 대한 이미지 A의 어텐션 풀링 특징을 얻고, 그런 다음 이미지 A에 대한 이미지 B의 어텐션 풀링 특징을 얻는다.

이상, 얼굴 인식 장치가 제1 얼굴 이미지의 국부 특징 및 제2 얼굴 이미지의 국부 특징에 기초하여, 멀티 헤드 어텐션 메커니즘을 사용하여 제2 얼굴 이미지에 대한 제1 얼굴 이미지의 제1 어텐션 풀링 특징 및 제1 얼굴 이미지에 대한 제2 얼굴 이미지의 제2 어텐션 풀링 특징을 각각 획득하는 과정에 대해 설명하였다.

얼굴 인식 장치는 얼굴 이미지의 어텐션 풀링 특징을 획득한 후, 얼굴 이미지의 제1 전역 특징을 더 획득할 수 있다.

일 예로, 얼굴 인식 장치는 이미지 A의 제2 국부 특징을 완전 연결 레이어에 입력하여 이미지 A의 제1 전역 특징을 얻을 수 있다. 이미지 A의 제2 국부 특징은 교차 어텐션 메커니즘을 기반으로 얻어지기 때문에, 이미지 A의 제1 전역 특징은 이미지 A와 이미지 B 간의 상관 관계를 반영한다.

유사하게, 얼굴 인식 장치는 이미지 B의 제2 국부 특징을 완전 연결 레이어에 입력하여 이미지 B의 제1 전역 특징을 얻을 수 있다. 이미지 B의 제2 국부 특징은 교차 어텐션 메커니즘을 기반으로 얻어지기 때문에, 이미지 B의 제1 전역 특징은 이미지 A와 이미지 B 간의 상관 관계를 반영한다.

다시 도 1로 돌아가서, 단계(S102)에서, 얼굴 인식 장치는 제1 얼굴 이미지의 제1 전역 특징 및 제2 전역 특징에 기초하여, 제1 얼굴 이미지의 최종 전역 특징을 획득한다.

일 예로, 얼굴 인식 장치는 제1 얼굴 이미지의 제1 전역 특징 및 제2 전역 특징을 캐스케이드(cascade)하여 제1 얼굴 이미지의 최종 전역 특징을 획득할 수 있다.

일 예로, 얼굴 인식 장치는 제1 얼굴 이미지의 제1 국부 특징에 기초하여 제1 얼굴 이미지의 제2 전역 특징을 획득할 수 있다. 다시 말해, 제1 얼굴 이미지의 제2 전역 특징은 제1 얼굴 이미지의 제1 국부 특징에 기초하여 획득된 것으로, 이는 제2 얼굴 이미지와는 관련이 없으며, 이는 앞서 설명한 제1 얼굴 이미지의 제1 전역 특징과는 다르고, 상기 제1 얼굴 이미지의 제1 전역 특징 및 제2 얼굴 이미지와 관련이 있다.

단계(S103)에서, 얼굴 인식 장치는 제2 얼굴 이미지의 제1 전역 특징 및 제2 전역 특징에 기초하여, 제2 얼굴 이미지의 최종 전역 특징을 획득한다.

일 예로, 얼굴 인식 장치는 제2 얼굴 이미지의 제1 전역 특징 및 제2 전역 특징을 캐스케이드하여 제2 얼굴 이미지의 최종 전역 특징을 획득할 수 있다.

일 예로, 얼굴 인식 장치는 제2 얼굴 이미지의 제1 국부 특징에 기초하여 제2 얼굴 이미지의 제2 전역 특징을 획득할 수 있다. 다시 말해, 제2 얼굴 이미지의 제2 전역 특징은 제2 얼굴 이미지의 제1 국부 특징에 기초하여 획득된 것으로, 이는 제1 얼굴 이미지와는 관련이 없으며, 이는 앞서 설명한 제2 얼굴 이미지의 제1 전역 특징과는 다르고, 상기 제2 얼굴 이미지의 제1 전역 특징 및 제2 얼굴 이미지와 관련이 있다.

일 예로, 단계(S102) 및 단계(S103)는 순차적으로, 병렬로, 또는 역으로 수행될 수 있다. 단계(S104)에서, 얼굴 인식 장치는 제1 얼굴 이미지의 최종 전역 특징 및 제2 얼굴 이미지의 최종 전역 특징에 기초하여, 제1 얼굴 이미지 및 제2 얼굴 이미지를 인식한다.

일 예로, 얼굴 인식 장치는 미리 설정된 규칙에 따라, 제1 얼굴 이미지의 최종 전역 특징 및 제2 얼굴 이미지의 최종 전역 특징에 기초하여, 제1 얼굴 이미지와 제2 얼굴 이미지가 동일한 신분인지 여부를 인식(또는 인증)할 수 있다.

도 3은 일 실시예에 따른 얼굴 인식 방법의 예시도이다.

도 3을 참조하면, 설명의 편의를 위해, 이하 도 3의 좌측 상단의 제1 얼굴 이미지 및 좌측 하단의 제2 얼굴 이미지를 제1 얼굴 이미지(또는 얼굴 이미지 A) 및 제2 얼굴 이미지(또는 얼굴 이미지 B)로 칭한다.

먼저, 제1 얼굴 이미지 및 제2 이미지의 제1 국부 특징은, 예를 들어 컨볼루션 네트워크를 통해 추출될 수 있다. 도 3은 두 개의 동일한 네트워크를 통해 각각 제1 얼굴 이미지의 제1 국부 특징과 제2 얼굴 이미지의 제1 국부 특징을 획득하는 것을 도시하지만, 동일한 네트워크를 통해 제1 얼굴의 제1 국부 특징 및 제2 얼굴의 제1 국부 특징을 각각 획득할 수도 있다.

그런 다음, 얼굴 인식 장치는 제1 얼굴 이미지의 제1 국부 특징을 완전 연결 레이어(FC)에 입력하여 제1 얼굴 이미지의 제2 전역 특징(g^A)을 획득할 수 있다.

얼굴 인식 장치는 제1 얼굴 이미지의 국부 특징에 대해 특징 재배열(feature rearrange) 처리하고 위치 임베딩 작업을 진행하여 위치 정보가 임베딩된 제1 얼굴 이미지의 제1 국부 특징 표현을 얻을 수 있고, 그런 다음 교차 어텐션 메커니즘에 기반하여 제1 얼굴 이미지의 제2 국부 특징

을 얻을 수 있다. 구체적인 프로세스는 상기 제2 국부 특징을 획득하는 프로세스와 유사하므로, 여기서 더는 반복하지 않는다.

얼굴 인식 장치는 제1 얼굴 이미지의 제2 국부 특징을 완전 연결 레이어(FC)에 입력하여 제1 얼굴 이미지의 제1 전역 특징을 획득할 수 있다.

얼굴 인식 장치는 캐스케이드 레이어를 사용하여 제1 얼굴 이미지의 제1 전역 특징 및 제2 전역 특징에 대해 캐스케이드 연산을 수행함으로써, 제1 얼굴 이미지의 최종 전역 특징을 획득한다.

이상, 도 3을 참조하여 제1 얼굴 이미지의 최종 전역 특징의 획득 과정에 대해 설명하였다.

도 3에서 얼굴 인식 장치가 제2 얼굴 이미지의 최종 전역 특징을 획득하는 과정은 얼굴 인식 장치가 제1 얼굴 이미지의 전역 특징을 획득하는 과정과 유사하므로, 여기서 더는 반복하지 않는다.

얼굴 인식 장치는 제1 얼굴 이미지의 최종 전역 특징 및 제2 얼굴의 최종 전역 특징을 획득한 후, 최종 전역 특징에 기초하여 제1 얼굴 이미지 및 제2 얼굴 이미지가 동일한 신원인지 여부를 결정할 수 있다.

상기 얼굴 인식 방법을 수행하는 네트워크의 관련 파라미터는 이진 엔트로피 손실 함수와 추가 각도 마진(margin) 손실 함수를 사용하여 공동으로 훈련할 수 있다.

구체적으로, 컴퓨팅 장치는 훈련용 이미지 쌍의 최종 전역 특징 중의 요소를 대응 곱하고(element-wise multiplied), 선형 레이어에 입력하여 이진 예측하여, 이미지 쌍이 동일한 신원에서 오는지 여부를 결정할 수 있다. 이진 엔트로피 손실 함수는 다음 수학식 3으로 표현될 수 있다.

위 수학식 3에서, j는 샘플 쌍의 시퀀스 번호를 나타내고, N은 훈련 샘플의 작은 배치에 있는 이미지 쌍의 수를 나타내며,

는 이미지 쌍이 동일한 신원에 속하는지 여부를 나타내는 실제 레이블이고,

은 양의 이미지 쌍을 나타내고,

은 음의 이미지 쌍을 나타내고,

는 선형 레이어의 출력으로 예측 확률을 나타낸다.

컴퓨팅 장치는 신원 분류를 위해 아래 수학식 4와 같은 추가 각도 마진(margin) 손실 함수를 사용할 수 있다.

위 수학식 4에서, 2N은 훈련 샘플의 작은 배치에 있는 이미지 쌍의 수이고,

는 특징과 상응하는 가중치 사이의 각도이며, s는 크기 인자이고, m은 임계값 인자이고, k는 샘플 시퀀스 번호를 나타내고,

는 truth-value 샘플 시퀀스 번호를 나타낸다.

컴퓨팅 장치는 아래 수학식 5의 함수를 사용하여 전체 네트워크를 종단간 훈련할 수 있다.

위 수학식 5에서,

는 두 개의

함수 및

함수의 균형을 이루는 계수이고, 예를 들어,

=10일 수 있다.

일 실시예에 따르면, 얼굴 인식에서, 복잡한 설계의 얼굴 정렬 모듈 없이, 즉 얼굴에 대해 정렬 처리할 필요 없이, 교차 어텐션 메커니즘을 기반으로 얼굴 이미지 쌍의 국부 대응 관계를 잠재적으로 이해할 수 있다.

도 4는 Baseline 얼굴 인식 방법, 셀프 어텐션 얼굴 인식 방법 및 일 실시예에 따른 얼굴 인식 방법에 기반한 얼굴 이미지의 시각적 반응을 도시한 도면이다.

도 4를 참조하면, 첫 번째 줄은 Baseline 기반의 특징 응답을 보여주고, 두 번째 줄은 셀프 어텐션 기반의 특징 응답을 보여주며, 마지막 줄은 일 실시예의 교차 어텐션 기반의 특징 응답을 보여준다. 첫 번째 및 두 번째 줄을 비교할 때, 일 실시예의 방법은 비교된 얼굴 이미지 쌍의 가장 유사한 얼굴 부분에 대해 더 높은 특징 응답을 가진다. 구체적으로, 왼쪽의 제2 얼굴 이미지 쌍을 예로 들면, 눈 주변의 반응이 높고, 이는 눈 주변의 특징이 더 유사하다는 것을 의미한다. 이러한 두드러지는 영역에서 특징 추출 및 비교를 통해, 실시예의 얼굴 인식 장치는 표정이나 포즈가 다른 얼굴이 동일한 신원에 속하는지 여부를 더 잘 판단할 수 있다. 실시예의 얼굴 인식 장치는 다른 신원을 가진 이미지의 경우, 비슷한 얼굴 영역에서도 더 높은 반응을 보이므로, 서로 다른 신원을 구별하여 얼굴 인식의 정확도를 높일 수 있다. 반대로, 다른 얼굴 인식 방법에 기반한 얼굴 이미지의 시각적 반응은 이와 같은 대응 관계를 보이지 않는다.

일 실시예에 따르면, 얼굴 인식 장치는 비교 이미지(예, 이미지 B)의 쿼리 벡터(또는 비교 이미지의 제1 국부 특징)에 기반하여 얼굴 이미지(예, 이미지 A)의 풀링 특징을 계산하고, 비교 이미지(예, 이미지 B)의 쿼리 벡터는 비교 이미지 쌍과 가장 유사한 특징 영역에 초점을 맞추도록 어텐션 가중치 계산을 안내할 수 있다. 같은 사람이라도 포즈, 조명 또는 연령이 다른 이미지 쌍의 경우, 가장 유사한 얼굴 부분의 특징 응답이 더 높다. 얼굴 인식 장치는 신분이 다른 이미지 쌍의 경우, 유사한 특징 간의 비교를 강조하면 보다 정확하게 인식할 수 있다.

유사도가 낮은 이미지의 경우에도, 이미지 A 배경의 특징과 비교하여, 이미지 B의 얼굴 영역에 있는 특징이 이미지 A의 얼굴 영역에 있는 특징과 더 유사하여, 이는 전체 얼굴 영역에서 특징의 더 높은 응답으로 이어질 것이다. 즉, 나머지 배경 정보의 영향을 제외하고 얼굴 영역 간의 비교에 더 주의를 기울일 수 있다.

이상, 도 1 내지 도 4를 참조하여 일 실시예에 따른 얼굴 인식 방법에 대해 설명하였으며, 이하, 도 5를 참조하여 일 실시예에 따른 얼굴 인식 장치에 대해 설명한다.

본 기술분의 통상의 지식을 가진 자는, 아래에서 사용되는 용어는 위에서 언급한 대응하는 용어와 동일하거나 유사한 의미를 갖는다는 것을 이해해야 한다.

도 5는 일 실시예에 따른 얼굴 인식 장치를 도시한 블록도이다.

도 5을 참조하면, 얼굴 인식 장치(500)는 제1 전역 특징 획득 모듈(501), 최종 전역 특징 획득 모듈(502), 및 인식 모듈(503)을 포함할 수 있다. 본 기술분야의 통상의 지식을 가진 자는, 얼굴 인식 장치(500)가 다른 구성요소를 추가로 포함할 수 있고, 얼굴 인식 장치(500)의 적어도 하나의 구성요소가 하나의 구성요소로 결합되거나, 하나의 구성요소가 다수의 구성요소로 분할될 수 있고, 분할 또는 결합 후 획득한 구성요소는 분할 또는 결합 전 구성 요소의 기능을 실현할 수 있음을 이해해야 한다.

일 예로, 제1 전역 특징 획득 모듈(501)은 제1 얼굴 이미지의 국부 특징 및 제2 얼굴 이미지의 국부 특징에 기초하여, 제1 얼굴 이미지의 제1 전역 특징 및 제2 얼굴 이미지의 제1 전역 특징을 각각 획득하도록 구성될 수 있다.

일 예로, 제1 전역 특징 획득 모듈(501)은, 제1 얼굴 이미지의 제1 전역 특징을 획득하도록 구성된 제1 얼굴 이미지 제1 전역 특징 획득 모듈(미도시) 및 제2 얼굴 이미지의 제1 전역 특징의 모듈을 획득하도록 구성된 제2 얼굴 이미지 제1 전역 특징 획득 모듈(미도시)을 포함할 수 있다.

일 예로, 최종 전역 특징 획득 모듈(502)은, 제1 얼굴 이미지의 제1 전역 특징 및 제2 전역 특징에 기초하여 제1 얼굴 이미지의 최종 전역 특징을 획득하고 제2 얼굴 이미지의 제1 전역 특징 및 제2 전역 특징에 기초하여 제2 얼굴 이미지의 최종 전역 특징을 획득하도록 구성될 수 있으며, 제1 얼굴 이미지의 제2 전역 특징을 제1 얼굴 이미지의 국부 특징에 기초하여 획득하고, 제2 얼굴 이미지의 제2 전역 특징은 제2 얼굴 이미지의 국부 특징에 기초하여 획득된다.

일 예로, 최종 전역 특징 획득 모듈(502)은, 제1 얼굴 이미지의 제1 전역 특징 및 제2 전역 특징에 기초하여 제1 얼굴 이미지의 최종 전역 특징을 획득하도록 구성된 제1 얼굴 이미지 캐스케이드 레이어(미도시) 및 제2 얼굴 이미지의 제1 전역 특징 및 제2 전역 특징에 기초하여 제2 얼굴 이미지의 최종 전역 특징을 획득하도록 구성된 제2 얼굴 이미지 캐스캐이드 레이어(미도시)를 포함할 수 있다.

일 예로, 제1 전역 특징 획득 모듈(501)은, 제1 얼굴 이미지의 국부 특징 및 제2 얼굴 이미지의 국부 특징에 기초하여 어텐션 풀링 처리하여, 상기 제1 얼굴 이미지의 제1 전역 특징 및 제2 얼굴 이미지의 제1 전역 특징을 각각 획득하도록 구성될 수 있다.

일 예로, 제1 전역 특징 획득 모듈(501)은, 교차 어텐션 메커니즘을 사용하여 제1 얼굴 이미지의 국부 특징에 대해 어텐션 풀링 처리함으로써 제2 얼굴 이미지에 대한 제1 얼굴 이미지의 제1 어텐션 풀링 특징을 획득하도록 구성된 제1 어텐션 풀링 모듈(미도시) 및 교차 어텐션 메커니즘을 사용하여 제2 얼굴 이미지의 국부 특징에 대해 어텐션 풀링 처리함으로써 제1 얼굴 이미지에 대한 제2 얼굴 이미지의 제2 어텐션 풀링 특징을 획득하도록 구성된 제2 어텐션 풀링 모듈(미도시)을 포함할 수 있다.

일 예로, 얼굴 인식 장치(500)는 위치 정보 임베딩 모듈(미도시)을 더 포함할 수 있고, 상기 위치 정보 임베딩 모듈은, 제1 얼굴 이미지의 국부 특징에 대해 위치 정보를 임베딩하여 위치 정보가 임베딩된 제1 얼굴 이미지의 국부 특징을 획득하고, 제2 얼굴 이미지의 국부 특징에 대해 위치 정보를 임베딩하여 위치 정보가 임베딩된 제2 얼굴 이미지의 국부 특징을 획득하도록 구성될 수 있다.

일 예로, 얼굴 인식 장치(500)는 특징 재배열 모듈(미도시)을 더 포함할 수 있고, 상기 특징 재배열 모듈은, 얼굴 이미지의 제1 국부 특징에 대해 특징 재배열하도록 구성될 수 있다. 예를 들어, 크기가 5Х5인 국부 특징맵 특징은 크기가 1Х25인 국부 특징맵으로 재배열된다.

일 예로, 제1 전역 특징 획득 모듈(501)은, 위치 정보가 임베딩된 제1 얼굴 이미지의 전역 특징 및 위치 정보가 임베딩된 제2 얼굴 이미지의 국부 특징에 대해 어텐션 풀링 처리하도록 구성될 수 있다.

일 예로, 제1 전역 특징 획득 모듈(501)은 교차 어텐션 모듈(미도시)을 포함할 수 있고, 상기 교차 어텐션 모듈은, 제2 얼굴 이미지의 국부 특징을 쿼리에 대응하는 제1 쿼리 행렬과 곱하여 제1 쿼리(Query) 벡터를 획득하고, 제1 얼굴 이미지의 국부 특징을 키(KEY)에 대응하는 제1 키 행렬과 곱하여 제1 키 벡터를 획득하며, 제1 얼굴 이미지의 국부 특징을 값(Value)에 대응하는 제1 값 행렬과 곱하여 제1 값 벡터를 획득하고, 획득한 제1 쿼리 벡터, 제1 키 벡터, 제1 값 벡터에 기초하여 제2 얼굴 이미지에 대한 제1 얼굴 이미지의 어텐션 풀링 특징을 획득하도록 구성될 수 있고, 제1 얼굴 이미지의 국부 특징을 쿼리에 대응하는 제2 쿼리 행렬과 곱하여 제2 쿼리 벡터를 획득하고, 제2 얼굴 이미지의 국부 특징을 키에 대응하는 제2 키 행렬과 곱하여 제2 키 벡터를 획득하고, 제2 얼굴 이미지의 국부 특징을 값(Value)에 대응하는 제2 값 행렬과 곱하여 제2 값 벡터를 획득하고, 획득한 제2 쿼리 벡터, 제2 키 벡터 및 제2 값 벡터에 기초하여 제1 얼굴 이미지에 대한 제2 얼굴 이미지의 어텐션 풀링 특징을 획득하도록 구성될 수 있다.

일 예로, 교차 어테션 모듈은, 제2 얼굴 이미지에 대한 제1 얼굴 이미지의 어텐션 풀링 특징을 획득하도록 구성된 제1 교차 어테션 모듈 및 제1 얼굴 이미지에 대한 제2 얼굴 이미지의 어텐션 풀링 특징을 획득하도록 구성된 제2 교차 어텐션 모듈을 포함할 수 있다.

일 예로, 교차 어텐션 모듈은 멀티 헤드 어텐션 레이어를 포함할 수 있고, 상기 멀티 헤드 어텐션 레이어는, 제1 얼굴 이미지의 제1 국부 특징 및 제2 얼굴 이미지의 제1 국부 특징에 기초하여 제2 얼굴 이미지에 대한 제1 얼굴 이미지의 어텐션 풀링 특징을 획득하고, 제1 얼굴 이미지의 제1 국부 특징 및 제2 얼굴 이미지의 제1 국부 특징에 기초하여 제1 얼굴 이미지에 대한 제2 얼굴 이미지의 어텐션 풀링 특징을 획득하도록 구성된다.

일 예로, 교차 어텐션 모듈은 잔차 연결 및 레이어 정규화(Add&Norm) 레이어, 피드 포워드(Feed Forward) 레이어를 포함할 수 있다. 잔차 연결 및 레이어 정규화(Add&Norm) 레이어, 피드 포워드(Feed Forward) 레이어를 통해, 제2 얼굴 이미지에 대한 제1 얼굴 이미지의 어텐션 풀링 특징에서 제1 얼굴 이미지의 제2 국부 특징을 획득할 수 있고, 제1 얼굴 이미지에 대한 제2 얼굴 이미지의 어텐션 풀링 특징에서 제2 얼굴 이미지의 제2 국부 특징을 획득할 수 있다.

일 예로, 제1 전역 특징 획득 모듈은 완전 연결 레이어(미도시)를 더 포함할 수 있고, 상기 완전 연결 레이어는, 제1 얼굴 이미지의 제2 국부 특징에 기초하여 제1 얼굴 이미지의 제1 전역 특징을 획득하고 제2 얼굴 이미지의 제2 국부 특징에 기초하여 제2 얼굴 이미지의 제1 전역 특징을 획득하도록 구성된다.

일 예로, 얼굴 인식 장치(500)는 제1 국부 특징 획득 모듈(미도시)을 더 포함할 수 있고, 상기 제1 국부 특징 획득 모듈은, 제1 얼굴 이미지에 기초하여 제1 얼굴 이미지의 제1 국부 특징을 획득하고 제2 얼굴 이미지에 기초하여 제2 얼굴 이미지의 제1 국부 특징을 획득하도록 구성된다.

일 예로, 얼굴 인식 장치(500)는 제2 전역 특징 획득 모듈(미도시)을 더 포함할 수 있고, 상기 제2 전역 특징 획득 모듈은, 제1 얼굴 이미지의 제1 국부 특징에 기초하여 제1 얼굴 이미지의 제2 전역 특징을 획득하고 제2 얼굴 이미지의 제1 국부 특징에 기초하여 제2 얼굴 이미지의 제2 전역 특징을 획득하도록 구성된다. 일 예로, 제2 전역 특징 획들 모듈은 완전 연결 레이어일 수 있다.

일 실시예에 따라, 컴퓨팅 프로그램을 저장한 컴퓨터 판독 가능 저장 매체를 제공하고, 상기 컴퓨팅 프로그램은 프로세서에 의해 실행될 때 상기 얼굴 인식 방법을 구현한다.

일 실시예에 따라, 데이터 저장 장치를 제공하고, 상기 데이터 저장 장치는 프로세서 및 컴퓨팅 프로그램을 저장한 메모리를 포함하고, 상기 컴퓨팅 프로그램은 프로세서에 의해 실행될 때, 상기 얼굴 인식 방법을 구현한다.

일 실시 예에 있어서, 전자 장치는 얼굴 인식을 수행할 수 있다. 전자 장치는, 예를 들어, 스마트폰, 태블릿 PC, 또는 웨어러블 디바이스에 해당할 수 있으나 이에 제한되지 않는다. 전자 장치는 하나 이상의 프로세서, 메모리, 카메라, 디스플레이, 및 네트워크 인터페이스를 포함할 수 있다. 프로세서, 메모리, 카메라, 디스플레이, 및 네트워크 인터페이스는 통신 버스(communication bus)를 통해 서로 통신할 수 있다.

전자 장치 내의 프로세서는 얼굴 인증을 수행하기 위한 기능 및 인스트럭션들을 실행할 수 있다. 예를 들어, 프로세서는 메모리에 저장된 인스트럭션들을 실행할 수 있다. 프로세서는 전술한 얼굴 인식 방법을 수행 또는 전술한 얼굴 인식 장치(500)를 구현할 수 있다. 프로세서는, 예를 들어, 어플리케이션 프로세서(application processor)일 수 있으나 이에 제한되지 않는다.

프로세서는 제1 얼굴 이미지의 국부 특징 및 제2 얼굴 이미지의 국부 특징에 기초하여, 제1 얼굴 이미지의 제1 전역 특징 및 제2 얼굴 이미지의 제1 전역 특징을 각각 획득한다. 프로세서는 제1 얼굴 이미지의 제1 전역 특징 및 제2 전역 특징에 기초하여 제1 얼굴 이미지의 최종 전역 특징을 획득하고, 제2 얼굴 이미지의 제1 전역 특징 및 제2 전역 특징에 기초하여 제2 얼굴 이미지의 최종 전역 특징을 획득하며, 제1 얼굴 이미지의 최종 전역 특징 및 제2 얼굴 이미지의 최종 전역 특징에 기초하여, 제1 얼굴 이미지 및 상기 제2 얼굴 이미지를 인식한다. 프로세서의 동작은 상술한 얼굴 인식 방법에 대한 설명 또는 얼굴 인식 장치에 대한 설명이 적용될 수 있다.

메모리는 얼굴 인식을 수행하기 위한 정보를 저장한다. 메모리는 컴퓨터 판독가능한 저장 매체 또는 컴퓨터 판독가능한 저장 장치를 포함할 수 있다. 메모리는 프로세서에 의해 실행될 수 있는 인스트럭션들과 얼굴 인식을 수행하는데 필요한 정보를 저장할 수 있다.

카메라는 얼굴 인식의 대상이 나타난 정지 영상, 비디오 영상, 또는 이들 모두를 획득할 수 있다. 카메라는 제1 얼굴 이미지 및/또는 제2 얼굴 이미지를 획득할 수 있다.

디스플레이는 카메라에 의해 획득된 영상(예: 정지 영상, 비디오 영상 등)을 표시할 수 있다. 예를 들어, 프로세서는 카메라로부터 제1 얼굴 이미지 및/또는 제2 얼굴 이미지를 수신할 수 있고, 제1 얼굴 이미지 및/또는 제2 얼굴 이미지를 디스플레이에 표시할 수 있다.

네트워크 인터페이스는 전자 장치가 유선 또는 무선 네트워크를 통해 외부 장치(예: 서버)와 통신할 수 있다.

일 실시예에 있어서, 얼굴 인식 장치(500)는, 예를 들어, 스마트폰, 웨어러블 기기(wearable device), 태블릿 컴퓨터, 넷북, 랩탑, 데스크탑, PDA(personal digital assistant), 셋탑 박스, 가전 기기, 도어락, 보안 검색대(예: 공항 또는 기차역 보안 검색대 등), 장소(예: 아파트, 건물 등)의 출입 통제 장치, 현금 인출기, 차량 시동 장치, 및 서버 중 적어도 하나에 포함될 수 있다.

일 실시예에 있어서, 제1 얼굴 이미지와 제2 얼굴 이미지 각각은 동일한 센서(예: 동일한 카메라 또는 동일한 이미지 센서)에 의해 수집 또는 획득된 것일 수 있다. 이에 제한되지 않고, 제1 얼굴 이미지와 제2 얼굴 이미지 각각은 서로 다른 센서들(예: 서로 다른 카메라들 또는 서로 다른 이미지 센서들) 각각에 의해 수집 또는 획득된 것일 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 저장할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

얼굴 인식 방법에 있어서,
제1 얼굴 이미지의 국부 특징(local feature) 및 제2 얼굴 이미지의 국부 특징에 기초하여, 상기 제1 얼굴 이미지의 제1 전역(global) 특징 및 상기 제2 얼굴 이미지의 제1 전역 특징을 각각 획득하는 단계;
상기 제1 얼굴 이미지의 제1 전역 특징 및 제2 전역 특징에 기초하여, 상기 제1 얼굴 이미지의 최종 전역 특징을 획득하는 단계;
상기 제2 얼굴 이미지의 제1 전역 특징 및 제2 전역 특징에 기초하여, 상기 제2 얼굴 이미지의 최종 전역 특징을 획득하는 단계; 및
상기 제1 얼굴 이미지의 최종 전역 특징 및 상기 제2 얼굴 이미지의 최종 전역 특징에 기초하여, 상기 제1 얼굴 이미지 및 상기 제2 얼굴 이미지를 인식하는 단계
를 포함하고,
상기 제1 얼굴 이미지의 제2 전역 특징은 상기 제1 얼굴 이미지의 국부 특징에 기초하여 획득되고, 상기 제2 얼굴 이미지의 제2 전역 특징은 상기 제2 얼굴 이미지의 국부 특징에 기초하여 획득되는 것인, 얼굴 인식 방법.
제1항에 있어서,
상기 제1 얼굴 이미지의 국부 특징 및 상기 제2 얼굴 이미지의 국부 특징에 기초하여, 상기 제1 얼굴 이미지의 제1 전역 특징 및 상기 제2 얼굴 이미지의 제1 전역 특징을 각각 획득하는 단계는,
상기 제1 얼굴 이미지의 국부 특징 및 상기 제2 얼굴 이미지의 국부 특징에 기초하여 어텐션 풀링(attention pooling) 처리를 진행하여, 상기 제1 얼굴 이미지의 제1 전역 특징 및 상기 제2 얼굴 이미지의 제1 전역 특징을 각각 획득하는 단계
를 포함하는, 얼굴 인식 방법.
제2항에 있어서,
상기 제1 얼굴 이미지의 국부 특징은 위치 정보가 임베딩된 상기 제1 얼굴 이미지의 국부 특징이고;
상기 제2 얼굴 이미지의 국부 특징은 위치 정보가 임베딩된 상기 제2 얼굴 이미지의 국부 특징인, 얼굴 인식 방법.
제2항에 있어서,
상기 제1 얼굴 이미지의 국부 특징 및 제2 얼굴 이미지의 국부 특징에 기초하여 어텐션 풀링 처리를 진행하여, 상기 제1 얼굴 이미지의 제1 전역 특징 및 상기 제2 얼굴 이미지의 제1 전역 특징을 각각 획득하는 단계는,
상기 제1 얼굴 이미지의 국부 특징 및 상기 제2 얼굴 이미지의 국부 특징에 기초하여, 멀티 헤드 어텐션 메커니즘을 사용하여 상기 제2 얼굴 이미지에 대한 상기 제1 얼굴 이미지의 제1 어텐션 풀링 특징 및 상기 제1 얼굴 이미지에 대한 상기 제2 얼굴 이미지의 제2 어텐션 풀링 특징을 획득하는 단계;
상기 제1 어텐션 풀링 특징에 기초하여, 상기 제1 얼굴 이미지의 제1 전역 특징을 획득하는 단계; 및
상기 제2 어텐션 풀링 특징에 기초하여, 상기 제2 얼굴 이미지의 제1 전역 특징을 획득하는 단계
를 포함하는, 얼굴 인식 방법.
제4항에 있어서,
상기 제1 얼굴 이미지의 국부 특징 및 상기 제2 얼굴 이미지의 국부 특징에 기초하여, 상기 멀티 헤드 어텐션 메커니즘을 사용하여 상기 제2 얼굴 이미지에 대한 제1 얼굴 이미지의 제1 어텐션 풀링 특징 및 상기 제1 얼굴 이미지에 대한 제2 얼굴 이미지의 제2 어텐션 풀링 특징을 획득하는 단계는,
상기 제2 얼굴 이미지의 국부 특징을 쿼리(Query)에 대응하는 제1 쿼리 행렬과 곱하여 제1 쿼리 벡터를 획득하고, 상기 제1 얼굴 이미지의 국부 특징을 키(KEY)에 대응하는 제1 키 행렬과 곱하여 제1 키 벡터를 획득하며, 상기 제1 얼굴 이미지의 국부 특징을 값(Value)에 대응하는 제1 값 행렬과 곱하여 제1 값 벡터를 획득하고, 상기 획득한 제1 쿼리 벡터, 상기 제1 키 벡터, 및 상기 제1 값 벡터에 기초하여 상기 제2 얼굴 이미지에 대한 상기 제1 얼굴 이미지의 어텐션 풀링 특징을 획득하는 단계; 및
상기 제1 얼굴 이미지의 국부 특징을 쿼리에 대응하는 제2 쿼리 행렬과 곱하여 제2 쿼리 벡터를 획득하고, 상기 제2 얼굴 이미지의 국부 특징을 키에 대응하는 제2 키 행렬과 곱하여 제2 키 벡터를 획득하며, 상기 제2 얼굴 이미지의 국부 특징을 값(Value)에 대응하는 제2 값 행렬과 곱하여 제2 값 벡터를 획득하고, 상기 획득한 제2 쿼리 벡터, 상기 제2 키 벡터, 및 상기 제2 값 벡터에 기초하여 상기 제1 얼굴 이미지에 대한 제2 얼굴 이미지의 제2 어텐션 풀링 특징을 획득하는 단계
를 포함하는, 얼굴 인식 방법.
제1항에 있어서,
상기 제1 얼굴 이미지의 제1 전역 특징 및 상기 제2 얼굴 이미지의 제1 전역 특징을 각각 획득하는 단계는,
동일한 네트워크 또는 상이한 네트워크를 사용하여 상기 제1 얼굴 이미지의 제1 전역 특징 및 상기 제2 얼굴 이미지의 제1 전역 특징을 각각 획득하는 단계
를 포함하는, 얼굴 인식 방법.
얼굴 인식 장치에 있어서,
제1 얼굴 이미지의 국부 특징 및 제2 얼굴 이미지의 국부 특징에 기초하여, 상기 제1 얼굴 이미지의 제1 전역 특징 및 상기 제2 얼굴 이미지의 제1 전역 특징을 각각 획득하도록 구성된 제1 전역 특징 획득 모듈;
상기 제1 얼굴 이미지의 제1 전역 특징 및 제2 전역 특징에 기초하여 상기 제1 얼굴 이미지의 최종 전역 특징을 획득하고, 상기 제2 얼굴 이미지의 제1 전역 특징 및 제2 전역 특징에 기초하여 상기 제2 얼굴 이미지의 최종 전역 특징을 획득하도록 구성된 최종 전역 특징 획득 모듈; 및
상기 제1 얼굴 이미지의 최종 전역 특징 및 상기 제2 얼굴 이미지의 최종 전역 특징에 기초하여, 상기 제1 얼굴 이미지 및 상기 제2 얼굴 이미지를 인식하도록 구성된 인식 모듈
을 포함하고,
상기 제1 얼굴 이미지의 제2 전역 특징은 상기 제1 얼굴 이미지의 국부 특징에 기초하여 획득되고, 상기 제2 얼굴 이미지의 제2 전역 특징은 제2 얼굴 이미지의 국부 특징에 기초하여 획득되는, 얼굴 인식 장치.
제7항에 있어서,
상기 제1 전역 특징 획득 모듈은,
상기 제1 얼굴 이미지의 국부 특징 및 상기 제2 얼굴 이미지의 국부 특징에 기초하여 어텐션 풀링 처리를 진행하여, 상기 제1 얼굴 이미지의 제1 전역 특징 및 상기 제2 얼굴 이미지의 제1 전역 특징을 각각 획득하도록 구성되는, 얼굴 인식 장치.
제8항에 있어서,
상기 제1 얼굴 이미지의 국부 특징은 위치 정보가 임베딩된 제1 얼굴 이미지의 국부 특징이고,
상기 제2 얼굴 이미지의 국부 특징은 위치 정보가 임베딩된 제2 얼굴 이미지의 국부 특징인, 얼굴 인식 장치.
제8항에 있어서,
상기 제1 전역 특징 획득 모듈은,
상기 제1 얼굴 이미지의 국부 특징과 상기 제2 얼굴 이미지의 국부 특징에 기초하여, 멀티 헤드 어텐션 메커니즘을 사용하여 상기 제2 얼굴 이미지에 대한 제1 얼굴 이미지의 제1 어텐션 풀링 특징 및 상기 제1 얼굴 이미지에 대한 제2 얼굴 이미지의 제2 어텐션 풀링 특징을 각각 획득하고,
상기 제1 어텐션 풀링 특징에 기초하여, 상기 제1 얼굴 이미지의 제1 전역 특징을 획득하며,
상기 제2 어텐션 풀링 특징에 기초하여, 상기 제2 얼굴 이미지의 제1 전역 특징을 획득하도록 구성되는, 얼굴 인식 장치.
제10항에 있어서,
상기 제1 전역 특징 획득 모듈은 교차 어텐션 모듈을 포함하고,
상기 교차 어텐션 모듈은,
상기 제2 얼굴 이미지의 국부 특징을 쿼리에 대응하는 제1 쿼리 행렬과 곱하여 제1 쿼리(Query) 벡터를 획득하고, 상기 제1 얼굴 이미지의 국부 특징을 키(KEY)에 대응하는 제1 키 행렬과 곱하여 제1 키 벡터를 획득하며, 상기 제1 얼굴 이미지의 국부 특징을 값(Value)에 대응하는 제1 값 행렬과 곱하여 제1 값 벡터를 획득하고, 상기 획득한 제1 쿼리 벡터, 상기 제1 키 벡터, 및 상기 제1 값 벡터에 기초하여 상기 제2 얼굴 이미지에 대한 제1 얼굴 이미지의 제1 어텐션 풀링 특징을 획득하고,
상기 제1 얼굴 이미지의 국부 특징을 쿼리에 대응하는 제2 쿼리 행렬과 곱하여 제2 쿼리 벡터를 획득하고, 상기 제2 얼굴 이미지의 국부 특징을 키에 대응하는 제2 키 행렬과 곱하여 제2 키 벡터를 획득하며, 제2 얼굴 이미지의 국부 특징을 값(Value)에 대응하는 제2 값 행렬과 곱하여 제2 값 벡터를 획득하고, 상기 획득한 제2 쿼리 벡터, 상기 제2 키 벡터, 및 상기 제2 값 벡터에 기초하여 상기 제1 얼굴 이미지에 대한 상기 제2 얼굴 이미지의 제2 어텐션 풀링 특징을 획득하도록 구성되는, 얼굴 인식 장치.
제7항에 있어서,
상기 제1 전역 특징 획득 모듈은,
상기 제1 얼굴 이미지의 제1 전역 특징을 획득하도록 구성된 제1 얼굴 이미지 제1 전역 특징 획득 모듈; 및
상기 제2 얼굴 이미지의 제1 전역 특징을 획득하도록 구성된 제2 얼굴 이미지 제1 전역 특징 획득 모듈
을 포함하는, 얼굴 인식 장치.
컴퓨팅 프로그램을 저장한 컴퓨터 판독 가능 저장 매체에 있어서, 상기 컴퓨팅 프로그램은 프로세서에 의해 실행될 때 상기 제1항에 따른 얼굴 인식 방법을 구현하는 것인, 컴퓨터 판독 가능 저장 매체.
데이터 저장 장치에 있어서,
프로세서; 및
컴퓨팅 프로그램을 저장한 메모리
를 포함하고,
상기 컴퓨팅 프로그램은 프로세서에 의해 실행될 때, 상기 제1항 내지 제6항 중 어느 한 항에 따른 얼굴 인식 방법을 구현하는 것인, 데이터 저장 장치.
전자 장치에 있어서,
하나 이상의 인스트럭션들을 저장하는 메모리; 및
상기 인스트럭션들을 실행하는 프로세서
를 포함하는,
상기 프로세서는, 상기 인스트럭션들을 실행함으로써:
제1 얼굴 이미지의 국부 특징 및 제2 얼굴 이미지의 국부 특징에 기초하여, 상기 제1 얼굴 이미지의 제1 전역 특징 및 상기 제2 얼굴 이미지의 제1 전역 특징을 각각 획득하고, 상기 제1 얼굴 이미지의 제1 전역 특징 및 제2 전역 특징에 기초하여 상기 제1 얼굴 이미지의 최종 전역 특징을 획득하며, 상기 제2 얼굴 이미지의 제1 전역 특징 및 제2 전역 특징에 기초하여 상기 제2 얼굴 이미지의 최종 전역 특징을 획득하고, 상기 제1 얼굴 이미지의 최종 전역 특징 및 상기 제2 얼굴 이미지의 최종 전역 특징에 기초하여, 상기 제1 얼굴 이미지 및 상기 제2 얼굴 이미지를 인식하고,
상기 제1 얼굴 이미지의 제2 전역 특징은 상기 제1 얼굴 이미지의 국부 특징에 기초하여 획득되고, 상기 제2 얼굴 이미지의 제2 전역 특징은 제2 얼굴 이미지의 국부 특징에 기초하여 획득되는,
전자 장치.
제15항에 있어서,
상기 프로세서는,
상기 제1 얼굴 이미지의 국부 특징 및 상기 제2 얼굴 이미지의 국부 특징에 기초하여 어텐션 풀링 처리를 진행하여, 상기 제1 얼굴 이미지의 제1 전역 특징 및 상기 제2 얼굴 이미지의 제1 전역 특징을 각각 획득하는, 전자 장치.
제16항에 있어서,
상기 제1 얼굴 이미지의 국부 특징은 위치 정보가 임베딩된 제1 얼굴 이미지의 국부 특징이고,
상기 제2 얼굴 이미지의 국부 특징은 위치 정보가 임베딩된 제2 얼굴 이미지의 국부 특징인, 전자 장치.
제16항에 있어서,
상기 프로세서는,
상기 제1 얼굴 이미지의 국부 특징과 상기 제2 얼굴 이미지의 국부 특징에 기초하여, 멀티 헤드 어텐션 메커니즘을 사용하여 상기 제2 얼굴 이미지에 대한 제1 얼굴 이미지의 제1 어텐션 풀링 특징 및 상기 제1 얼굴 이미지에 대한 제2 얼굴 이미지의 제2 어텐션 풀링 특징을 각각 획득하고,
상기 제1 어텐션 풀링 특징에 기초하여, 상기 제1 얼굴 이미지의 제1 전역 특징을 획득하며,
상기 제2 어텐션 풀링 특징에 기초하여, 상기 제2 얼굴 이미지의 제2 전역 특징을 획득하는, 전자 장치.
제18항에 있어서,
상기 프로세서는,
상기 제2 얼굴 이미지의 국부 특징을 쿼리에 대응하는 제1 쿼리 행렬과 곱하여 제1 쿼리(Query) 벡터를 획득하고, 상기 제1 얼굴 이미지의 국부 특징을 키(KEY)에 대응하는 제1 키 행렬과 곱하여 제1 키 벡터를 획득하며, 상기 제1 얼굴 이미지의 국부 특징을 값(Value)에 대응하는 제1 값 행렬과 곱하여 제1 값 벡터를 획득하고, 상기 획득한 제1 쿼리 벡터, 상기 제1 키 벡터, 및 상기 제1 값 벡터에 기초하여 상기 제2 얼굴 이미지에 대한 제1 얼굴 이미지의 제1 어텐션 풀링 특징을 획득하고,
상기 제1 얼굴 이미지의 국부 특징을 쿼리에 대응하는 제2 쿼리 행렬과 곱하여 제2 쿼리 벡터를 획득하고, 상기 제2 얼굴 이미지의 국부 특징을 키에 대응하는 제2 키 행렬과 곱하여 제2 키 벡터를 획득하며, 제2 얼굴 이미지의 국부 특징을 값(Value)에 대응하는 제2 값 행렬과 곱하여 제2 값 벡터를 획득하고, 상기 획득한 제2 쿼리 벡터, 상기 제2 키 벡터, 및 상기 제2 값 벡터에 기초하여 상기 제1 얼굴 이미지에 대한 상기 제2 얼굴 이미지의 제2 어텐션 풀링 특징을 획득하는, 전자 장치.