KR20230009289A

KR20230009289A - 얼굴 키 포인트를 검출하는 전자 장치 및 이의 동작 방법

Info

Publication number: KR20230009289A
Application number: KR1020220058248A
Authority: KR
Inventors: 지엔 자오; 한승주; 펑 주; 한 슈; 징징 한; 민 양
Original assignee: 삼성전자주식회사
Priority date: 2021-07-08
Filing date: 2022-05-12
Publication date: 2023-01-17
Also published as: CN113688664B; CN113688664A

Abstract

얼굴 키 포인트를 검출하는 전자 장치 및 이의 동작 방법이 개시된다. 실시예에 따른 전자 장치는 인스트럭션들을 포함하는 메모리, 및 상기 메모리와 전기적으로 연결되고, 상기 인스트럭션들을 실행하기 위한 프로세서를 포함하고, 상기 프로세서에 의해 상기 인스트럭션들이 실행될 때, 상기 프로세서는, 얼굴 이미지에 기초하여 제1 히트 맵 특징(heat map feature) 및 제1 좌표 값 특징(coordinate value feature)을 획득하고, 상기 제1 히트 맵 특징 및 상기 제1 좌표 값 특징에 기초하여 얼굴 키 포인트를 검출할 수 있다. 그 외에도 다양한 실시예들이 가능할 수 있다.

Description

얼굴 키 포인트를 검출하는 전자 장치 및 이의 동작 방법{ELECTRONIC DEVICE FOR DETECTING FACE KEY POINTS AND METHOD FOR OPERATING THE SAME}

본 발명의 다양한 실시예들은 얼굴 키 포인트를 검출하는 전자 장치 및 이의 동작 방법에 관한 것이다.

사용자가 특정 움직임이나 동작을 수행해야 하는 식별 기술(예, 지문 인식, 홍채 인식 등)과 달리, 얼굴 검출 기술은 대상과 접촉하지 않고도 대상을 인증할 수 있어 편리하고 경쟁력 있는 생체인식 기술로 주목받고 있다. 얼굴 검출 기술의 편리성과 효율성으로 인해 얼굴 검출 기술은 다양한 응용 분야(예, 보안 시스템, 모바일 인증, 멀티미디어 검색 등)에서 널리 사용되고 있다.

얼굴 검출 기술에서 얼굴 키 포인트 검출은 핵심 부분으로써, 매우 중요한 부분이다. 그러나 얼굴 이미지가 다양한 조건에서 획득됨으로써, 얼굴 검출의 응용 시나리오 또한 다양해지고 있다. 신속성 및 정확성을 가진 얼굴 키 포인트 검출 기술이 요구될 수 있다.

다양한 실시예들은 얼굴 이미지에 기초하여 획득된 히트 맵 특징 및 좌표 값 특징을 동시에 사용하여 얼굴 키 포인트 검출을 수행하므로, 정확하고 신속하게 얼굴 키 포인트를 검출하는 기술을 제공할 수 있다.

본 문서에서 이루고자 하는 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

일 실시예에 따른 전자 장치는 인스트럭션들을 포함하는 메모리, 및 상기 메모리와 전기적으로 연결되고, 상기 인스트럭션들을 실행하기 위한 프로세서를 포함하고, 상기 프로세서에 의해 상기 인스트럭션들이 실행될 때, 상기 프로세서는, 얼굴 이미지에 기초하여 제1 히트 맵 특징(heat map feature) 및 제1 좌표 값 특징(coordinate value feature)을 획득하고, 상기 제1 히트 맵 특징 및 상기 제1 좌표 값 특징에 기초하여 얼굴 키 포인트를 검출할 수 있다.

상기 프로세서는, 상기 제1 좌표 값 특징이 히트 맵 특징의 형식으로 변환된 제1 변환 히트 맵 특징(transformation heat map feature)과 상기 제1 히트 맵 특징을 융합(fuse)하여, 제1 융합 히트 맵 특징(fusion heat map feature)을 생성하고, 상기 제1 히트 맵 특징이 좌표 값 특징의 형식으로 변환된 제1 변환 좌표 값 특징과 상기 제1 좌표 값 특징을 융합하여, 제1 융합 좌표 값 특징을 생성하고, 상기 제1 융합 히트 맵 특징 및 상기 제1 융합 좌표 값 특징에 기초하여 상기 얼굴 키 포인트를 검출할 수 있다.

상기 프로세서는, 상기 제1 융합 히트 맵 특징에 기초하여 상기 얼굴 키 포인트의 히트 맵을 획득하고, 상기 제1 융합 좌표 값 특징에 기초하여 상기 얼굴 키 포인트의 좌표 값 정보를 획득하고, 상기 얼굴 키 포인트의 히트 맵 및 상기 얼굴 키 포인트의 좌표 값 정보에 기초하여 상기 얼굴 키 포인트의 좌표를 획득함으로써 상기 얼굴 키 포인트를 검출할 수 있다.

상기 프로세서는, 상기 얼굴 키 포인트의 히트 맵에 대응하는 좌표 및 상기 얼굴 키 포인트의 좌표 값 정보에 대응하는 좌표에 대하여 우선 출력(preferential output), 산술 평균 연산, 또는 가중 평균 연산 중 하나를 수행함으로써 상기 얼굴 키 포인트의 좌표를 획득할 수 있다.

상기 프로세서는, 상기 제1 융합 히트 맵 특징에 기초하여 제2 히트 맵 특징을 획득하고, 상기 제1 융합 좌표 값 특징에 기초하여 제2 좌표 값 특징을 획득하고, 상기 제2 좌표 값 특징이 히트 맵 특징의 형식으로 변환된 제2 변환 히트 맵 특징과 상기 제2 히트 맵 특징을 융합하여, 제2 융합 히트 맵 특징을 생성하고, 상기 제2 히트 맵 특징이 좌표 값 특징의 형식으로 변환된 제2 변환 히트 맵 특징과 상기 제2 좌표 값 특징을 융합하여, 제2 융합 좌표 값 특징을 생성하고, 상기 제2 융합 히트 맵 특징 및 상기 제2 융합 좌표 값 특징에 기초하여 상기 얼굴 키 포인트를 검출할 수 잇다.

상기 프로세서는, 상기 제2 융합 히트 맵 특징에 기초하여 상기 얼굴 키 포인트의 히트 맵을 획득하고, 상기 제2 융합 좌표 값 특징에 기초하여 상기 얼굴 키 포인트의 좌표 값 정보를 획득하고, 상기 얼굴 키 포인트의 히트 맵 및 상기 얼굴 키 포인트의 좌표 값 정보에 기초하여 상기 얼굴 키 포인트의 좌표를 출력함으로써 상기 얼굴 키 포인트를 검출할 수 있다.

상기 프로세서는, 상기 얼굴 이미지에 기초하여 상기 얼굴의 일반적 특징(generic feature)에 대 한 정보를 포함하는 제1 특징을 획득하고, 상기 제1 특징에 기초하여, 상기 제1 히트 맵 특징과 연관된 제2 특징 및 상기 제1 좌표 값 특징과 연관된 제3 특징을 획득하고, 상기 제2 특징에 기초하여 상기 제1 히트 맵 특징을 획득하고, 상기 제3 특징에 기초하여 상기 제1 좌표 값 특징을 획득할 수 있다.

상기 프로세서는, 상기 제1 특징에 대하여 해상도 세그먼테이션, 채널 세그먼테이션, 또는 복제 중 하나를 수행하고, 수행 결과에 기초하여 상기 제2 특징 및 상기 제3 특징을 획득할 수 있다.

상기 프로세서는, 경량화된 뉴럴 네트워크(lightweight neural networks) 기반 히트 맵 회귀 모델 및 경량화된 뉴럴 네트워크 기반 좌표 값 회귀 모델에 기초하여 상기 얼굴 키 포인트를 검출할 수 있다.

상기 프로세서는, 상기 제1 변환 히트 맵 특징 및 상기 제1 히트 맵 특징에 대하여 요소 레벨 곱셈(element level multiplication), 요소 레벨 덧셈, 채널 스플라이싱, 또는 픽셀 스플라이싱을 수행함으로써 상기 제1 융합 히트 맵 특징을 생성하고, 상기 제1 변환 좌표 값 특징 및 상기 제1 좌표 값 특징에 대하여 요소 레벨 곱셈, 요소 레벨 덧셈, 채널 스플라이싱, 또는 픽셀 스플라이싱을 수행함으로써 상기 제1 융합 좌표 값 특징을 생성할 수 있다.

일 실시예에 따른 전자 장치의 동작 방법은 얼굴 이미지에 기초하여 제1 히트 맵 특징 및 제1 좌표 값 특징을 획득하는 동작, 및 상기 제1 히트 맵 특징 및 상기 제1 좌표 값 특징에 기초하여 얼굴 키 포인트를 검출하는 동작을 포함할 수 있다.

상기 검출하는 동작은, 상기 제1 좌표 값 특징이 히트 맵 특징의 형식으로 변환된 제1 변환 히트 맵 특징과 상기 제1 히트 맵 특징을 융합하여, 제1 융합 히트 맵 특징을 생성하는 동작, 상기 제1 히트 맵 특징이 좌표 값 특징의 형식으로 변환된 제1 변환 좌표 값 특징과 상기 제1 좌표 값 특징을 융합하여, 제1 융합 좌표 값 특징을 생성하는 동작, 및 상기 제1 융합 히트 맵 특징 및 상기 제1 융합 좌표 값 특징에 기초하여 상기 얼굴 키 포인트를 검출하는 동작을 포함할 수 있다.

상기 제1 융합 히트 맵 특징 및 상기 제1 융합 좌표 값 특징에 기초하여 상기 얼굴 키 포인트를 검출하는 동작은, 상기 제1 융합 히트 맵 특징에 기초하여 상기 얼굴 키 포인트의 히트 맵을 획득하는 동작, 상기 제1 융합 좌표 값 특징에 기초하여 상기 얼굴 키 포인트의 좌표 값 정보를 획득하는 동작, 및 상기 얼굴 키 포인트의 히트 맵 및 상기 얼굴 키 포인트의 좌표 값 정보에 기초하여 상기 얼굴 키 포인트의 좌표를 획득함으로써 상기 얼굴 키 포인트를 검출하는 동작을 포함할 수 있다.

상기 얼굴 키 포인트의 좌표를 획득함으로써 상기 얼굴 키 포인트를 검출하는 동작은, 상기 얼굴 키 포인트의 히트 맵에 대응하는 좌표 및 상기 얼굴 키 포인트의 좌표 값 정보에 대응하는 좌표에 대하여 우선 출력(preferential output), 산술 평균 연산, 또는 가중 평균 연산 중 하나를 수행함으로써 상기 얼굴 키 포인트의 좌표를 획득하는 동작을 포함할 수 있다.

상기 제1 융합 히트 맵 특징 및 상기 제1 융합 좌표 값 특징에 기초하여 상기 얼굴 키 포인트를 검출하는 동작은, 상기 제1 융합 히트 맵 특징에 기초하여 제2 히트 맵 특징을 획득하는 동작, 상기 제1 융합 좌표 값 특징에 기초하여 제2 좌표 값 특징을 획득하는 동작, 상기 제2 좌표 값 특징이 히트 맵 특징의 형식으로 변환된 제2 변환 히트 맵 특징과 상기 제2 히트 맵 특징을 융합하여, 제2 융합 히트 맵 특징을 생성하는 동작, 상기 제2 히트 맵 특징이 좌표 값 특징의 형식으로 변환된 제2 변환 히트 맵 특징과 상기 제2 좌표 값 특징을 융합하여, 제2 융합 좌표 값 특징을 생성하는 동작, 및 상기 제2 융합 히트 맵 특징 및 상기 제2 융합 좌표 값 특징에 기초하여 상기 얼굴 키 포인트를 검출하는 동작을 포함할 수 있다.

상기 제2 융합 히트 맵 특징 및 상기 제2 융합 좌표 값 특징에 기초하여 상기 얼굴 키 포인트를 검출하는 동작은, 상기 제2 융합 히트 맵 특징에 기초하여 상기 얼굴 키 포인트의 히트 맵을 획득하는 동작, 상기 제2 융합 좌표 값 특징에 기초하여 상기 얼굴 키 포인트의 좌표 값 정보를 획득하는 동작, 및 상기 얼굴 키 포인트의 히트 맵 및 상기 얼굴 키 포인트의 좌표 값 정보에 기초하여 상기 얼굴 키 포인트의 좌표를 출력함으로써 상기 얼굴 키 포인트를 검출하는 동작을 포함할 수 있다.

상기 획득하는 동작은, 상기 얼굴 이미지에 기초하여 상기 얼굴의 일반적 특징(generic feature)에 대 한 정보를 포함하는 제1 특징을 획득하는 동작, 상기 제1 특징에 기초하여, 상기 제1 히트 맵 특징과 연관된 제2 특징 및 상기 제1 좌표 값 특징과 연관된 제3 특징을 획득하는 동작, 상기 제2 특징에 기초하여 상기 제1 히트 맵 특징을 획득하는 동작, 및 상기 제3 특징에 기초하여 상기 제1 좌표 값 특징을 획득하는 동작을 포함할 수 있다.

상기 제1 특징에 기초하여, 상기 제1 히트 맵 특징과 연관된 제2 특징 및 상기 제1 좌표 값 특징과 연관된 제3 특징을 획득하는 동작은, 상기 제1 특징에 대하여 해상도 세그먼테이션, 채널 세그먼테이션, 또는 복제 중 하나를 수행하는 동작, 및 수행 결과에 기초하여 상기 제2 특징 및 상기 제3 특징을 획득하는 동작을 포함할 수 있다.

상기 얼굴 키 포인트는, 경량화된 뉴럴 네트워크(lightweight neural networks) 기반 히트 맵 회귀 모델 및 경량화된 뉴럴 네트워크 기반 좌표 값 회귀 모델에 기초하여 검출된 것일 수 있다.

상기 제1 융합 히트 맵 특징(fusion heat map feature)을 생성하는 동작은, 상기 제1 변환 히트 맵 특징 및 상기 제1 히트 맵 특징에 대하여 요소 레벨 곱셈(element level multiplication), 요소 레벨 덧셈, 채널 스플라이싱, 또는 픽셀 스플라이싱을 수행함으로써 상기 제1 융합 히트 맵 특징을 생성하는 동작을 포함하고, 상기 제1 융합 좌표 값 특징을 생성하는 동작은, 상기 제1 변환 좌표 값 특징 및 상기 제1 좌표 값 특징에 대하여 요소 레벨 곱셈, 요소 레벨 덧셈, 채널 스플라이싱, 또는 픽셀 스플라이싱을 수행함으로써 상기 제1 융합 좌표 값 특징을 생성하는 동작을 포함할 수 있다.

도 1은 일 실시예에 따른, 얼굴 키 포인트를 검출하는 전자 장치의 개략적인 블록도이다.
도 2는 뉴럴 네트워크 기반 얼굴 키 포인트 추출 모델의 일 예이다.
도 3은 도 2에 도시된 특징 융합 모델의 동작을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른, 얼굴 키포인트를 검출하는 동작의 흐름도이다.
도 5는 제1 히트맵 특징 및 제1 좌표 값 특징에 기초하여 얼굴 키포인트를 검출하는 동작의 흐름도이다.
도 6은 제1 융합 히트 맵 특징 및 제1 융합 좌표 값 특징에 기초하여 얼굴 키 포인트를 검출하는 동작의 흐름도이다.
도 7은 제2 융합 히트 맵 특징 및 제2 융합 좌표 값 특징에 기초하여 얼굴 키 포인트를 검출하는 동작의 흐름도이다.

이하, 구체적인 실시예들은 본문에 설명된 방법, 장치, 및/또는 시스템에 대한 독자의 포괄적인 이해를 위해 제공된다. 본 출원의 개시가 이해된 후, 본 명세서에 기재된 방법, 장치, 및/또는 시스템의 다양한 변경, 수정, 및 균등물은 또한 명확해질 것이다. 본 명세서에서 설명되는 동작의 순서는 예시일 뿐이며, 이에 한정되지 않으며, 특정한 순서로 수행되어야 하는 동작을 제외하고는 순서가 변경될 수 있다. 또한, 보다 명확하고 간결하게 하기 위하여, 본 기술분야에 알려진 특징에 대한 설명은 생략될 수 있다.

본문에 설명된 특징은 다른 형태로 구현될 수 있으며, 본문에 설명된 예시에 제한되는 것으로 해석되어서는 안 된다. 반대로, 본문에 설명된 예시는 본문에 설명된 방법, 장치 및/또는 시스템을 구현하는 많은 가능한 방법 중 일부만을 보여주기 위해 제공되었으며, 상기 많은 가능한 방법은 본 출원의 개시를 이해한 후 명확해질 것이다.

본 명세서에 사용된 바와 같이, 용어 "및/또는"은 관련된 나열된 항목 중 임의의 하나 및 임의의 둘 이상의 임의의 조합을 포함한다.

본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나", 및 "A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다

"제1", "제2" 및 "제3"과 같은 용어가 다양한 부재, 요소, 영역, 층, 또는 부분을 설명하기 위해 여기에서 사용될 수 있지만, 부재, 요소, 영역, 층, 또는 부분은 이러한 용어(예: "제1", "제2" 및 "제3"과 같은 용어)에 의해 제한되어서는 안 된다. "제1", "제2" 및 "제3"과 같은 용어는 하나의 부재, 요소, 영역, 층, 또는 부분을 다른 부재, 요소, 영역, 층 또는 부분과 구별하는 데만 사용된다. 따라서, 예시의 교시를 벗어나지 않는 선에서, 본 명세서에 기재된 예시에서 언급된 제1 부재, 제1 요소, 제1 영역, 제1 층, 또는 제1 부분은 제2 부재, 제2 요소, 제2 영역, 제2 층, 또는 제2 부분으로도 지칭될 수 있다.

명세서에서, 요소(예, 층, 영역, 또는 기판)가 다른 요소 위에 "존재"하거나, 다른 요소에 "연결" 또는 "결합"된 것으로 설명될 때, 해당 요소는 다른 요소 위에 직접 "존재"하거나, 다른 요소에 직접 "연결" 또는 "결합"될 수 있고, 또는 그 사이에 하나 이상의 다른 요소가 존재할 수 있다. 반대로, 요소가 다른 요소 위에 "직접 존재"하거나, 다른 요소에 "직접 연결" 또는 "직접 결합"된 것으로 설명될 때, 그 사이에는 다른 요소가 없을 수 있다.

본문에서 사용된 용어는 단지 다양한 예시를 설명하기 위해 사용된 것으로, 개시를 제한하기 위해 사용된 것은 아니다. 문맥에서 명확하게 달리 나타내지 않는 한, 단수 형태는 복수 형태를 포함하도록 의도된다. "포함하다", "포괄하다" 및 "갖다"라는 용어는 설명된 특징, 수량, 작업, 구성 요소, 요소, 및/또는 이들의 조합의 존재를 설명하지만, 하나 이상의 다른 특징, 수량, 작업, 구성 요소, 요소, 및/또는 이들의 조합의 존재 또는 추가를 배제하지 않는다.

다른 정의가 없는 한, 본문에서 사용되는 모든 용어(기술 용어 및 과학 용어 포함)는 본 발명이 속한 기술 분야에서 통상의 지식을 가진 자가 본 개시를 이해한 후 일반적으로 이해하는 것과 동일한 의미를 갖는다. 본문에서 명시적으로 정의되지 않는 한, 용어(예: 일반 사전에 정의된 용어)는 해당 분야의 맥락 및 본 개시 내용에서 그 의미와 일치하는 의미를 갖는 것으로 해석되어야 한다.

또한, 실시예를 설명함에 있어서, 공지된 관련 구조 또는 기능에 대한 구체적인 설명이 본 발명의 설명을 모호하게 할 수 있다고 판단되는 경우, 그 상세 설명을 생략하기로 한다.

이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.

본 발명의 이해를 돕기 위해, 먼저 얼굴 키 포인트 검출 기술에 대해 설명한다.

얼굴 키 포인트 검출 기술의 전환점은 2013년으로, 2013년 이전의 얼굴 키 포인트 검출 기술은 전통적인 이미지 처리 기술을 기반으로 하였다. 2013년부터 얼굴 키 포인트 검출 분야에 딥 러닝 기술이 도입되었고, 얼굴 키 포인트 검출 성능은 빠르게 발전하였다.

얼굴 키 포인트 검출 기술은 활동적 형태 모델(Active shape model), 활성 외관 모델(Active appearance model), 계단식 포즈 회귀(Cascaded pose regression) 등을 포함할 수 있다. 이러한 기술을 통해 특정 조건에서 얼굴 키 포인트를 검출하는 경우 좋은 결과를 얻을 수 있지만, 특정 조건이 만족되지 않는 경우(예: 환경 제한 없이 촬영한 사진을 이용하는 경우) 견고성이 결여된 결과를 얻을 수 있다.

딥 러닝 기반의 검출 기술은 좌표 회귀(coordinate regression)와 히트 맵 회귀(heat map regression)의 두 가지 범주로 나뉠 수 있다. 뉴럴 네트워크 기반 좌표 회귀 기술은 얼굴 이미지를 입력 받아 키 포인트의 좌표를 직접 출력한다. 좌표 회귀 기술은 추론 시간이 빠르다는 장점이 있다. 뉴럴 네트워크 기반 히트 맵 회귀 기술은 얼굴 이미지를 입력 받아 복수의 히트 맵을 출력한다. 하나의 히트 맵은 하나의 키 포인트에 대응하고, 키 포인트의 위치는 히트 맵에서 가장 "핫"한 포인트의 위치일 수 있다. 뉴럴 네트워크 기반 히트 맵 회귀 기술은 검출 정확도가 높다는 장점이 있다.

높은 정확성, 빠른 추론 능력, 및 우수한 견고성을 가진 얼굴 키 포인트 검출 기술이 요구되고 있다. 좌표 회귀 기술은 견고성이 좋고 추론이 빠르며 실시간 응용 프로그램에 사용될 수 있는 장점이 있지만, 검출 정확도가 떨어진다는 단점이 있다. 예를 들어, 좌표 회귀 기술의 추론 속도는 실시간 레벨(예: 30fps 초과)에 도달할 수 있으며, 좌표 회귀 기술의 정확도는 300W 데이터 세트의 검증 세트에서 3.40% 초과(낮을수록 좋음)일 수 있다. 히트 맵 회귀 기술은 검출 정확도가 높다는 장점이 있지만, 느린 추론 속도(예: 20fps 미만) 때문에 실시간 레벨에 도달할 수 없고, 견고성이 떨어지며, 실제 적용에 사용하기 어렵다.

일 실시예에 따른 얼굴 키 포인트 검출 방법은 얼굴 이미지에 기초하여 추출된 히트 맵 특징 및 좌표 값 특징을 동시에 사용하여 얼굴 키 포인트 검출을 수행하므로, 높은 검출 정확도 및 빠른 추론 속도를 가질 수 있다.

도 1은 일 실시예에 따른, 얼굴 키 포인트를 검출하는 전자 장치의 개략적인 블록도이다.

전자 장치(100)는 얼굴 이미지에 기초하여 획득된 히트 맵 특징 및 좌표 값 특징을 동시에 사용하여 얼굴 키 포인트 검출을 수행함으로써 정확하고 신속하게 얼굴 키 포인트를 검출할 수 있다. 히트 맵은 얼굴 키 포인트의 위치에 대한 정보를 포함하고, 히트 맵 특징은 얼굴 키 포인트의 히트 맵에 대한 정보를 포함하는 것일 수 있다. 좌표 값 특징은 얼굴 키 포인트의 좌표에 대한 정보를 포함하는 것일 수 있다.

전자 장치(100)는 다양한 특징 획득 방법(예: 특징 분리 방법)을 이용함으로써 얼굴 키 포인트 검출 상황에 적합한 특징을 획득할 수 있다.

전자 장치(100)는 일반적 특징 추출 모델을 이용함으로써 히트 맵 특징 및 좌표 값 특징을 추출하는데 필요한 연산량을 절감할 수 있고 좋은 실시간 성능을 가질 수 있다.

전자 장치(100)는 융합 히트 맵 특징 및 융합 좌표 값 특징에 기초하여 얼굴 키 포인트를 검출하므로, 높은 검출 정확도 및/또는 우수한 실시간 성능을 실현할 수 있다. 융합 히트 맵 특징은 히트 맵 특징에 대응하는 특징 정보 및 좌표 값 특징(예: 히트 맵 특징의 형식으로 변환된 좌표 값 특징)에 대응하는 특징 정보를 포함하는 것일 수 있다. 융합 좌표 값 특징은 좌표 값 특징에 대응하는 특징 정보 및 히트 맵 특징(예: 좌표 값 특징의 형식으로 변환된 히트 맵 특징)에 대응하는 특징 정보를 포함하는 것일 수 있다.

전자 장치(100)는 히트 맵 특징 및 좌표 값 특징의 추출 동작을 여러 번 수행하고, 히트 맵 특징과 좌표 값 특징의 융합 동작을 여러 번 수행함으로써 서로 다른 스케일을 갖는 특징 정보를 이용할 수 있다. 전자 장치(100)는 복수의 융합 특징에 기초하여 얼굴 키 포인트를 검출함으로써 더욱 향상된 검출 정확도 및 실시간 성능을 가질 수 있다.

전자 장치(100)는 특징 멀티모드 멀티 스케일 융합 모델, 좌표 값 회귀 모델, 및 히트 맵 회귀 모델을 사용함으로써 얼굴 이미지의 특징을 전역적으로 반영할 수 있고, 향상된 견고성을 가질 수 있다.

전자 장치(100)는 경량화된 뉴럴 네트워크(lightweight neural networks) 기반 히트 맵 회귀 모델 및 경량화된 뉴럴 네트워크 기반 좌표 값 회귀 모델을 이용함으로써 추론 속도를 향상시킬 수 있고, 전체 네트워크의 실행 속도를 향상시킬 수 있다.

전자 장치(100)는 프로세서(110) 및 메모리(130)를 포함할 수 있다.

프로세서(110)는 메모리(130)에 저장된 데이터를 처리할 수 있다. 프로세서(110)는 메모리(130)에 저장된 컴퓨터로 읽을 수 있는 코드(예: 소프트웨어) 및 프로세서(110)에 의해 유발된 인스트럭션(instruction)들을 실행할 수 있다.

프로세서(110)는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 데이터 처리 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 인스트럭션들(instructions)을 포함할 수 있다.

예를 들어, 하드웨어로 구현된 데이터 처리 장치는 마이크로프로세서(microprocessor), 중앙 처리 장치(central processing unit), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array)를 포함할 수 있다.

프로세서(110)는 얼굴 이미지에 기초하여 히트 맵 특징(heat map feature) 및 좌표 값 특징(coordinate value feature)을 획득하고, 히트 맵 특징 및 좌표 값 특징에 기초하여 얼굴 키 포인트를 검출할 수 있다. 프로세서(110)의 얼굴 키 포인트 검출 동작은 도 2 및 도 3을 참고하여 자세히 설명하도록 한다.

메모리(130)는 연산을 위한 데이터 또는 연산 결과를 저장할 수 있다. 메모리(130)는 프로세서(110)에 의해 실행가능한 인스트럭션들(또는 프로그램)을 저장할 수 있다. 예를 들어, 인스트럭션들은 프로세서(110)의 동작 및/또는 프로세서(110)의 각 구성의 동작을 실행하기 위한 인스트럭션들을 포함할 수 있다.

메모리(130)는 휘발성 메모리 장치 또는 비휘발성 메모리 장치로 구현될 수 있다.

휘발성 메모리 장치는 DRAM(dynamic random access memory), SRAM(static random access memory), T-RAM(thyristor RAM), Z-RAM(zero capacitor RAM), 또는 TTRAM(Twin Transistor RAM)으로 구현될 수 있다.

비휘발성 메모리 장치는 EEPROM(Electrically Erasable Programmable Read-Only Memory), 플래시(flash) 메모리, MRAM(Magnetic RAM), 스핀전달토크 MRAM(Spin-Transfer Torque(STT)-MRAM), Conductive Bridging RAM(CBRAM), FeRAM(Ferroelectric RAM), PRAM(Phase change RAM), 저항 메모리(Resistive RAM(RRAM)), 나노 튜브 RRAM(Nanotube RRAM), 폴리머 RAM(Polymer RAM(PoRAM)), 나노 부유 게이트 메모리(Nano Floating Gate Memory(NFGM)), 홀로그래픽 메모리(holographic memory), 분자 전자 메모리 소자(Molecular Electronic Memory Device), 또는 절연 저항 변화 메모리(Insulator Resistance Change Memory)로 구현될 수 있다.

메모리(130)는 데이터를 저장할 수 있다. 메모리(130)는 얼굴 이미지를 저장할 수 있다.

이하에서는 프로세서(110)의 얼굴 키 포인트 검출 동작에 대하여 자세히 설명하도록 한다.

도 2는 뉴럴 네트워크 기반 얼굴 키 포인트 추출 모델의 일 예이다.

도 2를 참조하면, 프로세서(예: 도 1의 프로세서(110))는 얼굴 이미지(201)에 기초하여 얼굴 키 포인트를 검출할 수 있다. 프로세서(110)는 얼굴 키 포인트를 포함하는 얼굴 이미지(202)를 출력할 수 있다. 얼굴 이미지는 얼굴의 전부 또는 하나 이상의 부분(예: 눈, 코, 눈썹, 입 및/또는 얼굴 등)을 포함하는 이미지일 수 있다. 얼굴 이미지(201)는 메모리(예: 도 1의 메모리(130))에 저장된 것일 수 있다. 얼굴 이미지(201)는 다양한 다른 방식으로 획득될 수 있다. 얼굴 키 포인트는 얼굴의 부분(예: 눈, 코, 눈썹, 입 및/또는 얼굴 등) 및 부분 간의 경계를 의미하는 것일 수 있다. 전자 장치(100)는 얼굴 이미지에 기초하여 획득된 히트 맵 특징 및 좌표 값 특징을 동시에 사용하여 얼굴 키 포인트 검출을 수행함으로써 정확하고 신속하게 얼굴 키 포인트를 검출할 수 있다.

프로세서(110)는 일반적 특징 추출 모델(210)(general feature extraction model)에 기초하여 얼굴 이미지(201)로부터 제1 특징(예: 얼굴의 일반적 특징에 대한 정보를 포함하는 제1 특징)을 획득할 수 있다. 제1 특징은 히트 맵 특징 및 좌표 값 특징을 추출하는데 사용될 수 있다. 전자 장치(100)는 일반적 특징 추출 모델(201)을 이용함으로써 히트 맵 특징 및 좌표 값 특징을 추출하는데 필요한 연산량을 절감할 수 있고 좋은 실시간 성능을 가질 수 있다.

프로세서(110)는 특징 분리 모델(220)(feature separation model)에 기초하여 제1 특징으로부터 제2 특징 및 제3 특징을 획득할 수 있다. 제2 특징은 히트 맵 특징과 연관된 것일 수 있고, 제3 특징은 좌표 값 특징과 연관된 것일 수 있다. 프로세서(110)는 제1 특징에 대하여 해상도 세그먼테이션(resolution segmentation), 채널 세그먼테이션(channel segmentation), 또는 복제(replication) 중 하나를 수행하고, 수행 결과에 기초하여 제2 특징 및 제3 특징을 획득할 수 있다. 예를 들어, 프로세서(110)가 제1 특징에 대하여 복제를 수행한 경우 제2 특징은 제3 특징과 동일할 수 있다. 전자 장치(100)는 다양한 특징 획득 방법(예: 특징 분리 방법)을 이용함으로써 얼굴 키 포인트 검출 상황에 적합한 특징을 획득할 수 있다

프로세서(110)는 경량화된 뉴럴 네트워크 기반 히트 맵 회귀 모델(230)(lightweight neural networks based heat map regression model)에 포함된 제1 히트 맵 특징 추출 모델(230-1)에 기초하여 제2 특징으로부터 제1 히트 맵 특징을 획득할 수 있다. 프로세서(110)는 경량화된 뉴럴 네트워크 기반 좌표 값 회귀 모델(240) (lightweight neural networks based coordinate value regression model)에 포함된 제1 좌표 값 특징 추출 모델(240-1)에 기초하여 제3 특징으로부터 제1 좌표 값 특징을 획득할 수 있다. 뉴럴 네트워크의 경량화는 뉴럴 네트워크의 매개변수 규모를 줄여 연산량을 줄이는 기술을 의미한다. 전자 장치(100)는 경량화된 뉴럴 네트워크 기반 히트 맵 회귀 모델(230) 및 경량화된 뉴럴 네트워크 기반 좌표 값 회귀 모델(240)을 이용함으로써 추론 속도를 향상시킬 수 있고, 전체 네트워크의 실행 속도를 향상시킬 수 있다.

프로세서(110)는 제1 특징 멀티모드 멀티스케일 융합 모델(250-1)(features multimode multiscale fusion model)에 포함된 제1 특징 융합 모델(251-1)에 기초하여, 제1 융합 히트 맵 특징(fusion heat map feature)을 생성할 수 있다. 제1 융합 히트 맵 특징은 제1 좌표 값 특징이 히트 맵 특징의 형식으로 변환된 제1 변환 히트 맵 특징(transformation heat map feature)과 제1 히트 맵 특징이 융합하여 생성된 것일 수 있다. 히트 맵 특징의 형식은 히트 맵 특징에 대응하는 데이터 형식을 나타낼 수 있고, 제1 변환 히트 맵 특징은 히트 맵 특징과 매칭되는 데이터 형식을 가질 수 있다. 프로세서(110)는 제1 변환 히트 맵 특징 및 제1 히트 맵 특징에 대하여 요소 레벨 곱셈(element level multiplication), 요소 레벨 덧셈, 채널 스플라이싱(channel splicing), 또는 픽셀 스플라이싱을 수행함으로써 제1 융합 히트 맵 특징을 생성할 수 있다. 제1 융합 히트 맵 특징은 제1 히트 맵 특징에 대응하는 특징 정보 및 제1 좌표 값 특징(예: 히트 맵 특징의 형식으로 변환된 제1 좌표 값 특징)에 대응하는 특징 정보를 포함하는 것일 수 있다.

프로세서(110)는 제1 특징 멀티모드 멀티스케일 융합 모델(250-1)에 포함된 제1 특징 융합 모델(251-1)에 기초하여, 제1 융합 좌표 값 특징을 생성할 수 있다. 제1 융합 좌표 값 특징은 제1 히트 맵 특징이 좌표 값 특징의 형식으로 변환된 제1 변환 좌표 값 특징과 제1 좌표 값 특징이 융합하여 생성된 것일 수 있다. 좌표 값 특징의 형식은 좌표 값 특징에 대응하는 데이터 형식을 나타낼 수 있고, 제1 변환 좌표 값 특징은 좌표 값 특징과 매칭되는 데이터 형식을 가질 수 있다. 프로세서(110)는 제1 변환 좌표 값 특징 및 제1 좌표 값 특징에 대하여 요소 레벨 곱셈(element level multiplication), 요소 레벨 덧셈, 채널 스플라이싱, 또는 픽셀 스플라이싱을 수행함으로써 제1 융합 좌표 값 특징을 생성할 수 있다. 제1 융합 좌표 값 특징은 제1 좌표 값 특징에 대응하는 특징 정보 및 제1 히트 맵 특징(예: 좌표 값 특징의 형식으로 변환된 제1 히트 맵 특징)에 대응하는 특징 정보를 포함하는 것일 수 있다.

프로세서(110)는, 예를 들어, 채널 스플라이싱을 수행할 수 있다. 채널 스플라이싱은 수학식 1을 통해 표현될 수 있다.

[수학식 1]

수학식 1에서,

는 히트 맵 특징,

는 좌표 값 특징이고,

는

의 i번째 특징이고,

는 해상도이고,

는

의 i번째 특징이고,

는 변환 좌표 값 특징,

는 변환 히트 맵 특징이고,

는

에서

로의 매핑을 나타내며 히트 맵 특징을 좌표 값 특징의 형식으로 변환하는데 사용되며,

는

에서

로의 매핑을 나타내며 좌표 값 특징을 히트 맵 특징의 형식으로 변환하는데 사용되며,

는 융합 히트 맵의 특징,

는 융합 좌표 값 특징이며,

는 채널 스플라이싱 연산자이다. 그러나, 상기 예시는 예시일 뿐이며, 융합 특징을 획득하는 방법은 채널 스플라이싱에 한정되지 않는다. 전자 장치(100)는 융합 히트 맵 특징 및 융합 좌표값 특징을 기반으로 얼굴 키 포인트를 검출하므로, 높은 검출 정확도 및/또는 우수한 실시간 성능을 실현할 수 있다.

프로세서(110)는 경량화된 뉴럴 네트워크 기반 히트 맵 회귀 모델(230)에 포함된 제2 히트 맵 특징 추출 모델(230-2)에 기초하여 제1 융합 히트 맵 특징으로부터 제2 히트 맵 특징을 획득할 수 있다. 프로세서(110)는 경량화된 뉴럴 네트워크 기반 좌표 값 회귀 모델(240)에 포함된 제2 좌표 값 특징 추출 모델(240-1)에 기초하여 제1 융합 좌표 값 특징으로부터 제2 좌표 값 특징을 획득할 수 있다. 제2 히트 맵 특징 및 제2 좌표 값 특징을 획득하는 방법은 제1 히트 맵 특징 및 제1 좌표 값 특징을 획득하는 방법과 유사할 수 있다. 따라서 편의상 제2 히트 맵 특징 및 제2 좌표 값 특징을 획득하는 방법에 대한 구체적인 설명은 생략한다.

프로세서(110)는 제2 특징 멀티모드 멀티스케일 융합 모델(250-2)에 포함된 제2 특징 융합 모델(251-2)에 기초하여, 제2 융합 히트 맵 특징 및 제2 융합 좌표 값 특징을 생성할 수 있다. 제2 융합 히트 맵 특징 및 제2 융합 좌표 값 특징을 생성하는 방법은 제1 융합 히트 맵 특징 및 제1 융합 좌표 값 특징을 생성하는 방법과 유사할 수 있다. 따라서 편의상 제2 융합 히트 맵 특징 및 제2 융합 좌표 값 특징을 생성하는 방법에 대한 구체적인 설명은 생략한다.

프로세서(110)는 필요에 따라 제n 히트 맵 특징 및 제n 좌표 값 특징에 기초하여 제n 융합 히트 맵 특징 및 제n 융합 좌표 값 특징을 획득할 수 있으며, 제n 융합 히트 맵 특징 및 제n 융합 좌표 값 특징에 기초하여 얼굴의 키 포인트를 검출할 수 있다(n은 1 이상의 정수). 전자 장치(100)는 히트 맵 특징 및 좌표 값 특징의 추출 동작을 여러 번 수행하고, 히트 맵 특징과 좌표 값 특징의 융합 동작을 여러 번 수행함으로써 서로 다른 스케일을 갖는 특징 정보를 이용할 수 있다. 전자 장치(100)는 복수의 융합 특징에 기초하여 얼굴 키 포인트를 검출함으로써 더욱 향상된 검출 정확도 및 실시간 성능을 가질 수 있다.

프로세서(110)는 키 포인트 멀티모드 융합 모델(260)에 포함된 히트 맵 출력 모델(261)에 기초하여 제n 융합 히트 맵 특징으로부터 얼굴 키 포인트의 히트 맵을 획득할 수 있다. 프로세서(110)는 키 포인트 멀티모드 융합 모델(260)에 포함된 좌표 값 정보 출력 모델(262)에 기초하여 제n 융합 좌표 값 특징으로부터 얼굴 키 포인트의 좌표 값 정보를 획득할 수 있다. 프로세서(110)는 결과 융합 모델(263)에 기초하여, 얼굴 키 포인트의 히트 맵에 대응하는 좌표 및 얼굴 키 포인트의 좌표 값 정보에 대응하는 좌표에 대하여 우선 출력(preferential output), 산술 평균 연산, 또는 가중 평균 연산 중 하나를 수행함으로써 얼굴 키 포인트의 좌표를 획득할 수 있다.

프로세서(110)는 얼굴 키 포인트의 히트 맵에 대응하는 키 포인트 좌표와 얼굴 키 포인트의 좌표 값 정보에 대응하는 키 포인트 좌표 중 하나를 우선적으로 출력할 수 있다. 프로세서(110)는 얼굴 키 포인트의 히트 맵에 대응하는 키 포인트 좌표와 얼굴 키 포인트의 좌표 값 정보에 대응하는 키 포인트 좌표의 산술 평균 연산을 수행할 수 있다. 프로세서(110)는 얼굴 키 포인트의 히트 맵에 대응하는 키 포인트 좌표와 얼굴 키 포인트의 좌표 값 정보에 대응하는 키 포인트 좌표의 가중 평균 연산을 수행할 수 있다.

프로세서(110)는, 예를 들어, 가중 평균 연산을 수행할 수 있다. 가중 평균 연산은 수학식 2를 통해 표현될 수 있다.

[수학식 2]

수학식 2에서,

는 i번째 히트 맵에 대응하는 좌표(예: i번째 키 포인트의 좌표)이고,

는 i번째 좌표 값 정보에 대응하는 좌표(예: i번째 키 포인트의 좌표)이고,

는 i번째 키 포인트의 실측 좌표이고,

는 얼굴의 왼쪽 눈과 오른쪽 눈의 양끝(canthus) 사이의 유클리드 거리이고,

는 i번째 히트 맵에 대응하는 i번째 키 포인트의 오차이고,

는 i번째 좌표 값 정보에 대응하는 i번째 키 포인트의 오차이고,

는 i번째 좌표 값 정보에 대응하는 i번째 키 포인트의 가중치이고,

는 i번째 히트 맵에 대응하는 i번째 키 포인트의 가중치이고,

는 i번째 히트 맵에 대응하는 좌표(예: i번째 키 포인트의 좌표),

는 i번째 좌표 값에 대응하는 좌표(예: i번째 키 포인트의 좌표)이고,

는 i번째 키 포인트에 관한 최종 출력 결과(예: 최종 예측 좌표)이며, 또한 네트워크의 최종 출력이다.

프로세서(110)는 수학식 2의 가중치(예:

,

)를 1로 설정함으로써, 산술 평균 연산을 수행할 수도 있다. 전자 장치(100)는 특징 멀티모드 멀티 스케일 융합 모델, 좌표 값 회귀 모델, 및 히트 맵 회귀 모델을 사용함으로써 얼굴 이미지의 특징을 전역적으로 반영할 수 있고, 향상된 견고성을 가질 수 있다.

도 3은 도 2에 도시된 특징 융합 모델의 동작을 설명하기 위한 도면이다.

도 3을 참조하면, 제1 입력 특징(301)은 좌표 값 특징 또는 히트 맵 특징 중 하나를 나타낼 수 있고, 제2 입력 특징(302)은 좌표 값 특징 또는 히트 맵 특징 중 다른 하나를 나타낼 수 있다.

프로세서(예: 도 1의 프로세서(110))는 제1 입력 특징(301)에 대하여 형식 매칭을 수행함으로써 제1 입력 특징(301) 및 제2 입력 특징 형식의 제1 입력 특징(301-1)을 획득할 수 있다. 제2 입력 특징 형식은 제2 입력 특징에 대응하는 데이터 형식을 나타내는 것 수 있다. 유사하게, 프로세서(110)는 제2 입력 특징(302)에 대하여 형식 매칭을 수행함으로써 제2 입력 특징(302) 및 제1 입력 특징 형식의 제2 입력 특징(302-1)을 획득할 수 있다. 제1 입력 특징 형식은 제1 입력 특징에 대응하는 데이터 형식을 나타내는 것 수 있다.

프로세서(110)는 제1 입력 특징(301) 및 제1 입력 특징 형식의 제2 입력 특징(302-1)을 결합(또는 융합)할 수 있다. 프로세서(110)는 제1 입력 특징(301) 및 제1 입력 특징 형식의 제2 입력 특징(302-1)에 대하여 요소 레벨 곱셈(element level multiplication), 요소 레벨 덧셈, 채널 스플라이싱(channel splicing), 또는 픽셀 스플라이싱을 수행함으로써 제1 출력 특징(303)을 생성할 수 있다. 유사하게, 프로세서(110)는 제2 입력 특징(302) 및 제2 입력 특징 형식의 제1 입력 특징(301-1)을 결합(또는 융합)할 수 있다. 프로세서(110)는 제2 입력 특징(302) 및 제1 입력 특징 형식의 제2 입력 특징(301-1)에 대하여 요소 레벨 곱셈(element level multiplication), 요소 레벨 덧셈, 채널 스플라이싱(channel splicing), 또는 픽셀 스플라이싱을 수행함으로써 제2 출력 특징(304)을 생성할 수 있다.

제1 출력 특징(303)은 융합 좌표 값 특징 또는 융합 히트 맵 특징 중 하나를 나타낼 수 있고, 제3 출력 특징(304)은 융합 좌표 값 특징 또는 융합 히트 맵 특징 중 다른 하나를 나타낼 수 있다. 전자 장치(100)는 융합 히트 맵 특징 및 융합 좌표 값 특징에 기초하여 얼굴 키 포인트를 검출함으로써 높은 검출 정확도 및/또는 우수한 실시간 성능을 실현할 수 있다.

도 4는 일 실시예에 따른, 얼굴 키포인트를 검출하는 동작의 흐름도이다.

동작 410에서, 프로세서(예: 도 1의 프로세서(110))는 얼굴 이미지에 기초하여 제1 히트 맵 특징 및 제1 좌표 값 특징을 획득할 수 있다. 얼굴 이미지는 얼굴의 전부 또는 하나 이상의 부분(예: 눈, 코, 눈썹, 입 및/또는 얼굴 등)을 포함하는 이미지일 수 있다. 히트 맵은 얼굴 키 포인트의 위치에 대한 정보를 포함하고, 히트 맵 특징은 얼굴 키 포인트의 히트 맵에 대한 정보를 포함하는 것일 수 있다. 좌표 값 특징은 얼굴 키 포인트의 좌표에 대한 정보를 포함하는 것일 수 있다.

동작 420에서, 프로세서(110)는 제1 히트 맵 특징 및 제1 좌표 값 특징에 기초하여 얼굴 키 포인트를 검출할 수 있다. 얼굴 키 포인트는 얼굴의 부분(예: 눈, 코, 눈썹, 입 및/또는 얼굴 등) 및 부분 간의 경계를 의미하는 것일 수 있다. 이하, 도 5를 참조하여 동작 420에 대하여 보다 구체적으로 설명한다.

도 5는 제1 히트맵 특징 및 제1 좌표 값 특징에 기초하여 얼굴 키포인트를 검출하는 동작의 흐름도이다.

동작 510에서, 프로세서(예: 도 1의 프로세서(110))는 제1 좌표 값 특징이 히트 맵 특징의 형식으로 변환된 제1 변환 히트 맵 특징과 제1 히트 맵 특징을 융합하여, 제1 융합 히트 맵 특징을 생성할 수 있다. 제1 융합 히트 맵 특징은 제1 히트 맵 특징에 대응하는 특징 정보 및 제1 좌표 값 특징(예: 히트 맵 특징의 형식으로 변환된 제1 좌표 값 특징)에 대응하는 특징 정보를 포함하는 것일 수 있다. 프로세서(110)는 제1 변환 히트 맵 특징 및 제1 히트 맵 특징에 대하여 요소 레벨 곱셈(element level multiplication), 요소 레벨 덧셈, 채널 스플라이싱(channel splicing), 또는 픽셀 스플라이싱을 수행함으로써 제1 융합 히트 맵 특징을 생성할 수 있다.

동작 520에서, 프로세서(110)는 제1 히트 맵 특징이 좌표 값 특징의 형식으로 변환된 제1 변환 좌표 값 특징과 제1 좌표 값 특징을 융합하여, 제1 융합 좌표 값 특징을 생성할 수 있다. 제1 융합 좌표 값 특징은 제1 좌표 값 특징에 대응하는 특징 정보 및 제1 히트 맵 특징(예: 좌표 값 특징의 형식으로 변환된 제1 히트 맵 특징)에 대응하는 특징 정보를 포함하는 것일 수 있다. 프로세서(110)는 제1 변환 좌표 값 특징 및 제1 좌표 값 특징에 대하여 요소 레벨 곱셈(element level multiplication), 요소 레벨 덧셈, 채널 스플라이싱, 또는 픽셀 스플라이싱을 수행함으로써 제1 융합 좌표 값 특징을 생성할 수 있다

동작 530에서, 프로세서(110)는 제1 융합 히트 맵 특징 및 제1 융합 좌표 값 특징에 기초하여 얼굴 키 포인트를 검출할 수 있다. 이하, 도 6을 참조하여 동작 530에 대하여 보다 구체적으로 설명한다.

도 6은 제1 융합 히트 맵 특징 및 제1 융합 좌표 값 특징에 기초하여 얼굴 키 포인트를 검출하는 동작의 흐름도이다.

동작 610에서, 프로세서(예: 도 1의 프로세서(110))는 제1 융합 히트 맵 특징에 기초하여 제2 히트 맵 특징을 획득할 수 있다.

동작 620에서, 프로세서(110)는 제1 융합 좌표 값 특징에 기초하여 제2 좌표 값 특징을 획득할 수 있다.

동작 630에서, 프로세서(110)는 제2 좌표 값 특징이 히트 맵 특징의 형식으로 변환된 제2 변환 히트 맵 특징과 제2 히트 맵 특징을 융합하여, 제2 융합 히트 맵 특징을 생성할 수 있다. 제2 융합 히트 맵 특징을 생성하는 동작은 제1 융합 히트 맵 특징을 생성하는 동작과 유사할 수 있다.

동작 640에서, 프로세서(110)는 제2 히트 맵 특징이 좌표 값 특징의 형식으로 변환된 제2 변환 히트 맵 특징과 제2 좌표 값 특징을 융합하여, 제2 융합 좌표 값 특징을 생성할 수 있다. 제2 융합 좌표 값 특징을 생성하는 동작은 제1 융합 좌표 값 특징을 생성하는 동작과 유사할 수 있다.

동작 650에서, 프로세서(110)는 제2 융합 히트 맵 특징 및 제2 융합 좌표 값 특징에 기초하여 얼굴 키 포인트를 검출할 수 있다. 프로세서(110)는 필요에 따라 제n 히트 맵 특징 및 제n 좌표 값 특징에 기초하여 제n 융합 히트 맵 특징 및 제n 융합 좌표 값 특징을 획득할 수 있으며, 제n 융합 히트 맵 특징 및 제n 융합 좌표 값 특징에 기초하여 얼굴의 키 포인트를 검출할 수 있다(n은 1 이상의 정수). 본 명세서에서는 일 예시로써 프로세서(110)가 제2 융합 히트 맵 특징 및 제2 융합 좌표 값 특징에 기초하여 얼굴의 키 포인트를 검출하는 것이며, 이에 한정되지 않는다. 이하, 도 7을 참조하여 동작 650에 대하여 보다 구체적으로 설명한다.

도 7은 제2 융합 히트 맵 특징 및 제2 융합 좌표 값 특징에 기초하여 얼굴 키 포인트를 검출하는 동작의 흐름도이다.

동작 710에서, 프로세서(예: 도 1의 프로세서(110))는 제2 융합 히트 맵 특징에 기초하여 얼굴 키 포인트의 히트 맵을 획득할 수 있다.

동작 720에서, 프로세서(110)는 제2 융합 좌표 값 특징에 기초하여 얼굴 키 포인트의 좌표 값 정보을 획득할 수 있다.

동작 730에서, 프로세서(110)는 얼굴 키 포인트의 히트 맵 및 얼굴 키 포인트의 좌표 값 정보에 기초하여 얼굴 키 포인트의 좌표를 출력함으로써 얼굴 키 포인트를 검출할 수 있다. 프로세서(110)는 얼굴 키 포인트의 히트 맵에 대응하는 좌표 및 얼굴 키 포인트의 좌표 값 정보에 대응하는 좌표에 대하여 우선 출력(preferential output), 산술 평균 연산, 또는 가중 평균 연산 중 하나를 수행함으로써 얼굴 키 포인트의 좌표를 획득할 수 있다

또한, 본 발명의 예시적 실시예에 따른 방법은 컴퓨터 판독 가능 저장매체의 컴퓨터 프로그램으로 구현될 수 있다. 본 기술분야의 통상의 지식을 가진 자는 상기 방법의 설명에 따라 상기 컴퓨터 프로그램을 구현할 수 있다. 상기 컴퓨터 프로그램은 컴퓨터에서 실행될 때, 본 발명의 임의의 얼굴 키 포인트 검출 방법을 실현한다.

본 발명의 예시적 실시예에 따라, 컴퓨터 판독 가능 저장매체를 제공하고, 상기 컴퓨터 판독 가능 저장 매체는 컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램은 프로세서에 의해 실행될 때, 프로세서가 본 출원에서 개시한 임의의 방법을 구현하도록 한다. 예를 들어, 상기 컴퓨터 프로그램은 프로세서에 의해 실행될 때, 프로세서가 다음 단계를 수행하도록 한다: 얼굴 이미지에 기초하여 히트 맵 특징 및 좌표 값 특징을 획득하는 단계; 히트 맵 특징 및 좌표 값 특징에 기초하여 얼굴 키 포인트를 검출하는 단계.

또한, 본 발명의 일 실시예에 따른 장치의 각 유닛은 하드웨어 구성요소 및/또는 소프트웨어 구성요소로 구현될 수 있음을 이해해야 한다. 제한된 각 유닛에 의해 수행되는 처리에 따라, 본 기술분야의 통상의 지식을 가진 자는 예를 들어 FPGA 또는 ASIC를 사용하여 각 유닛을 실현할 수 있다.

본 발명의 얼굴 키 포인트를 검출 방법은 얼굴 이미지에 기초하여 획득된 히트 맵 특징 및 좌표 값 특징을 동시에 사용하여 얼굴 키 포인트 검출을 수행함으로써 정확하고 신속하게 얼굴 키 포인트를 검출할 수 있다. 히트 맵은 얼굴 키 포인트의 위치에 대한 정보를 포함하고, 히트 맵 특징은 얼굴 키 포인트의 히트 맵에 대한 정보를 포함하는 것일 수 있다. 좌표 값 특징은 얼굴 키 포인트의 좌표에 대한 정보를 포함하는 것일 수 있다.

본 발명의 얼굴 키 포인트를 검출 방법은 다양한 특징 획득 방법(예: 특징 분리 방법)을 이용함으로써 얼굴 키 포인트 검출 상황에 적합한 특징을 획득할 수 있다.

본 발명의 얼굴 키 포인트를 검출 방법은 일반적 특징 추출 모델을 이용함으로써 히트 맵 특징 및 좌표 값 특징을 추출하는데 필요한 연산량을 절감할 수 있고 좋은 실시간 성능을 가질 수 있다.

본 발명의 얼굴 키 포인트를 검출 방법은 융합 히트 맵 특징 및 융합 좌표 값 특징에 기초하여 얼굴 키 포인트를 검출하므로, 높은 검출 정확도 및/또는 우수한 실시간 성능을 실현할 수 있다. 융합 히트 맵 특징은 히트 맵 특징에 대응하는 특징 정보 및 좌표 값 특징(예: 히트 맵 특징의 형식으로 변환된 좌표 값 특징)에 대응하는 특징 정보를 포함하는 것일 수 있다. 융합 좌표 값 특징은 좌표 값 특징에 대응하는 특징 정보 및 히트 맵 특징(예: 좌표 값 특징의 형식으로 변환된 히트 맵 특징)에 대응하는 특징 정보를 포함하는 것일 수 있다.

본 발명의 얼굴 키 포인트를 검출 방법은 히트 맵 특징 및 좌표 값 특징의 추출 동작을 여러 번 수행하고, 히트 맵 특징과 좌표 값 특징의 융합 동작을 여러 번 수행함으로써 서로 다른 스케일을 갖는 특징 정보를 이용할 수 있다. 전자 장치(100)는 복수의 융합 특징에 기초하여 얼굴 키 포인트를 검출함으로써 더욱 향상된 검출 정확도 및 실시간 성능을 가질 수 있다.

본 발명의 얼굴 키 포인트를 검출 방법은 특징 멀티모드 멀티 스케일 융합 모델, 좌표 값 회귀 모델, 및 히트 맵 회귀 모델을 사용함으로써 얼굴 이미지의 특징을 전역적으로 반영할 수 있고, 향상된 견고성을 가질 수 있다.

본 발명의 얼굴 키 포인트를 검출 방법은 경량화된 뉴럴 네트워크(lightweight neural networks) 기반 히트 맵 회귀 모델 및 경량화된 뉴럴 네트워크 기반 좌표 값 회귀 모델을 이용함으로써 추론 속도를 향상시킬 수 있고, 전체 네트워크의 실행 속도를 향상시킬 수 있다.

본 개시는 특정 예시를 포함하지만, 청구범위 및 그 균등물의 사상 및 범위를 벗어나지 않는 선에서, 이러한 예시에서 형태 및 세부사항의 다양한 변경이 이루어질 수 있음은 본 기술분야의 통상의 지식을 가진 자에게 있어 명백할 것이다. 본문에 설명된 예시는 설명을 위한 것으로, 제한적인 목적이 아닌 것으로 간주되어야 한다. 각 예시의 특징 또는 측면에 대한 설명은 다른 예시의 유사한 특징 또는 측면에 적용 가능한 것으로 간주되어야 한다. 설명된 기술이 다른 순서로 수행되는 경우, 및/또는 설명된 시스템, 아키텍처, 장치 또는 회로의 요소가 다른 방식으로 결합되고/되거나 다른 요소 또는 그 등가물로 대체되거나 보완되는 경우, 적절한 결과를 달성할 수 있다. 따라서, 본 발명의 범위는 특정 실시예에 의해 제한되는 것이 아니라, 특허청구범위 및 그 균등물에 의해 제한되며, 특허청구범위 및 그 균등물의 범위 내의 모든 변경은 본 발명에 포함된 것으로 해석되어야 한다.

Claims

전자 장치에 있어서,
인스트럭션들을 포함하는 메모리; 및
상기 메모리와 전기적으로 연결되고, 상기 인스트럭션들을 실행하기 위한 프로세서를 포함하고,
상기 프로세서에 의해 상기 인스트럭션들이 실행될 때, 상기 프로세서는,
얼굴 이미지에 기초하여 제1 히트 맵 특징(heat map feature) 및 제1 좌표 값 특징(coordinate value feature)을 획득하고,
상기 제1 히트 맵 특징 및 상기 제1 좌표 값 특징에 기초하여 얼굴 키 포인트를 검출하는,
전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 제1 좌표 값 특징이 히트 맵 특징의 형식으로 변환된 제1 변환 히트 맵 특징(transformation heat map feature)과 상기 제1 히트 맵 특징을 융합(fuse)하여, 제1 융합 히트 맵 특징(fusion heat map feature)을 생성하고,
상기 제1 히트 맵 특징이 좌표 값 특징의 형식으로 변환된 제1 변환 좌표 값 특징과 상기 제1 좌표 값 특징을 융합하여, 제1 융합 좌표 값 특징을 생성하고,
상기 제1 융합 히트 맵 특징 및 상기 제1 융합 좌표 값 특징에 기초하여 상기 얼굴 키 포인트를 검출하는,
전자 장치.
제2항에 있어서,
상기 프로세서는,
상기 제1 융합 히트 맵 특징에 기초하여 상기 얼굴 키 포인트의 히트 맵을 획득하고,
상기 제1 융합 좌표 값 특징에 기초하여 상기 얼굴 키 포인트의 좌표 값 정보를 획득하고,
상기 얼굴 키 포인트의 히트 맵 및 상기 얼굴 키 포인트의 좌표 값 정보에 기초하여 상기 얼굴 키 포인트의 좌표를 획득함으로써 상기 얼굴 키 포인트를 검출하는,
전자 장치.
제3항에 있어서,
상기 프로세서는,
상기 얼굴 키 포인트의 히트 맵에 대응하는 좌표 및 상기 얼굴 키 포인트의 좌표 값 정보에 대응하는 좌표에 대하여 우선 출력(preferential output), 산술 평균 연산, 또는 가중 평균 연산 중 하나를 수행함으로써 상기 얼굴 키 포인트의 좌표를 획득하는,
전자 장치.
제2항에 있어서,
상기 프로세서는,
상기 제1 융합 히트 맵 특징에 기초하여 제2 히트 맵 특징을 획득하고,
상기 제1 융합 좌표 값 특징에 기초하여 제2 좌표 값 특징을 획득하고,
상기 제2 좌표 값 특징이 히트 맵 특징의 형식으로 변환된 제2 변환 히트 맵 특징과 상기 제2 히트 맵 특징을 융합하여, 제2 융합 히트 맵 특징을 생성하고,
상기 제2 히트 맵 특징이 좌표 값 특징의 형식으로 변환된 제2 변환 히트 맵 특징과 상기 제2 좌표 값 특징을 융합하여, 제2 융합 좌표 값 특징을 생성하고,
상기 제2 융합 히트 맵 특징 및 상기 제2 융합 좌표 값 특징에 기초하여 상기 얼굴 키 포인트를 검출하는,
전자 장치.
제5항에 있어서,
상기 프로세서는,
상기 제2 융합 히트 맵 특징에 기초하여 상기 얼굴 키 포인트의 히트 맵을 획득하고,
상기 제2 융합 좌표 값 특징에 기초하여 상기 얼굴 키 포인트의 좌표 값 정보를 획득하고,
상기 얼굴 키 포인트의 히트 맵 및 상기 얼굴 키 포인트의 좌표 값 정보에 기초하여 상기 얼굴 키 포인트의 좌표를 출력함으로써 상기 얼굴 키 포인트를 검출하는,
전자 장치.
제1항에 있어서
상기 프로세서는,
상기 얼굴 이미지에 기초하여 상기 얼굴의 일반적 특징(generic feature)에 대 한 정보를 포함하는 제1 특징을 획득하고,
상기 제1 특징에 기초하여, 상기 제1 히트 맵 특징과 연관된 제2 특징 및 상기 제1 좌표 값 특징과 연관된 제3 특징을 획득하고,
상기 제2 특징에 기초하여 상기 제1 히트 맵 특징을 획득하고,
상기 제3 특징에 기초하여 상기 제1 좌표 값 특징을 획득하는,
전자 장치.
제7항에 있어서,
상기 프로세서는,
상기 제1 특징에 대하여 해상도 세그먼테이션, 채널 세그먼테이션, 또는 복제 중 하나를 수행하고,
수행 결과에 기초하여 상기 제2 특징 및 상기 제3 특징을 획득하는,
전자 장치.
제1항에 있어서,
상기 프로세서는,
경량화된 뉴럴 네트워크(lightweight neural networks) 기반 히트 맵 회귀 모델 및 경량화된 뉴럴 네트워크 기반 좌표 값 회귀 모델에 기초하여 상기 얼굴 키 포인트를 검출하는,
전자 장치.
제2항에 있어서,
상기 프로세서는,
상기 제1 변환 히트 맵 특징 및 상기 제1 히트 맵 특징에 대하여 요소 레벨 곱셈(element level multiplication), 요소 레벨 덧셈, 채널 스플라이싱, 또는 픽셀 스플라이싱을 수행함으로써 상기 제1 융합 히트 맵 특징을 생성하고,
상기 제1 변환 좌표 값 특징 및 상기 제1 좌표 값 특징에 대하여 요소 레벨 곱셈, 요소 레벨 덧셈, 채널 스플라이싱, 또는 픽셀 스플라이싱을 수행함으로써 상기
제1 융합 좌표 값 특징을 생성하는,
전자 장치.
전자 장치의 동작 방법에 있어서,
얼굴 이미지에 기초하여 제1 히트 맵 특징 및 제1 좌표 값 특징을 획득하는 동작; 및
상기 제1 히트 맵 특징 및 상기 제1 좌표 값 특징에 기초하여 얼굴 키 포인트를 검출하는 동작
을 포함하는, 전자 장치의 동작 방법.
제11항에 있어서,
상기 검출하는 동작은,
상기 제1 좌표 값 특징이 히트 맵 특징의 형식으로 변환된 제1 변환 히트 맵 특징과 상기 제1 히트 맵 특징을 융합하여, 제1 융합 히트 맵 특징을 생성하는 동작;
상기 제1 히트 맵 특징이 좌표 값 특징의 형식으로 변환된 제1 변환 좌표 값 특징과 상기 제1 좌표 값 특징을 융합하여, 제1 융합 좌표 값 특징을 생성하는 동작; 및
상기 제1 융합 히트 맵 특징 및 상기 제1 융합 좌표 값 특징에 기초하여 상기 얼굴 키 포인트를 검출하는 동작
을 포함하는, 전자 장치의 동작 방법.
제12항에 있어서,
상기 제1 융합 히트 맵 특징 및 상기 제1 융합 좌표 값 특징에 기초하여 상기 얼굴 키 포인트를 검출하는 동작은,
상기 제1 융합 히트 맵 특징에 기초하여 상기 얼굴 키 포인트의 히트 맵을 획득하는 동작;
상기 제1 융합 좌표 값 특징에 기초하여 상기 얼굴 키 포인트의 좌표 값 정보를 획득하는 동작; 및
상기 얼굴 키 포인트의 히트 맵 및 상기 얼굴 키 포인트의 좌표 값 정보에 기초하여 상기 얼굴 키 포인트의 좌표를 획득함으로써 상기 얼굴 키 포인트를 검출하는 동작
을 포함하는, 전자 장치의 동작 방법.
제13항에 있어서,
상기 얼굴 키 포인트의 좌표를 획득함으로써 상기 얼굴 키 포인트를 검출하는 동작은,
상기 얼굴 키 포인트의 히트 맵에 대응하는 좌표 및 상기 얼굴 키 포인트의 좌표 값 정보에 대응하는 좌표에 대하여 우선 출력(preferential output), 산술 평균 연산, 또는 가중 평균 연산 중 하나를 수행함으로써 상기 얼굴 키 포인트의 좌표를 획득하는 동작
을 포함하는, 전자 장치의 동작 방법.
제12항에 있어서,
상기 제1 융합 히트 맵 특징 및 상기 제1 융합 좌표 값 특징에 기초하여 상기 얼굴 키 포인트를 검출하는 동작은,
상기 제1 융합 히트 맵 특징에 기초하여 제2 히트 맵 특징을 획득하는 동작;
상기 제1 융합 좌표 값 특징에 기초하여 제2 좌표 값 특징을 획득하는 동작;
상기 제2 좌표 값 특징이 히트 맵 특징의 형식으로 변환된 제2 변환 히트 맵 특징과 상기 제2 히트 맵 특징을 융합하여, 제2 융합 히트 맵 특징을 생성하는 동작;
상기 제2 히트 맵 특징이 좌표 값 특징의 형식으로 변환된 제2 변환 히트 맵 특징과 상기 제2 좌표 값 특징을 융합하여, 제2 융합 좌표 값 특징을 생성하는 동작; 및
상기 제2 융합 히트 맵 특징 및 상기 제2 융합 좌표 값 특징에 기초하여 상기 얼굴 키 포인트를 검출하는 동작
을 포함하는, 전자 장치의 동작 방법,
제15항에 있어서,
상기 제2 융합 히트 맵 특징 및 상기 제2 융합 좌표 값 특징에 기초하여 상기 얼굴 키 포인트를 검출하는 동작은,
상기 제2 융합 히트 맵 특징에 기초하여 상기 얼굴 키 포인트의 히트 맵을 획득하는 동작;
상기 제2 융합 좌표 값 특징에 기초하여 상기 얼굴 키 포인트의 좌표 값 정보를 획득하는 동작; 및
상기 얼굴 키 포인트의 히트 맵 및 상기 얼굴 키 포인트의 좌표 값 정보에 기초하여 상기 얼굴 키 포인트의 좌표를 출력함으로써 상기 얼굴 키 포인트를 검출하는 동작
을 포함하는, 전자 장치의 동작 방법.
제11항에 있어서
상기 획득하는 동작은,
상기 얼굴 이미지에 기초하여 상기 얼굴의 일반적 특징(generic feature)에 대 한 정보를 포함하는 제1 특징을 획득하는 동작;
상기 제1 특징에 기초하여, 상기 제1 히트 맵 특징과 연관된 제2 특징 및 상기 제1 좌표 값 특징과 연관된 제3 특징을 획득하는 동작;
상기 제2 특징에 기초하여 상기 제1 히트 맵 특징을 획득하는 동작; 및
상기 제3 특징에 기초하여 상기 제1 좌표 값 특징을 획득하는 동작
을 포함하는, 전자 장치의 동작 방법.
제17항에 있어서,
상기 제1 특징에 기초하여, 상기 제1 히트 맵 특징과 연관된 제2 특징 및 상기 제1 좌표 값 특징과 연관된 제3 특징을 획득하는 동작은,
상기 제1 특징에 대하여 해상도 세그먼테이션, 채널 세그먼테이션, 또는 복제 중 하나를 수행하는 동작; 및
수행 결과에 기초하여 상기 제2 특징 및 상기 제3 특징을 획득하는 동작
을 포함하는, 전자 장치의 동작 방법.
제11항에 있어서,
상기 얼굴 키 포인트는,
경량화된 뉴럴 네트워크(lightweight neural networks) 기반 히트 맵 회귀 모델 및 경량화된 뉴럴 네트워크 기반 좌표 값 회귀 모델에 기초하여 검출된 것인,
전자 장치의 동작 방법.
제12항에 있어서,
상기 제1 융합 히트 맵 특징(fusion heat map feature)을 생성하는 동작은,
상기 제1 변환 히트 맵 특징 및 상기 제1 히트 맵 특징에 대하여 요소 레벨 곱셈(element level multiplication), 요소 레벨 덧셈, 채널 스플라이싱, 또는 픽셀 스플라이싱을 수행함으로써 상기 제1 융합 히트 맵 특징을 생성하는 동작을 포함하고,
상기 제1 융합 좌표 값 특징을 생성하는 동작은,
상기 제1 변환 좌표 값 특징 및 상기 제1 좌표 값 특징에 대하여 요소 레벨 곱셈, 요소 레벨 덧셈, 채널 스플라이싱, 또는 픽셀 스플라이싱을 수행함으로써 상기 제1 융합 좌표 값 특징을 생성하는 동작
을 포함하는, 전자 장치의 동작 방법.