KR20220154227A

KR20220154227A - 얼굴 이미지 식별 방법, 장치, 설비 및 저장매체

Info

Publication number: KR20220154227A
Application number: KR1020227036111A
Authority: KR
Inventors: 푸쿠이 양
Original assignee: 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date: 2020-06-24
Filing date: 2020-10-26
Publication date: 2022-11-21
Also published as: JP2023529225A; CN111783605B; CN111783605A; WO2021258588A1

Abstract

얼굴 이미지 식별 방법, 장치, 설비 및 저장매체를 개시하고, 인공 지능에서 딥러닝, 클라우드 컴퓨팅 및 컴퓨터 비주얼 분야에 관한 것으로서, 구체적으로 마스크를 착용한 얼굴 식별 방면에 관한 것이다. 구체적인 구현 방안은, 미리 획득된 얼굴 차단 이미지의 공간 네트워크 특징에 기반하여, 얼굴 차단 이미지에 대한 공간 변환을 수행함으로써, 정면 얼굴 차단 이미지를 획득하고(S101); 정면 얼굴 차단 이미지를 얼굴 식별 네트워크에 입력하여 신원 식별 결과를 획득한다(S102).

Description

얼굴 이미지 식별 방법, 장치, 설비 및 저장매체

본 출원은 2020년 06월 24일 중국 특허청에 제출한 출원번호가 202010592663.2인 중국 특허출원의 우선권을 주장하는 바, 해당 출원의 전부 내용은 참조로서 본 출원에 포함된다.

본 출원은 이미지 처리 기술분야에 관한 것으로서, 예를 들면, 인공 지능에서 딥러닝, 클라우드 컴퓨팅 및 컴퓨터 비주얼 분야에 관한 것이고, 구체적으로 마스크를 착용한 얼굴 식별 방면에 관한 것이다.

얼굴 식별 기술은 사람의 얼굴 특징 정보에 기반하여 신원을 식별하는 생물 식별 기술로서, 생활 중의 각 분야에 널리 응용되고 있다. 얼굴을 식별하는 과정에서, 식별 정확성을 향상시키기 위해, 일반적으로 얼굴 이미지를 정면 얼굴 이미지로 전환시킨 후 신원을 식별해야 한다. 현재, 관련 기술에서는 일반적으로 식별될 얼굴 이미지의 얼굴 키포인트 특징에 기반하여, 식별될 얼굴 이미지를 정면 얼굴 이미지로 전환시킨다. 그러나, 마스크, 선글라스, 모자 등 액세서리를 착용한 얼굴 차단 이미지를 식별할 때, 얼굴 차단 이미지 중의 얼굴 영역 부분이 차단되어, 얼굴 키포인트 특징을 정확하게 식별하기 어렵기 때문에, 전환된 후의 정면 얼굴 이미지 오차가 비교적 크게 되고, 추후 얼굴 식별의 정확성에 심각한 영향을 미치므로, 시급히 개선이 필요하다.

하기 내용은 본 문에서 상세하게 설명되는 카테고리에 대한 약술이다. 본 약술은 청구항의 보호범위를 한정하기 위한 것이 아니다.

본 출원은 얼굴 이미지 식별 방법, 장치, 설비 및 저장매체를 제공한다.

본 출원은 얼굴 이미지 식별 방법을 제공하고, 해당 방법은, 미리 획득된 얼굴 차단 이미지의 공간 네트워크 특징에 기반하여, 상기 얼굴 차단 이미지에 대한 공간 변환을 수행함으로써, 정면 얼굴 차단 이미지를 획득하는 단계; 상기 정면 얼굴 차단 이미지를 얼굴 식별 네트워크에 입력하여, 신원 식별 결과를 획득하는 단계; 를 포함한다.

본 출원은 얼굴 이미지 식별 장치를 더 제공하고, 해당 장치는, 미리 획득된 얼굴 차단 이미지의 공간 네트워크 특징에 기반하여, 상기 얼굴 차단 이미지에 대한 공간 변환을 수행함으로써, 정면 얼굴 차단 이미지를 획득하도록 구성된 공간 변환 모듈; 상기 정면 얼굴 차단 이미지를 얼굴 식별 네트워크에 입력하여, 신원 식별 결과를 획득하도록 구성된 신원 식별 모듈; 을 포함한다.

본 출원은 전자 설비를 더 제공하고, 해당 전자 설비는 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서와 통신적으로 연결되는 메모리; 를 포함하되, 여기서, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 본 출원의 임의의 실시예에 따른 얼굴 이미지 식별 방법을 수행할 수 있도록 한다.

본 출원은 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독가능 저장매체를 더 제공하고, 여기서, 상기 컴퓨터 명령은 상기 컴퓨터가 본 출원의 임의의 실시예에 따른 얼굴 이미지 식별 방법을 수행하도록 한다.

도면 및 상세한 설명을 읽고 이해하면, 기타 방면도 이해할 수 있을 것이다.

도면은 본 방안을 더 잘 이해하기 위한 것이고, 본 출원을 한정하려는 것이 아니다. 여기서,
도 1은 본 출원의 실시예에서 제공하는 얼굴 이미지 식별 방법의 흐름도이다.
도 2A는 본 출원의 실시예에서 제공하는 다른 얼굴 이미지 식별 방법의 흐름도이다.
도 2B는 본 출원의 실시예에서 제공하는 공간 변환 네트워크의 네트워크 구조 개략도이다.
도 3은 본 출원의 실시예에서 제공하는 다른 얼굴 이미지 식별 방법의 흐름도이다.
도 4A는 본 출원의 실시예에서 제공하는 다른 얼굴 이미지 식별 방법의 흐름도이다.
도 4B는 본 출원의 실시예에서 제공하는 공간 변환 네트워크와 얼굴 식별 네트워크의 합동 트레이닝의 모델 아키텍처 도면이다.
도 5는 본 출원의 실시예에서 제공하는 얼굴 이미지 식별 장치의 구조 개략도이다.
도 6은 본 출원의 실시예의 얼굴 이미지 식별 방법을 구현하기 위한 전자 설비의 블록도이다.

이하 도면을 결합하여 본 출원의 예시적인 실시예를 설명하도록 한다. 설명해야 할 것은, 서로 모순되지 않을 경우, 본 출원의 실시예 및 실시예의 특징은 서로 임의로 조합될 수 있다. 마찬가지로, 명확하고 간결하게 하기 위해, 이하의 설명에서는 공지된 기능 및 구조에 대한 설명을 생략하도록 한다.

도 1은 본 출원의 실시예에서 제공하는 얼굴 이미지 식별 방법의 흐름도이다. 본 출원의 실시예는 얼굴 이미지에 대한 사용자 신원 식별을 수행하는 경우에 적용된다. 특히, 마스크, 안경 또는 모자 등 액세서리를 착용한 얼굴 차단 이미지에 대한 사용자 신원 식별을 수행하는 경우에 적용된다. 해당 실시예는 전자 설비에 구성된 얼굴 이미지 식별 장치에 의해 실행될 수 있고, 해당 장치는 소프트웨어 및/또는 하드웨어로 구현될 수 있다. 도 1에 도시된 바와 같이, 해당 방법은 단계(S101) 및 단계(S102)를 포함한다.

단계(S101)에서, 미리 획득된 얼굴 차단 이미지의 공간 네트워크 특징에 기반하여, 얼굴 차단 이미지에 대한 공간 변환을 수행함으로써, 정면 얼굴 차단 이미지를 획득한다.

여기서, 얼굴 차단 이미지는 마스크, 안경 또는 모자 등 액세서리를 착용함으로 인해 얼굴의 일부 영역이 차단된 후 촬영된 얼굴 이미지일 수 있다. 촬영 각도 또는 얼굴 위치 등 원인으로 인해, 촬영된 얼굴 차단 이미지는 표준적인 정면 얼굴이 아닐 수 있다. 예를 들면, 측면의 얼굴 이미지일 수 있고, 고개를 숙인 얼굴 이미지 등일 수도 있다. 본 출원의 실시예의 얼굴 차단 이미지의 공간 네트워크 특징은 획득된 얼굴 차단 이미지와 그에 대응되는 정면의 얼굴 차단 이미지(즉 정면 얼굴 차단 이미지) 사이의 공간 위치 변환 관계의 관련 특징을 나타내는 것일 수 있다. 선택적으로, 해당 공간 네트워크 특징의 유형은 얼굴 차단 이미지에 대한 공간 변환을 수행하는 유형에 의존한다. 예를 들면, 획득된 얼굴 차단 이미지에 대한 이차원 공간 변환을 수행하는 경우, 해당 공간 네트워크 특징은 6 개의 차원(즉 X방향과 Y방향의 평행이동, 회전 및 스케일링)의 특징을 표시하는 것일 수 있다. 설명해야 할 것은, 해당 공간 네트워크 특징은 얼굴 차단 이미지 중의 얼굴 키포인트의 특징을 나타내는 것이 아니다.

선택적으로, 본 출원의 실시예에서, 미리 획득된 얼굴 차단 이미지는 사용자가 얼굴 식별 시스템의 전자 설비에 업로드한 이미지일 수 있고, 얼굴 식별 시스템의 전자 설비가 그에 구성된 이미지 수집기(예를 들어 카메라)를 통해 촬영한 이미지일 수도 있다. 획득된 얼굴 차단 이미지에 대해, 우선 그의 공간 네트워크 특징을 결정하고, 예를 들어 미리 설정된 알고리즘을 통해 획득된 얼굴 차단 이미지와 그에 대응되는 정면 얼굴 차단 이미지의 공간 네트워크 특징을 계산하는 것일 수 있고; 미리 트레이닝된 공간 변환 네트워크를 통해 획득된 얼굴 차단 이미지의 공간 네트워크 특징을 결정하는 것일 수도 있다. 본 출원의 실시예는 이에 대하여 한정하지 않는다. 획득된 얼굴 차단 이미지의 공간 네트워크 특징을 결정한 후, 평행이동, 회전 및 스케일링 등 차원에서의 해당 공간 네트워크 특징의 공간 위치 변환 관계에 기반하여, 해당 얼굴 차단 이미지에 대한 평행이동, 회전 및 스케일링 등 변환 조작을 수행함으로써, 해당 얼굴 차단 이미지에 대응되는 정면 얼굴 차단 이미지를 획득한다.

선택적으로, 본 출원의 실시예에서, 얼굴 식별 시스템의 전자 설비에 의해 미리 획득된 식별될 이미지가 얼굴 영역만을 포함하는 얼굴 차단 이미지이면, 해당 얼굴 차단 이미지의 공간 네트워크 특징을 직접 결정할 수 있고, 해당 공간 네트워크 특징에 기반하여 해당 얼굴 차단 이미지에 대한 공간 변환을 수행함으로써, 정면 얼굴 차단 이미지를 획득하고; 얼굴 식별 시스템의 전자 설비에 의해 미리 획득된 식별될 이미지가 일부 얼굴 영역이 차단된 전신 또는 반신 인물 이미지이면, 얼굴 식별의 정확성을 향상시키기 위해, 우선 전신 또는 반신 인물 이미지로부터 얼굴 위치를 검측하고, 검측한 얼굴 위치에 따라 전신 또는 반신 인물 이미지에서 얼굴 영역을 추출하여 얼굴 차단 이미지로 사용하며, 나아가 추출한 얼굴 차단 이미지의 공간 네트워크 특징을 결정하여, 해당 얼굴 차단 이미지에 대한 공간 변환을 수행함으로써, 정면 얼굴 차단 이미지를 획득할 수 있다. 선택적으로, 전신 또는 반신 인물 이미지로부터 얼굴 영역을 검측 및 추출하는 방식에는 여러 가지 방식이 있고, 예를 들어, 미리 트레이닝된 얼굴 검측 네트워크를 통해 전신 또는 반신 인물 이미지 중의 얼굴 영역을 검측 및 추출할 수 있다. 얼굴 외곽 검측 알고리즘을 통해 전신 또는 반신 인물 이미지로부터 얼굴 영역 등을 검측 및 추출할 수도 있다. 본 실시예는 이에 대하여 한정하지 않는다.

단계(S102)에서, 정면 얼굴 차단 이미지를 얼굴 식별 네트워크에 입력하여, 신원 식별 결과를 획득한다.

여기서, 얼굴 식별 네트워크는 입력된 얼굴 이미지에 따라 사용자 신원 식별을 수행하는 신경 네트워크일 수 있다. 해당 얼굴 식별 네트워크는 이미지 특징을 추출하는 콘벌루션 네트워크, 얼굴 키포인트를 추출하는 특징 추출 네트워크 및 사용자 신원을 예측하는 활성화 네트워크 등으로 구성될 수 있다.

선택적으로, 본 출원의 실시예는 S101에서 획득한 정면 얼굴 차단 이미지를 얼굴 식별 네트워크에 입력하면, 얼굴 식별 네트워크는 트레이닝할 때의 알고리즘에 기반하여 입력된 정면 얼굴 차단 이미지를 분석하고, 예를 들어, 우선 콘벌루션 네트워크를 통해 정면 얼굴 차단 이미지의 특징 이미지를 추출하고, 다음 특징 추출 네트워크를 통해 특징 이미지로부터 얼굴 키포인트 특징을 추출하며, 나아가 활성화 네트워크를 통해 얼굴 키포인트 특징을 분석하여, 입력된 정면 얼굴 차단 이미지에 대응되는 사용자 신원을 예측할 수 있다.

본 출원의 실시예의 기술방안은, 얼굴 차단 이미지의 공간 네트워크 특징에 기반하여, 얼굴 차단 이미지를 정면 얼굴 차단 이미지로 전환시킨 후, 얼굴 식별 네트워크를 통해 정면 얼굴 차단 이미지에 대한 사용자 신원 식별을 수행한다. 본 출원의 실시예의 방안은, 얼굴 차단 이미지의 공간 네트워크 특징에 따라 정면 얼굴 차단 이미지를 결정하기 때문에, 관련 기술의 얼굴 키포인트 특징에 기반하여 정면 얼굴 차단 이미지를 결정하는 경우에 비해, 얼굴 영역이 차단되어 얼굴 키포인트를 정확하게 식별하기 어려운 상황에서, 전환된 후의 정면 얼굴 차단 이미지의 오차를 대폭 줄이므로, 얼굴 식별의 정확성을 향상시킨다.

도 2A는 본 출원의 실시예에서 제공하는 다른 얼굴 이미지 식별 방법의 흐름도이고; 도 2B는 본 출원의 실시예에서 제공하는 공간 변환 네트워크의 네트워크 구조 개략도이다. 본 실시예는 상기 실시예의 기초상에서 추가로 최적화한 것이고, 미리 획득된 얼굴 차단 이미지의 공간 네트워크 특징에 기반하여, 상기 얼굴 차단 이미지에 대한 공간 변환을 수행함으로써, 정면 얼굴 차단 이미지를 획득하는 구체적인 상황에 대한 설명을 제공한다. 도 2A 및 도 2B에 도시된 바와 같이, 해당 방법은 구체적으로 단계(S201), 단계(S202), 단계(S203), 단계(S204) 및 단계(205)를 포함한다.

단계(S201)에서, 미리 획득된 얼굴 차단 이미지를 공간 변환 네트워크 중의 콘벌루션 네트워크에 입력하여, 얼굴 차단 이미지의 특징 이미지를 획득한다.

여기서, 본 출원의 실시예의 공간 변환 네트워크는 획득된 얼굴 차단 이미지의 공간 네트워크 특징을 결정하고, 공간 네트워크 특징에 기반하여 얼굴 차단 이미지에 대한 공간 변환 조작을 수행함으로써, 정면 얼굴 차단 이미지를 획득하는 신경 네트워크일 수 있다. 도 2B에 도시된 바와 같이, 해당 공간 변환 네트워크(2)는 콘벌루션 네트워크(21), 포지셔닝 네트워크(22), 변환 네트워크(23) 및 보간 네트워크(24)를 포함한다.

선택적으로, 본 출원의 실시예는 우선 획득된 얼굴 차단 이미지를 공간 변환 네트워크(2) 중의 콘벌루션 네트워크(21)에 입력하면, 콘벌루션 네트워크(21)는 입력된 얼굴 차단 이미지에 대한 콘벌루션 처리를 수행하여, 이미지 특징을 추출함으로써, 입력된 얼굴 차단 이미지의 특징 이미지를 획득할 수 있다.

단계(S202)에서, 특징 이미지를 공간 변환 네트워크 중의 포지셔닝 네트워크에 입력하여, 얼굴 차단 이미지의 공간 네트워크 특징을 획득한다.

선택적으로, 본 출원의 실시예는 공간 변환 네트워크(2)의 콘벌루션 네트워크(21)를 통해 얼굴 차단 이미지의 특징 이미지를 추출한 후, 해당 특징 이미지를 공간 변환 네트워크(2)의 포지셔닝 네트워크(22)에 입력할 수 있고, 해당 포지셔닝 네트워크(22)는 변환 파라미터를 반환시키기 위한 네트워크일 수 있고, 이는 입력된 특징 이미지를 분석하고, 얼굴 차단 이미지의 공간 네트워크 특징을 출력한다. 예를 들어, 얼굴 차단 이미지가 이차원 변환이면, 출력된 얼굴 차단 이미지의 공간 네트워크 특징은 X방향 및 Y방향의 평행이동, 회전 및 스케일링의 6 개의 차원(2Х3)의 출력 벡터로 구성된 공간 변환 매트릭스일 수 있다.

단계(S203)에서, 공간 네트워크 특징 및 특징 이미지를 공간 변환 네트워크 중의 변환 네트워크에 입력하여, 특징 이미지의 화소점 전환 데이터를 획득한다.

선택적으로, 본 출원의 실시예는 얼굴 차단 이미지의 공간 네트워크 특징을 획득한 후, 해당 공간 네트워크 특징과 S201에서 획득한 특징 이미지를 함께 공간 변환 네트워크(2)의 변환 네트워크(23)에 입력할 수 있고, 해당 변환 네트워크(23)는 입력된 공간 네트워크 특징에 따라 특징 이미지에 대한 공간 변환 조작을 수행하며, 구체적으로, 변환 네트워크(23)는 공간 네트워크 특징에 따라 특징 이미지 중의 각 화소점의 원시 위치 좌표에 대한 공간 변환을 수행하여, 각 화소점의 변환된 후의 위치 좌표를 획득하여, 특징 이미지의 화소점 전환 데이터로 사용할 수 있다. 예를 들어, 하기 공식(1)에 따라 공간 네트워크 특징에 기반하여, 특징 이미지의 화소점 전환 데이터를 계산할 수 있다.

여기서,

는 특징 이미지 중의 제I 번째 화소점의 변환된 후의 위치 좌표이고, 즉 제I 번째 화소점의 전환 데이터이며;

는 6차원의 공간 네트워크 특징이고;

는 특징 이미지 중의 제I 번째 화소점의 원시 위치 좌표이다.

단계(S204)에서, 화소점 전환 데이터 및 특징 이미지를 공간 변환 네트워크 중의 보간 네트워크에 입력하여, 정면 얼굴 차단 이미지를 획득한다.

선택적으로, S202에서 획득한 공간 네트워크 특징이 정수가 아닐 수 있기 때문에, S203에서 획득한 화소점 전환 데이터도 정수가 아닐 수 있으나, 이미지 중의 화소점의 위치 좌표는 모두 양의 정수이므로, 본 출원의 실시예는 S203에서 획득한 화소점 전환 데이터를 처리하여, 각 화소점의 변환된 후의 위치 좌표를 양의 정수로 조정한 다음, 정면 얼굴 차단 이미지를 획득해야 한다.

구체적으로, 본 출원의 실시예는 S203에서 획득한 화소점 전환 데이터 및 S201에서 획득한 특징 이미지를 공간 변환 네트워크(2)의 보간 네트워크(24)에 입력하면, 보간 네트워크(24)는 화소점 전환 데이터 중 각각의 화소점의 전환된 후의 위치 좌표 및 특징 이미지에서의 해당 화소점의 원시 위치 좌표에 따라, 해당 화소점의 전환된 후의 위치 좌표에 대한 보간 처리를 수행하여, 해당 화소점의 전환된 후의 위치 좌표를 양의 정수로 전환하고, 보간 처리된 후의 각각의 화소점의 위치 좌표 및 각각의 화소점의 화소값에 따라 보간 후의 이미지, 즉 정면 얼굴 차단 이미지를 생성할 수 있다.

단계(S205)에서, 정면 얼굴 차단 이미지를 얼굴 식별 네트워크에 입력하여, 신원 식별 결과를 획득한다.

본 출원의 실시예의 기술방안은, 공간 변환 네트워크 중의 콘벌루션 네트워크를 통해 획득된 얼굴 차단 이미지로부터 특징 이미지를 추출하여, 포지셔닝 네트워크에 전송함으로써, 얼굴 차단 이미지의 공간 네트워크 특징을 결정하고, 공간 네트워크 특징 및 특징 이미지를 변환 네트워크에 전송하여 특징 이미지에 대한 공간 변환을 수행하고, 획득된 화소점 전환 데이터를 보간 네트워크에 입력하여, 화소점 전환 데이터에 대한 보간을 수행하여, 정면 얼굴 차단 이미지를 획득한 후 얼굴 식별 네트워크에 전송함으로써 신원 식별을 수행한다. 본 출원의 실시예의 방안은, 공간 변환 네트워크 중의 콘벌루션 네트워크, 포지셔닝 네트워크, 변환 네트워크 및 보간 네트워크의 상호적인 협력을 통해, 얼굴 차단 이미지의 공간 네트워크 특징에 기반하여 정면 얼굴 차단 이미지를 결정하고, 얼굴 영역이 차단되어 얼굴 키포인트를 정확하게 식별하기 어려운 상황에서, 전환된 후의 정면 얼굴 차단 이미지의 정확도를 대폭 향상시키는 바, 나아가 얼굴 식별의 정확성을 향상시킨다.

도 3은 본 출원의 실시예에서 제공하는 다른 얼굴 이미지 식별 방법의 흐름도이고; 본 실시예는 상기 실시예의 기초상에서 추가로 최적화한 것이며, 얼굴 이미지 식별 방법의 바람직한 예시를 제공한다. 도 3에 도시된 바와 같이, 해당 방법은 구체적으로 단계(S301), 단계(S302) 및 단계(S303)를 포함한다.

단계(S301)에서, 미리 획득된 얼굴 차단 이미지의 얼굴 키포인트 특징에 기반하여, 얼굴 차단 이미지를 정렬한다.

선택적으로, 본 출원의 실시예에서, 얼굴 식별 시스템은 얼굴 차단 이미지를 획득한 후, 우선 얼굴 키포인트 특징에 기반하여, 해당 얼굴 차단 이미지에 대해 한 번의 정렬 조작을 수행한다. 설명해야 할 것은, 얼굴 차단 이미지를 정렬하는 조작은 얼굴 차단 이미지를 정면 얼굴로 전환하는 과정이기도 하다. 구체적으로, 특징 추출 알고리즘 또는 미리 트레이닝된 얼굴 정렬 네트워크에 기반하여, 획득된 얼굴 차단 이미지에 대한 얼굴 키포인트 추출을 수행할 수 있고, 예를 들어, 눈, 코, 입, 눈썹 등 영역의 78 개의 키포인트 특징을 추출할 수 있다. 다음 추출한 얼굴 키포인트 특징에 기반하여, 획득된 얼굴 차단 이미지에 대한 아핀 변환을 수행하여, 얼굴 차단 이미지에 대한 정렬 조작을 수행함으로써, 정렬된 얼굴 차단 이미지를 획득한다.

설명해야 할 것은, 본 출원의 실시예의 식별될 얼굴 이미지는 얼굴 영역이 마스크, 안경, 모자 등 액세서리에 의해 차단된 얼굴 이미지이고, 얼굴 영역이 차단됨으로 인해, 본 단계에서 얼굴 차단 이미지 중의 각 얼굴 키포인트 특징을 정확하게 식별하기 어렵기 때문에, 얼굴 관련 키포인트 특징에 기반하여 정렬한 후 획득된 얼굴 차단 이미지의 오차가 커지고, 정확한 정면 얼굴 차단 이미지가 아니므로, 계속하여 하기 S302의 조작을 추가로 수행하여, 정렬된 얼굴 차단 이미지에 대한 공간 변환을 추가로 수행함으로써, 표준적인 정면 얼굴 차단 이미지를 획득한다.

단계(S302)에서, 정렬된 얼굴 차단 이미지의 공간 네트워크 특징에 기반하여, 얼굴 차단 이미지에 대한 공간 변환을 수행함으로써, 정면 얼굴 차단 이미지를 획득한다.

선택적으로, 본 출원의 실시예는 S301에서 얼굴 키포인트 특징에 기반하여 정렬된 얼굴 차단 이미지의 공간 네트워크 특징에 따라, S301에서 정렬된 얼굴 차단 이미지에 대한 공간 변환을 수행함으로써, 최종적인 정면 얼굴 차단 이미지를 획득할 수 있다. 선택적으로, S301에서 정렬된 얼굴 차단 이미지를 공간 변환 네트워크 중의 콘벌루션 네트워크에 입력하여, 정렬된 얼굴 차단 이미지의 특징 이미지를 획득하고; 상기 특징 이미지를 상기 공간 변환 네트워크 중의 포지셔닝 네트워크에 입력하여, 정렬된 얼굴 차단 이미지의 공간 네트워크 특징을 획득하며; 상기 공간 네트워크 특징 및 상기 특징 이미지를 상기 공간 변환 네트워크 중의 변환 네트워크에 입력하여, 상기 특징 이미지의 화소점 전환 데이터를 획득하고; 상기 화소점 전환 데이터 및 상기 특징 이미지를 상기 공간 변환 네트워크 중의 보간 네트워크에 입력하여, 정면 얼굴 차단 이미지를 획득할 수 있다. 구체적인 공간 변환 과정은 상기 실시예에서 설명하였기 때문에, 본 실시예에서는 반복하여 설명하지 않는다.

단계(S303)에서, 정면 얼굴 차단 이미지를 얼굴 식별 네트워크에 입력하여, 신원 식별 결과를 획득한다.

본 출원의 실시예의 기술방안은, 우선 얼굴 차단 이미지의 얼굴 키포인트 특징에 기반하여, 얼굴 차단 이미지에 대한 정렬 처리를 수행하고, 다음 정렬된 얼굴 차단 이미지의 공간 네트워크 특징에 기반하여, 정렬된 얼굴 차단 이미지에 대한 공간 변환을 추가로 수행함으로써, 최종적인 정면 얼굴 차단 이미지를 획득하고, 나아가 얼굴 식별 네트워크를 통해 정면 얼굴 차단 이미지에 대한 사용자 신원 식별을 수행한다. 본 출원의 실시예의 방안은, 얼굴 키포인트 특징 및 공간 네트워크 특징에 기반하여 획득된 얼굴 차단 이미지에 대해 두 번의 공간 변환 처리를 수행함으로써, 최종 획득된 정면 얼굴 차단 이미지의 정확도를 더 향상시키고, 얼굴 식별에 대한 얼굴 식별 시스템의 강건성 및 안정성을 향상시킨다.

도 4A는 본 출원의 실시예에서 제공하는 다른 얼굴 이미지 식별 방법의 흐름도이고; 도 4B는 본 출원의 실시예에서 제공하는 공간 변환 네트워크와 얼굴 식별 네트워크의 합동 트레이닝의 모델 아키텍처 도면이다. 본 실시예는 상기 실시예의 기초상에서 추가로 최적화한 것이고, 모델 트레이닝 단계에서의 공간 변환 네트워크 및 얼굴 식별 네트워크의 구체적인 상황에 대한 설명을 제공한다.

선택적으로, 본 출원의 실시예는 모델 트레이닝 단계에서, 상기 공간 변환 네트워크 및 상기 얼굴 식별 네트워크에 대한 합동 트레이닝을 수행한다. 구체적으로, 도 4B에 도시된 바와 같이, 공간 변환 네트워크(2)의 출력은 얼굴 식별 네트워크(4)의 입력에 연결되어, 공간 변환 네트워크(2) 및 얼굴 식별 네트워크(4)를 하나의 통괄적인 모델 프레임워크에 융합하여 합동 트레이닝을 수행할 수 있다. 이러한 설정의 이점은 공간 변환 네트워크와 얼굴 식별 네트워크 사이의 결합성을 향상시키고, 얼굴 차단 이미지의 사용자 신원 식별의 정확성을 향상시킬 수 있다. 이어서 구체적인 합동 트레이닝 과정을 설명하도록 한다. 도 4A 및 도 4B에 도시된 바와 같이, 해당 방법은 구체적으로 단계(S401), 단계(S402), 단계(S403), 단계(S404), 단계(S405) 및 단계(S406)를 포함한다.

단계(S401)에서, 샘플 얼굴 차단 이미지를 공간 변환 네트워크에 입력하여, 샘플 정면 얼굴 차단 이미지를 획득한다.

선택적으로, 샘플 얼굴 차단 이미지는 액세서리를 착용함으로 인해 얼굴의 일부 영역이 차단된 대량의 얼굴 이미지로 구성될 수 있다. 얼굴의 일부 영역이 차단된 얼굴 이미지를 샘플 얼굴 차단 이미지로 직접 선택할 수 있고, 정상적인 차단되지 않은 얼굴 이미지에 대한 차단 처리를 수행한 후 샘플 얼굴 차단 이미지를 획득할 수도 있다. 본 출원의 실시예는 샘플 얼굴 차단 이미지를 도 4B에 도시된 바와 같은 공간 변환 네트워크(2)의 콘벌루션 네트워크(21)에 입력하면, 콘벌루션 네트워크(21)는 입력된 샘플 얼굴 차단 이미지에 대한 특징 추출을 수행하여, 특징 이미지를 획득한 후, 포지셔닝 네트워크(22), 변환 네트워크(23) 및 보간 네트워크(24)에 입력하고, 포지셔닝 네트워크(22)는 특징 이미지를 분석하여, 공간 네트워크 특징을 획득한 후, 변환 네트워크(23)에 입력하며, 변환 네트워크(23)는 공간 네트워크 특징에 기반하여, 특징 이미지 중의 각 화소점의 위치 좌표에 대한 공간 변환을 수행하여, 화소점 전환 데이터를 획득한 후 보간 네트워크(24)에 입력하고, 보간 네트워크(24)는 수신된 특징 이미지 및 화소점 전환 데이터에 기반하여, 화소점 전환 데이터에 대한 보간 처리를 수행하여, 전환된 샘플 정면 얼굴 차단 이미지를 획득할 수 있다.

단계(S402)에서, 샘플 정면 얼굴 차단 이미지를 얼굴 식별 네트워크에 입력하여, 샘플 신원 식별 결과를 획득한다.

선택적으로, 도 4B에 도시된 바와 같이, 공간 변환 네트워크(2) 및 얼굴 식별 네트워크(4)는 하나의 통괄적인 모델 프레임워크에 융합되었고, 이때 공간 변환 네트워크(2)의 보간 네트워크(24)에 의해 출력된 샘플 정면 얼굴 차단 이미지를 얼굴 식별 네트워크(4) 중의 콘벌루션 네트워크(41)에 입력할 수 있고, 콘벌루션 네트워크(41)는 입력된 샘플 정면 얼굴 차단 이미지에 대한 특징 추출을 수행하여, 샘플 정면 얼굴 차단 이미지의 특징 이미지를 획득한 후 특징 추출 네트워크(42)에 입력하고, 특징 추출 네트워크(42)는 입력된 특징 이미지로부터 얼굴 키포인트 특징을 한층 더 추출하여, 활성화 네트워크(43)에 입력하며, 활성화 네트워크(43)는 추출한 얼굴 키포인트 특징에 기반하여 샘플 얼굴 차단 이미지의 사용자 신원을 예측하여, 샘플 신원 식별 결과를 출력한다.

단계(S403)에서, 샘플 정면 얼굴 차단 이미지, 샘플 신원 식별 결과, 샘플 얼굴 차단 이미지 중 표기된 얼굴 키포인트 및 실제 신원에 따라, 합동 손실 함수를 구축한다.

선택적으로, 본 출원의 실시예는 공간 변환 네트워크(2) 및 얼굴 식별 네트워크(4)에 대한 합동 트레이닝을 수행하는 것이다. 따라서, 감시 신호인 합동 손실 함수는 공간 변환 네트워크(2)에 대한 트레이닝을 감시하기 위한 공간 변환 손실 함수 및 얼굴 식별 네트워크(4)에 대한 트레이닝을 감시하기 위한 식별 손실 함수를 포함해야 한다.

선택적으로, 본 출원의 실시예에서 합동 손실 함수를 구축하는 수행 과정은 샘플 얼굴 차단 이미지 중 표기된 얼굴 키포인트 및 샘플 정면 얼굴 차단 이미지에 따라 공간 변환 손실 함수를 결정하는 것; 샘플 얼굴 차단 이미지 중 표기된 실제 신원 및 샘플 신원 식별 결과에 따라 식별 손실 함수를 결정하는 것; 공간 변환 손실 함수 및 식별 손실 함수에 따라 합동 손실 함수를 구축하는 것; 을 포함할 수 있다. 구체적으로, 샘플 얼굴 차단 이미지에는 정확한 얼굴 키포인트 및 실제 신원이 미리 표기되어 있다. 합동 손실 함수를 구축할 때, 샘플 얼굴 차단 이미지 중 표기된 정확한 얼굴 키포인트에 기반하여, 샘플 얼굴 차단 이미지를 정확하게 정렬하여, 표준 정면 얼굴 차단 이미지로 전환한 다음, 해당 표준 정면 얼굴 차단 이미지와 공간 변환 네트워크(2)에 의해 출력된 샘플 정면 얼굴 차단 이미지를 매칭시켜, 공간 변환 손실 함수를 계산하고; 샘플 얼굴 차단 이미지 중 표기된 실제 신원과 얼굴 식별 네트워크(4)에 의해 예측된 샘플 신원 식별 결과를 매칭시켜, 식별 손실 함수를 계산하고, 계산한 공간 변환 손실 함수 및 식별 손실 함수를 금번 트레이닝된 합동 손실 함수로 사용할 수 있다.

단계(S404)에서, 합동 손실 함수에 기반하여, 공간 변환 네트워크 및 얼굴 식별 네트워크에 대한 트레이닝 감시를 수행한다.

선택적으로, 본 출원의 실시예는 공간 변환 손실 함수 및 식별 손실 함수를 감시 신호로 하여, 공간 변환 네트워크(2) 및 얼굴 식별 네트워크(4)에 대한 트레이닝 감시를 수행하고, 공간 변환 네트워크(2) 및 얼굴 식별 네트워크(4)의 네트워크 파라미터를 끊임없이 업데이트할 수 있다. 구체적으로, 공간 변환 손실 함수에 기반하여 트레이닝된 공간 변환 네트워크(2)를 감시하여, 트레이닝된 공간 변환 네트워크(2)가 입력된 비표준적인 얼굴 차단 이미지를 표준적인 정면 얼굴 차단 이미지로 전환할 수 있도록 하고; 식별 손실 함수에 기반하여 트레이닝된 얼굴 식별 네트워크(4)를 감시하여, 트레이닝된 얼굴 식별 네트워크(4)가 정면 얼굴 차단 이미지로부터 얼굴 키포인트 특징을 보다 정확하게 추출하여, 사용자 신원을 정확하게 식별할 수 있도록 한다.

선택적으로, 본 출원의 실시예는 공간 변환 네트워크(2) 및 얼굴 식별 네트워크(4)에 대한 합동 트레이닝 감시를 수행한 후, 적어도 한 그룹의 테스트 데이터를 사용하여 트레이닝된 공간 변환 네트워크(2) 및 얼굴 식별 네트워크(4)의 정확도를 테스트하고, 두 개의 네트워크의 정확도가 모두 미리 설정된 정밀도 요구를 만족하면, 공간 변환 네트워크(2) 및 얼굴 식별 네트워크(4)에 대한 트레이닝 감시가 종료된다.

단계(S405)에서, 미리 획득된 얼굴 차단 이미지를 트레이닝된 공간 변환 네트워크에 입력하고, 얼굴 차단 이미지의 공간 네트워크 특징에 따라, 얼굴 차단 이미지에 대한 공간 변환을 수행하여, 정면 얼굴 차단 이미지를 획득한다.

단계(S406)에서, 정면 얼굴 차단 이미지를 트레이닝된 얼굴 식별 네트워크에 입력하여, 신원 식별 결과를 획득한다.

본 출원의 실시예의 기술방안은, 공간 변환 네트워크 및 얼굴 식별 네트워크를 하나의 통괄적인 모델 프레임워크에 융합하고, 샘플 얼굴 차단 이미지를 공간 변환 네트워크에 입력하여 획득한 샘플 정면 얼굴 차단 이미지를 얼굴 식별 네트워크에 입력하여, 샘플 신원 식별 결과를 획득하고, 샘플 정면 얼굴 차단 이미지, 샘플 신원 식별 결과, 샘플 얼굴 차단 이미지 중에서 미리 표기된 얼굴 키포인트 및 실제 신원에 따라, 합동 손실 함수를 구축하며, 합동 손실 함수에 기반하여 공간 변환 네트워크 및 얼굴 식별 네트워크에 대한 합동 트레이닝을 수행한다. 합동 트레이닝된 공간 변환 네트워크를 통해 얼굴 차단 이미지의 공간 네트워크 특징에 기반하여, 얼굴 차단 이미지를 정면 얼굴 차단 이미지로 전환하고, 합동 트레이닝된 얼굴 식별 네트워크를 통해 정면 얼굴 차단 이미지에 대한 사용자 신원 식별을 수행한다. 본 출원의 실시예의 방안은, 공간 변환 네트워크 및 얼굴 식별 네트워크를 하나의 통괄적인 모델 프레임워크에 융합하고, 합동 손실 함수에 기반하여 두 개의 네트워크에 대한 합동 트레이닝을 수행함으로써, 공간 변환 네트워크 및 얼굴 식별 네트워크 사이의 결합성을 향상시키고, 나아가 얼굴 차단 이미지의 사용자 신원 식별의 정확성을 향상시킨다.

도 5는 본 출원의 실시예에서 제공하는 얼굴 이미지 식별 장치의 구조 개략도이다. 본 출원의 실시예는 얼굴 이미지에 대한 사용자 신원 식별을 수행하는 경우에 적용된다. 특히, 마스크, 안경 또는 모자 등 액세서리를 착용한 얼굴 차단 이미지에 대한 사용자 신원 식별을 수행하는 경우에 적용된다. 해당 장치는 본 출원의 임의의 실시예에 따른 얼굴 이미지 식별 방법을 구현할 수 있다. 해당 장치는 전자 설비에 통합될 수 있고, 해당 장치(500)는 구체적으로 공간 변환 모듈(501) 및 신원 식별 모듈(502)을 포함한다.

여기서, 공간 변환 모듈(501)은, 미리 획득된 얼굴 차단 이미지의 공간 네트워크 특징에 기반하여, 상기 얼굴 차단 이미지에 대한 공간 변환을 수행함으로써, 정면 얼굴 차단 이미지를 획득하도록 구성되고;

신원 식별 모듈(502)은, 상기 정면 얼굴 차단 이미지를 얼굴 식별 네트워크에 입력하여, 신원 식별 결과를 획득하도록 구성된다.

나아가, 상기 공간 변환 모듈(501)은,

미리 획득된 얼굴 차단 이미지를 공간 변환 네트워크 중의 콘벌루션 네트워크에 입력하여, 상기 얼굴 차단 이미지의 특징 이미지를 획득하도록 구성된 특징 이미지 결정 유닛;

상기 특징 이미지를 상기 공간 변환 네트워크 중의 포지셔닝 네트워크에 입력하여, 상기 얼굴 차단 이미지의 공간 네트워크 특징을 획득하도록 구성된 네트워크 특징 결정 유닛;

상기 공간 네트워크 특징 및 상기 특징 이미지를 상기 공간 변환 네트워크 중의 변환 네트워크에 입력하여, 상기 특징 이미지의 화소점 전환 데이터를 획득하도록 구성된 데이터 전환 유닛;

상기 화소점 전환 데이터 및 상기 특징 이미지를 상기 공간 변환 네트워크 중의 보간 네트워크에 입력하여, 정면 얼굴 차단 이미지를 획득하도록 구성된 데이터 차이값 유닛; 을 포함한다.

나아가, 상기 장치는,

미리 획득된 얼굴 차단 이미지의 얼굴 키포인트 특징에 기반하여, 상기 얼굴 차단 이미지를 정렬하도록 구성된 이미지 정렬 모듈을 더 포함한다.

나아가, 상기 정면 얼굴 차단 이미지는 공간 변환 네트워크에 기반하여 획득되고, 상기 장치는,

모델 트레이닝 단계에서, 상기 공간 변환 네트워크 및 상기 얼굴 식별 네트워크에 대한 합동 트레이닝을 수행하도록 구성된 모델 트레이닝 모듈을 더 포함한다.

나아가, 상기 모델 트레이닝 모듈은,

샘플 얼굴 차단 이미지를 상기 공간 변환 네트워크에 입력하여, 샘플 정면 얼굴 차단 이미지를 획득하도록 구성된 제1 데이터 입력 모듈;

상기 샘플 정면 얼굴 차단 이미지를 상기 얼굴 식별 네트워크에 입력하여, 샘플 신원 식별 결과를 획득하도록 구성된 제2 데이터 입력 모듈;

상기 샘플 정면 얼굴 차단 이미지, 상기 샘플 신원 식별 결과, 상기 샘플 얼굴 차단 이미지 중 표기된 얼굴 키포인트 및 실제 신원에 따라, 합동 손실 함수를 구축하도록 구성된 손실 함수 구축 유닛;

상기 합동 손실 함수에 기반하여, 상기 공간 변환 네트워크 및 상기 얼굴 식별 네트워크에 대한 트레이닝 감시를 수행하도록 구성된 트레이닝 감시 유닛; 을 포함한다.

나아가, 상기 손실 함수 구축 유닛은,

상기 샘플 얼굴 차단 이미지 중 표기된 얼굴 키포인트 및 상기 샘플 정면 얼굴 차단 이미지에 따라 공간 변환 손실 함수를 결정하고;

상기 샘플 얼굴 차단 이미지 중 표기된 실제 신원 및 상기 샘플 신원 식별 결과에 따라 식별 손실 함수를 결정하며;

상기 공간 변환 손실 함수 및 상기 식별 손실 함수에 따라 합동 손실 함수를 구축하도록 구성된다.

본 출원의 실시예에 따르면, 본 출원은 전자 설비 및 판독가능 저장매체를 더 제공한다.

도 6에 도시된 바와 같이, 도 6은 본 출원의 실시예에 따른 얼굴 이미지 식별 방법의 전자 설비의 블록도이다. 전자 설비는 각종 형태의 디지털 컴퓨터, 예를 들어, 랩탑 컴퓨터, 데스크톱 컴퓨터, 워크테이블, 개인용 정보 단말기, 서버, 블레이드 서버, 대형 컴퓨터 및 기타 적합한 컴퓨터를 의미한다. 전자 설비는 각종 형태의 모바일 장치, 예를 들어, 개인 디지털 처리, 휴대 전화기, 스마트폰, 웨어러블 설비 및 기타 유사한 컴퓨팅 장치를 나타낼 수도 있다. 본 문에서 설명된 컴포넌트, 이들의 연결과 관계 및 이들의 기능은 단지 예시적인 것일 뿐, 본 문에서 기술 및/또는 요구한 본 출원의 구현을 한정하지 않는다.

도 6에 도시된 바와 같이, 해당 전자 설비는 하나 이상의 프로세서(601), 메모리(602) 및 각 컴포넌트를 연결하기 위한 인터페이스를 포함하되, 인터페이스는 고속 인터페이스 및 저속 인터페이스를 포함한다. 각각의 컴포넌트는 서로 다른 버스를 이용하여 서로 연결되고, 공통 메인보드에 장착되거나 수요에 따라 기타 방식으로 장착될 수 있다. 프로세서는 전자 설비 내에서 실행되는 명령을 처리할 수 있고, 메모리에 저장되거나 또는 외부 입력/출력장치(예를 들어, 인터페이스에 연결되는 표시설비)에서 GUI 그래픽 정보를 표시하는 메모리 상의 명령을 포함한다. 기타 실시형태에서, 필요한 경우, 복수 개의 프로세서 및/또는 복수 개의 버스와 복수 개의 메모리 및 복수 개의 메모리를 함께 사용할 수 있다. 마찬가지로, 복수 개의 전자 설비를 연결할 수 있고, 각각의 설비는 일부 필요한 조작(예를 들어, 서버 어레이, 블레이드 서버 그룹, 또는 멀티프로세서 시스템)을 제공한다. 도 6에서는 하나의 프로세서(601)를 예로 든다.

메모리(602)는 본 출원에서 제공한 비일시적 컴퓨터 판독가능 저장매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어, 상기 적어도 하나의 프로세서가 본 출원에서 제공한 얼굴 이미지 식별 방법을 수행하도록 한다. 본 출원의 비일시적 컴퓨터 판독가능 저장매체에는 컴퓨터 명령이 저장되고, 해당 컴퓨터 명령은 컴퓨터가 본 출원에서 제공한 얼굴 이미지 식별 방법을 수행하도록 한다.

메모리(602)는 비일시적 컴퓨터 판독가능 저장매체로서, 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 수행 가능 프로그램 및 모듈, 예를 들어, 본 출원의 실시예의 얼굴 이미지 식별 방법에 대응되는 프로그램 명령/모듈(예를 들어, 도 5에 도시된 바와 같은 공간 변환 모듈(501) 및 신원 식별 모듈(502))을 저장할 수 있다. 프로세서(601)는 메모리(602) 내에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써, 서버의 다양한 기능 애플리케이션 및 데이터 처리를 수행하며, 즉 상기 방법 실시예의 얼굴 이미지 식별 방법을 구현하게 된다.

메모리(602)는 프로그램 저장영역 및 데이터 저장영역을 포함할 수 있고, 여기서, 프로그램 저장영역은 조작 시스템, 적어도 하나의 기능에 수요되는 응용 프로그램을 저장할 수 있고; 데이터 저장영역은 얼굴 이미지 식별 방법의 전자 설비를 사용함에 따라 생성된 데이터 등을 저장할 수 있다. 이외, 메모리(602)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 비일시적 메모리, 예를 들어 적어도 하나의 자기디스크 메모리소자, 플래쉬 메모리 소자, 또는 기타 비일시적 솔리드 스테이트 메모리 소자를 포함할 수도 있다. 일부 실시예에서, 메모리(602)는 프로세서(601)에 대해 원격으로 설치된 메모리를 선택적으로 포함할 수 있는데, 이러한 원격 메모리는 네트워크를 통해 얼굴 이미지 식별 방법의 전자 설비에 연결될 수 있다. 상기 네트워크의 예시는 인터넷, 인트라넷, 근거리 통신망, 이동 통신망 및 이들의 조합을 포함하지만 이에 한정되지 않는다.

얼굴 이미지 식별 방법의 전자 설비는 입력장치(603) 및 출력장치(604)를 더 포함할 수 있다. 프로세서(601), 메모리(602), 입력장치(603) 및 출력장치(604)는 버스 또는 기타 방식을 통해 연결될 수 있고, 도 6에서는 버스를 통해 연결된 경우를 예로 든다.

입력장치(603)는 입력한 숫자 또는 문자 정보를 수신할 수 있고, 얼굴 이미지 식별 방법의 전자 설비의 사용자 설정 및 기능 제어와 관련된 키신호 입력을 생성하며, 예를 들어, 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 이상의 마우스 버튼, 트랙볼, 조이스틱 등 입력장치이다. 출력장치(604)는 표시설비, 보조 조명장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 해당 표시설비는 액정표시장치(LCD), 발광다이오드(LED) 표시장치 및 플라즈마 표시장치를 포함할 수 있지만 이에 한정되지 않는다. 일부 실시예에서, 표시설비는 터치 스크린일 수 있다.

여기서 설명된 시스템 및 기술의 각종 실시형태는 디지털전자 회로시스템, 집적회로시스템, 전용 ASIC(전용 집적회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 구현될 수 있다. 이러한 각종 실시형태는 하나 이상의 컴퓨터 프로그램에서 실시되는 것을 포함할 수 있고, 해당 하나 이상의 컴퓨터 프로그램은 적어도 하나의 프로그래밍 가능한 프로세서를 포함하는 프로그래밍 가능한 시스템에서 실행 및/또는 해석(interpretating)될 수 있으며, 해당 프로그래밍 가능한 프로세서는 전용 또는 범용 프로그래밍 가능한 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력장치 및 적어도 하나의 출력장치로부터 데이터 및 명령을 수신할 수 있으며, 데이터 및 명령을 해당 저장 시스템, 해당 적어도 하나의 입력장치 및 해당 적어도 하나의 출력장치로 전송한다.

이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드로도 칭함)은 프로그래밍 가능한 프로세서의 기계 명령을 포함하고, 고급 프로세스 및/또는 대상 지향 프로그래밍 언어, 및/또는 어셈블리/기계 언어를 이용하여 이러한 컴퓨팅 프로그램을 실시할 수 있다. 본 문에서 사용되는 용어 "기계 판독가능 매체" 및 "컴퓨터 판독가능 매체"는 기계 명령 및/또는 데이터를 프로그래밍 가능한 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 설비 및/또는 장치(예를 들어, 자기디스크, 광디스크, 메모리, 프로그래밍 가능한 로직장치(PLD))를 의미하며, 기계 판독가능 신호인 기계 명령을 수신하는 기계 판독가능 매체를 포함한다. 용어 "기계 판독가능 신호"는 기계 명령 및/또는 데이터를 프로그래밍 가능한 프로세서에 제공하는 임의의 신호를 의미한다.

사용자와의 인터랙션을 제공하기 위하여, 컴퓨터에서 여기서 설명된 시스템 및 기술을 실시할 수 있고, 해당 컴퓨터는 사용자에게 정보를 표시하기 위한 표시장치(예를 들어, CRT(음극선관) 또는 LCD(액정표시장치)모니터), 키보드 및 방향지시 장치(예를 들어, 마우스 또는 트랙볼)를 구비하며, 사용자는 해당 키보드 및 해당 방향지시 장치를 통해 컴퓨터에 입력을 제공할 수 있다. 기타 유형의 장치는 사용자와의 인터랙션을 제공할 수도 있으며; 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 센싱 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있으며; 임의의 형태(사운드 입력, 음성 입력 또는 촉각 입력을 포함함)로 사용자로부터의 입력을 수신할 수 있다.

여기서 설명된 시스템 및 기술은 백엔드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프런트엔드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹브라우저를 구비하는 사용자 컴퓨터, 사용자는 해당 그래픽 사용자 인터페이스 또는 해당 웹브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙팅함), 또는 이러한 백엔드 컴포넌트, 미들웨어 컴포넌트, 또는 프런트엔드 컴포넌트를 포함하는 임의의 조합의 컴퓨팅 시스템에서 실시될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)으로 시스템의 컴포넌트를 서로 연결할 수 있다. 통신 네트워크의 예시는 근거리 통신망(LAN), 광역 네트워크(WAN) 및 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 글라이언트 및 서버는 일반적으로 떨어져 있고 통상적으로 통신 네트워크를 통해 인터랙팅한다. 클라이언트와 서버의 관계는 상응하는 컴퓨터에서 작동되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램에 의해 발생된다.

본 출원의 실시예의 기술방안에 따르면, 얼굴 차단 이미지의 공간 네트워크 특징에 기반하여, 얼굴 차단 이미지를 정면 얼굴 차단 이미지로 전환시킨 후, 얼굴 식별 네트워크를 통해 정면 얼굴 차단 이미지에 대한 사용자 신원 식별을 수행한다. 본 출원의 실시예의 방안은, 얼굴 차단 이미지의 공간 네트워크 특징에 따라 정면 얼굴 차단 이미지를 결정하기 때문에, 관련 기술의 얼굴 키포인트 특징에 기반하여 정면 얼굴 차단 이미지를 결정하는 경우에 비해, 얼굴 영역이 차단되어 얼굴 키포인트를 정확하게 식별하기 어려운 상황에서, 전환된 후의 정면 얼굴 차단 이미지의 오차를 대폭 줄이므로, 얼굴 식별의 정확성을 향상시킨다.

유의해야 할 점은, 상기 실시예를 통해 본 출원을 상세하게 설명하였지만, 본 출원은 상기 실시예에 한정되지 않으며, 본 출원의 사상을 벗어나지 않는 범위에서, 보다 많은 기타 등가적 실시예를 더 포함할 수 있으며, 본 출원의 범위는 첨부된 권리범위에 의해 결정된다.

Claims

미리 획득된 얼굴 차단 이미지의 공간 네트워크 특징에 기반하여, 상기 얼굴 차단 이미지에 대한 공간 변환을 수행함으로써, 정면 얼굴 차단 이미지를 획득하는 단계;
상기 정면 얼굴 차단 이미지를 얼굴 식별 네트워크에 입력하여 신원 식별 결과를 획득하는 단계; 를 포함하는, 얼굴 이미지 식별 방법.
제1항에 있어서,
미리 획득된 얼굴 차단 이미지의 공간 네트워크 특징에 기반하여, 상기 얼굴 차단 이미지에 대한 공간 변환을 수행함으로써, 정면 얼굴 차단 이미지를 획득하는 단계는,
미리 획득된 얼굴 차단 이미지를 공간 변환 네트워크 중의 콘벌루션 네트워크에 입력하여, 상기 얼굴 차단 이미지의 특징 이미지를 획득하는 단계;
상기 특징 이미지를 상기 공간 변환 네트워크 중의 포지셔닝 네트워크에 입력하여, 상기 얼굴 차단 이미지의 공간 네트워크 특징을 획득하는 단계;
상기 공간 네트워크 특징 및 상기 특징 이미지를 상기 공간 변환 네트워크 중의 변환 네트워크에 입력하여, 상기 특징 이미지의 화소점 전환 데이터를 획득하는 단계;
상기 화소점 전환 데이터 및 상기 특징 이미지를 상기 공간 변환 네트워크 중의 보간 네트워크에 입력하여, 정면 얼굴 차단 이미지를 획득하는 단계; 를 포함하는, 얼굴 이미지 식별 방법.
제1항에 있어서,
미리 획득된 얼굴 차단 이미지의 공간 네트워크 특징에 기반하여, 상기 얼굴 차단 이미지에 대한 공간 변환을 수행하는 단계 이전에,
미리 획득된 얼굴 차단 이미지의 얼굴 키포인트 특징에 기반하여, 상기 얼굴 차단 이미지를 정렬하는 단계를 더 포함하는, 얼굴 이미지 식별 방법.
제1항에 있어서,
상기 정면 얼굴 차단 이미지는 공간 변환 네트워크에 기반하여 획득되고,
상기 방법은,
모델 트레이닝 단계에서, 상기 공간 변환 네트워크 및 상기 얼굴 식별 네트워크에 대한 합동 트레이닝을 수행하는 단계를 더 포함하는, 얼굴 이미지 식별 방법.
제4항에 있어서,
상기 공간 변환 네트워크 및 상기 얼굴 식별 네트워크에 대한 합동 트레이닝을 수행하는 단계는,
샘플 얼굴 차단 이미지를 상기 공간 변환 네트워크에 입력하여, 샘플 정면 얼굴 차단 이미지를 획득하는 단계;
상기 샘플 정면 얼굴 차단 이미지를 상기 얼굴 식별 네트워크에 입력하여, 샘플 신원 식별 결과를 획득하는 단계;
상기 샘플 정면 얼굴 차단 이미지, 상기 샘플 신원 식별 결과, 상기 샘플 얼굴 차단 이미지 중 표기된 얼굴 키포인트 및 실제 신원에 따라 합동 손실 함수를 구축하는 단계;
상기 합동 손실 함수에 기반하여, 상기 공간 변환 네트워크 및 상기 얼굴 식별 네트워크에 대한 트레이닝 감시를 수행하는 단계; 를 포함하는, 얼굴 이미지 식별 방법.
제5항에 있어서,
상기 샘플 정면 얼굴 차단 이미지, 상기 샘플 신원 식별 결과, 상기 샘플 얼굴 차단 이미지 중 표기된 얼굴 키포인트 및 실제 신원에 따라 합동 손실 함수를 구축하는 단계는,
상기 샘플 얼굴 차단 이미지 중 표기된 얼굴 키포인트 및 상기 샘플 정면 얼굴 차단 이미지에 따라 공간 변환 손실 함수를 결정하는 단계;
상기 샘플 얼굴 차단 이미지 중 표기된 실제 신원 및 상기 샘플 신원 식별 결과에 따라 식별 손실 함수를 결정하는 단계;
상기 공간 변환 손실 함수 및 상기 식별 손실 함수에 따라 합동 손실 함수를 구축하는 단계; 를 포함하는, 얼굴 이미지 식별 방법.
미리 획득된 얼굴 차단 이미지의 공간 네트워크 특징에 기반하여, 상기 얼굴 차단 이미지에 대한 공간 변환을 수행함으로써, 정면 얼굴 차단 이미지를 획득하도록 구성된 공간 변환 모듈;
상기 정면 얼굴 차단 이미지를 얼굴 식별 네트워크에 입력하여 신원 식별 결과를 획득하도록 구성된 신원 식별 모듈; 을 포함하는, 얼굴 이미지 식별 장치.
제7항에 있어서,
상기 공간 변환 모듈은,
미리 획득된 얼굴 차단 이미지를 공간 변환 네트워크 중의 콘벌루션 네트워크에 입력하여, 상기 얼굴 차단 이미지의 특징 이미지를 획득하도록 구성된 특징 이미지 결정 유닛;
상기 특징 이미지를 상기 공간 변환 네트워크 중의 포지셔닝 네트워크에 입력하여, 상기 얼굴 차단 이미지의 공간 네트워크 특징을 획득하도록 구성된 네트워크 특징 결정 유닛;
상기 공간 네트워크 특징 및 상기 특징 이미지를 상기 공간 변환 네트워크 중의 변환 네트워크에 입력하여, 상기 특징 이미지의 화소점 전환 데이터를 획득하도록 구성된 데이터 전환 유닛;
상기 화소점 전환 데이터 및 상기 특징 이미지를 상기 공간 변환 네트워크 중의 보간 네트워크에 입력하여, 정면 얼굴 차단 이미지를 획득하도록 구성된 데이터 차이값 유닛; 을 포함하는, 얼굴 이미지 식별 장치.
제7항에 있어서,
미리 획득된 얼굴 차단 이미지의 얼굴 키포인트 특징에 기반하여, 상기 얼굴 차단 이미지를 정렬하도록 구성된 이미지 정렬 모듈을 더 포함하는, 얼굴 이미지 식별 장치.
제7항에 있어서,
상기 정면 얼굴 차단 이미지는 공간 변환 네트워크에 기반하여 획득되고,
상기 장치는,
모델 트레이닝 단계에서, 상기 공간 변환 네트워크 및 상기 얼굴 식별 네트워크에 대한 합동 트레이닝을 수행하도록 구성된 모델 트레이닝 모듈을 더 포함하는, 얼굴 이미지 식별 장치.
제10항에 있어서,
상기 모델 트레이닝 모듈은,
샘플 얼굴 차단 이미지를 상기 공간 변환 네트워크에 입력하여, 샘플 정면 얼굴 차단 이미지를 획득하도록 구성된 제1 데이터 입력 모듈;
상기 샘플 정면 얼굴 차단 이미지를 상기 얼굴 식별 네트워크에 입력하여, 샘플 신원 식별 결과를 획득하도록 구성된 제2 데이터 입력 모듈;
상기 샘플 정면 얼굴 차단 이미지, 상기 샘플 신원 식별 결과, 상기 샘플 얼굴 차단 이미지 중 표기된 얼굴 키포인트 및 실제 신원에 따라, 합동 손실 함수를 구축하도록 구성된 손실 함수 구축 유닛;
상기 합동 손실 함수에 기반하여, 상기 공간 변환 네트워크 및 상기 얼굴 식별 네트워크에 대한 트레이닝 감시를 수행하도록 구성된 트레이닝 감시 유닛; 을 포함하는, 얼굴 이미지 식별 장치.
제11항에 있어서,
상기 손실 함수 구축 유닛은,
상기 샘플 얼굴 차단 이미지 중 표기된 얼굴 키포인트 및 상기 샘플 정면 얼굴 차단 이미지에 따라 공간 변환 손실 함수를 결정하고;
상기 샘플 얼굴 차단 이미지 중 표기된 실제 신원 및 상기 샘플 신원 식별 결과에 따라 식별 손실 함수를 결정하며;
상기 공간 변환 손실 함수 및 상기 식별 손실 함수에 따라 합동 손실 함수를 구축하도록 구성되는, 얼굴 이미지 식별 장치.
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신적으로 연결되는 메모리; 를 포함하되, 여기서,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항 내지 제6항 중 어느 한 항에 따른 얼굴 이미지 식별 방법을 수행하도록 하는, 전자 설비.
컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독가능 저장매체에 있어서,
상기 컴퓨터 명령은 컴퓨터가 제1항 내지 제6항 중 어느 한 항에 따른 얼굴 이미지 식별 방법을 수행하도록 하는 컴퓨터 명령이 저장되어 있는, 비일시적 컴퓨터 판독가능 저장매체.