KR20220106842A

KR20220106842A - 표정 인식 방법 및 장치, 기기, 컴퓨터 판독 가능한 저장 매체, 컴퓨터 프로그램 제품

Info

Publication number: KR20220106842A
Application number: KR1020227023401A
Authority: KR
Inventors: 옌제 천; 페이 왕; 천 첸
Original assignee: 상하이 센스타임 린강 인텔리전트 테크놀로지 컴퍼니 리미티드
Priority date: 2020-01-08
Filing date: 2020-12-10
Publication date: 2022-07-29
Also published as: JP7317241B2; WO2021139475A1; JP2023509750A; CN111209867A

Abstract

본 발명은 표정 인식 방법 및 장치, 기기, 컴퓨터 판독 가능한 저장 매체, 컴퓨터 프로그램 제품을 제공한다. 여기서, 상기 방법은, 안면 이미지를 획득하는 단계(101); 상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 단계(102); 및 인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하는 단계(103)를 포함한다. 이러한 방법을 통하여 사용자 표정 상태 인식의 정밀도를 향상시킬 수 있다.

Description

표정 인식 방법 및 장치, 기기, 컴퓨터 판독 가능한 저장 매체, 컴퓨터 프로그램 제품

관련 출원의 상호 참조

본 발명은 출원번호가 202010018179.9이고, 출원일자가 2020년 1월 8일인 중국 특허출원에 기반하여 제출하였고, 상기 중국 특허출원의 우선권을 주장하는 바, 상기 중국 특허출원의 모든 내용은 참조로서 본 발명에 인용된다.

본 발명은 컴퓨터 기술분야에 관한 것이나 이에 한정하지 않고, 구체적으로는 표정 인식 방법 및 장치, 기기, 컴퓨터 판독 가능한 저장 매체, 컴퓨터 프로그램 제품에 관한 것이다.

안면 표정 인식은 주어진 정적 이미지 또는 동적 비디오 시퀀스에서 특정 표정 상태를 분리함으로써, 인식된 대상의 심리적 감정을 결정하고 컴퓨터가 안면 표정에 대한 이해와 인식을 구현하는 것을 의미한다.

관련 기술에서, 안면 표정 인식을 수행하는 경우, 일반적으로 인식하고자 하는 이미지를 미리 트레이닝된 표정 인식 모델에 입력하여 예측된 안면 표정을 출력한다. 그러나 이러한 표정 인식 모델은 트레이닝 과정에서, 트레이닝을 위해 표정 레이블을 다량으로 보유한 샘플 이미지가 필요하며, 이러한 샘플 이미지로 트레이닝된 표정 인식 모델은 표정 인식을 수행할 때 일반적으로 정밀도가 떨어진다.

본 발명의 실시예는 표정 인식의 정밀도를 향상시킬 수 있는 표정 인식 방법 및 장치, 기기, 컴퓨터 판독 가능한 저장 매체, 컴퓨터 프로그램 제품을 제공한다.

본 발명의 실시예는,

안면 이미지를 획득하는 단계;

상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 단계; 및

인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하는 단계를 포함하는 표정 인식 방법을 제공한다.

본 발명의 일부 실시예에서, 안면 이미지를 획득하는 단계 이후에, 상기 방법은,

상기 안면 이미지에 대해 이미지 전처리를 수행하여, 처리된 안면 이미지를 획득하는 단계를 더 포함하되, 상기 이미지 전처리는 상기 안면 이미지에 대해 핵심 정보 강화 처리를 수행하고,

상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 단계는,

상기 처리된 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 결정한다.

본 발명의 일부 실시예에서, 상기 안면 이미지에 대해 이미지 전처리를 수행하는 단계는,

상기 안면 이미지 중의 키 포인트의 위치 정보를 결정하는 단계;

상기 키 포인트의 위치 정보를 기반으로, 상기 안면 이미지에 대해 아핀 변환을 수행하여 상기 안면 이미지에 대응하는 정면으로 보정된 이미지를 획득하는 단계; 및

정면으로 보정된 이미지를 정규화 처리하여, 처리된 안면 이미지를 획득하는 단계를 포함한다.

본 발명의 일부 실시예에서, 상기 정면으로 보정된 이미지를 정규화 처리하는 단계는,

상기 키 포인트의 위치 정보를 기반으로, 상기 정면으로 보정된 이미지에 대해 이미지 크롭을 수행하여 크롭된 이미지를 획득하는 단계;

상기 크롭된 이미지에 포함된 각 픽셀점의 픽셀값의 평균값 및 상기 크롭된 이미지에 포함된 각 픽셀점의 픽셀값의 표준편차를 계산하는 단계; 및

상기 픽셀값의 평균값 및 상기 픽셀값의 표준편차를 기반으로, 상기 크롭된 이미지 중의 각각의 픽셀점의 픽셀값을 정규화 처리하는 단계를 포함한다.

본 발명의 일부 실시예에서, 안면의 기관의 모션은,

눈살 찌푸리기, 눈 부릅뜨기, 입꼬리 올리기, 윗입술 위로 올리기, 입꼬리 내리기, 입 벌리기를 포함한다.

본 발명의 일부 실시예에서, 상기 인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하는 단계는,

인식된 상기 각 기관의 모션, 및 기설정된 모션과 표정 상태 간의 대응 관계를 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하는 단계를 포함한다.

본 발명의 일부 실시예에서, 상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 단계는, 모션 인식을 위한 신경망에 의해 수행되고, 상기 모션 인식을 위한 신경망은 백본망과 적어도 두 개의 분류 분기망을 포함하며, 각각의 분류 분기망은 안면의 하나의 기관의 한 가지 모션을 인식하고;

백본망을 이용하여 상기 안면 이미지에 대해 특징 추출을 수행하여, 상기 안면 이미지의 특징맵을 획득하는 단계;

각각의 분류 분기망을 각각 이용하여 상기 안면 이미지의 특징맵에 따라 모션 인식을 수행하여，각각의 분류 분기망이 인식 가능한 모션의 발생 확률을 획득하는 단계; 및

기설정된 확률보다 발생 확률이 높은 모션을 상기 안면 이미지가 나타내는 안면의 기관의 모션으로 결정하는 단계를 포함한다.

본 발명의 일부 실시예에서, 상기 모션 인식을 위한 신경망은 샘플 이미지 및 상기 샘플 이미지에 대응하는 레이블 벡터를 이용해 트레이닝하여 획득되되, 상기 샘플 이미지에 대응하는 레이블 벡터는 상기 샘플 이미지가 나타내는 안면의 기관의 모션을 나타내고; 레이블 벡터 중의 각각의 요소 위치의 값은 상기 샘플 이미지에서 상기 요소 위치에 대응하는 모션이 발생하는지 여부를 나타낸다.

본 발명의 일부 실시예에서, 샘플 이미지 및 상기 샘플 이미지에 대응하는 레이블 벡터를 이용하여 상기 모션 인식을 위한 신경망을 트레이닝하는 단계는,

신경망의 백본망을 이용하여 샘플 이미지에 대해 특징 추출을 수행하여 샘플 이미지의 특징맵을 획득하는 단계;

각각의 분류 분기망을 각각 이용하여 상기 샘플 이미지의 특징맵에 따라 모션 인식을 수행하여 각각의 분류 분기망이 인식 가능한 모션의 발생 확률을 획득하는 단계;

각각의 분류 분기망이 인식 가능한 모션의 발생 확률 및 샘플 이미지의 레이블 벡터를 기반으로, 각각의 분류 분기망에 대응하는 손실값을 결정하는 단계; 및

상기 신경망의 각각의 분류 분기망에 대응하는 손실값을 기반으로，상기 신경망의 파라미터값을 조정하는 단계를 포함한다.

본 발명의 실시예는,

안면 이미지를 획득하도록 구성된 획득 모듈;

상기 안면 이미지에 따라，상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하도록 구성된 인식 모듈; 및

인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하도록 구성된 결정 모듈을 포함하는 표정 인식 장치를 더 제공한다.

본 발명의 실시예는, 프로세서, 메모리 및 버스를 포함하고, 상기 메모리에는 상기 프로세서에 의해 실행 가능한 기계 판독 가능 명령이 저장되며, 컴퓨터 기기가 작동될 경우, 상기 프로세서와 상기 메모리는 버스를 통해 통신하고, 상기 기계 판독 가능 명령이 상기 프로세서에 의해 실행될 경우, 상기 본 발명의 실시예에 따른 방법의 부분 또는 전부 단계를 수행하는 컴퓨터 기기를 더 제공한다.

본 발명의 실시예는, 컴퓨터 프로그램이 저장되고, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 상기 본 발명의 실시예에 따른 방법의 부분 또는 전부 단계를 수행하는 컴퓨터 판독 가능한 저장 매체를 더 제공한다.

본 발명의 실시예는, 컴퓨터 프로그램이 저장된 비일시적 컴퓨터 판독 가능한 저장 매체를 포함하고, 상기 컴퓨터 프로그램이 컴퓨터에 의해 판독되고 실행될 경우, 본 발명의 실시예에 따른 방법의 부분 또는 전부 단계를 구현하는 컴퓨터 프로그램 제품을 제공한다. 상기 컴퓨터 프로그램 제품은 하나의 소프트웨어 설치 패키지일 수 있다.

상기 표정 인식 장치, 컴퓨터 기기, 컴퓨터 판독 가능한 저장 매체 및 컴퓨터 프로그램 제품의 효과는 상기 표정 인식 방법에 대한 설명을 참조할 수 있으며 여기서 더 이상 설명하지 않는다.

본 발명의 실시예의 상술한 목적, 특징 및 장점을 보다 명확하고 용이하게 이해하도록, 이하에서는 첨부된 도면과 함께 예시적인 실시예를 예로 들어 하기와 같이 상세히 설명한다.

본 발명의 실시예의 기술적 해결수단을 보다 명확하게 설명하기 위하여 이하 실시예에서 사용되는 첨부 도면을 간단히 설명한다. 여기서 도면은 명세서에 병합되어 본 명세서의 일부분을 구성하고, 이러한 도면은 본 발명에 부합되는 실시예를 나타내며, 명세서와 함께 본 발명의 기술적 해결수단을 해석하기 위한 것이다. 아래의 도면은 본 발명의 일부 실시예를 도시할 뿐 범위를 한정하는 것으로 간주해서는 안되며, 본 기술분야의 통상의 기술자들은 진보성 창출에 힘 쓸 필요없이 이러한 도면으로부터 관련된 다른 도면을 얻을 수 있음을 이해해야 한다.
도 1은 본 발명의 실시예에서 제공되는 표정 인식 방법의 흐름 모식도이다.
도 2는 본 발명의 실시예에서 제공되는 이미지 전처리 방법의 흐름 모식도이다.
도 3은 본 발명의 실시예에서 제공되는 이미지 크롭 방법의 흐름 모식도이다.
도 4는 본 발명의 실시예에서 제공되는 모션 인식을 위한 신경망의 네트워크 구조이다.
도 5는 본 발명의 실시예에서 제공되는 모션 인식을 위한 신경망의 트레이닝 방법의 흐름 모식도이다.
도 6은 본 발명의 실시예에서 제공되는 키 포인트 검출 모델의 트레이닝 방법의 흐름 모식도이다.
도 7은 본 발명의 실시예에서 제공되는 표정 인식 장치의 아키텍처 모식도이다.
도 8은 본 발명의 실시예에서 제공되는 전자 기기의 구조 모식도이다.

본 발명의 실시예의 목적, 기술적 해결수단 및 장점을 보다 명확하게 하기 위해, 아래에서 본 발명의 실시예의 첨부 도면을 참조하여 본 발명의 실시예의 기술적 해결수단을 명확하고 완전하게 설명하되, 설명된 실시예는 본 발명의 일부 실시예일 뿐 전체 실시예가 아님은 분명하다. 여기 도면에서 통상적으로 설명되거나 도시되는 본 발명의 실시예의 컴포넌트는 여러가지 상이한 구성으로 배열 및 설계할 수 있다. 따라서, 첨부 도면에서 제공되는 본 발명의 실시예에 대한 상세한 설명은 보호하고자 하는 본 발명의 범위를 한정하려는 것이 아니라, 본 발명의 선택적 실시예를 나타내는 것에 불과하다. 본 발명의 실시예를 기반으로, 당업자가 진보성 창출에 힘 쓸 필요없이 획득한 모든 다른 실시예는 전부 본 발명의 보호 범위 내에 속한다.

관련 기술에서, 안면 인식을 수행하는 경우, 일반적으로 신경망을 기반으로 이미지 중의 사용자 표정을 직접 인식하지만, 이러한 신경망 트레이닝 과정에서, 일반적으로 샘플 이미지에 샘플 이미지 중의 사용자의 표정을 나타내는 표정 레이블을 추가해야 되지만, 샘플 이미지에 표정 레이블을 수동으로 추가해야 하므로, 추가된 표정 레이블은 사용자의 주관적인 생각을 담고 있으며, 상이한 사용자가 동일한 샘플 이미지에 상이한 표정 레이블을 추가하는 경우가 발생할 수 있어(예를 들어, 동일한 이미지에 대하여, 사용자 A가 추가한 표정 레이블은 우울일 수 있고， 사용자 B가 추가한 표정 레이블은 사고일 수 있음), 표정 예측 시 신경망의 정밀도가 영향을 받을 수 있다.

이에 의하여, 본 발명의 실시예는 신경망을 통하여 안면 이미지 중의 기관의 모션을 인식한 다음, 인식된 기관의 모션을 기반으로, 안면에 대응하는 표정 상태를 결정할 수 있는 표정 인식 방법을 제공한다. 안면의 기관의 모션과 안면의 표정 상태 간의 관계는 객관적으로 존재하기 때문에, 이러한 방식을 기반으로, 사용자가 안면 이미지에 대해 표정 상태를 주관적으로 정의할 필요가 없고, 이 밖에, 안면 기관의 모션은 어떤 특정한 안면 특징에 집중할 수 있으므로, 표정 자세의 직접적인 인식과 비교하여 안면 이미지에서 기관의 모션의 인식의 정확성을 크게 향상시킬 수 있으므로, 본 발명의 실시예의 상기 방법은 안면 표정 인식의 정밀도를 향상시킬 수 있다.

설명해야 할 것은, 상기 기술적 과제에 대한 제안 및 분석 과정은 모두 발명자가 실천과 세심한 연구 끝에 얻은 결과이므로, 상기 기술적 과제의 발견 과정, 및 상기 기술적 과제에 대해 본 발명의 실시예에서 제안하는 해결수단은 모두 발명자가 본 발명의 과정에서 본 발명에 기여한 것이다.

아래에서 본 발명의 첨부 도면을 참조하여 본 발명의 기술적 해결수단을 명확하고 완전하게 설명하되, 설명된 실시예는 본 발명의 일부 실시예일 뿐 전체 실시예가 아님은 분명하다. 여기 도면에서 통상적으로 설명되거나 도시되는 본 발명의 실시예의 컴포넌트는 여러가지 상이한 구성으로 배열 및 설계할 수 있다. 따라서, 첨부 도면에서 제공되는 본 발명의 실시예에 대한 상세한 설명은 보호하고자 하는 본 발명의 범위를 한정하려는 것이 아니라, 본 발명의 선택적 실시예를 나타내는 것에 불과하다. 본 발명의 실시예를 기반으로, 당업자가 진보성 창출에 힘 쓸 필요없이 획득한 모든 다른 실시예는 전부 본 발명의 보호 범위 내에 속한다.

아래의 도면에서 유사한 부호와 문자는 유사한 항을 나타내므로, 일단 어느 한 항이 한 도면에서 정의되면, 그 다음 도면에서 추가적인 정의 및 설명이 필요하지 않음에 유의해야 한다.

본 실시예에 대한 이해를 돕기 위해, 우선 본 발명의 실시예에 개시된 표정 인식 방법을 자세히 소개한다. 본 발명의 실시예에서 제공되는 표정 인식 방법의 수행 주체는 일반적으로 일정한 컴퓨팅 능력을 구비한 컴퓨터 기기로, 상기 컴퓨터 기기는 예들 들어 단말 기기 또는 서버 또는 다른 처리 기기를 포함하고, 단말 기기는 사용자 기기(User Equipment, UE), 모바일 기기, 사용자 단말기, 단말기, 셀룰러폰, 무선 전화, 개인 휴대 정보 단말기(Personal Digital Assistant, PDA), 핸드헬드 기기, 컴퓨팅 기기, 차량 탑재 기기, 웨어러블 기기 등일 수 있다. 일부 가능한 실시형태에서, 상기 표정 인식 방법은 메모리에 저장된 컴퓨터 판독 가능 명령을 호출하는 프로세서에 의해 구현될 수 있다.

도 1을 참조하면, 도 1은 본 발명의 실시예에서 제공되는 표정 인식 방법의 흐름도이고, 하기와 같은 단계를 포함한다.

단계 101에서, 안면 이미지를 획득한다.

단계 102에서, 상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식한다.

단계 103에서, 인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정한다.

상기 방법은 우선 안면의 기관의 모션을 인식한 다음, 인식된 모션을 기반으로, 안면에 대응하는 표정 상태를 결정할 수 있고, 안면의 기관의 모션과 안면의 표정 상태 간의 관계는 객관적으로 존재하기 때문에, 이러한 방식을 기반으로, 모델 트레이닝 시 사용자가 안면 이미지에 대해 표정 상태를 주관적으로 정의할 필요가 없고, 이 밖에, 안면 기관의 모션은 어떤 특정한 안면 특징에 집중할 수 있으므로, 표정 자세의 직접적인 인식과 비교하여 안면 이미지에서 기관의 모션의 인식의 정확성을 크게 향상시킬 수 있으므로, 본 발명의 실시예의 상기 방법은 안면 표정 인식의 정밀도를 향상시킬 수 있다.

이하, 상기 단계 101 내지 단계 103에 대해 자세히 설명한다.

단계 101에 대하여,

단계 101에서 획득된 상기 안면 이미지는, 인식 시작 명령을 수신 후, 상기 표정 인식 방법을 제어 및 수행하는 전자 기기와 연결된 이미지 수집 장치에 의해 촬영된 이미지일 수 있고, 데이터베이스에 미리 저장된 안면 이미지 집합에서 획득한 안면 이미지일 수도 있으며; 여기서, 상기 표정 인식 방법을 수행하는 전자 기기는 자체적으로 이미지 수집 장치를 휴대할 수 있고, 외부로 이미지 수집 장치를 연결할 수 있으며, 그 연결 방식은 유선 연결 및, 블루투스 연결, 무선랜 연결 등과 같은 무선 연결을 포함할 수 있다.

단계 102에 대하여,

안면 이미지를 트레이닝된 신경망에 입력하여 안면의 기관의 모션 인식을 수행하기 전에, 신경망이 모션 인식을 수행하는 효율과 정밀도를 향상시키기 위해, 본 발명의 일부 실시예에서, 우선 안면 이미지에 대해 이미지 전처리를 수행하여, 처리된 안면 이미지를 획득하고; 여기서, 상기 이미지 전처리는 안면 이미지에 대해 핵심 정보 강화 처리하며; 다음으로 처리된 안면 이미지를 트레이닝된 신경망에 입력하여 모션 인식을 수행할 수도 있다. 여기서, 안면 이미지에 대해 이미지 전처리를 수행하여, 안면 이미지에 대해 핵심 정보 강화 처리를 수행할 수 있으므로, 모션 인식의 정밀도를 향상시킬 수 있다.

본 발명의 일부 실시예에서, 안면 이미지에 대해 이미지 전처리를 수행하는 경우, 도 2에 도시된 이미지 전처리 방법을 참조할 수 있고, 하기와 같은 단계를 포함한다.

단계 201에서, 안면 이미지 중의 키 포인트의 위치 정보를 결정한다.

안면 이미지 중의 키 포인트는 예를 들어 눈꼬리, 입꼬리, 미간, 눈썹꼬리, 코 등을 포함하고, 실시하는 경우, 안면 이미지 중의 키 포인트는 요구에 따라 설정할 수 있고; 키 포인트의 위치 정보는 안면 이미지에서 키 포인트의 위치 좌표일 수 있으며, 예시적으로, 안면 이미지 중의 키 포인트를 결정한 후, 안면 이미지의 좌상단을 좌표 원점으로 하고, 좌상단에서 우상단까지의 수평 방향을 X축으로 하며, 좌상단에서 좌하단까지의 수직 방향을 Y축으로 하여 직각 좌표계를 구축한 다음, 직각 좌표계에서 안면 이미지 중의 키 포인트의 좌표를 결정하고, 결정된 좌표를 키 포인트의 위치 정보로 사용할 수 있다.

안면 이미지 중의 키 포인트의 위치 정보를 결정하는 경우, 안면 이미지를 트레이닝된 키 포인트 검출 모델에 입력하여, 키 포인트의 위치 정보를 획득하고; 다른 실시형태에서, 키 포인트 인식의 효율을 향상시키기 위해, 우선 안면 이미지 중의 안면 영역을 인식하고, 안면 영역 내의 이미지를 캡처한 다음, 캡처된 안면 영역 내의 이미지를 트레이닝된 키 포인트 검출 모델에 입력하여, 키 포인트의 위치 정보를 획득할 수도 있다. 키 포인트 검출 모델의 트레이닝 방법은 아래에서 자세히 설명하고, 여기서는 설명하지 않는다.

여기서, 안면 이미지 중의 안면 영역을 인식하는 경우, 예를 들어 안면 인식 알고리즘에 의해 인식할 수 있으며, 인식 과정은 더 이상 소개하지 않는다.

단계 202에서, 키 포인트의 위치 정보를 기반으로, 안면 이미지에 대해 아핀 변환을 수행하여 안면 이미지에 대응하는 정면으로 보정된 이미지를 획득한다.

키 포인트의 위치 정보를 기반으로, 안면 이미지에 대해 아핀 변환을 수행하는 경우, 우선 키 포인트의 위치 정보 및 미리 저장된 타깃 키 포인트의 기설정된 위치 정보를 기반으로, 안면 이미지에서 각각의 키 포인트의 위치 정보, 및 상기 키 포인트와 매칭되는 타깃 키 포인트의 기설정된 위치 정보 간의 변환 관계를 나타내는 변환 행렬을 결정한 다음, 변환 행렬을 기반으로, 안면 이미지에 대해 아핀 변환을 수행할 수 있다.

키 포인트를 눈(왼쪽 눈과 오른쪽 눈을 포함)과 입으로 예를 들면, 미리 저장된 타깃 키 포인트의 기설정된 위치 정보는 미리 저장된 눈과 입의 위치 좌표일 수 있고, 실시하는 경우, 기설정된 위치 정보는 복수의 샘플 이미지에서 타깃 키 포인트의 좌표를 기반으로 평균값을 계산하여 얻을 수 있다. 예시적으로, 100개의 표준 샘플 이미지를 획득하면, 샘플 이미지 중의 왼쪽 눈을 좌표 원점으로 사용하여 오른쪽 눈과 입의 위치 좌표를 각각 결정한 다음, 입과 오른쪽 눈의 위치 좌표의 평균값을 계산하여, 계산된 평균값 및 왼쪽 눈의 좌표(즉, 좌표 원점)를 타깃 키 포인트의 기설정된 위치 정보로 결정할 수 있다.

실제 응용에서, 왼쪽 눈은 좌표 원점으로 사용하지 않을 수도 있으며, 이때, 타깃 키 포인트의 기설정된 위치 정보는 왼쪽 눈과 오른쪽 눈 사이의 거리, 입과 왼쪽 눈 사이의 거리, 입과 오른쪽 눈 사이의 거리 등과 같은 타깃 키 포인트 간의 위치 관계일 수 있다.

본 발명의 일부 실시예에서, 미리 저장된 타깃 키 포인트의 기설정된 위치 관계는 수동으로 설정할 수도 있다.

키 포인트의 위치 정보 및 미리 저장된 타깃 키 포인트의 기설정된 위치 정보를 기반으로, 변환 행렬을 결정하는 경우, 아래 공식 (1-1)에 따라 계산할 수 있다.

여기서, x’，y’는 미리 저장된 타깃 키 포인트의 횡좌표 및 종좌표를 표시하고, x，y는 키 포인트의 횡좌표 및 종좌표를 표시하며,

는 변환 행렬을 표시한다.

변환 행렬을 기반으로, 안면 이미지에 대해 아핀 변환을 수행하는 경우, 우선 안면 이미지에서 각각의 픽셀점의 좌표를 결정한 다음, 안면 이미지에서 각각의 픽셀점의 좌표를 상기 공식에 대입하여, 각각의 픽셀점에 대응하는 변환된 좌표를 결정하고, 각각의 픽셀점에 대응하는 변환된 좌표를 기반으로, 안면 이미지에 대응하는 정면으로 보정된 이미지를 결정할 수 있다.

안면 이미지에 대해 아핀 변환을 수행하여 안면 이미지에서 상이한 방향을 향하는 안면 이미지를 정면 방향을 향하는 안면 이미지로 전환할 수 있고, 안면 이미지에 대응하는 정면으로 보정된 이미지를 기반으로 모션 인식을 수행하여, 모션 인식의 정밀도를 향상시킬 수 있다.

단계 203에서, 정면으로 보정된 이미지를 정규화 처리하여, 처리된 안면 이미지를 획득한다.

본 발명의 일부 실시예에서, 키 포인트의 위치 정보를 기반으로, 안면 이미지에 대해 아핀 변환을 수행하여 안면 이미지에 대응하는 정면으로 보정된 이미지를 획득한 후, 키 포인트의 위치 정보를 기반으로, 정면으로 보정된 이미지에 대해 이미지 크롭을 수행하여 크롭된 이미지를 획득한 다음, 크롭된 이미지를 정규화 처리할 수도 있다. 여기서, 정면으로 보정된 이미지에 대해 이미지 크롭을 수행 처리하여, 안면 부분을 제외한 배경 영역이 모션 인식 속도에 대한 영향을 줄일 수 있다.

여기서, 키 포인트의 위치 정보를 기반으로, 정면으로 보정된 이미지에 대해 이미지 크롭을 수행하는 경우, 우선 정면으로 보정된 이미지의 모든 키 포인트의 위치 정보에서 횡좌표 및 종좌표의 최대치와 최소치를 결정한 다음, 횡좌표 및 종좌표의 최대치와 최소치를 기반으로, 정면으로 보정된 이미지에 대해 이미지 크롭을 수행할 수 있다.

예시적으로, 도 3에 도시된 바와 같이, 인식된 키 포인트(31)에서 횡좌표 최대치가 x₁이고, 최소치가 x₂이며, 종좌표 최대치가 y₁이고, 최소치가 y₂이면, 우선 횡좌표 및 종좌표의 최대치와 최소치를 기반으로 최소 절단 영역을 결정한 다음, 최소 절단 영역이 기설정된 거리인 영역을 절단선(32)으로 사용하여, 정면으로 보정된 이미지(33)에 대해 이미지 크롭을 수행할 수 있다.

크롭된 이미지를 정규화 처리하는 경우, 우선 크롭된 이미지에 포함된 각 픽셀점의 픽셀값의 평균값 및 크롭된 이미지에 포함된 각 픽셀점의 픽셀값의 표준편차를 계산한 다음, 픽셀값의 평균값 및 픽셀값의 표준편차를 기반으로, 크롭된 이미지 중의 각각의 픽셀점의 픽셀값을 정규화 처리할 수 있다.

본 발명의 일부 실시예에서, 픽셀값의 평균값 및 픽셀값의 표준편차를 기반으로, 크롭된 이미지 중의 각각의 픽셀점의 픽셀값을 정규화 처리하는 경우, 아래 공식 (1-2)을 참조할 수 있다.

여기서, Z는 픽셀점을 정규화 처리한 픽셀값을 표시하고, X는 픽셀점을 정규화 처리하기 전의 픽셀값을 표시하며, μ는 픽셀값의 평균값을 표시하고, σ는 픽셀값의 표준편차를 표시한다.

여기서, 키 포인트의 위치 정보에 의해, 안면 이미지에 대해 아핀 변환을 수행한 후, 안면 이미지 중의 사용자의 얼굴 방향이 기관의 모션 인식의 영향을 받지 않도록 안면 이미지를 보정할 수 있고; 나아가, 정면으로 보정된 이미지를 정규화 처리하여, 아핀 변환 후 나타나는 원래 존재하지 않는 안면 특징이 기관의 모션 인식에 대한 영향을 줄일 수 있다.

본 발명의 일부 실시예에서, 안면 이미지에 대해 이미지 전처리를 수행하기 이전, 우선 안면 이미지의 이미지 타입을 검출할 수도 있되, 검출된 안면 이미지가 RGB 컬러 이미지이면, 우선 안면 이미지를 그레이 스케일 이미지로 전환한 다음, 전환된 이미지에 대해 이미지 전처리 과정을 수행하고, 검출된 안면 이미지가 그레이 스케일 이미지이면, 안면 이미지에 대해 이미지 전처리 과정을 수행할 수 있다.

안면 이미지를 기반으로, 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 단계는 모션 인식을 위한 신경망에 의해 수행될 수 있고; 모션 인식을 위한 신경망은 백본망과 적어도 두 개의 분류 분기망을 포함하며, 각각의 분류 분기망은 한 가지 기관의 모션을 인식한다.

본 발명의 일부 실시예에서, 안면 이미지를 모션 인식을 위한 신경망에 입력하고, 백본망으로 안면 이미지에 대해 특징 추출을 수행하여, 안면 이미지의 특징맵을 획득한 다음, 각각의 분기망을 각각 이용하여 안면 이미지의 특징맵에 따라 모션 인식하여, 각각의 분류 분기망이 인식 가능한 모션의 발생 확률을 획득하고，기설정된 확률보다 발생 확률이 큰 모션을 안면 이미지가 나타내는 안면의 기관의 모션으로 결정할 수 있다.

여기서, 안면의 기관의 모션은,

예시적으로, 모션 인식을 위한 신경망의 네트워크 구조는 도4에 도시된 바와 같다. 신경망은 분류 분기망(421 내지 426)을 포함하고, 분류 분기망(421)은 모션 1을 인식하며, 분류 분기망(422)은 모션 2를 인식하고, 이에 따라 유추하면, 안면 이미지를 신경망의 각 분류 분기망에 입력한 후, 우선 백본망(410)에 기반하여 안면 이미지에 대해 특징 추출을 수행하여, 안면 이미지에 대응하는 특징맵을 획득한 다음, 안면 이미지에 대응하는 특징맵을 각 분류 분기망에 각각 입력하고, 각각의 분류 분기망은 상기 네트워크에 대응하는 기관의 모션의 발생 확률을 출력하며, 각 분류 분기망의 출력은 분류 네트워크(430)에 재입력되어, 분류 네트워크(430)는 기설정된 확률보다 대응하는 발생 확률이 큰 기관의 모션을 출력하며, 분류 네트워크(430)의 출력은 즉 신경망의 출력이다.

설명해야 할 것은, 모션 인식을 위한 신경망 중의 각 분류 분기망은 동시에 트레이닝을 수행하고, 그 트레이닝 방법은 아래에서 설명할 것이며, 여기서 더 이상 소개하지 않는다.

여기서, 안면 이미지가 복수의 기관의 모션을 포함하는 경우, 이러한 방법에 의해, 안면 이미지에 대응하는 복수의 기관의 모션을 동시에 인식할 수 있고, 이 밖에, 여기서 각각의 분류 분기망을 사용하여 대응하는 기관의 모션을 각각 인식하며, 각각의 분류 분기망을 트레이닝하는 경우, 특정 모션에 대응하는 이미지 특징에 집중할 수 있으므로, 이러한 방식은 트레이닝된 분류 분기망의 인식 정밀도가 더욱 높아지도록 함으로써, 이미지 인식의 정확률이 더욱 높아지도록 할 수 있다.

단계 103에 대하여,

실제 응용에서, 사용자의 표정 상태와 사용자의 얼굴 모션 간에는 일정한 대응 관계가 있다. 예시적으로, 사용자의 얼굴 모션이 입꼬리 올리기인 경우, 대응하는 표정 상태는 기쁨이고, 사용자의 얼굴 모션이 눈 부릅뜨기, 입 벌리기인 경우, 대응하는 표정 상태는 놀람이다.

본 발명의 일부 실시예에서, 인식된 기관의 모션을 기반으로, 안면 이미지에 대응하는 사용자 표정 상태를 결정하는 경우, 인식된 안면의 각 기관의 모션, 및 기설정된 모션과 표정 상태 간의 대응 관계를 기반으로, 안면 이미지에 대응하는 사용자 표정 상태를 결정할 수 있다.

여기서, 기설정된 모션과 표정 상태 간의 대응 관계는 예시적으로 아래 표1에 나타낸 바와 같을 수 있다.

표1 기설정된 모션과 표정 상태의 대응 관계표

이러한 방법을 통하여, 우선 안면 이미지 중의 기관의 모션을 인식한 다음, 인식된 기관의 모션을 기반으로, 안면 이미지에 대응하는 사용자 표정 상태를 결정할 수 있다. 사용자의 표정 상태를 직접 인식하는 것과 비교하면, 이러한 방식은 인식 결과에 대한 사용자 주관적 인식의 영향을 줄일 수 있고, 사용자 표정 상태의 인식 정밀도를 향상시킬 수 있다.

도 5를 참조하면, 도5는 본 발명의 실시예에서 제공되는 모션 인식을 위한 신경망의 트레이닝 방법의 흐름 모식도이고, 하기와 같은 단계를 포함한다.

단계 501에서, 샘플 이미지 및 상기 샘플 이미지에 대응하는 레이블 벡터를 획득한다.

여기서, 상기 샘플 이미지에 대응하는 레이블 벡터는 상기 샘플 이미지가 나타내는 안면의 기관의 모션을 나타내고; 레이블 벡터 중의 각각의 요소 위치의 값은 상기 샘플 이미지에서 상기 요소 위치에 대응하는 모션이 발생하는지 여부를 나타낸다.

동일한 모션 인식을 위한 동일한 신경망을 트레이닝하는 과정에서, 상이한 샘플 이미지에 대응하는 레이블 벡터의 요소값의 개수는 동일하고, 레이블 벡터의 요소값의 개수와 신경망에 포함된 분류 분기망의 개수는 동일하다.

예시적으로, 레이블 벡터의 요소 개수가 6개를 포함하면, 첫 번째 요소는 눈살 찌푸리기 여부, 두 번째 요소는 눈 부릅뜨기 여부, 세 번째 요소는 입꼬리 올리기 여부, 네 번째 요소는 윗입술 위로 올리기 여부, 다섯 번째 요소는 입꼬리 내리기 여부, 여섯 번째 요소는 입 벌리기 여부를 표시하고, 사용자의 모션이 눈 부릅뜨기와 입 벌리기면, 대응하는 레이블 벡터는 [0, 1, 0, 0, 0, 1](레이블 벡터 중“0”은 상기 요소 위치에 대응하는 안면 위치에서 대응하는 모션이 발생하는 것을 표시하고， “1”은 상기 요소 위치에 대응하는 안면 위치에서 대응하는 모션이 발생하지 않은 것을 표시함)이다.

단계 502에서, 신경망의 백본망을 이용하여 샘플 이미지에 대해 특징 추출을 수행하여 샘플 이미지의 특징맵을 획득한다.

단계 503에서, 각각의 분류 분기망을 각각 이용하여 상기 샘플 이미지의 특징맵에 따라 모션 인식을 수행하여 각각의 분류 분기망이 인식 가능한 모션의 발생 확률을 획득한다.

단계 504에서, 각각의 분류 분기망이 인식 가능한 모션의 발생 확률 및 샘플 이미지의 레이블 벡터를 기반으로, 각각의 분류 분기망에 대응하는 손실값을 결정한다.

본 발명의 일부 실시예에서, 임의의 분류 분기망에 대하여, 상기 분류 분기망에 대응하는 손실값을 결정하는 경우, 아래 공식을 참조할 수 있다.

여기서, n의 값은 레이블 벡터 중의 요소 개수에서 1을 뺀 것이고,

는 레이블 벡터 중의 k번째 요소를 표시하고, p는 상기 분류 분기망이 출력한 발생 확률을 표시한다.

단계 505에서, 상기 신경망의 각각의 분류 분기망에 대응하는 손실값을 기반으로，상기 신경망의 파라미터값을 조정한다.

본 발명의 일부 실시예에서, 신경망 중 각각의 분류 분기망에 대응하는 손실값을 기반으로, 신경망의 파라미터를 조정하는 경우, 우선 신경망 중 각각의 분류 분기망에 대응하는 손실값을 기반으로, 이번 트레이닝 과정 중의 전체 손실을 결정할 수 있다. 예를 들어, 각 분류 분기망에 대응하는 손실값의 합을 이번 트레이닝 과정 중의 전체 손실로 사용한 다음, 기울기 역전파(gradient back propagation) 방법에 의해 신경망의 파라미터값을 조정할 수 있다.

이러한 방식을 통하여, 각각의 분류 분기망에 대응하는 손실값을 기반으로, 신경망의 파라미터를 조정함으로써, 복수의 분류 분기망의 동시 트레이닝을 구현하고, 복수의 기관의 모션을 인식하는 과정에서 응용된 신경망의 트레이닝 효율을 향상시킬 수 있다.

도 6을 참조하면, 도 6은 본 발명의 실시예에서 제공되는 키 포인트 검출 모델의 트레이닝 방법의 흐름 모식도이고, 하기와 같은 단계를 포함한다.

단계 601에서, 상기 샘플 이미지 중 키 포인트의 위치를 나타내는 태그를 구비한 샘플 이미지를 획득한다.

여기서, 샘플 이미지 중의 태그는 수동으로 태깅될 수 있다.

단계 602에서, 태그를 구비한 상기 샘플 이미지를 트레이닝할 키 포인트 검출 모델에 입력하여, 상기 키 포인트 검출 모델에 대응하는 예측 키 포인트 위치를 획득한다.

단계 603에서, 상기 샘플 이미지의 태그 및 상기 샘플 이미지에 대응하는 예측 키 포인트 위치를 기반으로, 이번 트레이닝 과정 중의 손실값을 결정하고, 상기 손실값을 기반으로, 상기 키 포인트 검출 모델의 파라미터값을 조정한다.

본 기술분야의 통상의 기술자는 발명을 실시하기 위한 구체적인 내용의 상기 방법에서, 각 단계의 작성 순서가 엄격한 수행 순서를 의미하는 것이 아니라 실시 과정에 대한 임의의 제한을 구성하며 각 단계의 구체적인 수행 순서는 그 기능과 가능한 내적 논리로 결정되어야 한다는 것을 이해할 수 있다.

동일한 발명 구상을 바탕으로, 본 발명의 실시예는 표정 인식 방법에 대응하는 표정 인식 장치를 더 제공한다. 본 발명의 실시예 중의 장치에 의해 문제를 해결하는 원리는 본 발명의 실시예에서 상기 표정 인식 방법과 유사하므로, 장치의 구현은 방법의 구현을 참조할 수 있고, 중복되는 부분은 더 이상 설명하지 않는다.

도 7을 참조하면, 도 7은 본 발명의 실시예에서 제공되는 표정 인식 장치의 아키텍처 모식도이고, 상기 장치는 획득 모듈(701), 인식 모듈(702), 결정 모듈(703) 및 트레이닝 모듈(704)을 포함하며; 여기서,

획득 모듈(701)은 안면 이미지를 획득하도록 구성된다.

인식 모듈(702)은 상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하도록 구성된다.

결정 모듈(703)은 인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하도록 구성된다.

본 발명의 일부 실시예에서, 상기 인식 모듈(702)은 또한,

안면 이미지를 획득한 후, 상기 안면 이미지에 대해 이미지 전처리를 수행하여, 처리된 안면 이미지를 획득하도록 구성되되, 상기 이미지 전처리는 상기 안면 이미지에 대해 핵심 정보 강화 처리를 수행하고;

상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 경우, 상기 인식 모듈(702)은,

상기 처리된 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 결정하도록 구성된다.

본 발명의 일부 실시예에서, 상기 안면 이미지에 대해 이미지 전처리를 수행하는 경우, 상기 인식 모듈(702)은,

상기 안면 이미지 중의 키 포인트의 위치 정보를 결정하고;

상기 키 포인트의 위치 정보를 기반으로, 상기 안면 이미지에 대해 아핀 변환을 수행하여 상기 안면 이미지에 대응하는 정면으로 보정된 이미지를 획득하며;

정면으로 보정된 이미지를 정규화 처리하여, 처리된 안면 이미지를 획득하도록 구성된다.

본 발명의 일부 실시예에서, 정면으로 보정된 이미지를 정규화 처리하는 경우, 상기 인식 모듈(702)은,

상기 키 포인트의 위치 정보를 기반으로, 상기 정면으로 보정된 이미지에 대해 이미지 크롭을 수행하여 크롭된 이미지를 획득하고;

상기 크롭된 이미지에 포함된 각 픽셀점의 픽셀값의 평균값 및 상기 크롭된 이미지에 포함된 각 픽셀점의 픽셀값의 표준편차를 계산하며;

상기 픽셀값의 평균값 및 상기 픽셀값의 표준편차를 기반으로, 상기 크롭된 이미지 중의 각각의 픽셀점의 픽셀값을 정규화 처리하도록 구성된다.

본 발명의 일부 실시예에서, 안면의 기관의 모션은,

본 발명의 일부 실시예에서, 인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하는 경우, 상기 결정 모듈(703)은,

인식된 상기 각 기관의 모션, 및 기설정된 모션과 표정 상태 간의 대응 관계를 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하도록 구성된다.

본 발명의 일부 실시예에서，상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 단계는， 모션 인식을 위한 신경망에 의해 수행되고， 상기 모션 인식을 위한 신경망은 백본망과 적어도 두 개의 분류 분기망을 포함하며， 각각의 분류 분기망은 안면의 하나의 기관의 한 가지 모션을 인식하고;

백본망을 이용하여 상기 안면 이미지에 대해 특징 추출을 수행하여, 상기 안면 이미지의 특징맵을 획득하고;

각각의 분류 분기망을 각각 이용하여 상기 안면 이미지의 특징맵에 따라 모션 인식을 수행하여, 각각의 분류 분기망이 인식 가능한 모션의 발생 확률을 획득하며;

기설정된 확률보다 발생 확률이 높은 모션을 상기 안면 이미지가 나타내는 안면의 기관의 모션으로 결정하도록 구성된다.

본 발명의 일부 실시예에서, 상기 장치는,

샘플 이미지 및 상기 샘플 이미지에 대응하는 레이블 벡터를 이용하여 상기 모션 인식을 위한 신경망을 트레이닝하도록 구성되는 트레이닝 모듈(704)을 더 포함하되, 여기서, 상기 샘플 이미지에 대응하는 레이블 벡터는 상기 샘플 이미지가 나타내는 안면의 기관의 모션을 나타내고; 레이블 벡터 중의 각각의 요소 위치의 값은 상기 샘플 이미지에서 상기 요소 위치에 대응하는 모션이 발생하는지 여부를 나타낸다.

본 발명의 일부 실시예에서, 샘플 이미지 및 상기 샘플 이미지에 대응하는 레이블 벡터를 이용하여 상기 모션 인식을 위한 신경망을 트레이닝하는 경우, 상기 트레이닝 모듈(704)은,

신경망의 백본망을 이용하여 샘플 이미지에 대해 특징 추출을 수행하여 샘플 이미지의 특징맵을 획득하고;

각각의 분류 분기망을 각각 이용하여 상기 샘플 이미지의 특징맵에 따라 모션 인식을 수행하여 각각의 분류 분기망이 인식 가능한 모션의 발생 확률을 획득하며;

각각의 분류 분기망이 인식 가능한 모션의 발생 확률 및 샘플 이미지의 레이블 벡터를 기반으로, 각각의 분류 분기망에 대응하는 손실값을 결정하며;

상기 신경망의 각각의 분류 분기망에 대응하는 손실값을 기반으로, 상기 신경망의 파라미터값을 조정하도록 구성된다.

장치 중의 각 모듈의 처리 흐름 및 각 모듈 간의 상호 작용 흐름에 대한 설명은 상기 방법 실시예 중의 관련 설명을 참조할 수 있으며, 여기서 더 이상 설명하지 않는다.

동일한 기술 구상을 바탕으로, 본 발명의 실시예는 컴퓨터 기기를 더 제공한다. 도 8을 참조하면, 도 8은 본 발명의 실시예에서 제공되는 컴퓨터 기기의 구조 모식도이며, 프로세서(801), 메모리(802) 및 버스(803)를 포함한다. 여기서, 메모리(802)는 내부 저장 장치(8021) 및 외부 메모리(8022)를 포함하는 실행 명령을 저장하도록 구성되고; 여기서의 내부 저장 장치(8021)는 내부 메모리라고도 하며, 프로세서(801) 중의 운영 데이터 및 하드 디스크와 같은 외부 메모리(8022)와 교환되는 데이터를 일시적으로 저장하도록 구성되고, 프로세서(801)는 내부 저장 장치(8021)를 통해 외부 메모리(8022)와 데이터를 교환하며, 전자 기기(800)가 작동될 경우, 프로세서(801)와 메모리(802)는 버스(803)를 통해 통신하여, 프로세서(801)가,

안면 이미지를 획득하고;

상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하며;

인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하기 위한 명령을 실행하도록 한다.

본 발명의 실시예는 컴퓨터 판독 가능한 저장 매체를 더 제공하고, 상기 컴퓨터 판독 가능한 저장 매체에는 컴퓨터 프로그램이 저장되며, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 상기 방법 실시예에 따른 표정 인식 방법의 단계를 수행한다. 여기서, 상기 저장 매체는 휘발성 또는 비휘발성 컴퓨터 판독 가능한 저장 매체일 수 있다.

본 발명의 실시예에서 제공되는 표정 인식 방법의 컴퓨터 프로그램 제품은 프로그램 코드가 저장된 컴퓨터 판독 가능한 저장 매체를 포함하며, 상기 프로그램 코드에 포함된 명령은 상기 방법 실시예에 따른 표정 인식 방법의 단계를 수행하는데 사용할 수 있고, 구현 시 상기 방법 실시예를 참조할 수 있으며, 여기서 더 이상 설명하지 않는다.

본 발명의 실시예는 컴퓨터 프로그램을 더 제공하고, 상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우 전술한 실시예의 임의의 방법을 구현한다. 상기 컴퓨터 프로그램 제품은 하드웨어, 소프트웨어 또는 그 결합 방식을 통해 구현될 수 있다. 본 발명의 일부 실시예에서, 상기 컴퓨터 프로그램 제품은 컴퓨터 저장 매체로 구현되고, 본 발명의 다른 일부 실시예에서, 컴퓨터 프로그램 제품은 소프트웨어 개발 키트(Software Development Kit, SDK) 등과 같은 소프트웨어 제품으로 구현된다.

당업자는 설명의 편의와 간결함을 위해 상기에서 설명된 시스템 및 장치의 동작 과정은 전술한 방법 실시예 중의 대응되는 과정을 참조할 수 있음을 명확히 이해할 것이며, 여기서는 더 이상 설명하지 않는다. 본 발명에서 제공된 몇 개의 실시예에서, 개시된 시스템, 장치 및 방법은 다른 방식으로 구현될 수 있음을 이해해야 할 것이다. 이상에서 설명한 장치 실시예는 단지 예시적인 것이며, 예를 들면 상기 유닛의 구획은 단지 논리적 기능 구획일 뿐이고, 실제 구현 시 다른 구획 방식이 있을 수 있으며, 또한 예를 들면 복수의 유닛 또는 컴포넌트는 다른 하나의 시스템에 조합 또는 집적될 수 있거나, 일부 특징은 생략되거나 실행되지 않을 수 있다. 또한, 기재 또는 토론된 서로 간의 커플링 또는 직접 커플링 또는 통신 연결은 일부 통신 인터페이스를 통한 것일 수 있고, 장치 또는 유닛의 간접 커플링 또는 통신 연결은 전기적, 기계적 또는 다른 형태의 연결일 수 있다.

이상에서 분리 부재로 설명된 유닛은 물리적으로 분리되거나 분리되지 않은 것일 수 있고, 유닛으로 표시된 부재는 물리적 유닛일 수 있거나, 물리적 유닛이 아닐 수 있으며, 하나의 장소에 위치하거나, 복수의 네트워크 유닛에 분포될 수 있다. 실제 필요에 따라 그 중 일부 또는 전부 유닛을 선택하여 본 실시예의 해결수단의 목적을 구현할 수 있다.

이밖에, 본 발명의 각 실시예의 각 기능 유닛은 하나의 프로세싱 유닛에 집적될 수 있거나, 각 유닛이 별도로 물리적으로 존재할 수 있거나, 둘 또는 둘 이상의 유닛이 하나의 유닛에 집적될 수 있다.

상기 기능이 만약 소프트웨어 기능 유닛의 형태로 구현되고 별도의 제품으로 판매되거나 사용될 경우, 프로세서에 의해 실행 가능한 하나의 비휘발성 컴퓨터 판독 가능한 저장 매체에 저장될 수 있다. 이러한 이해에 기반해보면, 본 발명의 기술적 해결수단은 본질적으로 또는 선행기술에 기여하는 부분 또는 해당 기술적 해결수단의 일부는 소프트웨어 제품의 형태로 구현될 수 있고, 해당 컴퓨터 소프트웨어 제품은 하나의 저장 매체에 저장되며, 약간의 명령을 포함하여 하나의 컴퓨터 기기(개인용 컴퓨터, 서버 또는 네트워크 기기 등일 수 있음)가 본 발명의 각 실시예에 따른 방법의 전부 또는 일부 단계를 수행하도록 할 수 있다. 전술한 저장 매체는 USB 메모리, 외장 하드, 판독 전용 메모리(ROM, Read-Only Memory), 랜덤 액세스 메모리(RAM, Random Access Memory), 디스켓 또는 CD 등 프로그램 코드를 저장할 수 있는 다양한 매체를 포함한다.

마지막으로, 상술한 실시예는 본 발명의 기술적 해결수단을 설명하기 위한 본 발명의 구체적인 실시형태일 뿐 이에 한정되지 않으며 본 발명의 보호 범위는 이에 한정되지 않음에 유의해야 한다. 전술한 실시예를 참조하여 본 발명에 대해 상세하게 설명하였지만 본 기술분야의 통상의 기술자는 본 기술분야에서 통상의 지식을 가진 자라면 본 발명이 개시된 기술 범위 내에서 여전히 전술한 실시예에 기재된 기술적 해결수단에 대해 수정할 수 있거나 변경될 수 있음을 쉽게 생각해낼 수 있거나, 그 중 일부 기술 특징에 대해 등가 교체를 수행할 수 있음을 이해해야 할 것이며, 이러한 수정, 변경 또는 교체는 해당하는 기술적 해결수단의 본질이 본 발명의 실시예의 기술적 해결수단의 정신 및 범위를 벗어나지 않고 모두 본 발명의 보호 범위 내에 포함되도록 해야 한다. 따라서, 본 발명의 보호 범위는 청구 범위의 보호 범위를 기준으로 한다.

본 발명의 실시예는 표정 인식 방법 및 장치, 기기, 컴퓨터 판독 가능한 저장 매체, 컴퓨터 프로그램 제품을 제공한다. 여기서, 방법은, 안면 이미지를 획득하는 단계; 상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 단계; 인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하는 단계를 포함한다. 본 발명의 실시예에서 제공되는 표정 인식 방법에 따라 안면에 대해 표정 인식을 수행함으로써, 표정 인식의 정밀도를 향상시키고, 표정 인식의 정확성을 향상시킬 수 있다.

Claims

표정 인식 방법으로서,
안면 이미지를 획득하는 단계;
상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 단계; 및
인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하는 단계를 포함하는 표정 인식 방법.
제1항에 있어서,
안면 이미지를 획득하는 단계 이후에, 상기 방법은,
상기 안면 이미지에 대해 이미지 전처리를 수행하여, 처리된 안면 이미지를 획득하는 단계를 더 포함하되, 상기 이미지 전처리는 상기 안면 이미지에 대해 핵심 정보 강화 처리를 수행하고,
상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 단계는,
상기 처리된 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 결정하는 단계를 포함하는 표정 인식 방법.
제2항에 있어서,
상기 안면 이미지에 대해 이미지 전처리를 수행하는 단계는,
상기 안면 이미지 중의 키 포인트의 위치 정보를 결정하는 단계;
상기 키 포인트의 위치 정보를 기반으로, 상기 안면 이미지에 대해 아핀 변환을 수행하여 상기 안면 이미지에 대응하는 정면으로 보정된 이미지를 획득하는 단계; 및
정면으로 보정된 이미지를 정규화 처리하여, 처리된 안면 이미지를 획득하는 단계를 포함하는 표정 인식 방법.
제3항에 있어서,
상기 정면으로 보정된 이미지를 정규화 처리하는 단계는,
상기 키 포인트의 위치 정보를 기반으로, 상기 정면으로 보정된 이미지에 대해 이미지 크롭을 수행하여 크롭된 이미지를 획득하는 단계;
상기 크롭된 이미지에 포함된 각 픽셀점의 픽셀값의 평균값 및 상기 크롭된 이미지에 포함된 각 픽셀점의 픽셀값의 표준편차를 계산하는 단계; 및
상기 픽셀값의 평균값 및 상기 픽셀값의 표준편차를 기반으로, 상기 크롭된 이미지 중의 각각의 픽셀점의 픽셀값을 정규화 처리하는 단계를 포함하는 표정 인식 방법.
제1항에 있어서,
안면의 기관의 모션은,
눈살 찌푸리기, 눈 부릅뜨기, 입꼬리 올리기, 윗입술 위로 올리기, 입꼬리 내리기, 입 벌리기를 포함하는 표정 인식 방법.
제1항에 있어서,
상기 인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하는 단계는,
인식된 상기 각 기관의 모션, 및 기설정된 모션과 표정 상태 간의 대응 관계를 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하는 단계를 포함하는 표정 인식 방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 단계는, 모션 인식을 위한 신경망에 의해 수행되고, 상기 모션 인식을 위한 신경망은 백본망과 적어도 두 개의 분류 분기망을 포함하며, 각각의 분류 분기망은 안면의 하나의 기관의 한 가지 모션을 인식하고;
상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 단계는,
백본망을 이용하여 상기 안면 이미지에 대해 특징 추출을 수행하여, 상기 안면 이미지의 특징맵을 획득하는 단계;
각각의 분류 분기망을 각각 이용하여 상기 안면 이미지의 특징맵에 따라 모션 인식을 수행하여, 각각의 분류 분기망이 인식 가능한 모션의 발생 확률을 획득하는 단계; 및
기설정된 확률보다 발생 확률이 높은 모션을 상기 안면 이미지가 나타내는 안면의 기관의 모션으로 결정하는 단계를 포함하는 표정 인식 방법.
제7항에 있어서,
상기 모션 인식을 위한 신경망은 샘플 이미지 및 상기 샘플 이미지에 대응하는 레이블 벡터를 이용해 트레이닝하여 획득되되, 상기 샘플 이미지에 대응하는 레이블 벡터는 상기 샘플 이미지가 나타내는 안면의 기관의 모션을 나타내고; 레이블 벡터 중의 각각의 요소 위치의 값은 상기 샘플 이미지에서 상기 요소 위치에 대응하는 모션이 발생하는지 여부를 나타내는 표정 인식 방법.
제8항에 있어서,
샘플 이미지 및 상기 샘플 이미지에 대응하는 레이블 벡터를 이용하여 상기 모션 인식을 위한 신경망을 트레이닝하는 단계는,
신경망의 백본망을 이용하여 샘플 이미지에 대해 특징 추출을 수행하여 샘플 이미지의 특징맵을 획득하는 단계;
각각의 분류 분기망을 각각 이용하여 상기 샘플 이미지의 특징맵에 따라 모션 인식을 수행하여 각각의 분류 분기망이 인식 가능한 모션의 발생 확률을 획득하는 단계;
각각의 분류 분기망이 인식 가능한 모션의 발생 확률 및 샘플 이미지의 레이블 벡터를 기반으로, 각각의 분류 분기망에 대응하는 손실값을 결정하는 단계; 및
상기 신경망의 각각의 분류 분기망에 대응하는 손실값을 기반으로, 상기 신경망의 파라미터값을 조정하는 단계를 포함하는 표정 인식 방법.
표정 인식 장치로서,
안면 이미지를 획득하는 획득 모듈;
상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 인식 모듈; 및
인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하는 결정 모듈을 포함하는 표정 인식 장치.
제10항에 있어서,
상기 인식 모듈은 또한,
안면 이미지를 획득한 후, 상기 안면 이미지에 대해 이미지 전처리를 수행하여, 처리된 안면 이미지를 획득하도록 구성되되, 상기 이미지 전처리는 상기 안면 이미지에 대해 핵심 정보 강화 처리를 수행하고,
상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 경우, 상기 인식 모듈은,
상기 처리된 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 결정하도록 구성되는 표정 인식 장치.
제11항에 있어서,
상기 안면 이미지에 대해 이미지 전처리를 수행하는 경우, 상기 인식 모듈은,
상기 안면 이미지 중의 키 포인트의 위치 정보를 결정하고;
상기 키 포인트의 위치 정보를 기반으로, 상기 안면 이미지에 대해 아핀 변환을 수행하여 상기 안면 이미지에 대응하는 정면으로 보정된 이미지를 획득하며;
정면으로 보정된 이미지를 정규화 처리하여, 처리된 안면 이미지를 획득하도록 구성되는 표정 인식 장치.
제12항에 있어서,
정면으로 보정된 이미지를 정규화 처리하는 경우, 상기 인식 모듈은,
상기 키 포인트의 위치 정보를 기반으로, 상기 정면으로 보정된 이미지에 대해 이미지 크롭을 수행하여 크롭된 이미지를 획득하고;
상기 크롭된 이미지에 포함된 각 픽셀점의 픽셀값의 평균값 및 상기 크롭된 이미지에 포함된 각 픽셀점의 픽셀값의 표준편차를 계산하며;
상기 픽셀값의 평균값 및 상기 픽셀값의 표준편차를 기반으로, 상기 크롭된 이미지 중의 각각의 픽셀점의 픽셀값을 정규화 처리하도록 구성되는 표정 인식 장치.
제10항에 있어서,
안면의 기관의 모션은,
눈살 찌푸리기, 눈 부릅뜨기, 입꼬리 올리기, 윗입술 위로 올리기, 입꼬리 내리기, 입 벌리기를 포함하는 표정 인식 장치.
제10항에 있어서,
인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하는 경우, 상기 결정 모듈은,
인식된 상기 각 기관의 모션, 및 기설정된 모션과 표정 상태 간의 대응 관계를 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하도록 구성되는 표정 인식 장치.
제10항 내지 제15항 중 어느 한 항에 있어서,
상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 단계는, 모션 인식을 위한 신경망에 의해 수행되고, 상기 모션 인식을 위한 신경망은 백본망과 적어도 두 개의 분류 분기망을 포함하며, 각각의 분류 분기망은 안면의 하나의 기관의 한 가지 모션을 인식하고;
상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 경우, 상기 인식 모듈은,
백본망을 이용하여 상기 안면 이미지에 대해 특징 추출을 수행하여，상기 안면 이미지의 특징맵을 획득하고;
각각의 분류 분기망을 각각 이용하여 상기 안면 이미지의 특징맵에 따라 모션 인식을 수행하여，각각의 분류 분기망이 인식 가능한 모션의 발생 확률을 획득하며;
기설정된 확률보다 발생 확률이 높은 모션을 상기 안면 이미지가 나타내는 안면의 기관의 모션으로 결정하도록 구성되는 표정 인식 장치.
제16항에 있어서,
상기 장치는,
샘플 이미지 및 상기 샘플 이미지에 대응하는 레이블 벡터를 이용하여 상기 모션 인식을 위한 신경망을 트레이닝하도록 구성되는 트레이닝 모듈을 더 포함하되,
상기 샘플 이미지에 대응하는 레이블 벡터는 상기 샘플 이미지가 나타내는 안면의 기관의 모션을 나타내고; 레이블 벡터 중의 각각의 요소 위치의 값은 상기 샘플 이미지에서 상기 요소 위치에 대응하는 모션이 발생하는지 여부를 나타내는 표정 인식 장치.
제17항에 있어서,
샘플 이미지 및 상기 샘플 이미지에 대응하는 레이블 벡터를 이용하여 상기 모션 인식을 위한 신경망을 트레이닝하는 경우，상기 트레이닝 모듈은,
신경망의 백본망을 이용하여 샘플 이미지에 대해 특징 추출을 수행하여 샘플 이미지의 특징맵을 획득하고;
각각의 분류 분기망을 각각 이용하여 상기 샘플 이미지의 특징맵에 따라 모션 인식을 수행하여 각각의 분류 분기망이 인식 가능한 모션의 발생 확률을 획득하며;
각각의 분류 분기망이 인식 가능한 모션의 발생 확률 및 샘플 이미지의 레이블 벡터를 기반으로, 각각의 분류 분기망에 대응하는 손실값을 결정하며;
상기 신경망의 각각의 분류 분기망에 대응하는 손실값을 기반으로, 상기 신경망의 파라미터값을 조정하도록 구성되는 표정 인식 장치.
컴퓨터 기기로서,
프로세서, 메모리 및 버스를 포함하고, 상기 메모리에는 상기 프로세서에 의해 실행 가능한 기계 판독 가능 명령이 저장되며, 컴퓨터 기기가 작동될 경우, 상기 프로세서와 상기 메모리는 버스를 통해 통신하고, 상기 기계 판독 가능 명령이 상기 프로세서에 의해 실행될 경우 제1항 내지 제9항 중 어느 한 항에 따른 표정 인식 방법의 단계를 수행하는 컴퓨터 기기.
컴퓨터 판독 가능한 저장 매체로서,
상기 컴퓨터 판독 가능한 저장 매체에는 컴퓨터 프로그램이 저장되고, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 제1항 내지 제9항 중 어느 한 항에 따른 표정 인식 방법의 단계를 수행하는 컴퓨터 판독 가능한 저장 매체.
컴퓨터 프로그램 제품으로서,
상기 컴퓨터 프로그램 제품은 컴퓨터 프로그램이 저장된 비일시적 컴퓨터 판독 가능한 저장 매체를 포함하고, 상기 컴퓨터 프로그램이 컴퓨터에 의해 판독되고 실행될 경우, 제1항 내지 제9항 중 어느 한 항에 따른 방법을 구현하는 컴퓨터 프로그램 제품.