KR20220106842A - 표정 인식 방법 및 장치, 기기, 컴퓨터 판독 가능한 저장 매체, 컴퓨터 프로그램 제품 - Google Patents

표정 인식 방법 및 장치, 기기, 컴퓨터 판독 가능한 저장 매체, 컴퓨터 프로그램 제품 Download PDF

Info

Publication number
KR20220106842A
KR20220106842A KR1020227023401A KR20227023401A KR20220106842A KR 20220106842 A KR20220106842 A KR 20220106842A KR 1020227023401 A KR1020227023401 A KR 1020227023401A KR 20227023401 A KR20227023401 A KR 20227023401A KR 20220106842 A KR20220106842 A KR 20220106842A
Authority
KR
South Korea
Prior art keywords
image
motion
facial
face
organ
Prior art date
Application number
KR1020227023401A
Other languages
English (en)
Inventor
옌제 천
페이 왕
천 첸
Original Assignee
상하이 센스타임 린강 인텔리전트 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 상하이 센스타임 린강 인텔리전트 테크놀로지 컴퍼니 리미티드 filed Critical 상하이 센스타임 린강 인텔리전트 테크놀로지 컴퍼니 리미티드
Publication of KR20220106842A publication Critical patent/KR20220106842A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/247Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/164Detection; Localisation; Normalisation using holistic features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 발명은 표정 인식 방법 및 장치, 기기, 컴퓨터 판독 가능한 저장 매체, 컴퓨터 프로그램 제품을 제공한다. 여기서, 상기 방법은, 안면 이미지를 획득하는 단계(101); 상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 단계(102); 및 인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하는 단계(103)를 포함한다. 이러한 방법을 통하여 사용자 표정 상태 인식의 정밀도를 향상시킬 수 있다.

Description

표정 인식 방법 및 장치, 기기, 컴퓨터 판독 가능한 저장 매체, 컴퓨터 프로그램 제품
관련 출원의 상호 참조
본 발명은 출원번호가 202010018179.9이고, 출원일자가 2020년 1월 8일인 중국 특허출원에 기반하여 제출하였고, 상기 중국 특허출원의 우선권을 주장하는 바, 상기 중국 특허출원의 모든 내용은 참조로서 본 발명에 인용된다.
본 발명은 컴퓨터 기술분야에 관한 것이나 이에 한정하지 않고, 구체적으로는 표정 인식 방법 및 장치, 기기, 컴퓨터 판독 가능한 저장 매체, 컴퓨터 프로그램 제품에 관한 것이다.
안면 표정 인식은 주어진 정적 이미지 또는 동적 비디오 시퀀스에서 특정 표정 상태를 분리함으로써, 인식된 대상의 심리적 감정을 결정하고 컴퓨터가 안면 표정에 대한 이해와 인식을 구현하는 것을 의미한다.
관련 기술에서, 안면 표정 인식을 수행하는 경우, 일반적으로 인식하고자 하는 이미지를 미리 트레이닝된 표정 인식 모델에 입력하여 예측된 안면 표정을 출력한다. 그러나 이러한 표정 인식 모델은 트레이닝 과정에서, 트레이닝을 위해 표정 레이블을 다량으로 보유한 샘플 이미지가 필요하며, 이러한 샘플 이미지로 트레이닝된 표정 인식 모델은 표정 인식을 수행할 때 일반적으로 정밀도가 떨어진다.
본 발명의 실시예는 표정 인식의 정밀도를 향상시킬 수 있는 표정 인식 방법 및 장치, 기기, 컴퓨터 판독 가능한 저장 매체, 컴퓨터 프로그램 제품을 제공한다.
본 발명의 실시예는,
안면 이미지를 획득하는 단계;
상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 단계; 및
인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하는 단계를 포함하는 표정 인식 방법을 제공한다.
본 발명의 일부 실시예에서, 안면 이미지를 획득하는 단계 이후에, 상기 방법은,
상기 안면 이미지에 대해 이미지 전처리를 수행하여, 처리된 안면 이미지를 획득하는 단계를 더 포함하되, 상기 이미지 전처리는 상기 안면 이미지에 대해 핵심 정보 강화 처리를 수행하고,
상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 단계는,
상기 처리된 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 결정한다.
본 발명의 일부 실시예에서, 상기 안면 이미지에 대해 이미지 전처리를 수행하는 단계는,
상기 안면 이미지 중의 키 포인트의 위치 정보를 결정하는 단계;
상기 키 포인트의 위치 정보를 기반으로, 상기 안면 이미지에 대해 아핀 변환을 수행하여 상기 안면 이미지에 대응하는 정면으로 보정된 이미지를 획득하는 단계; 및
정면으로 보정된 이미지를 정규화 처리하여, 처리된 안면 이미지를 획득하는 단계를 포함한다.
본 발명의 일부 실시예에서, 상기 정면으로 보정된 이미지를 정규화 처리하는 단계는,
상기 키 포인트의 위치 정보를 기반으로, 상기 정면으로 보정된 이미지에 대해 이미지 크롭을 수행하여 크롭된 이미지를 획득하는 단계;
상기 크롭된 이미지에 포함된 각 픽셀점의 픽셀값의 평균값 및 상기 크롭된 이미지에 포함된 각 픽셀점의 픽셀값의 표준편차를 계산하는 단계; 및
상기 픽셀값의 평균값 및 상기 픽셀값의 표준편차를 기반으로, 상기 크롭된 이미지 중의 각각의 픽셀점의 픽셀값을 정규화 처리하는 단계를 포함한다.
본 발명의 일부 실시예에서, 안면의 기관의 모션은,
눈살 찌푸리기, 눈 부릅뜨기, 입꼬리 올리기, 윗입술 위로 올리기, 입꼬리 내리기, 입 벌리기를 포함한다.
본 발명의 일부 실시예에서, 상기 인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하는 단계는,
인식된 상기 각 기관의 모션, 및 기설정된 모션과 표정 상태 간의 대응 관계를 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하는 단계를 포함한다.
본 발명의 일부 실시예에서, 상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 단계는, 모션 인식을 위한 신경망에 의해 수행되고, 상기 모션 인식을 위한 신경망은 백본망과 적어도 두 개의 분류 분기망을 포함하며, 각각의 분류 분기망은 안면의 하나의 기관의 한 가지 모션을 인식하고;
상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 단계는,
백본망을 이용하여 상기 안면 이미지에 대해 특징 추출을 수행하여, 상기 안면 이미지의 특징맵을 획득하는 단계;
각각의 분류 분기망을 각각 이용하여 상기 안면 이미지의 특징맵에 따라 모션 인식을 수행하여,각각의 분류 분기망이 인식 가능한 모션의 발생 확률을 획득하는 단계; 및
기설정된 확률보다 발생 확률이 높은 모션을 상기 안면 이미지가 나타내는 안면의 기관의 모션으로 결정하는 단계를 포함한다.
본 발명의 일부 실시예에서, 상기 모션 인식을 위한 신경망은 샘플 이미지 및 상기 샘플 이미지에 대응하는 레이블 벡터를 이용해 트레이닝하여 획득되되, 상기 샘플 이미지에 대응하는 레이블 벡터는 상기 샘플 이미지가 나타내는 안면의 기관의 모션을 나타내고; 레이블 벡터 중의 각각의 요소 위치의 값은 상기 샘플 이미지에서 상기 요소 위치에 대응하는 모션이 발생하는지 여부를 나타낸다.
본 발명의 일부 실시예에서, 샘플 이미지 및 상기 샘플 이미지에 대응하는 레이블 벡터를 이용하여 상기 모션 인식을 위한 신경망을 트레이닝하는 단계는,
신경망의 백본망을 이용하여 샘플 이미지에 대해 특징 추출을 수행하여 샘플 이미지의 특징맵을 획득하는 단계;
각각의 분류 분기망을 각각 이용하여 상기 샘플 이미지의 특징맵에 따라 모션 인식을 수행하여 각각의 분류 분기망이 인식 가능한 모션의 발생 확률을 획득하는 단계;
각각의 분류 분기망이 인식 가능한 모션의 발생 확률 및 샘플 이미지의 레이블 벡터를 기반으로, 각각의 분류 분기망에 대응하는 손실값을 결정하는 단계; 및
상기 신경망의 각각의 분류 분기망에 대응하는 손실값을 기반으로,상기 신경망의 파라미터값을 조정하는 단계를 포함한다.
본 발명의 실시예는,
안면 이미지를 획득하도록 구성된 획득 모듈;
상기 안면 이미지에 따라,상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하도록 구성된 인식 모듈; 및
인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하도록 구성된 결정 모듈을 포함하는 표정 인식 장치를 더 제공한다.
본 발명의 실시예는, 프로세서, 메모리 및 버스를 포함하고, 상기 메모리에는 상기 프로세서에 의해 실행 가능한 기계 판독 가능 명령이 저장되며, 컴퓨터 기기가 작동될 경우, 상기 프로세서와 상기 메모리는 버스를 통해 통신하고, 상기 기계 판독 가능 명령이 상기 프로세서에 의해 실행될 경우, 상기 본 발명의 실시예에 따른 방법의 부분 또는 전부 단계를 수행하는 컴퓨터 기기를 더 제공한다.
본 발명의 실시예는, 컴퓨터 프로그램이 저장되고, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 상기 본 발명의 실시예에 따른 방법의 부분 또는 전부 단계를 수행하는 컴퓨터 판독 가능한 저장 매체를 더 제공한다.
본 발명의 실시예는, 컴퓨터 프로그램이 저장된 비일시적 컴퓨터 판독 가능한 저장 매체를 포함하고, 상기 컴퓨터 프로그램이 컴퓨터에 의해 판독되고 실행될 경우, 본 발명의 실시예에 따른 방법의 부분 또는 전부 단계를 구현하는 컴퓨터 프로그램 제품을 제공한다. 상기 컴퓨터 프로그램 제품은 하나의 소프트웨어 설치 패키지일 수 있다.
상기 표정 인식 장치, 컴퓨터 기기, 컴퓨터 판독 가능한 저장 매체 및 컴퓨터 프로그램 제품의 효과는 상기 표정 인식 방법에 대한 설명을 참조할 수 있으며 여기서 더 이상 설명하지 않는다.
본 발명의 실시예의 상술한 목적, 특징 및 장점을 보다 명확하고 용이하게 이해하도록, 이하에서는 첨부된 도면과 함께 예시적인 실시예를 예로 들어 하기와 같이 상세히 설명한다.
본 발명의 실시예의 기술적 해결수단을 보다 명확하게 설명하기 위하여 이하 실시예에서 사용되는 첨부 도면을 간단히 설명한다. 여기서 도면은 명세서에 병합되어 본 명세서의 일부분을 구성하고, 이러한 도면은 본 발명에 부합되는 실시예를 나타내며, 명세서와 함께 본 발명의 기술적 해결수단을 해석하기 위한 것이다. 아래의 도면은 본 발명의 일부 실시예를 도시할 뿐 범위를 한정하는 것으로 간주해서는 안되며, 본 기술분야의 통상의 기술자들은 진보성 창출에 힘 쓸 필요없이 이러한 도면으로부터 관련된 다른 도면을 얻을 수 있음을 이해해야 한다.
도 1은 본 발명의 실시예에서 제공되는 표정 인식 방법의 흐름 모식도이다.
도 2는 본 발명의 실시예에서 제공되는 이미지 전처리 방법의 흐름 모식도이다.
도 3은 본 발명의 실시예에서 제공되는 이미지 크롭 방법의 흐름 모식도이다.
도 4는 본 발명의 실시예에서 제공되는 모션 인식을 위한 신경망의 네트워크 구조이다.
도 5는 본 발명의 실시예에서 제공되는 모션 인식을 위한 신경망의 트레이닝 방법의 흐름 모식도이다.
도 6은 본 발명의 실시예에서 제공되는 키 포인트 검출 모델의 트레이닝 방법의 흐름 모식도이다.
도 7은 본 발명의 실시예에서 제공되는 표정 인식 장치의 아키텍처 모식도이다.
도 8은 본 발명의 실시예에서 제공되는 전자 기기의 구조 모식도이다.
본 발명의 실시예의 목적, 기술적 해결수단 및 장점을 보다 명확하게 하기 위해, 아래에서 본 발명의 실시예의 첨부 도면을 참조하여 본 발명의 실시예의 기술적 해결수단을 명확하고 완전하게 설명하되, 설명된 실시예는 본 발명의 일부 실시예일 뿐 전체 실시예가 아님은 분명하다. 여기 도면에서 통상적으로 설명되거나 도시되는 본 발명의 실시예의 컴포넌트는 여러가지 상이한 구성으로 배열 및 설계할 수 있다. 따라서, 첨부 도면에서 제공되는 본 발명의 실시예에 대한 상세한 설명은 보호하고자 하는 본 발명의 범위를 한정하려는 것이 아니라, 본 발명의 선택적 실시예를 나타내는 것에 불과하다. 본 발명의 실시예를 기반으로, 당업자가 진보성 창출에 힘 쓸 필요없이 획득한 모든 다른 실시예는 전부 본 발명의 보호 범위 내에 속한다.
관련 기술에서, 안면 인식을 수행하는 경우, 일반적으로 신경망을 기반으로 이미지 중의 사용자 표정을 직접 인식하지만, 이러한 신경망 트레이닝 과정에서, 일반적으로 샘플 이미지에 샘플 이미지 중의 사용자의 표정을 나타내는 표정 레이블을 추가해야 되지만, 샘플 이미지에 표정 레이블을 수동으로 추가해야 하므로, 추가된 표정 레이블은 사용자의 주관적인 생각을 담고 있으며, 상이한 사용자가 동일한 샘플 이미지에 상이한 표정 레이블을 추가하는 경우가 발생할 수 있어(예를 들어, 동일한 이미지에 대하여, 사용자 A가 추가한 표정 레이블은 우울일 수 있고, 사용자 B가 추가한 표정 레이블은 사고일 수 있음), 표정 예측 시 신경망의 정밀도가 영향을 받을 수 있다.
이에 의하여, 본 발명의 실시예는 신경망을 통하여 안면 이미지 중의 기관의 모션을 인식한 다음, 인식된 기관의 모션을 기반으로, 안면에 대응하는 표정 상태를 결정할 수 있는 표정 인식 방법을 제공한다. 안면의 기관의 모션과 안면의 표정 상태 간의 관계는 객관적으로 존재하기 때문에, 이러한 방식을 기반으로, 사용자가 안면 이미지에 대해 표정 상태를 주관적으로 정의할 필요가 없고, 이 밖에, 안면 기관의 모션은 어떤 특정한 안면 특징에 집중할 수 있으므로, 표정 자세의 직접적인 인식과 비교하여 안면 이미지에서 기관의 모션의 인식의 정확성을 크게 향상시킬 수 있으므로, 본 발명의 실시예의 상기 방법은 안면 표정 인식의 정밀도를 향상시킬 수 있다.
설명해야 할 것은, 상기 기술적 과제에 대한 제안 및 분석 과정은 모두 발명자가 실천과 세심한 연구 끝에 얻은 결과이므로, 상기 기술적 과제의 발견 과정, 및 상기 기술적 과제에 대해 본 발명의 실시예에서 제안하는 해결수단은 모두 발명자가 본 발명의 과정에서 본 발명에 기여한 것이다.
아래에서 본 발명의 첨부 도면을 참조하여 본 발명의 기술적 해결수단을 명확하고 완전하게 설명하되, 설명된 실시예는 본 발명의 일부 실시예일 뿐 전체 실시예가 아님은 분명하다. 여기 도면에서 통상적으로 설명되거나 도시되는 본 발명의 실시예의 컴포넌트는 여러가지 상이한 구성으로 배열 및 설계할 수 있다. 따라서, 첨부 도면에서 제공되는 본 발명의 실시예에 대한 상세한 설명은 보호하고자 하는 본 발명의 범위를 한정하려는 것이 아니라, 본 발명의 선택적 실시예를 나타내는 것에 불과하다. 본 발명의 실시예를 기반으로, 당업자가 진보성 창출에 힘 쓸 필요없이 획득한 모든 다른 실시예는 전부 본 발명의 보호 범위 내에 속한다.
아래의 도면에서 유사한 부호와 문자는 유사한 항을 나타내므로, 일단 어느 한 항이 한 도면에서 정의되면, 그 다음 도면에서 추가적인 정의 및 설명이 필요하지 않음에 유의해야 한다.
본 실시예에 대한 이해를 돕기 위해, 우선 본 발명의 실시예에 개시된 표정 인식 방법을 자세히 소개한다. 본 발명의 실시예에서 제공되는 표정 인식 방법의 수행 주체는 일반적으로 일정한 컴퓨팅 능력을 구비한 컴퓨터 기기로, 상기 컴퓨터 기기는 예들 들어 단말 기기 또는 서버 또는 다른 처리 기기를 포함하고, 단말 기기는 사용자 기기(User Equipment, UE), 모바일 기기, 사용자 단말기, 단말기, 셀룰러폰, 무선 전화, 개인 휴대 정보 단말기(Personal Digital Assistant, PDA), 핸드헬드 기기, 컴퓨팅 기기, 차량 탑재 기기, 웨어러블 기기 등일 수 있다. 일부 가능한 실시형태에서, 상기 표정 인식 방법은 메모리에 저장된 컴퓨터 판독 가능 명령을 호출하는 프로세서에 의해 구현될 수 있다.
도 1을 참조하면, 도 1은 본 발명의 실시예에서 제공되는 표정 인식 방법의 흐름도이고, 하기와 같은 단계를 포함한다.
단계 101에서, 안면 이미지를 획득한다.
단계 102에서, 상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식한다.
단계 103에서, 인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정한다.
상기 방법은 우선 안면의 기관의 모션을 인식한 다음, 인식된 모션을 기반으로, 안면에 대응하는 표정 상태를 결정할 수 있고, 안면의 기관의 모션과 안면의 표정 상태 간의 관계는 객관적으로 존재하기 때문에, 이러한 방식을 기반으로, 모델 트레이닝 시 사용자가 안면 이미지에 대해 표정 상태를 주관적으로 정의할 필요가 없고, 이 밖에, 안면 기관의 모션은 어떤 특정한 안면 특징에 집중할 수 있으므로, 표정 자세의 직접적인 인식과 비교하여 안면 이미지에서 기관의 모션의 인식의 정확성을 크게 향상시킬 수 있으므로, 본 발명의 실시예의 상기 방법은 안면 표정 인식의 정밀도를 향상시킬 수 있다.
이하, 상기 단계 101 내지 단계 103에 대해 자세히 설명한다.
단계 101에 대하여,
단계 101에서 획득된 상기 안면 이미지는, 인식 시작 명령을 수신 후, 상기 표정 인식 방법을 제어 및 수행하는 전자 기기와 연결된 이미지 수집 장치에 의해 촬영된 이미지일 수 있고, 데이터베이스에 미리 저장된 안면 이미지 집합에서 획득한 안면 이미지일 수도 있으며; 여기서, 상기 표정 인식 방법을 수행하는 전자 기기는 자체적으로 이미지 수집 장치를 휴대할 수 있고, 외부로 이미지 수집 장치를 연결할 수 있으며, 그 연결 방식은 유선 연결 및, 블루투스 연결, 무선랜 연결 등과 같은 무선 연결을 포함할 수 있다.
단계 102에 대하여,
안면 이미지를 트레이닝된 신경망에 입력하여 안면의 기관의 모션 인식을 수행하기 전에, 신경망이 모션 인식을 수행하는 효율과 정밀도를 향상시키기 위해, 본 발명의 일부 실시예에서, 우선 안면 이미지에 대해 이미지 전처리를 수행하여, 처리된 안면 이미지를 획득하고; 여기서, 상기 이미지 전처리는 안면 이미지에 대해 핵심 정보 강화 처리하며; 다음으로 처리된 안면 이미지를 트레이닝된 신경망에 입력하여 모션 인식을 수행할 수도 있다. 여기서, 안면 이미지에 대해 이미지 전처리를 수행하여, 안면 이미지에 대해 핵심 정보 강화 처리를 수행할 수 있으므로, 모션 인식의 정밀도를 향상시킬 수 있다.
본 발명의 일부 실시예에서, 안면 이미지에 대해 이미지 전처리를 수행하는 경우, 도 2에 도시된 이미지 전처리 방법을 참조할 수 있고, 하기와 같은 단계를 포함한다.
단계 201에서, 안면 이미지 중의 키 포인트의 위치 정보를 결정한다.
안면 이미지 중의 키 포인트는 예를 들어 눈꼬리, 입꼬리, 미간, 눈썹꼬리, 코 등을 포함하고, 실시하는 경우, 안면 이미지 중의 키 포인트는 요구에 따라 설정할 수 있고; 키 포인트의 위치 정보는 안면 이미지에서 키 포인트의 위치 좌표일 수 있으며, 예시적으로, 안면 이미지 중의 키 포인트를 결정한 후, 안면 이미지의 좌상단을 좌표 원점으로 하고, 좌상단에서 우상단까지의 수평 방향을 X축으로 하며, 좌상단에서 좌하단까지의 수직 방향을 Y축으로 하여 직각 좌표계를 구축한 다음, 직각 좌표계에서 안면 이미지 중의 키 포인트의 좌표를 결정하고, 결정된 좌표를 키 포인트의 위치 정보로 사용할 수 있다.
안면 이미지 중의 키 포인트의 위치 정보를 결정하는 경우, 안면 이미지를 트레이닝된 키 포인트 검출 모델에 입력하여, 키 포인트의 위치 정보를 획득하고; 다른 실시형태에서, 키 포인트 인식의 효율을 향상시키기 위해, 우선 안면 이미지 중의 안면 영역을 인식하고, 안면 영역 내의 이미지를 캡처한 다음, 캡처된 안면 영역 내의 이미지를 트레이닝된 키 포인트 검출 모델에 입력하여, 키 포인트의 위치 정보를 획득할 수도 있다. 키 포인트 검출 모델의 트레이닝 방법은 아래에서 자세히 설명하고, 여기서는 설명하지 않는다.
여기서, 안면 이미지 중의 안면 영역을 인식하는 경우, 예를 들어 안면 인식 알고리즘에 의해 인식할 수 있으며, 인식 과정은 더 이상 소개하지 않는다.
단계 202에서, 키 포인트의 위치 정보를 기반으로, 안면 이미지에 대해 아핀 변환을 수행하여 안면 이미지에 대응하는 정면으로 보정된 이미지를 획득한다.
키 포인트의 위치 정보를 기반으로, 안면 이미지에 대해 아핀 변환을 수행하는 경우, 우선 키 포인트의 위치 정보 및 미리 저장된 타깃 키 포인트의 기설정된 위치 정보를 기반으로, 안면 이미지에서 각각의 키 포인트의 위치 정보, 및 상기 키 포인트와 매칭되는 타깃 키 포인트의 기설정된 위치 정보 간의 변환 관계를 나타내는 변환 행렬을 결정한 다음, 변환 행렬을 기반으로, 안면 이미지에 대해 아핀 변환을 수행할 수 있다.
키 포인트를 눈(왼쪽 눈과 오른쪽 눈을 포함)과 입으로 예를 들면, 미리 저장된 타깃 키 포인트의 기설정된 위치 정보는 미리 저장된 눈과 입의 위치 좌표일 수 있고, 실시하는 경우, 기설정된 위치 정보는 복수의 샘플 이미지에서 타깃 키 포인트의 좌표를 기반으로 평균값을 계산하여 얻을 수 있다. 예시적으로, 100개의 표준 샘플 이미지를 획득하면, 샘플 이미지 중의 왼쪽 눈을 좌표 원점으로 사용하여 오른쪽 눈과 입의 위치 좌표를 각각 결정한 다음, 입과 오른쪽 눈의 위치 좌표의 평균값을 계산하여, 계산된 평균값 및 왼쪽 눈의 좌표(즉, 좌표 원점)를 타깃 키 포인트의 기설정된 위치 정보로 결정할 수 있다.
실제 응용에서, 왼쪽 눈은 좌표 원점으로 사용하지 않을 수도 있으며, 이때, 타깃 키 포인트의 기설정된 위치 정보는 왼쪽 눈과 오른쪽 눈 사이의 거리, 입과 왼쪽 눈 사이의 거리, 입과 오른쪽 눈 사이의 거리 등과 같은 타깃 키 포인트 간의 위치 관계일 수 있다.
본 발명의 일부 실시예에서, 미리 저장된 타깃 키 포인트의 기설정된 위치 관계는 수동으로 설정할 수도 있다.
키 포인트의 위치 정보 및 미리 저장된 타깃 키 포인트의 기설정된 위치 정보를 기반으로, 변환 행렬을 결정하는 경우, 아래 공식 (1-1)에 따라 계산할 수 있다.
Figure pct00001
여기서, x’,y’는 미리 저장된 타깃 키 포인트의 횡좌표 및 종좌표를 표시하고, x,y는 키 포인트의 횡좌표 및 종좌표를 표시하며,
Figure pct00002
는 변환 행렬을 표시한다.
변환 행렬을 기반으로, 안면 이미지에 대해 아핀 변환을 수행하는 경우, 우선 안면 이미지에서 각각의 픽셀점의 좌표를 결정한 다음, 안면 이미지에서 각각의 픽셀점의 좌표를 상기 공식에 대입하여, 각각의 픽셀점에 대응하는 변환된 좌표를 결정하고, 각각의 픽셀점에 대응하는 변환된 좌표를 기반으로, 안면 이미지에 대응하는 정면으로 보정된 이미지를 결정할 수 있다.
안면 이미지에 대해 아핀 변환을 수행하여 안면 이미지에서 상이한 방향을 향하는 안면 이미지를 정면 방향을 향하는 안면 이미지로 전환할 수 있고, 안면 이미지에 대응하는 정면으로 보정된 이미지를 기반으로 모션 인식을 수행하여, 모션 인식의 정밀도를 향상시킬 수 있다.
단계 203에서, 정면으로 보정된 이미지를 정규화 처리하여, 처리된 안면 이미지를 획득한다.
본 발명의 일부 실시예에서, 키 포인트의 위치 정보를 기반으로, 안면 이미지에 대해 아핀 변환을 수행하여 안면 이미지에 대응하는 정면으로 보정된 이미지를 획득한 후, 키 포인트의 위치 정보를 기반으로, 정면으로 보정된 이미지에 대해 이미지 크롭을 수행하여 크롭된 이미지를 획득한 다음, 크롭된 이미지를 정규화 처리할 수도 있다. 여기서, 정면으로 보정된 이미지에 대해 이미지 크롭을 수행 처리하여, 안면 부분을 제외한 배경 영역이 모션 인식 속도에 대한 영향을 줄일 수 있다.
여기서, 키 포인트의 위치 정보를 기반으로, 정면으로 보정된 이미지에 대해 이미지 크롭을 수행하는 경우, 우선 정면으로 보정된 이미지의 모든 키 포인트의 위치 정보에서 횡좌표 및 종좌표의 최대치와 최소치를 결정한 다음, 횡좌표 및 종좌표의 최대치와 최소치를 기반으로, 정면으로 보정된 이미지에 대해 이미지 크롭을 수행할 수 있다.
예시적으로, 도 3에 도시된 바와 같이, 인식된 키 포인트(31)에서 횡좌표 최대치가 x1이고, 최소치가 x2이며, 종좌표 최대치가 y1이고, 최소치가 y2이면, 우선 횡좌표 및 종좌표의 최대치와 최소치를 기반으로 최소 절단 영역을 결정한 다음, 최소 절단 영역이 기설정된 거리인 영역을 절단선(32)으로 사용하여, 정면으로 보정된 이미지(33)에 대해 이미지 크롭을 수행할 수 있다.
크롭된 이미지를 정규화 처리하는 경우, 우선 크롭된 이미지에 포함된 각 픽셀점의 픽셀값의 평균값 및 크롭된 이미지에 포함된 각 픽셀점의 픽셀값의 표준편차를 계산한 다음, 픽셀값의 평균값 및 픽셀값의 표준편차를 기반으로, 크롭된 이미지 중의 각각의 픽셀점의 픽셀값을 정규화 처리할 수 있다.
본 발명의 일부 실시예에서, 픽셀값의 평균값 및 픽셀값의 표준편차를 기반으로, 크롭된 이미지 중의 각각의 픽셀점의 픽셀값을 정규화 처리하는 경우, 아래 공식 (1-2)을 참조할 수 있다.
Figure pct00003
여기서, Z는 픽셀점을 정규화 처리한 픽셀값을 표시하고, X는 픽셀점을 정규화 처리하기 전의 픽셀값을 표시하며, μ는 픽셀값의 평균값을 표시하고, σ는 픽셀값의 표준편차를 표시한다.
여기서, 키 포인트의 위치 정보에 의해, 안면 이미지에 대해 아핀 변환을 수행한 후, 안면 이미지 중의 사용자의 얼굴 방향이 기관의 모션 인식의 영향을 받지 않도록 안면 이미지를 보정할 수 있고; 나아가, 정면으로 보정된 이미지를 정규화 처리하여, 아핀 변환 후 나타나는 원래 존재하지 않는 안면 특징이 기관의 모션 인식에 대한 영향을 줄일 수 있다.
본 발명의 일부 실시예에서, 안면 이미지에 대해 이미지 전처리를 수행하기 이전, 우선 안면 이미지의 이미지 타입을 검출할 수도 있되, 검출된 안면 이미지가 RGB 컬러 이미지이면, 우선 안면 이미지를 그레이 스케일 이미지로 전환한 다음, 전환된 이미지에 대해 이미지 전처리 과정을 수행하고, 검출된 안면 이미지가 그레이 스케일 이미지이면, 안면 이미지에 대해 이미지 전처리 과정을 수행할 수 있다.
안면 이미지를 기반으로, 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 단계는 모션 인식을 위한 신경망에 의해 수행될 수 있고; 모션 인식을 위한 신경망은 백본망과 적어도 두 개의 분류 분기망을 포함하며, 각각의 분류 분기망은 한 가지 기관의 모션을 인식한다.
본 발명의 일부 실시예에서, 안면 이미지를 모션 인식을 위한 신경망에 입력하고, 백본망으로 안면 이미지에 대해 특징 추출을 수행하여, 안면 이미지의 특징맵을 획득한 다음, 각각의 분기망을 각각 이용하여 안면 이미지의 특징맵에 따라 모션 인식하여, 각각의 분류 분기망이 인식 가능한 모션의 발생 확률을 획득하고,기설정된 확률보다 발생 확률이 큰 모션을 안면 이미지가 나타내는 안면의 기관의 모션으로 결정할 수 있다.
여기서, 안면의 기관의 모션은,
눈살 찌푸리기, 눈 부릅뜨기, 입꼬리 올리기, 윗입술 위로 올리기, 입꼬리 내리기, 입 벌리기를 포함한다.
예시적으로, 모션 인식을 위한 신경망의 네트워크 구조는 도4에 도시된 바와 같다. 신경망은 분류 분기망(421 내지 426)을 포함하고, 분류 분기망(421)은 모션 1을 인식하며, 분류 분기망(422)은 모션 2를 인식하고, 이에 따라 유추하면, 안면 이미지를 신경망의 각 분류 분기망에 입력한 후, 우선 백본망(410)에 기반하여 안면 이미지에 대해 특징 추출을 수행하여, 안면 이미지에 대응하는 특징맵을 획득한 다음, 안면 이미지에 대응하는 특징맵을 각 분류 분기망에 각각 입력하고, 각각의 분류 분기망은 상기 네트워크에 대응하는 기관의 모션의 발생 확률을 출력하며, 각 분류 분기망의 출력은 분류 네트워크(430)에 재입력되어, 분류 네트워크(430)는 기설정된 확률보다 대응하는 발생 확률이 큰 기관의 모션을 출력하며, 분류 네트워크(430)의 출력은 즉 신경망의 출력이다.
설명해야 할 것은, 모션 인식을 위한 신경망 중의 각 분류 분기망은 동시에 트레이닝을 수행하고, 그 트레이닝 방법은 아래에서 설명할 것이며, 여기서 더 이상 소개하지 않는다.
여기서, 안면 이미지가 복수의 기관의 모션을 포함하는 경우, 이러한 방법에 의해, 안면 이미지에 대응하는 복수의 기관의 모션을 동시에 인식할 수 있고, 이 밖에, 여기서 각각의 분류 분기망을 사용하여 대응하는 기관의 모션을 각각 인식하며, 각각의 분류 분기망을 트레이닝하는 경우, 특정 모션에 대응하는 이미지 특징에 집중할 수 있으므로, 이러한 방식은 트레이닝된 분류 분기망의 인식 정밀도가 더욱 높아지도록 함으로써, 이미지 인식의 정확률이 더욱 높아지도록 할 수 있다.
단계 103에 대하여,
실제 응용에서, 사용자의 표정 상태와 사용자의 얼굴 모션 간에는 일정한 대응 관계가 있다. 예시적으로, 사용자의 얼굴 모션이 입꼬리 올리기인 경우, 대응하는 표정 상태는 기쁨이고, 사용자의 얼굴 모션이 눈 부릅뜨기, 입 벌리기인 경우, 대응하는 표정 상태는 놀람이다.
본 발명의 일부 실시예에서, 인식된 기관의 모션을 기반으로, 안면 이미지에 대응하는 사용자 표정 상태를 결정하는 경우, 인식된 안면의 각 기관의 모션, 및 기설정된 모션과 표정 상태 간의 대응 관계를 기반으로, 안면 이미지에 대응하는 사용자 표정 상태를 결정할 수 있다.
여기서, 기설정된 모션과 표정 상태 간의 대응 관계는 예시적으로 아래 표1에 나타낸 바와 같을 수 있다.
표1 기설정된 모션과 표정 상태의 대응 관계표
Figure pct00004
이러한 방법을 통하여, 우선 안면 이미지 중의 기관의 모션을 인식한 다음, 인식된 기관의 모션을 기반으로, 안면 이미지에 대응하는 사용자 표정 상태를 결정할 수 있다. 사용자의 표정 상태를 직접 인식하는 것과 비교하면, 이러한 방식은 인식 결과에 대한 사용자 주관적 인식의 영향을 줄일 수 있고, 사용자 표정 상태의 인식 정밀도를 향상시킬 수 있다.
도 5를 참조하면, 도5는 본 발명의 실시예에서 제공되는 모션 인식을 위한 신경망의 트레이닝 방법의 흐름 모식도이고, 하기와 같은 단계를 포함한다.
단계 501에서, 샘플 이미지 및 상기 샘플 이미지에 대응하는 레이블 벡터를 획득한다.
여기서, 상기 샘플 이미지에 대응하는 레이블 벡터는 상기 샘플 이미지가 나타내는 안면의 기관의 모션을 나타내고; 레이블 벡터 중의 각각의 요소 위치의 값은 상기 샘플 이미지에서 상기 요소 위치에 대응하는 모션이 발생하는지 여부를 나타낸다.
동일한 모션 인식을 위한 동일한 신경망을 트레이닝하는 과정에서, 상이한 샘플 이미지에 대응하는 레이블 벡터의 요소값의 개수는 동일하고, 레이블 벡터의 요소값의 개수와 신경망에 포함된 분류 분기망의 개수는 동일하다.
예시적으로, 레이블 벡터의 요소 개수가 6개를 포함하면, 첫 번째 요소는 눈살 찌푸리기 여부, 두 번째 요소는 눈 부릅뜨기 여부, 세 번째 요소는 입꼬리 올리기 여부, 네 번째 요소는 윗입술 위로 올리기 여부, 다섯 번째 요소는 입꼬리 내리기 여부, 여섯 번째 요소는 입 벌리기 여부를 표시하고, 사용자의 모션이 눈 부릅뜨기와 입 벌리기면, 대응하는 레이블 벡터는 [0, 1, 0, 0, 0, 1](레이블 벡터 중“0”은 상기 요소 위치에 대응하는 안면 위치에서 대응하는 모션이 발생하는 것을 표시하고, “1”은 상기 요소 위치에 대응하는 안면 위치에서 대응하는 모션이 발생하지 않은 것을 표시함)이다.
단계 502에서, 신경망의 백본망을 이용하여 샘플 이미지에 대해 특징 추출을 수행하여 샘플 이미지의 특징맵을 획득한다.
단계 503에서, 각각의 분류 분기망을 각각 이용하여 상기 샘플 이미지의 특징맵에 따라 모션 인식을 수행하여 각각의 분류 분기망이 인식 가능한 모션의 발생 확률을 획득한다.
단계 504에서, 각각의 분류 분기망이 인식 가능한 모션의 발생 확률 및 샘플 이미지의 레이블 벡터를 기반으로, 각각의 분류 분기망에 대응하는 손실값을 결정한다.
본 발명의 일부 실시예에서, 임의의 분류 분기망에 대하여, 상기 분류 분기망에 대응하는 손실값을 결정하는 경우, 아래 공식을 참조할 수 있다.
Figure pct00005
여기서, n의 값은 레이블 벡터 중의 요소 개수에서 1을 뺀 것이고,
Figure pct00006
는 레이블 벡터 중의 k번째 요소를 표시하고, p는 상기 분류 분기망이 출력한 발생 확률을 표시한다.
단계 505에서, 상기 신경망의 각각의 분류 분기망에 대응하는 손실값을 기반으로,상기 신경망의 파라미터값을 조정한다.
본 발명의 일부 실시예에서, 신경망 중 각각의 분류 분기망에 대응하는 손실값을 기반으로, 신경망의 파라미터를 조정하는 경우, 우선 신경망 중 각각의 분류 분기망에 대응하는 손실값을 기반으로, 이번 트레이닝 과정 중의 전체 손실을 결정할 수 있다. 예를 들어, 각 분류 분기망에 대응하는 손실값의 합을 이번 트레이닝 과정 중의 전체 손실로 사용한 다음, 기울기 역전파(gradient back propagation) 방법에 의해 신경망의 파라미터값을 조정할 수 있다.
이러한 방식을 통하여, 각각의 분류 분기망에 대응하는 손실값을 기반으로, 신경망의 파라미터를 조정함으로써, 복수의 분류 분기망의 동시 트레이닝을 구현하고, 복수의 기관의 모션을 인식하는 과정에서 응용된 신경망의 트레이닝 효율을 향상시킬 수 있다.
도 6을 참조하면, 도 6은 본 발명의 실시예에서 제공되는 키 포인트 검출 모델의 트레이닝 방법의 흐름 모식도이고, 하기와 같은 단계를 포함한다.
단계 601에서, 상기 샘플 이미지 중 키 포인트의 위치를 나타내는 태그를 구비한 샘플 이미지를 획득한다.
여기서, 샘플 이미지 중의 태그는 수동으로 태깅될 수 있다.
단계 602에서, 태그를 구비한 상기 샘플 이미지를 트레이닝할 키 포인트 검출 모델에 입력하여, 상기 키 포인트 검출 모델에 대응하는 예측 키 포인트 위치를 획득한다.
단계 603에서, 상기 샘플 이미지의 태그 및 상기 샘플 이미지에 대응하는 예측 키 포인트 위치를 기반으로, 이번 트레이닝 과정 중의 손실값을 결정하고, 상기 손실값을 기반으로, 상기 키 포인트 검출 모델의 파라미터값을 조정한다.
본 기술분야의 통상의 기술자는 발명을 실시하기 위한 구체적인 내용의 상기 방법에서, 각 단계의 작성 순서가 엄격한 수행 순서를 의미하는 것이 아니라 실시 과정에 대한 임의의 제한을 구성하며 각 단계의 구체적인 수행 순서는 그 기능과 가능한 내적 논리로 결정되어야 한다는 것을 이해할 수 있다.
동일한 발명 구상을 바탕으로, 본 발명의 실시예는 표정 인식 방법에 대응하는 표정 인식 장치를 더 제공한다. 본 발명의 실시예 중의 장치에 의해 문제를 해결하는 원리는 본 발명의 실시예에서 상기 표정 인식 방법과 유사하므로, 장치의 구현은 방법의 구현을 참조할 수 있고, 중복되는 부분은 더 이상 설명하지 않는다.
도 7을 참조하면, 도 7은 본 발명의 실시예에서 제공되는 표정 인식 장치의 아키텍처 모식도이고, 상기 장치는 획득 모듈(701), 인식 모듈(702), 결정 모듈(703) 및 트레이닝 모듈(704)을 포함하며; 여기서,
획득 모듈(701)은 안면 이미지를 획득하도록 구성된다.
인식 모듈(702)은 상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하도록 구성된다.
결정 모듈(703)은 인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하도록 구성된다.
본 발명의 일부 실시예에서, 상기 인식 모듈(702)은 또한,
안면 이미지를 획득한 후, 상기 안면 이미지에 대해 이미지 전처리를 수행하여, 처리된 안면 이미지를 획득하도록 구성되되, 상기 이미지 전처리는 상기 안면 이미지에 대해 핵심 정보 강화 처리를 수행하고;
상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 경우, 상기 인식 모듈(702)은,
상기 처리된 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 결정하도록 구성된다.
본 발명의 일부 실시예에서, 상기 안면 이미지에 대해 이미지 전처리를 수행하는 경우, 상기 인식 모듈(702)은,
상기 안면 이미지 중의 키 포인트의 위치 정보를 결정하고;
상기 키 포인트의 위치 정보를 기반으로, 상기 안면 이미지에 대해 아핀 변환을 수행하여 상기 안면 이미지에 대응하는 정면으로 보정된 이미지를 획득하며;
정면으로 보정된 이미지를 정규화 처리하여, 처리된 안면 이미지를 획득하도록 구성된다.
본 발명의 일부 실시예에서, 정면으로 보정된 이미지를 정규화 처리하는 경우, 상기 인식 모듈(702)은,
상기 키 포인트의 위치 정보를 기반으로, 상기 정면으로 보정된 이미지에 대해 이미지 크롭을 수행하여 크롭된 이미지를 획득하고;
상기 크롭된 이미지에 포함된 각 픽셀점의 픽셀값의 평균값 및 상기 크롭된 이미지에 포함된 각 픽셀점의 픽셀값의 표준편차를 계산하며;
상기 픽셀값의 평균값 및 상기 픽셀값의 표준편차를 기반으로, 상기 크롭된 이미지 중의 각각의 픽셀점의 픽셀값을 정규화 처리하도록 구성된다.
본 발명의 일부 실시예에서, 안면의 기관의 모션은,
눈살 찌푸리기, 눈 부릅뜨기, 입꼬리 올리기, 윗입술 위로 올리기, 입꼬리 내리기, 입 벌리기를 포함한다.
본 발명의 일부 실시예에서, 인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하는 경우, 상기 결정 모듈(703)은,
인식된 상기 각 기관의 모션, 및 기설정된 모션과 표정 상태 간의 대응 관계를 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하도록 구성된다.
본 발명의 일부 실시예에서,상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 단계는, 모션 인식을 위한 신경망에 의해 수행되고, 상기 모션 인식을 위한 신경망은 백본망과 적어도 두 개의 분류 분기망을 포함하며, 각각의 분류 분기망은 안면의 하나의 기관의 한 가지 모션을 인식하고;
상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 경우, 상기 인식 모듈(702)은,
백본망을 이용하여 상기 안면 이미지에 대해 특징 추출을 수행하여, 상기 안면 이미지의 특징맵을 획득하고;
각각의 분류 분기망을 각각 이용하여 상기 안면 이미지의 특징맵에 따라 모션 인식을 수행하여, 각각의 분류 분기망이 인식 가능한 모션의 발생 확률을 획득하며;
기설정된 확률보다 발생 확률이 높은 모션을 상기 안면 이미지가 나타내는 안면의 기관의 모션으로 결정하도록 구성된다.
본 발명의 일부 실시예에서, 상기 장치는,
샘플 이미지 및 상기 샘플 이미지에 대응하는 레이블 벡터를 이용하여 상기 모션 인식을 위한 신경망을 트레이닝하도록 구성되는 트레이닝 모듈(704)을 더 포함하되, 여기서, 상기 샘플 이미지에 대응하는 레이블 벡터는 상기 샘플 이미지가 나타내는 안면의 기관의 모션을 나타내고; 레이블 벡터 중의 각각의 요소 위치의 값은 상기 샘플 이미지에서 상기 요소 위치에 대응하는 모션이 발생하는지 여부를 나타낸다.
본 발명의 일부 실시예에서, 샘플 이미지 및 상기 샘플 이미지에 대응하는 레이블 벡터를 이용하여 상기 모션 인식을 위한 신경망을 트레이닝하는 경우, 상기 트레이닝 모듈(704)은,
신경망의 백본망을 이용하여 샘플 이미지에 대해 특징 추출을 수행하여 샘플 이미지의 특징맵을 획득하고;
각각의 분류 분기망을 각각 이용하여 상기 샘플 이미지의 특징맵에 따라 모션 인식을 수행하여 각각의 분류 분기망이 인식 가능한 모션의 발생 확률을 획득하며;
각각의 분류 분기망이 인식 가능한 모션의 발생 확률 및 샘플 이미지의 레이블 벡터를 기반으로, 각각의 분류 분기망에 대응하는 손실값을 결정하며;
상기 신경망의 각각의 분류 분기망에 대응하는 손실값을 기반으로, 상기 신경망의 파라미터값을 조정하도록 구성된다.
장치 중의 각 모듈의 처리 흐름 및 각 모듈 간의 상호 작용 흐름에 대한 설명은 상기 방법 실시예 중의 관련 설명을 참조할 수 있으며, 여기서 더 이상 설명하지 않는다.
동일한 기술 구상을 바탕으로, 본 발명의 실시예는 컴퓨터 기기를 더 제공한다. 도 8을 참조하면, 도 8은 본 발명의 실시예에서 제공되는 컴퓨터 기기의 구조 모식도이며, 프로세서(801), 메모리(802) 및 버스(803)를 포함한다. 여기서, 메모리(802)는 내부 저장 장치(8021) 및 외부 메모리(8022)를 포함하는 실행 명령을 저장하도록 구성되고; 여기서의 내부 저장 장치(8021)는 내부 메모리라고도 하며, 프로세서(801) 중의 운영 데이터 및 하드 디스크와 같은 외부 메모리(8022)와 교환되는 데이터를 일시적으로 저장하도록 구성되고, 프로세서(801)는 내부 저장 장치(8021)를 통해 외부 메모리(8022)와 데이터를 교환하며, 전자 기기(800)가 작동될 경우, 프로세서(801)와 메모리(802)는 버스(803)를 통해 통신하여, 프로세서(801)가,
안면 이미지를 획득하고;
상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하며;
인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하기 위한 명령을 실행하도록 한다.
본 발명의 실시예는 컴퓨터 판독 가능한 저장 매체를 더 제공하고, 상기 컴퓨터 판독 가능한 저장 매체에는 컴퓨터 프로그램이 저장되며, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 상기 방법 실시예에 따른 표정 인식 방법의 단계를 수행한다. 여기서, 상기 저장 매체는 휘발성 또는 비휘발성 컴퓨터 판독 가능한 저장 매체일 수 있다.
본 발명의 실시예에서 제공되는 표정 인식 방법의 컴퓨터 프로그램 제품은 프로그램 코드가 저장된 컴퓨터 판독 가능한 저장 매체를 포함하며, 상기 프로그램 코드에 포함된 명령은 상기 방법 실시예에 따른 표정 인식 방법의 단계를 수행하는데 사용할 수 있고, 구현 시 상기 방법 실시예를 참조할 수 있으며, 여기서 더 이상 설명하지 않는다.
본 발명의 실시예는 컴퓨터 프로그램을 더 제공하고, 상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우 전술한 실시예의 임의의 방법을 구현한다. 상기 컴퓨터 프로그램 제품은 하드웨어, 소프트웨어 또는 그 결합 방식을 통해 구현될 수 있다. 본 발명의 일부 실시예에서, 상기 컴퓨터 프로그램 제품은 컴퓨터 저장 매체로 구현되고, 본 발명의 다른 일부 실시예에서, 컴퓨터 프로그램 제품은 소프트웨어 개발 키트(Software Development Kit, SDK) 등과 같은 소프트웨어 제품으로 구현된다.
당업자는 설명의 편의와 간결함을 위해 상기에서 설명된 시스템 및 장치의 동작 과정은 전술한 방법 실시예 중의 대응되는 과정을 참조할 수 있음을 명확히 이해할 것이며, 여기서는 더 이상 설명하지 않는다. 본 발명에서 제공된 몇 개의 실시예에서, 개시된 시스템, 장치 및 방법은 다른 방식으로 구현될 수 있음을 이해해야 할 것이다. 이상에서 설명한 장치 실시예는 단지 예시적인 것이며, 예를 들면 상기 유닛의 구획은 단지 논리적 기능 구획일 뿐이고, 실제 구현 시 다른 구획 방식이 있을 수 있으며, 또한 예를 들면 복수의 유닛 또는 컴포넌트는 다른 하나의 시스템에 조합 또는 집적될 수 있거나, 일부 특징은 생략되거나 실행되지 않을 수 있다. 또한, 기재 또는 토론된 서로 간의 커플링 또는 직접 커플링 또는 통신 연결은 일부 통신 인터페이스를 통한 것일 수 있고, 장치 또는 유닛의 간접 커플링 또는 통신 연결은 전기적, 기계적 또는 다른 형태의 연결일 수 있다.
이상에서 분리 부재로 설명된 유닛은 물리적으로 분리되거나 분리되지 않은 것일 수 있고, 유닛으로 표시된 부재는 물리적 유닛일 수 있거나, 물리적 유닛이 아닐 수 있으며, 하나의 장소에 위치하거나, 복수의 네트워크 유닛에 분포될 수 있다. 실제 필요에 따라 그 중 일부 또는 전부 유닛을 선택하여 본 실시예의 해결수단의 목적을 구현할 수 있다.
이밖에, 본 발명의 각 실시예의 각 기능 유닛은 하나의 프로세싱 유닛에 집적될 수 있거나, 각 유닛이 별도로 물리적으로 존재할 수 있거나, 둘 또는 둘 이상의 유닛이 하나의 유닛에 집적될 수 있다.
상기 기능이 만약 소프트웨어 기능 유닛의 형태로 구현되고 별도의 제품으로 판매되거나 사용될 경우, 프로세서에 의해 실행 가능한 하나의 비휘발성 컴퓨터 판독 가능한 저장 매체에 저장될 수 있다. 이러한 이해에 기반해보면, 본 발명의 기술적 해결수단은 본질적으로 또는 선행기술에 기여하는 부분 또는 해당 기술적 해결수단의 일부는 소프트웨어 제품의 형태로 구현될 수 있고, 해당 컴퓨터 소프트웨어 제품은 하나의 저장 매체에 저장되며, 약간의 명령을 포함하여 하나의 컴퓨터 기기(개인용 컴퓨터, 서버 또는 네트워크 기기 등일 수 있음)가 본 발명의 각 실시예에 따른 방법의 전부 또는 일부 단계를 수행하도록 할 수 있다. 전술한 저장 매체는 USB 메모리, 외장 하드, 판독 전용 메모리(ROM, Read-Only Memory), 랜덤 액세스 메모리(RAM, Random Access Memory), 디스켓 또는 CD 등 프로그램 코드를 저장할 수 있는 다양한 매체를 포함한다.
마지막으로, 상술한 실시예는 본 발명의 기술적 해결수단을 설명하기 위한 본 발명의 구체적인 실시형태일 뿐 이에 한정되지 않으며 본 발명의 보호 범위는 이에 한정되지 않음에 유의해야 한다. 전술한 실시예를 참조하여 본 발명에 대해 상세하게 설명하였지만 본 기술분야의 통상의 기술자는 본 기술분야에서 통상의 지식을 가진 자라면 본 발명이 개시된 기술 범위 내에서 여전히 전술한 실시예에 기재된 기술적 해결수단에 대해 수정할 수 있거나 변경될 수 있음을 쉽게 생각해낼 수 있거나, 그 중 일부 기술 특징에 대해 등가 교체를 수행할 수 있음을 이해해야 할 것이며, 이러한 수정, 변경 또는 교체는 해당하는 기술적 해결수단의 본질이 본 발명의 실시예의 기술적 해결수단의 정신 및 범위를 벗어나지 않고 모두 본 발명의 보호 범위 내에 포함되도록 해야 한다. 따라서, 본 발명의 보호 범위는 청구 범위의 보호 범위를 기준으로 한다.
본 발명의 실시예는 표정 인식 방법 및 장치, 기기, 컴퓨터 판독 가능한 저장 매체, 컴퓨터 프로그램 제품을 제공한다. 여기서, 방법은, 안면 이미지를 획득하는 단계; 상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 단계; 인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하는 단계를 포함한다. 본 발명의 실시예에서 제공되는 표정 인식 방법에 따라 안면에 대해 표정 인식을 수행함으로써, 표정 인식의 정밀도를 향상시키고, 표정 인식의 정확성을 향상시킬 수 있다.

Claims (21)

  1. 표정 인식 방법으로서,
    안면 이미지를 획득하는 단계;
    상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 단계; 및
    인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하는 단계를 포함하는 표정 인식 방법.
  2. 제1항에 있어서,
    안면 이미지를 획득하는 단계 이후에, 상기 방법은,
    상기 안면 이미지에 대해 이미지 전처리를 수행하여, 처리된 안면 이미지를 획득하는 단계를 더 포함하되, 상기 이미지 전처리는 상기 안면 이미지에 대해 핵심 정보 강화 처리를 수행하고,
    상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 단계는,
    상기 처리된 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 결정하는 단계를 포함하는 표정 인식 방법.
  3. 제2항에 있어서,
    상기 안면 이미지에 대해 이미지 전처리를 수행하는 단계는,
    상기 안면 이미지 중의 키 포인트의 위치 정보를 결정하는 단계;
    상기 키 포인트의 위치 정보를 기반으로, 상기 안면 이미지에 대해 아핀 변환을 수행하여 상기 안면 이미지에 대응하는 정면으로 보정된 이미지를 획득하는 단계; 및
    정면으로 보정된 이미지를 정규화 처리하여, 처리된 안면 이미지를 획득하는 단계를 포함하는 표정 인식 방법.
  4. 제3항에 있어서,
    상기 정면으로 보정된 이미지를 정규화 처리하는 단계는,
    상기 키 포인트의 위치 정보를 기반으로, 상기 정면으로 보정된 이미지에 대해 이미지 크롭을 수행하여 크롭된 이미지를 획득하는 단계;
    상기 크롭된 이미지에 포함된 각 픽셀점의 픽셀값의 평균값 및 상기 크롭된 이미지에 포함된 각 픽셀점의 픽셀값의 표준편차를 계산하는 단계; 및
    상기 픽셀값의 평균값 및 상기 픽셀값의 표준편차를 기반으로, 상기 크롭된 이미지 중의 각각의 픽셀점의 픽셀값을 정규화 처리하는 단계를 포함하는 표정 인식 방법.
  5. 제1항에 있어서,
    안면의 기관의 모션은,
    눈살 찌푸리기, 눈 부릅뜨기, 입꼬리 올리기, 윗입술 위로 올리기, 입꼬리 내리기, 입 벌리기를 포함하는 표정 인식 방법.
  6. 제1항에 있어서,
    상기 인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하는 단계는,
    인식된 상기 각 기관의 모션, 및 기설정된 모션과 표정 상태 간의 대응 관계를 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하는 단계를 포함하는 표정 인식 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 단계는, 모션 인식을 위한 신경망에 의해 수행되고, 상기 모션 인식을 위한 신경망은 백본망과 적어도 두 개의 분류 분기망을 포함하며, 각각의 분류 분기망은 안면의 하나의 기관의 한 가지 모션을 인식하고;
    상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 단계는,
    백본망을 이용하여 상기 안면 이미지에 대해 특징 추출을 수행하여, 상기 안면 이미지의 특징맵을 획득하는 단계;
    각각의 분류 분기망을 각각 이용하여 상기 안면 이미지의 특징맵에 따라 모션 인식을 수행하여, 각각의 분류 분기망이 인식 가능한 모션의 발생 확률을 획득하는 단계; 및
    기설정된 확률보다 발생 확률이 높은 모션을 상기 안면 이미지가 나타내는 안면의 기관의 모션으로 결정하는 단계를 포함하는 표정 인식 방법.
  8. 제7항에 있어서,
    상기 모션 인식을 위한 신경망은 샘플 이미지 및 상기 샘플 이미지에 대응하는 레이블 벡터를 이용해 트레이닝하여 획득되되, 상기 샘플 이미지에 대응하는 레이블 벡터는 상기 샘플 이미지가 나타내는 안면의 기관의 모션을 나타내고; 레이블 벡터 중의 각각의 요소 위치의 값은 상기 샘플 이미지에서 상기 요소 위치에 대응하는 모션이 발생하는지 여부를 나타내는 표정 인식 방법.
  9. 제8항에 있어서,
    샘플 이미지 및 상기 샘플 이미지에 대응하는 레이블 벡터를 이용하여 상기 모션 인식을 위한 신경망을 트레이닝하는 단계는,
    신경망의 백본망을 이용하여 샘플 이미지에 대해 특징 추출을 수행하여 샘플 이미지의 특징맵을 획득하는 단계;
    각각의 분류 분기망을 각각 이용하여 상기 샘플 이미지의 특징맵에 따라 모션 인식을 수행하여 각각의 분류 분기망이 인식 가능한 모션의 발생 확률을 획득하는 단계;
    각각의 분류 분기망이 인식 가능한 모션의 발생 확률 및 샘플 이미지의 레이블 벡터를 기반으로, 각각의 분류 분기망에 대응하는 손실값을 결정하는 단계; 및
    상기 신경망의 각각의 분류 분기망에 대응하는 손실값을 기반으로, 상기 신경망의 파라미터값을 조정하는 단계를 포함하는 표정 인식 방법.
  10. 표정 인식 장치로서,
    안면 이미지를 획득하는 획득 모듈;
    상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 인식 모듈; 및
    인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하는 결정 모듈을 포함하는 표정 인식 장치.
  11. 제10항에 있어서,
    상기 인식 모듈은 또한,
    안면 이미지를 획득한 후, 상기 안면 이미지에 대해 이미지 전처리를 수행하여, 처리된 안면 이미지를 획득하도록 구성되되, 상기 이미지 전처리는 상기 안면 이미지에 대해 핵심 정보 강화 처리를 수행하고,
    상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 경우, 상기 인식 모듈은,
    상기 처리된 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 결정하도록 구성되는 표정 인식 장치.
  12. 제11항에 있어서,
    상기 안면 이미지에 대해 이미지 전처리를 수행하는 경우, 상기 인식 모듈은,
    상기 안면 이미지 중의 키 포인트의 위치 정보를 결정하고;
    상기 키 포인트의 위치 정보를 기반으로, 상기 안면 이미지에 대해 아핀 변환을 수행하여 상기 안면 이미지에 대응하는 정면으로 보정된 이미지를 획득하며;
    정면으로 보정된 이미지를 정규화 처리하여, 처리된 안면 이미지를 획득하도록 구성되는 표정 인식 장치.
  13. 제12항에 있어서,
    정면으로 보정된 이미지를 정규화 처리하는 경우, 상기 인식 모듈은,
    상기 키 포인트의 위치 정보를 기반으로, 상기 정면으로 보정된 이미지에 대해 이미지 크롭을 수행하여 크롭된 이미지를 획득하고;
    상기 크롭된 이미지에 포함된 각 픽셀점의 픽셀값의 평균값 및 상기 크롭된 이미지에 포함된 각 픽셀점의 픽셀값의 표준편차를 계산하며;
    상기 픽셀값의 평균값 및 상기 픽셀값의 표준편차를 기반으로, 상기 크롭된 이미지 중의 각각의 픽셀점의 픽셀값을 정규화 처리하도록 구성되는 표정 인식 장치.
  14. 제10항에 있어서,
    안면의 기관의 모션은,
    눈살 찌푸리기, 눈 부릅뜨기, 입꼬리 올리기, 윗입술 위로 올리기, 입꼬리 내리기, 입 벌리기를 포함하는 표정 인식 장치.
  15. 제10항에 있어서,
    인식된 상기 각 기관의 모션을 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하는 경우, 상기 결정 모듈은,
    인식된 상기 각 기관의 모션, 및 기설정된 모션과 표정 상태 간의 대응 관계를 기반으로, 상기 안면 이미지가 나타내는 안면의 표정 상태를 결정하도록 구성되는 표정 인식 장치.
  16. 제10항 내지 제15항 중 어느 한 항에 있어서,
    상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 단계는, 모션 인식을 위한 신경망에 의해 수행되고, 상기 모션 인식을 위한 신경망은 백본망과 적어도 두 개의 분류 분기망을 포함하며, 각각의 분류 분기망은 안면의 하나의 기관의 한 가지 모션을 인식하고;
    상기 안면 이미지에 따라, 상기 안면 이미지가 나타내는 안면의 적어도 두 개의 기관에서 각 기관의 모션을 인식하는 경우, 상기 인식 모듈은,
    백본망을 이용하여 상기 안면 이미지에 대해 특징 추출을 수행하여,상기 안면 이미지의 특징맵을 획득하고;
    각각의 분류 분기망을 각각 이용하여 상기 안면 이미지의 특징맵에 따라 모션 인식을 수행하여,각각의 분류 분기망이 인식 가능한 모션의 발생 확률을 획득하며;
    기설정된 확률보다 발생 확률이 높은 모션을 상기 안면 이미지가 나타내는 안면의 기관의 모션으로 결정하도록 구성되는 표정 인식 장치.
  17. 제16항에 있어서,
    상기 장치는,
    샘플 이미지 및 상기 샘플 이미지에 대응하는 레이블 벡터를 이용하여 상기 모션 인식을 위한 신경망을 트레이닝하도록 구성되는 트레이닝 모듈을 더 포함하되,
    상기 샘플 이미지에 대응하는 레이블 벡터는 상기 샘플 이미지가 나타내는 안면의 기관의 모션을 나타내고; 레이블 벡터 중의 각각의 요소 위치의 값은 상기 샘플 이미지에서 상기 요소 위치에 대응하는 모션이 발생하는지 여부를 나타내는 표정 인식 장치.
  18. 제17항에 있어서,
    샘플 이미지 및 상기 샘플 이미지에 대응하는 레이블 벡터를 이용하여 상기 모션 인식을 위한 신경망을 트레이닝하는 경우,상기 트레이닝 모듈은,
    신경망의 백본망을 이용하여 샘플 이미지에 대해 특징 추출을 수행하여 샘플 이미지의 특징맵을 획득하고;
    각각의 분류 분기망을 각각 이용하여 상기 샘플 이미지의 특징맵에 따라 모션 인식을 수행하여 각각의 분류 분기망이 인식 가능한 모션의 발생 확률을 획득하며;
    각각의 분류 분기망이 인식 가능한 모션의 발생 확률 및 샘플 이미지의 레이블 벡터를 기반으로, 각각의 분류 분기망에 대응하는 손실값을 결정하며;
    상기 신경망의 각각의 분류 분기망에 대응하는 손실값을 기반으로, 상기 신경망의 파라미터값을 조정하도록 구성되는 표정 인식 장치.
  19. 컴퓨터 기기로서,
    프로세서, 메모리 및 버스를 포함하고, 상기 메모리에는 상기 프로세서에 의해 실행 가능한 기계 판독 가능 명령이 저장되며, 컴퓨터 기기가 작동될 경우, 상기 프로세서와 상기 메모리는 버스를 통해 통신하고, 상기 기계 판독 가능 명령이 상기 프로세서에 의해 실행될 경우 제1항 내지 제9항 중 어느 한 항에 따른 표정 인식 방법의 단계를 수행하는 컴퓨터 기기.
  20. 컴퓨터 판독 가능한 저장 매체로서,
    상기 컴퓨터 판독 가능한 저장 매체에는 컴퓨터 프로그램이 저장되고, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 제1항 내지 제9항 중 어느 한 항에 따른 표정 인식 방법의 단계를 수행하는 컴퓨터 판독 가능한 저장 매체.
  21. 컴퓨터 프로그램 제품으로서,
    상기 컴퓨터 프로그램 제품은 컴퓨터 프로그램이 저장된 비일시적 컴퓨터 판독 가능한 저장 매체를 포함하고, 상기 컴퓨터 프로그램이 컴퓨터에 의해 판독되고 실행될 경우, 제1항 내지 제9항 중 어느 한 항에 따른 방법을 구현하는 컴퓨터 프로그램 제품.
KR1020227023401A 2020-01-08 2020-12-10 표정 인식 방법 및 장치, 기기, 컴퓨터 판독 가능한 저장 매체, 컴퓨터 프로그램 제품 KR20220106842A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010018179.9 2020-01-08
CN202010018179.9A CN111209867A (zh) 2020-01-08 2020-01-08 一种表情识别方法及装置
PCT/CN2020/135263 WO2021139475A1 (zh) 2020-01-08 2020-12-10 一种表情识别方法及装置、设备、计算机可读存储介质、计算机程序产品

Publications (1)

Publication Number Publication Date
KR20220106842A true KR20220106842A (ko) 2022-07-29

Family

ID=70784167

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227023401A KR20220106842A (ko) 2020-01-08 2020-12-10 표정 인식 방법 및 장치, 기기, 컴퓨터 판독 가능한 저장 매체, 컴퓨터 프로그램 제품

Country Status (4)

Country Link
JP (1) JP7317241B2 (ko)
KR (1) KR20220106842A (ko)
CN (1) CN111209867A (ko)
WO (1) WO2021139475A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209867A (zh) * 2020-01-08 2020-05-29 上海商汤临港智能科技有限公司 一种表情识别方法及装置
CN111976559A (zh) * 2020-07-08 2020-11-24 好孩子儿童用品有限公司 一种基于机器感知的儿童安全乘坐系统
CN113505750B (zh) * 2021-07-28 2024-08-27 阳光保险集团股份有限公司 一种识别方法、装置、电子设备及计算机可读存储介质
CN113762107B (zh) * 2021-08-23 2024-05-07 海宁奕斯伟集成电路设计有限公司 对象状态评估方法、装置、电子设备及可读存储介质
CN113855019B (zh) * 2021-08-25 2023-12-29 杭州回车电子科技有限公司 基于eog、emg以及压电信号的表情识别方法和装置
CN113723359A (zh) * 2021-09-16 2021-11-30 未鲲(上海)科技服务有限公司 用户情绪识别方法、装置、计算机设备及可读存储介质
CN115439920B (zh) * 2022-11-03 2023-03-24 之江实验室 基于情绪视听刺激和面部表情的意识状态检测系统、设备
CN116434313B (zh) * 2023-04-28 2023-11-14 北京声迅电子股份有限公司 基于多人脸识别模块的人脸识别方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3307354B2 (ja) * 1999-01-29 2002-07-24 日本電気株式会社 人物識別方法及び装置と人物識別プログラムを記録した記録媒体
WO2011155902A1 (en) * 2010-06-11 2011-12-15 National University Of Singapore General motion-based face recognition
CN103824054B (zh) * 2014-02-17 2018-08-07 北京旷视科技有限公司 一种基于级联深度神经网络的人脸属性识别方法
CN105117703B (zh) * 2015-08-24 2018-10-16 复旦大学 基于矩阵乘法的快速动作单元识别方法
JP2017084302A (ja) * 2015-10-30 2017-05-18 広島県 黒目位置検出装置、電子機器、プログラムおよび黒目位置検出方法
WO2017203769A1 (ja) * 2016-05-23 2017-11-30 アルプス電気株式会社 視線検出方法
CN106127139B (zh) * 2016-06-21 2019-06-25 东北大学 一种mooc课程中学生面部表情的动态识别方法
JP2018032164A (ja) * 2016-08-23 2018-03-01 株式会社ユニバーサルエンターテインメント 面接システム
JP6753331B2 (ja) * 2017-02-22 2020-09-09 沖電気工業株式会社 情報処理装置、方法および情報処理システム
CN108664989B (zh) * 2018-03-27 2019-11-01 北京达佳互联信息技术有限公司 图像标签确定方法、装置及终端
CN109344744B (zh) * 2018-09-14 2021-10-29 北京师范大学 基于深度卷积神经网络的人脸微表情动作单元检测方法
CN109558851A (zh) * 2018-12-04 2019-04-02 广东智媒云图科技股份有限公司 一种基于面部表情的联合作画方法及系统
CN109635727A (zh) * 2018-12-11 2019-04-16 昆山优尼电能运动科技有限公司 一种人脸表情识别方法及装置
CN109683709A (zh) * 2018-12-17 2019-04-26 苏州思必驰信息科技有限公司 基于情绪识别的人机交互方法及系统
CN109766840B (zh) * 2019-01-10 2024-02-20 腾讯科技(深圳)有限公司 人脸表情识别方法、装置、终端及存储介质
CN109961054A (zh) * 2019-03-29 2019-07-02 山东大学 一种基于感兴趣区域特征点运动的焦虑、抑郁、愤怒表情识别方法
CN109961062A (zh) * 2019-04-16 2019-07-02 北京迈格威科技有限公司 图像识别方法、装置、终端和可读存储介质
CN110097021B (zh) * 2019-05-10 2022-09-06 电子科技大学 基于mtcnn的人脸姿态估计方法
CN110188673B (zh) * 2019-05-29 2021-07-30 京东方科技集团股份有限公司 表情识别方法和装置
CN110427800B (zh) * 2019-06-17 2024-09-10 平安科技(深圳)有限公司 视频物体加速检测方法、装置、服务器及存储介质
CN110533120B (zh) * 2019-09-05 2023-12-12 腾讯科技(深圳)有限公司 器官结节的图像分类方法、装置、终端及存储介质
CN111209867A (zh) * 2020-01-08 2020-05-29 上海商汤临港智能科技有限公司 一种表情识别方法及装置

Also Published As

Publication number Publication date
JP7317241B2 (ja) 2023-07-28
WO2021139475A1 (zh) 2021-07-15
JP2023509750A (ja) 2023-03-09
CN111209867A (zh) 2020-05-29

Similar Documents

Publication Publication Date Title
KR20220106842A (ko) 표정 인식 방법 및 장치, 기기, 컴퓨터 판독 가능한 저장 매체, 컴퓨터 프로그램 제품
CN109359538B (zh) 卷积神经网络的训练方法、手势识别方法、装置及设备
US11151363B2 (en) Expression recognition method, apparatus, electronic device, and storage medium
US12039454B2 (en) Microexpression-based image recognition method and apparatus, and related device
CN109299639B (zh) 一种用于表情识别的方法和装置
CN111758116B (zh) 脸部图像识别系统、识别器生成装置、识别装置与系统
US20220237943A1 (en) Method and apparatus for adjusting cabin environment
CN109448007B (zh) 图像处理方法、图像处理装置及存储介质
CN109271930B (zh) 微表情识别方法、装置与存储介质
US11367310B2 (en) Method and apparatus for identity verification, electronic device, computer program, and storage medium
JP5361524B2 (ja) パターン認識システム及びパターン認識方法
US10255487B2 (en) Emotion estimation apparatus using facial images of target individual, emotion estimation method, and non-transitory computer readable medium
EP3944188A1 (en) Image processing device, image processing method, and recording medium in which program is stored
CN113221771A (zh) 活体人脸识别方法、装置、设备、存储介质及程序产品
CN112712906A (zh) 视频图像处理方法、装置、电子设备及存储介质
CN112241667A (zh) 图像检测方法、装置、设备及存储介质
WO2021127916A1 (zh) 脸部情感识别方法、智能装置和计算机可读存储介质
CN111553838A (zh) 模型参数的更新方法、装置、设备及存储介质
CN115035581A (zh) 面部表情识别方法、终端设备及存储介质
CN110610131B (zh) 人脸运动单元的检测方法、装置、电子设备及存储介质
CN110852220A (zh) 人脸表情的智能识别方法、终端和计算机可读存储介质
CN115294557A (zh) 图像处理方法、图像处理装置、电子设备及存储介质
CN115424309A (zh) 人脸关键点的生成方法、装置、终端设备及可读存储介质
Praneel et al. Malayalam Sign Language Character Recognition System
CN112149598A (zh) 一种侧脸评估方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination