KR20210066697A - 비디오 프레임의 공간 정보와 동적 정보를 다층 bi-lstm을 통해 분석하여 인간 우울증 수준을 예측하는 장치 및 방법 - Google Patents

비디오 프레임의 공간 정보와 동적 정보를 다층 bi-lstm을 통해 분석하여 인간 우울증 수준을 예측하는 장치 및 방법 Download PDF

Info

Publication number
KR20210066697A
KR20210066697A KR1020200106833A KR20200106833A KR20210066697A KR 20210066697 A KR20210066697 A KR 20210066697A KR 1020200106833 A KR1020200106833 A KR 1020200106833A KR 20200106833 A KR20200106833 A KR 20200106833A KR 20210066697 A KR20210066697 A KR 20210066697A
Authority
KR
South Korea
Prior art keywords
vldn
level
generating
depression
analyzing
Prior art date
Application number
KR1020200106833A
Other languages
English (en)
Other versions
KR102503885B1 (ko
Inventor
이영구
무하마드 아제르 우딘
Original Assignee
경희대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경희대학교 산학협력단 filed Critical 경희대학교 산학협력단
Publication of KR20210066697A publication Critical patent/KR20210066697A/ko
Application granted granted Critical
Publication of KR102503885B1 publication Critical patent/KR102503885B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/70ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mental therapies, e.g. psychological therapy or autogenous training
    • G06K9/00315
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Social Psychology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Psychology (AREA)
  • Psychiatry (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Child & Adolescent Psychology (AREA)
  • Developmental Disabilities (AREA)
  • Hospice & Palliative Care (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 실시 예에 따른 미세 얼굴 표정을 분석하여 인간의 우울증 수준을 예측하는 장치는 비디오 데이터를 저장하는 데이터 저장부, 비디오 데이터에서 공간 정보를 생성하는 공간 정보 생성부, 비디오 데이터에서 3개의 연속된 프레임을 추출하고, 연속된 프레임을 기준으로 얼굴 역학을 분석하기 위한 VLDN(volume local directional number) 특징 맵을 생성하고, CNN(Deep Convolutional Neural Network) 모델에 입력하여 얼굴 움직임에 대한 동적 정보를 생성하는 VLDN 특징 맵 생성부, 공간 정보와 동적 정보를 TMP(Temporal Median Pooling) 방법을 통하여 출력값으로 생성하는 정보 처리부, 출력값을 재귀신경망을 기반으로 인간의 우울증 수준을 예측하는 예측부를 포함한다.

Description

비디오 프레임의 공간 정보와 동적 정보를 다층 BI-LSTM을 통해 분석하여 인간 우울증 수준을 예측하는 장치 및 방법{APPARATUS AND METHOD FOR PREDICTING HUMAN DEPRESSION LEVEL USING MULTI-LAYER BI-LSTM WITH SPATIAL AND DYNAMIC INFORMATION OF VIDEO FRAMES}
본 발명은 비디오 데이터를 분석하여 인간의 우울증 수준을 예측하기 위한 장치 및 방법에 대한 것이다. 보다 구체적으로는 비디오 데이터의 공간 정보와 비디오 데이터의 동적 정보를 고려하여 다층 BI-LSTM을 사용한 인간의 우울증 수준을 예측하기 위한 장치 및 방법에 관한 것이다.
최근 사회적으로 인간의 정신 건강에 관한 정신의학적 분석이 증가하고 있다. 인간의 정신건강 질병 중 가장 널리 알려진 것은 우울증으로 알려진 Major Depressive Disorder(MDD)이다. 우울증은 환자의 가족, 직장 생활, 식습관, 수면습관 등 환자의 전반적인 생활에 부정적인 영향을 주며, 사회적으로도 악영향을 주는 정신질병에 해당된다. 따라서 우울증의 발병 여부를 조기에 발견할 수 있다면, 개인적 측면 및 사회적 측면에서 모두 우울증 문제 해결에 도움이 될 수 있다.
종래 우울증을 확인하기 위한 검사는 정신의학 전문가의 평가로 이루어졌다. 또한 정신의학 전문가가 환자와 대면하여 상담을 통해, 우울증의 여부 및 우울증 수준을 판단하였다. 그러나, 전문가가 우울증을 판단하는 것은 노동 집약적이며 전문가의 주관적 인식에 크게 의존해야 하는 문제가 있다.
따라서, 환자의 우울증 여부 및 우울증 수준을 보다 간편한 방법을 통해 확인할 수 있다면, 우울증으로 인한 많은 문제들을 조기에 파악하고, 해결할 수 있다. 이에, 최근 인간의 얼굴 표정을 녹화한 비디오 데이터를 분석하여, 우울증 수준을 예측하는 다양한 연구가 진행되고 있다.
본 발명은 전술한 문제점을 해결하기 위한 것으로서, 환자의 얼굴을 포함한 비디오 데이터를 기반으로 환자의 우울증 여부 및 그 수준을 예측할 수 있는 장치를 제공하는 것을 목적으로 한다.
본 발명은 비디오 데이터의 공간 특징과 비디오 프레임에서 시간 특징을 추출하여 딥러닝 분석을 통해, 인간의 우울증 수준을 예측하는 장치 및 방법을 제공하는 것을 목적으로 한다.
본 발명은 TMP 방법을 통해, 공간 정보와 동적 정보에 대한 중간값을 딥러닝 분석을 통한 입력값으로 활용하여 입력 시퀀스의 길이에 따른 노이즈 문제를 해결할 수 있는 우울증 수준 예측 장치를 제공하는 것을 목적으로 한다.
본 발명은 2개의 층으로 구성된 Bi-LSTM 모델을 활용하여 우울증 수준 예측에 관해 더욱 정확한 알고리즘 모델을 제공할 수 있는 우울증 수준 예측 장치를 제공하는 것을 목적으로 한다.
본 발명의 실시 예에 따른 미세 얼굴 표정을 분석하여 인간의 우울증 수준을 예측하는 장치는 비디오 데이터를 저장하는 데이터 저장부, 비디오 데이터에서 공간 정보를 생성하는 공간 정보 생성부, 비디오 데이터에서 3개의 연속된 프레임을 추출하고, 연속된 프레임을 기준으로 얼굴 역학을 분석하기 위한 VLDN(volume local directional number) 특징 맵을 생성하고, CNN(Deep Convolutional Neural Network) 모델에 입력하여 얼굴 움직임에 대한 동적 정보를 생성하는 VLDN 특징 맵 생성부, 공간 정보와 동적 정보를 TMP(Temporal Median Pooling) 방법을 통하여 출력값으로 생성하는 정보 처리부, 출력값을 재귀신경망을 기반으로 인간의 우울증 수준을 예측하는 예측부를 포함한다.
본 발명의 실시 예를 따르면, 얼굴 표정을 포함하는 비디오 프레임에서 시공간 특징을 딥 러닝 기법을 활용하여 분석하여, 이를 통해 인간의 우울증 수준을 예측할 수 있다.
본 발명의 실시 예를 따르면, 딥러닝 기법은 다층 LSTM을 사용하여 성능 측면에서 효과적인 인간의 우울증 수준 예측을 수행할 수 있다.
본 발명의 실시 예를 따르면, 얼굴 표정에 따른 우울증 수준을 예측하여, 적절한 약물 치료 및 심리 치료를 제공할 수 있는 효과가 있다.
본 발명의 실시 예를 따르면, 컴퓨터를 통한 인간의 감정 인식 분야에서도 응용이 가능하며, 향후 인간 심리학 관련 폭넓은 분야에서 응용될 수 있다.
도 1은 본 발명의 실시 예에 따른 미세 얼굴 표정을 분석하여 인간의 우울증 수준을 예측하는 장치를 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 미세 얼굴 표정을 분석하여 인간의 우울증 수준을 예측하는 장치를 설명하기 위한 상세도이다.
도 3은 VLDN 특징 맵 생성부의 상세 구성을 설명하기 위한 도면이다.
도 4는 본 발명의 실시 예에 따른 VLDN 특징 맵 예시도이다.
도 5는 본 발명의 실시 예에 따른 VLDN 특징맵 생성부에서 생성하는 동적 정보를 설명하기 위한 CNN 모델 예시도이다.
도 6은 본 발명의 실시 예에 따른 미세 얼굴 표정을 분석하여 인간의 우울증 수준을 예측하는 방법을 설명하기 위한 순서도이다.
도 7은 AVEC2013, AVEC2014 데이터 셋에 대한 실험의 결과값을 나타낸 도면이다.
도 8은 AVEC2013, AVEC2014 데이터 셋에 대해서, 공간 정보 생성시 얼굴 이미지 전체 공간 특징 추출과 임의의 개수로 분할한 조각의 공간 특징 추출을 고려하여 분석한 결과값을 나타낸 도면이다.
도 9는 AVEC2013, AVEC2014 데이터 셋에 대해서, 동적 정보만을 분석한 모델과 다른 모델을 비교한 실험의 결과값을 나타낸 도면이다.
도 10은 AVEC2013, AVEC2014 데이터 셋에 대해서 TMP 방법에 관한 실험 결과를 나타낸 도면이다.
전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요 하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다.
도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용되며, 명세서 및 특허청구의 범위에 기재된 모든 조합은 임의의 방식으로 조합될 수 있다. 그리고 다른 식으로 규정하지 않는 한, 단수에 대한 언급은 하나 이상을 포함할 수 있고, 단수 표현에 대한 언급은 또한 복수 표현을 포함할 수 있음이 이해되어야 한다.
본 명세서에서 사용되는 용어는 단지 특정 예시적 실시 예들을 설명할 목적을 가지고 있으며 한정할 의도로 사용되는 것이 아니다. 본 명세서에서 사용된 바와 같은 단수적 표현들은 또한, 해당 문장에서 명확하게 달리 표시하지 않는 한, 복수의 의미를 포함하도록 의도될 수 있다. 용어 "및/또는," "그리고/또는"은 그 관련되어 나열되는 항목들의 모든 조합들 및 어느 하나를 포함한다. 용어 "포함한다", "포함하는", "포함하고 있는", "구비하는", "갖는", "가지고 있는" 등은 내포적 의미를 갖는 바, 이에 따라 이러한 용어들은 그 기재된 특징, 정수, 단계, 동작, 요소, 및/또는 컴포넌트를 특정하며, 하나 이상의 다른 특징, 정수, 단계, 동작, 요소, 컴포넌트, 및/또는 이들의 그룹의 존재 혹은 추가를 배제하지 않는다. 본 명세서에서 설명되는 방법의 단계들, 프로세스들, 동작들은, 구체적으로 그 수행 순서가 확정되는 경우가 아니라면, 이들의 수행을 논의된 혹은 예시된 그러한 특정 순서로 반드시 해야 하는 것으로 해석돼서는 안 된다. 추가적인 혹은 대안적인 단계들이 사용될 수 있음을 또한 이해해야 한다.
또한, 각각의 구성요소는 각각 하드웨어 프로세서로 구현될 수 있고, 위 구성요소들이 통합되어 하나의 하드웨어 프로세서로 구현될 수 있으며, 또는 위 구성요소들이 서로 조합되어 복수 개의 하드웨어 프로세서로 구현될 수도 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하기로 한다.
도 1은 본 발명의 실시 예에 따른 미세 얼굴 표정을 분석하여 인간의 우울증 수준을 예측하는 장치를 설명하기 위한 블록도이다.
우울증 수준 예측 장치는 얼굴 표정을 포함하는 비디오 데이터를 저장하는 데이터 저장부(110), 비디오 데이터에서 공간 특징을 추출하여 공간 정보를 생성하는 공간 정보 생성부(120), 비디오 데이터에서 동적 정보에 해당하는 VLDN 특징 맵을 생성하는 VLDN 특징 맵 생성부(130), 공간 정보와 동적 정보를 TMP 방법을 통해 처리하는 정보 처리부(140), 재귀신경망 중 하나인 다층 BI-LSTM을 활용하여 우울증의 수준을 예측하는 수준 예측부(150)로 구성된다. VLDN 특징 맵 생성부(130)는 에지 응답 계산부, 방향 번호 확인부, VLDN 생성부를 더 포함할 수 있다. 장치에 대한 상세한 설명은 도 2를 참조하여 설명하도록 한다.
도 2는 본 발명의 일 실시 예에 따른 미세 얼굴 표정을 분석하여 인간의 우울증 수준을 예측하는 장치를 설명하기 위한 상세도이다.
우울증 수준 예측 장치에서 데이터 저장부(110)은 얼굴 비디오 데이터(111)를 저장할 수 있다. 데이터 저장부(110)가 저장하는 얼굴 비디오 데이터(111)는 사람의 얼굴 표정을 포함하는 데이터에 해당된다. 예를 들어, 얼굴 비디오 데이터(111)는 우울증 수준의 판단이 필요한 환자의 얼굴을 비디오 영상으로 촬영하여, 저장한 데이터일 수 있다. 또는, 우울증 수준의 판단이 필요한 환자가 스스로 촬영한 비디오 데이터일 수 있다. 데이터 저장부에 저장되는 비디오 데이터(111)는 한정되어 해석되지 아니하며 사람의 얼굴을 포함한 비디오 데이터(111)는 형식 및 크기와 상관없이 모두 포함될 수 있다.
공간 정보 생성부(120)은 데이터 저장부에 저장된 비디오 데이터의 얼굴 이미지(121)에 대한 공간 특징을 추출하여 공간 정보를 생성할 수 있다. 얼굴 이미지(121)는 데이터 저장부에 저장된 얼굴 비디오 데이터(111)에서 얼굴 이미지에 대한 샘플 RGB 프레임으로 추출한 것일 수 있다. 공간 정보 생성부(120)은 얼굴 이미지(121)에서 공간 특징을 추출하여 공간 정보를 효과적으로 생성하기 위해, Inception-Resnet-v2 네트워크 컨볼루션 모델을 사용할 수 있다. Inception-Resnet-v2 네트워크 컨볼루션 모델은 이미지의 질감, 색상, 가장자리 정보 등의 일반적인 특징을 학습할 수 있다. Inception-Resnet-v2 네트워크 컨볼루션 모델은 ImageNet 데이터 셋을 사용하여 사전에 훈련된 모델일 수 있다.
본 발명에서의 공간 정보는 얼굴 이미지(121) 전체에서 얼굴 이미지에 대한 공간 특징을 추출한 공간 정보일 수 있다. 본 발명의 다른 일 실시 예에 따르면, 공간 정보 생성부는 얼굴 이미지를 임의의 갯수로 분할하여 분할된 조각에서 얼굴 이미지에 대한 공간 특징을 추출할 수 있다. 예를 들어, 얼굴 이미지를 4개의 조각(122)로 분할하여 각 조각에 대한 공간 특징을 추출할 수 있다. 각 조각에 대한 공간 특징 역시 Inception-Resnet-v2 네트워크 컨볼루션 모델을 활용할 수 있다. 공간 정보 생성부(120)은 모든 비디오 데이터의 얼굴 이미지에 대해서 공간 특징을 추출하고 집계할 수 있다. 모든 이미지 데이터에서 추출된 특징을 집계하여 유클리드 손실함수를 사용한 CNN(Convolutional Neural Network)모델을 활용하여 공간 정보를 생성할 수 있다.
정보 처리부(150)은 얼굴 이미지(121) 전체에 대한 공간 특징과 분할된 조각(122)에서 공간 특징에 대한 공간 정보를 입력 데이터로 활용할 수 있다. 이하에서는 동적 정보를 생성하는 VLDN 특징 맵 생성부(130)을 설명하도록 한다.
VLDN 특징 맵 생성부(130)은 데이터 저장부(110)에서 저장된 얼굴 비디오 데이터(111)에서 3개의 연속된 이전, 현재, 다음의 프레임(131)을 추출할 수 있다. VLDN 특징맵 생성부(130)은 연속된 프레임에 대해서 얼굴 역학을 분석하기 위한 VLDN(Volume Local Directional Number) 특징 맵을 생성할 수 있다. 생성된 VLDN 특징 맵은 VLDN 회색 이미지로 생성되어 채널 크기가 1인 CNN에 입력값으로 할 수 있다. CNN 컨볼루션 모델을 활용하여 출력된 결과값은 비디오 데이터의 동적 정보로 할 수 있다. 이하에서는 VLDN 특징 맵 생성에 관하여 상세하게 설명하도록 한다.
도 3은 VLDN 특징 맵 생성부의 상세 구성을 설명하기 위한 도면이다.
VLDN 특징 맵 생성부(130)는 에지 응답 계산부(135), 방향 번호 확인부(136), VLDN 생성부(137)를 포함할 수 있다. 에지 응답 계산부(135)는 LDN(Local Directional Number)의 확장인 VLDN 특징 맵을 생성할 수 있다.
보다 구체적으로 이전, 현재, 다음 프레임에 대한 픽셀값에 대해서 에지 응답 계산부의 처리를 통해 중간값이 생성될 수 있다. 에지 응답 계산부(135)는 Kirsch 마스크에 기초하여 중심 픽셀에 인접한 인접 픽셀의 에지 응답을 계산하는 기능을 수행할 수 있다. 에지 응답 계산부(135)는 수학식 (1)을 통해서 3개의 연속된 프레임에 대한 에지 응답을 계산할 수 있다. 여기서 PR, CR, PO는 각각 이전, 현재, 다음 프레임의 픽셀값에 해당한다.
Figure pat00001
방향번호 확인부(136)는 최상위 양수 및 음수 방향의 숫자를 확인할 수 있다. 방향번호 확인부(136)에서 최상위 양수 및 음수 방향의 숫자를 확인하는 수학식은 (2)를 참조할 수 있다.
Figure pat00002
예를 들어, 도 3에서 최상위 양수는 3개의 연속된 프레임에서 620이며, 620에 대한 최상위 양수 방향 숫자는 6에 해당된다. 최상위 음수는 -740으로, -740에 대한 최상위 음수 방향 숫자는 1에 해당된다. VLDN 생성부(137)는 수학식 (3)을 이용하여 3개의 연속된 프레임에 대한 VLDN 값을 생성할 수 있다.
Figure pat00003
여기서 MPx,y의 값은 최상위 양수 방향 숫자값이고, MNx,y 값은 최상위 음수 방향 숫자값에 해당한다. 예를 들어, 본 발명의 일 실시 예를 따르면 MPx,y의 값은 6이고, MNx,y 값 1에 해당될 수 있다. 3개의 연속된 프레임에 대한 VLDNx,y 값은 49에 해당되며 이를 이진법을 기초하여 반환하면 110001(2)의 해당된다.
VLDN 생성부(137)는 데이터 저장부에 저장된 비디오 데이터에 3개의 연속된 모든 프레임에 대해서 VLDN 값을 모두 생성할 수 있다. 생성된 VLDN 값을 기반으로 VLDN 특징 맵을 생성할 수 있다. 이하에서는 생성된 VLDN 특징 맵의 예시를 확인할 수 있다.
도 4는 본 발명의 실시 예에 따른 VLDN 특징 맵 예시도이다.
에지 응답 계산부와 방향번호 확인부, VLDN 생성부를 통해 계산된 VLDN 값을 통해 VLDN 특징 맵을 이미지로 생성할 수 있다. 도 4를 참조하면, 데이터 저장부에 저장된 얼굴 비디오 데이터에 대해서 VLDN 특징 맵의 일부가 생성됨을 확인할 수 있다. 이와 같은 VLDN 특징 맵을 통한 효과적인 동적 정보를 생성하기 위하여 CNN 모델을 이용한다. CNN 모델에 대한 상세한 설명은 도 5을 참조하며 설명하도록 한다.
도 5는 본 발명의 실시 예에 따른 VLDN 특징맵 생성부에서 생성하는 동적 정보를 설명하기 위한 CNN 모델 예시도이다.
VLDN 특징 맵 생성부는 생성된 VLDN 특징 맵을 CNN 모델을 활용하여 얼굴 움직임에 대한 동적 정보를 생성할 수 있다. CNN 모델은 얼굴 움직임을 모델링 할 수 있도록 사전에 훈련될 수 있다. CNN 모델은 3x3 필터 대신 첫 번째 및 두 번째 컨볼루션 레이어에 5x5 필터를 사용할 수 있다. CNN 모델은 첫 번째, 두 번째, 레이어에 3개의 컨볼루션 대신 하나의 컨볼루션을 사용할 수 있다. CNN 모델은 10개의 컨볼루션, 5개의 최대 풀링 및 완전히 연결된 3개의 레이어로 구성되어 있을 수 있다. CNN 모델은 소프트 맥스 손실 함수 대신 유클리드 손실 함수를 사용할 수 있다. CNN 모델을 통해 VLDN 특징 맵을 입력값으로 하여 얼굴 움직임에 대한 동적 정보를 생성할 수 있다. 이하에서는 도 2로 돌아가, 정보 처리부(150), 수준 예측부(160)에 대한 구체적인 설명을 하도록 한다.
정보 처리부(150)는 공간 정보(151)와 동적 정보(152)를 받아 정보 처리를 통해서 수준 예측부의 입력값으로 생성할 수 있다. 수준 예측부(160)은 Bi-LSTM 모델을 활용하여 우울증 수준을 예측할 수 있다.
재귀 신경망 중 하나인 RNN (Recurrent Neural Network)은 숨겨진 상태를 통해 입력을 출력에 매핑하여 순차적 정보를 효과적으로 학습할 수 있는 모델에 해당된다. 그러나 RNN 기반 접근 방식은 입력이 긴 시퀀스일 때 기울기 폭발 및 기울기 소실 문제가 존재한다.
재귀 신경망 중 하나인 LSTM(Long Short Term Memory)은 input, forget 및 output 게이트를 통해 기울기 소실 문제를 해결하고, 긴 길이의 시퀀스를 학습할 수 있다. 본 발명의 실시 예를 따르면, 수준 예측부(160)은 하나의 LSTM 층이 아닌, 다층 Bi-LSTM 모델(161)을 사용하여 공간정보와 동적정보를 학습할 수 있다. 따라서 Bi-LSTM 중 제 2 Bi-LSTM 층은 제 1 Bi-LSTM 층과 동일한 층의 이전 상태로부터 학습하는 효과가 있다. 다만, 현재 다층 Bi-LSTM 모델(161)은 프레임 간 특징을 입력으로 제공하여 긴 시간적 특징을 학습할 수 있지만 LSTM 모델에 대한 입력으로 프레임 수준 특징을 직접 사용하면 노이즈에 취약할 수 있다.
따라서 수준 예측부(160)의 다층 Bi-LSTM 모델(161)에 입력하기 전에 정보 처리부(150)에서 TMP (Temporal Median Pooling)를 방법을 통해서 노이즈에 취약한 문제를 해결할 수 있다. TMP 방법은 공간 정보(151)와 동적 정보(152)를 임의의 개수로 시간적으로 분할하는 방법을 말한다. 예를 들어, 공간 정보(151)와 동적 정보(152)를 5개씩 묶어 하나의 단위로 분할할 수 있다. 임의의 개수는 한정되어 해석되지 아니하고, 통상의 기술자 수준에서 분할할 수 있는 개수로 해석됨이 타당하다.
분할 후, 임의의 개수를 기준으로 분할한 정보를 하나의 단위로 하여 그 중앙값을 반환할 수 있다. 정보 처리부는 TMP 방법을 통하여 공간 정보의 중앙값(153), 동적 정보의 중앙값(154)을 집계하여 수준 예측부(160)의 다층 Bi-LSTM 모델에 관한 입력값으로 사용할 수 있다. 수준 예측부(160)에서 활용하는 다층 Bi-LSTM은 재귀신경망 중 하나로서, LSTM, RNN 등이 있다. 이하에서는 재귀신경망 LSTM에 대한 기본 설명을 하도록 한다.
Figure pat00004
Figure pat00005
여기서 σ는 로지스틱 함수를 나타내고 tanh는 쌍곡선 탄젠트 함수를 나타낸다.
it, ft, Ot는 입력, 숨김, 출력 게이트를 나타낸다. Wi, Wf, WO 및 bi, bf, bO는 각각 입력, 숨김 및 출력 상태에 대한 가중치 행렬 및 바이어스 용어에 해당된다. Xt는 t 순간에서의 입력이고, et는 셀 입력 상태를 나타내고, Ct는 셀 출력 상태를 나타낸다. 마지막으로, 숨겨진 레이어 상태는 ht로 표시된다.
LSTM 모델과 유사하게 다층 Bi-LSTM 모델은 입력, 숨김, 출력 게이트 및 메모리 유닛으로 구성된다. 다층 Bi-LSTM 모델은 순차 데이터는 동일한 출력 레이어에 연결된 두 개의 서로 다른 숨겨진 레이어를 사용하여 순방향 및 역방향 감지로 처리된다. 전방 및 후방 층의 숨겨진 상태는 hf = Of tanh(Cf) 및 hb = Ob tanh (Cb)에 의해 추정된다. 최종 숨겨진 상태는 H=(hf,hb)로 표시된다. 다층 Bi-LSTM 모델(161)은 공간 정보와 동적 정보를 학습하기 위해 2개의 Bi-LSTM 셀을 쌓아 올리는 것으로 구성된다. 다층 Bi-LSTM 모델(161)은 프레임-투-프레임 기능을 입력으로 공급하여 학습하지만, LSTM 모델에 입력할 수 있는 프레임-레벨 기능을 직접 채용함으로써 허용 가능한 톤-노이즈 개입이 가능한 효과가 있다. 따라서, 본 발명에서는 다층 Bi-LSTM 모델(161)을 통해서 우울증 수준을 예측하여, 노이즈 개입에 문제를 해결할 수 있다.
다층 Bi-LSTM 모델(161)은 2개의 레이어는 출력 레이어와 회귀 레이어가 될 수 있다. 레이어는 서로 다른 수의 hidden units 이 존재할 수 있다. 예를 들어, Hidden units은 512개 또는 256개 일 수 있다. 다층 Bi-LSTM 모델에 정보 처리부(150)에서 TMP 방법으로 처리된 공간 정보의 중앙값(153)와 동적 정보의 중앙값(154))를 입력값으로 사용할 수 있다. 다층 Bi-LSTM 모델(161)을 통해 공간 정보와 동적 정보의 그 결과값의 평균값을 최종 우울증 수준 예측의 예측값으로 할 수 있다. 이하에서는 도 7을 이용하여 본 발명의 실시 예 따른 미세 얼굴 표정을 딥 러닝 분석을 통해, 인간의 우울증 수준을 예측하는 방법을 설명하도록 한다.
도 6은 본 발명의 실시 예에 따른 미세 얼굴 표정을 분석하여 인간의 우울증 수준을 예측하는 방법을 설명하기 위한 순서도이다.
우울증 수준 예측 방법과 관련하여 전술한 우울증 수준 예측 장치와 중복되는 세부 실시 예는 생략될 수 있다. 우울증 수준을 예측하는 장치는 서버로 구현될 수 있는 바, 이하에서는 장치를 서버로 명명하여 설명하도록 한다. 서버는 얼굴 이미지와 비디오 데이터를 저장할 수 있다. 서버는 얼굴 이미지에서 공간 정보를 생성할 수 있다(S101). 서버는 얼굴 비디오 데이터에서 3개의 연속된 프레임을 추출하고, 상기 연속된 프레임을 기준으로 얼굴 역학을 분석하기 위한 VLDN(volume local directional number) 특징 맵을 생성할 수 있다(S103).
VLDN 특징 맵을 CNN(Deep Convolutional Neural Network) 모델에 입력하여 얼굴 움직임에 대한 동적 정보를 생성할 수 있다(S105). 서버는 공간 정보와 동적 정보를 TMP(Temporal Median Pooling) 방법을 통하여 출력값으로 생성할 수 있다(S107). 서버는 출력값을 재귀신경망을 기반으로 인간의 우울증 수준을 예측할 수 있으며, 재귀신경망으로 다층 Bi-LSTM 모델을 사용할 수 있다(S109).
VLDN 특징 맵은 에지 응답을 계산하는 단계, 방향번호를 확인하는 단계, VLDN을 생성하는 단계를 통해서 생성될 수 있다. 세부 실시예는 우울증 수준 예측 장치 설명한 것과 중복되는 바 생략하도록 한다.
이하 도 7 내지 도 10을 이용하여 본 발명의 실시 예에 따른 우울증 수준 예측 장치에 대한 성능을 기존 방법과 비교하기 위한 실험 및 그 결과를 설명한다.
도 7은 AVEC2013 데이터 셋 및 AVEC2014 데이터 셋에 대한 실험의 결과값을 나타낸 도면이다.
본 발명의 우울증 수준 예측 장치의 성능에 관한 실험 결과를 설명하기 전에, 실험 설계 및 실험 대상 데이터에 대해서 설명하도록 한다. 우울증 수준 예측하는 장치의 성능 실험에는 Audio/Visual Emotion Challenge (AVEC) 2013 and 2014 depression sub-challenge datasets의 2가지 데이터셋을 사용하고, 제안된 장치의 방법이 기존 방법과 비교하도록 한다.
AVEC2013 데이터셋은 82명의 150개 비디오로 구성되고, 데이터셋은 training, development 및 test의 세 가지 데이터셋으로 나뉜다. 각 데이터셋에는 50개의 비디오가 있으며, 모델을 훈련시키기 위해 100개의 비디오가 사용되었고, 본원 발명의 우울증 수준 예측 장치의 성능을 평가하기 위해 나머지 50개의 비디오가 사용될 수 있다. 평균적으로 각 동영상의 길이는 25 분이고, 각 비디오에서 참가자는 마이크와 웹캠을 통해 기록되는 특정 질문에 응답을 할 수 있다. 또한 각 비디오에는 우울증 수준을 나타내는 레이블이 지정되어 있으며 이 레이블은 BDI-II 설문지를 통해 정의되어 있다.
AVEC2014 우울증 데이터셋은 150 개의 비디오로 구성되며, 각각 50개의 비디오로 이루어진 training, development 및 test 데이터셋으로 나뉜다. 이전 데이터셋과 유사하게 이 데이터셋에서 100개의 비디오가 훈련에 사용되고 50개의 비디오가 제안된 방법의 성능을 평가하는 데 사용되었으며, 이 비디오는 웹캠과 마이크로 녹화되며 평균적으로 각 비디오 길이는 약 2 분에 해당된다.
더 나은 비디오 분석을 위해 서브 샘플링 전략을 사용하여 샘플 프레임 속도를 초당 30 프레임에서 초당 6 프레임으로 줄였으며, 비디오 클립은 2개의 연속하는 비디오들 사이에서 5개의 프레임 오버랩을 갖는 40의 프레임 길이의 서브 시퀀스로 분할된다. 얼굴 정보를 얻기 위해, 각 프레임에 대한 얼굴 검출 및 얼굴 랜드 마크 위치를 사용하고, 얼굴 영역이 각 프레임에서 추출되고 299 * 299로 크기가 조정된다.
본 발명에서는 MATLAB R2018b에서 Inception-ResNet-v2 네트워크를 훈련한다. 사전 훈련된 ImageNet 모델에서 Inception-ResNet-v2의 매개 변수를 초기화 한다. 공간 정보 관련 모델에서는 stochastic gradient descent(SGD) 알고리즘을 배치 크기 32로 사용하고, momentum은 0.9, weight decay는 0.0002로 설정하였음. 여기서 learning rate는 0.001로 고정된다. 대조적으로, 동적 정보에 대해 제안된 CNN 모델은 처음부터 훈련된다. 여기서 CNN 모델은 배치 크기가 32인 SGD 알고리즘으로 학습되며 learning rate는 0.001로 설정됨. 또한 두 모델 모두 소프트 맥스 손실 기능 대신 유클리드 손실 기능이 적용된다. 다층 Bi-LSTM 모델을 훈련시키기 위해 시공간 정보를 배우기 위해 512 및 256 개의 hidden units와 함께 Adam 최적화 프로그램을 사용하며, 배치 크기는 10으로 설정되어 있으며 learning rate는 0.001에 해당된다.
우울증 단계는 각 비디오 클립에 대한 공간 정보 및 동적 정보로부터 예측된 값의 평균을 취함으로써 측정되며, 전체 성능은 MAE (Mean Absolute Error) 및 RMSE (root Mean Square Error)를 사용하여 평가된다. MAE와 RMSE의 값이 작을수록 우울증 수준 예측에 대한 정확도가 높은 것으로 평가한다.
MAE와 RMSE는 다음과 같이 정의된다.
Figure pat00006
N은 총 샘플이고 xj는 예측된 값을 나타내고 xj는 j 번째 샘플의 실제 측정값에 해당된다.
실험에서 다층의 Bi-LSTM를 사용하는 InceptionResNet-v2 모델과 다층의 Bi-LSTM를 사용하는 VLDN-CNN을 각각 사용하여 공간 정보 분석 및 동적 정보 분석의 성능을 측정한다. 또한 두 정보 분석의 출력 평균을 취하여 수행되는 공간 및 시간 네트워크를 융합하여 MAE 및 RMSE를 추정한다. 이하에서는 실험 결과에 대해서 설명하도록 한다.
공간 정보와 동적 정보를 이용하여 분석한 본원발명의 우울증 수준 예측 장치가 MAE 7.04, RMSE 8.93 값으로 기존 접근방법보다 더 우수함을 알 수 있다. 다만, AVEC2013 데이터 셋에서 Zhou et al. [31]에서는 MAE 6.20, RMSE 8.28로 더 좋은 성능을 보이는 것을 확인할 수 있다. 나아가 AVEC2014 데이터 셋에서도 Zhou et al. [31]이 MAE 6.21, RMSE 8.39로 더 좋은 성능을 보이는 것을 확인할 수 있다. 그러나 딥 러닝 기반을 하는 접근법인 Zhu et al. [6]과 Jazaery et al. [7] 보다 좋은 성능을 갖음을 알 수 있다. Zhu et al. [6]의 경우 정적 프레임과 광학 흐름 이미지 모두에 대해 딥 러닝 분석모델 이고, Jazaery et al. [7]의 경우 RNN을 기반으로 모델이지만, 모션 캡처 부분에 대해서 상대적으로 노이즈가 많음을 확인할 수 있다.
도 8은 AVEC2013, AVEC2014 데이터 셋에 대해서, 공간 정보 생성시 얼굴 이미지 전체 공간 특징 추출과 임의의 개수로 분할한 조각의 공간 특징 추출을 고려하여 분석한 결과값을 나타낸 도면이다.
공간 정보 생성시 얼굴 이미지 전체에서 공간 특징 추출만을 통해서 분석하는 것보다 임의의 개수로 분할하여 조각에 대한 공간 특징 추출에 대한 공간 정보를 분석함이 더 우수한 효과를 내는 것을 알 수 있다. 조각으로 분할하여 공간 특징 추출하고 공간 정보를 분석한 경우, AVEC2013 데이터 셋에서 MAE 값은 7.22, RMSE 값은 9.02를 기록한다. AVEC2014 데이터 셋에서 MAE 값은 6.96, RMSE 값은 8.91임이 확인된다.
도 9는 AVEC2013, AVEC2014 데이터 셋에 대해서, 동적 정보만을 분석한 모델과 다른 모델을 비교한 실험의 결과값을 나타낸 도면이다.
본 발명의 VLDN을 활용한 동적 정보만을 분석한 모델의 경우 MHH [11] 기반 시간 모델과 광학 흐름 이미지 [6] 기반 시간 모델을 비교할 수 있다. AVEC2013, AVEC2014 데이터 셋 모두에서 본 발명의 VLDN을 활용한 동적 정보만을 분석한 모델이 다른 모델 보다 우수한 성능을 갖음을 알 수 있다.
도 10은 AVEC2013, AVEC2014 데이터 셋에 대해서 TMP 방법에 관한 실험 결과를 나타낸 도면이다.
도 10의 실험 결과를 통해, 정보 처리부에서 공간 정보와 동적 정보를 임의의 시간 개수로 분할하여 중간값을 측정하는 TMP 방법에 대해 시간 개수에 따른 우울증 수준 예측 장치의 성능을 확인할 수 있다. 또한 TMP 방법과 다른 임시 최대 풀링 방법과 다른 풀링 방법에 대한 실험 결과도 확인할 수 있다.
AVEC2013, AVEC2014 데이터 셋 모두에서 TMP 방법이 다른 풀링 방법보다 MAE와 RMSE 값이 작음을 알 수 있다. 나아가, 임의의 시간 개수 부분은 5 개를 기준으로 TMP 방법 진행시 가장 우수함을 확인할 수 있다. 본 발명의 우울증 수준 예측 장치는 5개 시간 개수로 TMP 방법 수행시 AVEC2013 데이터 셋에서 MAE 7.04 및 RMSE 9.08의 값이 측정되었다. AVEC2014 데이터 셋에서는 MAE 6.86, RMSE 8.78 값이 측정되었다.
본 명세서와 도면에 개시된 본 발명의 실시 예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.

Claims (10)

  1. 비디오 데이터를 저장하는 데이터 저장부;
    상기 비디오 데이터에서 공간 정보를 생성하는 공간 정보 생성부;
    상기 비디오 데이터에서 3개의 연속된 프레임을 추출하고, 상기 연속된 프레임을 기준으로 얼굴 역학을 분석하기 위한 VLDN(volume local directional number) 특징 맵을 생성하고, CNN(Deep Convolutional Neural Network) 모델에 입력하여 얼굴 움직임에 대한 동적 정보를 생성하는 VLDN 특징 맵 생성부;
    상기 공간 정보와 동적 정보를 TMP(Temporal Median Pooling) 방법을 통하여 출력값으로 생성하는 정보 처리부;
    상기 출력값을 재귀신경망을 기반으로 인간의 우울증 수준을 예측하는 수준 예측부;
    를 포함하는
    미세 얼굴 표정을 분석하여 인간의 우울증 수준을 예측하는 장치.
  2. 제 1항에 있어서,
    상기 VLDN 특징 맵 생성부는
    상기 연속된 3개의 프레임의 kirsch 마스크에 기초하여 중심 픽셀의 인접한 인접 픽셀의 에지 응답을 계산하는 에지 응답 계산부;
    상기 인접 픽셀 중 최상위 양수 방향 번호와 최상위 음수 방향 번호를 확인하는 방향번호 확인부;
    상기 최상위 양수 방향 번호와 상기 최상위 음수 방향 번호를 이용하여 VLDN 값을 생성하고, 비디오 프레임 대해서 순차적으로 연속된 3개의 프레임에 대해서 VLDN 값을 모두 생성하여 상기 VLDN 특징 맵을 생성하는 VLDN 생성부;
    를 포함하는 것을 특징으로 하는
    미세 얼굴 표정을 분석하여 인간의 우울증 수준을 예측하는 장치.
  3. 제 1항에 있어서
    상기 공간 정보 생성부는
    상기 비디오 데이터에서 이미지를 임의로 4개의 영역으로 분할하고, 이미지 전체에서 공간 특징을 추출하고, 상기 4개의 영역에서 각각 공간 특징을 추출하여 공간 정보를 생성하는 것을 특징으로 하는
    미세 얼굴 표정을 분석하여 인간의 우울증 수준을 예측하는 장치.
  4. 제 1항에 있어서,
    상기 수준 예측부는
    상기 재귀신경망이 2개의 층으로 구성된 BI- LSTM으로 하는 것을 특징으로 하는
    미세 얼굴 표정을 분석하여 인간의 우울증 수준을 예측하는 장치.
  5. 제 1항에 있어서,
    상기 정보 처리부는
    상기 공간 정보와 상기 동적 정보에 대해서, 임의의 개수의 조각으로 분할한 후, 각 조각에 대한 중앙값을 반환하여 출력값으로 생성하는 것을 특징으로 하는
    미세 얼굴 표정을 분석하여 인간의 우울증 수준을 예측하는 장치.
  6. 미세 얼굴 표정을 분석하여 인간의 우울증 수준을 예측하는 방법에 있어서,
    얼굴 이미지와 비디오 데이터를 저장하는 단계;
    상기 얼굴 이미지에서 공간 정보를 생성하는 단계;
    상기 얼굴 비디오 데이터에서 3개의 연속된 프레임을 추출하고, 상기 연속된 프레임을 기준으로 얼굴 역학을 분석하기 위한 VLDN(volume local directional number) 특징 맵을 생성하는 단계;
    상기 VLDN 특징 맵을 CNN(Deep Convolutional Neural Network) 모델에 입력하여 얼굴 움직임에 대한 동적 정보를 생성하는 단계;
    상기 공간 정보와 동적 정보를 TMP(Temporal Median Pooling) 방법을 통하여 출력값으로 생성하는 단계;
    상기 출력값을 재귀신경망을 기반으로 인간의 우울증 수준을 예측하는 단계; 를 포함하는
    미세 얼굴 표정을 분석하여 인간의 우울증 수준을 예측하는 방법.
  7. 제 6항에 있어서,
    상기 VLDN 특징 맵 생성하는 단계는
    상기 연속된 3개의 프레임의 kirsch 마스크에 기초하여 중심 픽셀의 인접한 인접 픽셀의 에지 응답을 계산하는 단계;
    상기 인접 픽셀 중 최상위 양수 방향 번호와 최상위 음수 방향 번호를 확인하는 단계;
    상기 최상위 양수 방향 번호와 상기 최상위 음수 방향 번호를 이용하여 VLDN 값을 생성하고, 비디오 프레임 대해서 순차적으로 연속된 3개의 프레임에 대해서 VLDN 값을 모두 생성하여 상기 VLDN 특징 맵을 생성하는 단계;
    를 더 포함하는 것을 특징으로 하는
    미세 얼굴 표정을 분석하여 인간의 우울증 수준을 예측하는 방법.
  8. 제 6항에 있어서,
    상기 공간 정보를 생성하는 단계는
    상기 비디오 데이터에서 이미지를 임의로 4개의 영역으로 분할하고, 이미지 전체에서 공간 특징을 추출하고, 상기 4개의 영역에서 각각 공간 특징을 추출하여 공간 정보를 생성하는 것을 특징으로 하는
    미세 얼굴 표정을 분석하여 인간의 우울증 수준을 예측하는 방법.
  9. 제 6항에 있어서,
    상기 수준을 예측하는 단계는
    상기 재귀신경망이 2개의 층으로 구성된 BI- LSTM으로 하는 것을 특징으로 하는
    미세 얼굴 표정을 분석하여 인간의 우울증 수준을 예측하는 방법.
  10. 제 6항에 있어서,
    상기 출력값으로 생성하는 단계는
    상기 공간 정보와 상기 동적 정보에 대해서, 임의의 개수의 조각으로 분할한 후, 각 조각에 대한 중앙값을 반환하여 출력값으로 생성하는 것을 특징으로 하는
    미세 얼굴 표정을 분석하여 인간의 우울증 수준을 예측하는 방법.
KR1020200106833A 2019-11-28 2020-08-25 비디오 프레임의 공간 정보와 동적 정보를 다층 bi-lstm을 통해 분석하여 인간 우울증 수준을 예측하는 장치 및 방법 KR102503885B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20190155302 2019-11-28
KR1020190155302 2019-11-28

Publications (2)

Publication Number Publication Date
KR20210066697A true KR20210066697A (ko) 2021-06-07
KR102503885B1 KR102503885B1 (ko) 2023-02-27

Family

ID=76374563

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200106833A KR102503885B1 (ko) 2019-11-28 2020-08-25 비디오 프레임의 공간 정보와 동적 정보를 다층 bi-lstm을 통해 분석하여 인간 우울증 수준을 예측하는 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102503885B1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113782190A (zh) * 2021-09-22 2021-12-10 河北工业大学 基于多级时空特征和混合注意力网络的抑郁症诊断方法
CN114209322A (zh) * 2021-12-13 2022-03-22 沃民高新科技(北京)股份有限公司 基于视频分析的抑郁症检测的方法
CN115831352A (zh) * 2022-12-05 2023-03-21 湖南工商大学 一种基于动态纹理特征和时间分片权重网络的检测方法
KR20230089509A (ko) 2021-12-13 2023-06-20 숭실대학교산학협력단 Bi-LSTM 기반 웹 애플리케이션 워크로드 예측 방법 및 장치
KR20230089510A (ko) 2021-12-13 2023-06-20 숭실대학교산학협력단 Bi-LSTM 기반 웹 애플리케이션 워크로드 예측 방법 및 장치
CN116721361A (zh) * 2023-06-09 2023-09-08 中国测绘科学研究院 一种可兼容时空不连续影像的湿地遥感提取方法
WO2024014175A1 (ja) * 2022-07-13 2024-01-18 株式会社 Sai 眼底画像を用いたうつ病リスク判定システム、機械学習モデル生成装置、うつ病リスク判定装置及びうつ病リスク判定方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130111021A (ko) * 2012-03-30 2013-10-10 경북대학교 산학협력단 영상처리장치 및 영상처리방법
KR20170112857A (ko) * 2016-03-25 2017-10-12 한국과학기술원 미세 얼굴 다이나믹의 딥 러닝 분석을 통한 미세 표정 인식 방법 및 장치
KR20190119863A (ko) * 2018-04-13 2019-10-23 인하대학교 산학협력단 반 지도 학습과 여러 개의 멀티 모달 네트워크를 이용한 비디오 기반 인물 감정 인식 기법
KR20200061016A (ko) 2018-11-23 2020-06-02 와이케이씨테크(주) 얼굴 피부 영상을 이용한 우울증 지수 측정 및 진단 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130111021A (ko) * 2012-03-30 2013-10-10 경북대학교 산학협력단 영상처리장치 및 영상처리방법
KR20170112857A (ko) * 2016-03-25 2017-10-12 한국과학기술원 미세 얼굴 다이나믹의 딥 러닝 분석을 통한 미세 표정 인식 방법 및 장치
KR20190119863A (ko) * 2018-04-13 2019-10-23 인하대학교 산학협력단 반 지도 학습과 여러 개의 멀티 모달 네트워크를 이용한 비디오 기반 인물 감정 인식 기법
KR20200061016A (ko) 2018-11-23 2020-06-02 와이케이씨테크(주) 얼굴 피부 영상을 이용한 우울증 지수 측정 및 진단 방법

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113782190A (zh) * 2021-09-22 2021-12-10 河北工业大学 基于多级时空特征和混合注意力网络的抑郁症诊断方法
CN113782190B (zh) * 2021-09-22 2023-12-15 河北工业大学 基于多级时空特征和混合注意力网络的图像处理方法
CN114209322A (zh) * 2021-12-13 2022-03-22 沃民高新科技(北京)股份有限公司 基于视频分析的抑郁症检测的方法
KR20230089509A (ko) 2021-12-13 2023-06-20 숭실대학교산학협력단 Bi-LSTM 기반 웹 애플리케이션 워크로드 예측 방법 및 장치
KR20230089510A (ko) 2021-12-13 2023-06-20 숭실대학교산학협력단 Bi-LSTM 기반 웹 애플리케이션 워크로드 예측 방법 및 장치
CN114209322B (zh) * 2021-12-13 2023-08-29 沃民高新科技(北京)股份有限公司 由计算机执行基于视频分析的抑郁症检测的方法
WO2024014175A1 (ja) * 2022-07-13 2024-01-18 株式会社 Sai 眼底画像を用いたうつ病リスク判定システム、機械学習モデル生成装置、うつ病リスク判定装置及びうつ病リスク判定方法
CN115831352A (zh) * 2022-12-05 2023-03-21 湖南工商大学 一种基于动态纹理特征和时间分片权重网络的检测方法
CN115831352B (zh) * 2022-12-05 2023-08-08 湖南工商大学 一种基于动态纹理特征和时间分片权重网络的检测方法
CN116721361A (zh) * 2023-06-09 2023-09-08 中国测绘科学研究院 一种可兼容时空不连续影像的湿地遥感提取方法
CN116721361B (zh) * 2023-06-09 2024-01-02 中国测绘科学研究院 一种可兼容时空不连续影像的湿地遥感提取方法

Also Published As

Publication number Publication date
KR102503885B1 (ko) 2023-02-27

Similar Documents

Publication Publication Date Title
KR102503885B1 (ko) 비디오 프레임의 공간 정보와 동적 정보를 다층 bi-lstm을 통해 분석하여 인간 우울증 수준을 예측하는 장치 및 방법
Wyatte et al. The limits of feedforward vision: Recurrent processing promotes robust object recognition when objects are degraded
Tao et al. SP-ASDNet: CNN-LSTM based ASD classification model using observer scanpaths
Wehbe et al. Aligning context-based statistical models of language with brain activity during reading
KR102132375B1 (ko) 딥 러닝 모델을 활용한 영상 진단 장치 및 그 방법
WO2020024395A1 (zh) 疲劳驾驶检测方法、装置、计算机设备及存储介质
JP7392492B2 (ja) 時間的視覚的な顔の特徴に基づく認知及び発話障害検出のための方法、サーバ及びプログラム
KR102128158B1 (ko) 시공간 주의 기반 감정 인식 장치 및 방법
WO2019137538A1 (en) Emotion representative image to derive health rating
Gavrilescu et al. Predicting the Sixteen Personality Factors (16PF) of an individual by analyzing facial features
Bara et al. A Deep Learning Approach Towards Multimodal Stress Detection.
CN111259759B (zh) 基于域选择迁移回归的跨数据库微表情识别方法及装置
CN111210907A (zh) 一种基于空时注意力机制的疼痛强度估计方法
Atanassov et al. Pre-trained deep learning models for facial emotions recognition
CN113869276A (zh) 基于微表情的谎言识别方法及系统
Ponce-López et al. Non-verbal communication analysis in victim–offender mediations
Zhang et al. Multiparty visual co-occurrences for estimating personality traits in group meetings
Shi et al. Multimodal channel-wise attention transformer inspired by multisensory integration mechanisms of the brain
Singh et al. A proficient approach for face detection and recognition using machine learning and high‐performance computing
CN112183315B (zh) 动作识别模型训练方法和动作识别方法及装置
Ge et al. Co-saliency-enhanced deep recurrent convolutional networks for human fall detection in E-healthcare
Li et al. Calibration error prediction: ensuring high-quality mobile eye-tracking
Tiwari et al. Personality prediction from Five-Factor Facial Traits using Deep learning
KR102549558B1 (ko) 비접촉식 측정 데이터를 통한 감정 예측을 위한 인공지능 기반 감정인식 시스템 및 방법
KR101807201B1 (ko) 영상분석을 이용한 공감 감성 추론 방법 및 시스템

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant