KR20190128978A - 인간 감정 인식을 위한 딥 생리적 정서 네트워크를 이용한 인간 감정 추정 방법 및 그 시스템 - Google Patents

인간 감정 인식을 위한 딥 생리적 정서 네트워크를 이용한 인간 감정 추정 방법 및 그 시스템 Download PDF

Info

Publication number
KR20190128978A
KR20190128978A KR1020180125780A KR20180125780A KR20190128978A KR 20190128978 A KR20190128978 A KR 20190128978A KR 1020180125780 A KR1020180125780 A KR 1020180125780A KR 20180125780 A KR20180125780 A KR 20180125780A KR 20190128978 A KR20190128978 A KR 20190128978A
Authority
KR
South Korea
Prior art keywords
time
loss function
emotion
time margin
learning
Prior art date
Application number
KR1020180125780A
Other languages
English (en)
Other versions
KR102221264B1 (ko
Inventor
조성호
김병형
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to PCT/KR2018/012772 priority Critical patent/WO2019216504A1/ko
Priority to US16/214,011 priority patent/US10853632B2/en
Priority to CN201811527686.4A priority patent/CN110464314A/zh
Publication of KR20190128978A publication Critical patent/KR20190128978A/ko
Application granted granted Critical
Publication of KR102221264B1 publication Critical patent/KR102221264B1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/02Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
    • A61B5/024Detecting, measuring or recording pulse rate or heart rate
    • A61B5/0476
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/369Electroencephalography [EEG]
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Psychiatry (AREA)
  • Surgery (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Physiology (AREA)
  • Cardiology (AREA)
  • Psychology (AREA)
  • Fuzzy Systems (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Child & Adolescent Psychology (AREA)
  • Developmental Disabilities (AREA)
  • Educational Technology (AREA)
  • Hospice & Palliative Care (AREA)
  • Social Psychology (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)

Abstract

인간 감정 인식을 위한 딥 생리적 정서 네트워크를 이용한 인간 감정 추정 방법 및 그 시스템이 개시된다. 본 발명의 일 실시예에 따른 감정 추정 방법은 사용자의 생리적 신호를 획득하는 단계; 상기 획득된 생리적 신호를 입력으로 하는 네트워크를 시간 축에 따라 학습이 진행될 때 시간 마진을 고려하는 시간 마진 기반 분류 손실 함수를 이용하여 학습하는 단계; 및 상기 시간 마진 기반 분류 손실 함수를 이용한 상기 네트워크의 학습을 통해 상기 사용자의 감정을 추정하는 단계를 포함한다.

Description

인간 감정 인식을 위한 딥 생리적 정서 네트워크를 이용한 인간 감정 추정 방법 및 그 시스템 {Method for estimating human emotions using deep psychological affect network and system therefor}
본 발명은 인간 감정을 추정할 수 있는 기술에 관한 것으로서, 보다 상세하게는 딥 러닝 네트워크와 시간 마진 기반 손실 함수에 기초하여 생리적 모델 예를 들어, 딥 생리적 정서 네트워크(DPAN; deep psychological affect network)를 생성하고, 생성된 생리적 모델을 이용하여 인간의 감정을 인식함으로써, 감정 인식에 대한 성능을 향상시킬 수 있는 방법 및 그 시스템에 관한 것이다.
인간 정서의 인식에 대한 과거의 연구는 생체 센서를 이용하는 다양한 기술을 활용하였으며, 소형화 된 생체 센서와 첨단 모바일 컴퓨팅 기술은 소위 "일상 기술"이라 불리는 기술을 이용하여 생체 신호를 지속적으로 모니터링 할 수 있게 해준다. 이 센서는 감정 변화를 반영하기 위하여 사용되는 뇌파 검사(EEG; electroencephalography), 심박수의 변동성, 맥박 산소 측정법 및 갈바닉(galvanic) 피부 반응 데이터를 제공한다.
여기서, 데이터는 스트레스와 같은 정신 건강 병리의 원인을 더 잘 이해하는데 도움이 되지만, 감정이 유발되고 관련 생체 신호의 특성이 복잡하기 때문에 정서적 역동성을 이해할 수 있는 신뢰 가능한 자동화 시스템을 구축하는 것은 어려운 문제이다.
감정은 다중 성분(multicomponent) 현상이며, 다양한 다른 방식으로 표현될 수 있고, 시간이 지남에 따라 감추어질 수 있다. 감정을 처리하는 신경 메커니즘의 복잡성으로 인해 감정을 측정하고 정확하게 이해하는 것은 어렵다. 비록 생체 신호가 다양한 아티팩트(artifacts)로부터의 노이즈, 센서의 낮은 신호 대 잡음비(SNR) 및 생리적 활동의 개체 간 변동성(inter-subject variability)과 개체 내 변동성(intra-subject variability)으로 인하여 영향을 받지만, 생체 신호의 변화는 인간의 감정에 영향을 받는다.
감정의 다각적인 특성(multifaceted nature)으로 인하여, 감정을 이해하기 위한 많은 이론들이 제안되었다. 종래의 일 실시예 기술은 심리적 구성 요소의 역할을 언급할 때 감정의 다면적 특성을 "우산"개념으로 설명하였으며, 이 개념에는 감정의 다양한 구성 요소를 생성하는 다양한 프로세스와 그 연관성, 이러한 요소를 특정 감정으로 분류하는 것이 포함된다.
감정적 편재화(Emotional Lateralization)는 좌측과 우측 반구 사이의 감정 처리에 대한 비대칭적 표현이다. 기존 연구는 두 개의 뚜렷한 대뇌 반구의 비대칭적 활성화를 보여준다. 감정적 편재화에 관한 가장 오래된 이론은 좌측 반구가 인지 과정과 관련이 있는 반면, 우측 반구가 감정 처리에 관련되어 있다고 주장한다. 이 이론은 얼굴 표정에 대한 실험에 기초하는 여러 연구들에 의해 뒷받침되었으나, 많은 대안 연구에서 인간의 감정을 이해하는 데 있어 우측 반구의 지배적인 역할을 넘어서는 여러 가지 뇌 비대칭 패턴, 특히 긍정적이고 부정적인 정서와 관련된 패턴이 보고되었다.
밸런스(valence) 가설은 좌측 반구에는 긍정적인 느낌의 중심이 존재하고, 우측 반구에는 부정적인 느낌의 중심이 존재한다고 가정한다. 기존 한 연구에서 상기 가설을 검증하고 전두엽 영역에서 비대칭적 활성화를 보여준 바 있다. 상기 가설에 대한 또 다른 대안은 동기 접근-회피(motivational approach-withdrawal) 가설로, 이 가설에 따르면 감정은 환경에서 개인의 행동 및 동기 부여 방향과 밀접하게 관련되어 있으며, 진화론적 개념을 사용하여 범주화된다. 행복, 놀람 및 분노는 환경 자극으로의 이동을 유도하려는 경향 때문에 접근 감정으로 분류되지만, 슬픔, 두려움 및 혐오감은 혐오 자극의 환경적 원인을 회피하려는 경향 때문에 회피 행동과 관련된다.
긍정적/부정적 및 접근/회피 가설은 많은 유사한 면을 가지고 있지만, 분노의 감정 분류에 대해서는 큰 차이를 가진다. 긍정적/부정적 모델에서, 분노는 슬픔, 두려움, 혐오감과 함께 부정적인 감정으로 간주되지만, 분노는 접근/회피 모델에서 접근 감정으로 분류된다. 이들은 행복 및 놀람과 같은 범주에 배정되는데, 이는 개인을 다투게 하고 자극의 원천이 되기 때문이다. 이러한 불일치에도 불구하고, 이 가설들은 상호 보완적이며 지난 수십 년 동안 많은 연구에 의해 뒷받침되어왔다.
감정과 관련된 반구 비대칭의 발견은 대칭 EEG 전극에서의 차동(differential) 및 합리적인 비대칭과 같은 관련 뇌파 기능을 구현하게 하였다. 일 실시예의 기술은 음악 듣기 중 네 가지 감정 상태를 인식하기 위한 EEG 기반 프레임 워크를 제안하였으며, 서로 다른 객체를 대상에서 감정 프로세싱의 가장 관련된 독립적인 특징을 조사하고 다중 분류기의 효용성을 테스트하였다. 또한, 상기 기술은 스펙트럼 파워 비대칭 기반의 특징이 네 가지 감정 상태(기쁨, 분노, 슬픔, 즐거움)에 대한 반응으로 뇌 역학을 특성화하는 데 있어 다른 특징보다 우수하다고 주장하였다. 다른 일 실시예 기술은 4가지 다른 분류 작업 동안의 감정 상태에 대한 자동 인식 방법을 제시하였는데, 이 모델에서 반구 간 전극의 스펙트럼-시간 생리적 패턴 간의 상호 정보가 정량화된다. 이러한 특징 기반 접근법은 정서적 컴퓨팅 분야에서 널리 사용되어 왔고 향상된 신호 처리를 사용하여 개발되었지만, 다른 감정을 위한 주제별 차별화 요소를 개발하려고 시도할 때 대부분의 연구가 어려움을 겪게 되므로 다른 작은 데이터 세트에 의존한다.
감정의 여러 이론들은 생리적 활동이 감정을 이해하는 데 중요하다는 것을 나타낸다. 결과적으로, 생리적 신호를 이용한 인간의 정서에 대한 연구는 널리 시행되어 왔으며, 지난 수십 년 동안 많은 면에서 크게 발전하였다.
대부분의 정서 인식 방법은 중추 신경계(CNS; central nervous system)의 변화와 특정 감정 상태에 의해 추출된 자율 신경계(ANS; autonomic nervous system)의 변화를 포함한다. 두 시스템은 정서적 컴퓨팅 연구에서 주요 구성 요소로 간주된다. CNS 기반 방법의 사용은 대뇌 피질이 인간의 감정을 조절하는 데 사용되는 여러 영역을 포함한다는 사실에 의해 정당화된다. 특히, EEG와 광전용적맥파(PPG; Photoplethysmography)에서 얻어진 생리적 신호는 감정 인식에 널리 사용되어 왔으며 각각의 감정 인식에는 장점이 존재한다.
EEG는 뇌의 전기적 활동을 측정한다. EEG는 두피에 놓인 여러 개의 전극으로 뇌의 자발적인 전기적 활동을 기록한 것을 말한다. 두피에 대한 낮은 공간 해상도에도 불구하고, 이 방법의 매우 높은 시간 해상도는 임상 응용에 유용하다. 예를 들어, 간질 및 기타 수면 장애는 EEG 판독에서 일시적 이상을 검출함으로써 확인될 수 있다. 또한, EEG의 비침습성과 이동성은 사용자의 뇌와 통신하는 외부 장치인 뇌-컴퓨터 인터페이스(BCI; brain-computer interfaces) 분야로 그 사용을 확장시켰다. EEG는 운동 상상(motor imagery)과 시각 유발 잠재력(visual evoked potential)과 같은 제어 전략과 관련된 많은 연구에 의해 광범위하게 추구되어 왔다.
대부분의 EEG 관련 연구들은 특징 기반 분류기에 의존해 왔다. 신경 과학적 가정에 기초한 전극 선택 시, 이산 감정을 분류하기 위해 특징이 추출되고 선택된다. 예를 들어, 일 실시예의 기술은 표준화된 무비 클립 데이터베이스를 기반으로 실시간 EEG 기반 감정 인식 시스템을 설명하였으며, 유사하게, 다른 일 실시예의 기술은 감정 분류를 위한 뇌파 특징의 특성과 감정 변화의 궤적을 추적하는 기술을 연구하였다. 그들은 EEG와 감정적 상태 사이의 연관성을 평가하는 특징을 추출하였다. 그들의 연구는 우측 후두엽(occipital lobe)과 두정엽(parietal lobe)이 주로 알파 밴드와 관련된 감정과 관련이 있고, 정수리와 측두엽(temporal lobes)은 베타 밴드와 관련된 감정과 관련이 있으며, 좌측 전두엽(frontal lobe)과 우측 측두엽은 감마 밴드와 관련된 감정과 관련이 있음을 나타낸다. 이 접근법에서, 감정 상태와 관련된 특정 주파수 대역의 스펙트럼 파워가 감정 인식에 사용되었다.
또 다른 일 실시예의 기술은 시간-주파수 영역에서 EEG 신호 세그멘테이션(segmentation)을 위한 적응적 방법과 이 세그멘트와 감정 관련 정보 간의 연관성 평가를 개발하였다. 그들은 전주엽 EEG 비대칭과 다차원 지시 정보 접근법을 활용하여 우측 반구와 좌측 반구의 인과 관계를 설명하였다. 이러한 결과는 전두엽 및 측두엽의 감정적 편재화가 감정 상태의 좋은 차별화 요소가 될 수 있음을 보여주었다.
EEG 기반 감정 인식 시스템은 종종 다른 모달리티들이 사용되었을 때 향상된 결과를 보인다. 많은 생리적 신호 중에서 혈액량을 측정하는 PPG가 심박수(HR; heart rate)를 계산하는 데 널리 사용된다. PPG는 혈액 순환에서 혈액의 부피 변화를 감지하기 위해 광 기반 기술을 사용한다. 그 정확성은 심정도(ECG; electrocardiograms)의 정확도보다 낮다고 여겨지지만, 심플하기 때문에 일상 생활에서 정신적 스트레스를 감지하는 등의 임상 응용 분야에서 웨어러블 바이오 센서를 개발하는 데 사용되어 왔다. HR 뿐만 아니라 심박변이도(HRV; heart rate variability)도 감정 평가에 유용하다고 알려져 왔다. 지난 20년간 HRV 분석이 시간 및 주파수 영역 모두에서 자율 기능에 대한 명확한 평가를 제공 할 수 있다는 일부 보고서가 존재한다. 그러나 이러한 평가에는 높은 시간 및 주파수 해상도가 필요하다. 이러한 요구 사항으로 인해, HRV는 장기 데이터 분석에만 적합하다. 몇몇 연구자들은 이 한계를 극복하는 데 중점을 두었으며, 이에 대한 일 예의 기술로는 최근 실시간 감정적 반응을 정확하게 평가하기 위해 심장 박동의 역학(dynamics)을 분석함으로써 감정적 상태를 특징 짓는 개인 확률적 프레임워크를 개발하였다. 해당 기술에서, 시간 또는 주파수 영역에서 생리적 신호의 뚜렷하거나 피크인 단일 순간 동안의 변화는 후보로 간주된다. 그러나 이 접근법은 제한적이며, 복잡한 속성과 다차원 현상으로 인해 감정 추출 메커니즘을 완벽하게 설명하는 데 사용될 수 없다.
또한 최근, 컴퓨터 비전, 로봇 공학 및 신경 과학 분야에서 딥 러닝(deep learning) 방법이 점점 더 많이 등장하고 있다. 감정 인식에서, 딥 러닝 기술은 통용되는 특징 추출 기반 정서 모델링보다 더 신뢰성 있고 정확한 영향 모델을 개발하기 위해 연구되었다. 일 실시예의 기술은 여러 생리적 신호로부터 인간의 영향을 모델링하기 위한 딥 러닝 방법론의 사용을 제시하였다. 정서의 학습 모델을 위해, 그들은 디노이징(denoising) 자동 인코더와 함께 다층 컨볼루션 신경망(CNN; convolutional neural network)을 사용하였다. 해당 기술은 딥 러닝을 통한 특징 추출의 자동화가 더 높은 예측 능력의 생리적 정서 탐지기를 산출할 것이며, 이는 더 높은 정확도의 정서적 모델을 제공할 것이라는 가설을 세웠다. 해당 기술은 플레이어의 정서에 대한 주관적인 자체 보고 및 생리적 신호가 포함된 게임 데이터 자료에 대해 딥 러닝 방법을 평가했으며, 딥 러닝이 훨씬 정확한 정서 모델을 산출하므로 수동 애드혹(ad-Hoc) 특징 추출보다 성능이 더 우수함을 보여주었다.
또한, 딥 러닝은 데이터의 시간적 변화를 이해해야 하는 복잡한 작업을 위해 비-정적 데이터 스트림을 학습하는 것이 유익한 것으로 입증되었다. 또 다른 일 실시예의 기술은 EEG에 의해 밝혀진 감정의 맥락에서 두뇌 활동의 비-정적 특성을 조사하였으며, 다 채널 EEG 데이터로부터 추출된 차동 엔트로피 특징을 가진 딥 빌리프(deep belief) 네트워크를 사용하여 감정 인식을 위한 의미 있는 주파수 대역과 채널을 조사하였다. 또 다른 일 실시예의 기술은 얼굴 표정 영상으로부터 지속적으로 정서적 가치를 예측하기 위한 2단계 자동 시스템에서 연속적인 정서 예측 사이의 시간적 관계를 모델링하기 위해 TDNN(time-delay neural network)을 제시하였으며, 해당 기술은 TDNN을 사용하여 감정 상태 예측 단계에서 감정 상태 역학을 분리하고자 하였다. 여기서, TDNN은 시간 정보를 편향시키지 않고 연속 프레임 내 특성 간의 높은 가변성에 영향을 받지 않는다.
생리 신호를 이용한 감정 분석용 데이터베이스(DEAP; Database for Emotion Analysis using Physiological Signals)은 생리 신호에서 다양한 감정을 분석하기 위한 멀티 모드 데이터 세트다. DEAP 데이터 세트는 국제 시스템에 따라 배치된 활성 AgCl 전극과 1분 길이로 발췌된 뮤직 비디오를 시청한 32명의 참가자로부터 13개의 다른 주변 생리적 신호 예를 들어, 혈량계(plethysmographs)를 사용하여 512Hz의 샘플링 속도로 32채널 EEG를 기록함으로써 생성될 수 있다. 이 데이터 세트는 1에서 9까지의 연속적인 밸런스(valence), 어라우절(arousal), 라이킹(liking) 및 도미넌스(dominance) 등급과 각 시도 후에 직접 평가된 1에서 5까지의 이산적인 친숙도를 포함한다. 여기서, SAM(Self-Assessment Manikins)가 등급을 시각화하는 데 사용될 수 있다. 예를 들어, 엄지를 위 및 아래로 하는 아이콘은 라이킹으로 사용될 수 있다.
또한, DEAP 데이터 세트의 저자는 데이터 세트에서 비디오의 자동 정서적 태깅을 위해 세 가지 서로 다른 모달리티를 사용하는 방법론 및 단일 시도 분류의 결과를 제시하였는데, 세 가지 서로 다른 모달리티는 EEG 신호, 주변 생리적 신호 및 멀티미디어 콘텐츠 분석(MCA)이다. 여기서, 기준 분류기는 나이브 베이즈(Naive Bayes) 분류기를 사용할 수 있다. 서로 다른 모달리티에서, MCA를 포함한 생리적 특징을 추출하고, 이를 밸런스, 어라우절 및 라이킹의 낮은 상태 및 높은 상태를 분류하는데 사용할 수 있다. 낮은 상태와 높은 상태는 9점 등급의 중간에 배치된 임계 값에 의해 결정된다. 나이브 베이즈 분류기를 사용하여 각 모달리티 및 등급 척도에 대해 참가자들에게 평균 67.7%의 정확도를 달성하였으며, 다중 모달 융합에서 65.2%의 최고의 정확도를 달성하여 매우 정확한 단일 시험 분류를 만드는 데 신호 잡음, 개별 생리적 차이, 자체 평가의 제한된 품질 등의 장애가 존재한다는 결론을 얻었다. 이는 기준 분류기가 이러한 문제를 해결할 수 있는 능력이 제한되어 있기 때문이다. 왜냐하면, 최대 우도법(maximum-likelihood method)을 사용하는 나이브 베이즈 모델의 독립 가정은 서로 다른 감정 사이의 사후 확률(posterior probabilities)의 극대화를 간과할 수 있기 때문이다.
최근의 연구는 데이터 세트를 사용하여 EEG 기반의 감정 상태를 분류하는 정확성을 향상시키기 위해 노력해 왔다. 다양한 모달리티를 융합하는 기술들이 연구되었으며, 해당 기술들은 3D 감정 표현 모델을 연구하고 웨이블릿 기반 다중 해상도 접근법을 사용하여 측정된 생리적 신호에서 다양한 감정을 인식하고 예측하기 위한 다중 모달 융합 프레임 워크를 개발하였다. 또 다른 일 실시예의 기술은 확률 베이즈 기반 분류기를 제안하였는데, 이 분류기는 횡단 바이폴라 몽타주(transversal bipolar montage)와 종단 바이폴라 몽타주(longitudinal bipolar montage)에 의해 생성된 C3-C4 및 C4-P4와 같은 61개의 부가적인 가상 채널을 가진 32채널 EEG 데이터를 사용하여 밸런스 등급 및 어라우절 등급에서 2가지 레벨(높음 및 낮음)을 분류할 때 평균 정확도 70.9%와 70.1%를 달성하였다. 또 다른 일 실시예의 기술은 자체 평가의 제한적인 성능을 극복하기 위하여 적층된 자동 인코더를 사용하여 32채널 EEG 입력 신호로부터 알려지지 않은 특징 상관 관계를 발견하는 딥 러닝 네트워크를 제시하였으며, 이는 나이브 베이즈 분류기에 비해 더 나은 성능을 보였다. 또 다른 일 실시예의 기술은 다양한 감정 상태하에서 개인과 세션을 통해 공통성을 공유하는 신경 활동으로 간주되는 안정된 EEG 패턴을 조사하고, 모델이 다양한 감정 사이에서 EEG 신호를 얼마나 잘 구분하는지를 평가하였으며, 결과는 차동 엔트로피 특징 사용하는 DEAP에서 네 가지 상태(높은 밸런스/높은 어라우절, 높은 밸런스/낮은 어라우절, 낮은 밸런스/높은 어라우절, 낮은 밸런스/낮은 어라우절)를 분류하여 평균 69.67%의 정확성을 나타내었다.
본 발명의 실시예들은, 딥 러닝 네트워크와 시간 마진 기반 손실 함수에 기초하여 생리적 모델 예를 들어, 딥 생리적 정서 네트워크(DPAN; deep psychological affect network)를 생성하고, 생성된 생리적 모델을 이용하여 인간의 감정을 인식함으로써, 감정 인식에 대한 성능을 향상시킬 수 있는 방법 및 그 시스템을 제공한다.
본 발명의 일 실시예에 따른 감정 추정 방법은 사용자의 생리적 신호를 획득하는 단계; 상기 획득된 생리적 신호를 입력으로 하는 네트워크를 시간 축에 따라 학습이 진행될 때 시간 마진을 고려하는 시간 마진 기반 분류 손실 함수를 이용하여 학습하는 단계; 및 상기 시간 마진 기반 분류 손실 함수를 이용한 상기 네트워크의 학습을 통해 상기 사용자의 감정을 추정하는 단계를 포함한다.
상기 생리적 신호를 획득하는 단계는 이미지 시퀀스에 대한 상기 사용자의 뇌파 신호와 심장 박동 신호 중 적어도 하나의 생리적 신호를 획득할 수 있다.
상기 시간 마진 기반 분류 손실 함수는 시간에 따른 시간 마진이 유지되거나 계속 증가되도록 패널티를 부여할 수 있다.
상기 학습하는 단계는 이미지 시퀀스에 대해 상기 획득된 생리적 신호에 대한 생리적 특징을 추출하고, 상기 추출된 생리적 특징을 이용하여 스펙트럼-시간 텐서를 구성하며, 상기 구성된 스펙트럼-시간 텐서를 입력으로 하여 상기 시간 마진 기반 분류 손실 함수가 최소화 값으로 수렴되도록 상기 네트워크를 학습할 수 있다.
상기 시간 마진 기반 분류 손실 함수는 교차 엔트로피 손실 함수(cross-entropy loss function) 및 특정 감정 등급의 측정 값(ground truth) 라벨에 대한 정서적 스코어와 다른 감정 등급들의 최대 정서적 스코어 차이에 해당하는 차별적인 마진(discriminative margin)에 기초하여 상기 시간 마진을 계산할 수 있다.
상기 학습하는 단계는 상기 시간 마진 분류 손실 함수를 이용하여 컨볼루션 LSTM(Convolutional Long Short-Term Memory) 네트워크를 학습할 수 있다.
본 발명의 다른 일 실시예에 따른 감정 추정 방법은 시간 축에 따라 학습이 진행될 때 시간 마진을 고려하는 시간 마진 기반 분류 손실 함수를 제공하는 단계; 및 상기 시간 마진 기반 분류 손실 함수를 이용한 학습을 통해 사용자의 감정을 추정하는 단계를 포함한다.
상기 추정하는 단계는 이미지 시퀀스에 대해 획득된 상기 사용자의 생리적 신호에 대한 생리적 특징을 추출하고, 상기 추출된 생리적 특징을 이용하여 스펙트럼-시간 텐서를 구성하며, 상기 구성된 스펙트럼-시간 텐서를 입력으로 하여 상기 시간 마진 기반 분류 손실 함수가 최소화 값으로 수렴되도록 네트워크를 학습함으로써, 상기 사용자의 감정을 추정할 수 있다.
상기 시간 마진 기반 분류 손실 함수는 교차 엔트로피 손실 함수(cross-entropy loss function) 및 특정 감정 등급의 측정 값(ground truth) 라벨에 대한 정서적 스코어와 다른 감정 등급들의 최대 정서적 스코어 차이에 해당하는 차별적인 마진(discriminative margin)에 기초하여 상기 시간 마진을 계산할 수 있다.
본 발명의 일 실시예에 따른 감정 추정 시스템은 사용자의 생리적 신호를 획득하는 획득부; 상기 획득된 생리적 신호를 입력으로 하는 네트워크를 시간 축에 따라 학습이 진행될 때 시간 마진을 고려하는 시간 마진 기반 분류 손실 함수를 이용하여 학습하는 학습부; 및 상기 시간 마진 기반 분류 손실 함수를 이용한 상기 네트워크의 학습을 통해 상기 사용자의 감정을 추정하는 추정부를 포함한다.
상기 획득부는 이미지 시퀀스에 대한 상기 사용자의 뇌파 신호와 심장 박동 신호 중 적어도 하나의 생리적 신호를 획득할 수 있다.
상기 시간 마진 기반 분류 손실 함수는 시간에 따른 시간 마진이 유지되거나 계속 증가되도록 패널티를 부여할 수 있다.
상기 학습부는 이미지 시퀀스에 대해 상기 획득된 생리적 신호에 대한 생리적 특징을 추출하고, 상기 추출된 생리적 특징을 이용하여 스펙트럼-시간 텐서를 구성하며, 상기 구성된 스펙트럼-시간 텐서를 입력으로 하여 상기 시간 마진 기반 분류 손실 함수가 최소화 값으로 수렴되도록 상기 네트워크를 학습할 수 있다.
상기 시간 마진 기반 분류 손실 함수는 교차 엔트로피 손실 함수(cross-entropy loss function) 및 특정 감정 등급의 측정 값(ground truth) 라벨에 대한 정서적 스코어와 다른 감정 등급들의 최대 정서적 스코어 차이에 해당하는 차별적인 마진(discriminative margin)에 기초하여 상기 시간 마진을 계산할 수 있다.
상기 학습부는 상기 시간 마진 분류 손실 함수를 이용하여 컨볼루션 LSTM(Convolutional Long Short-Term Memory) 네트워크를 학습할 수 있다.
본 발명의 또 다른 일 실시예에 따른 감정 추정 방법은 사용자의 생리적 신호를 획득하는 단계; 및 시간 마진을 고려하는 시간 마진 기반 분류 손실 함수를 이용하여 상기 생리적 신호에 대응하는 사용자의 감정을 추정하는 단계를 포함한다.
상기 추정하는 단계는 상기 획득된 생리적 신호를 입력으로 하는 네트워크를 시간 축에 따라 학습이 진행될 때 상기 시간 마진 기반 분류 손실 함수를 이용하여 학습하고, 상기 시간 마진 기반 분류 손실 함수를 이용한 상기 네트워크의 학습을 통해 상기 사용자의 감정을 추정할 수 있다.
본 발명의 실시예들에 따르면, 딥 러닝 네트워크 예를 들어, 딥 생리적 정서 네트워크와 시간 마진 기반 손실 함수에 기초하여 생리적 모델을 생성하고, 생성된 생리적 모델을 이용하여 인간의 감정을 인식함으로써, 감정 인식에 대한 성능을 향상시킬 수 있다.
이러한 본 발명은 EEG 신호와 PPG 신호를 포함하는 생리적 신호와 시간 마진 기반 손실 함수를 이용하여 사용자의 감정을 추정할 수 있기 때문에 기존의 감정 인식 시스템에 용이하게 적용할 수 있으며, 실생활 환경에서 여러 어플리케이션들과 적용이 가능하다.
또한, 본 발명은 의료 분야, 가상/증강 현실 내의 콘텐츠에 대한 사용자의 감정적 반응을 파악하는 기술 등에 적용할 수 있다.
또한, 본 발명은 뇌파를 측정하는 센서들의 소형화 기술 발전에 따라 웨어러블 시장으로 확대가 가능하고, 사용자의 스마트폰과 연동 가능한 뇌파 측정 웨어러블 기기 제작을 통해 일상 생활에서 사용할 수도 있다.
도 1은 본 발명의 일 실시예에 따른 DPAN을 설명하기 위한 개념도를 나타낸 것이다.
도 2는 생리적 특징 추출 과정과 감정 인식 문제의 공식화를 설명하기 위한 일 예시도를 나타낸 것이다.
도 3은 본 발명에서의 손실 공식에 대한 이론적 근거(a)와 시간에 따른 감정의 차별적인 마진(b)에 대한 일 예시도를 나타낸 것이다.
도 4는 본 발명에서 사용되는 EEG 전극 배치와 생리적인 신호를 획득하기 위해 사용되는 맥파계를 나타낸 것이다.
도 5는 본 발명의 모델, FC-LSTM 그리고 종래 방법에 의해 밸런스 등급의 컨퓨젼 행렬(confusion matrices)에 대한 일 예시도를 나타낸 것이다.
도 6은 본 발명의 모델, FC-LSTM 그리고 종래 방법에 의해 어라우절 등급의 컨퓨젼 행렬(confusion matrices)에 대한 일 예시도를 나타낸 것이다.
도 7은 트레이닝 동안 본 발명의 손실 함수를 사용하여 인식 성능이 향상된 밸런스와 어라우절 등급의 평균 정확도에 대한 일 예시도를 나타낸 것이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형 태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상 의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사 전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예들을 보다 상세하게 설명하고자 한다. 도면 상의 동일한 구성요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
본 발명은 딥 러닝 네트워크와 시간 마진 기반 손실 함수에 기초하여 생리적 모델 예를 들어, 딥 생리적 정서 네트워크(DPAN; deep psychological affect network)를 생성하고, 생성된 생리적 모델을 이용하여 인간의 감정을 인식함으로써, 감정 인식에 대한 성능을 향상시키는 것을 그 요지로 한다.
여기서, 본 발명은 시간 마진 기반 손실 함수를 이용하여 딥 러닝 네트워크 예를 들어, 컨볼루션 LSTM(ConvLSTM; Convolutional Long Short-Term Memory) 네트워크를 학습시킴으로써, 생리적 모델을 생성할 수 있다.
본 발명은 감정 인식을 스펙트럼-시간 생리적 시퀀스 학습 문제로 공식화할 수 있으며, 구체적으로 감정 인식 문제를 뇌 편재화(lateralization)의 기초가 되는 바이폴라 뇌파(EEG; Electroencephalography) 신호와 광전용적맥파(PPG; Photoplethysmography) 신호의 스펙트럼-시간 순서 분류 문제로 공식화함으로써 감정 인식의 성능을 향상시킬 수 있다.
여기서, 본 발명의 시간 마진 기반 손실 함수는 신뢰의 위반에 대한 패널티를 가할 수 있다.
본 발명의 DPAN에 대한 입력은 생리적 신호 시퀀스 예를 들어, 양극성 EEG 신호와 PPG 신호의 시퀀스이며, 감정적 밸런스-어라우절(valence-arousal) 모델에 따라 신호의 표현을 시간 마진 기반 손실 함수를 이용하여 학습함으로써, 사용자의 감저 상태를 추정할 수 있다.
뇌 편재화는 두뇌(두뇌의 왼쪽과 오른쪽 대뇌 피질)의 절반은 기능에 차이를 가진다는 생각을 말한다. 보다 구체적으로, 감정적 편재화는 대뇌 반구에서의 감정 지각 및 표현 처리의 비대칭 표현이다. EEG 신호의 차동적 편재화의 주요 이점은 최소 구성이 두 개의 전극만 필요로 한다는 것이다. 이러한 단순성은 쉽게 착용할 수 있는 경량 EEG 장치와 같은 일상 기술 개발을 가능하게 하고 사용자가 일상적인 상황에서 자유롭게 행동할 수 있게 한다.
본 발명은 반구 EEG 신호와 PPG 신호의 차동 생리적 활성화를 학습하고 감정을 인식할 수 있도록 이를 정량화한다.
또한, 본 발명은 시간 마진 기반 분류 손실 함수를 이용하여 시간적으로 감정을 더 잘 인지하고 위치를 파악할 수 있다. 전형적인 LSTM 모델은 이전 관측에 대한 유용한 패턴을 암기하고 현재 예측에 장거리(longer-range) 컨텍스트를 제공하는 우위를 보인다. 그러나 이러한 모델을 학습시킬 때 분류 손실만 사용하면 일반적으로 잘못된 예측에 적절한 패널티를 가하지 못하게 된다. 이는 LSTM이 이전의 숨겨진 상태와 메모리의 형태로 시간 경과에 따라 전달되는 컨텍스트를 암시적으로만 고려하기 때문이다. LSTM 모델을 학습시킬 때의 암시성은 복잡한 감정적 유도 메커니즘을 포함하는 생리적 신호와 같은 장기(long-term) 시퀀스 데이터를 학습시키는데 특히 문제가 된다. 본 발명은 LSTM 학습에 명시적인 시간 제한을 추가하여 학습된 모델이 감정의 시작에서 현재 시간까지 전체적인 감정의 명백한 진행을 보다 잘 포착할 수 있다.
이러한 본 발명에 대해 첨부된 도면을 이용하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 DPAN을 설명하기 위한 개념도를 나타낸 것으로, 감정 인식에 사용한 모델을 나타낸 것이다.
도 1에 도시된 바와 같이, 본 발명은 매시간 간격 N 후에 두 개의 생리적 신호 예를 들어, 뇌 편재화 신호와 심장 박동 신호를 이용하여 두 개의 생리적 특징들 예를 들어, 뇌 편재화 특징과 심장 박동 특징을 추출하고, 스펙트럼-시간 텐서를 구성한다. 그런 다음 추출된 특징들을 ConvLSTM에 입력하여 본 발명의 손실 모델인 시간 마진 기반 손실(TM-loss)을 통해 감정의 정서적 스코어를 계산한다. 최종 시퀀스의 출력은 전체 시퀀스에 대한 2차원 밸런스-어라우절 모델에 대한 감정을 표현하기 위해 선택된다.
본 발명에서 사용하는 모델은 두 가지 주요 구성 요소 즉, 뇌 편재화의 기초가 되는 양극성 EEG 신호와 PPG 신호의 시간-주파수 분석에 초점을 둔 감정 인식 문제의 공식화에 기반한 생리적 특징 추출 및 ConvLSTM과 이전 시간 단계에서의 ConvLSTM의 숨겨진 상태와 메모리, 현재 프레임의 특징을 기반으로 정서적 점수를 계산하는 시간 마진 기반 분류 손실 함수를 포함한다. 본 발명은 ConvLSTM을 사용하여 비-반복적 연결에 드롭 아웃(dropout)을 적용할 수 있다.
즉, 도 1에 도시된 바와 같이, 본 발명은 사용자가 라이온 킹이라는 영화를 보면서 사람이 느끼는 감정에 따라서 변화되는 생체 신호 즉, EEG 신호와 PPG 신호가 모델의 입력 신호로 들어가고, 입력된 두 종류의 타임 시리즈의 데이터를 모달리티와 결합하여 스펙트럼, 시간 그리고 모달리티의 3차원 데이터로 변형한다. 이렇게 변형된 3차원 데이터가 ConvLSTM의 입력으로 들어가고, 시간 마진 기반 분류 손실 함수(TM-loss)를 이용하여 손실 함수가 최소화 값으로 수렴되도록 학습을 진행한다. 도 1에서 시간 축에 따라서 네 개의 장면을 통해 학습된 학습 결과 슬프다라는 감정에 도달하게 되고, 따라서 2차원 밸런스-어라우절 모델에 슬프다는 감정으로 표현될 수 있다. 비록, 도 1에서 네 개의 장면만을 도시하였지만, 이에 한정되지 않으며 상황에 따라 장면 수 또는 프레임 수는 달라질 수 있다.
감정 인식 문제의 공식화
복잡한 정서 메커니즘을 설명하기 위해, DPAN은 뇌 편재화의 기초가 되는 바이폴라 EEG 신호와 PPG 신호의 시간-주파수 분석에 중점을 둔다. 각 시간 프레임에서, DPAN은 2 채널 EEG 신호와 PPG 신호를 입력으로 사용하여 1에서 9까지 조정된 감정적 상태를 나타내는 1차원 벡터를 출력한다.
여기서, 감정에서 생리적 변화를 감지하기 위해, 피크로 나타나는 주파수 또는 단일 순간 시간에 발생하는 파워 스펙트럼 밀도(PSD; power spectral density)에서 다른 것과의 구별되어 나타나는 주파수가 후보로 고려될 수 있다. 그러나 이 접근법은 감정 추출 메커니즘의 복잡하고 다차원적인 현상으로 인하여 개체 간 변동성 및 개체 내 변동성 문제를 처리할 수 없다.
본 발명은 시간 시퀀스에서 주파수의 국부적인 이웃(local neighbors)을 고려한 추정을 사용하며, 이는 임의의 단일 시간에 주파수를 추정하는 방법보다 우수하다. 또한, 본 발명은 스펙트럼-시간 시퀀스 학습 문제로서 정서 인식을 공식화할 수 있다.
도 2는 생리적 특징 추출 과정과 감정 인식 문제의 공식화를 설명하기 위한 일 예시도를 나타낸 것으로, 도 2에 도시된 바와 같이 시간 N에서 M × N 그리드로 표현되는 뇌 편재화 특징과 심장 박동 특징 각각은 바이폴라 EEG 신호와 PPG 신호의 스펙트로그램(spectrogram)으로부터 추출된다. 텐서는 두 개의 모달리티(P=2)로부터 스펙트럼-시간 특징들을 이용하여 구성된다.
즉, 본 발명은 P개의 서로 다른 모달리티를 가지고 M × N에 의해 표현되는 스펙트럼-시간 영역에 걸쳐 시간 N에서 EEG 신호 및 PPG 센서로부터 생리적 신호를 얻는다고 가정하고, 주어진 시간에서의 관측치는 텐서
Figure pat00001
로 나타낼 수 있다.
여기서,
Figure pat00002
은 관측된 생리적 특징의 도메인을 의미할 수 있으며, 예를 들어, 도 2의 EEG 신호와 PPG 신호로부터 추출되는 생리적 특징의 도메인을 의미할 수 있다.
학습 문제는 텐서
Figure pat00003
의 시퀀스에 기반한 올바른 클래스의 식별로서, 아래 <수학식 1>과 같이 나타낼 수 있다.
[수학식 1]
Figure pat00004
여기서,
Figure pat00005
는 밸런스-어라우절 클래스들의 세트를 의미할 수 있다.
생리적 특징 추출(Physiological Feature Extraction)
본 발명은 EEG 센서와 PPG 센서의 두 가지 모달리티(P = 2)에서 생리적 특징을 추출한다. 추출된 특징은 상기 수학식 1의
Figure pat00006
에 의해 M × N × P 스펙트럼-시간 영역으로 표현된다. 여기서 M은 주파수를 의미하고, N은 시간을 의미하며, P는 모달리티를 의미할 수 있다.
본 발명은 각각의 시간 프레임 t에서의 2채널 EEG 신호 Et로부터 뇌 비대칭 특징들인
Figure pat00007
를 추출한다. 여기서, 뇌 비대칭 특징들은 좌우 채널 쌍의 스펙트럼 및 인과 관계(casual) 비대칭의 기초가 될 수 있다.
뇌 비대칭 특징들은 뇌에서 차동(differential)과 인과 관계 상호 작용을 제공한다. 본 발명은 뇌 비대칭 특징들 Bt로 융합시켜 특징 공간에서의 감정적 편재화의 인과 관계 방향성과 크기를 나타내며, 이러한 Bt는 아래 <수학식 2>와 같이 나타낼 수 있다.
[수학식 2]
Figure pat00008
여기서, '
Figure pat00009
'는 아다마르 곱(Hadamard product)을 의미하고, 행렬
Figure pat00010
는 r과
Figure pat00011
EEG 바이폴라 채널들 간의 인과 관계 비대칭을 의미할 수 있다.
상기 수학식 2는 채널 r에서 채널 l로의 방향성 상호 작용을 측정하는데 사용될 수 있으며, 이는 채널 r이 채널 l에 미치는 영향을 의미하고, 0과 1 사이의 값을 얻으며, 높은 값은 r에서 l까지의 방향으로 선형적인 영향을 반영한다. 따라서, 비대칭성은 두 채널 간의 인과 관계 상호 작용의 방향성에 대한 정보를 제공한다.
본 발명은 r에서 l까지 인과 관계를 측정하기 위하여, Granger 인과성(causality)의 개념에 기반한 Partial Directed Coherence (PDC) 척도를 사용할 수 있으며, Granger 인과성(causality)의 개념에 기반한 Partial Directed Coherence(PDC) 척도를 사용한 인과 관계는 아래 <수학식 3>과 같이 나타낼 수 있다.
[수학식 3]
Figure pat00012
여기서,
Figure pat00013
이고,
Figure pat00014
이며,
Figure pat00015
Figure pat00016
의 rl번째 엘리먼트를 의미하고,
Figure pat00017
는 행렬
Figure pat00018
의 k번째 열인 벡터 ak의 에르미트 전치(Hermitian transpose)를 의미할 수 있다.
행렬
Figure pat00019
은 아래 <수학식 4>와 같이 정의될 수 있다.
[수학식 4]
Figure pat00020
여기서, I는 단위 행렬(identity matrix)을 의미하고, 주파수 m은 0에서 나이퀴스트 레이트(Nyquist rate)까지 변할 수 있다. 행렬
Figure pat00021
는 아래 <수학식 5>와 같이 주어질 수 있다.
[수학식 5]
Figure pat00022
여기서, 행렬
Figure pat00023
는 인과 관계(causal) 다변량 자기 회귀(MVAR; multivariate autoregressive) 모델을 이용하여 계산될 수 있다.
인과 관계 다변량 자기 회귀 모델은 Granger 인과성 인덱스(GCI; Granger Causality Index), Directed Transfer Function(DTF) 및 PDC(Partial Directed Coherence)와 같은 Granger 인과성 기반 측정의 표현일 수 있으며, 이러한 측정들은 MVAR 모델의 프레임워크에서 정의될 수 있다. 본 발명에서 PDC 측정을 사용하는 것은 주파수 도메인으로 정의되고 방향성이 있기 때문이다. 즉, 방향성이 있다는 것은
Figure pat00024
것을 의미한다.
Figure pat00025
는 지연 d에서 채널 r과 l 사이의 선형 관계를 반영하며,
Figure pat00026
는 직접 및 간접 영향뿐만 아니라 EEG 채널 간의 정보 흐름의 방향을 고려할 수 있게 해준다. 본 발명에서의 MVAR 모델은 기존 논문(A. K. Seth, A. B. Barrett, and L. Barnett, "Granger causality analysis in neuroscience and neuroimaging," Journal of Neuroscience, vol. 35, no. 8, pp. 3293-3297, 2015.)에 상세히 설명되어 있기에 그 자세한 설명은 생략한다.
Figure pat00027
는 l과 r EEG 채널 사이의 스펙트럼 비대칭을 나타내며,
Figure pat00028
Figure pat00029
는 각각 좌측 반구와 우측 반구의 특정 밴드에 대한 스펙트럼 파워의 로그(logarithm)를 의미한다. 비대칭성은 반구 편재화의 정도(degree)를 나타낸다. 비대칭 특성이 증가하면 좌측 반구 활성화가 우측 반구 활성화보다 증가하게 된다. 따라서, 상기 수학식 2의 뇌 비대칭 특성은 두 반구 사이의 감정적 편재화의 방향성과 크기를 나타낸다.
본 발명은 M × N 스펙트럼-시간 도메인에 걸쳐 각 시간 프레임 t에서 PPG 신호 Pt로부터 심박수(심장 박동 수) 특성 Ht를 추출하는데, PPG 신호의 PSD에서 피크를 갖는 주파수가 실제 심박수의 후보로 간주될 수 있다. 이러한 데이터는 시간이 지남에 따라 후보 세트를 형성한다.
컨벌루션 LSTM ( ConvLSTM )
본 발명은 상기 수학식 1에서 공식화된 감정 상태를 인식하기 위해 ConvLSTM을 적용할 수 있다. ConvLSTM은 완전히 연결된(fully connected) LSTM(FC-LSTM)이 확장된 것으로, 입력-상태 변환 및 상태-상태 변환 모두에서 컨벌루션 구조를 가지고 있다. ConvLSTM은 입력, 숨겨진 상태(hidden state), 출력 및 마지막 두 차원이 공간 차원(행과 열)인 3차원 텐서로 다른 게이트를 나타낸다. ConvLSTM은 상태-상태 변환 및 입력-상태 변환에서 컨볼루션 연산자를 사용하여 이웃의 이전 상태와 입력을 기반으로 그리드 내 특정 셀의 미래 상태를 결정한다. 컨볼루션 구조에서의 이 연산자는 상기 수학식 1에서의 공식과 동등한 시공간 데이터의 지역 종속성을 포착할 수 있게 해준다. 시공간 데이터를 처리하는 것은 FC-LSTM의 주요 단점이다. 입력-상태 변환 및 상태-상태 변환에서 FC-LSTM의 전체 연결에는 공간 정보를 인코딩하는 데 너무 많은 중복(redundancy)이 포함된다.
Figure pat00030
,
Figure pat00031
Figure pat00032
가 각각 입력, 셀 출력 및 숨겨진 상태를 나타내는 경우, ConvLSTM의 주요 방정식은 아래 <수학식 6>과 같이 나타낼 수 있다
[수학식 6]
Figure pat00033
여기서, it, ft 및 ot는 3D 텐서에 의해 나타나는 ConvLSTM의 게이트를 의미하고, '*'는 컨볼루션 연산자를 의미할 수 있다.
입력, 출력 및 잊어버린 게이트(forget gate)의 활성화를 통해, 셀은 오랜 기간 동안 정보를 저장하고 검색할 수 있다. 이를 통해 장거리 컨텍스트 정보에 액세스하고 사라지는 그래디언트(gradient) 문제를 해결할 수 있다. 마지막 2차원이 1인 3D 텐서를 사용하여 FC-LSTM의 숨겨진 상태와 셀 출력을 나타내는 경우 전통적인 FC-LSTM은 단일 셀에서의 ConvLSTM의 특별한 경우로 볼 수 있다 ConvLSTM은 FC-LSTM보다 시공간(또는 스펙트럼-시간) 캡쳐를 보다 잘 수행할 수 있다.
감정 상태를 식별하기 위해, 선형 레이어를 가지는 ConvLSTM은 현재 시간 프레임 t의 생리적 특징과 숨겨진 상태 및 이전 단계의 ConvLSTM 메모리를 기반으로 정서적 점수를 계산한다. 본 발명은 최종 선형 레이어로 softmax 레이어를 사용하므로 정서적 점수는 모델의 softmax 출력일 수 있다.
시간 마진 기반 분류 손실(Temporal Margin-based Classification Loss)
ConvLSTM은 효율적인 반면, 학습에서 분류 손실만 사용할 경우 잘못된 예측에 적절한 패널티를 가하지 못한다. 이 모델은 모델이 이미 처리한 감정적 컨텍스트에 관계없이 동일한 오류에 대하여 패널티를 가한다. 예를 들어, 슬픔의 느낌은 부정, 분노, 협상, 우울증, 수용을 차례로 수반한다. 감정에는 협상과 수용이 포함되어 있기 때문에 만족감은 모델에 의해 산출된 가장 잘못된 결과 일 수 있다. 슬픔 감정의 시퀀스가 주어진 LSTM은 이미 처리된 시퀀스의 양에 관계없이 동일한 페널티를 출력한다. 예를 들어, LSTM이 슬픔에 이르는 슬픔 감정을 처리했다면, 잘못된 '감정 만족도'는 모델이 분노를 보인 것처럼 동일한 패널티를 가하게 된다. 그러나 감정을 우울증으로까지 본 후에 부정확한 감정을 출력하는 것은 감정을 분노로까지 본 후에 부정확한 감정을 출력하는 것보다 패널티를 더 가해야 한다. LSTM은 이전의 숨겨진 상태와 메모리의 공식화 과정에서 시간이 지남에 따라 전달되는 컨텍스트를 암시적으로만 고려하기 때문에 정확한 패널티를 가하는 것이 필수적이다. 정확한 패널티가 없다면, LSTM 모델은 복잡한 정서적 추출 메커니즘을 포함하는 생리적 신호와 같은 장기 시퀀스 데이터로부터 학습하기 어려워진다. 이러한 메커니즘은 감정에 대한 선행 단계로 간주되지 않지만, 상대적으로 오랜 기간 동안 감정의 구성 단계로 간주된다. 따라서 학습에서 감정의 진행 패턴을 학습하는 것은 신뢰할 수 있는 정서 모델을 개발하는데 있어서 매우 중요하다.
상술한 문제를 해결하기 위하여, 본 발명은 기존의 분류 손실 함수를 수정하여 올바른 감정 상태와 부정확한 감정적 상태 사이의 시간 마진을 기반으로 새로운 손실 함수를 공식화한다. 특정 감정이 더 많이 관찰되는 경우 본 발명의 모델은 인식 과정이 진행됨에 따라 감정적 추출을 더 확신할 수 있다.
도 3a는 영화 "The Lion King (1994)"의 슬픈 장면 시퀀스를 보여주는 것으로, 아들 Simba를 구출하려고 하는 와중에, Mufasa는 Scar에 의해 죽임을 당하는 장면 시퀀스이다. 영화의 시퀀스에는 슬픔과 차분함 같은 복잡한 감정의 단계가 포함되는데, 시퀀스가 진행됨에 따라 슬픔이 고조되어 Simba가 아버지 Mufasa의 죽음을 인식하고 침착한 느낌이 희미해지는 장면에서 절정에 이른다. 즉, 도 3에 도시된 바와 같이 본 발명은 슬픈 감정을 점점 더 보게 되면 슬픔 감정(sad)에 해당하는 선의 올바른 감정 상태가 있고 차분한 감정(calm)에 해당하는 선의 잘못된 상태가 없다는 것을 확신하게 된다.
본 발명의 함수는 감정이 진행되는 동안 다른 마진들과 단조롭게 감소하지 않는 마진을 구별하기 위하여 정확한 감정 상태의 정서적 스코어를 제한한다. 따라서 본 발명은 정확한 감정 분류와 부정확한 감정 분류를 구별하는 시간 마진 기반 분류 손실을 제시한다.
여기서, 시간 마진 기반 분류 손실은 아래 <수학식 7>과 같이 나타낼 수 있다.
[수학식 7]
Figure pat00034
여기서, -log st(y)는 딥 러닝 모델을 학습시키는데 필요한 일반적인 교차 엔트로피 손실 함수(cross-entropy loss function)를 의미하고, y는 감정 등급의 실제 측정 값을 의미하며, st(y)는 시간 t에 대한 실제 측정 값 레이블 y의 분류된 정서적 스코어를 의미하고, mt(y)는 시간 t에서의 감정 라벨 y의 차별적인 마진(discriminative margin)을 의미할 수 있다.
차별적인 마진 mt(y)는 아래 <수학식 8>과 같이 나타낼 수 있다.
[수학식 8]
Figure pat00035
여기서,
Figure pat00036
는 차별적인 마진의 영향을 제어하기 위한 상대적인 항목(relative term)을 의미할 수 있다.
상기 수학식 7은 정확한 상태와 부정확한 상태를 구별하는데 있어서 확신을 가질 수 있는 모델을 나타낸 것이다. 즉, 본 발명의 시간 마진 기반 분류 손실 함수는 감정의 정확한 상태와 부정확한 상태를 명확하게 구별할 수 있는 모델을 제공할 수 있다. 본 발명의 모델은 감정 학습이 진행됨에 따라 정서적 스코어에서 단조로움을 유지하도록 권장된다.
예컨대 도 3b에 도시된 바와 같이, 감정 y의 차별적인 마진 mt(y)는 시간 t0에서 시작하고, 차별적인 마진 mt(y)는 실제 측정된(ground truth) 정서적 스코어 st(y)와 시간 t0와 t 사이의 모든 잘못된 감정 상태들의 최대 스코어
Figure pat00037
간의 차이로 계산된다. 모델은 시간 tc까지 감정 상태를 분류하는데 있어서 강한 자신감을 가지게 되지만, 시간 tc 이후에는 마진의 단조로움(monotonicity)의 위반으로 인하여 시간 마진 기반 분류 손실이 0이 아니게 된다.
본 발명은 학습이 진행되는 동안 모델 파라미터에 대한 그래디언트를 계산하기 위하여 시간을 통해 역전파된 st(y)에 대한 손실의 그래디언트를 계산할 수 있다. 또한 본 발명은 단수화하기 위하여, st(y')에 대한 손실의 그래디언트를 계산하거나 역전파하지 않을 수 있다.
본 발명은 양적인 평가를 위하여, 인간의 정서적 상태를 분석하는데 넓게 사용되는 공개된 데이터 세트인 DEAP를 사용한다. 두 개의 존재하는 모델들과 비교함으로써, 본 발명의 모델이 인간 감정을 인식하는데 있어서 매우 효과적이라는 것을 결과를 통해 알 수 있다.
DEAP 데이터 세트
본 발명에서는 DEAP 데이터 세트로부터 오른쪽 반구(F8, FC2, FC6, C4, T8, CP2, CP6 및 PO4)와 왼쪽 반구(F7, FC1, FC5, C3, T7, CP1, CP5 및 PO3)의 8개의 대칭 쌍 전극들을 사용한다. 본 발명은 32개의 전극들에서 감정과 상관 관계가 높은 8개의 대칭 쌍에 대한 전극 채널들을 선택한다. EEG 신호 이외에, 본 발명은 HR(heart rate) 관련 생리적인 특징들을 계산하기 위하여 참가자의 왼쪽 엄지 손가락의 혈액량을 측정하는 맥파계(plethysmographs)를 사용한다. 도 4는 본 발명에서 사용되는 EEG 전극 배치와 생리적인 신호를 획득하기 위해 사용되는 맥파계를 나타낸 것이다. 밸런스와 어라우절의 연속적인 등급은 음의 무한대로 반올림하는 이산 등급으로 변환된다.
실험 셋업
본 발명은 뇌 편재화에 맞춰져 있기 때문에, 비디오당 생리적인 신호의 64가지 조합과 함께 1280개의 비디오 동안 기록된 8개의 선택된 전극들과 맥파계의 데이터는 81920개의 생리학적 데이터 포인트를 생성한다. 본 발명은 테스트를 위하여 전체 데이터 세트를 16384 생리적인 데이터 포인트를 가지는 5개로 나눈다. 본 발명은 남은 데이터의 1/5(13107 생리적인 데이터 포인트)을 유효성 검사를 위해 사용하고, 남은 데이터의 4/5(52429 생리적인 데이터 포인트)를 트레이닝 셋으로 이용한다. 트레이닝 데이터와 테스트 데이터는 주체 독립적이며 이는 데이터가 무작위로 선택되었다는 것을 의미한다. 유효 데이터는 등급 분포를 균형있게 유지하면서 무작위로 선택될 수 있다. 하이라이트 처리된 1분 EEG 신호와 맥파계 신호는 10초당 6개의 프레임으로 분할된다. 각 신호는 256Hz로 다운 샘플링되고 파워 스펙트럼 특징들이 추출된다.
EEG 신호에 대하여, EEGlab 툴박스를 이용하여 2Hz 컷오프 주파수를 가지는 하이패스 필터에 의해 필터링되고, 눈 아티팩트를 제거하기 위하여 블라인드 소스 분리 기술이 적용된다. 맥파계 신호에 대하여, 제한된 독립 구성요소 분석(cICA; constrained independent component analysis) 알고리즘을 이용하여 신호에서 모션 아티팩트를 제거함으로써, 신호를 정제한다. 상기 cICA 알고리즘은 ICA의 확장된 알고리즘이다. 4Hz부터 65Hz의 주파수 범위에서 스펙트럼 파워의 로그는 선택된 전극들과 참가자의 엄지로부터 추출된다. 본 발명은 프레임당 두 개의 스펙트럼-시간 데이터 세트를 이용하여, Bt와 Ht로부터 50 × 50 스펙트럼-시간 특징들의 두 셋을 입력 Xt로 생성한다. 여기서, Xt는 밸런스와 어라우절의 실측 값(ground truth)에 대응될 수 있다.
본 발명에서는 본 발명의 모델과 FC-LSTM 그리고 종래 방식의 비교를 통해 본 발명에 따른 성능을 평가할 수 있다. 본 발명의 DPAN 모델은 256 숨겨진 상태들, 5 × 5의 입력-상태 커널 사이즈와 5 × 5의 상태-상태 커널 사이즈를 가지는 1-레이어 네트워크를 사용할 수 있다. 본 발명의 모델을 학습시키기 위하여, 본 발명은 32 시퀀스의 학습 배치들을 사용할 수 있다. 역 전파를 통한 시간은 10 타임스텝 동안 수행되며, 모멘텀과 가중치 감소(weight decay)는 각각 0.7과 0.0005로 설정될 수 있다. 학습 레이트는 0.1에서 시작하고 매 20000번 반복 후에 10에 의해 분할될 수 있다.
본 발명은 감정과 생리적 신호 간의 스펙트럼-시간 상관 관계를 캡쳐하는데 미치는 영향을 조사하기 위하여 3 × 3, 7 × 7, 9 × 9와 같은 다른 구성을 시도할 수있다. FC=LSTM에 대하여, 출력으로 softmax 레이어를 가지는 세 개의 1700 노드 LSTM 레이어를 사용할 수 있다.
종래 방식에서는 본 발명의 분류기와 동일한 분류기 예를 들어, 단일 모달리티의 융합된 나이브 베이즈(Naive Bayes) 분류기를 사용할 수 있다. 두 모달리티는 나이브 베이즈(Naive Bayes) 분류기에 의해 독립적으로 처리되고, 각 모달리티는 최종 결정에 동등하게 기여되도록 설정될 수 있다.
실험 결과
도 5와 도 6은 본 발명의 모델, FC-LSTM 그리고 종래 방법에 의해 밸런스와 어라우절 등급의 컨퓨젼 행렬(confusion matrices)에 대한 일 예시도를 나타낸 것으로, 도 5와 도 6에 도시된 바와 같이 본 발명에 따른 모델(DPAN)은 밸런스 감정과 어라우절 감정 각각을 인식하는데 있어서 78.72%와 79.03%의 정확도를 가지고, FC-LSTM 방법은 밸런스 감정과 어라우절 감정 각각을 인식하는데 있어서 68.45%와 66.56%의 정확도를 가지며, 종래 방법(Koelstra et al.)은 밸런스 감정과 어라우절 감정 각각을 인식하는데 있어서 63.23%와 62.59%의 정확도를 가지는 것을 알 수 있다. 도 5와 도 6을 통해 알 수 있듯이, 본 발명에 따른 방법은 FC-LSTM 방법과 종래 방법(Koelstra et al.)에 비해 밸런스 감정과 어라우절 감정을 인식하는데 있어서 그 정확도가 높은 것을 알 수 있다.
본 발명의 실험은 본 발명에 따른 방법이 다른 방법에 비해 일관성있게 동작함을 보여주며, 이는 다음과 같은 두가지 이유에 의해 나타날 수 있다. 첫째, ConvLSTM을 기반으로 하는 본 발명의 모델은 네트워크의 비선형과 컨볼루션 구조의 도움으로 감정 추출 메커니즘의 복잡한 스펙트럼-시간 패턴을 학습할 수 있다. 컨볼루션 구조의 입력-상태 커널과 상태-상태 커널은 국부적인 스펙트럼-시간 패턴을 캡쳐하고 생리적 측정에서 개체 간 변동성과 개체 내 변동을 감소시키는 국부적 일관성(local consistency)을 유지할 수 있다.
반면, 종래 방법(Koelstra et al.)에서 나이브 베이즈 모델은 신호의 복잡성을 이해하거나 트레이닝하는데 있어서 어려움이 있다. 최대 우도법을 이용한 독립성 가정에 기초한 파라미터의 추정은 감정 클래스 간의 사후 확률의 최대화를 간과할 수 있다. 이러한 제한은 밸런스 등급이 5이고 어라우절 등급이 1인 경우 중요하다. 분류기는 밸런스 등급이 5이고 어라우절 등급이 1인 경우와 같은 특정 인스턴스에 대한 예측 성능이 좋지 않은 결과를 나타내는데, 이는 분류기가 두 등급의 표현을 과도하게 학습함으로써, 식별 오류가 발생하기 때문이다. 따라서, 생리적 특징들 간 상호 작용을 이용할 수 있는 능력을 잃어버리게 된다. FC-LSTM의 완전 연결 구조는 너무 많은 중복 연결을 가지며, 스펙트럼-시간 패턴에서 중요한 국부적 일관성을 캡쳐하기 위한 최적화를 만드는 것이 불가능하다.
둘째, 본 발명은 잘못된 분류에 대한 패널티를 부과함으로써, 생리적 패턴을 구별할 수 있다. 본 발명의 시간 마진 기반 분류 손실은 트레이닝 동안 생리적 뚜렷함을 증가시킨다. 그러나 단순히 분류 손실만을 사용하는 나이브 베이즈 모델과 LSTM은 뚜렷함을 달성할 수 없다. 게다가 이러한 문제는 나이브 베이즈 모델과 LSTM이 4와 6 사이의 밸런스 등급과 1과 3 사이의 어라우절 등급에 가까운 분류를 사용하는 경우 더 심각하게 나타날 수 있다. 감정적 자극은 높은 어라우절/높은 밸런스(HAHV; high arousal/high valence)과 높은 어라우절/낮은 밸런스(HAHV; high arousal/low valence) 조건에 대해 잘 작용한다. 조건에 대한 감정적 자극은 강한 생리적 변화를 유도할 수 있다. 나이브 베이즈 모델과 LSTM은 중립 조건에 의해 유발된 작은 생리적 변화를 캡쳐하는데 어려움을 가지며 그들의 표현을 학습한다.
도 7은 트레이닝 동안 본 발명의 손실 함수를 사용하여 인식 성능이 향상된 밸런스와 어라우절 등급의 평균 정확도에 대한 일 예시도를 나타낸 것으로, 도 7에 도시된 바와 같이 본 발명의 손실 함수 즉, 시간 마진 기반 분류 손실 함수는 감정 인식을 위하여 ConvLSTM 모델을 학습하는데 있어서 더 효과적이라는 것을 알 수 있으며, 분류 손실만을 사용하여 트레이닝된 ConvLSTM 모델과 비교하면 밸런스 등급에 대해 6.3% 그리고 어라우절 등급에 대해 6.2%의 평균 정확성이 향상된 것을 알 수 있다. 게다가, 본 발명에 따른 손실 함수는 4와 6 사이의 밸런스와 어라우절 등급에 대해 효과적이다. 도 5와 도 6에 도시된 바와 같이, 4와 6 사이의 밸런스와 어라우절 등급은 해당 등급들 간 생리적 유사성으로 인하여 분류하기 어려움이 있다. 본 발명의 시간 마진 기반 분류 손실 함수는 다른 등급에 비하여 4와 6 사이의 등급에서의 인식 성능을 향상시키는 것을 알 수 있으며, 이는 본 발명의 시간 마진 기반 분류 손실 함수가 다양한 형태의 감정을 인식하는데 적용 가능하다는 것을 의미할 수 있다.
이와 같이, 본 발명의 실시예에 따른 방법은 마진 기반 분류 손실 함수를 이용하여 딥 러닝 네트워크를 학습함으로써, 감정 추정 정확도를 향상시킬 수 있다.
또한, 본 발명의 실시예에 따른 DPAN은 다음과 같은 기여도를 제공할 수 있다.
1) 감정 변화를 포착하고 추적하기 위한 견고한 모델: 본 발명은 다중 모달(modal) 생리적 특징의 ConvLSTM 모델링을 기반으로 하는 딥 생리적 정서 네트워크(DPAN)을 제시하며, 이를 통해 밸런스와 어라우절을 각각의 축으로 하는 2차원 감정 모델에 따라 감정 상태를 식별하는 것이다.
2) 시간 마진 기반 분류 손실 함수: 감정적 상태를 식별할 수 있는 모델을 보다 잘 학습시키기 위하여 시간 마진 분류 손실 함수를 제공하며, 본 발명의 모델은 감정 인식 작업에서 분류 손실을 사용하는 경우만으로 학습된 ConvLSTM 모델에 비해 크게 개선되었음을 보여준다.
3) 정서적 편재화가 감정 인지에 미치는 영향 분석: 일상 기술에서의 잠재적 응용에 대한 본 발명의 시스템의 분류 결과로부터 얻은 감정 편재, 감정 밸런스 및 어라우절 사이의 상관 관계를 제시하고, 개체 간 변동성 및 개체 내 변동성을 겪은 차별화 요소의 한계에 대한 더 나은 이해를 제공한다.
상술한 바와 같이, 본 발명에 따른 방법은 시간 마진을 고려한 시간 마진 기반 분류 손실 함수를 이용하여 사용자 감정을 추정하는 것으로, 사용자에 대해 획득된 생리적 신호를 이용하여 사용자 감정을 추정하는데 있어서, 시간 마진 기반 분류 손실 함수를 이용한다는 것이다. 즉, 본 발명의 다른 실시예는 사용자의 생리적 신호를 획득하고, 이렇게 획득된 생리적 신호에 대응하는 사용자 감정을 시간 마진을 고려한 시간 마진 기반 분류 손실 함수를 이용하여 추정할 수 있다.
이러한 본 발명에 따른 방법은 감정 추정 시스템으로 구현될 수 있다. 예컨대, 본 발명의 일 실시예에 따른 감정 추정 시스템은 획득부, 학습부 및 추정부를 포함할 수 있다. 물론, 여기서의 구성 수단들은 상황에 따라 달라질 수 있다.
획득부는 사용자의 생리적 신호를 획득한다.
여기서, 획득부는 이미지 시퀀스에 대한 사용자의 뇌파(EEG) 신호와 심장 박동(PPG) 신호 중 적어도 하나의 생리적 신호를 획득할 수 있다.
학습부는 획득된 생리적 신호를 입력으로 하는 네트워크를 시간 축에 따라 학습이 진행될 때 시간 마진을 고려하는 시간 마진 기반 분류 손실 함수를 이용하여 학습한다.
여기서, 학습부는 시간 마진 분류 손실 함수를 이용하여 컨볼루션 LSTM(Convolutional Long Short-Term Memory) 네트워크를 학습할 수 있다.
나아가, 학습부는 이미지 시퀀스에 대해 상기 획득된 생리적 신호에 대한 생리적 특징을 추출하고, 추출된 생리적 특징을 이용하여 스펙트럼-시간 텐서를 구성하며, 상기 구성된 스펙트럼-시간 텐서를 입력으로 하여 시간 마진 기반 분류 손실 함수가 최소화 값으로 수렴되도록 네트워크를 학습할 수 있다.
물론, 학습부는 복수의 모달리티를 이용하여 생리적 신호를 획득하는 경우 추출된 생리적 특징과 모달리티를 이용하여 스펙트럼-시간-모달리티를 포함하는 3차원 텐서를 구성할 수도 있다.
시간 마진 기반 분류 손실 함수는 시간에 따른 시간 마진이 유지되거나 계속 증가되도록 패널티를 부여할 수 있으며, 교차 엔트로피 손실 함수(cross-entropy loss function) 및 특정 감정 등급의 측정 값(ground truth) 라벨에 대한 정서적 스코어와 다른 감정 등급들의 최대 정서적 스코어 차이에 해당하는 차별적인 마진(discriminative margin)에 기초하여 시간 마진을 계산할 수 있다.
추정부는 시간 마진 기반 분류 손실 함수를 이용한 네트워크의 학습을 통해 사용자의 감정을 추정한다.
여기서, 추정부는 상술한 수학식 7과 수학식 8의 시간 마진 기반 분류 손실 함수를 이용하여 사용자의 감정을 시간 마진 기반으로 추정할 수 있다.
비록, 본 발명의 시스템에서 그 설명이 생략되었더라도, 본 발명에 따른 시스템은 상기 도 1 내지 도 7에서 설명한 모든 내용을 포함할 수 있다는 것은 이 기술 분야에 종사하는 당업자에게 있어서 자명하다.
이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 시스템, 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예들에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (17)

  1. 사용자의 생리적 신호를 획득하는 단계;
    상기 획득된 생리적 신호를 입력으로 하는 네트워크를 시간 축에 따라 학습이 진행될 때 시간 마진을 고려하는 시간 마진 기반 분류 손실 함수를 이용하여 학습하는 단계; 및
    상기 시간 마진 기반 분류 손실 함수를 이용한 상기 네트워크의 학습을 통해 상기 사용자의 감정을 추정하는 단계
    를 포함하는 감정 추정 방법.
  2. 제1항에 있어서,
    상기 생리적 신호를 획득하는 단계는
    이미지 시퀀스에 대한 상기 사용자의 뇌파 신호와 심장 박동 신호 중 적어도 하나의 생리적 신호를 획득하는 것을 특징으로 하는 감정 추정 방법.
  3. 제1항에 있어서,
    상기 시간 마진 기반 분류 손실 함수는
    시간에 따른 시간 마진이 유지되거나 계속 증가되도록 패널티를 부여하는 것을 특징으로 하는 감정 추정 방법.
  4. 제1항에 있어서,
    상기 학습하는 단계는
    이미지 시퀀스에 대해 상기 획득된 생리적 신호에 대한 생리적 특징을 추출하고, 상기 추출된 생리적 특징을 이용하여 스펙트럼-시간 텐서를 구성하며, 상기 구성된 스펙트럼-시간 텐서를 입력으로 하여 상기 시간 마진 기반 분류 손실 함수가 최소화 값으로 수렴되도록 상기 네트워크를 학습하는 것을 특징으로 하는 감정 추정 방법.
  5. 제1항에 있어서,
    상기 시간 마진 기반 분류 손실 함수는
    교차 엔트로피 손실 함수(cross-entropy loss function) 및 특정 감정 등급의 측정 값(ground truth) 라벨에 대한 정서적 스코어와 다른 감정 등급들의 최대 정서적 스코어 차이에 해당하는 차별적인 마진(discriminative margin)에 기초하여 상기 시간 마진을 계산하는 것을 특징으로 하는 감정 추정 방법.
  6. 제1항에 있어서,
    상기 학습하는 단계는
    상기 시간 마진 분류 손실 함수를 이용하여 컨볼루션 LSTM(Convolutional Long Short-Term Memory) 네트워크를 학습하는 것을 특징으로 하는 감정 추정 방법.
  7. 시간 축에 따라 학습이 진행될 때 시간 마진을 고려하는 시간 마진 기반 분류 손실 함수를 제공하는 단계; 및
    상기 시간 마진 기반 분류 손실 함수를 이용한 학습을 통해 사용자의 감정을 추정하는 단계
    를 포함하는 감정 추정 방법.
  8. 제7항에 있어서,
    상기 추정하는 단계는
    이미지 시퀀스에 대해 획득된 상기 사용자의 생리적 신호에 대한 생리적 특징을 추출하고, 상기 추출된 생리적 특징을 이용하여 스펙트럼-시간 텐서를 구성하며, 상기 구성된 스펙트럼-시간 텐서를 입력으로 하여 상기 시간 마진 기반 분류 손실 함수가 최소화 값으로 수렴되도록 네트워크를 학습함으로써, 상기 사용자의 감정을 추정하는 것을 특징으로 하는 감정 추정 방법.
  9. 제7항에 있어서,
    상기 시간 마진 기반 분류 손실 함수는
    교차 엔트로피 손실 함수(cross-entropy loss function) 및 특정 감정 등급의 측정 값(ground truth) 라벨에 대한 정서적 스코어와 다른 감정 등급들의 최대 정서적 스코어 차이에 해당하는 차별적인 마진(discriminative margin)에 기초하여 상기 시간 마진을 계산하는 것을 특징으로 하는 감정 추정 방법.
  10. 사용자의 생리적 신호를 획득하는 획득부;
    상기 획득된 생리적 신호를 입력으로 하는 네트워크를 시간 축에 따라 학습이 진행될 때 시간 마진을 고려하는 시간 마진 기반 분류 손실 함수를 이용하여 학습하는 학습부; 및
    상기 시간 마진 기반 분류 손실 함수를 이용한 상기 네트워크의 학습을 통해 상기 사용자의 감정을 추정하는 추정부
    를 포함하는 감정 추정 시스템.
  11. 제10항에 있어서,
    상기 획득부는
    이미지 시퀀스에 대한 상기 사용자의 뇌파 신호와 심장 박동 신호 중 적어도 하나의 생리적 신호를 획득하는 것을 특징으로 하는 감정 추정 시스템.
  12. 제10항에 있어서,
    상기 시간 마진 기반 분류 손실 함수는
    시간에 따른 시간 마진이 유지되거나 계속 증가되도록 패널티를 부여하는 것을 특징으로 하는 감정 추정 시스템.
  13. 제10항에 있어서,
    상기 학습부는
    이미지 시퀀스에 대해 상기 획득된 생리적 신호에 대한 생리적 특징을 추출하고, 상기 추출된 생리적 특징을 이용하여 스펙트럼-시간 텐서를 구성하며, 상기 구성된 스펙트럼-시간 텐서를 입력으로 하여 상기 시간 마진 기반 분류 손실 함수가 최소화 값으로 수렴되도록 상기 네트워크를 학습하는 것을 특징으로 하는 감정 추정 시스템.
  14. 제10항에 있어서,
    상기 시간 마진 기반 분류 손실 함수는
    교차 엔트로피 손실 함수(cross-entropy loss function) 및 특정 감정 등급의 측정 값(ground truth) 라벨에 대한 정서적 스코어와 다른 감정 등급들의 최대 정서적 스코어 차이에 해당하는 차별적인 마진(discriminative margin)에 기초하여 상기 시간 마진을 계산하는 것을 특징으로 하는 감정 추정 시스템.
  15. 제10항에 있어서,
    상기 학습부는
    상기 시간 마진 분류 손실 함수를 이용하여 컨볼루션 LSTM(Convolutional Long Short-Term Memory) 네트워크를 학습하는 것을 특징으로 하는 감정 추정 시스템.
  16. 사용자의 생리적 신호를 획득하는 단계; 및
    시간 마진을 고려하는 시간 마진 기반 분류 손실 함수를 이용하여 상기 생리적 신호에 대응하는 사용자의 감정을 추정하는 단계
    를 포함하는 감정 추정 방법.
  17. 제16항에 있어서,
    상기 추정하는 단계는
    상기 획득된 생리적 신호를 입력으로 하는 네트워크를 시간 축에 따라 학습이 진행될 때 상기 시간 마진 기반 분류 손실 함수를 이용하여 학습하고, 상기 시간 마진 기반 분류 손실 함수를 이용한 상기 네트워크의 학습을 통해 상기 사용자의 감정을 추정하는 것을 특징으로 하는 감정 추정 방법.
KR1020180125780A 2018-05-09 2018-10-22 인간 감정 인식을 위한 딥 생리적 정서 네트워크를 이용한 인간 감정 추정 방법 및 그 시스템 KR102221264B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/KR2018/012772 WO2019216504A1 (ko) 2018-05-09 2018-10-26 인간 감정 인식을 위한 딥 생리적 정서 네트워크를 이용한 인간 감정 추정 방법 및 그 시스템
US16/214,011 US10853632B2 (en) 2018-05-09 2018-12-07 Method for estimating human emotions using deep psychological affect network and system therefor
CN201811527686.4A CN110464314A (zh) 2018-05-09 2018-12-13 利用深层生理情绪网络的人类感情推定方法及系统

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20180053173 2018-05-09
KR1020180053173 2018-05-09

Publications (2)

Publication Number Publication Date
KR20190128978A true KR20190128978A (ko) 2019-11-19
KR102221264B1 KR102221264B1 (ko) 2021-03-02

Family

ID=68771100

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180125780A KR102221264B1 (ko) 2018-05-09 2018-10-22 인간 감정 인식을 위한 딥 생리적 정서 네트워크를 이용한 인간 감정 추정 방법 및 그 시스템

Country Status (1)

Country Link
KR (1) KR102221264B1 (ko)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110946576A (zh) * 2019-12-31 2020-04-03 西安科技大学 一种基于宽度学习的视觉诱发电位识别情绪方法
CN112101152A (zh) * 2020-09-01 2020-12-18 西安电子科技大学 一种脑电情感识别方法、系统、计算机设备、可穿戴设备
CN112597967A (zh) * 2021-01-05 2021-04-02 沈阳工业大学 沉浸式虚拟环境、多模态生理信号的情绪识别方法及装置
CN112836593A (zh) * 2021-01-15 2021-05-25 西北大学 一种融合先验与自动脑电特征的情绪识别方法及系统
CN113128552A (zh) * 2021-03-02 2021-07-16 杭州电子科技大学 一种基于深度可分离因果图卷积网络的脑电情绪识别方法
CN113220849A (zh) * 2021-04-06 2021-08-06 青岛日日顺乐信云科技有限公司 一种客服人员情绪疏导方案查找方法、电子设备及存储介质
CN113516101A (zh) * 2021-08-02 2021-10-19 合肥工业大学 一种基于网络结构搜索的脑电信号情绪识别方法
CN113554110A (zh) * 2021-07-30 2021-10-26 合肥工业大学 一种基于二值胶囊网络的脑电情绪识别方法
KR20210135378A (ko) * 2020-05-04 2021-11-15 한국과학기술원 일상생활에서 발생하는 감정 변화 원인을 파악하는 방법 및 그 시스템
CN113647962A (zh) * 2021-08-20 2021-11-16 天津大学 基于深度学习集成模型的癫痫定位与发作预测方法
CN113749657A (zh) * 2021-09-10 2021-12-07 合肥工业大学 一种基于多任务胶囊的脑电情绪识别方法
CN115444431A (zh) * 2022-09-02 2022-12-09 厦门大学 一种基于互信息驱动下的脑电情绪分类模型生成方法
CN115778389A (zh) * 2022-12-02 2023-03-14 复旦大学 基于心电和皮肤电联合分析的分娩恐惧检测方法和系统
CN117312658A (zh) * 2023-09-08 2023-12-29 广州风腾网络科技有限公司 一种基于大数据分析的推广方法及系统
CN118141377A (zh) * 2024-05-10 2024-06-07 吉林大学 患者的负性情绪监测系统及方法
CN118177806A (zh) * 2024-05-17 2024-06-14 中南民族大学 基于图像编码的心电信号精神压力检测方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240077812A (ko) 2022-11-25 2024-06-03 경희대학교 산학협력단 뇌파 기반 감정 상태 예측 장치 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030063640A (ko) * 2002-01-23 2003-07-31 삼성전자주식회사 생리 신호의 단시간 모니터링을 통한 사용자 정서 인식장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030063640A (ko) * 2002-01-23 2003-07-31 삼성전자주식회사 생리 신호의 단시간 모니터링을 통한 사용자 정서 인식장치 및 방법

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110946576A (zh) * 2019-12-31 2020-04-03 西安科技大学 一种基于宽度学习的视觉诱发电位识别情绪方法
KR20210135378A (ko) * 2020-05-04 2021-11-15 한국과학기술원 일상생활에서 발생하는 감정 변화 원인을 파악하는 방법 및 그 시스템
CN112101152A (zh) * 2020-09-01 2020-12-18 西安电子科技大学 一种脑电情感识别方法、系统、计算机设备、可穿戴设备
CN112101152B (zh) * 2020-09-01 2024-02-02 西安电子科技大学 一种脑电情感识别方法、系统、计算机设备、可穿戴设备
CN112597967A (zh) * 2021-01-05 2021-04-02 沈阳工业大学 沉浸式虚拟环境、多模态生理信号的情绪识别方法及装置
CN112836593B (zh) * 2021-01-15 2023-06-20 西北大学 一种融合先验与自动脑电特征的情绪识别方法及系统
CN112836593A (zh) * 2021-01-15 2021-05-25 西北大学 一种融合先验与自动脑电特征的情绪识别方法及系统
CN113128552A (zh) * 2021-03-02 2021-07-16 杭州电子科技大学 一种基于深度可分离因果图卷积网络的脑电情绪识别方法
CN113128552B (zh) * 2021-03-02 2024-02-02 杭州电子科技大学 一种基于深度可分离因果图卷积网络的脑电情绪识别方法
CN113220849A (zh) * 2021-04-06 2021-08-06 青岛日日顺乐信云科技有限公司 一种客服人员情绪疏导方案查找方法、电子设备及存储介质
CN113554110A (zh) * 2021-07-30 2021-10-26 合肥工业大学 一种基于二值胶囊网络的脑电情绪识别方法
CN113554110B (zh) * 2021-07-30 2024-03-01 合肥工业大学 一种基于二值胶囊网络的脑电情绪识别方法
CN113516101A (zh) * 2021-08-02 2021-10-19 合肥工业大学 一种基于网络结构搜索的脑电信号情绪识别方法
CN113516101B (zh) * 2021-08-02 2024-02-20 合肥工业大学 一种基于网络结构搜索的脑电信号情绪识别方法
CN113647962B (zh) * 2021-08-20 2023-09-22 天津大学 基于深度学习集成模型的癫痫定位与发作预测方法
CN113647962A (zh) * 2021-08-20 2021-11-16 天津大学 基于深度学习集成模型的癫痫定位与发作预测方法
CN113749657B (zh) * 2021-09-10 2023-06-30 合肥工业大学 一种基于多任务胶囊的脑电情绪识别方法
CN113749657A (zh) * 2021-09-10 2021-12-07 合肥工业大学 一种基于多任务胶囊的脑电情绪识别方法
CN115444431A (zh) * 2022-09-02 2022-12-09 厦门大学 一种基于互信息驱动下的脑电情绪分类模型生成方法
CN115778389B (zh) * 2022-12-02 2024-05-28 复旦大学 基于心电和皮肤电联合分析的分娩恐惧检测方法和系统
CN115778389A (zh) * 2022-12-02 2023-03-14 复旦大学 基于心电和皮肤电联合分析的分娩恐惧检测方法和系统
CN117312658A (zh) * 2023-09-08 2023-12-29 广州风腾网络科技有限公司 一种基于大数据分析的推广方法及系统
CN117312658B (zh) * 2023-09-08 2024-04-09 广州风腾网络科技有限公司 一种基于大数据分析的推广方法及系统
CN118141377A (zh) * 2024-05-10 2024-06-07 吉林大学 患者的负性情绪监测系统及方法
CN118141377B (zh) * 2024-05-10 2024-07-09 吉林大学 患者的负性情绪监测系统及方法
CN118177806A (zh) * 2024-05-17 2024-06-14 中南民族大学 基于图像编码的心电信号精神压力检测方法及装置

Also Published As

Publication number Publication date
KR102221264B1 (ko) 2021-03-02

Similar Documents

Publication Publication Date Title
KR102221264B1 (ko) 인간 감정 인식을 위한 딥 생리적 정서 네트워크를 이용한 인간 감정 추정 방법 및 그 시스템
US10853632B2 (en) Method for estimating human emotions using deep psychological affect network and system therefor
Kim et al. Deep physiological affect network for the recognition of human emotions
Zhang et al. Emotion recognition using multi-modal data and machine learning techniques: A tutorial and review
Nakisa et al. Long short term memory hyperparameter optimization for a neural network based emotion recognition framework
Jung et al. Utilizing deep learning towards multi-modal bio-sensing and vision-based affective computing
Liu et al. EEG emotion recognition based on the attention mechanism and pre-trained convolution capsule network
Wan et al. EEG fading data classification based on improved manifold learning with adaptive neighborhood selection
Soni et al. Graphical representation learning-based approach for automatic classification of electroencephalogram signals in depression
Quan et al. EEG-based cross-subject emotion recognition using multi-source domain transfer learning
Wang et al. Multiband decomposition and spectral discriminative analysis for motor imagery BCI via deep neural network
Paul et al. Deep learning and its importance for early signature of neuronal disorders
Sartipi et al. A hybrid end-to-end spatio-temporal attention neural network with graph-smooth signals for EEG emotion recognition
Rabbani et al. Deep learning networks based decision fusion model of EEG and fNIRS for classification of cognitive tasks
Jeyarani et al. Eye tracking biomarkers for autism spectrum disorder detection using machine learning and deep learning techniques
Khan et al. Application of artificial intelligence in cognitive load analysis using functional near-infrared spectroscopy: A systematic review
Çelebi et al. An emotion recognition method based on EWT-3D–CNN–BiLSTM-GRU-AT model
KR20220060976A (ko) 효율적인 멀티모달 특징그룹과 모델 선택 기반 감정인식을 위한 딥러닝 방법 및 장치
Xu et al. Unsupervised EEG channel selection based on nonnegative matrix factorization
Rabbani et al. Multimodal decision fusion of eeg and fnirs signals
Wang et al. ARFN: An Attention-Based Recurrent Fuzzy Network for EEG Mental Workload Assessment
Zhu et al. Annotation efficiency in multimodal emotion recognition with deep learning
Rabbani et al. Integration of decision fusion and feature fusion on EEG and fNIRS Signal
Chen et al. A Local-Global Graph Convolutional Network for Depression Recognition using EEG Signals
Khaliq et al. The role of EEG-based brain computer interface using machine learning techniques: a comparative study

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant