WO2023106726A1 - 인간의 복합감정을 예측할 수 있는 efficientnet 아키텍처 기반 모바일 비전 시스템 및 방법 - Google Patents

인간의 복합감정을 예측할 수 있는 efficientnet 아키텍처 기반 모바일 비전 시스템 및 방법 Download PDF

Info

Publication number
WO2023106726A1
WO2023106726A1 PCT/KR2022/019310 KR2022019310W WO2023106726A1 WO 2023106726 A1 WO2023106726 A1 WO 2023106726A1 KR 2022019310 W KR2022019310 W KR 2022019310W WO 2023106726 A1 WO2023106726 A1 WO 2023106726A1
Authority
WO
WIPO (PCT)
Prior art keywords
emotion
efficientnet
predicting
facial expression
bio
Prior art date
Application number
PCT/KR2022/019310
Other languages
English (en)
French (fr)
Inventor
이종하
Original Assignee
계명대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 계명대학교 산학협력단 filed Critical 계명대학교 산학협력단
Publication of WO2023106726A1 publication Critical patent/WO2023106726A1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/02Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
    • A61B5/021Measuring pressure in heart or blood vessels
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/02Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
    • A61B5/021Measuring pressure in heart or blood vessels
    • A61B5/02108Measuring pressure in heart or blood vessels from analysis of pulse wave characteristics
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/02Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
    • A61B5/024Detecting, measuring or recording pulse rate or heart rate
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/02Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
    • A61B5/024Detecting, measuring or recording pulse rate or heart rate
    • A61B5/02405Determining heart rate variability
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/02Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
    • A61B5/024Detecting, measuring or recording pulse rate or heart rate
    • A61B5/0245Detecting, measuring or recording pulse rate or heart rate by using sensing means generating electric signals, i.e. ECG signals
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/02Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
    • A61B5/026Measuring blood flow
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/145Measuring characteristics of blood in vivo, e.g. gas concentration, pH value; Measuring characteristics of body fluids or tissues, e.g. interstitial fluid, cerebral tissue
    • A61B5/1455Measuring characteristics of blood in vivo, e.g. gas concentration, pH value; Measuring characteristics of body fluids or tissues, e.g. interstitial fluid, cerebral tissue using optical sensors, e.g. spectral photometrical oximeters
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/145Measuring characteristics of blood in vivo, e.g. gas concentration, pH value; Measuring characteristics of body fluids or tissues, e.g. interstitial fluid, cerebral tissue
    • A61B5/1455Measuring characteristics of blood in vivo, e.g. gas concentration, pH value; Measuring characteristics of body fluids or tissues, e.g. interstitial fluid, cerebral tissue using optical sensors, e.g. spectral photometrical oximeters
    • A61B5/14551Measuring characteristics of blood in vivo, e.g. gas concentration, pH value; Measuring characteristics of body fluids or tissues, e.g. interstitial fluid, cerebral tissue using optical sensors, e.g. spectral photometrical oximeters for measuring blood gases
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/318Heart-related electrical modalities, e.g. electrocardiography [ECG]
    • A61B5/346Analysis of electrocardiograms
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Definitions

  • the present invention relates to a mobile vision system and method, and more particularly, to a mobile vision system and method based on the EfficientNet architecture capable of predicting complex human emotions.
  • Emotion refers to the mind or feeling that arises about a certain phenomenon or event. These emotions can be expressed through words, gestures, facial expressions, and other nonverbal cues, and many physiological signals can also convey information about the emotional state.
  • the most widely used indicator for emotion recognition is facial expression. However, since facial expressions can be controlled and manipulated, it is difficult to identify emotions that are truly felt through facial expressions alone.
  • the present invention has been proposed to solve the above problems of the previously proposed methods, and includes a bio-signal measurer for measuring a subject's bio-signal for predicting an emotional state, and a subject's facial expression image for predicting an emotional state.
  • the image measurer for measuring the analyzes the biosignal measured from the biosignal measurer, and the facial expression image measured from the image measurer to classify each emotion, and analyzes the emotion of the classified biosignal and the facial expression image.
  • an emotion prediction unit that predicts the final emotion by combining emotions, it has higher accuracy by predicting the emotional state by combining the bio signal than predicting the emotion only with the subject's facial expression image, and has a high level of optimal parameters. Its purpose is to provide a mobile vision system and method based on the EfficientNet architecture capable of predicting complex emotions of humans, which can maintain recognition performance.
  • the present invention designs a super-dimension-based deep neural network and analyzes a bio signal and a facial expression template together to construct an algorithm that can accurately predict the emotional state of a subject, thereby obtaining the emotional state and bio Emotions that can be known through signals are simultaneously analyzed to increase the accuracy of emotion prediction, and by using the EfficientNet-B0 architecture based on convolutional neural networks, it is possible to realize maximum performance with minimum parameters, and it can be combined with artificial intelligence in the future.
  • Another purpose is to provide a mobile vision system and method based on the EfficientNet architecture that can predict human complex emotions, which can maintain high performance even in the future extended data dimension as a capable emotional intelligence.
  • the EfficientNet architecture-based mobile vision system capable of predicting complex human emotions according to the characteristics of the present invention
  • a bio-signal measurer for measuring a subject's bio-signal for predicting an emotional state
  • an image measurement unit for measuring an image of a subject's facial expression to predict an emotional state
  • Each emotion is classified by analyzing the biosignal measured from the biosignal measurer and the facial expression image measured from the image measurer, and the final emotion is obtained by combining the emotion of the classified biosignal and the emotion of the facial expression image. It is characterized in that it includes an emotion prediction unit that predicts.
  • the bio-signal measurement unit Preferably, the bio-signal measurement unit,
  • an electrocardiogram meaning a subject's heartbeat variability can be measured in a non-contact manner.
  • bio-signal measuring unit More preferably, the bio-signal measuring unit
  • oxygen saturation, blood flow per second, and blood pressure may be further measured in addition to the electrocardiogram in a non-contact manner.
  • the emotion prediction unit Preferably, the emotion prediction unit, the emotion prediction unit, and
  • a convolution neural network (CNN)-based EfficientNet-B0 model can be used as a deep learning algorithm for analyzing bio signals and facial expression images.
  • the emotion prediction unit More preferably, the emotion prediction unit,
  • CNN convolutional neural network
  • the emotion prediction unit More preferably, the emotion prediction unit,
  • It may include a database (DB) for storing facial expression images for predicting emotional states and bio-signal data extracted according to emotional classes.
  • DB database
  • the emotion prediction unit Even more preferably, the emotion prediction unit,
  • Facial expression images for predicting emotional states and bio-signal data extracted according to emotion classes are learned and stored in a database (DB).
  • Emotion classes stored and managed in the database are happiness, neutral, sadness, anger, surprise, disgust and fear. can include
  • the emotion prediction unit Even more preferably, the emotion prediction unit,
  • the emotion of the biosignal and the emotion of the facial expression image are combined. High-accuracy final emotion prediction can be made possible.
  • the EfficientNet architecture-based mobile vision method capable of predicting complex human emotions according to the characteristics of the present invention
  • the emotion prediction unit analyzes the bio signal measured by the bio signal measurement unit and the facial expression image measured by the image measurement unit, classifies each emotion, and classifies the emotion of the bio signal and the emotion of the facial expression image. It is characterized in that it includes the step of predicting the final emotion by combining the.
  • the bio-signal measurement unit Preferably, the bio-signal measurement unit,
  • an electrocardiogram meaning a subject's heartbeat variability can be measured in a non-contact manner.
  • bio-signal measuring unit More preferably, the bio-signal measuring unit
  • oxygen saturation, blood flow per second, and blood pressure may be further measured in addition to the electrocardiogram in a non-contact manner.
  • the emotion prediction unit Preferably, the emotion prediction unit, the emotion prediction unit, and
  • a convolution neural network (CNN)-based EfficientNet-B0 model can be used as a deep learning algorithm for analyzing bio signals and facial expression images.
  • the emotion prediction unit More preferably, the emotion prediction unit,
  • CNN convolutional neural network
  • the emotion prediction unit More preferably, the emotion prediction unit,
  • It may include a database (DB) for storing facial expression images for predicting emotional states and bio-signal data extracted according to emotional classes.
  • DB database
  • the emotion prediction unit Even more preferably, the emotion prediction unit,
  • Facial expression images for predicting emotional states and bio-signal data extracted according to emotion classes are learned and stored in a database (DB).
  • Emotion classes stored and managed in the database are happiness, neutral, sadness, anger, surprise, disgust and fear. can include
  • the emotion prediction unit Even more preferably, the emotion prediction unit,
  • the emotion of the biosignal and the emotion of the facial expression image are combined. High-accuracy final emotion prediction can be made possible.
  • a bio-signal measuring unit for measuring a subject's bio-signal for predicting an emotional state, and a subject for predicting an emotional state Analyzing the image measurer for measuring the facial expression image, the biosignal measured from the biosignal measurer, and the facial expression image measured from the image measurer, classifying each emotion, and classifying the emotion of the classified biosignal
  • an emotion prediction unit that predicts the final emotion by combining the emotion of the facial expression image, it has higher accuracy by predicting the emotional state by combining the bio signal than predicting the emotion only with the subject's facial expression image, and has a higher accuracy. It is possible to maintain high recognition performance with the parameter of .
  • a super-dimension-based deep neural network is designed to analyze biosignals and facial expression templates together to accurately predict the subject's emotional state.
  • FIG. 1 is a diagram showing the configuration of a mobile vision system based on the EfficientNet architecture capable of predicting complex human emotions according to an embodiment of the present invention in functional blocks.
  • FIG. 2 is a diagram showing the configuration of an example of a facial expression template and a biosignal applied to a mobile vision system based on the EfficientNet architecture capable of predicting complex human emotions according to an embodiment of the present invention.
  • FIG. 3 is a diagram showing the configuration of an image emotion class applied to a mobile vision system based on the EfficientNet architecture capable of predicting complex emotions of a human according to an embodiment of the present invention as an example.
  • FIG. 4 is a diagram showing, as an example, the configuration of bio-signal data applied to a mobile vision system based on the EfficientNet architecture capable of predicting complex human emotions according to an embodiment of the present invention.
  • FIG. 5 is a diagram showing, as an example, data configurations of images and bio signals applied to a mobile vision system based on the EfficientNet architecture capable of predicting complex human emotions according to an embodiment of the present invention.
  • FIG. 6 is a diagram showing a comparison configuration of an emotion analysis model applied to a mobile vision system based on the EfficientNet architecture capable of predicting complex emotions of a human according to an embodiment of the present invention.
  • FIG. 7 is a diagram showing a configuration using only image data of Experiment 1 applied to a mobile vision system based on the EfficientNet architecture capable of predicting complex human emotions according to an embodiment of the present invention.
  • FIG. 8 is a diagram showing a structure using both bio signals and image data of Experiment 2 applied to a mobile vision system based on the EfficientNet architecture capable of predicting complex human emotions according to an embodiment of the present invention.
  • FIG. 9 is a diagram showing a learning and verification graph of Experiment 1 applied to a mobile vision system based on the EfficientNet architecture capable of predicting human complex emotions according to an embodiment of the present invention.
  • FIG. 10 is a diagram showing the configuration of a learning and verification graph of Experiment 2 applied to a mobile vision system based on the EfficientNet architecture capable of predicting human complex emotions according to an embodiment of the present invention.
  • FIG. 11 is a diagram showing the results of an experiment applied to a mobile vision system based on the EfficientNet architecture capable of predicting complex human emotions according to an embodiment of the present invention.
  • FIG. 12 is a diagram showing the results of a test data set of an experiment applied to a mobile vision system based on the EfficientNet architecture capable of predicting complex human emotions according to an embodiment of the present invention.
  • FIG. 13 is a graph showing experimental results applied to a mobile vision system based on the EfficientNet architecture capable of predicting complex human emotions according to an embodiment of the present invention.
  • FIG. 14 is a diagram illustrating a flow of a mobile vision method based on the EfficientNet architecture capable of predicting complex human emotions according to an embodiment of the present invention.
  • the emotion prediction unit analyzes the bio signal measured by the bio signal measurement unit and the facial expression image measured by the image measurement unit, classifies each emotion, and combines the emotion of the classified bio signal with the emotion of the facial expression image. Steps to Predict Final Sentiment
  • the EfficientNet architecture-based mobile vision system 100 capable of predicting complex human emotions according to an embodiment of the present invention is a biosignal for measuring a subject's biosignal for predicting an emotional state.
  • the measurement unit 110, the image measurement unit 120 for measuring the subject's facial expression image for predicting the emotional state, the bio signal measured by the bio signal measurement unit 110, and the image measurement unit 120 It may include an emotion prediction unit 130 that analyzes the measured facial expression image, classifies each emotion, and predicts a final emotion by combining the emotion of the classified bio-signal and the emotion of the facial expression image.
  • an emotion prediction unit 130 that analyzes the measured facial expression image, classifies each emotion, and predicts a final emotion by combining the emotion of the classified bio-signal and the emotion of the facial expression image.
  • the bio-signal measurer 110 is a component for measuring a subject's bio-signal for predicting an emotional state.
  • the bio-signal measurer 110 is a bio-signal for predicting an emotional state and can measure an electrocardiogram, which means heart rate variability of a subject, in a non-contact manner.
  • the electrocardiogram is a voltage signal generated by heart activity. If the waveform of the ECG signal is analyzed, the presence or absence of abnormalities in the heart can be determined, and the human heartbeat can be calculated through the R wave interval of the electrocardiogram signal.
  • the heartbeat is controlled by the autonomic nervous system, it is possible to diagnose various states such as emotion or excitement.
  • the biosignal measurer 110 is a biosignal for predicting an emotional state, and may further measure oxygen saturation, blood flow per second, and blood pressure in a non-contact manner in addition to the electrocardiogram.
  • the image measuring unit 120 is a component for measuring a subject's facial expression image for predicting an emotional state.
  • the image measurement unit 120 may be configured with a camera that captures the subject's face to predict the emotional state.
  • the camera may be variously implemented such as a CCTV camera, a webcam, a mobile phone camera, and the like, and since it is photographed in a non-contact manner, the facial expression image corresponds to non-contact measurement data.
  • the emotion prediction unit 130 analyzes the biosignal measured by the biosignal measurement unit 110 and the facial expression image measured by the image measurement unit 120, classifies each emotion, and classifies the emotion of the classified biosignal. It is a configuration that predicts the final emotion by combining the emotion of the facial expression image and the emotion of the facial expression image.
  • the emotion prediction unit 130 may use a convolution neural network (CNN)-based EfficientNet-B0 model as a deep learning algorithm for analyzing bio signals and facial expression images.
  • CNN convolution neural network
  • the emotion predictor 130 uses a convolution neural network (CNN)-based EfficientNet-B0 model, but a compound that adjusts depth, width, and image resolution together.
  • CNN convolution neural network
  • a compound scaling method may be used.
  • the emotion predictor 130 may include a database (DB) for storing facial expression images for predicting emotional states and bio signal data extracted according to emotion classes.
  • DB database
  • the emotion prediction unit 130 learns facial expression images for predicting emotional states and biosignal data extracted according to emotion classes and stores them in a database (DB), but the emotion classes stored and managed in the database are happy, neutral, It can include sadness, anger, surprise, disgust and fear.
  • DB database
  • the emotion predictor 130 compares and searches the bio signal measured by the bio signal measurement unit 110 and the facial expression image measured by the image measurement unit 120 with learning data stored in the database, and then searches the bio signal. It is possible to predict the final emotion with high accuracy by combining the emotion and the emotion of the facial expression image.
  • the mobile vision system 100 including the bio signal measurer 110, the image measurer 120, and the emotion predictor 130 may be implemented as an electronic device such as a computer. More specifically, electronic devices include smart phones, tablet PCs (personal computers), mobile phones, video phones, e-book readers, desktop PCs, laptop PCs, netbook computers, workstations ( workstation), a server, a personal digital assistant (PDA), a media box, a game console, an electronic dictionary, or a wearable device. In various embodiments, the electronic device is not limited to the devices described above, and may be a combination of two or more of the various devices described above.
  • FIG. 2 is a diagram showing the configuration of an example of a facial expression template and a biosignal applied to a mobile vision system based on the EfficientNet architecture capable of predicting complex human emotions according to an embodiment of the present invention. As shown in FIG. 2 , it is possible to increase the accuracy of emotion prediction by simultaneously analyzing an emotional state obtained from a person's expression and an emotion obtained through a bio signal by combining a facial expression image template and a bio signal.
  • FIG. 3 is a diagram showing the configuration of image emotion classes applied to a mobile vision system based on the EfficientNet architecture capable of predicting human complex emotions according to an embodiment of the present invention as an example.
  • 3 shows that FER2013 data with 48 ⁇ 48 gray scale resolution is used as the facial expression image data used in Experiment 1, and 15,000 of the total 20,000 expression images are used as training data, 5,000 as verification data, and 5,000 as test data. Chapter was used, and the labels were changed using four classes out of a total of seven classes: angry, happy, neutral, and sad.
  • FIG. 4 is a diagram showing, as an example, the configuration of bio-signal data applied to a mobile vision system based on the EfficientNet architecture capable of predicting complex emotions of a human according to an embodiment of the present invention.
  • 4 shows biosignal data used in Experiment 2, generating data suitable for each class. It is assumed that the previously extracted data according to the emotion class is secured and used, and that the FER2013 image data includes the facial expression image within the data range of the emotion class.
  • FIG. 5 is a diagram showing, as an example, data configurations of images and bio signals applied to a mobile vision system based on the EfficientNet architecture capable of predicting complex human emotions according to an embodiment of the present invention
  • FIG. 6 is one example of the present invention.
  • FIG. FIG. 8 is a diagram showing a configuration using only image data of Experiment 1 applied to a mobile vision system based on EfficientNet architecture capable of predicting complex emotions of a human according to an embodiment of the present invention. It is a diagram showing the structure using the bio signal and image data of Experiment 2 applied to .
  • FIG. 5 shows data used in the experiment
  • Figure 6 shows model comparison for emotion analysis using bio signals and facial expression images
  • Figure 7 learns the EfficientNet-B0 model using only FER 2013 image data. and run the test. Since EfficientNet-B0 outputs 12800 ⁇ 7 ⁇ 7 features, it is encoded into 256 features using a dense layer and finally outputs one predicted value.
  • EfficientNet-B0 outputs 12800 ⁇ 7 ⁇ 7 features, it is encoded into 256 features using a dense layer and finally outputs one predicted value.
  • normal distribution sampling is performed within a range corresponding to each emotion class, 1000 samples are performed for every 6 HRV indices in one facial expression image, and values are randomly extracted one by one. In this way, six HRV indices are extracted for each image, encoded into 64 features through individual dense layers, and finally concated with 256 features of FER2013 image data to be used for emotion prediction.
  • FIG. 9 is a diagram showing a learning and verification graph of Experiment 1 applied to a mobile vision system based on the EfficientNet architecture capable of predicting complex human emotions according to an embodiment of the present invention
  • FIG. 10 is an embodiment of the present invention.
  • 11 is a diagram showing the configuration of the learning and verification graph of Experiment 2 applied to the EfficientNet architecture-based mobile vision system capable of predicting human complex emotions according to an embodiment of the present invention.
  • 12 is an experiment applied to a mobile vision system based on the EfficientNet architecture capable of predicting human complex emotions according to an embodiment of the present invention.
  • 13 is a diagram showing the results of a test data set of , and FIG.
  • FIGS. 9 to 13 is a graph showing experimental results applied to a mobile vision system based on the EfficientNet architecture capable of predicting complex human emotions according to an embodiment of the present invention.
  • the cross entropy loss and accuracy according to the experimental results of the EfficientNet architecture-based mobile vision system capable of predicting human complex emotions according to an embodiment of the present invention are calculated by [mathematics below]. Equation 1] and [Equation 2].
  • the cross-entropy loss (Cross-Entropy Loss) of Equation 1 is an index for determining weight parameters, and aims to find weights that minimize this loss function when training a model.
  • the difference between the probability distribution of actual data and the probability distribution calculated by the learned model is obtained, and the lower the number, the better the model can be recognized.
  • Equation 2 is an evaluation index used to evaluate the performance of a trained model. It is a ratio of the number of correctly predicted samples out of all samples. The higher the number, the better the model can be recognized.
  • Figure 9 shows the learning and verification graph of Experiment 1 using only images
  • Figure 10 shows the learning and verification graph of Experiment 2 using images and biosignals in combination
  • Figure 11 shows the learning and verification in Experiment 2 It can be seen that it shows better results than Experiment 1.
  • 12 shows better results than those of Experiment 1 even in the test data set of Experiment 2
  • FIG. 13 shows that the smaller the CE Loss value is, the better the model is, and the higher the Accuracy value is, the better the model is.
  • the bio-signal measuring unit measures the subject's bio-signal for predicting the emotional state ( S110), measuring the subject's facial expression image by the image measurement unit to predict the emotional state (S120), and analyzing the bio signal measured by the bio signal measurement unit and the facial expression image measured by the image measurement unit by the emotion prediction unit. and classifying each emotion, and predicting a final emotion by combining the emotion of the classified bio-signal and the emotion of the facial expression image (S130).
  • the bio-signal measurer 110 measures the subject's bio-signal for predicting the emotional state.
  • the bio-signal measurer 110 in step S110 can measure the electrocardiogram, which means the subject's heart rate variability, in a non-contact manner as a bio-signal for predicting the emotional state.
  • the electrocardiogram is a voltage signal generated by heart activity. If the waveform of the ECG signal is analyzed, the presence or absence of abnormalities in the heart can be determined, and the human heartbeat can be calculated through the R wave interval of the electrocardiogram signal. In addition, since the heartbeat is controlled by the autonomic nervous system, it is possible to diagnose various states such as emotion or excitement.
  • the biosignal measurer 110 is a biosignal for predicting an emotional state, and may further measure oxygen saturation, blood flow per second, and blood pressure in a non-contact manner in addition to the electrocardiogram.
  • the image measurement unit 120 measures the subject's facial expression image for predicting the emotional state.
  • the image measurement unit 120 in step S120 may be composed of a camera that photographs the subject's face for predicting the emotional state.
  • the camera may be variously implemented such as a CCTV camera, a webcam, a mobile phone camera, and the like, and since it is photographed in a non-contact manner, the facial expression image corresponds to non-contact measurement data.
  • the emotion prediction unit 130 analyzes the bio signal measured by the bio signal measuring unit 110 and the facial expression image measured by the image measuring unit 120, classifies each emotion, and classifies the classified bio signal.
  • the emotion of the signal and the emotion of the facial expression image are combined to predict the final emotion.
  • the emotion prediction unit 130 in step S130 may use a convolution neural network (CNN)-based EfficientNet-B0 model as a deep learning algorithm for analyzing the bio signal and the facial expression image.
  • the emotion predictor 130 uses a convolution neural network (CNN)-based EfficientNet-B0 model, but uses a compound that controls depth, width, and image resolution together. A compound scaling method may be used.
  • the emotion predictor 130 may include a database (DB) for storing facial expression images for predicting emotional states and bio signal data extracted according to emotion classes.
  • DB database
  • the emotion prediction unit 130 learns facial expression images for predicting emotional states and biosignal data extracted according to emotion classes and stores them in a database (DB), but the emotion classes stored and managed in the database are happy, neutral, It can include sadness, anger, surprise, disgust and fear.
  • DB database
  • the emotion predictor 130 compares and searches the bio signal measured by the bio signal measurement unit 110 and the facial expression image measured by the image measurement unit 120 with learning data stored in the database, and then searches the bio signal. It is possible to predict the final emotion with high accuracy by combining the emotion and the emotion of the facial expression image.
  • the EfficientNet architecture-based mobile vision system and method capable of predicting complex human emotions include a bio-signal measuring unit for measuring a subject's bio-signal for predicting an emotional state, and An image measurer for measuring the subject's facial expression image for state prediction, a biosignal measured from the biosignal measurer, and a facial expression image measured from the image measurer are analyzed to classify each emotion, and By including the emotion prediction unit that predicts the final emotion by combining the emotion of the bio signal and the emotion of the facial expression image, it predicts the emotional state by combining the bio signal rather than predicting the emotion only with the subject's facial expression image. It has accuracy and can maintain high recognition performance with optimal parameters.
  • an algorithm that can accurately predict the subject's emotional state by designing a super-dimension-based deep neural network and analyzing biosignals and facial expression templates together
  • the EfficientNet-B0 architecture based on the convolutional neural network, it is possible to simultaneously analyze the emotional state obtained from a person's expression and the emotion known through the biosignal to increase the accuracy of emotion prediction, and to minimize parameters by using the EfficientNet-B0 architecture It is possible to realize maximum performance, and as emotional intelligence that can be combined with artificial intelligence in the future, it will be possible to maintain high performance even in the dimension of expanded data in the future.

Abstract

본 발명에서 제안하고 있는 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템 및 방법에 따르면, 감정상태 예측을 위한 대상자의 바이오 신호를 측정하기 위한 바이오 신호 측정부와, 감정상태 예측을 위한 대상자의 얼굴표정 이미지를 측정하기 위한 이미지 측정부와, 바이오 신호 측정부로부터 측정된 바이오 신호와, 이미지 측정부로부터 측정된 얼굴표정 이미지를 분석하여 각각의 감정을 분류하고, 분류된 바이오 신호의 감정과 얼굴표정 이미지의 감정을 결합하여 최종 감정을 예측하는 감정 예측부를 포함하여 구성함으로써, 대상자의 얼굴표정 이미지만으로 감정을 예측하는 것보다 바이오 신호를 결합하여 감정 상태를 예측하여 보다 높은 정확도를 가지며, 최적의 파라미터로 높은 인식 성능을 유지할 수 있도록 할 수 있다.

Description

인간의 복합감정을 예측할 수 있는 EFFICIENTNET 아키텍처 기반 모바일 비전 시스템 및 방법
본 발명은 모바일 비전 시스템 및 방법에 관한 것으로서, 보다 구체적으로는 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템 및 방법에 관한 것이다.
최근 인공지능의 기술 발달과 함께 감정 인식 분야가 중요한 연구 분야로 대두되고 있다. 감정이란 어떤 현상이나 일에 대하여 일어나는 마음이나 느끼는 기분을 뜻한다. 이러한 감정는 말이나 몸짓, 표정 그리고 다른 비언적 단서를 통해 표현될 수 있고, 많은 생리학적 신호들 또한 감정 상태에 대한 정보를 전달할 수 있다. 감정 인식을 위해 가장 널리 사용되는 지표는 얼굴 표정이다. 하지만 표정은 통제할 수 있으며, 조작이 가능하므로 진정으로 느껴지는 정서를 표정만으로 파악하기는 어렵다.
이러한 문제점을 해결하기 위해 최근 들어 지속적인 측정이 가능하고 개인의 통제를 벗어난 독립적인 바이오신호를 이용한 감정 인식 연구가 활발히 진행 중이다. 사람의 감정과 바이오신호는 강한 상관관계가 있다는 많은 선행연구가 존재하며, 바이오신호를 통한 감정 인식은 자율신경계에 의해 통제되므로 거짓 없이 얻을 수 있다. 하지만 현재까지 바이오신호와 얼굴 표정 템플렛을 다차원 분석하여 대상자의 감정 인식에 사용한 발명은 거의 없었다.
또한, 종래의 감정인식 기술은 대부분이 표정 이미지 데이터에 기반한 특징 추출 과정을 통해 인식하는 방식으로 분석과정이 복잡하고, 표정 인식의 신뢰성이 떨어지는 한계가 따르는 문제가 있었다. 대한민국 등록특허공보 제10-2147052호, 공개특허공보 제10-2018-0125756호가 선행기술 문헌으로 개시되고 있다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 감정상태 예측을 위한 대상자의 바이오 신호를 측정하기 위한 바이오 신호 측정부와, 감정상태 예측을 위한 대상자의 얼굴표정 이미지를 측정하기 위한 이미지 측정부와, 바이오 신호 측정부로부터 측정된 바이오 신호와, 이미지 측정부로부터 측정된 얼굴표정 이미지를 분석하여 각각의 감정을 분류하고, 분류된 바이오 신호의 감정과 얼굴표정 이미지의 감정을 결합하여 최종 감정을 예측하는 감정 예측부를 포함하여 구성함으로써, 대상자의 얼굴표정 이미지만으로 감정을 예측하는 것보다 바이오 신호를 결합하여 감정 상태를 예측하여 보다 높은 정확도를 가지며, 최적의 파라미터로 높은 인식 성능을 유지할 수 있도록 하는, 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템 및 방법을 제공하는 것을 그 목적으로 한다.
또한, 본 발명은, 슈퍼디멘션 기반 딥 뉴럴 네트워크를 설계하여 바이오신호와 얼굴 표정 템플렛을 함께 분석하여 대상자의 감정 상태를 정확도 예측할 수 있는 알고리즘을 구성함으로써, 사람의 표정으로부터 얻을 수 있는 감정 상태와 바이오 신호를 통해 알 수 있는 감정을 동시에 분석하여 감정 예측의 정확성을 높이고, 콘불루션 뉴럴 네트워크 기반의 EfficientNet-B0 아키텍쳐를 사용하여 최소한의 파라미터로 최대한의 성능 구현이 가능하며, 향후 인공지능과 결합될 수 있는 감정지능으로서 향후 확장된 데이터 차원에서도 높은 성능을 유지할 수 있도록 하는, 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템 및 방법을 제공하는 것을 또 다른 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템은,
인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템으로서,
감정상태 예측을 위한 대상자의 바이오 신호를 측정하기 위한 바이오 신호 측정부;
감정상태 예측을 위한 대상자의 얼굴표정 이미지를 측정하기 위한 이미지 측정부; 및
상기 바이오 신호 측정부로부터 측정된 바이오 신호와, 상기 이미지 측정부로부터 측정된 얼굴표정 이미지를 분석하여 각각의 감정을 분류하고, 분류된 바이오 신호의 감정과 얼굴표정 이미지의 감정을 결합하여 최종 감정을 예측하는 감정 예측부를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 바이오 신호 측정부는,
감정상태 예측을 위한 바이오 신호로서, 대상자의 심장 박동 변이도를 의미하는 심전도를 비접촉 방식으로 측정할 수 있다.
더욱 바람직하게는, 상기 바이오 신호 측정부는,
감정상태 예측을 위한 바이오 신호로서, 심전도 이외에도 산소포화도, 초당 혈류량, 및 혈압을 비접촉 방식으로 더 측정할 수 있다.
바람직하게는, 상기 감정 예측부는,
바이오 신호와 얼굴표정 이미지의 분석을 위한 딥러닝 알고리즘으로 콘볼루션 뉴럴 네트워크(convolution Neural Network, CNN) 기반의 EfficientNet-B0 모델을 사용할 수 있다.
더욱 바람직하게는, 상기 감정 예측부는,
콘볼루션 뉴럴 네트워크(convolution Neural Network, CNN) 기반의 EfficientNet-B0 모델을 사용하되, 깊이(depth)와 너비(width)와 해상도(image resolution)를 함께 조절하는 컴파운드 스케일링 방식(compound scaling method)이 사용될 수 있다.
더욱 바람직하게는, 상기 감정 예측부는,
감정상태 예측을 위한 얼굴표정 이미지, 감정 클래스에 따라 추출된 바이오 신호 데이터를 저장하는 데이터베이스(DB)를 포함하여 구성할 수 있다.
더욱 더 바람직하게는, 상기 감정 예측부는,
감정상태 예측을 위한 얼굴표정 이미지와 감정 클래스에 따라 추출된 바이오 신호 데이터를 학습하여 데이터베이스(DB)에 저장하되, 데이터베이스에 저장 관리되는 감정 클래스는 행복, 중립, 슬픔, 분노, 놀라움, 혐오 및 공포를 포함할 수 있다.
더더욱 바람직하게는, 상기 감정 예측부는,
상기 바이오 신호 측정부로부터 측정된 바이오 신호와, 상기 이미지 측정부(120)로부터 측정된 얼굴표정 이미지를 데이터베이스에 저장된 학습 데이터와 비교 검색한 후, 바이오 신호의 감정과 얼굴표정 이미지의 감정을 결합하여 높은 정확도의 최종 감정 예측이 가능하도록 할 수 있다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 방법은,
인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 방법으로서,
(1) 바이오 신호 측정부가 감정상태 예측을 위한 대상자의 바이오 신호를 측정하는 단계;
(2) 이미지 측정부가 감정상태 예측을 위한 대상자의 얼굴표정 이미지를 측정하는 단계; 및
(3) 감정 예측부가 상기 바이오 신호 측정부로부터 측정된 바이오 신호와, 상기 이미지 측정부로부터 측정된 얼굴표정 이미지를 분석하여 각각의 감정을 분류하고, 분류된 바이오 신호의 감정과 얼굴표정 이미지의 감정을 결합하여 최종 감정을 예측하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 바이오 신호 측정부는,
감정상태 예측을 위한 바이오 신호로서, 대상자의 심장 박동 변이도를 의미하는 심전도를 비접촉 방식으로 측정할 수 있다.
더욱 바람직하게는, 상기 바이오 신호 측정부는,
감정상태 예측을 위한 바이오 신호로서, 심전도 이외에도 산소포화도, 초당 혈류량, 및 혈압을 비접촉 방식으로 더 측정할 수 있다.
바람직하게는, 상기 감정 예측부는,
바이오 신호와 얼굴표정 이미지의 분석을 위한 딥러닝 알고리즘으로 콘볼루션 뉴럴 네트워크(convolution Neural Network, CNN) 기반의 EfficientNet-B0 모델을 사용할 수 있다.
더욱 바람직하게는, 상기 감정 예측부는,
콘볼루션 뉴럴 네트워크(convolution Neural Network, CNN) 기반의 EfficientNet-B0 모델을 사용하되, 깊이(depth)와 너비(width)와 해상도(image resolution)를 함께 조절하는 컴파운드 스케일링 방식(compound scaling method)이 사용될 수 있다.
더욱 바람직하게는, 상기 감정 예측부는,
감정상태 예측을 위한 얼굴표정 이미지, 감정 클래스에 따라 추출된 바이오 신호 데이터를 저장하는 데이터베이스(DB)를 포함하여 구성할 수 있다.
더욱 더 바람직하게는, 상기 감정 예측부는,
감정상태 예측을 위한 얼굴표정 이미지와 감정 클래스에 따라 추출된 바이오 신호 데이터를 학습하여 데이터베이스(DB)에 저장하되, 데이터베이스에 저장 관리되는 감정 클래스는 행복, 중립, 슬픔, 분노, 놀라움, 혐오 및 공포를 포함할 수 있다.
더더욱 바람직하게는, 상기 감정 예측부는,
상기 바이오 신호 측정부로부터 측정된 바이오 신호와, 상기 이미지 측정부(120)로부터 측정된 얼굴표정 이미지를 데이터베이스에 저장된 학습 데이터와 비교 검색한 후, 바이오 신호의 감정과 얼굴표정 이미지의 감정을 결합하여 높은 정확도의 최종 감정 예측이 가능하도록 할 수 있다.
본 발명에서 제안하고 있는 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템 및 방법에 따르면, 감정상태 예측을 위한 대상자의 바이오 신호를 측정하기 위한 바이오 신호 측정부와, 감정상태 예측을 위한 대상자의 얼굴표정 이미지를 측정하기 위한 이미지 측정부와, 바이오 신호 측정부로부터 측정된 바이오 신호와, 이미지 측정부로부터 측정된 얼굴표정 이미지를 분석하여 각각의 감정을 분류하고, 분류된 바이오 신호의 감정과 얼굴표정 이미지의 감정을 결합하여 최종 감정을 예측하는 감정 예측부를 포함하여 구성함으로써, 대상자의 얼굴표정 이미지만으로 감정을 예측하는 것보다 바이오 신호를 결합하여 감정 상태를 예측하여 보다 높은 정확도를 가지며, 최적의 파라미터로 높은 인식 성능을 유지할 수 있도록 할 수 있다.
또한, 본 발명의 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템 및 방법에 따르면, 슈퍼디멘션 기반 딥 뉴럴 네트워크를 설계하여 바이오신호와 얼굴 표정 템플렛을 함께 분석하여 대상자의 감정 상태를 정확도 예측할 수 있는 알고리즘을 구성함으로써, 사람의 표정으로부터 얻을 수 있는 감정 상태와 바이오 신호를 통해 알 수 있는 감정을 동시에 분석하여 감정 예측의 정확성을 높이고, 콘불루션 뉴럴 네트워크 기반의 EfficientNet-B0 아키텍쳐를 사용하여 최소한의 파라미터로 최대한의 성능 구현이 가능하며, 향후 인공지능과 결합될 수 있는 감정지능으로서 향후 확장된 데이터 차원에서도 높은 성능을 유지할 수 있도록 할 수 있다.
도 1은 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템의 구성을 기능블록으로 도시한 도면.
도 2는 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템에 적용되는 얼굴표정 템플릿과 바이오 신호의 일례의 구성을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템에 적용되는 이미지 감정 클래스의 구성을 일례로 도시한 도면.
도 4는 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템에 적용되는 바이오 신호의 데이터의 구성을 일례로 도시한 도면.
도 5는 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템에 적용되는 이미지와 바이오 신호의 데이터 구성을 일례로 도시한 도면.
도 6은 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템에 적용되는 감정 분석 모델의 비교 구성을 도시한 도면.
도 7은 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템에 적용되는 실험 1의 이미지 데이터만을 이용하는 구성을 도시한 도면.
도 8은 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템에 적용되는 실험 2의 바이오 신호와 이미지 데이터를 함께 이용하는 구서을 도시한 도면.
도 9는 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템에 적용되는 실험 1의 학습 및 검증 그래프를 도시한 도면.
도 10은 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템에 적용되는 실험 2의 학습 및 검증 그래프의 구성을 도시한 도면.
도 11은 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템에 적용되는 실험의 결과를 도시한 도면.
도 12는 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템에 적용되는 실험의 테스트데이터 셋의 결과를 도시한 도면.
도 13은 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템에 적용되는 실험 결과를 그래프로 도시한 도면.
도 14는 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 방법의 흐름을 도시한 도면.
<부호의 설명>
100: 본 발명의 일실시예에 따른 모바일 비전 시스템
110: 바이오 신호 측정부
120: 이미지 측정부
130: 감정 예측부
S110: 바이오 신호 측정부가 감정상태 예측을 위한 대상자의 바이오 신호를 측정하는 단계
S120: 이미지 측정부가 감정상태 예측을 위한 대상자의 얼굴표정 이미지를 측정하는 단계
S130: 감정 예측부가 바이오 신호 측정부로부터 측정된 바이오 신호와, 이미지 측정부로부터 측정된 얼굴표정 이미지를 분석하여 각각의 감정을 분류하고, 분류된 바이오 신호의 감정과 얼굴표정 이미지의 감정을 결합하여 최종 감정을 예측하는 단계
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
도 1은 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템의 구성을 기능블록으로 도시한 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템(100)은, 감정상태 예측을 위한 대상자의 바이오 신호를 측정하기 위한 바이오 신호 측정부(110)와, 감정상태 예측을 위한 대상자의 얼굴표정 이미지를 측정하기 위한 이미지 측정부(120)와, 바이오 신호 측정부(110)로부터 측정된 바이오 신호와, 이미지 측정부(120)로부터 측정된 얼굴표정 이미지를 분석하여 각각의 감정을 분류하고, 분류된 바이오 신호의 감정과 얼굴표정 이미지의 감정을 결합하여 최종 감정을 예측하는 감정 예측부(130)를 포함하여 구성될 수 있다. 이하에서는 첨부된 도면을 참조하여 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템의 구체적인 구성에 대해 상세히 설명하기로 한다.
바이오 신호 측정부(110)는, 감정상태 예측을 위한 대상자의 바이오 신호를 측정하기 위한 구성이다. 이러한 바이오 신호 측정부(110)는 감정상태 예측을 위한 바이오 신호로서, 대상자의 심장 박동 변이도를 의미하는 심전도를 비접촉 방식으로 측정할 수 있다. 여기서, 심전도는 심장 활동에 의해 발생하는 전압 신호로서, ECG 신호의 파형을 분석하면 심장의 이상 유무를 알 수 있으며, 심전도 신호의 R파 간격을 통하여 사람의 심박동을 계산할 수 있다. 또한, 심박동은 자율 신경계에 의해 조절되는 것이라 감정이나 흥분 등의 다양한 상태를 진단하는 것이 가능하다.
또한, 바이오 신호 측정부(110)는 감정상태 예측을 위한 바이오 신호로서, 심전도 이외에도 산소포화도, 초당 혈류량, 및 혈압을 비접촉 방식으로 더 측정할 수 있다.
이미지 측정부(120)는, 감정상태 예측을 위한 대상자의 얼굴표정 이미지를 측정하기 위한 구성이다. 이러한 이미지 측정부(120)는 감정상태 예측을 위한 대상자의 얼굴을 촬영하는 카메라로 구성될 수 잇다. 여기서, 카메라는 CCTV 카메라, 웹캠, 휴대전화 카메라 등 다양할 수 구현될 수 있으며, 비접촉식으로 촬영되므로, 얼굴표정 이미지는 비접촉식 측정 데이터에 해당한다.
감정 예측부(130)는, 바이오 신호 측정부(110)로부터 측정된 바이오 신호와, 이미지 측정부(120)로부터 측정된 얼굴표정 이미지를 분석하여 각각의 감정을 분류하고, 분류된 바이오 신호의 감정과 얼굴표정 이미지의 감정을 결합하여 최종 감정을 예측하는 구성이다. 이러한 감정 예측부(130)는 바이오 신호와 얼굴표정 이미지의 분석을 위한 딥러닝 알고리즘으로 콘볼루션 뉴럴 네트워크(convolution Neural Network, CNN) 기반의 EfficientNet-B0 모델을 사용할 수 있다.
또한, 감정 예측부(130)는 콘볼루션 뉴럴 네트워크(convolution Neural Network, CNN) 기반의 EfficientNet-B0 모델을 사용하되, 깊이(depth)와 너비(width)와 해상도(image resolution)를 함께 조절하는 컴파운드 스케일링 방식(compound scaling method)이 사용될 수 있다.
또한, 감정 예측부(130)는 감정상태 예측을 위한 얼굴표정 이미지, 감정 클래스에 따라 추출된 바이오 신호 데이터를 저장하는 데이터베이스(DB)를 포함하여 구성할 수 있다.
또한, 감정 예측부(130)는 감정상태 예측을 위한 얼굴표정 이미지와 감정 클래스에 따라 추출된 바이오 신호 데이터를 학습하여 데이터베이스(DB)에 저장하되, 데이터베이스에 저장 관리되는 감정 클래스는 행복, 중립, 슬픔, 분노, 놀라움, 혐오 및 공포를 포함할 수 있다.
또한, 감정 예측부(130)는 바이오 신호 측정부(110)로부터 측정된 바이오 신호와, 이미지 측정부(120)로부터 측정된 얼굴표정 이미지를 데이터베이스에 저장된 학습 데이터와 비교 검색한 후, 바이오 신호의 감정과 얼굴표정 이미지의 감정을 결합하여 높은 정확도의 최종 감정 예측이 가능하도록 할 수 있다.
이와 같이 바이오 신호 측정부(110)와 이미지 측정부(120) 및 감정 예측부(130)를 포함하는 모바일 비전 시스템(100)은 컴퓨터 등 전자 장치로 구현될 수 있다. 보다 구체적으로 전자 장치는 스마트폰, 태블릿(tablet) PC(personal computer), 이동 전화기, 영상 전화기, 전자책 리더기, 데스크탑(desktop) PC, 랩탑(laptop) PC, 넷북(netbook) 컴퓨터, 워크스테이션(workstation), 서버(server), PDA(personal digital assistant), 미디어 박스, 게임 콘솔, 전자사전 또는 웨어러블 장치(wearable device) 중 적어도 하나를 포함할 수 있다. 다양한 실시예들에서, 전자 장치는 전술한 기기들에 한정되지는 않으며, 전술한 다양한 장치 중 둘 이상의 조합일 수 있다.
도 2는 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템에 적용되는 얼굴표정 템플릿과 바이오 신호의 일례의 구성을 도시한 도면이다. 도 2에 도시된 바와 같이, 얼굴표정 이미지 템플릿과 바이오 신호를 결합하여 사람의 표정으로부터 얻을 수 있는 감정 상태와 바이오 신호를 통해 얻을 수 있는 감정을 동시에 분석하여 감정 예측의 정확성을 높일 수 있다.
도 3은 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템에 적용되는 이미지 감정 클래스의 구성을 일례로 도시한 도면이다. 도 3은 실험 1에 사용되는 얼굴표정 이미지 데이터는 48×48 크기의 Gray Scale 해상도를 갖는 FER2013 데이터가 사용되고, 총 20,000장의 표정 이미지 중 학습 데이터로 15,000장, 검증 데이터로 5,000장, 테스트 데이터로 5,000장을 사용하였으며, 총 7개 클래스 중 4개의 클래스인 angry, happy, neutral, sad을 사용하여 레이블을 변경하였다.
도 4는 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템에 적용되는 바이오 신호의 데이터의 구성을 일례로 도시한 도면이다. 도 4는 실험 2에 사용된 바이오 신호 데이터로서, 각 클래스에 맞는 데이터를 발생시킨다. 기존에 감정 클래스에 따라 추출된 데이터를 확보하여 사용하고, FER2013 이미지 데이터는 얼굴표정 이미지가 감정 클래스의 데이터 범위 내에 포함됨을 가정한다.
도 5는 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템에 적용되는 이미지와 바이오 신호의 데이터 구성을 일례로 도시한 도면이고, 도 6은 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템에 적용되는 감정 분석 모델의 비교 구성을 도시한 도면이며, 도 7은 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템에 적용되는 실험 1의 이미지 데이터만을 이용하는 구성을 도시한 도면이고, 도 8은 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템에 적용되는 실험 2의 바이오 신호와 이미지 데이터를 함께 이용하는 구서을 도시한 도면이다. 도 5는 실험에 사용된 데티어를 나타내고 있으며, 도 6은 바이오 신호 및 표정 이미지를 이요하여 감정 분석하기 위한 모델 비교를 나타내고 있으며, 도 7은 FER 2013 이미지 데이터만을 이용하여 EfficientNet-B0 모델을 학습시키고 테스트를 진행한다. EfficientNet-B0은 12800×7×7 feature를 출력하므로 Dense layer를 이용하여 256 feature로 인코딩하고, 최종적으로 1개의 예측값을 출력한다. 도 8은 바이오 신호 데이터를 사용하기 위해 각각의 감정 클래스에 해당하는 범위 내 정규분포 샘플링을 수행하고, 한 장의 표정 이미지에서 6개의 HRV 인덱스마다 1000개 샘플링을 수행하고 랜덤으로 값을 하나씩 추출한다. 이렇게 이미지마다 6개의 HRV 인덱스를 추출하여 개별 dense layer를 거쳐 64 feature로 인코딩 되고, 최종적으로 FER2013 이미지 데이터 256 feature와 concat되어 감정 예측하는데 사용된다.
도 9는 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템에 적용되는 실험 1의 학습 및 검증 그래프를 도시한 도면이고, 도 10은 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템에 적용되는 실험 2의 학습 및 검증 그래프의 구성을 도시한 도면이며, 도 11은 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템에 적용되는 실험의 결과를 도시한 도면이고, 도 12는 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템에 적용되는 실험의 테스트데이터 셋의 결과를 도시한 도면이며, 도 13은 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템에 적용되는 실험 결과를 그래프로 도시한 도면이다. 도 9 내지 도 13에 각각 도시된 바와 같이, 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템의 실험 결과에 따른 교차 엔트로피 손실과, 정확성을 아래의 [수학식 1] 및 [수학식 2]로 나타낼 수 있다.
Figure PCTKR2022019310-appb-img-000001
여기서, 수학식 1의 교차 엔트로피 손실(Cross-Entropy Loss)는 가중치 매개변수를 결정하기 위한 지표이고, 모델을 훈련시킬 때 이 손실함수를 최소로 만들어주는 가중치를 찾는 것을 목표로 한다. 실제 데이터의 확률분포와 학습된 모델이 계산한 확률 분포의 차이를 구하고, 숫자가 낮을수록 좋은 모델로 인식될 수 있다.
Figure PCTKR2022019310-appb-img-000002
여기서, 수학식 2의 정확성(Accuracy)은 훈련된 모델의 성능을 평가할 때 사용하는 평가지표로서, 전체 샘플 중 맞게 예측한 샘플 수의 비율로 숫자가 높을수록 좋은 모델로 인식될 수 있다.
도 9는 이미지만을 사용하는 실험 1의 학습 및 검증 그래프를 나타내고, 도 10은 이미지와 바이오 신호를 결합하여 사용하는 실험 2의 학습 및 검증 그래프를 나타내며, 도 11은 실험 2에서의 학습 및 검증에서 실험 1보다 우수한 결과를 보여주는 것을 알 수 있다. 도 12는 실험 2의 테스트 데이터 셋에서도 실험 1보다 우수한 결과를 보여주고 있으며, 도 13은 CE Loss 값이 작을수록 좋은 모델임을 나타내고, Accuracy 값이 클수록 좋은 모델임을 나타내고 있다.
도 14는 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 방법의 흐름을 도시한 도면이다. 도 14에 도시된 바와 같이, 본 발명의 일실시예에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 방법은, 바이오 신호 측정부가 감정상태 예측을 위한 대상자의 바이오 신호를 측정하는 단계(S110), 이미지 측정부가 감정상태 예측을 위한 대상자의 얼굴표정 이미지를 측정하는 단계(S120), 및 감정 예측부가 바이오 신호 측정부로부터 측정된 바이오 신호와, 이미지 측정부로부터 측정된 얼굴표정 이미지를 분석하여 각각의 감정을 분류하고, 분류된 바이오 신호의 감정과 얼굴표정 이미지의 감정을 결합하여 최종 감정을 예측하는 단계(S130)를 포함하여 구현될 수 있다.
단계 S110에서는, 바이오 신호 측정부(110)가 감정상태 예측을 위한 대상자의 바이오 신호를 측정한다. 이러한 단계 S110에서의 바이오 신호 측정부(110)는 감정상태 예측을 위한 바이오 신호로서, 대상자의 심장 박동 변이도를 의미하는 심전도를 비접촉 방식으로 측정할 수 있다. 여기서, 심전도는 심장 활동에 의해 발생하는 전압 신호로서, ECG 신호의 파형을 분석하면 심장의 이상 유무를 알 수 있으며, 심전도 신호의 R파 간격을 통하여 사람의 심박동을 계산할 수 있다. 또한, 심박동은 자율 신경계에 의해 조절되는 것이라 감정이나 흥분 등의 다양한 상태를 진단하는 것이 가능하다.
또한, 바이오 신호 측정부(110)는 감정상태 예측을 위한 바이오 신호로서, 심전도 이외에도 산소포화도, 초당 혈류량, 및 혈압을 비접촉 방식으로 더 측정할 수 있다.
단계 S120에서는, 이미지 측정부(120)가 감정상태 예측을 위한 대상자의 얼굴표정 이미지를 측정한다. 이러한 단계 S120에서의 이미지 측정부(120)는 감정상태 예측을 위한 대상자의 얼굴을 촬영하는 카메라로 구성될 수 잇다. 여기서, 카메라는 CCTV 카메라, 웹캠, 휴대전화 카메라 등 다양할 수 구현될 수 있으며, 비접촉식으로 촬영되므로, 얼굴표정 이미지는 비접촉식 측정 데이터에 해당한다.
단계 S130에서는, 감정 예측부(130)가 바이오 신호 측정부(110)로부터 측정된 바이오 신호와, 이미지 측정부(120)로부터 측정된 얼굴표정 이미지를 분석하여 각각의 감정을 분류하고, 분류된 바이오 신호의 감정과 얼굴표정 이미지의 감정을 결합하여 최종 감정을 예측한다. 이러한 단계 S130에서의 감정 예측부(130)는 바이오 신호와 얼굴표정 이미지의 분석을 위한 딥러닝 알고리즘으로 콘볼루션 뉴럴 네트워크(convolution Neural Network, CNN) 기반의 EfficientNet-B0 모델을 사용할 수 있다. 여기서, 감정 예측부(130)는 콘볼루션 뉴럴 네트워크(convolution Neural Network, CNN) 기반의 EfficientNet-B0 모델을 사용하되, 깊이(depth)와 너비(width)와 해상도(image resolution)를 함께 조절하는 컴파운드 스케일링 방식(compound scaling method)이 사용될 수 있다.
또한, 감정 예측부(130)는 감정상태 예측을 위한 얼굴표정 이미지, 감정 클래스에 따라 추출된 바이오 신호 데이터를 저장하는 데이터베이스(DB)를 포함하여 구성할 수 있다.
또한, 감정 예측부(130)는 감정상태 예측을 위한 얼굴표정 이미지와 감정 클래스에 따라 추출된 바이오 신호 데이터를 학습하여 데이터베이스(DB)에 저장하되, 데이터베이스에 저장 관리되는 감정 클래스는 행복, 중립, 슬픔, 분노, 놀라움, 혐오 및 공포를 포함할 수 있다.
또한, 감정 예측부(130)는 바이오 신호 측정부(110)로부터 측정된 바이오 신호와, 이미지 측정부(120)로부터 측정된 얼굴표정 이미지를 데이터베이스에 저장된 학습 데이터와 비교 검색한 후, 바이오 신호의 감정과 얼굴표정 이미지의 감정을 결합하여 높은 정확도의 최종 감정 예측이 가능하도록 할 수 있다.
상술한 바와 같이, 본 발명의 일실시에 따른 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템 및 방법은, 감정상태 예측을 위한 대상자의 바이오 신호를 측정하기 위한 바이오 신호 측정부와, 감정상태 예측을 위한 대상자의 얼굴표정 이미지를 측정하기 위한 이미지 측정부와, 바이오 신호 측정부로부터 측정된 바이오 신호와, 이미지 측정부로부터 측정된 얼굴표정 이미지를 분석하여 각각의 감정을 분류하고, 분류된 바이오 신호의 감정과 얼굴표정 이미지의 감정을 결합하여 최종 감정을 예측하는 감정 예측부를 포함하여 구성함으로써, 대상자의 얼굴표정 이미지만으로 감정을 예측하는 것보다 바이오 신호를 결합하여 감정 상태를 예측하여 보다 높은 정확도를 가지며, 최적의 파라미터로 높은 인식 성능을 유지할 수 있도록 할 수 있으며, 특히, 슈퍼디멘션 기반 딥 뉴럴 네트워크를 설계하여 바이오신호와 얼굴 표정 템플렛을 함께 분석하여 대상자의 감정 상태를 정확도 예측할 수 있는 알고리즘을 구성함으로써, 사람의 표정으로부터 얻을 수 있는 감정 상태와 바이오 신호를 통해 알 수 있는 감정을 동시에 분석하여 감정 예측의 정확성을 높이고, 콘불루션 뉴럴 네트워크 기반의 EfficientNet-B0 아키텍쳐를 사용하여 최소한의 파라미터로 최대한의 성능 구현이 가능하며, 향후 인공지능과 결합될 수 있는 감정지능으로서 향후 확장된 데이터 차원에서도 높은 성능을 유지할 수 있도록 할 수 있게 된다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

Claims (16)

  1. 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템(100)으로서,
    감정상태 예측을 위한 대상자의 바이오 신호를 측정하기 위한 바이오 신호 측정부(110);
    감정상태 예측을 위한 대상자의 얼굴표정 이미지를 측정하기 위한 이미지 측정부(120); 및
    상기 바이오 신호 측정부(110)로부터 측정된 바이오 신호와, 상기 이미지 측정부(120)로부터 측정된 얼굴표정 이미지를 분석하여 각각의 감정을 분류하고, 분류된 바이오 신호의 감정과 얼굴표정 이미지의 감정을 결합하여 최종 감정을 예측하는 감정 예측부(130)를 포함하는 것을 특징으로 하는, 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템.
  2. 제1항에 있어서, 상기 바이오 신호 측정부(110)는,
    감정상태 예측을 위한 바이오 신호로서, 대상자의 심장 박동 변이도를 의미하는 심전도를 비접촉 방식으로 측정하는 것을 특징으로 하는, 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템.
  3. 제2항에 있어서, 상기 바이오 신호 측정부(110)는,
    감정상태 예측을 위한 바이오 신호로서, 심전도 이외에도 산소포화도, 초당 혈류량, 및 혈압을 비접촉 방식으로 더 측정하는 것을 특징으로 하는, 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템.
  4. 제1항에 있어서, 상기 감정 예측부(130)는,
    바이오 신호와 얼굴표정 이미지의 분석을 위한 딥러닝 알고리즘으로 콘볼루션 뉴럴 네트워크(convolution Neural Network, CNN) 기반의 EfficientNet-B0 모델을 사용하는 것을 특징으로 하는, 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템.
  5. 제4항에 있어서, 상기 감정 예측부(130)는,
    콘볼루션 뉴럴 네트워크(convolution Neural Network, CNN) 기반의 EfficientNet-B0 모델을 사용하되, 깊이(depth)와 너비(width)와 해상도(image resolution)를 함께 조절하는 컴파운드 스케일링 방식(compound scaling method)이 사용되는 것을 특징으로 하는, 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템.
  6. 제4항에 있어서, 상기 감정 예측부(130)는,
    감정상태 예측을 위한 얼굴표정 이미지, 감정 클래스에 따라 추출된 바이오 신호 데이터를 저장하는 데이터베이스(DB)를 포함하여 구성하는 것을 특징으로 하는, 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템.
  7. 제6항에 있어서, 상기 감정 예측부(130)는,
    감정상태 예측을 위한 얼굴표정 이미지와 감정 클래스에 따라 추출된 바이오 신호 데이터를 학습하여 데이터베이스(DB)에 저장하되, 데이터베이스에 저장 관리되는 감정 클래스는 행복, 중립, 슬픔, 분노, 놀라움, 혐오 및 공포를 포함하는 것을 특징으로 하는, 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템.
  8. 제7항에 있어서, 상기 감정 예측부(130)는,
    상기 바이오 신호 측정부(110)로부터 측정된 바이오 신호와, 상기 이미지 측정부(120)로부터 측정된 얼굴표정 이미지를 데이터베이스에 저장된 학습 데이터와 비교 검색한 후, 바이오 신호의 감정과 얼굴표정 이미지의 감정을 결합하여 높은 정확도의 최종 감정 예측이 가능하도록 하는 것을 특징으로 하는, 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템.
  9. 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 방법으로서,
    (1) 바이오 신호 측정부(110)가 감정상태 예측을 위한 대상자의 바이오 신호를 측정하는 단계;
    (2) 이미지 측정부(120)가 감정상태 예측을 위한 대상자의 얼굴표정 이미지를 측정하는 단계; 및
    (3) 감정 예측부(130)가 상기 바이오 신호 측정부(110)로부터 측정된 바이오 신호와, 상기 이미지 측정부(120)로부터 측정된 얼굴표정 이미지를 분석하여 각각의 감정을 분류하고, 분류된 바이오 신호의 감정과 얼굴표정 이미지의 감정을 결합하여 최종 감정을 예측하는 단계를 포함하는 것을 특징으로 하는, 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 방법.
  10. 제9항에 있어서, 상기 바이오 신호 측정부(110)는,
    감정상태 예측을 위한 바이오 신호로서, 대상자의 심장 박동 변이도를 의미하는 심전도를 비접촉 방식으로 측정하는 것을 특징으로 하는, 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 방법.
  11. 제10항에 있어서, 상기 바이오 신호 측정부(110)는,
    감정상태 예측을 위한 바이오 신호로서, 심전도 이외에도 산소포화도, 초당 혈류량, 및 혈압을 비접촉 방식으로 더 측정하는 것을 특징으로 하는, 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 방법.
  12. 제9항에 있어서, 상기 감정 예측부(130)는,
    바이오 신호와 얼굴표정 이미지의 분석을 위한 딥러닝 알고리즘으로 콘볼루션 뉴럴 네트워크(convolution Neural Network, CNN) 기반의 EfficientNet-B0 모델을 사용하는 것을 특징으로 하는, 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 방법.
  13. 제12항에 있어서, 상기 감정 예측부(130)는,
    콘볼루션 뉴럴 네트워크(convolution Neural Network, CNN) 기반의 EfficientNet-B0 모델을 사용하되, 깊이(depth)와 너비(width)와 해상도(image resolution)를 함께 조절하는 컴파운드 스케일링 방식(compound scaling method)이 사용되는 것을 특징으로 하는, 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 방법.
  14. 제12항에 있어서, 상기 감정 예측부(130)는,
    감정상태 예측을 위한 얼굴표정 이미지, 감정 클래스에 따라 추출된 바이오 신호 데이터를 저장하는 데이터베이스(DB)를 포함하여 구성하는 것을 특징으로 하는, 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 방법.
  15. 제14항에 있어서, 상기 감정 예측부(130)는,
    감정상태 예측을 위한 얼굴표정 이미지와 감정 클래스에 따라 추출된 바이오 신호 데이터를 학습하여 데이터베이스(DB)에 저장하되, 데이터베이스에 저장 관리되는 감정 클래스는 행복, 중립, 슬픔, 분노, 놀라움, 혐오 및 공포를 포함하는 것을 특징으로 하는, 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 방법.
  16. 제15항에 있어서, 상기 감정 예측부(130)는,
    상기 바이오 신호 측정부(110)로부터 측정된 바이오 신호와, 상기 이미지 측정부(120)로부터 측정된 얼굴표정 이미지를 데이터베이스에 저장된 학습 데이터와 비교 검색한 후, 바이오 신호의 감정과 얼굴표정 이미지의 감정을 결합하여 높은 정확도의 최종 감정 예측이 가능하도록 하는 것을 특징으로 하는, 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 방법.
PCT/KR2022/019310 2021-12-07 2022-12-01 인간의 복합감정을 예측할 수 있는 efficientnet 아키텍처 기반 모바일 비전 시스템 및 방법 WO2023106726A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210174272A KR20230086026A (ko) 2021-12-07 2021-12-07 인간의 복합감정을 예측할 수 있는 EfficientNet 아키텍처 기반 모바일 비전 시스템 및 방법
KR10-2021-0174272 2021-12-07

Publications (1)

Publication Number Publication Date
WO2023106726A1 true WO2023106726A1 (ko) 2023-06-15

Family

ID=86730825

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/019310 WO2023106726A1 (ko) 2021-12-07 2022-12-01 인간의 복합감정을 예측할 수 있는 efficientnet 아키텍처 기반 모바일 비전 시스템 및 방법

Country Status (2)

Country Link
KR (1) KR20230086026A (ko)
WO (1) WO2023106726A1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120092846A (ko) * 2011-02-14 2012-08-22 충남대학교산학협력단 멀티 모달리티 감정인식 시스템, 감정인식 방법 및 그 기록매체
KR20190119863A (ko) * 2018-04-13 2019-10-23 인하대학교 산학협력단 반 지도 학습과 여러 개의 멀티 모달 네트워크를 이용한 비디오 기반 인물 감정 인식 기법
KR20210062535A (ko) * 2019-11-21 2021-05-31 주식회사 지비소프트 비접촉식 생체 지수 측정 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120092846A (ko) * 2011-02-14 2012-08-22 충남대학교산학협력단 멀티 모달리티 감정인식 시스템, 감정인식 방법 및 그 기록매체
KR20190119863A (ko) * 2018-04-13 2019-10-23 인하대학교 산학협력단 반 지도 학습과 여러 개의 멀티 모달 네트워크를 이용한 비디오 기반 인물 감정 인식 기법
KR20210062535A (ko) * 2019-11-21 2021-05-31 주식회사 지비소프트 비접촉식 생체 지수 측정 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SAVINA COLACO, DONG SEOG HAN: "Facial Landmarks Localization with Compound Model Scaling", 2020 FALL CONFERENCE OF THE KOREAN SOCIETY OF COMMUNICATIONS AND COMMUNICATIONS, KOREA COMMUNICATIONS SOCIETY, vol. 2020, 1 November 2020 (2020-11-01), pages 5 - 7, XP093070001 *
YOON JEONG CHI, KIM MOOSEOP: "A Study on Visual Emotion Classification using Balanced Data Augmentation", JOURNAL OF KOREA MULTIMEDIA SOCIETY, vol. 24, no. 7, 1 July 2021 (2021-07-01), pages 880 - 889, XP093069993, DOI: 10.9717/kmms.2021.24.7.880 *

Also Published As

Publication number Publication date
KR20230086026A (ko) 2023-06-15

Similar Documents

Publication Publication Date Title
WO2019216504A1 (ko) 인간 감정 인식을 위한 딥 생리적 정서 네트워크를 이용한 인간 감정 추정 방법 및 그 시스템
WO2020242239A1 (ko) 앙상블 학습 알고리즘을 이용한 인공지능 기반 진단 보조 시스템
WO2020196985A1 (ko) 비디오 행동 인식 및 행동 구간 탐지 장치 및 방법
WO2020251135A1 (ko) 감정 인식 방법 및 이를 이용한 감정 인식용 디바이스
WO2019235828A1 (ko) 투 페이스 질병 진단 시스템 및 그 방법
JP2004527313A5 (ko)
Chang et al. Emotion recognition with consideration of facial expression and physiological signals
WO2021153858A1 (ko) 비정형 피부질환 영상데이터를 활용한 판독보조장치
WO2020059939A1 (ko) 인공지능 장치
Wilhelm Towards facial expression analysis in a driver assistance system
WO2021132813A1 (ko) 딥러닝 모델을 이용한 통증 평가 방법 및 분석 장치
WO2023243959A1 (ko) 사용자 자세 인식 기반 신체 부상 위험 예측을 위한 방법 및 이를 위한 장치
WO2023106726A1 (ko) 인간의 복합감정을 예측할 수 있는 efficientnet 아키텍처 기반 모바일 비전 시스템 및 방법
WO2019151689A1 (ko) 전자 장치 및 이의 제어 방법
WO2021060748A1 (ko) 연결성 학습 장치 및 연결성 학습 방법
WO2024005542A1 (ko) 주름 검출을 통해 질환을 예측하는 방법 및 장치
WO2023113452A1 (ko) 인공 지능 기반 의료 텍스트의 노이즈 데이터 필터링 방법, 장치 및 프로그램
WO2023282451A1 (ko) 내면 집중력 훈련 방법 및 장치
WO2022010149A1 (ko) 얼굴 표정에 관한 데이터 세트를 생성하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
Neyra-Gutiérrez et al. Feature extraction with video summarization of dynamic gestures for peruvian sign language recognition
CN115035438A (zh) 情绪分析方法、装置及电子设备
WO2021225226A1 (ko) 알츠하이머 진단 장치 및 방법
Nayak et al. Estimation of depression anxieties and stress through clustering of sequences of visual and thermal face images
WO2023075183A1 (ko) 딥러닝 기반 비접촉식 장문 인식 시스템 및 방법
WO2023224349A1 (ko) 정신건강 판단 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22904557

Country of ref document: EP

Kind code of ref document: A1