WO2020251135A1 - 감정 인식 방법 및 이를 이용한 감정 인식용 디바이스 - Google Patents

감정 인식 방법 및 이를 이용한 감정 인식용 디바이스 Download PDF

Info

Publication number
WO2020251135A1
WO2020251135A1 PCT/KR2020/002226 KR2020002226W WO2020251135A1 WO 2020251135 A1 WO2020251135 A1 WO 2020251135A1 KR 2020002226 W KR2020002226 W KR 2020002226W WO 2020251135 A1 WO2020251135 A1 WO 2020251135A1
Authority
WO
WIPO (PCT)
Prior art keywords
emotion
feature
biosignal data
user
labeled
Prior art date
Application number
PCT/KR2020/002226
Other languages
English (en)
French (fr)
Inventor
이홍구
Original Assignee
주식회사 룩시드랩스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 룩시드랩스 filed Critical 주식회사 룩시드랩스
Priority to US17/617,932 priority Critical patent/US20220319536A1/en
Priority to JP2021572849A priority patent/JP2022536126A/ja
Publication of WO2020251135A1 publication Critical patent/WO2020251135A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/015Input arrangements based on nervous system activity detection, e.g. brain waves [EEG] detection, electromyograms [EMG] detection, electrodermal response detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns

Definitions

  • the present invention relates to an emotion recognition method and a device for emotion recognition using the same, and more specifically, to an emotion recognition method and a device for emotion recognition using the same, for providing by matching biometric signal data and a user's emotion.
  • Emotion refers to a mental state that humans can have, and can be broadly divided into hee, no, ae, and rock.
  • HMD Head-Mounted Display
  • HCI human computer interaction
  • intelligent systems like human communication, may also require an understanding of human feelings and appropriate responses.
  • the systems may have a function of predicting and understanding human emotions, human intentions, and state of mind in various ways.
  • the conventional emotion recognition protocol induces or recognizes emotions irrespective of the tendency to feel emotions for each user, and since emotion recognition is always performed at the same initial level value, the reliability of the emotion recognition result may be low. .
  • the inventors of the present invention mean various signals generated from the user's body according to the user's conscious and/or unconscious (e.g., breathing, heartbeat, metabolism, etc.) behavior such as brain wave data, pulse, and blood pressure. It was noted that the bio-signal data to be described may be related to human emotions.
  • the inventors of the present invention have paid more attention to an HMD device capable of providing biosignal data as described above and providing various contents.
  • the HMD device is formed in a structure that can be worn on the user's head, so that the user can experience a spatial and temporal similar to the real one, so that the user can experience virtual reality (VR), augmented reality (AR), or/and It may be a display device that provides an image related to mixed reality (MR).
  • Such an HMD device may include a body formed in a goggle shape to be worn on the user's eye area, and a wearing part formed in a band shape to be connected to the body and fix the body to the user's head.
  • the HMD device may be provided with a sensor for acquiring the user's bio-signal data, a content output unit that outputs emotion-inducing content related to virtual reality, augmented reality, or/and mixed reality, and an input unit that inputs a selection from the user. It can further include.
  • the inventors of the present invention could recognize that the user's emotions may be predicted or classified based on the user's biosignal data according to the content provided through the HMD device.
  • the inventors of the present invention match the bio-signal and the user's individual emotion selection in order to solve the problem of the conventional protocol that induces or recognizes emotion regardless of the tendency to feel emotion for each user.
  • the inventors of the present invention have attempted to further apply a predictive model configured to classify a user's emotion based on the determined reference emotion, that is, biosignal data labeled with the emotion, to the emotion recognition system.
  • the inventors of the present invention more sensitively and accurately detect the user's emotion based on the biosignal according to the newly occurring event through a prediction model configured to set a reference emotion for each user and recognize emotion based on the reference emotion. I could expect to be able to infer.
  • the inventors of the present invention recognized that in learning a predictive model, there are insufficient training data for classifying emotions with high reliability and providing recognition results.
  • the inventors of the present invention tried to further apply the ambiguous emotion labeling data generated according to the user's gaze, hesitation, etc. in the process of selecting emotion-inducing content as learning data.
  • the inventors of the present invention provide ambiguous emotion labeling data in which the user's emotion selection and biometric signal data are matched with relatively low reliability, or biosignal data not matched with any emotion, and the user’s emotion selection and biosignal data We could construct a predictive model to update the positive sentiment labeling data matched with higher reliability.
  • the inventors of the present invention were able to construct a predictive model to separate features of ambiguous emotion labeling data, which are relatively difficult to classify labels according to emotions, into specific emotions, and update the features of clear labeling data based on this.
  • an object to be solved by the present invention is to provide an emotion recognition method based on an emotion classification model configured to recognize a user's emotion based on biosignal data acquired while content is being provided.
  • the problem to be solved by the present invention is to update the learning model based on the first labeled biosignal data and/or the second labeled biosignal data at the user's selection, and based on the learning model, It is to provide an emotion recognition method using an emotion classification model configured to classify emotions for signal data.
  • Another problem to be solved by the present invention is a receiver configured to receive biosignal data of a user while content is being provided, and a processor configured to recognize a user's emotion using an emotion classification model learned to classify emotions. It is to provide a device for emotion recognition including.
  • An emotion recognition method using biometric signal data of a user performed by a processor is an emotion recognition method implemented by a processor, comprising the steps of providing content to a user, and a user while content is being provided. Receiving biosignal data of, and recognizing a user's emotion with respect to the content using an emotion classification model learned to classify emotions based on a plurality of biosignal data labeled with emotions.
  • the plurality of labeled biosignal data may have a lower labeling reliability than the first labeled biosignal data and the first labeled biosignal data matched with the user's emotions, or a second labeling that does not match any emotions. Contains the biosignal data.
  • the emotion classification model includes receiving at least one labeled biosignal data from among first labeled biosignal data and second labeled biosignal data, and at least one labeled biosignal Encoding the data, decoding the encoded at least one labeled biosignal data to obtain reconstructed biosignal data, the difference between the input at least one labeled biosignal data and the reconstructed biosignal data is minimal It may be a model learned through the step of learning the feature determined by the emotion classification model to be.
  • the feature comprises a first feature comprising a feature variable for the first labeled biosignal data and a second feature comprising a feature variable for the second labeled biosignal data.
  • the learning of the feature may include comparing the feature variables of the first feature and the second feature, and updating the feature variable of the second feature to the first feature based on the comparison result. have.
  • a plurality of emotions of the user may be provided, and the first feature may include a feature variable for each of the plurality of emotions of the user.
  • the second feature unit includes at least one feature variable among a feature variable for each of a plurality of emotions, a feature variable for two or more combined emotions selected from among a plurality of emotions, and a feature variable for a plurality of emotions and different emotions. can do.
  • receiving at least one labeled biosignal data, encoding at least one biosignal data, decoding at least one encoded biosignal data, and learning a feature may include the step of repeatedly performing the step of.
  • encoding the at least one labeled biosignal data may include encoding to extract a feature variable for the at least one labeled biosignal data. Further, after the step of encoding at least one labeled biosignal data, determining a feature based on the extracted feature variable may be further performed.
  • the step of recognizing the user's emotion for the content may include classifying the user's emotion for the content based on the user's biosignal data through the feature unit.
  • the emotion classification model further includes a classification unit connected to the characteristic unit, and the step of recognizing the user's emotion for the content includes the user's biosignal data based on the content. It may include the step of first classifying the user's emotion, and the step of second classifying the user's emotion with respect to the content through the emotion classifying unit.
  • it may further include labeling the biosignal obtained from the user based on the user's emotion so as to obtain the labeled biosignal data.
  • labeling based on the user's emotion includes: providing emotion-inducing content to the user, receiving biometric signal data of the user in the process of selecting the emotion-inducing content. , Receiving a selection for emotion-inducing content, and matching the selection and the biosignal data to obtain labeled biosignal data.
  • the method further includes receiving gaze data for emotion-inducing content, and the selection may include staring at at least one selected from among emotion-inducing content.
  • matching the biosignal data when the gaze is maintained for more than a predetermined time, matching the biosignal data may include matching the selection and biosignal data with the first labeled biosignal data. . Further, when the gaze is less than a predetermined time, matching the biosignal data may include matching the selection and biosignal data with the second labeled biosignal data.
  • the biosignal data may be at least one of user's brainwave data and gaze data.
  • An emotion recognition device includes an output unit configured to provide content to a user, a receiving unit configured to receive biosignal data of a user while the content is being provided, and a processor connected to communicate with the receiving unit and the output unit.
  • the processor is configured to recognize a user's emotion with respect to the content by using an emotion classification model learned to classify emotions based on a plurality of bio-signal data labeled with emotions.
  • the plurality of labeled biosignal data may include first labeled biosignal data matched with the user's emotion, and biosignal that is less reliable in labeling than the first labeled biosignal data or does not match the user's emotion.
  • the second labeled biosignal data of the data may include first labeled biosignal data matched with the user's emotion, and biosignal that is less reliable in labeling than the first labeled biosignal data or does not match the user's emotion.
  • the emotion classification model receives at least one labeled biosignal data of first labeled biosignal data and second labeled biosignal data, and receives the input at least one labeled biosignal data. And decoding the encoded at least one labeled biosignal data, through a feature determined by the emotion classification model, to obtain the reconstructed biosignal data, and at least one input labeled biosignal data and reconstructed It may be a model learned through the step of learning a feature so that the difference between the biosignal data is minimized.
  • the feature comprises a first feature comprising a feature variable for the first labeled biosignal data and a second feature comprising a feature variable for the second labeled biosignal data.
  • the feature may be configured to compare the feature variable of the first feature and the second feature and update the feature variable of the second feature to the first feature based on the comparison result.
  • the user's emotions are plural
  • the first characteristic portion includes a characteristic variable for each of the plurality of emotions of the user
  • the second characteristic portion is a characteristic variable for each of the plurality of emotions, a plurality of emotions. It may include a feature variable for two or more selected combination emotions, and at least one feature variable among a plurality of emotions and a feature variable for different emotions.
  • the emotion classification model receives at least one labeled biosignal data, encodes at least one biosignal data, decodes at least one encoded biosignal data, and learns a feature. It may be a model trained by repeatedly performing the step of making.
  • the emotion classification model may be further configured to encode the biosignal data, so as to extract a feature variable for at least one labeled biosignal data, wherein the feature is It can be determined on the basis of.
  • the feature unit may be further configured to classify a user's emotion with respect to the content based on the user's biosignal data.
  • the emotion classification model may further include a classification unit connected to the feature unit and configured to classify the user’s emotions with respect to the content based on an output value of the feature unit.
  • the present invention by determining and providing a standard emotion, which is a criterion for emotion recognition for each user, solves the problem of a conventional protocol that induces or recognizes emotions regardless of the tendency to feel emotions for each user in emotion recognition. There is an effect that can be solved.
  • the present invention may determine a reference emotion for an individual user by receiving an emotion selection for a user according to provision of emotion-inducing content that induces emotion, and matching the user's biosignal data obtained during the selection. .
  • the present invention has attempted to further apply a predictive model configured to classify the user's emotion based on the reference emotion to the emotion recognition system, and thus more sensitively and accurately infer the user's emotion based on a biosignal according to a newly occurring event. It is possible to provide an emotion recognition system capable of.
  • the present invention is a predictive model configured to classify and recognize emotions, as learning data may provide ambiguous recognition data generated according to the user's gaze and hesitation in the process of selecting emotion-inducing content. Can contribute to the improvement of the emotion classification performance of
  • FIG. 1 is a schematic diagram illustrating an emotion recognition system using biometric signal data according to an embodiment of the present invention.
  • FIG. 2 is a schematic diagram for explaining an emotion recognition device according to an embodiment of the present invention.
  • 3A to 3E exemplarily illustrate an emotion labeling step for acquiring first labeled biosignal data and second labeled biosignal data for training of an emotion classification model used in various embodiments of the present invention.
  • 3F is a schematic flowchart illustrating a method of training an emotion classification model used in various embodiments of the present invention.
  • 3G exemplarily illustrates the configuration of an emotion classification model used in an emotion recognition method according to an embodiment of the present invention.
  • FIG. 4A is a schematic flowchart illustrating an emotion recognition method based on an emotion classification model in an emotion recognition method according to an embodiment of the present invention.
  • 4B and 4C exemplarily illustrate an emotion classification step based on an emotion classification model in the emotion recognition method according to an embodiment of the present invention.
  • the emotion recognition system is not limited, and may include all devices configured to acquire a user's gaze and biosignal data such as a user's brainwave.
  • the emotion recognition system includes not only an HMD device, but also a device including a sensor that contacts/wears a part of the user's body, such as a headset, a smart ring, a smart watch, an ear set, and an earphone, and acquires the user's biosignal data.
  • a content output device that outputs emotion-inducing content related to virtual reality, augmented reality, or/and mixed reality, and an electronic device that manages them.
  • the emotion recognition system may include only the HMD device and the electronic device.
  • the biosignal data is a variety of data generated from the user's body according to the user's conscious and/or unconscious (e.g., breathing, heartbeat, metabolism, etc.) behavior such as brain wave data, gaze data, user's pulse, blood pressure, brain wave Can represent a signal.
  • the biosignal data may include all data of a user that may be provided as time series data.
  • the biosignal data may be brainwave data and/or gaze data of a user according to content provision. For example, time-series brainwave data acquired while content is being provided, and gaze data in which information such as blinking, pupil size, pupil shape, pupil position, and viewing point is reconstructed into time series data , It can be applied to the user's emotion recognition system.
  • 1 is a schematic diagram illustrating an emotion recognition system using biometric signal data according to an embodiment of the present invention.
  • 2 is a schematic diagram for explaining an emotion recognition device according to an embodiment of the present invention.
  • the emotion recognition system 1000 may be a system that recognizes emotions with respect to biosignal data including at least one of brainwave and gaze data of a user according to provision of content.
  • the emotion recognition system 1000 may include an emotion recognition device 100 for recognizing a user's emotion based on the biosignal data, and an HMD device 200 for acquiring the user's biosignal data.
  • the emotion recognition device 100 may be connected to communicate with the HMD device 200 and may be configured to provide content that causes emotion to the HMD device 200. Further, the emotion recognition device 100 is a device that recognizes emotions based on selection of biosignal data and emotion-inducing content acquired through the HMD device 200, and includes a personal computer (PC), a laptop computer, and a workstation ( workstation), smart TV, and the like.
  • PC personal computer
  • laptop computer laptop computer
  • workstation workstation
  • smart TV smart TV
  • the emotion recognition device 100 may include a reception unit 110, an input unit 120, an output unit 130, a storage unit 140, and a processor 150. .
  • the receiving unit 110 may be configured to receive biosignal data of a user according to content provision.
  • the receiver 110 may be further configured to receive gaze data for content.
  • the receiving unit 110 may be configured to receive brainwave data and gaze data of a user according to content provision.
  • the receiving unit 110 includes time-series brainwave data acquired while content is being provided, and information such as blinking, pupil size, pupil shape, pupil position, and viewing point as time series data. It may be configured to receive the reconstructed gaze data.
  • the input unit 120 may receive a user's selection according to content provision. Meanwhile, the user may set the emotion recognition device 100 through the input unit 120.
  • the input unit 120 may be an input unit of an HMD configured to be connected to the HMD device 200 to receive a user's selection.
  • the output unit 130 may be configured to provide an interface screen for content.
  • the interface screen may include a display space and an input space representing content, or may include a graphic space.
  • the content is not limited to what will be described above, and may also be provided through an output unit of the HMD device 200 to be described later.
  • the output unit 130 may be configured to output information on the user's emotions according to content provision, determined by the processor 150 to be described later.
  • the storage unit 140 may be configured to store various bio-signal data received by the receiving unit 110, user settings input through the input unit 120, and contents provided through the output unit 130. Further, the storage unit 140 may be further configured to store the biosignal data recognized by the processor 150 to be described later and the classified user's emotions. However, the present invention is not limited thereto, and the storage unit 140 may be configured to store all data generated in the process of classifying emotions for the biosignal data.
  • the processor 150 may be configured to recognize an emotion based on biosignal data acquired through the HMD device 200. More specifically, when content is provided through the interface screen of the output unit 130, the biosignal data obtained from the HMD device 200 is received through the receiving unit 110, and the processor 150 is based on the biosignal data. It may be configured to recognize the user's emotions.
  • the emotion recognition by the processor 150 may be performed by a learned emotion classification model to extract emotions based on new biosignal data by learning biosignal data labeled with emotion.
  • the processor 150 learns biosignal data labeled with emotions based on a deep learning algorithm, and classifies the user's emotions from various biometric feature data such as EEG feature data and gaze feature data based on this. It can be configured to recognize.
  • the processor 150 provides ambiguous emotion labeling data in which the user's emotion selection and the biosignal data are matched with relatively low reliability, or biosignal data not matched with any emotions, and A classification model configured to update the selection and biosignal data to reliable emotion labeling data matched with higher reliability can be further used for emotion recognition.
  • the deep learning algorithm is DNN (Deep Neural Network), CNN (Convolutional Neural Network), DCNN (Deep Convolution Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), SSD. It may be at least one of (Single Shot Detector).
  • the present invention is not limited to the above, and the processor 150 may be based on a variety of algorithms as long as it learns the reference emotion and classifies the emotion based on new biosignal data.
  • the HMD device 200 is mounted on the user's head to provide contents for virtual reality to the user so that the user can experience a spatial and temporal similar to the real world, while acquiring the user's biosignal data.
  • the contents are non-interactive images such as movies, animations, advertisements, or promotional videos, and interactive images made interactively with users such as games, electronic manuals, electronic encyclopedias or promotional videos.
  • the image may be a 3D image, and may include a stereoscopic image.
  • the emotion-inducing content may include a query voice for the user's emotion.
  • the HMD device 200 may be formed in a structure that can be worn on the user's head, and may be implemented in a form in which various contents for virtual reality are processed through an output unit inside the HMD device 200.
  • one surface of the output unit may be disposed to face the user's face so that the user can check content when the user wears the HMD device 200.
  • At least one sensor that acquires brainwave or gaze data of a user may be formed on one side of the HMD device 200.
  • the at least one sensor may include an EEG sensor for measuring a user's EEG and/or a gaze tracking sensor for tracking a user's gaze or gaze.
  • At least one sensor is formed in a location where the user's eyes or face can be photographed or a location where the user's skin can be contacted, and when the user wears the HMD device 200, the user's eyes or face are photographed, Analyzing the captured image to acquire the user's gaze data, or by contacting the user's skin to obtain biosignal data such as the user's electroencephalography (EEG), electromyography (EMG), or electrocardiogram (ECG). Can be obtained.
  • EEG electroencephalography
  • EMG electromyography
  • ECG electrocardiogram
  • the HMD device 200 is described as including at least one sensor that acquires the user's EEG or gaze data, but is not limited thereto, and the user’s EEG or gaze through a module separate from the HMD device 200
  • At least one sensor for acquiring data may be implemented in a format that is mounted on the HMD housing.
  • the expression HMD device 200 is intended to include such a module or to contemplate the module itself.
  • the HMD device 200 may obtain the user's biosignal data according to the request of the emotion recognition device 100 and transmit the obtained biosignal data to the emotion recognition device 100 through an output unit or a reception unit.
  • the HMD device 200 may display content through the output unit of the HMD device 200. Furthermore, biosignal data while content is being provided may be obtained through at least one sensor included in the HMD device 200. In this case, the HMD device 200 may transmit the acquired biosignal data to the emotion recognition device 100.
  • the emotion recognition system 1000 uses a classification model using as additional learning data, the ambiguous emotion-labeled biosignal data generated according to the user's gaze, hesitation, etc. in the process of selecting emotion-inducing content. As provided, it is possible to provide highly reliable emotion classification and recognition results.
  • the first labeled biosignal data and the second labeled biosignal data that has a lower labeling reliability than the first labeled biosignal data or that do not match any emotions may be used.
  • brainwave data is described as an example, but is not limited thereto.
  • information such as blinking, pupil size, pupil shape, pupil location, and viewing point, along with time-series brainwave data acquired while emotion-inducing content was provided, was reconstructed into time series data.
  • the gaze data may be matched with the user's selection emotion and labeled.
  • the first labeled biosignal data and the second labeled biosignal data may be obtained through a labeling step.
  • a user may use an HMD device to perform a plurality of “happiness”, “embarrassment”, “joy”, “fear”, “sad”, “painful” and “depression” together with an emotion-inducing query.
  • a plurality of emotion-inducing contents composed of emotion words are provided.
  • a user's gaze may be made according to provision of a plurality of emotion-inducing contents.
  • the user's selection may proceed.
  • the gaze time for the emotional words of “sense of relief” is 3 seconds, indicating a higher degree of gaze than those of “happiness”, “painful” and “depressed”, so “sense of relief” is selected as the user's feelings.
  • "a sense of relief” that is more than a predetermined gaze time (for example, 2 seconds) may be selected as the user's emotion.
  • the emotion word selected by the user, “a sense of relief,” may be output in a larger size than other emotion words.
  • a bio-signal for example, EEG data acquired while a user's gaze for “a sense of relief” is in progress may be matched with “a sense of relief”, which is a user's selection, to be recognized.
  • the biosignal data matched with the "sense of relief”, that is, the emotion labeling data is an emotion labeling matched with each of the emotional words of "happiness", “painful” or “depressed” with a relatively low degree of gaze and biosignal data according to the gaze
  • the reliability may be relatively higher than the data. In other words, it may be determined as the first labeled biosignal data having a relatively high reliability of matching biosignal data matched with “a sense of relief”.
  • a user may use an HMD device to query “happiness”, “embarrassment”, “enjoyment”, “fear”, “sad”, “painful” and “depressed” through an HMD device.
  • a plurality of emotion-provoking contents composed of a plurality of emotion words of “” are provided.
  • the user's gaze may be made according to an emotion-inducing query and providing a plurality of emotion words.
  • the degree of gaze of the user for each of the plurality of emotion words may be measured.
  • the user's selection “happiness” according to the emotion inducing query and the provision of a plurality of emotion words may be input through the input unit of the HMD device.
  • biosignal data obtained while an input for “happiness” through the HMD device is in progress for example, EEG data is matched with “happiness”, which is a user's selection, so that biosignal data in which emotion is recognized may be obtained.
  • "happiness”, which is the user's selection may be an emotion word having the highest gaze time among the plurality of emotion words. Therefore, the biosignal data matched with “happiness”, that is, the emotion labeling data, will be determined as first labeled biosignal data with higher reliability than the biosignal data recognized for the emotion word selected by the HMD device with a relatively short gaze time. I can.
  • a user through an HMD device, provides an emotion-inducing query and "happiness”, “embarrassment”, “joy”, “fear”, “sad”, “painful” and “depressed”.
  • a plurality of emotion-provoking contents composed of a plurality of emotion words of “” are provided.
  • the user's gaze may be made according to an emotion-inducing query and providing a plurality of emotion words.
  • the longest gaze time, or “happiness”, “pain”, and “depressed” emotion words except for “a sense of relief” having a gaze time longer than a predetermined time (for example, 2 seconds), are acquired while gaze is in progress.
  • One biosignal data may be matched with each emotion word and ambiguous emotion labeling data. That is, the biosignal data matched with “happiness”, “pain”, and “depression”, that is, emotion labeling data, may be determined as “a sense of relief” and second labeled biosignal data having a lower reliability than the recognized biosignal data.
  • a user through an HMD device, provides an emotion-inducing query and “happiness”, “embarrassment”, “joy”, “fear”, “sad”, “painful” and “depressed”.
  • a plurality of emotion-provoking contents composed of a plurality of emotion words of “” are provided.
  • a user's selection may be made through an input unit of the HMD device along with the user's gaze.
  • “happiness” selected by the user is different from “fear” having the longest gaze time or a gaze time longer than a predetermined time (eg, 2 seconds).
  • “happiness” selected by the user and biosignal data acquired during the selection process may be matched with ambiguous emotion labeling data. That is, the biosignal data matched with “happiness”, “pain”, and “depression”, that is, the emotional labeling data, is a second labeled biosignal whose reliability is lower than that of the recognized biosignal data with “a sense of relief”, that is, the labeling is unclear. It can be determined by data.
  • the method of obtaining the first labeled biosignal data and the second labeled biosignal data is not limited to the above.
  • the first labeled biosignal data has a clearly distinguished Gaussian distribution for each matched emotion label
  • the second labeled biosignal data has a Gaussian distribution that is difficult to clearly distinguish for each emotion label. Can be obtained.
  • 3F is a schematic flowchart illustrating a method of training an emotion classification model used in various embodiments of the present invention.
  • the emotion classification model includes the first labeled biosignal data and the second labeled biosignal data whose labeling is unclear than the first labeled biosignal data.
  • Receive input S310.
  • the input first labeling and second labeling biosignal data are encoded (S320).
  • decode the encoded first and second labeled biosignal data through the feature determined by the emotion classification model (S330) to obtain the reconstructed biosignal data, and input the first labeling and the second labeling. It may be learned by the step (S340) of learning the feature so that the difference between the biosignal data and the reconstructed biosignal data is minimal.
  • the first labeled biosignal data and the second labeled biosignal data are used as training data of the classification model. Is entered.
  • the first labeled biosignal data and the second labeled biosignal data used as learning data are pre-labeled. It may be EEG data and/or gaze data. More specifically, the first labeled EEG data clearly matched with the user's emotion and the second labeled EEG data not clearly matched with the user’s emotion or not matched with any emotion may be used as the learning data. . Furthermore, first-labeled gaze data in which information such as blinking, pupil size, pupil shape, pupil position, and viewing point is reconstructed into time series data, clearly matched with the user's selection emotion. And second labeled gaze data that does not clearly match the user's emotion or does not match any emotion at all may be used as the learning data.
  • step S310 of receiving the first labeled biosignal data and the second labeled biosignal data the determination of the positive emotion labeling biosignal data
  • the labeled EEG data 312 and the second labeled EEG data 314 of the ambiguous emotional labeling biosignal data may be input through the encoders 310 ′ and 310 ′′.
  • x may be input biometric data
  • y may be an emotion label clearly matched with x
  • Y ⁇ may be an emotion label that is ambiguously matched with x or an emotion label that does not exist.
  • the inputted first labeled biosignal data and the second labeled biosignal data may be encoded. have.
  • the data are encoded so as to extract feature variables for the first labeled and second labeled biosignal data. Can be.
  • each feature variable is a parameter for a probability distribution, for example, ⁇ and ⁇ of a Gaussian normal distribution. It may be output, but is not limited thereto.
  • the determination of the feature may be further performed based on the extracted feature variable.
  • a first feature may be determined based on a feature variable extracted from the first labeled biosignal data
  • a second feature may be determined based on a feature variable extracted from the first labeled biosignal data
  • the user's emotions are plural
  • the first characteristic portion includes a characteristic variable for each of the plurality of emotions of the user
  • the second characteristic portion is a characteristic variable for each of the plurality of emotions, a combination emotion of two or more selected from among a plurality of emotions It may be configured to include at least one characteristic variable among the characteristic variables for the plurality of emotions and the characteristic variables for emotions different from the plurality of emotions.
  • the feature unit is so that the difference between x of the input biometric signal data and x′ of the reconstructed biosignal data is minimized
  • a feature variable of 320 ′′ may be updated in feature z 320 ′.
  • the update of the feature z 320 ′ may be performed by the update unit 340. More specifically, in the step of learning the feature (S340), the feature consisting of feature variables extracted from the second labeled EEG data 314 (320 ′′) can be classified by Equation 1 below.
  • is a gamma function
  • may be the number of samples of the data.
  • the corresponding feature variable may include two or more emotion labels or may include completely different emotions.
  • the feature needs to be classified whether (320'') can simply be included in the feature z (320') or can be included separately.
  • the features After dividing the feature variable of (320'') into two groups c1i and c1j through clustering, the feature is based on the value of f(0) through Equation 1 above. (320'') can be classified. If the value of f(0) is less than 1, the two groups may have one property, and if the value of f(0) is greater than 1, the two groups may have different properties.
  • the features (320 ′′) may be updated to a minimum feature variable that can be classified through feature classification based on Equation 1.
  • the updated features (320 ′′) may be finally updated in the feature z 320 ′ by Equation 2 below.
  • a feature containing an updated feature variable (320 ′) is a comparison of the feature variables of the feature z (320') by Equation 2, and finally, the feature z (320') is It may be updated to include an updated feature variable of (320").
  • the emotion classification model used in various embodiments of the present invention includes not only the first labeled biosignal data of reliable emotion labeling data in which the user's emotion selection and biosignal data are matched with higher reliability, but also The second labeled biosignal data of ambiguous emotion labeling data in which the user's emotion selection and the biosignal data are matched with relatively low reliability may be further used for learning.
  • the emotion classification model may be trained to provide highly reliable emotion classification and recognition results.
  • the learning module of the emotion classification model separates from the EEG data and applies the same emotion label. It can be configured to extract branch features.
  • the learning module having the above-described structure may be configured to extract features of gaze data by further applying a neural network configured to infer image features such as CNN.
  • the configuration for learning the emotion classification model of the present invention is not limited thereto.
  • the encoding of the first labeling and the second labeled biosignal data to extract features and the decoding part to reconstruct the same (Convolution + Relu + Pooling) + [Feature Map] + (Convolution + Relu + Pooling) may also be composed of a plurality of layers.
  • 4A is a schematic flowchart illustrating an emotion recognition method based on an emotion classification model in an emotion recognition method according to an embodiment of the present invention.
  • 4B and 4C exemplarily illustrate an emotion classification step based on an emotion classification model in the emotion recognition method according to an embodiment of the present invention.
  • content that induces emotion is provided to a user according to an emotion recognition method according to an embodiment of the present invention (S410). Then, the user's bio-signal data while the content is being provided is received (S420), and the user's emotion for the content is recognized based on the emotion classification model (S430).
  • a voice, an image, a movie, an animation, an advertisement, a promotional video, and a text expressing emotion may be provided.
  • non-interactive images such as movies, animations, advertisements, or promotional videos, and games, electronic manuals, electronic encyclopedias, or promotional videos, are interactively active with the user.
  • the created interactive video may be provided as content.
  • biosignal data according to content provision may be received.
  • step S420 of receiving the user's biometric signal data the user's EEG data and/or gaze data may be received.
  • the present invention is not limited thereto, and various signals generated from the user's body may be received according to the user's conscious and/or unconscious (eg, respiration, heartbeat, metabolism, etc.) behavior such as pulse and blood pressure.
  • the new biosignal data may be received from the HMD device.
  • the user's emotion may be classified and recognized by the emotion classification model learned by the above-described method.
  • the user's emotion for the content may be recognized based on the biosignal data of the user through the feature of the emotion classification model.
  • new biosignal data 432 is input to the feature part 434 of the emotion classification model 430.
  • the feature unit 434 may be a potential space or a feature map including feature variables extracted from the first labeled biosignal data and feature variables updated with feature variables extracted from the second labeled biosignal data.
  • the new biosignal data 432 is input to the feature unit 434 and then output as a certain emotion, and the emotion class may be classified and output based on the emotion output value.
  • the new biosignal data 432 may be finally classified and output as happiness 438, and a user's feelings for the content may be recognized as happiness.
  • the user's emotion for the content is first classified through the feature part of the emotion classification model, and the user is classified through the classification part of the emotion classification model.
  • the emotion of the second can be classified.
  • new biosignal data 432 is input to the feature part 434 of the emotion classification model 430. Thereafter, the new biosignal data 432 is input to the feature unit 434 and then output as a certain emotion, and the emotion class may be first classified based on the emotion output value. Next, the first classified emotion class is input to the classification unit 436. Thereafter, the user's emotions may be second classified and output. For example, the new bio-signal data 432 may be finally classified and output as happiness 438 by the classification unit 436, and the user's feelings for the content may be recognized as happiness.
  • the emotion classification model 430 may be configured such that the classification unit is connected to the feature unit that has learned the configuration between the feature unit 434 and the classified class once more. Accordingly, the emotion classification model 430 may more accurately classify emotions based on the additionally learned feature unit and the classification unit and provide a highly reliable emotion recognition result.
  • the feature unit 434 and the classification unit 436 may include a plurality of layers of (Convolution + Relu + Pooling) + [Feature Map] + Fully connected + Softmax + [Predicted probability compute]. According to this configurational feature, emotions for the biosignal data may be first classified based on the learned feature unit 434, and may be classified second by the classifying unit 436.
  • the structure of the feature unit 434 and the classification unit 436 for emotion recognition is not limited thereto.
  • the emotion classification model is not limited to the above-described one, and is DNN (Deep Neural Network), CNN (Convolutional Neural Network), DCNN (Deep Convolution Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN. It may be a model based on at least one deep learning algorithm among (Deep Belief Network) and SSD (Single Shot Detector).
  • the emotion recognition device based on the emotion classification model may provide a user's emotion recognition result based on the user's biosignal data obtained from the HMD device.
  • the apparatus and method according to the embodiment of the present invention may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium.
  • the computer-readable medium may include program instructions, data files, data structures, and the like alone or in combination.
  • Program instructions recorded on a computer-readable medium may be specially designed and configured for the present invention, or may be known to and usable by those skilled in the computer software field.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks.
  • the above-described medium may be a transmission medium such as an optical or metal wire, a waveguide including a carrier wave for transmitting a signal specifying a program command, a data structure, or the like.
  • Examples of the program instructions include not only machine language codes such as those produced by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.
  • the above-described hardware device may be configured to operate as one or more software modules to perform the operation of the present invention, and vice versa.

Abstract

본 발명은, 프로세서에 의해 구현되는 감정 인식 방법으로서, 컨텐츠를 사용자에게 제공하는 단계, 컨텐츠가 제공되는 동안의 사용자의 생체 신호 데이터를 수신하는 단계, 감정이 라벨링된 복수의 생체 신호 데이터에 기초하여 감정을 분류하도록 학습된 감정 분류 모델을 이용하여 컨텐츠에 대한 사용자의 감정을 인식하는 단계를 포함하는 감정 인식 방법 및 이를 이용한 디바이스를 제공한다.

Description

감정 인식 방법 및 이를 이용한 감정 인식용 디바이스
본 발명은 감정 인식 방법 및 이를 이용한 감정 인식용 디바이스에 관한 것으로, 보다 구체적으로는 생체 신호 데이터와 사용자의 감정을 매칭하여 제공하는, 감정 인식 방법 및 이를 이용한 감정 인식용 디바이스에 관한 것이다.
감정이란, 인간이 가질 수 있는 정신적 상태를 의미하고, 크게는 희, 노, 애, 락으로 구분될 수 있다.
이때, 인간의 감정과 관련하여, 감정에 대한 인의적인 외부 자극을 통해 유발하거나 이를 토대로 심리적 안정을 도모하고자 하는 다양한 기술적 개발이 진행되고 있는 실정이다.
보다 구체적으로, HMD (Head-Mounted Display) 디바이스, HCI (human computer interaction), 게임, 동작 기반의 제어와 같은 다양한 스마트 환경에서 컴퓨터 시스템과 인간 간의 자연스러운 상호 작용을 구축하려는 요구가 증가되고 있다. 이를 위해, 인간의 감정을 자동적으로 분석하고 이해하려는 수요 또한 증가하고 있는 실정이다.
이때, 인간과 컴퓨터 시스템의 상호 작용을 위해서는, 인간 간의 의사 소통처럼 지능형 시스템 또한 사람의 느낌을 이해하고 적절한 반응이 요구될 수 있다. 특히, 상기 시스템들은 인간의 감정, 인간의 의도, 마음 상태를 다양한 방법으로 예측하여 이해하는 기능이 필수적일 수 있다.
한편, 종래의 감정 인식 프로토콜은, 사용자 각각에 대한 감정을 느끼는 성향과 무관하게 감정을 유도하거나 인식하고, 항상 동일한 초기의 레벨 값에서 감정 인식이 이루어짐에 따라, 감정 인식 결과의 신뢰도가 낮을 수 있다.
특히, 상기 감정 인식 프로토콜은 사용자 별로 다양한 성향에 대한 맞춤 분석이 어렵고, 이에 감정 인식 결과에 대한 오차가 클 수 있다.
이에, 컴퓨터 시스템에서 사람의 감정에 자연스럽게 반응하는 지능형 감정 컴퓨팅을 위해, 인간의 감정 상태를 인지하고 분석하여, 감정 인식의 정확도를 향상시킬 수 있는 새로운 시스템에 대한 개발이 지속적으로 요구되고 있는 실정이다.
본 발명의 발명자들은, 인간에 대한 감정에 대하여, 인체의 반응의 일환으로 생체 신호들의 변화가 선행할 것이라는 점에 주목하였다.
보다 구체적으로, 본 발명의 발명자들은 뇌파 데이터, 맥박, 혈압 등 사용자의 의식적 및/또는 무의식적 (예를 들어, 호흡, 심장 박동, 신진 대사 등) 행동에 따라 사용자의 신체로부터 발생하는 다양한 신호를 의미하는 생체 신호 데이터가 인간의 감정과 연관이 있을 수 있음에 주목하였다.
나아가, 본 발명의 발명자들은 상기와 같은 생체 신호 데이터를 제공하고 다양한 컨텐츠를 제공할 수 있는 HMD 디바이스에 더욱 주목하였다.
이때, HMD 디바이스는 사용자의 머리에 착용 가능한 구조로 형성되어 사용자가 실제와 유사한 공간적, 시간적 체험이 가능할 수 있도록 사용자에게 가상현실 (Virtual Reality, VR), 증강 현실 (Augmented Reality, AR) 또는/및 혼합 현실 (Mixed Reality, MR) 에 관련된 영상을 제공하는 디스플레이 장치일 수 있다. 이와 같은 HMD 디바이스는, 사용자의 눈 부위에 착용 가능하도록 고글 (Goggle) 형태로 형성되는 본체와, 본체에 연결되어 본체를 사용자의 머리에 고정시킬 수 있도록 밴드 형태로 형성되는 착용부로 구성될 수 있다. 나아가, HMD 디바이스는 사용자의 생체 신호 데이터를 획득하는 센서가 구비될 수 있고, 가상 현실, 증강 현실 또는/및 혼합 현실에 관련된 감정 유발 컨텐츠를 출력하는 컨텐츠 출력부, 사용자로부터 선택을 입력하는 입력부를 더욱 포함할 수 있다.
이에, 본 발명의 발명자들은, HMD 디바이스를 통해 제공된 컨텐츠에 따른 사용자의 생체 신호 데이터에 기초하여 사용자의 감정을 예측하거나 분류할 수 있음을 인지할 수 있었다.
이때, 본 발명의 발명자들은, 감정 인식에 있어서 사용자 각각에 대한 감정을 느끼는 성향과 무관하게 감정을 유도하거나 인식하는 종래의 프로토콜에 대한 문제점을 해결하기 위해, 생체 신호와 사용자 개개인의 감정 선택을 매칭하여 감정 인식의 기준이 되는 기준 감정을 설정하고자 하였다.
나아가, 본 발명의 발명자들은 결정된 기준 감정, 즉 감정이 라벨링된 생체 신호 데이터에 기초하여 사용자의 감정을 분류하도록 구성된 예측 모델을, 감정 인식 시스템에 더욱 적용하고자 하였다.
이에, 본 발명의 발명자들은 사용자 개개인에 대한 기준 감정의 설정 및 기준 감정에 기초하여 감정을 인식하도록 구성된 예측 모델을 통해, 새롭게 발생하는 이벤트에 따른 생체 신호에 기초하여 사용자의 감정을 보다 민감하고 정확하게 유추할 수 있음을 기대할 수 있었다.
이때, 본 발명의 발명자들은 예측 모델의 학습에 있어서, 신뢰도 높은 감정 분류 및 인식 결과 제공을 위한 학습 데이터가 충분하지 않다는 점을 인지하였다.
본 발명의 발명자들은, 이를 해결하기 위해 감정 유발 컨텐츠에 대한 선택이 이루어지는 과정에서의 사용자의 시선, 머뭇거림 등에 따라 생성된 모호한 감정 라벨링 데이터를 학습 데이터로 더욱 적용하고자 하였다.
특히, 본 발명의 발명자들은, 사용자의 감정 선택과 생체 신호 데이터가 상대적으로 낮은 신뢰도로 매칭된 모호한 감정 라벨링 데이터, 또는 어느 감정과도 매칭되지 않은 생체 신호 데이터를, 사용자의 감정 선택과 생체 신호 데이터가 보다 높은 신뢰도로 매칭된 확실한 감정 라벨링 데이터에 업데이트 하도록 예측 모델을 구성할 수 있었다.
보다 구체적으로, 본 발명의 발명자들은 감정에 따라 라벨 분류가 상대적으로 어려운 모호한 감정 라벨링 데이터의 특징부를 구체적인 감정으로 분리하고, 이를 기초로 명확한 라벨링 데이터의 특징부를 업데이트 하도록 예측 모델을 구성할 수 있었다.
이에, 본 발명이 해결하고자 하는 과제는, 컨텐츠가 제공되는 동안 획득된 생체 신호 데이터에 기초하여 사용자의 감정을 인식하도록 구성된 감정 분류 모델에 기초한, 감정 인식 방법을 제공하는 것이다.
보다 구체적으로 본 발명이 해결하고자 하는 과제는, 사용자의 선택에 의해 제1 라벨링된 생체 신호 데이터 및/또는 제2 라벨링된 생체 신호 데이터에 기초하여 학습 모델을 업데이트 하고, 학습 모델에 기초하여 새로운 생체 신호 데이터에 대한 감정을 분류하도록 구성된 감정 분류 모델을 이용한 감정 인식 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 다른 과제는, 컨텐츠가 제공되는 동안의 사용자의 생체 신호 데이터를 수신하도록 구성된 수신부, 및 감정을 분류하도록 학습된 감정 분류 모델을 이용하여, 사용자의 감정을 인식하도록 구성된 프로세서를 포함하는, 감정 인식용 디바이스를 제공하는 것이다.
본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 실시예에 따른 감정 인식 방법 및 감정 인식용 디바이스를 제공한다. 본 발명의 일 실시예에 따른 프로세서에 의해서 수행되는 사용자의 생체 신호 데이터를 이용한 감정 인식 방법은, 프로세서에 의해 구현되는 감정 인식 방법으로서, 컨텐츠를 사용자에게 제공하는 단계, 컨텐츠가 제공되는 동안의 사용자의 생체 신호 데이터를 수신하는 단계, 감정이 라벨링된 복수의 생체 신호 데이터에 기초하여 감정을 분류하도록 학습된 감정 분류 모델을 이용하여 컨텐츠에 대한 사용자의 감정을 인식하는 단계를 포함한다. 이때, 라벨링된 복수의 생체 신호 데이터는, 사용자의 감정에 대하여 매칭된 제1 라벨링된 생체 신호 데이터 및 제1 라벨링된 생체 신호 데이터보다 라벨링 신뢰도가 낮거나 또는 어느 감정과도 매칭되지 않은 제2 라벨링된 생체 신호 데이터를 포함한다.
본 발명의 특징에 따르면, 감정 분류 모델은, 제1 라벨링된 생체 신호 데이터 및 제2 라벨링된 생체 신호 데이터 중 적어도 하나의 라벨링된 생체 신호 데이터를 입력받는 단계, 입력된 적어도 하나의 라벨링된 생체 신호 데이터를 인코딩하는 단계, 재구성된 생체 신호 데이터를 획득하도록, 인코딩된 적어도 하나의 라벨링된 생체 신호 데이터를 디코딩하는 단계, 입력된 적어도 하나의 라벨링된 생체 신호 데이터 및 재구성된 생체 신호 데이터의 차이가 최소가 되도록 감정 분류 모델에 의해 결정된 특징부를 학습시키는 단계를 통해 학습된 모델일 수 있다.
본 발명의 다른 특징에 따르면, 특징부는, 제1 라벨링된 생체 신호 데이터에 대한 특징 변수를 포함하는 제1 특징부 및 제2 라벨링된 생체 신호 데이터에 대한 특징 변수를 포함하는 제2 특징부를 포함할 수 있다. 또한, 특징부를 학습시키는 단계는, 제1 특징부 및 제2 특징부의 특징 변수를 비교하는 단계, 및 비교 결과에 기초하여 제2 특징부의 특징 변수를 제1 특징부에 업데이트하는 단계를 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 사용자의 감정은 복수개이고, 제1 특징부는, 사용자의 복수개의 감정 각각에 대한 특징 변수를 포함할 수 있다. 나아가, 제2 특징부는, 복수개의 감정 각각에 대한 특징 변수, 복수개의 감정 중 선택된 2 개 이상의 조합 감정에 대한 특징 변수, 및 복수개의 감정과 상이한 감정에 대한 특징 변수 중 적어도 하나의 특징 변수를 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 적어도 하나의 라벨링된 생체 신호 데이터를 입력받는 단계, 적어도 하나의 생체 신호 데이터를 인코딩하는 단계, 인코딩된 적어도 하나의 생체 신호 데이터를 디코딩하는 단계, 및 특징부를 학습시키는 단계를 반복 수행하는 단계를 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 적어도 하나의 라벨링된 생체 신호 데이터를 인코딩하는 단계는, 적어도 하나의 라벨링된 생체 신호 데이터에 대한 특징 변수를 추출하도록 인코딩하는 단계를 포함할 수 있다. 또한, 적어도 하나의 라벨링된 생체 신호 데이터를 인코딩하는 단계 이후에, 추출된 특징 변수를 기초로 특징부를 결정하는 단계가 더 수행될 수 있다.
본 발명의 또 다른 특징에 따르면, 컨텐츠에 대한 사용자의 감정을 인식하는 단계는, 특징부를 통해, 사용자의 생체 신호 데이터에 기초하여 상기 컨텐츠에 대한 사용자의 감정을 분류하는 단계를 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 감정 분류 모델은, 특징부와 연결된 분류부를 더 포함하고, 컨텐츠에 대한 사용자의 감정을 인식하는 단계는, 특징부를 통해 사용자의 생체 신호 데이터에 기초하여 컨텐츠에 대한 사용자의 감정을 제1 분류하는 단계, 및 감정 분류부를 통해, 컨텐츠에 대한 사용자의 감정을 제2 분류하는 단계를 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 컨텐츠를 사용자에게 제공하는 단계 이전에, 라벨링된 생체 신호 데이터를 획득하도록, 사용자로부터 획득한 생체 신호를 사용자의 감정에 기초하여 라벨링하는 단계를 더 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 사용자의 감정에 기초하여 라벨링하는 단계는, 감정 유발 컨텐츠를 사용자에게 제공하는 단계, 감정 유발 컨텐츠에 대한 선택이 진행되는 과정에서 사용자의 생체 신호 데이터를 수신하는 단계, 감정 유발 컨텐츠에 대한 선택을 입력 받는 단계, 및 라벨링된 생체 신호 데이터를 획득하도록, 선택과 생체 신호 데이터를 매칭하는 단계를 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 감정 유발 컨텐츠에 대한 시선 데이터를 수신하는 단계를 더 포함하고, 선택은 감정 유발 컨텐츠 중 선택된 적어도 하나의 컨텐츠에 대한 응시를 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 응시가 미리 결정된 시간 이상 유지되는 경우, 생체 신호 데이터를 매칭하는 단계는, 선택과 생체 신호 데이터를 제1 라벨링된 생체 신호 데이터로 매칭하는 단계를 포함할 수 있다. 또한, 응시가 미리 결정된 시간 미만인 경우, 생체 신호 데이터를 매칭하는 단계는, 선택과 생체 신호 데이터를 제2 라벨링된 생체 신호 데이터로 매칭하는 단계를 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 생체 신호 데이터는, 사용자의 뇌파 데이터 및 시선 데이터 중 적어도 하나의 데이터일 수 있다.
본 발명의 실시예에 따른 감정 인식용 디바이스는, 컨텐츠를 사용자에게 제공하도록 구성된 출력부, 컨텐츠가 제공되는 동안의 사용자의 생체 신호 데이터를 수신하도록 구성된 수신부, 및 수신부 및 출력부와 통신하도록 연결된 프로세서를 포함한다. 이때, 프로세서는, 감정이 라벨링된 복수의 생체 신호 데이터에 기초하여 감정을 분류하도록 학습된 감정 분류 모델을 이용하여, 컨텐츠에 대한 사용자의 감정을 인식하도록 구성된다. 나아가, 라벨링된 복수의 생체 신호 데이터는, 사용자의 감정에 대하여 매칭된 제1 라벨링된 생체 신호 데이터, 및 제1 라벨링된 생체 신호 데이터보다 라벨링의 신뢰도가 낮거나 사용자의 감정과 매칭되지 않은 생체 신호 데이터의 제2 라벨링된 생체 신호 데이터를 포함한다.
본 발명의 특징에 따르면, 감정 분류 모델은, 제1 라벨링된 생체 신호 데이터 및 제2 라벨링된 생체 신호 데이터 중 적어도 하나의 라벨링된 생체 신호 데이터를 입력받고, 입력된 적어도 하나의 라벨링된 생체 신호 데이터를 인코딩하고, 재구성된 생체 신호 데이터를 획득하도록, 감정 분류 모델에 의해 결정된 특징부를 통해, 인코딩된 적어도 하나의 라벨링된 생체 신호 데이터를 디코딩하고, 입력된 적어도 하나의 라벨링된 생체 신호 데이터 및 재구성된 생체 신호 데이터의 차이가 최소가 되도록 특징부를 학습시키는 단계를 통해 학습된 모델일 수 있다.
본 발명의 다른 특징에 따르면, 특징부는, 제1 라벨링된 생체 신호 데이터에 대한 특징 변수를 포함하는 제1 특징부 및 제2 라벨링된 생체 신호 데이터에 대한 특징 변수를 포함하는 제2 특징부를 포함할 수 있다. 나아가, 특징부는 제1 특징부 및 제2 특징부의 특징 변수를 비교하고, 비교 결과에 기초하여 제2 특징부의 특징 변수를 제1 특징부에 업데이트하도록 구성될 수 있다.
본 발명의 또 다른 특징에 따르면, 사용자의 감정은 복수개이고, 제1 특징부는 사용자의 복수개의 감정 각각에 대한 특징 변수를 포함하고, 제2 특징부는 복수개의 감정 각각에 대한 특징 변수, 복수개의 감정 중 선택된 2 개 이상의 조합 감정에 대한 특징 변수, 및 복수개의 감정과 상이한 감정에 대한 특징 변수 중 적어도 하나의 특징 변수를 포함할 수 있다.
본 발명의 다른 특징에 따르면, 감정 분류 모델은, 적어도 하나의 라벨링된 생체 신호 데이터를 입력받고, 적어도 하나의 생체 신호 데이터를 인코딩하고, 인코딩된 적어도 하나의 생체 신호 데이터를 디코딩하고, 특징부를 학습시키는 단계를 반복 수행하여 학습된 모델일 수 있다.
본 발명의 또 다른 특징에 따르면, 감정 분류 모델은, 적어도 하나의 라벨링된 생체 신호 데이터에 대한 특징 변수를 추출하도록, 상기 생체 신호 데이터를 인코딩하도록 더 구성될 수 있고, 특징부는 추출된 특징 변수에 기초하여 결정될 수 있다.
본 발명의 또 다른 특징에 따르면, 특징부는, 사용자의 생체 신호 데이터에 기초하여 컨텐츠에 대한 사용자의 감정을 분류하도록 더 구성될 수 있다.
본 발명의 또 다른 특징에 따르면, 감정 분류 모델은 특징부와 연결되고, 특징부의 출력값에 기초하여 컨텐츠에 대한 사용자의 감정을 분류하도록 구성된 분류부를 더 포함할 수 있다.
기타 실시예의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명은, 사용자 개개인에 대한 감정 인식의 기준이 되는 기준 감정을 결정하고 제공함으로써, 감정 인식에 있어서 사용자 각각에 대한 감정을 느끼는 성향과 무관하게 감정을 유도하거나 인식하는 종래의 프로토콜에 대한 문제점을 해결할 수 있는 효과가 있다.
보다 구체적으로 본 발명은, 감정을 유발하는 감정 유발 컨텐츠의 제공에 따른 사용자에 대한 감정 선택을 입력 받고, 선택 중에 획득된 사용자의 생체 신호 데이터와 매칭하여, 사용자 개개인에 대한 기준 감정을 결정할 수 있다.
나아가, 본 발명은 기준 감정에 기초하여 사용자의 감정을 분류하도록 구성된 예측 모델을 감정 인식 시스템에 더욱 적용하고자 하였고, 이에 새롭게 발생하는 이벤트에 따른 생체 신호에 기초하여 사용자의 감정을 보다 민감하고 정확하게 유추할 수 있는 감정 인식 시스템을 제공할 수 있다.
또한, 본 발명은, 감정 유발 컨텐츠에 대한 선택이 이루어지는 과정에서의 사용자의 시선, 머뭇거림 등에 따라 생성된 모호한 인식 데이터를 학습 데이터로 제공할 수 있음에 따라, 감정을 분류하고 인식하도록 구성된 예측 모델의 감정 분류 성능의 향상에 기여할 수 있다.
본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 발명 내에 포함되어 있다.
도 1은 본 발명의 실시예에 따른 생체 신호 데이터를 이용한 감정 인식 시스템을 설명하기 위한 개략도이다.
도 2는 본 발명의 실시예에 따른 감정 인식용 디바이스를 설명하기 위한 개략도이다.
도 3a 내지 3e는 본 발명의 다양한 실시예에서 이용되는 감정 분류 모델의 학습용 제1 라벨링된 생체 신호 데이터 및 제2 라벨링된 생체 신호 데이터를 획득하기 위한 감정 라벨링 단계를 예시적으로 도시한 것이다.
도 3f는 본 발명의 다양한 실시예에서 이용되는 감정 분류 모델을 학습시키는 방법을 설명하기 위한 개략적인 순서도이다.
도 3g는 본 발명의 실시예에 따른 감정 인식 방법에 이용되는 감정 분류 모델의 구성을 예시적으로 도시한 것이다.
도 4a는 본 발명의 일 실시예에 따른 감정 인식 방법에서, 감정 분류 모델에 기초한 감정 인식 방법을 설명하기 위한 개략적인 순서도이다.
도 4b 및 4c는 본 발명의 일 실시예에 따른 감정 인식 방법에서, 감정 분류 모델에 기초한 감정 분류 단계를 예시적으로 도시한 것이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
비록 제1, 제2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.
본 발명에서, 감정 인식 시스템은 제한되지 않고, 사용자의 시선을 획득하고, 사용자의 뇌파 등과 같은 생체 신호 데이터를 획득하도록 구성된 모든 디바이스를 포함할 수 있다. 예를 들어, 감정 인식 시스템은 HMD 디바이스뿐만 아니라, 헤드셋, 스마트링, 스마트 와치, 이어셋, 이어폰 등과 같이 사용자의 신체 일부에 접촉/착용되고, 사용자의 생체 신호 데이터를 획득하는 센서가 포함된 디바이스와, 가상 현실, 증강 현실 또는/및 혼합 현실에 관련된 감정 유발 컨텐츠를 출력하는 컨텐츠 출력 장치와, 이들을 관리하는 전자 장치를 포함할 수 있다. 예를 들어, HMD 디바이스가 출력부를 구비하는 경우 감정 인식 시스템은 HMD 디바이스 및 전자 장치만을 포함할 수 있다.
여기서 생체 신호 데이터는 뇌파 데이터, 시선 데이터, 사용자의 맥박, 혈압, 뇌파 등 사용자의 의식적 및/또는 무의식적(예를 들어, 호흡, 심장 박동, 신진 대사 등) 행동에 따라 사용자의 신체로부터 발생하는 다양한 신호를 나타낼 수 있다. 보다 구체적으로, 생체 신호 데이터는, 시계열 데이터로 제공될 수 있는 사용자의 모든 데이터를 포함할 수 있다. 바람직하게, 본원 명세서 내에서 생체 신호 데이터는 컨텐츠 제공에 따른 사용자의 뇌파 데이터 및/또는, 시선 데이터일 수 있다. 예를 들어, 컨텐츠가 제공되는 동안 획득된 시계열적 뇌파 데이터, 및 눈 깜박거림, 동공의 크기, 동공의 모양, 동공의 위치, 바라보는 곳의 위치 등의 정보가 시계열 데이터로 재구성된 시선 데이터는, 사용자의 감정 인식 시스템에 적용될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 다양한 실시예들을 상세히 설명한다.
도 1은 본 발명의 실시예에 따른 생체 신호 데이터를 이용한 감정 인식 시스템을 설명하기 위한 개략도이다. 도 2는 본 발명의 실시예에 따른 감정 인식용 디바이스를 설명하기 위한 개략도이다.
먼저, 도 1을 참조하면, 감정 인식 시스템 (1000) 은 컨텐츠의 제공에 따른 사용자의 뇌파 및 시선 데이터 중 적어도 하나를 포함하는 생체 신호 데이터에 대하여 감정을 인식 하는 시스템일 수 있다. 이때, 감정 인식 시스템 (1000) 은, 생체 신호 데이터를 기초로 사용자의 감정을 인식하는 감정 인식용 디바이스 (100) 사용자의 생체 신호 데이터를 획득하기 위한 HMD 디바이스 (200) 로 구성될 수 있다.
이때, 감정 인식용 디바이스 (100) 는 HMD 디바이스 (200) 와 통신 가능하도록 연결되고, HMD 디바이스 (200) 로 감정을 유발하는 컨텐츠를 제공하도록 구성될 수 있다. 나아가, 감정 인식용 디바이스 (100) 는 HMD 디바이스 (200) 를 통해서 획득된 생체 신호 데이터와 감정 유발 컨텐츠에 대한 선택에 기반하여 감정을 인식하는 디바이스로서, PC (Personal Computer), 노트북, 워크스테이션 (workstation), 스마트 TV 등을 포함할 수 있다.
보다 구체적으로, 도 2를 함께 참조하면, 감정 인식용 디바이스 (100) 는 수신부 (110), 입력부 (120), 출력부 (130), 저장부 (140) 및 프로세서 (150) 를 포함할 수 있다.
이때, 수신부 (110) 컨텐츠 제공에 따른 사용자의 생체 신호 데이터를 수신하도록 구성될 수 있다. 다양한 실시예에서 수신부 (110) 는 컨텐츠에 대한 시선 데이터를 수신하도록 더 구성될 수 있다.
본 발명의 특징에 따르면, 수신부 (110) 는 컨텐츠 제공에 따른 사용자의 뇌파 데이터 및 시선 데이터를 수신하도록 구성될 수 있다. 예를 들어, 수신부 (110) 는 컨텐츠가 제공되는 동안 획득된 시계열적 뇌파 데이터, 및 눈 깜박거림, 동공의 크기, 동공의 모양, 동공의 위치, 바라보는 곳의 위치 등의 정보가 시계열 데이터로 재구성된 시선 데이터를 수신하도록 구성될 수 있다.
입력부 (120) 는 컨텐츠 제공에 따른 사용자의 선택을 입력 받을 수도 있다. 한편, 입력부 (120) 를 통해 사용자는 감정 인식용 디바이스 (100) 를 설정할 수도 있다.
본 발명의 일 실시예에 따르면, 입력부 (120) 는 HMD 디바이스 (200) 와연결되어 사용자의 선택을 입력 받도록 구성된 HMD의 입력부일 수도 있다.
출력부 (130) 는 컨텐츠에 대한 인터페이스 화면을 제공하도록 구성될 수 있다. 여기서, 인터페이스 화면은 컨텐츠를 나타내는 표시 공간 및 입력 공간을 포함하거나, 그래픽 공간을 포함할 수 있다.
한편, 컨텐츠는 전술할 것에 제한되지 않고, 후술할 HMD 디바이스 (200) 의 출력부를 통해서도 제공될 수 있다.
나아가, 출력부 (130) 는 후술할 프로세서 (150) 에 의해 결정된, 컨텐츠 제공에 따른 사용자의 감정에 대한 정보를 출력하도록 구성될 수 있다.
저장부 (140) 는, 수신부 (110) 에 수신된 다양한 생체 신호 데이터, 입력부 (120) 를 통해 입력된 사용자의 설정 및 출력부 (130) 를 통해 제공되는 컨텐츠들을 저장하도록 구성될 수 있다. 나아가, 저장부 (140) 는 후술할 프로세서 (150) 에 의해 인식된 생체 신호 데이터, 분류된 사용자의 감정을 저장하도록 더욱 구성될 수 있다. 그러나, 이에 제한되지 않고, 저장부 (140) 는 프로세서 (150) 는 생체 신호 데이터에 대한 감정을 분류하는 과정에서 생성되는 모든 데이터들을 저장하도록 구성될 수 있다.
프로세서는 (150) 는 HMD 디바이스 (200) 를 통해서 획득된 생체 신호 데이터에 기반하여 감정을 인식하도록 구성될 수 있다. 보다 구체적으로, 출력부 (130) 의 인터페이스 화면을 통해서 컨텐츠가 제공되면 HMD 디바이스 (200) 로부터 획득된 생체 신호 데이터가 수신부 (110) 를 통해 수신되고, 프로세서 (150) 는 생체 신호 데이터를 기초로 사용자의 감정을 인식하도록 구성될 수 있다.
한편, 프로세서 (150) 에 의한 감정 인식은, 감정이 미리 라벨링된 생체 신호 데이터를 학습하여 새로운 생체 신호 데이터를 기초로 감정을 추출하도록 학습된 감정 분류 모델에 의해 수행될 수 있다. 예를 들어, 프로세서 (150) 는 딥 러닝 알고리즘에 기초하여, 감정이 라벨링된 생체 신호 데이터를 학습하고, 이를 기초로 뇌파 특징 데이터, 시선 특징 데이터와 같은 다양한 생체 특징 데이터로부터 사용자의 감정을 분류 및 인식하도록 구성될 수 있다.
본 발명의 특징에 따르면, 프로세서 (150) 는, 사용자의 감정 선택과 생체 신호 데이터가 상대적으로 낮은 신뢰도로 매칭된 모호한 감정 라벨링 데이터, 또는 어느 감정과도 매칭되지 않은 생체 신호 데이터를, 사용자의 감정 선택과 생체 신호 데이터가 보다 높은 신뢰도로 매칭된 확실한 감정 라벨링 데이터에 업데이트 하도록 구성된 분류 모델을 감정 인식에 더욱 이용할 수 있다.
이때, 딥 러닝 알고리즘은 DNN (Deep Neural Network), CNN (Convolutional Neural Network), DCNN (Deep Convolution Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), SSD (Single Shot Detector) 중 적어도 하나일 수 있다. 그러나, 전술한 것에 제한되지 않고 프로세서 (150) 는 기준 감정을 학습하여 새로운 생체 신호 데이터를 기초로 감정을 분류할 수 있는 한, 보다 다양한 알고리즘에 기초할 수 있다.
다시 도 1을 참조하면, HMD 디바이스 (200) 는 사용자의 머리에 장착되어 사용자가 실제와 유사한 공간적, 시간적 체험이 가능하도록 사용자에게 가상 현실을 위한 컨텐츠를 제공함과 동시에, 사용자의 생체 신호 데이터를 획득하여 가상 체험을 진행 중인 사용자의 신체적, 인지적, 감정적 변화를 감지할 수 있는 복합 가상 체험 장치일 수 있다. 예를 들어, 컨텐츠는 영화, 애니메이션, 광고, 또는 홍보 영상 등과 같은 비-인터랙티브 (non-interactive) 영상 및 게임, 전자 매뉴얼, 전자 백과사전 또는 홍보 영상 등과 같이 사용자와 상호 활동적으로 이루어지는 인터랙티브 (interactive) 영상을 포함할 수 있으며, 이에 한정되지 않는다. 여기서, 영상은 3차원 영상일 수 있으며, 스테레오스코픽 (Stereoscopic) 영상이 포함될 수 있다. 나아가, 감정 유발 컨텐츠는 사용자의 감정에 대한 질의 음성을 포함할 수 있다.
HMD 디바이스 (200) 는 사용자의 머리에 착용 가능한 구조로 형성되고, 가상 현실을 위한 다양한 컨텐츠를 HMD 디바이스 (200) 내부의 출력부를 통해 처리하는 형태로 구현될 수 있다.
HMD 디바이스 (200)가 출력부를 구비하는 경우 사용자가 HMD 디바이스 (200)를 착용할 시 사용자가 컨텐츠를 확인할 수 있도록 출력부의 일면이 사용자의 얼굴에 대향하도록 배치될 수 있다.
HMD 디바이스 (200) 의 일측에는 사용자의 뇌파 또는 시선 데이터를 획득하는 적어도 하나의 센서(미도시)가 형성될 수 있다. 적어도 하나의 센서는 사용자의 뇌파를 측정하는 뇌파 센서 및/또는 사용자의 응시 또는 시선을 추적하는 시선 추적 센서를 포함할 수 있다. 다양한 실시예에서 적어도 하나의 센서는 사용자의 눈 또는 얼굴을 촬영 가능한 위치 또는 사용자의 피부에 접촉 가능한 위치에 형성되고, 사용자가 HMD 디바이스 (200) 를 착용할 시 사용자의 눈 또는 얼굴을 촬영하고, 촬영된 영상을 분석하여 사용자의 시선 데이터를 획득하거나 사용자의 피부에 접촉되어 사용자의 뇌전도 신호 (electroencephalography, EEG), 근전도 신호(electromyography, EMG) 또는 심전도 신호 (electrocardiogram, ECG) 등과 같은 생체 신호 데이터를 획득할 수 있다. 본 명세서에서는 HMD 디바이스 (200) 가 사용자의 뇌파 또는 시선 데이터를 획득하는 적어도 하나의 센서를 포함하는 것으로 설명되지만, 이에 제한되지 않고, HMD 디바이스 (200) 와 별도의 모듈을 통해 사용자의 뇌파 또는 시선 데이터를 획득하는 적어도 하나의 센서가 HMD 하우징에 장착되는 형식으로 구현될 수 있다. HMD 디바이스 (200) 라는 표현은 이러한 모듈을 포함하거나 모듈 자체도 상정하도록 의도된다.
HMD 디바이스 (200) 는 감정 인식용 디바이스 (100) 의 요청에 따라 사용자의 생체 신호 데이터를 획득하고, 획득된 생체 신호 데이터를 출력부 또는 수신부를 통해 감정 인식용 디바이스 (100) 로 전달할 수 있다.
HMD 디바이스 (200) 는 출력부가 포함되는 경우 컨텐츠를 HMD 디바이스 (200) 의 출력부를 통해서 표시할 수 있다. 나아가, HMD 디바이스 (200) 에 구비된 적어도 하나의 센서를 통해서 컨텐츠가 제공되는 동안의 생체 신호 데이터가 획득될 수 있다. 이때, HMD 디바이스 (200) 는 획득된 생체 신호 데이터를 감정 인식용 디바이스 (100) 로 전달할 수 있다.
이와 같은 감정 인식 시스템 (1000) 에 의해, 컨텐츠 제공에 따른 사용자 개개인에 대한 감정이 보다 높은 정확도로 인식될 수 있다. 특히, 본 발명의 감정 인식 시스템 (1000) 은, 감정 유발 컨텐츠에 대한 선택이 이루어지는 과정에서의 사용자의 시선, 머뭇거림 등에 따라 생성된 모호한 감정 라벨링된 생체 신호 데이터를 추가적인 학습 데이터로 이용한 분류 모델을 제공함에 따라, 신뢰도 높은 감정 분류 및 인식 결과 제공할 수 있다.
이하에서는 도 3a 내지 도 3g를 참조하여 본 발명의 다양한 실시예에서 이용되는 감정 분류 모델을 학습시키는 방법을 구체적으로 설명한다.
먼저, 감정 분류 모델의 학습에는 제1 라벨링된 생체 신호 데이터 및 제1 라벨링된 생체 신호 데이터보다 라벨링의 신뢰도가 낮거나 어느 감정과도 매칭되지 않은 제2 라벨링된 생체 신호 데이터가 이용될 수 있다.
이때, 사용자의 감정과 매칭되어 라벨링되는 생체 신호 데이터로서 뇌파 데이터를 예로 들어 설명하나 이에 제한되는 것은 아니다.
예를 들어, 감정 유발 컨텐츠가 제공되는 동안 획득된 시계열적 뇌파 데이터와 함께, 눈 깜박거림, 동공의 크기, 동공의 모양, 동공의 위치, 바라보는 곳의 위치 등의 정보가 시계열 데이터로 재구성된 시선 데이터가 사용자의 선택 감정과 매칭되어 라벨링될 수도 있다.
한편, 제1 라벨링된 생체 신호 데이터 및 제2 라벨링된 생체 신호 데이터는, 라벨링 단계를 통해 획득될 수 있다.
예를 들어, 도 3a를 참조하면, 사용자는 HMD 디바이스를 통해, 감정 유발 질의와 함께, “행복”, “당황”, “즐거움”, “무서움” “슬픔” “괴로움” 및 “우울”의 복수의 감정 단어로 구성된 복수의 감정 유발 컨텐츠를 제공받는다. 이후, 복수의 감정 유발 컨텐츠 제공에 따른 사용자의 응시가 이루어질 수 있다. 이때, 복수의 감정 단어 각각에 대한 사용자의 응시 정도에 따라, 사용자의 선택이 진행될 수 있다. 보다 구체적으로, “안도감”의 감정 단어에 대한 응시 시간은 3초로, “행복”, “괴로움” 및 “우울”의 감정 단어보다 높은 응시 정도를 나타냄에 따라, “안도감”은 사용자의 감정으로 선택될 수 있다. 본 발명의 다른 실시예에 따르면, 미리 결정된 응시 시간 (예를 들어, 2초) 이상인 “안도감”이 사용자의 감정으로 선택될 수도 있다. 한편, 사용자에 의해 선택된 감정 단어인 “안도감”은 다른 감정 단어들보다 큰 크기로 출력될 수 있다. 다음으로, 도 3b를 더욱 참조하면 “안도감”에 대한 사용자의 응시가 진행되는 동안 획득된 생체 신호, 예를 들어 뇌파 데이터가 사용자의 선택인 “안도감”과 매칭되어 인식될 수 있다. 한편, “안도감”과 매칭된 생체 신호 데이터 즉 감정 라벨링 데이터는, 응시 정도가 상대적으로 낮은 “행복”, “괴로움” 또는 “우울”의 감정 단어 및 응시에 따른 생체 신호 데이터 각각과 매칭된 감정 라벨링 데이터보다 신뢰도가 상대적으로 높을 수 있다. 즉, “안도감”과 매칭된 생체 신호 데이터 매칭의 신뢰도가 상대적으로 높은 제1 라벨링된 생체 신호 데이터로 결정될 수 있다.
다른 예를 들어, 도 3c를 참조하면, 사용자는 HMD 디바이스를 통해, 감정 유발 질의와 함께, “행복”, “당황”, “즐거움”, “무서움”, “슬픔”, “괴로움” 및 “우울”의 복수의 감정 단어로 구성된 복수의 감정 유발 컨텐츠를 제공받는다. 그 다음, 감정 유발 질의 및 복수의 감정 단어 제공에 따른, 사용자의 응시가 이루어질 수 있다. 이때, 복수의 감정 단어 각각에 대한 사용자의 응시 정도가 측정될 수 있다. 그 다음, 감정 유발 질의 및 복수의 감정 단어 제공에 따른, 사용자의 선택인 “행복”이 HMD 디바이스의 입력부를 통해 입력될 수 있다. 즉, “행복”에 대한 HMD 디바이스를 통한 입력이 진행되는 동안 획득된 생체 신호, 예를 들어 뇌파 데이터가 사용자의 선택인 “행복”과 매칭되어 감정이 인식된 생체 신호 데이터가 획득될 수 있다. 이때, 사용자의 선택인 “행복”은, 복수의 감정 단어 중 응시 시간이 가장 높은 감정 단어일 수 있다. 따라서, “행복”과 매칭된 생체 신호 데이터 즉 감정 라벨링 데이터는, 응시 시간이 상대적으로 짧은 HMD 장치에 의해 선택된 감정 단어에 대하여 인식된 생체 신호 데이터보다 신뢰도가 높은 제1 라벨링된 생체 신호 데이터로 결정될 수 있다.
또 다른 예를 들어, 도 3d를 참조하면, 사용자는, HMD 디바이스를 통해, 감정 유발 질의 및 “행복”, “당황”, “즐거움”, “무서움”, “슬픔”, “괴로움” 및 “우울”의 복수의 감정 단어로 구성된 복수의 감정 유발 컨텐츠를 제공받는다. 그 다음, 감정 유발 질의 및 복수의 감정 단어 제공에 따른, 사용자의 응시가 이루어질 수 있다. 이때, 가장 긴 응시 시간 또는, 미리 결정된 시간 (예를 들어, 2초) 이상의 응시 시간을 갖는 “안도감”을 제외한 “행복”, “괴로움”, “우울”의 감정 단어의 응시가 진행되는 중에 획득한 생체 신호 데이터는 각각의 감정 단어와 모호한 감정 라벨링 데이터로 매칭될 수 있다. 즉, “행복”, “괴로움”, “우울”과 매칭된 생체 신호 데이터 즉 감정 라벨링 데이터는, “안도감”과 인식된 생체 신호 데이터보다 신뢰도가 낮은 제2 라벨링된 생체 신호 데이터로 결정될 수 있다.
또 다른 예를 들어, 도 3e를 참조하면, 사용자는, HMD 디바이스를 통해, 감정 유발 질의 및 “행복”, “당황”, “즐거움”, “무서움”, “슬픔”, “괴로움” 및 “우울”의 복수의 감정 단어로 구성된 복수의 감정 유발 컨텐츠를 제공받는다. 그 다음, 감정 유발 질의 및 복수의 감정 단어 제공에 따른, 사용자의 응시와 함께 HMD 디바이스의 입력부를 통한 사용자의 선택이 이루어질 수 있다. 이때, 사용자에 의해 선택된 “행복”은, 가장 긴 응시 시간 또는, 미리 결정된 시간 (예를 들어, 2초) 이상의 응시 시간을 갖는 “무서움”과 상이하다. 즉, 사용자에 의해 선택된 “행복”과 이에 대한 선택이 진행되는 중에 획득된 생체 신호 데이터는 모호한 감정 라벨링 데이터로 매칭될 수 있다. 즉, “행복”, “괴로움”, “우울”과 매칭된 생체 신호 데이터 즉 감정 라벨링 데이터는, “안도감”과 인식된 생체 신호 데이터보다 신뢰도가 낮은, 즉 라벨링이 불명확한 제2 라벨링된 생체 신호 데이터로 결정될 수 있다.
그러나, 제1 라벨링된 생체 신호 데이터 및 제2 라벨링된 생체 신호 데이터의 획득 방법은 전술한 것에 제한되는 것이 아니다. 예를 들어, 제1 라벨링된 생체 신호 데이터는 매칭된 감정 라벨별로 명확하게 구별된 가우시안 분포도를 갖고, 제2 라벨링된 생체 신호 데이터는 감정 라벨별로 명확하게 구별이 어려운 가우시안 분포도를 갖는 한 다양한 방법으로 획득될 수 있다.
도 3f는 본 발명의 다양한 실시예에서 이용되는 감정 분류 모델을 학습시키는 방법을 설명하기 위한 개략적인 순서도이다.
먼저, 본 발명의 일 실시예에 따른 감정 인식 방법에 따르면, 감정 분류 모델은, 제1 라벨링된 생체 신호 데이터 및 제1 라벨링된 생체 신호 데이터보다 즉 라벨링이 불명확한 제2 라벨링된 생체 신호 데이터를 입력 받는다 (S310). 그 다음, 입력된 제1 라벨링 및 제2 라벨링된 생체 신호 데이터를 인코딩한다 (S320). 그 다음, 재구성된 생체 신호 데이터를 획득하도록, 감정 분류 모델에 의해 결정된 특징부를 통해, 인코딩된 제1 및 제2 라벨링된 생체 신호 데이터를 디코딩하고 (S330), 입력된 제1 라벨링 및 제2 라벨링된 생체 신호 데이터 및 재구성된 생체 신호 데이터의 차이가 최소가 되도록 특징부를 학습시키는 단계 (S340) 에 의해 학습될 수 있다.
보다 구체적으로, 제1 라벨링된 생체 신호 데이터 및 제2 라벨링된 생체 신호 데이터를 입력 받는 단계 (S310) 에서, 제1 라벨링된 생체 신호 데이터 및 제2 라벨링된 생체 신호 데이터는 분류 모델의 학습 데이터로서 입력된다.
이때, 제1 라벨링된 생체 신호 데이터 및 제2 라벨링된 생체 신호 데이터를 입력 받는 단계 (S310) 에서, 학습 데이터로 이용되는 제1 라벨링된 생체 신호 데이터 및 제2 라벨링된 생체 신호 데이터는, 미리 라벨링된 뇌파 데이터 및/또는 시선 데이터일 수 있다. 보다 구체적으로, 사용자의 감정과 명확하게 매칭된 제1 라벨링된 뇌파 데이터 및 사용자의 감정과 명확하게 매칭되지 않거나 아예 어느 감정과도 매칭되지 않은 제2 라벨링된 뇌파 데이터가 학습 데이터로 이용될 수 있다. 나아가, 눈 깜박거림, 동공의 크기, 동공의 모양, 동공의 위치, 바라보는 곳의 위치 등의 정보가 시계열 데이터로 재구성된 시선 데이터가 사용자의 선택 감정과 명확하게 매칭된 제1 라벨링된 시선 데이터 및 사용자의 감정과 명확하게 매칭되지 않거나 아예 어느 감정과도 매칭되지 않은 제2 라벨링된 시선 데이터가 학습 데이터로 이용될 수 있다.
예를 들어, 도 3g를 참조하면, 본 발명의 일 실시예에 따르면 제1 라벨링된 생체 신호 데이터 및 제2 라벨링된 생체 신호 데이터를 입력 받는 단계 (S310) 에서, 확실한 감정 라벨링 생체 신호 데이터의 제1 라벨링된 뇌파 데이터 (312), 모호한 감정 라벨링 생체 신호 데이터의 제2 라벨링된 뇌파 데이터 (314) 각각이 인코더 (310', 310'') 를 통해 입력될 수 있다.
이때, x는 입력되는 생체 신호 데이터, y는 x와 명확하게 매칭된 감정 라벨, Y^ 는 x와 모호하게 매칭된 감정 라벨 또는 존재하지 않는 감정 라벨일 수 있다.
다음으로, 도 3f를 다시 참조하면 제1 라벨링 및 제2 라벨링된 생체 신호 데이터를 인코딩하는 단계 (S320) 에서, 입력된 제1 라벨링된 생체 신호 데이터 및 제2 라벨링된 생체 신호 데이터가 인코딩될 수 있다.
본 발명의 특징에 따르면, 제1 라벨링 및 제2 라벨링된 생체 신호 데이터를 인코딩하는 단계 (S320) 에서, 제1 라벨링 및 제2 라벨링된 생체 신호 데이터에 대한 특징 변수를 추출하도록, 상기 데이터들이 인코딩될 수 있다.
본 발명의 다른 특징에 따르면, 제1 라벨링 및 제2 라벨링된 생체 신호 데이터를 인코딩하는 단계 (S320) 에서, 각각의 특징 변수들은 확률 분포에 대한 파라미터, 예를 들어 가우시안 정규 분포의 μ, σ로 출력될 수 있으나, 이에 제한되는 것은 아니다.
본 발명의 또 다른 특징에 따르면, 제1 라벨링 및 제2 라벨링된 생체 신호 데이터를 인코딩하는 단계 (S320) 이후에, 추출된 특징 변수를 기초로 특징부의 결정이 더욱 수행될 수 있다.
보다 구체적으로, 제1 라벨링된 생체 신호 데이터로부터 추출된 특징 변수에 기초하여 제1 특징부가 결정되고, 제1 라벨링된 생체 신호 데이터로부터 추출된 특징 변수에 기초하여 제2 특징부가 결정될 수 있다.
이때, 사용자의 감정은 복수개이고, 제1 특징부는 사용자의 복수개의 감정 각각에 대한 특징 변수를 포함하고, 제2 특징부는 복수개의 감정 각각에 대한 특징 변수, 복수개의 감정 중 선택된 2 개 이상의 조합 감정에 대한 특징 변수, 및 상기 복수개의 감정과 상이한 감정에 대한 특징 변수 중 적어도 하나의 특징 변수를 포함하도록 구성될 수 있다.
예를 들어, 도 3g를 참조하면, 특징부를 학습시키는 단계 (S340) 에서, 입력되는 생체 신호 데이터의 x와 재구성된 생체 신호 데이터의 x'의 차이가 최소가 되도록, 특징부
Figure PCTKR2020002226-appb-I000001
(320'') 의 특징 변수가 특징부 z (320') 에 업데이트될 수 있다.
이때, 특징부 z (320') 의 업데이트는 업데이트 부 (340) 에 의해 수행될 수 있다. 보다 구체적으로, 특징부를 학습시키는 단계 (S340) 에서, 제2 라벨링된 뇌파 데이터 (314) 로부터 추출된 특징 변수로 이루어진 특징부
Figure PCTKR2020002226-appb-I000002
(320'') 는 하기 수학식 1에 의해 특성이 분류될 수 있다.
[수학식 1]
Figure PCTKR2020002226-appb-I000003
여기서, γ은 감마 함수이고, Ν은 해당 데이터의 샘플의 개수일 수 있다.
예를 들어, 특징부
Figure PCTKR2020002226-appb-I000004
(320'') 는 모호한 데이터인, 제2 라벨링된 생체 신호 데이터의 특징 변수들로 구성되었음에 따라, 해당 특징 변수가 두 개 이상의 감정 라벨을 포함하거나 전혀 다른 감정을 포함할 수 있다. 이에, 업데이트 과정에서 특징부
Figure PCTKR2020002226-appb-I000005
(320'') 가 단순히 특징부 z (320') 에 포함될 수 있는지, 또는 분리되어 포함될 수 있는지 특성이 분류될 필요가 있다. 이에, 특징부
Figure PCTKR2020002226-appb-I000006
(320'') 의 특징 변수를 클러스터링을 통해 두 개의 그룹 c1i, c1j으로 나눈 후 상기 수학식 1을 통해 f(0)의 값을 기초로 특징부
Figure PCTKR2020002226-appb-I000007
(320'') 의 성질을 분류할 수 있다. 만약, f(0)의 값이 1보다 작다면 두 개의 그룹은 하나의 성질을 가진 것일 수 있고, f(0)의 값이 1보다 크다면 두 개의 그룹이 각각 다른 성질을 가진 것일 수 있다. 따라서, 특징부
Figure PCTKR2020002226-appb-I000008
(320'') 는 수학식 1에 기초한 특성 분류를 통해 구분될 수 있는 최소한의 특징 변수로 업데이트될 수 있다.
다음으로, 업데이트된 특징부
Figure PCTKR2020002226-appb-I000009
(320'') 는 하기 수학식 2에 의해 최종적으로 특징부 z (320') 에 업데이트될 수 있다.
[수학식 2]
Figure PCTKR2020002226-appb-I000010
예를 들어, 업데이트된 특징 변수를 포함하는 특징부
Figure PCTKR2020002226-appb-I000011
(320'') 는, 수학식 2에 의해 특징부 z (320') 의 특징 변수의 비교가 이루어지고, 최종적으로 특징부 z (320') 는 특징부
Figure PCTKR2020002226-appb-I000012
(320'') 의 업데이트된 특징 변수를 포함하도록 업데이트될 수 있다.
전술한 방법에 의해, 본 발명의 다양한 실시예에 이용되는 감정 분류 모델은, 사용자의 감정 선택과 생체 신호 데이터가 보다 높은 신뢰도로 매칭된 확실한 감정 라벨링 데이터의 제1 라벨링된 생체 신호 데이터뿐만 아니라, 사용자의 감정 선택과 생체 신호 데이터가 상대적으로 낮은 신뢰도로 매칭된 모호한 감정 라벨링 데이터의 제2 라벨링된 생체 신호 데이터를 학습에 더욱 이용하도록 구성될 수 있다. 그 결과, 감정 분류 모델은 신뢰도 높은 감정 분류 및 인식 결과 제공하도록 학습될 수 있다.
한편, 감정 분류 모델의 학습에 라벨링된 시선 데이터가 이용될 경우, 시선 데이터가 이미지 데이터로서 수신될 수 있음에 따라, 감정 분류 모델의 학습 모듈은, 뇌파 데이터와 별개로 하여 동일한 감정 라벨에 대해 두 가지 특징을 추출하도록 구성될 수 있다.
나아가, 전술한 구조의 학습 모듈은, CNN과 같은 이미지 특징을 추론할 수 있도록 구성된 신경망을 더욱 적용하여 시선 데이터의 특징을 추출하도록 구성될 수 있다.
또한, 본 발명의 감정 분류 모델의 학습을 위한 구성은 이에 제한되는 것이 아니다. 예를 들어, 제1 라벨링 및 제2 라벨링된 생체 신호 데이터의 입력되어 특징이 추출되는 인코딩 및 이를 다시 재구성하는 디코딩 부분은, (Convolution + Relu + Pooling) + [Feature Map] + (Convolution + Relu + Pooling)의 복수의 레이어로 구성될 수도 있다.
이하에서는 도 4a 내지 4c를 참조하여, 본 발명의 일 실시예에 따른, 감정 분류 모델에 기초한 감정 인식 방법의 감정 인식 단계에 대하여 구체적으로 설명한다.
도 4a는 본 발명의 일 실시예에 따른 감정 인식 방법에서, 감정 분류 모델에 기초한 감정 인식 방법을 설명하기 위한 개략적인 순서도이다. 도 4b 및 4c는 본 발명의 일 실시예에 따른 감정 인식 방법에서, 감정 분류 모델에 기초한 감정 분류 단계를 예시적으로 도시한 것이다.
먼저, 도 4a를 참조하면, 본 발명의 일 실시예에 따른 감정 인식 방법에 따라 감정을 유발하는 컨텐츠가 사용자에게 제공된다 (S410). 그 다음, 컨텐츠가 제공되는 동안의 사용자의 생체 신호 데이터를 수신하고 (S420), 감정 분류 모델에 기초하여 컨텐츠에 대한 사용자의 감정을 인식한다 (S430).
본 발명의 특징에 따르면, 컨텐츠를 사용자에게 제공하는 단계 (S410) 에서, 감정을 표현하는 음성, 이미지, 영화, 애니메이션, 광고, 홍보 영상 및 텍스트 중 적어도 하나의 컨텐츠가 제공될 수 있다. 보다 구체적으로, 컨텐츠를 사용자에게 제공하는 단계 (S410) 에서, 영화, 애니메이션, 광고, 또는 홍보 영상 등과 같은 비-인터랙티브 영상 및 게임, 전자 매뉴얼, 전자 백과사전 또는 홍보 영상 등과 같이 사용자와 상호 활동적으로 이루어지는 인터랙티브 영상이 컨텐츠로 제공될 수 있다.
다음으로, 사용자의 생체 신호 데이터를 수신하는 단계 (S420) 에서, 컨텐츠 제공에 따른 생체 신호 데이터가 수신될 수 있다.
본 발명의 특징에 따르면, 사용자의 생체 신호 데이터를 수신하는 단계 (S420) 에서 사용자의 뇌파 데이터 및/또는 시선 데이터가 수신될 수 있다. 그러나, 이에 제한되지 않고 맥박, 혈압 등 사용자의 의식적 및/또는 무의식적 (예를 들어, 호흡, 심장 박동, 신진 대사 등) 행동에 따라 사용자의 신체로부터 발생하는 다양한 신호가 수신될 수 있다.
본 발명의 다른 특징에 따르면, 사용자의 생체 신호 데이터를 수신하는 단계 (S420) 에서, 새로운 생체 신호 데이터는 HMD 장치로부터 수신될 수 있다.
마지막으로, 컨텐츠에 대한 사용자의 감정을 인식하는 단계 (S430) 에서, 전술한 방법에 의해 학습된 감정 분류 모델에 의해 사용자의 감정이 분류 및 인식될 수 있다.
본 발명의 특징에 따르면, 컨텐츠에 대한 사용자의 감정을 인식하는 단계 (S430) 에서, 감정 분류 모델의 특징부를 통해, 사용자의 생체 신호 데이터에 기초하여 컨텐츠에 대한 사용자의 감정이 인식될 수 있다.
예를 들어, 도 4b를 참조하면, 컨텐츠에 대한 사용자의 감정을 인식하는 단계 (S430) 에서, 새로운 생체 신호 데이터 (432) 는 감정 분류 모델 (430) 의 특징부 (434) 에 입력된다. 이때, 특징부 (434) 는 제1 라벨링된 생체 신호 데이터로부터 추출된 특징 변수와 함께, 제2 라벨링된 생체 신호 데이터로부터 추출된 특징 변수로 업데이트된 특징 변수를 포함하는 잠재 공간 또는 특징 맵일 수 있다. 즉, 새로운 생체 신호 데이터 (432) 는 특징부 (434) 에 입력된 후 일정한 감정으로 출력되고, 감정 출력값에 기초하여 감정의 클래스가 분류 및 출력될 수 있다. 예를 들어, 새로운 생체 신호 데이터 (432) 는 최종적으로 행복 (438) 으로 분류 및 출력될 수 있고, 컨텐츠에 대한 사용자의 감정이 행복으로 인식될 수 있다.
본 발명의 다른 특징에 따르면, 컨텐츠에 대한 사용자의 감정을 인식하는 단계 (S430) 에서, 감정 분류 모델의 특징부를 통해 컨텐츠에 대한 사용자의 감정이 제1 분류되고, 감정 분류 모델의 분류부를 통해 사용자의 감정이 제2 분류될 수 있다.
예를 들어, 도 4c를 더욱 참조하면, 컨텐츠에 대한 사용자의 감정을 인식하는 단계 (S430) 에서, 새로운 생체 신호 데이터 (432) 는 감정 분류 모델 (430) 의 특징부 (434) 에 입력된다. 이후, 새로운 생체 신호 데이터 (432) 는 특징부 (434) 에 입력된 후 일정한 감정으로 출력되고, 감정 출력값에 기초하여 감정의 클래스가 제1 분류될 수 있다. 다음으로, 제1 분류된 감정 클래스가 분류부 (436) 에 입력된다. 이후, 사용자의 감정이 제2 분류되어 출력될 수 있다. 예를 들어, 새로운 생체 신호 데이터 (432) 는, 분류부 (436) 에 의해 최종적으로 행복 (438) 으로 분류 및 출력될 수 있고, 컨텐츠에 대한 사용자의 감정이 행복으로 인식될 수 있다.
이때, 감정 분류 모델 (430) 은, 특징부 (434) 및 분류된 클래스 사이의 구성을 한번 더 학습한 특징부에 분류부가 연결되도록 구성될 수도 있다. 이에, 감정 분류 모델 (430) 은 추가 학습된 특징부, 및 분류부에 기초하여 보다 정확하게 감정은 분류하고 신뢰도 높은 감정 인식 결과를 제공할 수 있다.
한편, 특징부 (434) 및 분류부 (436) 는, (Convolution + Relu + Pooling) + [Feature Map] + Fully connected + Softmax + [Predicted probability compute]의 복수의 레이어로 구성될 수 있다. 이러한 구성상 특징에 따라, 학습된 특징부 (434) 에 기초하여 생체 신호 데이터에 대한 감정이 제1 분류되고, 분류부 (436) 에 의해 제2 분류될 수 있다. 그러나, 감정 인식을 위한 특징부 (434) 및 분류부 (436) 의 구조는 이에 제한되는 것이 아니다.
나아가, 감정 분류 모델은, 전술한 것에 제한되지 않고 DNN (Deep Neural Network), CNN (Convolutional Neural Network), DCNN (Deep Convolution Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), SSD (Single Shot Detector) 중 적어도 하나의 딥 러닝 알고리즘에 기초한 모델일 수 있다.
이상의 절차에 따라, 감정 분류 모델에 기초한 본 발명의 일 실시예에 따른 감정 인식용 디바이스는, HMD 디바이스로부터 획득된 사용자의 생체 신호 데이터를 기초한 사용자의 감정 인식결과를 제공할 수 있다.
본 발명의 실시예에 따른 장치 및 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.
컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체 (magnetic media), CD-ROM, DVD와 같은 광기록 매체 (optical media), 플롭티컬 디스크 (floptical disk)와 같은 자기-광 매체 (magneto-optical media) 및 롬 (ROM), 램 (RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 또한 상술한 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형 실시될 수 있다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 감정 인식용 디바이스
200: HMD 디바이스
312: 제1 라벨링된 뇌파 데이터
314: 제2 라벨링된 뇌파 데이터
310', 310'': 인코더
320': 특징부 z
320'': 특징부
Figure PCTKR2020002226-appb-I000013
330', 330'': 디코더
332', 332'': 재구성된 라벨링 뇌파 신호 데이터
340: 업데이트부
430: 감정 분류 모델
432: 새로운 생체 신호 데이터
434: 특징부
436: 분류부
438: 행복
1000: 감정 인식 시스템
[이 발명을 지원한 국가연구개발사업], [과제고유번호] 1711093794, [부처명] 과학기술정보통신부, [연구관리전문기관] (재)기가코리아사업단, [연구사업명] 범부처GigaKOREA사업(R&D),[연구과제명] 5G 기반 인터랙티브 실감 미디어기술 개발 및 실증, [기여율] 1/1, [주관기관] 에스케이브로드밴드㈜, [연구기간] 20190101 ~ 20191231

Claims (21)

  1. 프로세서에 의해 구현되는 감정 인식 방법으로서,
    컨텐츠를 사용자에게 제공하는 단계;
    상기 컨텐츠가 제공되는 동안의 상기 사용자의 생체 신호 데이터를 수신하는 단계;
    감정이 라벨링된 복수의 생체 신호 데이터에 기초하여 감정을 분류하도록 학습된 감정 분류 모델을 이용하여, 상기 컨텐츠에 대한 상기 사용자의 감정을 인식하는 단계를 포함하고,
    상기 라벨링된 복수의 생체 신호 데이터는,
    상기 사용자의 감정에 대하여 매칭된 제1 라벨링된 생체 신호 데이터, 및 상기 제1 라벨링된 생체 신호 데이터보다 라벨링의 신뢰도가 낮거나 상기 사용자의 감정에 대하여 매칭되지 않은 생체 신호 데이터의 제2 라벨링된 생체 신호 데이터를 포함하는, 감정 인식 방법.
  2. 제1항에 있어서,
    상기 감정 분류 모델은,
    상기 제1 라벨링된 생체 신호 데이터 및 제2 라벨링된 생체 신호 데이터 중 적어도 하나의 라벨링된 생체 신호 데이터를 입력받는 단계;
    입력된 상기 적어도 하나의 라벨링된 생체 신호 데이터를 인코딩하는 단계,
    재구성된 생체 신호 데이터를 획득하도록, 인코딩된 상기 적어도 하나의 라벨링된 생체 신호 데이터를 디코딩하는 단계;
    입력된 상기 적어도 하나의 라벨링된 생체 신호 데이터 및 상기 재구성된 생체 신호 데이터의 차이가 최소가 되도록 상기 분류 모델에 의해 결정된 특징부를 학습시키는 단계를 통해 학습된 모델인, 감정 인식 방법.
  3. 제2항에 있어서,
    상기 특징부는,
    제1 라벨링된 생체 신호 데이터에 대한 특징 변수를 포함하는 제1 특징부 및 상기 제2 라벨링된 생체 신호 데이터에 대한 특징 변수를 포함하는 제2 특징부를 포함하고,
    상기 특징부를 학습시키는 단계는,
    상기 제1 특징부 및 상기 제2 특징부의 특징 변수를 비교하는 단계, 및
    비교 결과에 기초하여 상기 제2 특징부의 특징 변수를 상기 제1 특징부에 업데이트하는 단계를 포함하는, 감정 인식 방법.
  4. 제3항에 있어서,
    상기 사용자의 감정은 복수개이고,
    상기 제1 특징부는,
    상기 사용자의 복수개의 감정 각각에 대한 특징 변수를 포함하고,
    상기 제2 특징부는,
    상기 복수개의 감정 각각에 대한 특징 변수, 복수개의 감정 중 선택된 2 개 이상의 조합 감정에 대한 특징 변수, 및 상기 복수개의 감정과 상이한 감정에 대한 특징 변수 중 적어도 하나의 특징 변수를 포함하는, 감정 인식 방법.
  5. 제2항에 있어서,
    상기 적어도 하나의 라벨링된 생체 신호 데이터를 입력받는 단계;
    상기 적어도 하나의 생체 신호 데이터를 인코딩하는 단계;
    인코딩된 상기 적어도 하나의 생체 신호 데이터를 디코딩하는 단계, 및
    상기 특징부를 학습시키는 단계를 반복 수행하는 단계를 포함하는, 감정 인식 방법.
  6. 제2항에 있어서,
    상기 적어도 하나의 라벨링된 생체 신호 데이터를 인코딩하는 단계는,
    상기 적어도 하나의 라벨링된 생체 신호 데이터에 대한 특징 변수를 추출하도록 인코딩하는 단계를 포함하고,
    상기 적어도 하나의 라벨링된 생체 신호 데이터를 인코딩하는 단계 이후에,
    추출된 상기 특징 변수를 기초로 상기 특징부를 결정하는 단계를 더 포함하는, 감정 인식 방법.
  7. 제2항에 있어서,
    상기 컨텐츠에 대한 상기 사용자의 감정을 인식하는 단계는,
    상기 특징부를 통해, 상기 사용자의 생체 신호 데이터에 기초하여 상기 컨텐츠에 대한 상기 사용자의 감정을 분류하는 단계를 포함하는, 감정 인식 방법.
  8. 제2항에 있어서,
    상기 감정 분류 모델은,
    상기 특징부와 연결된 분류부를 더 포함하고,
    상기 컨텐츠에 대한 상기 사용자의 감정을 인식하는 단계는,
    상기 특징부를 통해, 상기 사용자의 생체 신호 데이터에 기초하여 상기 컨텐츠에 대한 상기 사용자의 감정을 제1 분류하는 단계, 및
    상기 감정 분류부를 통해, 상기 컨텐츠에 대한 상기 사용자의 감정을 제2 분류하는 단계를 포함하는, 감정 인식 방법.
  9. 제1항에 있어서,
    상기 컨텐츠를 사용자에게 제공하는 단계 이전에,
    상기 라벨링된 생체 신호 데이터를 획득하도록, 상기 사용자로부터 획득한 생체 신호를 상기 사용자의 감정에 기초하여 라벨링하는 단계를 더 포함하는, 감정 인식 방법.
  10. 제9항에 있어서,
    상기 사용자의 감정에 기초하여 라벨링하는 단계는,
    감정 유발 컨텐츠를 상기 사용자에게 제공하는 단계;
    상기 감정 유발 컨텐츠에 대한 선택이 진행되는 과정에서 상기 사용자의 생체 신호 데이터를 수신하는 단계;
    상기 감정 유발 컨텐츠에 대한 선택을 입력 받는 단계, 및
    상기 라벨링된 생체 신호 데이터를 획득하도록, 상기 선택과 상기 생체 신호 데이터를 매칭하는 단계를 포함하는, 감정 인식 방법.
  11. 제10항에 있어서,
    상기 감정 유발 컨텐츠에 대한 시선 데이터를 수신하는 단계를 더 포함하고,
    상기 선택은 상기 감정 유발 컨텐츠 중 선택된 적어도 하나의 컨텐츠에 대한 응시를 포함하는, 감정 인식 방법.
  12. 제11항에 있어서,
    상기 응시가 미리 결정된 시간 이상 유지되는 경우,
    상기 생체 신호 데이터를 매칭하는 단계는,
    상기 선택과 상기 생체 신호 데이터를 제1 라벨링된 생체 신호 데이터로 매칭하는 단계를 포함하고,
    상기 응시가 미리 결정된 시간 미만인 경우,
    상기 생체 신호 데이터를 매칭하는 단계는,
    상기 선택과 상기 생체 신호 데이터를 제2 라벨링된 생체 신호 데이터로 매칭하는 단계를 포함하는, 감정 인식 방법.
  13. 제1항에 있어서,
    상기 생체 신호 데이터는,
    상기 사용자의 뇌파 데이터 및 시선 데이터 중 적어도 하나의 데이터인, 감정 인식 방법.
  14. 컨텐츠를 사용자에게 제공하도록 구성된 출력부;
    상기 컨텐츠가 제공되는 동안의 상기 사용자의 생체 신호 데이터를 수신하도록 구성된 수신부, 및
    상기 수신부 및 상기 출력부와 통신하도록 연결된 프로세서를 포함하고,
    상기 프로세서는,
    감정이 라벨링된 복수의 생체 신호 데이터에 기초하여 감정을 분류하도록 학습된 감정 분류 모델을 이용하여, 상기 컨텐츠에 대한 상기 사용자의 감정을 인식하도록 구성되고,
    상기 라벨링된 복수의 생체 신호 데이터는,
    상기 사용자의 감정에 대하여 매칭된 제1 라벨링된 생체 신호 데이터, 및 상기 제1 라벨링된 생체 신호 데이터보다 라벨링의 신뢰도가 낮거나 상기 사용자의 감정에 대하여 매칭되지 않은 생체 신호 데이터의 제2 라벨링된 생체 신호 데이터를 포함하는, 감정 인식용 디바이스.
  15. 제14항에 있어서,
    상기 감정 분류 모델은,
    상기 제1 라벨링된 생체 신호 데이터 및 제2 라벨링된 생체 신호 데이터 중 적어도 하나의 라벨링된 생체 신호 데이터를 입력받고, 입력된 상기 적어도 하나의 라벨링된 생체 신호 데이터를 인코딩하고, 재구성된 생체 신호 데이터를 획득하도록, 인코딩된 상기 적어도 하나의 라벨링된 생체 신호 데이터를 디코딩하고, 입력된 상기 적어도 하나의 라벨링된 생체 신호 데이터 및 상기 재구성된 생체 신호 데이터의 차이가 최소가 되도록 상기 감정 분류 모델에 의해 결정된 특징부를 학습시키는 단계를 통해 학습된 모델인, 감정 인식용 디바이스.
  16. 제15항에 있어서,
    상기 특징부는,
    상기 제1 라벨링된 생체 신호 데이터에 대한 특징 변수를 포함하는 제1 특징부 및 상기 제2 라벨링된 생체 신호 데이터에 대한 특징 변수를 포함하는 제2 특징부를 포함하고,
    상기 제1 특징부 및 상기 제2 특징부의 특징 변수를 비교하고, 비교 결과에 기초하여 상기 제2 특징부의 특징 변수를 상기 제1 특징부에 업데이트하도록 구성된, 감정 인식용 디바이스.
  17. 제16항에 있어서,
    상기 사용자의 감정은 복수개이고,
    상기 제1 특징부는,
    상기 사용자의 복수개의 감정 각각에 대한 특징 변수를 포함하고,
    상기 제2 특징부는,
    상기 복수개의 감정 각각에 대한 특징 변수, 복수개의 감정 중 선택된 2 개 이상의 조합 감정에 대한 특징 변수, 및 상기 복수개의 감정과 상이한 감정에 대한 특징 변수 중 적어도 하나의 특징 변수를 포함하는, 감정 인식용 디바이스.
  18. 제15항에 있어서,
    상기 감정 분류 모델은,
    상기 적어도 하나의 라벨링된 생체 신호 데이터를 입력받고, 상기 적어도 하나의 생체 신호 데이터를 인코딩하고, 인코딩된 상기 적어도 하나의 생체 신호 데이터를 디코딩하고, 상기 특징부를 학습시키는 단계를 반복 수행하여 학습된 모델인, 감정 인식용 디바이스.
  19. 제15항에 있어서,
    상기 감정 분류 모델은,
    상기 적어도 하나의 라벨링된 생체 신호 데이터에 대한 특징 변수를 추출하도록, 상기 적어도 하나의 라벨링된 생체 신호 데이터를 인코딩하도록 더 구성되고,
    상기 특징부는,
    추출된 상기 특징 변수에 기초하여 결정된, 감정 인식용 디바이스.
  20. 제15항에 있어서,
    상기 특징부는, 상기 사용자의 생체 신호 데이터에 기초하여 상기 컨텐츠에 대한 상기 사용자의 감정을 분류하도록 더 구성된, 감정 인식용 디바이스.
  21. 제15항에 있어서,
    상기 감정 분류 모델은,
    상기 특징부와 연결되고, 상기 특징부의 출력값에 기초하여 상기 컨텐츠에 대한 상기 사용자의 감정을 분류하도록 구성된 분류부를 더 포함하는, 감정 인식용 디바이스.
PCT/KR2020/002226 2019-06-11 2020-02-17 감정 인식 방법 및 이를 이용한 감정 인식용 디바이스 WO2020251135A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/617,932 US20220319536A1 (en) 2019-06-11 2020-02-17 Emotion recognition method and emotion recognition device using same
JP2021572849A JP2022536126A (ja) 2019-06-11 2020-02-17 感情認識方法及びそれを利用した感情認識用デバイス

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190068477A KR20200141672A (ko) 2019-06-11 2019-06-11 감정 인식 방법 및 이를 이용한 감정 인식용 디바이스
KR10-2019-0068477 2019-06-11

Publications (1)

Publication Number Publication Date
WO2020251135A1 true WO2020251135A1 (ko) 2020-12-17

Family

ID=73781252

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/002226 WO2020251135A1 (ko) 2019-06-11 2020-02-17 감정 인식 방법 및 이를 이용한 감정 인식용 디바이스

Country Status (4)

Country Link
US (1) US20220319536A1 (ko)
JP (1) JP2022536126A (ko)
KR (1) KR20200141672A (ko)
WO (1) WO2020251135A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220223294A1 (en) * 2020-10-01 2022-07-14 Agama-X Co., Ltd. Information processing apparatus and non-transitory computer readable medium
US11635816B2 (en) 2020-10-01 2023-04-25 Agama-X Co., Ltd. Information processing apparatus and non-transitory computer readable medium

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102541415B1 (ko) * 2021-01-20 2023-06-12 상명대학교산학협력단 눈-추적을 이용한 광고 영상의 공감도 평가 시스템 및 그 방법
KR102480722B1 (ko) * 2021-12-16 2022-12-26 금오공과대학교 산학협력단 엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법
CN114626430B (zh) * 2021-12-30 2022-10-18 华院计算技术(上海)股份有限公司 情绪识别模型的训练方法、情绪识别方法、设备及介质
KR102461646B1 (ko) * 2022-03-15 2022-11-01 가천대학교 산학협력단 뇌파 검사 데이터에 대한 전이 학습 기반의 증강데이터 생성방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100137175A (ko) * 2009-06-22 2010-12-30 삼성전자주식회사 자동으로 사용자의 감정 및 의도를 인식하는 장치 및 방법
KR20140114588A (ko) * 2013-03-19 2014-09-29 세종대학교산학협력단 복합 생체신호 기반의 감정인식 방법 및 장치
KR20150109993A (ko) * 2014-03-21 2015-10-02 삼성전자주식회사 사용자의 선호 감정 패턴을 결정하는 방법 및 시스템
KR101605078B1 (ko) * 2014-05-29 2016-04-01 경북대학교 산학협력단 사용자 맞춤형 정보를 제공하는 방법 및 시스템, 이를 수행하기 위한 기록매체
KR20180000027A (ko) * 2016-06-21 2018-01-02 한양대학교 에리카산학협력단 특징점을 이용한 감정 판단 시스템

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10460251B2 (en) * 2015-06-19 2019-10-29 Preferred Networks Inc. Cross-domain time series data conversion apparatus, methods, and systems
JP6617053B2 (ja) * 2016-02-29 2019-12-04 Kddi株式会社 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法
TW201833802A (zh) * 2017-03-14 2018-09-16 日商賽爾科技股份有限公司 機械學習裝置及機械學習程式
KR102078583B1 (ko) * 2017-04-06 2020-02-19 주식회사 룩시드랩스 헤드 마운트 디스플레이 장치
JP6905892B2 (ja) * 2017-08-04 2021-07-21 株式会社日立製作所 計算機システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100137175A (ko) * 2009-06-22 2010-12-30 삼성전자주식회사 자동으로 사용자의 감정 및 의도를 인식하는 장치 및 방법
KR20140114588A (ko) * 2013-03-19 2014-09-29 세종대학교산학협력단 복합 생체신호 기반의 감정인식 방법 및 장치
KR20150109993A (ko) * 2014-03-21 2015-10-02 삼성전자주식회사 사용자의 선호 감정 패턴을 결정하는 방법 및 시스템
KR101605078B1 (ko) * 2014-05-29 2016-04-01 경북대학교 산학협력단 사용자 맞춤형 정보를 제공하는 방법 및 시스템, 이를 수행하기 위한 기록매체
KR20180000027A (ko) * 2016-06-21 2018-01-02 한양대학교 에리카산학협력단 특징점을 이용한 감정 판단 시스템

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220223294A1 (en) * 2020-10-01 2022-07-14 Agama-X Co., Ltd. Information processing apparatus and non-transitory computer readable medium
US11635816B2 (en) 2020-10-01 2023-04-25 Agama-X Co., Ltd. Information processing apparatus and non-transitory computer readable medium
US11769595B2 (en) * 2020-10-01 2023-09-26 Agama-X Co., Ltd. Information processing apparatus and non-transitory computer readable medium

Also Published As

Publication number Publication date
KR20200141672A (ko) 2020-12-21
US20220319536A1 (en) 2022-10-06
JP2022536126A (ja) 2022-08-12

Similar Documents

Publication Publication Date Title
WO2020251135A1 (ko) 감정 인식 방법 및 이를 이용한 감정 인식용 디바이스
WO2020159093A1 (ko) 생체 데이터를 이용한 하이라이트 영상 생성 방법 및 그 장치
US9600715B2 (en) Emotion detection system
CN112034977B (zh) Mr智能眼镜内容交互、信息输入、应用推荐技术的方法
US10902743B2 (en) Gesture recognition and communication
Yang et al. Behavioral and physiological signals-based deep multimodal approach for mobile emotion recognition
US11301775B2 (en) Data annotation method and apparatus for enhanced machine learning
CN109964226A (zh) 电子装置及其控制方法
WO2021040181A1 (ko) 선호도 결정 방법 및 이를 이용한 선호도 결정용 디바이스
EP3915039A1 (en) System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
Nie et al. SPIDERS: Low-cost wireless glasses for continuous in-situ bio-signal acquisition and emotion recognition
WO2020153785A1 (ko) 전자 장치 및 이를 이용한 감정 정보에 대응하는 그래픽 오브젝트를 제공하는 방법
Nie et al. SPIDERS+: A light-weight, wireless, and low-cost glasses-based wearable platform for emotion sensing and bio-signal acquisition
Yan et al. EmoGlass: An end-to-end AI-enabled wearable platform for enhancing self-awareness of emotional health
Masai et al. Evaluation of facial expression recognition by a smart eyewear for facial direction changes, repeatability, and positional drift
Dael et al. Measuring body movement: Current and future directions in proxemics and kinesics.
Hossain et al. Using temporal features of observers’ physiological measures to distinguish between genuine and fake smiles
WO2020032400A1 (ko) 사용자의 감정을 판단하기 위한 방법 및 이를 위한 장치
JP7352914B2 (ja) 想起画像推定装置、想起画像推定方法、制御プログラム、記録媒体
Jaswal et al. Empirical analysis of multiple modalities for emotion recognition using convolutional neural network
WO2020235770A1 (ko) 감정 라벨링 방법 및 이를 이용한 감정 라벨링용 디바이스
US11609634B2 (en) Apparatus and method for user interfacing in display glasses
Singh et al. Multi-modal Expression Detection (MED): A cutting-edge review of current trends, challenges and solutions
Stöckli et al. A practical guide for automated facial emotion classification 1
Burzo et al. Sensing affective response to visual narratives

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20822971

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021572849

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20822971

Country of ref document: EP

Kind code of ref document: A1