WO2019103484A1 - 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체 - Google Patents
인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체 Download PDFInfo
- Publication number
- WO2019103484A1 WO2019103484A1 PCT/KR2018/014439 KR2018014439W WO2019103484A1 WO 2019103484 A1 WO2019103484 A1 WO 2019103484A1 KR 2018014439 W KR2018014439 W KR 2018014439W WO 2019103484 A1 WO2019103484 A1 WO 2019103484A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- data
- feature
- voice
- recognition
- user
- Prior art date
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 67
- 230000001815 facial effect Effects 0.000 claims abstract description 39
- 230000002123 temporal effect Effects 0.000 claims abstract description 36
- 230000002996 emotional effect Effects 0.000 claims abstract description 17
- 238000001514 detection method Methods 0.000 claims description 42
- 230000008451 emotion Effects 0.000 claims description 41
- 238000012937 correction Methods 0.000 claims description 22
- 230000008859 change Effects 0.000 claims description 19
- 238000013075 data extraction Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 230000000306 recurrent effect Effects 0.000 description 12
- 238000000605 extraction Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 230000006403 short-term memory Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 230000008921 facial expression Effects 0.000 description 5
- 210000001061 forehead Anatomy 0.000 description 5
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 201000004569 Blindness Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/113—Recognition of static hand signs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/175—Static expression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/44—Event detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Definitions
- the hand detection reasoning module may generate a location reasoning feature map for the location reasoning data and infer the emotion state of the user based on the subfeature map, the situation judgment data, and the location reasoning feature map have.
- the situation determination data may further include recognition subject area change data for a change of the recognition subject area, and the weight of the recognition subject area change data may be increased as the variation amount of the recognition subject area becomes larger.
- the tracking target area and the recognition subject area are formed for each of a plurality of users, and the preliminary inference unit generates the situation judgment data for each user based on the tracking target area and the recognition subject area, Respectively, to generate unique voice information of each user and apply it to the emotional recognition of each user.
- the apparatus may further include an output unit outputting a result of the emotion state using the activation function.
- the system increases the second weight from 0.2 to 0.5 for the second part, causing the system to rely more on the second set of indices (voice characteristics) than the system does for the first part.
- the system adjusts one or more of a first weight and a second weight to increase the ratio of the first weight when one or more elements of the face A are not available from the video frame .
- the system may use the same weight when the first part is processed as an abnormal operation (or hand interference) of the second part.
- the multimodal emotion recognition apparatus can accurately grasp the emotional state in the case of conversation and in the case of facial blindness according to the hand.
- FIG. 2 is a diagram schematically showing a configuration of a data preprocessing unit of the multimodal emotion recognition apparatus of FIG. 1.
- FIG. 2 is a diagram schematically showing a configuration of a data preprocessing unit of the multimodal emotion recognition apparatus of FIG. 1.
- FIG. 4 is a diagram schematically showing a configuration of a main reasoning unit of the multimodal emotion recognition apparatus of FIG.
- FIG. 5 is a flowchart showing a method of recognizing a multimodal emotion by the multimodal emotion recognition apparatus of FIG.
- FIG. 6 is a flowchart illustrating a data preprocessing step of the multimodal emotion recognition method of FIG. 5 in detail.
- FIG. 7 is a flowchart illustrating the preliminary reasoning step of the multimodal emotion recognition method of FIG. 5 in detail.
- FIG. 9 is an exemplary diagram illustrating a process of recognizing emotion according to whether a situation is changed using the multimodal emotion recognition apparatus of FIG. 1.
- FIG. 9 is an exemplary diagram illustrating a process of recognizing emotion according to whether a situation is changed using the multimodal emotion recognition apparatus of FIG. 1.
- the present invention may be embodied in many different forms and is not limited to the embodiments described herein.
- parts not related to the description are omitted, and the same or similar components are denoted by the same reference numerals throughout the specification.
- the present invention is not necessarily limited to those shown in the drawings.
- the multimodal emotion recognition apparatus 10 includes a data input unit 100, a data preprocessing unit 200, a preliminary reasoning unit 300, a main reasoning unit 400, and an output unit 500 can do.
- the data input unit 100 may include a video input unit 110 that receives video data DV for user's emotional recognition and a voice input unit 120 that receives voice data DS of a user.
- the image preprocessing can convert image data (DV) for use of a learning model such as full face or partial face recognition, noise elimination, user facial features and image extraction into an appropriate form.
- a learning model such as full face or partial face recognition, noise elimination, user facial features and image extraction
- Voice pre-processing unit 220 performs the voice pre-processing to extract the user's voice characteristic data (DF 2) from the speech data (DS).
- the speech preprocessor can convert the speech data DS in a suitable manner for using a learning model such as external noise removal, noise reduction, user speech feature extraction, and the like.
- the situation judgment data P is the same as the case where the user is in the conversation state (P 1 ) or the recognition object region (B) which is a part of the entire image region of the image data DV A) and superposition determination data (P 2 ) on whether or not the superposition determination data (P 2 ) is overlapped.
- the preliminary inference unit 300 may generate the dialog determination data P1 for determining whether the user is in the dialog state, based on the face feature data DF1.
- the output unit 500 can output various forms using an activation function such as a sigmoid function, a step function, a softmax function, and a ReLU (Rectified Linear Unit) have.
- an activation function such as a sigmoid function, a step function, a softmax function, and a ReLU (Rectified Linear Unit) have.
- the data preprocessing unit 200 may include an image preprocessing unit 210 and a voice preprocessing unit 220.
- the position adjustment module 214 can adjust the position based on the face element position information AL of the recognition subject area A.
- the position adjustment module 214 can align the image in the horizontal or vertical direction based on the face element position information AL extracted from the landmark detection module 213.
- the face element extraction module 215 can generate the face feature data DF1 based on the recognition subject area A when the sub-recognition subject area AA is not set.
- the sub feature map FM to which the situation judgment value PV of the situation judgment data P is applied is generated through the calculation of the situation judgment data P and the sub feature map FM and a plurality of sub feature maps FM ) Can be integrated to generate the multimodal feature map M.
- the state decision value for the eye is output as 0, and 0 is output by multiplying the state decision value for the eye with the sub feature map (FM) for the eye
- the main inference unit 400 may generate the multimodal feature map M based on the sub feature map excluding the sub feature map for the eye.
- the multimodal feature map M may be generated by merging at least one of the sub feature map FM and the location inference feature map FM 1 using Concat, Merge and Deep Network.
- Emotion Recognition inference unit 430 may infer the emotional state based on the fourth learning model (LM 4), multi-modal characteristic map (M) using a.
- LM 4 fourth learning model
- M multi-modal characteristic map
- the fourth learning model is, it may be a temporal learning models, such as the Recurrent Neural Network etc LSTM (Long Short-Term Memory) , RNNs (Recurrent Neural Network), GRU (Gated Recurrent Unit), temporal features and An artificial intelligence model capable of deducing or analyzing spatial characteristics, machine learning, and a deep learning method.
- LSTM Long Short-Term Memory
- RNNs Recurrent Neural Network
- GRU Gate Recurrent Unit
- An artificial intelligence model capable of deducing or analyzing spatial characteristics, machine learning, and a deep learning method.
- the data the pre-treatment step comprising the image pre-processing method comprising: generating one or more facial feature data (DF 1) from the speech data (DS) speech pre-processing step, image data (DV) for generating a speech feature data (DF 2) from (S200) may be performed.
- DF 1 facial feature data
- DS speech data
- DV image data
- DF 2 speech feature data
- the learning model may be an artificial intelligence, a machine learning, and a deep learning method.
- a preliminary inference step S300 may be performed to generate the circumstance judgment data P regarding whether the user changes the situation according to the temporal order.
- the temporal order may be a dialogue state or data for grasping a characteristic of movement of a body part.
- the sub feature map (FM) including the feature information extracted from the user and the situation determination data (P) including the importance or the use of the feature information are calculated, and the sub feature map (FM) The user can infer the emotional state of the user,
- FIG. 6 is a flowchart illustrating a data preprocessing step of the multimodal emotion recognition method of FIG. 5 in detail.
- a face detection step is performed to detect a recognition target image area in the entire area of the image data DV, and an area to be recognized A corresponding to the user's face.
- a landmark detection step for extracting the face element position information AL of the recognition subject area A is performed.
- the image may be aligned in the horizontal or vertical direction based on the face element position information AL extracted from the landmark detection module 213.
- a sub-recognition object area AA located in the recognition object area A and smaller than the recognition object area A is set based on the face element position information AL in the recognition object area A, A facial element extraction step of generating facial characteristic data DF 1 of the object area AA may be performed.
- the face element extraction module 215 extracts the eye recognition region (A 1 ), a coin recognition area (A 2 ), a mouth recognition area (A 3 ), and at least one face feature data (DF 1 ) for the set sub-recognition object area (AA).
- the face feature data DF 1 may be generated based on the recognition object area A.
- the speech preprocessing step S220 includes a voice correction step and voice feature data extraction step.
- the voice correction step of correcting the voice data DS is performed.
- various types of noise included in the voice data DS may be performed to generate corrected voice data.
- the voice feature data extraction step of extracting the feature of the voice data DS that has undergone the voice correction step and generating the voice feature data DF 2 is performed.
- the user's voice characteristic data DF 2 is generated through one or more modules of voice data such as Mel-frequency cepstral coefficients (MFCC), Geneva Minimalistic Acoustic Parameter Set (eGeMAPS), Logbank, .
- MFCC Mel-frequency cepstral coefficients
- eGeMAPS Geneva Minimalistic Acoustic Parameter Set
- Logbank Logbank
- the facial feature data DF 1 may include the mouth image data DV 2 for the portion corresponding to the mouth of the user in the recognition subject region A.
- the hand detection inference step (S320) is to produce a location inference feature map (FM 1) for location inference data (DM 1), and the sub-feature map (FM), status determination data (P), and position inference characterized
- FM 1 location inference feature map
- FM 2 sub-feature map
- P status determination data
- position inference characterized The emotional state of the user can be inferred based on the map FM 1 .
- the overlap determination data P 2 determines whether or not the recognition target area A and the tracking target area B overlap each other, and recognizes whether or not the corresponding facial feature data DF 1 of the recognition target area A and voice It may include one or more parameter that determines the priority and whether the characteristic data (DF 2).
- the third learning model (LM 3) is a status determination data (P) refer to, multi-modal feature map generation step of generating a multi-modal characteristic map (M) from a plurality of sub-feature map (FM) to (S420) Is performed.
- the user's image data DV is input through the image input unit 110 and the user's voice data DS is input through the voice input unit 120.
- the preliminary inference unit 300 generates the position inference data DM 1 for grasping the movement of the hand through the hand image data DV 1 and generates the position inference data DM 1 based on the position inference data DM 1 1 ) and the recognition subject area A are superimposed on each other, the overlap determination data P 2 is generated.
- the sub feature map generating unit 410 generates the plurality of sub feature maps FM using the third learning model LM 3 , with the face feature data DF 1 corresponding to the eyes, nose, and mouth .
- speech preprocessed speech feature data DF 2 is generated through the speech preprocessing unit 220, and the image preprocessing unit 210 generates face feature data DF 1 and face element position information AL and set the recognition target area (a) based on the facial elements location (AL) including eye recognition area (a 1), coin-area (a 2), mouth recognition area (a 3), recognize the target And transmits the region A to the preliminary inference unit 300.
- face feature data DF 1 and face element position information AL set the recognition target area (a) based on the facial elements location (AL) including eye recognition area (a 1), coin-area (a 2), mouth recognition area (a 3), recognize the target And transmits the region A to the preliminary inference unit 300.
- the preliminary inference unit 300 generates the overlap determination data P 2 on the basis of whether or not the tracking target area B 2 and the recognition target area A are overlapped based on the position inference data DM 1 .
- the preliminary reasoning unit 300 can use the first learning model LM 1 to determine that the user is not in the dialog state. That is, the preliminary reasoning unit 300 can make an inference about whether or not to determine the dialogue state in the step B, which is the next scene, based on the dialog state determination result in the step A.
- Step (C) After Step B, the user indicates a behavior of covering the mouth with the hand.
- the recognition subject region change data may be included in the situation judgment data P and may be weight data for a change in the recognition subject region A, i.e., a region corresponding to the face region of the user.
- the multimodal emotion recognition apparatus 1 can detect a change amount of a head pose of a user, for example, when the user shakes the head to the left or right side, or when the user approaches In the case where a change amount is generated in the recognition subject area A in a case where the recognition subject area A is large or the user moves away from the camera (the size of the recognition subject area A is small) It is possible to improve the accuracy of the user's sensibility recognition by changing the weight of application.
- the multimodal feature map generator 420 generates the multimodal feature map M from the plurality of sub feature maps FM by referring to the situation determination data P including the recognition subject region change data .
- FIG. 11 is an exemplary diagram illustrating a process of recognizing emotion according to a change in situation using a multimodal emotion recognition apparatus according to another embodiment of the present invention.
- the present embodiment differs from the multi-modal emotion recognizing device shown in Figs. 1 to 9 only in the configuration in which a plurality of recognition target areas A and B are formed,
- the method is substantially the same as that method. Therefore, the following description focuses on the characteristic part of this embodiment.
- the multimodal emotion recognition apparatus 1 can recognize emotion of a plurality of users.
- the multimodal emotion recognition apparatus 1 forms the first recognition subject area A A and the first tracking subject area B A for the first user and the first recognition subject area A A 2 recognition target area A B and a second tracking target area B B are formed and a third recognition target area A C and a first tracking target area B C are formed.
- the multimodal sensibility recognition apparatus 1 is configured to recognize each of the users A and B based on the recognition subject areas A A , A B and A C and the tracking subject areas B A , B B and B C , Can be recognized.
- the multimodal emotion recognition apparatus 1 can determine the conversation states of a plurality of users, generate unique voice information of each user, and apply it to each user's emotion recognition.
- the multimodal emotion recognition apparatus 1 may determine that the voice, Information is recognized as the voice information of the first user.
- the multimodal sensibility recognition apparatus 1 may repeatedly perform the above process to generate the voice information unique to each user.
- the voice information may include parameters such as intrinsic wavelength of voice.
- the multimodal emotion recognition apparatus 1 determines whether a specific user is in a speech state based on the mouth-shaped image of the user, If so, the particular voice can be identified as being the voice of the conversational user.
- the multimodal emotion recognition apparatus 1 recognizes the voice inputted at the specific time point as the voice of the third user and performs emotion recognition for the users.
- FIG. 12 is a diagram illustrating an emotion recognition process according to a change in situation using a multimodal emotion recognition apparatus according to another embodiment of the present invention.
- Modal emotional recognition apparatus and the multimodal emotional recognition apparatus described with reference to Figs. 1 to 9 are different from each other only in the configuration in which the weight of the video frame in which the feature map can be formed is given, And therefore, the following description will focus on the characteristic parts of the present embodiment.
- a multimodal emotion recognition apparatus 1 detects a specific frame among a plurality of frames of an image for recognizing the emotion of a user as damage due to over illumination or an unexpected data error
- the temporal learning model for the specific frame in which the feature map can not be formed is not applied when the characteristic map for the specific frame can not be formed.
- the multimodal emotion recognition apparatus (1) The temporal learning model is applied to the substitute frame by setting the last frame immediately before the specific frame, i.e., the feature map, as a substitute frame of the specific frame. At this time, the temporal learning model is applied to the substitute frame by applying a weight according to the time when the feature map could not be formed.
- the temporal learning model may be a temporal learning model such as a circular neural network such as a long short-term memory (LSTM), a recurrent neural network (RNNs), or a gated recurrent unit (GRU).
- LSTM long short-term memory
- RNNs recurrent neural network
- GRU gated recurrent unit
- a first frame (F 2) and second frames (F 2) the recognition target area (A) and a track for forming a feature map The target area B is detected.
- Fig. As shown in (C) to (E) of 12, a third frame (F 3) to the fifth frame (F 5) the recognition target areas (A to form a feature map by the like over one trillion people And the tracking target area B are not detected. Then, As shown in (F) and (G) 12, and the sixth frame (F 6) and the seventh frame (F 7) recognizes the region (A) and tracking the target for forming the characteristic map Area B is detected.
- the first frame (F 1 ) to the seventh frame (F 7 ) are consecutive frames according to the order of time, and the time at which the multimodal emotion recognition apparatus 1 can not form the feature map, that is, (t gap ) is the time from the third frame (F 3 ) to the fifth frame (F 5 ).
- the second frame F 2 is divided into a recognition target area A and a tracking target area B Is the last frame to be detected.
- the second frame F 2 may be the replacement frame for the third frame F 3 to the fifth frame F 5 .
- the multimodal emotion recognition apparatus 1 applies the alternative weight w for the alternative frame when applying the temporal learning model for the alternative frame.
- the multimodal sensibility recognition apparatus 1 sets the replacement weight w to 0 when the feature map detection time t gap is greater than or equal to the reference maximum time T max . That is, when the feature map non-detection time t gap is excessive, distortion of the emotion recognition result can be prevented by excluding the application of the temporal learning model during the feature map non-detection time t gap .
- the replacement weight w is smaller than the characteristic map ratio T max at the reference maximum time T max . detecting a resulting value obtained by dividing the difference value (v 2) of the time (t gap) obtained by subtracting the value (v 1) the reference maximum time (t max) and the reference minimum time (t min) of the. That is, the closer to replace the weight (w) is characterized map non-detection time (t gap) is based becomes larger the closer to the minimum time (T min), characterized in map non-detection time (t gap) is based on the maximum time (T max) Lt; / RTI >
- the emotion recognition process is interrupted by performing the emotion recognition again from the point of time when the feature map is detected, and the sensitivity recognition accuracy is deteriorated.
- the emotion recognition of the user is performed by replacing the frame in which the feature map is not detected with the substitute frame in which the feature map can be detected, thereby performing consecutive emotion recognition, There is an advantage that can be made.
- the system or apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components.
- the systems, devices, and components described in the embodiments may be implemented within a computer system including, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable array (FPA) , A programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions.
- the processing device may execute an operating system (OS) and one or more software applications running on the operating system.
- the processing device may also access, store, manipulate, process, and generate data in response to execution of the software.
- OS operating system
- the processing device may also access, store, manipulate, process, and generate data in response to execution of the software.
- the processing apparatus may be described as being used singly, but those skilled in the art will recognize that the processing apparatus may have a plurality of processing elements and / As shown in FIG.
- the processing unit may comprise a plurality of processors or one processor and one controller.
- Other processing configurations, such as a parallel processor, are also possible.
- the software may comprise a computer program, code, instructions, or a combination of one or more of the foregoing, and may be configured to configure the processing device to operate as desired, or to process it collectively or independently Device can be commanded.
- the software and / or data may be in the form of any type of machine, component, physical device, virtual equipment, computer storage media, or device Or permanently, or temporarily embodied in the signal wave being transmitted.
- the software may be distributed over a networked computer system and stored or executed in a distributed manner.
- the software and data may be stored on one or more computer readable recording media.
- program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like.
- the hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.
- the present invention relates to an apparatus and method for recognizing a multimodal emotion, and is applicable to various apparatuses or methods for recognizing the emotion of a user, and is likely to be used repeatedly in industry.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Social Psychology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
본 발명의 실시예들은 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체에 관한 것이다. 본 기재의 인공지능을 이용한 멀티모달 감성인식 장치는, 인공지능을 이용한 멀티 모달 감성인식 장치에 있어서, 사용자의 영상 데이터 및 음성 데이터를 입력 받는 데이터 입력부, 상기 음성 데이터로부터 음성 특징 데이터를 생성하는 음성 전처리부, 상기 영상 데이터로부터 하나 이상의 얼굴 특징 데이터를 생성하는 영상 전처리부를 포함하는 데이터 전처리부, 상기 영상 데이터에 기반하여, 시간적 순서에 따른 사용자의 상황 변화 여부에 관한 상황 판단 데이터를 생성하는 예비 추론부 및 상기 음성 특징 데이터 또는 상기 얼굴 특징 데이터에 기반하여 적어도 하나의 서브 특징맵을 생성하고, 상기 서브 특징맵 및 상기 상황 판단 데이터에 기반하여 사용자의 감성 상태를 추론하는 메인 추론부를 포함한다.
Description
본 발명의 실시예들은 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체에 관한 것이다.
종래의 기술에서는 가림(Occlusion)을 인식하여 오류로 처리한다. 손으로 입을 가린다는 것은 중요한 정보로 감정 상태의 세기 정도를 알아낼 수 있다. 단순히 정적 이미지로는 가림(Occlusion) 문제로 인식 정보가 부족할 수가 있다.
또한, 얼굴 표정으로 감정을 인식할 때 대상자가 말을 하면 잘못된 감정 인식 결과를 도출한다. 표정인식을 통한 감정인식은 입모양이 매우 중요한 정보지만 말을 할 때는 입모양이 수시로 변하기 때문에 놀람, 화, 웃음 등과 같은 입모양이 나올 수 있어 잘못된 인식 결과를 초래한다.
이와 같이, 종래의 기술 중에는 얼굴 표정만으로 감정을 인식하는 경우 이를 해결하기 위한 대안은 거의 없으며, 멀티 모달인 경우에는 이러한 노이즈를 최소화하기 위해 얼굴 표정과 음성 정보를 혼용하여 오류를 최소화하는 방법으로 접근하고 있다. 본 특허에서는 얼굴 혹은 입모양을 추적하여 현재 말하는 상태인지 판별한 후, 말하는 상태인 경우에는 입모양 정보를 최소화하고 음성 특징정보의 비중을 확대하는 방법으로 정확한 감정 인식 결과를 도출 할 수 있도록 한다.
본 발명의 실시예들은 손의 움직임 및 식별 정보, 입모양에 대한 정보, 음성 정보, 부분 표정 정보와 더불어 시간적 정보를 이용하여 보다 정확한 감정인식을 수행하는 멀티 모달 감성인식 장치, 방법 및 저장매체를 제공하고자 한다.
본 발명의 실시예의 일 측면에 따른 인공지능을 이용한 멀티 모달 감성인식 장치는, 인공지능을 이용한 멀티 모달 감성인식 장치에 있어서, 사용자의 영상 데이터 및 음성 데이터를 입력 받는 데이터 입력부; 상기 음성 데이터로부터 음성 특징 데이터를 생성하는 음성 전처리부, 상기 영상 데이터로부터 하나 이상의 얼굴 특징 데이터를 생성하는 영상 전처리부를 포함하는 데이터 전처리부; 상기 영상 데이터에 기반하여, 시간적 순서에 따른 사용자의 상황 변화 여부에 관한 상황 판단 데이터를 생성하는 예비 추론부; 및 상기 음성 특징 데이터 또는 상기 얼굴 특징 데이터에 기반하여 적어도 하나의 서브 특징맵을 생성하고, 상기 서브 특징맵 및 상기 상황 판단 데이터에 기반하여 사용자의 감성 상태를 추론하는 메인 추론부;를 포함한다.
또한, 상기 상황 판단 데이터는, 사용자가 대화 상태인지 여부에 대한 대화 판단 데이터 또는 영상 데이터의 전체 영상 영역 중 일부인 추적 대상 영역과 상기 추적 대상 영역과 다른 인식 대상 영역과의 중첩 여부에 대한 중첩 판단 데이터를 포함하고, 상기 예비 추론부는, 상기 얼굴 특징 데이터에 기반하여 사용자가 대화 상태 인지 여부를 판단하는 대화 판단 데이터를 생성하거나, 상기 예비 추론부는, 상기 영상 데이터에 기반하여 상기 추적 대상 영역의 위치를 추론하기 위한 위치 추론 데이터를 생성하고, 상기 얼굴 특징 데이터 및 상기 위치 추론 데이터에 기반하여, 상기 추적 대상 영역과 상기 인식 대상 영역의 중첩 여부에 대한 중첩 판단 데이터를 생성할 수 있다.
또한, 상기 예비 추론부는, 제1 학습 모델을 이용하고, 상기 얼굴 특징 데이터에 기반하여 상기 대화 판단 데이터를 생성하는 대화 상태 추론모듈;을 포함할 수 있다.
또한, 상기 얼굴 특징 데이터는, 상기 인식 대상 영역 중 사용자의 입에 대응되는 부분에 대한 영상 데이터인 입 영상 데이터를 포함하고, 상기 대화 상태 추론모듈은, 상기 제1 학습 모델을 이용하여, 상기 입 영상 데이터로부터 사용자의 대화 상태 여부에 대한 상기 대화 판단 데이터를 생성할 수 있다.
또한, 상기 예비 추론부는, 상기 영상 데이터에서 상기 추적 대상 영역에 대한 손 영상 데이터를 검출하고, 제2 학습 모델을 이용하여 상기 손 영상 데이터에 기반한 상기 위치 추론 데이터를 생성하는 손 검출 추론모듈; 및 상기 얼굴 특징 데이터 및 상기 위치 추론 데이터에 기반하여 상기 인식 대상 영역과 상기 추적 대상 영역의 중첩 여부를 판단하고, 중첩 여부 판단 결과에 따라 상기 중첩 판단 데이터를 생성하는 얼굴 겹침 검사모듈;을 포함할 수 있다.
또한, 상기 손 검출 추론모듈은, 상기 위치 추론 데이터에 대한 위치 추론 특징맵을 생성하고, 상기 서브 특징맵, 상기 상황 판단 데이터, 및 상기 위치 추론 특징맵에 기반하여 사용자의 감성 상태를 추론할 수 있다.
또한, 상기 상황 판단 데이터는, 상기 인식대상영역의 변화에 대한 인식대상영역 변화데이터를 더 포함하고, 상기 인식대상영역의 변화량이 커질수록, 상기 인식대상영역 변화데이터의 가중치가 증가될 수 있다.
또한, 상기 추적대상영역 및 상기 인식대상영역은 복수의 사용자 별로 각각 형성되며, 상기 예비 추론부는 상기 추적대상영역 및 상기 인식대상영역에 기초하여 각 사용자에 대한 상기 상황 판단 데이터를 생성하고, 복수 사용자들의 대화 상태를 각각 판단하여, 각 사용자의 고유 목소리 정보를 생성하여, 이를 각 사용자의 감성 인식에 적용할 수 있다.
또한, 상기 메인 추론부는, 제3 학습 모델을 이용하여 상기 음성 특징 데이터 및 상기 얼굴 특징 데이터에 기반하여 상기 음성 특징 데이터 및 상기 얼굴 특징 데이터에 대한 상기 복수의 서브 특징맵을 생성하는 복수의 서브 특징맵 생성부;
상기 상황 판단 데이터를 참조하여, 상기 복수의 서브 특징맵으로부터 멀티 모달 특징맵을 생성하는 멀티 모달 특징맵 생성부; 및 제4 학습 모델을 사용하여, 상기 멀티 모달 특징맵에 기반하여 상기 감성상태를 추론하는 감성 인식 추론부;를 포함할 수 있다.
또한, 상기 상황 판단 데이터는, 상기 사용자의 상황에 따라 기설정된 상황 판단 값을 가지며, 상기 멀티 모달 특징맵 생성부는, 상기 복수의 서브 특징맵 중 적어도 하나에 상기 상황 판단 값을 적용하여 상기 멀티 모달 특징맵을 생성하는 멀티 모달 감성 인식 장치.
또한, 상기 음성 전처리부는, 상기 음성 데이터를 보정하는 음성 보정 모듈; 및 상기 음성 보정 모듈을 거친 음성 데이터의 특징을 추출하여, 상기 음성 특징 데이터를 생성하는 음성 특징 데이터 추출 모듈;를 포함할 수 있다.
또한, 상기 영상 전처리부는, 상기 영상 데이터의 전체 영역에서 인식 대상 영역, 상기 인식 대상 영역은 사용자의 얼굴에 대응되는 영역인,을 검출하는 얼굴 검출기; 상기 인식 대상 영역을 보정하는 이미지 전처리기; 및 상기 인식 대상 영역 내에 위치하며 상기 인식 대상 영역보다 작은 서브 인식 대상 영역을 설정하고, 상기 서브 인식 대상 영역의 상기 얼굴 특징 데이터를 생성하는 얼굴 요소 추출기;를 포함할 수 있다.
또한, 상기 영상 전처리부는, 상기 인식 대상 영역의 상기 얼굴 요소 위치 정보를 추출하는 랜드마크 검출모듈;를 더 포함할 수 있다.
또한, 상기 영상 전처리부는, 상기 인식 대상 영역의 상기 얼굴 요소 위치 정보에 기반하여 위치를 조정하는 위치 조정기;를 포함할 수 있다.
또한, 활성화 함수를 이용하여, 상기 감성상태의 결과를 출력하는 출력부;를 더 포함할 수 있다.
또한. 상기 영상 데이터는 복수의 프레임을 포함하고, 상기 복수의 프레임 중 어느 특정한 프레임들에 기초하여 특징맵을 형성할 수 없는 경우, 상기 특징맵을 형성할 수 없는 모든 프레임에 대하여 시간적 학습모델 적용을 배제하고, 상기 특징맵을 형성할 수 없는 프레임 직전의 특징맵이 형성되는 마지막 프레임을 대체 프레임으로 설정하여, 상기 대체 프레임에 대하여 상기 시간적 학습 모델을 적용하여, 사용자의 상기 감성상태를 인식하고, 상기 특징맵을 형성할 수 없는 모든 프레임에 대응되는 시간은 특징맵 비검출 시간이며, 상기 특징맵 비검출 시간 동안 상기 대체 프레임에 상기 시간적 학습 모델을 적용할 수 있다.
본 발명의 실시예의 다른 측면에 따른 인공지능을 이용한 멀티모달 감성 인식방법은, 인공지능을 이용한 멀티 모달 감성인식 방법에 있어서, 사용자의 영상 데이터 및 음성 데이터를 입력 받는 데이터 입력 단계; 상기 음성 데이터로부터 음성 특징 데이터를 생성하는 음성 전처리 단계, 상기 영상 데이터로부터 하나 이상의 얼굴 특징 데이터를 생성하는 영상 전처리단계를 포함하는 데이터 전처리 단계; 상기 영상 데이터에 기반하여, 시간적 순서에 따른 사용자의 상황 변화 여부에 관한 상황 판단 데이터를 생성하는 예비 추론 단계; 및 상기 음성 특징 데이터 또는 상기 얼굴 특징 데이터에 기반하여 적어도 하나의 서브 특징맵을 생성하고, 상기 서브 특징맵 및 상기 상황 판단 데이터에 기반하여 사용자의 감성 상태를 추론하는 메인 추론 단계;를 포함한다.
또한, 상기 상황 판단 데이터는, 사용자가 대화 상태인지 여부에 대한 대화 판단 데이터 또는 영상 데이터의 전체 영상 영역 중 일부인 추적 대상 영역과 상기 추적 대상 영역과 다른 인식 대상 영역과의 중첩 여부에 대한 중첩 판단 데이터를 포함하고, 상기 예비 추론 단계는, 상기 얼굴 특징 데이터에 기반하여 사용자가 대화 상태 인지 여부를 판단하는 대화 판단 데이터를 생성하거나, 상기 예비 추론 단계는, 상기 영상 데이터에 기반하여 상기 추적 대상 영역의 위치를 추론하기 위한 위치 추론 데이터를 생성하고, 상기 얼굴 특징 데이터 및 상기 위치 추론 데이터에 기반하여, 상기 추적 대상 영역과 상기 인식 대상 영역의 중첩 여부에 대한 중첩 판단 데이터를 생성할 수 있다.
또한, 상기 예비 추론 단계는, 제1 학습 모델을 이용하고, 상기 얼굴 특징 데이터에 기반하여 상기 대화 판단 데이터를 생성하는 대화 상태 추론 단계;를 포함하고, 상기 얼굴 특징 데이터는, 상기 인식 대상 영역 중 사용자의 입에 대응되는 부분에 대한 영상 데이터인 입 영상 데이터를 포함하고, 상기 대화 상태 추론 단계는, 상기 제1 학습 모델을 이용하여, 상기 입 영상 데이터로부터 사용자의 대화 상태 여부에 대한 상기 대화 판단 데이터를 생성할 수 있다.
또한, 상기 예비 추론 단계는, 상기 영상 데이터에서 상기 추적 대상 영역에 대한 손 영상 데이터를 검출하고, 제2 학습 모델을 이용하여 상기 손 영상 데이터에 기반한 상기 위치 추론 데이터를 생성하는 손 검출 추론 단계; 및 상기 얼굴 특징 데이터 및 상기 위치 추론 데이터에 기반하여 상기 인식 대상 영역과 상기 추적 대상 영역의 중첩 여부를 판단하고, 중첩 여부 판단 결과에 따라 상기 중첩 판단 데이터를 생성하는 얼굴 겹침 검사 단계;를 포함할 수 있다.
또한, 상기 손 검출 추론 단계는, 상기 위치 추론 데이터에 대한 위치 추론 특징맵을 생성하고, 상기 서브 특징맵, 상기 상황 판단 데이터, 및 상기 위치 추론 특징맵에 기반하여 사용자의 감성 상태를 추론할 수 있다.
또한, 상기 메인 추론 단계는, 제3 학습 모델을 이용하여 상기 음성 특징 데이터 및 상기 얼굴 특징 데이터에 기반하여 상기 음성 특징 데이터 및 상기 얼굴 특징 데이터에 대한 상기 복수의 서브 특징맵을 생성하는 복수의 서브 특징맵 생성 단계; 상기 상황 판단 데이터를 참조하여, 상기 복수의 서브 특징맵으로부터 멀티 모달 특징맵을 생성하는 멀티 모달 특징맵 생성 단계; 및 제4 학습 모델을 사용하여, 상기 멀티 모달 특징맵에 기반하여 상기 감성상태를 추론하는 감성 인식 추론 단계;를 포함할 수 있다.
또한, 상기 상황 판단 데이터는, 상기 사용자의 상황에 따라 기설정된 상황 판단 값을 가지며, 상기 멀티 모달 특징맵 생성 단계는, 상기 복수의 서브 특징맵 중 적어도 하나에 상기 상황 판단값을 적용하여 상기 멀티 모달 특징맵을 생성할 수 있다.
또한, 상기 음성 전처리 단계는, 상기 음성 데이터를 보정하는 음성 보정 단계; 및 상기 음성 보정 단계를 거친 음성 데이터의 특징을 추출하여, 상기 음성 특징 데이터를 생성하는 음성 특징 데이터 추출 단계;를 포함할 수 있다.
또한, 상기 영상 전처리 단계는, 상기 영상 데이터의 전체 영역에서 인식 대상 영역, 상기 인식 대상 영역은 사용자의 얼굴에 대응되는 영역인,을 검출하는 얼굴 검출 단계; 상기 인식 대상 영역을 보정하는 이미지 전처리 단계; 및 상기 인식 대상 영역 내에 위치하며 상기 인식 대상 영역보다 작은 서브 인식 대상 영역을 설정하고, 상기 서브 인식 대상 영역의 상기 얼굴 특징 데이터를 생성하는 얼굴 요소 추출 단계;를 포함할 수 있다.
또한, 상기 영상 전처리 단계는, 상기 인식 대상 영역의 얼굴 요소 위치 정보를 추출하는 랜드마크 검출 단계; 를 더 포함할 수 있다.
또한, 상기 영상 전처리 단계는, 상기 인식 대상 영역의 상기 얼굴 요소 위치 정보에 기반하여 위치를 조정하는 위치 조정 단계;를 포함할 수 있다.
본 발명의 실시예의 또 다른 측면에 따른 인공지능을 이용한 멀티 모달 감성인식 방법을 수행하는 컴퓨터 프로그램 코드들을 저장하는 컴퓨터 판독가능 저장 매체는, 멀티 모달 감성인식 방법을 수행하는 컴퓨터 프로그램 코드들을 저장하는 컴퓨터 판독가능 저장 매체에 있어서, 상기 인공지능을 이용한 멀티 모달 감성인식 방법은, 사용자의 영상 데이터 및 음성 데이터를 입력 받는 데이터 입력 단계; 상기 음성 데이터로부터 음성 특징 데이터를 생성하는 음성 전처리 단계, 상기 영상 데이터로부터 하나 이상의 얼굴 특징 데이터를 생성하는 영상 전처리단계를 포함하는 데이터 전처리 단계; 상기 영상 데이터에 기반하여, 시간적 순서에 따른 사용자의 상황 변화 여부에 관한 상황 판단 데이터를 생성하는 예비 추론 단계; 및 상기 음성 특징 데이터 또는 상기 얼굴 특징 데이터에 기반하여 적어도 하나의 서브 특징맵을 생성하고, 상기 서브 특징맵 및 상기 상황 판단 데이터에 기반하여 사용자의 감성 상태를 추론하는 메인 추론 단계;를 포함한다.
즉, 본 발명의 일측면에 따르면, 비디오 분석을 이용하여 인간의 얼굴로부터 감정을 인식하는 시스템 및 방법을 제공한다. 이 시스템은 하나 이상의 인간의 얼굴을 포함하는 비디오를 분석하고 각 얼굴에 대한 하나 이상의 요소 (코, 입, 이마, 눈)를 식별하고 식별 된 요소를 모니터링한다. 실시예에서, 시스템은 비디오에 나타나는 사람의 하나 이상의 얼굴 요소의 특성을 나타내는 인덱스(얼굴 특징 데이터)의 제 1 세트를 획득하기 위해 비디오의 하나 이상의 비디오 프레임을 분석한다. 시스템은 또한 하나 이상의 비디오 프레임의 오디오 데이터를 분석하여 사람의 음성 특징을 나타내는 제 2 지표 세트 (음성 특징 데이터)를 얻는다. 얼굴 요소 특성을 나타내는 인덱스의 제 1 세트 및 음성 특성을 나타내는 인덱스의 제 2 세트를 사용하여, 시스템은 하나 이상의 비디오 프레임에 대한 사람의 적어도 하나의 감정을 결정한다.
실시예에서, 제 1 인덱스 세트 및 제 2 인덱스 세트를 사용하여 적어도 하나의 감정을 결정하기 위해, 시스템은 제 1 인덱스 세트에 제 1 가중치를 적용하고 제 2 인덱스 세트에 제 2 가중치를 적용한다. 실시 예에서, 시스템은 하나 이상의 비디오 프레임으로부터 식별 된 이벤트에 기초하여 제1 가중치 및 제2 가중치를 조정한다.
예시적으로, 도 12a 내지 12g를 참조하면, 시스템은 제 1 부분 (프레임 F1, F2), 제 1 부분 다음의 제 2 부분(프레임 F3, F4, F5) 및 제 2 부분 다음의 제 3 부분(프레임 F6, F7)을 포함하는 비디오를 분석한다. 실시예에서, 제 1 부분에 대해, 시스템은 제 1 가중치(안면 성분 특징 인덱스에 대해)로서 1.0 (디폴트)을 사용하고 제 2 가중치로서(보컬 특성에 대해) 0.2(디폴트)를 사용하여 제 1 부분(프레임 F1, F2)을 분석한다. 시스템이 두 번째 부분에서 얼굴 A의 하나 이상의 요소를 식별 할 수없는 경우(비정상적인 작동 또는 손에 의한 식별제한으로 인해) 시스템은 첫 번째 가중치를 1.0에서 프레임 F3, F4, F5에 대하여 0.8, 0.6, 0.4로 적용하면서, 시스템이 얼굴 (A)의 하나 이상의 요소가 비디오 프레임으로부터 이용 가능할 때 시스템이하는 것보다 제 1 인덱스 세트(얼굴 요소 특성)에 덜 의존하는 제 2 가중치로서 0.2를 유지한다. 특정 실시예에서, 시스템은 또한 제 1 가중치를 1.0에서 0.8, 0.6 및 0.4로 점차 낮추면서 제 2 부분에 대한 제2 가중치를 조정할 수있다. 실시예에서, 시스템은 제 2 부분에 대해 제 2 가중치를 0.2에서 0.5로 증가시켜, 시스템이 제 1 부분에 대해 시스템이 수행하는 것보다 제 2 인덱스 세트(목소리 특성)에 더 많이 의존하게 한다. 특정 실시 예에서, 제2 부분에 대해, 시스템은 얼굴 A의 하나 이상의 요소가 비디오 프레임으로부터 이용 가능하지 않을 때, 제1 가중치의 비율을 증가시키기 위해 제 1 가중치 및 제 2 가중치 중 하나 이상을 조정할 수 있다. 실시 예에서, 제3 부분에 대해, 시스템은 제2 부분의 비정상적인 동작(또는 손에 의한 방해)으로서의 제 1 부분이 처리 될 때 동일한 가중치를 사용할 수 있다.
상기한 바와 같은 본 발명의 실시예에 따르면, 멀티 모달 감성 인식 장치는 대화하는 경우 및 손에 따른 표정 가림을 하는 경우의 감정 상태를 정확하게 파악할 수 있다.
도 1은 본 발명의 실시예에 따른 멀티모달 감성 인식 장치의 구성을 개략적으로 도시한 도면이다.
도 2는 도 1의 멀티모달 감성 인식 장치 중 데이터 전처리부의 구성을 개략적으로 도시한 도면이다.
도 3는 도 1의 멀티모달 감성 인식 장치 중 예비 추론부의 구성을 개략적으로 도시한 도면이다.
도 4는 도 1의 멀티모달 감성 인식 장치 중 메인 추론부의 구성을 개략적으로 도시한 도면이다.
도 5는 도 1의 멀티모달 감성 인식 장치에 의한 멀티모달 감성 인식 방법을 보여주는 순서도이다.
도 6은 도 5의 멀티모달 감성 인식 방법 중 데이터 전처리 단계를 상세하게 보여주는 순서도이다.
도 7은 도 5의 멀티모달 감성 인식 방법 중 예비 추론 단계를 상세하게 보여주는 순서도이다.
도 8은 도 5의 멀티모달 감성 인식 방법 중 메인 추론 단계를 상세하게 보여주는 순서도이다.
도 9는 도 1의 멀티모달 감성 인식 장치를 이용한 상황 변화 여부에 따른 감성 인식 과정을 보여주는 예시적인 도면이다.
도 10은 본 발명의 다른 실시예에 따른 멀티모달 감성 인식 장치를 이용한 상황 변화에 따른 감성 인식 과정을 보여주는 예시적인 도면이다.
도 11은 본 발명의 또 다른 실시예에 따른 멀티모달 감성 인식 장치를 이용한 상황 변화에 따른 감성 인식 과정을 보여주는 예시적인 도면이다.
도 12는 본 발명의 또 다른 실시예에 따른 멀티모달 감성 인식 장치를 이용한 상황 변화에 따른 감성 인식 과정을 보여주는 예시적인 도면이다.
이하, 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시 할 수 있도록 상세히 설명한다.
본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조부호를 붙였다. 또한, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다.
본 발명에 있어서 "~상에"라 함은 대상부재의 위 또는 아래에 위치함을 의미하는 것이며, 반드시 중력방향을 기준으로 상부에 위치하는 것을 의미하는 것은 아니다. 또한, 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 하며, 도면을 참조하여 설명할 때 동일하거나 대응하는 구성 요소는 동일한 도면부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
본 발명은 대상자의 동영상과 음성 데이터를 기반으로 얼굴 표정, 말 상태, 손, 음성을 고려한 인공지능을 이용하여 보다 정확한 감성인식 결과를 도출한다.
도 1은 본 발명의 실시예에 따른 멀티모달 감성 인식 장치의 구성을 개략적으로 도시한 도면이다.
도 1을 참조하면, 멀티 모달 감성 인식 장치(10)는, 데이터 입력부(100), 데이터 전처리부(200), 예비 추론부(300), 메인 추론부(400) 및 출력부(500)를 포함할 수 있다.
데이터 입력부(100)는 사용자의 영상 데이터(DV) 및 음성 데이터(DS)를 입력 받을 수 있다.
데이터 입력부(100)는 사용자의 감성 인식을 하기 위한 영상 데이터(DV)를 수신 받는 영상 입력부(110) 및 사용자의 음성 데이터(DS)를 수신 받는 음성 입력부(120)를 포함할 수 있다.
또한, 데이터 전처리부(200)는 음성 데이터(DS)로부터 음성 특징 데이터(DF2)를 생성하는 음성 전처리부(220), 영상 데이터(DV)로부터 하나 이상의 얼굴 특징 데이터(DF1)를 생성하는 영상 전처리부(210)를 포함할 수 있다.
이 때, 얼굴 특징 데이터(DF1)는 이미지, 위치 정보, 크기 정보, 얼굴 비율 정보, 뎁스 정보(Depth Information) 중 적어도 하나 이상을 포함할 수 있고, 음성 특징 데이터(DF2)는 억양, 음높이 정보, 발성 강도, 발화속도 등 음성의 특징을 나타낼 수 있는 정보를 포함할 수 있다.
영상 전처리부(210)는 영상 데이터(DV)로부터 사용자의 얼굴 특징 데이터(DF1)를 추출하기 위한 영상 전처리를 수행한다.
상기 영상 전처리는, 얼굴 전체 또는 부분 인식, 노이즈 제거, 사용자 얼굴 특징 및 이미지 추출 등 학습 모델을 사용하기 위한 영상 데이터(DV)를 적절한 양태로 변환할 수 있다.
음성 전처리부(220)는 음성 데이터(DS)로부터 사용자의 음성 특징 데이터(DF2)를 추출하기 위한 음성 전처리를 수행한다.
상기 음성 전처리는, 외부 소음 제거, 노이즈 제거, 사용자 음성 특징 추출 등 학습 모델을 사용하기 위한 적절한 양태로 음성 데이터(DS)를 변환할 수 있다.
예비 추론부(300)는, 영상 데이터(DV)에 기반하여, 시간적 순서에 따른 사용자의 상황 변화 여부에 관한 상황 판단 데이터(P)를 생성할 수 있다.
이 때, 상황 판단 데이터(P)는, 사용자가 대화 상태인지 여부에 대한 대화 판단 데이터(P1) 또는 영상 데이터(DV)의 전체 영상 영역 중 일부인 추적 대상 영역(B)과 다른 인식 대상 영역(A)과의 중첩 여부에 대한 중첩 판단 데이터(P2)를 포함할 수 있다.
상세하게는, 예비 추론부(300)는 영상 데이터(DV)에 기반하여 추적 대상 영역(B)의 위치를 추론하기 위한 위치 추론 데이터(DM1)를 생성하고, 얼굴 특징 데이터(DF1) 및 위치 추론 데이터(DM1)에 기반하여, 추적 대상 영역(B)과 인식 대상 영역(A)의 중첩 여부에 대한 중첩 판단 데이터(P2)를 생성할 수 있다.
또한, 예비 추론부(300)는, 얼굴 특징 데이터(DF1)에 기반하여 사용자가 대화 상태 인지 여부를 판단하는 대화 판단 데이터(P1)를 생성할 수 있다.
메인 추론부(400)는, 음성 특징 데이터(DF2) 또는 얼굴 특징 데이터(DF1)에 기반하여 적어도 하나의 서브 특징맵(FM)을 생성하고, 서브 특징맵(FM) 및 상황 판단 데이터(P)에 기반하여 사용자의 감성 상태를 추론할 수 있다.
출력부(500)는 메인 추론부(400)에서 추론된 감성상태의 결과를 출력할 수 있다.
이 때, 출력부(500)는 시그모이드 함수(Sigmoid Function), 단계 함수(Step Function), 소프트맥스 함수(Softmax), ReLU(Rectified Linear Unit)등 활성화 함수를 이용하여 다양한 형태로 출력할 수 있다.
도 2는 도 1의 멀티모달 감성 인식 장치 중 데이터 전처리부의 구성을 개략적으로 도시한 도면이다.
도 2를 참조하면, 데이터 전처리부(200)는 영상 전처리부(210) 및 음성 전처리부(220)를 포함할 수 있다.
영상 전처리부(210)는 얼굴 검출기(211), 이미지 전처리 모듈(212), 랜드 마크 검출모듈(213), 위치 조정모듈(214) 및 얼굴 요소 추출 모듈(215)을 포함 할 수 있다.
얼굴 검출기(211)는 영상 데이터(DV)의 전체 영역에서 사용자의 얼굴에 대응되는 영역인 인식 대상 영역(A)을 검출할 수 있다.
이미지 전처리 모듈(212)은 인식 대상 영역(A)을 보정할 수 있다.
상세하게는, 이미지 전처리 모듈(212)은 이미지의 밝기, 블러(Blur)의 보정, 및 영상 데이터(DV)의 노이즈 제거를 수행할 수 있다.
랜드마크 검출모듈(213)은 인식 대상 영역(A)의 얼굴 요소 위치 정보(AL)를 추출할 수 있다.
상세하게는, 인식 대상 영역(A) 중 얼굴, 눈, 입, 코, 이마 등 얼굴 중요 요소의 위치 정보를 파악하여 얼굴 인식이 가능하게 수행할 수 있다.
위치 조정모듈(214)은 인식 대상 영역(A)의 얼굴 요소 위치 정보(AL)에 기반하여 위치를 조정할 수 있다.
상세하게는, 위치 조정모듈(214)은 랜드마크 검출모듈(213)로부터 추출된 얼굴 요소 위치 정보(AL)를 기준으로 수평 또는 수직에 맞춰 이미지를 정렬할 수 있다.
얼굴 요소 추출 모듈(215)은 인식 대상 영역(A) 내에 위치하며 인식 대상 영역(A)보다 작은 서브 인식 대상 영역(AA)을 설정하고, 서브 인식 대상 영역(AA)의 얼굴 특징 데이터(DF1)를 생성할 수 있다.
서브 인식 대상 영역(AA)은 얼굴, 눈, 입, 코, 이마 등 적어도 하나 이상의 얼굴 요소가 판별된 복수의 영역 또는 하나의 영역일 수 있다.
예를 들어, 인식 대상 영역(A) 중 얼굴 요소 위치 정보(AL)가 추출된 눈, 코, 입이 추출될 경우, 얼굴 요소 추출 모듈(215)는 서브 인식 대상 영역(AA)인 눈 인식 영역(A1), 코 인식 영역(A2), 입 인식 영역(A3)을 설정 및 상기 설정된 서브 인식 대상 영역(AA)에 대해 적어도 하나 이상의 얼굴 특징 데이터(DF1)를 생성할 수 있다.
또한, 얼굴 요소 추출 모듈(215)은 서브 인식 대상 영역(AA)이 설정되지 않을 경우, 인식 대상 영역(A)을 기반으로 얼굴 특징 데이터(DF1)를 생성할 수 있다.
음성 전처리부(220)는 음성 보정 모듈(221), 음성 특징 데이터 추출 모듈(222)을 포함할 수 있다.
음성 보정 모듈(221)은 음성 데이터(DS)를 보정할 수 있다.
상세하게는, 음성 보정 모듈(221)은 음성 데이터(DS)에 포함된 다양한 노이즈 및 외부 소음 제거, 음량 조절, 주파수 보정 등 다양한 보정 방법을 수행하여, 보정된 음성 데이터를 생성할 수 있다.
음성 특징 데이터 추출 모듈(222)은 음성 보정 모듈(221)을 거친 음성 데이터(DS)의 특징을 추출하여, 음성 특징 데이터(DF2)를 생성할 수 있다.
상세하게는, 음성 특징 데이터 추출 모듈(222)은 MFCC(Mel-frequency Cepstral Coefficients), eGeMAPS(Geneva Minimalistic Acoustic Parameter Set), Logbank 등과 같은 음성 데이터, 주파수 및 스펙트럼 분석 모듈 중 하나 이상의 모듈을 통하여 사용자의 음성 특징 데이터(DF2)를 생성 할 수 있다.
이 때, 음성 특징 데이터 추출 모듈(222)은 상기 보정된 음성 데이터를 사용하거나, 음성 데이터(DS)를 사용할 수도 있다.
도 3은 도 1의 멀티모달 감성 인식 장치 중 예비 추론부의 구성을 개략적으로 도시한 도면이다.
도 3을 참조하면, 예비 추론부(300)는 손 검출 추론모듈(310), 대화 상태 추론모듈(320) 및 얼굴 겹침 검사모듈(330)을 포함할 수 있다.
대화 상태 추론모듈(320)은, 제1 학습 모델(LM1)을 이용하고, 얼굴 특징 데이터(DF1)에 기반하여 대화 판단 데이터(P1)를 생성할 수 있다.
상세하게는, 대화 상태 추론모듈(320)은 사용자의 얼굴 특징 데이터(DF1)의 전체 또는 부분을 사용하여, 사용자가 대화 상태인지를 판별할 수 있는 제1 학습 모델(LM1)을 이용하여, 대화 판단 여부인 대화 판단 데이터(P1)를 생성할 수 있다.
얼굴 특징 데이터(DF1)는, 인식 대상 영역(A) 중 사용자의 입에 대응되는 부분에 대한 영상 데이터(DV)인 입 영상 데이터(DV2)를 포함하고, 제1 학습 모델(LM1)을 이용하여, 입 영상 데이터(DV2)로부터 사용자의 대화 상태 여부에 대한 대화 판단 데이터(P1)를 생성할 수 있다.
제1 학습 모델(LM1)은 LSTM(Long Short-Term Memory), RNNs(Recurrent Neural Network), DNN(Deep Neural Networks), CNN(Convolutional Neural Network) 등 시간적 특징 또는 공간적 특징을 추론 할 수 있는 인공지능 모델, 머신 러닝, 딥 러닝 방법 중 적어도 하나 이상의 방법일 수 있다.
손 검출 추론모듈(310)은, 영상 데이터(DV)에서 추적 대상 영역(B)에 대한 손 영상 데이터(DV1)를 검출하고, 제2 학습 모델(LM2)을 이용하여 손 영상 데이터(DV1)에 기반한 위치 추론 데이터(DM1)를 생성할 수 있다.
이 때, 제2 학습 모델(LM2)은 LSTM(Long Short-Term Memory), RNNs(Recurrent Neural Network), DNN(Deep Neural Networks), CNN(Convolutional Neural Network) 등 시간적 특징 또는 공간적 특징을 추론 할 수 있는 인공지능 모델, 머신 러닝, 딥 러닝 방법 중 적어도 하나 이상의 방법이며, 이를 통해 손에 대한 위치 추론 데이터(DM1)를 생성할 수 있다.
또한, 손 검출 추론모듈(310)은, 위치 추론 데이터(DM1)에 대한 위치 추론 특징맵(FM1)을 생성하고, 서브 특징맵(FM), 상황 판단 데이터(P), 및 위치 추론 특징맵(FM1)에 기반하여 사용자의 감성 상태를 추론할 수 있다.
이 때, 위치 추론 특징맵(FM1)은 손에 대한 특징 정보, 즉, 손에 대한 제스처 및 손에 대한 위치에 대한 정보 등 손의 움직임의 의미 있는 정보를 포함할 수 있다.
얼굴 겹침 검사모듈(330)은, 얼굴 특징 데이터(DF1) 및 위치 추론 데이터(DM1)에 기반하여 인식 대상 영역(A)과 추적 대상 영역(B)의 중첩 여부를 판단하고, 중첩 여부 판단 결과에 따라 중첩 판단 데이터(P2)를 생성 할 수 있다.
상세하게는, 중첩 판단 데이터(P2)는 인식 대상 영역(A)과 추적 대상 영역(B)의 중첩 여부를 판단하여, 인식 대상 영역(A)의 해당하는 얼굴 특징 데이터(DF1)와 음성 특징 데이터(DF2)의 중요도 및 사용 여부를 결정하는 하나 이상의 파라미터를 생성할 수 있다.
도 4는 도 1의 멀티모달 감성 인식 장치 중 메인 추론부의 구성을 개략적으로 도시한 도면이다.
도 4를 참조하면, 메인 추론부(400)는, 복수의 서브 특징맵 생성부(410; 411, 412, 413, 414), 멀티 모달 특징맵 생성부(420) 및 감성 인식 추론부(430)를 포함할 수 있다.
복수의 서브 특징맵 생성부(410; 411, 412, 413, 414)는 제3 학습 모델(LM3)을 이용하여 음성 특징 데이터(DF2) 및 얼굴 특징 데이터(DF1)에 기반하여 음성 특징 데이터(DF2) 및 얼굴 특징 데이터(DF1)에 대한 복수의 서브 특징맵(FM)을 생성할 수 있다.
상세하게는, 제3 학습 모델(LM3)은 DNN(Deep Neural Networks), CNN(Convolutional Neural Network) 등을 적어도 하나 이상의 공간적 특징을 추론할 수 있는 인공지능 모델, 머신 러닝, 딥 러닝 방법 중 적어도 하나 이상의 방법일 수 있고, 제3 학습 모델(LM3)을 이용하여, 음성 특징 데이터(DF2) 및 얼굴 특징 데이터(DF1)의 특징이 함축된 복수의 서브 특징맵(FM)을 생성할 수 있다.
멀티 모달 특징맵 생성부(420)는 상황 판단 데이터(P)를 참조하여, 복수의 서브 특징맵(FM)으로부터 멀티 모달 특징맵(M)을 생성할 수 있다.
상황 판단 데이터(P)는, 사용자의 상황에 따라 기설정된 상황 판단값(PV)을 가지며, 멀티 모달 특징맵 생성부(420)는, 복수의 서브 특징맵(FM) 중 적어도 하나의 상황 판단값(PV)을 적용하여 멀티 모달 특징맵(M)을 생성할 수 있다.
상세하게는, 상황 판단값(PV)은 각각의 서브 특징맵(FM)이 가지는 중요도 및 사용여부를 나타내는 파라미터일 수 있다.
상황 판단 데이터(P)와 서브 특징맵(FM)과의 연산을 통하여 상황 판단 데이터(P)의 상황 판단값(PV)이 적용된 서브 특징맵(FM)을 생성하고, 복수의 서브 특징맵(FM)을 통합하여, 멀티 모달 특징맵(M)을 생성할 수 있다.
예를 들면, 사용자의 눈이 가려졌을 경우, 눈에 대한 상황 판단값을 0으로 출력하여, 상기 눈에 대한 상황 판단값과 눈에 대한 서브 특징맵(FM)의 곱연산을 통해 0을 출력하게 되어, 메인 추론부(400)가 상기 눈에 대한 서브 특징맵을 제외한 다른 서브 특징맵을 기준으로 멀티 모달 특징맵(M)을 생성할 수 있다.
또한, 손 검출 추론모듈(320)로부터 위치 추론 특징맵(FM1)을 생성하고, 서브 특징맵(FM), 상황 판단 데이터(P) 및 위치 추론 특징맵(FM1)에 기반하여 사용자의 감성 상태를 추론하는 멀티 모달 특징맵(M)을 생성할 수 있다.
멀티 모달 특징맵(M)은 Concat, Merge 및 딥 네트워크(Deep Network) 등을 사용하여 서브 특징맵(FM) 및 위치 추론 특징맵(FM1) 적어도 하나 이상을 병합하여 생성될 수 있다.
감성 인식 추론부(430)는 제4 학습 모델(LM4)을 사용하여, 멀티 모달 특징맵(M)에 기반하여 감성상태를 추론할 수 있다.
이 때, 제4 학습 모델(LM4)은, LSTM(Long Short-Term Memory), RNNs(Recurrent Neural Network), GRU(Gated Recurrent Unit) 등 순환 신경망과 같은 시간적 학습 모델일 수 있고, 시간적 특징과 공간적 특징을 추론 또는 분석할 수 있는 인공지능 모델, 머신 러닝, 딥 러닝 방법 중 적어도 하나 이상의 방법일 수 있다.
도 5는 도 1의 멀티모달 감성 인식 장치에 의한 멀티모달 감성 인식 방법을 보여주는 순서도이다.
도 5를 참조하면, 사용자의 영상 데이터(DV) 및 음성 데이터(DS)를 입력 받는 데이터 입력 단계(S100)를 수행된다.
그 다음, 음성 데이터(DS)로부터 음성 특징 데이터(DF2)를 생성하는 음성 전처리 단계, 영상 데이터(DV)로부터 하나 이상의 얼굴 특징 데이터(DF1)를 생성하는 영상 전처리단계를 포함하는 데이터 전처리 단계(S200)가 수행될 수 있다.
이 때, 데이터 전처리 단계(S200)는 학습 모델을 사용하기 위한 얼굴 특징 데이터(DF1)와 음성 특징 데이터(DF2)를 생성할 수 있다.
상기 학습 모델은 인공지능, 머신 러닝 및 딥 러닝 방법이 될 수 있다.
그 다음, 영상 데이터(DV)에 기반하여, 시간적 순서에 따른 사용자의 상황 변화 여부에 관한 상황 판단 데이터(P)를 생성하는 예비 추론 단계(S300)가 수행될 수 있다.
이 때, 상기 시간적 순서는 대화상태의 여부가 될 수 있고, 신체부분의 움직임에 대한 특징을 파악하기 위한 데이터일 수 있다.
또한, 상황 판단 데이터(P)는 영상 데이터(DV)로부터 겹칩 여부와 대화 상태의 여부를 판별하여, 하나 이상의 얼굴 특징 데이터(DF1) 또는 음성 특징 데이터(DF2)의 중요도 또는 사용 여부를 나타내는 파라미터를 포함할 수 있다.
또한, 데이터 전처리 단계(S200)에서 생성된 하나 이상의 얼굴 특징 데이터(DF1) 이외의 사용자의 신체 부분에 대한 특징 정보를 추출하여 생성할 수 있다.
그 다음, 음성 특징 데이터(DF2) 또는 얼굴 특징 데이터(DF1)에 기반하여 적어도 하나의 서브 특징맵(FM)을 생성하고, 서브 특징맵(FM) 및 상황 판단 데이터(P)에 기반하여 사용자의 감성 상태를 추론하는 메인 추론 단계(S400)가 수행될 수 있다.
이 때, 사용자로부터 추출된 특징 정보를 포함한 서브 특징맵(FM)과 특징 정보의 중요도 또는 사용여부에 대한 파라미터를 포함한 상황 판단 데이터(P)를 연산하여, 서브 특징맵(FM)에 중요도 또는 사용여부에 대한 정보를 포함하여, 사용자의 감성 상태를 추론할 수 있다.
그 다음, 메인 추론 단계(S400)에서의 감성 상태의 추론 결과를 출력하는 결과 도출 단계(S500)가 수행된다.
도 6은 도 5의 멀티모달 감성 인식 방법 중 데이터 전처리 단계를 상세하게 보여주는 순서도이다.
도 6을 참조하면, 데이터 전처리 단계(S200)는 영상 전처리 단계(S210)와 음성 전처리 단계(S220)를 포함한다.
영상 전처리 단계(S210)는, 영상 데이터(DV)의 전체 영역에서 인식 대상 영상 영역, 인식 대상 영역(A)은 사용자의 얼굴에 대응되는 영역인,을 검출하는 얼굴 검출 단계가 수행된다.
그 다음, 인식 대상 영역(A)을 보정하는 이미지 전처리 단계가 수행된다.
상세하게는, 상기 이미지 전처리 단계에서 이미지의 밝기, 블러(Blur)의 보정, 및 영상 데이터(DV)의 노이즈 제거가 수행될 수 있다
그 다음, 인식 대상 영역(A)의 얼굴 요소 위치 정보(AL)를 추출하는 랜드마크 검출 단계가 수행된다.
상세하게는, 인식 대상 영역(A) 중 얼굴, 눈, 코, 입, 이마 등 얼굴 중요 요소의 위치 정보를 파악하여 얼굴 인식이 가능하게 수행될 수 있다.
그 다음, 인식 대상 영역(A)의 얼굴 요소 위치 정보(AL)에 기반하여 위치를 조정하는 위치 조정 단계가 수행될 수 있다.
상세하게는, 랜드마크 검출모듈(213)로부터 추출된 얼굴 요소 위치 정보(AL)를 기준으로 수평 또는 수직에 맞춰 이미지가 정렬될 수 있다.
그 다음, 인식 대상 영역(A)에서 얼굴 요소 위치 정보(AL)에 기반하여 인식 대상 영역(A) 내에 위치하며 인식 대상 영역(A)보다 작은 서브 인식 대상 영역(AA)을 설정하고, 서브 인식 대상 영역(AA)의 얼굴 특징 데이터(DF1)를 생성하는 얼굴 요소 추출 단계가 수행될 수 있다.
이 때, 서브 인식 대상 영역(AA)은 얼굴전체, 눈, 입, 코, 이마 등 적어도 하나 이상의 얼굴 요소가 판별된 복수의 영역 또는 하나의 영역일 수 있다.
예를 들어, 인식 대상 영역(A) 중 얼굴 요소 위치 정보(AL)가 추출된 눈, 코, 입이 추출될 경우, 얼굴 요소 추출 모듈(215)은 서브 인식 대상 영역(AA)인 눈 인식 영역(A1), 코 인식 영역(A2), 입 인식 영역(A3)을 설정 및 상기 설정된 서브 인식 대상 영역(AA)에 대해 적어도 하나 이상의 얼굴 특징 데이터(DF1)를 생성할 수 있다.
또한, 상기 얼굴 요소 추출 단계는 서브 인식 대상 영역(AA)이 설정되지 않을 경우, 인식 대상 영역(A)을 기반으로 얼굴 특징 데이터(DF1)를 생성할 수 있다.
음성 전처리 단계(S220)는 음성 보정 단계 및 음성 특징 데이터 추출 단계를 포함한다.
먼저, 음성 데이터(DS)를 보정하는 상기 음성 보정 단계가 수행된다.
상세하게는, 상기 음성 보정 단계에서 음성 데이터(DS)에 포함된 다양한 노이즈 및 외부 소음 제거, 음량 조절, 주파수 보정 등 다양한 보정 방법을 수행하여, 보정된 음성 데이터를 생성될 수 있다.
상기 음성 보정 단계를 거친 음성 데이터(DS)의 특징을 추출하여, 음성 특징 데이터(DF2)를 생성하는 상기 음성 특징 데이터 추출 단계가 수행된다.
상세하게는, MFCC(Mel-frequency cepstral coefficients), eGeMAPS(Geneva Minimalistic Acoustic Parameter Set), Logbank 등과 같은 음성 데이터, 주파수 및 스펙트럼 분석 모듈 중 하나 이상의 모듈을 통하여 사용자의 음성 특징 데이터(DF2)를 생성 될 수 있다.
이 때, 상기 음성 특징 데이터 추출 단계는 상기 보정된 음성 데이터를 사용하거나, 상기 음성 보정 단계가 수행되지 않고 음성 데이터(DS)하여 음성 특징 데이터(DF2)를 생성할 수도 있다.
또한, 이는 예시적인 것으로서 적어도 일부의 단계들은 전후의 단계들과 동시에 수행되거나 또는 순서를 바꾸어 수행될 수도 있다.
도 7은 도 5의 멀티모달 감성 인식 방법 중 예비 추론 단계를 상세하게 보여주는 순서도이다.
제1 학습 모델(LM1)을 이용하고, 얼굴 특징 데이터(DF1)에 기반하여 대화 판단 데이터(P1)를 생성하는 대화 상태 추론 단계(S310)가 수행될 수 있다.
대화 상태 추론 단계(S310)에서, 제1 학습 모델(LM1)을 이용하여 이전 상황에서의 대화 여부와 얼굴 특징 데이터(DF1)로부터 얼굴 요소의 특징 및 움직임을 감지하여, 대화 상태 여부를 감지될 수 있다.
상세하게는, 사용자의 얼굴 특징 데이터(DF1)의 전체 또는 부분을 사용하여, 사용자가 대화 중인지를 제1 학습 모델(LM1)을 이용하여, 대화 판단 여부인 대화 판단 데이터(P1)가 생성될 수 있다.
이 때, 얼굴 특징 데이터(DF1)는, 인식 대상 영역(A) 중 사용자의 입에 대응되는 부분에 대한 입 영상 데이터(DV2)를 포함할 수 있다.
또한, 제1 학습 모델(LM1)을 이용하여, 입 영상 데이터(DV2)로부터 사용자의 대화 상태 여부에 대한 대화 판단 데이터(P1)를 생성할 수 있다.
그 다음, 영상 데이터(DV)에서 추적 대상 영역(B)에 대한 손 영상 데이터(DV1)를 검출하고, 제2 학습 모델(LM2)을 이용하여 손 영상 데이터(DV1)에 기반한 위치 추론 데이터(DM1)를 생성하는 손 검출 추론 단계(S320)가 수행된다.
이 때, 제2 학습 모델(LM2)을 사용하여 손에 대한 위치에 대한 이전 상황과의 시간적 추론이 가능할 수 있다. 예를 들어, 일시적으로 손이 얼굴에 겹쳤는지 여부를 판별할 수 있다.
또한, 손 검출 추론 단계(S320)는, 위치 추론 데이터(DM1)에 대한 위치 추론 특징맵(FM1)을 생성하고, 서브 특징맵(FM), 상황 판단 데이터(P), 및 위치 추론 특징맵(FM1)에 기반하여 사용자의 감성 상태를 추론할 수 있다.
상세하게는, 위치 추론 특징맵(FM1)은 손에 대한 제스처를 파악할 수 있는 특징 및 손에 대한 위치에 대한 정보 등 손의 움직임의 의미 있는 정보를 포함할 수 있다.
그 다음, 얼굴 특징 데이터(DF1) 및 위치 추론 데이터(DM1)에 기반하여 인식 대상 영역(A)과 추적 대상 영역(B)의 중첩 여부를 판단하고, 중첩 여부 판단 결과에 따라 중첩 판단 데이터(P2)를 생성하는 얼굴 겹침 검사 단계(S330)가 수행된다.
상세하게는, 중첩 판단 데이터(P2)는 인식 대상 영역(A)과 추적 대상 영역(B)의 중첩 여부를 판단하여, 인식 대상 영역(A)의 해당하는 얼굴 특징 데이터(DF1)와 음성 특징 데이터(DF2)의 중요도 및 사용 여부를 결정하는 하나 이상의 파라미터를 포함할 수 있다.
도 8은 도 5의 멀티모달 감성 인식 방법 중 메인 추론 단계를 상세하게 보여주는 순서도이다.
도 8을 참조하면, 메인 추론 단계(S400)는, 복수의 서브 특징맵 생성 단계(S410), 멀티 모달 특징맵 생성 단계(S420) 및 감성 인식 추론 단계(S430)를 포함한다.
먼저, 제3 학습 모델(LM3)을 이용하여 음성 특징 데이터(DF2) 및 얼굴 특징 데이터(DF1)에 기반하여 음성 특징 데이터(DF2) 및 얼굴 특징 데이터(DF1)에 대한 복수의 서브 특징맵(FM)을 생성하는 복수의 서브 특징맵 생성 단계(S410)가 수행된다.
그 다음, 제3 학습 모델(LM3)은 상황 판단 데이터(P)를 참조하여, 복수의 서브 특징맵(FM)으로부터 멀티 모달 특징맵(M)을 생성하는 멀티 모달 특징맵 생성 단계(S420)가 수행된다.
이 때, 상황 판단 데이터(P)는, 사용자의 상황에 따라 기설정된 상황 판단값(PV)을 가지며, 멀티 모달 특징맵 생성 단계(S420)는, 복수의 서브 특징맵(FM) 중 적어도 하나에 상황 판단값(PV)을 적용하여 멀티 모달 특징맵(M)을 포함할 수 있다.
또한, 멀티 모달 특징맵 생성 단계(S420)에서, 손 검출 추론모듈(320)로부터 위치 추론 특징맵(FM1)을 생성하고, 서브 특징맵(FM), 상황 판단 데이터(P) 및 위치 추론 특징맵(FM1)에 기반하여 사용자의 감성 상태를 추론하는 멀티 모달 특징맵(M)이 생성될 수 있다.
그 다음, 제4 학습 모델(LM4)을 사용하여, 멀티 모달 특징맵(M)에 기반하여 감성상태를 추론하는 감성 인식 추론 단계(S430)가 수행된다.
이 때, 제4 학습 모델(LM4)은, LSTM(Long Short-Term Memory), RNNs(Recurrent Neural Network), GRU(Gated Recurrent Unit) 등 순환 신경망과 같은 시간적 학습 모델일 수 있고, 시간적 특징과 공간적 특징을 추론 또는 분석할 수 있는 인공지능 모델, 머신 러닝, 딥 러닝 방법 중 적어도 하나 이상의 방법일 수 있다.
도 9는 도 1의 멀티모달 감성 인식 장치를 이용한 상황 변화 여부에 따른 감성 인식 과정을 보여주는 예시적인 도면이다.
도 9를 참조하면, ((A)단계) 사용자가 손을 얼굴에 대고 있으며, 손이 입과 코를 가리고 있지는 않는 상황을 나타내고 있다.
영상 입력부(110)를 통해 사용자의 영상 데이터(DV)가 입력되고, 음성 입력부(120)를 통해 사용자의 음성 데이터(DS)가 입력된다.
이 후, 영상 전처리부(210)는 영상 전처리가 된 얼굴 특징 데이터(DF1)를 생성하고, 또한, 음성 전처리부(220)를 통해 음성 전처리가 된 음성 특징 데이터(DF2)를 생성하고, 영상 전처리부(210)는 인식 가능한 사용자의 눈, 코, 입의 얼굴 요소 위치 정보(AL)를 기반으로 눈 인식 영역(A1), 코 인식 영역(A2), 입 인식 영역(A3)을 포함하는 인식 대상 영역(A)이 설정되고, 인식 대상 영역(A)을 예비 추론부(300)로 송신한다.
이 후, 예비 추론부(300)는 영상 데이터(DV)로부터 검출된 추적 대상 영역(B1)에 대한 손 영상 데이터(DV1)를 생성한다.
이 때, 예비 추론부(300)는 손 영상 데이터(DV1)를 통해 손의 움직임을 파악하는 위치 추론 데이터(DM1)를 생성되고, 위치 추론 데이터(DM1)에 기반한 추적 대상 영역(B1)과 인식 대상 영역(A)의 중첩됨 여부 판단을 기반으로 중첩 판단 데이터(P2)가 생성된다.
여기서, 중첩 판단 데이터(P2)는 눈 인식 영역(A1), 코 인식 영역(A2), 입 인식 영역(A3)을 사용을 나타내는 파라미터를 포함할 수 있다.
또한, 대화 상태 추론모듈(310)은 입 영상 데이터(DV2)에 기반한 입 인식 영역(A3)을 통하여 대화 상태 여부를 판단하여 대화 판단 데이터(P1)를 생성한다.
이 후, 서브 특징맵 생성부(410)는 눈, 코, 입에 해당되는 얼굴 특징 데이터(DF1)를 제3 학습 모델(LM3)을 사용하여 복수의 서브 특징맵(FM)을 생성한다.
이 후, 멀티 모달 특징맵 생성부(420)는 복수의 서브 특징맵(FM)과 손에 해당되는 위치 추론 특징맵(FM1)을 통합하여 멀티 모달 특징맵(M)을 생성한다.
이 후, 제4 학습 모델(LM4)을 통해 이전의 사용자의 행동을 고려하여 감성인식을 추론하고, 이를 감성인식 결과로 나타낼 수 있다.
((B)단계) B단계는, A단계의 연속적인 동작을 나타내고 있다.
예를 들어, B단계는 30FPS 속도로 A단계에 이어 연속적으로 촬영된 영상으로 가정 할 수 있다.
A단계와 마찬가지로, 영상 입력부(110)를 통해 사용자의 영상 데이터(DV)가 입력되고, 음성 입력부(120)를 통해 사용자의 음성 데이터(DS)가 입력된다.
이 후, 음성 전처리부(220)를 통해 음성 전처리가 된 음성 특징 데이터(DF2)를 생성하고, 영상 전처리부(210)는 얼굴 특징 데이터(DF1) 및 얼굴 요소 위치 정보(AL)를 생성하고, 얼굴 요소 위치 정보(AL)를 기반으로 눈 인식 영역(A1), 코 인식 영역(A2), 입 인식 영역(A3)을 포함하는 인식 대상 영역(A)을 설정하고, 인식 대상 영역(A)을 예비 추론부(300)로 송신한다.
이 때, 인식 대상 영역(A)이 사용자의 동작에 따라 크기가 변화할 수 있다.
B단계는 A단계와 비교하여, 인식 대상 영역(A)이 동작에 따라 크기가 변화되는 것을 나타내고 있다.
이 후, 예비 추론부(300)는 손 영상 데이터(DV1)에 기반한 위치 추론 데이터(DM1)를 생성하여, A단계에서 B단계로의 손의 움직임을 추적할 수 있다.
예비 추론부(300)는 위치 추론 데이터(DM1)에 기반한 추적 대상 영역(B2)과 인식 대상 영역(A)의 중첩됨 여부 판단을 기반으로 중첩 판단 데이터(P2)가 생성된다.
또한, 예비 추론부(300)는 대화 상태 여부를 판단하여 대화 판단 데이터(P1)를 생성한다.
이 때, 예비 추론부(300)는 제1 학습 모델(LM1)을 이용하여, (A)단계를 포함한 이전 상황에서 감성인식 대상이 되는 사용자의 대화 여부가 지속되고 있는지를 고려하여 대화 상태 여부를 판단 할 수 있다.
예를 들어, A단계에서 사용자가 대화 상태가 아닌 것으로 추론된 경우, 상기 결과를 바탕으로, B단계에서 입 인식 영역(A3)에 기초하여 일시적으로 사용자의 입 모양이 대화 상태에서의 입 모양과 유사하더라도, 예비 추론부(300)는 제1 학습 모델(LM1)을 이용하여, 사용자가 대화 상태가 아닌 것으로 판단할 수 있다. 즉, 예비 추론부(300)는 A단계에서의 대화 상태 판단 결과에 기초하여, 다음 장면인 B단계에서의 대화 상태 판단 여부에 대한 추론을 실시할 수 있다.
이 후, 메인 추론부(400)는 수신된 얼굴 특징 데이터(DF1) 및 음성 특징 데이터(DF2)를 제3 학습 모델(LM3)을 사용하여 복수의 서브 특징맵(FM)을 생성하고, 복수의 서브 특징맵(FM)과 손에 해당되는 위치 추론 특징맵(FM1)을 통합하여 멀티 모달 특징맵(M)을 생성한다.
이 후, 메인 추론부(400)는 제4 학습 모델(LM4)을 통해 이전((A)단계)의 사용자의 행동을 고려하여 감성인식을 추론하고, 이를 감성인식 결과로 나타낼 수 있다.
((C)단계) B단계 이후, 사용자가 입을 손으로 가리는 행동을 나타내고 있다.
영상 전처리부(210)는 인식 가능한 사용자의 눈의 얼굴 요소 위치 정보(AL)를 기반으로 눈 인식 영역(A1)을 포함하는 인식 대상 영역(A)이 설정되고, 인식 대상 영역(A)을 예비 추론부(300)로 송신한다.
이 후, 예비 추론부(300)는 영상 데이터(DV)로부터 검출된 추적 대상 영역(B3)에 대한 손 영상 데이터(DV1)를 생성한다. 이 때, 손 영상 데이터(DV1)를 통해 손의 움직임을 파악하는 위치 추론 데이터(DM1)를 생성하고, 위치 추론 데이터(DM1)에 기반한 추적 대상 영역(B3)과 인식 대상 영역(A)의 중첩 여부 판단을 기반으로 중첩 판단 데이터(P2)가 생성된다.
여기서, 중첩 판단 데이터(P2)는 눈 인식 영역(A1)에 기초한 얼굴 특징 데이터(DF1)의 사용 여부 또는 얼굴 특징 데이터(DF1)에 적용되는 가중치를 나타내는 파라미터를 포함할 수 있다.
또한, 예비 추론부(300)는 (A)단계, (B)단계에서 인식 대상 영역(A)이었던 코 인식 영역(A2) 또는 입 인식 영역(A3)과 사용자의 손 위치에 대한 영역인 추적 대상 영역(B3)과의 중첩을 인지하여, 감성인식 추론에서 제외됨 또는 중요도가 떨어짐을 나타내는 파라미터가 중첩 판단 데이터(P2)에 포함될 수 있다.
또한, 예비 추론부(300)는 입 인식 영역(A3)에 대응되는 입 영상 데이터(DV2)가 인식되지 않는 상황과 사용자가 이전 대화 상태 여부의 판단 결과를 고려하여, 음성 특징 데이터(DF2)의 사용 판단 여부의 나타내는 값을 대화 판단 데이터(P1)에 포함시킬 수 있다.
여기서, 상기 이전 대화 상태 여부의 판단 결과는 시간적 학습 모델을 통해 추론한다. 이 때, 시간적 학습 모델은 LSTM(Long Short-Term Memory), RNNs(Recurrent Neural Network), GRU(Gated Recurrent Unit) 등 순환 신경망과 같은 시간적 학습 모델일 수 있다.
이 후, 서브 특징맵 생성부(410)는 눈에 해당되는 영역의 얼굴 특징 데이터(DF1)를 제3 학습 모델(LM3)을 사용하여 복수의 서브 특징맵(FM)을 생성한다.
이 후, 멀티 모달 특징맵 생성부(420)는 복수의 서브 특징맵(FM)과 손에 해당되는 위치 추론 특징맵(FM1)을 통합하여 멀티 모달 특징맵(M)을 생성한다.
이 후, 감정인식 추론부(430)는 제4 학습 모델(LM4)을 통해 이전의 사용자의 행동을 고려하여 감성인식을 추론하고, 이를 감성인식 결과로 나타낼 수 있다.
도 10은 본 발명의 다른 실시예에 따른 멀티모달 감성 인식 장치를 이용하여 상황 변화에 따른 감성 인식 과정을 보여주는 예시적인 도면이다.
본 실시예는, 인식대상영역(A)의 변화 강도에 따른 감성 인식 구성에 있어서 차이가 있을 뿐, 다른 구성에 있어서는 도 1 내지 도 9에서 설명되고 있는 멀티모달 감성 인식 장치 및 그 방법과 실질적으로 동일하므로, 이하에서는 본 실시예의 특징적인 부분을 중심으로 설명한다.
도 10을 참조하면, 본 발명의 실시예에 따른 멀티모달 감성 인식 장치(1)의 예비 추론부(300)는 인식대상영역(A, A')의 변위(d) 또는 인식대상영역(A, A')의 크기 변화에 대한 인식대상영역 변화데이터를 생성한다.
보다 상세히, 상기 인식대상영역 변화데이터는 상황 판단 데이터(P)에 포함되며, 인식 대상 영역(A), 즉 사용자의 얼굴 영역에 대응되는 영역의 변화에 대한 가중치 데이터일 수 있다.
본 발명의 실시예에 따른 멀티모달 감성 인식 장치(1)는 사용자의 헤드 포즈(Head pose)의 변화량, 예시적으로 사용자가 머리를 좌측 또는 우측으로 흔드는 경우, 또는 사용자가 카메라 측으로 다가오거나(인식대상영역(A)의 크기 커짐) 또는 사용자가 카메라의 반대측으로 멀어지는 경우(인식대상영역(A)의 크기 작아짐)에, 인식 대상 영역(A)에 변화량이 발생되는 경우, 상기 인식대상영역 변화데이터의 적용 가중치를 변화시킴으로써 사용자의 감성인식 정확도롤 향상시킬 수 있다.
예시적으로, 본 실시예에서 인식 대상 영역(A)의 변화량이 커지는 경우, 상기 적용 가중치는 증가되며, 인식 대상 영역(A)의 변화량이 작아지는 경우, 상기 적용 가중치는 감소된다.
이때, 멀티 모달 특징맵 생성부(420)는 상기 인식대상영역 변화데이터를 포함하는 상황 판단 데이터(P)를 참조하여, 복수의 서브 특징맵(FM)으로부터 멀티 모달 특징맵(M)을 생성할 수 있다.
도 11은 본 발명의 또 다른 실시예에 따른 멀티모달 감성 인식 장치를 이용하여, 상황 변화에 따른 감성 인식 과정을 보여주는 예시적인 도면이다.
본 실시예는, 인식대상영역(A) 및 추적대상영역(B)이 복수개로 형성되는 구성에 있어서 차이가 있을 뿐, 다른 구성에 있어서는 도 1 내지 도 9에서 설명되고 있는 멀티모달 감성 인식 장치 및 그 방법과 실질적으로 동일하므로, 이하에서는 본 실시예의 특징적인 부분을 중심으로 설명한다.
도 11을 참조하면, 본 발명의 실시예에 따른 멀티모달 감성 인식 장치(1)는 복수 사용자의 감성 인식을 할 수 있다.
본 발명의 실시예에 따른 멀티모달 감성 인식 장치(1)는 제1 사용자에 대해서는 제1 인식 대상 영역(AA) 및 제1 추적 대상 영역(BA)을 형성하며, 제2 사용자에 대해서는 제2 인식 대상 영역(AB) 및 제2 추적 대상 영역(BB)을 형성하고, 제3 인식 대상 영역(AC) 및 제1 추적 대상 영역(BC)을 형성한다. 그리고, 멀티모달 감성 인식 장치(1)는 사용자 별로 형성되는 인식 대상 영역들(AA, AB, AC) 및 추적 대상 영역들(BA, BB, BC)에 기초하여, 각 사용자들의 감성을 인식할 수 있다.
이때, 예비 추론부(300)는, 추적대상영역(BA, BB, BC) 및 인식대상영역(AA, AB, AC)에 기초하여 각 사용자에 대한 상황 판단 데이터를 생성한다.
또한, 본 발명의 실시예에 따른 멀티모달 감성 인식 장치(1)는 복수 사용자들의 대화 상태를 각각 판단하여, 각 사용자의 고유 목소리 정보를 생성하여, 이를 각 사용자의 감성 인식에 적용할 수 있다.
예시적으로, 제1 상황에서 제1 사용자가 대화 상태이며, 제2 사용자 및 제3 사용자는 대화 상태가 아닌 것으로 판단되면, 멀티모달 감성 인식 장치(1)는 상기 제1 상황에서 취득되는 상기 목소리 정보는 상기 제1 사용자의 목소리 정보인 것으로 인식한다. 멀티모달 감성 인식 장치(1)는 상기 과정을 반복적으로 수행하여, 각 사용자의 고유한 상기 목소리 정보를 생성할 수 있다. 이때, 상기 목소리 정보는, 목소리의 고유 파장 등에 대한 파라미터를 포함할 수 있다.
한편, 복수의 사용자들 중 적어도 2인 이상의 사용자가 동시에 대화 상태인 것으로 판단되면, 멀티모달 감성 인식 장치(1)는 취득되는 대화들에서 각 사용자의 상기 목소리 정보를 바탕으로, 각 사용자들의 대화 상태를 구분하여, 각 사용자의 감성 인식을 수행할 수 있다.
한편, 본 실시예에 따른 멀티모달 감성 인식 장치(1)는 특정한 목소리가 누구 인지 모르는 경우, 사용자의 입모양 이미지를 기초로 특정한 사용자의 말상태 여부를 판단하여, 어느 특정한 사용자가 대화 상태인 것으로 판단되면, 상기 특정한 목소리를 대화 상태인 사용자의 목소리인 것으로 식별할 수 있다.
또한, 3명이 대화하는 상황의 어느 특정한 시점에 특정한 사람의 목소리가 입력되지만, 제1 사용자 및 제2 사용자는 대화 상태가 아닌 것으로 확인되었으며, 나머지 제3 사용자가 자산의 입을 가리고 있어 대화 상태를 판단하기 어려운 경우, 본 실시예에 따른 멀티모달 감성 인식 장치(1)는 상기 특정한 시점에 입력되는 상기 목소리를 상기 제3 사용자의 목소리인 것으로 식별하여, 상기 사용자들에 대한 감성인식을 수행한다.
제안되는 실시예는, 다수의 사용자가 서로 마주 보지 않고 동시에 하나 또는 둘 이상의 카메라를 응시하는 상황에 적용될 수 있다. 예시적으로, 본 발명의 실시예들은 복수의 사용자들이 하나의 디스플레이를 동시에 시청하고 있는 상황 또는 차량 내부에 복수의 사용자가 탑승한 상황에 적용될 수 있다.
도 12는 본 발명의 또 다른 실시예에 따른 멀티모달 감성 인식 장치를 이용하여, 상황 변화에 따른 감성 인식 과정을 보여주는 예시적인 도면이다.본 실시예는, 특징맵이 형성 가능하지 않은 비디오 프레임을 제외하고, 특징맵이 형성 가능한 비디오 프레임의 가중치를 부여하여, 사용자의 감성을 인식하는 구성에 있어서 차이가 있을 뿐, 다른 구성에 있어서는 도 1 내지 도 9에서 설명되고 있는 멀티모달 감성 인식 장치 및 그 방법과 실질적으로 동일하므로, 이하에서는 본 실시예의 특징적인 부분을 중심으로 설명한다.
도 12를 참조하면, 본 발명의 실시예에 따른 멀티모달 감성 인식 장치(1)는, 사용자의 감성을 인식하기 위한 영상의 복수의 프레임 중 어느 특정한 프레임이 과다 조명 또는 예기치 않은 데이터 오류 등에 의하여 손상되어, 상기 특정한 프레임에 대한 특징맵을 형성할 수 없는 경우, 특징맵을 형성할 수 없는 상기 특정한 프레임에 대한 시간적 학습 모델을 적용하지 않는다, 멀티모달 감성 인식 장치(1)는, 상기 시간적 학습 모델이 적용되지 않는 상기 특정한 프레임을 대신하여, 상기 특정한 프레임의 직전, 즉 특징맵이 형성되는 마지막 프레임을 상기 특정한 프레임의 대체 프레임으로 설정하여, 상기 대체 프레임에 대하여 상기 시간적 학습 모델을 적용한다. 이때, 상기 대체 프레임에 대해서는 특징맵을 형성할 수 없었던 시간 등에 따른 가중치를 적용하여 상기 시간적 학습 모델을 적용한다.
상기 시간적 학습 모델은 LSTM(Long Short-Term Memory), RNNs(Recurrent Neural Network), GRU(Gated Recurrent Unit) 등 순환 신경망과 같은 시간적 학습 모델일 수 있다.
예시적으로, 도 12의 (A) 및 (B)에서 도시된 바와 같이, 제1 프레임(F2) 및 제2 프레임(F2)에서는 특징맵을 형성하기 위한 인식대상영역(A) 및 추적대상영역(B)이 검출된다. 한편, 도 12의 (C) 내지 (E)에서 도시된 바와 같이, 제3 프레임(F3) 내지 제5 프레임(F5)에서는, 과다 조명 등에 의하여 특징맵을 형성하기 위한 인식대상영역(A) 및 추적대상영역(B)이 검출되지 않는다. 그 다음, 도 12의 (F) 및 (G)에서 도시된 바와 같이, 제6 프레임(F6) 및 제7 프레임(F7)에서는 특징맵을 형성하기 위한 인식대상영역(A) 및 추적대상영역(B)이 검출된다. 제1 프레임(F1) 내지 제7 프레임(F7)은 시간의 순서에 따른 연속적인 프레임들이며, 멀티모달 감성 인식장치(1)가 특징맵을 형성할 수 없는 시간, 즉 특징맵 비검출 시간(tgap)은 제3 프레임(F3) 내지 제5 프레임(F5)까지의 시간이다. 또한, 제2 프레임(F2)이 특징맵 비검출 시간(tgap)에 해당되는 특징맵 비검출 구간의 가장 직전, 즉 특징맵이 형성되기 위하여 인식대상영역(A) 및 추적대상영역(B)이 검출되는 마지막 프레임이며, 본 실시예에서는 제2 프레임(F2)이 제3 프레임(F3) 내지 제5 프레임(F5)에 대한 상기 대체 프레임이 될 수 있다.
한편, 본 실시예에 따른 멀티모달 감성 인식장치(1)는 상기 대체 프레임에 대한 상기 시간적 학습 모델을 적용할 때, 상기 대체 프레임에 대한 대체 가중치(w)를 적용한다.
본 실시예에 따른 대체 가중치(w)는 이하의 수식을 만족한다.
이때, Tmin은 기준 최소 시간이며, Tmax는 기준 최대 시간이다.
본 실시예에 따른 멀티모달 감성 인식 장치(1)는, 특징맵 비검출 시간(tgap)이 기준 최소 시간(Tmin)보다 작거나 같은 경우, 상기 대체 프레임에 대한 대체 가중치(w)는 1, 즉 상기 특징맵이 생성 가능한 다른 프레임(본 실시예에서는 제1 프레임(F1), 제2 프레임(F2), 제6 프레임(F6) 및 제7 프레임(F7))과 동일한 가중치를 적용하여 상기 시간적 학습 모델을 적용한다. 즉, 특징맵 비검출 시간(tgap)이 과소한 경우, 특징맵 비검출 시간(tgap) 동안의 상기 시간적 학습 모델을 다른 프레임과 동일하게 적용함으로써, 사용자에 대한 감성 인식이 연속적으로 수행될 수 있도록 한다.
또한, 멀티모달 감성 인식 장치(1)는, 특징맵 비검출 시간(tgap)이 기준 최대 시간(Tmax)보다 크거나 같은 경우, 대체 가중치(w)는 0으로 설정한다. 즉, 특징맵 비검출 시간(tgap)이 과대한 경우, 특징맵 비검출 시간(tgap) 동안의 상기 시간적 학습 모델을 적용을 제외함으로써, 감성 인식 결과에 대한 왜곡을 방지할 수 있다.
그리고, 특징맵 비검출 시간(tgap)이 기준 최소 시간(Tmin)보다 크거나 기준 최대 시간(Tmax)보다 작은 경우, 대체 가중치(w)는 기준 최대 시간(Tmax)에서 특징맵 비검출 시간(tgap)의 뺀 값(v1)을 기준 최대 시간(Tmax)과 기준 최소 시간(Tmin)의 차이 값(v2)으로 나눈 결과값이다. 즉, 대체 가중치(w)는 특징맵 비검출 시간(tgap)이 기준 최소 시간(Tmin)에 가까울수록 커지며, 특징맵 비검출 시간(tgap)이 기준 최대 시간(Tmax)에 가까울수록 작아진다.
본 실시예에서는 상기 특징맵 비검출 구간의 직전 프레임을 상기 대체 프레임으로 설정하는 구성으로 설명하고 있으나, 상기 특징맵 비검출 구간이 종료된 바로 다음의 프레임, 즉 제6 프레임(F6)을 상기 대체 프레임으로 설정하는 구성 또한 본 발명의 실시예에 포함될 수 있다.
기존에는 과다한 조명 등에 의하여 특징맵이 비검출되는 경우, 상기 특징맵이 검출되는 시점부터 다시 감성 인식을 수행함으로써, 감성 인식 과정이 단절되며 감성인식 정확도가 저하되는 문제점이 있었다. 이에 본 발명의 실시예에 따르면, 상기 특징맵이 비검출되는 프레임을 상기 특징맵이 검출 가능한 대체 프레임으로 대체하여 사용자의 감성 인식을 수행함으로써, 연속적인 감성인식을 수행하고, 감성인식 정확도를 향상시킬 수 있는 장점이 있다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 시스템, 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(Arithmetic Logic Unit), 디지털 신호 프로세서(Digital signalprocessor), 마이크로컴퓨터, FPA(Field Programmable Array), PLU(Programmable Logic Unit), 마이크로프로세서, 또는 명령(Instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리요소(Processing Element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(Parallel Processor)와 같은, 다른 처리 구성(Processing Configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(Computer Program), 코드(Code), 명령(Instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로 (collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(Component), 물리적 장치, 가상 장치(Virtual Equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(Signal Wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예들에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM, DVD와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
상기와 같이 설명된 본 발명의 다양한 실시예들은 각 실시예가 독립적 또는 상호 보완적으로 적용될 수 있다.
발명의 실시를 위한 형태는 위의 발명의 실시를 위한 최선의 형태에서 함께 기술되었다.
본 발명은 멀티모달 감성 인식 장치 및 방법에 관한 것으로, 사용자의 감성을 인식하기 위한 다양한 장치 또는 방법에 적용 가능하며, 반복 가능성이 있어 산업상 이용 가능성이 있다.
Claims (28)
- 인공지능을 이용한 멀티 모달 감성인식 장치에 있어서,사용자의 영상 데이터 및 음성 데이터를 입력 받는 데이터 입력부;상기 음성 데이터로부터 음성 특징 데이터를 생성하는 음성 전처리부, 상기 영상 데이터로부터 하나 이상의 얼굴 특징 데이터를 생성하는 영상 전처리부를 포함하는 데이터 전처리부;상기 영상 데이터에 기반하여, 시간적 순서에 따른 사용자의 상황 변화 여부에 관한 상황 판단 데이터를 생성하는 예비 추론부; 및상기 음성 특징 데이터 또는 상기 얼굴 특징 데이터에 기반하여 적어도 하나의 서브 특징맵을 생성하고, 상기 서브 특징맵 및 상기 상황 판단 데이터에 기반하여 사용자의 감성 상태를 추론하는 메인 추론부;를 포함하는 멀티 모달 감성인식 장치.
- 제1 항에 있어서,상기 상황 판단 데이터는,사용자가 대화 상태인지 여부에 대한 대화 판단 데이터 또는 영상 데이터의 전체 영상 영역 중 일부인 추적 대상 영역과 상기 추적 대상 영역과 다른 인식 대상 영역과의 중첩 여부에 대한 중첩 판단 데이터를 포함하고,상기 예비 추론부는, 상기 얼굴 특징 데이터에 기반하여 사용자가 대화 상태 인지 여부를 판단하는 대화 판단 데이터를 생성하거나,상기 예비 추론부는, 상기 영상 데이터에 기반하여 상기 추적 대상 영역의 위치를 추론하기 위한 위치 추론 데이터를 생성하고, 상기 얼굴 특징 데이터 및 상기 위치 추론 데이터에 기반하여, 상기 추적 대상 영역과 상기 인식 대상 영역의 중첩 여부에 대한 중첩 판단 데이터를 생성하는 멀티 모달 감성 인식 장치.
- 제2 항에 있어서,상기 예비 추론부는,제1 학습 모델을 이용하고, 상기 얼굴 특징 데이터에 기반하여 상기 대화 판단 데이터를 생성하는 대화 상태 추론모듈;을 포함하는 멀티 모달 감성 인식 장치.
- 제3 항에 있어서,상기 얼굴 특징 데이터는,상기 인식 대상 영역 중 사용자의 입에 대응되는 부분에 대한 영상 데이터인 입 영상 데이터를 포함하고,상기 대화 상태 추론모듈은,상기 제1 학습 모델을 이용하여, 상기 입 영상 데이터로부터 사용자의 대화 상태 여부에 대한 상기 대화 판단 데이터를 생성하는 것을 특징으로 하는 멀티 모달 감성 인식 장치.
- 제2 항에 있어서,상기 예비 추론부는,상기 영상 데이터에서 상기 추적 대상 영역에 대한 손 영상 데이터를 검출하고, 제2 학습 모델을 이용하여 상기 손 영상 데이터에 기반한 상기 위치 추론 데이터를 생성하는 손 검출 추론모듈; 및상기 얼굴 특징 데이터 및 상기 위치 추론 데이터에 기반하여 상기 인식 대상 영역과 상기 추적 대상 영역의 중첩 여부를 판단하고, 중첩 여부 판단 결과에 따라 상기 중첩 판단 데이터를 생성하는 얼굴 겹침 검사모듈;을 포함하는 멀티 모달 감성 인식 장치.
- 제5 항에 있어서,상기 손 검출 추론모듈은, 상기 위치 추론 데이터에 대한 위치 추론 특징맵을 생성하고,상기 서브 특징맵, 상기 상황 판단 데이터, 및 상기 위치 추론 특징맵에 기반하여 사용자의 감성 상태를 추론하는 것을 특징으로 하는 멀티 모달 감성인식 장치.
- 제2 항에 있어서,상기 상황 판단 데이터는, 상기 인식대상영역의 변화에 대한 인식대상영역 변화데이터를 더 포함하고,상기 인식대상영역의 변화량이 커질수록, 상기 인식대상영역 변화데이터의 가중치가 증가되는 것을 특징으로 하는 멀티 모달 감성 인식 장치.
- 제2 항에 있어서,상기 추적대상영역 및 상기 인식대상영역은 복수의 사용자 별로 각각 형성되며,상기 예비 추론부는 상기 추적대상영역 및 상기 인식대상영역에 기초하여 각 사용자에 대한 상기 상황 판단 데이터를 생성하고,복수 사용자들의 대화 상태를 각각 판단하여, 각 사용자의 고유 목소리 정보를 생성하여, 이를 각 사용자의 감성 인식에 적용하는 것을 특징으로 하는 멀티 모달 감성 인식 장치.
- 제1 항에 있어서,상기 메인 추론부는,제3 학습 모델을 이용하여 상기 음성 특징 데이터 및 상기 얼굴 특징 데이터에 기반하여 상기 음성 특징 데이터 및 상기 얼굴 특징 데이터에 대한 상기 복수의 서브 특징맵을 생성하는 복수의 서브 특징맵 생성부;상기 상황 판단 데이터를 참조하여, 상기 복수의 서브 특징맵으로부터 멀티 모달 특징맵을 생성하는 멀티 모달 특징맵 생성부; 및제4 학습 모델을 사용하여, 상기 멀티 모달 특징맵에 기반하여 상기 감성상태를 추론하는 감성 인식 추론부;를 포함하는 멀티 모달 감성 인식 장치.
- 제9 항에 있어서,상기 상황 판단 데이터는, 상기 사용자의 상황에 따라 기설정된 상황 판단 값을 가지며,상기 멀티 모달 특징맵 생성부는, 상기 복수의 서브 특징맵 중 적어도 하나에 상기 상황 판단 값을 적용하여 상기 멀티 모달 특징맵을 생성하는 멀티 모달 감성 인식 장치.
- 제1 항에 있어서,상기 음성 전처리부는,상기 음성 데이터를 보정하는 음성 보정 모듈; 및상기 음성 보정 모듈을 거친 음성 데이터의 특징을 추출하여, 상기 음성 특징 데이터를 생성하는 음성 특징 데이터 추출 모듈;를 포함하는 멀티 모달 감성인식 장치.
- 제1 항에 있어서,상기 영상 전처리부는,상기 영상 데이터의 전체 영역에서 인식 대상 영역, 상기 인식 대상 영역은 사용자의 얼굴에 대응되는 영역인,을 검출하는 얼굴 검출기;상기 인식 대상 영역을 보정하는 이미지 전처리기; 및상기 인식 대상 영역 내에 위치하며 상기 인식 대상 영역보다 작은 서브 인식 대상 영역을 설정하고, 상기 서브 인식 대상 영역의 상기 얼굴 특징 데이터를 생성하는 얼굴 요소 추출기;를 포함하는 멀티 모달 감성인식 장치.
- 제12 항에 있어서,상기 영상 전처리부는,상기 인식 대상 영역의 얼굴 요소 위치 정보를 추출하는 랜드마크 검출모듈;를 더 포함하는 멀티 모달 감성인식 장치.
- 제12 항에 있어서,상기 영상 전처리부는,상기 인식 대상 영역의 상기 얼굴 요소 위치 정보에 기반하여 위치를 조정하는 위치 조정기;를 포함하는 멀티 모달 감성인식 장치.
- 제1 항에 있어서,활성화 함수를 이용하여, 상기 감성상태의 결과를 출력하는 출력부;를 더 포함하는 멀티 모달 감성인식 장치.
- 제1 항에 있어서,상기 영상 데이터는 복수의 프레임을 포함하고,상기 복수의 프레임 중 어느 특정한 프레임들에 기초하여 특징맵을 형성할 수 없는 경우, 상기 특징맵을 형성할 수 없는 모든 프레임에 대하여 시간적 학습모델 적용을 배제하고, 상기 특징맵을 형성할 수 없는 프레임 직전의 특징맵이 형성되는 마지막 프레임을 대체 프레임으로 설정하여, 상기 대체 프레임에 대하여 상기 시간적 학습 모델을 적용하여, 사용자의 상기 감성상태를 인식하고,상기 특징맵을 형성할 수 없는 모든 프레임에 대응되는 시간은 특징맵 비검출 시간이며, 상기 특징맵 비검출 시간 동안 상기 대체 프레임에 상기 시간적 학습 모델을 적용하는 것을 특징으로 하는 멀티 모달 감성 인식 장치.
- 인공지능을 이용한 멀티 모달 감성인식 방법에 있어서,사용자의 영상 데이터 및 음성 데이터를 입력 받는 데이터 입력 단계;상기 음성 데이터로부터 음성 특징 데이터를 생성하는 음성 전처리 단계, 상기 영상 데이터로부터 하나 이상의 얼굴 특징 데이터를 생성하는 영상 전처리단계를 포함하는 데이터 전처리 단계;상기 영상 데이터에 기반하여, 시간적 순서에 따른 사용자의 상황 변화 여부에 관한 상황 판단 데이터를 생성하는 예비 추론 단계; 및상기 음성 특징 데이터 또는 상기 얼굴 특징 데이터에 기반하여 적어도 하나의 서브 특징맵을 생성하고, 상기 서브 특징맵 및 상기 상황 판단 데이터에 기반하여 사용자의 감성 상태를 추론하는 메인 추론 단계;를 포함하는 멀티 모달 감성인식 방법.
- 제17 항에 있어서,상기 상황 판단 데이터는,사용자가 대화 상태인지 여부에 대한 대화 판단 데이터 또는 영상 데이터의 전체 영상 영역 중 일부인 추적 대상 영역과 상기 추적 대상 영역과 다른 인식 대상 영역과의 중첩 여부에 대한 중첩 판단 데이터를 포함하고,상기 예비 추론 단계는, 상기 얼굴 특징 데이터에 기반하여 사용자가 대화 상태 인지 여부를 판단하는 대화 판단 데이터를 생성하거나,상기 예비 추론 단계는, 상기 영상 데이터에 기반하여 상기 추적 대상 영역의 위치를 추론하기 위한 위치 추론 데이터를 생성하고, 상기 얼굴 특징 데이터 및 상기 위치 추론 데이터에 기반하여, 상기 추적 대상 영역과 상기 인식 대상 영역의 중첩 여부에 대한 중첩 판단 데이터를 생성하는 멀티 모달 감성 인식 방법.
- 제18 항에 있어서,상기 예비 추론 단계는,제1 학습 모델을 이용하고, 상기 얼굴 특징 데이터에 기반하여 상기 대화 판단 데이터를 생성하는 대화 상태 추론 단계;를 포함하고,상기 얼굴 특징 데이터는, 상기 인식 대상 영역 중 사용자의 입에 대응되는 부분에 대한 영상 데이터인 입 영상 데이터를 포함하고,상기 대화 상태 추론 단계는,상기 제1 학습 모델을 이용하여, 상기 입 영상 데이터로부터 사용자의 대화 상태 여부에 대한 상기 대화 판단 데이터를 생성하는 것을 특징으로 하는 멀티 모달 감성 인식 방법.
- 제18 항에 있어서,상기 예비 추론 단계는,상기 영상 데이터에서 상기 추적 대상 영역에 대한 손 영상 데이터를 검출하고, 제2 학습 모델을 이용하여 상기 손 영상 데이터에 기반한 상기 위치 추론 데이터를 생성하는 손 검출 추론 단계; 및상기 얼굴 특징 데이터 및 상기 위치 추론 데이터에 기반하여 상기 인식 대상 영역과 상기 추적 대상 영역의 중첩 여부를 판단하고, 중첩 여부 판단 결과에 따라 상기 중첩 판단 데이터를 생성하는 얼굴 겹침 검사 단계;를 포함하는 멀티 모달 감성 인식 방법.
- 제20 항에 있어서,상기 손 검출 추론 단계는, 상기 위치 추론 데이터에 대한 위치 추론 특징맵을 생성하고,상기 서브 특징맵, 상기 상황 판단 데이터, 및 상기 위치 추론 특징맵에 기반하여 사용자의 감성 상태를 추론하는 것을 특징으로 하는 멀티 모달 감성인식 방법.
- 제17 항에 있어서,상기 메인 추론 단계는,제3 학습 모델을 이용하여 상기 음성 특징 데이터 및 상기 얼굴 특징 데이터에 기반하여 상기 음성 특징 데이터 및 상기 얼굴 특징 데이터에 대한 상기 복수의 서브 특징맵을 생성하는 복수의 서브 특징맵 생성 단계;상기 상황 판단 데이터를 참조하여, 상기 복수의 서브 특징맵으로부터 멀티 모달 특징맵을 생성하는 멀티 모달 특징맵 생성 단계; 및제4 학습 모델을 사용하여, 상기 멀티 모달 특징맵에 기반하여 상기 감성상태를 추론하는 감성 인식 추론 단계;를 포함하는 멀티 모달 감성 인식 방법.
- 제22 항에 있어서,상기 상황 판단 데이터는, 상기 사용자의 상황에 따라 기설정된 상황 판단 값을 가지며,상기 멀티 모달 특징맵 생성 단계는, 상기 복수의 서브 특징맵 중 적어도 하나에 상기 상황 판단값을 적용하여 상기 멀티 모달 특징맵을 생성하는 멀티 모달 감성 인식 방법.
- 제17 항에 있어서,상기 음성 전처리 단계는,상기 음성 데이터를 보정하는 음성 보정 단계; 및상기 음성 보정 단계를 거친 음성 데이터의 특징을 추출하여, 상기 음성 특징 데이터를 생성하는 음성 특징 데이터 추출 단계;를 포함하는 멀티 모달 감성인식 방법.
- 제17 항에 있어서,상기 영상 전처리 단계는,상기 영상 데이터의 전체 영역에서 인식 대상 영역, 상기 인식 대상 영역은 사용자의 얼굴에 대응되는 영역인,을 검출하는 얼굴 검출 단계;상기 인식 대상 영역을 보정하는 이미지 전처리 단계; 및상기 인식 대상 영역 내에 위치하며 상기 인식 대상 영역보다 작은 서브 인식 대상 영역을 설정하고, 상기 서브 인식 대상 영역의 상기 얼굴 특징 데이터를 생성하는 얼굴 요소 추출 단계;를 포함하는 멀티 모달 감성인식 방법.
- 제23 항에 있어서,상기 영상 전처리 단계는,상기 인식 대상 영역의 얼굴 요소 위치 정보를 추출하는 랜드마크 검출 단계; 를 더 포함하는 멀티 모달 감성인식 방법.
- 제26 항에 있어서,상기 영상 전처리 단계는,상기 인식 대상 영역의 상기 얼굴 요소 위치 정보에 기반하여 위치를 조정하는 위치 조정 단계;를 포함하는 멀티 모달 감성인식 방법.
- 인공지능을 이용한 멀티 모달 감성인식 방법을 수행하는 컴퓨터 프로그램 코드들을 저장하는 컴퓨터 판독가능 저장 매체에 있어서,상기 인공지능을 이용한 멀티 모달 감성인식 방법은,사용자의 영상 데이터 및 음성 데이터를 입력 받는 데이터 입력 단계;상기 음성 데이터로부터 음성 특징 데이터를 생성하는 음성 전처리 단계, 상기 영상 데이터로부터 하나 이상의 얼굴 특징 데이터를 생성하는 영상 전처리단계를 포함하는 데이터 전처리 단계;상기 영상 데이터에 기반하여, 시간적 순서에 따른 사용자의 상황 변화 여부에 관한 상황 판단 데이터를 생성하는 예비 추론 단계; 및상기 음성 특징 데이터 또는 상기 얼굴 특징 데이터에 기반하여 적어도 하나의 서브 특징맵을 생성하고, 상기 서브 특징맵 및 상기 상황 판단 데이터에 기반하여 사용자의 감성 상태를 추론하는 메인 추론 단계;를 포함하는 컴퓨터 판독가능 저장 매체.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP18881797.7A EP3716159A4 (en) | 2017-11-24 | 2018-11-22 | MULTIMODAL EMOTION RECOGNITION DEVICE, PROCESS AND INFORMATION SUPPORT USING ARTIFICIAL INTELLIGENCE |
CN201880075873.5A CN111386531A (zh) | 2017-11-24 | 2018-11-22 | 利用人工智能的多模式情绪识别装置、方法以及存储介质 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20170158309 | 2017-11-24 | ||
KR10-2017-0158309 | 2017-11-24 | ||
KR10-2018-0000136 | 2018-01-02 | ||
KR1020180000136A KR102133728B1 (ko) | 2017-11-24 | 2018-01-02 | 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019103484A1 true WO2019103484A1 (ko) | 2019-05-31 |
Family
ID=66630616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2018/014439 WO2019103484A1 (ko) | 2017-11-24 | 2018-11-22 | 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체 |
Country Status (2)
Country | Link |
---|---|
US (2) | US10740598B2 (ko) |
WO (1) | WO2019103484A1 (ko) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363074A (zh) * | 2019-06-03 | 2019-10-22 | 华南理工大学 | 一种针对复杂抽象化事物的类人化识别交互方法 |
CN110495854A (zh) * | 2019-07-30 | 2019-11-26 | 科大讯飞股份有限公司 | 特征提取方法、装置、电子设备及存储介质 |
CN111128242A (zh) * | 2020-01-02 | 2020-05-08 | 渤海大学 | 一种基于双深度网络的多模式情感信息融合与识别方法 |
US10748644B2 (en) | 2018-06-19 | 2020-08-18 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
US11120895B2 (en) | 2018-06-19 | 2021-09-14 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
CN115019237A (zh) * | 2022-06-30 | 2022-09-06 | 中国电信股份有限公司 | 多模态情感分析方法、装置、电子设备及存储介质 |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6872742B2 (ja) * | 2016-06-30 | 2021-05-19 | 学校法人明治大学 | 顔画像処理システム、顔画像処理方法及び顔画像処理プログラム |
WO2019103484A1 (ko) * | 2017-11-24 | 2019-05-31 | 주식회사 제네시스랩 | 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체 |
US11106898B2 (en) * | 2018-03-19 | 2021-08-31 | Buglife, Inc. | Lossy facial expression training data pipeline |
CN110634174B (zh) * | 2018-06-05 | 2023-10-10 | 深圳市优必选科技有限公司 | 一种表情动画过渡方法、系统及智能终端 |
US11545173B2 (en) * | 2018-08-31 | 2023-01-03 | The Regents Of The University Of Michigan | Automatic speech-based longitudinal emotion and mood recognition for mental health treatment |
US11710034B2 (en) * | 2019-02-27 | 2023-07-25 | Intel Corporation | Misuse index for explainable artificial intelligence in computing environments |
CN112306001A (zh) * | 2019-07-26 | 2021-02-02 | 上海韦英霍文智能科技有限公司 | 智能系统融合平台及其工作方法 |
TWI714318B (zh) * | 2019-10-25 | 2020-12-21 | 緯創資通股份有限公司 | 人臉辨識方法及裝置 |
SG10201913029SA (en) * | 2019-12-23 | 2021-04-29 | Sensetime Int Pte Ltd | Target tracking method and apparatus, electronic device, and storage medium |
KR102318661B1 (ko) * | 2020-02-03 | 2021-11-03 | 주식회사 지앤 | 현장 공간에서의 동작 인식을 통한 만족도 조사 시스템 |
CN111354053A (zh) * | 2020-02-27 | 2020-06-30 | 北京华峰创业科技有限公司 | 生成卡通形象图标的方法、装置以及存储介质 |
CN111680541B (zh) * | 2020-04-14 | 2022-06-21 | 华中科技大学 | 一种基于多维度注意力融合网络的多模态情绪分析方法 |
KR20220014674A (ko) * | 2020-07-29 | 2022-02-07 | 현대자동차주식회사 | 차량용 감정 인식 기반 서비스 제공 장치 및 그 제어 방법 |
JP2022055229A (ja) * | 2020-09-28 | 2022-04-07 | 横河電機株式会社 | 監視用デバイス、学習装置、方法およびプログラム |
CN112149603B (zh) * | 2020-09-30 | 2022-07-15 | 中国科学技术大学 | 一种基于跨模态数据增广的连续手语识别方法 |
CN112989935A (zh) | 2021-02-05 | 2021-06-18 | 北京百度网讯科技有限公司 | 一种视频生成方法、装置、设备以及存储介质 |
CN112560810B (zh) * | 2021-02-19 | 2021-07-02 | 中国科学院自动化研究所 | 基于多尺度时空特征神经网络的微表情识别方法 |
CN113326703B (zh) * | 2021-08-03 | 2021-11-16 | 国网电子商务有限公司 | 基于异构空间下多模态对抗融合的情感识别方法及系统 |
CN114219005B (zh) * | 2021-11-17 | 2023-04-18 | 太原理工大学 | 一种基于高阶谱语音特征的抑郁症分类方法 |
CN114245215B (zh) * | 2021-11-24 | 2023-04-07 | 清华大学 | 说话视频的生成方法、装置、电子设备、介质及产品 |
CN116089593B (zh) * | 2023-03-24 | 2023-06-13 | 齐鲁工业大学(山东省科学院) | 基于时序特征筛选编码模块的多回合人机对话方法和装置 |
CN117149944B (zh) * | 2023-08-07 | 2024-04-23 | 北京理工大学珠海学院 | 一种基于宽时间范畴的多模态情境情感识别方法及系统 |
CN117153197B (zh) * | 2023-10-27 | 2024-01-02 | 云南师范大学 | 语音情感识别方法、设备以及计算机可读存储介质 |
CN118536879B (zh) * | 2024-07-24 | 2024-09-20 | 杭州视洞科技有限公司 | 一种基于音视频的智能质检系统平台 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030046444A (ko) * | 2000-09-13 | 2003-06-12 | 가부시키가이샤 에이.지.아이 | 감정검출방법, 감성발생방법 및 그 장치 및 소프트웨어 |
KR20100001928A (ko) * | 2008-06-27 | 2010-01-06 | 중앙대학교 산학협력단 | 감정인식에 기반한 서비스 장치 및 방법 |
KR20130009123A (ko) * | 2011-07-14 | 2013-01-23 | 삼성전자주식회사 | 사용자의 감정 인식 장치 및 방법 |
KR20130022434A (ko) * | 2011-08-22 | 2013-03-07 | (주)아이디피쉬 | 통신단말장치의 감정 컨텐츠 서비스 장치 및 방법, 이를 위한 감정 인지 장치 및 방법, 이를 이용한 감정 컨텐츠를 생성하고 정합하는 장치 및 방법 |
JP2015075908A (ja) * | 2013-10-09 | 2015-04-20 | 日本電信電話株式会社 | 感情情報表示制御装置、その方法及びプログラム |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8600100B2 (en) * | 2009-04-16 | 2013-12-03 | Sensory Logic, Inc. | Method of assessing people's self-presentation and actions to evaluate personality type, behavioral tendencies, credibility, motivations and other insights through facial muscle activity and expressions |
US20110263946A1 (en) * | 2010-04-22 | 2011-10-27 | Mit Media Lab | Method and system for real-time and offline analysis, inference, tagging of and responding to person(s) experiences |
US9031293B2 (en) * | 2012-10-19 | 2015-05-12 | Sony Computer Entertainment Inc. | Multi-modal sensor based emotion recognition and emotional interface |
KR101988279B1 (ko) * | 2013-01-07 | 2019-06-12 | 삼성전자 주식회사 | 얼굴 인식 기반 사용자 기능 운용 방법 및 이를 지원하는 단말기 |
US20140212854A1 (en) | 2013-01-31 | 2014-07-31 | Sri International | Multi-modal modeling of temporal interaction sequences |
CN105339926A (zh) * | 2013-08-06 | 2016-02-17 | 英特尔公司 | 情绪相关的查询处理 |
US20150220159A1 (en) * | 2014-02-04 | 2015-08-06 | Pointgrab Ltd. | System and method for control of a device based on user identification |
US20170351911A1 (en) * | 2014-02-04 | 2017-12-07 | Pointgrab Ltd. | System and method for control of a device based on user identification |
WO2016193824A1 (en) * | 2015-06-05 | 2016-12-08 | Sensaura Inc. | System and method for multimodal human state recognition |
US10706873B2 (en) * | 2015-09-18 | 2020-07-07 | Sri International | Real-time speaker state analytics platform |
US10528801B2 (en) * | 2016-12-07 | 2020-01-07 | Keyterra LLC | Method and system for incorporating contextual and emotional visualization into electronic communications |
KR102651253B1 (ko) * | 2017-03-31 | 2024-03-27 | 삼성전자주식회사 | 사용자 감정 판단을 위한 전자 장치 및 이의 제어 방법 |
WO2019103484A1 (ko) * | 2017-11-24 | 2019-05-31 | 주식회사 제네시스랩 | 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체 |
-
2018
- 2018-11-22 WO PCT/KR2018/014439 patent/WO2019103484A1/ko unknown
- 2018-11-26 US US16/200,518 patent/US10740598B2/en active Active
-
2020
- 2020-08-04 US US16/985,094 patent/US11475710B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030046444A (ko) * | 2000-09-13 | 2003-06-12 | 가부시키가이샤 에이.지.아이 | 감정검출방법, 감성발생방법 및 그 장치 및 소프트웨어 |
KR20100001928A (ko) * | 2008-06-27 | 2010-01-06 | 중앙대학교 산학협력단 | 감정인식에 기반한 서비스 장치 및 방법 |
KR20130009123A (ko) * | 2011-07-14 | 2013-01-23 | 삼성전자주식회사 | 사용자의 감정 인식 장치 및 방법 |
KR20130022434A (ko) * | 2011-08-22 | 2013-03-07 | (주)아이디피쉬 | 통신단말장치의 감정 컨텐츠 서비스 장치 및 방법, 이를 위한 감정 인지 장치 및 방법, 이를 이용한 감정 컨텐츠를 생성하고 정합하는 장치 및 방법 |
JP2015075908A (ja) * | 2013-10-09 | 2015-04-20 | 日本電信電話株式会社 | 感情情報表示制御装置、その方法及びプログラム |
Non-Patent Citations (1)
Title |
---|
See also references of EP3716159A4 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10748644B2 (en) | 2018-06-19 | 2020-08-18 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
US11120895B2 (en) | 2018-06-19 | 2021-09-14 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
US11942194B2 (en) | 2018-06-19 | 2024-03-26 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
CN110363074A (zh) * | 2019-06-03 | 2019-10-22 | 华南理工大学 | 一种针对复杂抽象化事物的类人化识别交互方法 |
CN110495854A (zh) * | 2019-07-30 | 2019-11-26 | 科大讯飞股份有限公司 | 特征提取方法、装置、电子设备及存储介质 |
CN111128242A (zh) * | 2020-01-02 | 2020-05-08 | 渤海大学 | 一种基于双深度网络的多模式情感信息融合与识别方法 |
CN111128242B (zh) * | 2020-01-02 | 2023-01-24 | 渤海大学 | 一种基于双深度网络的多模式情感信息融合与识别方法 |
CN115019237A (zh) * | 2022-06-30 | 2022-09-06 | 中国电信股份有限公司 | 多模态情感分析方法、装置、电子设备及存储介质 |
CN115019237B (zh) * | 2022-06-30 | 2023-12-08 | 中国电信股份有限公司 | 多模态情感分析方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20190163965A1 (en) | 2019-05-30 |
US11475710B2 (en) | 2022-10-18 |
US10740598B2 (en) | 2020-08-11 |
US20200364446A1 (en) | 2020-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019103484A1 (ko) | 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체 | |
WO2019151735A1 (en) | Vision inspection management method and vision inspection system | |
EP3844746A1 (en) | Method and apparatus for interrupt detection | |
WO2020235712A1 (ko) | 콘텐츠 기반의 스타일을 갖는 텍스트 또는 음성을 생성하는 인공 지능 장치 및 그 방법 | |
WO2018048054A1 (ko) | 단일 카메라 기반의 3차원 영상 해석에 기초한 가상현실 인터페이스 구현 방법, 단일 카메라 기반의 3차원 영상 해석에 기초한 가상현실 인터페이스 구현 장치 | |
WO2019216578A1 (en) | Method and apparatus for executing cleaning operation | |
WO2020231230A1 (en) | Method and apparatus for performing speech recognition with wake on voice | |
WO2020241930A1 (ko) | 멀티 센서를 이용하여 위치를 추정하는 방법 및 이를 구현하는 로봇 | |
WO2015160207A1 (en) | System and method for detecting region of interest | |
WO2020235852A1 (ko) | 특정 순간에 관한 사진 또는 동영상을 자동으로 촬영하는 디바이스 및 그 동작 방법 | |
WO2013009020A4 (ko) | 시청자 얼굴 추적정보 생성방법 및 생성장치, 그 기록매체 및 3차원 디스플레이 장치 | |
WO2019124963A1 (ko) | 음성 인식 장치 및 방법 | |
WO2019000462A1 (zh) | 人脸图像处理方法、装置、存储介质及电子设备 | |
WO2021206221A1 (en) | Artificial intelligence apparatus using a plurality of output layers and method for same | |
WO2022114731A1 (ko) | 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템 및 탐지 방법 | |
WO2020241934A1 (ko) | 멀티 센서를 동기화시켜 위치를 추정하는 방법 및 이를 구현하는 로봇 | |
EP3773111A1 (en) | Method and apparatus for executing cleaning operation | |
WO2019194451A1 (ko) | 인공지능을 이용한 음성 대화 분석 방법 및 장치 | |
WO2013085278A1 (ko) | 선택적 주의 집중 모델을 이용한 모니터링 장치 및 그 모니터링 방법 | |
WO2020130260A1 (en) | Mobile terminal and method of operating the same | |
WO2017191909A1 (ko) | 제스처 인식 방법, 장치 및 비일시적 컴퓨터-판독가능 매체 | |
WO2019231068A1 (en) | Electronic device and control method thereof | |
EP3707678A1 (en) | Method and device for processing image | |
WO2024072140A1 (en) | Apparatus and method for controlling a robot photographer with semantic intelligence | |
WO2019190142A1 (en) | Method and device for processing image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18881797 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 2018881797 Country of ref document: EP Effective date: 20200624 |