WO2024029726A1 - 감정 인식을 위한 장치 및 방법 - Google Patents
감정 인식을 위한 장치 및 방법 Download PDFInfo
- Publication number
- WO2024029726A1 WO2024029726A1 PCT/KR2023/008107 KR2023008107W WO2024029726A1 WO 2024029726 A1 WO2024029726 A1 WO 2024029726A1 KR 2023008107 W KR2023008107 W KR 2023008107W WO 2024029726 A1 WO2024029726 A1 WO 2024029726A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- emotion
- features
- user
- input
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Definitions
- Embodiments of the present invention relate to an emotion recognition device and method, and more specifically, to an emotion recognition device and method for determining or recognizing a user's emotion based on context.
- HCI Human Computer Interaction
- a typical application of an HCI system is a chatbot, which allows a user to perform a specific task, such as conversation, by sending or receiving text data or audio data with a computer device.
- HCI systems can use the user's emotions to have natural conversations with the user.
- HCI systems can recognize user emotions through emotion recognition (ER) methods.
- ER emotion recognition
- SER speech emotion recognition
- 1 is a diagram for explaining a voice emotion recognition method.
- utterance data utterance data, 100
- emotion recognition model 110 emotion recognition model 110
- user emotion user emotion
- the voice emotion recognition method receives a user's voice through a microphone and divides voice data representing the user's voice into a plurality of speech data based on a plurality of time windows. Voice data is divided into a plurality of speech data corresponding to several frames. For example, one speech data may correspond to one sentence uttered by a user and may correspond to one time window.
- the voice emotion recognition method determines the user's emotion related to specific speech data 100 among a plurality of speech data.
- the voice emotion recognition method converts specific speech data 100 into a spectrogram for input to the emotion recognition model 110. Afterwards, the voice emotion recognition method extracts features related to specific speech data 100 from the spectrogram using the emotion recognition model 110.
- the voice emotion recognition method can classify the user's emotion as one of predefined types of emotions by applying the characteristics of specific speech data 100 to the emotion recognition model 110.
- the emotion recognition model 110 may be a machine learning model including a neural network such as a convolution neural network (CNN).
- CNN convolution neural network
- the HCI system can accurately recognize the user's emotions by using a Natural Language Processing (NLP) model, including Natural Language Understanding (NLU) or Natural Language Generating (NLG). You can have a natural conversation with the user.
- NLP Natural Language Processing
- NLU Natural Language Understanding
- NLG Natural Language Generating
- Multimodal HCI refers to interacting with the user based on various types of inputs.
- the multimodal HCI method can use text data input by the user, audio data representing the user's speech, and image data representing the user's facial expression as input to recognize the user's emotions.
- a multimodal HCI system can provide the artificial intelligence services needed by users.
- an HCI system using a conventional emotion recognition model only recognizes the user's emotions based on the current conversation and does not consider the context of past conversations.
- the conventional HCI system recognizes the user's emotions based only on information within the current frame. For example, as an input for recognizing a user's current emotion, a conventional HCI system uses one sentence corresponding to one frame. As another example, conventional HCI systems recognize a user's emotions from a single image frame.
- HCI systems that rely only on current input have limitations in accurately determining the user's emotions. In other words, the results determined by the HCI system regarding the user's emotions have low reliability.
- the main purpose of embodiments of the present invention is to provide an emotion recognition device and method for accurately determining a user's current emotion by considering the context according to the user's previous input data.
- Another object of the present invention is to provide an emotion recognition device and method for providing a customized service to a specific user by accurately determining the emotion of the specific user.
- an emotion recognition method implemented by a computer, comprising: acquiring input features representing any one of user text data, audio data, or image data; Extracting representative features corresponding to the plurality of emotion classes from a queue storing at least one feature for each of the plurality of emotion classes - each of the representative features being the plurality of emotion classes
- the features corresponding to each of the above and stored in the queue are the user's previous input features classified into one of the plurality of emotion classes -; determining the user's emotion using the input feature and the representative features; and storing the input feature in the queue as a feature of an emotion class corresponding to the user's emotion.
- an emotion recognition device includes: a memory for storing commands; and at least one processor, wherein the at least one processor executes the instructions to obtain an input feature representing any one of the user's text data, audio data, or image data, and for each of the plurality of emotion classes. Extract representative features corresponding to the plurality of emotion classes from a queue storing at least one feature - each of the representative features corresponds to each of the plurality of emotion classes, and is stored in the queue.
- the stored features are the user's previous input features classified into one of the plurality of emotion classes -, the user's emotion is determined using the input feature and the representative features, and the input feature is used to determine the user's emotion.
- an emotion recognition device that stores in the queue as a feature of an emotion class corresponding to.
- the user's current emotion can be accurately determined by considering the context according to the user's previous input data.
- a customized service can be provided to a specific user by accurately determining the emotions of the specific user.
- 1 is a diagram for explaining a voice emotion recognition method.
- Figure 2 is a diagram for explaining an emotion recognition method according to an embodiment of the present invention.
- Figure 3 is a diagram for explaining a feature storage unit according to an embodiment of the present invention.
- Figure 4 is a diagram for explaining a feature extraction unit according to an embodiment of the present invention.
- Figure 5 is a diagram for explaining an emotion recognition process according to an embodiment of the present invention.
- Figure 6 is a flowchart of an emotion recognition method according to an embodiment of the present invention.
- Figure 7 is a configuration diagram of an emotion recognition device according to an embodiment of the present invention.
- symbols such as first, second, i), ii), a), and b) may be used. These codes are only used to distinguish the component from other components, and the nature, sequence, or order of the component is not limited by the code. In the specification, when a part is said to 'include' or 'have' a certain element, this means that it does not exclude other elements, but may further include other elements, unless explicitly stated to the contrary. .
- Each component of the device or method according to the present invention may be implemented as hardware or software, or may be implemented as a combination of hardware and software. Additionally, the function of each component may be implemented as software and a microprocessor may be implemented to execute the function of the software corresponding to each component.
- Embodiments to be described below can be used to recognize the user's emotions in various electronic devices such as smartphones, personal computers, etc. Additionally, embodiments can be used to recognize user emotions in chatbots, home robots, intelligent assistant robots, smartphones, augmented reality devices, virtual reality devices, etc. Embodiments may be implemented in chip form and mounted on the above-described devices.
- An emotion recognition device understands context based on the user's previously input utterances, facial expressions, or sentences, and determines the user's emotion from the user's current input data based on the context. can be judged accurately. In other words, the emotion recognition device determines the user's current emotional state using features included in not only the user's current input data but also past input data.
- Figure 2 is a diagram for explaining an emotion recognition method according to an embodiment of the present invention.
- the emotion recognition device includes an emotion recognition unit 200, a feature storage unit 210, and a feature extraction unit 220.
- the emotion recognition device may further include an input unit (not shown).
- the input unit receives user input data.
- the user's input data may have one frame unit or one time window unit.
- text data corresponding to a single time window may be one complete sentence
- audio data corresponding to a single time window may be speech corresponding to one complete sentence
- image data corresponding to a single time window. may be one image frame.
- the user's input data includes any of text data, audio data, or image data.
- Text data includes at least one of a word, sentence, word, phrase, or clause input by a user through an interface such as a keyboard or touch display.
- Audio data is the user's speech received through a microphone and includes at least one utterance.
- Image data is an image frame containing the user's face.
- the input unit may determine whether the text data includes a complete sentence before extracting input features from the text data. If the text data is an incomplete sentence, the input unit receives at least one additional text data for a complete sentence. The input unit combines text data with additional text data. When the combined data represents a complete sentence, the input unit extracts input features from the combined data. For example, when the user inputs the subject, object, and predicate separately, the input unit waits until the subject, object, and predicate are all input, and extracts input features from the sentence in which the subject, object, and predicate are combined.
- the input unit extracts input features from the user's input data.
- the input feature may have one of the data formats of a feature value extracted from input data, a feature vector, a feature matrix, or a feature tensor.
- the input features are raw data, which may have any of the following formats: sentence text, spectrogram, or image frame. In this case, a process of converting input features into feature vectors, etc. is performed in the emotion recognition unit 200.
- the input unit may obtain input features using the trained first neural network.
- the input unit may extract input features from input data using a first neural network including a plurality of layers.
- the first neural network may be either a neural network trained to extract features from text input, a neural network trained to extract features from audio input, or a neural network trained to extract features from image data.
- the first neural network can be implemented in various architectures, such as a convolutional neural network and a recurrent neural network.
- the first neural network may be the encoder portion of an auto-encoder trained using a method widely known in the field of artificial intelligence technology.
- the feature storage unit 210 stores at least one feature for each preset number of emotion classes. All initial features stored in the feature storage unit 210 may have a zero value or a random value. After the user's emotion is determined, the feature storage unit 210 stores the input feature as an emotion class corresponding to the user's emotion. As time passes, the feature storage unit 210 may accumulate features related to the user's behavior when the user has a specific emotion.
- the feature extraction unit 220 extracts representative features of each emotion class from the feature storage unit 210.
- the emotion recognition device may extract representative features of neutral emotions, representative features of angry emotions, representative features of happy emotions, and representative features of sad emotions from the feature storage unit 210.
- the emotion recognition unit 200 determines the user's emotion using input features and representative features for each emotion class.
- the emotion recognition unit 200 may determine the user's emotion based on correlations between input features and representative features. For example, the emotion recognition unit 200 calculates similarity values between the input feature and representative features, identifies the representative feature corresponding to the highest similarity value among the calculated similarity values, and generates an emotion corresponding to the identified representative feature.
- the emotions of the class can be judged by the emotions of the user.
- the emotion recognition unit 200 obtains probability distribution information about a plurality of emotion classes from input features and representative features using an emotion recognition model, and determines the user's response according to the probability distribution information. You can judge emotions.
- the emotion recognition model may be a trained second neural network.
- the emotion recognition device may further include a preprocessor (not shown). Specifically, the preprocessor processes input features and representative features to generate concatenated features.
- the emotion recognition unit 200 inputs the combined characteristics into the emotion recognition model.
- the emotion recognition model outputs probability information corresponding to each of a plurality of emotion classes in response to input of combined features.
- the emotion recognition unit 200 determines the user's emotion based on probability information.
- the emotion recognition model may include at least one of a transformer network, a convolution neural network (CNN), or a long short-term memory (LSTM) network.
- CNN convolution neural network
- LSTM long short-term memory
- the emotion recognition model is a model trained to output probability information corresponding to each of a plurality of emotion classes in response to input of training data including combined features for training.
- the emotion recognition device stores speech features, behavioral features, or input text features received when the user has a specific emotion, and determines the user's emotion from the user's current input features based on the stored features. For example, an emotion recognition device can determine what emotion the user has from the user's current utterance, based on the characteristics of words the user mainly uses when he or she is angry.
- the emotion recognition device determines the user's emotion by considering the context of the user's past conversation, it has high emotion recognition performance and high reliability compared to judging the user's emotion based only on the content of the current conversation.
- Figure 3 is a diagram for explaining a feature storage unit according to an embodiment of the present invention.
- the first emotion class represents a neutral emotion
- the second emotion class represents an angry emotion
- the third emotion class represents a happy emotion
- the fourth emotion class represents a sad emotion.
- the emotion classes may further include emotion classes related to various emotions such as fear emotion, surprised emotion, comfortable emotion, anxious emotion, etc. in addition to the above four emotions.
- the feature storage unit 210 may include a queue 212.
- the queue 212 is at least one memory in which initial features are stored and input features extracted from user input data are additionally stored.
- the queue 212 stores at least one feature for each preset number of emotion classes.
- the queue 212 may include partial queues corresponding to the number of emotion classes, and each partial queue stores features of each emotion class.
- Queue 212 stores the initial features i 1 , i 2 , i 3 , and i 4 as initial values. For example, the queue 212 stores the first initial feature i 1 as a feature of the first emotion class and the second initial feature i 2 as a feature of the second emotion class.
- first features include i 1 , x(0), x(1), and x(2), etc.
- Secondary features include i 2 , x(3), x(4), x(9), and x(10), etc.
- the cue 212 stores language characteristics, behavioral characteristics, facial expression characteristics, etc. used by a user in a specific emotional state.
- the cue 212 may store sentence format, words in sentences, word order, language habits, etc. used by a user in a specific emotional state. In this way, the cue 212 stores the user's emotions and movement patterns in correspondence.
- each emotion class stored in the queue 212 become context information.
- relatively recently stored features represent the context of the current conversation with the user.
- Contextual information provides useful information to determine what emotions the user has from the user's current input characteristics.
- the emotion recognition device corresponds to the user's terminal and the cue 212 stores features corresponding to a specific user
- the stored features are information about the specific user, thereby providing a customizing service for the specific user. It can be used to
- Figure 4 is a diagram for explaining a feature extraction unit according to an embodiment of the present invention.
- the feature extraction unit 230 is shown.
- the feature extraction unit 230 extracts representative features corresponding to a plurality of emotion classes from a queue in which at least one feature is stored for each of the plurality of emotion classes.
- the feature extraction unit 230 extracts the first representative feature f Neutral from the first features, extracts the second representative feature f Angry from the second features, and extracts the third representative feature f Angry from the second features.
- the third representative feature f Happy is extracted from and the fourth representative feature f Sad is extracted from the fourth features. In this way, the feature extraction unit 230 extracts representative features for each emotion class.
- the feature extraction unit 230 extracts representative features from features stored for each emotion class and can use either a generation method or a selection method.
- the feature extractor 230 can extract representative features by encoding features stored for each emotion class. For example, the feature extractor 230 may generate the first representative feature by encoding the first features.
- the feature extraction unit 230 may use a model that has undergone representation learning.
- Representation learning refers to embedding context.
- the feature extractor 230 may use an encoder of an autoencoder for which training has been completed.
- the autoencoder is a model composed of an encoder that extracts features from input and a decoder that generates output data corresponding to the input from the extracted features.
- Autoencoders can be trained using self-supervised learning methods to produce output identical to the input.
- the encoder of the trained autoencoder extracts latent space from the input as a feature. In this way, the feature extraction unit 230 can extract one representative feature from the features stored for each emotion class.
- the feature extractor 230 can extract representative features by selecting one of the plurality of features stored for each emotion class. there is.
- the feature extraction unit 230 may use a model that has undergone prototypical learning.
- the feature extraction unit 230 uses a prototype learned model, the feature extraction unit 230 generates a prototype feature for each emotion class and selects the feature most similar to each prototype feature as the representative feature of each emotion class. For example, the average of the first features of the first emotion class is generated as the first prototype feature. Among the first features, the first feature that is most similar to the first prototype feature is selected as the representative feature.
- the first prototype feature is updated according to the average of the first features and the input feature.
- the feature extraction unit 230 may extract representative features by randomly selecting one feature among the features of each emotion class. For example, the feature extractor 230 may determine a randomly selected one among the first features as the first representative feature.
- the extracted representative features have the same format as the format of the input features.
- the format of the input feature is a vector
- the format of the representative feature may also be a vector.
- Figure 5 is a diagram for explaining an emotion recognition process according to an embodiment of the present invention.
- the emotion recognition device includes an emotion recognition unit 200 and a preprocessor 500.
- the preprocessor 500 processes a plurality of representative features and input features corresponding to a plurality of emotion classes.
- the preprocessor 500 generates a combined feature by concatenating a plurality of representative features and an input feature.
- the preprocessor 500 combines the representative feature vectors with each other and combines the input feature vectors with the connected representative feature vectors.
- the input feature is shown as being combined to the right of the representative features, but in other embodiments, the order in which the input feature and the representative feature are combined may be set in various ways.
- the emotion recognition unit 200 may use the combined features as input to an emotion recognition model to determine the user's emotion.
- the emotion recognition model can be trained in advance through supervised learning.
- an emotion recognition model is trained to output probability information corresponding to each of a plurality of emotion classes in response to input of training data including combined features for training. Each combined feature included in the training data is labeled with correct answer probability information.
- the emotion recognition unit 200 inputs the combined characteristics into the trained emotion recognition model.
- the emotion recognition model outputs probability information including probability values for each emotion class according to the input of combined features.
- the emotion recognition unit 200 determines the user's emotion based on probability information. As an example, the emotion recognition unit 200 may determine the emotion class with the highest probability value as the user's emotion.
- the emotion recognition model may have a neural network structure including at least one layer.
- Emotion recognition models can have various architectures.
- the emotion recognition model may be trained based on an attention mechanism.
- the emotion recognition model includes at least one encoder and at least one decoder.
- At least one encoder receives combined features as input.
- the combined feature is divided into five features and input sequentially.
- Hidden states according to the input of the combined feature are stored in at least one encoder.
- Each hidden state of the encoder may correspond to each of the emotion classes.
- the last hidden state of the encoder is input to at least one decoder, and the hidden state of the decoder is output.
- a label for the combined feature may also be input to the decoder.
- a hidden state is stored for each input in at least one decoder.
- the input features and the previous hidden state are input to the decoder, and the decoder outputs the final hidden state.
- Attention scores are derived based on the final hidden state of the decoder being computed with each hidden state stored in the encoder. Attention scores correspond to the encoder's hidden states. Each attention score is applied as a weight of the hidden state of the corresponding encoder. That is, the attention scores are weighted with the hidden states of the encoder. The weighted sum result is one vector, which becomes a context vector.
- the emotion recognition model applies weights to the combination between the context vector and the final hidden state of the decoder, and outputs probability information for each emotion class through the softmax function.
- the emotion recognition model is trained to output probability information about the user's emotion classes based on the relationship between representative features for each emotion class and input features.
- the emotion recognition model may be trained to identify representative features that are related to or have similar values to the input feature and output a high probability value of the emotion class corresponding to the representative feature.
- the emotion recognition model may be a transformer network using an attention mechanism.
- the emotion recognition model may be a convolutional neural network.
- the emotion recognition model includes at least one convolution layer.
- the emotion recognition model may be a short-term and long-term memory network.
- the emotion recognition model may have a recurrent neural network structure and may include at least one layer.
- the emotion recognition unit 200 can determine the user's emotion without combining input features and representative features.
- the emotion recognition unit 200 may determine the user's emotion based on correlations between input features and representative features.
- the correlation between input features and representative features refers to similarity.
- the emotion recognition unit 200 detects one representative feature with high similarity to the input feature among representative features, and determines the emotion class corresponding to the detected representative feature as the user's emotion.
- Figure 6 is a flowchart of an emotion recognition method according to an embodiment of the present invention.
- the emotion recognition device receives input data including any one of text data, audio data, or image data.
- the emotion recognition device acquires input features representing any one of the user's text data, audio data, or image data (S500).
- An emotion recognition device can extract input features from any one of text data, audio data, or image data using a feature extractor.
- an emotion recognition device can check text data to extract only input features corresponding to a single sentence. Specifically, the emotion recognition device determines whether text data is an incomplete sentence.
- the criteria for determining a complete sentence can be set in advance based on the subject, object, predicate, etc.
- the emotion recognition device determines that the text data is an incomplete sentence, it receives at least one piece of additional text data.
- the emotion recognition device extracts input features from the combination.
- the emotion recognition device extracts representative features corresponding to a plurality of emotion classes from a queue storing at least one feature for each of the plurality of emotion classes (S510).
- each of the representative features corresponds to each of a plurality of emotion classes.
- the features stored in the queue are the user's previous input features that have been pre-classified into one of a plurality of emotion classes.
- the features stored in the queue are context information analyzed through past conversations with the user.
- an emotion recognition device extracts representative features by encoding at least one feature for each emotion class.
- the emotion recognition device when a plurality of features are stored for each emotion class, extracts representative features by selecting one of the plurality of features stored for each emotion class.
- the emotion recognition device determines the user's emotion using input features and representative features (S520).
- an emotion recognition device may determine a user's emotion based on correlations between input features and representative features.
- an emotion recognition device can determine a user's emotion using a trained model. Specifically, the emotion recognition device processes input features and representative features to generate combined features. An emotion recognition device obtains probability information about emotion classes from combined features using an emotion recognition model. Here, the emotion recognition model is trained to output probability information corresponding to each of a plurality of emotion classes in response to input of training data including combination features for training. The emotion recognition device determines the user's emotion based on the probability information.
- an emotion recognition model may be trained to output probability information based on attention between input features and representative features.
- the emotion recognition device After determining the user's emotion, stores the input feature in a queue as a feature of the emotion class corresponding to the user's emotion (S522).
- Input features used to determine the user's emotion are stored as context information.
- the emotion recognition device determines the user's emotion according to the next input feature
- the input feature stored in the queue is used as context information.
- Figure 7 is a configuration diagram of an emotion recognition device according to an embodiment of the present invention.
- the emotion recognition device 700 may include some or all of a memory 710, a processor 720, a storage 730, an input/output interface 740, and a communication interface 750.
- the emotion recognition device 700 represents a training data generating device.
- the emotion recognition device 700 may be a stationary computing device such as a desktop computer, server, AI accelerator, etc., as well as a portable computing device such as a laptop computer, a smart phone, etc.
- the memory 710 may store a program that causes the processor 720 to perform a data generation method according to an embodiment of the present invention.
- a program may include a plurality of instructions executable by the processor 720, and the data generation method may be performed by executing the plurality of instructions by the processor 720.
- Memory 710 may be a single memory or multiple memories. In this case, the information required for data generation may be stored in a single memory or divided into multiple memories. When the memory 710 is comprised of a plurality of memories, the plurality of memories may be physically separated.
- the memory 710 may include at least one of volatile memory and non-volatile memory.
- Volatile memory includes Static Random Access Memory (SRAM) or Dynamic Random Access Memory (DRAM), and non-volatile memory includes flash memory.
- SRAM Static Random Access Memory
- DRAM Dynamic Random Access Memory
- the processor 720 may include at least one core capable of executing at least one instruction.
- the processor 720 may execute instructions stored in the memory 710.
- Processor 720 may be a single processor or multiple processors.
- the storage 730 maintains the stored data even if the power supplied to the emotion recognition device 700 is cut off.
- storage 730 may include non-volatile memory or may include a storage medium such as magnetic tape, optical disk, or magnetic disk.
- the storage 730 may store a program that constitutes training data.
- a program stored in the storage 730 may be loaded into the memory 710 before being executed by the processor 720.
- the storage 730 can store files written in a program language, and a program created from a file by a compiler, etc. can be loaded into the memory 710.
- the storage 730 may store data to be processed by the processor 720 and data processed by the processor 720.
- the input/output interface 740 may include an input device such as a keyboard or mouse, and may include an output device such as a display device or printer. A user may trigger execution of a program by the processor 720 through the input/output interface 740.
- Communication interface 750 provides access to external networks.
- the emotion recognition device 700 may communicate with other devices through the communication interface 750.
- Various implementations of the systems and techniques described herein may include digital electronic circuits, integrated circuits, field programmable gate arrays (FPGAs), application specific integrated circuits (ASICs), computer hardware, firmware, software, and/or these. It can be realized through combination.
- These various implementations may include being implemented as one or more computer programs executable on a programmable system.
- the programmable system includes at least one programmable processor (which may be a special purpose processor) coupled to receive data and instructions from and transmit data and instructions to a storage system, at least one input device, and at least one output device. or may be a general-purpose processor).
- Computer programs also known as programs, software, software applications or code
- Computer-readable recording media include all types of recording devices that store data that can be read by a computer system. These computer-readable recording media are non-volatile or non-transitory such as ROM, CD-ROM, magnetic tape, floppy disk, memory card, hard disk, magneto-optical disk, and storage device. It may be a medium, and may further include a transitory medium such as a data transmission medium. Additionally, the computer-readable recording medium may be distributed in a computer system connected to a network, and the computer-readable code may be stored and executed in a distributed manner.
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hospice & Palliative Care (AREA)
- Machine Translation (AREA)
Abstract
감정 인식을 위한 장치 및 방법을 개시한다. 본 발명의 일 측면에 의하면, 컴퓨터에 의해 구현되는 감정 인식 방법에 있어서, 사용자의 텍스트 데이터, 오디오 데이터 또는 이미지 데이터를 나타내는 입력 특징을 획득하는 단계; 복수의 감정 클래스들 각각에 대해 적어도 하나의 특징을 저장한 큐로부터 복수의 감정 클래스들에 대응되는 대표 특징들을 추출하는 단계 - 대표 특징들 각각은 복수의 감정 클래스들 각각에 대응되고, 큐에 저장된 특징들은 사용자의 이전 입력 특징들이 복수의 감정 클래스들 중 어느 하나로 분류된 것임 -; 입력 특징 및 대표 특징들을 이용하여 사용자의 감정을 판단하는 단계; 및 입력 특징을 사용자의 감정에 대응되는 감정 클래스의 특징으로서 큐에 저장하는 단계를 포함하는 감정 인식 방법을 제공한다.
Description
본 발명의 실시예들은 감정 인식 장치 및 방법, 자세하게는 문맥(context)에 기초하여 사용자의 감정을 판단하거나 인식하기 위한 감정 인식 장치 및 방법에 관한 것이다.
이하에 기술되는 내용은 단순히 본 실시예와 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.
최근 인공지능 기술의 발전에 따라, 인간-컴퓨터 상호작용(Human Computer Interaction; HCI) 기술분야가 급속도로 발전하고 있다.
대표적인 HCI 시스템의 애플리케이션으로서, 사용자가 컴퓨터 장치와 텍스트 데이터 또는 오디오 데이터를 주거나 받음으로써, 대화와 같은 특정 작업을 수행할 수 있는 챗봇(chatbot)이 있다.
HCI 시스템은 사용자와의 자연스러운 대화를 위해 사용자의 감정을 이용할 수 있다. HCI 시스템은 감정 인식(Emotion Recognition; ER) 방법을 통해 사용자의 감정을 인식할 수 있다. 사용자의 감정을 인식하는 방법의 예로서, 사용자의 음성 데이터를 이용하는 음성 감정 인식(Speech Emotion Recognition; SER) 방법이 있다.
도 1은 음성 감정 인식 방법을 설명하기 위한 도면이다.
도 1을 참조하면, 특정 발화 데이터(utterance data, 100), 감정 인식 모델(110) 및 사용자 감정이 도시되어 있다.
음성 감정 인식 방법은 사용자의 음성(speech)을 마이크를 통해 입력 받고, 사용자의 음성을 나타내는 음성 데이터를 복수의 시간 윈도우들(time windows)에 기초하여 복수의 발화 데이터로 나눈다. 음성 데이터는 여러 프레임들에 해당하는 복수의 발화 데이터로 구분된다. 예를 들면, 하나의 발화 데이터는 사용자가 발화한 하나의 문장에 대응될 수 있고, 하나의 시간 윈도우에 대응될 수 있다. 음성 감정 인식 방법은 복수의 발화 데이터 중 특정 발화 데이터(100)에 관련된 사용자의 감정을 판단한다. 음성 감정 인식 방법은 특정 발화 데이터(100)를 감정 인식 모델(110)에 입력하기 위한 스펙트로그램으로 변환한다. 이후, 음성 감정 인식 방법은 감정 인식 모델(110)을 이용하여 스펙트로그램으로부터 특정 발화 데이터(100)에 관한 특징(feature)들을 추출한다. 음성 감정 인식 방법은 특정 발화 데이터(100)에 관한 특징들을 감정 인식 모델(110)에 적용함으로써, 사용자 감정을 기 정의된 종류의 감정들 중 하나로 분류할 수 있다. 이때, 감정 인식 모델(110)은 합성곱 신경망(Convolution Neural Network; CNN)과 같은 신경망을 포함하는 기계 학습 모델(machine learning model)일 수 있다.
한편, HCI 시스템은 자연어 이해(Neutral Language Understanding; NLU) 또는 자연어 생성(Neutral Language Generating; NLG)를 포함하는 자연어 처리(Neutral Language Processing; NLP) 모델을 이용함으로써, 사용자의 감정의 정확히 인식할 수 있고 사용자와 자연스러운 대화를 수행할 수 있다. 특히, 방대한 양의 훈련 데이터로 훈련된 라지-스케일(large-scale) 모델에 의해, HCI 시스템의 성능이 개선되고 있다.
나아가, 최근의 HCI 시스템은 하나의 입력 데이터뿐만 아니라 다양한 종류의 데이터를 함께 이용하는 멀티모달(multimodal) HCI 방식을 채용하고 있다. 멀티모달 HCI 방식은 다양한 종류의 입력들에 기초하여 사용자와 상호작용하는 것을 지칭한다. 예를 들면, 멀티모달 HCI 방식은 사용자의 감정을 인식하기 위해 사용자에 의해 입력된 텍스트 데이터, 사용자의 발화를 나타내는 오디오 데이터 및 사용자의 얼굴표정을 나타내는 이미지 데이터를 입력으로서 이용할 수 있다. 멀티모달 HCI 시스템은 사용자에게 필요한 인공지능 서비스를 제공할 수 있다.
하지만, 종래의 감정 인식 모델을 이용하는 HCI 시스템은 현재 대화에만 기초하여 사용자의 감정을 인식할 뿐, 과거 대화에 따른 문맥(context)을 고려하지 않는다. 즉, 종래의 HCI 시스템은 현재 프레임 내 정보에만 기초하여 사용자의 감정을 인식한다. 예를 들면, 사용자의 현재 감정을 인식하기 위한 입력으로서, 종래의 HCI 시스템은 하나의 프레임에 대응하는 하나의 문장(sentence)을 이용한다. 다른 예로서, 종래의 HCI 시스템은 단일 이미지 프레임으로부터 사용자의 감정을 인식한다.
이처럼, 현재의 입력에만 의존하는 HCI 시스템은 사용자의 감정을 정확하게 판단하는 데 한계가 있다. 즉, 사용자의 감정에 관해 HCI 시스템에 의해 판단된 결과는 신뢰도가 낮다.
본 발명의 실시예들은, 사용자의 이전 입력 데이터에 따른 문맥을 고려하여 사용자의 현재 감정을 정확하게 판단하기 위한 감정 인식 장치 및 방법을 제공하는 데 주된 목적이 있다.
본 발명의 다른 실시예들은, 특정 사용자의 감정을 정확하게 판단함으로써 특정 사용자에게 맞춤화된 서비스를 제공하기 위한 감정 인식 장치 및 방법을 제공하는 데 일 목적이 있다.
본 발명의 일 측면에 의하면, 컴퓨터에 의해 구현되는 감정 인식 방법에 있어서, 사용자의 텍스트 데이터, 오디오 데이터 또는 이미지 데이터 중 어느 하나를 나타내는 입력 특징을 획득하는 단계; 복수의 감정 클래스들 각각에 대해 적어도 하나의 특징(feature)을 저장한 큐(queue)로부터 상기 복수의 감정 클래스들에 대응되는 대표 특징들을 추출하는 단계 - 상기 대표 특징들 각각은 상기 복수의 감정 클래스들 각각에 대응되고, 상기 큐에 저장된 특징들은 상기 사용자의 이전 입력 특징들이 상기 복수의 감정 클래스들 중 어느 하나로 분류된 것임 -; 상기 입력 특징 및 상기 대표 특징들을 이용하여 상기 사용자의 감정을 판단하는 단계; 및 상기 입력 특징을 상기 사용자의 감정에 대응되는 감정 클래스의 특징으로서 상기 큐에 저장하는 단계를 포함하는 감정 인식 방법을 제공한다.
본 실시예의 다른 측면에 의하면, 감정 인식 장치에 있어서, 명령어들을 저장하는 메모리; 및 적어도 하나의 프로세서를 포함하되, 상기 적어도 하나의 프로세서는 상기 명령어들을 실행함으로써, 사용자의 텍스트 데이터, 오디오 데이터 또는 이미지 데이터 중 어느 하나를 나타내는 입력 특징을 획득하고, 복수의 감정 클래스들 각각에 대해 적어도 하나의 특징(feature)을 저장한 큐(queue)로부터 상기 복수의 감정 클래스들에 대응되는 대표 특징들을 추출하고 - 상기 대표 특징들 각각은 상기 복수의 감정 클래스들 각각에 대응되고, 상기 큐에 저장된 특징들은 상기 사용자의 이전 입력 특징들이 상기 복수의 감정 클래스들 중 어느 하나로 분류된 것임 -, 상기 입력 특징 및 상기 대표 특징들을 이용하여 상기 사용자의 감정을 판단하고, 상기 입력 특징을 상기 사용자의 감정에 대응되는 감정 클래스의 특징으로서 상기 큐에 저장하는, 감정 인식 장치를 제공한다.
이상에서 설명한 바와 같이 본 발명의 일 실시예에 의하면, 사용자의 이전 입력 데이터에 따른 문맥을 고려하여 사용자의 현재 감정을 정확하게 판단할 수 있다.
본 발명의 다른 실시예에 의하면, 특정 사용자의 감정을 정확하게 판단함으로써 특정 사용자에게 맞춤화된 서비스를 제공할 수 있다.
도 1은 음성 감정 인식 방법을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 감정 인식 방법을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 특징 저장부를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 특징 추출부를 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 감정 인식 과정을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 감정 인식 방법의 순서도이다.
도 7은 본 발명의 일 실시예에 따른 감정 인식 장치의 구성도이다.
이하, 본 개시의 일부 실시예들을 예시적인 도면을 이용해 상세하게 설명한다. 각 도면의 구성 요소들에 참조 부호를 부가함에 있어서, 동일한 구성 요소들에 대해서는 비록 다른 도면 상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
본 개시에 따른 실시예의 구성요소를 설명하는 데 있어서, 제1, 제2, i), ii), a), b) 등의 부호를 사용할 수 있다. 이러한 부호는 그 구성요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 부호에 의해 해당 구성요소의 본질 또는 차례나 순서 등이 한정되지 않는다. 명세서에서 어떤 부분이 어떤 구성요소를 '포함' 또는 '구비'한다고 할 때, 이는 명시적으로 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 발명에 따른 장치 또는 방법의 각 구성요소는 하드웨어 또는 소프트웨어로 구현되거나, 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 각 구성요소의 기능이 소프트웨어로 구현되고 마이크로프로세서가 각 구성요소에 대응하는 소프트웨어의 기능을 실행하도록 구현될 수도 있다.
이하에서 설명될 실시예들은 스마트폰, 개인형 컴퓨터(personal computer) 등과 같은 다양한 전자 장치들에서 사용자의 감정을 인식하는 데 이용될 수 있다. 또한, 실시예들은 챗봇, 홈 로봇, 지능형 비서 로봇, 스마트폰, 증강현실 기기, 가상현실 기기 등에서 사용자의 감정을 인식하는 데 이용될 수 있다. 실시예들은 칩(chip) 형태로 구현되어 전술한 장치들에 탑재될 수 있다.
본 발명의 일 실시예에 따른 감정 인식 장치는 이전에 입력된 사용자의 발화들, 얼굴 표정들 또는 문장들을 기반으로 문맥(context)을 이해하고, 문맥에 기초하여 사용자의 현재 입력 데이터로부터 사용자의 감정을 정확하게 판단할 수 있다. 즉, 감정 인식 장치는 사용자의 현재 입력 데이터뿐만 아니라 과거 입력 데이터에 포함된 특징들을 이용하여 사용자의 현재 감정 상태를 판단한다.
도 2는 본 발명의 일 실시예에 따른 감정 인식 방법을 설명하기 위한 도면이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 감정 인식 장치는 감정 인식부(200), 특징 저장부(210) 및 특징 추출부(220)를 포함한다. 감정 인식 장치는 입력부(미도시)를 더 포함할 수 있다.
입력부는 사용자의 입력 데이터를 수신한다.
사용자의 입력 데이터는 하나의 프레임 단위 또는 하나의 시간 윈도우(time window) 단위를 가질 수 있다. 예를 들면, 단일 시간 윈도우에 대응되는 텍스트 데이터는 하나의 완전한 문장일 수 있고, 단일 시간 윈도우에 대응되는 오디오 데이터는 하나의 완전한 문장에 대응되는 음성일 수 있고, 단일 시간 윈도우에 대응되는 이미지 데이터는 하나의 이미지 프레임일 수 있다.
다른 실시예에서, 사용자의 입력 데이터는 텍스트 데이터, 오디오 데이터 또는 이미지 데이터 중 어느 하나를 포함한다. 텍스트 데이터는 키보드 또는 터치 디스플레이와 같은 인터페이스를 통해 사용자에 의해 입력되는 단어(word), 문장(sentence), 어절, 구 또는 절 중 적어도 하나를 포함한다. 오디오 데이터는 마이크를 통해 수신되는 사용자의 음성(speech)로서, 적어도 하나의 발화(utterance)를 포함한다. 이미지 데이터는 사용자의 얼굴을 포함하는 이미지 프레임이다.
본 발명의 일 실시예에 의하면, 입력 데이터가 텍스트 데이터일 때, 입력부는 텍스트 데이터로부터 입력 특징을 추출하기 전에 텍스트 데이터가 완전한 문장을 포함하는지 여부를 판단할 수 있다. 텍스트 데이터가 불완전한 문장인 경우, 입력부는 완전한 문장을 위한 적어도 하나의 추가 텍스트 데이터를 입력 받는다. 입력부는 텍스트 데이터와 추가 텍스트 데이터를 결합한다. 결합된 데이터가 완전한 문장을 나타낼 때, 입력부는 결합된 데이터로부터 입력 특징을 추출한다. 예를 들면, 사용자가 주어, 목적어 및 서술어를 분리하여 입력하는 경우, 입력부는 주어, 목적어 및 서술어가 모두 입력될 때까지 대기하고, 주어, 목적어 및 서술어가 결합된 문장으로부터 입력 특징을 추출한다.
입력부는 사용자의 입력 데이터로부터 입력 특징을 추출한다. 여기서, 입력 특징은 입력 데이터로부터 추출된 특징값, 특징벡터, 특징행렬, 또는 특징텐서(tensor) 중 어느 하나의 데이터 포맷을 가질 수 있다. 다른 실시예에서 입력 특징은 원시 데이터(raw data)로서, 문장 텍스트, 스펙트로그램 또는 이미지 프레임 중 어느 하나의 포맷을 가질 수 있다. 이 경우, 감정 인식부(200)에서 입력 특징을 특징벡터 등으로 변환하는 과정이 수행된다.
입력부는 훈련된 제1 신경망을 이용하여 입력 특징을 얻을 수 있다. 예를 들면, 입력부는 복수의 레이어들을 포함하는 제1 신경망을 이용하여 입력 데이터로부터 입력 특징을 추출할 수 있다. 제1 신경망은 텍스트 입력으로부터 특징들을 추출하도록 훈련된 신경망, 오디오 입력으로부터 특징들을 추출하도록 훈련된 신경망, 또는 이미지 데이터로부터 특징들을 추출하도록 훈련된 신경망 중 어느 하나일 수 있다. 제1 신경망은 합성곱 신경망, 순환 신경망 등 다양한 아키텍처로 구현될 수 있다. 제1 신경망은 인공지능 기술분야에서 널리 알려진 방법으로 훈련된 오토인코더(auto-encoder)의 인코더 부분일 수 있다.
한편, 특징 저장부(210)는 기 설정된 개수의 감정 클래스들마다 적어도 하나의 특징을 저장한다. 특징 저장부(210)에 저장된 초기 특징들은 모두 제로 값을 가지거나 랜덤 값을 가질 수 있다. 사용자의 감정이 판단된 후, 특징 저장부(210)는 사용자의 감정에 대응되는 감정 클래스로서 입력 특징을 저장한다. 시간이 흐름에 따라, 특징 저장부(210)는 사용자가 특정 감정을 가질 때 사용자의 행동에 관한 특징들을 축적할 수 있다.
특징 추출부(220)는 특징 저장부(210)로부터 각 감정 클래스의 대표 특징을 추출한다. 예를 들면, 감정 인식 장치는 특징 저장부(210)로부터 중립적인 감정의 대표 특징, 화난 감정의 대표 특징, 행복한 감정의 대표 특징 및 슬픈 감정의 대표 특징을 추출할 수 있다.
감정 인식부(200)는 입력 특징 및 감정 클래스별 대표 특징을 이용하여 사용자의 감정을 판단한다.
본 발명의 일 실시예에 의하면, 감정 인식부(200)는 입력 특징 및 대표 특징들 간 상관관계들에 기초하여 사용자의 감정을 판단할 수 있다. 예를 들면, 감정 인식부(200)는 입력 특징과 대표 특징들 간 유사도 값들을 계산하고, 계산된 유사도 값들 중 가장 높은 유사도 값에 대응되는 대표 특징을 식별하고, 식별된 대표 특징에 대응되는 감정 클래스의 감정을 사용자의 감정으로 판단할 수 있다.
본 발명의 다른 실시예에 의하면, 감정 인식부(200)는 감정 인식 모델을 이용하여 입력 특징 및 대표 특징들로부터 복수의 감정 클래스들에 관한 확률 분포 정보를 획득하고, 확률 분포 정보에 따라 사용자의 감정을 판단할 수 있다. 여기서, 감정 인식 모델을 훈련된 제2 신경망일 수 있다. 감정 인식 장치는 전처리부(미도시)를 더 포함할 수 있다. 구체적으로, 전처리부는 입력 특징 및 대표 특징들을 처리하여 결합 특징(concatenated feature)을 생성한다. 감정 인식부(200)는 결합 특징을 감정 인식 모델에 입력한다. 감정 인식 모델은 결합 특징의 입력에 응답하여 복수의 감정 클래스 각각에 대응되는 확률 정보를 출력한다. 감정 인식부(200)는 확률 정보에 기초하여 사용자의 감정을 판단한다.
상기 실시예에서, 감정 인식 모델은 트랜스포머 네트워크(transformer network), 컨볼루션 뉴럴 네트워크(Convolution Neural Network; CNN), 또는 장단기 메모리(Long Short-Term Memory; LSTM) 네트워크 중 적어도 하나를 포함할 수 있다.
상기 실시예에서, 감정 인식 모델은 훈련용 결합 특징들을 포함하는 훈련 데이터의 입력에 응답하여 복수의 감정 클래스들 각각에 대응되는 확률 정보를 출력하도록 훈련된 모델이다.
감정 인식 장치는 사용자가 특정 감정을 가질 때 수신되는 발화 특징들, 행동 특징들, 또는 입력 텍스트의 특징들을 저장하고, 저장된 특징들에 기초하여 사용자의 현재 입력 특징으로부터 사용자의 감정을 판단할 수 있다. 예를 들면, 감정 인식 장치는 사용자가 화났을 때 주로 사용하는 단어들의 특징들에 기초하여, 사용자의 현재 발화로부터 사용자가 어떤 감정을 가지는지 판단할 수 있다.
감정 인식 장치는 사용자와의 과거 대화의 문맥을 고려하여 사용자의 감정을 판단하므로, 현재 대화 내용에만 의존하여 사용자의 감정을 판단하는 것에 비해 높은 감정 인식 성능과 높은 신뢰도를 갖는다.
도 3은 본 발명의 일 실시예에 따른 특징 저장부를 설명하기 위한 도면이다.
도 3에서, 감정 클래스들은 4개인 것으로 설명한다. 제1 감정 클래스는 중립적인 감정을 나타내고, 제2 감정 클래스는 화난 감정을 나타내고, 제3 감정 클래스는 행복한 감정을 나타내고, 제4 감정 클래스는 슬픈 감정을 나타낸다. 다른 실시예에서, 감정 클래스들은 위 네 가지 감정뿐만 아니라 공포 감정, 놀란 감정, 편안한 감정, 불안한 감정 등 다양한 감정에 관한 감정 클래스들을 더 포함할 수 있다.
도 3을 참조하면, 특징 저장부(210)는 큐(queue, 212)를 포함할 수 있다.
큐(212)는 초기 특징들이 저장되고, 추가적으로 사용자의 입력 데이터로부터 추출된 입력 특징이 저장되는 적어도 하나의 메모리이다.
큐(212)는 기 설정된 개수의 감정 클래스들마다 적어도 하나의 특징을 저장한다. 큐(212)는 감정 클래스들의 개수에 해당하는 부분 큐들을 포함할 수 있고, 각 부분 큐는 각 감정 클래스의 특징들을 저장한다.
큐(212)는 초기 특징들 i1, i2, i3, 및 i4을 초기값으로서 저장한다. 예를 들어, 큐(212)는 제1 감정 클래스의 특징으로서 제1 초기 특징 i1를 저장하고, 제2 감정 클래스의 특징으로서 제2 초기 특징 i2를 저장한다.
하나의 입력 특징이 수신되고 입력 특징에 따른 사용자의 감정이 판단될 때, 큐(212)는 사용자의 판단된 감정에 대응되는 감정 클래스의 특징 데이터로서, 입력 특징을 저장한다. 예를 들어, t=0에서 입력 특징 x(0)로부터 사용자의 감정이 중립적인 감정으로 판단된 때, 큐(212)는 입력 특징 x(0)를 제1 감정 클래스의 특징으로 저장한다. t=1에서 입력 특징 x(1)로부터 사용자의 감정이 중립적인 감정으로 판단된 때, 큐(212)는 입력 특징 x(1)을 제1 감정 클래스의 특징으로 저장한다. 반면, t=3에서 입력 특징 x(3)로부터 사용자의 감정이 화난 감정으로 판단되므로, 큐(212)는 입력 특징 x(3)를 제2 감정 클래스의 특징으로 저장한다.
제1 감정 클래스의 특징들, 제2 감정 클래스의 특징들, 제3 감정 클래스의 특징들 및 제4 감정 클래스의 특징들 각각은 제1 특징들, 제2 특징들, 제3 특징들 및 제4 특징들로 지칭될 수 있다. 예를 들면, 제1 특징들은 i1, x(0), x(1), 및 x(2) 등을 포함한다. 제2 특징들은 i2, x(3), x(4), x(9), 및 x(10) 등을 포함한다.
큐(212)는 특정 감정 상태의 사용자가 사용하는 언어 특징, 행동 특징, 표정 특징 등을 저장한다. 예를 들면, 큐(212)는 특정 감정 상태의 사용자가 사용하는 문장 형식, 문장 내 단어, 단어의 순서, 언어 습관 등을 저장할 수 있다. 이처럼, 큐(212)는 사용자의 감정과 동작 패턴을 대응시켜 저장한다.
사용자로부터 입력되는 입력 특징들이 많을수록, 큐(212)에 저장되는 사용자의 감정별 행동 패턴도 많아진다.
큐(212)에 저장된 감정 클래스별 특징들은 문맥 정보가 된다. 특히, 상대적으로 최근에 저장된 특징들은 사용자와의 현재 대화에서 문맥을 나타낸다. 문맥 정보는 사용자의 현재 입력 특징으로부터 사용자가 어떤 감정을 가지는지 판단하는 데 유용한 정보를 제공한다.
나아가, 감정 인식 장치가 사용자의 단말에 대응하고, 큐(212)가 특정 사용자에 해당하는 특징들을 저장하는 경우, 저장된 특징들은 특정 사용자에 관한 정보이므로 특정 사용자에 대한 맞춤형(customizing) 서비스를 제공하는 데 이용될 수 있다.
도 4는 본 발명의 일 실시예에 따른 특징 추출부를 설명하기 위한 도면이다.
도 4를 참조하면, 특징 추출부(230)가 도시되어 있다.
특징 추출부(230)는 복수의 감정 클래스들 각각에 대해 적어도 하나의 특징이 저장된 큐로부터 복수의 감정 클래스들에 대응되는 대표 특징들을 추출한다.
도 3 및 도 4를 참조하면, 특징 추출부(230)는 제1 특징들로부터 제1 대표 특징 fNeutral을 추출하고, 제2 특징들로부터 제2 대표 특징 fAngry를 추출하고, 제3 특징들로부터 제3 대표 특징 fHappy를 추출하고, 제4 특징들로부터 제4 대표 특징 fSad를 추출한다. 이처럼, 특징 추출부(230)는 감정 클래스별 대표 특징을 추출한다.
이하에서, 각 감정 클래스마다 초기 특징만 저장된 상태에서도 대표 특징이 추출될 수 있지만, 각 감정 클래스마다 복수의 특징들이 저장된 것으로 가정하여 설명한다.
특징 추출부(230)는 각 감정 클래스마다 저장된 특징들로부터 대표 특징을 추출하는 방식으로서, 생성 방식 또는 선택 방식 중 하나를 이용할 수 있다.
본 발명의 일 실시예에 의하면, 특징 추출부(230)는 각 감정 클래스마다 저장된 특징들을 인코딩함으로써, 대표 특징들을 추출할 수 있다. 예를 들면, 특징 추출부(230)는 제1 특징들을 인코딩함으로써 제1 대표 특징을 생성할 수 있다.
특징 추출부(230)는 표현 학습(representation learning)된 모델을 이용할 수 있다. 표현 학습은 문맥을 임베딩하는 것을 지칭한다. 일 예로서, 특징 추출부(230)는 훈련이 완료된 오토인코더의 인코더를 이용할 수 있다. 여기서, 오토인코더는 입력으로부터 특징들을 추출하는 인코더와, 추출된 특징들로부터 상기 입력에 대응되는 출력 데이터를 생성하는 디코더로 구성된 모델이다. 오토인코더는 입력와 동일한 출력을 생성하도록 자기 지도 학습 방법으로 훈련될 수 있다. 훈련이 완료된 오토인코더의 인코더는 입력으로부터 잠재 공간(latent space)을 특징으로서 추출한다. 이처럼, 특징 추출부(230)는 각 감정 클래스마다 저장된 특징들로부터 하나의 대표 특징을 추출할 수 있다.
한편, 본 발명의 다른 실시예에 의하면, 특징 추출부(230)는 각 감정 클래스마다 복수의 특징들이 저장된 경우, 각 감정 클래스마다 저장된 복수의 특징들 중 하나를 선택함으로써, 대표 특징들을 추출할 수 있다.
특징 추출부(230)는 원형 학습(prototypical learning)된 모델을 이용할 수 있다. 특징 추출부(230)가 원형 학습된 모델을 이용할 때, 특징 추출부(230)는 각 감정 클래스마다 원형 특징을 생성하고, 각 원형 특징과 가장 유사한 특징을 각 감정 클래스의 대표 특징으로 선택한다. 예를 들면, 제1 감정 클래스의 제1 특징들의 평균을 제1 원형 특징으로 생성한다. 제1 특징들 중 제1 원형 특징과 가장 유사한 제1 특징을 대표 특징으로 선택한다. 이후에 입력 특징이 제1 감정 클래스로서 저장되면, 제1 특징들 및 입력 특징의 평균에 따라 제1 원형 특징을 갱신한다.
특징 추출부(230)는 각 감정 클래스의 특징들 중 어느 하나의 특징을 임의로 선택함으로써 대표 특징들을 추출할 수 있다. 예를 들면, 특징 추출부(230)는 제1 특징들 중에서 임의로 선택된 하나를 제1 대표 특징으로 결정할 수 있다.
다른 실시예에서는, 전술한 대표 특징 추출 방법 외에, 각 감정 클래스별 대표 특징을 추출하는 다양한 방법이 이용될 수 있다.
추출된 대표 특징은 입력 특징의 포맷과 동일한 포맷을 가지는 것이 바람직하다. 예를 들면, 입력 특징의 포맷이 벡터일 때, 대표 특징의 포맷도 벡터일 수 있다.
도 5는 본 발명의 일 실시예에 따른 감정 인식 과정을 설명하기 위한 도면이다.
도 5를 참조하면, 감정 인식 장치는 감정 인식부(200) 및 전처리부(500)를 포함한다.
전처리부(500)는 복수의 감정 클래스들에 대응하는 복수의 대표 특징들과 입력 특징을 처리한다.
본 발명의 일 실시예에 의하면, 감정 인식부(200)가 딥러닝 기술을 이용할 수 있도록, 전처리부(500)는 복수의 대표 특징들과 입력 특징을 결합(concatenate)함으로써 결합 특징을 생성한다. 대표 특징들과 입력 특징이 벡터 포맷을 가질 때, 전처리부(500)는 대표 특징 벡터들을 서로 결합하고, 연결된 대표 특징 벡터들에 입력 특징 벡터를 결합한다.
도 5에서 입력 특징은 대표 특징들의 오른쪽에 결합되는 것으로 도시되어 있으나, 다른 실시에에서 입력 특징과 대표 특징들이 결합되는 순서는 다양하게 설정될 수 있다.
입력 특징과 대표 특징들이 결합된 경우, 감정 인식부(200)는 사용자의 감정을 판단하기 위해 결합 특징을 감정 인식 모델의 입력으로 이용할 수 있다.
여기서, 감정 인식 모델은 지도 학습을 통해 미리 훈련될 수 있다. 일 예로서, 감정 인식 모델은 훈련용 결합 특징들을 포함하는 훈련 데이터의 입력에 응답하여 복수의 감정 클래스들 각각에 대응되는 확률 정보를 출력하도록 훈련된다. 훈련 데이터에 포함된 결합 특징들 각각은 정답 확률 정보로 레이블된 것이다.
감정 인식부(200)는 결합 특징을 훈련이 완료된 감정 인식 모델에 입력한다. 감정 인식 모델은 결합 특징의 입력에 따라 각 감정 클래스별 확률 값들을 포함하는 확률 정보를 출력한다. 감정 인식부(200)는 확률 정보에 기초하여 사용자의 감정을 판단한다. 일 예로서, 감정 인식부(200)는 가장 큰 확률값을 가지는 감정 클래스를 사용자의 감정으로 판단할 수 있다.
감정 인식 모델은 적어도 하나의 레이어를 포함하는 신경망 구조를 가질 수 있다. 감정 인식 모델은 다양한 아키텍처를 가질 수 있다.
본 발명의 일 실시예에 의하면, 감정 인식 모델은 어텐션 메커니즘(attention mechanism)에 기초하여 훈련된 것일 수 있다. 구체적으로, 감정 인식 모델은 적어도 하나의 인코더와 적어도 하나의 디코더를 포함한다. 적어도 하나의 인코더는 결합 특징을 입력 받는다. 도 5에서 결합 특징은 5개의 특징들로 나뉘어 순차적으로 입력된다. 적어도 하나의 인코더에는 결합 특징의 입력에 따른 은닉 상태들(hidden states)이 저장된다. 인코더의 각 은닉 상태는 감정 클래스들 각각에 대응될 수 있다. 적어도 하나의 디코더에는 인코더의 마지막 은닉 상태가 입력되고, 디코더의 은닉 상태가 출력된다. 디코더에는 결합 특징에 대한 레이블이 함께 입력될 수 있다. 적어도 하나의 디코더에는 입력마다 은닉 상태가 저장된다. 마지막 디코딩 단계에서, 디코더에 입력 특징과 직전 은닉 상태가 입력되고, 디코더는 최종 은닉 상태를 출력한다. 디코더의 최종 은닉 상태가 인코더에 저장된 각 은닉 상태들과 연산되는 것에 기초하여 어텐션 스코어들(attention scores)이 도출된다. 어텐션 스코어들은 인코더의 은닉 상태들에 대응된다. 각 어텐션 스코어는 대응되는 인코더의 은닉 상태의 가중치로서 적용된다. 즉, 어텐션 스코어들은 인코더의 은닉 상태들과 가중합된다. 가중합 결과는 하나의 벡터이며, 문맥 벡터(context vector)가 된다. 감정 인식 모델은 문맥 벡터와 디코더의 최종 은닉 상태 간 결합에 가중치들을 적용하고, 소프트맥스 함수를 통해 각 감정 클래스별 확률 정보를 출력한다. 정리하면, 감정 인식 모델은 감정 클래스별 대표 특징과 입력 특징 간 관계에 기초하여 사용자의 감정 클래스들에 관한 확률 정보를 출력하도록 훈련된다. 이때, 감정 인식 모델은 입력 특징과 연관이 있거나 유사한 값을 가지는 대표 특징을 식별하고, 해당 대표 특징에 대응하는 감정 클래스의 확률값을 높게 출력하도록 훈련될 수 있다.
본 발명의 다른 실시예에 의하면, 감정 인식 모델은 어텐션 메커니즘을 이용하는 트랜스포머 네트워크일 수 있다.
본 발명의 다른 실시예에 의하면, 감정 인식 모델은 합성곱 신경망일 수 있다. 감정 인식 모델은 적어도 하나의 합성곱 레이어를 포함한다.
본 발명의 다른 실시예에 의하면, 감정 인식 모델은 장단기 메모리 네트워크일 수 있다. 감정 인식 모델은 순환 신경망 구조를 가질 수 있고, 적어도 하나의 레이어를 포함할 수 있다.
한편, 본 발명의 다른 실시예에 의하면, 감정 인식부(200)는 입력 특징 및 대표 특징들을 결합 없이 사용자의 감정을 판단할 수 있다. 감정 인식부(200)는 입력 특징 및 대표 특징들 간 상관관계들에 기초하여 사용자의 감정을 판단할 수 있다. 여기서, 입력 특징과 대표 특징 간 상관관계는 유사도(similarity)를 지칭한다. 일 예로서, 감정 인식부(200)는 대표 특징들 중 입력 특징과 유사도가 높은 하나의 대표 특징을 검출하고, 검출된 대표 특징에 대응하는 감정 클래스를 사용자의 감정으로 판단한다.
도 6은 본 발명의 일 실시예에 따른 감정 인식 방법의 순서도이다.
도 6을 참조하면, 감정 인식 장치는 텍스트 데이터, 오디오 데이터 또는 이미지 데이터 중 어느 하나를 포함하는 입력 데이터를 수신한다.
감정 인식 장치는 사용자의 텍스트 데이터, 오디오 데이터 또는 이미지 데이터 중 어느 하나를 나타내는 입력 특징을 획득한다(S500).
감정 인식 장치는 특징 추출기를 이용하여 텍스트 데이터, 오디오 데이터 또는 이미지 데이터 중 어느 하나로부터 입력 특징을 추출할 수 있다.
본 발명의 일 실시예에 의하면, 감정 인식 장치는 단일 문장에 대응되는 입력 특징만을 추출하기 위해, 텍스트 데이터를 확인할 수 있다. 구체적으로, 감정 인식 장치는 텍스트 데이터가 불완전한 문장인지 여부를 판단한다. 여기서, 완전한 문장의 판단기준은 주어, 목적어, 서술어 등을 기반으로 미리 설정될 수 있다. 감정 인식 장치는 텍스트 데이터가 불완전한 문장인 것으로 판단한 경우, 적어도 하나의 추가 텍스트 데이터를 입력 받는다. 텍스트 데이터와 추가 텍스트 데이터의 결합이 하나의 문장을 나타내는 경우, 감정 인식 장치는 상기 결합으로부터 입력 특징을 추출한다.
감정 인식 장치는 복수의 감정 클래스들 각각에 대해 적어도 하나의 특징을 저장한 큐로부터 복수의 감정 클래스들에 대응되는 대표 특징들을 추출한다(S510).
여기서, 대표 특징들 각각은 복수의 감정 클래스들 각각에 대응된다. 큐에 저장된 특징들은 사용자의 이전 입력 특징들이 복수의 감정 클래스들 중 어느 하나로 미리 분류된 것이다. 즉, 큐에 저장된 특징들은 사용자와의 과거 대화를 통해 분석한 문맥 정보이다.
본 발명의 일 실시예에 의하면, 감정 인식 장치는 각 감정 클래스마다 적어도 하나의 특징을 인코딩함으로써, 대표 특징들을 추출한다.
본 발명의 일 실시예에 의하면, 감정 인식 장치는 각 감정 클래스마다 복수의 특징들이 저장된 경우, 각 감정 클래스마다 저장된 복수의 특징들 중 하나를 선택함으로써, 대표 특징들을 추출한다.
감정 인식 장치는 입력 특징 및 대표 특징들을 이용하여 사용자의 감정을 판단한다(S520).
본 발명의 일 실시예에 의하면, 감정 인식 장치는 입력 특징 및 대표 특징들 간 상관관계들에 기초하여 사용자의 감정을 판단할 수 있다.
본 발명의 일 실시예에 의하면, 감정 인식 장치는 훈련된 모델을 이용하여 사용자의 감정을 판단할 수 있다. 구체적으로, 감정 인식 장치는 입력 특징 및 대표 특징들을 처리하여 결합 특징을 생성한다. 감정 인식 장치는 감정 인식 모델을 이용하여 결합 특징으로부터 감정 클래스들에 관한 확률 정보를 획득한다. 여기서, 감정 인식 모델은 훈련용 결합 특징들을 포함하는 훈련 데이터의 입력에 응답하여 복수의 감정 클래스들 각각에 대응되는 확률 정보를 출력하도록 훈련된 것이다. 감정 인식 장치는 상기 확률 정보에 기초하여 사용자의 감정을 판단한다.
본 발명의 일 실시예에 의하면, 감정 인식 모델은 입력 특징과 대표 특징들 간 어텐션에 기초하여 확률 정보를 출력하도록 훈련된 것일 수 있다.
사용자의 감정 판단 후, 감정 인식 장치는 입력 특징을 사용자의 감정에 대응되는 감정 클래스의 특징으로서 큐에 저장한다(S522).
사용자의 감정 판단에 이용된 입력 특징은 문맥 정보로서 저장된다. 감정 인식 장치가 다음 입력 특징에 따른 사용자의 감정을 판단할 때, 큐에 저장된 입력 특징은 문맥 정보로서 이용된다.
도 7은 본 발명의 일 실시예에 따른 감정 인식 장치의 구성도이다.
도 7을 참조하면, 감정 인식 장치(700)는 메모리(710), 프로세서(720), 스토리지(730), 입출력 인터페이스(740) 및 통신 인터페이스(750) 중 일부 또는 전부를 포함할 수 있다. 감정 인식 장치(700)는 훈련 데이터 생성 장치를 나타낸다.
감정 인식 장치(700)는 데스크탑 컴퓨터, 서버, AI 가속기 등과 같은 고정형(stationary) 컴퓨팅 장치뿐만 아니라, 랩탑 컴퓨터, 스마트 폰 등과 같은 휴대용(mobile) 컴퓨팅 장치일 수도 있다.
메모리(710)는 프로세서(720)로 하여금 본 발명의 일 실시예에 따른 데이터 생성 방법을 수행하도록 하는 프로그램을 저장할 수 있다. 예를 들면, 프로그램은 프로세서(720)에 의해서 실행 가능한(executable) 복수의 명령어들을 포함할 수 있고, 복수의 명령어들이 프로세서(720)에 의해서 실행됨으로써 데이터 생성 방법이 수행될 수 있다.
메모리(710)는 단일 메모리 또는 복수의 메모리들일 수 있다. 이 경우, 데이터 생성에 필요한 정보는 단일 메모리에 저장되거나 복수의 메모리들에 나뉘어 저장될 수 있다. 메모리(710)가 복수의 메모리들로 구성된 경우, 복수의 메모리들은 물리적으로 분리될 수 있다.
메모리(710)는 휘발성 메모리 및 비휘발성 메모리 중 적어도 하나를 포함할 수 있다. 휘발성 메모리는 SRAM(Static Random Access Memory) 또는 DRAM(Dynamic Random Access Memory) 등을 포함하고, 비휘발성 메모리는 플래시 메모리(flash memory) 등을 포함한다.
프로세서(720)는 적어도 하나의 명령어들을 실행할 수 있는 적어도 하나의 코어를 포함할 수 있다. 프로세서(720)는 메모리(710)에 저장된 명령어들을 실행할 수 있다. 프로세서(720)는 단일 프로세서 또는 복수의 프로세서들일 수 있다.
스토리지(730)는 감정 인식 장치(700)에 공급되는 전력이 차단되더라도 저장된 데이터를 유지한다. 예를 들면, 스토리지(730)는 비휘발성 메모리를 포함할 수도 있고, 자기 테이프, 광학 디스크, 자기 디스크와 같은 저장 매체를 포함할 수도 있다.
본 발명의 일 실시예에 의하면, 스토리지(730)는 훈련 데이터를 구성하는 프로그램을 저장할 수 있다. 스토리지(730)에 저장된 프로그램은 프로세서(720)에 의해서 실행되기 이전에 메모리(710)로 로딩될 수 있다. 스토리지(730)는 프로그램 언어로 작성된 파일을 저장할 수 있고, 파일로부터 컴파일러 등에 의해서 생성된 프로그램은 메모리(710)로 로딩될 수 있다.
스토리지(730)는 프로세서(720)에 의해서 처리될 데이터 및 프로세서(720)에 의해서 처리된 데이터를 저장할 수 있다.
입출력 인터페이스(740)는 키보드, 마우스 등과 같은 입력 장치를 포함할 수 있고, 디스플레이 장치, 프린터 등과 같은 출력 장치를 포함할 수 있다. 사용자는 입출력 인터페이스(740)를 통해 프로세서(720)에 의한 프로그램의 실행을 트리거할 수도 있다.
통신 인터페이스(750)는 외부 네트워크에 대한 액세스를 제공한다. 예를 들면, 감정 인식 장치(700)는 통신 인터페이스(750)를 통해 다른 장치들과 통신할 수 있다.
본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 디지털 전자 회로, 집적회로, FPGA(field programmable gate array), ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 프로그래밍가능 시스템 상에서 실행 가능한 하나 이상의 컴퓨터 프로그램들로 구현되는 것을 포함할 수 있다. 프로그래밍가능 시스템은, 저장 시스템, 적어도 하나의 입력 디바이스, 그리고 적어도 하나의 출력 디바이스로부터 데이터 및 명령들을 수신하고 이들에게 데이터 및 명령들을 전송하도록 결합되는 적어도 하나의 프로그래밍가능 프로세서(이것은 특수 목적 프로세서일 수 있거나 혹은 범용 프로세서일 수 있음)를 포함한다. 컴퓨터 프로그램들(이것은 또한 프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 혹은 코드로서 알려져 있음)은 프로그래밍가능 프로세서에 대한 명령어들을 포함하며 "컴퓨터가 읽을 수 있는 기록매체"에 저장된다.
컴퓨터가 읽을 수 있는 기록매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 이러한 컴퓨터가 읽을 수 있는 기록매체는 ROM, CD-ROM, 자기 테이프, 플로피디스크, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등의 비휘발성(non-volatile) 또는 비일시적인(non-transitory) 매체일 수 있으며, 또한 데이터 전송 매체(data transmission medium)와 같은 일시적인(transitory) 매체를 더 포함할 수도 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다.
본 명세서의 흐름도/타이밍도에서는 각 과정들을 순차적으로 실행하는 것으로 기재하고 있으나, 이는 본 개시의 일 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것이다. 다시 말해, 본 개시의 일 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 개시의 일 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 흐름도/타이밍도에 기재된 순서를 변경하여 실행하거나 각 과정들 중 하나 이상의 과정을 병렬적으로 실행하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이므로, 흐름도/타이밍도는 시계열적인 순서로 한정되는 것은 아니다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
CROSS-REFERENCE TO RELATED APPLICATION
본 특허출원은, 본 명세서에 그 전체가 참고로서 포함되는, 2022년 08월 02일에 한국에 출원한 특허출원번호 제10-2022-0095862호에 대해 우선권을 주장한다.
Claims (10)
- 컴퓨터에 의해 구현되는 감정 인식 방법에 있어서,사용자의 텍스트 데이터, 오디오 데이터 또는 이미지 데이터 중 어느 하나를 나타내는 입력 특징을 획득하는 단계;복수의 감정 클래스들 각각에 대해 적어도 하나의 특징(feature)을 저장한 큐(queue)로부터 상기 복수의 감정 클래스들에 대응되는 대표 특징들을 추출하는 단계 - 상기 대표 특징들 각각은 상기 복수의 감정 클래스들 각각에 대응되고, 상기 큐에 저장된 특징들은 상기 사용자의 이전 입력 특징들이 상기 복수의 감정 클래스들 중 어느 하나로 분류된 것임 -;상기 입력 특징 및 상기 대표 특징들을 이용하여 상기 사용자의 감정을 판단하는 단계; 및상기 입력 특징을 상기 사용자의 감정에 대응되는 감정 클래스의 특징으로서 상기 큐에 저장하는 단계를 포함하는 감정 인식 방법.
- 제1항에 있어서,상기 대표 특징들을 추출하는 단계는,각 감정 클래스마다 적어도 하나의 특징을 인코딩함으로써, 상기 대표 특징들을 추출하는 단계를 포함하는 감정 인식 방법.
- 제1항에 있어서,상기 대표 특징들을 추출하는 단계는,각 감정 클래스마다 복수의 특징들이 저장되어 있는 경우, 각 감정 클래스마다 저장된 상기 복수의 특징들 중 하나를 선택함으로써, 상기 대표 특징들을 추출하는 단계를 포함하는 감정 인식 방법.
- 제1항에 있어서,상기 사용자의 감정을 판단하는 단계는,상기 입력 특징 및 상기 대표 특징들 간 상관관계들에 기초하여 상기 사용자의 감정을 판단하는 단계를 포함하는 감정 인식 방법.
- 제1항에 있어서,상기 사용자의 감정을 판단하는 단계는,상기 입력 특징 및 상기 대표 특징들을 처리하여 결합 특징(concatenated feature)을 생성하는 단계;감정 인식 모델을 이용하여 상기 결합 특징으로부터 상기 감정 클래스들에 관한 확률 정보를 획득하는 단계 - 상기 감정 인식 모델은 훈련용 결합 특징들을 포함하는 훈련 데이터의 입력에 응답하여 상기 복수의 감정 클래스들 각각에 대응되는 확률 정보를 출력하도록 훈련된 것임 -; 및상기 확률 정보에 기초하여 상기 사용자의 감정을 판단하는 단계를 포함하는 감정 인식 방법.
- 제5항에 있어서,상기 감정 인식 모델은,훈련용 결합 특징들에 어텐션 매커니즘(attention mechanism)을 적용하는 것에 기초하여 훈련된 것인 감정 인식 방법.
- 제1항에 있어서,상기 입력 특징을 획득하는 단계는,하나의 문장을 위한 적어도 하나의 추가 텍스트 데이터를 입력받는 단계; 및상기 텍스트 데이터와 상기 추가 텍스트 데이터의 결합으로부터 입력 특징을 추출하는 단계를 포함하는 감정 인식 방법.
- 제1항에 있어서,상기 텍스트 데이터는 하나의 문장을 나타내고, 상기 오디오 데이터는 하나의 발화를 나타내고, 상기 이미지 데이터는 하나의 이미지 프레임을 나타내는 것인 감정 인식 방법.
- 감정 인식 장치에 있어서,명령어들을 저장하는 메모리; 및적어도 하나의 프로세서를 포함하되,상기 적어도 하나의 프로세서는 상기 명령어들을 실행함으로써,사용자의 텍스트 데이터, 오디오 데이터 또는 이미지 데이터 중 어느 하나를 나타내는 입력 특징을 획득하고,복수의 감정 클래스들 각각에 대해 적어도 하나의 특징(feature)을 저장한 큐(queue)로부터 상기 복수의 감정 클래스들에 대응되는 대표 특징들을 추출하고 - 상기 대표 특징들 각각은 상기 복수의 감정 클래스들 각각에 대응되고, 상기 큐에 저장된 특징들은 상기 사용자의 이전 입력 특징들이 상기 복수의 감정 클래스들 중 어느 하나로 분류된 것임 -,상기 입력 특징 및 상기 대표 특징들을 이용하여 상기 사용자의 감정을 판단하고,상기 입력 특징을 상기 사용자의 감정에 대응되는 감정 클래스의 특징으로서 상기 큐에 저장하는, 감정 인식 장치.
- 명령어가 저장된, 컴퓨터로 읽을 수 있는 기록매체로서, 상기 명령어는 상기 컴퓨터에 의해 실행될 때 상기 컴퓨터로 하여금,사용자의 텍스트 데이터, 오디오 데이터 또는 이미지 데이터 중 어느 하나를 나타내는 입력 특징을 획득하는 단계;복수의 감정 클래스들 각각에 대해 적어도 하나의 특징(feature)을 저장한 큐(queue)로부터 상기 복수의 감정 클래스들에 대응되는 대표 특징들을 추출하는 단계 - 상기 대표 특징들 각각은 상기 복수의 감정 클래스들 각각에 대응되고, 상기 큐에 저장된 특징들은 상기 사용자의 이전 입력 특징들이 상기 복수의 감정 클래스들 중 어느 하나로 분류된 것임 -; 및상기 입력 특징 및 상기 대표 특징들을 이용하여 상기 사용자의 감정을 판단하는 단계상기 입력 특징을 상기 사용자의 감정에 대응되는 감정 클래스의 특징으로서 상기 큐에 저장하는 단계를 실행하는, 컴퓨터로 읽을 수 있는 기록매체.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020220095862A KR20240018060A (ko) | 2022-08-02 | 2022-08-02 | 감정 인식 장치 및 방법 |
| KR10-2022-0095862 | 2022-08-02 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2024029726A1 true WO2024029726A1 (ko) | 2024-02-08 |
Family
ID=89849074
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/KR2023/008107 Ceased WO2024029726A1 (ko) | 2022-08-02 | 2023-06-13 | 감정 인식을 위한 장치 및 방법 |
Country Status (2)
| Country | Link |
|---|---|
| KR (1) | KR20240018060A (ko) |
| WO (1) | WO2024029726A1 (ko) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119622492A (zh) * | 2025-02-14 | 2025-03-14 | 湖南工商大学 | 基于Transformer架构的情感类别识别方法、装置、设备及介质 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20200057309A (ko) * | 2018-11-16 | 2020-05-26 | 한국전자통신연구원 | 생체신호를 기반으로 한 감정인식을 재학습하는 방법 및 장치 |
| KR20210106884A (ko) * | 2021-01-14 | 2021-08-31 | 아주대학교산학협력단 | 온라인 데이터에 대한 인공지능 기반의 감정 분류 장치 및 방법 |
| KR20210114137A (ko) * | 2020-03-10 | 2021-09-23 | 한국전자통신연구원 | 감정 인식 방법 및 장치 |
| US20220189502A1 (en) * | 2020-12-15 | 2022-06-16 | TQINTELLIGENCE, Inc. | Acquiring speech features for predicting emotional severity of adverse events on individuals |
| KR20220098991A (ko) * | 2021-01-05 | 2022-07-12 | 세종대학교산학협력단 | 음성 신호에 기반한 감정 인식 장치 및 방법 |
-
2022
- 2022-08-02 KR KR1020220095862A patent/KR20240018060A/ko active Pending
-
2023
- 2023-06-13 WO PCT/KR2023/008107 patent/WO2024029726A1/ko not_active Ceased
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20200057309A (ko) * | 2018-11-16 | 2020-05-26 | 한국전자통신연구원 | 생체신호를 기반으로 한 감정인식을 재학습하는 방법 및 장치 |
| KR20210114137A (ko) * | 2020-03-10 | 2021-09-23 | 한국전자통신연구원 | 감정 인식 방법 및 장치 |
| US20220189502A1 (en) * | 2020-12-15 | 2022-06-16 | TQINTELLIGENCE, Inc. | Acquiring speech features for predicting emotional severity of adverse events on individuals |
| KR20220098991A (ko) * | 2021-01-05 | 2022-07-12 | 세종대학교산학협력단 | 음성 신호에 기반한 감정 인식 장치 및 방법 |
| KR20210106884A (ko) * | 2021-01-14 | 2021-08-31 | 아주대학교산학협력단 | 온라인 데이터에 대한 인공지능 기반의 감정 분류 장치 및 방법 |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119622492A (zh) * | 2025-02-14 | 2025-03-14 | 湖南工商大学 | 基于Transformer架构的情感类别识别方法、装置、设备及介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| KR20240018060A (ko) | 2024-02-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110444198B (zh) | 检索方法、装置、计算机设备和存储介质 | |
| CN113223509B (zh) | 一种应用于多人混杂场景下的模糊语句识别方法及系统 | |
| WO2019200923A1 (zh) | 基于拼音的语义识别方法、装置以及人机对话系统 | |
| Doumbouya et al. | Using radio archives for low-resource speech recognition: towards an intelligent virtual assistant for illiterate users | |
| WO2018151464A1 (ko) | 음성 인식을 이용한 코딩시스템 및 코딩방법 | |
| WO2011074771A2 (ko) | 외국어 학습 장치 및 그 제공 방법. | |
| WO2019209040A1 (en) | Multi-models that understand natural language phrases | |
| WO2021132797A1 (ko) | 반지도 학습 기반 단어 단위 감정 임베딩과 장단기 기억 모델을 이용한 대화 내에서 발화의 감정 분류 방법 | |
| WO2021071110A1 (en) | Electronic apparatus and method for controlling electronic apparatus | |
| WO2021010744A1 (ko) | 음성 인식 기반의 세일즈 대화 분석 방법 및 장치 | |
| WO2021071137A1 (ko) | 외국어 문장 빈칸 추론 문제 자동 생성 방법 및 시스템 | |
| WO2018097439A1 (ko) | 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법 | |
| WO2018135723A1 (ko) | 복수 문단 텍스트의 추상적 요약문 생성 장치 및 방법, 그 방법을 수행하기 위한 기록 매체 | |
| KR20180060903A (ko) | 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법 | |
| WO2020159140A1 (ko) | 전자 장치 및 이의 제어 방법 | |
| WO2014106979A1 (ko) | 통계적 음성 언어 이해 방법 | |
| WO2018169276A1 (ko) | 언어 정보를 처리하기 위한 방법 및 그 전자 장치 | |
| WO2021251539A1 (ko) | 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치 | |
| WO2022131851A1 (en) | A method and systems for decoding an audio query | |
| CN112434166A (zh) | 基于时效性的文本分类方法、装置、设备及存储介质 | |
| WO2014200187A1 (ko) | 모음 약화를 학습하기 위한 장치 및 그 방법 | |
| WO2024029726A1 (ko) | 감정 인식을 위한 장치 및 방법 | |
| WO2020149621A1 (ko) | 영어 말하기 평가 시스템 및 방법 | |
| KR102571902B1 (ko) | 트랜스포머를 이용한 수어 글로스 번역 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 | |
| KR102589845B1 (ko) | 수어 영상 번역 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 23850236 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 23850236 Country of ref document: EP Kind code of ref document: A1 |