WO2021261688A1 - 감정 표현 영상 생성을 위한 학습 장치 및 방법과 감정 표현 영상 생성 장치 및 방법 - Google Patents
감정 표현 영상 생성을 위한 학습 장치 및 방법과 감정 표현 영상 생성 장치 및 방법 Download PDFInfo
- Publication number
- WO2021261688A1 WO2021261688A1 PCT/KR2020/017837 KR2020017837W WO2021261688A1 WO 2021261688 A1 WO2021261688 A1 WO 2021261688A1 KR 2020017837 W KR2020017837 W KR 2020017837W WO 2021261688 A1 WO2021261688 A1 WO 2021261688A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- emotion
- generating
- frame
- expression image
- Prior art date
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 208
- 230000008451 emotion Effects 0.000 title claims abstract description 154
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000002996 emotional effect Effects 0.000 claims description 99
- 238000013528 artificial neural network Methods 0.000 claims description 40
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000000052 comparative effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 13
- 239000000284 extract Substances 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/167—Detection; Localisation; Normalisation using comparisons between temporally consecutive images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/169—Holistic features and representations, i.e. based on the facial image taken as a whole
Definitions
- Embodiments of the present invention relate to a technique for generating an emotion expression image.
- a generative model refers to a model for directly or indirectly obtaining a distribution of given data and generating data based on it.
- PixelCNN and generative adversarial network have emerged as representative image generation models based on deep learning. Recently, GAN has been actively studied as an image generation model.
- a human face may be generated from text generated mainly based on a human face style (eyes, nose, mouth, and hair style).
- Embodiments of the present invention are for generating an emotional expression image as well as a human face image when a user inputs text of a facial style and emotional expression.
- a learning apparatus for generating an emotional expression image receives text for generating an emotional expression image, performs embedding on the input text to extract vector information, and extracts the extracted vector information.
- first generative adversarial networks GANs that generate images based on; and a second generative adversarial neural network that receives frames of an emotional expression image and a comparison image, and generates a frame of an emotional expression image therefrom.
- the first generative adversarial neural network includes: a first generator that extracts vector information by performing embedding on the input text, and generates an image by inputting the extracted vector information into a deconvolution neural network; and comparing the image generated from the first generator with a preset comparison image, determining whether the input image is a comparison image or a generated image according to the comparison result, and using the determination result as the first generator It may include a first discriminant that feeds back.
- the first discriminator may input the image generated by the first generator into a convolutional neural network to calculate and compare a similarity with the comparison image.
- the second generative adversarial neural network receives the emotional expression image and the comparison image frame, and calculates a degree of change in the emotional expression of the comparison image frame with respect to the emotional expression of the emotional expression image from the emotional expression image and the comparison image frame and a second generator for generating a frame of the emotional expression image by using the emotional expression image and the calculated emotional expression gradient; and comparing the frame of the emotion expression image generated by the second generator with a frame of a preset comparison image, and determining whether the input image is a frame of the comparison image or a frame of the emotion expression image according to the comparison result, and a second discriminator that feeds back a judgment result to the second generator.
- the emotion expression image is an image classified into an emotion class according to an emotion element included in the text, and the emotion class may include at least one of happiness, sadness, surprise, fear, anger, contempt, and disgust.
- the second generator extracts vector information about the emotional expression image to calculate a first feature value, extracts vector information about a direction in which the emotional expression of the emotional expression image will change, and calculates a second feature value, an encoder unit that extracts vector information for the comparison image and calculates a third feature value;
- the degree of change in emotional expression is calculated based on the first feature value, the second feature value, and the third feature value, and the final result using the first feature value, the second feature value, and the degree of change in the emotional expression a conversion unit for calculating a feature value; and an autoencoder including a decoder that generates a frame of the emotional expression image based on the final feature value.
- the apparatus for generating an emotion expression image receives text for generating an emotion expression image, performs embedding on the input text to extract vector information, and an image based on the extracted vector information first generative adversarial networks (GANs) for generating a classifier for receiving the text and classifying emotion classes according to emotion elements included in the input text; and a second generative adversarial neural network that receives the image generated by the first GAN and the emotion class classified by the classifier, and generates a frame of an emotion expression image therefrom.
- GANs generative adversarial networks
- the second generative adversarial neural network extracts an emotion expression gradient corresponding to the emotion class classified by the classifier, and uses the image generated in the first GAN and the emotion expression gradient to frame the emotion expression image.
- the emotion expression image is an image classified into an emotion class according to an emotion element included in the text, and the emotion class may include at least one of happiness, sadness, surprise, fear, anger, contempt, and disgust.
- the second generative adversarial neural network may generate the emotion expression image by sequentially generating at least one frame after the frame of the emotion expression image.
- an image matching the text may be generated by generating an image based on the characteristics of the text content.
- a user when a user inputs a desired facial style and emotional expression, by generating an emotional expression image including not only a person's face image but also emotions, the user can simply Communication can be improved as you can create a video you want with just a description.
- FIG. 1 is a block diagram illustrating and describing a computing environment including a computing device suitable for use in example embodiments;
- FIG. 2 is a block diagram illustrating a learning apparatus for generating an emotion expression image according to an embodiment of the present invention
- FIG. 3 is a block diagram illustrating a first generative adversarial neural network in a learning apparatus for generating an emotion expression image according to an embodiment of the present invention
- FIG. 4 is a block diagram illustrating a second generative adversarial neural network in a learning apparatus for generating an emotion expression image according to an embodiment of the present invention
- FIG. 5 is a block diagram illustrating a second generator of a second generative adversarial neural network in a learning apparatus for generating an emotion expression image according to an embodiment of the present invention
- FIG. 6 is a flowchart illustrating a learning method of a first generative adversarial neural network in a learning apparatus for generating an emotion expression image according to an embodiment of the present invention
- FIG. 7 is a flowchart illustrating a learning method of a second generative adversarial neural network in a learning apparatus for generating an emotion expression image according to an embodiment of the present invention
- FIG. 8 is a block diagram illustrating an apparatus for generating an emotion expression image according to an embodiment of the present invention.
- FIG. 9 is a flowchart illustrating a method for generating an emotion expression image according to an embodiment of the present invention.
- FIG. 1 is a block diagram illustrating and describing a computing environment 10 including a computing device suitable for use in example embodiments.
- each component may have different functions and capabilities other than those described below, and may include additional components in addition to those described below.
- the illustrated computing environment 10 includes a computing device 12 .
- the computing device 12 may be the learning device 100 for generating an emotion expression image.
- the computing device 12 may be an emotion expression image generating device 800 .
- Computing device 12 includes at least one processor 14 , computer readable storage medium 16 , and communication bus 18 .
- the processor 14 may cause the computing device 12 to operate in accordance with the exemplary embodiments discussed above.
- the processor 14 may execute one or more programs stored in the computer-readable storage medium 16 .
- the one or more programs may include one or more computer-executable instructions that, when executed by the processor 14, configure the computing device 12 to perform operations in accordance with the exemplary embodiment. can be
- Computer-readable storage medium 16 is configured to store computer-executable instructions or program code, program data, and/or other suitable form of information.
- the program 20 stored in the computer readable storage medium 16 includes a set of instructions executable by the processor 14 .
- computer-readable storage medium 16 includes memory (volatile memory, such as random access memory, non-volatile memory, or a suitable combination thereof), one or more magnetic disk storage devices, optical disk storage devices, flash It may be memory devices, other forms of storage medium accessed by computing device 12 and capable of storing desired information, or a suitable combination thereof.
- Communication bus 18 interconnects various other components of computing device 12 , including processor 14 and computer readable storage medium 16 .
- Computing device 12 may also include one or more input/output interfaces 22 and one or more network communication interfaces 26 that provide interfaces for one or more input/output devices 24 .
- the input/output interface 22 and the network communication interface 26 are coupled to the communication bus 18 .
- Input/output device 24 may be coupled to other components of computing device 12 via input/output interface 22 .
- Exemplary input/output device 24 may include a pointing device (such as a mouse or trackpad), a keyboard, a touch input device (such as a touchpad or touchscreen), a voice or sound input device, various types of sensor devices, and/or imaging devices. input devices and/or output devices such as display devices, printers, speakers and/or network cards.
- the exemplary input/output device 24 may be included in the computing device 12 as a component constituting the computing device 12 , and may be connected to the computing device 12 as a separate device distinct from the computing device 12 . may be
- FIG. 2 is a block diagram illustrating a learning apparatus for generating an emotion expression image according to an embodiment of the present invention.
- the learning apparatus 100 for generating an emotion expression image includes a first Generative Adversarial Networks (GAN) 200 (hereinafter referred to as “first GAN”). ) and a second generative adversarial neural network 300 (hereinafter, “second GAN”).
- GAN Generative Adversarial Networks
- second GAN second generative adversarial neural network 300
- a generative adversarial neural network may be composed of two networks including a generator and a discriminator.
- the generator acts as a generative model, learning given data and generating similar data from it.
- the discriminator is a kind of classifier that obtains the data generated by the generator and distinguishes whether the data is the data generated by the generator or the actual data. Therefore, the purpose of the generator is to generate data similar to the data, and the purpose of the discriminator is to classify the generated data and the actual data. For this reason, the two networks are called minimax relationships.
- the first GAN 200 may receive text for generating an emotional expression image, perform embedding on the input text to extract vector information, and generate an image based on the extracted vector information.
- the first GAN 200 may use a deep convolutional generative adversarial network (DC-GAN).
- DC-GAN deep convolutional generative adversarial network
- the text may include various elements such as an external element of the object and an emotional element (emotional expression) of the object.
- the external element of the object may include eyes, nose, mouth, hair style, etc. of the object, and the emotional element of the object may include emotional expression.
- the image generated by the first GAN 200 may generate a face image according to text.
- FIG. 3 is a block diagram illustrating a first generative adversarial neural network in a learning apparatus for generating an emotion expression image according to an embodiment of the present invention.
- the first GAN 200 may include a first generator 210 , G1 and a first discriminator 220 , D1 .
- the first generator 210 may receive text for generating an emotional expression image, and may extract vector information by performing embedding on the input text.
- the first constructor 210 may use skip-thought to perform embedding on the input text.
- Skip-thought is a method of vectorizing the meaning of words in consideration of the similarity between words.
- the input text can be encoded as a 4800-dimensional vector. Meanwhile, in this case, skip-thought is used to embed text, but the present invention is not limited thereto, and word2vec, sent2vec, and the like may be used.
- the first generator 210 may generate an image using a deconvolution model based on the extracted vector information.
- a deconvolution model may include four deconvolution layers and a tanh layer.
- ReLU Rectified Linear Unit
- each deconvolution layer batch normalization and Rectified Linear Unit (ReLU) can be used, and it scales the dimensions of the input vector into a tensor of 4 X 4 X 512 (height 4, width 4, channel 512). can be converted Next, by reducing the number of channels and increasing the height and width, it can be converted into a tensor of 32 X 32 X 62 (height 32, width 32, channel 64). Finally, you can use tanh to generate a 64 X 64 X 3 RGB image.
- ReLU Rectified Linear Unit
- the first discriminator 220 may learn the comparison image and the image generated from the first generator 210 , and may determine whether the input image is a comparison image or a generated image according to a learning result.
- the comparison image may mean an image photographed by a photographing device such as a camera, and may be, for example, a face image of a person.
- the first discriminator 220 feeds back the judgment result to the first generator 210 so that the image generated by the first generator 210 may become more and more similar to the real one.
- the first discriminator 220 may determine whether the input image is a comparison image or a generated image using a convolution model.
- the convolution model may include four convolution layers, a dimension extension layer, and a sigmoid layer.
- a 64 X 64 X 3 RGB image can be converted into a 4 X 4 X 512-dimensional tensor through three convolutional layers. Next, it is expanded to 4 X 4 X 256 through the dimension extension layer, and a value between 0 and 1 can be output by the sigmoid layer through the last convolution layer.
- the first discriminator may output a value between 0 and 1 according to the similarity of the input image, and may output 1 in the case of a comparison image.
- the first discriminator 220 can distinguish whether the input image is a comparison image or a generated image. there will be no When the first GAN 200 reaches such a state, the learning process ends, and thereafter, the first generator 210 generates an image according to the input text.
- the second GAN 300 may receive frames of an emotion expression image and a comparison image, and generate a frame of an emotion expression image therefrom.
- FIG. 4 is a block diagram illustrating a second generative adversarial neural network in a learning apparatus for generating an emotion expression image according to an embodiment of the present invention.
- the second GAN 300 may include a second generator 310 and a second discriminator 320 .
- the text may include various elements such as an external element of the object and an emotional element (emotional expression) of the object.
- the external element of the object may include eyes, nose, mouth, hair style, etc. of the object, and the emotional element of the object may include emotional expression.
- the image generated by the second GAN 300 may generate an emotional expression image according to the emotional element included in the text.
- the emotion expression image may be an image representing an emotion element.
- the emotion expression image may be a face image classified into an emotion class (eg, happiness, sadness, surprise, fear, anger, contempt, disgust, etc.) according to an emotion element.
- the comparison image may be an image representing a movement of a face according to an emotional element.
- the second generator 310 receives the emotional expression image and the comparison image frame, and calculates the emotional expression gradient of the comparison image frame with respect to the emotional expression of the emotional expression image therefrom, and the emotional expression image and the calculated emotional expression gradient can be used to create a frame of an emotional expression image.
- the second generator 310 receives frames of an emotional expression image and a comparison image, and receives a first feature value ( ) and the second feature value ( ) is extracted, and the third feature value ( ) to extract the first feature value ( ), the second feature value ( ) and the third feature value ( ) based on the emote gradient ( ) can be calculated.
- the second constructor 310 is the first feature value ( ), the second feature value ( ) and emote expression gradients ( ) using the final feature value ( ) is calculated, and the final feature value ( ), a frame of an emotional expression image can be generated.
- FIG. 5 is a block diagram illustrating a second generator of a second generative adversarial neural network in the learning apparatus for generating an emotion expression image according to an embodiment of the present invention.
- the second generator 310 may use an autoencoder based on deep learning.
- the second generator 310 may include an encoder unit 311 , a transform unit 312 , and a decoder unit 313 .
- FIG. 5 is a block diagram illustrating a second generator of a second generative adversarial neural network in the learning apparatus for generating an emotion expression image according to an embodiment of the present invention.
- the second generator 310 may use an autoencoder based on deep learning.
- the second generator 310 may include an encoder unit 311 , a transform unit 312 , and a decoder unit 313 .
- the encoder unit 311 extracts vector information about the emotional expression image through the basic encoder (E 0 ) to extract the first feature value ( ) can be calculated. In addition, the encoder unit 311 extracts vector information about the direction in which the emotional expression (expression) of the emotional expression image will change through the residual encoder E 1 to extract the second feature value ( ) can be calculated. In addition, the encoder unit 311 extracts vector information about the comparison image through the basic encoder to extract the third feature value ( ) can be calculated.
- the conversion unit 312 is an emotional expression change ( ) can be calculated.
- the degree of change in emotional expression ( ) may be a value calculated by calculating the degree of change in the emotional expression (expression) of the comparison image frame with respect to the emotional expression (expression) of the emotional expression image.
- the conversion unit 312 through the following Equation 2, the final feature value ( ) can be calculated.
- the final feature value ( ) may be a value in which the degree of change in emotional expression (expression) of the frame of the comparison image is reflected in the emotional expression image.
- the decoder unit 313 provides the final feature value ( ) based on the decoder( ) to create a frame of an emotional expression image.
- the second discriminator 320 learns the frame of the comparison image and the frame of the emotion expression image generated from the second generator 310, and determines whether the input image is a frame of a comparison image or a frame of an emotion expression image according to the learning result. can determine whether The second discriminator 320 feeds back the judgment result to the second generator 310 so that the frame of the emotion expression image generated by the second generator 310 may become more and more similar to the real one.
- the second determiner 320 determines whether the input frame is a frame of the comparison image or not. It becomes impossible to distinguish whether it is a frame of an expression image.
- the learning process is terminated.
- the second GAN 300 may learn according to the classified emotion class. That is, the second GAN 300 learns the emotion expression images classified according to the emotion class (eg, happiness, sadness, surprise, fear, anger, contempt, disgust, etc.) ), and thereafter, the second generator 310 generates a frame according to the input image and emotion class.
- the second GAN 300 sequentially receives the next frame of the comparison image, and sequentially generates frames after the frame of the emotion expression image from this, and sequentially connects the generated frames to generate an image. .
- the first generative adversarial neural network 200 is a computing device having one or more processors and a memory for storing one or more programs executed by the one or more processors. (12) can be carried out.
- the first generative adversarial neural network 200 may be implemented in the form of a program or software including one or more computer-executable instructions and stored in the memory.
- the computing device 12 receives text for image generation through the first generator 210 , and performs embedding on the input text to extract vector information.
- step 604 the computing device 12 generates an image by inputting the extracted vector information into a deconvolution neural network through the first generator 210 .
- step 606 the computing device 12 compares the image generated from the first generator 210 with a preset comparison image through the first discriminator 220 .
- step 608 the computing device 12 determines, through the first discriminator 220 , whether the input image is a comparison image or a generated image according to the comparison result, and returns the judgment result to the first generator 210 . ) as feedback.
- the second generative adversarial neural network 300 is a computing device having one or more processors and a memory for storing one or more programs executed by the one or more processors. (12) can be carried out.
- the second generative adversarial neural network 300 may be implemented in the form of a program or software including one or more computer-executable instructions and stored in the memory.
- step 702 the computing device 12 receives an emotion expression image and a comparison image frame through the second generator 310 , and a comparison image frame for the emotional expression of the emotion expression image from the emotion expression image and the comparison image frame. Calculate the gradient of emotional expression.
- the computing device 12 In operation 704 , the computing device 12 generates a frame of the emotional expression image by using the emotional expression image and the calculated emotional expression gradient through the second generator 310 .
- the computing device 12 compares the frame of the emotion expression image generated by the second generator 310 with a frame of a preset comparison image through the second discriminator 320 .
- step 708 the computing device 12 determines whether the input image is a frame of a comparison image or a frame of an emotion expression image according to the comparison result through the second discriminator 320 , and sets the result of the determination to the second generator It feeds back to (310).
- FIG. 8 is a block diagram illustrating an apparatus for generating an emotion expression image according to an embodiment of the present invention.
- Components corresponding to the components in the embodiment of the present invention described with reference to FIGS. 2 to 4 perform the same or similar functions as those described in the embodiment, and thus a more detailed description thereof will be omitted.
- the first GAN 810 and the second GAN 830 may be in a state in which learning is completed.
- the apparatus 800 for generating an emotion expression image includes a first Generative Adversarial Networks (GAN) 810 (hereinafter, “first GAN”) and a classifier. 820 and a second generative adversarial neural network 830 (hereinafter, “second GAN”).
- GAN Generative Adversarial Networks
- second GAN second generative adversarial neural network
- the first GAN 810 may receive text for generating an emotion expression image, perform embedding on the input text to extract vector information, and generate an image based on the extracted vector information.
- the text may include various elements such as an external element of the object and an emotional element (emotional expression) of the object.
- the external element of the object may include eyes, nose, mouth, hair style, etc. of the object, and the emotional element of the object may include emotional expression.
- the image generated by the first GAN 810 may generate a face image according to text.
- the classifier 820 may receive text for generating an emotion expression image, and classify emotion classes according to emotion elements included in the input text. For example, the classifier 820 may classify emotion classes such as happiness, sadness, surprise, fear, anger, contempt, and disgust according to the emotion element.
- the second GAN 830 may receive the image generated by the first GAN 810 and the emotion class classified by the classifier 820 , and may generate a frame of an emotion expression image therefrom. Specifically, the second GAN 830 extracts the emotion expression gradient corresponding to the emotion class classified by the classifier 820 , and uses the image and the emotion expression gradient generated by the first GAN 810 to make emotions A frame of an expression image can be created. Also, the second GAN 830 may sequentially generate frames after the frame of the emotion expression image and sequentially connect the generated frames to generate the emotion expression image.
- a user when a user expresses desired external elements (face style) and emotional elements (emotional expression) as text and inputs them, not only a person's face image but also an emotional expression image including emotions is displayed.
- desired external elements face style
- emotional elements emotional expression
- a user can create a desired image with a simple explanation in a social network (SNS) or the like, thereby improving communication.
- SNS social network
- FIG. 9 is a flowchart illustrating a method for generating an emotion expression image according to an embodiment of the present invention.
- the method for generating an emotion expression image in the computing device 12 having one or more processors and a memory for storing one or more programs executed by the one or more processors can be performed.
- the method for generating an emotion expression image may be implemented in the form of a program or software including one or more computer-executable instructions and stored in the memory.
- step 902 the computing device 12 receives text for generating an emotion expression image through the first GAN 810 , performs embedding on the input text to extract vector information, and Creates an image based on vector information.
- the computing device 12 classifies the emotion class according to the emotion element included in the input text through the classifier 820 , and the computing device 12 uses the second GAN 830 to perform the first An image generated by the GAN 800 and an emotion class classified by the classifier 820 are received, and a frame of an emotion expression image is generated therefrom. Meanwhile, the computing device 12 may sequentially generate frames after the frame of the emotion expression image, and sequentially connect the generated frames to generate the emotion expression image.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
Abstract
본 발명의 일 실시예에 따른 감정 표현 영상 생성을 위한 학습 장치 및 방법은 감정 표현 영상 생성을 위한 텍스트를 입력받고, 입력된 텍스트에 대해 임베딩(Embedding)을 수행하여 벡터 정보를 추출하며, 추출된 벡터 정보를 기반으로 이미지를 생성하는 제1 생성적 적대 신경망(GAN; Generative Adversarial Networks); 및 감정 표현 이미지 및 비교 영상의 프레임을 입력받고, 이로부터 감정 표현 영상의 프레임을 생성하는 제2 생성적 적대 신경망을 포함한다.
Description
본 발명의 실시예들은 감정 표현 영상 생성 기술과 관련된다.
생성 모델(generative model)이란 주어진 데이터의 분포(distribution)를 직간접적으로 얻어내고 이를 바탕으로 데이터를 생성해내기 위한 모델을 의미한다. 딥러닝 기반의 이미지 생성 모델로서 대표적으로 PixelCNN과 GAN(generative adversarial network)이 등장하였으며, 최근에는 특히 GAN이 이미지 생성 모델로서 활발히 연구되고 있다.
이러한 GAN은 생성하고자 하는 이미지가 비교적 간단하거나, 또는 데이터세트 내 분포가 유사한 경우 등에서는 매우 우수한 성능을 나타낸다. 예를 들어, 사람의 얼굴 이미지를 생성하는 경우에는 사람의 얼굴 스타일(눈, 코, 입, 머리 스타일)을 위주로 생성된 텍스트로부터 사람의 얼굴을 실제와 같이 생성할 수 있다.
그러나, 이러한 이미지 생성 모델은 얼굴 스타일만을 고려하여 단일 이미지를 생성하기 때문에 감정 표현에 대한 다양한 시각적 정보를 제공하기 어려운 문제가 있다.
본 발명의 실시예들은 사용자가 얼굴 스타일 및 감정 표현의 텍스트를 입력하면 사람의 얼굴 이미지뿐만 아니라 감정 표현 영상을 생성하기 위한 것이다.
개시되는 일 실시예에 따른 감정 표현 영상 생성을 위한 학습 장치는 감정 표현 영상 생성을 위한 텍스트를 입력받고, 입력된 텍스트에 대해 임베딩(Embedding)을 수행하여 벡터 정보를 추출하며, 추출된 벡터 정보를 기반으로 이미지를 생성하는 제1 생성적 적대 신경망(GAN; Generative Adversarial Networks); 및 감정 표현 이미지 및 비교 영상의 프레임을 입력받고, 이로부터 감정 표현 영상의 프레임을 생성하는 제2 생성적 적대 신경망을 포함한다.
상기 제1 생성적 적대 신경망은, 상기 입력된 텍스트에 대한 임베딩을 수행하여 벡터 정보를 추출하며, 상기 추출된 벡터 정보를 디컨벌루션(deconvolution) 신경망에 입력시켜 이미지를 생성하는 제1 생성자; 및 상기 제1 생성자로부터 생성된 이미지를 기 설정된 비교 이미지와 비교하고, 상기 비교 결과에 따라 입력된 이미지가 비교 이미지인지 또는 생성된 이미지인지의 여부를 판단하며, 상기 판단 결과를 상기 제1 생성자로 피드백하는 제1 판별자를 포함할 수 있다.
상기 제1 판별자는 상기 제1 생성자로부터 생성된 이미지를 컨벌루션(convolution) 신경망에 입력시켜 상기 비교 이미지와의 유사도를 산출하여 비교할 수 있다.
상기 제2 생성적 적대 신경망은 상기 감정 표현 이미지 및 비교 영상 프레임을 입력받고, 상기 감정 표현 이미지 및 상기 비교 영상 프레임으로부터 상기 감정 표현 이미지의 감정 표현에 대한 상기 비교 영상 프레임의 감정 표현 변화도를 산출하며, 상기 감정 표현 이미지 및 상기 산출된 감정 표현 변화도를 이용하여 상기 감정 표현 영상의 프레임을 생성하는 제2 생성자; 및 상기 제2 생성자로부터 생성된 감정 표현 영상의 프레임을 기 설정된 비교 영상의 프레임과 비교하고, 상기 비교 결과에 따라 입력된 이미지가 비교 영상의 프레임인지 또는 감정 표현 영상의 프레임인지를 판단하며, 상기 판단 결과를 상기 제2 생성자로 피드백하는 제2 판별자를 포함할 수 있다.
상기 감정 표현 이미지는 상기 텍스트에 포함된 감정 요소에 따라 감정 클래스로 분류된 이미지이며, 상기 감정 클래스는 행복, 슬픔, 놀람, 두려움, 화남, 경멸 및 역겨움 중 적어도 하나를 포함할 수 있다.
상기 제2 생성자는 상기 감정 표현 이미지에 대한 벡터 정보를 추출하여 제1 특징값을 산출하고, 상기 감정 표현 이미지의 감정 표현이 변화할 방향에 대한 벡터 정보를 추출하여 제2 특징값을 산출하고, 상기 비교 이미지에 대한 벡터 정보를 추출하여 제3 특징값을 산출하는 인코더부; 상기 제1 특징값, 상기 제2 특징값 및 상기 제3 특징값을 기반으로 상기 감정 표현 변화 정도를 산출하고, 상기 제1 특징값, 상기 제2 특징값 및 상기 감정 표현 변화 정도를 이용하여 최종 특징값을 산출하는 변환부; 및 상기 최종 특징값을 기반으로 상기 감정 표현 영상의 프레임을 생성하는 디코더부를 포함하는 오토인코더(Autoencoder)를 포함할 수 있다.
개시되는 일 실시예에 따른 감정 표현 영상 생성 장치는 감정 표현 영상 생성을 위한 텍스트를 입력받고, 입력된 텍스트에 대해 임베딩(Embedding)을 수행하여 벡터 정보를 추출하며, 추출된 벡터 정보를 기반으로 이미지를 생성하는 제1 생성적 적대 신경망(GAN; Generative Adversarial Networks); 상기 텍스트를 입력받고, 입력된 텍스트에 포함된 감정 요소에 따라 감정 클래스를 분류하는 분류기; 및 상기 제1 GAN에서 생성된 이미지 및 상기 분류기에 의하여 분류된 감정 클래스를 입력받고, 이로부터 감정 표현 영상의 프레임을 생성하는 제2 생성적 적대 신경망을 포함한다.
상기 제2 생성적 적대 신경망은 상기 분류기에 의하여 분류된 감정 클래스에 대응하는 감정 표현 변화도를 추출하고, 상기 제1 GAN에서 생성된 이미지 및 상기 감정 표현 변화도를 이용하여 상기 감정 표현 영상의 프레임을 생성할 수 있다.
상기 감정 표현 이미지는 상기 텍스트에 포함된 감정 요소에 따라 감정 클래스로 분류된 이미지이며, 상기 감정 클래스는 행복, 슬픔, 놀람, 두려움, 화남, 경멸 및 역겨움 중 적어도 하나를 포함할 수 있다.
상기 제2 생성적 적대 신경망은 상기 감정 표현 영상의 프레임 이후의 적어도 하나의 프레임들을 순차적으로 생성하여 상기 감정 표현 영상을 생성할 수 있다.
본 발명의 실시예들에 따르면, 텍스트 내용의 특징을 고려하여 이를 기반으로 영상을 생성함으로써, 텍스트와 일치하는 영상을 생성할 수 있다.
또한, 본 발명의 실시예들에 따르면, 사용자가 원하는 얼굴스타일과 감정표현을 입력하는 경우, 사람의 얼굴 이미지뿐만 아니라 감정을 포함하는 감정 표현 영상을 생성함으로써, 소셜 네트워크(SNS) 등에서 사용자가 간단한 설명만으로 원하는 영상을 생성할 수 있어 커뮤니케이션을 향상시킬 수 있다.
도 1는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도
도 2는 본 발명의 일 실시예에 따른 감정 표현 영상 생성을 위한 학습 장치를 나타낸 블록도
도 3은 본 발명의 일 실시예에 따른 감정 표현 영상 생성을 위한 학습 장치에서 제1 생성적 적대 신경망을 설명하기 위한 블록도
도 4는 본 발명의 일 실시예에 따른 감정 표현 영상 생성을 위한 학습 장치에서 제2 생성적 적대 신경망을 설명하기 위한 블록도
도 5는 본 발명의 일 실시예에 따른 감정 표현 영상 생성을 위한 학습 장치에서 제2 생성적 적대 신경망의 제2 생성자를 설명하기 위한 블록도
도 6은 본 발명의 일 실시예에 따른 감정 표현 영상 생성을 위한 학습 장치에서 제1 생성적 적대 신경망의 학습 방법을 설명하기 위한 흐름도
도 7은 본 발명의 일 실시예에 따른 감정 표현 영상 생성을 위한 학습 장치에서 제2 생성적 적대 신경망의 학습 방법을 설명하기 위한 흐름도
도 8은 본 발명의 일 실시예에 따른 감정 표현 영상 생성 장치를 나타낸 블록도
도 9는 본 발명의 일 실시예에 따른 감정 표현 영상 생성 방법을 설명하기 위한 흐름도
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안된다.
도 1는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술되는 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.
도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 감정 표현 영상 생성을 위한 학습 장치(100)일 수 있다. 또한, 컴퓨팅 장치(12)는 감정 표현 영상 생성 장치(800)일 수 있다.
컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.
통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.
컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.
도 2는 본 발명의 일 실시예에 따른 감정 표현 영상 생성을 위한 학습 장치를 나타낸 블록도이다.
도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 감정 표현 영상 생성을 위한 학습 장치(100)는 제1 생성적 적대 신경망(GAN; Generative Adversarial Networks)(200, 이하 "제1 GAN") 및 제2 생성적 적대 신경망(300, 이하 "제2 GAN")을 포함할 수 있다.
한편, 본 발명의 일 실시예에 따른 생성적 적대 신경망(GAN)은 생성자(Generator)와 판별자(Discriminator)를 포함하는 두 개의 네트워크로 구성될 수 있다. 생성자는 생성 모델의 역할로서, 주어진 데이터를 학습하고 이로부터 유사한 데이터를 생성한다. 또한, 판별자는 생성자에 의해 생성된 데이터를 획득하여 데이터가 생성자로부터 생성된 데이터인지 실제 데이터인지를 구별하는 일종의 분별기(classifier)이다. 따라서, 생성자는 데이터와 유사한 데이터를 생성하는 것을 목적으로 하고, 판별자는 생성된 데이터와 실제 데이터를 분류하는 것을 목적으로 한다. 이에 두 네트워크를 minimax 관계라고 한다.
제1 GAN(200)은 감정 표현 영상 생성을 위한 텍스트를 입력받고, 입력된 텍스트에 대한 임베딩(Embedding)을 수행하여 벡터 정보를 추출하며, 추출된 벡터 정보를 기반으로 이미지를 생성할 수 있다. 예를 들어, 제1 GAN(200)은 Deep convolutional generative adversarial network(DC-GAN)을 사용할 수 있다.
본 발명의 실시예들에서, 텍스트는 대상의 외적 요소, 대상의 감정 요소(감정 표현) 등 다양한 요소를 포함할 수 있다. 대상의 외적 요소는 대상의 눈, 코 입, 머리스타일 등을 포함할 수 있으며, 대상의 감정 요소는 감정 표현을 포함할 수 있다. 제1 GAN(200)에 의하여 생성되는 이미지는 텍스트에 따라 얼굴 이미지를 생성할 수 있다.
도 3은 본 발명의 일 실시예에 따른 감정 표현 영상 생성을 위한 학습 장치에서 제1 생성적 적대 신경망을 설명하기 위한 블록도이다.
도 3에 도시된 바와 같이, 본 발명의 일 실시예에 따른 제1 GAN(200)은 제1 생성자(210, G1) 및 제1 판별자(220, D1)를 포함할 수 있다.
제1 생성자(210)는 감정 표현 영상 생성을 위한 텍스트를 입력받고, 입력된 텍스트에 대한 임베딩(Embedding)을 수행하여 벡터 정보를 추출할 수 있다. 예를 들어, 제1 생성자(210)는 입력된 텍스트에 대한 임베딩을 수행하기 위하여 skip-thought를 사용할 수 있다. skip-thought는 단어 간 유사성을 고려하여 단어의 의미를 벡터화하는 방법으로서, 입력된 텍스트를 4800차원 벡터로 인코딩할 수 있다. 한편, 여기서는 텍스트에 대한 임베딩을 수행하기 위하여 skip-thought를 사용하였으나, 이에 한정되는 것은 아니며, 워드투벡터(word2vec), 센트투벡터(sent2vec)등을 사용할 수 있다.
또한, 제1 생성자(210)는 추출한 벡터 정보를 디컨벌루션(deconvolution) 모델을 이용하여 이미지를 생성할 수 있다. 예를 들어, 디컨벌루션(deconvolution) 모델은 4개의 디컨벌루션 레이어(deconvolution layer)와 tanh 레이어(tanh layer)로 구성될 수 있다. 각 디컨벌루션 레이어에서는 배치 정규화(Normalization) 및 ReLU(Rectified Linear Unit)가 사용될 수 있으며, 입력 벡터의 차원을 조정하여 4 X 4 X 512(높이 4, 너비 4, 채널 512)의 텐서(tensor)로 변환할 수 있다. 다음으로 채널 수를 줄이고 높이와 너비를 늘리는 단계를 통하여 32 X 32 X 62(높이 32, 너비 32, 채널 64)의 텐서로 변환할 수 있다. 마지막으로 tanh를 사용하여 64 X 64 X 3 RGB 이미지를 생성할 수 있다.
제1 판별자(220)는 비교 이미지 및 제1 생성자(210)로부터 생성된 이미지를 학습하고, 학습 결과에 따라 입력된 이미지가 비교 이미지 인지 생성 이미지인지의 여부를 판단할 수 있다. 여기서, 비교 이미지란 카메라 등의 촬영장치에 의하여 촬영된 이미지를 의미할 수 있으며, 예를 들어, 사람의 얼굴 이미지일 수 있다. 제1 판별자(220)는 판단 결과를 제1 생성자(210)로 피드백함으로써 제1 생성자(210)에서 생성되는 이미지가 실제와 점점 유사해질 수 있다. 예를 들어, 제1 판별자(220)는 컨벌루션(convolution) 모델을 이용하여 입력된 이미지가 비교 이미지 인지 생성 이미지인지의 여부를 판단할 수 있다. 컨벌루션(convolution) 모델은 4개의 컨벌루션 레이어(convolution layer), 차원 확장 레이어 및 시그모이드 레이어(sigmoid layer)로 구성될 수 있다. 64 X 64 X 3 RGB 이미지를 3개의 컨벌루션 레이어를 통하여 4 X 4 X 512 차원의 텐서로 변환할 수 있다. 다음으로 차원 확장 층을 통하여 4 X 4 X 256으로 확장되고 마지막 컨벌루션 레이어를 통과하여 sigmoid 레이어에 의하여 0~1 사이의 값이 출력될 수 있다. 제1 판별자는 입력되는 이미지의 유사도에 따라 0~1사이의 값을 출력할 수 있으며, 비교 이미지인 경우 1을 출력할 수 있다.
전술한 학습 과정을 통해 제1 생성자(210)에서 생성되는 이미지가 비교 이미지와 충분히 유사해질 경우, 제1 판별자(220)는 입력되는 이미지가 비교 이미지인지 또는 생성 이미지인지의 여부를 구별할 수 없게 된다. 제1 GAN(200)이 이와 같은 상태에 도달하면 학습 과정은 종료되며, 이후 제1 생성자(210)는 입력되는 텍스트에 따라 이미지를 생성하게 된다.
다시 도 2를 참조하면, 제2 GAN(300)은 감정 표현 이미지 및 비교 영상의 프레임을 입력받고, 이로부터 감정 표현 영상의 프레임을 생성할 수 있다.
도 4는 본 발명의 일 실시예에 따른 감정 표현 영상 생성을 위한 학습 장치에서 제2 생성적 적대 신경망을 설명하기 위한 블록도이다.
도 4에 도시된 바와 같이, 본 발명의 일 실시예에 따른 제2 GAN(300)은 제2 생성자(310) 및 제2 판별자(320)를 포함할 수 있다.
본 발명의 실시예들에서, 텍스트는 대상의 외적 요소, 대상의 감정 요소(감정 표현) 등 다양한 요소를 포함할 수 있다. 대상의 외적 요소는 대상의 눈, 코 입, 머리스타일 등을 포함할 수 있으며, 대상의 감정 요소는 감정 표현을 포함할 수 있다. 제2 GAN(300)에 의하여 생성되는 영상은 텍스트에 포함된 감정 요소에 따라 감정 표현 영상을 생성할 수 있다. 여기서, 감정 표현 이미지는 감정 요소를 나타내는 이미지일 수 있다. 예를 들어, 감정 표현 이미지는 감정 요소에 따라 감정 클래스(예를 들어, 행복, 슬픔, 놀람, 두려움, 화남, 경멸, 역겨움 등)로 분류된 얼굴 이미지일 수 있다. 또한, 비교 영상은 감정 요소에 따른 얼굴의 움직임을 나타내는 영상일 수 있다.
제2 생성자(310)는 감정 표현 이미지 및 비교 영상 프레임을 입력받고, 이로부터 감정 표현 이미지의 감정 표현에 대하여 비교 영상 프레임의 감정 표현 변화도를 산출하며, 감정 표현 이미지 및 산출된 감정 표현 변화도를 이용하여 감정 표현 영상의 프레임을 생성할 수 있다.
구체적으로, 제2 생성자(310)는 감정 표현 이미지 및 비교 영상의 프레임을 입력받고, 감정 표현 이미지로부터 제1 특징값(
) 및 제 2특징값(
)을 추출하고, 비교 영상의 프레임으로부터 제3 특징값(
)을 추출하여 제1 특징값(
), 제2 특징값(
) 및 제3 특징값(
)을 기반으로 감정 표현 변화도(
)를 산출할 수 있다. 제2 생성자(310)는 제1 특징값(
), 제2 특징값(
)및 감정 표현 변화도(
)를 이용하여 최종 특징값(
)을 산출하고, 최종 특징값(
)을 기반으로 감정 표현 영상의 프레임을 생성할 수 있다.
도 5는 본 발명의 일 실시예에 따른 감정 표현 영상 생성을 위한 학습 장치에서 제2 생성적 적대 신경망의 제2 생성자를 설명하기 위한 블록도이다.
도 5에 도시된 바와 같이, 제2 생성자(310)는 딥 러닝(deep learning) 기반의 오토인코더(Autoencoder)를 사용할 수 있다. 제2 생성자(310)는 인코더부(311), 변환부(312) 및 디코더부(313)을 포함할 수 있다.
도 5는 본 발명의 일 실시예에 따른 감정 표현 영상 생성을 위한 학습 장치에서 제2 생성적 적대 신경망의 제2 생성자를 설명하기 위한 블록도이다.
도 5에 도시된 바와 같이, 제2 생성자(310)는 딥 러닝(deep learning) 기반의 오토인코더(Autoencoder)를 사용할 수 있다. 제2 생성자(310)는 인코더부(311), 변환부(312) 및 디코더부(313)을 포함할 수 있다.
인코더부(311)는 기본 인코더(E
0)를 통하여 감정 표현 이미지에 대한 벡터 정보를 추출하여 제1 특징값(
)을 산출할 수 있다. 또한, 인코더부(311)는 잔류 인코더(E
1)를 통하여 감정 표현 이미지의 감정 표현(표정)이 변화할 방향에 대한 벡터 정보를 추출하여 제2 특징값(
)을 산출할 수 있다. 또한, 인코더부(311)는 기본 인코더를 통하여 비교 이미지에 대한 벡터 정보를 추출하여 제3 특징값(
)을 산출할 수 있다. 변환부(312)는 하기 수학식 1을 통하여 감정 표현 변화도(
)을 산출할 수 있다.
제2 판별자(320)는 비교 영상의 프레임 및 제2 생성자(310)로부터 생성된 감정 표현 영상의 프레임을 학습하고, 학습 결과에 따라 입력된 이미지가 비교 영상의 프레임인지 감정 표현 영상의 프레임인지 여부를 판단할 수 있다. 제2 판별자(320)는 판단 결과를 제2 생성자(310)로 피드백함으로써 제2 생성자(310)에서 생성되는 감정 표현 영상의 프레임이 실제와 점점 유사해질 수 있다.
전술한 학습 과정을 통해 제2 생성자(310)에서 생성되는 감정 표현 영상의 프레임이 비교 영상의 프레임과 충분히 유사해질 경우, 제2 판별자(320)는 입력되는 프레임이 비교 영상의 프레임인지 또는 감정 표현 영상의 프레임인지의 여부를 구별할 수 없게 된다. 제2 GAN(300)이 이와 같은 상태에 도달하면 학습 과정은 종료된다. 이 때, 제2 GAN(300)은 분류된 감정 클래스에 따라 학습할 수 있다. 즉, 제2 GAN(300)은 감정 클래스(예를 들어, 행복, 슬픔, 놀람, 두려움, 화남, 경멸, 역겨움 등)에 따라 분류된 감정 표현 이미지를 학습하여 감정 클래스 별로 감정 표현 변화도(
)를 학습할 수 있으며, 이후 제2 생성자(310)는 입력되는 이미지 및 감정 클래스에 따라 프레임을 생성하게 된다. 또한, 제2 GAN(300)은 비교 영상의 다음 프레임을 순차적으로 입력받고, 이로부터 감정 표현 영상의 프레임 이후의 프레임을 순차적으로 생성하게 되며, 생성된 프레임을 순차적으로 연결하여 영상을 생성하게 된다.
도 6은 본 발명의 일 실시예에 따른 감정 표현 영상 생성을 위한 학습 장치에서 제1 생성적 적대 신경망의 학습 방법을 설명하기 위한 흐름도이다. 전술한 바와 같이, 본 발명의 일 실시예에 따른 제1 생성적 적대 신경망(200)은 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치(12)에서 수행될 수 있다. 이를 위하여, 상기 제1 생성적 적대 신경망(200)은 하나 이상의 컴퓨터 실행 가능 명령어를 포함하는 프로그램 내지 소프트웨어의 형태로 구현되어 상기 메모리상에 저장될 수 있다.
또한, 도시된 흐름도에서는 상기 방법을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.
단계 602에서, 컴퓨팅 장치(12)는 제1 생성자(210)를 통해, 영상 생성을 위한 텍스트를 입력받고, 입력된 텍스트에 대한 임베딩 (Embedding)을 수행하여 벡터 정보를 추출한다.
단계 604에서, 컴퓨팅 장치(12)는 제1 생성자(210)를 통해, 추출된 벡터 정보를 디컨벌루션(deconvolution) 신경망에 입력시켜 이미지를 생성한다.
단계 606에서, 컴퓨팅 장치(12)는 제1 판별자(220)를 통해, 제1 생성자(210)로부터 생성된 이미지를 기 설정된 비교 이미지와 비교한다.
단계 608에서, 컴퓨팅 장치(12)는 제1 판별자(220)를 통해, 비교 결과에 따라 입력된 이미지가 비교 이미지인지 또는 생성된 이미지인지의 여부를 판단하고, 판단 결과를 제1 생성자(210)로 피드백한다.
도 7은 본 발명의 일 실시예에 따른 감정 표현 영상 생성을 위한 학습 장치에서 제2 생성적 적대 신경망의 학습 방법을 설명하기 위한 흐름도이다. 전술한 바와 같이, 본 발명의 일 실시예에 따른 제2 생성적 적대 신경망(300)은 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치(12)에서 수행될 수 있다. 이를 위하여, 상기 제2 생성적 적대 신경망(300)은 하나 이상의 컴퓨터 실행 가능 명령어를 포함하는 프로그램 내지 소프트웨어의 형태로 구현되어 상기 메모리상에 저장될 수 있다.
또한, 도시된 흐름도에서는 상기 방법을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.
단계 702에서, 컴퓨팅 장치(12)는 제2 생성자(310)를 통해, 감정 표현 이미지 및 비교 영상 프레임을 입력받고, 감정 표현 이미지 및 비교 영상 프레임으로부터 감정 표현 이미지의 감정 표현에 대한 비교 영상 프레임의 감정 표현 변화도를 산출한다.
단계 704에서, 컴퓨팅 장치(12)는 제2 생성자(310)를 통해, 감정 표현 이미지 및 산출된 감정 표현 변화도를 이용하여 감정 표현 영상의 프레임을 생성한다.
단계 706에서, 컴퓨팅 장치(12)는 제2 판별자(320)를 통해, 제2 생성자(310)로부터 생성된 감정 표현 영상의 프레임을 기 설정된 비교 영상의 프레임과 비교한다.
단계 708에서, 컴퓨팅 장치(12)는 제2 판별자(320)를 통해, 비교 결과에 따라 입력된 이미지가 비교 영상의 프레임인지 또는 감정 표현 영상의 프레임인지를 판단하고, 판단 결과를 제2 생성자(310)로 피드백한다.
도 8은 본 발명의 일 실시예에 따른 감정 표현 영상 생성 장치를 나타낸 블록도이다. 도 2 내지 도 4를 참조하여 설명하였던 본 발명의 실시예에서의 구성요소와 대응되는 구성요소는, 실시예에서 설명한 바와 동일 또는 유사한 기능을 수행하므로, 이에 대한 보다 구체적인 설명은 생략하도록 한다. 다만, 본 실시예에서, 제1 GAN(810) 및 제2 GAN(830)은 학습이 완료된 상태일 수 있다.
도 8에 도시된 바와 같이, 본 발명의 일 실시예에 따른 감정 표현 영상 생성 장치(800)는 제1 생성적 적대 신경망(GAN; Generative Adversarial Networks)(810, 이하 "제1 GAN"), 분류기(820) 및 제2 생성적 적대 신경망(830, 이하 "제2 GAN")을 포함할 수 있다.
제1 GAN(810)은 감정 표현 영상 생성을 위한 텍스트를 입력받고, 입력된 텍스트에 대한 임베딩(Embedding)을 수행하여 벡터 정보를 추출하며, 추출된 벡터 정보를 기반으로 이미지를 생성할 수 있다.
본 발명의 실시예들에서, 텍스트는 대상의 외적 요소, 대상의 감정 요소(감정 표현) 등 다양한 요소를 포함할 수 있다. 대상의 외적 요소는 대상의 눈, 코 입, 머리스타일 등을 포함할 수 있으며, 대상의 감정 요소는 감정 표현을 포함할 수 있다. 제1 GAN(810)에 의하여 생성되는 이미지는 텍스트에 따라 얼굴 이미지를 생성할 수 있다.
분류기(820)는 감정 표현 영상 생성을 위한 텍스트를 입력받고, 입력된 텍스트에 포함된 감정 요소에 따라 감정 클래스를 분류할 수 있다. 예를 들어, 분류기(820)는 감정 요소에 따라 행복, 슬픔, 놀람, 두려움, 화남, 경멸, 역겨움 등의 감정 클래스로 분류할 수 있다.
제2 GAN(830)은 제1 GAN(810)에서 생성된 이미지 및 분류기(820)에 의하여 분류된 감정 클래스를 입력받고, 이로부터 감정 표현 영상의 프레임을 생성할 수 있다. 구체적으로, 제2 GAN(830)은 분류기(820)에 의하여 분류된 감정 클래스에 대응하는 감정 표현 변화도를 추출하고, 제1 GAN(810)에서 생성된 이미지 및 감정 표현 변화도를 이용하여 감정 표현 영상의 프레임을 생성할 수 있다. 또한, 제2 GAN(830)은 감정 표현 영상의 프레임 이후의 프레임을 순차적으로 생성하고, 생성된 프레임을 순차적으로 연결하여 감정 표현 영상을 생성할 수 있다.
따라서, 본 발명의 실시예들에 따르면, 사용자가 원하는 외적 요소(얼굴스타일)와 감정 요소(감정표현)을 텍스트로 표현하여 입력하는 경우, 사람의 얼굴 이미지뿐만 아니라 감정을 포함하는 감정 표현 영상을 생성함으로써, 소셜 네트워크(SNS) 등에서 사용자가 간단한 설명만으로 원하는 영상을 생성할 수 있어 커뮤니케이션을 향상시킬 수 있다.
도 9는 본 발명의 일 실시예에 따른 감정 표현 영상 생성 방법을 설명하기 위한 흐름도이다. 전술한 바와 같이, 본 발명의 일 실시예에 따른 감정 표현 영상 생성 방법은 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치(12)에서 수행될 수 있다. 이를 위하여, 상기 감정 표현 영상 생성 방법은 하나 이상의 컴퓨터 실행 가능 명령어를 포함하는 프로그램 내지 소프트웨어의 형태로 구현되어 상기 메모리상에 저장될 수 있다.
또한, 도시된 흐름도에서는 상기 방법을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.
단계 902에서, 컴퓨팅 장치(12)는 제1 GAN(810)을 통해, 감정 표현 영상 생성을 위한 텍스트를 입력받고, 입력된 텍스트에 대한 임베딩(Embedding)을 수행하여 벡터 정보를 추출하며, 추출된 벡터 정보를 기반으로 이미지를 생성한다.
단계 904에서, 컴퓨팅 장치(12)는 분류기(820)를 통해, 입력된 텍스트에 포함된 감정 요소에 따라 감정 클래스를 분류하고, 컴퓨팅 장치(12)는 제2 GAN(830)을 통해, 제1 GAN(800)에서 생성된 이미지 및 분류기(820)에 의하여 분류된 감정 클래스를 입력받고, 이로부터 감정 표현 영상의 프레임을 생성한다. 한편, 컴퓨팅 장치(12)는 감정 표현 영상의 프레임 이후의 프레임을 순차적으로 생성하고, 생성된 프레임을 순차적으로 연결하여 감정 표현 영상을 생성할 수 있다.
이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
Claims (19)
- 감정 표현 영상 생성을 위한 텍스트를 입력받고, 입력된 텍스트에 대해 임베딩(Embedding)을 수행하여 벡터 정보를 추출하며, 추출된 벡터 정보를 기반으로 이미지를 생성하는 제1 생성적 적대 신경망(GAN; Generative Adversarial Networks); 및감정 표현 이미지 및 비교 영상의 프레임을 입력받고, 이로부터 감정 표현 영상의 프레임을 생성하는 제2 생성적 적대 신경망을 포함하는, 감정 표현 영상 생성을 위한 학습 장치.
- 청구항 1에 있어서,상기 제1 생성적 적대 신경망은,상기 입력된 텍스트에 대한 임베딩을 수행하여 벡터 정보를 추출하며, 상기 추출된 벡터 정보를 디컨벌루션(deconvolution) 신경망에 입력시켜 이미지를 생성하는 제1 생성자; 및상기 제1 생성자로부터 생성된 이미지를 기 설정된 비교 이미지와 비교하고, 상기 비교 결과에 따라 입력된 이미지가 비교 이미지인지 또는 생성된 이미지인지의 여부를 판단하며, 상기 판단 결과를 상기 제1 생성자로 피드백하는 제1 판별자를 포함하는, 감정 표현 영상 생성을 위한 학습 장치.
- 청구항 2에 있어서,상기 제1 판별자는,상기 제1 생성자로부터 생성된 이미지를 컨벌루션(convolution) 신경망에 입력시켜 상기 비교 이미지와의 유사도를 산출하여 비교하는, 감정 표현 영상 생성을 위한 학습 장치.
- 청구항 1에 있어서,상기 제2 생성적 적대 신경망은,상기 감정 표현 이미지 및 비교 영상 프레임을 입력받고, 상기 감정 표현 이미지 및 상기 비교 영상 프레임으로부터 상기 감정 표현 이미지의 감정 표현에 대한 상기 비교 영상 프레임의 감정 표현 변화도를 산출하며, 상기 감정 표현 이미지 및 상기 산출된 감정 표현 변화도를 이용하여 상기 감정 표현 영상의 프레임을 생성하는 제2 생성자; 및상기 제2 생성자로부터 생성된 감정 표현 영상의 프레임을 기 설정된 비교 영상의 프레임과 비교하고, 상기 비교 결과에 따라 입력된 이미지가 비교 영상의 프레임인지 또는 감정 표현 영상의 프레임인지를 판단하며, 상기 판단 결과를 상기 제2 생성자로 피드백하는 제2 판별자를 포함하는, 감정 표현 영상 생성을 위한 학습 장치.
- 청구항 4에 있어서,상기 감정 표현 이미지는, 상기 텍스트에 포함된 감정 요소에 따라 감정 클래스로 분류된 이미지이며,상기 감정 클래스는, 행복, 슬픔, 놀람, 두려움, 화남, 경멸 및 역겨움 중 적어도 하나를 포함하는, 감정 표현 영상 생성을 위한 학습 장치.
- 청구항 5에 있어서,상기 제2 생성자는,상기 감정 표현 이미지에 대한 벡터 정보를 추출하여 제1 특징값을 산출하고, 상기 감정 표현 이미지의 감정 표현이 변화할 방향에 대한 벡터 정보를 추출하여 제2 특징값을 산출하고, 상기 비교 이미지에 대한 벡터 정보를 추출하여 제3 특징값을 산출하는 인코더부;상기 제1 특징값, 상기 제2 특징값 및 상기 제3 특징값을 기반으로 상기 감정 표현 변화 정도를 산출하고, 상기 제1 특징값, 상기 제2 특징값 및 상기 감정 표현 변화 정도를 이용하여 최종 특징값을 산출하는 변환부; 및상기 최종 특징값을 기반으로 상기 감정 표현 영상의 프레임을 생성하는 디코더부를 포함하는 오토인코더(Autoencoder)를 포함하는, 감정 표현 영상 생성을 위한 학습 장치.
- 하나 이상의 프로세서들, 및상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 감정 표현 영상 생성을 위한 학습 방법으로서,제1 생성적 적대 신경망(GAN; Generative Adversarial Networks)에서, 감정 표현 영상 생성을 위한 텍스트를 입력받고, 입력된 텍스트에 대해 임베딩(Embedding)을 수행하여 벡터 정보를 추출하며, 추출된 벡터 정보를 기반으로 이미지를 생성하는 단계; 및제2 생성적 적대 신경망에서, 감정 표현 이미지 및 비교 영상의 프레임을 입력받고, 이로부터 감정 표현 영상의 프레임을 생성하는 단계를 포함하는, 감정 표현 영상 생성을 위한 학습 방법.
- 청구항 7에 있어서,상기 이미지를 생성하는 단계는,제1 생성자가, 상기 입력된 텍스트에 대한 임베딩을 수행하여 벡터 정보를 추출하며, 상기 추출된 벡터 정보를 디컨벌루션(deconvolution) 신경망에 입력시켜 이미지를 생성하는 단계; 및제1 판별자가, 상기 제1 생성자로부터 생성된 이미지를 기 설정된 비교 이미지와 비교하고, 상기 비교 결과에 따라 입력된 이미지가 비교 이미지인지 또는 생성된 이미지인지의 여부를 판단하며, 상기 판단 결과를 상기 제1 생성자로 피드백하는 단계를 포함하는, 감정 표현 영상 생성을 위한 학습 방법.
- 청구항 8에 있어서,상기 제1 판별자는,상기 제1 생성자로부터 생성된 이미지를 컨벌루션(convolution) 신경망에 입력시켜 상기 비교 이미지와의 유사도를 산출하여 비교하는, 감정 표현 영상 생성을 위한 학습 방법.
- 청구항 7에 있어서,상기 감정 표현 영상의 프레임을 생성하는 단계는,제2 생성자가, 상기 감정 표현 이미지 및 비교 영상 프레임을 입력받고, 상기 감정 표현 이미지 및 상기 비교 영상 프레임으로부터 상기 감정 표현 이미지의 감정 표현에 대한 상기 비교 영상 프레임의 감정 표현 변화도를 산출하며, 상기 감정 표현 이미지 및 상기 산출된 감정 표현 변화도를 이용하여 상기 감정 표현 영상의 프레임을 생성하는 단계; 및제2 판별자가, 상기 제2 생성자로부터 생성된 감정 표현 영상의 프레임을 기 설정된 비교 영상의 프레임과 비교하고, 상기 비교 결과에 따라 입력된 이미지가 비교 영상의 프레임인지 또는 감정 표현 영상의 프레임인지를 판단하며, 상기 판단 결과를 상기 제2 생성자로 피드백하는 단계를 포함하는, 감정 표현 영상 생성을 위한 학습 방법.
- 청구항 10에 있어서,상기 감정 표현 이미지는, 상기 텍스트에 포함된 감정 요소에 따라 감정 클래스로 분류된 이미지이며,상기 감정 클래스는, 행복, 슬픔, 놀람, 두려움, 화남, 경멸 및 역겨움 중 적어도 하나를 포함하는, 감정 표현 영상 생성을 위한 학습 방법.
- 청구항 11에 있어서,상기 제2 생성자는,상기 감정 표현 이미지에 대한 벡터 정보를 추출하여 제1 특징값을 산출하고, 상기 감정 표현 이미지의 감정 표현이 변화할 방향에 대한 벡터 정보를 추출하여 제2 특징값을 산출하고, 상기 비교 이미지에 대한 벡터 정보를 추출하여 제3 특징값을 산출하는 인코더부;상기 제1 특징값, 상기 제2 특징값 및 상기 제3 특징값을 기반으로 상기 감정 표현 변화 정도를 산출하고, 상기 제1 특징값, 상기 제2 특징값 및 상기 감정 표현 변화 정도를 이용하여 최종 특징값을 산출하는 변환부; 및상기 최종 특징값을 기반으로 상기 감정 표현 영상의 프레임을 생성하는 디코더부;를 포함하는 오토인코더(Autoencoder)를 포함하는, 감정 표현 영상 생성을 위한 학습 방법.
- 감정 표현 영상 생성을 위한 텍스트를 입력받고, 입력된 텍스트에 대해 임베딩(Embedding)을 수행하여 벡터 정보를 추출하며, 추출된 벡터 정보를 기반으로 이미지를 생성하는 제1 생성적 적대 신경망(GAN; Generative Adversarial Networks);상기 텍스트를 입력받고, 입력된 텍스트에 포함된 감정 요소에 따라 감정 클래스를 분류하는 분류기; 및상기 제1 GAN에서 생성된 이미지 및 상기 분류기에 의하여 분류된 감정 클래스를 입력받고, 이로부터 감정 표현 영상의 프레임을 생성하는 제2 생성적 적대 신경망을 포함하는, 감정 표현 영상 생성 장치.
- 청구항 13에 있어서,상기 제2 생성적 적대 신경망은,상기 분류기에 의하여 분류된 감정 클래스에 대응하는 감정 표현 변화도를 추출하고, 상기 제1 GAN에서 생성된 이미지 및 상기 감정 표현 변화도를 이용하여 상기 감정 표현 영상의 프레임을 생성하는, 감정 표현 영상 생성 장치.
- 청구항 14에 있어서,상기 감정 표현 이미지는, 상기 텍스트에 포함된 감정 요소에 따라 감정 클래스로 분류된 이미지이며,상기 감정 클래스는, 행복, 슬픔, 놀람, 두려움, 화남, 경멸 및 역겨움 중 적어도 하나를 포함하는, 감정 표현 영상 생성 장치.
- 청구항 13에 있어서,상기 제2 생성적 적대 신경망은,상기 감정 표현 영상의 프레임 이후의 적어도 하나의 프레임들을 순차적으로 생성하여 상기 감정 표현 영상을 생성하는, 감정 표현 영상 생성 장치.
- 하나 이상의 프로세서들, 및상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 감정 표현 영상 생성 방법으로서,제1 생성적 적대 신경망(GAN; Generative Adversarial Networks)에서, 감정 표현 영상 생성을 위한 텍스트를 입력받고, 입력된 텍스트에 대해 임베딩(Embedding)을 수행하여 벡터 정보를 추출하며, 추출된 벡터 정보를 기반으로 이미지를 생성하는 단계;분류기에서, 상기 텍스트를 입력받고, 입력된 텍스트에 포함된 감정 요소에 따라 감정 클래스를 분류하는 단계; 및상기 제2 생성적 적대 신경망에서, 상기 제1 GAN에서 생성된 이미지 및 상기 분류기에 의하여 분류된 감정 클래스를 입력받고, 이로부터 감정 표현 영상의 프레임을 생성하는 단계를 포함하는, 감정 표현 영상 생성 방법.
- 청구항 17에 있어서,상기 감정 표현 영상의 프레임을 생성하는 단계는,상기 제2 생성적 적대 신경망에서, 상기 분류기에 의하여 분류된 감정 클래스에 대응하는 감정 표현 변화도를 추출하고, 상기 제1 GAN에서 생성된 이미지 및 상기 감정 표현 변화도를 이용하여 상기 감정 표현 영상의 프레임을 생성하는 단계를 더 포함하는, 감정 표현 영상 생성 방법.
- 청구항 17에 있어서,상기 감정 표현 영상의 프레임을 생성하는 단계는,상기 제2 생성적 적대 신경망에서, 상기 감정 표현 영상의 프레임 이후의 적어도 하나의 프레임들을 순차적으로 생성하여 상기 감정 표현 영상을 생성하는 단계를 더 포함하는, 감정 표현 영상 생성 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2020-0077424 | 2020-06-24 | ||
KR1020200077424A KR102504722B1 (ko) | 2020-06-24 | 2020-06-24 | 감정 표현 영상 생성을 위한 학습 장치 및 방법과 감정 표현 영상 생성 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021261688A1 true WO2021261688A1 (ko) | 2021-12-30 |
Family
ID=79031085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2020/017837 WO2021261688A1 (ko) | 2020-06-24 | 2020-12-08 | 감정 표현 영상 생성을 위한 학습 장치 및 방법과 감정 표현 영상 생성 장치 및 방법 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11568647B2 (ko) |
KR (1) | KR102504722B1 (ko) |
WO (1) | WO2021261688A1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115052193B (zh) * | 2022-05-25 | 2023-07-18 | 天翼爱音乐文化科技有限公司 | 视频推荐方法、系统、装置及存储介质 |
CN115099855B (zh) * | 2022-06-23 | 2024-09-24 | 广州华多网络科技有限公司 | 广告文案创作模型制备方法及其装置、设备、介质、产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100813668B1 (ko) * | 2006-12-20 | 2008-03-14 | 한국생산기술연구원 | 안드로이드 로봇의 감정표현 방법 |
KR101006191B1 (ko) * | 2002-08-06 | 2011-01-07 | 윤재민 | 가상인격체의 감정표현과 동작구현방법 |
KR101006491B1 (ko) * | 2003-06-10 | 2011-01-10 | 윤재민 | 자연어 기반 감정인식, 감정표현 시스템 및 그 방법 |
KR20190125029A (ko) * | 2018-04-27 | 2019-11-06 | 성균관대학교산학협력단 | 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치 |
US20200135226A1 (en) * | 2018-10-29 | 2020-04-30 | Microsoft Technology Licensing, Llc | Computing system for expressive three-dimensional facial animation |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102108129B1 (ko) * | 2013-09-25 | 2020-05-07 | 에스케이텔레콤 주식회사 | 텍스트 이모티콘 의미 해석 장치, 이를 위한 기록매체 |
KR102471754B1 (ko) | 2017-12-28 | 2022-11-28 | 주식회사 엔씨소프트 | 이미지 생성 시스템 및 방법 |
US11030744B2 (en) * | 2018-06-26 | 2021-06-08 | Astrazeneca Computational Pathology Gmbh | Deep learning method for tumor cell scoring on cancer biopsies |
KR102284796B1 (ko) * | 2019-05-20 | 2021-08-02 | 아주대학교 산학협력단 | 에지(edge) 이미지으로부터 컬러(color) 이미지를 생성하기 위한 GAN(generative adversarial networks) 기반 시스템 |
US12067474B2 (en) * | 2019-10-01 | 2024-08-20 | Samsung Electronics Co., Ltd. | Co-informatic generative adversarial networks for efficient data co-clustering |
US11205260B2 (en) * | 2019-11-21 | 2021-12-21 | International Business Machines Corporation | Generating synthetic defect images for new feature combinations |
-
2020
- 2020-06-24 KR KR1020200077424A patent/KR102504722B1/ko active IP Right Grant
- 2020-10-30 US US17/084,877 patent/US11568647B2/en active Active
- 2020-12-08 WO PCT/KR2020/017837 patent/WO2021261688A1/ko active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101006191B1 (ko) * | 2002-08-06 | 2011-01-07 | 윤재민 | 가상인격체의 감정표현과 동작구현방법 |
KR101006491B1 (ko) * | 2003-06-10 | 2011-01-10 | 윤재민 | 자연어 기반 감정인식, 감정표현 시스템 및 그 방법 |
KR100813668B1 (ko) * | 2006-12-20 | 2008-03-14 | 한국생산기술연구원 | 안드로이드 로봇의 감정표현 방법 |
KR20190125029A (ko) * | 2018-04-27 | 2019-11-06 | 성균관대학교산학협력단 | 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치 |
US20200135226A1 (en) * | 2018-10-29 | 2020-04-30 | Microsoft Technology Licensing, Llc | Computing system for expressive three-dimensional facial animation |
Also Published As
Publication number | Publication date |
---|---|
US11568647B2 (en) | 2023-01-31 |
KR20210158711A (ko) | 2021-12-31 |
US20210406554A1 (en) | 2021-12-30 |
KR102504722B1 (ko) | 2023-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022131497A1 (ko) | 이미지 생성을 위한 학습 장치 및 방법과 이미지 생성 장치 및 방법 | |
WO2021132927A1 (en) | Computing device and method of classifying category of data | |
US11093734B2 (en) | Method and apparatus with emotion recognition | |
WO2017213398A1 (en) | Learning model for salient facial region detection | |
WO2021261688A1 (ko) | 감정 표현 영상 생성을 위한 학습 장치 및 방법과 감정 표현 영상 생성 장치 및 방법 | |
WO2020253127A1 (zh) | 脸部特征提取模型训练方法、脸部特征提取方法、装置、设备及存储介质 | |
JP3346799B2 (ja) | 手話通訳装置 | |
WO2021196721A1 (zh) | 一种舱内环境的调整方法及装置 | |
WO2014051246A1 (en) | Method and apparatus for inferring facial composite | |
WO2021132797A1 (ko) | 반지도 학습 기반 단어 단위 감정 임베딩과 장단기 기억 모델을 이용한 대화 내에서 발화의 감정 분류 방법 | |
CN110738102A (zh) | 一种人脸识别方法及系统 | |
WO2013002473A1 (ko) | 부피 특징 벡터와 3차원 하르-유사 필터를 이용한 물체 검출 방법 및 장치 | |
WO2020149601A1 (ko) | 3d cnn을 이용한 고속 영상 인식 방법 및 장치 | |
CN114036336A (zh) | 基于语义划分的视觉文本属性对齐的行人图像搜索方法 | |
WO2018212584A2 (ko) | 딥 뉴럴 네트워크를 이용하여 문장이 속하는 클래스를 분류하는 방법 및 장치 | |
US20230036338A1 (en) | Method and apparatus for generating image restoration model, medium and program product | |
WO2019098454A1 (ko) | 텍스트 데이터를 표현하는 가상 핑거프린트를 생성 및 활용하기 위한 기법 | |
US20210326383A1 (en) | Search method and device, and storage medium | |
CN113158656A (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
WO2019132459A1 (ko) | 사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 방법 및 그 장치 | |
WO2020192523A1 (zh) | 译文质量检测方法、装置、机器翻译系统和存储介质 | |
CN117216536A (zh) | 一种模型训练的方法、装置和设备及存储介质 | |
WO2019031621A1 (ko) | 통화 중 감정을 인식하여 인식된 감정을 활용하는 방법 및 시스템 | |
WO2022131793A1 (en) | Method and apparatus for recognizing handwriting inputs in multiple-user environment | |
WO2022191366A1 (ko) | 전자 장치 및 그 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20941727 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20941727 Country of ref document: EP Kind code of ref document: A1 |